CN112749546B

CN112749546B - 医疗语义的检索匹配处理方法和装置

Info

Publication number: CN112749546B
Application number: CN202110045279.5A
Authority: CN
Inventors: 王继云; 罗萌; 林海
Original assignee: Dingdang Fast Medicine Technology Group Co ltd
Current assignee: Dingdang Fast Medicine Technology Group Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2023-01-17
Anticipated expiration: 2041-01-13
Also published as: CN112749546A

Abstract

本申请公开了一种医疗语义的检索匹配处理方法和装置。该方法包括基于预设词库的分词器对用户搜索词进行分词，得到用户搜索词包含的每个词元以及词元对应的词性；按照词性对用户搜索词包含的每个词元进行分组；将用户搜索词包含的每个词元进行逻辑组装，生成语义解析检索式，其中，语义解析检索式中不同分组的词元对应的语义解析单元之间为串联关系，相同分组的词元对应的语义解析单元之间为并联关系；按照涟漪扩散召回模型对语义解析检索式进行涟漪扩散召回，得到有效召唤信息。本申请解决现有技术中医药互联网短文本检索中无法形成准确检索条件的问题。

Description

医疗语义的检索匹配处理方法和装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种医疗语义的检索匹配处理方法和装置。

背景技术

在医药互联网短文本检索过程中，无法利用固有的主谓宾(名词、动词、形容词)等形态对短文本进行分类，从而形成严谨准确的检索条件，进而影响到最终的检索结果。

针对相关技术中医药互联网短文本检索中无法形成准确检索条件的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种医疗语义的检索匹配处理方法和装置，以解决现有技术中医药互联网短文本检索中无法形成准确检索条件的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种医疗语义的检索匹配处理方法，该方法包括：

基于预设词库的分词器对用户搜索词进行分词，得到所述用户搜索词包含的每个词元以及所述词元对应的词性，其中，所述预设词库中包含多个对照词元以及所述对照词元对应的词性；

按照词性对所述用户搜索词包含的每个词元进行分组；

将所述用户搜索词包含的每个词元进行逻辑组装，生成语义解析检索式，其中，所述语义解析检索式中不同分组的词元对应的语义解析单元之间为串联关系，相同分组的词元对应的语义解析单元之间为并联关系；

按照涟漪扩散召回模型对所述语义解析检索式进行涟漪扩散召回，得到有效召唤信息。

可选地，在所述按照词性对所述用户搜索词包含的每个词元进行分组之后，在所述将所述用户搜索词包含的每个词元进行逻辑组装之前，该方法还包括：

对每个分组中包含的词元对应的词性在所述预设词库中进行指定检索阈识别，以确定所述词元是否关联有提取ID；

当所述词元关联有提取ID时，将所述词元转换为提取ID。

可选地，所述按照涟漪扩散召回模型对所述语义解析检索式进行涟漪扩散召回，得到有效召唤信息，包括：

确定所述语义解析检索式在数据库中是否存在有效召唤信息；

当所述语义解析检索式在数据库中不存在有效召唤信息时，按照预设词性规则确定出待合并的所述分组，并将待合并的所述分组进行合并；

重新执行所述将所述用户搜索词包含的每个词元进行逻辑组装的步骤。

可选地，所述按照预设词性规则确定出待合并的所述分组，包括：

按照每个分组对应的优先级确定出待合并的所述分组，其中，每个分组对应的优先级由对应的词性预先设定。

可选地，所述按照预设词性规则确定出待合并的所述分组，还包括：

确定所述用户搜索词包含的分组数量是否大于指定阈值；

当所述用户搜索词包含的分组数量大于指定阈值时，基于指定阈值对应的数量执行所述按照每个分组对应的优先级确定出待合并的所述分组的步骤；

当所述用户搜索词包含的分组数量不大于指定阈值时，将所述用户搜索词包含的全部分组确定为待合并的所述分组。

可选地，该方法包括：

当所述语义解析检索式在数据库中存在有效召唤信息，得到所述有效召唤信息。

可选地，所述语义解析单元包括所述词元的用于通用名解析的子单元或用于文件检索域解析的子单元。

可选地，该方法还包括：

基于指定周期在指定医疗用品数据库中按照按规划词性拉取更新的词元；

并将更新的所述词元和对应的词性配置给所述分词器。

第二方面，本申请还提供了一种医疗语义的检索匹配处理装置，该装置包括：

分词模块，用于基于预设词库的分词器对用户搜索词进行分词，得到所述用户搜索词包含的每个词元以及所述词元对应的词性，其中，所述预设词库中包含多个对照词元以及所述对照词元对应的词性；

分组模块，用于按照词性对所述用户搜索词包含的每个词元进行分组；

组装模块，用于将所述用户搜索词包含的每个词元进行逻辑组装，生成语义解析检索式，其中，所述语义解析检索式中不同分组的词元对应的语义解析单元之间为串联关系，相同分组的词元对应的语义解析单元之间为并联关系；

召回模块，用于按照涟漪扩散召回模型对所述语义解析检索式进行涟漪扩散召回，得到有效召唤信息。

第三方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如上述的医疗语义的检索匹配处理方法被执行。

在本申请实施例提供的医疗语义的检索匹配处理方法中，通过基于预设词库的分词器对用户搜索词进行分词，得到所述用户搜索词包含的每个词元以及所述词元对应的词性，其中，所述预设词库中包含多个对照词元以及所述对照词元对应的词性；按照词性对所述用户搜索词包含的每个词元进行分组；将所述用户搜索词包含的每个词元进行逻辑组装，生成语义解析检索式，其中，所述语义解析检索式中不同分组的词元对应的语义解析单元之间为串联关系，相同分组的词元对应的语义解析单元之间为并联关系；按照涟漪扩散召回模型对所述语义解析检索式进行涟漪扩散召回，得到有效召唤信息。这样，通过词性对用户搜索词包含的每个词元进行分组，可以形成形成复杂检索条件(语义解析检索式)，再通过涟漪扩散召回的方式，当涟漪中心存在有效召唤信息则直接召回，反之则不断扩散涟漪范围圈(更新语义解析检索式)寻找有效召回，达到了在医药互联网短文本检索中形成准确检索条件的目的，在保障了检索高准确性同时解决了如何处理限定地域、供应不足等特殊情况。从而解决了现有技术中医药互联网短文本检索中无法形成准确检索条件的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例提供的一种医疗语义的检索匹配处理方法的流程图；

图2是本申请实施例提供的另一种医疗语义的检索匹配处理方法的流程图；

图3是本申请实施例提供的一种步骤400的流程图；

图4是本申请实施例提供的一种医疗语义的检索匹配处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请实施例提供了一种医疗语义的检索匹配处理方法，图1是本申请实施例提供的一种医疗语义的检索匹配处理方法的流程图，如图1所示，本申请实施例提供的医疗语义的检索匹配处理方法包括如下的步骤100至步骤400：

100，基于预设词库的分词器对用户搜索词进行分词，得到所述用户搜索词包含的每个词元以及所述词元对应的词性，其中，所述预设词库中包含多个对照词元以及所述对照词元对应的词性；

其中，词性可以包含常规属性商品名、品牌、标准三级分类、疾病、人群、剂型等医疗词性，还可以包含非医疗词性，例如，主(已知词性语义)谓(已知词性语义)宾(已知词性语义)和其它为识别修饰组(未知词性)。

具体的，先获取用户搜索词，并根据分词器对用户搜索词进行分词，从而得到用户搜索词包含的每个词元以及所述词元对应的词性。

例如，用户搜索词为仁和口腔溃疡，经过分词器分词后的词元分别为仁和(词性为品牌)、口腔(词性为部位)、口腔溃疡(词性为病症)、溃疡(词性为病症)。

此外，分词器可以采用Ansj分词器。

200，按照词性对所述用户搜索词包含的每个词元进行分组。

具体的，按照相同医疗词性的对应词元划分在一个分组中，例如，词元为口腔溃疡(词性为病症)、溃疡(词性为病症)，那么，口腔溃疡和溃疡在同一分组中，而非医疗词性对应的词元均划分在一个默认分组中。

300，将所述用户搜索词包含的每个词元进行逻辑组装，生成语义解析检索式，其中，所述语义解析检索式中不同分组的词元对应的语义解析单元之间为串联关系，相同分组的词元对应的语义解析单元之间为并联关系。

具体的，语义解析单元为一个词元在语义解析检索式中的表示形式，例如，词元为白药酊，其对应的语义解析单元为commonName＝'白药酊'，在同一个分组中的不同词元之间的语义解析单元为并联关系，该并列关系可以用“OR”表示，不同分组的词元对应的语义解析单元之间为串联关系，该串联关系可以用“AND”表示。这样，逻辑组装即将不同分组之间定义为串联关系，将分组内不同词元之间关系定义为并联关系，从而通过将所述用户搜索词包含的每个词元进行逻辑组装生成语义解析检索式。

400，按照涟漪扩散召回模型对所述语义解析检索式进行涟漪扩散召回，得到有效召唤信息。

具体的，按照涟漪扩散召回模型对对所述语义解析检索式进行涟漪扩散召回，即当涟漪中心存在有效召唤信息则直接召回，反之则不断扩散涟漪范围圈(更新语义解析检索式)寻找有效召回。

在本实施例中，通过词性对用户搜索词包含的每个词元进行分组，可以形成形成复杂检索条件(语义解析检索式)，再通过涟漪扩散召回的方式，当涟漪中心存在有效召唤信息则直接召回，反之则不断扩散涟漪范围圈(更新语义解析检索式)寻找有效召回，达到了在医药互联网短文本检索中形成准确检索条件的目的，在保障了检索高准确性同时解决了如何处理限定地域、供应不足等特殊情况。从而解决了现有技术中医药互联网短文本检索中无法形成准确检索条件的技术问题。

可选地，在所述步骤200，按照词性对所述用户搜索词包含的每个词元进行分组之后，在所述步骤300，将所述用户搜索词包含的每个词元进行逻辑组装之前，图2是本申请实施例还提供的另一种医疗语义的检索匹配处理方法的流程示意图，如图2所示，该方法还包括如下步骤210和步骤220：

210，对每个分组中包含的词元对应的词性在所述预设词库中进行指定检索阈识别，以确定所述词元是否关联有提取ID；

220，当所述词元关联有提取ID时，将所述词元转换为提取ID。

其中，症状、疾病、剂型等词性即使识别到词性也无法有对应映射id值，因为这些在商品侧也仅是nlp存在，无固定id映射值，因此，无法对全部词元映射提取ID，但是，是一些商品有强关联关系的字典码表值，这些都是能映射明确找到提取ID的，根据提取ID可以与商品强关联关系，因此，当当所述词元关联有提取ID时，将所述词元转换为提取ID。

例如，词元为跌打损伤，其词性为s-1，其可以直接向标准三级分类kv池提取id＝523；云南白药，其词性为b-1直接向品牌kv池提取id＝56，而跌打损伤和云南白药对应的语义解析单元分别为directoryId＝523和brandId＝56。

可选地，图3是本申请实施例还提供的一种步骤400的流程示意图，如图3所示，所述步骤400，按照涟漪扩散召回模型对所述语义解析检索式进行涟漪扩散召回，得到有效召唤信息，包括如下步骤410和步骤430：

410，确定所述语义解析检索式在数据库中是否存在有效召唤信息；

420，当所述语义解析检索式在数据库中不存在有效召唤信息时，按照预设词性规则确定出待合并的所述分组，并将待合并的所述分组进行合并；

重新执行所述步骤300，将所述用户搜索词包含的每个词元进行逻辑组装的步骤；

430，当所述语义解析检索式在数据库中存在有效召唤信息，得到所述有效召唤信息。

具体的，根据当前的语义解析检索式在数据库中进行检索，确定是否存在有效召唤信息，当所述语义解析检索式在数据库中存在有效召唤信息时，则得到有效召唤信息，当所述语义解析检索式在数据库中不存在有效召唤信息时，按照预设词性规则确定出待合并的所述分组，并将待合并的所述分组进行合并，之后，再次执行步骤300，直到得到有效召唤信息，即当涟漪中心存在有效召唤信息则直接召回，反之则不断扩散涟漪范围圈(更新语义解析检索式)寻找有效召回信息。

可选地，所述步骤420，按照预设词性规则确定出待合并的所述分组，包括如下步骤：

具体的，词性有对应预先设定的优先级，当需要合并分组时，由低优先级向高优先级词性对应的分组进行合并，也就是说，预设词性规则是按照预先设定的优先级向最高优先级滑动合并。

可选地，所述步骤420，按照预设词性规则确定出待合并的所述分组，还包括如下步骤：

确定所述用户搜索词包含的分组数量是否大于指定阈值；

具体的，先确定当前的分组数量是否大于指定阈值，当所述用户搜索词包含的分组数量大于指定阈值时，基于指定阈值对应的数量执行所述按照每个分组对应的优先级确定出待合并的所述分组的步骤，也就是说，根据指定阈值的数量确定出待合并的所述分组的数量，这样，通过设定指定阈值，可以调节合并分组的数量以及涟漪扩散召回整个过程的时间，避免合并速度过慢，以及带来较大的计算量，也就是说，涟漪扩散召回随着扩散层数深度过大会导致耗时明显上升，通过统计分层耗时结合可接受阈值(指定阈值)进行自动计算处理涟漪分层扩散跨度机制而保障准确性与性能间的衰减折中。当所述用户搜索词包含的分组数量不大于指定阈值时，将所述用户搜索词包含的全部分组确定为待合并的所述分组，也就是说，当所述用户搜索词包含的分组数量不大于指定阈值时，可以进行极限合并，将全部分组并不到一个分组中。

具体的，通用名解析可以得到商品的通用名，文件检索域解析可以得到商品文本信息综合存储字段。

可选地，该方法还包括：

并将更新的所述词元和对应的词性配置给所述分词器。

具体的，使用定时调度任务周期性(指定周期)拉取运营规划的SKU(StockKeeping Unit，库存量单位)常规属性商品名、品牌、标准三级分类、疾病、人群、剂型等按规划词性自动清洗进入指定词库并近实时生效，利用支持词性识别功能的分词器(例如，Ansj分词器，改造为仅识别自定义词性的term词元)灌入经过词性标注的指定词库，从而实现及时更新指定词库。

基于相同的技术构思，本申请还提供了一种医疗语义的检索匹配处理装置，图4是本申请实施例提供的一种医疗语义的检索匹配处理装置的结构示意图，如图4所示，该装置包括：

分词模块10，用于基于预设词库的分词器对用户搜索词进行分词，得到所述用户搜索词包含的每个词元以及所述词元对应的词性，其中，所述预设词库中包含多个对照词元以及所述对照词元对应的词性；

分组模块20，用于按照词性对所述用户搜索词包含的每个词元进行分组；

组装模块30，用于将所述用户搜索词包含的每个词元进行逻辑组装，生成语义解析检索式，其中，所述语义解析检索式中不同分组的词元对应的语义解析单元之间为串联关系，相同分组的词元对应的语义解析单元之间为并联关系；

召回模块40，用于按照涟漪扩散召回模型对所述语义解析检索式进行涟漪扩散召回，得到有效召唤信息。

本实施例的医疗语义的检索匹配处理装置用于医疗语义的检索匹配处理方法，因此该装置中的具体实施方式可见前文中的医疗语义的检索匹配处理方法的实施例部分，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

可选地，分组模块还用于：

当所述词元关联有提取ID时，将所述词元转换为提取ID。

可选地，召回模块，具体用于：

确定所述用户搜索词包含的分组数量是否大于指定阈值；

当所述用户搜索词包含的分组数量不大于指定阈值时，将所述用户搜索词包含的全部分组确定为待合并的所述分组；

可选地，该装置还包括：

拉取模块，用于基于指定周期在指定医疗用品数据库中按照按规划词性拉取更新的词元；

更新模块，用于并将更新的所述词元和对应的词性配置给所述分词器。

基于相同的技术构思，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如上述的医疗语义的检索匹配处理方法被执行。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的计算机可读存储介质的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

本申请所涉及的计算机程序可以存储于计算机可读存储介质中，计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体装置、虚拟装置、优盘、移动硬盘、磁碟、光盘、计算机存储器、只读计算机存储器(Read-Only Memory，ROM)、随机存取计算机存储器(Random Access Memory，RAM)、电载波信号、电信信号以及其他软件分发介质等。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种医疗语义的检索匹配处理方法，其特征在于，该方法包括：

按照词性对所述用户搜索词包含的每个词元进行分组；

按照涟漪扩散召回模型对所述语义解析检索式进行涟漪扩散召回，得到有效召唤信息；

所述按照涟漪扩散召回模型对所述语义解析检索式进行涟漪扩散召回，得到有效召唤信息，包括：

2.如权利要求1所述的医疗语义的检索匹配处理方法，其特征在于，在所述按照词性对所述用户搜索词包含的每个词元进行分组之后，在所述将所述用户搜索词包含的每个词元进行逻辑组装之前，该方法还包括：

当所述词元关联有提取ID时，将所述词元转换为提取ID。

3.如权利要求1所述的医疗语义的检索匹配处理方法，其特征在于，所述按照预设词性规则确定出待合并的所述分组，包括：

4.如权利要求3所述的医疗语义的检索匹配处理方法，其特征在于，所述按照预设词性规则确定出待合并的所述分组，还包括：

确定所述用户搜索词包含的分组数量是否大于指定阈值；

5.如权利要求1所述的医疗语义的检索匹配处理方法，其特征在于，该方法包括：

6.如权利要求1所述的医疗语义的检索匹配处理方法，其特征在于，所述语义解析单元包括所述词元的用于通用名解析的子单元或用于文件检索域解析的子单元。

7.如权利要求1所述的医疗语义的检索匹配处理方法，其特征在于，该方法还包括：

并将更新的所述词元和对应的词性配置给所述分词器。

8.一种医疗语义的检索匹配处理装置，其特征在于，所述装置用于执行权利要求1-7中任意一项所述的方法，所述装置包括：

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如权利要求1-7任一项所述的医疗语义的检索匹配处理方法被执行。