CN103678435B

CN103678435B - 一种药品规格数据相似度匹配方法

Info

Publication number: CN103678435B
Application number: CN201310286121.2A
Authority: CN
Inventors: 王妍; 张矩; 黄运高; 向林泓; 赵学良; 杨涌; 王湘
Original assignee: Chongqing Pharmaceutical Exchange Ltd By Share Ltd; Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing pharmaceutical exchange Limited by Share Ltd; Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2013-07-08
Filing date: 2013-07-08
Publication date: 2017-02-08
Anticipated expiration: 2033-07-08
Also published as: CN103678435A

Abstract

本发明提供一种药品规格数据相似度匹配方法，用于将采集的药品规格数据与标准库中的药品规格数据相匹配，首先生成语料库主题词信息量文件和前置词信息量文件，该方法还包括如下步骤：（1）将药品规格数据转化为分层链表形式的数据结构；（2）在标准库中找到与采集的药品规格数据有效成分含量相同的标准药品规格数据集S；（3）找到采集的药品规格数据和标准药品规格数据集S的前置词和主题词的信息量；（4）计算采集的药品规格数据和标准药品规格数据集S的相似度；（5）选取相似度最大的标准药品规格数据作为采集的药品规格数据的匹配数据。相对于现有技术，本发明提高了药品规格数据相似度计算的准确度。

Description

一种药品规格数据相似度匹配方法

技术领域

本发明涉及自然语言处理领域，特别涉及药品规格数据的相似度计算以及匹配方法。

背景技术

当前，在自然语言处理领域，文本相似度在很多方面中有着广泛的应用，如信息检索、信息抽取、文本分类、词义排歧、机器翻译等等。文本相似度是表示两个或多个文本数据匹配程度的一个度量参数，相似度值越大，说明文本相似度越高，反之文本相似度越低。

虽然国内外对于文本相似度的计算方法已经有了大量的研究，且均在特定领域取得了良好的效果，但由于药品规格数据的特殊性，直接套用其他领域的相似度计算方法并不能取到很好的匹配效果；另外，有些方法复杂度太大，影响匹配效率。

发明内容

针对现有技术存在的问题，本发明的主要目的在于提供针对药品规格数据，匹配准确度高的数据相似度匹配方法。

为实现上述目的，本发明提供一种药品规格数据相似度匹配方法的实施例，用于将采集的药品规格数据与标准库中的药品规格数据相匹配，该药品规格数据包含药品的有效成分和有效成分含量，首先进行数据准备工作：在语料库中找出所有主题词和前置词，分别计算主题词和前置词的信息量，生成语料库主题词信息量文件和前置词信息量文件，该方法还包括如下步骤：

（1）将采集的药品规格数据和标准库的药品规格数据转化为分层链表形式的数据结构；

（2）在标准库中找到与采集的药品规格数据有效成分含量相同的标准药品规格数据集S；

（3）在语料库主题词信息量文件和前置词信息量文件中分别找到采集的药品规格数据和标准药品规格数据集S的前置词和主题词的信息量；

（4）利用采集的药品规格数据和标准药品规格数据集S的前置词和主题词的信息量，计算采集的药品规格数据和标准药品规格数据集S中的标准药品规格数据的相似度；

（5）在标准药品规格数据集S中选取相似度最大的标准药品规格数据作为采集的药品规格数据的匹配数据。

进一步地，步骤在语料库中找出所有主题词和前置词具体包含如下步骤：

（1）导入语料库，以药品名词典对导入的语料库进行中文分词处理，保存分词结果，可利用中文分词引擎对导入的语料库进行中文分词处理。

（2）遍历分词结果，将分词结果中的药品名词作为主题词，药品名词前面的中文词汇作为前置词。

进一步地，步骤分别计算主题词和前置词的信息量具体包含如下步骤：

（1）统计主题词的TF值，统计前置词的RIDF值，主题词的TF值TFCWkey)=COUnt(Wkey)/Σ_w∈SMNCOUnt(W),前置词的RIDF值

RIDF(Wpre)=Σ_w∈SMNCout(Wpre+W)/Σ_w∈SMNCount(W),其中Wkey代表主题词，Count(Wkey)代表主题词出现的次数，SMN代表药品名词典中的药品名称集合，W代表药品名称集合中的词，Count(W)代表词出现的次数，Wpre代表前置词，Count(Wpre)代表前置词出现的次数；

（2）计算主题词和前置词的信息量，主题词的信息量I(Wkey)=TF(Wkey),前置词的信息量

进一步地，步骤将采集的药品规格数据和标准库的药品规格数据转化为分层链表形式的数据结构具体包含如下步骤：

（1）统一采集的药品规格数据和标准库的药品规格数据中有效成分含量的单位；

（2）针对采集的药品规格数据和标准库的药品规格数据进行BNF语法规则定义；

（3）采用语法分析生成器对采集的药品规格数据和标准库的药品规格数据进行语法分析，生成分层链表形式的数据结构。该语法分析生成器为JAVACC。

更进一步地，采集的药品规格数据和标准药品规格数据的相似度具体为：

Sim(Item_processing,Item_stand)=

\frac{I {(wpre 1) * I (wpre 2) + I (wkey)}^{2}}{\sqrt{{I (wpre 1)}^{2} + I {(wkey)}^{2}} * \sqrt{I {(wpre 2)}^{2} + {I (wkey)}^{2}}},

其中Item_processing为采集的药品规格数据，Item_stand为标准药品规格数据集S中的标准药品规格数据，I(Wpre1)为Item_processing的前置词的信息量，I(Wpre2)为Item_stand的前置词的信息量，I(Wkey)为Item_processing和Item_stand共同的主题词的信息量。

本发明相对于现有技术，在计算主题词的TF值和前置词的RIDF值的基础上进行药品规格数据的相似度计算，提高了药品规格数据相似度计算的准确度。

附图说明

图1是药品规格数据相似度匹配方法实施例的流程图

图2是药品规格数据转化为分层链表形式的数据结构示意图

具体实施方式

下面结合附图，详细说明本发明的具体实施方式。

本发明提供一种将采集的非标准的药品规格数据与标准数据库中的药品规格数据进行匹配的处理方法。如表1所示，一般药品数据主要由药品名称、生产企业、药品规格、剂型、转换系数五个参数确定，而药品规格的形式最为复杂。药品规格包含如下信息：药品有效成分、药品各成分的含量、总含量等，通过标点符号以及介词短语来进行连接，如表1中广东逸舒制药有限公司生产的化痰消咳片其中一种参数规格为“300mg:3mg(亚硫酸氢钾苯丙酮)-20mg(鱼腥草素钠)”，那么对于双括号“()”就可以理解为对300mg:3mg的补充说明，而“-”则可以理解为并列符号，前面一段和后面一段的权重相等。人工生成的药品规格数据格式千差万别，难以通过计算机进行有效的匹配和识别，本发明正是要解决这一问题。

表1标准数据库中的和非标准的药品数据示意图

如图1所示，为药品规格数据相似度匹配方法实施例的流程图。用于将采集的药品规格数据与标准库中的药品规格数据相匹配，该药品规格数据相似度匹配方法具体包含如下步骤A～步骤D：

步骤A：将采集的药品规格数据和标准库的药品规格数据进行结构化处理，并将药品规格数据转化为分层链表形式的数据结构；

步骤B：数据准备：将中文词汇分为主题词和前置词两种，在语料库中找出所有主题词和前置词，分别计算主题词和前置词的信息量，生成语料库主题词信息量文件和前置词信息量文件，步骤B可以在步骤A之前单独预先进行，将结果保存在文件中，以供使用，也可以在步骤A之后进行；

步骤C：数据相似度计算：利用二维向量夹角的余弦来计算采集的药品规格数据和标准药品规格数据的相似度；

步骤D：数据配对：选取相似度最大的标准药品规格数据作为采集的药品规格数据的匹配数据。

步骤A将药品规格数据转化为分层链表形式的数据结构包括以下步骤A1～A3：

步骤A1：统一数据单位：将采集的药品规格数据和标准库的药品规格数据进行标准化处理，即利用各种单位之间的转算关系，自动进行单位的换算，将药品规格数据中的单位（如有效成分含量的单位）进行统一，可统一为毫克(mg)；

步骤A2：定义语法规则：针对采集的药品规格数据和标准库的药品规格数据进行BNF语法规则定义，语法定义规则如下（针对所有的药品规格数据，均采用如下的BNF语法规则定义）：

expr::=LPAREN term RPAREN SUBSET*term*|term SUBSET*(LPAREN termRPAREN)*

term::=numterm(<mul>numterm)*|chiterm(numterm)*(chiterm)*(numterm)*|chitermengternnumterm

numterm::=<number><unit>*

chiterm::=<Chinese>

engtern::=<English>

步骤A3：采用语法分析生成器JAVACC，以步骤A2定义的语法规则对采集的药品规格数据和标准库的药品规格数据逐条进行语法分析，生成分层链表形式的数据结构（如图2所示）。

步骤B数据准备包括以下步骤B1～B8：

步骤B1：导入准备好的语料库，选择的语料库可以是和药品相关的网页文本的语料数据，用以处理药品名称。利用中文分词引擎以药品名词典对导入的语料库进行中文分词处理，分词是对文本进行切割，生成“词-词性”的元组的序列。保存分词结果，用于指导药品规格数据的匹配；

步骤B2：遍历分词结果；

步骤B3：判断是否遍历完成，若遍历完成，表明所有的分词结果已处理完毕，则进入步骤B7，否则，进入步骤B4；

步骤B4：判断分词结果是否为药品名词，若是，则进入步骤B5，否则，返回步骤B2；

步骤B5：将分词结果中的药品名词认定为主题词，统计该主题词的TF值TF(Wkey)，TF(Wkey)=Count(Wkey)/Σ_w∈SMNCount(W),用该值来估计Wkey作为主题词的概率P(Wkey)，其中Wkey代表主题词，Count(Wkey)代表主题词出现的次数，SMN代表药品名词典中的药品名称集合，W代表药品名称集合中的词，Count(W)代表词出现的次数；

步骤B6：将药品名词前面的一个中文词汇认定为前置词，统计该前置词的RIDF值RIDF(Wpre)，用该值来估计Wpre被用来作为药品成分前置词的概率P(Wpre)，RIDF(Wpre)=Σ_W∈SMNCount(Wpre+W)/Σ_w∈SNNCOUIIt(W),其中Wpre代表前置词，Count(Wpre)代表前置词出现的次数，SMN代表药品名词典中的药品名称集合，W代表药品名称集合中的词，Count(W)代表词出现的次数，并返回步骤B2；

步骤B7：计算主题词的信息量I(Wkey)，I(Wkey)=TF(Wkey),输出到文件medicine_name.i；

文件medicine_name.i的形式如下所示，即按一个主题词对应一个主题词的信息量来保存：

Wkey1 I(Wkey1)

Wkey2 I(Wkey2)

……

WkeyM I(WkeyM)

步骤B8：计算前置词的信息量I(Wpre)，输出到文件preposition_word.i。

文件preposition_word.i的形式如下所示，即按一个前置词对应一个前置词的信息量来保存：

Wpre1 I(Wpre1)

Wpre2 I(Wpre2)

……

WpreN I(WpreN)

步骤C数据相似度计算包括以下步骤C1～C5：

步骤C1：读取步骤B生成的前置词信息量文件preposition_word.i以及主题词信息量文件medicine_name.i到内存中；

步骤C2：遍历采集的药品规格数据集合，将采集的药品规格数据保存至Item_processing；

步骤C3：判断是否遍历完成，如是，表明所有的药品规格数据已匹配完成，则结束流程，否则，进入步骤C4；

步骤C4：遍历标准库，在标准库中找到与采集的药品规格数据Item_processing相似的标准药品规格数据集S，标准药品规格数据集S包含若干标准药品规格数据Item_stand，方法为：首先在标准库中找到与采集的药品规格数据Item_processing的药品名称、生产企业等属性相同的数据，然后将这些数据的药品规格数据与采集的药品规格数据进行分层链表结构的对比，找到有效成分含量相同的标准药品规格数据集S；

步骤C5：计算Item_processing与标准药品规格数据集S中各标准药品规格数据Item_stand的相似度，包括如下步骤C51～C53：

步骤C51：针对每一个采集的药品规格数据Item_processing，在语料库主题词信息量文件medicine_name.i和前置词信息量文件preposition_word.i中找到采集的药品规格数据Item_processing前置词和主题词的信息量；

步骤C52：在语料库主题词信息量文件medicine_name.i和前置词信息量文件preposition_word.i中找到标准药品规格数据集S中所有标准药品规格数据Item_stand的前置词和主题词的信息量；

步骤C53：针对每一个药品规格数据，利用采集的药品规格数据Item_processing和标准药品规格数据Item_stand前置词和主题词的信息量，计算采集的药品规格数据Item_processing和标准药品规格数据Item_stand的相似度；Sim(Item_processing,Item_stand)=

\frac{I {(wpre 1) * I (wpre 2) + I (wkey)}^{2}}{\sqrt{{I (wpre 1)}^{2} + I {(wkey)}^{2}} * \sqrt{I {(wpre 2)}^{2} + {I (wkey)}^{2}}},

步骤D数据配对包括以下步骤D1：

步骤D1：在标准药品规格数据集S中选取相似度最大的标准药品规格数据Item_stand作为采集的药品规格数据Item_processing的匹配数据。

以上介绍了一种药品规格数据相似度匹配方法，本发明还可有其他多种实施例。本发明并不限定于以上实施例，任何未脱离本发明技术方案，即仅仅对其进行本领域普通技术人员所知悉的改进或变更，均属于本发明的保护范围之内。

Claims

1.一种药品规格数据相似度匹配方法，用于将采集的药品规格数据与标准库中的药品规格数据相匹配，所述药品规格数据包含药品的有效成分和有效成分含量，其特征在于：在语料库中找出所有主题词和前置词，分别计算主题词和前置词的信息量，生成语料库主题词信息量文件和前置词信息量文件，所述药品规格数据相似度匹配方法还包括如下步骤：

（3）在语料库主题词信息量文件和前置词信息量文件中分别找到所述采集的药品规格数据和标准药品规格数据集S的前置词和主题词的信息量；

2.如权利要求1所述的药品规格数据相似度匹配方法，其特征在于：所述步骤在语料库中找出所有主题词和前置词包含如下步骤：

（1）导入语料库，以药品名词典对导入的语料库进行中文分词处理，保存分词结果；

3.如权利要求2所述的药品规格数据相似度匹配方法，其特征在于：利用中文分词引擎对导入的语料库进行中文分词处理。

4.如权利要求3所述的药品规格数据相似度匹配方法，其特征在于：所述步骤分别计算主题词和前置词的信息量包含如下步骤：

（1）统计主题词的TF值，统计前置词的RIDF值，所述主题词的TF值TF(Wkey)=Count(Wkey)/Σ_w∈SMNCount(W)，所述前置词的RIDF值RIDF(Wpre)=Σ_W∈SMNCount(Wpre+W)/Σ_w∈ _SMNCount(W),其中Wkey代表主题词，Count(Wkey)代表主题词出现的次数，SMN代表药品名词典中的药品名称集合，W代表药品名称集合中的词，Count(W)代表词出现的次数，Wpre代表前置词，Count(Wpre)代表前置词出现的次数；

（2）计算主题词和前置词的信息量，所述主题词的信息量I(Wkey)=TF(Wkey),所述前置词的信息量

5.如权利要求1-4任一所述的药品规格数据相似度匹配方法，其特征在于：所述步骤将采集的药品规格数据和标准库的药品规格数据转化为分层链表形式的数据结构包含如下步骤：

（3）采用语法分析生成器对采集的药品规格数据和标准库的药品规格数据进行语法分析，生成分层链表形式的数据结构。

6.如权利要求5所述的药品规格数据相似度匹配方法，其特征在于：所述语法分析生成器为JAVACC。

7.如权利要求5所述的药品规格数据相似度匹配方法，其特征在于：采集的药品规格数据和标准药品规格数据的相似度具体为：

Sim(Item_processing,Item_stand)=

\frac{I {(wpre 1) * I (wpre 2) + I (wkey)}^{2}}{\sqrt{{I (wpre 1)}^{2} + I {(wkey)}^{2}} * \sqrt{I {(wpre 2)}^{2} + {I (wkey)}^{2}}},