CN103177087B

CN103177087B - 一种基于概率主题模型的相似中药检索方法

Info

Publication number: CN103177087B
Application number: CN201310074221.9A
Authority: CN
Inventors: 张引; 魏宝刚; 庄越挺; 申晨; 王李东; 凌超
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-03-08
Filing date: 2013-03-08
Publication date: 2016-05-18
Anticipated expiration: 2033-03-08
Also published as: CN103177087A

Abstract

本发明公开了一种基于概率主题模型的相似中草药检索方法。首先通过光学字符识别工具将“中华药典”、“中华本草”中的中草药信息转成数字文本。使用正则表达式方法将中草药的功效、性味、归经等信息提取出来，建立中草药信息库。分别根据中草药的功效、性味、归经属性生成对应的向量空间，并通过概率主题模型对功效的向量空间进行调整。最后根据余弦系数计算中草药间功效、性味、归经属性的相似度，产生中草药相似性数据库。用户输入一味中草药的名称，系统通过查找相应的中草药药对相似性信息库，将该味中草药及其相似中草药以关系图的方式直观的展示出来。本发明可以根据属性相似度检索相关中草药，对于中草药学习，促进中草药信息化意义重大。

Description

一种基于概率主题模型的相似中药检索方法

技术领域

本发明涉及文本挖掘领域、中医药理论和Flex展示技术。特别是涉及一种基于概率主题模型的相似中药检索方法。

背景技术

中医指中国传统医学，是研究人体生理、病理以及疾病的诊断和防治等的一门学科。它承载着中国古代人民同疾病作斗争的经验和理论知识，是在古代朴素的唯物论和自发的辨证法思想指导下，通过长期医疗实践逐步形成并发展成的医学理论体系。但是由于中医理论缺乏形式化表达和公众普及，人们很难直观的接触并理解中医药知识。鉴于此，本案发明人的关注点在于如何将中医的基本原理以一种直观的方式展示出来，从而推动中医药信息化的发展。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于概率主题模型的相似中药检索方法。

基于概率主题模型的相似中药检索方法包括以下步骤：

1）应用光学字符识别工具对DjVu格式的“中华人民共和国药典”、“中华本草”进行光学字符识别处理，将纸质资料转换成数字化文本资料，然后运用正则表达式对数字化文本进行信息抽取，将不同中草药的信息、相同中草药的不同信息分离开来，建立中草药信息库；

2）应用中草药分词系统对中草药信息库的中草药性味、中草药归经、中草药功效属性进行分词，去停用词，根据分词结果对中草药性味、中草药归经、中草药功效属性进行量化；

3）针对中草药功效属性应用概率主题模型方法，结合中草药性味、中草药归经的属性量化数据，对中草药从性味、归经、功效进行属性间相似度计算，得到中草药相似性数据库；

4）用户先输入待查询的中草药名称，然后根据需要勾选相似属性选项，根据所输入的中草药名称和勾选的属性去查询相应的中草药相似性数据库表，检索出与输入中草药所需属性相似的中草药，并将检索结果通过Flex技术以关系图的方式展示给用户，点击连线可以查询中草药信息库，获得相似中草药性味、中草药归经、中草药功效属性详细信息。

所述中草药的性味分词为：“四气五味”，即辛、甘、苦、酸、温、寒、咸、凉、热、涩、平、淡、毒，中草药的性味量化时要考虑程度差别，“微”取值0.2，“大”取值1，“小”取值0.3，使用量化后的值构造向量空间；

所述中草药的归经分词为：“十二腑脏经络”，即心经、肝经、脾经、肺经、肾经、胃经、大肠经、小肠经、膀胱经、胆经、心包经、三焦经，采用0-1量化构造向量空间；

所述中草药的功效分词时采用标点符号断句、二元切分的方法、0-1量化构造向量空间。

所述步骤3）包括：

（1）将疾病的描述跟医案中相关症状的描述分词，去停用词，表示成<word1><word1_count><word2><word2_count><word3><word3_count>...的格式，并以此构造为语料库；

（2）在语料库上执行Gibbssampling算法，获得语料库中涉及的主题及每个单词在给定主题下的概率，在迭代抽样完成后，给定单词w_i在主题t_j下的概率P(w_n|t_i)定义如下：

P (w_{n} | t_{i}) = \frac{C_{t_{i}}^{w_{n}} + β}{Σ_{n = 1}^{N} C_{t_{i}}^{w_{n}}}

其中是单词w_n在主题t_i下取样的次数，β为算法参数，在这里我们取β为0.01；

（3）使用TF-IDF方法构造功效的向量空间V_i，向量空间V_i中第j个值为

V_i ^j＝tf_ij×log(D/df_i)

其中D是语料库中文档的数目，df_i是单词w_i出现的文档数目，tf_ij是单词w_i出现在文档d_j的数目；

（4）对于两个经过分词和去停用词处理的中草药功效文本d_i，d_j，使用如下公式来获得辨识词集D(d_i)，D(d_j)：

D (d_{i}) = {w | w &Element; d_{i}, w &NotElement; d_{j}}

D (d_{j}) = {w | w &Element; d_{j}, w &NotElement; d_{i}}

（5）对于每一个主题t_i，分别从两个中草药功效文本的辨识词集中找到在t_i具有最大概率值的单词w_m、w_n，如果单词w_m和w_n的概率值大于规定的阈值0.1，用如下公式来修改中草药的功效文本d₁、d₂的向量空间和

v_{n}^{(1)} = v_{n}^{(1)} + v_{n}^{(2)} \times P (w_{n} | t_{i})

v_{m}^{(2)} = v_{m}^{(2)} + v_{m}^{(1)} \times P (w_{m} | t_{i})

其中P(w_n|t_i)是给定单词w_n在主题t_i下的概率；

（6）分别根据余弦系数计算中草药的功效-功效、中草药的性味-性味、中草药的归经-归经的相似度Sim(v⁽¹⁾,v⁽²⁾)，

Sim (v^{(1)}, v^{(2)}) = \frac{v^{(1)} \cdot v^{(2)}}{| v^{(1)} | | v^{(2)} |}

（7）将中草药药对之间的功效-功效、性味-性味、归经-归经相似度归一化，

y = \frac{x - MinValue}{MaxValue - MinValue}

其中x、y表示转换前、后的值，MaxValue、MinValue分别为相应样本的最大值和最小值；

（8）算数平均得到中草药药对之间功效-性味的相似度，性味-归经的相似度，功效-归经的相似度，功效-性味-归经的相似度；

（9）将相似度大于指定阈值的中草药药对存入相应数据库表中，取阈值为0.5。

本发明与现有技术相比具有的有益效果：

1）将晦涩的中医药知识转换为简单易懂的关系图，有助于促进中医理论形式化表达；

2）将计算机技术用于中医药理论的研究当中，从而为两者的结合积累一定的经验；

3）更有利于中医药初学者对中医药的学习及理解。

附图说明

图1是本发明的基于中草药相似度的展示界面。

具体实施方式

基于概率主题模型的相似中药检索方法包括以下步骤：

所述步骤3）包括：

P (w_{n} | t_{i}) = \frac{C_{t_{i}}^{w_{n}} + β}{Σ_{n = 1}^{N} C_{t_{i}}^{w_{n}}}

V_i ^j＝tf_ij×log(D/df_i)

D (d_{i}) = {w | w &Element; d_{i}, w &NotElement; d_{j}}

D (d_{j}) = {w | w &Element; d_{j}, w &NotElement; d_{i}}

v_{n}^{(1)} = v_{n}^{(1)} + v_{n}^{(2)} \times P (w_{n} | t_{i})

v_{m}^{(2)} = v_{m}^{(2)} + v_{m}^{(1)} \times P (w_{m} | t_{i})

其中P(w_n|t_i)是给定单词w_n在主题t_i下的概率；

Sim (v^{(1)}, v^{(2)}) = \frac{v^{(1)} \cdot v^{(2)}}{| v^{(1)} | | v^{(2)} |}

（7）将中草药药对之间的功效-功效、性味-性味、归经-归经相似度归一化，5

y = \frac{x - MinValue}{MaxValue - MinValue}

实施例

1、将步骤1）得到的中草药信息建立中草药信息库。medId字段为中草药编号，medNameZH字段为中草药名称，medTropisw字段为中草药的归经，medFunction字段为中草药的功效，medProperty字段为中草药的归经，medphaAction字段为中草药的药理作用，medProcess字段为中草药的炮制过程，medAttention字段为中草药的禁忌，medclinicalPractice字段为中草药的临床应用，medRemark字段为中草药的文献论述，medEnvironment字段为中草药的生长环境，medUsage字段为中草药的用法，medOrigin字段为中草药的基源，medchemComposition字段为中草药的化学组成，medAlias字段为中草药的别名；

2、对中草药信息库中的中草药功效、中草药性味、中草药归经按照步骤2）的方法进行分词，并建立向量空间；

3、对向量空间按照步骤3）进行相似度计算，得到中草药药对相似性信息库，medAName字段为相似中草药对中一个中草药名称，medBName字段为相似中草药对中另一个中草药名称，ratio为相似中草药对的相似度；

4、输入需要查询相似性的中草药药材名称；

5、在“功效”、“性味”、“归经”中选择想要查询的属性（可任意选择但至少选择一个）；

6、点击搜索按钮进行检索；

7、系统根据输入的中草药药材名称和选择的属性，将相应的中草药药对相似性信息库中符合条件的中药对返回。

8、通过Flex技术将返回的中草药药对以关系图的方式展示出来。

本实例的运行结果如图1所示，用户输入的中草药药材名称为“麻黄”，并选择“功效”、“性味”两个属性，检索结果显示为麻黄的相似中药，及麻黄的相似中药的相似中药所组成的关系图。

Claims

1.一种基于概率主题模型的相似中药检索方法，其特征在于包括以下步骤：

1)应用光学字符识别工具对DjVu格式的“中华人民共和国药典”、“中华本草”进行光学字符识别处理，将纸质资料转换成数字化文本资料，然后运用正则表达式对数字化文本进行信息抽取，将不同中草药的信息、相同中草药的不同信息分离开来，建立中草药信息库；

2)应用中草药分词系统对中草药信息库的中草药性味、中草药归经、中草药功效属性进行分词，去停用词，根据分词结果对中草药性味、中草药归经、中草药功效属性进行量化；

3)针对中草药功效属性应用概率主题模型方法，结合中草药性味、中草药归经的属性量化数据，对中草药从性味、归经、功效进行属性间相似度计算，得到中草药相似性数据库；

4)用户先输入待查询的中草药名称，然后根据需要勾选相似属性选项，根据所输入的中草药名称和勾选的属性去查询相应的中草药相似性数据库表，检索出与输入中草药所需属性相似的中草药，并将检索结果通过Flex技术以关系图的方式展示给用户，点击连线可以查询中草药信息库，获得相似中草药性味、中草药归经、中草药功效属性详细信息；

所述步骤3)包括：

(1)将疾病的描述跟医案中相关症状的描述分词，去停用词，表示成<word1><word1_count><word2><word2_count><word3><word3_count>...的格式，并以此构造为语料库；

(2)在语料库上执行Gibbssampling算法，获得语料库中涉及的主题及每个单词在给定主题下的概率，在迭代抽样完成后，给定单词w_i在主题t_j下的概率P(w_n|t_i)定义如下：

P (w_{n} | t_{i}) = \frac{C_{t_{i}}^{w_{n}} + β}{Σ_{n = 1}^{N} C_{t_{i}}^{w_{n}}}

(3)使用TF-IDF方法构造功效的向量空间V_i，向量空间V_i中第j个值为

V_i ^j＝tf_ij×log(D/df_i)

(4)对于两个经过分词和去停用词处理的中草药功效文本d_i，d_j，使用如下公式来获得辨识词集D(d_i)，D(d_j)：

D (d_{i}) = {w | w &Element; d_{i}, w &NotElement; d_{j}}

D (d_{j}) = {w | w &Element; d_{j}, w &NotElement; d_{i}}

(5)对于每一个主题t_i，分别从两个中草药功效文本的辨识词集中找到在t_i具有最大概率值的单词w_m、w_n，如果单词w_m和w_n的概率值大于规定的阈值0.1，用如下公式来修改中草药的功效文本d₁、d₂的向量空间和

v_{n}^{(1)} = v_{n}^{(1)} + v_{n}^{(2)} \times P (w_{n} | t_{i})

v_{m}^{(2)} = v_{m}^{(2)} + v_{m}^{(1)} \times P (w_{m} | t_{i})

其中P(w_n|t_i)是给定单词w_n在主题t_i下的概率；

(6)分别根据余弦系数计算中草药的功效-功效、中草药的性味-性味、中草药的归经-归经的相似度Sim(v⁽¹⁾,v⁽²⁾)，

S i m (v^{(1)}, v^{(2)}) = \frac{v^{(1)} \cdot v^{(2)}}{| v^{(1)} | | v^{(2)} |}

(7)将中草药药对之间的功效-功效、性味-性味、归经-归经相似度归一化，

y = \frac{x - M i n V a l u e}{M a x V a l u e - \min V a l u e}

(8)算数平均得到中草药药对之间功效-性味的相似度，性味-归经的相似度，功效-归经的相似度，功效-性味-归经的相似度；

(9)将相似度大于指定阈值的中草药药对存入相应数据库表中，取阈值为0.5。

2.根据权利要求1所述的一种基于概率主题模型的相似中药检索方法，其特征在于：所述中草药的性味分词为：“四气五味”，即辛、甘、苦、酸、温、寒、咸、凉、热、涩、平、淡、毒，中草药的性味量化时要考虑程度差别，“微”取值0.2，“大”取值1，“小”取值0.3，使用量化后的值构造向量空间；