CN103177087B - 一种基于概率主题模型的相似中药检索方法 - Google Patents
一种基于概率主题模型的相似中药检索方法 Download PDFInfo
- Publication number
- CN103177087B CN103177087B CN201310074221.9A CN201310074221A CN103177087B CN 103177087 B CN103177087 B CN 103177087B CN 201310074221 A CN201310074221 A CN 201310074221A CN 103177087 B CN103177087 B CN 103177087B
- Authority
- CN
- China
- Prior art keywords
- chinese herbal
- herbal medicine
- effect
- flavor
- nature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明公开了一种基于概率主题模型的相似中草药检索方法。首先通过光学字符识别工具将“中华药典”、“中华本草”中的中草药信息转成数字文本。使用正则表达式方法将中草药的功效、性味、归经等信息提取出来,建立中草药信息库。分别根据中草药的功效、性味、归经属性生成对应的向量空间,并通过概率主题模型对功效的向量空间进行调整。最后根据余弦系数计算中草药间功效、性味、归经属性的相似度,产生中草药相似性数据库。用户输入一味中草药的名称,系统通过查找相应的中草药药对相似性信息库,将该味中草药及其相似中草药以关系图的方式直观的展示出来。本发明可以根据属性相似度检索相关中草药,对于中草药学习,促进中草药信息化意义重大。
Description
技术领域
本发明涉及文本挖掘领域、中医药理论和Flex展示技术。特别是涉及一种基于概率主题模型的相似中药检索方法。
背景技术
中医指中国传统医学,是研究人体生理、病理以及疾病的诊断和防治等的一门学科。它承载着中国古代人民同疾病作斗争的经验和理论知识,是在古代朴素的唯物论和自发的辨证法思想指导下,通过长期医疗实践逐步形成并发展成的医学理论体系。但是由于中医理论缺乏形式化表达和公众普及,人们很难直观的接触并理解中医药知识。鉴于此,本案发明人的关注点在于如何将中医的基本原理以一种直观的方式展示出来,从而推动中医药信息化的发展。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于概率主题模型的相似中药检索方法。
基于概率主题模型的相似中药检索方法包括以下步骤:
1)应用光学字符识别工具对DjVu格式的“中华人民共和国药典”、“中华本草”进行光学字符识别处理,将纸质资料转换成数字化文本资料,然后运用正则表达式对数字化文本进行信息抽取,将不同中草药的信息、相同中草药的不同信息分离开来,建立中草药信息库;
2)应用中草药分词系统对中草药信息库的中草药性味、中草药归经、中草药功效属性进行分词,去停用词,根据分词结果对中草药性味、中草药归经、中草药功效属性进行量化;
3)针对中草药功效属性应用概率主题模型方法,结合中草药性味、中草药归经的属性量化数据,对中草药从性味、归经、功效进行属性间相似度计算,得到中草药相似性数据库;
4)用户先输入待查询的中草药名称,然后根据需要勾选相似属性选项,根据所输入的中草药名称和勾选的属性去查询相应的中草药相似性数据库表,检索出与输入中草药所需属性相似的中草药,并将检索结果通过Flex技术以关系图的方式展示给用户,点击连线可以查询中草药信息库,获得相似中草药性味、中草药归经、中草药功效属性详细信息。
所述中草药的性味分词为:“四气五味”,即辛、甘、苦、酸、温、寒、咸、凉、热、涩、平、淡、毒,中草药的性味量化时要考虑程度差别,“微”取值0.2,“大”取值1,“小”取值0.3,使用量化后的值构造向量空间;
所述中草药的归经分词为:“十二腑脏经络”,即心经、肝经、脾经、肺经、肾经、胃经、大肠经、小肠经、膀胱经、胆经、心包经、三焦经,采用0-1量化构造向量空间;
所述中草药的功效分词时采用标点符号断句、二元切分的方法、0-1量化构造向量空间。
所述步骤3)包括:
(1)将疾病的描述跟医案中相关症状的描述分词,去停用词,表示成<word1><word1_count><word2><word2_count><word3><word3_count>...的格式,并以此构造为语料库;
(2)在语料库上执行Gibbssampling算法,获得语料库中涉及的主题及每个单词在给定主题下的概率,在迭代抽样完成后,给定单词wi在主题tj下的概率P(wn|ti)定义如下:
其中是单词wn在主题ti下取样的次数,β为算法参数,在这里我们取β为0.01;
(3)使用TF-IDF方法构造功效的向量空间Vi,向量空间Vi中第j个值为
Vi j=tfij×log(D/dfi)
其中D是语料库中文档的数目,dfi是单词wi出现的文档数目,tfij是单词wi出现在文档dj的数目;
(4)对于两个经过分词和去停用词处理的中草药功效文本di,dj,使用如下公式来获得辨识词集D(di),D(dj):
(5)对于每一个主题ti,分别从两个中草药功效文本的辨识词集中找到在ti具有最大概率值的单词wm、wn,如果单词wm和wn的概率值大于规定的阈值0.1,用如下公式来修改中草药的功效文本d1、d2的向量空间和
其中P(wn|ti)是给定单词wn在主题ti下的概率;
(6)分别根据余弦系数计算中草药的功效-功效、中草药的性味-性味、中草药的归经-归经的相似度Sim(v(1),v(2)),
(7)将中草药药对之间的功效-功效、性味-性味、归经-归经相似度归一化,
其中x、y表示转换前、后的值,MaxValue、MinValue分别为相应样本的最大值和最小值;
(8)算数平均得到中草药药对之间功效-性味的相似度,性味-归经的相似度,功效-归经的相似度,功效-性味-归经的相似度;
(9)将相似度大于指定阈值的中草药药对存入相应数据库表中,取阈值为0.5。
本发明与现有技术相比具有的有益效果:
1)将晦涩的中医药知识转换为简单易懂的关系图,有助于促进中医理论形式化表达;
2)将计算机技术用于中医药理论的研究当中,从而为两者的结合积累一定的经验;
3)更有利于中医药初学者对中医药的学习及理解。
附图说明
图1是本发明的基于中草药相似度的展示界面。
具体实施方式
基于概率主题模型的相似中药检索方法包括以下步骤:
1)应用光学字符识别工具对DjVu格式的“中华人民共和国药典”、“中华本草”进行光学字符识别处理,将纸质资料转换成数字化文本资料,然后运用正则表达式对数字化文本进行信息抽取,将不同中草药的信息、相同中草药的不同信息分离开来,建立中草药信息库;
2)应用中草药分词系统对中草药信息库的中草药性味、中草药归经、中草药功效属性进行分词,去停用词,根据分词结果对中草药性味、中草药归经、中草药功效属性进行量化;
3)针对中草药功效属性应用概率主题模型方法,结合中草药性味、中草药归经的属性量化数据,对中草药从性味、归经、功效进行属性间相似度计算,得到中草药相似性数据库;
4)用户先输入待查询的中草药名称,然后根据需要勾选相似属性选项,根据所输入的中草药名称和勾选的属性去查询相应的中草药相似性数据库表,检索出与输入中草药所需属性相似的中草药,并将检索结果通过Flex技术以关系图的方式展示给用户,点击连线可以查询中草药信息库,获得相似中草药性味、中草药归经、中草药功效属性详细信息。
所述中草药的性味分词为:“四气五味”,即辛、甘、苦、酸、温、寒、咸、凉、热、涩、平、淡、毒,中草药的性味量化时要考虑程度差别,“微”取值0.2,“大”取值1,“小”取值0.3,使用量化后的值构造向量空间;
所述中草药的归经分词为:“十二腑脏经络”,即心经、肝经、脾经、肺经、肾经、胃经、大肠经、小肠经、膀胱经、胆经、心包经、三焦经,采用0-1量化构造向量空间;
所述中草药的功效分词时采用标点符号断句、二元切分的方法、0-1量化构造向量空间。
所述步骤3)包括:
(1)将疾病的描述跟医案中相关症状的描述分词,去停用词,表示成<word1><word1_count><word2><word2_count><word3><word3_count>...的格式,并以此构造为语料库;
(2)在语料库上执行Gibbssampling算法,获得语料库中涉及的主题及每个单词在给定主题下的概率,在迭代抽样完成后,给定单词wi在主题tj下的概率P(wn|ti)定义如下:
其中是单词wn在主题ti下取样的次数,β为算法参数,在这里我们取β为0.01;
(3)使用TF-IDF方法构造功效的向量空间Vi,向量空间Vi中第j个值为
Vi j=tfij×log(D/dfi)
其中D是语料库中文档的数目,dfi是单词wi出现的文档数目,tfij是单词wi出现在文档dj的数目;
(4)对于两个经过分词和去停用词处理的中草药功效文本di,dj,使用如下公式来获得辨识词集D(di),D(dj):
(5)对于每一个主题ti,分别从两个中草药功效文本的辨识词集中找到在ti具有最大概率值的单词wm、wn,如果单词wm和wn的概率值大于规定的阈值0.1,用如下公式来修改中草药的功效文本d1、d2的向量空间和
其中P(wn|ti)是给定单词wn在主题ti下的概率;
(6)分别根据余弦系数计算中草药的功效-功效、中草药的性味-性味、中草药的归经-归经的相似度Sim(v(1),v(2)),
(7)将中草药药对之间的功效-功效、性味-性味、归经-归经相似度归一化,5
其中x、y表示转换前、后的值,MaxValue、MinValue分别为相应样本的最大值和最小值;
(8)算数平均得到中草药药对之间功效-性味的相似度,性味-归经的相似度,功效-归经的相似度,功效-性味-归经的相似度;
(9)将相似度大于指定阈值的中草药药对存入相应数据库表中,取阈值为0.5。
实施例
1、将步骤1)得到的中草药信息建立中草药信息库。medId字段为中草药编号,medNameZH字段为中草药名称,medTropisw字段为中草药的归经,medFunction字段为中草药的功效,medProperty字段为中草药的归经,medphaAction字段为中草药的药理作用,medProcess字段为中草药的炮制过程,medAttention字段为中草药的禁忌,medclinicalPractice字段为中草药的临床应用,medRemark字段为中草药的文献论述,medEnvironment字段为中草药的生长环境,medUsage字段为中草药的用法,medOrigin字段为中草药的基源,medchemComposition字段为中草药的化学组成,medAlias字段为中草药的别名;
2、对中草药信息库中的中草药功效、中草药性味、中草药归经按照步骤2)的方法进行分词,并建立向量空间;
3、对向量空间按照步骤3)进行相似度计算,得到中草药药对相似性信息库,medAName字段为相似中草药对中一个中草药名称,medBName字段为相似中草药对中另一个中草药名称,ratio为相似中草药对的相似度;
4、输入需要查询相似性的中草药药材名称;
5、在“功效”、“性味”、“归经”中选择想要查询的属性(可任意选择但至少选择一个);
6、点击搜索按钮进行检索;
7、系统根据输入的中草药药材名称和选择的属性,将相应的中草药药对相似性信息库中符合条件的中药对返回。
8、通过Flex技术将返回的中草药药对以关系图的方式展示出来。
本实例的运行结果如图1所示,用户输入的中草药药材名称为“麻黄”,并选择“功效”、“性味”两个属性,检索结果显示为麻黄的相似中药,及麻黄的相似中药的相似中药所组成的关系图。
Claims (2)
1.一种基于概率主题模型的相似中药检索方法,其特征在于包括以下步骤:
1)应用光学字符识别工具对DjVu格式的“中华人民共和国药典”、“中华本草”进行光学字符识别处理,将纸质资料转换成数字化文本资料,然后运用正则表达式对数字化文本进行信息抽取,将不同中草药的信息、相同中草药的不同信息分离开来,建立中草药信息库;
2)应用中草药分词系统对中草药信息库的中草药性味、中草药归经、中草药功效属性进行分词,去停用词,根据分词结果对中草药性味、中草药归经、中草药功效属性进行量化;
3)针对中草药功效属性应用概率主题模型方法,结合中草药性味、中草药归经的属性量化数据,对中草药从性味、归经、功效进行属性间相似度计算,得到中草药相似性数据库;
4)用户先输入待查询的中草药名称,然后根据需要勾选相似属性选项,根据所输入的中草药名称和勾选的属性去查询相应的中草药相似性数据库表,检索出与输入中草药所需属性相似的中草药,并将检索结果通过Flex技术以关系图的方式展示给用户,点击连线可以查询中草药信息库,获得相似中草药性味、中草药归经、中草药功效属性详细信息;
所述步骤3)包括:
(1)将疾病的描述跟医案中相关症状的描述分词,去停用词,表示成<word1><word1_count><word2><word2_count><word3><word3_count>...的格式,并以此构造为语料库;
(2)在语料库上执行Gibbssampling算法,获得语料库中涉及的主题及每个单词在给定主题下的概率,在迭代抽样完成后,给定单词wi在主题tj下的概率P(wn|ti)定义如下:
其中是单词wn在主题ti下取样的次数,β为算法参数,在这里我们取β为0.01;
(3)使用TF-IDF方法构造功效的向量空间Vi,向量空间Vi中第j个值为
Vi j=tfij×log(D/dfi)
其中D是语料库中文档的数目,dfi是单词wi出现的文档数目,tfij是单词wi出现在文档dj的数目;
(4)对于两个经过分词和去停用词处理的中草药功效文本di,dj,使用如下公式来获得辨识词集D(di),D(dj):
(5)对于每一个主题ti,分别从两个中草药功效文本的辨识词集中找到在ti具有最大概率值的单词wm、wn,如果单词wm和wn的概率值大于规定的阈值0.1,用如下公式来修改中草药的功效文本d1、d2的向量空间和
其中P(wn|ti)是给定单词wn在主题ti下的概率;
(6)分别根据余弦系数计算中草药的功效-功效、中草药的性味-性味、中草药的归经-归经的相似度Sim(v(1),v(2)),
(7)将中草药药对之间的功效-功效、性味-性味、归经-归经相似度归一化,
其中x、y表示转换前、后的值,MaxValue、MinValue分别为相应样本的最大值和最小值;
(8)算数平均得到中草药药对之间功效-性味的相似度,性味-归经的相似度,功效-归经的相似度,功效-性味-归经的相似度;
(9)将相似度大于指定阈值的中草药药对存入相应数据库表中,取阈值为0.5。
2.根据权利要求1所述的一种基于概率主题模型的相似中药检索方法,其特征在于:所述中草药的性味分词为:“四气五味”,即辛、甘、苦、酸、温、寒、咸、凉、热、涩、平、淡、毒,中草药的性味量化时要考虑程度差别,“微”取值0.2,“大”取值1,“小”取值0.3,使用量化后的值构造向量空间;
所述中草药的归经分词为:“十二腑脏经络”,即心经、肝经、脾经、肺经、肾经、胃经、大肠经、小肠经、膀胱经、胆经、心包经、三焦经,采用0-1量化构造向量空间;
所述中草药的功效分词时采用标点符号断句、二元切分的方法、0-1量化构造向量空间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310074221.9A CN103177087B (zh) | 2013-03-08 | 2013-03-08 | 一种基于概率主题模型的相似中药检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310074221.9A CN103177087B (zh) | 2013-03-08 | 2013-03-08 | 一种基于概率主题模型的相似中药检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103177087A CN103177087A (zh) | 2013-06-26 |
CN103177087B true CN103177087B (zh) | 2016-05-18 |
Family
ID=48636948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310074221.9A Active CN103177087B (zh) | 2013-03-08 | 2013-03-08 | 一种基于概率主题模型的相似中药检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103177087B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109378080A (zh) * | 2018-09-14 | 2019-02-22 | 浙江大学 | 一种基于特征词袋模型的相似中药检索方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678435B (zh) * | 2013-07-08 | 2017-02-08 | 重庆药品交易所股份有限公司 | 一种药品规格数据相似度匹配方法 |
CN104268137A (zh) * | 2013-07-31 | 2015-01-07 | 深圳市华傲数据技术有限公司 | 一种药品名称数据匹配方法和装置 |
CN103761225B (zh) * | 2014-01-23 | 2017-03-29 | 天津大学 | 一种数据驱动的中文词语义相似度计算方法 |
CN103823848B (zh) * | 2014-02-11 | 2017-11-14 | 浙江大学 | 一种基于lda和vsm的中草药相似文献的推荐方法 |
CN104077407B (zh) * | 2014-07-10 | 2017-06-16 | 中国工商银行股份有限公司 | 一种智能数据搜索系统及方法 |
CN105356453A (zh) * | 2015-11-02 | 2016-02-24 | 国网福建省电力有限公司 | 利用正则表达式实现配电网模型中的双电源设备的辨识方法 |
CN105786781A (zh) * | 2016-03-14 | 2016-07-20 | 裴克铭管理咨询(上海)有限公司 | 一种基于主题模型的职位描述文本相似度计算方法 |
CN105912856B (zh) * | 2016-04-11 | 2018-09-28 | 北京科技大学 | 一种中医症状结构化方法 |
CN107886999A (zh) * | 2016-09-29 | 2018-04-06 | 北京搜狗科技发展有限公司 | 一种药方处理方法和装置、一种用于药方处理的装置 |
CN109346180B (zh) * | 2018-08-03 | 2022-04-01 | 电子科技大学 | 中医方剂君臣佐使训练识别方法及系统 |
CN109585025A (zh) * | 2018-12-20 | 2019-04-05 | 广州市爱菩新医药科技有限公司 | 一种用于中药和西药融合的数据分析方法 |
CN109800430B (zh) * | 2019-01-18 | 2023-06-27 | 广东小天才科技有限公司 | 一种语义理解方法及系统 |
CN110245217B (zh) * | 2019-06-17 | 2022-07-22 | 京东方科技集团股份有限公司 | 一种药品推荐方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1447109A (zh) * | 2003-04-26 | 2003-10-08 | 清华大学 | 中药配方颗粒红外光谱非分离提取多级宏观指纹鉴定方法 |
CN1588050A (zh) * | 2004-07-09 | 2005-03-02 | 清华大学 | 一种利用特征图谱对药材进行鉴别的方法 |
CN1645364A (zh) * | 2004-08-18 | 2005-07-27 | 范启康 | 利用网络技术实现计算机中医疾病及处方检索的应用方法 |
JP2008298460A (ja) * | 2007-05-29 | 2008-12-11 | National Research Institute Of Police Science Japan | 規制薬物判別装置、規制薬物判別方法および規制薬物判別プログラム |
-
2013
- 2013-03-08 CN CN201310074221.9A patent/CN103177087B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1447109A (zh) * | 2003-04-26 | 2003-10-08 | 清华大学 | 中药配方颗粒红外光谱非分离提取多级宏观指纹鉴定方法 |
CN1588050A (zh) * | 2004-07-09 | 2005-03-02 | 清华大学 | 一种利用特征图谱对药材进行鉴别的方法 |
CN1645364A (zh) * | 2004-08-18 | 2005-07-27 | 范启康 | 利用网络技术实现计算机中医疾病及处方检索的应用方法 |
JP2008298460A (ja) * | 2007-05-29 | 2008-12-11 | National Research Institute Of Police Science Japan | 規制薬物判別装置、規制薬物判別方法および規制薬物判別プログラム |
Non-Patent Citations (1)
Title |
---|
一种非结构化数据中医知识抽取与关联的方法;杨艳;《中国优秀硕士学位论文全文数据库(电子期刊)》;20110415;全文 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109378080A (zh) * | 2018-09-14 | 2019-02-22 | 浙江大学 | 一种基于特征词袋模型的相似中药检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103177087A (zh) | 2013-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103177087B (zh) | 一种基于概率主题模型的相似中药检索方法 | |
Balsmeier et al. | Machine learning and natural language processing on the patent corpus: Data, tools, and new measures | |
Cao et al. | Introduction to text visualization | |
Dubey et al. | A nonparametric mixture model for topic modeling over time | |
CN105468596B (zh) | 图片检索方法和装置 | |
Chen et al. | Déja image-captions: A corpus of expressive descriptions in repetition | |
CN107943990B (zh) | 基于带权重的原型分析技术的多视频摘要方法 | |
Kulahcioglu et al. | Fonts like this but happier: A new way to discover fonts | |
WO2020048062A1 (zh) | 产品销售的智能推荐方法、装置、计算机设备和存储介质 | |
Alp et al. | Extracting topical information of tweets using hashtags | |
CN113380360A (zh) | 一种基于多模态病历图的相似病历检索方法及系统 | |
Kordumova et al. | Exploring the long tail of social media tags | |
Wang et al. | Understanding the spatial dimension of natural language by measuring the spatial semantic similarity of words through a scalable geospatial context window | |
Scott | Roberto Bolaño’s 2666: serial murder and narrative necrosis | |
Turchetti | 'Despotism'and'Tyranny'Unmasking a Tenacious Confusion | |
Wu et al. | Clustering results of image searches by annotations and visual features | |
Sheng et al. | Fine-grained cross-modal retrieval for cultural items with focal attention and hierarchical encodings | |
Encarnación-Pinedo | Intertextuality in Diane di Prima’s Loba: Religious Discourse and Feminism | |
Patel et al. | A survey on context based similarity techniques for image retrieval | |
Mao et al. | A clustering method of case-involved news by combining topic network and multi-head attention mechanism | |
Troiano et al. | Instagrammers’ attitude towards Human Papillomavirus (HPV) vaccine: A review | |
Fine | Access | |
Yip | Connecting the dots in online media: Gender representations in professional tennis | |
Muraoka et al. | Visual Concept Naming: Discovering Well-Recognized Textual Expressions of Visual Concepts | |
Umar et al. | Learning nuanced cross-disciplinary citation metric normalization using the hierarchical Dirichlet process on big scholarly data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |