CN109903854A - 一种基于中医药文献的核心药物识别方法 - Google Patents
一种基于中医药文献的核心药物识别方法 Download PDFInfo
- Publication number
- CN109903854A CN109903854A CN201910075603.0A CN201910075603A CN109903854A CN 109903854 A CN109903854 A CN 109903854A CN 201910075603 A CN201910075603 A CN 201910075603A CN 109903854 A CN109903854 A CN 109903854A
- Authority
- CN
- China
- Prior art keywords
- drug
- word
- indicate
- node
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于中医药文献的核心药物识别方法,包括以下步骤:建立治疗特定疾病的中医药文献语料库;构建治疗特定疾病的药物网络;对药物网络进行社区发现,发现治疗特定疾病的核心药物。本发明通过计算机自动分析大量中医药文献,让计算机分析药物之间的语义,进而计算药物之间的语义相似度,构建针对某一疾病的药物网络,再利用复杂网络的分析方法,发现核心药物组合,降低工作量和主观性,提高准确性。
Description
技术领域
本发明属于中医药文献的核心药物识别技术领域,具体地说,涉及一种基于中医药文献的核心药物识别方法。
背景技术
中药方剂是中医治疗的一种主要手段,然而方剂往往包含多种药物,这其中只有几味药物对特定的疾病或证候起到重要的治疗作用,其他药物则是起辅助作用,我们认为这几味药物是治疗该疾病的核心药物。核心药物就是在方剂中经常一起搭配的治疗某种疾病的重要药物组合。发现对应特定疾病的核心药物组合,有利于验证“方证相应”的理论和研究方剂配伍规律等问题,辅助临床用药。
目前关于中医核心药物的研究主要有以下几个方向:第一,传统方法:中医医生通过对书籍,文献和病案进行人工总结,分析针对某一疾病经常使用的药物组合,确定为核心药物组合。第二,实验方法:在药理实验的研究中,通过分析方剂药物组合的主要化学成分。具有主要化学成分的药物被认为是该方剂的核心药物。第三,基于关联规则和频次的统计方法:基于关联规则的挖掘方法,通过药物在相同方剂中共现的规律,研究各类药物在不同病症下的组合规律,发现针对病症的核心药物。中国专利“CN104820775A一种中药方剂核心药物的发现方法”提供了一种方剂核心药物发现方法。此专利由改进聚类算法和加权TF-IDF算法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数的选择和聚类挖掘算法三部分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的模型;聚类距离的选择用于选择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚类成一个簇;加权TF-IDF算法用于计算药物的权重,发明的权重计算公式结合聚类结果、药物顺序重要度、TF-IDF算法三部分。第四,基于复杂网络分析的方法:通过将方剂或药物进行组网,采用复杂网络分析的手段,研究这些网络的内在结构和节点重要性,以此揭示药物之间的配伍关系和药物的重要性。
上述方法为中药核心药物的研究奠定了基础,但存在如下缺点:第一,人工方法只能分析少量的数据,如果要分析大量数据,则工作量巨大,同时存在一定的主观性,不同人得到的核心药物结论可能不一致;第二,药理实验操作过程复杂,实验花费资金巨大,同时也耗费人力物力;第三,统计方法依赖于药物出现的频次,较难发现出现次数少但疗效好的药物组合,中国专利“CN104820775A一种中药方剂核心药物的发现方法”中的加权TF-IDF算法就是一种基于统计的方法,不能分析文本在文献中的含义,只知道药物是否出现;第四,受限于构建药物网络的数据规模,不能很好发现针对特定疾病的全部核心药物。
发明内容
有鉴于此,本发明提供了一种基于中医药文献的核心药物识别方法,通过计算机自动分析大量中医药文献,让计算机分析药物(症状,证候等中医要素)之间的语义,进而计算药物之间的语义相似度,构建针对某一疾病的药物网络,再利用复杂网络的分析方法,发现核心药物组合,降低工作量和主观性,提高准确性。
为了解决上述技术问题,本发明公开了一种基于中医药文献的核心药物识别方法,包括以下步骤:
S1、建立治疗特定疾病的中医药文献语料库;
S2、构建治疗特定疾病的药物网络;
S3、对药物网络进行社区发现,发现治疗特定疾病的核心药物。
可选地,所述步骤S1中建立治疗特定疾病的中医药文献语料库具体为:
S1.1、首先给定需要寻找核心药物的疾病D;
S1.2、文献获取:从CNKI上下载治疗疾病D的中医药文献,关键字为“中医”,“中药”和“该疾病名称”,对文章的标题和摘要进行搜索;
S1.3、语料库预处理:将下载的pdf文献解析转换为txt文本,利用opencc工具包进行简繁体转换,利用正则表达式去除乱码,英文和标点,利用jieba分词进行中文分词等,对文本进行预处理;
S1.4、将最后的结果进行存储,构建中医药文献语料库。
可选地,所述步骤S2中构建治疗特定疾病的药物网络具体为:
S2.1、基于局部特征的词向量语义分析计算:利用ContinuousBag-Of-Wordsmodel(CBOW模型)和ContinuousSkip-Grammodel(CSG模型)两个词向量模型对中医药文献语料库进行语义分析和表示学习,将每个词语表示成语义词向量;
S2.2、基于全局特征的词向量计算:针对全局特征的词向量计算,利用递归深度神经网络对文献语料库的长文本内容进行训练,分析药物与药物,药物与其他实体之间的关系;
S2.3、命名实体识别:采用《中华人民共和国药典》的药物作为标准药物,构建药物标准词库;利用标准药物词库中的药物,匹配语料库中的治疗特定疾病的药物,如果标准药物词库和语料库中的药物字符完全匹配,则将药物和其对应的语义词向量从数据库中读取出来;
S2.4、药物相似度计算;
S2.5、药物网络构建:将每个药物视为网络节点,药物的相似性大于设定阈值的建立边,构建面向特定疾病的基于中医文献的药物网络G(V,E)。
可选地,所述步骤S2.1中利用ContinuousBag-Of-Wordsmodel(CBOW模型)和ContinuousSkip-Grammodel(CSG模型)两个词向量模型对中医药文献语料库进行语义分析和表示学习,将每个词语表示成语义词向量;具体步骤如下:
S2.1.1:统计语料库每个词语出现的总次数,将每个词初始化为0-1向量表示;
S2.1.2:利用CBOW和CSG词向量模型对语料库进行训练和学习,训练完成之后,得到各个词的语义词向量。假设语料库为C={w1,...wt,...,wN},其中w1表示语料库中的第1个词语,wt表示语料库中的第t个词语,wN表示语料库中的第N个词语,N是语料库的词语总数。两个模型的基础是通过利用词语上下文之间的关系来学习单词的词向量:CBOW模型是利用一个单词的上下文预测其本身的可能性,而CSG模型则是根据给定的单词来预测它的上下文;两个模型的架构如下:
a)CBOW模型:
已知当前词wt的上下文Wt 0={wt+i}的前提下预测当前词wt,其中,i表示当前词wt前后第几个词,i是属于[-c,c]的整数,c是上下文数量的一半;wt+i表示当前词上下文中的词语,t表示当前词的下标;该模型是一个三层的神经网络,对应各层具体为:
输入层:用来输入wt的上下文的初始向量,包含当前词上下文Wt 0中2c个词的词向量;
投影层:投影层将输入层的2c个向量做累加求和,其输出
其中,表示CBOW模型投影层以当前词wt为输入的前提下的输出;和表示当前词wt和词wt+i的词向量;
输出层:输出层用于计算CBOW模型根据上下文准确预测当前词的可能性p(wt|Wt 0),其等于当前词wt在语料库中所有词语中的预测权重,通过softmax函数进行计算;
其中,p(wt|Wt 0)表示CBOW模型根据上下文Wt 0准确预测当前词wt的概率;wj表示语料库中所有词语;V表示语料库;和表示对应词的输出词向量,t和j表示单词的下标;
CBOW模型的目标函数为如下函数的最大似然;
其中,ζCBOW是目标函数的最大似然;p(wt|Wt 0)表示CBOW模型根据上下文Wt 0准确预测当前词wt的概率;V表示语料库;|V|表示语料库词语的总数;t表示单词的下标;
b)CSG模型:
已知当前词wt的前提下,预测其上文Wt 0={wt+i};使用每个当前词作为输入,并预测当前词前后某一范围c内的词;该模型也是一个三层神经网络,对应各层具体为:
输入层:用来输入wt的初始向量
投影层:投影层用于保持当前单词的词向量;实际上,CSG模型中的投影层没有实际的效果,只是为了与CBOW模型保持一致的结构,其输出为
输出层:输出层用于计算CSG模型根据当前词wt准确预测上下文Wt 0的可能性p(wt+i|wt),其等于每个上下文单词在语料库中所有词语中的预测权重,通过softmax函数进行计算;
其中,p(wt+i|wt)表示CSG模型根据当前词wt准确预测上下文中每个单词的概率;
CSG模型目标函数为如下函数的最大似然;然后获得每个单词的语义词向量;
其中,ζCSG是目标函数的最大似然;|V|表示语料库词语的总数;t和i表示单词的下标;c是上下文数量的一半;
S2.1.3、训练完成之后,将两个模型得到的语义词向量进行平均,得到各个词对应的局部语义词向量。
可选地,所述步骤S2.2中基于全局特征的词向量计算具体为:将长文本内容输入利用递归深度神经网络模型进行训练,将得到的词向量与S2.1中得到的词向量进行平均,得到每个单词最终的语义词向量;
Ot=Vht+b (7)
yt=σ(Ot) (8)
其中yt表示预测的输出向量,Ot表示t时刻的输出,ht表示t时刻的隐含变量,xt表示t时刻的输入,U,W,V表示权重矩阵,a,b为偏置。
可选地,所述步骤S2.4中对药物相似度计算具体为:通过药物词向量计算药物间相似度s(wi,wj)以表示药物间关系:
其中,wi和wj表示语料库中的两个药物;和表示wi和wj的词向量;s(wi,wj)表示药物间的相似度;i和j表示单词的下标。
可选地,所述步骤S3中对药物网络进行社区发现,发现治疗特定疾病的核心药物具体为:
S3.1、药物社区发现:采用基于药物药力的标签传播算法用于特定疾病的核心药物发现;基于药物药力的标签传播算法考虑节点和标签策略:
S3.2、核心药物发现:将每个药物社区中药物节点度数排名前k的药物,作为针对该社区疾病的核心药物,即top-k药物,每个药物社区表示针对某类证候的药物群,社区中前k个药物即是针对该类疾病的核心药物。
可选地,所述步骤S3.1中药物社区发现具体为:
S3.1.1、节点策略:设计四种节点能力:传播能力、吸引能力、接受能力和发射能力;
传播能力和药物节点功效属性节点中心程度邻居度数(vj∈N(vi))因素存在关系N(vi)表示节点vi的邻居节点的集合;节点传播能力定义如下:
其中,表示药物节点vi的传播能力;和表示药物节点vi和vj的中心程度;和表示药物节点vi和vj功效属性;表示药物节点vi的邻居vj的度数;表示药物节点vi的邻居vk的度数;α用来调节邻居传播能力的比例;i,j,k是药物节点的下标;
吸引能力也与药物节点功效属性节点中心程度邻居度数(vj∈N(vi))因素存在关系N(vi)表示节点vi的邻居节点的集合;节点吸引能力定义如下:
其中,表示药物节点vi的吸引能力;
节点发射能力与其传播能力相关节点发射能力定义如下:(表示对内部数值向下取整):
其中,表示药物节点vi的发射能力;
节点发射能力与其传播能力成反比,且与该节点的标签存储空间有关节点的接受能力定义如下:
其中,表示药物节点vi的接收能力;表示药物节点vi的存储空间;γ用来调节传播能力对接受能力的影响程度;
S3.1.2、标签策略:标签重要性与节点传播能力标签本身的归属系数和节点间距离相关标签重要性定义如下:
其中,表示标签l从药物节点vj传到药物节点vi后的标签重要性;表示药物节点vi的标签l的归属系数;表示药物节点vi和vj的距离;i,j是药物节点的下标。
与现有技术相比,本发明可以获得包括以下技术效果:
1)本发明利用词向量算法对大量中医药文献进行自动语义分析,得到药物的语义词向量,避免了人工阅读大量的文献,以及简单的基于频次的分析;
2)本发明利用词向量计算药物的相似度,并构建了药物网络,可以较好地体现药物之间的关系;
3)本发明利用社区发现算法发现药物之间形成的社区和重要的节点,使得发现的核心药物更容易解释;
4)该方法适用范围广,只要给出特定的疾病,就可以进行后续的核心药物发现。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明基于中医药文献的核心药物识别方法的总体流程;
图2是本发明局部语义分析模型图;
图3是本发明全局语义分析模型图;
图4是本发明中医药文献语义分析的方法流程图;
图5是本发明药物社区发现方法的流程图。
图6是本发明的实施例的结果图。
具体实施方式
以下将配合实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本发明公开了一种基于中医药文献的核心药物识别方法,如图1所示,包括以下步骤:
S1、建立治疗特定疾病的中医药文献语料库;具体为:
S1.1、首先给定需要寻找核心药物的疾病D;
S1.2、文献获取:从CNKI上下载治疗疾病D的中医药文献,关键字为“中医”,“中药”和“该疾病名称”,对文章的标题和摘要进行搜索;
S1.3、语料库预处理:将下载的pdf文献解析转换为txt文本,利用opencc工具包进行简繁体转换,利用正则表达式去除乱码,英文和标点,利用jieba分词进行中文分词等,对文本进行预处理;
S1.4、将最后的结果进行存储,构建中医药文献语料库。
S2、构建治疗特定疾病的药物网络;如图4所示,具体为:
S2.1、基于局部特征的词向量语义分析计算:利用两个词向量模型(ContinuousBag-Of-Words model(CBOW模型)和Continuous Skip-Gram model(CSG模型))对中医药文献语料库进行语义分析和表示学习,将每个词语表示成语义词向量。该步具体步骤如下:
S2.1.1:统计语料库每个词语出现的总次数,将每个词初始化为0-1向量表示;
S2.1.2:利用CBOW和CSG词向量模型对语料库进行训练和学习,训练完成之后,得到各个词的语义词向量。假设语料库为C={w1,...wt,...,wN},其中w1表示语料库中的第1个词语,wt表示语料库中的第t个词语,wN表示语料库中的第N个词语,N是语料库的词语总数。两个模型的基础是通过利用相邻上下文之间的关系来学习单词的词向量。CBOW模型主要是最大限度地提高利用一个单词的上下文预测其本身的可能性,而CSG模型则根据给定的单词来预测它的上下文,两个模型的架构如下图2所示。
CBOW模型:
已知当前词wt的上下文Wt 0={wt+i}的前提下预测当前词wt(i表示当前词wt前后第几个词,i是属于[-c,c]的整数,c是上下文数量的一半;wt+i表示当前词上下文中的词语)。该模型是一个三层的神经网络,对应各层具体为:
输入层:用来输入wt的上下文的初始向量,包含当前词上下文Wt 0中2c个词的词向量(t表示当前词的下标)。
投影层:投影层将输入层的2c个向量做累加求和,其输出为
其中,表示CBOW模型投影层以当前词wt为输入的前提下的输出;和表示当前词wt和词wt+i的词向量;
输出层:输出层用于计算CBOW模型根据上下文准确预测当前词的可能性p(wt|Wt 0),其等于当前词wt在语料库C中所有词语中的预测权重,通过softmax函数进行计算。
其中,p(wt|Wt 0)表示CBOW模型根据上下文Wt 0准确预测当前词wt的概率;wj表示语料库中所有词语;V表示语料库;和表示对应词的输出词向量,t和j表示单词的下标;
我们的目标是使语料库中的每个单词都能以最大可能被CBOW模型正确预测。这样CBOW模型根据其上下文预测当前词的准确性是最大的。因此,CBOW模型的目标函数为如下函数的最大似然。
其中,ζCBOW是目标函数的最大似然;p(wt|Wt 0)表示CBOW模型根据上下文Wt 0准确预测当前词wt的概率;V表示语料库;|V|表示语料库词语的总数;t表示单词的下标。
CSG模型:
已知当前词wt的前提下,预测其上文Wt 0={wt+i}。我们使用每个当前词作为输入,并预测当前词前后某一范围c内的词。该模型也是一个三层神经网络,对应各层具体为:
输入层:用来输入wt的初始向量
投影层:投影层用于保持当前单词的词向量。实际上,CSG模型中的投影层没有实际的效果,只是为了与CBOW模型保持一致的结构,其输出为
输出层:输出层用于计算CSG模型根据当前词wt准确预测上下文中每个单词的可能性p(wt+i|wt),其等于每个上下文单词在语料库中所有词语中的预测权重,通过softmax函数进行计算。
其中,p(wt+i|wt)表示CSG模型根据当前词wt准确预测上下文中每个单词的概率;
本发明的目标是使语料库中的每个单词的上下文都能以最大可能被CSG模型正确预测。这样CSG模型根据当前词预测其上下文的准确性是最大的。因此,CSG模型目标函数为如下函数的最大似然。然后我们获得每个单词的语义词向量。
其中,ζCSG是目标函数的最大似然;|V|表示语料库词语的总数;t和i表示单词的下标;c是上下文数量的一半。
S2.1.3、训练完成之后,将两个模型得词向量进行平均,得到各个词对应的最后词向量。
S2.2、基于全局特征的词向量计算:针对全局特征的词向量计算,我们利用递归深度神经网络(RNN)对文献语料库的长文本内容进行训练,分析药物与药物,药物与其他实体之间的关系。具体操作步骤如下:将长文本内容输入如下的RNN模型进行训练,将得到的词向量与S2.1中得到的词向量进行平均,得到每个单词最终的语义词向量。RNN模型如图3所示。
Ot=Vht+b (7)
yt=σ(Ot) (8)
其中yt表示预测的输出向量,Ot表示t时刻的输出,ht表示t时刻的隐含变量,xt表示t时刻的输入,U,W,V表示权重矩阵,a,b为偏置。
S2.3、命名实体识别:
采用《中华人民共和国药典》的药物作为标准药物,构建药物标准词库。利用标准药物词库中的药物,匹配语料库中的治疗特定疾病的药物,如果标准药物词库和语料库中的药物字符完全匹配,则将药物和其对应的语义词向量从数据库中读取出来。
S2.4、药物相似度计算
通过药物词向量计算药物间相似度s(wi,wj)以表示药物间关系。
其中,wi和wj表示语料库中的两个药物;和表示wi和wj的词向量;s(wi,wj)表示药物间的相似度;i和j表示单词的下标。
S2.5、药物网络构建
将每个药物视为网络节点,药物的相似性大于设定阈值t的建立边,构建面向特定疾病的基于中医文献的药物网络G(V,E)。
S3、对药物网络进行社区发现,发现治疗特定疾病的核心药物;
基于构建的药物网络,本环节通过提出的社区发现算法挖掘药物网络的社区,识别社区中重要节点并发现治疗特定疾病的核心药物。具体流程如图5所示。
S3.1、药物社区发现:社区结构是许多真实网络具有的共同性质,社区内部节点可能具有相同或相似属性,体现共同特征或功能等。药物网络也具备类似现象,存在不同药物社区,每个社区针对疾病不同的证型,每个社区中药物呈现不同的重要性,最重要的药物即为治疗该证型的核心药物。我们设计面向重叠社区检测的标签传播算法发现治疗特定疾病的药物网络的药物社区。考虑药物网络中影响周围药物的强度与药物药力有关,其药力越强,影响力越大且影响范围也越大。我们提出基于药物药力的标签传播算法,并将其应用于特定疾病的核心药物发现。基于药物药力的标签传播算法考虑节点和标签策略:
节点策略:设计四种节点能力:传播能力(节点标签传播的范围)、吸引能力(节点获取标签的范围)、接受能力(接收标签的数目)和发射能力(传播标签的数目)。
节点传播能力体现节点在网络中的重要性,是对药物药力的模拟。药物节点越接近网络中心,其度数越大,邻居药物节点药力越大,则药物的药力越大,则节点传播能力越大。我们认为传播能力和药物节点功效属性节点中心程度邻居度数因素存在关系N(vi)表示节点vi的邻居节点的集合;节点传播能力定义如下:
其中,表示药物节点vi的传播能力;和表示药物节点vi和vj的中心程度;和表示药物节点vi和vj功效属性;表示药物节点vi的邻居vj的度数;表示药物节点vi的邻居vk的度数;α用来调节邻居传播能力的比例;i,j,k是药物节点的下标。
节点吸引能力体现节点吸引其它节点向自己传播标签的范围,吸引能力与传播能力呈互斥关系,故吸引能力也与药物节点功效属性节点中心程度邻居度数因素存在关系N(vi)表示节点vi的邻居节点的集合;节点吸引能力定义如下:
其中,表示药物节点vi的吸引能力;表示药物节点vi的传播能力;i是药物节点的下标。
由于药物具有多个功效,在标签传播算法中提出节点发射能力,将药物重要功效作为标签发射,体现节点发射的标签能力,节点传播能力越强,发射的标签数量越多。故我们认为节点发射能力与其传播能力相关节点发射能力定义如下:(表示对内部数值向下取整)
其中,表示药物节点vi的发射能力;β用来调节传播能力对发射能力的影响程度。
节点接受能力体现节点每次最多可接受的标签数目,引导药物节点接受重要的正确标签,促使药物归属正确社区,提高社区检测精度。节点传播能力越强,影响力越强,其接收标签数量越少。故节点发射能力与其传播能力成反比,且与该节点的标签存储空间有关节点的接受能力定义如下:
其中,表示药物节点vi的接收能力;表示药物节点vi的存储空间;γ用来调节传播能力对接受能力的影响程度;
标签策略:由于不同药物具有不同功效,同一药物的不同功效也有不同强度,故在标签传播算法中引入标签重要性体现药物不同功效的强度,是对药物功效强度的建模。发射标签的节点越重要,标签的归属系数越大,同时节点vi与vj距离越小,标签越重要,即该药物功效越重要,在标签接受过程中更易保留,促进节点更容易属于重要标签所代表社区,即药物更易属于针对一类证型重要的功效代表的社区。故标签重要性与节点传播能力标签本身的归属系数和节点间距离相关标签重要性定义如下:
其中,表示标签l从药物节点vj传到药物节点vi后的标签重要性;表示药物节点vi的传播能力;表示药物节点vi的标签l的归属系数;表示药物节点vi和vj的距离;i,j是药物节点的下标。
S3.2、核心药物发现:将每个药物社区中药物节点度数排名前k的药物,作为针对该社区疾病的核心药物,即top-k药物,每个药物社区表示针对某类证候的药物群,社区中前k个药物即是针对该类疾病的核心药物。
实施例1
本发明实施例中,以“慢性肾小球肾炎”为待发现治疗核心药物的疾病;以《中华人民共和国药典》中药物作为标准规范的药物名称;以从CNKI上下载治疗疾病“慢性肾小球肾炎”的中医药文献,关键字为“中医”,“中药”和“慢性肾小球肾炎”,对文章的标题和摘要进行搜索,对得到的文献进行文献预处理,将下载的pdf文献解析转换为txt文本,利用opencc工具包进行简繁体转换,利用正则表达式去除乱码,英文和标点,利用jieba分词进行中文分词,构建标准语料库。
本发明实施例中,对上述标准语料库进行语义分析,语义分析模型如图2和图3所示,语义分析的流程如图4所示。本发明实施例中,取0.8为相似度阈值,构建药物网络。对上述药物网络进行社区发现,社区发现的流程如图5所示。最后发现的社区如图6所示。
本发明实施例中,如图6所示,最后发现的社区有三个主要的社区结构。蓝色社区的药物功效主要是滋补肝肾和滋阴养血,紫色社区的药物功效主要是化湿利水、清热解毒和祛风,绿色社区的药物功效主要是行气祛湿、清热解毒和散结,提取每个社区的前8个药物作为治疗该疾病该证候下的核心药物,如表1所示。
表1核心药物发现结果
蓝色社区 | 紫色社区 | 绿色社区 |
沙参 | 通草 | 乌药 |
补骨脂 | 玄参 | 升麻 |
桑寄生 | 生姜 | 萹蓄 |
麦冬 | 忍冬藤 | 没药 |
女贞子 | 陈皮 | 珍珠母 |
鹿角胶 | 郁金 | 芦根 |
熟地黄 | 牡丹皮 | 鹿衔草 |
白芍 | 桔梗 | 青皮 |
结果经过北京中医药大学中医专家分析,发现结果的确是治疗慢性肾小球肾炎相关证候的核心药物以及部分辅助药物,实现了基于中医药文献语义分析的治疗特定疾病的方剂核心药物识别方法,为核心药物的分析提供了新的思路。
上述说明示出并描述了发明的若干优选实施例,但如前所述,应当理解发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离发明的精神和范围,则都应在发明所附权利要求的保护范围内。
Claims (8)
1.一种基于中医药文献的核心药物识别方法,其特征在于,包括以下步骤:
S1、建立治疗特定疾病的中医药文献语料库;
S2、构建治疗特定疾病的药物网络;
S3、对药物网络进行社区发现,发现治疗特定疾病的核心药物。
2.根据权利要求1所述的核心药物识别方法,其特征在于,所述步骤S1中建立治疗特定疾病的中医药文献语料库具体为:
S1.1、首先给定需要寻找核心药物的疾病D;
S1.2、文献获取:从CNKI上下载治疗疾病D的中医药文献,关键字为“中医”,“中药”和“该疾病名称”,对文章的标题和摘要进行搜索;
S1.3、语料库预处理:将下载的pdf文献解析转换为txt文本,利用opencc工具包进行简繁体转换,利用正则表达式去除乱码,英文和标点,利用jieba分词进行中文分词等,对文本进行预处理;
S1.4、将最后的结果进行存储,构建中医药文献语料库。
3.根据权利要求1所述的核心药物识别方法,其特征在于,所述步骤S2中构建治疗特定疾病的药物网络具体为:
S2.1、基于局部特征的词向量语义分析计算:利用Continuous Bag-Of-Words model(CBOW模型)和Continuous Skip-Gram model(CSG模型)两个词向量模型对中医药文献语料库进行语义分析和表示学习,将每个词语表示成语义词向量;
S2.2、基于全局特征的词向量计算:针对全局特征的词向量计算,利用递归深度神经网络对文献语料库的长文本内容进行训练,分析药物与药物,药物与其他实体之间的关系;
S2.3、命名实体识别:采用《中华人民共和国药典》的药物作为标准药物,构建药物标准词库;利用标准药物词库中的药物,匹配语料库中的治疗特定疾病的药物,如果标准药物词库和语料库中的药物字符完全匹配,则将药物和其对应的语义词向量从数据库中读取出来;
S2.4、药物相似度计算;
S2.5、药物网络构建:将每个药物视为网络节点,药物的相似性大于设定阈值的建立边,构建面向特定疾病的基于中医文献的药物网络G(V,E)。
4.根据权利要求3所述的核心药物识别方法,其特征在于,所述步骤S2.1中利用Continuous Bag-Of-Words model(CBOW模型)和Continuous Skip-Gram model(CSG模型)两个词向量模型对中医药文献语料库进行语义分析和表示学习,将每个词语表示成语义词向量;具体步骤如下:
S2.1.1:统计语料库每个词语出现的总次数,将每个词初始化为0-1向量表示;
S2.1.2:利用CBOW和CSG词向量模型对语料库进行训练和学习,训练完成之后,得到各个词的语义词向量;假设语料库为C={w1,...wt,...,wN},其中w1表示语料库中的第1个词语,wt表示语料库中的第t个词语,wN表示语料库中的第N个词语,N是语料库的词语总数;两个模型的基础是通过利用词语上下文之间的关系来学习单词的词向量:CBOW模型是利用一个单词的上下文预测其本身的可能性,而CSG模型则是根据给定的单词来预测它的上下文;两个模型的架构如下:
a)CBOW模型:
已知当前词wt的上下文Wt 0={wt+i}的前提下预测当前词wt,其中,i表示当前词wt前后第几个词,i是属于[-c,c]的整数,c是上下文数量的一半;wt+i表示当前词上下文中的词语,t表示当前词的下标;该模型是一个三层的神经网络,对应各层具体为:
输入层:用来输入wt的上下文的初始向量,包含当前词上下文Wt 0中2c个词的词向量;
投影层:投影层将输入层的2c个向量做累加求和,其输出
其中,表示CBOW模型投影层以当前词wt为输入的前提下的输出;和表示当前词wt和词wt+i的词向量;
输出层:输出层用于计算CBOW模型根据上下文准确预测当前词的可能性p(wt|Wt 0),其等于当前词wt在语料库中所有词语中的预测权重,通过softmax函数进行计算;
其中,p(wt|Wt 0)表示CBOW模型根据上下文Wt 0准确预测当前词wt的概率;wj表示语料库中所有词语;V表示语料库;和表示对应词的输出词向量,t和j表示单词的下标;
CBOW模型的目标函数为如下函数的最大似然;
其中,ζCBOW是目标函数的最大似然;p(wt|Wt 0)表示CBOW模型根据上下文Wt 0准确预测当前词wt的概率;V表示语料库;|V|表示语料库词语的总数;t表示单词的下标;
b)CSG模型:
已知当前词wt的前提下,预测其上文Wt 0={wt+i};使用每个当前词作为输入,并预测当前词前后某一范围c内的词;该模型也是一个三层神经网络,对应各层具体为:
输入层:用来输入wt的初始向量
投影层:投影层用于保持当前单词的词向量;实际上,CSG模型中的投影层没有实际的效果,只是为了与CBOW模型保持一致的结构,其输出为
输出层:输出层用于计算CSG模型根据当前词wt准确预测上下文Wt 0的可能性p(wt+i|wt),其等于每个上下文单词在语料库中所有词语中的预测权重,通过softmax函数进行计算;
其中,p(wt+i|wt)表示CSG模型根据当前词wt准确预测上下文中每个单词的概率;
CSG模型目标函数为如下函数的最大似然;然后获得每个单词的语义词向量;
其中,ζCSG是目标函数的最大似然;|V|表示语料库词语的总数;t和i表示单词的下标;c是上下文数量的一半;
S2.1.3、训练完成之后,将两个模型得到的语义词向量进行平均,得到各个词对应的局部语义词向量。
5.根据权利要求3所述的核心药物识别方法,其特征在于,所述步骤S2.2中基于全局特征的词向量计算具体为:将长文本内容输入利用递归深度神经网络模型进行训练,将得到的词向量与S2.1中得到的词向量进行平均,得到每个单词最终的语义词向量;
Ot=Vht+b (7)
yt=σ(Ot) (8)
其中yt表示预测的输出向量,Ot表示t时刻的输出,ht表示t时刻的隐含变量,xt表示t时刻的输入,U,W,V表示权重矩阵,a,b为偏置。
6.根据权利要求2所述的核心药物识别方法,其特征在于,所述步骤S2.4中对药物相似度计算具体为:通过药物词向量计算药物间相似度s(wi,wj)以表示药物间关系:
其中,wi和wj表示语料库中的两个药物;和表示wi和wj的词向量;s(wi,wj)表示药物间的相似度;i和j表示单词的下标。
7.根据权利要求1所述的核心药物识别方法,其特征在于,所述步骤S3中对药物网络进行社区发现,发现治疗特定疾病的核心药物具体为:
S3.1、药物社区发现:采用基于药物药力的标签传播算法用于特定疾病的核心药物发现;基于药物药力的标签传播算法考虑节点和标签策略:
S3.2、核心药物发现:将每个药物社区中药物节点度数排名前k的药物,作为针对该社区疾病的核心药物,即top-k药物,每个药物社区表示针对某类证候的药物群,社区中前k个药物即是针对该类疾病的核心药物。
8.根据权利要求7所述的核心药物识别方法,其特征在于,所述步骤S3.1中药物社区发现具体为:
S3.1.1、节点策略:设计四种节点能力:传播能力、吸引能力、接受能力和发射能力;
传播能力和药物节点功效属性节点中心程度邻居度数(vj∈N(vi))因素存在关系N(vi)表示节点vi的邻居节点的集合;节点传播能力定义如下:
其中,表示药物节点vi的传播能力;和表示药物节点vi和vj的中心程度;和表示药物节点vi和vj功效属性;表示药物节点vi的邻居vj的度数;表示药物节点vi的邻居vk的度数;α用来调节邻居传播能力的比例;i,j,k是药物节点的下标;
吸引能力也与药物节点功效属性节点中心程度邻居度数(vj∈N(vi))因素存在关系N(vi)表示节点vi的邻居节点的集合;节点吸引能力定义如下:
其中,表示药物节点vi的吸引能力;
节点发射能力与其传播能力相关节点发射能力定义如下:(表示对内部数值向下取整):
其中,表示药物节点vi的发射能力;
节点发射能力与其传播能力成反比,且与该节点的标签存储空间有关节点的接受能力定义如下:
其中,表示药物节点vi的接收能力;表示药物节点vi的存储空间;γ用来调节传播能力对接受能力的影响程度;
S3.1.2、标签策略:标签重要性与节点传播能力标签本身的归属系数和节点间距离相关标签重要性定义如下:
其中,表示标签l从药物节点vj传到药物节点vi后的标签重要性;表示药物节点vi的标签l的归属系数;表示药物节点vi和vj的距离;i,j是药物节点的下标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910075603.0A CN109903854B (zh) | 2019-01-25 | 2019-01-25 | 一种基于中医药文献的核心药物识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910075603.0A CN109903854B (zh) | 2019-01-25 | 2019-01-25 | 一种基于中医药文献的核心药物识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109903854A true CN109903854A (zh) | 2019-06-18 |
CN109903854B CN109903854B (zh) | 2023-04-07 |
Family
ID=66944151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910075603.0A Active CN109903854B (zh) | 2019-01-25 | 2019-01-25 | 一种基于中医药文献的核心药物识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109903854B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503158A (zh) * | 2019-08-28 | 2019-11-26 | 山东健康医疗大数据有限公司 | 一种基于时间因素的药物疾病相关性分析方法 |
CN110544538A (zh) * | 2019-08-23 | 2019-12-06 | 上海中医药大学 | 一种中医概念的五脏归属判定系统 |
CN111178444A (zh) * | 2019-12-31 | 2020-05-19 | 山东中医药大学第二附属医院 | 一种基于向量分析的中药配方治疗效果统计方法 |
CN111339425A (zh) * | 2020-03-05 | 2020-06-26 | 拉扎斯网络科技(上海)有限公司 | 一种对象标记方法、装置、服务器及存储介质 |
CN111522964A (zh) * | 2020-04-17 | 2020-08-11 | 电子科技大学 | 一种藏医药文献核心概念挖掘方法 |
CN111986817A (zh) * | 2020-08-21 | 2020-11-24 | 南通大学 | 一种通过ace2筛选新冠covid-19治疗药物的方法 |
CN112016309A (zh) * | 2020-09-04 | 2020-12-01 | 平安科技(深圳)有限公司 | 抽取药物组合方法、设备、装置及存储介质 |
CN112580360A (zh) * | 2020-11-11 | 2021-03-30 | 上海数创医疗科技有限公司 | 一种心电术语语义匹配装置 |
CN113053540A (zh) * | 2021-04-01 | 2021-06-29 | 电子科技大学 | 一种用于中药核心药物识别的社区发现方法 |
CN113990510A (zh) * | 2021-10-29 | 2022-01-28 | 山东师范大学 | 基于机器学习的急性脑梗死中药方剂治疗效果预测系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020102734A1 (en) * | 2000-07-31 | 2002-08-01 | Rolf Menzel | Methods and compositions for directed gene assembly |
JP2004334766A (ja) * | 2003-05-12 | 2004-11-25 | Oki Electric Ind Co Ltd | 単語分類装置、単語分類方法及び単語分類プログラム |
CN1562221A (zh) * | 2004-04-15 | 2005-01-12 | 段兴 | 治疗胃病的药物及其制备方法 |
US20050009118A1 (en) * | 2002-11-12 | 2005-01-13 | Dongxiao Zhang | Method for identifying differentially expressed proteins |
CN101615222A (zh) * | 2008-06-23 | 2009-12-30 | 中国医学科学院放射医学研究所 | 一种基于中药有效成分群的中药组方设计技术 |
US20110184954A1 (en) * | 2005-05-06 | 2011-07-28 | Nelson John M | Database and index organization for enhanced document retrieval |
CN102682162A (zh) * | 2012-04-24 | 2012-09-19 | 河海大学 | 基于复杂网络社区发现的层次重叠核心药群发现方法 |
CN105251004A (zh) * | 2006-12-26 | 2016-01-20 | 分子免疫中心 | 在诊断和治疗类风湿性关节炎中使用的包含抗-cd6单克隆抗体的药物组合物 |
CN105930318A (zh) * | 2016-04-11 | 2016-09-07 | 深圳大学 | 一种词向量训练方法及系统 |
CN106933985A (zh) * | 2017-02-20 | 2017-07-07 | 广东省中医院 | 一种核心方的分析发现方法 |
CN107220484A (zh) * | 2017-05-10 | 2017-09-29 | 山东中医药大学 | 一种中医方药数据分析挖掘系统 |
CN107526834A (zh) * | 2017-09-05 | 2017-12-29 | 北京工商大学 | 联合词性与词序的相关因子训练的word2vec改进方法 |
CN108713213A (zh) * | 2015-12-28 | 2018-10-26 | 庞博拉公司 | 用于内容消费的激增检测器 |
CN108897759A (zh) * | 2018-05-16 | 2018-11-27 | 中国中医科学院中医药信息研究所 | 一种中医医案可视化方法 |
-
2019
- 2019-01-25 CN CN201910075603.0A patent/CN109903854B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020102734A1 (en) * | 2000-07-31 | 2002-08-01 | Rolf Menzel | Methods and compositions for directed gene assembly |
US20050009118A1 (en) * | 2002-11-12 | 2005-01-13 | Dongxiao Zhang | Method for identifying differentially expressed proteins |
JP2004334766A (ja) * | 2003-05-12 | 2004-11-25 | Oki Electric Ind Co Ltd | 単語分類装置、単語分類方法及び単語分類プログラム |
CN1562221A (zh) * | 2004-04-15 | 2005-01-12 | 段兴 | 治疗胃病的药物及其制备方法 |
US20110184954A1 (en) * | 2005-05-06 | 2011-07-28 | Nelson John M | Database and index organization for enhanced document retrieval |
CN105251004A (zh) * | 2006-12-26 | 2016-01-20 | 分子免疫中心 | 在诊断和治疗类风湿性关节炎中使用的包含抗-cd6单克隆抗体的药物组合物 |
CN101615222A (zh) * | 2008-06-23 | 2009-12-30 | 中国医学科学院放射医学研究所 | 一种基于中药有效成分群的中药组方设计技术 |
CN102682162A (zh) * | 2012-04-24 | 2012-09-19 | 河海大学 | 基于复杂网络社区发现的层次重叠核心药群发现方法 |
CN108713213A (zh) * | 2015-12-28 | 2018-10-26 | 庞博拉公司 | 用于内容消费的激增检测器 |
CN105930318A (zh) * | 2016-04-11 | 2016-09-07 | 深圳大学 | 一种词向量训练方法及系统 |
CN106933985A (zh) * | 2017-02-20 | 2017-07-07 | 广东省中医院 | 一种核心方的分析发现方法 |
CN107220484A (zh) * | 2017-05-10 | 2017-09-29 | 山东中医药大学 | 一种中医方药数据分析挖掘系统 |
CN107526834A (zh) * | 2017-09-05 | 2017-12-29 | 北京工商大学 | 联合词性与词序的相关因子训练的word2vec改进方法 |
CN108897759A (zh) * | 2018-05-16 | 2018-11-27 | 中国中医科学院中医药信息研究所 | 一种中医医案可视化方法 |
Non-Patent Citations (2)
Title |
---|
王林玉: "基于深度卷积神经网络的实体关系抽取", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
蒋文仪: "网络中药药理学研究进展", 《中医药信息》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110544538A (zh) * | 2019-08-23 | 2019-12-06 | 上海中医药大学 | 一种中医概念的五脏归属判定系统 |
CN110544538B (zh) * | 2019-08-23 | 2022-02-18 | 上海中医药大学 | 一种中医概念的五脏归属判定系统 |
CN110503158A (zh) * | 2019-08-28 | 2019-11-26 | 山东健康医疗大数据有限公司 | 一种基于时间因素的药物疾病相关性分析方法 |
CN111178444A (zh) * | 2019-12-31 | 2020-05-19 | 山东中医药大学第二附属医院 | 一种基于向量分析的中药配方治疗效果统计方法 |
CN111178444B (zh) * | 2019-12-31 | 2023-06-02 | 山东中医药大学第二附属医院 | 一种基于向量分析的中药配方治疗效果统计方法 |
CN111339425B (zh) * | 2020-03-05 | 2021-07-23 | 拉扎斯网络科技(上海)有限公司 | 一种对象标记方法、装置、服务器及存储介质 |
CN111339425A (zh) * | 2020-03-05 | 2020-06-26 | 拉扎斯网络科技(上海)有限公司 | 一种对象标记方法、装置、服务器及存储介质 |
CN111522964A (zh) * | 2020-04-17 | 2020-08-11 | 电子科技大学 | 一种藏医药文献核心概念挖掘方法 |
CN111986817A (zh) * | 2020-08-21 | 2020-11-24 | 南通大学 | 一种通过ace2筛选新冠covid-19治疗药物的方法 |
CN112016309A (zh) * | 2020-09-04 | 2020-12-01 | 平安科技(深圳)有限公司 | 抽取药物组合方法、设备、装置及存储介质 |
CN112016309B (zh) * | 2020-09-04 | 2024-03-08 | 平安科技(深圳)有限公司 | 抽取药物组合方法、设备、装置及存储介质 |
CN112580360A (zh) * | 2020-11-11 | 2021-03-30 | 上海数创医疗科技有限公司 | 一种心电术语语义匹配装置 |
CN113053540A (zh) * | 2021-04-01 | 2021-06-29 | 电子科技大学 | 一种用于中药核心药物识别的社区发现方法 |
CN113990510A (zh) * | 2021-10-29 | 2022-01-28 | 山东师范大学 | 基于机器学习的急性脑梗死中药方剂治疗效果预测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109903854B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109903854A (zh) | 一种基于中医药文献的核心药物识别方法 | |
Feng et al. | Knowledge discovery in traditional Chinese medicine: state of the art and perspectives | |
CN110334211A (zh) | 一种基于深度学习的中医诊疗知识图谱自动构建方法 | |
CN105512209B (zh) | 一种基于特征自动学习的生物医学事件触发词识别方法 | |
CN107562812A (zh) | 一种基于特定模态语义空间建模的跨模态相似性学习方法 | |
CN108520166A (zh) | 一种基于多重相似性网络游走的药物靶标预测方法 | |
CN107169078A (zh) | 中医药知识图谱及其建立方法以及计算机系统 | |
CN107369098A (zh) | 社交网络中数据的处理方法和装置 | |
CN115050481B (zh) | 一种基于图卷积神经网络的中医方剂功效预测方法 | |
Liu et al. | A novel transfer learning model for traditional herbal medicine prescription generation from unstructured resources and knowledge | |
CN114822874B (zh) | 一种基于特征偏差对齐的方剂功效分类方法 | |
Liu et al. | Deep neural network-based recognition of entities in Chinese online medical inquiry texts | |
Lan et al. | Contrastive knowledge integrated graph neural networks for Chinese medical text classification | |
CN113380360B (zh) | 一种基于多模态病历图的相似病历检索方法及系统 | |
Liu et al. | HPE-GCN: Predicting efficacy of tonic formulae via graph convolutional networks integrating traditionally defined herbal properties | |
Hafiar et al. | Conceptual structure analysis with Bibliometrix package in R: A scientific communication of sport education | |
CN110010251B (zh) | 一种中药社团信息生成方法、系统、装置和存储介质 | |
CN110619960A (zh) | 一种基于监督学习框架的中药配伍禁忌预测方法 | |
He et al. | Discovering herbal functional groups of traditional Chinese medicine | |
Ren et al. | The intelligent experience inheritance system for Traditional Chinese medicine | |
Wu et al. | A hybrid-scales graph contrastive learning framework for discovering regularities in traditional Chinese medicine formula | |
Chen et al. | Application of NER and association rules to traditional Chinese medicine patent mining | |
Ma et al. | Event extraction of Chinese electronic medical records based on BiGRU-CRF | |
Jiang et al. | Hierarchical neural network with bidirectional selection mechanism for sentiment analysis | |
Su et al. | An interactive knowledge graph based platform for covid-19 clinical research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |