CN108363774A - 一种基于多层卷积神经网络的药物关系分类方法 - Google Patents

一种基于多层卷积神经网络的药物关系分类方法 Download PDF

Info

Publication number
CN108363774A
CN108363774A CN201810133344.8A CN201810133344A CN108363774A CN 108363774 A CN108363774 A CN 108363774A CN 201810133344 A CN201810133344 A CN 201810133344A CN 108363774 A CN108363774 A CN 108363774A
Authority
CN
China
Prior art keywords
drug
text
neural networks
convolutional neural
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810133344.8A
Other languages
English (en)
Other versions
CN108363774B (zh
Inventor
冯筠
杜晓东
孙霞
陈静
马龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN201810133344.8A priority Critical patent/CN108363774B/zh
Publication of CN108363774A publication Critical patent/CN108363774A/zh
Application granted granted Critical
Publication of CN108363774B publication Critical patent/CN108363774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于多层卷积神经网络的药物关系分类方法,通过采集英文形式的原始药物文本,获得原始药物文本集,对所述的原始药物文本集进行预处理,构造多层卷积神经网络并进行训练,获得药物关系分类多层卷积神经网络,利用所述的药物关系分类多层卷积神经网络进行药物关系分类,获得药物关系分类结果,本发明提供的方法通过对多层卷积神经网络的改进,增加了表示层,将输入的药物文本转换为药物文本向量,并且加入了基于相对距离的位置向量,使得药物文本特征向量提取更加精确,提高了基于多层神经网络的药物关系分类方法的准确率。

Description

一种基于多层卷积神经网络的药物关系分类方法
技术领域
本发明涉及药物关系分类方法,具体涉及一种基于多层卷积神经网络的药物关系分类方法。
背景技术
近年来,随着生命科学的快速发展,形成了海量的生物医学文献。据资料统计,仅生物医学文献数据库Medline收录了超过2300万的生物医学文献数目,其中蕴藏了大量未被结构化表示的生物医学知识。对这些知识进行结构化的表示,有助于生物医学关系数据库的建立,进而提高生物医学文献检索的效率及准确度,帮助研究者快速定位目标信息及相关文献。
生物实体关系抽取是指从生物医学文献中抽取实体间的关系。实体包括蛋白质、疾病、药物、基因及生物事件,其中,药物关系分类是研究从医学文献中自动抽取出两种药物之间存在的相互作用。在药物开发过程中药物表现出的药性可能只在小范围个体上成立,药物副作用往往在上市以后才会被发现。当某位病人同时服用两款以上的药物时,更容易产生药物副作用。药物关系分类的研究对减少药物安全事故,降低医疗成本,具有十分重要的意义。
现有技术在对药物关系进行分类时,存在需要人工干预和相关领域知识,文本特征提取过程复杂,耗费大量资源和时间等问题。
发明内容
本发明的目的在于提供一种基于多层卷积神经网络的药物关系分类方法,用以解决现有技术中对药物关系分类时文本特征提取不准确,导致分类效果不佳的问题。
为了实现上述任务,本发明采用以下技术方案:
一种基于多层卷积神经网络的药物关系分类方法,包括以下步骤:
步骤1,采集由英文的单词构成的原始药物文本,获得原始药物文本集,所述的原始药物文本中至少包括两个目标药物名称词,在所述的原始药物文本中除去所述目标药物名称词均为其他单词;
步骤2,对所述的原始药物文本集进行预处理,包括词形归一化以及目标药物名称词命名方式的统一及替换,获得预处理后的药物文本集;
步骤3,构造包含表示层、卷积层、池化层和全连接层的多层卷积神经网络;采用输入与输出对所述的多层卷积神经网络进行训练,获得药物关系分类多层卷积神经网络;其中所述的输入为所述的预处理后的药物文本集,所述的输出为药物关系标签集,所述的药物关系标签集中的每一个药物关系标签为所述预处理后的药物文本集中的每一个药物文本对应的原始药物文本中任意两个目标药物名称词之间存在的药物关系;其中所述的表示层将所述的预处理后的药物文本集中的每一个药物文本映射成文本特征向量,所述的药物文本特征向量包括药物文本向量和所述其他单词与所述目标药物名称词之间的位置向量;
步骤4,利用所述的药物关系分类多层卷积神经网络对未知药物关系的药物文本进行药物关系分类,获得药物关系分类结果。
进一步地,所述的步骤2,对所述的原始药物文本集进行预处理,包括词形归一化以及目标药物名称词命名方式的统一及替换,获得预处理后的药物文本集,包括以下步骤:
步骤21、将所述原始药物文本集中所有所述的单词进行词形归一化,获得归一化后的药物文本集;
步骤22、对所述的归一化后的药物文本集中所有所述的目标药物名称词首先以统一形式命名,再利用统一形式命名后的目标药物名称词将所述的目标药物名称词进行替换,获得所述预处理后的药物文本集。
进一步地,步骤21中采用将所述原始药物文本中的所述单词转换为小写的原始词形的方法进行词形归一化。
进一步地,所述的步骤3,构造包含表示层、卷积层、池化层和全连接层的多层卷积神经网络并进行训练,获得药物关系分类多层卷积神经网络,包括以下步骤:
步骤31、依次构造表示层、卷积层、池化层以及全连接层,获得多层卷积神经网络模型;
步骤32、采用输入与输出对所述的多层卷积神经网络进行训练,获得药物关系分类多层卷积神经网络,所述的药物关系标签集中的每一个药物关系标签均为数字向量形式;重复训练N次所述的多层卷积神经网络,以第N次训练获得到的多层卷积神经网络作为所述的药物关系分类多层卷积神经网络,其中N>=1。
进一步地,在构造所述多层卷积神经网络的表示层时,包括以下步骤:
A、固定所述预处理后的药物文本集中每一个药物文本的长度,获得长度固定后的药物文本集;
B、对所述的长度固定后的药物文本集中每一个长度固定后的药物文本进行映射,获得药物文本向量集;
C、在所述的药物文本向量集中每一个药物文本向量中加入所述位置向量,获得药物特征向量集。
进一步地,对所述的长度固定后的药物文本进行映射,获得药物文本向量,包括以下步骤:
a、构造词向量表,所述的词向量表由所述的单词和所述单词对应的数字形式的词向量构成;
b、通过查所述的词向量表的方法对长度固定后的药物文本集中每一个长度固定的药物文本进行映射,获得药物文本向量集。
进一步地,所述位置向量为在所述原始药物文本中所述的目标药物名称词与所述其他单词之间的相对距离。
进一步地,所述的相对距离为所述其他单词与所述目标药物名称词之间相隔所述单词最少个数的绝对值。
进一步地,所述的池化层采用Max Pooling方法进行亚采样,对所述池化层输出的特征向量中的每一个元素以概率P置为0,获得优化的特征向量,所述全连接层的输出为数字向量形式的药物关系标签,所述的数字向量形式的药物关系标签中每一个元素值为一种药物关系存在的概率值。
进一步地,所述步骤4,将未知药物关系的药物文本输入至所述的药物关系分类多层卷积神经网络,从所述药物关系分类多层卷积神经网络输出的数字向量形式的药物关系标签中选取所述的概率值最大的药物关系作为所述未知药物关系的药物文本的药物关系分类结果。
本发明与现有技术相比具有以下技术特点:
1、本发明提供的药物关系分类方法中,通过提取药物文本向量与药物位置向量结合的药物特征向量,提高了药物特征向量提取的准确度,提高了药物关系分类的正确率;
2、本发明构造了多层卷积神经网络,多层卷积神经网络增加了卷积层的数量,并为之相应增加了池化层的数量,网络中结点个数增加,分类能力增强;
3、本发明以包含多个药物实体的原始文本作为输入,无需人工干预和相关领域知识,且不需要提取复杂的文本特征,泛化能力强。
附图说明
图1为本发明提供的药物关系分类方法的流程图;
图2为本发明的一个实施例中构造的多层卷积神经网络结构示意图。
具体实施方式
药物关系是指两种药物之间存在的相关关系,例如罗红霉素、阿奇霉素、克拉霉素这类的大环内酯类抗生素与强心药地高辛同时服用,容易出现恶心呕吐等症状,也就是说,大环内酯类抗生素与地高辛之间存在“相克”的药物关系。而一种新药在面世的时候,若采用人为干预的方法对该药与其他药物的关系进行分类时,耗时耗力。而本发明是将包含多个药物实体的原始文本输入到训练好的多层卷积神经网络中,该网络模型能够对药物实体间的关系进行分类,并将对应的类别标签进行输出,节省人力物力,同时增加现有网络模型中卷积层的数量,并为之相应增加了池化层的数量,相较于现有模型,分类效果更佳。
遵从上述技术方案,如图1至图2所示,本发明公开了一种基于多层卷积神经网络的药物关系分类方法,如图1所示,包括以下步骤:
步骤1,采集由英文的单词构成的原始药物文本,获得原始药物文本集,所述的原始药物文本中至少包括两个目标药物名称词,在所述的原始药物文本中除去所述目标药物名称词均为其他单词;
本方案中的采集的原始药物文本可以通过网络搜索、翻阅医学文献等方式进行采集,获取的原始药物文本可以为英文形式的几个单词、一句话、一段话等,采集多组原始药物文本构造成原始药物文本集。因此本分类方法应用的对象为含有药物名称词的英文文本。
该原始药物文本中至少需要包含两个目标药物名称词,这两个目标药物名称词为涉及药物关系分类的药物单词,其余均为其他单词,例如在本实施例中原始药物文本为:“Aspirin and Vitamins are used simultaneously to stimulate the gastricmucosa”,而“Aspirin”与“Vitamins”即为目标药物名称词,剩下的单词例如“and、are”等为其他单词。
本实施例中,采用DDIExtraction2013药物关系分类数据集作为原始药物文本集,该药物文本集中的数据包括:(1)从Medline医学文献检索系统中下载的175条药物关系学科的文献摘要;(2)从DrugBank在线数据库中下载的730篇研究药物关系的文章。
步骤2,对所述的原始药物文本集进行预处理,包括词形归一化以及目标药物名称词命名方式的统一及替换,获得预处理后的药物文本集;
由于原始药物文本集中的每一个原始药物文本格式均不统一,且目标药物名称词复杂,在采用卷积神经网络进行分类时,容易引入误差,因此首先需要对采集的原始药物文本进行预处理,其中包括将原始药物文本中的所有单词进行词形归一化,即将所有单词的词形统一;还有为了提高网络的可扩展性,将目标药物名称词采用统一的命名方式进行命名并且将原始的目标药物名称词以命名后的形式进行替换,具体包括以下步骤:
步骤21、将所述原始药物文本集中所有所述的单词进行词形归一化,获得归一化后的药物文本集;
为使药物文本在进行分类时,能够更加快捷的分类,不会引入误差,因此要将原始药物文本中的每一个单词进行词形归一化,将他们转换为一致的格式。
对原始药物文本中的每一个单词进行词形归一化,获得归一化后的原始药物文本,再重复,直至原始药物文本集中的每一个原始药物文本中的每一个单词都经过了词形归一化,获得归一化后的原始药物文本集。
可选地,采用将所述原始药物文本中的单词转换为小写的原始词形的方法进行词形归一化。
具体地,将原始药物文本中,动词除了原形之外的其他形式均转换为原形,名词的复数形式转换为单数形式等,也就是说,将原始药物文本中的单词均转换成其原始的存在形式并且将其中的大写字母转换为小写形式,例如在本实施例中,原始药物文本为:“Concomitant use with iron supplements may result in the reduced absorptionof iron.”,经过词形归一化后,得到“concomitant use with iron supplement mayresult in the reduce absorption of iron”。
步骤22、对所述的归一化后的药物文本集中所有所述的目标药物名称词首先以统一形式命名,再利用统一形式命名后的目标药物名称词将所述的目标药物名称词进行替换,获得所述预处理后的药物文本集。
为了提高卷积神经网络的可扩展性,将药物文本中的所有目标药物名称词首先以统一形式命名,该统一形式为“X序号”的形式,其中X可以是任何英文单词,例如“thing”、“drug”等等,序号为以英文形式的排序序号,例如“a,b,c”,“one,two,three”等等,并将该统一命名后的名称替换掉原目标药物词的名称,作为一种优选的实施方式,例如可以将两个目标药物名称词分别替换成“drug a”和“drug b”、“drug one”和“drug two”等,获得预处理后的药物文本,将药物文本集中的所有药物文本中的药物名称词采用统一形式进行替换,即对于药物文本集中的第一个归一化后的药物文本采用“drug one”和“drug two”替换目标药物名称词,对于药物文本集中的第二个归一化后的药物文本也可以采用“drug one”和“drug two”替换目标药物名称词,药物文本之间不存在影响,获得预处理后的药物文本集。
在本实施例中,将两个目标药物名称词分别替换成“drug one”和“drug two”,经过词形归一化后,得到“concomitant use with iron supplement may result in thereduce absorption of iron”再进行目标药物名称词替换,得到“concomitant use withdrug one may result in the reduce absorption of drug two”,该文本即为预处理后的药物文本。
步骤3,构造包含表示层、卷积层、池化层和全连接层的多层卷积神经网络;采用输入与输出对所述的多层卷积神经网络进行训练,获得药物关系分类多层卷积神经网络;其中所述的输入为所述的预处理后的药物文本集,所述的输出为药物关系标签集,所述的药物关系标签集中的每一个药物关系标签为所述预处理后的药物文本集中的每一个药物文本对应的原始药物文本中任意两个目标药物名称词之间存在的药物关系;其中所述的表示层将所述的预处理后的药物文本集中的每一个药物文本映射成文本特征向量,所述的药物文本特征向量包括药物文本向量和所述其他单词与所述目标药物名称词之间的位置向量;
在采用多层卷积神经网络对药物关系进行分类时,本申请提出了构造表示层的方法,该表示层的意义是将药物文本映射为药物文本特征向量,由于神经网络在输出时,无法识别输入的文字,因为本申请提供的方法通过构造表示层将文字形式的药物文本映射成数字形式的药物文本特征向量,将该药物文本特征向量输入多层卷积神经网络中进行分类。另外,为了提高映射后的药物文本特征向量表示药物文本的准确率,该药物文本特征向量不仅包括了将药物文本直接映射成的药物文本向量,还加入例如药物文本中其他单词与目标药物名称词之间的位置向量,该位置向量的加入能够反映目标药物名称词与其他单词之间的位置关系,通过加入该位置向量,可以提高药物文本向量的多样性,同时能够提高药物关系分类的正确率。
在表示层之后构造了卷积层、池化层以及全连接层,构成了一个多层卷积神经网络,采用预处理后的药物文本集作为输入,将预处理后的药物文本集中的每一个药物文本分配一个在该药物文本中目标药物名称词之间存在的药物关系标签作为输出,例如对于“concomitant use with drug one may result in the reduce absorption of drugtwo”这一个预处理后的药物文本,其对应的药物关系分类标签是false;由于预处理后的药物文本集中存在多个药物文本,对于每一个药物文本均对应一个关于其中目标药物名称词药物关系的标签,则对于每一个预处理后的药物文本集均对应一个药物关系标签集。
多次训练该多层卷积神经网络,并选取最后一次训练处的多层卷积神经网络作为药物关系分类多层卷积神经网络。
可选地,构造包含表示层、卷积层、池化层和全连接层的多层卷积神经网络并进行训练,获得药物关系分类多层卷积神经网络,包括以下步骤:
步骤31、依次构造表示层、卷积层、池化层以及全连接层,获得多层卷积神经网络模型;
本方案在构造多层卷积神经网络时,相比于普通的卷积神经网络,增加了一个表示层,如图1所示,本方案构造的多层卷积神经网络包括表示层,卷积层以及与卷积层对应的池化层,另外还有全连接层。
可选地,在构造所述多层卷积神经网络的表示层时,包括以下步骤:
A、固定所述预处理后的药物文本集中每一个药物文本的长度,获得长度固定后的药物文本集;
将所述的输入的预处理后的药物文本集中的每一个药物文本的长度固定为n个,对于长度不足n个的所述药物文本进行填充,获得n维药物文本,n>2,则该n维药物文本表示为:
S=ω1ω2ω3…ωn
其中,对于长度不足n个的药物文本进行填充,可以采用固定数、随机数等方式进行填充。将药物文本进行长度固定为n个后,即表示层的节点数也相应地固定为n个。
在本实施例中,设置药物文本长度固定为15个,即药物文本含有15个词,对于“concomitant use with drug one may result in the reduce absorption of drugtwo”中一共含有14个词,将剩下的1个词采用随机数进行填充,获得“concomitant usewith drug one may result in the reduce absorption of drug two 1”,因此在本实施例中,表示层输入节点数为15个。
B、对所述的长度固定后的药物文本集中每一个长度固定后的药物文本进行映射,获得药物文本向量集;
由于卷积神经网络对数据进行处理时,无法直接处理文本数据,因此设置表示层将药物文本映射成成由数字表示的文本向量,表示层进行映射操作时,是对输入的预处理后的药物文本集中的每一个预处理后的药物文本进行映射操作,因此对所述长度固定后的药物文本集中每一个经过长度固定后的药物文本进行映射,获得药物文本向量集,包括以下步骤:
a、构造词向量表,所述的词向量表由所述的单词和所述单词对应的数字形式的词向量构成;
具体地,词向量表由词和所述的词对应的多维词向量构成,构造的词向量表见表1,每一个词对应一个数字形式的词向量,尽可能的将更多的词填入该表中,使词向量表能够涵盖较多的词,也就是说,该词向量表相当于一个规则表,每一个词在该词向量表中均能查到一个词向量。
表1 词向量表
词向量 词向量 词向量
a [0.001] is [0.002] drug [0.003]
may [0.004] use [0.005] one [0.006]
two [0.007] …… …… …… ……
为使表示层能够转换出更多有意义的词向量,在本实施例中,采用Stanford大学NLP研究小组提供GloVe(Global Vectors for Word Representation)模型词向量表,其中包括2196016个词向量,每个词向量的维数为300。如果输入原始文本中的词不在此词向量表中,则该词的词向量的每一维被初始化为0。
b、通过查所述的词向量表的方法对长度固定后的药物文本集中每一个长度固定的药物文本进行映射,获得药物文本向量集。
对于一个n维药物文本中的每一个词都通过查所述的词向量表的方式,映射成一个d维的向量,例如,is通过表1提供的词向量表进行查表1所示的词向量表,获得其词向量为一个一维的向量[0.002],通过该种方式将n维药物文本中的每一个词都映射成一个d维大小的词向量,也就是说,对于一个n维药物文本需要进行n次查所述的词向量表,每次查词向量表都能映射出一个d维大小的词向量,因此一个长度为n的原始药物文本S就映射为一个(n×d)维的文本向量:
而对于一个包含有q个长度为n的原始药物文本S就映射为一个q×(n×d)的文本向量集,在文本向量集中包含有q个(n×d)维的文本向量。
在本实施例中,原始文本为“Concomitant use with iron supplements mayresult in the reduced absorption of iron”,经过预处理后转换为“concomitant usewith drug one may result in the reduce absorption of drug two.”,将该预处理后的药物文本进行采用GloVe模型词向量表进行映射,其中每个词被替换为词向量表中对应的300维GloVe词向量见表2,因篇幅原因,对于每个词仅选取了词向量开头和结尾的各五维值。
表2 药物文本映射文本向量表
C、在所述的药物文本向量集中每一个药物文本向量中加入所述位置向量,获得药物特征向量集。
为了增加药物文本向量的多样性,在药物文本向量中加入了位置向量,以提高分类的正确率。由于每一个药物文本均对应一个药物文本向量,药物文本向量则是由药物文本中每一个单词对应的向量组成,因此在加入药物文本向量对应的位置向量时,是在每一个单词对应的向量中加入了位置向量。
由于原始药物文本中每一个单词都能够映射成一个d维的向量,并且每一个单词与每一个目标药物名称词之间均存在相对距离,将y个位置向量添加在每一个单词映射的d维向量之后,因此对于一个长度为n的原始药物文本S就映射为了一个[n*(d+y)]维的药物特征向量。
可选地,所述位置向量为在所述原始药物文本中所述的目标药物名称词与所述其他单词之间的相对距离。
为了更好的表现出原始文本中所有的其他单词与目标药物名称词的相对关系,采用原始药物文本中其他单词与目标药物名称词之间的相对距离作为药物文本向量对应的位置向量。
可选地,所述的相对距离为所述其他单词与所述目标药物名称词之间相隔所述单词最少个数的绝对值。
因此在计算其他单词与目标药物名称词之间相隔单词个数时,可以是顺药物文本顺序进行计算,也可以是逆药物文本顺序进行计算,在计算时需要寻找出最少的相隔单词个数,并且取其绝对值。
在本实施例中,原始药物文本为“Concomitant use with iron supplements mayresult in the reduced absorption of iron.”,其中两个目标药物名称词分别为ironsupplements和iron,因此在药物文本向量后添加两个位置向量,其中第一个位置向量表示原始药物文本中每个词与第一个目标药物名称词iron supplements之间的相对距离,第二个位置向量表示原始药物文本中每个词与第二个目标药物名称词iron之间的相对距离。例如词concomitant和两个目标药物名称词iron supplements和iron的相对距离分别为3和1,词concomitant经过GloVe模型词向量表映射成了一个1*300维的药物文本向量,在这个药物文本向量后加入两个位置向量后,获得了一个1*302维的药物特征向量;同样地,对于词use和两个目标药物名称词iron supplements和iron的相对距离分别为2和2,词use经过GloVe模型词向量表映射成了一个1*300维的药物文本向量,在这个药物文本向量后加入两个位置向量后,获得了一个1*302维的药物特征向量,按照同样的方法将原始药物文本“Concomitant use with iron supplements may result in the reduced absorptionof iron”的文本向量中加入位置向量后,得到了[13*(300+2)]维的药物特征向量。
可选地,所述的池化层采用Max Pooling方法进行亚采样,对所述池化层输出的特征向量z中的每一个元素以概率P置为0,获得优化的特征向量Zd,所述全连接层的输出为数字向量形式的药物关系标签,所述的数字向量形式的药物关系标签中每一个元素值为一种药物关系存在的概率值。
在本实施例中,如图2所示,构造的多层深度神经网络设置有三层卷积层,与三层卷积层对应设置了三层池化层,最终设置了一层全连接层,用于输出分类结果,即药物关系标签。
其中,卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法优化得到的。输入的预处理后的药物文本经由表示层转化为药物文本向量,将该文本向量输入到卷积层中进行计算以产生新的特征。
卷积层的计算需要用到卷积滤波器,它的作用是将一个m大小的窗口在向量矩阵上进行滑动,每滑动一次获得一个新的特征fi。通过将滤波器与所有的窗口进行卷积计算,得到了一个新的特征图。
另外,设置了三层池化层与卷积层对应,池化层对卷积层产生的特征图采用MaxPooling方法进行亚采样,即对于每一个特征图,选择其最大值作为池化层的特征输出,获得池化层输出的特征向量z。采用了Max Pooling方法,一方面抓住了每个特征图中最重要的特征,同时也解决了输入不等长的问题。
在本实施例中,每个卷积层的卷积滤波器的个数为128个,卷积层和池化层的窗口大小均为5,dropout的概率p=0.5,batch的大小batch_size=32,迭代次数为3次。
为了防止过拟合,提高神经网络模型的泛化能力,对每一层池化层输出的特征向量z进行处理,将特征向量z中的每一个元素以一定的概率P置为0,这样就得到了新的特征向量Zd,其中概率P可以是随机产生,也可以按照一定规则产生,在本实施例中,概率P按照伯努利分布产生。
预处理后的药物文本集经过表示层进行转换后,再输入卷积层与池化层进行特征抽取,最终输入至全连接层中进行分类。
全连接层作为深度卷积神经网络模型中的最后一层,用于输出数字向量形式的药物关系标签,即最终的药物关系分类结果,全连接层每一个输出节点代表一种药物关系,因此全连接层的输出节点数与药物关系种类数一致,并且全连接层输出的药物标签中含有每一种药物关系存在的概率值,并且该概率值在[0,1]。例如药物关系有3个类型,分别是相克、相关性小、无关,则设置全连接层的输出节点为3个,即有三种药物关系,分别代表effect,int,false,全连接层输出的数字向量形式的药物关系标签为p[effect,int,false]=[0.001,0.0001,0.998],即全连接层输出的结果中,存在effect的概率值为0.001,存在int的概率值为0.0001,存在false的概率值为0.998。在本实施例中,药物关系包括5种,分别是advice建议,effect作用,mechanism药物机理,int正向以及无关系false。
步骤32、采用输入与输出对所述的多层卷积神经网络进行训练,获得药物关系分类多层卷积神经网络,所述的药物关系标签集中的每一个药物关系标签均为数字向量形式;重复训练N次所述的多层卷积神经网络,以第N次训练获得到的多层卷积神经网络作为所述的药物关系分类多层卷积神经网络,其中N>=1。
将所述的预处理后的药物文本集分为两部分,一部分是用来训练多层卷积神经网络的训练集,另一部分是用来测试多层卷积神经网络分类效果的测试集,其中训练集与测试集中的每一条药物文本包含的两种目标药物名称词之间的药物关系均被标注出来作为输出,并存在XML文件中,例如,预处理后的文本数据为“drug one and drug two is usesimultaneously to stimulate the gastric mucosa”,标注其药物关系标签为effect,并将其转换为数字向量形式,以一共有3种药物关系为例,分别是effect、int、false,则文本形式的药物关系标签effect对应的数字向量形式的药物关系标签为p[effect,int,false]=[1,0,0],文本形式的药物关系标签int对应的数字向量形式的药物关系标签为p[effect,int,false]=[0,1,0],文本形式的药物关系标签false对应的数字向量形式的药物关系标签为p[effect,int,false]=[0,0,1],即在数字向量形式的药物关系标签中最大一个元素值对应的药物关系即为文本形式的药物关系标签,因此将预处理后的文本集输入到多层卷积神经网络中转换为数字向量形式,其对应的药物关系标签也转换为数字向量形式作为输出对神经网络进行训练。
即对于一个多层卷积神经网络的训练集,其包括两部分,一是输入多层卷积神经网络的预处理后的药物文本集,二是预处理后的药物文本集中每一条药物文本对应的原始药物文本中,目标药物名称词之间的药物关系标签,获得对药物文本集中每一条药物文本对应的药物关系标签集作为多层卷积网络的目标输出。在训练多层卷积神经网络时,将输入的药物文本集与目标输出的药物关系标签集同时放入多层卷积神经网络中,对多层卷积神经网络进行训练。同样的,对于多层卷积神经网络的测试集,也分为两部分,不同的是在测试时,仅将预处理后的药物文本集输入至训练好的多层卷积神经网络中进行分类,获得分类结果集,将该分类结果集与药物关系标签集进行对比,评判该多层卷积神经网络的性能。
将训练集输入至所述的多层卷积神经网络中进行N次训练,将测试集输入至训练后的多层卷积神经网络中进行测试,选择第N次训练完成后获得的多层卷积神经网络模型作为所述的药物关系分类多层卷积神经网络。
在本实施例中,采用DDIExtraction2013药物关系分类数据集作为原始药物文本集对多层深度神经网络进行训练,其中,训练数据集包含27792条样例,测试数据集包含6409条样例,采用训练数据集对多层深度神经网络进行5次训练,最终选取第5次训练完成后获得的多层深度神经网络作为药物关系分类多层卷积神经网络。
步骤4,利用所述的药物关系分类多层卷积神经网络对未知药物关系的药物文本进行药物关系分类,获得药物关系分类结果。
可选地,所述步骤4,将未知药物关系的药物文本输入至所述的药物关系分类多层卷积神经网络,从所述药物关系分类多层卷积神经网络输出的数字向量形式的药物关系标签中选取所述的概率值最大的药物关系作为所述未知药物关系的药物文本的药物关系分类结果。
采用由步骤3中建立好的药物关系多层卷积神经网络进行药物关系的分类,其中预定义的药物关系类别标签为标签集如式1所示:
h(xi)={yζ|max(pζ),pζ∈p} 式1
其中,xi为预处理后药物文本集的第i个药物文本,pζ为数字向量形式的药物关系标签,P={p1,p2,…,pq}为全连接层输出的药物关系标签集,max()为一个取最大值的函数;找到数字向量形式的药物关系标签p中的最大值pζ,则该输出预处理后的药物文本对应的药物关系的标签yζ即为xi的类别标签。
在本实施例中,一个未知药物关系文本中“Omeprazole and am oxicillin canbe taken at the same time.”,第一个目标药物名称词Omeprazole与第二个目标药物名称词amoxicillin通过建立好的药物关系多层卷积神经网络进行分类,输出的数字向量形式的药物关系分类标签为p[advice,effect,mechanism,int,false]=[0.13,0.09,0.17,0.24,0.37],也就是说两个目标药物之间存在advice关系的概率值为0.13,两个目标药物之间存在effect关系的概率值为0.09,两个目标药物之间存在mechanism关系的概率值为0.17,两个目标药物之间存在int关系的概率值为0.24,两个目标药物之间存在false关系的概率值为0.37;其中存在false关系的概率值最高,因此采用多层卷积神经网络分类第一个目标药物名称词iron supple ments与第二个目标药物名称词iron之间的关系为false无关。
本方案提供的基于多层卷积神经网络的药物关系分类方法与现有技术中药物分类方法相比,其准确率、召回率、F值对比结果见表2,在评价药物关系分类方法的优劣时,这三种指标值越大代表方法的分类结果越好,从表2中可以看出,本发明提出的基于多层卷积神经网络模型在准确率、召回率及F值等三个性能指标上都是最优的,其中准确率为86.6%,召回率为83.4%,F值为84.9%,证明了本发明提出的一种基于多层卷积神经网络的药物关系分类模型在药物关系分类问题上拥有最优的分类性能。
表2 本发明提供的药物关系分类方法与其他药物关系分类方法性能对比

Claims (10)

1.一种基于多层卷积神经网络的药物关系分类方法,其特征在于,包括以下步骤:
步骤1,采集由英文的单词构成的原始药物文本,获得原始药物文本集,所述的原始药物文本中至少包括两个目标药物名称词,在所述的原始药物文本中除去所述目标药物名称词均为其他单词;
步骤2,对所述的原始药物文本集进行预处理,包括词形归一化以及目标药物名称词命名方式的统一及替换,获得预处理后的药物文本集;
步骤3,构造包含表示层、卷积层、池化层和全连接层的多层卷积神经网络;采用输入与输出对所述的多层卷积神经网络进行训练,获得药物关系分类多层卷积神经网络,所述的输入为所述的预处理后的药物文本集,所述的输出为药物关系标签集,所述的药物关系标签集中的每一个药物关系标签为所述预处理后的药物文本集中的每一个药物文本对应的原始药物文本中任意两个目标药物名称词之间存在的药物关系;其中所述的表示层将所述的预处理后的药物文本集中的每一个药物文本映射成文本特征向量,所述的药物文本特征向量包括药物文本向量和所述其他单词与所述目标药物名称词之间的位置向量;
步骤4,利用所述的药物关系分类多层卷积神经网络对未知药物关系的药物文本进行药物关系分类,获得药物关系分类结果。
2.根据权利要求1所述的基于多层卷积神经网络的药物关系分类方法,其特征在于,所述的步骤2,对所述的原始药物文本集进行预处理,包括词形归一化以及目标药物名称词命名方式的统一及替换,获得预处理后的药物文本集,包括以下步骤:
步骤21、将所述原始药物文本集中所有所述的单词进行词形归一化,获得归一化后的药物文本集;
步骤22、对所述的归一化后的药物文本集中所有所述的目标药物名称词首先以统一形式命名,再利用统一形式命名后的目标药物名称词将所述的目标药物名称词进行替换,获得所述预处理后的药物文本集。
3.根据权利要求2所述的基于多层卷积神经网络的药物关系分类方法,其特征在于,步骤21中采用将所述原始药物文本中的所述单词转换为小写的原始词形的方法进行词形归一化。
4.根据权利要求1所述的基于多层卷积神经网络的药物关系分类方法,其特征在于,构造包含表示层、卷积层、池化层和全连接层的多层卷积神经网络;采用输入与输出对所述的多层卷积神经网络进行训练,获得药物关系分类多层卷积神经网络,包括以下步骤:
步骤31、依次构造表示层、卷积层、池化层以及全连接层,获得多层卷积神经网络模型;
步骤32、采用输入与输出对所述的多层卷积神经网络进行训练,获得药物关系分类多层卷积神经网络,所述的药物关系标签集中的每一个药物关系标签均为数字向量形式;重复训练N次所述的多层卷积神经网络,以第N次训练获得到的多层卷积神经网络作为所述的药物关系分类多层卷积神经网络,其中N>=1。
5.根据权利要求4所述的基于多层卷积神经网络的药物关系分类方法,其特征在于,在构造所述多层卷积神经网络的表示层时,包括以下步骤:
A、固定所述预处理后的药物文本集中每一个药物文本的长度,获得长度固定后的药物文本集;
B、对所述的长度固定后的药物文本集中每一个长度固定后的药物文本进行映射,获得药物文本向量集;
C、在所述的药物文本向量集中每一个药物文本向量中加入所述位置向量,获得药物特征向量集。
6.根据权利要求5所述的基于多层卷积神经网络的药物关系分类方法,其特征在于,对所述的长度固定后的药物文本进行映射,获得药物文本向量,包括以下步骤:
a、构造词向量表,所述的词向量表由所述的单词和所述单词对应的数字形式的词向量构成;
b、通过查所述的词向量表的方法对长度固定后的药物文本集中每一个长度固定的药物文本进行映射,获得药物文本向量集。
7.根据权利要求5所述的基于多层卷积神经网络的药物关系分类方法,其特征在于,所述位置向量为在所述原始药物文本中所述的目标药物名称词与所述其他单词之间的相对距离。
8.根据权利要求7所述的基于多层卷积神经网络的药物关系分类方法,其特征在于,所述的相对距离为所述其他单词与所述目标药物名称词之间相隔所述单词最少个数的绝对值。
9.根据权利要求4所述的基于多层卷积神经网络的药物关系分类方法,其特征在于,所述的池化层采用Max Pooling方法进行亚采样,对所述池化层输出的特征向量中的每一个元素以概率P置为0,获得优化的特征向量,所述全连接层的输出为数字向量形式的药物关系标签,所述的数字向量形式的药物关系标签中每一个元素值为一种药物关系存在的概率值。
10.根据权利要求9所述的基于多层卷积神经网络的药物关系分类方法,其特征在于,所述步骤4,将未知药物关系的药物文本输入至所述的药物关系分类多层卷积神经网络,从所述药物关系分类多层卷积神经网络输出的数字向量形式的药物关系标签中选取所述的概率值最大的药物关系作为所述未知药物关系的药物文本的药物关系分类结果。
CN201810133344.8A 2018-02-09 2018-02-09 一种基于多层卷积神经网络的药物关系分类方法 Active CN108363774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810133344.8A CN108363774B (zh) 2018-02-09 2018-02-09 一种基于多层卷积神经网络的药物关系分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810133344.8A CN108363774B (zh) 2018-02-09 2018-02-09 一种基于多层卷积神经网络的药物关系分类方法

Publications (2)

Publication Number Publication Date
CN108363774A true CN108363774A (zh) 2018-08-03
CN108363774B CN108363774B (zh) 2020-10-27

Family

ID=63005203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810133344.8A Active CN108363774B (zh) 2018-02-09 2018-02-09 一种基于多层卷积神经网络的药物关系分类方法

Country Status (1)

Country Link
CN (1) CN108363774B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635279A (zh) * 2018-11-22 2019-04-16 桂林电子科技大学 一种基于神经网络的中文命名实体识别方法
CN109767814A (zh) * 2019-01-17 2019-05-17 中国科学院新疆理化技术研究所 一种基于GloVe模型的氨基酸全局特征向量表示方法
CN109817276A (zh) * 2019-01-29 2019-05-28 鲁东大学 一种基于深度神经网络的蛋白质二级结构预测方法
CN110020671A (zh) * 2019-03-08 2019-07-16 西北大学 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法
CN110223751A (zh) * 2019-05-16 2019-09-10 平安科技(深圳)有限公司 基于医疗知识图谱的处方评价方法、系统及计算机设备
CN111738014A (zh) * 2020-06-16 2020-10-02 北京百度网讯科技有限公司 一种药物分类方法、装置、设备及存储介质
CN112860816A (zh) * 2021-03-01 2021-05-28 三维通信股份有限公司 药物实体对的相互作用关系检测模型构建方法和检测方法
CN113806531A (zh) * 2021-08-26 2021-12-17 西北大学 药物关系分类模型构建方法、药物关系分类方法及系统
CN117438104A (zh) * 2023-12-21 2024-01-23 成都市第一人民医院 一种智能药品预警方法、电子设备以及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
KR20160079591A (ko) * 2014-12-28 2016-07-06 김정훈 전자문서형태의 비정형화된 의약품 정보 항목별 자동분류 및 의약품 허가사항 정보 분석을 통한 자동 복약안내문 및 복약픽토그램 생성 장치 및 그 방법
US20160328480A1 (en) * 2015-05-06 2016-11-10 Facebook, Inc. Systems and methods for tuning content provision based on user preference
CN106980899A (zh) * 2017-04-01 2017-07-25 北京昆仑医云科技有限公司 预测血管树血管路径上的血流特征的深度学习模型和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160079591A (ko) * 2014-12-28 2016-07-06 김정훈 전자문서형태의 비정형화된 의약품 정보 항목별 자동분류 및 의약품 허가사항 정보 분석을 통한 자동 복약안내문 및 복약픽토그램 생성 장치 및 그 방법
US20160328480A1 (en) * 2015-05-06 2016-11-10 Facebook, Inc. Systems and methods for tuning content provision based on user preference
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106980899A (zh) * 2017-04-01 2017-07-25 北京昆仑医云科技有限公司 预测血管树血管路径上的血流特征的深度学习模型和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEGENHUANG: "《Drug–drug interaction extraction from biomedical literature using support vector machine and long short term memory networks》", 《INFORMATION SCIENCES》 *
蒋振超: "基于词表示和深度学习的生物医学关系抽取", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635279B (zh) * 2018-11-22 2022-07-26 桂林电子科技大学 一种基于神经网络的中文命名实体识别方法
CN109635279A (zh) * 2018-11-22 2019-04-16 桂林电子科技大学 一种基于神经网络的中文命名实体识别方法
CN109767814A (zh) * 2019-01-17 2019-05-17 中国科学院新疆理化技术研究所 一种基于GloVe模型的氨基酸全局特征向量表示方法
CN109817276A (zh) * 2019-01-29 2019-05-28 鲁东大学 一种基于深度神经网络的蛋白质二级结构预测方法
CN109817276B (zh) * 2019-01-29 2023-05-23 鲁东大学 一种基于深度神经网络的蛋白质二级结构预测方法
CN110020671B (zh) * 2019-03-08 2023-04-18 西北大学 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法
CN110020671A (zh) * 2019-03-08 2019-07-16 西北大学 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法
CN110223751A (zh) * 2019-05-16 2019-09-10 平安科技(深圳)有限公司 基于医疗知识图谱的处方评价方法、系统及计算机设备
CN111738014A (zh) * 2020-06-16 2020-10-02 北京百度网讯科技有限公司 一种药物分类方法、装置、设备及存储介质
CN111738014B (zh) * 2020-06-16 2023-09-08 北京百度网讯科技有限公司 一种药物分类方法、装置、设备及存储介质
CN112860816A (zh) * 2021-03-01 2021-05-28 三维通信股份有限公司 药物实体对的相互作用关系检测模型构建方法和检测方法
CN113806531A (zh) * 2021-08-26 2021-12-17 西北大学 药物关系分类模型构建方法、药物关系分类方法及系统
CN113806531B (zh) * 2021-08-26 2024-02-27 西北大学 药物关系分类模型构建方法、药物关系分类方法及系统
CN117438104A (zh) * 2023-12-21 2024-01-23 成都市第一人民医院 一种智能药品预警方法、电子设备以及计算机存储介质
CN117438104B (zh) * 2023-12-21 2024-03-22 成都市第一人民医院 一种智能药品预警方法、电子设备以及计算机存储介质

Also Published As

Publication number Publication date
CN108363774B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN108363774A (zh) 一种基于多层卷积神经网络的药物关系分类方法
Shorten et al. Deep Learning applications for COVID-19
Qiu et al. A comprehensive review of computational methods for drug-drug interaction detection
CN105512209B (zh) 一种基于特征自动学习的生物医学事件触发词识别方法
Maghari et al. Books’ rating prediction using just neural network
US7194466B2 (en) Object clustering using inter-layer links
CN105404632B (zh) 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN108182262A (zh) 基于深度学习和知识图谱的智能问答系统构建方法和系统
CN107122809A (zh) 基于图像自编码的神经网络特征学习方法
CN106126577A (zh) 一种基于数据源划分矩阵的加权关联规则挖掘方法
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN107480125A (zh) 一种基于知识图谱的关系链接方法
CN110189831A (zh) 一种基于动态图序列的病历知识图谱构建方法及系统
CN110428907A (zh) 一种基于非结构化电子病历的文本挖掘方法及系统
CN106777996A (zh) 一种基于Solr的体检数据搜索系统
Gómez‐Núñez et al. Updating the SCI mago journal and country rank classification: A new approach using W ard's clustering and alternative combination of citation measures
CN109165040A (zh) 一种基于随机森林模型的代码抄袭嫌疑检测的方法
CN104537280B (zh) 基于文本关系相似性的蛋白质交互关系识别方法
Gómez et al. Dynamics based features for graph classification
CN116386899A (zh) 基于图学习的药物疾病关联关系预测方法及相关设备
CN112256878A (zh) 一种基于深度卷积的水稻知识文本分类方法
Feng et al. Specgreedy: unified dense subgraph detection
Leng et al. Bi-level artificial intelligence model for risk classification of acute respiratory diseases based on Chinese clinical data
CN106126973A (zh) 基于r‑svm和tpr规则的基因功能预测方法
CN110010251B (zh) 一种中药社团信息生成方法、系统、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant