CN115019906A - 多任务序列标注的药物实体和相互作用联合抽取方法 - Google Patents
多任务序列标注的药物实体和相互作用联合抽取方法 Download PDFInfo
- Publication number
- CN115019906A CN115019906A CN202210628078.2A CN202210628078A CN115019906A CN 115019906 A CN115019906 A CN 115019906A CN 202210628078 A CN202210628078 A CN 202210628078A CN 115019906 A CN115019906 A CN 115019906A
- Authority
- CN
- China
- Prior art keywords
- drug
- entity
- interaction
- word
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003814 drug Substances 0.000 title claims abstract description 254
- 229940079593 drug Drugs 0.000 title claims abstract description 215
- 230000003993 interaction Effects 0.000 title claims abstract description 71
- 238000000605 extraction Methods 0.000 title claims abstract description 53
- 206010013710 Drug interaction Diseases 0.000 claims abstract description 114
- 238000002372 labelling Methods 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 148
- 238000000034 method Methods 0.000 claims description 35
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000003068 static effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 230000007547 defect Effects 0.000 description 3
- 239000013043 chemical agent Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008406 drug-drug interaction Effects 0.000 description 2
- 229930003316 Vitamin D Natural products 0.000 description 1
- QYSXJUFSXHHAJI-XFEUOLMDSA-N Vitamin D3 Natural products C1(/[C@@H]2CC[C@@H]([C@]2(CCC1)C)[C@H](C)CCCC(C)C)=C/C=C1\C[C@@H](O)CCC1=C QYSXJUFSXHHAJI-XFEUOLMDSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000013543 active substance Substances 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000003285 pharmacodynamic effect Effects 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 235000019166 vitamin D Nutrition 0.000 description 1
- 239000011710 vitamin D Substances 0.000 description 1
- 150000003710 vitamin D derivatives Chemical class 0.000 description 1
- 229940046008 vitamin d Drugs 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
Abstract
本发明公开了一种多任务序列标注的药物实体和相互作用联合抽取方法,包括以下步骤:S1、数据预处理,包括通用数据预处理、药物实体识别序列标注数据集构建、药物相互作用抽取序列标注数据集构建、类别关键词词典获取;S2、药物命名实体识别;S3、药物相互作用抽取;S4、模型训练与损失函数。本发明将药物实体识别和相互作用抽取问题转化为一种两阶段序列标注任务,合理利用两个任务之间的相互联系和数据集已有的先验知识,将类别关键词的先验知识融入药物相互作用的抽取任务中,从大量的生物医学文献中快速高效地抽取药物实体和相互作用,是一种简单、通用、高效的标注模式。
Description
技术领域
本法明涉及一种多任务序列标注的药物实体和相互作用联合抽取方法。
背景技术
药物相互作用(Drug-Drug Interactions,DDI)是指当两种药物同时使用时,一种药物对另外一种药物产生的正面或者负面的影响。当两种或多种药物被同时使用时,某种已知药物可能会因为个体曾使用过另一特定药物而产生变化,这种变化可能会改变已知药物的安全性和药效,甚至产生严重的负面作用。因此对于医学里能与的相关工作者和研究者而言,药物相互作用的信息是十分重要的,缺乏对药物相互作用的相关知识的了解可能会在临床医学中造成对病患的病情延误甚至导致严重的医疗事故。充分获取和了解药物相互作用的信息对于降低医疗成本和避免医疗事故有着重要意义。
发明专利申请“基于残差网络和注意力机制的药物关系抽取方法‘CN108491680A’”中,使用了两层双向的长短时记忆网络模型对输入的药物关系陈述语句进行时序建模,挖掘药物关系描述中长距离单词间的依赖关系,并克服训练模型时出现的“梯度弥散”问题;将残差连接引入到构建的神经网络中,动态构建不同深度和结构的网络模型,并在以上基础上融入了注意力机制,完成单词信息的权重计算,最后将反映药物关系描述的记忆信息和反映单词权重的注意力信息进行融合并输入到Softmax分类器进行药物关系的抽取。
论文《基于神经网络的药物实体与关系联合抽取》(计算机研究与发展2019 56(7))在药物实体与关系抽取问题上提出了一种新的标注策略,将药物实体及关系的联合抽取转化为端到端的序列标注任务,使用词向量和字符向量作为词表示输入,使用BiLSTM-CRF作为编码模型,在实验结果上优于传统的分阶段方法。
对药物实体和相互作用抽取问题,传统的方法都是分阶段进行,即先进行药物实体抽取,再进行药物相互作用分类,这些方法存在的主要问题:1)两个任务之间存在误差传递问题,即药物关系的预测结果将严重依赖外部工具对于药物实体的识别结果。2)没有利用药物实体识别和相互作用抽取之间存在的相互关联信息。
现有基于序列标注的药物实体和关系抽取方法则存在以下不足:1)标注策略过于复杂,每个标注标签需要同时表示出实体、关系、位置等信息,给模型的学习带来困难;2)由于标注模式和匹配规则的设计限制,少数药物三元组无法被提取。
发明内容
本发明的目的在于克服现有技术的不足,提供一种将药物实体识别和相互作用抽取问题转化为一种两阶段序列标注任务,合理利用两个任务之间的相互联系和数据集已有的先验知识,将类别关键词的先验知识融入药物相互作用的抽取任务中,从大量的生物医学文献中快速高效地抽取药物实体和相互作用,简单、通用、高效的标注模式的多任务序列标注的药物实体和相互作用联合抽取方法。
本发明的目的是通过以下技术方案来实现的:多任务序列标注的药物实体和相互作用联合抽取方法,包括以下步骤:
S1、数据预处理,包括通用数据预处理、药物实体识别序列标注数据集构建、药物相互作用抽取序列标注数据集构建、类别关键词词典获取;
S2、药物命名实体识别;
S3、药物相互作用抽取;
S4、模型训练与损失函数。
进一步地,所述步骤S1具体实现方法为:
S11、通用数据预处理,所用数据来自DDIExtraction2013挑战数据集,包括以下子步骤:
S111、删除仅包含一个及以下药物实体的文本;
S112、将药物相互作用描述文本全部转换为小写,同时将所有标点符号和非英文字符去除;
S113、将药物相互作用描述文本中的所有数字全部用单词“num”替换;
S114、设定最大句子长度为256,如果句子不够最大长度,用字符“0”填充;如果句子超过最大长度,则对超出部分进行截断处理;
S12、药物实体识别序列标注数据集构建:解析DDIExtraction2013挑战数据集的xml文件,结合BIO标注模式和药物类别标签生成药物实体的最终标签,构建一个序列标注数据集用于药物实体识别;具体方法为:采用BIO标注模式对数据样本进行标注,实体词是指一个或多个英文单词组成的药物实体名称;将非实体词用O标注,实体词第一个单词用B表述,后面的单词用I标注;同时引入四类药物类别标签:drug、group、drug_n和brand,将药物类别标签拼接在B、I后面形成最终标签;
S13、药物相互作用抽取序列标注数据集构建:在DDIExtraction2013挑战数据集中,药物相互作用分为五类,分别为effect、mechanism、advice、int和false;通过解析原数据集xml文件,获得每一种药物与其他药物实体的相互作用;结合BIO标注模式、药物主客体类型和药物相互作用为药物实体生成标签,构造药物相互作用抽取序列标注数据集;具体方法为:基于BIO标注模式,指定一药物实体为药物主体,使用“B-S”或“I-S”标签对药物主体进行标注,其他药物实体则根据该实体与药物主体的相互作用进行标注;
一句输入文本若包含n个药物实体,则遍历n个实体,依次作为药物主体,生成n条序列标注文本数据;对每一条序列标注文本数据,将药物主体的标签与上下文顺序在其之后的药物实体的标签进行配对,抽取出以该药物为主体的所有相互作用三元组,获得输入文本对应的所有序列标注文本抽取到的相互作用三元组,即是输入文本中包含的所有的药物相互作用三元组;
S14、构造类别先验的关键词向量词典,详细步骤如下:
S141、对S11预处理后的药物相互作用描述文本再进行以下处理:
对于句中的某一对药物,使用类别标签将句子文本主体进行标记;
将药物相互作用对应的两个药物实体文本,分别替换为“相互作用类别_a”和“相互作用类别_b”;
将无关药物实体名称替换为“DRUG”;
S142、将S141处理好的相互作用描述文本X={x1,x2,...,xn}馈送至BioBert预训练模型,获得该文本的编码向量V={v1,v2,...,vn},xi表示文本中的第i个单词,vi表示第i个词对应的编码向量,n表示文本长度:
V=BioBert(X);
S143、对文本的嵌入单词向量求平均,得到融合整个上下文语义信息的句子嵌入向量v:
S144、将S142获得的单词嵌入向量逐一与S143获得的句子嵌入向量计算余弦相似度:
其中,i表示文本中单词序号,取值1~n;
将每个单词向量与句子向量的相似性得分Simi降序排列;根据其他语料中的高频、低价值的停用词构建停用词表,排除停用词表中的所有单词,再选出相似性得分最高的三个单词作为该句的候选关键词;
S145、使用基于类别修正的TD-IDF算法完成关键词统计:使用一种基于类别修正的TD-IDF词频统计方法完成最终类别关键词的统计,公式如下:
TF-IDFj(wi)=TFj(wi)×IDFj(wi)
TFj(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率,定义如下:
其中count(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的次数,∑count(w)表示药物相互作用类别为j的文本中总的候选关键词的数目;
IDFj(wi)是基于类别修正的逆文本频率指数,其定义如下:
其中P(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率,P′(wi)表示单词wi在除j以外的药物相互作用类别中出现的概率之和;
在为每个药物相互作用类别下的词汇完成基于类别修正的TF-IDF值的计算后,选择每个类别下TF-IDF值最高的十个单词作为该类别的关键词集;
S146、获取关键词向量:将DDIExtraction2013挑战数据集按照四个正向药物相互作用类别进行分类,得到类别相关的所有语句,并使用word2vec模型分别在四个语料库上进行预训练,得到4个类别相关的静态词向量表;
按照步骤S145得到的每一药物相互作用类别的关键词集,分别从对应的类别相关的静态词向量表中,按照关键词集检索获得每一个关键词的低维嵌入向量,称为关键词向量k。
进一步地,所述步骤S2具体实现方法为:
S21、将步骤S12获得的数据集中的每一句输入文本的最前面插入一个特殊符号[CLS],该符号对应的最终隐向量捕获了全句的上下文语义信息;根据步骤S142,同样以BioBert预训练模型作为文本的基础编码器,获取文本单词特征和上下文特征,得到文本编码向量H={h0,h1,...,hn},其中h0便是[CLS]符号对应的隐向量,即上下文向量;
S22、将步骤S21得到的文本编码向量输入到线性层进行线性转化,得到得分向量H′={h′0,h′1,...,h′n},其表示如下:
H′=WH+b
其中W和b分别是线性层的权重和偏置;
S23、将步骤S22得到的得分向量H′输入至softmax层完成归一化:
进一步地,所述步骤S3具体实现方法为:
S31、根据步骤S23得到每一个单词对应的药物实体类别标签,将概率最大的实体类别标签作为该单词的实体类别,得到输入文本中的药物实体集合;
S32、遍历步骤S31得到的药物实体集合,依次从中选定一个药物实体作为药物主实体s;复用步骤S21得到的文本编码向量,从中获得上下文向量h0、药物主实体的编码向量hs,,其中药物主实体若由C个token组成,则对这C个token对应的编码向量求平均得到hs,:
S33、根据步骤S145获得的类别关键词集,检索输入文本中包含的类别关键词,将步骤S146获得的句中每一个类别关键词向量k计算其与句中每一个词向量hi的相似度得分:
Si=cos(k,hi)
对得到的关键词相似度得分进行归一化,得到第i个词的注意力权重:
计算所有项的注意力权重,将权重向量与词向量相乘,得到嵌入了关键词k与其他词的共现信息的向量,即:
若输入文本中检索出了a个关键词,分别对这a个关键词进行上述计算,得到a个注入了不同关键词信息的向量,将这些向量拼接,馈入一个最大池层提取最重要的关键词信息并降维,得到关键词向量表示如下:
S34、对于句中的第i个单词,从步骤S21得到的文本编码向量中获取该单词对应的编码向量hi,作为药物客实体向量;将上下文向量h0、主实体向量hs、客实体向量hi、关键词向量拼接,作为该单词与药物主实体的关系向量表示如下:
S35、根据步骤S34获得输入文本中每一个单词与药物主实体的关系向量Hr={hr1,…,hrn},将关系向量Hr输入到线性层进行线性转化,得到关系得分向量H'r={h'r1,…,h'rn},表示如下:
H′r=WrHr+br
其中Wr和br分别是线性层的权重和偏置;
S36、将步骤S35得到的关系得分向量输入至softmax层完成归一化:
其中h′ri表示输入文本中第i个单词跟药物主实体之间的关系得分向量,即表示该单词属于第j个药物相互作用类别标签的概率;将概率最高的作为该单词的类别标签,进一步得到整个输入文本的药物相互作用类别标签序列;
S37、根据步骤S36获得的药物相互作用类别标签序列,从中抽取出药物相互作用三元组;具体抽取匹配流程如下:
选定标签序列中的药物主实体为药物相互作用三元组的Subject;
以药物主实体的句中位置出发,向后搜索,找到对应的药物相互作用类别标签后缀为“effect”、“mechanism”、“advice”、“int”或“false”的单词作为药物相互作用三元组的Object,其后缀对应的关系即是药物相互作用三元组的relation,完成匹配抽取出该三元组;
搜索至句尾,完成匹配。
进一步地,所述步骤S4具体实现方法为:
S41、药物实体识别损失:使用基于互信息的交叉熵损失函数,其公式如下所示:
其中f(·)代表一个神经网络,fy(x)表示输入x,输出为y时神经网络最后一层的输出,其中y′,y∈|E|,y′是x对应的真实标签值,E是药物实体标签集合;M是输入样例的文本长度,xi表示输入样例的第i个单词;πy是标签y的类别先验估计,即是在整个训练集中标签y的频率;
S42、药物相互作用抽取损失:对于药物相互作用抽取,一句包含N个药物实体的输入文本,在药物相互作用抽取阶段被解析成N个药物主实体不同的序列标注样例;对于每一条样例,采用基于互信息的交叉熵损失函数计算损失值,然后再求输入文本对应的所有样例的损失平均数,得到该输入文本在药物相互作用抽取阶段的损失值,计算如下:
其中,M是输入样例的文本长度,其中q′,q∈|R|,R是药物相互作用标签集合,xji表示在第j个输入样例中的第i个单词;其中f(·)代表一个神经网络,fq(x)表示输入x,输出为q时神经网络最后一层的输出,πq是标签q的类别先验估计,即是在整个训练集中标签q的频率;
S43、训练总损失:药物实体识别和药物相互作用抽取均首先提供真实实体进行训练,将两个阶段的损失相加再进行反向传播优化模型参数,其总损失表示如下:
Loss=Loss1+Loss2
然后利用梯度反向传播对模型进行改进,优化模型参数;直至训练达到设置的迭代次数或者模型连续多次总损失不再降低,停止训练,得到最优模型;
完成模型训练后,在使用模型进行推断时,首先进行药物实体识别,再将识别出的药物实体依次作为药物主实体馈入药物相互作用抽取模型,抽取出所有的药物实体间相互作用三元组。
本发明的有益效果是:本发明将药物实体识别和相互作用抽取问题转化为一种两阶段序列标注任务,合理利用两个任务之间的相互联系和数据集已有的先验知识,将类别关键词的先验知识融入药物相互作用的抽取任务中,从大量的生物医学文献中快速高效地抽取药物实体和相互作用,是一种简单、通用、高效的标注模式。
附图说明
图1为本发明的药物实体和相互作用联合抽取方法的流程图;
图2为本发明的药物实体识别数据集样例;
图3为本发明的药物相互作用序列标注数据集样例;
图4为本发明的类别关键词向量表构建流程;
图5为本发明的文本关键词提取流程图;
图6为本实施例药物命名实体识别和药物相互作用抽取的过程示意图。
具体实施方式
本发明在数据处理阶段,首先基于DDI2013数据集,分别构建药物实体识别序列标注数据集以及药物相互作用抽取序列标注数据集,然后结合深度学习与改进的TF-IDF算法构造类别先验的关键词典;使用BioBert对输入文本进行编码,进行第一阶段的序列标注任务,识别文本中的药物实体,并根据识别结果和查询类别关键词典获得实体向量和关键词向量,计算每个关键词对句中词的影响权重,获得融入了关键词信息的句子向量;最后将第一阶段识别出的药物实体,逐一作为相互作用三元组中的药物主体送入阶段二,识别其余所有token与该药物主体之间的相互作用,完成药物相互作用三元组的抽取。模型的整体框架如图1所示。下面进一步说明本发明的技术方案。
如图1所示,本发明的一种多任务序列标注的药物实体和相互作用联合抽取方法,包括以下步骤:
S1、数据预处理,包括通用数据预处理、药物实体识别序列标注数据集构建、药物相互作用抽取序列标注数据集构建、类别关键词词典获取;具体实现方法为:
S11、通用数据预处理,所用数据来自DDIExtraction2013挑战数据集,包括以下子步骤:
S111、删除仅包含一个及以下药物实体的文本;
S112、将药物相互作用描述文本全部转换为小写,同时将所有标点符号和非英文字符去除;
S113、因为大多从文本语义信息抽取的药物间相互作用与单位量词之间并无关系,反而会形成噪声干扰训练,因此将药物相互作用描述文本中的所有数字全部用单词“num”替换;
S114、设定最大句子长度为256,如果句子不够最大长度,用字符“0”填充;如果句子超过最大长度,则对超出部分进行截断处理;
S12、药物实体识别序列标注数据集构建:解析DDIExtraction2013挑战数据集的xml文件,结合BIO标注模式和药物类别标签生成药物实体的最终标签,构建一个序列标注数据集用于药物实体识别;具体方法为:采用BIO标注模式对数据样本进行标注,实体词是指一个或多个英文单词组成的药物实体名称;将非实体词用O标注,实体词第一个单词用B表述,后面的单词用I标注;同时引入DDIExtraction 2013数据集定义的四类药物类别作为药物实体标签:drug、group、drug_n和brand,将药物类别标签拼接在B、I后面形成最终标签;例如:某单字符药物实体词的类别为drug,则该词被指派标签“B-drug”。例如vitamin D两个单词组成了一个类别为drug的药物实体,B标注一个实体的开始单词,即“vitamin”被标记为“B-drug”,I标记一个实体的后面单词,即“D”被标记为“I-drug”。标注样本示例如图2所示。
四种药物类别标签,其具体定义如下:
drug:任何已被批准用于人类的疾病的且用于治疗、治愈、预防或诊断的化学试剂,只能代表仿制药物。
group:在一组指定药物间的化学或药理学关系文本中的任何术语。
brand:任何最初由制药公司研发的药物。
drug_n:任何影响活生物体的化学试剂或活性物质,但尚未被批准用于人类。
S13、药物相互作用抽取序列标注数据集构建:在DDIExtraction2013挑战数据集中,药物相互作用分为五类,分别为effect、mechanism、advice、int和false;通过解析原数据集xml文件,获得每一种药物与其他药物实体的相互作用;结合BIO标注模式、药物主客体类型和药物相互作用为药物实体生成标签,构造药物相互作用抽取序列标注数据集;具体方法为:基于BIO标注模式,指定一药物实体为药物主体,使用“B-S(Subject)”或“I-S”标签对药物主体进行标注,其他药物实体则根据该实体与药物主体的相互作用进行标注;例如某单字符药物实体词与指定药物主体之间的相互作用为“effect”,则该实体被标注为“B-effect”。
五类药物相互作用,其具体定义如下:
effect:该类别用于注释由其效果或药效学机制描述的药物相互作用。
mechanism:该类别用于注释由其药代动力学机制描述的药物相互作用。
advice:该类别用于注释被建议或推荐使用的具有积极效果的药物相互作用。
int:该类别用于注释描述文本中没有更多附加信息的药物相互作用。
false:该类别用于注释不存在药物相互作用的药物对。
一句输入文本若包含n个药物实体,则遍历n个实体,依次作为药物主体,生成n条序列标注文本数据;对每一条序列标注文本数据,将药物主体的标签与上下文顺序在其之后的药物实体的标签进行配对,抽取出以该药物为主体的所有相互作用三元组,获得输入文本对应的所有序列标注文本抽取到的相互作用三元组,即是输入文本中包含的所有的药物相互作用三元组;通过此方法,可充分解决以往的序列标注方法中存在的关系重叠问题,标注样本实例如图3所示。
S14、构造类别先验的关键词向量词典,本发明在不利用任何外部知识的前提下,充分利用来自数据集本身的先验知识,即构造类别先验的关键词向量词典,在药物相互作用抽取阶段加入类别先验知识,增强模型的分类能力。本发明结合深度学习方法和一种改进的TF-IDF计算方法,充分利用了上下文信息和语义特征来抽取类别关键词,并构建类别关键词向量词典,流程如图4所示。详细步骤如下:
S141、对S11预处理后的药物相互作用描述文本再进行以下处理:
对于句中的某一对药物,使用类别标签将句子文本主体进行标记;如一句关于药物对的相互作用描述文本类别为“advise”,则使用<advise></advise>标记添加在句子的左右,目的是将该药物对的相互作用类别信息注入到上下文信息中。
将药物相互作用对应的两个药物实体文本,分别替换为“相互作用类别_a”和“相互作用类别_b”;如一对药物之间的相互作用为“advise”,将药物名称按照药物实体在句中的位置顺序分别替换为“advise_a”和“advise_b”,目的是使模型能够关注到该类别相互作用下的药物主客体。
将无关药物实体名称替换为“DRUG”;目的是排除无关药物名称的影响。
S142、将S141处理好的相互作用描述文本X={x1,x2,...,xn}馈送至BioBert预训练模型,获得该文本的编码向量V={v1,v2,...,vn},xi表示文本中的第i个单词,vi表示第i个词对应的编码向量,n表示文本长度:
V=BioBert(X);
S143、对文本的嵌入单词向量求平均,得到融合整个上下文语义信息的句子嵌入向量v:
S144、将S142获得的单词嵌入向量逐一与S143获得的句子嵌入向量计算余弦相似度:
其中,i表示文本中单词序号,取值1~n;
将每个单词向量与句子向量的相似性得分Simi降序排列;根据其他语料中的高频、低价值的停用词构建停用词表,排除停用词表中的所有单词,再选出相似性得分最高的三个单词作为该句的候选关键词;候选关键词提取示例如图5所示。
S145、使用基于类别修正的TD-IDF算法完成关键词统计:为了进一步提高类别关键词的区分度,在对步骤S141每一句相互作用描述文本都抽取出三个候选关键词后,使用一种基于类别修正的TD-IDF词频统计方法完成最终类别关键词的统计,公式如下:
TF-IDFj(wi)=TFj(wi)×IDFj(wi)
TFj(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率,定义如下:
其中count(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的次数,∑count(w)表示药物相互作用类别为j的文本中总的候选关键词的数目;
IDFj(wi)是基于类别修正的逆文本频率指数,其定义如下:
其中P(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率,P′(wi)表示单词wi在除j以外的药物相互作用类别中出现的概率之和;
与传统的TF-IDF算法相比,基于类别修正后的算法能够更加综合的考虑候选关键词在不同的药物相互作用类别之间的共现信息,从而有效地筛选出更加具有类别区分度的单词。
在为每个药物相互作用类别下的词汇完成基于类别修正的TF-IDF值的计算后,选择每个类别下TF-IDF值最高的十个单词作为该类别的关键词集,若存在某一关键词同时属于多个类别,则根据基于类别修正的TF-IDF值的大小决定该词属于哪一类别。最终为每一药物相互作用类别构建完成关键词集。
S146、根据步骤S145获得了每个药物相互作用类别的关键词集后,进一步获得具有强类别信息的关键词向量:将DDIExtraction2013挑战数据集按照四个正向药物相互作用类别进行分类,得到类别相关的所有语句,并使用word2vec模型分别在四个语料库上进行预训练,得到4个类别相关的静态词向量表;
按照步骤S145得到的每一药物相互作用类别的关键词集,分别从对应的类别相关的静态词向量表中,按照关键词集检索获得每一个关键词的低维嵌入向量,称为关键词向量k。
S2、药物命名实体识别;具体实现方法为:
S21、将步骤S12获得的数据集中的每一句输入文本的最前面插入一个特殊符号[CLS],该符号对应的最终隐向量捕获了全句的上下文语义信息;根据步骤S142,同样以BioBert预训练模型作为文本的基础编码器,获取文本单词特征和上下文特征,得到文本编码向量H={h0,h1,...,hn},其中h0便是[CLS]符号对应的隐向量,即上下文向量;
S22、将步骤S21得到的文本编码向量输入到线性层进行线性转化,得到得分向量H′={h′0,h′1,...,h′n},其表示如下:
H′=WH+b
其中W和b分别是线性层的权重和偏置;
S23、将步骤S22得到的得分向量H′输入至softmax层完成归一化:
S3、药物相互作用抽取;具体实现方法为:
S31、根据步骤S23得到每一个单词对应的药物实体类别标签,将概率最大的实体类别标签作为该单词的实体类别,得到输入文本中的药物实体集合;
S32、遍历步骤S31得到的药物实体集合,依次从中选定一个药物实体作为药物主实体s;复用步骤S21得到的文本编码向量,从中获得上下文向量h0、药物主实体的编码向量hs,,其中药物主实体若由C个token(单词)组成,则对这C个token对应的编码向量求平均得到hs,:
S33、根据步骤S145获得的类别关键词集,检索输入文本中包含的类别关键词,将步骤S146获得的句中每一个类别关键词向量k计算其与句中每一个词向量hi的相似度得分:
Si=cos(k,hi)
对得到的关键词相似度得分进行归一化,得到第i个词的注意力权重:
计算所有项的注意力权重,将权重向量与词向量相乘,得到嵌入了关键词k与其他词的共现信息的向量,即:
若输入文本中检索出了a个关键词,分别对这a个关键词进行上述计算,得到a个注入了不同关键词信息的向量,将这些向量拼接,馈入一个最大池层提取最重要的关键词信息并降维,得到关键词向量表示如下:
S34、对于句中的第i个单词,从步骤S21得到的文本编码向量中获取该单词对应的编码向量hi,作为药物客实体向量;将上下文向量h0、主实体向量hs、客实体向量hi、关键词向量拼接,作为该单词与药物主实体的关系向量表示如下:
S35、根据步骤S34获得输入文本中每一个单词与药物主实体的关系向量Hr={hr1,…,hrn},将关系向量Hr输入到线性层进行线性转化,得到关系得分向量H'r={h'r1,…,h'rn},表示如下:
H′r=WrHr+br
其中Wr和br分别是线性层的权重和偏置;
S36、将步骤S35得到的关系得分向量输入至softmax层完成归一化:
其中h′ri表示输入文本中第i个单词跟药物主实体之间的关系得分向量,即表示该单词属于第j个药物相互作用类别标签的概率;将概率最高的作为该单词的类别标签,进一步得到整个输入文本的药物相互作用类别标签序列;
S37、根据步骤S36获得的药物相互作用类别标签序列,从中抽取出药物相互作用三元组;具体抽取匹配流程如下:
选定标签序列中的药物主实体为药物相互作用三元组的Subject;
以药物主实体的句中位置出发,向后搜索,找到对应的药物相互作用类别标签后缀为“effect”、“mechanism”、“advice”、“int”或“false”的单词作为药物相互作用三元组的Object,其后缀对应的关系即是药物相互作用三元组的relation,完成匹配抽取出该三元组;
搜索至句尾,完成匹配。
一句包含n个药物实体的输入文本,因依次选择不同的药物作为药物主实体输入第二阶段进行药物相互作用的编解码,所以会得到n条药物主实体各不相同的药物相互作用类别标签序列,对这n条药物相比作用类别标签序列按照上述规则进行药物相互作用三元组的抽取,即可抽取出输入文本中包含的所有三元组,解决了以往的序列标注方法因标注和匹配策略的缺陷无法抽取所有相互作用三元组的问题。
本实施例输入文本为:Benazepril has had less than additive effects withbeta-adrenergic blockers[SEP],其药物命名实体识别和药物相互作用抽取的两个阶段的处理过程如图6所示。
S4、模型训练与损失函数;具体实现方法为:
S41、药物实体识别损失:对于药物实体的识别,对数据集标签作统计发现存在较严重的“长尾”问题,即各标签的数量存在不平衡,非实体词“O”标签占绝大多数,并且实体标签之间也存在样本数量上的较大差距,对于训练集的具体统计如表1所示。
表1
为了提高药物实体的识别效果,使用基于互信息的交叉熵损失函数,其公式如下所示:
其中f(·)代表一个神经网络,fy(x)表示输入x,输出为y时神经网络最后一层的输出,其中y′,y∈|E|,y′是x对应的真实标签值,E是药物实体标签集合;M是输入样例的文本长度,xi表示输入样例的第i个单词;πy是标签y的类别先验估计,即是在整个训练集中标签y的频率;该计算方法与标准的交叉熵损失相比,对神经网络的输出加上一个基于类别先验的偏移量,能够在训练的过程中拟合类别间的互信息。
S42、药物相互作用抽取损失:对于药物相互作用抽取,一句包含N个药物实体的输入文本,在药物相互作用抽取阶段被解析成N个药物主实体不同的序列标注样例;对于每一条样例,采用基于互信息的交叉熵损失函数计算损失值,然后再求输入文本对应的所有样例的损失平均数,得到该输入文本在药物相互作用抽取阶段的损失值,计算如下:
其中,M是输入样例的文本长度,其中q′,q∈|R|,R是药物相互作用标签集合,xji表示在第j个输入样例中的第i个单词;其中f(·)代表一个神经网络,fq(x)表示输入x,输出为q时神经网络最后一层的输出,πq是标签q的类别先验估计,即是在整个训练集中标签q的频率;
S43、训练总损失:药物实体识别和药物相互作用抽取均首先提供真实实体进行训练,将两个阶段的损失相加再进行反向传播优化模型参数,其总损失表示如下:
Loss=Loss1+Loss2
然后利用梯度反向传播对模型进行改进,优化模型参数;直至训练达到设置的迭代次数或者模型连续多次总损失不再降低,停止训练,得到最优模型;
完成模型训练后,在使用模型进行推断时,首先进行药物实体识别,再将识别出的药物实体依次作为药物主实体馈入药物相互作用抽取模型,抽取出所有的药物实体间相互作用三元组。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (5)
1.多任务序列标注的药物实体和相互作用联合抽取方法,其特征在于,包括以下步骤:
S1、数据预处理,包括通用数据预处理、药物实体识别序列标注数据集构建、药物相互作用抽取序列标注数据集构建、类别关键词词典获取;
S2、药物命名实体识别;
S3、药物相互作用抽取;
S4、模型训练与损失函数。
2.根据权利要求1所述的多任务序列标注的药物实体和相互作用联合抽取方法,其特征在于,所述步骤S1具体实现方法为:
S11、通用数据预处理,所用数据来自DDIExtraction2013挑战数据集,包括以下子步骤:
S111、删除仅包含一个及以下药物实体的文本;
S112、将药物相互作用描述文本全部转换为小写,同时将所有标点符号和非英文字符去除;
S113、将药物相互作用描述文本中的所有数字全部用单词“num”替换;
S114、设定最大句子长度为256,如果句子不够最大长度,用字符“0”填充;如果句子超过最大长度,则对超出部分进行截断处理;
S12、药物实体识别序列标注数据集构建:解析DDIExtraction2013挑战数据集的xml文件,结合BIO标注模式和药物类别标签生成药物实体的最终标签,构建一个序列标注数据集用于药物实体识别;具体方法为:采用BIO标注模式对数据样本进行标注,实体词是指一个或多个英文单词组成的药物实体名称;将非实体词用O标注,实体词第一个单词用B表述,后面的单词用I标注;同时引入四类药物类别标签:drug、group、drug_n和brand,将药物类别标签拼接在B、I后面形成最终标签;
S13、药物相互作用抽取序列标注数据集构建:在DDIExtraction2013挑战数据集中,药物相互作用分为五类,分别为effect、mechanism、advice、int和false;通过解析原数据集xml文件,获得每一种药物与其他药物实体的相互作用;结合BIO标注模式、药物主客体类型和药物相互作用为药物实体生成标签,构造药物相互作用抽取序列标注数据集;具体方法为:基于BIO标注模式,指定一药物实体为药物主体,使用“B-S”或“I-S”标签对药物主体进行标注,其他药物实体则根据该实体与药物主体的相互作用进行标注;
一句输入文本若包含n个药物实体,则遍历n个实体,依次作为药物主体,生成n条序列标注文本数据;对每一条序列标注文本数据,将药物主体的标签与上下文顺序在其之后的药物实体的标签进行配对,抽取出以该药物为主体的所有相互作用三元组,获得输入文本对应的所有序列标注文本抽取到的相互作用三元组,即是输入文本中包含的所有的药物相互作用三元组;
S14、构造类别先验的关键词向量词典,详细步骤如下:
S141、对S11预处理后的药物相互作用描述文本再进行以下处理:
对于句中的某一对药物,使用类别标签将句子文本主体进行标记;
将药物相互作用对应的两个药物实体文本,分别替换为“相互作用类别_a”和“相互作用类别_b”;
将无关药物实体名称替换为“DRUG”;
S142、将S141处理好的相互作用描述文本X={x1,x2,...,xn}馈送至BioBert预训练模型,获得该文本的编码向量V={v1,v2,...,vn},xi表示文本中的第i个单词,vi表示第i个词对应的编码向量,n表示文本长度:
V=BioBert(X);
S144、将S142获得的单词嵌入向量逐一与S143获得的句子嵌入向量计算余弦相似度:
其中,i表示文本中单词序号,取值1~n;
将每个单词向量与句子向量的相似性得分Simi降序排列;根据其他语料中的高频、低价值的停用词构建停用词表,排除停用词表中的所有单词,再选出相似性得分最高的三个单词作为该句的候选关键词;
S145、使用基于类别修正的TD-IDF算法完成关键词统计:使用一种基于类别修正的TD-IDF词频统计方法完成最终类别关键词的统计,公式如下:
TF-IDFj(wi)=TFj(wi)×IDFj(wi)
TFj(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率,定义如下:
其中count(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的次数,∑count(w)表示药物相互作用类别为j的文本中总的候选关键词的数目;
IDFj(wi)是基于类别修正的逆文本频率指数,其定义如下:
其中P(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率,P′(wi)表示单词wi在除j以外的药物相互作用类别中出现的概率之和;
在为每个药物相互作用类别下的词汇完成基于类别修正的TF-IDF值的计算后,选择每个类别下TF-IDF值最高的十个单词作为该类别的关键词集;
S146、获取关键词向量:将DDIExtraction2013挑战数据集按照四个正向药物相互作用类别进行分类,得到类别相关的所有语句,并使用word2vec模型分别在四个语料库上进行预训练,得到4个类别相关的静态词向量表;
按照步骤S145得到的每一药物相互作用类别的关键词集,分别从对应的类别相关的静态词向量表中,按照关键词集检索获得每一个关键词的低维嵌入向量,称为关键词向量k。
3.根据权利要求2所述的多任务序列标注的药物实体和相互作用联合抽取方法,其特征在于,所述步骤S2具体实现方法为:
S21、将步骤S12获得的数据集中的每一句输入文本的最前面插入一个特殊符号[CLS],该符号对应的最终隐向量捕获了全句的上下文语义信息;根据步骤S142,同样以BioBert预训练模型作为文本的基础编码器,获取文本单词特征和上下文特征,得到文本编码向量H={h0,h1,...,hn},其中h0便是[CLS]符号对应的隐向量,即上下文向量;
S22、将步骤S21得到的文本编码向量输入到线性层进行线性转化,得到得分向量H′={h′0,h′1,...,h′n},其表示如下:
H′=WH+b
其中W和b分别是线性层的权重和偏置;
S23、将步骤S22得到的得分向量H′输入至softmax层完成归一化:
4.根据权利要求3所述的多任务序列标注的药物实体和相互作用联合抽取方法,其特征在于,所述步骤S3具体实现方法为:
S31、根据步骤S23得到每一个单词对应的药物实体类别标签,将概率最大的实体类别标签作为该单词的实体类别,得到输入文本中的药物实体集合;
S32、遍历步骤S31得到的药物实体集合,依次从中选定一个药物实体作为药物主实体s;复用步骤S21得到的文本编码向量,从中获得上下文向量h0、药物主实体的编码向量hs,,其中药物主实体若由C个token组成,则对这C个token对应的编码向量求平均得到hs,:
S33、根据步骤S145获得的类别关键词集,检索输入文本中包含的类别关键词,将步骤S146获得的句中每一个类别关键词向量k计算其与句中每一个词向量hi的相似度得分:
Si=cos(k,hi)
对得到的关键词相似度得分进行归一化,得到第i个词的注意力权重:
计算所有项的注意力权重,将权重向量与词向量相乘,得到嵌入了关键词k与其他词的共现信息的向量,即:
若输入文本中检索出了a个关键词,分别对这a个关键词进行上述计算,得到a个注入了不同关键词信息的向量,将这些向量拼接,馈入一个最大池层提取最重要的关键词信息并降维,得到关键词向量表示如下:
S34、对于句中的第i个单词,从步骤S21得到的文本编码向量中获取该单词对应的编码向量hi,作为药物客实体向量;将上下文向量h0、主实体向量hs、客实体向量hi、关键词向量拼接,作为该单词与药物主实体的关系向量表示如下:
S35、根据步骤S34获得输入文本中每一个单词与药物主实体的关系向量Hr={hr1,…,hrn},将关系向量Hr输入到线性层进行线性转化,得到关系得分向量H′r={h′r1,…,h′rn},表示如下:
H′r=WrHr+br
其中Wr和br分别是线性层的权重和偏置;
S36、将步骤S35得到的关系得分向量输入至softmax层完成归一化:
其中hr′i表示输入文本中第i个单词跟药物主实体之间的关系得分向量,即表示该单词属于第j个药物相互作用类别标签的概率;将概率最高的作为该单词的类别标签,进一步得到整个输入文本的药物相互作用类别标签序列;
S37、根据步骤S36获得的药物相互作用类别标签序列,从中抽取出药物相互作用三元组;具体抽取匹配流程如下:
选定标签序列中的药物主实体为药物相互作用三元组的Subject;
以药物主实体的句中位置出发,向后搜索,找到对应的药物相互作用类别标签后缀为“effect”、“mechanism”、“advice”、“int”或“false”的单词作为药物相互作用三元组的Object,其后缀对应的关系即是药物相互作用三元组的relation,完成匹配抽取出该三元组;
搜索至句尾,完成匹配。
5.根据权利要求1所述的多任务序列标注的药物实体和相互作用联合抽取方法,其特征在于,所述步骤S4具体实现方法为:
S41、药物实体识别损失:使用基于互信息的交叉熵损失函数,其公式如下所示:
其中f(·)代表一个神经网络,fy(x)表示输入x,输出为y时神经网络最后一层的输出,其中y′,y∈|E|,y′是x对应的真实标签值,E是药物实体标签集合;M是输入样例的文本长度,xi表示输入样例的第i个单词;πy是标签y的类别先验估计,即是在整个训练集中标签y的频率;
S42、药物相互作用抽取损失:对于药物相互作用抽取,一句包含N个药物实体的输入文本,在药物相互作用抽取阶段被解析成N个药物主实体不同的序列标注样例;对于每一条样例,采用基于互信息的交叉熵损失函数计算损失值,然后再求输入文本对应的所有样例的损失平均数,得到该输入文本在药物相互作用抽取阶段的损失值,计算如下:
其中,M是输入样例的文本长度,其中q′,q∈|R|,R是药物相互作用标签集合,xji表示在第j个输入样例中的第i个单词;其中f(·)代表一个神经网络,fq(x)表示输入x,输出为q时神经网络最后一层的输出,πq是标签q的类别先验估计,即是在整个训练集中标签q的频率;
S43、训练总损失:药物实体识别和药物相互作用抽取均首先提供真实实体进行训练,将两个阶段的损失相加再进行反向传播优化模型参数,其总损失表示如下:
Loss=Loss1+Loss2
然后利用梯度反向传播对模型进行改进,优化模型参数;直至训练达到设置的迭代次数或者模型连续多次总损失不再降低,停止训练,得到最优模型;
完成模型训练后,在使用模型进行推断时,首先进行药物实体识别,再将识别出的药物实体依次作为药物主实体馈入药物相互作用抽取模型,抽取出所有的药物实体间相互作用三元组。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210628078.2A CN115019906B (zh) | 2022-06-06 | 2022-06-06 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
ZA2022/08455A ZA202208455B (en) | 2022-06-06 | 2022-07-28 | A combined extraction method of drug entities and interactions with multi-task sequential labeling |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210628078.2A CN115019906B (zh) | 2022-06-06 | 2022-06-06 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115019906A true CN115019906A (zh) | 2022-09-06 |
CN115019906B CN115019906B (zh) | 2024-04-16 |
Family
ID=83073399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210628078.2A Active CN115019906B (zh) | 2022-06-06 | 2022-06-06 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115019906B (zh) |
ZA (1) | ZA202208455B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089618A (zh) * | 2023-04-04 | 2023-05-09 | 江西师范大学 | 融合三元损失和标签嵌入的图注意力网络文本分类模型 |
CN116610804A (zh) * | 2023-07-19 | 2023-08-18 | 深圳须弥云图空间科技有限公司 | 一种提升小样本类别识别的文本召回方法和系统 |
CN117172254A (zh) * | 2023-11-02 | 2023-12-05 | 成方金融科技有限公司 | 模型训练方法、信息抽取方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389470A (zh) * | 2015-11-18 | 2016-03-09 | 福建工程学院 | 一种中医针灸领域实体关系自动抽取的实现方法 |
CN110377755A (zh) * | 2019-07-03 | 2019-10-25 | 江苏省人民医院(南京医科大学第一附属医院) | 基于药品说明书的合理用药知识图谱构建方法 |
CN110390021A (zh) * | 2019-06-13 | 2019-10-29 | 平安科技(深圳)有限公司 | 药品知识图谱构建方法、装置、计算机设备及存储介质 |
CN111581974A (zh) * | 2020-04-27 | 2020-08-25 | 天津大学 | 一种基于深度学习的生物医学实体识别方法 |
EP3901875A1 (en) * | 2020-04-21 | 2021-10-27 | Bayer Aktiengesellschaft | Topic modelling of short medical inquiries |
WO2022036616A1 (zh) * | 2020-08-20 | 2022-02-24 | 中山大学 | 一种基于低标注资源生成可推理问题的方法和装置 |
CN114373554A (zh) * | 2021-12-28 | 2022-04-19 | 大连海事大学 | 利用药物知识和句法依存关系的药物相互作用关系抽取方法 |
CN114388141A (zh) * | 2022-01-13 | 2022-04-22 | 安庆师范大学 | 一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法 |
-
2022
- 2022-06-06 CN CN202210628078.2A patent/CN115019906B/zh active Active
- 2022-07-28 ZA ZA2022/08455A patent/ZA202208455B/en unknown
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389470A (zh) * | 2015-11-18 | 2016-03-09 | 福建工程学院 | 一种中医针灸领域实体关系自动抽取的实现方法 |
CN110390021A (zh) * | 2019-06-13 | 2019-10-29 | 平安科技(深圳)有限公司 | 药品知识图谱构建方法、装置、计算机设备及存储介质 |
CN110377755A (zh) * | 2019-07-03 | 2019-10-25 | 江苏省人民医院(南京医科大学第一附属医院) | 基于药品说明书的合理用药知识图谱构建方法 |
EP3901875A1 (en) * | 2020-04-21 | 2021-10-27 | Bayer Aktiengesellschaft | Topic modelling of short medical inquiries |
CN111581974A (zh) * | 2020-04-27 | 2020-08-25 | 天津大学 | 一种基于深度学习的生物医学实体识别方法 |
WO2022036616A1 (zh) * | 2020-08-20 | 2022-02-24 | 中山大学 | 一种基于低标注资源生成可推理问题的方法和装置 |
CN114373554A (zh) * | 2021-12-28 | 2022-04-19 | 大连海事大学 | 利用药物知识和句法依存关系的药物相互作用关系抽取方法 |
CN114388141A (zh) * | 2022-01-13 | 2022-04-22 | 安庆师范大学 | 一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法 |
Non-Patent Citations (4)
Title |
---|
HAOHAN DENG等: "MTMG: A multi-task model with multi-granularity information for drug-drug interaction extraction", 《HELIYON》, vol. 9, no. 6, 30 May 2023 (2023-05-30), pages 1 - 15 * |
姚春华;刘潇;高弘毅;鄢秋霞;: "基于句法语义特征的实体关系抽取技术", 通信技术, no. 08, 10 August 2018 (2018-08-10) * |
缪磊: "面向文本的基于神经网络的药物相互作用抽取研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, 15 May 2019 (2019-05-15), pages 079 - 93 * |
邓皓瀚: "化学药物组合推荐方法研究", 《电子科技大学》, 30 June 2023 (2023-06-30), pages 1 - 123 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089618A (zh) * | 2023-04-04 | 2023-05-09 | 江西师范大学 | 融合三元损失和标签嵌入的图注意力网络文本分类模型 |
CN116089618B (zh) * | 2023-04-04 | 2023-06-27 | 江西师范大学 | 融合三元损失和标签嵌入的图注意力网络文本分类模型 |
CN116610804A (zh) * | 2023-07-19 | 2023-08-18 | 深圳须弥云图空间科技有限公司 | 一种提升小样本类别识别的文本召回方法和系统 |
CN116610804B (zh) * | 2023-07-19 | 2024-01-05 | 深圳须弥云图空间科技有限公司 | 一种提升小样本类别识别的文本召回方法和系统 |
CN117172254A (zh) * | 2023-11-02 | 2023-12-05 | 成方金融科技有限公司 | 模型训练方法、信息抽取方法、装置、设备及存储介质 |
CN117172254B (zh) * | 2023-11-02 | 2024-01-16 | 成方金融科技有限公司 | 模型训练方法、信息抽取方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
ZA202208455B (en) | 2022-11-30 |
CN115019906B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825721B (zh) | 大数据环境下高血压知识库构建与系统集成方法 | |
CN111428036B (zh) | 一种基于生物医学文献的实体关系挖掘方法 | |
US11580415B2 (en) | Hierarchical multi-task term embedding learning for synonym prediction | |
CN115019906B (zh) | 多任务序列标注的药物实体和相互作用联合抽取方法 | |
CN111078875B (zh) | 一种基于机器学习的从半结构化文档中提取问答对的方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
CN111950283B (zh) | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 | |
CN112735597A (zh) | 半监督自学习驱动的医学文本病症辨识方法 | |
Zhang et al. | Effective subword segmentation for text comprehension | |
CN115293161A (zh) | 基于自然语言处理和药品知识图谱的合理用药系统及方法 | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
CN114943230A (zh) | 一种融合常识知识的中文特定领域实体链接方法 | |
Hassan et al. | Opinion within opinion: segmentation approach for urdu sentiment analysis. | |
CN116719913A (zh) | 一种基于改进命名实体识别的医疗问答系统及其构建方法 | |
Lu et al. | Chinese clinical named entity recognition with word-level information incorporating dictionaries | |
Yang et al. | Named entity recognition of medical text based on the deep neural network | |
CN114048305A (zh) | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 | |
CN112149411A (zh) | 一种抗生素临床使用领域本体构建方法 | |
CN116911300A (zh) | 语言模型预训练方法、实体识别方法和装置 | |
Jiang et al. | Combining generative and discriminative approaches to unsupervised dependency parsing via dual decomposition | |
CN114444467A (zh) | 一种中医文献内容分析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |