CN114388141A - 一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法 - Google Patents
一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法 Download PDFInfo
- Publication number
- CN114388141A CN114388141A CN202210036788.6A CN202210036788A CN114388141A CN 114388141 A CN114388141 A CN 114388141A CN 202210036788 A CN202210036788 A CN 202210036788A CN 114388141 A CN114388141 A CN 114388141A
- Authority
- CN
- China
- Prior art keywords
- drug
- entity
- bert
- insert
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 146
- 229940079593 drug Drugs 0.000 title claims abstract description 126
- 238000000605 extraction Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 50
- 230000007246 mechanism Effects 0.000 claims description 15
- 230000000873 masking effect Effects 0.000 claims description 12
- 101100394003 Butyrivibrio fibrisolvens end1 gene Proteins 0.000 claims description 8
- 101100478715 Drosophila melanogaster Start1 gene Proteins 0.000 claims description 8
- 101100174722 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GAA1 gene Proteins 0.000 claims description 8
- 101100296979 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PEP5 gene Proteins 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 6
- 238000012800 visualization Methods 0.000 abstract description 5
- 235000019580 granularity Nutrition 0.000 abstract description 4
- 238000002679 ablation Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 27
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 206010013710 Drug interaction Diseases 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- PMATZTZNYRCHOR-CGLBZJNRSA-N Cyclosporin A Chemical compound CC[C@@H]1NC(=O)[C@H]([C@H](O)[C@H](C)C\C=C\C)N(C)C(=O)[C@H](C(C)C)N(C)C(=O)[C@H](CC(C)C)N(C)C(=O)[C@H](CC(C)C)N(C)C(=O)[C@@H](C)NC(=O)[C@H](C)NC(=O)[C@H](CC(C)C)N(C)C(=O)[C@H](C(C)C)NC(=O)[C@H](CC(C)C)N(C)C(=O)CN(C)C1=O PMATZTZNYRCHOR-CGLBZJNRSA-N 0.000 description 2
- 108010036949 Cyclosporine Proteins 0.000 description 2
- 206010013654 Drug abuse Diseases 0.000 description 2
- -1 STRAT2 Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- RYYVLZVUVIJVGH-UHFFFAOYSA-N caffeine Chemical compound CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 2
- 229960001265 ciclosporin Drugs 0.000 description 2
- 229930182912 cyclosporin Natural products 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000011117 substance-related disease Diseases 0.000 description 2
- DOMXUEMWDBAQBQ-WEVVVXLNSA-N terbinafine Chemical compound C1=CC=C2C(CN(C\C=C\C#CC(C)(C)C)C)=CC=CC2=C1 DOMXUEMWDBAQBQ-WEVVVXLNSA-N 0.000 description 2
- 229960002722 terbinafine Drugs 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- XMAYWYJOQHXEEK-OZXSUGGESA-N (2R,4S)-ketoconazole Chemical compound C1CN(C(=O)C)CCN1C(C=C1)=CC=C1OC[C@@H]1O[C@@](CN2C=NC=C2)(C=2C(=CC(Cl)=CC=2)Cl)OC1 XMAYWYJOQHXEEK-OZXSUGGESA-N 0.000 description 1
- SUBDBMMJDZJVOS-UHFFFAOYSA-N 5-methoxy-2-{[(4-methoxy-3,5-dimethylpyridin-2-yl)methyl]sulfinyl}-1H-benzimidazole Chemical compound N=1C2=CC(OC)=CC=C2NC=1S(=O)CC1=NC=C(C)C(OC)=C1C SUBDBMMJDZJVOS-UHFFFAOYSA-N 0.000 description 1
- 239000010754 BS 2869 Class F Substances 0.000 description 1
- LTMHDMANZUZIPE-AMTYYWEZSA-N Digoxin Natural products O([C@H]1[C@H](C)O[C@H](O[C@@H]2C[C@@H]3[C@@](C)([C@@H]4[C@H]([C@]5(O)[C@](C)([C@H](O)C4)[C@H](C4=CC(=O)OC4)CC5)CC3)CC2)C[C@@H]1O)[C@H]1O[C@H](C)[C@@H](O[C@H]2O[C@@H](C)[C@H](O)[C@@H](O)C2)[C@@H](O)C1 LTMHDMANZUZIPE-AMTYYWEZSA-N 0.000 description 1
- CEAZRRDELHUEMR-URQXQFDESA-N Gentamicin Chemical compound O1[C@H](C(C)NC)CC[C@@H](N)[C@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](NC)[C@@](C)(O)CO2)O)[C@H](N)C[C@@H]1N CEAZRRDELHUEMR-URQXQFDESA-N 0.000 description 1
- 229930182566 Gentamicin Natural products 0.000 description 1
- AIJTTZAVMXIJGM-UHFFFAOYSA-N Grepafloxacin Chemical compound C1CNC(C)CN1C(C(=C1C)F)=CC2=C1C(=O)C(C(O)=O)=CN2C1CC1 AIJTTZAVMXIJGM-UHFFFAOYSA-N 0.000 description 1
- LPHGQDQBBGAPDZ-UHFFFAOYSA-N Isocaffeine Natural products CN1C(=O)N(C)C(=O)C2=C1N(C)C=N2 LPHGQDQBBGAPDZ-UHFFFAOYSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 229960000074 biopharmaceutical Drugs 0.000 description 1
- 229960001948 caffeine Drugs 0.000 description 1
- VJEONQKOZGKCAK-UHFFFAOYSA-N caffeine Natural products CN1C(=O)N(C)C(=O)C2=C1C=CN2C VJEONQKOZGKCAK-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- LTMHDMANZUZIPE-PUGKRICDSA-N digoxin Chemical compound C1[C@H](O)[C@H](O)[C@@H](C)O[C@H]1O[C@@H]1[C@@H](C)O[C@@H](O[C@@H]2[C@H](O[C@@H](O[C@@H]3C[C@@H]4[C@]([C@@H]5[C@H]([C@]6(CC[C@@H]([C@@]6(C)[C@H](O)C5)C=5COC(=O)C=5)O)CC4)(C)CC3)C[C@@H]2O)C)C[C@@H]1O LTMHDMANZUZIPE-PUGKRICDSA-N 0.000 description 1
- 229960005156 digoxin Drugs 0.000 description 1
- LTMHDMANZUZIPE-UHFFFAOYSA-N digoxine Natural products C1C(O)C(O)C(C)OC1OC1C(C)OC(OC2C(OC(OC3CC4C(C5C(C6(CCC(C6(C)C(O)C5)C=5COC(=O)C=5)O)CC4)(C)CC3)CC2O)C)CC1O LTMHDMANZUZIPE-UHFFFAOYSA-N 0.000 description 1
- 230000008406 drug-drug interaction Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 229960002518 gentamicin Drugs 0.000 description 1
- 229960000642 grepafloxacin Drugs 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 229960004125 ketoconazole Drugs 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 229960000381 omeprazole Drugs 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 150000004053 quinones Chemical class 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001179 sorption measurement Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 229940043263 traditional drug Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明涉及生物医学关系抽取领域,具体涉及一种基于药物实体词掩码和Insert‑BERT结构的药物关系抽取方法;本发明在药物关系多分类任务及药物关系检测二分类任务均有全面提升;模型可视化及消融实验等结果表明提出方法能够在连续空间中提取不同层次、不同粒度的语义信息,并能够有效制约负样本的影响。
Description
技术领域
本发明涉及生物医学关系抽取技术领域,具体涉及一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法。
背景技术
药物关系抽取(drug-drug-interaction extraction,DDI)旨在提取两种或两种以上药物之间在人体内相互结合以及相互作用的关系,是生物医学关系抽取领域最典型的任务。统计研究表明:越来越多的人需同时服用多种药物,而多种药物之间的相互作用将对健康人体产生严重影响。因此,进一步了解药物相互作用、设计和开发药物关系分类系统对减少药物滥用事故具有重要的意义。鉴如此,DDI相关工作受到越来越多研究人员的关注,同时涌现了多种反映药物作用关系的数据集。然而,随着生物医学的快速发展,描述生物药物机理的文献呈爆炸式增长,通过人工方式分析和发现药物相互关系已不再可能。因此,基于海量的描述药物机理文献数据,探索自动、准确的药物关系抽取方法成为DDI领域噩待解决的问题。
随着越来越多的人同时服用多种药物造成人体伤害以及药物滥用事故的频发,如何从各种医学日志或者记录探索药物相互作用引起了研究人员的极大关注。早期阶段,药物关系抽取方法主要基于以特征工程为代表的传统机器学习技术。这类方法受限于稀疏数据,关系抽取效果不佳;此外,特征提取方法的不可复用性也使得这类方法的推广成为较大的问题。近几年,以深度学习为代表的方法快速扩展到药物关系抽取领域,尤其以BERT为代表的预训练模型引起了关系抽取领域的普遍关注。然而,如何提升BERT的预训练效果以及更好的适配下游药物关系分类任务,仍需待进一步挖掘和探索。此外,目前虽存在描述药物机理的海量数据,但药物关系标注需要大量医学专业领域知识,致使人工标注的监督样本仅维持在10万量级,其远低于文本分类、实体识别等自然语言处理领域的数据规模。而相关研究表明,仅依靠少量监督数据,难以训练CNN或者RNN等深度神经网络模型,其准确率和泛化能力均难以保证。
综上所述,研发一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法,仍是药物关系抽取技术领域中急需解决的关键问题。
发明内容
针对现有技术所存在的上述缺点,本发明首先针对BERT预训练任务中表达共现实体信息弱的缺点,在药物实体库的引导下改进掩码语言模型中完全随机掩码方式,提出一种基于药物实体词掩码(Entity-Mask-Bert)的预训练策略;其次,在药物关系分类的微调阶段,针对下游任务适配差的问题,引入四种标志符号以区分同一输入序列不同的实体组合形式,在不破坏Entity-Mask-Bert预训练模型基础上提出一种Insert-BERT结构的微调方案。在DDI-Extraction2013实验结果表明:提出的无监督+有监督相结合的药物关系抽取方法取得F=0.81。与现有方法相比,提出的方法在药物关系多分类任务及药物关系检测二分类任务均有全面提升;模型可视化及消融实验等结果表明提出方法能够在连续空间中提取不同层次、不同粒度的语义信息,并能够有效制约负样本的影响。
为实现上述目的,本发明提供了如下技术方案:
一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法,包括:
S1、在输入层的单词序列掩码MASK阶段,基于构建的药物名称实体库上,采用字符串匹配的方式实现药物实体检测;
S2、在输入阶段,仅随机选择其中一个药物实体进行掩码,对于句子中剩下的非实体单词,遵循常规的BERT掩码策略;
S3、在预训练的Entity-Mask-BERT的基础上,通过引入标志实现组合进行区分,从而构建Insert-BERT结构的药物关系分类,以达到同一输入句子序列中不同药物实体关系的抽取的目的;
S4、为区分同一输入句子包含不同实体组合的问题,新增START1、END1、STRAT2和END2四个符号,从而使得相同的输入句子序列在输入层具有不同的表示;
S5、Insert-BERT模型训练前期采用基于warmup+三角学习率的优化策略,在训练的后期,随着模型的逐渐收敛,不断降低学习率以便微调模型。
本发明进一步设置为:在步骤S2中,在输入句子中存在多个实体的情况下,掩码其中一个药物实体并利用其他药物实体去预测当前掩码实体的策略,可基于海量的描述药物机理数据实现无监督的高频药物实体关系建模并完成预训练任务。
本发明进一步设置为:在步骤S3中,对于输入句子序列X=[x1,x2,e3,x4,e5···e10,···xM];
其中,M表示输入句子中包含的单词总数;
e3、e5和e10分别表示3个药物实体;
x1,x2,x4,··xM表示非药物实体;
下游分类任务需要判断[e3,e5]、[e3,e10]以及[e3,e10],这3种药物实体组合之间的关系,且实体组合共用同一个输入序列X。
本发明进一步设置为:在步骤S4中,新增START1、END1、STRAT2和END2四个符号,以判断实体组合[en,em]之间的关系。
本发明进一步设置为:判断实体组合[en,em]之间的关系的方法为:
S40、在en的前后插入符号START1和END1,标志第一个实体所在位置;
S41、在em的前后插入符号START2和END2,标志第二个实体所在位置;
本发明进一步设置为:在步骤S5中,构建的Insert-BERT模型,其主要编码单元为Transformer,该编码单元的参数均以Entity-MASK-Bert预训练得到的Transformer参数作为初始化。
本发明进一步设置为:在模型的训练阶段,假设[CLS]节点的输出表示为r∈Rk;
S50、定义转移矩阵W∈Rk×c实现输出表示空间到类别概率空间的映射:
o=rw;
其中,o=(o1,···,oj,···,oc)∈Rc表示每个类别的未归一化的概率;
k和c分别代表输出向量维度和药物实体关系的类别数目;
S51、利用Softmax函数将未归一化的概率空间o转化到归一化的概率空间s,如下式所示:
S52、以步骤S51中公式为优化目标完成Insert-BERT模型训练:
其中,L表示训练集中样本总数;
nl表示第l个样本中包含药物实体对的数量;
本发明进一步设置为:在Insert-BERT模型训练和微调过程中,batch-size、学习率分别设置为16和2e-5。
有益效果
采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
本发明提出一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法,该方法首先针对BERT预训练任务中表达共现实体信息弱的缺点,在药物实体库的引导下改进掩码语言模型中完全随机掩码方式,提出一种基于药物实体词掩码(Entity-Mask-Bert)的预训练策略;其次,在药物关系分类的微调阶段,针对下游任务适配差的问题,引入四种标志符号以区分同一输入序列不同的实体组合形式,在不破坏Entity-Mask-Bert预训练模型基础上提出一种Insert-BERT结构的微调方案。在DDI-Extraction 2013实验结果表明:提出的无监督+有监督相结合的药物关系抽取方法取得F=0.81。与现有方法相比,提出的方法在药物关系多分类任务及药物关系检测二分类任务均有全面提升;模型可视化及消融实验等结果表明提出方法能够在连续空间中提取不同层次、不同粒度的语义信息,并能够有效制约负样本的影响。
附图说明
图1为基于Transformer结构的预训练BERT模型由输入层、编码层和解码层组成的示意图;
图2为Entity-Mask-BERT的预训练过程的示意图;
图3为Insert-BERT模型构建的示意图;
图4为Insert-BERT注意力权重可视化的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合实施例对本发明作进一步的描述。
实施例1
一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法,针对预训练BERT模型完全随机的掩码方式缺乏实体倾向性的缺点,在引入药物实体识别基础上改进掩码语言模型,提出一种基于药物实体词掩码(Entity-Mask-Bert)的预训练策略;其次,在基于预训练好的Entity-Mask-BERT的基础上,针对药物关系抽取任务,本文进一步设计Insert-BERT结构,实现对药物关系的分类;最后,简单介绍了Insert-BERT的训练过程。
从掩码语言预测任务的训练策略可以看出,BERT采取完全随机的方式在对输入单词序列进行掩码。由于缺乏先验知识,这种不含倾向性的随机方式使得含信息量较少的单词仍然被掩码,或随机遮盖掉的单词与关系抽取任务关联度和关注度较小。如图1中,单词“of”或者“the”的信息量相对较低,但仍然被掩码和预测。这些包含冗余信息的掩码输入序列,不仅制约了编码层的表示能力,而且增加模型的训练难度以及影响模型的拟合能力。为了消除完全随机掩码方式产生的无效掩码,并考虑预训练BERT模型更好的适配下游的药物关系分类任务,本文提出一种基于药物实体词掩码(Entity-Mask-BERT)的预训练策略,其预训练过程如图2所示。
首先,在输入层的单词序列掩码MASK阶段,基于构建的药物名称实体库上,采用字符串匹配的方式实现药物实体检测。图2中,输入句子中标注为红色的“terbinafine”和“cyclosporine”为药物实体名称。然后,在输入阶段,区别于预训练BERT模型中掩码策略,仅随机选择其中一个药物实体进行掩码。图2中,存在两个药物实体“terbinafine”和“cyclosporine”,“cyclosporine”在输入端被选中并进行掩码。对于句子中剩下的非实体单词,本文遵循常规的BERT掩码策略。本文这种掩码的策略主要借鉴了关系抽取中远程监督的思想,即两个实体在远程监督的学习中存在大高频共现,则这两个实体存在关系的可能性较大。在输入句子中存在多个实体的情况下,本文提出的掩码其中一个药物实体并利用其他药物实体去预测当前掩码实体的策略,可以基于海量的描述药物机理数据实现无监督的高频药物实体关系建模并完成预训练任务。此外,区别于图1,本文在预训练的过程中丢弃了句对判断任务。
药物关系抽取质量不仅与预训练Bert模型中引入的实体掩码策略密切相关,还与下游领域分类任务模型构建紧密相连。对于输入句子序列,如果其包含N个实体,则需要判断种实体排列组合。如何在同一输入句子序列中区分辨识种组合,并为每种组合进行分类是本文需要解决的关键问题。
具体的,对于输入句子序列X=[x1,x2,e3,x4,e5···e10,···xM];
其中,M表示输入句子中包含的单词总数;
e3、e5和e10分别表示3个药物实体;
x1,x2,x4,··xM表示非药物实体;
下游分类任务需要判断[e3,e5]、[e3,e10]以及[e3,e10],这3种药物实体组合之间的关系,且实体组合共用同一个输入序列X。
判断实体组合[en,em]之间的关系的方法为:
1)在en的前后插入符号START1和END1,标志第一个实体所在位置;
2)在em的前后插入符号START2和END2,标志第二个实体所在位置;
具体构建形式如图3所示。其中,Transformer模型由提出的Entity-Mask-Bert中预训练得到,且用于Insert-Bert的初始化。
本文构建的Insert-BERT具有以下两个优点:
1)仅对输入句子序列在输入层增加位置符号,无需改变编码层Transformer内部结构以及整体模型框架,这确保提出的Entity-Insert-BERT结构可以较好地迁移到药物关系分类这一下游任务上;
2)新增位置符号的插入,仅改变了原始输入单词之间的相对位置。由于Transformer的注意力机制对位置的改变不敏感,这使得改进的预训练策略和微调相对一致。
构建的Insert-BERT模型,其主要编码单元为Transformer,该编码单元的参数均以Entity-MASK-Bert预训练得到的Transformer参数作为初始化,模型的训练阶段,假设[CLS]节点的输出表示为r∈Rk;
S50、定义转移矩阵W∈Rk×c实现输出表示空间到类别概率空间的映射:
o=rw;
其中,o=(o1,···,oj,···,oc)∈Rc表示每个类别的未归一化的概率;
k和c分别代表输出向量维度和药物实体关系的类别数目。
S51、利用Softmax函数将未归一化的概率空间o转化到归一化的概率空间s,如下式所示:
S52、以步骤S51中公式为优化目标完成Insert-BERT模型训练:
其中,L表示训练集中样本总数;
nl表示第l个样本中包含药物实体对的数量;
在Insert-BERT模型训练和微调过程中,batch-size、学习率分别设置为16和2e-5。在优化方法上,采用基于warmup+三角学习率的优化策略,即在模型的初始阶段,采用较小的学习率,确保模型的参数在一个较小的范围内更新,避免模型振荡;在训练的后期,随着模型的逐渐收敛,不断降低学习率以便微调模型。
此外,对于新增的位置符号START1、END1、STRAT2以及END2,如果其词向量表示作为额外的参数加入到insert-BERT进行训练,势必破坏预训练BERT的词向量大小。鉴于BERT专门为新的符号预留了部分词向量单元,在不增加BERT词向量规模基础上,采用折中方案,将新增位置符号统一映射为BERT词表中的[unseen]单词。在Entity-mask-BERT预训练参数基础上,提出的Insert-BERT模型训练将在20次左右达到收敛。
实施例2
为了更好地将BERT模型应用于药物关系抽取领域,以Google BERT的预训练模型为基础,并选择PubMed数据集中的摘要数据作为Entity-Mask-Bert的预训练语料。DDI-Extraction 2013数据集为药物关系抽取提供了一个规模相对较大的标注语料库。该数据集将药物实体对标注为五种药物关系类型:Advice、Effect、Mechanism、Int以及Negative(表示两实体不存在关系)。因此,DDI实质为一个5标签的多分类任务。各标签的简要描述如下:
1)Advice:描述同时使用两种药物的相关意见,如:Interaction may beexpected,and UROXATRAL should not be used in combination with other alpha-blockers;
2)effect:描述药效的相互作用,如:Methionine may protect against theototoxic effects of gentamicin;
3)mechanism:描述药物代谢动力学机制,如:Grepafloxacin,like otherquinolones,may inhibit the metabolism of caffeine and theobromine;
4)int:描述无任何信息的药物交互,如:The interaction of omeprazole andketoconazole has been established;
5)negative:两个实体对之间虽然存在共现,但是两者之间并不存在任何的关系,比如:Concomitantly given thiazide diuretics did not interfere with theabsorption of a tablet of digoxin。
After preprocessing and filtering rules
表1 DrugBank及MedLine预处理前后数据统计
DDI-Extraction2013的训练集和测试集主要由两个方面组成:DrugBank和MedLine。为消除过多负样本的影响以及提升模型效果,在数据处理阶段,沿用Quan提出的文本预处理方式滤掉部分负样本对,其详细描述如表1所示。
在表1中,上半部分代表未经过预处理的数据统计,下半部分为经预处理后的数据统计。此外,表1中Abstract代表摘要数据,Positive代表存在Advise、Effect,Mechanism以及Int四种关系的数据,而Negative则代表不存在任何关系的数据。从表1可以看出,通过文本处理方式,可以将训练集的负样本从22118降低至14445,同时可以将测试集的负样本从4367降低至2819,这个预处理操作在节省训练时间的同时可以降低分类的不均衡性。
在DDI-Extraction 2013数据集上,将提出的Insert-Bert模型的药物关系分类效果同其他相关工作进行了比较。除比较Advise、Effect、Mechanism以及Int四种药物关系的多分类任务效果外,进一步比较药物关系检测的2分类任务效果,即引入DEC描述药物之间是否存在关系,而不区分具有何种药物关系。
表2与基于传统统计机器学习药物关系分类方法的比较
方法类型 | Advise | Effect | Mechanism | Int | DEC | F-value |
Kim | 72.5 | 66.2 | 69.3 | 48.3 | 77.5 | 67.0 |
FBK-irst | 69.2 | 62.8 | 67.9 | 54.0 | 80.0 | 65.1 |
WBI | 63.2 | 61.0 | 61.8 | 51.0 | 75.9 | 60.9 |
UTurku | 63.0 | 60.0 | 58.2 | 50.7 | 69.6 | 59.4 |
Insert-BERT | 83.8 | 82.3 | 84.5 | 58.0 | 88.0 | 81.3 |
首先,将提出的方法与基于传统统计机器学习药物关系分类方法进行比较,主要包括FBK-irst、WBI以及UTurku三个基线模型和Kim方法,其比较结果如表2所示。以上四种方法均利用SVM分类器对输入的药物实体对进行关系分类,但是在模型、策略以及特征的选择方面,存在较大差异。FBK以及Kim方法首先采用二分类模型实现药物关系检测(即判断一对实体是否存在关系),然后利用多分类模型完成药物关系的多分类任务。而基于SVM模型多分类策略选择中,FBK采用1对多(one-against-all)策略,而Kim则选择1对1(one-against-one)策略。与Kim、FBK不同,WBI和UTurku直接将采用一个多分类-SVM来实现所有的任务。
表2表明,与基于传统统计机器学习药物关系分类方法相比,提出的方法在Advise、Effect、Mechanism、Int、DEC及F值方面均有明显提升。以传统机器学习中目前效果较好的Kim等系统为例,本文提出的Insert-BERT模型F值从67.0%提升到了81.3%;在单类别方面,分类效果也有明显提升,各类别F值均提升超过10%。此外,特征在以上四种方法中仍然承担着较为重要的地位。一些常用的特征,如n-gram信息、词对信息、词性信息等引入到模型中;同时,一些高阶的特征,比如:句法树信息,依存句法信息、句法路径信息等也被整合到模型中。这些融合人工抽取特征的传统药物关系分类方法一定程度上获得较为不错的效果,但此类方法一方面复用性难度大,一方面人工抽取特征的级联易导致误差传递增大。这些因素均制约了传统药物关系分类方法的应用和药物关系抽取效果的提升。
表3与基于深度学习药物关系分类方法的比较
与基于传统统计机器学习分类方法不同,基于深度学习的药物关系分类方法直接采用端到端的方式进行药物关系抽取。为分析基于深度学习的药物关系分类方法的优势,本文进一步将提出的方法与CNN及RNN相关的药物关系分类模型进行比较。在CNN相关的模型中,大多数模型先将输入文本转化为词向量表示,然后利用CNN的窗口卷积实现序列建模和实体对特征抽取,最后外接分类器完成实体关系分类。与CNN不同,RNN相关的模型直接对序列进行建模。考虑少量药物关系监督数据难以保证模型分类效果,本文采用基于药物实体词掩码的预训练策略与基于Insert-BERT模型的微调方案实现药物关系分类。表3表明:与CNN及RNN相关的药物关系分类方法相比较,本文方法的总体及单类别F值均有显著提升。表3还说明基于RNN序列建模方式的分类效果略微优于基CNN相关的方法,而基于深度学习的相关方法效果也远超SVM相关的模型。
表2、3实验结果表明:Insert-BERT的模型效果远超CNN、RNN以及SVM相关的模型。本文提出的方法在Advise、Effect、Mechanism以及Int四种关系类型上均获得了较好的分类结果。除了Int类型,其他类型的F值提升均超过5%。表2、3中,各方法的Int分类效果均较差,主要原因为:Int的训练和测试数据相对较少(低于100条),模型难以拟合致使分类效果偏低。此外,在F值方面,本文提出的Insert-BERT模型取得了F=0.81,其效果远超MCNN以及TM-RNN相关模型,这进一步说明提出的预训练+微调方案的有效性。另外,在二分类的DEC任务中,Insert-BERT也取得了最好的效果,其F值F超过MCNN方法9%。实验表明,提出的方法在药物关系抽取多分类任务及药物关系检测二分类任务均有全面提升。
表4 Google Bert初始化以及Entity-mask-Bert初始化的模型效果对比
模型结构 | F-value |
Insert-BERT(Google Bert初始化) | 79.0 |
Insert-BERT(Entity-Mask-Bert初始化) | 81.3 |
表5预处理规则对于不同方法效果的影响
方法 | 无预处理 | 预处理 | F-value变化 |
CNN | 65.0 | 69.7 | 4.7 |
MCNN | 67.8 | 70.2 | 2.4 |
SCNN | 64.5 | 68.4 | 3.9 |
RNN | 67.2 | 69.4 | 2.2 |
TM-RNN | 70.8 | 72.4 | 1.6 |
Insert-BERT | 81.0 | 81.3 | 0.3 |
为了进一步验证本文提出的Entity-Mask-Bert及预训练策略的有效性,比较了Google Bert初始化以及Entity-mask-BERT初始化下的Insert-BERT的模型效果。提出的Entity-Mask-BERT与Google Bert参数保持一致,均采用12层-768结构。
为了进一步探究Insert-BERT所学习到的深度特征以及句中单词对其影响权重,本文对BERT的[CLS]这一节点进行可视化分析。具体的,针对BERT每一层[CLS]节点,本文计算其他单词与当前[CLS]节点的权重,并且以可视化的方式进行展现,如图4所示。为方便分析和可视化,图4将A代表实体1、B代表实体2,并将S1、E1、S2和E2分别映射到Bert词表中的[unseen1]、[unseen2]、[unseen3]、[unseen4]这几个特殊符号。图4中,左边[CLS]节点同其他单词之间的线条粗细代表[CLS]节点与和其他节点的权重关系。通过可视化权重分析,可以定性的得出如下结论:1)在浅层的特征学习中,Insert-BERT主要聚焦学习一些句子整体层面的特征。如在layer0到layer7中,大部分的权重主要集中于[CLS]以及[SEP]这两节点上;2)在稍微高层的特征学习中,Insert-BERT开始关注一些非整体层面的细节特征。以layer8-layer11为例,权重大多集中在非[CLS]和[SEP]的节点上;3)各层聚焦的特性存在差异。如在layer6以及layer7中,Insert-BERT关注一些实体边界特征;而在layer4和layer5中,Insert-BERT更关注于一些能够蕴含实体关系的关键词,如“increases”。从这些定性的分析可以看出,提出的Insert-BERT能够在连续空间中提取不同层次、不同粒度的语义信息。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法,其特征在于,包括以下步骤:
S1、在输入层的单词序列掩码MASK阶段,基于构建的药物名称实体库上,采用字符串匹配的方式实现药物实体检测;
S2、在输入阶段,仅随机选择其中一个药物实体进行掩码,对于句子中剩下的非实体单词,遵循常规的BERT掩码策略;
S3、在预训练的Entity-Mask-BERT的基础上,通过引入标志实现组合进行区分,从而构建Insert-BERT结构的药物关系分类,以达到同一输入句子序列中不同药物实体关系的抽取的目的;
S4、为区分同一输入句子包含不同实体组合的问题,新增START1、END1、STRAT2和END2四个符号,从而使得相同的输入句子序列在输入层具有不同的表示;
S5、Insert-BERT模型训练前期采用基于warmup+三角学习率的优化策略,在训练的后期,随着模型的逐渐收敛,不断降低学习率以便微调模型。
2.根据权利要求1所述的基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法,其特征在于,在步骤S2中,在输入句子中存在多个实体的情况下,掩码其中一个药物实体并利用其他药物实体去预测当前掩码实体的策略,可基于海量的描述药物机理数据实现无监督的高频药物实体关系建模并完成预训练任务。
3.根据权利要求1所述的基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法,其特征在于,在步骤S3中,对于输入句子序列X=[x1,x2,e3,x4,e5···e10,···xM];
其中,M表示输入句子中包含的单词总数;
e3、e5和e10分别表示3个药物实体;
x1,x2,x4,··xM表示非药物实体;
下游分类任务需要判断[e3,e5]、[e3,e10]以及[e3,e10],这3种药物实体组合之间的关系,且实体组合共用同一个输入序列X。
4.根据权利要求1所述的基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法,其特征在于,在步骤S4中,新增START1、END1、STRAT2和END2四个符号,以判断实体组合[en,em]之间的关系。
6.根据权利要求1所述的基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法,其特征在于,在步骤S5中,构建的Insert-BERT模型,其主要编码单元为Transformer,该编码单元的参数均以Entity-MASK-Bert预训练得到的Transformer参数作为初始化。
7.根据权利要求5所述的基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法,其特征在于,在模型的训练阶段,假设[CLS]节点的输出表示为r∈Rk;
S50、定义转移矩阵W∈Rk×c实现输出表示空间到类别概率空间的映射:
o=rw;
其中,o=(o1,···,oj,···,oc)∈Rc表示每个类别的未归一化的概率;
k和c分别代表输出向量维度和药物实体关系的类别数目;
S51、利用Softmax函数将未归一化的概率空间o转化到归一化的概率空间s,如下式所示:
S52、以步骤S51中公式为优化目标完成Insert-BERT模型训练:
其中,L表示训练集中样本总数;
nl表示第l个样本中包含药物实体对的数量;
8.根据权利要求7所述的基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法,其特征在于,在Insert-BERT模型训练和微调过程中,batch-size、学习率分别设置为16和2e-5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210036788.6A CN114388141A (zh) | 2022-01-13 | 2022-01-13 | 一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210036788.6A CN114388141A (zh) | 2022-01-13 | 2022-01-13 | 一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114388141A true CN114388141A (zh) | 2022-04-22 |
Family
ID=81201305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210036788.6A Pending CN114388141A (zh) | 2022-01-13 | 2022-01-13 | 一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114388141A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019906A (zh) * | 2022-06-06 | 2022-09-06 | 电子科技大学 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
CN116992870A (zh) * | 2023-09-26 | 2023-11-03 | 山东省计算中心(国家超级计算济南中心) | 基于非对称核函数的文本信息实体关系抽取方法及系统 |
-
2022
- 2022-01-13 CN CN202210036788.6A patent/CN114388141A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019906A (zh) * | 2022-06-06 | 2022-09-06 | 电子科技大学 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
CN115019906B (zh) * | 2022-06-06 | 2024-04-16 | 电子科技大学 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
CN116992870A (zh) * | 2023-09-26 | 2023-11-03 | 山东省计算中心(国家超级计算济南中心) | 基于非对称核函数的文本信息实体关系抽取方法及系统 |
CN116992870B (zh) * | 2023-09-26 | 2023-12-19 | 山东省计算中心(国家超级计算济南中心) | 基于非对称核函数的文本信息实体关系抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Distiawan et al. | Neural relation extraction for knowledge base enrichment | |
US11580415B2 (en) | Hierarchical multi-task term embedding learning for synonym prediction | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN111274806B (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN111813950B (zh) | 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
WO2022141878A1 (zh) | 端到端的语言模型预训练方法、系统、设备及存储介质 | |
CN111159223A (zh) | 一种基于结构化嵌入的交互式代码搜索方法及装置 | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
Ru et al. | Using semantic similarity to reduce wrong labels in distant supervision for relation extraction | |
WO2018153215A1 (zh) | 一种自动生成语义相近句子样本的方法 | |
CN112925918B (zh) | 一种基于疾病领域知识图谱的问答匹配系统 | |
CN114388141A (zh) | 一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法 | |
Gan et al. | Semglove: Semantic co-occurrences for glove from bert | |
CN115130465A (zh) | 文献数据集上知识图谱实体标注错误识别方法和系统 | |
CN114661872A (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
Singh et al. | SciDr at SDU-2020: IDEAS--Identifying and Disambiguating Everyday Acronyms for Scientific Domain | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
Trabelsi et al. | SeLaB: Semantic labeling with BERT | |
CN118171653B (zh) | 一种基于深度神经网络的健康体检文本治理方法 | |
WO2022242074A1 (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN115828854B (zh) | 一种基于上下文消歧的高效表格实体链接方法 | |
Aghaebrahimian | Linguistically-based deep unstructured question answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |