CN113806531B - 药物关系分类模型构建方法、药物关系分类方法及系统 - Google Patents

药物关系分类模型构建方法、药物关系分类方法及系统 Download PDF

Info

Publication number
CN113806531B
CN113806531B CN202110987573.8A CN202110987573A CN113806531B CN 113806531 B CN113806531 B CN 113806531B CN 202110987573 A CN202110987573 A CN 202110987573A CN 113806531 B CN113806531 B CN 113806531B
Authority
CN
China
Prior art keywords
drug
sentence
medicine
names
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110987573.8A
Other languages
English (en)
Other versions
CN113806531A (zh
Inventor
孙霞
陈嘉诚
金鑫
邓瑶
张梦延
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NORTHWEST UNIVERSITY
Original Assignee
NORTHWEST UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NORTHWEST UNIVERSITY filed Critical NORTHWEST UNIVERSITY
Priority to CN202110987573.8A priority Critical patent/CN113806531B/zh
Publication of CN113806531A publication Critical patent/CN113806531A/zh
Application granted granted Critical
Publication of CN113806531B publication Critical patent/CN113806531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种药物关系分类模型构建方法、药物关系分类方法及系统。本发明利用BioBERT中提取出与药物名相关的知识和使用关键语义子句代替全部句子,丢弃无关紧要词构建预训练数据集,对包括依次设置的语义和药物知识抽取层;药物知识增强层;语义和药物知识融合层和分类层的神经网络进行训练构建分类模型。本发明分类准确率提高,且减缓了标记噪声样本对模型训练时造成的负面影响。

Description

药物关系分类模型构建方法、药物关系分类方法及系统
技术领域
本发明涉及药物关系分类模型构建及分类方法,具体涉及一种基于 BioBERT和GHM loss的药物关系分类模型构建及分类方法。
背景技术
药物关系是指同时或在一段时间内服用两种或更多种药物所产生的综合效应。这种效应可分为协同效应,拮抗效应和非相互作用。药物之间的相互拮抗效应会对患者造成严重的健康风险。药物关系抽取(DDIE)任务是自然语言处理领域的典型的关系提取任务,旨在检测和识别药物对的语义关系,对减少药物安全事故,促进生物医学技术的发展具有重要意义。
近年来,随着深度学习的发展和应用,有越来越多基于神经网络的方法应用在药物关系抽取任务上,这类方法的创新集中在设计独特的注意力机制,堆叠更深的网络层数,依赖语法信息等方面。但是随着如BERT等预训练语言模型的出现,导致模型结构逐渐统一,性能也逐渐达到瓶颈。于是,有研究者开始使用与药物实体相关的知识去增加药物关系抽取的表现。但目前主流的利用药物知识的方法首先利用爬虫从药物数据库或维基百科上爬取与药物名相关的外部知识,然后通过神经网络将外部知识转为为计算机可以理解的语义向量,最后与药物文本结合去抽取药物关系。
现有的药物关系分类方法存在依赖外部知识和受标注噪声影响,导致药物关系分类的准确率不高的问题。
发明内容
针对现有技术的缺陷或不足,本发明提供了一种药物关系分类模型构建方法。
为此,本发明所提供的方法包括
步骤1,构建原始药物文本集并进行预处理
1.1构建原始药物文本集,所构建原始药物文本集由多个原始句子构成,每个原始句子中包含至少两个药物名称,所述至少两个药物名称中包含有两个目标药物名称;对每个原始句子中的两个目标药物名称的药物关系进行标注,得到药物关系标签集;
1.2采用BioBERT分词词典对每个原始句子进行分词处理;得到分词处理后的药物文本集;
1.3对每个分词处理后的句子中的两个目标药物名称中的其中一个目标药物名称前后均添加$符号,另一个目标药物名称前后均添加#符号;得到标记后的药物文本集;
1.4对步骤1.3处理后的集合中的每个token映射为该token在BioBERT 分词词典中的对应索引值;得到预处理后的药物文本集;
1.5选取每个原始句子中的关键词和非关键词;
1.6将步骤1.3处理后的每个句子中的关键词的token标记为1,非关键词和$符号及#符号的token标记为0,得到每个句子的关键语义子句标记向量;得到关键语义子句标记向量集合;
步骤2,将所述的预处理后的药物文本集和关键语义子句标记向量集合作为输入,将所述的药物关系标签集作为输出,训练神经网络,获得药物关系分类模型;
所述的神经网络包括依次设置的语义和药物知识抽取层;药物知识增强层;语义和药物知识融合层;和分类层;
所述的语义和药物知识抽取层为经过预训练的语言模型BioBERT,所述语义和药物知识抽取层对预处理后的药物文本集进行处理,得到每个句子的表示矩阵;
所述药物知识增强层的输入为每个句子的表示矩阵和关键语义子句标记向量,将每个句子的表示矩阵中的非关键词对应的向量及$符号和#符号对应的向量删除,得到每个句子的关键句子表示矩阵;
所述语义和药物知识融合层对每个关键句子表示矩阵中所包含的药物名称的向量和非药物名称的向量进行融合,得到每个原始句子对应的句子表示向量,该句子表示向量作为分类层的输入。
进一步,所述语义和药物知识融合层是由依次连接的双向长短期记忆神经网络和全连接层块构成,将关键句子表示矩阵输入双向长短期记忆神经网络得到正向句子表示向量和反向的句子表示向量,全连接层块对正向句子表示向量和反向的句子表示向量进行融合,得到融合了正、反向语义的句子表示向量。
进一步,所述步骤1.5中采用基于语法依赖信息的方法选取每个原始句子中的关键词和非关键词。
进一步,所述的分类层包括全连接层和softmax函数层。
优选的,所述训练过程中使用GHM损失函数。
本发明同时提供了一种药物关系分类方法。为此,本发明所提供的所述方法包括:
步骤一,识别待分类句子中所包含的药物名称,如待分类句子中包含有两个药物名称时,将所含有的两个药物名称作为目标药物名称直接执行步骤二;如待分类句子中包含三个以上药物名称时,遍历其中的两个药物名称组合作为目标药物名称,分别执行步骤二;
步骤二,采用上述步骤1.2-1.6对待分类句子进行处理,得到待分类句子的预处理后的药物文本和关键语义子句标记向量;
步骤三,将所得预处理后的药物文本和关键语义子句标记向量输入权利要求1构建的模型中,输出待分类句子中任意两个药物名称之间的药物关系类别。
本发明还提供了一种药物关系分类系统。为此,本发明提供的药物关系分类系统包括数据预处理模块和分类模块,所述数据预处理模块用于执行上述步骤一和二;所述分类模块用于执行上述步骤三。
与现有技术相比,本发明具有以下技术特点:
本发明通过输入不经过药物致盲,且标记药物实体的文本,从BioBERT 中提取出与药物名相关的知识,使得分类准确率提高;
本发明通过使用关键语义子句代替全部句子,丢弃了无关紧要词,使得存储在药物实体对应向量表示中的药物知识的效果提升,使得分类准确率提高。
本发明通过使用GHM作为损失函数,减缓了标记噪声样本对模型训练时造成的负面影响,使得分类准确率提高。
附图说明
图1为本发明的一个实施例中提供的一句话的语法依赖解析图。
具体实施方式
除非有特殊说明,本文中的术语和方法根据相关领域普通技术人员的认识理解或采用已有相关方法实现。
本发明所述的原始药物文本集可取自业内已经公开的数据集,或通过生物医学文献和论文等方式进行采集,获取的文本可以为文献和论文的局部或整体,但需要保证文本语义表达完整。所述原始药物文本集中的处理单元为原始句子,例如“Barbituratesandglutethimide should not be administered to patientsreceiving coumarin drug.”,其中“Barbiturates”、“glutethimide”和“coumarin drug”为药物名称词,剩下的单词为其他单词。
本发明所述的药物名称是指原始句子中所客观包含的药物名称,目标药物名称是指每次分析、标注、处理操作时所针对的多个药物名称中的两个具体的药物名称,例如原始句子“Barbituratesand glutethimide should not be administered topatientsreceiving coumarin drug.”中包含三个药物名称:“Barbiturates”、“glutethimide”和“coumarin drug”,这三个药物名称中任意两个为目标药物名称。
本发明所述的药物关系标签包括下述五种中的任一种或两种以上,五种分别是advice建议,effect作用,mechanism药物机理,int正向以及无关系 false;这些关系词的实质含义根据药学领域相关知识定义。
本发明使用BioBERT分词词典对原始句子进行分析处理,其通过 WordPiece技术,将每一个word切片成更小的单位token,词典由所有的 token组成;例如单词chloramphenicol被切片后的结果为 [’ch’,’##lora’,’##mp’,’##hen’,’##ico’,’##l’],里面的’ch’,‘##lora’等均为token。
为了使模型捕捉到目标药物名称的位置,本发明对所述的分词后的药物文本集中的目标药物名称前后添加药物实体标记,通过对分词后的药物文本集中的两个目标药物名称前后分别添加’$’和’#’标记。
为了使得文本内容输入到分类模型中,本发明通过查询BioBERT分词词典,将标记后的药物文本集中的token都映射为其在BioBERT字典中的对应索引值。所述BioBERT的分词词典为文献Devlin J,Chang M W,Lee K,et al.Bert: Pre-training of deepbidirectional transformers for language understanding[J]. arXiv preprintarXiv:1810.04805,2018.中所公开的分词词典。
本发明所述选取每个原始句子中的关键词和非关键词可选有已有相关方法实现,如采用基于语法依赖信息的方法,具体如由药物名称和其最小公共祖先节点(LCA)组成的子树,药物名称间的最短依赖路径(SDP),基于LCA 的优化方法(KSS)等。
本发明所构建的模型首先使用预训练语言模型BioBERT将每一个原始句子中词转化为其表示矩阵,其中包括目标药物的表示向量和其他词的表示向量;目标药物名称的表示向量包含与药物名称相关的知识,其他的词的表示向量包含其本身的融合了上下文信息的更精准的语义信息;目标药物名称词相对于其他词的数量很少,这会导致目标药物的表示向量中所含的药物知识被其他词的表示向量淹没;
为了提升药物知识的作用,将语义和药物知识抽取层所得到的所有词的表示向量送入到药物知识增强层,在增强层中,通过利用关键语义子句标记向量,仅保留关键语义子句中的词对应的词表示向量;
再将这些词表示向量送入语义和药物知识融合层,在语义和药物知识融合层中,将所包含的目标药物名称的向量和非药物名称的向量进行融合,得到每个原始句子对应的句子表示向量,该句子表示向量作为分类层的输入。
本发明网络中的分类层包括全连接层和softmax函数层;还可以是最后由全连接层+softmax层结束的其他网络结构。由全连接层和Softmax函数层组成的分类层,根据类别的数量输出数字向量形式的药物关系标签,从而确定最后的药物关系分类的最终结果,全连接层和Softmax函数层的每一个输出节点代表一个药物类别,分类器最终输出的药物标签是给定药物实体对属于各个药物类别的概率,并且该概率值在[0,1];例如,现假定药物关系有 2种,分别代表有关系和没有关系,则Softmax函数层的输出节点设置为2 个,即有两种药物关系,分别代表positive和negative,假如Softmax函数层输出的数字向量形式的药物关系标签为p[positive,negative]=[0.1,0.9], 即Softmax函数层输出的结果中,存在positive的概率值为0.1,存在negative 的概率值为0.9,然后以此来判断.
实施例1:
在本实施例中为采用本发明的方法构建一具体的药物关系分类模型;
在本实例中,采用DDIExtraction 2013药物关系数据集作为药物关系文本对神经网络进行训练和测试,将整个数据集的80%作为训练集、20%作为测试集,即训练集由27792条原始句子样例组成,测试集由6409条药物关系文本样例组成。然后使用划分好的训练集对神经网络进行10次训练,选取10次训练中模型效果最好的模型作为神经网络的最终模型。每个原始句子中至少需要包含两个目标药物名称词,这两个目标药物名称词为涉及药物关系分类的药物单词,其余均为其他单词,例如,在本实施例中原始药物文本为:“Barbituratesand glutethimide should not be administered to patientsreceivingcoumarin drug.”,其中“Barbiturates”和“glutethimide”为目标药物名称词;
还例如,在本实施例中原始药物文本为:“Barbiturates and glutethimideshould not be administered to patientsreceiving coumarin drug.”,其中“glutethimide”和“coumarin drug”为目标药物名称词;
又例如,在本实施例中原始药物文本为:“Barbiturates and glutethimideshould not be administered to patientsreceiving coumarin drug.”,其中“Barbiturates”和“coumarin drug”为目标药物名称词;
该实施例的分词处理通过使用BioBERT的分词词典来实现,将句子中的每一个词划分为更小的token;例如“chloramphenicol”通过BioBERT的分词词典将被切分为[’ch’,’##lora’,’##mp’,’##hen’,’##ico’,’##l’]’,对每一个句子都进行分词,得到分词后的药物文本集;
该实施例对分词后的句子添加药物实体标记后的示例:分词后的为句子为“['Bar','##bit','##ura','##tes','and','g','##lut','##eth','##im','##ide', 'should','not','be','administered','to','patients','receiving','co','##uma','##rin','drugs','.']”添加药物实体标记后为句子为“['$','Bar','##bit','##ura','##tes','$','and','#','g','##lut','##eth','##im','##ide','#','should','not','be', 'administered','to','patients','receiving','co','##uma','##rin','drugs','.'];对每一个句子都进行目标药物标记,得到标记后的药物文本集;
通过查询BioBERT分词词典,将标记药物实体后的药物文本集中的token 都映射为其在BioBERT分词词典中的对应索引值;例如,对一个标记目标药物名称后的药物文本集中的句子”['$','Bar','##bit','##ura','##tes','$','and', '#','g','##lut','##eth','##im','##ide','#','should','not','be','administered','to', 'patients','receiving','co','##uma','##rin','drugs','.']”,其映射后的句子为[109, 6523,9208,4084,3052,109,1105,108,176,25937,8767,4060,3269,108, 1431,1136,1129,8318,1106,4420,4172,1884,10161,4854,5557,119];对每一个句子都进行映射,得到预处理后的药物文本集;
所述的原始药物文本集进行语法依赖解析并获得与两个药物实体相关的关键语义子句,该实施例参考文献“Zhang Y,Qi P,Manning C D.Graph convolution overpruned dependency trees improves relation extraction[J]. arXiv preprintarXiv:1809.10185,2018”中公开的方法选取每个原始句子中的关键词和非关键词:
首先使用在2020年发布的专门针对生物医学文本进行语言解析的语法解析工具stanza对原始句子进行语法依赖解析,得到每一个词的语法依赖词;然后以词为结点,以词到依赖词为边,构建一颗语法依赖树,如图1所示为原始句子“Barbituratesandglutethimide should not be administered to patientsreceiving coumarin drug.”(目标药物名称为Barbiturates和 glutethimide)的语法依赖树;
在构造完语法依赖树后,首先需要确定两个目标药物名称节点的最小公共父节点;然后寻找从一个目标药物名称出发,通过最小公共子节点到另一个目标药物名称的最小公共子树,最小公共子树的边在图1中被标记为虚线;然后保留所有距离子树上节点小于等于1的节点对应的词,形成关键语义子句,在关键语义子句中的词被标记为斜体;图1对应的关键语义子句为Bar biturates and glutethimide.;
最后,将步骤1.3处理后的每个句子中的关键词的token标记为1,非关键词和$符号及#符号的token标记为0,得到每个句子的关键语义子句标记向量;得到关键语义子句标记向量集合;得到结果示例:[0,1,1,1,1,0,1, 0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0]。
该实施例的预训练语言模型BioBERT采用文献“Lee J,Yoon W,Kim S,et al.BioBERT:a pre-trained biomedical language representation model for biomedicaltext mining[J].Bioinformatics,2020,36(4):1234-1240.)”中公开的训练好的模型;所述的药物知识增强层包括关键语义子句抽取器;该实施例的语义和药物知识融合层包括BiLSTM(双向长短期记忆神经网络)和MLP (全连接层块);首先使用BiLSTM得到所有词表示向量对应的正向和反向的句子表示向量,再使用MLP融合正向和反向的句子表示向量,得到最终的融合了正反向语义的句子表示向量,最后将句子表示向量送入到分类层中进行分类层;
在本实施例中,预训练语言模型BioBERT输出的词表示向量长度为768, BiLSTM输出的每个方向的句子表示向量长度均为768,MLP层输出的最终句子表示向量长度为300.
在本实施例中,分类层包括全连接层和softmax函数层。在本实施例中,药物关系包括5种,分别是advice建议,effect作用,mechanism药物机理, int正向以及无关系false。
该实施例采用上述的输入与输出对所述的神经网络使用GHM损失函数进行训练,获得药物关系分类模型。
对比例1:
该对比例的与实施例1不同的是训练时所用损失函数为交叉熵 (Rubinstein,R.(1999).The cross-entropy method for combinatorialand continuousoptimization.Methodology and computing in appliedprobability, 1(2),127–190.)。
对比例2:
该对比例的与实施例1不同的是训练时所用损失函数为focal loss(Lin, T.-Y.et al.(2017).Focal loss for dense object detection.In Proceedings of theIEEE international conference on computer vision,pages 2980–2988.)。
实施例2:
该实施例是采用实施例1所建模型对待分类原始句子中的目标药物名称关系进行分类:
在本实施例中,待分类原始句子示例“Synergism was observed when GL wascombined with cefazolin against Bacillus subtilis and Klebsiella oxytoca.”,其中第一个目标药物名称词为GL,第二个目标药物名称词为cefazolin;
该待分类的原始句子经处理后的预处理后的药物文本为:[156,10941, 10805,1863,1108,4379,1165,109,144,2162,109,1108,3490,1114, 108,172,11470,10961,27719,108,1222,18757,6617,24960,4841,19 621,1548,1105,148,1513,4832,10387,1742,184,16844,2430,2599, 119];关键语义子句标记向量为:[0,0,0,0,0,1,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1]。
通过训练好的药物关系分类模型行药物关系分类,输出的药物关系数字向量标签为:
P[mechanism,advice,effect,int,false]=[0.02,0.02,0.9,0.02,0.04] 即两个目标药物GL、cefazolin之间的存在mechanism的概率为2%,即两个目标药物GL、cefazolin之间的存在advice的概率为2%,即两个目标药物GL、cefazolin之间的存在e ff e c t的概率为90%,即两个目标药物GL、 cefazolin之间的存在int的概率为2%,即两个目标药物GL、 cefazolin之间的存在false的概率为4%,其中存在effect关系的概率最高为 90%,因此采用药物关系神经网络将两个目标药物GL、cefazolin之间的关系分类为effect关系。
本发明与现有技术、及对比例中药物分类算法相比,其性能比较表1,在评价一个药物关系分类方法性能好坏时,准确率、召回率和F值越大,说明药物关系分类模型性能越好,从表1中可以看出,本发明提出的药物关系神经网络在准确率、召回率和F值三个指标上优于其他方法,且我们不需要依赖与药物相关的外部知识,并缓解了标注噪声问题,使得在药物关系分类上拥有不依赖与药物相关的外部知识且卓越的药物分类能力。
表1本发明提供的药物关系分类方法与其他药物关系分类方法性能对比
[3]Li D,Ji H.Syntax-aware multi-task graph convolutional networks forbiomedical relation extraction[C]//Proceedings of the Tenth InternationalWorkshop on Health Text Mining and Information Analysis(LOUHI 2019).2019: 28-33.
[4]Peng Y,Yan S,Lu Z.Transfer learning in biomedical natural languageprocessing:an evaluation of BERT and ELMo on ten benchmarking datasets[J].arXiv preprint arXiv:1906.05474,2019.
[5]Zhu Y,Li L,Lu H,et al.Extracting drug-drug interactions from textswith BioBERT and multiple entity-aware attentions[J].Journal of biomedicalinformatics,2020,106:103451.
[6]Asada M,Miwa M,Sasaki Y.Using Drug Descriptions and MolecularStructures for Drug-Drug Interaction Extraction from Literature[J].Bioinformatics,2021。

Claims (6)

1.一种药物关系分类模型构建方法,其特征在于,所述方法包括
步骤1,构建原始药物文本集并进行预处理
1.1构建原始药物文本集,所构建原始药物文本集由多个原始句子构成,每个原始句子中包含至少两个药物名称,所述至少两个药物名称中包含有两个目标药物名称;对每个原始句子中的两个目标药物名称的药物关系进行标注,得到药物关系标签集;
1.2采用BioBERT分词词典对每个原始句子进行分词处理;得到分词处理后的药物文本集;
1.3对每个分词处理后的句子中的两个目标药物名称中的其中一个目标药物名称前后均添加$符号,另一个目标药物名称前后均添加#符号;得到标记后的药物文本集;
1.4对步骤1.3处理后的集合中的每个token映射为该token在BioBERT分词词典中的对应索引值;得到预处理后的药物文本集;
1.5选取每个原始句子中的关键词和非关键词;
1.6将步骤1.3处理后的每个句子中的关键词的token标记为1,非关键词和$符号及#符号的token标记为0,得到每个句子的关键语义子句标记向量;得到关键语义子句标记向量集合;
步骤2,将所述的预处理后的药物文本集和关键语义子句标记向量集合作为输入,将所述的药物关系标签集作为输出,训练神经网络,获得药物关系分类模型;
所述的神经网络包括依次设置的语义和药物知识抽取层;药物知识增强层;语义和药物知识融合层;和分类层;
所述的语义和药物知识抽取层为经过预训练的语言模型BioBERT,所述语义和药物知识抽取层对预处理后的药物文本集进行处理,得到每个句子的表示矩阵;
所述药物知识增强层的输入为每个句子的表示矩阵和关键语义子句标记向量,将每个句子的表示矩阵中的非关键词对应的向量及$符号和#符号对应的向量删除,得到每个句子的关键句子表示矩阵;
所述语义和药物知识融合层对每个关键句子表示矩阵中所包含的药物名称的向量和非药物名称的向量进行融合,得到每个原始句子对应的句子表示向量,该句子表示向量作为分类层的输入;
所述语义和药物知识融合层是由依次连接的双向长短期记忆神经网络和全连接层块构成,将关键句子表示矩阵输入双向长短期记忆神经网络得到正向句子表示向量和反向的句子表示向量,全连接层块对正向句子表示向量和反向的句子表示向量进行融合,得到融合了正、反向语义的句子表示向量。
2.如权利要求1所述的药物关系分类模型构建方法,其特征在于,所述步骤1.5中采用基于语法依赖信息的方法选取每个原始句子中的关键词和非关键词。
3.如权利要求1所述的药物关系分类模型构建方法,其特征在于,所述的分类层包括全连接层和softmax函数层。
4.如权利要求1所述的药物关系分类模型构建方法,其特征在于,所述训练过程中使用GHM损失函数。
5.一种药物关系分类方法,其特征在于,所述方法包括:
步骤一,识别待分类句子中所包含的药物名称,如待分类句子中包含有两个药物名称时,将所含有的两个药物名称作为目标药物名称直接执行步骤二;如待分类句子中包含三个以上药物名称时,遍历其中的所有两个药物名称组合作为目标药物名称,分别执行步骤二;
步骤二,采用权利要求1步骤1.2-1.6对待分类句子进行处理,得到待分类句子的预处理后的药物文本和关键语义子句标记向量;
步骤三,将所得预处理后的药物文本和关键语义子句标记向量输入权利要求1构建的模型中,输出待分类句子中任意两个药物名称之间的药物关系类别。
6.一种药物关系分类系统,其特征在于,所述系统包括数据预处理模块和分类模块,所述数据预处理模块用于执行权利要求5所述步骤一和二;所述分类模块用于执行权利要求5所述步骤三。
CN202110987573.8A 2021-08-26 2021-08-26 药物关系分类模型构建方法、药物关系分类方法及系统 Active CN113806531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110987573.8A CN113806531B (zh) 2021-08-26 2021-08-26 药物关系分类模型构建方法、药物关系分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110987573.8A CN113806531B (zh) 2021-08-26 2021-08-26 药物关系分类模型构建方法、药物关系分类方法及系统

Publications (2)

Publication Number Publication Date
CN113806531A CN113806531A (zh) 2021-12-17
CN113806531B true CN113806531B (zh) 2024-02-27

Family

ID=78941953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110987573.8A Active CN113806531B (zh) 2021-08-26 2021-08-26 药物关系分类模型构建方法、药物关系分类方法及系统

Country Status (1)

Country Link
CN (1) CN113806531B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373554A (zh) * 2021-12-28 2022-04-19 大连海事大学 利用药物知识和句法依存关系的药物相互作用关系抽取方法
CN114117055B (zh) * 2022-01-27 2023-03-24 浙江太美医疗科技股份有限公司 一种文本实体关系的抽取方法、装置、设备和可读介质
CN114582443B (zh) * 2022-02-23 2023-08-18 西北大学 一种基于知识图谱的药物关系抽取方法
CN114678141A (zh) * 2022-03-17 2022-06-28 中国科学院深圳理工大学(筹) 药物对相互作用关系的预测方法、设备及介质
CN116738366A (zh) * 2023-06-16 2023-09-12 河海大学 基于特征融合的大坝应急事件因果关系识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN108363774A (zh) * 2018-02-09 2018-08-03 西北大学 一种基于多层卷积神经网络的药物关系分类方法
CN109446338A (zh) * 2018-09-20 2019-03-08 大连交通大学 基于神经网络的药物疾病关系分类方法
CN110020671A (zh) * 2019-03-08 2019-07-16 西北大学 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法
CN111078889A (zh) * 2019-12-20 2020-04-28 大连理工大学 一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10628668B2 (en) * 2017-08-09 2020-04-21 Open Text Sa Ulc Systems and methods for generating and using semantic images in deep learning for classification and data extraction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN108363774A (zh) * 2018-02-09 2018-08-03 西北大学 一种基于多层卷积神经网络的药物关系分类方法
CN109446338A (zh) * 2018-09-20 2019-03-08 大连交通大学 基于神经网络的药物疾病关系分类方法
CN110020671A (zh) * 2019-03-08 2019-07-16 西北大学 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法
CN111078889A (zh) * 2019-12-20 2020-04-28 大连理工大学 一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深层语境词表示与自注意力的生物医学事件抽取;魏优;刘茂福;胡慧君;;计算机工程与科学;20200915(第09期);全文 *
基于深度学习框架的实体关系抽取研究进展;李枫林;柯佳;;情报科学;20180305(第03期);全文 *

Also Published As

Publication number Publication date
CN113806531A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN113806531B (zh) 药物关系分类模型构建方法、药物关系分类方法及系统
CN111078889B (zh) 一种基于多种注意力和改进预训练的药物间关系抽取方法
CN100511215C (zh) 多语种翻译存储器和翻译方法
CN102254014B (zh) 一种网页特征自适应的信息抽取方法
CN106598959B (zh) 一种确定双语语句对互译关系方法及系统
CN110020671B (zh) 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法
CN106776562A (zh) 一种关键词提取方法和提取系统
US11113470B2 (en) Preserving and processing ambiguity in natural language
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
CN106649666A (zh) 一种左右递归新词发现方法
CN109960728A (zh) 一种开放域会议信息命名实体识别方法及系统
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
WO2016138773A1 (zh) 基于图的地址知识处理方法及装置
CN111061882A (zh) 一种知识图谱构建方法
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
Marreddy et al. Clickbait detection in telugu: Overcoming nlp challenges in resource-poor languages using benchmarked techniques
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
Saif et al. Mapping Arabic WordNet synsets to Wikipedia articles using monolingual and bilingual features
JP2009157450A (ja) メール分類システム、メール検索システム、メール宛先分類システム
Hua et al. A character-level method for text classification
Mishra et al. Similarity search based on text embedding model for detection of near duplicates
Pandian et al. Author identification of Hindi poetry
Behera An Experiment with the CRF++ Parts of Speech (POS) Tagger for Odia.
Parveen et al. Clause Boundary Identification using Classifier and Clause Markers in Urdu Language
KR101126186B1 (ko) 형태적 중의성 동사 분석 장치, 방법 및 그 기록 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant