CN112883172B

CN112883172B - 一种基于双重知识选择的生物医学问答方法

Info

Publication number: CN112883172B
Application number: CN202110149490.1A
Authority: CN
Inventors: 周惠巍; 雷弼尊; 李雪菲; 徐奕斌; 刘喆
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2022-04-12
Anticipated expiration: 2041-02-03
Also published as: CN112883172A

Abstract

本发明属于自然语言处理技术领域，提供一种基于双重知识选择的生物医学问答方法。本发明提出基于双重知识选择的生物医学问答方法，通过问题和答案对知识的双重选择，基于所选知识的相似性判断问题和答案是否匹配。首先需要构建知识图谱，然后基于构建的知识图谱来选择知识。本发明基于多个知识库构建了生物医学知识图谱，有效整合了多个数据库资源，基于问题和答案对知识的双重选择，有效利用了知识库中的知识用于生物医学问答，提高了生物医学问答模型的判别能力。

Description

一种基于双重知识选择的生物医学问答方法

技术领域

本发明属于自然语言处理技术领域，通过问题和答案对知识的双重选择和编码，基于选择知识的共性来判断问题和答案的契合程度，以此来利用知识库中的结构化知识，提高生物医学问答的性能。

背景技术

本发明针对ACLBioNLP 2019共享任务所提出的生物医学问答语料MediQA(Overview of MEDIQA 2019 Shared Task on Textual Inference,Question Entailmentand Question Answering,2019,Proceedings of the 18th BioNLP Workshop andShared Task,370-379.)，其中每个样例由一个问题和多个答案组成，需要判断答案是否能够回答问题。

问答系统研究方法大致可以分为三类：基于规则的方法、基于传统机器学习的方法和基于神经网络的方法。基于规则的方法主要利用启发式的语言学规则进行问句相似度匹配。Yih等人(Question answering using enhanced lexical semantic models,2013,Proceedings of the 51st Annual Meeting of the Association for ComputationalLinguistics,1:1744-1753)使用了WordNet来获取更多地词汇语义特征信息。基于规则的方法简单高效，具有较强的解释性，但是都是根据某个语料设计的，在别的语料上就得重新设计规则，可迁移性不强。

基于传统机器学习的方法主要利用了传统的机器学习技术。Heilman等人(Treeedit models for recognizing textual entailments,paraphrases,and answers toquestions,2013,Association for Computational Linguistics,1011-1019)构建了一个逻辑回归模型，使用了33种语法特征对问题答案对进行分类。基于传统机器学习的方法需要构造大量的特征，且需要一定的专业知识，需要耗费大量的人力物力，可扩展性不强。

基于神经网络的方法能够自动地学习句子的内在语义特征，对专业知识和特征工程的要求较低，并且取得了良好的表现。Yang等人(Cmulivemedqa at trec 2017 liveqa:Aconsumer health question answering system,2017,Proceedings of The Twenty-Sixth Text REtrieval Conference,Gaithersburg,Maryland,USA)使用卷积神经网络(Convolutional Neural Network,简称CNN)通过捕捉问题中字符级、词级局部特征，进而组成句子级特征表示，然后据此表示将问题严格分为十个类别，然后搜索相关网页查找答案。CNN模型无法建模句子中的长距离依赖关系，当问题或者答案的句子较长时模型的性能下降。而在问答系统中的答案往往比较长，词与词之间存在着长距离依赖关系，语义比较复杂，长距离依赖关系对于问答系统比较重要。

最近，基于大规模语料预训练的语言模型(Language Model，简称LM)在多个自然语言处理任务中取得了巨大的进步。Devlin等人(Bert:pre-training of deepbidirectional transformers for language understanding,2019,Proceedings of the2019 Conference of the North American Chapter of the Association forComputational Linguistics:Human Language Technologies,4171-4186)提出BERT，使用了双向的Transformer编码器来融合左右两个方向的上下文，能够显式地建模成对文本的关系。因此，BERT在成对的自然语言处理任务上取得了进步，比如自然语言推断和问答系统。SciBERT和BERT模型结构相同，只是使用了生物医学和计算机科学领域的文献作为训练数据进行预训练得到的，相比于BERT，在各个任务中的表现都有提升，且在生物医学领域有较为出色的表现。

在生物医学领域，由于文本语义环境复杂，实体名多变，实体关系多样，问答系统的性能还有待进一步提高。生物医学领域的知识库有着丰富的专业知识，这些专业知识对于生物医学文本的语义理解能起到重要的辅助作用。因此，将人类积累的知识库宝贵知识进行和神经网络模型进行融合来提升问答系统的性能具有重要的理论意义和实际意义。

发明内容

本发明提出基于双重知识选择的生物医学问答方法，通过问题和答案对知识的双重选择，基于所选知识的相似性判断问题和答案是否匹配。首先需要构建知识图谱，然后基于构建的知识图谱来选择知识。

知识图谱的应用初衷是为了增强搜索质量，其本质上是一个结构化的语义网络，以一个网状结构表示知识，其中，节点表示实体，连接节点的边表示关系。本发明首先基于多个知识库构建知识图谱，然后利用问题和答案对知识的双重选择，基于所选知识的共性，结合问题和答案的语义联系来判断问题和答案的契合程度。

本发明的技术方案：

一种基于双重知识选择的生物医学问答方法，步骤如下：

(1)知识图谱的构建

知识图谱构建流程如图1所示。本发明搜集不同的生物医学数据库作为数据来源，可以分为三部分部分，一部分是生物医学知识库中的结构化知识，其余两部分是网络上的生物医学网站上的半结构化知识。结构化知识为CTD(Comparative ToxicogenomicsDatabase)中的药物-疾病关系。半结构化知识包括从药物资源网站(https://www.drugs.com)上爬取的药物相关知识，从疾病资源网站(https://www.malacard.org)上爬取的疾病相关知识。这些知识都以三元组(实体-关系-实体)形式进行保存。搜集到知识三元组之后，需要对三元组进行清洗，然后将不同来源的三元组合并得到一个统一的知识图谱。得到知识图谱之后应用知识表示学习来学习实体和关系的向量表示。

(2)基于双重知识选择的生物医学问答

给定问题和答案，问题表示为{q₁,q₂,q₃,···,q_n}，其中n表示问题的长度，答案表示为{a₁,a₂,a₃,···,a_m}，其中m表示答案的长度。需要将问题和答案成对输入模型，按照模型输入要求，需要对模型进行处理，需要在开头添加一个分类标记[CLS]，在每个句子结尾添加[SEP]标记，最终处理成[CLS],q₁,q₂,q₃,···,q_n,[SEP],a₁,a₂,a₃,···,a_m,[SEP]。对每个问题，会根据问题中的主题实体到知识图谱中选择相应的知识，每个知识都是一个三元组(头实体-关系-尾实体)，为每个问题选择L个知识。

基于双重知识选择的问答模型如图2所示，首先使用SciBERT对输入进行编码，经过编码后，取SciBERT模型最后一层的输出作为输入序列的词嵌入，表示为

本发明使用协同注意力(Co-Attention)机制对问题和答案进行语义编码，从SciBERT编码的词向量中取出问题和答案对应的每个词的表示：

和

协同注意力公式如下：

其中

是可学习的参数，协同注意力通过转换矩阵F可以看作是从问题关注空间到答案关注空间的一个转换，同时，F^T可以看作是从答案关注空间到问题关注空间的一个转换。然后计算问题和答案之间的注意力权重：

H^q＝tanh(W_qQ+(W_aA)F^T)

H^a＝tanh(W_aQ+(W_qA)F)

α^q＝softmax(W_hqH^q)

α^a＝softmax(W_haH^a)

其中，

和

是可学习的参数，α^q和α^a即是计算的注意力权重。最后计算加权和得到问题和答案表示：

最终得到问题和答案相互表示的问题和答案表示

和

通过协同注意力机制可以捕获问题和答案之间的远距离依赖关系和语义联系。

本发明使用问题-知识注意力和答案-知识注意力这样的双重注意力，来捕获知识和问题、知识和答案之间的语义联系，同时可以以知识为桥梁，来判断问题和答案之间的语义联系。下面以问题-知识注意力为例，使用

作为问题的整体表示，首先计算知识表示，对知识三元组(头实体，关系，尾实体)，关系记为{r_x1,r_x2,···,r_lr}，其中lr表示关系长度。首先对关系使用双向长短时记忆网络(Bi-directionalLong Short Term Memorynetworks，简称BiLSTM)进行编码，得到关系表示，如公式所示：

关系表示是将BiLSTM的最后一个时间步的结果拼接得到的，

头尾实体映射为知识表示学习得到的向量表示

e^head表示头实体的向量表示。将头尾实体表示和关系表示进行拼接，然后降维得到知识表示，如下公式所示：

其中[,]表示拼接，W_r,b_r是可学习参数，将L个知识表示进行拼接可以得到知识表示

使用

对知识表示进行关注，得到注意力权重，最后计算加权和得到问题关注的知识表示，公式如下：

同理可得答案关注的知识表示g_a。对于一组问答对，如果答案可以回答问题，则问题和答案关注的部分应该更相近，也就是问题关注的知识表示应该和答案关注的知识表示更接近，反之，关注的知识则更不相关。本发明使用线性层在模型中自动学习知识之间的相似性衡量。

最后分类使用CLS位的表示h_[CLS]、协同注意力得到的问题答案表示和问题答案关注的两个知识表示等五部分拼接作为分类特征，降维后分类输出，公式如下：

模型训练时使用交叉熵损失函数。公式如下：

其中，N表示样例总数。

本发明的有益效果：本发明基于多个知识库构建了生物医学知识图谱，有效整合了多个数据库资源，基于问题和答案对知识的双重选择，有效利用了知识库中的知识用于生物医学问答，提高了生物医学问答模型的判别能力。

附图说明

附图1是知识图谱构建流程图。

附图2是基于双重知识选择的生物医学问答模型图。

附图3是根据主题实体选择的知识。

具体实施方式

本发明使用ACL BioNLP 2019发布的数据MediQA中的QA语料作为数据集，数据集中的问题数统计信息见下表：

训练集	208
		测试集	150
验证集	25

下面是数据集中的一个样例：

问题：whatisflu？

答案1：These diseases spread quickly from one person to another,andpeople with Alzheimer’s are more likely to get them.Make sure that the persongets a flu shot each year and a pneumonia shot once after age 65.

答案2：The flu is an infection of the nose,throat,and lungs.It spreadseasily.This article discusses influenza types A and B.Another type of the fluis the swine flu(H1N1).

答案1和答案2是给定关于问题的两个答案，需要判断这两个答案是否可以回答该问题。问题问：“什么是流感？”，其中主要关键词是流感(flu)，答案1中虽然有关键词流感但是整句话说的并不是流感而是流感疫苗(flu shot)，因此，答案1不是该问题的答案。答案2中也有关键词流感，句义是关于流感的原因、传播特点和大概的分类，答案2是可以回答问题的，因此可以作为问题的答案。下面以本例说明本发明的实施过程。

第一步知识图谱构建。知识图谱构建流程如图1所示。本发明构建的生物医学知识图谱数据来源有三部分，一部分是生物医学知识库中的结构化知识，另外两部分是网络上的生物医学网站上的半结构化知识。结构化知识为CTD(Comparative ToxicogenomicsDatabase)中的药物-疾病关系。半结构化知识包括从药物资源网站(https://www.drugs.com)上爬取的药物相关知识，从疾病资源网站(https://www.malacard.org)上爬取的疾病相关知识。半结构化知识是按照一定的结构列出来的，以疾病网站为例，网页的一页列举了一个疾病的相关知识，且按照症状，相关疾病，药物等知识分别列举，知识抽取的时候按照给定结构抽取出来即可，这些知识都以三元组(头实体-关系-尾实体)形式进行保存。

本发明构建知识图谱时采用自顶而下的构建方法，即先定义好知识图谱的本体，再将实体加入到知识图谱。本发明使用医学主题词表MESH(Medical Subject Headings)作为标准实体字典完成实体链接和知识合并等工作，MESH是目前最权威、最常用的标准医学主题词表。

得到知识三元组之后，需要对不同来源的三元组进行清洗，清洗包括实体链接，知识合并。实体链接是指对识别出的实体指代(entity mention)消歧，使每个实体指代映射于知识图谱中的对应实体，实体在三元组中可能有不同的表示形式，如全名、缩写、别名等，这些文本表示形式就是实体的实体指代。本发明使用的结构化知识实体都是标注有MESHID的，不需要实体连接，对于爬取的半结构化知识，需要将实体连接到MESHID上，本发明使用字典匹配的方法。三元组合并，就是在构建知识图谱时将不同来源的知识(来自于结构化数据源的知识以及抽取自网上的半结构化数据源的知识)进行合并形成新的知识图谱。合并过程中去掉重复的三元组。通过知识清洗，本发明得到一个统一的生物医学知识图谱。

第二步，知识表示学习。知识表示学习通过将知识图谱中的三元组映射为低维连续实值向量来表示三元组中的结构化知识。TransH通过把关系作为实体和实体之间的翻译来建立实体和关系的表示。本发明中使用TransH对知识图谱中的三元组进行表示学习。由于知识图谱中的关系大多都是一对多关系，比如，治疗感冒的药物有很多，就会有很多的三元组头实体和关系都是flu和relateddisease，但是尾实体是不同的，TransH可以对这种一对多关系进行表示学习。表示学习向量维度设为200维。

第三步，识别问题中的主题实体。使用实体识别工具Metamap对问题进行处理，Metamap识别出的实体都是带有类别标签的，比如疾病，药物，事件等共有127个类别，本发明只选择其中是药物、疾病、症状、组织和器官相关的类型，保留这些类型的实体用于关系判别和知识选择。本例中可以得到实体flu以及其标准名influenza，实体类型名dsyn(Disease or Syndrome，简记为dsyn，疾病或综合征)，然后用识别出的实体标准名到实体字典去查找对应的实体ID：D007251。

第四步，知识选择。首先使用问题类型分类器对问题进行分类，可以得到问题类型，本例的问题类型为information。问题类型分类器使用预训练语言模型BERT，用带有类型标签的生物医学问答语料MedQuad进行训练。得到问题类型之后，使用人工构建的问题类型-关系映射表查找所需要的知识三元组的关系，本例中问题类型为information，则查找映射表，可得需要的关系为所有类型，即药物、症状、相关疾病、组织和器官这些类型的知识对于回答information类型的问题都有帮助。得到问题中的主题实体和所需的关系之后，在知识图谱中查找以主题实体为头实体，所需关系为三元组关系的所有三元组，如果得到的三元组个数超过最大知识数量L，则按照相关性得分取top L个。选择的部分知识如图3所示。

第五步，数据处理。将问题和答案处理成模型所要求的输入格式，在输入最开始加入分类标志[CLS]，在问题和答案的末尾加上[SEP]，形如h_[CLS],what,is,flu,？,h_[SEP],These,diseases,···,age,65,.,h_[SEP]。

对于选择的知识，需要将上面得到的L个相关知识映射为知识表示学习得到的200维的向量表示。

第六步，模型训练。将处理之后的问答对和知识表示作为输入，进过模型处理得到最终的分类结果。

实验结果的评价指标为正确率，也就是正确分类样例数与样例总数的比值。基准方法使用SciBERT编码之后的[CLS]位对应的表示直接进行分类。实验结果表明，本发明提出的基于双重知识选择的生物医学问答方法(SciBERT+K)比基准模型正确率提高了1.35％，说明本发明提出的双重知识选择方法能够有效利用知识库中的知识，提高问答系统的性能。

Claims

1.一种基于双重知识选择的生物医学问答方法，其特征在于，步骤如下：

(1)知识图谱的构建

搜集不同的生物医学数据库作为数据来源，分为三部分，一部分是生物医学知识库中的结构化知识，其余两部分是网络上的生物医学网站上的半结构化知识；结构化知识为CTD中的药物-疾病关系；半结构化知识包括从药物资源网站上爬取的药物相关知识，从疾病资源网站上爬取的疾病相关知识；上述知识均以三元组实体-关系-实体形式进行保存，对三元组进行清洗，然后将不同来源的三元组合并得到一个统一的知识图谱；得到知识图谱后应用知识表示学习来学习实体和关系的向量表示；

(2)基于双重知识选择的生物医学问答

给定问题和答案，问题表示为{q₁,q₂,q₃,…,q_n}，其中n表示问题的长度，答案表示为{a₁,a₂,a₃,…,a_m}，其中m表示答案的长度；将问题和答案成对输入模型，按照模型输入要求，对模型进行处理，在开头添加一个分类标记[CLS]，在每个句子结尾添加[SEP]标记，最终处理成[CLS],q₁,q₂,q₃,…,q_n,[SEP],a₁,a₂,a₃,…,a_m,[SEP]；对每个问题，根据问题中的主题实体到知识图谱中选择相应的知识，每个知识都是一个三元组，为每个问题选择L个知识；

基于双重知识选择的问答模型，首先使用SciBERT对输入进行编码，经过编码后，取SciBERT模型最后一层的输出作为输入序列的词嵌入，表示为