CN112667799A

CN112667799A - 一种基于语言模型和实体匹配的医疗问答系统构建方法

Info

Publication number: CN112667799A
Application number: CN202110273760.XA
Authority: CN
Inventors: 章毅; 郭泉; 张海仙; 曹帅; 张强; 张欣培
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-04-16
Anticipated expiration: 2041-03-15
Also published as: CN112667799B

Abstract

本发明公开了一种基于语言模型和实体匹配的医疗问答系统构建方法，包括S1.数据收集，S2.深度神经网络模型设计，S3.训练命名实体识别模型并构建知识图谱，S4.构建完整的医疗检索式问答系统。收集网络医疗讨论帖清洗后存入到ElasticSearch中，用于作为检索数据集；使用医疗自然语言处理比赛数据集的开源数据，训练出医疗相关的命名实体识别模型；收集开源网站的公开数据集构成医疗知识图谱，来扩充检索流程。本发明基于语言模型和实体匹配的医疗问答系统方法，构建问答系统在经过召回、精排和综合评分几个步骤之后，结合合理的评分机制，输出一个最为合适的回答，弥补检索式问答系统和知识图谱式问答系统的缺陷。

Description

一种基于语言模型和实体匹配的医疗问答系统构建方法

技术领域

本发明涉及问答系统技术领域，尤其是涉及一种基于语言模型和实体匹配的医疗问答系统构建方法。

背景技术

医疗是人们永远离不开的话题。在过去，当人们想要获取到一些医疗相关信息时只能去医院问医生，但随着网络的出现，人们开始在网络上查询医疗信息。人们只需要输入一些关键词，搜索引擎就可以帮助人们快速地找到包含相关问题所需信息的网页。但是这些传统的搜索引擎存在着很多的不足，比如返回的信息太多太杂，而且有大量的信息是重复的，就算是专业的医疗人员也需要花费挺多时间从这些庞大的信息中过滤出自己所需要的，何况是那些不懂专业医疗知识的老百姓。除此之外，如今的搜索引擎中还充斥着大量的广告和虚假信息，面对这些质量参差不齐的医疗信息，非专业人员在查找和获取相关医疗信息时都将会遇到很大的困难。更重要的是，搜索引擎很多都是依据倒排索引技术来进行字面关键词信息的匹配，其缺乏语义相关性技术的支撑。所以有一个能够理解用户口语化，且具有强大的专业能力的问答系统能够让人们的生活便利许多，也能够省掉患者需要先去医院进行问诊的时间和精力。

对于问答系统的建立，现常采用三种手段：检索式问答系统、知识图谱式问答系统和生成式问答系统。检索式问答系统类似搜索引擎，第一步也需要基于大量的数据来建立倒排索引，将检索到的信息作为候选项；之后会利用机器学习或者深度学习技术从一定数量的候选项中选择出最为恰当的一个回答进行返回。知识图谱式问答系统会将非结构化的自然语言构建成结构化的三元组，庞大的三元组知识库就构成了知识图谱，当问题输入系统之后，首先会对问句进行语法分析，提取出其中的重要实体，然后去知识图谱中查询到对应的关系从而输出回答结果。生成式问答系统通常使用生成式模型例如seq2seq来根据问题自动编码出答案。训练这种模型需要大量的问答对作为训练数据，而专业的问答网站答案质量也是参差不齐，所以这种系统通常使用到闲聊当中，因为聊天式的问答对回答的准确率要求没有那么高，而且这种训练数据在大量的论坛和社交网站都能轻易获取到，所以更适合这种场景。

对于医疗这个领域，问答系统的回答需要相当准确，所以首要的是能够获取到大量的专业性的数据。对于检索式的问答系统，其只是基于字面的关键信息匹配，对于很多深层次语义问题无法很好解决，例如“感冒不能吃什么食物”这个问题若只是基于传统检索，则找到的相似问题很可能是“感冒吃什么食物”，这样的回答就会恰恰相反了。而对于知识图谱式的问答系统，因为其需要很多专业的结构化知识图，所以对于事实性的问题回答较好，而对于主观性较强的问题，则不能有效解决了。同时对于生成式的问答系统，因为其非常依靠机器学习模型，所以可靠性不强，对于医疗这种准确性要求较高的场景则不适用了。

发明内容

有鉴于此，本发明的目的是针对现有技术的不足，提供一种基于语言模型和实体匹配的医疗问答系统构建方法，构建问答系统在经过召回、精排和综合评分几个步骤之后，来作为问题和答案之间的语义匹配评分，结合合理的评分机制，输出一个最为合适的回答，弥补检索式问答系统和知识图谱式问答系统的缺陷。

本发明中elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，能很方便地使大量数据具有搜索、分析和探索的能力。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。

本发明中BERT模型(即Bidirectional Encoder Representations fromTransformers)是一种预训练语言模型。Token Mean Vector所代表的意思是“字的均值向量”。

为达到上述目的，本发明采用以下技术方案：一种基于语言模型和实体匹配的医疗问答系统构建方法，包括S1.数据收集，S2.深度神经网络模型设计，S3.训练命名实体识别模型并构建知识图谱，S4.构建完整的医疗检索式问答系统；

收集的数据包括特定网站的网络医疗讨论帖和网络公开数据集；网络医疗讨论帖包括用户真实提问的医疗问题和专业医生回答的答案，收集网络医疗讨论帖清洗后存入到ElasticSearch中，用于作为检索数据集；网络公开数据集包括医疗自然语言处理比赛数据集和开源网站的公开数据集；使用医疗自然语言处理比赛数据集的开源数据，训练出医疗相关的命名实体识别模型；收集开源网站的公开数据集构成医疗知识图谱，来扩充检索流程。

进一步地，深度神经网络模型设计是在BERT模型的基础上，引入孪生网络结构，形成一个两者结合的深度神经网络模型结构，用于文本匹配或者答案选择的任务。

进一步地，深度神经网络模型利用BERT模型来做文本匹配任务，保持原本的CLS标签特征不变的基础上，分别对问题和答案文本做单文本的编码，再分别取Token MeanVector作为句子的特征，将三种特征利用孪生网络的方式拼接起来，再输入到全连接网络中进行编码。

进一步地，训练命名实体识别模型并构建知识图谱，在传统的检索式问答系统的流程中加入了实体匹配这个步骤，以增加关键实体对整个检索流程的作用，实体匹配采用了命名实体匹配和知识图谱实体匹配两个大方面；具体步骤包括：

S3.1.训练命名实体识别模型，采用BERT-BiLSTM-CRF模型来进行实体识别，用BERT模型去获取到文本的特征，在训练时不更新BERT模型的权重，只更新后面BiLSTM-CRF的权重；网络公开数据集采用ccks 2019中文医疗实体识别数据集，含有6类重要的实体类别：疾病、影像检查、药物、化学检查、手术和解剖部位；在这个数据集上使用0.0001的学习速率和128的批大小训练100个周期，最终达到96%的F1值；

S3.2.构建知识图谱，利用一个开源医疗结构化数据集来构建知识图谱，数据集包含44000个实体和300000条关系，分别拥有7大类和11大类，利用Neo4j数据库存储这些结构化的信息；维护一个具有66756条实体的词库，利用词库来对文本匹配实体作为整个实体匹配模块的补充。

进一步地，构建完整的医疗检索式问答系统：S4.1.收集到全部的网络医疗讨论帖后，将数据进行清洗并存入到Elasticsearch当中。在Elasticsearch进行检索时，设置好中文分词工具IK，并添加相应的医疗词库和停用词，对于一个问题粗筛出100个网络医疗讨论帖作为候选项。

S4.2.使用医疗词库和命名实体识别模型抽取出问题中的关键实体，再去候选项的网络医疗讨论帖中进行匹配，匹配到的实体数量作为实体匹配评分。在准备好的知识图谱中找到问题中实体在知识图谱中的相应关系实体，去网络医疗讨论帖的专业医生回答的答案中进行匹配，匹配成功的数量作为知识图谱的评分。

S4.3.根据网络医疗讨论帖自身结构，每个网络医疗讨论帖中，被提问者已经采用的专业医生回答的答案具有更多的权重作为最终答案的理由，为这些专业医生回答的答案新增一个已接受答案的评分。

S4.4.根据网络医疗讨论帖的专业医生回答的答案构建相关性数据集，训练新提出的匹配度网络模型。在训练完成之后，使用训练好的匹配度模型进行预测，对所有候选项的网络医疗讨论帖中的专业医生回答的答案，与用户真实提问的医疗问题一起输入网络中进行预测，得到每个答案与问题之间的匹配度得分。

S4.5.将所有得分使用不同的权重进行综合得到最终的分数，每个专业医生回答的答案都有一个对应的分数，对分数进行排序之后输入最高分数的答案作为最终的输出答案。

本发明的有益效果是：

本发明基于语言模型和实体匹配的医疗问答系统是一个单轮的中文医疗问答系统，用户输入一个和医疗相关的问题到系统中，系统在经过召回、精排和综合评分几个步骤之后，输出一个最为合适的回答，弥补检索式问答系统和知识图谱式问答系统的缺陷。本系统实质上是基于检索式的，但在系统的结构中加入了知识图谱和命名实体识别来作为实体匹配，匹配到关键性的信息作为评分依据。本系统基于目前主流的预训练语言模型，提出了一个改进的模型，来作为问题和答案之间的语义匹配评分，最后再利用合理的评分机制输出最终的答案。

本发明基于语言模型和实体匹配的医疗问答系统首先提出了一个新的网络结构，这个网络结构结合了主流的预训练模型BERT模型，能够更深层次地理解到文本中的语义信息，同时结合了经典的孪生网络结构，能够对相似性任务更好地进行建模，获取到更多的相似度信息。

本发明在传统检索模型的结构中引入了命名实体识别和知识图谱来获取到实体的匹配信息作为评分，这些信息是一些关键性的信息，对答案选择有很重要的作用，但是为了不直接利用这些信息作为最终选择的依据，而采用了最终评分的模式，对每一块模块进行评分，来综合得出最佳的答案。本发明中使用了大量的并且质量很高的医疗帖子，这些帖子数量大约在7000万-8000万之间。

附图说明

附图1为本发明基于语言模型和实体匹配的医疗问答系统流程示意图；

附图2为本发明结合BERT模型和孪生结构的模型示意图。

具体实施方式

以下是本发明的具体实施例，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例1

一种基于语言模型和实体匹配的医疗问答系统构建方法，包括S1.数据收集，S2.深度神经网络模型设计，S3.训练命名实体识别模型并构建知识图谱，S4.构建完整的医疗检索式问答系统。

收集的数据包括特定网站的网络医疗讨论帖和网络公开数据集。网络医疗讨论帖包括用户真实提问的医疗问题和专业医生回答的答案，收集网络医疗讨论帖清洗后存入到ElasticSearch中，用于作为检索数据集。网络公开数据集包括医疗自然语言处理比赛数据集和开源网站的公开数据集，使用医疗自然语言处理比赛数据集的开源数据，训练出医疗相关的命名实体识别模型；收集开源网站的公开数据集构成医疗知识图谱，来扩充检索流程。

实施例2

本实施例与实施例1之间的不同之处在于：深度神经网络模型设计是在BERT模型的基础上，引入孪生网络结构，形成一个两者结合的深度神经网络模型结构，用于文本匹配或者答案选择的任务。

原本利用BERT模型来做文本匹配任务，只需要将两个文本用[SEP]标签连接起来之后，输入到BERT模型中，然后对CLS标签进行编码，输出最后的概率。深度神经网络模型利用BERT模型来做文本匹配任务，保持原本的CLS标签特征不变的基础上，分别对问题和答案文本做单文本的编码，再分别取Token Mean Vector作为句子的特征，将三种特征利用孪生网络的方式拼接起来，再输入到全连接网络中进行编码。能够学习到两者之间更多的相似性，也提升了模型预测的效果，相比单BERT模型预测，准确率提高了2%-3%左右。

实施例3

本实施例与实施例1之间的不同之处在于：训练命名实体识别模型并构建知识图谱，在传统的检索式问答系统的流程中加入了实体匹配这个步骤，以增加关键实体对整个检索流程的作用，实体匹配采用了命名实体匹配和知识图谱实体匹配两个大方面。具体步骤包括：

S3.1.训练命名实体识别模型，采用BERT-BiLSTM-CRF模型来进行实体识别，用BERT模型去获取到文本的特征，在训练时不更新BERT模型的权重，只更新后面BiLSTM-CRF的权重。网络公开数据集采用ccks 2019中文医疗实体识别数据集，含有6类重要的实体类别：疾病、影像检查、药物、化学检查、手术和解剖部位。在这个数据集上使用0.0001的学习速率和128的批大小训练100个周期，最终达到96%的F1值。

本发明中BILSTM模型为双向长短时记忆网络模型；条件随机场(CRF)是给定一组输入随机变量条件下，求另一组输出随机变量的条件概率分布的模型。全国知识图谱与语义计算大会（CCKS），是由中国中文信息学会语言与知识计算专委会定期举办的国内知识图谱、语义技术等领域的核心会议。

S3.2.构建知识图谱，利用一个开源医疗结构化数据集来构建知识图谱，数据集包含44,000个实体和300,000条关系，分别拥有7大类和11大类，利用Neo4j数据库存储这些结构化的信息；维护一个具有66,756条实体的词库，利用词库来对文本匹配实体作为整个实体匹配模块的补充。

本发明中Neo4j是一个高性能的NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。

实施例4

本实施例与实施例1之间的不同之处在于：构建完整的医疗检索式问答系统：S4.1.收集到全部的网络医疗讨论帖后，将数据进行清洗并存入到Elasticsearch当中。在Elasticsearch进行检索时，设置好中文分词工具IK，并添加相应的医疗词库和停用词，对于一个问题粗筛出100个网络医疗讨论帖作为候选项。

本发明中IK为中文分词器。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于语言模型和实体匹配的医疗问答系统构建方法，其特征在于：包括S1.数据收集，S2.深度神经网络模型设计，S3.训练命名实体识别模型并构建知识图谱，S4.构建完整的医疗检索式问答系统；

2.根据权利要求1所述的基于语言模型和实体匹配的医疗问答系统构建方法，其特征在于：深度神经网络模型设计是在BERT模型的基础上，引入孪生网络结构，形成一个两者结合的深度神经网络模型结构，用于文本匹配或者答案选择的任务。

3.根据权利要求2所述的基于语言模型和实体匹配的医疗问答系统构建方法，其特征在于：深度神经网络模型利用BERT模型来做文本匹配任务，保持原本的CLS标签特征不变的基础上，分别对问题和答案文本做单文本的编码，再分别取字的均值向量作为句子的特征，将三种特征利用孪生网络的方式拼接起来，再输入到全连接网络中进行编码。

4.根据权利要求1所述的基于语言模型和实体匹配的医疗问答系统构建方法，其特征在于：训练命名实体识别模型并构建知识图谱，在传统的检索式问答系统的流程中加入了实体匹配这个步骤，以增加关键实体对整个检索流程的作用，实体匹配采用了命名实体匹配和知识图谱实体匹配两个大方面；具体步骤包括：

5.根据权利要求1所述的基于语言模型和实体匹配的医疗问答系统构建方法，其特征在于：构建完整的医疗检索式问答系统：S4.1.收集到全部的网络医疗讨论帖后，将数据进行清洗并存入到Elasticsearch当中；在Elasticsearch进行检索时，设置好中文分词工具IK，并添加相应的医疗词库和停用词，对于一个问题粗筛出100个网络医疗讨论帖作为候选项；

S4.2.使用医疗词库和命名实体识别模型抽取出问题中的关键实体，再去候选项的网络医疗讨论帖中进行匹配，匹配到的实体数量作为实体匹配评分；在准备好的知识图谱中找到问题中实体在知识图谱中的相应关系实体，去网络医疗讨论帖的专业医生回答的答案中进行匹配，匹配成功的数量作为知识图谱的评分；

S4.3.根据网络医疗讨论帖自身结构，每个网络医疗讨论帖中，被提问者已经采用的专业医生回答的答案具有更多的权重作为最终答案的理由，为这些专业医生回答的答案新增一个已接受答案的评分；

S4.4.根据网络医疗讨论帖的专业医生回答的答案构建相关性数据集，训练新提出的匹配度网络模型；在训练完成之后，使用训练好的匹配度模型进行预测，对所有候选项的网络医疗讨论帖中的专业医生回答的答案，与用户真实提问的医疗问题一起输入网络中进行预测，得到每个答案与问题之间的匹配度得分；