CN109684445B

CN109684445B - 口语化医疗问答方法及系统

Info

Publication number: CN109684445B
Application number: CN201811348745.1A
Authority: CN
Inventors: 汪天一; 孙正雅; 张文生
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2021-05-28
Anticipated expiration: 2038-11-13
Also published as: CN109684445A

Abstract

本发明涉及一种口语化医疗问答方法及系统，所述口语化医疗问答方法包括：根据历史数据，构建医疗实体字典；基于医疗实体字典，从口语化的医疗语料中确定训练数据；所述医疗语料包括问、答数据；通过词向量表达方法，对训练数据进行同义词处理，得到同义词组；对同义词组进行归一化处理，得到标准表达术语，以使医学专业术语统一；基于问、答的训练数据、同一词组及对应的标准表达术语，建立检索库；根据用户输入的医疗问题，基于所述检索库，确定医疗答案。从而提高医疗问答的准确性和快速性。

Description

口语化医疗问答方法及系统

技术领域

本发明涉及医疗及计算机处理技术领域，特别涉及一种口语化医疗问答方法及系统。

背景技术

随着人口老龄化的来临，我国的医疗资源日益紧张，而医疗需求不断增长。利用人工智能辅助医生、提高医疗系统运转效率是发展的必由之路。医疗问答的具体定义是：用户(患者)提出具体的问题，系统通过人工智能技术向用户提供相应答案。例如：

Q：宝宝发烧了怎么办？

A：如果不超过38.5度可以先考虑物理降温，超过38.5度则需要及时到医院就诊。

医疗问答是辅助医患沟通的重要工具，可以嵌入在医生随访系统中，帮助医生及时回复患者的问题，也可作为参考知识供患者及家属学习。

医疗问答同时也能满足用户的泛医疗需求，即用户对医疗知识、日常保健等医疗健康知识的获取。医疗问答可以更加精准地满足用户的需求，而不需要用户从大量信息中进行筛选。

现有的医疗问答技术方案主要有以下三种：

1)基于信息抽取。通过信息抽取获取关键词，再进行排序。

2)基于知识图谱。通过通过构建实体及其关系的知识图谱，在图谱上进行推理回答问题。

3)基于深度学习。基于深度神经网络建模，计算问答匹配程度。

上述方法均存在一些缺陷：

1)基于信息抽取方式：基于信息抽取的方式只能匹配一些关键词，无法有效处理同义词、近义词，以及医疗术语的口语化表达。

2)基于知识图谱方式：基于知识图谱的问答只能回答答案为一个实体的问题，而不能面向开放问题进行回答。例如前述问题“宝宝发烧了怎么办？”，基于知识图谱的方法无法通过描述性的语句进行回答。

3)基于深度学习方式：已有方法没有针对医疗领域的特殊性进行优化。例如医疗领域涉及大量的医疗实体(疾病、症状、药品)，因此需要构建专门的医疗字典；医疗领域还常常涉及医用名词及口语表示的同义关系，因此需要构建同义词词典；此外医疗实体间还往往存在从属关系，例如细菌性肺炎、病毒性肺炎都是肺炎的一种，直接学习的词向量往往无法充分表征其中的关联与区别，因此需要通过字符级别的向量进行表示。

综上所述，由于无法准确区分医疗口语，导致医疗问答的错误理解、医疗问答的效率低、速度慢。

发明内容

为了解决现有技术中的上述问题，即为了解决医疗口语化问题，本发明的目的在于提供一种口语化医疗问答方法及系统，可准确将医疗口语化准换为标准术语。

为解决上述技术问题，本发明提供了如下方案：

一种口语化医疗问答方法，所述口语化医疗问答方法包括：

根据历史数据，构建医疗实体字典；

基于医疗实体字典，从口语化的医疗语料中确定训练数据；所述医疗语料包括问、答数据；

通过词向量表达方法，对训练数据进行同义词处理，得到同义词组；

对同义词组进行归一化处理，得到标准表达术语，以使医学专业术语统一；

基于问、答的训练数据、同一词组及对应的标准表达术语，建立检索库；

根据用户输入的医疗问题，基于所述检索库，确定医疗答案。

可选的，所述口语化医疗问答方法还包括：

将所述训练数据添加到所述医疗实体字典中，以更新医疗实体字典。

可选的，所述根据历史数据，构建医疗实体字典，具体包括：

通过网络爬虫技术获取医疗百科、知识库和教材至少一者中公开的医疗数据；

基于规则、命名实体识别方法，对公开的医疗数据进行处理，获取医疗实体字典。

可选的，所述基于医疗实体字典，从口语化的医疗语料中确定训练数据，具体包括：

根据医疗实体字典，对所述医疗语料进行分词，得到训练数据。

可选的，所述通过词向量表达方法，对训练数据进行同义词处理，得到同义词组，具体包括：

针对每一训练数据，计算所述训练数据分别与其他训练数据之间的余弦距离；

将各余弦距离与设定的距离阈值进行比较，得到同义词组，所述同义词组为余弦距离小于距离阈值的各个训练数据。

可选的，所述口语化医疗问答方法还包括：

根据用户输入的医疗问题，确定问题的标准表达术语。

可选的，所述根据用户输入的医疗问题，基于所述检索库，确定医疗答案，具体包括：

根据所述问题的标准表达术语，确定该问题表征的相似的同义词；

根据该问题表征的相似的同义词，确定各同义词对应的答案的标准表达术语，得到多对分别对应问题和答案的标准表达术语；

基于长短期记忆网络LSTM，分别确定每对标准表达术语的问题特征向量和答案特征向量；

将每对的题特征向量和答案特征向量拼接，输入到两层全连接神经网络中，输出预测问答匹配程度的分值；

比较各个分值，确定分值最大的答案标准表达术语。

针对每对标准表达术语，分别计算问题特征向量和答案特征向量的余弦距离；

确定其中最小余弦距离对应的答案的标准表达术语。

为解决上述技术问题，本发明还提供了如下方案：

一种口语化医疗问答系统，所述口语化医疗问答系统包括：

字典构建单元，用于根据历史数据，构建医疗实体字典；

数据确定单元，用于基于医疗实体字典，从口语化的医疗语料中确定训练数据；所述医疗语料包括问、答数据；

同义词处理单元，用于通过词向量表达方法，对训练数据进行同义词处理，得到同义词组；

归一化处理单元，用于对同义词组进行归一化处理，得到标准表达术语，以使医学专业术语统一；

检索库建立单元，用于基于问、答的训练数据及对应的标准表达术语，建立检索库；

答案确定单元，用于根据用户输入的医疗问题，基于所述检索库，确定医疗答案。

可选的，所述口语化医疗问答系统还包括：

字典更新单元，用于将所述训练数据添加到所述医疗实体字典中，以更新医疗实体字典。

根据本发明的实施例，本发明公开了以下技术效果：

本发明根据历史数据，构建医疗实体字典，进而从口语化的医疗语料中确定训练数据；通过对训练数据进行同义词处理，得到同义词组；再通过归一化处理，得到标准表达术语；基于问、答的训练数据、同一词组及对应的标准表达术语，建立检索库；从而可根据用户输入的医疗问题，确定医疗答案，提高医疗问答的准确性和快速性。

附图说明

图1是本发明口语化医疗问答方法的流程图；

图2是本发明口语化医疗问答系统的模块结构示意图。

符号说明：

字典构建单元—1，数据确定单元—2，同义词处理单元—3，检索库建立单元—4，答案确定单元—5。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的是提供一种口语化医疗问答方法，根据历史数据，构建医疗实体字典，进而从口语化的医疗语料中确定训练数据；通过对训练数据进行同义词处理，得到同义词组；再通过归一化处理，得到标准表达术语；基于问、答的训练数据、同一词组及对应的标准表达术语，建立检索库；从而可根据用户输入的医疗问题，确定医疗答案，提高医疗问答的准确性和快速性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明口语化医疗问答方法包括：

步骤100：根据历史数据，构建医疗实体字典；

步骤200：基于医疗实体字典，从口语化的医疗语料中确定训练数据；所述医疗语料包括问、答数据；

步骤300：通过词向量表达方法，对训练数据进行同义词处理，得到同义词组；

步骤400：对同义词组进行归一化处理，得到标准表达术语，以使医学专业术语统一；

步骤500：基于问、答的训练数据、同一词组及对应的标准表达术语，建立检索库；

步骤600：根据用户输入的医疗问题，基于所述检索库，确定医疗答案。

其中，在步骤100，所述根据历史数据，构建医疗实体字典，具体包括：

步骤101：通过网络爬虫技术获取医疗百科、知识库和教材至少一者中公开的医疗数据。

步骤102：基于规则、命名实体识别(Named Entity Recognition,NER)方法，对公开的医疗数据进行处理，获取医疗实体字典。

百科、知识库等数据库中，包含疾病、症状、药品、手术等不同类别的医疗实体，可直接解析提取；教材中，包含名词解释、定义等，可通过规则挖掘医疗实体。以上获取的医疗实体，可作为一个初始的医疗实体字典。

在步骤200中，所述基于医疗实体字典，从口语化的医疗语料中确定训练数据，具体包括：

在医疗语料环境下，分词的一个难点是医疗术语往往是组合性的词语，不应该被分开，例如细菌性肺炎、病毒性肺炎作为一个疾病，应当被分为一个词，而不是细菌性/肺炎、病毒性/肺炎。因此，在分词过程中，需引入实体字典，如果一个词出现在实体字典中，则完整保留而不进一步进行切分。

进一步地，本发明口语化医疗问答方法还包括：

在步骤300中，所述通过词向量表达方法，对训练数据进行同义词处理，得到同义词组，具体包括：

步骤301：针对每一训练数据，计算所述训练数据分别与其他训练数据之间的余弦距离；

步骤302：将各余弦距离与设定的距离阈值进行比较，得到同义词组，所述同义词组为余弦距离小于距离阈值的各个训练数据。

其中，词向量是指将一个词映射为一个高维空间的向量，一个词即为这个高维空间上的一个点。在这个高维空间上，词向量有如下属性：词义相近的词语，在高维空间的距离更接近。这里距离的定义，一般是余弦距离。

优选地，词向量的获取需要利用大量的语料，对于医疗相关问题，采用医疗语料训练可以得到更好的结果。词向量的训练，可采用公开的算法，如word2vec、fasttext等。

考虑日常生活中对医疗术语的口语化的表达，语料还应该包括具有口语化表达的医疗语料。优选地，可以利用医疗问、答数据作为训练语料，其中包含了大量口语化的医疗表达。

获取每个词的词向量后，可在词向量空间计算出，与每个词距离小于一定阈值的所有词，获取到每个词和其对应的候选同义词。为提高准确率，可以通过人工标注的方式进一步筛选，获取到同义词，然后将所有同义词归一到一个基准词。

需要解释的是，同义词归一到基准词，应当考虑两个方面。首先，应当尽可能归一到专业医疗术语的表达，因此，优先归一到医疗实体字典中存在的专业表达。其次，应当考虑词语的词频，即每个词语在语料中出现的次数。同义词的归一应当尽可能归一到高频词中。

优选的，本发明口语化医疗问答方法还包括：

根据用户输入的医疗问题，确定问题的标准表达术语。

进一步地，在步骤600中，所述根据用户输入的医疗问题，基于所述检索库，确定医疗答案，具体包括：

步骤601：根据所述问题的标准表达术语，确定该问题表征的相似的同义词；

步骤602：根据该问题表征的相似的同义词，确定各同义词对应的答案的标准表达术语，得到多对分别对应问题和答案的标准表达术语；

步骤603：基于长短期记忆网络LSTM，分别确定每对标准表达术语的问题特征向量和答案特征向量；

步骤604：将每对的题特征向量和答案特征向量拼接，输入到两层全连接神经网络中，输出预测问答匹配程度的分值；

步骤605：比较各个分值，确定分值最大的答案标准表达术语。

此外，在步骤600中，所述根据用户输入的医疗问题，基于所述检索库，确定医疗答案，还可为另一种方案，具体包括：

步骤611：根据所述问题的标准表达术语，确定该问题表征的相似的同义词；

步骤612：根据该问题表征的相似的同义词，确定各同义词对应的答案的标准表达术语，得到多对分别对应问题和答案的标准表达术语；

步骤613：基于长短期记忆网络LSTM，分别确定每对标准表达术语的问题特征向量和答案特征向量；

步骤614：针对每对标准表达术语，分别计算问题特征向量和答案特征向量的余弦距离；

步骤615：确定其中最小余弦距离对应的答案的标准表达术语。

此外，本发明还提供一种口语化医疗问答系统，可准确将医疗口语化准换为标准术语。

如图2所示，本发明口语化医疗问答系统包括字典构建单元1、数据确定单元2、同义词处理单元3、归一化处理单元4、检索库建立单元5及答案确定单元6。

其中，所述字典构建单元1用于根据历史数据，构建医疗实体字典。所述数据确定单元2用于基于医疗实体字典，从口语化的医疗语料中确定训练数据；所述医疗语料包括问、答数据。所述同义词处理单元3用于通过词向量表达方法，对训练数据进行同义词处理，得到同义词组。所述归一化处理单元4用于对同义词组进行归一化处理，得到标准表达术语，以使医学专业术语统一。所述检索库建立单元5用于基于问、答的训练数据及对应的标准表达术语，建立检索库。所述答案确定单元6用于根据用户输入的医疗问题，基于所述检索库，确定医疗答案。

进一步地，本发明口语化医疗问答系统还包括：

相对于现有技术，本发明口语化医疗问答系统与上述一种口语化医疗问答方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种口语化医疗问答方法，其特征在于，所述口语化医疗问答方法包括：

根据历史数据，构建医疗实体字典；

根据用户输入的医疗问题，确定问题的标准表达术语；

根据用户输入的医疗问题，基于所述检索库，确定医疗答案，具体包括：

将每对的题特征向量和答案特征向量拼接，输入到两层全连接神经网络中，输出预测问答匹配程度的分值，比较各个分值，确定分值最大的答案标准表达术语；或者，针对每对标准表达术语，分别计算问题特征向量和答案特征向量的余弦距离，确定其中最小余弦距离对应的答案的标准表达术语。

2.根据权利要求1所述的口语化医疗问答方法，其特征在于，所述口语化医疗问答方法还包括：

3.根据权利要求1所述的口语化医疗问答方法，其特征在于，所述根据历史数据，构建医疗实体字典，具体包括：

4.根据权利要求1所述的口语化医疗问答方法，其特征在于，所述基于医疗实体字典，从口语化的医疗语料中确定训练数据，具体包括：

5.根据权利要求1所述的口语化医疗问答方法，其特征在于，所述通过词向量表达方法，对训练数据进行同义词处理，得到同义词组，具体包括：

6.一种口语化医疗问答系统，其特征在于，所述口语化医疗问答系统包括：

字典构建单元，用于根据历史数据，构建医疗实体字典；

答案确定单元，用于根据用户输入的医疗问题，确定问题的标准表达术语，基于所述检索库，确定医疗答案，具体包括用于：

7.根据权利要求6所述的口语化医疗问答系统，其特征在于，所述口语化医疗问答系统还包括：