CN111897829A

CN111897829A - 一种用于医疗软件的自然语言查询方法及设备

Info

Publication number: CN111897829A
Application number: CN202010456054.4A
Authority: CN
Inventors: 庄浩; 刘鑫; 陈浩翔; 张继勇
Original assignee: Huarui Xinzhi Technology Beijing Co ltd
Current assignee: Huarui Xinzhi Baoding Technology Co.,Ltd.; HUARUI XINZHI TECHNOLOGY (BEIJING) Co.,Ltd.
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-11-06

Abstract

本申请公开了一种用于医疗软件的自然语言查询方法及设备，用以解决现有的医疗软件使用特定的查询语言及知识图谱结构，不方便用户查询病情的技术问题。方法包括：服务器接收来自互联网的第一医疗语料数据进行处理后，存放到三元组数据库中；以及接收来自患者咨询平台的第二医疗语料数据，构建训练数据集；利用训练数据集对神经网络模型进行训练，得到自然语言转换模型；将输入医疗软件的患者咨询问句输入至自然语言转换模型中，得到对应的查询语言；服务器基于对应的查询语言与三元组数据库中的数据进行匹配，以得到患者咨询问句的查询结果。本申请通过上述方法使用户能使用自然语言查询病情，进而提高了医疗软件的利用率。

Description

一种用于医疗软件的自然语言查询方法及设备

技术领域

本申请涉及医疗软件技术领域，尤其涉及一种用于医疗软件的自然语言查询方法及设备。

背景技术

在我国，医疗行业关乎着国民的生命安全及民生发展，也一直是人工智能发展的重点。然而，随着社会人口老龄化的不断加剧，给本就紧张的医疗资源带来了更大的挑战。为缓解医院的医疗压力，越来越多的医院引用基层问诊辅助软件，让老百姓可以自主知道病情的严重性，自行判断是否需要就医。

但现有的医疗软件大部分使用特定的查询语言，例如cypher语言，这就要求查询用户需要掌握cypher语法并清楚软件项目知识图谱的三元组实体和关系类型。然而cypher语法较为复杂，学习成本过高；而且大多数用户并不清楚知识图谱内部情况。这就造成了用户不能准确地使用医疗软件查询病情，进而造成医疗软件的使用率过低。

发明内容

本申请实施例提供了一种用于医疗软件的自然语言查询方法及设备，用以解决现有的医疗软件由于使用特定的查询语言以及知识图谱内部结构，而使用户不能利用医疗软件查询病情，进而造成医疗软件使用率过低的技术问题。

一方面，本申请实施例提供了一种用于医疗软件的自然语言查询方法，包括：服务器接收来自互联网的第一医疗语料数据，并将第一医疗语料数据进行处理后，存放到三元组数据库中；其中，三元组数据库包括：实体类型数据库、实体关系类型数据库及属性类型数据库；以及接收来自患者咨询平台的第二医疗语料数据，并基于第二医疗语料数据，构建训练数据集；利用所述训练数据集对神经网络模型进行训练，得到自然语言转换模型；将输入医疗软件的患者咨询问句输入至自然语言转换模型中，得到对应的查询语言；服务器基于对应的查询语言与三元组数据库中的数据进行匹配，以得到患者咨询问句的查询结果。

在本申请的一个实施例中，利用训练数据集对神经网络模型进行训练，得到自然语言转换模型，具体包括：将训练数据集中的患者咨询问句输入神经网络模型中，以预设编码方式进行编码；利用非自回归生成解码方式，对编码后的患者咨询问句进行解码，得到患者咨询问句对应的查询语言；训练直至输出收敛，得到自然语言转换模型。

在本申请的一个实施例中，在神经网络模型的训练过程中，还包括预测过程；其中，预测过程包括：编码端随机去掉患者咨询问句中的若干个词语，并通过解码端对随机去掉的若干个词语进行预测，得到患者咨询问句对应的预测结果；重复若干次执行预测过程，以得到患者咨询问句对应的查询语言。

在本申请的一个实施例中，方法还包括：将预测结果输入softmax函数中，以得到患者咨询问句对应的查询语言。

在本申请的一个实施例中，自然语言转换模型采用Bert预训练模型进行训练；自然语言转换模型的损失函数采用softmax函数。

在本申请的一个实施例中，服务器基于对应的查询语言与三元组数据库中的数据进行匹配，以得到患者咨询问句的查询结果，具体包括：基于查询语言，遍历实体类数据库，确定查询语言中的实体信息；遍历实体类型关系数据库，确定查询语言中的实体关系信息；遍历属性类型数据库，确定查询语言中的实体信息对应的属性信息；基于实体信息、实体关系信息及属性信息，调用三元组数据库中相应的数据内容，确定查询语言对应的查询结果。

在本申请的一个实施例中，在得到患者咨询问句的查询结果之后，方法还包括：搭建对话系统，将查询结果及患者咨询问句以对话形式进行展示。

在本申请的一个实施例中，将第一医疗语料数据进行处理后，存放到三元组数据库中，具体包括：对第一医疗语料数据进行筛选处理，剔除与医疗语料数据相关度低于预设阈值的语料数据；按照三元组数据库的分类方式进行分类处理，并将分类之后的医疗预料数据分别存放到三元组数据库中。

在本申请的一个实施例中，基于第二医疗预料数据，构建训练数据集，具体包括：提取所述第二医疗语料数据中包含的若干条患者咨询问句及其对应的查询语言；基于若干条患者咨询问句及其对应的查询语言，构建所述神经网络模型的训练数据集。

另一方面，本申请实施例还提供了一种用于医疗软件的自然语言查询设备，包括：处理器；及存储器，其上存储有可执行代码，当可执行代码被执行时，使得处理器执行如上述的一种用于医疗软件的自然语言查询方法。

本申请实施例提供的一种用于医疗软件的自然语言查询方法及设备，通过构建自然语言转换模型，将医疗软件输入的自然语言转换为对应的查询语言，使得医疗软件用户可以利用自然语言查询病情，自行判断是否需要就诊，进而提高了医疗软件的利用率，减轻了医院的医疗压力。在自然语言转换模型的构建过程中，使用非自回归生成解码方式，随机去掉患者咨询问句中的若干个词语，然后利用模型对去掉的词语进行预测，使得自然语言转换模型在训练及测试时的行为保持一致，实现解码的可并行化，提高了解码速度，将患者查询问句可快速的转换为医疗软件对应的查询语言。

另外，本申请实施例提出了一种新的医疗三元组数据库结构，包括实体类型数据库、实体关系类型数据库及属性类型数据库。通过将医疗三元组细分化，比传统的症状-疾病-药品更多元，有助于提升医疗软件对话的多样性及准确性，更好的辅助医疗软件理解用户的多样性提问。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种用于医疗软件的自然语言查询方法流程示意图；

图2为本申请实施例提供的一种用于医疗软件的自然语言转换模型训练数据集部分内容示意图；

图3为本申请实施例提供的一种用于医疗软件的自然语言查询结果展示示意图；

图4为本申请实施例提供的一种用于医疗软件的自然语言查询设备内部结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

从国家战略和省市规划报告的角度来看，关乎国民经济和民生的医疗行业一直是人工智能发展的重点。当前，中国的医疗资源在结构上是不平衡的。三甲医院的专家们拥挤不堪。在基层医院很难找到专家。然而三甲医院约占医院总数的8％，却需要负担治疗40％的患者，已经承担了繁重的任务。但随着社会老龄化不断加剧，医疗资源变得更加有限。根据《健康中国2030》规划纲要，要求医疗单位要实现分级诊断和治疗，建立基层一级咨询双向转诊，紧急和慢速治疗的医疗体系“上下联动”，促进分级诊治的实施，加强基层医疗体系建设。缓解医院的医疗压力。急需基层辅助医疗问诊软件，让老百姓可以自主知道病情严重性，判断是否就医。

但是现有医疗问诊软件大部分采用特定的查询语言，通过图遍历的方式来访问知识图谱进行查询。这就使得现有医疗软件的查询方法出现如下两个问题：1.用户需掌握特定的查询语言的语法，然而语法较为复杂，学习成本过高。2.用户需要很清楚医疗软件知识图谱的三元组实体和关系类型，即了解知识图谱内部结构及内容。

因此，本申请实施例提供了一种用于医疗软件的自然语言查询方法及设备，以解决上述由于医疗软件使用特定的查询语言及知识图谱结构，不方便用户通过自然语言进行病情查询的技术问题。

下面通过附图对本申请实施例提出的技术方案进行详细的说明。

图1为本申请实施例提供的一种用于医疗软件的自然语言查询方法及设备。如图1所示，本申请实施例提供的自然语言查询方法主要包括以下步骤：

步骤101、服务器接收第一医疗语料数据，整理后存放到三元组数据库中。

服务器接收来自互联网的第一医疗语料数据，并对进行整理后存放到三元组数据库中。其中，三元组数据库包括实体类型数据库、实体关系类型数据库及属性类型数据库。

在本申请的一个实施例中，对第一医疗语料数据进行整理，具体包括：对第一医疗语料数据进行筛选处理，剔除与医疗语料数据相关度低于预设阈值的语料数据；然后对筛选过程保留下来的语料数据进行分类处理，按照三元组数据库类型的分类方式进行分类，并将分类完成后的语料数据存放到三元组数据库中。

在本申请的另一实施例中，三元组数据库的实体类型数据库中包含的主要内容如表1所示：

表1

实体关系类型数据库的包含内容如表2所示：

表2

属性类型数据库中的包含内容如表3所示：

表3

步骤102、服务器接收第二医疗语料数据，构建训练数据集。

服务器接收来自患者咨询平台的第二医疗语料数据，并提取第二医疗语料数据中包含的若干条患者咨询问句及其对应的专家标注的查询语言，构建神经网络模型的训练数据集。

在本申请的一个实施例中，第一医疗语料数据中主要包含的是来自互联网的，与患者咨询问句对应的实体、属性关系、属性及答案内容。第二医疗语料数据中包括的是来自患者咨询平台的患者咨询问句及其对应的查询语言。

例如，患者咨询问句是“胃疼不能吃什么”。该患者咨询问句对应的内容在第一医疗语料数据中就会包含为实体“胃疼，雪糕”、实体关系“不能吃”及答案内容“胃疼不能吃雪糕”；在第二医疗语料数据中包含为患者咨询问句“胃疼不能吃什么”，及其对应的查询语言。

利用第二医疗语料数据构建的训练数据集中，其包含的部分内容如图2所示。

图2为本申请实施例提供的一种用于医疗软件的自然语言转换模型训练数据集部分内容示意图，由图2可以看出，神经网络模型的训练数据集中主要包括的是若干条患者咨询问句及其对应的查询语言，例如cypher查询语言。

为方便理解，本申请实施例在下文的描述过程中，使用的查询语言仍为cypher语言。本领域技术人员可以明确的是，本申请实施例中的查询语言，不仅包括cypher语言，还可以包括语言Gremlin语言等其他查询语言。

步骤103、利用训练数据集对神经网络模型进行训练，得到自然语言转换模型。

构建好神经网络模型的训练数据集之后，利用该训练数据集对神经网络模型进行训练，得到自然语言转换模型。

在本申请的一个实施例中，对神经网络模型进行训练主要包括：将训练数据集中的患者咨询问句输入至神经网络模型中，以预设方式进行编码，得到编码后的患者咨询问句；然后将编码后的患者咨询问句利用非自回归解码方式进行解码，得到患者咨询问句对应的查询语言；训练直至输出收敛，得到自然语言转换模型。

在本申请的另一实施例中，自然语言转换模型的训练过程中，还包括预测过程；首先在对患者咨询问句进行编码时，随机去掉患者咨询问句中的若干个词语，例如，随机去掉患者咨询问句中的15％的词语；然后在解码时对随机去掉的词语进行预测，得到患者咨询问句的预测结果，该预测结果为输入的患者咨询问句对应的查询语言；重复执行若干次该预测过程，将所得到所有预测结果输入softmax函数中，得到患者咨询问句对应的查询语言。

例如：患者咨询问句为“那些人容易患上振栗？”，在利用该患者咨询问句对神经网络模型进行训练时，首先神经网络模型在编码时会随机去掉其中的若干词语，例如，“那些人容易[mask]振栗？”，然后进行编码；解码端在对编码后的患者咨询问句进行解码时，会同时预测被去掉的若干词语是什么，即预测[mask]位置对应的词是什么，然后输出整句患者咨询问句所对应的查询语言。并重复执行100次上述预测过程，将得到的预测结果输入softmax函数中，得到患者咨询问句最终对应的查询语言：“match(m.Disease)wherem.name＝“振栗”return m.easy_get as val”。

需要说明的是，执行100次预测过程中，随机[mask]掉的词语可能相同，也可能不同，因此，100次的预测结果会存在偏差，通过softmax函数对预测结果进行评价，最终输出一个患者咨询问句准确对应的查询语言。而这里的预测过程会强迫提升上下文的语义记忆功能，在查询三元组数据库寻找答案时，更容易查询到准确的答案。

还需要说明的是，训练数据集中的每条患者咨询问句在训练过程中都会执行若干次预测过程，作中输出一个准确对应的查询语言。训练到模型的输出收敛时，得到自然语言转换模型。

在本申请的一个实施例中，自然语言转换模型采用Bert预训练模型进行训练，其损失函数采用是的softmax函数。

步骤104、将患者咨询问句输入到自然语言转换模型中，得到对应的查询语言。

训练好自然语言转换模型之后，将实际应用中输入医疗软件的患者咨询问句，输入至自然语言转换模型中，得到对应的查询语言。

例如，自然语言转换模型输入的患者咨询问句是“振栗易感人群”；则自然语言转换模型输出的查询语言是“match(m.Disease)where m.name＝“振栗”return m.easy_getas val”。

步骤105、服务器利用查询语言对三元组数据库进行查询，得到查询结果。

在得到患者咨询问句对应的查询语言之后，服务器基于查询语言查询三元组数据库中的内容，得到患者咨询问句对应的答案。

在本申请的一个实施例中，服务器基于查询语言对三元组数据库进行查询，主要包括：基于查询语言，遍历实体类数据库，确定查询语言中的实体信息；遍历实体类型关系数据库，确定查询语言中的实体关系信息；遍历属性类型数据库，确定查询语言中的实体信息对应的属性信息；然后基于实体信息、实体关系信息及属性信息，调用三元组数据库中相应的数据内容，确定查询语言对应的查询结果。

例如，查询语言为“match(m.Disease)where m.name＝“振栗”return m.easy_getas val”，基于该查询语言与三元组数据库中的内容进行匹配。首先，遍历实体类型数据库，确定该查询语言中的实体信息“Disease”；然后遍历实体关系类型数据库，确定该查询语言中的实体关系；遍历属性类型数据库，确定该查询语言中的属性类型信息“easy_get”。基于确定的实体信息及属性类型信息，调取三元组数据库中相应的内容，确定该查询语言对应的查询结果“身体虚寒或者热郁人群”。

在本申请得另一实施例中，在确定患者咨询问句对应得查询结果之后，将问句及结果以对话框的形式进行展示，方便患者查看进行自我判断。其展示形式如图3所示。

图3为本申请实施例提供的一种用于医疗软件的自然语言查询结果展示示意图。如图3所示，对话框中user的输入对应输入医疗软件的患者咨询问句，robot的输入对应患者咨询问句的查询结果。user每输入一个问题，robot作为回答，输入一个查询结果。

需要说明的是，以对话框将患者咨询问句及查询结果进行展示，仅为本申请实施例提出的一种展示方式而已。本领域技术人员可以明确的是，还可以通过其他方式对问句及结果进行展示，本申请实施例对此不做限定。

以上为本申请实施例提供的方法实施例，基于同样的发明构思，本申请实施例还提供了一种用于医疗软件的自然语言查询设备，其内部结构示意图如图4所示。

图4为本申请实施例提供的一种用于医疗软件的自然语言查询设备内部结构示意图，如图4所示，设备包括处理器401，及存储器402；存储器402上存储有可执行代码，当可执行代码被执行时，使得处理器401执行如上述的一种用于医疗软件的自然语言查询方法。

在本申请的一个实施例中，处理器401用于接收来自互联网的第一医疗语料数据，并将第一医疗语料数据进行处理后，存放到三元组数据库中；其中，三元组数据库包括：实体类型数据库、实体关系类型数据库及属性类型数据库；以及用于接收来自患者咨询平台的第二医疗语料数据，并基于第二医疗语料数据，构建训练数据集；还用于利用训练数据集对神经网络模型进行训练，得到自然语言转换模型，并将输入医疗软件的患者咨询问句输入至自然语言转换模型中，得到对应的查询语言；还用于基于对应的查询语言与三元组数据库中的数据进行匹配，以得到患者咨询问句的查询结果。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于医疗软件的自然语言查询方法，其特征在于，所述方法包括：

服务器接收来自互联网的第一医疗语料数据，并将所述第一医疗语料数据进行处理后，存放到三元组数据库中；其中，所述三元组数据库包括：实体类型数据库、实体关系类型数据库及属性类型数据库；

以及接收来自患者咨询平台的第二医疗语料数据，并基于所述第二医疗语料数据，构建训练数据集；

利用所述训练数据集对神经网络模型进行训练，得到自然语言转换模型；

将输入医疗软件的患者咨询问句输入至所述自然语言转换模型中，得到对应的查询语言；

服务器基于所述对应的查询语言与所述三元组数据库中的数据进行匹配，以得到所述患者咨询问句的查询结果。

2.根据权利要求1所述的一种用于医疗软件的自然语言查询方法，其特征在于，所述利用所述训练数据集对神经网络模型进行训练，得到自然语言转换模型，具体包括：

将所述训练数据集中的患者咨询问句输入神经网络模型中，以预设编码方式进行编码；

利用非自回归生成解码方式，对所述编码后的患者咨询问句进行解码，得到所述患者咨询问句对应的查询语言；

训练直至输出收敛，得到自然语言转换模型。

3.根据权利要求2所述的一种用于医疗软件的自然语言查询方法，其特征在于，所述方法还包括：

在所述神经网络模型的训练过程中，还包括预测过程；

其中，所述预测过程包括：编码端随机去掉所述患者咨询问句中的若干个词语，并通过解码端对所述随机去掉的若干个词语进行预测，得到所述患者咨询问句对应的预测结果；

重复若干次执行所述预测过程，以得到所述患者咨询问句对应的查询语言。

4.根据权利要求3所述的一种用于医疗软件的自然语言查询方法，其特征在于，所述方法还包括：

将所述预测结果输入softmax函数中，以得到所述患者咨询问句对应的查询语言。

5.根据权利要求1所述的一种用于医疗软件的自然语言查询方法，其特征在于，所述自然语言转换模型采用Bert预训练模型进行训练；所述自然语言转换模型的损失函数采用softmax函数。

6.根据权利要求1所述的一种用于医疗软件的自然语言查询方法，其特征在于，所述服务器基于所述对应的查询语言与所述三元组数据库中的数据进行匹配，以得到所述患者咨询问句的查询结果，具体包括：

基于所述查询语言，遍历所述实体类数据库，确定所述查询语言中的实体信息；

遍历所述实体类型关系数据库，确定所述查询语言中的实体关系信息；

遍历所述属性类型数据库，确定所述查询语言中的实体信息对应的属性信息；

基于所述实体信息、实体关系信息及属性信息，调用三元组数据库中相应的数据内容，确定所述查询语言对应的查询结果。

7.根据权利要求1所述的一种用于医疗软件的自然语言查询方法，其特征在于，在得到所述患者咨询问句的查询结果之后，所述方法还包括：

搭建对话系统，将所述查询结果及患者咨询问句以对话形式进行展示。

8.根据权利要求1所述的一种用于医疗软件的自然语言查询方法，其特征在于，所述将所述第一医疗语料数据进行处理后，存放到三元组数据库中，具体包括：

对所述第一医疗语料数据进行筛选处理，剔除与医疗语料数据相关度低于预设阈值的语料数据；

按照所述三元组数据库的分类方式进行分类处理，并将分类之后的医疗预料数据分别存放到所述三元组数据库中。

9.根据权利要求1所述的一种用于医疗软件的自然语言查询方法，其特征在于，所述基于所述第二医疗预料数据，构建训练数据集，具体包括：

提取所述第二医疗语料数据中包含的若干条患者咨询问句及其对应的查询语言；

基于所述若干条患者咨询问句及其对应的查询语言，构建所述神经网络模型的训练数据集。

10.一种用于医疗软件的自然语言查询设备，其特征在于，所述设备包括：

处理器；

及存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-9任一项所述的一种用于医疗软件的自然语言查询方法。