CN108511044A

CN108511044A - 一种互联网咨询分诊方法及系统

Info

Publication number: CN108511044A
Application number: CN201710098698.9A
Authority: CN
Inventors: 陆德庆; 胡建民; 付天宇; 陈尚伟
Original assignee: Zhuhai Health Cloud Technology Co Ltd
Current assignee: Zhuhai Health Cloud Technology Co Ltd
Priority date: 2017-02-23
Filing date: 2017-02-23
Publication date: 2018-09-07
Anticipated expiration: 2037-02-23
Also published as: CN108511044B

Abstract

本发明公开一种互联网咨询分诊方法及系统。所述方法通过获取用户输入的问题信息，对问题信息进行分析，从知识库中获取分析结果所属的疾病分类，得到分类结果，所述分类结果包括疾病词，对每一疾病词进行五个阶段的评分，包括在非结构化数据库中进行词条评分；根据中文语法标准进行语法语义评分；根据文字的对齐标准进行评分；在结构化数据库中进行逻辑比对评分；将用户输入的问题信息带入疾病词进行评分；最终利用贝叶斯算法计算每一疾病词的最终得分，然后输出最终得分最高的疾病词。采用本发明的方法及系统，节省系统分析时间，同时使用户互联网咨询分诊更方便，咨询结果更准确。

Description

一种互联网咨询分诊方法及系统

技术领域

本发明涉及互联网领域，特别是涉及一种互联网咨询分诊方法及系统。

背景技术

互联网咨询分诊系统是一种以计算机与用户交互的形式实现对于用户疾病的分析与诊断。当用户有疾病方面的问题进行咨询时，根据疾病数据库内容进行匹配，并输出给用户相关的回答。

现有的互联网咨询分诊方法及系统，当接收用户的疾病咨询时，首先进行语言分析，提取相应的关键词，在疾病数据库提取关键词对应的内容，输出给用户，实现交互过程。经统计，现有的互联网咨询分诊系统及方法识别率是40％左右(识别率是指准确识别用户咨询的相关内容，并作出相应回答的比例)。因此，很大部分的用户咨询是无法识别或者无法给出相应解答，造成用户咨询的方便性与准确性较低。

发明内容

本发明的目的是提供一种互联网咨询分诊方法及系统，通过采用认知计算，通过自然语言分析、语义理解、候选生成、候选论证、候选评分的分析过程，然后输出给用户，以解决传统的互联网资讯分诊方式识别率和准确度低的问题。

为实现上述目的，本发明提供了如下方案：

一种互联网咨询分诊方法，所述方法包括：

获取用户输入的问题信息；

分析所述用户输入的问题信息，得到分析结果，所述分析结果包括三元组和用户意图，所述三元组为所述用户输入的问题信息的主语、谓语和宾语组成的数组，所述用户意图为所述用户输入的问题信息的目的，包括治疗、症状、病因、并发症、概述、食疗、手术、医生；

根据所述分析结果从知识库中获取所述分析结果所属的疾病分类，得到分类结果，所述分类结果包括疾病词；

对所述分类结果的疾病词在非结构化数据库中进行词条对比，得到第一比对结果；

根据所述第一比对结果对所述分类结果中的疾病词评分，得到第一评分结果；

对所述分类结果的疾病词根据中文语法标准进行语法语义评分，得到第二评分结果；

对所述分类结果的疾病词根据文字的对齐标准进行评分，得到第三评分结果；

对所述分类结果的疾病词在结构化数据库中进行逻辑比对，得到第二比对结果；

根据所述第二比对结果对所述分类结果中的疾病词评分，得到第四评分结果；

对所述用户输入的问题信息与所述分类结果的疾病词进行比对，得到第三比对结果；

根据所述第三比对结果对所述分类结果中的疾病词评分，得到第五评分结果；

根据所述分类结果中每一疾病词的第一评分结果、第二评分结果、第三评分结果、第四评分结果和第五评分结果，利用贝叶斯算法得到所述分类结果中每一疾病词的最终得分；

输出所述分类结果中最终得分最高的疾病词。

可选的，所述分析所述用户输入的问题信息，具体包括：

利用斯坦福实验室的神经语言程序学算法将用户输入的问题信息进行分析处理，初步形成分词之后生成三元组；

利用贝叶斯算法，根据统计型机器学习算法分析所述用户输入的问题信息的用户意图。

可选的，所述根据所述第一比对结果对所述分类结果中的疾病词评分，具体包括：

利用公式获得所述分类结果中每一疾病词的评分score₁，其中其中N为非结构化数据库中词条总数，C(t_j)为包含疾病词t_j的词条数，C(t_k)为包含疾病词t_k的词条数，idf(t_j)为词条t_j的IDF值，IDF值是语料库的总文档数除以包含t_j词的总文档数。

可选的，所述对所述分类结果的疾病词根据中文语法标准进行语法语义评分，具体包括：

利用公式对所述分类结果的疾病词评分，得到分数score₂，其中其中SKIP2(P,Q)为段落P、问题信息Q共有的二元组数，所述二元组是指由两个元素组成的二元组，C(P,2)为P的二元组数，C(Q,2)为Q的二元组数。

可选的，所述对所述分类结果的疾病词根据文字的对齐标准进行评分，具体包括：

根据smith-waterman算法生成矩阵：

其中然后根据smith-waterman算法回溯得到最长子序列，再将得到的子序列与问题词条集合，利用公式对所述分类结果的疾病词评分，得到分数score₃，其中其中idf(t_j)为词条t_j的IDF值，IDF值是语料库的总文档数除以包含t_j词的总文档数。

可选的，所述根据所述第二比对结果对所述分类结果中的疾病词评分，具体包括:

利用公式对所述分类结果的疾病词评分，得到分数score₄，其中idf(t_j)为词条t_j的IDF值，IDF值是语料库的总文档数除以包含t_j词的总文档数，Q_depth(tj)为疾病词t_j在问题依存树的深度，P_depth(tj)为疾病词t_j在段落依存树的深度，所述问题依存树和所述段落依存树为句法依存树；所述句法依存树为将句子分析成一颗依存句法树，描述出各个词语之间的依存关系；也即指出了词语之间在句法上的搭配关系，所述搭配关系和语义相关联。

可选的，所述根据所述第三比对结果对所述分类结果中的疾病词评分，具体包括：

利用公式获得所述分类结果中疾病词评分score₅，其中所述特殊实体包括：疾病、病状、手术，idf(t_j)为词条t_j的IDF值，IDF值是语料库的总文档数除以包含t_j词的总文档数。

一种互联网咨询分诊系统，所述系统包括：

问题信息获取模块，用于获取用户输入的问题信息；

问题信息分析模块，用于分析所述用户输入的问题信息，得到分析结果，所述分析结果包括三元组和用户意图，所述三元组为所述用户输入的问题信息的主语、谓语和宾语组成的数组，所述用户意图为所述用户输入的问题信息的目的，包括治疗、症状、病因、并发症、概述、食疗、手术、医生；

疾病分类获取模块，用于根据所述分析结果从知识库中获取所述分析结果所属的疾病分类，得到分类结果，所述分类结果包括疾病词；

词条对比模块，用于对所述分类结果的疾病词在非结构化数据库中进行词条对比，得到第一比对结果；

第一评分模块，用于根据所述第一比对结果对所述分类结果中的疾病词评分，得到第一评分结果；

第二评分模块，用于对所述分类结果的疾病词根据中文语法标准进行语法语义评分，得到第二评分结果；

第三评分模块，用于对所述分类结果的疾病词根据文字的对齐标准进行评分，得到第三评分结果；

逻辑对比模块，用于对所述分类结果的疾病词在结构化数据库中进行逻辑比对，得到第二比对结果；

第四评分模块，用于根据所述第二比对结果对所述分类结果中的疾病词评分，得到第四评分结果；

问题比对模块，用于对所述用户输入的问题信息与所述分类结果的疾病词进行比对，得到第三比对结果；

第五评分模块，用于根据所述第三比对结果对所述分类结果中的疾病词评分，得到第五评分结果；

最终得分获取模块，用于根据所述分类结果中每一疾病词的第一评分结果、第二评分结果、第三评分结果、第四评分结果和第五评分结果，利用贝叶斯算法得到所述分类结果中每一疾病词的最终得分；

疾病词输出模块，用于输出所述分类结果中最终得分最高的疾病词。

可选的，所述问题信息分析模块具体包括：

三元组分析单元，用于利用斯坦福实验室的神经语言程序学算法将用户输入的问题信息进行分析处理，初步形成分词之后生成三元组；

用户意图分析单元，用于利用贝叶斯算法，根据统计型机器学习算法分析所述用户输入的问题信息的用户意图。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

四个评分阶段并行运行，节省了系统分析时间。通过采用认知计算，通过自然语言分析、语义理解、候选生成、五个阶段评分的分析过程，将最终结果输出给用户，使用户互联网咨询分诊更方便，咨询结果更准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明互联网咨询分诊方法流程图；

图2为本发明互联网咨询分诊系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明互联网咨询分诊方法流程图。如图1所示，所述方法包括：

步骤101：获取用户输入的问题信息。系统自动获取用户输入的与疾病咨询有关的问题信息。

步骤102：分析用户输入的问题信息。对获取的用户输入的问题信息进行分析，也就是计算机使用的认知计算，认知计算的核心是自然语言分析与理解，即让机器理解人类的语言。此部分可以使用斯坦福实验室的神经语言程序学算法(Neuro-LinguisticProgramming，NLP)在医疗组提供的医学语料库中运算将用户的提问信息进行分析处理，初步形成分词之后生成三元组，使用贝叶斯算法，根据统计型机器学习算法分析用户意图，最终可以得到一个或多个三元组及用户意图。三元组是指用户输入的问题信息的主语、谓语和宾语组成的数组。用户意图为用户输入的问题信息的目的，包括治疗、症状、病因、并发症、概述、食疗、手术、医生等。

步骤103：获取疾病分类。在一个或多个三元组中，进行统计型运算，得出三元组所属的疾病分类。疾病分类是医疗组整理过的，三元组的疾病计算是在一个多元知识库中获得的，这个多元知识库包括医学教科书、医学维基百科、医院病例、问答知识库。多元知识库是能否识别三元组成为疾病的关键。此部分可以得到一个或者多个候选疾病词。候选疾病词是指符合用户提问信息的疾病词。

步骤104：进行词条对比评分。将疾病词的同义词或相近词包括疾病词，在非结构化数据中(维基元数据库)进行词条对比，为每一个疾病词评分，得到每个疾病词的第一评分结果，匹配不上的也不做舍弃处理。舍弃处理即对评分低的疾病词做舍弃，不做舍弃处理的原因是，经过实验得出采用舍弃处理在整体计算时间上会缩短8％，但是整体准确率会下降4％，在业务的严谨上考虑，我们不采用舍弃策略。具体的评分过程为：

步骤105：进行语法语义评分。根据中文语法标准对每一疾病词进行语法语义评分，得到每个疾病词的第二评分结果。此过程采用二元组评分，二元组是根据中文语法获得与语法语义相同的评分方式，语法语义越近似获得的分数就越高，同时这部分也不做舍弃策略。具体评分过程为：

步骤106：文字对齐标准评分。根据文字的对齐标准对每一疾病词进行评分，得到每个疾病词的第三评分结果。所谓文本对齐是不考虑语法语义仅根据文字的对齐来进行疾病词评分，即相似度评分，中文文字相似度。评分具体评分过程为：

根据smith-waterman算法生成矩阵：

其中然后根据smith-waterman算法回溯得到最长子序列，再将得到的子序列与问题词条集合，利用公式对所述分类结果的疾病词评分，得到分数score₃，其中

步骤107：进行逻辑评分。对每一疾病词在结构化数据库中进行逻辑比对评分，得到每个疾病词的第四评分结果。在结构化的数据中进行运算，比如感冒属于呼吸内科，进行逻辑比对，这个部分的比对相对其他部分成本是非常大的，这部分能否有好的评分完全取决于结构化数据元的规模。结构化数据源是医疗组提供并会持续更新的论证元。具体评分过程为：

利用公式对所述分类结果的疾病词评分，得到分数score₄，其中idf(t_j)为词条t_j的IDF值，Q_depth(t_j)为疾病词t_j在问题依存树的深度，P_depth(t_j)为疾病词t_j在段落依存树的深度，所述问题依存树和所述段落依存树为句法依存树。句法依存树为将句子分析成一颗依存句法树，描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系，这种搭配关系是和语义相关联的。

步骤104、步骤105、步骤106、步骤107四个阶段的评分过程是并行的，利用并行运算框架spark，运算的过程中四个部分是相互不干扰的仅在自己的逻辑范围内进行运算评分，所以采用并行预算是最可以节省时间的。四个阶段评分完成后会得到一列疾病词对应评分的数组。

步骤108：疾病词代入问题信息比对评分。对用户输入的问题信息与每一疾病词进行比对评分，得到每一疾病词的第五评分结果。根据用户的原提问和意图来综合进行数组运算，这部分的工作都是基于统计型机器学习完成的，根据用户的原提问和意图将每个疾病词(备选科室)代入。具体评分过程为：

利用公式获得所述分类结果中疾病词评分score₅，其中所述特殊实体包括：疾病、病状、手术，idf(t_j)为IDF值，IDF值是语料库(数据库)的总文档数除以包含t_j词的总文档数。

步骤109：最终评分。根据每一疾病词的第一评分结果、第二评分结果、第三评分结果、第四评分结果和第五评分结果，利用贝叶斯算法得到每一疾病词的最终得分。最终评分的顺序是依照第五评分结果的顺序进行，第五评分最高的疾病词最先开始最终评分，得到最终的评分结果。

步骤1010：输出疾病词。根据最终评分结果，如果最终评分的最高评分与最终评分的第二高评分差值较小(1分以内)有多个会进行二次论证，二次论证时会把原问题带入步骤104、步骤105、步骤106、步骤107四个阶段进行评分。如果最终评分的最高评分和最终评分的第二高评分相差较大(大于1分)直接输出最高评分的疾病词(科室)。

图2为本发明互联网咨询分诊系统结构图。如图2所示，所述系统包括：

问题信息获取模块201，自动获取用户输入的问题信息。

问题信息分析模块202，对获取的用户输入的问题信息进行分析，也就是计算机使用的认知计算，认知计算的核心是自然语言分析与理解，即让机器理解人类的语言。此部分可以使用斯坦福实验室的神经语言程序学算法(Neuro-Linguistic Programming，NLP)在医疗组提供的医学语料库中运算将用户的提问信息进行分析处理，初步形成分词之后生成三元组，使用贝叶斯算法，根据统计型机器学习算法分析用户意图，最终可以得到一个或多个三元组及用户意图。三元组是指用户输入的问题信息的主语、谓语和宾语组成的数组。用户意图为用户输入的问题信息的目的，包括治疗、症状、病因、并发症、概述、食疗、手术、医生等。

疾病分类获取模块203，用于根据分析结果从知识库中获取疾病词分类词。具体为在一个或多个三元组中，进行统计型运算，得出三元组所属的疾病分类。疾病分类是医疗组整理过的，三元组的疾病计算是在一个多元知识库中获得的，这个多元知识库包括医学教科书、医学维基百科、医院病例、问答知识库。多元知识库是能否识别三元组成为疾病的关键。此部分可以得到一个或者多个候选疾病词。候选疾病词是指符合用户提问信息的疾病词。

词条对比模块204，将疾病词的同义词或相近词包括疾病词，在非结构化数据中(维基元数据库)进行词条对比。

第一评分模块205，根据词条比对结果，为每一个疾病词评分，得到每个疾病词的第一评分结果，匹配不上的也不做舍弃处理。舍弃处理即对评分低的疾病词做舍弃，不做舍弃处理的原因是，经过实验得出采用舍弃处理在整体计算时间上会缩短8％，但是整体准确率会下降4％，在业务的严谨上考虑，我们不采用舍弃策略。具体评分过程参见步骤104。

第二评分模块206，用于进行语法语义评分。根据中文语法标准对每一疾病词进行语法语义评分，得到每个疾病词的第二评分结果。此过程采用二元组评分，二元组是根据中文语法获得与语法语义相同的评分方式，语法语义越近似获得的分数就越高，同时这部分也不做舍弃策略。具体评分过程参见步骤105。

第三评分模块207，用于文字对齐标准评分。根据文字的对齐标准对每一疾病词进行评分，得到每个疾病词的第三评分结果。所谓文本对齐是不考虑语法语义仅根据文字的对齐来进行疾病词评分，即相似度评分，中文文字相似度。具体评分过程参见步骤106。

逻辑对比模块208，用于对每一疾病词在结构化数据库中进行逻辑比对。在结构化的数据中进行运算，比如感冒属于呼吸内科，进行逻辑比对，这个部分的比对相对其他部分成本是非常大的，这部分能否有好的评分完全取决于结构化数据元的规模。结构化数据源是医疗组提供并会持续更新的论证元。

第四评分模块209，用于比对结果对每一疾病词评分，得到每个疾病词的第四评分结果。具体评分过程参见步骤107。

问题比对模块2010，用于将疾病词代入问题信息进行比对。。根据用户的原提问和意图来综合进行数组运算，这部分的工作都是基于统计型机器学习完成的，根据用户的原提问和意图将每个疾病词(备选科室)代入。

第五评分模块2011，根据比对结果，为每一疾病词评分，得到每一疾病词的第五评分结果。具体评分过程参见步骤108。

最终得分获取模块2012，用于根据每一疾病词的第一评分结果、第二评分结果、第三评分结果、第四评分结果和第五评分结果，利用贝叶斯算法得到每一疾病词的最终得分。最终评分的顺序是依照第五评分结果的顺序进行，第五评分最高的疾病词最先开始最终评分，得到最终的评分结果。

疾病词输出模块2013，根据最终评分结果，如果最终评分的最高评分与最终评分的第二高评分差值较小(1分以内)有多个会进行二次论证，二次论证时会把原问题带入步骤104、步骤105、步骤106、步骤107四个阶段进行评分。如果最高评分和第二评分相差较大(大于1分)直接输出最高评分的疾病词(科室)。

本发明互联网咨询分诊方法及系统具体实施例：

用户输入：“女性尿痛、尿频、尿急是什么病”；

对用户输入信息的分析结果为：三元组：[女性尿痛，疾病，空]、[尿频，疾病，空][尿急，疾病，空]，[女性尿痛，病因，空]、[尿频，病因，空][尿急，病因，空]；用户意图为：疾病，病因。

获得的疾病分类为：[“尿路感染”,”妇科炎症”；”宫外孕”]；

每一疾病词的评分结果数组：{“尿路感染”:0.97334,“妇科炎症”:0.53498,”宫外孕”:0.27761}；

最终评分结果：{“尿路感染”:8.16956,“妇科炎症”:7.56632,”宫外孕”:0.87763}；

二次评分结果：{“尿路感染”:7.39571,“妇科炎症”:3.56632,”宫外孕”:0.00256}；

输出的疾病词为：尿路感染。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种互联网咨询分诊方法，其特征在于，所述方法包括：

获取用户输入的问题信息；

输出所述分类结果中最终得分最高的疾病词。

2.根据权利要求1所述的方法，其特征在于，所述分析所述用户输入的问题信息，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一比对结果对所述分类结果中的疾病词评分，具体包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述分类结果的疾病词根据中文语法标准进行语法语义评分，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述分类结果的疾病词根据文字的对齐标准进行评分，具体包括：

根据smith-waterman算法生成矩阵：

6.根据权利要求1所述的方法，其特征在于，所述根据所述第二比对结果对所述分类结果中的疾病词评分，具体包括:

7.根据权利要求1所述的方法，其特征在于，所述根据所述第三比对结果对所述分类结果中的疾病词评分，具体包括：

8.一种互联网咨询分诊系统，其特征在于，所述系统包括：

问题信息获取模块，用于获取用户输入的问题信息；

9.根据权利要求8所述的系统，其特征在于，所述问题信息分析模块具体包括：