CN112364139B

CN112364139B - 一种基于深度学习的医疗对话系统意图识别分类方法

Info

Publication number: CN112364139B
Application number: CN202011201009.0A
Authority: CN
Inventors: 侯慧
Original assignee: Nanjing Jingheng Information Technology Co ltd
Current assignee: Nanjing Jingheng Information Technology Co ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2023-12-19
Anticipated expiration: 2040-11-02
Also published as: CN112364139A

Abstract

本发明涉及一种基于深度学习的医疗对话系统意图识别分类方法，首先收集样本，将样本分成意图输入信息和意图输出信息，将意图输入信息分隔成若干个特征向量，并获得样本的特征向量集；接着获得客户文本，将客户文本分解呈特征向量，并与样本的特征向量去对比，搜取样本；然后从搜获的样本中，扩张特征向量；最后根据单一性映射，获得对应的意图输出结果。对医疗对话系统响应用户需求提供方向支持，针对相关意图范围提供意图方向。当只需要很少意图范围的功能，也可识别相应最符合的意图。使医疗对话系统在医疗方向更加合理，符合用户期望。

Description

一种基于深度学习的医疗对话系统意图识别分类方法

技术领域

本发明涉及一种基于深度学习的医疗对话系统意图识别分类方法，属于意识识别技术领域。背景技术

近年来，自动人机对话系统在学术和工业界都获得了相当大的关注度。医疗方向的对话系统着重偏向于医疗专业领域，深入患者最相关的找医生、找医院、找科室、找内容需求，是垂直领域的对话机器人。医疗方向的对话机器人拥有更加全面的医疗词典，并细分词典里的词的类别属于疾病、症状、科室、医生、检查、体征、药品中的一个或多个；也维护着各个类别之间的关系，比如疾病与症状的关系、科室与科室的关系、症状与检查的关系、疾病与药品的关系，其各个类别的关系组成医疗知识图谱，下述意图识别的词性特征就是通过该知识图谱提取出来。这些基础技术的构建使对话系统对医疗词汇、医疗问题更加敏感，响应用户的动作更加深入，涉及的流程更加专业化，最理想的是使其像医生一样解决用户的医疗问题。

意图识别是指导对话系统提供服务的一种方式。用户的某个问句，在意图识别阶段分析并捕捉到用户最可能的意图。确定了意图后，若缺少相关的信息，对话系统会提示用户补充，一方面继续该意图的处理，另一方面也使意图识别模块更加确认该意图的选择，若用户之后的回答脱离原意图，也有相应的策略捕捉调整意图。因此,需要一种基于深度学习的医疗对话系统意图识别分类方法。

发明内容

为了解决上述技术问题，本发明提供一种基于深度学习的医疗对话系统意图识别分类方法，包括以下步骤：

步骤1：收集样本，分拣样本的意图输入信息和意图输出信息，将意图输入信息分割并进行数量化获得具有N个特征向量的特征向量集，每个意图输入信息根据特征向量集进行数量化，意图输出信息进行数量化，并在意图输入信息与意图输出信息之间建立单一性映射；

步骤2：获得客户文本，将客户文本分解成M个特征向量，并将M个特征向量对照特征向量集，将客户文本根据特征向量集进行数量化，并且提取样本中所有包含M个特征向量的意图输入信息样本；

步骤3：将步骤2中获得的所有包含M个特征向量的意图输入信息样本进行聚集获取其交集，从交集中获取第M+1个特征向量；

步骤4：将客户文本扩充成M+1个特征向量，并M+1个特征向量与样本中的意图输入信息的N个特征向量对比，提取样本中所有包含M+1个特征向量的意图输入信息样本；

步骤5：将将步骤4中获得的所有包含M+1个特征向量的意图输入信息样本进行聚集获取其交集，从交集中获取第M+2个特征向量；

步骤6：直至扩展到获得第N+k个特征向量，第N+k+1个特征向量为零，根据单一性映射，获得对应的意图输出结果。

进一步的，所述意图输入信息进行数量化后的N个特征向量，对其赋予权重。

进一步的，所述步骤3中，按照权重高低顺序排列获得第N+1个向量。

进一步的，所述样本集的N特征向量是每个样本的特征向量的并集。

进一步的，所述意图输入信息的矩阵定义为R _i=[r_i1，r_i2，r_i3，r_i4…r_ij…r_iN]，i=1，2…P，其中P代表样本量，r_ij代表特征向量；与R _i对应的意图输出信息，其对应的单一性映射为C _i=[“输出信息”]，即映射函数F(Ri)=Ci=[“输出信息”]。

进一步的，对特征向量r_i1，r_i2，r_i3，r_i4…r_iN赋予权重，依序为[a_i1，a_i2，a_i3，a_i4…a_iN]。

进一步的，步骤3中的聚集，若客户文本含有M个特征向量，则将样本中所有包含M个特征向量不为零的意图输入信息R _i集合起来；求解出第M+1个向量，第M+1个向量为除去M个特征向量后，集合起来的样本中交集最多的特征向量，此特征向量不为零。

本发明的有益效果是：对医疗对话系统响应用户需求提供方向支持，针对相关意图范围提供意图方向。当只需要很少意图范围的功能，也可识别相应最符合的意图。使医疗对话系统在医疗方向更加合理，符合用户期望。

附图说明

图1是本发明的逻辑图。

实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

步骤1：收集三万条样本，将每一条样本分割呈两部分，第一部分意图输入信息，第二部分意图输出信息。将每一条意图输入信息分解，提取出特征。将所有的特征建立其特征向量库。如样本1，我40岁头疼三天四肢无力，会是什么原因？则获取意图输入信息，我40岁头疼三天四肢无力，意图输出信息，原因是什么。并补充意图输出信息，推荐医院医生。样本1获取意图输入信息的特征向量为年龄(40)，症状(头疼，四肢无力)，持续时间(3天)。

样本2，爷爷食欲不振没有胃口，身体四肢无力，会是什么原因呢？该怎么办？获取其意图输入信息，爷爷食欲不振没有胃口，身体四肢无力；意图输出信息：什么原因呢，该怎么办。样本2获取意图输入信息的特征向量为年龄60-70，症状(食欲不正、没有胃口，四肢无力)。

根据样本，建立样本的特征向量库，特征向量库包括所有样本的所有特征，若某样本不具备某项特征，在某项特征对应的数值则为零。每一条样本对应意图输出信息，样本1=(年龄，是否头疼，四肢无力，是否食欲不振，持续时间)(40，1,1,0，3,)，样本1对应的意图输出信息为，感冒，亚健康，建议去地段医院内科问诊。

步骤2：获取客户文本，将客户文本分解成M个特征向量，将样本库中所有这M个特征向量的样本向量提取出来，假设获得A个包含M个特征向量的样本。将这A个样本相交，获得第M+1个特征向量。第M+1个特征向量是A个样本中交集最多的向量(均不为零)。

步骤3：反复步骤2，获得第M+2、M+3..个特征向量，直至获得第N+k个特征向量。

步骤4：根据单一性映射，获得对应的意图输出结果。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

.本申请中所述的“和/或”的含义指的是各自单独存在或两者同时存在的情况均包括在内。

.本申请中所述的“连接”的含义可以是部件之间的直接连接也可以是部件间通过其它部件的间接连接。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于深度学习的医疗对话系统意图识别分类方法，其特征在于：包括以下步骤：

步骤6：直至扩展到获得第N+k个特征向量，第N+k+1个特征向量为零，根据单一性映射，获得对应的意图输出结果；

样本集的N个特征向量是每个样本的特征向量的并集；

步骤3中的聚集，若客户文本含有M个特征向量，则将样本中所有包含M个特征向量不为零的意图输入信息R _i集合起来；求解出第M+1个向量，第M+1个向量为除去M个特征向量后，集合起来的样本中交集最多的特征向量，此特征向量不为零。

2.根据权利要求1所述基于深度学习的医疗对话系统意图识别分类方法，其特征在于：所述意图输入信息进行数量化后的N个特征向量，对其赋予权重。

3.根据权利要求1所述基于深度学习的医疗对话系统意图识别分类方法，其特征在于：所述步骤3中，按照权重高低顺序排列获得第N+1个向量。

4.根据权利要求1所述基于深度学习的医疗对话系统意图识别分类方法，其特征在于：所述意图输入信息的矩阵定义为R _i=[r_i1，r_i2，r_i3，r_i4…r_ij…r_iN]，i=1，2…P，其中P代表样本量，r_ij代表特征向量；与R _i对应的意图输出信息，其对应的单一性映射为C _i=[“输出信息”]，即映射函数F(Ri)=Ci=[“输出信息”]。

5.根据权利要求1所述基于深度学习的医疗对话系统意图识别分类方法，其特征在于：对特征向量r_i1，r_i2，r_i3，r_i4…r_iN赋予权重，依序为[a_i1，a_i2，a_i3，a_i4…a_iN]。