CN111428055A

CN111428055A - 一种面向行业的上下文省略问答方法

Info

Publication number: CN111428055A
Application number: CN202010309435.XA
Authority: CN
Inventors: 申冲; 张传锋; 朱锦雷; 李民
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-07-17
Anticipated expiration: 2040-04-20
Also published as: CN111428055B

Abstract

本发明公开一种面向行业的上下文省略问答方法，本方法依据行业数据中的结构化、非结构化知识，构建行业知识图谱，行业知识图谱中包括三元组信息，系统通过客户问题确定某个主题时，三元组中与客户问题相关的主题、属性均被认定为对话状态；基于行业知识图谱及确定的对话状态，系统在接收到客户问题之后进行对话状态管理，包括通过历史状态问答机制、上下文省略问答判断机制解决噪音干扰、非行业问答带来的系统状态清空、答非所问问题。

Description

一种面向行业的上下文省略问答方法

技术领域

本发明涉及一种面向行业的上下文省略问答方法，属于自然语言处理和机器学习领域。

背景技术

对话状态管理（Dialogue State Management）以用户意图为输入，对于上下文交互过程中产生的对话状态进行管理，并查询知识库产生响应。自然、流畅、高效的人机多轮交互体验离不开高效的对话状态管理，但在实际的工程实践过程中仍有较多挑战。首先，对话状态往往通过槽值、实体等方式确定，随之产生较大的标注成本，这会耗费较大的人力、物力成本；另外在大厅等场景下的人机对话往往夹杂着较多噪音（无效问题），当对话过程面临大量噪音时，不合理的状态保存与清空都会导致较差的问答体验；自然的人机交互过程中往往有较大的上下文省略，对于行业问答系统而言（知识有限），如何区分客户问题是基于某一主题的上下文省略问答还是切换话题问答，也具有较大的研究意义。

发明内容

本发明要解决的技术问题是提供一种面向行业的上下文省略问答方法，以行业知识图谱中的话题、属性作为对话状态，通过历史状态问答机制和上下文省略问答判断机制，可实现基于上下文省略问答的对话模式，有效避免噪音干扰，同时极大减少了数据维护量。

为了解决所述技术问题，本发明采用的技术方案是：一种面向行业的上下文省略问答方法，首先依据行业数据中的结构化、非结构化知识，构建行业知识图谱，行业知识图谱中包括三元组信息，系统通过客户问题确定某个主题时，三元组中与客户问题相关的主题、属性均被认定为对话状态；基于行业知识图谱及确定的对话状态，系统在接收到客户问题之后进行对话状态管理，包括通过历史状态问答机制、上下文省略问答判断机制解决噪音干扰、非行业问答带来的系统状态清空、答非所问问题。

进一步的，构建行业知识图谱的具体步骤为：

S11）、构建行业词库，利用现有的关系型数据库、行业结构化数据以及客户给定的行业关键词，确定行业主题、行业属性，将相关主题、属性添加到自定义分词中，并提高其权重；对于客户给定的行业文档和从网上爬取的其他行业文档，使用传统机器学习方法来计算词权重并筛选出行业词库；

S12）、扩充行业词，使用腾讯公开的基于word2vec训练的800万词向量集，遍历步骤S11确定的行业词库，并使用余弦相似度抽取不含有已有行业词的前10相似词，并依据行业经验进行筛选；

S13）、三元组抽取，使用jieba分词对行业文档进行分词，依据行业词和抽取模板进行三元组抽取，抽取模板定义为ABC，A为主题，B为属性，C为值，即A的B是C；

S14）、构建行业知识图谱，将步骤S13抽取的三元组信息经过人工筛选之后导入到图形数据库中，从而形成行业知识图谱。

进一步的，历史状态问答机制的步骤为：

S21）、历史状态保存，对话过程中的所有有效问答均会被保存在历史状态列表中，设定历史状态列表的长度，当历史列表长度超过设定值时，最早的状态被丢弃，新状态则插入到最后；

S22）、历史状态恢复，当系统针对客户问题无法产生响应时，首先将当前状态保存到临时状态变量中，然后将历史状态列表中的最后状态更新到当前状态，再进行答案匹配；

S23）、历史状态更新，如果系统根据当前的历史状态匹配到答案，则返回响应，然后将该历史状态作为当前对话状态，清空临时状态变量，并更新历史状态列表末尾；如果没有匹配到答案，则将临时状态变量中的当前状态恢复，返回问题列表。

进一步的，上下文省略问答判断机制基于语义分类模型，分类模型由训练数据对预训练模型进行微调得到，具体过程为：

S31）、构建样本集合，使用三元组陈述句、主题、属性和日志抽取的相关省略问答问句作为正样本，使用其他领域抽取的相关主题、属性与行业知识进行混合的问答、日志抽取的非上下文省略问答数据作为负样本；

S32）、将正负样本进行随机组合，构建相同数据的样本集合，并按照9：1的比例将样本集合分为训练集与验证集；

S33）、在预训练模型的输出层后增加全连接层和softmax层，经softmax层之后输出是、不是的概率。

预训练模型的输入为训练数据中的样本，损失函数使用交叉熵，梯度下降使用Adam梯度下降，采用f1和准确率作为综合指标，通过验证集选择最佳语义分类模型。

进一步的，系统在接收到客户问题之后进行对话状态管理的过程为：

S41）、状态抽取，将根据行业知识图谱确定的对话状态存入到哈希表中，当系统接收到用户问题时，首先判断此次用户问题距离上个用户问题的时间是否超时，如果超时，则清空当前状态，如果未超时则根据哈希表进行状态抽取，如果未抽取到任何状态，则认为该问题是无效问题，进行噪音统计；如果抽取到状态，则进入下一步；

S42）、上下文省略判断机制，如果根据用户问题在行业知识图谱中无法查找到答案，则认为是上下文状态缺失，经过人工规则和语义分类器进行进行是否是上下文省略问答判断，人工规则是将问题去除停用词对状态进行长度限制的状态包含判断，语义分类器输出上下文省略和非上下文省略问答的概率；

S43）、状态更新，如果系统根据用户问题从行业知识图谱中能够找到答案，则进行当前状态、历史状态的更新；

S44）、历史状态问答机制，根据语义分类器的输出确定是否继续话题，如果不继续，则返回问题列表，如果继续，则遍历当前状态和所有的历史状态，如果找到答案，则进行当前状态和历史状态的更新，否则返回依据当前主题确定的相关问题列表；

S45）、状态清空，当前状态清空有两种情况，一种是步骤S41的噪音统计超过设定阈值时进行状态清空，另一种是本次用户问题与上次用户问题的时间间隔超过一定时间时进行状态清空。

进一步的，所述图形数据库为neo4j。

进一步的，所述预训练模型为xlnet中文预训练模型。

本发明的有益效果：本发明以行业知识图谱中的话题、属性作为对话状态，通过历史状态问答机制可有效避免噪音干扰导致的系统状态清空问题；同时使用上下文省略问答判断机制，可实现基于上下文省略问答的对话模式，同时避免非行业主题问答导致的答非所问问题，实现一种自然、流畅、高效的人机多轮交互系统，同时极大减少了数据维护量。

附图说明

图1为行业知识谱图构建流程图；

图2为对话状态管理流程图；

图3为语义分类器的构建流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

实施例1

本实施例立足于智能对话系统，提供一种面向行业的上下文省略问答方法，以行业知识图谱中的话题、属性作为对话状态，通过历史状态问答机制和上下文省略问答判断机制，可实现基于上下文省略问答的对话模式，有效避免噪音干扰，为客户提供一种自然、流畅、简单、高效的人机多轮交互系统。本方法以服务方式对外提供功能，也可以使用于搭载智能对话系统的任何设备之上，如微信公众号、智能机器人、虚拟机器人等。

图1为构建行业知识图谱的流程图，本方法最大程度的利用已有的结构化数据，可快速构建小而精的行业知识图谱，具体步骤为：

S11）、构建行业词库，利用现有的关系型数据库、行业结构化数据（行业表格等）以及客户给定的行业关键词，确定行业主题、行业属性，以税务行业为例，个税、增值税等税种即为主题，关于该主题的办理地点、办理条件、抵扣优惠条件等均定义为属性，同时将相关主题、属性添加到自定义分词中，并提高其权重；对于客户给定的行业文档和从网上爬取的其他行业文档，使用传统机器学习方法（Jieba分词、TF-IDF等）来计算词权重并筛选出行业词库；

S13）、三元组抽取，使用jieba分词对行业文档进行分词（带有词性），依据行业词和抽取模板进行三元组抽取。本实施例中，抽取模板定义为{主题}{属性}{值}，也可写为ABC，A为主题，B为属性，C为值，即A的B是C，以税务为例，“应税大气污染物的应纳税额为污染当量数乘以具体适用税额”，即可抽取出三元组“{应税大气污染物}{应纳税额}{污染当量数乘以具体适用税额}”；

S14）、构建行业知识图谱，将步骤S13抽取的三元组信息经过人工筛选之后导入到图形数据库中（如neo4j），从而形成行业知识图谱。

当系统通过客户问题确定某个主题时，与其相关的主题、属性均被认定为对话状态。

基于行业知识图谱及确定的对话状态，系统在接收到客户问题之后可进行对话状态管理，通过历史状态问答机制可有效避免噪音干扰导致的系统状态清空问题，极大提高交互问答的体验性。如图2所示，历史状态问答机制的步骤如下：

S21）、历史状态保存，对话过程中的所有有效问答均会被保存在历史状态列表中，设定历史状态列表的长度（默认为4），当历史列表长度超过设定值时，最早的状态被丢弃，新状态则插入到最后；

S22）、历史状态恢复，当系统针对客户问题（可能为噪音）无法产生响应时，首先将当前状态保存到临时状态变量中，然后将历史状态列表中的最后状态更新到当前状态，再进行答案匹配；

S23）、历史状态更新，如果系统根据当前的历史状态匹配到答案，则返回响应，然后将该历史状态作为当前对话状态，清空临时状态变量，并更新历史状态列表末尾；如果没有匹配到答案，则将临时状态变量中的当前状态恢复，依据当前主题返回其相关问题列表。

使用上下文省略问答判断机制，可实现基于上下文省略问答的对话模式，同时避免非行业主题问答导致的答非所问问题。上下文省略问答判断机制基于语义分类模型，分类模型由训练数据对预训练模型进行微调得到，如图3所示，具体过程为：

S31）、构建样本集合，使用三元组陈述句、主题、属性和日志抽取（含有较多噪音、无意义的停用词等）的相关省略问答问句作为正样本，使用其他领域抽取的相关主题、属性与行业知识进行混合的问答、日志抽取的非上下文省略问答数据作为负样本；

S33）、在预训练模型（xlnet等中文预训练模型）的输出层后增加全连接层和softmax层，经softmax层之后输出是或不是上下文省略问答的概率。

本实施例中，预训练模型的输入为训练数据中的样本，损失函数使用交叉熵，梯度下降使用Adam梯度下降，采用f1和准确率作为综合指标，通过验证集选择最佳语义分类模型。

如图2所示，基于上述的历史状态机制和上下文省略判断机制，系统在接收到客户问题之后进行对话状态管理的过程为：

S44）、历史状态问答机制，根据语义分类器的输出确定是否继续话题，如是上下文省略问答的概率大于设定阈值1，则继续，非上下文省略问答的概率大于设定阈值2，则不继续；如果不继续，则返回问题列表，如果继续，则遍历当前状态和所有的历史状态，如果找到答案，则进行当前状态和历史状态的更新，否则返回依据当前主题确定的相关问题列表；

S45）、状态清空，当前状态清空有两种情况，一种是步骤S41的噪音统计超过设定阈值（可自行配置）时进行状态清空，另一种是本次用户问题与上次用户问题的时间间隔超过一定时间（可自行配置）时进行状态清空。

本发明中将知识图谱中三元组ABC（A的B是C，A定义为主题，B定义为属性）的主题、属性作为对话系统中上下文状态，以此可避免大量的人工标注成本。但是，当前在工程实践中，建立大而全的知识图谱往往需要耗费大量的人力物力成本，对于客户、用户而言得不偿失。即便针对某个具体行业，建立大而全的行业知识图谱也面临诸多困难，因此如何快速创建小而精的行业知识图谱，以满足用户对于常见问题的咨询需求，往往具有更大实际意义。通过数据爬取多个行业的数据源和给定的行业知识，使用传统机器学习方法（Jieba分词、TF-IDF等）来计算词权重并筛选出行业词；对于给定的结构化知识（如excel等），可将相关主题、属性添加到自定义分词中，并提高其权重，确保行业词可被正确分出；最后依据行业词对行业数据抽取三元组，并将其导入图形数据库（neo4j等）中，如此可快速构建行业知识图谱和上下文状态集合。

对于噪音干扰情况下的上下文省略问答无法响应的问题，本发明使用历史状态机制来进行对话状态管理，避免系统接收到多次噪音导致状态清空而无法响应的问题。本发明将最近且有效的问答状态放在链表中进行保存，当用户的上下文省略问题无法找到响应时，则依据此历史状态进行问答。

现实人与人对话往往在一个话题基础之上进行上下文省略问答，但是客户问题也可能是完全另外一个话题的上下文，此时便不应该进行上下文省略问答。如客户询问“个税怎么缴纳”，话题为“个税”，但是客户下一个问题可能为“契税缴纳需要的材料”，话题变更为“契税”，此时便不可使用上下文省略问答理解为“个税缴纳的材料”。由于该图谱数据库为受限的行业数据库，且由于其他话题（上例中的契税）的范围我们没法控制或者根本不在我们的数据库范围内，因此我们使用基于预训练模型来训练用于省略问答判断的分类器，可有效避免问答不一致的问题。

一个自然、流畅、高效的人机多轮交互系统，应该具有较小的数据维护量，可实现更加灵活的问答模式。面向行业的上下文省略问答方法，以行业知识图谱中的话题、属性作为对话状态，通过历史状态问答机制和上下文省略问答判断机制，可实现基于上下文省略问答的对话模式，有效避免噪音干扰，同时极大减少了数据维护量。

以上描述的仅是本发明的基本原理和优选实施例，本领域技术人员根据本发明做出的改进和替换，属于本发明的保护范围。

Claims

1.一种面向行业的上下文省略问答方法，其特征在于：首先依据行业数据中的结构化、非结构化知识，构建行业知识图谱，行业知识图谱中包括三元组信息，系统通过客户问题确定某个主题时，三元组中与客户问题相关的主题、属性均被认定为对话状态；基于行业知识图谱及确定的对话状态，系统在接收到客户问题之后进行对话状态管理，包括通过历史状态问答机制、上下文省略问答判断机制解决噪音干扰、非行业问答带来的系统状态清空、答非所问问题。

2.根据权利要求1所述的面向行业的上下文省略问答方法，其特征在于：构建行业知识图谱的具体步骤为：

3.根据权利要求1所述的面向行业的上下文省略问答方法，其特征在于：历史状态问答机制的步骤为：

4.根据权利要求1所述的面向行业的上下文省略问答方法，其特征在于：上下文省略问答判断机制基于语义分类模型，分类模型由训练数据对预训练模型进行微调得到，具体过程为：

S33）、在预训练模型的输出层后增加全连接层和softmax层，经softmax层之后输出是或不是上下文省略问答的概率。

5.根据权利要求4所述的面向行业的上下文省略问答方法，其特征在于：预训练模型的输入为训练数据中的样本，损失函数使用交叉熵，梯度下降使用Adam梯度下降，采用f1和准确率作为综合指标，通过验证集选择最佳语义分类模型。

6.根据权利要求1所述的面向行业的上下文省略问答方法，其特征在于：系统在接收到客户问题之后进行对话状态管理的过程为：

7.根据权利要求2所述的面向行业的上下文省略问答方法，其特征在于：所述图形数据库为neo4j。

8.根据权利要求4所述的面向行业的上下文省略问答方法，其特征在于：所述预训练模型为xlnet中文预训练模型。