CN109933661A

CN109933661A - 一种基于深度生成模型的半监督问答对归纳方法和系统

Info

Publication number: CN109933661A
Application number: CN201910266295.XA
Authority: CN
Inventors: 褚善博; 沈李斌
Original assignee: Shanghai Music Mdt Infotech Ltd
Current assignee: Shanghai Music Mdt Infotech Ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2019-06-25
Anticipated expiration: 2039-04-03
Also published as: CN109933661B

Abstract

本发明公开了一种基于深度生成模型的半监督问答对归纳方法和系统，该方法包括以下步骤：通过候选问答对生成方法从输入的对话数据中整理出候选问答对；通过采用基于深度生成模型的问答对评价方法对所述候选问答对打分；根据所述候选问答对打分结果利用问答对筛选方法得到高质量问答对；通过半监督学习方式对所述深度生成模型进行预先训练后再应用到所述问答对评价方法中。通过以上方式能够进行自动化的问答对归纳，极大减少了人工参与并获取高质量的问答对。

Description

一种基于深度生成模型的半监督问答对归纳方法和系统

技术领域

本发明涉及一种自然语言处理技术，特别涉及一种自动化问答对归纳方法和系统。

背景技术

聊天机器人(Chatbot)是近几年人工智能领域热门研究方向之一，得到了学术界和工业界的持续关注，基于信息检索的问答方法(Information Retrieval BasedQuestion Answering, IRQA)是聊天机器人最常用的问答方法之一，而问答对作为重要的数据形式又是IRQA中最常用的检索对象和回复来源，同时，问答对也是序列生成、基于深度学习的端到端问答等任务中的重要监督数据。

问答对需要通过归纳生成，最常用的问答对归纳源就是对话 (session) 数据。本发明将问答对归纳的任务定义为：在一个对话场景中（如，用户向客服进行咨询），最少包含两个角色，且一方为主要发问方，一方为主要回复方，从对话数据中整理并提取出高质量的问答对。一个高质量的问答对需要满足“有效”、“高信息量”且“重要”等几个条件，其中，有效是指问答对中问题和回复是一一对应关系，高信息量指问答对语句长度较长包含较多信息，重要是指问答对内容领域相关。问答对的质量优良，才能在基于信息检索的问答、序列生成、基于深度学习的端到端问答等任务中达到好的效果，然而，从对话数据中进行问答对归纳是一个非常有挑战性的任务：

1.对话数据中用户问题和相应回答存在一对多、多对一、多对多等情况，对齐难度大；

2.对话数据中存在很多低信息量的废话，如“好吧”、“嗯”等，使得归纳高质量的问答对难度加大；

3.归纳领域相关问答对时，问答对中同时还存在一些领域无关的不重要对话(例如，在电商场景中的闲聊对话)，使得归纳高质量问答对难度加大。

而现阶段已有的研究成果并不能完全解决问答对归纳带来的诸多挑战性的任务，尚存在诸多缺陷，总结如下：

1.人工整理主要依靠人工阅读对话数据，从中整理出高质量的问答对，这种做法需要极大的人工成本，耗时又耗力；

2.采用无监督的基于高频信息的方法来进行问答对的整理工作，这种方式无法处理低信息量，如“好吧”、“嗯嗯”等废话，也无法处理一些领域无关的对话，同时这种做法停留在字面层面，没有使用语义信息，无法处理语义等价但字面不同的情况，因此这种做法效果不好。

发明内容

鉴于上述，本发明提供了一种基于深度生成模型的半监督问答对归纳方法，改变了现有技术主要靠人工整理的局面，同时针对该领域任务的挑战性，可通过这种问答对归纳的自动化方法，省时省力的给出高质量的问答对。

为实现以上目的，本发明采用如下技术方案：

根据本发明的一个方面，提供了一种基于深度生成模型的半监督问答对归纳方法，包括以下步骤：

通过候选问答对生成方法从输入的对话数据中整理出候选问答对；

通过采用基于深度生成模型的问答对评价方法对所述候选问答对打分，其中，所述模型预先通过半监督学习方式的训练后再应用到所述问答对评价方法中；

根据所述候选问答对打分结果利用问答对筛选方法得到高质量问答对；

通过半监督学习方式对所述深度生成模型进行预先训练后再应用到所述问答对评价方法中。

其中，半监督学习(semi-supervised learning)是介于监督学习(supervisedlearning)和无监督学习(unsupervised learning)之间的一种机器学习方式，常用在标注数据不够充足的场景，通过半监督学习的方式，有效地利用标注数据和无标记数据，减少对人工标注数据的依赖和使用，同时为深度生成模型提供大量训练数据。

其中，深度生成模型是深度学习中最常用的模型之一，经过近些年的发展，深度学习技术在文本分类、序列标注、机器翻译等多种任务中均取得最好的效果，在问答对归纳任务中，问答对中的答案可以通过用户问题经过深度生成模型进行生成。本发明使用深度生成模型对候选的问答对进行打分，提高半监督学习过程中产生的训练数据质量，进而有效的归纳出对话数据中的高质量的问答对。深度生成模型结合半监督学习方式，可以相互促进，达到1 + 1>2的效果。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳方法，进一步地，所述候选问答对生成方法可基于启发式规则实现，执行步骤进一步包括：

通过统计对话数据中问题语句和相关回复语句句子的长度分布并分析，发现语句信息量和句子长度的关系，根据所述分析结果将所述对话数据中问题语句和回复语句按照长度过滤，筛选出满足长度条件的对话语句；

按照位置顺序，在所述对话语句中寻找每个回复语句前面位置最接近的N个问题语句，每个回复语句与符合条件的问题语句生成候选问答对；

输出生成的全部候选问答对。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳方法，进一步地，问答对评价过程是问答对归纳的自动化方法中的核心过程，它使用预先训练好的深度生成模型对候选问答对进行打分。所述问答对评价方法使用的深度生成模型可采用序列到序列（Sequence to Sequence）的深度生成模型，如，基于Transformer的Sequence toSequence模型，和基于LSTM和GRU等的 encoder、decoder的sequence to sequence模型，还可采用统计机器翻译中用到的生成模型。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳方法，进一步地，所述基于Transformer的Sequence to Sequence模型参照“Attention is all youneed”中使用方法，参数设置为：multi-head的数量设置为8，encoder和decoder中layer为6，进一步地，所述模型的输入端使用预训练的字向量拼接所述字的位置向量，进一步地，使用word2vec训练字向量，字向量维度设置为100。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳方法，进一步地，所述半监督学习方式训练的深度生成模型采用的可采用自学习(Self Learning)的半监督方法、基于EM（Expectation Maximization）算法的生成式半监督方法以及基于图的半监督学习等。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳方法，进一步地，所述采用自学习方式训练的基于Transformer的Sequence to Sequence模型训练步骤进一步包括：

通过问答对生成方法从训练用对话数据中获得训练数据，进一步地，从中采样，其中，采样部分数据标记为“未审阅有效问答对”，生成数据集De，剩余部分标记为“未审阅问答对”，生成数据集Dw；

通过人工审阅过程对所述“未审阅有效问答对”数据集De进行审核，得到高质量的问答对数据集Dc；

使用所述数据集Dc与所述数据集Dw作为训练数据，采用所述自学习方式对所述基于Transformer的Sequence to Sequence模型进行训练。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳方法，进一步地，所述问答对生成方法可通过基于启发式规则实现，执行步骤进一步包括：

将训练用对话数据中问题语句和回复语句按照长度过滤，筛选出满足长度条件的对话语句；

按照位置顺序，分别判断每个回复语句在所述对话语句中是否位于两个问题语句之间，或者是否紧接最后一个问题语句且位于所述对话语句的结束句处，若是，寻找对应回复语句前面位置最接近的第1个问题语句，所述回复语句与符合条件的问题语句生成1个候选问答对，并标记为所述“未审阅有效问答对”，汇总到所述数据集De中，若否，寻找对应回复语句前面位置最接近的N个问题语句，所述回复语句与符合条件的问题语句生成N个候选问答对，并标记为所述“未审阅问答对”，汇总到所述数据集Dw中。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳方法，进一步地，所述长度条件为句子长度值，根据不同的分析方式，通过实验得到最优值。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳方法，进一步地，所述N值根据不同的模型以及训练方式，通过实验得到最优值。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳方法，进一步地，所述基于Transformer的Sequence to Sequence模型采用自学习的半监督学习方式，训练算法步骤进一步包括：

a）将所述数据集Dc中问答对放入训练集Dt中；

b）使用训练集Dt中的回复语句作为输入，问题语句作为输出，训练所述Sequence toSequence模型；

c）使用训练好的Sequence to Sequence模型对数据集Dw中问答对打分，并将得分超过0.9的问答对加入到训练集Dt中，同时从Dw数据集中移除；

d）重复步骤b和c，直至所述模型性能达标或数据集Dw不再变化。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳方法，进一步地，所述问答对筛选方法基于启发式规则，筛选过程进一步包括：

预先设置分数阈值；

筛选出得分超过阈值的所述候选问答对；

通过DBSCAN算法处理所述得分超过阈值的候选问答对，得到高质量问答对。

根据本发明的另一个方面，提供了一种基于深度生成模型的半监督问答对归纳系统，包括以下模块：

输入模块：用于接收对话数据；

候选问答对生成模块：用于通过候选问答对生成模型从所述接收的对话数据中整理出候选问答对；

问答对评价模块：用于通过深度生成模型对所述候选问答对打分，其中，所述模型预先经过训练模块的训练；

问答对筛选模块：用于根据所述候选问答对打分结果通过问答对筛选得到高质量问答对

输出模块：用于根据所述问答对筛选模块的结果给出所述对话数据中的高质量问答对；

训练模块：用于通过半监督学习方式训练所述深度生成模型，并将训练好的所述深度生成模型应用到问答对评价模块中。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳系统，进一步地，所述候选问答对生成模块采用启发式规则，通过统计对话数据中问题语句和相关回复语句句子的长度分布并分析，发现语句信息量和句子长度的关系，确定一个长度阈值，将所述输入模块接收的对话数据中问题语句和回复语句按照长度过滤，筛选出满足长度条件的对话语句，按照位置顺序，在所述对话语句中寻找每个回复语句前面位置最接近的N个问题语句，将每个回复语句与符合条件的问题语句生成候选问答对，然后输出生成的全部候选问答对。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳系统，进一步地，所述问答对评价模块是问答对归纳的自动化方法中的核心过程，它使用预先训练好的深度生成模型对候选问答对进行打分。所述问答对评价模块使用的深度生成模型可采用序列到序列（Sequence to Sequence）的深度生成模型，如，基于Transformer的Sequence toSequence模型，和基于LSTM和GRU等的 encoder、decoder的sequence to sequence模型，还可采用统计机器翻译中用到的生成模型。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳系统，进一步地，所述基于Transformer的Sequence to Sequence模型参照“Attention is all youneed”中使用方法，参数设置为：multi-head的数量设置为8，encoder和decoder中layer为6，进一步地，所述模型的输入端使用预训练的字向量拼接所述字的位置向量，进一步地，使用word2vec训练字向量，字向量维度设置为100。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳系统，进一步地，所述半监督学习方式训练的深度生成模型可采用自学习(Self Learning)的半监督方法、基于EM（Expectation Maximization）算法的生成式半监督方法以及基于图的半监督学习等。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳系统，进一步地，所述采用自学习方式训练的基于Transformer的Sequence to Sequence模型的训练模块进一步包括以下子模块：

训练数据输入模块：用于接收训练用对话数据；

训练数据生成模块：用于通过问答对生成模型从所述训练用对话数据中获得训练数据，进一步从中采样，其中，采样部分数据标记为“未审阅有效问答对”，生成数据集De，剩余部分标记为“未审阅问答对”，生成数据集Dw；

人工审阅模块：用于通过人工审阅对所述“未审阅有效问答对”数据集De进行审核，得到高质量的问答对数据集Dc；

半监督训练模块：用于通过所述自学习方式对所述基于Transformer的Sequence toSequence模型进行训练，其中，使用所述数据集Dc与所述数据集Dw作为训练数据；

模型输出模块：用于将所述半监督训练模块训练好的模型应用于所述问答对评价模块中。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳系统，进一步地，所述训练数据生成模块采用的问答对生成模型使用启发式规则，进一步包括以下子模块：

初步筛选模块：用于将所述训练用对话数据中问题语句和回复语句按照长度过滤，筛选出满足长度条件的对话语句；

数据标记模块：用于从所述对话语句中获取问答对，其中，按照位置顺序，分别判断每个回复语句在所述对话语句中是否位于两个问题语句之间，或者是否紧接最后一个问题语句且位于所述对话语句的结束句处，若是，寻找对应回复语句前面位置最接近的第1个问题语句，所述回复语句与符合条件的问题语句生成1个候选问答对，并标记为所述“未审阅有效问答对”，汇总到所述数据集De中，若否，寻找对应回复语句前面位置最接近的N个问题语句，所述回复语句与符合条件的问题语句生成N个候选问答对，并标记为所述“未审阅问答对”，汇总到所述数据集Dw中。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳系统，进一步地，所述长度条件为句子长度值，根据不同的分析方式，通过实验得到最优值。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳系统，进一步地，所述N值根据不同的模型以及训练方式，通过实验得到最优值。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳系统，进一步地，所述训练模块采用自学习方式训练基于Transformer的Sequence to Sequence模型，模块执行流程包括：a）将所述数据集Dc中问答对放入训练集Dt中；b）使用训练集Dt中的回复语句作为输入，问题语句作为输出，训练所述模型；c）使用训练好的基于Transformer的Sequence to Sequence模型对所述数据集Dw中问答对打分，并将得分超过0.9的问答对加入到训练集Dt中，同时从Dw数据集中移除；d）重复b和c，直至所述模型性能达标或数据集Dw不再变化。

根据本发明实施例所述的基于深度生成模型的半监督问答对归纳系统，进一步地，所述问答对筛选模块采用启发式原则，预先设置分数阈值，初步筛选出得分超过阈值的所述候选问答对，再通过DBSCAN算法处理所述得分超过阈值的候选问答对，得到高质量问答对。

本发明还提供了一种电子设备，包括：存储器、处理器以及存储在所述存储器中可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下操作：

根据所述候选问答对打分结果利用问答对筛选方法得到高质量问答对。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以下操作：

本发明与最接近的现有技术相比有如下的增益效果：

采用本发明的从对话数据中进行问答对归纳的自动化方法，极大减少了人工参与和人工工作量，提升了问答对归纳效率，降低问答对归纳成本。

使用深度生成模型技术来建模问答对归纳，有效地利用了问答对数据作为监督信息；使用序列到序列模型对候选的问答对进行打分，进而有效的归纳出对话数据中高质量的问答对。

第一个在问答对归纳任务中引入半监督学习的方式，有效地利用标注数据和无标记数据，减少对人工标注数据的依赖和使用。和监督学习方法相比，半监督学习可以极大减少人工标注量；和无监督学习相比，半监督学习使用有限的人工标注数据但可以达到更好的效果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1是本发明提供的基于深度生成模型的半监督问答对归纳方法整体流程图；

图2是本发明提供的电商领域的客服问答对话内容示例图；

图3是本发明提供的自学习训练方式的基于Transform的Sequence to Sequence模型训练过程示例图；

图4是本发明提供的通过基于启发式原则的问答对生成方法获取训练数据步骤示例图；

图5是本发明提供的基于Transform的Sequence to Sequence模型的自学习训练算法流程图；

图6是本发明提供的基于深度生成模型的半监督问答对归纳系统的示例框图；

图7是本发明提供的训练模块所包含的子模块示例框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

图1是本发明提供的基于深度生成模型的半监督问答对归纳方法的整体流程图，该方法包括以下步骤：S10，接收对话数据，并通过候选问答对生成方法从输入的对话数据中整理出候选问答对；S20，通过采用基于深度生成模型的问答对评价方法对所述候选问答对打分；S30，根据所述候选问答对打分结果利用问答对筛选方法得到高质量问答对；S40，所述基于深度生成模型模型预先通过半监督学习方式的训练后再应用到所述问答对评价方法中。

在候选问答对生成的步骤S10中，问答对生成方法在候选问答对生成过程以及问答对评价模型训练用数据获取过程中都会用到，所述问答对生成方法使用启发式规则从接收的对话数据中生成候选问答对。进一步地，通过统计对话数据中问题语句和相关回复语句的句子长度分布并分析，发现用户输入的高信息量且重要的句子长度99.9%集中在为5到60，即，相关回复语句高信息量且重要的句子长度99.9%大于5。因此，首先对对话数据中问题语句和相关回复语句按照长度进行过滤，筛选出长度满足条件的对话语句，这一步可将大部分没有信息量的语句过滤掉。进一步地，按照位置顺序，在所述对话语句中寻找每个回复语句前面位置最接近的N个问题语句，每个回复语句与符合条件的问题语句生成候选问答对，通过实验，发现N=3的时候效果问答对归纳的自动化方法效果最好。

具体来说，以“电商领域的客服对话语句”为例，对话内容见图2所示，通过候选问答对生成过程，首先，对话数据中用户输入如“好的”、“谢谢”、“嗯”和“好吧”，回复“嗯嗯～”等无信息量句子在第一步“基于句子长度过滤”步骤中被滤掉，经过后续步骤，可以得到以下9对候选问答对，其中Q为用户输入语句，A为客服回复语句：

“Q：在吗，你是小哥哥还是小姐姐啊 A：^_^亲,您好~欢迎来到本店～，我是小妹妹呢～”；

“Q：在吗，你是小哥哥还是小姐姐啊A: 亲亲建议您拿M的噢”；

“Q: https://item.taobao.com/item.htmlid=xxx我160 105, m号可以吗, A: 亲亲建议您拿M的噢”；

“Q: 麻烦今天尽快发货， A: 亲，我们都是按订单顺序发货的呢，仓库都在加班加点的，我在帮您催催哈～”；

“Q：在吗，你是小哥哥还是小姐姐啊 A：亲，我们都是按订单顺序发货的呢，仓库都在加班加点的，我在帮您催催哈～”；

“Q: https://item.taobao.com/item.htmlid=xxx我160 105, m号可以吗, A: 亲，我们都是按订单顺序发货的呢，仓库都在加班加点的，我在帮您催催哈～”；

“Q: 麻烦今天尽快发货， A: 亲，已经帮您催好了，放心吧～”；

“Q：在吗，你是小哥哥还是小姐姐啊 A：亲，已经帮您催好了，放心吧～”；

“Q: https://item.taobao.com/item.htmlid=xxx我160 105, m号可以吗, A: 亲，已经帮您催好了，放心吧～”。

在问答对评价的步骤S20中，所述问答对评价方法使用的深度生成模型可采用序列到序列（Sequence to Sequence）的深度生成模型，如，基于Transformer的Sequence toSequence模型，和基于LSTM和GRU等的 encoder、decoder的sequence to sequence模型，还可采用统计机器翻译中用到的生成模型。其中，序列到序列模型是最常用的深度生成模型，已经被广泛应用在机器翻译、命名实体识别、问句生成等任务中，并取得最好效果，也非常适合问答对的形式，因此本专利以序列到序列模型为例进行问答对评价模块的进一步说明，进一步地，谷歌2017年在“Attention is all you need”中提出的基于transformer的sequence to sequence模型，相比其他几种模型有着更好的生成效果。同时，和基于频率的无监督学习方法相比，本发明所使用的基于序列到序列模型的做法，模型有更好的泛化性，可以比较好的建模和使用语义信息，进而解决语义等价但字面不同的情况。

进一步地，所述基于Transformer的Sequence to Sequence模型参照“Attentionis all you need”中使用方法，参数设置为：multi-head的数量设置为8，encoder和decoder中layer为6，进一步地，所述模型的输入端使用预训练的字向量拼接所述字的位置向量，进一步地，使用word2vec训练字向量，字向量维度设置为100。

具体来说，仍以“电商领域的客服对话语句”为例，以下为使用图2所示对话数据经过候选问答对评价过程的结果：对于候选问答对“Q: https://item.taobao.com/item.htmlid=xxx我160 105, m号可以吗, A: 亲亲建议您拿M的噢”，经过基于Transformer的Sequence to Sequence模型评价，可以得到0.953的分数。

在问答对筛选的步骤S30中，使用启发式规则根据问答对评价过程得到的问答对的打分结果进行筛选，得到满足条件的问答对，其中，需要预先设置分数阈值，经过实验发现阈值设置为0.9的时候，筛选出的候选问答对质量和数量可以达到一个比较好的效果，进一步地，对前面一步筛选出的问答对利用DBSCAN算法进行聚类，滤掉离群点以及包含较少问答对的簇，通过滤掉离群点以及包含较少问答对的簇，可以滤掉频率较低且质量不高的问答对，最终得到满足条件的高质量问答对。

具体仍以“电商领域的客服对话语句”为例，候选问答对“Q: https://item.taobao.com/item.htmlid=xxx我160 105, m号可以吗, A: 亲亲建议您拿M的噢”得到0.953的分数，在通过问答对筛选的过程中会被判断为高质量问答对，通过问答对归纳的自动化方法被成功获取。

在本实施例中，问答对评价步骤S20中使用的基于Transformer的Sequence toSequence模型需要预先通过半监督学习方式的模型训练，通过模型训练步骤S40训练好之后才能作为问答对评价模型使用，其中，半监督学习方式可采用自学习(Self Learning)的半监督方法、基于EM（Expectation Maximization）算法的生成式半监督方法以及基于图的半监督学习等，进一步地，三种方法的效果都能满足实用要求，以自学习方法最常用，因此选用自学习方式进行训练。

进一步地，如图3所示，采用自学习方式训练的基于Transformer的Sequence toSequence模型训练过程包括：

S410，接收训练用对话数据，并通过基于启发式规则的问答对生成方法从训练用对话数据中获取训练数据，进一步地，从中采样，其中，采样部分数据标记为“未审阅有效问答对”，生成数据集De，剩余部分标记为“未审阅问答对”，生成数据集Dw；

S420，通过人工审阅过程对所述“未审阅有效问答对”数据集De进行审核，得到高质量的问答对数据集Dc；

S430，使用所述数据集Dc与所述数据集Dw作为训练数据，采用所述自学习方式对所述基于Transformer的Sequence to Sequence模型进行训练。

进一步地，在获取训练数据步骤S410中，如图4所示，首先，采用同候选问答对生成过程相同的方法，将训练用对话数据中问题语句和回复语句按照长度过滤，筛选出满足语句长度大于5的对话语句。然后按照位置顺序，分别判断每个回复语句在所述对话语句中是否位于两个问题语句之间，或者是否紧接最后一个问题语句且位于所述对话语句的结束句处，若是，寻找对应回复语句前面位置最接近的第1个问题语句，所述回复语句与符合条件的问题语句生成1个候选问答对，并标记为所述“未审阅有效问答对”，汇总到所述数据集De中，若否，寻找对应回复语句前面位置最接近的3个问题语句，所述回复语句与符合条件的问题语句生成3个候选问答对，并标记为所述“未审阅问答对”，汇总到所述数据集Dw中。

具体来说，仍以“电商领域的客服对话语句”为例，对话内容见图2所示，通过训练数据过程，可以得到以下8对候选问答对，其中Q为用户输入语句，A为客服回复语句。

其中，被标记为“未审阅有效问答对”存储在数据集De中的问答对包括：

“Q: https://item.taobao.com/item.htmlid=xxx我160 105, m号可以吗，A: 亲亲建议您拿M的噢”；

其中，被标记为“未审阅问答对”存储在数据集Dw中的问答对包括：

“Q: Q：在吗，你是小哥哥还是小姐姐啊 A: 亲，已经帮您催好了，放心吧～”；

“Q: https://item.taobao.com/item.htmlid=xxx我160 105, m号可以吗， A: 亲，已经帮您催好了，放心吧～”；

“Q: 麻烦今天尽快发货， A: 亲，已经帮您催好了，放心吧～”。

进一步地，在人工审阅步骤S220中，该过程通过人工介入对候选问答对生成过程产生的“未审阅有效问答对”进行人工审阅，并选出高质量的问答对。具体来说，仍以“电商领域的客服对话语句”为例，对训练数据获取过程的结果中数据集De中的问答对进行人工审核，其中，问答对“Q：在吗，你是小哥哥还是小姐姐啊 A：^_^亲,您好~欢迎来到本店～，我是小妹妹呢～”虽然具有有效和高信息量的特征，但是领域无关，属于闲聊型问答对，因此该问答对被标注为“错误”，进一步地，另外一个问答对，“Q: https://item.taobao.com/item.htmlid=xxx我160 105, m号可以吗, A: 亲亲建议您拿M的噢”被标注为“正确”。

进一步地，被标注为正确的高质量问答对会进入数据集Dc中，作为监督数据输入给自学习训练方式的基于Transformer的Sequence to Sequence模型进行模型训练。

具体来说，仍以“电商领域的客服对话语句”为例，其中，被标记为已审阅有效问答对存储在数据集Dc中的问答对包括：

进一步地，所述人工审阅的方法效率非常高，通过问答对生成方法获取的“未审阅有效问答对”绝大部分质量都很高，都会被标记为“正确”，50万条高质量问答对可以很快得到，并且不需要人工文字输入，只需要点选“正确”和“错误”就可以归类，方便且效率高。

进一步地，采用自学习方式对所述基于Transformer的Sequence to Sequence模型进行训练，如图5所示，训练算法步骤S430包括：

S430-a，将所述数据集Dc中问答对放入训练集Dt中；

S430-b，使用训练集Dt中的回复语句作为输入，问题语句作为输出，训练所述基于Transformer的Sequence to Sequence模型；

S430-c，使用训练好的基于Transformer的Sequence to Sequence模型对数据集Dw中问答对打分，并将得分超过0.9的问答对加入到训练集Dt中，同时从Dw数据集中移除；

S430-d，重复步骤S430-b和S430-c，直至所述模型性能达标或数据集Dw不再变化，并输出训练好的基于Transformer的Sequence to Sequence模型。

以大数据量的对话数据对所述模型进行训练，通过人工审阅过程得到50万高质量问答对，结合伴随生成的的1000万未审阅问答对，根据自学习的半监督学习方式对基于transformer的sequence to sequence 模型进行训练，得到在测试集上最好效果的模型。

进一步地，和全监督学习方法相比，半监督学习可以极大减少人工标注量，节省成本的同时提高了效率。使用基于transformer的sequence to sequence 模型的任务(如，机器翻译)一般需要300万～500万标注数据才能达到较好的效果，而本发明所述半监督的训练方法使用50万标注数据（高质量问答对）结合1000万未审阅问答对，就可以训练出效果类似的模型。和基于高频信息等无监督学习做法相比，半监督学习使用有限的人工标注数据，却可以达到几倍的效果。

模型使用人工审阅后的高质量问答对作为重要训练数据，这部分高质量问答对作为重要监督信息指导基于Transformer的Sequence to Sequence模型的训练，因此由这部分数据训练出所述模型对高质量问答对会有更高的打分，从而使得高质量问答对被归纳出来。

实施例二

图6是本发明基于深度生成模型的半监督问答对归纳系统的示例框图，该系统包括：

输入模块10：用于接收对话数据；

候选问答对生成模块20：用于通过候选问答对生成模型从所述接收的对话数据中整理出候选问答对；

问答对评价模块30：用于通过深度生成模型对所述候选问答对打分，其中，所述模型预先经过训练模块的训练；

问答对筛选模块40：用于根据所述候选问答对打分结果通过问答对筛选得到高质量问答对

输出模块50：用于根据所述问答对筛选模块的结果给出所述对话数据中的高质量问答对；

训练模块60：用于通过半监督学习方式训练所述深度生成模型，并将训练好的所述深度生成模型应用到问答对评价模块中。

进一步地，接收所述输入模块10输入的对话数据后，所述候选问答对生成模块20使用启发式规则从接收的对话数据中生成候选问答对。其中，首先将对话数据中问题语句和相关回复语句按照长度进行过滤，筛选出长度大于5的对话语句，这一步可将大部分没有信息量的语句过滤掉。进一步地，按照位置顺序，在所述对话语句中寻找每个回复语句前面位置最接近的3个问题语句，每个回复语句与符合条件的问题语句生成候选问答对。

在所述问答对评价模块30中，使用基于transformer的sequence to sequence模型对所述候选问答对生成模块的结果进行评价打分，分值为0-1，1为最高值。其中，所述基于Transformer的Sequence to Sequence模型参照“Attention is all you need”中使用方法，参数设置为：multi-head的数量设置为8，encoder和decoder中layer为6，进一步地，所述模型的输入端使用预训练的字向量拼接所述字的位置向量，进一步地，使用word2vec训练字向量，字向量维度设置为100。

进一步地，所述基于transformer的sequence to sequence模型需要预先经过半监督学习方式对所述模型进行训练，训练好之后才能作为问答对评价模块使用。

在所述问答对筛选模块40中，使用启发式规则根据问答对评价过程得到的问答对的打分结果进行筛选，得到满足条件的问答对，其中，需要预先将分数阈值设置为9，进一步地，对前面一步筛选出的问答对利用DBSCAN算法进行聚类，滤掉离群点以及包含较少问答对的簇，通过滤掉离群点以及包含较少问答对的簇，可以滤掉频率较低且质量不高的问答对，最终得到满足条件的高质量问答对，并通过所述输出模块50输出高质量的问答对。

图7中，在所述训练模块60中，通过自学习方式对基于Transformer的Sequence toSequence模型进行训练，进一步包括以下模块：

训练数据输入模块610：用于接收训练用对话数据；

训练数据生成模块620：用于通过问答对生成模型从所述训练用对话数据中获得训练数据，进一步从中采样，其中，采样部分数据标记为“未审阅有效问答对”，生成数据集De，剩余部分标记为“未审阅问答对”，生成数据集Dw；

人工审阅模块630：用于通过人工审阅对所述“未审阅有效问答对”数据集De进行审核，得到高质量的问答对数据集Dc；

半监督训练模块640：用于通过所述自学习方式对所述基于Transformer的Sequenceto Sequence模型进行训练，其中，使用所述数据集Dc与所述数据集Dw作为训练数据。

模型输出模块650：用于将所述半监督训练模块训练好的模型应用于所述问答对评价模块中。

其中，在所述训练数据生成模块620中，采用的问答对生成模型使用启发式规则，进一步包括以下子模块：

初步筛选模块：用于将所述训练用对话数据中问题语句和回复语句按照长度过滤，采用同候选问答对生成模块相同的方法，筛选出满足长度大于5的对话语句；

数据标记模块：用于从所述对话语句中获取问答对，其中，按照位置顺序，分别判断每个回复语句在所述对话语句中是否位于两个问题语句之间，或者是否紧接最后一个问题语句且位于所述对话语句的结束句处，若是，寻找对应回复语句前面位置最接近的第1个问题语句，所述回复语句与符合条件的问题语句生成1个候选问答对，并标记为所述“未审阅有效问答对”，汇总到所述数据集De中，若否，寻找对应回复语句前面位置最接近的3个问题语句，所述回复语句与符合条件的问题语句生成3个候选问答对，并标记为所述“未审阅问答对”，汇总到所述数据集Dw中；

在所述人工审阅模块630中，该模块通过人工介入对候选问答对生成过程产生的“未审阅有效问答对”进行人工审阅，并选出高质量的问答对。进一步地，被标注为正确的高质量问答对会进入数据集Dc中，作为监督数据输入给自学习训练方式的基于Transformer的Sequence to Sequence模型进行模型训练。

在所述半监督训练模块640中，训练算法进一步包括：

a）将所述数据集Dc中问答对放入训练集Dt中；

b）使用训练集Dt中的回复语句作为输入，问题语句作为输出，训练所述基于Transformer的Sequence to Sequence模型；

d）重复步骤S230-b和S230-c，直至所述模型性能达标或数据集Dw不再变化。

通过所述模型输出模块650将所述半监督训练模块640训练好的基于Transformer的Sequence to Sequence模型输送至所述问答对评价模块30中进行应用。

以上结合具体实施例描述了本发明的基本原理，但是需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和设备的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算机装置上运行一个程序或者一组程序来实现。所述计算机装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来开发出的任何存储介质。

还需要指出的事，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是不需要一定按照时间顺序执行。这些步骤可以并行或彼此独立地执行。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种问答对归纳方法，其特征在于，问答对归纳的自动化方法包括以下步骤：

通过采用基于深度生成模型的问答对评价方法对所述候选问答对打分；

2.一种问答对归纳方法，其特征在于，问答对归纳的自动化方法包括以下步骤：

3.根据权利要求1所述的问答对归纳方法，其特征在于，所述问答对评价方法使用的半监督学习方式训练的深度生成模型可采用序列到序列（Sequence to Sequence）的深度生成模型，如，基于Transformer的Sequence to Sequence模型，和基于LSTM和GRU等的encoder、decoder的sequence to sequence模型，还可采用统计机器翻译中用到的生成模型。

4.根据权利要求3所述的问答对归纳方法，其特征在于，所述基于Transformer的Sequence to Sequence模型参数设置为：multi-head的数量设置为8，encoder和decoder中layer为6，进一步地，所述模型的输入端使用预训练的字向量拼接所述字的位置向量，进一步地，使用word2vec训练字向量，字向量维度设置为100。

5.根据权利要求3所述的问答对归纳方法，其特征在于，所述半监督学习方式训练的深度生成模型采用的可采用自学习(Self Learning)的半监督方法、基于EM（ExpectationMaximization）算法的生成式半监督方法以及基于图的半监督学习等。

6.根据权利要求5所述的问答对归纳方法，其特征在于，所述采用自学习方式训练的基于Transformer的Sequence to Sequence模型训练步骤进一步包括：

通过问答对生成方法从训练用对话数据中获得训练数据，进一步，从中采样，其中，采样部分数据标记为“未审阅有效问答对”，生成数据集De，剩余部分标记为“未审阅问答对”，生成数据集Dw；

7.根据权利要求6所述的问答对归纳方法，其特征在于，所述问答对生成方法可通过基于启发式规则实现，执行步骤进一步包括：

按照位置顺序，分别判断每个回复语句在所述对话语句中是否位于两个问题语句之间，或者是否紧接最后一个问题语句且位于所述对话语句的结束句处，若是，寻找对应回复语句前面位置最接近的第1个问题语句，所述回复语句与符合条件的问题语句生成1个候选问答对，并标记为所述“未审阅有效问答对”，汇总到所述数据集De中，若否，寻找对应回复语句前面位置最接近N个问题语句，所述回复语句与符合条件的问题语句生成N个候选问答对，并标记为所述“未审阅问答对”，汇总到所述数据集Dw中。

8.根据权利要求2或6所述的问答对归纳方法，其特征在于，所述长度条件为句子长度大于5。

9.根据权利要求2或6所述的问答对归纳方法，其特征在于，所述N值为3。

10.根据权利要求6所述的问答对归纳方法，其特征在于，所述采用自学习方式训练的基于Transformer的Sequence to Sequence模型训练算法步骤进一步包括：

a）将所述数据集Dc中问答对放入训练集Dt中；

11.根据权利要求1所述的问答对归纳方法，其特征在于，所述问答对筛选方法基于启发式规则，筛选过程进一步包括：

预先设置分数阈值，进一步地，阈值设置为0.9；

筛选出得分超过阈值的所述候选问答对；

12.一种问答对归纳系统，其特征在于，问答对归纳的自动化系统包括：

输入模块：用于接收对话数据；

输出模块：用于根据所述问答对筛选模块的结果给出所述对话数据中的高质量问答对。

13.根据权利要求12所述的问答对归纳系统，其特征在于，所述候选问答对生成模块采用启发式规则，将所述输入模块接收的对话数据中问题语句和回复语句按照长度过滤，筛选出满足长度条件的对话语句，按照位置顺序，在所述对话语句中寻找每个回复语句前面位置最接近的N个问题语句，将每个回复语句与符合条件的问题语句生成候选问答对，然后输出生成的全部候选问答对。

14.根据权利要求12所述的问答对归纳系统，其特征在于，所述问答对评价模块使用的半监督学习方式训练的深度生成模型可采用序列到序列（Sequence to Sequence）的深度生成模型，如，基于Transformer的Sequence to Sequence模型，和基于LSTM和GRU等的encoder、decoder的sequence to sequence模型，还可采用统计机器翻译中用到的生成模型。

15.根据权利要求14所述的问答对归纳方法，其特征在于，所述基于Transformer的Sequence to Sequence模型参数设置为：multi-head的数量设置为8，encoder和decoder中layer为6，进一步地，所述模型的输入端使用预训练的字向量拼接所述字的位置向量，进一步地，使用word2vec训练字向量，字向量维度设置为100。

16.根据权利要求14所述的问答对归纳方法，其特征在于，所述半监督学习方式训练的深度生成模型采用的可采用自学习(Self Learning)的半监督方法、基于EM（ExpectationMaximization）算法的生成式半监督方法以及基于图的半监督学习等。

17.根据权利要求13所述的问答对归纳系统，其特征在于，所述采用自学习方式训练的基于Transformer的Sequence to Sequence模型的训练模块进一步包括以下子模块：

训练数据输入模块：用于接收训练用对话数据；

训练数据生成模块:用于通过问答对生成模型从所述训练用对话数据中获得训练数据，进一步从中采样，其中，采样部分数据标记为“未审阅有效问答对”，生成数据集De，剩余部分标记为“未审阅问答对”，生成数据集Dw；

半监督训练模块：用于通过所述自学习方式对所述基于Transformer的Sequence toSequence模型进行训练，其中，使用所述数据集Dc与所述数据集Dw作为训练数据。

18.根据权利要求17所述的问答对归纳系统，其特征在于，所述训练数据生成模块采用的问答对生成模型使用启发式规则，进一步包括以下子模块：

数据标记模块：用于从所述对话语句中获取问答对，其中，按照位置顺序，分别判断每个回复语句在所述对话语句中是否位于两个问题语句之间，或者是否紧接最后一个问题语句且位于所述对话语句的结束句处，若是，寻找对应回复语句前面位置最接近的第1个问题语句，所述回复语句与符合条件的问题语句生成1个候选问答对，并标记为所述“未审阅有效问答对”，汇总到所述数据集De中，若否，寻找对应回复语句前面位置最接近N个问题语句，所述回复语句与符合条件的问题语句生成N个候选问答对，并标记为所述“未审阅问答对”，汇总到所述数据集Dw中。

19.根据权利要求13或18所述的问答对归纳系统，其特征在于，所述长度条件为句子长度大于5。

20.根据权利要求12或18所述的问答对归纳系统，其特征在于，所述N值为3。

21.根据权利要求17所述的问答对归纳系统，其特征在于，所述训练模块采用自学习方式训练基于Transformer的Sequence to Sequence模型，模块执行流程包括：a）将所述数据集Dc中问答对放入训练集Dt中；b）使用训练集Dt中的回复语句作为输入，问题语句作为输出，训练所述模型；c）使用训练好的基于Transformer的Sequence to Sequence模型对所述数据集Dw中问答对打分，并将得分超过0.9的问答对加入到训练集Dt中，同时从Dw数据集中移除；d）重复b和c，直至所述模型性能达标或数据集Dw不再变化。

22.根据权利要求12所述的问答对归纳系统，其特征在于，所述问答对筛选模块采用启发式原则，预先设置分数阈值，进一步地，阈值设置为0.9，初步筛选出得分超过阈值的所述候选问答对，再通过DBSCAN算法处理所述得分超过阈值的候选问答对，得到高质量问答对。

23.一种电子设备，包括：存储器、处理器以及存储在所述存储器中可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求 1 至11 中所述的方法。

24.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求 1 至 11 中所述的方法。