CN111488448A

CN111488448A - 一种机器阅读标注数据的生成方法和装置

Info

Publication number: CN111488448A
Application number: CN202010459357.1A
Authority: CN
Inventors: 彭爽; 崔恒斌
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-08-04
Anticipated expiration: 2040-05-27
Also published as: CN111488448B

Abstract

本发明实施例提供了一种机器阅读标注数据的生成方法，该方法包括：获取第一人工对话日志，其中包含多轮问答对话语句；根据预先统计得到的高频答案语句集合，从多轮问答对话语句中确定出第一高频答案语句；对于多轮问答对话语句中位于第一高频答案语句之前的若干问题语句中的任意问题语句，根据第一高频答案语句与该任意问题语句之间的语义相似度，以及根据该两者之间的文本间隔距离，确定对应的总相关度；从若干问题语句中提取与第一高频答案的总相关度最高的问题语句，作为第一问题语句；根据第一人工对话日志、第一高频答案语句和第一问题语句，生成带有标注的机器阅读数据。

Description

一种机器阅读标注数据的生成方法和装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及一种机器阅读标注数据的生成方法和装置。

背景技术

机器阅读理解旨在教会机器像人类一样地理解文本，经过训练的机器阅读模型像人类读者一样，可以扫描文本并从文本中提取含义。机器阅读理解任务从可以回答经过一定编辑的文本中的简单问题,发展到从获取的大量数据中回答用户的实际问题。

而训练机器阅读模型的过程，往往需要大量的训练样本，包括带有标注数据的训练样本，这些标注数据的产生通常需要基于对训练样本的文本内容的理解。一般来讲，这些标注数据可以通过人工参与来获得，但是大量的训练样本需要的人工工作量也很大，这样就需要一种自动生成训练样本的标注数据的方法。

发明内容

本说明书一个或多个实施例描述了一种机器阅读标注数据的生成方法和装置，可以根据人工问答日志，结合对其中的问题语句和答案语句的语义相似度和文本距离的衡量，提取相关度最高的问题对，从而为人工问答日志自动生成标示，用于训练机器阅读模型，提高其文本阅读理解能力。

根据第一方面，提供一种机器阅读标注数据的生成方法，所述方法包括：获取第一人工对话日志，其中包含多轮问答对话语句；根据预先统计得到的高频答案语句集合，从所述多轮问答对话语句中确定出第一高频答案语句；对于所述多轮问答对话语句中位于所述第一高频答案语句之前的若干问题语句中的任意问题语句，根据所述第一高频答案语句与该任意问题语句之间的语义相似度，确定第一相关度；根据所述第一高频答案语句与该任意问题语句之间的文本间隔距离，确定第二相关度；根据所述第一相关度、所述第二相关度，确定对应的总相关度；从所述若干问题语句中提取与所述第一高频答案的总相关度最高的问题语句，作为与所述第一高频答案对应的第一问题语句；根据所述第一人工对话日志、所述第一高频答案语句和所述第一问题语句，生成带有标注的机器阅读数据。

在一个实施例中，所述高频答案语句集合通过以下统计方法得到,该统计方法包括:获取人工对话日志集,其中包括多个人工对话日志;确定所述多个人工对话日志中包含的各个答案语句在所述人工对话日志集中的出现频次，并根据所述出现频次从所述各个答案语句中挑选多个高频答案语句;以所述多个高频答案语句构成所述高频答案语句集合。

进一步，在一个例子中,所述统计方法还包括:在确定所述多个人工对话日志中包含的各个答案语句在所述人工对话日志集中出现的频次之前，对所述多个人工对话日志中包含的各个答案语句进行文本归一化，去除其中的问候语和特殊符号。

在另一个例子中，确定所述多个人工对话日志中包含的各个答案语句在所述人工对话日志集中的出现频次，包括:对所述各个答案语句进行聚类操作，得到多个答案类簇；对于每个答案类簇，将该答案类簇中每个答案语句的出现频次确定为，该答案类簇中所有答案语句在所述人工对话日志集中出现的原始频次之和。

在一种具体的实施方式中,所述聚类操作基于HDBSCAN算法。

根据一种实施方式,所述根据所述第一高频答案语句与该任意问题语句之间的语义相似度，确定第一相关度，包括：基于预先训练的BERT语言模型确定所述第一高频答案语句与该任意问题语句之间的语义相似度。

在一个实施例中,所述BERT语言模型通过以下方式训练得到：

基于公开问答语料，构造正样本和负样本，其中正样本包括问答语料中匹配的问题-答案对；负样本包括，将正样本中的问题或答案随机替换之后的文本对；将所述正样本和负样本，分别输入初步训练的BERT语言模型，得到正样本对应的第一语义相似度，和负样本对应的第二语义相似度；以第一语义相似度增大、而第二语义相似度减小为目标，微调所述中文语言模型BERT的模型参数。

在一种实施方式中，所述文本间隔距离根据其衡量的两个语句分别所处的对话轮次之间的间隔轮次确定。

在另一种实施方式中，所述多轮问答对话语句包括不同的角色之间的多轮问答对话语句,所述角色包括人工客服人员和用户。

在一种具体的实施方式中,所述根据所述第一高频答案语句与该任意问题语句之间的文本间隔距离，确定第二相关度，包括：对于所述该任意问题语句，确定其所处对话轮次与所述第一高频答案语句所处的对话轮次之间的间隔轮次，作为第一间隔轮次值；确定所述第一人工对话日志中,距离所述第一高频答案最远的在前问题语句与所述第一高频答案之间的间隔轮次，作为第二间隔轮次值；根据第二间隔轮次值构建类菲波拉切数列,所述类菲波拉切数列的首项和次项取设定值,从其第三项起，每一项都等于前两项之和,所述类菲波拉切数列具有的项的总数为第二间隔轮次值;根据所述类菲波拉切数列中第i个项至最后一项的和值与所述类菲波拉切数列的所有项的和值之间的比值，确定第二相关度，i为第一间隔轮次值。

在一种实施方式中，所述根据所述第一相关度、所述第二相关度，确定对应的总相关度，包括：基于预先为所述第一相关度、所述第一相关度分配的权重，对其加权求和。

在另一种实施方式中，所述生成带有标注的机器阅读数据，包括：以所述第一问题语句作为标注问题,以所述第一高频答案语句作为标注答案,以标注问题、第一人工对话日志、标注答案构成一条带有答案标注的机器阅读数据。

在一种具体的实施方式中,生成所述带有标注的机器阅读数据，还包括：通过将所述一条带有答案标注的机器阅读数据中的第一高频答案语句，替换为所述高频答案集合中与所述第一高频答案语句无关的其他高频答案语句，生成一条带有无答案标注的机器阅读数据。

在一个例子中,所述带有答案标注的机器阅读数据和带有无答案标注的机器阅读数据的数量比例为预设比例。

根据第二方面，提供一种机器阅读标注数据的生成装置，所述装置包括：

第一对话获取单元，配置为获取第一人工对话日志，其中包含多轮问答对话语句；

答案提取单元，配置为根据预先统计得到的高频答案语句集合，从所述多轮问答对话语句中确定出第一高频答案语句；

相关计算单元，配置为对于所述多轮问答对话语句中位于所述第一高频答案语句之前的若干问题语句中的任意问题语句，根据所述第一高频答案语句与该任意问题语句之间的语义相似度，确定第一相关度；根据所述第一高频答案语句与该任意问题语句之间的文本间隔距离，确定第二相关度；根据所述第一相关度、所述第二相关度，确定对应的总相关度；

问题提取单元，配置从所述若干问题语句中提取与所述第一高频答案的总相关度最高的问题语句，作为与所述第一高频答案对应的第一问题语句；

标注机器阅读数据生成单元，配置根据所述第一人工对话日志、所述第一高频答案语句和所述第一问题语句，生成带有标注的机器阅读数据。

根据第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

根据本发明实施例提供的方法和装置，可以更准确的从人工对答数据中提取问题及其答案,并自动生成大量带有标注的机器阅读数据，用于训练机器阅读模型，提高模型的文本理解能力。

附图说明

为了更清楚说明本发明实施例的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出一个实施例的一种机器阅读标注数据的生成方法的流程图；

图3示出一个实施例的获得高频答案语句集合的统计方法的流程图；

图4示出一个实施例的中文语言模型BERT训练方法的流程图；

图5示出一个实施例的根据答案语句与问题语句之间的文本间隔距离确定其第二相关度的方法的流程图；

图6示出一个实施例的一种机器阅读标注数据的生成装置的结构性框图；

图7示出一个实施例的高频答案文本归一化和聚类的效果示意图。

具体实施方式

下面将结合附图，对本发明书提供的方案进行描述。

如前所述，训练机器阅读模型的过程，往往需要大量的训练样本，尤其是带有标注数据的训练样本，对训练样本标注的数据需要基于对训练样本的文本内容的理解，通常需要人工参与，因此大量的训练样本需要的人工参与工作量也很大。因此，需要一种自动生成训练样本的标注数据的方法。

现有的自动生成标注数据的方法并不完善。为此，在进一步的研究中，发明人发现，在问题语句和答案语句同时存在于数据文本中的情况下，可以综合考虑问题语句和答案语句之间的语义相似度以及文本距离信息，来确定两者之间的关联性，据此得到问题-答案对作为标注数据。特别是，文本距离信息对于问题-答案之间的关联性具有重要意义。因此，发明人在本说明书中的实施例中，提出一种机器阅读标注数据的生成方法，结合对人工问答日志的问题语句和答案语句的语义相似度和文本距离的衡量，提取相关度最高的问题对，从而为人工问答日志自动生成标注数据。采用上述方法生成的标注数据中具有问题和答案的关联具有更高的准确度，以该方法大规模生成人工问答日志的标注数据，可用于训练机器阅读模型来提高其阅读理解能力。

下面结合实施例进行进一步描述。

图1为本说明书披露的一个实施例的实施场景示意图。在该实施场景中，示意性示出了一个人工问答日志X，该人工问答日志包含两个角色用户和客服人员之间的多轮对话，其中，用户在各轮次中表达的语句分别为问题语句1-8，客服人员在各轮次中表达的语句分别为答案语句1-8。

首先，在人工问答日志X的多轮对话中，查找是否存在高频答案。该场景中,高频答案是预先获取的，以预先统计获取的若干高频答案语句构成的高频答案语句集合形式存在。因此，查找高频答案实际就是，在人工问答日志X的多轮对话中,查找是否存在该高频答案语句集合中所含有的答案语句，如果发现，则以所发现的该条答案语句作为人工问答日志X中的高频答案语句。例如，从图1所示中可以看到，假定高频答案语句集合中包括人工问答日志X中的答案语句7，因此答案语句7被确认为人工问答日志X中的高频答案语句。

接着，对于该高频答案语句之前各用户问题轮次的问题语句，分别衡量其与该高频答案语句的相关度，取相关度最高的问题语句作为该高频答案语句的对应答案语句。在图1所示中，即分别衡量答案语句7与问题语句1-7的相关度，取相关度最高的问题语句，如问题语句3作为答案语句7的对应问题语句。

最后，以该高频答案语句，与其对应的答案语句和该人工问答日志构成一条机器阅读数据，在图1所示中，以问题语句3，答案语句7和人工问答日志X构成一条带标注的机器阅读数据。

下面描述机器阅读标注数据的生成过程。

图2为本说明书披露的一个实施例的一种机器阅读标注数据的生成方法的流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示，机器阅读标注数据的生成过程至少包括以下步骤。

在步骤11，获取第一人工对话日志，其中包含多轮问答对话语句。

概括而言，人工对话日志是指包含人工对话的对话记录。用于生成机器阅读标注数据的人工对话日志，优选包含两人之间的多轮问答对话。在一个实施例中，上述多轮对话问答可以发生在两个不同角色之间，例如老师与学生，客户人员与用户。所述第一人工对话日志指代任意一个该种日志，如图1所示人工对话日志X。下面即以客户人员与用户的多轮问答为例进行说明。这种人工对话日志在很多服务型互联网企业中是常见的，并且由于这类服务型对话在客户消费-企业提供服务的过程是非常频繁发生的，这些企业对这种日志的保有量常常也是巨大的。因为这种人工对话日志中实际存在大量现实中客户提出的问题和客服人员给出的答案，也就是说其中实际存在大量潜在的问题-答案对，因此可以从其中将这些问题-答案对提取出来作为标注数据，结合人工对话日志本身形成机器阅读数据。

当然，现实的人工对话日志中，也包含一些与问答无直接关系的对话，但是这不影响这类日志的基本模式是客户与客服人员的问答模式。因此在一个实施例中，可以将与问答无直接关系的客户与客服人员的对话也处理为客户与客服人员的问答对话，如图1中，将所有客户与客服人员的对话处理为问题语句1-8和答案语句1-8，从而方便数据的处理。

然后，在步骤12中，根据预先统计得到的高频答案语句集合，从多轮问答对话语句中确定出第一高频答案语句。

高频答案语句通常是客服人员高频率的回答语句，高频答案语句集合是客服人员高频率的回答语句的集合，它是预先取得的，在不同的实施例中，可以有不同的具体实施方式。本步骤12旨在从第一人工对话日志中查找是否含有高频答案语句，具体方式为在所述第一人工对话日志的多轮问答对话语句中查找是否含有所述高频答案语句集合中的答案语句，如果其中存在高频答案语句集合中的任何一个答案语句，则将该答案语句作为第一高频答案语句。

前面描述到，该步骤12中高频答案语句集合是预先取得的，图3示出一个实施例的获得高频答案语句集合的统计方法的流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图3所示，获得高频答案语句集合的统计过程，至少包括以下步骤：

在步骤21，获取人工对话日志集,其中包括多个人工对话日志。

该步骤21中，在不同的实施例中，人工对话日志集中的人工对话日志与步骤11中的人工对话日志的数据来源可以相同，也可以不同。在一个实施例中，该步骤21人工对话日志集中的人工对话日志，与步骤11中第一人工对话日志，为从相同数据来源而来的同一批的人工对话日志或不同批次的人工对话日志，即从同一个数据来源而来的相同的人工对话日志或不同的人工对话日志。其中，从相同数据来源而来，指这些人工对话日志来自于相同的互联网服务或产品的数据积累。在另一个实施例中，人工对话日志集中的人工对话日志为与步骤11中人工对话日志从不同的数据来源而来的人工对话日志。

接着，在步骤22，确定多个人工对话日志中包含的各个答案语句在人工对话日志集中的出现频次，并根据所述出现频次从各个答案语句中挑选多个高频答案语句。

该步骤22旨在从人工对话日志集提取总出现频率高的答案语句，具体的方式是，统计人工对话日志集包含的各人工对话日志中出现的答案语句，在整个人工对话日志集含有的所有人工对话日志中出现的频次，将满足一个出现频次标准的各个答案语句确认为高频答案语句。可以理解，在不同的实施例中，所述出现频次标准可以有不同的制定方式，这并不超出本发明精神和原则的范围，均应属于本发明的保护范围之内。

在一个实施例中,在确定多个人工对话日志中包含的各个答案语句各自在人工对话日志集中出现的频次之前，对多个人工对话日志中包含的各个答案语句进行文本归一化，去除其中的问候语和特殊符号。

在另一个实施例中,其中,通过如下方法确定多个人工对话日志中包含的各个答案语句在所述人工对话日志集中的出现频次,该方法包括:对所述各个答案语句进行聚类操作，得到多个答案类簇；对于每个答案类簇，将该答案类簇中每个答案语句的出现频次确定为，该答案类簇中所有答案语句在所述人工对话日志集中出现的原始频次之和。

聚类操作的作用是将相似的高频答案聚类到一块，这样得到的高频答案就不再局限在“完全一样”的答案，可以将相似的高频答案归到一起来统计频率。通过这一步预处理的流程，从大量客服人员的初始回复中获得筛选之后的高频答案集合。图7示出一个实施例的高频答案文本归一化和聚类的效果示意图,如图7所示, 经过文本归一化和聚类处理后形成高频答案集中将原始答案集中的近义的答案合并起来，这样做一方面使得处理后高频答案集更接近根据答案含义相同的原则，这符合后期将其用于机器阅读的标注数据的用途；另一方面也使得单纯依据文本完全相同原则统计出现频次会被遗漏，但其实际含义却是高频率出现的那些答案语句不被统计结果遗漏。因此，经过文本归一化和聚类处理后形成的高频答案集对高频答案的选取更加全面和准确。

在一个实施例中，所述聚类操作基于HDBSCAN算法。

在又一个实施例中，也可以对进行文本归一化和聚类操作之前，对于所述多个答案语句，先根据文本一致原则先进行初步统计出现频次，并根据所述出现频次提取初始高频答案集，以方便后期处理。

最后，在步骤23，以多个高频答案语句构成高频答案语句集合。

可以理解，在其他实施例中，高频答案语句集合还可以是基于其他的统计方法获得，在此不做限定。

以上结合图3描述了构建高频答案语句集合的方式，以及图2中基于该高频答案语句集合确定出第一高频答案语句的步骤12。

接着，在步骤13中，对于多轮问答对话语句中位于第一高频答案语句之前的若干问题语句中的任意问题语句，根据第一高频答案语句与该任意问题语句之间的语义相似度，确定第一相关度；根据第一高频答案语句与该任意问题语句之间的文本间隔距离，确定第二相关度；根据第一相关度、第二相关度，确定对应的总相关度。

步骤13中描述的确定第一高频答案语句与该任意问题语句之间的语义相似度,根据一种实施方式，可以基于预先训练的语言模型BERT。BERT（Bidirectional EncoderRepresentations from Transformers）是一种自然语言处理（NLP）框架，其特点是只需使用一个额外的输出层就可以对经过初步训练的BERT模型进行微调，以创建适用于各种任务（例如问题解答和语言推论）的新模型，而无需进行大量任务处理和特定的体系结构修改。

根据一种具体的实施方式，语言模型BERT通过训练得到，图4示出一个实施例中的语言模型BERT训练方法的流程图，如图4所示，语言模型BERT的训练过程至少包括以下步骤：

在步骤31中，基于公开问答语料，构造正样本和负样本，其中正样本包括问答语料中匹配的问题-答案对；负样本包括，将正样本中的问题或答案随机替换之后的文本对；

此后，步骤32中，将所述正样本和负样本，分别输入初步训练的语言模型BERT，得到正样本对应的第一语义相似度，和负样本对应的第二语义相似度；以第一语义相似度增大、而第二语义相似度减小为目标，微调所述中文语言模型BERT的模型参数。

在一个更具体的实施例中，图4所示方法也可以概括性用如下的数学公式表述为：

(1)

其中，

为正样本集，

为负样本集，当

，

为正样本对应的第一语义相似度，当

，

为负样本对应的第二语义相似度，L为目标函数值。

在通过图4的方式训练得到BERT语言模型之后，就可以将前述第一高频答案语句和待分析的问题语句组成一个文本对，输入到训练好的BERT语言模型中，由该模型输出两者之间的语义相似度。

在另外的实施方式中，语义相似度还可以使用其他的方法确定。例如，可以分别将第一高频答案语句和待分析的问题语句编码为句子向量，通过计算句子向量之间的距离（例如，欧式距离，余弦距离等），确定两者之间的语义相似度。在其他例子中，也可以基于其他的NLP神经网络模型，例如Transformer，文本卷积网络等等，确定第一高频语句和待分析的问题语句之间的语义相似度，在此不做限定。

此外，在步骤13中，还根据第一高频答案语句与该任意问题语句之间的文本间隔距离，确定第二相关度。在不同的实施方式中，其中的文本间隔距离可以根据不同的计量方式确定，比如根据间隔多少字符，亦或间隔多少句子确认。根据一种实施方式，文本间隔距离可以根据其衡量的两个语句分别所处的对话轮次之间的间隔轮次确认。

图5示出一个实施例的根据答案语句与问题语句之间的文本间隔距离确定其第二相关度的方法的流程图,如图5所示，确定第二相关度的过程至少包括以下步骤。

在步骤41，对于所述任意问题语句，确定其所处对话轮次与所述第一高频答案语句所处的对话轮次之间的间隔轮次，作为第一间隔轮次值。以图1所示场景为例，答案语句7为第一高频答案语句，它与其前面的一个问题语句，如问题语句3之间的第一间隔轮次值为4个轮次。

然后，在步骤42，根据第一高频答案所处对话轮次,确定第一人工对话日志中距离第一高频答案最远的在前问题语句与第一高频答案之间的间隔轮次，作为第二间隔轮次值。如图1中，答案语句7的最远在前问题语句为问题语句1，第二间隔轮次值为7。

接着，在步骤43，根据第二间隔轮次值构建类菲波拉切数列,类菲波拉切数列的首项和次项取设定值,从其第三项起，每一项都等于前两项之和,类菲波拉切数列具有的项的总数为第二间隔轮次值。

最后，在步骤44，根据类菲波拉切数列中第i个项至最后一项的和值与类菲波拉切数列的所有项的和值之间的比值，确定第二相关度，i为第一间隔轮次值。如图1中，答案语句7和问题语句3的第二相关度为，类菲波拉切数列中第4项至7项的和值与类菲波拉切数列的第1项至7项的和值之间的比值。

可以看到，通过这种方法在计算问题语句与距离高频答案的距离远近得分的时候，距离高频答案越远的问题语句，得分越低，并且其得分消减速率经过发明人研究对于计算相关度也是合适的。

在一个更具体的实施例中，图5所示方法也可以概括性用如下的数学公式表述为：

(2)

(3)

其中，

为高频答案和问题语句的间隔对话轮次数，

为类菲波拉切数列第i项值，n为距离高频答案最远的在前问题语句与高频答案之间的间隔轮次,

为问题语句

和高频答案

之间的第二相关度值。在一个例子中，上述类菲波拉切数列中前两项可以均取值为1。

在另一个实施例中，还可以直接根据第一间隔轮次值和第二间隔轮次值的比值，确认第二相关度值。

如此，通过第一高频答案和问题语句之间的文本间隔距离，确定出第二相关度值。然后，可以对上述分别确定的第一相关度值和第二相关度值进行综合，得到总相关度。

根据一种实施方式，步骤13中描述的确定对应的总相关度，可以包括：基于预先为第一相关度、第二相关度分配的权重，对其加权求和。

在一个更具体的实施例中，该过程也可以概括性用如下的数学公式表述为：

(4)

其中，

为问题语句

和高频答案

之间的第二相关度值，

为问题语句

和高频答案

之间的第一相关度值，

为权重值，

为总相关度值。

然后，在步骤14中，从若干问题语句中提取与第一高频答案的总相关度最高的问题语句，作为与第一高频答案对应的第一问题语句。

该步骤14提取的第一问题语句，其意义是在此人工对话日志中的若干问题语句中，最有可能是第一高频答案的问题语句的问题语句。如图1中，答案语句7为第一高频答案，其总相关度最高的问题语句是问题语句3，因此以问题语句3作为答案语句7的对应问题语句。

最后，在步骤15中，根据第一人工对话日志、第一高频答案语句和第一问题语句，生成带有标注的机器阅读数据。

根据一种实施方式,其中，生成带有标注的机器阅读数据，至少包括以下过程：以第一问题语句作为标注问题；以第一高频答案语句作为标注答案；以标注问题、第一人工对话日志、标注答案构成一条带有答案标注的机器阅读数据。如图1中，以问题语句3作为标注问题，以答案语句7作为标注答案；以问题语句3、人工对话日志X、答案语句7构成一条带有答案标注的机器阅读数据。

根据又一种实施方式,生成带有标注的机器阅读数据的过程，还包括：通过将所述带有答案标注的机器阅读数据中的第一人工对话日志中的第一高频答案语句，替换为所述高频答案集合中与所述第一高频答案语句无关的其他高频答案语句，生成带有无答案标注的机器阅读数据。

在一个实施例中,带有答案标注的机器阅读数据和带有无答案标注的机器阅读数据的数量比例为一个预设值，如4:1。

根据另一方面的实施例，提供了一种机器阅读标注数据的生成装置，该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。图6示出一个实施例的一种机器阅读标注数据的生成装置的结构性框图，如图6所示，该生成装置500包括：

第一对话获取单元51，配置为获取第一人工对话日志，其中包含多轮问答对话语句；

答案提取单元52，配置为根据预先统计得到的高频答案语句集合，从所述多轮问答对话语句中确定出第一高频答案语句；

相关计算单元53，配置为对于所述多轮问答对话语句中位于第一高频答案语句之前的若干问题语句中的任意问题语句，根据第一高频答案语句与该任意问题语句之间的语义相似度，确定第一相关度；根据第一高频答案语句与该任意问题语句之间的文本间隔距离，确定第二相关度；根据第一相关度、所述第二相关度，确定对应的总相关度；

在一个实施例中，相关计算单元53用于确认第一相关度的语义相似度，为基于预先训练的中文语言模型BERT确定的语义相似度。

在一个具体的实施例中，相关计算单元53用于确定语义相似度的中文语言模型BERT可以通过训练得到，所述训练过程包括：基于公开问答语料，构造正样本和负样本，其中正样本包括问答语料中匹配的问题-答案对；负样本包括，将正样本中的问题或答案随机替换之后的文本对；将所述正样本和负样本，分别输入初步训练的中文语言模型BERT，得到正样本对应的第一语义相似度，和负样本对应的第二语义相似度；以第一语义相似度增大、而第二语义相似度减小为目标，微调所述中文语言模型BERT的模型参数。

在另一个实施例中，相关计算单元53用于确认第二相关度的文本间隔距离，根据其衡量的两个语句分别所处的对话轮次之间的间隔轮次确认。

在又一个实施例中，相关计算单元53使用的多轮问答对话语句包括不同的角色之间的多轮问答对话语句,所述角色包括人工客服人员和用户。

进一步，在一个具体的实施例中，相关计算单元53确定第二相关度的具体配置为，对于所述任意问题语句，确定其所处对话轮次与所述第一高频答案语句所处的对话轮次之间的间隔轮次，作为第一间隔轮次值；根据第一高频答案所处对话轮次,确定第一人工对话日志中距离第一高频答案最远的在前问题语句与第一高频答案之间的间隔轮次，作为第二间隔轮次值；根据第二间隔轮次值构建类菲波拉切数列,类菲波拉切数列的首项和次项取设定值,从其第三项起，每一项都等于前两项之和,类菲波拉切数列具有的项的总数为第二间隔轮次值；根据类菲波拉切数列中第i个项至最后一项的和值与类菲波拉切数列的所有项的和值之间的比值，确定第二相关度，i为第一间隔轮次值。

根据一种实施方式，相关计算单元53确定对应的总相关度，还包括：基于预先为所述第一相关度、所述第一相关度分配的权重，对其加权求和。

问题提取单元54，配置为从所述若干问题语句中提取与所述第一高频答案的总相关度最高的问题语句，作为与所述第一高频答案对应的第一问题语句；

标注机器阅读数据生成单元55，配置根据第一人工对话日志、第一高频答案语句和所述第一问题语句，生成带有标注的机器阅读数据。

根据一种实施方式，阅读数据生成单元55的具体配置为：以所述第一问题语句作为标注问题；以所述第一高频答案语句作为标注答案；以标注问题、第一人工对话日志、标注答案构成带有答案标注的机器阅读数据。

在一个例子中，阅读数据生成单元55的配置还包括：通过将所述带有答案标注的机器阅读数据中的第一人工对话日志中的第一高频答案语句，替换为所述高频答案集合中与所述第一高频答案语句无关的其他高频答案语句，生成带有无答案标注的机器阅读数据。

根据一种实施方式，生成装置500还包括：

第二对话获取单元56，配置为获取人工对话日志集,其中包括多个人工对话日志；

高频答案提取单元高频57，配置为确定多个人工对话日志中包含的各个答案语句在人工对话日志集中的出现频次，并根据出现频次从各个答案语句中挑选多个高频答案语句;

答案集合生成单元58，配置为以多个高频答案语句构成高频答案语句集合。

进一步，在一个实施例中，生成装置500还包括文本归一化单元59，配置为对所述多个人工对话日志中包含的各个答案语句进行文本归一化，去除其中的问候语和特殊符号。该实施例中，高频答案提取单元57在确定所述多个人工对话日志中包含的各个答案语句各自在所述人工对话日志集中出现的频率之前，从文本归一化单元59获得文本归一化之后的各答案语句。

在另一个实施例中，生成装置500还包括高频答案聚类单元5A，配置为对所述各个答案语句进行聚类操作，得到多个答案类簇。该实施例中，高频答案提取单元高频57确定各个答案语句在人工对话日志集中的出现频次的具体配置为：对于由高频答案聚类单元5A获得的每个答案类簇，将该答案类簇中每个答案语句的出现频次确定为，该答案类簇中所有答案语句在所述人工对话日志集中出现的原始频次之和。

在一个例子中,所述聚类操作基于HDBSCAN算法。

根据又一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图2、图3、图4、图5所示的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图2、图3、图4、图5所示的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种机器阅读标注数据的生成方法，所述方法包括：

获取第一人工对话日志，其中包含多轮问答对话语句；

根据预先统计得到的高频答案语句集合，从所述多轮问答对话语句中确定出第一高频答案语句；其中所述高频答案语句集合通过以下统计方法得到:获取人工对话日志集,其中包括多个人工对话日志;确定所述多个人工对话日志中包含的各个答案语句在所述人工对话日志集中的出现频次，并根据所述出现频次从所述各个答案语句中挑选多个高频答案语句，构成所述高频答案语句集合；

对于所述多轮问答对话语句中位于所述第一高频答案语句之前的若干问题语句中的任意问题语句，根据所述第一高频答案语句与该任意问题语句之间的语义相似度，确定第一相关度；根据所述第一高频答案语句与该任意问题语句之间的文本间隔距离，确定第二相关度；根据所述第一相关度、所述第二相关度，确定对应的总相关度；

从所述若干问题语句中提取与所述第一高频答案的总相关度最高的问题语句，作为与所述第一高频答案对应的第一问题语句；

根据所述第一人工对话日志、所述第一高频答案语句和所述第一问题语句，生成带有标注的机器阅读数据。

2.根据权利要求1所述的方法，其中,所述统计方法还包括:

在确定所述多个人工对话日志中包含的各个答案语句在所述人工对话日志集中出现的频次之前，

对所述多个人工对话日志中包含的各个答案语句进行文本归一化，去除其中的问候语和特殊符号。

3.根据权利要求1所述的方法，其中,确定所述多个人工对话日志中包含的各个答案语句在所述人工对话日志集中的出现频次，包括:

对所述各个答案语句进行聚类操作，得到多个答案类簇；

对于每个答案类簇，将该答案类簇中每个答案语句的出现频次确定为，该答案类簇中所有答案语句在所述人工对话日志集中出现的原始频次之和。

4.根据权利要求3所述的方法，其中,所述聚类操作基于HDBSCAN算法。

5.根据权利要求1所述的方法，其中,所述根据所述第一高频答案语句与该任意问题语句之间的语义相似度，确定第一相关度，包括：

基于预先训练的BERT语言模型确定所述第一高频答案语句与该任意问题语句之间的语义相似度。

6.根据权利要求5所述的方法，其中,所述BERT语言模型通过以下方式训练得到：

基于公开问答语料，构造正样本和负样本，其中正样本包括问答语料中匹配的问题-答案对；负样本包括，将正样本中的问题或答案随机替换之后的文本对；

将所述正样本和负样本，分别输入初步训练的BERT语言模型，得到正样本对应的第一语义相似度，和负样本对应的第二语义相似度；

以第一语义相似度增大、而第二语义相似度减小为目标，微调所述BERT语言模型的模型参数。

7.根据权利要求1所述的方法，其中，所述文本间隔距离根据其衡量的两个语句分别所处的对话轮次之间的间隔轮次确定。

8.根据权利要求1所述的方法，其中，所述多轮问答对话语句包括不同的角色之间的多轮问答对话语句,所述角色包括人工客服人员和用户。

9.根据权利要求1所述的方法，其中,所述根据所述第一高频答案语句与该任意问题语句之间的文本间隔距离，确定第二相关度，包括：

对于该任意问题语句，确定其所处对话轮次与所述第一高频答案语句所处的对话轮次之间的间隔轮次，作为第一间隔轮次值；

确定所述第一人工对话日志中，距离所述第一高频答案最远的在前问题语句与所述第一高频答案之间的间隔轮次，作为第二间隔轮次值；

根据第二间隔轮次值构建类菲波拉切数列,所述类菲波拉切数列的首项和次项取设定值,从其第三项起，每一项都等于前两项之和,所述类菲波拉切数列具有的项的总数为第二间隔轮次值;

根据所述类菲波拉切数列中第i个项至最后一项的和值与所述类菲波拉切数列的所有项的和值之间的比值，确定第二相关度，i为第一间隔轮次值。

10.根据权利要求1所述的方法，其中，所述根据所述第一相关度、所述第二相关度，确定对应的总相关度，包括：

基于预先为所述第一相关度、所述第一相关度分配的权重，对其加权求和。

11.根据权利要求1所述的方法，其中,所述生成带有标注的机器阅读数据，包括：

以所述第一问题语句作为标注问题，以所述第一高频答案语句作为标注答案，以标注问题、第一人工对话日志、标注答案构成一条带有答案标注的机器阅读数据。

12.根据权利要求11所述的方法，其中,生成带有标注的机器阅读数据，还包括：

通过将所述一条带有答案标注的机器阅读数据中的第一高频答案语句，替换为所述高频答案集合中与所述第一高频答案语句无关的其他高频答案语句，生成一条带有无答案标注的机器阅读数据。

13.根据权利要求12所述的方法，其中,所述带有答案标注的机器阅读数据和带有无答案标注的机器阅读数据的数量比例为预设比例。

14.一种机器阅读标注数据的生成装置，所述装置包括：

答案提取单元，配置为根据预先统计得到的高频答案语句集合，从所述多轮问答对话语句中确定出第一高频答案语句；其中所述高频答案语句集合通过以下统计方法得到:获取人工对话日志集,其中包括多个人工对话日志;确定所述多个人工对话日志中包含的各个答案语句在所述人工对话日志集中的出现频次，并根据所述出现频次从所述各个答案语句中挑选多个高频答案语句，构成所述高频答案语句集合；

15.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-13中任一项的所述的方法。

16.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-13中任一项所述的方法。