CN111125323B

CN111125323B - 一种聊天语料标注方法、装置、电子设备及存储介质

Info

Publication number: CN111125323B
Application number: CN201911146671.8A
Authority: CN
Inventors: 李勤; 曹云波; 周昊; 黄民烈
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2024-01-19
Anticipated expiration: 2039-11-21
Also published as: CN111125323A

Abstract

本发明提供了一种聊天语料标注方法，包括：获取聊天语料相匹配的问题文本集合，其中，所述问题文本集合包括至少一个未获得相应答复语句的问题文本；通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充，以实现获取相应的问题文本对；响应于所获取的问题文本对，通过所述聊天语料标注模型中的问答模型网络，确定与所述问题文本集合中的问题文本相对应的答复语句；对所述问题文本对和所述答复语句进行修正，并建立所述问题文本对和所述答复语句的关联。本发明还提供了聊天语料标注装置、电子设备及存储介质。本发明能够实现对所述聊天语料的标注。

Description

一种聊天语料标注方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术，尤其涉及聊天语料标注方法、装置、电子设备及存储介质。

背景技术

人机交互(HCI Human–Computer Interaction)是指人与计算机之间使用某种对话语言，以一定的交互方式确定人与计算机之间的信息交换过程。随着人机交互技术的发展，越来越多的基于人机交互技术的智能产品应运而生，例如聊天机器人(chatter bot)等。这些智能产品可以和用户进行聊天交流，并根据用户的问题生成相应的回答信息。但是，传统技术中，通常使用预定义响应的数据库和某种启发式推理来根据输入和上下文选择适当的响应。这一过程中需要构建聊天FAQ，存储请求-响应对(Query-Reply Pair)，之后用检索的方式从该FAQ中返回相似的问题文本(Query)的答复语句(Reply)。因此，聊天机器人的智能化会受限于FAQ库的质量和数量，数量少，质量低的FAQ库将会影响用户的使用体验。

发明内容

有鉴于此，本发明实施例提供一种聊天语料标注方法、装置、电子设备及存储介质，本发明实施例的技术方案是这样实现的：

本发明实施例通过了一种聊天语料标注方法，包括：

获取聊天语料相匹配的问题文本集合，其中，所述问题文本集合包括至少一个未获得相应答复语句的问题文本；

通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充，以实现获取相应的问题文本对；

响应于所获取的问题文本对，通过所述聊天语料标注模型中的问答模型网络，确定与所述问题文本集合中的问题文本相对应的答复语句；

对所述问题文本对和所述答复语句进行修正，并建立所述问题文本对和所述答复语句的关联，以实现对所述聊天语料的标注。

本发明实施例还提供了一种聊天语料标注装置，其特征在于，所述装置包括：

信息传输模块，用于获取聊天语料相匹配的问题文本集合，其中，所述问题文本集合包括至少一个未获得相应答复语句的问题文本；

信息处理模块，用于通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充，以实现获取相应的问题文本对；

所述信息处理模块，用于响应于所获取的问题文本对，通过所述聊天语料标注模型中的问答模型网络，确定与所述问题文本集合中的问题文本相对应的答复语句；

所述信息处理模块，用于对所述问题文本对和所述答复语句进行修正，并建立所述问题文本对和所述答复语句的关联，以实现对所述聊天语料的标注。

上述方案中，

所述信息处理模块，用于根据所述问题文本所携带的文本参数信息，触发相应的分词库；

所述信息处理模块，用于通过所触发的所述分词库单词词典对所述问题文本进行分词处理，形成不同的词语级特征向量；

所述信息处理模块，用于对所述不同的词语级特征向量进行除噪处理，形成与所述问题文本相对应的词语级特征向量集合；

所述信息处理模块，用于通过所述聊天语料标注模型中的问题文本扩充模型网络对与所述问题文本相对应的词语级特征向量集合进行扩充处理，以形成新的问题文本；

所述信息处理模块，用于关联所述问题文本与所述新的问题文本，以形成相应的问题文本对。

上述方案中，

所述信息处理模块，用于通过所述问答模型网络中的隐变量生成网络，确定与问题文本所对应的至少一个词语级的隐变量；

所述信息处理模块，用于通过所述问答模型网络中的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率；

所述信息处理模块，用于根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述问题文本相对应的答复语句，以实现确定与所述问题文本集合中的问题文本相对应的答复语句。

上述方案中，

所述信息处理模块，用于通过所述问答模型网络中的隐变量生成网络，对所述不同的词语级特征向量进行除噪处理，确定与问题文本所对应的至少一个词语级的隐变量。

上述方案中，

所述信息处理模块，用于确定与所述聊天语料标注模型的使用环境相匹配的动态噪声阈值；

所述信息处理模块，用于根据所述动态噪声阈值对所述问题文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；

所述信息处理模块，用于根据与所述动态噪声阈值相匹配的动态分词策略，对所述问题文本进行分词处理，形成与所述问题文本相对应的动态词语级特征向量集合。

上述方案中，

所述信息处理模块，用于确定与所述聊天语料标注模型的使用环境相对应的固定噪声阈值；

所述信息处理模块，用于根据所述固定噪声阈值对所述问题文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的固定分词策略；

所述信息处理模块，用于根据与所述固定噪声阈值相匹配的固定分词策略，对所述问题文本进行分词处理，与所述问题文本相对应的固定词语级特征向量集合。

上述方案中，

所述信息处理模块，用于确定与所述聊天语料标注模型的使用环境的特征；

所述信息处理模块，用于在数据源中，获取与所述聊天语料标注模型的使用环境的特征相匹配的训练样本集合；

所述信息处理模块，用于根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所述聊天语料标注模型进行训练，以实现确定与所述聊天语料标注模型中的问题文本扩充模型网络相适配的模型参数；

所述信息处理模块，用于根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所述聊天语料标注模型进行训练，以实现确定与所述聊天语料标注模型中的问答模型网络相适配的模型参数。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的聊天语料标注方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前序的聊天语料标注方法。

本发明实施例具有以下有益效果：

通过获取聊天语料相匹配的问题文本集合，其中，所述问题文本集合包括至少一个未获得相应答复语句的问题文本；通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充，以实现获取相应的问题文本对；响应于所获取的问题文本对，通过所述聊天语料标注模型中的问答模型网络，确定与所述问题文本集合中的问题文本相对应的答复语句；对所述问题文本对和所述答复语句进行修正，并建立所述问题文本对和所述答复语句的关联，以实现对所述聊天语料的标注。由此，不但实现了对问题文本的增广，扩展了文本的表述形式，并且建立所述问题文本对和所述答复语句的关联，以实现对所述聊天语料的标注，减轻了传统技术中人工作处理的负担，扩大了语料库的内容，从而可以提升回复的丰富度和前瞻性，提升用户的使用体验。

附图说明

图1为本发明实施例提供的聊天语料标注方法的使用场景示意图；

图2为本发明实施例提供的聊天语料标注装置的组成结构示意图；

图3为现有技术中，基于RNN的Seq2Seq模型生成答复语句的示意图；

图4为本发明实施例提供的聊天语料标注方法一个可选的流程示意图；

图5为本发明实施例中问答模型网络一个可选的结构示意图；

图6为本发明实施例中问答模型网络一个可选的词语级类隐变量的确定过程示意图；

图7为本发明实施例中问答模型网络中编码器一个可选的结构示意图；

图8为本发明实施例中问答模型网络中编码器的向量拼接示意图；

图9为本发明实施例中问答模型网络中编码器的编码过程示意图；

图10为本发明实施例中问答模型网络中解码器的解码过程示意图；

图11为本发明实施例中问答模型网络中解码器的解码过程示意图；

图12为本发明实施例中问答模型网络中解码器的解码过程示意图；

图13为本发明实施例中聊天语料标注模型中的问题文本扩充模型网络一个可选的问题文本扩充示意图；

图14为本发明实施例提供的聊天语料标注方法一个可选的流程示意图；

图15为本发明实施例提供的聊天语料标注方法一个可选的流程示意图；

图16为本发明实施例中相关技术对语料标注模型的应用环境示意图；

图17为现有技术所提供的聊天语料标注模型的聊天语聊标注生成工作过程示意图；

图18为本发明实施例所提供的聊天语料标注模型的聊天语聊标注生成工作过程示意图；

图19为本发明实施例所提供的训练样本生成装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)神经网络(Neural Network，NN)：人工神经网络(Artificial Neural Network，ANN)，简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

3)编码器-解码器结构：机器翻译技术常用的网络结构。由编码器和解码器两部分组成，编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量，解码器接收编码器输出的结果作为自己的输入，输出对应的另一种语言的文本序列。

4)双向注意力神经网络模(BERT Bidirectional Encoder Representationsfrom Transformers)谷歌提出的双向注意力神经网络模型。

5)token：词单元，对输入文本做任何实际处理前，都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。

6)Softmax：归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中，使得每一个元素的范围都在[0,1]之间，并且所有元素的和为1。

7)词向量：对词或者词组用固定维度的分布向量表示。融合算法：将多种算法融合，包括算法层融合和结果层融合。无监督算法：学习不带标签数据内部特征。关键词知识：在知识图谱中，与关键词存在等价和属于关系的关键词集合。

8)分词：使用中文分词工具切分中文文本，得到细粒度词的集合。停用词：对于文本的语义没有贡献或者贡献可以不计的字或词。Cosin相似度：两个文本表示成向量之后的余弦相似度。

9)Transformers：一种新的网络结构，采用注意力机制，代替传统的编码器-解码器必须依赖其它神经网络的模式。字向量：对单个字用固定维度的分布向量表示。复合词：由细粒度的关键词组成的粒度较粗的关键词，其语义相对细粒度关键词更加丰富和完整。

10)Jieba：一个中文分词工具，支持python编程。Hanlp：一个中文开源分词工具，支持Java编程。

11)模型训练，对图像数据集进行多分类学习。该模型可采用TensorFlow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出概率信息。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

图1为本发明实施例提供的聊天语料标注方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有关于文本输入功能的应用软件的客户端，用户通过所设置的文本输入客户端可以输入相应的问题语句，文本输入客户端也可以接收相应的聊天语料标注结果，并将所接收的聊天语料标注结果向用户进行展示；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

作为一个示例，服务器200用于布设所述聊天语料标注装置，并通过所述聊天语聊标注模型获取聊天语料相匹配的问题文本集合，其中，所述问题文本集合包括至少一个未获得相应答复语句的问题文本；通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充，以实现获取相应的问题文本对；响应于所获取的问题文本对，通过所述聊天语料标注模型中的问答模型网络，确定与所述问题文本集合中的问题文本相对应的答复语句；对所述问题文本对和所述答复语句进行修正，并建立所述问题文本对和所述答复语句的关联，以实现对所述聊天语料的标注，并通过终端(终端10-1和/或终端10-2)展示聊天语料标注模型所生成的聊天语料标注结果进行展示。

当然在通过聊天语料标注模型对目标问题语句进行处理以生成相应的聊天语料标注结果之前，还需要对相应的聊天语料标注模型进行训练，具体包括：确定与所述聊天语料标注模型的使用环境的特征；在数据源中，获取与所述聊天语料标注模型的使用环境的特征相匹配的训练样本集合；根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所述聊天语料标注模型进行训练，以实现确定与所述聊天语料标注模型中的问题文本扩充模型网络相适配的模型参数；根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所述聊天语料标注模型进行训练，以实现确定与所述聊天语料标注模型中的问答模型网络相适配的模型参数。

下面对本发明实施例的聊天语料标注装置的结构做详细说明，聊天语料标注装置可以各种形式来实施，如带有文本处理聊天语料标注功能的专用终端，也可以为设置有文本处理聊天语料标注功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的聊天语料标注装置的组成结构示意图，可以理解，图2仅仅示出了聊天语料标注装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的聊天语料标注装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。聊天语料标注装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的聊天语料标注装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的聊天语料标注装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的聊天语料标注方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的聊天语料标注装置采用软硬件结合实施的示例，本发明实施例所提供的聊天语料标注装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的聊天语料标注方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的聊天语料标注装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的聊天语料标注方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持聊天语料标注装置的操作。这些数据的示例包括：用于在聊天语料标注装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从聊天语料标注方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的聊天语料标注装置可以采用软件方式实现，图2示出了存储在存储器202中的聊天语料标注装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括聊天语料标注装置，聊天语料标注装置中包括以下的软件模块：信息传输模块2081，信息处理模块2082。当聊天语料标注装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的聊天语料标注方法，接下来说明聊天语料标注装置中各个软件模块的功能，其中，

信息传输模块2081，用于信息传输模块，用于获取聊天语料相匹配的问题文本集合，其中，所述问题文本集合包括至少一个未获得相应答复语句的问题文本；

信息处理模块2082，用于通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充，以实现获取相应的问题文本对；

所述信息处理模块2082，用于响应于所获取的问题文本对，通过所述聊天语料标注模型中的问答模型网络，确定与所述问题文本集合中的问题文本相对应的答复语句；

所述信息处理模块2082，用于对所述问题文本对和所述答复语句进行修正，并建立所述问题文本对和所述答复语句的关联，以实现对所述聊天语料的标注。

结合图2示出的聊天语料标注装置说明本发明实施例提供的聊天语料标注方法，在介绍本发明实施例提供的聊天语料标注方法之前，首先介绍相关技术中，通过传统的聊天语料标注模型根据问题文本生成相应答复语句的过程中，图3为现有技术中，基于RNN的Seq2Seq模型生成答复语句的示意图，其中，eq2seq模型是以编码器(Encode)和解码器(Decode)为代表的架构方式，seq2seq模型是根据输入序列X来生成输出序列Y。编码器(Encode)和解码器(Decode)为代表的seq2seq模型中，编码器(Encode)是将输入序列转化成一个固定长度的向量，解码器(Decode)将输入的固定长度向量解码成输出序列。如图3所示，编码器(Encoder)对输入的问题语句进行编码，得到问题语句的文本特征；解码器(Decoder)对文本特征进行解码后输出生成相应的回复，其中，编码器(Encode)和解码器(Decode)是一一对应的，但是如果编码器(Encoder)对输入的问题语句进行编码出现错误时，解码器(Decode)无法根据语料库中的已有信息生成相应的答复语句，因此，需要对语料库进行扩充，丰富语料库的样本数量。

为解决这一相关技术中的缺陷，参见图4，图4为本发明实施例提供的聊天语料标注方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行聊天语料标注装置的各种电子设备执行，例如可以是如带有聊天语料标注功能的专用终端、带有文本处理聊天语料标注功能的服务器或者服务器集群。下面针对图4示出的步骤进行说明。

步骤401：聊天语料标注装置获取聊天语料相匹配的问题文本集合。

其中，所述问题文本集合包括至少一个未获得相应答复语句的问题文本；

步骤402：聊天语料标注装置通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充，以实现获取相应的问题文本对。

步骤403：聊天语料标注装置响应于所获取的问题文本对，通过所述聊天语料标注模型中的问答模型网络，确定与所述问题文本集合中的问题文本相对应的答复语句。

在本发明的一些实施例中，通过聊天语料标注模型中的问题文本扩充模型网络对所述问题文本集合中的问题文本进行扩充，以实现获取相应的问题文本对，可以通过以下方式实现：

根据所述问题文本所携带的文本参数信息，触发相应的分词库；通过所触发的所述分词库单词词典对所述问题文本进行分词处理，形成不同的词语级特征向量；对所述不同的词语级特征向量进行除噪处理，形成与所述问题文本相对应的词语级特征向量集合；通过所述聊天语料标注模型中的问题文本扩充模型网络对与所述问题文本相对应的词语级特征向量集合进行扩充处理，以形成新的问题文本；关联所述问题文本与所述新的问题文本，以形成相应的问题文本对。

其中，本发明实施例所提供的聊天语料标注模型包括两部分：问题文本扩充模型网络和问答模型网络，下面分别对模型的结构进行介绍：

在本发明的一些实施例中，问答模型网络可以为双向注意力神经网络模(BERTBidirectional Encoder Representations from Transformers)。继续参考图5，图5为本发明实施例中问答模型网络一个可选的结构示意图，其中，Encoder包括：N＝6个相同的layers组成，每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。

Decoder包括：由N＝6个相同的Layer组成，其中layer和encoder并不相同，这里的layer包含了三个sub-layers，其中有一个self-attention layer，encoder-decoderattention layer最后是一个全连接层。前两个sub-layer都是基于multi-head attentionlayer。

继续参考图6，图6为本发明实施例中问答模型网络一个可选的词语级类隐变量的确定过程示意图，其中，其中，encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后，输出到了decoder部分的每一个decoder中；输入目标为“我是一个学生”经过问答模型网络的处理，输出的词语级类隐变量结果为：“我、是、一个、学生”。

继续参考图7，图7为本发明实施例中问答模型网络中编码器一个可选的结构示意图，其中，其输入由维度为d的查询(Q)和键(K)以及维度为d的值(V)组成，所有键计算查询的点积，并应用softmax函数获得值的权重。

继续参考图7，图7本发明实施例中问答模型网络中编码器的向量示意图，其中Q，K和V的是通过输入encoder的向量x与W^Q，W^K，W^V相乘得到Q，K和V。W^Q，W^K，W^V在文章的维度是(512，64)，然后假设我们inputs的维度是(m，512)，其中m代表了字的个数。所以输入向量与W^Q，W^K，W^V相乘之后得到的Q、K和V的维度就是(m，64)。

继续参考图8，图8为本发明实施例中问答模型网络中编码器的向量拼接示意图，其中，Z0到Z7就是对应的8个并行的head(维度是(m，64))，然后concat这个8个head之后就得到了(m，512)维度。最后与W^O相乘之后就到了维度为(m，512)的输出的矩阵，那么这个矩阵的维度就和进入下一个encoder的维度保持一致。

继续参考图9，图9为本发明实施例中问答模型网络中编码器的编码过程示意图，其中，x1经过self-attention到了z1的状态，通过了self-attetion的张量还需要进过残差网络和Later Norm的处理，然后进入到全连接的前馈网络中，前馈网络需要进行同样的操作，进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中，然后这样的操作，迭代经过了6次，迭代处理的结果进入到decoder中。

继续参考图10，图10为本发明实施例中问答模型网络中解码器的解码过程示意图，其中，decoder的输入输出和解码过程：

输出：对应i位置的输出词的概率分布；

输入：encoder的输出&对应i-1位置decoder的输出。所以中间的attention不是self-attention，它的K，V来自encoder，Q来自上一位置decoder的输出。

继续参考图11和图12，图11为本发明实施例中问答模型网络中解码器的解码过程示意图，其中。解码器网络的最后一个decoder输出的向量会经过Linear层和softmax层。图12为本发明实施例中问答模型网络中解码器的解码过程示意图，Linear层的作用就是对decoder部分出来的向量做映射成一个logits向量，然后softmax层根据这个logits向量，将其转换为了概率值，最后找到概率最大值的位置，即完成了解码器的输出。

在本发明的一些实施例中，聊天语料标注模型中的问题文本扩充模型网络可以为双向注意力神经网络模(BERT Bidirectional Encoder Representations fromTransformers)。继续参考图5，图5为本发明实施例中聊天语料标注模型中的问题文本扩充模型网络一个可选的结构示意图，其中，Encoder包括：N＝6个相同的layers组成，每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。

继续参考图13，图13为本发明实施例中聊天语料标注模型中的问题文本扩充模型网络一个可选的问题文本扩充示意图，其中，其中，encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positionalembedding。通过了6个encoder之后，输出到了decoder部分的每一个decoder中；输入目标为英语“are you a student”经过聊天语料标注模型中的问题文本扩充模型网络的处理，输出的新的问题文本为：“你是学生吗”，当然也建立了文本对“are you a student”和你是学生吗”(相同的语义)。

继续参见图14，图14为本发明实施例提供的聊天语料标注方法一个可选的流程示意图，可以理解地，图14所示的步骤可以由运行聊天语料标注装置的各种电子设备执行，例如可以是如带有聊天语料标注功能的专用终端、带有文本处理聊天语料标注功能的服务器或者服务器集群。下面针对图4示出的步骤进行说明。

步骤1401：聊天语料标注装置通过所述问答模型网络中的隐变量生成网络，确定与问题文本所对应的至少一个词语级的隐变量。

在本发明的一些实施例中，不同的用户的语言习惯与操作习惯并不相同，对于不同的用户需要调整不同的分词方式，以适配不同用户的语言习惯。尤其是对于汉语而言，以汉字为基础表意单位，而真正具有含义的最小语义单位则是词；由于词与词之间并没有像英语单词之间的空格作为分割，因此，一句文本中，哪些字组成词并不确定，因此，对汉语文本进行分词就是一个重要的工作。并且，对于文本处理指令文本，其中包含一些仅仅对自然语言理解有价值的东西，而对聊天语料标注模型而言，要查询到相关内容，必须确定哪些是真正有价值的检索依据，因此，通过前序步骤所示的对不同的词语级特征向量进行除噪处理，能够形成与文本处理指令文本相对应的词语级特征向量集合，避免词语级特征向量集合出现无意义的词语级特征向量，例如“的”、“地”和“得”。

在本发明的一些实施例中，通过所述问答模型网络中的隐变量生成网络，确定与问题文本所对应的至少一个词语级的隐变量，可以通过以下方式实现：

根据所述问题文本所携带的文本参数信息，触发相应的分词库；通过所触发的所述分词库单词词典对所述问题文本进行分词处理，形成不同的词语级特征向量；通过所述问答模型网络中的隐变量生成网络，对所述不同的词语级特征向量进行除噪处理，确定与问题文本所对应的至少一个词语级的隐变量。

在本发明的一些实施例中，通过所述问答模型网络中的隐变量生成网络，对所述不同的词语级特征向量进行除噪处理，确定与问题文本所对应的至少一个词语级的隐变量，可以通过以下方式实现：

确定与所述聊天语料标注模型的使用环境相匹配的动态噪声阈值；根据所述动态噪声阈值对所述问题文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；根据与所述动态噪声阈值相匹配的动态分词策略，对所述问题文本进行分词处理，形成与所述问题文本相对应的动态词语级特征向量集合。其中，由于聊天语料标注模型(语料库的使用对象)的使用环境不同，与所述聊天语料标注模型的使用环境相匹配的动态噪声阈值也不相同，例如，学术翻译的使用环境中，终端所显示的问题文本和相应的答复语句仅包括了学术论文的问题文本和相应的答复语句与所述聊天语料标注模型的使用环境相匹配的动态噪声阈值需要小于娱乐信息文本的阅读环境中的动态噪声阈值。

确定与所述聊天语料标注模型的使用环境相对应的固定噪声阈值；根据所述固定噪声阈值对所述问题文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的固定分词策略；根据与所述固定噪声阈值相匹配的固定分词策略，对所述问题文本进行分词处理，与所述问题文本相对应的固定词语级特征向量集合。其中，当聊天语料标注模型固化于相应的硬件机构中，例如车载终端或者智慧医疗系统中时，使用环境为专业术语文本信息(或者某一领域的文本信息)时，由于噪声较为单一，通过固定聊天语料标注模型相对应的固定噪声阈值，能够有效提升聊天语料标注模型的处理速度，减少用户的等待时间，提升用户的使用体验。

步骤1402：聊天语料标注装置通过所述问答模型网络中的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率。

步骤1403：聊天语料标注装置根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述问题文本相对应的答复语句。

由此，以实现确定与所述问题文本集合中的问题文本相对应的答复语句。

步骤404：聊天语料标注装置对所述问题文本对和所述答复语句进行修正，并建立所述问题文本对和所述答复语句的关联，以实现对所述聊天语料的标注。

继续参见图15，图15为本发明实施例提供的聊天语料标注方法一个可选的流程示意图，可以理解地，图15所示的步骤可以由运行聊天语料标注装置的各种电子设备执行，例如可以是如带有聊天语料标注功能的专用终端、带有文本处理聊天语料标注功能的服务器或者服务器集群。下面针对图15示出的步骤进行说明。

步骤1501：聊天语料标注装置确定与所述聊天语料标注模型的使用环境的特征；

步骤1502：聊天语料标注装置在数据源中获取与所述聊天语料标注模型的使用环境的特征相匹配的训练样本集合。

步骤1503：聊天语料标注装置根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所述聊天语料标注模型进行训练。

由此，可以实现确定与所述聊天语料标注模型中的问题文本扩充模型网络相适配的模型参数；

步骤1504：聊天语料标注装置根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所述聊天语料标注模型进行训练。

由此，可以实现确定与所述聊天语料标注模型中的问答模型网络相适配的模型参数。

下面以封装于微信小程序中的聊天语料标注模型对本发明实施例所提供的聊天语料标注方法进行说明，其中，图16为本发明实施例中相关技术对语料标注模型的应用环境示意图，其中，相关技术中可以如图16所示，随着人机交互技术的发展，越来越多的基于人机交互技术的智能产品应运而生，例如聊天机器人(chatter bot)等。这些智能产品可以和用户进行聊天交流，并根据用户的问题生成相应的回答信息。但是，传统技术中，通常使用预定义响应的数据库和某种启发式推理来根据输入和上下文选择适当的响应。这一过程中需要构建聊天FAQ，存储请求-响应对(Query-Reply Pair)，之后用检索的方式从该FAQ中返回相似Query的Reply。因此，聊天机器人的智能化会受限于FAQ库的质量和数量。否则将会影响用户的使用体验。

为了解决这一问题，参考图17，图17为现有技术所提供的聊天语料标注模型的聊天语聊标注生成工作过程示意图，其中，产品侧的工作人员编写用户query，开发侧的工作人员编写标注规范；之后还需要人工开始按照标注规范人工编写query对应的reply；最后由审核人员对编写的QR对按标注规范进行审查，审查通过的可入闲聊库，应用于线上闲聊，审查未通过的则返回给相关人员进行重新编写。这一过程中，缺点主要集中在以下方面：1、运营人员编写的query与线上用户query存在gap，虽然闲聊库的语料得到丰富，但用户体验没有得到改善；2、编写速度慢：人每天创作的精力有限，如果硬是要求运营人员每天产出多少多少量，很可能质量不过关，反而增加了审核人员的工作量；3、审核成本高；4、query和reply多样性不够。

图18为本发明实施例所提供的聊天语料标注模型的聊天语聊标注生成工作过程示意图，其中，图19为本发明实施例所提供的训练样本生成装置的结构示意图，下面结合图19所示的问答模型的结构示意图对本发明中问答模型的工作过程进行说明，具体包括以下步骤：

步骤1801：获取闲聊服务中拒绝响应的query。

其中，参考图19，由于闲聊服务中对于某些问题语句并不能够识别，因此图18中的线上日志获取模块可以用于线上日志挖掘，获取闲聊服务拒绝响应的query。

步骤1802：串联集成模型，以实现将QQ生成式模型(即前序的聊天语料标注模型中的问题文本扩充模型网络)及QR生成式模型(即前序聊天语料标注模型中的问答模型网络)组成相应的pipeline。

其中，图19所示的模型获取模块用于训练QQ生成式模型和QR生成式模型。QQ生成式模型，训练数据是QQ对，功能是对输入的query进行复述；QR生成式模型，训练数据是QR对，功能是对输入的query生成reply。

步骤1803：对待标注数据集合中的数据进行标注。

其中，参考图19，智能标注模块，用于使用离线的方式处理线上挖掘出的日志，处理过程为将待标注数据的数据集依次经过上述训练好的QQ生成式模型及QR生成式模型，输出得到该query的复述query和reply，由此，实现对该query的标注。

其中，对于被拒绝的query经过集成模型后会产生待标注数据，形式参考1。

表1

步骤1804：对经过标注的数据进行检验，以获得正确的标注数据。

其中，参考图19，人工修正模块，用于修改智能标注的结果，人工判断生成的复述query和reply是否规范合理，对于有错误和不规范的部分进行调整和补充以达到标注规范的要求通过上述步骤，可以实现快速检查所述方法中的两个生成式模型生成的结果是否合理，并且需要把检查之后的正确结果反馈给两个生成式模型的训练集，这样循环迭代会使得生成的效果越来越好，人工检查的工作量会越来越小。

进一步地，参考图19，回馈模块，用于将上述正确的标注样本回馈至上述两种深度学习模型进行训练。

由此，相比于传统技术训练样本的，通过本申请所提供的技术方案，当需要要新建一个行业闲聊或新增闲聊某个人设，需要均需要大量的符合行业或人设特质的QR对时，本发明所提供的两个生成式模型可以实现对query的增广，并且产生待标注的QR对，减轻了传统技术中人工作处理的负担，提升了训练样本生成的速率，使得用户获得更好的使用体验。

有益技术效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种聊天语料标注方法，其特征在于，所述方法包括：

根据所述问题文本所携带的文本参数信息，触发相应的分词库；

通过所触发的所述分词库单词词典对所述问题文本进行分词处理，形成不同的词语级特征向量；

对所述不同的词语级特征向量进行除噪处理，形成与所述问题文本相对应的词语级特征向量集合；

通过聊天语料标注模型中的问题文本扩充模型网络对与所述问题文本相对应的词语级特征向量集合进行扩充处理，以形成新的问题文本；

关联所述问题文本与所述新的问题文本，以形成相应的问题文本对；

通过问答模型网络中的隐变量生成网络，确定与所述问题文本所对应的至少一个词语级的隐变量；

通过所述问答模型网络中的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率；

根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述问题文本相对应的答复语句，以实现确定与所述问题文本集合中的问题文本相对应的答复语句；

2.根据权利要求1所述的方法，其特征在于，所述通过问答模型网络中的隐变量生成网络，确定与问题文本所对应的至少一个词语级的隐变量，包括：

通过所述问答模型网络中的隐变量生成网络，对所述不同的词语级特征向量进行除噪处理，确定与问题文本所对应的至少一个词语级的隐变量。

3.根据权利要求2所述的方法，其特征在于，所述通过所述问答模型网络中的隐变量生成网络，对所述不同的词语级特征向量进行除噪处理，确定与问题文本所对应的至少一个词语级的隐变量，包括：

确定与所述聊天语料标注模型的使用环境相匹配的动态噪声阈值；

根据所述动态噪声阈值对所述问题文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；

根据与所述动态噪声阈值相匹配的动态分词策略，对所述问题文本进行分词处理，形成与所述问题文本相对应的动态词语级特征向量集合。

4.根据权利要求2所述的方法，其特征在于，所述通过所述问答模型网络中的隐变量生成网络，对所述不同的词语级特征向量进行除噪处理，确定与问题文本所对应的至少一个词语级的隐变量，包括：

确定与所述聊天语料标注模型的使用环境相对应的固定噪声阈值；

根据所述固定噪声阈值对所述问题文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的固定分词策略；

根据与所述固定噪声阈值相匹配的固定分词策略，对所述问题文本进行分词处理，与所述问题文本相对应的固定词语级特征向量集合。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定与所述聊天语料标注模型的使用环境的特征；

在数据源中，获取与所述聊天语料标注模型的使用环境的特征相匹配的训练样本集合；

根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所述聊天语料标注模型进行训练，以实现确定与所述聊天语料标注模型中的问题文本扩充模型网络相适配的模型参数；

根据与所述训练样本相匹配的特征集合和相应的问题文本标签对所述聊天语料标注模型进行训练，以实现确定与所述聊天语料标注模型中的问答模型网络相适配的模型参数。

6.一种聊天语料标注装置，其特征在于，所述装置包括：

信息处理模块，用于根据所述问题文本所携带的文本参数信息，触发相应的分词库；通过所触发的所述分词库单词词典对所述问题文本进行分词处理，形成不同的词语级特征向量；对所述不同的词语级特征向量进行除噪处理，形成与所述问题文本相对应的词语级特征向量集合；通过聊天语料标注模型中的问题文本扩充模型网络对与所述问题文本相对应的词语级特征向量集合进行扩充处理，以形成新的问题文本；关联所述问题文本与所述新的问题文本，以形成相应的问题文本对；

所述信息处理模块，还用于通过问答模型网络中的隐变量生成网络，确定与所述问题文本所对应的至少一个词语级的隐变量；通过所述问答模型网络中的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率；根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述问题文本相对应的答复语句，以实现确定与所述问题文本集合中的问题文本相对应的答复语句；

所述信息处理模块，还用于对所述问题文本对和所述答复语句进行修正，并建立所述问题文本对和所述答复语句的关联，以实现对所述聊天语料的标注。

7.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至5任一项所述的聊天语料标注方法。

8.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至5任一项所述的聊天语料标注方法。