CN110795552A

CN110795552A - 一种训练样本生成方法、装置、电子设备及存储介质

Info

Publication number: CN110795552A
Application number: CN201911005505.6A
Authority: CN
Inventors: 闫昭; 张士卫; 张倩汶; 饶孟良; 曹云波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-02-14
Anticipated expiration: 2039-10-22
Also published as: CN110795552B

Abstract

本发明提供了一种训练样本生成方法，包括：获取待处理的初始文本数据；对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词；根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本；通过所述目标文本对相应的文本处理模型进行训练；根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本。本发明还提供了训练样本生成装置、电子设备及存储介质。本发明能够实现提升训练样本的针对性，使其更适用于机器阅读理解任务，同时提高了对特定业务领域的神经网络模型的识别精准度、增强其鲁棒性。

Description

一种训练样本生成方法、装置、电子设备及存储介质

技术领域

本发明涉及机器学习技术，尤其涉及一种训练样本生成方法、装置、电子设备及存储介质。

背景技术

现有技术中，随着机器学习技术的发展，机器阅读可以通过BERT(BidirectionalEncoder Representations from Transformers，源于Transformers的双向编码器)机制实现，在使用BERT对应的模型对文本数据进行处理的过程中，可以将文本数据拆分成一个一个的字符，然后，将每一个字符依次输入到BERT对应的模型中，得到相应的输出结果。但是这一过程中，存在着针对开放领域训练得到的模型在特定领域表现不佳的缺陷(准确率较低、鲁棒性较差)，以及面向特定领域机器阅读理解任务的训练数据资源缺乏的问题。

发明内容

有鉴于此，本发明实施例提供一种训练样本生成方法、装置、电子设备及存储介质，能够利用与针对指定业务的目标文本；通过目标文本对相应的文本处理模型进行训练；根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本。提升了训练样本的针对性，使其更适用于机器阅读理解任务，同时提高了对特定业务领域的神经网络模型的识别精准度、增强其鲁棒性。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种训练样本生成方法，所述方法包括：

获取待处理的初始文本数据；

对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词；

根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本；

通过所述目标文本对相应的文本处理模型进行训练；

根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本。

本发明还提供了一种训练样本生成装置，所述装置包括：

信息传输模块，获取待处理的初始文本数据；

信息处理模块，用于对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词；

所述信息处理模块，用于根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本；

所述信息处理模块，用于通过所述目标文本对相应的文本处理模型进行训练；

所述信息处理模块，用于根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本。

上述方案中，

所述信息处理模块，用于确定与所述文本处理模型的使用环境相匹配的动态噪声阈值；

所述信息处理模块，用于根据所述动态噪声阈值对所述目标文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的第一分词策略；

所述信息处理模块，用于根据与所述动态噪声阈值相匹配的第一分词策略，对所述初始文本进行分词处理，形成与所述初始文本相匹配的关键词；或者

所述信息处理模块，用于确定与所述文本处理模型相对应的固定噪声阈值；

所述信息处理模块，用于根据所述固定噪声阈值对所述目标文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的第二分词策略；

所述信息处理模块，用于根据与所述固定噪声阈值相匹配的第二分词策略，对所述初始文本进行分词处理，形成与所述初始文本相匹配的关键词。

上述方案中，

所述信息处理模块，用于根据所述指定业务的业务类型确定与所述指定业务相匹配的业务类型关键词；

所述信息处理模块，用于根据与所述初始文本数据相匹配的关键词和所述业务类型关键词的匹配结果，对初始文本进行筛选，形成针对指定业务的目标文本。

上述方案中，

所述信息处理模块，用于对所述文本处理模型的训练结果进行语句级处理，形成相应的语句级文本向量；

所述信息处理模块，用于根据所述语句级文本向量的对应关系，确定相应的第一语句级文本向量对集合；

所述信息处理模块，用于对所述第一语句级文本向量对集合中的语句对元素进行随机组合处理，形成第二语句级文本向量对集合。

上述方案中，

所述信息处理模块，用于根据对所述目标文本的领域数据增广处理结果，确定相应的问题文本与对应的答复参考文本；

所述信息处理模块，用于对所述目标文本进行任务数据增广处理，形成相应的多个答复参考文本；

所述信息处理模块，用于对所述问题文本与所述多个答复参考文本进行组合，形成语句级文本向量对集合，以实现获得针对指定业务的训练样本。

上述方案中，

所述信息处理模块，用于确定与所述文本处理模型相匹配的文本窗口与步长参数；

所述信息处理模块，用于根据所述文本窗口与步长参数，对所述答复参考文本进行组合处理，形成与所述文本处理模型相匹配的多个答复参考文本。

上述方案中，

所述信息处理模块，用于当所述目标文本的领域数据增广处理结果为无数据时，触发特定答案增广进程；

所述信息处理模块，用于响应于所述特定答案增广进程对所述指定业务的目标文本中的关键词进行词语级的文本替换，以实现获得针对指定业务的训练样本。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的训练样本生成方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前序的训练样本生成方法。

本发明实施例具有以下有益效果：

通过获取待处理的初始文本数据；对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词；根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本；通过所述目标文本对相应的文本处理模型进行训练；根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本，由此实现了提升了训练样本的针对性，使其更适用于机器阅读理解任务，同时提高了对特定业务领域的神经网络模型的识别精准度、增强其鲁棒性。

附图说明

图1为本发明实施例提供的训练样本生成方法的使用场景示意图；

图2为本发明实施例提供的训练样本生成装置的组成结构示意图；

图3为现有技术中，基于RNN的Seq2Seq模型生成文本阅读结果的示意图；

图4为本发明实施例提供的训练样本生成方法一个可选的流程示意图；

图5为本发明实施例中文本处理模型一个可选的结构示意图；

图6为本发明实施例中文本处理模型一个可选的词语级机器阅读示意图；

图7本发明实施例中文本处理模型中编码器的向量示意图；

图8为本发明实施例中文本处理模型中编码器的向量拼接示意图；

图9为本发明实施例中文本处理模型中编码器的编码过程示意图；

图10为本发明实施例中文本处理模型中解码器的解码过程示意图；

图11为本发明实施例中文本处理模型中解码器的解码过程示意图；

图12为本发明实施例中文本处理模型中解码器的解码过程示意图；

图13为本发明实施例中文本处理模型一个可选的语句级机器阅读示意图；

图14为本发明实施例提供的训练样本生成方法一个可选的流程示意图；

图15为本发明实施例提供的训练样本生成方法一个可选的流程示意图；

图16为本发明所提供的训练样本生成方法的使用环境示意图；

图17为本发明实施例提供的训练样本生成方法一个可选的流程示意图；

图18为本发明实施例提供的训练样本生成方法一个可选的训练过程的示意图；

图19为本发明实施例提供的训练样本生成方法一个可选的处理过程的示意图；

图20为本发明实施例提供的训练样本生成方法一个可选的处理过程的示意图；

图21为传统的文旅领域的直接搜索示意图；

图22为采用本发明所示的训练样本生成方法后搜索结果增强示意图；

图23(体育领域)为采用本发明时嵌入手机或者智能屏等设备提供特定领域的自动问答和智能搜索等服务示意图；

图24(教育领域)为采用本发明时嵌入手机或者智能屏等设备提供特定领域的自动问答和智能搜索等服务示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)机器阅读理解：一种将文本问题和相关文档作为输入将文本答案作为输出的自动问答技术

2)数据增广：英文名称为Data Augmentation，是指通过从内部或者外部数据资源派生的信息来增加基础数据价值的过程。

语言模型：英文名称为Language Model，是表示一串文本序列概率分布的模型，可以对这段文本的存在可能性进行建模。

3)BERT：全称为Bidirectional Encoder Representations from Transformers，一种利用海量文本的语言模型训练方法。该方法被广泛用于多种自然语言处理任务，如文本分类、文本匹配、机器阅读理解等。

4)人工神经网络：简称神经网络(Neural Network，NN)，在机器学习和认知科学领域，是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

5)模型参数：是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中，模型参数通常是实数矩阵。

6)API：全称Application Programming Interface，可翻译成应用程序接口，是一些预先定义的函数，或指软件系统不同组成部分衔接的约定。目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问原码，或理解内部工作机制的细节。

7)SDK：全称Software Development Kit，可翻译成软件开发工具包，是为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合广义上包括辅助开发某一类软件的相关文档、范例和工具的集合。

8)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

9)语音识别(SR Speech Recognition)：也被称为自动语音识别(ASR AutomaticSpeech Recognition)、计算机语音识别(CSR Computer Speech Recognition)或者语音转文本识别(STT Speech To Text)，其目标是使用计算机自动将人类的语音内容转换为相应的文字。

10)机器翻译(Machine Translation，MT)：属于计算语言学的范畴，其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。神经网络机器翻译(Neural Machine Translation，NMT)是使用神经网络技术进行机器翻译的一种技术。

11)编码器-解码器结构：机器翻译技术常用的网络结构。由编码器和解码器两部分组成，编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量，解码器接收编码器输出的结果作为自己的输入，输出对应的另一种语言的文本序列。

12)token：词单元，对输入文本做任何实际处理前，都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。

13)Softmax：归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中，使得每一个元素的范围都在[0，1]之间，并且所有元素的和为1。

图1为本发明实施例提供的训练样本生成方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有关于文本输入功能的应用软件的客户端，用户通过所设置的文本输入客户端可以输入相应的问题语句，文本输入客户端也可以接收相应的文本阅读结果，并将所接收的文本阅读结果向用户进行展示；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

作为一个示例，服务器200用于布设所述文本处理模型并对所述文本处理模型进预行训练，以及训练样本生装置以实现获取待处理的初始文本数据；对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词；根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本；通过所述目标文本对相应的文本处理模型进行训练；根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本，并通过终端(终端10-1和/或终端10-2)展示文本处理模型所生成的文本阅读结果进行展示。

当然在通过文本处理模型对目标问题语句进行处理以生成相应的文本阅读结果之前，还需要生成相应的训练样本对文本处理模型进行训练，具体包括：获取待处理的初始文本数据；对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词；根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本；通过所述目标文本对相应的文本处理模型进行训练；根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本。

下面对本发明实施例的训练样本生成装置的结构做详细说明，训练样本生成装置可以各种形式来实施，如带有训练样本生成功能的专用终端，也可以为设置有训练样本生成功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的训练样本生成装置的组成结构示意图，可以理解，图2仅仅示出了训练样本生成装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的训练样本生成装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。训练样本生装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的训练样本生成装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的训练样本生成装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的训练样本生成方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的训练样本生成装置采用软硬件结合实施的示例，本发明实施例所提供的训练样本生成装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的训练样本生成方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的训练样本生成装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的训练样本生成方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持训练样本生装置的操作。这些数据的示例包括：用于在训练样本生装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从训练样本生成方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的训练样本生成装置可以采用软件方式实现，图2示出了存储在存储器202中的训练样本生成装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括训练样本生成装置，训练样本生成装置中包括以下的软件模块：信息传输模块2081，信息处理模块2082。当训练样本生成装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的训练样本生成方法，接下来说明训练样本生成装置中各个软件模块的功能，其中，

信息传输模块2081，获取待处理的初始文本数据；

信息处理模块2082，用于对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词；

所述信息处理模块2082，用于根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本；

所述信息处理模块2082，用于通过所述目标文本对相应的文本处理模型进行训练；

所述信息处理模块2082，用于根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本。

结合图2示出的训练样本生装置说明本发明实施例提供的训练样本生成方法，在介绍本发明实施例提供的训练样本生成方法之前，首先介绍相关技术中，通过传统的文本处理模型根据问题文本生成相应文本阅读结果的过程中，图3为现有技术中，基于RNN的Seq2Seq模型生成文本阅读结果的示意图，其中，eq2seq模型是以编码器(Encode)和解码器(Decode)为代表的架构方式，seq2seq模型是根据输入序列X来生成输出序列Y。编码器(Encode)和解码器(Decode)为代表的seq2seq模型中，编码器(Encode)是将输入序列转化成一个固定长度的向量，解码器(Decode)将输入的固定长度向量解码成输出序列。如图3所示，编码器(Encoder)对输入的问题语句进行编码，得到问题语句的文本特征；解码器(Decoder)对文本特征进行解码后输出生成相应的回复，其中，编码器(Encode)和解码器(Decode)是一一对应的。

可见，对于图3所示的相关技术来说基于Seq2Seq模型的文本标注系统的缺点在于，相关技术中的模型本身只对训练数据目标文本y-标注信息建立一对一的关系，并且使用MLE进行模型的优化，这导致了模型会生成很多高频的通用回复，这些回复往往没有意义且很短。同时，很多实际场景中，同一个目标文本y可以有很多种标注信息，现有的Seq2Seq模型由于编码器(Encode)和解码器(Decode)是一一对应的，并不能够有效对这种一对多问题进行处理，用户体验差。

为解决这一相关技术中的缺陷，参见图4，图4为本发明实施例提供的训练样本生成方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行训练样本生成装置的各种电子设备执行，例如可以是如带有样本生成功能的专用终端、带有训练样本生成功能的服务器或者服务器集群。下面针对图4示出的步骤进行说明。

步骤401：训练样本生成装置获取待处理的初始文本数据。

步骤402：训练样本生成装置对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词。

在本发明的一些实施例中，所述对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词，可以通过以下方式实现：

确定与所述文本处理模型的使用环境相匹配的动态噪声阈值；根据所述动态噪声阈值对所述目标文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的第一分词策略；根据与所述动态噪声阈值相匹配的第一分词策略，对所述初始文本进行分词处理，形成与所述初始文本相匹配的关键词。其中由于文本处理模型的使用环境不同，与所述文本处理模型的使用环境相匹配的动态噪声阈值也不相同，例如，学术翻译的使用环境中，与所述文本处理模型的使用环境相匹配的动态噪声阈值需要小于文章阅读环境中的动态噪声阈值。

确定与所述文本处理模型相对应的固定噪声阈值；根据所述固定噪声阈值对所述目标文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的第二分词策略；根据与所述固定噪声阈值相匹配的第二分词策略，对所述初始文本进行分词处理，形成与所述初始文本相匹配的关键词。其中，当文本处理模型固化于相应的硬件机构中，使用环境为口语化翻译时，通过固定文本处理模型相对应的固定噪声阈值，能够有效提神文本处理模型的训练速度，减少用户的等待时间。

在本发明的一些实施例中，关键词对应的语义描述信息可以根据相关人员整理的、用于描述该关键词的信息(以下简称为专家描述信息)确定，相关人员可以是相关领域的专家。具体地，可以由专家针对各候选关键词整理各自对应的专家描述信息，再根据各候选关键词、各专家描述信息、以及各候选关键词及各专家描述信息之间的匹配关系，构建专家知识库，据此，需要得到关键词的语义描述信息时，在专家知识库中查找与该关键词对应的候选关键词，该关键词的语义描述信息可以包括查找到的候选关键词所匹配的专家描述信息。进一步地，语义表达式可以包括正向语义表达式和负向语义表达式，语义关系包括正向语义关系和负向语义关系。此外，还包括限定语义表达式，限定语义表达式是描述阅读语义语义中限定关系的表达式。限定语义表达式包括限定关键词。限定关键词用于对关键词进行限定，可以更加精确地表达阅读语义语义。比如，对于“游戏—水浒传”与“图书—水浒传”这两个阅读语义，因为两者都有“水浒传”这个共有关键词，其关键词层面的相关度是很高的。但是从语义上来说，一个是“游戏”，另一个则是“图书”，它们之间的相关度则很低。通过限定语义表达式表述后，即可反映出它们之间在语义层面的相关度。

在本发明的一些实施例中，所述根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本，可以通过以下方式实现：

根据所述指定业务的业务类型确定与所述指定业务相匹配的业务类型关键词；根据与所述初始文本数据相匹配的关键词和所述业务类型关键词的匹配结果，对初始文本进行筛选，形成针对指定业务的目标文本。

步骤403：训练样本生成装置根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本。

步骤404：训练样本生成装置通过所述目标文本对相应的文本处理模型进行训练。

在本发明的一些实施例中，第一阅读语义标注网络可以为双向注意力神经网络模(BERT Bidirectional Encoder Representations from Transformers)。继续参考图5，图5为本发明实施例中文本处理模型一个可选的结构示意图，其中，Encoder包括：N＝6个相同的layers组成，每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。

Decoder包括：由N＝6个相同的Layer组成，其中layer和encoder并不相同，这里的layer包含了三个sub-layers，其中有一个self-attention layer，encoder-decoderattention layer最后是一个全连接层。前两个sub-layer都是基于multi-head attentionlayer。

继续参考图6，图6为本发明实施例中文本处理模型一个可选的词语级机器阅读示意图，其中，其中，encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后，输出到了decoder部分的每一个decoder中；输入目标为“我是一个学生t”经过文本处理模型的处理，输出的机器阅读示结果为：“学生”。

继续参考图7，图7为本发明实施例中文本处理模型中编码器一个可选的结构示意图，其中，其输入由维度为d的查询(Q)和键(K)以及维度为d的值(V)组成，所有键计算查询的点积，并应用softmax函数获得值的权重。

继续参考图7，图7本发明实施例中文本处理模型中编码器的向量示意图，其中Q，K和V的是通过输入encoder的向量x与W^Q，W^K，W^V相乘得到Q，K和V。W^Q，W^K，W^V在文章的维度是(512，64)，然后假设我们inputs的维度是(m，512)，其中m代表了字的个数。所以输入向量与W^Q，W^K，W^V相乘之后得到的Q、K和V的维度就是(m，64)。

继续参考图8，图8为本发明实施例中文本处理模型中编码器的向量拼接示意图，其中，Z0到Z7就是对应的8个并行的head(维度是(m，64))，然后concat这个8个head之后就得到了(m，512)维度。最后与W^O相乘之后就到了维度为(m，512)的输出的矩阵，那么这个矩阵的维度就和进入下一个encoder的维度保持一致。

继续参考图9，图9为本发明实施例中文本处理模型中编码器的编码过程示意图，其中，x1经过self-attention到了z1的状态，通过了self-attetion的张量还需要进过残差网络和LaterNorm的处理，然后进入到全连接的前馈网络中，前馈网络需要进行同样的操作，进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中，然后这样的操作，迭代经过了6次，迭代处理的结果进入到decoder中。

继续参考图10，图10为本发明实施例中文本处理模型中解码器的解码过程示意图，其中，decoder的输入输出和解码过程：

输出：对应i位置的输出词的概率分布；

输入：encoder的输出&对应i-1位置decoder的输出。所以中间的attention不是self-attention，它的K，V来自encoder，Q来自上一位置decoder的输出。

继续参考图11和图12，图11为本发明实施例中文本处理模型中解码器的解码过程示意图，其中。解码器网络的最后一个decoder输出的向量会经过Linear层和softmax层。图12为本发明实施例中文本处理模型中解码器的解码过程示意图，Linear层的作用就是对decoder部分出来的向量做映射成一个logits向量，然后softmax层根据这个logits向量，将其转换为了概率值，最后找到概率最大值的位置，即完成了解码器的输出。

继续参考图13，图13为本发明实施例中文本处理模型一个可选的语句级机器阅读示意图，其中，其中，encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后，输出到了decoder部分的每一个decoder中；输入目标为英语“I am a student”经过文本处理模型的处理，输出的机器阅读示结果为：“我是一个学生”。

步骤405：训练样本生成装置根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本。

在本发明的一些实施例中，所述根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本，可以通过以下方式实现：

对所述文本处理模型的训练结果进行语句级处理，形成相应的语句级文本向量；根据所述语句级文本向量的对应关系，确定相应的第一语句级文本向量对集合；对所述第一语句级文本向量对集合中的语句对元素进行随机组合处理，形成第二语句级文本向量对集合。其中，由于第二语句级文本向量对集合中的训练样本均对集合来自指定业务(特定领域)，所以文本处理模型会有更好的领域特性，更适用于该指定业务领域的任务。

继续参考图14，图14为本发明实施例提供的训练样本生成方法一个可选的流程示意图，可以理解地，图14所示的步骤可以由运行训练样本生成装置的各种电子设备执行，例如可以是如带有训练样本生成功能的专用终端、带有训练样本生成功能的服务器或者服务器集群。下面针对图14示出的步骤进行说明。

步骤1401：训练样本生成装置根据对所述目标文本的领域数据增广处理结果，确定相应的问题文本与对应的答复参考文本；

步骤1402：训练样本生成装置对所述目标文本进行任务数据增广处理，形成相应的多个答复参考文本。

在本发明的一些实施例中，所述对所述目标文本进行任务数据增广处理，形成相应的多个答复参考文本，可以通过以下方式实现：

确定与所述文本处理模型相匹配的文本窗口与步长参数；根据所述文本窗口与步长参数，对所述答复参考文本进行组合处理，形成与所述文本处理模型相匹配的多个答复参考文本。其中，窗口大小w和步长s(s<w)。窗口1是从第1个字到第w个字的区间。窗口2是从第s个字到第w+s个字的区间。然后，窗口不断向右滑动s个字，并取同等大小(字数)的窗口，可依次得到第3、第4、…、第k个窗口，直到可以覆盖答复参考文本最后一个字符，由此，形成相应的多个答复参考文本。

步骤1403：训练样本生成装置对所述问题文本与所述多个答复参考文本进行组合，形成语句级文本向量对集合，以实现获得针对指定业务的训练样本。

由于多个答复参考文本所组成的训练样本均对集合来自指定业务(特定领域)，所以文本处理模型会有更好的领域特性，更适用于该指定业务领域的任务。

继续参考图15，图15为本发明实施例提供的训练样本生成方法一个可选的流程示意图，可以理解地，图15所示的步骤可以由运行训练样本生成装置的各种电子设备执行，例如可以是如带有训练样本生成功能的专用终端、带有训练样本生成功能的服务器或者服务器集群。下面针对图15示出的步骤进行说明。

步骤1501：当所述目标文本的领域数据增广处理结果为无数据时，训练样本生成装置触发特定答案增广进程；

步骤1502：响应于所述特定答案增广进程对所述指定业务的目标文本中的关键词进行词语级的文本替换，以实现获得针对指定业务的训练样本。

在本发明的一些实施例中，当所述目标文本的领域数据增广处理结果为无数据时，还可以将两组问题-文档对<Q1，D1>和<Q2，D2>重新组合，可生成<Q1，D2>和<Q2，D1>两个无答案的问题，以实现获得针对指定业务的训练样本。

下面以不同的具体指定业务，对本发明所提供的训练样本生成方法进行说明，参考图16，图16为本发明所提供的训练样本生成方法的使用环境示意图，，本发明所提供的训练样本生成方法可以作为云服务的形式服务企业客户，也可以通过优化后台模型间接提高产品用户体验的方式服务个人客户，本发明不做具体限制，其中，作为云服务提供给企业客户，帮助其增广所上传的数据或者以训练好的模型、阅读理解服务的形式反馈给企业客户。

继续参考图17，图17为本发明实施例提供的训练样本生成方法一个可选的流程示意图，包括以下步骤：

步骤1701：进行领域数据增广处理。

其中，可选的，先利用开放领域获取的海量数据，训练出基本的预训练语言模型。

之后，对获取到的特定领域的文档集合进行领域数据增广，具体包括：逐个对每个文档进行断句操作，并整合成由N个句子组成的集合S＝{s_i|_i[1，N]}。之后，可以并按照句子的上下句关系组成“上句-下局”句子对集合P⁺＝{<s_i，s_i+1>|_i[1，N-1]}。然后，对于P⁺中的每个句对<s_i，s_i+1>，可以替换从句子集合中随机选取一个句子s_j且j≠i+1来替换s_i+1，构成新的句子对<s_i，s_j>。由此构成的集合记为P^-＝{<s_i，s_j>|_i[1，N-1]，j≠i+1}。然后可以将P⁺与P^-合并构成P＝P⁺∪P^-。最后，可以使用判断句子对是否为上下句关系的任务，继续训练之前得到的预训练语言模型。参考图18，图18为本发明实施例提供的训练样本生成方法一个可选的训练过程的示意图，可以从集合P中选取一个句子对<s_i，s_j>，如果i＝i+1，则正确标签应该为“是”；否则标签为“否”。可以根据是否能够做对这个判断，来对当前的预训练语言模型进行训练。由于上下句句子对集合来自特定领域，所以微调后的预训练语言模型会有更好的领域特性，更适用于该领域的任务。

在本发明的一些实施例中，步骤1701所示的数据增广处理中API的一个可选的示例可以参考表1与表2，其中表1为输入参数，表2为输出参数。

表1

表2

步骤1702：进行任务数据增广处理。

其中，由步骤1701得到的预训练语言模型是根据判断句子上下句关系这个任务得到的。所以，在任务数据增广中，可以使用机器阅读理解任务的数据对预训练语言模型进行进一步调整。继续参考图19，图19为本发明实施例提供的训练样本生成方法一个可选的处理过程的示意图，问题Q和参考文本D构成<Q，D>对作为输入，经过基本BERT结构后，在经过一个全连接神经网络，输出答案开始位置和终止位置的概率分布，最终选出答案片段。由于构建机器阅读理解任务的数据通常需要花费大量人力成本。因此可以提出了一种滑动窗口方法基于已有的机器阅读理解任务数据进行增广。

继续参考图20，图20为本发明实施例提供的训练样本生成方法一个可选的处理过程的示意图，其中滑动窗口机制，包括：给定一个字数为N的文档，可以设置两个参数：窗口大小w和步长s(s<w)。窗口1是从第1个字到第w个字的区间。窗口2是从第s个字到第w+s个字的区间。然后，窗口不断向右滑动s个字，并取同等大小(字数)的窗口，可依次得到第3、第4、…、第k个窗口，直到可以覆盖最后一个字。通过该机制，可以将一个问题Q与参考文本D构成的组合，裂变成了问题Q与多个文本窗口的组合。由于窗口机制还可以保持答案的上下文，尤其是离答案最接近的上下文，所以主要的信息并没有丢失。因此，该方法增广出的数据质量是比较高的。

步骤1703：进行特定答案类型数据增广处理。

其中，针对答案类型为“无答案”问题的情况，本发明还可以提供两种数据增广方法：

1)替换问题中的名词，比如问“故宫的门票是多少钱”，可以将“故宫”换成收集到的语料中的其他名词，所得到的问题与对应的文档则构成无法回答的问题。如“颐和园的门票是多少钱”。

2)可以将两组问题-文档对<Q1，D1>和<Q2，D2>重新组合，可生成<Q1，D2>和<Q2，D1>两个无答案的问题。

通过综合利用以上数据增广方法，可以训练出答案识别精准度更高、鲁棒性更好、特定领域针对性更强的机器阅读理解模型。其中，参考图21—图24为本发明所提供的训练样本生成方法应用于不同领域的前端显示界面，其中，优化特定领域相关检索的用户体验。具体变现形式，既可以是直接搜索，也可以是对已有搜索结果的增强。至于搜索产品是网页搜索、app内搜索或者某个产品或者应用的单独功能，可以不做限制，均是本发明所适用的场景。其中，图21为文旅领域的直接搜索示意图，图22为采用本发明所示的训练样本生成方法后搜索结果增强示意图，图23(体育领域)为采用本发明时嵌入手机或者智能屏等设备提供特定领域的自动问答和智能搜索等服务示意图；图24(教育领域)为采用本发明时嵌入手机或者智能屏等设备提供特定领域的自动问答和智能搜索等服务示意图。

本发明具有以下有益技术效果：

本发明通过获取待处理的初始文本数据；对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词；根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本；通过所述目标文本对相应的文本处理模型进行训练；根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本，由此实现了提升了训练样本的针对性，使其更适用于机器阅读理解任务，同时提高了对特定业务领域的神经网络模型的识别精准度、增强其鲁棒，有效提升用户的使用体验。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种训练样本生成方法，其特征在于，所述方法包括：

获取待处理的初始文本数据；

通过所述目标文本对相应的文本处理模型进行训练；

2.根据权利要求1所述的方法，其特征在于，所述对所述初始文本数据进行分词处理，以形成与所述初始文本数据相匹配的关键词，包括：

确定与所述文本处理模型的使用环境相匹配的动态噪声阈值；

根据所述动态噪声阈值对所述目标文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的第一分词策略；

根据与所述动态噪声阈值相匹配的第一分词策略，对所述初始文本进行分词处理，形成与所述初始文本相匹配的关键词；或者

确定与所述文本处理模型相对应的固定噪声阈值；

根据所述固定噪声阈值对所述目标文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的第二分词策略；

根据与所述固定噪声阈值相匹配的第二分词策略，对所述初始文本进行分词处理，形成与所述初始文本相匹配的关键词。

3.根据权利要求2所述的方法，其特征在于，所述根据与所述初始文本数据相匹配的关键词对初始文本进行筛选，以形成针对指定业务的目标文本，包括：

根据所述指定业务的业务类型确定与所述指定业务相匹配的业务类型关键词；

根据与所述初始文本数据相匹配的关键词和所述业务类型关键词的匹配结果，对初始文本进行筛选，形成针对指定业务的目标文本。

4.根据权利要求1所述的方法，其特征在于，所述根据所述文本处理模型的训练结果对所述目标文本进行领域数据增广处理，以形成针对指定业务的训练样本，包括：

对所述文本处理模型的训练结果进行语句级处理，形成相应的语句级文本向量；

根据所述语句级文本向量的对应关系，确定相应的第一语句级文本向量对集合；

对所述第一语句级文本向量对集合中的语句对元素进行随机组合处理，形成第二语句级文本向量对集合。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据对所述目标文本的领域数据增广处理结果，确定相应的问题文本与对应的答复参考文本；

对所述目标文本进行任务数据增广处理，形成相应的多个答复参考文本；

对所述问题文本与所述多个答复参考文本进行组合，形成语句级文本向量对集合，以实现获得针对指定业务的训练样本。

6.根据权利要求5所述的方法，其特征在于，所述对所述目标文本进行任务数据增广处理，形成相应的多个答复参考文本，包括：

确定与所述文本处理模型相匹配的文本窗口与步长参数；

根据所述文本窗口与步长参数，对所述答复参考文本进行组合处理，形成与所述文本处理模型相匹配的多个答复参考文本。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述目标文本的领域数据增广处理结果为无数据时，触发特定答案增广进程；

响应于所述特定答案增广进程对所述指定业务的目标文本中的关键词进行词语级的文本替换，以实现获得针对指定业务的训练样本。

8.一种训练样本生成装置，其特征在于，所述装置包括：

信息传输模块，获取待处理的初始文本数据；

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至7任一项所述的训练样本生成方法。

10.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至7任一项所述的训练样本生成方法。