CN113361629A

CN113361629A - 一种训练样本生成的方法、装置、计算机设备及存储介质

Info

Publication number: CN113361629A
Application number: CN202110705512.8A
Authority: CN
Inventors: 莫琪
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-07

Abstract

本申请公开了一种训练样本生成的方法、装置、计算机设备和存储介质，属于人工智能技术领域，本申请通过对初始训练样本和目标训练样本进行拼接，得到样本匹配对，将样本匹配对导入到第一处理模型，得到初始目标样本集，将目标训练样本和初始目标样本集导入到第二处理模型，获取目标训练样本和每一个初始目标样本的相似度，将与目标训练样本的相似度大于预设阈值的初始目标样本作为相似目标样本，将相似目标样本与初始训练样本进行组合，得到训练样本集。此外，本申请还涉及区块链技术，初始训练样本和目标训练样本可存储于区块链中。本申请通过第一处理模型生成初始目标样本，通过第二处理模型对初始目标样本进行筛选，提高生成训练样本的精度。

Description

一种训练样本生成的方法、装置、计算机设备及存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种训练样本生成的方法、装置、计算机设备和存储介质。

背景技术

在人工智能领域，训练样本是极其重要的，训练样本的质量和数量对于一个模型的好坏有着决定性作用，对于深度模型而言，一般需要的训练样本的数量往往十分巨大，而在构造一个优秀的人工智能模型过程中，最耗费时间和人力物力的往往就是生成数量庞大的训练数据了。例如，在电销场景中，针对于电销语音模型的训练，目前开源的语料库极其稀少，导致要想获得大量的训练样本语料，就必须使用大量人力去标注数据，这种做法会浪费大量的时间和精力，而且对于电销场景，标注人员也需要具备一定的销售经验和培训，标注数据的正确性想短时间达到极高的准确率是相对比较困难的。

例如，在智能电话销售场景下，通常需要根据客户在电话中所表达的意图，例如借款场景下，客户询问利息多少、额度多少等意图，我们需要针对客户话中表达的意图进行意图识别和分类，然后根据对话策略播报对应的解答话术，通常情况下，想要建立精确的意图识别和分类的有监督模型，需要大量的标注数据用于训练，但是实际业务上，大量的标注数据需要投入很多人力进行标注，人力标注效率较低，且准确率不高。

发明内容

本申请实施例的目的在于提出一种训练样本生成的方法、装置、计算机设备及存储介质，以解决现有的人工标注的训练样本生成方案存在的效率较低，且准确率不高的技术问题。

为了解决上述技术问题，本申请实施例提供一种训练样本生成的方法，采用了如下所述的技术方案：

一种训练样本生成的方法，包括：

获取初始训练样本和目标训练样本，并对所述初始训练样本和所述目标训练样本进行拼接，得到样本匹配对；

将所述样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，所述初始目标样本集包含若干个初始目标样本；

将所述目标训练样本和所述初始目标样本集导入到预设的第二处理模型，通过所述第二处理模型依次计算所述目标训练样本和每一个所述初始目标样本的相似度；

获取与所述目标训练样本的相似度大于预设阈值的初始目标样本，得到相似目标样本；

将所述相似目标样本与所述初始训练样本进行组合，得到训练样本集。

进一步地，所述获取初始训练样本和目标训练样本，并对所述初始训练样本和所述目标训练样本进行拼接，得到样本匹配对的步骤，具体包括：

分别对所述初始训练样本和所述目标训练样本进行预处理，其中，所述预处理包括分词和去除停用词；

分别提取预处理后所述初始训练样本和所述目标训练样本的文本实体；

分别对所述初始训练样本的文本实体和所述目标训练样本的文本实体进行匹配，得到样本匹配对。

进一步地，在所述将所述样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，所述初始目标样本集包含若干个初始目标样本之前，还包括：

获取第一训练集，并生成所述第一训练集对应的掩膜标识；

构建初始第一处理模型，通过所述掩膜标识调整所述初始第一处理模型的掩膜矩阵；

通过所述第一训练集对掩膜矩阵调整后的所述初始第一处理模型进行模型训练，得到第一处理模型。

进一步地，所述第一训练集包括初始样本和目标样本，通过调整所述掩膜矩阵可以调节所述初始第一处理模型的网络，以获得单向模型、双向模型和序列到序列模型，所述构建初始第一处理模型，通过所述掩膜标识调整所述初始第一处理模型的掩膜矩阵的步骤，具体包括：

基于Transformer网络结构构建所述初始第一处理模型；

通过所述掩膜标识对所述初始第一处理模型的掩膜矩阵进行第一调整，将所述初始第一处理模型调整为所述双向模型，所述双向模型用于处理所述初始样本；

通过所述掩膜标识对所述初始第一处理模型的掩膜矩阵进行第二调整，将所述初始第一处理模型调整为所述单向模型，所述双向模型用于处理所述目标样本。

进一步地，在所述通过所述第一训练集对掩膜矩阵调整后的所述初始第一处理模型进行模型训练，得到第一处理模型的步骤之后，还包括：

获取第一验证集，并将所述第一验证集导入所述第一处理模型，得到验证结果；

基于所述验证结果与预设标准结果，使用反向传播算法进行拟合，获取处理误差；

将处理误差与预设误差阈值进行比较，若所述处理误差大于预设误差阈值，则对第一处理模型进行迭代更新，直至所述处理误差小于或等于预设误差阈值为止；

输出所述处理误差小于或等于预设误差阈值的第一处理模型。

进一步地，所述将所述样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，所述初始目标样本集包含若干个初始目标样本的步骤，具体包括：

依次对所述样本匹配对中的每一个文本实体进行向量转化，得到向量矩阵；

通过所述第一处理模型对所述向量矩阵进行处理，输出的若干个初始目标样本；

获取所述第一处理模型输出的若干个所述初始目标样本，通过若干个所述初始目标样本构建所述初始目标样本集。

进一步地，所述将所述目标训练样本和所述初始目标样本集导入到预设的第二处理模型，通过所述第二处理模型依次计算所述目标训练样本和每一个所述初始目标样本的相似度的步骤，具体包括：

将所述目标训练样本导入到所述第二处理模型的嵌入层，得到第一嵌入值；

分别将每一个所述初始目标样本导入到所述第二处理模型嵌入层，得到若干个第二嵌入值；

基于所述第一嵌入值和每一个所述第二嵌入值依次计算的每一个所述初始目标样本与所述目标训练样本的相似度。

为了解决上述技术问题，本申请实施例还提供一种训练样本生成的装置，采用了如下所述的技术方案：

一种训练样本生成的装置，包括：

样本获取模块，用于获取初始训练样本和目标训练样本，并对所述初始训练样本和所述目标训练样本进行拼接，得到样本匹配对；

第一处理模块，用于将所述样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，所述初始目标样本集包含若干个初始目标样本；

第二处理模块，用于将所述目标训练样本和所述初始目标样本集导入到预设的第二处理模型，通过所述第二处理模型依次计算所述目标训练样本和每一个所述初始目标样本的相似度；

相似度比对模块，用于获取与所述目标训练样本的相似度大于预设阈值的初始目标样本，得到相似目标样本；

样本集生成模块，用于将所述相似目标样本与所述初始训练样本进行组合，得到训练样本集。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上述所述的训练样本生成的方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述所述的训练样本生成的方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开了一种训练样本生成的方法、装置、计算机设备和存储介质，属于人工智能技术领域，本申请通过初始训练样本和目标训练样本构建样本匹配对，通过第一处理模型对样本匹配对进行预测生成初始目标样本，然后通过第二处理模型计算生成初始目标样本与目标训练样本的相似度，最后通过预设相似度阈值对初始目标样本进行筛选，只有相似度大于预设相似度阈值的初始目标样本才允许用于构建训练样本集。本申请通过第一处理模型生成初始目标样本，通过第二处理模型构建语义相似度任务，通过预设相似度阈值对初始目标样本进行筛选，并获取相似度大于预设阈值的初始目标样本来构建训练样本集，以提高生成训练样本的精度。此外，本申请的第一处理模型可以通过调整掩膜获得单向和双向自注意力的样本生成机制，以构建单向和双向自注意力样本生成任务，以进一步提高生成训练样本的精度。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请可以应用于其中的示例性系统架构图；

图2示出了根据本申请的训练样本生成的方法的一个实施例的流程图；

图3示出了根据本申请的训练样本生成的装置的一个实施例的结构示意图；

图4示出了根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的训练样本生成的方法一般由服务器执行，相应地，训练样本生成的装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的训练样本生成的方法的一个实施例的流程图。所述的训练样本生成的方法，包括以下步骤：

S201，获取初始训练样本和目标训练样本，并对所述初始训练样本和所述目标训练样本进行拼接，得到样本匹配对。

其中，初始训练样本和目标训练样本均为文本，初始训练样本和目标训练样本具有相互对应的关系，例如，初始训练样本表征问题，目标训练样本表征与问题对应的答案等。在本申请具体的实施例中，初始训练样本和目标训练样本可以从电话销售场景下，销售人员和用户的语音数据中获得，通过对语音数据进行音转文处理，得到文本数据，从文本数据中获取初始训练样本和目标训练样本。

具体的，服务器在接收到训练样本生成指令时，基于接收到训练样本生成指令获取初始训练样本和目标训练样本，并对初始训练样本和目标训练样本进行分词和去除停用词处理，然后分别提取初始训练样本和目标训练样本的文本实体，并通过对初始训练样本的文本实体和目标训练样本的文本实体进行匹配，得到样本匹配对。

在本实施例中，训练样本生成的方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收到训练样本生成指令。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。

在本申请具体的实施例中，初始训练样本为“XX贷款的利息是多少？”，目标训练样本为“请根据用户的个人情况进行评估。”，将初始训练样本和目标训练样本进行拼成，得到“[CLS]XX贷款的利息是多少[SEP]请根据用户的个人情况进行评估[SEP]”，其中，[CLS]表示起点标识，[SEP]为结束标识，添加[CLS]标识和[SEP]标识用于分隔文本，方便后面模型进行处理。通过对上述拼接的文本进行分词、去除停用词等操作后，服务器提取上述初始训练样本和目标训练样本的文本实体并进行文本实体匹配后，得到样本匹配对为“[CLS]贷款-利息-多少[SEP]用户-个人情况-评估[SEP]”，样本匹配对用于预测生成与目标训练样本相似的初始目标样本。

S202，将所述样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，所述初始目标样本集包含若干个初始目标样本。

其中，第一处理模型为UniLM(Unified pre-trained Language Model，UNILM)模型，UniLM是一种基于Transformer网络的模型，UniLM是一种能够同时处理自然语言理解和自然语言生成的模型，由微软在2019年5月份提出，UniLM的核心是通过特殊的Mask来赋予模型具有Seq2Seq的能力。其中，UniLM采用3种无监督的语言模型目标，即单向模型即单向LM(包括从左到右和从右到左)、双向模型即双向LM和序列到序列模型即sequence-to-sequence LM(seq2seq LM)，其中LM为language model。UniLM采用一个共享参数的Transformer网络，同时还使用了特定的自注意力掩膜标识(self-attention masks)用以控制预测时所用到的上下文信息。在训练时，通过调整Transformer网络中的掩膜矩阵(mask)矩阵以实现上述三种LM。

具体的，将样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，初始目标样本集包含若干个初始目标样本。在本申请具体的实施例中，第一处理模型需要提前进行训练，使得第一处理模型针对初始训练样本和目标训练样本具有不同的预测递归方式，当目标训练样本表征答案文本时，第一处理模型的训练通过调整掩膜矩阵使得第一处理模型针对初始训练样本进行预测递归时属于双向模型，即即允许通过初始训练样本预测目标训练样本，也允许通过目标训练样本预测初始训练样本。而针对与目标训练样本进行预测递归时属于单向模型，即只允许通过初始训练样本预测目标训练样本，不允许通过目标训练样本预测初始训练样本。反之，当目标训练样本表征问题文本时，第一处理模型的掩膜矩阵的调整与上述掩膜矩阵相反。通过调整第一处理模型的掩膜矩阵，使得第一处理模型获得针对初始训练样本和目标训练样本具有不同的预测递归方式，提高了生成的初始目标样本集的精度。

S203，将所述目标训练样本和所述初始目标样本集导入到预设的第二处理模型，通过所述第二处理模型依次计算所述目标训练样本和每一个所述初始目标样本的相似度。

其中，第二处理模型为SimBERT模型，SimBERT模型具备相似文本检索能力，SimBERT属于有监督训练，训练语料是自行收集到的相似句对，本申请通过SimBERT模型构建语义相似度任务，会根据文本对应的[CLS]标识对应的嵌入值来计算相似度。

具体的，将目标训练样本和初始目标样本集导入到预设的第二处理模型，通过第二处理模型依次计算目标训练样本和每一个初始目标样本的相似度，得到每一个初始目标样本与目标训练样本的相似度。这样利用UniLM模型的双向自注意力机制和SimBERT模型的语义相似度任务可以很好的进行文本生成任务和文本筛选任务，以获得精准的训练样本集。

S204，获取与所述目标训练样本的相似度大于预设阈值的初始目标样本，得到相似目标样本。

具体的，对上述计算得到的所有相似度进行排序，根据排序结果和预设相似度阈值确定相似目标样本，其中，相似目标样本为初始目标样本集中与目标训练样本的相似度大于预设相似度阈值的所有初始目标样本。

S205，将所述相似目标样本与所述初始训练样本进行组合，得到训练样本集。

具体的，将每一个相似目标样本分别与初始训练样本进行组合，生成若干个对答文本，将上述若干个对答文本进行组合即可得到训练样本集。需要说明的是，也可以将初始训练样本和目标训练样本进行组合后添加到训练样本集中，以丰富训练样本集。

在上述实施例中，本申请通过初始训练样本和目标训练样本构建样本匹配对，通过第一处理模型对样本匹配对进行预测生成初始目标样本，然后通过第二处理模型计算生成初始目标样本与目标训练样本的相似度，最后通过预设相似度阈值对初始目标样本进行筛选，只有相似度大于预设相似度阈值的初始目标样本才允许用于构建训练样本集。本申请通过第一处理模型生成初始目标样本，通过第二处理模型构建语义相似度任务，通过预设相似度阈值对初始目标样本进行筛选，并获取相似度大于预设阈值的初始目标样本来构建训练样本集，以提高生成训练样本的精度。此外，本申请的第一处理模可以通过调整掩膜获得单向和双向自注意力的样本生成机制，以构建单向和双向自注意力样本生成任务，以进一步提高生成训练样本的精度。

具体的，服务器在获取到初始训练样本和目标训练样本之后，分别对初始训练样本和目标训练样本进行预处理，其中，预处理包括分词和去除停用词，然后分别提取预处理后初始训练样本和目标训练样本的文本实体，分别对所述初始训练样本的文本实体和所述目标训练样本的文本实体进行匹配，得到样本匹配对。

在上述实施例中，预处理还包括去除标点符号，分别对初始训练样本和目标训练样本进行预处理，提取得到初始训练样本的文本实体为“XX贷款-利息-多少”，提取得到目标训练样本的文本实体为“用户-个人情况-评估”，将提取文本实体后得到样本匹配对为“[CLS]贷款-利息-多少[SEP]用户-个人情况-评估[SEP]”。

在上述实施例中，通过对初始训练样本和目标训练样本进行预处理和文本提取，然后对文本实体进行匹配，得到样本匹配对，样本匹配对用于生成初始目标样本。

获取第一训练集，并生成所述第一训练集对应的掩膜标识；

其中，掩膜标识可以是第一处理模型的掩膜矩阵对应的样本标识，对于每一组第一训练集，服务器会随机生成第一训练集对应的掩膜标识，掩膜标识与掩膜矩阵相对应，服务器可以根据掩膜标识修改掩膜矩阵，将Transformer网络设置为不同的LM。

具体的，在进行第一处理模型的训练时，服务器首先构建初始第一处理模型，然后获取第一训练集，并生成第一训练集对应的掩膜标识，构建初始第一处理模型，最后通过掩膜标识调整初始第一处理模型的掩膜矩阵，通过第一训练集对掩膜矩阵调整后的初始第一处理模型进行模型训练，得到第一处理模型。

基于Transformer网络结构构建所述初始第一处理模型；

其中，Transformer是Google的团队在2017年提出的一种NLP经典模型，现在比较火热的Bert也是基于Transformer。Transformer模型使用了Self-Attention机制，不采用RNN的顺序结构，使得模型可以并行化训练，而且能够拥有全局信息。在本申请中，每一组第一训练集均包括初始样本和目标样本，初始样本与目标样本相互对应，对于每一组第一训练集，服务器会随机生成第一训练集对应的掩膜标识，通过调整掩膜矩阵可以调节初始第一处理模型的网络，以获得单向模型、双向模型和序列到序列模型。

具体的，服务器先基于Transformer网络结构构建初始第一处理模型，然后通过初始第一处理模型生成第一训练集的膜标识，最后通过掩膜标识对初始第一处理模型的掩膜矩阵进行第一调整，将初始第一处理模型调整为双向模型，双向模型用于处理初始样本，以及通过掩膜标识对初始第一处理模型的掩膜矩阵进行第二调整，将初始第一处理模型调整为单向模型，双向模型用于处理目标样本，在调整完成后，通过第一训练集对初始第一处理模型进行模型训练，得到第一处理模型。

在上述实施例中，通过Transformer网络构建初始第一处理模型，通过初始第一处理模型生成第一训练集的膜标识，通过掩膜标识调整初始第一处理模型的掩膜矩阵，以及通过第一训练集对掩膜矩阵调整后的初始第一处理模型进行模型训练，得到用于生成初始目标样本的第一处理模型，通过调整掩膜获得单向和双向自注意力的样本生成机制，以构建单向和双向自注意力样本生成任务，提高了生成训练样本的精度。

其中，反向传播算法，即误差反向传播算法(Backpropagation algorithm，BP算法)适合于多层神经元网络的一种学习算法，它建立在梯度下降法的基础上，用于深度学习网络的误差计算。BP网络的输入、输出关系实质上是一种映射关系：一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射，这一映射具有高度非线性。BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层，并转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，以作为修改权值的依据。

具体的，第一处理模型训练完成后，服务器获取第一验证集，并将第一验证集导入训练好的第一处理模型，得到验证结果，通过第一处理模型的损失函数计算验证结果与预设标准结果之间的差异值，通过反向传播算法从输出层开始向前传递差异值，得到每一个网络层的处理误差，将每一个网络层的处理误差与预设误差阈值进行比较，若存在任意一层的处理误差大于预设误差阈值，则对第一处理模型的参数进行微调，直至所有网络层的处理误差小于或等于预设误差阈值为止，输出调整后的第一处理模型。在上述实施例中，通过第一验证集对训练好的第一处理模型进行验证，以保证第一处理模型的精度。

其中，输入第一处理模型的样本匹配对中的每一个文本实体可以视作token，每一个token在预设的字符转化表中都拥有唯一的字符标识符，通过字符转化表和唯一的字符标识符可以将每一个token转化为相应的向量。

具体的，服务器依次对样本匹配对中的每一个文本实体进行向量转化，得到每一个文本实体的向量，组合所有文本实体的向量得到向量矩阵，同时确定目标训练样本中的每一个文本实体，通过第一处理模型对向量矩阵进行处理，计算目标训练样本中的每一个文本实体所在位置的分值，即每一个目标训练样本中的的token。其中，计算得到的每一个目标训练样本中的的token均会存在多个数值，随机组合每一个文本实体的token，再通过字符转化表进行反向转化，将所有token转化为文本实体，得到初始目标样本。在上述实施例中，通过随机组合可以获得若干个初始目标样本，通过得到的若干个初始目标样本构建初始目标样本集。

其中，第二处理模型为SimBERT模型，SimBERT模型具备相似文本检索能力，SimBERT模型具备多个嵌入(embedding)层，通过将两个或多个文本输入到SimBERT模型的embedding层可以获得输入文本之间的相似度。

具体的，将目标训练样本导入到第二处理模型的embedding层，得到第一embedding值，以及分别将每一个初始目标样本导入到第二处理模型embedding层，得到若干个第二embedding值，基于第一embedding值和每一个第二embedding值依次计算的每一个初始目标样本与所述目标训练样本的相似度。其中，第一embedding值和第二embedding值均为向量，可以通过计算第一embedding值和第二embedding值之间的余弦相似度获得每一个初始目标样本与目标训练样本的相似度。

其中，余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。余弦相似度的结果是与两个向量的长度无关，仅仅与向量的指向方向相关，余弦相似度通常用于正空间，因此给出的值为-1到1之间。

本申请公开了一种训练样本生成的方法，属于人工智能技术领域，本申请通过初始训练样本和目标训练样本构建样本匹配对，通过第一处理模型对样本匹配对进行预测生成初始目标样本，然后通过第二处理模型计算生成初始目标样本与目标训练样本的相似度，最后通过预设相似度阈值对初始目标样本进行筛选，只有相似度大于预设相似度阈值的初始目标样本才允许用于构建训练样本集。本申请通过第一处理模型生成初始目标样本，通过第二处理模型构建语义相似度任务，通过预设相似度阈值对初始目标样本进行筛选，并获取相似度大于预设阈值的初始目标样本来构建训练样本集，以提高生成训练样本的精度。此外，本申请的第一处理模可以通过调整掩膜获得单向和双向自注意力的样本生成机制，以构建单向和双向自注意力样本生成任务，以进一步提高生成训练样本的精度。

需要强调的是，为进一步保证上述初始训练样本和目标训练样本的私密和安全性，上述初始训练样本和目标训练样本还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种训练样本生成的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的训练样本生成的装置300包括：

样本获取模块301，用于获取初始训练样本和目标训练样本，并对所述初始训练样本和所述目标训练样本进行拼接，得到样本匹配对；

第一处理模块302，用于将所述样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，所述初始目标样本集包含若干个初始目标样本；

第二处理模块303，用于将所述目标训练样本和所述初始目标样本集导入到预设的第二处理模型，通过所述第二处理模型依次计算所述目标训练样本和每一个所述初始目标样本的相似度；

相似度比对模块304，用于获取与所述目标训练样本的相似度大于预设阈值的初始目标样本，得到相似目标样本；

样本集生成模块305，用于将所述相似目标样本与所述初始训练样本进行组合，得到训练样本集。

进一步地，所述样本获取模块301具体包括：

预处理单元，用于分别对所述初始训练样本和所述目标训练样本进行预处理，其中，所述预处理包括分词和去除停用词；

实体提取单元，用于分别提取预处理后所述初始训练样本和所述目标训练样本的文本实体；

实体匹配单元，用于分别对所述初始训练样本的文本实体和所述目标训练样本的文本实体进行匹配，得到样本匹配对。

进一步地，所述训练样本生成的装置300还包括：

掩膜标识生成模块，用于获取第一训练集，并生成所述第一训练集对应的掩膜标识；

掩膜矩阵调整模块，用于构建初始第一处理模型，通过所述掩膜标识调整所述初始第一处理模型的掩膜矩阵；

处理模型训练模块，用于通过所述第一训练集对掩膜矩阵调整后的所述初始第一处理模型进行模型训练，得到第一处理模型。

进一步地，所述第一训练集包括初始样本和目标样本，通过调整所述掩膜矩阵可以调节所述初始第一处理模型的网络，以获得单向模型、双向模型和序列到序列模型，所述掩膜矩阵调整模块具体包括：

模型构建单元，用于基于Transformer网络结构构建所述初始第一处理模型；

第一调整单元，用于通过所述掩膜标识对所述初始第一处理模型的掩膜矩阵进行第一调整，将所述初始第一处理模型调整为所述双向模型，所述双向模型用于处理所述初始样本；

第二调整单元，用于通过所述掩膜标识对所述初始第一处理模型的掩膜矩阵进行第二调整，将所述初始第一处理模型调整为所述单向模型，所述双向模型用于处理所述目标样本。

进一步地，所述训练样本生成的装置300还包括：

处理模型验证模块，用于获取第一验证集，并将所述第一验证集导入所述第一处理模型，得到验证结果；

反向误差传递模块，用于基于所述验证结果与预设标准结果，使用反向传播算法进行拟合，获取处理误差；

模型迭代更新模块，用于将处理误差与预设误差阈值进行比较，若所述处理误差大于预设误差阈值，则对第一处理模型进行迭代更新，直至所述处理误差小于或等于预设误差阈值为止；

处理模型输出模块，用于输出所述处理误差小于或等于预设误差阈值的第一处理模型。

进一步地，所述第一处理模块302具体包括：

向量转化单元，用于依次对所述样本匹配对中的每一个文本实体进行向量转化，得到向量矩阵；

向量处理单元，用于通过所述第一处理模型对所述向量矩阵进行处理，输出的若干个初始目标样本；

样本生成单元，用于获取所述第一处理模型输出的若干个所述初始目标样本，通过若干个所述初始目标样本构建所述初始目标样本集。

进一步地，所述第二处理模块303具体包括：

第一嵌入值获取单元，用于将所述目标训练样本导入到所述第二处理模型的嵌入层，得到第一嵌入值；

第二嵌入值获取单元，用于分别将每一个所述初始目标样本导入到所述第二处理模型嵌入层，得到若干个第二嵌入值；

相似度计算单元，用于基于所述第一嵌入值和每一个所述第二嵌入值依次计算的每一个所述初始目标样本与所述目标训练样本的相似度。

本申请公开了一种训练样本生成的装置300，属于人工智能技术领域，本申请通过初始训练样本和目标训练样本构建样本匹配对，通过第一处理模型对样本匹配对进行预测生成初始目标样本，然后通过第二处理模型计算生成初始目标样本与目标训练样本的相似度，最后通过预设相似度阈值对初始目标样本进行筛选，只有相似度大于预设相似度阈值的初始目标样本才允许用于构建训练样本集。本申请通过第一处理模型生成初始目标样本，通过第二处理模型构建语义相似度任务，通过预设相似度阈值对初始目标样本进行筛选，并获取相似度大于预设阈值的初始目标样本来构建训练样本集，以提高生成训练样本的精度。此外，本申请的第一处理模可以通过调整掩膜获得单向和双向自注意力的样本生成机制，以构建单向和双向自注意力样本生成任务，以进一步提高生成训练样本的精度。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如训练样本生成的方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述训练样本生成的方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请公开了一种计算机设备，属于人工智能技术领域，本申请通过初始训练样本和目标训练样本构建样本匹配对，通过第一处理模型对样本匹配对进行预测生成初始目标样本，然后通过第二处理模型计算生成初始目标样本与目标训练样本的相似度，最后通过预设相似度阈值对初始目标样本进行筛选，只有相似度大于预设相似度阈值的初始目标样本才允许用于构建训练样本集。本申请通过第一处理模型生成初始目标样本，通过第二处理模型构建语义相似度任务，通过预设相似度阈值对初始目标样本进行筛选，并获取相似度大于预设阈值的初始目标样本来构建训练样本集，以提高生成训练样本的精度。此外，本申请的第一处理模可以通过调整掩膜获得单向和双向自注意力的样本生成机制，以构建单向和双向自注意力样本生成任务，以进一步提高生成训练样本的精度。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的训练样本生成的方法的步骤。

本申请公开了一种存储介质，属于人工智能技术领域，本申请通过初始训练样本和目标训练样本构建样本匹配对，通过第一处理模型对样本匹配对进行预测生成初始目标样本，然后通过第二处理模型计算生成初始目标样本与目标训练样本的相似度，最后通过预设相似度阈值对初始目标样本进行筛选，只有相似度大于预设相似度阈值的初始目标样本才允许用于构建训练样本集。本申请通过第一处理模型生成初始目标样本，通过第二处理模型构建语义相似度任务，通过预设相似度阈值对初始目标样本进行筛选，并获取相似度大于预设阈值的初始目标样本来构建训练样本集，以提高生成训练样本的精度。此外，本申请的第一处理模可以通过调整掩膜获得单向和双向自注意力的样本生成机制，以构建单向和双向自注意力样本生成任务，以进一步提高生成训练样本的精度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种训练样本生成的方法，其特征在于，包括：

2.如权利要求1所述的训练样本生成的方法，其特征在于，所述获取初始训练样本和目标训练样本，并对所述初始训练样本和所述目标训练样本进行拼接，得到样本匹配对的步骤，具体包括：

3.如权利要求1所述的训练样本生成的方法，其特征在于，在所述将所述样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，所述初始目标样本集包含若干个初始目标样本之前，还包括：

获取第一训练集，并生成所述第一训练集对应的掩膜标识；

4.如权利要求3所述的训练样本生成的方法，其特征在于，所述第一训练集包括初始样本和目标样本，通过调整所述掩膜矩阵可以调节所述初始第一处理模型的网络，以获得单向模型、双向模型和序列到序列模型，所述构建初始第一处理模型，通过所述掩膜标识调整所述初始第一处理模型的掩膜矩阵的步骤，具体包括：

基于Transformer网络结构构建所述初始第一处理模型；

5.如权利要求3所述的训练样本生成的方法，其特征在于，在所述通过所述第一训练集对掩膜矩阵调整后的所述初始第一处理模型进行模型训练，得到第一处理模型的步骤之后，还包括：

6.如权利要求1至5任意一项所述的训练样本生成的方法，其特征在于，所述将所述样本匹配对导入到预设的第一处理模型，得到初始目标样本集，其中，所述初始目标样本集包含若干个初始目标样本的步骤，具体包括：

7.如权利要求6所述的训练样本生成的方法，其特征在于，所述将所述目标训练样本和所述初始目标样本集导入到预设的第二处理模型，通过所述第二处理模型依次计算所述目标训练样本和每一个所述初始目标样本的相似度的步骤，具体包括：

8.一种训练样本生成的装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的训练样本生成的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的训练样本生成的方法的步骤。