CN115470781B

CN115470781B - 语料生成方法、装置和电子设备

Info

Publication number: CN115470781B
Application number: CN202211353326.3A
Authority: CN
Inventors: 顾鹏程; 李磊; 贾路; 徐元春
Original assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Current assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2023-03-14
Anticipated expiration: 2042-11-01
Also published as: CN115470781A

Abstract

本发明提供一种语料生成方法、装置和电子设备，获取语料例句，将语料例句输入预先训练好的词汇替换模型，通过词汇替换模型根据语料例句确定关键词汇，减少了对于整个句子进行理解和预测的计算开销，提升了生成语料的效率。逐字预测关键词汇替换为预设词表中的替换词汇的概率，将关键词汇替换为概率大于预设值的替换词汇，得到第一目标语料，通过逐字预测使得生成的语料与语料例句的含义更为贴近，更加符合情景，实现快速、高效地生成语料。

Description

语料生成方法、装置和电子设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语料生成方法、装置和电子设备。

背景技术

当前自然语言理解系统存在一些局限性，技术人员需要构建大量的训练语料并对其进行人工标注。现有的语料通常有以下来源：确定一个意图对应的语料例句，技术人员根据语料例句进行人工编写实现扩充；技术人员从已有的日志信息中心人工筛选与语料例句相似的句子实现扩充。无论采用上述哪种方式，生成语料都需要耗费大量的人力、时间成本。

因此，提出一种语料生成方法以实现快速、高效地生成语料是当前亟待解决的技术问题。

发明内容

本发明提供一种语料生成方法、装置和电子设备，用以解决现有技术中生成语料需要耗费大量的人力、时间成本的缺陷，实现快速、高效地生成语料。

本发明提供一种语料生成方法，包括：

获取语料例句；

将所述语料例句输入预先训练好的词汇替换模型，根据所述语料例句确定关键词汇，逐字预测所述关键词汇替换为预设词表中的替换词汇的概率，将所述关键词汇替换为所述概率大于预设值的替换词汇，得到第一目标语料。

根据本发明提供的一种语料生成方法，所述根据所述语料例句确定所述关键词汇，包括：

遍历所述语料例句中的每个词汇，在所述词汇存在于预设的白名单的情况下，将所述词汇确定为所述关键词汇；

或者，遍历所述语料例句中的每个词汇，在所述词汇存在于预设的同义词词典的情况下，将所述词汇确定为所述关键词汇；

或者，遍历所述语料例句中的每个词汇，在所述词汇在所述语料例句中出现频率为最高且不为停用词词汇的情况下，将所述词汇确定为所述关键词汇。

根据本发明提供的一种语料生成方法，所述白名单中包括属于同一类别的多个词汇；

所述遍历所述语料例句中的每个词汇，在所述词汇存在于预设的白名单的情况下，将所述词汇确定为所述关键词汇之后，还包括：

将所述关键词汇替换为所述白名单中属于同一类别的其他词汇，得到第一目标语料。

根据本发明提供的一种语料生成方法，所述遍历所述语料例句中的每个词汇，在所述词汇存在于预设的同义词词典的情况下，将所述词汇确定为所述关键词汇之后，还包括：

将所述关键词汇替换为所述同义词词典中同义的词汇，得到第一目标语料。

根据本发明提供的一种语料生成方法，所述方法还包括：

将所述语料例句输入训练好的句式改写模型，输出第二目标语料；

其中，所述句式改写模型根据至少一个相似句语料对训练得到，所述相似句语料对包括两个相似句语料。

根据本发明提供的一种语料生成方法，所述句式改写模型包括单向语言任务、双向语言任务和序列变换任务；

所述句式改写模型是通过如下步骤训练得到：

获取相似句语料对，所述相似句语料对包括两个相似句语料；

根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失，根据所述第一损失和所述第二损失调整所述句式改写模型的参数；

在所述第一损失和所述第二损失均满足预设条件的情况下，根据所述相似句语料对计算所述序列变换任务的第三损失，根据所述第三损失调整所述句式改写模型的参数；

在所述第三损失满足预设条件的情况下完成训练，得到所述训练好的句式改写模型。

根据本发明提供的一种语料生成方法，所述根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失，根据所述第一损失和所述第二损失调整所述句式改写模型的参数，包括：

根据所述相似句语料确定关键词汇及所在关键词汇位置；

通过所述单向语言任务根据所述相似句语料中关键词汇位置之前或之后的词汇对关键词汇位置进行词汇预测，得到第一预测词汇，根据所述第一预测词汇和所述关键词汇确定第一损失；

通过所述双向语言任务根据所述相似句语料中关键词汇位置之前以及之后的词汇对所述关键词汇位置进行词汇预测，得到第二预测词汇，根据所述第二预测词汇和所述关键词汇确定第二损失；

根据所述第一损失和所述第二损失调整所述句式改写模型的参数，并返回重新执行所述获取相似句语料对。

根据本发明提供的一种语料生成方法，所述在所述第一损失和所述第二损失均满足预设条件的情况下，根据所述相似句语料计算所述序列变换任务的第三损失，根据所述第三损失调整所述句式改写模型的参数，包括：

在所述第一损失和所述第二损失均满足预设条件的情况下，通过所述序列变换任务根据所述相似句语料对中的第一相似句语料生成改写句语料，根据所述改写句语料和所述相似句语料对中的第二相似句语料确定第三损失；

根据所述第三损失调整所述句式改写模型的参数，并返回重新执行所述获取相似句语料对。

根据本发明提供的一种语料生成方法，所述相似句语料对为多个，所述方法还包括：

将所述语料例句和目标语料输入训练好的相似度模型，输出相似度得分；

将所述目标语料按照对应的相似度得分进行排列；

其中，所述目标语料包括第一目标语料和所述第二目标语料，所述训练好的相似度模型根据多个相似句语料对训练得到。

根据本发明提供的一种语料生成方法，所述训练好的相似度模型是通过如下步骤训练得到：

设置相似句语料对和非相似句语料对的真实标签，所述非相似句语料对包括在两个不同的相似句语料对中各取的一个相似句语料；

将训练语料对输入相似度模型的识别任务，输出预测标签，所述训练语料对属于所述相似句语料对或非相似句语料对；

根据所述训练语料对的预测标签和对应的真实标签计算第四损失，根据所述第四损失调整所述相似度模型的参数，并返回重新执行所述将训练语料对输入相似度模型的识别任务，输出预测标签；

在所述第四损失满足预设条件的情况下完成训练，得到训练好的相似度模型。

本发明还提供一种语料生成装置，包括：

获取单元，用于获取语料例句；

第一生成单元，用于将所述语料例句输入预先训练好的词汇替换模型，根据所述语料例句确定关键词汇，逐字预测所述关键词汇替换为预设词表中的替换词汇的概率，将所述关键词汇替换为所述概率大于预设值的替换词汇，得到第一目标语料。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语料生成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语料生成方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语料生成方法的步骤。

本发明提供的语料生成方法、装置和电子设备，将语料例句输入预先训练好的词汇替换模型，通过词汇替换模型根据语料例句确定关键词汇，减少了对于整个句子进行理解和预测的计算开销，提升了生成语料的效率。逐字预测关键词汇替换为预设词表中的替换词汇的概率，将关键词汇替换为概率大于预设值的替换词汇，得到第一目标语料，通过逐字预测使得生成的语料与语料例句的含义更为贴近，更加符合情景，实现快速、高效地生成语料。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语料生成方法的流程示意图；

图2是本发明提供的语料生成装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种语料生成方法，如图1所示，包括：

S11、获取语料例句。

S12、将所述语料例句输入预先训练好的词汇替换模型，根据所述语料例句确定关键词汇，逐字预测所述关键词汇替换为预设词表中的替换词汇的概率，将所述关键词汇替换为所述概率大于预设值的替换词汇，得到第一目标语料。

具体地，获取语料例句，语料例句可以为各个领域和情景的语料，包括但不限于银行、地产、医疗、出行、饮食、穿搭等各种领域和情景。预设词表可以根据实际需要进行设定。

一个示例中，语料例句为“订张去北京的车票”。将该语料例句输入预先训练好的词汇替换模型。词汇替换模型根据语料例句确定关键词汇，此时将“北京”确定为关键词汇。词汇替换模型对于“北京”这个关键词汇逐字预测。

首先预测“北”在预设词表中的替换词汇的概率大于预设值的替换词汇可以有多个，多个替换词汇的第一个字分别为“上”、“南”、“苏”，替换后为“订张去上[mask]的车票”、“订张去南[mask]的车票”、“订张去苏[mask]的车票”。其中，[mask]表示原本“京”字所在的位置，此时还未对其进行替换。

然后预测“京”在预设词表中的替换词汇的概率大于预设值的替换词汇的第二个字，在第一个字为“上”的情况下预测满足条件的替换词汇第二个字为“海”，在第一个字为“南”的情况下预测满足条件的替换词汇第二字为“京”或“昌”，在第一个字为“苏”的情况下预测满足条件的替换词汇第二个字为“州”。

进行替换后，得到4个第一目标语料，分别为“订张去上海的车票”、“订张去南京的车票”、“订张去南昌的车票”、“订张去苏州的车票”。

本发明实施例中，将语料例句输入预先训练好的词汇替换模型，通过词汇替换模型根据语料例句确定关键词汇，减少了对于整个句子进行理解和预测的计算开销，提升了生成语料的效率。逐字预测关键词汇替换为预设词表中的替换词汇的概率，将关键词汇替换为概率大于预设值的替换词汇，得到第一目标语料，通过逐字预测使得生成的语料与语料例句的含义更为贴近，更加符合情景，实现快速、高效地生成语料。

根据本发明提供的语料生成方法，所述根据所述语料例句确定所述关键词汇，包括：

具体地，可以对语料例句进行分词，遍历其中的每个词汇。可以在当前词汇存在于预设的白名单的情况下，将当前词汇确定为关键词汇。一个示例中，预先设定了一个的白名单，其中包括“银行卡”、“借记卡”、“信用卡”。语料例句为“帮我办一张银行卡”，进行分词后“帮/我/办/一张/银行卡”中的“银行卡”存在于白名单中，此时将语料例句中的“银行卡”确定为关键词汇。

还可以在当前词汇存在于预设的同义词词典的情况下，将当前词汇确定为关键词汇。一个示例中，预先设定了一个同义词词典，其中包括同一含义的多个词汇，例如对于“订”这一含义，包括多个词汇“订”、“订购”、“预订”、“预约”、“购买”。语料例句为“订张去北京的车票”，进行分词后“订/张/去/北京/的/车票”中的“订”存在于同义词词典中，此时将语料例句中的“订”确定为关键词汇。

还可以将语料例句中出现频率最高的非停用词词汇确定为关键词汇，例如语料例句为“我去东边的新开的饭馆吃了吃那里的特色菜” 进行分词后“我/去/东边/的/新/开/的/饭馆/吃/了/吃/那里/的/特色菜”中，其中频率由高到低的词汇为“的”和“吃”，然而“的”为停用词词汇，“吃”为非停用词词汇，此时将语料例句中的“吃”确定为关键词汇。

本发明实施例中，遍历语料例句中的每个词汇，在词汇存在于预设的白名单的情况下，或者，在词汇存在于预设的同义词词典的情况下，或者，在词汇在语料例句中出现频率为最高且不为停用词词汇的情况下，将词汇确定为关键词汇，实现了多种渠道确定关键词汇，能够快速、准确地确定符合条件的更具有重要意义的关键词汇。

根据本发明提供的语料生成方法，所述白名单中包括属于同一类别的多个词汇；

具体地，接上例，预先设定了一个的白名单，白名单包括类别为“卡片”的“银行卡”、“借记卡”、“信用卡”等词汇。语料例句为“帮我办一张银行卡”中的“银行卡”为关键词汇，可以将语料例句中的“银行卡”替换为“借记卡”和“信用卡”，得到多个第一目标语料。

本发明实施例中，白名单中包括属于同一类别的多个词汇，在词汇存在于预设的白名单的情况下，将词汇确定为关键词汇之后，将关键词汇替换为白名单中属于同一类别的其他词汇，得到第一目标语料，实现了在同一类别的词汇替换，得到的第一目标语料可以表示更丰富的场景。

根据本发明提供的语料生成方法，所述遍历所述语料例句中的每个词汇，在所述词汇存在于预设的同义词词典的情况下，将所述词汇确定为所述关键词汇之后，还包括：

具体地，接上例，预先设定了一个同义词词典，其中包括“订”这一含义的多个词汇“订”、“订购”、“预订”、“预约”、“购买”。语料例句为“订张去北京的车票”中的“订”为关键词汇，可以将语料例句中的“订”替换为“订购”、“预订”、“预约”、“购买”，得到多个第一目标语料。

本发明实施例中，在词汇存在于预设的同义词词典的情况下，将词汇确定为关键词汇之后，将关键词汇替换为同义词词典中同义的词汇，得到第一目标语料，实现不同用词习惯下具有的相同语义的语料。

根据本发明提供的语料生成方法，步骤S12之后还包括：

S13、将所述语料例句输入训练好的句式改写模型，输出第二目标语料。

一个示例中，将语料例句“订张去北京的车票”输入训练好的句式改写模型，得到“我想订一张到北京的火车票”、“帮我预定去北京的票”等第二目标语料。

本发明实施例中，将语料例句输入训练好的句式改写模型，句式改写模型根据相似句语料对包括的两个相似句语料进行训练，使得通过句式改写模型可以准确地对语料例句进行句式改写，得到的第二目标语料具有多样的句式且与语料例句含义相似。

根据本发明提供的语料生成方法，根据本发明提供的语料生成方法，所述句式改写模型包括单向语言任务、双向语言任务和序列变换任务；

所述句式改写模型是通过如下步骤训练得到：

S21、获取相似句语料对，所述相似句语料对包括两个相似句语料。

S22、根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失，根据所述第一损失和所述第二损失调整所述句式改写模型的参数。

S23、在所述第一损失和所述第二损失均满足预设条件的情况下，根据所述相似句语料对计算所述序列变换任务的第三损失，根据所述第三损失调整所述句式改写模型的参数。

S24、在所述第三损失满足预设条件的情况下完成训练，得到所述训练好的句式改写模型。

具体地，句式改写模型包括三个任务，对应于两个方面的能力。

可选的，句式改写模型可以为UNILM模型，其为多层Transformer网络结构，是在Bert的基础上产出的预训练语言模型，基于mask词的语境来完成对mask词的预测。UNILM结合了自回归和自编码两种语言模型的特点，可以完成单向语言任务、双向语言任务、序列变换任务三种预训练预测任务，在自然语言理解和自然语言生成任务上都有很好的表现。

单向语言任务和双向语言任务用于表示句式改写模型对于输入的语料的理解能力。单向语言任务为依据语料中待预测内容前面或后面出现的内容来预测待预测内容，双向语言任务为依据语料中待预测内容前面和后面出现的内容来预测待预测内容。

序列变换任务用于表示句式改写模型对于输入的语料的句式改写能力。序列变换任务为依据输入的语料，预测输出具有相同含义且不同句式的语料。

以s1,s2,s3,s4,s5这个序列举例说明上述三种任务,如需要预测s1,s2,s3,[MASK],s5中的掩码，单向语言任务由s1,s2,s3的信息来预测[MASK],s5的信息不可见，或者单向语言任务由s的信息来预测[MASK]，s1,s2,s3的信息不可见；双向语言任务由s1,s2,s3,s5来预测[MASK]；如果s6,s7,s8表示与s1,s2,s3,s4,s5语义相似的语料，则序列变换任务则是由s1,s2,s3,s4,s5来预测s6,s7,s8。

本发明实施例中，根据相似句语料分别确定单向语言任务的第一损失和双向语言任务的第二损失，根据第一损失和第二损失调整句式改写模型的参数，实现句式改写模型对输入语料的理解能力的训练。在第一损失和第二损失均满足预设条件的情况下，根据相似句语料对计算序列变换任务的第三损失，根据第三损失调整句式改写模型的参数，实现在句式改写模型的理解能力达到指定水平的情况下训练句式改写模型的句式改写能力，使得句式改写模型充分理解输入预料后对其进行改写，实现生成的第二目标语料更加贴合语料例句的含义且具有不同句式。

根据本发明提供的语料生成方法，步骤S22包括：

S221、根据所述相似句语料确定关键词汇及所在关键词汇位置。

S222、通过所述单向语言任务根据所述相似句语料中关键词汇位置之前或之后的词汇对关键词汇位置进行词汇预测，得到第一预测词汇，根据所述第一预测词汇和所述关键词汇确定第一损失。

S223、通过所述双向语言任务根据所述相似句语料中关键词汇位置之前以及之后的词汇对所述关键词汇位置进行词汇预测，得到第二预测词汇，根据所述第二预测词汇和所述关键词汇确定第二损失。

S224、根据所述第一损失和所述第二损失调整所述句式改写模型的参数，并返回重新执行所述获取相似句语料对。

具体地，根据所述相似句语料确定关键词汇及所在关键词汇位置，其中，确定关键词汇的方式可以包括前文所述的：

一个示例中，相似句语料为“订一张去北京的机票”，其中关键词汇为“北京”。通过单向语言任务根据相似句语料中“北京”之前或之后的词汇对“北京”这个关键词汇所在相似句语料中的位置进行词汇预测，得到第一预测词汇，根据第一预测词汇和“北京”这个关键词汇确定第一损失。通过双向语言任务根据相似句语料中“北京”之前和之后的词汇对“北京”这个关键词汇所在相似句语料中的位置进行词汇预测，得到第二预测词汇，根据第二预测词汇和“北京”这个关键词汇确定第二损失。根据第一损失和第二损失调整句式改写模型的参数，并返回获取相似句语料对，重复上述步骤。

本发明实施例中，确定相似句语料的关键词汇以及关键词汇位置，方便后续词汇预测减少计算开销。通过单向语言任务和双向语言任务根据关键词汇位置、相似句语料进行词汇预测，得到对应的第一预测词汇和第二预测词汇，根据关键词汇、第一预测词汇和第二预测词汇分别计算第一损失和第二损失，通过第一损失和第二损失表示句式改写模型对于输入语料的理解能力，根据第一损失和第二损失调整句式改写模型的参数，实现对句式改写模型理解能力的训练。

根据本发明提供的语料生成方法，步骤S23包括：

S231、在所述第一损失和所述第二损失均满足预设条件的情况下，通过所述序列变换任务根据所述相似句语料对中的第一相似句语料生成改写句语料，根据所述改写句语料和所述相似句语料对中的第二相似句语料确定第三损失。

S232、根据所述第三损失调整所述句式改写模型的参数，并返回重新执行所述获取相似句语料对。

具体地，在第一损失和第二损失均满足预设条件的情况下，句式改写模型对输入语料理解能力训练完成，进行句式改写能力的训练。

将相似句语料对中的一个相似句语料（即第一相似句语料）生成改写句语料。根据改写句语料和相似句语料对中另一个相似句语料（即第二相似句语料）确定第三损失，第三损失表示改写句语料和相似句语料对中另一个相似句语料的相似程度，也表示句式改写模型的句式改写能力。根据第三损失调整句式改写模型的参数，并返回获取相似句语料对，重复上述步骤。

本发明实施例中，在第一损失和第二损失均满足预设条件的情况下进行句式改写模型的句式改写能力的训练，根据第一相似句语料生成改写句语料，确定第二相似句语料和改写句语料的相似程度作为第三损失，用于表示句式改写模型的句式改写能力。根据第三损失调整句式改写模型的参数，实现对句式改写模型的句式改写能力的训练，使得句式改写模型能够根据输入语料生成含义相近的句式不同的第二目标语料。

根据本发明提供的语料生成方法，所述相似句语料对为多个，所述方法还包括：

S14、将所述语料例句和目标语料输入训练好的相似度模型，输出相似度得分。

S15、将所述目标语料按照对应的相似度得分进行排列。

具体地，通过多个相似句语料对训练相似度模型，使得相似度模型具有良好的识别能力以识别输入的语料对表达含义是否相似。将语料例句和目标语料输入相似度模型，可以得到目标语料相对于语料例句的相似度得分，通过相似度得分表示目标语料与语料例句表达含义的相似程度。

本发明实施例中，将语料例句和目标语料输入训练好的相似度模型，可以得到目标语料相对于语料例句的相似度得分，通过相似度得分表示目标语料与语料例句表达含义的相似程度。按照相似度得分将目标语料进行排序，方便查看与语料例句相似程度较高的目标语料。

根据本发明提供的语料生成方法，所述训练好的相似度模型是通过如下步骤训练得到：

S31、设置相似句语料对和非相似句语料对的真实标签，所述非相似句语料对包括在两个不同的相似句语料对中各取的一个相似句语料。

S32、将训练语料对输入相似度模型的识别任务，输出预测标签，所述训练语料对属于所述相似句语料对或非相似句语料对。

S33、根据所述训练语料对的预测标签和对应的真实标签计算第四损失，根据所述第四损失调整所述相似度模型的参数，并返回重新执行步骤S32。

S34、在所述第四损失满足预设条件的情况下完成训练，得到训练好的相似度模型。

具体地，在不同的两个相似句语料对中各自选取其中一个相似句语料，组成非相似句语料对。设置相似句语料对的真实标签为“1”即表示相似，非相似句语料对的真实标签为“0”即表示不相似。

一个示例中，在相似句语料对“番茄炒鸡蛋的家常做法,番茄炒鸡蛋怎么做”中选取一句相似句语料“番茄炒鸡蛋的家常做法”，在另外一个相似句语料对“怎么开通会员，会员需要如何开通”中选取一句相似句语料“怎么开通会员”，组成非相似句语料对“番茄炒鸡蛋的家常做法，怎么开通会员”。设置番茄炒鸡蛋的家常做法,番茄炒鸡蛋怎么做”的真实标签为“1”，设置“怎么开通会员，会员需要如何开通”的真实标签为“1”，设置“番茄炒鸡蛋的家常做法，怎么开通会员”的真实标签为“0”。

将训练语料对输入相似度模型的识别任务，输出预测标签，预测标签为一个概率，概率越接近1表示训练语料对中的语料越相似，越接近0表示越不相似。根据预测标签和真实标签计算第四损失，并根据第四损失调整相似度模型的参数，并重新执行上述步骤。在第四损失满足预设条件的情况下完成训练，得到训练好的相似度模型。

本发明实施例中，根据多个相似句语料对生成非相似句语料对，并设置其对应的真实标签，将相似句语料对或非相似句语料对的训练语料对输入相似度模型的识别任务，输出预测标签，通过预测标签表示相似度模型对输入的训练语料对相似程度的判断。根据真实标签和预测标签确定第四损失，并根据第四损失调整相似度模型的参数，并重复上述步骤，在第四损失满足预设条件的情况下完成训练，得到训练好的相似度模型，实现对相似度模型的迭代训练，使得相似度模型具有良好的识别判断能力以判断输入的语料对中的语料表达的含义是否相似并给出预测标签作为评分。

下面对本发明提供的语料生成装置进行描述，下文描述的语料生成装置与上文描述的语料生成方法可相互对应参照。

本发明还提供一种语料生成装置，如图2所示，包括：

获取单元21，用于获取语料例句；

第一生成单元22，用于将所述语料例句输入预先训练好的词汇替换模型，根据所述语料例句确定关键词汇，逐字预测所述关键词汇替换为预设词表中的替换词汇的概率，将所述关键词汇替换为所述概率大于预设值的替换词汇，得到第一目标语料。

根据本发明提供的语料生成装置，第一生成单元22具体用于：

根据本发明提供的语料生成装置，所述白名单中包括属于同一类别的多个词汇；第一生成单元22还用于将所述关键词汇替换为所述白名单中属于同一类别的其他词汇，得到第一目标语料。

根据本发明提供的语料生成装置，第一生成单元22还用于将所述关键词汇替换为所述同义词词典中同义的词汇，得到第一目标语料。

根据本发明提供的语料生成装置，还包括第二生成单元23，用于将所述语料例句输入训练好的句式改写模型，输出第二目标语料；

根据本发明提供的语料生成装置，所述句式改写模型包括单向语言任务、双向语言任务和序列变换任务；

所述句式改写模型是通过如下步骤训练得到：

根据本发明提供的语料生成装置，所述根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失，根据所述第一损失和所述第二损失调整所述句式改写模型的参数，包括：

根据所述相似句语料确定关键词汇及所在关键词汇位置；

根据本发明提供的语料生成装置，所述在所述第一损失和所述第二损失均满足预设条件的情况下，根据所述相似句语料计算所述序列变换任务的第三损失，根据所述第三损失调整所述句式改写模型的参数，包括：

根据本发明提供的语料生成装置，所述相似句语料对为多个；所述装置还包括相似度评分单元24，用于将所述语料例句和目标语料输入训练好的相似度模型，输出相似度得分；将所述目标语料按照对应的相似度得分进行排列；其中，所述目标语料包括第一目标语料和所述第二目标语料，所述训练好的相似度模型根据多个相似句语料对训练得到。

根据本发明提供的语料生成装置，所述训练好的相似度模型是通过如下步骤训练得到：

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行语料生成方法，该方法包括：获取语料例句；将所述语料例句输入预先训练好的词汇替换模型，根据所述语料例句确定关键词汇，逐字预测所述关键词汇替换为预设词表中的替换词汇的概率，将所述关键词汇替换为所述概率大于预设值的替换词汇，得到第一目标语料。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语料生成方法，该方法包括：获取语料例句；将所述语料例句输入预先训练好的词汇替换模型，根据所述语料例句确定关键词汇，逐字预测所述关键词汇替换为预设词表中的替换词汇的概率，将所述关键词汇替换为所述概率大于预设值的替换词汇，得到第一目标语料。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语料生成方法，该方法包括：获取语料例句；将所述语料例句输入预先训练好的词汇替换模型，根据所述语料例句确定关键词汇，逐字预测所述关键词汇替换为预设词表中的替换词汇的概率，将所述关键词汇替换为所述概率大于预设值的替换词汇，得到第一目标语料。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语料生成方法，其特征在于，包括：

获取语料例句；

将所述语料例句输入预先训练好的词汇替换模型，根据所述语料例句确定关键词汇，逐字预测所述关键词汇替换为预设词表中的替换词汇的概率，将所述关键词汇替换为所述概率大于预设值的替换词汇，得到第一目标语料；

所述方法还包括：

将所述语料例句输入训练好的句式改写模型，输出第二目标语料；其中，所述句式改写模型根据至少一个相似句语料对训练得到，所述相似句语料对包括两个相似句语料；

所述句式改写模型包括单向语言任务、双向语言任务和序列变换任务；所述句式改写模型是通过如下步骤训练得到：

获取相似句语料对，所述相似句语料对包括两个相似句语料；根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失，根据所述第一损失和所述第二损失调整所述句式改写模型的参数；在所述第一损失和所述第二损失均满足预设条件的情况下，根据所述相似句语料对计算所述序列变换任务的第三损失，根据所述第三损失调整所述句式改写模型的参数；在所述第三损失满足预设条件的情况下完成训练，得到所述训练好的句式改写模型；

所述根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失，根据所述第一损失和所述第二损失调整所述句式改写模型的参数，包括：

根据所述相似句语料确定关键词汇及所在关键词汇位置；通过所述单向语言任务根据所述相似句语料中关键词汇位置之前或之后的词汇对关键词汇位置进行词汇预测，得到第一预测词汇，根据所述第一预测词汇和所述关键词汇确定第一损失；通过所述双向语言任务根据所述相似句语料中关键词汇位置之前以及之后的词汇对所述关键词汇位置进行词汇预测，得到第二预测词汇，根据所述第二预测词汇和所述关键词汇确定第二损失；根据所述第一损失和所述第二损失调整所述句式改写模型的参数，并返回重新执行所述获取相似句语料对；

所述在所述第一损失和所述第二损失均满足预设条件的情况下，根据所述相似句语料计算所述序列变换任务的第三损失，根据所述第三损失调整所述句式改写模型的参数，包括：

在所述第一损失和所述第二损失均满足预设条件的情况下，通过所述序列变换任务根据所述相似句语料对中的第一相似句语料生成改写句语料，根据所述改写句语料和所述相似句语料对中的第二相似句语料确定第三损失；根据所述第三损失调整所述句式改写模型的参数，并返回重新执行所述获取相似句语料对。

2.根据权利要求1所述的语料生成方法，其特征在于，所述根据所述语料例句确定所述关键词汇，包括：

3.根据权利要求2所述的语料生成方法，其特征在于，所述白名单中包括属于同一类别的多个词汇；

4.根据权利要求2所述的语料生成方法，其特征在于，所述遍历所述语料例句中的每个词汇，在所述词汇存在于预设的同义词词典的情况下，将所述词汇确定为所述关键词汇之后，还包括：

5.根据权利要求1所述的语料生成方法，其特征在于，所述相似句语料对为多个，所述方法还包括：

将所述目标语料按照对应的相似度得分进行排列；

6.根据权利要求5所述的语料生成方法，其特征在于，所述训练好的相似度模型是通过如下步骤训练得到：

7.一种语料生成装置，其特征在于，包括：

获取单元，用于获取语料例句；

第一生成单元，用于将所述语料例句输入预先训练好的词汇替换模型，根据所述语料例句确定关键词汇，逐字预测所述关键词汇替换为预设词表中的替换词汇的概率，将所述关键词汇替换为所述概率大于预设值的替换词汇，得到第一目标语料；

所述装置还包括第二生成单元，用于将所述语料例句输入训练好的句式改写模型，输出第二目标语料；其中，所述句式改写模型根据至少一个相似句语料对训练得到，所述相似句语料对包括两个相似句语料；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述语料生成方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语料生成方法的步骤。