CN114970733A

CN114970733A - 语料生成方法及装置、系统、存储介质和电子设备

Info

Publication number: CN114970733A
Application number: CN202210636838.4A
Authority: CN
Inventors: 石凯
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-08-30

Abstract

本公开提供了一种语料生成方法、语料生成系统、语料生成装置、存储介质和电子设备，涉及人工智能技术领域。该语料生成方法包括：获取语料生成任务，语料生成任务包括语料生成规则；在语料生成规则包括索引元素的情况下，从与索引元素对应的词语集合中确定出一个第一词语；结合第一词语生成第一文本语料。本公开可以提高语料生成的效率。

Description

语料生成方法及装置、系统、存储介质和电子设备

技术领域

本公开涉及人工智能技术领域，具体而言，涉及一种语料生成方法、语料生成系统、语料生成装置、存储介质和电子设备。

背景技术

随着深度学习技术的蓬勃发展，智能助手的自然语言理解(Natural LanguageUnderstanding，NLU)能力也随之有了重大发展。NLU模型支持在任务型对话中进行机器理解文本内容，从而实现人机对话过程，其中，NLU模型理解文本内容的准确率与训练模型使用语料的质量有关。

由于不同应用领域和不同业务场景下，语料的结构形式以及语义不尽相同，目前常使用人工标注的方法。然而，模型训练需要大量的文本语料，通过人工标注生成语料的效率较低。

发明内容

本公开的目的在于提供一种语料生成方法、语料生成系统、语料生成装置、存储介质和电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的生成语料效率低问题。

根据本公开的第一方面，提供一种语料生成方法，包括：获取语料生成任务，语料生成任务包括语料生成规则；在语料生成规则包括索引元素的情况下，从与索引元素对应的词语集合中确定出一个第一词语；结合第一词语生成第一文本语料。

根据本公开的第二方面，提供一种语料生成系统，包括：客户端，用于提供语料生成任务的配置界面，响应针对配置界面的配置操作，生成语料生成任务；服务端，用于利用上述语料生成方法生成文本语料。

根据本公开的第三方面，提供一种语料生成装置，包括：任务获取模块，用于获取语料生成任务，语料生成任务包括语料生成规则；词语确定模块，用于在语料生成规则包括索引元素的情况下，从与索引元素对应的词语集合中随机确定出一个第一词语；语料生成模块，用于结合第一词语生成第一文本语料。

根据本公开的第四方面，提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述语料生成方法。

根据本公开的第五方面，提供一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述语料生成方法。

在本公开的一些实施例所提供的技术方案中，获取语料生成任务，语料生成任务包括语料生成规则；在语料生成规则包括索引元素的情况下，从与索引元素对应的词语集合中确定出一个第一词语；结合第一词语生成第一文本语料。在本公开示例性方案中，在语料生成规则存在索引元素的情况下，通过语料生成规则从索引元素对应的词语集合中确定出一个词语，从而生成高质量文本语料。该方法避免了使用人工标注的方法生成高质量文本的过程，从而极大的提高了生成文本语料的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本公开的示例性实施方式的一种语料生成系统的结构图；

图2示意性示出了根据本公开的示例性实施方式的一种语料生成方法的流程示意图；

图3示意性示出了根据本公开的示例性实施方式的一种建立的词语属性图示意图；

图4示意性示出了根据本公开的示例性实施方式的一种制定语料生成规则示意图；

图5示意性示出了根据本公开的示例性实施方式的第一种任务类型的规则表生成文本语料的过程示意图；

图6示意性示出了根据本公开的示例性实施方式的第二种任务类型的规则表生成文本语料的过程示意图；

图7示意性示出了根据本公开的示例性实施方式的第三种任务类型的规则表生成文本语料的过程示意图；

图8示意性示出了根据本公开的示例性实施方式的一种生成相似句的过程示意图；

图9示意性示出了根据本公开的示例性实施方式的一种规则生成文本语料的过程示意图；

图10示意性示出了根据本公开的示例性实施方式的一种规则生成文本的交互界面示意图；

图11示意性示出了根据本公开的示例性实施方式的一种语料生成装置的方框图；

图12示意性示出了根据本公开的示例性实施方式的另一种语料生成装置的方框图；

图13示意性示出了根据本公开的示例性实施方式的电子设备的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本公开示例性实施例提供的语料生成方法，可以应用于任何需要使用语料的应用场景中。例如，在智能助手领域，用户可以向智能电子设备发出语音指令，智能电子设备将接收的语音识别成文本后，通过语义匹配相应的语料向用户返回语音以实现人机问答过程。在上述人机问答过程中，需要生成大量高质量的文本语料作为样本数据进行模型训练，以实现人机问答过程中的准确性，从而提升智能助手的核心竞争力。

目前，在不同的应用领域和不同业务场景下，语料的结构形式和语义存在差异，为了生成高质量文本语料，通常采用人工标注的方法。然而，面对大量高质量文本语料的需求，人工标注的方法成本较高且效率低。

本公开实施例考虑到上述问题，提出一种语料生成方案，该方案可以集成在规则转文本工具Rule2Text。在该方案中，服务器可以获取语料生成任务，语料生成任务中包含了语料生成规则。在语料生成规则包含索引元素的情况下，可以根据索引元素确定的词语生成文本语料。该方案使用了语料生成规则可直接生成高质量的文本语料，避免使用人工标注方法导致语料生成效率低和成本高的问题。

图1示意性示出了本公开的示例性实施方式的一种语料生成系统的结构图。如图1所示，该系统中包括客户端10和服务端12。其中，客户端10用于提供语料生成任务的配置界面，用户可以在任务的配置界面上进行配置操作，客户端10便可响应配置操作以生成语料生成任务，其中，语料生成任务包括语料生成规则。服务端12可获取客户端10生成的语料生成任务，并在语料生成规则包括索引元素的情况下，从与索引元素对应的词语集合中确定出一个词语，并结合确定的词语生成文本语料。

需要说明的是，客户端10、服务端12的数目仅仅是示例性的，更多或更少的数量都属于本申请的保护范畴。并且，在上述示例运行场景中，客户端10可以是手机、服务器、掌上电脑(Personal Digital Assistant，PDA)、笔记本或其它任何具有联网功能的计算设备。服务端12可以为一台服务器，可以为多台服务器组成的服务器集群。客户端10、服务端12之间通信的网络可以包括各种类型的有线和无线网络，本公开对此不进行任何限制。

在了解了本公开提供的语料生成方法的系统架构图后，结合图2对本公开实施方式提供的语料生成方法的方案进行详细说明。

图2为本公开实施例提供的一种语料生成方法的流程示意图，本公开实施例提供了一种语料生成方法，该方法可以由任意执行语料生成方法的装置来执行，该装置可以通过软件和/或硬件实现。本实施例中，该装置可以集成在如图1所示的服务端12中。如图2所示，本公开实施例提供的语料生成方法包括如下步骤：

S20.获取语料生成任务，语料生成任务包括语料生成规则。

其中，语料生成任务是指示生成文本语料的业务请求，语料生成任务包括语料生成规则，根据语料生成规则可以生成文本语料，这种通过规则生成文本的过程可以集成在Rule2Text引擎，语料生成规则可以称为Rule2Text规则。示例性的，语料生成规则可以由用户根据业务需求设定。

在本公开的示例性实施方式中，语料生成任务还可以包括任务的配置信息，例如，任务类型、生成的语料是否需要数据增强、是否生成相似句、负样本语料等信息。用户在客户端提供语料生成任务的配置界面上，可以根据业务需求确定配置信息。

针对上述语料生成任务包含配置信息中的任务类型，本公开的示例性实施方式以自然语言处理(Natural Language Processing，NLP)任务为例进行说明。配置信息可以包含三种常见的NLP任务类型：文本分类、序列标注和语义匹配。表1为相应任务类型的任务释义和数据格式。

表1

S22.在语料生成规则包括索引元素的情况下，从与索引元素对应的词语集合中确定出一个第一词语。

其中，语料生成规则中可以包括索引元素，索引元素是一系列词语集合的索引名称。例如，对于关闭，关掉，关了，关一下，退出等一系列表达关闭含义的词语集合，其索引名称也是索引元素可以定义为关闭。

具体的，在语料生成规则包括索引元素的情况下，可以从索引元素对应的词语集合中确定出一个第一词语。例如索引名称为关闭，便可在关闭，关掉，关了，关一下，退出等一系列表达关闭含义的词语集合确定出一个词语作为第一词语。应该理解的是，语料生成规则中可以包含一个或多个索引元素。

以下是对语料生成规则包括的索引元素对应词语集合，并从词语集合中确定第一词语的过程进行详细说明。

在本公开的示例性实施方式中，在Rule2Text引擎中集成丰富的词库以支撑索引元素对应的词语集合，该词库可随机生成实体、事件、动作、语气等词语类型，涵盖了不同对话领域中的常用词语。词库可以由可枚举词语和不可枚举词语两部分组成，可枚举词语是在业务中长期积累的一系列词语，不可枚举词语，指实体取值空间非常大，不便于人工穷举，例如人名、称谓、时间等。

示例性的，表2所示为可枚举词语，且每个可枚举词语有其对应的词语类型以及唯一的索引名称。表3所示为姓、名、称谓的不可枚举词语，每个不可枚举词语也包含了词语类型和唯一的索引名称。

表2

词语类型	索引名称	词语集合
			实体	食物	牛奶，面包，寿司，汉堡包，糕点……
实体	生活物品	钥匙，指甲刀，梳子，保温杯……
			实体	……	……
事件	体育锻炼	踢足球，打篮球，游泳，爬山，骑自行车……
			事件	……	……
动作	打开	打开，开开，开一下……
			动作	关闭	关闭，关掉，关了，关一下，退出……
动作	……	……
			语气	语气前缀	小布，小布小布，你好，hi，哈喽，嘿……
语气	……	……

表3

Rule2Text引擎中还集成了随机程序，将多个索引名称对应的词语集合按照一定的规则随机组合，生成通顺且符合语法的词语。表3所示为随机生成一个人名的流程，首先建立姓、名、称谓索引名称及对应的词语集合，再组合“姓+名”，“姓+称谓”，“名+称谓”等，随机生成一个人名。

在本公开的示例性实施方式中，对于上述语义匹配的任务类别而言，还可以建立词表之间属性图以判断文本1和文本2表达的语义是否一致，例如建立同义词和反义词。示例性的，在Rule2Text引擎中集成了词语的属性图，以建立词语之间的关系，图3示意性示出根据本公开的示例性实施方式的一种建立的词语属性图示意图。参考图3，以“妈妈”作为研究的标杆词，其同义词可以为与“妈妈”相同含义的不同称呼方式，其反义词同样包含“妈”，但是与“妈妈”称谓指代的不是同一人，这样便可判断两个不同文本表达的语义是否一致，例如，给妈妈打电话和给妈咪打电话是相同的语义，给妈妈打电话和给舅妈打电话是不同的语义。

在本公开的另一示例性实施方式中，Rule2Text引擎中除了集成上述实施方式中的词库外，用户还可以添加新增词库以适应新的应用领域。语料生成任务包括新增词库，新增词库与已有词库构成目标词库，从目标词库的与索引元素对应的词语集合中确定出一个第一词语。示例性的，在新增词库时，可以依照已有词库的创建方式向Rule2Text提交新增词库。

具体的，用户可以在客户端显示的配置界面上新增词库，从而将新增词库添加在语料生成任务中发送给服务端。在新增词库时可以向现有索引名称对应的词语集合中新增词语或者创建新的索引名称以及对应的词语集合。以表2所示的可枚举词语为例，若用户为快餐行业，用户可以在已有词库中食物的索引名称对应的词语集合中添加与快餐行业相关的常用词语，例如，汉堡包、薯条、鸡肉卷等。也可以创建一个新的索引名称，以及添加该索引名称对应的词语集合，例如，创建一个词语类型为事件，索引名称为快餐制作，对应的词语集合为做汉堡，炸鸡排，煮米线等。新增词库建立完成后，可以与已有词库构成一个目标词库以支撑索引元素对应的词语集合，从而在目标词库提供的词语集合中确定出一个第一词语。

在生成语料生成任务的过程中，使用语料生成任务包含的新增词库与已有词库构成目标词库，从而在目标词库与索引元素对应的词语集合中确定出第一词语的方法，避免开源语料集中生成的语料与具体应用领域和任务不匹配的情况，该方法可以根据用户的业务需求定制语料集，保证生成的语料质量高，进而使用生成的语料提高业务服务的质量。

S24.结合第一词语生成第一文本语料。

在步骤S22确定出一个第一词语后，便可结合生成第一词语生成第一文本语料。例如，语料生成规则中包含的索引元素分别为“语气前缀”、“打开”、“应用程序”，可确定的第一词语分别为“你好”、“开一下”、“微信”，则生成第一文本语料为：你好开一下微信。

在本公开的示例性实施方式中，在语料生成规则包括索引元素的情况下，语料生成规则还包括文本元素；在结合第一词语生成第一文本语料时，根据文本元素确定出一个第二词语；结合第一词语和第二词语生成第一文本语料。

具体的，语料生成规则同时包括索引元素和文本元素。从与索引元素对应的词语集合中确定出一个第一词语，同时可以在根据文本元素确定出一个第二词语，从而根据确定的第一词语和第二词语生成第一文本语料。文本元素为具体包含的文本信息，文本元素可以是不易被添加在索引元素对应的词语集合中，例如“把”、“将”以及“”，即空格符等，也可以是任何确定的词语。假设文本元素对应的第二词语为“把”，则生成的第一文本语料中包含“把”。例如，索引元素使用{}、文本元素使用[]进行区分，例如对于[把]{应用程序}{关闭}，文本元素确定第二词语为[把]，索引元素对应的第一词语分别为{微信}{关一下}，则对应生成的第一文本语料为：把微信关一下。

示例性的，对于索引元素对应的词语集合，确定输入的词语可以为文本元素。例如，对于表2索引元素为体育锻炼，假设确定仅生成以踢足球为第一词语的第一文本语料，则将踢足球设置为文本元素。

在语料生成规则中同时包含索引元素和文本元素时，可以通过索引元素将相同含义的词语进行分类，且同一索引元素对应的词语集合中的各词语可相互替代，生成大量的文本语料。通过文本元素可以将不易分类的词语添加在文本语料，从而通过语料生成规则快速生成高质量的文本语料，避免了人工标注方法导致的效率低的问题。

在本公开的示例性实施方式中，文本元素可以包括两个以上候选词语；在根据文本元素确定出一个第二词语时，获取各候选词语的选取概率；根据各候选词语的选取概率，从各候选词语中确定出一个第二词语。

具体的，一个文本元素中可以存在一个词语或多个候选词语，例如一个文本元素中可以是[把]或者[把|将]。在文本元素包括两个及两个以上的候选词语时；可以获取各候选词语的选取概率，从而根据候选词语的概率确定出第二词语。各候选词语的选取概率可以设置为等概率选取，也可以为非等概率选取，当非等概率选取时，一个文本元素包含的候选词语的选取概率总和为100％。例如，当一个文本元素包含[把|将|]时，假设将“把”确定为第二词语的概率为60％，将“将”确定为第二词语的概率为30％，将空格符“”确定为第二词语的概率为10％，则“把”、“将”、空格符“”概率总和为100％。

在文本元素包含多个候选词语时，可以通过设置各候选词语的选取概率，可以在生成文本语料时将出现概率较大的词语设置较大的概率，从而根据业务需求生成高质量的文本语料。

在本公开的示例性实施方式中，语料生成规则可以仅包括文本元素。在语料生成规则仅包括文本元素的情况下，根据文本元素确定出一个第三词语；根据第三词语生成第四文本语料。

具体的，语料生成规则可以不包含索引元素，仅包括文本元素，即仅通过文本元素生成文本语料。例如，[天气][怎么样|如何]，假设确定的第三词语为[天气][怎么样]，则可以生成的第四文本语料为：天气怎么样。

仅通过文本元素生成文本语料的过程，同样可以快速生成、高质量文本语料，避免人工标注导致的生成语料效率低的问题，从而提高了生成高质量语料的效率。

在本公开的一些实施例所提供的技术方案中，通过获取语料生成任务，语料生成任务包括语料生成规则；在语料生成规则包括索引元素的情况下，从与索引元素对应的词语集合中确定出一个第一词语；结合第一词语生成第一文本语料。该方法可以使用语料生成任务中包含的语料生成规则，从索引元素对应的词语集合中确定出一个第一词语，并根据语料生成规则结合确定的词语生成高质量的文本语料，该方法文本语料是根据语料生成规则完成标注，避免了一些技术中需要使用人工标注方法生成高质量的文本语料，从而极大的提高了高质量语料生成的效率，降低语料生成的成本。

在本公开的示例性实施方式中，在结合第一词语生成第一文本语料时，可以预先制定生成第一文本语料的Rule2Text规则，用户可以按照指定的Rule2Text规则在配置界面上制定语料生成规则。然后按照制定的语料生成规则从索引元素对应的词语集合中确定出一个第一词语，最后结合第一词语按照语料生成规则生成第一文本语料。

在使用Rule2Text规则从词语集合中确定词语后，结合确定的词语生成文本语料，还需要再制定Rule2Text规则将确定的词语生成文本语料。

以下将结合图4对制定语料生成规则的过程以及使用规则结合词语生成文本语料的过程进行详细说明。

图4示意性示出了根据本公开的示例性实施方式的一种制定语料生成规则示意图。参考图4，首先，在制定Rule2Text规则将确定的词语生成文本语料时，在步骤S41中，撰写Rule2Text规则的规则语法。

其中，语料生成规则可称为Rule2Text规则，也可在以下描述中简称为规则。

示例性的，如表4所示，表4为Rule2Text引擎中制定的一系列结合词语生成文本语料的Rule2Text规则语法。

应该理解的是，用户可以根据自己需求自由设计规定符号及规则符号名称等。

表4

参考图4，索引元素使用{}，从与索引元素{打开}对应的词语集合中确定出一个第一词语时，会在{打开}对应的词语集合中随机选取一个词语作为第一词语。

示例性的，在{}中包含多个并列的索引元素时，可以用元素分隔符“|”分隔，例如，{时间|日期}，表示从已有词库中随机生成一个时间或日期。文本元素使用[]，例如，[把|将|]，表示从"把"、"将"和空字符串中随机选取一个作为确定出的词语。使用元素分隔符可以生成多种文本语料。

示例性的，如果在索引元素、文本元素随机选取并列元素的过程中，可以设定高频元素和低频元素，可以用表4中的概率符“@”指定元素的生成概率，且并列元素概率总和为1。例如，对于并列的索引元素{时间|日期}，可以设定{时间@0.7|日期@0.3}，则{时间@0.7|日期@0.3}表示70％的概率生成时间，30％的概率生成日期。

对于任务类型为序列标注任务，可以使用表4序列标注符“-”标记实体的词语类别。以表5所示索引元素、文本元素以及对应的词语集合为例，结合表1所示的BIO标签使用标注符“-”进行序列标注，例如“张三”，标记索引元素的人名为name实体，则规则制定为{人名-name}，则根据规则进行标注后，“张”对应B-name，“三”对应I-name。

表5

对于任务类型为语义匹配任务，可以用表4中的文本对分隔符“；”实现两条规则的分隔，该文本对分隔符可以用于生成一对文本，例如，{文本1}；{文本2}。还可以使用表4中的词义约束符“～”生成同义词或反义词，假设“～N”表示标杆词(Normalization)，“～S”表示标杆词的同义词(Synonym)，“～A”表示标杆词的反义词。

示例性的，对于语义匹配任务，生成高质量的语料在于模型训练时，使用易误判的样本进模型训练，例如，“妈妈的生日；张三的生日”属于不易误判的负样本，模型不易误判，而“妈妈的生日；姑妈的生日”属于易误判的负样本，模型易误判为正样本，即“妈妈的生日；妈妈的生日”。为了提高模型的准确率，可以使用词义约束符“～”生成同义词或反义词。

以如表6所示的文本对为例进行说明，标杆词的同义词、反义词均从词库中获取，如果词库中不存在该标杆词的同义词或反义词，将标杆词自身作为同义词，从标杆词所在词语集合中随机生成一个非自身的词作为反义词。

表6

规则	示例文本
		{亲属～N}；{亲属～S}	爸爸；老爸
{亲属～N}；{亲属～A}	妈妈；姑妈
		{人名～N}；{人名～S}	张三；张三
{人名～N}；{人名～A}	张三；李四

接下来，在制定上述规则语法的基础上，针对用户当前任务类别制定规则表，在步骤S43中，制定有关任务类型的规则表。

在本公开的示例性实施方式中，规则表可以分为四列，分别为规则、命名、标签、数目。其中，“规则”是编写规则的区域；“命名”是该条规则唯一的索引名称，即索引元素，可以缺省；“标签”列是规则生成文本的分类标签；“数目”可以控制该条规则生成文本的数量，可以填写正整数。对于规则表中的“命名”，命名可以作为索引元素以用在其他规则中，形成复合规则。

最后，在步骤S45中，按照规则语法和规则表制定Rule2Text规则，Rule2Text引擎解析Rule2Text规则以生成文本语料。

在本公开的示例性实施方式中，用户根据步骤S41撰写的规则语法和步骤S43制定任务的规则表，可以撰写Rule2Text规则，然后Rule2Text引擎可以按照内部的规则语法和规则表对用户撰写的Rule2Text规则进行解析，从而根据Rule2Text规则将确定的词语生成文本语料。

图5、图6、图7分别示意性示出了针对文本分类、序列标注、语义匹配三种任务类型的规则表生成文本语料的过程示意图。

图5示意性示出了根据本公开的示例性实施方式的第一种任务类型的规则表生成文本语料的过程示意图。参考图5，针对任务类型为文本分类的任务，规则表中，“规则”的索引元素或文本元素均按照规则语法撰写，并缺省了命名。根据规则生成的每个文本语料，均为对应的标签。例如，规则为{关闭}{应用程序}，标签为app_close,数目为100，则根据该规则生成的100个文本语料均以实现文本分类，其标签均为_label_app_close。

图6示意性示出了根据本公开的示例性实施方式的第二种任务类型的规则表生成文本语料的过程示意图。参考图6，针对任务类型为序列标注的任务，规则表中，“规则”的索引元素或文本元素均按照规则语法撰写，并缺省了命名。通过规则生成的文本语料均实现了序列标注任务。例如，对于规则{日期-data}{地点-area}[天气][怎么样|如何]，根据该规则生成的100个文本语料均已完成了序列标注任务。

图7示意性示出了根据本公开的示例性实施方式的第三种任务类型的规则表生成文本语料的过程示意图。参考图7，针对任务类型为语义匹配的任务，规则表中，“规则”的索引元素或文本元素均按照规则语法撰写，并缺省了命名。图7中的“query”作为命名，“query”也可以作为索引元素以形成复合规则，例如{query}；{answer1}为复合规则。通过该规则可以使生成的文本对进行语义匹配。

该过程预先设定的规则语法和规则表对撰写规则的过程进行约束，有助于用户按照设定的方法撰写规则，提高生成文本语料的效率。

在智能助手领域，以语义匹配任务为例，由于规则生成的文本存在句式结构不够丰富和口语化程度不足的问题，无法较好的适用真实的人机对话过程。同时在智能助手真实的人机问答场景中，用户语音询问过程中存在大量的语音识别错误、语法错误、口语化和噪声，与规则生成的文本分布存在差异。为了减小分布的差距，提高人机问答模型的性能，Rule2Text引擎可对规则生成的第一文本语料进行处理。

以下是对规则生成的第一文本语料进行进一步处理的过程进行详细说明。

在本公开的一种示例性实施方式中，将第一文本语料进行语义相似度转换，以得到第二文本语料。

示例性的，图8示意性示出了根据本公开的示例性实施方式的一种生成相似句的过程示意图。参考图8使用了simbert生成相似句，simbert是基于UniLM思想，并在BERT的基础上融合了检索与生成任务而得到的预训练语言模型。在使用simbert过程中，给定一个文本语料，simbert便可以生成一组语义相似的句子。在图8中，当根据规则生成命名为query的第一文本语料，通过simbert便可生成query对应的相似句。simbert通过Transformer结构实现句子之间的相似度转化，其中，SOS为句子起始标识符，EOS为句子终止标识符，S₁可以是第一文本语料，S₂可以是第二文本语料。

将第一文本语料按照一定比例，通过simbert生成一组相似句，并对生成的相似句进行排列，以在排列结果中随机选取第二文本语料以替换第一文本语料。simbert模型在预训练过程中获取大量样本数据，因此通过相似度转换可以极大丰富生成文本语料的句式结构，提高生成文本语料的质量。

在本公开的另一种示例性实施方式中，在第一文本语料中添加噪声，以得到第三文本语料。

具体的，可通过在第一文本语料中添加噪声以获取口语对话的特征，辅助机器模拟口语表达形式，从而得到第三文本语料，该过程可以称为数据增强的过程。表7为添加噪声的类型、解决方案以及示例说明，通过添加噪声的方式，可以使用户在与智能助手口语对话过程中，对存在大量语音识别错误、语法错误、口语化和噪声的问题进行精准生成文本语料，提高生成文本语料的质量。

表7

在本公开的又一种示例性实施方式中，为了使得模型训练过程中的正负样本均衡，可以对第一文本语料进行字粒度分解，以得到第一文本语料的字粒度分解结果；利用第一文本语料的字粒度分解结果在人工标注评测集中进行搜索，以得到与第一文本语料对应的负样本语料。

其中，字粒度分解是将一句文本分解为独立的字，例如，“打电话给妈妈”可分解为“打电话给妈妈”，负样本为语义匹配过程中生成的文本语料包含正样本中的字，但是与用户的询问query无关，例如，“打电话给妈妈”的负样本可以为“电话的发明者是谁”，“我喜欢妈妈”，“发微信给妈妈”，“帮我交电费”等。

目前为了实现业务功能，用户通常只关注正样本的获取，从而通过Rule2Text规则生成大量的正样本。但是该方法导致难以获取负样本，从而造成训练模型所使用的数据集中正负样本不均衡问题，而正负样本不均衡的数据集进行模型训练，会造成模型过召回率问题，其中，召回率又称灵敏度，具体为模型预测正确的正样本的个数/实际观测值数据中正样本的个数。而过召回率的问题可导致该模型难以对负样本进行检测。本公开示例性实施方式可以从人工标注评测集中随机选取非当前任务领域的query作为负样本，但是获取的负样本与正样本差异较大，难以解决模型过召回问题。因此，需要获取语义相似的负样本，以提高使用生成的文本语料进行模型训练的精准度。

在本公开的示例性实施方式中，词频-逆文件频率(TF-IDF)是一项可以有效挖掘相似文本的指标，以词语w为例进行说明，计算方式如公式1、公式2和公式3所示：

TF-IDF＝TF*IDF (公式1)

示例性的，以query为“打电话给妈妈”挖掘负样本进行方案说明，首先将query进行字粒度分解：

打电话给妈妈-->打电话给妈妈

则根据公式2可计算每个字的词频分别为：TF(打)＝0.167，TF(电)＝0.167，TF(话)＝0.167，TF(给)＝0.167，TF(妈)＝0.333。

假设人工标注评测集中有100万条query，包含“打”的query有10万条，包含“电”的query有1万条，包含“话”的query有2万条，包含“给”的query有10万条，包含“妈”的query有1.5万条，则根据公式3可确定各字粒的逆文件频率分别为：

IDF(打)＝log(100w/10w)＝1；

IDF(电)＝log(100w/1w)＝2；

IDF(话)＝log(100w/2w)＝1.7；

IDF(给)＝log(100w/10w)＝1；

IDF(妈)＝log(100w/1.5w)＝1.82。

则根据公式1可知，query的TF-IDF为[(妈，0.607),(电，0.333),(话，0.283)，(打，0.167)，(给，0.167)]。

设置TF-IDF阈值，并根据阈值进行负样本确认。假设TF-IDF的阈值等于0.3，则大于阈值的为“妈”和“电”，搜索人工标注评测集中含有相同字的query，搜索结果为[电话的发明者是谁，我喜欢妈妈，发微信给妈妈，帮我交电费，……]，搜索结果可以作为负样本，从而与正样本建立数据集。

通过上述对第一文本语料进行处理，提高了生成文本语料的质量，使得生成的语料具有更加丰富的句式结构，从而根据生成的语料组成的数据集进行模型训练，提高了模型的准确率，提高智能助手的竞争力。

应该理解的是，上述对第一文本语料进行处理的方法，同样适用于语料生成规则中仅包含文本元素，并根据文本元素确定的第三词语而生成的第四文本语料。

以下将结合图9、图10对语料生成的全部过程进行详细说明。

图9示意性示出了根据本公开的示例性实施方式的一种规则生成文本语料的过程示意图。参考图9，规则生成文本语料的总体框架分为任务前处理、规则生成文本和任务后处理三个流程，其中，任务前处理包含任务配置、定制领域词库和制定规则表等步骤，主要完成规则生成文本之前必要准备工作。规则生成文本是由Rule2Text引擎自动执行的，将人工规则转换为文本。任务后处理包括数据增强、simbert、负样本挖掘等步骤，将规则生成的文本进一步处理，以丰富规则生成文本语料的句式结构，快速生成大量高质量语料。

具体的，在任务前处理阶段，用户可根据实际的业务需求选取任务的配置信息，例如，任务类型、生成的语料是否需要数据增强、是否生成相似句、负样本语料等信息。通过定制领域词库可以根据用户的业务需求定制通用词库中不存在的词语集合，通用词库即已有词库，用户还需要根据Rule2Text的规则语法制定规则表。然后，使用Rule2Text引擎分析制定的规则，按照任务配置的要求生成文本语料。

最后还可以使用数据增强以对生成的文本语料中添加噪声，通过simbert对生成的文本语料进行语义相似度转换，通过负样本挖掘对生成的文本语料进行字粒度分解；利用生成文本语料的字粒度分解结果在人工标注评测集中进行搜索，以得到与生成的文本语料对应的负样本语料。

以NLU模型为例，图9所示的规则生成文本语料的过程，极大提高了NLU模型获取数据集的效率，用户可通过特定任务定制少量的词语集合和规则，就可以生成任意数目的文本语料。如表8所示，与线上query人工标注方案相比，效率有了极大的提高。

表8

同时，在优化模型效果方面，Rule2Text引擎可以快速根据业务需求生成语料。在任务前处理阶段，可以使用定制领域词库添加业务所需的词语集合，以大量生成语义丰富的句子；在任务后处理阶段，还集成了SimBERT生成、数据增强、负样本挖掘等工具，使得生成语料的句式结构丰富。如表9所示，在词库和规则准备较为充分的情况下，Rule2Text对模型效果优化的作用可以与线上人工query标注方案的效果相近。由表8、表9可知，使用本公开提供的语料生成方法可以在效果与人工标注的方法相近的前提下，提高语料生成的效率。

表9

图10示意性示出了根据本公开的示例性实施方式的一种规则生成文本的交互界面示意图。参考图10，本公开还提供了一种规则生成文本的交互界面，交互界面分为标题栏、菜单栏、配置中心、词库编辑区、规则编辑区、数据生成区模块。

其中，菜单栏中包含了用户的账号信息，当用户注册登录账号后，可以在云端存储个人工作文件，以保留工作记录，以便用户直接使用已制定的规则快速生成文本语料，提高用户体验。

以图9所示的规则生成文本语料的过程为例，首先，用户可以在图10所示的配置中心完成任务配置，各项参数以下拉菜单的形式呈现，用户可以根据不同任务需求选择不同的配置参数。用户可以优先在已有词库的列表中查看现有的通用词表，若不满足任务要求，可以在词库编辑区中添加词语，并结合已有词库确定词语集合。

然后，用户可以根据Rule2Text规则的规则语法，在规则编辑区制定规则表。最后，制定完成后点击运行按钮，用户添加的配置信息、词语列表和规则均上传到云端以生成语料生成任务，云端服务启动Rule2Text引擎，将各条规则随机生成指定数目的文本。

如果用户在配置中心配置了数据增强、相似生成、负样本挖掘的配置信息，还可以调用数据增强、simbert相似句生成模块，对生成的文本进行泛化处理，调用TF-IDF算法挖掘线上数据集中相关的负样本。最后，根据配置的任务类型，将生成的文本数据封装成不同格式的数据集，返回到客户端，并在数据生成区展示，用户可以通过下载按钮下载生成的文本语料。通过交互式界面，降低了Rule2Text引擎的使用门槛，提高用户体验。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种语料生成装置。

图11示意性示出了本公开的示例性实施方式的语料生成装置的方框图。参考图11，根据本公开的示例性实施方式的语料生成装置11可以包括任务获取模块110、词语确定模块112、语料生成模块114。

任务获取模块110可以用于获取语料生成任务，语料生成任务包括语料生成规则；词语确定模块112可以用于在语料生成规则包括索引元素的情况下，从与索引元素对应的词语集合中随机确定出一个第一词语；语料生成模块114可以用于结合第一词语生成第一文本语料。

本公开实施例提供的语料生成装置11，可以执行上述任一实施例中的语料生成方法的技术方案，其实现原理以及有益效果与语料生成方法的实现原理及有益效果类似，可参见语料生成方法的实现原理及有益效果，此处不再进行赘述。

进一步的，本示例实施方式中还提供了另一种语料生成装置。

图12示意性示出了本公开的示例性实施方式的语料生成装置的方框图。参考图12，根据本公开的示例性实施方式的语料生成装置12可以包括语料生成模块120、语料转换模块122、噪声添加模块124、语料分解模块126。

根据本公开的示例性实施例，语料生成模块120可以用于根据文本元素确定出一个第二词语；结合第一词语和第二词语生成第一文本语料。

根据本公开的示例性实施例，语料生成模块120可以用于获取各候选词语的选取概率；根据各候选词语的选取概率，从各候选词语中确定出一个第二词语。

根据本公开的示例性实施例，语料转换模块122将第一文本语料进行语义相似度转换，以得到第二文本语料。

根据本公开的示例性实施例，噪声添加模块124在第一文本语料中添加噪声，以得到第三文本语料。

根据本公开的示例性实施例，语料分解模块126可以用于对第一文本语料进行字粒度分解，以得到第一文本语料的字粒度分解结果；利用第一文本语料的字粒度分解结果在人工标注评测集中进行搜索，以得到与第一文本语料对应的负样本语料。

根据本公开的示例性实施例，语料生成模块120可以用于从目标词库的与索引元素对应的词语集合中确定出一个第一词语。

根据本公开的示例性实施例，语料生成模块120可以用于在语料生成规则仅包括文本元素的情况下，根据文本元素确定出一个第三词语；根据第三词语生成第四文本语料。

本公开实施例提供的语料生成装置12，可以执行上述任意一实施例中的语料生成方法的技术方案，其实现原理以及有益效果与语料生成方法的实现原理及有益效果类似，可参见语料生成方法的实现原理及有益效果，此处不再进行赘述。

由于本发明实施方式的程序运行性能分析装置的各个功能模块与上述方法发明实施方式中相同，因此在此不再赘述。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图13来描述根据本发明的这种实施方式的电子设备1300。图13显示的电子设备1300仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图13所示，电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于：上述至少一个处理单元1310、上述至少一个存储单元1320、连接不同系统组件(包括存储单元1320和处理单元1310)的总线1330、显示单元1340。

其中，存储单元存储有程序代码，程序代码可以被处理单元1310执行，使得处理单元1310执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元1310可以执行如图2中所示的步骤S20至步骤S24。

存储单元1320可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)13201和/或高速缓存存储单元13202，还可以进一步包括只读存储单元(ROM)13203。

存储单元1320还可以包括具有一组(至少一个)程序模块13205的程序/实用工具13204，这样的程序模块13205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1330可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1300也可以与一个或多个外部设备1400(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1300交互的设备通信，和/或与使得该电子设备1300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1350进行。并且，电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1360通过总线1330与电子设备1300的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种语料生成方法，其特征在于，包括：

获取语料生成任务，所述语料生成任务包括语料生成规则；

在所述语料生成规则包括索引元素的情况下，从与所述索引元素对应的词语集合中确定出一个第一词语；

结合所述第一词语生成第一文本语料。

2.根据权利要求1所述的语料生成方法，其特征在于，在所述语料生成规则包括索引元素的情况下，所述语料生成规则还包括文本元素；其中，结合所述第一词语生成第一文本语料包括:

根据所述文本元素确定出一个第二词语；

结合所述第一词语和所述第二词语生成所述第一文本语料。

3.根据权利要求2所述的语料生成方法，其特征在于，所述文本元素包括两个以上候选词语；其中，根据所述文本元素确定出一个第二词语包括：

获取各所述候选词语的选取概率；

根据各所述候选词语的选取概率，从各所述候选词语中确定出一个第二词语。

4.根据权利要求1所述的语料生成方法，其特征在于，所述语料生成方法还包括：

将所述第一文本语料进行语义相似度转换，以得到第二文本语料。

5.根据权利要求1所述的语料生成方法，其特征在于，所述语料生成方法还包括：

在所述第一文本语料中添加噪声，以得到第三文本语料。

6.根据权利要求1所述的语料生成方法，其特征在于，所述语料生成方法还包括：

对第一文本语料进行字粒度分解，以得到第一文本语料的字粒度分解结果；

利用第一文本语料的字粒度分解结果在人工标注评测集中进行搜索，以得到与第一文本语料对应的负样本语料。

7.根据权利要求1至6中任一项所述的语料生成方法，其特征在于，所述语料生成任务包括新增词库，新增词库与已有词库构成目标词库；其中，从与所述索引元素对应的词语集合中确定出一个第一词语包括：

从目标词库的与所述索引元素对应的词语集合中确定出一个第一词语。

8.根据权利要求1所述的语料生成方法，其特征在于，所述语料生成方法还包括：

在所述语料生成规则仅包括文本元素的情况下，根据所述文本元素确定出一个第三词语；

根据所述第三词语生成第四文本语料。

9.一种语料生成系统，其特征在于，包括：

客户端，用于提供语料生成任务的配置界面，响应针对所述配置界面的配置操作，生成语料生成任务；

服务端，用于利用权利要求1至8中任一项所述的语料生成方法生成文本语料。

10.一种语料生成装置，其特征在于，包括：

任务获取模块，用于获取语料生成任务，所述语料生成任务包括语料生成规则；

词语确定模块，用于在所述语料生成规则包括索引元素的情况下，从与所述索引元素对应的词语集合中随机确定出一个第一词语；

语料生成模块，用于结合所述第一词语生成第一文本语料。

11.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的语料生成方法。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任一项所述的语料生成方法。