CN111538810B

CN111538810B - 数据生成方法、装置、电子设备及存储介质

Info

Publication number: CN111538810B
Application number: CN202010322839.2A
Authority: CN
Inventors: 章乐
Original assignee: Zebred Network Technology Co Ltd
Current assignee: Zebred Network Technology Co Ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2024-04-09
Anticipated expiration: 2040-04-22
Also published as: CN111538810A

Abstract

本申请提供一种数据生成方法、装置、电子设备及存储介质。该数据生成方法应用于指令型人机对话系统，首先根据第一语法规则以及数据结构化模型确定第二语法规则，以使得预设解析器的解析结果能够大于预设需求阈值，并通过数据结构化模型表征语料日志所包含的历史指令型语句。然后根据第二语法规则以及历史指令型语句确定第三语法规则，再根据预设解析器以及第三语法规则生成自然语料数据以及标签，以将自然语料数据以及标签用于预设训练模型训练对话系统。所生成的自然语料数据具备鲁棒性较强的可扩展性，提高了预设训练模型训练结果的召回率，并保持高精度。自动生成标签，无需人工标注，有效降低了投入成本。

Description

数据生成方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能以及数据处理技术领域，尤其涉及一种数据生成方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的快速发展，越来越多的人机对话系统被研发以投入应用，给社会的经济生产以及人们的日常生活都带来了诸多便利。例如，一种指令型的人机对话系统可以被应用于车辆或智能家电等设备中，用户通过对设备下达指令，人机对话系统对该指令所对应的语句进行解译，以使设备自动对指令型语句所包含的指令进行响应。

因而，针对设备所具备的对话功能，需要大量的用户相关语料对人机对话系统进行训练学习，使其能够准确地识别用户的意图以及对指令型语句的语义理解。现有技术中，对于人机对话系统进行训练学习所需的数据，通常是编写大量的语义表、短语结构等相关语料数据，并通过编译器进行语义解析，以及通过众包的方式对语料数据标注标签，然后将该语料数据以及标签用于训练模型对人机对话系统进行训练学习。

然而，基于所编写的语义表、短语结构以及编译器的语义解析所确定的语料数据，由于脱离了用户主体的自然语言，因而不具备鲁棒性强的可扩展性，并且负误识较多，导致召回率比较低。另外，众包标注属于劳动密集型的人工标注方法，难度较大，人力人本过高。

发明内容

本申请提供一种数据生成方法、装置、电子设备及存储介质，用以解决现有技术中所确定的语料数据以及标签在训练模型时存在召回率低以及人工成本高等技术问题。

第一方面，本申请提供一种数据生成方法，应用于指令型人机对话系统，所述方法包括：

根据第一语法规则以及数据结构化模型确定第二语法规则，以使预设解析器根据所述第二语法规则对语料日志进行解析，所得到的解析结果大于预设需求阈值，所述数据结构化模型用于表征所述语料日志中所包含的历史指令型语句；

根据所述第二语法规则以及所述历史指令型语句确定第三语法规则，所述第三语法规则包括：同一种功能所对应的历史指令型语句的数量与所述历史指令型语句总数量之间的比例；

根据所述预设解析器以及所述第三语法规则生成自然语料数据以及标签，以将所述自然语料数据以及所述标签用于预设训练模型训练所述对话系统，所述标签为同一种功能所对应的自然语料数据的归一化表达式。

在一种可能的设计中，所述根据第一语法规则以及数据结构化模型确定第二语法规则之前，还包括：

获取语料日志，所述语料日志包括用户对所述对话系统所属设备下达的历史指令型语句，所述语料日志的数据量大于预设数据量阈值；

根据所述历史指令型语句以及预设分词算法确定所述数据结构化模型，所述数据结构化模型包括第一结构化模型以及第二结构化模型，所述第一结构化模型与对应的所述历史指令型语句为正向顺序，所述第二结构化模型与对应的所述历史指令型语句为逆向顺序。

在一种可能的设计中，所述根据第一语法规则以及数据结构化模型确定第二语法规则，包括：

根据所述第一语法规则以及搭配结构确定所述第二语法规则，所述搭配结构包括所述第一搭配结构、所述第二搭配结构以及所述第三搭配结构中的至少一个；

其中，根据预设文字片段以及所述第一结构化模型确定第一结构化子模型，所述第一结构化子模型用于表征第一搭配结构，所述第一搭配结构所对应的文字为所述预设文字片段之后的文字；

根据所述预设文字片段以及所述第二结构化模型确定第二结构化子模型，所述第二结构化子模型用于表征第二搭配结构，所述第二搭配结构所对应的文字为所述预设文字片段之前的文字；

根据所述第一结构化模型以及所述第二结构化模型确定第三搭配结构，所述第三搭配结构对应的文字为所述预设文字片段中间的文字；

所述预设文字片段属于所述历史指令型语句。

在一种可能的设计中，当所述预设解析器根据所述第二语法规则无法解析所述语料日志时，还包括：

将所述无法解析的语料日志确定为未解析语料日志；

根据所述未解析语料日志对所述第二语法规则进行扩充，以使得所述预设解析器根据扩充后的第二语法规则对所述未解析语料日志实现解析。

在一种可能的设计中，所述根据所述预设解析器以及所述第三语法规则生成自然语料数据以及标签，包括：

对所述第三语法规则进行平均采样，以得到样本规则，所述样本规则用于表征均衡化的所述第三语法规则；

根据所述预设解析器以及所述样本规则生成所述自然语料数据以及所述标签。

可选地，当所述语料日志的数据量不大于所述预设数据量阈值，所述数据生成方法，包括：

根据所述语料日志以及预设双向语义训练模型确定语义训练模型；

根据预设基础语料以及所述语义训练模型确定相似语料，所述相似语料与所述语料日志具有相同的所述搭配结构；

对所述相似语料进行人工校验得到校验语料，以将所述校验语料以及所述预设基础语料用于所述预设训练模型训练所述对话系统。

可选地，所述语料日志的数据量不大于所述预设数据量阈值，包括：

所述语料日志的数据量大于零且小于所述预设数据量阈值；或

所述语料日志的数据量为零。

在一种可能的设计中，所述对所述相似语料进行人工校验得到校验语料之后，还包括：

根据所述校验语料对所述第三语法规则以及所述预设解析器进行训练，以使得所述自然语料数据以及所述标签分别大于预设数据阈值以及预设标签阈值。

第二方面，本申请提供一种数据生成装置，应用于指令型人机对话系统，所述装置包括：

第一处理模块，用于根据第一语法规则以及数据结构化模型确定第二语法规则，以使预设解析器根据所述第二语法规则对语料日志进行解析，所得到的解析结果大于预设需求阈值，所述数据结构化模型用于表征所述语料日志中所包含的历史指令型语句；

第二处理模块，用于根据所述第二语法规则以及所述历史指令型语句确定第三语法规则，所述第三语法规则包括：同一种功能所对应的历史指令型语句的数量与所述历史指令型语句总数量之间的比例；

生成模块，用于根据所述预设解析器以及所述第三语法规则生成自然语料数据以及标签，以将所述自然语料数据以及所述标签用于预设训练模型训练所述对话系统，所述标签为同一种功能所对应的自然语料数据的归一化表达式。

在一种可能的设计中，所述数据生成装置，还包括：

获取模块，用于获取语料日志，所述语料日志包括用户对所述对话系统所属设备下达的历史指令型语句，所述语料日志的数据量大于预设数据量阈值；

第三处理模块，用于根据所述历史指令型语句以及预设分词算法确定所述数据结构化模型，所述数据结构化模型包括第一结构化模型以及第二结构化模型，所述第一结构化模型与对应的所述历史指令型语句为正向顺序，所述第二结构化模型与对应的所述历史指令型语句为逆向顺序。

在一种可能的设计中，所述第一处理模块，具体用于：

所述预设文字片段属于所述历史指令型语句。

在一种可能的设计中，当所述预设解析器根据所述第二语法规则无法解析所述语料日志时，所述数据生成装置，还包括：第四处理模块，所述第四处理模块，用于：

将所述无法解析的语料日志确定为未解析语料日志；

在一种可能的设计中，所述生成模块，具体用于：

可选地，当所述语料日志的数据量不大于所述预设数据量阈值，所述数据生成装置，包括：

模型确定模块，用于根据所述语料日志以及预设双向语义训练模型确定语义训练模型；

数据确定模块，用于根据预设基础语料以及所述语义训练模型确定相似语料，所述相似语料与所述语料日志具有相同的所述搭配结构；

校验模块，用于对所述相似语料进行人工校验得到校验语料，以将所述校验语料以及所述预设基础语料用于所述预设训练模型训练所述对话系统。

所述语料日志的数据量为零。

在一种可能的设计中，所述数据生成装置，还包括：

训练模块，用于根据所述校验语料对所述第三语法规则以及所述预设解析器进行训练，以使得所述自然语料数据以及所述标签分别大于预设数据阈值以及预设标签阈值。

第三方面，本申请提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面及可选的方案涉及的数据生成方法。

第四方面，本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面及可选的方案涉及的数据生成方法。

本申请提供一种数据生成方法、装置、电子设备及存储介质，本申请提供的数据生成方法应用于指令型人机对话系统。其中，本申请提供的数据生成方法，首先根据第一语法规则以及数据结构化模型确定第二语法规则，以使得预设解析器根据第二语法规则对语料日志进行解析时，所得到的解析结果能够大于预设需求阈值，而数据结构化模型能够表征语料日志所包含的历史指令型语句，然后根据第二语法规则以及历史指令型语句确定第三语法规则，其中，所确定的第三语法规则包括同一种功能所对应的历史指令型语句的数量与历史指令型语句总数量之间的比例，最后，根据预设解析器以及第三语法规则生成自然语料数据以及标签，以采用自然语料数据以及标签通过预设训练模型训练对话系统，其中，标签为同一种功能所对应的自然语料数据的归一化表达式。由于在确定语法规则时基于用户的语料日志进行，因而，所生成的自然语料数据具备鲁棒性较强的可扩展性，在用于预设训练模型时，训练所得的结果能够提高语义理解的召回率，同时，还能够保持高精度。并且，数据在生成过程中自动实现标签的标注，无需劳动密集型的人工标注行为，降低了投入成本。

附图说明

图1为本申请实施例提供的一种数据生成方法的应用场景图；

图2为本申请实施例提供的一种数据生成方法的流程示意图；

图3为本申请实施例提供的另一种数据生成方法的流程示意图；

图4为本申请实施例提供的再一种数据生成方法的流程示意图；

图5为本申请实施例提供的又一种数据生成方法的流程示意图；

图6为本申请实施例提供的一种数据生成装置的结构示意图；

图7为本申请实施例提供的另一种数据生成装置的结构示意图；

图8为本申请实施例提供的再一种数据生成装置的结构示意图；

图9为本申请实施例提供的又一种数据生成装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

当今，随着人工智能技术的快速发展，越来越多的人机对话系统被研发以投入经济生产以及人们的日常生活中。例如，一种指令型的人机对话系统应用于车辆或智能家电等设备中，当用户对设备下达指令，人机对话系统则能够对该指令对应的语句进行解译，以使设备自动对指令做出响应。对话系统之所以能够对指令进行响应，是通过对其进行用户相关语料的训练学习，使其能够准确识别用户的意图以及语义理解。

现有技术中，对人机对话系统进行训练学习时，通过编写大量的语义表、短语结构等相关数据，并通过编译器进行语义理解，并且通过众包的方式对数据标注标签，然后将这些相关数据以及标签用于训练模型对人机对话系统进行训练学习。然而，基于所编写的语义表、短语结构以及编译器的语义解析所确定的数据，由于脱离了用户主体的自然语言，该数据不具备鲁棒性强的可扩展性，并且负误识较多，导致召回率较低。另外，对于标签采用的众包标注属于劳动密集型的人工方法，难度较大，人力成本较高。

针对现有技术中的上述问题，本申请提供了一种数据生成方法、装置、电子设备及存储介质。其中，本申请实施例提供的数据生成方法，首先根据第一语法规则以及数据结构化模型确定第二语法规则，以使得预设解析器根据第二语法规则对语料日志进行解析时，所得到的解析结果能够大于预设需求阈值，而数据结构化模型能够表征语料日志所包含的历史指令型语句。然后根据第二语法规则以及历史指令型语句确定第三语法规则，其中，所确定的第三语法规则包括同一种功能所对应的历史指令型语句的数量与历史指令型语句总数量之间的比例。最后，根据预设解析器以及第三语法规则生成自然语料数据以及标签，以采用自然语料数据以及标签训练预设训练模型，其中，标签为同一种功能所对应的自然语料数据的归一化表达式，预设训练模型用于训练对话系统。由于在确定语法规则时基于用户的语料日志进行，因而，所生成的自然语料数据具备鲁棒性较强的可扩展性，在用于预设训练模型时，训练所得的结果能够提高语义理解的召回率，同时，还能够保持高精度。并且，数据在生成过程中自动实现标签的标注，无需劳动密集型的人工标注行为，降低了投入成本。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请实施例提供的一种数据生成方法的应用场景图。如图1所示，本申请实施例提供的数据生成方法可以由电子设备执行，其中，电子设备可以是服务器、服务器集群、台式计算机、笔记本电脑等，图1中以笔记本电脑100为例示出。本申请实施例提供的数据生成方法，应用于指令型人机对话系统，该指令型人机对话系统能够应用于车辆、智能家居等设备中，图1中应用指令型人机对话系统的设备以车辆200为例示出。值得说明的是，本申请实施例对于执行数据生成方法的电子设备以及应用指令型人机对话系统的设备的类型均不作限定。

本申请实施例提供的数据生成方法，笔记本电脑100通过运行相应程序以执行该数据生成方法的步骤，首先根据第一语法规则以及数据结构化模型确定第二语法规则，以使得预设解析器根据第二语法规则对语料日志进行解析时，所得到的解析结果能够大于预设需求阈值，而数据结构化模型能够表征语料日志所包含的历史指令型语句，然后根据第二语法规则以及历史指令型语句确定第三语法规则，最后，根据预设解析器以及第三语法规则生成自然语料数据以及标签，以采用自然语料数据以及标签训练通过预设训练模型对应用于车辆200中的对话系统进行训练。从而，使得生成的自然语料数据具备鲁棒性较强的可扩展性，通过预设训练模型所得的结果能够提高语义理解的召回率，同时，还能够保持高精度。并且自动实现标签的标注，无需劳动密集型的人工标注行为，降低了投入成本。

图2为本申请实施例提供的一种数据生成方法的流程示意图。如图2所示，本实施例提供的数据生成方法，应用于指令型人机对话系统，包括：

S101：根据第一语法规则以及数据结构化模型确定第二语法规则，以使预设解析器根据第二语法规则对语料日志进行解析，所得到的解析结果大于预设需求阈值。

其中，数据结构化模型用于表征语料日志中所包含的历史指令型语句。

第一语法规则是一种被用来形式化定义语言的规则，通过第一语法规则可以实现语言形式化的数学表达，其属于编程语言的语法，英文表达为Backus-Naur Form，简称BNF。本申请实施例中的第一语法规则为编程人员为解析器所提供的未加任何应用场景限定的形式化语言规则。本申请实施例的应用场景为指令型人机对话系统对于用户的自然语言的语义理解。

数据结构化模型是将语句所包含的信息量通过结构化模型进行表达。数据结构化模型可以例如贝叶斯网络(Bayesian Network)中采用的有向无环图(Directed AcyclicGraph)，或者Chow-Liu树，通过信息量来表述数据的算法或模型。在本申请实施例中，数据结构化模型表征语料日志中所包含的历史指令型语句，换言之，将语料日志所包含的历史指令型语句所包含的信息通过数据结构化模型进行表达。可以理解的是，语料日志可以根据实际工况选择过去的某个时间周期内的数据，对此，本申请实施例不作限定。

根据第一语法规则以及数据结构化模型确定第二语法规则，即将第一语法规则通过数据结构化模型表征的历史指令型语句进行限定，限定后的第一语法规则为第二语法规则。确定第二语法规则的目的是使得预设解析器根据第二语法规则对语料日志进行解析，所得到的解析结果能够大于预设需求阈值。换言之，预设解析式通过第二语法规则对语料日志进行解析，所得到的解析结果，比其通过第一语法规则对语料日志进行解析得到的解析结果，更加符合本应用场景范畴内的用户语言。其中，预设需求阈值可以根据预设解析器根据第一语法规则对语料日志进行解析所得到的解析结果设定，本申请实施例不作限定。

S102：根据第二语法规则以及历史指令型语句确定第三语法规则。

其中，第三语法规则包括：同一种功能所对应的历史指令型语句的数量与历史指令型语句总数量之间的比例。

在确定了第二语法规则，以使预设解析器据此对语料日志进行解析，在解析的过程中，可以根据语料日志所包含的历史指令型语句得到附带有概率的第二语法规则，将有概率分布的第二语法规则确定为第三语法规则，其中的概率表示，能够表征同一种功能的历史指令型语句的数量与表征所有功能的历史指令型语句的数量的比例。所描述的功能即为设备所包含的用于人机对话系统的模块，例如，该设备包含有蓝牙模块，功能即为打开蓝牙设备或关闭蓝牙设备，用户通过下达与功能对应的指令型语句则能够使设备做出响应。可以理解的是，用户已下达的与该功能相关的指令型语句即为针对同一种功能对应的历史指令型语句。而设备中还有其他通过指令型人机对话系统实现的模块，则设备中还包含有其他模块所对应功能的其他历史指令型语句。因而，语料日志包含该设备中所有通过指令型人机对话系统实现相应功能的所有历史指令型语句。

S103：根据预设解析器以及第三语法规则生成自然语料数据以及标签，以将自然语料数据以及标签用于预设训练模型训练对话系统。

其中，标签为同一种功能所对应的自然语料数据的归一化表达式。

在确定了第三语法规则之后，通过预设解析器以及第三语法规则生成自然语料数据以及标签。其中，预设解析器是一种能够识别BNF语法的通用文本解析器，对此，本申请实施例不作限定。通过该预设解析器对第三语法规则进行解析，即能够生成大量的自然语料数据以及对应的标签，可以理解的是，所生成的自然语料数据中的文本都为指令型的语句。标签则是指用于表征同一种功能的自然语料数据的归一化表达式，其中，归一化表达式可以理解为一种标准表达语句。该标准表达语句的具体语句形式可由技术人员根据实际工况进行设置，对此，本申请实施例不作限定。

将生成的大量自然语料数据以及标签作为训练数据，通过预设训练模型训练对话系统。由于生成自然语料以及标签时所依据的语法规则基于了用户的语料日志，因而，所生成的数据具备鲁棒性较强的可扩展性。而将该数据用于预设训练模型训练对话系统所得到的训练结果，相对于基于编写的语义表、短语结构以及根据语法规则解析得到的数据而言，能够提高对话系统语义理解的召回率。又因所生成的大量自然语料数据以及标签是基于第三语法规则产生，因而，同时还保持了高精度。并且，用于训练的标签为自动生成过程，无需投入人力成本进行标注。

本实施例提供的数据生成方法，能够应用于指令型人机对话系统。首先根据第一语法规则以及数据结构化模型确定第二语法规则，以使得预设解析器根据第二语法规则对语料日志进行解析时，所得到的解析结果能够大于预设需求阈值，而数据结构化模型能够表征语料日志中包含的历史指令型语句。然后，根据第二语法规则以及历史指令型语句确定第三语法规则，所确定的第三语法规则包括同一种功能所对应的历史指令型语句的数量与历史指令型语句总数量之间的比例。最后，通过预设解析器以及第三语法规则生成大量自然语料数据以及标签，将生成的自然语料数据以及标签用于预设训练模型训练对话系统，其中的标签为同一种功能所对应的自然语料数据的归一化表达式。本实施例提供的数据生成方法，由于在生成自然语料以及标签时，基于了用户的语料日志，因而，所生成的自然语料数据具备鲁棒性较强的可扩展性。将该自然语料数据以及标签用于预设训练模型进行训练，所得到的结果相比于现有技术的数据能够有效提高对话系统对语义理解的召回率。同时，自然语料数据以及标签是基于第三语法规则产生，因而，还依然保持高精度。另外，所生成的标签为自动实现过程，无需劳动密集型的人工行为，从而降低了投入成本。

在一种可能的设计中，根据第一语法规则以及数据结构化模型确定第二语法规则之前，本实施例提供的数据生成方法，还包括如图3所示的步骤，图3为本申请实施例提供的另一种数据生成方法的流程示意图，如图3所示，该方法包括：

S301：获取语料日志。

其中，语料日志包括用户对对话系统所属设备下达的历史指令型语句，并且该语料日志的数据量大于预设数据量阈值。

步骤S101中描述了根据第一语法规则以及数据结构化模型确定第二语法规则，其中，数据结构化模型用于表征语料日志所包含的历史指令型语句，因而，在确定第二语法规则之前，对所需的语料日志进行获取。语料日志是历史上某个时间段内，用户对对话系统所属设备已经下达过的指令型语句，即语料日志包括用户对该对话系统所属设备下达的历史指令型语句。可以理解的是，针对一种功能，获取具有一定数据量的历史指令型语句用于语法规则的确定才有实际意义，因而，本步骤中所获取的语料日志的数据量必须是大于预设数据量阈值。换言之，获取数据量大于预设数据量阈值的语料日志。其中，针对一种功能的预设数据量阈值的具体数值，本申请实施例不作限定，可以根据用户对功能的使用频次等因素进行设置。

S302：根据历史指令型语句以及预设分词算法确定数据结构化模型。

其中，数据结构化模型包括第一结构化模型以及第二结构化模型，第一结构化模型与对应的历史指令型语句为正向顺序，第二结构化模型与对应的历史指令型语句为逆向顺序。

获取到语料日志之后，通过数据结构化模型表征该语料日志所包含的历史指令型语句。具体地，通过预设分词算法对历史指令型语句进行分词处理，得到的处理结果以数据结构化模型表示，从而实现了根据历史指令型语句以及预设分词算法确定数据结构化模型。其中，预设分词算法可以为二元分词算法(Bigram)，通过该算法将历史指令型语句从头到尾每两个字组成一个词语进行分词处理。处理结果可以通过有向无环图或者Chow-Liu树进行呈现。在本实施例提供的数据生成方法中，可以对历史指令型语句通过正向以及反向分别形成数据结构化模型，例如，通过预设分词算法对历史指令型语句按照该语句自然的从左到右的正向顺序进行处理，得到第一结构化模型。相反地，通过预设分词算法对历史指令型语句按照从右到左的逆向顺序进行处理，得到第二结构化模型。从而，所确定的数据结构化模型包括第一结构化模型以及第二结构化模型。

可以理解的是，预设分词算法是通过点互信息对历史指令型语句进行处理。因而，可选地，可以将数据结构模型中点互信息较高的数据融合为同一数据，例如，当设备为车辆时，“空”和“调”就可以融合为“空调”。

值得说明的是，历史指令型语句可以是句子，也可以是短语、词语等，对此，本实施例不作限定。

本实施例提供的数据生成方法，在根据第一语法规则以及数据结构化模型确定第二语法规则之前，首先获取语料日志，所获取的语料日志中包括用户对对话系统所属设备下达的历史指令型语句，并且，只获取数据量大于预设数量阈值的语料日志。之后，再通过预设分词算法对历史指令型语句进行处理，处理结果通过数据结构化模型呈现。其中，数据结构化模型包括第一结构化模型以及第二结构化模型，分别与对应的历史指令型语句为正向顺序以及逆向顺序。从而，针对数据量大于预设数据量阈值的语料日志，对其所包括的历史指令型语句进行数据结构化模型的呈现，明确了语句所包含的信息量，为后续的处理提供参考价值。

在上述实施例的基础上，步骤S101的一种可能的实施方式包括：

根据第一语法规则以及搭配结构确定第二语法规则，其中，搭配结构包括第一搭配结构、第二搭配结构以及第三搭配结构中的至少一个。

如图2所示实施例中的描述，第一语法规则为编程人员为解析器所提供的未加任何应用场景限定的形式化语言规则，对其进行限定得到第二语法规则。例如，通过搭配结构对第一语法规则进行限定。其中，搭配结构是指历史指令型语句的文字搭配方式。具体地，搭配结构可以包括第一搭配结构、第二搭配结构以及第三搭配结构中的至少一种。

其中，第一搭配结构的确定方法可以如下所描述。

根据预设文字片段以及第一结构化模型确定第一结构化子模型，所确定的第一结构化子模型即表征第一搭配结构，该第一搭配结构所对应的文字为预设文字片段之后所搭配的文字。

例如，数据结构化模型为Chow-Liu树，第一结构化模型即为第一Chow-Liu树，该第一Chow-Liu树与其对应的历史指令型语句为正向顺序，将预设文字片段输入至第一Chow-Liu树进行文字搭配方式的查询，则可以查询到第一Chow-Liu子树，该第一Chow-Liu子树即为第一结构化子模型，该第一结构化子模型用于表征第一搭配结构，第一Chow-Liu子树所对应的文字即为搭配在预设文字片段之后的文字。

第二搭配结构的确定方法如下描述：根据预设文字片段以及第二结构化模型确定第二结构化子模型，该第二结构化子模型用于表征第二搭配结构，第二搭配结构所对应的文字为预设文字片段之前的文字。

与第一搭配结构的确定方法相类似，只是将第一结构化模型换成第二结构化模型，就能够所确定预设文字片段之前的搭配方式。在此，不再赘述。

基于以上两种方式，若要确定预设文字片段中间的搭配方式，则分别确定第一搭配结构与第二搭配结构，两者之间的共同部分即为预设文字片段中间的搭配方式，即为第三搭配结构。换言之，第一结构化模型与第二结构化模型的共同部分表征第三搭配结构，即根据第一结构化模型以及第二结构化模型确定第三搭配结构。所确定的第三搭配结构对应的文字为预设文字片段中间的文字。

值得说明的是，搭配结构具体选用上述中的第一搭配结构、第二搭配结构以及第三搭配结构中的哪种或哪几种，可根据需明确预设文字片段之前、之后以及中间三部分中的哪一部分或那几部分决定，即在确定第二语法规则时，搭配结构可选用第一搭配结构、第二搭配结构以及第三搭配结构中的至少一个，对此，本申请实施例不作限定。

值得被理解的是，其中的预设文字片段为历史指令型语句中的片段，即预设文字片段属于历史指令型语句。

本实施例提供的确定第二语法规则的方法，通过搭配结构对第一语法规则进行限定，得到第二语法规则。其中，所依据的搭配结构包括第一搭配结构、第二搭配结构以及第三搭配结构中的至少一种。而第一搭配结构由预设文字片段以及第一结构化模型所确定的第一结构化子模型表征，第一搭配结构所对应的文字为搭配在预设文字片段之后的文字。类似地，第一搭配结构由预设文字片段以及第二结构化模型所确定的第二结构化子模型表征，第二搭配结构所对应的文字为搭配在预设文字片段之前的文字。第三搭配结构，则是分别确定第一搭配结构以及第二搭配结构，两者的共同部分为第三搭配结构，第三搭配结构所对应的文字为搭配在预设文字片段中间的文字。其中所依据的预设文字片段属于历史指令型语句。从而，使得通过搭配结构限定第一语法规则得到的第二语法规则，更加贴合用户自然语言的话术，有利于提高最终生成的自然语料数据鲁棒性较强的可扩展性。

在上述实施例中，预设解析器根据第二语法规则对语料日志进行解析，但在解析过程中会出现无法解析的情况，即当预设解析器根据第二语法规则无法解析语料日志时，本申请实施例提供的数据生成方法还包括如下所示步骤，其包括：

将无法解析的语料日志确定为未解析语料日志；

根据未解析语料日志对第二语法规则进行扩充，以使得预设解析器根据扩充后的第二语法规则对未解析语料日志实现解析。

首先将无法解析的语料日志定义为未解析语料日志，然后通过未解析语料日志对第二语法规则进行扩充，例如通过不断迭代的方法，修正第二语法规则，直到预设解析器通过扩充后的第二语法规则对未解析语料日志实现完全解析。

本实施例提供的数据生成方法，通过对第二语法规则的扩充，使得预设解析器对于无法解析的语料日志实现完全解析，以实现完全覆盖用户对对话系统所属设备能够下达的自然语言。

在一种可能的设计中，图2所示实施例中步骤S103可能的实施方式包括如图4所示步骤，图4为本申请实施例提供的再一种数据生成方法的流程示意图。如图4所示，方法包括：

S401：对第三语法规则进行平均采样，以得到样本规则。

其中，样本规则用于表征均衡化的第三语法规则。

根据预设解析器以及第三语法规则生成自然语料数据以及标签时，对第三语法规则进行平均采样，将采样之后的第三语法规则确定为样本规则。例如，针对设备用于对话系统的各种功能所对应的第三语法规则，可以平均选取不同功能对应的第三语法规则，即对第三语法规则进行平均采样。经过采样后的第三语法规则为样本规则，以表征均衡化的第三语法规则。

S402：根据预设解析器以及样本规则生成自然语料数据以及标签。

通过预设解析器对样本规则进行解析，生成大量自然语料数据以及标签。由于样本规则为均衡化的第三语法规则，换言之，样本规则涵盖了不同功能对应的第三语法规则，其中的不同功能指设备所包含的能够通过对话系统做出响应的功能。从而，使得所生成的自然语料数据以及标签的覆盖面更加周全以及均衡。

本实施例提供的数据生成方法，在根据预设解析器以及第三语法规则生成自然语料数据时，对第三语法规则进行平均采样，得到样本规则，其中的样本规则表征均衡化的第三语法规则。然后通过预设解析器以及样本规则生成大量的自然语料数据以及标签。由于样本规则涵盖了设备的不同功能对应的第三语法规则，因而，据此所生成的自然语料数据以及标签的覆盖面更加周全以及均衡。

上述实施例所提供的数据生成方法中的语料日志的数据量大于预设数据量阈值。而当语料日志的数据量不大于预设数据量阈值时，可选地，本申请实施例提供的数据生成方法的一种可能的实施方式如图5所示，图5为本申请实施例提供的又一种数据生成方法的流程示意图。如图5所示，该方法包括：

S501：根据语料日志以及预设双向语义训练模型确定语义训练模型。

根据数据量大于预设数据量阈值的语料日志以及预设双向语义训练模型确定语义训练模型，其中，预设双向语义训练模型可以为BERT(Bidirectional EncoderRepresentation from Transformers)，一种自然语言处理技术中常用的训练模型，能够通过在海量的语料的基础上运行自监督学习。具体地，将数据量大于预设数据量阈值的语料日志输入至该预设双向语义训练模型对其进行训练，或者说对预设双向语义训练模型进行改写，得到语义训练模型。其中，语义训练模型为预设双向语义训练模型的升级版，其类型与预设双向语义训练模型相一致。对此，本实施例不作限定。

S502：根据预设基础语料以及语义训练模型确定相似语料。

其中，相似语料与语料日志具有相同的搭配结构。

在确定了语义训练模型之后，根据预设基础语料以及预设训练模型确定相似语料。其中，预设基础语料，可以理解为，对话系统所属设备具有某功能，但该功能对应的语料日志的数据量不大于预设数据量阈值，则针对该功能设置基础语料，所设置的基础语料即为预设基础语料。可选地，预设基础语料可以为针对该功能的语言表达最简单的指令型语句。根据预设基础语料以及语义训练模型确定相似语料，可以理解为，通过语义训练模型对预设基础语料进行语句迁移，输出结果即为相似语料。由于针对设备所包含的不同功能，用户能够下达的指令型语句通常具有相似的话术，因而，可以通过语义训练模型进行语句迁移，以得到与原有语料日志相同搭配结构的相似语料，该相似语料用于响应语料日志的数据量不大于预设数据量阈值的功能。

S503：对相似语料进行人工校验得到校验语料，以将校验语料以及预设基础语料用于预设训练模型训练对话系统。

在确定了相似语料之后，对相似语料进行人工校验，得到的校验结果为校验语料。例如，可以根据所得到的相似语料设置剔除标准，将满足剔除标准的相似语料进行剔除，剩余的相似语料即为校验语料。将该校验语料以及预设基础语料用于预设训练模型训练对话系统，其中，预设基础语料作为预设训练模型训练时所需的标签。本步骤中通过预设训练模型训练对话系统所涉及的是数据量不大于预设数据量阈值的语料日志所对应的功能。

可选地，对相似语料进行人工校验得到校验语料之后，还可以根据校验语料对第三语法规则以及预设解析器进行训练，使得根据预设解析器以及第三语法规则所生成的自然语料数据以及标签，更加满足用户的自然语言话术以及风格。例如，可以针对自然语料数据以及标签分别设置预设数据阈值以及标签阈值，在对预设解析器进行训练，使得获得的自然语料数据以及标签分别大于预设数据阈值以及预设标签阈值。

本实施例提供的数据生成方法，针对数据量不大于预设数据量阈值的语料日志所对应的功能进行。其中，首先根据数据量大于预设数据量阈值的语料日志以及预设双向语义训练模型确定语义训练模型，然后根据预设基础语料以及该语义训练模型确定相似语料，所确定的相似语料与数据量大于预设数据量阈值的语料日志具有相同的搭配结构，最后人为对相似语料进行校验，得到校验语料，将校验语料以及预设基础语料用于预设训练模型训练对话系统。从而解决了数据量不大于预设数据量阈值时，训练对话系统所需数据的生成问题。

可选地，语料日志的数据量不大于预设数据量阈值，包括两种情况。一种是语料日志的数据量大于零但小于预设数据量阈值，另一种是语料日志的数据量为零。前者可以理解为，用户对于该对话系统所属设备中的该语料日志对应的功能使用频次较低，换言之，用户所下达的历史指令型语句较少，从而，所产生的语料日志的数据量不为零，但小于预设数据量阈值。后者中，语料日志的数据量为零，即为对话系统所属设备最新所具备的功能，用户从未下达过关于该功能的历史指令型语句，因而，其对应的语料日志的数据量为零。

下述为本申请装置实施例，可以用于执行上述任一方法实施例提供的数据生成方法的步骤。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图6为本申请实施例提供的一种数据生成装置的结构示意图。如图6所示，本实施例提供的数据生成装置600可以包括：

第一处理模块601，用于根据第一语法规则以及数据结构化模型确定第二语法规则，以使预设解析器根据第二语法规则对语料日志进行解析，所得到的解析结果大于预设需求阈值，数据结构化模型用于表征语料日志中所包含的历史指令型语句。

第二处理模块602，用于根据第二语法规则以及历史指令型语句确定第三语法规则，其中，第三语法规则包括：同一种功能所对应的历史指令型语句的数量与历史指令型语句总数量之间的比例。

生成模块603，用于根据预设解析器以及第三语法规则生成自然语料数据以及标签，以将自然语料数据以及标签用于预设训练模型训练对话系统，其中，标签为同一种功能所对应的自然语料数据的归一化表达式。

在图6所示实施例的基础上，图7为本申请实施例提供的另一种数据生成装置的结构示意图。如图7所示，本实施例提供的数据生成装置600，还包括：

获取模块604，用于获取语料日志，其中，语料日志包括用户对对话系统所属设备下达的历史指令型语句，语料日志的数据量大于预设数据量阈值。

第三处理模块605，用于根据历史指令型语句以及预设分词算法确定数据结构化模型。其中，数据结构化模型包括第一结构化模型以及第二结构化模型，第一结构化模型与对应的历史指令型语句为正向顺序，第二结构化模型与对应的历史指令型语句为逆向顺序。

在一种可能的设计中，第一处理模块601，具体用于：

根据第一语法规则以及搭配结构确定第二语法规则，搭配结构包括第一搭配结构、第二搭配结构以及第三搭配结构中的至少一个。

其中，根据预设文字片段以及第一结构化模型确定第一结构化子模型，第一结构化子模型用于表征第一搭配结构，第一搭配结构所对应的文字为预设文字片段之后的文字；

根据预设文字片段以及第二结构化模型确定第二结构化子模型，第二结构化子模型用于表征第二搭配结构，第二搭配结构所对应的文字为预设文字片段之前的文字；

根据第一结构化模型以及第二结构化模型确定第三搭配结构，第三搭配结构对应的文字为预设文字片段中间的文字；

并且，预设文字片段属于历史指令型语句。

可选地，当预设解析器根据第二语法规则无法解析语料日志时，数据生成装置600，还包括：第四处理模块。其中，第四处理模块，用于：

将无法解析的语料日志确定为未解析语料日志；

在一种可能的设计中，生成模块603，具体用于：

对第三语法规则进行平均采样，以得到样本规则，样本规则用于表征均衡化的第三语法规则；

根据预设解析器以及样本规则生成自然语料数据以及标签。

可选地，当语料日志的数据量不大于预设数据量阈值时，本申请实施例提供的数据生成装置700如图8所示，图8为本申请实施例提供的再一种数据生成装置的结构示意图，如图8所示，本实施例提供的数据生成装置700可以包括：

模型确定模块701，用于根据语料日志以及预设双向语义训练模型确定语义训练模型；

数据确定模块702，用于根据预设基础语料以及语义训练模型确定相似语料。其中，相似语料与语料日志具有相同的搭配结构；

校验模块703，用于对相似语料进行人工校验得到校验语料，以将校验语料以及预设基础语料用于预设训练模型训练对话系统。

在图8所示实施例的基础上，图9为本申请实施例提供的又一种数据生成装置的结构示意图。如图9所示，本实施例提供的数据生成装置700，还包括：

训练模块704，用于：

根据校验语料对第三语法规则以及预设解析器进行训练，以使得自然语料数据标签分别大于预设数据阈值以及预设标签阈值。

可选地，上述数据生成装置700中的语料日志的数据量不大于预设数据量阈值，包括：

语料日志的数据量大于零且小于预设数据量阈值；或

语料日志的数据量为零。

值得说明的是，本申请所提供的装置实施例仅是示意性的，上述装置实施例中模块划分仅是一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个模块可以结合或者可以集成到另一个系统。各个模块相互之间的耦合可以是通过一些接口实现，这些接口通常是电性通信接口，但是也不排除可能是机械接口或其它的形式接口。因此，作为分离部件说明的模块可以是或者也可以不是物理上分开的，既可以位于一个地方，也可以分布到同一个或不同设备的不同位置上。

图10为本申请实施例提供的一种电子设备的结构示意图。如图10所示，本实施例提供的电子设备800，包括：

至少一个处理器801；以及

与至少一个处理器801通信连接的存储器802；其中，

存储器802存储有可被至少一个处理器801执行的指令，指令被至少一个处理器801执行，以使至少一个处理器801能够执行上述方法实施例中的数据生成方法的各个步骤，具体可以参考前述方法实施例中的相关描述。

可选地，存储器802既可以是独立的，也可以跟处理器801集成在一起。

当存储器802是独立于处理器801之外的器件时，电子设备800，还可以包括：

总线803，用于连接处理器801以及存储器802。

此外，本申请实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行上述各实施例中的数据生成方法的各个步骤。例如，可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种数据生成方法，其特征在于，应用于指令型人机对话系统，所述方法包括：

根据所述预设解析器以及所述第三语法规则生成自然语料数据以及标签，以将所述自然语料数据以及所述标签用于预设训练模型训练所述对话系统，所述标签为同一种功能所对应的自然语料数据的归一化表达式；

所述根据第一语法规则以及数据结构化模型确定第二语法规则，包括：

根据所述第一语法规则以及搭配结构确定所述第二语法规则，所述搭配结构包括第一搭配结构、第二搭配结构以及第三搭配结构中的至少一个；

所述预设文字片段属于所述历史指令型语句；

所述根据所述第二语法规则以及所述历史指令型语句确定第三语法规则，包括：根据所述语料日志所包含的历史指令型语句得到附带有概率的第二语法规则，将有概率分布的第二语法规则确定为第三语法规则，其中的概率表示，能够表征同一种功能的历史指令型语句的数量与表征所有功能的历史指令型语句的数量的比例。

2.根据权利要求1所述的数据生成方法，其特征在于，所述根据第一语法规则以及数据结构化模型确定第二语法规则之前，还包括：

3.根据权利要求1所述的数据生成方法，其特征在于，当所述预设解析器根据所述第二语法规则无法解析所述语料日志时，还包括：

将所述无法解析的语料日志确定为未解析语料日志；

4.根据权利要求3所述的数据生成方法，其特征在于，所述根据所述预设解析器以及所述第三语法规则生成自然语料数据以及标签，包括：

5.根据权利要求2所述的数据生成方法，其特征在于，当所述语料日志的数据量不大于所述预设数据量阈值，所述数据生成方法，包括：

根据预设基础语料以及所述语义训练模型确定相似语料，所述相似语料与所述语料日志具有相同的搭配结构；

6.根据权利要求5所述的数据处理方法，其特征在于，所述语料日志的数据量不大于所述预设数据量阈值，包括：

所述语料日志的数据量为零。

7.根据权利要求5或6所述的数据生成方法，其特征在于，所述对所述相似语料进行人工校验得到校验语料之后，还包括：

8.一种数据生成装置，其特征在于，应用于指令型人机对话系统，所述装置包括：

生成模块，用于根据所述预设解析器以及所述第三语法规则生成自然语料数据以及标签，以将所述自然语料数据以及所述标签用于预设训练模型训练所述对话系统，所述标签为同一种功能所对应的自然语料数据的归一化表达式；

所述第一处理模块，具体用于根据所述第一语法规则以及搭配结构确定所述第二语法规则，所述搭配结构包括包括第一搭配结构、第二搭配结构以及第三搭配结构中的至少一个；

所述预设文字片段属于所述历史指令型语句；

所述第二处理模块，具体用于根据所述语料日志所包含的历史指令型语句得到附带有概率的第二语法规则，将有概率分布的第二语法规则确定为第三语法规则，其中的概率表示，能够表征同一种功能的历史指令型语句的数量与表征所有功能的历史指令型语句的数量的比例。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的数据生成方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的数据生成方法。