CN107704869B

CN107704869B - 一种语料数据抽样方法及模型训练方法

Info

Publication number: CN107704869B
Application number: CN201710778236.1A
Authority: CN
Inventors: 朱敬华; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2017-09-01
Filing date: 2017-09-01
Publication date: 2020-09-18
Anticipated expiration: 2037-09-01
Also published as: CN107704869A

Abstract

本发明涉及计算机技术领域，提供了一种语料数据抽样方法，其特征在于，所述方法包含步骤：确定语料数据分类规则；基于所述分类规则，建立规则模型；基于所述规则模型对原始语料库中的语料数据进行分类；计算所述分类结果的准确率；根据所述准确率、目标抽样数据量确定实际抽样数量；根据所述实际抽样数量，从分类后的所述语料数据中抽取语料数据。通过语料数据抽样方法，可预先对原始语料库中的语料数据进行分类处理，并通过准确率的计算，来修正分类结果，从而使得实际的抽样数据量更贴近模型训练需求，在一定程度降低了由于语料数据类型偏差而引起的模型训练效果不佳的概率。此外，还提供一种模型训练方法。

Description

一种语料数据抽样方法及模型训练方法

技术领域

本发明关于计算机技术领域，尤其涉及一种语料数据抽样方法及模型训练方法。

背景技术

在人工智能相关的许多技术中，语料库与模型训练都必不可少，又密不可分。

语料库是经科学取样和加工的大规模电子文本库，它存放的材料是在语言的实际使用中真实出现过的语言材料，并经过提取和加工过的。设计好的模型需通过大量的语料库的学习、训练，才能实现模型的功能。模型对语料库的学习与训练决定了模型的准确性、公正性等效果，那么从语料库中获取的语料数据的客观性和完整性对模型训练的结果有着很重要的影响。

然而，由于语料库中数据的采集是从现实应用场景中提取出来的，考虑到存储容量有限等问题，每个语料库可能只针对有限的实际应用场景去采集语料数据，当然，也有根据模型训练需求，针对特定的场景去采集语料数据，总而言之，语料库中的语料数据是来自于真是的应用场景，例如客服系统、金融体系、法律体系等，如此一来，语料库中的语料数据可能会出现语义类型的偏向。

以从智能客服系统的语料数据来看，一般来说，智能客服系统的对话场景中不愉快的对话出现的频率较少，所以正向情感的数据至少占到95％以上，负向情感的数据则相对较少，那么基于该智能客服系统的采集构建的语料库中，正向情感的语料数据远大于负向情感的语料数据。

然而，在情感模型训练过程中，需要同时学习大量的正向情感数据样本和大量的负向情感数据样本，才能保证训练出来的模型在实际应用时其结果是准确的。如果直接进行从语料库中进行样本抽取，那么很可能抽取的数据中，正向情感的数据远远大于负向情感的数据，如此一来，由于对负向情感的数据训练不足，最终训练出来的模型结果就是对正向情感的数据判断较准确，而对负向情感的数据判断准确性较低，从而影响模型训练的效果。

发明内容

基于上述技术问题，本发明提供一种语料数据抽样方法，用于对原始语料库中的数据进行预先分类和处理，并根据处理结果进行最终样本数据的抽取，从而保证最终获取的样本数据类型符合模型训练的要求，所述语料数据抽样方法具体包含步骤：

确定语料数据分类规则；

基于所述分类规则，建立规则模型；

基于所述规则模型对原始语料库中的语料数据进行分类；

计算所述分类结果的准确率；

根据所述准确率、目标抽样数据量确定实际抽样数量；

根据所述实际抽样数量，从分类后的所述语料数据中抽取语料数据。

在一实施方式中，所述分类规则包括根据所述语料数据中包含的主题词或标注进行分类。

在一实施方式中，所述基于所述规则模型对原始语料库中的语料数据进行分类包含对所述原始语料库中的部分或全部的语料数据进行分类。

在一实施方式中，所述计算所述分类结果的准确率包含抽取部分所述分类结果，并对其进行检验和计算。

在一实施方式中，所述计算所述分类结果的准确率包含对所述分类结果中的各分类语料数据的分类准确率进行计算。

在一实施方式中，所述分类规则包含正向情感分类规则和负向情感分类规则。

在一实施方式中，所述确定实际抽样数量的方法包含根据下列方程式计算得出：

其中A、B为权值，C为常量，X₁为正向情感语料数据的实际抽样数据量，X₂为负向情感语料数据的实际抽样数据量，Z₁和Z₂分别为正向情感语料数据分类结果的准确率和负向情感语料数据分类结果的准确率，S₁为正向情感语料数据的目标抽样数据量，T为目标抽样数据总量。

此外，本发明还提供一种模型训练方法，包含步骤：

确定所述模型训练所需的样本的数据类型及数量；

根据上述的语料数据抽样方法，获取所述样本；

基于所述样本进行模型训练。

在一实施方式中，所述样本的数据类型至少由两种组成。

在一实施方式中，所述确定语料数据分类规则包含根据所述样本的数据类型确定所述语料数据分类规则。

由此可见，本发明提供的语料数据抽样方法先基于规则模型对原始语料库中的数据进行分类，在对分类结果进行验证，最后根据验证得到的分类准确率和抽样数据量进行语料数据的抽取，通过这些处理，可在一定程度上提升语料数据抽样的准确度，更进一步的，根据模型训练的实际需求制定语料数据的分类规则，使得语料数据抽样的结果更符合实际模型训练的需求，从而提升模型训练结果的有效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1绘示本发明一较佳实施例所提供的语料数据抽样方法流程图；

图2绘示本发明一较佳实施例所提供的模型训练方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

请参照图1，图1绘示本发明一较佳实施例所提供的语料数据抽样方法流程图。如图1所示，语料数据抽样方法具体包含以下步骤：

S101，确定语料数据分类规则。

由于原始语料库中的语料数据都是经过加工处理的，语料数据分类规则包括根据所述语料数据中包含的主题词或标注进行分类，具体的分类需求，可以是基于实际的需求来进行处理，例如，根据模型训练中对数据类型的需求，或者基于模型训练的数据类型需求根据原始语料库的采集场景所规划出的语料分类需求，本发明并不作限制。

本实施例中以情感类型为例来进行说明，其中，情感类型可具体包含正向情感和负向情感，那么分类规则就是基于正向情感和负向情感进行设定，例如，在语料数据中包含“高兴”、“愉快”等主题词，或者语料标注中包含“积极”、“热情”等描述的，则可被归类为正向情感。

S102，基于所述分类规则，建立规则模型。规则模型的设定中包含了分类规则及其他设置。

S103，基于所述规则模型对原始语料库中的语料数据进行分类。其中规则模型对原始语料库中的语料数据进行分类包含对原始语料库中的部分或全部的语料数据进行分类，具体可根据实际应用需求来确定。

S104，计算所述分类结果的准确率。

具体的，以情感类型为例，经过上述步骤S101至S103的处理之后，完成了对原始语料库中的语料数据的初步分类，正向情感数据和负向情感数据。接下来，分别对正向情感数据和负向情感数据的分类准确率进行计算，可以通过抽样校验的方式对部分数据进行验证，判断其是否被归属在正确的分类中，并根据验证结果分别进行准确率的计算，即，正向情感数据分类的准确率，以及负向情感数据分类的准确率。

S105，根据所述准确率、目标抽样数据量确定实际抽样数量。

其中，目标抽样数据量为模型训练时需求的样本数量，包含了样本总量，以及各分类数据的数量；实际抽样数据量为结合语料数据的实际情况，最终针对每种分类所抽取的语料数据量。本发明的实施例中，可基于该些数据，计算得出实际抽样数量。

在上述情感类型数据的示例中，可根据下列方程式计算得出实际抽样数据量：

其中A、B为权值，是可设置的常量，用于根据实际情况对结果进行修正，C为常量，具体可为正常的误差范围。

X₁为正向情感语料数据的实际抽样数据量，X₂为负向情感语料数据的实际抽样数据量，Z₁和Z₂分别为正向情感语料数据分类结果的准确率和负向情感语料数据分类结果的准确率，S₁为正向情感语料数据的目标抽样数据量，T为目标抽样数据总量。

S106，根据所述实际抽样数量，从分类后的所述语料数据中抽取语料数据。

以下将通过一个具体的示例来对上述方法进行说明。

例如，若用于情感模型训练的目标抽样数据量为10000，其中，需要6000条正向情感数据和4000条负向情感数据，但原始语料库中的数据情感是未知的，且正向情感数据较多，所以随机抽样的数据显然不符合要求，故需要先对原始语料库进行处理。

首选利用规则模型对原始语料库中的数据进行分类，具体的，分类成正向情感数据和负向情感数据。

然后，分别从两类数据中各取一部分数据进行人工标记，验证其准确性，并计算出各自的准确率。其中，假设正向情感数据的准确性为90％(正向情感数据中的正向情感数据准确率)，负向情感的准确性为60％(负向情感数据中的负向情感数据准确率)。

假设上述方程式中A、B取1，C取0，那么代入后计算可得到正向情感数据的实际抽样数据量X₁＝4000，负向情感数据的实际抽样数据量X₂＝6000.

那么实际抽样数量为从分类后的正向情感数据里抽取4000条，负向情感数据中抽取6000条。

值得注意的是，本实施例中以情感类型为例，是为了能更加清晰的对本发明的技术方案进行说明，本发明的分类方式并不限于此。

综上所述，通过本发明提供的语料数据抽样方法，可预先对原始语料库中的语料数据进行分类处理，并通过准确率的计算，来修正分类结果，从而使得实际的抽样数据量更贴近模型训练需求，在一定程度降低了由于语料数据类型偏差而引起的模型训练效果不佳的概率。

基于同样的发明构思，本发明还提供一种模型训练方法。

请参照图2，图2绘示本发明一较佳实施例所提供的模型训练方法流程图。如图2所示，模型训练方法包含步骤：

S201，确定所述模型训练所需的样本的数据类型及数量。其中，样本的数据类型即分类需求，至少由两种组成；样本的数量即目标抽样数据量包含了样本总量，以及各分类数据的数量。

S202，根据语料数据抽样方法，获取所述样本。其中语料数据抽样方法的具体内容可参见图1所示实施例中的描述。

在语料数据抽样方法中，确定语料数据分类规则包含根据样本的数据类型确定语料数据分类规则。

S203，基于所述样本进行模型训练。

在本发明提供的模型训练方法中，并不对训练模型作任何限制。通过语料数据抽样方法，可预先对原始语料库中的语料数据进行分类处理，并通过准确率的计算，来修正分类结果，从而使得实际的抽样数据量更贴近模型训练需求，在一定程度降低了由于语料数据类型偏差而引起的模型训练效果不佳的概率。

应当指出的是，以上所述仅是本发明的具体实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语料数据抽样方法，其特征在于，所述方法包含步骤：

确定语料数据分类规则；

基于所述分类规则，建立规则模型；

基于所述规则模型对原始语料库中的语料数据进行分类；

计算所述分类结果的准确率；

根据所述准确率、目标抽样数据量确定实际抽样数量；所述确定实际抽样数量的方法包含根据下列方程式计算得出：

其中A、B为权值，C为常量，X₁为正向情感语料数据的实际抽样数据量，X₂为负向情感语料数据的实际抽样数据量，Z₁和Z₂分别为正向情感语料数据分类结果的准确率和负向情感语料数据分类结果的准确率，S₁为正向情感语料数据的目标抽样数据量，T为目标抽样数据总量；

2.如权利要求1所述的语料数据抽样方法，其特征在于，所述分类规则包括根据所述语料数据中包含的主题词或标注进行分类。

3.如权利要求1所述的语料数据抽样方法，其特征在于，所述计算所述分类结果的准确率包含抽取部分所述分类结果，并对其进行检验和计算。

4.如权利要求1所述的语料数据抽样方法，其特征在于，所述计算所述分类结果的准确率包含对所述分类结果中的各分类语料数据的分类准确率进行计算。

5.一种语料模型训练方法，其特征在于，所述方法包含步骤：

确定所述模型训练所需的样本的数据类型及数量；

根据权利要求1至4中任一项所述的语料数据抽样方法，获取所述样本；

基于所述样本进行模型训练。

6.如权利要求5所述的语料模型训练方法，其特征在于，所述样本的数据类型至少由两种组成。

7.如权利要求5所述的语料模型训练方法，其特征在于，所述确定语料数据分类规则包含根据所述样本的数据类型确定所述语料数据分类规则。