CN110162627B

CN110162627B - 数据增量方法、装置、计算机设备及存储介质

Info

Publication number: CN110162627B
Application number: CN201910350861.5A
Authority: CN
Inventors: 郑立颖; 徐亮; 阮晓雯
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2022-04-15
Anticipated expiration: 2039-04-28
Also published as: CN110162627A; WO2020220539A1

Abstract

本发明公开一种数据增量方法、装置、计算机设备及存储介质，该方法包括：获取特定场景对应的场景分类样本和指定样本比例，采用正则表达式对场景分类样本进行文本预处理，获取待训练文本；采用原始词向量模型对待训练文本进行增量训练，获取目标词向量模型；基于每一分类标签对应的实际样本数量和场景分类样本对应的总样本数量，确定分类标签对应的实际样本比例；若实际样本比例小于指定样本比例，则将分类标签对应的场景分类样本作为待增量样本；将待增量样本输入至目标词向量模型中进行处理，获取与待增量样本对应的候选词组，从每一候选词组中随机选取一个目标同义词对待增量样本进行替换处理，获取第一新增样本，该方法可有效保证数据平衡。

Description

数据增量方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据增量技术领域，尤其涉及一种数据增量方法、装置、计算机设备及存储介质。

背景技术

在文本分类场景中，数据不平衡是很常见的一个问题，就智能面试场景来说，大部分候选人会给出比较中等或者比较好的回答来表现自己，很少会给出很差的回答。因此在实现智能面试针对面试者回答自动评分的过程中，通常中等和偏好的回答样本会比较多，而偏差的样本会很少，造成样本极不平衡，造成采用该样本进行模型训练时的准确率不高的问题。

发明内容

本发明实施例提供一种数据增量方法、装置、计算机设备及存储介质，以解决目前文本分类模型训练采用的训练文本数据不平衡，无法保证模型训练准确率的问题。

一种数据增量方法，包括：

获取特定场景对应的场景分类样本和指定样本比例，所述场景分类样本对应一分类标签；

采用正则表达式对所述场景分类样本进行文本预处理，获取待训练文本；

采用预先训练好的原始词向量模型对所述待训练文本进行增量训练，获取目标词向量模型；

统计每一所述分类标签对应的实际样本数量和所有所述场景分类样本对应的总样本数量，基于所述实际样本数量和所述总样本数量，确定所述分类标签对应的实际样本比例；

若所述分类标签对应的实际样本比例小于所述指定样本比例，则将所述分类标签对应的场景分类样本作为待增量样本；

将所述待增量样本输入至所述目标词向量模型中进行处理，获取与所述待增量样本对应的至少一个候选词组，所述候选词组包括携带词向量的至少一个目标同义词；

从每一所述候选词组中随机选取一个所述目标同义词对所述待增量样本进行替换处理，获取与所述分类标签对应的第一新增样本。

一种数据增量装置，包括：

样本获取模块，用于获取特定场景对应的场景分类样本和指定样本比例，所述场景分类样本对应一分类标签；

待训练文本获取模块，用于采用正则表达式对所述场景分类样本进行文本预处理，获取待训练文本；

目标词向量模型获取模块，用于采用预先训练好的原始词向量模型对所述待训练文本进行增量训练，获取目标词向量模型；

实际样本比例确定模块，用于统计每一所述分类标签对应的实际样本数量和所有所述场景分类样本对应的总样本数量，基于所述实际样本数量和所述总样本数量，确定所述分类标签对应的实际样本比例；

待增量样本确定模块，用于若所述分类标签对应的实际样本比例小于所述指定样本比例，则将所述分类标签对应的场景分类样本作为待增量样本；

候选词组获取模块，用于将所述待增量样本输入至所述目标词向量模型中进行处理，获取与所述待增量样本对应的至少一个候选词组，所述候选词组包括携带词向量的至少一个目标同义词；

第一新增样本获取模块，用于从每一所述候选词组中随机选取一个所述目标同义词对所述待增量样本进行替换处理，获取与所述分类标签对应的第一新增样本。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数据增量方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数据增量方法的步骤。

上述数据增量方法、装置、计算机设备及存储介质中，通过获取特定场景对应的场景分类样本和指定样本比例，以便采用正则表达式对场景分类样本进行文本预处理，获取待训练文本，以排除场景分类样本中的英文字符和停用词的干扰。然后，采用预先训练好的原始词向量模型对待训练文本进行增量训练，获取目标词向量模型，以使目标词向量模型中加入特定场景对应的文本样本，保证基于该目标词向量模型进行样本标注所得到的样本的准确率。接着，统计每一分类标签对应的实际样本数量和所有场景分类样本对应的总样本数量，基于实际样本数量和总样本数量，确定分类标签对应的实际样本比例，以便根据实际样本比例确定是否需要进行数据增量处理，即若分类标签对应的实际样本比例小于指定样本比例，则将分类标签对应的场景分类样本作为待增量样本，保证数据增量处理的有效性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中数据增量方法的一应用环境示意图；

图2是本发明一实施例中数据增量方法的一流程图；

图3是图2中步骤S10的一具体流程图；

图4是图2中步骤S60的一具体流程图；

图5是图2中步骤S70的一具体流程图；

图6是图4中步骤S63的一具体流程图；

图7是本发明一实施例中数据增量方法的一流程图；

图8是本发明一实施例中数据增量方法的一流程图；

图9是本发明一实施例中数据增量装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的数据增量方法可应用在一种数据增量工具中，用于针对文本分类的样本分布不均匀的部分样本进行自动数据增量，以使各类样本分布均匀，提高后续进行文本分类的准确性。更进一步地，该方法还可实现增大训练集的目的，保证模型训练的训练集足够，提高模型的准确率。该数据增量方法可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

在一实施例中，如图2所示，提供一种数据增量方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取特定场景对应的场景分类样本和指定样本比例，场景分类样本对应一分类标签。

其中，特定场景对应的场景分类样本是针对不同文本分类场景(如智能面试评分场景)获取到的文本，该场景分类样本对应一分类标签。分类标签是指不同文本分类场景下的不同类别所对应的类别标签，如智能面试评分中，该分类标签包括偏好、偏差、中等、特别好和特别差等。具体地，数据增量工具中预先存储有不同场景类型对应的文本数据，用户可在数据增量工具中，选择所需的场景类型，并上传自行采集的语料数据作为场景分类样本以使服务器获取场景分类样本。指定样本比例是指不同分类标签对应的场景分类样本占总样本数量的比值。

S20：采用正则表达式对场景分类样本进行文本预处理，获取待训练文本。

其中，对场景分类样本进行预处理包括但不限于去除英文处理和去除停用词处理。本实施例中，去除停词处理是指是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些停用词(如“我”“个”“下”)的处理。去除英文处理可采用正则表达式进行过滤，例如[\u4e00-\u9fa5]，即可将英文过滤掉，以获取仅包含中文字符的待训练文本。通过采用正则表达式对场景分类样本进行文本预处理，获取待训练文本，以排除英文字符和停用词的干扰，提高后续增量训练的训练效率。

S30：采用预先训练好的原始词向量模型对待训练文本进行增量训练，获取目标词向量模型。

其中，原始词向量模型是采用gensim库中的word2vec训练函数进行增量训练后得到的词向量模型。gensim是一个python的自然语言处理库，能够将文档根据TF-IDF,LDA,LSI等模型转化成向量模式，以便进行进一步的处理。此外，gensim库还包含了word2vec训练函数，以实现单词转化为词向量(word2vec)功能。由于有词向量具有良好的语义特性，是表示词语特征的常用方式，通过将单词以词向量的形式进行表示，以便后续采用该词向量训练文本分类模型，方便运算。

其中，word2vec训练函数是用于训练词向量模型的训练函数。word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练,其次，该工具得到的训练结果——词向量(wordembedding)，可以很好地度量词与词之间的相似性。具体地，现有技术中已有开发好的原始词向量模型(如基于百度百科和微博等语料训练训练的中文词向量模型)，但由于本实施例中增加了场景分类文本，因此，为了适用本实施例，需加载原始词向量模型，并在训练好的原始词向量模型的基础上，直接将待训练文本输入到word2vec训练函数中进行增量训练即可获取目标词向量模型，无需重新训练原始词向量模型，有效保证训练效率。通过采用预先训练好的原始词向量模型对待训练文本进行增量训练，获取目标词向量模型，以使该目标词向量模型中加入特定场景对应的文本样本，使得该目标词向量模型与特定场景相匹配，提高后续基于该目标词向量模型进行训练所得到的文本分类模型的准确率。

S40：统计每一分类标签对应的实际样本数量和所有场景分类样本对应的总样本数量，基于实际样本数量和总样本数量，确定分类标签对应的实际样本比例。

其中，总样本数量是指场景分类样本的总数据量。实际样本数量是指每一分类标签对应的样本实际数量。具体地，服务器通过统计每一分类标签对应的实际样本数量和所有场景分类样本对应的总样本数量，可实现基于实际样本数量和总样本数量，确定分类标签对应的实际样本比例，即将实际样本数量和总样本数量的比值作为分类标签对应的实际样本比例的功能。

S50：若分类标签对应的实际样本比例小于指定样本比例，则将分类标签对应的场景分类样本作为待增量样本。

其中，待增量样本是需要进行数据增量处理的文本样本。不同分类标签对应的分类样本比例不同，在进行模型训练时，样本比例需保持一定的比例，才可保证模型训练的准确率，如某一类文本对应的样本比例较低，则会导致模型训练出现偏差，使得模型准确率不高。因此，本实施例中，服务器会根据用户设置的每一分类标签对应的指定比例对场景分类样本进行动态调整。

具体地，用户将场景分类样本和每一分类标签对应指定样本比例输入到数据增量工具中，服务器会默认将用户输入的指定样本比例作为数据比例均衡的样本比例。首先，服务器统计每一分类标签对应的实际样本比例，并与指定样本比例进行比较，若分类标签对应的实际样本比例小于指定样本比例，则认为用户输入的分类样本的数据不均衡，则会将该分类标签对应的分类样本作为待增量样本，以便服务器对待增量样本进行数据增量。可理解地，若分类标签对应的实际样本比例不小于指定样本比例，则认为用户输入的分类样本的数据均衡，无需进行数据增量处理，通过比较实际样本比例与指定样本比例，以确定是否需要进行数据增强处理，保证数据增量处理的有效性。

S60：将待增量样本输入至目标词向量模型中进行处理，获取与待增量样本对应的至少一个候选词组，候选词组包括携带词向量的至少一个目标同义词。

其中，待增量样本中包含若干个中文词，每一中文词会对应若干个目标同义词，候选词组是待增量样本中每一中文词和每一中文词对应的目标同义词的集合。

本实施例中，目标同义词携带词向量，以使后续文本分类模型采用数据增强处理后的文本进行训练时，无需进行词向量的转换，以实现自动标注的功能，进一步提高后续文本分类模型的训练效率。具体地，将待增量样本输入至目标词向量模型中进行处理，获取与待增量样本对应的候选词组，以便后续根据该候选词组中的目标同义词对待增量样本进行替换，为数据增量提供数据来源。

S70：从每一候选词组中随机选取一个目标同义词对待增量样本进行替换处理，获取与分类标签对应的第一新增样本。

其中，第一新增样本是指将候选词组中的目标同义词对待增量样本进行替换所得到的新增样本。具体地，服务器从每一候选词组中随机选取一个目标同义词对待增量样本进行替换处理，以获取与分类标签对应的第一新增样本，以实现数据增量的目的，从而保证样本的数据平衡。

本实施例中，通过获取特定场景对应的场景分类样本和指定样本比例，以便采用正则表达式对场景分类样本进行文本预处理，获取待训练文本，以排除英文字符和停用词的干扰。然后，采用预先训练好的原始词向量模型对待训练文本进行增量训练，获取目标词向量模型，以使目标词向量模型中加入特定场景对应的文本样本，保证基于该目标词向量模型进行样本标注并所得到的样本的准确率。接着，统计每一分类标签对应的实际样本数量和所有场景分类样本对应的总样本数量，基于实际样本数量和总样本数量，确定分类标签对应的实际样本比例，以便针对实际样本比例确定是否需要进行数据增量处理，即若分类标签对应的实际样本比例小于指定样本比例，则将分类标签对应的场景分类样本作为待增量样本，保证数据增量处理的有效性。

在一实施例中，如图3所示，步骤S10中，即获取特定场景对应的场景分类样本，具体包括如下步骤：

S11：获取特定场景对应的原始语音信息，采用语音增强算法对原始语音信息进行降噪处理，获取目标语音信息。

其中，特定场景包括但不限于各需要进行文本分类的特定场景，如智能面试。原始语音信息是指在特定场景下所采集的语音信息。

本实施例中，以智能面试场景为例进行说明，通过预先模拟智能面试场景并设置一语音采集设备(如麦克风)，以使服务器实时接收语音采集设备所采集的面试者的回复语音信息即原始语音信息。具体地，由于由语音采集设备采集到原始语音一般都带有噪声，包括背景环境中的噪声以及语音采集设备录音过程中产生的噪声。这些携带噪声的原始语音信息在进行语音识别时，会影响语音识别的准确性，因此，需要对原始语音进行降噪处理，以从该语音信号中尽可能提取到更纯净的原始语音，使语音识别更加准确。其中，对原始语音进行降噪的方法包括但不限于采用谱减法、EEMD分解算法和SVD奇异值算法等。

可以理解地，场景分类样本可以为语音数据或文本数据，若为语音数据，则需要将语音数据转换为可处理的文本数据；若为文本数据，则无需进行处理，以保证数据增量工具的泛化性。

S12：对目标语音信息进行特征提取，获取与目标语音信息相对应的目标语音特征。

本实施例中，目标语音特征包括但不限于滤波器特征。滤波器(Filter-Bank，简称Fbank)特征是语音识别过程中常用的语音特征。由于现有技术中常用的梅尔特征在进行模型识别时会对语音信息进行降维处理，导致部分语音信息丢失，为避免上述问题出现，本实施例中采用滤波器特征代替常用的梅尔特征。

S13：采用预先训练好的语音识别模型对目标语音特征进行识别，获取与特定场景相对应的场景分类样本。

可理解地，语音识别模型包括预先训练好的声学模型和语言模型。其中，声学模型是用来获取目标语音特征对应的音素序列。音素是由语音中最小的单位，可理解为汉字里面的拼音。例如：汉语音节ā(啊)只有一个音素，ài(爱)有两个音素，dāi(呆)有三个音素等。声学模型的训练方法包括但不限于采用GMM-HMM(混合高斯模型)进行训练。语言模型是用于将音素序列转换为自然语言文本的模型。具体地，服务器将语音特征输入到预先训练好的声学模型中进行识别，获取目标语音特征对应的音素序列，然后将获取的音素序列输入到预先训练好的语言模型中进行转换，获取对应的识别文本，。

本实施例中，通过特定场景对应的场景分类样本的数据类型，以确定是否需要进行转文本处理，即若为语音数据，则需要将语音数据转换为可处理的文本数据，若为文本数据，则无需进行处理，以保证数据增量的泛化性。

在一实施例中，如图4所示，目标词向量模型包括近似度函数，步骤S60中，即将待增量样本输入至目标词向量模型中进行处理，获取与待增量样本对应的至少一个候选词组，候选词组包括携带词向量的至少一个目标同义词，具体包括如下步骤：

S61：采用正则表达式对待增量样本进行分割，获取待增量样本对应的至少一个待替换语句。

其中，待替换语句是指采用正则表达式对待增量样本进行分割所获取的句子。具体地，需设定句子分割的最大长度MAX；然后将待增量样本分割为至少一个句子即待替换语句，该分割方法具体可采用正则表达式按照句子的结束符进行划拆分(如：？。，！)。

S62：采用中文分词算法对每一待替换语句进行分词，获取待替换语句对应的至少一个待替换词次。

进一步地，在进行数据增量之前，服务器还需对待增量样本进行分词，获取词次，以便后续输入到词向量模型中进行处理。本实施例中，中文分词算法包括但不限于最大逆向匹配的算法。通过最大逆向匹配的算法对待增量样本进行分词，获取待增量样本对应的第一词次。最大逆向匹配的算法是用于对中文进行分词的算法，该算法具有准确率高、算法复杂度低的优点。

具体地，在进行分词之前，开发人员会预先设定好中文词库，为分词提供技术支持。其中，中文词库(以下简称“词库”)是用于对中文字符进行分词的词库。采用最大逆向匹配的算法对每一待替换语句进行分词的具体步骤为：对每一句子按照从右往左的顺序开始切分，获取单字串；然后将该单字串和词库进行比对，若词库中包含有该词就记录下来，形成一词次，否则通过减少一个单字，继续比较，直至剩下一个单字则停止。

例如，句子分割的最大长度MAX＝5，输入的句子为“我一个人吃饭”，首先按照从右往左的顺序开始切分，获取单字串即“一个人吃饭”；在词库中没有该词，则减少一个单字“一”，对应的单字串变为“个人吃饭”；在词库中没有该词，则继续减少一个单字“个”，对应的单字串变为“人吃饭”；在词库中没有该词则继续减少一个单字即“人”，对应的单字串变为“吃饭”；在词库中存在该词即“吃饭”，则将该词记录下来，获取第一个词次。

在确定“吃饭”为输入的句子中的第一个词次后，输入的句子变为“我一个人”，在词库中没有该词，则减少一个单字即“我”，对应的单字串变为“一个人”；在词库中没有该词，则继续减少一个单字“一”，对应的单字串变为“个人”；在词库中存在该词即“个人”，将该词记录下来，获取第二个词次。

在确定“个人”为输入的句子中的第二个词次后，输入的句子变为“我一”，在词库中没有该词，则减少一个单字即“我”，对应的单字串变为“一”；在词库中存在该词即“一”，将该词记录下来，获取第三个词次。

在确定“一”为输入的句子中的第三个词次后，输入的句子只剩下一个单字“我”，算法终止。最终，采用最大逆向匹配的算法对于句子“我一个人吃饭”的分词结果为“我/一/个人/吃饭”。可理解地，每一待替换语句对应的待替换词次的词次位置固定且与待替换语句对应，例如待替换语句为“我一个人吃饭”，由上述分词示例可知，待替换词次即为“我/一/个人/吃饭”。

S63：将待替换语句对应的每一待替换词次输入到近似度函数中进行处理，得到与待替换词次相对应的携带词向量的至少一个目标同义词。

其中，近似度函数是用于返回与每一待替换词次对应的同义词的函数。需说明，目标词向量模型与近似度函数相对应，以便直接调用目标词向量模型对应的近似度函数，获取待替换此次对应的目标同义词。具体地，服务器将待增量样本对应的每一待替换词次输入到目标词向量模型对应的近似度函数中进行处理，获取近似度函数返回的与待替换词次相对应的携带词向量的至少一个目标同义词，为后续进行数据增量处理提供数据来源。

S64：将待替换词次和对应的携带词向量的至少一个目标同义词，作为待替换词次对应的至少一个候选词组。

具体地，将待替换词次和对应的携带词向量的至少一个目标同义词的集合作为候选词组，以便后续从候选词组中随机选取至少一个目标同义词对待增量样本进行替换，实现数据增量的目的。

本实施例中，通过采用正则表达式对待增量样本进行分割，以获取待增量样本对应的至少一个待替换语句，以使后续在进行同义词替换时，服务器能够根据每一待替换语句对应的分词结果即待替换词次在待替换语句中的位置进行替换，保证每一第一新增样本与待替换语句的句式保持一致。最后，将待替换词次和对应的携带词向量的至少一个目标同义词作为待替换词次对应的候选词组，以便后续根据每一替换词次对应的候选词组进行同义词替换，实现数据增量的目的。

在一实施例中，如图5所示，步骤S70中，即从候选词组中随机选取至少一个目标同义词对待增量样本进行替换处理，获取与分类标签对应的第一新增样本，具体包括如下步骤：

S71：从每一待替换词次对应的候选词组中随机选取一个目标同义词，确定为待替换词次对应的目标词次。

S72：将待替换语句中的每一待替换词次替换为与待替换词次对应的目标词次，获取与分类标签对应的第一新增样本。

其中，目标词次是服务器从候选词组中随机选取的目标同义词。具体地，服务器从候选词组中随机选取一个目标同义词作为待替换词次对应的目标词次，再将待增量样本中的至少一个待替换词次替换为与待替换词次对应的目标词次，获取与分类标签对应的若干个第一新增样本，以实现数据增量的目的。

进一步地，本实施例中，由于每一待替换词次对应的候选词组中包括多个待替换词次，故在从每一待替换词次对应的候选词组中随机选取一个目标同义词，确定为待替换词次对应的目标词次时，该目标词次可能与待替换词次相同，会出现第一新增样本与待替换语句相同的情况，故在得到第一新增样本后，需对所有第一新增样本进行去重处理并更新，获取与分类标签对应的第一新增样本，以保证数据集的有效性。

为方便理解，现已如下示例进行说明，例如，待替换词次包括A和B，由于每一待替换词次的位置与待替换语句对应，则有如下语句顺序，即A-B，每一待替换词次对应的目标同义词包括A-(a1)和B-(b1,b2)，则A对应的候选词组即为{A，a1}，B对应的候选词组即为{B，b1，b2}，从每一待替换词次对应的候选词组中随机选取一个目标同义词，确定为待替换词次对应的目标词次，即从候选词组候选词组随机选取一个目标同义词可包括如下几种形式，(A，B)、(A，b1)、(A、b2)、(B、a1)、(a1、b1)、(a1，b2)，将待替换语句中的每一待替换词次替换为与待替换词次对应的目标词次，获取第一新增样本，即(A-B)、(A-b1)、(A-b2)、(B-a1)、(a1-b1)、(a1-b2)，将重复的第一新增样本去除，获取与分类标签对应的第一新增样本，即(A-b1)、(A-b2)、(B-a1)、(a1-b1)、(a1-b2)。

本实施例中，通过从每一待替换词次对应的候选词组中随机选取一个目标同义词，确定为待替换词次对应的目标词次，再将待替换语句中的每一待替换词次替换为与待替换词次对应的目标词次，获取与分类标签对应的若干个第一新增样本，以实现数据增量的目的。

在一实施例中，如图6所示，步骤S63中，即将待替换语句对应的每一待替换词次输入到近似度函数中进行处理，得到与待替换词次相对应的携带词向量的至少一个目标同义词，具体包括如下步骤：

S631：将待替换语句对应的每一待替换词次输入到近似度函数中进行处理，获取与待替换词次相对应的至少一个原始同义词和每一原始同义词对应的近似度。

其中，原始同义词是通过将待增量样本对应的每一待替换词次输入到近似度函数中进行处理所获取到的与待替换词次相对应的同义词。具体地，服务器增量样本对应的每一待替换词次输入到近似度函数中进行处理，获取与待替换词次相对应的至少一个原始同义词和每一原始同义词对应的近似度，为后续确定目标同义词提供数据基础。

S632：基于总样本数量和指定样本比例，确定指定样本数量。

其中，指定样本数量是指在数据平衡的情况下的待增量样本对应的分类标签的样本总数量。可理解地，该指定样本数量可使样本集中的数据保持平衡。具体地，基于待增量样本的总样本数量和指定样本比例，确定指定样本数量，即将总样本数量与指定样本比例进行相乘运算，获取指定样本数量。

S633：根据指定样本数量和实际样本数量的差值，确定增量参数。

S634：基于目标同义词数量计算公式进行计算，获取携带词向量的目标同义词数量，其中，目标同义词数量计算公式包括

m为待替换词次的数量，N为目标同义词数量，Z为增量参数。

其中，增量参数是指指待增量样本数量待补充数量。具体地，将待增量样本与实际样本数量进行相减运算，即可获取增量参数。服务器基于目标同义词数量计算公式进行计算，以获取携带词向量的目标同义词数量，其中，目标同义词数量计算公式包括

m为待替换词次的数量，N为目标同义词数量，Z为增量参数。可理解地，由于原始同义词的数量很大，不可全部采用，故本实施例中为了达到数据平衡，需确定目标同义词数量，以保证样本的数据平衡。

S635：按照目标同义词数量，从近似度降序排列的原始同义词中选取前N位的携带词向量的目标同义词。

具体地，服务器按照目标同义词数量，从近似度降序排列的原始同义词中选取前N位原始同义词作为目标同义词。其中，N的取值可根据实际需要自行设定，在此不做限定。

本实施例中，通过将待增量样本对应的每一待替换词次输入到近似度函数中进行处理，以获取每一待替换词次对应的至少一个原始同义词和每一原始同义词对应的近似度；同时基于总样本数量和指定样本比例，确定指定样本数量，以便根据指定样本数量和目标同义词数量计算公式，确定目标同义词数量；最后，通过每一原始同义词对应的近似度和目标同义词数量，确定目标同义词，以保证样本的数据平衡。

在一实施例中，如图7所示，步骤S635之后，该数据增量方法还包括如下步骤：

S811：若携带词向量的目标同义词数量为正整数，则直接执行按照携带词向量的目标同义词数量，从近似度降序排列的原始同义词中选取前N位的携带词向量的目标同义词。

S821：若携带词向量的目标同义词数量为浮点数，则对携带词向量的目标同义词数量进行向下取整处理，获取更新同义词数量；并基于更新同义词数量，从近似度降序排列的原始同义词中选取前N位的携带词向量的目标同义词。

其中，由上述增量参数计算公式

可知，N的取值有可能为正整数，也有可能为浮点数，故服务器需对N的取值类型进行判断，若携带词向量的目标同义词数量为正整数，则可直接执行按照携带词向量的目标同义词数量，从近似度降序排列的原始同义词中选取前N位的携带词向量的目标同义词。

若携带词向量的目标同义词数量为浮点数，则由于取上限值可能会造成样本量过多的情况，故本实施例中，服务器对携带词向量的目标同义词数量进行向下取整处理，以获取更新同义词数量，例如N为5.1，则将N向下取整为5。最后，基于更新同义词数量，从近似度降序排列的原始同义词中选取前N位的携带词向量的目标同义词。

本实施例中，通过对目标同义词数量的取值类型进行判断，以保证数据增量的顺利执行，提高容错性。

在一实施例中，如图8所示，步骤S821之后，该数据增量方法还包括如下步骤：

S91：采用待补充样本数量计算公式对携带词向量的目标同义词数量与更新同义词数量进行处理，获取待补充样本数量，其中，待补充样本数量计算公式为A＝N^m-B^m，N表示目标同义词数量，B表示更新同义词数量，A表示待补充样本数量。

具体地，由于更新同义词数量是通过对目标同义词数量进行向下取整所得到的，故实际选取的目标同义词数量小于通过增量参数计算公式进行计算所得到的保持样本平衡的目标同义词数量，故需要补充部分缺失的数量，即通过采用待补充样本数量计算公式对携带词向量的目标同义词数量与更新同义词数量进行处理，以获取待补充样本数量，以便后续基于待补充样本数量对样本进行补充。

进一步地，若待补充样本数量为浮点数，则对待补充样本数量进行向下取整或向上取整处理，获取整数型的待补充样本数量。

具体地，由待补充样本数量计算公式A＝N^m-B^m，可知，待补充数量的取值可能为浮点数，故需要对待补充样本数量的取值类型进行判断，若待补充样本数量为浮点数，则对待补充样本数量进行向下取整或向上取整处理，以获取整数型的待补充样本数量，若待补充样本数量为正整数，则无需进行处理。

S92：采用第一翻译工具将待增量样本翻译为非中文文本，再采用第一翻译工具或第二翻译工具将非中文文本翻译为中文文本，获取与分类标签对应的第二新增样本，直至第二新增样本的样本数量达到待补充样本数量，将第二新增样本与分类标签关联存储。

具体地，根据目标同义词数量计算公式

可知，目标同义词数量计算公式中涉及指数幂的计算，故采用替换词同义词的方法进行大数据量的数据增量处理，而本实施例中，需要小数据量的增量，故采用翻译工具对待增量样本处理，以达到数据增量的目的。可以理解地，由于翻译工具支持的语言固定，因此可用来补充一小部分样本即通过采用翻译工具进行数据增强，以保证数据平衡。

可以理解地，待增量样本是中文文本，本实施例需要采用第一翻译工具将待增量样本翻译为其他语种对应的文本(即非中文文本)，再将非中文文本翻译为中文文本，以得到与待增量样本本身中文语义相同，但表述不同的文本。

其中，第一翻译工具是指目前现有的翻译工具，如百度翻译或、有道翻译或谷歌翻译。第二翻译工具是指目前现有的除第一翻译工具外的其他翻译工具。非中文文本是指采用第一翻译工具将待增量样本进行翻译为非中文所得到的翻译文本。中文文本是指采用第一翻译工具或第二翻译工具进行翻译得到的仅包含中文字符的翻译文本。第二新增样本是指通过翻译工具进行数据增量所得到的样本。第二新增样本的样本数量，即采用翻译工具进行数据补充的补充样本数量。翻译工具包括但不限于google翻译工具，该翻译工具支持语言种类较多，以获取更多待补充样本。

可以理解地，待补充样本数量计算公式A＝N^m-B^m中，N^m是指需要获取的第一新增样本的数量，B^m是指当前已获取的第一新增样本的数量，A表示待补充样本数量即需要获取第二新增样本的数量。步骤S92中，获取第二新增样本是一个持续的过程，可以理解为，若当前已获取的第二新增样本的样本数量达到待补充数量，则停止获取第二新增样本。

本实施例中，服务器可调用第一翻译工具提供的翻译接口，将待增量样本翻译为非中文文本，再采用第二翻译工具将非中文文本翻译为中文文本，获取与分类标签对应的第二新增样本，直至第二新增样本的样本数量达到待补充样本数量，将第二新增样本与分类标签关联存储，以获取更多的中文表达方式，达到数据增量的目的。

进一步地，服务器还会采用中文分词算法对第二新增样本进行分词，以获取第二新增样本对应待标注词次，再将待标注词次输入到目标词向量模型中进行识别，以实现对每一待标注词次对应的词向量标注，获取第二新增样本对应的词向量，无需人工进行标注。最后，将第二新增样本、第二新增样本对应的词向量和第二新增样本对应的分类标签作为模型训练样本关联存储，以便后续直接采用模型训练样本训练文本分类模型，无需人工采集，降低人工成本。

本实施例中，由于上述实施例中的更新同义词数量是通过对目标同义词数量进行向下取整所得到的，故实际选取的目标同义词数量小于通过增量参数计算公式进行计算所得到的保持样本平衡的目标同义词数量，故需要补充少部分缺失的数量，即通过采用翻译工具对待增量样本进行处理，以获取更多的中文表达方式，达到补充少部分样本的目的。

本实施例中，通过预先加入场景分类样本进行训练，以获取目标词向量模型，以便根据目标词向量模型获取每一分类样本对应的第一词次的N个同义词，以进行数据增量，并可动态根据用户输入的指定样本比例，动态调整数值N，以达到数据平衡的目的。进一步地，服务器还会针对替换同义词进行数据增量的方法中由于N值为非整数的情况采取翻译工具的方式补充少部分缺失样本，以保证数据平衡，且可有效采集更多样本，无需人力采集，节省时间。进一步地，服务器还可通过目标词向量模型实现对获取的新增样本词向量自动标注的目的，无需人工干预，降低人力成本。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种数据增量装置，该数据增量装置与上述实施例中数据增量方法一一对应。如图9所示，该数据增量装置包括样本获取模块10、待训练文本获取模块20、目标词向量模型获取模块30、实际样本比例确定模块40、待增量样本确定模块50、候选词组获取模块60和第一新增样本获取模块70。各功能模块详细说明如下：

样本获取模块10，用于获取特定场景对应的场景分类样本和指定样本比例，所述场景分类样本对应一分类标签；

待训练文本获取模块20，用于采用正则表达式对所述场景分类样本进行文本预处理，获取待训练文本；

目标词向量模型获取模块30，用于采用预先训练好的原始词向量模型对所述待训练文本进行增量训练，获取目标词向量模型；

实际样本比例确定模块40，用于统计每一所述分类标签对应的实际样本数量和所有所述场景分类样本对应的总样本数量，基于所述实际样本数量和所述总样本数量，确定所述分类标签对应的实际样本比例；

待增量样本确定模块50，用于若所述分类标签对应的实际样本比例小于所述指定样本比例，则将所述分类标签对应的场景分类样本作为待增量样本；

候选词组获取模块60，用于将所述待增量样本输入至所述目标词向量模型中进行处理，获取与所述待增量样本对应的至少一个候选词组，所述候选词组包括携带词向量的至少一个目标同义词；

第一新增样本获取模块70，用于从每一所述候选词组中随机选取一个所述目标同义词对所述待增量样本进行替换处理，获取与所述分类标签对应的第一新增样本。

具体地，样本获取模块包括标语音信息获取单元、目标语音特征获取单元和场景分类样本获取单元。

标语音信息获取单元，用于获取特定场景对应的原始语音信息，采用语音增强算法对所述原始语音信息进行降噪处理，获取目标语音信息；

目标语音特征获取单元，用于对所述目标语音信息进行特征提取，获取与所述目标语音信息相对应的目标语音特征；

场景分类样本获取单元，用于采用预先训练好的语音识别模型对目标语音特征进行识别，获取与所述特定场景相对应的场景分类样本。

具体地，所述目标词向量模型包括近似度函数，候选词组获取模块包括待替换语句获取单元、待替换词次获取单元、目标同义词获取单元和候选词组获取单元。

待替换语句获取单元，用于采用正则表达式对所述待增量样本进行分割，获取所述待增量样本对应的至少一个待替换语句；

待替换词次获取单元，用于采用中文分词算法对每一所述待替换语句进行分词，获取所述待替换语句对应的至少一个待替换词次；

目标同义词获取单元，用于将所述待替换语句对应的每一待替换词次输入到所述近似度函数中进行处理，得到与所述待替换词次相对应的携带词向量的至少一个目标同义词；

候选词组获取单元，用于将所述待替换词次和对应的所述携带词向量的至少一个目标同义词作为所述待替换词次对应的至少一个候选词组。

具体地，第一新增样本获取模块包括目标词次获取单元和第一新增样本获取单元。

目标词次获取单元，用于从每一所述待替换词次对应的候选词组中随机选取一个所述目标同义词，确定为所述待替换词次对应的目标词次；

第一新增样本获取单元，用于将所述待替换语句中的每一所述待替换词次替换为与所述待替换词次对应的目标词次，获取与所述分类标签对应的第一新增样本。

具体地，目标同义词获取单元包括近似度获取单元、指定样本数量获取单元、增量参数获取单元、目标同义词数量获取单元和目标同义词获取单元。

近似度获取单元，用于将所述待替换语句对应的每一待替换词次输入到所述近似度函数中进行处理，获取与所述待替换词次相对应的至少一个原始同义词和每一所述原始同义词对应的近似度；

指定样本数量获取单元，基于所述总样本数量和所述指定样本比例，确定指定样本数量；

增量参数获取单元，根据所述指定样本数量和所述实际样本数量的差值，确定增量参数；

目标同义词数量获取单元，用于基于所述目标同义词数量计算公式进行计算，获取携带词向量的目标同义词数量；其中，所述目标同义词数量计算公式包括

m为所述待替换词次的数量，N为所述目标同义词数量，Z为所述增量参数；

目标同义词获取单元，用于按照所述目标同义词数量，从所述近似度降序排列的所述原始同义词中选取前N位的携带词向量的目标同义词。

具体地，该数据增量装置还包括目标同义词数量获取单元和更新同义词数量获取单元。

目标同义词数量获取单元，用于若所述携带词向量的目标同义词数量为正整数，则直接执行所述按照所述携带词向量的目标同义词数量，从所述近似度降序排列的所述原始同义词中选取前N位的携带词向量的目标同义词；

更新同义词数量获取单元，用于若所述携带词向量的目标同义词数量为浮点数，则对所述携带词向量的目标同义词数量进行向下取整处理，获取更新同义词数量；基于所述更新同义词数量，从所述近似度降序排列的所述原始同义词中选取前N位的携带词向量的目标同义词。

具体地，该数据增量装置还包括待补充样本数量获取单元和待补充样本数量更新单元。

待补充样本数量获取单元，用于采用待补充样本数量计算公式对所述携带词向量的目标同义词数量与所述更新同义词数量进行处理，获取待补充样本数量；其中，所述待补充样本数量计算公式为A＝N^m-B^m，N表示所述目标同义词数量，B表示所述更新同义词数量，A表示待补充样本数量；

待补充样本数量更新单元，用于若待补充样本数量为浮点数，则对所述待补充样本数量进行向下取整或向上取整处理，获取待补充样本数量；

第二新增样本获取单元，用于采用第一翻译工具将所述待增量样本翻译为非中文文本，再采用所述第一翻译工具或第二翻译工具将所述非中文文本翻译为中文文本，获取与所述分类标签对应的第二新增样本，直至所述第二新增样本的样本数量达到所述待补充样本数量，将所述第二新增样本与所述分类标签关联存储。

关于数据增量装置的具体限定可以参见上文中对于数据增量方法的限定，在此不再赘述。上述数据增量装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行数据增量方法过程中生成或获取的数据，如第一新增样本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据增量方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的数据增量方法，例如图2所示的步骤，或者图3至图8中所示的步骤。或者，处理器执行计算机程序时实现数据增量装置这一实施例中的各模块/单元的功能，例如图9所示的各模块/单元的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中数据增量方法的步骤，例如图2所示的步骤，或者图3至图8中所示的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述数据增量装置这一实施例中的各模块/单元的功能，例如图9所示的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种数据增量方法，其特征在于，包括：

2.如权利要求1所述数据增量方法，其特征在于，所述获取特定场景对应的场景分类样本，包括：

获取特定场景对应的原始语音信息，采用语音增强算法对所述原始语音信息进行降噪处理，获取目标语音信息；

对所述目标语音信息进行特征提取，获取与所述目标语音信息相对应的目标语音特征；

采用预先训练好的语音识别模型对目标语音特征进行识别，获取与所述特定场景相对应的场景分类样本。

3.如权利要求1所述数据增量方法，其特征在于，所述目标词向量模型包括近似度函数；

所述将所述待增量样本输入至所述目标词向量模型中进行处理，获取与所述待增量样本对应的至少一个候选词组，所述候选词组包括携带词向量的至少一个目标同义词，包括：

采用正则表达式对所述待增量样本进行分割，获取所述待增量样本对应的至少一个待替换语句；

采用中文分词算法对每一所述待替换语句进行分词，获取所述待替换语句对应的至少一个待替换词次；

将所述待替换语句对应的每一待替换词次输入到所述近似度函数中进行处理，得到与所述待替换词次相对应的携带词向量的至少一个目标同义词；

将所述待替换词次和对应的所述携带词向量的至少一个目标同义词作为所述待替换词次对应的至少一个候选词组。

4.如权利要求3所述数据增量方法，其特征在于，所述从每一所述候选词组中随机选取一个所述目标同义词对所述待增量样本进行替换处理，获取与所述分类标签对应的第一新增样本，包括：

从每一所述待替换词次对应的候选词组中随机选取一个所述目标同义词，确定为所述待替换词次对应的目标词次；

将所述待替换语句中的每一所述待替换词次替换为与所述待替换词次对应的目标词次，获取与所述分类标签对应的第一新增样本。

5.如权利要求3所述数据增量方法，其特征在于，所述将所述待替换语句对应的每一待替换词次输入到所述近似度函数中进行处理，得到与所述待替换词次相对应的携带词向量的至少一个目标同义词，包括：

将所述待替换语句对应的每一待替换词次输入到所述近似度函数中进行处理，获取与所述待替换词次相对应的至少一个原始同义词和每一所述原始同义词对应的近似度；

基于所述总样本数量和所述指定样本比例，确定指定样本数量；

根据所述指定样本数量和所述实际样本数量的差值，确定增量参数；

基于目标同义词数量计算公式进行计算，获取携带词向量的目标同义词数量；其中，所述目标同义词数量计算公式包括

按照所述目标同义词数量，从所述近似度降序排列的所述原始同义词中选取前N位的携带词向量的目标同义词。

6.如权利要求5所述数据增量方法，其特征在于，在所述获取携带词向量的目标同义词数量之后，所述数据增量方法还包括：

若所述携带词向量的目标同义词数量为正整数，则直接执行所述按照所述携带词向量的目标同义词数量，从所述近似度降序排列的所述原始同义词中选取前N位的携带词向量的目标同义词；

若所述携带词向量的目标同义词数量为浮点数，则对所述携带词向量的目标同义词数量进行向下取整处理，获取更新同义词数量；基于所述更新同义词数量，从所述近似度降序排列的所述原始同义词中选取前N位的携带词向量的目标同义词。

7.如权利要求6所述数据增量方法，其特征在于，在所述获取更新同义词数量之后，所述数据增量方法包括：

采用待补充样本数量计算公式对所述携带词向量的目标同义词数量与所述更新同义词数量进行处理，获取待补充样本数量；其中，所述待补充样本数量计算公式为A＝N^m-B^m，N表示所述目标同义词数量，B表示所述更新同义词数量，A表示待补充样本数量，m为所述待替换词次的数量；

采用第一翻译工具将所述待增量样本翻译为非中文文本，再采用所述第一翻译工具或第二翻译工具将所述非中文文本翻译为中文文本，获取与所述分类标签对应的第二新增样本，直至所述第二新增样本的样本数量达到所述待补充样本数量，将所述第二新增样本与所述分类标签关联存储。

8.一种数据增量装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述数据增量方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数据增量方法。