CN116150313A

CN116150313A - 数据扩充处理方法及装置

Info

Publication number: CN116150313A
Application number: CN202211032174.7A
Authority: CN
Inventors: 曹磊; 蒋宁; 肖冰; 李长林
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2023-05-23

Abstract

本申请提供了一种数据扩充处理方法及装置，通过获取录音文件，以及对录音文件进行语音识别，得到语音识别结果；利用目标词库对语音识别结果进行过滤，得到过滤结果；通过多种表达方式对过滤结果以及语音识别结果分别进行多个维度的特征提取，确定多个特征向量，每个特征向量包含至少一个维度的特征信息；根据多个特征向量、多个权重值以及预设相似阈值从语音识别结果和/或过滤结果对应的语句中确定扩增数据集，以及将扩增数据集添加到扩充数据库，权重值与特征向量相对应，扩充数据库用于对语音业务数据进行质检处理。实现了自动扩充词库中的标注数据。

Description

数据扩充处理方法及装置

技术领域

本申请涉及自然语言处理领域，尤其涉及一种数据扩充处理方法及装置。

背景技术

随着互联网信息技术在金融领域的应用程度越来越深，各企业在创新力度上的不断加强，市场竞争也在变得越来越激烈，各企业对客服体系服务质量的管理和控制已经变成了企业经营管理者日常的重要工作，而智能语音质检就是其中的主要组成部分。

目前，基于模型的智能语音质检方法由于准确率高、能充分理解语义等优点逐渐流行起来。但是该方法主要是利用有监督学习的方式，构建模型来对目标词汇进行检测，需要依赖数据库中的大量的已标注的数据。然而，现有技术中这些标注数据都需要人工进行标注，标注成本高效率低。

这就使得如何自动扩充词库中的标注数据成为了亟待解决的技术问题。

发明内容

本申请提供一种数据扩充处理方法及装置，以解决如何自动扩充词库中的标注数据的技术问题。

第一个方面，本申请提供一种数据扩充处理方法，包括：

获取录音文件，以及对录音文件进行语音识别，得到语音识别结果；

利用目标词库对语音识别结果进行过滤，得到过滤结果；通过多种表达方式对过滤结果以及语音识别结果分别进行多个维度的特征提取，确定多个特征向量，每个特征向量包含至少一个维度的特征信息；

根据多个特征向量、多个权重值以及预设相似阈值从语音识别结果和/或过滤结果对应的语句中确定扩增数据集，以及将扩增数据集添加到扩充数据库，权重值与特征向量相对应，扩充数据库用于对语音业务数据进行质检处理。

本申请实施例提供了一种数据扩充处理方法，通过多种表达方式对语音识别结果及其过滤结果分别进行多个维度的特征提取，每种表达方式可以得到一个特征向量集，或者语音识别结果和过滤结果分别对应一个特征向量集，这些特征向量集中的所有的特征向量就可以反映出与目标词相同或相似的特征，并且每个特征向量可以是个多维向量，而一个维度的特征信息可能对应着一个多维向量，或者一个多维向量可以对应多个维度的特征信息。总之，通过上述方式得到的多个特征向量能够从更多维度或更多角度挖掘出与目标词的特征相同或相似的更多的词汇或语句，将这些词汇或语句组合成扩增数据集加入扩充数据库，这样就可以实现自动多维度地扩增词库中的标注数据，降低了人工采集和制作标注数据的成本，提高了词库扩增的效率和词库中标注数据的丰富程度。并且，扩充数据库可以包括目标词库和扩增数据集，也可以仅包括扩增数据集。在日常业务管理中，可以调用扩充数据库，或者是扩充数据库和目标词库一同来对业务人员的语音服务的录音进行质检处理，便于提高业务管理的效率和质量，降低管理成本。

第二方面，本申请提供一种数据扩充处理装置，包括：

获取模块，用于获取录音文件；

处理模块，用于：

对录音文件进行语音识别，将识别结果作为语音识别结果；

利用目标词库对语音识别结果进行过滤，并通过多种表达方式对过滤结果以及语音识别结果分别进行多个维度的特征提取，确定多个特征向量，每个特征向量包含至少一个维度的特征信息；

根据多个特征向量、多个权重值以及预设相似阈值从语音识别结果对应的语句中确定扩增数据集，权重值与特征向量相对应；

将扩增数据集添加到扩充数据库中，并利用扩充数据库对语音业务数据进行质检监督。

第三个方面，本申请提供一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行第一方面所提供的任意一种可能的数据扩充处理方法。

第四方面，本申请提供一种存储介质，所述可读存储介质中存储有计算机程序，该计算机程序用于执行第一方面所提供的任意一种可能的数据扩充处理方法。

第五方面，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所提供的任意一种可能的数据扩充处理方法。

本申请提供了一种数据扩充处理方法及装置，通过多种表达方式对语音识别结果及其过滤结果分别进行多个维度的特征提取，提高了对目标词的特征信息提取的准确性。并通过先扩展基础的目标词库，再多次筛选待扩增的数据，从另一个角度提升了本申请的模型泛化能力。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种数据扩充处理方法的应用场景示意图；

图2为本申请提供的一种数据扩充处理方法的流程示意图；

图3为本申请实施提供的另一种数据扩充处理方法的流程示意图；

图4为本申请实施例提供的对情感倾向的识别过滤的流程示意图；

图5为本申请实施例提供的第一种特征向量生成方式的示意图；

图6为本申请实施例提供的第二种特征向量生成方式的示意图；

图7为本申请实施例提供的一种数据扩充处理装置的结构示意图；

图8为本申请提供的一种电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，包括但不限于对多个实施例的组合，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面对本申请所涉及到的专业名词作出解释：

Bert：一种预训练语言模型，它使用Transformer的双向编码器表示。预训练的BERT表示可以通过一个额外的输出层进行微调，适用于广泛任务的最先进模型的构建。

NER(Named Entity Recognition，命名实体识别)：是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

Word2vec：把词语表示成一定维度的向量。

敏感词：指实际业务中，需要检测出来的违反业务规则的词语或者短语。

敏感词检测：是指检测语音对话中是否包含了特定违反企业规定及国家法律法规的词语，它是智能质检的一个重要组成部分。

随着互联网信息技术在金融领域的应用程度越来越深，各企业在创新力度上的不断加强，市场竞争也在变得越来越激烈，在这种激烈的市场竞争中，用户服务已经越来越成为体现竞争差异、提升公司形象、增加用户满意度的重要举措，因此对客服体系服务质量的管理和控制已经变成了企业经营管理者日常的重要工作，而智能语音质检就是其中的主要组成部分。

日常客服系统中产生大量的语音数据，如果能很好的利用好这些数据，依据规范要求，开展智能质检工作，检测出客服通话中不规范的点，就可以很好的提高客服服务的质量及用户满意度，减少人工作业，同时也可以对客服人员进行考评，完善客服人员工作考评体系。

目前对在AI(Artificial Intelligence，人工智能)领域，针对敏感词检测任务主要采用规则法和模型法。其中，规则法比较简单，容易维护，但准确率低，不具备语义理解能力；而基于模型法的敏感词检测由于准确率高、能充分理解语义等优点逐渐流行起来。

但基于模型法的敏感词检测是一种有监督学习的方法，需要依赖大量的、已标注的数据，数据标注是生产标注数据的过程，数据量的大小对模型的最终效果有很大的影响，因此实际应用中要想提高模型效果就需要提供大量的标注数据。

目前扩增标注数据的方法主要有：基于人工标注的方法和基于深度学习模型的方法。基于人工标注的方法简单，容易理解，扩充的语料质量较高，但该方法需要投入很大的人力，效率低，且要求标注人员对业务很熟悉，同时基于人工标注的方法不具备泛化能力，只能基于有限的敏感词词库进行标注；基于深度学习模型法能降低人工作量，且具有一定的泛化能力，但在少量标注数据的情况下准确率较低，且泛化能力有限。

为解决上述问题，本申请的发明构思是：

在扩增对目标词的标注数据时，从多个维度提取特征信息，从而得到多个特征向量，对比经过预设过滤规则过滤，和未经过滤的原始数据的特征向量的相似度，筛选出能够用于扩增的标注数据。预设过滤规则过滤提高了该方法的泛化能力，自动根据相似度筛选标注数据又能极大的降低人工量，且准确率也会有很大的提升。

图1为本申请提供的一种数据扩充处理方法的应用场景示意图。如图1所示，在进行智能语音质检前，服务器30会导入录音文件40，拓展质检监督所要依赖的标注数据，即丰富用于语音质检的扩充数据库中的标注数据，使得智能语音质检对目标词的识别更加智能化，并提高质检的准确性。用户10与客服人员20的对话音频，可以实时传输到服务器30当中，或者是先存储到数据库中，再定时抽取音频文件传输到服务器30中进行智能语音质检，辅助监督并评判客服人员20的服务质量。需要说明的是，客服人员20也可以是人工智能语音系统，服务器30当中预先安装了数据扩充处理程序来提供数据扩充处理服务。

需要说明的是，本申请提供的数据扩充处理方法，可以应用于智能语音质检系统，也可以应用于语音人工标注数据的自动扩增系统，还可以应用于对标注数据的自动扩充系统。

下面具体介绍本申请提供的数据扩充处理方法：

图2为本申请实施例提供的一种数据扩充处理方法的流程示意图。如图2所示，该数据扩充处理方法的具体步骤，包括：

S201、获取录音文件，以及对录音文件进行语音识别，得到语音识别结果。

在本步骤中，录音文件是提前准备好的未标注语音材料。

在本实施例中，利用ASR(Automatic Speech Recognition，自动语音识别)技术对获取到的录音文件进行自动识别，将语音数据转换为文本数据，即得到语音识别结果。

需要说明的是，语音识别结果中包括多个语句，并且可以在语音-文本转译时，根据音频或音色，识别出不同的对话者信息，或者称为说话者信息，并为每个说话者进行编号，并将各个说话者与各个语句建立对应关系，即语音识别结果中还包括说话者信息。

S202、利用目标词库对语音识别结果进行过滤，得到过滤结果，通过多种表达方式对过滤结果以及语音识别结果分别进行多个维度的特征提取，确定多个特征向量。

在本步骤中，过滤结果包括至少一个词汇或语句，过滤结果中包括的词汇或语句与目标词库中包括的目标词相匹配。进一步地，在一种可能的实施方式中，还要求过滤结果中包括的词汇或语句与目标词库中包括的目标词的情感极性相同。

每个特征向量包含至少一个维度的特征信息。目标词库中包括了多种用于语音质检或者其它识别作用的目标词，比如，违反法律法规的敏感词，或者是不文明用语，或者是歧视性用语，或者是语音服务质检时的敏感词如“投诉”等等。需要说明的是，目标词可以根据不同的质检目标，或者是不同的识别目标进行设定，本申请不作限定。

值得注意的是，每种表达方式可以得到一个特征向量集，或者语音识别结果和过滤结果分别对应一个特征向量集，这些特征向量集中的所有的特征向量就可以反映出与目标词相同或相似的特征，并且每个特征向量可以是个多维向量，而一个维度的特征信息可能对应着一个多维向量，或者一个多维向量可以对应多个维度的特征信息。

例如，可以通过三种表达方式对过滤结果和语音识别结果进行多维度特征提取，得到过滤结果对应的特征向量集可以表示为{w1_vec1，w1_vec2，w1_vec3}，其中w1_vec1表示第一种表达方式下进行的特征提取所得到的特征向量，w1_vec2表示第二种表达方式下进行的特征提取所得到的特征向量，w1_vec3表示第三种表达方式下进行的特征提取所得到的特征向量。同理语音识别结果对应的特征向量集可以表示为{w2_vec1，w2_vec2，w2_vec3}。

利用目标词库对语音识别结果进行过滤，包括以下几个方面的至少一种：(1)剔除不含目标词的语句；(2)剔除不含实际意义的短句；(3)剔除因噪音干扰而出现的无语义语句；(4)合并同一个说话者的连续相邻的语句；(5)剔除情感倾向为中性的礼节性语句或程式性语句。

可以理解的是，用户可以根据实际需要设置过滤规则，不限制于上述所列举的过滤方式。

根据目标词库以及预设过滤规则对语音识别结果进行过滤之后，就确定了过滤结果，过滤结果中依然包含了大量的待识别语句。接下来就需要进行特征提取。

值得注意的是，在本步骤中，并不只是对过滤结果进行特征提取，还要对原始的数据即语音识别结果直接进行特征提取。两次特征提取的对象不同，为下一步S203自动筛选出扩增的标注数据即扩增数据集做准备。

还需要说明的是，在进行特征提取时，本申请实施例是通过不同方式来得到不同的特征向量，每种特征向量的表达方式，或者说生成方式，对应着一种信息提取维度，包括：词密度维度(也称为词使用频率维度)、语境中上位理解维度、目标词替换后是否改变语义的维度等等。本领域技术人员可以根据实际应用的需要，采用多种不同的特征向量生成方式，或者利用不同的模型，如Bert模型、神经网络模型、自学习模型等等从不同的维度来得到不同的特征向量，以便于更为准确地反映语音识别结果以及过滤结果中包含的信息。

假设过滤结果在经过特征提取后，得到的多个特征向量可以用第一向量集W₁来表示，即W₁＝{W₁_vec1,W₁_vec 2,W₁_vec 3,……，W₁_vec n}。同理，语音识别结果在经过特征提取后，得到的多个特征向量可以用第二向量集W₂来表示，即W₂＝{W₂_vec1,W₂_vec 2,W₂_vec 3,……，W₂_vec n}。值得注意的是，W₁和W₂这两个向量集所含的特征向量的数量是完全相同的。

S203、根据多个特征向量、多个权重值以及预设相似阈值从语音识别结果和/或过滤结果对应的语句中确定扩增数据集，以及将扩增数据集添加到扩充数据库。

在本步骤中，权重值与特征向量相对应，例如每种特征向量对应一种权重值。需要说明的是，权重值是可以根据实际应用场景的需要进行灵活调节的，或者可以利用预设的调节模型，如神经网络模型来调整权重值的取值。

具体的，计算第一向量集W₁和第二向量集W₂中每个对应的特征向量的相似度，如余弦相似度，然后将每个特征向量对应的权重值乘以该相似度后，再将所得到的各个乘积相加，即计算各个相似度的加权平均值，作为目标相似度，然后，判断各个目标相似度是否大于预设相似阈值，若是，则确定语音识别结果和/或过滤结果对应的语句就是自动筛选出来的标注数据，将这些标注数据打包成扩增数据集。

在本步骤中，扩充数据库用于对语音业务数据进行质检处理。需要说明的是，扩充数据库可以仅包括上述语音识别结果和/或过滤结果对应的语句即扩充数据集，也可以包括扩充数据集和目标词库中的所有目标词，因此本步骤可以有多种实施方式：

(1)将扩增数据集添加到单独设置的扩充数据库中，同时利用扩充数据库和目标词库进行语音质检监督或语音质检处理；

(2)将S202中的目标词库作为扩充数据库，将扩增数据集直接添加到目标词库中。

然后，利用训练好的语音质检模型，调用该扩充数据库对业务人员与客户的实时语音沟通音频数据进行质检监督，或者是将业务人员与客户的语音对话音频先存储到临时数据库中，每隔一个间隔周期，从临时数据库中以预设规则抽取部分对话音频，输入到语音质检模型中，根据该扩充数据库，进行质检监督，并将监督结果以报告，或者预警提示的形式反馈给业务管理人员。

本申请实施例提供了一种数据扩充处理方法，通过多种表达方式对语音识别结果及其过滤结果分别进行多个维度的特征提取，提高了对目标词的特征信息提取的准确性。

图3为本申请实施提供的另一种数据扩充处理方法的流程示意图。如图3所示，该数据扩充处理方法的具体步骤包括：

S301、获取录音文件，以及对所述录音文件进行语音识别，得到语音识别结果。

S302、获取原始词库和预设的场景训练数据。

在本步骤中，原始词库包括：待更新的目标词库，或者最初版本的目标词库，亦或者过往历史更新中的某个版本的目标词库等等。目标词库包含大量的词语和/或语句，这些词语或语句在本申请中称为目标词，目标词是以预设的文本或语音识别目标为语义理解目标的文字表达。

预设的场景训练数据用于对原始词库进行扩充训练，即通过在特定的一个或多个业务场景中，以预设目标进行采集的数据，可选的，还可以经过人工筛查，或者训练模型筛查验证，最终得到场景训练数据。

S303、根据原始词库中的各个目标词，对场景训练数据进行词向量训练，确定多个词向量。

在本步骤中，通过Word2vec技术，利用预设训练模型，如神经网络模型、自学习模型等，基于大量的场景训练数据，结合原始词库中的各个目标词，将场景训练数据中的部分语句转换为多个词向量。

S304、根据多个词向量，遍历原始词库，确定各个词向量与目标词的相似度。

在本步骤中，利用预设相似度算法，如余弦相似度的计算公式，根据S303中得到的所有词向量，遍历原始词库，计算各个词向量与各个目标词的相似度。

S305、将排在前N位的相似度对应的场景训练数据添加到原始词库中，得到目标词库。

在本步骤中，将S304中的各个词向量的相似度按从大到小排序，然后选择排在前N位的词向量所对应的文本，即场景训练数据中的文本，添加到原始词库中。

可选的，在添加到原始词库中后，由于基于词向量计算出来的相似词可能存在一定的误差，这就需要进行人工判断核验，确认添加到原始词库中的词为与目标词的语义相似的词，才最终保留在原始词库中，得到扩充后的目标词库。

S306、利用目标词库对语音识别结果进行筛选，确定筛选结果。

在本实施例中，将与目标词对应的情感极性相同的确定为筛选结果，即筛选结果中包含目标词库中的至少一个目标词。

通过筛选，初步滤除掉不包含目标词的文本语句，减少对后续筛选扩增数据集的干扰，提高泛化能力。

S307、对筛选结果进行关于情感倾向的识别过滤，确定过滤结果。

在本步骤中，过滤结果的情感极性与目标词的情感极性相同，情感极性包括：负面情感、中性情感、正面情感。

在本实施例中，将与目标词对应的情感极性相同的筛选结果确定为过滤结果。通过情感过滤进一步滤除掉没有情感倾向的无用数据，进一步减少对后续筛选扩增数据集的干扰。经过S302-S305对目标词库的扩充，然后S306进行粗召回筛选和S307精细情感识别过滤两个步骤，提升了进行目标词的标注数据扩增时的泛化能力。

具体的，在语音服务的质检业务中，触碰了敏感词即目标词，基本上都会带有一定的情感倾向，比如说了骂人的脏话，那这句话的情感强项多半是负向的，即负面情感。又例如，有些业务的敏感词即目标词，如“投诉”，可能会有如下两种说法：“再给我打电话我就投诉你”和“你好先生，我们的投诉电话号码是12315”。其中前一句是是有业务价值的，即其情感极性是负面情感，是质检过程中期望被检测出来的，而后一句话检测出来就没有太大的业务价值了，即其情感极性是中性情感，仅代表一种程式性的或礼节性的对话。通过对比两句话，前一句话明显带有负向情感倾向，后一句则更多是中性情感，基于此，进行扩充的文本的时候，通过情感模型进行文本筛选，可以提高扩增数据的准确率，降低后续步骤的计算量。

本步骤中，可以采用传统的深度学习模型如textCNN、lstm等来进行情感过滤，也可以采用预训练模型如Bert模型，进行情感识别。

图4为本申请实施例提供的对情感倾向的识别过滤的流程示意图。如图4所示，已标注文本41输入到预设模型42中进行情感过滤训练，完成训练后得到情感模型43，情感模型43对输入的待识别数据44进行情感识别，最终输出对待识别文本44的情感极性45。

S308、通过多种表达方式对过滤结果以及语音识别结果分别进行多个维度的特征提取，确定多个特征向量。

在本实施例中，表达方式包括：第一表达方式、第二表达方式、第三表达方式。其中，第一表达方式用于表达与目标词库中的目标词相同或相似的语境语义，即第一表达方式是基于目标词对语境语义影响的第一维度上的表达方式。第二表达方式用于表达目标词库中的目标词对应的上位化语境，即第二表达方式是基于语境上位化理解的第二维度上的表达方式。第三表达方式用于表达过滤结果以及语音识别结果中出现目标词的词密度，即第三表达方式是基于词密度的第三维度上的表达方式。对应的，特征向量包括：第一特征向量、第二特征向量以及第三特征向量。

需要说明的是，第一特征向量、第二特征向量以及第三特征向量三个特征向量中都包含两个部分，一部分是与过滤结果对应的第一向量，另一部分是与语音识别结果对应的第二向量。

通过第一表达方式对过滤结果以及语音识别结果分别进行第一维度的特征提取的具体实现方式包括：

利用第一表达方式，为过滤结果以及语音识别结果中的每个语句添加句首标识，得到至少一个第一语句；

对至少一个第一语句进行多层特征提取，在提取结果中确定每个第一语句的句首标识对应的第一隐向量；

将每个第一语句中的目标词进行遮盖处理或去除处理，确定至少一个第二语句；

对每个第二语句进行多层特征提取，在提取结果中确定每个第二语句的句首标识对应的第二隐向量；

根据第一隐向量以及第二隐向量确定第一特征向量，特征向量包括第一特征向量。

具体的，把过滤结果中每句包含敏感词即目标词的文本，经过预训练模型，如Bert模型，进行特征提取，Bert模型中包括了多个特征提取层，在最后一层得到语句中各个文本对应的各个token标记的隐向量hidden states，目标词的向量表示方法即特征向量，为每个token标记对应的向量的平均，表示为W1_vec1。

图5为本申请实施例提供的第一种特征向量生成方式的示意图。如图5所示，假设“再不还钱我就投诉你”中的敏感词即目标词为“投诉”，那“投诉”对应的向量表示为“投”与“诉”两个token标记在Bert模型的最后一层所输出的隐向量的求和平均值。

同理，对于语音识别结果即过滤结果对应的原始数据，也同样采用上述的第一表达方式进行多层特征提取，所得到的特征向量表示为：W2_vec1，在此不再赘述。

通过第二表达方式对过滤结果以及语音识别结果分别进行第二维度的特征提取的具体实现方式包括：

利用第二表达方式，对过滤结果以及语音识别结果分别进行多层特征提取，确定过滤结果以及语音识别结果中包括的目标词对应的每个标记的第三隐向量；

将每个第三隐向量的均值确定为第二特征向量，特征向量包括第二特征向量。

具体的，对于过滤结果中的一句完整的包含敏感词即目标词的语句，在输入模型前会在句子前和末尾加上特殊字符[cls]、[sep]，把处理后的句子送到预训练模型中，经过模型进行特征提取，在模型最后一层[cls]对应的隐向量h1_cls就可以当成整句话的语义表示，其包含了整句话的语义信息。

图6为本申请实施例提供的第二种特征向量生成方式的示意图。如图6所示，为了衡量敏感词即目标词在句子中所起到的作用，可以对句子“再不还钱我就投诉你”中的敏感词“投诉”进行MASK遮掩操作处理，或者去除敏感词即目标词的处理，得到句子“再不还钱我就MM你”，然后输入到Bert模型中，依然取最后一层[cls]对应的隐向量h2_cls，该向量可以表示对敏感词即目标词进行遮掩处理后的句子的语义表示，那么两者的差值，即代表敏感词在句子中的作用，也即可以把此当成敏感词的向量表示，记为W1_vec2＝h1_cls-h2_cls。

同理，对于语音识别结果即过滤结果对应的原始数据，也同样采用上述的第二表达方式进行多层特征提取，所得到的特征向量表示为：W2_vec2，在此不再赘述。

通过第三表达方式对过滤结果以及语音识别结果分别进行第三维度的特征提取的具体实现方式包括：

利用目标词库，对过滤结果以及语音识别结果分别进行词向量训练；

将训练结果中的词向量确定为第三特征向量，特征向量包括第三特征向量。

具体的，与S303类似，通过Word2vec技术，利用预设训练模型，如神经网络模型、自学习模型等，基于过滤结果，结合目标词库中的各个目标词，将过滤结果中的语句转换为多个词向量，并将此向量组以预设方式组合成特征向量，记为W1_vec3。

同理，对于语音识别结果即过滤结果对应的原始数据，也同样采用上述的第三表达方式进行多层特征提取，所得到的特征向量表示为：W2_vec3，在此不再赘述。

S309、根据多个特征向量、多个权重值以及预设相似阈值从语音识别结果对应的语句中确定扩增数据集，以及将扩增数据集添加到扩充数据库。

在本步骤中，确定多个相似度，多个相似度与多个特征向量一一对应；其中，确定相似度的具体实现方式包括：其中，计算特征向量包括的第一向量和第二向量的相似度；

基于多个相似度和多个权重值确定目标相似度，例如，目标相似度等于多个相似度分别与对应的权重值的乘积之和；

若目标相似度大于预设相似阈值，则将语音识别结果和/或过滤结果对应的语句加入扩增数据集。

计算每个特征向量中的第一向量和第二向量的相似度；将各个相似度与对应的权重值的乘积之和确定为目标相似度；若目标相似度大于预设相似阈值，则将语音识别结果对应的语句加入扩增数据集。

在本实施例中，第一特征向量中的第一向量用W1_vec1表示，第一特征向量中的第二向量用W2_vec1表示，则第一特征向量对应的相似度score1可以根据公式(1)来计算，公式(1)如下所示：

第二特征向量中的第一向量用W1_vec2表示，第二特征向量中的第二向量用W2_vec2表示，则第二特征向量对应的相似度score2可以根据公式(2)来计算，公式(2)如下所示：

第三特征向量中的第一向量用W1_vec3表示，第三特征向量中的第二向量用W2_vec3表示，则第三特征向量对应的相似度score3可以根据公式(3)来计算，公式(3)如下所示：

假设第一特征向量对应的第一权重值为α₁，第二特征向量对应的第二权重值为α₂，第三特征向量对应的第三权重值为α₃，则目标相似度score_sum可以根据公式(4)来计算，公式(4)如下所示：

score_sum＝α₁*score1+α₂*score2+α₃*score3 (4)

其中，α₁+α₂+α₃＝1，且α₁、α₂、α₃的值可根据实际情况进行灵活配置。

接下来将目标相似度与预设相似阈值进行大小比对，若大于预设相似阈值，则认为其满足要求，将其加入扩增数据集中。

在一种可能的设计中，预设相似阈值包括：最佳阈值θ₁，最低命中阈值θ₂，且预设相似阈值的各个取值都可以结合具体的使用场景进行灵活的配置。将各个目标相似度与最佳阈值θ₁和最低命中阈值θ₂分别进行比对，若目标相似度高于最佳阈值θ₁，则认为该句话中的敏感词即目标词与原始的种子语料数据中的敏感词非常相似，则可直接把该句话加入到扩充数据库中；若相似度得分低于最低命中阈值θ₂，则认为相似度值特别低，则可舍弃掉这句话；若相似度值大于最低命中阈值θ₂，小于最佳阈值θ₁，则认为该语句中敏感词与种子语料中敏感词有一定的相似，但还不足以直接判断是否可以直接加入到扩充数据库中，需要人工核验确认。

图7为本申请实施例提供的一种数据扩充处理装置的结构示意图。该数据扩充处理装置700可以通过软件、硬件或者两者的结合实现。

如图7所示，该数据扩充处理装置700包括：

获取模块701，用于获取录音文件；

处理模块702，用于：

对录音文件进行语音识别，得到语音识别结果；

在一种可能的设计中，过滤结果包括至少一个词汇或语句，过滤结果中包括的词汇或语句与目标词库中包括的目标词相匹配。

在一种可能的设计中，过滤结果中包括的词汇或语句与目标词库中包括的目标词的情感极性相同。

在一种可能的设计中，述多种表达方式包括第一表达方式，第一表达方式用于表达与目标词库中的目标词相同或相似的语境语义；处理模块702，用于：

在一种可能的设计中，多种表达方式包括：第二表达方式，第二表达方式用于表达目标词库中的目标词对应的上位化语境；处理模块702，用于：

在一种可能的设计中，多种表达方式包括第三表达方式，第三表达方式用于表达过滤结果以及语音识别结果中出现目标词的词密度；处理模块702，用于：

在一种可能的设计中，处理模块702，用于：

确定多个相似度，多个相似度与多个特征向量一一对应；其中，确定相似度的具体实现方式包括：计算特征向量包括的第一向量和第二向量的相似度；

基于多个相似度和多个权重值确定目标相似度；

在一种可能的设计中，处理模块702，用于：

利用目标词库对语音识别结果进行筛选，确定筛选结果，筛选结果中包含目标词库中的至少一个目标词，过滤结果包括筛选结果。

在一种可能的设计中，处理模块702，还用于：

对筛选结果进行关于情感倾向的识别过滤，确定过滤结果，过滤结果的情感极性与目标词的情感极性相同。

在一种可能的设计中，表达方式还包括：基于目标词对语境语义影响的第一维度上的第一表达方式，处理模块702，用于：

利用第一表达方式，为过滤结果以及语音识别结果中的每个语句添加句首标识和句尾标识，确定各个第一语句；

对各个第一语句进行多层特征提取，在提取结果中确定每个第一语句的句首标识对应的第一隐向量；

将各个第一语句中的目标词进行遮盖处理或去除处理，确定各个第二语句；

对各个第二语句进行多层特征提取，在提取结果中确定每个第二语句的句首标识对应的第二隐向量；

在一种可能的设计中，表达方式还包括：基于语境上位化理解的第二维度上的第二表达方式，处理模块702，还用于：

利用第二表达方式，对过滤结果以及语音识别结果分别进行多层特征提取，确定目标词对应的每个标记的第三隐向量；

在一种可能的设计中，表达方式还包括：基于词密度的第三维度上的第三表达方式，处理模块702，还用于：

在一种可能的设计中，特征向量包括：与过滤结果对应的第一向量，以及与语音识别结果对应的第二向量，处理模块702，用于：

计算每个特征向量中的第一向量和第二向量的相似度；

将各个相似度与对应的权重值的乘积之和确定为目标相似度；

若目标相似度大于预设相似阈值，则将语音识别结果对应的语句加入扩增数据集。

在一种可能的设计中，获取模块701，还用于获取原始词库和预设的场景训练数据；

处理模块702，还用于：

根据原始词库中的各个目标词，对场景训练数据进行词向量训练，确定多个词向量；

根据多个词向量，遍历原始词库，确定各个词向量与目标词的相似度；

将排在前N位的相似度对应的场景训练数据添加到原始词库中，得到目标词库。

值得说明的是，图7所示实施例提供的装置，可以执行上述任一方法实施例中所提供的方法，其具体实现原理、技术特征、专业名词解释以及技术效果类似，在此不再赘述。

图8为本申请实施例提供的一种电子设备的结构示意图。如图8所示，该电子设备800，可以包括：至少一个处理器801和存储器802。图8示出的是以一个处理器为例的电子设备。

存储器802，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器802可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器801用于执行存储器802存储的计算机执行指令，以实现以上各方法实施例所述的方法。

其中，处理器801可能是一个中央处理器(central processing unit，简称为CPU)，或者是特定集成电路(application specific integrated circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

可选地，存储器802既可以是独立的，也可以跟处理器801集成在一起。当所述存储器802是独立于处理器801之外的器件时，所述电子设备800，还可以包括：

总线803，用于连接所述处理器801以及所述存储器802。总线可以是工业标准体系结构(industry standard architecture，简称为ISA)总线、外部设备互连(peripheralcomponent，PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器802和处理器801集成在一块芯片上实现，则存储器802和处理器801可以通过内部接口完成通信。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random accessmemory，RAM)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序指令，程序指令用于上述各方法实施例中的方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由本申请的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种数据扩充处理方法，其特征在于，包括：

获取录音文件，以及对所述录音文件进行语音识别，得到语音识别结果；

利用目标词库对所述语音识别结果进行过滤，得到过滤结果；通过多种表达方式对所述过滤结果以及所述语音识别结果分别进行多个维度的特征提取，确定多个特征向量，每个所述特征向量包含至少一个维度的特征信息；

根据所述多个特征向量、多个权重值以及预设相似阈值从所述语音识别结果和/或所述过滤结果对应的语句中确定扩增数据集，以及将所述扩增数据集添加到扩充数据库，所述权重值与所述特征向量相对应，所述扩充数据库用于对语音业务数据进行质检处理。

2.根据权利要求1所述的数据扩充处理方法，其特征在于，所述过滤结果包括至少一个词汇或语句，所述过滤结果中包括的所述词汇或所述语句与所述目标词库中包括的目标词相匹配。

3.根据权利要求2所述的数据扩充处理方法，其特征在于，所述过滤结果中包括的所述词汇或所述语句与所述目标词库中包括的目标词的情感极性相同。

4.根据权利要求1所述的数据扩充处理方法，其特征在于，所述多种表达方式包括第一表达方式，所述第一表达方式用于表达与所述目标词库中的目标词相同或相似的语境语义；

通过第一表达方式对所述过滤结果以及所述语音识别结果分别进行第一维度的特征提取的具体实现方式包括：

利用所述第一表达方式，为所述过滤结果以及所述语音识别结果中的每个语句添加句首标识，得到至少一个第一语句；

对至少一个所述第一语句进行多层特征提取，在提取结果中确定每个所述第一语句的所述句首标识对应的第一隐向量；

将每个所述第一语句中的所述目标词进行遮盖处理或去除处理，确定至少一个所述第二语句；

对每个所述第二语句进行多层特征提取，在提取结果中确定每个所述第二语句的所述句首标识对应的第二隐向量；

根据所述第一隐向量以及所述第二隐向量确定第一特征向量，所述特征向量包括所述第一特征向量。

5.根据权利要求1所述的数据扩充处理方法，其特征在于，所述多种表达方式包括：第二表达方式，所述第二表达方式用于表达所述目标词库中的目标词对应的上位化语境；

通过第二表达方式对所述过滤结果以及所述语音识别结果分别进行第二维度的特征提取的具体实现方式包括：

利用所述第二表达方式，对所述过滤结果以及所述语音识别结果分别进行多层特征提取，确定所述过滤结果以及所述语音识别结果中包括的所述目标词对应的每个标记的第三隐向量；

将每个所述第三隐向量的均值确定为第二特征向量，所述特征向量包括所述第二特征向量。

6.根据权利要求1所述的数据扩充处理方法，其特征在于，所述多种表达方式包括第三表达方式，所述第三表达方式用于表达所述过滤结果以及所述语音识别结果中出现所述目标词的词密度；

通过第三表达方式对所述过滤结果以及所述语音识别结果分别进行第三维度的特征提取的具体实现方式包括：

利用所述目标词库，对所述过滤结果以及所述语音识别结果分别进行词向量训练；

将训练结果中的词向量确定为第三特征向量，所述特征向量包括所述第三特征向量。

7.根据权利要求1所述的数据扩充处理方法，其特征在于，所述特征向量包括与所述过滤结果对应的第一向量、以及与所述语音识别结果对应的第二向量；所述根据所述多个特征向量、多个权重值以及预设相似阈值从所述语音识别结果和/或所述过滤结果对应的语句中确定扩增数据集，包括：

确定多个相似度，所述多个相似度与所述多个特征向量一一对应；其中，确定相似度的具体实现方式包括：计算所述特征向量包括的所述第一向量和所述第二向量的相似度；

基于所述多个相似度和多个权重值确定目标相似度；

若所述目标相似度大于所述预设相似阈值，则将所述语音识别结果和/或所述过滤结果对应的所述语句加入所述扩增数据集。

8.一种数据扩充处理装置，其特征在于，包括：

获取模块，用于获取录音文件；

处理模块，用于：

对所述录音文件进行语音识别，得到语音识别结果；

9.一种电子设备，其特征在于，包括：

处理器；以及，

存储器，用于存储所述处理器的计算机程序；

其中，所述处理器配置为经由执行所述计算机程序来执行权利要求1至7任一项所述的数据扩充处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的数据扩充处理方法。