CN113160800B

CN113160800B - 语音数据标注方法及电子设备、存储装置

Info

Publication number: CN113160800B
Application number: CN202110158767.7A
Authority: CN
Inventors: 艾坤; 陈志刚; 梅林海; 刘权; 王智国; 胡国平
Original assignee: Jilin Kexun Information Technology Co ltd
Current assignee: Jilin Kexun Information Technology Co ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2022-12-06
Anticipated expiration: 2041-02-04
Also published as: CN113160800A

Abstract

本申请公开了语音数据标注方法及电子设备、存储装置，该方法包括：获取第一语音数据中的高混淆度数据，高混淆度数据为混淆度值超过阈值的数据；提取高混淆度数据的语义特征，并获取与语义特征接近的多个近似数据；利用第一意图分类模型对近似数据进行预测，以获得近似数据的意图分类结果；将高混淆度数据所标注的意图修正为近似数据的意图分类结果中占比达到预设比值的意图，以得到修正后的第一语音数据；利用修正后的第一语音数据对第一意图分类模型进行训练，以获得第二意图分类模型；利用第二意图分类模型对第二语音数据进行预测，以获得第二语音数据对应的意图分类结果。上述方案，能够实现语音数据进行意图标注的标准化，提高标注的准确率。

Description

语音数据标注方法及电子设备、存储装置

技术领域

本申请涉及语音数据处理技术领域，特别是涉及一种语音数据标注方法及电子设备、存储装置。

背景技术

随着智能设备的不断发展，包含语音数据识别功能的智能设备得到了愈发广泛的应用，为实现语音数据识别功能，需要进行大量的前期准备工作，以获得训练数据对模型进行训练。

现有技术中，在前期准备过程中除了需要准备大量的语音数据外，还要人为标注语音数据的意图以用于模型的训练。但是，人为对语音数据的意图进行标注不但成本高，而且人为标注语音数据的意图可能存在个人主观上的原因使得标注不准确，最终导致训练后的模型对语音数据的预测结果不准确。有鉴于此，如何实现语音数据进行意图标注的标准化，提高标注的准确率成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种语音数据标注方法及电子设备、存储装置，能够对高混淆度数据的意图进行修正，进而利用修正后的第一语音数据训练第一意图分类模型，以获得第二意图分类模型，提高第二意图分类模型对意图进行标注的准确率。

为解决上述技术问题，本申请第一方面提供一种语音数据标注方法，包括：获取第一语音数据中的高混淆度数据，所述高混淆度数据为混淆度值超过阈值的数据；提取所述高混淆度数据的语义特征，并获取与所述语义特征接近的多个近似数据；利用第一意图分类模型对所述近似数据进行预测，以获得所述近似数据的意图分类结果；响应于获取到所述近似数据的意图分类结果中占比达到预设比值的第一意图，将所述近似数据对应的高混淆度数据所标注的意图修正为所述第一意图，以得到修正后的所述第一语音数据；利用修正后的所述第一语音数据对所述第一意图分类模型进行训练优化，以获得第二意图分类模型；利用所述第二意图分类模型对第二语音数据进行预测，以获得所述第二语音数据对应的意图分类结果。

为解决上述技术问题，本申请第二方面提供一种电子设备，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现上述第一方面中的语音数据标注方法。

为解决上述技术问题，本申请第三方面提供一种存储装置，所述存储装置存储有能够被处理器运行的程序指令，所述程序指令用于实现上述第一方面中的语音数据标注方法。

本申请的有益效果是：上述方案，获取了与高混淆度数据的语义特征接近的近似数据，利用第一意图分类模型对近似数据进行预测，将高混淆度数据所标注的意图修正为近似数据的意图分类结果中占比达到预设比值的第一意图，以得到修正后的第一语音数据，进而对第一意图分类模型进行训练优化，以得到第二意图分类模型，利用第二意图分类模型对需要进行意图标注的第二语音数据进行预测，以提高第二语音数据的意图分类结果的准确率。其中，高混淆度数据的意图也是由人为标注，高混淆度数据被标注的意图不可靠的概率较高，通过语义特征接近的近似数据的意图分类结果对高混淆度数据的意图进行修正，以明确高混淆度数据的意图，进而利用修正后的第一语音数据对第一意图分类模型进行优化，以得到第二意图分类模型，通过第二意图分类模型即可对第二语音数据的意图进行标注，使得意图的标注更加标准化，降低了人为标注时主观因素的影响，提高了意图标注的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请语音数据标注方法一实施例的流程示意图；

图2是本申请语音数据标注方法另一实施例的流程示意图；

图3是本申请电子设备一实施例的框架示意图；

图4是本申请存储装置一实施例的框架示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请语音数据标注方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S101：获取第一语音数据中的高混淆度数据，高混淆度数据为混淆度值超过阈值的数据。

具体地，第一语音数据为随机的语音数据，将第一语音数据送入经过预先训练的第一混淆度预测模型中以获得第一语音数据的混淆度值，进而将混淆度值超过阈值的第一语音数据判定为高混淆度数据。

在一个实施场景中，为训练第一混淆度预测模型，让多个用户对相同的训练用语音数据分别标注其个人主观认为的训练用语音数据的意图，若不同的用户对同一训练用语音数据的意图标注完全相同，则将该训练用语音数据的混淆度值设为0，若不同的用户对用一训练用语音数据的意图标注不完全相同，则将该训练用语音数据的混淆度值设为1。

进一步地，记录该训练用语音数据的真实混淆度值，假设训练用语音数据有N种类型的意图，N个用户对同一训练用语音数据进行意图标注，获得M个意图标注结果，当M＝1时，则真实混淆度值为0，当1<M≤N时，则真实混淆度值为M与N的比值。利用训练用语音数据对第一混淆度预测模型进行训练，进而将第一混淆度预测模型的输出结果与上述真实混淆度值比较，对第一混淆度预测模型进行迭代优化，以获得理想的第一混淆度预测模型。利用第一混淆度预测模型对第一语音数据进行预测，以获得第一语音数据的混淆度值，将混淆度值超过阈值的第一语音数据作为高混淆度数据。

在另一个实施场景中，为训练第一混淆度预测模型，让多个用户对相同的训练用语音数据分别标注其个人主观认为的训练用语音数据的在每种类型的意图下对应的百分比，比如有3种类型的意图，多个用户对同一训练用语音数据在每种类型的意图标注自己认为的百分比。进而将多个百分比取平均值，获得训练用语音数据对应每种意图的百分值。将训练用语音数据送入第一混淆度预测模型，以对第一混淆度预测模型进行训练，将第一混淆度预测模型的预测结果与上述百分值比较，对第一混淆度预测模型进行迭代优化，以获得理想的第一混淆度预测模型。

进一步地，利用第一混淆度预测模型对第一语音数据进行预测，以获得第一语音数据在每种类型下对应的百分比，将属于任何一种意图的百分比均不超过50％的第一语音数据作为高混淆度数据。

步骤S102：提取高混淆度数据的语义特征，并获取与语义特征接近的多个近似数据。

具体地，分析并获取高混淆度数据的语义特征，从语音数据库中查找与高混淆度数据的语义特征接近的近似数据，进而从中获取至少第一数值个近似数据。

在一个实施场景中，利用Word2vec提取高混淆度数据中的词向量以获得高混淆度数据中的高阶特征，对上述词向量进行语义识别，以获得高混淆度数据的语义特征，从语音数据库中查找并获取与上述语义特征重合度达到90％以上的至少3个语音数据，作为高混淆度数据的近似数据。其中，语音数据库中包括语音数据和语音数据对应的语义特征。

步骤S103：利用第一意图分类模型对近似数据进行预测，以获得近似数据的意图分类结果。

具体地，第一意图分类模型经过预先训练，以用于对输入的语音数据进行意图预测，以获得输入的语音数据对应的意图的类型。其中，意图的类型与语音数据的领域相关，第一意图分类模型通常用于某一专用领域，对于某一专用领域的第一意图分类模型，将属于该专用领域的语音数据作为预设种类的数据，对于预设种类的数据标注有N种可能的意图，在训练第一意图分类模型时，除了使用预设种类的数据还包括非预设种类的数据，因此，第一意图分类模型对于非预设种类的模型的意图分类结果为非预设种类，当语音数据被输入第一意图分类模型时，第一意图分类模型输出的意图分类结果为N+1维的向量，其中包括预设种类的数据对应的N种可能的意图以及一种非预设种类的意图。

在一个实施场景中，在获取到近似数据后，利用第一意图分类模型对近似数据进行预测，以获得近似数据的意图分类结果。其中，近似数据的意图分类结果通常为预设种类中的某种意图。

在一个具体实施场景中，第一意图分类模型应用于天气领域，对应于天气领域的语音数据的意图包括：查天气状态、查空气质量、查运动指数共三种类型的意图。第一意图分类模型会判断语音数据是否属于天气领域，若语音数据属于天气领域，则输出语音数据属于三种类型的意图中的一种意图，作为语音数据的意图分类结果，若语音数据不属于天气领域，则输出语音数据的意图分类结果为非天气领域。当利用第一意图分类模型对近似数据进行意图预测时，第一意图分类模型输出每个近似数据对应的意图分类结果。

步骤S104：响应于获取到近似数据的意图分类结果中占比达到预设比值的第一意图，将近似数据对应的高混淆度数据所标注的意图修正为第一意图，以得到修正后的第一语音数据。

具体地，预设比值至少大于50％，当第一意图分类模型输出的多个近似数据的意图分类结果中，属于第一意图的比例超过预设比值，则说明近似数据的意图偏向于意图分类结果中的第一意图，进而将对应的高混淆度数据修正为第一意图。

在一个实施场景中，第一数值为大于等于3的整数，当第一数值为偶数时，则将第一数值的一半加上1之后与第一数值的比值作为预设比值，当第一数值为奇数时，则将与第一数值的一半相邻且大于第一数值的一半的整数与第一数值的比值作为预设比值。当第一数值个近似数据的意图分类结果中第一意图的占比超过预设比值，则将近似数据所对应的高混淆度数据的意图修正为第一意图，可以理解的是，当存在多个高混淆度数据时，则分别通过上述步骤将高混淆度数据全部进行修正，以获得修正后的第一语音数据，进而修正后的第一语音数据中不再包括高混淆度数据。

需要说明的是，在上述步骤S101中，获取第一语音数据中的高混淆度数据可为获取部分第一语音数据中的高混淆度数据，进而利用上述步骤S102-S104以获得部分修正的第一语音数据，利用部分修正的第一语音数据对第一意图分类模型进行训练，以对第一意图分类模型进行更新，进而重复步骤S101-S105直至所有的第一语音数据被提取且第一语音数据中不再包括高混淆度数据为止。

步骤S105：利用修正后的第一语音数据对第一意图分类模型进行训练优化，以获得第二意图分类模型。

具体地，高混淆度数据的意图分类不确定性高，第一意图分类模型对高混淆度数据的进行预测获得的意图分类结果很可能不够准确，因此，对于高混淆度数据而言，第一意图分类模型的参数还有待优化，以提高对高混淆度数据的意图进行标注的准确率。

可以理解的是，高混淆度数据的意图起初为人为标注，其中，人为标注的主观因素较高，通过近似数据的意图分类结果对高混淆度数据的意图进行修正后，高混淆度数据的意图得到确定，进而原先的高混淆度数据的混淆度值可置为0，第一语音数据中不再包括高混淆度数据，因此，利用修正后的第一语音数据对第一意图分类模型再次进行训练，以优化第一意图分类模型的参数，使模型对高混淆数据的意图分类结果趋近于修正成的第一意图，进而在获得优化后的第二意图分类模型后，利用第二意图分类模型对原先的高混淆度数据进行预测所获得的意图分类结果的准确率大大提高。

步骤S106：利用第二意图分类模型对第二语音数据进行预测，以获得第二语音数据对应的意图分类结果。

具体地，在获得优化后的第二意图分类模型后，利用第二意图分类模型对第二语音数据进行预测，即可获得第二语音数据的意图分类结果。对于第二语音数据的意图标注可不再通过人为标注的方式，进而降低个人主观因素对标注意图的影响。

在一个实施场景中，第二语音数据为混乱语音数据，混乱语音数据中包括预设种类的数据和非预设种类的数据，利用第二意图分类模型对第二语音数据进行预测，以区分出第二语音数据中的非预设种类的数据和预设种类的数据，并且获得预设种类的数据对应的意图，进而将第二语音数据中的预设种类的数据按意图的类型进行分类，利用属于同一意图的预设种类的数据对关键词模型进行训练，以获得按意图类型进行关键词提取的关键词模型。其中，关键词模型用于提取预设种类的数据中与意图相关的时间、地点中的至少一种关键词。

上述方案，获取了与高混淆度数据的语义特征接近的近似数据，利用第一意图分类模型对近似数据进行预测，将高混淆度数据所标注的意图修正为近似数据的意图分类结果中占比达到预设比值的第一意图，以得到修正后的第一语音数据，进而对第一意图分类模型进行训练优化，以得到第二意图分类模型，利用第二意图分类模型对需要进行意图标注的第二语音数据进行预测，以提高第二语音数据的意图分类结果的准确率。其中，高混淆度数据的意图也是由人为标注，高混淆度数据被标注的意图不可靠的概率较高，通过语义特征接近的近似数据的意图分类结果对高混淆度数据的意图进行修正，以明确高混淆度数据的意图，进而利用修正后的第一语音数据对第一意图分类模型进行优化，以得到第二意图分类模型，通过第二意图分类模型即可对第二语音数据的意图进行标注，使得意图的标注更加标准化，降低了人为标注时主观因素的影响，提高了意图标注的准确率。

请参阅图2，图2是本申请语音数据标注方法另一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S201：将多个属于预设种类的数据作为集内数据，为集内数据标注相应的意图并标注意图的混淆度值，将多个不属于预设种类的数据以及从随机数据中采样的部分数据作为集外数据，将随机数据中未被采样的数据作为第一语音数据。

具体地，基于语音数据的模型与语音数据的领域相关，训练后的模型主要用于与某一专用领域，将属于该专用领域的语音数据作为预设种类的数据，将不属于该专用领域的语言数据作为非预设种类的数据。

在一个实施场景中，用户首先选取预设种类的数据作为集内数据，并为集内数据标注意图和混淆度值，其中，用户标注的意图为多种类型的意图中的一种，如果用户认为预设种类的数据包含超过一种类型的意图，则为相应的预设种类的数据标注大于0的混淆度值，如果用户认为预设种类的数据只包含一种类型的意图，则为相应的预设种类的数据标注混淆度值为0。

进一步地，用户将非预设种类对应的其他专用领域的语音数据以及从随机数据中抽取的小部分数据作为集外数据，将未被抽取的随机数据作为第一语音数据。

在一个具体实施场景中，为集内数据标注相应的意图并标注意图的混淆度值，包括：获取预设种类的数据包括的所有类型的意图。响应于集内数据存在多种类型的意图，从所有类型的意图中选择一种类型的意图作为集内数据的意图，并将集内数据对应的混淆度值设为1。或者，响应于集内数据只存在一种类型的意图，将对应类型的意图作为集内数据的意图，并将集内数据对应的混淆度值设为0。

具体地，用户首先获取预设种类的数据对应的多种类型的意图，进而用户在进行意图和混淆度值的标注时，若用户认为当前的预设种类的数据包括超过一种类型的意图，则将混淆度值设为1，否则将混淆度值设为0。其中，通过0和1来反馈用户主观上认为的预设种类的数据在意图层面是否存在混淆，通过设置混淆度值以使意图是否存在混淆变成量化的数据，进而更直观地反馈意图是否存在混淆。

步骤S202：利用集内数据和集外数据训练意图分类模型和混淆度预测模型，以获得第一意图分类模型和第一混淆度预测模型。

具体地，利用集内数据和集外数据对意图分类模型进行初步训练，以获得第一意图分类模型，其中，第一意图分类模型的意图分类结果包括预设种类的数据对应的多种类型的意图外加非预设种类，利用集内数据和集外数据对混淆度预测模型进行初步训练，以获得第一混淆度预测模型，其中，第一混淆度预测模型的混淆度值预测结果为0-1中的任一数值，且数值越大表示意图混淆的可能性越大。

进一步地，集内数据中均为预设种类的数据，集外数据中绝大部分为非预设种类的数据，同时也可能包括少部分的预设种类的数据，利用集内数据和集外数据对意图分类模型进行训练，可验证集外数据中是否包括预设种类的数据，以提高意图分类模型区分预设种类的数据和非预设种类的数据的能力，利用集内数据和集外数据对混淆度预测模型进行训练，以使获得的第一混淆度预测模型能够迅速反馈出语音数据是否包括多种可能的意图，当语音数据属于预设种类但意图的类型可能存在多种可能时，第一混淆度预测模型输出相应的混淆度值，当语音数据可能属于预设种类也可能属于非预设种类时，第一混淆度预测模型输出相应的混淆度值。

需要说明的是，利用集内数据和集外数据训练意图分类模型，包括：响应于意图分类模型获取到集内数据，获取集内数据对应的混淆度值与1相加后的第二数值；将意图分类模型的损失函数层的损失值乘以第二数值，以获得集内数据在损失函数层中的最终损失值；基于最终损失值，对意图分类模型进行训练以获得第一意图分类模型。

具体地，损失函数层通常的表达式如下列公式(1)所示：

其中，p_i为第i种类型的意图对应的预测概率。

进一步地，本实施例所采用的损失函数层可用下列公式(2)表示：

其中，h为混淆度值，1+h即为第二数值，通过混淆度值能够让意图分类模型放大混淆数据的loss。

通过上述公式(2)可获取到最终损失值，基于最终损失值可更加准确地确定语音数据的数据边界，以便于获取到语音数据的真实意图。

步骤S203：利用第一意图分类模型和第一混淆度预测模型对第一语音数据进行预测，以获得第一语音数据的意图分类结果和混淆度值。

具体地，第一意图分类模型和第一混淆度预测模型经过了预先训练，利用第一意图分类模型对第一语音数据进行预测，以获得第一语音数据的意图分类结果，利用第一混淆度预测模型对第一语音数据进行预测，以获得第一语音数据的混淆度值，通过模型来进行预测以便快速输出预测结果。

步骤S204：基于不同混淆度值对应的意图分类结果的预测正确率，确定混淆度值的阈值，将混淆度值大于阈值的第一语音数据标注为高混淆度数据。

具体地，将第一意图分类模型输出的结果与人为标注的意图对比，若相同则判定为正确，若不相同则判定为不正确。从第一混淆度预测模型输出的混淆度值中选择一个混淆度值，将同一混淆度值对应的第一语音数据的意图分类结果与人为标注的意图对比，以获得同一混淆度值对应的第一语音数据的预测正确率。

进一步地，获取整个混淆度值对应的区间内的多个混淆度值对应的预测正确率，查找整个混淆度值区间内预测正确率低于一定数值的混淆度值，进而确定混淆度值的阈值，将混淆度值大于阈值的第一语音数据作为高混淆度数据。

在一个实施场景中，基于不同混淆度值对应的意图分类结果的预测正确率，确定混淆度值的阈值，包括：按照混淆度值递减的顺序，将同一混淆度值所对应的第一语音数据的意图分类结果，分别与其标注的意图进行对比，以获得不同的混淆度值对应的意图分类结果的预测正确率。将与预测正确率的预设数值匹配的混淆度值设为混淆度值的阈值。

具体地，第一混淆度预测模型输出的混淆度值基于初始标注的混淆度值，因此，混淆度越高的第一语音数据的预测正确率通常越低，将第一混淆度预测模型输出的混淆度值按照从大到小递减的顺序进行排列，对于同一混淆度值所对应的第一语音数据，将第一意图分类模型输出的意图分类结果与标注的意图进行对比，进而获得同一混淆度值所对应的第一语音数据的预测正确率。例如：同一混淆度值对应有10个第一语音数据，分别对比其意图分类结果与标注的意图后，获得其中7个第一语音数据的标注结果是正确的，则该混淆度值对应的预测正确率为70％。

进一步地，预测正确率设有预设数值，该预设数值可以是50％、40％、30％中的任意一个数值。将混淆度值对应的预测正确率与预设数值做匹配，以获得混淆度值的阈值，其中混淆度值高于该阈值的预测正确率低于上述预设数值。通过上述方式将混淆度值与预测正确率关联起来，进而将混淆度值高于阈值的第一语音数据作为高混淆度数据，以使获得的高混淆度数据对应为预测正确率低的第一语音数据，因此，高混淆度数据为意图分类结果预测正确率低且不确定性高的数据，通过设置混淆度值的阈值的方式，将第一语音数据中需要进行意图确认和调整的数据快速且准确地筛选出来，以便修正高混淆度数据的意图。

步骤S205：提取高混淆度数据的语义特征，并获取与语义特征接近的多个近似数据。

具体地，可以包括：利用第一意图分类模型的预设嵌入层提取高混淆度数据的语义特征；从训练第一意图分类模型时产生的中间数据中获取与语义特征近似度满足预设条件且数量大于第一数值的近似数据。

在一个实施场景中，第一意图分类模型为基于神经网络的模型，第一意图分类模型对输入的语音数据进行预测所输出的意图分类结果为多维向量，利用第一意图分类模型中的embedding层提取高混淆度数据的语义特征，进而利用embedding层从训练第一意图分类模型时产生的中间数据中，获取与高混淆度数据的向量空间重合度达到80％以上的语音数据作为近似数据。

可以理解的是，为提高利用近似数据对高混淆度数据的意图进行修正的准确率，近似数据的样本数量需至少大于第一数值，其中，第一数值可为大于或等于3的整数。

具体地，通过第一意图分类模型的预设嵌入层可准确提取高混淆度数据的语义特征，并且，从训练第一意图分类模型时产生的中间数据中查找近似数据，省去了准备新的语音数据的过程，节省了数据准备时间并提高了数据处理的效率。

进一步地，当近似数据的样本数量未达到第一数值时，还包括：响应于从中间数据中未获取到数量大于第一数值的近似数据，利用预设嵌入层从第一语音数据中获取与语义特征近似度满足预设条件的近似数据；和/或，利用高混淆度数据中的关键词从语音数据库中获取备用语音数据，利用预设嵌入层从备用语音数据中获取与语义特征近似度满足预设条件的近似数据。

具体地，如果近似数据的样本数量未达到第一数值，那么利用近似数据对高混淆度数据的意图进行修正则会因为样本数量不够，导致修正结果依然不准确，因此，为提高对高混淆度数据进行修正的准确率，利用预设嵌入层从第一语音数据中查找与语义特征近似度满足预设条件的近似数据，或者，提取高混淆度数据的关键词，利用关键词从网络语音数据或既有语音数据库中并获取备用语音数据，利用预设嵌入层从备用语音数据中获取与语义特征近似度满足预设条件的近似数据。

可以理解的是，通过上述多种途径获取近似数据时，也可将上述几种途径结合，以使近似数据的样本数量超过第一数值，进而降低近似数据的预测结果中离散值的影响。

步骤S206：利用第一意图分类模型对近似数据进行预测，以获得近似数据的意图分类结果。

具体地，将近似数据输入第一意图分类模型，以使第一意图分类模型输出近似数据的意图分类结果。

在一个具体实施场景中，第一意图分类模型应用于天气领域，对应于天气领域的语音数据的意图包括：查天气状态、查空气质量、查空气湿度、查洗车指数、查运动指数共五种类型的意图。将近似数据输入第一意图分类模型，以输出每个近似数据对应的意图分类结果，该意图分别结果为上述五种类型的意图中一种。

步骤S207：判断近似数据的意图分类结果中是否包括占比达到预设比值的第一意图。

具体地，预设比值至少大于50％，也就是说判断近似数据的意图分类结果中是否存在占比超过50％的第一意图，进而可以确定近似数据对应的可能性最高的意图。当近似数据的意图分类结果中包括占比达到预设比值的第一意图时，进入步骤S208，当近似数据的意图分类结果中不包括占比达到预设比值的第一意图时，进入步骤S209。

步骤S208：将近似数据对应的高混淆度数据所标注的意图修正为第一意图，以得到修正后的第一语音数据。

具体地，将高混淆度数据所标注的意图修正为第一意图，将高混淆度数据和非高混淆度数据叠加，以获得修正后的第一语音数据，此时，原先的高混淆度数据的意图得到确定，第一语音数据中不再包括高混淆度数据。

步骤S209：基于近似数据的意图分类结果对高混淆度数据所标注的意图进行人为纠正，以获得人为纠正后的第一语音数据，利用人为纠正后的第一语音数据对第一意图分类模型进行训练，以获得人为纠正后的第一意图分类模型。

具体地，当近似数据的意图分类结果中不存在占比达到预设比值的第一意图时，从近似数据的意图分类结果中获取当前占比最高的意图，将当前占比最高的意图作为高混淆数据的意图，以获得人为纠正后的第一语音数据，利用人为纠正后的第一语音数据对第一意图分类模型再次进行训练，以获得人为纠正后的第一意图分类模型，进而回到上述步骤S203，直至获得占比超过预设比值的第一意图，利用第一意图对高混淆度数据进行修正，以使第一语音数据中不再包括高混淆度数据。

步骤S210：利用修正后的第一语音数据对第一意图分类模型进行训练优化，以获得第二意图分类模型。

具体地，对于高混淆度数据而言，第一意图分类模型的参数还有待优化，才能提高对高混淆度数据的意图进行标注的准确率，因此，利用修正后的第一语音数据对第一意图分类模型再次进行训练，以优化第一意图分类模型的参数，以获得优化后的第二意图分类模型，使第二意图分类模型对高混淆度数据进行预测时的预测正确率得以提高。

步骤S211：利用第二意图分类模型对第二语音数据进行预测，以获得第二语音数据对应的意图分类结果。

具体地，在获得优化后的第二意图分类模型后，利用第二意图分类模型对第二语音数据进行预测，即可获得第二语音数据的意图分类结果。使得对第二语音数据进行意图标注的工作由第二意图分类模型来实现，用户需要做的只是选择部分语音数据作为第二语音数据，并将其输入至第二意图分类模型即可，第二意图分类模型会输出第二语音数据是否属于预设种类的结果，当第二语音数据属于预设种类时，第二意图分类模型还输出有第二语音数据属于哪种类型的意图，以使意图的标注不再通过人为标注，节约人力成本的投入并使得意图的标注更加标准化。

需要说明的是，本实施中的语音数据标注方法还可以包括：为集内数据标注相应的特征信息；利用集内数据训练特征信息分类模型，以获得第一特征信息分类模型；响应于获取到修正后的第一语音数据，利用修正后的第一语音数据对第一特征信息分类模型进行训练优化，以获得第二特征信息分类模型；利用第二特征信息分类模型对第二语音数据进行预测，以获得第二语音数据对应的特征信息分类结果。

具体地，在人为标注集内数据的意图时，除了对集内数据的意图进行标注，用户还对集内数据的特征信息进行了标注，利用集内数据训练特征信息分类模型，以获得第一特征信息分类模型。当第一语音数据中的高混淆度数据的意图得到修正后，利用修正后的第一语音数据对第一特征信息分类模型进行训练优化，以获得第二特征信息分类模型，使得第二特征分类模型对特征信息的提取与更准确的意图分类结果匹配，最终，利用第二特征信息分类模型对第二语音数据进行预测，以使提取第二语音数据中预设种类的数据的特征信息更加标准化，同时也不再依靠人为标注，进而提高特征信息标注的效率和准确率。

在一个具体实施场景中，第一特征信息分类模型应用于天气领域，对应于天气领域的语音数据的特征信息包括：时间、地点、温度、湿度、天气状况、风力共六种类型的特征信息。用户首先对集内数据进行特征信息的标注，选择上述六种类型的特征信息中的至少一种作为集内数据的特征信息，进而利用集内数据对特征信息分类模型进行初步的训练，以获得第一特征信息分类模型。当第一语音数据的意图得到修正后，利用修正后的第一语音数据对第一特征信息分类模型进行训练，由于第一语音数据的意图得到修正，因此在训练第一特征信息分类模型时，对于特征信息的提取可侧重于提取与意图相对应的特征信息，对第一特性信息分类模型进行训练优化后获得第二特征信息分类模型，以使对于第二语音数据的特征信息的标注均可通过第二特征信息分类模型来实现。

上述方案，区别于前述实施例，利用集内数据和集外数据对意图分类模型和混淆度预测模型进行初步训练，以获得第一意图分类模型和第一混淆度预测模型，进而通过第一意图分类模型和第一混淆度预测模型来对第一语音数据进行预测，以获得第一混淆度预测模型的输出结果中混淆度值高于阈值的高混淆度数据，高混淆度数据对应着意图的预测正确率较低的数据，通过第一意图分类模型的预设嵌入层分析并获取与高混淆度数据的语义特征接近的近似数据，利用第一意图分类模型对近似数据进行预测，以查找并获取近似数据中占比超过预设比值的第一意图，将高混淆度数据的意图修正为第一意图，利用修正后的第一语音数据对第一意图分类模型进行训练，以获得第二意图分类模型，从而对于任何第二语音数据，在需要进行意图标注时均可藉由第二意图分类模型来进行，以提高意图标注的准确率和效率。

请参阅图3，图3是本申请电子设备一实施例的框架示意图。电子设备30包括相互耦接的存储器31和处理器32，存储器31中存储有程序指令，处理器32用于执行程序指令以实现上述任一语音数据标注方法实施例中的步骤。

具体而言，处理器32用于控制其自身以及存储器31以实现上述任一语音数据标注方法实施例中的步骤。处理器32还可以称为CPU(Central Processing Unit，中央处理单元)。处理器32可能是一种集成电路芯片，具有信号的处理能力。处理器32还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器32可以由多个集成电路芯片共同实现。

本实施例中，处理器32用于获取第一语音数据中的高混淆度数据，高混淆度数据为混淆度值超过阈值的数据；处理器32用于提取高混淆度数据的语义特征，并获取与语义特征接近的多个近似数据；处理器32用于利用第一意图分类模型对近似数据进行预测，以获得近似数据的意图分类结果；处理器32用于响应于获取到近似数据的意图分类结果中占比达到预设比值的第一意图，将近似数据对应的高混淆度数据所标注的意图修正为第一意图，以得到修正后的第一语音数据；处理器32用于利用修正后的第一语音数据对第一意图分类模型进行训练优化，以获得第二意图分类模型；处理器32用于利用第二意图分类模型对第二语音数据进行预测，以获得第二语音数据对应的意图分类结果。

在一些实施例中，处理器32用于利用第一意图分类模型和第一混淆度预测模型对第一语音数据进行预测，以获得第一语音数据的意图分类结果和混淆度值；处理器32用于基于不同混淆度值对应的意图分类结果的预测正确率，确定混淆度值的阈值，将混淆度值大于阈值的第一语音数据标注为高混淆度数据。

区别于前述实施例，通过第一意图分类模型和第一混淆度预测模型以快速且准确地输出意图分类结果和混淆度值，并基于不同混淆度值对应的意图分类结果的预测正确率，以预测正确率为基准找出混淆度值大于阈值的高混淆度数据，以便后续对高混淆度数据进行调整。

在一些实施例中，处理器32用于按照混淆度值递减的顺序，将同一混淆度值所对应的第一语音数据的意图分类结果，分别与其标注的意图进行对比，以获得不同的混淆度值对应的意图分类结果的预测正确率；处理器32用于将与预测正确率的预设数值匹配的混淆度值设为混淆度值的阈值。

区别于前述实施例，将高混淆度数据与预测正确率对应，其中，预测正确率的预设数值与混淆度值匹配后确定混淆度值的阈值，以使高混淆度数据对应意图分类结果中预测正确率较低的数据，进而将第一语音数据中需要进行意图确认和调整的数据快速且准确地筛选出来。

在一些实施例中，处理器32用于利用第一意图分类模型的预设嵌入层提取高混淆度数据的语义特征；处理器32用于从训练第一意图分类模型时产生的中间数据中获取与语义特征近似度满足预设条件且数量大于第一数值的近似数据。

区别于前述实施例，通过第一意图分类模型的预设嵌入层可准确提取高混淆度数据的语义特征，并且，从训练第一意图分类模型时产生的中间数据中查找近似数据，省去了准备新的语音数据的过程，节省了数据准备时间并提高了数据处理的效率。

在一些实施例中，处理器32用于响应于从中间数据中未获取到数量大于第一数值的近似数据，利用预设嵌入层从第一语音数据中获取与语义特征近似度满足预设条件的近似数据；和/或，处理器32用于利用高混淆度数据中的关键词从语音数据库中获取备用语音数据，利用预设嵌入层从备用语音数据中获取与语义特征近似度满足预设条件的近似数据。

区别于前述实施例，为提高利用近似数据对高混淆度数据的意图进行修正的准确率，近似数据的样本数量需至少大于第一数值，将上述几种途径结合，以使近似数据的样本数量超过第一数值，进而降低近似数据的预测结果中离散值的影响。

在一些实施例中，处理器32用于判断近似数据的意图分类结果中是否包括占比达到预设比值的第一意图；若包括，则进入将近似数据对应的高混淆度数据所标注的意图修正为第一意图，以得到修正后的第一语音数据的步骤；否则，处理器32用于基于近似数据的意图分类结果对高混淆度数据所标注的意图进行人为纠正，以获得人为纠正后的第一语音数据，利用人为纠正后的第一语音数据对第一意图分类模型进行训练，以获得人为纠正后的第一意图分类模型，并返回至利用第一意图分类模型和第一混淆度预测模型对第一语音数据进行预测的步骤。

区别于前述实施例，当近似数据的意图分类结果中未包括占比达到预设比值的第一意图，则进行人为纠正，并再次训练第一意图分类模型，回到利用第一意图分类模型和第一混淆度预测模型对第一语音数据进行预测的步骤，以使第一语音数据中的高混淆度数据的意图被修正为近似数据的意图分类结果中占比达到预设比值的第一意图，进而高混淆度数据的意图得到确认，提高对高混淆度数据进行意图预测的准确率。

在一些实施例中，处理器32用于将多个属于预设种类的数据作为集内数据，为集内数据标注相应的意图并标注意图的混淆度值，将多个不属于预设种类的数据以及从随机数据中采样的部分数据作为集外数据，将随机数据中未被采样的数据作为第一语音数据；处理器32用于利用集内数据和集外数据训练意图分类模型和混淆度预测模型，以获得第一意图分类模型和第一混淆度预测模型。

区别于前述实施例，利用预先准备的数据对模型进行初步的训练以分别获得第一意图分类模型和第一混淆度预测模型，以使获取第一语音数据的意图分类结果和混淆度值更加标准化。

在一些实施例中，处理器32用于获取预设种类的数据包括的所有类型的意图；处理器32用于响应于集内数据存在多种类型的意图，从所有类型的意图中选择一种类型的意图作为集内数据的意图，并将集内数据对应的混淆度值设为1；或者，处理器32用于响应于集内数据只存在一种类型的意图，将对应类型的意图作为集内数据的意图，并将集内数据对应的混淆度值设为0。

区别于前述实施例，通过设置混淆度值以使意图是否存在混淆变成量化的数据，进而更直观地反馈意图是否存在混淆。

在一些实施例中，处理器32用于响应于意图分类模型获取到集内数据，获取集内数据对应的混淆度值与1相加后的第二数值；处理器32用于将意图分类模型的损失函数层的损失值乘以第二数值，以获得集内数据在损失函数层中的最终损失值；处理器32用于基于最终损失值，对意图分类模型进行训练以获得第一意图分类模型。

区别于前述实施例，利用混淆度值放大了损失函数层的损失值，以获得最终损失值，基于最终损失值可更加准确地确定语音数据的数据边界，以便于获取到语音数据的真实意图。

在一些实施例中，处理器32用于为集内数据标注相应的特征信息；处理器32用于利用集内数据训练特征信息分类模型，以获得第一特征信息分类模型；处理器32用于响应于获取到修正后的第一语音数据，利用修正后的第一语音数据对第一特征信息分类模型进行训练优化，以获得第二特征信息分类模型；处理器32用于利用第二特征信息分类模型对第二语音数据进行预测，以获得第二语音数据对应的特征信息分类结果。

区别于前述实施例，对特征分类模型进行两次训练以获得第二特征分类模型，藉由第二特征分类模型对第二语音数据的特征信息的进行提取，使得提取过程更加标准化不再依靠人为标注，进而提高特征信息标注的效率和准确率。

请参阅图4，图4是本申请存储装置一实施例的框架示意图。存储装置40存储有能够被处理器运行的程序指令400，程序指令400用于实现上述任一语音数据标注方法实施例中的步骤。

上述方案，能够实现语音数据进行意图标注的标准化，提高标注的准确率。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音数据标注方法，其特征在于，所述方法包括：

获取第一语音数据中的高混淆度数据，所述高混淆度数据为混淆度值超过阈值的数据；

提取所述高混淆度数据的语义特征，并获取与所述语义特征接近的多个近似数据；

利用第一意图分类模型对所述近似数据进行预测，以获得所述近似数据的意图分类结果；

响应于获取到所述近似数据的意图分类结果中占比达到预设比值的第一意图，将所述近似数据对应的高混淆度数据所标注的意图修正为所述第一意图，以得到修正后的所述第一语音数据；

利用修正后的所述第一语音数据对所述第一意图分类模型进行训练优化，以获得第二意图分类模型；

利用所述第二意图分类模型对第二语音数据进行预测，以获得所述第二语音数据对应的意图分类结果；

其中，所述获取第一语音数据中的高混淆度数据，包括：

将所述第一语音数据送入经过预先训练的第一混淆度预测模型中以获得所述第一语音数据的混淆度值，将所述混淆度值超过阈值的第一语音数据判定为所述高混淆度数据；其中，为训练所述第一混淆度预测模型，获得用户对同一训练用语音数据的意图标注，记录所述训练用语音数据的真实混淆度值，或者，为训练所述第一混淆度预测模型，获得训练用语音数据的在每种类型的意图下对应的百分比，将多个所述百分比取平均值，获得所述训练用语音数据对应每种意图的百分值。

2.根据权利要求1所述的方法，其特征在于，所述获取第一语音数据中的高混淆度数据，包括：

利用所述第一意图分类模型和第一混淆度预测模型对所述第一语音数据进行预测，以获得所述第一语音数据的意图分类结果和混淆度值；

基于不同所述混淆度值对应的所述意图分类结果的预测正确率，确定所述混淆度值的阈值，将所述混淆度值大于所述阈值的第一语音数据标注为高混淆度数据；

所述获取第一语音数据中的高混淆度数据之前，还包括：

将多个属于预设种类的数据作为集内数据，为所述集内数据标注相应的意图并标注意图的混淆度值，将多个不属于所述预设种类的数据以及从随机数据中采样的部分数据作为集外数据，将所述随机数据中未被采样的数据作为所述第一语音数据；

利用所述集内数据和所述集外数据训练意图分类模型和混淆度预测模型，以获得所述第一意图分类模型和第一混淆度预测模型。

3.根据权利要求2所述的方法，其特征在于，所述基于不同所述混淆度值对应的所述意图分类结果的预测正确率，确定所述混淆度值的阈值，包括：

按照所述混淆度值递减的顺序，将同一所述混淆度值所对应的所述第一语音数据的意图分类结果，分别与其标注的意图进行对比，以获得不同的所述混淆度值对应的意图分类结果的预测正确率；

将与所述预测正确率的预设数值匹配的混淆度值设为所述混淆度值的阈值。

4.根据权利要求1所述的方法，其特征在于，所述提取所述高混淆度数据的语义特征，并获取与所述语义特征接近的多个近似数据，包括：

利用所述第一意图分类模型的预设嵌入层提取所述高混淆度数据的语义特征；

从训练所述第一意图分类模型时产生的中间数据中获取与所述语义特征近似度满足预设条件且数量大于第一数值的近似数据。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

响应于从所述中间数据中未获取到数量大于所述第一数值的近似数据，利用所述预设嵌入层从所述第一语音数据中获取与所述语义特征近似度满足预设条件的近似数据；和/或，

利用所述高混淆度数据中的关键词从语音数据库中获取备用语音数据，利用所述预设嵌入层从所述备用语音数据中获取与所述语义特征近似度满足预设条件的近似数据。

6.根据权利要求2所述的方法，其特征在于，所述利用第一意图分类模型对所述近似数据进行预测，以获得所述近似数据的意图分类结果之后，包括：

判断所述近似数据的意图分类结果中是否包括占比达到所述预设比值的第一意图；

若包括，则进入将所述近似数据对应的高混淆度数据所标注的意图修正为所述第一意图，以得到修正后的所述第一语音数据的步骤；

否则，基于所述近似数据的意图分类结果对所述高混淆度数据所标注的意图进行人为纠正，以获得人为纠正后的第一语音数据，利用所述人为纠正后的第一语音数据对所述第一意图分类模型进行训练，以获得人为纠正后的第一意图分类模型，并返回至利用所述第一意图分类模型和第一混淆度预测模型对所述第一语音数据进行预测的步骤。

7.根据权利要求2所述的方法，其特征在于，所述为所述集内数据标注相应的意图并标注意图的混淆度值，包括：

获取所述预设种类的数据包括的所有类型的意图；

响应于所述集内数据存在多种所述类型的意图，从所有所述类型的意图中选择一种类型的意图作为所述集内数据的意图，并将所述集内数据对应的混淆度值设为1；或者，

响应于所述集内数据只存在一种类型的意图，将对应类型的意图作为所述集内数据的意图，并将所述集内数据对应的混淆度值设为0。

8.根据权利要求2所述的方法，其特征在于，所述利用所述集内数据和所述集外数据训练意图分类模型，包括：

响应于所述意图分类模型获取到所述集内数据，获取所述集内数据对应的混淆度值与1相加后的第二数值；

将所述意图分类模型的损失函数层的损失值乘以所述第二数值，以获得所述集内数据在所述损失函数层中的最终损失值；

基于所述最终损失值，对所述意图分类模型进行训练以获得所述第一意图分类模型。

9.根据权利要求2所述的方法，其特征在于，所述方法还包括：

为所述集内数据标注相应的特征信息；

利用所述集内数据训练特征信息分类模型，以获得第一特征信息分类模型；

响应于获取到修正后的所述第一语音数据，利用修正后的所述第一语音数据对所述第一特征信息分类模型进行训练优化，以获得第二特征信息分类模型；

利用所述第二特征信息分类模型对所述第二语音数据进行预测，以获得所述第二语音数据对应的特征信息分类结果。

10.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的语音数据标注方法。

11.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至9任一项所述的语音数据标注方法。