CN117935787B

CN117935787B - 一种数据筛选标注方法、装置、电子设备和存储介质

Info

Publication number: CN117935787B
Application number: CN202410338970.6A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Moore Threads Technology Co Ltd
Current assignee: Moore Threads Technology Co Ltd
Priority date: 2024-03-22
Filing date: 2024-03-22
Publication date: 2024-05-31
Anticipated expiration: 2044-03-22
Also published as: CN117935787A

Abstract

本公开涉及语音标注技术领域，公开了一种数据筛选标注方法、装置、电子设备和存储介质，所述方法包括：获取待筛选的音频数据；对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度；对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度；根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果；将所述目标识别结果对应的音频数据作为筛选出的目标音频数据，将目标识别结果作为目标音频数据的标签。本公开实施例可提高筛选出的目标音频数据的质量，以及目标音频数据的标签的准确率。

Description

一种数据筛选标注方法、装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种数据筛选标注方法、装置、电子设备和存储介质。

背景技术

语音识别技术是人工智能领域中一项重要的应用，它使得机器能够理解和识别人类语音，从而实现了人机交互的更高级形式。在日常生活中，语音识别技术广泛应用于各种场景，如智能助手、语音搜索、智能家居等，为用户提供了更加便捷和高效的服务。

随着大模型的广泛应用，语音识别技术得到了显著提升。大模型训练需要海量的相关数据，这便需要对大量的数据进行筛选和标注，以补充到语音识别大模型训练数据中。

现有的语音数据标注处理主要有两种方式。一种是人工标注处理，但这种方式时间成本较高，且只适用于小体量测试数据生成。另一种方式是利用现有的语音识别模型进行初步识别，但这种方式的识别效果不佳，准确率较低。

发明内容

本公开提出了一种数据筛选标注技术方案。

根据本公开的一方面，提供了一种数据筛选标注方法，包括：

获取待筛选的音频数据；

对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度；

对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度；

根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果；

将所述目标识别结果对应的音频数据作为筛选出的目标音频数据，将目标识别结果作为目标音频数据的标签。

在一种可能的实现方式中，所述对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度，包括：

通过双向长短期记忆网络对所述音频数据进行基于语义的解码操作，得到时序的解码特征；

基于注意力机制，对时序的解码特征进行编解码，得到编码特征，并通过归一化指数函数得到编码特征对应的多个字符序列的概率分布；

基于所述概率分布，确定多个字符序列对应的语义置信度。

在一种可能的实现方式中，所述对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度，包括：

对所述音频数据进行基于发音音素的解码操作，得到每个解码位置的解码结果，并通过归一化指数函数得到解码结果对应的多个字符的后验概率；

根据所述后验概率，确定多个识别结果对应的语音置信度。

在一种可能的实现方式中，所述根据所述后验概率，确定多个识别结果对应的语音置信度，包括：

根据初始解码位置处的字符的后验概率，选取后验概率高于后验概率阈值的目标字符，分别添加到空白字符后面，得到多个目标序列，并基于所述后验概率得到各目标序列的分数；其中，所述字符包括解码位置处为空白字符的后验概率；

根据下一解码位置处的字符的后验概率，选取后验概率高于后验概率阈值的目标字符，添加到各所述目标序列后面，得到新的目标序列，并基于所述后验概率更新所述目标序列的分数；

针对后续的解码位置，迭代地执行对所述下一解码位置处的字符的步骤，以得到新的各目标序列和分数，直至满足迭代停止条件；

在迭代停止后，将各目标序列中空白字符之间连续的相同字符合并，并去掉空白字符，得到多个识别结果；

根据迭代停止后的目标序列的分数，确定与目标序列对应的识别结果的置信度。

在一种可能的实现方式中，所述根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果，包括：

确定所述待筛选的音频数据的应用场景；

根据所述应用场景，确定与所述应用场景对应的权重系数；

基于所述权重系数，对所述语义置信度和语音置信度进行加权融合，得到融合置信度；

将融合置信度满足置信度条件的识别结果，作为目标识别结果。

在一种可能的实现方式中，所述根据所述应用场景，确定与所述应用场景对应的权重系数，包括：

在基于关键词识别的应用场景中，确定语音置信度的权重系数高于语义置信度的权重系数；所述基于关键词识别的应用场景包括：基于识别到的关键词执行相关指令的场景；

在基于语义理解的应用场景中，确定语义置信度的权重系数高于语音置信度的权重系数；所述基于语义理解的应用场景包括：准确识别说话人表达的语义的场景。

在所述音频数据的应用场景为口语化场景的情况下，确定所述语义置信度的权重系数大于所述语音置信度的权重系数；

在所述音频数据的应用场景为发音标准的正式发言场景的情况下，确定所述语音置信度的权重系数大于所述语义置信度的权重系数。

在一种可能的实现方式中，所述权重系数为预先训练得到的，所述权重系数的确定过程包括：

针对目标应用场景，利用目标场景下预先标注的样本音频数据，确定多个候选权重值对应的语音识别准确率；

将识别准确率最高的权重值，作为所述目标应用场景下的权重系数。

根据本公开的一方面，提供了一种数据筛选标注装置，包括：

音频数据获取模块，用于获取待筛选的音频数据；

第一语音识别模块，用于对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度；

第二语音识别模块，用于对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度；

目标识别结果确定模块，用于根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果；

音频数据筛选及标注模块，用于将所述目标识别结果对应的音频数据作为筛选出的目标音频数据，将目标识别结果作为目标音频数据的标签。

在一种可能的实现方式中，所述第一语音识别模块，用于：

基于所述概率分布，确定多个字符序列对应的语义置信度。

在一种可能的实现方式中，所述第二语音识别模块，用于：

根据所述后验概率，确定多个识别结果对应的语音置信度。

在一种可能的实现方式中，所述第二语音识别模块，用于：

在一种可能的实现方式中，所述目标识别结果确定模块，用于：

确定所述待筛选的音频数据的应用场景；

根据所述应用场景，确定与所述应用场景对应的权重系数；

在一种可能的实现方式中，所述权重系数为预先训练得到的，所述权重系数的确定模块用于：针对目标应用场景，利用目标场景下预先标注的样本音频数据，确定多个候选权重值对应的语音识别准确率；将识别准确率最高的权重值，作为所述目标应用场景下的权重系数。

根据本公开的一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

在本公开实施例中，在获取待筛选的音频数据后；对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度；对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度；根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果；将所述目标识别结果对应的音频数据作为筛选出的目标音频数据，将目标识别结果作为目标音频数据的标签。由此，结合了语义和发音音素两种识别方式，以确定满足置信度条件的目标识别结果，通过基于语义的第一语音识别，理解音频内容的含义，得到语义置信度，而通过基于发音音素的第二语音识别，解析音频中的发音细节，得到语音置信度，通过结合语义置信度和语音置信度，可以更全面地评估每个识别结果的可信度，提高了筛选出的目标音频数据的质量，以及目标音频数据的标签的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1示出根据本公开实施例的数据筛选标注方法的流程图。

图2示出了根据本公开实施例的一种具体应用场景下数据筛选标注过程的示意图。

图3示出根据本公开实施例的数据筛选标注装置的框图。

图4示出根据本公开实施例的一种电子设备的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

在相关技术中，对于大模型的训练，需要对大量的数据进行筛选并标注。而针对标注数据的标注，人工标注虽然精度高，但效率低下，成本也高，不适合大规模的数据处理。而基于现有模型的初步识别虽然快速，但准确率不够。

图1示出根据本公开实施例的数据筛选标注方法的流程图，如图1所示，所述方法包括：

在步骤S11中，获取待筛选的音频数据；

待筛选的音频数据可以是互联网上开源的音频数据，或者是与待训练的大模型的适用场景相关联的音频数据。

对于待筛选的音频数据，可以使用语音活动检测（Voice Activity Detection，VAD）模型对海量无标签长语音数据进行切句处理。VAD模型可以检测语音信号中的活动和非活动部分，活动部分可以是包含说话的音频数据，而非活动部分可以是静音或噪音的音频数据，VAD模型，可以提取出活动部分，然后将提取出的活动部分切分为固定长度的句子（例如每条20s），从而将长音频切分为独立的短音频。

此外，还可以对音频数据进行转码操作，将音频数据的格式统一转码为语音识别模型所支持的格式。

在一个示例中，还可以对音频数据进行语种筛选，根据待训练的大模型所适用的语种，在音频数据中选择特定语种的音频。在一个示例中，还可以对音频数据进行说话人筛选，根据需要选择特定说话人的音频，比如选择特定人的语音样本或者选择特定人群（如儿童、老人、不同地区或文化背景的人）的语音样本。在一个示例中，还可以对音频数据进行使用场景选择，不同的音频场景可能会影响语音的清晰度和可懂度，可以根据需要在音频数据中选择特定场景的音频，如安静的室内环境、嘈杂的室外环境等。以上筛选条件仅为示例，本领域技术人员还可以根据其它条件选择出适合具体需求的音频数据，本公开对此不作限定。

在步骤S12中，对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度；

基于语义的第一语音识别通过分析音频中的词汇和短语，来理解音频内容的含义。对于一段音频数据，识别后会得到多个可能的识别结果，每个结果都对应一个语义置信度，表示该结果与音频内容匹配的可能性。

在一个示例中，会提取音频数据的特征表示，例如，通过提取音频的短时傅里叶变换（STFT）或梅尔频率倒谱系数（MFCC）等特征，得到音频数据的特征表示；然后针对提取的特征表示，进行基于注意力机制的编码，得到编码特征，注意力机制的编码能够结合上下文的语义对特征进行编码；根据编码特征预测每个音素或音节的概率分布；根据该概率分布来得到识别结果的语义置信度。具体过程可参见本公开提供的可能的实现方式，此处不做赘述。

语义置信度是对识别结果的语义层面上的一致性和可信度的度量。语义置信度可以反映识别结果的准确性，置信度较高的识别结果表征模型对识别结果有较高的信心，而置信度较低的识别结果则表征模型对识别结果的可靠性存在疑问。此外，语义置信度可以表征识别结果与上下文的相关性，尤其适用于连续的对话场景。

在步骤S13中，对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度；

语音置信度是基于音频数据中的发音细节（如音素、音节等）得到的置信度。与语义置信度不同，该步骤更关注语音的物理特性，如音高、音长、音强等。第二语音识别是音素级别的识别，音素是根据语音的自然属性划分出来的最小语音单位。一个音素对应于一种特定的音质或声音特征，例如元音和辅音。音素根据发音动作来分析，一个动作构成一个音素。例如，汉语音节“ma”包含“m”和“a”两个发音动作，因此是两个音素。

基于发音因素的第二语音识别也会得到多个可能的识别结果，每个识别结果都对应一个语音置信度。具体确定语音置信度的方式可参见本公开提供的可能的实现方式，此处不做赘述。

在步骤S14中，根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果；

具体确定目标识别结果的方式可以有多种，在一个示例中，可以分别设定语义置信度和语音置信度的阈值，对于每一个音频数据，检查其语义置信度和语音置信度是否都超过阈值，只有当两者都超过阈值时，该识别结果才可以被认为是满足置信度条件的可靠数据。

在另一个示例中，还可以为语义置信度和语音置信度设定不同的权重，基于该权重来计算融合置信度，该权重用于表征两者在决定目标识别结果时的相对重要性。具体地，可以基于该权重来对语义置信度和语音置信度进行加权求和，得到每个识别结果的融合置信度，然后根据融合置信度对所有识别结果进行排序，选择融合置信度最高的识别结果作为满足置信度条件的目标识别结果。

在另一个示例中，还可以计算语义置信度和语音置信度的乘积，得到联合置信度，并根据联合置信度对所有识别结果进行排序，选择联合置信度最高的识别结果作为满足置信度条件的目标识别结果。由此，能够综合考虑语义和语音两个方面的信息，从而更准确地筛选出可靠的目标音频数据。

在步骤S15中，将所述目标识别结果对应的音频数据作为筛选出的目标音频数据，将目标识别结果作为目标音频数据的标签。

在确定出满足置信度条件的目标识别结果后，可以将对应的音频数据作为筛选出的目标音频数据，并将目标识别结果作为这些音频数据的标签，用于后续的大模型训练或进一步的处理。

在一种可能的实现方式中，所述对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度，包括：通过双向长短期记忆网络对所述音频数据进行基于语义的解码操作，得到时序的解码特征；基于注意力机制，对时序的解码特征进行编解码，得到编码特征，并通过归一化指数函数得到编码特征对应的多个字符序列的概率分布；基于所述概率分布，确定多个字符序列对应的语义置信度。

在对语义置信度的计算过程中，主要涉及对音频数据的解码操作、基于注意力机制的编解码、后验概率的计算以及语义置信度的确定。

在对音频数据进行解码操作时，可以利用双向长短期记忆网络（BiLSTM）来解码，BiLSTM是一种深度学习模型，适合处理序列数据，由于音频数据也是序列数据，因此，利用BiLSTM来进行解码，将音频数据转换为一系列的解码特征。解码特征中包含了音频数据中的时间依赖性和动态特性，以便于后续的识别和置信度确定。

在解码过程中，BiLSTM网络逐个处理音频帧或梅尔频率倒谱系数（Mel FrequencyCepstrum Coefficient，MFCC）等特征，逐步生成时序的解码特征。这些解码特征包含了音频数据的语义信息。

在得到解码特征后，可以基于注意力机制对时序解码特征进行进一步的编解码操作，在编解码操作的过程中，会通过编码器（Encoder）对时序解码特征先进行编码，再通过解码器（Decoder）对编码器的输出进行解码，得到解码后的特征。为便于描述，这里将编解码操作的输出描述为编码特征。注意力机制能够聚焦于输入数据中的关键部分，提高识别准确性。

具体地，音频数据的每一帧都可以对应一个解码特征，基于注意力机制计算每个解码特征的权重，该权重融合了解码特征的上下文信息，上下文信息通常包括已经解码出的部分结果、历史状态以及与当前识别词汇相关的音频片段。基于确定的上下文信息，计算每个解码特征的注意力权重。

根据计算出的注意力权重，对解码特征进行加权求和，生成一个加权表示。基于加权表示的解码特征，生成编码特征。编码特征是对解码特征的抽象表示，能够表征目标识别词汇的上下文相关信息。

基于编码特征，使用归一化指数函数将编码特征映射到概率分布，得到各字符的后验概率，该概率分布表示各个字符出现的可能性。

基于概率分布，可以进一步确定多个识别结果对应的语义置信度。语义置信度是根据概率分布中的各后验概率的大小来评估的，后验概率越高，表示模型对识别结果的信心越强。在一个示例中，置信度的计算可以是简单的阈值法，即将后验概率高于阈值的识别结果赋予较高的置信度，而低于阈值的则赋予较低的置信度。此外，对于不同的应用场景，语义置信度的计算方法可能会有所不同。例如，在对话系统中，可以根据对话的流畅性和自然度来评估语义置信度；在语音搜索系统中，可以结合搜索引擎的结果来评估语义置信度。

在本公开实施例中，通过双向长短期记忆网络对所述音频数据进行基于语义的解码操作，得到时序的解码特征；基于注意力机制，对时序的解码特征进行编解码，得到编码特征，并通过归一化指数函数得到编码特征对应的多个字符序列的概率分布；基于所述概率分布，确定多个字符序列对应的语义置信度。由此，通过注意力机制在解码时动态地关注输入语音的不同部分，可以聚焦于语音中的关键信息，使得语义置信度的计算综合考虑了音频特征和上下文信息的相关性，从而提高了置信度计算的准确性。并且，通过将原始的音频数据直接映射到字符序列，无需音素级别的对齐，即可得到字符序列的语义置信度，从而简化了数据处理，尤其适用于处理长度不定的语音序列和复杂的音频数据，进一步提高了置信度计算的准确性，提高了确定的目标音频数据的标签的准确性。

在一种可能的实现方式中，所述对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度，包括：对所述音频数据进行基于发音音素的解码操作，得到每个解码位置的解码结果，并通过归一化指数函数得到解码结果对应的多个字符的后验概率；根据所述后验概率，确定多个识别结果对应的语音置信度。

这里的解码位置可以是音频数据中某个时间段对应的位置，在基于发音音素进行解码操作时，可以使用声学模型（如RNN、LSTM或Transformer等模型）来处理输入的音频数据，声学模型的输出为每个解码位置可能的音素或字符的概率分布。

为了得到解码结果对应的后验概率，可以使用归一化指数函数（如softmax函数）对模型输出的原始概率进行转换。该转换过程使得单个解码位置所有可能的音素或字符的所有后验概率之和为1，转换结果即为该解码位置输出该字符或音素的后验概率。

基于该后验概率，可以得到各解码位置的音素或字符组合后得到的字符序列的分数，该分数可以是字符序列的后验概率，基于字符序列的后验概率，可以得到各字符序列（识别结果）的语音置信度。

在本公开实施例中，通过对所述音频数据进行基于发音音素的解码操作，得到每个解码位置的解码结果，并通过归一化指数函数得到解码结果对应的多个字符的后验概率；根据所述后验概率，确定多个识别结果对应的语音置信度。由此，能够基于发音音素，准确地得到识别结果的语音置信度，提高了确定的目标音频数据的标签的准确性。

在一种可能的实现方式中，所述根据所述后验概率，确定多个识别结果对应的语音置信度，包括：根据初始解码位置处的字符的后验概率，选取后验概率高于后验概率阈值的目标字符，分别添加到空白字符后面，得到多个目标序列，并基于所述后验概率得到各目标序列的分数；其中，所述字符包括解码位置处为空白字符的后验概率；根据下一解码位置处的字符的后验概率，选取后验概率高于后验概率阈值的目标字符，添加到各所述目标序列后面，得到新的目标序列，并基于所述后验概率更新所述目标序列的分数；针对后续的解码位置，迭代地执行对所述下一解码位置处的字符的步骤，以得到新的各目标序列和分数，直至满足迭代停止条件；在迭代停止后，将各目标序列中空白字符之间连续的相同字符合并，并去掉空白字符，得到多个识别结果；根据迭代停止后的目标序列的分数，确定与目标序列对应的识别结果的置信度。

这里的空白字符表示该解码位置不输出任何特定字符，针对音频中的某个解码位置而言，该位置可能是某个特定的音素或者字符，但也可能没有人说话，即没有音素或者特定字符，对于这种位置，可以用空白字符来表示。因此，在预测解码位置中各字符的后验概率时，也会得到空白字符对应的后验概率。

这里的初始解码位置，可以是音频数据中的第一个解码位置，或者是新的一轮迭代开始的第一个解码位置。根据初始解码位置的字符的后验概率，选择后验概率高于后验概率阈值的字符，后验概率阈值可以是预先设定的值，用于过滤掉概率较低的字符，减少后续处理的复杂性。

在初始解码位置处，如果空白字符的后验概率高于后验概率阈值，则将其添加到目标序列的末尾，针对初始解码位置而言，字符是添加到空白字符后面。然后根据目标字符的后验概率，计算目标序列的分数，该分数可以是对后验概率取对数后的结果。

对于下一个解码位置，同样进行上述的目标字符的选择和添加操作，来更新目标序列，以逐步构建出更长的序列。对于添加到目标序列的每个字符，都可以基于其后验概率更新目标序列的分数，对该解码位置的目标字符的后验概率取对数，得到该解码位置的目标字数的分数，并将目标序列中的各分数相乘或取平均值，得到目标序列的分数，目标序列的分数能够从整体上反映新的字符对序列整体可靠性的贡献。

针对后续的解码位置，重复上述步骤，直到满足预先设定的迭代停止条件。在一个示例中，该条件可以是预先设定的最大迭代次数；在另一个示例中，该条件可以是连续设定时间步长都没有有效的字符添加到目标序列，这里的有效的字符可以是非空白字符。在每次迭代中，都会生成新的目标序列和对应的分数。这些序列是所有可能输出的候选序列。

在迭代停止后，可以将连续的相同字符合并为一个字符，并去除所有的空白字符。

最后，根据迭代停止后的目标序列的分数，可以确定与每个目标序列对应的识别结果的置信度。由于目标序列的分数是通过对多个解码位置的字符的后验概率取对数并相乘或取平均得到的，因此，目标序列的分数越高意味着模型对相应输出序列的置信度越高。因此，可以直接将分数作为置信度值，或者采用一个简单的比例转换得到置信度值，例如将分数除以一个常数或者使用线性插值的方法，得到置信度值。

根据初始解码位置处的字符的后验概率，选取后验概率高于后验概率阈值的目标字符，添加到空白字符后面，得到目标序列，并基于所述后验概率得到目标序列的分数；其中，所述字符包括解码位置处为空白字符的后验概率；

在本公开实施例中，通过根据初始解码位置处的字符的后验概率，选取后验概率高于后验概率阈值的目标字符，分别添加到空白字符后面，得到多个目标序列，并基于所述后验概率得到各目标序列的分数；根据下一解码位置处的字符的后验概率，选取后验概率高于后验概率阈值的目标字符，添加到各所述目标序列后面，得到新的目标序列，并基于所述后验概率更新所述目标序列的分数；针对后续的解码位置，迭代地执行对所述下一解码位置处的字符的步骤，以得到新的各目标序列和分数，直至满足迭代停止条件；在迭代停止后，将各目标序列中空白字符之间连续的相同字符合并，并去掉空白字符，得到多个识别结果；根据迭代停止后的目标序列的分数，确定与目标序列对应的识别结果的置信度。由此，通过基于包含空白字符的各字符的后验概率，来确定目标序列的概率，能够提高得到的置信度的准确性，从而提高了确定的目标音频数据的标签的准确性。另外，通过对并对空白字符中间的连续的相同字符进行合并，避免了对说话人同一个音素的重复识别，进一步提高了得到的识别结果的准确性，提高了确定的目标音频数据的标签的准确性。

在一种可能的实现方式中，所述根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果，包括：确定所述待筛选的音频数据的应用场景；根据所述应用场景，确定与所述应用场景对应的权重系数；基于所述权重系数，对所述语义置信度和语音置信度进行加权融合，得到融合置信度；将融合置信度满足置信度条件的识别结果，作为目标识别结果。

音频数据的应用场景，可以是产生音频数据时的特定环境或场合，或者音频数据被使用或发挥作用的特定环境或场合。具体地，应用场景可以是在线直播、在线讲座、实时交流、实时翻译、广播等场景；也可以是语音助手、语音搜索、智能家居控制等场景。应用场景可以是基于预先标记的标识确定的，或者也可以是基于初步识别的识别结果确定的，即基于语音识别，确定对应的应用场景。

在确定音频数据的应用场景后，可以确定与应用场景对应的权重系数，权重系数用于表征该场景下语音置信度和语义置信度的重要程度。

在一个示例中，在基于关键词识别的应用场景中，确定语音置信度的权重系数高于语义置信度的权重系数；所述基于关键词识别的应用场景，包括：基于识别到的关键词执行相关指令的场景，该场景下对识别关键词汇的精准度要求较高，而对整句话的语义的精准度要求较低，例如语音助手、语音搜索、智能家居控制等场景。这些场景中，需要识别用户语音中的关键词，以准确地执行相关的指令。

在一个示例中，在基于语义理解的应用场景中，确定语义置信度的权重系数高于语音置信度的权重系数；所述基于语义理解的应用场景，包括：准确识别说话人表达的语义的场景，该场景下对个别词汇的精准度要求较低，例如在线直播、在线讲座、实时交流、实时翻译、广播等场景。这些场景中，需要识别语音中的语义，以准确地表达说话人所表达的含义，例如，在翻译场景中，对整句话的语义准确度的要求，要高于翻译的个别单词的准确度。

在基于应用场景确定权重系数后，即可对语义置信度和语音置信度进行加权融合。具体的融合方式可以是简单的乘法、加法或更复杂的数学模型。例如，如果某个应用场景下语音置信度的权重为0.7，语义置信度的权重为0.3，那么融合置信度可以通过以下公式计算：融合置信度 = 语义置信度 * 0.3 + 语音置信度 * 0.7。

在确定融合置信度后，可以将满足置信度条件的识别结果作为目标识别结果。例如，将融合置信度最高的识别结果作为目标识别结果。

在本公开实施例中，通过确定所述待筛选的音频数据的应用场景；根据所述应用场景，确定与所述应用场景对应的权重系数；基于所述权重系数，对所述语义置信度和语音置信度进行加权融合，得到融合置信度；将融合置信度满足置信度条件的识别结果，作为目标识别结果。由此，通过基于应用场景调整权重系数，可以更好地平衡和优化语音置信度和语义置信度在特定应用场景下的作用，从而提高了确定的目标音频数据的标签的准确性。

在一种可能的实现方式中，所述根据所述应用场景，确定与所述应用场景对应的权重系数，包括：在所述音频数据的应用场景为口语化场景的情况下，确定所述语义置信度的权重系数大于所述语音置信度的权重系数；在所述音频数据的应用场景为发音标准的正式发言场景的情况下，确定所述语音置信度的权重系数大于所述语义置信度的权重系数。

正式发言场景可以是发音标准的应用场景，例如可以是新闻播报、会议发言等正式场合，在这些场合下，语音信号的质量较高，且说话人的口音和语速较为稳定，此时可以增大语音置信度的权重系数，以便更准确地识别出文字，从而提高了确定的目标音频数据的标签的准确性。

而口语化场景可以是日常的对话场景，或者个人直播的场景，在这些口语化场景下，由于说话人发音可能并不标准，且说话人的口音和语速变化较大，语音信号的质量可能较差，此时可以增大语义置信度的权重系数，而且，在确定语义置信度时，会利用语音的时间信息和上下文信息，能够更加准确地理解说话人的语义，并且能够处理序列长度可变的语音序列，因此，能够准确地识别出文字，从而提高了确定的目标音频数据的标签的准确性。

在一种可能的实现方式中，所述权重系数为预先训练得到的，所述权重系数的确定过程包括：针对目标应用场景，利用目标场景下预先标注的样本音频数据，确定多个候选权重值对应的语音识别准确率；将识别准确率最高的权重值，作为所述目标应用场景下的权重系数。

在该实现方式中，针对目标应用场景，可以预先准备标注的样本音频数据集，该样本音频数据集可以是少量的，该数据集为目标应用场景下收集的音频数据，例如，针对直播场景，可以提前收集相关主播的历史音频数据。并对这些收集的数据进行人工标注，以确保标注的准确性和可靠性。

然后，将样本数据输入用于实现本公开提供的方法的模型中，得到模型输出的目标识别结果。针对模型中的多个候选权重值，分别基于模型输出的目标识别结果与标签计算语音识别准确率，示例性的，针对语义置信度从0.01到0.99，分别计算语音识别准确率，最终得到语音识别率最高的语义置信度。

在本公开实施例中，针对目标应用场景，通过利用目标场景下预先标注的样本音频数据，确定多个候选权重值对应的语音识别准确率；将识别准确率最高的权重值，作为所述目标应用场景下的权重系数。由此，可以基于实际应用场景下的需求来确定权重系数，而不是简单地依赖于经验或假设，这样可以确保权重系数与目标应用场景的特性和需求相匹配，从而提高确定的目标音频数据的标签的准确性。

图2示出了根据本公开实施例的一种具体应用场景下数据筛选标注过程的示意图，如图2所示，利用语音活动检测（Voice activity detection，VAD）模型对海量无标签长语音数据（原始音频）进行切句处理，得到M个短句音频，M为正整数。比如将原始一小时左右的mp3格式的音频，减掉中间静音部分，切分为每条20s内的句子，并转码得到语音识别模型所需要的wav格式。然后，利用语言识别（Language Identification，LID）模型对上述切分好的句子进行语种筛选，保留所需要的语种音频（如中英文）。例如，实际音频中，经常会有韩日等其他语种音频夹杂，通过LID模型可以筛选掉这部分数据。然后，用预训练的语音识别模型（Automatic Speech Recognition，ASR）对上一步保留语音进行初步标注。标注过程中保留语音置信度C1和语义置信度C2。最后，筛选保留语音置信度C1大于阈值A1，同时语义置信度C2大于阈值A2的音频和标签，用于后续语音识别模型的再训练。

在一种可能的实现方式中，所述数据筛选标注方法可通过终端设备和服务器等电子设备执行，终端设备可以为用户设备（User Equipment，UE）、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理（Personal Digital Assistant，PDA）、手持设备、计算设备、车载设备、可穿戴设备等，所述方法可以通过处理器调用存储器中存储的计算机可读指令的方式来执行。

此外，本公开还提供了数据筛选标注装置、电子设备、计算机可读存储介质、程序，上述均可用来实现本公开提供的任一种数据筛选标注方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。

图3示出根据本公开实施例的数据筛选标注装置的框图，如图3所示，所述装置20包括：

音频数据获取模块21，用于获取待筛选的音频数据；

第一语音识别模块22，用于对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度；

第二语音识别模块23，用于对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度；

目标识别结果确定模块24，用于根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果；

音频数据筛选及标注模块25，用于将所述目标识别结果对应的音频数据作为筛选出的目标音频数据，将目标识别结果作为目标音频数据的标签。

在一种可能的实现方式中，所述第一语音识别模块，用于：

基于所述概率分布，确定多个字符序列对应的语义置信度。

在一种可能的实现方式中，所述第二语音识别模块，用于：

根据所述后验概率，确定多个识别结果对应的语音置信度。

在一种可能的实现方式中，所述第二语音识别模块，用于：

确定所述待筛选的音频数据的应用场景；

根据所述应用场景，确定与所述应用场景对应的权重系数；

该方法与计算机系统的内部结构存在特定技术关联，且能够解决如何提升硬件运算效率或执行效果的技术问题（包括减少数据存储量、减少数据传输量、提高硬件处理速度等），从而获得符合自然规律的计算机系统内部性能改进的技术效果。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

电子设备可以被提供为终端、服务器或其它形态的设备。

图4示出根据本公开实施例的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器或终端设备。参照图4，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如微软服务器操作系统（Windows Server^TM），苹果公司推出的基于图形用户界面操作系统(Mac OS X^TM)，多用户多进程的计算机操作系统（Unix^TM）, 自由和开放原代码的类Unix操作系统（Linux^TM），开放原代码的类Unix操作系统（FreeBSD^TM）或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是（但不限于）电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据筛选标注方法，其特征在于，包括：

获取待筛选的音频数据；

将所述目标识别结果对应的音频数据作为筛选出的目标音频数据，将目标识别结果作为目标音频数据的标签；

所述对所述音频数据进行基于语义的第一语音识别，得到多个识别结果及对应的语义置信度，包括：

基于所述概率分布，确定多个字符序列对应的语义置信度；

所述对所述音频数据进行基于发音音素的第二语音识别，得到多个识别结果及对应的语音置信度，包括：

根据所述后验概率，确定多个识别结果对应的语音置信度。

2.根据权利要求1所述的方法，其特征在于，所述根据所述后验概率，确定多个识别结果对应的语音置信度，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述语义置信度和所述语音置信度，确定满足置信度条件的目标识别结果，包括：

确定所述待筛选的音频数据的应用场景；

根据所述应用场景，确定与所述应用场景对应的权重系数；

4.根据权利要求3所述的方法，其特征在于，所述根据所述应用场景，确定与所述应用场景对应的权重系数，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述应用场景，确定与所述应用场景对应的权重系数，包括：

6.根据权利要求3所述的方法，其特征在于，所述权重系数为预先训练得到的，所述权重系数的确定过程包括：

7.一种数据筛选标注装置，其特征在于，包括：

音频数据获取模块，用于获取待筛选的音频数据；

音频数据筛选及标注模块，用于将所述目标识别结果对应的音频数据作为筛选出的目标音频数据，将目标识别结果作为目标音频数据的标签；

所述第一语音识别模块，用于：

基于所述概率分布，确定多个字符序列对应的语义置信度；

所述第二语音识别模块，用于：

根据所述后验概率，确定多个识别结果对应的语音置信度。

8.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以实现权利要求1至6中任意一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至6中任意一项所述的方法。