CN115424616A

CN115424616A - 一种音频数据筛选方法、装置、设备及计算机可读介质

Info

Publication number: CN115424616A
Application number: CN202110518510.8A
Authority: CN
Inventors: 雷延强; 叶珑
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2022-12-02

Abstract

本申请公开了一种音频数据筛选方法、装置、设备及计算机可读介质，涉及音频处理技术领域，包括：获取音频数据集，音频数据集包括多条音频数据以及每条音频数据对应的文本数据；将音频数据和相应的文本数据对齐，得到包含各第一音素以及第一发音概率的第一序列；对音频数据进行语音识别，得到包含各第二音素以及第二发音概率的第二序列，根据第一序列、第一发音概率、第二序列和第二发音概率确定文本数据中每个文本在音频数据中的第三发音概率；根据第三发音概率，在音频数据集中筛选出目标音频数据以及对应的目标标注文本构建音频训练集。采用上述方法可以解决人为构造的标注文本易出现错误而影响声学模型的训练效果的技术问题。

Description

一种音频数据筛选方法、装置、设备及计算机可读介质

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频数据筛选方法、装置、设备及计算机可读介质。

背景技术

语音识别技术，也被称为自动语音识别，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者文本符序列。目前，随着语音识别技术的发展，语音识别技术正在慢慢渗透进人们的日常生活之中。

语音识别技术的实现，离不开声学模型。声学模型是语音识别模型中用于识别声音的模型，对声学模型的训练，需要用到大量的训练数据，一般而言，训练数据包括大量的语音数据及对应的标注文本，其中，标注文本是与语音数据中的语音内容相对应的文本标注。目前，构造标注文本是人为进行的，在标注的过程中难免会出现错漏，使得标注文本出现人为不明确的错误。此时，在对声学模型进行训练的过程中，由于训练数据中存在人为不明确错误的标注文本，因此，会导致声学模型学习错误的标注文本而影响自身声学模型的训练效果。

发明内容

本申请提供了一种音频数据筛选方法、装置、设备及计算机可读介质，用于解决人为构造的标注文本易出现错误而影响声学模型的训练效果的技术问题。

第一方面，本申请实施例提供了一种音频数据筛选方法，包括：

获取音频数据集，所述音频数据集包括多条音频数据以及每条所述音频数据对应的文本数据；

将所述音频数据和相应的文本数据对齐后，得到每个第一音素的第一发音概率和包含各所述第一音素的第一序列，所述第一音素为文本数据中的音素，所述第一序列还包含各所述第一音素在所述音频数据中的第一起止时间；

对所述音频数据进行语音识别后，得到每个第二音素的第二发音概率和包含各所述第二音素的第二序列，所述第二音素为识别所述音频数据后得到的音素；

根据所述第一序列、所述第一发音概率、所述第二序列和所述第二发音概率确定所述文本数据中每个文本在所述音频数据中的第三发音概率；

根据所述第三发音概率，在所述音频数据集中筛选出目标音频数据以及对应的目标文本数据，所述目标音频数据集和所述目标文本数据组成音频训练集。

第二方面，本申请实施例提供了一种音频数据筛选装置，所述装置包括：

数据集获取模块，用于获取音频数据集，所述音频数据集包括多条音频数据以及每条所述音频数据对应的文本数据；

对齐模块，用于将所述音频数据和相应的文本数据对齐后，得到每个第一音素的第一发音概率和包含各所述第一音素的第一序列，所述第一音素为文本数据中的音素，所述第一序列还包含各所述第一音素在所述音频数据中的第一起止时间；

识别模块，用于对所述音频数据进行语音识别后，得到每个第二音素的第二发音概率和包含各所述第二音素的第二序列，所述第二音素为识别所述音频数据后得到的音素；

发音概率确定模块，用于根据所述第一序列、所述第一发音概率、所述第二序列和所述第二发音概率确定所述文本数据中每个文本在所述音频数据中的第三发音概率；

音频数据筛选模块，用于根据所述第三发音概率，在所述音频数据集中筛选出目标音频数据以及对应的目标文本数据，所述目标音频数据集和所述目标文本数据组成音频训练集。

第三方面，本申请实施例提供了一种音频数据筛选设备，包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如第一方面所述的音频数据筛选方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上储存有计算机程序，该程序被处理器执行时实现如第一方面所述的音频数据筛选方法。

上述音频数据筛选方法、装置、设备及计算机可读介质，首先通过获取包括多条音频数据以及对应文本数据的音频数据集，之后，对齐音频数据和相应的文本数据，以得到文本数据中每个第一音素的第一发音概率和包含各第一音素以及第一音素在音频数据中第一起止时间的第一序列；对音频数据进行语音识别，以识别得到音频数据中每个第二音素的第二发音概率和包含各第二音素以及第二音素在音频数据中的第二序列，之后，根据第一序列、第一发音概率、第二序列和第二发音概率确定文本数据中每个文本在音频数据中的第三发音概率，进而根据第三发音概率，在音频数据集中筛选出可被构造音频训练集的目标音频数据以及对应的目标标注文本的技术手段，解决了人为构造的标注文本易出现错误而影响声学模型的训练效果的技术问题。通过对齐音频数据和相应的文本数据，可以确定文本数据中各第一音素出现在音频数据的第一发音概率以及第一起止时间，通过识别音频数据，可以识别音频数据中出现的第二音素，以及第二音素出现在音频数据的第二发音概率，之后，结合上述参数确定文本数据中各文本出现在音频数据中的第三发音概率，即确定文本数据与音频数据是否相一致，此时，即使文本数据出现错误，也可以通过第三发音概率体现出来，进而可以明确文本数据和音频数据的质量，之后，选择出合适的目标文本数据和目标音频数据构造音频训练集，以利用音频数据集训练声学模型时，保证声学模型的训练效果。

附图说明

图1为本申请实施例提供的一种音频数据筛选方法的流程图。

图2为本申请实施例提供的一种音频数据筛选方法的流程图。

图3为本申请实施例提供的一种对齐网络模型的工作原理图。

图4为本申请实施例提供的一种音频数据筛选装置的结构示意图。

图5为本申请实施例提供的一种音频数据筛选设备的结构示意图。

具体实施方式

以下描述和附图充分地示出本申请的具体实施方案，以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本申请的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，各实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中，诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来，而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的结构、产品等而言，由于其与实施例公开的部分相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本申请实施例中提供的音频数据筛选方法可以由音频数据筛选设备执行，该音频数据筛选设备可以通过软件和/或硬件的方式实现，该音频数据筛选设备可以是两个或多个物理实体构成，也可以由一个物理实体构成。例如，音频数据筛选设备可以是计算机、平板、智能手机以及服务器等能够直接对数据进行处理的设备。

图1为本申请实施例提供的一种音频数据筛选方法的流程图，如图1所示，音频数据筛选方法包括：

步骤101、获取音频数据集，音频数据集包括多条音频数据以及每条音频数据对应的文本数据。

一般的，音频是多媒体中的一种重要的媒体，是声音信号的形式，作为一种信息的载体，音频可分为语音、音乐和其它声音三种类型，实施例中，以音频为语音类型进行描述。音频数据，即数字化的声音数据，对声音数据进行数字化即可得到音频数据。对声音数据进行数字化具体是以一定的频率对来自麦克风等设备的模拟音频信号进行模数转换，得到音频数据。文本数据，即包含有文本的数据，文本可以是英文单词、汉字、不作为数值使用的数字和其他可输入的文本符。

每条音频数据对应的文本数据，是指对音频数据中音频内容进行文本标注而生成的文本数据。示例性的，在用户说出“我是中国人”的过程中进行录音，得到音频内容为“我是中国人”的音频数据，构建一个包含有“我是中国人”文本内容的文本数据，此时，音频数据和文本数据相对应。可理解的，在本实施例中，对每条音频数据中音频内容与每条音频数据对应的文本数据中文本内容不做具体限制。

多条音频数据以及每条音频数据对应的文本数据的集合构成了音频数据集，可理解的，音频数据以及每条音频数据对应的文本数据的数量可根据实际需要选择，在本实施例中不对音频数据以及文本数据的数量进行具体限定。对音频数据集的获取，可以是通过网络获取现有的音频数据集，也可以是获取事先构建好的数据集，在本实施例中对音频数据集的获取方式不做具体限定。一个实施例中，预先采集音频数据集中的音频数据，之后，根据音频数据人工构建对应的文本数据。可理解，在人工构建文本数据的过程中，文本数据可能出现错误，即会出现音频数据和对应的文本数据不一致的情况。

步骤102、将音频数据和相应的文本数据对齐后，得到每个第一音素的第一发音概率和包含各第一音素的第一序列，第一音素为文本数据中的音素，第一序列还包含各第一音素在音频数据中的第一起止时间。

实施例中，音频数据由音频帧构成，每个音频帧可以认为是一个播放时刻。

对齐是指将音频数据中的音频内容与相应的文本数据中的文本内容根据出现的时间进行对齐。例如，音频数据中的音频内容为“我是中国人”，文本数据中的文本内容同样也是“我是中国人”，如果“我”文本在音频数据中的播放时刻为第3个音频帧至第13个音频帧，则将文本数据中的“我”文本与音频数据第3个音频帧至第13个音频帧相对应。实施例中，对齐具体是将文本数据中每个文本的音素与音频数据中该音素出现的播放时刻进行对齐。其中，音素，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素，音素分为元音与辅音两大类。

示例性的，将音频数据和文本数据对齐后，可以得到文本数据中每个音素在音频数据中出现的起止时间，实施例中，将文本数据中每个音素记为第一音素，将第一音素对应的起止时间记为第一起止时间，并将各第一音素以及相应的第一起止时间组成的序列记为第一序列。其中，第一序列中各第一音素按照在文本数据中出现的先后顺序进行排列，并且每个第一音素对应一个第一起止时间。第一起止时间可包括第一音素在音频数据播放的过程中开始发音的音频帧对应的播放时刻以及结束发音的音频帧对应的播放时刻。举例而言，文本数据的文本内容为“一个”，对应的音频数据的音频内容同样是“一个”，则对齐后得到的第一音素为：yh i g e，通过帧数来表示播放时刻，即每个播放时刻对应一个音频帧，此时，假设音频数据的帧数为30帧，对齐后yh在音频数据中出现的帧数为第6帧到第10帧，i在音频数据中出现的帧数为第11帧到第13帧，g在音频数据中出现的帧数为第14帧到第18帧，e在音频数据中出现的帧数为第19帧到第23帧，将没有音素的帧数认为是静音帧，并用sil表示，则第一序列为：

其中第一音素的上下标表示第一音素的第一起止时间，在第一序列中，每一第一音素都包含有一个第一发音概率。可理解，文本数据中出现重复的第一音素时，重复的第一音素互相独立，且均存在对应的第一发音概率和第一起止时间。

示例性的，将音频数据和文本数据对齐后，还可以得到文本数据中每个音素在音频数据中的发音概率，发音概率也可以理解为音频数据发音为该音素的可能性。实施例中，将第一音素对应的发音概率记为第一发音概率，每个第一音素在对应的每个音频帧下存在一个发音概率，即第一发音概率可理解为音频数据中当前音频帧发音的音素为当前第一音素的概率。可理解，第一发音概率越大，说明当前音频帧发音为第一音素的概率越大。

进一步的，对齐音频数据和文本数据的方式可以根据实际情况设定，例如，实施例中，利用声学模型和WFST(Weighted Finite State Transducers)网络实现对齐。其中，声学模型，是语音识别模型中用于识别声音的模型，可选的，声学模型通过利用音频数据集训练得到。一个实施例中，声学模型采用传统的GMM-HMM或DNN-HMM结构；在GMM-HMM结构中，GMM(高斯混合模型)用来对语音的观察概率进行建模，HMM(隐马尔可夫模型)则对语音的时序进行建模；在DNN-HMM结构中，DNN(深度神经网络模型)替换了GMM来对输入语音的观察概率进行建模。需要说明的是，马尔可夫模型是一个离散时域有限状态自动机，隐马尔可夫模型是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。用隐马尔可夫模型刻画语音信号需作出两个假设，一个假设是内部状态的转移只与上一状态有关，另一个假设是输出值只与当前状态(或当前的状态转移)有关，通过这两个假设大大降低了声学模型的复杂度。WFST网络也记为有限加权状态转换机，每个文本数据均有对应的WFST网络，以实现该文本数据与对应音频数据的对齐。示例性的，在对齐时，首先从音频数据中提取出各音频帧的音频特征，之后，利用声学模型识别音频特征以确定音频帧可能发音的各音素以及发音为各音素的概率，之后，将各个音频帧可能发音的各音素以及对应的概率输入到文本数据对应的WFST网络中，使得WFST网络输出音频数据中各音频帧对应的第一音素，之后，根据各音频帧对应的第一音素以及各音频帧的播放时刻得到第一序列，在得到第一序列以后，可以计算第一音素在对应音频帧中的第一发音概率，即将该音频帧发音为第一音素的概率作为第一音素的第一发音概率。

步骤103、对音频数据进行语音识别后，得到每个第二音素的第二发音概率和包含各第二音素的第二序列，第二音素为识别音频数据后得到的音素。

语音识别是指识别音频数据中的音频内容，进而根据音频内容可以明确对应的文本内容，例如，对音频内容为“我是中国人”的音频数据进行识别，可以明确音频内容为“我是中国人”的音频。实施例中，进行语音识别的过程中，需要先识别音频数据中每个音频帧中发音的音素。实施例中，将识别得到的音频数据中每个音频帧发音的音素记为第二音素。示例性的，音频数据为“一个”，进行语音识别后得到的第二音素为：yh i，则第二序列为：yhi。可理解，当音频数据中存在重复的第二音素时，重复的第二音素相独立。可选的，第二音素序列中还包含有第二起止时间，第二起止时间表示第二音素在音频数据中的起止时间。

进一步的，语音识别后还可以得到每个第二音素对应的发音概率，实施例中，将该发音概率记为第二发音概率，其中，第二发音概率可理解为音频数据当前音频帧发音为第二音素的概率。在第二序列中，第二音素在其对应的每个音频帧下都有对应的第二发音概率，第二发音概率越大说明当前音频帧发音为识别的第二音素的概率越大。

进一步的，对音频数据进行语音识别的方式可以根据实际情况设定，例如，实施例中，利用声学模型和识别网络模型实现音频数据的语音识别，识别网络模型同样是一种WFST网络，各音频数据共用一个识别网络模型。示例性的，在进行识别时，首先从音频数据中提取出各音频帧的音频特征，之后，利用声学模型识别音频特征以确定音频帧可能发音的各音素以及发音为各音素的概率。可理解，实际应用中，可以直接使用对齐过程中提取的音频特征以及确定的音频帧可能发音的各音素以及发音为各音素的概率。之后，将各个音频帧可能发音的各音素以及发音为各音素的概率作为输入信息，输入到预先构建好的识别网络模型中，使得识别网络模型输出音频数据中各音频帧对应的第二音素，之后，根据各音频帧对应的第二音素以及各音频帧的播放时刻得到第二序列，在得到第二序列以后，可以计算第二音素在对应音频帧中的第二发音概率，即将该音频帧发音为第二音素的概率作为第一音素的第一发音概率。

步骤104、根据第一序列、第一发音概率、第二序列和第二发音概率确定文本数据中每个文本在音频数据中的第三发音概率。

示例性的，文本数据包含中文时，一个文本可理解为一个中文文字，文本数据包含英文时，一个文本可以理解为一个英文单词，文本数据包含数字时，一个文本可理解为一个数字。

其中，第三发音概率为文本数据中每个文本在音频数据中的发音概率，第三发音概率越高，该文本标注正确的概率越大；第三发音概率越低，该文本标注正确的概率越小，即通过各文本的第三发音概率可以确定音频数据和文本数据是否相一致，进而确定音频数据和文本数据的质量。在一个实施例中，可以根据第一序列，确定文本在音频数据中出现的起止时间，即根据文本中包含的第一音素对应的第一起止时间确定文本的起止时间。之后，获取该起止时间内各第一音素的第一发音概率，以及在第二序列中确定该起止时间内的各第二音素，进而得到的各第二音素的第二发音概率，之后，根据该起止时间内各第一音素的第一发音概率和各第二音素的第二发音概率得到该文本的第三发音概率。可理解，第三发音概率的计算手段可以根据实际情况设定。例如，计算同一发音时刻第一发音概率和第二发音概率的比值，之后，计算文本的起止时间内比值的平均值，并将该平均值作为第三发音概率，此时，文本数据中每个文本对应一个第三发音概率。

步骤105、根据第三发音概率，在音频数据集中筛选出目标音频数据以及对应的目标文本数据，目标音频数据集和目标文本数据组成音频训练集。

训练集，是指用于训练模型的数据样本，该模型用于机器学习，例如该模型可以为神经网络模型等。一个实施例中，音频训练集是指用于训练声学模型的训练集，音频训练集由音频数据和对应的文本数据组成。可理解，声学模型可以识别音频特征以得到对应的声学分数。本实施例中，在声学模型训练完成后，再利用筛选后的音频训练集对声学模型进行再次训练，以提高声学模型的训练精确度。

由于第三发音概率可以体现文本数据中每个文本在音频数据中被发音(即出现)的概率，因此可根据第三发音概率在音频数据集中筛选出目标音频数据以及对应的目标文本数据，其中，目标音频数据和目标文本数据是指满足构造音频训练集要求的音频数据和文本数据，根据目标音频数据和目标文本数据构造的音频训练集训练声学模型时，可以得到比较好的训练效果。在一个实施例中，对于任意一个文本数据而言，若其中每个文本的第三发音概率都很高，则说明该文本数据与音频数据内容一致可能性很高，即文本数据被标注正确的概率越大，若其中部分文本的第三发音概率很低，则说明该文本数据与音频数据内容一致的可能性比较低，即文本数据被标注正确的概率越小。因此，可以根据文本数据中每个文本的第三发音概率在音频数据集中选择内容比较一致的文本数据和音频数据作为目标文本数据和目标音频数据。可选的，选择内容比较一致的文本数据和音频数据时，可以是在音频数据集中找到每个文本的第三发音概率都高于一定阈值的文本数据，该阈值可以根据实际情况，第三发音概率高于该阈值时说明对应文本标注正确的概率大，然后，在找到的文本数据中，删除部分文本数据，可理解，声学模型学习内容一致的音频数据和文本数据，不需要过多的数据量，便可以达到稳定的学习效果，因此，实施例中，在音频数据集中，删除内容一致的部分文本数据和对应的音频数据，以减小数据处理量。在上述基础上，选择内容比较一致的文本数据和音频数据时，还可以是在音频数据集中找到被认为是标注错误的文本数据，该文本数据中部分文本的第三发音概率远低于上述阈值，之后，在音频数据集中删除标注错误的文本数据和对应的音频数据，之后，将音频数据集中保留的音频数据和文本数据作为目标音频数据和目标文本数据。需说明，一般而言，不存在文本数据中各文本的第三发音概率都很低，如果存在文本数据中各文本的第三发音概率都很低，则也删除该文本数据和对应的音频数据。

上述，首先通过获取包括多条音频数据以及对应文本数据的音频数据集，之后，对齐音频数据和相应的文本数据，以得到文本数据中每个第一音素的第一发音概率和包含各第一音素以及第一音素在音频数据中第一起止时间的第一序列；对音频数据进行语音识别，以识别得到音频数据中每个第二音素的第二发音概率和包含各第二音素的第二序列，之后，根据第一序列、第一发音概率、第二序列和第二发音概率确定文本数据中每个文本在音频数据中的第三发音概率，进而根据第三发音概率，在音频数据集中筛选出可被构造音频训练集的目标音频数据以及对应的目标标注文本的技术手段，解决了人为构造的标注文本易出现错误而影响声学模型的训练效果的技术问题。通过对齐音频数据和相应的文本数据，可以确定文本数据中各第一音素出现在音频数据的第一发音概率以及第一起止时间，通过识别音频数据，可以识别音频数据中出现的第二音素，以及第二音素出现在音频数据的第二发音概率，之后，结合上述参数确定文本数据中各文本出现在音频数据中的第三发音概率，即确定文本数据与音频数据是否相一致，此时，即使文本数据出现错误，也可以通过第三发音概率体现出来，进而可以明确文本数据和音频数据的质量，之后，选择出合适的目标文本数据和目标音频数据构造音频训练集，以利用音频数据集训练声学模型时，保证声学模型的训练效果。

图2为本申请实施例提供的一种音频数据筛选方法的流程图，该音频数据筛选方法是在上述实施例的基础上进行具体化。如图2所示，音频数据筛选方法包括：

步骤201、获取音频数据集，音频数据集包括多条音频数据以及每条音频数据对应的文本数据。

在一个实施例中，在数据库中获取已经构造完成的音频数据集，音频数据集包括多条音频数据以及每条音频数据对应的文本数据。

步骤202、提取音频数据中各音频帧的音频特征。

音频特征是指音频数据的特征，音频特征可包括MFCC，FBANK以及PLP等特征。其中，MFCC表示梅尔频率倒谱系数，是在Mel标度频率域提取出来的倒谱参数，是一种在自动语音和说话人识别中广泛使用的特征。FBANK为FilterBank，由于人耳对声音频谱的响应是非线性的，FBANK就是一种获得语音信号的FBANK特征的前端处理算法，类似于人耳的方式对音频进行处理，FBANK特征可以提高语音识别的性能。PLP表示线性预测分析特征，一个语音的采样能够用过去若干个语音采样的线性组合来逼近，通过线性预测到的采样在最小均方误差意义上逼近实际语音采样，可以求取一组唯一的预测系数。音频特征可以从音频数据中提取后得到，其具体的提取方式实施例不作限定。

步骤203、根据音频特征计算相应音频帧的声学分数，声学分数用于表示音频帧属于各预设音素的概率，预设音素包括第一音素和第二音素。

在得到音频数据中各音频帧的音频特征后，可根据各音频帧的音频特征计算各音频帧的声学分数，每个音频帧对应一个声学分数，声学分数可以用于体现该音频帧发音的音素属于各预设音素的概率。其中，预设音素为预先设置的音频中可能出现的音素，在一个实施例中，预设音素至少包括第一音素和第二音素，可理解，第一音素和第二音素中存在相同的音素。可选的，声学分数可以通过矩阵的形式表示，该矩阵示出各音素以及对应的概率。在一个实施例中，使用声学模型计算各音频帧的声学分数，因此，本步骤可以具体包括：将音频特征输入至预先构建的声学模型中，以使声学模型输出音频特征对应的声学分数，声学分数表示音频帧属于各预设音素的概率，预设音素包括第一音素和第二音素。

一个实施例中，利用声学模型得到各音频特征的声学分数，此时，将音频特征输入至声学模型后，声学模型识别音频特征以确定相应音频帧中发音的音素属于各预设音素的概率。此时，属于各预设音素的概率便可以记为声学分数。需或说明，本步骤使用的声学模型为预先使用其他音频数据集(非本实施例中提及的音频训练集)训练得到的声学模型，其中，训练声学模型的过程实施例不作限定。可选的，声学模型采用传统的GMM-HMM或DNN-HMM结构，其具体的模型结构和模型参数实施例不作限定。

步骤204、根据声学分数以及文本数据得到每个第一音素的第一发音概率和包含各第一音素的第一序列。

在得到音频数据中各音频帧的声学分数后，可根据声学分数以及文本数据得到第一序列以及第一发音概率。在一个实施例中，根据声学分数确定音频数据中发音为第一音素的音频帧，进而实现与对应文本数据中的第一音素进行对齐，并根据对齐结果得到第一音素的第一起止时间，之后，由各第一音素以及相应的第一起止时间组成第一序列，之后，确定第一起止时间内各音频帧下第一音素在声学分数中的概率并作为第一发音概率。

实施例中，本步骤可具体包括步骤2041-步骤2043：

步骤2041、获取文本数据的对齐网络模型，每个文本数据对应一个对齐网络模型。

对齐网络模型用于实现对齐文本数据和音频数据。实施例中，采用WFST网络作为对齐网络模型，并且，每一条文本数据对应一个对齐网络模型。

示例性的，对于每一条文本数据，经过离线编译生成可以生成对应的对齐网络模型，本步骤中，可以直接获取离线生成的对齐网络模型，其中，对齐网络模型的生成规则实施例不作限定。可理解的，由于对齐网络模型用于将音频数据和文本数据进行对齐，因此，对齐网络模型的具体结构和模型参数可以根据文本数据设定，以使得音频数据和文本数据可以对齐。

步骤2042、将各音频帧的声学分数作为输入信息并输入至相应的对齐网络模型，以得到包含各第一音素的第一序列，第一音素为文本数据中的音素，第一序列还包含各第一音素在音频数据中的第一起止时间。

在一个实施例中，获取文本数据的对齐网络模型后，将对应音频数据中各音频帧的声学分数输入至对齐网络模型中，实施例中，获取离线编译生成的对齐网络模型后，将相应声学分数输入到相应的对齐网络模型后，对齐网络模型能够根据声学分数确定文本数据中各第一音素出现在音频数据的哪个音频帧中，进而生成一条音素序列，该音素序列将文本数据中的第一音素按照相应音频帧的前后顺序进行排列，其中，对齐网络模型在处理过程中，利用维特比搜索方法得到音素序列。需说明，维特比搜索方法也可以理解为维特比算法。可理解，音频数据除了声音外，会出现静音、空等情况，此时，可以设置静音、空等情况对应的音素，并在构建对齐网络模型时同时参考上述音素，以使得生成的音素序列中除了包含第一音素外还包括表示静音、空等情况的音素。之后，根据音素序列中各音素对应的音频帧，得到第一音素的第一起止时间，进而构成第一序列。举例而言，若文本数据中的文本内容为“我们”，则第一音素包括w o3 m en1，对齐网络模型如图3所示，该对齐网络模型是根据“我们”构建的WFST网络，该WFST网络还可以明确静音的音素和空的音素。在图3中，对齐网络模型的每一条边上都有“input：output/weight”三个值，分别表示输入、输出、以及权重，Sil表示静音音素，eps表示空音素。可理解，对齐网络模型中的节点可能有自循环的路径，如图3中第二个节点具有自循环的路径，当w的发音时间较长时，第二个节点自循环的路径能够吸收多个音频帧。对齐网络模型在工作时，每一个节点根据路径的方向往下一个节点移动，在移动的过程中需要结合音频帧的声学分数。例如，以音频数据和文本数据均为“我们”进行示例性描述。将包含“我们”的音频数据进行特征提取，得到音频特征，将音频特征输入到声学模型中计算声学分数，之后，将计算得到的声学分数作为输入信息输入到文本数据对应的对齐网络模型中。对齐网络模型中的第一个节点沿着第一条路径向第二个节点移动的过程中，需要音频帧的声学分数P(o|w)，其中，o为当前音频帧的音频特征，w为对应的音素，对于对齐网络模型的第一条路径而言，w也可理解为第一条路径上的发音单元，该发音单元也可理解为音素，P(o|w)表示当前音频帧发音为当前路径发音单元的概率。在节点移动的过程中，将声学分数P(o|w)与第一条路径上的权重“weight”进行加权求和，得到到达第二节点的总分数，如果总分数在合理的范围(该范围可根据实际情况设定)内，说明该条路径为可行路径，则保留该总分数。当所有音频帧的声学分数在对齐网络模型中都使用完毕后，计算每一个节点出现的总分数，根据总分数选择出从第一个节点到最后一个节点的最优路径，最优路径中输入每个节点的音素即为发音音素，获取最优路径中每一个节点的输入的音素，生成输入序列并进行对齐。例如，图3中，输入序列经过对齐网络模型对齐后为w w w w w o3 o3 o3 sil sil m m m en1 en1 en1，一共16帧，音频数据中第一帧到第五帧对应的音素为w，第六帧到第八帧对应的音素为o3，第九帧和第十帧为静音。第十一帧到第十三帧对应的音素为m，第十四帧到第十六帧对应的音素为en1，从而完成对齐过程，生成第一序列为：

步骤2043、根据声学分数确定各第一音素在相应第一起止时间内每一时刻的第一发音概率。

在一个实施例中，得到第一序列后，根据音频帧对应的声学分数便可以确定该音频帧属于第一音素的概率，之后，将该概率作为第一音素在该音频帧下的第一发音概率，按照上述方式便可以确定每个第一音素在对应第一起止时间内各音频帧(即各时刻)下的第一发音概率，举例而言，某个第一音频的第一起止时间为第5帧对应的时刻和第10帧对应的时刻，那么，第一音频在第5帧至第10帧内的每个时刻均有对应的第一发音概率。在本实施例中，将第一发音概率表示为P₁(p_t|f_t)，其中，p_t为第t时刻对应的第一音素，f_t为第t时刻的音频帧对应的音频特征，P₁(p_t|f_t)表示根据f_t确定第t时刻的音素为p_t的概率。

可理解，实施例中，通过声学模型和对齐网络模型组成了对齐过程所需要的网络模型。

步骤205、提取音频数据中各音频帧的音频特征。

步骤206、根据音频特征计算相应音频帧的声学分数，声学分数用于表示音频帧属于各预设音素的概率，预设音素包括第一音素和第二音素。

可理解，步骤205和步骤206与步骤202和步骤203为相同的流程。实际应用中，也可以不执行步骤205和步骤206，而是直接使用步骤202和步骤203，此时，即执行步骤202和步骤203后同时或顺序执行步骤204和步骤207。

步骤207、根据音频帧的声学分数得到每个第二音素的第二发音概率和包含各第二音素的第二序列。

在得到音频数据中各音频帧的声学分数后，可根据声学分数得到第二序列和第二发音概率。在一个实施例中，可以利用预先构建的识别网络模型对声学分数进行识别，以得到音频数据中各音频帧发音可能性最高的第二音素，进而得到第二序列。语音识别后还可以得到每个第二音素对应的发音概率，即第二发音概率。

一个实施例中，本步骤具体包括步骤2071-步骤2072：

步骤2071、将各音频帧的声学分数作为输入信息并输入至预先构建的识别网络模型，以使得到包含各第二音素的第二序列，第二音素为识别音频数据后得到的音素。

识别网络模型用于识别音频数据中各音频帧对应的第二音素，一个实施例中，采用WFST网络作为识别网络模型，并且，各音频数据共用一个识别网络模型。一个实施例中，在构建识别网络模型的过程中，首先需要通过大量的音频数据和其包含的各音素训练得到识别网络模型。在使用过程中，将音频数据中各音频帧的声学分数输入识别网络模型中，以生成一个音素序列，该音素序列用于按照播放时刻依次描述各音频帧对应的第二音素，根据该音素序列可以得到第二序列。可理解，识别网络模型和对齐网络模型均为WFST网络，并且，两个网络模型进行处理时的原理相同，实施例对此不作赘述。需说明，由于识别网络模型可识别大量的音频数据，而对齐网络模型仅处理与相应文本数据对应的音频数据，因此，识别网络模型远大于对齐网络模型。一个实施例中，识别网络模型在对音频数据的识别过程中并没有文本数据进行对照，仅是对音频数据进行识别的结果。因此，基于识别网络模型确定的第二序列可能与基于对齐网络模型确定的第一序列不同。举例而言，若音频数据为“我”，对应的文本数据为“我们”，识别网络模型对其识别后没有识别到“们”对应的第二音素，因此，其输出的第二序列的结果是w o3，经过对齐网络模型处理音频数据时得到的第一序列

此时，第二序列与第一序列中出现的音素并不相等。

可理解，将识别网络模型和声学模型进行组合得到对音频数据进行语音识别得到第二序列时需要的网络模型。

步骤2072、根据声学分数确定各第二音素在相应时刻内的第二发音概率。

在一个实施例中，得到第二序列后，根据音频帧对应的声学分数便可以确定该音频帧属于第二音素的概率，之后，将该概率作为第二音素在该音频帧下的第二发音概率，按照上述方式便可以确定每个第二音素在对应各音频帧(即各时刻)下的第二发音概率。在本实施例中，将第二发音概率表示为P₂(q_t|f_t)，其中，q_t为第t时刻对应的第二音素，f_t为第t时刻的音频帧对应的音频特征，P₂(q_t|f_t)为通过f_t确定第t时刻为q_t的概率。

步骤208、根据第一序列中各第一音素的第一起止时间，确定文本数据中每个文本在音频数据中的第三起止时间。

第三起止时间包括文本数据中相应文本在音频数据播放的过程中开始发音的时间以及结束发音的时间。在一个实施例中，在得到第一序列中各第一音素的第一起止时间后，根据文本数据中每个文本包含的第一音素可以确定每个文本在音频数据中的起止时间，即第三起止时间。示例性的，若文本数据中的文本内容为“我们”，第一序列为

由于“我”文本包含的第一音素为w和o3，即根据w和o3的第一起止时间即可确定“我”文本的第三起止时间，因此可以得到“我”文本的在音频数据中的第三起止时间即为第一帧到第八帧。

步骤209、根据第三起止时间内第一音素的第一发音概率和第三起止时间内第二音素的第二发音概率确定文本的第三发音概率，第三起止时间内的第二音素通过第二序列确定。

在一个实施例中，在得到每个文本在音频数据中的第三起止时间后，即可在第一序列中确定第三起止时间内各第一音素的第一发音概率，并在第二序列中确定第三起止时间内各第二音素的第二发音概率。一个实施例中，可以根据第三起止时间对第一序列和第二序列进行切分，举例而言，某个文本的第三起止时间为第10帧至第28帧，此时，对第一序列和第二序列进行切分时，将两个序列中的第10帧至第28帧作为一组切分结果，并与该文本相对应。

之后，根据第一发音概率和第二发音概率计算文本在音频数据中的第三发音概率。在一个实施例中，第三发音概率的计算公式为：

其中，P₃为文本的第三发音概率，T为文本的第三起止时间，t为第三起止时间中的第t时刻，为p_t第t时刻对应的第一音素，f_t为第t时刻的音频帧对应的音频特征，P₁(p_t|f_t)为p_t在第t时刻下的第一发音概率，q_t为第t时刻对应的第二音素，P₂(q_t|f_t)为q_t在第t时刻下的第二发音概率。通过上述可知，实施例中，将第三起止时间内各时刻下第一发音概率和第二发音概率比值的平均值，作为第三起止时间对应的第三发音概率，此时，文本数据中每个文本对应一个第三发音概率。

举例而言，若文本数据中的文本内容为“我们”，第一序列为

第二序列为w o3，由于“我”文本包含的第一音素为w和o3，在音频数据中的第三起止时间即为第一帧到第八帧，因此，获取第一帧到第八帧的时刻内w和o3的第一发音概率和w和o3第二发音概率，之后根据w和o3的第一发音概率和w和o3第二发音概率，利用上述公式即可计算“我”文本的第三发音概率。

可理解，第三发音概率越高，说明对音频数据识别得到的文本与相应文本数据中文本越一致。

步骤210、根据第三发音概率在音频数据集中查找出第一数据子集，第一数据子集包含的每个文本数据中第三发音概率小于第一目标概率的文本数量达到第一数量。

实施例中，将文本数据中每个文本的第三发音概率与设定的一概率值进行比较，若该文本的第三发音概率小于设定的概率值，则说明该文本出现在音频数据中的概率较小，进而说明该文本标注错误的可能性较高，或者音频数据中该文本对应的音素没有被准确识别的概率较高。实施例中，将设定的概率值记为第一目标概率，第一目标概率可根据实际需要设定，本实施例不对第一目标概率的具体数值进行限定。

进一步的，若文本数据中部分文本的第三发音概率均小于第一目标概率，则说明该文本数据准确描述音频数据的概率低，即音频数据与文本数据一致性不高，可能会影响后续声学模型的训练效果，因此，实施例中需要在音频数据集中找出这类文本数据，并将该类文本数据和对应的音频数据组成一个数据集，实施例中，将该数据集记为第一数据子集。一个实施例中，通过设定的第一数量找出这类文本数据。例如，设定第一数量后，将文本数据中各文本的第三发音概率与第一目标概率进行比较，若其中低于第一目标概率的文本数量达到第一数量(即等于或大于第一数量)，则确定将该文本数据和对应的音频数据加入至第一数据子集。其中，第一数量的具体值可以根据实际情况设定，例如，设定一个统一的第一数量，此时，将每个文本数据中第三发音概率低于第一目标概率的文本数量均与第一数量进行比较。再如，结合文本数据的文本长度确定第一数量，此时，每个文本数据对应一个第一数量，比如当文本数据较长时，其可以设置一个较大的第一数量，文本数据较短时，其可以设置一个较小的第一数量。

步骤211、在音频数据集中，删除第一数据子集包含的文本数据以及对应的音频数据。

由于第一数据子集中文本数据标注的正确率过低，即标注的文本数据存在错漏，为了避免后续音频训练集中掺杂入过多的正确率低的数据，而影响声学模型的训练效果，因此，实施例中，在音频数据集中，将第一数据子集包含的文本数据以及对应的音频数据删除。

可理解，实际应用中，也可以不设置第一数据子集，此时，将文本数据中各文本的第三发音概率与第一目标概率进行比较，若其中低于第一目标数量的文本数量达到第一数量(即等于或大于第一数量)，则直接删除该文本数据和对应的音频数据。

步骤212、根据第三发音概率在音频数据集中查找出第二数据子集，第二数据子集包含的各文本数据中每个文本的第三发音概率均大于第二目标概率，第二目标概率大于第一目标概率。

实施例中，将文本数据中每个文本的第三发音概率与设定的另一概率值进行比较，若该文本的第三发音概率大于设定的概率值，则说明该文本出现在音频数据中的概率较高，进而说明该文本标注正确的可能性较高。实施例中，将设定的概率记为第二目标概率，第二目标概率可根据实际需要设定，在本实施例中，不对第二目标概率的具体数值进行限定，一般而言，第二目标概率大于第一目标概率。

进一步的，若文本数据中各文本的第三发音概率均大于第二目标概率，则说明该文本数据准确的描述了音频数据，即文本数据和音频数据的内容相一致。需说明，对于预先构建的声学模型而言，该声学模型已经能够准确识别出正确文本数据和音频数据，在后续利用筛选的音频训练集训练声学模型时，该部分数据对声学模型的提升效果不大，因此，在构建音频训练集时可以减少正确文本数据和音频数据的数量，无需设置过多数量的文本数据和音频数据，从而提高声学模型的训练速度。因此，实施例中需要在音频数据集中找出这类正确的文本数据，并将该类文本数据和对应的音频数据组成一个数据集，实施例中，将该数据集记为第二数据子集。一个实施例中，将文本数据中各文本的第三发音概率与第二目标概率进行比较，若其中每个文本的第三发音概率均高于第二目标概率，则确定将该文本数据和对应的音频数据加入至第二数据子集。并且，对于文本数据标注的正确率较低的音频数据(如除第二数据子集和第一数据子集外的数据)，预先构建的声学模型还无法对该类数据进行准确识别，如果在音频训练集中增加了该类音频数据以及对应的文本数据后，对声学模型的识别效果提升的程度较差，则说明该类文本数据的标注存在错误(即文本数据与音频数据不一致)，需要重新校正该类文本数据(可选采用人工的方式进行校正)，使得音频数据与相应校正后的文本数据相对应，并将校正后的该类音频数据以及文本数据重新加入到音频训练集中，重新对声学模型进行训练，以保证声学模型的识别效果。

步骤213、在音频数据集中，删除第二数据子集中第二数量的文本数据以及对应的音频数据。

在一个实施例中，由于第二数据子集的文本数据中标注的文本正确的概率比较大，因此在构建音频训练集时，可以在其中挑选出部分文本数据和音频数据作为音频训练集，以在训练声学模型时，减小学习数据量，节约训练时间。实施例中，通过第二数量实现挑选第二数据子集中文本数据和音频数据。其中，第二数量的具体值可以根据实际情况设定，如第二数量为固定的数量，或者是，第二数量根据第二数据子集中包含的文本数据的个数所决定。进一步的，在第二数据子集中删除第二数量的文本数据和对应的音频数据时，可以是随机删除第二数量的文本数据和对应的音频数据，还可以是删除第三发音概率小的文本数据和对应的音频数据，或者采用其他规则删除第二数量的文本数据和对应的音频数据。

步骤214、将音频数据集中保留的文本数据作为目标文本数据，并将目标文本数据对应的音频数据作为目标音频数据，目标音频数据集和目标标注文本组成音频训练集。

在一个实施例中，在音频数据集中删除了第一数据子集和第二数据子集中第二数量的文本数据和音频数据后，将音频数据集中保留的文本数据作为目标文本数据，并将目标文本数据对应的音频数据作为目标音频数据，之后，根据目标文本数据和目标音频数据构建音频训练集，并利用音频训练集再次训练预先构建的声学模型，以提高声学模型的训练成果。

上述，通过提取音频数据中的音频特征，将音频特征输入声学模型中得到与音频特征相对应的声学分数，分别将声学分数输入到文本数据对应的对齐网络模型和音频数据对应的识别网络模型中，得到包含各个第一音素的第一序列和包含各个第二音素的第二序列，并基于声学分数、第一序列和第二序列计算出第一音素的第一发音概率以及第二音素的第二发音概率，根据第一发音概率和第二发音概率计算每个文本的第三发音概率，并根据第三发音概率从音频数据集中筛选出目标文本数据以及对应的音频数据构建音频训练集的技术方案，解决了人为构造的标注文本易出现错误而影响声学模型的训练效果的技术问题，通过第三发音概率可以明确文本数据与音频数据是否相一致，即明确文本数据是否被准确标识。之后，通过在音频数据集中删除文本数据正确率过低的第一数据子集以及删除部分文本数据正确率过高的第二数据子集，从而在音频训练集中减少标注错误的数量，保证了声学模型的训练效果，同时在音频训练集中仅保留了部分标注完全正确的数量，以节约训练时间，提高声学模型的训练效率。并且，利用声学模型和对齐网络模型可以准确实现音频数据和文本数据的对齐，利用声学模型和识别网络模型可以准确实现对音频数据的文本识别。

图4为本申请实施例提供的一种音频数据筛选装置的结构示意图，请参考图4，该装置包括：数据集获取模块301、对齐模块302、识别模块303、发音概率确定模块304、音频数据筛选模块305。

其中，数据集获取模块301，用于获取音频数据集，音频数据集包括多条音频数据以及每条音频数据对应的文本数据；对齐模块302，用于将音频数据和相应的文本数据对齐后，得到每个第一音素的第一发音概率和包含各第一音素的第一序列，第一音素为文本数据中的音素，第一序列还包含各第一音素在音频数据中的第一起止时间；识别模块303，用于对音频数据进行语音识别后，得到每个第二音素的第二发音概率和包含各第二音素的第二序列，第二音素为识别音频数据后得到的音素；发音概率确定模块304，用于根据第一序列、第一发音概率、第二序列和第二发音概率确定文本数据中每个文本在音频数据中的第三发音概率；音频数据筛选模块305，用于根据第三发音概率，在音频数据集中筛选出目标音频数据以及对应的目标文本数据，目标音频数据集和目标文本数据组成音频训练集。

在上述实施例的基础上，对齐模块302包括：第一音频特征提取子模块，用于提取音频数据中各音频帧的音频特征；第一声学分数计算子模块，用于根据音频特征计算相应音频帧的声学分数，声学分数用于表示音频帧属于各预设音素的概率，预设音素包括第一音素和第二音素；第一序列构建子模块，用于根据声学分数以及文本数据得到每个第一音素的第一发音概率和包含各第一音素的第一序列。

在上述实施例的基础上，第一序列构建子模块包括：对齐网络模型单元，用于获取文本数据的对齐网络模型，每个文本数据对应一个对齐网络模型；第一序列获取单元，用于将各音频帧的声学分数作为输入信息并输入至相应的对齐网络模型，以得到包含各第一音素的第一序列；第一发音概率确定单元，用于根据声学分数确定各第一音素在相应第一起止时间内每一时刻的第一发音概率。

在上述实施例的基础上，识别模块303包括：第二音频特征提取子模块，用于提取音频数据中各音频帧的音频特征；第二声学分数计算子模块，用于根据音频特征计算相应音频帧的声学分数，声学分数用于表示音频帧属于各预设音素的概率，预设音素包括第一音素和第二音素；第二序列构建子模块，用于根据音频帧的声学分数得到每个第二音素的第二发音概率和包含各第二音素的第二序列。

在上述实施例的基础上，第二序列构建子模块包括：第二序列获取单元，用于将各音频帧的声学分数作为输入信息并输入至预先构建的识别网络模型，以使得到包含各第二音素的第二序列；第二发音概率确定单元，用于根据声学分数确定各第二音素在相应时刻内的第二发音概率。

在上述实施例的基础上，第一声学分数计算子模块以及第二声学分数计算子模块具体用于：将音频特征输入至预先构建的声学模型中，以使声学模型输出音频特征对应的声学分数。

在上述实施例的基础上，发音概率确定模块304包括：第三起止时间确定子模块，用于根据第一序列中各第一音素的第一起止时间，确定文本数据中每个文本在音频数据中的第三起止时间；第三发音概率确定子模块，用于根据第三起止时间内第一音素的第一发音概率和第三起止时间内第二音素的第二发音概率确定文本的第三发音概率，第三起止时间内的第二音素通过第二序列确定。

在上述实施例的基础上，第三发音概率的计算公式为：

其中，P₃为所述文本的第三发音概率，T为所述文本的第三起止时间，t为所述第三起止时间中的第t时刻，p_t为第t时刻对应的第一音素，f_t为第t时刻的音频帧对应的音频特征，P₁(p_t|f_t)为p_t在第t时刻下的第一发音概率，q_t为第t时刻对应的第二音素，P₂(q_t|f_t)为q_t在第t时刻下的第二发音概率。

在上述实施例的基础上，音频数据筛选模块305包括：第一数据子集查找子模块，用于根据第三发音概率在音频数据集中查找出第一数据子集，第一数据子集包含的每个文本数据中每个文本第三发音概率小于第一目标概率的文本数量达到第一数量；第一数据子集删除子模块，用于在音频数据集中，删除第一数据子集包含的文本数据以及对应的音频数据；目标音频确认子模块，用于将音频数据集中保留的文本数据作为目标文本数据，并将目标文本数据对应的音频数据作为目标音频数据。

在上述实施例的基础上，音频数据筛选装置还包括：第二子集确定模块，用于在所述音频数据集中，删除第一数据子集包含的文本数据以及对应的音频数据之后，根据第三发音概率在音频数据集中查找出第二数据子集，第二数据子集包含的各文本数据中每个文本的第三发音概率均大于第二目标概率，第二目标概率大于第一目标概率；第二子集删除模块，用于在音频数据集中，删除第二数据子集中第二数量的文本数据以及对应的音频数据。

上述所述的音频数据筛选装置可以用于执行任意音频数据筛选方法，具备相应的功能和有益效果。

值得注意的是，上述音频数据筛选装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图5为本申请实施例提供的音频数据筛选设备的结构示意图，如图5所示，该音频数据筛选设备包括处理器400、存储器401、输入装置402、输出装置403；音频数据筛选设备中处理器400的数量可以是一个或多个，图5中以一个处理器400为例；音频数据筛选设备中处理器400、存储器401、输入装置402、输出装置403可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器401作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的音频数据筛选方法所对应的程序指令/模块(例如，音频数据筛选装置中数据集获取模块301、对齐模块302、识别模块303、发音概率确定模块304以及音频数据筛选模块305)。处理器400通过运行存储在存储器401中的软件程序、指令以及模块，从而执行音频数据筛选设备的各种功能应用以及数据处理，即实现上述的音频数据筛选方法。

存储器401可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据音频数据筛选设备的使用所创建的数据等。此外，存储器401可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器401可进一步包括相对于处理器400远程设置的存储器，这些远程存储器可以通过网络连接至音频数据筛选设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置402可用于接收输入的数字或字符信息，以及产生与音频数据筛选设备的用户设置以及功能控制有关的键信号输入。输出装置403可包括显示屏等显示设备。另外，音频数据筛选设备还可以包括通信装置，以实现与外部设备的通信。

上述所述的音频数据筛选设备包含相应的音频数据筛选装置，可以用于执行任意音频数据筛选方法，具备相应的功能和有益效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

此外，本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本申请任意实施例中提供的音频数据筛选方法中的相关操作，且具备相应的功能和有益效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。

因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围。特别指出，对于本领域技术人员来说，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频数据筛选方法，其特征在于，包括：

2.根据权利要求1所述的音频数据筛选方法，其特征在于，所述将所述音频数据和相应的文本数据对齐后，得到每个第一音素的第一发音概率和包含各所述第一音素的第一序列包括：

提取所述音频数据中各音频帧的音频特征；

根据所述音频特征计算相应音频帧的声学分数，所述声学分数用于所述音频帧属于各预设音素的概率，所述预设音素包括所述第一音素和所述第二音素；

根据所述声学分数以及所述文本数据得到每个第一音素的第一发音概率和包含各所述第一音素的第一序列。

3.根据权利要求2所述的音频数据筛选方法，其特征在于，所述根据所述声学分数以及所述文本数据得到每个第一音素的第一发音概率和包含各所述第一音素的第一序列包括：

获取所述文本数据的对齐网络模型，每个所述文本数据对应一个对齐网络模型；

将各所述音频帧的声学分数作为输入信息并输入至相应的对齐网络模型，以得到包含各第一音素的第一序列；

根据所述声学分数确定各所述第一音素在相应第一起止时间内每一时刻的第一发音概率。

4.根据权利要求1所述的音频数据筛选方法，其特征在于，所述对所述音频数据进行语音识别后，得到每个第二音素的第二发音概率和包含各所述第二音素的第二序列包括：

提取所述音频数据中各音频帧的音频特征；

根据所述音频特征计算相应音频帧的声学分数，所述声学分数用于表示所述音频帧属于各预设音素的概率，所述预设音素包括所述第一音素和所述第二音素；

根据所述音频帧的声学分数得到每个第二音素的第二发音概率和包含各所述第二音素的第二序列。

5.根据权利要求4所述的音频数据筛选方法，其特征在于，所述根据所述音频帧的声学分数得到每个第二音素的第二发音概率和包含各所述第二音素的第二序列包括：

将各所述音频帧的声学分数作为输入信息并输入至预先构建的识别网络模型，以使得到包含各第二音素的第二序列；

根据所述声学分数确定各所述第二音素在相应时刻内的第二发音概率。

6.根据权利要求2或4所述的音频数据筛选方法，其特征在于，所述根据所述音频特征计算相应音频帧的声学分数包括：

将所述音频特征输入至预先构建的声学模型中，以使所述声学模型输出所述音频特征对应的声学分数。

7.根据权利要求1所述的音频数据筛选方法，其特征在于，所述根据所述第一序列、所述第一发音概率、所述第二序列和所述第二发音概率确定所述文本数据中每个文本在所述音频数据中的第三发音概率包括：

根据所述第一序列中各所述第一音素的第一起止时间，确定所述文本数据中每个文本在所述音频数据中的第三起止时间；

根据所述第三起止时间内第一音素的第一发音概率和所述第三起止时间内第二音素的第二发音概率确定所述文本的第三发音概率，所述第三起止时间内的第二音素通过所述第二序列确定。

8.根据权利要求7所述的音频数据筛选方法，其特征在于，所述第三发音概率的计算公式为：

9.根据权利要求1所述的音频数据筛选方法，其特征在于，所述根据所述第三发音概率，在所述音频数据集中筛选出目标音频数据以及对应的目标文本数据包括：

根据所述第三发音概率在所述音频数据集中查找出第一数据子集，所述第一数据子集包含的每个文本数据中第三发音概率小于第一目标概率的文本数量达到第一数量；

在所述音频数据集中，删除第一数据子集包含的文本数据以及对应的音频数据；

将所述音频数据集中保留的文本数据作为目标文本数据，并将所述目标文本数据对应的音频数据作为目标音频数据。

10.根据权利要求9所述的音频数据筛选方法，其特征在于，在所述音频数据集中，删除第一数据子集包含的文本数据以及对应的音频数据之后，还包括：

根据所述第三发音概率在所述音频数据集中查找出第二数据子集，所述第二数据子集包含的各文本数据中每个文本的第三发音概率均大于第二目标概率，所述第二目标概率大于所述第一目标概率；

在所述音频数据集中，删除所述第二数据子集中第二数量的文本数据以及对应的音频数据。

11.一种音频数据筛选装置，其特征在于，所述装置包括：

对齐模块，用于将所述音频数据和相应的文本数据对齐后，得到每个第一音素的第一发音概率和包含各所述第一音素的第一序列，所述第一音素为文本数据中的音素，所述第一序列还包含各所述第一音素在所述文本数据中的第一起止时间；

12.一种音频数据筛选设备，其特征在于，包括处理器以及存储器；

所述处理器用于根据所述程序代码中的指令执行权利要求1至权利要求10中任一项所述的音频数据筛选方法。

13.一种计算机可读介质，其上储存有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至权利要求10任一项所述的音频数据筛选方法。