CN114171006A

CN114171006A - 音频处理方法、装置、电子设备、存储介质

Info

Publication number: CN114171006A
Application number: CN202111443133.2A
Authority: CN
Inventors: 姜双双; 戚萌; 陆成; 董斐
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-11

Abstract

本发明公开了音频处理方法、装置、电子设备、存储介质。该音频处理方法，包括：确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列；确定目标语料在所述语料序列中的位置信息；将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧，确定为所述目标语料的初始音频帧；从所述初始音频帧中确定对应于所述位置信息的目标音频帧，并将所述目标音频帧确定为包含所述目标语料的音频片段。从而，能够准确定位目标语料在音频数据中的位置，准确确定音频数据中包含目标语料的音频片段，相较于人工确定目标语料的位置的方式，不仅节省了人力成本，还具有效率高、准确度高的优点。

Description

音频处理方法、装置、电子设备、存储介质

技术领域

本发明涉及音频处理技术领域，尤其涉及一种音频处理方法、装置、电子设备、存储介质。

背景技术

AI(人工智能)技术引入智能语音领域，很大程度的提高了识别率，降低了误识别率，但是要求训练样本有大量的语料支持，而对于语音唤醒和多命令词识别来说，现有的开源数据十分有限，获取途径通常是人工录取或者人工确定开源的音频数据中目标语料的位置并手动截取音频片段作为训练样本，这种方法费时费力。

发明内容

本发明要解决的技术问题是为了克服现有技术中通过人工录取或者人工确定开源的音频数据中目标语料的位置并手动截取音频片段的方式费时费力的缺陷，提供一种音频处理方法、装置、电子设备、存储介质。

本发明是通过下述技术方案来解决上述技术问题：

第一方面，提供一种音频处理方法，包括：

确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列；

确定目标语料在所述语料序列中的位置信息；

将所述各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧，确定为所述目标语料的初始音频帧；

从所述初始音频帧中确定对应于所述位置信息的目标音频帧，并将所述目标音频帧确定为包含所述目标语料的音频片段。

可选地，确定目标语料在所述语料序列中的位置信息，包括：

在所述目标语料包含多个语料的情况下，将所述语料序列的所有音素中与所述目标语料包含的多个语料的排序规则相匹配的音素的位置信息，确定为所述目标语料在所述语料序列中的位置信息。

可选地，从所述初始音频帧中确定对应于所述位置信息的目标音频帧，包括：

从所述音频数据的所有音频帧中确定出非静音帧；

将所述初始音频帧中帧坐标落入所述位置信息对应的非静音帧的帧坐标范围内的音频帧确定为所述目标音频帧；所述帧坐标范围的下限值为所述位置信息表征的帧坐标，所述帧坐标范围的上限值为所述位置信息表征的帧坐标与帧数差之和，所述帧数差为所述语料序列中语料的数量与从所述所有音频帧中确定出的非静音帧的数量之差。

可选地，确定音频数据的各音频帧的各个预估语料的概率以及所述各个预估语料的语料序列，包括：

将所述音频数据的输入预先训练的语音识别模型，根据所述语音识别模型的输出结果确定所述各个预估语料的概率和所述语料序列。

第二方面，提供一种音频处理装置，包括：

语料确定模块，用于确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列；

位置确定模块，用于确定目标语料在所述语料序列中的位置信息；

音频帧确定模块，用于将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧，确定为所述目标语料的初始音频帧；

片段确定模块，用于从所述初始音频帧中确定对应于所述位置信息的目标音频帧，并将所述目标音频帧确定为包含所述目标语料的音频片段。

可选地，所述位置确定模块具体用于：

可选地，所述音频帧确定模块具体用于：

从所述音频数据的所有音频帧中确定出非静音帧；

可选地，所述语料确定模块具体用于：

第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的音频处理方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的音频处理方法。

本发明的积极进步效果在于：本发明实施例中，能够准确定位目标语料在音频数据中的位置，准确确定音频数据中包含目标语料的音频片段，相较于人工确定目标语料的位置的方式，不仅节省了人力成本，还具有效率高、准确度高的优点。

附图说明

图1为本发明一示例性实施例提供的一种音频处理方法的流程图；

图2为本发明一示例性实施例提供的一种音频处理装置的模块图；

图3为本发明一示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

图1为本发明一示例性实施例提供的一种音频处理方法的流程图，该音频处理方法可以准确确定用户指定的目标语料在音频数据中的帧坐标位置(即目标语料在音频数据中的首尾帧)，以便从音频数据中截取目标语料的音频片段。参见图1，该音频处理方法包括以下步骤：

步骤101、确定音频数据的各音频帧的预估语料的概率以及预估语料的语料序列。

音频数据包含多帧音频帧，预估语料的概率以及语料序列由对音频数据进行语音识别得到。预估语料为通过对各帧音频帧进行语音识别，预测得到的各音频帧可能表征的语料。其中，语料可以但不限于是拼音字符或者音素等。

在一个实施例中，使用概率矩阵表征一段音频数据的所有音频帧的各个预估语料的概率。概率矩阵P表示如下：

其中，T表示音频数据包含的音频帧的帧数；N表示预估语料的个数；P_tn表示第t帧音频帧为第n个预估语料的概率值。1≤t≤T，1≤n≤N。

举例来说，若音频数据对应的文字为“今天天气情况”，由于环境噪音或者用户发音等原因，对上述音频数据进行语音识别，对于每帧音频帧可能会识别出多个拼音字符(以语料为拼音字符为例)，例如，对于对应于文字“今”的音频帧，语音识别的结果包括“jin”、“jing”、“gi”等，“今天天气情况”的概率矩阵中的第一列则分别表示“jin”、“jing”、“gi”的概率；对于对应于文字“天”的音频帧，语音识别的结果包括“tián”、“tiàn”“tian”等，“今天天气情况”的概率矩阵中的第二列则分别表示“tián”、“tiàn”、“tian”的概率；以此类推，将音频数据的每帧音频帧均使用概率表示。

可以理解的，因发音时长不同，存在一个文字占了多帧音频帧的情况，例如，用户对“情况”进行发音时，“况”字发音特别长，占了2帧音频帧，致使概率矩阵的列数大于音频数据对应的文字数量；同样，发音过程中的停顿(未发音)，会使得某帧或者某几帧的音频帧为静音帧，致使概率矩阵的列数大于音频数据对应的文字数量。

在一个实施例中，语料序列根据概率矩阵得到，具体实现过程参见相关技术描述，此处不再赘述。预估语料的语料序列通过向量表征。语料序列R的向量表示如下：

R＝[R₁,R₂,…，R_l]；

其中，l表示该音频数据包含的音频帧对应的语料的个数。R_i表示音频数据包含的各个语料。1≤i≤l。

在一个实施例中，借助预先训练的语音识别(ASR)模型确定音频数据的音频帧的各个预估语料的概率以及各个预估语料的语料序列，具体的，将音频数据的输入预先训练的语音识别模型，根据语音识别模型的输出结果确定各个预估语料的概率和语料序列。语音识别模型的训练过程参见相关技术描述，此处不再赘述。语音识别模型可以但不限于是端到端的语音识别模型。利用端到端的语音识别模型可以识别开源数据，找到并截取出目标语料，这样就可以解决语音唤醒或多命令词识别语料缺乏的问题。

在一个实施例中，预先训练的语音识别模型的输入参数包括音频数据，输出参数包括概率矩阵和语料序列，也即由语音识别模型直接输出音频数据的预估语料的概率以及语料序列。

步骤102、确定目标语料在语料序列中的位置信息。

目标语料可以根据实际需求自行设置，目标语料可以包括一个语料，也可以包括多个语料，本发明实施例对此不作特别限定。一个语料可以对应一个拼音字符，也可以对应一个音素，其与语料序列包含的语料相对应，也即若语料序列包含的一个语料对应一个音素，则目标语料包含的一个语料对应一个音素，若语料序列包含的一个语料对应一个拼音字符，则目标语料包含的一个语料对应一个拼音字符。

在一个实施例中，通过比对目标语料的各个语料与语料序列包含的各个语料的相似度，来确定语料序列中是否包含目标语料，进而确定目标语料在语料序列中的位置信息。

确定目标语料在语料序列中的位置信息，也即确定目标语料在表征语料序列的向量中的坐标。目标语料中的各个语料的坐标均用一个数组表征，以目标语料包含两个语料为例，两个语料的坐标数组分别表示如下：

A＝[a₁,a₂,…，a_k]；

B＝[b₁,b₂,…，b_k]；

数组A表示在一个语料在R中的坐标集合，数组B表示另一个语料在R中的坐标集合。可以理解的，另一个语料总是在一个语料之后，因此a_j总是比b_j大1。由于一段音频数据中可能包含多个目标语料，所以数组大小不固定。1≤j≤k，k表示目标语料在语料序列中出现的总次数。

还是以“今天天气情况”为例，假设目标语料为“tian”，“今天天气情况”的语料序列表示为R＝[jin,tian,tian,qi,qing,kang]，目标语料“tian”在语料序列中的位置信息表示为A＝[2，3]。

在一个实施例中，在目标语料包含多个语料的情况下，确定目标语料的位置信息还需要参考多个语料的排序规则，具体的，将语料序列的所有语料中与目标语料包含的多个语料的排序规则相匹配的语料的位置信息，确定为目标语料在语料序列中的位置信息。

举例来说，假设目标语料为“tian qi”，包含两个语料“tian”、“qi”，且排序规则为“tian”在“qi”之前，“qi”在“tian”之后，确定目标语料的位置信息时，不仅要看目标语料中各个语料是否存在于语料序列中，还要看排序规则是否相匹配，基于上述两个条件，得到目标语料“tian”在语料序列中的位置信息表示为A＝[3]，目标语料“qi”在语料序列中的位置信息表示为B＝[4]，而不是A＝[2，3]、B＝[4]。从而，通过排序规则可以排除掉不符合目标语料的排序规则的音频帧，进而提高目标语料定位的精确度。

步骤103、将各个预估语料中概率与目标语料相匹配的预估语料的音频帧，确定为目标语料的初始音频帧。

在一个实施例中，确定为目标语料的初始音频帧时，在概率矩阵中找到与目标语料中各个语料相匹配的预估语料的概率向量，表示语料在这段音频数据中不同时间的概率值，若概率向量中超过第一概率阈值则认为这一音频帧可能是与目标语料的语料相匹配的初始音频帧，基于上述方式，得到各个语料在整个音频数据的时间流上可能存在的音频帧的坐标和概率值。

以目标语料包含两个语料，分别为K₁和K₂为例，得到概率向量表示为P_{t K1}和P_{t K2}，两个语料在整个音频数据的时间流上可能存在的音频帧的坐标和概率值表示为：

其中，X表征语料K₁对应的音频帧(初始音频帧)的坐标数组、Y表征语料K₂对应的音频帧(初始音频帧)的坐标数组；X、Y的下标m_m、n_n是为了与下述真实帧坐标进行区分。概率矩阵P是二维矩阵，一维是时间维t，一维是拼音字符k，元素为概率值，P_{t K1}表示P中(t，K1)位置上的概率值的集合，P_{t K2}表示P中(t，K2)位置上的概率值的集合。

由于音频数据中可能存在与目标语料相近的语料，从而发生误识，导致步骤102中基于概率矩阵得到的坐标数组与步骤103中基于语料序列得到的初始音频帧的坐标数组不能一一对应，说明初始音频帧中存在误识别，需要执行步骤104，以从初始音频帧中确定目标语料的真实音频帧，剔除误识别的音频帧。

步骤104、从初始音频帧中确定对应于位置信息的目标音频帧，并将目标音频帧确定为包含目标语料的音频片段。

通过上述技术方案，能够准确定位目标语料在音频数据中的位置，准确确定音频数据中包含目标语料的音频片段，截取所需的音频片段。截取的音频片段可以作为语音唤醒、多命令词下的语音识别语料，实现语料的扩充。

一段音频数据中除了语音帧，一般还包括用户停顿、未发音的静音帧，需要排除静音帧部分。

在一个实施例中，从初始音频帧中确定对应于位置信息的目标音频帧，包括：从音频数据的所有音频帧中确定出非静音帧(也即语音帧)，将初始音频帧中帧坐标落入位置信息对应的非静音帧的帧坐标范围内的音频帧确定为目标音频帧。其中，帧坐标范围的下限值为位置信息表征的帧坐标，帧坐标范围的上限值为位置信息表征的帧坐标与帧数差之和，帧数差为语料序列中语料的数量与从所有音频帧中确定出的非静音帧的数量之差。

在一个实施例中，利用静音维P_tN表征音频数据中的静音帧，以进一步精确定位目标语料在音频数据中的位置。静音维表示音频数据是静音的概率，可以在概率矩阵后增加一列，表征音频数据是静音的概率。当静音维的概率低于第二概率阈值，我们就认为当前音频帧是语音帧，所以可以得到该段音频数据的语料可能对应的帧坐标数组S：

S＝[S₁,S₂,…，S_l+Δl]；

帧坐标数组S表示音频数据中能够识别到语料的所有帧坐标的集合。Δl表示

概率矩阵R的结果是根据语音识别模型输出的，语音识别模型输出结果时参考了前后音频帧之间的关系得到，确定S时，只需要根据概率矩阵R的静音维，设置阈值筛选即可得到S。

其中，第二概率阈值可以根据实际情况自行设置，为了不遗漏语音段的坐标，第二概率阈值的值一般取较大。静音维可以借助语音识别模型得到。

由于存在将静音帧误判为语音帧的情况，所以S的长度一般会要大于R的长度，要想找到X、Y中真实的帧坐标，需要用A、B、S序列缩小范围精确到真实的坐标。若静音帧没有被误判为语音帧，则S的长度与R的长度相同，且一一对应。

将目标语料的第i个语料的真实帧坐标表示为X_i和Y_i，X_i和Y_i分别在

和

范围内，其中，Δl表示S与R的长度差。查找数组X、Y中符合条件的值，如果同时多个

和

在可选范围内，则根据下列条件挑选合适的组合：

0＜Y_i-X_i＜L。

L为目标语料的最大帧长，若仍有多组符合，则选择对应的、较大的那组，认为是目标语料的第i个语料的真实帧坐标，否则认为是误识别，需要排除，最后根据输出的特定词首尾帧完成特定词截取。

还是以“今天天气情况”举例，假设我们想要的目标语料为“天气”，“今天天气情况”的真实音频帧坐标为r＝[r1:r6](这个序列是不能直接得到的)，目标语料“天气”的真实音频帧坐标为[r3,r4]；若根据静音维得到，“今天天气情况”的语音帧坐标为S＝[s1:s8]；S中应该包含所有的r和两个误判；r1只可能在[s1,s2,s3]中，这样才能保证[r2:r6]在S中有对应的值，同理r中其他元素在S中有对应的值。

目标语料“天气”的长度为2，目标语料“天气”的真实真坐标在[s3,s4,s5]和[s4,s5,s6]这个范围内，但是查找“天”可能存在的坐标出现两个值

结合“天气”的排序规则，将这两个中在[s3,s4,s5]范围内的确定为“天气”的帧坐标。

从而，通过A、B、S序列缩小范围能够精确到目标真实的坐标，在这个范围内查找能够提高目标语料定位的精确度，避免读音相近词的误识别。

找到目标语料的真实帧坐标(即语音起始帧)，会进行判断，如果音频数据中对应于目标语料的音频帧后面没有其他音频帧，则从目标语料的第一个语料的起始帧截取到音频最后，认为是我们所需的目标语料的音频片段；如果目标语料除了“天”、“气”之外还有其他的拼音字符，则用同样的方法找到目标语料后第一个拼音字符的帧坐标，作为截取音频的末尾帧坐标。

同时充分利用了拼音(音素)字符中的静音维，精确的获取所选特定词在音频中的帧坐标。

在获取特定词帧坐标的时候，由于识别的音频中可能存在特定词的相近词，导致寻找特定词帧坐标时会产生误差，所以利用静音维可以进一步精确找到特定词的帧坐标，从而实现特定词截取。

与前述音频处理方法实施例相对应，本发明还提供了音频处理装置的实施例。

图2为本发明一示例性实施例提供的一种音频处理装置的模块示意图，该音频处理装置包括：

语料确定模块21，用于确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列；

位置确定模块22，用于确定目标语料在所述语料序列中的位置信息；

音频帧确定模块23，用于将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧，确定为所述目标语料的初始音频帧；

片段确定模块24，用于从所述初始音频帧中确定对应于所述位置信息的目标音频帧，并将所述目标音频帧确定为包含所述目标语料的音频片段。

可选地，所述位置确定模块具体用于：

可选地，所述音频帧确定模块具体用于：

从所述音频数据的所有音频帧中确定出非静音帧；

可选地，所述语料确定模块具体用于：

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

图3为本发明一示例实施例示出的一种电子设备的结构示意图，示出了适于用来实现本发明实施方式的示例性电子设备30的框图。图3显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序工具325(或实用工具)，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如上述任一实施例所提供的方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的电子设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的电子设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的电子设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例所提供的方法。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明实施例还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现上述任一实施例的方法。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种音频处理方法，其特征在于，包括：

确定目标语料在所述语料序列中的位置信息；

将各个预估语料中概率与所述目标语料相匹配的预估语料的音频帧，确定为所述目标语料的初始音频帧；

2.根据权利要求1所述的音频处理方法，其特征在于，确定目标语料在所述语料序列中的位置信息，包括：

3.根据权利要求1所述的音频处理方法，其特征在于，从所述初始音频帧中确定对应于所述位置信息的目标音频帧，包括：

从所述音频数据的所有音频帧中确定出非静音帧；

4.根据权利要求1所述的音频处理方法，其特征在于，确定音频数据的各音频帧的预估语料的概率以及所述预估语料的语料序列，包括：

5.一种音频处理装置，其特征在于，包括：

6.根据权利要求5所述的音频处理装置，其特征在于，所述位置确定模块具体用于：

7.根据权利要求5所述的音频处理装置，其特征在于，所述音频帧确定模块具体用于：

从所述音频数据的所有音频帧中确定出非静音帧；

8.根据权利要求5所述的音频处理装置，其特征在于，所述语料确定模块具体用于：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的音频处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的音频处理方法。