CN116052655A

CN116052655A - 音频处理方法、装置、电子设备和可读存储介质

Info

Publication number: CN116052655A
Application number: CN202211710465.7A
Authority: CN
Inventors: 王庆洁; 魏光辉; 李志飞
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-05-02

Abstract

本申请实施例提供了一种音频处理方法、装置、电子设备和可读存储介质，涉及计算机技术领域。在本申请实施例中，本申请实施例可以获取目标音频，根据目标语音识别模型中的声学识别模块确定目标音频对应的发音概率矩阵，并根据目标语音识别模型中的语言识别模块和发音概率矩阵，确定目标音频对应的文字信息。进一步的，本申请实施例可以对文字信息进行融合解码处理，以确定目标音频对应的音频识别结果。其中，本申请实施例可以在发音概率矩阵对应的概率空间中搜索概率较大的文字信息，降低了音频和文本之间的数据依赖，在面对新出现的词汇或者生僻词汇时，本申请实施例可以增加模型输出的可能性，提高语音识别的准确率。

Description

音频处理方法、装置、电子设备和可读存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频处理方法、装置、电子设备和可读存储介质。

背景技术

语音识别是人机交互的重要一环，目前，具有语音识别功能的电子设备可以接收或采集用户的语音，并识别用户语音对应的文字，从而实现语音识别的功能。

在相关技术中，相关技术往往会根据用户的语音直接输出对应的文字，但是，在面对新出现的词汇或者生僻词汇时，相关技术可能会出现错误识别的情况，从而导致语音识别的准确率较低。

发明内容

有鉴于此，本申请实施例提供一种音频处理方法、装置、电子设备和可读存储介质，以提高语音识别的准确率。

第一方面，提供了一种音频处理方法，所述方法包括：

获取目标音频。

根据目标语音识别模型中的声学识别模块，识别所述目标音频对应的发音概率矩阵。

根据所述目标语音识别模型中的语言识别模块和所述发音概率矩阵，确定所述目标音频对应的文字信息。

对所述文字信息进行融合解码处理，确定所述目标音频对应的音频识别结果。

在一些实施例中，所述声学识别模块包括共享编码器和连接时序分类解码器。

所述根据目标语音识别模型中的声学识别模块，识别所述目标音频对应的发音概率矩阵包括：

根据所述共享编码器，确定所述目标音频对应的音频特征矩阵。

根据所述连接时序分类解码器，确定所述音频特征矩阵对应的发音概率矩阵。

在一些实施例中，所述根据所述共享编码器，确定所述目标音频对应的音频特征矩阵包括：

对所述目标音频进行音频特征提取，确定所述目标音频对应的目标特征。

将所述目标特征输入所述共享编码器，确定所述目标音频对应的音频特征矩阵。

在一些实施例中，所述根据所述目标语音识别模型中的语言识别模块和所述发音概率矩阵，确定所述目标音频对应的文字信息包括：

将所述发音概率矩阵输入所述语言识别模块，确定所述目标音频对应的一个或多个中间识别结果。

根据各所述中间结果对应的概率分值，确定目标音频对应的文字信息，所述文字信息包括预定数量的候选文本。

在一些实施例中，所述对所述文字信息进行融合解码处理，确定所述目标音频对应的音频识别结果包括：

确定目标配置文件，所述目标配置文件用于表征声学建模单元和多音字之间的对应关系。

基于所述目标配置文件，对所述文字信息进行解码处理，以确定所述目标音频对应的音频识别结果。

在一些实施例中，所述目标语音识别模型还包括注意力解码器。

所述基于所述目标配置文件，对所述文字信息进行解码处理，以确定所述目标音频对应的音频识别结果包括：

基于所述目标配置文件和所述注意力解码器，确定所述文字信息中各文本对应的目标概率。

根据所述目标概率，确定所述目标音频对应的音频识别结果。

在一些实施例中，所述目标语音识别模型基于目标训练集训练，所述目标训练集中至少包括预先构建的中英文拼接训练词表，所述目标语音识别模型对应的损失函数由连接时序分类损失和注意力损失组成。

第二方面，提供了一种音频处理装置，所述装置包括：

目标音频获取单元，被配置为执行获取目标音频。

声学识别单元，被配置为执行根据目标语音识别模型中的声学识别模块，识别所述目标音频对应的发音概率矩阵。

语言识别单元，被配置为执行根据所述目标语音识别模型中的语言识别模块和所述发音概率矩阵，确定所述目标音频对应的文字信息。

解码单元，被配置为执行对所述文字信息进行融合解码处理，确定所述目标音频对应的音频识别结果。

所述声学识别单元具体被配置为执行：

在一些实施例中，所述声学识别单元具体被配置为执行：

在一些实施例中，所述语言识别单元具体被配置为执行：

在一些实施例中，所述解码单元具体被配置为执行：

所述解码单元具体被配置为执行：

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

在本申请实施例中，本申请实施例可以获取目标音频，根据目标语音识别模型中的声学识别模块确定目标音频对应的发音概率矩阵，并根据目标语音识别模型中的语言识别模块和发音概率矩阵，确定目标音频对应的文字信息。进一步的，本申请实施例可以对文字信息进行融合解码处理，以确定目标音频对应的音频识别结果。在此过程中，由于本申请实施例确定了目标音频对应的发音概率矩阵，因此，本申请实施例在确定音频识别结果时，可以在发音概率矩阵对应的概率空间中搜索概率较大的文字信息，从而根据概率较大的文字信息确定准确的音频识别结果。也就是说，本申请实施例可以先在发音概率矩阵中匹配出较为准确的文字信息，再根据文字信息进行融合解码处理，从而确定音频识别结果，降低了音频和文本之间的数据依赖，在面对新出现的词汇或者生僻词汇时，本申请实施例可以增加模型输出的可能性，提高语音识别的准确率。

附图说明

通过以下参照附图对本申请实施例的描述，本申请实施例的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为本申请实施例的音频处理方法的流程示意图；

图2为本申请实施例的音频处理方法的流程图；

图3为本申请实施例的另一种音频处理方法的流程示意图；

图4为本申请实施例的另一种音频处理方法的流程图；

图5为本申请实施例的目标配置文件的示意图；

图6为本申请实施例的另一种音频处理方法的流程示意图；

图7为本申请实施例的中英文拼接训练词表的示意图；

图8为本申请实施例的另一种音频处理方法的流程示意图；

图9为本申请实施例的音频处理装置的结构示意图；

图10为本申请实施例的电子设备的结构示意图。

具体实施方式

以下基于实施例对本申请进行描述，但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

目前，在人机交互的场景下，具有语音识别功能的电子设备可以接收或采集用户的语音，并识别用户语音对应的文字。进一步的，电子设备可以根据识别得到的文字进行语义理解，根据语义理解的结果生成反馈文本或者音频，显示反馈文本或者播放反馈音频，从而实现用户与电子设备之间的交互。

其中，电子设备对用户的语音进行语音识别是人机交互的重要一环，语音识别的结果是电子设备进行后续处理的基础，因此，电子设备进行语音识别的准确程度是决定人机交互是否成功的重要因素。

在相关技术中，相关技术通常会采用字建模的方式构建语音识别模型，该语音识别模型的输入为用户的语音，输出为对应的文字。但是，字建模的建模方式数据依赖性较强，其针对音频的输出结果相对固定，这样会限制模型输出的可能性。在面对新出现的词汇或者生僻词汇时，相关技术可能会出现错误识别的情况，从而导致语音识别的准确率较低。因此，如何提高语音识别的准确率是目前亟需解决的问题。

为了解决上述问题，本申请实施例提供一种音频处理方法，该方法可以应用于电子设备，其中，电子设备可以是终端或者服务器，终端可以是智能手机、平板电脑、个人计算机(Personal Computer，PC)或者移动交通工具控制终端等，服务器可以是单个服务器，也可以是以分布式方式配置的服务器集群，还可以是云服务器。

如图1所示，电子设备13可以是终端或者服务器，其可以通过自身或者外接的音频采集单元(例如麦克风)采集用户11的语音(即目标音频12)。进一步的，电子设备13获取目标音频12后，可以根据上述音频处理方法确定目标音频12对应的音频识别结果14，以提高语音识别的准确率。

具体的，电子设备13获取目标音频12后，可以根据目标语音识别模型中的声学识别模块，识别目标音频12对应的发音概率矩阵，进一步的，电子设备13可以根据目标语音识别模型中的语言识别模块和发音概率矩阵，识别目标音频12对应的文字信息。进一步的，在确定文字信息后，电子设备13可以对文字信息进行融合解码处理，以确定目标音频12对应的音频识别结果14。

在此过程中，由于本申请实施例确定了目标音频12对应的发音概率矩阵，因此，本申请实施例在确定音频识别结果14时，可以在发音概率矩阵对应的概率空间中搜索概率较大的文字信息，从而根据概率较大的文字信息确定准确的音频识别结果14。也就是说，本申请实施例可以先在发音概率矩阵中匹配出较为准确的文字信息，再根据文字信息进行融合解码处理，从而确定音频识别结果14，降低了音频和文本之间的数据依赖，在面对新出现的词汇或者生僻词汇时，本申请实施例可以增加模型输出的可能性，提高语音识别的准确率。

下面将结合具体实施方式，对本申请实施例提供的一种音频处理方法进行详细的说明，如图2所示，具体步骤如下：

在步骤S100，获取目标音频。

其中，目标音频可以是由执行上述音频处理方法的电子设备直接采集得到的音频，也可以是由独立的音频采集设备采集并由电子设备获取的音频。目标音频可以是一句话对应的音频，也可以是一段文字对应的音频。

在一种可选的实施方式中，本申请实施例在获取目标音频后，可以对目标音频进行预处理，以提高语音识别的效率。

其中，预处理可以包括噪声过滤以及语音活动检测(Voice activity detection，VAD)等。具体的，在采集目标音频的过程中，收到环境噪声的影响，目标音频中可能会出现音频噪声。此时，本申请实施例可以通过噪声过滤处理，去除目标音频中的噪声，以提高语音识别的准确率。另外，本申请实施例还可以通过语音活动检测处理，去除目标音频中的非语音片段，从而缩短目标音频的长度，提高语音识别的准确率。

在步骤S200，根据目标语音识别模型中的声学识别模块，识别目标音频对应的发音概率矩阵。

其中，发音概率矩阵包括目标音频可能对应的各个读音，以及各个读音对应的概率。在本申请实施例中，声学识别模块在对目标音频进行声学识别时，可以按照时序对目标音频的每个音频帧进行声学识别，并确定每个音频帧对应的读音，其中，由于存在方言、口音或者中英文混合的情况，因此，声学识别模块对目标音频的每个音频帧可以分别输出多个识别结果以及各识别结果对应的概率，从而构成发音概率矩阵。

进一步的，本申请实施例可以通过汉语拼音、音标、字母或者字母组合等方式表示目标音频的发音。以中文为例，中文对应的发音信息可以通过汉语拼音和声调进行表示，例如，若目标音频对应的语音内容为“中文”，则该目标音频对应的发音信息可以是“zhong1”和“wen2”，其中，zhong和wen用于表征汉语拼音，1和2用于表征汉语拼音对应的发音声调。以英文为例，英文对应的发音信息可以通过音标、字母或者字母组合等方式进行表示。

在本申请实施例中，通过确定目标音频对应的发音概率矩阵，本申请实施例可以在发音概率矩阵对应的概率空间中确定概率较大的文字信息，从而根据概率较大的文字信息确定准确的音频识别结果，降低了音频和文本之间的直接依赖关系，从而增加模型输出的可能性，提高语音识别的准确率。

在一种可选的实施方式中，本申请实施例的声学识别模块可以包括共享编码器和连接时序分类解码器。

如图3所示，本申请实施例的声学识别模块可以是基于Wenet模型构建的声学模块，其中可以包括共享编码器(Shared Encoder)31和连接时序分类解码器(ConnectionistTemporal Classification Decoder，CTC Decoder)32。其中，共享编码器31可以包括多层conformer结构或者transformer结构，连接时序分类解码器32可以包括一个全连接层和一个softmax层。

本申请实施例在获取目标音频12后，可以将目标音频12输入共享编码器31，共享编码器31可以对目标音频12进行编码处理，以确定目标音频12对应的音频特征矩阵33。其中，音频特征矩阵33可以通过矩阵数据表示目标音频12中的各音频帧。

进一步的，连接时序分类解码器32可以接收共享编码器31生成的音频特征矩阵33，并对音频特征矩阵33进行声学识别，以确定音频特征矩阵33对应的发音概率矩阵34。进一步的，本申请实施例可以根据目标语音识别模型中的语言识别模块和发音概率矩阵34，确定目标音频12对应的文字信息，并对文字信息进行融合解码处理，确定目标音频12对应的音频识别结果。

具体的，如图4所示，上述步骤S200可以包括如下步骤：

在步骤S210，根据共享编码器，确定目标音频对应的音频特征矩阵。

在一种可选的实施方式中，本申请实施例将目标音频输入共享编码器之前，可以对目标音频进行特征提取操作，具体的，步骤S210可以包括如下步骤：

在步骤S211，对目标音频进行音频特征提取，确定目标音频对应的目标特征。

其中，目标音频对应的目标特征可以是梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)特征或者FBank(Filter Bank)特征。FBank是一种前端处理算法，以类似于人耳的方式对音频进行处理，可以提高语音识别的性能。具体的，FBank可以通过预加重、分帧、加窗、短时傅里叶变换(short-time Fourier transform，STFT)、梅尔滤波、去均值等处理，确定音频对应的FBank特征。梅尔频率是基于人耳听觉特性提取得到的，它与频率成非线性对应关系。梅尔频率倒谱系数则是利用它们之间的这种关系，计算得到的频率频谱特征，主要用于语音数据特征提取和降低运算维度。在实际应用中，对FBank特征做离散余弦变换可获得梅尔频率倒谱系数特征。

以FBank特征为例，本申请实施例可以采用80维的FBank特征作为目标音频对应的目标特征，以避免损失目标音频中的语音信息。

在步骤S212，将目标特征输入共享编码器，确定目标音频对应的音频特征矩阵。

通过本申请实施例，可以在将目标音频输入共享编码器之前，对目标音频进行特征提取操作，使得声学识别模块可以更快速地识别目标音频对应的音频特征矩阵，提高语音识别的效率。

在步骤S220，根据连接时序分类解码器，确定音频特征矩阵对应的发音概率矩阵。

在本申请实施例中，通过包括共享编码器和连接时序分类解码器的声学识别模块，本申请实施例可以通过流式识别的方式识别目标音频并确定发音概率矩阵，提高了语音识别的准确率。

在步骤S300，根据目标语音识别模型中的语言识别模块和发音概率矩阵，确定目标音频对应的文字信息。

其中，本申请实施例的语言识别模块可以是基于统计模型构建的语言模型，也可以是基于神经网络模型构建的语言模型。文字信息用于表征目标音频对应的文字内容，在确定发音概率矩阵后，目标语音识别模型中的语言识别模块可以根据目标音频，确定目标音频对应的多种可能结果。进一步的，语言识别模块可以在发音概率矩阵对应的概率空间中搜索概率较大的结果作为文字信息，从而降低音频和文本之间的数据依赖，提高语音识别的准确率。

在一种可选的实施方式中，本申请实施例的语言识别模块可以基于汉语语言模型(N-Gram)构建，其中，N-Gram模型基于一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。因此，本申请实施例通过N-Gram模型，可以快速确定目标音频对应的文字信息。

在一种可选的实施方式中，本申请实施例的发音概率矩阵用于表征各声学建模单元及其对应的概率。其中，每个声学建模单元可以分别对应的一个发音，该发音可以是中文的汉语拼音及其发音声调，也可以是英文字母或者英文字母组合对应的发音。

进一步的，上述步骤S300可以包括如下步骤：

在步骤S310，将发音概率矩阵输入语言识别模块，确定目标音频对应的一个或多个中间识别结果。

其中，中间识别结果可以用于表征语言识别模块对目标音频进行初步识别的结果，该结果可以是目标音频对应的所有可能出现的结果，也可以是目标音频对应的出现概率最大的N个结果(N为大于等于1的自然数)。

具体的，语言识别模块可以根据发音概率矩阵中，声学建模单元及其对应的概率，确定声学建模单元对应的文字内容。进一步的，语言识别模块可以对各文字内容进行组合，从而确定可能出现的识别结果以及对应的概率分值。

在步骤S320，根据各中间结果对应的概率分值，确定目标音频对应的文字信息。其中，文字信息包括预定数量的候选文本。

具体的，本申请实施例可以结合发音概率矩阵的概率空间，在各中间结果选取预定数量的候选文本作为文字信息，其中，候选文本可以是语句或者短语等形式的文本，预定数量可以根据实际情况进行设置，例如，预定数量可以是9、10或者11等。

另外，本申请实施例在训练语言识别模块时，可以通过目标训练语料来训练语言识别模块，其中，目标训练语料是原始训练语料经过预设规则分词后得到的语料。

其中，本申请实施例可以通过预先设置的分词工具对原始训练语料进行分词，例如，预先设置的分词工具可以是jieba分词工具、ltp分词工具或者ir分词工具等。另外，本申请实施例可以通过预设规则限制语料的长度，例如，本申请实施例可以通过分词工具，将长度大于预定阈值的词进行分词处理，并基于分词处理后的语料(即目标训练语料)生成训练词典，以提高训练效率。

进一步的，本申请实施例可以通过语言模型训练工具(例如KenLM工具)训练语言识别模块，并通过训练后的语言识别模块识别目标音频对应的文字信息。进一步的，本申请实施例可以根据文字信息进行融合解码处理，从而确定音频识别结果。在此过程中，本申请实施例可以在发音概率矩阵对应的概率空间中搜索概率较大的文字信息，从而根据概率较大的文字信息确定准确的音频识别结果，降低了音频和文本之间的数据依赖，在面对新出现的词汇或者生僻词汇时，本申请实施例可以增加模型输出的可能性，提高语音识别的准确率。

在步骤S400，对文字信息进行融合解码处理，确定目标音频对应的音频识别结果。

其中，本申请实施例可以通过融合解码处理，在文字信息中确定目标音频对应的音频识别结果。在此过程中，由于本申请实施例确定了目标音频对应的发音概率矩阵，因此，本申请实施例在确定音频识别结果时，可以在发音概率矩阵对应的概率空间中搜索概率较大的文字信息，从而根据概率较大的文字信息确定准确的音频识别结果。也就是说，本申请实施例可以先在发音概率矩阵中匹配出较为准确的文字信息，再根据文字信息进行融合解码处理，从而确定音频识别结果，降低了音频和文本之间的数据依赖，在面对新出现的词汇或者生僻词汇时，本申请实施例可以增加模型输出的可能性，提高语音识别的准确率。

进一步的，上述步骤S400可以包括如下步骤：

在步骤S410，确定目标配置文件。

其中，目标配置文件用于表征声学建模单元和多音字之间的对应关系。具体的，目标配置文件可以是lexicon文件，本申请实施例可以先通过音节转换工具生成文字信息对应的汉语拼音等信息，进而再根据预先设置的拼音词典，对文字信息中的多音字进行拼音补充，从而生成lexicon文件并用于融合解码处理。

例如，如图5所示，图5为本申请实施例的目标配置文件51的示意图，其中，“朝阳”一词可以对应两种不同的读音，即“chao2 yang2”和“zhao1 yang2”。进一步的，目标配置文件51可以在融合解码处理中对多音字进行信息补充，从而提高语音识别的准确率。

也就是说，当目标音频中出现某个多音字的不常用读音时，目标语音识别模型容易根据该读音识别出错误的音频识别结果，此时，本申请实施例可以通过目标配置文件51，对多音字的发音进行补充，从而提高本申请实施例对于多音字的识别准确率，进而提高语音识别的准确率。

在步骤S420，基于目标配置文件，对文字信息进行解码处理，以确定目标音频对应的音频识别结果。

在本申请实施例进行解码处理的过程中，本申请实施例可以通过目标配置文件对多音字的发音进行补充，降低多音字的常用发音对于不常用发音的影响，提高多音字的识别准确率，从而提高语音识别的准确率。因此，本申请实施例可以降低音频和文本之间的数据依赖，在面对新出现的词汇或者生僻词汇时，本申请实施例可以增加模型输出的可能性，提高语音识别的准确率。

在一种可选的实施方式中，本申请实施例的目标语音识别模型还可以包括注意力解码器(Attention Decoder)，该注意力解码器可以包括多层transformer层，其可以用于对文字信息进行融合解码处理。

具体的，上述步骤S420可以包括如下步骤：

在步骤S421，基于目标配置文件和注意力解码器，确定文字信息中各文本对应的目标概率。

其中，文字信息中的文本可以是上述候选文本，在本申请实施例中，文字信息是语言识别模块输出的候选结果，该候选结果对应了语言识别模块生成的概率。本申请实施例在融合解码处理过程中，可以基于目标配置文件，对文字信息中的各个文本进行二次概率预测，以确定文字信息中各文本对应的目标概率。

在步骤S422，根据目标概率，确定目标音频对应的音频识别结果。

结合上述实施方式，如图6所示，本申请实施例在确定音频识别结果时，可以先获取目标音频12并确定目标音频12对应的Fbank特征61，再将Fbank特征61输入共享编码器31中，以使得共享编码器31输出目标音频12对应的音频特征矩阵33。进而，本申请实施例可以将音频特征矩阵33输入连接时序分类解码器32，以确定音频特征矩阵33对应的发音概率矩阵34。

进一步的，本申请实施例可以将发音概率矩阵34输入语言识别模块62中，以使得语言识别模块62在发音概率矩阵34对应的概率空间中搜索出现概率较大的文字内容作为文字信息63。其中，文字信息63中可以包括预定数量的候选文本。在确定文字信息63后，本申请实施例的注意力解码器65可以基于目标配置文件64，对文字信息63进行融合解码处理，从而确定音频识别结果14。

需要说明的，本申请实施例在根据目标概率确定音频识别结果时，可以将目标概率中，概率值最大的文本确定为目标音频对应的音频识别结果，也可以将目标概率和语言识别模块输出的概率(即文字信息对应的概率)按照一定的权重进行加权融合，并根据融合后的概率值大小确定音频识别结果。因此，本申请实施例在确定音频识别结果时，可以在发音概率矩阵对应的概率空间中搜索概率较大的文字信息，从而根据概率较大的文字信息确定准确的音频识别结果，降低了音频和文本之间的数据依赖，在面对新出现的词汇或者生僻词汇时，本申请实施例可以增加模型输出的可能性，提高语音识别的准确率。

在一种可选的实施方式中，本申请实施例的目标语音识别模型可以基于目标训练集训练。其中，目标训练集中至少包括预先构建的中英文拼接训练词表，目标语音识别模型对应的损失函数由连接时序分类损失和注意力损失组成。

在日常用语中，用户的语音(即目标音频)可能全部由中文组成，也可能全部由英文组成，还可能由中文和英文混合组成。此时，只针对中文或者只针对英文的声学模型并不能满足日常的人机交互需求，因此，本申请实施例可以通过预先构建的中英文拼接训练词表训练目标语音识别模型，以使得目标语音识别模型可以识别中英文混合的目标音频，从而应对上述多种情况。

例如，如图7所示，图7为本申请实施例的中英文拼接训练词表71的示意图。

其中，“ZZ”、“Z”、“a1”、“a2”和“a3”用于表征中英文拼接训练词表71中的声学建模单元，每个声学建模单元可以分别对应的一个发音。“ZZ”和“Z”用于表征英文字母或者英文字母组合对应的发音，“a1”、“a2”和“a3”用于表征汉语拼音及其对应的发音声调(例如“zhong1”或者“wen2”等)。“ZZ”、“Z”、“a1”、“a2”和“a3”后方的数字用于表征声学建模单元对应的训练标注，在训练过程中，本申请实施例可以通过训练标注表征对应的声学建模单元，从而计算损失并调整目标语音识别模型。

目标语音识别模型对应的损失函数可以由连接时序分类(CTC)损失和注意力(Attention)损失组成，具体的，目标语音识别模型对应的损失函数可以通过如下公式表示：

L_combined(x,y)＝λL_CTC(x,y)+(1-λ)L_AED(x,y)

其中，L_combined(x,y)用于表征连接时序分类损失和注意力损失组合而成的联合损失，L_CTC(x,y)用于表征连接时序分类损失，L_AED(x,y)用于表征注意力损失，x用于表征输入目标语音识别模型的音频特征，y用于表征音频标注序列，λ用于表征预设权重。

需要说明的，本申请实施例可以通过上述目标训练语料来训练语言识别模块，通过联合损失L_combined(x,y)来训练声学识别模块和注意力解码器。可选的，本申请实施例可以将wenet模型中的共享编码器和连接时序分类解码器作为目标语音识别模型中的声学识别模块，将wenet模型中的注意力解码器作为目标语音识别模型中的注意力解码器。

如图8所示，本申请实施例在训练声学识别模块和注意力解码器时，可以确定训练样本81对应的Fbank特征82，其中，训练样本81可以是目标训练集中的音频样本。

进一步的，本申请实施例可以将Fbank特征82输入共享编码器31，以使得共享编码器31对Fbank特征82进行编码处理，以确定训练样本81对应的音频特征矩阵。进而，本申请实施例可以将音频特征矩阵输入连接时序分类解码器32和注意力解码器65，根据连接时序分类解码器32的输出结果和标注序列85确定连接时序分类损失83，并根据注意力解码器65的输出结果和标注序列85确定注意力损失84。其中，标注序列85可以根据上述中英文拼接训练词表确定，也可以根据其它类型的训练标签确定。

进一步的，本申请实施例在确定连接时序分类损失83和注意力损失84后，可以根据上述公式，计算声学识别模块和注意力解码器对应的联合损失函数(即上述L_combined(x,y))，并根据该联合损失函数调整声学识别模块和注意力解码器的模型参数，以实现对目标语音识别模型的训练。

通过本申请实施例，可以基于训练后的目标语音识别模型确定目标音频对应的音频识别结果。在此过程中，由于本申请实施例确定了目标音频对应的发音概率矩阵，因此，本申请实施例在确定音频识别结果时，可以在发音概率矩阵对应的概率空间中搜索概率较大的文字信息，从而根据概率较大的文字信息确定准确的音频识别结果。也就是说，本申请实施例可以先在发音概率矩阵中匹配出较为准确的文字信息，再根据文字信息进行融合解码处理，从而确定音频识别结果，降低了音频和文本之间的数据依赖，在面对新出现的词汇或者生僻词汇时，本申请实施例可以增加模型输出的可能性，提高语音识别的准确率。

基于相同的技术构思，本申请实施例还提供了一种音频处理装置，如图8所示，该装置包括：目标音频获取单元91、声学识别单元92、语言识别单元93和解码单元94。

目标音频获取单元91，被配置为执行获取目标音频。

声学识别单元92，被配置为执行根据目标语音识别模型中的声学识别模块，识别所述目标音频对应的发音概率矩阵。

语言识别单元93，被配置为执行根据所述目标语音识别模型中的语言识别模块和所述发音概率矩阵，确定所述目标音频对应的文字信息。

解码单元94，被配置为执行对所述文字信息进行融合解码处理，确定所述目标音频对应的音频识别结果。

所述声学识别单元92具体被配置为执行：

在一些实施例中，所述声学识别单元92具体被配置为执行：

在一些实施例中，所述语言识别单元93具体被配置为执行：

在一些实施例中，所述解码单元94具体被配置为执行：

所述解码单元94具体被配置为执行：

图10是本申请实施例的电子设备的示意图。如图10所示，图10所示的电子设备为通用地址查询装置，其包括通用的计算机硬件结构，其至少包括处理器101和存储器102。处理器101和存储器102通过总线103连接。存储器102适于存储处理器101可执行的指令或程序。处理器101可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器101通过执行存储器102所存储的指令，从而执行如上所述的本申请实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线103将上述多个组件连接在一起，同时将上述组件连接到显示控制器104和显示装置以及输入/输出(I/O)装置105。输入/输出(I/O)装置105可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置105通过输入/输出(I/O)控制器106与系统相连。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本申请的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域技术人员而言，本申请可以有各种改动和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取目标音频；

根据目标语音识别模型中的声学识别模块，识别所述目标音频对应的发音概率矩阵；

根据所述目标语音识别模型中的语言识别模块和所述发音概率矩阵，确定所述目标音频对应的文字信息；以及

2.根据权利要求1所述的方法，其特征在于，所述声学识别模块包括共享编码器和连接时序分类解码器；

根据所述共享编码器，确定所述目标音频对应的音频特征矩阵；以及

3.根据权利要求2所述的方法，其特征在于，所述根据所述共享编码器，确定所述目标音频对应的音频特征矩阵包括：

对所述目标音频进行音频特征提取，确定所述目标音频对应的目标特征；以及

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标语音识别模型中的语言识别模块和所述发音概率矩阵，确定所述目标音频对应的文字信息包括：

将所述发音概率矩阵输入所述语言识别模块，确定所述目标音频对应的一个或多个中间识别结果；以及

5.根据权利要求1所述的方法，其特征在于，所述对所述文字信息进行融合解码处理，确定所述目标音频对应的音频识别结果包括：

确定目标配置文件，所述目标配置文件用于表征声学建模单元和多音字之间的对应关系；以及

6.根据权利要求5所述的方法，其特征在于，所述目标语音识别模型还包括注意力解码器；

基于所述目标配置文件和所述注意力解码器，确定所述文字信息中各文本对应的目标概率；以及

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述目标语音识别模型基于目标训练集训练，所述目标训练集中至少包括预先构建的中英文拼接训练词表，所述目标语音识别模型对应的损失函数由连接时序分类损失和注意力损失组成。

8.一种音频处理装置，其特征在于，所述装置包括：

目标音频获取单元，被配置为执行获取目标音频；

声学识别单元，被配置为执行根据目标语音识别模型中的声学识别模块，识别所述目标音频对应的发音概率矩阵；

语言识别单元，被配置为执行根据所述目标语音识别模型中的语言识别模块和所述发音概率矩阵，确定所述目标音频对应的文字信息；以及

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。