CN113450805B

CN113450805B - 基于神经网络的自动语音识别方法、设备及可读存储介质

Info

Publication number: CN113450805B
Application number: CN202110706592.9A
Authority: CN
Inventors: 方明; 魏韬; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-05-17
Anticipated expiration: 2041-06-24
Also published as: WO2022267451A1; CN113450805A

Abstract

本发明涉及一种人工智能，提供一种基于神经网络的自动语音识别方法、装置、电子设备及计算机可读存储介质，其中方法包括：通过ASR识别进程中的声学模型和ngram语言模型共同对待识别的音频进行识别处理，获取至少两个以上的初次识别结果；将所述初次识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型进行评分处理，获取gpt语言模型得分；将所述gpt语言模型得分传输至所述ASR识别进程，并替换所述ASR识别进程中的ngram语言模型得分；对所述ASR识别进程中的所述gpt语言模型得分与所述声学模型得分之和进行排序，并将排序结果中排序最前的识别结果作为最终识别结果。本发明主要目的在于通过采用gpt语言模型，解决数据稀疏性的问题。

Description

基于神经网络的自动语音识别方法、设备及可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于神经网络的自动语音识别方法、装置、电子设备及计算机可读存储介质。

背景技术

在传统的语音识别的过程中包括两个模型，分别是声学模型和语言模型；其中，语言模型一般采用ngram语言模型，ngram这种基于元组统计的概率模型，只能抓到词组前后的统计信息，无法学习到更深入的语法、语义信息，再加上这种词频统计的概率计算方法，有参数空间过大问题和数据稀疏严重的问题，尤其在高阶ngram模型中，随着阶数增加，ngram模型和稀疏性会指数级别增加。即使人们提出和很多种办法去努力解决ngram模型本身的问题，例如剪枝和回退，都只是减弱ngram模型的问题，无法从解决ngram语言模型的根本性问题。

目前一种常见的解决方案：保持原有ngram模型不变，在wfst解码之后，生成top n的ARS识别结果的基础上，重新对生成语句的语言模型进行打分，并进行重排序。采用有更多语料的ngram模型，更高阶的ngram模型等等；但常常遇到的问题是采用越复杂语言模型常常会导致更多的识别时延，用简单的语言模型往往不能取得准确的识别效果。

为了解决上述问题，亟需一种新的自动语音识别方案。

发明内容

本发明提供一种基于神经网络的自动语音识别方法、装置、电子设备及计算机可读存储介质，其主要目的在于通过采用gpt语言模型，解决数据稀疏性的问题。

为实现上述目的，本发明提供的基于神经网络的自动语音识别方法，应用于电子设备，所述方法包括：

通过ASR识别进程中的声学模型和ngram语言模型共同对待识别的音频进行识别处理，获取至少两个以上的初次识别结果；其中，每个识别结果包括声学模型得分、ngram语言模型得分及所述声学模型得分与所述ngram语言模型得分之和；

将所述初次识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型进行评分处理，获取gpt语言模型得分；

将所述gpt语言模型得分传输至所述ASR识别进程，并替换所述ASR识别进程中的ngram语言模型得分；

对所述ASR识别进程中的所述gpt语言模型得分与所述声学模型得分之和进行排序，并将排序结果中排序最前的识别结果作为最终识别结果。

可选地，所述通过ASR识别进程中声学模型和ngram语言模型对待识别的音频进行识别处理，获取至少两个以上的初次识别结果，包括如下步骤：

将所述待识别的音频转化为音频特征；

根据所述音频特征获取所述音频特征中每帧的后验概率；

根据所述每帧的后验概率，对ngram语言模型生成的wfst图进行viterbi解码生成lattice图；以及

根据所述lattice图，获取至少两个以上的初次识别结果。

可选地，所述将所述待识别的音频转化为音频特征，包括如下步骤：

对所述待识别音频进行分帧、加窗处理，获取规范音频；以及

通过MFCC特征提取算法对所述规范音频进行特征提取，获取所述待识别音频的音频特征。

可选地，所述根据所述音频特征获取所述音频特征中每帧的后验概率，包括如下步骤：

将所述音频特征提取为音频特征向量序列；

将所述音频特征向量序列输入预先训练好的声学模型，确定音素状态的时间边界；

根据所述时间边界，提取所述时间边界内的所有帧，按语音帧的帧长取平均值，作为所述语音帧的后验概率。

可选地，所述根据所述每帧的后验概率，对ngram语言模型生成的wfst图进行viterbi解码生成lattice图，包括如下步骤：

将所述ngram语言模型建模生成arpa格式的语言模型；

利用arpa2fst工具生成hclg结构的wfst图；

根据所述viterbi、所述后验概率及所述wfst图构建wfst搜索空间；

在所述wfst搜索空间内寻找匹配概率最大的最优路径，得到文字识别结果。

可选地，所述将所述识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型进行处理，获取gpt语言模型得分，包括如下步骤：

在预设时间内，将待重打分的语句拼凑成批量的待重新打分语句；

通过gpt语言模型对批量的待重新打分语句做神经网络前向推理；

累加所述待重新打分语句的每个词的后验概率，并以对数形式输出，以获取待重新打分语句的gpt语言模型得分。

为了解决上述问题，本发明还提供一种基于神经网络的自动语音识别装置，包括：

初次识别结果获取模块，用于通过ASR识别进程中的声学模型和ngram语言模型共同对待识别的音频进行识别处理，获取至少两个以上的初次识别结果；其中，每个识别结果包括声学模型得分、ngram语言模型得分及所述声学模型得分与所述ngram语言模型得分之和；

gpt语言模型得分获取模块，用于将所述识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型进行评分处理，获取gpt语言模型得分；

语言模型得分替换模块，用于将所述gpt语言模型得分传输至所述ASR识别进程，并替换所述ASR识别进程中的ngram语言模型得分；

最终识别结果获取模块，用于对所述ASR识别进程中的所述gpt语言模型得分与所述声学模型得分之和进行排序，并将排序结果中排序最前的识别结果作为最终识别结果。

可选地，所述初次识别结果获取模块包括音频特征转化模块、后验概率获取模块、lattice图获取模块和两个以上的识别结果获取模块，其中，

所述音频特征转化模块，用于将所述待识别的音频转化为音频特征；

所述后验概率获取模块，用于根据所述音频特征获取所述音频特征中每帧的后验概率；

所述lattice图获取模块，用于根据所述每帧的后验概率，对ngram语言模型生成的wfst图进行viterbi解码生成lattice图；

所述两个以上的识别结果获取模块，用于根据所述lattice图，获取至少两个以上的初次识别结果。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于神经网络的自动语音识别方法的步骤。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于神经网络的自动语音识别方法。

本发明实施例通过ASR识别进程中的声学模型和ngram语言模型共同对待识别的音频进行识别处理，获取至少两个以上的初次识别结果；将所述初次识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型进行评分处理，获取gpt语言模型得分；将所述gpt语言模型得分传输至所述ASR识别进程，并替换所述ASR识别进程中的ngram语言模型得分；对所述ASR识别进程中的所述gpt语言模型得分与所述声学模型得分之和进行排序，并将排序结果中排序最前的识别结果述所述gpt语言模型得分与所述声学模型得分的排序的结果作为最终识别结果。本发明的主要目的在于通过采用gpt语言模型，解决数据稀疏性的问题。

附图说明

图1为本发明一实施例提供的基于神经网络的自动语音识别方法的流程示意图；

图2为本发明一实施例提供的基于神经网络的自动语音识别装置的模块示意图；

图3为本发明一实施例提供的实现基于神经网络的自动语音识别方法的电子设备的内部结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

在下面的描述中，许多具体的细节被阐述。然而，应当理解的是，本发明的实施例可以在没有这些具体细节的情况下实现。在其他实例中，众所周知的方法、结构、和技术没有被详细地示出，以免模糊对本说明书的理解。对“一个实施例”、“实施例”、“示例性实施例”、“各种实施例”等等的参考表示本发明所描述的该实施例可包括特定的特征、结构、或特性，但并不是每一个实施例都必须包括该特定特征、结构、或特性。此外，短语“在一个实施例中”的反复使用不一定是指同一个实施例，尽管有可能是。

如本文所使用的，除非另外指明，使用序数形容词“第一”、“第二”、“第三”等等来描述公共的物体仅表明类似物体的不同实例正被参考，并且不意图暗示如此描述的该物体必须依照给定的顺序，无论在时间上、空间上、顺序上还是任何其他的方式。

如本文所使用的，除非另外指明，术语“移动设备”和/或“设备”一般是指无线通信设备，并且更具体地指以下的一个或多个：便携式电子设备、电话(例如，蜂窝式电话、智能手机)、计算机(例如，膝上型电脑、平板电脑)、便携式媒体播放器、个人数字助理(PDA)、或具有联网能力的任何其他电子设备。

本发明提供一种基于神经网络的自动语音识别方法。参照图1所示，为本发明一实施例提供的基于神经网络的自动语音识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于神经网络的自动语音识别方法包括：

S1：通过ASR识别进程中的声学模型和ngram语言模型共同对待识别的音频进行识别处理，获取至少两个以上的初次识别结果；其中，每个识别结果包括声学模型得分、ngram语言模型得分及所述声学模型得分与所述ngram语言模型得分之和；

S2：将所述初次识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型进行评分处理，获取gpt语言模型得分；

S3：将所述gpt语言模型得分传输至所述ASR识别进程，并替换所述ASR识别进程中的ngram语言模型得分；

S4：对所述ASR识别进程中的所述gpt语言模型得分与所述声学模型得分之和进行排序，并将排序结果中排序最前的识别结果作为最终识别结果。

上述为本发明人工智能的基于神经网络的自动语音识别方法，在本发明的基于神经网络的自动语音识别方法中，包含ASR(自动语音识别，Automatic Speech Recognition，简称“ASR”)识别进程和rescore(重打分)进程。ASR识别进程为音转字模块，采用传统的GMM-HMM技术路线，神经网络的建模单元为hmm state，输入为声学特征，经历声学模型和语言模型解码两个模块完成ASR识别。在识别开始前，要进行声学模型与语言模型的训练，声学模型的训练原理为神经网络的反向传播，需要大量的音频时长与标注文本；语言模型训练输入为大量的文本语料，做3gram语言模型建模生成arpa格式的语言模型，接着利用arpa2fst等工具生成hclg结构的wfst图，并作为输入用于语言模型解码。

在步骤S1中，所述通过ASR识别进程中声学模型和ngram语言模型对待识别的音频进行识别处理，获取至少两个以上的识别结果，包括如下步骤：

S111：将所述待识别的音频转化为音频特征；

S112：根据所述音频特征获取所述音频特征中每帧的后验概率；

S113：根据所述每帧的后验概率，对ngram语言模型生成的wfst图进行viterbi解码，生成lattice图；以及

S114：根据所述lattice图，获取top n个识别结果；其中，每个识别结果包含文本、声学模型得分、ngram语言模型得分及两个模型(声学模型、ngram语言模型)的得分之和。

其中，在步骤S111中，将所述待识别的音频转化为音频特征，包括如下步骤：

步骤S11101：对所述待识别音频语音进行分帧、加窗处理，获取规范音频；以及，

步骤S11102：通过MFCC特征提取算法对所述规范音频进行特征提取，获取所述待识别音频的音频特征。

在步骤S112中，所述将根据所述音频特征获取所述音频特征的中每帧的后验概率，包括如下步骤：

步骤S11201：将所述音频特征提取为音频特征向量序列；

步骤S11202：将所述音频特征向量序列音频特征输入预先训练好的声学模型，确定音素状态的时间边界；

步骤S11203：根据所述时间边界，提取所述时间边界内的所有帧，按语音帧的帧长取平均值，作为所述语音帧的后验概率。

其中，在步骤S113中，所述根据所述每帧的后验概率，对ngram语言模型生成的wfst图进行viterbi解码，生成lattice图，包括如下步骤：

步骤S11301：将ngram语言模型建模生成arpa格式的语言模型；

S11302：利用arpa2fst工具生成hclg结构的wfst图；

S11303：根据维特比算法(viterbi)、所述后验概率及所述wfst图构建wfst搜索空间；

S11304：在加权有限状态转换器(weightedfinite-statetransducer，wfst)搜索空间内寻找匹配概率最大的最优路径，得到文字识别结果。

其中，每个识别结果包含文本、声学模型得分、语言模型得分及声学模型得分和语言模型得分之和。

在本发明的实施例中，lattice图中可取出声学模型和语言模型得分。对lattice的每个输出做总得分的从小到大排序，回溯top1结果即为ngram语言模型输出的默认ASR结果，回溯top n结果则可以提取nbest信息，输出到rescore进程完成重打分工作。

在步骤S120中，rescore线程为重打分模块，因有gpu依赖被单独设计为一个进程，工作在gpu上面并使用TensorRT加速，除完成gpt语言模型的推理过程，还要负责解码线程的请求与响应。Rescore模块每次会输入固定batch大小的文本语句，输出每条文本对应的gpt语言模型得分。

其中，所述将所述识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型进行处理，获取gpt语言模型得分，包括如下步骤：

步骤S121：在预设时间内，将待rescore(重打分)的语句拼凑成批量的待重新打分语句；

步骤S122：通过gpt语言模型对批量的待重新打分语句做神经网络前向推理；

步骤S123：累加所述待重新打分语句的每个词的后验概率，并以对数形式输出，以获取待重新打分语句的gpt语言模型得分。

在本发明的一个具体的实施例中，例假设要打分的文本为“[CLS]the dog ishairy[SEP]”，那么输入到gpt模型文本序列为“[CLS]the dog is hairy”共5个词，在输出概率矩阵上取当前词对应下个词的概率，具体到本例中，“the”这个词的输出概率分布中，当前词的下个词为“dog”，则取“the”的概率分布项中“dog”词的概率项为其对应的输出概率，经此处理后，假定上述输入序列的输出对数概率序列为p1 p2 p3 p4 p5，累加p1到p5即为gpt语言模型得分。

在步骤S130和步骤S140中，在rescore进程再将gpt语言模型得分结果返回到ASR解码线程中，ASR解码线程用gpt语言模型得分替换掉top n语句中总得分中的ngram得分，再对新的总得分进行从小到大重排序，使用重排序的top 1的ASR文本作为最终的ASR识别结果，也就是说，将gpt语言模型得分、声学模型得分排序结果中排序最前的识别结果作为最终识别结果，从而达到提升ASR准确率的目的。

在本发明的实施例中，对ASR识别结果做GPT rescore，经过实验测试，对asr整体的识别结果的准确率有较高的提升，往往可以提升2个百分点左右,字准下降1个百分点左右。从时延的角度，仅会造成50ms左右的时延，对于整体语音识别系统的延时影响是很有限的。而识别准确率的提升，不仅仅是单纯的字准的下降，带来更好的ASR体验。还有对于依赖ASR识别结果的上游系统，例如语音客服机器人、智能语音助手、智能音箱等，都可以间接提升上游系统的效果，提升服务质量，提高客户满意度。

本发明实施例通过ASR识别进程中的声学模型和ngram语言模型共同对待识别的音频进行识别处理，获取至少两个以上的初次识别结果；将所述初次识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型进行评分处理，获取gpt语言模型得分；将所述gpt语言模型得分传输至所述ASR识别进程，并替换所述ASR识别进程中的ngram语言模型得分；对所述ASR识别进程中的所述gpt语言模型得分与所述声学模型得分之和进行排序，并将排序结果中排序最前的识别结果作为最终识别结果。本发明的主要目的在于通过采用gpt语言模型，解决数据稀疏性的问题。

如图2所示，是本发明基于神经网络的自动语音识别装置的功能模块图。

本发明所述基100可以安装于电子设备中。根据实现的功能，所述基于神经网络的自动语音识别装置可以包括：初次识别结果获取模块101、gpt语言模型得分获取模块102、语言模型得分替换模块103和最终识别结果获取模块104。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

初次识别结果获取模块101，用于通过ASR识别进程中的声学模型和ngram语言模型共同对待识别的音频进行识别处理，获取至少两个以上的初次识别结果；其中，每个识别结果包括声学模型得分、ngram语言模型得分及所述声学模型得分与所述ngram语言模型得分之和；

gpt语言模型得分获取模块102，用于将所述识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型进行评分处理，获取gpt语言模型得分；

语言模型得分替换模块103，用于将所述gpt语言模型得分传输至所述ASR识别进程，并替换所述ASR识别进程中的ngram语言模型得分；

最终识别结果获取模块104，用于对所述ASR识别进程中的所述gpt语言模型得分与所述声学模型得分之和进行排序，并将排序结果中排序最前的识别结果作为最终识别结果。

在本发明的实施例中，初次识别结果获取模块101包括音频特征转化模块、后验概率获取模块、lattice图获取模块和两个以上的识别结果获取模块，其中，

其中，音频特征转化模块包括规范音频获取模块和待识别音频的音频特征获取模块。其中，

所述规范音频获取模块，用于对所述待识别音频语音进行分帧、加窗处理，获取规范音频；以及，

所述待识别音频的音频特征获取模块，用于通过MFCC特征提取算法对所述规范音频进行特征提取，获取所述待识别音频的音频特征。

其中，所述后验概率获取模块，用于将根据所述音频特征获取所述音频特征的中每帧的后验概率，包括：音频特征向量序获取模块、音素状态的时间边界确定模块、后验概率确定模块。其中，

音频特征向量序列获取模块，用于将所述音频特征提取为音频特征向量序列；

音素状态的时间边界确定模块，用于将所述音频特征向量序列音频特征输入预先训练好的声学模型，确定音素状态的时间边界；

后验概率确定模块，用于根据所述时间边界，提取所述时间边界内的所有帧，按语音帧的帧长取平均值，作为所述语音帧的后验概率。

其中，lattice图生成模块，包括：arpa格式生成模块、wfst图生成模块、wfst搜索空间构建模块和文字识别结果确定模块，其中，

arpa格式生成模块，用于将ngram语言模型建模生成arpa格式的语言模型；

wfst图生成模块，用于利用arpa2fst工具生成hclg结构的wfst图；

wfst搜索空间构建模块，用于根据维特比算法(viterbi)、所述后验概率及所述wfst图构建wfst搜索空间；

文字识别结果确定模块，用于在所述wfst搜索空间搜索空间内寻找匹配概率最大的最优路径，得到文字识别结果。

其中，wfst(weightedfinite-statetransducer)，具体指加权有限状态转换器。

在本发明的实施例中，每个识别结果包含文本、声学模型得分、语言模型得分及两个模型(声学模型、语言模型)的得分之和。

在所述gpt语言模型得分获取模块102中，rescore线程即为重打分模块，因有gpu依赖被单独设计为一个进程，工作在gpu上面并使用TensorRT加速，除完成gpt语言模型的推理过程，还要负责解码线程的请求与响应。Rescore模块每次会输入固定batch大小的文本语句，输出每条文本对应的gpt语言模型得分。

其中，在gpt语言模型得分获取模块102中，在预设时间内，将待rescore(重打分)的语句拼凑成批量的待重新打分语句；

在本发明的一个具体的实施例中，例假设要打分的文本为“[CLS]the dog ishairy[SEP]”，那么输入到gpt模型文本序列为“[CLS]the dog is hairy”共5个词，在输出概率矩阵上取当前词对应下个词的概率，具体到本例中，“the”这个词的输出概率分布中，当前词的下个词为“dog”，则取“the”的概率分布项中“dog”词的概率项为其对应的输出概率，经此处理后，假定上述输入序列的输出对数概率序列为p1、p2、p3、p4、p5，累加p1到p5即为：gpt语言模型得分。

在语言模型得分替换模块103和最终识别结果获取模块104中，rescore进程再将gpt语言模型得分结果返回到ASR解码线程，ASR解码线程用gpt语言模型得分替换掉top n语句中总得分中的ngram得分，再对新的总得分进行从小到大重排序，使用重排序的top 1的ASR文本作为最终的ASR识别结果(排序结果中排序最前的识别结果作为最终识别结果)，从而达到提升ASR准确率的目的。

在本发明的实施例中通过ASR识别进程中的声学模型和ngram语言模型共同对待识别的音频进行识别处理，获取至少两个以上的初次识别结果；将所述初次识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型进行评分处理，获取gpt语言模型得分；将所述gpt语言模型得分传输至所述ASR识别进程，并替换所述ASR识别进程中的ngram语言模型得分；对所述ASR识别进程中的所述gpt语言模型得分与所述声学模型得分之和进行排序，并将排序结果中排序最前的识别结果作为最终识别结果。本发明的主要目的在于通过采用gpt语言模型，解决数据稀疏性的问题。

如图3所示，是本发明实现基于神经网络的自动语音识别方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如基于神经网络的自动语音识别程序12。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如数据稽核程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。存储器可以存储内容，该内容可由电子设备显示或被发送到其他设备(例如，耳机)以由其他设备来显示或播放。存储器还可以存储从其他设备接收的内容。该来自其他设备的内容可由电子设备显示、播放、或使用，以执行任何必要的可由电子设备和/或无线接入点中的计算机处理器或其他组件实现的任务或操作。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如数据稽核程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。电子还可包括芯片组(未示出)，其用于控制一个或多个处理器与用户设备的其他组件中的一个或多个之间的通信。在特定的实施例中，电子设备可基于

架构或

架构，并且处理器和芯片集可来自

处理器和芯片集家族。该一个或多个处理器104还可包括一个或多个专用集成电路(ASIC)或专用标准产品(ASSP)，其用于处理特定的数据处理功能或任务。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

此外，网络和I/O接口可包括一个或多个通信接口或网络接口设备，以提供经由网络(未示出)在电子设备和其他设备(例如，网络服务器)之间的数据传输。通信接口可包括但不限于：人体区域网络(BAN)、个人区域网络(PAN)、有线局域网(LAN)、无线局域网(WLAN)、无线广域网(WWAN)、等等。用户设备102可以经由有线连接耦合到网络。然而，无线系统接口可包括硬件或软件以广播和接收消息，其使用Wi-Fi直连标准和/或IEEE 802.11无线标准、蓝牙标准、蓝牙低耗能标准、Wi-Gig标准、和/或任何其他无线标准和/或它们的组合。

无线系统可包括发射器和接收器或能够在由IEEE 802.11无线标准所支配的操作频率的广泛范围内操作的收发器。通信接口可以利用声波、射频、光学、或其他信号来在电子设备与其他设备(诸如接入点、主机、服务器、路由器、读取设备、和类似物)之间交换数据。网络118可包括但不限于：因特网、专用网络、虚拟专用网络、无线广域网、局域网、城域网、电话网络、等等。

显示器可包括但不限于液晶显示器、发光二极管显示器、或由在美国马萨诸塞州剑桥城的E Ink公司(E Ink Corp.of Cambridge,Massachusetts)所制造的E-InkTM显示器。该显示器可用于将内容以文本、图像、或视频的形式显示给用户。在特定的实例中，该显示器还可以作为触控屏显示器操作，其可以使得用户能够藉由使用某些手指或手势来触摸屏幕以启动命令或操作。

图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图2示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的基于神经网络的自动语音识别程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

在本发明的实施例中，计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于神经网络的自动语音识别方法的步骤，具体方法如下：

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

以上参考根据本发明的示例性实施例的系统和方法和/或计算机程序产品的框图和流程图描述了本发明的某些实施例。应当理解的是，框图和流程图中的一个或多个方框、以及在框图和流程图中的方框的组合，可以分别由计算机可执行程序指令实现。同样地，根据本发明的一些实施例，框图和流程图中的一些方框可以不必按照所呈现的顺序执行，或者甚至可以完全不需要执行。

这些计算机可执行程序指令可以被加载到通用计算机、专用计算机、处理器、或其他可编程数据处理装置上以产生特定机器，使得在计算机、处理器、或其他可编程数据处理装置上执行的指令创建用于实现在流程图方框或多个方框中所指定的一个或多个功能的构件。这些计算机程序产品还可以存储在计算机可读存储器中，其可以指导计算机或其他可编程数据处理装置以特定的方式运行，使得存储在计算机可读存储器中的指令产生制品，该制品包括实现在流程图的方框或多个方框中指定的一个或多个功能的指令构件。例如，本发明的实施例可提供计算机程序产品，其包括其中包含有计算机可读程序代码或程序指令的计算机可用介质，所述计算机可读程序代码适于被执行以实现在流程图方框或多个方框中指定的一个或多个功能。计算机程序指令还可以被加载到计算机或其他可编程数据处理装置上，以致使一系列操作元素或步骤在计算机或其他可编程装置上执行易产生计算机实现的程序，使得在计算机或其他可编程装置上执行的指令提供用于实现在流程图方框或多个方框中指定的功能的元素或步骤。

相应地，框图或流程图中的方框支持用以执行指定功能的构件的组合、用于执行指定功能的元素或步骤与用于执行指定功能的程序指令构件的组合。还应当理解的是，框图和流程图中的每个方框以及框图和流程图中的方框的组合可由执行指定功能、元素或步骤的专用的基于硬件的计算机系统实现，或由专用硬件或计算机指令的组合实现。

虽然本发明的某些实施例已经结合目前被认为是最实用的且各式各样的实施例进行了描述，但应当理解，本发明并不限于所公开的实施例，而是意在覆盖包含在所附权利要求书的范围之内的各种修改和等价布置。虽然本文采用了特定的术语，但它们仅以一般性和描述性的意义使用，而不是用于限制的目的。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于神经网络的自动语音识别方法，应用于电子设备，其特征在于，所述方法包括：

将所有的初次识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型对每个初次识别结果进行评分处理，获取所有的初次识别结果的gpt语言模型得分，其中，所述rescore进程为重打分的进程，所述gpt语言模型为生成性预训练模型；

对所述gpt语言模型得分与所述声学模型得分之和进行排序，并将排序结果中排序最前的识别结果作为最终识别结果。

2.如权利要求1所述的基于神经网络的自动语音识别方法，其特征在于，

所述通过ASR识别进程中声学模型和ngram语言模型共同对待识别的音频进行识别处理，获取至少两个以上的初次识别结果，包括如下步骤：

将所述待识别的音频转化为音频特征；

根据所述音频特征获取所述音频特征中每帧的后验概率；

根据所述lattice图，获取至少两个以上的初次识别结果。

3.如权利要求2所述的基于神经网络的自动语音识别方法，其特征在于，所述将所述待识别的音频转化为音频特征，包括如下步骤：

4.如权利要求2所述的基于神经网络的自动语音识别方法，其特征在于，所述根据所述音频特征获取所述音频特征中每帧的后验概率，包括如下步骤：

将所述音频特征提取为音频特征向量序列；

5.如权利要求2所述的基于神经网络的自动语音识别方法，其特征在于，

所述根据所述每帧的后验概率，对ngram语言模型生成的wfst图进行viterbi解码生成lattice图，包括如下步骤：

将所述ngram语言模型建模生成arpa格式的语言模型；

利用arpa2fst工具生成hclg结构的wfst图；

6.如权利要求1所述的基于神经网络的自动语音识别方法，其特征在于，

所述将所述识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型进行处理，获取gpt语言模型得分，包括如下步骤：

7.一种基于神经网络的自动语音识别装置，其特征在于，所述装置包括：

gpt语言模型得分获取模块，用于将所有的识别结果传输至rescore进程，并通过rescore进程中的gpt语言模型对每个初次识别结果进行评分处理，获取所有的初次识别结果的gpt语言模型得分，其中，所述rescore进程为重打分的进程，所述gpt语言模型为生成性预训练模型；

最终识别结果获取模块，用于对所述gpt语言模型得分与所述声学模型得分之和进行排序，并将排序结果中排序最前的识别结果作为最终识别结果。

8.如权利要求7所述的基于神经网络的自动语音识别装置，其特征在于，

所述初次识别结果获取模块包括音频特征转化模块、后验概率获取模块、lattice图获取模块和两个以上的识别结果获取模块，其中，

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一所述的基于神经网络的自动语音识别方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的基于神经网络的自动语音识别方法。