CN112382275B

CN112382275B - 语音识别方法、装置、电子设备和存储介质

Info

Publication number: CN112382275B
Application number: CN202011219185.7A
Authority: CN
Inventors: 赵银楼; 张辽; 蒋正翔
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2023-08-15
Anticipated expiration: 2040-11-04
Also published as: KR102711073B1; JP7268113B2; CN112382275A; US20220028370A1; US12033615B2; JP2022020056A; KR20210116367A

Abstract

本申请公开了一种语音识别方法、装置、电子设备和存储介质，涉及语音技术领域及深度学习领域。具体实现方案为：获取待识别语音；获取待识别语音的声学特征和语言特征；将待识别语音输入至发音差异统计器以生成待识别语音对应的发音差异词对；以及根据发音差异词对、声学特征和语言特征生成待识别语音的文本信息。本申请通过挖掘发音差异词对，并将该发音差异词对与声学特征和语言特征一同输入至解码器进行识别，得到特定场景下待识别语音的文本信息，这样，使得语音识别系统可以从源头学到特定场景与简体中文之间的映射关系，无需额外训练翻译器进行效果提升，节省人力物力，可在原始系统的基础上进行扩展训练，降低中文语音识别系统的开发成本。

Description

语音识别方法、装置、电子设备和存储介质

技术领域

本申请涉及语音技术领域及深度学习领域，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

相关技术中，实现针对特定场景的中文识别系统通常分为以下步骤：首先进行数据标注，包括相关音频，以及音频标注，相关场景文本。之后进行模型训练，包括声学模型训练、语言模型训练。然后进行构图，构造Look-ahead(是指解码器搜索路径时，用于计算语言模型得分，进行路径裁剪的技术)，将声学模型、语言模型与解码器结合，形成最终的识别提。此外，由于目标场景结果资源的限制，要想获得好的效果，往往还需要训练一个翻译器将特定场景识别结果翻译成简体中文。

然而，目前训练针对特定场景的中文语音识别系统技术方案通常有以下缺点：1)项目周期长，因为实现该系统，按照上述方式，一般需要从头开始，这期间需要对模型进行选择、调试，同样会消耗大量人力物力；2)往往需要额外训练目标场景到简体中文的翻译系统，同样会消耗大量资源；3)由于是目标场景识别系统与翻译系统的结合，并不是强依赖关系，最终的效果受到二者共同的影响，增加了系统整合的困难程度。

发明内容

本申请提供了一种语音识别方法、装置、电子设备以及存储介质。

根据本申请的第一方面，提供了一种语音识别方法，包括：

获取待识别语音；

获取所述待识别语音的声学特征和语言特征；

将所述待识别语音输入至发音差异统计器以生成所述待识别语音对应的发音差异词对；以及

根据所述发音差异词对、所述声学特征和所述语言特征生成所述待识别语音的文本信息。

根据本申请的第二方面，提供了一种语音识别装置，包括：

第一获取模块，用于获取待识别语音；

第二获取模块，用于获取所述待识别语音的声学特征和语言特征；

第一生成模块，用于将所述待识别语音输入至发音差异统计器以生成所述待识别语音对应的发音差异词对；以及

第二生成模块，用于根据所述发音差异词对、所述声学特征和所述语言特征生成所述待识别语音的文本信息。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请第一方面实施例所述的语音识别方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本申请第一方面实施例所述的语音识别方法。

根据本申请的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本申请第一方面所述的语音识别方法。

根据本申请的技术方案，通过挖掘发音差异词对，并将该发音差异词对与声学特征和语言特征一同输入至解码器进行识别，从而得到特定场景下待识别语音的文本信息，这样，使得语音识别系统可以从源头学到特定场景与简体中文之间的映射关系，无需额外训练一个翻译器进行效果提升，节省人力物力，不需要重新开始进行模型训练，可在原始系统的基础上进行扩展训练，降低了中文语音识别系统的开发成本，缩短了语音识别系统的训练周期。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一个实施例的语音识别方法的流程图；

图2是根据本申请另一个实施例的语音识别方法的流程图；

图3是根据本申请又一个实施例的语音识别方法的流程图；

图4是传统的目标场景的中文识别系统的示例图；

图5是本申请实施例提出的基于发音差异的目标场景的中文识别系统的示例图。

图6是根据本申请一个实施例的语音识别装置的结构框图。

图7是根据本申请另一个实施例的语音识别装置的结构框图。

图8是根据本申请又一个实施例的语音识别装置的结构框图

图9是用来实现本申请实施例的语音识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

语音识别系统的出现解决了用户的双手，极大方便了用户，是未来技术的大趋势。一般来说普通话语音识别在一定程度上都能较好的满足用户需求，给用户带来良好的使用体验。但是，对于某些特定场景，比如粤语搜索语音识别系统的效果往往并没有普通话搜索的语音识别效果好。造成的主要原因是搜索粤语训练资源都比较少，进行人工标注的成本相对来说比较大。要想针对粤语搜索进行训练，就不得不增加更多的资源。此外，一般来说粤语搜索的最终结果资源往往比较少，而简体中文搜索的最终中文资源往往十分丰富，仅仅训练目标场景的识别系统，最终的效果往往达不到预期，无法满足用户需求，人们不得不训练与之相关匹配粤语-普通话文本翻译器，而这有进一步加大了工作负担。

要想实现针对特定场景的中文识别系统，传统来讲，一般分为以下步骤：首先进行数据标注，包括相关音频，以及音频标注，相关场景文本。之后进行模型训练，包括声学模型训练、语言模型训练。然后进行构图，构造Look-ahead(是指解码器搜索路径时，用于计算语言模型得分，进行路径裁剪的技术)，将声学模型、语言模型与解码器结合，形成最终的识别提。此外，由于目标场景结果资源的限制，要想获得好的效果，往往还需要训练一个翻译器将特定场景识别结果翻译成简体中文。

然而，目前训练针对特定场景的中文语音识别系统技术方案通常有以下缺点：1)项目周期长，因为实现该系统，按照上述方式，一般需要从头开始，这期间需要对模型进行选择、调试，同样会消耗大量人力物力；2)往往需要额外训练目标场景到简体中文的翻译系统，同样会消耗大量资源；3)由于是目标场景识别系统与翻译系统的结合，并不是强依赖关系，最终的效果受到二者共同的影响，增加了系统整合的困难程度

为了能够解决上述技术问题，本申请提出了一种语音识别方法、装置、电子设备和存储介质，能够利用已有系统资源，节省人力物力，进行快速的迭代实现，并同时取得较好的效果。具体地，下面参考附图描述本申请实施例的语音识别方法、装置、电子设备和存储介质。

图1是根据本申请一个实施例的语音识别方法的流程图。需要说明的是，本申请实施例的语音识别方法可应用于本申请实施例的语音识别装置，该语音识别装置可被配置于电子设备上。

如图1所示，该语音识别方法可以包括：

步骤101，获取待识别语音。

举例而言，假设本申请实施例的语音识别方法适用于特定目标场景的中文识别系统。例如，以粤语到简体中文识别为例，本申请可以实现将粤语语音进行识别，得到对应的简体中文文本。作为一种示例，上述该待识别语音的语言类型可为粤语。

作为一种示例，本申请实施例的语音识别方法可应用于搜索引擎，例如，搜索引擎可支持粤语语音识别，当监测到用户通过搜索引擎输入了粤语语音时，可将用户输入的语音确定为待识别语音，然后对该待识别语音进行识别，得到对应的简体中文文本，以便搜索引擎利用该简体中文文本进行搜索，从而可以实现粤语语音搜索的功能。

步骤102，获取待识别语音的声学特征和语言特征。

在本申请实施例中，在获得待识别语音时，可将该待识别语音输入至声学模型，获取该待识别语音的声学特征，并将该待识别语音输入至语言模型，获得该待识别语音的语言特征。

在本申请实施例中，声学模型可采用GMM(Gaussian Mixed Model，高斯混合模型)-HMM(Hidden Markov Model，隐马尔可夫模型)、或DNN(Deep Neural Networks，深度神经网络)-HMM训练而得到的模型；语言模型可采用N-Gram(一种基于统计的语言模型)或者NNLM(Nerual Network Language Model，神经网络语言模型)训练而得到的模型。

步骤103，将待识别语音输入至发音差异统计器以生成待识别语音对应的发音差异词对。

在本步骤中，在获得待识别语音时，可将该待识别语音输入到预先训练的发音差异统计器，以获得与该待识别语音对应的发音差异词对。例如，对于一个音频，识别的文本是"乜嘢"，它的发音是"mie ye",而标注文本是"什么"，它的发音是"shen me"，这样『shenme』与『mie ye』就是一个发音差异词对。

需要说明的是，在本申请实施例中，该发音差异统计器是通过预先训练而得到的。该发音差异统计器主要是统计标注文本与识别文本之间的词对之间的发音差异，可根据实际情况设置阈值，进行发音差异词对筛选。在获得大量相关目标场景下的目标样本文本后，使用原始语音识别系统进行预测，通过对比识别结果与目标样本文本之间的差异性，进而找到相关发音差异词对，最终挖掘到目标样本文本的扩展发音。该发音差异统计器的训练过程可参见后续实施例的描述。

步骤104，根据发音差异词对、声学特征和语言特征生成待识别语音的文本信息。

在本申请一些实施例中，可将发音差异词对、声学特征和语言特征输入至解码器以生成该待识别语音的文本信息。

需要说明的是，在本申请实施例中，解码器可建立在WFST(Weighted Finaite-State Transducer，加权有限状态转换器)基础之上。也就是说，可利用WFST模型训练解码器。

还需要说明的是，本申请实施例的语音识别方法应用于中文语音识别系统，该中文语音识别系统包括发音差异统计器、声学模型、语言模型和解码器。可利用该中文语音识别系统对粤语语音进行识别，以得到与该粤语语音对应的简体中文文本，从而实现对粤语语音到中文文本的识别功能。

根据本申请实施例的语音识别方法，可获取待识别语音，并获取待识别语音的声学特征和语言特征；将待识别语音输入至发音差异统计器以生成待识别语音对应的发音差异词对，然后，根据发音差异词对、声学特征和语言特征生成待识别语音的文本信息。由此可见，传统语音识别系统往往需要训练一个翻译器将特定场景识别结果翻译成简体中文以提升识别效果，而本申请通过挖掘发音差异词对，并将该发音差异词对与声学特征和语言特征一同输入至解码器进行识别，从而得到特定场景下待识别语音的文本信息，这样，使得语音识别系统可以从源头学到特定场景与简体中文之间的映射关系，无需额外训练一个翻译器进行效果提升，节省人力物力，不需要重新开始进行模型训练，可在原始系统的基础上进行扩展训练，降低了中文语音识别系统的开发成本，缩短了语音识别系统的训练周期。

需要说明的是，上述发音差异统计器可通过预先训练而得到的。在本申请一些实施例中，如图2所示，该发音差异统计器可通过以下步骤训练得到：

步骤201，获取目标场景下的目标样本文本。

在本申请一些实施例中，可获取样本文本，并将样本文本输入至目标场景文本分类器之中以判断样本文本是否属于目标场景，如果属于目标场景，则将样本文本作为目标样本文本；如果不属于目标场景，则丢弃样本文本。

作为一种示例，可采用网络爬虫技术从互联网上的各种网站中获取样本文本。例如，可采用网络爬虫技术从网站上获取样本文本，将该样本文本输入到预先训练的目标场景文本分类器之中，根据目标场景文本分类器的分类结果判断该样本文本是否属于目标场景，如果属于目标场景，则将该样本文本确定为目标样本文本，否则丢弃该样本文本。以目标场景为粤语到简体中文识别为例，采用网络爬虫技术中获取样本文本，将该样本文本输入到目标场景文本分类器，以获得与该目标场景相匹配的样本文本，将与该目标场景相匹配的样本文本确定为目标样本文本。

其中，在本申请实施例中，目标场景文本分类器可以是各种分类器，比如贝叶斯文本分类器、支持向量机文本分类器、神经网络文本分类器等等，可根据实际情况进行定制，甚至也可以使用PPL值(即困惑度)，进行数据过滤。该分类器的主要作用是为了获得与目标场景相匹配数据。作为一种示例，可使用基于DNN的文本分类器，将目标场景文本作为正样本，非目标场景文本作为负样本，经过词向量映射，进而送到DNN中进行训练，最终得到目标场景文本分类器，以便用来挖掘目标场景下的目标样本文本。

步骤202，对目标样本文本进行识别以生成样本识别结果。

在本申请实施例中，在获得目标场景下的目标样本文本时，可使用原始语音识别系统进行预测，以得到样本识别结果。

步骤203，获取目标样本文本对应的第一音频，并获取样本识别结果对应的第二音频。

例如，以目标场景为粤语到简体中文识别为例，目标样本文本的语言种类为粤语，样本识别结果的语言种类可为中文，上述目标样本文本对应的第一音频可为粤语音频，样本识别结果对应的第二音频可为中文音频。

步骤204，获取第一音频和第二音频之间的发音差异词对。

可选地，通过对比第一音频与第二音频之间的差异性，以找到第一音频和第二音频之间的发音差异词对，可将该发音差异词对作为该目标场景下的目标样本文本的扩展发音。

步骤205，根据样本发音差异词对对发音差异统计器进行训练。

可选地，在得到样本发音差异词对之后，可将该样本发音差异词对与阈值进行大小比对，若样本发音差异词对的差异大小小于该阈值，即第一音频与第二音频的发音差异值小于该阈值，则可将该样本发音差异词对丢掉，保留发音差异值大于或等于该阈值的样本发音差异词对，这样，将每个目标样本文本的样本发音差异词对(即发音差异值大于阈值的样本发音差异词对)进行统计，将统计得到的发音差异词对作为发音差异统计器，以实现标注文本与识别文本之间的词对之间的发音差异的统计。作为另一种示例，可根据样本发音差异词对采用深度学习技术对发音差异统计器进行训练，从而得到训练好的发音差异统计器，以便利用训练好的发音差异统计器对语音进行识别以得到该语音对应的发音差异词对。

举例而言，对于一个音频，识别的文本是"乜嘢"，它的发音是"mie ye",而标注文本是"什么"，它的发音是"shen me"，这样『shen me』与『mie ye』就是一个发音差异词对，以此类推，通过统计标注文本与识别文本之间的词对之间的发音差异，以得到发音差异统计器。

由此可见，本申请利用已有特定场景系统，充分利用已有的数据资源进行数据挖掘训练，降低了额外资源标注成本；另外，通过挖掘发音差异词对，并送给中文语音识别系统进行训练，这样，使得语音识别系统便可以从源头学到特定场景与简体中文之间的映射关系。

需要说明的是，目标场景文本分类器可以是预先训练得到的。在本申请一些实施例中，如图3所示，该目标场景文本分类器可通过以下步骤训练得到：

步骤301，获取目标场景样本和非目标场景样本。

步骤302，分别获取目标场景样本和非目标场景样本的第一词向量表征和第二词向量表征。

步骤303，将第一词向量表征作为正样本，同时将第二词向量表征作为负样本输入至初始目标场景文本分类器，以对初始目标场景文本分类器进行训练。

需要说明的是，目标场景文本分类器可以是各种分类器，比如贝叶斯文本分类器、支持向量机文本分类器、神经网络文本分类器等，用户可根据实际情况进行定制，甚至也可以使用PPL值(即困惑度)，进行数据过滤，以获得与目标场景相匹配的数据。作为一种示例，初始目标场景文本分类器可以是基于DNN的文本分类器，将目标场景文本作为正样本，非目标场景文本作为负样本，经过词向量映射，进而送到DNN中进行训练，最终得到目标场景文本分类器，以便利用目标场景文本分类器挖掘目标场景下的目标样本文本。

为了方便本领域技术人员可以清楚地了解本申请，下面结合图4和图5进行详细描述。

如图4所示，为传统的目标场景的中文识别系统，以粤语到简体中文识别为例，本领域技术人员通常需要首先训练一个粤语语音识别系统，包括声学模型训练、语言模型训练等，之后再将识别的结果通过机器翻译的方式，翻译成中文文本。

如图5所示，为本申请实施例提出的基于发音差异的目标场景的中文识别系统的示例图。其中，目标场景文本分类器可以是各种分类器，比如贝叶斯文本分类器、支持向量机文本分类器、神经网络文本分类器等等，可根据实际情况进行定制，甚至也可以使用PPL值(即困惑度)，进行数据过滤。该分类器的主要作用是为了获得与目标场景相匹配数据。这里我们使用的是基于DNN的文本分类器，将目标场景文本作为正样本，非目标场景文本作为负样本，经过词向量映射，进而送到DNN中进行训练，最终得到文本分类器。最后用来挖掘目标场景文本。

发音差异统计器主要是统计标注文本与识别文本之间的词对之间的发音差异，用户可根据实际情况设置阈值，进行发音差异词对筛选。在获得大量相关目标文本后，使用原始语音识别系统进行预测，通过对比识别结果与目标文本之间的差异性，进而找到相关差异词对，最终挖掘到目标文本的扩展发音。

最后，中文语音识别系统可以在已有识别系统基础上利用筛选后的发音差异词对进行训练学习。扩展后的发音差异词对与语言模型、声学模型、解码器一起组成最终的中文语音识别系统，之后便可以将目标场景的音频识别成中文文本。

综上所述，本申请与传统目标场景的中文语音识别系统(例如粤语音频到中文文本识别)主要区别包括：1)不需要额外训练相关的文本翻译器，可直接生成中文文本；2)可充分利用已有的数据资源进行数据挖掘训练，降低额外资源标注成本；3)不需要重新训练另一套中文识别系统，可在原始系统的基础上进行扩展训练，降低中文语音识别系统的开发成本。

由此可见，本申请利用已有特定场景系统，实现系统的复用性，节省人力物力，不需要重新开始进行训练，缩短了项目周期；不需要额外训练翻译器，传统的训练方法，往往需要训练一个翻译器进行效果提升，而本申请通过挖掘发音差异对，并送给中文语音识别系统进行训练，这样该系统便可以从源头学到特定场景与简体中文之间的映射关系。

图6是根据本申请一个实施例的语音识别装置的结构框图。如图6所示，该语音识别装置600可以包括：第一获取模块601、第二获取模块602、第一生成模块603和第二生成模块604。

具体地，第一获取模块601用于获取待识别语音。

第二获取模块602用于获取待识别语音的声学特征和语言特征。

第一生成模块603用于将待识别语音输入至发音差异统计器以生成待识别语音对应的发音差异词对。

第二生成模块604用于根据发音差异词对、声学特征和语言特征生成待识别语音的文本信息。作为一种实例，第二生成模块604将发音差异词对、声学特征和语言特征输入至解码器以生成待识别语音的文本信息。

在本申请一些实施例中，如图7所示，该语音识别装置700还可包括：第一训练模块705。该第一训练模块705用于训练发音差异统计器。其中，在本申请实施例中，第一训练模块705具体用于：获取目标场景下的目标样本文本；对目标样本文本进行识别以生成样本识别结果；获取目标样本文本对应的第一音频，并获取样本识别结果对应的第二音频；获取第一音频和第二音频之间的发音差异词对；以及根据样本发音差异词对对发音差异统计器进行训练。

在本申请一些实施例中，第一训练模块705获取目标场景下的目标样本文本的具体实现过程可如下：获取样本文本；将样本文本输入至目标场景文本分类器之中以判断样本文本是否属于目标场景；如果属于目标场景，则将样本文本作为目标样本文本；如果不属于目标场景，则丢弃样本文本。

其中，图7中701-704和图6中601-604具有相同功能和结构。

在本申请一些实施例中，如图8所示，该语音识别装置800还可包括：第二训练模块806。第二训练模块806用于训练目标场景文本分类器。其中，在本申请实施例中，第二训练模块806具体用于：获取目标场景样本和非目标场景样本；分别获取目标场景样本和非目标场景样本的第一词向量表征和第二词向量表征；将第一词向量表征作为正样本，同时将第二词向量表征作为负样本输入至初始目标场景文本分类器，以对初始目标场景文本分类器进行训练。

其中，图8中801-805和图7中701-705具有相同功能和结构。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请实施例的语音识别装置，可获取待识别语音，并获取待识别语音的声学特征和语言特征；将待识别语音输入至发音差异统计器以生成待识别语音对应的发音差异词对，然后，根据发音差异词对、声学特征和语言特征生成待识别语音的文本信息。由此可见，传统语音识别系统往往需要训练一个翻译器将特定场景识别结果翻译成简体中文以提升识别效果，而本申请通过挖掘发音差异词对，并将该发音差异词对与声学特征和语言特征一同输入至解码器进行识别，从而得到特定场景下待识别语音的文本信息，这样，使得语音识别系统可以从源头学到特定场景与简体中文之间的映射关系，无需额外训练一个翻译器进行效果提升，节省人力物力，不需要重新开始进行模型训练，可在原始系统的基础上进行扩展训练，降低了中文语音识别系统的开发成本，缩短了语音识别系统的训练周期。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的用以实现语音识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音识别方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音识别方法对应的程序指令/模块(例如，附图6所示的第一获取模块601、第二获取模块602、第一生成模块603和第二生成模块604)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音识别方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用以实现语音识别方法的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至用以实现语音识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用以实现语音识别方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与用以实现语音识别方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，即本申请还提出了一种计算机程序，该计算机程序再被处理器执行时，实现上述实施例所描述的语音识别方法，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音识别方法，包括：

获取待识别语音；

获取所述待识别语音的声学特征和语言特征；

根据所述发音差异词对、所述声学特征和所述语言特征生成所述待识别语音的文本信息；

所述发音差异统计器通过以下步骤训练得到：

获取目标场景下的目标样本文本；

对所述目标样本文本进行识别以生成样本识别结果；

获取所述目标样本文本对应的第一音频，并获取所述样本识别结果对应的第二音频；

获取所述第一音频和所述第二音频之间的发音差异大于预设阈值的发音差异词对；

以及根据所述样本发音差异词对对所述发音差异统计器进行训练。

2.如权利要求1所述的语音识别方法，其中，所述获取目标场景下的目标样本文本，包括：

获取样本文本；

将所述样本文本输入至目标场景文本分类器之中以判断所述样本文本是否属于目标场景；

如果属于所述目标场景，则将所述样本文本作为所述目标样本文本；

如果不属于所述目标场景，则丢弃所述样本文本。

3.如权利要求2所述的语音识别方法，其中，所述目标场景文本分类器通过以下步骤训练得到：

获取目标场景样本和非目标场景样本；

分别获取所述目标场景样本和所述非目标场景样本的第一词向量表征和第二词向量表征；

将所述第一词向量表征作为正样本，同时将所述第二词向量表征作为负样本输入至初始目标场景文本分类器，以对所述初始目标场景文本分类器进行训练。

4.如权利要求1所述的语音识别方法，其中，所述根据所述发音差异词对、所述声学特征和所述语言特征生成所述待识别语音的文本信息，包括：

将所述发音差异词对、所述声学特征和所述语言特征输入至解码器以生成所述待识别语音的文本信息。

5.一种语音识别装置，包括：

第一获取模块，用于获取待识别语音；

第二生成模块，用于根据所述发音差异词对、所述声学特征和所述语言特征生成所述待识别语音的文本信息；

第一训练模块，用于训练所述发音差异统计器；

其中，所述第一训练模块具体用于：

获取目标场景下的目标样本文本；

对所述目标样本文本进行识别以生成样本识别结果；

获取所述第一音频和所述第二音频之间的发音差异大于预设阈值的发音差异词对；以及

根据所述样本发音差异词对对所述发音差异统计器进行训练。

6.如权利要求5所述的语音识别装置，其中，所述第一训练模块具体用于：

获取样本文本；

如果不属于所述目标场景，则丢弃所述样本文本。

7.如权利要求6所述的语音识别装置，还包括：

第二训练模块，用于训练所述目标场景文本分类器；

其中，所述第二训练模块具体用于：

获取目标场景样本和非目标场景样本；

8.如权利要求5所述的语音识别装置，其中，所述第二生成模块具体用于：

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至4中任一项所述的语音识别方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1至4中任一项所述的语音识别方法。