CN112002308B

CN112002308B - 一种语音识别方法及装置

Info

Publication number: CN112002308B
Application number: CN202011184868.3A
Authority: CN
Inventors: 宋鲜艳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2024-01-09
Anticipated expiration: 2040-10-30
Also published as: CN112002308A

Abstract

本申请涉及计算机技术领域，尤其涉及一种语音识别方法及装置，获取待识别音频帧序列；分别提取所述待识别音频帧序列中各待识别音频帧的声学特征；根据所述各待识别音频帧的声学特征和已生成的解码图，对所述待识别音频帧序列进行解码，确定所述待识别音频帧序列对应的词语的识别结果，其中，所述解码图是至少根据声学模型和发音词典而生成的，所述声学模型用于基于声学特征以识别音素，所述发音词典用于针对已知音素以识别输出所述已知音素对应的词语文本，并针对未知音素以识别输出以所述未知音素的音素文本表示的词语文本，这样，可以自动发现新词和不同发音，进而提高语音识别准确性。

Description

一种语音识别方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音识别方法及装置。

背景技术

在语音识别场景中，例如进行音频转录时，需要对音频进行解码识别，通常在语音识别中，会预先构建语音识别的发音词典，发音词典是非常重要的一部分，只有词语在发音词典中有正确的发音，该词语才能够被正确识别，而实际中经常会出现一些新词或者已有词语的不同发音的情况，很容易识别错误，相关人员也无法及时了解出现错误的原因，从而会降低语音识别的准确性。

发明内容

本申请实施例提供一种语音识别方法及装置，以能够实现自动发现新词和不同发音，进而提高语音识别准确性。

本申请实施例提供的具体技术方案如下：

本申请一个实施例中提供了一种语音识别方法，包括：

获取待识别音频帧序列；

分别提取所述待识别音频帧序列中各待识别音频帧的声学特征；

根据所述各待识别音频帧的声学特征和已生成的解码图，对所述待识别音频帧序列进行解码，确定所述待识别音频帧序列对应的词语的识别结果，其中，所述解码图是至少根据声学模型和发音词典而生成的，所述声学模型用于基于声学特征以识别音素，所述发音词典用于针对已知音素以识别输出所述已知音素对应的词语文本，并针对未知音素以识别输出以所述未知音素的音素文本表示的词语文本。

本申请另一个实施例中提供了一种语音识别装置，包括：

获取模块，用于获取待识别音频帧序列；

提取模块，用于分别提取所述待识别音频帧序列中各待识别音频帧的声学特征；

解码模块，用于根据所述各待识别音频帧的声学特征和已生成的解码图，对所述待识别音频帧序列进行解码，确定所述待识别音频帧序列对应的词语的识别结果，其中，所述解码图是至少根据声学模型和发音词典而生成的，所述声学模型用于基于声学特征以识别音素，所述发音词典用于针对已知音素以识别输出所述已知音素对应的词语文本，并针对未知音素以识别输出以所述未知音素的音素文本表示的词语文本。

本申请另一个实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一种语音识别方法的步骤。

本申请另一个实施例中提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种语音识别方法的步骤。

本申请实施例中，获取待识别音频帧序列，并分别提取各待识别音频帧的声学特征，进而根据解码图，对待识别音频帧序列进行解码，确定待识别音频帧序列的词语的识别结果，其中，生成解码图的发音词典，可以对已知音素以识别输出已知音素对应的词语文本，并针对未知音素以识别输出以未知音素的音素文本表示的词语文本，这样，在出现新词或新发音时，即出现了未知音素，可以直接输出以音素文本序列表示的词语文本序列，从而可以根据识别结果，自动发现待识别音频帧序列中的新词和已有词语的新发音，并且还可以根据音素文本序列，进而可以不断更新发音词典，将新词的音素文本序列和已有词的新的音素文本序列，加入发音词典中，因此可以提高语音识别准确性。

附图说明

图1为本申请实施例中语音识别方法的应用架构示意图；

图2为本申请实施例中一种语音识别方法流程图；

图3为本申请实施例中发音词典有限状态转换器逻辑原理示意图；

图4为本申请实施例中的另一种语音识别方法流程示意图；

图5为本申请实施例中语音识别装置结构示意图；

图6为本申请实施例中电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本申请实施例的理解，下面先对几个概念进行简单介绍：

音频转录：即是将音频转换为文本。

音素：表示最小的语音单位，音素分为元音、辅音两大类，依据音节里的发音动作来分析，一个动作构成一个音素。

加权有限状态转换器（Weight Finite State Transducers，WFST）：与有限状态转换器（finite-state transducer，FST）的区别在于，WFST的转移路径上附有权重，使用WFST来表征HCLG模型，可以更方便的对这些模型进行融合优化，进而生成解码网络，本申请实施例中解码网络，也可以称为解码图，即HCLG.fst。HCLG.fst是由四个fst经过一系列算法（例如组合、确定化和最小化等）组合而成的，其中，这四个fst分别是H.fst、C.fst、L.fst和G.fst，分别是隐马尔科夫（Hidden Markov Models，HMM）模型、上下文环境、发音词典和语言模型对应的fst，HMM模型即为声学模型。例如，本申请实施例中，可以采用HCLG解码图或HCL解码图，对待识别音频帧序列进行解码，而识别出对应的词语文本序列。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。例如，本申请实施例中，主要是针对人工智能中的语音处理技术，可以对待识别音频帧序列进行解码识别。

语音技术（Speech Technology）的关键技术有自动语音识别技术（ASR）和语音合成技术（TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如，本申请实施例中生成解码图时，需要预先训练声学模型和语言模型，可以采用人工神经网络的深度学习方式而训练获得，并不进行限制。

本申请实施例提供的方案涉及人工智能的语音处理等技术，具体通过如下实施例进行说明：

实际中，在语音识别相关场景中，将音频转录为文本，通常会预先构建语音识别的发音词典，发音词典是非常重要的一部分，只有词语在发音词典中有正确的发音，该词语才能够被正确识别，而实际中经常会出现一些新词或者已有词语的不同发音的情况，很容易识别错误，相关人员也无法及时了解出现错误的原因，例如在英语中，经常会出现新的人名或地名等，而这些人名和地名的发音是跟已有词语的发音是不一样的；又例如，由于发音词典不全而导致的发音词典中不包含转录音频中出现的一些词语，对于这些情况，很容易会对这些词语识别错误，并且研发人员还不能及时知道是由于新词出现而识别错误的原因；另外，又例如，对于发音不标准的情况，对于同一个词语由于发音不标准或有多种发音（例如印度口音的英语或新加坡口音的英语），可能会产生很多种类似的发音，而相关技术中的语音识别中，通常发音词典中词语的发音只有一种标准发音，也很容易会识别错误，从而会降低语音识别的准确性。

因此，为解决上述问题，本申请实施例中提供了一种语音识别方法，对发音词典进行改进，发音词典用于针对已知音素以识别输出已知音素对应的词语文本，并针对未知音素以识别输出以未知音素的音素文本表示的词语文本，进而至少根据发音词典和声学模型构建解码图，在进行语音识别时，根据解码图对待识别音频帧序列进行解码，确定待识别音频帧序列的词语的识别结果，这样，在出现未知音素时，即说明了出现新词或新发音，不转换为词语文本，而是直接输出音素文本，从而可以根据识别结果，自动发现待识别音频帧序列中的新词和发音不标准的词语，还可以获得该新词的发音音素序列，或者已知词语的新发音音素序列，进而可以不断更新发音词典，将新词的发音音素序列和已知词语的新发音音素序列，加入发音词典中，以提高语音识别准确性。

参阅图1所示，为本申请实施例中语音识别方法的应用架构示意图，包括服务器100、终端200。

终端200可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此，终端200上可以安装有各种应用程序（Application，APP），本申请实施例中，主要针对一些集成有语音识别功能的应用程序，例如，即时通信APP、浏览器、翻译APP等，如用户在即时通信APP中输入音频，可以通过语音识别将该音频转换为文本。

服务器100可以为终端200提供各种网络服务，对于不同的应用程序，服务器100可以为相应的后台服务器。

其中，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端200以及服务器100可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。例如，终端200与服务器100通过互联网相连，实现相互之间的通信。可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网（Local Area Network，LAN）、城域网（ Metropolitan AreaNetwork，MAN）、广域网（Wide Area Network，WAN）、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言（Hyper Text Mark-up Language，HTML）、可扩展标记语言（Extensible Markup Language，XML）等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层（Secure SocketLayer，SSL）、传输层安全（Transport Layer Security，TLS）、虚拟专用网络（VirtualPrivate Network，VPN）、网际协议安全（Internet Protocol Security，IPsec）等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

需要说明的是，本申请实施例中的语音识别方法主要由服务器100侧执行，例如，用户在终端200输入音频，并需要将音频转换为文本，终端200可以将音频发送给服务器100，并发送语音识别请求，服务器100接收到语音识别请求后，获取该音频的音频帧序列，并分别提取音频帧序列中各音频帧的声学特征，进而根据各音频帧的声学特征和解码图，获得音频帧序列的识别结果，还可以将识别结果返回给终端200以进行显示。又例如，也可以是在解码图生成阶段，基于现有发音词典，生成解码图，对待识别音频帧序列进行解码，获得识别结果，若识别结果中确定有新词或新发音，则可以根据识别结果更新发音词典，进而在更新解码图，以提高基于解码图进行语音识别的准确性。

如图1所示的应用架构，是以应用于服务器100侧为例进行说明的，当然，本申请实施例中语音识别方法也可以由终端200执行，终端200可以从服务器100获取预先构建的解码图，并对待识别音频帧序列进行解码，获得待识别音频帧序列的识别结果，对此本申请实施例中并不进行限制。另外由于终端200的性能限制，在生成解码图时，需要进行模型训练，例如预先训练声学模型、语言模型等，因此较佳的解码图的生成过程由服务器100执行。

本申请实施例中的应用架构图是为了更加清楚地说明本申请实施例中的技术方案，并不构成对本申请实施例提供的技术方案的限制，对于其它的应用架构和应用，本申请实施例提供的技术方案对于类似的问题，同样适用。

本申请各个实施例以应用于图1所示的应用架构图为例进行示意性说明。

基于上述实施例，参阅图2所示，为本申请实施例中一种语音识别方法流程图，该方法包括：

步骤200：获取待识别音频帧序列。

通常，获取到的音频为模拟信号，要对音频进行分析时，需要对音频进行分帧处理，例如可以设置一定的采样频率，对音频进行采样而获得音频帧序列，具体本申请实施例中并不进行限制。

步骤210：分别提取待识别音频帧序列中各待识别音频帧的声学特征。

具体地，提取各识别音频帧的声学特征时，可以采用线性预测编码（LinearPredictive Coding，LPC），梅尔频率倒谱系数（Mel-frequency Cepstrum）等，并不进行限制，声学特征的提取即是将各待识别音频帧转换为一个多维向量的过程。

步骤220：根据各待识别音频帧的声学特征和已生成的解码图，对待识别音频帧序列进行解码，确定待识别音频帧序列对应的词语的识别结果。

其中，解码图是至少根据声学模型和发音词典而生成的，声学模型用于基于声学特征以识别音素，发音词典用于针对已知音素以识别输出已知音素对应的词语文本，并针对未知音素以识别输出以未知音素的音素文本表示的词语文本。

其中，已知音素表示发音词典中记录与词语文本对应关系的音素，即为已知词语的已知音素，未知音素即表示发音词典中未记录有与词语文本对应关系的音素，例如为已知词语的未知音素，即出现了已知词语的新发音，又例如为未知词语的词语，即出现了新词。

具体执行步骤220时，包括：

根据各待识别音频帧的声学特征和已生成的解码图，从解码图中搜索获得候选解码路径和对应的概率分值，并将概率分值最大的候选解码路径对应的词语文本序列，作为待识别音频帧序列对应的词语的识别结果。

本申请实施例中，基于解码图的解码过程其实就是在解码图中搜索一个最可能的路径，作为结果输出，可以理解为解码过程即为搜索过程，通常可以分为宽度优先和深度优先两种搜索算法，宽度优先算法是并行搜索各条路径，例如维特比解码算法，深度优先算法总是搜索最优可能的路径，直至处理完所有的待识别音频帧的声学特征。

例如，采用维特比解码算法进行解码，利用动态规划思想确定最优状态序列，在解码图中包含的多个路径中搜索获得一条最优路径，具体利用如下公式进行搜索：

其中，X表示待识别音频帧，W为识别到的词语（word），P表示概率分值，P(W|X)即表示在为X情况下确定为W的概率分值。

当然，还可以采用其它解码算法进行解码，本申请实施例中并不进行限制，例如集束搜索（Beam Search）算法，也可以结合维特比解码算法和集束搜索算法，可以进一步减少搜索范围，提高搜索速度，基本原理是，在分别处理各待识别音频帧时，设置一个数目阈值，找出当前所有搜索的候选解码路径的概率分值最高的前数目阈值个候选解码路径，直至到结束符。

本申请实施例中，生成解码图的方式可以采用相关技术中的方式，而本申请实施例中主要是对于生成解码图过程中所使用到的发音词典进行了改进，若有发音词典中没有的新词或新发音，则会输出音素文本序列，进而可以发现新词或新发音，则执行步骤220后，还包括：若确定待识别音频帧序列对应的词语的识别结果中词语文本序列包含音素文本序列，则根据音素文本序列和确定对应的词语文本，更新发音词典；至少根据声学模型和更新后的发音词典，更新解码图。

即若解码输出的识别结果中出现了音素文本序列，则表示该待识别音频帧序列中出现了新词或者已有词的新发音，进而可以确定识别结果中音素文本序列对应的词语文本，并且根据确定的音素文本序列对应的词语文本，还可以更新发音词典，若确定为新词则可以在发音词典中添加发现的新词和对应的音素文本序列，若发现是已有词的新发音则可以在已有词语对应添加新的音素文本序列，这样，可以实现主动发现新词或新发音，从而不断更新发音词典。

进一步地，更新解码图后，还可以对待识别音频帧序列再次进行解码识别，具体本申请实施例中提供了一种可能的实施方式，根据更新后的解码图，对待识别音频帧序列进行解码识别，确定待识别音频帧序列对应的词语的识别结果，这样再次解码获得的识别结果中，都可以为正确的词语文本。

例如，若有一个音频的语音内容是”nice to meet you”，但是原有发音词典中只有“nice”，“to”和“you”，没有“meet”单词对应的发音的音素文本序列，则基于本申请实施例中的语音解码方法进行解码时，识别结果中可能为“nice to p1 p2 p3 you”，其中“p1p2 p3”是一个音素文本序列（phone sequence），进而相关人员进行核对可以获知“meet”对应的音素文本序列是“p1 p2 p3”，可以将该“meet”和“p1 p2 p3”的映射关系更新到发音词典中，后续基于更新后的发音词典识别时，可以更加准确地识别出meet词语。

本申请实施例中，构建新的发音词典，发音词典用于针对已知音素以识别输出已知音素对应的词语文本，并针对未知音素以识别输出以未知音素的音素文本表示的词语文本，进而基于该发音词典和声学模型生成解码图，在进行语音识别时，获取待识别音频帧序列，分别提取待识别音频帧序列中各待识别音频帧的声学特征，并根据各待识别音频帧的声学特征和已生成的解码图，对待识别音频帧序列进行解码，确定待识别音频帧序列对应的词语的识别结果，这样，可以主动发现待识别音频帧序列中的新词，并且生成其音素文本序列，减少了由于新词出现而导致的识别错误，并且还可以主动发现已有词语的新发音，在语音识别的实际场景中，经常会出现由于发音不标准或有新发音而导致的识别错误，因此主动发现不同的新发音并生成其音素文本序列是很重要的，通过发音词典的改进可以主动发现已有词的新发音，而不需要对发音不标准或多个发音的词语进行音频的精准预先分割，可以节省人力，从而可以不断更新发音词典，而提高语音识别准确性。

基于上述实施例，下面对本申请实施例中解码图的生成方式进行说明。本申请实施例中主要是为了实现能够及时发现新词或已有词的新发音，因此在生成解码图时，可以有以下几种实施方式：

第一种实施方式：根据发音词典和声学模型生成。

1）获取语音样本集，并根据语音样本集，训练获得声学模型，以及生成声学模型对应的声学模型有限状态转换器，其中，语音样本集中的语音样本表征携带音素标注的语音。

其中，声学模型即是对发音单元进行建模，用于识别音素，输入为声学特征，输出为音素。

2）获取发音词典，并根据发音词典中词语文本与音素序列的对应关系，生成发音词典对应的发音词典有限状态转换器，发音词典有限状态转换器表征各个词语文本对应的音素序列的状态转移概率。

其中，发音词典中可以包含有：词语与对应的音素序列之间的对应关系，例如，“阿”这个字可以对应于音素“\a1\”，其中，“a1”表示的发音为字母元音“a”，音素序列由词语中各个字对应的音素构成。

本申请实施例中，在构建L.fst时，加入了音素环（phone loop），参阅图3所示，为本申请实施例中发音词典有限状态转换器逻辑原理示意图，如图3所示，当有新词或新发音出现时，搜索会走phone loop的路径，进而在识别结果中就会有音素文本序列的出现。

3）根据声学模型有限状态转换器和发音词典有限状态转换器，生成解码图。

此时根据声学模型有限状态转换器H.fst和发音词典有限状态转换器L.fst生成的解码图，可以称为HCL.fst。

第二种实施方式：为了进一步获得更加准确的识别结果，使得最终构建的解码图可以更加准确地对语音识别，因此在生成解码图时，还可以加入语言模型，最终生成的解码图为HCLG.fst，具体地：

1）获得句子文本样本集，并根据所述句子文本样本集，训练获得语言模型，以及根据语言模型，生成语言模型对应的语言模型有限状态转换器，其中，语言模型有限状态转换器表征各个字或词语之间的状态转移概率。

其中，语言模型例如为bi-gram模型，本申请实施例中并不进行限制，主要是一句话的出现概率进行建模，在解码图中主要用于对句子语法结构进行约束，生成的语言模型有限状态转换器，例如为可以表示为G.fst。

2）根据声学模型有限状态转换器、发音词典有限状态转换器和语言模型有限状态转换器，生成解码图。

具体地，在生成解码图时，可以利用WFST中的合成（COMPOSITION）算法和决定化（DETERMINATION）算法和最小化（MINIMIZATION）算法，从而将H.fst、L.fst和G.fst不同层次的有限状态转换器整合成一个单一的加权有限状态转换器，构成解码图HCLG.fst，即：

其中，G为语言模型有限状态转换器，它的输入和输出是一样的，是词对受语法约束的词的映射；L是发音字典有限状态转换器，它的输出是单词，输入是音素；C代表语境相关性有限状态转换器，它的输出是音素，输入符号代表上下文相关音素；H为声学模型有限状态转换器，包含了Hmm定义，它的输出符号代表上下文相关音素，输入符号是包含概率分布函数id和其他信息的状态转移id。

并且，表示合成操作，“det”表示决定化操作，“min”表示最小化操作，合成操作是将上下文相关的声学模型、发音词典和语言模型整合为一个单一的加权有限状态转换器，决定化操作和最小化操作属于优化算法，可以减少识别时间和空间的占有率，从而提高语音识别效率，其中，具体地，合成操作实际就是找出满足下面这个条件的转移：第一个 WFST的某个转移上的输出标签等于第二个WFST的某个转移上的输入标签，然后把这些转移上的标签（label）和权重（weight）分别进行操作。决定化操作的功能主要是当离开某个状态的转移上的输入标签相同时，采取某种机制只保留其中的一条而不影响整个系统的结果，这样离开某个状态的转移就是确定的了，因为每输入一个标签，它都会到达唯一的一个确定的状态。

下面采用具体应用场景，对本申请实施例中的语音识别方法进行具体说明。参阅图4所示，为本申请实施例中的另一种语音识别方法流程示意图，该方法包括：

步骤400：至少根据声学模型和发音词典生成解码图。

进一步地，还可以结合语言模型，根据声学模型、发音词典和语言模型生成解码图，可以提高解码图的语音识别的准确性。

步骤401：根据解码图对待识别音频帧序列进行解码。

具体地，分别提取待识别音频帧序列中各待识别音频帧的声学特征，并根据各待识别音频帧的声学特征和解码图，对待识别音频帧序列进行解码，确定待识别音频帧序列的词语的识别结果。

步骤402：获得识别结果，并识别结果中未包含音素文本序列。

这时，即说明没有发现新词或已有词语的新发音。

步骤403：获得识别结果，并识别结果中包含音素文本序列。

这时识别结果中包含音素文本序列，说明出现了新词或已有词语的新发音。

步骤404：根据识别结果中包含的音素文本序列和确定对应的词语文本，更新发音词典。

进而还可以使用更新后的发音词典，重新生成解码图，并对待识别音频帧序列进行重新解码，可以获得正确的不包含音素文本序列的识别结果。

这样，可以通过解码过程，主动发现新词，并生成新词的发音的音素文本序列，还可以主动发现已有词的新发音，并生成新发音的音素文本序列，进而可以更新到发音词典中，从而提高语音识别准确性。

基于同一发明构思，本申请实施例中还提供了一种语音识别装置，该语音识别装置例如可以是前述实施例中的服务器或终端，该语音识别装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例，参阅图5所示，本申请实施例中语音识别装置，具体包括：

获取模块50，用于获取待识别音频帧序列；

提取模块51，用于分别提取所述待识别音频帧序列中各待识别音频帧的声学特征；

解码模块52，用于根据所述各待识别音频帧的声学特征和已生成的解码图，对所述待识别音频帧序列进行解码，确定所述待识别音频帧序列对应的词语的识别结果，其中，所述解码图是至少根据声学模型和发音词典而生成的，所述声学模型用于基于声学特征以识别音素，所述发音词典用于针对已知音素以识别输出所述已知音素对应的词语文本，并针对未知音素以识别输出以所述未知音素的音素文本表示的词语文本。

可选的，进一步包括，生成模块53用于：

获取语音样本集，并根据所述语音样本集，训练获得所述声学模型，以及生成所述声学模型对应的声学模型有限状态转换器，其中，所述语音样本集中的语音样本表征携带音素标注的语音；

获取发音词典，并根据所述发音词典中词语文本与音素序列的对应关系，生成所述发音词典对应的发音词典有限状态转换器，所述发音词典有限状态转换器表征各个词语文本对应的音素序列的状态转移概率；

根据所述声学模型有限状态转换器和所述发音词典有限状态转换器，生成所述解码图。

可选的，生成模块53进一步用于：

获得句子文本样本集，并根据所述句子文本样本集，训练获得语言模型，以及根据所述语言模型，生成所述语言模型对应的语言模型有限状态转换器，其中，所述语言模型有限状态转换器表征各个字或词语之间的状态转移概率；

根据所述声学模型有限状态转换器、所述发音词典有限状态转换器和所述语言模型有限状态转换器，生成所述解码图。

可选的，根据所述各待识别音频帧的声学特征和已生成的解码图，对所述待识别音频帧序列进行解码，确定所述待识别音频帧序列对应的词语的识别结果时，解码模块52具体用于：

根据所述各待识别音频帧的声学特征和已生成的解码图，从所述解码图中搜索获得候选解码路径和对应的概率分值，并将概率分值最大的候选解码路径对应的词语文本序列，作为所述待识别音频帧序列对应的词语的识别结果。

可选的，进一步包括，更新模块54用于：

若确定所述待识别音频帧序列对应的词语的识别结果中词语文本序列包含音素文本序列，则根据所述音素文本序列和确定对应的词语文本，更新所述发音词典；

至少根据所述声学模型和更新后的发音词典，更新所述解码图。

可选的，解码模块52进一步用于：根据更新后的解码图，对所述待识别音频帧序列进行解码识别，确定所述待识别音频帧序列对应的词语的识别结果。

基于上述实施例，参阅图6所示为本申请实施例中电子设备的结构示意图。

本申请实施例提供了一种电子设备，该电子设备可以是前述实施例中的终端或服务器，该电子设备可以包括处理器610（Center Processing Unit ，CPU）、存储器620、输入设备630和输出设备640等。

存储器620可以包括只读存储器（ROM）和随机存取存储器（RAM），并向处理器610提供存储器620中存储的程序指令和数据。在本申请实施例中，存储器620可以用于存储本申请实施例中任一种语音识别方法的程序。

处理器610通过调用存储器620存储的程序指令，处理器610用于按照获得的程序指令执行本申请实施例中任一种语音识别方法。

基于上述实施例，本申请实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意方法实施例中的语音识别方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、 RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别音频帧序列；

根据所述各待识别音频帧的声学特征和已生成的解码图，对所述待识别音频帧序列进行解码，确定所述待识别音频帧序列对应的词语的识别结果，其中，所述解码图是至少根据声学模型对应的声学模型有限状态转换器、发音词典对应的发音词典有限状态转换器和语言模型对应的语言模型有限状态转换器生成的，在生成所述解码图时，采用合成算法、决定化算法和最小化算法，将所述声学模型有限状态转换器、所述发音词典有限状态转换器和所述语言模型有限状态转换器整合为一个单一的加权有限状态转换器，获得所述解码图；

所述声学模型用于基于声学特征以识别音素，所述发音词典用于针对已知音素以识别输出所述已知音素对应的词语文本，并针对未知音素以识别输出以所述未知音素的音素文本表示的词语文本，其中，所述发音词典的发音词典有限状态转换器中加入了音素环，针对未知音素，搜索走音素环的路径，以识别输出所述未知音素的音素文本序列，所述未知音素表示未知词语的音素和已知词语的未知音素。

2.如权利要求1所述的方法，其特征在于，进一步包括：

3.如权利要求2所述的方法，其特征在于，进一步包括：

4.如权利要求1-3任一项所述的方法，其特征在于，根据所述各待识别音频帧的声学特征和已生成的解码图，对所述待识别音频帧序列进行解码，确定所述待识别音频帧序列对应的词语的识别结果，具体包括：

5.如权利要求4所述的方法，其特征在于，进一步包括：

6.如权利要求5所述的方法，其特征在于，进一步包括：

根据更新后的解码图，对所述待识别音频帧序列进行解码识别，确定所述待识别音频帧序列对应的词语的识别结果。

7.一种语音识别装置，其特征在于，包括：

获取模块，用于获取待识别音频帧序列；

解码模块，用于根据所述各待识别音频帧的声学特征和已生成的解码图，对所述待识别音频帧序列进行解码，确定所述待识别音频帧序列对应的词语的识别结果，其中，所述解码图是至少根据声学模型对应的声学模型有限状态转换器、发音词典对应的发音词典有限状态转换器和语言模型对应的语言模型有限状态转换器生成的，在生成所述解码图时，采用合成算法、决定化算法和最小化算法，将所述声学模型有限状态转换器、所述发音词典有限状态转换器和所述语言模型有限状态转换器整合为一个单一的加权有限状态转换器，获得所述解码图；

8.如权利要求7所述的装置，其特征在于，进一步包括，更新模块，用于：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-6任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。