CN114360499A

CN114360499A - 语音识别方法、装置、设备及存储介质

Info

Publication number: CN114360499A
Application number: CN202011052342.XA
Authority: CN
Inventors: 侯雷静
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2022-04-15

Abstract

本发明公开了一种语音识别方法、装置、设备及存储介质。其中，该方法包括：基于场景匹配确定当前语音识别所需的声学模型、语言模型及热词库；对待识别语音数据进行特征提取，得到声学特征数据；基于所述声学模型、所述语言模型及所述热词库对所述声学特征数据构建解码图；基于所述解码图求取目标解码路径，得到所述待识别语音数据的识别结果；其中，所述热词库包括与指定词语存在映射关系的热词；所述解码图包括基于所述热词库中的热词构建的热词路径。可以基于包括热词路径的解码图求取目标解码路径，得到待识别语音数据的识别结果，可以提高识别结果的输出效率，减少支持热词识别的语音识别的时间延迟，满足实时性要求。

Description

语音识别方法、装置、设备及存储介质

技术领域

本发明涉及语音识别领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

随着AI(Artificial Intelligence，人工智能)技术的发展，越来越多的智能设备在工业界得到广泛的开发与使用，自动语音识别(Automatic speech recognition,ASR)技术则成为智能语音设备中不可或缺的一部分。伴随经济全球化的发展，全球范围内语言和文化的融合现象也越来越明显，对人们日常生活中的交谈方式也产生了影响，混杂语言交谈成为了一个常见的现象，比如，“好想拿到这家公司的offer啊”。

在混杂语言语音识别中，外语词汇的热词识别成为一个重要课题。热词作为一种词汇现象，它被定义为一个国家、一个地区在一个时期被人们普遍使用的词汇。在不同场景下，外语词汇的热词(常被使用的外语词汇)就被赋予了领域性的特点。

相关技术中，热词识别往往依赖于预先建立的规则，需要在对待识别语音数据进行语音识别，得到初步识别结果后，利用热词识别的规则在初步识别结果中识别满足预设条件的目标词语，并将识别出的目标词语替换为热词，由于需要在初步识别结果的基础上进行二次处理，才能替换热词，导致语音识别的实时性难以达到要求。

发明内容

有鉴于此，本发明实施例提供了一种语音识别方法、装置、设备及存储介质，旨在减少支持热词识别的语音识别的时间延迟，满足实时性要求。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种语音识别方法，包括：

基于场景匹配确定当前语音识别所需的声学模型、语言模型及热词库；

对待识别语音数据进行特征提取，得到声学特征数据；

基于所述声学模型、所述语言模型及所述热词库对所述声学特征数据构建解码图；

基于所述解码图求取目标解码路径，得到所述待识别语音数据的识别结果；

其中，所述热词库包括与指定词语存在映射关系的热词；所述解码图包括基于所述热词库中的热词构建的热词路径。

本发明实施例还提供了一种语音识别装置，包括：

场景匹配模块，用于基于场景匹配确定当前语音识别所需的声学模型、语言模型及热词库；

声学特征提取模块，用于对待识别语音数据进行特征提取，得到声学特征数据；

模型处理模块，用于基于所述声学模型、所述语言模型及所述热词库对所述声学特征数据构建解码图；

解码模块，用于基于所述解码图求取目标解码路径，得到所述待识别语音数据的识别结果；

本发明实施例又提供了一种语音识别设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器，用于运行计算机程序时，执行本发明实施例所述语音识别方法的步骤。

本发明实施例又提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现本发明实施例所述语音识别方法的步骤。

本发明实施例提供的技术方案，通过在解码图中构建热词库中热词对应的热词路径，可以基于包括热词路径的解码图求取目标解码路径，得到待识别语音数据的识别结果，相较于利用热词识别的规则在初步识别结果中识别满足预设条件的目标词语，并将识别出的目标词语替换为热词，可以提高识别结果的输出效率，减少支持热词识别的语音识别的时间延迟，满足实时性要求。

附图说明

图1为本发明实施例语音识别方法的流程示意图；

图2为本发明一应用示例中语音识别设备的结构示意图；

图3为本发明一应用示例中新增热词路径的原理示意图；

图4为本发明实施例语音识别装置的结构示意图；

图5为本发明实施例语音识别设备的结构示意图。

具体实施方式

下面结合附图及实施例对本发明再作进一步详细的描述。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明实施例提供了一种语音识别方法，该语音识别方法可以应用于语音识别设备，如图1所示，包括：

步骤101，基于场景匹配确定当前语音识别所需的声学模型、语言模型及热词库；

这里，语音识别设备可以基于场景匹配确定当前语音识别所需的声学模型、语言模型及热词库。可以理解的是，声学模型、语言模型及热词库与各种场景一一对应设置，即不同场景的声学模型、语言模型及热词库可以不同，便于提高语音识别的准确率。

这里，声学模型(Acoustic Model，AM)用于将声学和发音学的知识进行整合，以提取的待识别语音数据的声学特征数据为输入，得到所述声学特征数据中匹配的各词语。示例性地，各词语具有对应的第一概率值。比如，第一概率值可以包括：由分帧组成状态的观察概率和由状态转移到自身或转移到下个状态的转移概率。

这里，语言模型(Language Model，LM)用于将基于语言统计规律，识别各词语之间的解码路径。示例性地，各解码路径具有对应的第二概率值，第二概率值可以理解为基于语言统计规律得到的各解码路径的概率值。

这里，所述热词库包括与指定词语存在映射关系的热词。其中，指定词语的数量可以为多个，各指定词语对应的热词可以为一个或者多个。比如，热词可以包括不限于：本国语言使用的热词和外国语言使用的热词。

在一些实施例中，所述基于场景匹配确定当前语音识别所需的声学模型、语言模型及热词库，包括：

基于当前地理位置和/或历史的语音识别记录确定当前语音识别所需的声学模型、语言模型及热词库。

这里，可以基于语音识别设备当前所处的地理位置和/或历史语音识别对应的场景来确定当前语音识别对应的场景，进而确定该场景对应的声学模型、语言模型及热词库。

实际应用中，往往同一地点对应的场景的数量并不唯一，基于此，在一些实施例中，语音识别方法还包括：

基于输入信息校正当前语音识别所需的声学模型、语言模型及热词库。

示例性地，语音识别设备可以基于地理位置和/或历史的语音识别记录在界面中显示初始确定的识别场景，并在界面中显示语音识别设备所支持的全部识别场景，供用户通过点击来进行选择或纠正。如此，使得识别场景的匹配方式更加灵活，避免了场景分类错误带来的识别效果变差的情况。

步骤102，对待识别语音数据进行特征提取，得到声学特征数据；

这里，待识别语音数据可以是语音识别设备自身采集的语音数据，还可以是语音识别设备接收的其他语音采集设备采集的语音数据。

语音识别设备可以对待识别语音数据进行分帧处理，提取每帧的声学特征，得到待识别语音数据的声学特征数据。示例性地，声学特征可以包括以下至少之一：MFCC(Mel-频率倒谱系数)特征、LPCC(线性预测倒谱系数)特征、PLP(线性预测倒谱系数)特征以及基频特征等。

步骤103，基于所述声学模型、所述语言模型及所述热词库对所述声学特征数据构建解码图；

在一些实施例中，所述基于所述声学模型、所述语言模型及所述热词库对所述声学特征数据构建解码图，包括：

基于所述声学模型识别所述声学特征数据中匹配的各词语；

基于所述语言模型识别各词语之间的解码路径；

基于所述热词库与所述各词语，确定与所述各词语中的至少一个存在映射关系的热词，在所述解码路径的基础上添加热词路径，构成解码图。

如此，本实施例中的解码图包括基于所述热词库中的热词构建的热词路径。

步骤104，基于所述解码图求取目标解码路径，得到所述待识别语音数据的识别结果。

本发明实施例语音识别方法，通过在解码图中构建热词库中热词对应的热词路径，可以基于包括热词路径的解码图求取目标解码路径，得到待识别语音数据的识别结果，相较于利用热词识别的规则在初步识别结果中识别满足预设条件的目标词语，并将识别出的目标词语替换为热词，可以提高识别结果的输出效率，减少支持热词识别的语音识别的时间延迟，满足实时性要求。

在一些实施例中，语音识别方法还包括：

接收与任一指定词语存在映射关系的新增热词，基于所述新增热词，更新所述热词库。

各识别场景下的热词库还支持用户的定制化输入，从而使得热词库可以基于实际使用需求得到丰富和完善，进而支持新增热词的语音识别。

在一些实施例中，若同一指定词语存在至少两个对应的热词，语音识别方法还包括：

基于所述至少两个对应的热词的排序确定所述热词库中同一指定词语对应的各热词的权重系数。

示例性地，当某一指定词语具有对应的一个热词时，该指定词语与对应的热词形成词对(word-pair)，在解码图中，该词对可以对应两条具有相同权重系数的解码路径(即该指定词语对应的解码路径和该热词对应的热词路径)。当某一指定词语具有多个热词时，用户可以在界面中调整各热词的排序，语音识别设备可以基于各热词的排序确定各热词的权重系数，示例性地，排序靠前的热词的权重系数越大，表明相应的热词路径的第二概率值越大。

在一些实施例中，所述基于所述解码图求取目标解码路径，包括：

对所述解码图，基于动态规划剪枝的方法求取目标解码路径。

可以理解的是，所述解码图可以由词级网络展开成音素网络，再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径，语音对应这条路径的概率最大，即称之为“解码”。示例性地，可以动态规划剪枝的方法(如Viterbi算法)求取全局最优路径，即累积概率值最大的路径，得到目标解码路径，进而生成语音识别的识别结果。

可以理解的是，累积概率值包括声学模型识别的各词语的第一概率值和语言模型识别的各解码路径的第二概率值，其中，第一概率值包括：由分帧组成状态的观察概率和由状态转移到自身或转移到下个状态的转移概率；第二概率值为基于语言统计规律得到的各解码路径的概率值。

如此，本发明实施例语音识别方法，显著地降低了识别文本输出的等待时长，无需在初步识别结果的基础上进行二次处理后才能替换热词，提高了识别结果输出效率、降低了系统复杂性，从而极大满足了对识别系统实时性的需求；此外，由于支持用户在系统界面添加热词与词汇优先级排序，定制化的服务使得系统的在个性化场景中识别性能更好；再次，无需依赖预先建立的多种复杂热词识别规则，避免了由于规则不完备导致的性能不足。

下面结合应用示例对本发明实施例语音识别方法再作进一步详细的描述。

如图2所示，一应用示例的语音识别设备包括：语音采集模块201、特征提取模块202、场景匹配模块203、模型处理模块204、解码器205、输出模块206及热词输入模块207。

其中，语音采集模块201用于通过语音采集设备收集用户的语音数据，比如，通过麦克风等声音输入设备采集语音数据；

特征提取模块202用于从语音数据中提取出声学特征数据；

场景匹配模块203用于基于场景匹配确定当前语音识别所需的声学模型、语言模型及热词库；

模型处理模块204用于基于所述声学模型、所述语言模型及所述热词库对所述声学特征数据构建解码图；

解码器205用于基于所述解码图求取目标解码路径，得到所述待识别语音数据的识别结果；

输出模块206用于实时输出识别结果，即实时输出语音识别后的文本数据。

热词输入模块207用于支持用户定制化热词的添加，从而不受训练模型时的所使用语料数据的限制，因此无需进行声学模型和/或语言模型进行重新训练。

示例性地，场景匹配模块203可以通过地理定位及历史使用记录在界面左侧给出一种识别场景，并在界面右侧显示识别系统当前版本所支持的全部具体场景，供用户通过点击来进行选择或纠正。使场景匹配方式更加灵活，避免了场景分类错误带来的识别效果变差的情况。

示例性地，热词输入模块207可以基于用户在界面的点击和/或按键操作添加热词，支持用户定制化输入场景热词，丰富了本识别系统中已含有的热词数量。此外，用户还可以在热词添加界面能够灵活的调节场景热词的排序，后台据此对热词权重做出调整，实现定制化服务。

示例性地，热词路径如图3所示，比如，中文词汇“可以”与混杂语言热词“OK”构成了一个词对，通过赋予相同的权重来添加一条热词路径，达到共享语言信息的目的，即可以便捷地实现对热词的识别；其中，各路径的权重以w1至w3表示。

本应用示例中，语音识别设备对混杂语言热词的识别更加灵活、便捷，识别过程的流程更加简化，复杂性更低。且场景匹配的方式更加灵活，避免了场景分类错误带来的识别效果变差的情况；此外，支持用户定制化输入场景热词，并按需调节热词的排序从而在后台完成权重的调整，提供更好的定制化服务；再次，以词对方式在解码路径中根据权重得分添加对应热词的路径，充分利用已有数据和模型的信息优势，使热词数据较少时依然具有较好的识别性能，避免了二次处理带来的复杂性和时间延迟，具备高效、实时的特点。

为了实现本发明实施例的方法，本发明实施例还提供一种语音识别装置，该语音识别装置与上述语音识别方法对应，上述语音识别方法实施例中的各步骤也完全适用于本语音识别装置实施例。

如图4所示，该语音识别装置包括：场景匹配模块401、声学特征提取模块402、模型处理模块403及解码模块404；场景匹配模块401用于基于场景匹配确定当前语音识别所需的声学模型、语言模型及热词库；声学特征提取模块402用于对待识别语音数据进行特征提取，得到声学特征数据；模型处理模块403用于基于所述声学模型、所述语言模型及所述热词库对所述声学特征数据构建解码图；解码模块404用于基于所述解码图求取目标解码路径，得到所述待识别语音数据的识别结果；其中，所述热词库包括与指定词语存在映射关系的热词；所述解码图包括基于所述热词库中的热词构建的热词路径。

在一些实施例中，模型处理模块403具体用于：

基于所述声学模型识别所述声学特征数据中匹配的各词语；

基于所述语言模型识别各词语之间的解码路径；

在一些实施例中，语音识别装置还包括：热词添加模块405，接收与任一指定词语存在映射关系的新增热词，基于所述新增热词，更新所述热词库。

在一些实施例中，若同一指定词语存在至少两个对应的热词，词添加模块405还用于基于所述至少两个对应的热词的排序确定所述热词库中同一指定词语对应的各热词的权重系数。

在一些实施例中，场景匹配模块401具体用于：

在一些实施例中，场景匹配模块401还用于：

在一些实施例中，解码模块404具体用于：

可以理解的是，场景匹配模块401相当于前述的场景匹配模块203，声学特征提取模块402相当于前述的特征提取模块202、模型处理模块403相当于前述的模型处理模块204，解码模块404相当于前述的解码器205，热词添加模块405相当于前述的热词输入模块207。

实际应用时，场景匹配模块401、声学特征提取模块402、模型处理模块403、解码模块404及热词添加模块405，可以由语音识别装置中的处理器来实现。当然，处理器需要运行存储器中的计算机程序来实现它的功能。

需要说明的是：上述实施例提供的语音识别装置在进行语音识别时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述程序模块的硬件实现，且为了实现本发明实施例的方法，本发明实施例还提供一种语音识别设备。图5仅仅示出了该语音识别设备的示例性结构而非全部结构，根据需要可以实施图5示出的部分结构或全部结构。

如图5所示，本发明实施例提供的语音识别设备500包括：至少一个处理器501、存储器502、用户接口503和至少一个网络接口504。语音识别设备500中的各个组件通过总线系统505耦合在一起。可以理解，总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统505。

其中，用户接口503可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

本发明实施例中的存储器502用于存储各种类型的数据以支持语音识别设备的操作。这些数据的示例包括：用于在语音识别设备上操作的任何计算机程序。

本发明实施例揭示的语音识别方法可以应用于处理器501中，或者由处理器501实现。处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，语音识别方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成本发明实施例提供的语音识别方法的步骤。

在示例性实施例中，语音识别设备可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、FPGA、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现，用于执行前述方法。

可以理解，存储器502可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在示例性实施例中，本发明实施例还提供了一种存储介质，即计算机存储介质，具体可以是计算机可读存储介质，例如包括存储计算机程序的存储器502，上述计算机程序可由语音识别设备的处理器501执行，以完成本发明实施例方法所述的步骤。计算机可读存储介质可以是ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

对待识别语音数据进行特征提取，得到声学特征数据；

2.根据权利要求1所述的方法，其特征在于，所述基于所述声学模型、所述语言模型及所述热词库对所述声学特征数据构建解码图，包括：

基于所述声学模型识别所述声学特征数据中匹配的各词语；

基于所述语言模型识别各词语之间的解码路径；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，若同一指定词语存在至少两个对应的热词，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于场景匹配确定当前语音识别所需的声学模型、语言模型及热词库，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述解码图求取目标解码路径，包括：

8.一种语音识别装置，其特征在于，包括：

9.一种语音识别设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，

所述处理器，用于运行计算机程序时，执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，所述存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至7任一项所述方法的步骤。