CN111883113B

CN111883113B - 一种语音识别的方法及装置

Info

Publication number: CN111883113B
Application number: CN202010753634.XA
Authority: CN
Inventors: 李旭滨; 沈华东
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2024-01-30
Anticipated expiration: 2040-07-30
Also published as: CN111883113A

Abstract

本发明提供了一种语音识别方法，所述方法包括：增加声学模型的场景分类信息；获取待测语音在所述场景分类信息下的声学模型输出，并确定符合条件的场景；动态加载所述符合条件的场景相应的语音模型，获得语音识别的结果。通过应用本发明实施例提供的语音识别方法，使声学模型增加场景信息，动态加载符合条件的场景模型，解除原本预设场景模型的限制，提升识别效率，识别场景的模型数值设定后并采用动态加载的方式，所以不会由于业务需求的变化导致该数值改变，从而使响应速度稳定在设定数值的模型的解码速度。

Description

一种语音识别的方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种语音识别的方法及装置。

背景技术

自动语音识别(Automatic Speech Recognition，简称ASR)由声学模型、语言模型和解码器三个部分组成，如下图1所示。其中声学模型和语言模型都有各自的训练方法，声学模型使用语音数据训练声音映射发音的模型；语言模型使用文本数据训练发音映射文字的模型，一般语言模型根据使用场景会预先训练多个，根据使用场景加载可能使用的场景模型；二者可分开并行训练；在使用ASR识别项目时，目前需要人工设置场景的边界，即声学需要配置近讲场景或者远讲的场景，语言模型则需要从众多的业务场景中选择出使用的场景，比如：家具控制，音乐，电影等，其中m代表预设的场景数目。声学和语言的模型的配置都是研发人员进行手工设置，当输入一条音频时，解码器加载声学和预先设定多个语言模型，搜索出最优的打分结果，作为识别结果，放回给用户。

但上述技术存在以下问题：

(1)声学和语言场景数目较多，特别是语言模型的场景，考验项目团队的操作经验和对实际业务场景的把控力。

(2)语言模型配置数目预设越多，速度越慢，并且存在上限数目；当达到语言模型的配置上限时，识别的速率会降低并且模型对于新的未知识别场景能力受限。

发明内容

本发明实施例的目的是提供一种语音识别的方法及装置，以解决现有技术中的ASR识别需预设多个语言模型，识别响应速度降低且识别场景不匹配问题。

为解决上述问题，第一方面，本发明提供了一种语音识别的方法，所述方法包括：

增加声学模型的场景分类信息；

获取待测语音在所述场景分类信息下的声学模型输出，并确定符合条件的场景；

动态加载所述符合条件的场景相应的语音模型，获得语音识别的结果。

在一种可能的实现方式中，所述增加声学模型的场景信息，具体为：

通过语音训练数据中增加场景分类标签，使声学模型增加场景分类信息。

在一种可能的实现方式中，所述获取待测语音在所述场景分类信息下的声学模型输出，确定适合的场景，具体为：

获取待测语音在所述场景分类信息下的声学模型输出；

求待测语音的语音帧的场景概率平均值；

基于所述平均值，确定阈值；

根据阈值选择所述待测语音符合条件的场景。

在一种可能的实现方式中，，所述阈值为0.8。

在一种可能的实现方式中，基于识别速度和识别速率求符合条件的场景。

第二方面，本发明提供了一种语音识别设备，所述设备包括：

增加场景模块，用于增加声学模型的场景分类信息；

第一处理模块，用于获取待测语音的声学模型输出，并确定符合条件的场景；

第二处理模块，用于动态加载所述符合条件的场景相应的语音模型，获得语音识别的结果。

在一种可能的实现方式中，所述第一处理模块包括获取模块、计算模块、确定模块和选择模块；

所述获取模块，用于获取待测语音的声学模型输出；

所述计算模块，用于求待测语音的语音帧的场景概率平均值；

所述确定模块，用于基于所述平均值，确定阈值；

所述选择模块，用于根据阈值选择所述待测语音符合条件的场景。

第三方面，本发明提供了一种语音识别设备一种语音识别系统，所述系统包括至少一个处理器和存储器；

所述存储器，用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如第一方面中一个或多个所述的方法。

第四方面，本发明提供了一种芯片，所述芯片与系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如第一方面中一个或多个所述的方法。

第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质包括一个或多个程序指令，所述一个或多个程序指令可被如第三方面所述的系统执行，以实现如第一方面中一个或多个所述的方法。

通过应用本发明实施例提供的语音识别方法，使声学模型增加场景信息，动态加载符合条件的场景模型，解除原本预设场景模型的限制，提升识别效率，识别场景的模型数值设定后并采用动态加载的方式，所以不会由于业务需求的变化导致该数值改变，从而使响应速度稳定在设定数值的模型的解码速度。

附图说明

图1为现有技术中语音识别流程示意图；

图2为本发明实施例提供的语音识别方法流程示意图；

图3为本发明实施例提供的确定符合条件场景的流程示意图；

图4为本发明实施例提供的动态记载方式来进行语音识别的流程示意图；

图5为本发明实施例提供的语音识别装置结构示意图；

图6为本发明实施例提供的第一处理模块结构示意图；

图7为本发明实施例提供的一种语音识别系统结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图2为本发明实施例语音识别方法流程示意图，该方法的执行主体为智能外呼平台。如图2所示，该语音识别方法包括以下流程：

步骤210，增加声学模型的场景分类信息。

具体地，通过语音训练数据中增加场景分类标签，使声学模型增加场景分类信息，进而使得声学模型输出音素的基础上增加场景分类概率。假设语音训练数据中预设的场景数目为m，原本声学模型输出音素的序列具有n个维度，现在加上场景分类标签后，声学模型的输出序列的维度变为：音素+场景＝n+m个维度。数学表如下：

(x1,x2,x3…,xp)->(y1,y2…,yn)→

(x1,x2,x3…,xp)->(y1,y2,…,yn,yn+1,…,ym-n+1,…,ym+n)

其中，xi表示语音特征每一个维度；yi表示某一个场景，也可以理解为场景向量的某一个维度；i为1，2……n；p指特征向量；(x1,x2,x3…,xp)，表示一共有p个维度。

步骤220，获取待测语音在所述场景分类信息下的声学模型输出，并确定符合条件的场景。

下面通过一个示例说明如何确定符合条件的场景，在一个示例中，图3为本发明实施例提供的确定符合条件场景的流程示意图，如图3所示：

步骤2201，获取待测语音在所述场景分类信息下的声学模型输出。

步骤2202，求待测语音的语音帧的场景概率平均值。

步骤2203，基于所述平均值，确定阈值。

步骤2204，根据阈值选择所述待测语音符合条件的场景。

具体的，在获取一条待测语音的全部语音帧带场景分类的声学模型输出(n+m)后，将所有语音帧的场景概率做和求平均，根据阈值选择该条待测语音最适合的Topk的场景，说明一下，所谓最合适的，即为符合条件的，Topk表示符合条件的k个场景，k自定义值，其基于识别速度和识别速率来确定，这是因为k是指加载k个场景，一般来说k取得大一些，场景识别得覆盖全一些，识别率在大场景识别率会好一点；但是k大，加载模型数目多，识别得速度就会慢一点，所以需要根据项目需求在识别率和识别速度取一个平衡。即根据项目对识别速度和识别率要求取K的平衡值，一般k<m；L表示语音总帧数，N_i表示第i个场景概率；

在此需要说明的是，阈值可变，优选地设为0.8。

举例说明，假设有5个场景概率分别为0.5、0.6、0.7、0.8和0.9，若阈值选0.6，符合条件的场景就有4个，即k＝4，若阈值选0.8，符合条件的场景就有2个，即k＝2。所以阈值会选取一个经验值，但是这个经验值在使用时还需要根据项目测试做小的调节。

步骤130，动态加载所述符合条件的场景相应的语音模型，获得语音识别的结果。

具体的，图4为本发明实施例提供的动态记载方式来进行语音识别的流程示意图，如图4所示，根据匹配top k个场景动态相应场景的语言模型，获得语音识别的结果。

一般来说动态加载语言模型数目基本会比预设模型数目少，这样解码器搜索的路径变少，从而提高了响应速度；另外加载的语言模型和场景匹配度相对较高识率也会提升。

与上述实施例对应的，本发明还提供了一种语音识别装置，如图5所示，该语音识别装置包括：增加场景模块510，第一处理模块520和第二处理模块530。

增加场景模块510，用于增加声学模型的场景分类信息。

具体的，语音识别装置还包括输入场景模块(未示出)，用于通过语音训练数据中增加场景分类标签，使声学模型增加场景分类信息。

第一处理模块520，用于获取待测语音的声学模型输出，并确定符合条件的场景。

在一个示例中，如图6所示，第一处理模块520包括获取模块5201、计算模块5202、确定模块5203和选择模块5204；

所述获取模块5201，用于获取待测语音的声学模型输出；

所述计算模块5202，用于求待测语音的语音帧的场景概率平均值；

所述确定模块5203，用于基于所述平均值，确定阈值；

所述选择模块5204，用于根据阈值选择所述待测语音符合条件的场景。

第二处理模块530，用于动态加载所述符合条件的场景相应的语音模型，获得语音识别的结果。

本发明实施例提供的一种语音识别装置中各部件所执行的功能均已在上述方法中做了详细介绍，因此这里不做过多赘述。

与上述实施例相对应的，本发明实施例、还提供了一种语音识别系统，具体如图7所示，该系统包括至少一个处理器710和存储器720；

存储器710，用于存储一个或多个程序指令；

处理器720，用于运行一个或多个程序指令，执行如上述实施例所介绍的一种语音识别方法中的任一方法步骤。

与上述实施例相对应的，本发明实施例还提供了一种芯片，该芯片芯片与上述系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如上述实施例所介绍的语音识别方法。

与上述实施例相对应的，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中包括一个或多个程序，其中，一个或多个程序指令用于被一种语音识别系统执行如上介绍的语音识别方法。

本申请提供的语音识别方法、装置和系统，在原有的训练流程中，声学模型和语言模型是相对独立的模型；在本发明的技术方案中，使得声学模型的输入带有语言模型分类的信息，让二者能够产生联系。在后续解码器进行解码时可以利用该信息，动态加载符合条件的语言模型，从而避免业务根据需求主观判断场景使用模型，减少前场人员的工作难度；

由于动态加载的语言的为概率的最高，也就是最合适的模型，减少了模型加载数目，使得原本的m(m>＝k)的数目变成k；从而提升识别的效果和速度；另外，由于每次可动态的加载模型，也突破语言模型的使用上限，对于未知的识别场景也不在受局限

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

增加声学模型的场景分类信息；

动态加载所述符合条件的场景相应的语音模型，获得语音识别的结果；

所述获取待测语音在所述场景分类信息下的声学模型输出，确定适合的场景，具体为：

获取待测语音在所述场景分类信息下的声学模型输出；

求待测语音的语音帧的场景概率平均值；

基于所述平均值，确定阈值；

根据阈值选择所述待测语音符合条件的场景。

2.根据权利要求1所述的方法，其特征在于，所述增加声学模型的场景信息，具体为：

3.根据权利要求1所述的方法，其特征在于，所述阈值为0.8。

4.根据权利要求1所述的方法，其特征在于，基于识别速度和识别率求符合条件的场景。

5.一种语音识别设备，其特征在于，所述设备包括：

增加场景模块，用于增加声学模型的场景分类信息；

第二处理模块，用于动态加载所述符合条件的场景相应的语音模型，获得语音识别的结果；

所述第一处理模块包括获取模块、计算模块、确定模块和选择模块；

所述获取模块，用于获取待测语音的声学模型输出；

所述确定模块，用于基于所述平均值，确定阈值；

6.一种语音识别系统，其特征在于，所述系统包括至少一个处理器和存储器；

所述存储器，用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1至4中任一所述的方法。

7.一种芯片，其特征在于，所述芯片与系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如权利要求1至4中任一所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括一个或多个程序指令，所述一个或多个程序指令可被如权利要求6所述的系统执行，以实现如权利要求1至4中任一所述的方法。