CN115985326A - 语音识别方法、装置、电子设备和存储介质 - Google Patents
语音识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115985326A CN115985326A CN202211702079.3A CN202211702079A CN115985326A CN 115985326 A CN115985326 A CN 115985326A CN 202211702079 A CN202211702079 A CN 202211702079A CN 115985326 A CN115985326 A CN 115985326A
- Authority
- CN
- China
- Prior art keywords
- path
- hot word
- excitation
- score
- hot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种语音识别方法、装置、电子设备和存储介质,涉及语音识别技术领域,该方法包括:在基于解码识别网络对语音信号进行解码的过程中将解码出的节点弧与热词树中的热词节点进行匹配;匹配成功时,对路径激励分累加匹配成功热词节点的热词激励分,累加时非叶子节点的热词激励分为常数;匹配到叶子节点时,基于匹配成功热词节点的权重和深度确定热词激励总分,更新路径激励分为热词激励总分,用更新后的路径激励分对热词所在的路径总分进行激励;完成语音信号解码后,基于每条路径的路径总分从解码出的所有路径中确定目标解码路径,通过目标解码路径确定语音识别文本。本发明提供的技术方案在新加入热词时能够保证原有热词正向激励效果。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、电子设备和存储介质。
背景技术
语音识别技术在人机交互方面发挥着重要的作用,促进了人机之间人性化、智能化的有效交互。随着移动互联网和社交网络等的快速发展,新的热点话题和相应的热点词汇层出不穷,而且,不同用户在年龄、职业、社交网络、兴趣爱好等多方面存在差异,因此,在语音识别场景中经常会出现一些具有用户特性和时效性的词语或短语,这些词语或短语被称为“热词”。
在语音识别中,通过热词的添加,可以提高特定词语识别的准确性。相关技术中,在利用热词进行一遍解码激励的过程中,热词激励分的累积结果与热词的权重正相关,这样,当有新的热词添加到热词库中时,若与热词库中原有热词的前缀相同而权重不同,则新加入的热词会影响原有热词的生效结果,容易出现原有热词生效而加入热词后不生效的情况,导致热词正向激励效果下降,影响热词语音识别的准确率。
发明内容
本发明提供一种语音识别方法、装置、电子设备和存储介质,用以解决现有技术中新加入热词时会影响原有热词正向激励效果的缺陷。
本发明提供一种语音识别方法,包括:
在基于解码识别网络对接收的语音信号进行解码的过程中,将解码出的节点弧与热词树中的热词节点进行匹配;
在匹配成功的情况下,在所述节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分;其中,在所述匹配成功热词节点为非叶子节点的情况下,所述匹配成功热词节点的热词激励分为常数;
在所述匹配成功热词节点为叶子节点的情况下,基于所述匹配成功热词节点所在热词的权重和深度确定热词激励总分,将所述路径激励分更新为所述热词激励总分,并用更新后的路径激励分对所述热词所在路径的路径总分进行激励;
在完成对所述语音信号的解码后,从解码出的所有路径中,基于每条路径的路径总分确定目标解码路径,通过所述目标解码路径确定所述语音信号对应的语音识别文本。
根据本发明提供的一种语音识别方法,所述基于所述匹配成功热词节点所在热词的权重和深度确定热词激励总分,包括:
从所述热词树中获取所述匹配成功热词节点所在热词的权重和所述热词的深度;
确定所述热词的权重和所述热词的深度的乘积;
基于所述乘积确定所述热词激励总分;其中,所述热词激励总分与所述乘积成线性关系。
根据本发明提供的一种语音识别方法,还包括:
获取至少一个待构建热词和所述待构建热词的深度;
基于所述待构建热词的深度和预设裁剪分差确定所述待构建热词的权重;所述预设裁剪分差用于在路径裁剪中限定最高路径分与裁剪门限之间的差值;
基于所述待构建热词、所述待构建热词的深度和所述待构建热词的权重构建所述热词树;
其中,基于所述待构建热词的权重和所述待构建热词的深度确定的所述待构建热词的热词激励总分小于或等于所述预设裁剪分差。
根据本发明提供的一种语音识别方法,还包括:
在检测到裁剪分差配置指令的情况下,显示裁剪分差配置界面;所述裁剪分差配置界面中包括裁剪分差配置控件;
响应于面向所述裁剪分差配置控件的配置操作,确定所述预设裁剪分差。
根据本发明提供的一种语音识别方法,还包括:
在对所述语音信号进行解码的过程中,针对所述语音信号中的每一语音帧,获取所述语音帧解码出的每条局部路径当前所累积的路径累积分和热词激励累积分;
从所述路径累积分中减去所述热词激励累积分,得到所述每条局部路径的待处理路径分;
从所述每条局部路径的待处理路径分中确定最高路径分,并基于所述最高路径分和预设裁剪分差确定裁剪门限;
基于所述裁剪门限对所述语音帧解码出的局部路径进行裁剪处理,并根据裁剪后的局部路径形成所述语音信号解码出的路径。
根据本发明提供的一种语音识别方法,所述基于所述裁剪门限对所述语音帧解码出的局部路径进行裁剪处理,包括:
将所述语音帧解码出的局部路径中,所述路径累积分小于所述裁剪门限的局部路径裁剪掉。
本发明还提供一种语音识别装置,包括:
匹配模块,用于在基于解码识别网络对接收的语音信号进行解码的过程中,将解码出的节点弧与热词树中的热词节点进行匹配;
累加模块,用于在匹配成功的情况下,在所述节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分;其中,在所述匹配成功热词节点为非叶子节点的情况下,所述匹配成功热词节点的热词激励分为常数;
激励模块,用于在所述匹配成功热词节点为叶子节点的情况下,基于所述匹配成功热词节点所在热词的权重和深度确定热词激励总分,将所述路径激励分更新为所述热词激励总分,并用更新后的路径激励分对所述热词所在路径的路径总分进行激励;
解码确定模块,用于在在完成对所述语音信号的解码后,从解码出的所有路径中,基于每条路径的路径总分确定目标解码路径,通过所述目标解码路径确定所述语音信号对应的语音识别文本。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述语音识别方法。
根据本发明提供的一种电子设备,还包括与所述处理器连接的语音采集装置,所述语音采集装置用于采集所述语音信号。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
本发明提供的语音识别方法、装置、电子设备和存储介质,在基于解码识别网络对接收的语音信号进行解码的过程中,将解码出的节点弧与热词树中的热词节点进行匹配;在匹配成功的情况下,在节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分;其中,在匹配成功热词节点为非叶子节点的情况下,匹配成功热词节点的热词激励分为常数;在匹配成功热词节点为叶子节点的情况下,基于匹配成功热词节点所在热词的权重和深度确定热词激励总分,将路径激励分更新为该热词激励总分,并用更新后的路径激励分对热词所在路径的路径总分进行激励;在完成对语音信号的解码后,从解码出的所有路径中,基于每条路径的路径总分确定目标解码路径,通过目标解码路径确定语音信号对应的语音识别文本。这样,在解码过程中,由于累加的非叶子节点的热词激励分为常数,与热词的权重无关,则前缀相同而权重不同的热词间不会相互影响,因此,当有新的热词加入时,原有热词的激励效果不会因为新增热词而产生波动,从而保证了热词的正向激励效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音识别方法的流程示意图;
图2是本发明实施例提供的语音识别装置的结构示意图;
图3是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在语音识别场景中,可以通过热词激励的方式将热词所在的解码路径激励出来,提高热词被识别的准确性。在解码过程中,热词资源加载到引擎中以后,可以被创建为树形数据结构,比如可以包括热词树和拼音树,通过树形数据结构可以提高解码的效率。
其中,热词树中存储热词信息,可以用于解码过程中的一遍激励,通过一遍激励,可以降低热词路径被裁剪掉的概率。
相关技术中,语音识别引擎的热词激励方案可以包括三部分:热词资源的加载和解析;热词资源构建成树形结构;热词资源的利用及生效。其中,热词资源中每个热词都有自身对应的权重,例如:“天气晴朗,weight:4.0”,表示热词“天气晴朗”的权重weight的值是4.0,权重越高,对应的热词激励分越高,越容易生效。热词解析中,每个热词会被分词为多个子词,比如分为“天气”和“晴朗”,每个子词的权重与该热词的权重相同,都为4.0。其中,每个子词的词身份标识(Identity Document,ID)、热词深度、热词权重等信息组成热词树的节点。构建热词树时,以根节点(root)为开始节点,基于每个热词的子词依次构建树节点。热词的生效是在解码过程中动态进行的,对每一帧语音信号,每经过解码识别网络中的一条节点弧,将该节点弧与热词树进行匹配,匹配成功,则激励该节点弧,进行权重加分,并记录匹配信息;如果匹配到热词树的叶子节点,也即热词树的末尾节点,则根据热词树的深度额外加分。
在该过程中,每个热词节点的激励分都与其所在热词的权重正相关,但是,当两个热词前缀相同而权重不同时,新加入一个热词会影响原有热词生效的结果。比如热词“中国”和热词“中庸”,“中国”的权重为4.0,“中庸”的权重为1.0,假设“中国”是热词树中原有的热词,“中庸”是需要加入热词树的热词,则原有热词树中的“中”的权重为4.0,比“中庸”里“中”的权重高,这时,若加入“中庸”,则可能导致热词树中原有“中”的权重变低,这取决于哈希排序时哪个热词会先构建到热词树中,这样,在解码过程中便容易导致之前“中国”生效而现在不生效的问题。
基于此,本发明实施例提供了一种语音识别方法,可以在基于解码识别网络对接收的语音信号进行解码的过程中,将解码出的节点弧与热词树中的热词节点进行匹配;在匹配成功的情况下,在节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分;其中,在匹配成功热词节点为非叶子节点的情况下,匹配成功热词节点的热词激励分为常数;在匹配成功热词节点为叶子节点的情况下,基于匹配成功热词节点所在热词的权重和深度确定热词激励总分,将路径激励分更新为热词激励总分,并用更新后的路径激励分对热词所在路径的路径总分进行激励;在完成对语音信号的解码后,从解码出的所有路径中,基于每条路径的路径总分确定目标解码路径,通过目标解码路径确定语音信号对应的语音识别文本。这样,在解码过程中,累加的非叶子节点的热词激励分为常数,与热词的权重无关,则前缀相同而权重不同的热词间不会相互影响,因此,当有新的热词加入时,原有热词的激励效果不会因为新增热词而产生波动,从而保证了热词的正向激励效果。
下面结合图1对本发明的语音识别方法进行描述。需要说明的是,本发明实施例不限定语音识别方法的执行主体,例如,本发明实施例提供的语音识别方法可以应用于终端设备或服务器等电子设备。其中,终端设备可以包括手机、电脑、智能词典、录音笔、车载设备、平板电脑、可穿戴设备、智能机器人、智能家居设备等;服务器可以包括独立服务器、集群服务器或云服务器等。该语音识别方法也可以应用于设置在终端设备或服务器等电子设备中的语音识别装置中,该语音识别装置可以通过软件、硬件或两者的结合来实现。
图1示例性示出了本发明实施例提供的语音识别方法的流程示意图,参照图1所示,该语音识别方法可以包括如下的步骤110~步骤150。
步骤110:在基于解码识别网络对接收的语音信号进行解码的过程中,将解码出的节点弧与热词树中的热词节点进行匹配。
解码识别网络可以是将语言模型的语义网络通过声学模型及字典等扩展成基于模型状态层的搜索网络,用于对语音信号进行解码识别。例如,该解码识别网络可以是基于已经训练好的语音模型构建的加权有限状态转换器(Weight Finite State Transducer,WFST)搜索网络。基于解码识别网络对接收的语音信号进行解码的过程是一个在该解码识别网络中搜索最优路径,实现语音到文本的转换的过程。网络中每条节点弧可以代表一个模型串构成的单词,而词和词之间的跳转可以表示语言模型中的连接关系。
示例性的,解码识别网络可以由系统在线构建,也可以通过离线方式构建,在系统启动时直接载入,以减少系统运算量及所需内存。
语音信号可以是任意场景下的语音信号,比如实时语音场景等,本发明对此不作任何限定。另外,语音信号可以是通过语音采集装置,如麦克风、拾音器等,采集得到的原始语音信号,也可以是对原始语音信号进行降噪、语音增强等预处理之后得到的语音信号。
在基于解码识别网络对接收的语音信号进行解码的过程中,每解码出一条节点弧,将该节点弧与热词树中的热词节点进行匹配。其中,节点弧上可以保存词信息,比如词ID,可以将该词ID与热词树中的热词节点进行匹配。
步骤120:在匹配成功的情况下,在节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分。
其中,在匹配成功热词节点为非叶子节点的情况下,匹配成功热词节点的热词激励分为常数。示例性的,该常数可以基于节点激励系数确定,比如可以设置为该节点激励系数。其中,节点激励系数表示激励的梯度,是可调参数。
在解码识别网络中搜索路径的过程中,每搜索到一条节点弧,将该节点弧上保存的词信息与热词树中的热词节点进行匹配,若匹配成功,则在该节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分,随着路径的不断搜索,每条搜索路径的路径总分和路径激励分不断累计。当累计匹配到热词树的叶子节点时,执行步骤130。
步骤130:在匹配成功热词节点为叶子节点的情况下,基于匹配成功热词节点所在热词的权重和深度确定热词激励总分。
在累计匹配到叶子节点时,表示已经匹配到了一个完整热词的最后一个分词,这时可以将路径激励分中累计的非叶子节点的激励分减掉,再获取当前匹配成功热词节点所在热词的权重和深度,基于该匹配成功热词节点所在热词的权重和深度确定整个匹配成功热词的热词激励总分。
示例性的,可以预先建立权重、深度和热词激励总分的函数关系,然后根据获取到的匹配成功热词节点所在热词的权重和深度,利用该函数关系确定对应的热词激励总分。其中的函数关系可以基于现有技术中考虑每个热词节点权重的热词激励分计算方式进行确定,比如利用该函数关系计算得到的热词激励总分与利用现有技术中的热词激励分计算方式计算得到的热词激励总分相等或近似相等。
可选的,基于匹配成功热词节点所在热词的权重和深度确定热词激励总分可以包括:从热词树中获取匹配成功热词节点所在热词的权重和该热词的深度;确定该热词的权重和该热词的深度的乘积;基于该乘积确定热词激励总分;其中,热词激励总分与该热词的权重和该热词的深度的乘积成线性关系。
示例性的,该线性关系中的线性参数可以基于节点激励系数和深度激励系数确定,其中的深度激励系数可以表示激励的偏置。
步骤140:将路径激励分更新为热词激励总分,并用更新后的路径激励分对热词所在路径的路径总分进行激励。
在确定出热词激励总分之后,将节点弧所在路径的路径激励分赋值为该热词激励总分,以该热词激励总分对当前匹配成功热词节点对应热词所在的路径的路径总分进行激励。此时,该路径总分可以表示为该条路径上的声学分、语言分和该热词激励总分的和,这样,通过热词激励可以提高包含热词的路径被识别出来的概率。
可以理解的是,在解码过程中,对于解码出的每条路径,都有各自累积的路径激励分,可以通过路径激励分对对应路径的路径总分进行激励。
步骤150:在完成对语音信号的解码后,从解码出的所有路径中,基于每条路径的路径总分确定目标解码路径,通过目标解码路径确定语音信号对应的语音识别文本。
示例性的,完成对语音信号的解码可以是完成一遍激励解码,一遍激励解码完成后,可以将解码出的所有路径中,路径总分最高的路径确定为目标解码路径;或者对所有路径的路径总分从大到小进行排序,将前预设数量个路径总分对应的路径确定为目标解码路径。之后,可以从目标解码路径中确定出语音信号对应的语音识别文本。
示例性的,完成对语音信号的解码可以是完成二遍激励解码。通过一遍激励降低热词所在路径被裁剪掉的概率,一遍激励解码后,解码出的所有路径可以以词图网络的形式表示,然后进入二遍激励,从词图网络中进行路径搜索,在搜索过程中与存储热词拼音信息的拼音树进行匹配,如果发音相同或相似,则提高该路径的语言分,在二遍激励解码后,可以从二遍激励解码出的路径中选择路径总分最高的路径作为目标解码路径,从目标解码路径中确定出语音信号对应的语音识别文本。通过二遍激励,可以提高包含热词的路径的语言分,提高包含热词的路径被激励出来的概率,进一步提高热词识别的准确性。
本发明实施例提供的语音识别方法,在基于解码识别网络对接收的语音信号进行解码的过程中,将解码出的节点弧与热词树中的热词节点进行匹配;在匹配成功的情况下,在节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分;其中,在匹配成功热词节点为非叶子节点的情况下,匹配成功热词节点的热词激励分为常数;在匹配成功热词节点为叶子节点的情况下,基于匹配成功热词节点所在热词的权重和深度确定热词激励总分,将路径激励分更新为该热词激励总分,并用更新后的路径激励分对热词所在路径的路径总分进行激励;在完成对语音信号的解码后,从解码出的所有路径中,基于每条路径的路径总分确定目标解码路径,通过目标解码路径确定语音信号对应的语音识别文本。这样,在解码过程中,由于累加的非叶子节点的热词激励分为常数,与热词的权重无关,则前缀相同而权重不同的热词间不会相互影响,因此,当有新的热词加入时,原有热词的激励效果不会因为新增热词而产生波动,从而保证了热词的正向激励效果。
下面以热词“我是中国人”且该热词的权重weight是1.0为例,对图1对应实施例的语音识别方法进行举例说明。
热词“我是中国人”可以被语音模型分词为“我-是-中国-人”,每个分词的权重与热词的权重weight相同,均为1.0,热词深度depth为4。针对热词树,可以设置节点激励系数enhance和深度激励系数depthweight,用于热词激励分的计算,该enhance和depthweight为可调参数,可以通过实验等方式预先设置。在本示例实施例中,假设enhance=4,depthweight=4。
按照现有技术中的热词激励方法,每匹配到一个热词节点,在累加热词激励分时都会考虑热词的权重。即就是,在解码过程中,当依次匹配到“我”、“是”、“中国”的时候,每个热词节点的热词激励分为enhance*weight=4*1=4,累计热词激励分为4*3=12,即匹配到“中国”的时候,对应路径的路径激励分累计结果为12。继续搜索路径匹配到叶子节点“人”时,该叶子节点“人”的热词激励分为enhance*weight+depth*depthweight+enhance=4*1+4*4+4=24。这样,完全匹配“我-是-中国-人”这个热词时,热词激励总分为HotWordScore=enhance*weight*depth+depth*depthweight+enhance=4*depth*(weight+1)+4=36。热词激励分的计算与热词的权重相关,如若有前缀相同而权重不同的新的热词加入,则会影响“我-是-中国-人”的生效结果。
而利用本发明实施例提供的语音识别方法进行热词激励时,在解码过程中可以将非叶子节点的热词激励分取为常数,该常数可以是enhance。当匹配到叶子节点时,可以先将路径激励分累计的非叶子节点的热词激励分减掉,也即对该路径当前的路径激励分清零,然后再为该路径激励分赋值所匹配到的整体热词的热词激励总分:HotWordScore=a*(weight*depth)+b,其中,a和b为预设的系数,其取值可以基于现有技术中的热词激励总分的计算方式确定,比如使两种方式下的HotWordScore相等,以此确定a和b的值。
假设a=8,b=4,仍以“我-是-中国-人”为例,在解码过程中,当依次匹配到“我”、“是”、“中国”的时候,每个热词节点的热词激励分分别为常数enhance=4,匹配到“中国”时累计的路径激励分则为12。当继续累计匹配到“人”时,路径激励分会先减去12,再重新赋值HotWordScore=a*(weight*depth)+b=8*(1*4)+4=36。在该过程中,由于非叶子节点的热词激励分与权重无关,则前缀相同而权重不同的热词间不会互相影响,热词的过程累积分和匹配到完整热词时的热词激励总分基本上可以和现有技术的保持一致。
需要说明的是,本示例中是以热词的权重是1.0进行举例说明,实际应用中也可能存在热词的权重为2.0、3.0或4.0等大于1.0的情况。当热词的权重大于1.0时,采用本发明实施例提供的语音识别方法进行热词激励时,热词激励总分会高于现有技术方案的热词激励总分,热词所在的路径更容易被激励出来,与现有技术的热词激励方式相比,热词的正向激励效果不会下降。
在基于解码识别网络对语音信号进行解码的过程中,解码识别出的节点弧非常多,如果都保留并进行遍历,则会导致解码时间过长且占用较大的资源空间,影响解码的效率。因此,在解码过程中可以设置规则对解码路径进行裁剪,以滤除掉概率较小的路径。比如,可以采用beam裁剪的方式,即就是,在每一语音帧解码得到的所有局部路径中找到最高路径分,任何与该最高路径分之间的差值超过预设裁剪分差的路径都会被裁剪掉。其中的beam代表预设裁剪分差。
但是,这种裁剪方式容易出现热词误触发的问题,原因是:热词的热词激励分与热词的权重及深度成正相关,在热词的权重较高或热词的深度较大的情况下,热词激励分会较高,当高于预设裁剪分差时,如果该热词是非预期的,该热词所在的解码路径会导致其他需要的正确路径被裁剪掉,最终的热词识别结果中会出现错误的热词生效,即导致热词的误触发。例如,一条语音为“我是宗国人”,假设预设裁剪分差为30分,未将“我是中国人”添加为热词时,解码路径中“我是宗国人”路径的累计路径总分是60分,“我是中国人”路径的累计路径总分是55分。当将权重为1.0的“我是中国人”添加为热词后,在解码过程中由于能够匹配到热词“我是中国人”,且热词“我是中国人”的累计热词激励分为36分,则“我是中国人”路径的累计路径总分会变为55+36=91分,beam裁剪时所有低于91-30=61分的路径都会被裁掉,这样,原本应该被识别出的“我是宗国人”路径会被裁掉,导致最终识别结果错误。
基于此,在本发明实施例中,可以在构建热词树的时候,对用于构建热词树的每个待构建热词的权重进行调整。此时,待构建热词的深度已知,预设裁剪分差beam已知,热词激励总分HotWordScore=a*(weight*depth)+b中的参数a和b已知,则可以将weight作为未知数,通过热词权重动态调整公式HotWordScore≤beam可以为每个待构建热词分别确定出一个权重,比如从满足该动态调整公式的权重中选择最大的权重,将该权重作为该待构建热词的权重添加到热词树中。
具体的,基于图1对应实施例的语音识别方法,在一种示例实施例中,该语音识别方法还可以包括:获取至少一个待构建热词和待构建热词的深度;基于待构建热词的深度和预设裁剪分差确定待构建热词的权重;基于待构建热词、待构建热词的深度和待构建热词的权重构建热词树;其中,预设裁剪分差用于在路径裁剪中限定最高路径分与裁剪门限之间的差值;基于待构建热词的权重和待构建热词的深度确定的待构建热词的热词激励总分小于或等于预设裁剪分差。
例如,仍以将“我是中国人”作为待构建热词添加至热词树、“我是中国人”的权重是1.0且beam=30为例,可以根据热词权重动态调整公式,通过8*weight*4+4=30,确定出weight=0.8125,则构建热词树时将该待构建热词“我是中国人”的权重调整为0.8125。将“我是中国人”作为热词后,在解码过程中,“我是中国人”路径的累计路径总分会变为55+30=85分,此时所有低于85-30=55分的路径会被裁剪掉,“我是宗国人”这条路径能够被保留下来。这样,可以避免热词的误触发。
示例性的,预设裁剪分差beam是可调参数,可以由用户进行配置。基于此,本发明实施例提供的语音识别方法还可以包括:在检测到裁剪分差配置指令的情况下,显示裁剪分差配置界面;裁剪分差配置界面中包括裁剪分差配置控件;响应于面向裁剪分差配置控件的配置操作,确定预设裁剪分差。
示例性的,裁剪分差配置控件可以是输入控件,用户可以直接在该输入控件中输入预设裁剪分差值。裁剪分差配置控件也可以是选择菜单控件,用户点击该选择菜单控件时可以下拉显示可选的裁剪分差,用户可以从中选择一个裁剪分差值作为预设裁剪分差。
基于图1对应实施例的语音识别方法,在一种示例实施例中,在路径裁剪时,可以将路径累积分与热词激励累积分解耦,在更新裁剪门限时利用从路径累积分中减去热词激励累积分后的最高路径分,在裁剪时利用路径累积分与裁剪门限比较。
具体的,本发明实施例提供的语音识别方法还可以包括:在对语音信号进行解码的过程中,针对语音信号中的每一语音帧,获取语音帧解码出的每条局部路径当前所累积的路径累积分和热词激励累积分;从路径累积分中减去热词激励累积分,得到每条局部路径的待处理路径分;从每条局部路径的待处理路径分中确定最高路径分,并基于最高路径分和预设裁剪分差确定裁剪门限;基于裁剪门限对语音帧解码出的局部路径进行裁剪处理,并根据裁剪后的局部路径形成语音信号解码出的路径。
其中,基于裁剪门限对语音帧解码出的局部路径进行裁剪处理可以包括:将语音帧解码出的局部路径中,路径累积分小于裁剪门限的局部路径裁剪掉。
例如,以解码出3条局部路径为例,分别为路径1~路径3,假设路径1的路径累积分为pathScore1、热词激励累积分为A1,路径2的路径累积分为pathScore2、热词激励累积分为A2,路径3的路径累积分为pathScore3、热词激励累积分为A3,则可以从各条路径的路径累积分与热词激励累积分的差值pathScore1-A1、pathScore2-A2和pathScore3-A3中确定最高路径分maxScore,比如确定出maxScore=pathScore2-A2,则将maxScore-beam确定为裁剪门限,在进行beam裁剪时将路径累积分pathScore1、pathScore2和pathScore3中小于maxScore-beam的路径裁剪掉,将未被裁剪掉的局部路径形成为语音信号解码出的路径。与从pathScore1、pathScore2和pathScore3中确定最高路径分maxScore的方案相比,裁剪门限降低,保留的路径更多。
这样,beam裁剪时所用的路径累积分中包含热词分,则热词所在的路径有更高的概率被保留;而更新裁剪门限时所用的最高分中减去了热词激励累积分,则热词所在路径所累加的热词激励分不会影响非热词路径被裁剪,如此,可以保留更多的路径送入二遍激励,提高了热词识别的准确率。
本发明实施例提供的语音识别方法,一方面,在解码过程中,累加的非叶子节点的热词激励分为常数,与热词的权重无关,则前缀相同而权重不同的热词间不会相互影响,因此,当有新的热词加入时,原有热词的激励效果不会因为新增热词而产生波动,从而保证了热词的正向激励效果。另一方面,在构建热词树时可以基于预设裁剪分差对每个待构建热词的权重进行动态调整,能够避免热词的权重过高或深度较大时带来的热词激励分过高而导致其他正常路径被裁剪掉的热词误触发问题。再者,在解码过程中可以将路径累积分与热词激励累积分解耦,在更新裁剪门限时利用从路径累积分中减去热词激励累积分后的最高路径分,在裁剪时利用路径累积分与裁剪门限比较,能够在保证热词所在路径不被裁剪掉的基础上,保留更多的非热词路径进入后续的解码处理中,提高热词识别的准确率。
下面对本发明提供的语音识别装置进行描述,下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。
图2示例性示出了本发明实施例提供的语音识别装置的结构示意图,参照图2所示,语音识别装置200可以包括:
匹配模块210,用于在基于解码识别网络对接收的语音信号进行解码的过程中,将解码出的节点弧与热词树中的热词节点进行匹配;
累加模块220,用于在匹配成功的情况下,在节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分;其中,在匹配成功热词节点为非叶子节点的情况下,匹配成功热词节点的热词激励分为常数;
激励模块230,用于在匹配成功热词节点为叶子节点的情况下,基于匹配成功热词节点所在热词的权重和深度确定热词激励总分,将路径激励分更新为热词激励总分,并用更新后的路径激励分对热词所在路径的路径总分进行激励;
解码确定模块240,用于在在完成对语音信号的解码后,从解码出的所有路径中,基于每条路径的路径总分确定目标解码路径,通过目标解码路径确定语音信号对应的语音识别文本。
一种示例实施例中,激励模块230可以包括:获取单元,用于从热词树中获取匹配成功热词节点所在热词的权重和该热词的深度;第一确定单元,用于确定匹配成功热词节点所在热词的权重和匹配成功热词节点所在热词的深度的乘积;第二确定单元,用于基于乘积确定热词激励总分;其中,热词激励总分与乘积成线性关系。
一种示例实施例中,语音识别装置200还可以包括:获取模块,用于获取至少一个待构建热词和待构建热词的深度;权重确定模块,用于基于待构建热词的深度和预设裁剪分差确定待构建热词的权重;其中,预设裁剪分差用于在路径裁剪中限定最高路径分与裁剪门限之间的差值;构建模块,用于基于待构建热词、待构建热词的深度和待构建热词的权重构建热词树;其中,基于待构建热词的权重和待构建热词的深度确定的待构建热词的热词激励总分小于或等于预设裁剪分差。
一种示例实施例中,语音识别装置200还可以包括:预设裁剪分差确定模块,用于在检测到裁剪分差配置指令的情况下,显示裁剪分差配置界面,该裁剪分差配置界面中包括裁剪分差配置控件,响应于面向裁剪分差配置控件的配置操作,确定预设裁剪分差。
一种示例实施例中,语音识别装置200还可以包括:累积分获取模块,用于在对语音信号进行解码的过程中,针对语音信号中的每一语音帧,获取语音帧解码出的每条局部路径当前所累积的路径累积分和热词激励累积分;计算模块,用于从路径累积分中减去热词激励累积分,得到每条局部路径的待处理路径分;裁剪门限确定模块,用于从每条局部路径的待处理路径分中确定最高路径分,并基于最高路径分和预设裁剪分差确定裁剪门限;裁剪模块,用于基于裁剪门限对语音帧解码出的局部路径进行裁剪处理,并根据裁剪后的局部路径形成语音信号解码出的路径。
一种示例实施例中,裁剪模块可以具体用于将语音帧解码出的局部路径中,路径累积分小于裁剪门限的局部路径裁剪掉。
图3示例了一种电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communication Interface)320、存储器(memory)330和通信总线340,其中,处理器310、通信接口320和存储器330可以通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行上述各方法实施例提供的语音识别方法,该方法比如可以包括:在基于解码识别网络对接收的语音信号进行解码的过程中,将解码出的节点弧与热词树中的热词节点进行匹配;在匹配成功的情况下,在节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分;其中,在匹配成功热词节点为非叶子节点的情况下,匹配成功热词节点的热词激励分为常数;在匹配成功热词节点为叶子节点的情况下,基于匹配成功热词节点所在热词的权重和深度确定热词激励总分,将路径激励分更新为热词激励总分,并用更新后的路径激励分对热词所在路径的路径总分进行激励;在完成对语音信号的解码后,从解码出的所有路径中,基于每条路径的路径总分确定目标解码路径,通过目标解码路径确定语音信号对应的语音识别文本。
一种示例实施例中,该电子设备还可以包括与处理器310连接的语音采集装置,该语音采集装置可以用于采集语音信号。
示例性的,语音采集装置可以包括麦克风或拾音器等。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法实施例所提供的语音识别方法,该方法比如可以包括:在基于解码识别网络对接收的语音信号进行解码的过程中,将解码出的节点弧与热词树中的热词节点进行匹配;在匹配成功的情况下,在节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分;其中,在匹配成功热词节点为非叶子节点的情况下,匹配成功热词节点的热词激励分为常数;在匹配成功热词节点为叶子节点的情况下,基于匹配成功热词节点所在热词的权重和深度确定热词激励总分,将路径激励分更新为热词激励总分,并用更新后的路径激励分对热词所在路径的路径总分进行激励;在完成对语音信号的解码后,从解码出的所有路径中,基于每条路径的路径总分确定目标解码路径,通过目标解码路径确定语音信号对应的语音识别文本。
又一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法实施例所提供的语音识别方法,该方法比如可以包括:在基于解码识别网络对接收的语音信号进行解码的过程中,将解码出的节点弧与热词树中的热词节点进行匹配;在匹配成功的情况下,在节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分;其中,在匹配成功热词节点为非叶子节点的情况下,匹配成功热词节点的热词激励分为常数;在匹配成功热词节点为叶子节点的情况下,基于匹配成功热词节点所在热词的权重和深度确定热词激励总分,将路径激励分更新为热词激励总分,并用更新后的路径激励分对热词所在路径的路径总分进行激励;在完成对语音信号的解码后,从解码出的所有路径中,基于每条路径的路径总分确定目标解码路径,通过目标解码路径确定语音信号对应的语音识别文本。
示例性的,计算机可读存储介质可以包括非暂态计算机可读存储介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种语音识别方法,其特征在于,包括:
在基于解码识别网络对接收的语音信号进行解码的过程中,将解码出的节点弧与热词树中的热词节点进行匹配;
在匹配成功的情况下,在所述节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分;其中,在所述匹配成功热词节点为非叶子节点的情况下,所述匹配成功热词节点的热词激励分为常数;
在所述匹配成功热词节点为叶子节点的情况下,基于所述匹配成功热词节点所在热词的权重和深度确定热词激励总分,将所述路径激励分更新为所述热词激励总分,并用更新后的路径激励分对所述热词所在路径的路径总分进行激励;
在完成对所述语音信号的解码后,从解码出的所有路径中,基于每条路径的路径总分确定目标解码路径,通过所述目标解码路径确定所述语音信号对应的语音识别文本。
2.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述匹配成功热词节点所在热词的权重和深度确定热词激励总分,包括:
从所述热词树中获取所述匹配成功热词节点所在热词的权重和所述热词的深度;
确定所述热词的权重和所述热词的深度的乘积;
基于所述乘积确定所述热词激励总分;其中,所述热词激励总分与所述乘积成线性关系。
3.根据权利要求1或2所述的语音识别方法,其特征在于,还包括:
获取至少一个待构建热词和所述待构建热词的深度;
基于所述待构建热词的深度和预设裁剪分差确定所述待构建热词的权重;所述预设裁剪分差用于在路径裁剪中限定最高路径分与裁剪门限之间的差值;
基于所述待构建热词、所述待构建热词的深度和所述待构建热词的权重构建所述热词树;
其中,基于所述待构建热词的权重和所述待构建热词的深度确定的所述待构建热词的热词激励总分小于或等于所述预设裁剪分差。
4.根据权利要求3所述的语音识别方法,其特征在于,还包括:
在检测到裁剪分差配置指令的情况下,显示裁剪分差配置界面;所述裁剪分差配置界面中包括裁剪分差配置控件;
响应于面向所述裁剪分差配置控件的配置操作,确定所述预设裁剪分差。
5.根据权利要求1或2所述的语音识别方法,其特征在于,还包括:
在对所述语音信号进行解码的过程中,针对所述语音信号中的每一语音帧,获取所述语音帧解码出的每条局部路径当前所累积的路径累积分和热词激励累积分;
从所述路径累积分中减去所述热词激励累积分,得到所述每条局部路径的待处理路径分;
从所述每条局部路径的待处理路径分中确定最高路径分,并基于所述最高路径分和预设裁剪分差确定裁剪门限;
基于所述裁剪门限对所述语音帧解码出的局部路径进行裁剪处理,并根据裁剪后的局部路径形成所述语音信号解码出的路径。
6.根据权利要求5所述的语音识别方法,其特征在于,所述基于所述裁剪门限对所述语音帧解码出的局部路径进行裁剪处理,包括:
将所述语音帧解码出的局部路径中,所述路径累积分小于所述裁剪门限的局部路径裁剪掉。
7.一种语音识别装置,其特征在于,包括:
匹配模块,用于在基于解码识别网络对接收的语音信号进行解码的过程中,将解码出的节点弧与热词树中的热词节点进行匹配;
累加模块,用于在匹配成功的情况下,在所述节点弧所在路径的路径激励分上累加匹配成功热词节点的热词激励分;其中,在所述匹配成功热词节点为非叶子节点的情况下,所述匹配成功热词节点的热词激励分为常数;
激励模块,用于在所述匹配成功热词节点为叶子节点的情况下,基于所述匹配成功热词节点所在热词的权重和深度确定热词激励总分,将所述路径激励分更新为所述热词激励总分,并用更新后的路径激励分对所述热词所在路径的路径总分进行激励;
解码确定模块,用于在在完成对所述语音信号的解码后,从解码出的所有路径中,基于每条路径的路径总分确定目标解码路径,通过所述目标解码路径确定所述语音信号对应的语音识别文本。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语音识别方法。
9.根据权利要求8所述的电子设备,其特征在于,还包括与所述处理器连接的语音采集装置,所述语音采集装置用于采集所述语音信号。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音识别方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211702079.3A CN115985326A (zh) | 2022-12-28 | 2022-12-28 | 语音识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211702079.3A CN115985326A (zh) | 2022-12-28 | 2022-12-28 | 语音识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115985326A true CN115985326A (zh) | 2023-04-18 |
Family
ID=85973638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211702079.3A Pending CN115985326A (zh) | 2022-12-28 | 2022-12-28 | 语音识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115985326A (zh) |
-
2022
- 2022-12-28 CN CN202211702079.3A patent/CN115985326A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6676141B2 (ja) | 音声区間の検出方法および装置 | |
US11043211B2 (en) | Speech recognition method, electronic device, and computer storage medium | |
JP6800946B2 (ja) | 音声区間の認識方法、装置及び機器 | |
CN108428447B (zh) | 一种语音意图识别方法及装置 | |
CN108346436B (zh) | 语音情感检测方法、装置、计算机设备及存储介质 | |
CN111402895B (zh) | 语音处理、语音评测方法、装置、计算机设备和存储介质 | |
CN107644638B (zh) | 语音识别方法、装置、终端和计算机可读存储介质 | |
US20160189715A1 (en) | Speech recognition device and method | |
CN111797632B (zh) | 信息处理方法、装置及电子设备 | |
US20150348542A1 (en) | Speech recognition method and system based on user personalized information | |
CN106875936B (zh) | 语音识别方法及装置 | |
CN109448746B (zh) | 语音降噪方法及装置 | |
CN112951211B (zh) | 一种语音唤醒方法及装置 | |
CN110808030A (zh) | 语音唤醒方法、系统、存储介质及电子设备 | |
CN111611358A (zh) | 信息交互方法、装置、电子设备及存储介质 | |
CN113793599B (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
CN111386566A (zh) | 设备控制方法、云端设备、智能设备、计算机介质及设备 | |
CN112562659B (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN112509557B (zh) | 一种基于非确定化词图生成的语音识别方法及其系统 | |
CN112711944B (zh) | 一种分词方法、系统、分词器生成方法及系统 | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
CN112863496B (zh) | 一种语音端点检测方法以及装置 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN115985326A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |