CN116543759A

CN116543759A - 语音识别处理方法及装置

Info

Publication number: CN116543759A
Application number: CN202310713922.6A
Authority: CN
Inventors: 吕安旗; 王志铭; 徐陈虹
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-08-04

Abstract

本说明书实施例提供了语音识别处理方法及装置，其中，一种语音识别处理方法包括：将待识别语音的语音帧进行语音识别获得的多个候选字符，以及对待识别语音中已识别语音帧的识别输出的历史字符序构成的字符组合与关键字符序列进行匹配，根据匹配结果更新各候选字符的识别概率，并计算各候字符与历史字符序列构成的候选字符序列的识别指标，根据各候选字符序列的识别指标筛选出待识别语音中已识别语音帧的目标字符序列。

Description

语音识别处理方法及装置

技术领域

本文件涉及数据处理技术领域，尤其涉及一种语音识别处理方法及装置。

背景技术

随着网络技术的发展，用户能通过网络参与各种各样的服务，也能通过网络进行各种信息的录入和收集，且随着相关技术的发展，对于不同类型的信息也能进行分析和识别；对于用户产生的语音形式的数据，为了实现后续的处理，需要对语音数据进行识别；

在对语音数据进行识别的过程中，对于不同的服务场景或者具有特定含义或者解释的词汇，如果识别错误或者出现偏差，会对后续的处理产生较大的影响，如何对语音进行有效识别，成为用户和服务方日益关注的重点。

发明内容

本说明书一个或多个实施例提供了一种语音识别处理方法。所述语音识别处理方法，包括：获取对待识别语音的语音帧进行语音识别获得的多个候选字符，以及各候选字符的识别概率。将所述多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配；所述历史字符序列为所述待识别语音中已识别语音帧的识别输出。根据匹配结果更新所述各候选字符的识别概率，并计算所述各候选字符与所述历史字符序列构成的候选字符序列的识别指标。基于所述候选字符序列的识别指标筛选出目标字符序列，作为所述待识别语音中已识别语音帧的识别输出。

本说明书一个或多个实施例提供了一种语音识别处理装置，包括：获取模块，被配置为获取对待识别语音的语音帧进行语音识别获得的多个候选字符，以及各候选字符的识别概率。匹配模块，被配置为将所述多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配。所述历史字符序列为所述待识别语音中已识别语音帧的识别输出。识别概率更新模块，被配置为根据匹配结果更新所述各候选字符的识别概率，并计算所述各候选字符与所述历史字符序列构成的候选字符序列的识别指标。筛选模块，被配置为基于所述候选字符序列的识别指标筛选出目标字符序列，作为所述待识别语音中已识别语音帧的识别输出。

本说明书一个或多个实施例提供了一种语音识别处理设备，包括：处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：获取对待识别语音的语音帧进行语音识别获得的多个候选字符，以及各候选字符的识别概率。将所述多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配；所述历史字符序列为所述待识别语音中已识别语音帧的识别输出。根据匹配结果更新所述各候选字符的识别概率，并计算所述各候选字符与所述历史字符序列构成的候选字符序列的识别指标。基于所述候选字符序列的识别指标筛选出目标字符序列，作为所述待识别语音中已识别语音帧的识别输出。

本说明书一个或多个实施例提供了一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下流程：获取对待识别语音的语音帧进行语音识别获得的多个候选字符，以及各候选字符的识别概率。将所述多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配；所述历史字符序列为所述待识别语音中已识别语音帧的识别输出。根据匹配结果更新所述各候选字符的识别概率，并计算所述各候选字符与所述历史字符序列构成的候选字符序列的识别指标。基于所述候选字符序列的识别指标筛选出目标字符序列，作为所述待识别语音中已识别语音帧的识别输出。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图；

图1为本说明书一个或多个实施例提供的一种语音识别处理方法的实施环境的示意图；

图2为本说明书一个或多个实施例提供的一种语音识别处理方法处理流程图；

图3为本说明书一个或多个实施例提供的一种应用于热词增强场景的语音识别处理方法处理示意图；

图4为本说明书一个或多个实施例提供的一种应用于热词增强场景的语音识别处理方法处理流程图；

图5为本说明书一个或多个实施例提供的一种语音识别处理装置实施例的示意图；

图6为本说明书一个或多个实施例提供的一种语音识别处理设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

本说明书一个或多个实施例提供的语音识别处理方法，如图1所示，实施环境包括服务器101，该服务器101运行有对待识别语音进行语音识别的语音识别模型和存储语音识别模型在语音识别过程中产生的数据进行存储的数据处理空间，该数据处理空间可以是服务器中外接于语音识别模型的空间，还可以是在语音识别模型中新增的一个处理层，该处理层采用本实施例提供的方式进行数据处理。

其中，服务器101可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是云计算平台中的一个或者多个云服务器，用于对待识别语音在识别过程中进行关键词的增强，还可以用于对待识别语音进行语音识别后的识别结果进行对应的服务处理，或者将识别结果发送至对应的处理平台进行服务处理。

此外，该实施环境还可包括用户终端102，用户终端102可以是一台用户终端，还可以是多台用户终端组成的用户终端集合；用户终端102可以是手机、个人电脑、平板电脑、电子书阅读器、基于VR(Virtual Reality，虚拟现实技术)进行信息交互的设备、车载终端、IoT设备、穿戴式智能设备、膝上型便携计算机和台式计算机等等，用于采集或者获取待识别语音并向服务器上传，还可用于接收服务器基于待识别语音的识别结果进行服务处理后下发的服务处理结果。

该实施环境中，服务器101的数据处理空间，对于待识别语音的语音帧的多个候选字符，通过将多个候选字符和待识别语音的历史字符序列构成的字符组合与关键字符序列进行匹配的方式，实现对待识别语音的语音识别过程中的关键字符增强；在进行匹配之后，根据匹配结果更新各候选字符的识别概率，并计算各候选字符与历史字符序列构成的候选字符序列的识别指标，最后基于候选字符序列的识别指标筛选出目标字符序列，以此，通过对候选字符的识别概率进行更新，进一步利用更新后的识别概率计算对应的候选字符序列的识别指标，再根据识别指标筛选目标字符序列，提升对待识别语音进行语音识别的准确性。

本说明书提供的一种语音识别处理方法的一个或者多个实施例如下：

本实施例提供的语音识别处理方法，在对待识别语音进行语音识别的过程中，将对语音帧识别获得的候选字符进行关键字符匹配，并对与关键字符匹配的候选字符的识别概率进行更新，按照各候选字符的识别概率计算将候选字符与待识别语音中已识别语音帧对应的历史字符序列构成的候选字符序列的识别指标，根据候选字符序列的识别指标确定待识别语音中已识别语音帧的识别输出，以此，在对语音帧进行识别的过程中，基于待识别语音中已识别语音帧的历史字符序列和语音帧的候选字符进行关键字符匹配，以此，在提升识别获得的语音帧的候选字符的基础上，将候选字符和关键字符进行匹配，并在候选字符与关键字符匹配的情况下对该候选字符的识别概率进行更新，进一步更新该候选字符与历史字符序列构成的候选字符序列的识别指标，使基于识别指标筛选的目标字符序列更加准确更加有效。

参照图2，本实施例提供的语音识别处理方法，具体包括步骤S202至步骤S208。

步骤S202，获取对待识别语音的语音帧进行语音识别获得的多个候选字符，以及各候选字符的识别概率。

本实施例中，所述待识别语音，包括需要进行字符识别的语音，其中，语音包括用户的语音、视频中携带的语音或者网络直播过程中产生的语音。可选的，所述待识别语音，包括用户语音。所述用户语音，可包括用户进行服务访问过程中提交的语音；例如，用户采用语音的形式提交的对目标服务的访问指令；访问指令中携带用户语音；此外，用户语音还可包括用户回访等场景中与用户进行通话过程中用户说话产生的语音。

所述待识别语音，由多个语音帧组成；本实施例中的语音帧，为待识别语音中任一语音帧。由于是对语音帧进行识别，对于一个语音帧来说，识别结果为空或者一个字符；且由于是对语音进行识别，因此，在识别结果为一个字符的情况下，对于相同读音，可能存在多个不同的字符，本实施例中的候选字符，也即是语音识别模型对语音帧进行语音识别后获得的可能的多个字符；例如，语音帧中的语音发音为jing，识别出的多个候选字符为景，京，晶。所述各候选字符的识别概率，包括识别出的语音帧对应的字符为各个字符的概率。

本实施例中，采用语音识别模型对待识别语音进行识别，可选的，所述语音识别模型，包括Transducer模型；在基于语音识别模型对待识别语音识别的过程中，对于任一语音帧，获得的是该语音帧对应的多个候选字符和各候选字符的识别概率，也即是语音帧对应的字符为该候选字符的概率。可选的，所述多个候选字符，在对由语音识别模型中的概率计算模块对所述语音帧对应的拼接特征进行概率计算获得的识别字符进行筛选获得。可选的，所述拼接特征由所述语音帧的语音特征和所述历史字符序列的字符特征进行特征拼接获得。

在具体执行过程中，在基于Transducer模型对语音帧进行语音识别的过程中，由于Transducer模型中的概率计算模块输出的是语音帧的识别字符序列，为了提升进行关键字符序列进行匹配的概率，在识别字符序列中进行候选字符的确定，为了提升确定的候选字符的有效性，本实施例提供的一种可选实施方式中，采用如下方式从识别字符列表进行语音帧的多个候选字符的确定：

获取语音识别模型的概率计算模块对所述语音帧对应的拼接特征进行概率计算后获得的识别字符列表；

按照所述识别字符列表中各识别字符的识别概率，对识别字符进行降序排列，获得识别字符队列；

在所述识别字符队列中，提取第二阈值对应的位次之前的识别字符作为候选字符，并读取各候选字符的识别概率。

可选的，所述概率计算模块，可以是一个全连接层，例如，softmax层，用于从特征出发，对该特征与预设字符表中各字符的匹配概率进行计算。所述第二阈值，包括预先设置的提取的候选字符的数量。

具体的，本实施例可应用于存储语音识别模型产生的数据的空间或者服务器，获取到语音识别模型的概率计算模块输出的语音帧的识别字符列表后，按照识别字符列表中各识别字符的识别概率，在识别字符列表中提取出第二阈值对应数量的识别字符作为候选字符，并读取各候选字符的识别概率。

例如，第二阈值为3，则在确定语音帧的候选字符的过程中，在识别字符列表中提取出识别概率排列前3的识别字符作为候选字符。

具体实施时，语音识别模型为了提升对语音帧进行语音识别获得的识别字符的有效性，以及提升计算获得的各识别字符的识别概率的准确性和有效性，在对语音帧进行语音识别的过程中，以待识别语音已识别语音帧的识别输出的历史字符序列为辅助，对语音帧进行辅助编码，以使语音识别模型的概率计算模块对辅助编码获得的拼接特征进行概率计算，获得语音帧的识别字符列表，本实施例提供的一种可选实施方式中，采用如下方式获得语音帧的识别字符列表：

将所述历史字符序列输入所述语音识别模型中的字符编码模块进行字符编码，获得所述历史字符序列的字符特征；

将所述字符特征和所述语音识别模型中的语音编码模块对所述语音帧进行语音编码后获得的语音特征输入特征拼接模块进行特征拼接，获得拼接特征；

将所述拼接特征输入所述概率计算模块进行概率计算，获得所述识别字符列表。

可选的，所述语音识别模型，包括Transducer模型，或者，CTC模型；所述字符编码模块，包括对字符进行编码以获得字符特征的模块，例如Prediction(预测)网络；所述语音编码模块，包括对语音帧进行编码以获得语音特征的模块，例如Encoder；所述特征拼接模块，包括对相同维度的特征进行拼接，获得将不同维度的特征调整为同一维度，再进行特征拼接的模块，例如Joint(联合)网络；所述概率计算模块，包括将特征拼接模块进行特征拼接后获得的拼接特征与识别字符表中各识别字符进行匹配，并计算获得匹配概率的模块，例如全连接层softmax。

具体的，在对当前语音帧进行识别的过程中，通过语音识别模型将对待识别语音中已识别语音帧的识别输出，也即是历史字符序列，对当前语音帧进行辅助语音识别。需要说明的是，若所述语音帧为所述待识别语音的第一帧，则历史字符序列为空；此外，还可预先配置一个第一帧的历史字符序列，在对待识别语音的第一帧进行语音识别的过程中基于预先配置的历史字符序列对第一帧进行辅助语音识别。

本实施例可应用于数据处理空间，在具体的执行过程中，语音识别模型执行如下操作：

将对已识别语音帧进行语音识别后获得的历史字符序列输入字符编码模块进行字符编码，获得所述历史字符序列的字符特征；以及，

读取语音编码模块对所述语音帧进行语音编码后获得的语音特征，或者，将所述语音帧输入语音编码模块进行语音编码，获得所述语音帧的语音特征；

将所述字符特征和所述语音特征输入特征拼接模块进行特征拼接，获得拼接特征；

将所述拼接特征输入概率计算模块进行概率计算，获得所述语音帧的识别字符列表。

可选的，所述已识别语音帧为所述语音帧之前的一个或者多个语音帧；所述识别字符列表中记录有各识别字符以及语音帧与各识别字符的匹配概率。

进一步，数据处理空间在获取到概率计算模块输出并存储的语音帧的识别字符列表后，为了提升处理效率，避免将识别概率小的识别字符进行处理导致资源损失也不会产生正向影响，在候选字符列表中筛选出第二阈值个识别概率最大的识别字符作为语音帧的多个候选字符。

步骤S204，将所述多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配。

在对待识别语音进行语音识别的过程中，为了保证识别结果的准确性和有效性，按照待识别语音的语音帧的顺序进行逐帧的语音识别，所述历史字符序列，包括待识别语音中当前语音帧之前的各语音帧按顺序拼接后获得的字符序列。可选的，所述历史字符序列为所述待识别语音中已识别语音帧的识别输出。所述关键字符序列，包括关键字符表中的关键字符序列。本实施例所述匹配，是指包含与历史字符序列一致的字符序列的关键字符序列。

为了使语音帧之前的已识别语音帧的识别输出对语音帧的识别输出产生正向影响，本实施例中，将多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配；所述字符组合，包括将多个候选字符和各历史字符序列进行分别组合后获得的组合；本实施例中的组合，可以是将历史字符序列和候选字符拼接起来，也可以是将历史字符序列和多个候选字符按照预设格式进行组合，本实施例在此不做限定。

以历史字符序列中包含一个字符为例，历史字符序列包括两个，分别为“北”和“背”；当前语音帧的候选字符包括“京”、“景”和“晶”；历史字符序列和候选字符构成的字符组合包括“北-京，景，晶”和“背-京，景，晶”。

在具体执行过程中，基于所述多个候选字符和历史字符序列进行组合构建获得字符组合后，将字符组合与关键字符序列进行匹配，以此，提升语音识别的准确性。本实施例提供的一种可选实施方式中，采用如下方式实现将所述多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配的过程：

读取所述关键字符序列中与所述历史字符序列匹配的目标关键字符序列，并读取所述目标关键字符序列中所述历史字符序列对应的下一关键字符；

将所述多个候选字符中与所述下一关键字符匹配的候选字符确定为目标字符。

具体的，在关键字符序列表中读取与历史字符序列匹配的关键字符序列，然后确定字符组合中的多个候选字符中与所述关键字符序列匹配的候选字符作为目标字符。

可选的，本实施例中可采用如下方式确定多个候选字符中与所述关键字符序列匹配的候选字符作为目标字符：

将所述字符组合中各候选字符和历史字符序列进行拼接，获得多个拼接字符；

将各拼接字符与所述关键字符序列进行匹配，并将所述多个拼接字符中与所述关键字符匹配的目标拼接字符对应的候选字符确定为目标字符；

沿用上例，对于字符组合“北-京，景，晶”，在关键字符序列表中的关键字符序列中，读取与字符组合中的“北”匹配的目标关键字符序列，读取到的目标关键字符序列包括“北京欢迎你”和“北京你好”，然后将“北”这一历史字符序列分别与三个候选字符进行拼接，获得“北京”、“北景”和“北晶”，然后将“北京”、“北景”和“北晶”与“北京欢迎你”和“北京你好”进行匹配，只有“北京”和目标关键字符序列匹配，则确定“京”为候选字符中的目标字符；

对于字符组合“背-京，景，晶”，在关键字符序列表中的关键字符序列中，读取与字符组合中的“背”匹配的目标关键字符序列，读取到的目标关键字符序列包括“背景环绕”，然后将“背”这一历史字符序列分别与三个候选字符进行拼接，获得“背京”、“背景”和“背晶”，然后将“背京”、“背景”和“背晶”与“背景环绕”进行匹配，只有“背景”和目标关键字符序列匹配，则确定“景”为候选字符中的目标字符；

至此，获得“京”和“景”为语音帧的目标字符；

或者，还可采用如下方式确定多个候选字符中与所述关键字符序列匹配的候选字符作为目标字符：

读取所述目标关键字符中所述历史字符序列对应的下一关键字符；

将所述多个候选字符中与所述下一关键字符匹配的候选字符确定为目标字符；

例如，对于字符组合“北-京，景，晶”，在目标关键字符序列“北京欢迎你”和“北京你好”中读取历史字符序列“北”的下一字符为京，则将候选字符中的“京”确定为目标字符；

对于字符组合“背-京，景，晶”，在目标关键字符序列“背景环绕”中读取历史字符序列“背”的下一字符为景，则将候选字符中的“景”确定为目标字符；

至此，获得“京”和“景”为语音帧的目标字符。

上述是对在候选字符中存在目标字符的处理过程，在具体执行过程中，还存在候选字符中不包含目标字符的情况，候选字符中不包含目标字符，也即是字符组合不与关键字符序列匹配。

为了进一步提升识别结果的准确性，本实施例提供的一种可选实施方式中，在读取与所述历史字符序列匹配的关键字符序列，并读取所述关键字符序列中所述历史字符序列对应的下一关键字符之后，若所述多个候选字符中与所述下一关键字符匹配的目标字符为空，对所述历史字符序列的附加指标进行扣减；其中，所述历史字符序列的附加指标基于组成所述历史字符序列的各字符的热度指标计算获得。

例如，历史字符序列为“知识产”，目标关键字符序列为“知识产权”，候选字符包括“量”、“凉”和“两”，其中，知的识别概率为0.3，热度指标为0.3，识的识别概率为0.3，热度指标为0.2，产的识别概率为0.2，热度指标为0.1，则“知识产”这一历史字符序列的识别指标为1.4，其中，附加指标为0.3+0.2+0.1＝0.6；经过匹配，候选字符与目标关键字符序列不匹配，则将历史字符序列的识别指标中的附加指标进行扣减，获得“知识产”这一历史字符序列的识别指标为0.8。

本实施例中，历史字符序列的识别指标，根据构成历史字符序列中各字符的识别概率累加或者按照预设算法计算获得，各字符的识别概率，在该字符为目标字符时，基于该字符作为目标字符的热度指标对获得的该字符的识别概率进行更新后获得，在该字符不为目标字符时，则为获得的该字符的识别概率，也即是语音识别模型的全连接层输出的识别概率。所述热度指标，包括更新至目标字符的识别概率的概率。

在具体执行过程中，将所述多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配后，若匹配到的目标字符为空，则将所述历史字符序列的附加指标进行扣减。

此外，上述是对多个候选字符和历史字符序列进行处理，也即是从待识别语音中当前语音帧之前所有的语音帧的识别输出对当前语音帧的多个候选字符进行辅助匹配，为了节省计算资源，还可仅基于当前语音帧的前一语音帧的识别输出对当前语音帧的多个候选字符进行匹配，也即是，步骤S204还可被替换为，将所述多个候选字符和历史字符构成的字符组合与关键字符序列进行匹配；对应的，步骤S206至步骤S208还可被替换为，根据匹配结果更新所述各候选字符的识别概率，并计算所述各候选字符与所述历史字符构成的候选字符序列的识别指标，基于所述候选字符序列的识别指标筛选出目标字符序列，并读取所述目标字符序列中的语音帧字符，作为所述语音帧的识别输出，并与上述步骤S202组成新的实现方式。可选的，所述候选字符为所述待识别语音中所述语音帧的前一语音帧的识别输出。

此外，步骤S204还可被替换为，将所述多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配，确定所述多个候选字符中的目标字符；对应的，步骤S206还可被替换为，更新所述目标字符的识别概率，并计算所述各候选字符与所述历史字符序列构成的候选字符序列的识别指标，并与本实施例提供的其他处理步骤组成新的实现方式。

步骤S206，根据匹配结果更新所述各候选字符的识别概率，并计算所述各候选字符与所述历史字符序列构成的候选字符序列的识别指标。

本实施例中，为了提升待识别语音的识别结果的有效性和准确性，通过对各候选字符的识别概率的更新，计算各候选字符与历史字符序列构成的候选字符序列的识别指标，基于候选字符序列识别指标进行语音帧的目标字符序列的确定；所述候选字符序列，包括将历史字符序列和各候选字符进行拼接后获得的字符序列；所述候选字符序列，包括将构成候选字符序列的各字符的识别概率进行累加或者预设计算后获得的，用于表征候选字符序列与待识别语音中已识别语音帧的匹配程度的指标。

在具体执行过程中，上述将多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配后，确定了候选字符中包含的目标字符；本步骤中，为了提升待识别语音的识别结果中对于关键字符序列的准确识别，根据匹配结果更新各候选字符的识别概率；可选的，根据匹配结果更新各候选字符的识别概率，包括：按照所述多个候选字符中目标字符的热度指标对所述目标字符的识别概率进行更新，以及，保持所述多个候选字符中目标字符之外的候选字符的识别概率不变。

为了使确定的目标字符的热度指标更加有效，本实施例提供的一种可选实施方式中，在根据匹配结果更新所述各候选字符的识别概率的过程中，执行如下操作：

根据所述目标字符与所述下一关键字符的匹配数量，计算所述目标字符的热度指标；

基于所述热度指标对所述多个候选字符中所述目标字符的识别概率进行更新。

具体的，根据所述目标字符与所述目标关键字符序列的匹配数量，计算所述目标字符的热度指标，基于热度指标对目标字符的识别概率进行更新。可选的，根据所述目标字符与所述目标关键字符序列的匹配数量，计算所述目标字符的热度指标，包括：计算所述目标字符与所述目标关键字符序列的匹配数量与预设阈值的乘积，作为所述目标字符的热度指标。

继续以“京”和“景”为语音帧的目标字符为例对目标字符的识别概率的更新进行说明，其中，获取到的“京”的识别概率为0.2，由于“京”与“北京欢迎你”和“北京你好”这两个目标关键字符序列匹配，因此，“京”的热度指标为0.1×2＝0.2；将“京”的热度指标累加至“京”的识别概率以对“京”的识别概率进行更新，获得更新后的“京”的识别概率为0.2+0.2＝0.4；获取到的“景”的识别概率为0.1，由于“景”仅与“背景环绕”这一目标关键字符序列匹配，因此，“景”的热度指标为0.1×1＝0.1，将“景”的热度指标累加至“景”识别概率以对“景”的识别概率进行更新，获得更新后的“景”的识别概率为0.1+0.1＝0.2。

本实施例中，通过将多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配，确定多个候选字符中的目标字符，并将目标字符的识别概率进行更新，以此，提升目标字符与语音帧的匹配程度，提升后续获得的识别结果的准确性。

在具体执行过程中，根据匹配结果更新所述各候选字符的识别概率后，对各候选字符与历史字符序列进行拼接，获得候选字符序列，并计算各候选字符序列的识别指标。可选的，对各候选字符与历史字符序列进行拼接的过程中，将候选字符作为历史字符序列之后的字符进行拼接。

为了使计算获得的候选字符序列的识别指标更加有效更加准确，本实施例提供的一种可选实施方式中，采用如下方式计算所述各候选字符与所述历史字符序列构成的候选字符序列的识别指标：

将所述各候选字符与各历史字符序列进行拼接，获得候选字符序列；

基于构成候选字符序列中历史字符序列的识别指标和候选字符的识别概率，计算所述候选字符序列的识别指标。

具体的，首先将各候选字符与各历史字符序列进行拼接，获得候选字符序列，然后计算各候选字符序列的识别指标。需要说明的是，候选字符的识别概率为更新后的识别概率，其中，目标字符的更新后的识别概率为初始的识别概率与热度指标进行计算后获得的识别概率，不是目标字符的候选字符的更新后的识别概率即为初始的识别概率本身。

沿用上例，历史字符序列“北”的识别指标为0.5，历史字符序列“背”的识别指标为0.4，对各候选字符与各历史字符进行拼接后，获得的候选字符序列包括“北京”、“北景”、“北晶”、“背京”、“背景”和“背晶”，其中，候选字符“晶”的识别概率为0.1，计算各候选字符序列的识别指标如下：

“北京”：0.5+0.4＝0.9；“北景”：0.5+0.2＝0.7；“北晶”：0.5+0.1＝0.6；“背京”：0.4+0.4＝0.8；“背景”：0.4+0.2＝0.6；“背晶”：0.4+0.1＝0.5。

步骤S208，基于所述候选字符序列的识别指标筛选出目标字符序列，作为所述待识别语音中已识别语音帧的识别输出。

上述步骤中，计算各候选字符与历史字符序列构成的候选字符序列的识别指标后，为了提升语音识别效率，避免将所有数据作为输出影响识别结果的有效性，本实施例中，基于候选字符序列的识别指标筛选出目标字符序列，作为所述待识别语音中已识别语音帧的识别输出。

在具体执行过程中，候选字符序列的识别指标越大，该候选字符序列的准确性越高，因此，在保证识别准确性的基础上，为了节省消耗的资源，基于候选字符序列的识别指标筛选出目标字符序列，本实施例提供的一种可选实施方式中，采用如下方式基于所述候选字符序列的识别指标筛选目标字符序列：

按照各候选字符序列的识别指标，对候选字符序列进行降序排列，获得字符序列队列；

在所述字符序列队列中提取第一阈值对应的位次之前的候选字符序列作为所述目标字符序列。

具体的，在候选字符序列中筛选出第一阈值个识别指标最大的候选字符序列作为所述目标字符序列。

本实施例中，历史字符序列与目标字符序列的数量为预先设置的相等的数量；沿用上例，在上述获得“北”和“背”两个历史字符序列的情况下，筛选获得的目标字符序列为“北京”和“背京”。

在获得目标字符序列后，可将目标字符序列作为待识别语音的已识别语音帧的识别输出，用于对下一语音帧进行辅助语音识别；若要获取到语音帧对应的语音帧字符，则提取目标字符序列中所述语音帧对应位置的字符作为语音帧字符，或者将目标字符序列中最后一个字符提取出来作为所述语音帧对应的语音帧字符，在仅根据语音帧字符进行辅助语音识别的过程中，将语音帧字符作为所述语音帧的识别输出。

需要说明的是，本实施例中候选字符、历史字符序列、候选字符序列和目标字符序列的数量都为至少一个；其中，历史字符序列和目标字符序列的数量相等，候选字符序列的数量根据候选字符的数量和历史字符序列的数量确定，也即是，候选字符序列的数量为候选字符的数量和历史字符序列的数量的乘积。

下述以本实施例提供的一种语音识别处理方法在热词增强场景的应用为例，结合图3和图4对本实施例提供的语音识别处理方法进行进一步说明，参见图4，应用于热词增强场景的语音识别处理方法，具体包括如下步骤。

步骤S402，获取语音识别模型中的全连接层对待识别语音的当前语音帧进行语音识别获得的多个候选字符，以及各候选字符的识别概率。

可选的，本实施例可应用于语音识别模型外接的数据处理空间，数据处理空间用于存储语音识别模型在进行语音识别的过程中产生的所有数据。

如图3所示，语音识别模型包括Transducer模型；Transducer模型包括用于对字符进行编码的Prediction(预测)网络，用于对语音帧进行编码的Encoder，对Prediction网络输出的字符特征和Encoder输出的语音特征进行拼接的Joint(联合)网络，还有对Joint网络输出的拼接特征与预设的识别字符表中各识别字符进行概率计算的全连接层softmax。

如图3所示，Transducer模型在对待识别语音的当前语音帧进行语音识别的过程中，将当前语音帧x_t输入Encoder进行语音编码，获得x_t的语音特征(图中用h1表示)，将当前语音帧x_t的前一语音帧进行语音识别后获得的前一语音帧的语音帧字符y_u-1输入Prediction网络进行字符编码，获得y_u-1的字符特征/>(图中用h2表示)，然后将语音特征/>和字符特征/>输入Joint网络进行特征拼接，获得当前语音帧x_t的拼接特征z_t,u，将拼接特征z_t,u输入softmax，以基于拼接特征z_t,u预测与识别字符表中各识别字符的匹配概率并输出，获得当前语音帧的识别字符和各识别字符的识别概率，表示为P(y|t，u)；

进一步，Transducer模型将P(y|t，u)存储至数据处理空间，数据处理空间按照预先设置的第二阈值按照各识别字符的识别概率在当前语音帧的识别字符中确定当前语音帧的多个候选字符，并读取各候选字符的识别概率。

需要说明的是，若当前语音帧为待识别语音的第一帧，则输入Prediction网络的为空，若当前语音帧不为待识别语音的第一帧，则输入Prediction网络的为当前语音帧的前一语音帧的识别输出。还需要说明的是，在对待识别语音输入Transducer模型进行语音识别的过程中，是将待识别语音一次性的输入至Transducer模型，Transducer模型对待识别语音进行逐帧识别，其中，Encoder可以是对待识别语音进行每一帧的语音编码，获得每一帧的语音特征后将该语音特征存储在数据处理空间或者其他的存储区域，在对任一帧进行语音识别的过程中，读取该任一帧的语音特征即可，也可是根据Transducer模型的识别进度，在对任一帧进行语音识别的过程中，Encoder对该任一帧进行语音编码，获得语音特征，具体的，Encoder可以是一次性对待识别语音中的每一帧进行语音编码，还可以是根据Transducer模型的识别进度对当前识别的当前语音帧进行语音编码，本实施例在此不做限定。

步骤S404，读取待识别语音中当前语音帧的前一语音帧进行语音识别获得的历史字符。

步骤S406，在热词表中读取与历史字符匹配的热词，并读取匹配的热词中历史字符对应的下一字符。

步骤S408，将多个候选字符中与下一字符匹配的候选字符确定为目标字符。

步骤S410，按照目标字符匹配的热词数量，计算各目标字符的热度指标。

步骤S412，基于各目标字符的热度指标对对应的目标字符的识别概率进行更新，并保持候选字符中目标字符之外的候选字符的识别概率不变。

步骤S414，将各历史字符与各候选字符进行拼接获得候选字符序列，并基于更新后的候选字符的识别概率计算各候选字符序列的识别指标。

步骤S416，根据各候选字符序列的识别指标确定目标字符序列。

步骤S418，读取目标字符序列中当前语音帧对应的语音帧字符，作为当前语音帧的识别输出以辅助下一语音帧进行语音识别。

如图3所示，数据处理空间通过步骤S402至步骤S418的过程对当前语音帧的语音帧字符进行确定，并将确定的语音帧字符y_u作为Transducer模型对当前语音帧的下一语音帧进行语音识别的过程中Prediction网络的输入。

本说明书提供的一种语音识别处理装置的一个或者多个实施例如下：

在上述的实施例中，提供了一种语音识别处理方法，与之相对应的，还提供了一种语音识别处理装置，下面结合附图进行说明。

参照图5，其示出了本实施例提供的一种语音识别处理装置实施例的示意图。

由于装置实施例对应于方法实施例，所以描述得比较简单，相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例提供一种语音识别处理装置，包括：

获取模块502，被配置为获取对待识别语音的语音帧进行语音识别获得的多个候选字符，以及各候选字符的识别概率；

匹配模块504，被配置为将所述多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配；所述历史字符序列为所述待识别语音中已识别语音帧的识别输出；

识别概率更新模块506，被配置为根据匹配结果更新所述各候选字符的识别概率，并计算所述各候选字符与所述历史字符序列构成的候选字符序列的识别指标；

筛选模块508，被配置为基于所述候选字符序列的识别指标筛选出目标字符序列，作为所述待识别语音中已识别语音帧的识别输出。

本说明书提供的一种语音识别处理设备的一个或者多个实施例如下：

对应上述描述的一种语音识别处理方法，基于相同的技术构思，本说明书一个或多个实施例还提供一种语音识别处理设备，该语音识别处理设备用于执行上述提供的语音识别处理方法，图6为本说明书一个或多个实施例提供的一种语音识别处理设备的结构示意图。

本实施例提供的一种语音识别处理设备，包括：

如图6所示，语音识别处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器601和存储器602，存储器602中可以存储有一个或一个以上存储应用程序或数据。其中，存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括语音识别处理设备中的一系列计算机可执行指令。更进一步地，处理器601可以设置为与存储器602通信，在语音识别处理设备上执行存储器602中的一系列计算机可执行指令。语音识别处理设备还可以包括一个或一个以上电源603，一个或一个以上有线或无线网络接口604，一个或一个以上输入/输出接口605，一个或一个以上键盘606等。

在一个具体的实施例中，语音识别处理设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对语音识别处理设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

获取对待识别语音的语音帧进行语音识别获得的多个候选字符，以及各候选字符的识别概率；

将所述多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配；所述历史字符序列为所述待识别语音中已识别语音帧的识别输出；

根据匹配结果更新所述各候选字符的识别概率，并计算所述各候选字符与所述历史字符序列构成的候选字符序列的识别指标；

基于所述候选字符序列的识别指标筛选出目标字符序列，作为所述待识别语音中已识别语音帧的识别输出。

本说明书提供的一种存储介质的一个或者多个实施例如下：

对应上述描述的一种语音识别处理方法，基于相同的技术构思，本说明书一个或多个实施例还提供一种存储介质。

本实施例提供的存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下流程：

需要说明的是，本说明书中关于一种存储介质的实施例与本说明书中关于一种语音识别处理方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应方法的实施，重复之处不再赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或者相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处，比如装置实施例、设备实施例和存储介质实施例，三者均相似于方法实施例，所以描述地比较简单，阅读装置实施例、设备实施例和存储介质实施例中的相关内容请参照方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪30年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本文件的权利要求范围之内。

Claims

1.一种语音识别处理方法，包括：

2.根据权利要求1所述的方法，所述将所述多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配，包括：

3.根据权利要求2所述的方法，所述根据匹配结果更新所述各候选字符的识别概率，包括：

4.根据权利要求2所述的方法，所述读取所述关键字符序列中与所述历史字符序列匹配的目标关键字符序列，并读取所述目标关键字符序列中所述历史字符序列对应的下一关键字符子步骤执行之后，所述方法还包括：

若所述多个候选字符中与所述下一关键字符匹配的目标字符为空，对所述历史字符序列的附加指标进行扣减；

其中，所述历史字符序列的附加指标基于组成所述历史字符序列的各字符的热度指标计算获得。

5.根据权利要求1所述的方法，所述计算所述各候选字符与所述历史字符序列构成的候选字符序列的识别指标，包括：

6.根据权利要求1所述的方法，所述基于所述候选字符序列的识别指标筛选出目标字符序列，包括：

7.根据权利要求1所述的方法，所述获取对待识别语音的语音帧进行语音识别获得的多个候选字符，以及各候选字符的识别概率步骤执行之前，还包括：

8.根据权利要求7所述的方法，所述获取语音识别模型的概率计算模块对所述语音帧对应的拼接特征进行概率计算后获得的识别字符列表步骤执行之前，还包括：

9.一种语音识别处理装置，包括：

获取模块，被配置为获取对待识别语音的语音帧进行语音识别获得的多个候选字符，以及各候选字符的识别概率；

匹配模块，被配置为将所述多个候选字符和历史字符序列构成的字符组合与关键字符序列进行匹配；所述历史字符序列为所述待识别语音中已识别语音帧的识别输出；

识别概率更新模块，被配置为根据匹配结果更新所述各候选字符的识别概率，并计算所述各候选字符与所述历史字符序列构成的候选字符序列的识别指标；

筛选模块，被配置为基于所述候选字符序列的识别指标筛选出目标字符序列，作为所述待识别语音中已识别语音帧的识别输出。

10.一种语音识别处理设备，包括：

处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：