CN114333772A

CN114333772A - 语音识别方法、装置、设备、可读存储介质及产品

Info

Publication number: CN114333772A
Application number: CN202111465598.8A
Authority: CN
Inventors: 邓克琦; 曹松军; 马龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-04-12

Abstract

本申请实施例公开了一种语音识别方法、装置、设备、可读存储介质及产品，涉及语音处理领域。其中，该方法包括：获取目标语音；对目标语音进行发音分析，得到第一向量序列，第一向量序列用于指示目标语音对应的发音特征；对目标语音对应的字符序列进行文本结构分析，得到第二向量序列，第二向量序列用于指示目标语音中的文本字符对应的字符序列特征；对第一向量序列和第二向量序列进行交叉注意力处理，得到目标语音对应的语音文本识别结果，交叉注意力处理用于对发音特征和字符序列特征进行融合，解决预先训练得到的语音识别模型无法对目标语音进行语义层面的分析，补充上下文信息的识别概念，进一步提升语音识别的准确率。

Description

语音识别方法、装置、设备、可读存储介质及产品

技术领域

本申请涉及语音识别领域，特别涉及一种语音识别方法、装置、设备、可读存储介质及产品。

背景技术

随着人工智能技术的发展，语音识别技术取得巨大的进步，并应用至各个领域。

相关技术中，在语音识别的过程中，通常是利用人工方法去标注语音识别数据，将人工标注的数据应用至语音识别模型中，利用训练的语音识别模型，获取语音识别结果。

然而，相关技术中，由于仅包括文字和文字之间的映射关系，在一定程序上降低语音识别的准确率。

发明内容

本申请实施例提供了一种语音识别方法、装置、设备、可读存储介质及产品，一定程序上提高语音识别的准确率。所述技术方案如下：

一方面，提供了一种语音识别方法，所述方法包括：

获取目标语音，所述目标语音为待进行语音文本识别的语音；

对所述目标语音进行发音分析，得到第一向量序列，所述第一向量序列用于指示所述目标语音对应的发音特征；

对所述目标语音对应的字符序列进行文本结构分析，得到第二向量序列，所述第二向量序列用于指示所述目标语音中的文本字符对应的字符序列特征，所述字符序列为通过预先训练得到的语音识别模型识别得到的结果；

对所述第一向量序列和所述第二向量序列进行交叉注意力处理，得到所述目标语音对应的语音文本识别结果，所述交叉注意力处理用于对所述发音特征和所述字符序列特征进行融合。

另一方面，提供了一种语音识别装置，所述装置包括：

获取模块，用于获取目标语音，所述目标语音为待进行语音文本识别的语音；

分析模块，用于对所述目标语音进行发音分析，得到第一向量序列，所述第一向量序列用于指示所述目标语音对应的发音特征；

所述分析模块，还用于对所述目标语音对应的字符序列进行文本结构分析，得到第二向量序列，所述第二向量序列用于指示所述目标语音中的文本字符对应的字符序列特征；

融合模块，用于对所述第一向量序列和所述第二向量序列进行交叉注意力处理，得到所述目标语音对应的语音文本识别结果，所述交叉注意力处理用于对所述发音特征和所述字符序列特征进行融合。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的语音识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的语音识别方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的语音识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在语音识别过程中，利用交叉注意力网络对目标语音进行上下文语义分析，再结合目标语音的语音特征，辅助预先训练得到的语音识别模型对目标语音进行语音识别，避免预先训练得到的语音识别模型无法对目标语音进行语义层面的分析的问题，补充上下文信息的识别概念，进一步提升语音识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的相关技术中的语音交互系统的结构示意图；

图2是本申请一个示例性实施例提供的语言识别模型的结构示意图；

图3是本申请一个示例性实施例提供的语音识别方法所涉及的实施环境的示意图；

图4是本申请实施例提供一种车载语音产品的结构框图；

图5是本申请一个示例性实施例提供的语音识别方法的步骤流程图；

图6是本申请另一个示例性实施例提供的语音识别方法的步骤流程图；

图7是本申请另一个示例性实施例提供的语音识别方法的步骤流程图；

图8是本申请一个示例性实施例提供的语音识别装置的结构框图；

图9是本申请另一个示例性实施例提供的语音识别装置的结构框图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，以下结合附图对本申请作进一步地详细说明。

如下对本申请提供的一种语音识别方法所涉及的工作原理以及实施环境进行说明：

具体结合和图1示出相关技术中的语音交互技术的流程示意图，其中语音交互过程中包括麦克风阵列101、声学前端算法102、云端识别算法103、离线识别算法104、融合算法105以及离线/云端语义信息106，将接收到的目标语音进行语音文本识别，得到最终的语音文本识别结果，整个流程主要包括语音识别和语义理解两部分，其中语音识别负责将语音信号转换为文字，语义理解负责理解目标语音对应的意图，如下对图1内各个部分的主要功能进行简单介绍。

语音识别技术主要包括声学前端算法102和云端识别算法103其中包括声学前端算法102主要包括对麦克风阵列101接收到的目标语音信号进行降噪抑制、声源定位、回声消除等处理，云端识别算法103声学模型主要对目标语音信号对应发音单元的映射关系进行建模，主要包括声学模型和语言模型，其中声学模型和语言模型内集成有编码器和解码器，通过编码器和解码器对目标语音进行语音文本识别，其主要负责对发音单元到汉字的映射关系进行建模，而解码器算法主要结合云端识别算法103，进行语音到文字的整个搜索过程，也即完成对目标语音内各个字符之间的语义理解的过程。

离线识别算法104主要应用于在离线场景下对接收到的目标语音进行语音文本识别，其中包括固定唤醒词唤醒引擎，可定制唤醒词唤醒引擎，以及离线语音识别引擎。

结合云端识别算法103和离线识别算法104对目标语音的识别结果，进行融合算法的计算，再通过离线/云端语义信息106确定目标语音最终对应的语音识别结果。

相关技术中，预训练过程中得到的语音识别模型内的解码器和编码器只包括自注意力网络，这就导致预训练过程中不会接收到语音信息，也就导致预训练语音模型无法对语音信息进行解析，解码器很难使用预训练过程中得到的语音识别模型进行初始化，训练样本受限，无法扩展较多的训练样本，导致最终得到的语音识别模型的识别准确率较低。

本申请实施例中，对解码器进行算法优化，将优化后的解码器算法应用至语音识别模型中进行语义识别辅助作用，便于解码器算法对语音识别模型进行初始化，提高语音识别模型的准确率。

可选的，将本申请实施例涉及的语音识别方法应用至语音识别模型中的编码器和解码器中，具体请结合图1示出的语音识别模型所对应的工作原理进行详细介绍。

语音识别模型中主要包括编码器201和解码器202，可选的，语音识别模型可以实现为端到端语音识别模型。

编码器201用于接收目标语音，并对目标语音进行发音分析提取目标语音对应的语音特征，得到第一向量序列，其中包括M个子层，M为正整数，每个子层包括自注意力网络(Multi-head Self Attention)和前馈神经网络(Feed Forward)，其中自注意力网络用于计算目标语音内所有语音特征对于每个特征的加权和，其中自注意力网络后设置有规范整合单元模快(Add&Norm)，前馈神经网络层后同样也设置有规范整合单元模块，规范整合单元用于对自注意力网络输出的进行整合相加；本申请实施例中，自注意力网络对目标语音进行键-值进行权重计算，也即为一个查询(query)目标语音信号中的语音特征就映射到一个系列(key-value)，将query和每个key进行相似度计算得到权重，再使用softmax函数对权重进行归一化处理，最后将权重和相应的键值value进行加权求和得到目标语音对应的第一向量序列。

解码器202用于对目标语音对应的文本字符序列进行处理，得到目标语音对应的语音文本识别结果，其中包括向量化层(Embedding Layer)和N+1个子层，N为正整数，向量化层用于对目标语音对应的文本字符进行向量化处理，前N个子层同样包括自注意力网络和前馈神经网络，第N+1层中包括交叉注意力网络(Multi-head Cross Attention)和前馈神经网络，其中交叉注意力网络主要用于对目标语音对应的字符序列进行上下文语义分析。

将编码器201输出的第一向量序列作为解码器202第N+1层的输入，再结合通过解码器202前N层处理的第二向量序列，得到目标语音对应的语音文本识别结果。

可选的，解码器202对应的工作过程可以实现为迭代计算，也即，将语音识别模型当前输出的结果作为下一次识别过程的输入，更好的实现对目标语音内的各个文本字符对应的上下文关系进行解析的目的，例如，将当前输出“今”作为下一次识别的输入，那么在下一轮识别过程，输出“天”的概率高于输出“田”，得到目标语音对应的语音文本识别结果为“今天”。

本申请实施例中，可以将该方法应用于语言识别模型的训练过程，也可以应用至语音识别场景中直接进行语音识别，本申请对此不加以限定。

结合图3对本申请示出的一种语音识别方法所涉及的实施环境进行说明，如图3所示，该实施环境中包括终端设备301、通信网络303以服务器302，其中服务器303内集成有语言识别模型，该语言识别模型内的解码器和编码器，该通信网络可以实现为有线通信网络，也可以实现为无线通信网络，本申请对此不加以限定。

用户在终端设备301内选择目标语音进行语音识别，并触发目标语音的识别指令。

终端设备301接收目标语音以及语音识别指令，该目标语音包括现场录制的语音片段、影视片段对应的音频片段、音乐作品、天气播报、导航语音、在线视频/电话对应的语音、本地语音中的至少一种，该语音识别指令用于指示对接收到的目标语音进行文本识别，语音识别指令可以通过界面内显示的控件触发，也可以通过语音唤醒的方式触发，本申请对此不加以限定。

终端设备301将目标语音以及语音识别指令通过通信网络303上传至服务器302中，服务器302内的语言识别模型根据语音识别指令，利用编码器和解码器对目标语音进行文本识别，得到目标语音对应的语音文本识别结果，将语音文本结果显示在目标语音所在区域的周侧，示例性的，当目标语音以会话气泡的形式显示在当前界面时，用户通过长按该会话气泡，在会话气泡的周侧显示区域叠加显示选择选项界面，该选择选项界面用于对会话气泡进行处理，其中包括但不限于发送选项、语音转文本选项、删除选项，用于点击选择选项界面内的语音转文本选项，终端对当前选中的目标语音执行语音转文本事件，待语音转文本结束，将转换结果显示在该会话气泡的下方。

需要说明的是，上述方法的执行主体可以为终端设备301，也可以为服务器302，还可以为终端设备301和服务器302的交互系统。

示意性的，用户向终端设备301输入语音指令后，终端设备301向服务器302发送该语音指令进行识别。将语言识别模型集成于服务器内的语音识别框架内，通过语音识别框架对目标语音进行语音识别，本申请对该方法的实施环境以及执行主体不加以限定。

上述终端可以是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视、智能家居设备、车载终端等多种形式的终端设备，本申请实施例对此不加以限定。

值得注意的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

其次，对本申请实施例所涉及的应用场景进行简单介绍：

将本申请书实施例提供的语音识别方法应用至出行场景，联合车联网应用，高效化出行场景下的语音交互系统，具体请结合图4进行说明，图4示出了本申请实施例提供的一种车联应用场景下的语音产品的结构框图，将上述方法用于语音识别声学模型中，或者将上述方法用于语音识别声学模型的训练过程中，将语音识别的识别过程服务于车联网语音交互的场景下。

该车载语音产品中包括车载降噪模块401、车载语音引擎模块402以及车载技能生态模块403，其中车载降噪模块401主要对接收到语音信号进行降噪、回声消除，可用于风噪、胎噪、音乐噪声、空调噪声进行噪声抑制，便于用户能够在车内完成聊天；车载语音引擎模块402主要为对接收到的语音信号进行语音识别和语义理解，其中包括语音唤醒引擎、云端语音识别、云端语义理解以及离线语音识别引擎；车载技能生态模块403内包括接收到的语音信号的类型，也即，语音信号可以实现为音乐、电台、新闻、导航、周边美食、电话、车控、天气等。其中整个语音产品所涉及到的前沿技术包括全双工、多音区、声纹识别、虚拟人，本申请实施例对涉及的前沿技术不加以详述。

可以理解的是，本申请实施例提供的语音识别方法不仅仅适用于车联应用场景下，还可以应用于任何语音识别的场景下，本申请对应用场景不加以限定。

请参见图5，图5是本申请实施例提供的语音识别方法的流程图，以该语音识别方法应用于图3示出的实施环境中的终端设备301中为例进行说明，该计算机设备内包括用于语音识别的语音识别模型，该语音识别模型中包括编码器和解码器，包括以下步骤。

步骤501，获取目标语音。

本申请实施例中，对目标语音的识别触发方式包括但不限于：

第一，应用程序或者在线网页内本身提供有用于识别音频片段的选项控件，当接收到通过选择控件的选择操作时，则生成对音频内容进行语音转文本的识别控件(选项)，响应于接收到对识别控件的触发操作，终端通过麦克风或者其他音频采集设备采集目标语音，示例性的，当用户浏览某一应用程序或者在线网页时，长按语音控件并发声，从而对目标语音进行采集获取。

第二，应用程序或者在线网页本身用于语音识别，也即是，用户想要对某一段音频内容进行语音识别时，打开该应用程序或者在线网页，上传目标语音；可选的，该应用程序还适用于离线识别语音的场景下。

可选的，该目标语音用于指示待进行语音文本识别的语音，包括但不限于现场录制的语音片段、影视片段对应的音频片段、音乐作品、天气播报、导航语音、在线视频/电话对应的语音、本地录音。

步骤502，对目标语音进行发音分析，得到第一向量序列。

第一向量序列用于指示目标语音对应的发音特征。

可选地，通过编码器对目标语音进行发音分析。编码器接收该目标语音，对目标语音进行编码处理，其中编码器主要包括M个子层，M为正整数，每一个子层内包括自注意力网络和前馈神经网络，其中自注意力网络后还设置有规范整合单元模快，前馈神经网络后同样也设置有规范整合单元模块，编码处理的过程为：第一步，编码器提取目标语音对应的语音特征，该语音特征包括目标语音的发音；第二步，利用自注意力网络和前馈神经网络对目标对应的语音特征进行编码，得到目标语音对应的第一向量序列，该第一向量序列用于指示目标语音对应的发音特征；示例性的，解码器接收目标语音a，对目标语音进行编码处理，得到第一向量序列[c1，c2，c3，c4，c5]，c1用于指示目标语音内字符的发音单元，其中，c1可以用于表示一个完整字符对应的语音片段(c1用于表示“我”对应的一整个语音片段)，或者，c1用于表示构成一个完整字符发音的其中一个语音片段(c1、c2组合形成“我”的语音片段)，需要说明的是，在编码器对目标语音进行编码的过程中，由于目标语音片段的长度不同，可能得到的第一向量序列内的向量的个数大于目标语音内各个字符语音片段对应的个数，例如，若目标语音为“我现在很好”，可能得到的第一向量序列内包括五个向量，这五个向量与目标语音内五个字符各自的语音片段相对应；或者，得到的第一向量序列内包括十个向量，这十个向量组成形成五个字符各自对应的语音片段。

步骤503，对目标语音对应的字符序列进行文本结构分析，得到第二向量序列。

可选的，在接收到目标语音后，利用预训练过程中得到的语音识别模型对目标语音进行语音文本识别，得到目标语音对应的字符序列，示例性的，利用预训练过程中的语音识别模型对目标语音[t1，t2，t3，t4，t5]进行文本识别，得到字符序列[x1，x2，x3，x4，x5]。

解码器对字符序列进行文本结构分析，该文本结构分析用于指示对字符序列内的各个字符之间的上下文关系进行分析。

可选的，解码器中包括向量化层和N+1个子层，对N为正整数，前N个子层内包括自注意力网络和前馈神经网络，其中自注意力网络后设置有规范整合单元模块，前馈神经网络后同样也设置有规范整合单元模块，第N+1个子层内包括交叉注意力网络，其中交叉注意力网络后也包括规范整合单元模块。

可选的，将目标语音对应的字符序列输入解码器转换至向量序列，得到字符特征对应的中转向量序列，示例性，对目标语音[t1，t2，t3，t4，t5]的字符序列[x1，x2，x3，x4，x5]进行向量化处理，得到中转向量序列[e1，e2，e3，e4，e5]。

在本申请实施例中，通过解码器内的前N个子层中的自注意力网络对前述得到的向量序列[e1，e2，e3，e4，e5]进行自注意力处理，得到第二向量序列[o1，o2，o3，o3，o4，o5]，其中，自注意力处理包括进行自注意力计算和前馈神经网络编码。

可选的，解码器中的前N个子层用于对目标语音的字符序列进行文本结构分析，包括：将字符序列输入前N个子层内，通过每一个子层的自注意力网络和前馈神经网络对字符序列进行文本分析，得到第二向量序列，该第二向量序列用于指示目标语音中的文本字符对应的字符序列特征。

可选的，解码器中的第N+1层用于对目标语音内的发音特征结构进行整个分析，得到目标语音内各个字符之间的上下文语义关系，具体第N+1个子层的工作流程请参加下述步骤504。

可选的，前N个子层输出候选向量序列后，编码器计算候选向量序列内各个向量与候选向量序列之间的相似度，对该相似度进行归一化整合处理，并将归一化整合处理后的向量确定为第二向量特征，其中，需要注意的是，前N个子层内的自注意力网络主要是对经过语音识别模型得到的字符特征之间的上下文特征进行分析，而本申请中提供的方法是将已经确定了上下文特征的文本字符和目标语音进行二次结合分析，得到目标语音和各个字符之间的上下文语义特征，有效的提高语音识别精度。

可选的，步骤502和步骤503的执行顺序可以是并行的，也可以顺序执行的，顺序执行包括先执行步骤502后执行步骤503，或者先执行步骤503后执行步骤502，本申请对此不加以限定。

步骤504，对第一向量序列和第二向量序列进行交叉注意力处理，得到目标语音对应的语音文本识别结果。

可选的，将编码器处理得到的目标语音对应的第一向量序列输入解码器内第N+1个子层，结合前N层得到的字符特征对应的第二向量序列，得到目标语音对应识别结果对应的向量序列。

可选的，对第一向量序列和第二向量序列输入第N+1个子层的执行流程包括如下步骤：

确定第一向量序列和第二向量序列之间的相似度关系；对相似度关系进行归一化处理，得到第二向量序列在第一向量序列中对应文本字符的交叉向量序列，交叉向量序列用于指示所述目标语音内第i个文本字符与第i+1个文本字符之间的上下文关系，i为正整数；对交叉向量序列进行前馈编码，得到目标语音对应的语义联合向量；对语义联合向量进行概率预测，得到字符序列对应的概率预测结果；基于概率预测结果，得到目标语音对应的语音识别结果。示例性的，将第一向量序列[c1，c2，c3，c4，c5]和第二向量序列[o1，o2，o3，o3，o4，o5]进行相似度归一化计算，获得各注意力o1，o2，o3，o3，o4，o5在第一向量序列[c1，c2，c3，c4，c5]中的交叉向量序列u1、u2、u3、u4、u5，并将该交叉向量序列u1、u2、u3、u4、u5进行前馈编码，获得语义联合向量[r1，r2，r3，r4，r5]，其中字符特征x2对应的向量为o2，那么x2的前向字符向量对应的交叉向量u2，用于表示字符特征x2对于预测字符特征x3的重要程度，也即用于表示字符特征x2与字符特征x3之间的上下文关系。

可选的，解码器中还包括线性层，该线性层中包括分类器softmax，该线性层位于第N+1个子层之后，利用分类器第前述语义联合向量进行分类(概率)预测，得到目标语音内各个字符之间的概率预测结果，基于该概率预测结果得到目标语音的语音识别结果。

综上所述，本申请实施例提供的语音识别方法，在语音识别过程中，利用交叉注意力网络对目标语音进行上下文语义分析，再结合目标语音的语音特征，辅助预先训练得到的语音识别模型对目标语音进行语音识别，解决预先训练得到的语音识别模型无法对目标语音进行语义层面的分析，补充上下文信息的识别概念，进一步提升语音识别的准确率。

本实施例提供的语音识别方法，保留解码器前N个子层内的自注意力网络，以及解码器第N+1个子层的交叉注意力网络，利用该解码器进行语音识别时，首先该解码器算法(结构)能够支持对预训练过程中得到的语言识别模型进行初始化的功能；其次相较于解码器结构中同时包含自注意网络和交叉注意力网络，减少了解码器对字符序列进行计算的参数量，有效的提高目标语音的识别准确率。

请参见图6，图6是本申请实施例提供的另一种语音识别方法的流程图，该语音识别方法应用于图3示出的实施环境中的终端设备301中，该计算机设备内包括用于语音识别的语音识别模型，该语音识别模型中包括编码器和解码器，包括以下步骤。

步骤601，获取目标语音。

在本申请实施例中，该目标语音用于指示待进行语音文本识别的语音，包括但不限于现场录制的语音片段、影视片段对应的音频片段、音乐作品、天气播报、导航语音、在线视频/电话对应的语音、本地录音。

该步骤的执行过程与步骤501相同，此处不再赘述。

步骤602，对目标语音进行发音分析，得到第一向量序列。

可选的，编码器接收该目标语音，对目标语音进行编码处理，其中编码器主要包括M个子层，M为正整数，每一个子层内包括自注意力网络和前馈神经网络，其中自注意力网络和前馈神经网络中均包括规范整合单元模块，编码处理的过程为：第一步，编码器提取目标语音对应的语音特征，该语音特征包括目标语音的发音；第二步，利用自注意力网络和前馈神经网络对目标对应的语音特征进行编码，得到目标语音对应的第一向量序列，该第一向量序列用于指示目标语音对应的发音特征。

该步骤的执行过程与步骤502相同，此处不再赘述。

步骤603，对目标语音对应的字符序列进行文本结构分析，得到第二向量序列。

可选的，在接收到目标语音后，利用预训练过程中得到的语音识别模型对目标语音进行语音文本识别，得到目标语音对应的字符序列。

该步骤的执行过程与步骤503相同，此处不再赘述。

步骤604，对第一向量序列和第二向量序列进行交叉注意力处理，得到目标语音对应的语音文本识别结果。

可选的，将编码器处理得到的目标语音对应的第一向量序列输入解码器内第N+1个子层，结合前N层得到的字符特征对应的第二向量序列，得到目标语音对应识别结果对应的语义联合向量。

本申请实施例中，利用迭代计算的方式将语义联合向量输入包含分类器softmax的线性层，进行概率预测，将语义联合向量中的第b个输出作为预测第b+1次的输入，b为正整数，待语义联合向量内所有的向量概率预测完毕后，确定目标语音对应的第一概率预测结果。

利用语音识别模型对目标语音对应的语音特征(第一向量序列)进行概率预测，得到目标语音整个字符对应的第二概率预测结果。

基于第一概率预测结果和第二概率预测结果，整合确定所述目标语音对应的目标识别结果，并将该目标识别结果反馈至终端显示界面。

可选的，整合确定目标语音对应的目标识别结果包括：对第一概率预测结果和第二概率预测结果进行加权平均，当大于等于加权平均后的概率预测值对应的概率预测值对应的结果作为最终识别目标语音的结果值；或者，第一概率预测结果和第二概率预测结果均用于表示目标语音内各个字符对应的至少两个文本，例如，目标语音的第1个字，对应识别有三个文本(接，姐，借)，三个文本“接”、“姐”以及“借”对应有概率预测值，该概率预测值用于表示当前字符为目标文本的概率，将概率大于预设阈值的文本确定当前目标语音对应的字符，将目标语音的第1个字符确定为“接”。

请参见图7，图7是本申请实施例提供的另一种语音识别方法的流程图，该语音识别方法应用于图3示出的实施环境中的终端设备301中，该计算机设备内包括用于语音识别的语音识别模型，该语音识别模型中包括编码器和解码器，包括以下步骤。

步骤701，获取目标语音对应的第一语音识别结果。

可选的，利用预先训练得到的语音识别模型对目标语音进行语音识别，得到目标语音对应的第一语音识别结果，该第一语音识别结果中包括目标语音对应的发音特征以及字符特征。

步骤702，获取目标语音对应的第二语音识别结果。

在本申请实施例中，利用本申请实施例提供的语音识别方法优化解码器结构；首先利用编码器对目标语音进行发音分析，得到第一向量序列，该步骤具体请参见步骤502，此处不再赘述；其次利用解码器中的前N个子层对目标语音的字符特征进行文本结构分析，得到第二向量序列，该步骤具体请参见步骤503，此处不再赘述。

将第一向量序列输入解码器的第N+1个子层，再结合第二向量序列，通过分类器得到目标语音对应的概率预测结果，基于概率预测结果确定目标语音对应的第二语音识别结果，该步骤内容具体请参见步骤504，此处不再赘述。

步骤703，基于第一语音识别结果和第二语音识别结果，确定目标语音对应的目标识别结果。

可选的，第一语音识别结果对应有第一权重值，第二语音识别结果对应有第二权重值，基于第一权重值，确定第一语音识别结果对应的第一中间语音识别结果，基于第二权重值，确定第二语音识别结果对应的第二中间语音识别结果，最终基于第一中间语音识别结果和第二中间语音识别结果，确定目标语音结果对应的目标识别结果。本申请实施例中，预训练过程中得到的语音识别模型为CTC，再结合本申请实施例提供的编码器和解码器结构联合确定目标语音的语音识别结果，将CTC所占的第一权重值设置为0.6，编码器和解码器节后所占第二权重值设置为0.4，其中编码器中的M取值为12，解码器的N取值为6。

可选的，可以利用上述联合确定目标语音的语音识别结果的流程应用至语音识别模型的训练过程，在训练过程中，将CTC所占的第一权重值设置为0.4，将编码器和解码器所占的第一权重值设置为0.6。

可选的，将上述联合确定目标语音的语音识别结果的流程同时应用至训练过程和实际应用过程，在训练时，第一权重值对应的是训练过程中CTC所占的权重值，取值为0.3，在解码时，第二权重值对应的是解码过程中CTC所占的权重值，基于第一权重值和第二权重值，对语音识别模型进行优化和参数调整，不但可以提高训练阶段中语音识别模型具备较充足的训练样本，不必依赖人工标注数据的方式，而且还能够提高语音识别模型的语音识别准确率；另外，在训练过程中，还可以基于第一权重值和第二权重值对语音识别结果进行损失计算，基于损失计算对语音识别模型进行参数调整。

在本申请实施中，还可以利用本申请实施例提供的解码器算法，对语音识别模型进行初始化，也即，利用N个子层的解码器的迭代计算过程对语音识别模型进行初始化，其中包括基于第一向量序列和第二向量序列的联合语义向量，确定目标语音对应的第一参数值，该第一参数值用于指示识别目标语音后语音识别模型对应的参数值，基于第一参数值对预训练过程中得到的语音识别模型进行初始化，首先，为语音识别模型提供一定的语音文件的支持，能够结合字符特征和目标语音本身之间的上下文关系，提高语音识别模型的鲁棒性；其次提供初始化操作，避免语音识别模型误差越来越大，保证语音识别结果不会存在较大的偏差性。可选的，迭代计算过程包括：利用语音识别模型对目标语音进行识别得到字符序列，将字符序列内的第i个文本字符输入解码器的N层子层内进行文本结构分析，待第N个子层输出文本字符后，将输出的文本字符作为输出第i+1个文本字符的输入。

需要注意的是，本申请实施例提供的解码器结构可以对其他语音识别模型进行单独初始化操作，也可以将该解码器结构置于语音识别模型中自行进行初始化操作，本申请对此不加以限定，另外，在利用解码器结构初始化后，在对目标语音进行识别的过程中，在一定程度上减少了语音识别模型所需计算的参数量，同时也减少了语音识别过程的错误率。

可选的，解码器内的前N个子层还支持初始化操作，利用预训练过程中得到的语音识别模型对解码器进行初始化，基于初始化后的解码器重新对目标语音的字符特征进行语义分析，再结合第一向量序列得到语音文本识别结果。

请参见图8，图8是本申请一个实施例提供的勘探潜力评价装置的结构框图，该装置中包括：

获取模块801，用于获取目标语音，所述目标语音为待进行语音文本识别的语音；

分析模块802，用于对所述目标语音进行发音分析，得到第一向量序列，所述第一向量序列用于指示所述目标语音对应的发音特征；

所述分析模块802，还用于对所述目标语音对应的字符序列进行文本结构分析，得到第二向量序列，所述第二向量序列用于指示所述目标语音中的文本字符对应的字符序列特征；

融合模块803，用于对所述第一向量序列和所述第二向量序列进行交叉注意力处理，得到所述目标语音对应的语音文本识别结果，所述交叉注意力处理用于对所述发音特征和所述字符序列特征进行融合。

在一个可选的实施例中，请参见图9，所述装置还包括确定模块804。

所述确定模块804，用于确定所述第一向量序列和所述第二向量序列之间的相似度关系；

所述分析模块802，用于对所述相似度关系进行归一化处理，得到所述第二向量序列在所述第一向量序列中对应文本字符的交叉向量序列，所述交叉向量序列用于指示所述目标语音内第i个文本字符与第i+1个文本字符之间的上下文关系，i为正整数；

识别模块805，用于对所述交叉向量序列进行识别，得到所述目标语音对应的语音文本识别结果。

在一个可选的实施例中，请参见图9，所述确定模块804，还用于对所述交叉向量序列进行前馈编码，得到所述目标语音对应的语义联合向量；

预测模块806，用于对所述语义联合向量进行概率预测，得到所述字符序列对应的概率预测结果；

所述识别模块805，还用于基于所述概率预测结果，得到所述目标语音对应的语音识别结果。

在一个可选的实施例中，请参见图9，所述预测模块806，用于对所述语义联合向量进行概率预测，得到所述字符序列对应的第一概率预测结果；对所述第一向量序列进行概率预测，得到第二概率预测结果；对所述第一概率预测结果和所述第二概率预测结果进行结合，得到所述概率预测结果。

在一个可选的实施例中，请参见图9，所述获取模块801，还用于获取所述目标语音对应的第一语音识别结果，所述第一语音识别结果为通过预先训练得到的语音识别模型识别得到的结果；

所述融合模块803，还用于基于所述第一向量序列和所述第二向量序列，确定所述目标语音对应的第二语音识别结果；

所述识别模块805，还用于基于所述第一语音识别结果和所述第二语音识别结果，确定所述目标语音对应的目标识别结果。

在一个可选的实施例中，所述第一语音识别结果对应第一权重值，所述第二语音识别结果对应第二权重值；

所述识别模块805，还用于基于所述第一权重值，确定所述第一语音识别结果对应的第一中间语音识别结果；基于所述第二权重值，确定所述第二语音识别结果对应的第二中间语音识别结果；基于所述第一中间语音识别结果和所述第二中间语音识别结果，确定所述目标语音对应的所述目标识别结果。

在一个可选的实施例中，所述确定模块804，还用于提取所述目标语音内的语音特征；对所述语音特征进行自注意力处理以及前馈编码，得到所述第一向量序列。

在一个可选的实施例中，所述确定模块804，还用于对所述字符序列进行向量化处理，得到所述字符序列对应的中转向量特征；对所述中转向量特征进行自注意力处理，得到所述第二向量序列。

综上所述，本申请实施例提供的语音识别装置，在语音识别过程中，利用交叉注意力网络对目标语音进行上下文语义分析，再结合目标语音的语音特征，辅助预先训练得到的语音识别模型对目标语音进行语音识别，解决预先训练得到的语音识别模型无法对目标语音进行语义层面的分析，补充上下文信息的识别概念，进一步提升语音识别的准确率。

需要说明的是：上述实施例提供的语音识别装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10示出了本申请一个示例性实施例提供的终端设备301的结构框图。该终端设备301可以是便携式移动终端，比如：智能手机、平板电脑、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端设备301还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端设备301包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的网页埋点方法。

在一些实施例中，终端设备301还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

本领域技术人员可以理解，图10中示出的结构并不构成对终端设备301的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算手机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的语音识别方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的语音识别方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一向量序列和所述第二向量序列进行交叉注意力处理，得到所述目标语音对应的语音文本识别结果，包括：

确定所述第一向量序列和所述第二向量序列之间的相似度关系；

对所述相似度关系进行归一化处理，得到所述第二向量序列在所述第一向量序列中对应文本字符的交叉向量序列，所述交叉向量序列用于指示所述目标语音内第i个文本字符与第i+1个文本字符之间的上下文关系，i为正整数；

对所述交叉向量序列进行识别，得到所述目标语音对应的语音文本识别结果。

3.根据权利要求2所述的方法，其特征在于，所述对所述交叉向量序列进行识别，得到所述目标语音对应的语音文本识别结果，包括：

对所述交叉向量序列进行前馈编码，得到所述目标语音对应的语义联合向量；

对所述语义联合向量进行概率预测，得到所述字符序列对应的概率预测结果；

基于所述概率预测结果，得到所述目标语音对应的语音识别结果。

4.根据权利要求3所述的方法，其特征在于，所述对所述语义联合向量进行概率预测，得到所述字符序列对应的概率预测结果，包括：

对所述语义联合向量进行概率预测，得到所述目标语音对应的第一概率预测结果；

对所述第一向量序列进行概率预测，得到第二概率预测结果；

对所述第一概率预测结果和所述第二概率预测结果进行结合，得到所述概率预测结果。

5.根据权利要求1至4任一所述的方法，其特征在于，所述对所述第一向量序列和所述第二向量序列进行交叉注意力处理，得到所述目标语音对应的语音文本识别结果，包括：

获取所述目标语音对应的第一语音识别结果，所述第一语音识别结果为通过预先训练得到的语音识别模型识别得到的结果；

对所述第一向量序列和所述第二向量序列进行交叉注意力处理，得到所述目标语音对应的第二语音识别结果；

对所述第一语音识别结果和所述第二语音识别结果进行结合，得到所述目标语音对应的语音文本识别结果。

6.根据权利要求5所述的方法，其特征在于，所述第一语音识别结果对应第一权重值，所述第二语音识别结果对应第二权重值；

所述对所述第一语音识别结果和所述第二语音识别结果进行结合，得到所述目标语音对应的语音文本识别结果，包括：

基于所述第一权重值，确定所述第一语音识别结果对应的第一中间语音识别结果；

基于所述第二权重值，确定所述第二语音识别结果对应的第二中间语音识别结果；

对所述第一中间语音识别结果和所述第二中间语音识别结果进行结合，得到所述目标语音对应的所述语音文本识别结果。

7.根据权利要求1至4任一所述的方法，其特征在于，所述对所述目标语音进行发音分析，得到第一向量序列，包括：

提取所述目标语音内的语音特征；

对所述语音特征进行自注意力处理以及前馈编码，得到所述第一向量序列。

8.根据权利要求1至4任一所述的方法，其特征在于，所述对所述目标语音对应的字符序列进行文本结构分析，得到第二向量序列，包括：

对所述字符序列进行向量化处理，得到所述字符序列对应的中转向量特征；

对所述中转向量特征进行自注意力处理，得到所述第二向量序列。

9.一种语音识别装置，其特征在于，所述装置包括：

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8中任一所述的语音识别方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的语音识别方法。

12.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以实现如权利要求1至8任一所述的语音识别方法。