CN111554275B

CN111554275B - 语音识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111554275B
Application number: CN202010414428.6A
Authority: CN
Inventors: 宋元峰
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2023-11-03
Anticipated expiration: 2040-05-15
Also published as: CN111554275A

Abstract

本发明公开了一种语音识别方法、装置、设备及计算机可读存储介质，所述方法包括：对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果；调用预设的相关度模型计算得到所述待识别语音数据与各所述第一候选结果之间的第一相关度预测结果；根据所述第一相关度预测结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。本发明相比于依据人为经验设置的线性评分组合方式，能够获得更加准确的排序结果，从而能够获得更加准确的语音识别结果。

Description

语音识别方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及语音数据处理技术领域，尤其涉及一种语音识别方法、装置、设备及计算机可读存储介质。

背景技术

随着语音数据处理技术的发展，语音识别系统已经广泛地应用于各个领域。语音识别系统中，对N-候选重打分(N-best Hypotheses Rescoring)是一个重要的部分，对语音识别效果有至关重要的影响。N-候选是对语音数据识别得到的N个候选结果，N-候选重打分是对N个候选结果重新进行打分排序。目前采用的N-候选重打分的方式是先用语音模型(Acoustic Model)和语言模型(Language Model)对每个候选进行评估打分，然后将语音模型评分和语言模型评分组合起来给出N-候选的最终排序结果，取排名第一的候选作为最终的语音识别结果。但是这种先给出语音模型评分和语言模型评分，再线性组合两种得分的方式，需要根据经验来设置得分的线性组合方式，具有很大的不确定性，从而导致语音识别效果不够准确。

发明内容

本发明的主要目的在于提供一种语音识别方法、设备、系统及计算机可读存储介质，旨在解决目前N-候选重打分的方式，需要根据经验来设置得分的线性组合方式，具有很大的不确定性，从而导致语音识别效果不够准确的问题。

为实现上述目的，本发明提供一种语音识别方法，所述方法包括以下步骤：

对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果；

调用预设的相关度模型计算得到所述待识别语音数据与各所述第一候选结果之间的第一相关度预测结果；

根据所述第一相关度预测结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。

可选地，所述调用预设的相关度模型计算得到所述待识别语音数据与各所述第一候选结果之间的第一相关度预测结果的步骤之前，还包括：

获取对训练语音数据进行语音识别得到的至少两个第二候选结果，以及获取各所述第二候选结果的相关度标签；

将所述训练语音数据、各所述第二候选结果和所述相关度标签作为训练数据，采用所述训练数据对待训练模型进行训练得到所述相关度模型。

可选地，当所述训练数据中第二候选结果的个数为两个时，所述采用所述训练数据对待训练模型进行训练得到所述相关度模型的步骤包括：

将所述训练语音数据和两个所述第二候选结果输入待训练模型，得到所述训练语音数据与两个所述第二候选结果之间的第二相关度预测结果；

基于所述相关度标签和所述第二相关度预测结果对所述待训练模型的模型参数进行更新；

根据更新后的待训练模型得到所述相关度模型。

可选地，所述获取各所述第二候选结果的相关度标签的步骤包括：

获取所述训练语音数据的真实文本；

分别计算各所述第二候选结果相对于所述真实文本的误识率；

根据各所述误识率得到各所述第二候选结果的相关度标签。

可选地，所述预设的相关度模型包括语言表征模块、编码器和相关度计算模块，

所述调用预设的相关度模型计算得到所述待识别语音数据与各所述第一候选结果之间的第一相关度预测结果的步骤包括：

将各所述第一候选结果分别输入所述语言表征模块，得到各所述第一候选结果对应的向量表示；

将各所述向量表示分别输入所述编码器，得到各所述第一候选结果对应的第一编码向量，以及将所述语音特征数据输入所述编码器，得到所述待识别语音数据对应的第二编码向量，其中，所述语音特征数据为对所述待识别语音数据进行语音特征提取得到的；

调用所述相关度计算模块计算所述第二编码向量与各所述第一编码向量之间的相关度，得到所述待识别语音数据与各所述第一候选结果之间的第一相关度预测结果。

可选地，所述对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果的步骤包括：

对所述待识别语音数据进行语音特征提取，得到所述待识别语音数据的语音特征数据；

采用预设语音模型和预设语言模型对所述语音特征数据进行识别，得到所述待识别语音数据的第一候选结果。

可选地，当所述第一相关度预测结果为所述待识别语音数据分别与各所述第一候选结果之间的相关度值时，

所述根据所述第一相关度预测结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果的步骤包括：

从各所述第一候选结果中选取相关度值最高的目标候选结果，将所述目标候选结果作为所述待识别语音数据的语音识别结果。

为实现上述目的，本发明提供一种语音识别装置，所述装置包括：

识别模块，用于对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果；

计算模块，用于调用预设的相关度模型计算得到所述待识别语音数据与各所述第一候选结果之间的第一相关度预测结果；

选取模块，用于根据所述第一相关度预测结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。

为实现上述目的，本发明还提供一种语音识别设备，所述语音识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如上所述的语音识别方法的步骤。

本发明中，通过对待识别语音数据进行语音识别得到各个候选结果，再调用预设的相关度模型计算得到待识别语音数据与各个候选结果之前的相关度预测结果，基于相关度预测结果从各个候选结果中选出最后的语音识别结果。本发明中，采用预先设置的相关度模型直接计算待识别语音数据与各个候选结果之前的相关度预测结果，再依据相关度预测结果选出最终的语音识别结果，并不是根据人为经验设置如何排序，相比于依据人为经验设置的线性评分组合方式，整个过程更具确定性和稳定性，从而能够获得更加准确的语音识别结果。本发明中将待识别语音数据和各个候选结果输入该相关度模型中进行相关度预测，直接获得各个候选结果的排序结果，相比于先获取各个候选的评分进行组合，再依据评分进行排序的方式，本发明中的排序方式更加直接、简单。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明语音识别方法第一实施例的流程示意图；

图3为本发明各实施例涉及的一种相关度模型网络结构图；

图4为本发明各实施例涉及的一种语音识别流程示意图；

图5为本发明语音识别装置较佳实施例的功能示意图模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例语音识别设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该语音识别设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对语音识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别程序。其中，操作系统是管理和控制设备硬件和软件资源的程序，支持语音识别程序以及其它软件或程序的运行。在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于服务器建立通信连接；处理器1001可以用于调用存储器1005中存储的语音识别程序，并执行以下操作：

进一步地，所述调用预设的相关度模型计算得到所述待识别语音数据与各所述第一候选结果之间的第一相关度预测结果的步骤之前，处理器1001还可以用于调用存储器1005中存储的语音识别程序，执行以下操作：

进一步地，当所述训练数据中第二候选结果的个数为两个时，所述采用所述训练数据对待训练模型进行训练得到所述相关度模型的步骤包括：

根据更新后的待训练模型得到所述相关度模型。

进一步地，所述获取各所述第二候选结果的相关度标签的步骤包括：

获取所述训练语音数据的真实文本；

根据各所述误识率得到各所述第二候选结果的相关度标签。

进一步地，所述预设的相关度模型包括语言表征模块、编码器和相关度计算模块，

进一步地，所述对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果的步骤包括：

进一步地，当所述第一相关度预测结果为所述待识别语音数据分别与各所述第一候选结果之间的相关度值时，

基于上述的结构，提出语音识别方法的各实施例。

参照图2，图2为本发明语音识别方法第一实施例的流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明语音识别方法各个实施例的执行主体可以是智能手机、个人计算机和服务器等设备，为便于描述，以下各实施例中省略执行主体进行阐述。在本实施例中，语音识别方法包括：

步骤S10，对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果；

语音识别任务是对语音数据进行识别，将语音内容转换为对应的文字。在本实施例中，语音识别任务可以是在线上执行，实时获取用户的语音数据，对语音数据进行语音识别；也可以是离线执行，即预先采集用户的语音数据，再离线对语音数据进行语音识别。

在本实施例中，对待识别语音数据进行语音识别，得到该待识别语音数据对应的多个候选结果(以下称为第一候选结果)，也即N-候选。需要说明的是，现有很多语音识别方式在识别流程中会得到N-候选，本实施例中可采用现有的语音识别方式来对待识别语音数据进行识别，得到N-候选，在此不作详细赘述。

步骤S20，调用预设的相关度模型计算得到所述待识别语音数据与各所述第一候选结果之间的第一相关度预测结果；

预先可以设置一个相关度模型，该相关度模型的输入数据可设置为语音数据和文本数据，输出结果可设置为该语音数据与该文本数据之间的相关度预测结果，相关度预测结果可以是该语音数据与该文本数据之间的相关度值。相关度模型的结构可采用现有能够计算两个数据之间相关度的模型结构，例如，可采用计算向量之间相关度的模型结构。调用相关度模型计算待识别语音数据与各个第一候选结果之间的第一相关度预测结果，具体地，可分别将待识别语音数据与每个第一候选结果输出相关度模型，经过相关度模型的处理，得到待识别语音数据与每个第一候选结果之间的相关度预测结果，将各个相关度预测结果作为待识别语音数据与各个第一候选结果之间的相关度预测结果。

步骤S30，根据所述第一相关度预测结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。

根据第一相关度预测结果从各个第一候选结果中选取一个候选结果作为目标候选结果，将该目标候选结果作为待识别语音数据的语音识别结果。具体地，当第一相关度预测结果包括待识别语音数据分别与各个第一候选结果之间的相关度值时，可根据从第一候选结果中选取与待识语音数据的相关度值最高的候选结果作为目标候选结果。

在本实施例中，通过对待识别语音数据进行语音识别得到各个候选结果，再调用预设的相关度模型计算得到待识别语音数据与各个候选结果之前的相关度预测结果，基于相关度预测结果从各个候选结果中选出最后的语音识别结果。本实施例中，采用预先设置的相关度模型直接计算待识别语音数据与各个候选结果之前的相关度预测结果，再依据相关度预测结果选出最终的语音识别结果，并不是根据人为经验设置如何排序，相比于依据人为经验设置的线性评分组合方式，整个过程更具确定性和稳定性，从而能够获得更加准确的语音识别结果。本实施例中将待识别语音数据和各个候选结果输入该相关度模型中进行相关度预测，直接获得各个候选结果的排序结果，相比于先获取各个候选的评分进行组合，再依据评分进行排序的方式，本实施例中的排序方式更加直接、简单。

进一步地，基于上述第一实施例，提出本发明语音识别方法第二实施例，在本实施例中，所述语音识别方法还包括：

步骤S40，获取对训练语音数据进行语音识别得到的至少两个第二候选结果，以及获取各所述第二候选结果的相关度标签；

可以预先设置一个待训练的相关度模型，并采集大量的训练数据对相关度模型进行训练，得到用于计算待识别语音数据与第一候选结果之间相关度的相关度模型。待训练相关度模型可采用常用的相关度模型结构。

进一步地，待训练相关度模型可包括语言表征模块，用于对候选结果进行处理得到候选结果的向量表示，语言表征模块可采用现有的语言表征模型结构，例如可以采用bert embedding(一种语言表征模型)模型，语言表征模型是指可用于挖掘文本的隐藏信息，并将隐藏信息以向量形式表示的模型；为使得语音数据与作为候选结果的文本数据之间具备可比较性，待训练相关度模型可包括对语音数据和候选结果进行向量化处理的编码器，编码器可采用机器学习模型中常用的编码器，在本实施例中，可采用双向长短期记忆网络作为编码器；待训练相关度模型还可包括相关度计算模块，用于计算语音数据的编码向量和候选结果的编码向量之间的相关度，相关度计算模块可采用常用的计算向量之间相关度的模型结构，在本实施例中，可采用Multi-head Self-Attention(多头自注意力)网络结构。

待训练相关度模型的模型参数可以是根据经验初始化的或随机初始化的，对模型训练的目的是更新模型参数，获得符合质量要求的相关度模型。具体地，可以采集大量的语音数据作为训练语音数据，对于一条训练语音数据，可以对该训练语音数据进行语音识别得到训练语音数据的各个候选结果，每次从候选结果中获取至少两个候选结果作为第二候选结果。具体地，对训练语音数据进行语音识别可采用常用的语音识别方式，结果是获得对训练语音数据识别到的若干候选结果，具体识别过程在此不作详细赘述。

在获取到训练语音数据的第二候选结果后，可获取各个第二候选结果的相关度标签。其中，相关度标签可以是表示各个第二候选结果与训练语音数据之间相关度高低情况的标签，例如，当第二候选结果的数量是两个，第二候选结果a与训练语音数据的相关度较高，第二候选结果b与训练语音数据的相关度较低时，相关度标签可以是a对应的标签为1，b对应的标签为0。需要说明的是，相关度标签的获取方式可以是接收人工上传的相关度标签。

步骤S50，将所述训练语音数据、各所述第二候选结果和所述相关度标签作为训练数据，采用所述训练数据对待训练模型进行训练得到所述相关度模型。

将训练语音数据、获取到的第二候选结果以及相关度标签作为训练数据，采用该训练数据对待训练模型进行训练得到相关度模型。具体地，一条训练语音数据对应多个候选结果，当每次获取的第二候选结果的数量小于所有候选结果的数量时，可以按照上述训练数据的获取方式，根据一条训练语音数据获得多条训练数据。对每条训练语音数据均采用上述方式获取训练数据，得到由多条训练数据构成的训练数据集，采用训练数据集来对待训练的相关度模型进行训练，得到相关度模型。训练过程可以按照常用机器学习模型的有监督训练方式进行训练。

进一步地，所述步骤S50中采用所述训练数据对待训练模型进行训练得到所述相关度模型的步骤包括：

步骤S501，将所述训练语音数据和两个所述第二候选结果输入待训练模型，得到所述训练语音数据与两个所述第二候选结果之间的第二相关度预测结果；

当训练数据中第二候选结果的个数为两个时，相关度标签可以是用于表示所述训练语音数据与两个所述第二候选结果之间相关度的高低情况，具体地，相关度标签可以是训练语音数据分别与两个候选结果之间的相关度值，也可以是表示两个候选结果与训练语音数据的相关度孰高孰低的标签，例如相关度高的候选结果对应标签1，相关度低的候选结果对应标签0。

将训练语音数据和两个第二候选结果输入待训练模型中，经过待训练模型的处理，得到训练语音数据与两个第二候选结果之间的第二相关度预测结果。需要说明的是，根据对待训练模型输出层的设置，第二相关度预测结果的数据形式与相关度标签的数据形式是相同的；也即，当相关度标签是训练语音数据分别与两个候选结果之间的相关度值时，第二相关度预测结果也是待训练模型预测得到的训练语音数据分别与两个候选结果之间的相关度值；当相关度标签是表示两个候选结果与训练语音数据的相关度孰高孰低的标签时，第二相关度预测结果也是预测得到的表示两个候选结果与训练语音数据的相关度孰高孰低的结果。

当待训练模型包括语言表征模块、编码器和相关度计算模型时，采用待训练模型来计算训练语音数据和两个第二候选结果的第二相关度预测结果的过程可以是：将训练语音数据输入编码器，得到训练语音数据的编码向量，其中，也可以是先对训练语音数据进行语音特征提取，得到训练语音数据的语音特征数据，将语音特征数据输入编码器得到编码向量；将两个候选结果分别输入语言表征模块，得到两个候选结果的向量表示，再将两个向量表示分别输入编码器，得到两个候选结果对应的编码向量；将训练语音数据的编码向量分别与两个候选结果的编码向量输入相关度计算模块，得到训练语音数据与两个候选结果之间的相关度值，将两个相关度值作为第二相关度预测结果输出。

步骤S502，基于所述相关度标签和所述第二相关度预测结果对所述待训练模型的模型参数进行更新；

基于相关度标签和第二相关度预测结果对待训练模型的模型参数进行更新。具体地，可相关度标签和第二相关度预测结果计算待训练模型的损失函数值，根据损失函数值采用链式法则计算待训练模型中各个模型参数对应的梯度值，再根据梯度值更新各个模型参数，即更新待训练模型。

步骤S503，根据更新后的待训练模型得到所述相关度模型。

在更新待训练模型的模型参数后，可根据更新后的待训练模型得到相关度模型。具体地，可以将训练语音数据和候选结果再输入更新后的待训练模型中，再次计算损失函数值，并检测损失函数值是否收敛，例如，小于一个预设值即表示损失函数值收敛；若未收敛，则再次依据损失函数值计算梯度值来更新模型参数；直到检测到损失函数值收敛时，将最后更新得到的待训练模型作为最终的相关度模型。

需要说明的是，当训练数据中候选结果的数量较少时，例如为两个时，待训练模型的损失函数计算过程相对简单，进而使得对待训练模型的训练过程更加简单，从而能够降低模型训练的时间复杂度，加快待训练模型的训练效率。

在本实施例中，通过预先采集训练数据，采用训练数据对相关度模型进行训练，相比于人为设置各个打分值的线性组合方式的方案，本实施例中的相关度预测结果并不依赖于人工经验，而是通过对模型采用训练数据进行训练，使得模型自主学习到的如何进行相关度预测，从而更具稳定性和确定性，从而能够获得更加准确的语音识别结果。

进一步地，所述步骤S40中获取各所述第二候选结果的相关度标签的步骤包括：

步骤S401，获取所述训练语音数据的真实文本；

步骤S402，分别计算各所述第二候选结果相对于所述真实文本的误识率；

步骤S403，根据各所述误识率得到各所述第二候选结果的相关度标签。

在本实施例中，获取各第二候选结果的排序标签的方式可以是：获取训练语音数据的真实文本，该真实文本即训练语音数据中语音内容对应的真实的文本，也即正确的文本。再分别计算各个第二候选结果相对于真实文本的误识率。也即，将每个第二候选结果与该真实文本进行比较，计算该第二候选文本相对于真实文本的误识率。具体地，误识率计算方式可采用现有的误识率计算方式，例如，统计第二候选结果相对于真实文本的识别错误的字的个数，除以真实文本中总共字个数，得到该第二候选结果相对于真实文本的误识率。

计算得到各个第二候选结果对应的误识率后，根据各个误识率得到各个第二候选结果的相关度标签。具体地，当相关度标签是候选结果与训练语音数据之间的相关度值时，可以将第二候选结果的误识率作转换得到第二候选结果对应的相关度值，具体地，当误识率越高时，转换得到的相关度值越低，误识率越低时，转换得到的相关度越高，例如，可以用1减去误识率得到相关度值。当相关度标签是表示各候选结果与训练语音数据之间相关度孰高孰低的标签时，例如，当第二候选结果的数量是两个时，可以对两个候选结果的误识率进行比较，将误识率低的候选结果标记为1，表示该候选结果与训练语音数据更相关，将误识率高的候选结果标记为0，表示该候选结果与训练数据较不相关。

通过计算各个第二候选结果相对于真实文本的误识率，再根据误识率得到各个第二候选结果的相关度标签，不需要人工操作，在训练数据集的数据量较大时，极大地提高了训练数据集的构建效率，进而提高了相关度模型的训练效率。

如图3所示，在一种实施方式中，相关度模型可包括语言表征模块bertembedding，作为编码器的双向LSTM(长短期记忆网络，Long Short-Term Memory)，以及作为相关度计算模块的Multi-head Self-Attention。以采用一条训练数据对相关度模型进行训练为例：对语音a进行语音识别得到N-候选后，从N候选中选取两个候选结果w⁺和w^-，并获取两个候选结果的相关度标签，相关度标签表示两个候选结果与语音a之间相关度的高低情况。对语音a进行语音特征提取，再输入双向LSTM进行编码。将两个候选结果分别输入bert embedding，得到两个候选结果的向量表示，再输入双向LSTM。将语音a的编码分别与候选结果的编码输入相关度计算模块，得到语音a与候选结果w⁺之间的相关度R(a，w⁺；θ)，以及语音a与候选结果w^-之间的相关度R(a，w^-；θ)，即得到相关度预测结果。其中θ代表相关度模型的模型参数。基于相关度标签和输出的相关度预测结果，计算相关度模型的损失函数值，基于损失函数值计算相关度模型的模型参数的梯度值，基于梯度值更新各个模型参数。经过多轮迭代更新后，当检测到损失函数值收敛时，得到训练完成的相关度模型。

进一步地，基于上述第一和二实施例，提出本发明语音识别方法第三实施例。在本实施例中，所述预设的相关度模型包括语言表征模块、编码器和相关度计算模块，所述步骤S20包括：

步骤S201，将各所述第一候选结果分别输入所述语言表征模块，得到各所述第一候选结果对应的向量表示；

进一步地，在本实施例中，相关度模型可包括语言表征模块、编码器和相关度计算模块；其中，语言表征模块可采用现有的语言表征模块，例如，bert embedding模型，用于对候选结果进行处理得到候选结果的向量表示；编码器可采用机器学习中常用的编码器，例如可采用双向长短期记忆网络；相关度计算模块可采用常用计算向量之间相关度的结构，在本实施例中，可采用Multi-head Self-Attention网络结构。

在获取到待识别语音的各个第一候选结果后，可分别将各个第一候选结果输入语言表征模块，得到各个第一候选结果对应的向量表示。

步骤S202，将各所述向量表示分别输入所述编码器，得到各所述第一候选结果对应的第一编码向量，以及将所述语音特征数据输入所述编码器，得到所述待识别语音数据对应的第二编码向量，其中，所述语音特征数据为对所述待识别语音数据进行语音特征提取得到的；

将各个向量表示分别输入编码器中，例如，输入双向长短期记忆网络中，得到各个第一候选结果对应的第一编码向量。并将待识别语音数据对应的语音特征数据输入编码器中，得到待识别语音数据对应的第二编码向量。其中，在对待识别语音数据进行语音识别得到第一候选结果的过程中，会先对待识别语音数据进行语音特征提取，得到语音特征数据，此时可直接获取该语音特征数据。

步骤S203，调用所述相关度计算模块计算所述第二编码向量与各所述第一编码向量之间的相关度，得到所述待识别语音数据与各所述第一候选结果之间的第一相关度预测结果。

调用相关度计算模块计算第二编码向量与各个第一编码向量之间的相关度，得到待识别语音数据与各个第一候选结果之间的第一相关度预测结果。若相关度模型是直接预测一个语音数据与文本数据之间相关度的模型，则可以将第二编码向量分别与各个第一编码向量输入相关度计算模块，得到待识别语音数据分别与各个第一候选结果之间的相关度，并将各个相关度作为第一相关度预测结果。若相关度模型是预测指定数量的文本数据与语音数据之间相关度的高度情况时，例如，预测两个文本数据与一个语音数据之间的相关度孰高孰低，则可从遍历各个第一编码向量，每次获取两个第一编码向量，将两个第一编码向量和第二编码向量输入相关度计算模块，得到两个第一编码向量与第二编码向量之前相关度的高低情况，也即两个第一编码向量中哪个相关度高，哪个相关度低，根据高低情况对两个第一编码向量进行排序；遍历完所有第一编码向量后，可得到所有第一编码向量的排序，也即得到了所有第一候选结果的排序，将该排序作为第一相关度预测结果。

进一步地，在一实施方式中，所述步骤S30包括：

步骤S301，从各所述第一候选结果中选取相关度值最高的目标候选结果，将所述目标候选结果作为所述待识别语音数据的语音识别结果。

当第一相关度预测结果为待识别语音数据分别与各第一候选结果之间的相关度值时，可从各个第一候选结果中选取相关度最高的候选结果作为目标候选结果，并将该目标候选结果作为待识别语音数据的语音识别结果。

当第一相关度预测结果为各个第一候选结果的排序，且排在前面的第一候选结果与待识别语音数据之前的相关度更高时，可将排在第一位的第一候选结果作为待识别语音数据的语音识别结果。

在本实施例中，通过在相关度模型中设置语言表征模块，使得相关度模型能够挖掘出候选结果的隐含语义信息，基于隐含语义信息能够更加准确地计算出候选结果与待识别语音数据之间的相关度，进而得到更加准确的语音识别结果；并且通过在相关度模型中集成语言表征模块，可以使得对N-候选的重打分过程中也能利用业界最新的自然语言处理模型，如bert embedding模型等；通过在相关度模型中设置编码器对语音数据和候选结果进行编码，使得语音数据和候选结果具备可比性，从而能够实现对两个不同模态的数据进行相关度计算，进而实现基于候选结果与语音数据的相关度作为候选结果的排序依据；通过在相关度模型中设置相关度计算模块，特别是采用Multi-head Self-Attention网络结构作为相关度计算模块时，利用该网络结构的特点，能够进一步提升相关度预测结果的准确性，进而提升语音识别结果的准确度。

进一步地，在一实施方式中，所述步骤S10包括：

步骤S101，对所述待识别语音数据进行语音特征提取，得到所述待识别语音数据的语音特征数据；

步骤S102，采用预设语音模型和预设语言模型对所述语音特征数据进行识别，得到所述待识别语音数据的第一候选结果。

对待识别语音数据进行语音特征提取，得到待识别语音数据的语音特征数据。其中，语音特征是指语音数据中提取的能够区分音素的有效信息，例如，可以提取MFCC(梅尔频率倒谱系数)特征。在提取到待识别语音数据的语音特征数据后，可采用预设语音模型和预设语言模型对语音特征数据进行识别，得到待识别语音数据的各个第一候选结果。其中，预设语音模型可以是采用常用的语音模型，例如，采用基于隐马尔科夫模型的语音模型，预设语言模型也可采用常用的语言模型，例如ngram模型。通过语音模型和语言模型对语音特征数据进行识别获得候选结果的原理可以是：通过语音模型将一帧一帧的语音特征数据转换为对应的音素，根据音素与字词的映射字典得到各个音素对应的词，其中，语音模型可能将一帧语音特征数据对应转换为多个可能的音素，并给出多个音素的概率，从而一帧语音特征数据对应多个可能的词，以及每个词的概率；将各个词进行排列组合，得到多个词序列，采用语言模型对各个词序列进行评估，获得各个词序列的概率，该概率表示该词序列属于正常语言的概率，将该概率作为该词序列的语言模型得分；将词序列中各个词对应的概率相乘，得到该词序列的语音模型得分，将该词序列的语音模型得分和语言模型得分组合，得到该词序列的总得分；将各个词序列的总得分进行排序，并取排在前N个词序列作为待识别语音数据的N个候选结果，其中，N可以预先设置。

进一步地，如图4所示，在一实施方式中，可预先采集大量的训练语音数据，对每条训练语音数据进行语音识别获得N-候选(图中的解码decoding和词网络部分仅用于形象地表示语音识别流程，并不是对语音识别过程的限定)。将训练语音数据、以及N-候选中的两个候选结果作为一条训练数据，对相关度模型进行训练。训练得到相关度模型后，对待识别语音数据进行语音识别得到待识别语音数据的N-候选，并将待识别语音和N-候选输入到相关度模型中，得到待识别语音数据与各个候选结果之间的相关度，依据相关度可对N-候选进行排序，根据排序结果将排在第一位的候选结果作为待识别语音数据的语音识别结果。

此外本发明实施例还提出一种语音识别装置，参照图5，所述装置包括：

识别模块10，用于对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果；

计算模块20，用于调用预设的相关度模型计算得到所述待识别语音数据与各所述第一候选结果之间的第一相关度预测结果；

选取模块30，用于根据所述第一相关度预测结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。

进一步地，所述装置还包括：

获取模块，用于获取对训练语音数据进行语音识别得到的至少两个第二候选结果，以及获取各所述第二候选结果的相关度标签；

训练模块，用于将所述训练语音数据、各所述第二候选结果和所述相关度标签作为训练数据，采用所述训练数据对待训练模型进行训练得到所述相关度模型。

进一步地，当所述训练数据中第二候选结果的个数为两个时，所述训练模块包括：

第一输入单元，用于将所述训练语音数据和两个所述第二候选结果输入待训练模型，得到所述训练语音数据与两个所述第二候选结果之间的第二相关度预测结果；

更新单元，用于基于所述相关度标签和所述第二相关度预测结果对所述待训练模型的模型参数进行更新；

确定单元，用于根据更新后的待训练模型得到所述相关度模型。

进一步地，所述获取模块包括：

获取单元，用于获取所述训练语音数据的真实文本；

第一计算单元，用于分别计算各所述第二候选结果相对于所述真实文本的误识率；

标注单元，用于根据各所述误识率得到各所述第二候选结果的相关度标签。

所述计算模块20包括：

第二输入单元，用于将各所述第一候选结果分别输入所述语言表征模块，得到各所述第一候选结果对应的向量表示；

第三输入单元，用于将各所述向量表示分别输入所述编码器，得到各所述第一候选结果对应的第一编码向量，以及将所述语音特征数据输入所述编码器，得到所述待识别语音数据对应的第二编码向量，其中，所述语音特征数据为对所述待识别语音数据进行语音特征提取得到的；

第二计算单元，用于调用所述相关度计算模块计算所述第二编码向量与各所述第一编码向量之间的相关度，得到所述待识别语音数据与各所述第一候选结果之间的第一相关度预测结果。

进一步地，所述识别模块10包括：

提取单元，用于对所述待识别语音数据进行语音特征提取，得到所述待识别语音数据的语音特征数据；

识别单元，用于采用预设语音模型和预设语言模型对所述语音特征数据进行识别，得到所述待识别语音数据的第一候选结果。

进一步地，当所述第一相关度预测结果为所述待识别语音数据分别与各所述第一候选结果之间的相关度值时，所述选取单元还用于：

本发明语音识别装置的具体实施方式的拓展内容与上述语音识别方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如下所述的语音识别方法的步骤。

本发明语音识别设备和计算机可读存储介质的各实施例，均可参照本发明语音识别方法各实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括以下步骤：

根据所述第一相关度预测结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果；

所述调用预设的相关度模型计算得到所述待识别语音数据与各所述第一候选结果之间的第一相关度预测结果的步骤之前，还包括：

将所述训练语音数据、各所述第二候选结果和所述相关度标签作为训练数据，采用所述训练数据对待训练模型进行训练得到所述相关度模型；

当所述训练数据中第二候选结果的个数为两个时，所述采用所述训练数据对待训练模型进行训练得到所述相关度模型的步骤包括：

根据更新后的待训练模型得到所述相关度模型；

所述获取各所述第二候选结果的相关度标签的步骤包括：

获取所述训练语音数据的真实文本；

根据各所述误识率得到各所述第二候选结果的相关度标签。

2.如权利要求1所述的语音识别方法，其特征在于，所述预设的相关度模型包括语言表征模块、编码器和相关度计算模块，

将各所述向量表示分别输入所述编码器，得到各所述第一候选结果对应的第一编码向量，以及将语音特征数据输入所述编码器，得到所述待识别语音数据对应的第二编码向量，其中，所述语音特征数据为对所述待识别语音数据进行语音特征提取得到的；

3.如权利要求1所述的语音识别方法，其特征在于，所述对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果的步骤包括：

4.如权利要求1至3任一项所述的语音识别方法，其特征在于，当所述第一相关度预测结果为所述待识别语音数据分别与各所述第一候选结果之间的相关度值时，

5.一种语音识别装置，其特征在于，所述装置包括：

选取模块，用于根据所述第一相关度预测结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果；

所述装置还包括：

训练模块，用于将所述训练语音数据、各所述第二候选结果和所述相关度标签作为训练数据，采用所述训练数据对待训练模型进行训练得到所述相关度模型；

当所述训练数据中第二候选结果的个数为两个时，所述训练模块包括：

确定单元，用于根据更新后的待训练模型得到所述相关度模型；

所述获取模块包括：

获取单元，用于获取所述训练语音数据的真实文本；

6.一种语音识别设备，其特征在于，所述语音识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如权利要求1至4中任一项所述的语音识别方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如权利要求1至4中任一项所述的语音识别方法的步骤。