CN111554276A

CN111554276A - 语音识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111554276A
Application number: CN202010415332.1A
Authority: CN
Inventors: 宋元峰
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-08-18
Anticipated expiration: 2040-05-15
Also published as: CN111554276B

Abstract

本发明公开了一种语音识别方法、设备、系统及计算机可读存储介质，所述方法包括：对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果；获取各所述第一候选结果对应的特征数据，并将各所述特征数据输入预先训练得到的排序模型中，得到各所述第一候选结果的排序结果；根据所述排序结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。本发明相比于依据人为经验设置的线性评分组合方式，能够获得更加准确的排序结果，从而能够获得更加准确的语音识别结果。

Description

语音识别方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及语音数据处理技术领域，尤其涉及一种语音识别方法、装置、设备及计算机可读存储介质。

背景技术

随着语音数据处理技术的发展，语音识别系统已经广泛地应用于各个领域。语音识别系统中，对N-候选重打分(N-best Hypotheses Rescoring)是一个重要的部分，对语音识别效果有至关重要的影响。N-候选是对语音数据识别得到的N个候选结果，N-候选重打分是对N个候选结果重新进行打分排序。目前采用的N-候选重打分的方式是先用语音模型(Acoustic Model)和语言模型(Language Model)对每个候选进行评估打分，然后将语音模型评分和语言模型评分组合起来给出N-候选的最终排序结果，取排名第一的候选作为最终的语音识别结果。但是这种先给出语音模型评分和语言模型评分，再线性组合两种得分的方式，需要根据经验来设置得分的线性组合方式，具有很大的不确定性，从而导致语音识别效果不够准确。

发明内容

本发明的主要目的在于提供一种语音识别方法、设备、系统及计算机可读存储介质，旨在解决目前N-候选重打分的方式，需要根据经验来设置得分的线性组合方式，具有很大的不确定性，从而导致语音识别效果不够准确的问题。

为实现上述目的，本发明提供一种语音识别方法，所述方法包括以下步骤：

对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果；

获取各所述第一候选结果对应的特征数据，并将各所述特征数据输入预先训练得到的排序模型中，得到各所述第一候选结果的排序结果；

根据所述排序结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。

可选地，所述获取各所述第一候选结果对应的特征数据的步骤包括：

采用预设的打分模型对各所述第一候选结果进行打分，得到各所述第一候选结果对应的打分值，其中，所述打分模型包括至少一个语音模型和/或至少一个语言模型；

将各所述第一候选结果的打分值对应作为各所述第一候选结果的特征数据。

采用预设的至少一个语言表征模型对各所述第一候选结果进行处理，得到各所述第一候选结果对应的向量表示；

将各所述第一候选结果的向量表示对应作为各所述第一候选结果的特征数据。

可选地，所述获取各所述第一候选结果对应的特征数据，并将各所述特征数据输入预设的排序模型，得到各所述第一候选结果的排序结果的步骤之前，还包括：

对训练语音数据进行语音识别得到所述训练语音数据的各第二候选结果；

获取各所述第二候选结果对应的特征数据，以及获取各所述第二候选结果的排序标签；

将各所述第二候选结果对应的特征数据和各所述第二候选结果的排序标签作为一条训练数据，并根据获取到的各条训练数据得到训练数据集；

采用所述训练数据集对待训练排序模型进行训练得到所述排序模型。

可选地，所述获取各所述第二候选结果的排序标签的步骤包括：

获取所述训练语音数据的真实文本；

分别计算各所述第二候选结果相对于所述真实文本的误识率；

按照各所述误识率对各所述第二候选结果进行排序，得到各所述第二候选结果的排序标签。

可选地，所述特征数据包括所述第一候选结果的打分值和/或所述第一候选结果的向量表示。

可选地，所述对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果的步骤包括：

对所述待识别语音数据进行语音特征提取，得到所述待识别语音数据的语音特征数据；

采用预设语音模型和预设语言模型对所述语音特征数据进行识别，得到所述待识别语音数据的各第一候选结果。

为实现上述目的，本发明提供一种语音识别装置，所述装置包括：

识别模块，用于对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果；

排序模块，用于获取各所述第一候选结果对应的特征数据，并将各所述特征数据输入预先训练得到的排序模型中，得到各所述第一候选结果的排序结果；

选取模块，用于根据所述排序结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。

为实现上述目的，本发明还提供一种语音识别设备，所述语音识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如上所述的语音识别方法的步骤。

本发明中，通过对待识别语音数据进行语音识别得到各个候选结果，再获取各个候选结果的特征数据，调用预先训练得到的排序模型来对各个特征数据进行处理，得到各个候选结果的排序结果，并基于排序结果从各候选结果中选出最后的语音识别结果。本发明中，采用预先设置并训练好的排序模型对各个候选结果的特征数据进行排序，由于排序模型通过训练已学习到了如何依据特征数据进行排序，并不是根据人为经验设置如何排序，相比于依据人为经验设置的线性评分组合方式，能够获得更加准确的排序结果，从而能够获得更加准确的语音识别结果。本发明中将各个候选结果的特征数据输入该排序模型中进行排序得到排序结果，相比于先获取各个候选的评分进行组合，再依据评分进行排序的方式，本发明中的排序方式更加直接、简单。此外，相比于现有的对评分进行线性组合以对N-候选重打分，再依据评分进行排序的方式，本发明中，由于是基于各个候选结果的特征数据进行排序，特征数据不仅限于各个候选结果的打分值，也即，本发明中的排序依据可以不仅限于打分值，从而使得排序依据更加丰富，能够得出更加准确的排序结果，进而能够获得更加准确的语音识别结果。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明语音识别方法第一实施例的流程示意图；

图3为本发明实施例涉及的一种语音识别流程示意图；

图4本发明语音识别装置较佳实施例的功能示意图模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例语音识别设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该语音识别设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对语音识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别程序。其中，操作系统是管理和控制设备硬件和软件资源的程序，支持语音识别程序以及其它软件或程序的运行。在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于服务器建立通信连接；处理器1001可以用于调用存储器1005中存储的语音识别程序，并执行以下操作：

进一步地，所述获取各所述第一候选结果对应的特征数据的步骤包括：

进一步地，所述获取各所述第一候选结果对应的特征数据，并将各所述特征数据输入预设的排序模型，得到各所述第一候选结果的排序结果的步骤之前，处理器1001还可以用于调用存储器1005中存储的语音识别程序，执行以下操作：

进一步地，所述获取各所述第二候选结果的排序标签的步骤包括：

获取所述训练语音数据的真实文本；

进一步地，所述特征数据包括所述第一候选结果的打分值和/或所述第一候选结果的向量表示。

进一步地，所述对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果的步骤包括：

基于上述的结构，提出语音识别方法的各实施例。

参照图2，图2为本发明语音识别方法第一实施例的流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明语音识别方法各个实施例的执行主体可以是智能手机、个人计算机和服务器等设备，为便于描述，以下各实施例中省略执行主体进行阐述。在本实施例中，语音识别方法包括：

步骤S10，对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果；

语音识别任务是对语音数据进行识别，将语音内容转换为对应的文字。在本实施例中，语音识别任务可以是在线上执行，实时获取用户的语音数据，对语音数据进行语音识别；也可以是离线执行，即预先采集用户的语音数据，再离线对语音数据进行语音识别。

在本实施例中，对待识别语音数据进行语音识别，得到该待识别语音数据对应的多个候选结果(以下称为第一候选结果)，也即N-候选。需要说明的是，现有很多语音识别方式在识别流程中会得到N-候选，本实施例中可采用现有的语音识别方式来对待识别语音数据进行识别，得到N-候选，在此不作详细赘述。

步骤S20，获取各所述第一候选结果对应的特征数据，并将各所述特征数据输入预先训练得到的排序模型中，得到各所述第一候选结果的排序结果；

在得到各个第一候选结果后，可以提取第一候选结果的特征数据。其中，特征数据的来源可以是单一的，例如，特征数据可以是第一候选结果本身，或者是前述语音识别过程中对第一候选结果的打分值，或者是采用另外的打分模型对第一候选结果进行打分得到的打分值，等等；特征数据的来源也可以是多样的，例如，可以至少包括前面列举的三种来源中的任意几项。

在获取到各个第一候选结果的特征数据后，可以将各个特征数据输入预先训练得到的排序模型中，也即调用排序模型对各个特征数据进行排序处理，得到各个特征数据的排序结果，也就得到了各个第一候选结果的排序结果。其中，排序模型可以是预先设置并训练好的一个模型，输入数据是各个特征数据，输出数据是各个特征数据的排序结果。根据具体需求不同，可以设置排序结果的形式，例如，排序结果可以是表示各个特征数据的排列顺序的结果，排列顺序中排在第一位的特征数据所对应的候选结果为最优的候选结果；排序结果也可以是直接表示哪个特征数据是最优特征数据的结果。该排序模型可采用常用的排序模型结构，并可采用大量的训练数据进行训练得到。例如可采用RankSVM模型或RankNet模型等，RankSVM是使用SVM模型解决学习排序问题的方法，RankNet是使用神经网络来解决学习排序问题的方法。

步骤S30，根据所述排序结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。

在获得各个第一候选结果的排序结果后，可以从各个第一候选结果中选取一个目标候选结果作为待识别语音数据的语音识别结果。其中，当排序结果是各个第一候选结果按照从优到差的排序结果时，可以将排在第一位的候选结果作为目标候选结果，也即将最优的候选结果作为目标候选结果。

在本实施例中，通过对待识别语音数据进行语音识别得到各个候选结果，再获取各个候选结果的特征数据，调用预先训练得到的排序模型来对各个特征数据进行处理，得到各个候选结果的排序结果，并基于排序结果从各候选结果中选出最后的语音识别结果。本实施例中，采用预先设置并训练好的排序模型对各个候选结果的特征数据进行排序，由于排序模型通过训练已学习到了如何依据特征数据进行排序，并不是根据人为经验设置如何排序，相比于依据人为经验设置的线性评分组合方式，能够获得更加准确的排序结果，从而能够获得更加准确的语音识别结果。本实施例中将各个候选结果的特征数据输入该排序模型中进行排序得到排序结果，相比于先获取各个候选的评分进行组合，再依据评分进行排序的方式，本实施例中的排序方式更加直接、简单。此外，相比于现有的对评分进行线性组合以对N-候选重打分，再依据评分进行排序的方式，本实施例中，由于是基于各个候选结果的特征数据进行排序，特征数据不仅限于各个候选结果的打分值，也即，本实施例中的排序依据可以不仅限于打分值，从而使得排序依据更加丰富，能够得出更加准确的排序结果，进而能够获得更加准确的语音识别结果。

进一步地，基于上述第一实施例，提出本发明语音识别方法第二实施例，在本实施例中，所述步骤S20中获取各所述第一候选结果对应的特征数据的步骤包括：

步骤S201，采用预设的打分模型对各所述第一候选结果进行打分，得到各所述第一候选结果对应的打分值，其中，所述打分模型包括至少一个语音模型和/或至少一个语言模型；

在本实施例中，特征数据可以包括候选结果的打分值。那么，可采用预设的打分模型对各个第一候选结果进行打分，得到各个第一候选结果对应的打分值。其中，打分模型可以是预先设置的用于对候选结果进行打分的模型，打分模型可以包括至少一个语音模型(Acoustic Model)和/或至少一个语言模型(Language Model)，也即，可以采用预设的至少一个语音模型对候选结果进行打分，或者采用预设的至少一个语言模型对候选结果进行打分，或者采用预设的至少一个语音模型和至少一个语言模型对候选结果进行打分。语音模型是语音识别系统中将语音特征转化为音素的模型，能够给出该音素对应该语音特征的概率(即打分值)，语言模型是语音识别系统中用于计算句子概率的模型，即给出一个句子是符合自然语言的概率(即打分值)。在本实施例中，可采用现有的语音模型或语言模型来对候选结果进行打分。当打分模型包括多个模型时，一个候选结果就对应多个打分值。例如，可以采用基于隐马尔科夫模型的语音模型、ngram模型(一种语言模型)和RNNLM模型(一种语言模型)来对候选结果进行打分，一个候选结果对应三个打分值：语音模型打分值、ngram模型打分值和RNNLM模型打分值。

需要说明的是，作为打分模型的语音模型和语言模型可以是前述在语音识别、获取候选结果的过程中采用的语音模型和语言模型，也可以是采用另外的语音模型和语言模型。

步骤S202，将各所述第一候选结果的打分值对应作为各所述第一候选结果的特征数据。

将各个第一候选结果的打分值对应作为各个第一候选结果的特征数据。也即，对每个候选结果，采用对该候选结果打分得到的打分值作为该候选结果的特征数据。需要说明的是，若一个候选结果对应多个打分值，那么该候选结果的特征数据就是包括多维特征的数据，可以以向量形式来存储并处理该特征数据。

在本实施例中，通过采用候选结果的打分值作为候选结果的特征数据，并将各个候选结果的特征数据直接输入排序模型中进行排序，能够更加直接、简单地获取到各个候选结果的排序结果。并且采用预先训练好的排序模型根据特征数据进行排序，各个打分值直接作为候选结果的特征，并不需要人为经验设置打分值的组合方式，从而增加了候选结果排序的确定性，进而提高了候选结果排序的准确度。此外，当采用多个打分模型对候选结果进行打分，能够更加丰富候选结果的特征数据，从而使得排序模型能够依据更丰富的信息进行排序，获得更加准确的排序结果，进而获得更加准确的语音识别效果。

进一步地，基于上述第一实施例和第二实施例，提出本发明语音识别方法第三实施例。在本实施例中，S20中获取各所述第一候选结果对应的特征数据的步骤包括：

步骤S201，采用预设的至少一个语言表征模型对各所述第一候选结果进行处理，得到各所述第一候选结果对应的向量表示；

在本实施例中，特征数据可以包括候选结果的向量表示。那么，可以采用预设的至少一个语言表征模型对各个第一候选结果进行处理，得到各个第一候选结果对应的向量表示。其中，语言表征模型是指可用于挖掘文本的隐藏信息，并将隐藏信息以向量形式表示的模型，本实施例中，可以预先设置至少一个语言表征模型来对候选结果进行处理，得到每个候选模型的至少一个向量表示。语言表征模型可采用现有的语言表征模型，在此不作详细赘述。例如，可以采用bert embedding模型来对候选结果进行处理，得到候选结果的向量表示。

步骤S202，将各所述第一候选结果的向量表示对应作为各所述第一候选结果的特征数据。

在得到各个第一候选结果的向量表示后，可将各个第一候选结果的向量表示对应作为各第一候选结果的特征数据。也即，对每个候选结果，采用该该候选结果的向量表示作为该候选结果的特征数据。当一个候选结果对应多个向量表示时，将这些向量表示均作为该候选结果的特征数据，具体可以将各个向量表示进行拼接得到一个向量，例如，将两个100维的向量表示拼接为一个200维的向量，该向量即候选结果的特征数据。

在本实施例中，通过采用候选结果的向量表示作为候选结果的特征数据，并将各个候选结果的特征数据直接输入排序模型中进行排序，能够更加直接、简单地获取到各个候选结果的排序结果。并且采用预先训练好的排序模型根据特征数据进行排序，各个打分值直接作为候选结果的特征，并不需要人为经验设置打分值的组合方式，从而增加了候选结果排序的确定性，进而提高了候选结果排序的准确度。进一步地，通过采用语言表征模型来对候选结果进行处理，得到候选结果的向量表示，将该向量表示作为候选结果的特征数据，也即将该向量表示作为对候选结果进行排序的依据，使得对候选结果进行排序的依据不仅限于打分值，相比于对候选结果的打分值进行线性组合的方式，候选结果的向量表示包含了候选结果更多的特征信息，从而提供了更加丰富的排序依据，通过更加丰富的排序依据能够获得更加准确的排序结果，进而获得更加准确的语音识别效果。并且，本实施例中，可以将业界最新的自然语言处理模型如bert embedding模型等集成进来，作为排序的依据，进一步提升语音识别效果，相比于对打分值进行线性组合的方式，本实施例中的排序方式具有更强的可扩展性。

进一步地，特征数据可包括第一候选结果的打分值和/或第一候选结果的向量表示。上述第一实施例给出了特征数据包括打分值的实施方式，第二实施例给出了特征数据包括向量表示的实施方式。在一种实施方式中，特征数据可包括第一候选结果的打分值和向量表示，也即可以采用打分模型对候选结果进行打分，得到候选结果的打分值，采用语言表征模型对候选结果进行处理得到候选结果的向量表示，将候选结果的打分值和向量表示均作为候选结果的特征数据。可以将打分值和向量表示转换为一个向量的形式，以该向量作为候选结果的特征数据，具体可将各个向量表示直接拼接得到一个向量，再将各个打分值也分别作为一个元素添加至该向量中。例如，可以采用基于隐马尔科夫模型的语音模型、ngram模型(一种语言模型)和RNNLM模型(一种语言模型)来对候选结果进行打分，每个候选结果对应三个打分值：语音模型打分值、ngram模型打分值和RNNLM模型打分值；再采用bertembedding模型对候选结果处理得到该候选结果的向量表示；将三个打分值和一个向量表示均作为候选结果的特征数据。

通过将候选结果的打分值和向量表示作为候选结果的特征数据输入排序模型，使得排序模型能够根据多样化的特征数据对各个候选结果进行排序，从而得到更加准确的排序结果，依据更加准确的排序结果获得更加准确的语音识别结果。

基于上述第一实施例、第二实施例和第三实施例，提出本发明语音识别方法第四实施例。在本实施例中，所述语音识别方法还包括：

步骤S40，对训练语音数据进行语音识别得到所述训练语音数据的各第二候选结果；

在本实施例中，可以预先设置一个待训练的排序模型，并采集大量的训练数据对排序模型进行训练，得到用于对第一候选结果进行排序的排序模型。待训练排序模型可采用常用的排序模型结构，模型参数可以是根据经验初始化的或随机初始化的，对模型训练的目的是更新模型参数，获得符合排序效果要求的排序模型。具体地，可以采集大量的语音数据作为训练语音数据，对于一条训练语音数据，可以对该训练语音数据进行语音识别得到训练语音数据的各个候选结果(以下称为第二候选结果)。具体地，对训练语音数据进行语音识别可采用常用的语音识别方式，结果是获得对训练语音数据识别到的若干第二候选结果，具体识别过程在此不作详细赘述。

步骤S50，获取各所述第二候选结果对应的特征数据，以及获取各所述第二候选结果的排序标签；

获取到训练语音数据的各个第二候选结果后，可获取每个第二候选结果的特征数据。具体地，根据对排序依据的具体需求不同，可以获取不同的特征数据；例如，需要依据候选结果的打分值来进行排序时，可采用打分模型对候选结果进行打分，将获得的打分值作为候选结果的特征数据；又如需要依据候选结果的向量表示来进行排序时，可采用语言表征模型对候选结果进行处理，将获得的向量表示作为候选结果的特征数据；又如，当需要依据候选结果的打分值和向量表示进行排序时，获取候选结果的打分值和向量表示作为特征数据。

可以理解的是，在排序模型训练过程中特征数据包括哪些种类，使用过程中也对应包含哪些种类。

进一步地还可获取各个第二候选结果的排序标签。根据所采用的排序模型不同，排序标签的形式不同，例如，当排序模型是每次对两个对象进行排序的模型时，各个第二候选结果中每两个候选结果对应一组排序标签，例如，两个候选结果中较优的候选结果对应的标签为1，较差的候选结果对应的标签为0。各个第二候选结果的排序标签的获取方式可以是接收人工上传的排序标签。

步骤S60，将各所述第二候选结果对应的特征数据和各所述第二候选结果的排序标签作为一条训练数据，并根据获取到的各条训练数据得到训练数据集；

将各第二候选结果对应的特征数据和各第二候选结果的排序标签作为一条训练数据，并采用上述训练数据获取方式获得多条训练数据。将多条训练数据作为用于训练排序模型的训练数据集。

步骤S70，采用所述训练数据集对待训练排序模型进行训练得到所述排序模型。

采用训练数据集对待训练排序模型进行训练。可以采用常用的有监督训练方式对待训练排序模型进行训练，具体地，将训练数据中的特征数据输入待训练排序模型，待训练排序模型输出得到各个特征数据的预测排序结果，采用各个特征数据对应的排序标签和该预测排序结果计算损失函数值，根据损失函数值采用链式法则计算排序模型中各个模型参数对应的梯度值，再根据梯度值更新各个模型参数，即更新待训练排序模型；将各个特征数据再输入更新后的待训练排序模型中，再次计算损失函数值，并检测损失函数值是否收敛，例如，小于一个预设值即表示损失函数值收敛；若未收敛，则再次依据损失函数值计算梯度值来更新模型参数；直到检测到损失函数值收敛时，将最后更新得到的待训练排序模型作为最终的排序模型。

在本实施例中，通过预先训练一个排序模型，采用排序模型来对候选结果进行排序，相比于人为设置各个打分值的线性组合方式的方案，本实施例中的排序结果并不依赖于人工经验，而是自主地学习如何进行排序，从而更具稳定性和确定性，从而能够获得更加准确的排序结果。

进一步地，所述步骤S50中获取各所述第二候选结果的排序标签的步骤包括：

步骤S501，获取所述训练语音数据的真实文本；

步骤S502，分别计算各所述第二候选结果相对于所述真实文本的误识率；

步骤S503，按照各所述误识率对各所述第二候选结果进行排序，得到各所述第二候选结果的排序标签。

在本实施例中，获取各第二候选结果的排序标签的方式可以是：获取训练语音数据的真实文本，该真实文本即训练语音数据中语音内容对应的真实的文本，也即正确的文本。再分别计算各个第二候选结果相对于真实文本的误识率。也即，将每个第二候选结果与该真实文本进行比较，计算该第二候选文本相对于真实文本的误识率。具体地，误识率计算方式可采用现有的误识率计算方式，例如，统计第二候选结果相对于真实文本的识别错误的字的个数，除以真实文本中总共字个数，得到该第二候选结果相对于真实文本的误识率。

计算得到各个第二候选结果对应的误识率后，根据各个误识率对第二候选结果进行排序，得到第二候选结果的排序标签。可以理解的是，误识率低的第二候选结果优于误识率高的第二候选结果。

通过计算各个第二候选结果相对于真实文本的误识率，再根据误识率为各个第二候选结果打排序标签，不需要人工操作，在训练数据集的数据量较大时，极大地提高了训练数据集的构建效率，进而提高了排序模型的训练效率。

进一步地，在一实施方式中，所述步骤S10包括：

步骤S101，对所述待识别语音数据进行语音特征提取，得到所述待识别语音数据的语音特征数据；

步骤S102,采用预设语音模型和预设语言模型对所述语音特征数据进行识别，得到所述待识别语音数据的各第一候选结果。

对待识别语音数据进行语音特征提取，得到待识别语音数据的语音特征数据。其中，语音特征是指语音数据中提取的能够区分音素的有效信息，例如，可以提取MFCC(梅尔频率倒谱系数)特征。在提取到待识别语音数据的语音特征数据后，可采用预设语音模型和预设语言模型对语音特征数据进行识别，得到待识别语音数据的各个第一候选结果。其中，预设语音模型可以是采用常用的语音模型，例如，采用基于隐马尔科夫模型的语音模型，预设语言模型也可采用常用的语言模型，例如ngram模型。通过语音模型和语言模型对语音特征数据进行识别获得候选结果的原理可以是：通过语音模型将一帧一帧的语音特征数据转换为对应的音素，根据音素与字词的映射字典得到各个音素对应的词，其中，语音模型可能将一帧语音特征数据对应转换为多个可能的音素，并给出多个音素的概率，从而一帧语音特征数据对应多个可能的词，以及每个词的概率；将各个词进行排列组合，得到多个词序列，采用语言模型对各个词序列进行评估，获得各个词序列的概率，该概率表示该词序列属于正常语言的概率，将该概率作为该词序列的语言模型得分；将词序列中各个词对应的概率相乘，得到该词序列的语音模型得分，将该词序列的语音模型得分和语言模型得分组合，得到该词序列的总得分；将各个词序列的总得分进行排序，并取排在前N个词序列作为待识别语音数据的N个候选结果，其中，N可以预先设置。

进一步地，如图3所示，在一实施方式中，可预先采集大量的训练语音数据，对每条训练语音数据进行语音识别获得N-候选(图中的解码decoding和词网络部分仅用于形象地表示语音识别流程，并不是对语音识别过程的限定)，再对N-候选进行特征提取得到特征数据。具体地，可采用打分模型对N-候选进行打分，获得打分值，采用bert embedding模型对N-候选进行处理得到N-候选的向量表示，将打分值和向量表示作为N-候选的特征数据。再采用N-候选的特征数据作为训练数据来训练排序模型，排序模型结构可采用RankSVM模型。训练得到RankSVM模型后，对待识别语音数据进行语音识别得到待识别语音数据的N-候选，并对该N-候选进行特征提取，将N-候选的特征数据输入RankSVM模型中进行排序，得到N-候选的排序结果，根据排序结果将排在第一位的候选结果作为待识别语音数据的语音识别结果。

此外本发明实施例还提出一种语音识别装置，参照图4，所述装置包括：

识别模块10，用于对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果；

排序模块20，用于获取各所述第一候选结果对应的特征数据，并将各所述特征数据输入预先训练得到的排序模型中，得到各所述第一候选结果的排序结果；

选取模块30，用于根据所述排序结果从各所述第一候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。

进一步地，所述排序模块20包括：

打分单元，用于采用预设的打分模型对各所述第一候选结果进行打分，得到各所述第一候选结果对应的打分值，其中，所述打分模型包括至少一个语音模型和/或至少一个语言模型；

第一确定单元，用于将各所述第一候选结果的打分值对应作为各所述第一候选结果的特征数据。

进一步地，所述排序模块20包括：

处理单元，用于采用预设的至少一个语言表征模型对各所述第一候选结果进行处理，得到各所述第一候选结果对应的向量表示；

第二确定单元，用于将各所述第一候选结果的向量表示对应作为各所述第一候选结果的特征数据。

进一步地，所述识别模块10还用于，对训练语音数据进行语音识别得到所述训练语音数据的各第二候选结果；

所述装置还包括：

获取模块，用于获取各所述第二候选结果对应的特征数据，以及获取各所述第二候选结果的排序标签；

确定模块，用于将各所述第二候选结果对应的特征数据和各所述第二候选结果的排序标签作为一条训练数据，并根据获取到的各条训练数据得到训练数据集；

训练模块，用于采用所述训练数据集对待训练排序模型进行训练得到所述排序模型。

进一步地，所述获取模块包括：

获取单元，用于获取所述训练语音数据的真实文本；

计算单元，用于分别计算各所述第二候选结果相对于所述真实文本的误识率；

排序单元，用于按照各所述误识率对各所述第二候选结果进行排序，得到各所述第二候选结果的排序标签。

进一步地，所述识别模块10包括：

提取单元，用于对所述待识别语音数据进行语音特征提取，得到所述待识别语音数据的语音特征数据；

识别单元，用于采用预设语音模型和预设语言模型对所述语音特征数据进行识别，得到所述待识别语音数据的各第一候选结果。

本发明语音识别装置的具体实施方式的拓展内容与上述语音识别方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如下所述的语音识别方法的步骤。

本发明语音识别设备和计算机可读存储介质的各实施例，均可参照本发明语音识别方法各实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的语音识别方法，其特征在于，所述获取各所述第一候选结果对应的特征数据的步骤包括：

3.如权利要求1所述的语音识别方法，其特征在于，所述获取各所述第一候选结果对应的特征数据的步骤包括：

4.如权利要求1所述的语音识别方法，其特征在于，所述获取各所述第一候选结果对应的特征数据，并将各所述特征数据输入预设的排序模型，得到各所述第一候选结果的排序结果的步骤之前，还包括：

5.如权利要求4所述的语音识别方法，其特征在于，所述获取各所述第二候选结果的排序标签的步骤包括：

获取所述训练语音数据的真实文本；

6.如权利要求1所述的语音识别方法，其特征在于，所述特征数据包括所述第一候选结果的打分值和/或所述第一候选结果的向量表示。

7.如权利要求1至6任一项所述的语音识别方法，其特征在于，所述对待识别语音数据进行语音识别得到所述待识别语音数据的各第一候选结果的步骤包括：

8.一种语音识别装置，其特征在于，所述装置包括：

9.一种语音识别设备，其特征在于，所述语音识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如权利要求1至7中任一项所述的语音识别方法的步骤。