CN113077793A

CN113077793A - 一种语音识别方法、装置、设备及存储介质

Info

Publication number: CN113077793A
Application number: CN202110312582.7A
Authority: CN
Inventors: 徐燃
Original assignee: Beijing Roobo Technology Co ltd
Current assignee: Beijing Rubu Technology Co ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-06
Anticipated expiration: 2041-03-24
Also published as: CN113077793B

Abstract

一种语音识别方法、装置、设备及存储介质。本发明实施例的技术方案，通过获取待识别的语音；将所获取语音输入到至少两种语音识别器中，输出各自语音识别器对应的最优识别结果；将各个语种的最优识别结果分别输入对应语法的识别结果处理器，进行基于语法的置信度校准，输出对应语法识别结果的置信度；将各语法的置信度结果一并送入置信度判决器，进行置信度判决，确定最终识别结果与对应语种；将通过置信度判决的语种所对应的识别结果输出至用户界面，同时返回该识别结果对应的语种，解决了应用在一些场景下需要识别两种或多种语种的语音时，需要用户主动选择的问题，且识别时延低。

Description

一种语音识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

语音识别技术已经广泛应用于各种应用中。现在，有很多应用的语音识别功能需要同时支持两种甚至更多种语言。为了让每种语言的识别性能达到最好，通常的实现方式是为每种语言单独部署服务，即在前端操作界面要求用户选择所使用的语言，然后调用相应语言的功能模块。但在一些特定场景下，例如会议记录场景，这种切换操作不方便实现与操作。

还有一类实现方式是把语音先做语种分类，然后送往相对应的语种语音识别服务。这种实现方式往往会为识别带来延迟。因为需要先给语种分类器足够多的数据让它产生可靠的判断结果后，再将缓存的语音和后续语音送给后面相应语种的识别器。

发明内容

本发明实施例提供了一种语音识别方法、装置、设备及存储介质，可以提高语音识别与判别的便利性，无需用户主动选择，且减少延迟。

第一方面，本发明实施例提供了一种语音识别方法，该方法包括：

获取待识别的语音；

将所获取语音输入到至少两种语音识别器中，输出各自语音识别器对应的最优识别结果；

将各个语种的最优识别结果分别输入对应语法的识别结果处理器，进行基于语法的置信度校准，输出对应语法识别结果的置信度；

将各语法的置信度结果一并送入置信度判决器，进行置信度判决，确定最终识别结果与对应语种；

输出通过置信度判决的语种所对应的识别结果，同时输出该识别结果对应的语种。

第二方面，本发明实施例还提供了一种语音识别装置，该装置包括：

语音获取模块，用于获取待识别的语音；

语音识别模块，用于将所获取语音输入到至少两种语音识别器中，输出对应的最优识别结果；

识别结果处理模块，用于将各个语种的最优识别结果进行基于语法的置信度校准，并输出对应语法识别结果的置信度；

置信度判决模块，用于对各语法识别结果的置信度进行判决，确定所获取待识别语音的最终识别结果与对应语种。

第三方面，本发明实施例还提供了一种语音识别设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的一种语音识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的一种语音识别方法。

本发明实施例的技术方案，通过获取待识别的语音；将所获取语音输入到至少两种语音识别器中，输出各自语音识别器对应的最优识别结果；将各个语种的最优识别结果分别输入对应语法的识别结果处理器，进行基于语法的置信度校准，输出对应语法识别结果的置信度；将各语法的置信度结果一并送入置信度判决器，进行置信度判决，确定最终识别结果与对应语种；输出通过置信度判决的语种所对应的识别结果，同时返回该识别结果对应的语种，解决了应用在一些场景下需要识别两种或多种语种的语音时，需要用户主动选择的问题，且识别时延低。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例一提供的一种语音识别方法的流程图；

图2是本发明实施例二提供的一种语音识别方法的置信度判决逻辑图；

图3是本发明实施例三提供的一种语音识别装置的框架示意图；

图4是本发明实施例四提供的一种语音识别设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种语音识别方法的流程图，本实施例可适用于对不同语种的语音进行识别的情况，该方法可以由语音识别装置来执行，该装置可以通过软件，和/或硬件的方式实现，装置可以集成在处理器中，如图1所示，该方法具体包括：

步骤110、获取待识别的语音。

其中，待识别的语音可以是某一种语种的一段语音，例如可以是一段中文的语音，或者，一段外文(可以是英文、日文、法文、俄文等)的语音；也可以是一段普通话的语音，或者，一段方言(可以是闽南语、东北语、陕西话、粤语等)的语音。获取待识别的语音的方式可以是通过麦克风等设备采集语音，本发明不做具体限定。

步骤120、将所获取语音输入到至少两种语音识别器中，输出各自语音识别器对应的最优识别结果；

其中，如果无法识别出结果的就直接出局，不再经过后面的识别结果后处理和置信度判决模块。

步骤130、将各个语种的最优识别结果分别输入对应语法的识别结果处理器，进行基于语法的置信度校准，输出对应语法识别结果的置信度。

之所以要做这一步，是因为连续语音听写的语言模型一般都较为庞大，词表也很丰富。只要听写识别能够出结果，置信度一般不会太低。但各个语种自己听写出来的置信度并不好直接比较，因为里面掺杂了太多语言层的信息。因此需要在各自识别的结果基础上，将最优识别结果转换为语法受限识别，用语法强制对齐的方式，单纯评估用户输入语音，在听写识别转换的文字结果上所对应的声学模型上的置信度高低，从而从声学层做出可以跨语言比较的置信度。每个语种自己的识别后处理模块，都表征了输入语音在自己的声学模型上的匹配程度。

在本发明实施例的一个实施方式中，可选的，将每个语种对应的语音识别器输出的最优结果分别组织成语法形式，其中，语法形式为ABNF或者JSGF等均可，取决于解码器的语法编译技术。例如，中文的识别结果为：这是咋的呼啦圈；英文识别结果为：This is agood day to dive。中文的语法组织形式为：<utt>＝这是咋的呼啦圈；英文的语法组织形式为：<utt>＝This is a good day to dive。

之后，将语法编译为识别器可以接受的搜索图并加载，然后把识别缓存的音频送入解码器进行基于语法的强制对齐识别，得到对应语法识别结果的置信度。

步骤140、将各语法的置信度结果一并送入置信度判决器，进行置信度判决，确定最终识别结果与对应语种。

在本发明实施例的一个实施方式中，可选的，各语种识别器的识别后处理模块输出置信度后，送入置信度判决模块，对结果进行排序，得分最高且大于绝对置信度的语种输出即判决为真正用户输入的语言。置信度是一个介于0～1之间的归一化数值，数值越大表明吻合度越高。

可选的，绝对置信度数值范围为0.4～1。

可选的，绝对置信度选取为0.6。

步骤150、输出通过置信度判决的语种所对应的识别结果，同时输出该识别结果对应的语种。

实施例二

本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。该方法包括：

步骤210、获取待识别的语音。

步骤220、将所获取语音输入到至少两种语音识别器中，输出各自语音识别器对应的最优识别结果；

步骤230、将各个语种的最优识别结果分别输入对应语法的识别结果处理器，进行基于语法的置信度校准，输出对应语法识别结果的置信度。

步骤240、将各语法的置信度结果一并送入置信度判决器，进行置信度判决，确定最终识别结果与对应语种。

在本发明实施例的一个实施方式中，各语种识别器的识别后处理模块输出置信度后，送入置信度判决模块，对结果进行排序。可选的，对所述各语法的置信度中高于绝对置信度的最高置信度与次高置信度的差值与相对置信度进行比较；

如最高置信度与次高置信度的差值大于相对置信度时，则置信度最高的语种即判决为所获取语音所使用的语种；

如最高置信度与次高置信度的差值小于相对置信度时，则同时输出两个语种的识别结果与对应语种至用户界面，由用户进行选择。

可选的，绝对置信度数值范围为0.4～1；

可选的，绝对置信度选取为0.6。

可选的，相对置信度数值范围为0.05～0.2；

可选的，相对置信度数值范围为0.1。

如图2所示，一种可选的置信度判决逻辑可以设置为：

X为各语种后处理模块输出置信度中最大的置信度，对应语种A；Y为各语种后处理模块输出的置信度中第二大的置信度，对应语种B；

M为绝对置信度，设置为0.6；

N为相对置信度，设置为0.1；

如果X>M且X-Y≥N,则认为输入语言是A；

如果X-Y＜N且Y＞M,即判决两种语言置信度难以拉开差距，表明很难明确判断输入语言是哪个语种；可以根据应用的需要，两者同时输出；

如果X＜M,即拒绝识别，表明输入语言难以得出信服的结果；即便输出，也是错误极高。

步骤250、输出通过置信度判决的语种所对应的识别结果，同时输出该识别结果对应的语种。

本发明实施例的技术方案，通过获取待识别的语音；将所获取语音输入到至少两种语音识别器中，输出各自语音识别器对应的最优识别结果；将各个语种的最优识别结果分别输入对应语法的识别结果处理器，进行基于语法的置信度校准，输出对应语法识别结果的置信度；将各语种识别器的识别后处理模块输出置信度后，送入置信度判决模块，对结果进行排序。对所述各语法的置信度中高于绝对置信度的最高置信度与次高置信度的差值与相对置信度进行比较，确定最终识别结果与对应语种；输出通过置信度判决的语种所对应的识别结果，同时返回该识别结果对应的语种，可以更好的应对一些复杂识别与判别情况，提升准确性。

实施例三

图3是本发明实施例三提供的一种语音识别装置的框架示意图。结合图3，该装置包括：语音获取模块310，语音识别模块320，识别结果处理模块330，置信度判决模块340。其中，

语音获取模块，用于获取待识别的语音；

可选的，识别结果处理模块330，包括：语法编译单元和语法识别单元；

语法编译单元，用于根据解码器的语法编译技术，将最优识别结果分别组织成语法形式，所述语法形式包括ABNF或者JSG；

语法识别单元，用于对各语法的置信度结果进行排序，置信度最高且超出绝对置信度的语种即判决为所获取语音所使用的语种，则输出对应的识别结果与语法；如各语法的置信度结果中，最高置信度小于绝对置信度，则不输出任何结果。

本发明实施例所提供的语音识别装置可执行本发明任意实施例所提供的语音识别方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4是本发明实施例五提供的一种语音识别设备的结构示意图，如图4所示，该设备包括：

一个或多个处理器410，图4中以一个处理器410为例；

存储器420；

所述设备还可以包括：输入装置430和输出装置440。

所述设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器420作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种语音识别方法对应的程序指令/模块。

处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种语音识别与判别方法，即：

获取待识别的语音；

存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本发明实施例六提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种语音识别方法：

获取待识别的语音；

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别的语音；

2.根据权利要求1所述的方法，其特征在于，所述将各个语种的最优识别结果分别输入对应语法的识别结果处理器，进行基于语法的置信度校准，输出对应语法识别结果的置信度，包括：

将最优识别结果转换为语法受限识别，用语法强制对齐的方式单纯评估输入语音。

3.根据权利要求2所述的方法，其特征在于，所述将各语法的置信度结果一并送入置信度判决器，进行置信度判决，确定最终识别结果与对应语种，包括：

对各语法的置信度结果进行排序，置信度最高且超出绝对置信度的语种即判决为所获取语音所使用的语种，则输出对应的识别结果与语法；

如各语法的置信度结果中，最高置信度小于绝对置信度，则不输出任何结果。

4.根据权利要求2所述的方法，其特征在于，所诉将最优识别结果转换为语法受限识别，包括：根据解码器的语法编译技术，将最优识别结果分别组织成语法形式，所述语法形式包括ABNF或者JSG。

5.根据权利要求3所述的方法，其特征在于，所述对各语法的置信度结果进行排序，置信度最高且大于绝对置信度的语种即判决为所获取语音所使用的语种，包括：

所述绝对置信度数值范围为0.4～1。

6.根据权利要求3所述的方法，其特征在于，所述对各语法的置信度结果进行排序，置信度最高且大于绝对置信度的语种即判决为所获取语音所使用的语种，包括：

对所述各语法的置信度中高于绝对置信度的最高置信度与次高置信度的差值与相对置信度进行比较；

7.根据权利要求6所述的方法，其特征在于，所述对各语法的置信度中高于绝对置信度的最高置信度与次高置信度的差值与设定相对置信度进行比较，包括：

所述相对置信度数值范围为0.05～0.2。

8.一种语音识别装置，其特征在于，包括：

语音获取模块，用于获取待识别的语音；

9.一种语音识别设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的一种语音识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种语音识别方法。