CN109036379B

CN109036379B - 语音识别方法、设备及存储介质

Info

Publication number: CN109036379B
Application number: CN201811038734.3A
Authority: CN
Inventors: 魏利开
Original assignee: Baidu com Times Technology Beijing Co Ltd
Current assignee: Baidu com Times Technology Beijing Co Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2021-06-11
Anticipated expiration: 2038-09-06
Also published as: CN109036379A

Abstract

本发明公开了语音识别方法、设备及存储介质，其中方法包括：第一识别设备对待识别的音频进行离线识别，得到中间态识别数据；第一识别设备将中间态识别数据发送给第二识别设备，以便第二识别设备根据中间态识别数据在线生成最终识别结果。应用本发明所述方案，能够减小网络侧的计算量，并确保识别结果的准确性等。

Description

语音识别方法、设备及存储介质

【技术领域】

本发明涉及计算机应用技术，特别涉及语音识别方法、设备及存储介质。

【背景技术】

随着科技的发展，语音识别技术的应用越来越广泛。语音识别所要解决的问题是让计算机能够“听懂”人类的语音，将语音转换成计算机可读的输入如文本。

目前，在进行语音识别时，可采用在线识别方式或离线识别方式。离线识别方式指不依赖于网络的识别方式。

其中，离线识别方式不需要依赖于网络，识别速度快，但识别结果的准确性较差。在线识别方式的识别结果的准确性虽然较高，但是严重依赖于网络，会增大网络侧的计算量等。

【发明内容】

有鉴于此，本发明提供了语音识别方法、设备及存储介质。

具体技术方案如下：

一种语音识别方法，包括：

第一识别设备对待识别的音频进行离线识别，得到中间态识别数据；

所述第一识别设备将所述中间态识别数据发送给第二识别设备，以便所述第二识别设备根据所述中间态识别数据在线生成最终识别结果。

根据本发明一优选实施例，所述中间态识别数据包括：所述音频对应的音素串；

所述第一识别设备将所述中间态识别数据发送给第二识别设备包括：

所述第一识别设备将所述音素串发送给所述第二识别设备，以便所述第二识别设备根据所述音素串在线生成所述最终识别结果。

根据本发明一优选实施例，所述中间态识别数据包括：所述音频的离线识别结果；

所述第一识别设备将所述离线识别结果发送给所述第二识别设备，以便所述第二识别设备对所述离线识别结果进行在线纠错，得到所述最终识别结果。

一种语音识别方法，包括：

第二识别设备获取来自第一识别设备的中间态识别数据，所述中间态识别数据为所述第一识别设备对待识别的音频进行离线识别得到的；

所述第二识别设备根据所述中间态识别数据在线生成最终识别结果。

所述第二识别设备根据所述中间态识别数据在线生成最终识别结果包括：所述第二识别设备根据所述音素串在线生成所述最终识别结果。

所述第二识别设备根据所述中间态识别数据在线生成最终识别结果包括：所述第二识别设备对所述离线识别结果进行在线纠错，得到所述最终识别结果。

一种语音识别设备，包括：第一识别单元以及数据发送单元；

所述第一识别单元，用于对待识别的音频进行离线识别，得到中间态识别数据；

所述数据发送单元，用于将所述中间态识别数据发送给第二识别设备，以便所述第二识别设备根据所述中间态识别数据在线生成最终识别结果。

所述数据发送单元将所述音素串发送给所述第二识别设备，以便所述第二识别设备根据所述音素串在线生成所述最终识别结果。

所述数据发送单元将所述离线识别结果发送给所述第二识别设备，以便所述第二识别设备对所述离线识别结果进行在线纠错，得到所述最终识别结果。

一种语音识别设备，包括：数据获取单元以及第二识别单元；

所述数据获取单元，用于获取来自第一识别设备的中间态识别数据，所述中间态识别数据为所述第一识别设备对待识别的音频进行离线识别得到的；

所述第二识别单元，用于根据所述中间态识别数据在线生成最终识别结果。

所述第二识别单元根据所述音素串在线生成所述最终识别结果。

所述第二识别单元对所述离线识别结果进行在线纠错，得到所述最终识别结果。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，采用本发明所述方案，可采用离线与在线相结合的语音识别方式，通过离线处理降低了对网络的依赖，减小了网络侧的计算量，并通过在线处理确保了识别结果的准确性等。

【附图说明】

图1为本发明所述语音识别方法第一实施例的流程图。

图2为本发明所述语音识别方法第二实施例的流程图。

图3为本发明所述语音识别方法第三实施例的流程图。

图4为本发明所述语音识别方法第四实施例的流程图。

图5为本发明所述语音识别方法第五实施例的流程图。

图6为本发明所述语音识别方法第六实施例的流程图。

图7为本发明所述语音识别设备第一实施例的组成结构示意图。

图8为本发明所述语音识别设备第二实施例的组成结构示意图。

图9示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案进行进一步说明。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明所述语音识别方法第一实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，第一识别设备对待识别的音频进行离线识别，得到中间态识别数据。

在102中，第一识别设备将中间态识别数据发送给第二识别设备，以便第二识别设备根据中间态识别数据在线生成最终识别结果。

中间态识别数据可以是指待识别的音频对应的音素串，也可以是指待识别的音频的离线识别结果，还可以是其它数据，如二进制的概率数据等，视实际需要而定。

以下分别以中间态识别数据为待识别的音频对应的音素串以及待识别的音频的离线识别结果为例，对本发明所述方案进行进一步说明。

图2为本发明所述语音识别方法第二实施例的流程图。如图2所示，包括以下具体实现方式。

在201中，第一识别设备对待识别的音频进行离线识别，得到对应的音素串。

在202中，第一识别设备将得到的音素串发送给第二识别设备，以便第二识别设备根据音素串在线生成最终识别结果。

在线识别方式的完整实现过程大致如下：音频—>声学模型—>音素串—>语言模型—>识别结果(即最终识别结果)。

本实施例中，“音频—>声学模型—>音素串”的过程可离线完成，而“音素串—>语言模型—>识别结果”的过程可在线完成。

第一识别设备可基于获取到的声学模型，将待识别的音频转换为对应的音素串(音素序列)。音素，是语音中的最小单位，依据音节里的发音动作来分析，一个动作构成一个音素，音素可分为元音、辅音两大类。本实施例中，声学模型可理解为是从音频到音素状态的一个描述，如何获取声学模型以及如何根据声学模型得到音素串均为现有技术。

第一识别设备对待识别的音频进行离线识别，得到音频对应的音素串后，即执行完“音频—>声学模型—>音素串”的过程后，可将得到的音素串发送给第二识别设备。

第二识别设备可在线完成“音素串—>语言模型—>识别结果”的过程，从而得到待识别的音频的最终识别结果。第二识别设备可位于云端。

语言模型的作用可理解为：根据声学模型输出的结果，给出概率最大的文字序列。

语言模型类似一个知识库，是一个包含了这个世界上过去、未来和现在所有说过的话以及可能说的话的出现概率的知识库，它根据接收到的音素串去知识库中搜索出最可能出现的那句话的文本，即最终识别结果的文本。

在线使用的语言模型非常大，如可占用几十G甚至上百G的内存，而且需要每天更新，因此可确保最终识别结果的准确性。

声学模型占据了语音识别过程中很大的一部分计算开销，因此，本实施例中对待视频的音频进行离线识别从而得到音素串，可以降低对网络侧的依赖，有效地减小了网络侧的计算量，同时通过后续的在线处理，确保了最终识别结果的准确性。

图3为本发明所述语音识别方法第三实施例的流程图。如图3所示，包括以下具体实现方式。

在301中，第一识别设备对待识别的音频进行离线识别，得到离线识别结果。

在302中，第一识别设备将离线识别结果发送给第二识别设备，以便第二识别设备对离线识别结果进行在线纠错，得到最终识别结果。

第一识别设备可按照离线识别方式对待识别的音频进行语音识别，从而得到离线识别结果。由于离线识别结果的准确性通常较差，因此，第一识别设备可将得到的离线识别结果进一步发送给第二识别设备，由第二识别设备对离线识别结果进行在线纠错，从而得到最终识别结果，即将进行在线纠错后的离线识别结果作为最终识别结果，从而确保了最终识别结果的准确性。

本实施例中可理解为存在两个语言模型，为便于表述，分别称为第一语言模型和第二语言模型，其中，第一语言模型离线使用，第二语言模型在线使用。

第一识别设备可根据声学模型和第一语言模型等对待识别的音频进行离线识别，从而得到离线识别结果。受存储空间、计算能力等的限制，相比于第二语言模型，第一语言模型要小得多，相比于第一语言模型，第二语言模型会更为全面、完善和准确等。

由于第一语言模型的上述特点，导致了第一识别设备输出的离线识别结果可能不准确，因此，需要进一步地由第二识别设备利用第二语言模型来对离线识别结果进行在线纠错，从而得到纠错后的最终识别结果。具体纠错方式不限。

以上各实施例中，主要从第一识别设备一侧来对本发明所述方案进行说明，以下从第二识别设备一侧来对本发明所述方案进行进一步说明。

图4为本发明所述语音识别方法第四实施例的流程图。如图4所示，包括以下具体实现方式。

在401中，第二识别设备获取来自第一识别设备的中间态识别数据，所述中间态识别数据为第一识别设备对待识别的音频进行离线识别得到的。

在402中，第二识别设备根据获取到的中间态识别数据在线生成最终识别结果。

图5为本发明所述语音识别方法第五实施例的流程图。如图5所示，包括以下具体实现方式。

在501中，第二识别设备获取来自第一识别设备的音素串，所述音素串为第一识别设备对待识别的音频进行离线识别得到的。

在502中，第二识别设备根据获取到的音素串在线生成最终识别结果。

如前所述，在线识别方式的完整实现过程大致如下：音频—>声学模型—>音素串—>语言模型—>识别结果。

本实施例中，“音频—>声学模型—>音素串”的过程可由第一识别设备离线完成，而“音素串—>语言模型—>识别结果”的过程可由第二识别设备在线完成。

也就是说，第一识别设备可基于获取到的声学模型，将待识别的音频转换为对应的音素串，进而可将音素串发送给第二识别设备。第二识别设备可利用获取到的语言模型，根据获取到的音素串在线生成最终识别结果。

图6为本发明所述语音识别方法第六实施例的流程图。如图6所示，包括以下具体实现方式。

在601中，第二识别设备获取来自第一识别设备的离线识别结果，所述离线识别结果为第一识别设备对待识别的音频进行离线识别得到的。

在602中，第二识别设备对获取到的离线识别结果进行在线纠错，得到最终识别结果。

第一识别设备可根据声学模型和第一语言模型等对待识别的音频进行离线识别，得到离线识别结果。受存储空间、计算能力等的限制，相比于第二语言模型，第一语言模型要小得多，相比于第一语言模型，第二语言模型会更为全面、完善和准确等。

由于第一语言模型的上述特点，导致了第一识别设备输出的离线识别结果可能不准确，因此，需要进一步地由第二识别设备利用第二语言模型来对离线识别结果进行在线纠错，从而得到纠错后的最终识别结果。

具体纠错方式不限。比如，可采用基于热词进行纠错的方式，如从统计样本中得出出现频率存在如下关系：

微信>威信；

威信力>微信力；

那么，离线识别结果和纠错后的最终识别结果可如下所示：

打开威信—>打开微信；

他的微信力不错—>他的威信力不错。

上述纠错方式仅为举例说明，并不用于限制本发明的技术方案，除上述方式外，还可以采用本领域技术人员能够想到的其它任意纠错方式。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

总之，采用上述各方法实施例所述方案，采用离线与在线相结合的语音识别方式，通过离线处理降低了对网络的依赖，减小了网络侧的计算量，并通过在线处理确保了识别结果的准确性等。

以上是关于方法实施例的介绍，以下通过设备实施例，对本发明所述方案进行进一步说明。

图7为本发明所述语音识别设备第一实施例的组成结构示意图。如图7所示，包括：第一识别单元701以及数据发送单元702。

第一识别单元701，用于对待识别的音频进行离线识别，得到中间态识别数据。

数据发送单元702，用于将中间态识别数据发送给第二识别设备，以便第二识别设备根据中间态识别数据在线生成最终识别结果。

其中，中间态识别数据可为：待识别的音频对应的音素串。

数据发送单元702可将获取到的音素串发送给第二识别设备，以便第二识别设备根据音素串在线生成最终识别结果。数据发送单元702可基于声学模型等获取到待识别的音频对应的音素串。

或者，中间态识别数据也可为：待识别的音频的离线识别结果。

数据发送单元702可将获取到的离线识别结果发送给第二识别设备，以便第二识别设备对离线识别结果进行在线纠错，从而得到最终识别结果。数据发送单元702可按照离线识别方式对待识别的音频进行语音识别，从而得到离线识别结果。

图8为本发明语音识别设备第二实施例的组成结构示意图。如图8所示，包括：数据获取单元801以及第二识别单元802。

数据获取单元801，用于获取来自第一识别设备的中间态识别数据，所述中间态识别数据为第一识别设备对待识别的音频进行离线识别得到的。

第二识别单元802，用于根据获取到的中间态识别数据在线生成最终识别结果。

其中，中间态识别数据可为：音频对应的音素串。

第二识别单元802可根据获取到的音素串在线生成最终识别结果。具体地，第二识别单元802可利用语言模型等，根据获取到的音素串在线生成最终识别结果。

或者，中间态识别数据也可为：音频的离线识别结果。

第二识别单元802可对获取到的离线识别结果进行在线纠错，从而得到最终识别结果。具体纠错方式不限。比如，可采用基于热词进行纠错的方式，如从统计样本中得出出现频率存在如下关系：

微信>威信；

威信力>微信力；

那么，离线识别结果和纠错后的最终识别结果可如下所示：

打开威信—>打开微信；

他的微信力不错—>他的威信力不错。

图7和图8所示设备实施例的具体工作流程请参照前述方法实施例中的相关说明，不再赘述。

总之，采用上述各设备实施例所述方案，采用离线与在线相结合的语音识别方式，通过离线处理降低了对网络的依赖，减小了网络侧的计算量，并通过在线处理确保了识别结果的准确性等。

图9示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图9显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器(处理单元)16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现图1、图2、图3、图4、图5或图6所示实施例中的方法。

本发明同时公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时将实现如图1、图2、图3、图4、图5或图6所示实施例中的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

第一识别设备使用声学模型对待识别的音频进行离线识别，得到中间态识别数据；

2.根据权利要求1所述的方法，其特征在于，

所述中间态识别数据包括：所述音频对应的音素串；

3.根据权利要求1所述的方法，其特征在于，

所述中间态识别数据包括：所述音频的离线识别结果；

4.一种语音识别方法，其特征在于，包括：

第二识别设备获取来自第一识别设备的中间态识别数据，所述中间态识别数据为所述第一识别设备使用声学模型对待识别的音频进行离线识别得到的；

5.根据权利要求4所述的方法，其特征在于，

所述中间态识别数据包括：所述音频对应的音素串；

6.根据权利要求4所述的方法，其特征在于，

所述中间态识别数据包括：所述音频的离线识别结果；

7.一种语音识别设备，其特征在于，包括：第一识别单元以及数据发送单元；

所述第一识别单元，用于使用声学模型对待识别的音频进行离线识别，得到中间态识别数据；

8.根据权利要求7所述的语音识别设备，其特征在于，

所述中间态识别数据包括：所述音频对应的音素串；

9.根据权利要求7所述的语音识别设备，其特征在于，

所述中间态识别数据包括：所述音频的离线识别结果；

10.一种语音识别设备，其特征在于，包括：数据获取单元以及第二识别单元；

所述数据获取单元，用于获取来自第一识别设备的中间态识别数据，所述中间态识别数据为所述第一识别设备使用声学模型对待识别的音频进行离线识别得到的；

11.根据权利要求10所述的语音识别设备，其特征在于，

所述中间态识别数据包括：所述音频对应的音素串；

12.根据权利要求10所述的语音识别设备，其特征在于，

所述中间态识别数据包括：所述音频的离线识别结果；

13.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～6中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～6中任一项所述的方法。