CN107104994B

CN107104994B - 语音识别方法、电子装置及语音识别系统

Info

Publication number: CN107104994B
Application number: CN201610094814.5A
Authority: CN
Inventors: 李彦君; 简孝坚; 陈彦华
Original assignee: Asustek Computer Inc
Current assignee: Asustek Computer Inc
Priority date: 2016-02-22
Filing date: 2016-02-22
Publication date: 2021-07-20
Anticipated expiration: 2036-02-22
Also published as: CN107104994A; US10170122B2; US20170243588A1

Abstract

本发明提供一种语音识别方法、电子装置及语音识别系统。当判定本地端装置未连线至网际网络时，将所接收的音频数据与存储在本地端装置的音频数据库中的各历史音频数据进行声纹比对，以获得对应的历史音频数据，并依据所获得的历史音频数据，自本地端装置的结果数据库取出相关联的历史文本数据。本发明能够在网络覆盖率不佳的区域通过离线分析实现语音识别。

Description

语音识别方法、电子装置及语音识别系统

技术领域

本发明是有关于一种语音识别技术，且特别是有关于一种语音识别方法、电子装置及语音识别系统。

背景技术

随着通信技术的进步，和语音识别相关的许多应用技术也逐渐成为在设计电子产品时不可或缺的项目之一，让使用者能够直接利用语音输入取代文字输入来与电子装置进行沟通。语音识别(speech recognition)目标是以电脑自动将人类的语音内容转换为相应的文字。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。

对于本地端装置使用的电子装置而言，由于本地端装置中并未建置语音识别用的数据库，因此，目前传统作法是通过网络服务，而由远端的服务器来进行语音识别。故，在网络覆盖率不佳的区域便无法离线来使用语音识别的功能。

发明内容

本发明提供一种语音识别方法、电子装置及语音识别系统。

本发明的语音识别方法，包括：自输入装置接收到音频数据之后，判断本地端装置是否连线至网际网络，其中本地端装置包括音频数据库以及结果数据库，音频数据库存储多个历史音频数据，结果数据库存储与上述音频数据相关联的多个历史文本数据；当判定本地端装置连线至网际网络时，传送音频数据至远端服务器，以执行线上分析而获得文本分析结果；以及当判定本地端装置未连线至网际网络时，执行离线分析。上述执行离线分析的步骤包括：将所接收的音频数据与存储在音频数据库中的各历史音频数据进行声纹比对，以获得对应的其中一个历史音频数据；以及依据所获得的其中一个历史音频数据，自本地端装置的结果数据库取出相关联的其中一个历史文本数据。在此，所述历史文本数据是预先经由线上分析而自远端服务器获得。

本发明的电子装置，包括：输入装置，接收音频数据；音频数据库，存储多个历史音频数据；结果数据库，存储与上述音频数据相关联的多个历史文本数据；通信单元，连线至网际网络；处理器，耦接至输入装置、音频数据库、结果数据库以及通信单元。在自输入装置接收到音频数据之后，处理器判断通信单元是否连线至网际网络。当判定通信单元连线至网际网络时，处理器通过通信单元传送音频数据至远端服务器，以执行线上分析而获得文本分析结果。当判定通信单元未连线至网际网络时，处理器执行离线分析，包括：将所接收的音频数据与存储在音频数据库中的各历史音频数据进行声纹比对，以获得对应的其中一个历史音频数据；并且依据所获得的其中一个历史音频数据，自结果数据库取出相关联的其中一个历史文本数据。在此，所述历史文本数据是预先经由线上分析而自远端服务器获得。

本发明还包括一语音识别系统，包括：本地端装置以及远端服务器。本地端装置包括：输入装置，接收音频数据；音频数据库，存储多个历史音频数据；结果数据库，存储与上述历史音频数据相关联的多个历史文本数据；第一通信单元，连线至网际网络；第一处理器，耦接至输入装置、音频数据库、结果数据库以及第一通信单元，其中，在自输入装置接收到音频数据之后，第一处理器判断第一通信单元是否连线至网际网络。远端服务器包括：第二通信单元，连线至网际网络；以及第二处理器，耦接至第二通信单元，对音频数据进行语音转文本识别。当第一处理器判定第一通信单元连线至网际网络时，第一处理器通过第一通信单元传送音频数据至远端服务器，以执行线上分析而获得文本分析结果。当第一处理器判定第一通信单元未连线至网际网络时，第一处理器执行离线分析，包括：将所接收的音频数据与存储在音频数据库中的各历史音频数据进行声纹比对，以获得对应的其中一个历史音频数据；并且依据所获得的其中一个历史音频数据，自结果数据库取出相关联的其中一个历史文本数据。在此，所述历史文本数据是预先经由线上分析而自远端服务器获得。

基于上述，在连线至网际网络的情况下，由远端服务器执行线上分析，并且持续搜集历史音频数据与历史文本数据。据此，在未连线至网际网络的情况下，本地端装置基于所搜集的历史数据来执行离线分析。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

图1是依照本发明一实施例的语音识别系统的方块图；

图2是依照本发明一实施例的语音识别方法的流程图；

图3是依照本发明一实施例的建立离线用数据库的方法流程图。

具体实施方式

一般传统的语音识别系统架构仅提供线上分析，即，通过输入装置搜集音频数据，经由网络服务进行运算后回传分析结果，因此在离线状态下便无法来执行语音识别。为此，本发明提出一种并存于连网与非连网状态下的语音识别方法、电子装置及语音识别系统。为了使本申请的内容更为明瞭，以下特举实施例作为本申请确实能够据以实施的范例。

图1是依照本发明一实施例的语音识别系统的方块图。请参照图1，语音识别系统100包括本地端装置A、远端服务器B以及网际网络C。本地端装置A通过网际网络C与远端服务器B连接。

本地端装置A可以是个人电脑、笔记本电脑、平板电脑、智能手机、导航装置、车用电子装置等具有运算能力的电子装置。本地端装置A包括第一处理器110、输入装置120、音频数据库130、结果数据库140以及第一通信单元150。第一处理器110耦接至上述输入装置120、音频数据库130、结果数据库140以及第一通信单元150。上述音频数据库130与结果数据库140可以建置在同一个存储单元内，也可以分别存储于两个独立的存储单元内。存储单元例如为非易失性存储器(non-volatile memory)、随机存取存储器(random accessmemory，ram)或硬盘等。

远端服务器B为具有运算功能的云端服务器，提供一线上分析的功能。远端服务器B包括第二处理器160以及第二通信单元170。第二处理器160用以执行语音转文本识别(Speech To Text，简称：STT)。

第一处理器110与第二处理器160例如为中央处理单元(central processingunit，简称：CPU)、可程式化的微处理器(microprocessor)、嵌入式控制晶片、数码信号处理器(digital signal processor，简称：DSP)、特殊应用集成电路(application specificintegrated circuits，简称：ASIC)或其他类似装置。第一通信单元150及第二通信单元170例如为支援有线或无线通信协定的晶片。输入装置120例如为麦克风等收音器材。

图2是依照本发明一实施例的语音识别方法的流程图。请参照图1及图2，在步骤S205中，第一处理器110自输入装置120接收音频数据。即，使用者通过输入装置120收音，并由输入装置120将音频数据传送至第一处理器110。

接着，在步骤S210中，第一处理器110判断本地端装置A是否连线至网际网络C，即，判断第一通信单元150目前是否连线至网际网络C。

当判定本地端装置A连线至网际网络C时，如步骤S215所示，本地端装置A传送音频数据至远端服务器B，以执行线上分析。具体而言，第一处理器110通过第一通信单元150传送音频数据至远端服务器B，以由远端服务器B执行线上分析，而后第一处理器110自远端服务器B获得文本分析结果，并存储文本分析结果至结果数据库140。在此，本地端装置A的结果数据库140中所存储的历史文本数据是预先经由线上分析而自远端服务器B获得。

例如，远端服务器B提供一语音识别模块。语音识别模块包括信号处理及特征提取模块、声学模型、发音词典、语言模型及解码器。信号处理及特征提取模块用以从输入信号(音频数据)中提取特征，供声学模型使用。声学模型例如采用隐藏式马可夫(HiddenMarkov Model，简称：HMM)模型进行建模。语言模型对所针对的语言进行建模。发音词典包含多个词汇集及其发音，用以提供声学模型与语言模型间的映射。解码器根据声学模型、语言模型及发音词典，寻找出音频数据对应的词串。据此，第二处理器160利用语音识别模块来执行语音转文本识别，以将音频数据转换为文字数据。

而当判定本地端装置A未连线至网际网络C时，在步骤S220中，由本地端装置A执行离线分析。离线分析包括步骤S221及S223。

在步骤S221中，第一处理器110对音频数据进行声纹比对，以取出对应的历史音频数据。即，第一处理器110将所接收的音频数据与存储在音频数据库130中的多个历史音频数据进行声纹比对，以获得对应的其中一个历史音频数据。例如，第一处理器110逐一比对音频数据与各个历史音频数据的波形，以找出最相似的历史音频数据。

之后，在步骤S223中，第一处理器110依据所获得的历史音频数据，自结果数据库140取出相关联的历史文本数据。由于音频数据库130中的每一笔历史音频数据都与结果数据库140中的其中一笔历史文本数据相关联，因此，在获得其中一历史音频数据之后，便可根据其关联性来获得对应的历史文本数据。

在一实施例中，本地端装置A会预先在连线至网际网络的情况下持续搜集历史音频数据与历史文本数据，以建立离线用数据库，底下再举一例来说明。

图3是依照本发明一实施例的建立离线用数据库的方法流程图。请同时参照图1及图3，在第一处理器110自输入装置120接收到音频数据之后，当判定本地端装置A连线至网际网络C时(图2的步骤S210的“是”)，在步骤S305中，第一处理器110传送音频数据至远端服务器B，以执行线上分析。例如，远端服务器B包括语音识别模块，第二处理器160利用语音识别模块来执行语音转文本识别。在获得文本分析结果之后，第二处理器160通过第二通信单元170将文本分析结果传送至本地端装置A。

在第一处理器110自输入装置120接收到音频数据之后，在步骤S310中，第一处理器110还可进一步将自输入装置120所接收到的音频数据存储至音频数据库130。在此，在不影响现有机制下，开通一管道同步将输入装置120所获得的音频数据另行存储至音频数据库130。另外，本实施例并不限制步骤S305及步骤S310两者的先后顺序。

而在第一处理器110传送音频数据至远端服务器B之后，在步骤S315中，第一处理器110自远端服务器B接收到文本分析结果。接着，在步骤S320中，第一处理器110存储文本分析结果至结果数据库140。在此，在不影响现有机制下，开通一管道同步将自远端服务器B所获得的文本分析结果另行存储至结果数据库140。存储至结果数据库140的文本分析结果就是历史文本数据。

在步骤S325中，第一处理器110对存储至音频数据库130中的音频数据与存储至结果数据库140的文本分析结果建立一关联。据此，在执行离线分析时，第一处理器110便能够根据音频数据库130以及结果数据库140来获得对应的历史文本数据。即，自音频数据库130中获得相似的历史音频数据之后，根据所建立的关联，自结果数据库140中来获得对应的历史文本数据。

另外，倘若第一处理器110在执行声纹比对之后无法获得相似的历史音频数据，则第一处理器110会产生一提示信息。例如，通过提示信息来通知使用者连线至网际网络C来进行线上分析等。

而在执行离线分析的情况下，第一处理器110传送自结果数据库140所取出的历史文本数据至输出装置(例如屏幕等显示器)。在执行线上分析的情况下，第一处理器110传送自远端服务器B所获得的文本分析结果至输出装置。

综上所述，在连线至网际网络C的情况下，由远端服务B器执行线上分析，并且持续搜集历史音频数据与历史文本数据来建立离线用数据库。据此，在未连线至网际网络C的情况下，本地端装置A基于音频数据库130及结果数据库140来执行离线分析。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

自输入装置接收到音频数据之后，判断本地端装置是否连线至网际网络，其中上述本地端装置包括音频数据库以及结果数据库，上述音频数据库存储多个历史音频数据，上述结果数据库存储与上述这些历史音频数据相关联的多个历史文本数据；

当判定上述本地端装置连线至上述网际网络时，传送上述音频数据至远端服务器，以执行线上分析而获得文本分析结果；以及

当判定上述本地端装置未连线至上述网际网络时，执行离线分析，而执行上述离线分析的步骤包括：

将所接收的上述音频数据、与存储在上述音频数据库中的上述这些历史音频数据进行声纹比对，以获得对应的其中一个所述历史音频数据；以及

依据所获得的其中一个所述历史音频数据，自上述本地端装置的上述结果数据库取出相关联的其中一个所述历史文本数据，其中上述这些历史文本数据是预先经由上述线上分析而自上述远端服务器获得。

2.根据权利要求1所述的语音识别方法，其特征在于，在自上述输入装置接收到上述音频数据之后，还包括：

存储自上述输入装置所接收的上述音频数据至上述音频数据库；

其中，当判定上述本地端装置连线至上述网际网络时，在自上述远端服务器接收到上述文本分析结果后，存储上述文本分析结果至上述结果数据库；以及

对存储至上述音频数据库中的上述音频数据与存储至上述结果数据库的上述文本分析结果建立关联。

3.根据权利要求1所述的语音识别方法，其特征在于，当上述远端服务器接收到上述音频数据时，对上述音频数据进行语音转文本识别，进而获得上述文本分析结果。

4.根据权利要求1所述的语音识别方法，其特征在于，还包括：

在执行上述离线分析的情况下，传送自上述结果数据库所取出的其中一个所述历史文本数据至输出装置；以及

在执行上述线上分析的情况下，传送自上述远端服务器所获得的上述文本分析结果至上述输出装置。

5.根据权利要求4所述的语音识别方法，其特征在于，上述输入装置为麦克风，上述输出装置为屏幕。

6.一种电子装置，其特征在于，包括：

输入装置，接收音频数据；

音频数据库，存储多个历史音频数据；

结果数据库，存储与上述这些历史音频数据相关联的多个历史文本数据；

通信单元，连线至网际网络；

处理器，耦接至上述输入装置、上述音频数据库、上述结果数据库以及上述通信单元，其中，在自上述输入装置接收到上述音频数据之后，上述处理器判断上述通信单元是否连线至上述网际网络；

当判定上述通信单元连线至上述网际网络时，上述处理器通过上述通信单元传送上述音频数据至远端服务器，以执行线上分析而获得文本分析结果，

当判定上述通信单元未连线至上述网际网络时，上述处理器执行离线分析，包括：将所接收的上述音频数据、与存储在上述音频数据库中的上述这些历史音频数据进行声纹比对，以获得对应的其中一个所述历史音频数据；并且依据所获得的其中一个所述历史音频数据，自上述结果数据库取出相关联的其中一个所述历史文本数据，

其中上述这些历史文本数据是预先经由上述线上分析而自上述远端服务器获得。

7.根据权利要求6所述的电子装置，其特征在于，上述处理器存储自上述输入装置所接收的上述音频数据至上述音频数据库；而当判定上述通信单元连线至上述网际网络时，且自上述远端服务器接收到上述文本分析结果后，上述处理器存储上述文本分析结果至上述结果数据库；以及上述处理器对存储至上述音频数据库中的上述音频数据与存储至上述结果数据库的上述文本分析结果建立关联。

8.根据权利要求6所述的电子装置，其特征在于，还包括：

输出装置，耦接至上述处理器；

在执行上述离线分析的情况下，上述输出装置输出自上述结果数据库所取出的其中一个所述历史文本数据，

在执行上述线上分析的情况下，上述输出装置输出自上述远端服务器所获得的上述文本分析结果。

9.根据权利要求8所述的电子装置，其特征在于，上述输入装置为麦克风，上述输出装置为屏幕。

10.一种语音识别系统，其特征在于，包括：

本地端装置，包括：

输入装置，接收音频数据；

音频数据库，存储多个历史音频数据；

第一通信单元，连线至网际网络；

第一处理器，耦接至上述输入装置、上述音频数据库、上述结果数据库以及上述第一通信单元，其中，在自上述输入装置接收到上述音频数据之后，上述第一处理器判断上述第一通信单元是否连线至上述网际网络；以及

远端服务器，包括：

第二通信单元，连线至上述网际网络；以及

第二处理器，耦接至上述第二通信单元，对上述音频数据进行语音转文本识别；

其中，当上述第一处理器判定上述第一通信单元连线至上述网际网络时，上述第一处理器通过上述第一通信单元传送上述音频数据至上述远端服务器，以执行线上分析而获得文本分析结果；

当上述第一处理器判定上述第一通信单元未连线至上述网际网络时，上述第一处理器执行离线分析，包括：将所接收的上述音频数据、与存储在上述音频数据库中的上述这些历史音频数据进行声纹比对，以获得对应的其中一个所述历史音频数据；并且依据所获得的其中一个所述历史音频数据，自上述结果数据库取出相关联的其中一个所述历史文本数据，