CN108346426B

CN108346426B - 语音识别装置以及语音识别方法

Info

Publication number: CN108346426B
Application number: CN201810101318.7A
Authority: CN
Inventors: 张国峰; 朱逸斐
Original assignee: Weisheng Electronics Shenzhen Co ltd
Current assignee: Weisheng Electronics (Shenzhen) Co.,Ltd.
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2020-12-08
Anticipated expiration: 2038-02-01
Also published as: TWI683305B; TW201935460A; CN108346426A

Abstract

本发明提出一种语音识别装置以及语音识别方法。该语音识别装置包括语音识别模块以及概率比较模块。所述语音识别模块接收语音特征。所述语音识别模块包括声学模型、语言模型以及多个声学辞典。所述语音识别模块藉由所述多个声学辞典的至少其中之一个、所述声学模型以及所述语言模型来分析所述语音特征以产生至少一个字串概率以及至少一个字串数据。所述多个声学辞典对应于多个不同口音类型。所述概率比较模块判断所述至少一个字串概率当中的最高概率，以输出对应于所述最高概率的所述至少一个字串数据的其中之一个。

Description

语音识别装置以及语音识别方法

技术领域

本发明涉及一种识别技术，且特别涉及一种语音识别装置以及语音识别方法。

背景技术

随着语音识别(speech recognition)技术的发展，有越来越多的电子装置具备有语音识别的功能。语音识别通常是对输入的语音信号取出语音特征的参数，再与数据库的样本相比对，以找出与输入相异度低的样本。但是，若使用者提供的语音具有特殊口音，则可能发生无法有效识别语音信号的问题。因此，一般的语音识别方式是针对不同口音类型而建立多组声学模型、多组语言模型以及多个声学辞典，以分别产生多个字串概率以及多个字串数据。

但是，由于不同的声学模型具有不同的音素以及概率基础，并且不同的语言模型同样具有不同的概率基础，因此一般的语音识别方式是所产生的多个字串概率实际上不具有可比性，并且准确率低。此外，一般的语音识别方式需要经由大量的分析运算，还具有语音识别的效率过低的问题。对此，如何提出一种语音识别技术可有效适应不同口音类型的使用者，以有效识别不同使用者所提供的不同口音类型的语音信号，并且可提供有效率的语音识别结果，是本领域目前重要的课题之一。

发明内容

本发明提供一种语音识别装置以及语音识别方法，可有效识别不同口音的语音信号，以依据不同的口音类型来对语音信号的语音特征进行有效的解码分析。

本发明的语音识别装置包括语音识别模块以及概率比较模块。所述语音识别模块用以接收语音特征。所述语音识别模块包括声学模型、语言模型以及多个声学辞典。所述语音识别模块藉由所述多个声学辞典的至少其中之一个、所述声学模型以及所述语言模型来分析所述语音特征以产生至少一个字串概率以及至少一个字串数据。所述多个声学辞典对应于多个不同口音类型。概率比较模块耦接所述语音识别模块。所述概率比较模块判断所述至少一个字串概率当中的最高概率，以输出对应于所述最高概率的所述至少一个字串数据的其中之一个。

在本发明的一实施例中，上述的语音识别模块藉由所述多个声学辞典产生对应于不同口音类型的多个字串概率以及多个字串数据。所述语音特征与所述多个声学辞典的其中之一个为相同口音类型，以使经由所述多个声学辞典的其中之一个产生的所述字串概率为所述最高概率。

在本发明的一实施例中，上述的语音识别装置还包括特征提取模块。所述特征提取模块耦接所述语音识别模块。所述特征提取模块用以接收语音信号。所述特征提取模块分析所述语音信号以提供所述语音特征至语音识别模块。

在本发明的一实施例中，上述的语音识别装置还包括口音识别模块。所述口音识别模块耦接所述特征提取模块以及所述语音识别模块。所述口音识别模块用以分析所述语音信号，以判断所述语音信号的口音类型，并且选择所述多个声学辞典的其中之一个来分析所述语音特征。

在本发明的一实施例中，上述的所述口音识别模块依据所述语音信号的所述口音类型来选择性地输出所述语音特征至对应于所述口音类型的所述多个声学辞典的其中之一个，以藉由对应于所述口音类型的所述多个声学辞典的其中之一个、所述声学模型以及所述语言模型来分析所述语音特征，并且输出一个所述字串数据。

本发明的语音识别方法包括以下步骤：接收语音特征，并且藉由多个声学辞典的至少其中之一个、声学模型以及语言模型来分析所述语音特征以产生至少一个字串概率以及至少一个字串数据，其中所述多个声学辞典对应于多个不同口音类型；以及判断所述至少一个字串概率当中的最高概率，以输出对应于所述最高概率的所述至少一个字串数据的其中之一个。

在本发明的一实施例中，上述的多个声学辞典产生对应于不同口音类型的多个字串概率以及多个字串数据，并且所述语音特征与所述多个声学辞典的其中之一个为相同口音类型，以使经由所述多个声学辞典的其中之一个产生的所述字串概率为所述最高概率。

在本发明的一实施例中，上述的语音识别方法还包括以下步骤：接收语音信号，并且分析所述语音信号以取得所述语音特征。

在本发明的一实施例中，上述的语音识别方法还包括以下步骤：分析所述语音信号，以判断所述语音信号的口音类型，并且选择所述多个声学辞典的其中之一个来分析所述语音特征。

在本发明的一实施例中，上述的语音识别方法还包括以下步骤：依据所述语音信号的所述口音类型来选择性地输出所述语音特征至对应于所述口音类型的所述多个声学辞典的其中之一个，以藉由对应于所述口音类型的所述多个声学辞典的其中之一个、所述声学模型以及所述语言模型来分析所述语音特征；以及输出一个所述字串数据。

基于上述，本发明的语音识别装置以及语音识别方法，可藉由对应于多个不同口音类型的多个声学辞典来分析语音特征，以使语音识别模块输出的字串概率具有可比性。并且，本发明的语音识别装置以及语音识别方法还可藉由口音识别模块来判断语音信息的口音类型，以选择相同口音类型的声学辞典来产生语音识别结果。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

图1绘示本发明一实施例的一种语音识别装置的示意图。

图2绘示本发明一实施例的一种语音识别方法的流程图。

图3绘示本发明一实施例的一种语音识别装置的示意图。

图4绘示本发明一实施例的另一种语音识别装置的示意图。

图5绘示本发明一实施例的另一种语音识别方法的流程图。

【符号说明】

100：语音识别装置

110：处理装置

120：输入装置

130：存储装置

140：输出装置

330、430：语音识别模块

331、431：声学模型

332A、332B、332C、432A、432B、432C：声学辞典

333、433：语言模型

334A、334B、334C、434A、434B、434C：解码器

340：概率比较模块

410：特征提取模块

420：口音识别模块

440：概率比较模块

S210、S220、S510、S520、S530、S540：步骤

VC、VC’：语音特征

SD、SD’：字串数据

具体实施方式

为了使本发明的内容可以被更容易明了，以下特举实施例做为本发明确实能够据以实施的范例。另外，凡可能之处，在附图及实施方式中使用相同标号的元件/构件/步骤，代表相同或类似部件。

图1绘示本发明一实施例的一种语音识别装置的示意图。参考图1，语音识别装置100包括处理装置110、输入装置120、存储装置130以及输出装置140。处理装置110耦接输入装置120、存储装置130以及输出装置140。语音识别装置100例如为手机、智能手机、个人数字助理(Personal Digital Assistant，PDA)、平板计算机、笔记型计算机、桌上型计算机、车用计算机等具有运算功能的装置。

在本实施例中，处理装置110例如是中央处理单元(Central Processing Unit，CPU)，或是其他可编程的一般用途或特殊用途的微处理器(microprocessor)、数字信号处理器(Digital Signal Processor，DSP)、可编程控制器、特殊应用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、可编程逻辑装置(Programmable Logic Device，PLD)、其他类似处理电路或这些装置的组合。

在本实施例中，输入装置120用以接收语音信号。输入装置120可例如是麦克风。输入装置120用以接收使用者所发出的模拟语音信号，并将模拟语音信号转换为数字语音信号后，传送至处理装置110。

在本实施例中，存储装置130可例如是电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、内嵌式多媒体存储卡(Embedded Multi Media Card，eMMC)、动态随机存取存储器(Dynamic Random AccessMemory，DRAM)、快闪存储器(Flash memory)或非易失性随机存取存储器(Non-VolatileRandom Access Memory，NVRAM)等。

在本实施例中，输出装置140例如为阴极射线管(Cathode Ray Tube，CRT)显示器、液晶显示器(Liquid Crystal Display，LCD)、等离子显示器(Plasma Display)、触控显示器(Touch Display)等显示设备。输出装置140可用以显示所产生的字串概率当中的最大概率所对应的字串数据。在一实施例中，输出装置140也可以是扬声器，并且用以播放所产生的字串概率当中的最大概率所对应的字串数据。或者，在另一实施例中，输出装置140也可将产生的字串概率当中的最大概率所对应的字串数据提供至特定的应用程序中，以使特定的应用程序可对应执行特定功能或操作。

在本实施例中，存储装置130可用以存储多个模块供处理装置110读取并执行之，以实现本发明各实施例所述的语音识别操作。具体而言，存储装置130存储的这些模块可例如包括特征提取模块、口音识别模块、语音识别模块或概率比较模块等，诸如此类的分析以及运算模块。在本实施例中，语音识别装置100可藉由输入装置120取得语音信息，并且藉由存储装置130的这些模块来分析语音信息以产生对应的分析结果。也就是说，本实施例的语音识别装置100可具有语音识别功能。

图2绘示本发明一实施例的一种语音识别方法的流程图。图3绘示本发明一实施例的一种语音识别装置的示意图。同时参考图1至图3，在本实施例中，处理装置110可执行存储在存储装置130当中的语音识别模块330以及概率比较模块340。语音识别模块330包括一个声学模型331、多个声学辞典332A、332B、332C、一个语言模型333以及多个解码器334A、334B、334C。

搭配图2的流程图来说明一种可行的实施方式，在步骤S210中，语音识别模块330接收语音特征VC，并且藉由这些声学辞典332A、332B、332C的至少中之一个、声学模型331以及语言模型333以产生至少一个字串概率以及至少一个字串数据。在步骤S220中，概率比较模块340判断至少一个字串概率当中的最高概率，以输出具有最高概率的字串数据SD。

具体而言，在本实施例中，这些声学辞典332A、332B、332C对应于多个不同的口音类型，其中这些口音类型例如是北京地区口音、上海地区口音、广州地区口音或福建地区口音等。在本实施例中，语音识别模块330用以接收语音特征VC，并且对应产生多个字串概率以及多个字串数据至概率比较模块340。概率比较模块340比较这些字串概率，以判断这些字串概率当中的最高概率，并且输出对应于这些字串概率当中的最高概率的字串数据SD至输出装置140。

在本实施例中，这些解码器334A、334B、334C用以基于声学模型331、声学辞典332A、332B、332C以及语言模型333来分别产生较为适当或具有最大概率的字串数据与字串概率。值得注意的是，为了使语音识别模块330产生的字串概率具有可比性，本实施例的语音识别模块330仅通过一个声学模型331以及一个语言模型333来分析语音特征VC。在本实施例中，声学模型331是经由语音数据库训练而得，例如是采用隐藏式马可夫模型(HiddenMarkov Model，HMM)进行建模。语言模型333经由语料库(text corpus)训练而得，例如利用机率统计的方法来揭示语言单位内在的统计规律。并且，本实施例的语音识别模块330针对多个不同口音类型来建立这些声学辞典332A、332B、332C，其中这些声学辞典332A、332B、332C亦是经由语音数据库训练而得，但分别对应于不同口音类型。这些声学辞典332A、332B、332C分别用以处理不同口音类型的词汇以及发音。

也就是说，本实施例的处理装置110可藉由执行一个声学模型331分析语音特征VC，以取得对应的音素(phone)或音节(syllable)，并且再经由这些声学辞典332A、332B、332C的至少中之一来获得对应的字或词，最后经由一个语言模型333来判断一连串的字成为句子的概率。值得注意的是，本实施例的声学模型331与语言模型333都是属于概率模型，而由于本实施例的语音识别模块330只建立单一声学模型331与单一语言模型333，因此由对应于不同口音类型的这些声学辞典332A、332B、332C所提供的字或词而对应产生的多个字串概率具有可比性。

举例而言，声学辞典332A例如针对广州地区而建立，因此可例如记录有“bei jin(北京)”、“ci fan(吃饭)”以及“re qi(热气)”的声学数据。声学辞典332B例如针对北京地区而建立，因此可例如记录有“bei jing(北京)”、“chi fan(吃饭)”以及“re qi(热气)”的声学数据。声学辞典332C例如针对福建地区而建立，因此可例如记录有“bei jin(北京)”、“ci fan(吃饭)”以及“le qi(热气)”的声学数据。也就是说，由于这些声学辞典332A、332B、332C分别针对不同的口音类型而建立，因此只要语音特征VC与这些声学辞典的其中之一个为相同口音类型，则经由声学模型331、语言模型333以及对应相同口音类型的这些声学辞典332A、332B、332C的其中之一个所产生的字串概率将为最高概率。

然而，须注意的是，本发明的声学辞典的数量以及类型不限于图3所示，图3的示意图仅用于说明一种可行的语音识别模块的范例实施例。

图4绘示本发明一实施例的另一种语音识别装置的示意图。图5绘示本发明一实施例的另一种语音识别方法的流程图。同时参考图1、图4以及图5，在本实施例中，处理装置110可执行存储在存储装置130当中的特征提取模块410、口音识别模块420、语音识别模块430以及概率比较模块440。相较于图2以及图3实施例，本实施例的处理装置110可更进一步包括执行特征提取模块410以及口音识别模块420。在本实施例中，特征提取模块410用以接收输入装置120提供的语音信号，并且分析语音信号以取得语音特征VC’。口音识别模块420用以分析语音信号以判断语音信号是属于何种口音类型，并且依据判断结果来将语音特征VC’选择由对应的声学辞典来进行运算以及处理。

在本实施例中，类似于图2以及图3实施例，语音识别模块430可包括一个声学模型431、多个声学辞典432A、432B、432C、一个语言模型433以及多个解码器434A、434B、434C。在本实施例中，这些声学辞典432A、432B、432C对应于多个不同的口音类型。在本实施例中，这些解码器434A、434B、434C用以基于声学模型431、声学辞典432A、432B、432C以及语言模型433来产生较为适当或具有最大概率的字串数据与字串概率。

在本实施例中，口音识别模块420例如是通过滤波器组(Filter Bank)或梅尔倒频谱系数(Mel-Frequency Cipstal Coefficients，MFCC)，以经由高斯混合模型(GaussianMixture Model，GMM)或深度神经网络(Deep Neural Networks，DNN)来进行分析以及运算而识别使用者提供的语音信号所属的口音类型。因此，本实施例的语音识别模块430可依据口音识别模块420的识别结果来对应选择这些声学辞典432A、432B、432C的其中一个来进行分析以及运算。

也就是说，在本实施例中，若口音识别模块420可识别出语音信号的口音类型可对应于这些声学辞典432A、432B、432C的其中之一个，则语音识别模块430接收语音特征VC’后，可依据口音识别模块420的识别结果，来经由这些声学辞典432A、432B、432C的其中一个对应于语音信号的口音类型来进行分析以及运算，以取得一个字串数据SD’。概率比较模块440可直接输出此字串数据SD’至输出装置140。

然而，在一实施例中，若口音识别模块420无法识别出语音信号的口音类型可对应于这些声学辞典432A、432B、432C的其中之一个，则表示可能这些声学辞典432A、432B、432C无对应相同口音类型。因此，在一实施例中，语音识别模块430可执行如同上述图2、图3实施例的语音识别操作，以产生多组字串数据以及多组字串概率。概率比较模块440用以比较这些字串概率，以选择最接近的口音类型且具有最高概率的字串数据至输出装置140。

举例而言，若使用者通过输入装置120输入为北京地区口音的语音信号“bei jing(北京)”，则经由口音识别模块420后，语音识别模块430选择声学辞典432B来处理语音特征VC’。在此例中，语音识别模块430通过声学模型431、声学辞典432B以及语言模型433来分析语音特征VC’，以使解码器334B产生一个字串数据至概率比较模块440。概率比较模块440无须经由概率比较，而直接输出由语音识别模块430提供的一个字串数据。也就是说，本实施例的语音识别模块430无须经由全部的声学辞典432A、432B、432C来执行分析以及运算，而可有效率的提供语音识别结果。

搭配图5的流程图来说明一种可行的实施方式，在步骤S510中，特征提取模块410接收语音信号，并且分析语音信号以取得语音特征VC’。在步骤S520中，口音识别模块420分析语音信号，以判断语音信号的口音类型，并且选择这些声学辞典432A、432B、432C的其中之一个来分析语音特征VC’。在步骤S530中，语音识别模块430依据语音信号的口音类型来选择性地输出语音特征VC’至对应于口音类型的这些声学辞典432A、432B、432C的其中之一个，以藉由对应于口音类型的这些声学辞典432A、432B、432C的其中之一个、声学模型431以及语言模型433来分析语音特征。在步骤S540中，概率比较模块440输出由语音识别模块430的分析结果所提供的一个字串数据SD’。

另外，关于本实施例的语音识别模块430当中的各个模型的详细实施细节以及技术方案，可参考上述图2以及图3实施例而获致足够的教示、建议以及实施说明，因此不再赘述。

综上所述，本发明的语音识别装置以及语音识别方法，可适用于多种不同口音类型的语音信号分析，其中语音识别装置可通过执行在语音识别模块当中建立一个声学模型、一个语言模型以及多个对应于不同口音类型的多个声学辞典来分析语音特征，因此本发明的语音识别模块产生的多个字串概率以及字串数据可具有可比性。并且，本发明的语音识别装置以及语音识别方法还可进一步利用口音识别模块来判断使用者提供的语音信号为何种口音类型，以直接通过对应口音类型的声学辞典来分析语音特征，因此本发明的语音识别模块可更有效率的提供语音识别结果。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域技术人员在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视所附权利要求书界定范围为准。

Claims

1.一种语音识别装置，包括：

语音识别模块，用以接收语音特征，并且所述语音识别模块包括声学模型、语言模型以及多个声学辞典，其中所述语音识别模块藉由所述多个声学辞典的至少其中之一个、所述声学模型以及所述语言模型来分析所述语音特征以产生至少一个字串概率以及至少一个字串数据，其中所述多个声学辞典对应于多个不同口音类型；

概率比较模块，耦接所述语音识别模块，并且所述概率比较模块判断所述至少一个字串概率当中的最高概率，以输出对应于所述最高概率的所述至少一个字串数据的其中之一个；以及

口音识别模块，耦接所述语音识别模块，并且所述口音识别模块用以分析所述语音特征，以判断所述语音特征的口音类型，并且根据所述口音类型选择对应于所述口音类型的所述多个声学辞典的其中之一个来分析所述语音特征。

2.如权利要求1所述的语音识别装置，其中所述语音识别模块藉由所述多个声学辞典产生对应于不同口音类型的多个字串概率以及多个字串数据，

其中所述语音特征与所述多个声学辞典的其中之一个为相同口音类型，以使经由所述多个声学辞典的其中之一个产生的所述字串概率为所述最高概率。

3.如权利要求1所述的语音识别装置，还包括：

特征提取模块，耦接所述口音识别模块，用以接收语音信号，并且所述特征提取模块分析所述语音信号以提供所述语音特征至口音识别模块。

4.如权利要求3所述的语音识别装置，其中所述口音识别模块依据所述语音信号的所述口音类型来选择性地输出所述语音特征至对应于所述口音类型的所述多个声学辞典的其中之一个，以藉由对应于所述口音类型的所述多个声学辞典的其中之一个、所述声学模型以及所述语言模型来分析所述语音特征，并且输出一个所述字串数据。

5.一种语音识别方法，包括：

接收语音特征，并且藉由多个声学辞典的至少其中之一个、声学模型以及语言模型来分析所述语音特征以产生至少一个字串概率以及至少一个字串数据，其中所述多个声学辞典对应于多个不同口音类型；

判断所述至少一个字串概率当中的最高概率，以输出对应于所述最高概率的所述至少一个字串数据的其中之一个；以及

分析所述语音特征，以判断所述语音特征的口音类型，并且根据所述口音类型选择对应于所述口音类型的所述多个声学辞典的其中之一个来分析所述语音特征。

6.如权利要求5所述的语音识别方法，其中所述多个声学辞典产生对应于不同口音类型的多个字串概率以及多个字串数据，并且所述语音特征与所述多个声学辞典的其中之一个为相同口音类型，以使经由所述多个声学辞典的其中之一个产生的所述字串概率为所述最高概率。

7.如权利要求5所述的语音识别方法，还包括：

接收语音信号，并且分析所述语音信号以取得所述语音特征。

8.如权利要求7所述的语音识别方法，还包括：

依据所述语音信号的所述口音类型来选择性地输出所述语音特征至对应于所述口音类型的所述多个声学辞典的其中之一个，以藉由对应于所述口音类型的所述多个声学辞典的其中之一个、所述声学模型以及所述语言模型来分析所述语音特征；以及

输出一个所述字串数据。