CN103578467B

CN103578467B - 声学模型的建立方法、语音辨识方法及其电子装置

Info

Publication number: CN103578467B
Application number: CN201310489133.5A
Authority: CN
Inventors: 张国峰; 朱逸斐
Original assignee: Via Technologies Inc
Current assignee: Weisheng Electronics (Shanghai) Co.,Ltd.
Priority date: 2013-10-18
Filing date: 2013-10-18
Publication date: 2017-01-18
Anticipated expiration: 2033-10-18
Also published as: US20150112674A1; CN103578467A; TW201517015A; TWI560697B

Abstract

一种声学模型的建立方法、语音辨识方法及其电子装置。在语音辨识方法中，根据声学模型获得语音信号的多个音标。根据各音标以及音节声学词典，获得符合音标的多个词汇，其中音节声学词典具有音标对应的词汇，且具有至少一音标的词汇具有对应于各音标的编码。依据各词汇的编码，自语言模型中获得多个字串及多个字串概率。选择字串概率中最大者所对应的字串，以作为语音信号的辨识结果。本发明可显著提高语音辨识的准确率。

Description

声学模型的建立方法、语音辨识方法及其电子装置

技术领域

本发明有关于一种语音辨识技术，且特别是有关于一种可用于识别不同语言、方言或发音习惯所发出的语音的声学模型的建立方法、语音辨识方法及其电子装置。

背景技术

语音辨识（speech recognition）毫无疑问的是一种热门的研究与商业课题。语音辨识通常是对输入的语音取出特征参数，再与数据库的样本相比对，找出与输入的语音相异度低的样本并取出。

目前常见做法大都是先采集语音语料（如录下来的人的语音），然后由人工进行标注（即，对每一句语音标注上对应的文字），然后使用这些语料来训练声学模型（acousticmodel）和声学词典（acoustic lexicon）。其中，在训练声学模型和声学词典时，利用对应于多个词汇的多个语音语料以及这些词汇于字典中标注的多个音标来进行训练，借以获得声学模型和声学词典中与上述音标相对应的多个语音语料的数据。

然而，目前作法存在如下问题。问题1：由于声学模型中用以训练的词汇的音标，是来自于字典上所标注的音标，因此倘若用户的非标准发音（如翘舌音不分、前后鼻音不分等）进入声学模型，则这些发音会有很高的机率无法符合字典上所标注的音标，因而造成声学模型的模糊性变大。如拼音“in”在声学模型中会给出比较大的概率为“ing”，而向不标准发音妥协，会导致整体错误率的升高。问题2：由于不同地区的发音习惯不同，非标准发音有多种变形，导致声学模型的模糊性变得更大，因而使得识别准确率的进一步降低。问题3：无法识别方言，如标准汉语、沪语、粤语、闽南语等。问题4：无法识别容易读错的字，如一丘之貉（hé），很多人会把它念成（hè）。

发明内容

本发明提供一种声学模型的建立方法、语音辨识方法及其电子装置，其可准确地辨识来自不同语言、方言或不同发音习惯的语音信号所对应的语言。

本发明提出一种声学模型的建立方法，用于电子装置。该声学模型的建立方法包括以下步骤；接收多个语音信号；接收与语音信号中发音相符合的多个音标；以及，依据语音信号与音标进行训练，而获得声学模型中与音标相对应的多个音素的数据。

本发明另提出一种语音辨识方法，用于电子装置。该语音辨识方法包括以下步骤：根据声学模型获得语音信号的多个音标，其中音标包括多个音素；依据各音标以及音节声学词典，获得符合音标的多个词汇，并获得音标与各词汇相匹配的模糊音概率；以及，选择模糊音概率中最大者所对应的词汇，以作为语音信号所匹配的词汇。

本发明另提出一种语音辨识方法，用于电子装置。该语音辨识方法包括以下步骤：根据声学模型获得语音信号的多个音标，其中音标包括多个音素；根据各音标以及音节声学词典，获得符合音标的多个词汇，其中音节声学词典具有这些音标对应的词汇，且具有至少一音标的词汇具有对应于各音标的各编码；依据各词汇的编码，自语言模型中获得多个字串及多个字串概率；以及，选择模糊音概率与字串概率的联合概率中最大者所对应的字串，以作为语音信号的辨识结果。

本发明另提出一种电子装置，其包括输入单元、储存单元以及处理单元。输入单元多个接收语音信号。储存单元储存多个程序码片段。处理单元耦接至输入单元以及储存单元，其中处理单元通过程序码片段来执行多个指令。所述指令包括：接收与语音信号中发音相符合的多个音标，以及依据语音信号与音标进行训练，而获得声学模型中与音标相对应的多个音素的数据。

本发明另提出一种电子装置，其包括输入单元、储存单元以及处理单元。输入单元接收语音信号。储存单元储存多个程序码片段。处理单元耦接至输入单元以及储存单元，其中处理单元通过程序码片段来执行多个指令。所述指令包括：根据声学模型获得语音信号的多个音标，其中音标包括多个音素。依据各音标以及音节声学词典，获得符合音标的多个词汇，并获得音标与各词汇相匹配的模糊音概率。选择模糊音概率中最大者所对应的词汇，以作为语音信号所匹配的词汇。

本发明另提出一种电子装置，其包括输入单元、储存单元以及处理单元。输入单元接收语音信号。储存单元储存多个程序码片段。处理单元耦接至输入单元以及储存单元，其中处理单元通过程序码片段来执行多个指令。所述指令包括：根据声学模型获得语音信号的多个音标，其中音标包括多个音素。根据各音标以及音节声学词典，获得符合音标的多个词汇，其中音节声学词典具有这些音标对应的词汇，且具有至少一音标的词汇具有对应于各音标的各编码。依据各词汇的编码，自语言模型中获得多个字串及多个字串概率。选择模糊音概率与字串概率的联合概率中最大者所对应的字串，以作为语音信号的辨识结果。

基于上述，本发明会对于不同的语言、方言或发音习惯的语音输入，建立不同的声学模型、音节声学词典和语音模型。并且，本发明的语音辨识方法可依据来自不同语言、方言或发音习惯的语音信号，在声学模型、音节声学词典和语言模型中进行解码。其中，解码结果不仅可依序到音标和音标所对应的词汇输出，同时也能得到这个音标在不同语言、方言或发音习惯的情况下与词汇相匹配的模糊音概率，以及此词汇套用在不同字串中的字串概率，据以选出概率最大的输出作为语音信号的辨识结果。如此一来，本发明可提高语音辨识的准确率。

附图说明

图1是依照本发明一实施例的电子装置的方块图。

图2是依照本发明一实施例的语音辨识模组的示意图。

图3是依照本发明一实施例所绘示的语音辨识方法的流程图。

图4是依照本发明一实施例的电子装置的方块图。

图5是依照本发明一实施例的语音辨识模组的示意图。

图6是依照本发明一实施例所绘示的语音辨识方法的流程图。

附图中符号的简单说明如下：

100、400：电子装置

110、410：处理单元

120、420：储存单元

130、430：输入单元

140、440：输出单元

21、51：语音数据库

22、52：语料库

210、510：声学模型

220、520：音节声学词典

230、530：语言模型

240、540：解码器

S1、S2：语音信号

S310、S320、S330、S340、S350、S610、S620、S630、S640、S650：步骤。

具体实施方式

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图式作详细说明如下。

在传统语音辨识方法中，普遍存在以下问题，即，由于在不同地区的方言中的拼音匹配、使用者发音习惯的不同、或是不同的语言，会导致辨识率的精准度受到影响。并且，现有技术中的语音辨识一般是以文字输出，因而丢失了很多语音信息，例如随音调而异的语义表达。为此，本发明提出一种语音辨识方法及其电子装置，可在原有语音识别的基础上，改进辨识率的精准度。为了使本发明的内容更为明了，以下特举实施例作为本发明确实能够据以实施的范例。

图1是依照本发明一实施例的电子装置的方块图。请参照图1，电子装置100包括处理单元110、储存单元120、输入单元130，也可包括输出单元140。

电子装置100例如是移动电话（Cell phone）、个人数字助理（Personal DigitalAssistant，PDA）、手机、智能手机（Smart phone）、掌上型电脑（Pocket PC）、平板型电脑（Tablet PC）、笔记型电脑、个人电脑，车载电脑等具有运算功能的装置，在此并不限制其范围。

处理单元110耦接至储存单元120及输入单元130。处理单元110为具备运算能力的硬件（例如芯片组、处理器等），用以执行电子装置100中的硬件、固件以及处理软件中的数据。在本实施例中，处理单元110例如是中央处理单元（Central Processing Unit，CPU），或是其它可编程的微处理器（Microprocessor）、数字信号处理器（Digital SignalProcessor，DSP）、可编程控制器、特殊应用集成电路（Application Specific IntegratedCircuits，ASIC）、可编程逻辑装置（Programmable Logic Device，PLD）或其它类似装置。

储存单元120可储存一个或多个用来执行语音辨识方法的程序码以及数据（例如，使用者所输入的语音信号、执行语音辨识所需的声学模型（acoustic model）、音节声学词典（acoustic lexicon）、语言模型（language model）及语料库等）等。在本实施例中，储存单元120例如为非易失性存储器（Non-volatile memory，NVM）、动态随机存取存储器（Dynamic Random Access Memory，DRAM）或静态随机存取存储器（Static Random AccessMemory，SRAM）等。

输入单元130例如为麦克风，用以接收使用者的声音，而将使用者的声音转换为语音信号。

在此，本实施例可以以程序码来实现电子装置100的语音辨识方法。具体而言，储存单元120中可储存有多个程序码片段，而上述程序码片段在被安装后，处理单元110会通过这些程序码片段来执行多个指令，借以实现本实施例的语音辨识方法。更进一步地说，处理单元110会通过执行程序码片段中的多个指令，来建立声学模型、音节声学词典以及语言模型，并通过上述程序码片段来驱动语音辨识模组，以利用声学模型、音节声学词典以及语言模型来执行本实施例的语音辨识方法。其中，所述语音辨识模组可以是以计算机程序码来运行，或者在本发明另一实施例中，所述语音辨识模组可由一个或多个逻辑门组合而成的硬件电路来运行。据此，本实施例的处理单元110会将输入单元130所接收的语音信号通过上述语音辨识模组来进行语音辨识，以利用声学模型、音节声学词典以及语言模型而获得多个音节序列概率及多个音节序列。并且，处理单元110会选出音节序列概率中最大者所对应的音节序列或文字序列，以作为语音信号的辨识结果。

另外，本实施例还可包括输出单元140，用以输出语音信号的辨识结果。输出单元140例如为阴极射线管（Cathode Ray Tube，CRT）显示器、液晶显示器（Liquid CrystalDisplay，LCD）、等离子显示器（Plasma Display）、触控显示器（Touch Display）等显示单元，以显示所获得的拼音序列概率中最大者所对应的拼音序列或此拼音序列所对应的字串。或者，输出单元140亦可以是扬声器，以通过语音方式来播放所述拼音序列。

以下举一实施例来说明。

图2是依照本发明一实施例的语音辨识模组的示意图。请参照图2，语音辨识模组200主要包括声学模型210、音节声学词典220、语言模型230以及解码器240。声学模型210与音节声学词典220是由语音数据库21经训练而获得，语言模型230是由语料库（textcorpus）22经训练而获得。其中，语音数据库21以及语料库22具有多个语音信号，而这些语音信号例如是来自不同语言、方言或发音习惯的语音输入，且语料库22还具有这些语音信号所对应的拼音。在本实施例中，处理单元110可针对不同的语言、方言或发音习惯进行语音辨识的训练，而分别建立声学模型210、音节声学词典220、语言模型230，并将这些模型与词典存放于储存单元120，以用于本实施例的语音辨识方法中。

请同时参照图1与图2，声学模型210用以辨识来自不同语言、方言或发音习惯的语音信号，以识别出与语音信号的发音相符合的多个音标。详细而言，声学模型210例如是一个统计分类器，其可利用混合高斯模型，以将所接收到的语音信号，解析成基本的音素（Phone），并将各音素分类至对应的基本音标。其中，声学模型210可包括用来识别不同语言、方言或发音习惯的语音输入所对应的基本音标、音间过渡以及一些非语音的音素（例如咳嗽声等）。在本实施例中，处理单元110会基于不同语言、方言或不同发音习惯的语音信号，经由训练而获得声学模型210。详言之，处理单元110可自语音数据库21接收多个语音信号，以及接收与语音信号中发音相符合的多个音标，其中对应于各音标的发音具有多个音素。并且，处理单元110会依据语音信号与音标进行训练，而获得声学模型210中与音标相对应的多个音素的数据。更具体而言，处理单元110可从语音数据库21中取得不同语言、方言或发音习惯的语音输入所对应的语音信号，解析出各语音信号的音素以获得对应于各语音信号的特征参数。之后，再利用这些特征参数与已标注对应音标的语音信号进行训练，而获得语音信号的特征参数与音标相符合的关系，进而建立声学模型210。

处理单元110可通过音节声学词典220，以将声学模型210所输出的多个音标映射成对应的音节。其中，音节声学词典220具有多个音标序列以及各音标序列所映射的音节。需说明的是，每一个音节都有一个音调，其中音调例如是指阴、阳、上、去及轻声等，而对于方言来说，音标亦可包括其它音调。为了保留使用者所发出的发音及音调，处理单元110会根据声学模型210所输出的多个音标，将这些音标映射成对应的带音调的音节。

具体来说，处理单元110可通过音节声学词典220，而将多个音标转换成音节。进一步而言，根据声学模型210所输出的音标，处理单元110会自音节声学词典220输出带音调的音节，计算出与声学模型210所输出的音标匹配的多个音节序列概率，再从这些音节序列概率中选取最大者所对应的音节序列，来作为这些音标对应的拼音。举例来说，假设声学模型210所输出的音标为“b”以及“a”，则处理单元110可通过音节声学词典220而获得拼音及其音调为ba(上声)。

语言模型230用以依据不同词汇的拼音以及此拼音对应的音调信息，来辨识出与此拼音相符合的拼音序列，并获得此拼音与此拼音序列相符合的拼音序列概率，其中拼音序列例如表示相关词汇的拼音。详细而言，语言模型230是基于历史信息的模型（History-based Model）的设计理念，即，根据经验法则，统计先前已出现的一连串事件与下一个出现的事件之间的关系。例如，语言模型230可利用机率统计的方法来揭示语言单位内在的统计规律，其中N元语法（N-Gram）简单有效而被广泛使用。在本实施例中，处理单元110会基于不同语言、方言或不同发音习惯的多个语料，经由训练而获得语言模型230，其中所述语料具有多个发音的语音输入以及此语音输入对应的拼音序列。在此，处理单元110会自语料库22获得拼音序列，并且将拼音序列与其对应的音调进行训练，而获得不同音调的拼音与各拼音序列匹配的数据，例如各拼音与音调信息匹配于各拼音序列的拼音序列概率。

解码器240是语音辨识模组200的核心之一，其任务是对输入的语音信号，根据声学模型210、音节声学词典220以及语言模型230，寻找能够以最大概率输出的拼音序列。举例来说，利用声学模型210获得对应的音标（phonetic transcription），再由音节声学词典220来获得对应的拼音（phonetic spelling），之后由语言模型230来判断出一连串的拼音序列成为语音信号所欲表达的语义的概率。

以下即搭配上述电子装置100与语音辨识模组200来说明本发明的语音辨识方法。图3是依照本发明一实施例所绘示的语音辨识方法的流程图。请同时参照图1、图2与图3，本实施例中的语音辨识方法，适于通过电子装置100来对语音信号进行语音辨识。其中，处理单元110能针对不同的语言、方言或发音习惯，利用声学模型210、音节声学词典220、语言模型230以及解码器240以自动地辨识出语音信号所对应的语义。

于步骤S310中，输入单元130接收语音信号S1，其中语音信号S1例如是来自使用者的语音输入。更具体而言，语音信号S1例如为单音节语言的语音输入，而单音节语言例如为中文。

于步骤S320中，处理单元110会根据声学模型210获得语音信号S1的多个音标，其中音标包括多个音素。在此，对于单音节语言来说，语音信号S1中具有多个音素，而用来表示这些音素的发音的符号为所谓的音标，亦即每个音标代表一个音素。举例来说，对于“福”这个字而言，其依据不同语言或方言会具有不同的发音。例如，以国语来说，“福”的音标例如是“fú”，而以潮汕话来说，“福”的音标例如是“hog4”。又例如，对于“人”这个字而言，以国语来说，“人”的音标例如是“rén”。以粤语来说，“人”的音标例如是“jan4”。以闽南语来说，“人”的音标例如是“lang2”。以广韵来说，“人”的音标例如是“nin”。换言之，处理单元110从声学模型210所获得的各音标是直接映射到语音信号S1的发音。

为了提高语音信号S1的发音映射至音标时的准确度，本实施例的处理单元110可根据预先设定，从声学模型210中选择训练数据，而此训练数据来自于不同语言、方言或不同发音习惯的训练结果。借此，处理单元110可利用声学模型210，并选择训练数据中的语音信号以及这些语音信号所对应的基本音标，来查询出符合语音信号S1的多个音标。

详言之，上述预先设定指的是电子装置100被设定为依据哪一种发音来进行语音辨识。举例来说，假设电子装置100被设定为依据北方人的发音习惯来进行语音辨识，则处理单元110会在声学模型210中，选择由北方人的发音习惯所训练而成的训练数据。类似地，假设电子装置100被设定为进行闽南语的语音辨识，则处理单元110会在声学模型210中选择由闽南语所训练而成的训练数据。上述所列举的预先设定为举例说明，于其它实施例中，电子装置100亦可被设定为依据其它语言、方言或发音习惯来进行语音辨识。

进一步而言，处理单元110会根据所选择的声学模型210以及语音信号S1中的音素，计算语音信号S1中的音素与每一个基本音标相符的音标匹配概率。尔后，处理单元110会从所计算出的这些音标匹配概率中，选择音标匹配概率中最大者所对应的各基本音标，以作为语音信号S1的音标。更具体来说，处理单元110可将所接收到语音信号S1切割为多个音框，而这些音框中的两相邻音框之间可以有一段重叠区域。之后，再从每个音框中取出特征参数而获得一特征向量。例如，可利用梅尔倒频谱系数（Mel-frequency CepstralCoefficients，MFCC）自音框中取出36个特征参数，而获得一个36维的特征向量。在此，处理单元110可将语音信号S1的特征参数与声学模型210所具有的音素的数据进行匹配，以计算出语音信号S1中的各音素与相符的各基本音标之间的音标匹配概率。如此一来，处理单元110可在这些音标匹配概率中选择最大者所对应的各基本音标，以作为语音信号S1的音标。

于步骤S330中，处理单元110会根据各音标以及音节声学词典220，获得符合音标的多个拼音以及这些拼音所分别对应的音调信息。其中，音节声学词典220具有符合各音标的多个拼音，以及发音为此音标时，针对不同语义所伴随的可能的音调。在本实施例中，处理单元110也可根据预先设定，从音节声学词典220中选择训练数据，而此训练数据来自于不同语言、方言或不同发音习惯的训练结果。并且，处理单元110会依据自音节声学词典220中所选择的训练数据与语音信号S1的各音标，而获得音标与各拼音匹配的拼音匹配概率。需说明的是，由于每一个词汇可因不同语言、方言或发音习惯而具有不同的音标，且每一个词汇也可依据不同的语义而具有不同音调的发音，因此在音节声学词典220中，每一种音标所对应的拼音皆会具有拼音匹配概率，其中拼音匹配概率会因不同语言、方言或发音习惯而改变。换言之，经由不同语言、方言或发音习惯所训练的训练数据，音节声学词典220中的各种音标与对应的拼音会具有不同的拼音匹配概率。

举例来说，当预先设定为选择音节声学词典220中，以北方人的发音训练而成的训练数据时，则对于发音为“fú”这个音标而言，其对应的拼音有较大的拼音匹配概率为“Fú”，而有较低的拼音匹配概率为“Hú”。具体来说，当北方人说“福”这个词汇的时候，处理单元110可自声学模型210获得“fú”这个音标，并从音节声学词典220中，获得“Fú”为具有较大拼音匹配概率的拼音，而获得“Hú”为具有较小拼音匹配概率的拼音。在此，“fú”这个音标所对应的拼音，会因不同地区的发音习惯而有不同的拼音匹配概率。

在另一例中，当预先设定为选择音节声学词典220中，以大多数人的发音习惯所训练而成的训练数据时，则对于发音为“yíng”这个音标而言，其对应的拼音有较大的拼音匹配概率为“Yíng”，而有较低的拼音匹配概率为“Xiǎng”。具体来说，通常用户说“‘影’响”这个词汇的时候，处理单元110可自声学模型210获得“yíng”这个音标，并从音节声学词典220中，获得“Xiǎng”以及“Yíng”这些拼音所分别对应的拼音匹配概率。在此，“yíng”这个音标所对应的拼音，会随着不同的语义而有不同的拼音匹配概率。

值得一提的是，由于相同文字所组成的语音输入，可根据不同语义或意图而具有不同音调的语音信号，因此处理单元110可根据音节声学词典220中的拼音与音调信息，而获得与音调相符的拼音，借以对不同语义的拼音进行区分。举例来说，对于“今天很好”这句话所对应的语音输入来说，其表达的语义可以是疑问句，或者是肯定句。亦即，“今天很好？”中的“好”所对应的音调较高，而“今天很好。”中的“好”所对应的音调会较低。因此，对于发音为“hǎo”这个音标而言，处理单元110可从音节声学词典220中，获得“háo”以及“hǎo”这些拼音所分别对应的拼音匹配概率。

换言之，处理单元110可根据音节声学词典220中的音调，而识别出具有相同拼音而不同音调的语音输入，使得这些具有不同音调的拼音在语言模型230中可对应到具有不同含义的拼音序列。如此一来，当处理单元110利用音节声学词典220以获得拼音时，同时可获得发此拼音时的音调信息，因此处理单元110可辨识具有不同语义的语音输入。

于步骤S340中，处理单元110会依据各拼音与音调信息，自语言模型230中获得多个拼音序列及多个拼音序列概率。在此，由于不同的音调信息在语言模型230可被区分为不同的语义，而这些语义会对应于不同的拼音序列，因此处理单元110可依据自音节声学词典220所获得的拼音以及音调信息，通过语言模型230来计算此拼音以及音调信息中符合各拼音序列的拼音序列概率，进而找出符合此音调信息的拼音序列。

更具体而言，本实施例的语言模型230中还具有多个关键字所对应的拼音序列，其中关键字例如是地名、人名等名词或其它固定用语或惯用语等等。例如，语言模型230具有对应于“长江大桥”这个关键字的拼音序列“Cháng-Jiāng-Dà-Qiáo”。因此，当处理单元110依据自音节声学词典220所获得的拼音以及音调信息与语言模型230中的拼音序列进行匹配时，可比较这个拼音是否符合语言模型230中的各关键字所对应的拼音序列，而若是这个拼音较符合关键字所对应的拼音序列，则处理单元110可获得较高的拼音序列概率。如此一来，倘若处理单元110计算出的拼音序列概率较低，则表示此拼音所对应的音调信息用于这个拼音序列的机率很低。反之，倘若处理单元110计算出的拼音序列概率较高，则表示此拼音所对应的音调信息有很大的机率对应于这个拼音序列。

接后，于步骤S350中，处理单元110会选择拼音序列概率中最大者所对应的拼音序列，以作为语音信号S1的辨识结果S2。举例来说，处理单元110例如计算每一来自音节声学词典220的拼音匹配概率与来自语言模型230的拼音序列概率的乘积为联合概率，再从拼音匹配概率与拼音序列概率的联合概率中选择最大者所对应的拼音序列，来作为语音信号S1的辨识结果S2。也就是说，处理单元110不限于从音节声学词典220中选择与音标最相符的拼音以及音调信息，而是处理单元110可依据从音节声学词典220所获得的与音标相符合的多个拼音以及音调信息，并在语言模型230中选择拼音序列概率最大者的拼音序列来作为辨识结果S2。当然，本实施例的处理单元110亦可分别在音节声学词典220中选择拼音匹配概率中最大者所对应的拼音以及音调信息，以作为语音信号的各音标所匹配的拼音，并且根据所述匹配的拼音的来计算各拼音于语言模型230中所获得的拼音序列概率，再来计算拼音匹配概率与拼音序列概率的乘积为联合概率，借以从联合概率中选出最大者所对应的拼音。

值得一提的是，处理单元110自上述所获得的拼音序列，还可通过语义识别模组（未绘示）以将拼音序列转换成对应的文字序列，其中语义识别模组可根据以拼音为基础的识别数据库（未绘示），查询拼音序列对应的文字。具体来说，识别数据库具有拼音序列与文字序列对应的数据，因此处理单元110通过语义识别模组以及识别数据库，可进一步将拼音序列转换成文字序列，再通过输出单元140显示给用户。

以下再举一实施例来说明本实施例的语音辨识方法，其中假设来自用户的语音输入S1为对应于“南京市长江大桥”这个问句。在此，输入单元130接收语音信号S1，而处理单元110会根据声学模型210获得语音信号S1的多个音标，即“‘nán’‘jīng’‘shì’‘cháng’‘jiāng’‘dà’‘qiáo’”。接着，处理单元110会根据这些音标以及音节声学词典220，获得符合音标的多个拼音以及这些拼音所分别对应的音调信息，而这些拼音以及对应的音调信息分别有部分的拼音匹配概率为“‘Nán’‘Jīng’‘Shì’‘Cháng’‘Jiāng’‘Dà’‘Qiáo’”，或者有部分的拼音匹配概率为“‘Nán’‘Jīng’‘Shì’‘Zhǎng’‘Jiāng’‘Dà’‘Qiáo’”。在此，假设“‘nán’‘jīng’‘shì’‘cháng’‘jiāng’‘dà’‘qiáo’”这些音标对应到“‘Nán’‘Jīng’‘Shì’‘Cháng’‘Jiāng’‘Dà’‘Qiáo’”这些拼音时，分别具有较高的拼音匹配概率。

之后，处理单元110会依据“Nán”、“Jīng”、“Shì”、“Cháng”、“Jiāng”、“Dà”、“Qiáo”这些拼音以及“Nán”、“Jīng”、“Shì”、“Zhǎng”、“Jiāng”、“Dà”、“Qiáo”这些拼音，分别自语言模型230中获得多个拼音序列及多个拼音序列概率。此时，假设“Cháng”、“Jiāng”、“Dà”、“Qiáo”可在语言模型230中匹配到“长江大桥”这个关键字的拼音序列“Cháng-Jiāng-Dà-Qiáo”，因而“Nán-Jīng-Shì-Cháng-Jiāng-Dà-Qiáo”会有较大的拼音序列概率。如此一来，处理单元110即会以“Nán-Jīng-Shì-Cháng-Jiāng-Dà-Qiáo”作为输出的拼音序列。

综上所述，在本实施例的语音辨识方法及电子装置中，电子装置会基于不同语言、方言或不同发音习惯的语音信号，经由训练来建立声学模型、音节声学词典以及语言模型。因此，当电子装置进行语音信号的语音辨识时，可根据声学模型获得符合真实发音的多个音标，以及在音节声学词典中获得符合音标的拼音。特别是，由于音节声学词典具有各拼音用于不同语义时的音调信息，因此电子装置能依据音调信息，自语言模型中获得与拼音相符合的拼音序列及其拼音序列概率。借此，电子装置即可选择出拼音序列概率最大者所对应的拼音序列，以作为语音信号的辨识结果。

如此一来，本发明可依据来自不同语言、方言或发音习惯的语音输入，在声学模型、音节声学词典和语言模型中进行解码。并且，解码结果不仅可依据音标所对应的拼音输出，同时也能得到这个音标在不同语言、方言或发音习惯的情况下与拼音匹配的拼音匹配概率，以及各拼音套用在不同拼音序列中的拼音序列概率。最后，本发明会选出上述概率最大的输出，作为语音信号的辨识结果。相比于传统方法，本发明可获得语音输入的真实发音所对应的拼音序列，因此可保留原始语音输入的信息，例如保留多音字在不同发音时的信息。此外，本发明还可依据语言、方言或发音习惯的类型，来将语音输入的真实发音转换成对应的拼音序列。这对后续的机器语音对话会有帮助，例如对粤语（或其它方言/语言）发音的输入直接用粤语（或其它方言/语言）回答。另外，本发明还可依据真实发音中的音调信息，区别各拼音的涵义，使得语音信号的辨识结果更符合语音信号对应的意思。如此一来，本发明的语音辨识方法及电子装置，可准确地辨识来自不同语言、方言或不同发音习惯的语音信号所对应的语言以及语义，使得语音辨识更加精准。

另一方面，在传统语音辨识方法中，普遍存在以下问题，即，由于在不同地区的方言中的模糊音、使用者发音习惯的不同、或是不同的语言，会导致辨识率的精准度受到影响。为此，本发明提出一种语音辨识方法及其电子装置，可在原有语音识别的基础上，改进辨识率的精准度。为了使本发明的内容更为明了，以下特举实施例作为本发明确实能够据以实施的范例。

图4是依照本发明一实施例的电子装置的方块图。请参照图4，电子装置400包括处理单元410、储存单元420以及输入单元430，也可包括输出单元440。

电子装置400例如是移动电话（Cell phone）、个人数字助理（Personal DigitalAssistant，PDA）手机、智能手机（Smart phone）、掌上型电脑（Pocket PC）、平板型电脑（Tablet PC）、笔记型电脑、个人电脑，车载电脑等具有运算功能的装置，在此并不限制其范围。

处理单元410耦接至储存单元420及输入单元430。处理单元410为具备运算能力的硬件（例如晶片组、处理器等），用以执行电子装置400中的硬件、固件以及处理软件中的数据。在本实施例中，处理单元410例如是中央处理单元（Central Processing Unit，CPU），或是其它可编程的微处理器（Microprocessor）、数字信号处理器（Digital SignalProcessor，DSP）、可编程控制器、特殊应用集成电路（Application Specific IntegratedCircuits，ASIC）、可编程逻辑装置（Programmable Logic Device，PLD）或其它类似装置。

储存单元420可储存一个或多个用来执行语音辨识方法的程序码以及数据（例如，使用者所输入的语音信号、执行语音辨识所需的声学模型（acoustic model）、音节声学词典（acoustic lexicon）、语言模型（language model）及语料库等）等。在本实施例中，储存单元420例如为非易失性存储器（Non-volatile memory，NVM）、动态随机存取存储器（Dynamic Random Access Memory，DRAM）或静态随机存取存储器（Static Random AccessMemory，SRAM）等。

输入单元430例如为麦克风，用以接收使用者的声音，而将使用者的声音转换为语音信号。

在此，本实施例可以以程序码来实现电子装置400的语音辨识方法。具体而言，储存单元420中可储存有多个程序码片段，而上述程序码片段在被安装后，处理单元410会通过这些程序码片段来执行多个指令，借以实现本实施例的声学模型的建立方法以及语音辨识方法。更进一步地说，处理单元410会通过执行程序码片段中的多个指令，来建立声学模型、音节声学词典以及语言模型，并通过上述程序码片段来驱动语音辨识模组，以利用声学模型、音节声学词典以及语言模型来执行本实施例的语音辨识方法。其中，所述语音辨识模组可以是以计算机程序码来运行，或者在本发明另一实施例中，所述语音辨识模组可由一个或多个逻辑门组合而成的硬件电路来运行。据此，本实施例的处理单元410会将输入单元430所接收的语音信号通过上述语音辨识模组来进行语音辨识，以利用声学模型、音节声学词典以及语言模型而获得多个字串概率及多个字串。并且，处理单元410会选出字串概率中最大者所对应的字串，以作为语音信号的辨识结果。

另外，本实施例还可包括输出单元440，以输出语音信号的辨识结果。输出单元440例如为阴极射线管（Cathode Ray Tube，CRT）显示器、液晶显示器（Liquid CrystalDisplay，LCD）、等离子显示器（Plasma Display）、触控显示器（Touch Display）等显示单元，以显示所获得的字串概率中最大者所对应的候选字串。或者，输出单元440亦可以是扬声器，以播放所获得的字串概率中最大者所对应的候选字串。

需说明的是，本实施例的处理单元410会针对不同的语言、方言或发音习惯，分别建立上述声学模型、音节声学词典与语言模型，并将这些模型与词典存放于储存单元420。

详细而言，声学模型例如是一个统计分类器，其可利用混合高斯模型，以将所接收到的语音信号，解析成基本的音素（Phone），并将各音素分类至对应的基本音标。其中，声学模型可包括用来识别不同语言、方言或发音习惯的语音输入所对应的基本音标、音间过渡以及一些非语音的音素（例如咳嗽声等）。音节声学词典通常是由被识别语言的单词组成，一般可采用隐藏式马可夫模型（Hidden Markov Model，HMM）将声学模型输出的音标组成单词，其中对于单音节语言（例如中文），通常可通过音节声学词典以将声学模型所输出的音标转换成对应的词汇。语言模型（language model）主要是利用概率统计的方法来揭示语言单位内在的统计规律，其中N元语法（N-Gram）简单有效而被广泛使用。

以下举一实施例来说明。

图5是依照本发明一实施例的语音辨识模组的示意图。请参照图5，语音辨识模组500主要包括声学模型510、音节声学词典520、语言模型530以及解码器540。其中，声学模型510与音节声学词典520是由语音数据库51经训练而获得，语言模型530是由语料库（textcorpus）52经训练而获得。在本实施例中，语音数据库51以及语料库52具有多个语音信号，而这些语音信号例如是来自不同语言、方言或发音习惯的语音输入。

请同时参照图4与图5，声学模型510用以辨识来自不同语言、方言或发音习惯的语音信号，以识别出与语音信号的发音相符合的多个音标。在本实施例中，处理单元410会基于不同语言、方言或不同发音习惯的语音信号，经由训练而获得声学模型510。详言之，处理单元410可自语音数据库51接收多个语音信号，以及接收与语音信号中发音相符合的多个音标，其中对应于各音标的发音具有多个音素。并且，处理单元410会依据语音信号与音标进行训练，而获得声学模型510中与音标相对应的多个音素的数据。更具体而言，处理单元410可从语音数据库51中取得不同语言、方言或发音习惯的语音输入所对应的语音信号，解析出各语音信号的音素以获得对应于各语音信号的特征参数。之后，再利用这些特征参数与已标注对应音标的语音信号进行训练，而获得语音信号的特征参数与音标相符合的关系，进而建立声学模型510。

音节声学词典520具有多个词汇，以及各音标与各词汇匹配的模糊音概率。在此，处理单元410可通过音节声学词典520而查询出与各音标相符的多个词汇，以及每一个词汇与其相匹配的音标之间的模糊音概率。在本实施例中，音节声学词典520还可以针对不同地区发音习惯以建立不同的模型。具体而言，音节声学词典520具有来自于不同语言、方言或不同发音习惯的发音统计数据，其中发音统计数据具有每一个音标与其相符的词汇的模糊音概率。如此一来，处理单元410可根据预先设定，从音节声学词典520中选择来自于不同语言、方言或不同发音习惯的发音统计数据，并根据自语音信号所获得的音标与发音统计数据中的词汇进行匹配，而获得各音标与各词汇匹配的模糊音概率。值得一提的是，处理单元410亦会对语音信号中的每一音标标注对应的编码。也就是说，对于每一具有发音相异而字形相同的词汇（即多音字）而言，此词汇对应于每一种发音具有不同的音标，并且，此词汇具有至少一编码，而每一编码对应于这些相异音标的其中之一。如此一来，本实施例的音节声学词典520可包括来自不同发音的语音输入的音标所对应的词汇，以及各音标所对应的编码。

语言模型530是基于历史信息的模型（History-based Model）的设计理念，即，根据经验法则，统计先前已出现的一连串事件与下一个出现的事件之间的关系。在此，语言模型530用以依据不同词汇的编码，以辨识出与此编码相符合的字串以及此编码与此字串相符合的字串概率。在本实施例中，处理单元410会基于不同语言、方言或不同发音习惯的多个语料，经由训练而获得语言模型530，其中所述语料具有多个发音的语音输入以及此语音输入对应的字串。在此，处理单元410会自语料库52获得字串，并且将字串与字串的词汇所分别对应的编码进行训练，而获得编码与各字串匹配的数据。

解码器540是语音辨识模组500的核心之一，其任务是对输入的语音信号，根据声学模型510、音节声学词典520以及语言模型530，寻找能够以最大概率输出的字串。举例来说，利用声学模型510获得对应的音素（phone）或音节（syllable），再由音节声学词典520来获得对应的字或词，之后由语言模型530来判断一连串的字成为句子的概率。

以下即搭配上述电子装置400与语音辨识模组500来说明本发明的语音辨识方法。图6是依照本发明一实施例所绘示的语音辨识方法的流程图。请同时参照图4、图5与图6，本实施例中的语音辨识方法，适于通过电子装置400来对语音信号进行语音辨识。其中，处理单元410能针对不同的语言、方言或发音习惯，利用声学模型510、音节声学词典520、语言模型530以及解码器540自动地辨识出语音信号所对应的语言。

于步骤S610中，输入单元430接收语音信号S1，其中语音信号S1例如是来自使用者的语音输入。更具体而言，语音信号S1例如为单音节语言的语音输入，而单音节语言例如为中文。

于步骤S620中，处理单元410会根据声学模型510获得语音信号S1的多个音标，其中音标包括多个音素。在此，对于单音节语言来说，语音信号S1中的各音节具有多个音素，而音节会对应于的一个音标。举例来说，以“前进”这两单词而言，它的音节为“前”与“进”，以及具有“ㄑ”、“ㄧㄢ”、“ˊ”、“ㄐ”、“ㄧㄣ”及“ˋ”这些音素。其中，“ㄑ”、“ㄧㄢ”及“ˊ”可对应于音标“qián”，而“ㄐ”、“ㄧㄣ”及“ˋ”可对应于音标“jìn”。

在本实施例中，处理单元410可根据预先设定，从声学模型510中选择训练数据，而此训练数据来自于不同语言、方言或不同发音习惯的训练结果。在此，处理单元410可利用声学模型510，并选择训练数据中的语音信号以及这些语音信号所对应的基本音标，来查询出符合语音信号S1的多个音标。

详言之，上述预先设定指的是电子装置400被设定为依据哪一种发音来进行语音辨识。举例来说，假设电子装置400被设定为依据北方人的发音习惯来进行语音辨识，则处理单元410会在声学模型510中，选择由北方人的发音习惯所训练而成的训练数据。类似地，假设电子装置400被设定为进行闽南语的语音辨识，则处理单元410会在声学模型510中选择由闽南语所训练而成的训练数据。上述所列举的预先设定为举例说明，于其它实施例中，电子装置400亦可被设定为依据其它语言、方言或发音习惯来进行语音辨识。

进一步而言，处理单元410会根据所选择的声学模型510以及语音信号S1中的音素，计算语音信号S1中的音素与每一个基本音标相符的音标匹配概率。尔后，处理单元410会从所计算出的这些音标匹配概率中，选择音标匹配概率中最大者所对应的各基本音标，以作为语音信号S1的音标。更具体来说，处理单元410可将所接收到语音信号S1切割为多个音框，而这些音框中的两相邻音框之间可以有一段重叠区域。之后，再从每个音框中取出特征参数而获得一特征向量。例如，可利用梅尔倒频谱系数（Mel-frequency CepstralCoefficients，MFCC）自音框中取出36个特征参数，而获得一个36维的特征向量。在此，处理单元410可将语音信号S1的特征参数与声学模型510所具有的音素的数据进行匹配，以计算出语音信号S1中的各音素与相符的各基本音标之间的音标匹配概率。如此一来，处理单元410可在这些音标匹配概率中选择最大者所对应的各基本音标，以作为语音信号S1的音标。

于步骤S630中，处理单元410会根据各音标以及音节声学词典520，获得符合音标的多个词汇。其中，音节声学词典520具有与音标对应的词汇，而各词汇具有至少一编码，且对应于具有相异音标而字型相同的词汇（即多音字）而言，此词汇的各编码分别对应于词汇的其中的一音标。

在此，处理单元410亦可根据预先设定，从音节声学词典520中选择来自于不同语言、方言或不同发音习惯的发音统计数据。并且，处理单元410会依据自音节声学词典520中所选择的发音统计数据与语音信号S1的各音标，而获得音标与各词汇匹配的模糊音概率。需说明的是，由于多音字可因不同语言、方言或发音习惯而具有不同的音标，因此在音节声学词典520中，每一种音标所对应于的词汇皆会具有模糊音概率，其中模糊音概率会因不同语言、方言或发音习惯而改变。换言之，经由不同语言、方言或发音习惯所建立的发音统计数据，音节声学词典520中的各种音标与对应的词汇会具有不同的模糊音概率。

举例来说，当预先设定为选择音节声学词典520中，以北方人的发音习惯所建立的发音统计数据时，则对于音标为“fú”而言，其对应的词汇有较大的模糊音概率为“福”、“符”、“芙”等字，而“fú”对应的词汇则有较低的模糊音概率为“胡”、“湖”、“壶”等字。又例如，当预先设定为选择音节声学词典520中，以大多数人习惯所建立的发音统计数据时，则对于音标为“hè”而言，其对应的词汇有较大的模糊音概率为“贺”、“荷”以及“貉”等字。值得一提的是，由于大多数人习惯将“一丘之‘貉’”中的‘貉（ㄏㄜˋ）’这个词汇的发音念成“ㄏㄜˋ”，因此，在“hè”对应至“貉”的模糊音概率仍会较高。如此一来，通过选择模糊音概率中最大者所对应的词汇，处理单元410可依据特定的语言、方言或发音习惯，获得语音信号S1中的各音标相匹配的词汇。

另一方面，由于具有不同发音的多音字，其依据不同的发音会有不同的涵义，因此在本实施例中，对应于具有相异音标而字型相同的多音字而言，处理单元410可取得每一词汇的编码，借以区别每一词汇的不同发音。以多音字“长”这个词汇为例，其汉语发音的音标可例如为“cháng”、“zhǎng”，而对于不同方言或发音习惯来说，“长”的音标亦可例如是“cêng”、“zêng”（粤音）。因此，对于上述“长”的音标，则音节声学词典会将这些音标对应至四种编码，例如“c502”、“c504”、“c506”以及“c508”。此处所指的编码仅为举例说明，其编码亦可以其它形式（如数值、字母或符号其中之一或其组合）来呈现。换言之，本实施例的音节声学词典520可将多音字视为不同的词汇，借以使得多音字在语言模型530中可对应到具有不同涵义的字串。如此一来，当处理单元410利用音节声学词典520以获得具有不同音标的多音字时，由于此多音字所具有的不同音标会对应到不同的编码，因此处理单元410可区别出此多音字的不同发音，借以保留此多音字于不同发音时的歧异性。

于步骤S640中，处理单元410会依据各词汇的编码，自语言模型530中获得多个字串及多个字串概率。详细而言，语言模型530用以依据不同词汇的编码，以辨识出与此编码相符合的字串以及此编码与此字串相符合的字串概率。因此，处理单元410可依据自音节声学词典520所获得的词汇的编码，通过语言模型530来计算此编码符合各字串的字串概率。其中，倘若处理单元410计算出的字串概率较低，则表示此编码所对应的音标用于这个字串的机率甚低。反之，倘若处理单元410计算出的字串概率较高，则表示此编码所对应的音标有很大的机率是对应于这个字串。

同样以多音字“长”这个词汇为例，其音标（例如“cháng”、“zhǎng”、“cêng”及“zêng”等）所对应的编码可例如为“c502”、“c504”、“c506”以及“c508”等。在此，假设南京的市长的名字为江大桥，若音标为“zhǎng”所对应的编码“c504”于“…南京市‘长（ㄓㄤˇ）’江大桥…”这个字串中的字串概率很高，则处理单元410会判断音标为“zhǎng”的“长”这个词汇，在“南京市‘长’江大桥”中出现的概率很大，且“长”前面所接的词汇为“市”的概率亦高。并且，此时处理单元410会判断出音标“zhǎng”所对应的编码“c504”于“南京是‘长（ㄔㄤˊ）’江大桥的…”这个字串中的字串概率较低。

从另一观点看，若音标为“cháng”所对应的编码“c502”于“南京是‘长（ㄔㄤˊ）’江大桥的…”这个字串中的字串概率较高时，则处理单元410会判断音标为“cháng”的“长”这个词汇，在“南京是‘长’江大桥的…”中出现的概率很大，且“长”前面所接的词汇为“是”的概率亦高。此时，处理单元410便会判断音标“cháng”所对应的编码“c502”于“南京市‘长（ㄓㄤˇ）’江大桥”这个字串中的字串概率会较低。

再举一例，对于“长”这个词汇而言，其音标可为“cháng”或“zhǎng”等。虽然一般来说，当“长”这个词汇前面接“市”这个词汇时，“长”通常是以音标“zhǎng”来发音，但也有可能是以音标“cháng”来发音。例如，“南京市长江大桥”可以指的是“‘南京市’-‘长（ㄔㄤˊ）江大桥’”，亦可指的是“‘南京’-‘市长（ㄓㄤˇ）’-‘江大桥’”。因此，处理单元410会依据音标“cháng”所对应的编码“c502”，以及音标“zhǎng”所对应的编码“c504”，根据语言模型530来计算编码“c502”与“c504”在“南京市长江大桥”这个字串中的字串概率。

举例来说，倘若对应于音标“cháng”的编码“c502”在“南京市长江大桥”这个字串中的字串概率较高，则表示音标为“cháng”的“长”这个词汇在“‘南京市’-‘长（ㄔㄤˊ）江大桥’”的概率亦较高。或者，倘若对应于音标“zhǎng”的编码“c504”在“南京市长江大桥”这个字串中的字串概率较高，则表示音标为“zhǎng”的“长”这个词汇在“‘南京’-‘市长（ㄓㄤˇ）’-‘江大桥’”的概率亦会较高。

接后，于步骤S650中，处理单元410会选择字串概率中最大者所对应的字串，以作为语音信号S1的辨识结果S2。举例来说，处理单元410例如计算每一来自音节声学词典520的模糊音概率与来自语言模型530的字串概率的乘积为联合概率，以选择模糊音概率与字串概率的联合概率中最大者所对应的字串，来作为语音信号S1的辨识结果S2。也就是说，处理单元410不限于从音节声学词典520中选择与音标最相符的词汇，而是处理单元410可依据从音节声学词典520所获得的与音标相符合的多个词汇以及其编码，并在语言模型530中选择字串概率最大者来作为辨识结果S2。当然，本实施例之处理单元410亦可分别在音节声学词典520中选择模糊音概率中最大者所对应的词汇，以作为语音信号的各音标所匹配的词汇，并且根据所述匹配的词汇的编码来计算各编码于语言模型530中所获得的字串概率，来计算模糊音概率与字串概率的乘积为联合概率，借以从联合概率中选出最大者所对应的字串。

具体而言，同样以多音字“长”这个词汇以及“南京市长江大桥”这个词汇为例，其中“长”的音标例如为“cháng”、“zhǎng”、“cêng”及“zêng”等，且其音标所分别对应的编码例如为“c502”、“c504”、“c506”以及“c508”等。在此，当音标“cháng”经音节声学词典520所获得的词汇为“长”的模糊音概率较高时，处理单元410会依据“长”以及音标“cháng”所对应的编码“c502”，在语言模型530中选择字串概率最高者所对应的字串为辨识结果。举例来说，倘若“长”的编码“c502”在“南京是‘长（ㄔㄤˊ）’江大桥的…”中出现的字串概率为最大时，则处理单元410可获得“南京是‘长’江大桥的…”这个字串为辨识结果。然而，倘若“长”的编码“c502”在“‘南京市’-‘长（ㄔㄤˊ）江大桥’”中出现的字串概率为最大时，则处理单元410可获得“‘南京市’-‘长（ㄔㄤˊ）江大桥’”这个字串为辨识结果。或者，当音标“zhǎng”经音节声学词典520所获得的词汇为“长”的模糊音概率较高时，处理单元410会依据“长”以及音标“zhǎng”所对应的编码“c504”，在语言模型530中选择字串概率最高者所对应的字串为辨识结果。举例来说，倘若“长”的编码“c504”在是“‘南京’-‘市长’-‘江大桥’”中出现的字串概率为最大时，则处理单元410可获得是“‘南京’-‘市长’-‘江大桥’”个字串为辨识结果。如此一来，电子装置400不仅可依序到音标和音标所对应的词汇输出，同时也能得到这个音标在不同语言、方言或发音习惯的情况下与词汇匹配的模糊音概率。并且根据此词汇的编码，电子装置400可获得此词汇套用在不同字串中的字串概率，借以更能准确地辨识出与语音信号S1相符的字串，而提高语音辨识的准确率。

综上所述，在本实施例的声学模型的建立方法、语音辨识方法及电子装置中，电子装置会基于不同语言、方言或不同发音习惯的语音信号建立声学模型、音节声学词典以及语言模型。并且，对于具有一个发音以上的多音字，电子装置会依据多音字的各音标，分别赋予不同的编码，借以在语言模型中保留多音字的歧异性。因此，当电子装置进行语音信号的语音辨识时，可根据声学模型中所获得的多个音标，在音节声学词典中获得符合真实发音的词汇。特别是，由于在音节声学词典中，具有一个或多个音标的词汇具有对应于各音标的各编码，因此电子装置能依据每一个编码，自语言模型中获得相符合的字串及其字串概率。借此，电子装置即可选择出字串概率最大者所对应的字串，以作为语音信号的辨识结果。

如此一来，本发明可依据来自不同语言、方言或发音习惯的语音输入，在声学模型、音节声学词典和语言模型中进行解码，且解码结果不仅可依序到音标和音标所对应的词汇输出，同时也能得到这个音标在不同语言、方言或发音习惯的情况下与词汇匹配的模糊音概率，以及此词汇套用在不同字串中的字串概率，据以选出概率最大的输出，作为语音信号的辨识结果。相比于传统方法，本发明不仅可以准确地进行声音至文字的转换，同时还可知道语言、方言或发音习惯的类型。这对后续的机器语音对话会有帮助，例如对粤语发音的输入直接用粤语回答。另外，本发明还可将区别多音字的各发音的涵义，使得语音信号的辨识结果更可符合语音信号对应的意思。

以上所述仅为本发明较佳实施例，然其并非用以限定本发明的范围，任何熟悉本项技术的人员，在不脱离本发明的精神和范围内，可在此基础上做进一步的改进和变化，因此本发明的保护范围当以本申请的权利要求书所界定的范围为准。

Claims

1.一种声学模型的建立方法，用于一电子装置，其特征在于，该声学模型的建立方法包括：

接收多个语音信号；

接收与所述语音信号中发音相符合的多个音标；以及

依据所述语音信号与所述音标进行训练，而获得该声学模型中与所述音标相对应的多个音素的数据，

其中，所述语音信号来自多个方言或多个发音习惯的语音输入。

2.一种语音辨识方法，用于一电子装置，其特征在于，该语音辨识方法包括：

基于不同语言、方言或不同发音习惯的语音信号，经由训练而获得声学模型；

根据该声学模型获得一语音信号的多个音标，所述音标包括多个音素；

依据各该音标以及一音节声学词典，获得符合该音标的多个词汇，并获得该音标与各该词汇相匹配的一模糊音概率；以及

选择所述模糊音概率中最大者所对应的该词汇，以作为该语音信号所匹配的词汇。

3.根据权利要求2所述的语音辨识方法，其特征在于，基于不同语言、方言或不同发音习惯的所述语音信号，经由训练而获得该声学模型的步骤包括：

接收与所述语音信号中发音相符合的所述音标；以及

依据所述语音信号与所述音标进行训练，而获得该声学模型中与所述音标相对应的所述音素的数据。

4.根据权利要求2所述的语音辨识方法，其特征在于，根据该声学模型获得该语音信号的所述音标的步骤包括：

根据一预先设定，从该声学模型中选择一训练数据，其中该训练数据来自于不同语言、方言或不同发音习惯的训练结果；

根据所选择的该训练数据以及该语音信号的各该音素，计算所述音素符合各该音标的一音标匹配概率；以及

选择所述音标匹配概率中最大者所对应的各该音标，以作为该语音信号的所述音标。

5.根据权利要求2所述的语音辨识方法，其特征在于，依据各该音标以及该音节声学词典获得该音标与各该词汇相匹配的该模糊音概率的步骤包括：

根据一预先设定，从该音节声学词典中选择一发音统计数据，其中该发音统计数据来自于不同语言、方言或不同发音习惯；以及

自所述语音信号获得所述音标，并根据所述音标与该发音统计数据进行匹配，而获得各该音标与各该词汇相匹配的该模糊音概率。

6.一种语音辨识方法，用于一电子装置，其特征在于，该语音辨识方法包括：

根据各该音标以及一音节声学词典，获得符合该音标的多个词汇，其中该音节声学词典具有所述音标对应的所述词汇，且具有至少一该音标的该词汇具有对应于各该音标的各编码；

依据各该词汇的该编码，自一语言模型中获得多个字串及多个字串概率；以及

选择所述字串概率中最大者所对应的该字串，以作为该语音信号的辨识结果。

7.根据权利要求6所述的语音辨识方法，其特征在于，基于不同语言、方言或不同发音习惯的所述语音信号，经由训练而获得该声学模型的步骤包括：

接收与所述语音信号中发音相符合的所述音标；以及

8.根据权利要求6所述的语音辨识方法，其特征在于，根据该声学模型获得该语音信号的所述音标的步骤包括：

根据所选择的该训练数据以及该语音信号的各该音素，计算所述音素符合各该音素的一音标匹配概率；以及

9.根据权利要求6所述的语音辨识方法，其特征在于，根据各该音标以及该音节声学词典获得符合该音标的所述词汇的步骤包括：

自所述语音信号获得所述音标，并根据所述音标与该发音统计数据进行匹配，而获得各该音标与各该词汇相匹配的一模糊音概率。

10.根据权利要求9所述的语音辨识方法，其特征在于，还包括：

选择所述模糊音概率与所述字串概率的联合概率中最大者所对应的该字串，以作为该语音信号的辨识结果。

11.根据权利要求6所述的语音辨识方法，其特征在于，还包括：

基于不同语言、方言或不同发音习惯的多个语料数据，经由训练而获得该语言模型。

12.根据权利要求11所述的语音辨识方法，其特征在于，基于不同语言、方言或不同发音习惯的所述语料数据，经由训练而获得该语言模型的步骤包括：

自所述语料数据获得所述字串；以及

根据所述字串与所述字串的所述词汇所分别对应的该编码进行训练，而获得该编码与各该字串相匹配的所述字串概率。

13.根据权利要求11所述的语音辨识方法，其特征在于，依据各该词汇的该编码自该语言模型中获得所述字串及所述字串概率的步骤包括：

根据一预先设定，从该语料数据中选择一训练数据，其中该训练数据来自于不同语言、方言或不同发音习惯的训练结果。

14.一种电子装置，其特征在于，包括：

一输入单元，接收多个语音信号；

一储存单元，储存多个程序码片段；以及

一处理单元，耦接至该输入单元以及该储存单元，该处理单元通过所述程序码片段来执行多个指令，所述指令包括：

接收与所述语音信号中发音相符合的多个音标；以及

依据所述语音信号与所述音标进行训练，而获得声学模型中与所述音标相对应的多个音素的数据，

15.一种电子装置，其特征在于，包括：

一输入单元，接收一语音信号；

一储存单元，储存多个程序码片段；以及

根据该声学模型获得该语音信号的多个音标，所述音标包括多个音素；

16.根据权利要求15所述的电子装置，其特征在于，在基于不同语言、方言或不同发音习惯的所述语音信号，经由训练而获得该声学模型的步骤中，所述指令包括：

接收与所述语音信号中发音相符合的所述音标；以及

17.根据权利要求15所述的电子装置，其特征在于，在根据该声学模型获得该语音信号的所述音标的步骤中，所述指令包括：

18.根据权利要求15所述的电子装置，其特征在于，在依据各该音标以及该音节声学词典获得该音标与各该词汇相匹配的该模糊音概率的步骤中，所述指令包括：

根据一预先设定，从该音节声学词典中一发音统计数据，其中该发音统计数据来自于不同语言、方言或不同发音习惯；以及

19.一种电子装置，其特征在于，包括：

一输入单元，接收一语音信号；

一储存单元，储存多个程序码片段；以及

20.根据权利要求19所述的电子装置，其特征在于，在基于不同语言、方言或不同发音习惯的所述语音信号，经由训练而获得该声学模型的步骤中，所述指令包括：

接收与所述语音信号中发音相符合的所述音标；以及

21.根据权利要求19所述的电子装置，其特征在于，在根据该声学模型获得该语音信号的所述音标的步骤中，所述指令包括：

22.根据权利要求19所述的电子装置，其特征在于，在依据各该音标以及该音节声学词典获得符合该音标的所述词汇的步骤中，所述指令包括：

23.根据权利要求22所述的电子装置，其特征在于，所述指令还包括：

24.根据权利要求19所述的电子装置，其特征在于，所述指令还包括：

25.根据权利要求24所述的电子装置，其特征在于，在基于不同语言、方言或不同发音习惯的所述语料数据，经由训练而获得该语言模型的步骤，所述指令包括：

自所述语料数据获得所述字串；以及

26.根据权利要求24所述的电子装置，其特征在于，在依据各该词汇的该编码自该语言模型中获得所述字串及所述字串概率的步骤中，所述指令包括：