CN1231888C

CN1231888C - 利用双音模型实现混合多国语言的语音辨识装置及方法

Info

Publication number: CN1231888C
Application number: CNB031285104A
Authority: CN
Inventors: 李允文
Original assignee: Delta Optoelectronics Inc
Current assignee: Delta Optoelectronics Inc
Priority date: 2003-04-25
Filing date: 2003-04-25
Publication date: 2005-12-14
Anticipated expiration: 2023-04-25
Also published as: CN1540626A

Abstract

一种利用双音模型实现混合多国语言的语音辨识装置，用以辨识混合多国语言的语音信号为语音指令，包括语音建模器、语音搜寻器以及决策反应器。语音建模器，用以接收混合多语的语音信号，将其转换为语音特征参数与语音模型资料。语音搜寻器，用以搜寻比对语音模型资料，产生候选语音模型资料及其比较相似度，并配合语法规则等以求出最佳的多个候选指令。决策反应器，根据所求得每个候选指令的比较相似度，以预设的信赖度或逻辑关系，决定是否接受该辨识结果或要求重新输入。

Description

利用双音模型实现混合多国语言的语音辨识装置及方法

技术领域

本发明是有关于一种混合多国语言的语音辨识方法，特别有关一种利用双音模型实现混合多国语言的语音辨识装置及方法。

背景技术

由于经贸市场的全球化趋势以及国际社会的互动增加，使得国人生活逐渐国际化。因此，在日常语言的表达上，混合多国语言的表达方式成为不可避免的使用方式。尤其许多专业领域的专有名词，或者是外文人名、地名等都无法用翻译名词适切地表达，以混合多国语言或多国语言交叉使用的表达方式已成为日常语言的一部份。于语音辨识的应用中，将混合多国语言的语音加以辨识，使其成为具有完整意义的指令，即成为语音辨识中相当重要的工作。

现行混合多国语言(Mixed multi-lingual)的语音辨识方法，以下列三者为主。其一是由多个各自独立的单一语言语音辨识系统构成，于实际应用时，通常必须由使用者选择欲进行辨识的语言种类，或者由计算机判断输入的语音属于何种语言，再指定一种语言的语音辨识系统进行辨识。此方法于同一语音输入中仅能使用一种语言，无法处理于同时包含多国语言的语音输入。虽然此方法包括多国语言的语音辨识系统，但若严格界定的，其并不属于可辨识混合多国语言的语音辨识方法。

其二是以一种语言来仿真其它的语言，也就是利用一种主要语言的相似音来仿真其它语言的发音。例如，选定中文作为主要语言，就利用中文的拼音来仿真其它语言的发音，如英文中的DVD即利用汉语拼音dil bildil来近似仿真。此方法虽可解决前述方法所无法处理的包含多国语言的语音输入问题，但由于采用近似仿真的方式，许多发音无法得到最佳的仿真效果，进而影响辨识的结果。如英文中的V便无法用汉语拼音适切地仿真出来，因此辨识的结果便会失真。

其三是以一组全球音标(global phoneme)来标示所有语言的发音，再利用决策树(decision tree)将所有标示后的语音进行分类辨识。此方法虽可避免前述方法辨识结果失真的问题，但采用一组音标来标示所有语言，当字汇量累积至相当程度时，各语种间互相干扰的情形便容易发生，无法达到预期的辨识效果。

发明内容

本发明的一目的在于利用双音模型(diphone model)的特性，除了跨语言(cross-lingual)的双音模型外，其它的双音模型都和单语辨识时相同，只能接到同一种语言，所以每一种语言的内部都采用该种语言的拼音来组成。如此一来，不仅可完成一句话中同时包含多国语言的语音辨识，而且只有跨语言的部份以双音模型连接至另一种语言，各语种间互相干扰的情形便得到有效的控制。

由于建制一完备的语音辨识系统，必须以大量语音库进行训练，本发明提出另一方法在于系统尚未训练建制完成前，以独立不同语言所个别训练出来的双音模型语音辨识系统来组合成一语音辨识系统，以解决语音辨识系统建制初期的实际困扰。

为达成上述诸目的，本发明提供一种利用双音模型实现混合多国语言的语音辨识装置，用以辨识混合多语的语音信号，并产生语音指令，包括语音建模器、语音搜寻器以及决策反应器。双音模型是以混合语言的语音边缘(phone boundary)作为建模依据。例如，“告诉我New York的天气”，其中“我N”以及“k的”即为混合语言的语音边缘。

语音建模器，其接收混合多语的语音信号，将混合多语的语音信号转换为语音特征参数(feature)，再将语音特征参数转换为语音模型资料。

语音搜寻器，其接收语音模型资料，并且搜寻比对分别对应于语音模型资料的多个候选资料组，每一候选资料组具有多个候选语音模型资料，及其对应的比较相似度，并评估出最佳的多个候选语音指令。举例而言，语音搜寻器搜寻比对多语模型数据库(multi-lingual models database)，产生分别对应于语音模型资料的候选资料组。每一候选资料组可具有多个候选语音模型资料及其对应的比较相似度(likelihood)，根据词汇连接机率，甚至在特定的用途时(ID，地址…等)，可参考语音规则，决定词汇可否连接等找出最佳的多个候选语音指令。

多语模型数据库包括混合多语字音对应资料以及混合多语矫正模型(anti-model)。混合多语字音对应资料是以多语建模器建制而成，而混合多语矫正模型是以多语矫正模型产生器建制而成。

多语建模器接收多语查询指令，并经过分析得到多语模型数据库中的混合多语字音对应资料。多语建模器包括多语音标序列对应器以及跨语言双音模型产生器。多语音标序列对应器，比对多语查询指令以得到与多语查询指令对应的多语音标序列。跨语言双音模型产生器，筛选组合多语音标序列，得到多语模型数据库中的混合多语字音对应资料。

多语矫正模型产生器，接收多语查询指令，经过正规化计算，得到混合多语矫正模型，包括单一语言矫正模型产生器以及矫正模型结合器。单一语言矫正模型产生器，接收多语查询指令，参考单一语言双音模型库，分为不同语种进行正规化计算，产生单一语言矫正模型，每一单一语言矫正模型对应于一种单一语言。矫正模型结合器，接收单一语言矫正模型，进行加权计算得到多语模型数据库中的混合多语矫正模型。

决策反应器，其根据比较相似度以及决策规则组，由候选语音指令决定一最佳的语音指令，然后依语音指令可产生相对应的行动反应。

其次，本发明提出一种利用双音模型实现混合多国语言的语音辨识方法，用以辨识混合多国语言的语音信号，并产生可辨识的语音指令。首先，将混合多国语言的语音信号转换为语音特征参数，再将语音特征参数转换为语音模型资料。

接着，根据多语模型数据库，搜寻比对对应于语音模型资料的候选资料组，每一候选资料组具有多个可能的候选语音模型资料，而每一候选语音模型资料具有一比较相似度。

多语模型数据库包括混合多语字音对应资料以及混合多语矫正模型。混合多语字音对应资料是以多语建模程序建制而成，首先比对多语查询指令，以得到对应的多语音标序列。然后，把多语音标序列根据前后音标，根据发音学做更精细的变化，可能加上一些卷舌，喉振音等，以得到更精细的混合多语字音对应资料，这部分其实在比较简单的系统也是可以省略的。进行筛选组合时，是先固定左侧音标，于右侧音标寻求对应结果，若无法对应再固定右侧音标，于左侧音标寻求对应结果，得到上述混合多语字音对应资料。

混合多语矫正模型是以多语矫正模型产生程序建制而成。首先将多语查询指令，参考单一语言双音模型库进行正规化计算，产生单一语言矫正模型，每一单一语言矫正模型对应于一种单一语言。接着，将单一语言矫正模型，进行加权计算得到上述混合多语矫正模型。

最后，根据比较相似度以及决策规则组，由每一候选资料组中决定结果语音模型资料，并将所得的结果语音模型资料结合成语音指令，最后可再依语音指令产生相对应的行动反应。

附图说明

图1是显示本发明的功能方块图；

图2是显示本发明中建制混合多语字音对应资料的功能方块图；

图3是显示本发明中建制混合多语矫正模型的功能方块图；

图4是显示本发明中建制混合多语矫正模型的细部功能方块图；

图5是显示本发明所揭示的实施例中跨语言资料表的范例表示图；

图6是显示本发明所揭示的实施例应用的功能示意图；

图7是显示本发明的执行流程图；

符号说明：

100-混合多语语音信号

102-语音建模器

104-语音模型资料

106-语音搜寻器

107-语音规则数据库

108-多语模型数据库

110-最佳候选语音指令

112-决策反应器

114-决策规则组

116-语音指令及相对应动作

200-多语查询指令

202-多语文音标序列对应器

206-跨语言双音模型产生器

208-混合多语字音对应资料

30-多语查询指令

32-多语矫正模型产生器

34-单一语言双音模型库

36-混合多语矫正模型

320-单一语言矫正模型产生器(甲语言)

322-单一语言双音模型库(甲语言)

324-单一语言矫正模型产生器(乙语言)

326-单一语言双音模型库(乙语言)

328-单一语言矫正模型产生器(丙语言)

330-单一语言双音模型库(丙语言)

332-矫正模型结合器

600-语音信号输入

602-麦克风

604-电话接口

606-模拟/数字

608-只读存储器

610-随机存取内存

612-闪存

614-数字信号处理单元

616-网络模块

618-连接端口模块

620-行动反应程序升级

622-数字/模拟

624-喇叭

626-电话接口

628-语音输出

具体实施方式

如图1所示，图1是显示本发明的功能方块图。本发明提出一种利用双音模型实现混合多国语言的语音辨识装置，其用以辨识混合多语的语音信号100，并产生语音指令116，包括语音建模器102、语音搜寻器106以及决策反应器112。

语音建模器102，用以接收混合多语的语音信号100，将混合多语的语音信号100转换为语音特征参数，再将语音特征参数转换为语音模型资料104。

语音搜寻器106，接收语音模型资料104，并查询多语模型数据库108，搜寻比对对应于语音模型资料104的候选资料组，每一候选资料组可能有多个候选语音模型资料，每一候选语音模型资料会具有一比较相似度。上述搜寻比对还可能参考语言及语法规则数据库(Rules or LanguagesModels database)以及混多语指令字符串(Mixed multi-lingual querycommands strings)。语言及语法规则数据库主要是由某一特定领域或某一语言规则所组成，混多语指令字符串以及多语字音对应字符串亦为某一特定领域的常用字符串，其作用均在于增加语法辨识能力，提升辨识率(recognition rate)。语音搜寻器再根据词汇连接机率或参考语音规则数据库107决定词汇可否连接等评估出最佳的多个候选语音指令110。

决策反应器112，其根据比较相似度以及决策规则组114，由候选语音指令110中决定一结果语音指令，然后可再依语音指令产生行动反应。决策规则组114可以预设一信赖度门槛(threshold)，以判断结果是否为一可认知的指令，过滤可能辨认错误的指令，避免错误动作。或以无条件接受辨识结果等规则来作为决策基准。行动反应可能是发出语音或灯号、提示使用者重新输入或者进行远程(remote)控制等。

多语模型数据库108包括混合多语字音对应资料以及混合多语矫正模型。混合多语字音对应资料以多语建模器事先建制完成，混合多语矫正模型以多语矫正模型产生器事先建制完成。

如图2所示，图2是显示本发明中建制混合多语字音对应资料的功能方块图。多语建模器包括多语音标序列对应器202以及跨语言双音模型产生器206。多语音标序列对应器202，可参考多语字汇字典，将多语查询指令200经过比对，得到对应的多语音标序列。跨语言双音模型产生器206，可参考跨语言资料表以及语法规则库，筛选组合多语音标序列，得到多语模型数据库中的混合多语字音对应资料208。

跨语言双音模型产生器206于进行上述筛选组合时，是先固定左侧音标，于右侧音标寻求对应结果，若无法对应再固定右侧音标，于左侧音标寻求对应结果，得到上述混合多语字音对应资料。如图5所示，图5是显示本发明所揭示的实施例中跨语言资料表的范例表示图，图中c表示中文，e表示英文。如图中第一列所示，如中文的z拼音于英文中便无法找出较佳的近似音，利用本发明所提出的双音模型的方式可找到英文中的ch或th的近似候选双音模型。如图中第二列所示，如中文的zcl拼音无法找出较佳的近似音，根据决策规则判定为不对应。如图中第三列所示，如中文的ing拼音必须以英文的ih+ng组合才能完成，根据决策规则将其组合。

如图3所示，图3是显示本发明中建制混合多语矫正模型的功能方块图。多语矫正模型产生器32，接收多语查询指令30，经过正规化计算，得到混合多语矫正模型36。同时如图4所示，图4是显示本发明中建制混合多语矫正模型的细部功能方块图。多语矫正模型产生器32包括数个单一语言矫正模型产生器320、324、328以及矫正模型结合器332。单一语言矫正模型产生器320、324、328，接收多语查询指令30，参考单一语言双音模型库322、326、330，分为不同语种进行正规化计算，产生单一语言矫正模型，每一单一语言矫正模型对应于一种单一语言。矫正模型结合器332，接收单一语言矫正模型，进行加权计算得到多语模型数据库中的混合多语矫正模型36。

换言之，单一语言矫正模型产生器(甲语言)320参考单一语言双音模型库(甲语言)322，产生甲语言矫正模型。单一语言矫正模型产生器(乙语言)324参考单一语言双音模型库(乙语言)326，产生乙语言矫正模型。单一语言矫正模型产生器(丙语言)328参考单一语言双音模型库(丙语言)330，产生丙语言矫正模型。再由矫正模型结合器332，接收甲语言、乙语言、丙语言矫正模型，进行加权计算得到多语模型数据库中的混合多语矫正模型36。

单一语言矫正模型产生器320、324、328采用公式(1)、(2)来进行正规化：

P = \underset{k = 1}{Σ} C_{k} N_{(o, μ_{k}, σ_{k})} - - - (1)

logP＝logP-logP_anli (2)

如果所应用的语音辨识系统，是以充分的多国语言混合数据库所训练建制完成。系统本身就已经含有训练好的所有跨语言双音模型，则于图2中不需有跨语言模型产生器，同时因为系统本身已是以多语混合训练而成，所以可不再需矫正模型，所以也无需如图4的正规化加权计算产生混合多语矫正模型。如果所应用的语音辨识系统，是以多个以不同语言个别训练成的语音辨识系统所组成，即以多个单一语言的双音模型结合而成，就必须进行如图4的正规化加权计算。

举例而言，可利用如图6的硬件架构实现本发明。如图所示，使用者于使用前可透过网络模块616或连接端口模块618与语音辨识系统进行连接。使用者可根据使用需求定义所需的辨识规则，如地址、车牌或身份证字号等。使用者于使用时，可透过麦克风602或电话接口604输入查询或指令，即语音信号输入600。

接着，由模拟信号至数字信号转换模块606，将语音信号输入600转换为数字信号。而语音辨识系统的程序软件置于只读存储器608、随机存取内存610以及闪存612中，数字信号处理单元614可进行数据处理、数据控制与资料辨识等工作。其中，如果所欲储存的资料为固定且变动性不大的资料，如网络协议、开机程序等可置于只读存储器608中。如果所欲储存的资料为变动性大且经常更新的资料，如各语言间的转换表、语音机率模型等可置于闪存612中。数字信号处理单元614于执行时间，会将辨识系统加载随机存取内存610中进行各项辨识分析。

最后，所得的结果透过数字信号至模拟信号转换模块622，转换为模拟信号，由喇叭624或电话接口626输出。此外，也可经由网络模块616或连接端口模块618对远程对象，进行对应的行动反应620。而且系统程序或者数据库等亦可由网络模块616或连接端口模块618进行程序升级与更新620。

其次，本发明提出一种利用双音模型实现混合多国语言的语音辨识方法，用以辨识混合多国语言的语音信号，并产生相对应的行动反应。如图7所示，图7是显示本发明的执行流程图。首先，将混合多国语言的语音信号转换为语音特征参数，再将语音特征参数转换为语音模型资料(步骤S700)。

接着，搜寻比对对应于语音模型资料的候选资料组，每一候选双音模型组具有多个可能的候选双音模型，而每一候选双音模型具有一比较相似度(步骤S702)，并评估出最佳的多个候选语音指令。步骤S702中的搜寻比对可根据多语模型数据库、语言及语法规则数据库以及混合多语查询指令字符串。

多语模型数据库包括混合多语字音对应资料以及混合多语矫正模型。混合多语字音对应资料是以多语建模程序建制而成，多语建模程序首先可参考多语字汇字典，将多语查询指令经过比对，得到与多语查询指令对应的多语音标序列。然后，分类多语音标序列进行分类，再参考跨语言资料表以及语法规则库，筛选组合已分类的多语音标序列，得到混合多语字音对应资料。混合多语矫正模型是以多语矫正模型产生程序建制而成。多语矫正模型产生程序首先将多语查询指令，参考单一语言双音模型库进行正规化计算，产生单一语言矫正模型，每一单一语言矫正模型对应于一种单一语言。接着，将单一语言矫正模型，进行加权计算得到上述混合多语矫正模型。

最后，根据比较相似度以及决策规则组，由每一候选双音模型组中决定结果语音模型资料(步骤S704)，并将所得的结果语音模型资料结合成语音指令(步骤S706)，可再依语音指令产生相对应的行动反应(步骤S708)。

综言之，本发明所揭示的装置及方法，透过双音模型的建制，实现混合多国语言的语音辨识功能，用以辨识混合多国语言的语音信号，并可产生语音指令，达到本发明所欲达到的目的。尤其在多国语言交叉混合及累积大量字汇的情形下，仍可具有相当良好的辨识成果，大幅改善现行技术所无法解决的问题。

Claims

1.一种利用双音模型实现混合多国语言的语音辨识装置，其用以辨识一混合多语的语音信号为一语音指令，其特征在于：所述语音辨识装置包括：

一语音建模器，用以接收上述混合多语的语音信号，将上述混合多语的语音信号转换为多个语音特征参数，再将上述语音特征参数转换为多个语音模型资料，其中上述语音模型资料是为具有双音模型的资料；

一语音搜寻器，其耦接于上述语音建模器，用以接收上述语音模型资料，并且搜寻比对分别对应于上述语音模型资料的多个候选资料组，每一候选资料组具有多个候选语音模型资料，及其对应的比较相似度，并评估出最佳的多个候选语音指令；

一决策反应器，其耦接于上述语音搜寻器，由上述候选语音指令中决定对应于上述语音模型资料的多个结果语音模型资料，并将上述结果语音模型资料结合成一语音指令。

2.根据权利要求1所述的利用双音模型实现混合多国语言的语音辨识装置，其特征在于：上述语音搜寻器，是根据一多语模型数据库进行搜寻比对。

3.根据权利要求2所述的利用双音模型实现混合多国语言的语音辨识装置，其特征在于：上述多语模型数据库包括多个混合多语字音对应资料。

4.根据权利要求3所述的利用双音模型实现混合多国语言的语音辨识装置，其特征在于：更包括一多语建模器，用以产生上述混合多语字音对应资料，其包括：

一多语音标序列对应器，将多个第一多语查询指令经过比对，得到对应的多个多语音标序列；

一跨语言双音模型产生器，其耦接于上述多语音标序列对应器，用以筛选组合上述多语音标序列，以得到上述混合多语字音对应资料。

5.根据权利要求2的利用双音模型实现混合多国语言的语音辨识装置，其特征在于：上述多语模型数据库包括多个混合多语矫正模型。

6.根据权利要求5所述的利用双音模型实现混合多国语言的语音辨识装置，其特征在于：更包括一多语矫正模型产生器，用以产生上述混合多语矫正模型，其包括：

至少一单一语言矫正模型产生器，用以接收多个第二多语查询指令，分别对应于多个既定语种进行正规化计算，产生多个单一语言矫正模型；

一矫正模型结合器，其耦接于上述单一语言矫正模型产生器，用以接收上述单一语言矫正模型，进行加权计算得到上述混合多语矫正模型。

7.根据权利要求1所述的利用双音模型实现混合多国语言的语音辨识装置，其特征在于：上述语音搜寻器，是根据上述语音模型资料连接的顺序以及一语音规则数据库进行评估。

8.一种利用双音模型实现混合多国语言的语音辨识方法，其用以辨识一混合多国语言的语音信号，其特征在于：包括下列步骤：

将上述混合多国语言的语音信号转换为多个语音特征参数，再将上述语音特征参数转换为多个语音模型资料，其中上述语音模型资料是为具有双音模型的资料；

搜寻比对分别对应于上述语音模型资料的多个候选资料组，每一候选资料组具有多个候选语音模型资料，及其对应的比较相似度，并评估出最佳的多个候选语音指令；

根据上述比较相似度，分别由上述候选资料组中决定对应于上述语音模型资料的多个结果语音模型资料，并将上述结果语音模型资料结合成一语音指令。

9.根据权利要求8所述的利用双音模型实现混合多国语言的语音辨识方法，其特征在于：上述双音模型搜寻比对的步骤中，上述搜寻比对是根据一多语模型数据库。

10.根据权利要求9所述的利用双音模型实现混合多国语言的语音辨识方法，其特征在于：上述多语模型数据库包括多个混合多语字音对应资料。

11.根据权利要求10所述的利用双音模型实现混合多国语言的语音辨识方法，其特征在于：更包括一多语建模程序，用以产生上述混合多语字音对应资料，包括下列步骤：

将多个第一多语查询指令经过比对，得到对应的多个多语音标序列；

筛选组合上述多语音标序列，以得到上述混合多语字音对应资料。

12.根据权利要求11所述的利用双音模型实现混合多国语言的语音辨识方法，其特征在于：筛选组合上述已分类的多语音标序列的步骤中，尚包括下列步骤：

先固定左侧音标，于右侧音标寻求对应结果；

当无法对应时固定右侧音标，于左侧音标寻求对应结果；

由对应结果得到上述混合多语字音对应资料。

13.根据权利要求9所述的利用双音模型实现混合多国语言的语音辨识方法，其特征在于：上述多语模型数据库包括多个混合多语矫正模型。

14.根据权利要求13所述的利用双音模型实现混合多国语言的语音辨识方法，其特征在于：更包括一多语矫正模型产生程序，用以产生上述混合多语矫正模型，包括下列步骤：

接收多个第二多语查询指令，分别对应于多个既定语种进行正规化计算，产生多个单一语言矫正模型；

将上述单一语言矫正模型进行加权计算，以得到上述混合多语矫正模型。

15.根据权利要求8所述的利用双音模型实现混合多国语言的语音辨识方法，其特征在于：评估出最佳的上述候选语音指令的步骤是根据上述语音模型资料连接的顺序以及一语音规则数据库进行评估。