CN1667701A

CN1667701A - 语音数据库建立与辨识方法以及系统

Info

Publication number: CN1667701A
Application number: CN 200410006207
Authority: CN
Inventors: 陈理律
Original assignee: Micro Star International Co Ltd
Current assignee: Micro Star International Co Ltd
Priority date: 2004-03-11
Filing date: 2004-03-11
Publication date: 2005-09-14

Abstract

本发明公开了一种语音数据库建立与辨识方法以及系统，其中语词分割模块将使用者通过一输入单元所输入的语音讯号，依据使用者预设的基准将该语音讯号分割成至少一母语音模块，并通过一储存模块将该母语音模块储存于一数据库中；该储存模块将对应该使用者所输入的语音讯号的母语音模块排列顺序储存于该数据库中；语音辨识模块于使用者通过该输入单元输入语音讯号时，依据使用者预设的基准将该语音讯号分割成至少一待辨识母语音模块；以及，语音辨识模块模块搜寻该数据库中是否有允符该待辨识母语音模块排列顺序资料，若有，则撷取出该排列顺序资料；若否，则列出该允符该母语音模块排列顺序之可能组合。通过该语音数据库建立与辨识方法以及系统的语词分割机制，提供一较精简的语音辨识数据库结构与一依据使用者特性而异的语音辨识方法以及系统。

Description

语音数据库建立与辨识方法以及系统

技术领域

本发明涉及一种语音数据库建立与辨识方法以及系统，特别是一种通过语词分割技术提升语音训练与辨识效率的方法与系统。

背景技术

随着电子信息产业发展的日新月异，各种功能强大且价格低廉的消费性电子信息产品纷纷问世，就以其中最为普遍的计算机而言，由于各种软件以及硬件在功能上不断的加强，相对的也让计算机能够处理的工作已不再像以往一般只限于程序运作或是数据处理，而是扮演着一个影像音声传播媒介的角色。换言之，计算机已经从公司或实验室走向家庭电器产品的领域中。

不单于计算机方面是如此，在另一方面，生活周围的各种电气化产品也越来越强调计算机化。通过各种嵌入式系统，如电视机、电冰箱或洗衣机等电气化产品，已经渐渐的具有小型计算机的功能。换言之，使用者通过简单的人机接口即可设定操作不同的功能选项。更进一步，使用者除单向的设定操作外，尚能与该电气化产品进行沟通，甚至与外界藉由电子邮件等方式联络。因此，以往单纯的家电产品也计算机化，而往信息家电的方向发展。

承前所述，不论是计算机家电化或是家电计算机化，使用者都必须通过人机接口与机器沟通，以输入单元为例，其中最常用的莫过于键盘按钮、鼠标或其它类似的输入单元。虽然该些输入单元可以提供使用者输入设定操作时所需的指令或数据，但是其仍有不方便之处，例如输入单元的体积对于讲求轻薄短小的设计观而言通常是困难点所在；其次，使用者未必为一熟黯计算机人士，抑或是其通过传统的输入方式与计算机沟通有所困难。以上种种对于落实计算机家电化或家电计算机化均为一障碍。

为解决此一问题，以语音输入代替传统文字或图像选择的输入方式，只需一个如麦克风般的声音输入单元，显然可以大幅减少产品的体积及所占用的空间。再者，使用者只需如对人沟通般的以口语方式说出指令即得与机器进行沟通，对于不黯计算机操作的使用者而言亦颇为方便。但是欲通过语音当作输入媒介，首先必须有一个资料丰富的语音数据库以及一有效率的辨识系统。

台湾公告第308666号专利揭露一种“智能型国语语音学习系统及其方法”，其技术特征在于经由机器先检测使用者所输入的学习例句的语音信号的特征参数后，经一用以辨认输入的学习例句的语音至计算其辨认结果与学习例句比较的符合率的辨认装置，以及一藉由使用者如学习例句的语音以训练使用者的语音模型并更新其中资料的训练装置。经过一组学习例句的训练后，该使用者的语音模型几已涵盖所有本身的语音特性，致使在正式上线使用时，能有效的依据该语音模型内的语音特性辨认使用者的输入信号。

前述的语音学习与辨识系统及方法系为现今语音辨识系统所习用技术。然其却存在着相当大的缺点，亦即使用者必须先依据接近预定的标准速度与音量朗读例句，藉以建立使用者的语音特征以降低系统辨识错误的机会，同时养成用清晰稳定的朗读方式输入语音的习惯。此种语音特征建立及识别的方式要求使用者迁就机器的识别习惯，不但欠缺人性化，对于反应较不敏捷的使用者而言则必须反复多次的尝试才能求得较佳的辨识效果。此外，使用者若有变更则必须重新调适(adjust)使用者特征，否则辨识率将下降。

此外，习知利用隐藏式马可夫模型(Hidden Markov Model；HMM)作为语音识别的判断基准，其缺点在于其模型的数量及内容系预先设定，当使用者设定模型数量及内容后，再输入符合该些模型之语音资料以完成模型的建立。而另一种动态时间校正法(Dynamic Time Warping；DTW)来进行语音的辨识技术，则以使用者预先所输入的完整语音资料作为比对基准，其并无所谓模块的概念。换言之，使用者输入的资料数及其内容即决定其所能够辨识的语音数量及其内容，一旦要求达到一定的辨识程度，则势必要建立相当庞大的数据库，同样的情形亦会发生在前述隐藏式马可夫模型语音识别技术中。

综上所述，如何能够提供一种更有效率的语音数据库建立与辨识方法以及系统，遂成为目前亟待解决的课题。

发明内容

本发明的目的是提供一种语音数据库建立与辨识方法以及系统，通过语词分割机制，增加数据库的样本数量，以增加语音训练与辨识成功的机率。

本发明的另一目的是提供一种语音数据库建立与辨识方法以及系统，通过语词分割机制，使用者无须自始重复学习例句的发音速度、频率及/或语调，故得于使用语音辨识前节省建立个人语音特征的时间。

本发明再一目的是提供一种语音数据库建立与辨识方法以及系统，通过语词组合机制，得将一定数量范围的语音资料加以排列组合成复杂的语词组合，故得节省大量的数据库资料量。

本发明再一目的是提供一种语音数据库建立与辨识方法以及系统，通过语词分割机制，即使使用者的发音未符标准，也仍能获得相当接近的辨识结果。

本发明的语音数据库建立与辨识系统包括：一语词分割模块，用以将使用者通过一输入单元所输入的语音讯号，依据使用者预设的基准将该语音讯号分割成至少一母语音模块，并将该母语音模块储存于一数据库中；一储存模块，将该语词分割模块所分割出的该至少一母语音模块，以及对应该输入讯号的母语音模块排列顺序储存至该数据库中；一语音辨识模块，在使用者通过该输入单元输入语音讯号时，依据使用者预设的基准将该语音讯号分割成至少一待辨识母语音模块，并搜寻该数据库中是否有允符该待辨识母语音模块排列顺序资料，若有，则撷取出该排列顺序资料；若否，则列出该允符该母语音模块排列顺序的可能组合。

通过该语音数据库建立与辨识系统，执行语音训练与辨识的方法系：首先，令该语词分割模块将使用者通过一输入单元所输入的语音讯号，依据使用者预设的基准将该语音讯号分割成至少一母语音模块，并通过一储存模块将该母语音模块储存于一数据库中；其次，令该储存模块将对应该使用者所输入的语音讯号的母语音模块排列顺序储存于该数据库中；接着，令该语音辨识模块于使用者通过该输入单元输入语音讯号时，依据使用者预设的基准将该语音讯号分割成至少一待辨识母语音模块；此外，令该语音辨识模块模块搜寻该数据库中是否有允符该待辨识母语音模块排列顺序资料，若有，则撷取出该排列顺序资料；若否，则列出该允符该母语音模块排列顺序的可能组合。

相较于习知之语音训练与辨识技术，本发明的语音数据库建立与辨识方法以及系统，除增加数据库的样本数量，以增加语音训练与辨识成功的机率外，还节省建立个人语音特征的时间。此外，即使使用者的发音未符标准，也仍能获得相当接近的辨识结果以增加辨识成功之机率。

下面藉由特定的具体实施例说明本发明的实施方式，本领域熟练技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可藉由其它不同的具体实施例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在背离本发明精神下进行各种修饰与变更。

附图说明

图1是一方框图，用以显示本发明的语音数据库建立与辨识系统的系统架构；以及

图2是一流程图，用以显示本发明的语音数据库建立与辨识方法执行时的流程步骤。

附图标记说明：1个人计算机；10输入单元；12语词分割模块；14数据库；16储存模块；18语音辨识模块。

具体实施方式

请参阅图1所示的实施例，本发明的语音数据库建立与辨识系统应用于一个人计算机1中，用以提供使用者通过本发明的语音数据库建立与辨识方法以及系统与该个人计算机1进行诸如操作及/或设定等沟通。需特别说明的是本发明的语音数据库建立与辨识系统以及该个人计算机1实际的系统软硬件架构更为复杂，为突显本发明的技术特征所在，故仅显示论述与本发明的技术特征相关的部分。本发明的语音数据库建立与辨识方法以及系统得应用于工作站、笔记型计算机、液晶计算机、平板计算机、掌上型计算机、个人数字助理以及移动电话等其中之一

本发明的语音数据库建立与辨识系统至少包括：一输入单元10、一语词分割模块12、一数据库14、一储存模块16以及一语音辨识模块18。

该输入单元10将使用者的语音讯号输入至该语音数据库建立与辨识系统中的具有集音功能的单元，于本实施例中，是一麦克风(microphone)。

该语词分割模块12用以将使用者通过该输入单元10所输入的语音讯号，依据使用者预设的基准将该语音讯号分割成至少一母语音模块。于本实施例中，该语词分割模块12包括一模拟数字换单元(未示出)，用以将使用者所输入的模拟语音讯号转换成数字讯号，因此，当使用者于建立语音数据库时，通过该输入单元10输入一组语词“今天天气很好”的模拟语音讯号时，该语词分割模块12随即将该转换成数字讯号加以处理。于完成数字讯号格式的转换后，该语词分割模块12随即将该组语词“fat”，依据使用者所设定语音分割基准，进行该组与词的分割。

于本实施例中，本发明的语词分割模块分析语音讯号在频谱上的分布关系。简言之，当使用者通过该输入单元10输入由口中所发出的语音时，得经过时域转频域的运算(傅立叶转换)以得到语音讯号在频谱上的资料，该原始资料至少包括频率、能量以及时间的关系，在某一时间点t附近的时间点(...t-2、t-1、t+1、t+2...)得到每个频率上的能量数据，藉由计算其平均数和相关系数，以取得相互间的差异性。此外，在“频率”与“时间”的二维数据里，利用二维影像的边缘检测原理，以得到两不相似语音片段之分界，再使用可变动之阈值，此阈值会因语音资料和环境的不同而有所变更，藉以鉴别出某一时间点与另一时间点在频率上的能量变化有显着且超出阈值的表现，俾作为分割语词之依据。又，在分割线与分割线之间即得为相似的母语音模块。换言之，在某一组语词资料输入后，经过前述之语词分割技术之计算与处理，即可得到至少一母语音模块。

承前所述，于本实施例中，使用者所输入之该组语词得被分割为“f”、“a”以及“t”等三个部分。于本实施例中，设该“f”、“a”以及“t”等三个部分分别为母语音模块“A”、“B”以及“C”。亦即，由母语音模块所组成之模块“ABC”即代表“fat”。

该储存模块14，其系用以将该语词分割模块12所分割出之该至少一母语音模块，以及对应该输入讯号之母语音模块排列顺序储存至该数据库14中。承前所述，于本实施例中，使用者通过该输入单元10所输入的该组语词得被分割为“f”、“a”以及“t”等三个部分，故该储存模块14随即将该“A”、“B”以及“C”等三个母语音模块，以及模块“ABC”储存于该数据库14中。

此外，于该数据库14建立的过程中，使用者复得通过该输入单元10输入音与音间的前后顺序关系(sequential cue)较长(f-a之间拉长音)的“fat”以及前后顺序关系较短(f-a-t之间均为促音)的“fat”。其中，假设对应该f-a之间拉长音的“fat”的模块为“DC”；而对应该f-a-t之间前后顺序较短的“fat”的模块为“E”。则使用者德将该“ABC”、“DC”以及“E”模块所对应的语词组均视为“fat”。

该语音辨识模块18，在使用者通过该输入单元10输入语音讯号时，依据使用者预设的基准将该语音讯号分割成至少一待辨识母语音模块，并搜寻该数据库14中是否有允符该待辨识母语音模块排列顺序资料，若有，则撷取出该排列顺序资料；若否，则列出该允符该母语音模块排列顺序的可能组合。承前所述，于本实施例中，该语音辨识模块18的语音讯号分割方式与前述的该语词分割模块12相同，通过前述的分割技术，得将使用者通过该输入单元10所输入待辨识的语音讯号，分割成至少一待辨识母语音模块。

此时，若使用者输入一组语词“fat”，则该语音辨识模块18将会分割为“f”、“a”以及“t”等三个待辨识母语音模块，亦即三个待辨识母语音模块模块“A”、“B”以及“C”所组成之待辨识模块“ABC”。之后，再通过动态时间校正技术，搜寻该数据库14中是否有储存允符该待辨识模块“ABC”的语词数据，若有则辨识出使用者通过该输入单元10所输入的语词为“fat”；若无相允符的母语音模块排列顺序，则将与该些母语音模块相符的可能组合自该数据库14检索出来，供使用者进一步的确认其所输入的语词资料为何。据此，使用者可以依据所列出的可能进行排列顺序资料的建立。

需特别说明，若使用者通过该输入单元10所输入的“fat”为f-a之间拉长音的“fat”或f-a-t之间前后顺序较短的“fat”。则该语音辨识模块18所辨释出的模块将会分别是“DC”或“E”。承前所述，由于使用者于该数据库10建立的过程中，已将前述拉长音或短音的“fat”模块“DC”或“E”所对应之语词组均设定为“fat”。故纵使使用者通过该输入单元10所输入的并非标准的“fat”语音资料则该语音辨识模块18仍得辨识出该语词组“fat”。

另一方面，若使用者建立了对应语词组“fact”的另一模块“ABFC”。则当使用者通过该输入单元10输入“fact”，然因使用者的发音不标准而未将该“c”音的母语音模块确实辨识出时，该语音辨识模块18复得藉由如辨识机率高低等一加权值(weighted value)机制，以判定该不标准的语音所对应之模块为“ABC”或“ABFC”，若“ABC”的辨识机率较高则该语音辨识模块18则会将使用者所输入的语音辨识成对应“ABC”模块的语词组“fat”。

请参阅第2图，其中显示本发明的语音数据库建立与辨识方法时的流程步骤：

于步骤S201中，令该语词分割模块12将使用者通过该输入单元10所输入的语音讯号，依据使用者预设的基准将该语音讯号分割成至少一母语音模块。承前所述，于本实施例中，当使用者于建立语音数据库时，得通过该输入单元10输入一组语词“fat”的模拟语音讯号时，该语词分割模块12随即将该转换成数字讯号加以处理，并将其分割成“f”、“a”以及“t”等三个部分。当分割完成后，再将该些不同的母语音模块将储存于该数据库14中。接着进行步骤S202。

于步骤S202中，令该储存模块14将该语词分割模块12所分割出的该至少一母语音模块，以及对应该输入讯号的母语音模块排列顺序储存至该数据库14中。承前所述，于本实施例中，该储存模块14将使用者通过该输入单元10所输入的三个母语音模块“f”、“a”以及“t”所排列出“fat”的顺序加以储存至该数据库14中，接着进行步骤S203。

于步骤S203中，令该语音辨识模块18于使用者通过该输入单元10输入语音讯号时，依据使用者预设的基准将该语音讯号分割成至少一待辨识母语音模块。承前所述，于本实施例中，该语音辨识模块18的语音讯号分割方式与前述的该语词分割模块12相同，通过前述的分割技术，将使用者通过该输入单元10所输入待辨识的语音讯号，分割成至少一待辨识母语音模块。承前所述，若使用者输入一组语词“fat”，则该语音辨识模块18将会分割为“f”、“a”以及“t”等三个待辨识母语音模块，接着进行步骤S204。

于步骤S204中，令该语音辨识模块18搜寻该数据库14中是否有允符该待辨识母语音模块排列顺序资料。承前所述，于本实施例中，该语音辨识模块18通过动态时间校正的技术，搜寻该数据库14中是否有储存允符该“fat”排列顺序的语词资料，若是，则进至步骤S205；若否，则进至步骤S206。

于步骤S205中，令该语音辨识模块18辨识出使用者通过该输入单元10所输入的语词为“fat”。

于步骤S206中，令该语音辨识模块18将与该些母语音模块相符的可能组合自该数据库14检索出来，供使用者进一步的确认其所输入的语词资料为何。

综上所述，本发明的语音数据库建立与辨识方法以及系统，除得以增加数据库之样本数量且不致于无限扩张数据库的语音样本数量的前提下，增加语音训练与辨识成功的效率，复得节省建立个人语音特征的时间。本发明的语音数据库建立与辨识方法以及系统复得结合文字转语音(Text ToSpeech；TTS)而成为交互式对话系统。

上述实施例仅为例示性说明本发明的原理及其功效，而非用于限制本发明。本领域任何熟练技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与变化。因此，本发明的保护范围由权利要求确定。

Claims

1、一种语音数据库建立与辨识方法，应用于一数据处理装置上，用以提供该数据处理装置语音辨识的功能，包括以下步骤：

(1)语词分割模块将使用者通过一输入单元所输入语音讯号，依据使用者预设的基准将该语音讯号分割成至少一母语音模块，并通过一储存模块将该母语音模块储存于一数据库中；

(2)储存模块将对应该使用者所输入的语音讯号的母语音模块排列顺序储存于该数据库中；

(3)语音辨识模块在使用者通过该输入单元输入语音讯号时，依据使用者预设的基准将该语音讯号分割成至少一待辨识母语音模块；

(4)语音辨识模块模块搜寻该数据库中是否有允符该待辨识母语音模块排列顺序资料，若有，则进至步骤(5)；若否，则进至步骤(6)；

(5)语音辨识模块撷取出允符该排列顺序资料；以及

(6)该语音辨识模块列出该允符该母语音模块排列顺序的可能组合。

2、如权利要求1所述的方法，包括在语词分割模块分割语音讯号前，使语词分割模块将所接收的模拟语音讯号转换成数字讯号格式。

3、如权利要求1所述的方法，其中，该语词分割模块分析语音讯号在频谱上的分布关系，该频谱的分布关系包括“频率”与”时间”二维数据，利用二维影像的边缘检测原理，得到两不相似语音片段的分界，且该语音片段的分界为一可变动之阈值，该阈值因语音资料和环境的不同而变更，藉以鉴别出某一时间点与另一时间点在频率上的能量变化显著且超出阈值的情况，作为分割语词的依据。

4、如权利要求1所述的方法，其中，该语词分割模块以该语音资料的速度、能量及频率其中之一为分割依据。

5、如权利要求1所述的方法，包括将不同的母语音模块排列顺序设定为对应相同的语词组。

6、如权利要求1所述的方法，其中，该语音辨识模块通过动态时间校正(Dynamic Time Warping；DTW)技术，与该数据库中的母语音模块以及特定的母语音模块排列顺序进行比对，以获得最接近使用者所输入语音内容的结果。

7、如权利要求1所述的方法，其中，语音辨识模块模块通过一预设的加权值作为搜寻该数据库中是否有允符该待辨识母语音模块排列顺序资料的判断基准。

8、如权利要求1所述的方法，其中，该数据处理装置可为采用个人计算机兼容及嵌入式其中之一数据处理系统。

9、如权利要求8所述的方法，其中，该个人计算机兼容数据处理系统可为工作站、个人计算机、笔记型计算机、液晶计算机、平板计算机、掌上型计算机、个人数字助理以及移动电话其中之一。

10、一种语音数据库建立与辨识系统，应用于一数据处理装置上，用以提供该数据处理装置语音辨识功能，包括：

一语词分割模块，用以将使用者通过一输入单元所输入的语音讯号，依据使用者预设的基准将该语音讯号分割成至少一母语音模块，并将该母语音模块储存于一数据库中；

一储存模块，用以将该语词分割模块所分割出的该至少一母语音模块，以及对应该输入讯号的母语音模块排列顺序储存至该数据库中；以及

一语音辨识模块，在使用者通过该输入单元输入语音讯号时，依据使用者预设的基准将该语音讯号分割成至少一待辨识母语音模块，并搜寻该数据库中是否有允符该待辨识母语音模块排列顺序资料，若有，则撷取出该排列顺序资料；若否，则列出该允符该母语音模块排列顺序的可能组合。