CN1180398C

CN1180398C - 一种语音辨识方法及系统

Info

Publication number: CN1180398C
Application number: CNB001076914A
Authority: CN
Inventors: 封家麒
Original assignee: Individual
Current assignee: Individual
Priority date: 2000-05-26
Filing date: 2000-05-26
Publication date: 2004-12-15
Anticipated expiration: 2020-05-26
Also published as: CN1326183A

Abstract

一种语音辨识方法及系统，适用于辨识人所发出来的语音，在无须事先建立每个人专属的个人语音与文字的对应资料库情形下，应用本发明人所研发的辨识语音原则，以通用的语音文字对应资料库，来分析、判别语音所对应的表征波形的物理特性，而能判断出语音所对应的文字、每个人语音的音色、以及语音的音调。此语音辨识方法及系统除了可辨识出无四声变化的语音所对应的文字外，尚可辨识出具有四声变化的中文语音所对应出的中文字。

Description

一种语音辨识方法及系统

本发明是有关于一种以分析语音波形来进行语音辨识方法及系统，更详而言之，是有关于一种语音辨识方法及系统，在无须事先建立个人专属的语音与文字的对应资料库情形下，利用辨识语音原则，以通用的语音与文字对应资料库，将语音音包区分为子音、风声以及母音部份，并取出首频以及尾频，而辨识出语音所对应的文字、每个人语音的音色以及语音的音调。

本发明中所称的音包表示人们说话时的每个音节，一个音节可能包括子音部分、母音部分以及本发明人称为风声的部分，如附图的图7(b)所示为音节中频率特高的爆擦音的部分，本发明中所称的辨识语音原则为利用经过图7(a)、7(b)所示的频率特性图分别显示每一音包(也就是音节)的特色的方法。

关于本发明中所称的辨识语音原则，以下将作详尽的说明。在现有的情况下，一般的语音辨识方法及系统，均利用取样方式，对每个人的语音音包所对应的声音波形进行分段取样，将每段的声音样本的语音频率、振幅波形以及波形载波的不同特性，预先储存于资料库中，待资料库中已存有使用者个人的语音频率、振幅波形、以及波形载波资料后，使用者才可进行个人语音比对、辨识工作。均是在发声者使用语音辨识方法及系统前，预先建立起个人专属的语音文字对应资料库，此资料库将包含大量的语音与文字的对应资料，无法以一种利用辨识语音原则以及通用的语音文字对应资料库来进行语音辨识。

现有技术的缺点在于，在进行语音辨识时，对于不同使用者而言，即便是每个人所发出的语音所代表的文字均相同，但是由于地域性的不同口音、每个人所发出的语音频率、振幅波形以及波形载波的特性不同，所以每个使用者自己所建立的语音文字对应资料库将有所不同。每个人在进行同一文字的语音辨识之前，必须先行利用取样方式，对同一文字的各人语音音包所对应的声音波形进行分段取样，将每段的声音样本的语音频率、振幅波形、以及波形载波的不同特性，预先储存于资料库中。也就是，必须先行建立每个人的语音与文字的对应资料库，才可再进行文字语音的辨识工作，而无法以一种辨识语音原则的型式，以通用的语音文字对应资料库来辨识每个人所发出的同一文字的语音。

例如，每个人所发出的语音所代表的文字均为[巴]字，但是由于地域性的不同口音、每个人所发出的语音的频率、振幅波形以及波形载波的特性不同，所以每个人所发出的[巴]字语音音包所对应的波形将不相同。每个人在进行识别[巴]字语音之前，必须先行利用取样方式，对自己的[巴]字语音音包所对应的声音波形进行分段取样，将每段的声音样本的语音频率、振幅波形以及波形载波的不同特性，预先储存于资料库中。也就是，每个人必须预先建立个人的[巴]字语音文字对应资料库，才可对[巴]字语音进行辨识，无法在个人未建立起专属的[巴]字语音文字对应资料库的情形下，无法利用一种辨识语音原则以及通用的语音文字对应资料库，而辨识个人所发出的[巴]字语音。由于无法利用一种辨识语音原则以及通用的语音文字对应资料库来进行语音辨识，所以习知的语音辨识方法及系统在进行语音辨识时，所建立起的个人专属语音文字对应资料库将极为庞大，而使得语音辨识工作将更为困难，况且，习知的语音辨识方法及系统，无法分辨出每个人语音的音色以及无法判断出发声者的情绪表现。

综观现有的语音辨识方法及系统，均是事先建立各个不同使用者的语音以及所对应的文字资料库，待资料库建立后，再进行语音与资料库的比对、辨识工作，而不是利用辨识语音原则以及通用的语音文字对应资料库来进行语音辨识。若使用者是第一次进行语音辨识，由于尚未建立起其专属的个人语音与文字的对应资料库，因而此使用者将无法进行语音辨识工作。再则，由于各种地域性的口音问题，必须建立起不同的语音与文字的对应资料库，所以整个语音辨识系统的语音与文字的对应资料库将极为庞大，而增加了利用语音文字对应资料库来进行语音比对、辨识的困难度。必须针对各个使用者而建立其专属的语音与文字对应资料库，而无法以一种通则性的语音辨识原则以及通用的语音文字对应资料库来进行语音辨识，并且也无法分辨出每个人语音的音色以及无法判断出发声者的情绪表现。

所以如何以一种语音辨识方法及系统，在使用者无须预先建立个人专属的语音文字对应资料库，并可适用于不同使用者以及不同地域性口音的情形下，以一种通则性的语音辨识原则以及通用的语音文字对应资料库来进行语音辨识，于任何使用者的环境，能对使用者所发出的语音予以辨识而得出此语音所对应代表的文字为何，并能分辨出每个人语音的音色以及判断出发声者的情绪表现，能利用通则性的语音辨识原则以及通用的语音文字对应资料库，以一种新颖的语音辨识方法及系统，来辨识每个使用者所发出的语音以及语音所代表的音色、情绪反应，还是待解决的问题。

为了解决上述现有语音辨识方法及系统的必须预先建立各个使用者的专属的语音文字对应资料库后，方能对使用者所发出的语音进行辨识的问题，我们采用了一种语音辨识方法及系统，在无须事先建立每个人专属的个人语音与文字的对应资料库情形下，应用辨识语音原则，以通用的语音文字对应资料库，来分析、判别语音所对应的表征波形的物理特性，而能判断出语音所对应的文字、每个人语音的音色以及语音的音调。本发明的语音辨识方法及系统，无须预先建立专属于各个人的语音与文字的对应资料库，而是应用辨识语音原则，以通用的语音文字对应资料库来辨识语音，在无论是否为第一次进行语音辨识的情形下，让任何人所发出的语音都能被辨识出来。

本发明的主要目的在于提供一种语音辨识的方法及系统，让使用者可在无须事先建立其专属的语音文字对应资料库的情况下，应用辨识语音原则以及通用的语音文字对应资料库，根据使用者所发出的语音，而得以辨识出所发出的语音为何。

本发明的另一目的在于提供一种语音辨识的方法及系统，让使用者可在无须事先建立其专属的语音文字对应资料库的情况下，应用辨识语音原则以及通用的语音文字对应资料库，将使用者所发出的语音音包区分为子音、风声以及母音部份，而得以辨识出使用者所发出的语音所对应的文字为何。

本发明的又一目的在于提供一种语音辨识的方法及系统，让使用者可在无须事先建立其专属的语音文字对应资料库的情况下，应用辨识语音原则以及通用的语音文字对应资料库，将使用者所发出的语音音包区分为子音、风声以及母音部份，并对整个语音音包进行处理而取出首频以及取出尾频，配合母音部份的频率以及波形振幅外廓变化情形，而得以辨识出使用者所发出的语音所对应的文字以及分辨出具有声调变化的语音声调。

本发明的又一目的在于提供一种语音辨识的方法及系统，让使用者可在无须事先建立其专属的语音文字对应资料库的情况下，应用辨识语音原则以及通用的语音文字对应资料库，将使用者所发出的语音音包区分为子音、风声以及母音部份，并对整个语音音包进行处理而取出首频以及取出尾频，配合母音部份的频率以及波形振幅外廓变化情形，而得以辨识出使用者所发出的语音所对应的中文文字以及分辨出中文语音中的四声变化所对应的中文文字。

本发明的另一目的在于提供一种语音辨识的方法及系统，让使用者可在无须事先建立其专属的语音文字对应资料库的情况下，应用辨识语音原则以及通用的语音文字对应资料库，对整个语音音包的载波以及其上的调变锯齿波边缘，做分析处理而可得到语音的音色特征，而辨识出发声者的音色。

本发明的另一目的在于提供一种语音辨识的方法及系统，让使用者可在无须事先建立其专属的语音文字对应资料库的情况下，应用辨识语音原则以及通用的语音文字对应资料库，对整个语音音包的音量变化进行分析处理而可得出说话者的情绪反应。

根据以上所述的目的，本发明提供了一种新颖的语音辨识方法及系统，在无须事先建立每个人专属的个人语音与文字的对应资料库情形下，应用辨识语音原则，以通用的语音文字对应资料库，来分析、判别语音所对应的表征波形的物理特性，而能判断出语音所对应的文字、每个人语音的音色以及语音的音调。语音辨识系统应用语音辨识原则，而将语音音包区分为子音、风声以及母音部份，并对整个语音音包进行处理而取出首频以及尾频，对子音、风声以及母音部份分别进行辨识、处理以及组合。将子音以及母音予以组合后，应用辨识语音原则，对由子音与母音所构成的语音以及通用的语音文字对应资料库进行比对，以得到发声者发出的语音所对应的文字为何。应用辨识语音原则，对整个语音音包的载波以及其上的调变锯齿波边缘，做分析处理而可得到语音的音色特征。应用辨识语音原则对整个语音音包的音量变化、音调高低进行分析、处理，而得出说话者的情绪反应，此情绪反应与语音音包的音量变化、音调高低有关。除了能利用子音以及母音的组合，而辨识出语音所对应的文字外，尚能利用首频、尾频的运算判断法则，配合母音部份的频率以及波形振幅外廓变化情形，辨识出中文语音中的四声变化。以子音以及母音的组合，加上中文语音中的四声变化，而得以正确地辨识出中文发音所对应的中文字。也就是，此语音辨识方法及系统除了可辨识出无四声变化的语音所对应的文字之外，例如无四声变化的西方文字语言，尚可辨识出具有四声变化的中文语音所对应出的中文字。本发明的语音辨识方法及系统，使用者可在无须事先建立其专属的语音文字对应资料库的情况下，应用辨识语音原则来判别语音所对应的表征波形物理特性，而能辨识出语音所对应的文字、每个人语音的音色以及语音的音调。

本发明的语音辨识系统含有语音转换处理模组、语音辨识原则资料库、语音辨识处理模组以及通用的语音文字对应资料库。语音辨识原则资料库中包含辨识语音原则，此些语音辨识原则用来对语音音包进行处理，将语音音包区分为子音、风声以及母音部份，并取出语音音包的首频以及尾频，利用语音辨识原则对子音、风声以及母音部份分别进行辨识，以判断出子音以及母音为何，语音辨识原则并以首频、尾频的运算判断法则，配合母音部份的频率以及波形振幅外廓变化情形，而辨识出中文语音中的四声变化，语音辨识原则并可将辨识出的子音、母音部份，或者子音、母音部份以及四声变化予以组合，并将所得出的语音组合与语音文字对应资料库进行比对，以得出语音所对应的文字为何。通用的语音文字对应资料库则包含语音所对应的文字资料库，语音由子音、母音，或者由子音、母音以及四声变化所组合而成。语音转换处理模组是用以将使用者所发出的语音转变为所对应的物理表征波形讯号，并将此讯号输入到语音辨识模组以供做语音辨识处理。语音辨识处理模组则根据语音辨识原则资料库中的辨识语音原则，而对此波形讯号进行处理，将语音音包区分为子音、风声以及母音部份，并将对语音音包进行处理而取出首频、以及尾频，语音辨识处理模组并根据辨识语音原则，对语音音包进行子音、风声以及母音部份分别进行辨识、处理以及组合，语音辨识处理模组将辨识出的子音、母音部份，或者子音、母音部份以及四声变化予以组合，并将所得出的语音组合与语音文字对应资料库进行对比，以得出语音所对应的文字为何。于进行发声者音色判别时，语音辨识处理模组根据语音辨识原则资料库中的辨识语音原则，将对整个语音音包的载波以及其上的调变锯齿波边缘，做分析处理而可得到语音的音色特征，而辨识出每个人的音色。于进行发声者情绪判断时，语音辨识处理模组根据语音辨识原则资料库中的辨识语音原则，对整个语音音包的音量变化进行分析处理，整个语音音包的音量变化与音调有关并代表说话者的情绪，而可得出说话者的情绪反应。

在进行语音辨识过程时，首先，将使用者所发出的语音转变为所对应的物理表征波形讯号。接着，再经由语音辨识原则对语音所对应的波形讯号的表征波形物理特性进行分析，以取出此波形的各项特征参数出来，将语音音包区分为子音、风声、以及母音部份，并对整个语音音包进行处理而取出首频以及取出尾频。进而，利用语音辨识原则，以子音、风声以及母音的物理特征参数，来对此波形的各项特征参数进行比对、辨识，而将语音音包所对应的波形区分为子音、风声以及母音部份。待将波形区分为子音、风声以及母音部份后，针对子音、风声以及母音所具有的波形特征进行判断，而得出子音部份所对应的文字子音为何，以及母音部份所对应的文字母音为何。进而，利用语音辨识原则而组合所辨识出的文字子音以及文字母音，并将组合后，由文字子音以及文字母音所构成的组合语音与通用的语音文字对应资料库进行比对，而得出发声者发出的语音所对应的文字。对于辨识中文语音而言，除了分辨并得出语音的子音部份所对应的文字子音为何，以及母音部份所对应的文字母音为何之外，并需要去判别中文字所特有的四声发音变化。所以，在此，将利用首频、尾频的判断法则，配合母音部份的频率以及波形振幅外廓变化情形，而分辨出中文语音中的四声变化。待得出四声变化后，配合之前所得到的中文文字子音以及母音，利用语音辨识原则而组合所辨识出的文字子音、文字母音、以及四声变化情形，并将组合后的语音与通用的语音文字对应资料库进行对比，而得出发声者发出的具四声变化的中文语音所对应的中文字为何。所以利用本发明的语音辨识方法时，除了可辨识出无四声变化的语音所对应的文字之外，还可辨识出具有四声变化的中文语音所对应出的中文字。于进行发声者音色判别时，将对整个语音音包的载波以及其上的调变锯齿波边缘，做分析处理而可得到语音的音色特征，而辨识出每个人的音色。于进行发声者情绪判断时，对整个语音音包的音量变化进行分析处理，整个语音音包的音量变化与音调有关并代表说话者的情绪，而可得出说话者的情绪反应。在无须预先建立每个人专属的语音辨识资料库的型态下，应用辨识语音原则，以通用的语音文字对应资料库，来分析、判别语音所对应的表征波形的物理特性，而能判断出语音所对应的文字、每个人语音的音色以及语音的音调。

为让本发明的上述和其它目的，特征，优点能更明显易懂，将举一较佳实施例，并配合所附图示，详细说明本发明的实施例，所附图式的内容简述如下：

图1为一系统方块图，其中显示应用本发明的语音辨识方法及系统的系统基本组织架构的方块模组图；

图2为表示图1的语音辨识系统的运作流程图，其中显示应用本发明的语音辨识系统进行语音辨识方法，以对语音进行辨识的工作原理的流程程序；

图3为表示图1的语音辨识系统的运作流程图，其中显示应用本发明的语音辨识系统进行语音辨识方法，以进行语音辨识、音色以及发音情绪判断处理的工作原理的流程程序；

图4为一运作流程图，用以更详细地解释在图3中的对语音进行辨识的工作原理的流程程序；

图5为一运作流程图，用以更详细地解释在图3中的对语音进行语音辨识、音色以及发音情绪判断处理的工作原理的流程程序；

图6为一运作流程图，用以更详细地解释在图4中的辨识出使用者所发出的中文语音所对应的文字的工作原理的流程程序；

图7(a)为一示意图，用以解释语音波形的组成特性结构；

图7(b)为一示意图，用以解释子音、风声、以及母音部份；

图7(c)为一示意图，用以解释在图7(b)中子音区的爆发音的波形特性；

图7(d)为一示意图，用以解释在图7(b)中子音区的爆擦音的波形特性；

图8为一示意图，用以解释在图7(b)中的语音波形的母音部份的组成特性结构；

图9为一示意图，用以解释在图7(b)中的语音波形的母音部份的组成特征参数；

图10为一示意图，为关于中文四声声调变化的声调频率统计；以及

图11为一示意图，用以说明[巴]字的子音以及母音部份的波形，并应用辨识语音原则进行识别。

附图1中：

1语音辨识系统

2语音转换处理模组

3语音辨识原则资料库

4语音辨识处理模组

5语音文字对应资料库图1为一系统方块图，其中显示应用本发明的语音辨识方法及系统的系统基本组织架构的方块模组图。如图中所示，本发明的语音辨识系统1含有语音转换处理模组2、语音辨识原则资料库3、语音辨识处理模组4以及通用的语音文字对应资料库5。语音转换处理模组2可为将语音转换成为电子讯号的电子装置，语音辨识处理模组4可为电脑主机，而语音辨识原则资料库3以及通用的语音文字对应资料库5，则可储存于电脑的记忆装置内。

语音辨识原则资料库3中包含辨识语音原则，此些辨识语音原则包含区分语音音包为子音、风声以及母音部份的规则、取出语音音包首频以及尾频的规则、辨识子音、风声以及母音的规则、辨识四声变化的规则、组合子音与母音的规则、组合子音母音与四声变化的规则、辨识语音音包音色的规则以及辨识语音音包音量变化的规则。此些语音辨识原则用来对语音音包进行处理，将语音音包区分为子音、风声以及母音部份，并取出语音音包的首频以及尾频，利用语音辨识原则对子音、风声以及母音部份分别进行辨识，以判断出子音以及母音为何，语音辨识原则并以首频、尾频的运算判断法则，配合母音部份的频率以及波形振幅外廓变化情形，而辨识出中文语音中的四声变化，语音辨识原则并可将辨识出的子音、母音部份，或者子音、母音部份以及四声变化予以组合，并将所得出的语音组合与语音文字对应资料库5进行比对，以得出语音所对应的文字为何。

通用的语音文字对应资料库5则包含语音所对应的文字资料库，语音由子音、母音，或者由子音、母音、以及四声变化所组合而成，语音具有相对应的文字，语音与文字互相对应，组合语音而得出所发出的语音所代表的文字。

语音转换处理模组2是用以将使用者所发出的语音转变为所对应的物理表征波形讯号，并将此讯号输入到语音辨识模组4以供做语音辨识处理。

语音辨识处理模组4则根据语音辨识原则资料库3中的辨识语音原则，而对此波形讯号进行处理，将语音音包区分为子音、风声以及母音部份，并将对语音音包进行处理而取出首频以及尾频，语音辨识处理模组4并根据辨识语音原则，对语音音包进行子音、风声以及母音部份分别进行辨识、处理以及组合，语音辨识处理模组4将辨识出的子音、母音部份，或者子音、母音部份以及四声变化予以组合，并将所得出的语音组合与通用的语音文字对应资料库5进行比对，以得出语音所对应的文字为何。

在进行发声者音色判别时，语音辨识处理模组4根据语音辨识原则资料库3中的辨识语音原则，将对整个语音音包的载波以及其上的调变锯齿波边缘，做分析处理而可得到语音的音色特征，而辨识出每个人的音色。在进行发声者情绪判断时，语音辨识处理模组4根据语音辨识原则资料库3中的辨识语音原则，对整个语音音包的音量变化进行分析处理，整个语音音包的音量变化与音调有关并代表说话者的情绪，而可得出说话者的情绪反应。

图2为表示图1的语音辨识系统的运作流程图，其中显示应用本发明的语音辨识系统进行语音辨识方法，以对语音进行辨识、处理的工作原理的流程程序。如图中所示，在步骤11，语音转换处理模组2接收语音，将使用者所发出的语音转变为所对应的物理表征波形讯号，并将此讯号输入到语音辨识模组4以供做语音辨识处理，并进到步骤12。

在步骤12，语音辨识原则资料库3、语音辨识处理模组4以及通用的语音文字对应资料库5将配合运作，语音辨识处理模组4将则根据语音辨识原则资料库3中的辨识语音原则，而对自语音转换处理模组2而输入的波形讯号进行处理，将语音音包区分为子音、风声以及母音部份，并将对语音音包进行处理而取出首频以及尾频，并进到步骤13。

在步骤13，语音辨识处理模组4并根据辨识语音原则，对语音音包进行子音、风声以及母音部份分别进行辨识、处理以及组合，语音辨识处理模组4将辨识出的子音、母音部份，或者子音、母音部份以及四声变化予以组合，并进到步骤14。

在步骤14，语音辨识处理模组4将所得出的语音组合与通用的语音文字对应资料库5进行比对，以得出语音所对应的文字为何，将结束此语音辨识过程。

图3为表示图1的语音辨识系统的运作流程图，其中显示应用本发明的语音辨识系统进行语音辨识方法，以进行语音辨识、音色以及发音情绪判断处理的工作原理的流程程序。如图中所示，在步骤21，语音转换处理模组2接收语音，将使用者所发出的语音转变为所对应的物理表征波形讯号，并将此讯号输入到语音辨识模组4以供做语音辨识处理，并进到步骤22。

在步骤22，语音辨识原则资料库3、语音辨识处理模组4以及通用的语音文字对应资料库5将配合运作，语音辨识处理模组4将则根据语音辨识原则资料库3中的辨识语音原则，而对自语音转换处理模组2而输入的波形讯号进行处理，将语音音包区分为子音、风声以及母音部份，并将对语音音包进行处理而取出首频以及尾频，并进到步骤23。

在步骤23，语音辨识处理模组4根据辨识语音原则，对语音音包进行子音、风声、以及母音部份分别进行辨识、处理以及组合，语音辨识处理模组4将辨识出的子音、母音部份，或者子音、母音部份以及四声变化予以组合，并进到步骤24。

在步骤24，语音辨识处理模组4将所得出的语音组合与通用的语音文字对应资料库5进行比对，以得出语音所对应的文字为何，并进到步骤25。

在步骤25，进行发声者音色判别时，语音辨识处理模组4根据语音辨识原则资料库3中的辨识语音原则，将对整个语音音包的载波以及其上的调变锯齿波边缘，做分析处理而可得到语音的音色特征，而辨识出每个人的音色；在进行发声者情绪判断时，语音辨识处理模组4根据语音辨识原则资料库3中的辨识语音原则，对整个语音音包的音量变化进行分析处理，整个语音音包的音量变化与音调有关并代表说话者的情绪，而可得出说话者的情绪反应，并将结束此语音辨识过程。

图4为一运作流程图，用以更详细地解释在图2中的对语音进行辨识的工作原理的流程程序。如图中所示，在步骤31，语音转换处理模组2是用以将使用者所发出的语音转变为所对应的物理表征波形讯号，并将此讯号、输入到语音辨识模组4以供做语音辨识处理，并进到步骤32。

在步骤32，语音辨识模组4收到由语音转换处理模组2而来的波形讯号，根据语音辨识原则资料库3中的辨识语音原则，经由分析、利用语音音包的表征波形物理特性，取出此波形的各项特征参数出来，并进到步骤33。

在步骤33，依此波形的各项特征参数，来辨识出子音、风声以及母音的特征，而对此波形讯号的语音音包进行处理，将语音音包区分为子音、风声以及母音部份，并将对语音音包进行处理而取出首频以及尾频，并进到步骤34。

在步骤34，待将波形区分为子音、风声以及母音部份后，语音辨识处理模组4根据辨识语音原则，对语音音包进行子音、风声以及母音部份分别进行辨识，针对子音、风声以及母音所具有的波形特征进行判断、分析，而得出子音部份所对应的文字子音为何，以及母音部份所对应的文字母音为何，并进到步骤35。

在步骤35，组合所辨识出的文字子音以及文字母音，语音辨识处理模组4将辨识出的子音、母音部份予以组合，并进到步骤36。

在步骤36，语音辨识处理模组4将所得出的语音组合与通用的语音文字对应资料库5进行对比，以得出语音所对应的文字为何，结束此语音辨识过程。

图5为一运作流程图，用以更详细地解释在图3中的对语音进行语音辨识、音色、以及发音情绪判断处理的工作原理的流程程序。如图中所示，在步骤41，语音转换处理模组2是用以将使用者所发出的语音转变为所对应的物理表征波形讯号，并将此讯号输入到语音辨识模组4以供做语音辨识处理，并进到步骤42。

在步骤42，语音辨识模组4收到由语音转换处理模组2而来的波形讯号，根据语音辨识原则资料库3中的辨识语音原则，经由分析、利用语音音包的表征波形物理特性，取出此波形的各项特征参数出来，并进到步骤43。

在步骤43，依此波形的各项特征参数，来辨识出子音、风声以及母音的特征，而对此波形讯号的语音音包进行处理，将语音音包区分为子音、风声以及母音部份，并将对语音音包进行处理而取出首频以及尾频，并进到步骤44。

在步骤44，待将波形区分为子音、风声以及母音部份后，语音辨识处理模组4并根据辨识语音原则，对语音音包进行子音、风声以及母音部份分别进行辨识，针对子音、风声以及母音所具有的波形特征进行判断、分析，而得出子音部份所对应的文字子音为何，以及母音部份所对应的文字母音为何，并进到步骤45。

在步骤45，组合所辨识出的文字子音以及文字母音，语音辨识处理模组4将辨识出的子音、母音部份予以组合，并进到步骤46。

在步骤46，语音辨识处理模组4将所得出的语音组合与通用的语音文字对应资料库5进行比对，以得出语音所对应的文字为何，并进到步骤47。

在步骤47，进行发声者音色判别时，语音辨识处理模组4根据语音辨识原则资料库3中的辨识语音原则，将对整个语音音包的载波以及其上的调变锯齿波边缘做分析处理而可得到语音的音色特征，而辨识出每个人的音色；在进行发声者情绪判断时，语音辨识处理模组4根据语音辨识原则资料库3中的辨识语音原则，对整个语音音包的音量变化进行分析处理，整个语音音包的音量变化与音调有关并代表说话者的情绪，而可得出说话者的情绪反应，并将结束此语音辨识过程。

图6为一运作流程图，用以更详细地解释在图4中的辨识出使用者所发出的中文语音所对应的文字的工作原理的流程程序。如图中所示，在步骤51，语音转换处理模组2是用以将使用者所发出的语音转变为所对应的物理表征波形讯号，并将此讯号输入到语音辨识模组4以供做语音辨识处理，并进到步骤52。

在步骤52，语音辨识模组4收到由语音转换处理模组2而来的波形讯号，根据语音辨识原则资料库3中的辨识语音原则，经由分析、利用语音音包的表征波形物理特性，取出此波形的各项特征参数出来，并进到步骤53。

在步骤53，依此波形的各项特征参数，来辨识出子音、风声以及母音的特征，而对此波形讯号的语音音包进行处理，将语音音包区分为子音、风声以及母音部份，并将对语音音包进行处理而取出首频以及尾频，并进到步骤54。

在步骤54，待将波形区分为子音、风声以及母音部份后，语音辨识处理模组4并根据辨识语音原则，对语音音包进行子音、风声以及母音部份分别进行辨识，针对子音、风声以及母音所具有的波形特征进行判断、分析，而得出子音部份所对应的文字子音为何，以及母音部份所对应的文字母音为何，并进到步骤55。

在步骤55，语音辨识处理模组4利用语音辨识原则资料库3中的辨识语音原则，进行首频、尾频的运算判断法则，配合母音部份的频率以及波形振幅外廓变化情形，辨识出中文语音中的四声变化，并进到步骤56。

在步骤56，组合所辨识出的文字子音、文字母音以及中文语音四声变化，语音辨识处理模组4将辨识出的子音、母音部份以及中文语音四声变化予以组合，并进到步骤57。

在步骤57，语音辨识处理模组4将所得出的语音组合与通用的语音文字对应资料库5进行比对，以得出语音所对应的中文文字为何，结束此语音辨识过程。

图7(a)为一示意图，用以解释语音波形的语音音包组成特性结构。如图中所示，波形讯号的语音音包可分为前段、中段以及后段，风声和子音区都位于前段的区域内，紧接在风声和子音区之后的即是母音区，而风声的频率比子音和母音高出许多。在语音音包的前1/4区域内，任取几个音包的平均频率即可得到首频，而在语音音包的最后1/4区域内，任取几个音包的平均频率即可得到尾频。图中也显示出语音音包的载波以及其上的调变锯齿波边缘，以及语音音包的振幅音量变化。

图7(b)为一示意图，用以解释子音、风声以及母音部份。如图中所示，一般的语音波形可分为子音部份a、风声部份b以及母音部份c。

一般的子音部份a，可由子音波形而分成渐近音、爆擦音、挤压音以及爆发音。渐近音的特征为子音波形的前后音仅量有增减，例如，中文的注音符号的ㄏ、ㄒ、ㄖ、厶；爆擦音的特征为子音波形的一段余音后，将变为母音波形，也就是，爆擦音子音波形的一段余音后将连接一母音波形，例如，中文的注音符号的ㄇ、ㄈ、ㄋ、

ㄌ、ㄐ；挤压音的特征为子音波形为较慢的爆发音，例如，中文的注音符号的ㄓ、ㄗ；而爆发音的特征为子音波形具有二个至数个立即放大的波峰，例如，中文的注音符号的ㄅ、ㄆ、ㄉ、ㄊ、ㄍ、ㄎ、ㄑ。风声部份b的频率比子音和母音高出许多。母音部份c为紧接于子音后的波形区域。

图7(c)为一示意图，用以解释在图7(b)中子音区的爆发音的波形特性。爆发音的特征为子音波形具有二个至数个立即放大的波峰，例如，中文的注音符号的ㄅ、ㄆ、ㄉ、ㄊ、ㄍ、ㄎ、ㄑ。

图7(d)为一示意图，用以解释在图7(b)中子音区的爆擦音的波形特性。爆擦音的特征为子音波形的一段余音后，将变为母音波形，也就是，爆擦音子音波形的一段余音后将连接一母音波形，例如，中文的注音符号的ㄇ、ㄈ、ㄋ、ㄌ

、ㄐ。

图8为一示意图，用以解释在图7(b)中的语音波形的母音部份的组成特性结构。如图中所示，在母音部份c中所重复出现的音包波形区域，称为母音包，即图中的母音包c。母音包0为母音刚开始形成时所产生的母音小音包，而母音包1至3则为母音开始重复时所产生的母音小音包，而对于之后的母音包(例如4)则依此类推。在此，所谓的切割音包，就是将母音波形分割出0/1/2/3---等等的独立母音小音包，即母音包。

图9为一示意图，用以解释在图7(b)中的语音波形的母音部份的组成特征参数。如图中所示的，根据分割出的母音包可找出特征参数，例如，转折数、波数以及斜率。在此，所谓的转折数，为图中波形有方框的部份，而方框中的转折处称为转折点。至于波数则为母音包中波形通过X方向零轴的次数，以图为例，波形共有四个过零，即波数为4。斜率则为图中的1c号方框和2c号方框之间的斜率或取样个数。而得到以上三个母音包参数后，以规则来辨识出母音。例如，ㄚ为波数＞＝斜率，若不符合此情况则为ㄛ；或ㄚ为波数＞＝6，转折数＜10，若不符合此情况则为ㄧ。ㄝ为转折数＞波数；或ㄝ为波数＝3，转折数＜13，若不符合此情况则为ㄧ。ㄧ为转折数＞波数；或ㄧ为波数＝4，5，转折数＞3倍波数。ㄛ为波数＝3，转折数＜6。ㄨ为波数＝2，转折数＜5若不符合此情况则为ㄧ；或波数＝1，转折数＜7，若不符合此情况则为ㄧ。

于判断四声变化时，在语音音包的前1/4区域内，任取几个音包的平均频率即可得到首频，而在语音音包的最后1/4区域内，任取几个音包的平均频率即可得到尾频。

所谓″相差几点″的「点」是指取样的点数，与频率有关，例如以11KHz为取样频率，则相当于每1/11000秒会有一个取样点，即于1秒取样时间内有11K个取样点，而若以50KHz为取样频率，则相当于每1/50000秒会有一个取样点，即于1秒取样时间内有50K个取样点，也就是在1秒的时间内，取样点的数目即为频率数字。

待取出首频以及尾频后，利用判断规则：1.当首频以及尾频相差四点，将可判得语音声调为中文字发音的一声；2.当首频以及尾频相差五点，并且首频高于尾频时，将可判得语音声调为中文字发音的一声，或者二声；3.当尾频高于首频，且尾频减去首频的值大于首频的一半时，将可判得语音声调为中文字发音的四声；以及4.将用首频以及尾频来分辨中文字发音的三声以及四声；若女生所发出的语音声调的首频小于38点时，则将所判得的声调归为四声；若女生所发出的语音声调的首频大于60点时，则将所判得的声调归为三声；若男生所发出的语音声调的首频小于80点时，则将所判得的声调归为四声；以及，若男生所发出的语音声调的首频大于92点时，则将所判得的声调归为三声。

于判别音色时，对整个语音音包的载波以及其上的调变锯齿波边缘，做分析处理而可得到语音的音色特征。语音音包的载波为语音波形的锯齿状边缘，每个人所发出的语音所对应的波形的语音音包上的载波的频率以及振幅变化均不相同，应用辨识语音原则对整个语音音包做分析处理而可得到语音的音色特征。

于判别情绪反应时，对语音音包的振幅进行分析，对语音音包的音量变化、音调高低进行分析、处理，而得出说话者的情绪反应，此情绪反应与语音音包的音量变化、音调高低有关。

图10为一示意图，为关于中文四声声调变化的声调频率统计。如图所示，例如，当发声声调频率介于259Hz至344Hz之间时，所发声调为一声；而当发声声调频率介于182Hz至196Hz之间时，所发声调为二声；当发声声调频率介于220Hz至225Hz之间时，所发声调为三声；以及，当发声声调频率介于176Hz至206Hz之间时，所发声调为四声。

图11为一示意图，用以说明[巴]字的子音以及母音部份的波形，并应用辨识语音原则进行识别。如图所示，子音部份为爆发音ㄅ，母音包中波数为六，斜率为五，波数＞斜率，故母音为ㄚ。因此组合子音、以及母音可得ㄅㄚ音。再配合声调检查，即可分辨出[ㄅㄚ]、[ㄅㄚ/]、[ㄅㄚV]以及[ㄅㄚ\]。

综合以上的实施例以及方法，我们可以得到本发明的一种语音辨识方法及系统，在无须事先建立每个人专属的个人语音与文字的对应资料库情形下，应用辨识语音原则，以通用的语音文字对应资料库，来分析、判别语音所对应的表征波形的物理特性，语音辨识系统应用语音辨识原则，而将语音音包区分为子音、风声以及母音部份，并对整个语音音包进行处理而取出首频以及尾频，对子音、风声以及母音部份分别进行辨识、处理以及组合。将子音以及母音予以组合后，应用辨识语音原则，对由子音与母音所构成的语音以及通用的语音文字对应资料库进行比对，以得到发声者发出的语音所对应的文字为何。应用辨识语音原则，对整个语音音包的载波以及其上的调变锯齿波边缘，做分析处理而可得到语音的音色特征。应用辨识语音原则对整个语音音包的音量变化、音调高低进行分析、处理，而得出说话者的情绪反应，此情绪反应与语音音包的音量变化、音调高低有关。除了能利用子音以及母音的组合，而辨识出语音所对应的文字外，尚能利用首频、尾频的运算判断法则，配合母音部份的频率以及波形振幅外廓变化情形，辨识出中文语音中的四声变化。以子音以及母音的组合，加上中文语音中的四声变化，而得以正确地辨识出中文发音所对应的中文字。也就是，此语音辨识方法及系统除了可辨识出无四声变化的语音所对应的文字之外，尚可辨识出具有四声变化的中文语音所对应出的中文字，系将一般人所发出来的语音，利用语音的表征波形物理特性，而将语音区分为子音以及母音部份，再分别对子音以及母音进行辨识、处理以及组合，而能辨识出人所发出的语音所对应的文字。对于具有四声变化的中文语音而言，经由判断语音中的母音部份的波形振幅外廓变化情形，而分辨出中文语音中的四声变化，不但可辨识出中文语音，并可分辨出同一中文语音的不同四声变化，而得以正确地辨识出中文发音所对应的中文字为何。也就是，除了可辨识出无四声变化的语音所对应的文字之外，还可辨识出具有四声变化的中文语音所对应出的中文字。此语音辨识方法及系统的优点有：

1.使用者可在无须事先建立其专属的语音文字对应资料库的情况下，应用辨识语音原则以及通用的语音文字对应资料库，根据使用者所发出的语音，而得以辨识出所发出的语音为何。

2.将使用者所发出的语音音包区分为子音、风声以及母音部份，并对整个语音音包进行处理而取出首频以及取出尾频，配合母音部份的频率以及波形振幅外廓变化情形，而得以辨识出使用者所发出的语音所对应的文字以及分辨出具有声调变化的语音声调，辨识出使用者所发出的语音所对应的中文文字以及分辨出中文语音中的四声变化所对应的中文文字。

3.对整个语音音包的载波以及其上的调变锯齿波边缘，做分析处理而可得到语音的音色特征，而辨识出发声者的音色，对整个语音音包的音量变化进行分析处理而可得出说话者的情绪反应。

以上所述仅为本发明的较佳实施例而已，并非用以限定本发明的范围；凡其它未脱离本发明所揭示的精神下所完成的等效改变或修饰，均应包含在专利的范围内。

Claims

1.一种语音辨识方法，在无须事先建立每个人专属的个人语音与文字的对应资料库情形下，利用辨识语音原则以及通用的语音文字对应资料库，来辨识语音，此语音辨识方法包含以下步骤；

(1)使用者所发出的语音经由处理而变成语音波形；

(2)将语音波形的语音音包分为不同部份；

(3)对语音音包的不同部份分别予以辨识；

(4)将辨识出的子音以及母音进行组合，以判断出语音所对应的文字为何；以及

(5)结束此语音辨识过程。

2.根据权利要求1所述的一种语音辨识方法，其中的将语音波形的语音音包分为不同部份步骤为，将语音波形的语音音包分为子音、风声以及母音部份。

3.根据权利要求2所述的一种语音辨识方法，其中的将语音波形的语音音包分为子音、风声以及母音部份步骤，子音部份的波形为渐近音、爆擦音、挤压音或爆发音，母音部份含有重复出现的音包波形区域，风声部份的频率大于子音以及母音部份。

4.根据权利要求2所述的一种语音辨识方法，其中的将语音波形的语音音包分为子音、风声以及母音部份步骤，子音部份的波形为渐近音、爆擦音、挤压音或爆发音，母音部份含有重复出现的音包波形区域，母音部份的组成特征参数包含转折数、波数以及斜率，风声部份的频率大于子音以及母音部份。

5.根据权利要求2，3或4所述的一种语音辨识方法，其中的对语音音包的不同部份分别予以辨识步骤，是将对母音部份含有重复出现的音包波形区域进行切割，对语音波形的子音部份以及母音部份予以辨识。

6.根据权利要求1所述的一种语音辨识方法，其中将使用者发出的语音经由处理而变成语音波形的步骤，是将使用者所发出的语音转变为所对应的表征波形。

7.根据权利要求6所述的一种语音辨识方法，其中，表征波形经由分析、利用语音的物理特征，以取出表征波形的各项特征参数。

8.根据权利要求7所述的一种语音辨识方法，其中，表征波形的各项特征参数，是用来辨识出子音、风声以及母音，以将语音所对应的语音波形区分为子音、风声以及母音部份。

9.根据权利要求8所述的一种语音辨识方法，其中，将表征波形区分为子音、风声以及母音部份后，针对子音以及母音所具有的波形特征进行判断、分析，而得出子音部份所对应的文字子音为何，以及母音部份所对应的文字母音为何。

10.根据权利要求9所述的一种语音辨识方法，其中，子音部份的波形为渐进音、爆擦音、挤压音或爆发音，母音部份含有重复出现的音包波形区域，风声部份的频率大于子音以及母音部份。

11.根据权利要求9所述的一种语音辨识方法，其中，子音部份的波形为渐进音、爆擦音、挤压音或爆发音，母音部份含有重复出现的音包波形区域，母音部份的组成特征参数包含转折数、波数以及斜率，风声部份的频率大于子音以及母音部份。

12.根据权利要求8、9所述的一种语音辨识方法，其中，针对子音以及母音所具有的波形特征进行判断、分析，而将对母音部份含有重复出现的音包波形区域进行切割。

13.根据权利要求1所述的一种语音辨识方法，其中，语音波形的语音音包分为不同部份，并对整个语音音包选取首频以及尾频。

14.根据权利要求13所述的一种语音辨识方法，其中，将语音波形的语音音包选取首频以及尾频，是将整个语音音包的前1/4选取平均频率做为首频，而对整个语音音包的后1/4选取平均频率做为尾频。

15.根据权利要求13所述的一种语音辨识方法，其中，对语音音包的不同部份分别予以辨识，并利用首频、尾频的运算判断法则，辨识出语音中的声调变化，而将辨识出的子音、母音以及声调变化进行组合，以判断出语音所对应的文字为何。

16.根据权利要求13所述的一种语音辨识方法，其中，语音波形的语音音包分为不同部份的步骤为，将语音波形的语音音包分为子音、风声以及母音部份。

17.根据权利要求16所述的一种语音辨识方法，其中，子音部份的波形为渐近音、爆擦音、挤压音或爆发音，母音部份含有重复出现的音包波形区域，风声部份的频率大于子音以及母音部份。

18.根据权利要求16所述的一种语音辨识方法，其中，子音部份的波形为渐进音、爆擦音、挤压音或爆发音，母音部份含有重复出现的音包波形区域，母音部份的组成特征参数包含转折数、波数以及斜率，风声部份的频率大于子音以及母音部份。

19.根据权利要求16、17或18所述的一种语音辨识方法，其中，对语音音包的不同部份分别予以辨识并利用首频、尾频的运算判断法则，辨识出语音中的声调变化，而对母音部份含有重复出现的音包波形区域进行切割，并对语音波形的子音部份以及母音部份予以辨识。

20.根据权利要求1所述的一种语音辨识方法，其中，使用者发出的语音转变为所对应的表征波形，而依表征波形取出其各项特征参数，并对整个语音音包选取首频以及尾频。

21.根据权利要求20所述的一种语音辨识方法，其中，对整个语音音包选取首频以及尾频的步骤，是对整个语音音包的前1/4选取平均频率做为首频，并对整个语音音包的后1/4选取平均频率做为尾频。

22.根据权利要求20所述的一种语音辨识方法，其中，表征波形的各项特征参数，用来辨识出子音、风声以及母音的特征，而将语音所对应的语音波形区分为子音、风声以及母音部份，针对子音以及母音所具有的波形特征进行判断、分析、而得出子音部份所对应的文字子音为何，以及母音部份所对应的文字为何，并利用首频、尾频的运算判断法则、辨识出语音中的声调变化，而将辨识出的子音、母音以及声调变化进行组合，以判断出语音所对应的文字为何。

23.根据权利要求22所述的一种语音辨识方法，其中，语音波形区分为子音、风声以及母音部份，子音部份的波形为渐近音、爆擦音、挤压音或爆发音，母音部份含有重复出现的音包波形区域，风声部份的频率大于子音以及母音部份。

24.根据权利要求22所述的一种语音辨识方法，其中，语音波形区分为子音、风声以及母音部份，子音部份的波形为渐进音、爆擦音、挤压音或爆发音，母音部份含有重复出现的音包波形区域，母音部份的组成特征参数包含转折数、波数以及斜率，风声部份的频率大于子音以及母音部份。

25.根据权利要求20、21、22、23或24所述的一种语音辨识方法，其中，针对子音以及母音所具有的波形特征进行判断、分析，将对母音部份含有重复出现的音包波形区域进行切割。

26.根据权利要求20所述的一种语音辨识方法，其中，表征波形的各项特征参数，用来辨识出子音、风声以及母音、子音部份的波形为渐进音、爆擦音、挤压音或爆发音、母音部份含有重复出现的音包波形区域，风声部份的频率大于子音以及母音部份。

27.根据权利要求20所述的一种语音辨识方法，其中，表征波形的各项特征参数，用来辨识出子音、风声以及母音，子音部份的波形为渐进音、爆擦音、挤压音或爆发音，母音部份含有重复出现的音包波形区域，母音部份的组成特征参数包含转折数、波数以及斜率，风声部份的频率大于子音以及母音部份。

28.根据权利要求6、13或20所述的一种语音辨识方法，所述的一种语音辨识方法是应用于辨识中文语音。

29.一种语音辨识系统，在无须事先建立每个人专属的个人语音与文字的对应资料库情形下，利用辨识语音原则以及通用的语音文字对应资料库，来辨识语音，此语音辨识系统包含：

语音辨识原则资料库，此语音辨识原则资料库中包含辨识语音原则，此些语音辨识原则用来对语音音包进行处理，将语音音包区分为子音、风声以及母音部份，并对子音、风声以及母音部份分别进行辨识，以判断出子音以及母音为何，并将辨识出的子音、母音部份予以组合，并将所得出的语音组合与语音文字对应资料库进行对比，以得出语音所对应的文字为何；

语音文字对应资料库，此通用的语音文字对应资料库则包含语音所对应的文字资料库，语音由子音、母音所组合而成，语音具有相对应的文字，语音与文字互相对应，组合语音而得出所发出的语音所代表的文字；

语音转换处理模组，此语音转换处理模组是用以将使用者所发出的语音转变为所对应的物理表征波形讯号，并将此讯号输入到语音辨识模组以供做语音辨识处理；以及

语音辨识处理模组，此语音辨识处理模组则根据语音辨识原则资料库中的辨识语音原则，而对此波形讯号进行处理，将语音音包区分为子音、风声以及母音部份，语音辨识处理模组并根据辨识语音原则，对语音音包进行子音、风声以及母音部份分别进行辨识、处理以及组合，语音辨识处理模组将辨识出的子音、母音部份予以组合，并将所得出的语音组合与通用的语音文字对应资料库进行比对，以得出语音所对应的文字为何。

30、根据权利要求29所述的一种语音辨识系统，其中的语音辨识原则资料库的语音辨识原则将语音音包区分为子音、风声、以及母音部份，并取出语音音包的首频以及尾频，利用语音辨识原则对子音、风声以及母音部份分别进行辨识，以判断出子音以及母音为何，语音辨识原则并以首频、尾频的运算判断法则，配合母音部份的频率以及波形振幅外廓变化情形，而辨识出中文语音中的四声变化，语音辨识原则并将辨识出的子音、母音部份，或者子音、母音部份以及四声变化予以组合。

31、根据权利要求29所述的一种语音辨识系统，其中的语音文字对应资料库的语音由子音、母音或由子音、母音以及四声变化所组合而成。

32、根据权利要求29所述的一种语音辨识系统，其中的语音辨识处理模组根据语音辨识原则资料库中的辨识语音原则，将语音音包区分为子音、风声以及母音部份，并将对语音音包进行处理而取出首频以及尾频；并根据辨识语音原则，将辨识出的子音、母音部份，或者子音、母音部份以及四声变化予以组合。

33、根据权利要求29所述的一种语音辨识系统，其中的语音辨识原则资料库包含辨识语音原则，此些辨识语音原则包含区分语音音包为子音、风声、以及母音部份的规则、取出语音音包首频以及尾频的规则、辨识子音、风声、母音的规则、辨识四声变化的规则、组合子音与母音的规则、组合子音母音与四声变化的规则、辨识语音音包音色的规则、以及辨识语音音包音量变化的规则。

34、根据权利要求29所述的语音辨识系统，其中的语音辨识处理模组为电脑主机。

35、根据权利要求29所述的语音辨识系统，其中的语音辨识处理模组为电脑主机，且语音辨识原则资料库以及语音文字对应资料库储存于电脑的记忆装置内。