JP3808732B2

JP3808732B2 - 音声認識方法及びそのシステム

Info

Publication number: JP3808732B2
Application number: JP2001237604A
Authority: JP
Inventors: 家騏封
Original assignee: 文化傳信科技（澳門）有限公司
Priority date: 2001-08-06
Filing date: 2001-08-06
Publication date: 2006-08-16
Anticipated expiration: 2021-08-06
Also published as: JP2003058182A

Description

【０００１】
【発明の属する技術分野】
この発明は、音声の波形を分析して行う音声認識方法と、そのシステムに関わるものであって、詳しくは、予め個人別の音声と文字が対応するデータベースの構築を必要としない条件の下において、音声認識の原則を利用して、音声と文字とが対応するコモン・データベースによって、音声の一音節を子音と、呼気音と、母音とに区分し、音声帯域周波数の始めと終わりの部分を取り出して、音声に対応する文字と、個人個人の音声の音色と、及び音調を認識する音声認識方法と、そのシステムに関するものである。
【０００２】
この発明における一音節とは、人が発声する場合の個々の一音節を指し、これには、子音の部分と、母音の部分と、及び呼気音を含む可能性を有する。また、この発明における呼気音とは、図８に開示する音節の中で周波数の特に高い帯気音の部分を指す。また、この発明における音声認識の原則とは、図７、８に開示する周波数の特性図によって、それぞれの音節の特色を表示する方法である。
【０００３】
【従来の技術】
一般的な周知の技術によれば、音声認識方法と、そのシステムは、いずれもサンプリングの方式を利用するものである。即ち、よって個人個人の音声の一音節に対応する音声の波形に対して段階的にサンプリングを行い、それぞれの段階における音声のサンプルの周波数、振幅の波形、および波形の搬送波の特性を前もってデータベースの中に保存し、該データベースの中に使用者個人の音声の周波数、振幅波形、及び搬送波に係る資料が存在した後になって、使用者はやっと個人の音声の照合、認識を行うことができる。即ち、周知の技術はいずれも発声者が音声認識の方法と、そのシステムを使う前に、予め個人専用の音声と文字が対応するデータベース構築しなければならず、該データベースは大量の音声と文字が対応したデータを包括するものであって、音声認識の原則を利用して、音声と文字が対応するコモン・データベースによって音声の認識を行うことができない。
【０００４】
このような周知の技術の欠点は、音声の認識を行う時、異なる使用者にとっては、たとえすべての使用者の発した音声に代表される文字が同じだとしても、地域的に異なる訛りのためそれぞれの使用者が発した音声の周波数、振幅の波形、波形の搬送波の特性も異なる。このため、それぞれの使用者が自ら構築した音声と文字が対応するデータベースは異なったものとなる。よって、それぞれの使用者が同一の文字について音声の認識を行う前に、予め必ずサンプリング方式を利用して、同一の文字についてそれぞれの使用者の音声の音節に対応する音声の波形に対して、段階的にサンプリングを行い、それぞれの段階における音声サンプルの周波数、振幅の波形、および波形の搬送波の異なる特性を前もってデータベースの中に保存しなければならない。即ち、予めそれぞれの使用者の音声と文字が対応するデータベースを構築してこそ、はじめて音声の認識を行うことができる。このため、音声認識の原則の形式を以って、音声と文字が対応するコモン・データベースによって、それぞれの使用者の発する同一の文字に係る音声を認識することができない。
【０００５】
例えば、それぞれの使用者の発した音声によって代表される文字がいずれも「巴」であったとしても、地域的な訛りのためそれぞれの使用者の発した音声の周波数、振幅の波形、波形の搬送波の特性が異なる。このため、それぞれの使用者の発した「巴」の字の音声の音節に対応する波形も異なる。よって、それぞれの使用者が「巴」の字の音声の認識を行う前に、予めサンプリングの方式を利用して、自己の「巴」の字の音声が包括する音節に対応した音声の波形に対して段階的にサンプリングを行い、それぞれの段階における音声サンプルの周波数、振幅の波形、および波形の搬送波の異なる特性をデータベースの中に保存しておかなければならない。即ち、それぞれの使用者は、前もって必ず個人の「巴」字の音声と文字が対応するデータベースを構築しなければならない。そして、該データベースによってはじめて「巴」の字の音声について認識を行うことができる。したがって、個人専用の「巴」の字の音声と文字とが対応するデータベースを構築していない情況下に在っては、音声認識の原則と、音声と文字とが対応するコモン・データベースを利用して、個人個人の発する「巴」の字の音声を認識することができない。
【０００６】
即ち、周知の技術では、音声認識の原則を利用して、音声と文字とが対応するコモン・データベースによって音声の認識を行うことができない。このため、周知の音声認識の方法とシステムは音声認識を行う際に構築される個人専用の音声／文字対応データベースは極めて膨大な量のものとなり、音声の認識作業がさらに難しくなる。また、周知の音声の認識の方法、及びそのシステムは、個人個人の音声の音色を判別するとともに、発声の感情的な音声表現を判断することができない。
【０００７】
周知の音声認識の方法とシステムを総合して見ると、それらは、いずれも事前にそれぞれ異なる使用者の音声と、これに対応する文字のデータベースを構築し、このような個人別のデータベースを構築した後、さらに音声とデータベースのデータを照合して認識作業を行うものであって、音声認識の原則を利用して、音声と文字が対応するコモン・データベースによって音声の認識を行うのではない。よって、仮に使用者がはじめて音声の認識を行おうとすれば、個人専属の音声と文字が対応するデータベースが構築されていないため、使用者は音声の認識作業を行うことができない。また、それぞれの地域的な訛りの問題もあることから、異なる音声と文字の対応したデータベースを構築する必要がある。よって、音声認識認識システム全体の音声と文字とが対応するデータベースは膨大な量のものとなり、このような音声と文字とが対応するデータベースを利用して音声の照合、認識を行う場合、困難性がさらに高まる。
【０００８】
即ち、周知の技術によれば、それぞれの使用者の個人専用の音声と文字とが対応したデータベースを構築しなければならず、通則的な音声の認識の原則を利用して、音声と文字とが対応するコモン・データベースによって音声認識を進行させることができない。しかも、個人個人の音声の音色を識別することができず、また発声者の感情的要素による音声の変化も判断することができない。
【０００９】
よって、使用者が予め個人の音声と文字とが対応するデータベースを構築する必要がなく、どのような使用者であろうと、もしくはどのような地域的な訛りがあろうと、いずれの情況下にも適用することができ、通則性の音声認識の原則を利用し、音声と文字が対応するコモン・データベースによって音声の認識を行うことができ、また使用者によるいかなる環境においても使用者が発した音声に対して認識を行い、該音声に対応する文字が何であるか得ることができ、さらに個々の使用者の音声の音色を判別し、且つ使用者の感情の起伏による音声の変化を判断することができる音声認識システムであって、通則的音声認識の原則を利用し、音声と文字とが対応するコモン・データベースによって音声を認識する新規な音声認識方法、及びそのシステムを如何に開発して、個々の使用者が発した音声と、該音声によって代表される音色と、使用者の感情の起伏によって現われる音声の変化を認識するか、これこそ解決が待たれる課題である。
【００１０】
上述の周知の技術による音声認識方法、及びそのシステムは、予め使用者個人専用の音声と文字とが対応するデータベースを構築し、そののちになって使用者の発した音声に対して認識を行うことができるものであるため、これを解決するためには、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、音声に対応する特徴的な波形の物理的特性に対して分析を行い、該音声に対応する文字を判断し、また個々の使用者の音声の音色、及び音調を認識できる音声認識方法、及びそのシステムを採用する。
【００１１】
【発明が解決しようとする課題】
この発明による音声認識方法、及びそのシステムは、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって音声を認識し、例えはじめて音声の認識を行う場合であっても、またいかなる使用者の発した音声であっても、認識することができるものであって、使用者の発した音声に基づいて、該音声が何であるか識別できる音声認識方法、及びそのシステムを提供することを目的とする。
【００１２】
また、この発明は、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、使用者が発する音声の音節を子音と、呼気音と、母音の部分とに区分し、使用者が発した該音声に対応する文字が何であるか認識することができる音声認識方法、及びそのシステムを提供することを目的とする。
【００１３】
また、この発明は、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、使用者が発する音声の音節を子音と、呼気音と、母音の部分とに区分し、かつ音声全体の音節に対して処理を行い、はじめの音声帯域周波数とおわりの音声帯域周波数を取り出し、母音の部分の周波数と波形の振幅のアウトラインの変化の状況を組み合わせ、使用者の発した音声に対応する文字が何であるかを認識し、音調の変化を有する音声の音調を認識することのできる音声認識方法、及びそのシステムを提供することを課題とする。
【００１４】
また、この発明は、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、使用者が発する音声の音節を子音と、呼気音と、母音の部分とに区分し、かつ音声全体の音節に対して処理を行い、はじめの音声帯域周波数とおわりの音声帯域周波数を取り出し、母音の部分の周波数と波形の振幅のアウトラインの変化の状況を組み合わせ、使用者の発した音声に対応する中国文字が何であるかを認識し、また音声に含まれる四声の変化を識別して、これに対応する中国文字を認識することが出来る音声認識方法、及びそのシステムを提供することを課題とする。
【００１５】
また、この発明は、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、音声全体の音節の搬送波と搬送波状の変調した鋸歯波のエッジを分析して、音声の音色の特徴を認識するとともに、使用者の発声した音色を認識することのできる音声認識方法、及びそのシステムを提供することを課題とする。
【００１６】
また、この発明は、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、音声全体の音節について、音量の変化を分析処理し、発生した使用者の感情的反応を認識することのできる音声認識方法、及びそのシステムを提供することを課題とする。
【００１７】
【課題を解決するための手段】
この発明は、音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、音声認識処理モジュールの認識対象となる音声信号から文字子音および文字母音を認識するための規則を包含する音声認識規則データベースと、文字子音および文字母音に関連づけて対応する文字を格納するコモン・データベースとを備える音声認識システムによって、音声認識をする方法において、次の（１）から（６）の工程を含んでなり、（１）の工程においては、音声転換処理装置が、使用者の発した音声信号をこれに対応する特徴的な波形に転換し、即ち音声信号を処理して音声の波形とし、（２）の工程においては、音声認識処理モジュールが、音声の特徴を示す波形の各項助変数を取り出し、該母音の部分を構成する特徴的な助変数は、波形の変換点の個数である折り返し数と、波形がゼロ軸を通過する個数である波数と、波形のピーク間の傾斜の度合いである傾斜率とを含み、（３）の工程においては、音声認識規則データベースに基づいて音声認識処理モジュールが、該波形の各項助変数に基づき子音と、呼気音と、母音の特徴とを認識して該音声に対応する波形を子音と、呼気音と、母音の部分とに区分し、（４）の工程においては、音声認識規則データベースに基づいて音声認識処理モジュールが、該波形を子音と、呼気音と、母音のとに区分した後、子音と母音の有する波形の特徴について分析を行い、子音の部分に対応する文字子音は何か、また母音の部分に対応する文字母音は何か認識してこれを得て、（５）の工程においては、コモン・データベースに基づいて音声認識処理モジュールが、該認識した文字子音と、文字母音とを組み合わせて、該組み合わせた音声に対応する文字が何であるか認識をして、これを得て、（６）の工程において、音声を認識の過程を終了すること、を特徴とする。また、好ましくは、音声認識規則を応用し、音声全体の音節の搬送波と、その上の変調した鋸歯状波のエッジについて分析処理を行い、音声の音色の特徴を得る。また、好ましくは、音声認識規則を応用して、音声全体の音節について、音量の変化と音調の高低を分析処理し、音声を発した使用者の感情的な反応を認識して、これを得る。この感情的な反応は音声の音節の音量、及び音調の高低に関連して変化する。
【００１８】
また、この発明においては、子音と母音との組み合わせを利用して音声に対応する文字を認識する以外に、はじめの音声帯域周波数とおわりの音声帯域周波数に係る演算と、その判断の規則を利用することができる。即ち、母音の部分の周波数と波形の振幅のアウトラインの変化の状況を組み合わせることによって、中国語の音声が包括する四声の変化を認識する。つまり、子音と母音との組み合わせに対して、更に中国語の音声が包括する四声の変化を加えることによって、中国語による発音に対応する中国文字を正確に認識することができる。
【００１９】
即ち、この音声認識の方法及びそのシステムは、四声の変化を有することのない、例えば西洋の言語の音声と文字を認識する以外に、四声の変化を包括する中国語の音声に対応する中国文字を認識することができる。
【００２０】
この発明による音声認識の方法及びそのシステムは、あらかじめ個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下において、音声認識の原則を応用し、音声に対応する特徴的な波形の物理的特性を識別し、音声に対応する文字、個人個人の音声の音色、および音声の音調を認識するものである。
【００２１】
この発明による音声認識システムは、音声転換処理装置、音声認識規則データベース、音声認識処理モジュール、及び音声と文字とが対応するコモン・データベースを含んでなる。音声認識規則データベースは、音声認識規則を包括してなり、該音声認識規則は音声の音節に対して処理を行うものである。即ち、音声認識処理モジュールが、音声の音節を子音と、呼気音と、母音の部分とに区分し、音声の音節のはじめの音声帯域周波数と、おわりの音声帯域周波数を取り出す際に、音声認識規則を利用し、子音と、呼気音と、母音の部分とに対して、それぞれ認識を行い、該子音と、母音とが何であるか判断を行う。
【００２２】
また、音声認識処理モジュールは、音声認識規則を利用して、はじめの音声帯域周波数と、おわりの音声帯域周波数を演算し、これを判断する法則に基づき、母音の部分の周波数と、波形の振幅のアウトラインの変化の情況を組み合わせ、中国語の音声が包括する四声の変化を認識する。
【００２３】
また、音声認識処理モジュールは、音声認識規則を利用して、認識した子音と、母音の部分、もしくは子音と、母音の部分と、及び四声の変化を組み合わせて得た音声の組み合わせについて、音声と、文字とが対応するデータベースによって照合し、該音声に対応する文字が何であるか認識し、これを得る。
【００２４】
音声と、文字とが対応するコモン・データベースは、音声に対応する文字を含んでなるデータベースであって、該音声は子音と母音、もしくは子音と母音と及び四声の変化に組み合わせてなる。
【００２５】
音声転換処理装置は、使用者が発した音声を対応する物理的な特徴を有する波形信号に転換するものであって、該信号を音声認識処理モジュールに入力し、音声認識処理に供する。
【００２６】
音声認識処理モジュールは、音声認識規則データベース内の音声認識規則に基づき、前記波形信号に対して処理を行うものであって、音声の音節を子音と、呼気音と、母音の部分にと区分し、音声の音節に対して処理を行いはじめの音声帯域周波数と、終わりの音声帯域周波数を取り出す。即ち音声認識処理モジュールは、音声認識規則に基づき、音声の音節を構成する子音と、呼気音と、母音の部分とに対して認識、処理、及び組み合わせを行い、該認識した子音と母音の部分、もしくは子音と母音と及び四声の変化を組み合わせて、得られた音声の組み合わせを、音声と文字とが対応するデータベースによって照合し、得られた音声に対応する文字が何か認識して、これを得る。
【００２７】
使用者の発した音声の音色を判別する場合、音声認識処理モジュールは音声認識規則データベース内の音声認識規則に基づき、音声全体の音節の搬送波、及びその上の鋸歯波のエッジに対して分析処理を行い、音声の音色の特徴を得て個人個人の音色を認識する。
【００２８】
音声を発した使用者の感情的な音声の変化を判断する場合、音声認識処理モジュールは音声認識規則データベース内の音声認識規則に基づき、音声全体の音節の音量の変化に対して分析処理を行う。音声全体の音節の音量と、音調の変化は音声を発した使用者の感情的表現に関連し、これを現すものであるため、音声を発した使用者の感情的反応を得ることができる。
【００２９】
音声認識を進行させる過程においては、まず、使用者の発した音声を、該音声に対応する物理的特徴を有する波形信号に転換する。次いで、音声認識規則によって、該音声に対応する波形信号の特徴的な波形の物理的特性に対して分析を行い、該波形のそれぞれの特徴的な助変数を取り出し、音声の音節を子音と、呼気音と、母音の部分とに区分し、かつはじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出す。さらに、音声認識の原則を利用して、子音と、呼気音と、母音の物理的特徴の助変数について、波形の特徴的な各項助変数に対して照合、認識を行い、音声の音節に対応する波形を子音と、呼気音と、母音とに区分する。
【００３０】
次に、前記波形を子音と、呼気音と、母音の部分とに区分した後、子音と、呼気音と、母音の有する波形の特徴に対して判断を行い、子音の部分に対応する文字と、母音の部分に対応する文字を得る。さらに、音声認識規則を利用して、認識した文字子音と文字母音とを組み合わせ、該文字子音と文字母音とによって構成される組み合わせによって得た音声について、音声と文字とが対応するコモン・データベースによって、使用者が発した音声に対応する文字が何であるか判断し、これを得る。
【００３１】
中国語の音声を認識する場合、音声の子音の部分に対応する文字子音と、母音の部分に対応する文字母音を判別して得る以外に、中国文字特有の四声の変化を判断しなければならない。よって、はじめの音声帯域周波数と、おわりの音声帯域周波数に対する判断の規則を利用して、母音の部分の周波数と波形の振幅のアウトラインの変化の状況を組み合わせて、中国語の音声が包括する四声の変化を識別する。さらに、四声の変化を認識した後、中国語の前記文字子音と文字母音とを組み合わせ、かつ音声認識規則を利用して、認識した該文字子音と、文字母音と、四声の変化を組み合わせ、音声と文字とが対応するコモン・データベースによって照合し、使用者が発した四声の変化を有する中国語の音声に対応する文字は何か判断をして、これを得る。よって、この発明による音声認識方法は、四声の変化の無い音声に対応する文字を認識することが出来る以外に、四声の変化を有する中国語の音声に対応する中国語の文字を認識することができる。
【００３２】
使用者の発した音声の音色を判別する場合、音声全体の音節の搬送波と、その上の変調した鋸歯波のエッジについて分析処理を行って音色の特徴を得て、個人個人の音色を認識する。
【００３３】
使用者の発した音声について、感情的要素によって発生する変化を判断する場合、音声全体の音節の音量の変化に対して分析処理を行う。音声全体の音節の音量の変化と音調は、音声を発した使用者の感情的な反応に関連し、その変化は使用者の感情の起伏を代表する。
【００３４】
以上をまとめると、この発明による音声認識方法、及び音声認識システムは、個人別の音声認識データベースを構築する必要のない条件下にあって、音声認識規則を応用し、音声と文字とが対応するコモン・データベースによって、音声に対応する特徴的な波形の物理的特性を分析、判別し、該音声に対応する文字と、個人個人の音色と、及び音声の音調を判断し、認識する。
【００３５】
【発明の実施の形態】
上述の構造による音声認識方法及びそのシステムについて、その構造と特徴を説明するために、具体的な実施例を挙げ、図示を参照にして以下に詳述する。
【００３６】
【実施例】
図１は、この発明による音声認識方法と、そのシステムの基本的な組織構造を示すブロック図である。図示に開示するように、この発明の音声認識のシステム１は、音声転換処理モジュール２と、音声認識の原則データベース３と、音声認識処理モジュール４と、音声と文字とが対応通用するコモン・データベース５とを含んでなる。該音声転換処理モジュール２は、音声を電子信号に転換する電子デバイスである。該音声認識処理モジュール４はコンピュータ装置であって、音声認識の原則データベース３と、音声と文字とが対応するコモン・データベース５はコンピュータの記憶装置内に保存する。
【００３７】
音声認識の原則データベース３は、音声認識の原則を包括する。該音声認識の原則は、音節を子音と、呼気音と、母音とに区分する規則と、音声の音節のはじめの音声帯域周波数とおわりの音声帯域周波数とを取り出す規則と、子音と呼気音と母音とを認識する規則と、四声の変化を認識する規則と、子音と母音を組み合わせる規則と、子音と母音と四声の変化とを組み合わせる規則と、音声の音節の音色を認識する規則と、および節の音量の変化を認識する規則を内包する。これらの音声認識の原則は音声の音節に対して処理を行うために用いるものであって、音声の音節を子音と、呼気音と、母音の部分とに区分し、音声の音節のはじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出し、音声認識の原則を利用して子音、呼気音、母音に区分してそれぞれ認識を行い、子音と母音とが何であるか判断をする。また、音声認識の原則は、はじめの音声帯域周波数と、おわりの音声帯域周波数を演算して判断する法則に基づき、母音の部分の周波数と、波形の振幅のアウトラインの変化の状況を組み合わせて、中国語の音声に包括される四声の変化を認識する。また、音声認識の原則は、認識された子音と、母音の部分、もしくは子音と、母音の部分と、四声の変化とを組み合わせ、得られた音声の組み合わせについて、音声と文字とが対応するコモン・データベース5によって照合し、該音声に対応する文字が何であるか判断を行い、これを得る。
【００３８】
音声と文字とが対応するコモン・データベース5は、音声に対応する文字を含んでなるデータベースであって、該音声とは、子音と母音、もしくは子音と母音と四声の変化との組み合わせによってなり、また、該音声は、対応する文字を有し、音声と文字が互いに対応して、音声を組み合わせることによって、使用者が発した音声を代表する文字を得ることができる。
【００３９】
音声転換処理モジュール２は、使用者の発する音声を対応する物理的特徴を有する波形信号に転換し、該波形信号を音声認識処理モジュール４へ入力し、音声認識処理に供する。
【００４０】
音声認識処理モジュール４は、音声認識の原則データベース３内に保存された音声認識の原則に基づき、該波形信号に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分する。また音声の音節に対して処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数を取り出す。また、音声認識処理モジュール４は、音声認識の原則に基づき、音声の音節を子音と、呼気音と、母音の部分とに区分し、それぞれに対して認識、処理、及び組み合わせを行う。更に、認識した子音と母音の部分、もしくは子音と、母音部分と、四声の変化とを組み合わせ、得られた音声の組み合わせについて音声と文字とが対応するコモン・データベース5によって照合を行い、該音声に対応する文字が何であるかを判断し、これを得る。
【００４１】
使用者の発した音声の音色を判断する場合、音声認識処理モジュール4は、音声認識の原則データベース３に保存した音声認識の原則に基づき、音声全体の音節の搬送波と、その上の変調鋸歯波のエッジに対して処理を行い、これを分析して、音声の音色の特徴を得る。この音声の音色の特徴によって個人個人の音声の音色を認識する。
【００４２】
音声を発した使用者の感情の起伏を判断する場合、音声認識処理モジュール４は、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声全体の音節の音量の変化に対して分析処理を行う。音声全体の音節の音量の変化と音調は、音声を発した使用者の感情の起伏に関連し、その感情的反応を現す。よってこれに基づき使用者の感情的反応を認識することができる。
【００４３】
図２は、図１に開示する音声認識システムのワークを示すフローチャートであって、この発明による音声認識システム及びその方法によって、音声の認識処理を行うワークの原理を示すものである。図示に開示するように、１１の工程において、音声転換処理モジュール２が使用者の発した音声を受けて、該音声を対応する物理的特徴を有する波形信号に転換する。また、該波形信号を音声認識モジュール4に入力して、音声認識処理に供した後、１２の工程に進む。１２の工程においては、音声認識の原則データベース3と、音声認識処理モジュール4と、音声と文字とが対応するコモン・データベース５を組み合わせ、作業を行う。音声認識処理モジュール４は、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声転換処理モジュール２から入力された波形信号に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分し、かつ音声の音節に対して更に処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出して、１３の工程へ進む。
【００４４】
１３の工程においては、音声認識処理モジュール4が、音声認識の原則に基づき、音声の音節が包括する子音と、呼気音と、母音の部分とに対して、それぞれ認識、処理、及び組み合わせを行い、さらに音声認識処理モジュール４によって認識した、子音と、母音の部分、もしくは子音と、母音の部分と、四声の変化とを組み合わせ、１４の工程へ進む。
【００４５】
１４の工程においては、音声認識処理モジュール4が得た音声の組み合わせについて、音声と文字とが対応するコモン・データベース5によって照合し、該音声に対応する文字が何か認識をし、これを得て音声認識の工程を終了する。
【００４６】
図３は、図１に開示する音声認識システムのワークを示すフローチャートにであって、この発明による音声認識システム及びその方法によって、音声の認識、音色、及び音声を発した使用者の感情の起伏を判断し、処理を行うワークの原理を示すものである。図示に開示するように、２１の工程において、音声転換処理モジュール２が使用者の発した音声を受けて、該音声を対応する物理的特徴を有する波形信号に転換する。また、該波形信号を音声認識モジュール4に入力して、音声認識処理に供した後、２２の工程に進む。２２の工程においては、音声認識の原則データベース3と、音声認識処理モジュール4と、音声と文字とが対応するコモン・データベース５を組み合わせ、作業を行う。音声認識処理モジュール４は、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声転換処理モジュール２から入力された波形信号に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分し、かつ音声の音節に対して更に処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出して、２３の工程へ進む。
【００４７】
２３の工程においては、音声認識処理モジュール4が、音声認識の原則に基づき、音声の音節が包括する子音と、呼気音と、母音の部分とに対して、それぞれ認識、処理、及び組み合わせを行い、さらに音声認識処理モジュール４によって認識した、子音と、母音の部分、もしくは子音と、母音の部分と、四声の変化とを組み合わせ、２４の工程へ進む。
【００４８】
２４の工程においては、音声認識処理モジュール4が得た音声の組み合わせについて、音声と文字とが対応するコモン・データベース5によって照合し、該音声に対応する文字が何か認識をし、これを得て音声認識の２５の工程に進む。
【００４９】
２５の工程において、使用者の発した音声の音色を判断する場合、音声認識処理モジュール４が音声認識の原則データベース３内に保存した音声認識の原則に基づき、音声全体の音節の搬送波と、その上の変調した鋸歯状波のエッジについて分析処理を行い、音声の音色の特徴を得て、個人個人の音声の音色を認識する。また、音声を発する使用者の感情の起伏を認識する場合、音声認識処理モジュール４が音声認識の原則データベース３内に保存した音声認識の原則に基づき、音声全体の音節の音量の変化に対して分析処理を行う。音声全体の音節の音量の変化と音調は、音声を発する使用者の感情の起伏に関連し、これを現す。この感情の起伏の反応を得て音声認識の工程を終了する。
【００５０】
図４は、図２に開示する音声認識システムのワークの原理を詳細に示すフローチャートである。図示に開示するように、３１の工程において、音声転換処理モジュール２が使用者の発した音声を対応する物理的特徴を有する波形信号に転換する。また、該波形信号を音声認識モジュール4に入力して、音声認識処理に供した後、３２の工程に進む。３２の工程においては、音声認識処理モジュール4が音声転換処理モジュール２の送信してきた波形信号を受信して、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声の音節の特徴的な波形の物理的特性に対して分析を行い、波形の各項特徴の助変数を取り出して３３の工程に進む。３３の工程においては、該波形の各項特徴の助変数に基づき、子音と、呼気音と、母音の特徴を認識し、かつ該波形信号で現される音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分するとともに、音声の音節に対して更に処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出して、３４の工程へ進む。
【００５１】
３４の工程においては、前記波形を子音と、呼気音と、母音とに区分した後、音声認識処理モジュール4が、音声認識の原則に基づき、音声の音節が包括する子音と、呼気音と、母音の部分とに対してそれぞれ認識を行い、子音と、呼気音と母音の有する波形の特徴に対して分析、判断を行い、子音に対応する文字か何か、母音に対応する文字が何かを認識して、これを得た後、３５の工程に進む。３５の工程においては、認識された文字子音と文字母音とを組み合わせる。即ち、音声認識処理モジュール４が、認識した子音と、母音の部分とを組み合わせ、３６の工程へ進む。
【００５２】
３６の工程においては、音声認識処理モジュール4が得られた音声の組み合わせについて、音声と文字とが対応するコモン・データベース5によって照合し、該音声に対応する文字が何か認識をし、これを得て音声認識の工程を終了する。
【００５３】
図５は、図３に開示する音声認識システムよって進行させる音声、音色の認識、及び音声を発生した使用者の感情の判断に係る処理の原理を詳細に示すフローチャートである。図示に開示するように、４１の工程において、音声転換処理モジュール２が使用者の発した音声を対応する物理的特徴を有する波形信号に転換し、該波形信号を音声認識モジュール4に入力して、音声認識処理に供した後、４２の工程に進む。
【００５４】
４２の工程においては、音声認識処理モジュール4が音声転換処理モジュール２の送信してきた波形信号を受信して、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声の音節の特徴的な波形の物理的特性に対して分析を行い、波形の各項特徴の助変数を取り出して４３の工程に進む。
【００５５】
４３の工程においては、該波形の各項特徴の助変数に基づき、子音と、呼気音と、母音の特徴を認識し、かつ該波形信号で現される音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分するとともに、音声の音節に対して更に処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出して、４４の工程へ進む。
【００５６】
４４の工程においては、前記波形を子音と、呼気音と、母音とに区分した後、音声認識処理モジュール4が、音声認識の原則に基づき、音声の音節が包括する子音と、呼気音と、母音の部分とに対してそれぞれ認識を行い、子音と、呼気音と母音の有する波形の特徴に対して分析、判断を行い、子音に対応する文字か何か、母音に対応する文字が何かを認識して、これを得た後、４５の工程に進む。４５の工程においては、認識された文字子音と文字母音とを組み合わせる。即ち、音声認識処理モジュール４が、認識した子音と、母音の部分とを組み合わせ、４６の工程へ進む。
【００５７】
４６の工程においては、音声認識処理モジュール4が得られた音声の組み合わせについて、音声と文字とが対応するコモン・データベース5によって照合し、該音声に対応する文字が何か認識をし、４７の工程に進む。４７の工程において、使用者の発した音声の音色を判断する場合、音声認識処理モジュール4は、音声認識の原則データベース３に保存した音声認識の原則に基づき、音声全体の音節の搬送波と、その上の変調鋸歯波のエッジに対して処理を行い、これを分析して、音声の音色の特徴を得る。この音声の音色の特徴によって個人個人の音声の音色を認識する。また、音声を発した使用者の感情の起伏を判断する場合、音声認識処理モジュール４は、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声全体の音節の音量の変化に対して分析処理を行う。音声全体の音節の音量の変化と音調は、音声を発した使用者の感情の起伏に関連し、その感情的反応を現す。よってこれに基づき使用者の感情的反応を認識して、音声認識の工程を終了する。
【００５８】
図６は、図４に開示する音声認識システムによって進行させる中国語の音声に対応する文字認識の原理を詳細に示すフローチャートである。図示に開示するように、５１の工程において、音声転換処理モジュール２が使用者の発した音声を対応する物理的特徴を有する波形信号に転換し、該波形信号を音声認識モジュール4に入力して、音声認識処理に供した後、５２の工程に進む。
【００５９】
５２の工程においては、音声認識処理モジュール4が音声転換処理モジュール２の送信してきた波形信号を受信して、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声の音節の特徴的な波形の物理的特性に対して分析を行い、波形の各項特徴の助変数を取り出して５３の工程に進む。
【００６０】
５３の工程においては、該波形の各項特徴の助変数に基づき、子音と、呼気音と、母音の特徴を認識し、かつ該波形信号で現される音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分するとともに、音声の音節に対して更に処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出して、５４の工程へ進む。
【００６１】
５４の工程においては、前記波形を子音と、呼気音と、母音とに区分した後、音声認識処理モジュール4が、音声認識の原則に基づき、音声の音節が包括する子音と、呼気音と、母音の部分とに対してそれぞれ認識を行い、子音と、呼気音と母音の有する波形の特徴に対して分析、判断を行い、子音に対応する文字か何か、母音に対応する文字が何かを認識して、これを得た後、５５の工程に進む。
【００６２】
５５の工程においては、音声認識処理モジュール４が、音声認識の原則データベース３内に保存した音声認識の原則に基づき、はじめの音声帯域周波数と、おわりの音声帯域周波数の演算判断の法則を利用し、かつ母音の部分の周波数と、波形の振幅のアウトラインの変化の情況を併せ判断し、中国語の音声が有する四声の変化を認識して５６の工程に進む。
【００６３】
５６の工程においては、認識された文字子音と、文字母音と、中国語の音声の四声の変化とを組み合わせる。即ち、音声認識処理モジュール4が認識された子音と、母音の部分と、中国語の音声の四声の変化とを組み合わせて５７の工程に進む。
【００６４】
５７の工程においては、得られた音声の組み合わせについて、音声認識処理モジュール4が、音声と文字とが対応するコモン・データベース５によって照合を行い、該音声に対応する中国語の文字が何であるか認識し、これを得て音声認識の工程を終了する。
【００６５】
図７は、音声の波形に関して、音節組成の特徴を説明する図である。図示に開示するように、波形信号によって現される音声の音節は、前段、中段及び後段に区切ることが出来る。呼気音域と子音域は前段のエリアに位置し、呼気音域と子音域の後に母音域が続く。呼気音の周波数は子音、もしくは母音に比してかなり高い。また、音声の音節の前1／4のエリア内において、任意のいくつかの音節の平均周波数を取ることによってはじめの音声帯域周波数を得ることができ、音声の音節の後ろの1／4のエリア内で、任意のいくつかの音節の平均の周波数を取ることによって、おわりの音声帯域周波数を得ることができる。また、図示には、音声の音節の搬送波と、その上の変調した鋸歯波のエッジと、音声の音節の振幅の音量の変化を開示する。
【００６６】
【表１】

【００６７】
【表２】

【００６８】
【表３】

【００６９】
図１１は、図８における音声の波形の母音の部分の組成に関する構造上の特徴を説明する図である。図示に開示するように、母音の部分cの中に重複して出現する音節の波形域を母音節と称する。即ち図示における母音節ｃである。母音節０は、母音が形成され始めた時点において発生する小さい母音節であり、母音節１から３は母音が重複して発生する場合の小さい母音節である。その後の母音節（例えば母音節４など）も同様に考える。ここにおいて、いわゆる分割音節とは、母音の波形を０／１／２／３…などに分割した場合の独立した小さい音節を指す。すなわち母音節である。
【００７０】
【表４】

【００７１】
四声の変化を判断する場合は、音声の音節の前１／４のエリア内において、任意のいくつかの音節の周波数の平均によって、はじめの音声帯域周波数を得ることができ、音声の音節のおわりの１／４のエリアにおいて、任意のいくつかの音節の周波数の平均によって、おわりの音声帯域周波数を得ることができる。
【００７２】
「差〜ポイント」と表示する場合の「ポイント」とは、サンプリングを行うポイントの数を指し、これは周波数に関連する。例えば１１KHzをサンプリングの周波数とした場合、1／１１０００秒につき１つのサンプリングポイントを得ることに相当する。すなわち１秒のサンプリング時間内に１１K個のサンプリングポイントを有することになる。仮に５０KHzをサンプリングの周波数とした場合、1／５００００秒に１つのサンプリングポイントを得ることに相当する。すなわち、1秒に５０K個のサンプリングポイントを有することになる。サンプリングのポイント数は、すなわち周波数の表す数字である。
【００７３】
音声帯域周波数のはじめとおわりを取り出した後、次の規則に基づき判断を行う。
１．はじめの音声帯域周波数とおわりの音声帯域周波数の差４ポイントの場合、該音声の音調は中国語の文字の発音における第一声と判断することができる。
２．はじめの音声帯域周波数とおわりの音声帯域周波数の差５ポイントの場合、該音声の音調は中国語の文字の発音における第一声か、もしくは第三声と判断することができる。
３．おわりの音声帯域周波数がはじめの音声帯域周波数より高く、しかもおわりの音声帯域周波数からはじめの音声帯域周波数を引いた値が、はじめの音声帯域周波数の半分の値よりも大きい場合は、該音声の音調は中国語の文字の発音における第四声と判断することができる。
４．はじめの音声帯域周波数とおわりの音声帯域周波数によって、中国語の文字の発音における第三声および第四声を認識する場合、仮に女性の発した音声のはじめの音声帯域周波数が３８ポイントより小さければ、該音声の音調は第四声であると判断する。仮に女性の発した音声のはじめの音声帯域周波数が６０ポイントより大きければ、該音声の音調は三声であると判断する。仮に男性の発した音声のはじめの音声帯域周波数が８０ポイントより小さければ、該音声の音調は第四声であると判断する。仮に男性の発した音声のはじめの音声帯域周波数が９２ポイントより大きければ、該音声の音調は三声であると判断する。
【００７４】
音声の音色を判断する場合、音声全体の音節の搬送波、およびその上の変調した鋸歯波のエッジに対して分析処理を行い、音声の音色の特徴を得る。音声の音節の搬送波は音声の波形の鋸歯波のエッジであって、個人個人の発する音声に対応する波形によって表される音節上の搬送波の周波数と、振幅の変化はいずれも異なる。よって音声認識の原則を応用し、音声全体の音節に対して分析処理を行うことによって、音声の音色の特徴を得ることができる。
【００７５】
感情の起伏の反応を判断する場合は、音声の音節の振幅に対して分析を行う。すなわち音声の音節の音量の変化、音調の工程に対して分析処理を行い、音声を発した使用者の感情の起伏による反応を得る。この感情の起伏による反応は、音声の音節の音量の変化、および音調の高低に関連する。
【００７６】
図１３は、中国語の四声の音調の変化によって発声する音調の周波数に関する統計表である。図示に開示するように、使用者が発した音声の音調の周波数が２５９Hzから３４４Hz間に在る場合、該音調は第一声である。使用者が発した音声の音調の周波数が１８２Hzから１９６Hz間に在る場合、該音調は第二声である。使用者が発した音声の音調の周波数が２２０Hzから２２５Hz間に在る場合、該音調は第三声である。使用者が発した音声の音調の周波数が１７６Hzから２０６Hz間に在る場合、該音調は第四声である。
【００７７】
【表５】

【００７８】
以上の実施例と、その方法をまとめると、この発明は一種の音声認識方法、及びそのシステムであって、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって音声に対応する特徴的な波形の物理的特性に対して分析を行い、音声認識の原則を応用し、音声の音節を子音と、呼気音と、母音の部分とに区分し、かつ音声全体の音節に対して処理を行い、はじめの音声帯域周波数とおわりの音声帯域周波数を取り出し、子音と、呼気音と、母音の部分に対して認識処理および組み合わせを行い、子音と母音を組み合わせた後、音声認識の原則を応用し、子音と母音とによって構成される音声について、音声と文字とが対応するコモン・データベースによって照合を行い、使用者の発声した音声に対応する文字が何であるか判断し、これを得る。音声認識の原則を応用し、音声全体の音節の音量の変化および音調の高低に対して分析処理を行うことによって、発声した使用者の感情的な反応を認識することができる。この感情的な反応は音声の音節の音量の変化及び音調の高低に関連する。子音と母音との組み合わせを利用して音声に対応する文字を認識する以外に、はじめの音声帯域周波数とおわりの音声帯域周波数に係る演算と、その判断の法則を利用することができる。即ち、母音の部分の周波数と波形の振幅のアウトラインの変化の状況を組み合わせることによって、中国語の音声が包括する四声の変化を認識する。つまり、子音と母音との組み合わせに対して、更に中国語の音声が包括する四声の変化を加えることによって、中国語による発音に対応する中国文字を正確に認識することができる。従ってこの音声認識の方法及びそのシステムは、四声の変化を有することのない音声と文字を認識することができる以外に、四声の変化を包括する中国語の音声に対応する中国文字を認識することができる。
【００７９】
即ち、この発明による音声認識の方法及びそのシステムは、使用者が発した音声に対して、音声の特徴的な波形の物理的特性を利用し、音声の音節を子音と、母音の部分とに区分し、さらに子音と、母音について、それぞれ認識処理及び組み合わせを行い、使用者の発した音声に対応した文字が何であるか認識する。四声の変化を有する中国語の発音については、母音の部分の波形の振幅のアウトラインの変化を判断し、中国語における四声の変化を認識する。よって、中国語の音声を認識できるのみならず、中国語の同一音声の異なる四声の変化を認識することもできる。このため、使用者が発した中国語の発音に対する文字が何であるか正確に認識することができる。すなわち、四声の変化のない音声に対応する文字を認識することができる以外に、四声の変化を包括する中国語の発音に対応する文字を認識することができる。
【００８０】
以上の説明は、この発明の好ましい実施例であって、この発明の実施の範囲を限定するものではない。よって、この発明に開示される精神と、それによって完成されるものと均等の効果を有する変更、もしくは修正などは、いずれも特許請求の範囲に含まれるものとする。
【００８１】
【発明の効果】
この発明による音声認識の方法およびそのシステムは、次に掲げる長所を具える。
１．使用者は事前に専用の音声と文字とが対応するデータベース構築する必要がなく、この条件の下で音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、使用者の発した音声を認識することができる。
２．使用者の発した音声の音節を子音と、呼気音と、母音の部分とに区分し、音声全体の音節に対してはじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出して処理し、かつ母音の部分の周波数と波形の振幅のアウトラインとの変化を組み合わせ、使用者が発した音声に対応する文字を認識するとともに、音調の変化を有する音声を分析することによって、使用者の発した中国語の発音に対する中国語の文字を認識し、また中国語の音声が包括する四声の変化に対応する中国語の文字を認識することができる。
３．音声全体の音節の搬送波と、その上の変調する鋸歯波のエッジに対して分析処理を行い、音声の音色の特徴を得ることができる。よって音声を発した使用者の音色を認識することができる。また音声全体の音節の音量の変化に対して分析処理を行い、音声を発した使用者の感情の起伏による反応を認識することができる。
【図面の簡単な説明】
【図１】この発明の音声認識の方法とシステムの基本的な構成を示すブロック図である。
【図２】図１に開示する音声認識のシステムによって、音声を認識する場合のワークを示すフローチャートである。
【図３】図１に開示する音声認識システムによって、音声認識と、音色と、使用者の感情的表現を判断する場合のワークを示すフローチャートである。
【図４】図３に開示する音声認識のワークをさらに詳しく説明したフローチャートである。
【図５】図３に開示する音声認識と、音色と、使用者の感情的表現を判断するワークをさらに詳しく説明したフローチャートである。
【図６】図４に開示する中国語の音声に対応する文字を認識するワークをさらに詳しく説明したフローチャートである。
【図７】音声波形の構造と、その特性を示す説明図である。
【図８】子音と、呼気音と、母音に関する説明図である。
【図９】図８における子音エリアの破裂音の波形の特性を表す説明図である。
【図１０】図８における子音エリアの帯気音の波形の特性を表す説明図である。
【図１１】図８における音声の波形の母音の部分の組成特性を表す説明図である。
【図１２】図８における音声の波形の母音の部分の特徴的な助変数を表す説明図である。
【図１３】中国語の四声の音調変化と音調の周波数に関する統計表である。
【図１４】「巴」を中国語で発音した場合の子音と母音の部分の波形の説明であり、音声認識の原則を応用して認識する場合の例を表す説明図である。
【符号の説明】
１音声認識のシステム
２音声転換処理モジュール
３音声認識の原則データベース
４音声認識処理モジュール
５音声と、文字とが対応するデータベース

Claims

音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、前記音声認識処理モジュールの認識対象となる前記音声信号から文字子音および文字母音を認識するための規則を包含する音声認識規則データベースと、前記文字子音および前記文字母音に関連づけて対応する文字を格納するコモン・データベースとを備える音声認識システムによって、音声認識をする方法において、次の（１）から（６）の工程を含んでなり、
（１）の工程においては、前記音声転換処理装置が、使用者の発した前記音声信号をこれに対応する特徴的な波形に転換し、即ち音声信号を処理して音声の波形とし、
（２）の工程においては、前記音声認識処理モジュールが、音声の特徴を示す波形の各項助変数を取り出し、
該母音の部分を構成する特徴的な前記助変数は、前記波形の変換点の個数である折り返し数と、前記波形がゼロ軸を通過する個数である波数と、前記波形のピーク間の傾斜の度合いである傾斜率とを含み、
（３）の工程においては、前記音声認識規則データベースに基づいて前記音声認識処理モジュールが、該波形の各項助変数に基づき子音と、呼気音と、母音の特徴とを認識して該音声に対応する波形を子音と、呼気音と、母音の部分とに区分し、
（４）の工程においては、前記音声認識規則データベースに基づいて前記音声認識処理モジュールが、該波形を子音と、呼気音と、母音のとに区分した後、子音と母音の有する波形の特徴について分析を行い、子音の部分に対応する前記文字子音は何か、また母音の部分に対応する前記文字母音は何か認識してこれを得て、
（５）の工程においては、前記コモン・データベースに基づいて前記音声認識処理モジュールが、該認識した前記文字子音と、前記文字母音とを組み合わせて、該組み合わせた音声に対応する文字が何であるか認識をして、これを得て、
（６）の工程において、音声を認識の過程を終了すること、を特徴とする音声認識方法。
前記音声の波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節の波形エリアを含んでなり、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項１に記載の音声の認識方法。
前記音声の波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節の波形エリアを含んでなり、かつ、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項１に記載の音声の認識方法。
前記子音と母音の有する波形の特徴に対して判断と、分析を行う工程において、該母音の部分の重複して出現する音節の波形のエリアに対して分割を行うことを特徴とする請求項１、請求項２、もしくは請求項３に記載の音声の認識方法。
音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、前記音声認識処理モジュールの認識対象となる前記音声信号から文字子音および文字母音を認識するための規則を包含する音声認識規則データベースと、前記文字子音および前記文字母音に関連づけて対応する文字を格納するコモン・データベースとを備える音声認識システムによって、音声認識をする方法において、次の（１）から（５）の工程を含んでなり、
（１）の工程においては、前記音声転換処理装置が、使用者の発した音声に処理を加えて音声の波形に転換し、
（２）の工程においては、前記音声認識規則データベースに基づいて前記音声認識処理モジュールが、前記波形から助変数を取り出し、前記助変数により音声の音節を異なる部分に分けて音節全体からはじめの音声帯域周波数と、おわりの音声帯域周波数を選択し、
該母音の部分を構成する特徴的な前記助変数は、前記波形の変換点の個数である折り返し数と、前記波形がゼロ軸を通過する個数である波数と、前記波形のピーク間の傾斜の度合いである傾斜率とを含み、
（３）の工程においては、前記音声認識規則データベースに基づいて前記音声認識処理モジュールが、該音声の音節の異なる部分についてそれぞれ認識を行い、子音と、呼気音と、母音に区分するとともに、はじめの音声帯域周波数と、おわりの音声帯域周波数に対する音声の有する音調の変化を認識し、
（４）の工程においては、前記コモン・データベースに基づいて前記音声認識処理モジュールが、該認識した前記異なる部分に対応する前記文字子音と、前記文字母音と、及び音調の変化を組み合わせに基づいて、音声に対応する文字が何かを判断し、
（５）の工程において音声を認識の工程を終了すること、を特徴とする音声認識方法。
前記音声の波形の音節を子音と、呼気音と、母音の部分に分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節の波形エリアを含んでなり、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項５に記載の音声の認識方法。
前記音声の波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節の波形エリアを含んでなり、かつ、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項５に記載の音声の認識方法。
前記該音声の音節の異なる部分についてそれぞれ認識を行うとともに、はじめの音声帯域周波数と、おわりの音声帯域周波数に対する音声の有する音調の変化を認識する工程において、該母音の部分が包括する重複して出現する音節の波形エリアに対して分割を行い、音声の波形の子音の部分と、母音の部分に対して認識を行うことを特徴とする請求項５、請求項６、もしくは請求項７に記載の音声の認識方法。
前記音声の音節の異なる部分についてそれぞれ認識を行うとともに、はじめの音声帯域周波数と、おわりの音声帯域周波数を選択する工程において、該音声全体の前段部１／４の周波数の平均をはじめの音声帯域周波数とし、後段部１／４の周波数の平均をおわりの音声帯域周波数とすることを特徴とする請求項５に記載の音声の認識方法。
前記音声波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節波形のエリアを含んでなり、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項９に記載の音声の認識方法。
前記音声波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節波形のエリアを含んでなり、かつ、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項９に記載の音声の認識方法。
前記該音声の音節の異なる部分についてそれぞれ認識を行うとともに、はじめの音声帯域周波数と、おわりの音声帯域周波数に対する音声の有する音調の変化を認識する工程において、該母音の部分が包括する重複して出現する音節の波形エリアに対して分割を行い、音声の波形の子音の部分と、母音の部分に対して認識を行うことを特徴とする請求項９、請求項１０、もしくは請求項１１に記載の音声の認識方法。
音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、前記音声認識処理モジュールの認識対象となる前記音声信号から文字子音および文字母音を認識するための規則を包含する音声認識規則データベースと、前記文字子音および前記文字母音に関連づけて対応する文字を格納するコモン・データベースとを備える音声認識システムによって、音声認識の原則を利用して、音声と文字とが対応するコモン・データベースによって音声認識をする方法において、次の（１）から（６）の工程を含んでなり、
（１）の工程においては、前記音声転換処理装置が、使用者の発した前記音声信号を対応する特徴的な波形に転換し、即ち音声信号に処理を加えて音声波形とし、
（２）の工程においては、前記音声認識処理モジュールが、音声の特徴的を示す波形の各項特徴の助変数を取り出し、かつ音節全体からはじめの音声帯域周波数と、おわりの音声帯域周波数とを選択し、
該母音の部分を構成する特徴的な前記助変数は、前記波形の変換点の個数である折り返し数と、前記波形がゼロ軸を通過する個数である波数と、前記波形のピーク間の傾斜の度合いである傾斜率とを含み、
（３）の工程においては、前記音声認識規則データベースに基づいて前記音声認識処理モジュールが、該波形の各項特徴の助変数に基づき子音と、呼気音と、母音の特徴を認識するとともに、該音声に対応する波形を子音と、呼気音と、母音の部分とに分け、
（４）の工程においては、前記音声認識規則データベースに基づいて前記音声認識処理モジュールが、該波形を子音と、呼気音と、母音のとに区分した後、子音と母音の有する波形の特徴について判断、分析を行い、子音の部分に対応する文字子音は何か、また母音の部分に対応する文字母音は何か認識してこれを得るとともに、はじめの音声帯域周波数と、おわりの音声帯域周波数に対する音声の有する音調の変化を認識し、
（５）の工程においては、前記コモン・データベースに基づいて前記音声認識処理モジュールが、該認識した子音と、母音と、及び音調の変化を組み合わせて、該音声に対応する文字が何であるか認識をして、これを得て、
（６）の工程において、音声を認識の過程を終了すること、を特徴とする音声認識方法。
前記音声の波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節の波形エリアを含んでなり、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項１３に記載の音声の認識方法。
前記音声の波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節の波形エリアを含んでなり、かつ、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項１３に記載の音声の認識方法。
前記子音と母音の有する波形の特徴に対して判断と、分析を行う工程において、該母音の部分の重複して出現する音節の波形のエリアに対して分割を行うことを特徴とする請求項１３、請求項１４、もしくは請求項１５に記載の音声の認識方法。
前記波形の各項特徴の助変数を取り出し、かつ音節全体からはじめの音声帯域周波数と、おわりの音声帯域周波数とを選択する工程において、該音声全体の前段部１／４の周波数の平均をはじめの音声帯域周波数とし、後段部１／４の周波数の平均をおわりの音声帯域周波数とすることを特徴とする請求項１３に記載の音声の認識方法。
前記波形の各項助変数に基づき子音と、呼気音と、母音の特徴とを認識して該音声に対応する波形を子音と、呼気音と、母音の部分とに区分する工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節波形のエリアを含んでなり、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項１３に記載の音声の認識方法。
前記音声波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節波形のエリアを含んでなり、かつ、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項１３に記載の音声の認識方法。
前記音声の音節を異なる部分に対して認識を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数に対する音声の有する音調の変化を認識する工程において、該母音の部分が包括する重複して出現する音節の波形エリアに対して分割を行い、音声の波形の子音の部分と、母音の部分に対して認識を行うことを特徴とする請求項１７、請求項１８、もしくは請求項１９に記載の音声の認識方法。
前記音声の認識方法が中国語の音声の認識に応用される音声認識方法であることを特徴とする請求項５、請求項６、請求項７、請求項８、請求項９、もしくは請求項１０に記載の音声の認識方法。
前記音声の認識方法が中国語の音声の認識に応用される音声認識方法であることを特徴とする請求項１１、請求項１２、請求項１３、請求項１４、請求項１５、もしくは請求項１６に記載の音声の認識方法。
前記音声の認識方法が中国語の音声の認識に応用される音声認識方法であることを特徴とする請求項１７、請求項１８、請求項１９、もしくは請求項２０に記載の音声の認識方法。
音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、前記音声認識処理モジュールの認識対象となる前記音声信号から文字子音および文字母音を認識するための音声認識規則を包含する音声認識規則データベースと、前記音声と文字とが対応するデータベースとを備える音声認識システムにおいて、
該音声認識規則データベースは、前記音声認識処理モジュールが、音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分するとともに、子音と、呼気音と、母音の部分とに対してそれぞれ認識を行い、該子音と、母音とが何であるか判断を行い、かつ認識した子音と、母音の部分とを組み合わせて得た音声の組み合わせについて、前記音声と文字とが対応するデータベースによって照合し、該音声に対応する文字が何であるか認識し、これを得るためのものであって、
該音声と文字とが対応するデータベースは、コモン・データベースであって、音声と文字とが対応するデータベースを含んでなり、該音声は子音と、母音の組み合わせとによってなるとともに、該音声は対応する文字を具え、データベース内において音声と文字とが互いに対応することによって、組み合わせることによって得た音声に基づいて発声した音声が代表する文字を得ることができるものであり、
該音声転換処理装置は、使用者の発した音声を対応する物理的特徴を有する波形信号に転換し、かつ該波形信号を音声認識処理に供するために音声認識処理モジュールに入力し、
該音声認識処理モジュールは、該音声認識規則データベース内に保存した音声認識規則に基づき、該音声転換処理装置から入力された波形信号に対して処理を行い、音声の特徴を示す波形の各項助変数を取り出し、該波形の各項助変数に基づき、音声の音節を子音と、呼気音と、母音の部分とに分けてるととともに、前記音声認識処理モジュールは音声認識規則に基づき、音節の子音と、呼気音と、母音の部分とに対してそれぞれ認識、処理、及び組み合わせを行って認識して得た子音と母音とを組み合わせ、得られた音声の該組み合わせについて音声と文字とが対応する前記コモン・データベースによって照合を行い、音声に対応する文字が何か認識をして、これを得るためのモジュールであり、該母音の部分を構成する特徴的な前記助変数は、前記波形の変換点の個数である折り返し数と、前記波形がゼロ軸を通過する個数である波数と、前記波形のピーク間の傾斜の度合いである傾斜率とを含むことを特徴とする、音声認識システム。
音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、前記音声認識処理モジュールの認識対象となる前記音声信号から文字子音および文字母音を認識するための音声認識規則を包含する音声認識規則データベースと、前記音声と文字とが対応するデータベースとを備える音声認識システムにおいて、
該音声認識規則は、前記音声認識処理モジュールが、音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分するとともに、音声の音節のはじめの音声帯域周波数と、おわりの音声帯域周波数を取り出し、かつ該子音と、呼気音と、母音の部分とについてそれぞれ認識を行い、該子音と母音が何か判断をし、さらにはじめの音声帯域周波数と、おわりの音声帯域周波数を利用して母音の部分の周波数と、波形の振幅のアウトラインの変化の情況とを組み合わせて中国語の音声が包括する四声の変化を認識し、該認識した子音と母音の部分、もしくは子音と母音と及び四声の変化を組み合わせて、得られた音声の組み合わせを、音声と文字とが対応するデータベースによって照合し、音声に対応する文字が何か認識して、これを得るためのものであって、
該音声と文字とが対応するデータベースは、コモン・データベースであって、音声と文字とが対応するデータベースを含んでなり、該音声は子音と、母音の組み合わせか、もしくは子音と、母音と、四声の変化の組み合わせによってなるとともに、該音声は対応する文字を具え、データベース内において音声と文字とが互いに対応することによって、組み合わせることによって得た音声に基づいて発声した音声が代表する文字を得ることができるものであり、
該音声転換処理装置は、使用者の発した音声を対応する物理的特徴を有する波形信号に転換し、かつ該波形信号を音声認識処理に供するために音声認識処理モジュールに入力し、
該音声認識処理モジュールは、該音声認識規則データベース内に保存した音声認識規則に基づき、該音声転換処理装置から入力された波形信号に対して処理を行い、音声の特徴を示す波形の各項助変数を取り出し、該波形の各項助変数に基づき、音声の音節を子音と、呼気音と、母音の部分とに分けるとともに、音声の音節に対して処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数を取り出し、さらに音声認識処理モジュールは音声認識の原則に基づき、音節の子音と、呼気音と、母音の部分とに対してそれぞれ認識、処理、及び組み合わせを行って認識して得た子音と母音と、もしくは子音と、母音と、四声の変化とを組み合わせ、得られた音声の該組み合わせについて音声と文字とが対応する前記コモン・データベースによって照合を行い、音声に対応する文字が何か認識をして、これを得るためのモジュールであり、該母音の部分を構成する特徴的な前記助変数は、前記波形の変換点の個数である折り返し数と、前記波形がゼロ軸を通過する個数である波数と、前記波形のピーク間の傾斜の度合いである傾斜率とを含むことを特徴とする音声認識システム。
音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、前記音声認識処理モジュールの認識対象となる前記音声信号から文字子音および文字母音を認識するための音声認識規則を包含する音声認識規則データベースと、前記音声と文字とが対応するデータベースとを備える音声認識システムにおいて、
該音声認識規則は、前記音声認識処理モジュールが、音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分する規則と、音声の音節のはじめの音声帯域周波数と、おわりの音声帯域周波数を取り出す規則と、該子音と、呼気音と、母音の部分とを認識する規則と、四声の変化を認識する規則と、子音と母音を組み合わせる規則と、子音と母音と四声の変化を組み合わせる規則と、音声の音節の音色を認識する規則と、音声の音節の音量の変化を認識する規則とを含んでなり、前記音声認識処理モジュールが、該音声認識規則によって音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音とに分けてるとともに、該音声の音節のはじめの音声帯域周波数と、おわりの音声帯域周波数を取り出し、さらに前記音声認識規則に基づき子音と、呼気音と、母音とに対してそれぞれ認識を行い、該子音と母音が何であるか判断を行い、かつはじめの音声帯域周波数と、おわりの音声帯域周波数を利用し、母音の部分の周波数と、波形の振幅のアウトラインの変化の情況とを組み合わせて中国語の音声が包括する四声の変化を認識し、該認識した子音と母音の部分、もしくは子音と母音と及び四声の変化を組み合わせて、得られた音声の組み合わせを、前記音声と文字とが対応するデータベースによって照合し、音声に対応する文字が何か認識して、これを得るためのものであって、
該音声と文字とが対応するデータベースは、コモン・データベースであって、音声と文字とが対応するデータベースを含んでなり、該音声は子音と、母音の組み合わせか、もしくは子音と、母音と、四声の変化の組み合わせによってなるとともに、該音声は対応する文字を具え、データベース内において音声と文字とが互いに対応することによって、組み合わせることによって得た音声に基づいて発声した音声が代表する文字を得ることができるものであり、
該音声転換処理装置は、使用者の発した音声を対応する物理的特長を有する波形信号に転換し、かつ該波形信号を音声認識処理に供するために前記音声認識処理モジュールに入力し、
該音声認識処理モジュールは、該音声認識規則データベース内に保存した音声認識規則に基づき、該音声転換処理装置から入力された波形信号に対して処理を行い、音声の特徴を示す波形の各項助変数を取り出し、該波形の各項助変数に基づき、音声の音節を子音と、呼気音と、母音の部分とに分けるとともに、音声の音節に対して処理を行いはじめの音声帯域周波数と、おわりの音声帯域周波数を取り出し、さらに音声認識処理モジュールは音声認識規則に基づき、音節の子音と、呼気音と、母音の部分とに対してそれぞれ認識、処理、及び組み合わせを行って認識して得た子音と母音と、もしくは子音と、母音と、四声の変化とを組み合わせ、得られた音声の該組み合わせについて音声と文字とが対応するコモン・データベースによって照合を行い、音声に対応する文字が何か認識をして、これを得るためのモジュールであり、該母音の部分を構成する特徴的な前記助変数は、前記波形の変換点の個数である折り返し数と、前記波形がゼロ軸を通過する個数である波数と、前記波形のピーク間の傾斜の度合いである傾斜率とを含むことを特徴とする、音声認識システム。
前記音声認識処理モジュールがコンピュータ装置であることを特徴とする請求項２４、請求項２５、もしくは請求項２６に記載の音声認識システム。
前記音声認識処理モジュールがコンピュータ装置であり、前記音声認識規則データベース及び前記音声と文字とが対応するデータベースが、該コンピュータ装置の記憶手段内に保存されていることを特徴とする請求項２４、請求項２５、もしくは請求項２６に記載の音声認識システム。