JP3808732B2 - 音声認識方法及びそのシステム - Google Patents

音声認識方法及びそのシステム Download PDF

Info

Publication number
JP3808732B2
JP3808732B2 JP2001237604A JP2001237604A JP3808732B2 JP 3808732 B2 JP3808732 B2 JP 3808732B2 JP 2001237604 A JP2001237604 A JP 2001237604A JP 2001237604 A JP2001237604 A JP 2001237604A JP 3808732 B2 JP3808732 B2 JP 3808732B2
Authority
JP
Japan
Prior art keywords
voice
speech
waveform
sound
vowel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001237604A
Other languages
English (en)
Other versions
JP2003058182A (ja
Inventor
家 騏 封
Original Assignee
文化傳信科技(澳門)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 文化傳信科技(澳門)有限公司 filed Critical 文化傳信科技(澳門)有限公司
Priority to JP2001237604A priority Critical patent/JP3808732B2/ja
Publication of JP2003058182A publication Critical patent/JP2003058182A/ja
Application granted granted Critical
Publication of JP3808732B2 publication Critical patent/JP3808732B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、音声の波形を分析して行う音声認識方法と、そのシステムに関わるものであって、詳しくは、予め個人別の音声と文字が対応するデータベースの構築を必要としない条件の下において、音声認識の原則を利用して、音声と文字とが対応するコモン・データベースによって、音声の一音節を子音と、呼気音と、母音とに区分し、音声帯域周波数の始めと終わりの部分を取り出して、音声に対応する文字と、個人個人の音声の音色と、及び音調を認識する音声認識方法と、そのシステムに関するものである。
【0002】
この発明における一音節とは、人が発声する場合の個々の一音節を指し、これには、子音の部分と、母音の部分と、及び呼気音を含む可能性を有する。また、この発明における呼気音とは、図8に開示する音節の中で周波数の特に高い帯気音の部分を指す。また、この発明における音声認識の原則とは、図7、8に開示する周波数の特性図によって、それぞれの音節の特色を表示する方法である。
【0003】
【従来の技術】
一般的な周知の技術によれば、音声認識方法と、そのシステムは、いずれもサンプリングの方式を利用するものである。即ち、よって個人個人の音声の一音節に対応する音声の波形に対して段階的にサンプリングを行い、それぞれの段階における音声のサンプルの周波数、振幅の波形、および波形の搬送波の特性を前もってデータベースの中に保存し、該データベースの中に使用者個人の音声の周波数、振幅波形、及び搬送波に係る資料が存在した後になって、使用者はやっと個人の音声の照合、認識を行うことができる。即ち、周知の技術はいずれも発声者が音声認識の方法と、そのシステムを使う前に、予め個人専用の音声と文字が対応するデータベース構築しなければならず、該データベースは大量の音声と文字が対応したデータを包括するものであって、音声認識の原則を利用して、音声と文字が対応するコモン・データベースによって音声の認識を行うことができない。
【0004】
このような周知の技術の欠点は、音声の認識を行う時、異なる使用者にとっては、たとえすべての使用者の発した音声に代表される文字が同じだとしても、地域的に異なる訛りのためそれぞれの使用者が発した音声の周波数、振幅の波形、波形の搬送波の特性も異なる。このため、それぞれの使用者が自ら構築した音声と文字が対応するデータベースは異なったものとなる。よって、それぞれの使用者が同一の文字について音声の認識を行う前に、予め必ずサンプリング方式を利用して、同一の文字についてそれぞれの使用者の音声の音節に対応する音声の波形に対して、段階的にサンプリングを行い、それぞれの段階における音声サンプルの周波数、振幅の波形、および波形の搬送波の異なる特性を前もってデータベースの中に保存しなければならない。即ち、予めそれぞれの使用者の音声と文字が対応するデータベースを構築してこそ、はじめて音声の認識を行うことができる。このため、音声認識の原則の形式を以って、音声と文字が対応するコモン・データベースによって、それぞれの使用者の発する同一の文字に係る音声を認識することができない。
【0005】
例えば、それぞれの使用者の発した音声によって代表される文字がいずれも「巴」であったとしても、地域的な訛りのためそれぞれの使用者の発した音声の周波数、振幅の波形、波形の搬送波の特性が異なる。このため、それぞれの使用者の発した「巴」の字の音声の音節に対応する波形も異なる。よって、それぞれの使用者が「巴」の字の音声の認識を行う前に、予めサンプリングの方式を利用して、自己の「巴」の字の音声が包括する音節に対応した音声の波形に対して段階的にサンプリングを行い、それぞれの段階における音声サンプルの周波数、振幅の波形、および波形の搬送波の異なる特性をデータベースの中に保存しておかなければならない。即ち、それぞれの使用者は、前もって必ず個人の「巴」字の音声と文字が対応するデータベースを構築しなければならない。そして、該データベースによってはじめて「巴」の字の音声について認識を行うことができる。したがって、個人専用の「巴」の字の音声と文字とが対応するデータベースを構築していない情況下に在っては、音声認識の原則と、音声と文字とが対応するコモン・データベースを利用して、個人個人の発する「巴」の字の音声を認識することができない。
【0006】
即ち、周知の技術では、音声認識の原則を利用して、音声と文字とが対応するコモン・データベースによって音声の認識を行うことができない。このため、周知の音声認識の方法とシステムは音声認識を行う際に構築される個人専用の音声/文字対応データベースは極めて膨大な量のものとなり、音声の認識作業がさらに難しくなる。また、周知の音声の認識の方法、及びそのシステムは、個人個人の音声の音色を判別するとともに、発声の感情的な音声表現を判断することができない。
【0007】
周知の音声認識の方法とシステムを総合して見ると、それらは、いずれも事前にそれぞれ異なる使用者の音声と、これに対応する文字のデータベースを構築し、このような個人別のデータベースを構築した後、さらに音声とデータベースのデータを照合して認識作業を行うものであって、音声認識の原則を利用して、音声と文字が対応するコモン・データベースによって音声の認識を行うのではない。よって、仮に使用者がはじめて音声の認識を行おうとすれば、個人専属の音声と文字が対応するデータベースが構築されていないため、使用者は音声の認識作業を行うことができない。また、それぞれの地域的な訛りの問題もあることから、異なる音声と文字の対応したデータベースを構築する必要がある。よって、音声認識認識システム全体の音声と文字とが対応するデータベースは膨大な量のものとなり、このような音声と文字とが対応するデータベースを利用して音声の照合、認識を行う場合、困難性がさらに高まる。
【0008】
即ち、周知の技術によれば、それぞれの使用者の個人専用の音声と文字とが対応したデータベースを構築しなければならず、通則的な音声の認識の原則を利用して、音声と文字とが対応するコモン・データベースによって音声認識を進行させることができない。しかも、個人個人の音声の音色を識別することができず、また発声者の感情的要素による音声の変化も判断することができない。
【0009】
よって、使用者が予め個人の音声と文字とが対応するデータベースを構築する必要がなく、どのような使用者であろうと、もしくはどのような地域的な訛りがあろうと、いずれの情況下にも適用することができ、通則性の音声認識の原則を利用し、音声と文字が対応するコモン・データベースによって音声の認識を行うことができ、また使用者によるいかなる環境においても使用者が発した音声に対して認識を行い、該音声に対応する文字が何であるか得ることができ、さらに個々の使用者の音声の音色を判別し、且つ使用者の感情の起伏による音声の変化を判断することができる音声認識システムであって、通則的音声認識の原則を利用し、音声と文字とが対応するコモン・データベースによって音声を認識する新規な音声認識方法、及びそのシステムを如何に開発して、個々の使用者が発した音声と、該音声によって代表される音色と、使用者の感情の起伏によって現われる音声の変化を認識するか、これこそ解決が待たれる課題である。
【0010】
上述の周知の技術による音声認識方法、及びそのシステムは、予め使用者個人専用の音声と文字とが対応するデータベースを構築し、そののちになって使用者の発した音声に対して認識を行うことができるものであるため、これを解決するためには、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、音声に対応する特徴的な波形の物理的特性に対して分析を行い、該音声に対応する文字を判断し、また個々の使用者の音声の音色、及び音調を認識できる音声認識方法、及びそのシステムを採用する。
【0011】
【発明が解決しようとする課題】
この発明による音声認識方法、及びそのシステムは、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって音声を認識し、例えはじめて音声の認識を行う場合であっても、またいかなる使用者の発した音声であっても、認識することができるものであって、使用者の発した音声に基づいて、該音声が何であるか識別できる音声認識方法、及びそのシステムを提供することを目的とする。
【0012】
また、この発明は、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、使用者が発する音声の音節を子音と、呼気音と、母音の部分とに区分し、使用者が発した該音声に対応する文字が何であるか認識することができる音声認識方法、及びそのシステムを提供することを目的とする。
【0013】
また、この発明は、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、使用者が発する音声の音節を子音と、呼気音と、母音の部分とに区分し、かつ音声全体の音節に対して処理を行い、はじめの音声帯域周波数とおわりの音声帯域周波数を取り出し、母音の部分の周波数と波形の振幅のアウトラインの変化の状況を組み合わせ、使用者の発した音声に対応する文字が何であるかを認識し、音調の変化を有する音声の音調を認識することのできる音声認識方法、及びそのシステムを提供することを課題とする。
【0014】
また、この発明は、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、使用者が発する音声の音節を子音と、呼気音と、母音の部分とに区分し、かつ音声全体の音節に対して処理を行い、はじめの音声帯域周波数とおわりの音声帯域周波数を取り出し、母音の部分の周波数と波形の振幅のアウトラインの変化の状況を組み合わせ、使用者の発した音声に対応する中国文字が何であるかを認識し、また音声に含まれる四声の変化を識別して、これに対応する中国文字を認識することが出来る音声認識方法、及びそのシステムを提供することを課題とする。
【0015】
また、この発明は、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、音声全体の音節の搬送波と搬送波状の変調した鋸歯波のエッジを分析して、音声の音色の特徴を認識するとともに、使用者の発声した音色を認識することのできる音声認識方法、及びそのシステムを提供することを課題とする。
【0016】
また、この発明は、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、音声全体の音節について、音量の変化を分析処理し、発生した使用者の感情的反応を認識することのできる音声認識方法、及びそのシステムを提供することを課題とする。
【0017】
【課題を解決するための手段】
この発明は、音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、音声認識処理モジュールの認識対象となる音声信号から文字子音および文字母音を認識するための規則を包含する音声認識規則データベースと、文字子音および文字母音に関連づけて対応する文字を格納するコモン・データベースとを備える音声認識システムによって、音声認識をする方法において、次の(1)から(6)の工程を含んでなり、(1)の工程においては、音声転換処理装置が、使用者の発した音声信号をこれに対応する特徴的な波形に転換し、即ち音声信号を処理して音声の波形とし、(2)の工程においては、音声認識処理モジュールが、音声の特徴を示す波形の各項助変数を取り出し、該母音の部分を構成する特徴的な助変数は、波形の変換点の個数である折り返し数と、波形がゼロ軸を通過する個数である波数と、波形のピーク間の傾斜の度合いである傾斜率とを含み、(3)の工程においては、音声認識規則データベースに基づいて音声認識処理モジュールが、該波形の各項助変数に基づき子音と、呼気音と、母音の特徴とを認識して該音声に対応する波形を子音と、呼気音と、母音の部分とに区分し、(4)の工程においては、音声認識規則データベースに基づいて音声認識処理モジュールが、該波形を子音と、呼気音と、母音のとに区分した後、子音と母音の有する波形の特徴について分析を行い、子音の部分に対応する文字子音は何か、また母音の部分に対応する文字母音は何か認識してこれを得て、(5)の工程においては、コモン・データベースに基づいて音声認識処理モジュールが、該認識した文字子音と、文字母音とを組み合わせて、該組み合わせた音声に対応する文字が何であるか認識をして、これを得て、(6)の工程において、音声を認識の過程を終了すること、を特徴とする。また、好ましくは、音声認識規則を応用し、音声全体の音節の搬送波と、その上の変調した鋸歯状波のエッジについて分析処理を行い、音声の音色の特徴を得る。また、好ましくは、音声認識規則を応用して、音声全体の音節について、音量の変化と音調の高低を分析処理し、音声を発した使用者の感情的な反応を認識して、これを得る。この感情的な反応は音声の音節の音量、及び音調の高低に関連して変化する。
【0018】
また、この発明においては、子音と母音との組み合わせを利用して音声に対応する文字を認識する以外に、はじめの音声帯域周波数とおわりの音声帯域周波数に係る演算と、その判断の規則を利用することができる。即ち、母音の部分の周波数と波形の振幅のアウトラインの変化の状況を組み合わせることによって、中国語の音声が包括する四声の変化を認識する。つまり、子音と母音との組み合わせに対して、更に中国語の音声が包括する四声の変化を加えることによって、中国語による発音に対応する中国文字を正確に認識することができる。
【0019】
即ち、この音声認識の方法及びそのシステムは、四声の変化を有することのない、例えば西洋の言語の音声と文字を認識する以外に、四声の変化を包括する中国語の音声に対応する中国文字を認識することができる。
【0020】
この発明による音声認識の方法及びそのシステムは、あらかじめ個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下において、音声認識の原則を応用し、音声に対応する特徴的な波形の物理的特性を識別し、音声に対応する文字、個人個人の音声の音色、および音声の音調を認識するものである。
【0021】
この発明による音声認識システムは、音声転換処理装置、音声認識規則データベース、音声認識処理モジュール、及び音声と文字とが対応するコモン・データベースを含んでなる。音声認識規則データベースは、音声認識規則を包括してなり、該音声認識規則は音声の音節に対して処理を行うものである。即ち、音声認識処理モジュールが、音声の音節を子音と、呼気音と、母音の部分とに区分し、音声の音節のはじめの音声帯域周波数と、おわりの音声帯域周波数を取り出す際に、音声認識規則を利用し、子音と、呼気音と、母音の部分とに対して、それぞれ認識を行い、該子音と、母音とが何であるか判断を行う。
【0022】
また、音声認識処理モジュールは、音声認識規則を利用して、はじめの音声帯域周波数と、おわりの音声帯域周波数を演算し、これを判断する法則に基づき、母音の部分の周波数と、波形の振幅のアウトラインの変化の情況を組み合わせ、中国語の音声が包括する四声の変化を認識する。
【0023】
また、音声認識処理モジュールは、音声認識規則を利用して、認識した子音と、母音の部分、もしくは子音と、母音の部分と、及び四声の変化を組み合わせて得た音声の組み合わせについて、音声と、文字とが対応するデータベースによって照合し、該音声に対応する文字が何であるか認識し、これを得る。
【0024】
音声と、文字とが対応するコモン・データベースは、音声に対応する文字を含んでなるデータベースであって、該音声は子音と母音、もしくは子音と母音と及び四声の変化に組み合わせてなる。
【0025】
音声転換処理装置は、使用者が発した音声を対応する物理的な特徴を有する波形信号に転換するものであって、該信号を音声認識処理モジュールに入力し、音声認識処理に供する。
【0026】
音声認識処理モジュールは、音声認識規則データベース内の音声認識規則に基づき、前記波形信号に対して処理を行うものであって、音声の音節を子音と、呼気音と、母音の部分にと区分し、音声の音節に対して処理を行いはじめの音声帯域周波数と、終わりの音声帯域周波数を取り出す。即ち音声認識処理モジュールは、音声認識規則に基づき、音声の音節を構成する子音と、呼気音と、母音の部分とに対して認識、処理、及び組み合わせを行い、該認識した子音と母音の部分、もしくは子音と母音と及び四声の変化を組み合わせて、得られた音声の組み合わせを、音声と文字とが対応するデータベースによって照合し、得られた音声に対応する文字が何か認識して、これを得る。
【0027】
使用者の発した音声の音色を判別する場合、音声認識処理モジュールは音声認識規則データベース内の音声認識規則に基づき、音声全体の音節の搬送波、及びその上の鋸歯波のエッジに対して分析処理を行い、音声の音色の特徴を得て個人個人の音色を認識する。
【0028】
音声を発した使用者の感情的な音声の変化を判断する場合、音声認識処理モジュールは音声認識規則データベース内の音声認識規則に基づき、音声全体の音節の音量の変化に対して分析処理を行う。音声全体の音節の音量と、音調の変化は音声を発した使用者の感情的表現に関連し、これを現すものであるため、音声を発した使用者の感情的反応を得ることができる。
【0029】
音声認識を進行させる過程においては、まず、使用者の発した音声を、該音声に対応する物理的特徴を有する波形信号に転換する。次いで、音声認識規則によって、該音声に対応する波形信号の特徴的な波形の物理的特性に対して分析を行い、該波形のそれぞれの特徴的な助変数を取り出し、音声の音節を子音と、呼気音と、母音の部分とに区分し、かつはじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出す。さらに、音声認識の原則を利用して、子音と、呼気音と、母音の物理的特徴の助変数について、波形の特徴的な各項助変数に対して照合、認識を行い、音声の音節に対応する波形を子音と、呼気音と、母音とに区分する。
【0030】
次に、前記波形を子音と、呼気音と、母音の部分とに区分した後、子音と、呼気音と、母音の有する波形の特徴に対して判断を行い、子音の部分に対応する文字と、母音の部分に対応する文字を得る。さらに、音声認識規則を利用して、認識した文字子音と文字母音とを組み合わせ、該文字子音と文字母音とによって構成される組み合わせによって得た音声について、音声と文字とが対応するコモン・データベースによって、使用者が発した音声に対応する文字が何であるか判断し、これを得る。
【0031】
中国語の音声を認識する場合、音声の子音の部分に対応する文字子音と、母音の部分に対応する文字母音を判別して得る以外に、中国文字特有の四声の変化を判断しなければならない。よって、はじめの音声帯域周波数と、おわりの音声帯域周波数に対する判断の則を利用して、母音の部分の周波数と波形の振幅のアウトラインの変化の状況を組み合わせて、中国語の音声が包括する四声の変化を識別する。さらに、四声の変化を認識した後、中国語の前記文字子音と文字母音とを組み合わせ、かつ音声認識規則を利用して、認識した該文字子音と、文字母音と、四声の変化を組み合わせ、音声と文字とが対応するコモン・データベースによって照合し、使用者が発した四声の変化を有する中国語の音声に対応する文字は何か判断をして、これを得る。よって、この発明による音声認識方法は、四声の変化の無い音声に対応する文字を認識することが出来る以外に、四声の変化を有する中国語の音声に対応する中国語の文字を認識することができる。
【0032】
使用者の発した音声の音色を判別する場合、音声全体の音節の搬送波と、その上の変調した鋸歯波のエッジについて分析処理を行って音色の特徴を得て、個人個人の音色を認識する。
【0033】
使用者の発した音声について、感情的要素によって発生する変化を判断する場合、音声全体の音節の音量の変化に対して分析処理を行う。音声全体の音節の音量の変化と音調は、音声を発した使用者の感情的な反応に関連し、その変化は使用者の感情の起伏を代表する。
【0034】
以上をまとめると、この発明による音声認識方法、及び音声認識システムは、個人別の音声認識データベースを構築する必要のない条件下にあって、音声認識規則を応用し、音声と文字とが対応するコモン・データベースによって、音声に対応する特徴的な波形の物理的特性を分析、判別し、該音声に対応する文字と、個人個人の音色と、及び音声の音調を判断し、認識する。
【0035】
【発明の実施の形態】
上述の構造による音声認識方法及びそのシステムについて、その構造と特徴を説明するために、具体的な実施例を挙げ、図示を参照にして以下に詳述する。
【0036】
【実施例】
図1は、この発明による音声認識方法と、そのシステムの基本的な組織構造を示すブロック図である。図示に開示するように、この発明の音声認識のシステム1は、音声転換処理モジュール2と、音声認識の原則データベース3と、音声認識処理モジュール4と、音声と文字とが対応通用するコモン・データベース5とを含んでなる。該音声転換処理モジュール2は、音声を電子信号に転換する電子デバイスである。該音声認識処理モジュール4はコンピュータ装置であって、音声認識の原則データベース3と、音声と文字とが対応するコモン・データベース5はコンピュータの記憶装置内に保存する。
【0037】
音声認識の原則データベース3は、音声認識の原則を包括する。該音声認識の原則は、音節を子音と、呼気音と、母音とに区分する規則と、音声の音節のはじめの音声帯域周波数とおわりの音声帯域周波数とを取り出す規則と、子音と呼気音と母音とを認識する規則と、四声の変化を認識する規則と、子音と母音を組み合わせる規則と、子音と母音と四声の変化とを組み合わせる規則と、音声の音節の音色を認識する規則と、および節の音量の変化を認識する規則を内包する。これらの音声認識の原則は音声の音節に対して処理を行うために用いるものであって、音声の音節を子音と、呼気音と、母音の部分とに区分し、音声の音節のはじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出し、音声認識の原則を利用して子音、呼気音、母音に区分してそれぞれ認識を行い、子音と母音とが何であるか判断をする。また、音声認識の原則は、はじめの音声帯域周波数と、おわりの音声帯域周波数を演算して判断する法則に基づき、母音の部分の周波数と、波形の振幅のアウトラインの変化の状況を組み合わせて、中国語の音声に包括される四声の変化を認識する。また、音声認識の原則は、認識された子音と、母音の部分、もしくは子音と、母音の部分と、四声の変化とを組み合わせ、得られた音声の組み合わせについて、音声と文字とが対応するコモン・データベース5によって照合し、該音声に対応する文字が何であるか判断を行い、これを得る。
【0038】
音声と文字とが対応するコモン・データベース5は、音声に対応する文字を含んでなるデータベースであって、該音声とは、子音と母音、もしくは子音と母音と四声の変化との組み合わせによってなり、また、該音声は、対応する文字を有し、音声と文字が互いに対応して、音声を組み合わせることによって、使用者が発した音声を代表する文字を得ることができる。
【0039】
音声換処理モジュール2は、使用者の発する音声を対応する物理的特徴を有する波形信号に転換し、該波形信号を音声認識処理モジュール4へ入力し、音声認識処理に供する。
【0040】
音声認識処理モジュール4は、音声認識の原則データベース3内に保存された音声認識の原則に基づき、該波形信号に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分する。また音声の音節に対して処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数を取り出す。また、音声認識処理モジュール4は、音声認識の原則に基づき、音声の音節を子音と、呼気音と、母音の部分とに区分し、それぞれに対して認識、処理、及び組み合わせを行う。更に、認識した子音と母音の部分、もしくは子音と、母音部分と、四声の変化とを組み合わせ、得られた音声の組み合わせについて音声と文字とが対応するコモン・データベース5によって照合を行い、該音声に対応する文字が何であるかを判断し、これを得る。
【0041】
使用者の発した音声の音色を判断する場合、音声認識処理モジュール4は、音声認識の原則データベース3に保存した音声認識の原則に基づき、音声全体の音節の搬送波と、その上の変調鋸歯波のエッジに対して処理を行い、これを分析して、音声の音色の特徴を得る。この音声の音色の特徴によって個人個人の音声の音色を認識する。
【0042】
音声を発した使用者の感情の起伏を判断する場合、音声認識処理モジュール4は、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声全体の音節の音量の変化に対して分析処理を行う。音声全体の音節の音量の変化と音調は、音声を発した使用者の感情の起伏に関連し、その感情的反応を現す。よってこれに基づき使用者の感情的反応を認識することができる。
【0043】
図2は、図1に開示する音声認識システムのワークを示すフローチャートであって、この発明による音声認識システム及びその方法によって、音声の認識処理を行うワークの原理を示すものである。図示に開示するように、11の工程において、音声転換処理モジュール2が使用者の発した音声を受けて、該音声を対応する物理的特徴を有する波形信号に転換する。また、該波形信号を音声認識モジュール4に入力して、音声認識処理に供した後、12の工程に進む。12の工程においては、音声認識の原則データベース3と、音声認識処理モジュール4と、音声と文字とが対応するコモン・データベース5を組み合わせ、作業を行う。音声認識処理モジュール4は、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声転換処理モジュール2から入力された波形信号に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分し、かつ音声の音節に対して更に処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出して、13の工程へ進む。
【0044】
13の工程においては、音声認識処理モジュール4が、音声認識の原則に基づき、音声の音節が包括する子音と、呼気音と、母音の部分とに対して、それぞれ認識、処理、及び組み合わせを行い、さらに音声認識処理モジュール4によって認識した、子音と、母音の部分、もしくは子音と、母音の部分と、四声の変化とを組み合わせ、14の工程へ進む。
【0045】
14の工程においては、音声認識処理モジュール4が得た音声の組み合わせについて、音声と文字とが対応するコモン・データベース5によって照合し、該音声に対応する文字が何か認識をし、これを得て音声認識の工程を終了する。
【0046】
図3は、図1に開示する音声認識システムのワークを示すフローチャートにであって、この発明による音声認識システム及びその方法によって、音声の認識、音色、及び音声を発した使用者の感情の起伏を判断し、処理を行うワークの原理を示すものである。図示に開示するように、21の工程において、音声転換処理モジュール2が使用者の発した音声を受けて、該音声を対応する物理的特徴を有する波形信号に転換する。また、該波形信号を音声認識モジュール4に入力して、音声認識処理に供した後、22の工程に進む。22の工程においては、音声認識の原則データベース3と、音声認識処理モジュール4と、音声と文字とが対応するコモン・データベース5を組み合わせ、作業を行う。音声認識処理モジュール4は、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声転換処理モジュール2から入力された波形信号に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分し、かつ音声の音節に対して更に処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出して、23の工程へ進む。
【0047】
23の工程においては、音声認識処理モジュール4が、音声認識の原則に基づき、音声の音節が包括する子音と、呼気音と、母音の部分とに対して、それぞれ認識、処理、及び組み合わせを行い、さらに音声認識処理モジュール4によって認識した、子音と、母音の部分、もしくは子音と、母音の部分と、四声の変化とを組み合わせ、24の工程へ進む。
【0048】
24の工程においては、音声認識処理モジュール4が得た音声の組み合わせについて、音声と文字とが対応するコモン・データベース5によって照合し、該音声に対応する文字が何か認識をし、これを得て音声認識の25の工程に進む。
【0049】
25の工程において、使用者の発した音声の音色を判断する場合、音声認識処理モジュール4が音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声全体の音節の搬送波と、その上の変調した鋸歯状波のエッジについて分析処理を行い、音声の音色の特徴を得て、個人個人の音声の音色を認識する。また、音声を発する使用者の感情の起伏を認識する場合、音声認識処理モジュール4が音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声全体の音節の音量の変化に対して分析処理を行う。音声全体の音節の音量の変化と音調は、音声を発する使用者の感情の起伏に関連し、これを現す。この感情の起伏の反応を得て音声認識の工程を終了する。
【0050】
図4は、図2に開示する音声認識システムのワークの原理を詳細に示すフローチャートである。図示に開示するように、31の工程において、音声転換処理モジュール2が使用者の発した音声を対応する物理的特徴を有する波形信号に転換する。また、該波形信号を音声認識モジュール4に入力して、音声認識処理に供した後、32の工程に進む。32の工程においては、音声認識処理モジュール4が音声転換処理モジュール2の送信してきた波形信号を受信して、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声の音節の特徴的な波形の物理的特性に対して分析を行い、波形の各項特徴の助変数を取り出して33の工程に進む。33の工程においては、該波形の各項特徴の助変数に基づき、子音と、呼気音と、母音の特徴を認識し、かつ該波形信号で現される音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分するとともに、音声の音節に対して更に処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出して、34の工程へ進む。
【0051】
34の工程においては、前記波形を子音と、呼気音と、母音とに区分した後、音声認識処理モジュール4が、音声認識の原則に基づき、音声の音節が包括する子音と、呼気音と、母音の部分とに対してそれぞれ認識を行い、子音と、呼気音と母音の有する波形の特徴に対して分析、判断を行い、子音に対応する文字か何か、母音に対応する文字が何かを認識して、これを得た後、35の工程に進む。35の工程においては、認識された文字子音と文字母音とを組み合わせる。即ち、音声認識処理モジュール4が、認識した子音と、母音の部分とを組み合わせ、36の工程へ進む。
【0052】
36の工程においては、音声認識処理モジュール4が得られた音声の組み合わせについて、音声と文字とが対応するコモン・データベース5によって照合し、該音声に対応する文字が何か認識をし、これを得て音声認識の工程を終了する。
【0053】
図5は、図3に開示する音声認識システムよって進行させる音声、音色の認識、及び音声を発生した使用者の感情の判断に係る処理の原理を詳細に示すフローチャートである。図示に開示するように、41の工程において、音声転換処理モジュール2が使用者の発した音声を対応する物理的特徴を有する波形信号に転換し、該波形信号を音声認識モジュール4に入力して、音声認識処理に供した後、42の工程に進む。
【0054】
42の工程においては、音声認識処理モジュール4が音声転換処理モジュール2の送信してきた波形信号を受信して、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声の音節の特徴的な波形の物理的特性に対して分析を行い、波形の各項特徴の助変数を取り出して43の工程に進む。
【0055】
43の工程においては、該波形の各項特徴の助変数に基づき、子音と、呼気音と、母音の特徴を認識し、かつ該波形信号で現される音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分するとともに、音声の音節に対して更に処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出して、44の工程へ進む。
【0056】
44の工程においては、前記波形を子音と、呼気音と、母音とに区分した後、音声認識処理モジュール4が、音声認識の原則に基づき、音声の音節が包括する子音と、呼気音と、母音の部分とに対してそれぞれ認識を行い、子音と、呼気音と母音の有する波形の特徴に対して分析、判断を行い、子音に対応する文字か何か、母音に対応する文字が何かを認識して、これを得た後、45の工程に進む。45の工程においては、認識された文字子音と文字母音とを組み合わせる。即ち、音声認識処理モジュール4が、認識した子音と、母音の部分とを組み合わせ、46の工程へ進む。
【0057】
46の工程においては、音声認識処理モジュール4が得られた音声の組み合わせについて、音声と文字とが対応するコモン・データベース5によって照合し、該音声に対応する文字が何か認識をし、47の工程に進む。47の工程において、使用者の発した音声の音色を判断する場合、音声認識処理モジュール4は、音声認識の原則データベース3に保存した音声認識の原則に基づき、音声全体の音節の搬送波と、その上の変調鋸歯波のエッジに対して処理を行い、これを分析して、音声の音色の特徴を得る。この音声の音色の特徴によって個人個人の音声の音色を認識する。また、音声を発した使用者の感情の起伏を判断する場合、音声認識処理モジュール4は、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声全体の音節の音量の変化に対して分析処理を行う。音声全体の音節の音量の変化と音調は、音声を発した使用者の感情の起伏に関連し、その感情的反応を現す。よってこれに基づき使用者の感情的反応を認識して、音声認識の工程を終了する。
【0058】
図6は、図4に開示する音声認識システムによって進行させる中国語の音声に対応する文字認識の原理を詳細に示すフローチャートである。図示に開示するように、51の工程において、音声転換処理モジュール2が使用者の発した音声を対応する物理的特徴を有する波形信号に転換し、該波形信号を音声認識モジュール4に入力して、音声認識処理に供した後、52の工程に進む。
【0059】
52の工程においては、音声認識処理モジュール4が音声転換処理モジュール2の送信してきた波形信号を受信して、音声認識の原則データベース3内に保存した音声認識の原則に基づき、音声の音節の特徴的な波形の物理的特性に対して分析を行い、波形の各項特徴の助変数を取り出して53の工程に進む。
【0060】
53の工程においては、該波形の各項特徴の助変数に基づき、子音と、呼気音と、母音の特徴を認識し、かつ該波形信号で現される音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分するとともに、音声の音節に対して更に処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出して、54の工程へ進む。
【0061】
54の工程においては、前記波形を子音と、呼気音と、母音とに区分した後、音声認識処理モジュール4が、音声認識の原則に基づき、音声の音節が包括する子音と、呼気音と、母音の部分とに対してそれぞれ認識を行い、子音と、呼気音と母音の有する波形の特徴に対して分析、判断を行い、子音に対応する文字か何か、母音に対応する文字が何かを認識して、これを得た後、55の工程に進む。
【0062】
55の工程においては、音声認識処理モジュール4が、音声認識の原則データベース3内に保存した音声認識の原則に基づき、はじめの音声帯域周波数と、おわりの音声帯域周波数の演算判断の法則を利用し、かつ母音の部分の周波数と、波形の振幅のアウトラインの変化の情況を併せ判断し、中国語の音声が有する四声の変化を認識して56の工程に進む。
【0063】
56の工程においては、認識された文字子音と、文字母音と、中国語の音声の四声の変化とを組み合わせる。即ち、音声認識処理モジュール4が認識された子音と、母音の部分と、中国語の音声の四声の変化とを組み合わせて57の工程に進む。
【0064】
57の工程においては、得られた音声の組み合わせについて、音声認識処理モジュール4が、音声と文字とが対応するコモン・データベース5によって照合を行い、該音声に対応する中国語の文字が何であるか認識し、これを得て音声認識の工程を終了する。
【0065】
図7は、音声の波形に関して、音節組成の特徴を説明する図である。図示に開示するように、波形信号によって現される音声の音節は、前段、中段及び後段に区切ることが出来る。呼気音域と子音域は前段のエリアに位置し、呼気音域と子音域の後に母音域が続く。呼気音の周波数は子音、もしくは母音に比してかなり高い。また、音声の音節の前1/4のエリア内において、任意のいくつかの音節の平均周波数を取ることによってはじめの音声帯域周波数を得ることができ、音声の音節の後ろの1/4のエリア内で、任意のいくつかの音節の平均の周波数を取ることによって、おわりの音声帯域周波数を得ることができる。また、図示には、音声の音節の搬送波と、その上の変調した鋸歯波のエッジと、音声の音節の振幅の音量の変化を開示する。
【0066】
【表1】
Figure 0003808732
【0067】
【表2】
Figure 0003808732
【0068】
【表3】
Figure 0003808732
【0069】
図11は、図8における音声の波形の母音の部分の組成に関する構造上の特徴を説明する図である。図示に開示するように、母音の部分cの中に重複して出現する音節の波形域を母音節と称する。即ち図示における母音節cである。母音節0は、母音が形成され始めた時点において発生する小さい母音節であり、母音節1から3は母音が重複して発生する場合の小さい母音節である。その後の母音節(例えば母音節4など)も同様に考える。ここにおいて、いわゆる分割音節とは、母音の波形を0/1/2/3…などに分割した場合の独立した小さい音節を指す。すなわち母音節である。
【0070】
【表4】
Figure 0003808732
【0071】
四声の変化を判断する場合は、音声の音節の前1/4のエリア内において、任意のいくつかの音節の周波数の平均によって、はじめの音声帯域周波数を得ることができ、音声の音節のおわりの1/4のエリアにおいて、任意のいくつかの音節の周波数の平均によって、おわりの音声帯域周波数を得ることができる。
【0072】
「差〜ポイント」と表示する場合の「ポイント」とは、サンプリングを行うポイントの数を指し、これは周波数に関連する。例えば11KHzをサンプリングの周波数とした場合、1/11000秒につき1つのサンプリングポイントを得ることに相当する。すなわち1秒のサンプリング時間内に11K個のサンプリングポイントを有することになる。仮に50KHzをサンプリングの周波数とした場合、1/50000秒に1つのサンプリングポイントを得ることに相当する。すなわち、1秒に50K個のサンプリングポイントを有することになる。サンプリングのポイント数は、すなわち周波数の表す数字である。
【0073】
音声帯域周波数のはじめとおわりを取り出した後、次の規則に基づき判断を行う。
1.はじめの音声帯域周波数とおわりの音声帯域周波数の差4ポイントの場合、該音声の音調は中国語の文字の発音における第一声と判断することができる。
2.はじめの音声帯域周波数とおわりの音声帯域周波数の差5ポイントの場合、該音声の音調は中国語の文字の発音における第一声か、もしくは第三声と判断することができる。
3.おわりの音声帯域周波数がはじめの音声帯域周波数より高く、しかもおわりの音声帯域周波数からはじめの音声帯域周波数を引いた値が、はじめの音声帯域周波数の半分の値よりも大きい場合は、該音声の音調は中国語の文字の発音における第四声と判断することができる。
4.はじめの音声帯域周波数とおわりの音声帯域周波数によって、中国語の文字の発音における第三声および第四声を認識する場合、仮に女性の発した音声のはじめの音声帯域周波数が38ポイントより小さければ、該音声の音調は第四声であると判断する。仮に女性の発した音声のはじめの音声帯域周波数が60ポイントより大きければ、該音声の音調は三声であると判断する。仮に男性の発した音声のはじめの音声帯域周波数が80ポイントより小さければ、該音声の音調は第四声であると判断する。仮に男性の発した音声のはじめの音声帯域周波数が92ポイントより大きければ、該音声の音調は三声であると判断する。
【0074】
音声の音色を判断する場合、音声全体の音節の搬送波、およびその上の変調した鋸歯波のエッジに対して分析処理を行い、音声の音色の特徴を得る。音声の音節の搬送波は音声の波形の鋸歯波のエッジであって、個人個人の発する音声に対応する波形によって表される音節上の搬送波の周波数と、振幅の変化はいずれも異なる。よって音声認識の原則を応用し、音声全体の音節に対して分析処理を行うことによって、音声の音色の特徴を得ることができる。
【0075】
感情の起伏の反応を判断する場合は、音声の音節の振幅に対して分析を行う。すなわち音声の音節の音量の変化、音調の工程に対して分析処理を行い、音声を発した使用者の感情の起伏による反応を得る。この感情の起伏による反応は、音声の音節の音量の変化、および音調の高低に関連する。
【0076】
図13は、中国語の四声の音調の変化によって発声する音調の周波数に関する統計表である。図示に開示するように、使用者が発した音声の音調の周波数が259Hzから344Hz間に在る場合、該音調は第一声である。使用者が発した音声の音調の周波数が182Hzから196Hz間に在る場合、該音調は第二声である。使用者が発した音声の音調の周波数が220Hzから225Hz間に在る場合、該音調は第三声である。使用者が発した音声の音調の周波数が176Hzから206Hz間に在る場合、該音調は第四声である。
【0077】
【表5】
Figure 0003808732
【0078】
以上の実施例と、その方法をまとめると、この発明は一種の音声認識方法、及びそのシステムであって、予め個人個人専用の音声と文字とが対応するデータベースを構築する必要がない条件の下で、音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって音声に対応する特徴的な波形の物理的特性に対して分析を行い、音声認識の原則を応用し、音声の音節を子音と、呼気音と、母音の部分とに区分し、かつ音声全体の音節に対して処理を行い、はじめの音声帯域周波数とおわりの音声帯域周波数を取り出し、子音と、呼気音と、母音の部分に対して認識処理および組み合わせを行い、子音と母音を組み合わせた後、音声認識の原則を応用し、子音と母音とによって構成される音声について、音声と文字とが対応するコモン・データベースによって照合を行い、使用者の発声した音声に対応する文字が何であるか判断し、これを得る。音声認識の原則を応用し、音声全体の音節の音量の変化および音調の高低に対して分析処理を行うことによって、発声した使用者の感情的な反応を認識することができる。この感情的な反応は音声の音節の音量の変化及び音調の高低に関連する。子音と母音との組み合わせを利用して音声に対応する文字を認識する以外に、はじめの音声帯域周波数とおわりの音声帯域周波数に係る演算と、その判断の法則を利用することができる。即ち、母音の部分の周波数と波形の振幅のアウトラインの変化の状況を組み合わせることによって、中国語の音声が包括する四声の変化を認識する。つまり、子音と母音との組み合わせに対して、更に中国語の音声が包括する四声の変化を加えることによって、中国語による発音に対応する中国文字を正確に認識することができる。従ってこの音声認識の方法及びそのシステムは、四声の変化を有することのない音声と文字を認識することができる以外に、四声の変化を包括する中国語の音声に対応する中国文字を認識することができる。
【0079】
即ち、この発明による音声認識の方法及びそのシステムは、使用者が発した音声に対して、音声の特徴的な波形の物理的特性を利用し、音声の音節を子音と、母音の部分とに区分し、さらに子音と、母音について、それぞれ認識処理及び組み合わせを行い、使用者の発した音声に対応した文字が何であるか認識する。四声の変化を有する中国語の発音については、母音の部分の波形の振幅のアウトラインの変化を判断し、中国語における四声の変化を認識する。よって、中国語の音声を認識できるのみならず、中国語の同一音声の異なる四声の変化を認識することもできる。このため、使用者が発した中国語の発音に対する文字が何であるか正確に認識することができる。すなわち、四声の変化のない音声に対応する文字を認識することができる以外に、四声の変化を包括する中国語の発音に対応する文字を認識することができる。
【0080】
以上の説明は、この発明の好ましい実施例であって、この発明の実施の範囲を限定するものではない。よって、この発明に開示される精神と、それによって完成されるものと均等の効果を有する変更、もしくは修正などは、いずれも特許請求の範囲に含まれるものとする。
【0081】
【発明の効果】
この発明による音声認識の方法およびそのシステムは、次に掲げる長所を具える。
1.使用者は事前に専用の音声と文字とが対応するデータベース構築する必要がなく、この条件の下で音声認識の原則を応用し、音声と文字とが対応するコモン・データベースによって、使用者の発した音声を認識することができる。
2.使用者の発した音声の音節を子音と、呼気音と、母音の部分とに区分し、音声全体の音節に対してはじめの音声帯域周波数と、おわりの音声帯域周波数とを取り出して処理し、かつ母音の部分の周波数と波形の振幅のアウトラインとの変化を組み合わせ、使用者が発した音声に対応する文字を認識するとともに、音調の変化を有する音声を分析することによって、使用者の発した中国語の発音に対する中国語の文字を認識し、また中国語の音声が包括する四声の変化に対応する中国語の文字を認識することができる。
3.音声全体の音節の搬送波と、その上の変調する鋸歯波のエッジに対して分析処理を行い、音声の音色の特徴を得ることができる。よって音声を発した使用者の音色を認識することができる。また音声全体の音節の音量の変化に対して分析処理を行い、音声を発した使用者の感情の起伏による反応を認識することができる。
【図面の簡単な説明】
【図1】 この発明の音声認識の方法とシステムの基本的な構成を示すブロック図である。
【図2】 図1に開示する音声認識のシステムによって、音声を認識する場合のワークを示すフローチャートである。
【図3】 図1に開示する音声認識システムによって、音声認識と、音色と、使用者の感情的表現を判断する場合のワークを示すフローチャートである。
【図4】 図3に開示する音声認識のワークをさらに詳しく説明したフローチャートである。
【図5】 図3に開示する音声認識と、音色と、使用者の感情的表現を判断するワークをさらに詳しく説明したフローチャートである。
【図6】 図4に開示する中国語の音声に対応する文字を認識するワークをさらに詳しく説明したフローチャートである。
【図7】 音声波形の構造と、その特性を示す説明図である。
【図8】 子音と、呼気音と、母音に関する説明図である。
【図9】 図8における子音エリアの破裂音の波形の特性を表す説明図である。
【図10】 図8における子音エリアの帯気音の波形の特性を表す説明図である。
【図11】 図8における音声の波形の母音の部分の組成特性を表す説明図である。
【図12】 図8における音声の波形の母音の部分の特徴的な助変数を表す説明図である。
【図13】 中国語の四声の音調変化と音調の周波数に関する統計表である。
【図14】 「巴」を中国語で発音した場合の子音と母音の部分の波形の説明であり、音声認識の原則を応用して認識する場合の例を表す説明図である。
【符号の説明】
1 音声認識のシステム
2 音声転換処理モジュール
3 音声認識の原則データベース
4 音声認識処理モジュール
5 音声と、文字とが対応するデータベース

Claims (28)

  1. 音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、前記音声認識処理モジュールの認識対象となる前記音声信号から文字子音および文字母音を認識するための規則を包含する音声認識規則データベースと、前記文字子音および前記文字母音に関連づけて対応する文字を格納するコモン・データベースとを備える音声認識システムによって、音声認識をする方法において、次の(1)から(6)の工程を含んでなり、
    (1)の工程においては、前記音声転換処理装置が、使用者の発した前記音声信号をこれに対応する特徴的な波形に転換し、即ち音声信号を処理して音声の波形とし、
    (2)の工程においては、前記音声認識処理モジュールが、音声の特徴を示す波形の各項助変数を取り出し、
    該母音の部分を構成する特徴的な前記助変数は、前記波形の変換点の個数である折り返し数と、前記波形がゼロ軸を通過する個数である波数と、前記波形のピーク間の傾斜の度合いである傾斜率とを含み、
    (3)の工程においては、前記音声認識規則データベースに基づいて前記音声認識処理モジュールが、該波形の各項助変数に基づき子音と、呼気音と、母音の特徴とを認識して該音声に対応する波形を子音と、呼気音と、母音の部分とに区分し、
    (4)の工程においては、前記音声認識規則データベースに基づいて前記音声認識処理モジュールが、該波形を子音と、呼気音と、母音のとに区分した後、子音と母音の有する波形の特徴について分析を行い、子音の部分に対応する前記文字子音は何か、また母音の部分に対応する前記文字母音は何か認識してこれを得て、
    (5)の工程においては、前記コモン・データベースに基づいて前記音声認識処理モジュールが、該認識した前記文字子音と、前記文字母音とを組み合わせて、該組み合わせた音声に対応する文字が何であるか認識をして、これを得て、
    (6)の工程において、音声を認識の過程を終了すること、を特徴とする音声認識方法。
  2. 前記音声の波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節の波形エリアを含んでなり、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項に記載の音声の認識方法。
  3. 前記音声の波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節の波形エリアを含んでなり、かつ、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項に記載の音声の認識方法。
  4. 前記子音と母音の有する波形の特徴に対して判断と、分析を行う工程において、該母音の部分の重複して出現する音節の波形のエリアに対して分割を行うことを特徴とする請求項、請求項、もしくは請求項に記載の音声の認識方法。
  5. 音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、前記音声認識処理モジュールの認識対象となる前記音声信号から文字子音および文字母音を認識するための規則を包含する音声認識規則データベースと、前記文字子音および前記文字母音に関連づけて対応する文字を格納するコモン・データベースとを備える音声認識システムによって、音声認識をする方法において、次の(1)から(5)の工程を含んでなり、
    (1)の工程においては、前記音声転換処理装置が、使用者の発した音声に処理を加えて音声の波形に転換し、
    (2)の工程においては、前記音声認識規則データベースに基づいて前記音声認識処理モジュールが、前記波形から助変数を取り出し、前記助変数により音声の音節を異なる部分に分けて音節全体からはじめの音声帯域周波数と、おわりの音声帯域周波数を選択し、
    該母音の部分を構成する特徴的な前記助変数は、前記波形の変換点の個数である折り返 し数と、前記波形がゼロ軸を通過する個数である波数と、前記波形のピーク間の傾斜の度合いである傾斜率とを含み、
    (3)の工程においては、前記音声認識規則データベースに基づいて前記音声認識処理モジュールが、該音声の音節の異なる部分についてそれぞれ認識を行い、子音と、呼気音と、母音に区分するとともに、はじめの音声帯域周波数と、おわりの音声帯域周波数に対する音声の有する音調の変化を認識し、
    (4)の工程においては、前記コモン・データベースに基づいて前記音声認識処理モジュールが、該認識した前記異なる部分に対応する前記文字子音と、前記文字母音と、及び音調の変化を組み合わせに基づいて、音声に対応する文字が何かを判断し、
    (5)の工程において音声を認識の工程を終了すること、を特徴とする音声認識方法。
  6. 前記音声の波形の音節を子音と、呼気音と、母音の部分に分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節の波形エリアを含んでなり、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項に記載の音声の認識方法。
  7. 前記音声の波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節の波形エリアを含んでなり、かつ、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項に記載の音声の認識方法。
  8. 前記該音声の音節の異なる部分についてそれぞれ認識を行うとともに、はじめの音声帯域周波数と、おわりの音声帯域周波数に対する音声の有する音調の変化を認識する工程において、該母音の部分が包括する重複して出現する音節の波形エリアに対して分割を行い、音声の波形の子音の部分と、母音の部分に対して認識を行うことを特徴とする請求項、請求項、もしくは請求項に記載の音声の認識方法。
  9. 前記音声の音節の異なる部分についてそれぞれ認識を行うとともに、はじめの音声帯域周波数と、おわりの音声帯域周波数を選択する工程において、該音声全体の前段部1/4の周波数の平均をはじめの音声帯域周波数とし、後段部1/4の周波数の平均をおわりの音声帯域周波数とすることを特徴とする請求項に記載の音声の認識方法。
  10. 前記音声波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節波形のエリアを含んでなり、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項に記載の音声の認識方法。
  11. 前記音声波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節波形のエリアを含んでなり、かつ、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項に記載の音声の認識方法。
  12. 前記該音声の音節の異なる部分についてそれぞれ認識を行うとともに、はじめの音声帯域周波数と、おわりの音声帯域周波数に対する音声の有する音調の変化を認識する工程において、該母音の部分が包括する重複して出現する音節の波形エリアに対して分割を行い、音声の波形の子音の部分と、母音の部分に対して認識を行うことを特徴とする請求項、請求項1、もしくは請求項1に記載の音声の認識方法。
  13. 音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、前記音声認識処理モジュールの認識対象となる前記音声信号から文字子音および文字母音を認識するための規則を包含する音声認識規則データベースと、前記文字子音および前記文字母音に関連づけて対応する文字を格納するコモン・データベースとを備える音声認識システムによって、音声認識の原則を利用して、音声と文字とが対応するコモン・データベースによって音声認識をする方法において、次の(1)から(6)の工程を含んでなり、
    (1)の工程においては、前記音声転換処理装置が、使用者の発した前記音声信号を対応する特徴的な波形に転換し、即ち音声信号に処理を加えて音声波形とし、
    (2)の工程においては、前記音声認識処理モジュールが、音声の特徴的を示す波形の各項特徴の助変数を取り出し、かつ音節全体からはじめの音声帯域周波数と、おわりの音声帯域周波数とを選択し、
    該母音の部分を構成する特徴的な前記助変数は、前記波形の変換点の個数である折り返し数と、前記波形がゼロ軸を通過する個数である波数と、前記波形のピーク間の傾斜の度合いである傾斜率とを含み、
    (3)の工程においては、前記音声認識規則データベースに基づいて前記音声認識処理モジュールが、該波形の各項特徴の助変数に基づき子音と、呼気音と、母音の特徴を認識するとともに、該音声に対応する波形を子音と、呼気音と、母音の部分とに分け、
    (4)の工程においては、前記音声認識規則データベースに基づいて前記音声認識処理モジュールが、該波形を子音と、呼気音と、母音のとに区分した後、子音と母音の有する波形の特徴について判断、分析を行い、子音の部分に対応する文字子音は何か、また母音の部分に対応する文字母音は何か認識してこれを得るとともに、はじめの音声帯域周波数と、おわりの音声帯域周波数に対する音声の有する音調の変化を認識し、
    (5)の工程においては、前記コモン・データベースに基づいて前記音声認識処理モジュールが、該認識した子音と、母音と、及び音調の変化を組み合わせて、該音声に対応する文字が何であるか認識をして、これを得て、
    (6)の工程において、音声を認識の過程を終了すること、を特徴とする音声認識方法。
  14. 前記音声の波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節の波形エリアを含んでなり、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項1に記載の音声の認識方法。
  15. 前記音声の波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節の波形エリアを含んでなり、かつ、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項1に記載の音声の認識方法。
  16. 前記子音と母音の有する波形の特徴に対して判断と、分析を行う工程において、該母音の部分の重複して出現する音節の波形のエリアに対して分割を行うことを特徴とする請求項1、請求項14、もしくは請求項15に記載の音声の認識方法。
  17. 記波形の各項特徴の助変数を取り出し、かつ音節全体からはじめの音声帯域周波数と、おわりの音声帯域周波数とを選択する工程において、該音声全体の前段部1/4の周波数の平均をはじめの音声帯域周波数とし、後段部1/4の周波数の平均をおわりの音声帯域周波数とすることを特徴とする請求項1に記載の音声の認識方法。
  18. 前記波形の各項助変数に基づき子音と、呼気音と、母音の特徴とを認識して該音声に対応する波形を子音と、呼気音と、母音の部分とに区分する工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節波形のエリアを含んでなり、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項1に記載の音声の認識方法。
  19. 前記音声波形の音節を子音と、呼気音と、母音の部分とに分ける工程において、該子音の部分の波形が漸近音か、帯気音か、押出音か、もしくは破裂音であって、該母音の部分は重複して出現する音節波形のエリアを含んでなり、かつ、該呼気音の部分の周波数が子音、もしくは母音に比して極めて高いことを特徴とする請求項1に記載の音声の認識方法。
  20. 前記音声の音節を異なる部分に対して認識を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数に対する音声の有する音調の変化を認識する工程において、該母音の部分が包括する重複して出現する音節の波形エリアに対して分割を行い、音声の波形の子音の部分と、母音の部分に対して認識を行うことを特徴とする請求項17、請求項18、もしくは請求項19に記載の音声の認識方法。
  21. 前記音声の認識方法が中国語の音声の認識に応用される音声認識方法であることを特徴とする請求項5、請求項、請求項、請求項、請求項、もしくは請求項10に記載の音声の認識方法。
  22. 前記音声の認識方法が中国語の音声の認識に応用される音声認識方法であることを特徴とする請求項1、請求項1、請求項1、請求項14、請求項15、もしくは請求項16に記載の音声の認識方法。
  23. 前記音声の認識方法が中国語の音声の認識に応用される音声認識方法であることを特徴とする請求項17、請求項18、請求項19、もしくは請求項2に記載の音声の認識方法。
  24. 音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、前記音声認識処理モジュールの認識対象となる前記音声信号から文字子音および文字母音を認識するための音声認識規則を包含する音声認識規則データベースと、前記音声と文字とが対応するデータベースとを備える音声認識システムにおいて
    該音声認識規則データベースは、前記音声認識処理モジュールが、音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分するとともに、子音と、呼気音と、母音の部分とに対してそれぞれ認識を行い、該子音と、母音とが何であるか判断を行い、かつ認識した子音と、母音の部分とを組み合わせて得た音声の組み合わせについて、前記音声と文字とが対応するデータベースによって照合し、該音声に対応する文字が何であるか認識し、これを得るためのものであって、
    該音声と文字とが対応するデータベースはコモン・データベースであって、音声と文字とが対応するデータベースを含んでなり、該音声は子音と、母音の組み合わせとによってなるとともに、該音声は対応する文字を具え、データベース内において音声と文字とが互いに対応することによって、組み合わせることによって得た音声に基づいて発声した音声が代表する文字を得ることができるものであり、
    音声転換処理装置は、使用者の発した音声を対応する物理的特徴を有する波形信号に転換し、かつ該波形信号を音声認識処理に供するために音声認識処理モジュールに入力し、
    該音声認識処理モジュールは、該音声認識規則データベース内に保存した音声認識規則に基づき、該音声転換処理装置から入力された波形信号に対して処理を行い、音声の特徴を示す波形の各項助変数を取り出し、該波形の各項助変数に基づき、音声の音節を子音と、呼気音と、母音の部分とに分けてるととともに、前記音声認識処理モジュールは音声認識規則に基づき、音節の子音と、呼気音と、母音の部分とに対してそれぞれ認識、処理、及び組み合わせを行って認識して得た子音と母音とを組み合わせ、得られた音声の該組み合わせについて音声と文字とが対応する前記コモン・データベースによって照合を行い、音声に対応する文字が何か認識をして、これを得るためのモジュールであり、該母音の部分を構成する特徴的な前記助変数は、前記波形の変換点の個数である折り返し数と、前記波形がゼロ軸を通過する個数である波数と、前記波形のピーク間の傾斜の度合いである傾斜率とを含むことを特徴とする音声認識システム。
  25. 音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、前記音声認識処理モジュールの認識対象となる前記音声信号から文字子音および文字母音を認識するための音声認識規則を包含する音声認識規則データベースと、前記音声と文字とが対応するデータベースとを備える音声認識システムにおいて
    該音声認識規則、前記音声認識処理モジュールが、音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分するとともに、音声の音節のはじめの音声帯域周波数と、おわりの音声帯域周波数を取り出し、かつ該子音と、呼気音と、母音の部分とについてそれぞれ認識を行い、該子音と母音が何か判断をし、さらにはじめの音声帯域周波数と、おわりの音声帯域周波数を利用して母音の部分の周波数と、波形の振幅のアウトラインの変化の情況とを組み合わせて中国語の音声が包括する四声の変化を認識し、該認識した子音と母音の部分、もしくは子音と母音と及び四声の変化を組み合わせて、得られた音声の組み合わせを、音声と文字とが対応するデータベースによって照合し、音声に対応する文字が何か認識して、これを得るためのものであって、
    該音声と文字とが対応するデータベースはコモン・データベースであって、音声と文字とが対応するデータベースを含んでなり、該音声は子音と、母音の組み合わせか、もしくは子音と、母音と、四声の変化の組み合わせによってなるとともに、該音声は対応する文字を具え、データベース内において音声と文字とが互いに対応することによって、組み合わせることによって得た音声に基づいて発声した音声が代表する文字を得ることができるものであり、
    音声転換処理装置は、使用者の発した音声を対応する物理的特徴を有する波形信号に転換し、かつ該波形信号を音声認識処理に供するために音声認識処理モジュールに入力し、
    該音声認識処理モジュールは、該音声認識規則データベース内に保存した音声認識規則に基づき、該音声転換処理装置から入力された波形信号に対して処理を行い、音声の特徴を示す波形の各項助変数を取り出し、該波形の各項助変数に基づき、音声の音節を子音と、呼気音と、母音の部分とに分けるとともに、音声の音節に対して処理を行い、はじめの音声帯域周波数と、おわりの音声帯域周波数を取り出し、さらに音声認識処理モジュールは音声認識の原則に基づき、音節の子音と、呼気音と、母音の部分とに対してそれぞれ認識、処理、及び組み合わせを行って認識して得た子音と母音と、もしくは子音と、母音と、四声の変化とを組み合わせ、得られた音声の該組み合わせについて音声と文字とが対応する前記コモン・データベースによって照合を行い、音声に対応する文字が何か認識をして、これを得るためのモジュールであり、該母音の部分を構成する特徴的な前記助変数は、前記波形の変換点の個数である折り返し数と、前記波形がゼロ軸を通過する個数である波数と、前記波形のピーク間の傾斜の度合いである傾斜率とを含むことを特徴とする音声認識システム。
  26. 音声を電子信号である音声信号に変換する音声転換処理装置と、コンピュータ上で動作する音声認識処理モジュールと、前記音声認識処理モジュールの認識対象となる前記音声信号から文字子音および文字母音を認識するための音声認識規則を包含する音声認識規則データベースと、前記音声と文字とが対応するデータベースとを備える音声認識システムにおいて
    該音声認識規則、前記音声認識処理モジュールが、音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音の部分とに区分する規則と、音声の音節のはじめの音声帯域周波数と、おわりの音声帯域周波数を取り出す規則と、該子音と、呼気音と、母音の部分とを認識する規則と、四声の変化を認識する規則と、子音と母音を組み合わせる規則と、子音と母音と四声の変化を組み合わせる規則と、音声の音節の音色を認識する規則と、音声の音節の音量の変化を認識する規則とを含んでなり、前記音声認識処理モジュールが、該音声認識規則によって音声の音節に対して処理を行い、音声の音節を子音と、呼気音と、母音とに分けてるとともに、該音声の音節のはじめの音声帯域周波数と、おわりの音声帯域周波数を取り出し、さらに前記音声認識規則に基づき子音と、呼気音と、母音とに対してそれぞれ認識を行い、該子音と母音が何であるか判断を行い、かつはじめの音声帯域周波数と、おわりの音声帯域周波数を利用し、母音の部分の周波数と、波形の振幅のアウトラインの変化の情況とを組み合わせて中国語の音声が包括する四声の変化を認識し、該認識した子音と母音の部分、もしくは子音と母音と及び四声の変化を組み合わせて、得られた音声の組み合わせを、前記音声と文字とが対応するデータベースによって照合し、音声に対応する文字が何か認識して、これを得るためのものであって、
    該音声と文字とが対応するデータベースはコモン・データベースであって、音声と文字とが対応するデータベースを含んでなり、該音声は子音と、母音の組み合わせか、もしくは子音と、母音と、四声の変化の組み合わせによってなるとともに、該音声は対応する文字を具え、データベース内において音声と文字とが互いに対応することによって、組み合わせることによって得た音声に基づいて発声した音声が代表する文字を得ることができるものであり、
    音声転換処理装置は、使用者の発した音声を対応する物理的特長を有する波形信号に転換し、かつ該波形信号を音声認識処理に供するために前記音声認識処理モジュールに入力し、
    該音声認識処理モジュールは、該音声認識規則データベース内に保存した音声認識規則に基づき、該音声転換処理装置から入力された波形信号に対して処理を行い、音声の特徴を示す波形の各項助変数を取り出し、該波形の各項助変数に基づき、音声の音節を子音と、呼気音と、母音の部分とに分けるとともに、音声の音節に対して処理を行いはじめの音声帯域周波数と、おわりの音声帯域周波数を取り出し、さらに音声認識処理モジュールは音声認識規則に基づき、音節の子音と、呼気音と、母音の部分とに対してそれぞれ認識、処理、及び組み合わせを行って認識して得た子音と母音と、もしくは子音と、母音と、四声の変化とを組み合わせ、得られた音声の該組み合わせについて音声と文字とが対応するコモン・データベースによって照合を行い、音声に対応する文字が何か認識をして、これを得るためのモジュールであり、該母音の部分を構成する特徴的な前記助変数は、前記波形の変換点の個数である折り返し数と、前記波形がゼロ軸を通過する個数である波数と、前記波形のピーク間の傾斜の度合いである傾斜率とを含むことを特徴とする音声認識システム。
  27. 前記音声認識処理モジュールがコンピュータ装置であることを特徴とする請求項24、請求項25、もしくは請求項26に記載の音声認識システム。
  28. 前記音声認識処理モジュールがコンピュータ装置であり、前記音声認識規則データベース及び前記音声と文字とが対応するデータベースが、該コンピュータ装置の記憶手段内に保存されていることを特徴とする請求項24、請求項25、もしくは請求項26に記載の音声認識システム。
JP2001237604A 2001-08-06 2001-08-06 音声認識方法及びそのシステム Expired - Fee Related JP3808732B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001237604A JP3808732B2 (ja) 2001-08-06 2001-08-06 音声認識方法及びそのシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001237604A JP3808732B2 (ja) 2001-08-06 2001-08-06 音声認識方法及びそのシステム

Publications (2)

Publication Number Publication Date
JP2003058182A JP2003058182A (ja) 2003-02-28
JP3808732B2 true JP3808732B2 (ja) 2006-08-16

Family

ID=19068661

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001237604A Expired - Fee Related JP3808732B2 (ja) 2001-08-06 2001-08-06 音声認識方法及びそのシステム

Country Status (1)

Country Link
JP (1) JP3808732B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4617092B2 (ja) * 2004-03-16 2011-01-19 株式会社国際電気通信基礎技術研究所 中国語の声調分類装置及び中国語のf0生成装置
CN116013349B (zh) * 2023-03-28 2023-08-29 荣耀终端有限公司 音频处理方法及相关装置

Also Published As

Publication number Publication date
JP2003058182A (ja) 2003-02-28

Similar Documents

Publication Publication Date Title
Eyben et al. The Geneva minimalistic acoustic parameter set (GeMAPS) for voice research and affective computing
US10074363B2 (en) Method and apparatus for keyword speech recognition
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
EP0708958B1 (en) Multi-language speech recognition system
Zwicker et al. Automatic speech recognition using psychoacoustic models
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
JP4914295B2 (ja) 力み音声検出装置
Lee et al. Tone recognition of isolated Cantonese syllables
JPS59226400A (ja) 音声認識装置
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
JP2003066991A (ja) 音声認識結果出力方法および音声認識結果出力装置ならびに音声認識結果出力処理プログラムを記録した記録媒体
JP2010197644A (ja) 音声認識システム
Grewal et al. Isolated word recognition system for English language
KR20080018658A (ko) 사용자 선택구간에 대한 음성비교 시스템
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
JP3808732B2 (ja) 音声認識方法及びそのシステム
Bansal et al. Emotional Hindi speech: Feature extraction and classification
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
EP1286329B1 (en) Method and system for phonetic recognition
US7454337B1 (en) Method of modeling single data class from multi-class data
JPS63165900A (ja) 会話音声認識方式
JP3378547B2 (ja) 音声認識方法及び装置
Sztahó et al. Speech activity detection and automatic prosodic processing unit segmentation for emotion recognition
JPH04324499A (ja) 音声認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050208

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050506

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060518

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090526

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100526

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110526

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110526

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees