JP2011033879A

JP2011033879A - サンプルを用いずあらゆる言語を識別可能な識別方法

Info

Publication number: JP2011033879A
Application number: JP2009180750A
Authority: JP
Inventors: Tze Fen Li; 黎自奮; Tai-Jan Li; 李台珍; Shih-Tzung Li; 黎世聰; Shih-Hon Li; 黎世宏; Li-Chuan Liao; 寥麗娟
Original assignee: Shih Hon Li; Tai Jan Lee Li; Tze Fen Li
Current assignee: Shih Hon Li; Tai Jan Lee Li; Tze Fen Li
Priority date: 2009-08-03
Filing date: 2009-08-03
Publication date: 2011-02-17
Anticipated expiration: 2029-08-03
Also published as: JP5091202B2

Abstract

【課題】ある連続音の特徴を改善し、あらゆる言語文を正しく識別でき、よって、サンプルを用いず、台湾中国語、英語、日本語、ドイツ語、フランス語、韓国語、ロシア語、広東語、台湾語等のすべての言語を識別可能なあらゆる言語を識別可能な識別方法を提供する。
【解決手段】ある連続音(word)が１個以上の単音を含み、あらゆる言語のある連続音の特徴は、あらゆる言語の未知の連続音から抽出し、これら未知の連続音は、マトリックス値を用いて表示し、１４４次元空間内に散布され、あらゆる言語の既知の連続音の特徴は、１４４次元空間に散らばり、知の連続音周囲の未知の連続音の特徴によりシミュレート及び計算され、本発明は１２個の弾性フレームを含み、長さが等しく、フィルターが無く、オーバーラップせず、ある連続音を、長さがさまざまな音波(さまざまな音節数を持つ)１２×１２マトリックスに転換し、ベイズ識別法により比較識別する。
【選択図】図２

Description

本発明はサンプルを用いずあらゆる言語を識別可能な識別方法に関し、特にある連続音は１個或いは多数の音節(単音)を含み、連続音のサンプルを用いずすべての言語を識別可能で、１２個の弾性フレームを用い、長さが等しく、フィルターが無く、オーバーラップせず、長さがさまざまなある連続音の音波を、１２×１２の線形予測ケプストラム係数(LPCC)のマトリックスに転換し、１個の未知の連続音は、１２×１２の線形予測ケプストラム係数のマトリックスを用いて表示し、１個の１２×１２マトリックスは、１個の１４４次元空間の１個のベクトルとして認知し、多くの未知の連続音のベクトルは、１４４次元空間に散らばり、発話者が１個の既知の連続音を発すると、該既知の連続音の特徴は、周囲の未知の連続音の特徴(LPCC)により、シミュレート及び計算され、１２個の弾性フレームを含み、ある連続音の音波を正常化し、ベイズ比較法は、データベース中で、発音者の未知の連続音のために、１個の既知の連続音を探し、１個の発話者の１個の未知の文を、Ｄ個の未知の連続音に分割し、及び１個のウィンドウスクリーニングは、１個の既知の文を、発話者の未知の文としてスクリーニングするサンプルを用いずあらゆる言語を識別可能な識別方法に関する。

ある連続音を発する時、その発音は、音波により表示される。音波は、時間に従い、非線形変化を行なう一種のシステムで、ある連続音の音波内には、一種の動的特性を含み、また時間に従い、非線形の連続変化を行なう。相同の連続音が発せられる時には、一連の相同の動的特性を有し、時間に従い、非線形の伸展及び收縮を行なう。但し、相同の動的特性は、時間に基づき排列する順序は同様であるが、時間が異なる。相同の連続音が発せられる時、相同の動的特性を、同一時間位置上に配列するのは、非常に困難である。さらに、相似の連続音が特別に多いため、識別をより難しくしている。

あるコンピューター化された言語識別システムでは、先ず、音波関連の言語情報、つまり動的特性を抽出し、言語と無関係の雑音をろ過する必要がある。例えば、人の声の音色、音の調子、発話時の心理、生理、情緒などは、音声識別とは無関係であるため、先に削除する。続いて、相同の連続音の相同の特徴を、相同の時間位置上に並べる。この一連の特徴は、長さが等しい系列特徴のベクトルを用い表示し、ある連続音の特徴モデルと呼ばれる。現在の音声識別システムでは、大きさが一致した特徴モデルの発生は複雑に過ぎ、しかも時間がかかる。なぜなら、相同の連続音の相同の特徴は、同一時間位置上には非常に並べ難く、特に、英語は識別がより困難である。

一般の文、或いは名称の識別方法には、以下の５個の主要な作業がある。未知の文或いは名称を、Ｄ個の未知の連続音に分割し、特徴を抽出し、特徴を正常化し（特徴モデルの大きさが一致し、しかも相同の連続音の相同の特徴が、同一時間位置に排列されている）、未知の連続音を識別し、及び文或いは名称データベースにおいて、適合する文或いは名称を探し出す。ある連続音の音波の特徴は、しばしばエネルギー（energy）、ゼロ交差（zero crossings）、エクストリームカウント（extreme count）、ホルマント（formants）、線形予測ケプストラム係数（LPCC）、メル周波数ケプストラム係数（MFCC）を用い表現される。

内、線形予測ケプストラム係数（LPCC）及びメル周波数ケプストラム係数（MFCC）によるものが、最も有効で、広く使用されている。線形予測ケプストラム係数（LPCC）は、ある連続音の最も信頼でき、安定し、また正確な言語の特徴を表す。それは、線形回帰方式を用い、連続音の音波を代表し、最小平方推計法により、回帰係数を計算する。その推計値を、さらにケプストラムに転換すると、線形予測ケプストラム係数（LPCC）となる。

メル周波数ケプストラム係数（MFCC）は、音波を、フーリエ転換法を用い、周波数に転換する。さらに、メル周波数比例去に基づき、聴覚システムを推計する。S.B. Davis氏とP. Mermelstein氏は、１９８０年に出版された「IEEE Transactions on Acoustics, Speech Signal Processing, Vol.２８, No.４」で発表した論文「Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences」によれば、動的時間伸縮法（DTW）を用いたメル周波数ケプストラム係数（MFCC）特徴は、線形予測ケプストラム係数（LPCC）特徴の識別率より高い。しかし、数回の音声識別実験（本発明人の従来の発明を含む）においては、ベイズ分類法を用いた線形予測ケプストラム係数（LPCC）特徴の識別率は、メル周波数ケプストラム係数（MFCC）特徴よりも高く、しかも省時間である。

言語識別には、既に多くの方法が採用されている。例えば、動的時間伸縮法(Ｄynamic time-warping)、ベクトル量子化法（vector quantization）、隠れマルコフモデル法（HMM）がある。もし、相同の発音が、時間上の変化において差異があるなら、比較しながら、相同の特徴を同一の時間位置へとのばす。この識別率は非常に高いが、相同の特徴を同一位置までのばすのは、非常に困難で、ワープ時間が長過ぎ、応用不能である。ベクトル量子化法は、大量の連続音を識別する場合には、不正確であるばかりか、時間がかかる。隠れマルコフモデル法（HMM）による識別方法は、優れているが、方法が煩雑で、あまりにも多くの未知のパラメーターを推計しなければならないため、推計値計算と識別に時間がかかる。

T.F. Li（黎自奮）氏は２００３年に出版された「Pattern Recognition, vol. ３６」で発表した論文「Speech recognition of mandarin monosyllables」中において、ベイズ分類法を用い、相同のデータベースにより、各種の長短の一系列のLPCCベクトルを大きさが相同の分類モデルに圧縮した。その識別結果は、Y.K. Chen氏、C.Y.Liu氏、G.H. Chiang氏、M.T. Lin氏が、１９９０年に出版された「Proceedings of Telecommunication Symposium, Taiwan」で発表した論文「The recognition of mandarin monosyllables based on the discrete hidden Markov model」中において、隠れマルコフモデル法HMM方法を用いたものより良い。しかし、圧縮過程は複雑で、時間がかかり、しかも相同の連続音の相同の特徴を相同の時間位置に圧縮するのは非常に難しく、相似した連続音に対しては、識別が極めて難しい。

本発明音声識別方法は、上記欠点に対して、学理の面から、音波のある音声特徴に基づき、時間に従い、非線形変化を行い、音声特徴を抽出する方法を自然に導き出す。ある連続音の音波を、先ず、正常化し、次に該連続音を代表するに足る大きさが相同の特徴モデルに転換する。しかも相同の連続音は、それら特徴モデル内の相同の時間位置は相同の特徴を有し、人為或いは実験により本発明内の未知パラメーター及び基準値を調節する必要はない。簡易なベイズ分類法を用い、未知の連続音分類モデルと連続音特徴データベース内の既知の連続音標準モデルを比較し、再圧縮、ワープ、或いは相同の特徴を探して比較する必要はない。よって、本発明音声識別方法は、特徴の抽出、特徴正常化、及び識別を迅速に完成可能である。

本発明が解決しようとする課題は、サンプルを用いずあらゆる言語を識別可能な識別方法を提供することである。

上記課題を解決するため、本発明は下記のサンプルを用いずあらゆる言語を識別可能な識別方法を提供する。
本発明の最重要目的は、多数の未知の連続音の特徴を用いて、あらゆる言語の任意の１個の既知の連続音の特徴をシミュレート及び計算することであるため、本発明はサンプルを用いず、あらゆる言語のある連続音の特徴を構築可能で、すなわち本発明サンプルを用いずとも、各種言語を正確に識別することができる。詳しく言えば、本発明は、あらゆる言語の任意の１個の既知の連続音に対して、ベイズ距離を用い、１４４次元空間において、N個の未知の連続音マトリックスを探し、該既知の連続音をシミュレート及び計算し、こうして既知の連続音のサンプルを用いずに、あらゆる既知の連続音の特徴を構築することができる。よってあらゆる言語を識別することができる。
本発明は言語識別方法を提供し、それは言語を備えない音声波を削除することができる。
本発明は、連続音の音波正常化及び特徴を抽出する方法を提供する。それは、E個の相互に等しい弾性フレームを使用し、オーバーラップせず、フィルターがなく、ある連続音波の長短に基づき、すべての波長を自由に調節でき、連続音の音波内で時間に従い非線形変化を行なう一系列の動的特性を、１個の大きさが相互に等しい特徴モデルに転換し、しかも相同の連続音の音波の特徴モデルは、相同の時間位置上では、相同の特徴を有する。即時に識別が可能で、コンピューター即時識別効果を達成することができる。
本発明は、簡易で有効なベイズ法による未知の連続音を識別する方法を提供し、識別エラーの確率を最小とし、計算が少なく、識別が速く、弁識率が高い。
本発明は、連続音の特徴の抽出方法を提供し、連続音の音波は一種の時間に従い、非線形変化を行なう動的特性を備える。本発明は、時間に従い、線形変化を行う回帰モデル推計時間に従い、非線形変化を行なう音波を用い、回帰未知係数の最小平方推計値（LPCベクトル）を生じる。
本発明は、すべての音声を備える音波（音波信号点）を使用する。より少ない数E＝１２個の相互に等しい弾性フレームを用い、フィルターがなく、オーバーラップせず、すべての信号点の特徴を含む。ある連続音の音波が短過ぎても、該連続音を削除せず、長過ぎても、一部の信号点を削除或いは圧縮しない。ヒトの聴覚がこの連続音を識別可能なら、本発明は、該連続音の特徴を抽出することができる。よって、本発明音声識別方法は、各１個の音声を備える信号点を応用し、できるだけ音声特徴を抽出することができる。E＝１２個の弾性フレームはオーバーラップせず、フレーム数が少ないため、特徴抽出及び線形予測ケプストラム係数（LPCC）を計算する時間を大幅に減少させることができる。
本発明の識別方法は、話すのが速過ぎる或いは話すのが遅過ぎる連続音を識別することができる。話すのが速過ぎる時には、ある連続音の音波は非常に短い。本発明は、弾性フレームの長さを短くすれば、相同数のE個の等しい長さの弾性フレームを用いて、短音波を網羅することができ、E個の線形予測ケプストラム係数（LPCC）ベクトルを生じる。該短音をヒトが弁別できさえすれば、該E個の線形予測ケプストラム係数（LPCC）ベクトルも、該短音の特徴モデルを有効に代表することができる。話すのが遅過ぎる際に発せられる連続音の音波はより長く、弾性フレームは伸び、発生するE個の線形予測ケプストラム係数（LPCC）ベクトルは、該長音を有効に代表することができる。
本発明は、データベース内のすべての既知の連続音の特徴を安定及び調節する方法を提供し、これによりすべての連続音の特徴は、１４４次元空間内において、相互に自己の位置及び空間を占有し、こうして正確に識別を行なうことができる。
１個の文或いは名称を識別する時には、先ず、未知の文或いは名称を、Ｄ個の未知の連続音に分割し、本発明は、各未知の連続音を、ベイズ法を用いて、連続音特徴データベースにおいて、最も相似したF個の既知の連続音を選択する。１個の文は、Ｄ×Ｆ個の既知の連続音により表示され、切断が困難であるため、比較的多い或いは比較的少ない個数の未知の連続音に分割され、本発明は、各未知の連続音の前後三列のＦ個の相似した既知の連続音により、文或いは名称中の１個の既知の連続音を比較し、また文及び名称データベース中において、各一文或いは名称に対して、３×Ｆウィンドウの既知の相似した連続音を用い、１個の既知の連続音をスクリーニングし、さらに、文及び名称データベースから、最も可能性が高い文或いは名称を探すため、方法は簡単で、成功率が非常に高い（７０個の英語文及び名称と、４０７台湾中国語の文及び名称を識別）。
本発明は、２種の技術を提供し、連続音の特徴を修正し、これにより未知の連続音及び未知の文或いは名称の識別を成功させる。
本発明は、１個の台湾中国語単音を、１個の１音節だけの連続音とし、中国語及び外国語の特徴はすべて、同じサンプル大きさのマトリックスにより表示する。よって、本発明は、各種言語を同時に識別することができる。

本発明サンプルを用いずあらゆる言語を識別可能な識別方法は、ある連続音の特徴を改善し、これによりあらゆる言語文を正しく識別でき、よって、サンプルを用いず、台湾中国語、英語、日本語、ドイツ語、フランス語、韓国語、ロシア語、広東語、台湾語等のすべての言語を識別することができる。

既知の連続音永久データベース、既知の連続音特徴データベース、文及び名称データベースの構築プロセスを示すフローチャートである。１個の未知の文或いは名称の識別方法のプロセスを示すフローチャートである。３８４個の台湾中国語単音、１個のドイツ語、１個の日本語、２個の台湾語の識別方法を示す図である。１５４個の英語、１個のドイツ語の識別方法を示す図である。２６９個の台湾中国語単音、３個の台湾語を識別する方法の図である。文及び名称データベースは、７０個の英語文と４０７個の中国語文及び名称を有することを示す図である。英語及び台湾中国語の文、名称を同時に識別する方法を示すVisual Basic 識別図である。英語及び台湾中国語の文、名称を同時に識別する方法を示すVisual Basic 識別図である。

以下に図面を参照しながら本発明を実施するための最良の形態について詳細に説明する。

図１及び図２は、本発明の執行プロセスを説明する。
図１は、既知の連続音永久データベース、既知の連続音特徴データベース、文及び名称データベースという３個のデータベースの構築プロセスを示す。
連続音特徴データベースは、すべての既知の連続音の標準モデルを含み、既知の連続音の特徴を示す。
先ず、１個の既知の連続音或いは１個の文或いは名称１を入力し(文或いは名称は、多数の連続音に分割される)、ある連続音波１０形式によりレシーバー２０に進入する。
デジタル転換器３０は、連続音波を、シーケンス音波デジタルの信号点に転換する。

プリプロセッサー４５は、以下のような２種の削除方法を有する。
ある一定の時間枠内の信号点の変異数及び一般雑音の変異数を計算する。もし前者が後者より小さければ、その一定時間枠は音声を備えないため、削除すべきである。
ある一定の時間枠内の連続する２個の信号点の距離の総和及び一般雑音の総和を計算する。もし前者が後者より小さければ、その一定時間枠は音声を備えないため、削除すべきである。

プリプロセッサー４５を経過することで、シーケンスは該既知の連続音信号点を備える。
先ず、音波を正常化し、次に特徴を抽出し、既知の連続音のすべての信号点を、E等時間枠に分割する。
各時間枠は１個のフレームを組成する。
ある連続音は、合計E個の等長フレーム５０を有し、フィルターがなく、オーバーラップしない。
連続音のすべての信号点の長さに基づき、E個のフレームの長さは、すべての信号点を網羅できるよう自由に調整する。
よって、そのフレームは弾性フレームと呼称し、長さは自由に伸縮可能だが、E個の弾性フレームの長さは同じである。
ハミング(Hamming)ウィンドウとは異なり、フィルターを有し、ハーフオーバーラップし、長さは固定で、波長に応じて自由に調整することはできない。

ある連続音は、音波時間に従い、非線形変化を行い、音波は、１個の音声動的特徴を含み、また時間に従い、非線形変化を行なう。オーバーラップしないため、本発明は比較的少ない(E=１２)個の弾性フレームを使用し、すべての連続音の音波を網羅する。信号点は前の信号点から推計できるため、用時間に従い、線形変化の回帰方式を行い、非線形変化の音波を密接に推計し、最小平方法を用いて、回帰未知係数を推計する。各フレーム内に、１組の未知係数最小平方推計値を生じ、これを線形予測コード（LPC）ベクトルと呼称する。
さらに、線形予測コード（LPC）ベクトルを、比較的安定した線形予測ケプストラム係数（LPCC）に転換する。ある連続音の音波内には、シーケンス時間に従い、非線形変化を行なう音声動的特徴を含み、本発明内では、大きさが相互に等しいE個の線形予測ケプストラム係数（LPCC）ベクトル６０に転換する。

１個の既知の連続音の特徴を抽出するため、先ず、１個の永久既知の連続音データベースを準備する。各既知の連続音は、発音が標準的で明晰な発話者により１回発音する。なまりがひどい、或いは標準的でない発話を識別する場合には、そのような発話者により発音し、すべての既知の連続音をE×P個のLPCCマトリックスに転換し、永久既知の連続音データベース内に組み入れる。永久既知の連続音データベース内において、１個の既知の連続音特徴を抽出するために、先ず、未知の連続音のデータベースを準備する。

未知の連続音データベースには、２種存在する。１種は、サンプルがある未知の連続音有サンプルで、もう１種は標準がない。サンプルがあるデータベースは、先ず、各１個の未知の連続音の平均値及び変異数を求める。サンプルがある未知の連続音データベース中において、ベイズ距離を用い、その既知の連続音周囲に対して、N個の最も近い未知の連続音を探す。さらに、N個の未知音のN個の平均値、及びその既知の連続音の線形予測ケプストラム係数(LPCC)の N＋１個の加重平均値を求め、既知の連続音の平均値とし、N個の連続音のN個の変異数の加重平均値を、その既知の連続音の変異数とする。このE×P平均値及び変異数マトリックスは、その既知の連続音の初期特徴値７９で、連続音特徴データベース中に組み入れる。

もし、未知のデータベースにサンプルがなければ、未知の連続音データベースにおいて、最小絶対値距離を用いて、その既知の連続音周囲にN個の未知の連続音を探す。その既知の連続音及びN個の未知の連続音の線形予測ケプストラム係数(LPCC)を、(N＋１)個の数字とする。(N+１)個の数字の加重平均値を求め、その既知の連続音の平均値とし、及び(N+１)個の数字の変異数を求め、その既知の連続音の変異数とし、このE×P平均値及び変異数のマトリックスは、その既知音の初期特徴を表し、既知の連続音特徴データベース内に組み入れる７９。

既知の連続音特徴データベース内において、もし１個の既知の連続音の平均値と、永久既知の連続音データベース内の同様の１個の既知の連続音のLPCCのベイズ距離が、特徴データベース内において最小でないなら、特徴データベース内においてベイズ距離を用い、N個の既知の連続音を探し、それらのベイズマトリックスのその既知の連続音に対するLPCCは、N個の最小である。N個の既知の連続音を求め、N個の平均値及びその既知の単音のLPCC加重平均値を、その既知の連続音の新平均値とし、N個の既知の連続音のN個の変異数の加重平均値を用い、その既知の連続音の新しい変異数とする。この方法を繰り返し数回用いて、特徴データベース内の各１個の既知の連続音の新平均値及び変異数を計算する。最後に、E×Pの新しい平均値及び変異数マトリックスを、標準モデルと呼称し、その既知の連続音を代表し、特徴データベース中に組み入れる８０。さらに、既知の特徴データベースの既知の連続音を用いて、文及び名称データベースを構築する８５。

図２は、１個の未知の文或いは名称の識別方法手順を示す。１個の未知の文或いは名称２を、本発明音声識別方法に入力後、１組の未知の連続音波１１により、レシーバー２０に進入する。デジタル転換器３０により、一系列の音波信号点に転換する。１個の未知の文或いは名称の音波を、Ｄ個の未知の連続音の音波４０に分割する。さらに、図１に示すプリプロセッサー４５により、音声を備えない音波を削除する。次に、各未知の連続音の音波を正常化し、特徴を抽出し、文或いは名称各未知の連続音の音声を備えるすべての信号点をE等時間枠に分割する。各時間枠は、１個の弾性フレームを形成する５０。各連続音は、合計E個の弾性フレームを有し、フィルターがなく、オーバーラップせず、自由に伸縮し、すべての信号点を網羅する。

各フレーム内において、信号点は、前の信号により推計することができるため、最小平方法を用いて、回帰未知係数の推計値を求める。各フレーム内に、生じる１組の最小平方推計値を、線形予測コード（LPC）ベクトルと呼称する。線形予測コード（LPC）ベクトルは、正常に分配され、さらに、線形予測コード（LPC）ベクトルを、比較的安定した線形予測ケプストラム係数（LPCC）ベクトルに転換する６０。１個の未知の連続音は、E個の線形予測ケプストラム係数（LPCC）ベクトルを、特徴モデルとし、分類モデルと呼称し９０、既知の連続音標準モデルと大きさが同じである。１個の文は、計Ｄ個の分類モデルを有し、Ｄ個の未知の連続音を代表する９０。もし１個の既知の連続音がこの未知の連続音であるなら、その標準モデルの平均値は、未知の連続音分類モデルに最も近い線形予測ケプストラム係数（LPCC）である。よって、本発明の簡易ベイズ識別法は、未知の連続音の分類モデルと連続音データベース８０により、各１個の既知の連続音の標準モデルを比較する１００。

もし、１個の既知の連続音が、その未知の連続音であるなら、計算の時間を節約するため、未知の連続音の分類モデル内のすべての線形予測ケプストラム係数（LPCC）が、独立した正常分配を有すると仮定し、それらの平均数及び変異数を、既知の連続音標準モデル内の平均値及び変異数により推計する。簡易ベイズ法は、未知の連続音の線形予測ケプストラム係数（LPCC）と既知の連続音の平均数の距離を計算する。さらに、既知の連続音変異数により調整し、得られた値は、その未知の連続音と１個の既知の連続音の相似度を表す。未知の連続音と、F個の相似度が最高の既知の連続音を選択し、未知の連続音とする。よって、１個の未知の文或いは名称は、D×F個の既知の連続音を用いて表示される１１０。

１個の未知の文或いは名称を、D個の未知の連続音に分割した後、１個の未知の文或いは名称が含む連続音及び個数をちょうど分割することは難しい。ある時はある連続音を２個に分割し、ある時は２個の連続音を非常に似たように発音し、コンピューターは１個に分割する。よって、D個の未知の連続音は、発話者の本当の連続音の個数とは限らない。よって、ある一列のF個の既知と相似した連続音は、発話者の連続音を含むとは限らない。１個の未知の文或いは名称を識別する時、文と名称データベース８５において、各１個の既知の文及び名称をテストする。１個の文或いは名称が、発話者の文或いは名称であるか否かをテストし、その文或いは名称を、一つ目の既知の連続音から、D×Fマトリックスが相似する連続音の前後三列の相似の連続音と比較する（当然、一つ目の比較は、中と後の２列の相似の連続音しか比較することはできない）。次に、３×Fウィンドウ（前後三列の既知の相似の連続音）に移動し１２０、文の二つ目の既知の連続音を探す。こうして、文のすべての既知の連続音をテストする。

文及び名称データベースにおいて、最高確率の文或いは名称は、発話者の文或いは名称である（テストした文或いは名称中の既知の連続音の３×Fウィンドウにおける数を、テストした文或いは名称中の連続音数で割る）１３０。当然、文及び名称データベースにおいて、未知の文或いは名称（Ｄ個の未知の連続音）長さが大体相同の文或いは名称を選択して比較し、時間を節約することができる。もし、文或いは名称が識別できない場合には、ベイズ分類法を用いて、特徴データベース中において、N個の最も相似する連続音を探し７９、文中の連続音特徴を改善すれば、識別は必ず成功する。

以下に詳述する。
ある連続音を音声識別方法に入力後、この連続音連続音波を一系列の音波信号点（signal sampled points）に転換する。さらに、音声音波を備えない信号点を削除する。本発明は２種の方法を提供する。一つ目は、ある一定の時間枠内信号点の変異数を計算する。二つ目は、その時間枠内の相互に隣接する２つの信号点の距離の総和を計算する。理論上は、第一の方法がより良いが、信号点の変異数が、雑音変異数より大きく、音声が存在することを表す。但し、本発明が連続音を識別する時には、２種の方法の識別率は同じであるが、第二の方法が時間を節約できる。

音声を備えない信号点を削除後、残った信号点はある連続音のすべての信号点を表す。先ず、音波を正常化し、次に特徴を抽出し、すべての信号点をE等時間枠に分割する。各時間枠は１個のフレームを形成する。ある連続音は、合計E個の等しい長さの弾性フレームを有し、フィルターがなく、オーバーラップせず、自由に伸縮して、すべての信号点を網羅する。弾性フレーム内の信号点は時間に従い、非線形変化を行い、数学モデルにより表すのは難しい。なぜならJ.Markhoul氏は、１９７５年に出版された「Proceedings of IEEE, Vol.６３, No.４」において、論文「Linear Prediction: A tutorial review」を発表しているが、その中で、信号点と前の信号点には線形関係があり、時間に従い、線形変化を行う回帰モデルを用いて、この非線形変化の信号点を推計することができる、と説明しているからである。

ると、因最後の線形予測ケプストラム係数（LPCC）によれば０に近似する。ある連続音はE個の線形予測ケプストラム係数（LPCC）ベクトル表示特徴とし，つまり１個のE×P個の線形予測ケプストラム係数（LPCC）のマトリックス表示のある連続音を含み，ある連続音は一個ないし多数の音節を含む。

(３)同様方法で、式(８-１５)により、１個の未知の連続音の音波のE個の線形予測ケプストラム係数（LPCC）ベクトルを計算すると、同様の大きさのE×P個のLPCCのマトリックスを備え、それを未知の連続音の分類モデルと呼称する。

の平均確率は以下の通りである。

(５)１個の既知の連続音の特徴を抽出するため、先ず、未知の連続音のデータベースを準備する。未知の連続音データベースには２種ある。一種は、未知の連続音のサンプルがあり、もう一種は、サンプルがない。サンプルがあるデータベースでは、先ず、各１個の未知の連続音の平均値及び変異数を求める。サンプルがある未知の連続音データベース中において、ベイズ距離を用い、その既知の連続音周囲に対して、N個の最も近い未知の連続音を探す。さらに、N個の未知の音のN個の平均値、及びその既知の連続音の線形予測ケプストラム係数(LPCC)の N＋１個の加重平均値を求め、既知の連続音の平均値とし、N個の連続音のN個の変異数の加重平均値を、その既知の連続音の変異数とする。このE×P平均値及び変異数マトリックスは、その既知の連続音の初期特徴値７９で、連続音特徴データベース中に組み入れる。もし、未知の連続音データベースにサンプルがなければ、未知の連続音データベースにおいて、最小絶対値距離を用いて、その既知の連続音周囲にN個の未知の連続音を探す。その既知の連続音及びN個の未知の連続音の線形予測ケプストラム係数(LPCC)を、(N＋１)個の数字とする。(N+１)個の数字の加重平均値を求め、その既知の連続音の平均値とし、及び(N+１)個の数字の変異数を求め、その既知の連続音の変異数とする。このE×P平均値及び変異数のマトリックスは、その既知の連続音の初期特徴を表し、既知の連続音特徴データベース内に組み入れる７９。既知の連続音特徴データベース内において、もし１個の既知の連続音の平均値と、永久既知の連続音データベース内の同様の１個の既知の連続音のLPCCのベイズ距離が、特徴データベース内において最小でないなら、特徴データベース内においてベイズ距離を用い、N個の既知の連続音を探す。それらのベイズマトリックスのその既知の連続音に対するLPCCは、N個の最小である。N個の既知の連続音を求め、N個の平均値及びその既知の連続音のLPCC加重平均値を、その既知の連続音の新平均値とし、N個の既知の連続音のN個の変異数の加重平均値を用い、その既知の連続音の新しい変異数とする。この方法を繰り返し数回用いて、特徴データベース内の各１個の既知の連続音の新平均値及び変異数を計算する。最後に、E×Pの新しい平均値及び変異数マトリックスを、標準モデルと呼称し、その既知の連続音を表し、特徴データベース中に組み入れ８０、既知の特徴データベースの既知の連続音を用いて、文及び名称データベースを構築する８５。

(６)１個の未知の連続音cを識別し、それがエラーであったなら、本発明は２種の技術を提供して、前の特徴を修正し、こうして連続音識別を正確とする。

(７)本発明が同時にあらゆる言語を識別可能であることを証明するため、本発明は２人の音声識別実験を行なった。
(a)先ず、１個の未知の連続音データベースを構築する。本単音データベースは、台湾の中央研究院より購入した。データベースには、計３８８個の台湾中国語単音（図３）があり、全て女性が発音しており、サンプルは、６個から９９個で、多くの単音の発音は、ほぼ同様である。
(b)（２）節中方法から、すべてのサンプルをE×P LPCCマトリックスに転換すると、計１２４００個のマトリックスを有する。
(c)３８８個の台湾中国語単音中において、サンプルを用いて平均値及び変異数を求める。
(Ｄ)アットランダムに３８８個の台湾中国語単音を混合し、３８８個のサンプルがある平均値及び変異数の単音を、３８８個の未知の連続音データベースとする(１個の台湾中国語単音は、音節が１個だけの連続音である)。
(e)次に、男性一人、女性一人により、６５４個の台湾中国語単音、１５４個の英語、１個のドイツ語、１個の日本語及び３個の台湾語を、１回発音し、２個の８１３個の永久既知の連続音データベースを構築する。各連続音は、線形予測ケプストラム係数(LPCC)E×Pマトリックスにより表示する。
(f)永久既知の連続音データベースの８１３個の既知の連続音中において、各１個の既知の連続音に対して、ベイズ距離２０を用い、３８８個の未知の連続音中において、N=１５個の未知の連続音を探す。その既知の連続音の線形予測ケプストラム係数(LPCC)及びN個の未知の連続音のサンプル平均値は、N+１個加重平均値を求め、その既知の連続音の平均値とし、N個の未知の連続音のサンプル変異数の加重平均値を求め、その既知の連続音の変異数とする。この平均値及び変異数１２×１２マトリックスを、その既知の連続音の初期特徴と呼称７９し、既知の連続音特徴データベースに存在する。つまり、特徴データベースは、８１３個の１２×１２平均値及び変異数マトリックス８０を含む。
(g)特徴データベース中において、もし１個の既知の連続音の平均値が、永久連続音データベース中においてと同様であるなら、その既知の連続音のLPCCのベイズ距離は、最小ではない。８１３個の連続音特徴データベイズ距離を用い、N=１５既知の連続音を探す。N個の連続音のN個の平均値及びその既知の連続音のLPCCを用いて、加重平均値を求め、その既知の連続音の新しい平均値とする。N個の既知の連続音の変異数に対して、加重平均値を求め、その既知の連続音の新変異数とする。新平均値及び変異数を繰り返し数回計算する。最後の１２×１２平均値及び変異数マトリックスを標準モデルと故障し、その既知の連続音特徴を表し、既知の連続音特徴データベース中８０に存在する。
本発明は、以下の連続音識別を行なった。識別率は、人により決まり、相似が多すぎるため、上位３人を正解とする。
３８４個の台湾中国語単音、１個のドイツ語、１個の日本語、２個の台湾語を識別する(図３参照)（識別率が非常に高い）
１５４個の英語、１個のドイツ語を識別する(図４参照)（識別率が非常に高い）
１５４個の英語及び３８８個の台湾中国語、１個のドイツ語、１個の日本語、２個の台湾語を同時に識別する（識別率が非常に高い）
（４）６５４個の台湾中国語単音、１個のドイツ語、１個の日本語、３個の台湾語を識別する(図５参照)（識別率は高いが、上記三例ほどではない）

(８)ある発話者の文或いは名称を識別するに当たり、我々は先ず、１個の英語及び台湾中国語の文及び名称データベースを構築した。各文或いは名称内の連続音すべては、連続音特徴データベース内(３８４+１５４)の既知英語及び台湾中国語により任意に組成する。１５４個の英単語は７０個の英語文及び名称を組成し、３８４個の台湾中国語単語は、４０７個の台湾中国語の文及び名称を組成する（図６参照）。
その識別方法は、以下の通りである。
(a)１個の未知の文或いは名称を、Ｄ個の未知の連続音に分割し、各単位時間枠は、相互に隣接する２つの信号点落差距離総和を計算する。もし小さ過ぎるなら、その時間枠は、雑音或いは靜音で、音声信号のない相互に隣接する単位時間枠の累積が多過ぎ（連続音２音節時間より多い）、すべてが雑音或いは靜音であることを示しており、２個の連続音の境界線で分割すべきで、計Ｄ個の未知の連続音に分割する。次に、図２の４５、５０、６０及び９０プロセスを用いて、E×P LPCCマトリックスに転換する。各１個の未知の連続音に対して、ベイズ分類法２０を用いて、英語及び台湾中国語の特徴データベース中において、最も相似したF個の既知の連続音を選択する(同時に、英語及び台湾中国語を含む可能性がある(図))。未知の文或いは名称は、Ｄ×F最も相似した既知の連続音により表示する。
(b)文及び名称データベースにおいて、発話者の文或いは名称を探し、４７７個の英語及び台湾中国語の文と名称中において、長さが（Ｄ±１）個の既知の連続音文と名称を選択する。
(c)もし、データベースの選択が、比較する文或いは名称及び発話者の文或いは名称と等しい長さであるなら、Ｄ個の未知の連続音である時には、Ｄ個の各列F個の相似した既知の連続音と比較する文或いは名称のＤ個の既知の連続音は、順番に比較し、F個の相似する連続音が、比較する文或いは名称内の既知の連続音であるかどうかを見る。もし、各列の相似の連続音内に、すべて１個の比較文或いは名称内の既知の連続音を含むなら、正確な連続音をＤ個と識別する。すなわち、その比較の文或いは名称は、発話者の文或いは名称である。
(d)もし、データベース比較文と名称内既知の連続音数が、Ｄ-１或いはＤ+１、或いは（c）の識別正確連続音がＤ個でないなら、本発明は、３×Fウィンドウを用いてスクリーニングする。比較文或いは名称（データベース内）中において、第ｉ個の既知の連続音は、D×Fマトリックス中の前後三列の相似した既知の連続音（すなわち第ｉ−１、ｉ、ｉ＋１列）を用いて、第ｉ個の既知の連続音を比較し、Ｄ×Fマトリックスにどれだけの比較文或いは名称内の既知の連続音があるかを計算する。次に、総数Ｄにより割り、その比較文或いは名称の確率を求め、データベースにおいて、１個の確率が最大の文或いは名称を発話者の発音として選択する。
(e)もし、ある文或いは名称の識別がエラーであるなら、必ず、Ｄ個の未知の連続音中に１個或いは多数あり、それらのF個の相似した既知の連続音にはない。ベイズ分類法２０を用いて、(１５５＋３８４)個の既知の連続音中で、前からN＝１５順位の既知の連続音を探し、N個の相似の連続音及びその未知の連続音のLPCC加重平均値を求め、その未知の連続音を改善する。こうしてＤ個の未知の連続音は、それらF個の相似した既知の連続音内にあり、再度のテストは必ず成功する。
本発明は、以下の英語及び台湾中国語の文及び名称識別を行なった。識別はほとんどすべてが正しいが、人により異なる。
（１）７０個の英語文及び名称を識別（非常に良い）。
（２）４０７個の台湾中国語の文及び名称を識別（非常に良い）
（３）７０個の英語文及び名称と４０７個の台湾中国語の文及び名称を識別（非常に良い）。

本発明は多数回の試験を経て、予期の目的を達成可能であることが確証された。しかもその機能は卓越しており、申請前に公開刊行物で未見で、及び公開使用の事実もないため、本発明は特許請求の要件である新規性を備え、従来の同類製品に比べ十分な進歩を有し、実用性が高く、社会のニ一ズに合致しており、産業上の利用価値は非常に大きい。

１１個の既知の連続音永久データベースを構築し、ある連続音或いは１個の文を発音し、文をさらに多数の既知の連続音に分割する。
１０連続音連続音波
２０レシーバー
３０音波デジタル転換器
４５雑音除去
５０ E個の弾性フレーム正常化音波
６０最小平方法により線形予測ケプストラム係数（LPCC）ベクトルを計算
７０ベイズ距離(絶対値距離)を用い、各１個の既知の連続音(永久データベース)に対して、未知の連続音データベースにおいて、N個の最も新しい未知の連続音を探す。
７９各１個の既知の連続音(永久データベース)に対して、周囲のN個の未知の連続音及び該既知の連続音のLPCCを用いて、加重平均値を求める。該既知の連続音の初期特徴を、特徴データベースに組み入れる。さらに、特徴データベースにおいて、ベイズ距離を用い、N個の既知の連続音と該既知の連続音LPCC加重平均値を求め、数回の計算を行なう。最後の加重平均値(E×P平均値及び変異数)は、該既知の連続音の標準モデルを表す。
８０既知の連続音特徴データベースは、すべての平均値及び変異数の標準モデルを含む。
８５既知の連続音特徴データベースの連続音を用いて、識別しようとする文及び名称の文及び名称データベースを構築する。
２未知の文或いは名称を入力する。
１１１組の未知の連続音波
４０１個の文或いは名称を、Ｄ個の未知の連続音に分割する。
９０Ｄ個の未知の連続音の線形予測ケプストラム係数（LPCC）マトリックスは、Ｄ個の未知の連続音分類モデルを表す。
１００ベイズ分類法を用いて、各１個の既知の連続音標準モデルと、未知の連続音分類モデルを比較する。
１１０一文或いは名称中から、各１個の未知の連続音の最も近接するF個の既知の連続音を探し、一文或いは名称は、計Ｄ×F個の既知の最も相似する連続音により表される。
１２０文と名称データベースにおいて、３×Fウィンドウの相似した既知の連続音を用いて、すべての文及び名称中の各既知の連続音をスクリーニングする。
１３０文及び名称データベースにおいて、１個の最も可能性の高い文或いは名称を探す。

Claims

サンプルを用いず各種言語を識別可能な識別方法は、以下のステップを含み、
未知の連続音データベース(サンプルがあってもなくてもどちらでも可)を提供し、
既知の連続音永久データベースは、発音が標準的で明晰な人により、各既知の連続音を１回発音し、もし被験者のなまりがひどいばあいには、試験者が発音し、
プリプロセッサー(pre-processor)は、音声音波を備えない信号点(sampled points)或いは雑音を削除し、
ある連続音の音波正常化及び特徴を抽出する方法は以下の通りで、すなわちE個の弾性フレームを用いて、音波を正常化し、大きさが相互に等しい線形予測ケプストラム係数（LPCC）ExP特徴マトリックスに転換し、
未知の連続音の音波を正常化、及び特徴を抽出する方法は以下の通りで、すなわち音波を正常化し、既知の連続音標準モデル(１個のE×P平均値及び変異数のマトリックスにより表示)と大きさが相互に等しい特徴マトリックスに転換し、それを未知の連続音分類モデルと呼称し、内部には線形予測ケプストラム係数（LPCC）を含み、
簡素化ベイズ（Bayesian）分類法は以下の通りで、すなわち未知の連続音分類モデルと既知の連続音特徴データベースのすべての既知の連続音標準モデル(１個のE×P平均値及び変異数のマトリックスにより表示)を比較し、１個の既知の連続音を探し、それと未知の連続音のベイズ距離が最小であれば、未知の連続音として識別し、
既知の連続音永久データベースにおいて、各１個の既知の連続音に対して、サンプルがある未知の連続音データベース中において、ベイズ距離を用い、N個の最も近い未知の連続音を探し、もし未知の連続音データがサンプルがないなら、絶対値距離を用いて、N個の最も新しい未知の連続音を探し、
もし、未知の連続音データベースにサンプルがあるなら、N個の最も新しい未知の連続音のN個の平均値及び前記既知の連続音の線形予測ケプストラム係数(LPCC)のN+1個の加重平均値を計算し、前記既知の連続音平均値とし、N個の増加の連続音のN個の変異数の加重平均値を、前記既知の連続音の変異数とし、このE×P平均値及び変異数マトリックスを、前記既知の連続音初期特徴と呼称し、既知の連続音特徴データベース中に組み入れ、
もし、未知の連続音データベースにサンプルがないなら、N個の最も新しい未知の連続音の線形予測ケプストラム係数(LPCC)及び前記既知の連続音の線形予測ケプストラム係数(LPCC)を用いて、(N+1)数とし、(N+1)数加重平均値及び変異数を計算し、このE×P平均値及び変異数マトリックスを、前記既知の連続音初期特徴と呼称し、既知の連続音特徴データベース中に存在し、
各１個の既知の連続音特徴を繰り返し計算、及び安定させる方法により、既知の連続音特徴データベース内において、各１個の既知の連続音はすべて、相互に安定した特徴(１個のE×P平均値及び変異数のマトリックスにより表示)を備え、前記既知の連続音の標準モデルと呼称し、既知の連続音特徴データベース中に組み入れ、
１個の未知の文或いは名称を、D個の未知の連続音に分割する方法は、
１個の簡素化ベイズ分類法は、D個の未知の連続音中に、各１個の未知の連続音のために、既知の連続音特徴データベース中において、F個の最も相似する既知の連続音を選択し、１個の未知の文或いは名称は、D×Fマトリックスの既知の連続音を用いて表示し、
D×Fマトリックスの既知の連続音を用いて、文及び名称データベースのすべての文及び名称を比較し、１個の最も可能性の高い既知の文或いは名称を選択し、
ある連続音特徴を修正する方法により発話者の文或いは名称の識別は正確となることを特徴とするサンプルを用いずあらゆる言語を識別可能な識別方法。
前記ステップ(3)の音声を備えない音波を削除或いは雑音する方法は、２種の方法を含み、
ある一定の時間枠内信号点において、信号点の変異数及び一般雑音の変異数を計算し、もし信号点の変異数が、雑音変異数より小さければ、前記時間枠を削除し、
ある一定の時間枠内信号点において、相互に隣接する２個の信号点の距離の総和と一般雑音の相互に隣接する２個の信号点の距離の総和を計算し、もし前者が後者より小さければ、時間枠を削除することを特徴とする請求項１に記載のサンプルを用いずあらゆる言語を識別可能な識別方法一。
前記ステップ(4)は、ある連続音の音波正常化及び大きさが一致した特徴マトリックス抽出を含み、そのステップ以下の通りで、
１個の連続音の音波信号点を均等に分割する方法は、線形変化の回帰方式を用いるため、非線形変化の音波を密接に推計し、音波全長をE等時間枠に分割し、各時間枠は１個の弾性フレームを形成し、ある連続音は計E個の等しい長さの弾性フレームを有し、フィルター（Filter）がなく、オーバーラップせず、自由に伸縮して音波全体を網羅可能で、長さが固定されたハミング（Hamming）ウィンドウではなく、
各フレーム内で、ある時間に従い、線形変化を行う回帰方式を用いて、時間に従い非線形変化を行なう音波を推計し、
Durbin'sの循環方式を用い、

(d)E個の線形予測ケプストラム係数（LPCC）ベクトルを用いて、ある連続音を表示することを特徴とする請求項１に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。
前記ステップ(5)はさらに、未知の連続音を計算する分類モデル方法を含み、そのステップは以下の通りで、
未知の連続音の音波をE等時間枠に分割し、各時間枠は１個の弾性フレームを組成し、１個の未知の連続音は、E個の等しい長さの弾性フレームを備え、フィルターがなく、オーバーラップせず、自由に伸縮して、すべての音波信号点を網羅することができ、
各弾性フレーム内では、時間に従い、線形変化を行う回帰方式を用いて、時間に従い、非線形変化を行なう音波を推計し、
Durbin'sの循環方式を用いて、

(e)E個の線形予測ケプストラム係数(LPCC)ベクトルを用いて、（E×P LPCCマトリックス）を前記未知の連続音の分類モデルとすることを特徴とする請求項１に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。
前記ステップ(6)は、簡易ベイズ（Bayesian）により未知の連続音を識別する方法を含み、そのステップ以下の通りで、
前記ステップ(10)は、特徴データベースのすべての既知の連続音の特徴を繰り返し計算し安定させる方法を含み、
もし、既知の連続音特徴データベースに、１個の既知の連続音があり、それは既知の連続音永久データベースの同様に既知の連続音のベイズ距離に対して、特徴データベースが最小でなければ、ベイズ距離を用い、特徴データベース内で、N個の永久データベースの同様に既知の連続音の線形予測ケプストラム係数(LPCC)に最も近い既知の連続音を探し、
N個の最も近い連続音のN個の平均値及び前記既知の連続音の線形予測ケプストラム係数(LPCC) N+1個の加重平均値を計算し、前記既知の連続音の新しい平均値とし、N個の最も近い連続音のN個の変異数加重平均値を計算し、前記既知の連続音の新変異数とし、このE×P新平均値及び新変異数のマトリックスを前記既知の連続音の新しい特徴とし、特徴データベース内に組み入れ、
ステップ(a)から(b)までを数回繰り返し、最後の新しい特徴は、E×P平均値及び変異数マトリックスにより表示し、前記既知の連続音の標準モデルと呼称し、
永久データベース内のすべての既知の連続音の線形予測ケプストラム係数(LPCC)は未改変であることを特徴とするサンプルを用いずあらゆる言語を識別可能な識別方法。
前記ステップ(11)は、未知の文或いは名称をD個の未知の連続音に分割する方法を含み
各単位時間枠は、相互に隣接する２個の信号点の落差距離総和を計算し、小さ過ぎるなら、前記時間枠は、靜音或いは雑音で、音声信号がなく、
静音或いは雑音が、相互に隣接する単位時間枠での累積が多過ぎる（連続音内２個音節の間は長い必要がある）なら、前記時間枠は、２個の連続音の境界線を分割し、１個の未知の文或いは名称をD個の未知の連続音に分割し、
さらに、各連続音から靜音及び雑音を除去し、弾性フレームを正常化し、最小平方は線形予測ケプストラム係数(LPCC)ベクトルを計算し、１個の未知の連続音を表し、一文或いは名称は計D個の線形予測ケプストラム係数（LPCC）E×Pマトリックスを用いて表示することを特徴とする請求項１に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。
前記ステップ(12)はさらに、以下を含み

(b)よって、１個の未知の文或いは名称は、D列F個の既知の相似の連続音により表示し、つまり前記文或いは名称は、D×Fマトリックスの既知の相似の連続音の確率は非常に高いことを特徴とする請求項１に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。
前記ステップ(13)は、以下の１個の文及び名称の識別方法を含み、
(a)文及び名称データベース中から、発話者の文或いは名称と長さが大体相同の文或いは名称を選択し（D±1個の既知の連続音の文と名称がある）、
(b)もし文及び名称データベースにおいて、比較の文或いは名称を選択し、その長さがちょうど発話者の文或いは名称と等しい長さ（D個の未知の連続音）であるなら、D個の各列F個の相似した既知の連続音と選択された比較文或いは名称のD個の既知の連続音を順番に比較し、F個の相似した既知の連続音中に比較文或いは名称内の既知の連続音がないかどうかを見て、もし各列の相似した既知の連続音が、順番にすべて比較文或いは名称内の１個の既知の連続音を含み、計すべてのD個の未知の連続音の識別が正しいなら、前記比較文或いは名称は、発話者の文或いは名称で、
(c)もし文及び名称データベース中の比較文或いは名称に、D個の既知の連続音があるが、発話者と比較し、D個の連続音は完全に識別が正しいわけではないなら（F個の相似した既知の連続音内にない）或いは比較文或いは名称がD個長さでないなら、本発明は3×Fウィンドウを用いてスクリーニングし、D×Fマトリックス相似した既知の連続音中の前後三列の相似した既知の連続音を用いて、順序に比較文及び名称データベース中において、D個或いはD±1個の既知の連続音の比較文或いは名称中の各１個の既知の連続音を比較し、データベース中で、確率が最大の比較文或いは名称を選択して、発話者の文或いは名称とし、確率は、多少の比較文或いは名称の既知の連続音により、3×Fウィンドウ内に落ち着き、全長（D或いはD±1）により割ることを特徴とする請求項１に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。
前記ステップ(14)は、連続音の特徴を修正する方法を含み、これにより文或いは名称の識別は正確となり、

(ｂ)（ａ）項において、被験者が発音した線形予測ケプストラム係数(LPCC)とN個の最も相似した既知の連続音のN個の平均値により、N+1個の加重平均値を求め、前記未知の連続音の新平均値とし、N個の最も相似した既知の連続音のN個の変異数の加重平均値を求め、前記未知の連続音の新変異数とし、この平均値及び変異数E×Pマトリックスは、前記未知の連続音の新しい標準モデルを表し、
（ｃ）前記未知の文或いは名称を再度テストすれば、必ず成功することを特徴とする請求項１に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。