JP2011033879A - サンプルを用いずあらゆる言語を識別可能な識別方法 - Google Patents

サンプルを用いずあらゆる言語を識別可能な識別方法 Download PDF

Info

Publication number
JP2011033879A
JP2011033879A JP2009180750A JP2009180750A JP2011033879A JP 2011033879 A JP2011033879 A JP 2011033879A JP 2009180750 A JP2009180750 A JP 2009180750A JP 2009180750 A JP2009180750 A JP 2009180750A JP 2011033879 A JP2011033879 A JP 2011033879A
Authority
JP
Japan
Prior art keywords
continuous
sound
unknown
name
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009180750A
Other languages
English (en)
Other versions
JP5091202B2 (ja
Inventor
Tze Fen Li
黎自奮
Tai-Jan Li
李台珍
Shih-Tzung Li
黎世聰
Shih-Hon Li
黎世宏
Li-Chuan Liao
寥麗娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shih Hon Li
Tai Jan Lee Li
Tze Fen Li
Original Assignee
Shih Hon Li
Tai Jan Lee Li
Tze Fen Li
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shih Hon Li, Tai Jan Lee Li, Tze Fen Li filed Critical Shih Hon Li
Priority to JP2009180750A priority Critical patent/JP5091202B2/ja
Publication of JP2011033879A publication Critical patent/JP2011033879A/ja
Application granted granted Critical
Publication of JP5091202B2 publication Critical patent/JP5091202B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】ある連続音の特徴を改善し、あらゆる言語文を正しく識別でき、よって、サンプルを用いず、台湾中国語、英語、日本語、ドイツ語、フランス語、韓国語、ロシア語、広東語、台湾語等のすべての言語を識別可能なあらゆる言語を識別可能な識別方法を提供する。
【解決手段】ある連続音(word)が1個以上の単音を含み、あらゆる言語のある連続音の特徴は、あらゆる言語の未知の連続音から抽出し、これら未知の連続音は、マトリックス値を用いて表示し、144次元空間内に散布され、あらゆる言語の既知の連続音の特徴は、144次元空間に散らばり、知の連続音周囲の未知の連続音の特徴によりシミュレート及び計算され、本発明は12個の弾性フレームを含み、長さが等しく、フィルターが無く、オーバーラップせず、ある連続音を、長さがさまざまな音波(さまざまな音節数を持つ)12×12マトリックスに転換し、ベイズ識別法により比較識別する。
【選択図】図2

Description

本発明はサンプルを用いずあらゆる言語を識別可能な識別方法に関し、特にある連続音は1個或いは多数の音節(単音)を含み、連続音のサンプルを用いずすべての言語を識別可能で、12個の弾性フレームを用い、長さが等しく、フィルターが無く、オーバーラップせず、長さがさまざまなある連続音の音波を、12×12の線形予測ケプストラム係数(LPCC)のマトリックスに転換し、1個の未知の連続音は、12×12の線形予測ケプストラム係数のマトリックスを用いて表示し、1個の12×12マトリックスは、1個の144次元空間の1個のベクトルとして認知し、多くの未知の連続音のベクトルは、144次元空間に散らばり、発話者が1個の既知の連続音を発すると、該既知の連続音の特徴は、周囲の未知の連続音の特徴(LPCC)により、シミュレート及び計算され、12個の弾性フレームを含み、ある連続音の音波を正常化し、ベイズ比較法は、データベース中で、発音者の未知の連続音のために、1個の既知の連続音を探し、1個の発話者の1個の未知の文を、D個の未知の連続音に分割し、及び1個のウィンドウスクリーニングは、1個の既知の文を、発話者の未知の文としてスクリーニングするサンプルを用いずあらゆる言語を識別可能な識別方法に関する。
ある連続音を発する時、その発音は、音波により表示される。音波は、時間に従い、非線形変化を行なう一種のシステムで、ある連続音の音波内には、一種の動的特性を含み、また時間に従い、非線形の連続変化を行なう。相同の連続音が発せられる時には、一連の相同の動的特性を有し、時間に従い、非線形の伸展及び收縮を行なう。但し、相同の動的特性は、時間に基づき排列する順序は同様であるが、時間が異なる。相同の連続音が発せられる時、相同の動的特性を、同一時間位置上に配列するのは、非常に困難である。さらに、相似の連続音が特別に多いため、識別をより難しくしている。
あるコンピューター化された言語識別システムでは、先ず、音波関連の言語情報、つまり動的特性を抽出し、言語と無関係の雑音をろ過する必要がある。例えば、人の声の音色、音の調子、発話時の心理、生理、情緒などは、音声識別とは無関係であるため、先に削除する。続いて、相同の連続音の相同の特徴を、相同の時間位置上に並べる。この一連の特徴は、長さが等しい系列特徴のベクトルを用い表示し、ある連続音の特徴モデルと呼ばれる。現在の音声識別システムでは、大きさが一致した特徴モデルの発生は複雑に過ぎ、しかも時間がかかる。なぜなら、相同の連続音の相同の特徴は、同一時間位置上には非常に並べ難く、特に、英語は識別がより困難である。
一般の文、或いは名称の識別方法には、以下の5個の主要な作業がある。未知の文或いは名称を、D個の未知の連続音に分割し、特徴を抽出し、特徴を正常化し(特徴モデルの大きさが一致し、しかも相同の連続音の相同の特徴が、同一時間位置に排列されている)、未知の連続音を識別し、及び文或いは名称データベースにおいて、適合する文或いは名称を探し出す。ある連続音の音波の特徴は、しばしばエネルギー(energy)、ゼロ交差(zero crossings)、エクストリームカウント(extreme count)、ホルマント(formants)、線形予測ケプストラム係数(LPCC)、メル周波数ケプストラム係数(MFCC)を用い表現される。
内、線形予測ケプストラム係数(LPCC)及びメル周波数ケプストラム係数(MFCC)によるものが、最も有効で、広く使用されている。線形予測ケプストラム係数(LPCC)は、ある連続音の最も信頼でき、安定し、また正確な言語の特徴を表す。それは、線形回帰方式を用い、連続音の音波を代表し、最小平方推計法により、回帰係数を計算する。その推計値を、さらにケプストラムに転換すると、線形予測ケプストラム係数(LPCC)となる。
メル周波数ケプストラム係数(MFCC)は、音波を、フーリエ転換法を用い、周波数に転換する。さらに、メル周波数比例去に基づき、聴覚システムを推計する。S.B. Davis氏とP. Mermelstein氏は、1980年に出版された「IEEE Transactions on Acoustics, Speech Signal Processing, Vol.28, No.4」で発表した論文「Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences」によれば、動的時間伸縮法(DTW)を用いたメル周波数ケプストラム係数(MFCC)特徴は、線形予測ケプストラム係数(LPCC)特徴の識別率より高い。しかし、数回の音声識別実験(本発明人の従来の発明を含む)においては、ベイズ分類法を用いた線形予測ケプストラム係数(LPCC)特徴の識別率は、メル周波数ケプストラム係数(MFCC)特徴よりも高く、しかも省時間である。
言語識別には、既に多くの方法が採用されている。例えば、動的時間伸縮法(Dynamic time-warping)、ベクトル量子化法(vector quantization)、隠れマルコフモデル法(HMM)がある。もし、相同の発音が、時間上の変化において差異があるなら、比較しながら、相同の特徴を同一の時間位置へとのばす。この識別率は非常に高いが、相同の特徴を同一位置までのばすのは、非常に困難で、ワープ時間が長過ぎ、応用不能である。ベクトル量子化法は、大量の連続音を識別する場合には、不正確であるばかりか、時間がかかる。隠れマルコフモデル法(HMM)による識別方法は、優れているが、方法が煩雑で、あまりにも多くの未知のパラメーターを推計しなければならないため、推計値計算と識別に時間がかかる。
T.F. Li(黎自奮)氏は2003年に出版された「Pattern Recognition, vol. 36」で発表した論文「Speech recognition of mandarin monosyllables」中において、ベイズ分類法を用い、相同のデータベースにより、各種の長短の一系列のLPCCベクトルを大きさが相同の分類モデルに圧縮した。その識別結果は、Y.K. Chen氏、C.Y.Liu氏、G.H. Chiang氏、M.T. Lin氏が、1990年に出版された「Proceedings of Telecommunication Symposium, Taiwan」で発表した論文「The recognition of mandarin monosyllables based on the discrete hidden Markov model」中において、隠れマルコフモデル法HMM方法を用いたものより良い。しかし、圧縮過程は複雑で、時間がかかり、しかも相同の連続音の相同の特徴を相同の時間位置に圧縮するのは非常に難しく、相似した連続音に対しては、識別が極めて難しい。
本発明音声識別方法は、上記欠点に対して、学理の面から、音波のある音声特徴に基づき、時間に従い、非線形変化を行い、音声特徴を抽出する方法を自然に導き出す。ある連続音の音波を、先ず、正常化し、次に該連続音を代表するに足る大きさが相同の特徴モデルに転換する。しかも相同の連続音は、それら特徴モデル内の相同の時間位置は相同の特徴を有し、人為或いは実験により本発明内の未知パラメーター及び基準値を調節する必要はない。簡易なベイズ分類法を用い、未知の連続音分類モデルと連続音特徴データベース内の既知の連続音標準モデルを比較し、再圧縮、ワープ、或いは相同の特徴を探して比較する必要はない。よって、本発明音声識別方法は、特徴の抽出、特徴正常化、及び識別を迅速に完成可能である。
本発明が解決しようとする課題は、サンプルを用いずあらゆる言語を識別可能な識別方法を提供することである。
上記課題を解決するため、本発明は下記のサンプルを用いずあらゆる言語を識別可能な識別方法を提供する。
本発明の最重要目的は、多数の未知の連続音の特徴を用いて、あらゆる言語の任意の1個の既知の連続音の特徴をシミュレート及び計算することであるため、本発明はサンプルを用いず、あらゆる言語のある連続音の特徴を構築可能で、すなわち本発明サンプルを用いずとも、各種言語を正確に識別することができる。詳しく言えば、本発明は、あらゆる言語の任意の1個の既知の連続音に対して、ベイズ距離を用い、144次元空間において、N個の未知の連続音マトリックスを探し、該既知の連続音をシミュレート及び計算し、こうして既知の連続音のサンプルを用いずに、あらゆる既知の連続音の特徴を構築することができる。よってあらゆる言語を識別することができる。
本発明は言語識別方法を提供し、それは言語を備えない音声波を削除することができる。
本発明は、連続音の音波正常化及び特徴を抽出する方法を提供する。それは、E個の相互に等しい弾性フレームを使用し、オーバーラップせず、フィルターがなく、ある連続音波の長短に基づき、すべての波長を自由に調節でき、連続音の音波内で時間に従い非線形変化を行なう一系列の動的特性を、1個の大きさが相互に等しい特徴モデルに転換し、しかも相同の連続音の音波の特徴モデルは、相同の時間位置上では、相同の特徴を有する。即時に識別が可能で、コンピューター即時識別効果を達成することができる。
本発明は、簡易で有効なベイズ法による未知の連続音を識別する方法を提供し、識別エラーの確率を最小とし、計算が少なく、識別が速く、弁識率が高い。
本発明は、連続音の特徴の抽出方法を提供し、連続音の音波は一種の時間に従い、非線形変化を行なう動的特性を備える。本発明は、時間に従い、線形変化を行う回帰モデル推計時間に従い、非線形変化を行なう音波を用い、回帰未知係数の最小平方推計値(LPCベクトル)を生じる。
本発明は、すべての音声を備える音波(音波信号点)を使用する。より少ない数E=12個の相互に等しい弾性フレームを用い、フィルターがなく、オーバーラップせず、すべての信号点の特徴を含む。ある連続音の音波が短過ぎても、該連続音を削除せず、長過ぎても、一部の信号点を削除或いは圧縮しない。ヒトの聴覚がこの連続音を識別可能なら、本発明は、該連続音の特徴を抽出することができる。よって、本発明音声識別方法は、各1個の音声を備える信号点を応用し、できるだけ音声特徴を抽出することができる。E=12個の弾性フレームはオーバーラップせず、フレーム数が少ないため、特徴抽出及び線形予測ケプストラム係数(LPCC)を計算する時間を大幅に減少させることができる。
本発明の識別方法は、話すのが速過ぎる或いは話すのが遅過ぎる連続音を識別することができる。話すのが速過ぎる時には、ある連続音の音波は非常に短い。本発明は、弾性フレームの長さを短くすれば、相同数のE個の等しい長さの弾性フレームを用いて、短音波を網羅することができ、E個の線形予測ケプストラム係数(LPCC)ベクトルを生じる。該短音をヒトが弁別できさえすれば、該E個の線形予測ケプストラム係数(LPCC)ベクトルも、該短音の特徴モデルを有効に代表することができる。話すのが遅過ぎる際に発せられる連続音の音波はより長く、弾性フレームは伸び、発生するE個の線形予測ケプストラム係数(LPCC)ベクトルは、該長音を有効に代表することができる。
本発明は、データベース内のすべての既知の連続音の特徴を安定及び調節する方法を提供し、これによりすべての連続音の特徴は、144次元空間内において、相互に自己の位置及び空間を占有し、こうして正確に識別を行なうことができる。
1個の文或いは名称を識別する時には、先ず、未知の文或いは名称を、D個の未知の連続音に分割し、本発明は、各未知の連続音を、ベイズ法を用いて、連続音特徴データベースにおいて、最も相似したF個の既知の連続音を選択する。1個の文は、D×F個の既知の連続音により表示され、切断が困難であるため、比較的多い或いは比較的少ない個数の未知の連続音に分割され、本発明は、各未知の連続音の前後三列のF個の相似した既知の連続音により、文或いは名称中の1個の既知の連続音を比較し、また文及び名称データベース中において、各一文或いは名称に対して、3×Fウィンドウの既知の相似した連続音を用い、1個の既知の連続音をスクリーニングし、さらに、文及び名称データベースから、最も可能性が高い文或いは名称を探すため、方法は簡単で、成功率が非常に高い(70個の英語文及び名称と、407台湾中国語の文及び名称を識別)。
本発明は、2種の技術を提供し、連続音の特徴を修正し、これにより未知の連続音及び未知の文或いは名称の識別を成功させる。
本発明は、1個の台湾中国語単音を、1個の1音節だけの連続音とし、中国語及び外国語の特徴はすべて、同じサンプル大きさのマトリックスにより表示する。よって、本発明は、各種言語を同時に識別することができる。
本発明サンプルを用いずあらゆる言語を識別可能な識別方法は、ある連続音の特徴を改善し、これによりあらゆる言語文を正しく識別でき、よって、サンプルを用いず、台湾中国語、英語、日本語、ドイツ語、フランス語、韓国語、ロシア語、広東語、台湾語等のすべての言語を識別することができる。
既知の連続音永久データベース、既知の連続音特徴データベース、文及び名称データベースの構築プロセスを示すフローチャートである。 1個の未知の文或いは名称の識別方法のプロセスを示すフローチャートである。 384個の台湾中国語単音、1個のドイツ語、1個の日本語、2個の台湾語の識別方法を示す図である。 154個の英語、1個のドイツ語の識別方法を示す図である。 269個の台湾中国語単音、3個の台湾語を識別する方法の図である。 文及び名称データベースは、70個の英語文と407個の中国語文及び名称を有することを示す図である。 英語及び台湾中国語の文、名称を同時に識別する方法を示すVisual Basic 識別図である。 英語及び台湾中国語の文、名称を同時に識別する方法を示すVisual Basic 識別図である。
以下に図面を参照しながら本発明を実施するための最良の形態について詳細に説明する。
図1及び図2は、本発明の執行プロセスを説明する。
図1は、既知の連続音永久データベース、既知の連続音特徴データベース、文及び名称データベースという3個のデータベースの構築プロセスを示す。
連続音特徴データベースは、すべての既知の連続音の標準モデルを含み、既知の連続音の特徴を示す。
先ず、1個の既知の連続音或いは1個の文或いは名称1を入力し(文或いは名称は、多数の連続音に分割される)、ある連続音波10形式によりレシーバー20に進入する。
デジタル転換器30は、連続音波を、シーケンス音波デジタルの信号点に転換する。
プリプロセッサー45は、以下のような2種の削除方法を有する。
ある一定の時間枠内の信号点の変異数及び一般雑音の変異数を計算する。もし前者が後者より小さければ、その一定時間枠は音声を備えないため、削除すべきである。
ある一定の時間枠内の連続する2個の信号点の距離の総和及び一般雑音の総和を計算する。もし前者が後者より小さければ、その一定時間枠は音声を備えないため、削除すべきである。
プリプロセッサー45を経過することで、シーケンスは該既知の連続音信号点を備える。
先ず、音波を正常化し、次に特徴を抽出し、既知の連続音のすべての信号点を、E等時間枠に分割する。
各時間枠は1個のフレームを組成する。
ある連続音は、合計E個の等長フレーム50を有し、フィルターがなく、オーバーラップしない。
連続音のすべての信号点の長さに基づき、E個のフレームの長さは、すべての信号点を網羅できるよう自由に調整する。
よって、そのフレームは弾性フレームと呼称し、長さは自由に伸縮可能だが、E個の弾性フレームの長さは同じである。
ハミング(Hamming)ウィンドウとは異なり、フィルターを有し、ハーフオーバーラップし、長さは固定で、波長に応じて自由に調整することはできない。
ある連続音は、音波時間に従い、非線形変化を行い、音波は、1個の音声動的特徴を含み、また時間に従い、非線形変化を行なう。オーバーラップしないため、本発明は比較的少ない(E=12)個の弾性フレームを使用し、すべての連続音の音波を網羅する。信号点は前の信号点から推計できるため、用時間に従い、線形変化の回帰方式を行い、非線形変化の音波を密接に推計し、最小平方法を用いて、回帰未知係数を推計する。各フレーム内に、1組の未知係数最小平方推計値を生じ、これを線形予測コード(LPC)ベクトルと呼称する。
さらに、線形予測コード(LPC)ベクトルを、比較的安定した線形予測ケプストラム係数(LPCC)に転換する。ある連続音の音波内には、シーケンス時間に従い、非線形変化を行なう音声動的特徴を含み、本発明内では、大きさが相互に等しいE個の線形予測ケプストラム係数(LPCC)ベクトル60に転換する。
1個の既知の連続音の特徴を抽出するため、先ず、1個の永久既知の連続音データベースを準備する。各既知の連続音は、発音が標準的で明晰な発話者により1回発音する。なまりがひどい、或いは標準的でない発話を識別する場合には、そのような発話者により発音し、すべての既知の連続音をE×P個のLPCCマトリックスに転換し、永久既知の連続音データベース内に組み入れる。永久既知の連続音データベース内において、 1個の既知の連続音特徴を抽出するために、先ず、未知の連続音のデータベースを準備する。
未知の連続音データベースには、2種存在する。1種は、サンプルがある未知の連続音有サンプルで、もう1種は標準がない。サンプルがあるデータベースは、先ず、各1個の未知の連続音の平均値及び変異数を求める。サンプルがある未知の連続音データベース中において、ベイズ距離を用い、その既知の連続音周囲に対して、N個の最も近い未知の連続音を探す。さらに、N個の未知音のN個の平均値、及びその既知の連続音の線形予測ケプストラム係数(LPCC)の N+1個の加重平均値を求め、既知の連続音の平均値とし、N個の連続音のN個の変異数の加重平均値を、その既知の連続音の変異数とする。このE×P平均値及び変異数マトリックスは、その既知の連続音の初期特徴値79で、連続音特徴データベース中に組み入れる。
もし、未知のデータベースにサンプルがなければ、未知の連続音データベースにおいて、最小絶対値距離を用いて、その既知の連続音周囲にN個の未知の連続音を探す。その既知の連続音及びN個の未知の連続音の線形予測ケプストラム係数(LPCC)を、(N+1)個の数字とする。(N+1)個の数字の加重平均値を求め、その既知の連続音の平均値とし、及び(N+1)個の数字の変異数を求め、その既知の連続音の変異数とし、このE×P平均値及び変異数のマトリックスは、その既知音の初期特徴を表し、既知の連続音特徴データベース内に組み入れる79。
既知の連続音特徴データベース内において、もし1個の既知の連続音の平均値と、永久既知の連続音データベース内の同様の1個の既知の連続音のLPCCのベイズ距離が、特徴データベース内において最小でないなら、特徴データベース内においてベイズ距離を用い、N個の既知の連続音を探し、それらのベイズマトリックスのその既知の連続音に対するLPCCは、N個の最小である。N個の既知の連続音を求め、N個の平均値及びその既知の単音のLPCC加重平均値を、その既知の連続音の新平均値とし、N個の既知の連続音のN個の変異数の加重平均値を用い、その既知の連続音の新しい変異数とする。この方法を繰り返し数回用いて、特徴データベース内の各1個の既知の連続音の新平均値及び変異数を計算する。最後に、E×Pの新しい平均値及び変異数マトリックスを、標準モデルと呼称し、その既知の連続音を代表し、特徴データベース中に組み入れる80。さらに、既知の特徴データベースの既知の連続音を用いて、文及び名称データベースを構築する85。
図2は、1個の未知の文或いは名称の識別方法手順を示す。1個の未知の文或いは名称2を、本発明音声識別方法に入力後、1組の未知の連続音波11により、レシーバー20に進入する。デジタル転換器30により、一系列の音波信号点に転換する。1個の未知の文或いは名称の音波を、D個の未知の連続音の音波40に分割する。さらに、図1に示すプリプロセッサー45により、音声を備えない音波を削除する。次に、各未知の連続音の音波を正常化し、特徴を抽出し、文或いは名称各未知の連続音の音声を備えるすべての信号点をE等時間枠に分割する。各時間枠は、1個の弾性フレームを形成する50。各連続音は、合計E個の弾性フレームを有し、フィルターがなく、オーバーラップせず、自由に伸縮し、すべての信号点を網羅する。
各フレーム内において、信号点は、前の信号により推計することができるため、最小平方法を用いて、回帰未知係数の推計値を求める。各フレーム内に、生じる1組の最小平方推計値を、線形予測コード(LPC)ベクトルと呼称する。線形予測コード(LPC)ベクトルは、正常に分配され、さらに、線形予測コード(LPC)ベクトルを、比較的安定した線形予測ケプストラム係数(LPCC)ベクトルに転換する60。1個の未知の連続音は、E個の線形予測ケプストラム係数(LPCC)ベクトルを、特徴モデルとし、分類モデルと呼称し90、既知の連続音標準モデルと大きさが同じである。1個の文は、計D個の分類モデルを有し、D個の未知の連続音を代表する90。もし1個の既知の連続音がこの未知の連続音であるなら、その標準モデルの平均値は、未知の連続音分類モデルに最も近い線形予測ケプストラム係数(LPCC)である。よって、本発明の簡易ベイズ識別法は、未知の連続音の分類モデルと連続音データベース80により、各1個の既知の連続音の標準モデルを比較する100。
もし、1個の既知の連続音が、その未知の連続音であるなら、計算の時間を節約するため、未知の連続音の分類モデル内のすべての線形予測ケプストラム係数(LPCC)が、独立した正常分配を有すると仮定し、それらの平均数及び変異数を、既知の連続音標準モデル内の平均値及び変異数により推計する。簡易ベイズ法は、未知の連続音の線形予測ケプストラム係数(LPCC)と既知の連続音の平均数の距離を計算する。さらに、既知の連続音変異数により調整し、得られた値は、その未知の連続音と1個の既知の連続音の相似度を表す。未知の連続音と、F個の相似度が最高の既知の連続音を選択し、未知の連続音とする。よって、1個の未知の文或いは名称は、D×F個の既知の連続音を用いて表示される110。
1個の未知の文或いは名称を、D個の未知の連続音に分割した後、1個の未知の文或いは名称が含む連続音及び個数をちょうど分割することは難しい。ある時はある連続音を2個に分割し、ある時は2個の連続音を非常に似たように発音し、コンピューターは1個に分割する。よって、D個の未知の連続音は、発話者の本当の連続音の個数とは限らない。よって、ある一列のF個の既知と相似した連続音は、発話者の連続音を含むとは限らない。1個の未知の文或いは名称を識別する時、文と名称データベース85において、各1個の既知の文及び名称をテストする。1個の文或いは名称が、発話者の文或いは名称であるか否かをテストし、その文或いは名称を、一つ目の既知の連続音から、D×Fマトリックスが相似する連続音の前後三列の相似の連続音と比較する(当然、一つ目の比較は、中と後の2列の相似の連続音しか比較することはできない)。次に、3×Fウィンドウ(前後三列の既知の相似の連続音)に移動し120、文の二つ目の既知の連続音を探す。こうして、文のすべての既知の連続音をテストする。
文及び名称データベースにおいて、最高確率の文或いは名称は、発話者の文或いは名称である(テストした文或いは名称中の既知の連続音の3×Fウィンドウにおける数を、テストした文或いは名称中の連続音数で割る)130。当然、文及び名称データベースにおいて、未知の文或いは名称(D個の未知の連続音)長さが大体相同の文或いは名称を選択して比較し、時間を節約することができる。もし、文或いは名称が識別できない場合には、ベイズ分類法を用いて、特徴データベース中において、N個の最も相似する連続音を探し79、文中の連続音特徴を改善すれば、識別は必ず成功する。
以下に詳述する。
ある連続音を音声識別方法に入力後、この連続音連続音波を一系列の音波信号点(signal sampled points)に転換する。さらに、音声音波を備えない信号点を削除する。本発明は2種の方法を提供する。一つ目は、ある一定の時間枠内信号点の変異数を計算する。二つ目は、その時間枠内の相互に隣接する2つの信号点の距離の総和を計算する。理論上は、第一の方法がより良いが、信号点の変異数が、雑音変異数より大きく、音声が存在することを表す。但し、本発明が連続音を識別する時には、2種の方法の識別率は同じであるが、第二の方法が時間を節約できる。
音声を備えない信号点を削除後、残った信号点はある連続音のすべての信号点を表す。先ず、音波を正常化し、次に特徴を抽出し、すべての信号点をE等時間枠に分割する。各時間枠は1個のフレームを形成する。ある連続音は、合計E個の等しい長さの弾性フレームを有し、フィルターがなく、オーバーラップせず、自由に伸縮して、すべての信号点を網羅する。弾性フレーム内の信号点は時間に従い、非線形変化を行い、数学モデルにより表すのは難しい。なぜならJ.Markhoul氏は、1975年に出版された「Proceedings of IEEE, Vol.63, No.4」において、論文「Linear Prediction: A tutorial review」を発表しているが、その中で、信号点と前の信号点には線形関係があり、時間に従い、線形変化を行う回帰モデルを用いて、この非線形変化の信号点を推計することができる、と説明しているからである。
Figure 2011033879
Figure 2011033879
Figure 2011033879

Figure 2011033879
ると、因最後の線形予測ケプストラム係数(LPCC)によれば0に近似する。ある連続音はE個の線形予測ケプストラム係数(LPCC)ベクトル表示特徴とし,つまり1個のE×P個の線形予測ケプストラム係数(LPCC)のマトリックス表示のある連続音を含み,ある連続音は一個ないし多数の音節を含む。
(3)同様方法で、式(8-15)により、1個の未知の連続音の音波のE個の線形予測ケプストラム係数(LPCC)ベクトルを計算すると、同様の大きさのE×P個のLPCCのマトリックスを備え、それを未知の連続音の分類モデルと呼称する。
Figure 2011033879
の平均確率は以下の通りである。
Figure 2011033879

Figure 2011033879
(5)1個の既知の連続音の特徴を抽出するため、先ず、未知の連続音のデータベースを準備する。未知の連続音データベースには2種ある。一種は、未知の連続音のサンプルがあり、もう一種は、サンプルがない。サンプルがあるデータベースでは、先ず、各1個の未知の連続音の平均値及び変異数を求める。サンプルがある未知の連続音データベース中において、ベイズ距離を用い、その既知の連続音周囲に対して、N個の最も近い未知の連続音を探す。さらに、N個の未知の音のN個の平均値、及びその既知の連続音の線形予測ケプストラム係数(LPCC)の N+1個の加重平均値を求め、既知の連続音の平均値とし、N個の連続音のN個の変異数の加重平均値を、その既知の連続音の変異数とする。このE×P平均値及び変異数マトリックスは、その既知の連続音の初期特徴値79で、連続音特徴データベース中に組み入れる。もし、未知の連続音データベースにサンプルがなければ、未知の連続音データベースにおいて、最小絶対値距離を用いて、その既知の連続音周囲にN個の未知の連続音を探す。その既知の連続音及びN個の未知の連続音の線形予測ケプストラム係数(LPCC)を、(N+1)個の数字とする。(N+1)個の数字の加重平均値を求め、その既知の連続音の平均値とし、及び(N+1)個の数字の変異数を求め、その既知の連続音の変異数とする。このE×P平均値及び変異数のマトリックスは、その既知の連続音の初期特徴を表し、既知の連続音特徴データベース内に組み入れる79。既知の連続音特徴データベース内において、もし1個の既知の連続音の平均値と、永久既知の連続音データベース内の同様の1個の既知の連続音のLPCCのベイズ距離が、特徴データベース内において最小でないなら、特徴データベース内においてベイズ距離を用い、N個の既知の連続音を探す。それらのベイズマトリックスのその既知の連続音に対するLPCCは、N個の最小である。N個の既知の連続音を求め、N個の平均値及びその既知の連続音のLPCC加重平均値を、その既知の連続音の新平均値とし、N個の既知の連続音のN個の変異数の加重平均値を用い、その既知の連続音の新しい変異数とする。この方法を繰り返し数回用いて、特徴データベース内の各1個の既知の連続音の新平均値及び変異数を計算する。最後に、E×Pの新しい平均値及び変異数マトリックスを、標準モデルと呼称し、その既知の連続音を表し、特徴データベース中に組み入れ80、既知の特徴データベースの既知の連続音を用いて、文及び名称データベースを構築する85。
(6)1個の未知の連続音cを識別し、それがエラーであったなら、本発明は2種の技術を提供して、前の特徴を修正し、こうして連続音識別を正確とする。
Figure 2011033879
(7)本発明が同時にあらゆる言語を識別可能であることを証明するため、本発明は2人の音声識別実験を行なった。
(a)先ず、1個の未知の連続音データベースを構築する。本単音データベースは、台湾の中央研究院より購入した。データベースには、計388個の台湾中国語単音(図3)があり、全て女性が発音しており、サンプルは、6個から99個で、多くの単音の発音は、ほぼ同様である。
(b)(2)節中方法から、すべてのサンプルをE×P LPCCマトリックスに転換すると、計12400個のマトリックスを有する。
(c)388個の台湾中国語単音中において、サンプルを用いて平均値及び変異数を求める。
(D)アットランダムに388個の台湾中国語単音を混合し、388個のサンプルがある平均値及び変異数の単音を、388個の未知の連続音データベースとする(1個の台湾中国語単音は、音節が1個だけの連続音である)。
(e)次に、男性一人、女性一人により、654個の台湾中国語単音、154個の英語、1個のドイツ語、1個の日本語及び3個の台湾語を、1回発音し、2個の813個の永久既知の連続音データベースを構築する。各連続音は、線形予測ケプストラム係数(LPCC)E×Pマトリックスにより表示する。
(f)永久既知の連続音データベースの813個の既知の連続音中において、各1個の既知の連続音に対して、ベイズ距離20を用い、388個の未知の連続音中において、N=15個の未知の連続音を探す。その既知の連続音の線形予測ケプストラム係数(LPCC)及びN個の未知の連続音のサンプル平均値は、N+1個加重平均値を求め、その既知の連続音の平均値とし、N個の未知の連続音のサンプル変異数の加重平均値を求め、その既知の連続音の変異数とする。この平均値及び変異数12×12マトリックスを、その既知の連続音の初期特徴と呼称79し、既知の連続音特徴データベースに存在する。つまり、特徴データベースは、813個の12×12平均値及び変異数マトリックス80を含む。
(g)特徴データベース中において、もし1個の既知の連続音の平均値が、永久連続音データベース中においてと同様であるなら、その既知の連続音のLPCCのベイズ距離は、最小ではない。813個の連続音特徴データベイズ距離を用い、N=15既知の連続音を探す。N個の連続音のN個の平均値及びその既知の連続音のLPCCを用いて、加重平均値を求め、その既知の連続音の新しい平均値とする。N個の既知の連続音の変異数に対して、加重平均値を求め、その既知の連続音の新変異数とする。新平均値及び変異数を繰り返し数回計算する。最後の12×12平均値及び変異数マトリックスを標準モデルと故障し、その既知の連続音特徴を表し、既知の連続音特徴データベース中80に存在する。
本発明は、以下の連続音識別を行なった。識別率は、人により決まり、相似が多すぎるため、上位3人を正解とする。
384個の台湾中国語単音、1個のドイツ語、1個の日本語、2個の台湾語を識別する(図3参照)(識別率が非常に高い)
154個の英語、1個のドイツ語を識別する(図4参照)(識別率が非常に高い)
154個の英語及び388個の台湾中国語、1個のドイツ語、1個の日本語、2個の台湾語を同時に識別する(識別率が非常に高い)
(4)654個の台湾中国語単音、1個のドイツ語、1個の日本語、3個の台湾語を識別する(図5参照)(識別率は高いが、上記三例ほどではない)
(8)ある発話者の文或いは名称を識別するに当たり、我々は先ず、1個の英語及び台湾中国語の文及び名称データベースを構築した。各文或いは名称内の連続音すべては、連続音特徴データベース内(384+154)の既知英語及び台湾中国語により任意に組成する。154個の英単語は70個の英語文及び名称を組成し、384個の台湾中国語単語は、407個の台湾中国語の文及び名称を組成する(図6参照)。
その識別方法は、以下の通りである。
(a)1個の未知の文或いは名称を、D個の未知の連続音に分割し、各単位時間枠は、相互に隣接する2つの信号点落差距離総和を計算する。もし小さ過ぎるなら、その時間枠は、雑音或いは靜音で、音声信号のない相互に隣接する単位時間枠の累積が多過ぎ(連続音2音節時間より多い)、すべてが雑音或いは靜音であることを示しており、2個の連続音の境界線で分割すべきで、計D個の未知の連続音に分割する。次に、図2の45、50、60及び90プロセスを用いて、E×P LPCCマトリックスに転換する。各1個の未知の連続音に対して、ベイズ分類法20を用いて、英語及び台湾中国語の特徴データベース中において、最も相似したF個の既知の連続音を選択する(同時に、英語及び台湾中国語を含む可能性がある(図))。未知の文或いは名称は、 D×F最も相似した既知の連続音により表示する。
(b)文及び名称データベースにおいて、発話者の文或いは名称を探し、477個の英語及び台湾中国語の文と名称中において、長さが(D±1)個の既知の連続音文と名称を選択する。
(c)もし、データベースの選択が、比較する文或いは名称及び発話者の文或いは名称と等しい長さであるなら、D個の未知の連続音である時には、D個の各列F個の相似した既知の連続音と比較する文或いは名称のD個の既知の連続音は、順番に比較し、F個の相似する連続音が、比較する文或いは名称内の既知の連続音であるかどうかを見る。もし、各列の相似の連続音内に、すべて1個の比較文或いは名称内の既知の連続音を含むなら、正確な連続音をD個と識別する。すなわち、その比較の文或いは名称は、発話者の文或いは名称である。
(d)もし、データベース比較文と名称内既知の連続音数が、D-1或いはD+1、或いは(c)の識別正確連続音がD個でないなら、本発明は、3×Fウィンドウを用いてスクリーニングする。比較文或いは名称(データベース内)中において、第i個の既知の連続音は、D×Fマトリックス中の前後三列の相似した既知の連続音(すなわち第i−1、i、i+1列)を用いて、第i個の既知の連続音を比較し、D×Fマトリックスにどれだけの比較文或いは名称内の既知の連続音があるかを計算する。次に、総数Dにより割り、その比較文或いは名称の確率を求め、データベースにおいて、1個の確率が最大の文或いは名称を発話者の発音として選択する。
(e)もし、ある文或いは名称の識別がエラーであるなら、必ず、D個の未知の連続音中に1個或いは多数あり、それらのF個の相似した既知の連続音にはない。ベイズ分類法20を用いて、(155+384)個の既知の連続音中で、前からN=15順位の既知の連続音を探し、N個の相似の連続音及びその未知の連続音のLPCC加重平均値を求め、その未知の連続音を改善する。こうしてD個の未知の連続音は、それらF個の相似した既知の連続音内にあり、再度のテストは必ず成功する。
本発明は、以下の英語及び台湾中国語の文及び名称識別を行なった。識別はほとんどすべてが正しいが、人により異なる。
(1)70個の英語文及び名称を識別(非常に良い)。
(2)407個の台湾中国語の文及び名称を識別(非常に良い)
(3)70個の英語文及び名称と407個の台湾中国語の文及び名称を識別(非常に良い)。
本発明は多数回の試験を経て、予期の目的を達成可能であることが確証された。しかもその機能は卓越しており、申請前に公開刊行物で未見で、及び公開使用の事実もないため、本発明は特許請求の要件である新規性を備え、従来の同類製品に比べ十分な進歩を有し、実用性が高く、社会のニ一ズに合致しており、産業上の利用価値は非常に大きい。
1 1個の既知の連続音永久データベースを構築し、ある連続音或いは1個の文を発音し、文をさらに多数の既知の連続音に分割する。
10 連続音連続音波
20 レシーバー
30 音波デジタル転換器
45 雑音除去
50 E個の弾性フレーム正常化音波
60 最小平方法により線形予測ケプストラム係数(LPCC)ベクトルを計算
70 ベイズ距離(絶対値距離)を用い、各1個の既知の連続音(永久データベース)に対して、未知の連続音データベースにおいて、N個の最も新しい未知の連続音を探す。
79 各1個の既知の連続音(永久データベース)に対して、周囲のN個の未知の連続音及び該既知の連続音のLPCCを用いて、加重平均値を求める。該既知の連続音の初期特徴を、特徴データベースに組み入れる。さらに、特徴データベースにおいて、ベイズ距離を用い、N個の既知の連続音と該既知の連続音LPCC加重平均値を求め、数回の計算を行なう。最後の加重平均値(E×P平均値及び変異数)は、該既知の連続音の標準モデルを表す。
80 既知の連続音特徴データベースは、すべての平均値及び変異数の標準モデルを含む。
85 既知の連続音特徴データベースの連続音を用いて、識別しようとする文 及び名称の文及び名称データベースを構築する。
2 未知の文或いは名称を入力する。
11 1組の未知の連続音波
40 1個の文或いは名称を、D個の未知の連続音に分割する。
90 D個の未知の連続音の線形予測ケプストラム係数(LPCC)マトリックスは、D個の未知の連続音分類モデルを表す。
100 ベイズ分類法を用いて、各1個の既知の連続音標準モデルと、未知の連続音分類モデルを比較する。
110 一文或いは名称中から、各1個の未知の連続音の最も近接するF個の既知の連続音を探し、一文或いは名称は、計D×F個の既知の最も相似する連続音により表される。
120 文と名称データベースにおいて、3×Fウィンドウの相似した既知の連続音を用いて、すべての文及び名称中の各既知の連続音をスクリーニングする。
130 文及び名称データベースにおいて、1個の最も可能性の高い文或いは名称を探す。

Claims (10)

  1. サンプルを用いず各種言語を識別可能な識別方法は、以下のステップを含み、
    未知の連続音データベース(サンプルがあってもなくてもどちらでも可)を提供し、
    既知の連続音永久データベースは、発音が標準的で明晰な人により、各既知の連続音を1回発音し、もし被験者のなまりがひどいばあいには、試験者が発音し、
    プリプロセッサー(pre-processor)は、音声音波を備えない信号点(sampled points)或いは雑音を削除し、
    ある連続音の音波正常化及び特徴を抽出する方法は以下の通りで、すなわちE個の弾性フレームを用いて、音波を正常化し、大きさが相互に等しい線形予測ケプストラム係数(LPCC)ExP特徴マトリックスに転換し、
    未知の連続音の音波を正常化、及び特徴を抽出する方法は以下の通りで、すなわち音波を正常化し、既知の連続音標準モデル(1個のE×P平均値及び変異数のマトリックスにより表示)と大きさが相互に等しい特徴マトリックスに転換し、それを未知の連続音分類モデルと呼称し、内部には線形予測ケプストラム係数(LPCC)を含み、
    簡素化ベイズ(Bayesian)分類法は以下の通りで、すなわち未知の連続音分類モデルと既知の連続音特徴データベースのすべての既知の連続音標準モデル(1個のE×P平均値及び変異数のマトリックスにより表示)を比較し、1個の既知の連続音を探し、それと未知の連続音のベイズ距離が最小であれば、未知の連続音として識別し、
    既知の連続音永久データベースにおいて、各1個の既知の連続音に対して、サンプルがある未知の連続音データベース中において、ベイズ距離を用い、N個の最も近い未知の連続音を探し、もし未知の連続音データがサンプルがないなら、絶対値距離を用いて、N個の最も新しい未知の連続音を探し、
    もし、未知の連続音データベースにサンプルがあるなら、N個の最も新しい未知の連続音のN個の平均値及び前記既知の連続音の線形予測ケプストラム係数(LPCC)のN+1個の加重平均値を計算し、前記既知の連続音平均値とし、N個の増加の連続音のN個の変異数の加重平均値を、前記既知の連続音の変異数とし、このE×P平均値及び変異数マトリックスを、前記既知の連続音初期特徴と呼称し、既知の連続音特徴データベース中に組み入れ、
    もし、未知の連続音データベースにサンプルがないなら、N個の最も新しい未知の連続音の線形予測ケプストラム係数(LPCC)及び前記既知の連続音の線形予測ケプストラム係数(LPCC)を用いて、(N+1)数とし、(N+1)数加重平均値及び変異数を計算し、このE×P平均値及び変異数マトリックスを、前記既知の連続音初期特徴と呼称し、既知の連続音特徴データベース中に存在し、
    各1個の既知の連続音特徴を繰り返し計算、及び安定させる方法により、既知の連続音特徴データベース内において、各1個の既知の連続音はすべて、相互に安定した特徴(1個のE×P平均値及び変異数のマトリックスにより表示)を備え、前記既知の連続音の標準モデルと呼称し、既知の連続音特徴データベース中に組み入れ、
    1個の未知の文或いは名称を、D個の未知の連続音に分割する方法は、
    1個の簡素化ベイズ分類法は、D個の未知の連続音中に、各1個の未知の連続音のために、既知の連続音特徴データベース中において、F個の最も相似する既知の連続音を選択し、1個の未知の文或いは名称は、D×Fマトリックスの既知の連続音を用いて表示し、
    D×Fマトリックスの既知の連続音を用いて、文及び名称データベースのすべての文及び名称を比較し、1個の最も可能性の高い既知の文或いは名称を選択し、
    ある連続音特徴を修正する方法により発話者の文或いは名称の識別は正確となることを特徴とするサンプルを用いずあらゆる言語を識別可能な識別方法。
  2. 前記ステップ(3)の音声を備えない音波を削除或いは雑音する方法は、2種の方法を含み、
    ある一定の時間枠内信号点において、信号点の変異数及び一般雑音の変異数を計算し、もし信号点の変異数が、雑音変異数より小さければ、前記時間枠を削除し、
    ある一定の時間枠内信号点において、相互に隣接する2個の信号点の距離の総和と一般雑音の相互に隣接する2個の信号点の距離の総和を計算し、もし前者が後者より小さければ、時間枠を削除することを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法一。
  3. 前記ステップ(4)は、ある連続音の音波正常化及び大きさが一致した特徴マトリックス抽出を含み、そのステップ以下の通りで、
    1個の連続音の音波信号点を均等に分割する方法は、線形変化の回帰方式を用いるため、非線形変化の音波を密接に推計し、音波全長をE等時間枠に分割し、各時間枠は1個の弾性フレームを形成し、ある連続音は計E個の等しい長さの弾性フレームを有し、フィルター(Filter)がなく、オーバーラップせず、自由に伸縮して音波全体を網羅可能で、長さが固定されたハミング(Hamming)ウィンドウではなく、
    各フレーム内で、ある時間に従い、線形変化を行う回帰方式を用いて、時間に従い非線形変化を行なう音波を推計し、
    Durbin'sの循環方式を用い、
    Figure 2011033879

    Figure 2011033879

    (d)E個の線形予測ケプストラム係数(LPCC)ベクトルを用いて、ある連続音を表示することを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。
  4. 前記ステップ(5)はさらに、未知の連続音を計算する分類モデル方法を含み、そのステップは以下の通りで、
    未知の連続音の音波をE等時間枠に分割し、各時間枠は1個の弾性フレームを組成し、1個の未知の連続音は、E個の等しい長さの弾性フレームを備え、フィルターがなく、オーバーラップせず、自由に伸縮して、すべての音波信号点を網羅することができ、
    各弾性フレーム内では、時間に従い、線形変化を行う回帰方式を用いて、時間に従い、非線形変化を行なう音波を推計し、
    Durbin'sの循環方式を用いて、
    Figure 2011033879

    Figure 2011033879

    (e)E個の線形予測ケプストラム係数(LPCC)ベクトルを用いて、(E×P LPCCマトリックス)を前記未知の連続音の分類モデルとすることを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。
  5. 前記ステップ(6)は、簡易ベイズ(Bayesian)により未知の連続音を識別する方法を含み、そのステップ以下の通りで、
    Figure 2011033879

    Figure 2011033879
  6. 前記ステップ(10)は、特徴データベースのすべての既知の連続音の特徴を繰り返し計算し安定させる方法を含み、
    もし、既知の連続音特徴データベースに、1個の既知の連続音があり、それは既知の連続音永久データベースの同様に既知の連続音のベイズ距離に対して、特徴データベースが最小でなければ、ベイズ距離を用い、特徴データベース内で、N個の永久データベースの同様に既知の連続音の線形予測ケプストラム係数(LPCC)に最も近い既知の連続音を探し、
    N個の最も近い連続音のN個の平均値及び前記既知の連続音の線形予測ケプストラム係数(LPCC) N+1個の加重平均値を計算し、前記既知の連続音の新しい平均値とし、N個の最も近い連続音のN個の変異数加重平均値を計算し、前記既知の連続音の新変異数とし、このE×P新平均値及び新変異数のマトリックスを前記既知の連続音の新しい特徴とし、特徴データベース内に組み入れ、
    ステップ(a)から(b)までを数回繰り返し、最後の新しい特徴は、E×P平均値及び変異数マトリックスにより表示し、前記既知の連続音の標準モデルと呼称し、
    永久データベース内のすべての既知の連続音の線形予測ケプストラム係数(LPCC)は未改変であることを特徴とするサンプルを用いずあらゆる言語を識別可能な識別方法。
  7. 前記ステップ(11)は、未知の文或いは名称をD個の未知の連続音に分割する方法を含み
    各単位時間枠は、相互に隣接する2個の信号点の落差距離総和を計算し、小さ過ぎるなら、前記時間枠は、靜音或いは雑音で、音声信号がなく、
    静音或いは雑音が、相互に隣接する単位時間枠での累積が多過ぎる(連続音内2個音節の間は長い必要がある)なら、前記時間枠は、2個の連続音の境界線を分割し、1個の未知の文或いは名称をD個の未知の連続音に分割し、
    さらに、各連続音から靜音及び雑音を除去し、弾性フレームを正常化し、最小平方は線形予測ケプストラム係数(LPCC)ベクトルを計算し、1個の未知の連続音を表し、一文或いは名称は計D個の線形予測ケプストラム係数(LPCC)E×Pマトリックスを用いて表示することを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。
  8. 前記ステップ(12)はさらに、以下を含み
    Figure 2011033879

    (b)よって、1個の未知の文或いは名称は、D列F個の既知の相似の連続音により表示し、つまり前記文或いは名称は、D×Fマトリックスの既知の相似の連続音の確率は非常に高いことを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。
  9. 前記ステップ(13)は、以下の1個の文及び名称の識別方法を含み、
    (a)文及び名称データベース中から、発話者の文或いは名称と長さが大体相同の文或いは名称を選択し(D±1個の既知の連続音の文と名称がある)、
    (b)もし文及び名称データベースにおいて、比較の文或いは名称を選択し、その長さがちょうど発話者の文或いは名称と等しい長さ(D個の未知の連続音)であるなら、D個の各列F個の相似した既知の連続音と選択された比較文或いは名称のD個の既知の連続音を順番に比較し、F個の相似した既知の連続音中に比較文或いは名称内の既知の連続音がないかどうかを見て、もし各列の相似した既知の連続音が、順番にすべて比較文或いは名称内の1個の既知の連続音を含み、計すべてのD個の未知の連続音の識別が正しいなら、前記比較文或いは名称は、発話者の文或いは名称で、
    (c)もし文及び名称データベース中の比較文或いは名称に、D個の既知の連続音があるが、発話者と比較し、D個の連続音は完全に識別が正しいわけではないなら(F個の相似した既知の連続音内にない)或いは比較文或いは名称がD個長さでないなら、本発明は3×Fウィンドウを用いてスクリーニングし、D×Fマトリックス相似した既知の連続音中の前後三列の相似した既知の連続音を用いて、順序に比較文及び名称データベース中において、D個或いはD±1個の既知の連続音の比較文或いは名称中の各1個の既知の連続音を比較し、データベース中で、確率が最大の比較文或いは名称を選択して、発話者の文或いは名称とし、確率は、多少の比較文或いは名称の既知の連続音により、3×Fウィンドウ内に落ち着き、全長(D或いはD±1)により割ることを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。
  10. 前記ステップ(14)は、連続音の特徴を修正する方法を含み、これにより文或いは名称の識別は正確となり、
    Figure 2011033879

    (b)(a)項において、被験者が発音した線形予測ケプストラム係数(LPCC)とN個の最も相似した既知の連続音のN個の平均値により、N+1個の加重平均値を求め、前記未知の連続音の新平均値とし、N個の最も相似した既知の連続音のN個の変異数の加重平均値を求め、前記未知の連続音の新変異数とし、この平均値及び変異数E×Pマトリックスは、前記未知の連続音の新しい標準モデルを表し、
    (c)前記未知の文或いは名称を再度テストすれば、必ず成功することを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。
JP2009180750A 2009-08-03 2009-08-03 サンプルを用いずあらゆる言語を識別可能な識別方法 Expired - Fee Related JP5091202B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009180750A JP5091202B2 (ja) 2009-08-03 2009-08-03 サンプルを用いずあらゆる言語を識別可能な識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009180750A JP5091202B2 (ja) 2009-08-03 2009-08-03 サンプルを用いずあらゆる言語を識別可能な識別方法

Publications (2)

Publication Number Publication Date
JP2011033879A true JP2011033879A (ja) 2011-02-17
JP5091202B2 JP5091202B2 (ja) 2012-12-05

Family

ID=43763002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009180750A Expired - Fee Related JP5091202B2 (ja) 2009-08-03 2009-08-03 サンプルを用いずあらゆる言語を識別可能な識別方法

Country Status (1)

Country Link
JP (1) JP5091202B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976818A (zh) * 2016-04-26 2016-09-28 Tcl集团股份有限公司 指令识别的处理方法及装置
CN108281147A (zh) * 2018-03-31 2018-07-13 南京火零信息科技有限公司 基于lpcc和adtw的声纹识别系统
CN111488485A (zh) * 2020-04-16 2020-08-04 北京雷石天地电子技术有限公司 基于卷积神经网络的音乐推荐方法、存储介质和电子装置
CN112530440A (zh) * 2021-02-08 2021-03-19 浙江浙达能源科技有限公司 一种基于端到端模型的配电网调度任务智能语音识别系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02257374A (ja) * 1989-03-30 1990-10-18 Hitachi Metals Ltd パターン認識方法
JPH07230294A (ja) * 1994-02-18 1995-08-29 Matsushita Electric Ind Co Ltd 言語識別装置
JP2000101727A (ja) * 1998-08-21 2000-04-07 Lucent Technol Inc 通信会議システム及びその運用方法
JP2000347685A (ja) * 1999-06-03 2000-12-15 Mitsubishi Electric Corp 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法
JP2003141113A (ja) * 2001-10-31 2003-05-16 Casio Comput Co Ltd 翻訳装置、音声翻訳方法、およびプログラム
JP2007322523A (ja) * 2006-05-30 2007-12-13 Toshiba Corp 音声翻訳装置及びその方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02257374A (ja) * 1989-03-30 1990-10-18 Hitachi Metals Ltd パターン認識方法
JPH07230294A (ja) * 1994-02-18 1995-08-29 Matsushita Electric Ind Co Ltd 言語識別装置
JP2000101727A (ja) * 1998-08-21 2000-04-07 Lucent Technol Inc 通信会議システム及びその運用方法
JP2000347685A (ja) * 1999-06-03 2000-12-15 Mitsubishi Electric Corp 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法
JP2003141113A (ja) * 2001-10-31 2003-05-16 Casio Comput Co Ltd 翻訳装置、音声翻訳方法、およびプログラム
JP2007322523A (ja) * 2006-05-30 2007-12-13 Toshiba Corp 音声翻訳装置及びその方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976818A (zh) * 2016-04-26 2016-09-28 Tcl集团股份有限公司 指令识别的处理方法及装置
CN105976818B (zh) * 2016-04-26 2020-12-25 Tcl科技集团股份有限公司 指令识别的处理方法及装置
CN108281147A (zh) * 2018-03-31 2018-07-13 南京火零信息科技有限公司 基于lpcc和adtw的声纹识别系统
CN111488485A (zh) * 2020-04-16 2020-08-04 北京雷石天地电子技术有限公司 基于卷积神经网络的音乐推荐方法、存储介质和电子装置
CN111488485B (zh) * 2020-04-16 2023-11-17 北京雷石天地电子技术有限公司 基于卷积神经网络的音乐推荐方法、存储介质和电子装置
CN112530440A (zh) * 2021-02-08 2021-03-19 浙江浙达能源科技有限公司 一种基于端到端模型的配电网调度任务智能语音识别系统
CN112530440B (zh) * 2021-02-08 2021-05-07 浙江浙达能源科技有限公司 一种基于端到端模型的配电网调度任务智能语音识别系统

Also Published As

Publication number Publication date
JP5091202B2 (ja) 2012-12-05

Similar Documents

Publication Publication Date Title
US10699699B2 (en) Constructing speech decoding network for numeric speech recognition
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
Zhan et al. Vocal tract length normalization for large vocabulary continuous speech recognition
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
WO2020029404A1 (zh) 语音处理方法及装置、计算机装置及可读存储介质
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
US20030093269A1 (en) Method and apparatus for denoising and deverberation using variational inference and strong speech models
Van Segbroeck et al. Rapid language identification
Mehta et al. Comparative study of MFCC and LPC for Marathi isolated word recognition system
Guo et al. Robust speaker identification via fusion of subglottal resonances and cepstral features
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
Dhar et al. A system to predict emotion from Bengali speech
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6367773B2 (ja) 音声強調装置、音声強調方法及び音声強調プログラム
Wondimu et al. Signal based Ethiopian languages identification using Gaussian mixture model
Lingam Speaker based language independent isolated speech recognition system
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
Fennir et al. Acoustic scene classification for speaker diarization
Dhakal Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms
TWI395200B (zh) 一種不用樣本能辨認所有語言的辨認方法
Pop et al. Sound event recognition in smart environments
TWI460718B (zh) 一個辨認所有語言句子方法
Lipeika et al. On the use of the formant features in the dynamic time warping based recognition of isolated words

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120320

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120326

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120420

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120913

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees