JP2011033879A - サンプルを用いずあらゆる言語を識別可能な識別方法 - Google Patents
サンプルを用いずあらゆる言語を識別可能な識別方法 Download PDFInfo
- Publication number
- JP2011033879A JP2011033879A JP2009180750A JP2009180750A JP2011033879A JP 2011033879 A JP2011033879 A JP 2011033879A JP 2009180750 A JP2009180750 A JP 2009180750A JP 2009180750 A JP2009180750 A JP 2009180750A JP 2011033879 A JP2011033879 A JP 2011033879A
- Authority
- JP
- Japan
- Prior art keywords
- continuous
- sound
- unknown
- name
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】ある連続音(word)が1個以上の単音を含み、あらゆる言語のある連続音の特徴は、あらゆる言語の未知の連続音から抽出し、これら未知の連続音は、マトリックス値を用いて表示し、144次元空間内に散布され、あらゆる言語の既知の連続音の特徴は、144次元空間に散らばり、知の連続音周囲の未知の連続音の特徴によりシミュレート及び計算され、本発明は12個の弾性フレームを含み、長さが等しく、フィルターが無く、オーバーラップせず、ある連続音を、長さがさまざまな音波(さまざまな音節数を持つ)12×12マトリックスに転換し、ベイズ識別法により比較識別する。
【選択図】図2
Description
本発明の最重要目的は、多数の未知の連続音の特徴を用いて、あらゆる言語の任意の1個の既知の連続音の特徴をシミュレート及び計算することであるため、本発明はサンプルを用いず、あらゆる言語のある連続音の特徴を構築可能で、すなわち本発明サンプルを用いずとも、各種言語を正確に識別することができる。詳しく言えば、本発明は、あらゆる言語の任意の1個の既知の連続音に対して、ベイズ距離を用い、144次元空間において、N個の未知の連続音マトリックスを探し、該既知の連続音をシミュレート及び計算し、こうして既知の連続音のサンプルを用いずに、あらゆる既知の連続音の特徴を構築することができる。よってあらゆる言語を識別することができる。
本発明は言語識別方法を提供し、それは言語を備えない音声波を削除することができる。
本発明は、連続音の音波正常化及び特徴を抽出する方法を提供する。それは、E個の相互に等しい弾性フレームを使用し、オーバーラップせず、フィルターがなく、ある連続音波の長短に基づき、すべての波長を自由に調節でき、連続音の音波内で時間に従い非線形変化を行なう一系列の動的特性を、1個の大きさが相互に等しい特徴モデルに転換し、しかも相同の連続音の音波の特徴モデルは、相同の時間位置上では、相同の特徴を有する。即時に識別が可能で、コンピューター即時識別効果を達成することができる。
本発明は、簡易で有効なベイズ法による未知の連続音を識別する方法を提供し、識別エラーの確率を最小とし、計算が少なく、識別が速く、弁識率が高い。
本発明は、連続音の特徴の抽出方法を提供し、連続音の音波は一種の時間に従い、非線形変化を行なう動的特性を備える。本発明は、時間に従い、線形変化を行う回帰モデル推計時間に従い、非線形変化を行なう音波を用い、回帰未知係数の最小平方推計値(LPCベクトル)を生じる。
本発明は、すべての音声を備える音波(音波信号点)を使用する。より少ない数E=12個の相互に等しい弾性フレームを用い、フィルターがなく、オーバーラップせず、すべての信号点の特徴を含む。ある連続音の音波が短過ぎても、該連続音を削除せず、長過ぎても、一部の信号点を削除或いは圧縮しない。ヒトの聴覚がこの連続音を識別可能なら、本発明は、該連続音の特徴を抽出することができる。よって、本発明音声識別方法は、各1個の音声を備える信号点を応用し、できるだけ音声特徴を抽出することができる。E=12個の弾性フレームはオーバーラップせず、フレーム数が少ないため、特徴抽出及び線形予測ケプストラム係数(LPCC)を計算する時間を大幅に減少させることができる。
本発明の識別方法は、話すのが速過ぎる或いは話すのが遅過ぎる連続音を識別することができる。話すのが速過ぎる時には、ある連続音の音波は非常に短い。本発明は、弾性フレームの長さを短くすれば、相同数のE個の等しい長さの弾性フレームを用いて、短音波を網羅することができ、E個の線形予測ケプストラム係数(LPCC)ベクトルを生じる。該短音をヒトが弁別できさえすれば、該E個の線形予測ケプストラム係数(LPCC)ベクトルも、該短音の特徴モデルを有効に代表することができる。話すのが遅過ぎる際に発せられる連続音の音波はより長く、弾性フレームは伸び、発生するE個の線形予測ケプストラム係数(LPCC)ベクトルは、該長音を有効に代表することができる。
本発明は、データベース内のすべての既知の連続音の特徴を安定及び調節する方法を提供し、これによりすべての連続音の特徴は、144次元空間内において、相互に自己の位置及び空間を占有し、こうして正確に識別を行なうことができる。
1個の文或いは名称を識別する時には、先ず、未知の文或いは名称を、D個の未知の連続音に分割し、本発明は、各未知の連続音を、ベイズ法を用いて、連続音特徴データベースにおいて、最も相似したF個の既知の連続音を選択する。1個の文は、D×F個の既知の連続音により表示され、切断が困難であるため、比較的多い或いは比較的少ない個数の未知の連続音に分割され、本発明は、各未知の連続音の前後三列のF個の相似した既知の連続音により、文或いは名称中の1個の既知の連続音を比較し、また文及び名称データベース中において、各一文或いは名称に対して、3×Fウィンドウの既知の相似した連続音を用い、1個の既知の連続音をスクリーニングし、さらに、文及び名称データベースから、最も可能性が高い文或いは名称を探すため、方法は簡単で、成功率が非常に高い(70個の英語文及び名称と、407台湾中国語の文及び名称を識別)。
本発明は、2種の技術を提供し、連続音の特徴を修正し、これにより未知の連続音及び未知の文或いは名称の識別を成功させる。
本発明は、1個の台湾中国語単音を、1個の1音節だけの連続音とし、中国語及び外国語の特徴はすべて、同じサンプル大きさのマトリックスにより表示する。よって、本発明は、各種言語を同時に識別することができる。
図1は、既知の連続音永久データベース、既知の連続音特徴データベース、文及び名称データベースという3個のデータベースの構築プロセスを示す。
連続音特徴データベースは、すべての既知の連続音の標準モデルを含み、既知の連続音の特徴を示す。
先ず、1個の既知の連続音或いは1個の文或いは名称1を入力し(文或いは名称は、多数の連続音に分割される)、ある連続音波10形式によりレシーバー20に進入する。
デジタル転換器30は、連続音波を、シーケンス音波デジタルの信号点に転換する。
ある一定の時間枠内の信号点の変異数及び一般雑音の変異数を計算する。もし前者が後者より小さければ、その一定時間枠は音声を備えないため、削除すべきである。
ある一定の時間枠内の連続する2個の信号点の距離の総和及び一般雑音の総和を計算する。もし前者が後者より小さければ、その一定時間枠は音声を備えないため、削除すべきである。
先ず、音波を正常化し、次に特徴を抽出し、既知の連続音のすべての信号点を、E等時間枠に分割する。
各時間枠は1個のフレームを組成する。
ある連続音は、合計E個の等長フレーム50を有し、フィルターがなく、オーバーラップしない。
連続音のすべての信号点の長さに基づき、E個のフレームの長さは、すべての信号点を網羅できるよう自由に調整する。
よって、そのフレームは弾性フレームと呼称し、長さは自由に伸縮可能だが、E個の弾性フレームの長さは同じである。
ハミング(Hamming)ウィンドウとは異なり、フィルターを有し、ハーフオーバーラップし、長さは固定で、波長に応じて自由に調整することはできない。
さらに、線形予測コード(LPC)ベクトルを、比較的安定した線形予測ケプストラム係数(LPCC)に転換する。ある連続音の音波内には、シーケンス時間に従い、非線形変化を行なう音声動的特徴を含み、本発明内では、大きさが相互に等しいE個の線形予測ケプストラム係数(LPCC)ベクトル60に転換する。
ある連続音を音声識別方法に入力後、この連続音連続音波を一系列の音波信号点(signal sampled points)に転換する。さらに、音声音波を備えない信号点を削除する。本発明は2種の方法を提供する。一つ目は、ある一定の時間枠内信号点の変異数を計算する。二つ目は、その時間枠内の相互に隣接する2つの信号点の距離の総和を計算する。理論上は、第一の方法がより良いが、信号点の変異数が、雑音変異数より大きく、音声が存在することを表す。但し、本発明が連続音を識別する時には、2種の方法の識別率は同じであるが、第二の方法が時間を節約できる。
ると、因最後の線形予測ケプストラム係数(LPCC)によれば0に近似する。ある連続音はE個の線形予測ケプストラム係数(LPCC)ベクトル表示特徴とし,つまり1個のE×P個の線形予測ケプストラム係数(LPCC)のマトリックス表示のある連続音を含み,ある連続音は一個ないし多数の音節を含む。
(a)先ず、1個の未知の連続音データベースを構築する。本単音データベースは、台湾の中央研究院より購入した。データベースには、計388個の台湾中国語単音(図3)があり、全て女性が発音しており、サンプルは、6個から99個で、多くの単音の発音は、ほぼ同様である。
(b)(2)節中方法から、すべてのサンプルをE×P LPCCマトリックスに転換すると、計12400個のマトリックスを有する。
(c)388個の台湾中国語単音中において、サンプルを用いて平均値及び変異数を求める。
(D)アットランダムに388個の台湾中国語単音を混合し、388個のサンプルがある平均値及び変異数の単音を、388個の未知の連続音データベースとする(1個の台湾中国語単音は、音節が1個だけの連続音である)。
(e)次に、男性一人、女性一人により、654個の台湾中国語単音、154個の英語、1個のドイツ語、1個の日本語及び3個の台湾語を、1回発音し、2個の813個の永久既知の連続音データベースを構築する。各連続音は、線形予測ケプストラム係数(LPCC)E×Pマトリックスにより表示する。
(f)永久既知の連続音データベースの813個の既知の連続音中において、各1個の既知の連続音に対して、ベイズ距離20を用い、388個の未知の連続音中において、N=15個の未知の連続音を探す。その既知の連続音の線形予測ケプストラム係数(LPCC)及びN個の未知の連続音のサンプル平均値は、N+1個加重平均値を求め、その既知の連続音の平均値とし、N個の未知の連続音のサンプル変異数の加重平均値を求め、その既知の連続音の変異数とする。この平均値及び変異数12×12マトリックスを、その既知の連続音の初期特徴と呼称79し、既知の連続音特徴データベースに存在する。つまり、特徴データベースは、813個の12×12平均値及び変異数マトリックス80を含む。
(g)特徴データベース中において、もし1個の既知の連続音の平均値が、永久連続音データベース中においてと同様であるなら、その既知の連続音のLPCCのベイズ距離は、最小ではない。813個の連続音特徴データベイズ距離を用い、N=15既知の連続音を探す。N個の連続音のN個の平均値及びその既知の連続音のLPCCを用いて、加重平均値を求め、その既知の連続音の新しい平均値とする。N個の既知の連続音の変異数に対して、加重平均値を求め、その既知の連続音の新変異数とする。新平均値及び変異数を繰り返し数回計算する。最後の12×12平均値及び変異数マトリックスを標準モデルと故障し、その既知の連続音特徴を表し、既知の連続音特徴データベース中80に存在する。
本発明は、以下の連続音識別を行なった。識別率は、人により決まり、相似が多すぎるため、上位3人を正解とする。
384個の台湾中国語単音、1個のドイツ語、1個の日本語、2個の台湾語を識別する(図3参照)(識別率が非常に高い)
154個の英語、1個のドイツ語を識別する(図4参照)(識別率が非常に高い)
154個の英語及び388個の台湾中国語、1個のドイツ語、1個の日本語、2個の台湾語を同時に識別する(識別率が非常に高い)
(4)654個の台湾中国語単音、1個のドイツ語、1個の日本語、3個の台湾語を識別する(図5参照)(識別率は高いが、上記三例ほどではない)
その識別方法は、以下の通りである。
(a)1個の未知の文或いは名称を、D個の未知の連続音に分割し、各単位時間枠は、相互に隣接する2つの信号点落差距離総和を計算する。もし小さ過ぎるなら、その時間枠は、雑音或いは靜音で、音声信号のない相互に隣接する単位時間枠の累積が多過ぎ(連続音2音節時間より多い)、すべてが雑音或いは靜音であることを示しており、2個の連続音の境界線で分割すべきで、計D個の未知の連続音に分割する。次に、図2の45、50、60及び90プロセスを用いて、E×P LPCCマトリックスに転換する。各1個の未知の連続音に対して、ベイズ分類法20を用いて、英語及び台湾中国語の特徴データベース中において、最も相似したF個の既知の連続音を選択する(同時に、英語及び台湾中国語を含む可能性がある(図))。未知の文或いは名称は、 D×F最も相似した既知の連続音により表示する。
(b)文及び名称データベースにおいて、発話者の文或いは名称を探し、477個の英語及び台湾中国語の文と名称中において、長さが(D±1)個の既知の連続音文と名称を選択する。
(c)もし、データベースの選択が、比較する文或いは名称及び発話者の文或いは名称と等しい長さであるなら、D個の未知の連続音である時には、D個の各列F個の相似した既知の連続音と比較する文或いは名称のD個の既知の連続音は、順番に比較し、F個の相似する連続音が、比較する文或いは名称内の既知の連続音であるかどうかを見る。もし、各列の相似の連続音内に、すべて1個の比較文或いは名称内の既知の連続音を含むなら、正確な連続音をD個と識別する。すなわち、その比較の文或いは名称は、発話者の文或いは名称である。
(d)もし、データベース比較文と名称内既知の連続音数が、D-1或いはD+1、或いは(c)の識別正確連続音がD個でないなら、本発明は、3×Fウィンドウを用いてスクリーニングする。比較文或いは名称(データベース内)中において、第i個の既知の連続音は、D×Fマトリックス中の前後三列の相似した既知の連続音(すなわち第i−1、i、i+1列)を用いて、第i個の既知の連続音を比較し、D×Fマトリックスにどれだけの比較文或いは名称内の既知の連続音があるかを計算する。次に、総数Dにより割り、その比較文或いは名称の確率を求め、データベースにおいて、1個の確率が最大の文或いは名称を発話者の発音として選択する。
(e)もし、ある文或いは名称の識別がエラーであるなら、必ず、D個の未知の連続音中に1個或いは多数あり、それらのF個の相似した既知の連続音にはない。ベイズ分類法20を用いて、(155+384)個の既知の連続音中で、前からN=15順位の既知の連続音を探し、N個の相似の連続音及びその未知の連続音のLPCC加重平均値を求め、その未知の連続音を改善する。こうしてD個の未知の連続音は、それらF個の相似した既知の連続音内にあり、再度のテストは必ず成功する。
本発明は、以下の英語及び台湾中国語の文及び名称識別を行なった。識別はほとんどすべてが正しいが、人により異なる。
(1)70個の英語文及び名称を識別(非常に良い)。
(2)407個の台湾中国語の文及び名称を識別(非常に良い)
(3)70個の英語文及び名称と407個の台湾中国語の文及び名称を識別(非常に良い)。
10 連続音連続音波
20 レシーバー
30 音波デジタル転換器
45 雑音除去
50 E個の弾性フレーム正常化音波
60 最小平方法により線形予測ケプストラム係数(LPCC)ベクトルを計算
70 ベイズ距離(絶対値距離)を用い、各1個の既知の連続音(永久データベース)に対して、未知の連続音データベースにおいて、N個の最も新しい未知の連続音を探す。
79 各1個の既知の連続音(永久データベース)に対して、周囲のN個の未知の連続音及び該既知の連続音のLPCCを用いて、加重平均値を求める。該既知の連続音の初期特徴を、特徴データベースに組み入れる。さらに、特徴データベースにおいて、ベイズ距離を用い、N個の既知の連続音と該既知の連続音LPCC加重平均値を求め、数回の計算を行なう。最後の加重平均値(E×P平均値及び変異数)は、該既知の連続音の標準モデルを表す。
80 既知の連続音特徴データベースは、すべての平均値及び変異数の標準モデルを含む。
85 既知の連続音特徴データベースの連続音を用いて、識別しようとする文 及び名称の文及び名称データベースを構築する。
2 未知の文或いは名称を入力する。
11 1組の未知の連続音波
40 1個の文或いは名称を、D個の未知の連続音に分割する。
90 D個の未知の連続音の線形予測ケプストラム係数(LPCC)マトリックスは、D個の未知の連続音分類モデルを表す。
100 ベイズ分類法を用いて、各1個の既知の連続音標準モデルと、未知の連続音分類モデルを比較する。
110 一文或いは名称中から、各1個の未知の連続音の最も近接するF個の既知の連続音を探し、一文或いは名称は、計D×F個の既知の最も相似する連続音により表される。
120 文と名称データベースにおいて、3×Fウィンドウの相似した既知の連続音を用いて、すべての文及び名称中の各既知の連続音をスクリーニングする。
130 文及び名称データベースにおいて、1個の最も可能性の高い文或いは名称を探す。
Claims (10)
- サンプルを用いず各種言語を識別可能な識別方法は、以下のステップを含み、
未知の連続音データベース(サンプルがあってもなくてもどちらでも可)を提供し、
既知の連続音永久データベースは、発音が標準的で明晰な人により、各既知の連続音を1回発音し、もし被験者のなまりがひどいばあいには、試験者が発音し、
プリプロセッサー(pre-processor)は、音声音波を備えない信号点(sampled points)或いは雑音を削除し、
ある連続音の音波正常化及び特徴を抽出する方法は以下の通りで、すなわちE個の弾性フレームを用いて、音波を正常化し、大きさが相互に等しい線形予測ケプストラム係数(LPCC)ExP特徴マトリックスに転換し、
未知の連続音の音波を正常化、及び特徴を抽出する方法は以下の通りで、すなわち音波を正常化し、既知の連続音標準モデル(1個のE×P平均値及び変異数のマトリックスにより表示)と大きさが相互に等しい特徴マトリックスに転換し、それを未知の連続音分類モデルと呼称し、内部には線形予測ケプストラム係数(LPCC)を含み、
簡素化ベイズ(Bayesian)分類法は以下の通りで、すなわち未知の連続音分類モデルと既知の連続音特徴データベースのすべての既知の連続音標準モデル(1個のE×P平均値及び変異数のマトリックスにより表示)を比較し、1個の既知の連続音を探し、それと未知の連続音のベイズ距離が最小であれば、未知の連続音として識別し、
既知の連続音永久データベースにおいて、各1個の既知の連続音に対して、サンプルがある未知の連続音データベース中において、ベイズ距離を用い、N個の最も近い未知の連続音を探し、もし未知の連続音データがサンプルがないなら、絶対値距離を用いて、N個の最も新しい未知の連続音を探し、
もし、未知の連続音データベースにサンプルがあるなら、N個の最も新しい未知の連続音のN個の平均値及び前記既知の連続音の線形予測ケプストラム係数(LPCC)のN+1個の加重平均値を計算し、前記既知の連続音平均値とし、N個の増加の連続音のN個の変異数の加重平均値を、前記既知の連続音の変異数とし、このE×P平均値及び変異数マトリックスを、前記既知の連続音初期特徴と呼称し、既知の連続音特徴データベース中に組み入れ、
もし、未知の連続音データベースにサンプルがないなら、N個の最も新しい未知の連続音の線形予測ケプストラム係数(LPCC)及び前記既知の連続音の線形予測ケプストラム係数(LPCC)を用いて、(N+1)数とし、(N+1)数加重平均値及び変異数を計算し、このE×P平均値及び変異数マトリックスを、前記既知の連続音初期特徴と呼称し、既知の連続音特徴データベース中に存在し、
各1個の既知の連続音特徴を繰り返し計算、及び安定させる方法により、既知の連続音特徴データベース内において、各1個の既知の連続音はすべて、相互に安定した特徴(1個のE×P平均値及び変異数のマトリックスにより表示)を備え、前記既知の連続音の標準モデルと呼称し、既知の連続音特徴データベース中に組み入れ、
1個の未知の文或いは名称を、D個の未知の連続音に分割する方法は、
1個の簡素化ベイズ分類法は、D個の未知の連続音中に、各1個の未知の連続音のために、既知の連続音特徴データベース中において、F個の最も相似する既知の連続音を選択し、1個の未知の文或いは名称は、D×Fマトリックスの既知の連続音を用いて表示し、
D×Fマトリックスの既知の連続音を用いて、文及び名称データベースのすべての文及び名称を比較し、1個の最も可能性の高い既知の文或いは名称を選択し、
ある連続音特徴を修正する方法により発話者の文或いは名称の識別は正確となることを特徴とするサンプルを用いずあらゆる言語を識別可能な識別方法。 - 前記ステップ(3)の音声を備えない音波を削除或いは雑音する方法は、2種の方法を含み、
ある一定の時間枠内信号点において、信号点の変異数及び一般雑音の変異数を計算し、もし信号点の変異数が、雑音変異数より小さければ、前記時間枠を削除し、
ある一定の時間枠内信号点において、相互に隣接する2個の信号点の距離の総和と一般雑音の相互に隣接する2個の信号点の距離の総和を計算し、もし前者が後者より小さければ、時間枠を削除することを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法一。 - 前記ステップ(4)は、ある連続音の音波正常化及び大きさが一致した特徴マトリックス抽出を含み、そのステップ以下の通りで、
1個の連続音の音波信号点を均等に分割する方法は、線形変化の回帰方式を用いるため、非線形変化の音波を密接に推計し、音波全長をE等時間枠に分割し、各時間枠は1個の弾性フレームを形成し、ある連続音は計E個の等しい長さの弾性フレームを有し、フィルター(Filter)がなく、オーバーラップせず、自由に伸縮して音波全体を網羅可能で、長さが固定されたハミング(Hamming)ウィンドウではなく、
各フレーム内で、ある時間に従い、線形変化を行う回帰方式を用いて、時間に従い非線形変化を行なう音波を推計し、
Durbin'sの循環方式を用い、
(d)E個の線形予測ケプストラム係数(LPCC)ベクトルを用いて、ある連続音を表示することを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。 - 前記ステップ(5)はさらに、未知の連続音を計算する分類モデル方法を含み、そのステップは以下の通りで、
未知の連続音の音波をE等時間枠に分割し、各時間枠は1個の弾性フレームを組成し、1個の未知の連続音は、E個の等しい長さの弾性フレームを備え、フィルターがなく、オーバーラップせず、自由に伸縮して、すべての音波信号点を網羅することができ、
各弾性フレーム内では、時間に従い、線形変化を行う回帰方式を用いて、時間に従い、非線形変化を行なう音波を推計し、
Durbin'sの循環方式を用いて、
(e)E個の線形予測ケプストラム係数(LPCC)ベクトルを用いて、(E×P LPCCマトリックス)を前記未知の連続音の分類モデルとすることを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。 - 前記ステップ(10)は、特徴データベースのすべての既知の連続音の特徴を繰り返し計算し安定させる方法を含み、
もし、既知の連続音特徴データベースに、1個の既知の連続音があり、それは既知の連続音永久データベースの同様に既知の連続音のベイズ距離に対して、特徴データベースが最小でなければ、ベイズ距離を用い、特徴データベース内で、N個の永久データベースの同様に既知の連続音の線形予測ケプストラム係数(LPCC)に最も近い既知の連続音を探し、
N個の最も近い連続音のN個の平均値及び前記既知の連続音の線形予測ケプストラム係数(LPCC) N+1個の加重平均値を計算し、前記既知の連続音の新しい平均値とし、N個の最も近い連続音のN個の変異数加重平均値を計算し、前記既知の連続音の新変異数とし、このE×P新平均値及び新変異数のマトリックスを前記既知の連続音の新しい特徴とし、特徴データベース内に組み入れ、
ステップ(a)から(b)までを数回繰り返し、最後の新しい特徴は、E×P平均値及び変異数マトリックスにより表示し、前記既知の連続音の標準モデルと呼称し、
永久データベース内のすべての既知の連続音の線形予測ケプストラム係数(LPCC)は未改変であることを特徴とするサンプルを用いずあらゆる言語を識別可能な識別方法。 - 前記ステップ(11)は、未知の文或いは名称をD個の未知の連続音に分割する方法を含み
各単位時間枠は、相互に隣接する2個の信号点の落差距離総和を計算し、小さ過ぎるなら、前記時間枠は、靜音或いは雑音で、音声信号がなく、
静音或いは雑音が、相互に隣接する単位時間枠での累積が多過ぎる(連続音内2個音節の間は長い必要がある)なら、前記時間枠は、2個の連続音の境界線を分割し、1個の未知の文或いは名称をD個の未知の連続音に分割し、
さらに、各連続音から靜音及び雑音を除去し、弾性フレームを正常化し、最小平方は線形予測ケプストラム係数(LPCC)ベクトルを計算し、1個の未知の連続音を表し、一文或いは名称は計D個の線形予測ケプストラム係数(LPCC)E×Pマトリックスを用いて表示することを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。 - 前記ステップ(13)は、以下の1個の文及び名称の識別方法を含み、
(a)文及び名称データベース中から、発話者の文或いは名称と長さが大体相同の文或いは名称を選択し(D±1個の既知の連続音の文と名称がある)、
(b)もし文及び名称データベースにおいて、比較の文或いは名称を選択し、その長さがちょうど発話者の文或いは名称と等しい長さ(D個の未知の連続音)であるなら、D個の各列F個の相似した既知の連続音と選択された比較文或いは名称のD個の既知の連続音を順番に比較し、F個の相似した既知の連続音中に比較文或いは名称内の既知の連続音がないかどうかを見て、もし各列の相似した既知の連続音が、順番にすべて比較文或いは名称内の1個の既知の連続音を含み、計すべてのD個の未知の連続音の識別が正しいなら、前記比較文或いは名称は、発話者の文或いは名称で、
(c)もし文及び名称データベース中の比較文或いは名称に、D個の既知の連続音があるが、発話者と比較し、D個の連続音は完全に識別が正しいわけではないなら(F個の相似した既知の連続音内にない)或いは比較文或いは名称がD個長さでないなら、本発明は3×Fウィンドウを用いてスクリーニングし、D×Fマトリックス相似した既知の連続音中の前後三列の相似した既知の連続音を用いて、順序に比較文及び名称データベース中において、D個或いはD±1個の既知の連続音の比較文或いは名称中の各1個の既知の連続音を比較し、データベース中で、確率が最大の比較文或いは名称を選択して、発話者の文或いは名称とし、確率は、多少の比較文或いは名称の既知の連続音により、3×Fウィンドウ内に落ち着き、全長(D或いはD±1)により割ることを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。 - 前記ステップ(14)は、連続音の特徴を修正する方法を含み、これにより文或いは名称の識別は正確となり、
(b)(a)項において、被験者が発音した線形予測ケプストラム係数(LPCC)とN個の最も相似した既知の連続音のN個の平均値により、N+1個の加重平均値を求め、前記未知の連続音の新平均値とし、N個の最も相似した既知の連続音のN個の変異数の加重平均値を求め、前記未知の連続音の新変異数とし、この平均値及び変異数E×Pマトリックスは、前記未知の連続音の新しい標準モデルを表し、
(c)前記未知の文或いは名称を再度テストすれば、必ず成功することを特徴とする請求項1に記載のサンプルを用いずあらゆる言語を識別可能な識別方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009180750A JP5091202B2 (ja) | 2009-08-03 | 2009-08-03 | サンプルを用いずあらゆる言語を識別可能な識別方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009180750A JP5091202B2 (ja) | 2009-08-03 | 2009-08-03 | サンプルを用いずあらゆる言語を識別可能な識別方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011033879A true JP2011033879A (ja) | 2011-02-17 |
JP5091202B2 JP5091202B2 (ja) | 2012-12-05 |
Family
ID=43763002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009180750A Expired - Fee Related JP5091202B2 (ja) | 2009-08-03 | 2009-08-03 | サンプルを用いずあらゆる言語を識別可能な識別方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5091202B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976818A (zh) * | 2016-04-26 | 2016-09-28 | Tcl集团股份有限公司 | 指令识别的处理方法及装置 |
CN108281147A (zh) * | 2018-03-31 | 2018-07-13 | 南京火零信息科技有限公司 | 基于lpcc和adtw的声纹识别系统 |
CN111488485A (zh) * | 2020-04-16 | 2020-08-04 | 北京雷石天地电子技术有限公司 | 基于卷积神经网络的音乐推荐方法、存储介质和电子装置 |
CN112530440A (zh) * | 2021-02-08 | 2021-03-19 | 浙江浙达能源科技有限公司 | 一种基于端到端模型的配电网调度任务智能语音识别系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02257374A (ja) * | 1989-03-30 | 1990-10-18 | Hitachi Metals Ltd | パターン認識方法 |
JPH07230294A (ja) * | 1994-02-18 | 1995-08-29 | Matsushita Electric Ind Co Ltd | 言語識別装置 |
JP2000101727A (ja) * | 1998-08-21 | 2000-04-07 | Lucent Technol Inc | 通信会議システム及びその運用方法 |
JP2000347685A (ja) * | 1999-06-03 | 2000-12-15 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 |
JP2003141113A (ja) * | 2001-10-31 | 2003-05-16 | Casio Comput Co Ltd | 翻訳装置、音声翻訳方法、およびプログラム |
JP2007322523A (ja) * | 2006-05-30 | 2007-12-13 | Toshiba Corp | 音声翻訳装置及びその方法 |
-
2009
- 2009-08-03 JP JP2009180750A patent/JP5091202B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02257374A (ja) * | 1989-03-30 | 1990-10-18 | Hitachi Metals Ltd | パターン認識方法 |
JPH07230294A (ja) * | 1994-02-18 | 1995-08-29 | Matsushita Electric Ind Co Ltd | 言語識別装置 |
JP2000101727A (ja) * | 1998-08-21 | 2000-04-07 | Lucent Technol Inc | 通信会議システム及びその運用方法 |
JP2000347685A (ja) * | 1999-06-03 | 2000-12-15 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 |
JP2003141113A (ja) * | 2001-10-31 | 2003-05-16 | Casio Comput Co Ltd | 翻訳装置、音声翻訳方法、およびプログラム |
JP2007322523A (ja) * | 2006-05-30 | 2007-12-13 | Toshiba Corp | 音声翻訳装置及びその方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976818A (zh) * | 2016-04-26 | 2016-09-28 | Tcl集团股份有限公司 | 指令识别的处理方法及装置 |
CN105976818B (zh) * | 2016-04-26 | 2020-12-25 | Tcl科技集团股份有限公司 | 指令识别的处理方法及装置 |
CN108281147A (zh) * | 2018-03-31 | 2018-07-13 | 南京火零信息科技有限公司 | 基于lpcc和adtw的声纹识别系统 |
CN111488485A (zh) * | 2020-04-16 | 2020-08-04 | 北京雷石天地电子技术有限公司 | 基于卷积神经网络的音乐推荐方法、存储介质和电子装置 |
CN111488485B (zh) * | 2020-04-16 | 2023-11-17 | 北京雷石天地电子技术有限公司 | 基于卷积神经网络的音乐推荐方法、存储介质和电子装置 |
CN112530440A (zh) * | 2021-02-08 | 2021-03-19 | 浙江浙达能源科技有限公司 | 一种基于端到端模型的配电网调度任务智能语音识别系统 |
CN112530440B (zh) * | 2021-02-08 | 2021-05-07 | 浙江浙达能源科技有限公司 | 一种基于端到端模型的配电网调度任务智能语音识别系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5091202B2 (ja) | 2012-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10699699B2 (en) | Constructing speech decoding network for numeric speech recognition | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
Zhan et al. | Vocal tract length normalization for large vocabulary continuous speech recognition | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
WO2020029404A1 (zh) | 语音处理方法及装置、计算机装置及可读存储介质 | |
Pawar et al. | Review of various stages in speaker recognition system, performance measures and recognition toolkits | |
US20030093269A1 (en) | Method and apparatus for denoising and deverberation using variational inference and strong speech models | |
Van Segbroeck et al. | Rapid language identification | |
Mehta et al. | Comparative study of MFCC and LPC for Marathi isolated word recognition system | |
Guo et al. | Robust speaker identification via fusion of subglottal resonances and cepstral features | |
JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
JP6784255B2 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
Dhar et al. | A system to predict emotion from Bengali speech | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
Wondimu et al. | Signal based Ethiopian languages identification using Gaussian mixture model | |
Lingam | Speaker based language independent isolated speech recognition system | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
Fennir et al. | Acoustic scene classification for speaker diarization | |
Dhakal | Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms | |
TWI395200B (zh) | 一種不用樣本能辨認所有語言的辨認方法 | |
Pop et al. | Sound event recognition in smart environments | |
TWI460718B (zh) | 一個辨認所有語言句子方法 | |
Lipeika et al. | On the use of the formant features in the dynamic time warping based recognition of isolated words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111220 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120320 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120326 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120420 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120821 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120913 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150921 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |