JP5150542B2 - パターン認識装置、パターン認識方法、及び、プログラム - Google Patents

パターン認識装置、パターン認識方法、及び、プログラム Download PDF

Info

Publication number
JP5150542B2
JP5150542B2 JP2009076965A JP2009076965A JP5150542B2 JP 5150542 B2 JP5150542 B2 JP 5150542B2 JP 2009076965 A JP2009076965 A JP 2009076965A JP 2009076965 A JP2009076965 A JP 2009076965A JP 5150542 B2 JP5150542 B2 JP 5150542B2
Authority
JP
Japan
Prior art keywords
vector
correction
feature vector
component
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009076965A
Other languages
English (en)
Other versions
JP2010230868A (ja
Inventor
浩司 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009076965A priority Critical patent/JP5150542B2/ja
Priority to US12/561,448 priority patent/US9147133B2/en
Publication of JP2010230868A publication Critical patent/JP2010230868A/ja
Application granted granted Critical
Publication of JP5150542B2 publication Critical patent/JP5150542B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Description

本発明は、パターン認識装置、パターン認識方法、及び、プログラムに関する。
音声認識を行う際には、あらかじめ音声の特徴を学習したモデルと認識対象音声の特徴を比較して認識対象音声がどのモデルに近いかを判定する。不特定話者音声認識では、モデルの学習時と認識時では話者・雑音環境が異なるため、モデルと入力音声特徴との間にバイアスが生じる。このバイアスによる影響を減らすための代表的な手法としてCMN法(非特許文献1参照。)が挙げられる。
CMN法は、ある定められた時間区間の特徴量を平均し、その平均値を特徴量から引くことによってバイアスの影響を取り除く。CMN法はバイアスを減らすための手法として効果的でかつ計算量も少ない。
バイアスの影響を取り除く他の方法としてMLLR法(非特許文献2参照。)とSBR法(特許文献1参照。)とがある。MLLR法では、バイアスが時間変化しないという条件を仮定している。一方、SBR法はガウス分布によって表現されたHMM(Hidden Markov Model)をモデルとしている。SBR法のバイアスの補正は、MLLR法のバイアス部の計算部においてガウス分布の分散を単位行列により近似したものである。
SBR法は、各モデルの平均ベクトルと特徴ベクトルの差の平均を補正ベクトルとして特徴ベクトルから差し引くことによって特徴ベクトルを補正し、雑音の影響等も考慮した補正が可能である。
米国特許第5590242号明細書
B. Atal, "Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification," J.Acoust. Soc. AM., vol.55, pp.1304-1312, 1974. C.J. Leggetter and P.C. Woodland, "Maximum likelihood linear regression for speaker adaptation of continuous-density hidden Markov models," Computer Speech and Language, vol.9, pp.171-185, 1995.
しかしながら、SBR法は、モデル分布の分散を近似しているため、バイアスの補正性能が劣化することがある。一方、MLLR法では、補正ベクトルが、モデルの平均ベクトルと特徴ベクトルとの差に標準偏差の重みを掛けた加重平均であり、バイアスが時間変化しないという条件を仮定しているため、バイアスが逐次変化するような場合には、補正性能が劣化する。
本発明は、上記の点に鑑みて、これらの問題を解消するために発明されたものであり、逐次変化するバイアスに対して,モデル分布のばらつきに対応して性能の良いバイアス補正を行うことを目的としている。
上述した課題を解決し、目的を達成するために、本発明のパターン認識装置は、入力データから特徴ベクトルを計算する特徴ベクトル計算部と、1以上の平均ベクトル及び1以上のパターンの分散を表す分散ベクトルで表される複数のモデルから、前記特徴ベクトルとの距離が所定の範囲内である選択モデルを選択するモデル選択部と、前記選択モデル毎の平均ベクトルと前記特徴ベクトルとの差ベクトルの成分毎の距離から、所定の係数を乗じた前記分散ベクトルの該成分と次元が同一の成分の値を減じた値に、該成分と次元が同一の前記差ベクトルの成分と同一の正負の符号を乗じた値が成分である修正方向ベクトルを、前記選択モデル毎に計算し、さらに、前記特徴ベクトルを補正するための補正ベクトルを前記修正方向ベクトルに基づいて計算する補正ベクトル計算部と、前記補正ベクトルを用いて前記特徴ベクトルを補正する特徴ベクトル補正部と、補正された前記特徴ベクトルとの距離が近いモデルを前記複数のモデルから選択し、選択したモデルを用いて補正された前記特徴ベクトルに対するパターン認識を行うパターン認識部と、を有することを特徴とする。
本発明のパターン認識装置、パターン認識方法、及び、プログラムによれば、逐次変化するバイアスに対して,モデル分布のばらつきに対応して性能の良いバイアス補正を行うことが可能になる。
第1の実施形態に係るパターン認識装置を示すブロック図である。 第1の実施形態に係るパターン認識方法を示すフローチャートを示す図である。 第2の実施形態に係るパターン認識装置を示すブロック図である。 第2の実施形態に係るパターン認識方法を説明するフローチャートを示す図である。 実施の形態にかかるパターン認識装置のハードウェア構成を示す説明図である。
以下、本実施の形態を図面に基づき説明する。「入力パターン」は、音声データ、文字データ、又は、画像データ等が含まれる。また、「パターン」は、信号の波形等に限らず、波形に係るパラメータ等を含む。
(第1の実施形態)
図1は、第1の実施形態に係るパターン認識装置を示すブロック図である。図1のパターン認識装置は、特徴ベクトル計算部101、モデル格納部102、モデル選択部103、補正ベクトル計算部104、補正ベクトル格納部105、及び、特徴ベクトル補正部106を有する。
特徴ベクトル計算部101は、入力パターンを音声認識処理に用いる特徴ベクトルに変換する。モデル格納部102は、学習データにより取得された、特徴ベクトルのモデルを格納する。特徴ベクトルのモデルは、モデル選択部103、パターン認識部107で使用される。
モデル選択部103は、特徴ベクトル計算部106で出力される特徴ベクトルを入力として、その特徴ベクトルに対して距離の近いモデルを選択し、そのモデルパラメータを補正ベクトル計算部104に出力する。なお、複数のモデルが選択されてもよい。
補正ベクトル計算部104は、モデル選択部103で選択されたモデルと、特徴ベクトル計算部101で計算された特徴ベクトルと、から、補正ベクトルを計算する。補正ベクトル格納部105は、補正ベクトル計算部104が出力する補正ベクトルを格納する。
特徴ベクトル補正部106では、補正ベクトル格納部105に保存されている補正ベクトルを用いて、特徴ベクトル計算部101から出力される特徴ベクトルを補正する。パターン認識部107では、特徴ベクトル補正部106から出力される補正後の特徴ベクトルを用いてパターン認識を行う。より詳細には、モデル格納部102に格納されているモデルのうち、補正後の特徴ベクトルとの距離が近いモデルを選択し、そのモデルに対応する情報が、パターン認識の結果として出力される。
図2は第1の実施形態に係るパターン認識方法を示すフローチャートである。本実施の形態では、パターン認識方法として、音声認識装置による音声認識方法について説明する。なお、モデルは混合ガウス分布を出力確率分布とするモデルであればよく、例えば、HMM、又は、DPマッチング等でよい。
図2のステップS101では、特徴ベクトル計算部101が、デジタル化された音声波形を一定時間周期(以下、「フレーム」という。)毎に特徴ベクトルに変換する。ステップS102では、認識対象の入力パターンが存在するかを判断する。入力パターンである音声波形がなければ音声認識処理を終了し、存在すればステップS103に進む。なお、特徴ベクトルはどのような方法で作成されたものであってもよく、例えば、MFCCやLPC係数でもよい。
ステップS103からステップS108の処理は、フレーム毎に行う。ステップS103では、モデル選択部103が、ステップS101において特徴ベクトル計算部101が作成した特徴ベクトルとの“距離”が近いモデルM個選択する。“距離”が近いモデルとは、その特徴ベクトルに対する尤度の高いモデルである。
本実施例のモデルは、混合ガウス分布を出力分布とするHMMであるが、ここでは、HMMを構成する各状態の各混合分布を構成するガウス分布をそれぞれでひとつのモデルとみなし、その上で尤度の高いガウス分布をM個選択する。
なお、特徴ベクトルとの“距離”は尤度に制限されず、例えば、特徴ベクトルと平均ベクトルとのユークリッド距離なども適用してよい。
ステップS104では、補正ベクトル計算部104において、モデル選択部103で選択されたガウス分布と、特徴ベクトル計算部101で出力される特徴ベクトルと、から補正ベクトルを計算する。補正ベクトルの計算方法は次のように行う。
まず、各モデルmについて、修正値lmnを式(1)によって求める。
Figure 0005150542
式(1)中、係数αの値は、予め認識により得られる情報が対応づけられている学習データのテストセットを用い、実験的に定められるとよい。例えば、音声認識に用いるテストセットは、音声の周辺の環境、音声が入力される装置の特性等によって異なるとよい。係数αは、また、音声認識処理を行う際に、認識結果をフィードバックすることにより、動的に変更されてもよい。
次に、次式(2)により、選択されたモデルM個のモデルに対して修正値lmnを平均し、xn に対するn次元目の修正値lを求める。この修正値lを第n次元成分とするベクトルを修正方向ベクトルと呼ぶ。
Figure 0005150542
なお、lの求め方は式(2)に限定されず、式(3)のように尤度による荷重平均であってもよい。
Figure 0005150542
次に、修正方向ベクトルを用いて補正ベクトルを式(4)によって求める。
Figure 0005150542

なお、bn、t−1は、補正ベクトル格納部105に格納される。
なお、補正ベクトル計算式は、式(4)に限定されず、式(5)のように修正方向ベクトルを時間区間Tで平均したものでもよい。
Figure 0005150542

なお、ta<Tであれば、式(5)に代えて、bntaを、t=0からt=tまでの時間平均とする。
補正ベクトルは、また、式(6)のように、荷重平均であってもよい。
Figure 0005150542
ntを求めた後、さらに、次式(7)により、補正具合を調整する定数γを掛け最終的な補正ベクトルbnt’を求める。
Figure 0005150542
ステップS105では、式(1)から式(7)により算出した補正ベクトルを補正ベクトル格納部105に格納するか否か判定する。格納する場合には、ステップS106に進み、格納しない場合には、ステップS107に進む。判定はどのような基準で行ってもよく、例えば、算出された補正ベクトルを無条件に毎時刻格納してもよい。また、一定フレーム間隔毎、例えば3フレーム毎に1回格納してもよい。
ステップS106では、補正ベクトルが、補正ベクトル格納部105に格納される。なお、補正ベクトル格納部105に格納されている補正ベクトルの初期値は、どのような値であってもよく、例えば、全次元の値が0である零ベクトル、又は、入力信号中の無声区間の特徴ベクトルを平均することによって得られた雑音を表すベクトル等を用いるとよい。
ステップS107では、特徴ベクトル補正部106が、補正ベクトル格納部105に格納された補正ベクトルを用いて、ステップS104で算出された特徴ベクトルを補正する。補正ベクトル格納部105に補正ベクトルが格納されていない時刻の補正は、最後に格納された補正ベクトルをその時刻の補正ベクトルとして使用するとよい。
補正方法は、時刻tの補正ベクトルをbt、時刻tの特徴ベクトルをxt、補正された特徴ベクトルをx’t、とすると、次式(8)で表される。
Figure 0005150542
ステップS108では、パターン認識部107が、特徴ベクトル補正部106で補正された特徴ベクトルを用いて音声認識を行う。混合分布HMMを用いた音声認識の具体的な方法に関しては、公知の文献を参照するとよい。
なお、本例では音声認識装置を例として説明した。本実施の形態では、モデルが平均と分布のばらつき表す量によって表現されており、特徴ベクトルの修正量を式(1)によって定義し、選択されたモデルに関する修正量の平均から補正量を求める。
なお、この量は、ベクトルのような複数次元の量でも、スカラー値(1次元の値)でもよい。したがって、モデルが平均と分布の特性を表現する量(例えば分散、尖度等)であるパターン認識装置に適用できる。
また、本実施の形態では、特徴ベクトルは時系列データであったが、修正方向ベクトルをそのまま補正ベクトルとすることにより、入力特徴ベクトルが時系列データではない場合に適用できる。より詳細には、補正ベクトルの計算の際に、式(4)においてβ=1、式(7)においてγ=1とする。
(第2の実施形態)
本実施の形態では、混合ガウス分布を出力確率分布にもつHMM(Hidden Markov Model)を使った音声認識装置において、“枝刈り”(pruning)と呼ばれる手法を適用した音声認識を行う。より詳細には、モデル選択において、この枝刈りの結果を利用する。
図3は、第2の実施形態に係るパターン認識装置を示すブロック図である。なお、図1と図3において同一の符号を付した各部の動作は同一であるので、ここでは説明を省略する。
パターン認識部207は、出力結果を算出する機能はパターン認識部107と同じであるが、モデル選択部203に対しモデル選択候補を出力する。モデル選択部203は、パターン認識部207から出力されるモデル選択候補の中から、モデルを選択する。モデルを選択する動作は、モデル選択部103と同様である。
図4は第2の実施形態に係るパターン認識方法を説明するフローチャートである。図4のステップS201では、音声波形をフレーム毎に特徴ベクトルに変換する。ステップS202では、認識対象となる入力パターンが存在するか否かを判断する。認識対象である処理すべき音声波形がなければ音声認識処理を終了し、音声波形がある場合には、ステップS203に進む。
ステップS203では、特徴ベクトル補正部106が、補正ベクトル格納部105に格納されている補正ベクトルを読み出し、入力特徴ベクトルを補正する。
ステップS204では、パターン認識部207が、補正された特徴ベクトルを用いて音声認識を実行する。この際、時刻tにおいて、尤度が所定の閾値以上である認識結果候補のみを時刻(t+1)での計算対象とし、閾値以下のものは計算対象から除外する。これを、“枝狩り”という。
第1の実施例では、モデルの選択基準は、入力された特徴ベクトルとの“距離”の近いものを選択する。ステップS205では、枝刈りにより計算対象として残ったモデル候補の中から、計算に使用するモデルを選択する。
ステップS206及びステップS207の処理は、図2のステップS103及びステップS104の処理と同一であるので、ここでは説明を省略する。なお、ステップS207で算出された補正ベクトルは、次の時刻である(t+1)のステップS203において使用する。
なお、モデル選択方法の別法として、枝刈りで残った候補の中から、さらに入力特徴ベクトルに距離が近い上位X個のモデルだけを選択するような方法であってもよい。
ステップS208では、式(1)から式(7)により算出した補正ベクトルを補正ベクトル格納部105に格納するか否か判定する。格納する場合には、ステップS209に進み、格納しない場合には、ステップS201に戻って処理を繰り返す。判定はどのような基準で行ってもよく、例えば、算出された補正ベクトルを無条件に毎時刻格納してもよい。また、一定フレーム間隔毎、例えば3フレーム毎に1回格納してもよい。
ステップS209では、補正ベクトルが、補正ベクトル格納部105に格納される。なお、補正ベクトル格納部105に格納されている補正ベクトルの初期値は、どのような値であってもよく、例えば、全次元の値が0である零ベクトル、又は、入力信号中の無声区間の特徴ベクトルを平均することによって得られた雑音を表すベクトル等を用いるとよい。
(コンピュータ等による実現)
次に、第1の実施の形態及び第2の実施の形態の何れか一以上の実施の形態に係るパターン認識装置のハードウェア構成について図5を用いて説明する。図5は、実施の形態にかかるパターン認識装置のハードウェア構成を示す説明図である。
実施の形態にかかるパターン認識装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
実施の形態にかかるパターン認識装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
実施の形態にかかるパターン認識装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、実施の形態にかかるパターン認識装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかるパターン認識装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
本実施の形態にかかるパターン認識装置で実行されるプログラムは、上述した各部を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。
以上のように、本発明の実施の形態にかかるパターン認識装置は、バイアスが逐次変化する入力パターンの認識に有用であり、特に、音声認識に適している。
101 特徴ベクトル計算部
103 モデル選択部
104 補正ベクトル計算部
106 特徴ベクトル補正部
107 パターン認識部
207 パターン認識部

Claims (7)

  1. 入力データから特徴ベクトルを計算する特徴ベクトル計算部と、
    1以上の平均ベクトル及び1以上のパターンの分散を表す分散ベクトルで表される複数のモデルから、前記特徴ベクトルとの距離が所定の範囲内である選択モデルを選択するモデル選択部と、
    前記選択モデル毎の平均ベクトルと前記特徴ベクトルとの差ベクトルの成分毎の距離から、所定の係数を乗じた前記分散ベクトルの該成分と次元が同一の成分の値を減じた値に、該成分と次元が同一の前記差ベクトルの成分と同一の正負の符号を乗じた値が成分である修正方向ベクトルを、前記選択モデル毎に計算し、さらに、前記特徴ベクトルを補正するための補正ベクトルを前記修正方向ベクトルに基づいて計算する補正ベクトル計算部と、
    前記補正ベクトルを用いて前記特徴ベクトルを補正する特徴ベクトル補正部と、
    補正された前記特徴ベクトルとの距離が近いモデルを前記複数のモデルから選択し、選択したモデルを用いて補正された前記特徴ベクトルに対するパターン認識を行うパターン認識部と、
    を有することを特徴とするパターン認識装置。
  2. 前記複数のモデルは、それぞれ混合ガウス分布を出力確率密度に持つことを特徴とする請求項1に記載のパターン認識装置。
  3. 前記補正ベクトルは、前記修正方向ベクトルの平均、前記修正方向ベクトル毎に該修正方向ベクトルの尤度を乗じる荷重平均、又は、前記選択モデルのうち、最も尤度の高い選択モデルの修正方向ベクトルであることを特徴とする請求項1又は2に記載のパターン認識装置。
  4. 前記特徴ベクトル計算部は、前記入力パターンに対し、異なる時刻毎に前記特徴ベクトルを計算し、
    前記補正ベクトル計算部は、さらに、前記補正ベクトルを、時間方向に逐次平均することを特徴とする請求項1乃至3の何れか一項に記載のパターン認識装置。
  5. 前記補正ベクトル計算部は、
    前記選択モデル毎の平均ベクトルと前記特徴ベクトルとの差ベクトルの成分毎の距離から、所定の係数を乗じた前記分散ベクトルの該成分と次元が同一の成分の値を減じた値が負の値を有する場合に、該成分に対応する前記修正方向ベクトルの成分の値を所定の値とすることを特徴とする請求項1乃至4の何れか一項に記載のパターン認識装置。
  6. コンピュータを、
    入力データから特徴ベクトルを計算する特徴ベクトル計算部、
    1以上の平均ベクトル及び1以上のパターンの分散を表す分散ベクトルで表される複数のモデルから、前記特徴ベクトルとの距離が所定の範囲内である選択モデルを選択するモデル選択部、
    前記選択モデル毎の平均ベクトルと前記特徴ベクトルとの差ベクトルの成分毎の距離から、所定の係数を乗じた前記分散ベクトルの該成分と次元が同一の成分の値を減じた値に、該成分と次元が同一の前記差ベクトルの成分と同一の正負の符号を乗じた値が成分である修正方向ベクトルを、前記選択モデル毎に計算し、さらに、前記特徴ベクトルを補正するための補正ベクトルを前記修正方向ベクトルに基づいて計算する補正ベクトル計算部、
    前記補正ベクトルを用いて前記特徴ベクトルを補正する特徴ベクトル補正部、
    補正された前記特徴ベクトルとの距離が近いモデルを前記複数のモデルから選択し、選択したモデルを用いて補正された前記特徴ベクトルに対するパターン認識を行うパターン認識部、
    として機能させるためのプログラム。
  7. 特徴ベクトル計算部が、入力データから特徴ベクトルを計算する特徴ベクトル計算ステップと、
    モデル選択部が、1以上の平均ベクトル及び1以上のパターンの分散を表す分散ベクトルで表される複数のモデルから、前記特徴ベクトルとの距離が所定の範囲内である選択モデルを選択するモデル選択ステップと、
    補正ベクトル計算部が、前記選択モデル毎の平均ベクトルと前記特徴ベクトルとの差ベクトルの成分毎の距離から、所定の係数を乗じた前記分散ベクトルの該成分と次元が同一の成分の値を減じた値に、該成分と次元が同一の前記差ベクトルの成分と同一の正負の符号を乗じた値が成分である修正方向ベクトルを、前記選択モデル毎に計算し、さらに、前記特徴ベクトルを補正するための補正ベクトルを前記修正方向ベクトルに基づいて計算する補正ベクトル計算ステップと、
    特徴ベクトル補正部が、前記補正ベクトルを用いて前記特徴ベクトルを補正する特徴ベクトル補正ステップと、
    パターン認識部が、補正された前記特徴ベクトルとの距離が近いモデルを前記複数のモデルから選択し、選択したモデルを用いて補正された前記特徴ベクトルに対するパターン認識を行うパターン認識ステップと、
    を含むことを特徴とするパターン認識方法。
JP2009076965A 2009-03-26 2009-03-26 パターン認識装置、パターン認識方法、及び、プログラム Expired - Fee Related JP5150542B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009076965A JP5150542B2 (ja) 2009-03-26 2009-03-26 パターン認識装置、パターン認識方法、及び、プログラム
US12/561,448 US9147133B2 (en) 2009-03-26 2009-09-17 Pattern recognition device, pattern recognition method and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009076965A JP5150542B2 (ja) 2009-03-26 2009-03-26 パターン認識装置、パターン認識方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2010230868A JP2010230868A (ja) 2010-10-14
JP5150542B2 true JP5150542B2 (ja) 2013-02-20

Family

ID=42784333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009076965A Expired - Fee Related JP5150542B2 (ja) 2009-03-26 2009-03-26 パターン認識装置、パターン認識方法、及び、プログラム

Country Status (2)

Country Link
US (1) US9147133B2 (ja)
JP (1) JP5150542B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6000094B2 (ja) * 2012-12-03 2016-09-28 日本電信電話株式会社 話者適応化装置、話者適応化方法、プログラム
CN104143329B (zh) * 2013-08-19 2015-10-21 腾讯科技(深圳)有限公司 进行语音关键词检索的方法及装置
CN106951903B (zh) * 2016-10-31 2019-12-17 浙江大学 一种人群移动规律的可视化方法
US10762441B2 (en) * 2016-12-01 2020-09-01 Uber Technologies, Inc. Predicting user state using machine learning
US11026634B2 (en) 2017-04-05 2021-06-08 doc.ai incorporated Image-based system and method for predicting physiological parameters
US11256869B2 (en) * 2018-09-06 2022-02-22 Lg Electronics Inc. Word vector correction method
WO2020185973A1 (en) 2019-03-11 2020-09-17 doc.ai incorporated System and method with federated learning model for medical research applications
US11915802B2 (en) 2019-08-05 2024-02-27 Sharecare AI, Inc. Accelerated processing of genomic data and streamlined visualization of genomic insights
JP7222344B2 (ja) * 2019-12-06 2023-02-15 横河電機株式会社 判定装置、判定方法、判定プログラム、学習装置、学習方法、および、学習プログラム
US11177960B2 (en) 2020-04-21 2021-11-16 Sharecare AI, Inc. Systems and methods to verify identity of an authenticated user using a digital health passport

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160288A (ja) * 1993-12-06 1995-06-23 Matsushita Electric Ind Co Ltd 音声認識装置
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
US5806022A (en) * 1995-12-20 1998-09-08 At&T Corp. Method and system for performing speech recognition
JPH09258783A (ja) * 1996-03-26 1997-10-03 Mitsubishi Electric Corp 音声認識装置
JPH10149190A (ja) * 1996-11-19 1998-06-02 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置
GB2349259B (en) * 1999-04-23 2003-11-12 Canon Kk Speech processing apparatus and method
US7089182B2 (en) * 2000-04-18 2006-08-08 Matsushita Electric Industrial Co., Ltd. Method and apparatus for feature domain joint channel and additive noise compensation
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US6912497B2 (en) * 2001-03-28 2005-06-28 Texas Instruments Incorporated Calibration of speech data acquisition path
US20030187637A1 (en) * 2002-03-29 2003-10-02 At&T Automatic feature compensation based on decomposition of speech and noise
US20050256714A1 (en) * 2004-03-29 2005-11-17 Xiaodong Cui Sequential variance adaptation for reducing signal mismatching
US20070033027A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
US8180635B2 (en) * 2008-12-31 2012-05-15 Texas Instruments Incorporated Weighted sequential variance adaptation with prior knowledge for noise robust speech recognition

Also Published As

Publication number Publication date
JP2010230868A (ja) 2010-10-14
US20100246966A1 (en) 2010-09-30
US9147133B2 (en) 2015-09-29

Similar Documents

Publication Publication Date Title
JP5150542B2 (ja) パターン認識装置、パターン認識方法、及び、プログラム
US8566093B2 (en) Intersession variability compensation for automatic extraction of information from voice
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
US20120130716A1 (en) Speech recognition method for robot
JP5262713B2 (ja) ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム
JP2007279349A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
CN111788629B (zh) 学习装置、声音区间检测装置及声音区间检测方法
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
JP4960845B2 (ja) 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
JP6216809B2 (ja) パラメータ調整システム、パラメータ調整方法、プログラム
JP6420198B2 (ja) 閾値推定装置、音声合成装置、その方法及びプログラム
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP6121187B2 (ja) 音響モデル補正パラメータ推定装置、その方法及びプログラム
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP4981850B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP2011039434A (ja) 音声認識装置およびその特徴量正規化方法
JP5089651B2 (ja) 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体
JP6376486B2 (ja) 音響モデル生成装置、音響モデル生成方法、およびプログラム
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP5694976B2 (ja) 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム
JP2734828B2 (ja) 確率演算装置及び確率演算方法
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
JP5683446B2 (ja) スペクトル歪みパラメータ推定値補正装置とその方法とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121203

R151 Written notification of patent or utility model registration

Ref document number: 5150542

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees