JP2008076730A - 音声認識装置、プログラムおよび音声認識方法 - Google Patents

音声認識装置、プログラムおよび音声認識方法 Download PDF

Info

Publication number
JP2008076730A
JP2008076730A JP2006255549A JP2006255549A JP2008076730A JP 2008076730 A JP2008076730 A JP 2008076730A JP 2006255549 A JP2006255549 A JP 2006255549A JP 2006255549 A JP2006255549 A JP 2006255549A JP 2008076730 A JP2008076730 A JP 2008076730A
Authority
JP
Japan
Prior art keywords
speech recognition
recognition
acoustic model
state
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006255549A
Other languages
English (en)
Other versions
JP4427530B2 (ja
Inventor
Masami Akamine
政巳 赤嶺
Teunen Remco
トーネン レムコ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006255549A priority Critical patent/JP4427530B2/ja
Priority to CNA2007101469505A priority patent/CN101149922A/zh
Priority to US11/850,980 priority patent/US20080077404A1/en
Publication of JP2008076730A publication Critical patent/JP2008076730A/ja
Application granted granted Critical
Publication of JP4427530B2 publication Critical patent/JP4427530B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】高い認識性能を得ることができる音声認識装置を提供する。
【解決手段】入力信号から音声認識に用いる特徴量を分析・抽出する特徴抽出手段103と、抽出された特徴量がどのような音素で構成されているかを推定するための音響モデル101と、音響モデル101から尤度が最大になる認識単語を確定する演算を行う認識手段104と、音響モデル101の各状態に対応しており、入力信号や認識手段104における音声認識の状態に応じて特徴量や音響モデル101のパラメータを動的に自己最適化する最適化手段102と、を備える。これにより、音響特徴だけではないより高位の特徴量など特徴量の種類や数、音響モデル101のパラメータを入力信号や音声認識の状態に応じて最適化することにより高い認識性能を得ることができる。
【選択図】 図2

Description

本発明は、音声認識装置、プログラムおよび音声認識方法に関する。
従来の音声認識方法は、特徴量がどのような音素で構成されているかを推定するための確率統計モデルである音響モデルとして、隠れマルコフモデル(HMM:Hidden Markov Model)を一般的に用いている。このようなHMMの各状態の特徴量は、ガウス混合モデル(GMM: Gaussian Mixture Model)で表現される。一般的に、HMMは音素に対応し、HMMの各状態のGMMは入力された音声信号から抽出された特徴量を統計的にモデル化している。従来のHMMに基づく音声認識方法では、全てのGMMは同じ特徴量を用いており、また、特徴量は音声認識の状態に関わらず常に同じである。
ところが、上述したようなHMMの各状態の特徴量をGMMで表現した従来の音響モデルは、音声認識の状態に応じてモデルを変化させることができず、十分な性能を達成することができなかった。より詳細には、音響モデルのパラメータ(コンテキスト依存構造、モデル数、ガウス分布数、モデル及び状態の共有構造など)は、音響モデル作成時に予め設計され、音声認識実行時に音声認識の状態に応じて変更することはできなかった。
例えば、音声認識を自動車などの雑音環境下で用いる場合、雑音のレベルは常に変化しているため、各々の雑音レベルに応じて音響モデルを動的に変化させることができれば、高い認識性能を得ることができると考えられる。ところが、従来の音響モデルでは予め学習したモデルを静的に用いるため、雑音レベルの変動に対応できず性能が劣化してしまう。
また、従来の音響モデルでは、認識に用いる特徴量は認識の状況や状態に関わらず常に同じである。そのため、例えば同じ音素でも単語中の位置によって識別に有効な特徴量が異なるような場合でも、特徴量を異ならせることができないため、認識性能が劣化してしまう。
さらに、雑音環境下での音声認識で有効な特徴量や音響モデルのパラメータは、摩擦音と母音では異なることが容易に推察されるが、従来の音響モデルでは動的に特徴量や音響モデルのパラメータを変化させることができず、十分な認識性能を達成することができない。
一方、音響モデルおよび言語モデルから認識単語を確定する演算を行うデコード処理は、1パス、または複数パス(一般には2パス)で実行される。すなわち、2パス構成の場合は、2パス目で1パス目と異なる音響モデルを用いることができ、話者の性別や雑音レベルに応じてより適切な音響モデルを選択することが可能である(非特許文献1,2参照)。
Schwartz R., Austin S., Kubala F., Makhoul J., Nguyen L., Placeway P., Zavaglios G., "New Uses for the N-best Sentence Hypotheses within the Byblos Speech Recognition System", Proc. ICASSP 92, pp. 1-4, San Francisco, USA, 1992. Rayner M., Carter D., Digalakis V., and Price P., "Combining Knowledge Sources to Reorder N-best Speech Hypothesis Lists, " In Proceedings ARPA Human Language Technology Workshop, pages 212--217. ARPA, March 1994.
上述したように、複数パス構成の音声認識方法である2パス法は、音響モデルのパラメータを変化させることができないという問題を2パス目で異なる音響モデルを用いることである程度緩和することができる。
しかしながら、2パス法によれば、特徴量を音声認識の状態に応じて最適化することはできないし、音響モデルの選択は発声単位となることから音響モデルのパラメータはフレーム単位で最適化することはできないなど、制約が大きく、十分な認識性能を達成することはできない。
本発明は、上記に鑑みてなされたものであって、高い認識性能を得ることができる音声認識装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の音声認識装置は、入力信号から音声認識に用いる特徴量を分析・抽出する特徴抽出手段と、前記特徴抽出手段により抽出された前記特徴量がどのような音素で構成されているかを推定するための確率統計モデルである音響モデルと、前記音響モデルから尤度が最大になる認識単語を確定する演算を行う認識手段と、前記音響モデルの各状態に対応しており、前記入力信号や前記認識手段における音声認識の状態に応じて前記特徴量や当該音響モデルのパラメータを動的に自己最適化する最適化手段と、を備える。
本発明によれば、入力信号や音声認識の状態に応じて特徴量や音響モデルのパラメータを動的に自己最適化する音響モデルを構築することができるため、音響特徴だけではないより高位の特徴量など特徴量の種類や数、共有化構造や共有の数、状態数、コンテキスト依存モデルの数などの音響モデルのパラメータを入力音声の環境や音韻、音声認識の状態に応じて最適化することにより高い認識性能を得ることができる、という効果を奏する。
以下に添付図面を参照して、この発明にかかる音声認識装置の最良な実施の形態を詳細に説明する。
本発明の実施の一形態を図1ないし図8に基づいて説明する。図1は、本発明の実施の一形態にかかる音声認識装置1のハードウェア構成を示すブロック図である。本実施の形態の音声認識装置1は、概略的には、自己最適化音響モデル100を用いて音声認識処理を行なうものである。
図1に示すように、音声認識装置1は、例えばパーソナルコンピュータであり、コンピュータの主要部であって各部を集中的に制御するCPU(Central Processing Unit)2を備えている。このCPU2には、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)3と、各種データを書換え可能に記憶するRAM(Random Access Memory)4とがバス5で接続されている。
さらにバス5には、各種のプログラム等を格納するHDD(Hard Disk Drive)6と、配布されたプログラムであるコンピュータソフトウェアを読み取るための機構としてCD(Compact Disc)−ROM7を読み取るCD−ROMドライブ8と、音声認識装置1とネットワーク9との通信を司る通信制御装置10と、各種操作指示を行うキーボードやマウスなどの入力装置11と、各種情報を表示するCRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)などの表示装置12とが、図示しないI/Oを介して接続されている。
RAM4は、各種データを書換え可能に記憶する性質を有していることから、CPU2の作業エリアとして機能してバッファ等の役割を果たす。
図1に示すCD−ROM7は、この発明の記憶媒体を実施するものであり、OS(Operating System)や各種のプログラムが記憶されている。CPU2は、CD−ROM7に記憶されているプログラムをCD−ROMドライブ8で読み取り、HDD6にインストールする。
なお、記憶媒体としては、CD−ROM7のみならず、DVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク等、半導体メモリ等の各種方式のメディアを用いることができる。また、通信制御装置10を介してインターネットなどのネットワーク9からプログラムをダウンロードし、HDD6にインストールするようにしてもよい。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体である。なお、プログラムは、所定のOS(Operating System)上で動作するものであってもよいし、その場合に後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
このシステム全体の動作を制御するCPU2は、このシステムの主記憶として使用されるHDD6上にロードされたプログラムに基づいて各種処理を実行する。
次に、音声認識装置1のHDD6にインストールされている各種のプログラムがCPU2に実行させる機能のうち、本実施の形態の音声認識装置1が備える特長的な機能について説明する。
図2は、音声認識装置1の機能構成を示すブロック図である。図2に示すように、音声認識装置1は、音声認識プログラムに従うことにより、自己最適化音響モデル100と、特徴抽出手段である特徴量抽出部103と、認識手段であるデコーダ104と、言語モデル105とを備えている。
特徴量抽出部103は、入力信号から音声認識に用いる特徴量を分析・抽出し、自己最適化音響モデル100に出力する。特徴量としては、種々の音響特徴量の他に性別、話者、音素コンテキストなどのより高位の種々の特徴量を用いることができる。例えば、従来の音声認識で広く用いられているMFCC(Mel Frequency Cepstrum Coefficient)またはPLP(Perceptual Linear Predictive)のスタティック及びΔ(一次微分),ΔΔ(二次微分)パラメータとエネルギーパラメータを合わせた39次元の音響特徴量、性別のクラス、入力信号のSNR(Signal to Noise Ratio:信号対雑音比)クラスの高位特徴量などを、特徴量として用いることができる。
自己最適化音響モデル100は、一般的な音響モデルである隠れマルコフモデル(HMM: Hidden Markov Model)101と、分岐の繰り返しを階層化して樹形図に描き表した決定木102との組で構成されている。HMM101は、従来の音声認識で用いられるHMMと同様であるが、従来のHMMの各状態の特徴量であるガウス混合モデル(GMM: Gaussian Mixture Model)が1または複数の決定木102で置き換えられている。この決定木102は、最適化手段を構成するものである。このような自己最適化音響モデル100は、特徴量抽出部103から入力された音声特徴量に対するHMM101の当該状態における尤度202を計算するために用いられる。尤度202とは、あるモデルがどれだけ事象を説明しているかの「尤もらしさ」のことであり、そのモデルによりその事象が起こる確率で表されたものである。
言語モデル105は、各単語がどのような文脈で出現するかを推定するための確率統計モデルである。この言語モデル105は、従来のHMM方式の音声認識処理で用いられるモデルと同様である。
デコーダ104は、自己最適化音響モデル100および言語モデル105から尤度202(図4参照)が最大になる認識単語を確定する演算を行う。より詳細には、デコーダ104は、自己最適化音響モデル100から尤度202を受け取ると共に、自己最適化音響モデル100に対してHMM101の状態の音素コンテキストなどの認識対象フレーム及びデコーダ104における音声認識の状態の情報を与える。音素コンテキストは、単語を構成する一連の音素のつながりの一部を取り出したものである。
次いで、自己最適化音響モデル100を構成するHMM101および決定木102について詳述する。
HMM101は、特徴量抽出部103が出力する特徴量時系列データと各音素ラベルとを対応付けて登録されている。図3は、HMM101のデータ構造の一例を示す説明図である。図3に示すように、HMM101は、ノードと有向リンクからなる有限オートマトンで特徴量時系列データを表現する。ノードは、照合の状態を表現しており、例えば、音素iに対応する各ノードの値i1,i2,i3は、それぞれ異なる状態であることを表している。また、有向リンクには状態間の遷移確率(図示せず)が対応付けられて記憶されている。
図4は、HMM101と決定木102の関係を示す説明図である。図4に示すように、各HMM101は、複数の状態201を持ち、各状態201に対して1つの決定木102が対応している。
次に、決定木102の動作について図5を用いて詳しく説明する。図5に示すように、決定木102は、複数のノード300,301と複数の葉(リーフ)302から構成されている。なお、ノード300は、木構造で最上位のノードであるルートノードである。各々のノード300,301は、YesとNoの2つの子供をもつ。この子供は、ノード301またはリーフ302となるものである。各ノード300,301には特徴量に関する質問が予め設定されており、質問に対する答えに応じてYesまたはNoのノードまたはリーフに分岐する。ただし、リーフ302は質問をもたず、分岐する子供もない。その代わり、入力されたデータの与えられたモデルに対する尤度202(図4参照)を出力する。尤度202は、後述する学習プロセスにより予め計算されてリーフ302に格納されている。
図6は、決定木102の具体例を示す説明図である。図6に示す決定木102では、本実施の形態の音響モデルが入力音声の性別やSNR、音声認識の状態、コンテキストに応じて異なる尤度202を出力できることを示している。図6に示す例では、決定木102はHMM101の状態1(201A)と状態2(201B)の2つの状態に関係付けられており、これら2つの状態201A,201Bに対応する学習データを用いて後述の学習プロセスにより学習される。図6中、特徴量C1とC5はPLPケプストラムの1番目と5番目の係数である。図6に示すように、ルートノード300、ノード301A〜ノード301Bは状態1(201A)と状態2(201B)に共通に適用され、2つの状態で共有される。しかしながら、ノード301Cで状態に関する質問があり、ノード301C以下のノード301D〜301Gは状態依存である。したがって、ある特徴量は状態1(201A)と状態2(201B)で共通に用いられ、ある特徴量は状態に依存して異なるものが用いられることになる。また、状態によって用いられる特徴量の数も異なる。なお、図6の例においては、状態2(201B)の方が状態1(201A)より多くの特徴量を用いており、SNRが5dB未満か否か、すなわち周囲雑音のレベルが高いか否かに応じて、また、当該音素の直前の音素が“/ah/”か否かに応じて、異なる尤度202を出力する構成となっている。さらに、ノード301Bでは入力音声の性別が女性か否かを質問しており、性別によって異なる尤度202が出力できるようになっている。
決定木102のノードの数やリーフの数、各ノードで用いられる特徴量や質問、リーフで出力する尤度などのパラメータは後述の学習プロセスにより学習データから学習され、学習データに対して尤度または認識率が最大となるよう最適化される。また、学習データが十分に大きく、音声認識が実際に用いられる環境での音声信号を代表しているとみなせる場合、決定木102は実際の環境でも最適であると考えることができる。
次に、自己最適化音響モデル100において、入力された特徴量に対するモデルの尤度202がHMM101の状態毎に如何にして計算されるかについて、図7のフローチャートを参照しつつ説明する。
まず、ステップS1において、尤度を計算しようとしている対象音素モデルのHMM101の特定の状態に対応する決定木102を選択する。
次に、ルートノード300を質問が可能となるアクティブノードに設定すると共に、他の全てのノード301及びリーフ302を非アクティブノードに設定し(ステップS2)、特徴量を特徴量抽出部103から取り出す(ステップS3)。
続くステップS4においては、ステップS3で取り出された特徴量をアクティブノードに設定されたルートノード300に入力し、予め設定された質問に対する答えを計算する。そして、ステップS5ではステップS4で計算された質問に対する答えを評価する。ステップS4で計算された質問に対する答えが“Yes”の場合は(ステップS5のYes)、“Yes”の子ノードを次のアクティブノードに設定し(ステップS6)、答えが“No”の場合は(ステップS5のNo)、“No”の子ノードをアクティブノードに設定する(ステップS7)。
次に、アクティブノードがリーフ302か否かを評価する(ステップS8)。アクティブノードがリーフ302である場合には(ステップS8のYes)、これ以上の分岐はないので、リーフ302に格納されている尤度202を出力する(ステップS9)。一方、アクティブノードがリーフ302でない場合には(ステップS8のNo)、ステップS3に戻って、次のアクティブノードの評価を行う。
以上説明したように、決定木102を用いた音響モデルは、特徴量と特徴量に対する質問、尤度202によって記述され、これらは全て入力に依存する。決定木102は、音響的特徴量やより高位の特徴量に関して対応する質問と尤度202を入力信号や認識の状態に依存して効果的に最適化することができ、最適化のステップは、以下で説明する学習の過程によって達成される。
図8は、決定木102の学習プロセスを示すフローチャートである。決定木102の学習は、基本的に、学習しようとしている決定木102に対応しているHMM101のある状態に入力サンプルが属しているか否かを識別するために必要な質問と尤度202とを、予め対応する状態に属しているか否かがクラス分けされた学習サンプルを用いて決定する過程である。学習サンプルは、予め、一般的に用いられている音声認識法を用いて、入力サンプルがどのHMM101のどの状態に対応するかフォース・アライメントし、状態に属するサンプルを正解クラス、属さないサンプルをその他クラスとラベル化しておく。なお、HMM101は、従来と同様の方法で学習することができる。
まず、ステップS11において、学習する決定木102に対応する当該状態の学習サンプルを入力するとともに、1つのリーフからなる決定木102を作成する。決定木102は1つのリーフ302から始まり、リーフ302の分岐によりノードと子ノードを作成、さらにノードの分岐で子ノードを繰り返し成長させることで作成される。
続くステップS12においては、分岐の対象とするリーフを選択する。なお、選択されるリーフ302は、学習サンプルの数がある程度以上であること(例えば、100以上)と、学習サンプルが特定のクラスだけから構成されないという条件を満たす必要がある。
ステップS13においては、上述した条件を対象のリーフが満足するか否かを判定する。判定結果が“No”の場合は(ステップS13のNo)、ステップS18に進む。一方、判定結果が“Yes”の場合は(ステップS13のYes)、ステップS14に進み、対象のリーフ302に入力される全ての特徴量(学習サンプル)に対して可能な全ての質問を実施し、その結果として得られる全ての分岐(子ノードへの分岐)を評価する。ステップS14における評価は、分岐による尤度の増加率に基づいて行う。ここで、学習サンプルである特徴量に対する質問は、音響特徴量のように大小関係があるものと、性別や雑音の種類のように大小関係が無くクラスで表現されるもののように、特徴量に応じて異なる。大小関係がある特徴量に対しては、ある閾値より大か否かという質問であり、大小関係がない特徴量に対しては、あるクラスに属するか否かという質問である。
続くステップS15では、評価を最大化する最適な質問を選択する。言い換えると、全ての学習サンプルに対して可能な全ての質問を評価し、尤度の増加率を最大化する質問を選択する。
次に、ステップS15で選択された質問に従って、学習サンプルを“Yes”の子リーフと“No”の子リーフに分岐し、各々のリーフに属する学習サンプルからリーフ毎に尤度202を計算する(ステップS16)。あるリーフLにおける尤度は、次式に基づいて計算され、リーフ毎に格納される。
Likelihood stored at leaf L = P(true class | L) / P(true class)
ここで、P(true class | L)は、当該リーフにおける正解クラスの事後確率、P(true class)は正解クラスの事前確率である。
決定木102の学習はステップS12に戻って、新たなリーフに対してステップS12〜ステップS16を繰り返し、決定木102を成長させる。そして、ステップS13の判定で成長させる条件を満たすリーフがなくなった時(ステップS13のNo)、ステップS17〜18に進み、枝刈りを行う。枝刈りは木の成長とは逆に最下位のリーフからボトムアップに上に向かってノードを削除しながら行われる。より詳細には、2つの子リーフをもつ全てのノードについて、そのノードの分割を削除してリーフにした場合に尤度がどの程度減少するかを評価し、尤度の減少が最小となるノードを見つけ、そのノードを枝刈りする(ステップS18)。このような手順を予め設定したノード数になるまで繰り返し行い(ステップS17のNo)、決定木102の1回目の学習を終了する。
上述した決定木102の学習が一旦終了すると、学習に用いる音声サンプルを学習された音響モデルを用いてフォース・アライメントし、学習サンプルを更新する。更新された学習サンプルに対して、決定木102のリーフの尤度を再学習し、更新する。このような処理を予め設定した回数、または、全体の尤度の増加率がある閾値以下になるまで繰り返し、学習を完了する。
このように本実施の形態によれば、入力信号や音声認識の状態に応じて特徴量や音響モデルのパラメータを動的に自己最適化する音響モデルを構築することができるため、音響特徴だけではないより高位の特徴量など特徴量の種類や数、共有化構造や共有の数、状態数、コンテキスト依存モデルの数などの音響モデルのパラメータを入力音声の環境や音韻、音声認識の状態に応じて最適化することにより高い認識性能を得ることができる。
本発明の実施の一形態にかかる音声認識装置のハードウェア構成を示すブロック図である。 音声認識装置の機能構成を示すブロック図である。 HMMのデータ構造の一例を示す説明図である。 HMMと決定木の関係を示す説明図である。 決定木の構成を示す説明図である。 決定木の具体例を示す説明図である。 自己最適化音響モデルにおける特徴量に対するモデルの尤度算出処理の流れを示すフローチャートである。 決定木の学習プロセスを示すフローチャートである。
符号の説明
1 音声認識装置
101 音響モデル、HMM
102 最適化手段、決定木
103 特徴抽出手段
105 認識手段

Claims (6)

  1. 入力信号から音声認識に用いる特徴量を分析・抽出する特徴抽出手段と、
    前記特徴抽出手段により抽出された前記特徴量がどのような音素で構成されているかを推定するための確率統計モデルである音響モデルと、
    前記音響モデルから尤度が最大になる認識単語を確定する演算を行う認識手段と、
    前記音響モデルの各状態に対応しており、前記入力信号や前記認識手段における音声認識の状態に応じて前記特徴量や当該音響モデルのパラメータを動的に自己最適化する最適化手段と、
    を備えることを特徴とする音声認識装置。
  2. 前記最適化手段は、分岐の繰り返しを階層化した決定木であり、前記決定木の末端に位置する複数のリーフは前記特徴量の前記音響モデルに対する前記尤度をそれぞれ格納していて、所望の前記リーフを選択することにより前記入力信号や前記認識手段における音声認識の状態に応じた前記尤度を選択することが可能になっている、
    ことを特徴とする請求項1記載の音声認識装置。
  3. 前記決定木は、学習対象である前記決定木に対応している前記音響モデルの所定の状態に入力サンプルが属しているか否かを識別するために必要な質問と尤度とを、予め対応する状態に属しているか否かがクラス分けされた学習サンプルを用いて決定する学習プロセスにより構築される、
    ことを特徴とする請求項2記載の音声認識装置。
  4. 前記音響モデルは、隠れマルコフモデル(HMM:Hidden Markov Model)であって、各状態における前記特徴量の尤度が前記決定木を用いて計算される、
    ことを特徴とする請求項1ないし3のいずれか一記載の音声認識装置。
  5. 入力信号から音声認識に用いる特徴量を分析・抽出する特徴抽出機能と、
    前記特徴抽出機能により抽出された前記特徴量がどのような音素で構成されているかを推定するための確率統計モデルである音響モデルから尤度が最大になる認識単語を確定する演算を行う認識機能と、
    前記入力信号や前記認識機能における音声認識の状態に応じて前記特徴量や前記音響モデルのパラメータを動的に自己最適化する最適化機能と、
    をコンピュータに実行させることを特徴とするプログラム。
  6. 入力信号から音声認識に用いる特徴量を分析・抽出する特徴抽出工程と、
    前記特徴抽出工程により抽出された前記特徴量がどのような音素で構成されているかを推定するための確率統計モデルである音響モデルから尤度が最大になる認識単語を確定する演算を行う認識工程と、
    前記入力信号や前記認識工程における音声認識の状態に応じて前記特徴量や前記音響モデルのパラメータを動的に自己最適化する最適化工程と、
    を含むことを特徴とする音声認識方法。
JP2006255549A 2006-09-21 2006-09-21 音声認識装置、プログラムおよび音声認識方法 Expired - Fee Related JP4427530B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006255549A JP4427530B2 (ja) 2006-09-21 2006-09-21 音声認識装置、プログラムおよび音声認識方法
CNA2007101469505A CN101149922A (zh) 2006-09-21 2007-09-03 语音识别装置和语音识别方法
US11/850,980 US20080077404A1 (en) 2006-09-21 2007-09-06 Speech recognition device, speech recognition method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006255549A JP4427530B2 (ja) 2006-09-21 2006-09-21 音声認識装置、プログラムおよび音声認識方法

Publications (2)

Publication Number Publication Date
JP2008076730A true JP2008076730A (ja) 2008-04-03
JP4427530B2 JP4427530B2 (ja) 2010-03-10

Family

ID=39226160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006255549A Expired - Fee Related JP4427530B2 (ja) 2006-09-21 2006-09-21 音声認識装置、プログラムおよび音声認識方法

Country Status (3)

Country Link
US (1) US20080077404A1 (ja)
JP (1) JP4427530B2 (ja)
CN (1) CN101149922A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645139B2 (en) 2009-06-03 2014-02-04 Samsung Electronics Co., Ltd. Apparatus and method of extending pronunciation dictionary used for speech recognition
US8874440B2 (en) 2009-04-17 2014-10-28 Samsung Electronics Co., Ltd. Apparatus and method for detecting speech

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US20100088097A1 (en) * 2008-10-03 2010-04-08 Nokia Corporation User friendly speaker adaptation for speech recognition
JP2010152081A (ja) * 2008-12-25 2010-07-08 Toshiba Corp 話者適応装置及びそのプログラム
JP4757936B2 (ja) * 2009-07-23 2011-08-24 Kddi株式会社 パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
US20130246133A1 (en) * 2009-10-26 2013-09-19 Ron Dembo Systems and methods for incentives
US8700405B2 (en) * 2010-02-16 2014-04-15 Honeywell International Inc Audio system and method for coordinating tasks
US20120109649A1 (en) * 2010-11-01 2012-05-03 General Motors Llc Speech dialect classification for automatic speech recognition
CN102820031B (zh) * 2012-08-06 2014-06-11 西北工业大学 一种利用切割—分层构筑法的语音识别方法
KR102073102B1 (ko) * 2013-03-21 2020-02-04 삼성전자 주식회사 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템
US9466292B1 (en) * 2013-05-03 2016-10-11 Google Inc. Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition
CN104239456B (zh) * 2014-09-02 2019-05-03 百度在线网络技术(北京)有限公司 用户特征数据的提取方法和装置
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
CN105070288B (zh) * 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
CN105185385B (zh) * 2015-08-11 2019-11-15 东莞市凡豆信息科技有限公司 基于性别预判与多频段参数映射的语音基音频率估计方法
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
JP6759545B2 (ja) * 2015-09-15 2020-09-23 ヤマハ株式会社 評価装置およびプログラム
CN106100846B (zh) * 2016-06-02 2019-05-03 百度在线网络技术(北京)有限公司 声纹注册、认证方法及装置
KR20180087942A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 음성 인식 방법 및 장치
CN108198552B (zh) * 2018-01-18 2021-02-02 深圳市大疆创新科技有限公司 一种语音控制方法及视频眼镜
CN110890085B (zh) * 2018-09-10 2023-09-12 阿里巴巴集团控股有限公司 声音识别方法和系统
US11670292B2 (en) * 2019-03-29 2023-06-06 Sony Corporation Electronic device, method and computer program
CN114627863B (zh) * 2019-09-24 2024-03-22 腾讯科技(深圳)有限公司 一种基于人工智能的语音识别方法和装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852173A (en) * 1987-10-29 1989-07-25 International Business Machines Corporation Design and construction of a binary-tree system for language modelling
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5794197A (en) * 1994-01-21 1998-08-11 Micrsoft Corporation Senone tree representation and evaluation
US5680509A (en) * 1994-09-27 1997-10-21 International Business Machines Corporation Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US6058205A (en) * 1997-01-09 2000-05-02 International Business Machines Corporation System and method for partitioning the feature space of a classifier in a pattern classification system
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
FI114247B (fi) * 1997-04-11 2004-09-15 Nokia Corp Menetelmä ja laite puheen tunnistamiseksi
US6151574A (en) * 1997-12-05 2000-11-21 Lucent Technologies Inc. Technique for adaptation of hidden markov models for speech recognition
US5953701A (en) * 1998-01-22 1999-09-14 International Business Machines Corporation Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence
US6317712B1 (en) * 1998-02-03 2001-11-13 Texas Instruments Incorporated Method of phonetic modeling using acoustic decision tree
US6684185B1 (en) * 1998-09-04 2004-01-27 Matsushita Electric Industrial Co., Ltd. Small footprint language and vocabulary independent word recognizer using registration by word spelling
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6711541B1 (en) * 1999-09-07 2004-03-23 Matsushita Electric Industrial Co., Ltd. Technique for developing discriminative sound units for speech recognition and allophone modeling
US7035802B1 (en) * 2000-07-31 2006-04-25 Matsushita Electric Industrial Co., Ltd. Recognition system using lexical trees
ATE297588T1 (de) * 2000-11-14 2005-06-15 Ibm Anpassung des phonetischen kontextes zur verbesserung der spracherkennung
US7024359B2 (en) * 2001-01-31 2006-04-04 Qualcomm Incorporated Distributed voice recognition system using acoustic feature vector modification
JP4215418B2 (ja) * 2001-08-24 2009-01-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US20030097263A1 (en) * 2001-11-16 2003-05-22 Lee Hang Shun Decision tree based speech recognition
US7289958B2 (en) * 2003-10-07 2007-10-30 Texas Instruments Incorporated Automatic language independent triphone training using a phonetic table
US7467086B2 (en) * 2004-12-16 2008-12-16 Sony Corporation Methodology for generating enhanced demiphone acoustic models for speech recognition
US20060149544A1 (en) * 2005-01-05 2006-07-06 At&T Corp. Error prediction in spoken dialog systems
US20070129943A1 (en) * 2005-12-06 2007-06-07 Microsoft Corporation Speech recognition using adaptation and prior knowledge
US20070233481A1 (en) * 2006-04-03 2007-10-04 Texas Instruments Inc. System and method for developing high accuracy acoustic models based on an implicit phone-set determination-based state-tying technique
US7725316B2 (en) * 2006-07-05 2010-05-25 General Motors Llc Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874440B2 (en) 2009-04-17 2014-10-28 Samsung Electronics Co., Ltd. Apparatus and method for detecting speech
US8645139B2 (en) 2009-06-03 2014-02-04 Samsung Electronics Co., Ltd. Apparatus and method of extending pronunciation dictionary used for speech recognition

Also Published As

Publication number Publication date
JP4427530B2 (ja) 2010-03-10
CN101149922A (zh) 2008-03-26
US20080077404A1 (en) 2008-03-27

Similar Documents

Publication Publication Date Title
JP4427530B2 (ja) 音声認識装置、プログラムおよび音声認識方法
US20200320977A1 (en) Speech recognition method and apparatus
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
US20100169094A1 (en) Speaker adaptation apparatus and program thereof
JP4455610B2 (ja) 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
WO2016181951A1 (ja) リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
JP2015102806A (ja) 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
JP2006113570A (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
US7877256B2 (en) Time synchronous decoding for long-span hidden trajectory model
WO2018192186A1 (zh) 语音识别方法及装置
KR20180107940A (ko) 음성 인식을 위한 학습 방법 및 장치
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Bernard et al. Shennong: A Python toolbox for audio speech features extraction
JP4571922B2 (ja) 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体
US8438029B1 (en) Confidence tying for unsupervised synthetic speech adaptation
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2011048163A (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP7176629B2 (ja) 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム
JP2009300716A (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP4801107B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP4801108B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091117

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091214

R151 Written notification of patent or utility model registration

Ref document number: 4427530

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131218

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees