JP2007011027A - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置 Download PDF

Info

Publication number
JP2007011027A
JP2007011027A JP2005192199A JP2005192199A JP2007011027A JP 2007011027 A JP2007011027 A JP 2007011027A JP 2005192199 A JP2005192199 A JP 2005192199A JP 2005192199 A JP2005192199 A JP 2005192199A JP 2007011027 A JP2007011027 A JP 2007011027A
Authority
JP
Japan
Prior art keywords
likelihood
subword
hypothesis
speech recognition
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005192199A
Other languages
English (en)
Other versions
JP2007011027A5 (ja
JP4732030B2 (ja
Inventor
Hideo Kuboyama
英生 久保山
Hiroki Yamamoto
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005192199A priority Critical patent/JP4732030B2/ja
Priority to US11/475,712 priority patent/US8099280B2/en
Publication of JP2007011027A publication Critical patent/JP2007011027A/ja
Publication of JP2007011027A5 publication Critical patent/JP2007011027A5/ja
Application granted granted Critical
Publication of JP4732030B2 publication Critical patent/JP4732030B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 トライフォンなどの隣接環境に依存するサブワードのモデルを用いて音声認識を行う際に、複数の隣接環境に応じて仮説が展開されることを抑制し、音声認識の処理を高速化する。
【解決手段】 音声認識において仮説の累積尤度を計算する際に参照する音響モデルの尤度の計算において、隣接するサブワードに依存して決まる一つ以上のサブワードモデルを各仮説で参照し、認識対象の音声と前記各サブワードモデルの音響モデルの尤度を計算し、計算された尤度の最大値を前記仮説に対応する音響モデルの尤度とする。
【選択図】 図2

Description

本発明は、音声を認識する音声認識方法に関する。
音声認識を行う際に、音素やトライフォンなど、単語より小さいサブワードを用いてモデル化する手法がある。特に、トライフォンのような隣接環境に依存してモデルを分けることで、モデルを詳細に分けるような方法が広く用いられている。例えば、トライフォン「SIL−a+k」は、「a」という音の中でも直前の音が「SIL(無音)」、直後の音が「k」であることを表し、音素「a」でモデル化するよりも詳細にモデル化できるため、高い認識率を得ることができる。
しかしながら、トライフォンのような隣接環境に依存するモデルを用いる場合、隣接環境が複数表れる場合(例えば連続単語認識における単語境界)では、その隣接環境の数に応じて仮説を展開しなければならない。図5は、「白」、「黒」、「栗」、「赤」の繰り返し発声を認識することができる認識文法におけるサブワード系列及び仮説における尤度計算を表す図である。同図(a)において、501はサブワードであり、同図では中心音素と前後の隣接環境の音素に応じて決まるトライフォンを用いている。サブワード501は、一般的に同図(b)に示すような1つ以上の状態を持つHMMでモデル化される。502はサブワード501の一状態に対応する仮説であり、尤度計算では各仮説において尤度S(a,b)を求める。503は、仮説を結ぶリンクである。尤度計算には各仮説のHMM状態における音声入力信号の出力確率や状態間をリンクに従って遷移する遷移確率などによって計算する。ここで上記のような文法では、各単語の単語境界において、サブワード501が複数の隣接環境に依存するため、隣接環境の数に応じて仮説を用意しなければならない。すなわち、単語先頭のサブワード(図5において、「*−sh+i」、「*−k+u」、「*−k+u」、「*−a+k」)の前環境には、「SIL」および単語末尾音素の「o」、「i」、「a」を、単語終端のサブワード(同図において、「r−o+*」、「r−o+*」、「r−i+*」、「k−a+*」)の後環境には、「SIL」および単語先頭音素の「sh」、「k」、「a」を考慮してそれぞれサブワード及び仮説を展開する必要がある。これを記述すると図6のように単語境界でサブワード及び仮説が拡がり、このように膨大に増えた仮説に対する尤度計算時間がかかってしまう。
この問題に対して、特許文献1では、単語内の隣接環境にのみ依存させることにより、単語境界の仮説展開を抑制している。図7(a)に、単語境界において音素モデルを利用したサブワード系列を、図7(b)に、単語境界において、片方の隣接環境のみ依存するモデルを利用したサブワード系列を示す。このようなモデルを単語境界に利用することで、図6のような仮説展開を抑制することは可能であるが、一方で単語境界においてはその他の場所に比べて詳細ではないモデルを使うことになるので、認識率の低下を招く。そこで特許文献2では単語境界を単語間単語として単語と分けて仮説を生成して接続した方法が提案されているが、単語間単語において仮説が拡がることには変わりなく、また単語間単語が多くの単語で共有できなければ効果は薄い。また特許文献3では隣接環境依存モデルの内部状態を共有化して木構造で表現した方法が提案されているが、状態でやはり隣接サブワードに依存して拡がりを持ち、十分に抑制するに至ってはいない。
特開平05−224692号公報 特開平11−045097号公報 特開2003−208195号公報
本発明の目的は、トライフォンなどの隣接環境に依存するサブワードのモデルを用いて音声認識を行う際に、複数の隣接環境に応じて仮説が展開されることを抑制し、音声認識の処理を高速化することである。
上記課題を解決するために、本発明の音声認識方法は、仮説の累積尤度を計算する際に参照する音響モデルの尤度の計算において、隣接するサブワードに依存して決まる一つ以上のサブワードモデルを各仮説で参照する参照工程と、認識対象の音声と前記各サブワードモデルを基に、前記各サブワードモデルの音響モデルの尤度を計算し、計算された尤度の最大値を前記仮説に対応する音響モデルの尤度とする尤度計算工程とを有することを特徴とする。
本発明によれば、隣接環境に依存するサブワードのモデルを用いて音声認識を行う際に、複数の隣接環境に対して仮説を展開せずに各仮説で複数の隣接環境に対応するサブワードの中で最大尤度を求めることにより、仮説数の増大を抑制し、音声認識の処理を高速化することができる。
以下、図面を参照しながら本発明の好適な実施例について説明していく。
図1に、本実施例における音声認識装置の機能構成を表すブロック図を示す。同図において、101は、入力音声信号を分析して音声特徴量を得る音響処理部である。102は、サブワードの音響的特徴をHMMなどによってモデル化したサブワードモデルを格納する音響モデルである。103は、認識可能な語彙、および文法あるいは接続確率を有する言語モデルである。104は、音響処理部101が求めた音声特徴量を入力とし、音響モデル、言語モデルを基に、仮説を生成して尤度計算を行う尤度計算部である。105は、尤度計算部104が行う尤度計算の際に、各仮説において隣接するサブワードに依存して決まる一つ以上のサブワードモデルを参照するサブワードモデル参照部である。
図2に、本発明の尤度計算部104における尤度計算の様子を示す。同図において、(a)は、隣接環境に依存するサブワードとしてトライフォンを用い、「白」、「黒」、「栗」、「赤」の繰り返し発声を認識することができる認識文法におけるサブワード系列を表す図である。201はサブワードであり、同図では中心音素と前後の隣接環境の音素に応じて決まるトライフォンを用いている。(b)は、単語「赤」の終端サブワード「k−a+*」を詳細に表した図であり、202は、サブワード201のモデルの一状態に対応する仮説である。203は仮説を結ぶリンクである。
図1、図2を用いて本実施例における尤度計算について説明する。本実施例においては、尤度計算部104は、隣接環境の数に関わらず各中心音素について一つのサブワードを持つ。すなわち、図2(a)に示すとおり、単語「赤」の終端では、後環境音素「SIL」、「sh」、「k」、「a」に応じてそれぞれサブワードおよび仮説を生成するのではなく、「k−a+*」一つに対応する仮説の系列を生成する。仮説における尤度計算では、後環境音素「SIL」、「sh」、「k」、「a」に応じたトライフォン「k−a+SIL」、「k−a+sh」、「k−a+k」、「k−a+a」及び仮説の状態番号を基にサブワードモデル参照部105がサブワードモデルを参照する。ここでサブワードモデルのリストを仮説ごとに保持していても良いし、ある一つのテーブルまたはハッシュに仮説とサブワードモデルのリストを対応付けて保持しておき、仮説のIDをキーとして参照しても良い。このようにして参照したそれぞれのサブワードモデルに対して、尤度計算部104が尤度S(a,b)を求め(aはトライフォン、bは状態番号)、図2(b)に示すとおり、その最大尤度をサブワード「k−a+*」の仮説における音響モデルの尤度とする。これにそれまでに計算された仮説の累積尤度を加えることで、仮説の累積尤度が計算される。
また、本発明は、図2のように認識語彙数だけサブワード系列を並べた尤度計算方法に限らず、図8に示すように先頭からのサブワード系列を共有化して木構造にした場合(同図では、「黒」、「栗」においてサブワード「*−k+u」、「k−u+r」を共有している)にも、単語境界において全く同様の方法で仮説展開を抑制することができる。
このような構成とすることで、隣接環境に依存するサブワードのモデルを用いて音声認識を行う際に、複数の隣接環境に対して仮説を展開せずに各仮説で複数の隣接環境に対応するサブワードの中で最大尤度を求めることにより、仮説数の増大を抑制し、音声認識の処理を高速化することができる。
上記実施例では、複数の隣接音素環境に対応するサブワードの仮説の拡がりを抑えることができる。本実施例ではさらに、各仮説においてサブワードモデル参照部105が参照したサブワードモデルに対して、尤度S(a,b)を求める計算回数を削減する。図3に本実施例における尤度計算のフローチャートを示す。それぞれの仮説において以下の処理を行う。まずステップS301において、所定の条件であるか否かを判定する(この条件については後述する)。条件を満たさない場合、ステップS302において、上記実施例と同様にサブワードモデル参照部105が参照する全てのサブワードモデルについて尤度を計算し、その最大値を仮説の音響モデルの尤度とする。次にステップS303において、ステップS302で得た尤度最大値を与えたサブワードモデルを記憶する。
そしてステップS305で最終フレームでない場合、ステップS306により次フレームへループする。一方、ステップS301において条件を満たす場合、ステップS304に進み、現フレーム以前にステップS303で計算したサブワードモデルのみについて尤度を計算し、状態202の尤度とする。
ここで所定の条件としては、「ステップS302、S303を実行したフレームから所定フレームを経過していないこと」あるいは「前フレームと現フレームの入力音声信号(あるいはその音声特徴量)の距離が所定値未満であること」あるいはその両方などが用いられるが、本発明で定める条件はこれらに限るものではない。すなわち、ある仮説に対して最大値を与えるサブワードモデルが同じになる可能性が高い、という仮定ができる条件であれば良い。
これにより、ステップS302の最大値計算を、ステップS304の記憶してあるサブワードモデルのみの計算に近似し、尤度計算回数を削減することができる。
上記実施例では連続音声認識の単語境界において単語間接続によるサブワードの仮説展開を抑える例として説明したが、本発明はこれに限るものではない。単語内部の仮説であっても隣接環境が複数存在する仮説において適用可能である。図4は、「白」、「黒」、「栗」、「赤」を孤立単語認識することができる認識文法において、サブワードを共有して木構造を形成した木構造サブワード系列である。同図(a)では、従来の木構造生成方法によって先頭から共通するサブワードを共有し、「黒」、「栗」においてサブワード「SIL−k+u」、「k−u+r」を共有している。ここで本発明を適用すると、同図(b)に示すとおり、サブワード「k−u+*」を用意して共有し、このサブワードに対する仮説においては上記実施例のように尤度計算を行うことにより、仮説数を削減することが可能となる。
上記実施例では隣接環境に依存するサブワードとしてトライフォンを用いた例で説明したが、本発明はこれに限るものではなく、前後いずれかの環境にのみ依存するダイフォンや、その他様々な隣接環境に依存するサブワードについても適用可能である。また上記実施例では無音モデル「SIL」については隣接環境に依存しないモデルを用いた例の図になっているが、本発明はこれに限るものではない。「SIL」モデルについても同様に隣接環境依存モデルを用いることができ、その際には「SIL」モデルについても本発明によって仮説の展開を抑制することができる。
なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施例の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施例の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施例の機能が実現される場合も含まれることは言うまでもない。
実施例係る音声認識装置の機能構成を表すブロック図である。 実施例において生成されるサブワード系列及びその仮説における尤度計算を表す図である。 実施例2における尤度計算のフローチャートである。 実施例3における木構造サブワード系列を表す図である。 従来方法において生成される仮説展開前のサブワード系列、及び仮説における尤度計算を表す図である。 従来方法において単語境界を仮説展開して生成されるサブワード系列を表す図である。 従来方法において単語内の隣接環境にのみ依存するサブワードを使ったサブワード系列を表す図である。 実施例において生成される木構造サブワード系列及びその仮説における尤度計算を表す図である。
符号の説明
201 サブワード
202 仮説
203 リンク

Claims (13)

  1. 音声を認識する音声認識方法であって、
    仮説の累積尤度を計算する際に参照する音響モデルの尤度の計算において、隣接するサブワードに依存して決まる一つ以上のサブワードモデルを各仮説で参照する参照工程と、
    認識対象の音声と前記各サブワードモデルを基に、前記各サブワードモデルの音響モデルの尤度を計算し、計算された尤度の最大値を前記仮説に対応する音響モデルの尤度とする尤度計算工程と、
    を有することを特徴とする音声認識方法。
  2. 前記最大値を与えたサブワードモデルを記憶する記憶工程と、
    所定の条件を満たす場合に、前記尤度計算工程に代えて、記憶したサブワードモデルに対して尤度を計算し、前記仮説に対応する音響モデルの尤度とする第二尤度計算工程と、
    を有することを特徴とする請求項1に記載の音声認識方法。
  3. 前記所定の条件は、前記尤度計算工程の実行時から所定時間を経過していないことであることを特徴とする請求項2に記載の音声認識方法。
  4. 前記所定の条件は、最後に行われた尤度計算工程で対象とされた観測信号と現在の観測信号との差が所定値未満であること、とすることを特徴とする請求項2に記載の音声認識方法。
  5. 前記所定の条件は、最後に行われた尤度計算工程の実行時から所定時間を経過しておらず、かつ、当該最後に行われた尤度計算工程で対象とされた観測信号と現在の観測信号との差が所定値未満であること、とすることを特徴とする請求項2に記載の音声認識方法。
  6. 認識対象単語の単語境界のサブワードに対する仮説が、隣接するサブワードに依存して複数のサブワードモデルを参照することを特徴とする請求項1乃至5のいずれかに記載の音声認識方法。
  7. 請求項1乃至6のいずれかに記載の音声認識方法をコンピュータに実行させるための制御プログラム。
  8. 音声を認識する音声認識装置であって、
    仮説の累積尤度を計算する際に参照する音響モデルの尤度の計算において、隣接するサブワードに依存して決まる一つ以上のサブワードモデルを各仮説で参照する参照手段と、
    認識対象の音声と前記各サブワードモデルを基に、前記各サブワードモデルの音響モデルの尤度を計算し、計算された尤度の最大値を前記仮説に対応する音響モデルの尤度とする尤度計算手段と、
    を有することを特徴とする音声認識装置。
  9. 前記最大値を与えたサブワードモデルを記憶する記憶手段と、
    所定の条件を満たす場合に、前記尤度計算手段に代えて、記憶したサブワードモデルに対して尤度を計算し、前記仮説に対応する音響モデルの尤度とする第二の尤度計算手段と、
    を有することを特徴とする請求項8に記載の音声認識装置。
  10. 前記所定の条件は、最後に行われた尤度計算手段の実行時から所定時間を経過していないこと、とすることを特徴とする請求項9に記載の音声認識装置。
  11. 前記所定の条件は、最後に行われた尤度計算手段で対象とされた観測信号と現在の観測信号との距離が所定値未満であること、とすることを特徴とする請求項9に記載の音声認識装置。
  12. 前記所定の条件は、最後に行われた尤度計算手段の実行時から所定時間を経過しておらず、なおかつ、当該最後に行われた尤度計算手段で対象とされた観測信号と現在の観測信号との距離が所定値未満であること、とすることを特徴とする請求項9に記載の音声認識装置。
  13. 認識対象単語の単語境界のサブワードに対する仮説が、隣接するサブワードに依存して複数のサブワードモデルを参照することを特徴とする請求項8乃至12のいずれかに記載の音声認識装置。
JP2005192199A 2005-06-30 2005-06-30 情報処理装置およびその制御方法 Expired - Fee Related JP4732030B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005192199A JP4732030B2 (ja) 2005-06-30 2005-06-30 情報処理装置およびその制御方法
US11/475,712 US8099280B2 (en) 2005-06-30 2006-06-27 Speech recognition method and speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005192199A JP4732030B2 (ja) 2005-06-30 2005-06-30 情報処理装置およびその制御方法

Publications (3)

Publication Number Publication Date
JP2007011027A true JP2007011027A (ja) 2007-01-18
JP2007011027A5 JP2007011027A5 (ja) 2010-07-08
JP4732030B2 JP4732030B2 (ja) 2011-07-27

Family

ID=37590795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005192199A Expired - Fee Related JP4732030B2 (ja) 2005-06-30 2005-06-30 情報処理装置およびその制御方法

Country Status (2)

Country Link
US (1) US8099280B2 (ja)
JP (1) JP4732030B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9607613B2 (en) * 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
EP4083998A1 (en) 2017-06-06 2022-11-02 Google LLC End of query detection
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0968996A (ja) * 1995-09-01 1997-03-11 Oki Electric Ind Co Ltd 音声認識方法
JPH09127977A (ja) * 1995-10-27 1997-05-16 Oki Electric Ind Co Ltd 音声認識方法
JP2000250580A (ja) * 1999-02-26 2000-09-14 Sharp Corp 音声認識装置及び記録媒体
JP2003005787A (ja) * 2001-06-20 2003-01-08 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識プログラム
JP2006293033A (ja) * 2005-04-11 2006-10-26 Canon Inc 混合分布hmmの状態の出力確率計算方法および装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3033322B2 (ja) 1992-02-14 2000-04-17 日本電気株式会社 連続音声認識方法
JP3042455B2 (ja) 1997-07-28 2000-05-15 日本電気株式会社 連続音声認識方式
JP2003208195A (ja) 2002-01-16 2003-07-25 Sharp Corp 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
US20050256715A1 (en) * 2002-10-08 2005-11-17 Yoshiyuki Okimoto Language model generation and accumulation device, speech recognition device, language model creation method, and speech recognition method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0968996A (ja) * 1995-09-01 1997-03-11 Oki Electric Ind Co Ltd 音声認識方法
JPH09127977A (ja) * 1995-10-27 1997-05-16 Oki Electric Ind Co Ltd 音声認識方法
JP2000250580A (ja) * 1999-02-26 2000-09-14 Sharp Corp 音声認識装置及び記録媒体
JP2003005787A (ja) * 2001-06-20 2003-01-08 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識プログラム
JP2006293033A (ja) * 2005-04-11 2006-10-26 Canon Inc 混合分布hmmの状態の出力確率計算方法および装置

Also Published As

Publication number Publication date
US20070005362A1 (en) 2007-01-04
US8099280B2 (en) 2012-01-17
JP4732030B2 (ja) 2011-07-27

Similar Documents

Publication Publication Date Title
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
JP6495850B2 (ja) 情報処理装置、情報処理方法、プログラムおよび認識システム
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
US8600749B2 (en) System and method for training adaptation-specific acoustic models for automatic speech recognition
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
KR101120765B1 (ko) 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법
JP4749387B2 (ja) 子供に向けられた発話を使用してモデル・ベースの音声の区分化をブートストラップすること、および認識システム
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
KR20110128229A (ko) 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법
JP2001282283A (ja) 音声認識方法及び装置と記憶媒体
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
US7133827B1 (en) Training speech recognition word models from word samples synthesized by Monte Carlo techniques
JPH0728487A (ja) 音声認識方法
JP4732030B2 (ja) 情報処理装置およびその制御方法
JP2003208195A5 (ja)
WO2003060878A1 (fr) Appareil de reconnaissance de la parole continue, procede de reconnaissance de la parole continue, programme de reconnaissance de la parole continue et support d'enregistrement de programme
US20060136209A1 (en) Methodology for generating enhanced demiphone acoustic models for speech recognition
JP2007163896A (ja) 音声認識装置および方法
Rybach et al. On lattice generation for large vocabulary speech recognition
US11915688B2 (en) Prediction device, prediction method, and program
JP3171107B2 (ja) 音声認識装置
US8260614B1 (en) Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
JP4972660B2 (ja) 音声学習装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080624

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100526

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110419

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110420

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees