JP2007011027A

JP2007011027A - 音声認識方法及び音声認識装置

Info

Publication number: JP2007011027A
Application number: JP2005192199A
Authority: JP
Inventors: Hideo Kuboyama; 英生久保山; Hiroki Yamamoto; 寛樹山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-06-30
Filing date: 2005-06-30
Publication date: 2007-01-18
Anticipated expiration: 2025-06-30
Also published as: US20070005362A1; US8099280B2; JP4732030B2

Abstract

【課題】トライフォンなどの隣接環境に依存するサブワードのモデルを用いて音声認識を行う際に、複数の隣接環境に応じて仮説が展開されることを抑制し、音声認識の処理を高速化する。
【解決手段】音声認識において仮説の累積尤度を計算する際に参照する音響モデルの尤度の計算において、隣接するサブワードに依存して決まる一つ以上のサブワードモデルを各仮説で参照し、認識対象の音声と前記各サブワードモデルの音響モデルの尤度を計算し、計算された尤度の最大値を前記仮説に対応する音響モデルの尤度とする。
【選択図】図２

Description

本発明は、音声を認識する音声認識方法に関する。

音声認識を行う際に、音素やトライフォンなど、単語より小さいサブワードを用いてモデル化する手法がある。特に、トライフォンのような隣接環境に依存してモデルを分けることで、モデルを詳細に分けるような方法が広く用いられている。例えば、トライフォン「ＳＩＬ−ａ＋ｋ」は、「ａ」という音の中でも直前の音が「ＳＩＬ（無音）」、直後の音が「ｋ」であることを表し、音素「ａ」でモデル化するよりも詳細にモデル化できるため、高い認識率を得ることができる。

しかしながら、トライフォンのような隣接環境に依存するモデルを用いる場合、隣接環境が複数表れる場合（例えば連続単語認識における単語境界）では、その隣接環境の数に応じて仮説を展開しなければならない。図５は、「白」、「黒」、「栗」、「赤」の繰り返し発声を認識することができる認識文法におけるサブワード系列及び仮説における尤度計算を表す図である。同図（ａ）において、５０１はサブワードであり、同図では中心音素と前後の隣接環境の音素に応じて決まるトライフォンを用いている。サブワード５０１は、一般的に同図（ｂ）に示すような１つ以上の状態を持つＨＭＭでモデル化される。５０２はサブワード５０１の一状態に対応する仮説であり、尤度計算では各仮説において尤度Ｓ（ａ，ｂ）を求める。５０３は、仮説を結ぶリンクである。尤度計算には各仮説のＨＭＭ状態における音声入力信号の出力確率や状態間をリンクに従って遷移する遷移確率などによって計算する。ここで上記のような文法では、各単語の単語境界において、サブワード５０１が複数の隣接環境に依存するため、隣接環境の数に応じて仮説を用意しなければならない。すなわち、単語先頭のサブワード（図５において、「＊−ｓｈ＋ｉ」、「＊−ｋ＋ｕ」、「＊−ｋ＋ｕ」、「＊−ａ＋ｋ」）の前環境には、「ＳＩＬ」および単語末尾音素の「ｏ」、「ｉ」、「ａ」を、単語終端のサブワード（同図において、「ｒ−ｏ＋＊」、「ｒ−ｏ＋＊」、「ｒ−ｉ＋＊」、「ｋ−ａ＋＊」）の後環境には、「ＳＩＬ」および単語先頭音素の「ｓｈ」、「ｋ」、「ａ」を考慮してそれぞれサブワード及び仮説を展開する必要がある。これを記述すると図６のように単語境界でサブワード及び仮説が拡がり、このように膨大に増えた仮説に対する尤度計算時間がかかってしまう。

この問題に対して、特許文献１では、単語内の隣接環境にのみ依存させることにより、単語境界の仮説展開を抑制している。図７（ａ）に、単語境界において音素モデルを利用したサブワード系列を、図７（ｂ）に、単語境界において、片方の隣接環境のみ依存するモデルを利用したサブワード系列を示す。このようなモデルを単語境界に利用することで、図６のような仮説展開を抑制することは可能であるが、一方で単語境界においてはその他の場所に比べて詳細ではないモデルを使うことになるので、認識率の低下を招く。そこで特許文献２では単語境界を単語間単語として単語と分けて仮説を生成して接続した方法が提案されているが、単語間単語において仮説が拡がることには変わりなく、また単語間単語が多くの単語で共有できなければ効果は薄い。また特許文献３では隣接環境依存モデルの内部状態を共有化して木構造で表現した方法が提案されているが、状態でやはり隣接サブワードに依存して拡がりを持ち、十分に抑制するに至ってはいない。
特開平０５−２２４６９２号公報特開平１１−０４５０９７号公報特開２００３−２０８１９５号公報

本発明の目的は、トライフォンなどの隣接環境に依存するサブワードのモデルを用いて音声認識を行う際に、複数の隣接環境に応じて仮説が展開されることを抑制し、音声認識の処理を高速化することである。

上記課題を解決するために、本発明の音声認識方法は、仮説の累積尤度を計算する際に参照する音響モデルの尤度の計算において、隣接するサブワードに依存して決まる一つ以上のサブワードモデルを各仮説で参照する参照工程と、認識対象の音声と前記各サブワードモデルを基に、前記各サブワードモデルの音響モデルの尤度を計算し、計算された尤度の最大値を前記仮説に対応する音響モデルの尤度とする尤度計算工程とを有することを特徴とする。

本発明によれば、隣接環境に依存するサブワードのモデルを用いて音声認識を行う際に、複数の隣接環境に対して仮説を展開せずに各仮説で複数の隣接環境に対応するサブワードの中で最大尤度を求めることにより、仮説数の増大を抑制し、音声認識の処理を高速化することができる。

以下、図面を参照しながら本発明の好適な実施例について説明していく。

図１に、本実施例における音声認識装置の機能構成を表すブロック図を示す。同図において、１０１は、入力音声信号を分析して音声特徴量を得る音響処理部である。１０２は、サブワードの音響的特徴をＨＭＭなどによってモデル化したサブワードモデルを格納する音響モデルである。１０３は、認識可能な語彙、および文法あるいは接続確率を有する言語モデルである。１０４は、音響処理部１０１が求めた音声特徴量を入力とし、音響モデル、言語モデルを基に、仮説を生成して尤度計算を行う尤度計算部である。１０５は、尤度計算部１０４が行う尤度計算の際に、各仮説において隣接するサブワードに依存して決まる一つ以上のサブワードモデルを参照するサブワードモデル参照部である。

図２に、本発明の尤度計算部１０４における尤度計算の様子を示す。同図において、（ａ）は、隣接環境に依存するサブワードとしてトライフォンを用い、「白」、「黒」、「栗」、「赤」の繰り返し発声を認識することができる認識文法におけるサブワード系列を表す図である。２０１はサブワードであり、同図では中心音素と前後の隣接環境の音素に応じて決まるトライフォンを用いている。（ｂ）は、単語「赤」の終端サブワード「ｋ−ａ＋＊」を詳細に表した図であり、２０２は、サブワード２０１のモデルの一状態に対応する仮説である。２０３は仮説を結ぶリンクである。

図１、図２を用いて本実施例における尤度計算について説明する。本実施例においては、尤度計算部１０４は、隣接環境の数に関わらず各中心音素について一つのサブワードを持つ。すなわち、図２（ａ）に示すとおり、単語「赤」の終端では、後環境音素「ＳＩＬ」、「ｓｈ」、「ｋ」、「ａ」に応じてそれぞれサブワードおよび仮説を生成するのではなく、「ｋ−ａ＋＊」一つに対応する仮説の系列を生成する。仮説における尤度計算では、後環境音素「ＳＩＬ」、「ｓｈ」、「ｋ」、「ａ」に応じたトライフォン「ｋ−ａ＋ＳＩＬ」、「ｋ−ａ＋ｓｈ」、「ｋ−ａ＋ｋ」、「ｋ−ａ＋ａ」及び仮説の状態番号を基にサブワードモデル参照部１０５がサブワードモデルを参照する。ここでサブワードモデルのリストを仮説ごとに保持していても良いし、ある一つのテーブルまたはハッシュに仮説とサブワードモデルのリストを対応付けて保持しておき、仮説のＩＤをキーとして参照しても良い。このようにして参照したそれぞれのサブワードモデルに対して、尤度計算部１０４が尤度Ｓ（ａ，ｂ）を求め（ａはトライフォン、ｂは状態番号）、図２（ｂ）に示すとおり、その最大尤度をサブワード「ｋ−ａ＋＊」の仮説における音響モデルの尤度とする。これにそれまでに計算された仮説の累積尤度を加えることで、仮説の累積尤度が計算される。

また、本発明は、図２のように認識語彙数だけサブワード系列を並べた尤度計算方法に限らず、図８に示すように先頭からのサブワード系列を共有化して木構造にした場合（同図では、「黒」、「栗」においてサブワード「＊−ｋ＋ｕ」、「ｋ−ｕ＋ｒ」を共有している）にも、単語境界において全く同様の方法で仮説展開を抑制することができる。

このような構成とすることで、隣接環境に依存するサブワードのモデルを用いて音声認識を行う際に、複数の隣接環境に対して仮説を展開せずに各仮説で複数の隣接環境に対応するサブワードの中で最大尤度を求めることにより、仮説数の増大を抑制し、音声認識の処理を高速化することができる。

上記実施例では、複数の隣接音素環境に対応するサブワードの仮説の拡がりを抑えることができる。本実施例ではさらに、各仮説においてサブワードモデル参照部１０５が参照したサブワードモデルに対して、尤度Ｓ（ａ，ｂ）を求める計算回数を削減する。図３に本実施例における尤度計算のフローチャートを示す。それぞれの仮説において以下の処理を行う。まずステップＳ３０１において、所定の条件であるか否かを判定する（この条件については後述する）。条件を満たさない場合、ステップＳ３０２において、上記実施例と同様にサブワードモデル参照部１０５が参照する全てのサブワードモデルについて尤度を計算し、その最大値を仮説の音響モデルの尤度とする。次にステップＳ３０３において、ステップＳ３０２で得た尤度最大値を与えたサブワードモデルを記憶する。

そしてステップＳ３０５で最終フレームでない場合、ステップＳ３０６により次フレームへループする。一方、ステップＳ３０１において条件を満たす場合、ステップＳ３０４に進み、現フレーム以前にステップＳ３０３で計算したサブワードモデルのみについて尤度を計算し、状態２０２の尤度とする。

ここで所定の条件としては、「ステップＳ３０２、Ｓ３０３を実行したフレームから所定フレームを経過していないこと」あるいは「前フレームと現フレームの入力音声信号（あるいはその音声特徴量）の距離が所定値未満であること」あるいはその両方などが用いられるが、本発明で定める条件はこれらに限るものではない。すなわち、ある仮説に対して最大値を与えるサブワードモデルが同じになる可能性が高い、という仮定ができる条件であれば良い。

これにより、ステップＳ３０２の最大値計算を、ステップＳ３０４の記憶してあるサブワードモデルのみの計算に近似し、尤度計算回数を削減することができる。

上記実施例では連続音声認識の単語境界において単語間接続によるサブワードの仮説展開を抑える例として説明したが、本発明はこれに限るものではない。単語内部の仮説であっても隣接環境が複数存在する仮説において適用可能である。図４は、「白」、「黒」、「栗」、「赤」を孤立単語認識することができる認識文法において、サブワードを共有して木構造を形成した木構造サブワード系列である。同図（ａ）では、従来の木構造生成方法によって先頭から共通するサブワードを共有し、「黒」、「栗」においてサブワード「ＳＩＬ−ｋ＋ｕ」、「ｋ−ｕ＋ｒ」を共有している。ここで本発明を適用すると、同図（ｂ）に示すとおり、サブワード「ｋ−ｕ＋＊」を用意して共有し、このサブワードに対する仮説においては上記実施例のように尤度計算を行うことにより、仮説数を削減することが可能となる。

上記実施例では隣接環境に依存するサブワードとしてトライフォンを用いた例で説明したが、本発明はこれに限るものではなく、前後いずれかの環境にのみ依存するダイフォンや、その他様々な隣接環境に依存するサブワードについても適用可能である。また上記実施例では無音モデル「ＳＩＬ」については隣接環境に依存しないモデルを用いた例の図になっているが、本発明はこれに限るものではない。「ＳＩＬ」モデルについても同様に隣接環境依存モデルを用いることができ、その際には「ＳＩＬ」モデルについても本発明によって仮説の展開を抑制することができる。

なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施例の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施例の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施例の機能が実現される場合も含まれることは言うまでもない。

実施例係る音声認識装置の機能構成を表すブロック図である。実施例において生成されるサブワード系列及びその仮説における尤度計算を表す図である。実施例２における尤度計算のフローチャートである。実施例３における木構造サブワード系列を表す図である。従来方法において生成される仮説展開前のサブワード系列、及び仮説における尤度計算を表す図である。従来方法において単語境界を仮説展開して生成されるサブワード系列を表す図である。従来方法において単語内の隣接環境にのみ依存するサブワードを使ったサブワード系列を表す図である。実施例において生成される木構造サブワード系列及びその仮説における尤度計算を表す図である。

符号の説明

２０１サブワード
２０２仮説
２０３リンク

Claims

音声を認識する音声認識方法であって、
仮説の累積尤度を計算する際に参照する音響モデルの尤度の計算において、隣接するサブワードに依存して決まる一つ以上のサブワードモデルを各仮説で参照する参照工程と、
認識対象の音声と前記各サブワードモデルを基に、前記各サブワードモデルの音響モデルの尤度を計算し、計算された尤度の最大値を前記仮説に対応する音響モデルの尤度とする尤度計算工程と、
を有することを特徴とする音声認識方法。
前記最大値を与えたサブワードモデルを記憶する記憶工程と、
所定の条件を満たす場合に、前記尤度計算工程に代えて、記憶したサブワードモデルに対して尤度を計算し、前記仮説に対応する音響モデルの尤度とする第二尤度計算工程と、
を有することを特徴とする請求項１に記載の音声認識方法。
前記所定の条件は、前記尤度計算工程の実行時から所定時間を経過していないことであることを特徴とする請求項２に記載の音声認識方法。
前記所定の条件は、最後に行われた尤度計算工程で対象とされた観測信号と現在の観測信号との差が所定値未満であること、とすることを特徴とする請求項２に記載の音声認識方法。
前記所定の条件は、最後に行われた尤度計算工程の実行時から所定時間を経過しておらず、かつ、当該最後に行われた尤度計算工程で対象とされた観測信号と現在の観測信号との差が所定値未満であること、とすることを特徴とする請求項２に記載の音声認識方法。
認識対象単語の単語境界のサブワードに対する仮説が、隣接するサブワードに依存して複数のサブワードモデルを参照することを特徴とする請求項１乃至５のいずれかに記載の音声認識方法。
請求項１乃至６のいずれかに記載の音声認識方法をコンピュータに実行させるための制御プログラム。
音声を認識する音声認識装置であって、
仮説の累積尤度を計算する際に参照する音響モデルの尤度の計算において、隣接するサブワードに依存して決まる一つ以上のサブワードモデルを各仮説で参照する参照手段と、
認識対象の音声と前記各サブワードモデルを基に、前記各サブワードモデルの音響モデルの尤度を計算し、計算された尤度の最大値を前記仮説に対応する音響モデルの尤度とする尤度計算手段と、
を有することを特徴とする音声認識装置。
前記最大値を与えたサブワードモデルを記憶する記憶手段と、
所定の条件を満たす場合に、前記尤度計算手段に代えて、記憶したサブワードモデルに対して尤度を計算し、前記仮説に対応する音響モデルの尤度とする第二の尤度計算手段と、
を有することを特徴とする請求項８に記載の音声認識装置。
前記所定の条件は、最後に行われた尤度計算手段の実行時から所定時間を経過していないこと、とすることを特徴とする請求項９に記載の音声認識装置。
前記所定の条件は、最後に行われた尤度計算手段で対象とされた観測信号と現在の観測信号との距離が所定値未満であること、とすることを特徴とする請求項９に記載の音声認識装置。
前記所定の条件は、最後に行われた尤度計算手段の実行時から所定時間を経過しておらず、なおかつ、当該最後に行われた尤度計算手段で対象とされた観測信号と現在の観測信号との距離が所定値未満であること、とすることを特徴とする請求項９に記載の音声認識装置。
認識対象単語の単語境界のサブワードに対する仮説が、隣接するサブワードに依存して複数のサブワードモデルを参照することを特徴とする請求項８乃至１２のいずれかに記載の音声認識装置。