JP5480760B2

JP5480760B2 - 端末装置、音声認識方法および音声認識プログラム

Info

Publication number: JP5480760B2
Application number: JP2010207037A
Authority: JP
Inventors: 孝輔辻野; 真也飯塚; 伸小栗
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2010-09-15
Filing date: 2010-09-15
Publication date: 2014-04-23
Anticipated expiration: 2030-09-15
Also published as: JP2012063536A

Description

本発明は、音声認識結果を処理する端末装置、音声認識方法および音声認識プログラムに関する。

音声認識処理を行うに当たっては、クライアント端末内で行う場合と、サーバ側で行う場合がある。クライアント端末内で行う場合は、当該端末がユーザ専用のものである場合が多いことから、端末内のユーザ固有の情報として、ユーザ辞書、ユーザの過去の入力音声や通話音声、音響トレーニングの実績などを利用して、言語モデルや音響モデルの個人カスタマイズが容易である。したがって、ユーザ適応の音声認識が可能となる反面、メモリ量や演算リソースが限られ、語彙数や仮説探索の範囲が制約されるといったデメリットがある。

一方で、サーバ側で行う場合は、端末内音声認識と比較してメモリ量や演算リソースを豊富に利用でき、大語彙且つ高精度の音声認識が可能といったメリットがある。しかし、サーバは多数のユーザに共有されるものであるため、ユーザ各々の言語モデルまたは音響モデルを学習したり、アクセスに応じて即時に高速にユーザ各々にカスタマイズされた言語モデルまたは音響モデルを読み込むことはコストが高い。したがって、サーバ側の音声認識では言語モデルまたは音響モデルのユーザごとのカスタマイズが困難というデメリットがある。

そこで、両者の長所を兼ね備え、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが課題とされており、特許文献１は当該課題を解決するための一つの試みを示している。特許文献１では、サーバは認識結果における単語境界の時間情報を端末に返し、端末では当該時間情報を参照し且つ自らが有する辞書を用いて再認識を行う。特に、未知語や固有名詞と判定された語のみを再認識の対象とすることにより、認識精度の向上を目指している。

特開２０１０−８５５３６号公報

しかし、このような特許文献１の技術では、サーバ側の認識で単語境界が正しく認識されていないと、端末側は正しくない時間情報を参照することとなり、端末での再認識後も正しい認識結果が得られないおそれがある。また、サーバ側で認識対象の語が語彙外の語である場合は、未知語や固有名詞の判定を正しくできない場合があり、端末で再認識を行った後も正しい認識結果が得られない場合がある。

さらに、言語モデルにおける語彙不足から、音声認識サーバが正しく音声認識することができない場合がある。未知語の場合、通常音声認識の対象として言語モデルに登録されていないため、その不具合は顕著なものとなる。

そこで、本発明は上記に鑑みてなされたもので、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能な端末装置、音声認識処理方法および音声認識プログラムを提供することを目的とする。

上述の課題を解決するために、本発明の端末装置は、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶するユーザ辞書記憶手段と、音声データの入力を受け付ける入力手段と、前記入力手段により入力された音声データを、音声認識を行う外部装置に送信する送信手段と、前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信手段と、前記受信手段により受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、前記ユーザ辞書記憶手段に記憶されているユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張手段と、前記認識結果拡張手段により拡張された音声認識結果を、前記入力手段において入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価手段と、前記仮説再評価手段による評価にしたがった一の音声認識結果を提示する提示手段と、を備えている。

また、本発明の音声認識方法は、端末装置における音声認識方法において、音声データの入力を受け付ける入力ステップと、前記入力ステップにより入力された音声データを、音声認識を行う外部装置に送信する送信ステップと、前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信ステップと、前記受信ステップにより受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張ステップと、前記認識結果拡張ステップにより拡張された音声認識結果を、前記入力ステップにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価ステップと、前記仮説再評価ステップによる評価にしたがった一の音声認識結果を提示する提示ステップと、を備えている。

また、本発明の音声認識プログラムは、コンピュータを、音声データの入力を受け付ける入力モジュールと、前記入力モジュールにより入力された音声データを、音声認識を行う外部装置に送信する送信モジュールと、前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信モジュールと、前記受信モジュールにより受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張モジュールと、前記認識結果拡張モジュールにより拡張された音声認識結果を、前記入力モジュールにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価モジュールと、前記仮説再評価モジュールによる評価にしたがった一の音声認識結果を提示する提示モジュールと、として機能させる。

これら発明によれば、入力された音声データを、音声認識を行う外部装置に送信し、外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、外部装置から受信し、受信された音声認識結果を、入力された音声データ、ならびに一の音響モデルとは異なる他の音響モデルまたは一の言語モデルとは異なる他の言語モデルを利用して評価し、当該評価にしたがった一の音声認識結果を提示する。これにより、外部装置において認識された結果の範囲で適切な音声認識結果を選択することができ、大語彙且つ高精度な音声認識処理を行うことができる。さらに、通常の端末内での音声認識処理を行うことと比較して、ＣＰＵの演算量、メモリ使用量等を軽減することができる。
さらに、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶しておき、受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザ辞書から検索して、当該近似する単語を音声認識結果に追加・拡張して、拡張された音声認識結果に対する評価を行う。これにより、ユーザ特有に定められた単語を音声認識結果に追加・拡張して、評価することで、ユーザ特有の単語を含んだ音声データに対しても、正確な音声認識結果を得ることができる。特に、音声データに、一般的ではない固有名詞などの未知語を含んだとしても、それを考慮した音声認識結果を得ることができる。

また、本発明の端末装置１００において、前記他の音響モデルおよび前記他の言語モデルは、前記端末装置の利用履歴もしくはユーザ操作に基づいて定められたものであることを特徴とする。

この発明によれば、他の音響モデルおよび他の言語モデルは、端末装置の利用履歴もしくはユーザ操作に基づいて定められたものであり、これによって、端末装置のユーザ特有の音響モデルおよび言語モデルを利用することができ、よりユーザの特定に沿った音声認識処理を実現することができる。

また、本発明の端末装置１００において、前記仮説再評価手段は、前記他の言語モデルを用いて前記受信手段により受信された音声認識結果の言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価する。

この発明によれば、他の言語モデルを用いて前記受信手段により受信された音声認識結果の言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することができる。よって、個人に適応した言語モデルによる認識精度向上を実現することができる。

また、本発明の端末装置１００において、前記仮説再評価手段は、前記他の音響モデルを利用して、前記入力手段によって入力された音声データを所与とした際の前記受信手段により受信された音声認識結果の尤度を求めることによって音響尤度を算出し、当該算出した音響尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価する。

この発明によれば、前記他の音響モデルを利用して、前記入力手段によって入力された音声データを所与とした際の前記受信手段により受信された音声認識結果の尤度を求めることによって音響尤度を算出し、当該算出した音響尤度からなる再評価スコアおよび受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することができる。よって、個人に適応した音響モデルによる認識精度向上を実現することができる。

本発明によれば、外部装置において認識された結果の範囲で適切な音声認識結果を選択することができ、大語彙且つ高精度な音声認識処理を行うことができる。さらに、通常の端末内での音声認識処理を行うことと比較して、ＣＰＵの演算量、メモリ使用量等を軽減することができる。

本実施形態の音声認識システムの機能を示すブロック図である。端末装置１００のハードウェア構成を示すブロック図である。Ｎ−ｂｅｓｔ方式における音声認識結果の候補リストを示す説明図である。音声認識結果のひとつである認識結果候補を示した説明図である。認識結果拡張部１０５において拡張された候補を含んだ候補リストおよびそれに対応する各スコアを示す説明図である。音声認識システム１０の処理を示すフローチャートである。

添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

図１は、本実施形態の音声認識システムの機能を示すブロック図である。図１に示されるとおり、本実施形態の音声認識システム１０は、端末装置１００と音声認識サーバ２００とを含んで構成されている。端末装置１００において入力された音声は、音声認識サーバ２００に送信されて、外部装置である音声認識サーバ２００において音声認識処理が行われる。そして、音声認識サーバ２００において認識された音声認識結果は端末装置１００に返信される。返信された音声認識結果は、複数の認識候補を含んでおり、端末装置１００においては、いずれの認識候補が妥当なものであるか、評価して、評価値の高い認識候補を音声認識結果として表示部１０７に表示させる。

以下、端末装置１００および音声認識サーバ２００の各機能について説明する。図１に示されるとおり、端末装置１００は、通信部１０１（送信手段、受信手段）、マイク１０２（入力手段）、音声処理部１０３、ユーザ辞書保持部１０４（ユーザ辞書記憶手段）、認識結果拡張部１０５（認識結果拡張手段）、仮説再評価部１０６（仮説再評価手段）、表示部１０７（提示手段）を含んで構成されている。この端末装置１００は、例えば携帯端末であって、図２に示されるハードウェアにより構成される。

図２は、端末装置１００のハードウェア構成を示すブロック図である。図１に示される端末装置１００は、物理的には、図２に示すように、ＣＰＵ１１、主記憶装置であるＲＡＭ１２及びＲＯＭ１３、入力デバイスであるキーボード及びマウス等の入力装置１４、ディスプレイ等の出力装置１５、ネットワークカード等のデータ送受信デバイスである通信モジュール１６、ハードディスク等の補助記憶装置１７などを含むコンピュータシステムとして構成されている。図１において説明した各機能は、図２に示すＣＰＵ１１、ＲＡＭ１２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１１の制御のもとで入力装置１４、出力装置１５、通信モジュール１６を動作させるとともに、ＲＡＭ１２や補助記憶装置１７におけるデータの読み出し及び書き込みを行うことで実現される。以下、図１に示す機能ブロックに基づいて、各機能ブロックを説明する。

マイク１０２は、端末装置１００のユーザが発する音声を受け付ける部分である。

音声処理部１０３は、マイク１０２において受け付けられた音声を処理する部分であり、例えばデジタルデータに変換する部分である。

通信部１０１は、音声処理部１０３において処理された音声データを外部装置である音声認識サーバ２００に送信し、また音声認識サーバ２００から音声認識結果を受信する部分である。通信部１０１は、音声認識サーバ２００から音声認識結果を受信すると、認識結果拡張部１０５に、その音声認識結果を出力する。この音声認識結果には、複数の認識候補が含まれている。

具体的には、通信部１０１は、図３に示される音声認識結果を受信する。図３（ａ）は、Ｎ−ｂｅｓｔ方式における音声認識結果の認識工を含んだ候補リストを示す説明図である。図３（ａ）においては、発音として、以下の発話がなされたとしている。
（発話内容）今日は横島に会った
これに対して、Ｎ−ｂｅｓｔ方式で候補リストをあらわすと、図３（ａ）に示されるとおり、音声認識結果として、複数の認識候補が出力される。Ｎ−Ｂｅｓｔ方式では、発話された文章を文節ごとに区分された単語を認識することで得られた候補を組み合わせた文章ごとに、認識スコアが算出される。

また、候補リストとしては、Ｎ−ｂｅｓｔ方式に限られるものでは無く、図３（ｂ）に示すように、Confusion Network（ＣＮ）方式もありえる。ＣＮ方式では、文節ごとに区分された単語のつながりを示すように管理されており、それぞれのつながりごとに認識スコアが算出されている。

いずれの方式においても、文節ごとに区分された単語を組み合わせることにより、複数の認識候補を得ることができる。

ユーザ辞書保持部１０４は、端末装置１００のユーザにより設定されたユーザ辞書を記憶する部分である。このユーザ辞書は、ユーザが音声認識のために、ユーザ独自に設定した辞書データであったり、または、かな漢字変換のための拡張辞書、電話帳データなどであり、発音（ふりがな）と漢字（またはカタカナ、ひらがなでもよい）とを対応付けた辞書データである。

認識結果拡張部１０５は、通信部１０１において音声認識サーバ２００から受信した音声認識結果を拡張する処理を行う部分である。具体的には、認識結果拡張部１０５は、複数の認識候補のそれぞれに含まれる単語のうち、所定条件を満たした単語（例えば認識スコアの低い（所定値以下）の単語）と近い発音の単語をユーザ辞書保持部１０４のユーザ辞書を検索し、検索した単語を加えることで、音声認識結果を拡張することができる。発音の近さの評価は、文字列の編集距離を用いるが、他の方法によってもよい。また、ここでは所定条件として認識スコアの低い単語を拡張するように処理しているが、そのほか、所定の品詞のものや、固有名詞であることを判別して、その単語を拡張するようにしてもよい。

図４に、音声認識結果における認識候補の拡張についての具体例を示す。図４（ａ）は、音声認識結果の一つである認識候補を示した説明図である。この図４（ａ）では、例えば「横浜／ヨコハマ」の認識スコアが低いものとする（所定値以下のもの）。そのため、認識結果拡張部１０５は、「ヨコハマ」と発音の近い単語を、ユーザ辞書保持部１０４のユーザ辞書から検索する。

図４（ｂ）で示されるとおり、ここでは、「横島／ヨコシマ」が検索され、「横浜／ヨコハマ」に対する別の候補として「横島／ヨコシマ」が追加されている。

拡張された認識候補の認識スコアは、元の認識候補と同じものとすることが妥当と思われるが、発音の近さを基準として元の候補のスコアにペナルティを与えたものであってもよい。例えば、「今日は横浜に会った」の認識スコアが０．３２とする。そして、発音の編集距離１ごとに０．０５のペナルティを与えると、「ヨコハマ」と「ヨコシマ」の編集距離は１であるため、拡張された候補「今日は横島に会った」の認識スコアは０．２７となる。

図１に戻り、引き続き説明を続ける。仮説再評価部１０６は、認識結果拡張部１０５において拡張された認識候補を含んだ複数の認識候補について評価を行う部分であり、端末装置１００において備えられている言語モデルまたは音響モデルの少なくとも一方を利用して、評価を行う。具体的には、仮説再評価部１０６は、言語モデルを利用して、音声認識結果の複数の認識候補のそれぞれについて、単語Ｎ−ｇｒａｍ確率に基づく言語尤度を求める。また、仮説再評価部１０６は、音響モデルを利用して、音声認識結果の複数候補のそれぞれについて、音響尤度を求める。すなわち、音声認識結果の複数候補のそれぞれを認識仮説として取り扱い、音響モデルを利用して、音声処理部１０３において処理された音声データを所与とした場合の音声認識結果である認識仮説の読み音素列の尤度を求めることにより音響尤度を求めることができる。音響尤度の算出法は、下記参考文献に記載されているように広く知られており、例えば現在典型的に用いられる隠れマルコフモデルに基づく音響モデルの場合には、音響モデルに含まれる音素ＨＭＭ（Hidden Markov Model）を連結して認識仮説を構成する音素列に対応する文ＨＭＭを生成し、音声データを解析して得られる特徴量系列の、文ＨＭＭ上での出力確率を、ＤＰマッチング等で求めればよい。そして、仮説再評価部１０６は、認識候補ごとに、言語尤度または音響尤度の少なくとも一方を求めることにより、評価のための再評価スコアを算出する。
[参考文献] ITText 音声認識システム情報処理学会編集、鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄編著、2001/05発行

仮説再評価部１０６は、候補ごとに再評価スコアを算出すると、音声認識サーバ２００から得た認識スコアと再評価スコアとに基づいて最終スコアを算出する。例えば、仮説再評価部１０６は、認識スコアと再評価スコアとの和を算出することで、これを最終スコアとしてもよいし、認識スコアまたは再評価スコアのいずれかもしくは両方に重み付けを行って、その和を算出することで、最終スコアとしてもよい。また、再評価スコアのみを最終スコアとして用いてもよい。さらに、再評価スコアは、音響モデル・言語モデルいずれか一方のみを用いて得られたものとしてもよい。

図５は、認識結果拡張部１０５において拡張された候補を含んだ候補リストおよびそれに対応する各スコアを示す説明図である。

例えば、「今日は、横浜へ行った」という候補は、認識スコア：０．５、再評価スコア：０．３、最終スコア：０．８と対応付けている。これら各数値は、仮説再評価部１０６において算出された一時的に記憶されているものである。図５では、「今日は横島に会った」が、最終スコア：０．８７であって、認識候補の中で一番高い数値となっているため、これを認識結果として出力する。

表示部１０７は、仮説再評価部１０６において評価された認識結果を表示する。

つぎに、音声認識サーバ２００について説明する。図１に示されるとおり、音声認識サーバ２００は、通信部２０１および音声認識部２０２を含んで構成されている。通信部２０１は、端末装置１００から送信された音声データを受信し、後述する音声認識部２０２において認識された音声認識結果を返信する部分である。

音声認識部２０２は、通信部２０１により受信された音声データを音声認識処理する部分である。この音声認識部２０２は、音響モデルおよび言語モデルを用いて音声認識をするものであって、音響モデルおよび言語モデルは、万人に適用可能に構築されたモデルである。

このようにして、端末装置１００において受け付けられた音声データを、音声認識サーバ２００では音声認識処理して、端末装置１００に返信し、端末装置１００では、返信された音声認識結果に基づいて、独自の辞書データをさらに利用して評価することで、より正確な音声認識結果を得ることができる。

つぎに、このように構成された音声認識システム１０の処理について説明する。図６は、音声認識システム１０において処理される音声認識方法を示すフローチャートである。まず、端末装置１００においては、マイク１０２を介して音声が受け付けられる（Ｓ１０１）。そして、音声データは、音声処理部１０３により処理されて、通信部１０１により、音声認識サーバ２００に送信される（Ｓ１０２）。

音声認識サーバ２００では、通信部２０１により音声データが受信され（Ｓ２０１）、音声認識処理が音声認識部２０２により行われ、音声認識結果が得られる（Ｓ２０２）。そして、音声認識結果は、通信部２０１により端末装置１００に送信される（Ｓ２０３）。

端末装置１００では、音声認識結果が通信部１０１により受信され（Ｓ１０３）、認識結果拡張部１０５により、音声認識結果に基づいて発音が類似した単語が、ユーザ辞書保持部１０４のユーザ辞書から検索される（Ｓ１０４）。そして、認識結果拡張部１０５により、検索された単語は音声認識結果に追加される（Ｓ１０５）。

認識結果拡張部１０５により拡張された音声認識結果のそれぞれの候補について、仮説再評価部１０６により評価がなされ、再評価スコアが算出される（Ｓ１０６）。そして、仮説再評価部１０６により、音声認識サーバ２００から得た認識スコアと再評価スコアとから最終スコアが算出され（Ｓ１０７）、音声認識結果である複数の候補から、最終スコアに基づいて一の候補が選択され、表示部１０７においてその候補が表示される（Ｓ１０７）。

このようにして、音声認識サーバ２００において認識した範囲において、端末装置１００では、その音声認識結果を評価することができ、大語彙かつ高精度の音声認識処理を行うことができる。

なお、本実施形態においては、装置として端末装置１００を例示したが、これに限るものではなく、端末装置１００における各機能を実行するためのプログラムモジュールとして構成してもよい。すなわち、マイク１０２からの入力処理、音声処理部１０３に相当する入力モジュール、通信部１０１に相当する送信モジュールおよび受信モジュール、仮説再評価部１０６に相当する仮説再評価モジュール、ディスプレイなどの表示部１０７に表示させるための提示モジュールを備えたプログラムであって、携帯端末などのコンピュータシステムに当該プログラムを読み込ませることにより、上述端末装置１００と同等の機能を実現することができる。なお、このプログラムは、ＣＤＲＯＭ、ＤＶＤなどの記録媒体に記憶させておき、コンピュータシステムに読み取り可能に構成してもよい。

つぎに、本実施形態の端末装置１００の作用効果について説明する。端末装置１００が備えるマイク１０２が、ユーザが発せられた音声を受け付けて、音声処理部１０３が音声データにする。そして、このようにして入力された音声データを、通信部１０１が音声認識を行う音声認識サーバ２００に送信する。

音声認識サーバ２００において、一の音響モデルおよび一の言語モデルを用いて音声認識処理を行い、その結果を音声認識結果として端末装置１００に送信する。端末装置１００では、音声認識サーバ２００から音声認識結果を受信して、この受信された音声認識結果を、仮説再評価部１０６が、入力された音声データ、ならびに端末装置１００に備えられている音響モデルおよび言語モデルを利用して評価する。この音響モデルおよび言語モデルは、音声認識サーバ２００における音響モデルおよび言語モデルとは異なったものであり、端末装置１００のユーザにより、端末内情報、ユーザ辞書、過去の入力音声、通話音声、音響トレーニングモードなどでカスタマイズされたものである。

そして、仮説再評価部１０６による評価にしたがって一の音声認識結果を決定して、表示部１０７は、一の音声認識結果を表示する。

これにより、音声認識サーバ２００において認識された結果の範囲で適切な音声認識結果を端末装置１００において評価・選択することができ、大語彙且つ高精度な音声認識処理を行うことができる。さらに、通常の端末内での音声認識処理を行うことと比較して、ＣＰＵの演算量、メモリ使用量等を軽減することができる。

また、本実施形態の端末装置１００は、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶するユーザ辞書保持部１０４、受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザ辞書保持部に記憶されているユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張部１０５をさらに備えている。そして、仮説再評価部１０５は、認識結果拡張部１０５により拡張された音声認識結果に対する評価を行う。

これにより、ユーザ特有に定められた単語を音声認識結果に追加・拡張して、評価することで、ユーザ特有の単語を含んだ音声データに対しても、正確な音声認識結果を得ることができる。特に、音声データに、一般的ではない固有名詞などの未知語を含んだとしても、それを考慮した音声認識結果を得ることができる。

また、本実施形態の端末装置１００において備えられている音響モデルおよび言語モデルは、端末装置１００の利用履歴もしくはユーザ操作に基づいて定められたものである。上述したとおり、これら音響モデルおよび言語モデルは、端末内情報、ユーザ辞書、過去の入力音声、通話音声、音響トレーニングモードなどでカスタマイズされたものである。

これによって、端末装置のユーザ特有の音響モデルおよび言語モデルを利用することができ、よりユーザの特定に沿った音声認識処理を実現することができる。

また、本実施形態の端末装置１００において、仮説再評価部１０６は、当該端末装置１００内に備えている言語モデルを用いて言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび通信部１０１により受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価する。よって、個人に適応した言語モデルによる認識精度向上を実現することができる。

また、端末装置１００において、他の音響モデルとしてＨＭＭを適用して、仮説再評価部１０６は、通信部１０１により受信された音声認識結果を構成する音素列に対応する文ＨＭＭを生成し、音声処理部１０３において処理された音声データに基づいて得られた特徴量系列の、上記生成された文ＨＭＭ上での出力確率を求めることにより、音響尤度を算出し、当該算出した音響尤度からなる再評価する。よって、個人に適応した音響モデルによる認識精度向上を実現することができる。

１００…端末装置、１０１…通信部、１０２…マイク、１０３…音声処理部、１０４…ユーザ辞書保持部、１０５…認識結果拡張部、１０６…仮説再評価部、１０７…表示部、２００…音声認識サーバ、２０１…通信部、２０２…音声認識部。

Claims

ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶するユーザ辞書記憶手段と、
音声データの入力を受け付ける入力手段と、
前記入力手段により入力された音声データを、音声認識を行う外部装置に送信する送信手段と、
前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信手段と、
前記受信手段により受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、前記ユーザ辞書記憶手段に記憶されているユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張手段と、
前記認識結果拡張手段により拡張された音声認識結果を、前記入力手段において入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価手段と、
前記仮説再評価手段による評価にしたがった一の音声認識結果を提示する提示手段と、
を備える端末装置。
前記他の音響モデルおよび前記他の言語モデルは、前記端末装置の利用履歴もしくはユーザ操作に基づいて定められたものであることを特徴とする請求項１記載の端末装置。
前記仮説再評価手段は、
前記他の言語モデルを用いて、前記受信手段により受信された音声認識結果の言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することを特徴とする請求項１または２に記載の端末装置。
前記仮説再評価手段は、
前記他の音響モデルとして、ＨＭＭ（Hidden Markov Model）を適用して、前記受信手段により受信された音声認識結果を構成する音素列に対応する文ＨＭＭを生成し、
前記入力手段により入力された音声データに基づいて得られた特徴量系列の、前記文ＨＭＭ上での出力確率を求めることにより、
音響尤度を算出し、当該算出した音響尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することを特徴とする請求項１から３のいずれか一項に記載の端末装置。
端末装置における音声認識方法において、
音声データの入力を受け付ける入力ステップと、
前記入力ステップにより入力された音声データを、音声認識を行う外部装置に送信する送信ステップと、
前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信ステップと、
前記受信ステップにより受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張ステップと、
前記認識結果拡張ステップにより拡張された音声認識結果を、前記入力ステップにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価ステップと、
前記仮説再評価ステップによる評価にしたがった一の音声認識結果を提示する提示ステップと、
を備える音声認識方法。
コンピュータを、
音声データの入力を受け付ける入力モジュールと、
前記入力モジュールにより入力された音声データを、音声認識を行う外部装置に送信する送信モジュールと、
前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信モジュールと、
前記受信モジュールにより受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張モジュールと、
前記認識結果拡張モジュールにより拡張された音声認識結果を、前記入力モジュールにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価モジュールと、
前記仮説再評価モジュールによる評価にしたがった一の音声認識結果を提示する提示モジュールと、
として機能させるための音声認識プログラム。