JP2013137459A

JP2013137459A - 音声認識装置、方法、及びプログラム

Info

Publication number: JP2013137459A
Application number: JP2011289005A
Authority: JP
Inventors: Seisho Watabe; 生聖渡部
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2011-12-28
Filing date: 2011-12-28
Publication date: 2013-07-11

Abstract

【課題】音声認識性能の高い音声認識装置、方法、及びプログラムを提供すること。
【解決手段】本発明にかかる音声認識装置は、言語モデルを用いて、ユーザの音声を認識する音声認識部１０と、前記ユーザの音声に含まれる自立語を抽出する自立語抽出部２１と、互いに関連する自立語を関連度に対応づけて記憶する自立語関連度ＤＢ３１と、自立語関連度ＤＢ３１に記憶された関連度と音声認識部１０で認識された認識結果に含まれる補正情報とを用いて、自立語抽出部２１で抽出された自立語と関連する関連自立語の優先度を算出する優先度計算部２２と、優先度に応じて、言語モデルの重みを調整する言語モデル更新処理部２４と、を備えたものである。
【選択図】図１

Description

本発明は音声認識装置、方法、及びプログラムに関し、特に詳しくは言語モデルを用いて音声認識を行う音声認識装置、方法、及びプログラムに関する。

近年、話者の話す音声を認識する音声認識装置が利用されている（特許文献１）。特許文献１では、キーワードを記憶し、キーワード認識率を高めるように言語モデルのスコアを調整している。しかしながら、特許文献１では、単語登録直後のキーワードの認識されやすさに問題がある、

特開２０１０−１９７４１１号公報

このような音声認識において、自由文の音声認識を行う場合に重要な言語モデルは、事前入手可能なテキストコーパスを用いて作製される。また、ＴＰＯに合わせて話題や、対応する人も変わり易い。例えば、沖縄旅行の話題を話している最中で、「ソーキそばをたくさん食べた」が「早期そばをたくさん食べた」になってしまう。「ソーキそば」という単語よりも、「早期」＋「そば」の組み合わせの方が出現しやすいモデルになっている。汎用的な言語モデルだけでは、十分な音声認識性能を維持することが難しい。

例えば、Ｎグラム言語モデルは、入力される単語の出現確率をＰ（ｗ）として、以下に示す式のように、条件付き確率によって算出するモデルである。
Ｐ（ｗ）＝Ｐ（ｗ_ｉ｜ｗ_{ｉーＮ−１}・・・ｗ_ｉ―１）

Ｎグラム言語モデルは、ｉ番目の単語ｗ_ｉの生成確率が、（Ｎ−１）単語列ｗ_{ｉーＮ−１}・・・ｗ_ｉー２ｗ_ｉー１に依存する。例えば、３−ｇｒａｍ（トライグラム）を例にとると、単語列ｗ_１ｗ_２に続いて単語ｗ_３が出現する確率は、Ｐ（ｗ_３｜ｗ_１ｗ_２）となる。

この条件付き確率を求めるための学習データは新聞やｗｅｂ情報などのコーパスを用いて行う。しっかりとした日本語らしい情報を選別すると、堅苦しい口調やニュースなどが多く、雑談のような広範囲なタスクにおいて、汎用的な言語モデルだけで十分な音声認識性能を維持することが難しい。また、特許文献１では、キーワードを入力する必要がある。また、話題が大きく変わると、入力したキーワードが実際に話している話題に関連が無くなってしまう。従って、適切な言語モデルを更新することができず、十分な音声認識性能を得ることができない場合がある。

本発明は、このような問題を解決するためになされたものであり、高い音声認識性能を有する音声認識装置、方法、及びプログラムを提供することを目的としている。

本発明の一態様にかかる音声認識装置は、言語モデルを用いて、ユーザの音声を認識する音声認識手段と、前記ユーザの音声に含まれる自立語を抽出する抽出手段と、互いに関連する自立語を関連度に対応づけて記憶する関連度記憶手段と、前記関連度記憶手段に記憶された関連度と前記音声認識手段で認識された認識結果に含まれる補正情報とを用いて、前記抽出手段で抽出された前記自立語と関連する関連自立語の優先度を算出する優先度算出手段と、前記優先度に応じて、前記言語モデルの重みを調整する調整手段と、を備えたものである。この構成によれば、関連度記憶手段を参照するとともに、音声から抽出された自立語を用いて優先度を算出している。さらに、認識結果に含まれる補正情報を用いて、優先度を算出している。このため、言語モデルの重みを適切に調整することができ、音声認識性能を向上することができる。

上記の音声認識装置において、前記補正情報が、前記音声認識手段の認識結果に含まれる前記自立語の尤度、前記自立語の出現時間、及び前記自立語の出現順番の少なくとも一つを含んでいてもよい。このようにすることで、適切に優先度を算出することができる。

上記の音声認識装置が、前記関連自立語の前記優先度に応じて、前記関連自立語が優先語であるか否かを判別する判別手段をさらに備え、前記調整手段が、前記優先語に関するスコアを相対的に大きくするよう、前記言語モデルを更新してもよい。この構成では、優先度に応じて優先語か否かを判別し、優先語のスコアを相対的に大きくしているため、音声認識性能を向上することができる。

上記の音声認識装置は、前記抽出手段で前記抽出された自立語に対する補正係数を前記補正情報に基づいて算出し、前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度を抽出した後、前記関連度と前記補正係数との積の和を前記優先度として算出し、前記判別手段が、前記優先度としきい値との比較結果に応じて、前記関連自立語が前記優先語であるか否かを判別してもよい。これにより、適切な優先語を抽出することができるため、音声認識性能を向上することができる。

上記の音声認識装置は、前記抽出手段で前記抽出された自立語に対する補正係数を前記補正情報に基づいて算出し、前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度を抽出した後、前記関連度と前記補正係数との積の和を前記優先度として算出し、前記判別手段が、前記関連自立語のうち、前記優先度が上位Ｎ（Ｎは自然数）個の自立語を、前記優先語と判別してもよい。これにより、適切な数の優先語を抽出することができるため、音声認識性能を向上することができる。

上記の音声認識装置において、前記自立語が、名詞、形容詞、及び動詞に限定されていてもよい。これにより、適切な自立語を抽出することができる。

上記の音声認識装置において、前記関連度が文章中における２つの自立語の共起頻度に応じて設定されていることを特徴とする請求項１〜５のいずれか１項に記載の音声認識装置。これにより、関連度を適切に設定することができる。

本発明の一態様にかかる音声認識方法は、言語モデルを用いて、ユーザの音声を認識するステップと、前記ユーザの音声に含まれる自立語を抽出するステップと、関連度記憶手段に記憶された関連する自立語間の関連度と音声認識の認識結果に含まれる補正情報とを用いて、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、前記優先度に応じて、前記言語モデルの重みを調整するステップと、を備えたものである。この方法では、関連度記憶手段を参照するとともに、音声から抽出された自立語を用いて優先度を算出しているため、言語モデルの重みを適切に調整することができる。よって、音声認識性能を向上することができる。

本発明の一態様にかかる音声認識プログラムは、コンピュータに対して、言語モデルを用いて、ユーザの音声を認識するステップと、前記ユーザの音声に含まれる自立語を抽出するステップと、関連度記憶手段に記憶された関連する自立語間の関連度と音声認識の認識結果に含まれる補正情報とを用いて、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、前記優先度に応じて、前記言語モデルの重みを調整するステップと、を実行させるものである。このプログラムによれば、関連度記憶手段を参照するとともに、音声から抽出された自立語を用いて優先度を算出しているため、言語モデルの重みを適切に調整することができる。よって、音声認識性能を向上することができる。

本発明により、高い音声認識性能を有する音声認識装置、方法、及びプログラムを提供することができる。

実施の形態にかかる音声認識装置の構成を示すブロック図である。音声認識装置の自立語抽出処理を説明するための図である。音声認識装置の優先度算出処理を説明するための図である。音声認識装置の優先度算出処理に用いられる自立語関連度ＤＢの一例を示す表である。音声認識装置の優先度判別処理を説明するための図である。音声認識装置の言語モデルの更新処理を説明するための図である。

以下、図面を参照して本発明の実施の形態について、図１〜図６を用いて説明する。図１は、本実施の形態にかかる音声認識装置の構成、及びその処理フローを示すブロック図である。図２〜図６は、音声認識装置の処理を説明するための図である。音声認識部１０と、音響モデル１３と、Ｎｇｒａｍ修正モデル１４と、認識結果履歴１５と、Ｎｇｒａｍ言語モデル１６と、優先語推定部２０と、自立語関連度ＤＢ（データベース）３１と、を備えている。また、音声認識部１０は、特徴量抽出部１１と、類似度計算部１２とを備えている。優先語推定部２０は、自立語抽出部２１と、優先度計算部２２と、優先語判別部２３と、言語モデル更新処理部２４と、優先度補正部２５と、を備えている。

音声認識部１０には、マイクからの音声信号が入力される。音声認識部１０は、入力された音声を認識し、音声認識結果（例えばテキストデータ）を出力する。具体的には、特徴量抽出部１１が音声データをフーリエ変換して、特徴量を抽出する。そして、類似度計算部１２が、音響モデル１３とＮｇｒａｍ修正モデル１４とを用いて、類似度計算を行う。例えば、特徴量抽出部１１が抽出した特徴量のパターンに対してパターンマッチによる類似度計算を行う。こうすることで、音声認識結果であるテキストデータが生成される。

音響モデル１３は、どのような特徴量のパターン（特徴ベクトル）がどの程度の確率で出力されるかを求めるために、ある単語がどのような音に対応しているかを表したモデルである。Ｎｇｒａｍ修正モデル１４は、後述するＮｇｒａｍ言語モデル１６を更新した言語モデルである。例えば、Ｎｇｒａｍ言語モデル１６は、例えば、多数の文章から単語（形態素）同士のつながりを統計化したモデルである。前の単語列が分かった場合、言語モデルに基づいて、次にどの単語がどの程度の確率で出現するかを予測する。Ｎｇｒａｍ修正モデル１４に基づいて、単語同士が連結して出現する出現確率に対するスコアが付与され、このスコアに基づいて音声認識が行われる。Ｎｇｒａｍ言語モデル１６としては、例えば、３−ｇｒａｍ（トライグラム）言語モデルを用いることができる。なお、音声認識部１０での処理については公知の手法を用いることができるため、詳細な説明を省略する。

ここでは、話者が沖縄旅行について話している例について説明する。図２に示すように、音声認識部１０が「沖縄に行った」、「家族と旅行で行った。」、「海で泳いだ。」、「きれいだった。」、「お腹がすいた」などを音声認識結果として出力する。
さらに、音声認識部１０は、音声認識処理において認識された自立語の尤度を算出している。例えば、「沖縄に行った。」のうち、「沖縄」の尤度は０．６であり、「行く」は、０．５である。音声認識部１０は、その他の自立語、例えば、「家族」、「旅行」等についても同様に尤度を求めている。

認識結果履歴１５は、音声認識部１０での音声認識結果の履歴をデータベースとして記憶する。従って、上記の文が認識結果履歴１５に格納される。認識結果履歴１５は、認識結果であるテキストデータをその取得時間とともに時系列に従って記憶する。

また、認識結果履歴１５は、自立語に対して、上記の尤度と、出現時間（発生時間）を対応付けて格納している。認識結果履歴１５は、例えば、１２時００分００秒において、「沖縄」という自立語が、尤度０．６で認識され、「行く」という自立語が０．５で認識されたことを、記憶している。同様に、認識結果履歴１５は、１２時０６分２０秒において、「お腹」という自立語が尤度０．５で認識され、「すく」という自立語が尤度０．１で認識されたことを記憶している。認識結果履歴１５は、その他の自立語、例えば、「家族」、「旅行」等についても同様に尤度と出現時間を対応して記憶している。

次に、優先語推定部２０が認識結果履歴１５に格納されている認識結果履歴に基づいて、優先語を推定する。まず、自立語抽出部２１は、認識結果履歴１５に格納された音声認識結果から自立語を抽出する。ここでは、自立語の定義を名詞、動詞、及び形容詞に限定している。すなわち、自立語抽出部２１は、助動詞、助詞、形容動詞、副詞、連体詞、接続詞、感動詞等を抽出しなくてもよい。上記の文例では「沖縄」、「行く」、「家族」、「旅行」、「行く」、「海」、「泳ぐ」、「きれい」、「お腹」、「すく」が自立語として抽出される。ここで、自立語履歴を最近のものから順にｎ個取り出した自立語のグループをＶ_ｎとする。直近１０個の自立語の履歴を参照する場合、ｎ＝１０となり、Ｖ_１０＝［すく、お腹、きれい、・・・・、沖縄］となる。以下、１０個の自立語からなるグループを抽出する例を説明する。もちろん、Ｖ_ｎに含まれる自立語の数は、１、又は複数であればよく、重複していてもよい。

自立語抽出部２１で抽出された自立語に基づいて、優先度計算部２２が優先度を計算する。優先度計算部２２は、オントロジー３０としての自立語関連度ＤＢ３１を参照して、優先度を計算する。自立語関連度ＤＢ３１には、互いに関連がある２つの自立語（関連語ペア）が関連度に対応づけて記憶されている。すなわち、自立語関連度ＤＢ３１では、自立語がオントロジー化されている。

自立語抽出部２１が抽出した自立語の数ｎを１０としている。直近の自立語のグループＶ_１０が抽出されているとする場合において、「シーサー」という名詞が発話中に出現する優先度を例にとる。自立語関連度ＤＢ３１には、２つの自立語間の関連度が予め定義されている。なお、関連度は０以上、１以下の値として設定されている。自立語関連度ＤＢ３１に記憶された「シーサー」という名詞と、Ｖ_１０に含まれる「すく」との関連度を抽出する。同様に、Ｖ_１０に含まれる他の自立語、例えば「お腹」、「きれい」等についても、「シーサー」とのペアでの関連度を抽出する。自立語関連度ＤＢ３１では、図３に示すように、「シーサー」と「すく」との関連語ペアの関連度（シーサー｜すく）が０．０００１であり、「シーサー」と「お腹」との関連語ペアの関連度（シーサー｜お腹）が０．００３であり、「シーサー」と「きれい」との関連語ペアの関連度（シーサー｜きれい）が０．０１１となっている。関連度は、認識結果履歴１５から抽出された自立語（抽出自立語）と、抽出自立語に関連する自立語（関連自立語）との関連度合いを示す値であり、２つの自立語の関連が高い程、関連度が大きくなる。このように、関連度は、２つの自立語の関連度合いによって設定されている。

ここで、図４に自立語関連度ＤＢ３１の格納されているデータの一例を示す。図４は、自立語関連度ＤＢ３１に格納されているデータの一例を示すテーブルである。まず、キーとなる自立語と、その自立語とペアとなる自立語とが、関連度に対応付けられて記憶されている。すなわち、互いに関連する２つの自立語（関連語ペア）と、その関連語ペアに対応する関連度が横一列に配置されている。自立語関連度ＤＢ３１には、多数の関連度ペアが登録されている。例えば、キーとなる自立語「沖縄」に対して、「シーサー」、「ジュゴン」、「石垣島」・・・「タコライス」がそれぞれペアとなっており、それぞれに対して関連度が設定されている。同様に、「石垣島」、「シーサー」という自立語キーに対しても、自立語ペアとその関連度が設定されている。

ここでは、多数の文章における自立語の共起頻度に応じて、関連度を設定している。例えば、複数の文章を用意し、１文に２つの自立語が共に含まれる回数をカウントして、その回数を共起頻度とする。そして、共起頻度の高い（Ｎ回以上）ペア、例えば、「沖縄」と「シーサー」との関連語ペア、「沖縄」と「ジュゴン」との関連語ペア等については、関連度（沖縄｜シーサー）、（沖縄｜ジュゴン）を０．９としている。共起頻度の低い（Ｍ回未満）ペア、例えば、「シーサー」と「さんご礁」との関連語ペアについては、関連度（シーサー｜さんご礁）を０．１としている。そして、共起頻度が中くらい（Ｍ回以上、Ｎ回未満）のペア、例えば、「沖縄」と「米軍基地」との関連語ペア、「沖縄」と「タコライス」との関連語ペアについては、関連度（沖縄｜米軍基地）、（沖縄｜タコライス）を０．５とする。

さらに、関連度（共起頻度）の高い自立語の２次関連語については、関連度を０．１とする。例えば、「沖縄」と「シーサー」との関連語ペアは、関連度（沖縄｜シーサー）が０．９であり、「沖縄」と「ジュゴン」との関連語ペアは、関連度（沖縄｜ジュゴン）が０．９である。このため、「シーサー」と「ジュゴン」は「沖縄」を介して関連していることになる。よって、シーサー」の「ジュゴン」の関連語ペアについては、関連度（シーサー｜ジュゴン）を０．１としている。また、テーブルにない組み合わせ（例えば、共起頻度が０回、かつ２次関連語でない関連語ペア）については、関連度を０とする。もちろん、自立語関連度ＤＢ３１の設定については、特に限定されるものではない。例えば、上記の例では、関連度を０、０．１、０．５、０．９の４段階としているが、さらに関連度を細分化して自立語関連度ＤＢ３１に記憶させてもよい。

そして、優先度計算部２２は、抽出された関連度に基づいて、優先度を算出し、優先度補正部２５は、優先度を認識結果履歴１５に基づいて補正する。具体的には、優先度補正部２５は、認識結果履歴１５に含まれる補正情報に基づいて、優先度を補正する補正係数ｋ_１〜ｋ_ｍを算出する。自立語関連度ＤＢ３１に記憶された自立語ｗの優先度をＰｒｉｏｒｉｔｙ（ｗ）とすると、以下の式（１）に示すように、関連度に補正係数ｋ_１〜ｋ_ｍを乗じて、総和をとることで、優先度Ｐｒｉｏｒｉｔｙ（ｗ）が算出される。

なお、ｗ_ｉは、自立語抽出部２１が抽出した自立語であり、ここでは１０個の自立語が抽出されている。優先度計算部２２は、「シーサー」とＶ_１０に含まれる１０個の自立語との関連度をそれぞれ抽出する。優先度計算部２２は、それぞれの自立語について、「シーサー」との関連度と補正係数との積を求め、１０個分の積の総和を優先度として算出する。自立語関連度ＤＢ３１に記憶された関連度は、認識結果履歴１５に含まれる補正情報に基づいて、補正されている。よって、以下の通り、「シーサー」という自立語の優先度Ｐｒｉｏｒｉｔｙ（シーサー）を算出することができる。

Ｐｒｉｏｒｉｔｙ（シーサー）＝（シーサー｜すく）×ｋ_１×ｋ_２・・・×ｋ_ｍ＋（シーサー｜お腹）×ｋ_１×ｋ_２・・・×ｋ_ｍ＋（シーサー｜きれい）×ｋ_１×ｋ_２・・・×ｋ_ｍ＋（シーサー｜泳ぐ）×ｋ_１×ｋ_２・・・×ｋ_ｍ＋（シーサー｜海）×ｋ_１×ｋ_２・・・×ｋ_ｍ＋（シーサー｜行く）×ｋ_１×ｋ_２・・・×ｋ_ｍ＋（シーサー｜旅行）×ｋ_１×ｋ_２・・・×ｋ_ｍ＋（シーサー｜家族）×ｋ_１×ｋ_２・・・×ｋ_ｍ＋（シーサー｜行く）×ｋ_１×ｋ_２・・・×ｋ_ｍ＋（シーサー｜沖縄）×ｋ_１×ｋ_２・・・×ｋ_ｍ

補正係数ｋ_１〜ｋ_ｍの算出例を説明する。優先度補正部２５は、認識結果履歴１５の尤度に基づいて補正係数ｋ_１を決定する。すなわち、認識結果履歴１５に格納された自立語の尤度を補正情報として用いる。図５に示すように、「お腹」の尤度は０．５であり、「すく」の尤度は０．６であり、「きれい」の尤度は、０．６である。そして、優先度補正部２５は、尤度としきい値の比較結果により、補正係数を算出する。

尤度が０．３以上の場合は、ｋ_１＝１．０とし、尤度が０．３未満の場合は、ｋ_１＝０．９を定義する。このように、それぞれの自立語に対して、その尤度に基づいて補正係数ｋ_１が設定される。なお、上記の例では、尤度に対するしきい値を０．３としたが、しきい値は特に限定されるものではない。複数のしきい値との比較結果によって、補正係数を多段階に設定してもよい。さらには、尤度としきい値との比較結果ではなく、尤度を変数とする関数によって、補正係数を求めてもよい。

補正係数ｋ_２は、自立語の出現時間によって定義される。例えば、自立語の出現時間と現在時間の差が１０秒未満の場合ｋ_２＝１．０として、１０秒以上である場合、ｋ_２＝０．８とする。このように、自立語の出現時間を補正情報として用いることができる。出現時間が現在時間に近い自立語は、補正係数ｋ_２を大きくし、現在時間から遠い自立語は、補正係数ｋ_２を小さくする。もちろん、しきい値となる時間を多数設定して、補正係数ｋ_２を多段階に設定してもよい。

さらに、自立語の出現順番を補正情報として用いることができる。例えば、認識結果履歴１５における出現順番が直前２個までの場合、ｋ_３＝１．０として、３個以上前の場合ｋ_３＝０．７と定義する。このように、優先度補正部２５は、補正係数ｋ_３を自立語の出現時間を定義する。出現順番が最近の自立語は、補正係数ｋ_３を大きくし、出現順番が古い自立語は補正係数ｋ_３を小さくする。もちろん、しきい値となる回数を多数設定して、補正係数ｋ_３を多段階に設定してもよい。

上記の通り、１０個の関連度とその補正係数との積の総和を、算出する。同様に、自立語関連度ＤＢ３１に含まれる全ての自立語について、関連度と補正係数との積の総和を算出して、優先度を求める。優先度は、認識結果履歴１５に含まれる複数の抽出自立語に対して、自立語関連度ＤＢ３１に格納された関連自立語がどれくらい関連しているかを示す値となる。例えば、上記の例では、Ｐｒｉｏｒｉｔｙ（シーサー）＝０．４と算出される。なお、上記の例では、補正係数ｋ_１〜ｋ_３を用いる例について説明したが、補正係数の数は３に限られるものではない。例えば、上記の補正係数ｋ_１〜ｋ_３のうち、少なくとも一つを用いればよく、あるいは２個以上を組み合わせて用いてもよい。さらには、認識結果履歴１５から他の補正情報を抽出して、補正係数を用いてもよい。

優先語判別部２３は、優先度補正部２５で補正された優先度に基づいて、関連自立語が優先語であるか否かを判別する。優先語判別部２３は、優先度としきい値Ｔｈとを比較し、その比較結果に応じて、優先語であるか否かを判別する。例えば、優先語判別部２３には、予めしきい値Ｔｈが０．３と設定されているとする。上記の例では、Ｐｒｉｏｒｉｔｙ（シーサー）＝０．４であり、しきい値Ｔｈ以上であるため、「シーサー」を優先語であると判定する。もちろん、優先度計算部２２は、自立語関連度ＤＢ３１に記憶されている「シーサー」以外の自立語についても、優先度を算出している。そして、優先語判別部２３、「シーサー」以外の自立語について、優先度としきい値Ｔｈとの比較結果に応じて、優先語であるか否かを判別する。なお、優先語であるか否かの判別は、別の方法であってもよい。例えば、関連度の高い上位Ｎ語を、優先語として判別してもよい。さらには、しきい値Ｔｈによる判別と、上位Ｎ語による判別を組み合わせて、優先語を選別してもよい。

次に、言語モデル更新処理部２４は、Ｎｇｒａｍ言語モデル１６を更新する。Ｎｇｒａｍ言語モデル１６には、多くの文例に基づいて、単語間のつながりが重み付けされている。言語モデル更新処理部２４は、優先語に関するＮｇｒａｍ言語モデル１６の重みを調整する。これにより、音声認識処理において、優先語が優先して認識されるようになる。具体的には、Ｎｇｒａｍの要素に優先語を含むものが存在する場合、言語モデルにおけるスコアを一定の変換式にしたがって更新する。例えば、上記のように「シーサー」が優先語と判別された場合、「シーサー」を含む要素のスコアを増加させる。このスコアによって、出現確率（条件付き確率）が最大となる単語を求める。これにより、言語モデルにおいて、優先語が重み付けされて、優先語を含む文が認識されやすくなる。なお、上記のスコアを増加させることで、出現確率の和が１を越えていてもよい。すなわち、全単語の出現確率の総和が１を越えていてもよい。

図６に示すように、Ｎｇｒａｍ言語モデル「私−は−シーサー」や「シーサー−を−見」などの優先語である「シーサー」を含むスコアを１０倍する。それ以外の要素、すなわち優先語を含まない要素（ここでは、「私−は−ライオン」、「ライオン−を−見」等）はそのままのスコアとなる。話者が沖縄旅行について話している場合、沖縄に関連が高い自立語が優先語として判定される。このため、「早期そば」ではなく、「ソーキそば」と認識することができ、音声認識性能を向上することができる。さらに、認識結果履歴１５から抽出される補正情報を用いて、優先度を補正している。これにより、適切に優先度を算出することができ、音声認識性能を向上することができる。

上記のように、優先語に該当する場合、ｓｃｏｒｅ（Ｌ）＝ｓｃｏｒｅ（Ｌ）×１０とする変換式を用いる。なお、スコアの変換式はｍ（ｍは正数）倍する変換式ｓｃｏｒｅ（Ｌ）＝ｓｃｏｒｅ（Ｌ）×ｍを用いることができる。さらに、変換式として、定数ａ（ａは正数）を加算する変換式ｓｃｏｒｅ（Ｌ）＝ｓｃｏｒｅ（Ｌ）＋ａを用いてもよい。もちろん、倍数ｍと定数ａを組み合わせた変換式ｃｏｒｅ（Ｌ）＝ｓｃｏｒｅ（Ｌ）×ｍ＋ａを用いてもよい。

さらに、優先度の値に応じて、その優先語の倍数ｍや定数ａを変更してもよい。優先語と判別された自立語の数に応じて正規化してもよい。例えば、優先語と判別された自立語の数が多い場合、倍数ｍの値や定数ａの値を小さくし、優先語と判別された自立語の数が少ない場合、倍数ｍの値や定数ａの値を大きくしてもよい。

言語モデル更新処理部２４が更新した言語モデルをＮｇｒａｍ修正モデル１４とする。このようにして、Ｎｇｒａｍ言語モデル１６を随時更新することで、現在のタスクに合わせて認識しやすい音声認識装置を実現することができる。よって、音声認識性能の高い音声認識装置を実現することができる。また、実際の音声認識結果の履歴に対して関連の高い自立語に対して重み付けを行っているため、音声認識性能をより向上することができる。話題が変わった場合でも、適切に対応することができる。さらに、認識結果履歴１５から取得される補正情報を用いて優先度の補正係数を算出しているため、音性認識性能を向上することができる。言語モデルを、例えば、１発話毎に更新するようにしてもよい。

なお、上記の方法では、優先語に関するスコアを増加させるような変換式を用いたが、反対に、非優先語（優先語ではない自立語）に関するスコアを減少させるような変換式を用いてもよい。すなわち、優先語に関するスコアが非優先語に関するスコアに対して相対的に大きくなるように、スコアを調整すればよい。さらに、上記の方法では、優先語であるか否かを判別せずに、スコアを調整してもよい。例えば、優先度に応じて、スコアを調整してもよい。具体的には、優先度の値に応じて、スコアの変換式における倍数ｍや定数ａを決定すればよい。換言すれば、優先度をスコアの変換式に含めて、優先度の高い関連自立語についてはスコアを相対的に大きくすればよい。このように、優先度の値に応じて、言語モデルの重みを調整してもよい。このようにしても、上記と同様の理由により、音声認識性能を向上することができる。

さらに、上述した音声認識処理は、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、若しくはＣＰＵ（Central Processing Unit）又はこれらの組み合わせを含むコンピュータにプログラムを実行させることによって実現してもよい。

上述の例において、音声認識処理をコンピュータに行わせるための命令群を含むプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更及び組み合わせをすることが可能である。

１０音声認識部
１１特徴量抽出部
１２類似度計算部
１３音響モデル
１４Ｎｇｒａｍ修正モデル
１５認識結果履歴
１６Ｎｇｒａｍ言語モデル
２０優先語推定部
２１自立語抽出部
２２優先度計算部
２３優先語判別部
２４言語モデル更新処理部
２５優先度補正部
３０オントロジー
３１自立語関連度ＤＢ

Claims

言語モデルを用いて、ユーザの音声を認識する音声認識手段と、
前記ユーザの音声に含まれる自立語を抽出する抽出手段と、
互いに関連する自立語を関連度に対応づけて記憶する関連度記憶手段と、
前記関連度記憶手段に記憶された関連度と前記音声認識手段で認識された認識結果に含まれる補正情報とを用いて、前記抽出手段で抽出された前記自立語と関連する関連自立語の優先度を算出する優先度算出手段と、
前記優先度に応じて、前記言語モデルの重みを調整する調整手段と、を備えた音声認識装置。
前記補正情報が、前記音声認識手段の認識結果に含まれる前記自立語の尤度、前記自立語の出現時間、及び前記自立語の出現順番の少なくとも一つを含んでいることを特徴とする請求項１に記載の音声認識装置。
前記関連自立語の前記優先度に応じて、前記関連自立語が優先語であるか否かを判別する判別手段をさらに備え、
前記調整手段が、前記優先語に関するスコアを相対的に大きくするよう、前記言語モデルを更新することを特徴とする請求項１又は２に記載の音声認識装置。
前記抽出手段で前記抽出された自立語に対する補正係数を前記補正情報に基づいて算出し、
前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度を抽出した後、前記関連度と前記補正係数との積の和を前記優先度として算出し、
前記判別手段が、前記優先度としきい値との比較結果に応じて、前記関連自立語が前記優先語であるか否かを判別することを特徴とする請求項３に記載の音声認識装置。
前記抽出手段で前記抽出された自立語に対する補正係数を前記補正情報に基づいて算出し、
前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度を抽出した後、前記関連度と前記補正係数との積の和を前記優先度として算出し、
前記判別手段が、前記関連自立語のうち、前記優先度が上位Ｎ（Ｎは自然数）個の自立語を、前記優先語と判別することを特徴とする請求項３、又は４に記載の音声認識装置。
前記自立語が、名詞、形容詞、及び動詞に限定されていることを特徴する請求項１〜５のいずれか１項に記載の音声認識装置。
前記関連度が文章中における２つの自立語の共起頻度に応じて設定されていることを特徴とする請求項１〜６のいずれか１項に記載の音声認識装置。
言語モデルを用いて、ユーザの音声を認識するステップと、
前記ユーザの音声に含まれる自立語を抽出するステップと、
関連度記憶手段に記憶された関連する自立語間の関連度と音声認識の認識結果に含まれる補正情報とを用いて、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、
前記優先度に応じて、前記言語モデルの重みを調整するステップと、を備えた音声認識方法。
コンピュータに対して、
言語モデルを用いて、ユーザの音声を認識するステップと、
前記ユーザの音声に含まれる自立語を抽出するステップと、
関連度記憶手段に記憶された関連する自立語間の関連度と音声認識の認識結果に含まれる補正情報とを用いて、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、
前記優先度に応じて、前記言語モデルの重みを調整するステップと、
を実行させる音声認識プログラム。