JP2013137458A

JP2013137458A - 音声認識装置、方法、及びプログラム

Info

Publication number: JP2013137458A
Application number: JP2011289004A
Authority: JP
Inventors: Seisho Watabe; 生聖渡部
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2011-12-28
Filing date: 2011-12-28
Publication date: 2013-07-11
Anticipated expiration: 2031-12-28
Also published as: JP5772585B2

Abstract

【課題】音声認識性能の高い音声認識装置、方法、及びプログラムを提供すること。
【解決手段】本発明にかかる音声認識装置は、言語モデルを用いて、ユーザの音声を認識する音声認識手段と、前記ユーザの音声に含まれる自立語を抽出する自立語抽出部２１と、互いに関連する自立語を関連度に対応づけて記憶する自立語関連度ＤＢ３１と、自立語関連度ＤＢ３１を参照して、自立語抽出部２１で抽出された自立語と関連する関連自立語の優先度を算出する優先度計算部２２と、優先度に応じて、言語モデルの重みを調整する言語モデル更新処理部２４と、を備えたものである。
【選択図】図１

Description

本発明は音声認識装置、方法、及びプログラムに関し、特に詳しくは言語モデルを用いて音声認識を行う音声認識装置、方法、及びプログラムに関する。

近年、話者の話す音声を認識する音声認識装置が利用されている（特許文献１）。特許文献１では、キーワードを記憶し、キーワード認識率を高めるように言語モデルのスコアを調整している。しかしながら、特許文献１では、単語登録直後のキーワードの認識されやすさに問題がある、

特開２０１０−１９７４１１号公報

このような音声認識において、自由文の音声認識を行う場合に重要な言語モデルは、事前入手可能なテキストコーパスを用いて作製される。また、ＴＰＯに合わせて話題や、対応する人も変わり易い。例えば、沖縄旅行の話題を話している最中で、「ソーキそばをたくさん食べた」が「早期そばをたくさん食べた」になってしまう。「ソーキそば」という単語よりも、「早期」＋「そば」の組み合わせの方が出現しやすいモデルになっている。汎用的な言語モデルだけでは、十分な音声認識性能を維持することが難しい。

例えば、Ｎグラム言語モデルは、入力される単語の出現確率をＰ（ｗ）として、以下に示す式のように、条件付き確率によって算出するモデルである。
Ｐ（ｗ）＝Ｐ（ｗ_ｉ｜ｗ_{ｉーＮ−１}・・・ｗ_ｉ―１）

Ｎグラム言語モデルは、ｉ番目の単語ｗ_ｉの生成確率が、（Ｎ−１）単語列ｗ_{ｉーＮ−１}・・・ｗ_ｉー２ｗ_ｉー１に依存する。例えば、３−ｇｒａｍ（トライグラム）を例にとると、単語列ｗ_１ｗ_２に続いて単語ｗ_３が出現する確率は、Ｐ（ｗ_３｜ｗ_１ｗ_２）となる。

この条件付き確率を求めるための学習データは新聞やｗｅｂ情報などのコーパスを用いて行う。しっかりとした日本語らしい情報を選別すると、堅苦しい口調やニュースなどが多く、雑談のような広範囲なタスクにおいて、汎用的な言語モデルだけで十分な音声認識性能を維持することが難しい。また、特許文献１では、キーワードを入力する必要がある。また、話題が大きく変わると、入力したキーワードが実際に話している話題に関連が無くなってしまう。従って、適切な言語モデルを更新することができず、十分な音声認識性能を得ることができない場合がある。

本発明は、このような問題を解決するためになされたものであり、高い音声認識性能を有する音声認識装置、方法、及びプログラムを提供することを目的としている。

本発明の一態様にかかる音声認識装置は、言語モデルを用いて、ユーザの音声を認識する音声認識手段と、前記ユーザの音声に含まれる自立語を抽出する抽出手段と、互いに関連する自立語を関連度に対応づけて記憶する関連度記憶手段と、前記関連度記憶手段を参照して、前記抽出手段で抽出された前記自立語と関連する関連自立語の優先度を算出する優先度算出手段と、前記優先度に応じて、前記言語モデルの重みを調整する調整手段と、を備えたものである。この構成によれば、関連度記憶手段を参照するとともに、音声から抽出された自立語を用いて優先度を算出しているため、言語モデルの重みを適切に調整することができる。よって、音声認識性能を向上することができる。

上記の音声認識装置が、前記関連自立語の前記優先度に応じて、前記関連自立語が優先語であるか否かを判別する判別手段をさらに備え、前記調整手段が、前記優先語に関するスコアを相対的に大きくするよう、前記言語モデルを更新してもよい。この構成では、優先度に応じて優先語か否かを判別し、優先語のスコアを相対的に大きくしているため、音声認識性能を向上することができる。

上記の音声認識装置は、前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度の和を優先度として算出し、前記判別手段が、前記優先度としきい値との比較結果に応じて、前記関連自立語が前記優先語であるか否かを判別してもよい。これにより、適切な優先語を抽出することができるため、音声認識性能を向上することができる。

上記の音声認識装置は、前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度の和を優先度として算出し、前記判別手段が、前記関連自立語のうち、前記優先度が上位Ｎ（Ｎは自然数）個の自立語を、前記優先語と判別してもよい。これにより、適切な数の優先語を抽出することができるため、音声認識性能を向上することができる。

上記の音声認識装置において、前記自立語が、名詞、形容詞、及び動詞に限定されていてもよい。これにより、適切な自立語を抽出することができる。

上記の音声認識装置において、前記関連度が文章中における２つの自立語の共起頻度に応じて設定されていることを特徴とする請求項１〜５のいずれか１項に記載の音声認識装置。これにより、関連度を適切に設定することができる。

本発明の一態様にかかる音声認識方法は、言語モデルを用いて、ユーザの音声を認識するステップと、前記ユーザの音声に含まれる自立語を抽出するステップと、関連する自立語を関連度に対応づけて記憶された関連度記憶手段を参照して、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、前記優先度に応じて、前記言語モデルの重みを調整するステップと、を備えたものである。この方法では、関連度記憶手段を参照するとともに、音声から抽出された自立語を用いて優先度を算出しているため、言語モデルの重みを適切に調整することができる。よって、音声認識性能を向上することができる。

本発明の一態様にかかる音声認識プログラムは、コンピュータに対して、言語モデルを用いて、ユーザの音声を認識するステップと、前記ユーザの音声に含まれる自立語を抽出するステップと、関連する自立語を関連度に対応づけて記憶された関連度記憶手段を参照して、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、前記優先度に応じて、前記言語モデルの重みを調整するステップと、を実行させるものである。このプログラムによれば、関連度記憶手段を参照するとともに、音声から抽出された自立語を用いて優先度を算出しているため、言語モデルの重みを適切に調整することができる。よって、音声認識性能を向上することができる。

本発明により、高い音声認識性能を有する音声認識装置、方法、及びプログラムを提供することができる。

実施の形態にかかる音声認識装置の構成を示すブロック図である。音声認識装置の自立語抽出処理を説明するための図である。音声認識装置の優先度算出処理を説明するための図である。音声認識装置の優先度算出処理に用いられる自立語関連度ＤＢの一例を示す表である。音声認識装置の言語モデルの更新処理を説明するための図である。

以下、図面を参照して本発明の実施の形態について、図１〜図５を用いて説明する。図１は、本実施の形態にかかる音声認識装置の構成、及びその処理フローを示すブロック図である。図２〜図５は、音声認識装置の処理を説明するための図である。音声認識部１０と、音響モデル１３と、Ｎｇｒａｍ修正モデル１４と、認識結果履歴１５と、Ｎｇｒａｍ言語モデル１６と、優先語推定部２０と、自立語関連度ＤＢ（データベース）３１と、を備えている。また、音声認識部１０は、特徴量抽出部１１と、類似度計算部１２とを備えている。優先語推定部２０は、自立語抽出部２１と、優先度計算部２２と、優先語判別部２３と、言語モデル更新処理部２４と、を備えている。

音声認識部１０には、マイクからの音声信号が入力される。音声認識部１０は、入力された音声を認識し、音声認識結果（例えばテキストデータ）を出力する。具体的には、特徴量抽出部１１が音声データをフーリエ変換して、特徴量を抽出する。そして、類似度計算部１２が、音響モデル１３とＮｇｒａｍ修正モデル１４とを用いて、類似度計算を行う。例えば、特徴量抽出部１１が抽出した特徴量のパターンに対してパターンマッチによる類似度計算を行う。こうすることで、音声認識結果であるテキストデータが生成される。

音響モデル１３は、どのような特徴量のパターン（特徴ベクトル）がどの程度の確率で出力されるかを求めるために、ある単語がどのような音に対応しているかを表したモデルである。Ｎｇｒａｍ修正モデル１４は、後述するＮｇｒａｍ言語モデル１６を更新した言語モデルである。例えば、Ｎｇｒａｍ言語モデル１６は、例えば、多数の文章から単語（形態素）同士のつながりを統計化したモデルである。前の単語列が分かった場合、言語モデルに基づいて、次にどの単語がどの程度の確率で出現するかを予測する。Ｎｇｒａｍ修正モデル１４に基づいて、単語同士が連結して出現する出現確率に対するスコアが付与され、このスコアに基づいて音声認識が行われる。Ｎｇｒａｍ言語モデル１６としては、例えば、３−ｇｒａｍ（トライグラム）言語モデルを用いることができる。なお、音声認識部１０での処理については公知の手法を用いることができるため、詳細な説明を省略する。

ここでは、話者が沖縄旅行について話している例について説明する。図２に示すように、音声認識部１０が「沖縄に行った」、「家族と旅行で行った。」、「海で泳いだ。」、「きれいだった。」、「ソーキそばもたくさん食べた」などを音声認識結果として出力する。

認識結果履歴１５は、音声認識部１０での音声認識結果の履歴をデータベースとして記憶する。従って、上記の文が認識結果履歴１５に格納される。認識結果履歴１５は、認識結果であるテキストデータをその取得時間とともに時系列に従って記憶する。

次に、優先語推定部２０が認識結果履歴１５に格納されている認識結果履歴に基づいて、優先語を推定する。まず、自立語抽出部２１は、認識結果履歴１５に格納された音声認識結果から自立語を抽出する。ここでは、自立語の定義を名詞、動詞、及び形容詞に限定している。すなわち、助動詞、助詞、形容動詞、副詞、連体詞、接続詞、感動詞等を抽出しなくてもよい。上記の文例では「沖縄」、「行く」、「家族」、「旅行」、「行く」、「海」、「泳ぐ」、「きれい」、「ソーキそば」、「食べる」が自立語として抽出される。ここで、自立語履歴を最近のものから順にｎ個取り出した自立語のグループをＶ_ｎとする。直近１０個の自立語の履歴を参照する場合、ｎ＝１０となり、Ｖ_１０＝［食べる、ソーキそば、きれい、・・・・、沖縄］となる。以下、１０個の自立語からなるグループを抽出する例を説明する。もちろん、Ｖ_ｎに含まれる自立語の数は、１、又は複数であればよく、重複していてもよい。

自立語抽出部２１で抽出された自立語に基づいて、優先度計算部２２が優先度を計算する。優先度計算部２２は、オントロジー３０としての自立語関連度ＤＢ３１を参照して、優先度を計算する。自立語関連度ＤＢ３１には、互いに関連がある２つの自立語（関連語ペア）が関連度に対応づけて記憶されている。すなわち、自立語関連度ＤＢ３１では、自立語がオントロジー化されている。

自立語抽出部２１が抽出した自立語の数ｎを１０としている。直近の自立語のグループＶ_１０が抽出されているとする場合において、「シーサー」という名詞が発話中に出現する優先度を例にとる。自立語関連度ＤＢ３１には、２つの自立語間の関連度が予め定義されている。なお、関連度は０以上、１以下の値として設定されている。自立語関連度ＤＢ３１に記憶された「シーサー」という名詞と、Ｖ_１０に含まれる「食べる」との関連度を抽出する。同様に、Ｖ_１０に含まれる他の自立語、例えば「ソーキそば」、「きれい」等についても、「シーサー」とのペアでの関連度を抽出する。自立語関連度ＤＢ３１では、図３に示すように、「シーサー」と「食べる」との関連語ペアの関連度（シーサー｜食べる）が０．０００１であり、「シーサー」と「ソーキそば」との関連語ペアの関連度（シーサー｜ソーキそば）が０．２１であり、「シーサー」と「きれい」との関連語ペアの関連度（シーサー｜きれい）が０．０１１となっている。関連度は、認識結果履歴１５から抽出された自立語（抽出自立語）と、抽出自立語と関連する自立語（関連自立語）の関連度合いを示す値であり、２つの自立語の関連が高い程、関連度が大きくなる。このように、関連度は、２つの自立語の関連度合いによって設定されている。

ここで、図４に自立語関連度ＤＢ３１の格納されているデータの一例を示す。図４は、自立語関連度ＤＢ３１に格納されているデータの一例を示すテーブルである。まず、キーとなる自立語と、その自立語とペアとなる自立語とが、関連度に対応付けられて記憶されている。すなわち、互いに関連する２つの自立語（関連語ペア）と、その関連語ペアに対応する関連度が横一列に配置されている。自立語関連度ＤＢ３１には、多数の関連度ペアが登録されている。例えば、キーとなる自立語「沖縄」に対して、「シーサー」、「ジュゴン」、「石垣島」・・・「タコライス」がそれぞれペアとなっており、それぞれに対して関連度が設定されている。同様に、「石垣島」、「シーサー」という自立語キーに対しても、自立語ペアとその関連度が設定されている。

ここでは、多数の文章における自立語の共起頻度に応じて、関連度を設定している。例えば、複数の文章を用意し、１文に２つの自立語が共に含まれる回数をカウントして、その回数を共起頻度とする。そして、共起頻度の高い（Ｎ回以上）ペア、例えば、「沖縄」と「シーサー」との関連語ペア、「沖縄」と「ジュゴン」との関連語ペア等については、関連度（沖縄｜シーサー）、（沖縄｜ジュゴン）を０．９としている。共起頻度の低い（Ｍ回未満）ペア、例えば、「シーサー」と「さんご礁」との関連語ペアについては、関連度（シーサー｜さんご礁）を０．１としている。そして、共起頻度が中くらい（Ｍ回以上、Ｎ回未満）のペア、例えば、「沖縄」と「米軍基地」との関連語ペア、「沖縄」と「タコライス」との関連語ペアについては、関連度（沖縄｜米軍基地）、（沖縄｜タコライス）を０．５とする。

さらに、関連度（共起頻度）の高い自立語の２次関連語については、関連度を０．１とする。例えば、「沖縄」と「シーサー」との関連語ペアは、関連度（沖縄｜シーサー）が０．９であり、「沖縄」と「ジュゴン」との関連語ペアは、関連度（沖縄｜ジュゴン）が０．９である。このため、「シーサー」と「ジュゴン」は「沖縄」を介して関連していることになる。よって、シーサー」の「ジュゴン」の関連語ペアについては、関連度（シーサー｜ジュゴン）を０．１としている。また、テーブルにない組み合わせ（例えば、共起頻度が０回、かつ２次関連語でない関連語ペア）については、関連度を０とする。もちろん、自立語関連度ＤＢ３１の設定については、特に限定されるものではない。例えば、上記の例では、関連度を０、０．１、０．５、０．９の４段階としているが、さらに関連度を細分化して自立語関連度ＤＢ３１に記憶させてもよい。

そして、優先度計算部２２は、抽出された関連度の総和を優先度として算出する。自立語関連度ＤＢ３１に記憶された自立語ｗの優先度をＰｒｉｏｒｉｔｙ（ｗ）とすると、以下の式（１）に示すように、関連度の和によって優先度Ｐｒｉｏｒｉｔｙ（ｗ）が算出される。

なお、ｗ_ｉは、自立語抽出部２１が抽出した自立語であり、ここでは１０個の自立語が抽出されている。Ｖ_１０に含まれる１０個の自立語のそれぞれに対する「シーサー」との関連度の和を優先度として、算出する。以下の通り、「シーサー」という自立語の優先度Ｐｒｉｏｒｉｔｙ（シーサー）を算出することができる。
Ｐｒｉｏｒｉｔｙ（シーサー）＝（シーサー｜食べる）＋（シーサー｜ソーキそば）＋（シーサー｜きれい）＋（シーサー｜泳ぐ）＋（シーサー｜海）＋（シーサー｜行く）＋（シーサー｜旅行）＋（シーサー｜家族）＋（シーサー｜行く）＋（シーサー｜沖縄）＝１．１

上記の通り、１０個の関連度の総和が、「シーサー」の優先度となる。同様に、優先度計算部２２は、自立語関連度ＤＢ３１に含まれる全ての自立語について、関連度の総和を算出して、優先度を求める。優先度は、認識結果履歴１５に含まれる複数の抽出自立語に対して、自立語関連度ＤＢ３１に格納された関連自立語がどれくらい関連しているかを示す値となる。

優先語判別部２３は、優先度計算部２２で計算された優先度に基づいて、関連自立語が優先語であるか否かを判別する。優先語判別部２３は、優先度としきい値Ｔｈとを比較し、その比較結果に応じて、優先語であるか否かを判別する。例えば、優先語判別部２３には、予めしきい値Ｔｈが０．８と設定されているとする。上記の例では、Ｐｒｉｏｒｉｔｙ（シーサー）＝１．１であり、しきい値Ｔｈ以上であるため、「シーサー」を優先語であると判定する。もちろん、優先度計算部２２は、自立語関連度ＤＢ３１に記憶されている「シーサー」以外の自立語についても、優先度を算出している。そして、優先語判別部２３、「シーサー」以外の自立語について、優先度としきい値Ｔｈとの比較結果に応じて、優先語であるか否かを判別する。なお、優先語であるか否かの判別は、別の方法であってもよい。例えば、関連度の高い上位Ｎ語（Ｎは自然数）を、優先語として判別してもよい。さらには、しきい値Ｔｈによる判別と、上位Ｎ語による判別を組み合わせて、優先語を選別してもよい。

次に、言語モデル更新処理部２４は、Ｎｇｒａｍ言語モデル１６を更新する。Ｎｇｒａｍ言語モデル１６には、多くの文例に基づいて、単語間のつながりが重み付けされている。言語モデル更新処理部２４は、優先語に関するＮｇｒａｍ言語モデル１６の重みを調整する。これにより、音声認識処理において、優先語が優先して認識されるようになる。具体的には、Ｎｇｒａｍの要素に優先語を含むものが存在する場合、言語モデルにおけるスコアを一定の変換式にしたがって更新する。例えば、上記のように「シーサー」が優先語と判別された場合、「シーサー」を含む要素のスコアを増加させる。このスコアによって、出現確率（条件付き確率）が最大となる単語を求める。これにより、言語モデルにおいて、優先語が重み付けされて、優先語を含む文が認識されやすくなる。なお、上記のスコアを増加させることで、出現確率の和が１を越えていてもよい。すなわち、全単語の出現確率の総和が１を越えていてもよい。

図５に示すように、Ｎｇｒａｍ言語モデル「私−は−シーサー」や「シーサー−を−見」などの優先語である「シーサー」を含むスコアを１０倍する。それ以外の要素、すなわち優先語を含まない要素（ここでは、「私−は−ライオン」、「ライオン−を−見」等）はそのままのスコアとなる。話者が沖縄旅行について話している場合、沖縄に関連が高い自立語が優先語として判定される。このため、「早期そば」ではなく、「ソーキそば」と認識することができ、音声認識性能を向上することができる。

上記のように、優先語に該当する場合、ｓｃｏｒｅ（Ｌ）＝ｓｃｏｒｅ（Ｌ）×１０とする変換式を用いる。なお、スコアの変換式はｍ（ｍは正数）倍する変換式ｓｃｏｒｅ（Ｌ）＝ｓｃｏｒｅ（Ｌ）×ｍを用いることができる。さらに、変換式として、定数ａ（ａは正数）を加算する変換式ｓｃｏｒｅ（Ｌ）＝ｓｃｏｒｅ（Ｌ）＋ａを用いてもよい。もちろん、倍数ｍと定数ａを組み合わせた変換式ｃｏｒｅ（Ｌ）＝ｓｃｏｒｅ（Ｌ）×ｍ＋ａを用いてもよい。

さらに、優先度の値に応じて、その優先語の倍数ｍや定数ａを変更してもよい。優先語と判別された自立語の数に応じて正規化してもよい。例えば、優先語と判別された自立語の数が多い場合、倍数ｍの値や定数ａの値を小さくし、優先語と判別された自立語の数が少ない場合、倍数ｍの値や定数ａの値を大きくしてもよい。

言語モデル更新処理部２４が更新した言語モデルをＮｇｒａｍ修正モデル１４とする。このようにして、Ｎｇｒａｍ言語モデル１６を随時更新することで、現在のタスクに合わせて認識しやすい音声認識装置を実現することができる。よって、音声認識性能の高い音声認識装置を実現することができる。また、実施の音声認識結果の履歴に対して関連の高い自立語に対して重み付けを行っているため、音声認識性能をより向上することができる。話題が変わった場合でも、適切に対応することができる。言語モデルを、例えば、１発話毎に更新するようにしてもよい。

なお、上記の方法では、優先語に関するスコアを増加させるような変換式を用いたが、反対に、非優先語（優先語ではない自立語）に関するスコアを減少させるような変換式を用いてもよい。すなわち、優先語に関するスコアが非優先語に関するスコアに対して相対的に大きくなるように、スコアを調整すればよい。さらに、上記の方法では、優先語であるか否かを判別せずに、スコアを調整してもよい。例えば、優先度に応じて、スコアを調整してもよい。具体的には、優先度の値に応じて、スコアの変換式における倍数ｍや定数ａを決定すればよい。換言すれば、優先度をスコアの変換式に含めて、優先度の高い関連自立語についてはスコアを相対的に大きくすればよい。このように、優先度の値に応じて、言語モデルの重みを調整してもよい。このようにしても、上記と同様に理由により、音声認識性能を向上することができる。

さらに、上述した音声認識処理は、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、若しくはＣＰＵ（Central Processing Unit）又はこれらの組み合わせを含むコンピュータにプログラムを実行させることによって実現してもよい。

上述の例において、音声認識処理をコンピュータに行わせるための命令群を含むプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更及び組み合わせをすることが可能である。

１０音声認識部
１１特徴量抽出部
１２類似度計算部
１３音響モデル
１４Ｎｇｒａｍ修正モデル
１５認識結果履歴
１６Ｎｇｒａｍ言語モデル
２０優先語推定部
２１自立語抽出部
２２優先度計算部
２３優先語判別部
２４言語モデル更新処理部
３０オントロジー
３１自立語関連度ＤＢ

Claims

言語モデルを用いて、ユーザの音声を認識する音声認識手段と、
前記ユーザの音声に含まれる自立語を抽出する抽出手段と、
互いに関連する自立語を関連度に対応づけて記憶する関連度記憶手段と、
前記関連度記憶手段を参照して、前記抽出手段で抽出された前記自立語と関連する関連自立語の優先度を算出する優先度算出手段と、
前記優先度に応じて、前記言語モデルの重みを調整する調整手段と、を備えた音声認識装置。
前記関連自立語の前記優先度に応じて、前記関連自立語が優先語であるか否かを判別する判別手段をさらに備え、
前記調整手段が、前記優先語に関するスコアを相対的に大きくするよう、前記言語モデルを更新することを特徴とする請求項１に記載の音声認識装置。
前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度の和を優先度として算出し、
前記判別手段が、前記優先度としきい値との比較結果に応じて、前記関連自立語が前記優先語であるか否かを判別することを特徴とする請求項２に記載の音声認識装置。
前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度の和を優先度として算出し、
前記判別手段が、前記関連自立語のうち、前記優先度が上位Ｎ（Ｎは自然数）個の自立語を、前記優先語と判別することを特徴とする請求項２、又は３に記載の音声認識装置。
前記自立語が、名詞、形容詞、及び動詞に限定されていることを特徴する請求項１〜４のいずれか１項に記載の音声認識装置。
前記関連度が文章中における２つの自立語の共起頻度に応じて設定されていることを特徴とする請求項１〜５のいずれか１項に記載の音声認識装置。
言語モデルを用いて、ユーザの音声を認識するステップと、
前記ユーザの音声に含まれる自立語を抽出するステップと、
関連する自立語を関連度に対応づけて記憶された関連度記憶手段を参照して、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、
前記優先度に応じて、前記言語モデルの重みを調整するステップと、を備えた音声認識方法。
コンピュータに対して、
言語モデルを用いて、ユーザの音声を認識するステップと、
前記ユーザの音声に含まれる自立語を抽出するステップと、
関連する自立語を関連度に対応づけて記憶された関連度記憶手段を参照して、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、
前記優先度に応じて、前記言語モデルの重みを調整するステップと、
を実行させる音声認識プログラム。