JP2013137459A - 音声認識装置、方法、及びプログラム - Google Patents

音声認識装置、方法、及びプログラム Download PDF

Info

Publication number
JP2013137459A
JP2013137459A JP2011289005A JP2011289005A JP2013137459A JP 2013137459 A JP2013137459 A JP 2013137459A JP 2011289005 A JP2011289005 A JP 2011289005A JP 2011289005 A JP2011289005 A JP 2011289005A JP 2013137459 A JP2013137459 A JP 2013137459A
Authority
JP
Japan
Prior art keywords
priority
independent
word
speech recognition
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011289005A
Other languages
English (en)
Inventor
Seisho Watabe
生聖 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2011289005A priority Critical patent/JP2013137459A/ja
Publication of JP2013137459A publication Critical patent/JP2013137459A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識性能の高い音声認識装置、方法、及びプログラムを提供すること。
【解決手段】本発明にかかる音声認識装置は、言語モデルを用いて、ユーザの音声を認識する音声認識部10と、前記ユーザの音声に含まれる自立語を抽出する自立語抽出部21と、互いに関連する自立語を関連度に対応づけて記憶する自立語関連度DB31と、自立語関連度DB31に記憶された関連度と音声認識部10で認識された認識結果に含まれる補正情報とを用いて、自立語抽出部21で抽出された自立語と関連する関連自立語の優先度を算出する優先度計算部22と、優先度に応じて、言語モデルの重みを調整する言語モデル更新処理部24と、を備えたものである。
【選択図】図1

Description

本発明は音声認識装置、方法、及びプログラムに関し、特に詳しくは言語モデルを用いて音声認識を行う音声認識装置、方法、及びプログラムに関する。
近年、話者の話す音声を認識する音声認識装置が利用されている(特許文献1)。特許文献1では、キーワードを記憶し、キーワード認識率を高めるように言語モデルのスコアを調整している。しかしながら、特許文献1では、単語登録直後のキーワードの認識されやすさに問題がある、
特開2010−197411号公報
このような音声認識において、自由文の音声認識を行う場合に重要な言語モデルは、事前入手可能なテキストコーパスを用いて作製される。また、TPOに合わせて話題や、対応する人も変わり易い。例えば、沖縄旅行の話題を話している最中で、「ソーキそばをたくさん食べた」が「早期そばをたくさん食べた」になってしまう。「ソーキそば」という単語よりも、「早期」+「そば」の組み合わせの方が出現しやすいモデルになっている。汎用的な言語モデルだけでは、十分な音声認識性能を維持することが難しい。
例えば、Nグラム言語モデルは、入力される単語の出現確率をP(w)として、以下に示す式のように、条件付き確率によって算出するモデルである。
P(w)=P(w|wiーN−1・・・wi―1
Nグラム言語モデルは、i番目の単語wの生成確率が、(N−1)単語列wiーN−1・・・wiー2iー1に依存する。例えば、3−gram(トライグラム)を例にとると、単語列wに続いて単語wが出現する確率は、P(w|w)となる。
この条件付き確率を求めるための学習データは新聞やweb情報などのコーパスを用いて行う。しっかりとした日本語らしい情報を選別すると、堅苦しい口調やニュースなどが多く、雑談のような広範囲なタスクにおいて、汎用的な言語モデルだけで十分な音声認識性能を維持することが難しい。また、特許文献1では、キーワードを入力する必要がある。また、話題が大きく変わると、入力したキーワードが実際に話している話題に関連が無くなってしまう。従って、適切な言語モデルを更新することができず、十分な音声認識性能を得ることができない場合がある。
本発明は、このような問題を解決するためになされたものであり、高い音声認識性能を有する音声認識装置、方法、及びプログラムを提供することを目的としている。
本発明の一態様にかかる音声認識装置は、言語モデルを用いて、ユーザの音声を認識する音声認識手段と、前記ユーザの音声に含まれる自立語を抽出する抽出手段と、互いに関連する自立語を関連度に対応づけて記憶する関連度記憶手段と、前記関連度記憶手段に記憶された関連度と前記音声認識手段で認識された認識結果に含まれる補正情報とを用いて、前記抽出手段で抽出された前記自立語と関連する関連自立語の優先度を算出する優先度算出手段と、前記優先度に応じて、前記言語モデルの重みを調整する調整手段と、を備えたものである。この構成によれば、関連度記憶手段を参照するとともに、音声から抽出された自立語を用いて優先度を算出している。さらに、認識結果に含まれる補正情報を用いて、優先度を算出している。このため、言語モデルの重みを適切に調整することができ、音声認識性能を向上することができる。
上記の音声認識装置において、前記補正情報が、前記音声認識手段の認識結果に含まれる前記自立語の尤度、前記自立語の出現時間、及び前記自立語の出現順番の少なくとも一つを含んでいてもよい。このようにすることで、適切に優先度を算出することができる。
上記の音声認識装置が、前記関連自立語の前記優先度に応じて、前記関連自立語が優先語であるか否かを判別する判別手段をさらに備え、前記調整手段が、前記優先語に関するスコアを相対的に大きくするよう、前記言語モデルを更新してもよい。この構成では、優先度に応じて優先語か否かを判別し、優先語のスコアを相対的に大きくしているため、音声認識性能を向上することができる。
上記の音声認識装置は、前記抽出手段で前記抽出された自立語に対する補正係数を前記補正情報に基づいて算出し、前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度を抽出した後、前記関連度と前記補正係数との積の和を前記優先度として算出し、前記判別手段が、前記優先度としきい値との比較結果に応じて、前記関連自立語が前記優先語であるか否かを判別してもよい。これにより、適切な優先語を抽出することができるため、音声認識性能を向上することができる。
上記の音声認識装置は、前記抽出手段で前記抽出された自立語に対する補正係数を前記補正情報に基づいて算出し、前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度を抽出した後、前記関連度と前記補正係数との積の和を前記優先度として算出し、前記判別手段が、前記関連自立語のうち、前記優先度が上位N(Nは自然数)個の自立語を、前記優先語と判別してもよい。これにより、適切な数の優先語を抽出することができるため、音声認識性能を向上することができる。
上記の音声認識装置において、前記自立語が、名詞、形容詞、及び動詞に限定されていてもよい。これにより、適切な自立語を抽出することができる。
上記の音声認識装置において、前記関連度が文章中における2つの自立語の共起頻度に応じて設定されていることを特徴とする請求項1〜5のいずれか1項に記載の音声認識装置。これにより、関連度を適切に設定することができる。
本発明の一態様にかかる音声認識方法は、言語モデルを用いて、ユーザの音声を認識するステップと、前記ユーザの音声に含まれる自立語を抽出するステップと、関連度記憶手段に記憶された関連する自立語間の関連度と音声認識の認識結果に含まれる補正情報とを用いて、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、前記優先度に応じて、前記言語モデルの重みを調整するステップと、を備えたものである。この方法では、関連度記憶手段を参照するとともに、音声から抽出された自立語を用いて優先度を算出しているため、言語モデルの重みを適切に調整することができる。よって、音声認識性能を向上することができる。
本発明の一態様にかかる音声認識プログラムは、コンピュータに対して、言語モデルを用いて、ユーザの音声を認識するステップと、前記ユーザの音声に含まれる自立語を抽出するステップと、関連度記憶手段に記憶された関連する自立語間の関連度と音声認識の認識結果に含まれる補正情報とを用いて、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、前記優先度に応じて、前記言語モデルの重みを調整するステップと、を実行させるものである。このプログラムによれば、関連度記憶手段を参照するとともに、音声から抽出された自立語を用いて優先度を算出しているため、言語モデルの重みを適切に調整することができる。よって、音声認識性能を向上することができる。
本発明により、高い音声認識性能を有する音声認識装置、方法、及びプログラムを提供することができる。
実施の形態にかかる音声認識装置の構成を示すブロック図である。 音声認識装置の自立語抽出処理を説明するための図である。 音声認識装置の優先度算出処理を説明するための図である。 音声認識装置の優先度算出処理に用いられる自立語関連度DBの一例を示す表である。 音声認識装置の優先度判別処理を説明するための図である。 音声認識装置の言語モデルの更新処理を説明するための図である。
以下、図面を参照して本発明の実施の形態について、図1〜図6を用いて説明する。図1は、本実施の形態にかかる音声認識装置の構成、及びその処理フローを示すブロック図である。図2〜図6は、音声認識装置の処理を説明するための図である。音声認識部10と、音響モデル13と、Ngram修正モデル14と、認識結果履歴15と、Ngram言語モデル16と、優先語推定部20と、自立語関連度DB(データベース)31と、を備えている。また、音声認識部10は、特徴量抽出部11と、類似度計算部12とを備えている。優先語推定部20は、自立語抽出部21と、優先度計算部22と、優先語判別部23と、言語モデル更新処理部24と、優先度補正部25と、を備えている。
音声認識部10には、マイクからの音声信号が入力される。音声認識部10は、入力された音声を認識し、音声認識結果(例えばテキストデータ)を出力する。具体的には、特徴量抽出部11が音声データをフーリエ変換して、特徴量を抽出する。そして、類似度計算部12が、音響モデル13とNgram修正モデル14とを用いて、類似度計算を行う。例えば、特徴量抽出部11が抽出した特徴量のパターンに対してパターンマッチによる類似度計算を行う。こうすることで、音声認識結果であるテキストデータが生成される。
音響モデル13は、どのような特徴量のパターン(特徴ベクトル)がどの程度の確率で出力されるかを求めるために、ある単語がどのような音に対応しているかを表したモデルである。Ngram修正モデル14は、後述するNgram言語モデル16を更新した言語モデルである。例えば、Ngram言語モデル16は、例えば、多数の文章から単語(形態素)同士のつながりを統計化したモデルである。前の単語列が分かった場合、言語モデルに基づいて、次にどの単語がどの程度の確率で出現するかを予測する。Ngram修正モデル14に基づいて、単語同士が連結して出現する出現確率に対するスコアが付与され、このスコアに基づいて音声認識が行われる。Ngram言語モデル16としては、例えば、3−gram(トライグラム)言語モデルを用いることができる。なお、音声認識部10での処理については公知の手法を用いることができるため、詳細な説明を省略する。
ここでは、話者が沖縄旅行について話している例について説明する。図2に示すように、音声認識部10が「沖縄に行った」、「家族と旅行で行った。」、「海で泳いだ。」、「きれいだった。」、「お腹がすいた」などを音声認識結果として出力する。
さらに、音声認識部10は、音声認識処理において認識された自立語の尤度を算出している。例えば、「沖縄に行った。」のうち、「沖縄」の尤度は0.6であり、「行く」は、0.5である。音声認識部10は、その他の自立語、例えば、「家族」、「旅行」等についても同様に尤度を求めている。
認識結果履歴15は、音声認識部10での音声認識結果の履歴をデータベースとして記憶する。従って、上記の文が認識結果履歴15に格納される。認識結果履歴15は、認識結果であるテキストデータをその取得時間とともに時系列に従って記憶する。
また、認識結果履歴15は、自立語に対して、上記の尤度と、出現時間(発生時間)を対応付けて格納している。認識結果履歴15は、例えば、12時00分00秒において、「沖縄」という自立語が、尤度0.6で認識され、「行く」という自立語が0.5で認識されたことを、記憶している。同様に、認識結果履歴15は、12時06分20秒において、「お腹」という自立語が尤度0.5で認識され、「すく」という自立語が尤度0.1で認識されたことを記憶している。認識結果履歴15は、その他の自立語、例えば、「家族」、「旅行」等についても同様に尤度と出現時間を対応して記憶している。
次に、優先語推定部20が認識結果履歴15に格納されている認識結果履歴に基づいて、優先語を推定する。まず、自立語抽出部21は、認識結果履歴15に格納された音声認識結果から自立語を抽出する。ここでは、自立語の定義を名詞、動詞、及び形容詞に限定している。すなわち、自立語抽出部21は、助動詞、助詞、形容動詞、副詞、連体詞、接続詞、感動詞等を抽出しなくてもよい。上記の文例では「沖縄」、「行く」、「家族」、「旅行」、「行く」、「海」、「泳ぐ」、「きれい」、「お腹」、「すく」が自立語として抽出される。ここで、自立語履歴を最近のものから順にn個取り出した自立語のグループをVとする。直近10個の自立語の履歴を参照する場合、n=10となり、V10=[すく、お腹、きれい、・・・・、沖縄]となる。以下、10個の自立語からなるグループを抽出する例を説明する。もちろん、Vに含まれる自立語の数は、1、又は複数であればよく、重複していてもよい。
自立語抽出部21で抽出された自立語に基づいて、優先度計算部22が優先度を計算する。優先度計算部22は、オントロジー30としての自立語関連度DB31を参照して、優先度を計算する。自立語関連度DB31には、互いに関連がある2つの自立語(関連語ペア)が関連度に対応づけて記憶されている。すなわち、自立語関連度DB31では、自立語がオントロジー化されている。
自立語抽出部21が抽出した自立語の数nを10としている。直近の自立語のグループV10が抽出されているとする場合において、「シーサー」という名詞が発話中に出現する優先度を例にとる。自立語関連度DB31には、2つの自立語間の関連度が予め定義されている。なお、関連度は0以上、1以下の値として設定されている。自立語関連度DB31に記憶された「シーサー」という名詞と、V10に含まれる「すく」との関連度を抽出する。同様に、V10に含まれる他の自立語、例えば「お腹」、「きれい」等についても、「シーサー」とのペアでの関連度を抽出する。自立語関連度DB31では、図3に示すように、「シーサー」と「すく」との関連語ペアの関連度(シーサー|すく)が0.0001であり、「シーサー」と「お腹」との関連語ペアの関連度(シーサー|お腹)が0.003であり、「シーサー」と「きれい」との関連語ペアの関連度(シーサー|きれい)が0.011となっている。関連度は、認識結果履歴15から抽出された自立語(抽出自立語)と、抽出自立語に関連する自立語(関連自立語)との関連度合いを示す値であり、2つの自立語の関連が高い程、関連度が大きくなる。このように、関連度は、2つの自立語の関連度合いによって設定されている。
ここで、図4に自立語関連度DB31の格納されているデータの一例を示す。図4は、自立語関連度DB31に格納されているデータの一例を示すテーブルである。まず、キーとなる自立語と、その自立語とペアとなる自立語とが、関連度に対応付けられて記憶されている。すなわち、互いに関連する2つの自立語(関連語ペア)と、その関連語ペアに対応する関連度が横一列に配置されている。自立語関連度DB31には、多数の関連度ペアが登録されている。例えば、キーとなる自立語「沖縄」に対して、「シーサー」、「ジュゴン」、「石垣島」・・・「タコライス」がそれぞれペアとなっており、それぞれに対して関連度が設定されている。同様に、「石垣島」、「シーサー」という自立語キーに対しても、自立語ペアとその関連度が設定されている。
ここでは、多数の文章における自立語の共起頻度に応じて、関連度を設定している。例えば、複数の文章を用意し、1文に2つの自立語が共に含まれる回数をカウントして、その回数を共起頻度とする。そして、共起頻度の高い(N回以上)ペア、例えば、「沖縄」と「シーサー」との関連語ペア、「沖縄」と「ジュゴン」との関連語ペア等については、関連度(沖縄|シーサー)、(沖縄|ジュゴン)を0.9としている。共起頻度の低い(M回未満)ペア、例えば、「シーサー」と「さんご礁」との関連語ペアについては、関連度(シーサー|さんご礁)を0.1としている。そして、共起頻度が中くらい(M回以上、N回未満)のペア、例えば、「沖縄」と「米軍基地」との関連語ペア、「沖縄」と「タコライス」との関連語ペアについては、関連度(沖縄|米軍基地)、(沖縄|タコライス)を0.5とする。
さらに、関連度(共起頻度)の高い自立語の2次関連語については、関連度を0.1とする。例えば、「沖縄」と「シーサー」との関連語ペアは、関連度(沖縄|シーサー)が0.9であり、「沖縄」と「ジュゴン」との関連語ペアは、関連度(沖縄|ジュゴン)が0.9である。このため、「シーサー」と「ジュゴン」は「沖縄」を介して関連していることになる。よって、シーサー」の「ジュゴン」の関連語ペアについては、関連度(シーサー|ジュゴン)を0.1としている。また、テーブルにない組み合わせ(例えば、共起頻度が0回、かつ2次関連語でない関連語ペア)については、関連度を0とする。もちろん、自立語関連度DB31の設定については、特に限定されるものではない。例えば、上記の例では、関連度を0、0.1、0.5、0.9の4段階としているが、さらに関連度を細分化して自立語関連度DB31に記憶させてもよい。
そして、優先度計算部22は、抽出された関連度に基づいて、優先度を算出し、優先度補正部25は、優先度を認識結果履歴15に基づいて補正する。具体的には、優先度補正部25は、認識結果履歴15に含まれる補正情報に基づいて、優先度を補正する補正係数k〜kを算出する。自立語関連度DB31に記憶された自立語wの優先度をPriority(w)とすると、以下の式(1)に示すように、関連度に補正係数k〜kを乗じて、総和をとることで、優先度Priority(w)が算出される。
Figure 2013137459
なお、wは、自立語抽出部21が抽出した自立語であり、ここでは10個の自立語が抽出されている。優先度計算部22は、「シーサー」とV10に含まれる10個の自立語との関連度をそれぞれ抽出する。優先度計算部22は、それぞれの自立語について、「シーサー」との関連度と補正係数との積を求め、10個分の積の総和を優先度として算出する。自立語関連度DB31に記憶された関連度は、認識結果履歴15に含まれる補正情報に基づいて、補正されている。よって、以下の通り、「シーサー」という自立語の優先度Priority(シーサー)を算出することができる。
Priority(シーサー)=(シーサー|すく)×k×k・・・×k+(シーサー|お腹)×k×k・・・×k+(シーサー|きれい)×k×k・・・×k+(シーサー|泳ぐ)×k×k・・・×k+(シーサー|海)×k×k・・・×k+(シーサー|行く)×k×k・・・×k+(シーサー|旅行)×k×k・・・×k+(シーサー|家族)×k×k・・・×k+(シーサー|行く)×k×k・・・×k+(シーサー|沖縄)×k×k・・・×k
補正係数k〜kの算出例を説明する。優先度補正部25は、認識結果履歴15の尤度に基づいて補正係数kを決定する。すなわち、認識結果履歴15に格納された自立語の尤度を補正情報として用いる。図5に示すように、「お腹」の尤度は0.5であり、「すく」の尤度は0.6であり、「きれい」の尤度は、0.6である。そして、優先度補正部25は、尤度としきい値の比較結果により、補正係数を算出する。
尤度が0.3以上の場合は、k=1.0とし、尤度が0.3未満の場合は、k=0.9を定義する。このように、それぞれの自立語に対して、その尤度に基づいて補正係数kが設定される。なお、上記の例では、尤度に対するしきい値を0.3としたが、しきい値は特に限定されるものではない。複数のしきい値との比較結果によって、補正係数を多段階に設定してもよい。さらには、尤度としきい値との比較結果ではなく、尤度を変数とする関数によって、補正係数を求めてもよい。
補正係数kは、自立語の出現時間によって定義される。例えば、自立語の出現時間と現在時間の差が10秒未満の場合k=1.0として、10秒以上である場合、k=0.8とする。このように、自立語の出現時間を補正情報として用いることができる。出現時間が現在時間に近い自立語は、補正係数kを大きくし、現在時間から遠い自立語は、補正係数kを小さくする。もちろん、しきい値となる時間を多数設定して、補正係数kを多段階に設定してもよい。
さらに、自立語の出現順番を補正情報として用いることができる。例えば、認識結果履歴15における出現順番が直前2個までの場合、k=1.0として、3個以上前の場合k=0.7と定義する。このように、優先度補正部25は、補正係数kを自立語の出現時間を定義する。出現順番が最近の自立語は、補正係数kを大きくし、出現順番が古い自立語は補正係数kを小さくする。もちろん、しきい値となる回数を多数設定して、補正係数kを多段階に設定してもよい。
上記の通り、10個の関連度とその補正係数との積の総和を、算出する。同様に、自立語関連度DB31に含まれる全ての自立語について、関連度と補正係数との積の総和を算出して、優先度を求める。優先度は、認識結果履歴15に含まれる複数の抽出自立語に対して、自立語関連度DB31に格納された関連自立語がどれくらい関連しているかを示す値となる。例えば、上記の例では、Priority(シーサー)=0.4と算出される。なお、上記の例では、補正係数k〜kを用いる例について説明したが、補正係数の数は3に限られるものではない。例えば、上記の補正係数k〜kのうち、少なくとも一つを用いればよく、あるいは2個以上を組み合わせて用いてもよい。さらには、認識結果履歴15から他の補正情報を抽出して、補正係数を用いてもよい。
優先語判別部23は、優先度補正部25で補正された優先度に基づいて、関連自立語が優先語であるか否かを判別する。優先語判別部23は、優先度としきい値Thとを比較し、その比較結果に応じて、優先語であるか否かを判別する。例えば、優先語判別部23には、予めしきい値Thが0.3と設定されているとする。上記の例では、Priority(シーサー)=0.4であり、しきい値Th以上であるため、「シーサー」を優先語であると判定する。もちろん、優先度計算部22は、自立語関連度DB31に記憶されている「シーサー」以外の自立語についても、優先度を算出している。そして、優先語判別部23、「シーサー」以外の自立語について、優先度としきい値Thとの比較結果に応じて、優先語であるか否かを判別する。なお、優先語であるか否かの判別は、別の方法であってもよい。例えば、関連度の高い上位N語を、優先語として判別してもよい。さらには、しきい値Thによる判別と、上位N語による判別を組み合わせて、優先語を選別してもよい。
次に、言語モデル更新処理部24は、Ngram言語モデル16を更新する。Ngram言語モデル16には、多くの文例に基づいて、単語間のつながりが重み付けされている。言語モデル更新処理部24は、優先語に関するNgram言語モデル16の重みを調整する。これにより、音声認識処理において、優先語が優先して認識されるようになる。具体的には、Ngramの要素に優先語を含むものが存在する場合、言語モデルにおけるスコアを一定の変換式にしたがって更新する。例えば、上記のように「シーサー」が優先語と判別された場合、「シーサー」を含む要素のスコアを増加させる。このスコアによって、出現確率(条件付き確率)が最大となる単語を求める。これにより、言語モデルにおいて、優先語が重み付けされて、優先語を含む文が認識されやすくなる。なお、上記のスコアを増加させることで、出現確率の和が1を越えていてもよい。すなわち、全単語の出現確率の総和が1を越えていてもよい。
図6に示すように、Ngram言語モデル「私−は−シーサー」や「シーサー−を−見」などの優先語である「シーサー」を含むスコアを10倍する。それ以外の要素、すなわち優先語を含まない要素(ここでは、「私−は−ライオン」、「ライオン−を−見」等)はそのままのスコアとなる。話者が沖縄旅行について話している場合、沖縄に関連が高い自立語が優先語として判定される。このため、「早期そば」ではなく、「ソーキそば」と認識することができ、音声認識性能を向上することができる。さらに、認識結果履歴15から抽出される補正情報を用いて、優先度を補正している。これにより、適切に優先度を算出することができ、音声認識性能を向上することができる。
上記のように、優先語に該当する場合、score(L)=score(L)×10とする変換式を用いる。なお、スコアの変換式はm(mは正数)倍する変換式score(L)=score(L)×mを用いることができる。さらに、変換式として、定数a(aは正数)を加算する変換式score(L)=score(L)+aを用いてもよい。もちろん、倍数mと定数aを組み合わせた変換式core(L)=score(L)×m+aを用いてもよい。
さらに、優先度の値に応じて、その優先語の倍数mや定数aを変更してもよい。優先語と判別された自立語の数に応じて正規化してもよい。例えば、優先語と判別された自立語の数が多い場合、倍数mの値や定数aの値を小さくし、優先語と判別された自立語の数が少ない場合、倍数mの値や定数aの値を大きくしてもよい。
言語モデル更新処理部24が更新した言語モデルをNgram修正モデル14とする。このようにして、Ngram言語モデル16を随時更新することで、現在のタスクに合わせて認識しやすい音声認識装置を実現することができる。よって、音声認識性能の高い音声認識装置を実現することができる。また、実際の音声認識結果の履歴に対して関連の高い自立語に対して重み付けを行っているため、音声認識性能をより向上することができる。話題が変わった場合でも、適切に対応することができる。さらに、認識結果履歴15から取得される補正情報を用いて優先度の補正係数を算出しているため、音性認識性能を向上することができる。言語モデルを、例えば、1発話毎に更新するようにしてもよい。
なお、上記の方法では、優先語に関するスコアを増加させるような変換式を用いたが、反対に、非優先語(優先語ではない自立語)に関するスコアを減少させるような変換式を用いてもよい。すなわち、優先語に関するスコアが非優先語に関するスコアに対して相対的に大きくなるように、スコアを調整すればよい。さらに、上記の方法では、優先語であるか否かを判別せずに、スコアを調整してもよい。例えば、優先度に応じて、スコアを調整してもよい。具体的には、優先度の値に応じて、スコアの変換式における倍数mや定数aを決定すればよい。換言すれば、優先度をスコアの変換式に含めて、優先度の高い関連自立語についてはスコアを相対的に大きくすればよい。このように、優先度の値に応じて、言語モデルの重みを調整してもよい。このようにしても、上記と同様の理由により、音声認識性能を向上することができる。
さらに、上述した音声認識処理は、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、若しくはCPU(Central Processing Unit)又はこれらの組み合わせを含むコンピュータにプログラムを実行させることによって実現してもよい。
上述の例において、音声認識処理をコンピュータに行わせるための命令群を含むプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更及び組み合わせをすることが可能である。
10 音声認識部
11 特徴量抽出部
12 類似度計算部
13 音響モデル
14 Ngram修正モデル
15 認識結果履歴
16 Ngram言語モデル
20 優先語推定部
21 自立語抽出部
22 優先度計算部
23 優先語判別部
24 言語モデル更新処理部
25 優先度補正部
30 オントロジー
31 自立語関連度DB

Claims (9)

  1. 言語モデルを用いて、ユーザの音声を認識する音声認識手段と、
    前記ユーザの音声に含まれる自立語を抽出する抽出手段と、
    互いに関連する自立語を関連度に対応づけて記憶する関連度記憶手段と、
    前記関連度記憶手段に記憶された関連度と前記音声認識手段で認識された認識結果に含まれる補正情報とを用いて、前記抽出手段で抽出された前記自立語と関連する関連自立語の優先度を算出する優先度算出手段と、
    前記優先度に応じて、前記言語モデルの重みを調整する調整手段と、を備えた音声認識装置。
  2. 前記補正情報が、前記音声認識手段の認識結果に含まれる前記自立語の尤度、前記自立語の出現時間、及び前記自立語の出現順番の少なくとも一つを含んでいることを特徴とする請求項1に記載の音声認識装置。
  3. 前記関連自立語の前記優先度に応じて、前記関連自立語が優先語であるか否かを判別する判別手段をさらに備え、
    前記調整手段が、前記優先語に関するスコアを相対的に大きくするよう、前記言語モデルを更新することを特徴とする請求項1又は2に記載の音声認識装置。
  4. 前記抽出手段で前記抽出された自立語に対する補正係数を前記補正情報に基づいて算出し、
    前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度を抽出した後、前記関連度と前記補正係数との積の和を前記優先度として算出し、
    前記判別手段が、前記優先度としきい値との比較結果に応じて、前記関連自立語が前記優先語であるか否かを判別することを特徴とする請求項3に記載の音声認識装置。
  5. 前記抽出手段で前記抽出された自立語に対する補正係数を前記補正情報に基づいて算出し、
    前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度を抽出した後、前記関連度と前記補正係数との積の和を前記優先度として算出し、
    前記判別手段が、前記関連自立語のうち、前記優先度が上位N(Nは自然数)個の自立語を、前記優先語と判別することを特徴とする請求項3、又は4に記載の音声認識装置。
  6. 前記自立語が、名詞、形容詞、及び動詞に限定されていることを特徴する請求項1〜5のいずれか1項に記載の音声認識装置。
  7. 前記関連度が文章中における2つの自立語の共起頻度に応じて設定されていることを特徴とする請求項1〜6のいずれか1項に記載の音声認識装置。
  8. 言語モデルを用いて、ユーザの音声を認識するステップと、
    前記ユーザの音声に含まれる自立語を抽出するステップと、
    関連度記憶手段に記憶された関連する自立語間の関連度と音声認識の認識結果に含まれる補正情報とを用いて、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、
    前記優先度に応じて、前記言語モデルの重みを調整するステップと、を備えた音声認識方法。
  9. コンピュータに対して、
    言語モデルを用いて、ユーザの音声を認識するステップと、
    前記ユーザの音声に含まれる自立語を抽出するステップと、
    関連度記憶手段に記憶された関連する自立語間の関連度と音声認識の認識結果に含まれる補正情報とを用いて、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、
    前記優先度に応じて、前記言語モデルの重みを調整するステップと、
    を実行させる音声認識プログラム。
JP2011289005A 2011-12-28 2011-12-28 音声認識装置、方法、及びプログラム Pending JP2013137459A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011289005A JP2013137459A (ja) 2011-12-28 2011-12-28 音声認識装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011289005A JP2013137459A (ja) 2011-12-28 2011-12-28 音声認識装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2013137459A true JP2013137459A (ja) 2013-07-11

Family

ID=48913231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011289005A Pending JP2013137459A (ja) 2011-12-28 2011-12-28 音声認識装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2013137459A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014009568A1 (de) 2013-06-28 2014-12-31 Kabushiki Kaisha Toshiba Supraleitende Magnetvorrichtung
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014009568A1 (de) 2013-06-28 2014-12-31 Kabushiki Kaisha Toshiba Supraleitende Magnetvorrichtung
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置

Similar Documents

Publication Publication Date Title
CN107810529B (zh) 语言模型语音端点确定
US10283111B1 (en) Disambiguation in speech recognition
US9911413B1 (en) Neural latent variable model for spoken language understanding
US10134388B1 (en) Word generation for speech recognition
US10332508B1 (en) Confidence checking for speech processing and query answering
US10388274B1 (en) Confidence checking for speech processing and query answering
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US9484021B1 (en) Disambiguation in speech recognition
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US10490182B1 (en) Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks
CN104021784B (zh) 基于大语料库的语音合成方法和装置
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US20140025382A1 (en) Speech processing system
CN112420026B (zh) 优化关键词检索系统
WO2009101837A1 (ja) 記号挿入装置および記号挿入方法
US10366690B1 (en) Speech recognition entity resolution
JP5799733B2 (ja) 認識装置、認識プログラムおよび認識方法
JP2007256342A (ja) クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
US10199037B1 (en) Adaptive beam pruning for automatic speech recognition
JP4885160B2 (ja) 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
White et al. Maximum entropy confidence estimation for speech recognition
JP2013137459A (ja) 音声認識装置、方法、及びプログラム
JP5772585B2 (ja) 音声認識装置、方法、及びプログラム
JP2013137460A (ja) 音声認識装置、方法、及びプログラム
Wu et al. Semi-black-box attacks against speech recognition systems using adversarial samples