JP2005241767A

JP2005241767A - 音声認識装置

Info

Publication number: JP2005241767A
Application number: JP2004048782A
Authority: JP
Inventors: Akira Baba; 朗馬場; Yoshihiko Tokunaga; 吉彦徳永; Takashi Nishiyama; 高史西山; Fumiaki Obayashi; 史明大林; Mitsunori Yoneda; 光徳米田; Kenji Nakakita; 賢二中北; Shinpei Hibiya; 新平日比谷; Haruka Amanuma; はるか天沼
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2004-02-24
Filing date: 2004-02-24
Publication date: 2005-09-08

Abstract

【課題】音声認識を正確に行うようにすることができるとともに、ユーザはゲーム感覚で音声認識処理ができ、新しい語彙も自然に覚えることができる音声認識装置を提供する。
【解決手段】ユーザが発話した音声は、音声入力部１に入力され、音声信号となって特徴量抽出部２に出力される。特徴量抽出部２では、音声信号の音響特徴ベクトルを算出し、認識部５に送る。認識部５は音響特徴ベクトルと音響モデル３とを参照して尤度が高くなる語彙を認識語彙保持部４から抽出する。認識部５は、認識結果と尤度を得点計算部６に送信する。得点計算部６では、認識結果と語彙選択部７に入力された語彙が同一の場合は、計算された尤度を得点として表示部８で表示する。このようにすれば、入力音声の尤度が高いほど、ユーザに与えられる得点が高くなるので、自然に尤度が高くなるような発声の方法をユーザは習得することができる。
【選択図】図１

Description

本発明は、コンピュータ装置などに用いられている音声認識システムにおいて、コンピュータ側に音声認識しやすい発声の仕方をユーザが体得できる音声認識装置に関する。

従来、音声認識装置は、音声認識対象となる各単語の読み方に対して予測される複数の発音パターンをあらかじめ記憶させておき、認識すべき単語に対してユーザの発音が入力されると、記憶させられた複数の発音パターンと入力されたユーザの発音とを比較し、最も評価値が高く、かつ一定のレベルを超えるものを採用し、音声認識辞書に登録することで、次回からユーザが発した音声を音声認識辞書に登録された発音パターンと比較することで、発音の言葉を認識するようにしている。
特開２００３−１４１１１３号公報特開２００１−４２８８７号公報

しかし、上記従来の音声認識装置では、ユーザの体調やそのときの気分で、音声認識辞書に登録した発音パターンと異なる発音がされた場合には、正確に発音内容を言葉に変換することができず、誤認識が多く発生する。

また、再度音声認識辞書に、ユーザの発音パターンを登録したとしても、やはり、次回のユーザの発声の方法や発声する語彙と語彙との間の時間間隔が異なれば、誤認識してしまう。

本発明は、上述した課題を解決するために創案されたものであり、音声認識を正確に行うようにすることができるとともに、ユーザはゲーム感覚で音声認識処理ができ、新しい語彙も自然に覚えることができる音声認識装置を提供することを目的としている。

上記目的を達成するために、請求項１記載の発明は、ユーザの音声が入力される音声入力部と、音素モデルが格納された音響モデルと、認識対象となる複数の語彙が保持されている認識語彙保持部と、前記認識語彙保持部の複数の語彙からユーザに発話させるための語彙を選択する語彙選択部と、前記音声入力部で入力された音声と前記音響モデルとを参照しつつ尤度の最も高い語彙を前記認識語彙保持部から抽出する認識部と、前記認識部で抽出した語彙と前記語彙選択部で選択された語彙とを比較して一致している場合には、前記尤度を得点とする得点計算部とを備え、前記得点をユーザに提示するようにしたことを特徴とする音声認識装置である。

また、請求項２記載の発明は、前記認識語彙保持部の各語彙ごとに複数の話者の音声認識による尤度の平均値が格納された認識語彙尤度リストを備え、この尤度平均値を用いて前記得点計算部で取得した尤度を正規化して得点とすることを特徴とする請求項１記載の音声認識装置である。

また、請求項３記載の発明は、前記語彙選択部からの選択された語彙に対応する画像を表示し、ユーザに発話させることを特徴とする請求項１〜請求項２記載の音声認識装置である。

また、請求項４記載の発明は、料理に関する情報が格納されたレシピデータベースと、前記認識部で抽出された語彙に基づいて前記レシピデータベースを検索する検索部とを備え、ユーザの音声入力によりレシピを検索する機能を備えたことを特徴とする請求項１〜請求項３記載の音声認識装置である。

また、請求項５記載の発明は、前記認識部で抽出された語彙に基づいて外部データを検索するインターネット検索部を備え、ユーザの音声入力により外部データを検索する機能を備えたことを特徴とする請求項１〜請求項３記載の音声認識装置である。

また、請求項６記載の発明は、前記得点計算部から送信されてくる得点をすべて記憶するとともに、受信した得点と記憶している得点とを比較して高い方の得点データに最高得点を更新する最高得点保持部を備え、前記最高得点保持部の得点をユーザに提示することを特徴とする請求項１〜請求項５記載の音声認識装置である。

また、請求項７記載の発明は、前記語彙選択部で選択された語彙について尤度の高い模範音声を発声させ、ユーザに正しい発声を提示することを特徴とする請求項１〜請求項６記載の音声認識装置である。

また、請求項８記載の発明は、前記音声入力部からの音声を逐次記録するとともに、前記最高得点保持部で最高得点データが更新された場合に最高得点データに対応する音声データを更新する最高得点音声記憶部を備え、ユーザの最高得点時の発声を模範音声として提示することを特徴とする請求項６記載の音声認識装置である。

また、請求項９記載の発明は、前記認識部で抽出した語彙と前記語彙選択部で選択された語彙とを比較して不一致の場合に対応するユーザ音声を前記最高得点音声記憶部から再生し、ユーザに提示することを特徴とする音声認識装置である。

本発明によれば、入力音声の尤度が高いほどユーザに与えられる得点が高くなるので、自然に尤度が高くなるような発声の方法をユーザが体得することができる。また、遊び感覚で音声認識トレーニングを行うことができるのでユーザの負担にならずに、認識性を向上させることができ、新しい語彙などを自然に覚えることができる。

以下、図面を参照して本発明の一実施形態を説明する。図１は本発明の音声認識装置の基本構成例を示す図である。

図１に示すように、音声認識装置は、音声入力部１、特徴量抽出部２、音響モデル３、認識語彙保持部４、認識部５、得点計算部６、語彙選択部７、表示部８から構成されている。特徴量抽出部２は、入力音声の所定の音声区間について、それぞれパワー分析し、分析されたパワー成分に基づいて音響特徴ベクトルを算出する。音響モデル３は、認識対象となる音声を構成する全ての音素をモデル化した音素モデルを格納している。音素モデルとしては、例えば、隠れマルコフモデル（ＨＭＭ）が適用されている。認識語彙保持部４には、認識対象となる語彙が格納されており、各語彙は、単語であったり、複数の単語を結びつけた文章であったりする。

図１の音声認識装置は以下のように動作する。まず、認識語彙保持部４に格納されている多くの語彙の中から所定の語彙をコンピュータが自動的に選択するなどして、語彙選択部７は語彙を選択し表示部８に表示する。選択された語彙は語彙選択部７から得点計算部６に出力され、得点計算部６での判定基準に用いられる。

次に、ユーザは選択された語彙の読みを発音する。発音された音声は、マイクロフォン等で構成された音声入力部１に入力され、音声信号となって特徴量抽出部２に出力される。特徴量抽出部２では、音声信号の音響特徴ベクトルを算出し、認識部５に送る。認識部５は音響特徴ベクトルと音響モデル３に格納されている音素モデルとを参照してフレーム毎の連続音素認識を行い、各フレームの尤度の合計が最大となるものを認識語彙保持部４から抽出する。

認識部５は、抽出された語彙（認識結果）とその尤度を得点計算部６に送信する。得点計算部６では、抽出された語彙（認識結果）と語彙選択部７に入力された語彙（ユーザが選択した語彙）が同一の場合は、計算された尤度を得点として表示部８で表示し、同一でない場合には、得点０と表示するようにする。

このようにすれば、入力音声の尤度が高いほど、ユーザに与えられる得点が高くなるので、自然に尤度が高くなるような発声の方法、すなわち装置側の音声認識が行いやすくなる発声の方法をユーザは習得することができる。しかも、ユーザはゲーム感覚で音声認識トレーニングを行うことができるので、ユーザの負担にならない。また、認識可能な語彙をユーザが自然に覚えることができる。

図２は、図１の構成に画像ＤＢ（データベース）９、認識語彙尤度リスト１０を付加した構成を示す。得点計算部１６は、図１の得点計算部６とは得点の算出方法が異なるので番号を変えている。図１の構成と同様の部分については説明を省略する。

画像ＤＢ９には、認識語彙保持部４に保持されているすべての語彙について対応する画像データが格納されている。この画像データは、対応する語彙を連想させるようなデータとなっている。例えば、「白菜」という語彙に対しては、実際の白菜の写真が画像データとして格納されている。

認識語彙尤度リスト１０には、認識語彙保持部４に保持されているすべての語彙について、複数の話者が音声認識を行った場合の尤度の平均値が格納されている。

以下に、図２の音声認識装置の動作を図３を参照しつつ説明する。語彙選択部７で認識語彙保持部４に保持されている語彙の中から語彙が選択され、画像ＤＢ９からこの語彙に対応する画像を抽出し、表示部８で表示する（Ｓ１）。例えば、語彙選択部７により認識語彙保持部４から選択された語彙が「白菜」であるならば、この「白菜」に対応する画像を画像ＤＢ９より抽出し、表示部８に表示する。図４（ａ）は選択された語彙に対応する画像を示した図であり、質問により、この画像の野菜名称の音声入力をユーザに促す構成となっている。

ユーザからの音声入力があるまでシステムは待っており（Ｓ２）、ユーザの音声が入力されると、図１で述べたように認識処理（Ｓ３）が行われる。認識処理が終了すると、得点計算部１６は、語彙選択部７から送信された語彙と、認識部５から受信した認識結果が一致しているかどうかを判定し（Ｓ４）、一致している場合には認識部５から受信した認識結果と同一の語彙を認識語彙尤度リストから抽出し、この抽出した語彙に対応する尤度の平均値を参照する（Ｓ５）。

参照した尤度平均値と認識部５から送信されてくる尤度とに基づいて得点を計算して表示部８に表示する（Ｓ７）。得点の計算方法としては、例えば、得点＝（尤度／平均尤度）×１００のように（Ｓ６）、平均尤度と認識部５からの尤度との比に一定の得点を乗算して算出することができる。

一方、認識結果と語彙選択部７から送信された語彙とが一致していない場合には、得点を０（Ｓ８）として表示部８に表示する（Ｓ９）。図４（ｂ）はＳ７の正解画面の例を示しており、今回の得点（８０点）が表示されるとともに、今までの質問に対する合計得点（４５０点）も表示されるようになっている。図４（ｃ）はＳ９の不正解画面の例を示しており、正解の野菜名称は何であったかも表示されるようになっている。

次に、新しい語彙が選択されて、対応する画像が表示部８に表示され、Ｓ１からのステップが繰り返される。すなわち、音声認識トレーニングのプログラムが中止されるまで、図３で示された学習が継続される。

以上のように構成することで、以下のような効果が発生する。尤度は認識する語彙ごとに異なるものである。例えば、「白菜」という語彙を１０人の話者が発声し、これを音声認識した場合のそれぞれの尤度の平均が１００であったとする。同じ１０人の話者が他の語彙として、例えば「大根」や「トマト」を発声した場合の尤度の平均は、１５０であったり、７０であったりする。これは、「大根」という語彙が音声認識容易な語彙であり、「トマト」という語彙が音声認識しにくい語彙だからである。このように、尤度は語彙によって変化するので、音声認識が困難な語彙（上記例ではトマト）が提示された場合には、たとえ正確に発音しても、高い得点を得ることが困難である。

しかし、上記のようにあらかじめ測定された平均尤度に基づいて、ユーザの発声における尤度を正規化することができるので、音声認識が困難な語彙、あるいは、音声認識容易な語彙が提示された場合においても、公平に得点を計算することができる。

また、画像ＤＢ９を用いて画像を提示することで、画像に提示されている内容の読み方を学習できる。さらに、ユーザに対してゲーム性を提供できることにより、よりユーザの負担を減らすことが可能となる。特に料理の材料に適用した場合には、例えば「チコリ」や「エンダイブ」のように形状が一般的にあまり知られていない材料の外見をユーザに提示することになるので、ユーザがこれらの材料を購入する際の手助けになるという効果もある。

なお、画像ＤＢに替えて音楽ＤＢとし、例えば楽曲に対応する曲名を認識保持語彙部４に登録しておき、選択語彙（楽曲名）に対して対応する楽曲を再生するようにしても良い。

図５は、レシピ検索機能を備えた音声認識装置の例を示す。図２の構成に検索部２１とレシピデータベース２２が付加された構成となっている。

レシピデータベース２２は、図６のようにデータが格納されており、例えば、レシピ名、材料、画像データ、レシピが格納されている。認識語彙保持部４には、レシピデータベース２２の材料の項目に格納されている材料名が全て登録されており、画像ＤＢ９には、認識語彙保持部４で保持される語彙のすべてに対応する画像データが格納されている。したがって、画像ＤＢ９に格納されたデータは、レシピデータベース２２に格納されている材料に関する画像はすべて含んだデータとなっている。

レシピ検索機能を備えた音声認識装置の動作を説明する。まず、表示部８に、音声認識トレーニングを行うか、レシピ検索を行うかを選択するメニューが表示される。音声認識トレーニングを選択した場合は、例えば図４（ａ）のように画像が表示されて、その画像に対する名称などを質問してくるので、ユーザは答えを発声する。

音声入力部１に入力された音声信号は、図１で説明したように認識部５で認識結果と尤度を取得する。ユーザは音声認識トレーニングメニューを選択しているので、認識部５は認識結果と尤度を得点計算部１６に送信する（Ｙの送信ライン）が、認識部５から検索部２１の方には（Ｘの送信ライン）認識結果を送信しないので、検索部２１は動作しない。得点計算部１６において図２で述べたように得点が計算され、図４の（ｂ）あるいは（ｃ）のように表示される。

一方、最初に、ユーザがレシピ検索を行うメニューを選択した場合には、Ｘの送信ラインが選択され、認識部５から検索部２１に認識結果が送信されるが、Ｙの送信ラインは遮断されるため認識部５から得点計算部１６にデータは送信されない。したがって、得点計算部１６は動作せず、検索部２１は送信されてきた認識結果と一致するデータをレシピデータベース２２から抽出して表示部８に表示する。例えば、ユーザが、「豚肉、ねぎ」と音声入力すると、検索部２１は「豚肉」と「ねぎ」の両方の材料名が登録されているレシピをレシピデータベース２２から検索し、レシピと画像を表示部８でユーザに提示する。

図７は、このレシピ検索機能を備えた音声認識装置をキッチンに設置した例を示す。キッチンに立っているユーザの右手壁面に装置が設置されている。図８は、この装置の画面例である。

単にレシピを検索しようとすると、検索語彙が非常に多いうえに、一般家庭で用いられることが多いので、ユーザが発声の仕方に不慣れであることにより不便さを感じることが多い。上記のようにレシピ検索機能を備えた音声認識装置とすることで、ユーザが発声の仕方を容易に習得でき、システムを快適に使用することが可能となる。また、システムが受理可能な検索キーワードを入力する必要があるが、レシピの材料のように多数の検索キーワードがある場合にも、音声認識トレーニングを行うことによりユーザに自然にキーワードを覚えてもらえる効果がある。

図９は、図５の検索部２１、レシピデータベース２２の替りにインターネット検索部３１、インターネット３２を設けたものである。インターネット検索部３１は認識部５から出力される認識結果に基づいてインターネット３２を介して外部レシピデータなどの外部データを検索し、認識結果と一致するWWWページを表示部８に送信する。

以上のように構成すれば、例えば、図５のように装置内部にレシピデータベースを設けることが必要でなくなり、外部のレシピデータを活用することで、装置内構成の簡素化を図ることができる。

図１０は、図１の構成に最高得点保持部４１を設けている。最高得点保持部４１は、得点を記憶する機能を有し、得点計算部６から送信される得点をすべて記憶する領域と最高得点を記憶する領域を有している。送信されてきた得点と記憶している最高得点とを比較して、現在記憶している最高得点よりも送信されてきた得点の方が高い場合に、記憶している最高得点を送信されてきた得点に更新する。最高得点保持部４１は、得点計算部６から受信した得点と、記憶している最高得点とを表示部８に送信して表示する。なお、最高得点は語彙ごとに記憶、更新しても良く、最高得点の初期値は０や、非常に低い数値に設定しておいても良い。

上述のように、ユーザに対して、最高得点を提示することにより、図１などの構成例よりもさらにゲーム性を高めることができ、ユーザに音声認識トレーニングを飽きないようにさせることができる。

図１１は、図１の構成に音声再生部５２、模範音声ＤＢ５１を設けたものである。模範音声ＤＢ５１は、認識語彙保持部４に保持されている語彙のすべてについて、尤度が十分に高く非常に認識しやすい模範音声データが格納されており、語彙選択部７で選択された語彙に対応する模範音声データが模範音声ＤＢ５１から抽出され、音声再生部５２で再生される。

ユーザが選択された語彙について発音する前に、その語彙の模範音声を聞かせることで、正しい発声例を理解することができ、ユーザの学習効果を向上させることができる。

図１２は、図１０の構成に最高得点音声記憶部６２と音声再生部６３とを付加したものである。最高得点音声記憶部６２は、各ユーザごとに記憶領域が分類されてユーザ毎に入力音声と最高得点に対応したユーザ音声とを各々記録できるようになっており、ユーザが発話した音声はすべて記録するように構成されている。

最高得点保持部４１は、最高得点が更新された場合には、更新通知を最高得点音声記憶部６２に通知する。更新されなかった場合には、非更新通知を最高得点音声記憶部６２に通知する。最高得点音声記憶部６２は、ユーザが発話するたびに、音声入力部１から送信される入力音声を毎回一旦記憶し、最高得点保持部４１から最高得点が更新された更新通知を受信した場合には、最高得点時の音声を音声入力部１からのユーザ音声で更新する。

また、最高得点音声記憶部６２は、更新通知、あるいは非更新通知のいづれかを受信した場合に、記憶している最高得点音声と現在のユーザ発話音声を音声再生部に送信する。音声再生部は、受信した音声データをユーザに向けて再生する。なお、最高得点保持部４１、最高得点音声記憶部６２は各々、認識語彙保持部４に保持されている各語彙ごとに、最高得点とそれに対応する音声を保持するようにしても良い。このように、ユーザの入力音声でもっとも認識しやすい模範音声を、ユーザに提示することができる。

一方、最高得点保持部４１には、得点計算部６で算出されたすべての得点が記録されているので、得点が０点、すなわち認識部５で抽出した語彙と語彙選択部７で選択された語彙とを比較して不一致の場合も最高得点保持部４１から最高得点音声記憶部６２に通知するようにして、そのときの入力音声とリンクさせておけば、ユーザの発音が不正確な場合の音声を後で音声再生部６３で再生すれば、ユーザに不正確な発声例を提示することができ、学習の参考とすることができる。

ところで、得点が低くなる原因には、ユーザの発声が前述したような模範音声に較べて不適切である場合以外にも、ユーザが発声した環境で、例えば水の流れる音などの雑音が混入されているために、尤度が低下した場合などがあり得る。このような場合にも、最高得点を記録したときの音声と、ユーザが入力した音声の違いを聞き比べることにより、このような雑音が原因の場合には、雑音が原因であるとユーザに認知させることができ、結果としてユーザに環境を改善させ、システムの性能を向上させる効果がある。また、ユーザ同士で得点を競争する場合に、特にゲーム性を高める効果がある。

本発明の音声認識装置の基本構成例を示す図である。基本構成例に認識語彙尤度リストと画像ＤＢとを設けた構成例を示す図である。図２の構成の動作を示すフローチャート図である。ユーザに発話を促す画像表示例と得点結果表示例を示す図である。レシピ検索機能を備えた音声認識装置の構成例を示す図である。レシピデータベースのデータ構造例を示す図である。レシピ検索機能を備えた音声認識装置をキッチンに設置した例を示す図である。図７の設置例での表示画面例を示す図である。インターネット検索機能を備えた音声認識装置の構成例を示す図である。ユーザの音声認識で最高得点を表示できるようにした音声認識装置の構成例を示す図である。ユーザに模範音声を提示できるようにした音声認識装置の構成例を示す図である。ユーザに最高得点時のユーザ音声を提示できるようにした音声認識装置の構成例を示す図である。

符号の説明

１音声入力部
２特徴量抽出部
３音響モデル
４認識語彙保持部
５認識部
６得点計算部
７語彙線選択部
８表示部
９画像ＤＢ
１０認識語彙尤度リスト

Claims

ユーザの音声が入力される音声入力部と、
音素モデルが格納された音響モデルと、
認識対象となる複数の語彙が保持されている認識語彙保持部と、
前記認識語彙保持部の複数の語彙からユーザに発話させるための語彙を選択する語彙選択部と、
前記音声入力部で入力された音声と前記音響モデルとを参照しつつ尤度の最も高い語彙を前記認識語彙保持部から抽出する認識部と、
前記認識部で抽出した語彙と前記語彙選択部で選択された語彙とを比較して一致している場合には、前記尤度を得点とする得点計算部とを備え、前記得点をユーザに提示するようにしたことを特徴とする音声認識装置。
前記認識語彙保持部の各語彙ごとに複数の話者の音声認識による尤度の平均値が格納された認識語彙尤度リストを備え、
この尤度平均値を用いて前記得点計算部で取得した尤度を正規化して得点とすることを特徴とする請求項１記載の音声認識装置。
前記語彙選択部からの選択された語彙に対応する画像を表示し、ユーザに発話させることを特徴とする請求項１〜請求項２記載の音声認識装置。
料理に関する情報が格納されたレシピデータベースと、
前記認識部で抽出された語彙に基づいて前記レシピデータベースを検索する検索部とを備え、
ユーザの音声入力によりレシピを検索する機能を備えたことを特徴とする請求項１〜請求項３記載の音声認識装置。
前記認識部で抽出された語彙に基づいて外部データを検索するインターネット検索部を備え、
ユーザの音声入力により外部データを検索する機能を備えたことを特徴とする請求項１〜請求項３記載の音声認識装置。
前記得点計算部から送信されてくる得点をすべて記憶するとともに、受信した得点と記憶している得点とを比較して高い方の得点データに最高得点を更新する最高得点保持部を備え、
前記最高得点保持部の得点をユーザに提示することを特徴とする請求項１〜請求項５記載の音声認識装置。
前記語彙選択部で選択された語彙について尤度の高い模範音声を発声させ、ユーザに正しい発声を提示することを特徴とする請求項１〜請求項６記載の音声認識装置。
前記音声入力部からの音声を逐次記録するとともに、前記最高得点保持部で最高得点データが更新された場合に最高得点データに対応する音声データを更新する最高得点音声記憶部を備え、
ユーザの最高得点時の発声を模範音声として提示することを特徴とする請求項６記載の音声認識装置。
前記認識部で抽出した語彙と前記語彙選択部で選択された語彙とを比較して不一致の場合に対応するユーザ音声を前記最高得点音声記憶部から再生し、ユーザに提示することを特徴とする音声認識装置。