JP2004045591A

JP2004045591A - 音声認識方法及び特定話者音響辞書の提供方法

Info

Publication number: JP2004045591A
Application number: JP2002200950A
Authority: JP
Inventors: Keiichiro Osada; 長田　啓一郎; Yoshihiro Furuyui; 古結　義浩
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2002-07-10
Filing date: 2002-07-10
Publication date: 2004-02-12

Abstract

【課題】会話ロボット等の音声認識機器の音声認識性能の向上。
【解決手段】複数の会話ロボット１を通信回線２を介してサーバ機３に接続する。サーバ機３には各会話ロボット１のユーザ４の特定話者音響辞書５が事前に登録されている。会話ロボット１−＃ｉは、自分本来のユーザ４−＃ｉ以外のユーザ４−＃ｊ（ｊ≠ｉ）が操作する場合、サーバ機３に要求を出し、ユーザ４−＃ｊの特定話者音響辞書５−＃ｊをダウンロードし、特定話者音響辞書５−＃ｊを参照してユーザ４−＃ｊが発する音声を認識する。
【選択図】　　　　図２

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識機能を有するロボットなど各種音声認識機器における音声認識性能を向上させる技術に関する。
【０００２】
【従来の技術】
近年、一般家庭内でロボットの所有者や操作者などのユーザの生活を補助・支援・介護するロボットや、愛玩用に動物を模したロボットが開発されており、いずれも音声認識機能を有しており、一種の音声認識機器である。これらの音声認識機能を有するロボットでは、従来、特定話者音響辞書が組み込まれ、例えば所有者といった特定個人のみの音声認識をサーポートしている。その理由は、特定話者音響辞書を用いる方が、非特定話者音響辞書を用いるより、音声認識性能（音声認識率）が高いからである。同様に、音声認識機能を有するパソコンなど、個人の使用を目的とした各種音声認識機器でも、従来は、特定話者音響辞書が組み込まれ、特定個人のみの音声認識をサーポートしている。
【０００３】
従って、ある音声認識機器（例えば音声認識機能付きロボット）のユーザが別のユーザの音声認識機器（例えば音声認識機能付きロボット）を操作しようとする場合、それには自分の特定話者音響辞書が組み込まれていないため、音声認識性能が著しく低下するという不都合がある。
【０００４】
また、従来の音声認識機器では、マイクロホンのゲインは固定か、あるいは、オートゲインコントロールであった。ゲイン固定の場合は、音声認識に用いる音声信号の大きさが話者とマイクロホンとの距離に依存して異なるため、大きすぎたり、小さすぎたりすると、音声認識性能が低下するという不都合がある。オートゲインコントロールの場合は、発話開始時にゲインが高く、その後発話中にゲインが変化するため、音声認識に用いる音声信号の大きさが著しく変動し、音声認識性能が低下するという不都合がある。
【０００５】
更に、話者がマイクロホンに向かって発声しないと、話者の音声が周囲の雑音に埋もれてしまい、音声認識性能が低下するという不都合が生じる。
【０００６】
【発明が解決しようとする課題】
従って、本発明の課題は、音声認識性能が向上に寄与する技術を提供することである。
【０００７】
【課題を解決するための手段】
発明者は、以下に示す知見に基づいて、上記課題を解決する手段を案出した。
（１）　特定話者音響辞書を音声認識機器間で通信回線を介してネットワーク共有すれば、あるユーザが別のユーザの音声認識機器を操作する場合でも、音声認識性能が向上する。特定話者音響辞書のネットワーク共有には、サーバ機を用いてインターネット等により共有する場合と、音声認識機器をピアツーピア接続して共有する場合が考えられる。
（２）　マイクロホンのゲインについては、話者とマイクロホンとの距離を計測して最適な値に調整し、話者が発話中は発話前のゲインに固定すれば、音声認識性能が向上する。
（３）　周囲の雑音については、音声認識機器に可動の腕部を備えてこの腕部にマイクロホンを持たせ、音声認識に際して話者に腕部を差し出せば、これに誘われて話者が腕部に向かって発声するので、雑音を少なく拾うことになって音声認識が向上する。
【０００８】
第１発明は音声認識方法であり、音声認識機器で音声認識を行う際、話者の特定話者音響辞書を当該特定話者音響辞書を有する別の機器から通信回線を介してダウンロードし、これを参照して音声認識を行うことを特徴とする。
【０００９】
第２発明は、第１発明の音声認識方法において、前記音声認識機器が話者の個人認識を行い、認識結果に対応する特定話者音響辞書を自動的にダウンロードすることを特徴とする。
【００１０】
第３発明は、第１発明の音声認識方法において、前記別の機器が特定話者音響辞書を事前登録したサーバ機であり、インターネットに接続されていることを特徴とする。
【００１１】
第４発明は、第１発明の音声認識方法において、前記別の機器が前記音声認識機器にピアツーピアに接続されたロボットであることを特徴とする。
【００１２】
第５発明は、第１発明の音声認識方法において、前記音声認識機器が話者とマイクロホンとの距離を計測する手段を有し、音声ゲインを計測した距離に応じた値に調整し、話者が発話中の音声ゲインを発話前に調整した値に保持することを特徴とする。
【００１３】
第６発明は、第１発明の音声認識方法において、前記音声認識機器がマイクロホンを有する可動の腕部を備え、音声認識に際し、話者に腕部を差し出すことを特徴とする。
【００１４】
第７発明は、第１発明から第６発明いずれかの音声認識方法において、前記音声認識機器がロボットであることを特徴とする。
【００１５】
第８発明は特定話者音響辞書の提供方法であり、ユーザの特定話者音響辞書をサーバ機に事前登録しておき、ユーザの要求に応じて当該ユーザの特定話者音響辞書を通信回線を介してユーザに提供することを特徴とする。
【００１６】
【発明の実施の形態】
以下、音声認識機能付きロボット（以下、会話ロボットと呼ぶ）を音声認識機器の例にして、本発明の実施の形態を図面を参照しながら説明する。
【００１７】
図１に会話ロボット１の外観を示し、ロボット本体１１は頭部１２と胸部１３と胴部（台車部）１４と左右の腕部１５とを有する人間を模したものであり、頭部１２と胸部１３間の首関節や、胸部１３と腕部１５間の肩関節、腕部１５内の肘関節、手首関節等が図示しない駆動機構により回動可能であるとともに、胴部１４に装備された左右の走行用車輪１６が図示しない駆動機構により操舵及び走行可能である。
【００１８】
図１の会話ロボット１は、作業空間をバッテリ駆動により自律的に移動するように構成されており、一般家庭等の屋内を作業空間として人間と共存し、例えば、一般家庭内でロボットの所有者や操作者などのユーザの生活を補助・支援・介護するために用いられる。そのため、会話ロボット１は、内蔵のＣＰＵ（コンピュータ）及び各種のセンサにより、ユーザと会話する機能の他、ユーザの行動を見守ったり、ユーザの行動を補助したり、ユーザと一緒に行動したりする機能を備えている。会話ロボット１の形状としては、愛玩用に動物を模したものなど、種々考えられる。
【００１９】
会話ロボット１はＣＰＵを用いた図示しない制御部を持ち、頭部１２には、２つのカメラ１７と２つのマイクロホン１８が装着されている。また、胸部１３の中央部に音量・音源方向センサと焦電型赤外線センサからなる人検知センサ１９、左右にスピーカ２０ａが装着されている。更に、胸部１３の中央部に画像ディスプレイ２０ｂが装着され、胴部１４に超音波式障害物センサ２１及びレーザ式障害物センサ２２が装着されている。キーボード及びタッチセンサ等が装着されることもある。
【００２０】
カメラ１７はユーザや屋内を撮影してその画像を制御部に出力し、マイクロホン１８はユーザの音声や電話のベル、呼び鈴、テレビの音などの生活音を取り込んで制御部に出力し、人検知センサ１９はユーザの有無を検出して制御部に出力する。スピーカ２０ａはマイクロホン１８とともにユーザとの会話に用いられ、画像ディスプレイ２０ｂはユーザに対する情報提供に用いられる。キーボードやタッチセンサはユーザ用のデータ入力機器であり、ユーザの生活パターンデータを入力したり、ユーザの意思を入力するために用いられる。スピーカ２０ａはユーザに対する情報提供にも用いられる。制御部には、所定期間にわたるカレンダ及び現在の年月日及び時刻を計時するカレンダクロックが備えられている。
【００２１】
制御部には、キーボード等のデータ入力機器と、カメラ１７、マイクロホン１８、人検知センサ１９及び障害物センサ２１、２２等のユーザの生活パターンを常時モニタする外界センサと、カレンダクロックといった内界センサとにより、会話ロボット１の自己位置に関する情報と、ユーザの位置に関する情報と、ユーザの行動に関する情報とが入力される。
【００２２】
制御部は、図示しないが、自己位置認識部と、ユーザ認識部と、会話処理部と、データベース（記憶手段）と、生活パターンデータ処理部、駆動制御部を有している。
【００２３】
自己位置認識部は、カメラ１７で撮影した画像情報に基づいて会話ロボット１自身の位置及び方位（向き、姿勢）を認識する。
【００２４】
ユーザ認識部は、カメラ１７で撮影した画像情報及び／またはマイクロホン１８で取り込んだ音声からユーザ個人の認識を行い、また、カメラ１７と人検知センサ１９の検出結果からユーザの位置、向き、姿勢、活動量を認識する。
【００２５】
更に、ユーザ認識部は、ユーザの位置に関連して、カメラ１７で取得した画像情報を画像処理することにより、ユーザと会話ロボット１との距離を常に推定する機能を有している。例えば、ユーザの顔の画素数を計測することにより、距離を計測することができる。
【００２６】
会話処理部は、ユーザと会話を行うものであり、マイクロフォン１８で取り込んだ音声からユーザが話し掛ける発言内容等を音響辞書を用いて認識する音声認識機能と、ユーザへの話し掛けや、質問、返事等の各種会話用音声波形を作ってスピーカ２０ａを駆動する発言機能を有している。
【００２７】
更に、会話処理部は、ユーザ認識部が計測したユーザと会話ロボット１との距離に応じて、マイクロフォン１８のゲインを音声認識にとって最適な値に調整し、且つ、ユーザの発話中は、ゲインを発話前に調整した値に保持する機能を備えている。
【００２８】
データベースは、ユーザとの会話用やユーザへの話し掛け用の各種音声データ、ユーザとの会話時やユーザへの話し掛け時の身振り動作のデータ、ユーザの生活情報（ユーザの居住に関する部屋の間取りや家具の配置、ユーザ個人の日常の生活パターン、ユーザの趣味、健康状態など）を記憶している。ユーザの生活情報には、必要に応じて文字列や映像、音声などのキーワードが付される。生活パターンのデータとしては、起床、就寝、食事、薬服用、散歩、自由時間、入浴などの行動に関するイベントが上げられ、これらのイベントが時間データとともにタイムスケジュールとして記憶される。
【００２９】
生活パターンデータ処理部は、ユーザがデータ入力機器から直接入力した生活情報をキーワードを付してデータベースに蓄積したり、カメラ１７やマイクロホン１８、マイクロホン１８ａ、人検知センサ１９で取得した音声認識結果などユーザの各種情報を処理することで一つ一つの生活情報にキーワードやその日時を付してデータベースに蓄積する。更に、生活パターンデータ処理部は、ユーザからの指示や話し掛けに応じて、あるいは、時刻などに応じて、これに対応する音声データをデータベースから選択して会話処理部に与える。
【００３０】
駆動制御部は、会話ロボット１の可動部（走行用車輪１６や首関節、肩関節、肘関節、手首関節など）の各駆動機能を制御することで、ロボット本体１１全体の移動、頭部１２の動き、腕部１４の動き等を実現する。
【００３１】
次に、図２、図３を参照して、会話ロボット１（音声認識機器）が特定話者音響辞書をネットワーク共有して行う音声認識方法を説明する。
【００３２】
［サーバ機を用いる方法］
図２に示す例では、会話ロボット１が３台（一般には、複数台）、通信回線２を介してサーバ機３に接続されている。本例では、通信回線２はインターネットである。サーバ機３には、各会話ロボット１のユーザ４の特定話者音響辞書５が事前に登録されている。以下の説明では、個々の会話ロボット１、ユーザ４、特定話者音響辞書５を区別する場合、会話ロボット１−＃１、１−＃２、１−＃３、ユーザ４−＃１、４−＃２、４−＃３、特定話者音響辞書５−＃１、５−＃２、５−＃３と表記する。会話ロボット１−＃ｉ（ｉ＝１、２、３）の本来のユーザは４−＃ｉであり、ユーザ４−＃ｉ（ｉ＝１、２、３）の特定話者音響辞書は５−＃ｉである。
【００３３】
サーバ機３はユーザ４−＃ｉの要求に応じて、当該ユーザの特定話者音響辞書５−＃ｉを通信回線２を介してユーザ４−＃ｉに提供する。その際、サーバ機３は必要あれば個人認証を行い、正当なユーザ４−＃ｉのみに特定話者音響辞書５−＃ｉを提供する。ユーザ４−＃ｉからサーバ機３への要求、あるいは、サーバ機３からへのユーザ４−＃ｉへの特定話者音響辞書５−＃ｉの提供は、ユーザ４−＃ｉ自身の会話ロボット１−＃ｉに限らず、波の会話ロボット１−＃ｊ（ｊ≠ｉ）でも、あるいは、ユーザが操作する適宜な情報端末機器や、サーバ機３により特定話者音響辞書の登録や提供を商売とする業者の端末機器などであっても良い。
【００３４】
会話ロボット１−＃ｉは、自分本来のユーザ４−＃ｉ以外のユーザ４−＃ｊ（ｊ≠ｉ）が操作する場合、自動的に、あるいは、ユーザ４−＃ｊの指示により、サーバ機３に要求を出し、通信回線２を介してユーザ４−＃ｊの特定話者音響辞書５−＃ｊをダウンロードし、特定話者音響辞書５−＃ｊを参照してユーザ４−＃ｊが発する音声を認識する。
【００３５】
これにより、例えば、ユーザ４−＃１が別のユーザの会話ロボット１−＃２を操作する場合でも、音声認識性能が向上する。ユーザと会話ロボットの他の組合せでも、同じであり、音声認識性能が向上する。
【００３６】
本例では、会話ロボット１−＃ｉはユーザ４−＃ｊの個人認証を行い、ユーザ４−＃ｊが正当なユーザである場合のみ、自動的に特定話者音響辞書５−＃ｊをダウンロードするようにしている。
【００３７】
会話ロボット１−＃ｉにユーザ４−＃ｊ（ｊ≠ｉ）の特定話者音響辞書５−＃ｊがすでに組み込まれている場合は、ダウンロードの必要はない。
【００３８】
会話ロボット１−＃ｉは、自分本来のユーザ４−＃ｉの特定話者音響辞書５−＃ｊをサーバ機３からダウンロードすることが可能である。
【００３９】
更に、会話ロボット１−＃ｉは、ユーザが自分本来の１−＃ｉであるか否かにかかわらず、ユーザ認識部で計測したユーザと自分との距離に応じてマイクロフォン１８のゲインを音声認識にとって最適な値に調整しており、ユーザの発話中は、ゲインを発話前に調整した値に保持してユーザの音声認識を行い、音声認識性能の向上を図っている。
【００４０】
［ピアツピア接続による方法］
図３に示す例では、会話ロボット１が２台（一般には、複数台）、通信回線２を介してピアツピア接続されている。各会話ロボット１には、自分自身のユーザ４の特定話者音響辞書５が組み込まれている。以下の説明では、個々の会話ロボット１、ユーザ４、特定話者音響辞書５を区別する場合、会話ロボット１−＃１、１−＃２、ユーザ４−＃１、４−＃２、特定話者音響辞書５−＃１、５−＃２と表記する。会話ロボット１−＃ｉ（ｉ＝１、２）の本来のユーザは４−＃ｉであり、ユーザ４−＃ｉ（ｉ＝１、２）の特定話者音響辞書は５−＃ｉである。
【００４１】
会話ロボット１−＃ｉは、自分本来のユーザ４−＃ｉ以外のユーザ４−＃ｊ（ｊ≠ｉ）が操作する場合、自動的に、あるいは、ユーザ４−＃ｊの指示により、ユーザ４−＃ｊの会話ロボット１−＃ｊに要求を出し、通信回線２を介してユーザ４−＃ｊの特定話者音響辞書５−＃ｊをダウンロードし、特定話者音響辞書５−＃ｊを参照してユーザ４−＃ｊが発する音声を認識する。
【００４２】
これにより、例えば、ユーザ４−＃１が別のユーザの会話ロボット１−＃２を操作する場合でも、音声認識性能が向上する。逆の場合、ユーザ４−＃２が別のユーザの会話ロボット１−＃１を操作する場合でも音声認識性能が向上する。
【００４３】
本例では、会話ロボット１−＃ｉはユーザの個人認証を行い、ユーザ４−＃ｊが正当なユーザである場合のみ、自動的に特定話者音響辞書５−＃ｊをダウンロードするようにしている。
【００４４】
会話ロボット１−＃ｉにユーザ４−＃ｊ（ｊ≠ｉ）の特定話者音響辞書５−＃ｊがすでに組み込まれている場合は、ダウンロードの必要はない。
【００４５】
更に、会話ロボット１−＃ｉは、ユーザが自分本来の１−＃ｉであるか否かにかかわらず、ユーザ認識部で計測したユーザと自分との距離に応じてマイクロフォン１８のゲインを音声認識にとって最適な値に調整しており、ユーザの発話中は、ゲインを発話前に調整した値に保持してユーザの音声認識を行い、音声認識性能の向上を図っている。
【００４６】
上記の説明では、話者と会話ロボット１との距離を計測する手段として、カメラ１７を用いたユーザ認識部の機能を用いたが、これの代わりに、図１に示すように、会話ロボット１に装着した超音波センサ等を用いた距離センサ２３を用いることができる。この距離センサ２３は胸部１３に装着されている。
【００４７】
また、上記の説明では、会話ロボット１の音声認識に、頭部１２に装着したマイクロホン１８を用いたが、その設置場所は任意である。
【００４８】
図１に示すように、会話ロボット１の腕部１５の手先にマイクロホン１８ａを装着して用いる場合は、音声認識に際し、駆動制御部によりユーザに対して腕部１５を差し出すようにすると良い。マイクロホン１８ａは、外部から見えるか見えないか問わない。
【００４９】
これにより、あたかもレポータのようにマイクロホン１８ａを話者に差し出すことになり、話者がその手先（マイクロホン１８ａ）に向かってしゃべるように仕向けることができる。その結果、雑音を少なくして、話者の音声だけをひろうことができ、音声認識性能が向上する。
【００５０】
以上説明した実施例では、会話ロボット１を音声認識機器として説明したが、会話ロボット１に限らず、種々の音声認識機器に本発明を適用することができる。
【００５１】
また、音声認識機器が話者と自分との距離を計測する手段を有して、話者との距離に応じてマイクロフォンのゲインを音声認識にとって最適な値に調整していて、話者の発話中は、ゲインを発話前に調整した値に保持して音声認識を行う技術は、特定話者音響辞書をネットワークで共有するか否かにかかわらず、音声認識性能の向上に多いに寄与するものである。
【００５２】
更に、音声認識機器がマイクロホンを有する可動の腕部を備え、音声認識に際し、話者に腕部を差し出す技術も、特定話者音響辞書をネットワークで共有するか否かにかかわらず、音声認識性能の向上に多いに寄与するものである。
【００５３】
【発明の効果】
第１発明は、音声認識機器で音声認識を行う際、話者の特定話者音響辞書を当該特定話者音響辞書を有する別の機器から通信回線を介してダウンロードし、これを参照して音声認識を行うので、音声認識機器の使用時に当該話者用の特定話者音響辞書が組み込まれていなくても、または、話者が自分の特定話者音響辞書を記憶した媒体を携帯しなくても、音声認識性能が向上する。
【００５４】
第２発明は、前記音声認識機器が話者の個人認識を行い、認識結果に対応する特定話者音響辞書を自動的にダウンロードするので、特定話者音響辞書を不正にダウンロードすることがない。
【００５５】
第３発明は、前記別の機器が特定話者音響辞書を事前登録したサーバ機であり、インターネットに接続されているので、多数の音声認識機器がサーバ機から特定話者音響辞書をダウンロードすることができる。
【００５６】
第４発明は、前記別の機器が前記音声認識機器にピアツーピアに接続されたロボットであるので、ロボットが持つ特定話者音響辞書をダウンロードすることができる。
【００５７】
第５発明は、前記音声認識機器が話者とマイクロホンとの距離を計測する手段を有し、音声ゲインを計測した距離に応じた値に調整し、話者が発話中の音声ゲインを発話前に調整した値に保持するので、音声認識中にゲインが変化せず、音声認識性能が向上する。
【００５８】
第６発明は、前記音声認識機器がマイクロホンを有する可動の腕部を備え、音声認識に際し、話者に腕部を差し出すので、雑音を少なくして、話者の音声だけをひろうことができ、音声認識性能が向上する。
【００５９】
第７発明は、前記音声認識機器がロボットであるので、ロボットのユーザが他人のロボットを操作する場合の音声認識性能が向上する。
【００６０】
第８発明は、ユーザの特定話者音響辞書をサーバ機に事前登録しておき、ユーザの要求に応じて当該ユーザの特定話者音響辞書を通信回線を介してユーザに提供するので、ユーザがサーバ機から自分の特定話者音響辞書を取得して任意の音声認識機器で参照することができ、音声認識性能が向上する。
【図面の簡単な説明】
【図１】本発明の実施例に係る会話ロボットの外観を示す図。
【図２】サーバ機を用いて特定話者音響辞書を共有する音声認識方法の例を示す図。
【図３】ピアツーピア接続により特定話者音響辞書を共有する音声認識方法の例を示す図。
【符号の説明】
１　会話ロボット
２　通信回線
３　サーバ機
４　ユーザ
５　特定話者音響辞書
１１　ロボット本体
１２　頭部
１３　胸部
１４　胴部
１５　腕部
１６　走行用車輪
１７　カメラ
１８　マイクロホン
１８ａ　マイクロホン
１９　人検知センサ
２０ａ　スピーカ
２０ｂ　画像ディスプレイ
２１、２２　障害物センサ
２３　距離センサ

Claims

音声認識機能を有する機器（以下、音声認識機器）で音声認識を行う際、話者の特定話者音響辞書を当該特定話者音響辞書を有する別の機器から通信回線を介してダウンロードし、これを参照して音声認識を行うことを特徴とする音声認識方法。
請求項１において、前記音声認識機器は話者の個人認識を行い、認識結果に対応する特定話者音響辞書を自動的にダウンロードすることを特徴とする音声認識方法。
請求項１において、前記別の機器が特定話者音響辞書を事前登録したサーバ機であり、インターネットに接続されていることを特徴とする音声認識方法。
請求項１において、前記別の機器が前記音声認識機器にピアツーピアに接続されたロボットであることを特徴とする音声認識方法。
請求項１において、前記音声認識機器は話者とマイクロホンとの距離を計測する手段を有し、音声ゲインを計測した距離に応じた値に調整し、話者が発話中の音声ゲインを発話前に調整した値に保持することを特徴とする音声認識方法。
請求項１において、前記音声認識機器はマイクロホンを有する可動の腕部を備え、音声認識に際し、話者に腕部を差し出すことを特徴とする音声認識方法。
請求項１から６いずれかにおいて、前記音声認識機器がロボットであることを特徴とする音声認識方法。
ユーザの特定話者音響辞書をサーバ機に事前登録しておき、ユーザの要求に応じて当該ユーザの特定話者音響辞書を通信回線を介してユーザに提供することを特徴とする特定話者音響辞書の提供方法。