JP2001154685A

JP2001154685A - 音声認識装置および音声認識方法、並びに記録媒体

Info

Publication number: JP2001154685A
Application number: JP34046899A
Authority: JP
Inventors: Katsuki Minamino; 活樹南野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-11-30
Filing date: 1999-11-30
Publication date: 2001-06-08
Also published as: US7313524B1

Abstract

(57)【要約】【課題】ロボットの成長の状態にあわせて変化する音
声認識処理を実現して、ロボットのエンタテイメント性
の向上を図る【解決手段】成長スコア設定部４６は、ロボットの成
長状態に基づいて、辞書記憶部４４における単語辞書に
登録された各単語に、成長スコアを設定する。そして、
マッチング部４２は、単語辞書に登録された単語を対象
とする音声認識を、その単語に設定された成長スコアを
考慮して行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法、並びに記録媒体に関し、音声認識機能
を有するロボットに用いて好適な音声認識装置および音
声認識方法、並びに記録媒体に関する。

【０００２】

【従来の技術】例えば、音響モデル、辞書、文法などに
基づいて、音響スコアおよび言語スコアを求め、入力音
声の音声認識結果としての単語系列が決定される音声認
識技術が知られている。また、ある命令信号に対応し
て、ロボットの動作を制御する制御方法が、FA（Factor
y Automation）などのロボットに用いられている。さら
に、これらの音声認識技術およびロボット制御技術を組
み合わせ、音声認識結果に基づいて、ロボットの動作を
制御するシステムも実現されている。そのようなシステ
ムとしては、例えば、荷物の仕分けにおいて、音声認識
を利用して荷物の振り分け先を変更するシステムがあ
る。なお、ロボットの他、コンピュータのコントロール
（コマンド入力等）などを、音声認識を利用して行うこ
とも、近年広く行われるようになってきている。

【０００３】また、上述のようないわゆる産業用ロボッ
トの他、疑似ペットとしての、エンタテイメント用のロ
ボット（ぬいぐるみ状のものを含む）においても、使用
者の発話を音声認識し、その音声認識結果に基づいて、
各種の行動を起こすものが製品化されつつある。

【０００４】

【発明が解決しようとする課題】ところで、特に、エン
タテイメント用のロボットについては、実際のペットが
成長していくのと同様の感覚を、使用者に享受させるこ
とが望まれる。即ち、例えば、最初は、使用者の発話を
理解（音声認識）できないが、成長するにつれて、使用
者の発話を徐々に理解することができるようにすれば、
ロボットの娯楽性を格段的に向上させることができる。

【０００５】本発明は、このような状況に鑑みてなされ
たものであり、ロボットの成長等の状態にあわせて変化
する音声認識処理を行うことができるようにするもので
ある。

【０００６】

【課題を解決するための手段】本発明の音声認識装置
は、音声を認識する音声認識手段と、ロボットの状態に
基づいて、音声認識手段を制御する制御手段とを備える
ことを特徴とする。

【０００７】制御手段には、ロボットの成長、感情、ま
たは本能の状態に基づいて、音声認識手段を制御させる
ことができる。

【０００８】また、制御手段には、ロボットの状態に基
づいて、音声認識手段の音声認識精度を変更させること
ができる。

【０００９】音声認識手段には、音声認識の対象とする
語彙が登録された辞書を記憶する辞書記憶手段を設け、
制御手段には、辞書に登録された語彙に対して、ロボッ
トの状態に対応する重みを付して音声認識を行うよう
に、音声認識手段を制御させることができる。

【００１０】また、音声認識手段には、音声認識の対象
とする語彙が分けて登録された複数の辞書を記憶する辞
書記憶手段を設け、制御手段には、複数の辞書に対し
て、ロボットの状態に対応する重みを付して音声認識を
行うように、音声認識手段を制御させることができる。

【００１１】さらに、音声認識手段には、音声認識の対
象とする語彙が、他の語彙と対応付けられて登録された
辞書を記憶する辞書記憶手段を設け、制御手段には、ロ
ボットの状態に基づいて、辞書において、音声認識結果
としての語彙に対応付けられている他の語彙を、最終的
な音声認識結果として出力するように、音声認識手段を
制御させることができる。

【００１２】辞書には、音声認識の対象とする語彙を、
その語彙と音響的に類似しているまたは意味的に関連す
る他の語彙と対応付けて登録しておくことができる。

【００１３】音声認識手段には、音声認識の対象とする
語彙が登録される辞書を記憶する辞書記憶手段を設け、
制御手段には、ロボットの状態に基づいて、辞書に登録
可能な語彙の数を制御させることができる。

【００１４】ロボットは、音声認識手段が出力する音声
認識結果に基づいて、所定の行動を起こすものとするこ
とができる。

【００１５】本発明の音声認識方法は、音声を認識する
音声認識ステップと、ロボットの状態に基づいて、音声
認識ステップを制御する制御ステップとを備えることを
特徴とする。

【００１６】本発明の記録媒体は、音声を認識する音声
認識ステップと、ロボットの状態に基づいて、音声認識
ステップを制御する制御ステップとを備えるプログラム
が記録されていることを特徴とする。

【００１７】本発明の音声認識装置および音声認識方
法、並びに記録媒体においては、ロボットの状態に基づ
いて、音声認識処理が制御される。

【００１８】

【発明の実施の形態】図１は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図２は、
その電気的構成例を示している。

【００１９】本実施の形態では、ロボットは、犬形状の
ものとされており、胴体部ユニット２には、その前端に
頭部ユニット３が配設され、また、その前後左右の各隅
部には、それぞれ、大腿部ユニット４Ａ，４Ｂ，４Ｃ，
４Ｄおよび脛部ユニット５Ａ，５Ｂ，５Ｃ，５Ｄからな
る脚部ユニット６Ａ，６Ｂ，６Ｃ，６Ｄが取り付けられ
ている。さらに、胴体部ユニット２の後端には、尻尾ユ
ニット１が取り付けられている。

【００２０】尻尾ユニット１と胴体部ユニット２、頭部
ユニット３と胴体部ユニット２、大腿部ユニット４Ａ乃
至４Ｄそれぞれと胴体部ユニット２、および大腿部ユニ
ット４Ａ乃至４Ｄそれぞれと脛部ユニット５Ａ乃至５Ｄ
それぞれを連結する各関節機構には、アクチュエータと
してのモータ７₁，７₂，・・・，７_Nが配設されてお
り、これにより、対応するモータ７₁乃至７_Nを駆動する
ことによって、尻尾ユニット１および頭部ユニット３
を、ｘ軸、ｙ軸、ｚ軸の３軸それぞれを中心とする方向
に自在に回転させ、腿部ユニット４Ａ乃至４Ｄを、ｘ
軸、ｙ軸の２軸それぞれを中心とする方向に自在に回転
させ、かつ脛部ユニット５Ａ乃至５Ｄを、ｘ軸の１軸を
中心とする方向に回転させ得るようになっており、これ
により、ロボットは、各種の行動を行うことができるよ
うになっている。

【００２１】頭部ユニット３には、カメラ（ＣＣＤ(Cha
rge Coupled Device)カメラ）８、マイク（マイクロフ
ォン）９、および圧力センサ１０がそれぞれ所定位置に
配設されており、また、胴体部ユニット２は、制御部１
１を内蔵している。カメラ８では、使用者を含む周囲の
状況の画像が撮像され、マイク９では、使用者の音声を
含む周囲の音声が集音される。また、圧力センサ１０で
は、使用者等によって与えられる圧力が検出される。そ
して、カメラ８により撮像された周囲の状況の画像や、
マイク９により集音された周囲の音声、圧力センサ１０
により検出された、使用者により頭部に与えられた圧力
は、それぞれ画像データ、音声データ、圧力検出データ
として、それぞれ制御部１１に与えられる。

【００２２】各関節機構に対応する各モータ７₁乃至７_N
については、それぞれに対応させてロータリエンコーダ
１２₁乃至１２_Nが設けられており、各ロータリエンコー
ダ１２₁乃至１２_Nでは、対応するモータ７₁乃至７_Nの回
転軸の回転角度が検出される。ロータリエンコーダ１２
₁乃至１２_Nで検出された回転角度は、それぞれ角度検出
データとして制御部１１に与えられる。

【００２３】制御部１１は、カメラ８からの画像デー
タ、マイク９からの音声データ、圧力センサ１０からの
圧力検出データ、およびロータリエンコーダ１２₁乃至
１２_Nそれぞれからの角度検出データに基づいて、周囲
の状況や自分の姿勢等を判断するとともに、予めインス
トールされている制御プログラムに基づいて続く行動を
決定し、その決定結果に基づいて、必要なモータ７₁乃
至７_Nを駆動させるようになっている。

【００２４】これにより、ロボットは、尻尾ユニット１
や、頭部ユニット２、各脚部ユニット６Ａ乃至６Ｄを動
かして所望状態にし、自律的に行動する。

【００２５】次に、図３は、図２の制御部１１の構成例
を示している。

【００２６】制御部１１は、ＣＰＵ（Central Processi
ng Unit）２０、プログラムメモリ２１、ＲＡＭ（Rando
m Access Memory）２２、不揮発性メモリ２３、インタ
フェース回路（Ｉ／Ｆ）２４、およびモータドライバ２
５が、バス２６を介して接続されて構成されている。

【００２７】ＣＰＵ（Central Processing Unit）２０
は、プログラムメモリ２１に記憶されている制御プログ
ラムを実行することにより、ロボットの行動を制御す
る。プログラムメモリ２１は、例えば、ＥＥＰＲＯＭ(E
lectrically Erasable Programmable Read Only Memor
y)等で構成され、ＣＰＵ２０が実行する制御プログラム
や必要なデータを記憶している。ＲＡＭ２２は、ＣＰＵ
２０の動作上必要なデータ等を一時記憶するようになっ
ている。不揮発性メモリ２３は、後述するような感情／
本能モデルや、行動モデル、成長モデル、単語辞書、音
韻モデル、文法規則等の、電源がオフ状態とされた後も
保持する必要のあるデータを記憶するようになってい
る。インタフェース回路２４は、カメラ８や、マイク
９、圧力センサ１０、ロータリエンコーダ１２₁乃至１
２_Nから供給されるデータを受信し、ＣＰＵ２０に供給
するようになっている。モータドライバ２５は、ＣＰＵ
２０の制御にしたがい、モータ７₁乃至７_Nを駆動（ドラ
イブ）するための駆動信号を、モータ７₁乃至７_Nに供給
するようになっている。

【００２８】制御部１１は、ＣＰＵ２０において、プロ
グラムメモリ２１に記憶された制御プログラムが実行さ
れることにより、機能的に、図４に示すような構成とな
って、ロボットの行動を制御する。

【００２９】即ち、図４は、制御部１１の機能的な構成
例を示している。

【００３０】センサ入力処理部３０は、外部から与えら
れる刺激や、外部の状態を、マイク９や、カメラ８、圧
力センサの出力に基づいて認識し、成長モデル部３１、
感情／本能モデル部３２、および行動決定部３３に供給
するようになっている。なお、センサ入力処理部３０
は、必要に応じて、成長モデル部３１の出力を用いて処
理を行うようになっている。この点については後述す
る。

【００３１】成長モデル部３１は、ロボットの成長の状
態を表す成長モデルを管理しており、センサ入力処理部
３０の出力や、時間経過に基づいて、ロボットの成長状
態を変化させ、その変化後の成長状態を、センサ入力処
理部３０および行動決定部３３に供給するようになって
いる。

【００３２】感情／本能モデル部３２は、ロボットの感
情と本能の状態をそれぞれ表現する感情モデルと本能モ
デルを管理しており、センサ入力処理部３０の出力や、
行動決定部３３の出力、時間経過に基づいて、感情モデ
ルや本能モデルを規定するパラメータを変更すること
で、ロボットの感情や本能の状態を変化させるようにな
っている。この変化後の感情や本能の状態は、行動決定
部３３に供給されるようになっている。

【００３３】行動決定部３３は、行動モデル記憶部３３
Ａを内蔵しており、この記憶内容や、センサ入力処理部
３０の出力、成長モデル部３１で管理されている成長モ
デル、感情／本能モデル部３２で管理されている感情モ
デルおよび本能モデル、時間経過に基づいて、その後に
ロボットが行う行動を決定して、その情報（以下、適
宜、行動情報という）を、姿勢遷移部３４に供給するよ
うになっている。

【００３４】姿勢遷移部３４は、行動決定部３３から供
給される行動情報に対応する行動をロボットに行わせる
ためのモータ７₁乃至７_Nの回転角や回転速度等の制御デ
ータを演算し、モータ制御部３５に出力する。

【００３５】モータ制御部３５は、姿勢遷移部３４から
の制御データにしたがって、モータ７₁乃至７_Nを回転駆
動するようになっている。

【００３６】以上のように構成される制御部１１では、
入力センサ処理部３０において、カメラ８から供給され
る画像データや、マイク９から供給される音声データ、
圧力センサ１０から出力される圧力検出データに基づい
て、特定の外部状態や、使用者からの特定の働きかけ、
使用者からの指示等が認識され、その認識結果が、成長
モデル部３１、感情／本能モデル部３２、および行動決
定部３３に出力される。

【００３７】即ち、センサ入力処理部３０は、カメラ８
が出力する画像データに基づいて、画像認識を行い、例
えば、「ボールがある」とか、「壁がある」といったこ
とを認識して、その認識結果を、成長モデル部３１、感
情／本能モデル部３２、および行動決定部３３に供給す
る。また、センサ入力処理部３０は、マイク９が出力す
る音声データに基づいて、音声認識を行い、その音声認
識結果を、成長モデル部３１、感情／本能モデル部３
２、および行動決定部３３に供給する。さらに、センサ
入力処理部３０は、圧力センサ１０から与えられる圧力
検出データを処理し、例えば、所定の閾値以上で、かつ
短時間の圧力を検出したときには「たたかれた（しから
れた）」と認識し、また、所定の閾値未満で、かつ長時
間の圧力を検出したときには「なでられた（ほめられ
た）」と認識して、その認識結果を、成長モデル部３
１、感情／本能モデル部３２、および行動決定部３３に
供給する。

【００３８】成長モデル部３１は、ロボットの成長状態
を規定するための成長モデルを管理している。成長モデ
ルは、例えば、図５（Ａ）に示すようなオートマトンで
構成される。このオートマトンでは、成長状態は、ノー
ド（状態）ＮＯＤＥ₀乃至ＮＯＤＥ_Gで表現され、成長、
つまり成長状態の遷移は、ある成長状態に対応するノー
ドＮＯＤＥ_gから、次の成長状態に対応するノードＮＯ
ＤＥ_g+1への遷移を表すアークＡＲＣ_g+1で表現される
（ｇ＝０，１，・・・，Ｇ−１）。

【００３９】ここで、本実施の形態では、成長の状態
は、図５（Ａ）（後述する図５（Ｂ）においても同様）
において、左のノードから右方向のノードに遷移してい
くようになっている。従って、図５（Ａ）において、例
えば、最も左のノードＮＯＤＥ ₀は、生まれたばかりの
「新生児」の状態を表し、左から２番目のノードＮＯＤ
Ｅ₁は、「幼児」の状態を表し、左から３番目のノード
ＮＯＤＥ₂は「児童」の状態を表す。以下、同様にし
て、右方向のノードほど、より成長した状態を表し、最
も右のノードＮＯＤＥ_Gは、「高齢」の状態を表す。

【００４０】そして、あるノードＮＯＤＥ_gから、右隣
のノードＮＯＤＥ_g+1への遷移を表すアークＡＲＣ_g+1に
は、その遷移が生じるための条件（入力）Ｐ_tg+1が設定
されており、ノードの遷移（成長）は、この条件に基づ
いて決定される。即ち、アークＡＲＣ_g+1においては、
その遷移が生じるために要求される、カメラ８や、マイ
ク９、圧力センサ１０からの出力、時間経過等について
の条件Ｐ_tg+1が設定されており、その条件Ｐ_tg+1が満た
された場合に、ノードＮＯＤＥ_gから右隣のノードＮＯ
ＤＥ_g+1への遷移が生じ、ロボットが成長する。

【００４１】なお、図５（Ａ）に示した成長モデルにお
いては、左のノードから右方向のノードに遷移していく
パスが１つで固定であるため、成長過程は、その１つの
パスにしたがった一定のものとなるが、成長モデルとし
ては、成長過程が複数パターン存在する、例えば、図５
（Ｂ）に示すようなものを用いるようにすることも可能
である。

【００４２】即ち、図５（Ｂ）においては、成長モデル
は、木構造になっており、例えば、「新生児」に対応す
るノードＮＯＤＥ₀からは、「幼児」に対応するノード
ＮＯＤＥ_1-0またはＮＯＤＥ_1-1のうちのいずれかに遷移
し得る。「幼児」に対応する２つのノードＮＯＤＥ_1-0
およびＮＯＤＥ_1-1は、例えば、人間で言えば、異なる
人格の幼児を表しており、ノードＮＯＤＥ_1-0またはＮ
ＯＤＥ_1-1のうちのいずれに遷移するかは、カメラ８
や、マイク９、圧力センサ１０からの出力、時間経過等
に基づいて決定される。従って、この場合、受けた刺激
等によって、ロボットの成長過程を異なるものとするこ
とができる。

【００４３】なお、成長モデルとしては、木構造の他、
グラフ構造等のオートマトンで表現可能な構造を採用す
ることができる。

【００４４】成長モデル部３１は、以上のような成長モ
デルに基づいて、ロボットの成長状態を管理し、現在の
成長状態を、センサ入力処理部３０および行動決定部３
３に出力する。

【００４５】一方、感情／本能モデル部３２は、ロボッ
トの、例えば、「うれしさ」や、「悲しさ」、「怒り」
等の、いわゆる喜怒哀楽の感情の状態を表現する感情モ
デルと、例えば、「食欲」や、「睡眠欲」、「運動欲」
等の本能の状態を表現する本能モデルとを管理してい
る。

【００４６】即ち、感情モデルと本能モデルは、それぞ
れ、ロボットの感情と本能の状態を、例えば、０乃至１
００の範囲の整数値で表すもので、感情／本能モデル部
３２は、感情モデルや本能モデルの値を、センサ入力処
理部３０の出力や、行動決定部３３の出力、時間経過に
基づいて変化させる。従って、ここでは、ロボットの感
情および本能の状態は、センサ入力処理部３０が出力す
る外部の認識結果の他、行動決定部３３の出力や、時間
経過にも基づいて変化する。そして、感情／本能モデル
部３２は、変更後の感情モデルおよび本能モデルの値
（ロボットの感情および本能の状態）を、行動決定部３
３に供給する。

【００４７】なお、感情モデルや本能モデルは、その
他、例えば、オートマトン等で構成することも可能であ
る。

【００４８】ここで、ロボットの感情および本能の状態
は、行動決定部３３の出力に基づいて、例えば、次のよ
うに変化する。

【００４９】即ち、行動決定部３３から感情／本能モデ
ル部３２に対しては、ロボットがとっている現在の行動
または過去にとった行動の内容（例えば、「そっぽを向
いた」など）を示す行動情報が供給されるようになって
いる。

【００５０】いま、ロボットにおいて、「怒り」の感情
が高いときに、使用者から何らかの刺激を受け、ロボッ
トが、「そっぽを向く」行動をとったとする。この場
合、行動決定部３３から感情／本能モデル部３２に対し
て、行動情報「そっぽを向いた」が供給される。

【００５１】一般に、怒っているときに、そっぽを向く
ような不満を表現する行動をとると、その行動によっ
て、怒りが幾分か静まることがある。そこで、感情／本
能モデル部３２は、行動決定部３３から、行動情報「そ
っぽを向いた」が供給された場合、「怒り」を表す感情
モデルの値を、小さい値に変更する（「怒り」の度合い
が小さくなるように変更する）。

【００５２】行動決定部３３は、センサ入力処理部３０
が出力する外部の認識結果や、成長モデル部３１におけ
る成長モデル、感情／本能モデル部３２における感情モ
デルおよび本能モデル、行動モデル記憶部３３Ａの記憶
内容、時間経過等に基づいて、次にとる行動を決定し、
その行動を表す行動情報を、感情／本能モデル部３２お
よび姿勢遷移部３４に供給する。

【００５３】ここで、行動モデル記憶部３３Ａは、ロボ
ットの行動を規定する、例えば、図６に示すような行動
モデルを記憶している。

【００５４】即ち、本実施の形態では、行動モデルは、
例えば、確率オートマトンで構成される。この確率オー
トマトンでは、行動は、ノード（状態）ＮＯＤＥ₀乃至
ＮＯＤＥ_Mで表現され、行動の遷移は、ある行動に対応
するノードＮＯＤＥ_m0から、他の行動（同一の行動であ
る場合もある）に対応するノードＮＯＤＥ_m1への遷移を
表すアークＡＲＣ_m1で表現される（ｍ０，ｍ１＝０，
１，・・・，Ｍ）。

【００５５】なお、図６においては、図が煩雑になるの
を避けるため、Ｍ＋１個のノードからなる確率オートマ
トンに関して、ノードＮＯＤＥ₀から、他のノード（自
身を含む）ＮＯＤＥ₀乃至ＮＯＤＥ_MへのアークＡＲＣ₀
乃至ＡＲＣ_Mのみを示してある。

【００５６】あるノードＮＯＤＥ_m0から、他のノードＮ
ＯＤＥ_m1への遷移を表すアークＡＲＣ_m1には、その遷移
が生じる遷移確率Ｐ_tm1が設定されており、また、各ノ
ードＮＯＤＥ_m（ｍ＝０，１，・・・，Ｍ）には、そのノー
ドＮＯＤＥ_mに対応する行動が生起する生起確率Ｐ_nmが
設定されている。そして、行動モデルでは、ある行動の
次に、どのような行動をとるかは、アークに設定されて
いる遷移確率と、ノードに設定されている生起確率とか
ら決定される。

【００５７】行動決定部３３は、行動モデルの、現在の
行動（以下、適宜、現在行動という）に対応するノード
から、どのノードに遷移するかを、現在行動に対応する
ノードから延びるアークに設定されている遷移確率、お
よびそのアークによって示される遷移先のノードに設定
されている生起確率の他、成長モデル部３１における成
長モデルや、感情／本能モデル部３２における感情モデ
ルおよび本能モデル、時間経過、センサ入力処理部３０
が出力する外部の認識結果に基づいて決定し、遷移後の
ノードに対応する行動（以下、適宜、遷移行動という）
を表す行動情報を、感情／本能モデル部３２および姿勢
遷移部３４に供給する。

【００５８】従って、行動決定部３３では、例えば、セ
ンサ入力処理部３０が出力する外部の認識結果が同一の
ものであっても、成長モデルが表す成長の状態によって
は、異なる行動を起こすことが決定される。

【００５９】ここで、行動決定部３３は、成長モデルに
基づいて、行動モデルの各ノードに設定された生起確率
を変更するようになっている。

【００６０】具体的には、例えば、いま、行動モデルに
おける各アークに設定された遷移確率を無視して、各ノ
ードに設定された生起確率だけを考えると、各ノードに
設定された生起確率の総和は、１となる。例えば、い
ま、行動モデルにおいて、行動として、「寝る」、「立
ち上がる」、「歩く」、および「走る」の４つが存在す
るとして、ある行動の生起確率を、Ｐ（行動）で表す
と、Ｐ（「寝る」）＋Ｐ（「立ち上がる」）＋Ｐ（「歩
く」）＋Ｐ（「走る」）は、１となる。

【００６１】ロボットの成長によっては、各ノードに設
定された生起確率の総和が１であることは変わらない
が、行動決定部３３では、各ノードに対応する行動の生
起確率が、ロボットの成長にしたがって変更される。

【００６２】即ち、例えば、成長モデルにおいて、成長
状態が「新生児」を表している場合においては、行動決
定部３３は、行動「寝る」の生起確率を１にし、他の行
動「立ち上がる」、「歩く」、および「走る」の生起確
率を０にする。この場合、ロボットは、「寝る」以外の
行動はしない。

【００６３】その後、時間経過等に基づいて、成長モデ
ルにおいて、成長状態が「幼児」になると、行動決定部
３３は、行動「寝る」の生起確率を幾分小さくするとと
もに、行動「立ち上がる」の生起確率を、その分高くす
る。さらに、行動決定部３３は、ロボットが成長するに
つれて、行動「歩く」、「走る」の順に、それぞれの生
起確率を徐々に高くしていく。これにより、ロボット
は、最初は、「寝る」ことしかしないが、成長するにつ
れて、「立ち上がる」ようになり、さらに、「歩く」、
「走る」といった行動をとるようになる。即ち、起こし
得る行動パターンが増加していく。

【００６４】行動決定部３３では、以上のようにして、
センサ入力処理部３０が出力する外部の認識結果が同一
のものであっても、成長状態によって異なる行動を起こ
すことが決定される他、感情モデルや本能モデルの値に
よっても、異なる行動を起こすことが決定される。

【００６５】具体的には、例えば、センサ入力処理部３
０の出力が、「目の前に手のひらが差し出された」旨を
示すものである場合において、「怒り」の感情モデルが
「怒っていない」ことを表しており、かつ「食欲」の本
能モデルが「お腹がすいていない」ことを表していると
きには、行動決定部３３は、目の前に手のひらが差し出
されたことに応じて、遷移行動として「お手」を行わせ
ることを決定する。

【００６６】また、例えば、上述の場合と同様に、セン
サ入力処理部３０の出力が、「目の前に手のひらが差し
出された」旨を示すものであり、かつ「怒り」の感情モ
デルが「怒っていない」ことを表しているが、「食欲」
の本能モデルが「お腹がすいている」ことを表している
場合には、行動決定部３３は、遷移行動として、「手の
ひらをぺろぺろなめる」ような行動を行わせることを決
定する。

【００６７】さらに、センサ入力処理部３０の出力が、
「目の前に手のひらが差し出された」旨を示すものであ
るが、「怒り」の感情モデルが「怒っている」ことを表
している場合には、「食欲」の本能モデルの値にかかわ
らず、行動決定部３３は、遷移行動として、「ぷいと横
を向く」ような行動を行わせることを決定する。

【００６８】なお、行動決定部３３は、所定のトリガ(t
rigger)があった場合に、行動モデルのノードを遷移
し、遷移行動を決定する。即ち、行動決定部３３は、例
えば、ロボットが現在行動を開始してから所定の時間が
経過した場合や、音声認識結果等の特定の認識結果がセ
ンサ入力処理部３０から出力された場合、成長モデル部
３１における成長モデルが、ある成長状態を表している
場合、感情／本能モデル部３２における感情モデルや本
能モデルの値が所定の閾値に達した場合等に、遷移行動
を決定する。

【００６９】また、行動決定部３３は、ロータリエンコ
ーダ１２₁乃至１２_Nの出力に基づいて、現在のロボット
の姿勢を認識し、その姿勢から、自然な形で遷移行動を
起こすことができるような行動情報を、姿勢遷移部３４
に出力するようになっている。

【００７０】姿勢遷移部３４は、行動決定部３３から供
給される行動情報に基づいて、現在の姿勢から次の姿勢
に遷移するための姿勢遷移情報を生成し、モータ制御部
３５に出力する。即ち、姿勢遷移部３４は、現在の姿勢
を、行動決定部３３を介して、ロータリエンコーダ１２
₁乃至１２_Nの出力に基づいて認識し、行動決定部３３か
らの行動情報に対応する行動（遷移行動）を、ロボット
にとらせるためのモータ７₁乃至７_Nの回転角や回転速度
等を計算し、姿勢遷移情報として、モータ制御部３５に
出力する。

【００７１】モータ制御部３５は、姿勢遷移部３４から
の姿勢遷移情報にしたがって、モータ７₁乃至７_Nを駆動
するための駆動信号を生成し、モータ７₁乃至７_Nに供給
する。これにより、モータ７₁乃至７_Nは回転駆動し、ロ
ボットは、遷移行動を行う。

【００７２】次に、図７は、図４のセンサ入力処理部３
０のうち、マイク９からの音声データを用いて音声認識
を行う部分（以下、適宜、音声認識装置という）の機能
的構成例を示している。

【００７３】この音声認識装置においては、マイク９に
入力された音声が、例えば、連続分布ＨＭＭ(Hidden Ma
rkov Model)法にしたがって認識され、その音声認識結
果が出力されるようになっている。

【００７４】即ち、特徴パラメータ抽出部４１には、マ
イク９からの音声データが供給されるようになってお
り、特徴パラメータ抽出部４１は、そこに入力される音
声データについて、適当なフレームごとに、例えば、Ｍ
ＦＣＣ(Mel Frequency Cepstrum Coefficient)分析を行
い、その分析結果を、特徴パラメータ（特徴ベクトル）
として、マッチング部４２に出力する。なお、特徴パラ
メータ抽出部４１では、その他、例えば、線形予測係
数、ケプストラム係数、線スペクトル対、所定の周波数
帯域ごとのパワー（フィルタバンクの出力）等を、特徴
パラメータとして抽出することが可能である。

【００７５】マッチング部４２は、特徴パラメータ抽出
部４１からの特徴パラメータを用いて、音響モデル記憶
部４３、辞書記憶部４４、および文法記憶部４５を必要
に応じて参照しながら、マイク９に入力された音声（入
力音声）を、連続分布ＨＭＭ法に基づいて音声認識す
る。

【００７６】即ち、音響モデル記憶部４３は、音声認識
する音声の言語における個々の音素や音節などの音響的
な特徴を表す音響モデルを記憶している。ここでは、連
続分布ＨＭＭ法に基づいて音声認識を行うので、音響モ
デルとしては、ＨＭＭ(Hidden Markov Model)が用いら
れる。辞書記憶部４４は、認識対象の各単語について、
その発音に関する情報（音韻情報）が記述された単語辞
書を記憶している。文法記憶部４５は、辞書記憶部３５
の単語辞書に登録されている各単語が、どのように連鎖
する（つながる）かを記述した文法規則を記憶してい
る。ここで、文法規則としては、例えば、文脈自由文法
（ＣＦＧ）や、統計的な単語連鎖確率（Ｎ−ｇｒａｍ）
などに基づく規則を用いることができる。

【００７７】マッチング部４２は、辞書記憶部４４の単
語辞書を参照することにより、音響モデル記憶部４３に
記憶されている音響モデルを接続することで、単語の音
響モデル（単語モデル）を構成する。さらに、マッチン
グ部４２は、幾つかの単語モデルを、文法記憶部４５に
記憶された文法規則を参照することにより接続し、その
ようにして接続された単語モデルを用いて、特徴パラメ
ータに基づき、連続分布ＨＭＭ法によって、マイク９に
入力された音声を認識する。即ち、マッチング部４２
は、特徴パラメータ抽出部４１が出力する時系列の特徴
パラメータが観測されるスコア（尤度）が最も高い単語
モデルの系列を検出し、その単語モデルの系列に対応す
る単語列を、音声の認識結果として出力する。

【００７８】具体的には、マッチング部４２は、接続さ
れた単語モデルに対応する単語列について、時系列に入
力される特徴パラメータの出現確率を累積し、その累積
値をスコアとして、そのスコアを最も高くする単語列
を、音声認識結果として出力する。マッチング部４２に
よる音声認識結果は、センサ入力処理部３０の出力とし
て、上述したように、成長モデル部３１、感情／本能モ
デル部３２、および行動決定部３３に出力される。

【００７９】ここで、辞書記憶部４４における単語辞書
に登録されているすべての単語によってとり得る単語列
を対象として、スコアを計算すると、その計算量が莫大
になることから、どのような単語列を対象として、スコ
アの計算を行うかは、文法記憶部４５に記憶された文法
規則により制限される。また、マッチング部４２では、
出現頻度の高い単語列についてのスコアを高くするよう
な重みが付される場合もある。

【００８０】マッチング部４２におけるスコア計算は、
例えば、音響モデル記憶部４３に記憶された音響モデル
によって与えられる音響的なスコア（以下、適宜、音響
スコアという）と、文法記憶部４５に記憶された文法規
則によって与えられる言語的なスコア（以下、適宜、言
語スコアという）とを総合評価することで行われる。

【００８１】即ち、あるＮ個の単語からなる単語列にお
けるｋ番目の単語をＷ_kとして、その単語Ｗ_kの音響スコ
アをＡ（Ｗ_k）と、言語スコアをＬ（Ｗ_k）と、それぞれ
表すとき、その単語列のスコアＳは、例えば、次式にし
たがって計算される。

【００８２】Ｓ＝Σ（Ａ（Ｗ_k）＋Ｃ_k×Ｌ（Ｗ_k））・・・（１）但し、Σは、ｋを１からＮに変えてのサメーションをと
ることを表す。また、Ｃ _kは、単語Ｗ_kの言語スコアＬ
（Ｗ_k）にかける重みを表す。

【００８３】なお、音声認識装置が有する辞書記憶部４
４に記憶された単語辞書は、ロボットが扱うことのでき
る語彙を規定するから、その点で、非常に重要である。
即ち、単語辞書に登録しておく単語数が多いほど、ロボ
ットは、各種の発話に対して対処することができる。

【００８４】但し、図７の音声認識装置は、図３のＣＰ
Ｕ２０がプログラムを実行することにより機能的に実現
されるものであり、この場合、ＣＰＵ２０の処理能力
や、ＣＰＵ２０が利用可能なＲＡＭ２２の空き領域の大
きさ等によって、単語辞書における語彙数は制限を受け
る。

【００８５】また、音声波形は、例えば、同一の語彙が
同一人により発話されたとしても、完全に一致すること
は、ほとんどなく、このため、マッチング部４２におけ
るマッチング処理（スコア計算）は、曖昧性を有する入
力に対する処理となることから、発話されていない単語
列が音声認識結果とされる誤認識が生じる場合がある
が、このような誤認識は、一般に、単語辞書に登録され
た語彙数が多くなると、類似する単語も多くなることに
起因して増加する。

【００８６】従って、単語辞書に登録する語彙は、ＣＰ
Ｕ２０の処理能力やＲＡＭ２２の容量の他、要求される
認識精度によっても制限を受ける。

【００８７】成長スコア設定部４６は、成長モデル部３
１における成長モデルに基づいて、音声認識装置による
音声認識処理を制御する。即ち、図７の実施の形態で
は、成長スコア設定部４６は、成長モデルに基づいて、
辞書記憶部４４における単語辞書を操作し、これによ
り、音声認識処理の制御を行うようになっている。

【００８８】具体的には、例えば、成長スコア設定部４
６は、成長モデルに基づき、単語辞書に登録された各単
語について、ロボットの成長状態において理解すること
ができる度合いを表す成長スコアを計算する。例えば、
いま、ある単語Ｗを、ロボットの成長状態において理解
することができる確率をＰ（Ｗ）と表すと、成長スコア
設定部４６は、単語Ｗに対する成長スコアＧ（Ｗ）を、
例えば、次式にしたがって計算する。

【００８９】Ｇ（Ｗ）＝−ｌｏｇ（Ｐ（Ｗ））・・・（２）

【００９０】さらに、成長スコア設定部４６は、成長ス
コアを、辞書記憶部４４における単語辞書の、対応する
単語に対応付ける。従って、単語辞書は、一般には、単
語の表記等の単語を識別するための情報と、その単語の
音韻情報とが登録されたものとなっているが、辞書記憶
部４４における単語辞書は、例えば、図８に示すよう
に、単語の表記と音韻情報の他、その単語に対する成長
スコアも登録されたものとなっている。ここで、図８に
おいては、単語「走れ」、「起きろ」、「歩け」、「お
手」、「お座り」、・・・に対して、１０，２０，３
０，４０，５０，・・・の成長スコアがそれぞれ登録さ
れている。

【００９１】辞書記憶部４４における単語辞書に、図８
に示したように、成長スコアが登録されている場合、マ
ッチング部４２では、単語列に対するスコアが、音韻ス
コアおよび言語スコアだけでなく、成長スコアも考慮し
て求められる。即ち、マッチング部４２では、式（１）
に替えて、例えば、式（３）にしたがって、スコアＳが
計算される。

【００９２】Ｓ＝Σ（Ａ（Ｗ_k）＋Ｃ_k×Ｌ（Ｗ_k）＋Ｄ_k×Ｇ（Ｗ_k））・・・（３）但し、Ｇ_k（Ｗ_k）は、ｋ番目の単語Ｗ_kに対する成長ス
コアを表し、Ｄ_kは、その成長スコアＧ（Ｗ_k）にかける
重みを表す。

【００９３】以上のように、マッチング部４２における
スコアＳの計算にあたって、成長スコアを導入すること
により、ロボットの成長状態に応じて、音声認識装置に
よる音声の認識精度が変化される。

【００９４】即ち、例えば、成長状態が「幼児」である
場合には、図８の単語辞書において、単語「走れ」の成
長スコアが、他の単語の成長スコアに比較して小さくさ
れ、これにより、発話「走れ」の音声認識精度が低くさ
れる。その結果、例えば、「走れ」と発話がされた場合
には、その発話を正確に音声認識して、ロボットに「走
る」という行動をとらせるのが一般的であるが、ここで
は、いわば故意に、発話「走れ」を誤認識させて、ロボ
ットが「走る」という行動をとらせないようにする（あ
るいは、「走る」以外の行動をとらせるようにする）。

【００９５】そして、ロボットが成長するにしたがっ
て、単語「走れ」の成長スコアが徐々に大きくされ、そ
の結果、発話「走れ」が正確に音声認識されるようにな
り、ロボットは、その発話にしたがって、「走る」とい
う行動をとるようになる。

【００９６】ここで、例えば、人間を例にすれば、成長
（あるいは、学習）するにつれて、理解することのでき
る語彙が増加することから、上述のようにして、成長ス
コアに基づいて、音声認識精度を、成長モデルにしたが
って変化させることは、実際の人間の成長に合致するこ
とになる。

【００９７】次に、図９のフローチャートを参照して、
図７の音声認識装置の動作について、さらに説明する。

【００９８】マイク９に音声が入力され、その音声に対
応するディジタルの音声データが、センサ入力処理部３
０に供給されると、その音声データは、特徴パラメータ
抽出部４１に供給される。

【００９９】特徴パラメータ抽出部４１では、ステップ
Ｓ１において、音声データが音響分析されることによ
り、その特徴パラメータが時系列に抽出され、マッチン
グ部４２に供給される。マッチング部４２は、ステップ
Ｓ２において、特徴パラメータ抽出部４１からの特徴パ
ラメータを用いて、式（３）にしたがい、成長スコアを
考慮したスコアの計算（マッチング）を行い、そのスコ
アに基づいて、マイク９に入力された音声の音声認識結
果を決定する。そして、ステップＳ３に進み、マッチン
グ部４２は、その音声認識結果を、成長モデル部３１、
感情／本能モデル部３２、および行動決定部３３に出力
し、処理を終了する。

【０１００】なお、上述の場合には、単語辞書に登録さ
れた単語の成長スコアを、成長モデルから得られるロボ
ットの成長状態に応じて変化（適応）させることで、音
声認識装置の音声認識精度を変えるようにしたが、音声
認識精度は、その他、例えば、ロボットの成長状態に応
じて、音響モデル記憶部４３における音響モデルや、文
法記憶部４５に記憶された文法規則を規定するパラメー
タを変更すること等によって変えるようにすることも可
能である。

【０１０１】また、音声認識装置では、単語辞書に登録
されている単語を対象として音声認識が行われるため、
単語辞書に登録する単語を変更することで、音声認識装
置が音声認識の対象とする単語を変えるようにすること
が可能である。即ち、例えば、成長モデルから得られる
ロボットの成長状態に応じて、順次、単語辞書に単語を
登録したり、あるいは、単語辞書に登録された単語を削
除し、音声認識の対象とする単語を変えるようにするこ
とが可能である。

【０１０２】さらに、上述の場合には、ロボットの成長
状態に応じて、音声認識装置の音声認識精度を変化させ
るようにしたが、音声認識精度は、ロボットの感情や本
能の状態に応じて変化させることも可能である。音声認
識精度を、ロボットの感情や本能の状態に応じて変化さ
せる場合には、図４に点線で示すように、感情／本能モ
デル部３２からセンサ入力処理部３０に対して、感情モ
デルおよび本能モデルを供給するようにするとともに、
図７に点線で示すように、これを、成長スコア設定部４
６で受信し、感情モデルや本能モデルから、成長スコア
と同様の感情スコアや本能スコアを求めて、単語辞書に
登録すれば良い。この場合、マッチング部４２におい
て、感情スコアや本能スコアを考慮して、最終的なスコ
アを求めるようにすることで、音声認識精度を、ロボッ
トの感情や本能の状態に応じて変化させることができ
る。

【０１０３】即ち、感情スコアや本能スコアを考慮する
場合には、ロボットの機嫌が良い状態のときには、例え
ば、単語「お手」や「お座り」の音声認識精度を向上さ
せ、これにより、発話「お手」や「お座り」を正しく音
声認識させ、対応する行動を起こさせることができる。
また、ロボットの機嫌が悪い状態のときには、例えば、
単語「お手」や「お座り」の音声認識精度を低下させ、
これにより、発話「お手」や「お座り」を誤認識させ
て、発話と関係ない行動を起こさせて、ロボットの不機
嫌さを表現することができる。

【０１０４】なお、図７の音声認識装置には、人間の音
声以外にも、例えば、拍手の音や、ロボットの各部を叩
く音、楽器の音、ロボットの周辺で発生する環境音、音
楽（曲）等の各種の音を音声として音声認識させること
が可能である。即ち、例えば、連続分布ＨＭＭ法によっ
て音声認識が行われる場合には、音声認識対象とする音
声（音）をＨＭＭにモデル化しておけば良い。そして、
人間の音声以外の音声（音）を対象として音声認識を行
う場合にも、その音声認識精度を、ロボットの成長状態
や、感情の状態、本能の状態に応じて変化させることが
可能である。

【０１０５】次に、音声認識を行う場合には、音声認識
の対象とする単語すべてを、１つの単語辞書に登録して
おく他、音声認識の対象とする単語を、複数のグループ
に分け（但し、異なるグループに、同一の単語が属して
いてもかまわない）、各グループに属する単語ごとに、
単語辞書を構成しておくことがある。このように、音声
認識対象とする単語を複数のグループに分けて、複数の
単語辞書を用意する場合には、ある発話に対する音声認
識処理は、一般に、その複数の単語辞書の全部ではな
く、そのうちの１つ、あるいは２以上の単語辞書を用い
て行われる。

【０１０６】即ち、ある発話に対して、音声認識の対象
とする語彙数は、上述のように、ＣＰＵ２０の処理能力
やＲＡＭ２２の容量の他、要求される認識精度によって
も制限を受ける。

【０１０７】そこで、複数の単語辞書を用意しておき、
ある発話の音声認識が、要求される認識精度等に基づい
て、用いる単語辞書を選択して行われる場合がある。

【０１０８】また、音声認識の対象とする単語を、例え
ば、旅行、野球、ニュースなどといったドメイン（テー
マ）ごとにグループ化して、複数の単語辞書を構成し、
音声認識が行われる場面に応じて、用いる単語辞書を選
択するようにして、特定のテーマに含まれる固有名詞
（例えば、地域名や、野球選手の名前、会社名など）な
どの音声認識性能を向上させる場合もある。

【０１０９】このように、複数の単語辞書を構成して、
用いる単語辞書を選択し、音声認識を行うことは、図７
の音声認識装置にも適用することができる。

【０１１０】即ち、例えば、いま、音声認識の対象とす
る単語を、Ｑ個のグループに分け、これにより、各グル
ープに対応するＱ個の単語辞書Ｄ₁，Ｄ₂，・・・，Ｄ_Q
を構成して、辞書記憶部４４に記憶させておく。

【０１１１】さらに、成長スコア設定部４６には、上述
のＱ個の単語辞書Ｄ₁乃至Ｄ_Qそれぞれについて、ロボッ
トの成長状態に応じて割り当てる成長スコアを対応付け
た、例えば、図１０に示すような辞書成長スコアテーブ
ルを作成して記憶させておく。

【０１１２】ここで、図１０においては、例えば、図５
（Ａ）に示した成長モデルの各ノードで表されるロボッ
トの成長状態に対して、各単語辞書Ｄ₁乃至Ｄ_Qそれぞれ
に対する成長スコアが設定されている。

【０１１３】図１０の辞書成長スコアテーブルによれ
ば、現在のロボットの成長状態（を表すノード）から、
単語辞書Ｄ₁乃至Ｄ_Qそれぞれに対する成長スコアが決定
される。

【０１１４】成長スコア設定部４６は、単語辞書Ｄ₁乃
至Ｄ_Qそれぞれの単語に対して、辞書成長スコアテーブ
ルに基づいて決定される成長スコアを、上述した場合と
同様に登録し、マッチング部４２では、その成長スコア
を考慮して、マッチング処理が行われる。

【０１１５】但し、ある１つの単語が、２以上の単語辞
書に登録されている場合には、その単語には、その２以
上の単語辞書に対する成長スコアのうち、例えば、最も
大きい値が登録される。また、いまの場合、例えば、成
長スコアが０の単語は、音声認識の対象とされない。即
ち、ここでは、０より大きい値の成長スコアが設定され
ている単語辞書に登録されている単語だけを対象とし
て、音声認識が行われる。

【０１１６】以上のように、単語辞書に対して、成長ス
コアを設定することによっても、ロボットの成長状態に
応じて、音声認識精度を変化させることができる。

【０１１７】即ち、例えば、いま、図１０の辞書成長ス
コアテーブルにおいて、成長状態が「新生児」である場
合の、単語辞書Ｄ₁に対する成長スコアを７０とすると
ともに、単語辞書Ｄ₂に対する成長スコアを３０とし、
他の単語辞書Ｄ₃乃至Ｄ_Qに対する成長スコアを０として
おく。さらに、成長状態が「幼児」である場合の、単語
辞書Ｄ₁乃至Ｄ₃に対する成長スコアを、それぞれ４０，
１０，５０とするとともに、他の単語辞書Ｄ₄乃至Ｄ_Qに
対する成長スコアを０としておく。

【０１１８】この場合、成長状態が「新生児」のときに
は、単語辞書Ｄ₁に登録された単語と、単語辞書Ｄ₂に登
録された単語のみを対象に音声認識が行われる。従っ
て、単語辞書Ｄ₁とＤ₂に登録されている単語が、例え
ば、「はいはい」、「パパ」、および「ママ」の３単語
だけであれば、この３単語に対応する発話のみが、正確
に音声認識される。

【０１１９】なお、いまの場合、単語辞書Ｄ₁に対する
成長スコアを７０とするとともに、単語辞書Ｄ₂に対す
る成長スコアを３０としており、従って、単語辞書Ｄ₁
の成長スコアの方が、単語辞書Ｄ₂の成長スコアよりも
大きいため、単語辞書Ｄ₂に登録されている単語より
は、単語辞書Ｄ₁に登録されている単語の方が、より正
確に音声認識される。

【０１２０】その後、ロボットが成長し、成長状態が
「幼児」になると、単語辞書Ｄ₁およびＤ₂の他、単語辞
書Ｄ₃に登録された単語も対象として音声認識が行われ
る。従って、単語辞書Ｄ₃に登録されている単語が、例
えば、「お手」および「お座り」の２単語であれば、上
述の「はいはい」、「パパ」、および「ママ」の３単語
に加えて、「お手」や「お座り」に対応する発話も、正
確に音声認識することができるようになる。

【０１２１】なお、いまの場合、成長状態が「新生児」
から「幼児」になると、単語辞書Ｄ ₁に対する成長スコ
アは７０から４０に、単語辞書Ｄ₂に対する成長スコア
は３０から１０に、それぞれ低下する。従って、単語辞
書Ｄ₁およびＤ₂に登録された単語の認識精度は、成長状
態が「新生児」から「幼児」になると低下する。さら
に、成長状態が「幼児」の場合には、単語辞書Ｄ₃に対
する成長スコアは５０であり、単語辞書Ｄ₁およびＤ₂に
対する成長スコアのいずれよりも大きい。その結果、成
長状態が「幼児」になると、上述のように、「はいは
い」、「パパ」、および「ママ」の３単語に加えて、
「お手」や「お座り」に対応する発話も音声認識するこ
とが可能となるが、「はいはい」、「パパ」、および
「ママ」に対応する発話の音声認識精度は、「お手」お
よび「お座り」に対する発話の音声認識精度よりも劣化
する。即ち、成長するにつれて、ロボットは、「はいは
い」、「パパ」、および「ママ」といった幼児期に使用
される単語を理解することができなくなっていく。

【０１２２】以上のように、複数の単語辞書を構成し
て、用いる単語辞書を選択し、音声認識を行うことは、
ハードウェア上等の制約がある場合には、その制約の範
囲内で音声認識を行うことが可能となるから便宜であ
る。

【０１２３】なお、上述のように複数の単語辞書を用意
して音声認識を行う場合には、各単語辞書に対して成長
スコアを割り当てる他、上述の感情スコアや本能スコア
を割り当てるようにすることも可能である。

【０１２４】また、成長モデルとして、図５（Ａ）では
なく、図５（Ｂ）に示したような木構造状のものを用い
る場合には、図１０の辞書成長スコアテーブルには、図
５（Ｂ）の各ノードに対応する成長状態に、単語辞書の
成長スコアを割り当てることが可能である。この場合、
図５（Ｂ）において、例えば、「幼児」の成長状態は、
ノードＮＯＤＥ_1-0とＮＯＤＥ_1-1の２状態があるが、同
じ「幼児」の成長状態であっても、ノードＮＯＤＥ_1-0
に対応する成長状態となった場合と、ノードＮＯＤＥ
_1-1に対応する成長状態となった場合とで、音声認識可
能な単語や、音声認識精度を、異なるものとすることが
できる。

【０１２５】即ち、例えば、ノードＮＯＤＥ₀に対応す
る成長状態「新生児」から、ノードＮＯＤＥ_1-0に対応
する成長状態「幼児」に成長した場合には、成長状態が
「新生児」のときに音声認識可能であった発話「はいは
い」、「パパ」、および「ママ」に加えて、「お手」や
「お座り」に対応する発話も音声認識可能なようにする
ことができる。これに対して、ノードＮＯＤＥ₀に対応
する成長状態「新生児」から、ノードＮＯＤＥ_1-1に対
応する成長状態「幼児」に成長した場合には、成長状態
が「新生児」のときに音声認識可能であった発話「はい
はい」、「パパ」、および「ママ」は音声認識不可にし
て、「お手」や「お座り」に対応する発話だけ音声認識
可能なようにすることができる。

【０１２６】次に、図７の音声認識装置において、辞書
記憶部４４における単語辞書に登録されていない単語
（未知語）に対応する発話については、正確な音声認識
結果を得ることができない。

【０１２７】そこで、未知語の正確な音声認識を可能と
するために、単語辞書には、新たに、単語を登録するよ
うにすることができる。単語辞書への単語の登録は、例
えば、ロボットに、入力用のインタフェースを設けてキ
ーボード等を接続し、そのキーボードを操作することに
より、新たな単語の表記と読み（音韻）を与えること等
によって行うことが可能である。

【０１２８】単語辞書に登録して音声認識の対象とする
単語の数は、上述したように、ＣＰＵ２０やＲＡＭ２
２、あるいは認識精度上の問題から制約されることがあ
るが、ここでは、そのような問題による制約を受けない
範囲で、単語辞書に新たに登録する単語の数を制限する
ようにすることができる。

【０１２９】即ち、単語辞書に新たに登録する単語の数
は、ロボットの成長状態に応じて制限することができ
る。具体的には、例えば、成長状態が「新生児」の場合
は、新たに登録可能な単語数は、数単語とし、ロボット
が成長するにしたがって、数十単語、数百単語と増加さ
せていくことができる。この場合、ロボットが理解可能
な単語が、成長に伴って増加していくことになる。

【０１３０】なお、単語辞書に新たに登録する単語の数
は、その他、上述の感情スコアや本能スコアに基づいて
変化させることが可能である。

【０１３１】また、センサ入力処理部３０では、音声認
識の他、カメラ８からの画像の認識が行われるが、この
画像認識においても、あらかじめ認識可能な色や顔等の
パターンに加えて、後から、新たに画像認識対象とする
色や顔のパターンを登録することが可能である。そし
て、この場合も、新たに登録可能な色や顔のパターン数
を、ロボットの成長状態や、感情または本能の状態応じ
て変化させることが可能である。

【０１３２】次に、図７の音声認識装置では、上述した
ように、スコアを最も高くする単語列が、音声認識結果
として出力されるが、一般に、音声認識結果は、正確な
ことが望ましい。

【０１３３】しかしながら、ロボットに適用される図７
の音声認識装置では、故意に誤認識結果を出力すること
で、ロボットとのやりとりを楽しくすることが可能とな
る。即ち、例えば、漫才においては、会話の相手が、発
話者の発話した単語を、音響的に類似する単語に捉え
て、いわゆる「ボケ」を演出し、その「ボケ」に対し
て、発話者が、いわゆる「ツッコミ」を行う場合がある
が、音声認識装置において、故意に、誤った音声認識結
果を出力することで、このような「ボケ」や「ツッコ
ミ」を、ロボットに行わせることが可能となる。

【０１３４】「ボケ」は、例えば、次のようにして実現
することができる。

【０１３５】即ち、単語辞書には、図１１に示すよう
に、音声認識対象とする単語の表記および音韻情報に、
その単語と音響的に類似しているが意味が異なる単語、
あるいはその単語と音響的には類似していないが、その
単語から連想される単語（以下、適宜、置換単語情報）
を対応付けて登録しておく。そして、マッチング部４２
には、音声認識結果として得た、単語辞書に登録された
単語ではなく、その単語に対応付けられている置換単語
情報を、最終的な音声認識結果として出力させる。

【０１３６】この場合、行動決定部３３では、その最終
的な音声認識結果である置換単語情報に基づいて、次に
起こす行動が決定されるため、ロボットは、使用者の発
話内容に対応しない「ボケ」た行動を行うことになる。

【０１３７】なお、このような「ボケ」は、その他、例
えば、上述のように、複数の単語辞書を用意しておき、
ある単語辞書を用いるべきところを、他の単語辞書を用
いて音声認識を行うことで、使用者の発話した単語と音
響的に類似した他の単語を、音声認識結果として得るこ
とができるようにすることによっても実現可能である。

【０１３８】ここで、上述のように、音声認識装置に、
故意に、誤った音声認識結果を出力させることは、例え
ば、「ボケ」るか、「ボケ」ないかの２状態を有する状
態遷移モデル等を用いて、ランダムに、しかも稀に行う
ようにするのが望ましい。また、この場合、状態遷移モ
デルにおける状態の遷移の仕方は、例えば、成長モデル
や、感情モデル、本能モデルに基づいて変更することが
可能である。

【０１３９】次に、使用者が「ボケ」た発話を行った場
合には、ロボットにおいて、その「ボケ」に対して、
「ツッコミ」の行動を行うようにすることが、例えば、
上述の「ボケ」を実現する場合と同様に可能である。

【０１４０】即ち、音声認識装置において、使用者が
「ボケ」た発話（誤った発話）を行ったかどうかを認識
することは困難であるから、図１１に示したように、音
声認識対象とする単語の表記および音韻情報に、置換単
語情報を対応付けて、単語辞書に登録しておき、マッチ
ング部４２には、音声認識結果として得た、単語辞書に
登録された単語ではなく、その単語に対応付けられてい
る置換単語情報を、最終的な音声認識結果として出力さ
せる。

【０１４１】使用者が「ボケ」た発話を行った場合に
は、その発話に対応して、音声認識装置が出力する音声
認識結果としての置換単語情報は、使用者が本来発話す
べきであった単語となり、行動決定部３３では、そのよ
うな置換単語情報に基づいて、次に起こす行動が決定さ
れるため、ロボットは、使用者の「ボケ」た発話に対し
て、「ツッコミ」の行動を行うことになる。

【０１４２】以上のように、ロボットの状態に基づい
て、音声認識処理を制御するようにしたので、ロボット
の成長等の状態にあわせて変化する音声認識処理が行わ
れ、その結果、エンタテイメント性の高いロボットを提
供すること等が可能となる。

【０１４３】なお、本実施の形態においては、本発明
を、エンターテイメント用のロボット（疑似ペットとし
てのロボット）に適用した場合について説明したが、本
発明は、これに限らず、例えば、産業用のロボット等の
各種のロボットに広く適用することが可能である。

【０１４４】また、本実施の形態においては、ロボット
に行動を行わせるための駆動手段としてモータ７₁乃至
７_Nを用いるようにしたが、本発明はこれに限らず、要
は、外界に対して作用をもたらす行動（動作）を発現で
きるのであれば、駆動手段として、他のアクチュエータ
や、スピーカ、ブザー、照明装置等を広く用いることが
できる。

【０１４５】さらに、本実施の形態においては、上述し
た一連の処理を、ＣＰＵ２０にプログラムを実行させる
ことにより行うようにしたが、一連の処理は、それ専用
のハードウェアによって行うことも可能である。

【０１４６】なお、プログラムは、あらかじめプログラ
ムメモリ２１（図３）に記憶させておく他、フロッピー
ディスク、CD-ROM(Compact Disc Read Only Memory)，M
O(Magneto optical)ディスク，DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体に、一時的あるいは永続的に格納（記録）し
ておくことができる。そして、このようなリムーバブル
記録媒体を、いわゆるパッケージソフトウエアとして提
供し、ロボット（プログラムメモリ２１）にインストー
ルするようにすることができる。

【０１４７】また、プログラムは、リムーバブル記録媒
体からインストールする他、ダウンロードサイトから、
ディジタル衛星放送用の人工衛星を介して、無線で転送
したり、LAN(Local Area Network)、インターネットと
いったネットワークを介して、有線で転送し、プログラ
ムメモリ２１にインストールすることができる。

【０１４８】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、プログラムメモリ２１に、容易にインストールす
ることができる。

【０１４９】ここで、本明細書において、ＣＰＵ２０に
各種の処理を行わせるためのプログラムを記述する処理
ステップは、必ずしもフローチャートとして記載された
順序に沿って時系列に処理する必要はなく、並列的ある
いは個別に実行される処理（例えば、並列処理あるいは
オブジェクトによる処理）も含むものである。

【０１５０】また、プログラムは、１のＣＰＵにより処
理されるものであっても良いし、複数のＣＰＵによって
分散処理されるものであっても良い。

【０１５１】さらに、本実施の形態では、連続分布ＨＭ
Ｍ法にしたがって、音声認識を行うようにしたが、音声
認識は、連続分布ＨＭＭ法による他、例えば、スペクト
ル波形どうしのマッチング等によって行うことも可能で
ある。

【０１５２】

【発明の効果】本発明の音声認識装置および音声認識方
法、並びに記録媒体によれば、ロボットの状態に基づい
て、音声認識処理が制御されるので、ロボットの成長等
の状態にあわせて変化する音声認識処理を実現すること
ができ、その結果、ロボットのエンタテイメント性の向
上等を図ることが可能となる。

【図面の簡単な説明】

【図１】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。

【図２】ロボットの内部構成を示すブロック図である。

【図３】制御部１１のハードウェア構成例を示すブロッ
ク図である。

【図４】制御部１１がプログラムが実行することにより
実現される、制御部１１の機能的構成例を示すブロック
図である。

【図５】成長モデルを示す図である。

【図６】行動モデルを示す図である。

【図７】センサ入力処理部３０における音声認識を行う
部分としての音声認識装置の構成例を示すブロック図で
ある。

【図８】単語辞書を示す図である。

【図９】図７の音声認識装置の動作を説明するためのフ
ローチャートである。

【図１０】辞書成長スコアテーブルを示す図である。

【図１１】「ボケ」を実現するための単語辞書を示す図
である。

【符号の説明】

１尻尾ユニット，２胴体部ユニット，３頭部
ユニット，４Ａ乃至４Ｄ大腿部ユニット，５Ａ乃
至５Ｄ脛部ユニット，６Ａ乃至６Ｄ脚部ユニッ
ト，７₁乃至７_N モータ，８カメラ，９マイ
ク，１０圧力センサ，１１制御部，１２₁乃
至１２_N ロータリエンコーダ，２０ＣＰＵ，２
１プログラムメモリ，２２ＲＡＭ，２３不揮
発性メモリ，２４Ｉ／Ｆ，２５モータドライバ，
３０センサ入力処理部，３１成長モデル部，３
２感情／本能モデル部，３３行動決定部，３３
Ａ行動モデル記憶部，３４姿勢遷移部，３５モ
ータ制御部，４１特徴パラメータ抽出部，４２
マッチング部，４３音響モデル記憶部，４４辞
書記憶部，４５文法記憶部，４６成長スコア設
定部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/06 Ｇ１０Ｌ 3/00 ５２１Ｆ 15/10 ５２１Ｖ５３１Ｇ

Claims

【特許請求の範囲】

【請求項１】ロボットに内蔵される音声認識装置であ
って、音声を認識する音声認識手段と、前記ロボットの状態に基づいて、前記音声認識手段を制
御する制御手段とを備えることを特徴とする音声認識装
置。
【請求項２】制御手段は、前記ロボットの成長、感
情、または本能の状態に基づいて、前記音声認識手段を
制御することを特徴とする請求項１に記載の音声認識装
置。
【請求項３】前記制御手段は、前記ロボットの状態に
基づいて、前記音声認識手段の音声認識精度を変更する
ことを特徴とする請求項１に記載の音声認識装置。
【請求項４】前記音声認識手段は、音声認識の対象と
する語彙が登録された辞書を記憶する辞書記憶手段を有
し、前記制御手段は、前記辞書に登録された語彙に対して、
前記ロボットの状態に対応する重みを付して音声認識を
行うように、前記音声認識手段を制御することを特徴と
する請求項１に記載の音声認識装置。
【請求項５】前記音声認識手段は、音声認識の対象と
する語彙が分けて登録された複数の辞書を記憶する辞書
記憶手段を有し、前記制御手段は、前記複数の辞書に対して、前記ロボッ
トの状態に対応する重みを付して音声認識を行うよう
に、前記音声認識手段を制御することを特徴とする請求
項１に記載の音声認識装置。
【請求項６】前記音声認識手段は、音声認識の対象と
する語彙が、他の語彙と対応付けられて登録された辞書
を記憶する辞書記憶手段を有し、前記制御手段は、前記ロボットの状態に基づいて、前記
辞書において、音声認識結果としての語彙に対応付けら
れている前記他の語彙を、最終的な音声認識結果として
出力するように、前記音声認識手段を制御することを特
徴とする請求項１に記載の音声認識装置。
【請求項７】前記辞書には、音声認識の対象とする語
彙が、その語彙と音響的に類似しているまたは意味的に
関連する他の語彙と対応付けられて登録されていること
を特徴とする請求項６に記載の音声認識装置。
【請求項８】前記音声認識手段は、音声認識の対象と
する語彙が登録される辞書を記憶する辞書記憶手段を有
し、前記制御手段は、前記ロボットの状態に基づいて、前記
辞書に登録可能な語彙の数を制御することを特徴とする
請求項１に記載の音声認識装置。
【請求項９】前記ロボットは、前記音声認識手段が出
力する音声認識結果に基づいて、所定の行動を起こすこ
とを特徴とする請求項１に記載の音声認識装置。
【請求項１０】ロボットに内蔵される音声認識装置の
音声認識方法であって、音声を認識する音声認識ステップと、前記ロボットの状態に基づいて、前記音声認識ステップ
を制御する制御ステップとを備えることを特徴とする音
声認識方法。
【請求項１１】ロボットに音声認識を行わせるため
に、コンピュータが実行するプログラムが記録されてい
る記録媒体であって、音声を認識する音声認識ステップと、前記ロボットの状態に基づいて、前記音声認識ステップ
を制御する制御ステップとを備えるプログラムが記録さ
れていることを特徴とする記録媒体。