JP3529049B2

JP3529049B2 - 学習装置及び学習方法並びにロボット装置

Info

Publication number: JP3529049B2
Application number: JP2002060425A
Authority: JP
Inventors: 秀樹下村; 一美青山; 敬一山田; 康治浅野; 厚志大久保
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-03-06
Filing date: 2002-03-06
Publication date: 2004-05-24
Anticipated expiration: 2022-03-06
Also published as: KR100988708B1; US7720775B2; JP2003255989A; KR20040094289A; EP1482480B1; CN1507617A; CN1241168C; US20050004710A1; EP1482480A1; WO2003075261A1; DE60318990T2; DE60318990D1; EP1482480A4

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は学習装置及び学習方
法並びにロボット装置に関し、例えばエンターテインメ
ントロボットに適用して好適なものである。

【０００２】

【従来の技術】近年、一般家庭向けのエンターテインメ
ントロボットが数多く商品化されている。そしてこのよ
うなエンターテインメントロボットの中には、ＣＣＤ
（ChargeCoupled Device）カメラやマイクロホン等の各
種外部センサが搭載され、これら外部センサの出力に基
づいて外部状況を認識し、認識結果に基づいて自律的に
行動し得るようになされたものなどもある。

【０００３】

【発明が解決しようとする課題】ところで、かかるエン
ターテインメントロボットにおいて、新規な物体（人物
も含む。以下、同じ。）の名前をその物体と対応付けて
覚えられるようにすることができれば、ユーザとのコミ
ュニケーションをより円滑にすることができ、またユー
ザからの「ボールを蹴って」といった、予め名前が登録
された物体以外の物体を対象とする種々の命令にも柔軟
に対応し得るようにすることができるものと考えられ
る。なお、以下においては、上述のように物体の名前を
その物体と対応付けて覚えることを『名前を学習する』
と表現し、そのような機能を『名前学習機能』と呼ぶも
のとする。

【０００４】またこのような名前学習機能をエンターテ
インメントロボットに搭載するに際して、人間が普段行
うように、エンターテインメントロボットが通常の人と
の対話を通して新規な物体の名前を学習できるようにす
ることができれば、その自然性から考えて最も望まし
く、エンターテインメントロボットとしてのエンターテ
インメント性をより一層向上させ得るものと考えられ
る。

【０００５】ところが、従来技術では、名前を学習すべ
き新規の物体がいつ目の前に現れているのかをエンター
テインメントロボットに判断させることが難しい問題が
ある。

【０００６】このため従来では、ユーザが明示的な音声
コマンドを与え又はロボットに配設された特定のタッチ
センサを押圧操作するなどして動作モードを登録モード
に変更してから、物体の認識及びその名前の登録を行う
といった手法が多く用いられている。しかしながら、ユ
ーザとエンターテインメントロボットとの自然なインタ
ラクションを考えるとき、このような明示的な指示によ
る名前登録はいかにも不自然である問題があった。

【０００７】本発明は以上の点を考慮してなされたもの
で、エンターテイメント性を格段的に向上させ得る学習
装置及び学習方法並びにロボット装置を提案しようとす
るものである。

【０００８】

【課題を解決するための手段】かかる課題を解決するた
め本発明においては、学習装置において、対話を通して
対象とする物体の名前を取得する対話手段と、対象とす
る物体の複数の特徴のデータを検出し、当該検出結果及
び既知の物体の対応する特徴のデータに基づいて、対象
とする物体を認識する複数の認識手段と、既知の物体の
名前に対する各認識手段の認識結果を関連付けた関連付
け情報を記憶する記憶手段と、対話手段が取得した対象
とする物体の名前、対象とする物体に対する各認識手段
の認識結果、及び記憶手段が記憶する関連付け情報に基
づいて、対象とする物体が新規な物体であるか否かを判
断する判断手段と、判断手段が対象とする物体を新規な
物体と判断したときに、当該対象とする物体に対応する
複数の特徴のデータを各認識手段に記憶させると共に、
当該対象とする物体についての関連付け情報を記憶手段
に記憶させる制御手段とを設けるようにした。

【０００９】この結果この学習装置は、音声コマンドの
入力やタッチセンサの押圧操作等のユーザからの明示的
な指示による名前登録を必要とすることなく、人間が普
段行うように、通常の人との対話を通して新規な人物や
物体等の名前を自然に学習することができる。

【００１０】また本発明においては、学習方法におい
て、対話を通して対象とする物体の名前を取得する対話
ステップと、対象とする物体の複数の特徴のデータを検
出し、当該検出結果及び既知の物体の対応する特徴のデ
ータに基づいて、対象とする物体を認識する複数の認識
ステップと、既知の物体の名前に対する各認識手段の認
識結果を関連付けた関連付け情報を記憶する記憶ステッ
プと、対話手段が取得した対象とする物体の名前、対象
とする物体に対する各認識手段の認識結果、及び記憶手
段が記憶する関連付け情報に基づいて、対象とする物体
が新規な物体であるか否かを判断する判断ステップと、
判断手段が対象とする物体を新規な物体と判断したとき
に、当該対象とする物体に対応する複数の特徴のデータ
を各認識手段に記憶させると共に、当該対象とする物体
についての関連付け情報を記憶手段に記憶させる制御ス
テップとを設けるようにした。

【００１１】この結果、この学習方法によれば、音声コ
マンドの入力やタッチセンサの押圧操作等のユーザから
の明示的な指示による名前登録を必要とすることなく、
人間が普段行うように、通常の人との対話を通して新規
な人物や物体等の名前を自然に学習することができる。

【００１２】さらに本発明においては、ロボット装置に
おいて、対話を通して対象とする物体の名前を取得する
対話手段と、対象とする物体の複数の特徴のデータを検
出し、当該検出結果及び既知の物体の対応する特徴のデ
ータに基づいて、対象とする物体を認識する複数の認識
手段と、既知の物体の名前に対する各認識手段の認識結
果を関連付けた関連付け情報を記憶する記憶手段と、対
話手段が取得した対象とする物体の名前、対象とする物
体に対する各認識手段の認識結果、及び記憶手段が記憶
する関連付け情報に基づいて、対象とする物体が新規な
物体であるか否かを判断する判断手段と、判断手段が対
象とする物体を新規な物体と判断したときに、当該対象
とする物体に対応する複数の特徴のデータを各認識手段
に記憶させると共に、当該対象とする物体についての関
連付け情報を記憶手段に記憶させる制御手段とを設ける
ようにした。

【００１３】この結果、このロボット装置は、音声コマ
ンドの入力やタッチセンサの押圧操作等のユーザからの
明示的な指示による名前登録を必要とすることなく、人
間が普段行うように、通常の人との対話を通して新規な
人物や物体等の名前を自然に学習することができる。

【００１４】

【発明の実施の形態】以下図面について、本発明の一実
施の形態を詳述する。

【００１５】（１）本実施の形態によるロボットの構成図１及び図２において、１は全体として本実施の形態に
よる２足歩行型のロボットを示し、胴体部ユニット２の
上部に頭部ユニット３が配設されると共に、当該胴体部
ユニット２の上部左右にそれぞれ同じ構成の腕部ユニッ
ト４Ａ、４Ｂがそれぞれ配設され、かつ胴体部ユニット
２の下部左右にそれぞれ同じ構成の脚部ユニット５Ａ、
５Ｂがそれぞれ所定位置に取り付けられることにより構
成されている。

【００１６】胴体部ユニット２においては、体幹上部を
形成するフレーム１０及び体幹下部を形成する腰ベース
１１が腰関節機構１２を介して連結することにより構成
されており、体幹下部の腰ベース１１に固定された腰関
節機構１２の各アクチュエータＡ_１、Ａ_２をそれぞれ駆
動することによって、体幹上部を図３に示す直交するロ
ール軸１３及びピッチ軸１４の回りにそれぞれ独立に回
転させることができるようになされている。

【００１７】また頭部ユニット３は、フレーム１０の上
端に固定された肩ベース１５の上面中央部に首関節機構
１６を介して取り付けられており、当該首関節機構１６
の各アクチュエータＡ_３、Ａ_４をそれぞれ駆動すること
によって、図３に示す直交するピッチ軸１７及びヨー軸
１８の回りにそれぞれ独立に回転させることができるよ
うになされている。

【００１８】さらに各腕部ユニット４Ａ、４Ｂは、それ
ぞれ肩関節機構１９を介して肩ベース１５の左右に取り
付けられており、対応する肩関節機構１９の各アクチュ
エータＡ_５、Ａ_６をそれぞれ駆動することによって図３
に示す直交するピッチ軸２０及びロール軸２１の回りに
それぞれ独立に回転させることができるようになされて
いる。

【００１９】この場合、各腕部ユニット４Ａ、４Ｂは、
それぞれ上腕部を形成するアクチュエータＡ_７の出力軸
に肘関節機構２２を介して前腕部を形成するアクチュエ
ータＡ_８が連結され、当該前腕部の先端に手部２３が取
り付けられることにより構成されている。

【００２０】そして各腕部ユニット４Ａ、４Ｂでは、ア
クチュエータＡ_７を駆動することによって前腕部を図３
に示すヨー軸２４の回りに回転させ、アクチュエータＡ
_８を駆動することによって前腕部を図３に示すピッチ軸
２５の回りにそれぞれ回転させることができるようにな
されている。

【００２１】これに対して各脚部ユニット５Ａ、５Ｂに
おいては、それぞれ股関節機構２６を介して体幹下部の
腰ベース１１にそれぞれ取り付けられており、それぞれ
対応する股関節機構２６の各アクチュエータをＡ_９〜Ａ
_１１それぞれ駆動することによって、図３に示す互いに
直交するヨー軸２７、ロール軸２８及びピッチ軸２９の
回りにそれぞれ独立に回転させることができるようにな
されている。

【００２２】この場合各脚部ユニット５Ａ、５Ｂは、そ
れぞれ大腿部を形成するフレーム３０の下端に膝関節機
構３１を介して下腿部を形成するフレーム３２が連結さ
れると共に、当該フレーム３２の下端に足首関節機構３
３を介して足部３４が連結されることにより構成されて
いる。

【００２３】これにより各脚部ユニット５Ａ、５Ｂにお
いては、膝関節機構３１を形成するアクチュエータＡ
_１２を駆動することによって、下腿部を図３に示すピッ
チ軸３５の回りに回転させることができ、また足首関節
機構３３のアクチュエータＡ_１ _３、Ａ_１４をそれぞれ駆
動することによって、足部３４を図３に示す直交するピ
ッチ軸３６及びロール軸３７の回りにそれぞれ独立に回
転させることができるようになされている。

【００２４】一方、胴体部ユニット２の体幹下部を形成
する腰ベース１１の背面側には、図４に示すように、当
該ロボット１全体の動作制御を司るメイン制御部４０
と、電源回路及び通信回路などの周辺回路４１と、バッ
テリ４５（図５）となどがボックスに収納されてなる制
御ユニット４２が配設されている。

【００２５】そしてこの制御ユニット４２は、各構成ユ
ニット（胴体部ユニット２、頭部ユニット３、各腕部ユ
ニット４Ａ、４Ｂ及び各脚部ユニット５Ａ、５Ｂ）内に
それぞれ配設された各サブ制御部４３Ａ〜４３Ｄと接続
されており、これらサブ制御部４３Ａ〜４３Ｄに対して
必要な電源電圧を供給したり、これらサブ制御部４３Ａ
〜４３Ｄと通信を行ったりすることができるようになさ
れている。

【００２６】また各サブ制御部４３Ａ〜４３Ｄは、それ
ぞれ対応する構成ユニット内の各アクチュエータＡ_１〜
Ａ_１４と接続されており、当該構成ユニット内の各アク
チュエータＡ_１〜Ａ_１４をメイン制御部４０から与えら
れる各種制御コマンドに基づいて指定された状態に駆動
し得るようになされている。

【００２７】さらに頭部ユニット３には、図５に示すよ
うに、このロボット１の「目」として機能するＣＣＤ
（Charge Coupled Device ）カメラ５０及び「耳」とし
て機能するマイクロホン５１及びタッチセンサ５２など
からなる外部センサ部５３と、「口」として機能するス
ピーカ５４となどがそれぞれ所定位置に配設され、制御
ユニット４２内には、バッテリセンサ５５及び加速度セ
ンサ５６などからなる内部センサ部５７が配設されてい
る。

【００２８】そして外部センサ部５３のＣＣＤカメラ５
０は、周囲の状況を撮像し、得られた画像信号Ｓ１Ａを
メイン制御部に送出する一方、マイクロホン５１は、ユ
ーザから音声入力として与えられる「歩け」、「伏せ」
又は「ボールを追いかけろ」等の各種命令音声を集音
し、かくして得られた音声信号Ｓ１Ｂをメイン制御部４
０に送出するようになされている。

【００２９】またタッチセンサ５２は、図１及び図２に
おいて明らかなように頭部ユニット３の上部に設けられ
ており、ユーザからの「撫でる」や「叩く」といった物
理的な働きかけにより受けた圧力を検出し、検出結果を
圧力検出信号Ｓ１Ｃとしてメイン制御部４０に送出す
る。

【００３０】さらに内部センサ部５７のバッテリセンサ
５５は、バッテリ４５のエネルギ残量を所定周期で検出
し、検出結果をバッテリ残量検出信号Ｓ２Ａとしてメイ
ン制御部４０に送出する一方、加速度センサ５６は、３
軸方向（ｘ軸、ｙ軸及びｚ軸）の加速度を所定周期で検
出し、検出結果を加速度検出信号Ｓ２Ｂとしてメイン制
御部４０に送出する。

【００３１】メイン制御部部４０は、外部センサ部５３
のＣＣＤカメラ５０、マイクロホン５１及びタッチセン
サ５２等からそれぞれ供給される画像信号Ｓ１Ａ、音声
信号Ｓ１Ｂ及び圧力検出信号Ｓ１Ｃ等（以下、これらを
まとめて外部センサ信号Ｓ１と呼ぶ）と、内部センサ部
５７のバッテリセンサ５５及び加速度センサ等からそれ
ぞれ供給されるバッテリ残量検出信号Ｓ２Ａ及び加速度
検出信号Ｓ２Ｂ等（以下、これらをまとめて内部センサ
信号Ｓ２と呼ぶ）に基づいて、ロボット１の周囲及び内
部の状況や、ユーザからの指令、ユーザからの働きかけ
の有無などを判断する。

【００３２】そしてメイン制御部４０は、この判断結果
と、予め内部メモリ４０Ａに格納されている制御プログ
ラムと、そのとき装填されている外部メモリ５８に格納
されている各種制御パラメータとに基づいて続く行動を
決定し、決定結果に基づく制御コマンドを対応するサブ
制御部４３Ａ〜４３Ｄに送出する。この結果、この制御
コマンドに基づき、そのサブ制御部４３Ａ〜４３Ｄの制
御のもとに、対応するアクチュエータＡ_１〜Ａ_１４が駆
動され、かくして頭部ユニット３を上下左右に揺動させ
たり、腕部ユニット４Ａ、４Ｂを上にあげたり、歩行す
るなどの行動がロボット１により発現されることとな
る。

【００３３】またこの際メイン制御部４０は、必要に応
じて所定の音声信号Ｓ３をスピーカ５４に与えることに
より当該音声信号Ｓ３に基づく音声を外部に出力させた
り、外見上の「目」として機能する頭部ユニット３の所
定位置に設けられたＬＥＤに駆動信号を出力することに
よりこれを点滅させる。

【００３４】このようにしてこのロボット１において
は、周囲及び内部の状況や、ユーザからの指令及び働き
かけの有無などに基づいて自律的に行動することができ
るようになされている。

【００３５】（２）名前学習機能に関するメイン制御部
４０の処理次にこのロボット１に搭載された名前学習機能について
説明する。

【００３６】このロボット１には、人との対話を通して
その人の名前を取得し、当該名前を、マイクロホン５１
やＣＣＤカメラ５０の出力に基づいて検出したその人の
声の音響的特徴及び顔の形態的特徴の各データと関連付
けて記憶すると共に、これら記憶した各データに基づい
て、名前を取得していない新規な人の登場を認識し、そ
の新規な人の名前や声の音響的特徴及び顔の形態的特徴
を上述と同様にして取得し記憶するようにして、人の名
前をその人と対応付けて取得（以下、これを名前の学習
と呼ぶ）学習していく名前学習機能が搭載されている。
なお以下においては、その人の声の音響的特徴及び顔の
形態的特徴と対応付けて名前を記憶し終えた人を『既知
の人』と呼び、記憶し終えていない人を『新規な人』と
呼ぶものとする。

【００３７】そしてこの名前学習機能は、メイン制御部
４０における各種処理により実現されている。

【００３８】ここで、かかる名前学習機能に関するメイ
ン制御部４０の処理内容を機能的に分類すると、図６に
示すように、人が発声した言葉を認識する音声認識部６
０と、人の声の音響的特徴を検出すると共に当該検出し
た音響的特徴に基づいてその人を識別して認識する話者
認識部６１と、人の顔の形態的特徴を検出すると共に当
該検出した形態的特徴に基づいてその人を識別して認識
する顔認識部６２と、人との対話制御を含む新規な人の
名前学習のための各種制御や、既知の人の名前、声の音
響的特徴及び顔の形態的特徴の記憶管理を司る対話制御
部６３と、対話制御部６３の制御のもとに各種対話用の
音声信号Ｓ３を生成してスピーカ５４（図５）に送出す
る音声合成部６４とに分けることができる。

【００３９】この場合、音声認識部６０においては、マ
イクロホン５１（図５）からの音声信号Ｓ１Ｂに基づき
所定の音声認識処理を実行することにより当該音声信号
Ｓ１Ｂに含まれる言葉を単語単位で認識する機能を有す
るものであり、認識したこれら単語を文字列データＤ１
として対話制御部６３に送出するようになされている。

【００４０】また話者認識部６１は、マイクロホン５１
から与えられる音声信号Ｓ１Ｂに含まれる人の声の音響
的特徴を、例えば“Segregation of Speakers for Reco
gnition and Speaker Identification（CH2977-7/91/00
00~0873 S1.00 1991 IEEE）”に記載された方法等を利
用した所定の信号処理により検出する機能を有してい
る。

【００４１】そして話者認識部６１は、通常時には、こ
の検出した音響的特徴のデータをそのとき記憶している
全ての既知の人の音響的特徴のデータと順次比較し、そ
のとき検出した音響的特徴がいずれか既知の人の音響的
特徴と一致した場合には当該既知の人の音響的特徴と対
応付けられた当該音響的特徴に固有の識別子（以下、こ
れをＳＩＤと呼ぶ）を対話制御部６３に通知する一方、
検出した音響的特徴がいずれの既知の人の音響的特徴と
も一致しなかった場合には、認識不能を意味するＳＩＤ
（=−１）を対話制御部６３に通知するようになされて
いる。

【００４２】また話者認識部６１は、対話制御部６３が
新規な人であると判断したときに当該対話制御部６３か
ら与えられる新規学習の開始命令及び学習終了命令に基
づいて、その間その人の声の音響的特徴を検出し、当該
検出した音響的特徴のデータを新たな固有のＳＩＤと対
応付けて記憶すると共に、このＳＩＤを対話制御部６３
に通知するようになされている。

【００４３】なお話者認識部６１は、対話制御部６３か
らの追加学習や訂正学習の開始命令及び終了命令に応じ
て、その人の声の音響的特徴のデータを追加的に収集す
る追加学習や、その人の声の音響的特徴のデータをその
人を正しく認識できるよう訂正する訂正学習をも行い得
るようになされている。

【００４４】顔認識部６２においては、ＣＣＤカメラ５
０（図５）から与えられる画像信号Ｓ１Ａを常時監視
し、当該画像信号Ｓ１Ａに基づく画像内に含まれる人の
顔の形態的特徴を所定の信号処理により検出する機能を
有している。

【００４５】そして顔認識部６２は、通常時には、この
検出した形態的特徴のデータをそのとき記憶している全
ての既知の人の顔の形態的特徴のデータと順次比較し、
そのとき検出した形態的特徴がいずれか既知の人の顔の
形態的特徴と一致した場合には当該既知の人の形態的特
徴と対応付けられた当該形態的特徴に固有の識別子（以
下、これをＦＩＤと呼ぶ）を対話制御部に通知する一
方、検出した形態的特徴がいずれの既知の人の顔の形態
的特徴とも一致しなかった場合には、認識不能を意味す
るＦＩＤ（=−１）を対話制御部に通知するようになさ
れている。

【００４６】また顔認識部６２は、対話制御部６３が新
規な人であると判断したときに当該対話制御部６３から
与えられる学習開始命令及び学習終了命令に基づいて、
その間ＣＣＤカメラ５０からの画像信号Ｓ１Ａに基づく
画像内に含まれる人の顔の形態的特徴を検出し、当該検
出した形態的特徴のデータを新たな固有のＦＩＤと対応
付けて記憶すると共に、このＦＩＤを対話制御部６３に
通知するようになされている。

【００４７】なお顔認識部６２は、対話制御部６３から
の追加学習や訂正学習の開始命令及び終了命令に応じ
て、人の顔の形態的特徴のデータを追加的に収集する追
加学習や、人の顔の形態的特徴のデータをその人を正し
く認識できるよう訂正する訂正学習をも行い得るように
なされている。

【００４８】音声合成部６４は、対話制御部６３から与
えられる文字列データＤ２を音声信号Ｓ３に変換する機
能を有し、かくして得られた音声信号Ｓ３をスピーカ５
４（図５）に送出するようになされている。これにより
この音声信号Ｓ３に基づく音声をスピーカ５４から出力
させることができるようになされている。

【００４９】対話制御部６３においては、図７に示すよ
うに、既知の人の名前と、話者認識部６１が記憶してい
るその人の声の音響的特徴のデータに対応付けられたＳ
ＩＤと、顔認識部６２が記憶しているその人の顔の形態
的特徴のデータに対応付けられたＦＩＤとを関連付けて
記憶するメモリ６５（図６）を有している。

【００５０】そして対話制御部６３は、所定のタイミン
グで所定の文字列データＤ２を音声合成部６４に与える
ことにより、話し相手の人に対して名前を質問し又は名
前を確認するための音声等をスピーカ５４から出力させ
る一方、このときのその人の応答等に基づく音声認識部
６０及び話者認識部６１の各認識結果並びにその人に対
する顔認識部６２の認識結果と、メモリ６５に格納され
た上述の既知の人の名前、ＳＩＤ及びＦＩＤの関連付け
の情報とに基づいてその人が新規な人であるか否かを判
断するようになされている。

【００５１】そして対話制御部６３は、その人が新規な
人であると判断したときには、話者認識部６１及び顔認
識部６２に対して新規学習の開始命令及び終了命令を与
えることにより、これら話者認識部６１及び顔認識部６
２にその新規な人の声の音響的特徴や顔の形態的特徴の
データを収集及び記憶させると共に、この結果としてこ
れら話者認識部６１及び顔認識部６２からそれぞれ与え
られるその新規な人の声の音響的特徴のデータや顔の形
態的特徴のデータに対応付けられたＳＩＤ及びＦＩＤ
を、かかる対話により得られたその人の名前と関連付け
てメモリ６５に格納するようになされている。

【００５２】また対話制御部６３は、その人が既知の人
であると判断したときには、必要に応じて話者認識部６
１及び顔認識部６２に追加学習や訂正学習の開始命令を
与えることにより話者認識部６１及び顔認識部６２に追
加学習や訂正学習を行わせる一方、これと共に音声合成
部６４に所定の文字列データＤ２を所定のタイミングで
順次送出することにより、話者認識部６１及び顔認識部
６２が追加学習や訂正学習をするのに必要な相当量のデ
ータを収集できるまでその人との対話を長引かせるよう
な対話制御を行うようになされている。

【００５３】（３）名前学習機能に関する対話制御部６
３の具体的処理次に、名前学習機能に関する対話制御部６３の具体的な
処理内容について説明する。

【００５４】対話制御部６３は、外部メモリ５８（図
５）に格納された制御プログラムに基づいて、図８及び
図９に示す名前学習処理手順ＲＴ１に従って新規な人の
名前を順次学習するための各種処理を実行する。

【００５５】すなわち対話制御部６３は、ＣＣＤカメラ
５０からの画像信号Ｓ１Ａに基づき顔認識部６２が人の
顔を認識することにより当該顔認識部６２からＦＩＤが
与えられると名前学習処理手順ＲＴ１をステップＳＰ０
において開始し、続くステップＳＰ１において、メモリ
６５に格納された既知の人の名前と、これに対応するＳ
ＩＤ及びこれに対応するＦＩＤとを関連付けた情報（以
下、これを関連付け情報と呼ぶ）に基づいてそのＦＩＤ
から対応する名前を検索できるか否か（すなわちＦＩＤ
が認識不能を意味する「−１」でないか否か）を判断す
る。

【００５６】ここでこのステップＳＰ１において肯定結
果を得ることは、その人が、顔認識部６２がその人の顔
の形態的特徴のデータを記憶しており、当該データと対
応付けられたＦＩＤがその人の名前と関連付けてメモリ
６５に格納されている既知の人であることを意味する。
ただしこの場合においても、顔認識部６２が新規の人を
既知の人と誤認識したことも考えられる。

【００５７】そこで対話制御部６３は、ステップＳＰ１
において肯定結果を得た場合には、ステップＳＰ２に進
んで所定の文字列データＤ２を音声合成部６４に送出す
ることにより、例えば図１０に示すように、「○○さん
ですよね。」といったその人の名前がＦＩＤから検索さ
れた名前（上述の○○に当てはまる名前）と一致するか
否かを確かめるための質問の音声をスピーカ５４から出
力させる。

【００５８】次いで対話制御部６３は、ステップＳＰ３
に進んで、かかる質問に対するその人の「はい、そうで
す。」や「いいえ、違います。」といった応答の音声認
識結果が音声認識部６０から与えられるのを待ち受け
る。そして対話制御部６３は、やがて音声認識部６３か
らかかる音声認識結果が与えられ、また話者認識部６１
からそのときの話者認識結果であるＳＩＤが与えられる
と、ステップＳＰ４に進んで、音声認識部６３からの音
声認識結果に基づき、その人の応答が肯定的なものであ
るか否かを判断する。

【００５９】ここでこのステップＳＰ４において肯定結
果を得ることは、ステップＳＰ１において顔認識部６２
から与えられたＦＩＤに基づき検索された名前がその人
の名前と一致しており、従ってその人は対話制御部６３
が検索した名前を有する本人であるとほぼ断定できる状
態にあることを意味する。

【００６０】かくしてこのとき対話制御部６３は、その
人は当該対話制御部６３が検索した名前を有する本人で
あると断定し、ステップＳＰ５に進んで話者認識部６１
に対して追加学習の開始命令を与える。またこれと共に
対話制御部６３は、最初に話者認識部６１から与えられ
たＳＩＤが、かかる名前からメモリ６５に格納された関
連付け情報に基づいて検索できるＳＩＤと一致している
場合には話者認識部６１に対して追加学習の開始命令を
与え、これに対して一致していない場合には訂正学習の
開始命令を与える。

【００６１】そして対話制御部６３は、この後ステップ
ＳＰ６に進んで例えば図１０のように「今日はいい天気
ですね。」などといった、その人との対話を長引かせる
ための雑談をさせるための文字列データＤ２を音声合成
部６４に順次送出し、この後追加学習又は訂正学習に十
分な所定時間が経過すると、ステップＳＰ７に進んで話
者認識部６１及び顔認識部６２に対して追加学習又は訂
正学習の終了命令を与えた後、ステップＳＰ２０に進ん
でその人に対する名前学習処理を終了する。

【００６２】一方、ステップＳＰ１において否定結果を
得ることは、顔認識部６２により顔認識された人が新規
の人であるか、又は顔認識部６２が既知の人を新規の人
と誤認識したことを意味する。またステップＳＰ４にお
いて否定結果を得ることは、最初に顔認識部６２から与
えられたＦＩＤから検索された名前がその人の名前と一
致していないことを意味する。そして、これらいずれの
場合においても、対話制御部６３がその人を正しく把握
していない状態にあるといえる。

【００６３】そこで対話制御部６３は、ステップＳＰ１
において否定結果を得たときや、ステップＳＰ４におい
て否定結果を得たときには、ステップＳＰ８に進んで音
声合成部６４に文字列データＤ２を与えることにより、
例えば図１１に示すように、「あれ、名前を教えてくだ
さい。」といった、その人の名前を聞き出すための質問
の音声をスピーカ５４から出力させる。

【００６４】そして対話制御部６３は、この後ステップ
ＳＰ９に進んで、かかる質問に対するその人の「○○で
す。」といった応答の音声認識結果（すなわち名前）
と、当該応答時における話者認識部６１の話者認識結果
（すなわちＳＩＤ）とがそれぞれ音声認識部６０及び話
者認識部６１から与えられるのを待ち受ける。

【００６５】そして対話制御部６３は、やがて音声認識
部６０から音声認識結果が与えられ、話者認識部６１か
らＳＩＤが与えられると、ステップＳＰ１０に進んで、
これら音声認識結果及びＳＩＤ並びに最初に顔認識部６
２から与えられたＦＩＤに基づいて、その人が新規な人
であるか否かを判断する。

【００６６】ここでこの実施の形態の場合、かかる判断
は、音声認識部６０の音声認識により得られた名前と、
話者認識部６１からのＳＩＤと、顔認識部６２からのＦ
ＩＤとでなる３つの認識結果の多数決により行われる。

【００６７】例えば、話者認識部６１からのＳＩＤ及び
顔認識部６２からのＦＩＤが共に認識不能を意味する
「−１」で、かつステップＳＰにおいて音声認識部６０
からの音声認識結果に基づき得られたその人の名前がメ
モリ６５においてどのＳＩＤやＦＩＤとも関連付けられ
ていない場合には、その人が新規な人であると判断す
る。既知のどの顔又はどの声とも似つかない人が全く新
しい名前をもっているという状況であるので、そのよう
な判断ができる。

【００６８】また対話制御部６３は、話者認識部６１か
らのＳＩＤ及び顔認識部６２からのＦＩＤがメモリ６５
において異なる名前と関連付けられているか又はその一
方が認識不能を意味する「−１」であり、かつステップ
ＳＰ９において音声認識部６０からの音声認識結果に基
づき得られたその人の名前がメモリ６５に格納されてな
い場合にも、その人が新規な人であると判断する。これ
は、各種認識処理において、新規カテゴリを既知カテゴ
リのどれかと誤認識するのは起こり易いことであり、ま
た音声認識された名前が登録されていないことを考えれ
ば、かなり高い確信度をもって新規の人と判断できるか
らである。

【００６９】これに対して対話制御部６３は、話者認識
部６１からのＳＩＤ及び顔認識部６２からのＦＩＤがメ
モリ６５において同じ名前と関連付けられており、かつ
ステップＳＰ９において音声認識部６０からの音声認識
結果に基づき得られたその人の名前がそのＳＩＤ及びＦ
ＩＤが関連付けられた名前である場合には、その人が既
知の人であると判断する。

【００７０】また対話制御部６３は、話者認識部６１か
らのＳＩＤ及び顔認識部６２からのＦＩＤがメモリ６５
において異なる名前と関連付けられており、かつステッ
プＳＰ９において音声認識部６０からの音声認識結果に
基づき得られたその人の名前がかかるＳＩＤ又はＦＩＤ
の一方が関連付けられた名前である場合には、その人が
既知の人であると判断する。この場合は、話者認識部６
１及び顔認識部６２のいずれか一方の認識結果が間違っ
ていると考えられるため、かかる多数決によりそのよう
に判断する。

【００７１】一方、対話制御部６３は、話者認識部６１
からのＳＩＤ及び顔認識部６２からのＦＩＤがメモリ６
５において異なる名前と関連付けられており、かつステ
ップＳＰ９において音声認識部６０からの音声認識結果
に基づき得られたその人の名前がメモリ６５においてか
かるＳＩＤ及びＦＩＤのいずれにも関連付けられていな
い名前である場合には、その人が既知の人であるか又は
新規の人であるかを判断しない。このケースでは、音声
認識部６０、話者認識部６１及び顔認識部６２のいずれ
か又は全部の認識が間違っていることも考えられるが、
この段階ではそれを判定することができない。従ってこ
の場合には、かかる判断を保留する。

【００７２】そして対話制御部６３は、このような判断
処理により、ステップＳＰ１０において、かかる人が新
規の人であると判断した場合には、ステップＳＰ１１に
進んで新規学習の開始命令を話者認識部６１及び顔認識
部６２に与え、この後ステップＳＰ１２に進んで例えば
図１１のように「私はロボットです。よろしくお願いし
ます。」又は「○○さん、今日はいい天気ですね。」な
どのその人との対話を長引かせる雑談をするための文字
列データＤ２を音声合成部６４に送出する。

【００７３】また対話制御部６３は、この後ステップＳ
Ｐ１３に進んで話者認識部６１における音響的特徴のデ
ータの収集及び顔認識部６２における顔の形態的特徴の
データの収集が共に十分量に達したか否かを判断し、否
定結果を得るとステップＳＰ１２に戻って、この後ステ
ップＳＰ１３において肯定結果を得るまでステップＳＰ
１２−ＳＰ１３−ＳＰ１２のループを繰り返す。

【００７４】そして対話制御部６３は、やがて話者認識
部６１における音響的特徴のデータの収集及び顔認識部
６２における顔の形態的特徴のデータの収集が共に十分
量に達することによりステップＳＰ１３において肯定結
果を得ると、ステップＳＰ１４に進んで、これら話者認
識部６１及び顔認識部６２に新規学習の終了命令を与え
る。この結果、話者認識部６１において、その音響的特
徴のデータが新たなＳＩＤと対応付けられて記憶され、
顔認識部６２において、その形態的特徴のデータが新た
なＦＩＤと対応付けられて記憶される。

【００７５】また対話制御部６３は、この後ステップＳ
Ｐ１５に進んで、話者認識部６１及び顔認識部６２から
それぞれかかるＳＩＤ及びＦＩＤが与えられるのを待ち
受け、やがてこれらが与えられると、例えば図１２に示
すように、これらをステップＳＰ９において音声認識部
６０からの音声認識結果に基づき得られたその人の名前
と関連付けてメモリ６５に登録する。そして対話制御部
６３は、この後ステップＳＰ２０に進んでその人に対す
る名前学習処理を終了する。

【００７６】これに対して対話制御部６３は、ステップ
ＳＰ１０において、かかる人が既知の人であると判断し
た場合には、ステップＳＰ１６に進んで、話者認識部６
１及び顔認識部６２がその既知の人を正しく認識できて
いた場合（すなわち話者認識部６１や顔認識部６２が、
関連付け情報としてメモリ６５に格納されたその既知の
人に対応するＳＩＤ又はＦＩＤと同じＳＩＤ又はＳＩＤ
を認識結果として出力していた場合）には、その話者認
識部６１又は顔認識部６２に対して追加学習の開始命令
を与え、話者認識部６１及び顔認識部６２がその既知の
人を正しく認識できなかった場合（すなわち話者認識部
６１や顔認識部６２が、関連付け情報としてメモリ６５
に格納されたその既知の人に対応するＳＩＤ又はＦＩＤ
と同じＳＩＤ又はＳＩＤを認識結果として出力していた
場合）には、その話者認識部６１又は顔認識部６２に対
して訂正学習の開始命令を与える。

【００７７】具体的には、対話制御部６３は、ステップ
ＳＰ９において得られた話者認識部６１からのＳＩＤ
と、最初に顔認識部６２から与えられたＦＩＤとがメモ
リ６５において同じ名前と関連付けられており、かつス
テップＳＰ９において音声認識部６０からの音声認識結
果に基づき得られた名前がそのＳＩＤ及びＦＩＤが関連
付けられた名前であることによりステップＳＰ１０にお
いてその人が既知の人であると判断したときには、話者
認識部６１及び顔認識部６２に対してそれぞれ追加学習
の開始命令を与える。

【００７８】また話者認識部６３は、ステップＳＰ９に
おいて得られた話者認識部６１からのＳＩＤと、最初に
顔認識部６２から与えられたＦＩＤとがメモリ６５にお
いて異なる名前と関連付けられており、かつステップＳ
Ｐ９において音声認識部６０からの音声認識結果に基づ
き得られた名前がかかるＳＩＤ又はＦＩＤの一方が関連
付けられた名前であることによりステップＳＰ１０にお
いてその人が既知の人であると判断したときには、音声
認識部６０からの音声認識結果に基づき得られた名前と
関連付けられたＳＩＤ又はＦＩＤを出力した一方の話者
認識部６１又は顔認識部６２に対して追加学習の開始命
令を与え、音声認識部６０からの音声認識結果に基づき
得られた名前と関連付けられていないＦＩＤ又はＳＩＤ
を出力した他方の顔認識部６２又は話者認識部６１に訂
正学習の開始命令を与える。

【００７９】そして対話制御部６３は、この後ステップ
ＳＰ１７に進んで、例えば図１３に示すように、「ああ
○○さんですね。思い出しましたよ。今日はいい天気で
すね。」、「前回はえーと、いつ会いましたっけ。」な
どのその人との対話を長引かせるための雑談をさせるた
めの文字列データＤ２を音声合成部６４に順次送出し、
この後追加学習又は訂正学習に十分な所定時間が経過す
ると、ステップＳＰ１８に進んで話者認識部６１及び顔
認識部６２に対して追加学習又は訂正学習の終了命令を
与えた後、ステップＳＰ２０に進んでその人に対する名
前学習処理を終了する。

【００８０】他方、対話制御部６３は、ステップＳＰ１
０において、かかる人が既知の人であるとも新規の人で
あるとも判定できないと判断した場合には、ステップＳ
Ｐ１９に進んで、例えば図１４に示すように、「ああそ
うですか。元気ですか。」などの雑談をさせるための文
字列データＤ２を音声合成部６４に順次送出する。

【００８１】そしてこの場合には、対話制御部６３は、
新規学習、追加学習又は訂正学習の開始命令及びその終
了命令を話者認識部６１及び顔認識部６２に与えず（す
なわち新規学習、追加学習及び訂正学習のいずれも話者
認識部６１及び顔認識部６２に行わせず）、所定時間が
経過すると、ステップＳＰ２０に進んでその人に対する
名前学習処理を終了する。

【００８２】このようにして対話制御部６３は、音声認
識部６０、話者認識部６１及び顔認識部６２の各認識結
果に基づいて、人との対話制御や話者認識部６１及び顔
認識部６２の動作制御を行うことにより、新規な人の名
前を順次学習することができるようになされている。

【００８３】（４）音声認識部６０及び顔認識部６２の
具体的構成次に、上述のような名前学習機能を具現化するための音
声認識部６０及び顔認識部６２の具体的構成について説
明する。

【００８４】（４−１）音声認識部６０の具体的構成図１５は、かかる音声認識部６０の具体的構成を示すも
のである。

【００８５】この音声認識部６０においては、マイクロ
ホン５１からの音声信号Ｓ１ＢをＡＤ（Analog Digita
l）変換部７０に入力する。ＡＤ変換部７０は、供給さ
れるアナログ信号である音声信号Ｓ１Ｂをサンプリン
グ、量子化し、ディジタル信号である音声データにＡ／
Ｄ変換する。この音声データは、特徴抽出部７１に供給
される。

【００８６】特徴抽出部７１は、そこに入力される音声
データについて、適当なフレームごとに、例えば、ＭＦ
ＣＣ（Mel Frequency Cepstrum Cofficient）分析を行
い、その分析の結果得られるＭＦＣＣを、特徴ベクトル
（特徴パラメータ）として、マッチング部７２と未登録
語区間処理部７６に出力する。なお、特徴抽出部７１で
は、その後、例えば線形予測係数、ケプストラム係数、
線スペクトル対、所定の周波数ごとのパワー（フイルタ
バンクの出力）等を、特徴ベクトルとして抽出すること
が可能である。

【００８７】マッチング部７２は、特徴抽出部７１から
の特徴ベクトルを用いて、音響モデル記憶部７３、辞書
記憶部７４及び文法記憶部７５を必要に応じて参照しな
がら、マイクロホン５１に入力された音声（入力音声）
を、例えば、連続分布ＨＭＭ（Hidden Markov Model）
法に基づいて音声認識する。

【００８８】すなわち音響モデル記憶部７３は、音声認
識する音声の言語における個々の音素や、音節、音韻な
どのサブワードについて音響的な特徴を表す音響モデル
（例えば、ＨＭＭの他、ＤＰ（Dynamic Programing）マ
ッチングに用いられる標準パターン等を含む）を記憶し
ている。なお、ここでは連続分布ＨＭＭ法に基づいて音
声認識を行うことをしているので、音響モデルとしては
ＨＭＭ（Hidden Markov Model）が用いられる。

【００８９】辞書記憶部７４は、認識対象の各単位ごと
にクラスタリングされた、その単語の発音に関する情報
（音響情報）と、その単語の見出しとが対応付けられた
単語辞書を認識している。

【００９０】ここで、図１６は、辞書記憶部７４に記憶
された単語辞書を示している。

【００９１】図１６に示すように、単語辞書において
は、単語の見出しとその音韻系列とが対応付けられてお
り、音韻系列は、対応する単語ごとにクラスタリングさ
れている。図１６の単語辞書では、１つのエントリ（図
１６の１行）が、１つのクラスタに相当する。

【００９２】なお、図１６において、見出しはローマ字
と日本語（仮名漢字）で表してあり、音韻系列はローマ
字で表してある。ただし、音韻系列における「Ｎ」は、撥
音「ん」を表す。また、図１６では、１つのエントリに１
つの音韻系列を記述してあるが、１つのエントリには複
数の音韻系列を記述することも可能である。

【００９３】図４に戻り、文法記憶部２６は、辞書記憶
部２５の単語辞書に登録されている各単語がどのように
連鎖する（つながる）かを記述した文法規則を記憶して
いる。

【００９４】ここで、図１７は、文法記憶部７５に記憶
された文法規則を示している。なお、図１７の文法規則
は、ＥＢＮＦ（Extended Backus Naur Form）で記述さ
れている。

【００９５】図１７においては、行頭から最初に現れる
「；」までが１つの文法規則を表している。また先頭に
「＄」が付されたアルファベット（列）は変数を表し、
「＄」が付されていないアルファベット（列）は単語の見
出し（図１６に示したローマ字による見出し）を表す。
さらに［］で囲まれた部分は省略可能であることを表
し、「｜」は、その前後に配置された見出しの単語（ある
いは変数）のうちのいずれか一方を選択することを表
す。

【００９６】従って、図１７において、例えば、第１行
（上から１行目）の文法規則「＄col＝［Kono｜sono］ir
o wa；」は、変数＄colが、「このいろ（色）は」または
「そのいろ（色）は」という単語列であることを表す。

【００９７】なお、図１７に示した文法規則において
は、変数＄silと＄garbageが定義されていないが、変数
＄silは、無音の音響モデル（無音モデル）を表し、変
数＄garbageは、基本的には、音韻どうしの間での自由
な遷移を許可したガーベジモデルを表す。

【００９８】再び図１５に戻り、マッチング部７２は、
辞書記憶部７４の単語辞書を参照することにより、音響
モデル記憶部７３に記憶されている音響モデルを接続す
ることで、単語の音響モデル（単語モデル）を構成す
る。さらにマッチング部７２は、幾つかの単語モデルを
文法記憶部７５に記憶された文法規則を参照することに
より接続し、そのようにして接続された単語モデルを用
いて、特徴ベクトルに基づき、連続分布ＨＭＭ法によっ
て、マイクロホン５１に入力された音声を認識する。す
なわちマッチング部７２は、特徴抽出部７１が出力する
時系列の特徴ベクトルが観測されるスコア（尤度）が最
も高い単語モデルの系列を検出し、その単語モデルの系
列に対応する単語列の見出しを、音声の認識結果として
出力する。

【００９９】より具体的には、マッチング部７２は、接
続された単語モデルに対応する単語により接続し、その
ようにして接続された単語モデルを用いて、特徴ベクト
ルに基づき、連続分布ＨＭＭ法によって、マイクロホン
５１に入力された音声を認識する。すなわちマッチング
部７２は、特徴抽出部７１が出力する時系列の特徴ベク
トルが観測されるスコア（尤度）が最も高い単語モデル
の系列を検出し、その単語モデルの系列に対応する単語
列の見出しを音声認識結果として出力する。

【０１００】より具体的には、マッチング部７２は、接
続された単語モデルに対応する単語列について、各特徴
ベクトルの出現確率（出力確率）を累積し、その累積値
をスコアとして、そのスコアを最も高くする単語列の見
出しを音声認識結果として出力する。

【０１０１】以上のようにして出力されるマイクロホン
５１に入力された音声認識結果は、文字列データＤ１と
して対話制御部６３に出力される。

【０１０２】ここで図１７の実施の形態では、第９行
（上から９行目）にガーベジモデルを表す変数＄garbag
eを用いた文法規則（以下、適宜、未登録語用規則とい
う）「＄pat1＝＄colorl $garbage ＄color2；」がある
が、マッチング部７２は、この見登録語用規則が適用さ
れた場合には、変数＄garbageに対応する音声区間を未
登録語の音声区間として検出する。さらに、マッチング
部７２は、未登録語用規則が適用された場合における変
数＄garbageが表すガーベジモデルにおける音韻の遷移
としての音韻系列を未登録語の音韻系列として検出す
る。そしてマッチング部７２は、未登録語用規則が適用
された音声認識結果が得られた場合に検出される未登録
語の音声区間と音韻系列を未登録語区間処理部７６に供
給する。

【０１０３】なお上述の未登録語用規則「＄pat1＝＄col
orl $garbage ＄color2；」によれば、変数＃color1で表
される単語辞書に登録されている単語（列）の音韻系列
と、変数＄color2で表される単語辞書に登録されている
単語（列）の音韻系列との間にある１つの未登録語が検
出されるが、この実施の形態においては、発話に複数の
未登録語が含まれている場合や、未登録語が単語辞書に
登録されている単語（列）間に挟まれていない場合であ
っても適用可能である。

【０１０４】未登録語区間処理部７６は、特徴抽出部７
１から供給される特徴ベクトルの系列（特徴ベクトル系
列）を一時記憶する。さらに、未登録語区間処理部７６
は、マッチング部７２から未登録語の音声区間と音韻系
列を受信すると、その音声区間における音声の特徴ベク
トル系列を、一時記憶している特徴ベクトル系列から検
出する。そして未登録語区間処理部７６は、マッチング
部７２からの音韻系列（未登録語）にユニークなＩＤ
（identification）を付し、未登録語の音韻系列と、そ
の音声区間における特徴ベクトル系列とともに、特徴ベ
クトルバッファ７７に供給する。

【０１０５】特徴ベクトルバッファ７７は、例えば、図
１８に示すように、未登録語区間処理部７６から供給さ
れる未登録語のＩＤ、音韻系列及び特徴ベクトル系列を
対応付けて一時記憶する。

【０１０６】ここで図１８においては、未登録語に対し
て１からのシーケンシャルな数時がＩＤとして付されて
いる。従って、例えばいま、特徴ベクトルバッファ７７
において、Ｎ個の未登録語のＩＤ、音韻系列及び特徴ベ
クトル系列が記憶されている場合において、マッチング
部７２が未登録語の音声区間と音韻系列を検出すると、
未登録語区間処理部７６では、その未登録語に対してＮ
＋１がＩＤとして付され、特徴ベクトルバッファ７７で
は、図１８に点線で示すように、その未登録語のＩＤ、
音韻系列及び特徴ベクトル系列が記憶される。

【０１０７】再び図１５に戻り、クラスタリング部７８
は、特徴ベクトルバッファ７７に新たに記憶された未登
録語（以下、適宜、新未登録語という）について、特徴
ベクトルバッファ７７に既に記憶されている他の未登録
語（以下、適宜、既記憶未登録語という）それぞれに対
するスコアを計算する。

【０１０８】すなわちクラスタリング部７８は、新未登
録語を入力音声とし、かつ既記憶未登録語を単語辞書に
登録されている単語とみなして、マッチング部７２にお
ける場合と同様にして、新未登録語について、各既記憶
未登録語に対するスコアを計算する。具体的には、クラ
スタリング部７８は、特徴ベクトルバッファ７７を参照
することで新未登録語の特徴ベクトル系列を認識すると
ともに、既記憶未登録語の音韻系列にしたがって音響モ
デルを接続し、その接続された音響モデルから新未登録
語の特徴ベクトル系列が観測される尤度としてのスコア
を計算する。

【０１０９】なお、音響モデルは、音響モデル記憶部７
３に記憶されているものが用いられる。

【０１１０】クラスタリング部７８は、同様にして、各
既記憶未登録語について、新未登録語に対するスコアも
計算し、そのスコアによってスコアシート記憶部７９に
記憶されたスコアシートを更新する。

【０１１１】さらにクラスタリング部７８は、更新した
スコアシートを参照することにより、既に求められてい
る未登録語（既記憶未登録語）をクラスタリングしたク
ラスタの中から、新未登録語を新たなメンバとして加え
るクラスタを検出する。さらにクラスタリング部７８
は、新未登録語を検出したクラスタの新たなメンバと
し、そのクラスタをそのクラスタのメンバに基づいて分
割し、その分割結果に基づいて、スコアシート記憶部７
９に記憶されているスコアシートを更新する。

【０１１２】スコアシート記憶部７９は、新未登録語に
ついての既記憶未登録語に対するスコアや、既記憶未登
録語についての新未登録語に対するスコア等が登録され
たスコアシートを記憶する。

【０１１３】ここで、図１９は、スコアシートを示して
いる。

【０１１４】スコアシートは、未登録語の「ＩＤ」、「音
韻系列」、「クラスタナンバ」、「代表メンバＩＤ」及び「ス
コア」が記述されたエントリで構成される。

【０１１５】未登録語の「ＩＤ」と「音韻系列」としては、
特徴ベクトルバッファ７７に記憶されたものと同一のも
のがクラスタリング部７８によって登録される。「クラ
スタナンバ」は、そのエントリの未登録語がメンバとな
っているクラスタを特定するための数字で、クラスタリ
ング部７８によって付され、スコアシートに登録され
る。「代表ナンバＩＤ」は、そのエントリの未登録語がメ
ンバとなっているクラスタを代表する代表メンバとして
の未登録のＩＤであり、この代表メンバＩＤによって、
未登録語がメンバとなっているクラスタの代表メンバを
認識することができる。なお、クラスタの代表メンバ
は、クラスタリング部２９によって求められ、その代表
メンバのＩＤがスコアシートの代表メンバＩＤに登録さ
れる。「スコア」は、そのエントリの未登録語についての
他の未登録語それぞれに対するスコアであり、上述した
ように、クラスタリング部７８によって計算される。

【０１１６】例えば、いま、特徴ベクトルバッファ７７
において、Ｎ個の未登録語のＩＤ、音韻系列及び特徴ベ
クトル系列が記憶されているとすると、スコアシートに
は、そのＮ個の未登録語のＩＤ、音韻系列、クラスタナ
ンバ、代表ナンバＩＤ及びスコアが登録されている。

【０１１７】そして特徴ベクトルバッファ７７に、新未
登録語のＩＤ、音韻系列、および特徴ベクトル系列が新
たに記憶されると、クラスタリング部７８では、スコア
シートが図１９において点線で示すように更新される。

【０１１８】すなわちスコアシートには、新未登録語の
ＩＤ、音韻系列、クラスタナンバ、代表メンバＩＤ、新
未登録語についての既記憶未登録語それぞれに対するス
コア（図１９におけるスコアｓ（Ｎ+１，１）、ｓ
（２、Ｎ+１）、…ｓ（Ｎ+１、Ｎ）が追加される。さら
にスコアシートには、既記憶未登録語それぞれについて
の新未登録語に対するスコア（図１９におけるｓ（Ｎ+
１，１）、ｓ（２、Ｎ+１）、…ｓ（Ｎ+１、Ｎ））が追
加される。さらに後述するように、スコアシートにおけ
る未登録語のクラスタナンバと代表メンバＩＤが必要に
応じて変更される。

【０１１９】なお、図１９の実施の形態においては、Ｉ
Ｄがｉの未登録語（の発話）についての、ＩＤがｊの未
登録語（の音韻系列）に対するスコアを、s（ｉ、ｊ）
として表してある。

【０１２０】またスコアシート（図１９）には、ＩＤが
ｉの未登録語（の発話）についての、ＩＤがｉの未登録
語（の音韻系列）に対するスコアｓ（ｉ、ｊ）も登録さ
れる。ただし、このスコアｓ（ｉ、ｊ）は、マッチング
部７２において、未登録語の音韻系列が検出されるとき
に計算されるため、クラスタリング部７８で計算する必
要はない。

【０１２１】再び図１５に戻り、メンテナンス部８０
は、スコアシートに記憶部７９における更新後のスコア
シートに基づいて、辞書記憶部７４に記憶された単語辞
書を更新する。

【０１２２】ここで、クラスタの代表メンバは、次のよ
うに決定される。すなわち、例えば、クラスタのメンバ
となっている未登録語のうち、他の未登録語それぞれに
ついてのスコアの総和（その他、例えば、総和を他の未
登録語の数で除算した平均値でも良い）を最大にするも
のがそのクラスタの代表メンバとされる。従って、この
場合、クラスタに属するメンバのメンバＩＤをｋで表す
こととすると、次式

【０１２３】

【数１】

【０１２４】で示される値ｋ（∈ｋ）をＩＤとするメン
バが代表メンバとされることになる。

【０１２５】ただし、（１）式において、max_ｋ{}
は、{}内の値を最大にするｋを意味する。またｋ^３は、
ｋと同様に、クラスタに属するメンバのＩＤを意味す
る。さらに、Σは、ｋ^３をクラスタに属するメンバすべ
てのＩＤに亘って変化させての総和を意味する。

【０１２６】なお上述のように代表メンバを決定する場
合、クラスタのメンバが１または２つの未登録語である
ときには、代表メンバを決めるにあたってスコアを計算
する必要はない。すなわちクラスタのメンバが１つの未
登録語である場合には、その１つの未登録語が代表メン
バとなり、クラスタのメンバが２つの未登録語である場
合には、その２つの未登録語のうちのいずれを代表メン
バとしても良い。

【０１２７】また代表メンバの決定方法は、上述したも
のに限定されるものではなく、その他、例えばクラスタ
のメンバとなっている未登録語のうち、他の未登録語そ
れぞれとの特徴ベクトル空間における距離の総和を最小
にするもの等をそのクラスタの代表メンバとすることも
可能である。

【０１２８】以上のように構成される音声認識部６０で
は、マイクロホン５１に入力された音声を認識する音声
認識処理と、未登録語に関する未登録語処理が図２０に
示す音声認識処理手順ＲＴ２に従って行われる。

【０１２９】実際上、音声認識部６０では、人が発話を
行うことにより得られた音声信号Ｓ１Ｂがマイクロホン
５１からＡＤ変換部７０を介して音声データとされて特
徴抽出部７１に与えられるとこの音声認識処理手順ＲＴ
２がステップＳＰ３０において開始される。

【０１３０】そして続くステップＳＰ３１において、特
徴抽出部７１が、その音声データを所定のフレーム単位
で音響分析することにより特徴ベクトルを抽出し、その
特徴ベクトルの系列をマッチング部７２及び未登録語区
間処理部７６に供給する。

【０１３１】マッチング部７６は、続くステップＳ３２
において、特徴抽出部７１からの特注オベクトル系列に
ついて、上述したようにスコア計算を行い、この後ステ
ップＳ３３において、スコア計算の結果得られるスコア
に基づいて、音声認識結果となる単語列の見出しを求め
て出力する。

【０１３２】さらにマッチング部７２は、続くステップ
Ｓ３４において、ユーザの音声に未登録語が含まれてい
たかどうかを判定する。

【０１３３】ここで、このステップＳ３４において、ユ
ーザの音声に未登録語が含まれていないと判定された場
合、すなわち上述の未登録語用規則「＄pat1＝＄colorl
＄garbage ＄color2；」が適用されずに音声認識結果が
得られた場合、ステップＳ３５に進んで処理が終了す
る。

【０１３４】これに対してステップＳ３４において、ユ
ーザの音声に未登録語が含まれていると判定された場
合、すなわち未登録語用規則「＄pat1＝＄colorl ＄garb
age ＄color2；」が適用されて音声認識結果が得られた
場合、マッチング部２３は、続くステップＳ３５におい
て、未登録語用規則の変数＄garbageに対応する音声区
間を未登録語の音声区間として検出するとともに、その
変数＄garbageが表すガーベジモデルにおける音韻の遷
移としての音韻系列を未登録語の音韻系列として検出
し、その未登録語の音声区間と音韻系列を未登録語区間
処理部７６に供給して、処理を終了する（ステップＳＰ
３６）。

【０１３５】一方、未登録語機関処理部７６は、特徴抽
出部７１から供給される特徴ベクトル系列を一時記憶し
ており、マッチング部７２から未登録語の音声区間と音
韻系列が供給されると、その音声区間における音声の特
徴ベクトル系列を検出する。さらに未登録語区間処理部
７６は、マッチング部７２からの未登録語（の音韻系
列）にＩＤを付し、未登録語の音韻系列と、その音声区
間における特徴ベクトル系列とともに、特徴ベクトルバ
ッファ７７に供給する。

【０１３６】以上のようにして、特徴ベクトルバッファ
７７に新たな未登録語（新未登録語）のＩＤ、音韻系列
及び特徴ベクトル系列が記憶されると、この後、未登録
語の処理が図２１に示す未登録語処理手順ＲＴ３に従っ
て行われる。

【０１３７】すなわち音声認識部６０においては、上述
のように特徴ベクトルバッファ７７に新たな未登録語
（新未登録語）のＩＤ、音韻系列及び特徴ベクトル系列
が記憶されるとこの未登録語処理手順ＲＴ３がステップ
ＳＰ４０において開始され、まず最初にステップＳ４１
において、クラスタリング部７８が、特徴ベクトルバッ
ファ７７から新未登録語のＩＤと音韻系列を読み出す。

【０１３８】次いでステップＳ４２において、クラスタ
リング部７８が、スコアシート記憶部３０のスコアシー
トを参照することにより、既に求められている（生成さ
れている）クラスタが存在するかどうかを判定する。

【０１３９】そしてこのステップＳ４２において、すで
に求められているクラスタご存在しないと判定された場
合、すなわち新未登録語が初めての未登録語であり、ス
コアシートに既記憶未登録語のエントリが存在しない場
合には、ステップＳ４３に進み、クラスタリング部７８
が、その新未登録語を代表メンバとするクラスタを新た
に生成し、その新たなクラスタに関する情報と、親身登
録語に関する情報とをスコアシート記憶部７９のスコア
シートに登録することにより、スコアシートを更新す
る。

【０１４０】すなわちクラスタリング部７８は、特徴ベ
クトルバッファ７７から読み出した新未登録語のＩＤお
よび音韻系列をスコアシート（図１９）に登録する。さ
らにクラスタリング部７８は、ユニークなクラスタナン
バを生成し、新未登録語のクラスタナンバとしてスコア
シートに登録する。またクラスタリング部７８は、新未
登録語のＩＤをその新未登録語の代表ナンバＩＤとし
て、スコアシートに登録する。従ってこの場合は、新未
登録語は、新たなクラスタの代表メンバとなる。

【０１４１】なお、いまの場合、新未登録語とのスコア
を計算する既記憶未登録語が存在しないため、スコアの
計算は行われない。

【０１４２】かかるステップＳ４３の処理後は、ステッ
プＳ５２に進み、メンテナンス部８０は、ステップＳ４
３で更新されたスコアシートに基づいて、辞書記憶部７
４の単語辞書を更新し、処理を終了する（ステップＳＰ
５４）。

【０１４３】すなわち、いまの場合、新たなクラスタが
生成されているので、メンテナンス部３１は、スコアシ
ートにおけるクラスタナンバを参照し、その新たに生成
されたクラスタを認識する。そしてメンテナンス部８０
は、そのクラスタに対応するエントリを辞書記憶部７４
の単語辞書に追加し、そのエントリの音韻系列として、
新たなクラスタの代表メンバの音韻系列、つまりいまの
場合は、新未登録語の音韻系列を登録する。

【０１４４】一方、ステップＳ４２において、すでに求
められているクラスタが存在すると判定された場合、す
なわち新未登録語が初めての未登録語ではなく、従って
スコアシート（図１９）に、既記憶未登録語のエントリ
（行）が存在する場合、ステップＳ４４に進み、クラス
タリング部７８は、新未登録語について、各既記憶未登
録語それぞれに対するスコアを計算すると共に、各既記
憶未登録語それぞれについて、新未登録語に対するスコ
アを計算する。

【０１４５】すなわち、例えば、いま、ＩＤが１乃至Ｎ
個の既記憶未登録語が存在し、新未登録語のＩＤをＮ+
１とすると、クラスタリング部７８では、図１９におい
て点線で示した部分の新未登録語についてのＮ個の既記
憶未登録語それぞれに対するスコアｓ（Ｎ+１、１）、
ｓ（Ｎ+１、２）…、ｓ（Ｎ、Ｎ+１）と、Ｎ個の既記憶
未登録語それぞれについての新未登録語に対するスコア
ｓ（１、Ｎ+１）、ｓ（２、Ｎ+１）…、ｓ（Ｎ、Ｎ+
１）が計算される。なおクラスタリング部７８におい
て、これらのスコアを計算するにあたっては、新未登録
語とＮ個の既記憶未登録語それぞれの特徴ベクトル系列
が必要となるが、これらの特徴ベクトル系列は、特徴ベ
クトルバッファ２８を参照することで認識される。

【０１４６】そしてクラスタリング部７８は、計算した
スコアを新未登録語のＩＤ及び音韻系列とともにスコア
シート（図１９）に追加し、ステップＳ４５に進む。

【０１４７】ステップＳ４５では、クラスタリング部７
８はスコアシート（図１９）を参照することにより、新
未登録語についてのスコアｓ（Ｎ+１、ｉ）（ｉ＝１、
２、…、Ｎ）を最も高く（大きく）する代表メンバを有
するクラスタを検出する。即ち、クラスタリング部７８
は、スコアシートの代表メンバＩＤを参照することによ
り、代表メンバとなっている既記憶未登録語を認識し、
さらにスコアシートのスコアを参照することで、新未登
録語についてのスコアを最も高くする代表メンバとして
の既記憶未登録語を検出する。そしてクラスタリング部
７８は、その検出した代表メンバとしての既記憶未登録
語のクラスタナンバのクラスタを検出する。

【０１４８】その後、ステップＳ４６に進み、クラスタ
リング部２９は、新未登録語をステップＳ４５で検出し
たクラスタ（以下、適宜、検出クラスタという）のメン
バに加える。すなわちクラスタリング部７８は、スコア
シートにおける新未登録語のクラスタナンバとして、検
出クラスタの代表メンバのクラスタナンバを書き込む。

【０１４９】そしてクラスタリング部７８は、ステップ
Ｓ４７において、検出クラスタを例えば２つのクラスタ
に分割するクラスタ分割処理を行い、ステップＳ４８に
進む。ステップＳ４８では、クラスタリング部７８は、
ステップＳ４７のクラスタ分割処理によって、検出クラ
スタを２つのクラスタに分割することができたかどうか
判定し、分割することができた判定した場合、ステップ
Ｓ４９に進む。ステップＳ４９では、クラスタリング部
７８は、検出クラスタの分割により得られる２つのクラ
スタ（この２つのクラスタを、以下、適宜、第１の子ク
ラスタと第２の子クラスタという）同士の間のクラスタ
間距離を求める。

【０１５０】ここで、第１及び第２の子クラスタ同士間
のクラスタ間距離とは、例えば次のように定義される。

【０１５１】すなわち第１の子クラスタと第２の子クラ
スタの両方の任意のメンバ（未登録語）のＩＤを、ｋで
表すとともに、第１と第２の子クラスタの代表メンバ
（未登録語）のＩＤを、それぞれｋ１またはｋ２で表す
こととすると、次式

【０１５２】

【数２】

【０１５３】で表される値Ｄ（ｋ１，ｋ２）を第１と第
２の子クラスタ同士の間のクラスタ間距離とする。

【０１５４】ただし、（２）式において、abs（）は、
（）内の値の絶対値を表す。また、maxval_ｋ{}は、ｋを
変えて求められる{}内の値の最大値を表す。またlog
は、自然対数又は常用対数を表す。

【０１５５】いま、ＩＤがｉのメンバをメンバ＃Ｉと表
すこととすると、（２）式におけるスコアの逆数１／ｓ
（ｋ，ｋ１）は、メンバ＃ｋと代表メンバｋ１との距離
に相当し、スコアの逆数１／ｓ（ｋ，ｋ２）は、メンハ゛＃
ｋと代表メンバｋ２との距離に相当する。従って、
（２）式によれば、第１と第２の子クラスタのメンバの
うち、第１の子クラスタの代表メンバ＃ｋ１との距離
と、第２の子クラスタの代表メンバ＃ｋ２との差の最大
値が、第１と第２の子クラスタ同士の間の子クラスタ間
距離とされることになる。

【０１５６】なおクラスタ間距離は、上述したものに限
定されるものではなく、その他、例えば、第１の子クラ
スタの代表メンバと、第２の子クラスタの代表メンバと
のＤＰマッチングを行うことにより、特徴ベクトル空間
における距離の積算値を求め、その距離の積算値を、ク
ラスタ間距離とすることも可能である。

【０１５７】ステップＳ４９の処理後は、ステップＳ５
０に進み、クラスタリング部７８は、第１と第２の子ク
ラスタ同士のクラスタ逢間距離が、所定の閾値ξより大
である（あるいは、閾値ξ以上である）かどうかを判定
する。

【０１５８】ステップＳ５０において、クラスタ間距離
が所定の閾値ξより大であると判定された場合、すなわ
ち検出クラスタのメンバとしての複数の未登録後が、そ
の音響的特徴からいって、２つのクラスタにクラスタリ
ングすべきものであると考えられる場合、ステップＳ５
１に進み、クラスタリング部７８は、第１と第２の子ク
ラスタをスコアシート記憶部７９のスコアシートに登録
する。

【０１５９】すなわちクラスタリング部７８は、第１と
第２の子クラスタにユニークなクラスタナンバを割り当
て、検出クラスタのメンバのうち、第１の子クラスタに
クラスタリングされたもののクラスタナンバを第１の子
クラスタのクラスタナンバにすると共に、第２の子クラ
スタにクラスタリングされたもののクラスタナンバを第
２の子クラスタのクラスタナンバにするように、スコア
シートを更新する。

【０１６０】さらにクラスタリング部７８は、第１の子
クラスタにクラスタリングされたメンバの代表メンバＩ
Ｄを第１の子クラスタの代表メンバのＩＤにすると共
に、第２の子クラスタにクラスタリングされたメンバの
代表メンバＩＤを第２の子クラスタの代表メンバのＩＤ
にするように、スコアシートを更新する。

【０１６１】なお、第１と第２の子クラスタのうちいず
れか一方には、検出クラスタのクｒスタナンバを割り当
てるようにすることが可能である。

【０１６２】クラスタリング部７８が以上のようにして
第１と第２の子クラスタをスコアシートに登録すると、
ステップＳ５１からＳ５２に進み、メンテナンス部８０
が、スコアシートに基づいて、辞書記憶部７４の単語辞
書を更新し、処理を終了する（ステップＳＰ５４）。

【０１６３】すなわち、いまの場合、検出クラスタが第
１と第２の子クラスタに分割されたため、メンテナンス
部８０は、まず単語辞書における検出クラスタに対応す
るエントリを削除する。さらにメンテナンス部８０は、
第１と第２の子クラスタそれぞれに対応する２つのエン
トリを単語辞書に追加し、第１の子クラスタに対応する
エントリの音韻系列として、その第１の子クラスタの代
表メンバの音韻系列を登録すると共に、第２の子クラス
タに対応するエントリの音韻系列として、その第２の子
クラスタの代表メンバの音韻系列を登録する。

【０１６４】一方、ステップＳ４８において、ステップ
Ｓ４７のクラスタ分割処理によって、検出クラスタを２
つのクラスタに分割することができなかったと判定され
た場合、又はステップＳ５０において、第１と第２の子
クラスタのクラスタ間距離が所定の閾値ξより大でない
と判定された場合、従って、検出クラスタのメンバとし
ての複数の未登録後の音響的特徴が第１と第２の子クラ
スタにクラスタリングするほど似ていないものではない
場合）、ステップＳ５３に進み、クラスタリング部７８
は、検出クラスタの新たな代表メンバを求め、スコアシ
ートを更新する。

【０１６５】すなわちクラスタリング部７８は、新未登
録後をメンバとして加えた検出クラスタの各メンバにつ
いて、スコアシート記憶部７９のスコアシートを参照す
ることにより、（１）式の計算に必要なスコアｓ
（ｋ^３，ｋ）を認識する。さらに、クラスタリング７８
は、その認識したスコアｓ（ｋ^３，ｋ）を用い、（１）
式に基づき、検出クラスタの新たな代表メンバとなるメ
ンバのＩＤを求める。そしてクラスタリング部７８は、
スコアシート（図１９）における検出クラスタの各メン
バの代表メンバＩＤを、検出クラスタの新たな代表メン
バのＩＤに書き換える。

【０１６６】その後、ステップＳ５２に進み、メンテナ
ンス部８０が、スコアシートに基づいて辞書記憶部７４
の単語辞書を更新し、処理を終了する（ステップＳＰ５
４）。

【０１６７】すなわち、いまの場合、メンテナンス部８
０は、スコアシートを参照することにより、検出クラス
タの新たな代表メンバを認識し、さらにそのダ表メンバ
の音韻系列を認識する。そしてメンテナンス部８０は、
単語辞書における検出クラスタに対応するエントリの音
韻系列を、検出クラスタの新たな代表メンバの音韻系列
に変更する。

【０１６８】ここで、図２１のステップＳＰ４７のクラ
スタ分割処理は、図２２に示すクラスタ分割処理手順Ｒ
Ｔ４に従って行われる。

【０１６９】すなわち音声認識処理部６０では、図２２
のステップＳＰ４６からステップＳＰ４７に進むとこの
クラスタ分割処理手順ＲＴ４をステップＳＰ６０におい
て開始し、まず最初にステップＳ６１において、クラス
タリング部７８が、新未登録後がメンバとして加えられ
た検出クラスタから、まだ選択していない任意の２つの
メンバの組み合わせを選択し、それぞれを仮の代表メン
バとする。ここで、この２つの仮の代表メンバを、以
下、適宜、第１の仮代表メンバと第２の仮代表メンバと
いう。

【０１７０】そして、続くステップＳ６２において、ク
ラスタリング部７８は、第１の仮代表メンバ及び第２の
仮代表メンバをそれぞれ代表メンバとすることができる
ように、検出クラスタのメンバを２つのクラスタに分割
することができるかどうかを判定する。

【０１７１】ここで、第１又は第２の仮代表メンバを代
表メンバとすることができるかどうかは（１）式の計算
を行う必要があるが、この計算に用いられるスコアｓ
（ｋ’，ｋ）は、スコアシートを参照することで認識さ
れる。

【０１７２】ステップＳ６２において、第１の仮代表メ
ンバ及び第２の仮代表メンバをそれぞれ代表メンバとす
ることができるように、検出クラスタのメンバを２つの
クラスタに分割することができないと判定された場合、
ステップＳ６２をスキップして、ステップＳ６４に進
む。

【０１７３】また、ステップＳ６２において、第１の仮
代表メンバと、第２の仮代表メンバをそれぞれ代表メン
バとすることができるように、検出クラスタのメンバを
２つのクラスタに分割することができると判定された場
合、ステップＳ６３に進み、クラスタリング部７８は、
第１の仮代表メンバと、第２の仮代表メンバがそれぞれ
代表メンバとなるように、検出クラスタのメンバを２つ
のクラスタに分割し、その分割後の２つのクラスタの組
を、検出クラスタの分割結果となる第１及び第２の子ク
ラスタの候補（以下、適宜、候補クラスタの組という）
として、ステップＳ６４に進む。

【０１７４】ステップＳ６４では、クラスタリング部７
８は、検出クラスタのメンバの中で、まだ第１と第２の
仮代表メンバの組として選択していない２つのメンバの
組があるかどうかを判定し、あると判定した場合、ステ
ップＳ６１に戻り、まだ第１と第２の仮代表メンバの組
として選択していない検出クラスタの２つのメンバの組
が選択され、以下、同様の処理が繰り返される。

【０１７５】またステップＳ６４において、第１と第２
の仮代表メンバの組として選択していない検出クラスタ
の２つのメンバの組がないと判定された場合、ステップ
Ｓ６５に進み、クラスタリング部７８は、候補クラスタ
の組が存在するかどうかを判定する。

【０１７６】ステップＳ６５において、候補クラスタの
組が存在しないと判定された場合、ステップＳ６６をス
キップして、リターンする。この場合は、図２１のステ
ップＳ４８において、検出クラスタを分割することがで
きなかったと判定される。

【０１７７】一方、ステップＳ６５において、候補クラ
スタの組が存在すると判定された場合、ステップＳ６６
に進み、クラスタリング部７８は、候補クラスタの組が
複数存在するときには、各候補クラスタの組の２つのク
ラスタ同士の間のクラスタ間距離を求める。そして、ク
ラスタリング部７８は、クラスタ間距離が最小の候補ク
ラスタの組を求め、その候補クラスタの組を検出クラス
タの分割結果をして、すなわち第１と第２の子クラスタ
として、リターンする。なお、候補クラスタの組が１つ
だけの場合は、その候補クラスタの組がそのまま第１と
第２の子クラスタとされる。

【０１７８】この場合は、図２１のステップＳ４８にお
いて、検出クラスタを分割することができたと判定され
る。

【０１７９】以上のように、クラスタリング部７８にお
いて、既に求められている未登録語をクラスタリングし
たクラスタの中から、新未登録語を新たなメンバとして
加えるクラスタ（検出クラスタ）を検出し、新未登録語
をその検出クラスタの新たなメンバとして、検出クラス
タをその検出クラスタのメンバに基づいて分割するよう
にしたので、未登録語をその音響的特徴が近似している
もの同士に容易にクラスタリングすることができる。

【０１８０】さらにメンテナンス部８０において、その
ようなクラスタリング結果に基づいて単語辞書を更新す
るようにしたので、単語辞書の大規模化を避けながら、
未登録語の単語辞書への登録を容易に行うことができ
る。

【０１８１】また、例えば、仮に、マッチング部７２に
おいて、未登録語の音声区間の検出を誤ったとしても、
そのような未登録語は、検出クラスタの分割によって、
音声区間が正しく検出された未登録語とは別のクラスタ
にクラスタリングされる。そして、このようなクラスタ
に対応するエントリが単語辞書に登録されることになる
が、このエントリの音韻系列は正しく検出されなかった
音声区間に対応するものとなるから、その後の音声認識
において大きなスコアを与えることはない。従って、仮
に、未登録語の音声区間の検出を誤ったとしても、その
誤りはその後の音声認識にはほとんど影響しない。

【０１８２】ここで、図２３は、未登録語の発話を行っ
て得られたクラスタリング結果を示している。なお、図
２３においては、各エントリ（各行）が１つのクラスタ
を表している。また、図２３の左欄は、各クラスタの代
表メンバ（未登録語）の音韻系列を表しており、図２３
の右欄は、各クラスタのメンバとなっている未登録語の
発話内容と数を表している。

【０１８３】すなわち図２３において、例えば第１行の
エントリは、未登録語「風呂」の１つの発話だけがメンバ
となっているクラスタを表しており、その代表メンバの
音韻系列は、「doroa：」（ドロアー）になっている。ま
た、例えば第２行のエントリは、未登録語「風呂」の３つ
の発話がメンバとなっているクラスタを表しており、そ
の代表メンバの音韻系列は、「kuro」（クロ）になってい
る。

【０１８４】さらに、例えば第７行のエントリは、未登
録語「本」の４つの発話がメンバとなっているクラスタを
表しており、その代表メンバの音韻系列は、「NhoNde：s
u」（ンホンテース）になっている。また、例えば第８行
のエントリは、未登録語「オレンジ」の１つの発話と、未
登録語「本」の１９の発話がメンバとなっているクラスタ
を表しており、その代表メンバの音韻系列は、「ohoＮ」
（オホン）になっている。他のエントリも同様のことを
表している。

【０１８５】図２３によれば、同一の未登録語の発話に
ついて、良好にクラスタリングされていることが分か
る。

【０１８６】なお、図２３の第８行のエントリにおいて
は、未登録語「オレンジ」の１つの発話と、未登録語「本」
の１９の発話が、同一のクラスタにクラスタリングされ
ている。このクラスタはそのメンバとなっている発話か
ら、未登録語「本」のクラスタとなるべきであると考えら
れるが、未登録語「オレンジ」の発話も、そのクラスタの
メンバとなっている。しかしながらこのクラスタも、そ
の後に未登録語「本」の発話がさらに入力されていくと、
クラスタ分割され、未登録語「本」の発話だけをメンバと
するクラスタと、未登録語「オレンジ」の発話だけをメン
バとするクラスタにクラスタリングされると考えられ
る。

【０１８７】（４−２）顔認識部６２の具体的構成次に、顔認識部６２の具体的構成について説明する。

【０１８８】図２４及び図２５に示すように、顔認識部
６２は、動的に変化する環境下で一定時間内に応答する
ことができるが、ＣＣＤカメラ５０（図５）から与えら
れる画像信号Ｓ１Ａに基づく画像内から顔パターンを抽
出する顔抽出処理部９０と、抽出された顔パターンを基
に顔を認識する顔認識処理部９１から構成される。本実
施の形態では、顔パターンを抽出する顔抽出処理に「ガ
ボア・フィルタリング（Gabor Filtering）」を採用し、
また、顔パターンから顔を認識する顔認識処理には「サ
ポート・ベクタ・マシーン（Support Vector Machine：
ＳＶＭ）」を採用している。

【０１８９】この顔認識部６２は、顔パターンを顔認識
処理部９１が学習する学習段階と、学習されたデータを
基に、画像信号Ｓ１Ａから抽出された顔パターンを認識
する認識段階を持つ。

【０１９０】図２４には、顔認識部６２の学習段階の構
造を、また図２５には、顔認識部６２の認識段階の構成
をそれぞれ示している。

【０１９１】学習段階においては、図２４に示すよう
に、ＣＣＤカメラ５０（図５）から入力されたユーザの
撮像画像をガボア・フィルタでなる顔抽出処理部９０で
顔抽出した結果がサポート・ベクタ・マシーンでなる顔
認識処理部９１に投入される。顔認識処理部９１では、
外部から供給される学習用のデータすなわち教師データ
を用いて、暫定的な識別関数を得る。

【０１９２】また、識別段階においては、図２５に示す
ように、ＣＣＤカメラ５０から供給される画像信号Ｓ１
Ａに基づく画像内の人の顔を顔抽出処理部９０で顔抽出
した結果が顔認識処理部９１に投入される。顔認識処理
部９１では、暫定的に得られた識別関数をさまざまなデ
ータベース上の画像に試して顔の検出を行う。そして、
検出に成功したものを顔データとして出力する。また検
出に失敗したものを非顔データとして学習データに追加
して、さらに学習をし直す。

【０１９３】以下、顔抽出処理部９０におけるガボア・
フィルタリング処理と、顔認識処理部９１におけるサポ
ート・ベクタ・マシーンについて、それぞれ詳細に説明
する。

【０１９４】（４−２−１）ガボア・フィルタリング処
理人間の視覚細胞には、ある特定の方位に対して選択性を
持つ細胞が存在することが既に判っている。これは、垂
直の線に対して反応する細胞と、水平の線に反応する細
胞で構成される。ガボア・フィルタリングは、これと同
様に、方位選択性を持つ複数のフィルタで構成される空
間フィルタである。

【０１９５】ガボア・フィルタは、ガボア関数によって
空間表現される。ガボア関数ｇ（ｘ、ｙ）は、次式

【０１９６】

【数３】

【０１９７】に示すように、コサイン成分からなるキャ
リアｓ（ｘ、ｙ）と、２次元ガウス分析状のエンベロー
ブｗ_ｒ（ｘ、ｙ）とで構成される。

【０１９８】キャリアｓ（ｘ、ｙ）は、複数関数を用い
て、下式（４）のように表現される。ここで、座標値
（ｕ₀、ｖ₀）は空間周波数を表し、またＰはコサイン成
分の位相を表す。

【０１９９】ここで、次式

【０２００】

【数４】

【０２０１】に示すキャリアは、次式

【０２０２】

【数５】

【０２０３】に示すように、実数成分Ｒｅ（ｓ（ｘ、
ｙ）と虚数成分Ｉｍ（ｓ（ｘ、ｙ））に分離することが
できる。

【０２０４】一方、２次元ガウス分布からなるエンベロ
ーブは、次式

【０２０５】

【数６】

【０２０６】のように表現される。

【０２０７】ここで、座標軸（ｘ₀、ｙ₀）はこの関数の
ピークであり、定数ａ及びｂはガウス分布のスケール・
パラメータである。また、添え字ｒは、次式

【０２０８】

【数７】

【０２０９】に示すような回転操作を意味する。

【０２１０】従って、上述の（４）式及び（６）式よ
り、ガボア・フィルタは、次式

【０２１１】

【数８】

【０２１２】に示すような空間関数として表現される。

【０２１３】本実施の形態に係る顔抽出処理部９０は、
８種類の方向と３通りの周波数は採用して、合計２４個
のガボア・フィルタを用いて顔抽出処理を行う。

【０２１４】ガボア・フィルタのレスポンスは、Ｇ_ｉを
ｉ番目のガボア・フィルタとし、ｉ番目のガボアの結果
（Gabor Jet）をＪ_ｉとし、入力イメージをＩとし、す
ると、次式

【０２１５】

【数９】

【０２１６】で表される。この（９）式の演算は、実際
には高速フーリエ変換を用いて高速化することができ
る。

【０２１７】作成したガボア・フィルタの性能を調べる
ためには、フィルタリングして得られた画素を再構築す
ることによって行う。再構築されたイメージＨは、次式

【０２１８】

【数１０】

【０２１９】のように表される。

【０２２０】そして、入力画像Ｉと再構築された画像Ｈ
とのエラーＥは、次式

【０２２１】

【数１１】

【０２２２】のように表される。

【０２２３】このエラーＥを最小にするような最適なａ
を求めることにより再構築することができる。

【０２２４】（４−２−２）サポート・ベクタ・マシー
ン本実施の形態では、顔認識処理部９１における顔認識
に関して、パターン認識の分野で最も学習汎化能力が高
いとされるサポート・ベクタ・マシーン（ＳＶＭ）を用
いて該当する顔か否かの識別を行う。

【０２２５】ＳＶＭ自体に関しては、例えばB.sholkopf
外著の報告（B.Sholkopf、C.Burges、A.Smola、“Advan
ce in Kernel Support Vector Learning”、The MIT Pr
ess、1999.）を挙げることができる。本願出願人が行っ
た予備実験の結果からは、ＳＶＭによる顔認識方法は、
主成分分析（ＰＣＡ）やニューラル・ネットワークを用
いる手法に比べ、良好な結果を示すことが判っている。

【０２２６】ＳＶＭは、識別関数に線形識別器（パーセ
プトロン）を用いた学習機械であり、カーネル関数を使
うことで非線形空間に拡張することができる。また識別
関数の学習では、クラス間分離のマージンを最大にとる
ように行われ、その解は２次数理計画法を解くことで得
られるため、グローバル解に到達できることを理論的に
保証することができる。

【０２２７】通常、パターン認識の問題は、テスト・サ
ンプルｘ＝（ｘ１、ｘ２…。ｘｎ）に対して、次式

【０２２８】

【数１２】

【０２２９】で与えられる識別関数ｆ（ｘ）を求めるこ
とである。

【０２３０】ここで、ＳＶＭの学習用の教師ラベルを次
式

【０２３１】

【数１３】

【０２３２】のようにおく。

【０２３３】すると、ＳＶＭにおける顔パターンの認識
を次式

【０２３４】

【数１４】

【０２３５】に示す制約条件の下での重み因子ｗの二乗
の最小化する問題としてとらえることができる。

【０２３６】このような制約のついた問題は、ラグラン
ジュの未定定数法を用いて解くことができる。すなわ
ち、次式

【０２３７】

【数１５】

【０２３８】に示すラグランジュをまず導入し、次い
で、次式

【０２３９】

【数１６】

【０２４０】に示すように、ｂ、ｗの各々について偏微
分する。

【０２４１】この結果、ＳＶＭにおける顔パターンの識
別を

【０２４２】

【数１７】

【０２４３】に示す２次計画問題としてとらえることが
できる。

【０２４４】特徴空間の次元数が、訓練サンプルの数よ
りも少ない場合は、スクラッチ変数ξ≧０を導入して、
制約条件を次式

【０２４５】

【数１８】

【０２４６】のように変更する。

【０２４７】最適化については、次式

【０２４８】

【数１９】

【０２４９】の目的関数を最小化する。

【０２５０】この（１９）式において、Ｃは、制約条件
をどこまで緩めるかを指定する係数であり、実験的に値
を決定する必要がある。

【０２５１】ラグランジュ定数ａに関する問題は次式

【０２５２】

【数２０】

【０２５３】のように変更される。

【０２５４】しかし、この（２０）式のままでは、非線
型の問題を解くことはできない。そこで、本実施の形態
では、カーネル関数Ｋ（ｘ、ｘ³）を導入して、一旦、
高次元の空間に写像して（カーネル・トリック）、その
空間で線形分離することにしている。したがって、元の
空間では非線型分離していることと同等となる。

【０２５５】カーネル関数は、ある写像Φを用いて次式

【０２５６】

【数２１】

【０２５７】のように表される。

【０２５８】また、（１２）式に示した識別関数も、次
式

【０２５９】

【数２２】

【０２６０】のように表すことができる。

【０２６１】また学習に関しても、次式

【０２６２】

【数２３】

【０２６３】に示す２次計画問題としてとらえることが
できる。

【０２６４】カーネルとしては、次式

【０２６５】

【数２４】

【０２６６】に示すガウシアン・カーネル（ＲＢＦ（Ra
dius Basic Function））などを用いることができる。

【０２６７】なお、ガボア・フィルタリングに関して
は、認識タスクに応じてフィルタの種類を変更するよう
にしても良い。

【０２６８】低周波でのフィルタリングでは、フィルタ
リング後のイメージすべてをベクトルとして持っている
のは冗長である。そこで、ダウンサンプリングして、ベ
クトルの次元を落とすようにしても良い。ダウンサンプ
リングされた２４種類のベクトルを一列に並べ、長いベ
クトルにする。

【０２６９】また本実施の形態において顔パターンの認
識に適用されるＳＶＭは、特徴空間を２分する識別器な
ので、「人Ａ」か「人Ａでない」かを判別するように学習す
る。そのため、データベースの画像中から、まず人Ａの
顔画像を集め、ガボア・フィルタリング後のベクトルに
「人Ａでない」というラベルを貼る。一般に、集める顔画
像の数は、特徴空間の次元より多い方がよい。１０人の
顔を認識したい場合は、同様に、「人Ｂである」、「人Ｂ
でない」…のように、それぞれの人に対して１つの識別
器を構成する。

【０２７０】このような学習により、例えば、「人Ａ」と
「人Ａでない」を分けるサポート・ベクタが求まる。ＳＶ
Ｍは、特徴空間を２つに仕切る識別器であり、新しい顔
画像が入力されてきたときに、やはりガボア・フィルタ
リングのベクトルが、求めたサポート・ベクタが構成す
る境界面のどちら側にあるかで認識結果を出力する。そ
して、境界に対して、「人Ａ」の領域にあれば「人Ａ」と認
識することができる。また、「人Ａではない」領域であれ
ば「人Ａでない」と認識される。

【０２７１】ＣＣＤカメラ５０からの画像信号Ｓ１Ａに
基づく画像から顔の部分として切り取られる領域は一定
ではない。このため特徴空間で認識したいカテゴリとは
離れた点に投影される可能性がある。従って、目や鼻、
口といった特徴をもつパーツに推定してアフィン変換に
よりモーフィングすることにより認識率が向上する可能
性がある。

【０２７２】また認識性能を上げるために、ブートスト
ラップ手法を採用することができる。学習に用いる画像
とは別に画像を撮影して、ブートストラップに用いる。
これは、学習した識別器が誤った認識結果を出したとき
に、その入力画像を学習セットに投入して学習し直すこ
とを意味する。

【０２７３】また認識性能を上げるために、認識結果の
時間変化を見る方法もある。最も簡単な方法では、１０
回中８回「人Ａ」と認識されたら「人Ａ」と認識するなどで
ある。他に、カルマン・フィルタを用いた予測法なども
提案されている。

【０２７４】（５）本実施の形態の動作及び効果以上の構成において、このロボット１では、新規な人と
の対話を通してその人の名前を取得し、当該名前を、マ
イクロホン５１やＣＣＤカメラ５０の出力に基づいて検
出したその人の声の音響的特徴及び顔の形態的特徴の各
データと関連付けて記憶すると共に、これら記憶した各
種データに基づいて、名前を取得していないさらに新規
な人の登場を認識し、その新規な人の名前や声の音響的
特徴及び顔の形態的特徴を上述と同様にして取得し記憶
するようにして、人の名前を学習する。

【０２７５】従って、このロボット１は、音声コマンド
の入力やタッチセンサの押圧操作等のユーザからの明示
的な指示による名前登録を必要とすることなく、人間が
普段行うように、通常の人との対話を通して新規な人物
や物体等の名前を自然に学習することができる。

【０２７６】以上の構成によれば、新規な人との対話を
通してその人の名前を取得し、当該名前を、マイクロホ
ン５１やＣＣＤカメラ５０の出力に基づいて検出したそ
の人の声の音響的特徴及び顔の形態的特徴の各データと
関連付けて記憶すると共に、これら記憶した各データに
基づいて、名前を取得していないさらに新規な人の登場
を認識し、その新規な人の名前や声の音響的特徴及び顔
の形態的特徴を上述と同様にして取得し記憶するように
して、人の名前を学習するようにしたことにより、通常
の人との対話を通して新規な人物や物体等の名前を自然
に学習し得るようにすることができ、かくしてエンター
テインメント性を格段的に向上させ得るロボットを実現
できる。

【０２７７】（６）他の実施の形態なお上述の実施の形態においては、本発明を図１のよう
に構成された２足歩行型のロボット１に適用するように
した場合について述べたが、本発明はこれに限らず、こ
の他種々のロボット装置及びロボット装置以外のこの他
種々の装置に広く適用することができる。

【０２７８】また上述の実施の形態においては、人間と
対話するための機能を有し、当該対話を通して対象とす
る物体の名前を人間から取得する対話手段を、音声認識
部６０、対話制御部６３及び音声合成部６４から構成す
ることにより、人との音声対話により人の名前を取得す
るようにした場合について述べたが、本発明はこれに限
らず、例えばキーボード入力等による文字対話により人
の名前を取得するように対話手段を構成するようにして
も良い。

【０２７９】さらに上述の実施の形態においては、名前
学習の対象が人物である場合について述べたが、本発明
はこれに限らず、人物に代えて又は人物に加えて以外の
この他種々の物体を名前学習の対象とするようにしても
良い。

【０２８０】この場合において、上述の実施の形態にお
いては、対象となる人物の声の音響的特徴及び顔の形態
的特徴からその人物をそれぞれ認識し、これらの認識結
果に基づいてその人物が新規な人物であるか否かを判別
するようにした場合について述べたが、本発明はこれに
限らず、これに代えて又はこれに加えて、これら以外の
例えば体型やにおい等の生物学的に個体を識別可能な複
数種類の各種特徴からその人物をそれぞれ認識し、これ
らの認識結果に基づいてその人物が新規な人であるか否
かを判別するようにしても良い。また名前学習対象が人
物以外の物体である場合には、色や形状、模様、大きさ
等の物体を識別可能な複数種類の特徴からそれぞれその
物体を認識し、これらの認識結果に基づいてその物体が
新規な物体であるか否かを判別するようにしても良い。
そしてこれらの場合には、それぞれ物体の異なる所定の
特徴を検出すると共に、当該検出結果及び予め記憶して
いる既知の物体の対応する特徴のデータに基づいて、当
該対象とする物体を認識する複数の認識手段を設けるよ
うにすれば良い。

【０２８１】さらに上述の実施の形態においては、既知
の物体の名前及び当該物体に対する各認識手段（話者認
識部６１及び顔認識部６２）の認識結果を関連付けた関
連付け情報を記憶する記憶手段をメモリにより構成する
ようにした場合について述べたが、本発明はこれに限ら
ず、情報を記憶できるメモリ以外の例えばディスク状記
録媒体等のこの他種々の記憶手段を広く適用することが
できる。

【０２８２】さらに上述の実施の形態においては、話者
認識部６１及び顔認識部６２が対象とする人を認識する
認識処理を１度しか行わないようにした場合について述
べたが、本発明はこれに限らず、例えば認識不能（ＳＩ
Ｄ＝−１）であった場合にはもう１度認識処理を行うよ
うにするようにしても良く、これ以外のときであっても
複数回の認識処理を行うようにしても良い。このように
することによって認識結果の精度を向上させることがで
きる。

【０２８３】さらに上述の実施の形態においては、対話
制御部６３が複数の認識手段（音声認識部６０、話者認
識部６１、顔認識部６２）の認識結果の多数決により、
その人が新規な人であるか否かを判断するようにした場
合について述べたが、本発明はこれに限らず、多数決以
外の手法によりこれら複数の認識手段の各認識結果に基
づいてその人が新規な人であるか否かを判断するように
しても良い。

【０２８４】この場合において、例えば複数の認識手段
の各認識結果に、その認識手段の認識性能に応じて重み
付けをして、その重み付けした各認識結果に基づいて対
象とする物体が新規なものであるか否かを判断する方法
や、最も認識性能の高い認識手段と他の１つの認識手段
の認識結果に基づき新規な人と判断できた場合には、他
の認識手段の認識結果を利用しない方法等など種々の方
法を広く適用することができる。

【０２８５】さらに上述の実施の形態においては、話者
認識部６１や顔認識部６２が対象とする人を正しく認識
できた場合にその話者認識部６１及び又は顔認識部６２
に追加学習させることにより、統計的な安定によって認
識精度を向上させるようにした場合について述べたが、
本発明はこれに限らず、メモリ６５に格納される関連付
け情報についても、同様に、何度も同じ組み合わせを覚
えることによってその関連付け情報の信頼性を向上させ
得るような機能を設けるようにしても良い。具体的に
は、このような機能の具現化方法として、例えば『電子
情報通信学会論文誌,D-II,Vol.J82-D-II,No6,pp.1072-1
081.』に記載されたニューラルネットを用いた方法を利
用することができる。

【０２８６】

【発明の効果】以上のように本発明によれば、学習装置
において、対話を通して対象とする物体の名前を取得す
る対話手段と、対象とする物体の複数の特徴のデータを
検出し、当該検出結果及び既知の物体の対応する特徴の
データに基づいて、対象とする物体を認識する複数の認
識手段と、既知の物体の名前に対する各認識手段の認識
結果を関連付けた関連付け情報を記憶する記憶手段と、
対話手段が取得した対象とする物体の名前、対象とする
物体に対する各認識手段の認識結果、及び記憶手段が記
憶する関連付け情報に基づいて、対象とする物体が新規
な物体であるか否かを判断する判断手段と、判断手段が
対象とする物体を新規な物体と判断したときに、当該対
象とする物体に対応する複数の特徴のデータを各認識手
段に記憶させると共に、当該対象とする物体についての
関連付け情報を記憶手段に記憶させる制御手段とを設け
るようにしたことにより、人間が普段行うように、通常
の人との対話を通して新規な人物や物体等の名前を自然
に学習することができ、かくしてエンターテイメント性
を格段的に向上させ得る学習装置を実現できる。

【０２８７】また本発明によれば、学習方法において、
対話を通して対象とする物体の名前を取得する対話ステ
ップと、対象とする物体の複数の特徴のデータを検出
し、当該検出結果及び既知の物体の対応する特徴のデー
タに基づいて、対象とする物体を認識する複数の認識ス
テップと、既知の物体の名前に対する各認識手段の認識
結果を関連付けた関連付け情報を記憶する記憶ステップ
と、対話手段が取得した対象とする物体の名前、対象と
する物体に対する各認識手段の認識結果、及び記憶手段
が記憶する関連付け情報に基づいて、対象とする物体が
新規な物体であるか否かを判断する判断ステップと、判
断手段が対象とする物体を新規な物体と判断したとき
に、当該対象とする物体に対応する複数の特徴のデータ
を各認識手段に記憶させると共に、当該対象とする物体
についての関連付け情報を記憶手段に記憶させる制御ス
テップとを設けるようにしたことにより、人間が普段行
うように、通常の人との対話を通して新規な人物や物体
等の名前を自然に学習することができ、かくしてエンタ
ーテイメント性を格段的に向上させ得る学習方法を実現
できる。

【０２８８】さらに本発明によれば、ロボット装置にお
いて、対話を通して対象とする物体の名前を取得する対
話手段と、対象とする物体の複数の特徴のデータを検出
し、当該検出結果及び既知の物体の対応する特徴のデー
タに基づいて、対象とする物体を認識する複数の認識手
段と、既知の物体の名前に対する各認識手段の認識結果
を関連付けた関連付け情報を記憶する記憶手段と、対話
手段が取得した対象とする物体の名前、対象とする物体
に対する各認識手段の認識結果、及び記憶手段が記憶す
る関連付け情報に基づいて、対象とする物体が新規な物
体であるか否かを判断する判断手段と、判断手段が対象
とする物体を新規な物体と判断したときに、当該対象と
する物体に対応する複数の特徴のデータを各認識手段に
記憶させると共に、当該対象とする物体についての関連
付け情報を記憶手段に記憶させる制御手段とを設けるよ
うにしたことにより、人間が普段行うように、通常の人
との対話を通して新規な人物や物体等の名前を自然に学
習することができ、かくしてエンターテイメント性を格
段的に向上させ得るロボット装置を実現できる。

【０２８９】

【図面の簡単な説明】

【図１】本実施の形態によるロボットの外観構成を示す
斜視図である。

【図２】本実施の形態によるロボットの外観構成を示す
斜視図である。

【図３】本実施の形態によるロボットの外観構成の説明
に供する略線図である。

【図４】本実施の形態によるロボットの内部構成の説明
に供する略線図である。

【図５】本実施の形態によるロボットの内部構成の説明
に供する略線図である。

【図６】名前学習機能に関するメイン制御部４０の処理
の説明に供するブロック図である。

【図７】メモリにおけるＦＩＤ及びＳＩＤと名前との関
連付けの説明に供する概念図である。

【図８】名前学習処理手順を示すフローチャートであ
る。

【図９】名前学習処理手順を示すフローチャートであ
る。

【図１０】名前学習処理時における対話例を示す略線図
である。

【図１１】名前学習処理時における対話例を示す略線図
である。

【図１２】ＦＩＤ及びＳＩＤと名前との新規登録の説明
に供する概念図である。

【図１３】名前学習時における対話例を示す略線図であ
る。

【図１４】名前学習処理時における対話例を示す略線図
である。

【図１５】音声認識部の構成を示すブロック図である。

【図１６】単語辞書の説明に供する概念図である。

【図１７】文法規則の説明に供する概念図である。

【図１８】特徴ベクトルバッファの記憶内容の説明に供
する概念図である。

【図１９】スコアシートの説明に供する概念図である。

【図２０】音声認識処理手順を示すフローチャートであ
る。

【図２１】未登録語処理手順を示すフローチャートであ
る。

【図２２】クラスタ分割処理手順を示すフローチャート
である。

【図２３】シミュレーション結果を示す概念図である。

【図２４】学習時における顔認識部の構成を示すブロッ
ク図である。

【図２５】認識時における顔認識部の構成を示すブロッ
ク図である。

【符号の説明】

１……ロボット、４０……メイン制御部、５０……ＣＣ
Ｄカメラ、５１……マイクロホン、５４……スピーカ、
６０……音声認識部、６１……話者認識部、６２……顔
認識部、６３……対話制御部、６４……音声合成部、６
５……メモリ、Ｓ１Ａ……画像信号、Ｓ１Ｂ、Ｓ３……
音声信号、Ｄ１、Ｄ２……文字列データ、ＲＴ１……名
前学習処理手順。

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 15/06 Ｇ１０Ｌ 3/00 ５４５Ｆ 17/00 ５５１ＨＲ (72)発明者浅野康治東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者大久保厚志東京都品川区北品川６丁目７番35号ソニー株式会社内 (56)参考文献特開2001−300148（ＪＰ，Ａ) 特開平７−287695（ＪＰ，Ａ) 特開2001−228891（ＪＰ，Ａ) 特開2002−49424（ＪＰ，Ａ) 特開2002−202795（ＪＰ，Ａ) 特開2003−22131（ＪＰ，Ａ) 特開2003−186494（ＪＰ，Ａ) 特開2003−44080（ＪＰ，Ａ) 特開2002−219677（ＪＰ，Ａ) ＤｅｂＲｏｙ，Ｉｎｔｅｇｒａｔｉｏｎｏｆｓｐｅｅｃｈａｎｄｖｉｓｉｏｎｕｓｉｎｇｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ 2000 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，米国，2000年６月５日，Ｖｏｌ．４，Ｐａｇｅｓ 2369−2372 金，岩橋，知覚情報の統合に基づく言語音声単位の獲得アルゴリズム，電子情報通信学会技術研究報告［思考と言語］，日本，2000年10月13日，ＴＬ2000− 21，Ｐａｇｅｓ９−16 下村，青山，藤田，自立型エンタテイメントロボットと音声対話，人工知能学会第36回言語・音声理解と対話処理研究会資料，日本，2002年11月７日, Ｐａｇｅｓ 21−26 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28 A63H 11/00 B25J 5/00 ＪＩＣＳＴファイル（ＪＯＩＳ) ＩＥＥＥＸｐｌｏｒｅ

Claims

(57)【特許請求の範囲】

【請求項１】対話を通して対象とする物体の名前を取得
する対話手段と、上記対象とする物体の複数の特徴のデータを検出し、当
該検出結果及び既知の物体の対応する特徴のデータに基
づいて、上記対象とする物体を認識する複数の認識手段
と、上記既知の物体の名前に対する各上記認識手段の認識結
果を関連付けた関連付け情報を記憶する記憶手段と、上記対話手段が取得した上記対象とする物体の名前、上
記対象とする物体に対する各上記認識手段の認識結果、
及び上記記憶手段が記憶する上記関連付け情報に基づい
て、上記対象とする物体が新規な物体であるか否かを判
断する判断手段と、上記判断手段が上記対象とする物体を新規な物体と判断
したときに、当該対象とする物体に対応する上記複数の
特徴のデータを各上記認識手段に記憶させると共に、当
該対象とする物体についての関連付け情報を上記記憶手
段に記憶させる制御手段とを具えることを特徴とする学
習装置。
【請求項２】上記制御手段は、上記判断手段が上記対象とする物体を上記既知の物体で
あると判断したときに、当該対象とする物体を正しく認
識できた上記認識手段を、追加学習するよう制御するこ
とを特徴とする請求項１に記載の学習装置。
【請求項３】上記制御手段は、上記判断手段が上記対象とする物体を上記既知の物体で
あると判断したときに、当該対象とする物体を正しく認
識できなかった上記認識手段を、訂正学習するよう制御
することを特徴とする請求項１に記載の学習装置。
【請求項４】上記判断手段は、上記記憶手段が記憶する上記関連付け情報を参照しなが
ら、上記対話手段が取得した上記対象とする物体の名前
及び当該物体に対する各上記認識手段の認識結果の多数
決により、上記対象とする物体が新規な物体であるか否
かを判断することを特徴とする請求項１に記載の学習装
置。
【請求項５】上記制御手段は、必要に応じて対話を引き伸ばすように上記対話手段を制
御することを特徴とする請求項１に記載の学習装置。
【請求項６】対話を通して対象とする物体の名前を取得
する対話ステップと、上記対象とする物体の複数の特徴のデータを検出し、当
該検出結果及び既知の物体の対応する特徴のデータに基
づいて、上記対象とする物体を認識する複数の認識ステ
ップと、上記既知の物体の名前に対する各上記認識手段の認識結
果を関連付けた関連付け情報を記憶する記憶ステップ
と、上記対話手段が取得した上記対象とする物体の名前、上
記対象とする物体に対する各上記認識手段の認識結果、
及び上記記憶手段が記憶する上記関連付け情報に基づい
て、上記対象とする物体が新規な物体であるか否かを判
断する判断ステップと、上記判断手段が上記対象とする物体を新規な物体と判断
したときに、当該対象とする物体に対応する上記複数の
特徴のデータを各上記認識手段に記憶させると共に、当
該対象とする物体についての関連付け情報を上記記憶手
段に記憶させる制御ステップとを具えることを特徴とす
る学習方法。
【請求項７】上記制御ステップでは、上記対象とする物体を上記既知の物体であると判断した
ときに、当該対象とする物体を正しく認識できた上記特
徴について、追加学習することを特徴とする請求項６に
記載の学習方法。
【請求項８】上記制御ステップでは、上記対象とする物体を上記既知の物体であると判断した
ときに、当該対象とする物体を正しく認識できなかった
上記特徴について、訂正学習することを特徴とする請求
項６に記載の学習方法。
【請求項９】上記判断ステップでは、上記関連付け情報を参照しながら、取得した上記対象と
する物体の名前及び当該物体の各上記特徴にそれぞれ基
づく各認識結果の多数決により、上記対象とする物体が
新規な物体であるか否かを判断することを特徴とする請
求項６に記載の学習方法。
【請求項１０】上記対話ステップでは、必要に応じて当該対話を引き伸ばすことを特徴とする請
求項６に記載の学習方法。
【請求項１１】対話を通して対象とする物体の名前を取
得する対話手段と、上記対象とする物体の複数の特徴のデータを検出し、当
該検出結果及び既知の物体の対応する特徴のデータに基
づいて、上記対象とする物体を認識する複数の認識手段
と、上記既知の物体の名前に対する各上記認識手段の認識結
果を関連付けた関連付け情報を記憶する記憶手段と、上記対話手段が取得した上記対象とする物体の名前、上
記対象とする物体に対する各上記認識手段の認識結果、
及び上記記憶手段が記憶する上記関連付け情報に基づい
て、上記対象とする物体が新規な物体であるか否かを判
断する判断手段と、上記判断手段が上記対象とする物体を新規な物体と判断
したときに、当該対象とする物体に対応する上記複数の
特徴のデータを各上記認識手段に記憶させると共に、当
該対象とする物体についての関連付け情報を上記記憶手
段に記憶させる制御手段とを具えることを特徴とするロ
ボット装置。
【請求項１２】上記制御手段は、上記判断手段が上記対象とする物体を上記既知の物体で
あると判断したときに、当該対象とする物体を正しく認
識できた上記認識手段を、追加学習するよう制御するこ
とを特徴とする請求項１１に記載のロボット装置。
【請求項１３】上記制御手段は、上記判断手段が上記対象とする物体を上記既知の物体で
あると判断したときに、当該対象とする物体を正しく認
識できなかった上記認識手段を、訂正学習するよう制御
することを特徴とする請求項１１に記載のロボット装
置。
【請求項１４】上記判断手段は、上記記憶手段が記憶する上記関連付け情報を参照しなが
ら、上記対話手段が取得した上記対象とする物体の名前
及び当該物体に対する各上記認識手段の認識結果の多数
決により、上記対象とする物体が上記新規な物体である
か否かを判断することを特徴とする請求項１１に記載の
ロボット装置。
【請求項１５】上記制御手段は、必要に応じて対話を引き伸ばすように上記対話手段を制
御することを特徴とする請求項１１に記載のロボット装
置。