JP3529049B2 - 学習装置及び学習方法並びにロボット装置 - Google Patents

学習装置及び学習方法並びにロボット装置

Info

Publication number
JP3529049B2
JP3529049B2 JP2002060425A JP2002060425A JP3529049B2 JP 3529049 B2 JP3529049 B2 JP 3529049B2 JP 2002060425 A JP2002060425 A JP 2002060425A JP 2002060425 A JP2002060425 A JP 2002060425A JP 3529049 B2 JP3529049 B2 JP 3529049B2
Authority
JP
Japan
Prior art keywords
target object
recognition
unit
name
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002060425A
Other languages
English (en)
Other versions
JP2003255989A (ja
JP2003255989A5 (ja
Inventor
秀樹 下村
一美 青山
敬一 山田
康治 浅野
厚志 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2002060425A priority Critical patent/JP3529049B2/ja
Application filed by Sony Corp filed Critical Sony Corp
Priority to EP03710242A priority patent/EP1482480B1/en
Priority to KR1020037014405A priority patent/KR100988708B1/ko
Priority to CNB038002256A priority patent/CN1241168C/zh
Priority to DE60318990T priority patent/DE60318990T2/de
Priority to PCT/JP2003/002560 priority patent/WO2003075261A1/ja
Priority to US10/476,662 priority patent/US7720775B2/en
Publication of JP2003255989A publication Critical patent/JP2003255989A/ja
Application granted granted Critical
Publication of JP3529049B2 publication Critical patent/JP3529049B2/ja
Publication of JP2003255989A5 publication Critical patent/JP2003255989A5/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は学習装置及び学習方
法並びにロボット装置に関し、例えばエンターテインメ
ントロボットに適用して好適なものである。
【0002】
【従来の技術】近年、一般家庭向けのエンターテインメ
ントロボットが数多く商品化されている。そしてこのよ
うなエンターテインメントロボットの中には、CCD
(ChargeCoupled Device)カメラやマイクロホン等の各
種外部センサが搭載され、これら外部センサの出力に基
づいて外部状況を認識し、認識結果に基づいて自律的に
行動し得るようになされたものなどもある。
【0003】
【発明が解決しようとする課題】ところで、かかるエン
ターテインメントロボットにおいて、新規な物体(人物
も含む。以下、同じ。)の名前をその物体と対応付けて
覚えられるようにすることができれば、ユーザとのコミ
ュニケーションをより円滑にすることができ、またユー
ザからの「ボールを蹴って」といった、予め名前が登録
された物体以外の物体を対象とする種々の命令にも柔軟
に対応し得るようにすることができるものと考えられ
る。なお、以下においては、上述のように物体の名前を
その物体と対応付けて覚えることを『名前を学習する』
と表現し、そのような機能を『名前学習機能』と呼ぶも
のとする。
【0004】またこのような名前学習機能をエンターテ
インメントロボットに搭載するに際して、人間が普段行
うように、エンターテインメントロボットが通常の人と
の対話を通して新規な物体の名前を学習できるようにす
ることができれば、その自然性から考えて最も望まし
く、エンターテインメントロボットとしてのエンターテ
インメント性をより一層向上させ得るものと考えられ
る。
【0005】ところが、従来技術では、名前を学習すべ
き新規の物体がいつ目の前に現れているのかをエンター
テインメントロボットに判断させることが難しい問題が
ある。
【0006】このため従来では、ユーザが明示的な音声
コマンドを与え又はロボットに配設された特定のタッチ
センサを押圧操作するなどして動作モードを登録モード
に変更してから、物体の認識及びその名前の登録を行う
といった手法が多く用いられている。しかしながら、ユ
ーザとエンターテインメントロボットとの自然なインタ
ラクションを考えるとき、このような明示的な指示によ
る名前登録はいかにも不自然である問題があった。
【0007】本発明は以上の点を考慮してなされたもの
で、エンターテイメント性を格段的に向上させ得る学習
装置及び学習方法並びにロボット装置を提案しようとす
るものである。
【0008】
【課題を解決するための手段】かかる課題を解決するた
め本発明においては、学習装置において、対話を通して
対象とする物体の名前を取得する対話手段と、対象とす
る物体の複数の特徴のデータを検出し、当該検出結果及
び既知の物体の対応する特徴のデータに基づいて、対象
とする物体を認識する複数の認識手段と、既知の物体の
名前に対する各認識手段の認識結果を関連付けた関連付
け情報を記憶する記憶手段と、対話手段が取得した対象
とする物体の名前、対象とする物体に対する各認識手段
の認識結果、及び記憶手段が記憶する関連付け情報に基
づいて、対象とする物体が新規な物体であるか否かを判
断する判断手段と、判断手段が対象とする物体を新規な
物体と判断したときに、当該対象とする物体に対応する
複数の特徴のデータを各認識手段に記憶させると共に、
当該対象とする物体についての関連付け情報を記憶手段
に記憶させる制御手段とを設けるようにした。
【0009】この結果この学習装置は、音声コマンドの
入力やタッチセンサの押圧操作等のユーザからの明示的
な指示による名前登録を必要とすることなく、人間が普
段行うように、通常の人との対話を通して新規な人物や
物体等の名前を自然に学習することができる。
【0010】また本発明においては、学習方法におい
て、対話を通して対象とする物体の名前を取得する対話
ステップと、対象とする物体の複数の特徴のデータを検
出し、当該検出結果及び既知の物体の対応する特徴のデ
ータに基づいて、対象とする物体を認識する複数の認識
ステップと、既知の物体の名前に対する各認識手段の認
識結果を関連付けた関連付け情報を記憶する記憶ステッ
プと、対話手段が取得した対象とする物体の名前、対象
とする物体に対する各認識手段の認識結果、及び記憶手
段が記憶する関連付け情報に基づいて、対象とする物体
が新規な物体であるか否かを判断する判断ステップと、
判断手段が対象とする物体を新規な物体と判断したとき
に、当該対象とする物体に対応する複数の特徴のデータ
を各認識手段に記憶させると共に、当該対象とする物体
についての関連付け情報を記憶手段に記憶させる制御ス
テップとを設けるようにした。
【0011】この結果、この学習方法によれば、音声コ
マンドの入力やタッチセンサの押圧操作等のユーザから
の明示的な指示による名前登録を必要とすることなく、
人間が普段行うように、通常の人との対話を通して新規
な人物や物体等の名前を自然に学習することができる。
【0012】さらに本発明においては、ロボット装置に
おいて、対話を通して対象とする物体の名前を取得する
対話手段と、対象とする物体の複数の特徴のデータを検
出し、当該検出結果及び既知の物体の対応する特徴のデ
ータに基づいて、対象とする物体を認識する複数の認識
手段と、既知の物体の名前に対する各認識手段の認識結
果を関連付けた関連付け情報を記憶する記憶手段と、対
話手段が取得した対象とする物体の名前、対象とする物
体に対する各認識手段の認識結果、及び記憶手段が記憶
する関連付け情報に基づいて、対象とする物体が新規な
物体であるか否かを判断する判断手段と、判断手段が対
象とする物体を新規な物体と判断したときに、当該対象
とする物体に対応する複数の特徴のデータを各認識手段
に記憶させると共に、当該対象とする物体についての関
連付け情報を記憶手段に記憶させる制御手段とを設ける
ようにした。
【0013】この結果、このロボット装置は、音声コマ
ンドの入力やタッチセンサの押圧操作等のユーザからの
明示的な指示による名前登録を必要とすることなく、人
間が普段行うように、通常の人との対話を通して新規な
人物や物体等の名前を自然に学習することができる。
【0014】
【発明の実施の形態】以下図面について、本発明の一実
施の形態を詳述する。
【0015】(1)本実施の形態によるロボットの構成 図1及び図2において、1は全体として本実施の形態に
よる2足歩行型のロボットを示し、胴体部ユニット2の
上部に頭部ユニット3が配設されると共に、当該胴体部
ユニット2の上部左右にそれぞれ同じ構成の腕部ユニッ
ト4A、4Bがそれぞれ配設され、かつ胴体部ユニット
2の下部左右にそれぞれ同じ構成の脚部ユニット5A、
5Bがそれぞれ所定位置に取り付けられることにより構
成されている。
【0016】胴体部ユニット2においては、体幹上部を
形成するフレーム10及び体幹下部を形成する腰ベース
11が腰関節機構12を介して連結することにより構成
されており、体幹下部の腰ベース11に固定された腰関
節機構12の各アクチュエータA、Aをそれぞれ駆
動することによって、体幹上部を図3に示す直交するロ
ール軸13及びピッチ軸14の回りにそれぞれ独立に回
転させることができるようになされている。
【0017】また頭部ユニット3は、フレーム10の上
端に固定された肩ベース15の上面中央部に首関節機構
16を介して取り付けられており、当該首関節機構16
の各アクチュエータA、Aをそれぞれ駆動すること
によって、図3に示す直交するピッチ軸17及びヨー軸
18の回りにそれぞれ独立に回転させることができるよ
うになされている。
【0018】さらに各腕部ユニット4A、4Bは、それ
ぞれ肩関節機構19を介して肩ベース15の左右に取り
付けられており、対応する肩関節機構19の各アクチュ
エータA、Aをそれぞれ駆動することによって図3
に示す直交するピッチ軸20及びロール軸21の回りに
それぞれ独立に回転させることができるようになされて
いる。
【0019】この場合、各腕部ユニット4A、4Bは、
それぞれ上腕部を形成するアクチュエータAの出力軸
に肘関節機構22を介して前腕部を形成するアクチュエ
ータAが連結され、当該前腕部の先端に手部23が取
り付けられることにより構成されている。
【0020】そして各腕部ユニット4A、4Bでは、ア
クチュエータAを駆動することによって前腕部を図3
に示すヨー軸24の回りに回転させ、アクチュエータA
を駆動することによって前腕部を図3に示すピッチ軸
25の回りにそれぞれ回転させることができるようにな
されている。
【0021】これに対して各脚部ユニット5A、5Bに
おいては、それぞれ股関節機構26を介して体幹下部の
腰ベース11にそれぞれ取り付けられており、それぞれ
対応する股関節機構26の各アクチュエータをA〜A
11それぞれ駆動することによって、図3に示す互いに
直交するヨー軸27、ロール軸28及びピッチ軸29の
回りにそれぞれ独立に回転させることができるようにな
されている。
【0022】この場合各脚部ユニット5A、5Bは、そ
れぞれ大腿部を形成するフレーム30の下端に膝関節機
構31を介して下腿部を形成するフレーム32が連結さ
れると共に、当該フレーム32の下端に足首関節機構3
3を介して足部34が連結されることにより構成されて
いる。
【0023】これにより各脚部ユニット5A、5Bにお
いては、膝関節機構31を形成するアクチュエータA
12を駆動することによって、下腿部を図3に示すピッ
チ軸35の回りに回転させることができ、また足首関節
機構33のアクチュエータA 、A14をそれぞれ駆
動することによって、足部34を図3に示す直交するピ
ッチ軸36及びロール軸37の回りにそれぞれ独立に回
転させることができるようになされている。
【0024】一方、胴体部ユニット2の体幹下部を形成
する腰ベース11の背面側には、図4に示すように、当
該ロボット1全体の動作制御を司るメイン制御部40
と、電源回路及び通信回路などの周辺回路41と、バッ
テリ45(図5)となどがボックスに収納されてなる制
御ユニット42が配設されている。
【0025】そしてこの制御ユニット42は、各構成ユ
ニット(胴体部ユニット2、頭部ユニット3、各腕部ユ
ニット4A、4B及び各脚部ユニット5A、5B)内に
それぞれ配設された各サブ制御部43A〜43Dと接続
されており、これらサブ制御部43A〜43Dに対して
必要な電源電圧を供給したり、これらサブ制御部43A
〜43Dと通信を行ったりすることができるようになさ
れている。
【0026】また各サブ制御部43A〜43Dは、それ
ぞれ対応する構成ユニット内の各アクチュエータA
14と接続されており、当該構成ユニット内の各アク
チュエータA〜A14をメイン制御部40から与えら
れる各種制御コマンドに基づいて指定された状態に駆動
し得るようになされている。
【0027】さらに頭部ユニット3には、図5に示すよ
うに、このロボット1の「目」として機能するCCD
(Charge Coupled Device )カメラ50及び「耳」とし
て機能するマイクロホン51及びタッチセンサ52など
からなる外部センサ部53と、「口」として機能するス
ピーカ54となどがそれぞれ所定位置に配設され、制御
ユニット42内には、バッテリセンサ55及び加速度セ
ンサ56などからなる内部センサ部57が配設されてい
る。
【0028】そして外部センサ部53のCCDカメラ5
0は、周囲の状況を撮像し、得られた画像信号S1Aを
メイン制御部に送出する一方、マイクロホン51は、ユ
ーザから音声入力として与えられる「歩け」、「伏せ」
又は「ボールを追いかけろ」等の各種命令音声を集音
し、かくして得られた音声信号S1Bをメイン制御部4
0に送出するようになされている。
【0029】またタッチセンサ52は、図1及び図2に
おいて明らかなように頭部ユニット3の上部に設けられ
ており、ユーザからの「撫でる」や「叩く」といった物
理的な働きかけにより受けた圧力を検出し、検出結果を
圧力検出信号S1Cとしてメイン制御部40に送出す
る。
【0030】さらに内部センサ部57のバッテリセンサ
55は、バッテリ45のエネルギ残量を所定周期で検出
し、検出結果をバッテリ残量検出信号S2Aとしてメイ
ン制御部40に送出する一方、加速度センサ56は、3
軸方向(x軸、y軸及びz軸)の加速度を所定周期で検
出し、検出結果を加速度検出信号S2Bとしてメイン制
御部40に送出する。
【0031】メイン制御部部40は、外部センサ部53
のCCDカメラ50、マイクロホン51及びタッチセン
サ52等からそれぞれ供給される画像信号S1A、音声
信号S1B及び圧力検出信号S1C等(以下、これらを
まとめて外部センサ信号S1と呼ぶ)と、内部センサ部
57のバッテリセンサ55及び加速度センサ等からそれ
ぞれ供給されるバッテリ残量検出信号S2A及び加速度
検出信号S2B等(以下、これらをまとめて内部センサ
信号S2と呼ぶ)に基づいて、ロボット1の周囲及び内
部の状況や、ユーザからの指令、ユーザからの働きかけ
の有無などを判断する。
【0032】そしてメイン制御部40は、この判断結果
と、予め内部メモリ40Aに格納されている制御プログ
ラムと、そのとき装填されている外部メモリ58に格納
されている各種制御パラメータとに基づいて続く行動を
決定し、決定結果に基づく制御コマンドを対応するサブ
制御部43A〜43Dに送出する。この結果、この制御
コマンドに基づき、そのサブ制御部43A〜43Dの制
御のもとに、対応するアクチュエータA〜A14が駆
動され、かくして頭部ユニット3を上下左右に揺動させ
たり、腕部ユニット4A、4Bを上にあげたり、歩行す
るなどの行動がロボット1により発現されることとな
る。
【0033】またこの際メイン制御部40は、必要に応
じて所定の音声信号S3をスピーカ54に与えることに
より当該音声信号S3に基づく音声を外部に出力させた
り、外見上の「目」として機能する頭部ユニット3の所
定位置に設けられたLEDに駆動信号を出力することに
よりこれを点滅させる。
【0034】このようにしてこのロボット1において
は、周囲及び内部の状況や、ユーザからの指令及び働き
かけの有無などに基づいて自律的に行動することができ
るようになされている。
【0035】(2)名前学習機能に関するメイン制御部
40の処理 次にこのロボット1に搭載された名前学習機能について
説明する。
【0036】このロボット1には、人との対話を通して
その人の名前を取得し、当該名前を、マイクロホン51
やCCDカメラ50の出力に基づいて検出したその人の
声の音響的特徴及び顔の形態的特徴の各データと関連付
けて記憶すると共に、これら記憶した各データに基づい
て、名前を取得していない新規な人の登場を認識し、そ
の新規な人の名前や声の音響的特徴及び顔の形態的特徴
を上述と同様にして取得し記憶するようにして、人の名
前をその人と対応付けて取得(以下、これを名前の学習
と呼ぶ)学習していく名前学習機能が搭載されている。
なお以下においては、その人の声の音響的特徴及び顔の
形態的特徴と対応付けて名前を記憶し終えた人を『既知
の人』と呼び、記憶し終えていない人を『新規な人』と
呼ぶものとする。
【0037】そしてこの名前学習機能は、メイン制御部
40における各種処理により実現されている。
【0038】ここで、かかる名前学習機能に関するメイ
ン制御部40の処理内容を機能的に分類すると、図6に
示すように、人が発声した言葉を認識する音声認識部6
0と、人の声の音響的特徴を検出すると共に当該検出し
た音響的特徴に基づいてその人を識別して認識する話者
認識部61と、人の顔の形態的特徴を検出すると共に当
該検出した形態的特徴に基づいてその人を識別して認識
する顔認識部62と、人との対話制御を含む新規な人の
名前学習のための各種制御や、既知の人の名前、声の音
響的特徴及び顔の形態的特徴の記憶管理を司る対話制御
部63と、対話制御部63の制御のもとに各種対話用の
音声信号S3を生成してスピーカ54(図5)に送出す
る音声合成部64とに分けることができる。
【0039】この場合、音声認識部60においては、マ
イクロホン51(図5)からの音声信号S1Bに基づき
所定の音声認識処理を実行することにより当該音声信号
S1Bに含まれる言葉を単語単位で認識する機能を有す
るものであり、認識したこれら単語を文字列データD1
として対話制御部63に送出するようになされている。
【0040】また話者認識部61は、マイクロホン51
から与えられる音声信号S1Bに含まれる人の声の音響
的特徴を、例えば“Segregation of Speakers for Reco
gnition and Speaker Identification(CH2977-7/91/00
00~0873 S1.00 1991 IEEE)”に記載された方法等を利
用した所定の信号処理により検出する機能を有してい
る。
【0041】そして話者認識部61は、通常時には、こ
の検出した音響的特徴のデータをそのとき記憶している
全ての既知の人の音響的特徴のデータと順次比較し、そ
のとき検出した音響的特徴がいずれか既知の人の音響的
特徴と一致した場合には当該既知の人の音響的特徴と対
応付けられた当該音響的特徴に固有の識別子(以下、こ
れをSIDと呼ぶ)を対話制御部63に通知する一方、
検出した音響的特徴がいずれの既知の人の音響的特徴と
も一致しなかった場合には、認識不能を意味するSID
(=−1)を対話制御部63に通知するようになされて
いる。
【0042】また話者認識部61は、対話制御部63が
新規な人であると判断したときに当該対話制御部63か
ら与えられる新規学習の開始命令及び学習終了命令に基
づいて、その間その人の声の音響的特徴を検出し、当該
検出した音響的特徴のデータを新たな固有のSIDと対
応付けて記憶すると共に、このSIDを対話制御部63
に通知するようになされている。
【0043】なお話者認識部61は、対話制御部63か
らの追加学習や訂正学習の開始命令及び終了命令に応じ
て、その人の声の音響的特徴のデータを追加的に収集す
る追加学習や、その人の声の音響的特徴のデータをその
人を正しく認識できるよう訂正する訂正学習をも行い得
るようになされている。
【0044】顔認識部62においては、CCDカメラ5
0(図5)から与えられる画像信号S1Aを常時監視
し、当該画像信号S1Aに基づく画像内に含まれる人の
顔の形態的特徴を所定の信号処理により検出する機能を
有している。
【0045】そして顔認識部62は、通常時には、この
検出した形態的特徴のデータをそのとき記憶している全
ての既知の人の顔の形態的特徴のデータと順次比較し、
そのとき検出した形態的特徴がいずれか既知の人の顔の
形態的特徴と一致した場合には当該既知の人の形態的特
徴と対応付けられた当該形態的特徴に固有の識別子(以
下、これをFIDと呼ぶ)を対話制御部に通知する一
方、検出した形態的特徴がいずれの既知の人の顔の形態
的特徴とも一致しなかった場合には、認識不能を意味す
るFID(=−1)を対話制御部に通知するようになさ
れている。
【0046】また顔認識部62は、対話制御部63が新
規な人であると判断したときに当該対話制御部63から
与えられる学習開始命令及び学習終了命令に基づいて、
その間CCDカメラ50からの画像信号S1Aに基づく
画像内に含まれる人の顔の形態的特徴を検出し、当該検
出した形態的特徴のデータを新たな固有のFIDと対応
付けて記憶すると共に、このFIDを対話制御部63に
通知するようになされている。
【0047】なお顔認識部62は、対話制御部63から
の追加学習や訂正学習の開始命令及び終了命令に応じ
て、人の顔の形態的特徴のデータを追加的に収集する追
加学習や、人の顔の形態的特徴のデータをその人を正し
く認識できるよう訂正する訂正学習をも行い得るように
なされている。
【0048】音声合成部64は、対話制御部63から与
えられる文字列データD2を音声信号S3に変換する機
能を有し、かくして得られた音声信号S3をスピーカ5
4(図5)に送出するようになされている。これにより
この音声信号S3に基づく音声をスピーカ54から出力
させることができるようになされている。
【0049】対話制御部63においては、図7に示すよ
うに、既知の人の名前と、話者認識部61が記憶してい
るその人の声の音響的特徴のデータに対応付けられたS
IDと、顔認識部62が記憶しているその人の顔の形態
的特徴のデータに対応付けられたFIDとを関連付けて
記憶するメモリ65(図6)を有している。
【0050】そして対話制御部63は、所定のタイミン
グで所定の文字列データD2を音声合成部64に与える
ことにより、話し相手の人に対して名前を質問し又は名
前を確認するための音声等をスピーカ54から出力させ
る一方、このときのその人の応答等に基づく音声認識部
60及び話者認識部61の各認識結果並びにその人に対
する顔認識部62の認識結果と、メモリ65に格納され
た上述の既知の人の名前、SID及びFIDの関連付け
の情報とに基づいてその人が新規な人であるか否かを判
断するようになされている。
【0051】そして対話制御部63は、その人が新規な
人であると判断したときには、話者認識部61及び顔認
識部62に対して新規学習の開始命令及び終了命令を与
えることにより、これら話者認識部61及び顔認識部6
2にその新規な人の声の音響的特徴や顔の形態的特徴の
データを収集及び記憶させると共に、この結果としてこ
れら話者認識部61及び顔認識部62からそれぞれ与え
られるその新規な人の声の音響的特徴のデータや顔の形
態的特徴のデータに対応付けられたSID及びFID
を、かかる対話により得られたその人の名前と関連付け
てメモリ65に格納するようになされている。
【0052】また対話制御部63は、その人が既知の人
であると判断したときには、必要に応じて話者認識部6
1及び顔認識部62に追加学習や訂正学習の開始命令を
与えることにより話者認識部61及び顔認識部62に追
加学習や訂正学習を行わせる一方、これと共に音声合成
部64に所定の文字列データD2を所定のタイミングで
順次送出することにより、話者認識部61及び顔認識部
62が追加学習や訂正学習をするのに必要な相当量のデ
ータを収集できるまでその人との対話を長引かせるよう
な対話制御を行うようになされている。
【0053】(3)名前学習機能に関する対話制御部6
3の具体的処理 次に、名前学習機能に関する対話制御部63の具体的な
処理内容について説明する。
【0054】対話制御部63は、外部メモリ58(図
5)に格納された制御プログラムに基づいて、図8及び
図9に示す名前学習処理手順RT1に従って新規な人の
名前を順次学習するための各種処理を実行する。
【0055】すなわち対話制御部63は、CCDカメラ
50からの画像信号S1Aに基づき顔認識部62が人の
顔を認識することにより当該顔認識部62からFIDが
与えられると名前学習処理手順RT1をステップSP0
において開始し、続くステップSP1において、メモリ
65に格納された既知の人の名前と、これに対応するS
ID及びこれに対応するFIDとを関連付けた情報(以
下、これを関連付け情報と呼ぶ)に基づいてそのFID
から対応する名前を検索できるか否か(すなわちFID
が認識不能を意味する「−1」でないか否か)を判断す
る。
【0056】ここでこのステップSP1において肯定結
果を得ることは、その人が、顔認識部62がその人の顔
の形態的特徴のデータを記憶しており、当該データと対
応付けられたFIDがその人の名前と関連付けてメモリ
65に格納されている既知の人であることを意味する。
ただしこの場合においても、顔認識部62が新規の人を
既知の人と誤認識したことも考えられる。
【0057】そこで対話制御部63は、ステップSP1
において肯定結果を得た場合には、ステップSP2に進
んで所定の文字列データD2を音声合成部64に送出す
ることにより、例えば図10に示すように、「○○さん
ですよね。」といったその人の名前がFIDから検索さ
れた名前(上述の○○に当てはまる名前)と一致するか
否かを確かめるための質問の音声をスピーカ54から出
力させる。
【0058】次いで対話制御部63は、ステップSP3
に進んで、かかる質問に対するその人の「はい、そうで
す。」や「いいえ、違います。」といった応答の音声認
識結果が音声認識部60から与えられるのを待ち受け
る。そして対話制御部63は、やがて音声認識部63か
らかかる音声認識結果が与えられ、また話者認識部61
からそのときの話者認識結果であるSIDが与えられる
と、ステップSP4に進んで、音声認識部63からの音
声認識結果に基づき、その人の応答が肯定的なものであ
るか否かを判断する。
【0059】ここでこのステップSP4において肯定結
果を得ることは、ステップSP1において顔認識部62
から与えられたFIDに基づき検索された名前がその人
の名前と一致しており、従ってその人は対話制御部63
が検索した名前を有する本人であるとほぼ断定できる状
態にあることを意味する。
【0060】かくしてこのとき対話制御部63は、その
人は当該対話制御部63が検索した名前を有する本人で
あると断定し、ステップSP5に進んで話者認識部61
に対して追加学習の開始命令を与える。またこれと共に
対話制御部63は、最初に話者認識部61から与えられ
たSIDが、かかる名前からメモリ65に格納された関
連付け情報に基づいて検索できるSIDと一致している
場合には話者認識部61に対して追加学習の開始命令を
与え、これに対して一致していない場合には訂正学習の
開始命令を与える。
【0061】そして対話制御部63は、この後ステップ
SP6に進んで例えば図10のように「今日はいい天気
ですね。」などといった、その人との対話を長引かせる
ための雑談をさせるための文字列データD2を音声合成
部64に順次送出し、この後追加学習又は訂正学習に十
分な所定時間が経過すると、ステップSP7に進んで話
者認識部61及び顔認識部62に対して追加学習又は訂
正学習の終了命令を与えた後、ステップSP20に進ん
でその人に対する名前学習処理を終了する。
【0062】一方、ステップSP1において否定結果を
得ることは、顔認識部62により顔認識された人が新規
の人であるか、又は顔認識部62が既知の人を新規の人
と誤認識したことを意味する。またステップSP4にお
いて否定結果を得ることは、最初に顔認識部62から与
えられたFIDから検索された名前がその人の名前と一
致していないことを意味する。そして、これらいずれの
場合においても、対話制御部63がその人を正しく把握
していない状態にあるといえる。
【0063】そこで対話制御部63は、ステップSP1
において否定結果を得たときや、ステップSP4におい
て否定結果を得たときには、ステップSP8に進んで音
声合成部64に文字列データD2を与えることにより、
例えば図11に示すように、「あれ、名前を教えてくだ
さい。」といった、その人の名前を聞き出すための質問
の音声をスピーカ54から出力させる。
【0064】そして対話制御部63は、この後ステップ
SP9に進んで、かかる質問に対するその人の「○○で
す。」といった応答の音声認識結果(すなわち名前)
と、当該応答時における話者認識部61の話者認識結果
(すなわちSID)とがそれぞれ音声認識部60及び話
者認識部61から与えられるのを待ち受ける。
【0065】そして対話制御部63は、やがて音声認識
部60から音声認識結果が与えられ、話者認識部61か
らSIDが与えられると、ステップSP10に進んで、
これら音声認識結果及びSID並びに最初に顔認識部6
2から与えられたFIDに基づいて、その人が新規な人
であるか否かを判断する。
【0066】ここでこの実施の形態の場合、かかる判断
は、音声認識部60の音声認識により得られた名前と、
話者認識部61からのSIDと、顔認識部62からのF
IDとでなる3つの認識結果の多数決により行われる。
【0067】例えば、話者認識部61からのSID及び
顔認識部62からのFIDが共に認識不能を意味する
「−1」で、かつステップSPにおいて音声認識部60
からの音声認識結果に基づき得られたその人の名前がメ
モリ65においてどのSIDやFIDとも関連付けられ
ていない場合には、その人が新規な人であると判断す
る。既知のどの顔又はどの声とも似つかない人が全く新
しい名前をもっているという状況であるので、そのよう
な判断ができる。
【0068】また対話制御部63は、話者認識部61か
らのSID及び顔認識部62からのFIDがメモリ65
において異なる名前と関連付けられているか又はその一
方が認識不能を意味する「−1」であり、かつステップ
SP9において音声認識部60からの音声認識結果に基
づき得られたその人の名前がメモリ65に格納されてな
い場合にも、その人が新規な人であると判断する。これ
は、各種認識処理において、新規カテゴリを既知カテゴ
リのどれかと誤認識するのは起こり易いことであり、ま
た音声認識された名前が登録されていないことを考えれ
ば、かなり高い確信度をもって新規の人と判断できるか
らである。
【0069】これに対して対話制御部63は、話者認識
部61からのSID及び顔認識部62からのFIDがメ
モリ65において同じ名前と関連付けられており、かつ
ステップSP9において音声認識部60からの音声認識
結果に基づき得られたその人の名前がそのSID及びF
IDが関連付けられた名前である場合には、その人が既
知の人であると判断する。
【0070】また対話制御部63は、話者認識部61か
らのSID及び顔認識部62からのFIDがメモリ65
において異なる名前と関連付けられており、かつステッ
プSP9において音声認識部60からの音声認識結果に
基づき得られたその人の名前がかかるSID又はFID
の一方が関連付けられた名前である場合には、その人が
既知の人であると判断する。この場合は、話者認識部6
1及び顔認識部62のいずれか一方の認識結果が間違っ
ていると考えられるため、かかる多数決によりそのよう
に判断する。
【0071】一方、対話制御部63は、話者認識部61
からのSID及び顔認識部62からのFIDがメモリ6
5において異なる名前と関連付けられており、かつステ
ップSP9において音声認識部60からの音声認識結果
に基づき得られたその人の名前がメモリ65においてか
かるSID及びFIDのいずれにも関連付けられていな
い名前である場合には、その人が既知の人であるか又は
新規の人であるかを判断しない。このケースでは、音声
認識部60、話者認識部61及び顔認識部62のいずれ
か又は全部の認識が間違っていることも考えられるが、
この段階ではそれを判定することができない。従ってこ
の場合には、かかる判断を保留する。
【0072】そして対話制御部63は、このような判断
処理により、ステップSP10において、かかる人が新
規の人であると判断した場合には、ステップSP11に
進んで新規学習の開始命令を話者認識部61及び顔認識
部62に与え、この後ステップSP12に進んで例えば
図11のように「私はロボットです。よろしくお願いし
ます。」又は「○○さん、今日はいい天気ですね。」な
どのその人との対話を長引かせる雑談をするための文字
列データD2を音声合成部64に送出する。
【0073】また対話制御部63は、この後ステップS
P13に進んで話者認識部61における音響的特徴のデ
ータの収集及び顔認識部62における顔の形態的特徴の
データの収集が共に十分量に達したか否かを判断し、否
定結果を得るとステップSP12に戻って、この後ステ
ップSP13において肯定結果を得るまでステップSP
12−SP13−SP12のループを繰り返す。
【0074】そして対話制御部63は、やがて話者認識
部61における音響的特徴のデータの収集及び顔認識部
62における顔の形態的特徴のデータの収集が共に十分
量に達することによりステップSP13において肯定結
果を得ると、ステップSP14に進んで、これら話者認
識部61及び顔認識部62に新規学習の終了命令を与え
る。この結果、話者認識部61において、その音響的特
徴のデータが新たなSIDと対応付けられて記憶され、
顔認識部62において、その形態的特徴のデータが新た
なFIDと対応付けられて記憶される。
【0075】また対話制御部63は、この後ステップS
P15に進んで、話者認識部61及び顔認識部62から
それぞれかかるSID及びFIDが与えられるのを待ち
受け、やがてこれらが与えられると、例えば図12に示
すように、これらをステップSP9において音声認識部
60からの音声認識結果に基づき得られたその人の名前
と関連付けてメモリ65に登録する。そして対話制御部
63は、この後ステップSP20に進んでその人に対す
る名前学習処理を終了する。
【0076】これに対して対話制御部63は、ステップ
SP10において、かかる人が既知の人であると判断し
た場合には、ステップSP16に進んで、話者認識部6
1及び顔認識部62がその既知の人を正しく認識できて
いた場合(すなわち話者認識部61や顔認識部62が、
関連付け情報としてメモリ65に格納されたその既知の
人に対応するSID又はFIDと同じSID又はSID
を認識結果として出力していた場合)には、その話者認
識部61又は顔認識部62に対して追加学習の開始命令
を与え、話者認識部61及び顔認識部62がその既知の
人を正しく認識できなかった場合(すなわち話者認識部
61や顔認識部62が、関連付け情報としてメモリ65
に格納されたその既知の人に対応するSID又はFID
と同じSID又はSIDを認識結果として出力していた
場合)には、その話者認識部61又は顔認識部62に対
して訂正学習の開始命令を与える。
【0077】具体的には、対話制御部63は、ステップ
SP9において得られた話者認識部61からのSID
と、最初に顔認識部62から与えられたFIDとがメモ
リ65において同じ名前と関連付けられており、かつス
テップSP9において音声認識部60からの音声認識結
果に基づき得られた名前がそのSID及びFIDが関連
付けられた名前であることによりステップSP10にお
いてその人が既知の人であると判断したときには、話者
認識部61及び顔認識部62に対してそれぞれ追加学習
の開始命令を与える。
【0078】また話者認識部63は、ステップSP9に
おいて得られた話者認識部61からのSIDと、最初に
顔認識部62から与えられたFIDとがメモリ65にお
いて異なる名前と関連付けられており、かつステップS
P9において音声認識部60からの音声認識結果に基づ
き得られた名前がかかるSID又はFIDの一方が関連
付けられた名前であることによりステップSP10にお
いてその人が既知の人であると判断したときには、音声
認識部60からの音声認識結果に基づき得られた名前と
関連付けられたSID又はFIDを出力した一方の話者
認識部61又は顔認識部62に対して追加学習の開始命
令を与え、音声認識部60からの音声認識結果に基づき
得られた名前と関連付けられていないFID又はSID
を出力した他方の顔認識部62又は話者認識部61に訂
正学習の開始命令を与える。
【0079】そして対話制御部63は、この後ステップ
SP17に進んで、例えば図13に示すように、「ああ
○○さんですね。思い出しましたよ。今日はいい天気で
すね。」、「前回はえーと、いつ会いましたっけ。」な
どのその人との対話を長引かせるための雑談をさせるた
めの文字列データD2を音声合成部64に順次送出し、
この後追加学習又は訂正学習に十分な所定時間が経過す
ると、ステップSP18に進んで話者認識部61及び顔
認識部62に対して追加学習又は訂正学習の終了命令を
与えた後、ステップSP20に進んでその人に対する名
前学習処理を終了する。
【0080】他方、対話制御部63は、ステップSP1
0において、かかる人が既知の人であるとも新規の人で
あるとも判定できないと判断した場合には、ステップS
P19に進んで、例えば図14に示すように、「ああそ
うですか。元気ですか。」などの雑談をさせるための文
字列データD2を音声合成部64に順次送出する。
【0081】そしてこの場合には、対話制御部63は、
新規学習、追加学習又は訂正学習の開始命令及びその終
了命令を話者認識部61及び顔認識部62に与えず(す
なわち新規学習、追加学習及び訂正学習のいずれも話者
認識部61及び顔認識部62に行わせず)、所定時間が
経過すると、ステップSP20に進んでその人に対する
名前学習処理を終了する。
【0082】このようにして対話制御部63は、音声認
識部60、話者認識部61及び顔認識部62の各認識結
果に基づいて、人との対話制御や話者認識部61及び顔
認識部62の動作制御を行うことにより、新規な人の名
前を順次学習することができるようになされている。
【0083】(4)音声認識部60及び顔認識部62の
具体的構成 次に、上述のような名前学習機能を具現化するための音
声認識部60及び顔認識部62の具体的構成について説
明する。
【0084】(4−1)音声認識部60の具体的構成 図15は、かかる音声認識部60の具体的構成を示すも
のである。
【0085】この音声認識部60においては、マイクロ
ホン51からの音声信号S1BをAD(Analog Digita
l)変換部70に入力する。AD変換部70は、供給さ
れるアナログ信号である音声信号S1Bをサンプリン
グ、量子化し、ディジタル信号である音声データにA/
D変換する。この音声データは、特徴抽出部71に供給
される。
【0086】特徴抽出部71は、そこに入力される音声
データについて、適当なフレームごとに、例えば、MF
CC(Mel Frequency Cepstrum Cofficient)分析を行
い、その分析の結果得られるMFCCを、特徴ベクトル
(特徴パラメータ)として、マッチング部72と未登録
語区間処理部76に出力する。なお、特徴抽出部71で
は、その後、例えば線形予測係数、ケプストラム係数、
線スペクトル対、所定の周波数ごとのパワー(フイルタ
バンクの出力)等を、特徴ベクトルとして抽出すること
が可能である。
【0087】マッチング部72は、特徴抽出部71から
の特徴ベクトルを用いて、音響モデル記憶部73、辞書
記憶部74及び文法記憶部75を必要に応じて参照しな
がら、マイクロホン51に入力された音声(入力音声)
を、例えば、連続分布HMM(Hidden Markov Model)
法に基づいて音声認識する。
【0088】すなわち音響モデル記憶部73は、音声認
識する音声の言語における個々の音素や、音節、音韻な
どのサブワードについて音響的な特徴を表す音響モデル
(例えば、HMMの他、DP(Dynamic Programing)マ
ッチングに用いられる標準パターン等を含む)を記憶し
ている。なお、ここでは連続分布HMM法に基づいて音
声認識を行うことをしているので、音響モデルとしては
HMM(Hidden Markov Model)が用いられる。
【0089】辞書記憶部74は、認識対象の各単位ごと
にクラスタリングされた、その単語の発音に関する情報
(音響情報)と、その単語の見出しとが対応付けられた
単語辞書を認識している。
【0090】ここで、図16は、辞書記憶部74に記憶
された単語辞書を示している。
【0091】図16に示すように、単語辞書において
は、単語の見出しとその音韻系列とが対応付けられてお
り、音韻系列は、対応する単語ごとにクラスタリングさ
れている。図16の単語辞書では、1つのエントリ(図
16の1行)が、1つのクラスタに相当する。
【0092】なお、図16において、見出しはローマ字
と日本語(仮名漢字)で表してあり、音韻系列はローマ
字で表してある。ただし、音韻系列における「N」は、撥
音「ん」を表す。また、図16では、1つのエントリに1
つの音韻系列を記述してあるが、1つのエントリには複
数の音韻系列を記述することも可能である。
【0093】図4に戻り、文法記憶部26は、辞書記憶
部25の単語辞書に登録されている各単語がどのように
連鎖する(つながる)かを記述した文法規則を記憶して
いる。
【0094】ここで、図17は、文法記憶部75に記憶
された文法規則を示している。なお、図17の文法規則
は、EBNF(Extended Backus Naur Form)で記述さ
れている。
【0095】図17においては、行頭から最初に現れる
「;」までが1つの文法規則を表している。また先頭に
「$」が付されたアルファベット(列)は変数を表し、
「$」が付されていないアルファベット(列)は単語の見
出し(図16に示したローマ字による見出し)を表す。
さらに[]で囲まれた部分は省略可能であることを表
し、「|」は、その前後に配置された見出しの単語(ある
いは変数)のうちのいずれか一方を選択することを表
す。
【0096】従って、図17において、例えば、第1行
(上から1行目)の文法規則「$col=[Kono|sono]ir
o wa;」は、変数$colが、「このいろ(色)は」または
「そのいろ(色)は」という単語列であることを表す。
【0097】なお、図17に示した文法規則において
は、変数$silと$garbageが定義されていないが、変数
$silは、無音の音響モデル(無音モデル)を表し、変
数$garbageは、基本的には、音韻どうしの間での自由
な遷移を許可したガーベジモデルを表す。
【0098】再び図15に戻り、マッチング部72は、
辞書記憶部74の単語辞書を参照することにより、音響
モデル記憶部73に記憶されている音響モデルを接続す
ることで、単語の音響モデル(単語モデル)を構成す
る。さらにマッチング部72は、幾つかの単語モデルを
文法記憶部75に記憶された文法規則を参照することに
より接続し、そのようにして接続された単語モデルを用
いて、特徴ベクトルに基づき、連続分布HMM法によっ
て、マイクロホン51に入力された音声を認識する。す
なわちマッチング部72は、特徴抽出部71が出力する
時系列の特徴ベクトルが観測されるスコア(尤度)が最
も高い単語モデルの系列を検出し、その単語モデルの系
列に対応する単語列の見出しを、音声の認識結果として
出力する。
【0099】より具体的には、マッチング部72は、接
続された単語モデルに対応する単語により接続し、その
ようにして接続された単語モデルを用いて、特徴ベクト
ルに基づき、連続分布HMM法によって、マイクロホン
51に入力された音声を認識する。すなわちマッチング
部72は、特徴抽出部71が出力する時系列の特徴ベク
トルが観測されるスコア(尤度)が最も高い単語モデル
の系列を検出し、その単語モデルの系列に対応する単語
列の見出しを音声認識結果として出力する。
【0100】より具体的には、マッチング部72は、接
続された単語モデルに対応する単語列について、各特徴
ベクトルの出現確率(出力確率)を累積し、その累積値
をスコアとして、そのスコアを最も高くする単語列の見
出しを音声認識結果として出力する。
【0101】以上のようにして出力されるマイクロホン
51に入力された音声認識結果は、文字列データD1と
して対話制御部63に出力される。
【0102】ここで図17の実施の形態では、第9行
(上から9行目)にガーベジモデルを表す変数$garbag
eを用いた文法規則(以下、適宜、未登録語用規則とい
う)「$pat1=$colorl $garbage $color2;」がある
が、マッチング部72は、この見登録語用規則が適用さ
れた場合には、変数$garbageに対応する音声区間を未
登録語の音声区間として検出する。さらに、マッチング
部72は、未登録語用規則が適用された場合における変
数$garbageが表すガーベジモデルにおける音韻の遷移
としての音韻系列を未登録語の音韻系列として検出す
る。そしてマッチング部72は、未登録語用規則が適用
された音声認識結果が得られた場合に検出される未登録
語の音声区間と音韻系列を未登録語区間処理部76に供
給する。
【0103】なお上述の未登録語用規則「$pat1=$col
orl $garbage $color2;」によれば、変数#color1で表
される単語辞書に登録されている単語(列)の音韻系列
と、変数$color2で表される単語辞書に登録されている
単語(列)の音韻系列との間にある1つの未登録語が検
出されるが、この実施の形態においては、発話に複数の
未登録語が含まれている場合や、未登録語が単語辞書に
登録されている単語(列)間に挟まれていない場合であ
っても適用可能である。
【0104】未登録語区間処理部76は、特徴抽出部7
1から供給される特徴ベクトルの系列(特徴ベクトル系
列)を一時記憶する。さらに、未登録語区間処理部76
は、マッチング部72から未登録語の音声区間と音韻系
列を受信すると、その音声区間における音声の特徴ベク
トル系列を、一時記憶している特徴ベクトル系列から検
出する。そして未登録語区間処理部76は、マッチング
部72からの音韻系列(未登録語)にユニークなID
(identification)を付し、未登録語の音韻系列と、そ
の音声区間における特徴ベクトル系列とともに、特徴ベ
クトルバッファ77に供給する。
【0105】特徴ベクトルバッファ77は、例えば、図
18に示すように、未登録語区間処理部76から供給さ
れる未登録語のID、音韻系列及び特徴ベクトル系列を
対応付けて一時記憶する。
【0106】ここで図18においては、未登録語に対し
て1からのシーケンシャルな数時がIDとして付されて
いる。従って、例えばいま、特徴ベクトルバッファ77
において、N個の未登録語のID、音韻系列及び特徴ベ
クトル系列が記憶されている場合において、マッチング
部72が未登録語の音声区間と音韻系列を検出すると、
未登録語区間処理部76では、その未登録語に対してN
+1がIDとして付され、特徴ベクトルバッファ77で
は、図18に点線で示すように、その未登録語のID、
音韻系列及び特徴ベクトル系列が記憶される。
【0107】再び図15に戻り、クラスタリング部78
は、特徴ベクトルバッファ77に新たに記憶された未登
録語(以下、適宜、新未登録語という)について、特徴
ベクトルバッファ77に既に記憶されている他の未登録
語(以下、適宜、既記憶未登録語という)それぞれに対
するスコアを計算する。
【0108】すなわちクラスタリング部78は、新未登
録語を入力音声とし、かつ既記憶未登録語を単語辞書に
登録されている単語とみなして、マッチング部72にお
ける場合と同様にして、新未登録語について、各既記憶
未登録語に対するスコアを計算する。具体的には、クラ
スタリング部78は、特徴ベクトルバッファ77を参照
することで新未登録語の特徴ベクトル系列を認識すると
ともに、既記憶未登録語の音韻系列にしたがって音響モ
デルを接続し、その接続された音響モデルから新未登録
語の特徴ベクトル系列が観測される尤度としてのスコア
を計算する。
【0109】なお、音響モデルは、音響モデル記憶部7
3に記憶されているものが用いられる。
【0110】クラスタリング部78は、同様にして、各
既記憶未登録語について、新未登録語に対するスコアも
計算し、そのスコアによってスコアシート記憶部79に
記憶されたスコアシートを更新する。
【0111】さらにクラスタリング部78は、更新した
スコアシートを参照することにより、既に求められてい
る未登録語(既記憶未登録語)をクラスタリングしたク
ラスタの中から、新未登録語を新たなメンバとして加え
るクラスタを検出する。さらにクラスタリング部78
は、新未登録語を検出したクラスタの新たなメンバと
し、そのクラスタをそのクラスタのメンバに基づいて分
割し、その分割結果に基づいて、スコアシート記憶部7
9に記憶されているスコアシートを更新する。
【0112】スコアシート記憶部79は、新未登録語に
ついての既記憶未登録語に対するスコアや、既記憶未登
録語についての新未登録語に対するスコア等が登録され
たスコアシートを記憶する。
【0113】ここで、図19は、スコアシートを示して
いる。
【0114】スコアシートは、未登録語の「ID」、「音
韻系列」、「クラスタナンバ」、「代表メンバID」及び「ス
コア」が記述されたエントリで構成される。
【0115】未登録語の「ID」と「音韻系列」としては、
特徴ベクトルバッファ77に記憶されたものと同一のも
のがクラスタリング部78によって登録される。「クラ
スタナンバ」は、そのエントリの未登録語がメンバとな
っているクラスタを特定するための数字で、クラスタリ
ング部78によって付され、スコアシートに登録され
る。「代表ナンバID」は、そのエントリの未登録語がメ
ンバとなっているクラスタを代表する代表メンバとして
の未登録のIDであり、この代表メンバIDによって、
未登録語がメンバとなっているクラスタの代表メンバを
認識することができる。なお、クラスタの代表メンバ
は、クラスタリング部29によって求められ、その代表
メンバのIDがスコアシートの代表メンバIDに登録さ
れる。「スコア」は、そのエントリの未登録語についての
他の未登録語それぞれに対するスコアであり、上述した
ように、クラスタリング部78によって計算される。
【0116】例えば、いま、特徴ベクトルバッファ77
において、N個の未登録語のID、音韻系列及び特徴ベ
クトル系列が記憶されているとすると、スコアシートに
は、そのN個の未登録語のID、音韻系列、クラスタナ
ンバ、代表ナンバID及びスコアが登録されている。
【0117】そして特徴ベクトルバッファ77に、新未
登録語のID、音韻系列、および特徴ベクトル系列が新
たに記憶されると、クラスタリング部78では、スコア
シートが図19において点線で示すように更新される。
【0118】すなわちスコアシートには、新未登録語の
ID、音韻系列、クラスタナンバ、代表メンバID、新
未登録語についての既記憶未登録語それぞれに対するス
コア(図19におけるスコアs(N+1,1)、s
(2、N+1)、…s(N+1、N)が追加される。さら
にスコアシートには、既記憶未登録語それぞれについて
の新未登録語に対するスコア(図19におけるs(N+
1,1)、s(2、N+1)、…s(N+1、N))が追
加される。さらに後述するように、スコアシートにおけ
る未登録語のクラスタナンバと代表メンバIDが必要に
応じて変更される。
【0119】なお、図19の実施の形態においては、I
Dがiの未登録語(の発話)についての、IDがjの未
登録語(の音韻系列)に対するスコアを、s(i、j)
として表してある。
【0120】またスコアシート(図19)には、IDが
iの未登録語(の発話)についての、IDがiの未登録
語(の音韻系列)に対するスコアs(i、j)も登録さ
れる。ただし、このスコアs(i、j)は、マッチング
部72において、未登録語の音韻系列が検出されるとき
に計算されるため、クラスタリング部78で計算する必
要はない。
【0121】再び図15に戻り、メンテナンス部80
は、スコアシートに記憶部79における更新後のスコア
シートに基づいて、辞書記憶部74に記憶された単語辞
書を更新する。
【0122】ここで、クラスタの代表メンバは、次のよ
うに決定される。すなわち、例えば、クラスタのメンバ
となっている未登録語のうち、他の未登録語それぞれに
ついてのスコアの総和(その他、例えば、総和を他の未
登録語の数で除算した平均値でも良い)を最大にするも
のがそのクラスタの代表メンバとされる。従って、この
場合、クラスタに属するメンバのメンバIDをkで表す
こととすると、次式
【0123】
【数1】
【0124】で示される値k(∈k)をIDとするメン
バが代表メンバとされることになる。
【0125】ただし、(1)式において、max{}
は、{}内の値を最大にするkを意味する。またkは、
kと同様に、クラスタに属するメンバのIDを意味す
る。さらに、Σは、kをクラスタに属するメンバすべ
てのIDに亘って変化させての総和を意味する。
【0126】なお上述のように代表メンバを決定する場
合、クラスタのメンバが1または2つの未登録語である
ときには、代表メンバを決めるにあたってスコアを計算
する必要はない。すなわちクラスタのメンバが1つの未
登録語である場合には、その1つの未登録語が代表メン
バとなり、クラスタのメンバが2つの未登録語である場
合には、その2つの未登録語のうちのいずれを代表メン
バとしても良い。
【0127】また代表メンバの決定方法は、上述したも
のに限定されるものではなく、その他、例えばクラスタ
のメンバとなっている未登録語のうち、他の未登録語そ
れぞれとの特徴ベクトル空間における距離の総和を最小
にするもの等をそのクラスタの代表メンバとすることも
可能である。
【0128】以上のように構成される音声認識部60で
は、マイクロホン51に入力された音声を認識する音声
認識処理と、未登録語に関する未登録語処理が図20に
示す音声認識処理手順RT2に従って行われる。
【0129】実際上、音声認識部60では、人が発話を
行うことにより得られた音声信号S1Bがマイクロホン
51からAD変換部70を介して音声データとされて特
徴抽出部71に与えられるとこの音声認識処理手順RT
2がステップSP30において開始される。
【0130】そして続くステップSP31において、特
徴抽出部71が、その音声データを所定のフレーム単位
で音響分析することにより特徴ベクトルを抽出し、その
特徴ベクトルの系列をマッチング部72及び未登録語区
間処理部76に供給する。
【0131】マッチング部76は、続くステップS32
において、特徴抽出部71からの特注オベクトル系列に
ついて、上述したようにスコア計算を行い、この後ステ
ップS33において、スコア計算の結果得られるスコア
に基づいて、音声認識結果となる単語列の見出しを求め
て出力する。
【0132】さらにマッチング部72は、続くステップ
S34において、ユーザの音声に未登録語が含まれてい
たかどうかを判定する。
【0133】ここで、このステップS34において、ユ
ーザの音声に未登録語が含まれていないと判定された場
合、すなわち上述の未登録語用規則「$pat1=$colorl
$garbage $color2;」が適用されずに音声認識結果が
得られた場合、ステップS35に進んで処理が終了す
る。
【0134】これに対してステップS34において、ユ
ーザの音声に未登録語が含まれていると判定された場
合、すなわち未登録語用規則「$pat1=$colorl $garb
age $color2;」が適用されて音声認識結果が得られた
場合、マッチング部23は、続くステップS35におい
て、未登録語用規則の変数$garbageに対応する音声区
間を未登録語の音声区間として検出するとともに、その
変数$garbageが表すガーベジモデルにおける音韻の遷
移としての音韻系列を未登録語の音韻系列として検出
し、その未登録語の音声区間と音韻系列を未登録語区間
処理部76に供給して、処理を終了する(ステップSP
36)。
【0135】一方、未登録語機関処理部76は、特徴抽
出部71から供給される特徴ベクトル系列を一時記憶し
ており、マッチング部72から未登録語の音声区間と音
韻系列が供給されると、その音声区間における音声の特
徴ベクトル系列を検出する。さらに未登録語区間処理部
76は、マッチング部72からの未登録語(の音韻系
列)にIDを付し、未登録語の音韻系列と、その音声区
間における特徴ベクトル系列とともに、特徴ベクトルバ
ッファ77に供給する。
【0136】以上のようにして、特徴ベクトルバッファ
77に新たな未登録語(新未登録語)のID、音韻系列
及び特徴ベクトル系列が記憶されると、この後、未登録
語の処理が図21に示す未登録語処理手順RT3に従っ
て行われる。
【0137】すなわち音声認識部60においては、上述
のように特徴ベクトルバッファ77に新たな未登録語
(新未登録語)のID、音韻系列及び特徴ベクトル系列
が記憶されるとこの未登録語処理手順RT3がステップ
SP40において開始され、まず最初にステップS41
において、クラスタリング部78が、特徴ベクトルバッ
ファ77から新未登録語のIDと音韻系列を読み出す。
【0138】次いでステップS42において、クラスタ
リング部78が、スコアシート記憶部30のスコアシー
トを参照することにより、既に求められている(生成さ
れている)クラスタが存在するかどうかを判定する。
【0139】そしてこのステップS42において、すで
に求められているクラスタご存在しないと判定された場
合、すなわち新未登録語が初めての未登録語であり、ス
コアシートに既記憶未登録語のエントリが存在しない場
合には、ステップS43に進み、クラスタリング部78
が、その新未登録語を代表メンバとするクラスタを新た
に生成し、その新たなクラスタに関する情報と、親身登
録語に関する情報とをスコアシート記憶部79のスコア
シートに登録することにより、スコアシートを更新す
る。
【0140】すなわちクラスタリング部78は、特徴ベ
クトルバッファ77から読み出した新未登録語のIDお
よび音韻系列をスコアシート(図19)に登録する。さ
らにクラスタリング部78は、ユニークなクラスタナン
バを生成し、新未登録語のクラスタナンバとしてスコア
シートに登録する。またクラスタリング部78は、新未
登録語のIDをその新未登録語の代表ナンバIDとし
て、スコアシートに登録する。従ってこの場合は、新未
登録語は、新たなクラスタの代表メンバとなる。
【0141】なお、いまの場合、新未登録語とのスコア
を計算する既記憶未登録語が存在しないため、スコアの
計算は行われない。
【0142】かかるステップS43の処理後は、ステッ
プS52に進み、メンテナンス部80は、ステップS4
3で更新されたスコアシートに基づいて、辞書記憶部7
4の単語辞書を更新し、処理を終了する(ステップSP
54)。
【0143】すなわち、いまの場合、新たなクラスタが
生成されているので、メンテナンス部31は、スコアシ
ートにおけるクラスタナンバを参照し、その新たに生成
されたクラスタを認識する。そしてメンテナンス部80
は、そのクラスタに対応するエントリを辞書記憶部74
の単語辞書に追加し、そのエントリの音韻系列として、
新たなクラスタの代表メンバの音韻系列、つまりいまの
場合は、新未登録語の音韻系列を登録する。
【0144】一方、ステップS42において、すでに求
められているクラスタが存在すると判定された場合、す
なわち新未登録語が初めての未登録語ではなく、従って
スコアシート(図19)に、既記憶未登録語のエントリ
(行)が存在する場合、ステップS44に進み、クラス
タリング部78は、新未登録語について、各既記憶未登
録語それぞれに対するスコアを計算すると共に、各既記
憶未登録語それぞれについて、新未登録語に対するスコ
アを計算する。
【0145】すなわち、例えば、いま、IDが1乃至N
個の既記憶未登録語が存在し、新未登録語のIDをN+
1とすると、クラスタリング部78では、図19におい
て点線で示した部分の新未登録語についてのN個の既記
憶未登録語それぞれに対するスコアs(N+1、1)、
s(N+1、2)…、s(N、N+1)と、N個の既記憶
未登録語それぞれについての新未登録語に対するスコア
s(1、N+1)、s(2、N+1)…、s(N、N+
1)が計算される。なおクラスタリング部78におい
て、これらのスコアを計算するにあたっては、新未登録
語とN個の既記憶未登録語それぞれの特徴ベクトル系列
が必要となるが、これらの特徴ベクトル系列は、特徴ベ
クトルバッファ28を参照することで認識される。
【0146】そしてクラスタリング部78は、計算した
スコアを新未登録語のID及び音韻系列とともにスコア
シート(図19)に追加し、ステップS45に進む。
【0147】ステップS45では、クラスタリング部7
8はスコアシート(図19)を参照することにより、新
未登録語についてのスコアs(N+1、i)(i=1、
2、…、N)を最も高く(大きく)する代表メンバを有
するクラスタを検出する。即ち、クラスタリング部78
は、スコアシートの代表メンバIDを参照することによ
り、代表メンバとなっている既記憶未登録語を認識し、
さらにスコアシートのスコアを参照することで、新未登
録語についてのスコアを最も高くする代表メンバとして
の既記憶未登録語を検出する。そしてクラスタリング部
78は、その検出した代表メンバとしての既記憶未登録
語のクラスタナンバのクラスタを検出する。
【0148】その後、ステップS46に進み、クラスタ
リング部29は、新未登録語をステップS45で検出し
たクラスタ(以下、適宜、検出クラスタという)のメン
バに加える。すなわちクラスタリング部78は、スコア
シートにおける新未登録語のクラスタナンバとして、検
出クラスタの代表メンバのクラスタナンバを書き込む。
【0149】そしてクラスタリング部78は、ステップ
S47において、検出クラスタを例えば2つのクラスタ
に分割するクラスタ分割処理を行い、ステップS48に
進む。ステップS48では、クラスタリング部78は、
ステップS47のクラスタ分割処理によって、検出クラ
スタを2つのクラスタに分割することができたかどうか
判定し、分割することができた判定した場合、ステップ
S49に進む。ステップS49では、クラスタリング部
78は、検出クラスタの分割により得られる2つのクラ
スタ(この2つのクラスタを、以下、適宜、第1の子ク
ラスタと第2の子クラスタという)同士の間のクラスタ
間距離を求める。
【0150】ここで、第1及び第2の子クラスタ同士間
のクラスタ間距離とは、例えば次のように定義される。
【0151】すなわち第1の子クラスタと第2の子クラ
スタの両方の任意のメンバ(未登録語)のIDを、kで
表すとともに、第1と第2の子クラスタの代表メンバ
(未登録語)のIDを、それぞれk1またはk2で表す
こととすると、次式
【0152】
【数2】
【0153】で表される値D(k1,k2)を第1と第
2の子クラスタ同士の間のクラスタ間距離とする。
【0154】ただし、(2)式において、abs()は、
()内の値の絶対値を表す。また、maxval{}は、kを
変えて求められる{}内の値の最大値を表す。またlog
は、自然対数又は常用対数を表す。
【0155】いま、IDがiのメンバをメンバ#Iと表
すこととすると、(2)式におけるスコアの逆数1/s
(k,k1)は、メンバ#kと代表メンバk1との距離
に相当し、スコアの逆数1/s(k,k2)は、メンハ゛#
kと代表メンバk2との距離に相当する。従って、
(2)式によれば、第1と第2の子クラスタのメンバの
うち、第1の子クラスタの代表メンバ#k1との距離
と、第2の子クラスタの代表メンバ#k2との差の最大
値が、第1と第2の子クラスタ同士の間の子クラスタ間
距離とされることになる。
【0156】なおクラスタ間距離は、上述したものに限
定されるものではなく、その他、例えば、第1の子クラ
スタの代表メンバと、第2の子クラスタの代表メンバと
のDPマッチングを行うことにより、特徴ベクトル空間
における距離の積算値を求め、その距離の積算値を、ク
ラスタ間距離とすることも可能である。
【0157】ステップS49の処理後は、ステップS5
0に進み、クラスタリング部78は、第1と第2の子ク
ラスタ同士のクラスタ逢間距離が、所定の閾値ξより大
である(あるいは、閾値ξ以上である)かどうかを判定
する。
【0158】ステップS50において、クラスタ間距離
が所定の閾値ξより大であると判定された場合、すなわ
ち検出クラスタのメンバとしての複数の未登録後が、そ
の音響的特徴からいって、2つのクラスタにクラスタリ
ングすべきものであると考えられる場合、ステップS5
1に進み、クラスタリング部78は、第1と第2の子ク
ラスタをスコアシート記憶部79のスコアシートに登録
する。
【0159】すなわちクラスタリング部78は、第1と
第2の子クラスタにユニークなクラスタナンバを割り当
て、検出クラスタのメンバのうち、第1の子クラスタに
クラスタリングされたもののクラスタナンバを第1の子
クラスタのクラスタナンバにすると共に、第2の子クラ
スタにクラスタリングされたもののクラスタナンバを第
2の子クラスタのクラスタナンバにするように、スコア
シートを更新する。
【0160】さらにクラスタリング部78は、第1の子
クラスタにクラスタリングされたメンバの代表メンバI
Dを第1の子クラスタの代表メンバのIDにすると共
に、第2の子クラスタにクラスタリングされたメンバの
代表メンバIDを第2の子クラスタの代表メンバのID
にするように、スコアシートを更新する。
【0161】なお、第1と第2の子クラスタのうちいず
れか一方には、検出クラスタのクrスタナンバを割り当
てるようにすることが可能である。
【0162】クラスタリング部78が以上のようにして
第1と第2の子クラスタをスコアシートに登録すると、
ステップS51からS52に進み、メンテナンス部80
が、スコアシートに基づいて、辞書記憶部74の単語辞
書を更新し、処理を終了する(ステップSP54)。
【0163】すなわち、いまの場合、検出クラスタが第
1と第2の子クラスタに分割されたため、メンテナンス
部80は、まず単語辞書における検出クラスタに対応す
るエントリを削除する。さらにメンテナンス部80は、
第1と第2の子クラスタそれぞれに対応する2つのエン
トリを単語辞書に追加し、第1の子クラスタに対応する
エントリの音韻系列として、その第1の子クラスタの代
表メンバの音韻系列を登録すると共に、第2の子クラス
タに対応するエントリの音韻系列として、その第2の子
クラスタの代表メンバの音韻系列を登録する。
【0164】一方、ステップS48において、ステップ
S47のクラスタ分割処理によって、検出クラスタを2
つのクラスタに分割することができなかったと判定され
た場合、又はステップS50において、第1と第2の子
クラスタのクラスタ間距離が所定の閾値ξより大でない
と判定された場合、従って、検出クラスタのメンバとし
ての複数の未登録後の音響的特徴が第1と第2の子クラ
スタにクラスタリングするほど似ていないものではない
場合)、ステップS53に進み、クラスタリング部78
は、検出クラスタの新たな代表メンバを求め、スコアシ
ートを更新する。
【0165】すなわちクラスタリング部78は、新未登
録後をメンバとして加えた検出クラスタの各メンバにつ
いて、スコアシート記憶部79のスコアシートを参照す
ることにより、(1)式の計算に必要なスコアs
(k,k)を認識する。さらに、クラスタリング78
は、その認識したスコアs(k,k)を用い、(1)
式に基づき、検出クラスタの新たな代表メンバとなるメ
ンバのIDを求める。そしてクラスタリング部78は、
スコアシート(図19)における検出クラスタの各メン
バの代表メンバIDを、検出クラスタの新たな代表メン
バのIDに書き換える。
【0166】その後、ステップS52に進み、メンテナ
ンス部80が、スコアシートに基づいて辞書記憶部74
の単語辞書を更新し、処理を終了する(ステップSP5
4)。
【0167】すなわち、いまの場合、メンテナンス部8
0は、スコアシートを参照することにより、検出クラス
タの新たな代表メンバを認識し、さらにそのダ表メンバ
の音韻系列を認識する。そしてメンテナンス部80は、
単語辞書における検出クラスタに対応するエントリの音
韻系列を、検出クラスタの新たな代表メンバの音韻系列
に変更する。
【0168】ここで、図21のステップSP47のクラ
スタ分割処理は、図22に示すクラスタ分割処理手順R
T4に従って行われる。
【0169】すなわち音声認識処理部60では、図22
のステップSP46からステップSP47に進むとこの
クラスタ分割処理手順RT4をステップSP60におい
て開始し、まず最初にステップS61において、クラス
タリング部78が、新未登録後がメンバとして加えられ
た検出クラスタから、まだ選択していない任意の2つの
メンバの組み合わせを選択し、それぞれを仮の代表メン
バとする。ここで、この2つの仮の代表メンバを、以
下、適宜、第1の仮代表メンバと第2の仮代表メンバと
いう。
【0170】そして、続くステップS62において、ク
ラスタリング部78は、第1の仮代表メンバ及び第2の
仮代表メンバをそれぞれ代表メンバとすることができる
ように、検出クラスタのメンバを2つのクラスタに分割
することができるかどうかを判定する。
【0171】ここで、第1又は第2の仮代表メンバを代
表メンバとすることができるかどうかは(1)式の計算
を行う必要があるが、この計算に用いられるスコアs
(k’,k)は、スコアシートを参照することで認識さ
れる。
【0172】ステップS62において、第1の仮代表メ
ンバ及び第2の仮代表メンバをそれぞれ代表メンバとす
ることができるように、検出クラスタのメンバを2つの
クラスタに分割することができないと判定された場合、
ステップS62をスキップして、ステップS64に進
む。
【0173】また、ステップS62において、第1の仮
代表メンバと、第2の仮代表メンバをそれぞれ代表メン
バとすることができるように、検出クラスタのメンバを
2つのクラスタに分割することができると判定された場
合、ステップS63に進み、クラスタリング部78は、
第1の仮代表メンバと、第2の仮代表メンバがそれぞれ
代表メンバとなるように、検出クラスタのメンバを2つ
のクラスタに分割し、その分割後の2つのクラスタの組
を、検出クラスタの分割結果となる第1及び第2の子ク
ラスタの候補(以下、適宜、候補クラスタの組という)
として、ステップS64に進む。
【0174】ステップS64では、クラスタリング部7
8は、検出クラスタのメンバの中で、まだ第1と第2の
仮代表メンバの組として選択していない2つのメンバの
組があるかどうかを判定し、あると判定した場合、ステ
ップS61に戻り、まだ第1と第2の仮代表メンバの組
として選択していない検出クラスタの2つのメンバの組
が選択され、以下、同様の処理が繰り返される。
【0175】またステップS64において、第1と第2
の仮代表メンバの組として選択していない検出クラスタ
の2つのメンバの組がないと判定された場合、ステップ
S65に進み、クラスタリング部78は、候補クラスタ
の組が存在するかどうかを判定する。
【0176】ステップS65において、候補クラスタの
組が存在しないと判定された場合、ステップS66をス
キップして、リターンする。この場合は、図21のステ
ップS48において、検出クラスタを分割することがで
きなかったと判定される。
【0177】一方、ステップS65において、候補クラ
スタの組が存在すると判定された場合、ステップS66
に進み、クラスタリング部78は、候補クラスタの組が
複数存在するときには、各候補クラスタの組の2つのク
ラスタ同士の間のクラスタ間距離を求める。そして、ク
ラスタリング部78は、クラスタ間距離が最小の候補ク
ラスタの組を求め、その候補クラスタの組を検出クラス
タの分割結果をして、すなわち第1と第2の子クラスタ
として、リターンする。なお、候補クラスタの組が1つ
だけの場合は、その候補クラスタの組がそのまま第1と
第2の子クラスタとされる。
【0178】この場合は、図21のステップS48にお
いて、検出クラスタを分割することができたと判定され
る。
【0179】以上のように、クラスタリング部78にお
いて、既に求められている未登録語をクラスタリングし
たクラスタの中から、新未登録語を新たなメンバとして
加えるクラスタ(検出クラスタ)を検出し、新未登録語
をその検出クラスタの新たなメンバとして、検出クラス
タをその検出クラスタのメンバに基づいて分割するよう
にしたので、未登録語をその音響的特徴が近似している
もの同士に容易にクラスタリングすることができる。
【0180】さらにメンテナンス部80において、その
ようなクラスタリング結果に基づいて単語辞書を更新す
るようにしたので、単語辞書の大規模化を避けながら、
未登録語の単語辞書への登録を容易に行うことができ
る。
【0181】また、例えば、仮に、マッチング部72に
おいて、未登録語の音声区間の検出を誤ったとしても、
そのような未登録語は、検出クラスタの分割によって、
音声区間が正しく検出された未登録語とは別のクラスタ
にクラスタリングされる。そして、このようなクラスタ
に対応するエントリが単語辞書に登録されることになる
が、このエントリの音韻系列は正しく検出されなかった
音声区間に対応するものとなるから、その後の音声認識
において大きなスコアを与えることはない。従って、仮
に、未登録語の音声区間の検出を誤ったとしても、その
誤りはその後の音声認識にはほとんど影響しない。
【0182】ここで、図23は、未登録語の発話を行っ
て得られたクラスタリング結果を示している。なお、図
23においては、各エントリ(各行)が1つのクラスタ
を表している。また、図23の左欄は、各クラスタの代
表メンバ(未登録語)の音韻系列を表しており、図23
の右欄は、各クラスタのメンバとなっている未登録語の
発話内容と数を表している。
【0183】すなわち図23において、例えば第1行の
エントリは、未登録語「風呂」の1つの発話だけがメンバ
となっているクラスタを表しており、その代表メンバの
音韻系列は、「doroa:」(ドロアー)になっている。ま
た、例えば第2行のエントリは、未登録語「風呂」の3つ
の発話がメンバとなっているクラスタを表しており、そ
の代表メンバの音韻系列は、「kuro」(クロ)になってい
る。
【0184】さらに、例えば第7行のエントリは、未登
録語「本」の4つの発話がメンバとなっているクラスタを
表しており、その代表メンバの音韻系列は、「NhoNde:s
u」(ンホンテース)になっている。また、例えば第8行
のエントリは、未登録語「オレンジ」の1つの発話と、未
登録語「本」の19の発話がメンバとなっているクラスタ
を表しており、その代表メンバの音韻系列は、「ohoN」
(オホン)になっている。他のエントリも同様のことを
表している。
【0185】図23によれば、同一の未登録語の発話に
ついて、良好にクラスタリングされていることが分か
る。
【0186】なお、図23の第8行のエントリにおいて
は、未登録語「オレンジ」の1つの発話と、未登録語「本」
の19の発話が、同一のクラスタにクラスタリングされ
ている。このクラスタはそのメンバとなっている発話か
ら、未登録語「本」のクラスタとなるべきであると考えら
れるが、未登録語「オレンジ」の発話も、そのクラスタの
メンバとなっている。しかしながらこのクラスタも、そ
の後に未登録語「本」の発話がさらに入力されていくと、
クラスタ分割され、未登録語「本」の発話だけをメンバと
するクラスタと、未登録語「オレンジ」の発話だけをメン
バとするクラスタにクラスタリングされると考えられ
る。
【0187】(4−2)顔認識部62の具体的構成 次に、顔認識部62の具体的構成について説明する。
【0188】図24及び図25に示すように、顔認識部
62は、動的に変化する環境下で一定時間内に応答する
ことができるが、CCDカメラ50(図5)から与えら
れる画像信号S1Aに基づく画像内から顔パターンを抽
出する顔抽出処理部90と、抽出された顔パターンを基
に顔を認識する顔認識処理部91から構成される。本実
施の形態では、顔パターンを抽出する顔抽出処理に「ガ
ボア・フィルタリング(Gabor Filtering)」を採用し、
また、顔パターンから顔を認識する顔認識処理には「サ
ポート・ベクタ・マシーン(Support Vector Machine:
SVM)」を採用している。
【0189】この顔認識部62は、顔パターンを顔認識
処理部91が学習する学習段階と、学習されたデータを
基に、画像信号S1Aから抽出された顔パターンを認識
する認識段階を持つ。
【0190】図24には、顔認識部62の学習段階の構
造を、また図25には、顔認識部62の認識段階の構成
をそれぞれ示している。
【0191】学習段階においては、図24に示すよう
に、CCDカメラ50(図5)から入力されたユーザの
撮像画像をガボア・フィルタでなる顔抽出処理部90で
顔抽出した結果がサポート・ベクタ・マシーンでなる顔
認識処理部91に投入される。顔認識処理部91では、
外部から供給される学習用のデータすなわち教師データ
を用いて、暫定的な識別関数を得る。
【0192】また、識別段階においては、図25に示す
ように、CCDカメラ50から供給される画像信号S1
Aに基づく画像内の人の顔を顔抽出処理部90で顔抽出
した結果が顔認識処理部91に投入される。顔認識処理
部91では、暫定的に得られた識別関数をさまざまなデ
ータベース上の画像に試して顔の検出を行う。そして、
検出に成功したものを顔データとして出力する。また検
出に失敗したものを非顔データとして学習データに追加
して、さらに学習をし直す。
【0193】以下、顔抽出処理部90におけるガボア・
フィルタリング処理と、顔認識処理部91におけるサポ
ート・ベクタ・マシーンについて、それぞれ詳細に説明
する。
【0194】(4−2−1)ガボア・フィルタリング処
理 人間の視覚細胞には、ある特定の方位に対して選択性を
持つ細胞が存在することが既に判っている。これは、垂
直の線に対して反応する細胞と、水平の線に反応する細
胞で構成される。ガボア・フィルタリングは、これと同
様に、方位選択性を持つ複数のフィルタで構成される空
間フィルタである。
【0195】ガボア・フィルタは、ガボア関数によって
空間表現される。ガボア関数g(x、y)は、次式
【0196】
【数3】
【0197】に示すように、コサイン成分からなるキャ
リアs(x、y)と、2次元ガウス分析状のエンベロー
ブw(x、y)とで構成される。
【0198】キャリアs(x、y)は、複数関数を用い
て、下式(4)のように表現される。ここで、座標値
(u0、v0)は空間周波数を表し、またPはコサイン成
分の位相を表す。
【0199】ここで、次式
【0200】
【数4】
【0201】に示すキャリアは、次式
【0202】
【数5】
【0203】に示すように、実数成分Re(s(x、
y)と虚数成分Im(s(x、y))に分離することが
できる。
【0204】一方、2次元ガウス分布からなるエンベロ
ーブは、次式
【0205】
【数6】
【0206】のように表現される。
【0207】ここで、座標軸(x0、y0)はこの関数の
ピークであり、定数a及びbはガウス分布のスケール・
パラメータである。また、添え字rは、次式
【0208】
【数7】
【0209】に示すような回転操作を意味する。
【0210】従って、上述の(4)式及び(6)式よ
り、ガボア・フィルタは、次式
【0211】
【数8】
【0212】に示すような空間関数として表現される。
【0213】本実施の形態に係る顔抽出処理部90は、
8種類の方向と3通りの周波数は採用して、合計24個
のガボア・フィルタを用いて顔抽出処理を行う。
【0214】ガボア・フィルタのレスポンスは、G
i番目のガボア・フィルタとし、i番目のガボアの結果
(Gabor Jet)をJとし、入力イメージをIとし、す
ると、次式
【0215】
【数9】
【0216】で表される。この(9)式の演算は、実際
には高速フーリエ変換を用いて高速化することができ
る。
【0217】作成したガボア・フィルタの性能を調べる
ためには、フィルタリングして得られた画素を再構築す
ることによって行う。再構築されたイメージHは、次式
【0218】
【数10】
【0219】のように表される。
【0220】そして、入力画像Iと再構築された画像H
とのエラーEは、次式
【0221】
【数11】
【0222】のように表される。
【0223】このエラーEを最小にするような最適なa
を求めることにより再構築することができる。
【0224】(4−2−2)サポート・ベクタ・マシー
ン本実施の形態では、顔認識処理部91における顔認識
に関して、パターン認識の分野で最も学習汎化能力が高
いとされるサポート・ベクタ・マシーン(SVM)を用
いて該当する顔か否かの識別を行う。
【0225】SVM自体に関しては、例えばB.sholkopf
外著の報告(B.Sholkopf、C.Burges、A.Smola、“Advan
ce in Kernel Support Vector Learning”、The MIT Pr
ess、1999.)を挙げることができる。本願出願人が行っ
た予備実験の結果からは、SVMによる顔認識方法は、
主成分分析(PCA)やニューラル・ネットワークを用
いる手法に比べ、良好な結果を示すことが判っている。
【0226】SVMは、識別関数に線形識別器(パーセ
プトロン)を用いた学習機械であり、カーネル関数を使
うことで非線形空間に拡張することができる。また識別
関数の学習では、クラス間分離のマージンを最大にとる
ように行われ、その解は2次数理計画法を解くことで得
られるため、グローバル解に到達できることを理論的に
保証することができる。
【0227】通常、パターン認識の問題は、テスト・サ
ンプルx=(x1、x2…。xn)に対して、次式
【0228】
【数12】
【0229】で与えられる識別関数f(x)を求めるこ
とである。
【0230】ここで、SVMの学習用の教師ラベルを次
【0231】
【数13】
【0232】のようにおく。
【0233】すると、SVMにおける顔パターンの認識
を次式
【0234】
【数14】
【0235】に示す制約条件の下での重み因子wの二乗
の最小化する問題としてとらえることができる。
【0236】このような制約のついた問題は、ラグラン
ジュの未定定数法を用いて解くことができる。すなわ
ち、次式
【0237】
【数15】
【0238】に示すラグランジュをまず導入し、次い
で、次式
【0239】
【数16】
【0240】に示すように、b、wの各々について偏微
分する。
【0241】この結果、SVMにおける顔パターンの識
別を
【0242】
【数17】
【0243】に示す2次計画問題としてとらえることが
できる。
【0244】特徴空間の次元数が、訓練サンプルの数よ
りも少ない場合は、スクラッチ変数ξ≧0を導入して、
制約条件を次式
【0245】
【数18】
【0246】のように変更する。
【0247】最適化については、次式
【0248】
【数19】
【0249】の目的関数を最小化する。
【0250】この(19)式において、Cは、制約条件
をどこまで緩めるかを指定する係数であり、実験的に値
を決定する必要がある。
【0251】ラグランジュ定数aに関する問題は次式
【0252】
【数20】
【0253】のように変更される。
【0254】しかし、この(20)式のままでは、非線
型の問題を解くことはできない。そこで、本実施の形態
では、カーネル関数K(x、x3)を導入して、一旦、
高次元の空間に写像して(カーネル・トリック)、その
空間で線形分離することにしている。したがって、元の
空間では非線型分離していることと同等となる。
【0255】カーネル関数は、ある写像Φを用いて次式
【0256】
【数21】
【0257】のように表される。
【0258】また、(12)式に示した識別関数も、次
【0259】
【数22】
【0260】のように表すことができる。
【0261】また学習に関しても、次式
【0262】
【数23】
【0263】に示す2次計画問題としてとらえることが
できる。
【0264】カーネルとしては、次式
【0265】
【数24】
【0266】に示すガウシアン・カーネル(RBF(Ra
dius Basic Function))などを用いることができる。
【0267】なお、ガボア・フィルタリングに関して
は、認識タスクに応じてフィルタの種類を変更するよう
にしても良い。
【0268】低周波でのフィルタリングでは、フィルタ
リング後のイメージすべてをベクトルとして持っている
のは冗長である。そこで、ダウンサンプリングして、ベ
クトルの次元を落とすようにしても良い。ダウンサンプ
リングされた24種類のベクトルを一列に並べ、長いベ
クトルにする。
【0269】また本実施の形態において顔パターンの認
識に適用されるSVMは、特徴空間を2分する識別器な
ので、「人A」か「人Aでない」かを判別するように学習す
る。そのため、データベースの画像中から、まず人Aの
顔画像を集め、ガボア・フィルタリング後のベクトルに
「人Aでない」というラベルを貼る。一般に、集める顔画
像の数は、特徴空間の次元より多い方がよい。10人の
顔を認識したい場合は、同様に、「人Bである」、「人B
でない」…のように、それぞれの人に対して1つの識別
器を構成する。
【0270】このような学習により、例えば、「人A」と
「人Aでない」を分けるサポート・ベクタが求まる。SV
Mは、特徴空間を2つに仕切る識別器であり、新しい顔
画像が入力されてきたときに、やはりガボア・フィルタ
リングのベクトルが、求めたサポート・ベクタが構成す
る境界面のどちら側にあるかで認識結果を出力する。そ
して、境界に対して、「人A」の領域にあれば「人A」と認
識することができる。また、「人Aではない」領域であれ
ば「人Aでない」と認識される。
【0271】CCDカメラ50からの画像信号S1Aに
基づく画像から顔の部分として切り取られる領域は一定
ではない。このため特徴空間で認識したいカテゴリとは
離れた点に投影される可能性がある。従って、目や鼻、
口といった特徴をもつパーツに推定してアフィン変換に
よりモーフィングすることにより認識率が向上する可能
性がある。
【0272】また認識性能を上げるために、ブートスト
ラップ手法を採用することができる。学習に用いる画像
とは別に画像を撮影して、ブートストラップに用いる。
これは、学習した識別器が誤った認識結果を出したとき
に、その入力画像を学習セットに投入して学習し直すこ
とを意味する。
【0273】また認識性能を上げるために、認識結果の
時間変化を見る方法もある。最も簡単な方法では、10
回中8回「人A」と認識されたら「人A」と認識するなどで
ある。他に、カルマン・フィルタを用いた予測法なども
提案されている。
【0274】(5)本実施の形態の動作及び効果 以上の構成において、このロボット1では、新規な人と
の対話を通してその人の名前を取得し、当該名前を、マ
イクロホン51やCCDカメラ50の出力に基づいて検
出したその人の声の音響的特徴及び顔の形態的特徴の各
データと関連付けて記憶すると共に、これら記憶した各
種データに基づいて、名前を取得していないさらに新規
な人の登場を認識し、その新規な人の名前や声の音響的
特徴及び顔の形態的特徴を上述と同様にして取得し記憶
するようにして、人の名前を学習する。
【0275】従って、このロボット1は、音声コマンド
の入力やタッチセンサの押圧操作等のユーザからの明示
的な指示による名前登録を必要とすることなく、人間が
普段行うように、通常の人との対話を通して新規な人物
や物体等の名前を自然に学習することができる。
【0276】以上の構成によれば、新規な人との対話を
通してその人の名前を取得し、当該名前を、マイクロホ
ン51やCCDカメラ50の出力に基づいて検出したそ
の人の声の音響的特徴及び顔の形態的特徴の各データと
関連付けて記憶すると共に、これら記憶した各データに
基づいて、名前を取得していないさらに新規な人の登場
を認識し、その新規な人の名前や声の音響的特徴及び顔
の形態的特徴を上述と同様にして取得し記憶するように
して、人の名前を学習するようにしたことにより、通常
の人との対話を通して新規な人物や物体等の名前を自然
に学習し得るようにすることができ、かくしてエンター
テインメント性を格段的に向上させ得るロボットを実現
できる。
【0277】(6)他の実施の形態 なお上述の実施の形態においては、本発明を図1のよう
に構成された2足歩行型のロボット1に適用するように
した場合について述べたが、本発明はこれに限らず、こ
の他種々のロボット装置及びロボット装置以外のこの他
種々の装置に広く適用することができる。
【0278】また上述の実施の形態においては、人間と
対話するための機能を有し、当該対話を通して対象とす
る物体の名前を人間から取得する対話手段を、音声認識
部60、対話制御部63及び音声合成部64から構成す
ることにより、人との音声対話により人の名前を取得す
るようにした場合について述べたが、本発明はこれに限
らず、例えばキーボード入力等による文字対話により人
の名前を取得するように対話手段を構成するようにして
も良い。
【0279】さらに上述の実施の形態においては、名前
学習の対象が人物である場合について述べたが、本発明
はこれに限らず、人物に代えて又は人物に加えて以外の
この他種々の物体を名前学習の対象とするようにしても
良い。
【0280】この場合において、上述の実施の形態にお
いては、対象となる人物の声の音響的特徴及び顔の形態
的特徴からその人物をそれぞれ認識し、これらの認識結
果に基づいてその人物が新規な人物であるか否かを判別
するようにした場合について述べたが、本発明はこれに
限らず、これに代えて又はこれに加えて、これら以外の
例えば体型やにおい等の生物学的に個体を識別可能な複
数種類の各種特徴からその人物をそれぞれ認識し、これ
らの認識結果に基づいてその人物が新規な人であるか否
かを判別するようにしても良い。また名前学習対象が人
物以外の物体である場合には、色や形状、模様、大きさ
等の物体を識別可能な複数種類の特徴からそれぞれその
物体を認識し、これらの認識結果に基づいてその物体が
新規な物体であるか否かを判別するようにしても良い。
そしてこれらの場合には、それぞれ物体の異なる所定の
特徴を検出すると共に、当該検出結果及び予め記憶して
いる既知の物体の対応する特徴のデータに基づいて、当
該対象とする物体を認識する複数の認識手段を設けるよ
うにすれば良い。
【0281】さらに上述の実施の形態においては、既知
の物体の名前及び当該物体に対する各認識手段(話者認
識部61及び顔認識部62)の認識結果を関連付けた関
連付け情報を記憶する記憶手段をメモリにより構成する
ようにした場合について述べたが、本発明はこれに限ら
ず、情報を記憶できるメモリ以外の例えばディスク状記
録媒体等のこの他種々の記憶手段を広く適用することが
できる。
【0282】さらに上述の実施の形態においては、話者
認識部61及び顔認識部62が対象とする人を認識する
認識処理を1度しか行わないようにした場合について述
べたが、本発明はこれに限らず、例えば認識不能(SI
D=−1)であった場合にはもう1度認識処理を行うよ
うにするようにしても良く、これ以外のときであっても
複数回の認識処理を行うようにしても良い。このように
することによって認識結果の精度を向上させることがで
きる。
【0283】さらに上述の実施の形態においては、対話
制御部63が複数の認識手段(音声認識部60、話者認
識部61、顔認識部62)の認識結果の多数決により、
その人が新規な人であるか否かを判断するようにした場
合について述べたが、本発明はこれに限らず、多数決以
外の手法によりこれら複数の認識手段の各認識結果に基
づいてその人が新規な人であるか否かを判断するように
しても良い。
【0284】この場合において、例えば複数の認識手段
の各認識結果に、その認識手段の認識性能に応じて重み
付けをして、その重み付けした各認識結果に基づいて対
象とする物体が新規なものであるか否かを判断する方法
や、最も認識性能の高い認識手段と他の1つの認識手段
の認識結果に基づき新規な人と判断できた場合には、他
の認識手段の認識結果を利用しない方法等など種々の方
法を広く適用することができる。
【0285】さらに上述の実施の形態においては、話者
認識部61や顔認識部62が対象とする人を正しく認識
できた場合にその話者認識部61及び又は顔認識部62
に追加学習させることにより、統計的な安定によって認
識精度を向上させるようにした場合について述べたが、
本発明はこれに限らず、メモリ65に格納される関連付
け情報についても、同様に、何度も同じ組み合わせを覚
えることによってその関連付け情報の信頼性を向上させ
得るような機能を設けるようにしても良い。具体的に
は、このような機能の具現化方法として、例えば『電子
情報通信学会論文誌,D-II,Vol.J82-D-II,No6,pp.1072-1
081.』に記載されたニューラルネットを用いた方法を利
用することができる。
【0286】
【発明の効果】以上のように本発明によれば、学習装置
において、対話を通して対象とする物体の名前を取得す
る対話手段と、対象とする物体の複数の特徴のデータを
検出し、当該検出結果及び既知の物体の対応する特徴の
データに基づいて、対象とする物体を認識する複数の認
識手段と、既知の物体の名前に対する各認識手段の認識
結果を関連付けた関連付け情報を記憶する記憶手段と、
対話手段が取得した対象とする物体の名前、対象とする
物体に対する各認識手段の認識結果、及び記憶手段が記
憶する関連付け情報に基づいて、対象とする物体が新規
な物体であるか否かを判断する判断手段と、判断手段が
対象とする物体を新規な物体と判断したときに、当該対
象とする物体に対応する複数の特徴のデータを各認識手
段に記憶させると共に、当該対象とする物体についての
関連付け情報を記憶手段に記憶させる制御手段とを設け
るようにしたことにより、人間が普段行うように、通常
の人との対話を通して新規な人物や物体等の名前を自然
に学習することができ、かくしてエンターテイメント性
を格段的に向上させ得る学習装置を実現できる。
【0287】また本発明によれば、学習方法において、
対話を通して対象とする物体の名前を取得する対話ステ
ップと、対象とする物体の複数の特徴のデータを検出
し、当該検出結果及び既知の物体の対応する特徴のデー
タに基づいて、対象とする物体を認識する複数の認識ス
テップと、既知の物体の名前に対する各認識手段の認識
結果を関連付けた関連付け情報を記憶する記憶ステップ
と、対話手段が取得した対象とする物体の名前、対象と
する物体に対する各認識手段の認識結果、及び記憶手段
が記憶する関連付け情報に基づいて、対象とする物体が
新規な物体であるか否かを判断する判断ステップと、判
断手段が対象とする物体を新規な物体と判断したとき
に、当該対象とする物体に対応する複数の特徴のデータ
を各認識手段に記憶させると共に、当該対象とする物体
についての関連付け情報を記憶手段に記憶させる制御ス
テップとを設けるようにしたことにより、人間が普段行
うように、通常の人との対話を通して新規な人物や物体
等の名前を自然に学習することができ、かくしてエンタ
ーテイメント性を格段的に向上させ得る学習方法を実現
できる。
【0288】さらに本発明によれば、ロボット装置にお
いて、対話を通して対象とする物体の名前を取得する対
話手段と、対象とする物体の複数の特徴のデータを検出
し、当該検出結果及び既知の物体の対応する特徴のデー
タに基づいて、対象とする物体を認識する複数の認識手
段と、既知の物体の名前に対する各認識手段の認識結果
を関連付けた関連付け情報を記憶する記憶手段と、対話
手段が取得した対象とする物体の名前、対象とする物体
に対する各認識手段の認識結果、及び記憶手段が記憶す
る関連付け情報に基づいて、対象とする物体が新規な物
体であるか否かを判断する判断手段と、判断手段が対象
とする物体を新規な物体と判断したときに、当該対象と
する物体に対応する複数の特徴のデータを各認識手段に
記憶させると共に、当該対象とする物体についての関連
付け情報を記憶手段に記憶させる制御手段とを設けるよ
うにしたことにより、人間が普段行うように、通常の人
との対話を通して新規な人物や物体等の名前を自然に学
習することができ、かくしてエンターテイメント性を格
段的に向上させ得るロボット装置を実現できる。
【0289】
【図面の簡単な説明】
【図1】本実施の形態によるロボットの外観構成を示す
斜視図である。
【図2】本実施の形態によるロボットの外観構成を示す
斜視図である。
【図3】本実施の形態によるロボットの外観構成の説明
に供する略線図である。
【図4】本実施の形態によるロボットの内部構成の説明
に供する略線図である。
【図5】本実施の形態によるロボットの内部構成の説明
に供する略線図である。
【図6】名前学習機能に関するメイン制御部40の処理
の説明に供するブロック図である。
【図7】メモリにおけるFID及びSIDと名前との関
連付けの説明に供する概念図である。
【図8】名前学習処理手順を示すフローチャートであ
る。
【図9】名前学習処理手順を示すフローチャートであ
る。
【図10】名前学習処理時における対話例を示す略線図
である。
【図11】名前学習処理時における対話例を示す略線図
である。
【図12】FID及びSIDと名前との新規登録の説明
に供する概念図である。
【図13】名前学習時における対話例を示す略線図であ
る。
【図14】名前学習処理時における対話例を示す略線図
である。
【図15】音声認識部の構成を示すブロック図である。
【図16】単語辞書の説明に供する概念図である。
【図17】文法規則の説明に供する概念図である。
【図18】特徴ベクトルバッファの記憶内容の説明に供
する概念図である。
【図19】スコアシートの説明に供する概念図である。
【図20】音声認識処理手順を示すフローチャートであ
る。
【図21】未登録語処理手順を示すフローチャートであ
る。
【図22】クラスタ分割処理手順を示すフローチャート
である。
【図23】シミュレーション結果を示す概念図である。
【図24】学習時における顔認識部の構成を示すブロッ
ク図である。
【図25】認識時における顔認識部の構成を示すブロッ
ク図である。
【符号の説明】
1……ロボット、40……メイン制御部、50……CC
Dカメラ、51……マイクロホン、54……スピーカ、
60……音声認識部、61……話者認識部、62……顔
認識部、63……対話制御部、64……音声合成部、6
5……メモリ、S1A……画像信号、S1B、S3……
音声信号、D1、D2……文字列データ、RT1……名
前学習処理手順。
フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 15/06 G10L 3/00 545F 17/00 551H R (72)発明者 浅野 康治 東京都品川区北品川6丁目7番35号ソニ ー株式会社内 (72)発明者 大久保 厚志 東京都品川区北品川6丁目7番35号ソニ ー株式会社内 (56)参考文献 特開2001−300148(JP,A) 特開 平7−287695(JP,A) 特開2001−228891(JP,A) 特開2002−49424(JP,A) 特開2002−202795(JP,A) 特開2003−22131(JP,A) 特開2003−186494(JP,A) 特開2003−44080(JP,A) 特開2002−219677(JP,A) Deb Roy,Integrati on of speech and v ision using mutual information,Proce edings of the 2000 I EEE International Conference on Acou stics, Speech, and Signal Processin g,米国,2000年 6月 5日,Vo l.4,Pages 2369−2372 金, 岩橋,知覚情報の統合に基づく 言語音声単位の獲得アルゴリズム,電子 情報通信学会技術研究報告[思考と言語 ],日本,2000年10月13日,TL2000− 21,Pages 9−16 下村, 青山, 藤田,自立型エンタ テイメントロボットと音声対話,人工知 能学会第36回言語・音声理解と対話処理 研究会資料,日本,2002年11月 7日, Pages 21−26 (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28 A63H 11/00 B25J 5/00 JICSTファイル(JOIS) IEEE Xplore

Claims (15)

    (57)【特許請求の範囲】
  1. 【請求項1】対話を通して対象とする物体の名前を取得
    する対話手段と、 上記対象とする物体の複数の特徴のデータを検出し、当
    該検出結果及び既知の物体の対応する特徴のデータに基
    づいて、上記対象とする物体を認識する複数の認識手段
    と、 上記既知の物体の名前に対する各上記認識手段の認識結
    果を関連付けた関連付け情報を記憶する記憶手段と、 上記対話手段が取得した上記対象とする物体の名前、上
    記対象とする物体に対する各上記認識手段の認識結果、
    及び上記記憶手段が記憶する上記関連付け情報に基づい
    て、上記対象とする物体が新規な物体であるか否かを判
    断する判断手段と、 上記判断手段が上記対象とする物体を新規な物体と判断
    したときに、当該対象とする物体に対応する上記複数の
    特徴のデータを各上記認識手段に記憶させると共に、当
    該対象とする物体についての関連付け情報を上記記憶手
    段に記憶させる制御手段とを具えることを特徴とする学
    習装置。
  2. 【請求項2】上記制御手段は、 上記判断手段が上記対象とする物体を上記既知の物体で
    あると判断したときに、当該対象とする物体を正しく認
    識できた上記認識手段を、追加学習するよう制御するこ
    とを特徴とする請求項1に記載の学習装置。
  3. 【請求項3】上記制御手段は、 上記判断手段が上記対象とする物体を上記既知の物体で
    あると判断したときに、当該対象とする物体を正しく認
    識できなかった上記認識手段を、訂正学習するよう制御
    することを特徴とする請求項1に記載の学習装置。
  4. 【請求項4】上記判断手段は、 上記記憶手段が記憶する上記関連付け情報を参照しなが
    ら、上記対話手段が取得した上記対象とする物体の名前
    及び当該物体に対する各上記認識手段の認識結果の多数
    決により、上記対象とする物体が新規な物体であるか否
    かを判断することを特徴とする請求項1に記載の学習装
    置。
  5. 【請求項5】上記制御手段は、 必要に応じて対話を引き伸ばすように上記対話手段を制
    御することを特徴とする請求項1に記載の学習装置。
  6. 【請求項6】対話を通して対象とする物体の名前を取得
    する対話ステップと、 上記対象とする物体の複数の特徴のデータを検出し、当
    該検出結果及び既知の物体の対応する特徴のデータに基
    づいて、上記対象とする物体を認識する複数の認識ステ
    ップと、 上記既知の物体の名前に対する各上記認識手段の認識結
    果を関連付けた関連付け情報を記憶する記憶ステップ
    と、 上記対話手段が取得した上記対象とする物体の名前、上
    記対象とする物体に対する各上記認識手段の認識結果、
    及び上記記憶手段が記憶する上記関連付け情報に基づい
    て、上記対象とする物体が新規な物体であるか否かを判
    断する判断ステップと、 上記判断手段が上記対象とする物体を新規な物体と判断
    したときに、当該対象とする物体に対応する上記複数の
    特徴のデータを各上記認識手段に記憶させると共に、当
    該対象とする物体についての関連付け情報を上記記憶手
    段に記憶させる制御ステップとを具えることを特徴とす
    る学習方法。
  7. 【請求項7】上記制御ステップでは、 上記対象とする物体を上記既知の物体であると判断した
    ときに、当該対象とする物体を正しく認識できた上記特
    徴について、追加学習することを特徴とする請求項6に
    記載の学習方法。
  8. 【請求項8】上記制御ステップでは、 上記対象とする物体を上記既知の物体であると判断した
    ときに、当該対象とする物体を正しく認識できなかった
    上記特徴について、訂正学習することを特徴とする請求
    項6に記載の学習方法。
  9. 【請求項9】上記判断ステップでは、 上記関連付け情報を参照しながら、取得した上記対象と
    する物体の名前及び当該物体の各上記特徴にそれぞれ基
    づく各認識結果の多数決により、上記対象とする物体
    規な物体であるか否かを判断することを特徴とする請
    求項6に記載の学習方法。
  10. 【請求項10】上記対話ステップでは、 要に応じて当該対話を引き伸ばすことを特徴とする請
    求項6に記載の学習方法。
  11. 【請求項11】対話を通して対象とする物体の名前を取
    得する対話手段と、 上記対象とする物体の複数の特徴のデータを検出し、当
    該検出結果及び既知の物体の対応する特徴のデータに基
    づいて、上記対象とする物体を認識する複数の認識手段
    と、 上記既知の物体の名前に対する各上記認識手段の認識結
    果を関連付けた関連付け情報を記憶する記憶手段と、 上記対話手段が取得した上記対象とする物体の名前、上
    記対象とする物体に対する各上記認識手段の認識結果、
    及び上記記憶手段が記憶する上記関連付け情報に基づい
    て、上記対象とする物体が新規な物体であるか否かを判
    断する判断手段と、 上記判断手段が上記対象とする物体を新規な物体と判断
    したときに、当該対象とする物体に対応する上記複数の
    特徴のデータを各上記認識手段に記憶させると共に、当
    該対象とする物体についての関連付け情報を上記記憶手
    段に記憶させる制御手段とを具えることを特徴とするロ
    ボット装置。
  12. 【請求項12】上記制御手段は、 上記判断手段が上記対象とする物体を上記既知の物体で
    あると判断したときに、当該対象とする物体を正しく認
    識できた上記認識手段を、追加学習するよう制御するこ
    とを特徴とする請求項11に記載のロボット装置。
  13. 【請求項13】上記制御手段は、 上記判断手段が上記対象とする物体を上記既知の物体で
    あると判断したときに、当該対象とする物体を正しく認
    識できなかった上記認識手段を、訂正学習するよう制御
    することを特徴とする請求項11に記載のロボット装
    置。
  14. 【請求項14】上記判断手段は、 上記記憶手段が記憶する上記関連付け情報を参照しなが
    ら、上記対話手段が取得した上記対象とする物体の名前
    及び当該物体に対する各上記認識手段の認識結果の多数
    決により、上記対象とする物体が上記新規な物体である
    か否かを判断することを特徴とする請求項11に記載の
    ロボット装置。
  15. 【請求項15】上記制御手段は、 必要に応じて対話を引き伸ばすように上記対話手段を制
    御することを特徴とする請求項11に記載のロボット装
    置。
JP2002060425A 2002-03-06 2002-03-06 学習装置及び学習方法並びにロボット装置 Expired - Fee Related JP3529049B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2002060425A JP3529049B2 (ja) 2002-03-06 2002-03-06 学習装置及び学習方法並びにロボット装置
KR1020037014405A KR100988708B1 (ko) 2002-03-06 2003-03-05 학습 장치, 학습 방법 및 로봇 장치
CNB038002256A CN1241168C (zh) 2002-03-06 2003-03-05 识别装置和识别方法,以及机器人设备
DE60318990T DE60318990T2 (de) 2002-03-06 2003-03-05 Lernvorrichtung, lernverfahren und robotervorrichtung
EP03710242A EP1482480B1 (en) 2002-03-06 2003-03-05 Learning apparatus, learning method, and robot apparatus
PCT/JP2003/002560 WO2003075261A1 (fr) 2002-03-06 2003-03-05 Dispositif d'apprentissage, procede d'apprentissage et dispositif robot
US10/476,662 US7720775B2 (en) 2002-03-06 2003-03-05 Learning equipment and learning method, and robot apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002060425A JP3529049B2 (ja) 2002-03-06 2002-03-06 学習装置及び学習方法並びにロボット装置

Publications (3)

Publication Number Publication Date
JP2003255989A JP2003255989A (ja) 2003-09-10
JP3529049B2 true JP3529049B2 (ja) 2004-05-24
JP2003255989A5 JP2003255989A5 (ja) 2004-09-30

Family

ID=27784796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002060425A Expired - Fee Related JP3529049B2 (ja) 2002-03-06 2002-03-06 学習装置及び学習方法並びにロボット装置

Country Status (7)

Country Link
US (1) US7720775B2 (ja)
EP (1) EP1482480B1 (ja)
JP (1) JP3529049B2 (ja)
KR (1) KR100988708B1 (ja)
CN (1) CN1241168C (ja)
DE (1) DE60318990T2 (ja)
WO (1) WO2003075261A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7152050B2 (en) 2003-02-19 2006-12-19 Sony Corporation Learning system capable of performing additional learning and robot apparatus
WO2008018136A1 (fr) * 2006-08-10 2008-02-14 Pioneer Corporation dispositif de reconnaissance d'un individu en fonction de sa voix, procédé de reconnaissance d'un individu en fonction de sa voix, etc.

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3919726B2 (ja) * 2003-10-02 2007-05-30 株式会社東芝 学習装置及びその方法
JP4303602B2 (ja) * 2004-01-09 2009-07-29 本田技研工業株式会社 顔面像取得システム
GB0407260D0 (en) * 2004-03-31 2004-05-05 Ibm Accelerated solution of constraint satisfaction problems by partioning of the variable space
JP4569186B2 (ja) * 2004-06-15 2010-10-27 ソニー株式会社 画像処理装置および方法、記録媒体、並びにプログラム
JP4086024B2 (ja) * 2004-09-14 2008-05-14 ソニー株式会社 ロボット装置及びその行動制御方法
CN100452710C (zh) * 2004-09-29 2009-01-14 上海赢思软件技术有限公司 一种短信机器人系统
JP4204541B2 (ja) 2004-12-24 2009-01-07 株式会社東芝 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
EP2138958A1 (en) * 2008-06-27 2009-12-30 Honda Research Institute Europe GmbH Sensor signal processing with feature classifier cooperation
JP2010055375A (ja) * 2008-08-28 2010-03-11 Toshiba Corp 電子機器操作指示装置およびその操作方法
EP2422295A1 (en) * 2009-04-23 2012-02-29 Koninklijke Philips Electronics N.V. Object-learning robot and method
JP2010282199A (ja) 2009-06-02 2010-12-16 Honda Motor Co Ltd 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム
JP2011115898A (ja) * 2009-12-03 2011-06-16 Honda Motor Co Ltd ロボット
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8452451B1 (en) * 2011-05-06 2013-05-28 Google Inc. Methods and systems for robotic command language
US9566710B2 (en) 2011-06-02 2017-02-14 Brain Corporation Apparatus and methods for operating robotic devices using selective state space training
JP5698614B2 (ja) * 2011-06-22 2015-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation コンテキスト情報処理システム及び方法
US8996175B2 (en) 2012-06-21 2015-03-31 Rethink Robotics, Inc. Training and operating industrial robots
EP2689650B1 (en) * 2012-07-27 2014-09-10 Honda Research Institute Europe GmbH Trainable autonomous lawn mower
US9764468B2 (en) 2013-03-15 2017-09-19 Brain Corporation Adaptive predictor apparatus and methods
US9242372B2 (en) 2013-05-31 2016-01-26 Brain Corporation Adaptive robotic interface apparatus and methods
US9792546B2 (en) 2013-06-14 2017-10-17 Brain Corporation Hierarchical robotic controller apparatus and methods
US9314924B1 (en) 2013-06-14 2016-04-19 Brain Corporation Predictive robotic controller apparatus and methods
US9384443B2 (en) 2013-06-14 2016-07-05 Brain Corporation Robotic training apparatus and methods
US9436909B2 (en) 2013-06-19 2016-09-06 Brain Corporation Increased dynamic range artificial neuron network apparatus and methods
US20150032258A1 (en) * 2013-07-29 2015-01-29 Brain Corporation Apparatus and methods for controlling of robotic devices
JP6360484B2 (ja) * 2013-09-03 2018-07-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話制御方法
US9579789B2 (en) 2013-09-27 2017-02-28 Brain Corporation Apparatus and methods for training of robotic control arbitration
US9296101B2 (en) 2013-09-27 2016-03-29 Brain Corporation Robotic control arbitration apparatus and methods
US9597797B2 (en) 2013-11-01 2017-03-21 Brain Corporation Apparatus and methods for haptic training of robots
US9463571B2 (en) 2013-11-01 2016-10-11 Brian Corporation Apparatus and methods for online training of robots
US9248569B2 (en) 2013-11-22 2016-02-02 Brain Corporation Discrepancy detection apparatus and methods for machine learning
US9358685B2 (en) 2014-02-03 2016-06-07 Brain Corporation Apparatus and methods for control of robot actions based on corrective user inputs
US9346167B2 (en) 2014-04-29 2016-05-24 Brain Corporation Trainable convolutional network apparatus and methods for operating a robotic vehicle
US9630318B2 (en) 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
US9881349B1 (en) 2014-10-24 2018-01-30 Gopro, Inc. Apparatus and methods for computerized object identification
US9717387B1 (en) 2015-02-26 2017-08-01 Brain Corporation Apparatus and methods for programming and training of robotic household appliances
JP6084654B2 (ja) * 2015-06-04 2017-02-22 シャープ株式会社 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
EP3332923A4 (en) * 2015-08-04 2019-04-10 Beijing Evolver Robotics Co., Ltd MULTIFUNCTIONAL HOUSE ROBOT
JP6681800B2 (ja) * 2016-07-15 2020-04-15 株式会社日立製作所 制御装置、制御システム、および制御方法
AU2017316089B2 (en) * 2016-08-25 2020-10-29 Lg Electronics Inc. Mobile robot and control method therefor
CN109689000B (zh) * 2016-09-12 2021-05-28 株式会社富士 介助装置
US10430657B2 (en) 2016-12-12 2019-10-01 X Development Llc Object recognition tool
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
CN109643550A (zh) * 2017-06-15 2019-04-16 株式会社Cai梅帝亚 对话机器人及对话系统、以及对话程序
KR102433393B1 (ko) * 2017-12-12 2022-08-17 한국전자통신연구원 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
US10593318B2 (en) * 2017-12-26 2020-03-17 International Business Machines Corporation Initiating synthesized speech outpout from a voice-controlled device
CN108172226A (zh) * 2018-01-27 2018-06-15 上海萌王智能科技有限公司 一种可学习应答语音和动作的语音控制机器人
US11126257B2 (en) * 2018-04-17 2021-09-21 Toyota Research Institute, Inc. System and method for detecting human gaze and gesture in unconstrained environments
DE102018207513A1 (de) * 2018-05-15 2019-11-21 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen eines Roboters über einen Sprachdialog
US11597086B2 (en) 2018-09-13 2023-03-07 The Charles Stark Draper Laboratory, Inc. Food-safe, washable interface for exchanging tools
KR20200098225A (ko) 2019-02-12 2020-08-20 삼성전자주식회사 객체를 모니터링하는 방법 및 이를 지원하는 전자 장치
JP6921448B1 (ja) * 2020-05-20 2021-08-18 株式会社ルークシステム 新規物体操作ロボットの制御プログラムおよび制御方法、ならびに、新規物体操作システム
WO2022254829A1 (ja) 2021-06-04 2022-12-08 ソニーグループ株式会社 学習装置、学習方法及び学習プログラム
WO2023146118A1 (ko) * 2022-01-25 2023-08-03 삼성전자 주식회사 Hci를 통해 태그를 획득하고 물체에 대한 명령을 수행하는 방법 및 전자 장치

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6118888A (en) * 1997-02-28 2000-09-12 Kabushiki Kaisha Toshiba Multi-modal interface apparatus and method
JP3211186B2 (ja) * 1997-12-15 2001-09-25 オムロン株式会社 ロボット、ロボットシステム、ロボットの学習方法、ロボットシステムの学習方法および記録媒体
JP4366617B2 (ja) * 1999-01-25 2009-11-18 ソニー株式会社 ロボット装置
JP2002160185A (ja) * 2000-03-31 2002-06-04 Sony Corp ロボット装置、ロボット装置の行動制御方法、外力検出装置及び外力検出方法
JP2001300148A (ja) * 2000-04-18 2001-10-30 Casio Comput Co Ltd アクション応答システムおよびそのプログラム記録媒体
JP4296736B2 (ja) * 2000-10-13 2009-07-15 ソニー株式会社 ロボット装置
JP4108342B2 (ja) * 2001-01-30 2008-06-25 日本電気株式会社 ロボット、ロボット制御システム、およびそのプログラム
JP4143305B2 (ja) * 2001-01-30 2008-09-03 日本電気株式会社 ロボット装置、照合環境判定方法、及び照合環境判定プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deb Roy,Integration of speech and vision using mutual information,Proceedings of the 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing,米国,2000年 6月 5日,Vol.4,Pages 2369−2372
下村, 青山, 藤田,自立型エンタテイメントロボットと音声対話,人工知能学会第36回言語・音声理解と対話処理研究会資料,日本,2002年11月 7日,Pages 21−26
金, 岩橋,知覚情報の統合に基づく言語音声単位の獲得アルゴリズム,電子情報通信学会技術研究報告[思考と言語],日本,2000年10月13日,TL2000−21,Pages 9−16

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7152050B2 (en) 2003-02-19 2006-12-19 Sony Corporation Learning system capable of performing additional learning and robot apparatus
WO2008018136A1 (fr) * 2006-08-10 2008-02-14 Pioneer Corporation dispositif de reconnaissance d'un individu en fonction de sa voix, procédé de reconnaissance d'un individu en fonction de sa voix, etc.

Also Published As

Publication number Publication date
KR100988708B1 (ko) 2010-10-18
US7720775B2 (en) 2010-05-18
JP2003255989A (ja) 2003-09-10
KR20040094289A (ko) 2004-11-09
EP1482480B1 (en) 2008-02-06
CN1507617A (zh) 2004-06-23
CN1241168C (zh) 2006-02-08
US20050004710A1 (en) 2005-01-06
EP1482480A1 (en) 2004-12-01
WO2003075261A1 (fr) 2003-09-12
DE60318990T2 (de) 2009-02-05
DE60318990D1 (de) 2008-03-20
EP1482480A4 (en) 2005-12-14

Similar Documents

Publication Publication Date Title
JP3529049B2 (ja) 学習装置及び学習方法並びにロボット装置
Tatulli et al. Feature extraction using multimodal convolutional neural networks for visual speech recognition
Abdel-Hamid et al. Convolutional neural networks for speech recognition
Wu et al. A novel lip descriptor for audio-visual keyword spotting based on adaptive decision fusion
CN107972028B (zh) 人机交互方法、装置及电子设备
CN112331183B (zh) 基于自回归网络的非平行语料语音转换方法及系统
CN112216307B (zh) 语音情感识别方法以及装置
CN110751260A (zh) 电子设备、任务处理的方法以及训练神经网络的方法
Liu et al. Audio-visual keyword spotting based on adaptive decision fusion under noisy conditions for human-robot interaction
Shareef et al. A review: isolated Arabic words recognition using artificial intelligent techniques
Azam et al. Speaker verification using adapted bounded Gaussian mixture model
Vimala et al. Isolated speech recognition system for Tamil language using statistical pattern matching and machine learning techniques
CN116312512A (zh) 面向多人场景的视听融合唤醒词识别方法及装置
Zegers Speech recognition using neural networks
Kasabov et al. Incremental learning in autonomous systems: evolving connectionist systems for on-line image and speech recognition
Jadczyk Audio-visual speech processing system for Polish applicable to human-computer interaction
KR100795947B1 (ko) 치열영상을 이용한 생체인식 시스템과 그 인식 방법 및이를 기록한 기록매체
Amami et al. A robust voice pathology detection system based on the combined bilstm–cnn architecture
Su et al. Convolutional neural network bottleneck features for bi-directional generalized variable parameter hmms
Luo et al. Research and application of voiceprint recognition based on a deep recurrent neural network
JPH11122114A (ja) コードブック作成装置およびコードブック作成方法、並びにベクトル量子化装置およびベクトル量子化方法
Addarrazi et al. The Hmm Based Amazigh Digits Audiovisual Speech Recognition System
McShane et al. Visual Speech Recognition in Sparse Data Domains
Rigoll Information theory principles for the design of self-organizing maps in combination with hidden Markov modeling for continuous speech recognition
Fezari et al. Human Machine Communication Interface System Based on Merging Best Features and Semantic Models

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040219

R151 Written notification of patent or utility model registration

Ref document number: 3529049

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080305

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100305

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100305

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110305

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120305

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120305

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees