JP2003122394A

JP2003122394A - 識別対象を認識する方法と装置及び該装置を搭載したロボット

Info

Publication number: JP2003122394A
Application number: JP2001318494A
Authority: JP
Inventors: Atsushi Akiyama; 淳秋山
Original assignee: Azbil Corp
Current assignee: Azbil Corp
Priority date: 2001-10-16
Filing date: 2001-10-16
Publication date: 2003-04-25

Abstract

(57)【要約】【課題】不特定位置に存在する特定の形状を有しかつ
音を発する識別対象を認識する際に、その識別対象から
発せられる音以外の音が発生する環境であっても、大き
な時間遅れが発生することなく、その識別対象を認識可
能にする方法と装置及び該装置を搭載したロボットを提
供する。【解決手段】上記の識別対象を認識する装置は、複数
の音源同定用マイクロホン１ａ，１ｂ，１ｃと、全方向
を撮影可能な少なくとも１個のカメラ４と、音源同定用
マイクロホン１ａ，１ｂ，１ｃより入力された音に基づ
き、識別対象が存在する方向を概略的に決定する音源同
定処理手段２と、決定された方向にカメラ４の撮影方向
を合わせる方向制御手段３と、カメラ４から画像情報を
取り込んで識別対象を抽出する識別対象抽出処理手段５
とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、不特定位置に存在
する特定の形状を有しかつ音を発する識別対象を認識す
る方法、装置及び該装置を搭載したロボットに関する。

【０００２】

【従来の技術】人間とのコミュニケーションを目的とし
たロボットや自動ドアその他の自動制御装置では、その
コミュニケーションの対象である人間を認識するため
に、種々の認識システムが搭載されている。これらの認
識システムは、識別対象を認識するために音や画像を検
知するものであるが、通常はどちらか１つを利用してい
る。

【０００３】音を利用する認識システムでは、例えば人
間から発せられる声を識別して人間の存在を認識する。
一方、画像を利用する認識システムでは、例えば人間を
カメラで撮影し、その撮影した画像を基に人間の存在を
認識する。

【０００４】

【発明が解決しようとする課題】しかしながら、音を利
用した認識システムでは、マイクロホン等の入力手段か
らは人間の声以外の音も同時に入力されてしまうため、
人間の声を他の音と識別する必要があるが、その識別は
非常に困難である。従って、音を利用した認識システム
では、人間の声以外の音が発生する環境で利用すること
は現実的に難しい。

【０００５】一方、画像を利用した認識システムでは、
カメラの撮影範囲が限られるため、マイクロホンに音が
入るように任意の方向から画像を取り込むことができ
ず、認識対象が概ねカメラの正面に存在していなければ
ならない。従って、認識対象をカメラで確実に捉えるた
めには、例えば、ロボットに搭載したカメラを回転させ
或いはロボットを円周方向に移動させながらロボットの
全方位（360°）の画像を順次スキャンするような構成
としたり、複数のカメラをロボットの円周方向に所定角
度間隔で設けるような構成とする必要がある。しかしな
がら、取り込んだ画像の量が膨大となるため、その画像
処理に時間がかかり、人間の存在を認識するまでに大き
な時間遅れが発生してしまうことがある。

【０００６】また、音及び画像の両者を利用した認識シ
ステムもあるが、これらは音による認識処理と画像によ
る認識処理を並列で行い、その結果を基に確信度の高い
認識を行わせるものであり、音による認識と画像による
認識が組み合わされているだけである。すなわち、人間
の存在を認識するまでに大きな時間遅れが発生してしま
う等の問題点を解消するには至っていない。

【０００７】本発明の目的は、不特定位置に存在する特
定の形状を有しかつ音を発する識別対象を認識する際
に、その識別対象から発せられる音以外の音が発生する
環境であっても、大きな時間遅れが発生することなく、
その識別対象を認識できる認識方法、装置及び該装置を
搭載したロボットを提供することである。

【０００８】

【課題を解決するための手段】本発明は、不特定位置に
存在する特定の形状を有しかつ音を発する識別対象を認
識する方法であって、周辺の音を検知するステップと、
検知された音に基づき、識別対象の存在する方向を概略
的に決定するステップと、決定された方向にカメラを向
け画像情報を取り込むステップと、取り込まれた画像情
報から識別対象を抽出するステップとを備えたことを特
徴とする。

【０００９】本発明の第２の態様は、不特定位置に存在
する特定の形状を有しかつ音を発する識別対象を認識す
る方法であって、周辺の音を検知するステップと、検知
された音のうち予め定められた閾値以上の音圧の音を抽
出するステップと、抽出された閾値以上の音圧の音の中
で最も音圧の高い音の発せられた方向を識別対象の存在
する方向として概略的に決定するステップと、決定され
た方向にカメラを向け画像情報を取り込むステップと、
取り込まれた画像情報から識別対象を抽出するステップ
とを備えたことを特徴とする。

【００１０】本発明の第３の態様は、不特定位置に存在
する特定の形状を有しかつ音を発する識別対象を認識す
る方法であって、周辺の音を検知するステップと、検知
された音のうち予め定められた閾値以上の音圧の音を抽
出するステップと、抽出された閾値以上の音圧の音の中
で２番目に音圧の高い第２の音の音圧値を最も音圧の高
い第１の音の音圧値で除した値に応じて、第１の音の発
せられた方向又は第１の音の発せられた方向と第２の音
の発せられた方向との中間方向の何れかを識別対象の存
在する方向として概略的に決定するステップと、決定さ
れた方向にカメラを向けて画像情報を取り込むステップ
と、取り込まれた画像情報から識別対象を抽出するステ
ップとを備えたことを特徴とする。

【００１１】ここで、識別対象とは、人間のほか、特定
の形状を有しかつ音を発する物体や生物である。

【００１２】本発明の実施態様は、不特定位置に存在す
る特定の形状を有しかつ音を発する識別対象を認識する
装置であって、複数の音源同定用マイクロホンと、全方
向を撮影可能な少なくとも１個のカメラと、音源同定用
マイクロホンから入力された音に基づき、識別対象の存
在する方向を概略的に決定する音源同定処理手段と、決
定された方向にカメラの撮影方向を合わせる方向制御手
段と、カメラから画像情報を取り込んで識別対象を抽出
する識別対象抽出処理手段とを備えたことを特徴とす
る。

【００１３】本発明の別の実施態様は、不特定位置に存
在する特定の形状を有しかつ音を発する識別対象を認識
する認識装置を搭載したロボットであって、認識装置
は、ロボットの外周に概ね等間隔に備えた複数の音源同
定用マイクロホンと、全方向を撮影可能な少なくとも１
個のカメラと、音源同定用マイクロホンから入力された
音に基づき、識別対象の存在する方向を概略的に決定す
る音源同定処理手段と、決定された方向にカメラの撮影
方向を合わせる方向制御手段と、上記カメラから画像情
報を取り込んで識別対象を抽出する識別対象抽出処理手
段とを備えたことを特徴とする。

【００１４】

【作用及び効果】本発明によれば、検知された音によっ
て識別対象の位置する方向が概略的に特定され、最終的
な認識処理は、音ではなく画像情報を基に行われるの
で、確実に識別対象を認識することができる。また、検
知された音によってカメラの撮影範囲が特定の範囲に絞
り込まれるので、画像処理を行う画像情報の量が格段に
削減され、大きな時間遅れが発生することなく、識別対
象を認識することができる。

【００１５】不特定位置に存在する人間を認識する場合
では、人間の声以外の音が発生する環境下であっても、
大きな時間遅れが発生することなく、識別対象の人間を
認識することが可能となる。これにより、不特定位置に
人間が存在する環境において、人間とのコミュニケーシ
ョンなどを目的として移動するロボットが実現できる。
例えば、不特定位置にいる人間から移動ロボットに話し
かけがあったとき、上記のような認識方法によってその
人間の位置、すなわち声の発生源の位置する方向を概略
的に絞り込むことができ、その方向の画像情報をカメラ
で取り込み処理することで、ロボットは話しかけられた
人間を認識することができる。

【００１６】その他にも、音を出しかつ特定の形状を有
する、不特定位置に存在する物体や生物を認識する場合
であっても、認識対象から発せられる音以外の音が発生
する環境下において、大きな時間遅れが生じることな
く、認識対象を認識することができる。

【００１７】

【発明の実施の形態】図１は、本発明の一例である認識
装置の構成例を示す。認識装置は、設置位置を異ならせ
た３台の音源同定用マイクロホン（以下「マイク」とい
う）１ａ，１ｂ，１ｃと、この音源同定用マイク１ａ，
１ｂ，１ｃから入力された音に基づき識別対象の存在す
る方向を概略的に決定する音源同定処理手段２と、識別
対象を撮影するためのカメラ４と、該カメラの撮影方向
を制御する方向制御手段３と、カメラ４から画像情報を
取り込んで識別対象を抽出する識別対象抽出処理手段５
とを備える。識別対象とは、特定の形状を有しかつ音を
発するもので、本実施例では、人間を識別対象とした場
合について説明する。

【００１８】３つの音源同定用マイク１ａ，１ｂ，１ｃ
は、不特定方向から入ってくる音を確実に検出できるよ
うに、それぞれ離れた位置に配置される。この場合、音
源の方向によっては、その音源からの音を検出できない
マイクがあっても問題はない。また、１個のマイクのみ
がその音を検出することもある。例えば、この認識装置
をロボットに搭載した場合、そのロボットの胴体周りに
１２０°間隔で３つの音源同定用マイク１ａ，１ｂ，１
ｃを配置し、ロボットの周囲にある音源から発せられる
音を確実に検出できるように構成する。

【００１９】音源同定処理手段２は、これら３つの音源
同定用マイク１ａ，１ｂ，１ｃから検出された音を解析
し、少なくとも１つのマイクから予め設定された閾値以
上の音圧の音が検出されたとき、そのマイクの設置方向
を音源の位置する方向として概略的に決定する。ここ
で、この決定された方向を「概略方向」という。例え
ば、閾値以上の音圧の音が検出されたマイクが一つのと
き、ロボットの周囲３６０°の範囲から、その一つのマ
イクの前方で広角度６０°の範囲（後述の「特定の６０
°範囲」）を音源の概略方向として絞り込む。また、閾
値以上の音圧の音が検出されたマイクが複数のとき、そ
のうち最も音圧の高いマイクの前方の広角度６０°の範
囲（後述の「特定の６０°範囲」）を音源の概略方向と
して絞り込む。すなわち、ロボットの周囲３６０°の範
囲の一部の６０°の範囲が音源の概略方向として絞り込
まれる。具体的には、後述の「音源同定処理」で説明す
る。

【００２０】カメラ４は、全方向を撮影可能とするた
め、３６０°回転可能な機構上に設置される。例えば、
この認識装置をロボットに搭載した場合では、回転駆動
するロボットの頭部に設けられる。方向制御手段３は、
音源同定処理手段２で絞り込まれた音源の概略方向が撮
影できるようにカメラ４の撮影方向を制御する。例え
ば、カメラ４が概略方向としての広角６０°の範囲の中
央に位置するようにロボットの頭部を回転させる。ま
た、このような回転機構を用いずに、例えば、ロボット
の外周に複数（例えば６個）の固定カメラを等間隔で配
置し、絞り込まれた概略範囲が撮影可能なカメラを一つ
選択するような構成としてもよい。

【００２１】識別対象抽出処理手段５は、撮影方向が決
定されたカメラ４からの画像情報を基に、音源である識
別対象（例えば人間）の形状を抽出する。具体的には、
カメラ４からの画像情報を所定の時間間隔で２回取り込
み、その２つの画像情報の差画像を取り、動いている部
分を抽出する。そして、予め用意しておいた識別対象に
ついての複数の形状テンプレートと比較し、両者の類似
度がある閾値を超えた場合、その部分を識別対象と判断
し、該識別対象の重心位置を求める。識別対象が人間で
ある場合は、差画像より抽出した「動いている部分」
を、予め用意しておいた複数の人間の形状テンプレート
と比較し、両者の類似度がある閾値を超えた場合、その
部分を人間と判断し、その人間の重心位置を求める。例
えば、人間とのコミュニケーションを図るロボットに、
この認識装置を搭載した場合は、ロボットが話しかける
人間の重心位置が識別対象抽出処理手段５によって求め
られる。具体的には、後述の「人間認識処理」で説明す
る。

【００２２】次に、上記認識装置を、人間とのコミュニ
ケーションなどを目的として動作するロボット（以下、
「コミュニケーションロボット」という。）に搭載した
場合の実施例について説明する。従って、このコミュニ
ケーションロボットに搭載された認識装置の識別対象は
人間である。

【００２３】図２は、認識装置を搭載したコミュニケー
ションロボットの構成例を示す。コミュニケーションロ
ボット１１は、主に人間とのコミュニケーションをとる
ための各種装置が搭載された頭部１２、認識装置を含む
当該ロボットの動作を制御する各種装置が搭載された胴
部１３、及び、移動手段を構成する台車部１４で構成さ
れる。

【００２４】頭部１２は、人間とのコミュニケーション
をとる際に人間からの音声を入力するマイク２１と、カ
メラ４と、液晶表示装置（ＬＣＤ）２２と、スピーカ２
３と、頭部１２を上下左右に移動或いは左右に回転させ
る首作動機構部２４とを備えて構成されている。この首
作動機構２４は、モータ等で構成される頭部駆動手段２
５によって作動し、この頭部駆動手段２５を介して胴部
１３と接続されている。

【００２５】胴部１３は、当該ロボットの動作の全体を
制御する主制御部３１と、カメラ４から入力した画像情
報を基に人間を認識するための画像処理（後述の「人間
認識処理」）を行う画像処理制御部３２と、後述の「音
源同定処理」に必要な周囲の音を取り込む３つの音源同
定用マイク１ａ，１ｂ，１ｃと、該音源同定用マイク１
ａ，１ｂ，１ｃから入力された音を基にカメラ４の撮影
方向を決定する処理（後述の「音源同定処理」）を行う
音源同定処理制御部３３と、人間を検知するための赤外
線センサ３４と、外部との衝突を検知するラバーセンサ
３５と、頭部１２に設けられたマイク２１からの入力音
に応じたスピーカ２３への出力音を制御する音源制御部
３６とを備えて構成されている。主制御部３１、画像処
理制御部３２、音源同定処理制御部３３及び音源制御部
３６は、それぞれＣＰＵ，ＲＡＭ，ＲＯＭ等で構成され
た電気回路からなり、画像処理制御部３２は、上記の識
別対象抽出処理手段５としての役割を果たし、音源同定
処理制御部３３は、上記の音源同定処理手段２としての
役割を果たす。３つの音源同定用マイク１ａ，１ｂ，１
ｃは、それぞれ胴部１３の外周に１２０°間隔で取り付
けられる。赤外線センサ３４は、人間が近付くと反応
し、周囲に人間がいることを検知する。

【００２６】台車部１４は、回転駆動によってロボット
全体を移動させる走行用のタイヤ４１と、タイヤ４１を
回転駆動させるモータ等からなる台車駆動手段４２と、
ＣＰＵ，ＲＡＭ，ＲＯＭ等で構成された電気回路からな
り主制御部３１からの命令に応じて台車駆動手段４２を
制御する台車制御部４３と、衝突防止用の光電センサ４
４と、認識した人間との距離を計測する超音波センサ４
５と、外部との衝突を検知するラバーセンサ４６とを備
えて構成されている。光電センサ４４及び超音波センサ
４５は、台車部１４の外周に９０°間隔で４個ずつ取り
付けられる。光電センサ４４は、赤外線を投射し、障害
物に反射して戻ってきた赤外線を受信することで、障害
物の存在を検知する。超音波センサ４５は、互いに対を
なす超音波送信素子と超音波受信素子とで構成され、超
音波送信素子から送信された超音波が物体（人間）に反
射されて超音波受信素子に戻るまでの時間から、物体
（人間）までの距離を計測することができる。例えば、
上記の画像処理制御部３２で人間を認識したとき、その
人間との距離を超音波センサ４５で計測し、その計測結
果を基に、コミュニケーションに必要な距離までロボッ
トを移動させる。タイヤ４１は、前後に左右２個ずつ
（合計４個）設けられる。

【００２７】図３のフローチャートは、人間の存在を認
識する処理（人間認識処理）の手順を示す。

【００２８】３個の音源同定用マイク１ａ，１ｂ，１ｃ
のうちの少なくとも１個から音が入力されたかどうかを
判別する（ステップ［以下「ＳＴ」と略記する。］
１）。従って、この場合、音源の方向によっては、その
音源の音を検出できないマイクがあっても問題はなく、
また、１個のマイクのみがその音声を検出することもあ
る。

【００２９】ＳＴ１で“ＹＥＳ”のときは、入力された
音のうちの少なくとも１つが予め設定された閾値以上の
音圧であるかどうかを判別する（ＳＴ２）。ここで“Ｎ
Ｏ”のときはＳＴ１の処理に戻り、“ＹＥＳ”のとき
は、ＳＴ３に移る。上記の閾値は、例えば、ロボットの
置かれる場所でロボットが人の声を認識できる値とす
る。従って、設置する場所が異なれば、閾値の値も変動
する。

【００３０】ＳＴ３では、ＳＴ２で閾値以上の音圧と判
別された音に基づいて音源の概略方向（後述の「特定の
６０°範囲」）を決定する「音源同定処理」を行う。
「音源同定処理」は、図４のフローチャートを参照して
後で説明する。

【００３１】次に、「音源同定処理」で決定された「特
定の６０°範囲」の中心位置にカメラ４が向くように、
頭部１２を回転させる（ＳＴ４）。

【００３２】最後に、カメラ４で画像情報を入力して人
間の存在を認識する「画像認識処理」を行う。「画像認
識処理」は、図５のフローチャートを参照して後で説明
する。

【００３３】図４のフローチャートは、「音源同定処
理」の手順を示す。

【００３４】ＳＴ２で検出された音のうち、最も高い音
圧値“ａ”の音が入力された音源同定用マイクを“Ａ”
と特定する（ＳＴ１１）。

【００３５】次に、ＳＴ２で検出された音のうち、２番
目に高い音圧値“ｂ”の音が入力された音源同定用マイ
クを“Ｂ”と特定する（ＳＴ１２）。

【００３６】次に、Ｎ＝ｂ／ａを算出し（ＳＴ１３）、
Ｎ＜0.67のとき（ＳＴ１４で“ＹＥＳ”のとき）は、Ｓ
Ｔ１５に移り、Ｎ≧0.67のとき（ＳＴ１４で“ＮＯ”の
とき）は、ＳＴ１６に移る。

【００３７】ＳＴ１５の処理が行われる場合は、音源同
定用マイク“Ａ”に対して特に高い音圧が検出されてい
るものと判定された場合であるので、音源同定用マイク
“Ａ”の前方で広角度６０°の範囲を、「特定の６０°
の範囲」として決定する。

【００３８】ＳＴ１６の処理が行われる場合は、音源同
定用マイク“Ａ”だけではなく、音源同定用マイク
“Ｂ”にも高い音圧が検出されているものと判定された
場合であるので、音源同定用マイク“Ａ”と音源同定用
マイク“Ｂ”の中央位置の前方で広角度６０°の範囲
を、「特定の６０°の範囲」として決定する。

【００３９】図５のフローチャートは、「画像認識処
理」の手順を示す。

【００４０】上記の「音源同定処理」で絞り込まれた範
囲（特定の６０°の範囲）に向けられたカメラ４から、
予め定められた時間間隔で画像を２回取り込む（ＳＴ２
１）。例えば、１秒間隔で画像を２回取り込む。

【００４１】次に、取り込んだ画像情報から差画像を生
成し、「動いている部分」を抽出する（ＳＴ２２）。

【００４２】次に、抽出した「動いている部分」の画像
と複数の「人型テンプレート」画像とを比較する（ＳＴ
２３）。ここで、「人型テンプレート」は、人間の型を
表す画像で構成され、画像処理制御部３２内のＲＯＭに
格納される。例えば、男性別及び女性別に、人間を特徴
づける複数の画像を予め取り込み登録しておく。人間を
特徴づける複数の画像としては、顔の形（丸顔、四角
顔、卵形顔など）、髪型、目の形、鼻の形、口の形、耳
の形、体型（手の長さ、足の長さなど）などの画像で、
これらを組み合わせて生成される人間の画像が「人型テ
ンプレート」として用いられる。

【００４３】抽出した「動いている部分」の画像と「人
型テンプレート」画像との比較の結果、類似度が所定の
閾値を超えた場合は（ＳＴ２４で“ＹＥＳ”）、その部
分を人間と判断し、その人間の重心位置を求め、その位
置を主制御部３１のＲＡＭに記憶させる（ＳＴ２５）。
ＳＴ２３の比較の結果、類似度が所定の閾値以下の場合
は（ＳＴ２４で“ＮＯ”）、その部分は人間と判断され
ない。

【００４４】抽出した「動いている部分」の画像と「人
型テンプレート」画像との比較は、次の方法で行われ
る。例えば、特開平９−２２４０６公報に開示されてい
る「位相限定相関法」を用いて、当該２つの画像につい
ての相関値を求め、その相関値が所定の閾値を超えてい
るかどうかを判定する。この相関値が所定の閾値を超え
ている場合は、その部分を人間と判断し、所定の閾値以
下の場合は、その部分は人間と判断されない。

【００４５】上記の「位相限定相関法」によれば、次の
ような手順で相関値が求められる。照合する画像（本実
施例では「動いている部分」の画像）に２次元離散的フ
ーリエ変換を施し照合フーリエ画像データを作成する。
この照合フーリエ画像データと同様の処理を登録画像
（本実施例では「人型テンプレート」画像）についても
施し、登録フーリエ画像データを作成する。そして、照
合フーリエ画像データと登録フーリエ画像データを合成
した合成フーリエ画像データに対して振幅抑制処理を行
った上で２次元離散的フーリエ変換を施し、この２次元
離散的フーリエ変換が施された合成フーリエ画像データ
に出現する相関成分エリアからその相関成分の強度の高
い上位ｎ画素（例えばｎ＝８）を抽出する。この抽出さ
れたｎ画素の相関成分の強度の平均が相関値として求め
られる。

【００４６】上記の手順において、照合フーリエ画像デ
ータをＡｅ^jθとし、登録フーリエ画像データをＢｅ^jφ
とした場合、合成フーリエ画像データはＡＢｅ^j(θ-φ)
で表される。但し、Ａ，Ｂ，θ，φとも周波数（フーリ
エ）空間（ｕ，ｖ）の関数とする。

【００４７】そして、合成フーリエ画像データは、ＡＢｅ^j(θ-φ)＝ＡＢcos（θ−φ）＋ｊＡＢsin（θ−φ）…（１）と表される。ここで、Ａｅ^jθ＝α₁＋ｊβ₁ Ｂｅ^jφ＝α₂＋ｊβ₂ とすると、Ａ＝（α₁ ²＋β₁ ²）^1/2 Ｂ＝（α₂ ²＋β₂ ²）^1/2 θ＝tan^-1（β₁／α₁） φ＝tan^-1（β₂／α₂）となる。上記（１）式を計算することにより合成フーリ
エ画像データを得る。

【００４８】また、人間の重心位置は、人間はほぼ左右
対称であると考えて、「動いている部分」の画像の中心
位置が重心位置として求められる。

【００４９】このように、コミュニケーションロボット
１１は、音源の方向である「特定の６０°の範囲」に人
間の存在を認識したときは、上記「音源同定処理」で特
定された音源が人間であること、すなわち、その認識し
た人間から話しかけられたことを認識することができ
る。話しかけられた特定の人間を認識したコミュニケー
ションロボット１１のその後の動作としては、例えば、
上記ＳＴ２５で記憶された重心位置の方向に頭部１２の
正面が向くように首作動機構部２４を作動させ、その認
識した人間からの話しかけに応答する。人間に対する応
答としては、例えば、スピーカ２３より音声を発生さ
せ、ＬＣＤ２２の画面上にアニメーションによる顔の表
情を表示する。

【００５０】以上のように、不特定位置にいる人間から
コミュニケーションロボット１１に話しかけがあったと
き、上記のような認識装置によってその人間の位置、す
なわち声の発生源の方向を「特定の６０°の範囲」で絞
り込むことができ、その範囲の画像を取り込み処理する
ことで、コミュニケーションロボット１１は話しかけら
れた人間を認識することができる。そして、コミュニケ
ーションロボット１１は、その話しかけられた人間のい
る方向に頭部１２を回転させ或いは移動し、その話しか
けに応答することができる。

【図面の簡単な説明】

【図１】本発明の一例の認識装置の構成例を示すブロッ
ク図。

【図２】認識装置を搭載したコミュニケーションロボッ
トの構成例を示すブロック図。

【図３】人間認識処理の手順を示すフローチャート。

【図４】音源同定処理の手順を示すフローチャート。

【図５】画像認識処理の手順を示すフローチャート。

【符号の説明】

１ａ，１ｂ，１ｃ…音源同定用マイク、２…音源同定処
理手段、３…方向制御手段、４…カメラ、５…識別対象
抽出処理手段、１１…コミュニケーションロボット、１
２…頭部、１３…胴部、１４…台車部、２１…マイク、
２２…液晶表示装置（ＬＣＤ）、２３…スピーカ、２４
…首作動機構部、３１…主制御部、３２…画像処理制御
部、３３…音源同定処理制御部、３４…赤外線センサ、
３５，４６…ラバーセンサ、３６…音源制御部、４１…
タイヤ、４２…台車駆動手段、４３…台車制御部、４４
…光電センサ、４５…超音波センサ。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/24 Ｇ１０Ｌ 3/00 ５１１５Ｊ０８３Ｈ０４Ｎ 5/232 ５５１Ｈ // Ｂ２５Ｊ 5/00 ５７１ＧＦターム(参考） 3C007 CS08 HS27 KS12 KS31 KS36 KS39 KT01 KT02 KT11 KV12 KV18 KX02 LT06 WA16 WB19 WB28 WC07 5B047 AA07 AB02 BB04 BC16 BC20 CB11 CB30 5B057 BA11 CH01 DA06 5C022 AB62 AB63 AC27 AC41 AC69 AC74 AC77 5D015 AA06 DD02 KK01 LL07 5J083 AA05 AB12 AC03 AD18 AE08 AF14 BC10 BE20 BE21

Claims

【特許請求の範囲】

【請求項１】不特定位置に存在する特定の形状を有しか
つ音を発する識別対象を認識する方法であって、周辺の音を検知するステップと、検知された音に基づき、前記識別対象の存在する方向を
概略的に決定するステップと、決定された方向にカメラを向け画像情報を取り込むステ
ップと、取り込まれた画像情報から前記識別対象を抽出するステ
ップとを備えたことを特徴とする認識方法。
【請求項２】不特定位置に存在する特定の形状を有しか
つ音を発する識別対象を認識する方法であって、周辺の音を検知するステップと、検知された音のうち予め定められた閾値以上の音圧の音
を抽出するステップと、抽出された閾値以上の音圧の音の中で最も音圧の高い音
の発せられた方向を前記識別対象の存在する方向として
概略的に決定するステップと、決定された方向にカメラを向け画像情報を取り込むステ
ップと、取り込まれた画像情報から前記識別対象を抽出するステ
ップとを備えたことを特徴とする認識方法。
【請求項３】不特定位置に存在する特定の形状を有しか
つ音を発する識別対象を認識する方法であって、周辺の音を検知するステップと、検知された音のうち予め定められた閾値以上の音圧の音
を抽出するステップと、抽出された閾値以上の音圧の音の中で２番目に音圧の高
い第２の音の音圧値を最も音圧の高い第１の音の音圧値
で除した値に応じて、前記第１の音の発せられた方向又
は前記第１の音の発せられた方向と前記第２の音の発せ
られた方向との中間方向の何れかを前記識別対象の存在
する方向として概略的に決定するステップと、決定された方向にカメラを向けて画像情報を取り込むス
テップと、取り込まれた画像情報から前記識別対象を抽出するステ
ップとを備えたことを特徴とする認識方法。
【請求項４】請求項１乃至３のいずれか記載の認識方法
において、前記識別対象は、人間であることを特徴とす
る。
【請求項５】不特定位置に存在する特定の形状を有しか
つ音を発する識別対象を認識する装置であって、複数の音源同定用マイクロホンと、全方向を撮影可能な少なくとも１個のカメラと、前記音源同定用マイクロホンから入力された音に基づ
き、前記識別対象の存在する方向を概略的に決定する音
源同定処理手段と、決定された方向に前記カメラの撮影方向を合わせる方向
制御手段と、前記カメラから画像情報を取り込んで前記識別対象を抽
出する識別対象抽出処理手段とを備えたことを特徴とす
る認識装置。
【請求項６】不特定位置に存在する特定の形状を有しか
つ音を発する識別対象を認識する認識装置を搭載したロ
ボットであって、前記認識装置は、前記ロボットの外周に概ね等間隔に備えた複数の音源同
定用マイクロホンと、全方向を撮影可能な少なくとも１個のカメラと、前記音源同定用マイクロホンから入力された音に基づ
き、前記識別対象の存在する方向を概略的に決定する音
源同定処理手段と、決定された方向に前記カメラの撮影方向を合わせる方向
制御手段と、前記カメラから画像情報を取り込んで前記識別対象を抽
出する識別対象抽出処理手段とを備えたことを特徴とす
るロボット。