JP2018165881A - 顔検出装置、顔検出方法、及びプログラム - Google Patents

顔検出装置、顔検出方法、及びプログラム Download PDF

Info

Publication number
JP2018165881A
JP2018165881A JP2017062621A JP2017062621A JP2018165881A JP 2018165881 A JP2018165881 A JP 2018165881A JP 2017062621 A JP2017062621 A JP 2017062621A JP 2017062621 A JP2017062621 A JP 2017062621A JP 2018165881 A JP2018165881 A JP 2018165881A
Authority
JP
Japan
Prior art keywords
face detection
unit
image
sound source
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017062621A
Other languages
English (en)
Other versions
JP6708154B2 (ja
JP2018165881A5 (ja
Inventor
崇史 山谷
Takashi Yamatani
崇史 山谷
浩一 中込
Koichi Nakagome
浩一 中込
敬輔 島田
Keisuke Shimada
敬輔 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2017062621A priority Critical patent/JP6708154B2/ja
Priority to US15/904,314 priority patent/US10713513B2/en
Priority to CN201810249342.5A priority patent/CN108664889B/zh
Publication of JP2018165881A publication Critical patent/JP2018165881A/ja
Publication of JP2018165881A5 publication Critical patent/JP2018165881A5/ja
Application granted granted Critical
Publication of JP6708154B2 publication Critical patent/JP6708154B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】ロボットの頭あるいは胴体の回転完了時から顔検出にかかる時間を短縮する。【解決手段】ロボット100は、カメラ111と、第1のタイミングにおいてカメラ111が撮像した第1の画像と、第1のタイミングより後の第2のタイミングにおいてカメラ111が撮像した第2の画像と、の重複する領域を判別し、第2の画像のうち、判別した重複する領域を除く領域に含まれる人の顔を検出する制御部127と、を備える。【選択図】図3

Description

本発明は、顔検出装置、顔検出方法、及びプログラムに関する。
人間、動物等に模した形態を有し、人間と会話等のコミュニケーションをすることができるロボットが知られている。このようなロボットには、自機に搭載されたカメラ、マイク等のセンサの出力に基づいて顔認識を行い、顔認識により自機周辺に人がいることを判別し、その人に話しかける、手を振る等の動作をするものもある。
特許文献1には、ロボットが、顔認識により、正対する話者が誰であるかを特定し、特定した話者の回答を音声認識することが記載されている。
特開2004−198656号公報
特許文献1に記載されているような顔認識は、ロボットと人が正対した状態で行う必要がある。このため、ロボットと人が正対していない状態では、ロボットが、周囲で人の声が発せられたことを検出したときに、自身の頭の向きあるいは胴体全体の向きを声が発せられた方向へ向けてから、カメラで撮像した画像を使用して顔検出をした後、顔認識を行う必要がある。
このように、顔検出を行う前に、ロボットの頭あるいは胴体の回転が完了するのを待つ必要がある。よって、顔検出処理の完了までに時間を要してしまうという問題があった。
本発明は、上記実情を鑑みてなされたものであり、ロボットの頭あるいは胴体の回転完了時から顔検出にかかる時間を短縮することを目的とする。
上記目的を達成するため、本発明に係る顔検出装置は、
撮像部と、
第1のタイミングにおいて前記撮像部が撮像した第1の画像と、前記第1のタイミングより後の第2のタイミングにおいて前記撮像部が撮像した第2の画像と、の重複する領域を判別する判別部と、
前記第2の画像のうち、前記判別部が判別した前記重複する領域を除く領域に含まれる人の顔を検出する顔検出部と、
を備える。
本発明によれば、ロボットの頭あるいは胴体の回転完了時から顔検出にかかる時間を短縮することができる。
本発明の実施の形態にかかるロボットの外観図である。 ロボットの頭の自由度を説明するための図である。 ロボットの構成を示すブロック図である。 部屋内のロボットとユーザの位置の一例を示す図である。 呼びかけ応答処理のフローチャートである。 音源定位の処理のフローチャートである。 仮の音源位置を説明するための図である。 (a)は部屋内のロボットとユーザそれぞれの位置の一例を示す図であり、(b)〜(d)は、回転途中の撮像画像と回転完了時の撮像画像の重複範囲を説明するための図である。 分散顔検出の処理のフローチャートである。 (a)〜(c)は、回転途中の顔検出の対象の領域を説明するための図である。
(実施の形態)
以下、図面を参照しながら本発明の実施の形態について説明する。図1は、実施の形態に係るロボット100を正面から見た場合の外観を模式的に示した図である。ロボット100は、頭110と胴体120とを備えた人型のコミュニケーションロボットである。ロボット100は、住宅内に設置されており、住人に呼びかけられると、呼びかけた住人と会話する。
図1に示すように、ロボット100の頭110には、カメラ111と、マイク112と、スピーカ113と、が設けられている。
カメラ111(撮像部)は、頭110の前面の下側、人の顔でいうところの鼻の位置に設けられている。カメラ111は、後述する制御部127の制御の下、撮像を行う。
マイク112(音検出部)は、13個のマイクを含む。13個のマイクのうちの8個のマイクが、人の顔でいうところの額の高さの位置であって、頭110の周周りに等間隔で配置されている。これら8個のマイクより上側に、4個のマイクが頭110の周回りに等間隔で配置されている。さらに、1個のマイクが頭110の頭頂部に配置されている。マイク112はロボット100の周囲で発生した音を検出する。
スピーカ113は、カメラ111より下側、人の顔でいうところの口の位置に設けられている。スピーカ113は、後述する制御部127の制御の下、各種の音声を出力する。
首関節121は、頭110と胴体120とを連結する部材である。頭110は、破線で示される首関節121によって、胴体120に連結されている。首関節121は、複数のモータを含む。後述する制御部127がこれら複数のモータを駆動すると、ロボット100の頭110が回転する。図2にロボット100の頭110の回転の自由度を模式的に表した図を示す。首関節121により、ロボット100の頭110は、胴体120に対して、ピッチ軸Xmの軸回り、ロール軸Zmの軸回り、ヨー軸Ymの軸回り回転可能である。首関節121は、後述の足回り部126とともに、ロボット100の各部位を動作させる動作部としての役割を果たす。
図3を参照する。上述の構成に加え、ロボット100は、操作ボタン122と、センサ群123と、電源部124と、記憶部125と、足回り部126と、制御部127と、を備える。
操作ボタン122は、胴体120の背中に設けられている(図1において不図示)。操作ボタン122は、ロボット100を操作するための各種のボタンであり、電源ボタン、スピーカ113の音量調節ボタン等を含む。
図1に示すように、センサ群123は、人の顔でいうところの目の位置と耳の位置とに設けられている。センサ群123は、加速度センサ、障害物検知センサ等を含み、ロボット100の姿勢制御や、安全性の確保のために使用される。
図3を参照する。電源部124は、胴体120に内蔵された充電池であり、ロボット100の各部に電力を供給する。
記憶部125は、ハードディスクドライブ、フラッシュメモリ等を含み、胴体120の内部に設けられている。記憶部125は、後述の制御部127によって実行されるプログラム、カメラ111が撮像した画像データ等を含む各種データを記憶する。記憶部125が記憶するプログラムには、後述の呼びかけ応答処理に係る呼びかけ応答プログラム1251が含まれる。
足回り部126は、胴体120の下側に設けられた4つの車輪(ホイール)を含む。図1に示すように、4つの車輪のうち、2つが胴体120の前側に、残り2つが後ろ側に(不図示)が配置されている。車輪として、例えば、オムニホイール、メカナムホイールが使用される。後述の制御部127が足回り部126の車輪を回転させると、ロボット100は移動する。足回り部126は、前述の首関節121とともに、ロボット100の各部位を動作させる動作部としての役割を果たす。
図3を参照する。制御部127は、CPU(Central Processing Unit)、RAM(Random Access Memory)等で構成される。制御部127は、上述のロボット100の各部に接続されており、RAMをワークスペースとして、記憶部125に記憶されたプログラムを実行することにより、ロボット100の各部を制御する。
上述のように、ロボット100は、住人(ユーザ)に呼びかけられると会話するので、呼びかけられたことを判別すると、呼びかけた住人(ユーザ)の顔検出処理を行う必要がある。以下、ロボット100が行う顔検出の処理を説明する。ここでは、ユーザの呼びかけに応答する一連の処理(呼びかけ応答処理)の中で、ロボット100がユーザの顔検出を行う例を説明する。図4に示すように、部屋R内にロボット100とユーザPがおり、ロボット100とユーザPとが正対していない場合を想定する。ユーザPがロボット100に呼びかけると、ロボット100は、ユーザPの方向に首を向け、ユーザPの顔認識を行う。さらに、ロボット100は、ユーザPと対話可能な距離まで移動して、ユーザPと対話する。なお、ここでは、部屋R内のテレビの電源はオフであり、ドアホンも鳴らず、室外から何らかの音が聞こえることはない場面を想定する。即ち、音源がユーザPのみである場面を想定している。
本実施の形態においては、顔検出処理の完了時点を早めるため、ロボット100の頭110の回転が終了した後に顔検出を行うのではなく、ロボット100の頭110が回転している間に顔検出処理の一部の処理(以下、分散顔検出処理)を行う。
制御部127は、記憶部125に記憶されている呼びかけ応答プログラム1251を実行することで、以下の呼びかけ応答処理を行い、マイク112の入力音声の音源の方向を判別する音源方向判別部、異なる時間に撮像された撮像画像の重複する領域を判別する判別部、撮像画像に含まれる人の顔を検出する顔検出部として機能する。
図5のフローチャートを参照しながら、呼びかけ応答処理を説明する。制御部127は、ロボット100の周辺である程度の大きさの音を検出したか否かを判別する(ステップS101)。具体的には、制御部127は、1つ以上のマイク112に所定の閾値以上の振幅の音が入力されたか否かを判別する。なお、所定の大きさとは、マイク112の入力感度によるものとする。
マイク112により所定の大きさの音が検出できない場合(ステップS101;No)、制御部127は、音を検出するまで待ち受ける。
一方、ある程度の大きさの音を検出したと判別した場合(ステップS101;Yes)、制御部127は、マイク112により検出した音が人間の声か否かを判別する(ステップS102)。具体的には、制御部127は、ステップS101で検出した音が特定の周波数帯域の音(人の声の周波数パターン)であるか否かを判別する。ステップS101で検出した音が人間の声でない場合(ステップS102;No)、制御部127はステップS101へ戻り、音を検出するまで待ち受ける。
一方、人間の声であると判別すると(ステップS102;Yes)、制御部127は、音源の位置(ここではユーザPの声が発せられた位置)を求めるため、音声定位を行う(ステップS103)。ここでは、音源の位置を推定するため、音源定位のひとつの手法であるMUSIC(MUltiple SIgnal Classification)を採用することとする。なお、音源定位の最中に音源であるユーザPは移動せず、静止しているものとする。
図6にMUSICを採用した音源定位の処理のフローチャートを示す。以下、図6を参照しながら、音源定位の処理を説明する。
まず、マイク112に入力された音声を時間周波数変換する(ステップS10301)。ここでは、時間周波数変換として、STFT(Short−Time Fourier Transform)(短時間フーリエ変換)を行う。
音源数をNとすると、第n番目の音源の信号Sは、下記式(1)で表せる。
(ω,f)(n=1,2,…,N) …(1)
ωは角周波数、fはフレーム番号である(以下の説明でも同様)。
マイク112で観測される信号は、マイク112の数をMとすると、下記式(2)で表せる。
(ω,f)(m=1,2,…,M) …(2)
音源から出た音は、空気を伝わってマイク112で観測されるが、そのときの伝達関数をHnm(ω)とすると、音源の信号を表す数式に、伝達関数を乗じることで、マイク112で観測される信号を求めることができる。m番目のマイク112で観測される信号X(ω,f)は下記式(3)のように表される。
Figure 2018165881
ロボット100は、マイク112を複数有しているので、マイク112全体で観測される信号x(ω,f)は下記式4で表すことができる。
Figure 2018165881
同様に、全音源の信号s(ω,f)も下記式(5)で表すことができる。
Figure 2018165881
同様に、第n番目の音源の伝達関数h(ω)は下記式(6)で表すことができる。
Figure 2018165881
全ての伝達関数を下記式(7)のように表記する。
h(ω)=[h(ω),h(ω),…h(ω)] …(7)
上記の式(7)で表される伝達関数を、上述の式(3)に適用すると、下記式(8)のように表される。
x(ω,f)=h(ω)s(ω,f) …(8)
(ω)は音源位置毎に独立であり、ある程度のフレーム数(例えば、フレーム数をLとする)で見ればS(ω,f)は無相関とみなせるので、x(ω,f)は音源数NをRANKとする超平面を構成する。このとき、距離で正規化した音量が大きな音源の伝達関数方向に分布が広がりやすい。そこで、部分空間とゼロ空間に分解することを考える。
再び図6を参照する。次の式(9)に示すように相関行列を計算する(ステップS10302)。ここで、*は複素共役転置を意味する。
Figure 2018165881
続いて、固有値分解する(ステップS10303)。ここで、固有値λm(ω,f)と固有ベクトルem(ω,f)は固有値が降順になるように並べ替えられているものとする。
原理的には、h(ω)は部分空間の固有ベクトルem(ω,f)(m=1〜N)の重み付け加算から復元できるが、実際には復元が困難であるためゼロ空間を構成する固有ベクトルem(ω,f)(m=N+1〜M)がh(ω)と直交することを使って音源定位を実現する。
しかし、音源であるユーザPが部屋R内を移動する可能性があるため、音源位置を予め知ることはできず、音源位置の伝達関数を予め取得しておくことは難しい。このため、仮の音源位置を決め、仮の音源位置の伝達関数をあらかじめ用意しておき、音源定位を行う。
図7に、仮の音源位置とマイクの配置の一例を示す。図7では、太線の円がロボット100の頭110を表し、太線上の黒丸がマイク112を表す。なお、ここでは、便宜上13個のマイク112の全てを表示していない。ロボット100の回りには4個の仮の音源位置があるものとする。
複数のマイク112は、ロボット100の頭110に配置されていることから、円周に沿って配置されているとみなすことができる。X軸の正の向きと、マイク112が成す円の中心(ロボット100の頭110の中心位置に相当)と仮の音源1〜4とをそれぞれ結んだ線と、がなす角度をθ1、θ2、θ3、θ4とし、それぞれの伝達関数hθ(ω)を予め計算しておく。
図7では、音源が4個の例を示したが、音源数がN個の場合、θ1、θ2、…θNのそれぞれの伝達関数hθ(ω)を予め計算しておけばよい。また、あるいは、仮の音源位置の伝達関数を用意するのではなく、幾何的な情報をもとに予め伝達関数を計算しておいてもよい。
次に、式(10)を使用して、周波数帯毎のMUSICスペクトルを計算する(ステップS10304)。
Figure 2018165881
ここで、式(10)の分母は、ノイズや誤差、STFTの周波数帯間の信号漏洩の影響等からゼロにはならない。また、音源の方向とあらかじめ決めた角度θ(θ1、θ2、…θN)のいずれかが近い場合、つまりh(ω)とhθ(ω)が近い場合、式(10)の値は極端に大きなものになる。図7に示す例では、音源である人と仮の音源2の位置が近いため、θ2の伝達関数を使用した場合、式(10)の値が極端に大きくなることが想定される。
そして、統合したMUSICのパワーを求めるため、式(11)に示すように周波数帯毎のMUSICスペクトルを重み付け加算する(ステップS10305)。
Figure 2018165881
重み付け係数は、固有値λm(ω,f)が大きいほど大きくすれば、S(ω,f)に含まれるパワーに応じた計算をすることもできる。この場合はS(ω,f)に殆どパワーがない場合の悪影響を軽減できる。
続いて、パワースペクトルから適切なピーク(極大値)を選択する(ステップS10306)。具体的には、まず、複数のピークを求め、その中から適切なピークを選択し、選択したピークにおけるθを音源方向とする。ここで、ピークを求めるのは以下のような理由による。本来の音源方向のθのパワーが必ずしも一番大きいとは限らず、本来の音源方向に近いθのパワーは総じて大きくなるので、音源方向は複数のピークの何れかに正解があるからである。
また、テレビが点いている、ドアホンが鳴る等の部屋R内に他の音源がある場合でも、多くの場合、人は、テレビ、ドアホン等の周囲の音より大きな声でロボット100に呼びかけると考えられる。よって、人の声のパワーの方が、人以外のテレビ、ドアホン等の音源から発せられる音のパワーより大きくなることが想定される。よって、単純にパワーが最大となる仮の音源位置を示すθを音源方向として選択しても問題はない。ただし、周囲の環境などによっては、パワーが最大となる仮の音源位置ではなく、パワーが2番目あるいはそれ以降となる仮の音源位置を、音源方向と選択することが適切な場合もある。このようにして、音源方向、ここでは、ロボット100の位置から見たユーザPがいる方向、を判別することができる。
音源定位の処理は以上である。ここでは、平面を仮定して説明したが、3次元を仮定しても上記説明は成り立つ。
再び図5を参照する。ステップS103の音源定位を実行して音源方向を判別すると、制御部127は、音源方向を示す情報として、ロボット100の向いている方向に対する音源の方向を示す角度θを記憶部125に記憶する。続いて、制御部127は、ステップS104へ進み、分散顔検出の処理を実行する。分散顔検出の処理においては、ロボット100の頭110が回転を開始し、回転完了するまでの間に、カメラ111が1又は複数回撮像を行い、撮像した画像に対して顔検出の処理を行う。
ロボット100の頭が音源方向を向いたところで回転が完了するため、ロボット100の頭110の回転が完了する前に撮像された画像は、回転が完了したときに撮像される画像の一部を含む、あるいは、全く含まないことになる。
具体的な例を、図8を参照しながら説明する。図8(a)は、部屋R内のロボット100とユーザPとの位置関係の一例を示したものである。ここで、回転が開始する前には、ロボット100のカメラ111のレンズは、紙面上側を向いている。ロボット100は、ユーザPの声を検出すると、時計回りに、ほぼ90度回転して、カメラ111のレンズをユーザPに向けると想定される。
回転を開始した時点である時刻t1、時刻t1より後の時刻t2、時刻t2より後の時刻t3に、それぞれ撮像を行ったと仮定する。時刻t4は回転が完了した時刻である。
時刻t1における撮像画像は、図8(b)に時刻t1における撮像画像と、回転が完了した時刻t4にカメラ111が撮像することが予測される画像と、が重複する領域を示す。斜線で塗りつぶした範囲が相互に重複する領域である。重複する領域については、カメラ111の画角、現在のカメラ111の撮像方向と音源方向と求められる頭110を回転すべき角度、ロボット100の姿勢、首関節121の回転の速度等に基づいて求められる。
図8(c)に、時刻t2における撮像画像と、回転が完了した時刻t4にカメラ111が撮像することが予測される画像と、が重複する領域を示す。斜線で塗りつぶした範囲が相互に重複する領域である。頭110の回転が進んでいるため、時刻t2と時刻t4の重複範囲(図8(c)の斜線範囲)の方が、時刻t1と時刻t4の重複範囲(図8(b)の斜線範囲)の方より広い。
図8(d)に、時刻t3における撮像画像と、回転が完了した時刻t4にカメラ111が撮像することが予測される画像と、が重複する領域を示す。斜線で塗りつぶした範囲が相互に重複する領域である。頭110の回転がさらに進んでいるため、時刻t3と時刻t4の重複範囲(図8(d)の斜線範囲)の方が、時刻t2と時刻t4の重複範囲(図8(c)の斜線範囲)の方より広い。
本実施の形態では、時刻t1に撮像した後に、撮像した画像のうち、時刻t4にカメラ111が撮像することが予測される画像と重なる領域(図8(b)の斜線の範囲)に対して、顔検出の処理を実行する。
時刻t2に撮像した後は、撮像した画像のうち、時刻t4にカメラ111が撮像することが予測される画像と重なる領域(図8(c)の斜線部分)のうち、時刻t1の撮像の後に処理された範囲と重複する部分を除く領域に対して顔検出の処理を実行する。
時刻t3に撮像した後は、撮像した画像のうち、時刻t4にカメラ111が撮像することが予測される画像と重なる領域(図8(d)の斜線部分)のうち、それより前の時刻(時刻t1、時刻t2)の撮像の後に処理された範囲と重複する部分を除く領域に対して顔検出の処理を実行する。
このように、回転途中のあるタイミング(第1のタイミング)に撮像した画像(第1の画像)と、回転完了した後(第2のタイミング)に撮像される画像(第2の画像)との重複する領域を判別する。回転途中では、重複する領域かつ顔検出の処理が未処理である領域に対して顔検出の処理を実行する。そして、回転完了した後には、判別した重複する領域以外に対して顔検出の処理を実行することになる。
図9の分散顔検出の処理のフローチャートを参照しながら、制御部127が実行する分散顔検出の具体的な処理を説明する。
まず、制御部127は、記憶部125に記憶された検出済み領域データの初期化を行う(ステップS10401)。検出済み領域データは、顔検出の処理が済んだ範囲を示す情報が含まれる。上述のように、回転途中に複数回にわたって顔検出の処理を実行するため、既に顔検出が済んでいる範囲については、重複処理を行わないようにするためである。
ここでは、検出済み領域データには、回転完了した位置においてカメラ111が撮像することが予測される画像(回転完了時の予測撮像画像)の範囲と、当該範囲のうち回転途中に撮像した画像を使用して顔検出を行った範囲と、を示す座標の情報が含まれる。
例えば、図10(a)に示すように、回転完了時の予測撮像画像が、座標P1(x1,y2)、P2(x2,y2)、P3(x2,y1)、P4(x1,y1)の4点の座標を結んだ範囲であるとする。時刻t1に撮像した画像のうち、予測撮像画像と重複する領域が、斜線で塗りつぶされた座標P5(x3,y2)、P2(x2,y2)、P3(x2,y1)、P6(x3,y1)の4点の座標を結んだ範囲であるとする。
時刻t1の撮像後においては、それより前に顔検出が行われていないため、図10(a)の斜線範囲に対して顔検出処理を行う。当該処理のあと、検出済み領域データには、座標P5、P2、P3、P6の4点の座標値が格納される。
図10(b)に示すように、時刻t2に撮像した画像のうち、予測撮像画像と重複する領域が、P7、P2、P3、P8の4点の座標を結んだ範囲であるとする。このとき、検出済み領域データには、座標P5、P2、P3、P6の4点の座標値が格納されているため、時刻t2の撮像後においては、P7、P2、P3、P8の4点の座標を結んだ範囲から、検出済み領域である座標P5、P2、P3、P6の4点の座標を結んだ範囲を除いた範囲が、顔検出の対象の領域となる。
時刻t2の撮像後の顔検出処理が終わると、検出済み領域データには、座標P7、P2、P3、P8の4点の座標値が格納される。
図10(c)に示すように、時刻t3に撮像した画像のうち、予測撮像画像と重複する領域が、P9、P2、P3、P10の4点の座標を結んだ範囲であるとする。このとき、検出済み領域データには、座標P7、P2、P3、P8の4点の座標値が格納されているため、時刻t3の撮像後においては、P9、P2、P3、P10の4点の座標を結んだ範囲から、検出済み領域である座標P7、P2、P3、P8の4点の座標を結んだ範囲を除いた範囲が、顔検出の対象の領域となる。
また、図10(c)の顔検出処理が行われていない座標P1、P9、P10、P4の4点の座標を結んだ範囲については、回転完了後に、顔検出が行われる。
なお、詳細は後述するが、回転によるカメラの見え方は対象までの距離によって変わるので、以下に説明する顔検出においては、ピラミッド画像(元画像を一定の比率で縮小を繰り返して作成した一連の画像群)を使用し、ピラミッド画像の各階層に対して、顔検出器を適用する。このため、図10(a)〜(c)では、1階層分の範囲を図示したが、実際には、撮像画像に対して、複数階層にわたる顔検出を行うことになる。
再び図9を参照する。続いて制御部127は、首関節121のモータを駆動して、頭110の回転を開始する(ステップS10402)。ここで、制御部127は、ロボット100の頭110の正面(カメラ111のレンズ面)が音源(ユーザP)の方向に向くまで、頭110を回転する。具体的には、制御部127は、記憶部125に記憶されている音源定位により求められた角度θだけ、ロボット100の頭110を回転するよう首関節121を制御する。
制御部127は、カメラ111を制御して撮像し(ステップS10403)、撮像した画像(撮像画像)を記憶部125に格納する。さらに、制御部127は、カメラ111が撮像像した位置における外部カメラパラメータ(回転行列と並進ベクトル)を記憶部125から取得し、撮像した画像の情報と、外部カメラパラメータとを対応づけて記憶部125に記憶する。外部カメラパラメータは回転駆動の完了位置を基準にしたものである。ロボット100の姿勢の現在位置と回転完了位置から、あらかじめ回転に関する外部カメラパラメータはわかっているものとする。
次に、制御部127は、撮像した画像と、回転完了時の予測撮像画像と、の重複する領域が、回転完了位置における予測撮像画像のどの位置に対応するかを求める(ステップS10404)。回転行列による位置対応関係は透視変換により求めることができる。並進ベクトルによる位置対応関係は、内部カメラパラメータと被写体までの奥行き方向の距離から求めることができる。内部カメラパラメータは、事前に計測済みであるものとする。奥行き方向の距離(の代表値)は、ピラミッド画像の縮小率と検出窓のサイズ等から予め設定することができる。
制御部127は、顔検出する範囲を判別する(ステップS10405)。ステップS10404で求めた対応位置が示す範囲には、すでに顔検出の処理が施された範囲も含まれている。よって、制御部127は、記憶部125に格納されている検出済み領域データと、S10404で求めた対応位置が示す範囲とに基づき、顔検出する範囲を判別する。なお、顔検出処理の対象の範囲はマージンを見て少し小さめにすることもできる。
制御部127は、ステップS10405で判別した範囲の大きさが所定値以上であるか否かを判別する(ステップS10406)。判別した範囲の大きさが所定値未満の場合(ステップS10406;No)、制御部127は、ステップS10403の処理に戻る。所定値は少なくとも1画素であるが、制御部127の性能から、計算負荷などからやや大きめの値にしてもよい。
所定値以上である場合(ステップS10406;Yes)、制御部127は、ステップS10405で判別した範囲の画像変換(画像の切り出し)を行う(ステップS10407)。ステップS10403で所得した画像(撮像画像)から、ステップS10404で求めた対応位置に基づいて、撮像画像から、回転完了時の撮像予測画像と重複する部分+αの範囲を切り出した画像を作成する。+α分は検出窓のサイズや外部カメラパラメータの誤差などを考慮して決める。
制御部127は、ステップS10407で生成した画像に対して顔検出を行う(ステップS10408)。
制御部127が行う顔検出の方法は以下の通りである。まず、ピラミッド画像を作成する。ピラミッド画像とは、元画像を一定の比率で縮小を繰り返して作成した一連の画像群であり、ピラミッド画像の各階層に対して、固定サイズの顔検出器を適用することで様々なサイズ(つまり距離に相当)の顔を検出することができる。ここでは、回転によるカメラの見え方は対象までの距離によって変わるので、ピラミッド画像を使用して顔検出を行う。
まず、顔探索対象を最初の階層に設定する。ここでは縮小前の元の画像とする。最初の検出窓を設定する。初期位置は例えば左上の隅とする。設定した検出窓に対して、固定サイズの顔検出器を適用する。この階層でのスライドによる探索が完了したかを判定する。スライドによる探索が完了でないなら、検索窓をスライドさせ、再度顔検出を行う。スライドによる探索が完了ならば、ピラミッド画像のすべての階層での処理が完了したかの判定を行う。すべての階層での処理が完了でないなら、階層を移動し、移動先の階層でもスライドによる顔検出を行う。すべての階層での処理が完了したならば、顔検出の処理を終了する。
なお、ロボット100から近い場所にユーザPがいた場合、その顔が撮像画像に入りきらない場合があることと、全体の計算負荷の割合が小さいことを考慮して、縮小率の大きい階層の顔探索はしないほうがより望ましい。
図9を参照する。顔検出が成功したと判別すると(ステップS10408;Yes)、制御部127は、分散顔検出処理を終了し、図5のステップS106へ進む。一方、図9の顔検出が成功していないと判別すると(ステップS10408;No)、制御部127は、検出済み領域データを記憶部125に記録する(ステップS10409)。ここでは、制御部127は、ステップS10408で顔検出が済んだ範囲を表す座標値を記録する。
続いて、制御部127は、回転が完了したかを判別し(ステップS10410)、回転が完了していないと判別すると(ステップS10410;No)、ステップS10403に戻り、再び、カメラ111を制御して撮像を行う。
一方、制御部127は、音源定位で求めた角度θだけ回転した、即ち、回転が完了したと判別すると(ステップS10410;Yes)、記憶部125に記憶されている検出済み領域データに基づいて、回転完了時の予測撮像画像のうち未処理の範囲について、顔検出を行う(ステップS10411)。
再び図5を参照する。制御部127は、顔検出が成功しなかった場合(ステップS105;Nо)、再びステップS101に戻る。
一方、顔検出が成功すると(ステップS105;Yes)、制御部127は、ユーザPに正対するよう顔向き調整を行う(ステップS106)。ここで、制御部127は、ユーザPと正対しているか否かを判別し、正対していないと判別した場合には、首関節121を制御して、ロボット100の顔(頭110の正面)がユーザPに正対するよう頭110を回転する。
続いて、制御部127は、ユーザPがロボット100に注目しているかどうかを判別する(ステップS107)。具体的には、制御部127は、カメラ111を制御して、ユーザPを撮像し、撮像した画像に対して顔検出を行い、ユーザPの顔がロボット100の方を向いているか否かを判別する。あるいは、顔の向きだけではなく、持続時間についても判別してもよい。具体的には、制御部127は、カメラ111を制御して、所定の期間において複数回撮像し、所定の期間、ユーザPの顔がロボット100の方を向いており、かつ、顔の向きが変わっていないか否かを判別してもよい。
制御部127は、撮像した画像に基づいて、ユーザPがロボット100に注目していないと判別すると(ステップS107;No)、再びステップS101へ戻り、音の入力を待ち受ける。
一方、ユーザPの顔が、ロボット100の方を向いていると判別すると(ステップS107;Yes)、制御部127は、ユーザPに近づくように所定の距離だけ移動し(ステップS108)、ユーザPとの距離が決められた距離となったかを判別する(ステップS109)。このユーザPとロボット100との間の決められた距離は、ロボット100が、ユーザPが発声する内容を音声認識することができる程度の距離である。制御部127は、ユーザPとロボット100との間の距離が決められた距離に満たないと判別した場合に(ステップS109;No)。再びステップS108に戻る。
一方、制御部127は、ユーザPとロボット100との間の距離が決められた距離となったと判別した場合に(ステップS109;Yes)、ユーザPと対話する(ステップS110)。例えば、制御部127は、スピーカ113を制御して、ユーザPに対して、例えば、「何かご用ですか?」と話しかけ、また、マイク112から入力したユーザの発言を音声解析し、解析した内容に基づいて、なんらかの音声をスピーカ113から出力する。
以上、説明したように、本実施の形態においては、回転完了を待つことなく、顔検出処理を開始する。このため、従来に比べ、回転完了後に顔検出処理の対象となる範囲が狭くなり、回転完了後に顔検出に要する時間を短くすることができる。従って、顔検出の完了の時点を早めることができる。よって、ロボットの応答性を向上することができる。
なお、上述の説明においては、回転駆動はyawを前提で説明したが、他の方向の回転があっても成立する。
また、図5のフローのステップS106の処理のように、また、本実施形態によれば、カメラ111によって撮像された画像からユーザPを検出できても、そのユーザPがロボット100と正対していない場合は、制御部127は、ユーザPと正対するようにロボット100の顔の向きを調整する。このように、制御部127が顔向き調整部として機能することでユーザは正対しているロボット100と円滑にコミュニケーションすることが可能となる。
本発明は、上記実施形態に限定されず、本発明の要旨を逸脱しない部分での種々の修正は勿論可能である。
上述の図8、図10を参照しての説明では、時刻t1〜t4に撮像をする例を示したが、回転途中の撮像のタイミングは、決められた時刻でなくてもよい。撮像のタイミングは任意である。例えば、回転開始から、所定の時間が経過した後に撮像し、当該撮像後、さらに所定の時間が経過した後に撮像する、といった繰り返しでもよい。あるいは、所定の時間間隔ではなく、撮像と顔検出の処理が終わったタイミングで、次の撮像を開始してもよい。
さらに、また、回転開始の時点で撮像しても、しなくてもよい。判別した音源方向に応じて、回転開始の時点で撮像するか否かを判別してもよい。例えば、カメラ111の撮像方向と音源方向とがなす角度が所定の範囲内の場合、回転開始の時点に撮像し、それ以外は、回転開始の時点で撮像しない、といったようにしてもよい。
上述の実施の形態では、ロボット100、ユーザPともに屋内(部屋R内)にいる例を説明したが、屋外であっても同様に、回転完了前に顔検出処理を開始することができる。
上述の実施の形態では、回転が完了するまで、撮像と撮像画像の顔検出を繰り返したが、例えば、タイマーを使用し、初回の撮像と撮像画像の顔検出後、所定期間が経過した後に次の撮像と撮像画像の顔検出を行ってもよい。
上述の顔検出では、ピラミッド画像の階層を順次移動して、顔検出を行ったが、制御部127は、マイク112の入力音声の大きさ(振幅の大きさ)に基づいて、ロボット100から音源までの距離を推定し、推定した距離に基づいて、ピラミッド画像の全ての階層について顔検出を行わないようにしてもよい。例えば、ユーザPが近くにいると判別した場合、ある程度小さく縮小したピラミッド画像を使用する必要はない。
制御部127は、音源から発せられる音が、ロボット100に向けられたものか否かを判別し、ロボット100に向けられたものであると判別した場合だけ、撮像、顔検出等の処理を行うことで反応し、その他の場合には、反応しないようにしてもよい。この場合、例えば、マイク112に含まれる13個のマイクとして単一指向性マイクを使用することで、音源から発せられる音の方向を精度良く判別することができる。
制御部127は、決められたタイミングで(例えば、毎正時、2時間おき)、カメラ111を制御して、自機の周辺を撮像し、撮像した画像をあらかじめ記憶部125に記憶しておく。そして、マイク112により音を検出し、音源方向を判別した後、判別した音源方向を含む範囲の画像を記憶部125から取得し、取得した画像と、カメラ111が撮像した画像とが重複する領域に対して、顔検出を行う。
この場合、カメラ111が、撮像した範囲に、音源であるユーザPがいる周辺の画像が含まれていないときは、顔検出を行うことがない。よって、無駄な検出処理を行うことがなく、効率的に顔検出を行うことができる。
また、本発明に係る顔認識装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、ネットワークに接続されているコンピュータに、上記動作を実行するためのプログラムを、コンピュータシステムが読み取り可能な記録媒体(CD−ROM(Compact Disc Read Only Memory)、MO(Magneto−Optical)等)に格納して配布し、当該プログラムをコンピュータシステムにインストールすることにより、上述の処理を実行する顔認識装置を構成してもよい。
また、コンピュータにプログラムを提供する方法は任意である。例えば、プログラムは、通信回線の掲示板(BBS(Bulletin Board System))にアップロードされ、通信回線を介してコンピュータに配信されてもよい。また、プログラムは、プログラムを表す信号により搬送波を変調した変調波により伝送され、この変調波を受信した装置が変調波を復調してプログラムを復元するようにしてもよい。そして、コンピュータは、このプログラムを起動して、OS(Operating System)の制御のもと、他のアプリケーションと同様に実行する。これにより、コンピュータは、上述の処理を実行する顔認識装置として機能する。
この発明は、この発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、この発明の範囲を限定するものではない。すなわち、この発明の範囲は、実施の形態ではなく、請求の範囲によって示される。そして、請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
(付記)
(付記1)
撮像部と、
第1のタイミングにおいて前記撮像部が撮像した第1の画像と、前記第1のタイミングより後の第2のタイミングにおいて前記撮像部が撮像した第2の画像と、の重複する領域を判別する判別部と、
前記第2の画像のうち、前記判別部が判別した前記重複する領域を除く領域に含まれる人の顔を検出する顔検出部と、
を備えた顔検出装置。
(付記2)
前記撮像部の撮像方向を変える動作部をさらに備え、
前記撮像部は、前記動作部による前記撮像部の撮像方向を変える動作により、撮像方向が変化している間に、複数回撮像を行う、
付記1に記載の顔検出装置。
(付記3)
周囲の音を検出する音検出部と、
前記音検出部が検出した音に基づいて、音源の方向を判別する音源方向判別部と、
をさらに備え、
前記動作部は、前記撮像部の撮像方向を前記音源方向判別部が判別した音源の方向に向け、前記撮像部を前記音源の方向に近づけるように、自機を移動する、
付記2に記載の顔検出装置。
(付記4)
前記顔検出部は、前記音検出部が検出した音の大きさに基づいて、音源を発したものまでの距離を推定し、推定した距離に応じた縮小率の検出窓を顔検出に使用する、
付記3に記載の顔検出装置。
(付記5)
自機周辺の撮像画像を記憶した記憶部をさらに備え、
前記顔検出部は、前記音源方向判別部が判別した音源の方向を撮像した画像を前記記憶部から取得し、取得した画像と、前記撮像部が撮像した画像と、が重複する領域に対して、顔検出を行う、
付記3または4に記載の顔検出装置。
(付記6)
前記顔検出部は、前記第1の画像に対して顔検出するとともに、前記判別部が判別した前記重複する領域を除く領域に含まれる人の顔を検出する、
付記1から5のいずれか1つに記載の顔検出装置。
(付記7)
前記顔検出部は、人の顔の検出を行った領域を検出処理済み領域とし、前記検出処理済み領域以外の領域に対して検出を行う、
付記1から6のいずれか1つに記載の顔検出装置。
(付記8)
前記判別部は、音源から発せられる音が自機宛てに発せられた音か否かを判別し、自機宛ての音であると判別した場合のみ、前記重複する領域を判別する、
付記1から7のいずれか1つに記載の顔検出装置。
(付記9)
第1のタイミングにおいて撮像された第1の画像と、前記第1のタイミングより後の第2のタイミングにおいて撮像された第2の画像と、の重複する領域を判別する判別ステップと、
前記第2の画像のうち、前記判別ステップにおいて判別された前記重複する領域を除く領域の画像に含まれる人の顔を検出する顔検出ステップと、
を備えた顔検出方法。
(付記10)
コンピュータに、
第1のタイミングにおいて撮像された第1の画像と、前記第1のタイミングより後の第2のタイミングにおいて撮像された第2の画像と、の重複する領域を判別する判別機能と、
前記第2の画像のうち、前記判別機能により判別された前記重複する領域を除く領域の画像に含まれる人の顔を検出する顔検出機能と、
を実現させるプログラム。
100…ロボット、110…頭、111…カメラ、112…マイク、113…スピーカ、120…胴体、121…首関節、122…操作ボタン、123…センサ群、124…電源部、125…記憶部、126…足回り部、127…制御部、1251…呼びかけ応答プログラム

Claims (10)

  1. 撮像部と、
    第1のタイミングにおいて前記撮像部が撮像した第1の画像と、前記第1のタイミングより後の第2のタイミングにおいて前記撮像部が撮像した第2の画像と、の重複する領域を判別する判別部と、
    前記第2の画像のうち、前記判別部が判別した前記重複する領域を除く領域に含まれる人の顔を検出する顔検出部と、
    を備えた顔検出装置。
  2. 前記撮像部の撮像方向を変える動作部をさらに備え、
    前記撮像部は、前記動作部による前記撮像部の撮像方向を変える動作により、撮像方向が変化している間に、複数回撮像を行う、
    請求項1に記載の顔検出装置。
  3. 周囲の音を検出する音検出部と、
    前記音検出部が検出した音に基づいて、音源の方向を判別する音源方向判別部と、
    をさらに備え、
    前記動作部は、前記撮像部の撮像方向を前記音源方向判別部が判別した音源の方向に向け、前記撮像部を前記音源の方向に近づけるように、自機を移動する、
    請求項2に記載の顔検出装置。
  4. 前記顔検出部は、前記音検出部が検出した音の大きさに基づいて、音源を発したものまでの距離を推定し、推定した距離に応じた縮小率の検出窓を顔検出に使用する、
    請求項3に記載の顔検出装置。
  5. 自機周辺の撮像画像を記憶した記憶部をさらに備え、
    前記顔検出部は、前記音源方向判別部が判別した音源の方向を撮像した画像を前記記憶部から取得し、取得した画像と、前記撮像部が撮像した画像と、が重複する領域に対して、顔検出を行う、
    請求項3または4に記載の顔検出装置。
  6. 前記顔検出部は、前記第1の画像に対して顔検出するとともに、前記判別部が判別した前記重複する領域を除く領域に含まれる人の顔を検出する、
    請求項1から5のいずれか1項に記載の顔検出装置。
  7. 前記顔検出部は、人の顔の検出を行った領域を検出処理済み領域とし、前記検出処理済み領域以外の領域に対して検出を行う、
    請求項1から6のいずれか1項に記載の顔検出装置。
  8. 前記判別部は、音源から発せられる音が自機宛てに発せられた音か否かを判別し、自機宛ての音であると判別した場合のみ、前記重複する領域を判別する、
    請求項1から7のいずれか1項に記載の顔検出装置。
  9. 第1のタイミングにおいて撮像された第1の画像と、前記第1のタイミングより後の第2のタイミングにおいて撮像された第2の画像と、の重複する領域を判別する判別ステップと、
    前記第2の画像のうち、前記判別ステップにおいて判別された前記重複する領域を除く領域の画像に含まれる人の顔を検出する顔検出ステップと、
    を備えた顔検出方法。
  10. コンピュータに、
    第1のタイミングにおいて撮像された第1の画像と、前記第1のタイミングより後の第2のタイミングにおいて撮像された第2の画像と、の重複する領域を判別する判別機能と、
    前記第2の画像のうち、前記判別機能により判別された前記重複する領域を除く領域の画像に含まれる人の顔を検出する顔検出機能と、
    を実現させるプログラム。
JP2017062621A 2017-03-28 2017-03-28 対象物検出装置、対象物検出方法、及びプログラム Active JP6708154B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017062621A JP6708154B2 (ja) 2017-03-28 2017-03-28 対象物検出装置、対象物検出方法、及びプログラム
US15/904,314 US10713513B2 (en) 2017-03-28 2018-02-24 Object detection device, object detection method, and recording medium
CN201810249342.5A CN108664889B (zh) 2017-03-28 2018-03-23 对象物检测装置、对象物检测方法以及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017062621A JP6708154B2 (ja) 2017-03-28 2017-03-28 対象物検出装置、対象物検出方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2018165881A true JP2018165881A (ja) 2018-10-25
JP2018165881A5 JP2018165881A5 (ja) 2018-12-27
JP6708154B2 JP6708154B2 (ja) 2020-06-10

Family

ID=63669579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017062621A Active JP6708154B2 (ja) 2017-03-28 2017-03-28 対象物検出装置、対象物検出方法、及びプログラム

Country Status (3)

Country Link
US (1) US10713513B2 (ja)
JP (1) JP6708154B2 (ja)
CN (1) CN108664889B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020105309A1 (ja) * 2018-11-21 2020-05-28 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
KR102499576B1 (ko) * 2018-01-08 2023-02-15 삼성전자주식회사 전자 장치 및 그 제어 방법
CN109800684B (zh) * 2018-12-29 2022-06-21 上海依图网络科技有限公司 一种视频中对象的确定方法及装置
JP2021072575A (ja) * 2019-10-31 2021-05-06 パナソニックIpマネジメント株式会社 音源表示システム及び音源表示装置
CN111044288B (zh) * 2019-12-31 2021-05-25 神州高铁技术股份有限公司 信号的获取方法、系统及存储介质、诊断系统、检测系统
US20240091964A1 (en) * 2022-09-16 2024-03-21 Sarcos Corp. Multidirectional Sensing Array for Robot Perception

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251266A (ja) * 2005-03-10 2006-09-21 Hitachi Ltd 視聴覚連携認識方法および装置
JP2010085688A (ja) * 2008-09-30 2010-04-15 Seiko Epson Corp プロジェクター、会議システム、音源方向決定方法およびカメラ制御方法
JP2010114785A (ja) * 2008-11-07 2010-05-20 Canon Inc 映像送信装置、映像送信方法、およびコンピュータプログラム
JP2011087037A (ja) * 2009-10-14 2011-04-28 Toshiba Alpine Automotive Technology Corp 車両用障害物検出装置
JP2015043507A (ja) * 2013-08-26 2015-03-05 株式会社リコー 情報処理装置、通信システムおよびプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4689107B2 (ja) 2001-08-22 2011-05-25 本田技研工業株式会社 自律行動ロボット
JP2003122394A (ja) 2001-10-16 2003-04-25 Yamatake Corp 識別対象を認識する方法と装置及び該装置を搭載したロボット
CN100369487C (zh) * 2002-04-25 2008-02-13 松下电器产业株式会社 物体检测装置、物体检测服务器以及物体检测方法
JP3632099B2 (ja) 2002-12-17 2005-03-23 独立行政法人科学技術振興機構 ロボット視聴覚システム
JP4356663B2 (ja) * 2005-08-17 2009-11-04 ソニー株式会社 カメラ制御装置および電子会議システム
JP2009016956A (ja) * 2007-06-29 2009-01-22 Sanyo Electric Co Ltd カメラ制御システム、カメラ制御装置、及びカメラ制御プログラム
KR101483269B1 (ko) * 2008-05-06 2015-01-21 삼성전자주식회사 로봇의 음원 위치 탐색 방법 및 그 장치
KR20110123744A (ko) * 2009-01-28 2011-11-15 배 시스템즈 피엘시 화상 내의 잠재적으로 변화된 객체의 검출
JP5434339B2 (ja) * 2009-07-29 2014-03-05 ソニー株式会社 撮像制御装置、撮像システム、撮像方法、プログラム
JP2011188065A (ja) * 2010-03-05 2011-09-22 Sony Corp 撮像制御装置、被写体検出方法、プログラム
JP2012226513A (ja) * 2011-04-19 2012-11-15 Honda Elesys Co Ltd 検知装置、及び検知方法
DE102012215322A1 (de) * 2012-08-29 2014-03-06 Robert Bosch Gmbh Verfahren und Vorrichtung zum Erkennen einer Position eines Fahrzeugs auf einer Fahrspur
KR20140091177A (ko) * 2013-01-10 2014-07-21 삼성전자주식회사 병변 진단 장치 및 방법
JP5718973B2 (ja) 2013-05-21 2015-05-13 富士ソフト株式会社 顔認識装置、顔認識方法、およびコンピュータプログラム
CN105765966B (zh) * 2013-12-19 2020-07-10 英特尔公司 碗形成像系统
CN105093986A (zh) * 2015-07-23 2015-11-25 百度在线网络技术(北京)有限公司 基于人工智能的拟人机器人控制方法、系统及拟人机器人
CN105930775B (zh) * 2016-04-14 2019-07-19 中南大学 基于灵敏度参数的人脸朝向识别方法
CN105975930A (zh) * 2016-05-04 2016-09-28 南靖万利达科技有限公司 一种机器人语音定位过程的摄像头角度校准方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251266A (ja) * 2005-03-10 2006-09-21 Hitachi Ltd 視聴覚連携認識方法および装置
JP2010085688A (ja) * 2008-09-30 2010-04-15 Seiko Epson Corp プロジェクター、会議システム、音源方向決定方法およびカメラ制御方法
JP2010114785A (ja) * 2008-11-07 2010-05-20 Canon Inc 映像送信装置、映像送信方法、およびコンピュータプログラム
JP2011087037A (ja) * 2009-10-14 2011-04-28 Toshiba Alpine Automotive Technology Corp 車両用障害物検出装置
JP2015043507A (ja) * 2013-08-26 2015-03-05 株式会社リコー 情報処理装置、通信システムおよびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020105309A1 (ja) * 2018-11-21 2020-05-28 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN113056315A (zh) * 2018-11-21 2021-06-29 索尼集团公司 信息处理装置、信息处理方法和程序
JPWO2020105309A1 (ja) * 2018-11-21 2021-10-07 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
CN113056315B (zh) * 2018-11-21 2023-01-31 索尼集团公司 信息处理装置、信息处理方法和程序
JP7363809B2 (ja) 2018-11-21 2023-10-18 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
US20180285672A1 (en) 2018-10-04
JP6708154B2 (ja) 2020-06-10
CN108664889A (zh) 2018-10-16
CN108664889B (zh) 2023-07-25
US10713513B2 (en) 2020-07-14

Similar Documents

Publication Publication Date Title
JP6708154B2 (ja) 対象物検出装置、対象物検出方法、及びプログラム
JP6673276B2 (ja) 音声検出装置、音声検出方法、及びプログラム
US10665249B2 (en) Sound source separation for robot from target voice direction and noise voice direction
US11818560B2 (en) Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
US9658688B2 (en) Automatic view adjustment
WO2019089432A1 (en) System and method associated with user authentication based on an acoustic-based echo-signature
WO2019219065A1 (zh) 视频分析的方法和装置
US11605179B2 (en) System for determining anatomical feature orientation
EP2691832A1 (en) Method and apparatus for motion gesture recognition
US20160094812A1 (en) Method And System For Mobile Surveillance And Mobile Infant Surveillance Platform
US20240096132A1 (en) Multi-modal far field user interfaces and vision-assisted audio processing
WO2021180085A1 (zh) 拾音方法、装置和电子设备
US20240064449A1 (en) Sound Collecting Method, Electronic Device, and System
CN113787517B (zh) 自移动机器人控制方法、装置、设备及可读存储介质
CN111696570A (zh) 语音信号处理方法、装置、设备及存储介质
US10649460B2 (en) Interactive robots positionable for optimal interactions
US11310593B2 (en) Voice input device and method for estimation of utterance direction
CN107529012A (zh) 照片调整方法、移动终端及计算机可读存储介质
CN110459236A (zh) 音频信号的噪声估计方法、装置及存储介质
CN107515745A (zh) 一种图标位置自适应调整方法及设备
JP6631193B2 (ja) 動画像音収録システム、動画像音収録装置、動画像音収録プログラム、および動画像音収録方法
CN116978372A (zh) 语音交互方法、电子设备以及存储介质
JP2008197381A (ja) スピーカ制御装置、ロボット、スピーカ制御方法、およびスピーカ制御プログラム
Gebhard et al. Active system to generate views of facial features with selectable resolution
CN110602381A (zh) 景深检测方法、装置、存储介质及终端

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200504

R150 Certificate of patent or registration of utility model

Ref document number: 6708154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150