JP2008278433A - 情報処理装置、プログラム - Google Patents

情報処理装置、プログラム Download PDF

Info

Publication number
JP2008278433A
JP2008278433A JP2007122883A JP2007122883A JP2008278433A JP 2008278433 A JP2008278433 A JP 2008278433A JP 2007122883 A JP2007122883 A JP 2007122883A JP 2007122883 A JP2007122883 A JP 2007122883A JP 2008278433 A JP2008278433 A JP 2008278433A
Authority
JP
Japan
Prior art keywords
image
sound
sound source
target sound
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007122883A
Other languages
English (en)
Other versions
JP5029986B2 (ja
Inventor
Kultida Rojviboonchai
グンティダー ロットウィブンチャイ
Masato Togami
真人 戸上
Atsushi Koike
敦 小池
Ikuya Arai
郁也 荒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Hitachi Mobile Communications Co Ltd
Original Assignee
Casio Hitachi Mobile Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Hitachi Mobile Communications Co Ltd filed Critical Casio Hitachi Mobile Communications Co Ltd
Priority to JP2007122883A priority Critical patent/JP5029986B2/ja
Publication of JP2008278433A publication Critical patent/JP2008278433A/ja
Application granted granted Critical
Publication of JP5029986B2 publication Critical patent/JP5029986B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】分離対象の目的音を発生する目的音源の位置が目的音の到来する方向を特定する領域から外れた場合でも、目的音を分離抽出する。
【解決手段】検出部113が撮像画像上の目的音範囲に目的音源がないことを検出すると、音源定位分離部111は、複数のマイク6が収集した音の内で音声レベルが最も大きい音の到来する角度を求める。目的音範囲自動変更部116は、求めた角度から到来する音の音声レベルが所定レベル以上である場合、その角度に位置する音源を含むよう目的音範囲を変更する。制御部11は、表示部16を介し、撮像部15の撮像画像と目的音範囲自動変更部116が変更した目的音範囲とが重ねられた画像を、表示パネル4に表示する。音源定位分離部111は、表示部パネル4に表示された目的音範囲に対応する方向から到来する音のみを分離抽出する。
【選択図】図2

Description

本発明は、音声及び画像を処理する情報処理装置とコンピュータを情報処理装置として機能させるプログラムに関する。
複数のマイクロホンを使用して取得した音から、目的とする音(以下、「目的音」という)のみを分離抽出できる音源分離技術が存在する。音源分離技術は、目的音が到来する方向を含む特定領域を予め設定し、この特定領域から到来する目的音のみを分離抽出して、特定領域以外の領域から到来する音を除去する、等の手法を用いている。
例えば、特開2001−84713号公報は、ピントの合っている位置に存在するものが発生した音を周囲雑音から分離抽出するビデオカメラ一体型音源分離収音マイクロホンシステム、を開示する。
また、目的音を発生している音源の位置(方向)を特定できる音源定位技術が存在する。例えば、非特許文献1は、複数のマイクロホンを使用して音を発生している音源の位置を判別した上で、その位置に存在する人物の顔を判別し、その人物が発生する目的音を分離抽出できるロボットを開示する。
特開2001−84713号公報 戸上真人, 天野明雄, 新庄広, 鴨志田亮太,"人間共生ロボットEMIEWの聴覚機能",人工知能学会,pp.59-64, 2005/10/14
特許文献1に開示されているビデオカメラ一体型音源分離収音マイクロホンシステムは、目的音を発生している音源がビデオカメラのピント位置から外れた場合に、目的音を分離抽出できない。
また、非特許文献1に開示されているロボットは、目的音を発生している人物が、複数のマイクロホン素子を使用して判別した位置から外れた場合に、目的音を分離抽出できない。
即ち、従来の技術では、一旦特定した位置から音源が移動してしまうと、以後、その音源からの音を抽出することができなくなってしまう。
本発明は、上記問題点に鑑みてなされたものであり、抽出対象の音の到来方向を特定する領域から、音源が外れた場合でも、その音源からの音を分離抽出可能とすることを目的とする。
また、本発明は、上記問題点に鑑みてなされたものであり、音源が移動した場合でも、その音源からの音を分離抽出可能とすることを目的とする。
上記課題を解決するため、本発明の情報処理装置は、
音を入力する音声入力手段と、画像を撮像する撮像手段と、データを表示する表示手段と、前記撮像手段が撮像した画像と、分離抽出対象とする音の到来する方向を特定するための特定領域と、を重ねて前記表示手段に表示させる表示制御手段と、音源の方向を特定する音源定位手段と、前記音源定位手段が特定した音源の方向が、前記表示手段が表示した特定領域に対応するか否かを検出する音源有無検出手段と、前記音源有無検出手段が音源の方向が前記特定領域に対応しないことを検出した場合に、該音源の方向に一致するように前記特定領域の位置を変更する領域位置変更手段と、前記撮像手段が撮像した画像と、前期領域位置変更手段が変更した位置にある特定領域と、を重ねて前記表示手段に表示させる領域表示制御手段と、前記領域表示制御手段が前記表示手段に表示させた特定領域が特定する方向から到来する音を、前記音声入力手段が入力した音から分離抽出する音源分離手段と、を備えることを特徴とする。
更に、コンピュータに対して本発明の主要機能を実行させるためのプログラムを提供する。
本発明の情報処理装置によれば、現在設定されている特定領域に目的音を発生している音源がないことを検出した場合に、特定領域の位置を変更して、変更後の特定領域内に位置する音源からの音を分離抽出する。これにより、例えば、音源が現在の特定領域から外れても、その音源を含むように特定領域の位置を変更して、その音源からの音を分離抽出することが可能となる。
以下、図1乃至19を参照して、本発明の実施形態に係る情報処理装置を説明する。以下では、情報処理装置を、通信機能を備える携帯端末1に適用する例について説明する。
携帯端末1は、テレビ(TV)電話機能を備える携帯電話装置であり、例えば、図1に示すような折り畳み型のものであり、キーボード2、カメラ3、表示パネル4、複数のマイク6、通知用LED8、等を備えている。
キーボード2は、ユーザに操作され、様々なデータや指示、例えば、テレビ電話の起動及び終了、抽出対象とする音声を特定するための目的音範囲の大きさや位置の変更、等を指示するために使用される。
カメラ3は、CCD(Charge Coupled Devices)カメラ、CMOSカメラ等から構成され、画像(静止画又は動画)、例えば、テレビ電話用の画像を撮影する。また、カメラ3は、ズームイン・ズームアウト機能を有しており、撮像範囲を変更可能である。
表示パネル4は、LCD(液晶表示)パネルとドライバ回路等から構成され、任意の画像、例えば、カメラ3が撮像したテレビ電話の話者の画像や目的音範囲の画像等を表示する。
通話用マイク5は、通話音声を入力する。通話用マイク5は、マイク6と同様に音源の位置する方向を特定するために使用しても良い。
マイク6は、複数個配置され、それぞれ、集音した音の音声レベルに応じた音声信号をそれぞれ出力する。マイク6の数と位置はマイク6が入力した音の位相差から音源の方向を特定できる数と位置なら、どの数でもどの位置でも良い。
スピーカ7は、受話音声等を出力する。
通知用LED8は、点灯・点滅等により種々の情報をユーザに通知する。
携帯端末1は、図2に示すように、制御部11、無線通信部12、記憶部13、操作部14、撮像部15、表示部16、音声入力部17、音声出力部18、通知部19、バス20、等の回路構成を有する。
制御部11は、CPU(Central Processing Unit)等から構成され、記憶部13が記憶する動作プログラムに従って、携帯端末1全体を制御する。また、制御部11は、音源定位分離部111と、画像処理部112と、検出部113と、通知制御部114と、目的音範囲手動変更部115と、目的音範囲自動変更部116と、を備える。
音源定位分離部111は、音声入力部17が備える複数のマイク6が入力した音の位相差から音源の位置する方向を特定する。また、音源定位分離部111は、予め設定されている目的音範囲から到来した音のみを分離抽出する。更に、音源定位分離部111は、音声入力部17が入力する音(デジタル音声信号)の各音源を特定し、音源別に音声レベルを判別し、最も大きな音声レベルの音を特定する。
画像処理部112は、撮像画像に、任意の位置及び大きさで目的音範囲を重ねる処理を施す。また、画像処理部112は、撮像画像に含まれる人物を特定し、特定した人物が撮像画像上で占める領域を特定する。更に、画像処理部112は、音源定位分離部111が特定した音源とその音源から到来する音の音声レベルとを対応付けた画像を生成する。
検出部113は、目的音範囲内から到来する音の音声レベルを音源定位分離部111から取得し、その音声レベルが所定レベル以上なら目的音源が目的範囲内にあると判別し、小さければ、ないと判別する。また、検出部113は、画像処理部112によって判別された特徴点を取得して、目的音範囲内の目的音源の有無を検出する。通知制御部114は、通知部19又は音声出力部18を制御して、目的音範囲に目的音源がないことをユーザに通知させる。
目的音範囲手動変更部115は、後述する目的音範囲変更モード情報131が「手動」に設定されている場合、ユーザ操作に応答した操作部14からの指示に従って目的音範囲の位置とサイズとを変更する。
目的音範囲自動変更部116は、後述する目的音範囲変更モード情報131が「自動」に設定されている場合、検出部113が目的音範囲に目的音源が無いことを検出したことに応答して、目的音源を含むよう目的音範囲を変更する。このとき、撮像画像に目的音源が含まれていなければ、目的音源を含むよう撮像部15の撮像範囲(例えば、画角)を変更させる。
無線通信部12は、通話音声や撮像画像等を、基地局を介して通話先に送信する。また、無線通信部12は、基地局を介し音声信号や画像データを通信相手から受信する。
記憶部13は、制御部11のプログラム、音声データ、映像データ、等を記憶する。例えば、記憶部13は、図8、図9及び図11〜16を参照して後述する処理を制御部11に実行させるための制御プログラム、テレビ電話のアプリケーションプログラム、等を記憶する。なお、記憶部13は、内蔵メモリ又は外部メモリのいずれから構成してもよい。
また、記憶部13は、目的音範囲変更モード情報131と、目的音源有無情報132と、通知情報133と、目的音範囲情報134と、目的音角度情報135と、を記憶する。
目的音範囲変更モード情報131は、図3に示すように、目的音範囲を手動又は自動のいずれにより変更するかを示す。
目的音源有無情報132は、図4に示すように、テレビ電話等の実行中に目的音源が目的音範囲に存在するか否かを示す。
通知情報133は、図5に示すように、通知モード、通知方法、通知動作、の項目を含む。
「通知モード」は、目的音源が目的音範囲に存在しないことをユーザに通知するか否かを示す項目である。「通知方法」は、ユーザに通知するときに使用する通知方法(ライトアップ、バイブレーション、音声出力のいずれか1つ)を示す項目である。「通知動作」は、ユーザ通知を実行しているか否か(実行中又は停止中)を示す項目である。
目的音範囲情報134は、図6に示すように、撮像画像上に設定される矩形の目的音範囲を定義する情報であり、4つの頂点の座標(x,y)から構成される。図17(a)の例では、目的音範囲は、撮像画像PT1上のx1≦x≦x2、y1≦y≦y2の領域OS1であり、目的音範囲情報134は、図6に示すように、その4つの頂点の座標(x1,y2)、(x1,y1)、(x2,y2)、(x2,y1)となる。
目的音角度情報135は、携帯端末1から目的音源をみたときの角度(方向)を示す情報であり、例えば、図7に示すように、目的音範囲の右端・左端位置の、所定の基準(0度)方向に対する角度を示す。
図2に示す操作部14は、キーボード2等を備え、データや指示を入力し、制御部11に与える。
撮像部15は、カメラ3を備え、画像(静止画又は動画)を撮像し、制御部11に送信する。
表示部16は、表示パネル4とドライバ回路等から構成され、制御部11の制御下に画像を表示パネル4に表示する。
音声入力部17は、マイク5,6を備え、各マイク5,6が入力した音声信号を制御部11に供給する。
音声出力部18は、制御部11の制御下に、スピーカ7から音声を出力する。
通知部19は、通知用LED、振動発生機構、等から構成され、制御部11の制御下に、通知用LED8の点灯動作、振動発生機構のバイブレーション動作により種々の情報をユーザに通知する。
バス20は、各部間で相互にデータを伝送する。
次に、図8、図9及び図11〜16を参照して、上記構成を有する携帯端末1のテレビ電話の動作について説明する。なお、この携帯端末の通信動作自体は通常の携帯電話と同一であり、以下、本実施形態で特徴的なテレビ電話の動作について説明する。
ユーザが操作部14を操作してテレビ電話の開始を指示すると、指示に応答して、制御部11は、図8に示すテレビ電話アプリケーションの処理を開始する。制御部11は、まず、撮像部15を起動して、カメラ3の撮像画像を取得し、これを表示部16に供給して表示パネル4に表示させ処理を開始させる(ステップS1)。
続いて、制御部11は、目的音範囲決定処理(ステップS2)を実行する。
携帯端末1のテレビ電話機能は、携帯端末1の前に複数の人物(話者となる可能性がある者)が存在する場合に、特定の話者(音源)の音声(目的音)を分離・抽出して通話先に送信する機能を備える。目的音範囲決定処理(ステップS2)は、分離対象とする目的音(話者、音源)を特定するための画像領域である目的音範囲を表示パネル4上に設定する処理である。
図9に示すように、目的音範囲決定処理では、検出部113は、撮像画像内に人物(話者となる可能性がある者)がいるか否か、いる場合には、人物の数が複数か否かの判別を画像処理部112に要求する(ステップS21)。画像処理部112は、撮像画像を解析し、例えば、パターンマッチングにより、人間の顔と類似する画像の有無・数を判別することにより、撮像画像内に人物がいるか否か、いる場合には、人物の数が複数か否かの判別を行い、検出部113に判別結果を通知する。
検出部113は、画像処理部112からの通知に基づいて、撮像画像内の人物の数が複数(2人以上)か否かを判別する(ステップS22)。
複数であれば(ステップS22;Yes)、画像処理部112は、その内から顔画像が最も大きな人物を特定する。テレビ電話の場合、主な話者がカメラ3の正面に位置し、この話者の顔画像が最も大きくなる傾向がある。そこで、この人物からの音声を目的音とするため、この人物が撮像画像中に占める領域を特定し、その領域に目的音範囲を重ねる。
制御部11は、撮像画像と目的音範囲とを重ねた画像を表示部16を介して表示パネル4に表示させる(ステップS24)。
具体例で説明すると、撮影画像が図10(a)に示す撮像画像PT1とした場合、撮像画像PT1中に、複数の人物の画像P1,P2,P3が存在すると判別され、顔画像の最も大きな人物P1が特定され、人物P1の顔画像の占める位置が特定され、図10(b)に示すように、人物P1の顔画像に目的音範囲OS1が重ねて表示される。
この段階で、ユーザは、キーボード2上のキーを操作して、目的音範囲OS1の大きさと位置を変更(編集)可能である。
例えば、ユーザは、人物P1上の目的音範囲OS1を、図10(c)に示すように広くすることを指示できる。画像処理部112は、指示に従って、目的音範囲OS1のサイズを変更し、表示部16を介して表示パネル4に表示する。また、例えば、人物P2の声を目的音に設定して、通話先に選択的に送信したい場合、ユーザは操作部14を操作して目的音範囲OS1を人物P2の領域に移動する。
なお、ユーザが目的音範囲を決定するとき、図10(b)に示すように、撮像画像PT1上の音源(人物P1〜P3等)の位置(方向)と、その位置に対応する方向から到来する音の音声レベルと、を対応付けた音声レベル表示画像VD1を表示部16に表示してもよい。
この場合、音の到来する方向と音の音声レベルとは、音源定位分離部111により特定される。画像処理部112は、音源定位分離部111が特定した方向を基に撮像画像PT1上の位置を定め、その位置と音声レベルとを対応付けて音声レベル表示画像VD1を生成する。ステップS24を終了すると、処理はステップS25に進む。
一方、人数が複数でなければ(1人以下)(ステップS22;No)、画像処理部112は、テレビ電話の話者は最大でも1人であり、この話者の音声と他の人物の音声とを分別するよう目的音範囲を設定する必要が無い。そのため、この話者が目的音範囲から外れにくくするよう目的音範囲を撮像画像の全領域に定め、制御部11は、撮像画像と目的音範囲とを重ねた画像を表示部16を介して表示パネル4に表示させる(ステップS23)。
例えば、撮像画像が、図10(d)に示す撮像画像PT2の場合、撮像画像PT2内の人物は1人であり、画像処理部112は、撮像画像PT2の全領域を目的音範囲OS2の大きさに設定し、図10(e)に示すように、表示部16を介して表示パネル4に表示させる。ステップS13でも、音声レベル表示画像VD1と実質的に同一の音声レベル表示画像VD2を生成して、表示部16を介して表示パネル4に表示してもよい。ステップS23を終了すると、処理はステップS25に進む。
操作部14がユーザに操作され目的音範囲の決定を指示すると、制御部11は、その時点で設定されている目的音範囲を示す目的音範囲情報134を生成し、図6に示すように、記憶部13に記憶する(ステップS25)。これが目的音範囲の初期値となる。
続いて、制御部11は、設定した目的音範囲に基づいて目的音角度を求め、この目的音角度を示す目的音角度情報135を図7に示すように記憶部13に記憶する。なお、目的音範囲に基づいて目的音角度を求める方法については後述する。以上で目的音範囲決定処理(図8,ステップS2)が終了して、処理は図8のステップS3に進む。
続いて、制御部11は、目的音源検出動作、通知動作、の初期設定を行う(ステップS3)。具体的には、制御部11は、図4に示す目的音源有無情報132の初期値を「あり」、図5に示す通知情報133の通知方法の初期値を「ライトアップ」、に設定する。
また、制御部11は、ユーザ操作に応じて操作部14が選択した動作モード(「手動」又は「自動」)を図3に示す目的音範囲変更モード情報131に設定する。なお、動作モードの設定内容に関わらず、通知制御部114は、図5に示す通知情報133の通知モードの初期値をオンに設定する。以上で、初期設定(ステップS3)が終了し、処理はステップS4に進む。
ステップS4において、音源定位分離部111は、マイク6が収集した音声のうち、目的音角度情報135が示す目的音角度から到来する音だけを、テレビ電話の話者の音声である目的音として分離抽出する。制御部11は、抽出した目的音のデータ、即ち、テレビ電話の話者の音声をカメラ3の撮像画像と共に無線通信部12を介して、テレビ電話の相手に送信する。
また、制御部11は、無線通信部12を介してテレビ電話の相手からの音声データと画像データを受信し、音声データを音声出力部18に提供してスピーカ7から放音させ、画像データを表示部16を介して表示パネル4に表示させる。
制御部11は、テレビ電話の終了指示の有無を判別する(ステップS5)。終了が指示されたと判別すると(ステップS5;Yes)、制御部11は、撮像部15を介してカメラ3に撮像動作を終了させ、表示部16を介して表示パネル4に表示動作を終了させ(ステップS7)、テレビ電話を終了する。なお、ムービー撮影の終了の場合は、開始した時点からの撮像部15から撮像された画像データと音源定位分離部111から分離抽出された音声データを記憶部13に記憶する。
終了指示がないと判別すると(ステップS5;No)、制御部11は、現在の動作モード(「手動」又は「自動」)に対応した目的音範囲の変更処理(ステップS6)を実行する。ステップS6の処理は、テレビ電話の実行中に定期的に実行される。
図11に示すように、目的音範囲の変更処理では、先ず、テレビ電話の話者が設定されている目的音範囲から移動したか否かを判別するために、検出処理が実行される(ステップS61)。検出処理において、検出部113は、図12に示すように、現在設定されている目的音範囲で特定される音源から到来する音の音声レベルの判別を音源定位分離部111に要求する。音源定位分離部111は、複数のマイク6が入力する音声信号の相関と位相差から、音が到来する方向とその音の音声レベルを判別し、検出部113に通知する。
検出部113は、通知に基づいて目的音範囲に対応する方向からの音、即ち、分離対象である目的音が到来しているか否かを判別する(ステップS611)。検出部113は、目的音範囲に対応する方向からの音の音声レベルが所定レベルより大きければ目的音が到来していると判別し、小さければ到来していないと判別する。目的音が到来していると判別すると(ステップS611;Yes)、検出部113は目的音源有無情報132を「あり」に設定し(ステップS615)、処理は図11にリターンし、ステップS62に進む。
検出部113は、目的音が到来していないと判別すると(ステップS611;No)、話者、即ち、目的音源が目的音範囲に存在しない(移動した)のか、又は、目的音源は目的音範囲に存在するが音を発生していないのか、を撮像画像上の目的音範囲に目的音源の画像があるか否かに基づいて判別する。そのため、処理はステップS612に進む。
本実施形態では、音源は、人物であり、目的音範囲に人物の顔の画像があるか否かで、音源が存在するか否かを判別する。
まず、検出部113は、目的音範囲内の顔の有無を判別するよう、画像処理部112に要求する(ステップS612)。このとき、検出部113は、画像処理部112に判別する特徴点(顔(目の動き))を指示し、画像処理部112からの特徴点判別結果(目的音範囲に顔(目の動き)があるか否か)の通知を待つ。
ここで、目の動きの有無を判別するのは、撮像画像に人物写真が含まれている場合、画像処理部112が、目的音源の人物ではなく人物写真を検出するおそれがあるからである。画像処理部112は、特徴点として検出された目の候補に動きがあるか否かを検出し、動きがあることを検出した場合に目を検出したものと判別する。
なお、画像処理部112は、例えば、二値化した撮像画像上で黒の画素群をラベリングして、右目及び左目を構成する候補となる黒の画素領域を特定し、特定した画素領域の重心の移動する態様から人間の目の動きがあると判別する。
人物の顔(目の動き)があれば(ステップS612;Yes)、検出部113は、目的音源有無情報132を「あり」に設定し(ステップS615)、処理は図11にリターンし、ステップS62に進む。顔(目の動き)がなければ(ステップS612;No)、検出部113は、画像処理部112に目的音範囲内の体(体の動き)の有無の判別を要求する(ステップS613)。
ここで、体の動きを判別するのは、例えば、撮像部15が撮影している場面が、図10(e)に示す、人物P1の背景にボードBDが配置された場面で、人物P1がこのボードBDに向かって議事録を書いている状態のように、人物の顔(目)が撮像部15を向いておらず、目を検出できない場合などもあり得るためである。判別の要求後、検出部113は、要求に応答して画像処理部112から判別結果が通知されるまで待機する。
画像処理部112は、例えば、ソーベルフィルタ処理を施した撮像画像から人物の体の輪郭の候補となるエッジラインを抽出し、そのエッジラインの重心位置を求め、求めた重心位置の移動する態様から人物の体の動きがあると判別する。
画像処理部112にて体(体の動き)があると通知すると(ステップ613;Yes)、検出部113は、目的音源有無情報132を「あり」に設定し(ステップS615)、ないと通知すると(ステップS613;No)、「なし」に設定する(ステップS614)。以上で検出処理(図11,ステップS61)が終了して、処理はステップS62に進む。
通知制御部114は、目的音源有無情報132を参照して、検出部113が現在設定されている目的音範囲に目的音源があることを検出したか否かを判別する(ステップS62)。目的音源が目的音範囲になければ(ステップS62;No)、通知制御部114は、その旨をユーザに通知するか否かを判別するため、図5に示す通知情報133に含まれる通知モードの設定が「オン」であるか否かを判別する(ステップS63)。オンでなければ(ステップS63;No)、処理はステップS65に進む。オンならば(ステップS63;Yes)、通知制御部114は、図5に示す通知情報133に設定されている通知方法に従ってユーザ通知を行うために、通知処理を実行する(ステップS64)。
図13に示すように、通知処理では、通知制御部114は、図5に示す通知情報133の通知動作の設定が「通知中」であるか否かを判別する(ステップS641)。通知中なら(ステップS641;Yes)、改めてユーザ通知をする必要が無いため、制御部11は通知処理を終了し、処理は図11にリターンし、ステップS65に進む。
通知中でなければ(ステップS641;No)、通知制御部114は、通知動作を「通知中」に設定して(ステップS642)、図5に示す通知情報133の通知方法が「ライトアップ」であるか否かを判別する(ステップS643)。ライトアップなら(ステップS643;Yes)、通知制御部114は、通知部19にLEDを点灯させ(ステップS644)、なければ(ステップS643;No)、通知方法が「バイブレーション」であるか否かを判別する(ステップS645)。
バイブレーションなら(ステップS645;Yes)、通知制御部114は、通知部19にバイブレーション動作を実行させ(ステップS646)、なければ(ステップS645;No)、通知方法が「音声出力」であるか否かを判別する(ステップS647)。音声出力ならば(ステップS647;Yes)、通知制御部114は、音声出力部18にメロディ音を出力させる(ステップS648)。以上で通知処理(図11,ステップS64)が終了して、処理は図11のステップS65に進む。
制御部11は、目的音範囲変更モード情報131を参照して、動作モードが「手動」に設定されているか否かを判別する(ステップS65)。動作モードが「手動」であれば(ステップS65;Yes)、目的音範囲内に目的音源が存在しないことをユーザに通知して、ユーザにより指示された目的音範囲を目的音範囲として新たに設定するために、目的音範囲手動変更部115は目的音範囲手動変更処理を実行する(ステップS66)。
図14に示すように、目的音範囲手動変更処理では、目的音範囲手動変更部115は、ユーザが操作部14を操作して、現在設定されている目的音範囲を変更するよう指示したか否かを判別する(ステップS661)。目的音範囲手動変更部115は、変更を指示していないと判別すると(ステップS661;No)、処理は図8にリターンし、ステップS4に戻る。
ユーザが、操作部14を操作して現在設定されている目的音範囲の位置及びサイズの変更を指示すると(ステップS661;Yes)、目的音範囲手動変更部115は、その指示に従って、変更された目的音範囲を目的音範囲情報134に設定する(ステップS662)。
続いて、目的音範囲手動変更部115は、後述する数式1乃至4に基づいて、その目的音範囲から目的音角度を求め(ステップS663)、求めた目的音角度を示す目的音角度情報135を生成し、記憶部13に記憶させる。
なお、ステップS663において、目的音範囲から目的音角度を求める方法について説明する。具体例として、目的音範囲から目的音角度を求めるときの撮像画像を、図17(a)に示す撮像画像PT1、即ち、図17(b)に示す撮像部15の画角θ3の中心を所定の基準(0度)の90度方向に向けて撮像した画像、を例にとり説明する。
水平方向の幅x1,x2及び撮像画像PT1の横幅x3は、各幅の一方の端を撮像画像PT1上のx座標の原点(0)に対応させたときに他端が対応するx座標値から求まる。また、撮像部15の画角θ3は、撮像画像PT1の横幅x3に対応する角度であり、撮像部15のズーム機能により予め定められた値である。これらを以下の数式1、2に代入し、図17(b)に示すθ1、θ2を求められる。
(数1) θ1=(x1/x3)×θ3
(数2) θ2=(x2/x3)×θ3
また、図17(b)に示す目的音角度m度、n度はそれぞれ以下の数式3、4で表すことができる。ここで、数式1から求めたθ1と画角θ3とを数式3に代入して、目的音範囲の左端に対応する目的音角度m度が求まる。また、数式2から求めたθ2と画角θ3とを数式4に代入して、目的音範囲の右端に対応する目的音角度n度が求まる。
(数3) m=90+(θ3/2)−θ1
(数4) n=90+(θ3/2)−θ2
なお、数式1乃至4は、目的音範囲自動変更処理(図11,ステップS67)において目的音角度を求める場合でも同様に適用可能である。以上で目的音範囲手動変更処理(図11,ステップS66)が終了して、処理は図8にリターンし、ステップS4に戻る。
一方、ステップS65で判別した現在の動作モードが「手動」でなければ(図11,ステップS65;No)、目的音範囲自動変更部116は、検出部113が目的音範囲内に目的音源が存在しないことを検出したことに応答し、目的音源を含むよう目的音範囲を自動的に変更するために、目的音範囲自動変更処理を実行する(ステップS67)。
テレビ電話では、携帯端末1の周囲からマイク6に到来する音の内、主な話者の声が最も大きくなる傾向がある。そのため、図15に示すように、目的音範囲自動変更処理では、先ず、目的音範囲自動変更部116は、複数のマイク6が収集した音の内で音声レベルが最も大きな音の到来する方向を探索する(ステップS671)。
このとき、目的音範囲自動変更部116は、その方向の判別及びその方向から到来する音の音声レベルの判別を、音源定位分離部111に要求する。音源定位分離部111は、要求に応じて、判別した方向と音声レベルとを目的音範囲自動変更部116に通知する。
具体例で説明すると、図18(a)において、人物P1がマイク6にて収集した音の内で音声レベルが最も大きな音を発生している場合、音源定位分離部111は、判別結果として、図18(b)に示す角度p度を示す情報と人物P1の発生する音の音声レベルとを、目的音範囲自動変更部116に通知する。
目的音範囲自動変更部116は、音源定位分離部111から通知された音声レベルが所定レベル以上か否かに基づいて、目的音源の有無を判別する(ステップS672)。この所定レベルは、マイク6が収集した音声レベルが最も大きな音がテレビ電話の話者の声か否かを判別するための基準であり、例えば、人間が会話するときの平均的な音声レベルに設定したものである。
所定レベルよりも小さければ、目的音範囲自動変更部116は、目的音源がないと判別し(ステップS672;No)、所定レベル以上ならあると判別する(ステップS672;Yes)。目的音源がないと判別すると、処理は図8にリターンし、ステップS4に進む。あると判別すると、目的音範囲自動変更部116は、音源定位分離部111から取得した音声レベルが最も大きな音の到来する角度(方向)に基づいて、目的音角度を新たに決定する(ステップS673)。
具体例で説明すると、目的音範囲自動変更部116は、音源定位分離部111が通知した方向(図18(b)及び図19(b)に示すp度)から円周方向にそれぞれ所定角度Ap度ずらした(p+Ap)度と(p−Ap)度とを新たな目的音角度に定め(図19(b))、その目的音角度を示す目的音角度情報135を生成し、記憶部13に記憶させる。
次に、目的音範囲自動変更部116は、画像処理部112に新たに定めた目的音角度に対応するよう撮像画像上の目的音範囲の位置を変更させ(ステップS674)、更に、撮像画像と画像処理部112が位置を変更した目的音範囲とを重ねた画像を表示部16に表示させる。
ここで、新たに定めた目的音角度に対応する撮像画像上の目的音範囲の位置を求める方法について説明する。具体例で説明すると、目的音範囲自動変更部116は、以下に示す数式5に従って、図19(b)に示す新たに定めた目的音角度(p+Ap)度から、図19(a)に示す撮像画像PT1の幅x4に対応する図19(b)に示す角度θ4を定める。続いて、目的音範囲自動変更部116は、撮像部15の画角がθ4度となるよう撮像部15に変更させる。
(数5) θ4=(p+Ap−90)×2
また、目的音範囲の横幅x2に対応する角度θ2は、以下の数式6に新たに定めた目的音角度(p+Ap)度と(p−Ap)度とを代入して、求められる。目的音範囲OS1の水平位置x2は、数式5から求まるθ4と数式6から求まるθ2と撮像画像PT1の横幅x4とを、以下の数式7に代入して求められる。これにより、変更後の目的音角度に対応する目的音範囲を表示部16に表示することができる。
(数6) θ2=(p+Ap)−(p−Ap)=2Ap
(数7) x2=(θ2/θ4)×x4
なお、数式7は、画像処理部112が音声レベル表示画像を生成する際、撮像画像上の音源の位置(方向)を特定するためにも使用される。具体例で説明すると、画像処理部112が図10(b)に示す音声レベル表示画像VD1を生成する場合、撮像部15のズーム機能から特定した撮像部15の画角θ4と、図10(a)に示す撮像画像PT1の横幅x4と、数式6から求めるθ2と、を数式7に代入して、撮像画像において音源の方向に対応するx座標値x2を求めればよい。以上で目的音範囲自動変更処理(図11,ステップS67)が終了して、処理は図8にリターンし、ステップS4に戻る。
一方、目的音範囲に目的音源があると判別すると(図11,ステップS62;Yes)、通知制御部114は、通知モードがオンか否かを判別する(ステップS68)。オンでなければ(ステップS68;No)、処理は図8のステップS4に戻る。オンならば(ステップS62;No)、通知制御部114は、ユーザ通知が既に実行されているか否かを判別するため、通知情報133の通知動作が「通知中」を示しているか否かを判別する(ステップS69)。通知中でなければ(ステップS69;No)、処理は図8のステップS4に戻る。
通知中なら(ステップS69;Yes)、通知制御部114は、通知解除処理(ステップS610)を実行する。図16に示すように、通知解除処理では、通知制御部114は、通知情報133の通知動作を「停止中」に設定して(ステップS6101)、通知方法が「ライトアップ」であるか否かを判別する(ステップS6102)。通知制御部114は、ライトアップなら(ステップS6102;Yes)、通知部19に通知用LEDを消灯させ(ステップS6103)、なければ(ステップS6102;No)、通知方法がバイブレーションか否かを判別する(ステップS6104)。
バイブレーションなら(ステップS6104;Yes)、通知制御部114は、通知部19にバイブレーション動作を解除させ(ステップS6105)、なければ(ステップS6104;No)、通知方法が音声出力か否かを判別する(ステップS6106)。音声出力なら(ステップS6106;Yes)、通知制御部114は、音声出力部18にメロディ音の出力を解除させる(ステップS6107)。以上で通知解除処理(図11,ステップS610)が終了する。
以上により目的音範囲の変更処理(ステップS6)が終了し、処理は図8にリターンしてステップS4に進み、音源定位分離部111は現在設定されている目的音範囲から到来する音を分離抽出する。制御部11は、抽出した目的音のデータをカメラ3の撮像画像と共に無線通信部12を介して、テレビ電話の相手に送信する。
以後、テレビ電話アプリケーションが終了されるまで、携帯端末1はステップS4〜S6の処理を繰り返し実行する。
以上説明したように、本実施形態によれば、音源定位分離部111により特定した目的音の到来方向が、分離抽出対象とする音の到来方向を特定する目的音範囲から外れた場合に、目的音の到来方向に対応するよう目的音範囲の位置を変更し、音源定位分離部111は、位置を変更した後の目的音範囲から到来する音を分離抽出する。
これにより、現在設定されている目的音範囲から目的音の到来方向から外れた場合でも、目的音範囲の位置を変更し、変更後の目的音範囲から目的音を分離抽出することができる。
本実施形態によれば、目的音範囲を変更するときの動作モードの設定が「自動」である場合、目的音範囲自動変更部116は、ユーザによる目的音範囲の変更操作を伴うことなく、音源定位分離部111が特定した目的音の到来方向に対応するよう目的音範囲の位置を変更する。音源定位分離部111は、変更後の目的音範囲から到来する音のみを分離抽出する。
これにより、目的音範囲に目的音源がない場合でも目的音の到来方向に対応するよう目的音範囲を自動的に変更して、変更した目的音範囲から目的音のみを分離抽出することができる。
また、本実施形態によれば、動作モードの設定が「自動」である場合、目的音範囲自動変更部116は、撮像画像に目的音源の画像が存在しなければ、音源定位分離部111が定位する目的音の到来方向(目的音を発生している音源の方向)が含まれるよう撮像部15にカメラ3の画角を変更させる。
これにより、現在の目的音源の位置する方向が現在カメラ3の撮像している範囲内に対応しない場合でも、カメラ3の画角を変更し、目的音の到来方向に位置する目的音源が撮像画像に含まれるようにできる。
更に、本実施形態によれば、動作モードの設定が「自動」である場合、目的音範囲自動変更部116は、目的音範囲に目的音源が存在しないときでも、マイク6が収集する音の音声レベルの内で最も大きなものが所定レベル以上であれば、その音声レベルを示す音が到来する方向を含むよう目的音範囲を変更し、音源定位分離部111は、変更した目的音範囲から到来する音のみを分離抽出する。
これにより、目的音範囲に目的音源がない場合でも、マイク6が収集する音の内で音声レベルが最も大きく所定レベル以上である音を目的音とみなして、その音が到来する方向に対応して目的音範囲を変更し、その音を分離抽出する。この場合、目的音の音声レベルがマイク6にて収集する他の音の音声レベルと比べて最大であれば、ユーザにとっての利便性が向上する。
本実施形態によれば、通知モードが「オン」に設定されている場合、通知制御部114は、検出部113が目的音範囲に目的音源がないことを検出したときに、その旨をユーザに通知する。
これにより、ユーザは、目的音範囲から目的音源が外れたことを把握できる。
また、この通知をするときの通知方法はユーザにより変更可能であり、本実施形態では、LED点滅,バイブレーション,音声出力、の内から選択可能である。
これにより、ユーザは、現在の状況に応じて、任意の通知方法を選択することができる。例えば、テレビ電話を使用した会議中であれば周囲へのマナーを考慮して、音声出力以外の通知方法を選択できる。
本実施形態によれば、目的音範囲を変更するときの動作モードが「手動」に設定されている場合、目的音範囲手動変更部115は、ユーザが操作部14を操作して位置やサイズを変更した目的音範囲を示す目的音範囲情報134を生成し、記憶部13に記憶させる。
これにより、ユーザは、例えば、目的音範囲から目的音源が外れた場合に、目的音源を含むよう目的音範囲の位置や大きさを変更し、変更後の目的音範囲から目的音が分離抽出されるように調節できる。
本実施形態によれば、ユーザは操作部14を操作して目的音範囲の位置や大きさを任意に変更(編集)可能であり、画像処理部112はユーザの変更した位置と大きさに応じた目的音範囲の画像を生成し、音源定位分離部111は、その目的音範囲に対応する方向から到来する音を分離抽出する。
これにより、ユーザは、目的音範囲を変更して、変更後の目的音範囲から分離抽出される目的音を自己の好みに応じて調節できる。
また、このとき、制御部11は、表示部16を介して、撮像画像に目的音範囲を重ねた画像を表示パネル4に表示させる。
これにより、ユーザは、目的音範囲内の目的音源を視覚的に確認できる。例えば、ユーザは、目的音範囲が誤った目的音源を特定していることを一見して把握でき、操作性が向上される。
また、本実施形態によれば、ユーザが目的音範囲の大きさや位置を変更(編集)するときに、画像処理部112は、音源定位分離部111が特定した複数のマイク6が入力した音の到来方向が撮像画像PT1上で対応する位置を定め、その位置と音声レベルとを対応付けて音声レベル表示画像VD1を生成し、制御部11は表示部16を介して表示パネル4に表示させる。
これにより、ユーザは、撮像画像上で目的音の音声レベルが極大である方向を一見して把握した上で、目的音範囲を変更することができる。
本実施形態によれば、目的音範囲の初期値を設定するときに、カメラ3の撮像画像に複数の人物が含まれていれば、画像処理部112は、その内から顔画像が最も大きな人物を特定し、その人物が撮像画像中に占める領域を特定して、その領域に目的音範囲を重ねる。
これにより、例えば、テレビ電話中に主な話者がカメラ3の正面に位置する場合、その話者の声を目的音とするよう目的音範囲が表示されるため、ユーザが目的音範囲を設定する際の利便性が高まる。
また、本実施形態によれば、目的音範囲の初期値を設定するときに、カメラ3の撮像画像に含まれる人物が1人以下であれば、画像処理部112は、撮像画像の全領域に目的音範囲を重ねる。
これにより、撮像画像に含まれる人物の音声と他の人物の音声との分別が不要なときに、その人物が目的音範囲から外れにくくすることができる。
本実施形態によれば、検出部113は、初期値に設定された目的音範囲から到来する音の音声レベルを音源定位分離部111から取得して所定レベル以上か否かを判別し、所定レベル以上であれば目的音範囲に目的音を発生する音源があると判別する。
これにより、初期値に設定された目的音範囲に存在するものが目的音を発生する目的音源である可能性が高まる。
また、本実施形態によれば、検出部113は、初期値に設定された目的音範囲から到来する音の音声レベルが所定レベルよりも小さければ、目的音範囲内の撮像画像上に人物の顔の画像が有るか否かを判別し、有れば、目的音源があると判別する。これにより、目的音源である話者であるときに、その話者が目的音範囲外に移動したのか、目的音範囲内には存在するが発声していないのか、を判別できる。
本実施形態によれば、目的音範囲内の撮像画像上に人物の顔画像があるか否かを判別するとき、画像処理部112は、目的音範囲内の撮像画像上に目の動きが有るか否かに基づいて、その判別を行う。
これにより、撮像画像中に話者と人物写真が含まれている場合でも、話者の目の動きがあることを検出して、話者と人物写真とを分別することができる。
更に、検出部113は、目的音範囲内に顔が存在しないと判別すると、人物の体の有無を判別し、有れば、目的音範囲内に目的音源があると判別する。これにより、人物の顔がカメラ3に向いていない場合でも、目的範囲内に話者の目的音源である話者が目的範囲内に存在することを検出できる。
以下、本発明の変形例及び応用例について説明する。
目的音範囲の形は矩形に限らず、例えば、撮像画像上の人物の画像の輪郭に合わせた形であってもよい。この場合、画像処理部112が、撮像画像を解析し、例えば、パターンマッチングにより、人物の顔体の全体像に類似する領域を判別して、目的音範囲に定めるようにすればよい。
目的音源の位置を目的音範囲から外れにくくするには、目的音源を他の音源から特定できる限度内で目的音範囲をなるべく大きくすればよい。そのため、目的音範囲をなるべく大きく設定するようユーザに促すメッセージを表示部16に表示してもよい。
検出処理(図11,ステップS61)は、顔(目の動き)の検出後に体(体の動き)を検出するに限られない。例えば、複数の人物が撮像画像に含まれる場合に、体を検出しても目的音源の人物を特定するのが困難であれば、体(体の動き)を検出するステップを省略してもよい。また、例えば、目的音源の人物の顔が撮像部15を向いていない場合、顔(目の動き)の検出により目的音源が目的範囲内にあると判別せずに、体(体の動き)の検出を続けて行うようにすればよい。
これらの組合せは、画像処理部112の性能とユーザの利用状況とに応じて任意に定めればよい。
目的音範囲内に目的音源がないことをユーザに通知するときの通知方法は、LED点灯、バイブレーション動作、音声出力、に限らず、例えば、目的音源がないことを示すメッセージを表示パネル4に表示するようにしてもよい。
その他、本発明の概念は、専用のコンピュータシステムに限らず、例えば、撮像部及び複数の音声入力部を備える、携帯電話機、PDA、電子カメラ、等の任意の携帯型電子装置に適用可能である。即ち、コンピュータを携帯端末1として機能・動作させるためのコンピュータプログラムを作成し、配布し、貸与し、これをコンピュータにインストールして、携帯端末1として、これを使用、譲渡、貸与などしてもよい。
携帯端末を開いた状態で正面から見たときの外観図である。 携帯端末の構成を示すブロック図である。 目的音範囲変更モード情報の例を示す図である。 目的音源有無情報の例を示す図である。 通知情報の例を示す図である。 目的音範囲情報の例を示す図である。 目的音角度情報の例を示す図である。 テレビ電話機能の起動から終了までの間の、携帯端末が目的音を分離抽出する処理を示すフローチャートである。 目的音範囲決定処理を示すフローチャートである。 (a)は、複数の人物が含まれる撮像画像を示す図である。(b)は、撮像画像上で目的音範囲が顔画像の最も大きな人物の顔に重ねられた画像及び音声レベル表示画像を示す図である。(c)は、撮像画像上で目的音範囲が顔画像の最も大きな人物の体全体に重ねられた画像を示す図である。(d)は、人物が1人のみ含まれる撮像画像を示す図である。(e)は、撮像画像上で目的音範囲が撮像画像の全領域を指し示した画像及び音声レベル表示画像を示す図である。 動作モードに対応した目的音範囲の変更処理を示すフローチャートである。 検出処理を示すフローチャートである。 通知処理を示すフローチャートである。 目的音範囲手動変更処理を示すフローチャートである。 目的音範囲自動変更処理を示すフローチャートである。 通知解除処理を示すフローチャートである。 (a)は、撮像画像と目的音範囲とが重ねられた画像を示す図である。(b)は、撮像部の画角及び目的音範囲に対応する角度を示す図である。 (a)は、目的音範囲変更前の撮像画像と目的音源の位置とを示す図である。(b)は、目的音範囲変更前の撮像部の画角を示す図である。 (a)は、目的音範囲変更後の撮像画像と目的音源の位置とを示す図である。(b)は、目的音範囲変更後の撮像部の画角を示す図である。
符号の説明
1…携帯端末、11…制御部、12…無線通信部、13…記憶部、14…操作部、15…撮像部、16…表示部、17…音声入力部、18…音声出力部、19…通知部、20…バス、111…音源定位分離部、112…画像処理部、113…検出部、114…通知制御部、115…目的音範囲手動変更部、116…目的音範囲自動変更部、131…目的音範囲変更モード情報、132…目的音源有無情報、133…通知情報、134…目的音範囲情報、135…目的音角度情報、PT1…撮像画像、PT2…撮像画像、OS1…目的音範囲、OS2…目的音範囲、P1,P2,P3,P4…人物、VD1,VD2…音声レベル表示画像、BD…ボード、x1,x2…撮像画像上の水平方向の幅、x3…撮像画像の横幅、x4…撮像画像の横幅、y1,y2…撮像画像上の垂直方向の高さ,y3…撮像画像の高さ、m…目的音範囲の左端に対応する目的音角度、n…目的音範囲の右端に対応する目的音角度、p…音源の角度、A1…撮像画像の左端の角度、A2…撮像画像の右端の角度、Ap…所定角度、θ1,θ2…角度、θ3,θ4…撮像部の画角

Claims (13)

  1. 音を入力する音声入力手段と、
    画像を撮像する撮像手段と、
    データを表示する表示手段と、
    前記撮像手段が撮像した画像と、分離抽出対象とする音の到来する方向を特定するための特定領域と、を重ねて前記表示手段に表示させる表示制御手段と、
    音源の方向を特定する音源定位手段と、
    前記音源定位手段が特定した音源の方向が、前記表示手段が表示した特定領域に対応するか否かを検出する音源有無検出手段と、
    前記音源有無検出手段が音源の方向が前記特定領域に対応しないことを検出した場合に、該音源の方向に一致するように前記特定領域の位置を変更する領域位置変更手段と、
    前記撮像手段が撮像した画像と、前期領域位置変更手段が変更した位置にある特定領域と、を重ねて前記表示手段に表示させる領域表示制御手段と、
    前記領域表示制御手段が前記表示手段に表示させた特定領域が特定する方向から到来する音を、前記音声入力手段が入力した音から分離抽出する音源分離手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記領域位置変更手段は、
    前記音源有無検出手段が音源の方向が前記特定領域に対応しないことを検出した場合に、前記音源定位手段により、音が到来する方向を探索する方向探索手段と、
    前記撮像手段が撮像した画像上で、前記方向探索手段が探索した方向に対応する位置を特定する画像位置特定手段と、
    前記画像位置特定手段が特定した位置に、前記特定領域の位置を変更する変更手段と、
    から構成されることを特徴とする請求項1に記載の情報処理装置。
  3. 前記領域表示制御手段は、
    前記方向探索手段の探索した方向に位置する音源が、前記撮像手段が撮像した画像上に存在するか否かを判別する音源画像有無判別手段と、
    前記音源画像有無判別手段で音源が撮像画像上に存在しないと判別した場合に、前記撮像手段に、撮像した画像に該音源の画像が含まれるよう画角を変更させ、前記画角を変更した撮像手段が撮像した画像と前記特定領域とを重ねて前記表示手段に表示させる手段と、を備える、ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記領域表示制御手段は、
    前記音源画像有無判別手段で音源が撮像画像上に存在すると判別した場合に、前記撮像手段が撮像した画像において前記方向探索手段が探索した方向に位置する音源の画像のサイズを特定する音源画像サイズ特定手段と、
    前記特定領域のサイズを前記音源画像サイズ特定手段が特定したサイズに変更し、前記撮像手段が撮像した画像と前記サイズが変更された特定領域とを重ねて前記表示手段に表示させる特定領域サイズ変更手段と、を備えることを特徴とする請求項3に記載の情報処理装置。
  5. 前記方向探索手段は、
    前記音源有無検出手段が音源の方向が前記特定領域に対応しないことを検出した場合に、前記音声入力手段が入力した音の内でレベルが最も大きい音の到来する方向を探索するレベル最大方向探索手段、を備え、
    前記音源画像サイズ特定手段は、前記レベル最大方向探索手段が探索した方向から到来する音のレベルが所定レベル以上であるか否かを判別し、所定レベル以上であると判別した場合に音源の画像のサイズを特定する、ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記音源有無検出手段は、
    前記特定領域が特定する方向から到来する音のレベルが所定レベル以上か否かを判別する到来音レベル判別手段と、
    前記到来音レベル判別手段が、所定レベル以上でないと判別した場合に、前記撮像手段の撮像画像のうち前記特定領域内の画像に人物の特徴点が存在するか否かを判別する特徴点有無判別手段と、
    前記特徴点有無判別手段が人物の特徴点が前記特定領域内の画像にあると判別した場合に、該特定領域に対応する方向に分離抽出対象とする音を発生する音源があると判別する手段と、
    を備えることを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記領域位置変更手段は、
    前記音源有無検出手段が音源の方向が前記特定領域に対応しないことを検出した場合に、その旨を通知する通知手段と、
    ユーザの操作に応答して、前記特定領域の位置とサイズとの少なくとも一方を変更する変更手段と、
    を備えることを特徴とする請求項1に記載の情報処理装置。
  8. 前記表示制御手段は、
    前記撮像画像の撮像画像内に人物が含まれるか否かを判別する画像内人物有無判別手段と、
    前記画像内人物有無判別手段が前記撮像画像内に人物が含まれると判別した場合に、該撮像画像に含まれる人物の数が複数か否かを判別する人数単複判別手段と、
    前記人数単複判別手段が複数でないと判別した場合に、前記撮像手段の撮像画像の全領域の位置とサイズとを前記特定領域の位置とサイズとして設定する初期領域設定手段と、
    前記撮像手段が撮像した画像と、前記初期領域設定手段が設定した特定領域と、を重ねて前記表示手段に表示させる手段と、
    を備えることを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  9. 前記表示制御手段は、
    前記撮像画像の撮像画像内に人物が含まれるか否かを判別する画像内人物有無判別手段と、
    前記画像内人物有無判別手段が前記撮影画像内に人物が含まれると判別した場合に、該撮像画像に含まれる人物の数が複数か否かを判別する人数単複判別手段と、
    前記人数単複判別手段が人物の数が複数であると判別した場合に、前記撮像手段の撮像画像において、顔の画像が最も大きい人物を特定する顔最大人物特定手段と、
    前記撮像手段の撮像画像における、前記顔最大人物特定手段が特定した人物の画像領域を特定する人物領域特定手段と、
    前記人物領域特定手段が特定した人物の画像領域の少なくとも一部を含むように前記特定領域を予め設定する第2の初期領域設定手段と、
    前記撮像手段が撮像した画像と、前記第2の初期領域設定手段が設定した特定領域と、を重ねて前記表示手段に表示させる手段と、
    を備えることを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。
  10. 前記撮像手段が撮像した画像において、前記音声入力手段が入力した音が到来する方向を特定する到来方向画像内特定手段と、
    前記到来方向画像内特定手段が特定した方向と、該方向から到来する音のレベルと、を対応付けた方向レベル対応付画像を生成する画像生成手段と、
    前記撮像手段が撮像した画像と前記特定領域とを重ねて、前記画像生成手段が生成した方向レベル対応付画像を該表示手段に表示させる対応付画像表示制御手段と、
    前記対応付画像表示制御手段が方向レベル対応付画像を前記表示手段に表示させている間に、ユーザの操作に応答して、前記表示手段が表示する特定領域の位置とサイズとの少なくとも一方を変更するレベル可視領域変更手段と、
    を更に備えることを特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。
  11. 他装置と通信する通信手段と、
    前記通信手段を使用するアプリケーションを実行するアプリケーション実行手段と、を更に備え、
    前記通信手段は、前記アプリケーション実行手段がアプリケーションを実行している間、前記音源分離手段が分離抽出した音のデータと前記撮像手段が撮像した画像のデータの少なくとも1つを該他装置に送信する、ことを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。
  12. データを記憶する記憶手段と、
    前記音源分離手段が分離抽出した音と前記撮像手段が撮像した画像との少なくとも1つを前記記憶手段に記憶させる手段と、を更に備える、
    ことを特徴とする請求項1乃至11のいずれか1項に記載の情報処理装置。
  13. コンピュータに、
    撮像した画像と、分離対象とする音の到来する方向を特定するための特定領域と、を重ねて表示部に表示させ、
    音の到来方向を特定し、特定した方向が前記特定領域に対応する方向に一致するか否かを判別し、
    音の到来方向が前記特定領域に対応する方向に一致しないと判別した場合に、音の到来方向と特定領域に対応する方向とが一致するように前記特定領域の位置を変更し、
    前記撮像した画像と、前記変更した位置にある特定領域とを重ねて、前記表示部に表示し、
    変更後の特定領域に対応する方向に一致する方向から到来する音を、入力音から分離抽出して出力する、
    ための処理を実行させるためのプログラム。
JP2007122883A 2007-05-07 2007-05-07 情報処理装置、プログラム Expired - Fee Related JP5029986B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007122883A JP5029986B2 (ja) 2007-05-07 2007-05-07 情報処理装置、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007122883A JP5029986B2 (ja) 2007-05-07 2007-05-07 情報処理装置、プログラム

Publications (2)

Publication Number Publication Date
JP2008278433A true JP2008278433A (ja) 2008-11-13
JP5029986B2 JP5029986B2 (ja) 2012-09-19

Family

ID=40055809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007122883A Expired - Fee Related JP5029986B2 (ja) 2007-05-07 2007-05-07 情報処理装置、プログラム

Country Status (1)

Country Link
JP (1) JP5029986B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010278725A (ja) * 2009-05-28 2010-12-09 Sanyo Electric Co Ltd 画像音響処理装置及び撮像装置
JP2011069948A (ja) * 2009-09-25 2011-04-07 Nec Corp 音源信号分離装置、音源信号分離方法及びプログラム
JP2011071686A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理装置、映像音響処理方法及びプログラム
JP2014510430A (ja) * 2011-01-13 2014-04-24 クアルコム,インコーポレイテッド モバイルプラットフォームでの可変ビーム形成
US11250871B2 (en) 2018-01-15 2022-02-15 Mitsubishi Electric Corporation Acoustic signal separation device and acoustic signal separating method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1051889A (ja) * 1996-08-05 1998-02-20 Toshiba Corp 音声収集装置及び音声収集方法
JPH10191498A (ja) * 1996-12-27 1998-07-21 Matsushita Electric Ind Co Ltd 音信号処理装置
JP2004193661A (ja) * 2002-12-06 2004-07-08 Sony Corp 双方向コミュニケーションシステム,映像通信装置,および映像通信装置の撮影処理制御方法
JP2005229422A (ja) * 2004-02-13 2005-08-25 Sony Corp 音声処理装置
JP2006261900A (ja) * 2005-03-16 2006-09-28 Casio Comput Co Ltd 撮像装置、撮像制御プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1051889A (ja) * 1996-08-05 1998-02-20 Toshiba Corp 音声収集装置及び音声収集方法
JPH10191498A (ja) * 1996-12-27 1998-07-21 Matsushita Electric Ind Co Ltd 音信号処理装置
JP2004193661A (ja) * 2002-12-06 2004-07-08 Sony Corp 双方向コミュニケーションシステム,映像通信装置,および映像通信装置の撮影処理制御方法
JP2005229422A (ja) * 2004-02-13 2005-08-25 Sony Corp 音声処理装置
JP2006261900A (ja) * 2005-03-16 2006-09-28 Casio Comput Co Ltd 撮像装置、撮像制御プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010278725A (ja) * 2009-05-28 2010-12-09 Sanyo Electric Co Ltd 画像音響処理装置及び撮像装置
JP2011069948A (ja) * 2009-09-25 2011-04-07 Nec Corp 音源信号分離装置、音源信号分離方法及びプログラム
JP2011071686A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理装置、映像音響処理方法及びプログラム
JP2014510430A (ja) * 2011-01-13 2014-04-24 クアルコム,インコーポレイテッド モバイルプラットフォームでの可変ビーム形成
US9066170B2 (en) 2011-01-13 2015-06-23 Qualcomm Incorporated Variable beamforming with a mobile platform
JP2015167408A (ja) * 2011-01-13 2015-09-24 クアルコム,インコーポレイテッド モバイルプラットフォームでの可変ビーム形成
US11250871B2 (en) 2018-01-15 2022-02-15 Mitsubishi Electric Corporation Acoustic signal separation device and acoustic signal separating method

Also Published As

Publication number Publication date
JP5029986B2 (ja) 2012-09-19

Similar Documents

Publication Publication Date Title
US11159720B2 (en) Imaging apparatus, imaging method, and program
JP5967473B2 (ja) 撮像装置及び撮像システム
US8350931B2 (en) Arrangement and method relating to an image recording device
JP6205073B2 (ja) 撮像装置、撮像方法、及びプログラム
JP4510713B2 (ja) デジタルカメラ
WO2019234877A1 (ja) 携帯情報端末
JP2013013063A (ja) 撮像装置及び撮像システム
US20060098104A1 (en) Image capturing apparatus
WO2016038976A1 (ja) マルチ撮像装置、マルチ撮像方法、プログラム、及び記録媒体
JP2003174578A (ja) 電子カメラおよび画像表示装置および画像表示方法
JP2006101186A (ja) カメラ
JP2013013062A (ja) 撮像装置及び撮像システム
JP5029986B2 (ja) 情報処理装置、プログラム
CN110661970B (zh) 拍照方法、装置、存储介质及电子设备
JP5886479B2 (ja) 撮像装置、撮像アシスト方法及び撮像アシストプログラムを記録した記録媒体
CN107360366B (zh) 拍照方法、装置、存储介质及电子设备
CN105934940A (zh) 图像处理装置、方法与程序
US20140210941A1 (en) Image capture apparatus, image capture method, and image capture program
JP7352733B2 (ja) 撮影方法及び電子機器
CN110661971A (zh) 图像拍摄方法、装置、存储介质及电子设备
US9007508B2 (en) Portable device, photographing method, and program for setting a target region and performing an image capturing operation when a target is detected in the target region
JP2004171490A (ja) 画像検出装置及び画像検出方法
KR20080073896A (ko) 이동단말기 및 그 촬영방법
JP4849330B2 (ja) 表示制御装置および方法、撮像装置、情報処理装置および方法、並びにプログラム
CN115914860A (zh) 一种拍摄方法及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091221

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20100804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120313

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120529

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120615

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees