JP2010251916A - 音データ処理装置、及び、プログラム - Google Patents

音データ処理装置、及び、プログラム Download PDF

Info

Publication number
JP2010251916A
JP2010251916A JP2009097311A JP2009097311A JP2010251916A JP 2010251916 A JP2010251916 A JP 2010251916A JP 2009097311 A JP2009097311 A JP 2009097311A JP 2009097311 A JP2009097311 A JP 2009097311A JP 2010251916 A JP2010251916 A JP 2010251916A
Authority
JP
Japan
Prior art keywords
sound source
sound data
estimating
sound
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009097311A
Other languages
English (en)
Other versions
JP5246790B2 (ja
Inventor
Masayuki Matsuda
雅之 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Casio Mobile Communications Ltd
Original Assignee
NEC Casio Mobile Communications Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Casio Mobile Communications Ltd filed Critical NEC Casio Mobile Communications Ltd
Priority to JP2009097311A priority Critical patent/JP5246790B2/ja
Publication of JP2010251916A publication Critical patent/JP2010251916A/ja
Application granted granted Critical
Publication of JP5246790B2 publication Critical patent/JP5246790B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】推定された音源の方向に誤差が生じていたとしても、ユーザにより指定された、又は自動で検出された音源の方向から補正値を算出することが可能な音データ処理装置を提供する。
【解決手段】本発明の音データ処理装置は、推定した音源の方向を映像上に描画する機能を有し、ユーザが指定した映像内の位置を基に音源の方向の補正値を算出する機能を有する。また、本発明の音データ処理装置は、顔検出機能を有し、検出された顔から音源の方向の補正値を算出する機能を有する。
【選択図】図5

Description

本発明は、推定された音源の方向の誤差を、補正するための補正値を求めることが可能な音データ処理装置に関する。
今日、録画機能付き機器が多数製品化されており、光学ズームや明るさ調整などの機能が盛り込まれている。特許文献1には、記録機器に複数のマイクロフォンを設けて、音源方向を推定し、個々の音源を分離抽出する手法が記載されている。この手法によれば、録画時の、目的とする音源以外の音を抑圧することで、目的とする音の明瞭度を向上することが可能となる。
特開2002−84590号公報
上述した特許文献1に開示されている記録装置において、記録装置を長期間用いると、マイクロフォンの感度低下や記録装置の筐体の歪み等で、音源の方向(音源方向)を算出する精度及び特性が変ってしまう場合がある。この場合、推定した音源の方向がずれたままでは、目的とする音源を分離抽出する性能に影響が発生すると考えられる。そこで、推定された音源方向を正しい方向に補正する仕組みが望まれる。
この発明は上記実情に鑑みてなされたものであり、音源方向を推定する機能を備える音データ処理装置において、推定した音源方向の補正を可能とすることを目的とする。
本発明の第1の観点に係る音データ処理装置は、
複数のマイクロフォンと、
撮影手段と、
前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段と、
前記撮影手段が撮影した映像と、前記推定手段が推定した位置に所定のマークと、を表示する表示手段と、
ユーザから、前記表示手段が表示した映像上の位置を指定する指示を受け付ける入力手段と、
前記推定手段が推定した位置と、前記ユーザより指定された位置との差分を算出する算出手段と、
前記算出手段によって算出された差分を記憶する記憶手段と、
を備えることを特徴とする。
好ましくは、
前記入力手段はタッチパネルディスプレイから構成される
ことを特徴とする。
また、好ましくは、
前記入力手段は画面内の上下左右の方向を示す方向キーから構成される
ことを特徴とする。
上記目的を達成するため、本発明の第2の観点に係る音データ処理装置は、
複数のマイクロフォンと、
撮影手段と、
前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段と、
前記撮影手段が撮影した映像に映る人の口の位置を検出する検出手段と、
前記推定手段が推定した位置と、前記人の口の位置との差分を算出する算出手段と、
前記算出手段によって算出された差分を記憶する記憶手段と、
を備えることを特徴とする。
好ましくは、
前記記憶手段は、前記マイクロフォンから取り込んだ複数の音データをさらに記憶し、
前記記憶手段に記憶された前記差分を用いて該音データを補正する補正手段をさらに備える
ことを特徴とする。
本発明の第3の観点に係るプログラムは、
複数のマイクロフォンに接続されたコンピュータを、
撮影手段、
前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段、
前記撮影手段が撮影した映像と、前記推定手段が推定した位置に所定のマークと、を表示する表示手段、
ユーザから、前記表示手段が表示した映像上の位置を指定する指示を受け付ける入力手段、
前記推定手段が推定した位置と、前記ユーザより指定された位置との差分を算出する算出手段、
前記算出手段によって算出された差分を記憶する記憶手段、
として機能させることを特徴とする。
本発明の第4の観点に係るプログラムは、
複数のマイクロフォンに接続されたコンピュータを、
撮影手段、
前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段、
前記撮影手段が撮影した映像に映る人の口の位置を検出する検出手段、
前記推定手段が推定した位置と、前記人の口の位置との差分を算出する算出手段、
前記算出手段によって算出された差分を記憶する記憶手段、
として機能させることを特徴とする。
本発明によれば、推定された音源方向と正しい又は正しいと推定される音源方向との差分を求めることができる。この差分を、例えば、補正値として、撮影時又は再生時に用いれば、装置が劣化してしまったとしても、特定の角度からの音を聴こえ易くする機能や、音源方向に存在する物体に対して、カメラのフォーカスを設定する機能などの性能を維持することが可能となる。
本発明の実施形態に係る音データ処理機能を備える携帯装置のブロック図である。 本発明の実施形態に係るマイクロフォンの設置場所を表す図である。 本発明の実施形態に係るマイクロフォンと音源の角度との関係図である。 本発明の実施形態1に係る、音源方向の補正値を算出する処理のフローチャート図である。 本発明の実施形態1に係る補正値算出時に表示部に描画される映像である。 本発明の実施形態1に係る音源方向を補正するフローチャート図である。 本発明の実施形態2に係る、キー操作で音源方向の補正値を算出する処理のフローチャート図である。 本発明の実施形態3に係る自動的に音源方向の補正値を算出する処理のフローチャート図である。 本発明の実施形態3に係る、補正値算出時に表示部に描画される映像である。
(実施形態1)
本発明の実施形態1に係る、音データ処理機能を備える携帯電話などの携帯装置101について説明する。
本実施形態の携帯装置101は、図1に示すように、撮影部102と、マイクロフォン103〜106と、キー入力部107と、コーデック部108と、制御部109と、記録部110と、表示部111と、スピーカ112と、を備える。
撮影部102はCCD(Charge Coupled Device)カメラ、CMOS(Complimentary MOS)センサ等から構成され、映像を撮影し、映像を電気信号に変換する。
マイクロフォン103〜106は、音を集音し、集音した音をアナログ信号に変換する。本実施形態ではマイクロフォンを4つ用いるが、これに限らず4つよりも少なくても、或いは多くてもよい。
撮影部102及びマイクロフォン103〜106の取り付け例を図2に示す。103〜106と撮影部102とは、撮影部102の光軸をX軸とし、X軸に互いに垂直なY軸とZ軸とを定義した場合に、X軸上、Y軸上、Z軸上でそれぞれ位置の異なるマイクロフォンが存在するように、配置されている。即ち、マイクロフォンは、図2に示すように、撮影部102の設置面の異なる位置に、マイクロフォン103、104、106が配置され、裏面にマイクロフォン105が配置されている。
キー入力部107は、電源スイッチ、録音及び録画ボタン、方向キー等から構成される。キー入力部107は、マイクロフォン103〜106及び撮影部102の起動、録音・録画の開始・終了、表示部111に表示されたカーソルの移動等の操作入力を受け付け、受け付けた操作入力の情報を制御部109に送る。
コーデック部108は、撮影部102から取り込んだ映像やマイクロフォン103〜106から取り込んだ音を圧縮及び再生するために復号する。コーデック部108は、映像用のコーデック部と、音用のコーデック部とに分けてもよい。
制御部109は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等から構成され、記憶部110に格納されているプログラムを実行し、携帯装置101本来の機能を実行すると共に、音データ処理装置としての動作も実行する。例えば、マイクロフォンから取り込んだ音データに基づいて、音源方向を算出したり、図4及び図6のフローチャートが示す処理を行ったりする。
記録部110は、ROM、フラッシュメモリ、HDD(Hard Disk Drive)等から構成され、撮影部102から取り込んだ映像、マイクロフォン103〜106から取り込んだ音データ、及びマイク位置情報、算出した音源方向の情報等を格納する。また、制御部109が行う処理に係るプログラム等を格納する。
表示部111は、LCD(Liquid Crystal Display)又は有機ELディスプレイ(organic Electro-Luminescence display)、及びドライバ等から構成され、撮影部102で撮影した映像及び制御部109が算出した音源方向に音源のマーク等を表示する。
また、表示部111は映像描画が可能なタッチパネルディスプレイから構成されてもよく、キー入力部107の替わりに、ユーザの操作入力を受け付けるようにしてもよい。以下、表示部111はタッチパネルディスプレイから構成されているとする。
スピーカ112は、増幅器、マイクロスピーカ等から構成され、制御部109から送られるアナログ音信号に基づいて音を出力する。
次に、上記の物理的構成を有する携帯装置101において実行される、マイクロフォンに入射した音の音源方向を推定する方法について、図3を用いて説明する。
まず、4つのマイクロフォンのうちの任意に2つのマイクロフォンを選択し、各マイクロフォンに入射する音の相関を求める。同一音が一方のマイクロフォンに入射してから、他方のマイクロフォンに入射するまでの時間差TimeLagを求める。例えば、任意のマイクロフォン310、320が取り込んだ音を音データ311、321とすると、音データの波形のずれにより時間差TimeLagを求めることができる。マイクロフォン310と320との距離をd、音速をCとすると、マイクロフォン310と320と音源とを含む平面上で、マイクロフォン310と320とを結ぶ線に垂直な方向と音源の向きとが成す角度angleは、(1)式で表される。
angle = arcsin(C・TimeLag /d) … (1)
制御部109は、式(1)から角度angleを求め、求めたangleを、図2に示すX,Y,Z座標上の各マイクロフォンの位置に基づいて、X、Y,Z座標系上の向きに補正する。制御部109は、他のマイクロフォンの組み合わせに関しても、同様に解析することにより、特定の音源のX,Y,Z座標系上の原点からの向き(角度)を求める。このように、マイクロフォンの設置位置関係、及び、取り込んだ音同士を解析することで、三次元空間上の任意の角度からの音に対して、音源方向を検出することが可能である。また、これにより、特定の音源方向からの音を強調すること等が可能となる。
上記のように音源を推定する機能を備える携帯装置101において、長期間の使用等により、マイクロフォンの感度が低下することによってTimeLag算出精度が落ち、又、筐体が歪む等してマイクロフォンの距離d等が変わってしまうと、音の入射角angleの推定に誤差が生じてしまう。
以下、携帯装置101において実行される、動画や写真の撮影時に音源方向の補正値を算出する処理について、図4のフローチャートに沿って説明する。また、音源方向を補正する際に表示部111に表示される映像の例を図5に示す。この例では、犬511から音が発せられているとする。
まず、図1の制御部109は、マイクロフォン103〜106から取り込んだ音データと式(1)を用いて、図2の三次元空間上の音源方向を算出する(ステップS401)。次に、制御部109は、三次元空間上の音源方向を、表示部111における映像上の座標に変換する(ステップS402)。制御部109は、表示部111に、撮影部102から取り込んだ映像と、変換した座標の位置に実線の音源マーク512と、を表示させる(ステップS403)。制御部109が複数の音源を検出した場合は、複数の音源マークを表示させる。図5の映像510の例では、制御部109は犬511から発せられている音の方向を正確に検出しておらず、その結果、音源マーク512が音源の犬511とは異なる位置に表示されている。
検出された音源方向を補正するために、ユーザが表示部111の音源マーク512に指で接触したとすると、制御部109はユーザによる接触操作を検出する(ステップS404;Yes)。接触操作の検出範囲は、音源マークが表示されている範囲内のみとしてもよいし、音源マークよりも、例えば上下左右10ドットだけ大きな範囲内が触れられる事としてもよく、画面サイズや表示解像度に合わせて可変してもよい。
制御部109が接触操作を検出すると(ステップS404;Yes)、ユーザにより音源の位置の指定が開始されたことを示すために、制御部109は、選択された音源マーク512を音源マーク522のように点線に変更し、「音源位置補正中」のメッセージ523と共に表示部111に表示させる。音源マークの形態の変更により、ユーザが音源位置補正処理の開始を確認できればよく、実線を点線に変更する以外にも、例えば、音源マークを点滅させたり、色を変更させたりしてもよい。制御部109が接触操作を検出しない場合には(ステップS404;No)、音源方向の検出を継続する。
図5の映像530に示すように、実際に音が発生していると想定される映像上の位置に、ユーザが音源マーク532をスライドさせると、制御部109はドラッグ操作を検出する(ステップS405;Yes)。次に、ユーザが表示部111から指を離すと、制御部109はリリース操作を検出し(ステップS406;Yes)、映像540に示すように、「音源位置補正中」のメッセージを消去し、音源マーク532を元の実線に戻す(音源マーク542)。なお、ユーザは、最初に表示された音源マークをダブルクリックし、映像上の実際に音が発生していると想定される位置で、再度ダブルクリックをして映像上の音源の位置を指定してもよく、その他の操作でもよい。
次に、制御部109は、最初に算出した音源方向の映像上の位置(音源マーク512の位置)と、最終的にユーザにより設定された映像上の位置(音源マーク542の位置)との縦方向、及び、横方向の差を算出し(ステップS407)、その差分を補正値として記憶部110に記憶させる(ステップS408)。次に、制御部109は、撮影が継続しているか確認を行なう(ステップS409)。撮影が継続している場合は(ステップS409;No)、音源方向の検出を行い、撮影終了の指示を受け付けると(ステップS409;Yes)、補正値算出処理を終了する。
ここで、音源方向を検出する際(ステップS401)、音声が存在しない時間帯には、以前描画した音源マークを、描画したままにしてもよいし、消去してもよい。描画したままにする場合でも、図4のステップS404からステップS408までの処理を行い、音源方向の修正を行なってもよい。
次に、記憶部110に記憶された補正値を基に音源方向を補正する処理について、図6のフローチャートを用いて説明する。制御部109は、図4のステップS401及びステップS402の処理と同様に、音源方向を検出し(ステップS601)、表示部111の映像上の座標に変換する(ステップS602)。次に、制御部109は、記憶部110から補正値を読み出し、変換後の映像上の縦方向、及び、横方向の座標に対して、各々読み出した縦方向、及び、横方向の補正値を加え、補正値を加えた音源の位置座標から音源の角度を求める(ステップS603)。制御部109は、表示部111に、補正値が加えられた音源の位置に音源マークを表示する(ステップS604)。次に、再生が継続しているか否かの確認を行ない(ステップS605)、継続している場合は(ステップS605;No)音源方向の検出を行い、再生終了の指示を受け付けると(ステップS605;Yes)処理を終了する。
なお、補正値を適用し音源方向を補正する処理は、図4の音源方向を補正するフローと共に行なっても良く、その場合は、図6のステップ603及びステップS604の処理を、図4のステップS407とステップS408との間に実施する。
また、動画や写真の撮影時に、音声を発生する被写体が移動する場合には、音源マークが常に移動するので、図4のステップS404にて、音源付近への接触操作があると判断した場合には、表示部111に表示している映像を静止させ、撮影部から取り込んだ映像を表示しないようにしてもよい。その場合でも、図4のステップS405からステップ408までの処理を行い、音源方向の修正を行なう。
また、上記フローチャートでは、撮影時に補正値を算出しているが、動画ファイルの再生時にユーザが映像上の位置を指定し、補正値を算出するようにしてもよい。以下の実施形態でも同様とする。
本実施形態によれば、推定された音源方向に誤差が生じていたとしても、撮影時や再生時に音源方向を表示部に表示することで、ユーザが音源方向を表示部に接触する等の操作で容易に指定することができる。また、指定された音源方向に基づいて補正値を求めることができるので、長期間の使用により装置が劣化してしまったとしても、この補正値を撮影時又は再生時に用いることにより、特定の角度からの音を聴こえ易くする機能等を維持することができる。
(実施形態2)
次に、上記携帯装置101において、静止している映像に対しキー操作で音源方向を補正する実施形態2について説明する。
図7に、静止している映像に対して、キー操作で音源方向の補正値を算出する処理のフローチャートを示す。まず、制御部109は、実施形態1のステップS401ないしステップS403の処理と同様の処理を行う。以下、実施形態1と異なる処理のステップS704以降について説明する。
まず、制御部109は、ユーザによる方向キー押下の有無を判断し(ステップS704)、押下が無い場合は(ステップS704;No)、方向キー押下判断を継続する。制御部109が方向キー押下を検出すると(ステップS704;Yes)、ユーザにより音源の位置の指定が開始されたことを示すために、図5の映像520のように、表示部111に「音源位置補正中」のメッセージ523を表示させ、音源マーク512を点線に変更する(音源マーク522)。さらに、ユーザが押下操作を行うと、制御部109は押下された方向に音源マークを移動させる(ステップS705)。例えば、映像530に示すように、ユーザにより音源マーク532が移動され、Enterキー等の決定キーが押下されたとすると、制御部109は押下の有りと判断する(ステップS706;Yes)。制御部109は押下が無い場合には(ステップS704;No)キー押下の判断を継続する。制御部109が決定キー押下操作を検出すると(ステップS706;Yes)、映像540に示すように、「音源位置補正中」のメッセージ523は消去され、音源マーク532が元の実線に戻る(音源マーク542)。
次に、制御部109は、最初に算出した音源方向の映像上の位置(音源マーク512の位置)と、最終的にユーザにより設定された映像上の位置(音源マーク542の位置)との縦方向、及び、横方向の差を算出し(ステップS707)、補正値として記憶部110に記憶させる(ステップS708)。次に、制御部109は、再生が継続しているか否かの確認を行ない(ステップS709)、継続している場合は(ステップS709;No)音源方向の検出を行い、撮影終了の指示を受け付けると(ステップS709;Yes)処理を終了する。以降は、実施形態1で説明した図6のフローチャートの処理と同様に、補正値に基づいて音源方向を補正する処理を行う。
また、実施形態1に示す動画の撮影時において、音源付近へのタッチ操作があると判断した場合には、表示部111に表示している映像を静止させ、撮影部102から取り込んだ映像を表示しないようにしてもよい。その場合でも、図4のステップS405からステップS408までの処理を行い、音源方向の補正を行なう。
本実施形態によれば、タッチパネルディスプレイ以外の表示部を備えた携帯装置101においても、撮影済み動画ファイルの一時停止時に音源方向の補正値を算出することができ、補正後の音源方向を用いることにより音データ処理機能の性能を維持することが可能となる。
(実施形態3)
次に、顔認識と音源方向認識機能を備える携帯装置101において、音源の位置が顔の近くに検出された場合に自動的に音源方向を補正する実施形態3について説明する。
図8に、動画や写真の撮影時に音源方向を補正するフローチャート図を示す。また、音源方向を補正する際に表示部111に表示される映像の例を図9に示す。この例では、人の顔911の口から音が発せられているとする。
まず、制御部109は、実施形態1のステップS401ないしステップS403の処理と同様の処理を行う。以下、実施形態1と異なる処理のステップS804以降について説明する。制御部109は、撮影部102から取り込んだ映像に対して顔の検出を行ない(ステップS804)、顔が存在する領域を示す顔領域マークを表示部111に表示させる(ステップS805)。例えば、制御部109は、図9の映像910に示すように、撮影部102から取り込んだ人の顔の映像911と、音源方向の画面上の位置を示す音源マーク912と、検出された顔領域マーク913と、を表示部111に表示させる。次に、制御部109は、検出された顔の中から口の場所を判定し、口の座標を検出する(ステップS806)。制御部109は、映像920に示すように、表示部111に口領域マーク923を表示させる。その際、顔が存在する領域のマークは消去してもよい。
次に、制御部109は、検出した口の座標が、算出した音源方向の画面上の位置から所定の距離内にあるかどうかを判定する(ステップS807)。例えば、口の座標が算出した音源方向の画面上の位置から10ドット以上離れており、30ドット以内にあるかどうかの判定を行なう。条件に満たない場合は(ステップS807;No)音源方向の検出を継続する(ステップS801)。この条件は、ユーザが適宜設定できるようにしてもよい。制御部109が口の位置が音源から所定の距離内に検出されたと判定した場合には(ステップS807;Yes)、まず、図9の音源マーク922のように音源マークを点線に変更する。次に、音源マーク932のように、音源マークを口の座標に移動する(ステップS808)。
その後、制御部109は、最初に算出された音源の位置(音源マーク912の位置)と、最終的に設定された音源の位置(口領域マーク932の位置)との画面上での縦方向、及び、横方向の差を算出し(ステップS809)、算出された差分を補正値として記憶部110に記憶させる(ステップS810)。次に、制御部109は、撮影が継続しているか確認を行ない(ステップS811)、継続している場合(ステップS811;No)は音源方向の検出を行い、撮影終了の指示を受け付けると(ステップS811;Yes)処理を終了する。
また、図8のステップS401にて複数の音源を検出した場合や、ステップS804にて複数人の顔を検出した場合には、検出した個数の音源マークや顔領域マークを表示する。その場合は、各々が一番近い、音源の画面上の位置と顔の位置の組み合わせを検出するようにしてもよい。また、表示部111への接触操作や、キー操作で、音源マークと顔領域のマークを、各々一つずつ選択して、音源の画面上の位置と顔の位置のペアを設定してもよい。その後は、音源の位置と顔の位置の組み合わせに対して、ステップS807からステップS810までの処理を行い、音源方向の補正値を算出する。また、図9の音源マーク912などは描画しなくてもよく、音源の画面上の位置を自動的に補正するのみでもよい。以降は、実施形態1で説明した図6のフローチャートの処理と同様に、補正値に基づいて音源方向を補正する処理を行う。
本実施形態によれば、長期間の使用により装置が劣化してしまったとしても、自動的に音源方向の補正値を求めることができ、携帯装置101が、特定の角度からの音を聴こえ易くする機能や、音源方向に存在する物体に対して自動的にカメラのフォーカスを設定する機能等の性能を維持することが可能となる。
また、上述した実施形態1ないし実施形態3に係る携帯装置101において、補正値は記憶部110に記憶されているので、動画や写真の撮影時に決定した音源方向の補正値を撮影済み動画ファイルの再生時に適用することができる。或いは、撮影済み動画ファイルの再生時に決定した音源方向の補正値を、動画や写真の撮影時に適用することもできる。
また、複数の撮影済み動画ファイルに対して、各々、異なる音源方向の補正値を算出し、各々のファイルに対応付けて記録しても良い。各々の撮影済み動画ファイルを再生する際は、対応付けて記録してある音源方向の補正値を読み出し、音源方向の補正を行なう。
また、実施形態1ないし実施形態3に係る携帯装置101において、音源方向の補正値は一つでもよいし、表示部111を数分割して、その分割した領域ごとに、補正値を設定、適用してもよい。まず、表示部111の画面右側、或いは、左側への指定を判定し、各々に対する補正値を保存する領域を保持する。表示部111の画面右側に対して決定した補正値は、画面右側に対する音源定位結果への補正に適用し、同様に、表示部111の画面左側に対して決定した補正値は、画面左側に対する音源定位結果への補正に適用する。画面の左右のみではなく、画面の上下で異なる補正値としてもよい。
また、実施形態1ないし実施形態3に係る携帯装置101において、補正値は映像上でのドット数以外でもよい。例えば、補正後に映像上の音源の位置を、三次元空間上に変換して、X軸方向、Y軸方向、Z軸方向からの角度を求める。その後、三次元空間上の、補正前の音源方向との差を算出し、各々の軸に対する補正値として記憶する。音源の位置の補正は、三次元空間上の方向を算出後、X軸方向、Y軸方向、Z軸方向に対して、各々補正値を足し算する。
また、本発明は、携帯電話の他、電子カメラ、ムービ、PDA、ノートパソコン、ウェアラブルパソコン、電卓、電子辞書など、音データ処理機能を備える全ての装置に用いることができる。
101…携帯装置、102…撮影部、103、104、105、106、310、320…マイクロフォン、107…キー入力部、108…コーデック部、109…制御部、110…記録部、111…表示部、112…スピーカ、311、321…音データ、510、520、530、540、910、920、930…映像、511…犬、512、522、532、542、912、922、932…音源マーク、523…メッセージ、911…人の顔、913…顔領域マーク、923…口領域マーク

Claims (7)

  1. 複数のマイクロフォンと、
    撮影手段と、
    前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段と、
    前記撮影手段が撮影した映像と、前記推定手段が推定した位置に所定のマークと、を表示する表示手段と、
    ユーザから、前記表示手段が表示した映像上の位置を指定する指示を受け付ける入力手段と、
    前記推定手段が推定した位置と、前記ユーザより指定された位置との差分を算出する算出手段と、
    前記算出手段によって算出された差分を記憶する記憶手段と、
    を備えることを特徴とする音データ処理装置。
  2. 前記入力手段はタッチパネルディスプレイから構成される
    ことを特徴とする請求項1に記載の音データ処理装置。
  3. 前記入力手段は画面内の上下左右の方向を示す方向キーから構成される
    ことを特徴とする請求項1に記載の音データ処理装置。
  4. 複数のマイクロフォンと、
    撮影手段と、
    前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段と、
    前記撮影手段が撮影した映像に映る人の口の位置を検出する検出手段と、
    前記推定手段が推定した位置と、前記人の口の位置との差分を算出する算出手段と、
    前記算出手段によって算出された差分を記憶する記憶手段と、
    を備えることを特徴とする音データ処理装置。
  5. 前記記憶手段は、前記マイクロフォンから取り込んだ複数の音データをさらに記憶し、
    前記記憶手段に記憶された前記差分を用いて該音データを補正する補正手段をさらに備える
    ことを特徴とする請求項1又は請求項4に記載の音データ処理装置。
  6. 複数のマイクロフォンに接続されたコンピュータを、
    撮影手段、
    前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段、
    前記撮影手段が撮影した映像と、前記推定手段が推定した位置に所定のマークと、を表示する表示手段、
    ユーザから、前記表示手段が表示した映像上の位置を指定する指示を受け付ける入力手段、
    前記推定手段が推定した位置と、前記ユーザより指定された位置との差分を算出する算出手段、
    前記算出手段によって算出された差分を記憶する記憶手段、
    として機能させることを特徴とするプログラム。
  7. 複数のマイクロフォンに接続されたコンピュータを、
    撮影手段、
    前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段、
    前記撮影手段が撮影した映像に映る人の口の位置を検出する検出手段、
    前記推定手段が推定した位置と、前記人の口の位置との差分を算出する算出手段、
    前記算出手段によって算出された差分を記憶する記憶手段、
    として機能させることを特徴とするプログラム。
JP2009097311A 2009-04-13 2009-04-13 音データ処理装置、及び、プログラム Expired - Fee Related JP5246790B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009097311A JP5246790B2 (ja) 2009-04-13 2009-04-13 音データ処理装置、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009097311A JP5246790B2 (ja) 2009-04-13 2009-04-13 音データ処理装置、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2010251916A true JP2010251916A (ja) 2010-11-04
JP5246790B2 JP5246790B2 (ja) 2013-07-24

Family

ID=43313787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009097311A Expired - Fee Related JP5246790B2 (ja) 2009-04-13 2009-04-13 音データ処理装置、及び、プログラム

Country Status (1)

Country Link
JP (1) JP5246790B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013141090A (ja) * 2011-12-28 2013-07-18 Canon Inc 撮影装置及びその処理方法
WO2013127618A1 (en) * 2012-02-29 2013-09-06 Thomson Licensing Solution for identifying a sound source in an image or a sequence of images
JP2013240000A (ja) * 2012-05-17 2013-11-28 Kyocera Corp 電子機器、録音制御プログラムおよび録音制御方法
JP2015139162A (ja) * 2014-01-23 2015-07-30 キヤノン株式会社 音響信号処理装置、動画撮影装置およびそれらの制御方法
JP2015198413A (ja) * 2014-04-03 2015-11-09 日本電信電話株式会社 収音システム及び放音システム
JP2016507924A (ja) * 2012-12-06 2016-03-10 クゥアルコム・インコーポレイテッドQualcomm Incorporated 閉塞耐性マイクロフォンポート設計
CN108370487A (zh) * 2015-12-10 2018-08-03 索尼公司 声音处理设备、方法和程序
JP2019201377A (ja) * 2018-05-18 2019-11-21 キヤノン株式会社 撮像装置、撮像システム、信号処理方法、及びプログラム
JP2020150360A (ja) * 2019-03-12 2020-09-17 パナソニックi−PROセンシングソリューションズ株式会社 ウェアラブルカメラおよび映像データ生成方法
CN112703748A (zh) * 2019-02-15 2021-04-23 松下电器(美国)知识产权公司 信息处理装置、信息处理方法以及程序
JP2021076866A (ja) * 2021-02-04 2021-05-20 ヤマハ株式会社 収音制御システム及び収音制御システムの制御方法
US11227423B2 (en) 2017-03-22 2022-01-18 Yamaha Corporation Image and sound pickup device, sound pickup control system, method of controlling image and sound pickup device, and method of controlling sound pickup control system
CN116668645A (zh) * 2023-08-01 2023-08-29 成都汉度科技有限公司 一种变电站动环监控方法及设备
CN112703748B (zh) * 2019-02-15 2024-06-04 松下电器(美国)知识产权公司 信息处理装置、信息处理方法以及程序记录介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728488A (ja) * 1993-06-24 1995-01-31 Canon Inc 情報処理方法及び装置
JPH1141577A (ja) * 1997-07-18 1999-02-12 Fujitsu Ltd 話者位置検出装置
JP2005124090A (ja) * 2003-10-20 2005-05-12 Sony Corp マイクロホン装置、再生装置及び撮像装置
JP2005159731A (ja) * 2003-11-26 2005-06-16 Canon Inc 撮像装置
JP2005274707A (ja) * 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2008271157A (ja) * 2007-04-19 2008-11-06 Fuji Xerox Co Ltd 音声強調装置及び制御プログラム
JP2009049734A (ja) * 2007-08-21 2009-03-05 Sony Corp カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728488A (ja) * 1993-06-24 1995-01-31 Canon Inc 情報処理方法及び装置
JPH1141577A (ja) * 1997-07-18 1999-02-12 Fujitsu Ltd 話者位置検出装置
JP2005124090A (ja) * 2003-10-20 2005-05-12 Sony Corp マイクロホン装置、再生装置及び撮像装置
JP2005159731A (ja) * 2003-11-26 2005-06-16 Canon Inc 撮像装置
JP2005274707A (ja) * 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2008271157A (ja) * 2007-04-19 2008-11-06 Fuji Xerox Co Ltd 音声強調装置及び制御プログラム
JP2009049734A (ja) * 2007-08-21 2009-03-05 Sony Corp カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013141090A (ja) * 2011-12-28 2013-07-18 Canon Inc 撮影装置及びその処理方法
WO2013127618A1 (en) * 2012-02-29 2013-09-06 Thomson Licensing Solution for identifying a sound source in an image or a sequence of images
JP2013240000A (ja) * 2012-05-17 2013-11-28 Kyocera Corp 電子機器、録音制御プログラムおよび録音制御方法
JP2016507924A (ja) * 2012-12-06 2016-03-10 クゥアルコム・インコーポレイテッドQualcomm Incorporated 閉塞耐性マイクロフォンポート設計
JP2015139162A (ja) * 2014-01-23 2015-07-30 キヤノン株式会社 音響信号処理装置、動画撮影装置およびそれらの制御方法
JP2015198413A (ja) * 2014-04-03 2015-11-09 日本電信電話株式会社 収音システム及び放音システム
CN108370487B (zh) * 2015-12-10 2021-04-02 索尼公司 声音处理设备、方法和程序
CN108370487A (zh) * 2015-12-10 2018-08-03 索尼公司 声音处理设备、方法和程序
US11227423B2 (en) 2017-03-22 2022-01-18 Yamaha Corporation Image and sound pickup device, sound pickup control system, method of controlling image and sound pickup device, and method of controlling sound pickup control system
JP2019201377A (ja) * 2018-05-18 2019-11-21 キヤノン株式会社 撮像装置、撮像システム、信号処理方法、及びプログラム
JP7150470B2 (ja) 2018-05-18 2022-10-11 キヤノン株式会社 撮像装置、撮像システム、信号処理方法、及びプログラム
CN112703748A (zh) * 2019-02-15 2021-04-23 松下电器(美国)知识产权公司 信息处理装置、信息处理方法以及程序
CN112703748B (zh) * 2019-02-15 2024-06-04 松下电器(美国)知识产权公司 信息处理装置、信息处理方法以及程序记录介质
JP2020150360A (ja) * 2019-03-12 2020-09-17 パナソニックi−PROセンシングソリューションズ株式会社 ウェアラブルカメラおよび映像データ生成方法
JP2021076866A (ja) * 2021-02-04 2021-05-20 ヤマハ株式会社 収音制御システム及び収音制御システムの制御方法
JP7111202B2 (ja) 2021-02-04 2022-08-02 ヤマハ株式会社 収音制御システム及び収音制御システムの制御方法
CN116668645A (zh) * 2023-08-01 2023-08-29 成都汉度科技有限公司 一种变电站动环监控方法及设备
CN116668645B (zh) * 2023-08-01 2023-09-29 成都汉度科技有限公司 一种变电站动环监控方法及设备

Also Published As

Publication number Publication date
JP5246790B2 (ja) 2013-07-24

Similar Documents

Publication Publication Date Title
JP5246790B2 (ja) 音データ処理装置、及び、プログラム
KR102114377B1 (ko) 전자 장치에 의해 촬영된 이미지들을 프리뷰하는 방법 및 이를 위한 전자 장치
JP5670476B2 (ja) 傾斜又は遠近修正能力を有する画像捕獲装置
TWI343208B (ja)
TWI506989B (zh) 影像擷取方法與系統
JP5623915B2 (ja) 撮像装置
US11210796B2 (en) Imaging method and imaging control apparatus
KR102036054B1 (ko) 듀얼 카메라를 구비하는 휴대 단말기의 영상 촬영 방법 및 그 장치
JP2011091571A (ja) 動画像作成装置及び動画像作成方法
JP2011188061A (ja) 画像処理装置、画像処理方法およびプログラム
JP2013157724A (ja) 撮像装置
US8400532B2 (en) Digital image capturing device providing photographing composition and method thereof
KR20120068078A (ko) 영상 처리 장치 및 그의 영상 데이터와 오디오 데이터의 연결 방법
JP2011186892A (ja) 画像処理装置、画像処理方法及びプログラム
US20110013072A1 (en) Method and apparatus for manual focusing in portable terminal
KR20160088719A (ko) 이미지를 촬영하는 전자 장치 및 방법
JP6521715B2 (ja) 撮像装置、その制御方法、および制御プログラム
JP5392827B2 (ja) 音データ処理装置
JP2018007082A (ja) 画像再生装置およびその制御方法およびプログラム
JP6631166B2 (ja) 撮影装置、プログラム及び撮影方法
JP2017037375A (ja) 撮像装置及びその制御方法
JP5856436B2 (ja) コンテンツ管理システム、記録装置、操作装置、およびそれらの制御方法、記憶媒体、プログラム
JP5424300B2 (ja) 再生装置及びプログラム
JP2016127525A (ja) 撮像装置およびその制御方法、並びにプログラム
JP2016036081A (ja) 画像処理装置、方法及びプログラム並びに記録媒体

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20100806

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130404

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees