JP5198530B2 - 音声付き動画像呈示装置、方法およびプログラム - Google Patents

音声付き動画像呈示装置、方法およびプログラム Download PDF

Info

Publication number
JP5198530B2
JP5198530B2 JP2010217568A JP2010217568A JP5198530B2 JP 5198530 B2 JP5198530 B2 JP 5198530B2 JP 2010217568 A JP2010217568 A JP 2010217568A JP 2010217568 A JP2010217568 A JP 2010217568A JP 5198530 B2 JP5198530 B2 JP 5198530B2
Authority
JP
Japan
Prior art keywords
sound
moving image
unit
time difference
arrival time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010217568A
Other languages
English (en)
Other versions
JP2012074880A (ja
Inventor
薫 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010217568A priority Critical patent/JP5198530B2/ja
Priority to US13/189,657 priority patent/US8837747B2/en
Publication of JP2012074880A publication Critical patent/JP2012074880A/ja
Application granted granted Critical
Publication of JP5198530B2 publication Critical patent/JP5198530B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Description

本発明の実施の形態は、音声付き動画像を呈示する装置、方法およびプログラムに関するものである。
従来、複数のマイクロホンで同時に収録された複数チャンネルの音声と動画像とを含む音声付き動画像の撮影中あるいは撮影後に、所望の被写体から発せられている音声を強調して出力する技術が提案されている。この従来技術では、撮影時における撮像装置の焦点距離の情報と、複数のマイクロホンの配置(マイク間距離)の情報が既知であることを前提として、表示している画像中で利用者が所望の被写体を指定すると、指定された被写体から発せられている音声を強調した指向性音声を生成し、出力するようにしている。
一方、近年では、ステレオ音声付き動画像を撮影する家庭用のムービーカメラなどの撮影装置が一般に普及することに伴って、このような撮影装置で撮影された音声付き動画像のデータが大量に出回っており、その再生需要がますます大きくなっている。これらの音声付き動画像は、撮影時における撮影装置の焦点距離の情報やマイク間距離の情報が分かっていないことが多い。
特開2005−124090号公報
しかしながら、従来技術においては、撮影時における撮影装置の焦点距離の情報やマイク間距離の情報が既知であることが前提となるため、撮影時における撮影装置の焦点距離の情報やマイク間距離の情報が未知の音声付き動画像を再生する場合に、所望の被写体から発せられている音声を強調して出力することができない。
実施の形態の音声付き動画像呈示装置は、入力部と、設定部と、主ビームフォーマ部と、出力制御部と、を備えている。入力部は、複数チャンネルの音声と動画像とを含む音声付き動画像データを入力する。設定部は、利用者の操作に応じて、所望の方向から到達する音声の複数チャンネル間における時間差である到達時間差を設定する。主ビームフォーマ部は、前記設定部が設定した到達時間差に基づいて複数チャンネルの音声の遅延量を設定し、前記到達時間差を持つ方向の音声を強調した音声である指向性音声を、前記音声付き動画像データに含まれる複数チャンネルの音声から生成する。出力制御部は、前記指向性音声を前記動画像とともに出力する。
音声付き動画像を撮影した撮影装置の音響系と光学系の関係を示した上面図。 音響指向性を説明する図。 撮像面上の音響指向性中心像を示す図。 第1の実施形態の音声付き動画像呈示装置の機能ブロック図。 ユーザインタフェースの一例を示す図。 第1の実施形態の音声付き動画像呈示装置が実行する処理の流れを示すフローチャート。 第2の実施形態の音声付き動画像呈示装置の機能ブロック図。 音響指向性中心が向いている被写体を利用者が指定する様子を示す図。 音響指向性中心マークを動画像上に重ねて表示した様子を示す図。 第2の実施形態の音声付き動画像呈示装置が実行する処理の流れを示すフローチャート。 第3の実施形態の音声付き動画像呈示装置の機能ブロック図。 第3の実施形態の音声付き動画像呈示装置が実行する処理の流れを示すフローチャート。 第4の実施形態の音声付き動画像呈示装置の機能ブロック図。 第4の実施形態の音声付き動画像呈示装置が実行する処理の流れを示すフローチャート。 第5の実施形態の音声付き動画像呈示装置の機能ブロック図。 ユーザインタフェースの一例を示す図。 主ビームフォーマ部および出力制御部の具体的な構成例を示すブロック図。 主ビームフォーマ部および出力制御部の具体的な構成例を示すブロック図。 ユーザインタフェースとして好適なユーザインタフェース画面の具体例を示す図。 到達時間差グラフ表示上で到達時間差の設定を行う例を示す図。 データの保存と読み込みのためのインタフェース画面の一例を示す図。 コンピュータシステムの構成例を示す図。
以下で説明する実施の形態は、撮影時の焦点距離fの情報とマイク間距離dの情報が取得できない既存コンテンツ(音声付き動画像)であっても、利用者が所望の被写体からの音声を強調した指向性音声を動画像とともに視聴できるようにしたものである。ここで取り扱われる音声付き動画像は、ステレオ音声付き動画像を撮影する家庭用のムービーカメラなどにより撮影された(AVI、MPEG1、MPEG2、MPEG4などの)コンテンツやその2次製作物を専ら想定している。これらの音声付き動画像は、撮影時の焦点距離fやステレオマイクロホンのマイク間距離dを含む撮影装置に関する詳細は分かっていない。
ここで、撮影時の状況として幾つかの仮定を置くこととする。図1は、音声付き動画像を撮影する撮影装置の音響系と光学系の関係を示す上面図であり、図2は、音響指向性を説明する図である。図1に示すように、音響系のアレイマイクロホンが水平に距離d離れて配置された2つのマイクロホン101,102で構成されている場合を考える。また、焦点103から焦点距離fだけ離れた位置に光軸104に対して垂直な撮像面105があるピンホールカメラモデルで撮像系を考える。さらに音響系と撮像系の位置関係については、撮像系の光軸104が2つのマイクロホン101,102を結ぶベースライン110と略垂直であり、マイクロホン101,102の間のマイク間距離d(数センチ程度)は、被写体107までの距離(1m〜)に比べて撮像系に十分近いため、該ベースライン110の中点と焦点103は略同位置にあると仮定する。
このとき、撮像系の写野106の中に入っている被写体107が撮像面105に被写体像108として写っているものとする。ここで、光軸104の通る撮像面105上の位置を原点とし、被写体像108の撮像面105上の水平座標値をx1、垂直座標値をy1とする。この被写体像108の座標値(x1,y1)から被写体107の水平方向φxを求める式は下記式(1)となり、被写体107の垂直方向φyを求める式は下記式(2)となる。なお、φxとφyはそれぞれx軸とy軸と同じ向きを正とする符号付きの量である。
φx=tan−1(x1/f) ・・・(1)
φy=tan−1(y1/f) ・・・(2)
一方、被写体107までの距離が十分遠いとき、被写体107から2つのマイクロホン101,102に到達する音声は平面波と看做すことができ、その波面109は、音声の到来方向に応じた到達時間差Tでマイクロホン101,102にそれぞれ到達する。このとき、到達時間差Tと到来方向φの関係は下記式(3)となる。ここで、dはマイク間距離、Vsは音速である。なお、φはマイクロホン101からマイクロホン102に向かう方向を正とする符号付きの量である。
φ=sin−1(T・Vs/d)
→ T=d・sin(φ)/Vs ・・・(3)
このとき、図2(d)に示すように、同一の到達時間差Tを持つ音源は、マイクロホン101,102の正面方向(上記の仮定では光軸104の方向)からφだけ開いた面111(φが0°や±90°でないとき円錐面になる)の上にある。すなわち、到達時間差Tを持つ音声は、この面(音源存在範囲)111上から到来する音声全てである。以後、音源存在範囲111にアレイマイクロホンの指向性を向けるとき、この面111を音響指向性中心、到来方向φを指向角と呼ぶこととする。このとき、図中のTmはマイク間距離dの関数として、下記式(4)で算定される到達時間差の理論上の最大値であり、図2(a)〜図2(c)に示すように、到達時間差Tは−Tm≦T≦Tmの範囲にある符号付きの量である。
Tm=d/Vs ・・・(4)
このとき、音響指向性中心の撮像面105上での像(以下、音響指向性中心像という。)は、面(音源存在範囲)111と撮像面105の交差する箇所となり、φ=0°のときは撮像面105のy軸と一致し、φ=±90°のときは存在せず、0°<|φ|<90°のときは下記式(5)の第3式で示す2次曲線として求めることができる。ただし、下記式(5)では、図2(d)に示したOを原点として、マイクロホン101からマイクロホン102に向かう軸をx軸(撮像面105のx軸と平行であると仮定)、図2の紙面に垂直な軸をy軸(撮像面105のy軸と平行であると仮定)、光軸104方向をz軸としている。
+z=x・tan(φ):面(音源存在範囲)111の式
z=f’:撮像面105上にあるという拘束条件
→ y=x・tan(φ)−f・・・(5)
図3は、撮像面105上の音響指向性中心像112の一例を示す図である。上記式(5)から、被写体像108に対する音響指向性中心像112は、例えば図3(a)に例示するような2次曲線となる。ただし、撮像系の写野106が十分狭いとき、撮像面105上での音響指向性中心像112は、2次曲線の曲率が小さいことから、図3(b)に例示するように、2次曲線をy軸に平行な直線(y=x1)で近似することも可能である。これはφ=φxとする近似であり、この場合、上記式(1)と上記式(3)を用いて、x1から到達時間差Tを求めることになる。
(第1の実施形態)
以上のような仮定に基づいて構成された第1の実施形態の音声付き動画像呈示装置の機能ブロック構成を図4に示す。本実施形態の音声付き動画像呈示装置は、図4に示すように、入力部1と、設定部2と、主ビームフォーマ部3と、出力制御部4とを備える。また、本実施形態の音声付き動画像呈示装置には、動画像を表示するための表示部12と、利用者24の操作入力を受け付けるタッチパネル13とが設けられている。
入力部1は、複数のマイクロホンで同時に収録された複数チャンネルの音声と動画像とを含む音声付き動画像のデータを入力する。入力部1は、例えば、ビデオカメラ21で撮影・記録された音声付き動画像のデータや、通信路を介してアクセス可能なサーバ22、あるいは通信路を介さずにアクセス可能なローカルストレージ23に記録されている音声付き動画像のデータを入力する。入力部1は、利用者24による読み込みを指示する操作により、所定の音声付き動画像のデータを入力し、動画像データと音声データとに分けて出力する動作を行う。なお、以後簡略化のため、音声付き動画像に含まれる音声がステレオマイクロホンで同時に収録された2チャンネルのステレオ収録音声であるとして説明を行う。
設定部2は、利用者24が例えばタッチパネル13を利用して行う操作に応じて、音声付き動画像に含まれるステレオ収録音声のLチャンネル音声SlとRチャンネル音声Srの間の到達時間差T、すなわち、後述の主ビームフォーマ部3により強調する方向の音声のLチャンネル音声SlとRチャンネル音声Sr間における時間差である到達時間差Tを設定する。この設定部2による到達時間差Tの設定は、上述した音響指向性中心を設定することに相当する。なお、利用者24は、後述するように、出力制御部4により出力される指向性音声Sbを聴きながら、この指向性音声Sbが所望の被写体から到来する音声を強調した音声となるように、到達時間差Tを設定するための操作を行う。設定部2は、この利用者24の操作に応じて、到達時間差Tの設定値を随時更新していく。
主ビームフォーマ部3は、設定部2が設定した到達時間差Tを持つ方向の音声を強調した音声である指向性音声Sbを、ステレオ音声Sl,Srから生成して出力する。この主ビームフォーマ部3は、到達時間差Tを遅延量として同相加算する遅延和アレイや後述する適応アレイを使った技術で実現することが可能である。ここで、設定部2が設定した到達時間差Tが実際の到達時間差に等しくさえあれば、マイク間距離dが不明であっても、この到達時間差Tを持つ方向の音声を強調した指向性音声Sbを生成することができる。このため、本実施形態の音声付き動画像呈示装置では、利用者24が従来技術の如く撮像系の被写体位置(x1,y1)を入力するのではなく、音響系の到達時間差Tを設定するための操作入力を行う。
出力制御部4は、主ビームフォーマ部3により生成された指向性音声Sbを動画像とともに出力する。すなわち、出力制御部4は、入力部1から出力される動画像データに基づいて表示部12に動画像を表示させるとともに、表示部12に表示される動画像と同期して、主ビームフォーマ部3により生成された指向性音声Sbを音波として、図示しないスピーカやヘッドホン端子から出力させる。
図5は、到達時間差Tを設定するための利用者24による操作入力を受け付けるユーザインタフェースの一例を示す図である。本実施形態の音声付き動画像呈示装置では、図5に示すように、表示部12の表示画面113上に、利用者24の操作入力を受け付ける光学的に透過性のあるタッチパネル13が設けられている。また、表示部12の表示画面113には、図5に示すようなスライドバー114が表示される。利用者24は、表示画面113に表示されるスライドバー114をタッチパネル13上で触ってスライドさせる操作を行う。そして、このスライドバー114の操作に応じて、設定部2により到達時間差Tが設定される。
ただし、図5に示すようなスライドバー114を機能させるためには、このスライドバー114の操作によって設定可能な到達時間差Tの値の範囲が必要である。この設定可能な到達時間差Tの範囲をTc:−Tc≦T≦Tcとすると、Tcには実際のTの値の範囲を覆うことができる適当な値を設定しなければならない。ここでは、仮にTcを例えば0.001秒として前記スライドバー114を用意することができる。これは音速Vsを340m/sと近似したとき、34cmの距離を音波が移動するのに要する時間であり、マイク間距離dが34cmより大きくなることはないとの仮定を置いていることになる。
なお、理論的には上記式(4)のTmをTcとすることが妥当である。しかしながら、上記式(4)のTmを求めるには、マイク間距離dが分からなければならない。ところが、マイク間距離dの正しい値は未知であるため、ここでは適当な値d’を仮定することとする。このとき、到達時間差Tは下記式(6)のTm’を使って、−Tm’≦T≦Tm’の範囲で設定可能となる。すなわち、Tc=Tm’とする。この結果、指向角は下記式(7)のφ’となり、到達時間差Tが同じときの正しい到来方向φと同一である保証はない。しかし、到達時間差Tの可変範囲±Tm’はマイク間距離dに比例するので、一般的なムービーカメラのステレオマイクロホンのマイク間距離dが2〜4cm程度であることから、d’としてこれより大きな値を設定することでTm’>Tmとなり、実際の到達時間差Tの値の範囲(±Tm)を覆うことができるようになる。
Tm’=d’/Vs ・・・(6)
φ’=sin−1(T・Vs/d’) ・・・(7)
また、このように仮想的なマイク間距離d’を導入した場合には、設定部2が利用者24の操作に応じて到達時間差Tを設定する代わりに、下記式(8)に示すα=T/Tm’を設定することもできる。このとき、αは−1≦α≦1の範囲で設定可能である。ただし、Tm’は実際のTmよりも大きいので、有効なαの値の範囲は−1≦α≦1よりも狭くなる。あるいは、設定部2が利用者24の操作に応じて、下記式(9)に示す指向角φ’の値を−90°≦φ’≦90°の範囲で設定するようにしてもよい。ただし、有効なφ’の値の範囲は−90°≦φ’≦90°よりも狭くなり、その値は実際の方向と同じである保証はない。いずれにしても、仮想的なマイク間距離d’を導入した状態であれば、利用者24の操作に応じてαやφ’を設定すれば、下記式(10)や下記式(11)に示すように到達時間差Tを設定することができる。つまり、利用者24の操作に応じてαやφ’を設定することは到達時間差Tを設定することと等価であり、利用者24が上述したスライドバー114の操作を行うことで、撮像系のパラメータと関係なく到達時間差Tの設定が可能である。
α=T/Tm’=T・Vs/d’ ・・・(8)
φ’=sin−1(α) ・・・(9)
T=α・Tm’=α・d’/Vs ・・・(10)
T=d’・sin(φ’)/Vs ・・・(11)
なお、図5に示したスライドバー114は、到達時間差Tを設定するための利用者24の操作を受け付ける方法の具体的一例であり、利用者24の操作を受け付ける方法としては、この例に限らず、様々な方法が考えられる。例えば、利用者24が数値を直接入力するユーザインタフェースを設け、利用者24により入力された数値に応じて設定部2で到達時間差Tを設定するようにしてもよい。また、本実施形態の音声付き動画像呈示装置では、利用者24は図示しないユーザインタフェースによって本装置に読み込ませたい音声付き動画像を選択し、該選択された音声付き動画像の再生(視聴)の開始、再生(視聴)の停止、早送り、巻き戻し、音声付き動画像の所望の時刻の頭出しなどを指示する操作を行えるものとする。
図6は、本実施形態の音声付き動画像呈示装置の基本的な処理の流れを示すフローチャートである。この図6のフローチャートで示す一連の処理は、例えば利用者24によって音声付き動画像の読み込みを指示する操作入力が行われることで開始され、利用者24によって音声付き動画像のデータの再生が停止、早送り、巻き戻し、頭出しなどされるか、さもなければ音声付き動画像のデータの終端に達するまで継続される。
利用者24が音声付き動画像の読み込みを指示する操作入力を行うと、まず入力部1が、指定された音声付き動画像のデータを入力し、入力した音声付き動画像のデータを動画像データと音声データ(ステレオ音声Sl,Sr)とに分けて出力する(ステップS101)。なお、音声付き動画像の読み込み処理完了時点(到達時間差Tを設定するための利用者24による操作がなされるまでの間)では、到達時間差Tは適当な初期値、例えば0(主ビームフォーマ部3の音響指向性で言えば正面0°)に設定されているものとする。
なお、読み込まれた音声付き動画像(動画像データと音声データ)は、単位時間毎に区切られたデータブロックの連続した時系列データとして扱うことが可能である。続くステップ102以降では、このデータブロックを時系列にしたがって順次取り出してループ処理を行う。すなわち、入力部1により音声付き動画像が装置に読み込まれ、前述の巻き戻し、早送り、頭出しの操作入力などを経て利用者24が音声付き動画像の所望の時刻から再生の開始を指示する操作入力を行うと、前記入力部1からの動画像データと音声データ(ステレオ音声Sl,Sr)のブロックが該指示された時刻から時系列にしたがって順次取り出されて処理される。なお、上記データブロックが時系列にしたがって順次取り出されて処理される間は、当該データは連続したデータとみなすことができるので、以後の説明においてはデータブロックという言葉を省略して説明を行う。
主ビームフォーマ部3はこの取り出された音声データ(ステレオ音声Sl,Sr)を入力して、現在設定されている到達時間差T(初期値は上述した0)を持つ方向の音声を強調した指向性音声Sbのデータを生成して出力する。そして、出力制御部4が、入力部1からの動画像データから前記音声データ(ステレオ音声Sl,Sr)と同時刻のデータを取り出して表示部12に動画像を表示させるとともに、主ビームフォーマ部3からの指向性音声Sbのデータを音波としてスピーカやヘッドホン端子から出力させて利用者24に呈示する(ステップS102)。このとき、主ビームフォーマ部3で遅延が生じる場合には、出力制御部4はその遅延を補償するように同期をとった状態で指向性音声Sbを動画像とともに出力し、利用者24に呈示する。また、表示部12の表示画面113には、動画像とともに例えば図5に示したようなスライドバー114が表示される。
ステップS102の音声付き動画像の呈示が行われている間、この音声付き動画像を視聴した利用者24により到達時間差Tを設定するための操作、例えば図5に示したスライドバー114をタッチパネル13上で触ってスライドさせる操作が行われたか否かが随時判定される(ステップS103)。そして、到達時間差Tを設定するための利用者24による操作がなされていなければ(ステップS103:No)、そのままステップS102に戻って音声付き動画像の呈示が継続される。一方、到達時間差Tを設定するための利用者24による操作がなされると(ステップS103:Yes)、設定部2が、その利用者24の操作に応じて、音声付き動画像に含まれるステレオ音声Sl,Srの間の到達時間差Tを設定する(ステップS104)。
設定部2によるステップS104の処理は、音声付き動画像を視聴した利用者24により到達時間差Tを設定するための操作(例えば図5に示したスライドバー114をスライドさせる操作)が行われるたびに実行され、ステップS102で主ビームフォーマ部3によって新たに設定された到達時間差Tに基づいた指向性音声Sbが随時生成され、出力制御部4によって動画像とともに利用者24に呈示される。つまり、前述の再生、停止、一時停止、早送り、巻き戻し、頭出しなどの操作により利用者24が呈示される音声付き動画像の所望の箇所を自在に行き来しながら視聴しつつ、所望の音声が強調されるように例えばスライドバー114をスライドさせると、この利用者24の操作に応じて、設定部2による到達時間差Tの設定および主ビームフォーマ部3による新たな指向性音声Sbの生成が随時行われる。
以上のように、本実施形態の音声付き動画像呈示装置では、利用者24が表示部12に表示される動画像を見ながら例えばスライドバー114をスライドさせるといった操作を行うことで、利用者24の意図した到達時間差Tが設定部2により設定され、設定された到達時間差Tを持つ方向の音声を強調した指向性音声Sbが主ビームフォーマ部3により生成される。そして、この指向性音声Sbが動画像とともに出力制御部4により出力されて、利用者24に呈示される。したがって、利用者24は、呈示される指向性音声Sbを聴きながら到達時間差Tを調節することで、所望の被写体からの音声を強調した指向性音声Sb、すなわち正しい到達時間差Tの値を聴覚的に探り当てることができるようになる。上述したように、この操作は正しいマイク間距離dが不明であっても行うことが可能である。このように、本実施形態の音声付き動画像呈示装置によれば、撮影時における撮影装置の焦点距離fとマイク間距離dが未知の音声付き動画像であっても、所望の被写体から発せられている音声を強調して出力することができる。
さらに、従来技術で与えることのできる指向角は写野106の範囲に限られていたが、写野106が±90°に満たないとき、利用者24の操作に応じて到達時間差Tを設定するようにしている本実施形態の音声付き動画像呈示装置では、写野106の外から到来する音声さえも利用者24は強調して聴くことが可能である。
(第2の実施形態)
次に、第2の実施形態の音声付き動画像呈示装置について説明する。本実施形態の音声付き動画像呈示装置には、指向性音声Sbとともに出力される動画像の中で、利用者24が強調された音声の発生源として指定した対象の位置座標と、設定部2が設定した到達時間差Tとの関係を定めるキャリブレーションパラメータを計算する機能が設けられている。
本実施形態の音声付き動画像呈示装置の機能ブロック構成を図7に示す。本実施形態の音声付き動画像呈示装置においては、上述した第1の実施形態の音声付き動画像呈示装置の構成に、取得部5と、キャリブレーション部6とが付加されている。なお、その他の構成は第1の実施形態と同様であるため、以下では、第1の実施形態と同様の構成については同一の符号を付して重複した説明を省略し、本実施形態において特徴的な構成について説明する。
取得部5は、表示部12に現在表示されている動画像の中で、強調された音声の発生源として利用者24が認識している対象、つまり、音響指向性中心の向いている被写体を利用者24が指定したときに、その被写体の動画像中における位置座標を取得するものである。具体的には、例えば図8に示すように、表示部12の表示画面113に動画像が表示されている状態で、利用者24が音響指向性中心の向いている被写体像108の位置を指先115などで触る(あるいは別に用意されたマウスなどでクリックする)と、取得部5は、タッチパネル13から利用者24の触った(あるいはクリックした)位置の座標値(x1,y1)を読み出してキャリブレーション部6に送る。
キャリブレーション部6は、取得部5が取得した座標値(x1,y1)と、設定部2が設定した到達時間差Tとの数量関係を定めるキャリブレーションパラメータ(仮想的な焦点距離f’)を計算する。具体的には、到達時間差Tを含む上記式(7)のφ’と、x1を含む上記式(1)のφxが等しいという近似のもとで、下記式(12)によってこれを満たすf’を求める。あるいはこの近似をせずに、上記式(5)から導かれる下記式(13)の右辺の平方根として、指向角φ’の音響指向性中心像が点(x1,y1)を通るときのf’を求めることもできる。
f’=x1/tan(φx)=x1/tan(sin−1(T・Vs/d’)) ・・・(12)
f’=x1・tan(φ’)−y1
=x1・tan(sin−1(T・Vs/d’))−y1 ・・・(13)
因みに、ここで求められる仮想的な焦点距離f’の値は実際の焦点距離fと同一である保証はないが、仮想的なマイク間距離d’のもとで撮像系と音響系の幾何学的な数量関係を与えてくれる。なお、後述する仮想的なマイク間距離d’を変更するときのために、上記式(12)や上記式(13)を使ったキャリブレーションが行われる場合は、そのときのx1,y1の値や到達時間差Tの値が記録されるものとする。
上述したキャリブレーションによって、仮想的なマイク間距離d’のもとでこれと矛盾しない仮想的な焦点距離f’が求まると、出力制御部4は、上記式(5)のfにこのf’を代入することで、0°<|φ’|<90°における音響指向性中心像を計算できるようになる。そして、出力制御部4は、計算によって求めた音響指向性中心像が表示中の動画像の中にあるか外にあるかを判定して、この音響指向性中心像が表示中の動画像の中にある場合には、図9(a)や図9(b)に例示するように、表示画面113の該当する位置に音響指向性中心マーク(主ビームフォーマ部3が強調する音声の方向の範囲を示すマーク)116を動画像上に重ねて表示させることで、現在の音響指向性中心がどこにあるかを利用者24にフィードバックする。また、利用者24がスライドバー114を動かすことによって到達時間差Tが変化した場合、出力制御部4は、新たな到達時間差Tと仮想的な焦点距離f’とにより計算される音響指向性中心が表示中の動画像の中にあれば、その位置に新たな到達時間差Tに対応する音響指向性中心マーク116を表示する。なお、音響指向性中心マーク116が動画像の視認の妨げとならないように、音響指向性中心マーク116は、動画像の対応する部分が透けて見えるよう半透明に表示することが望ましい。
また、上述したキャリブレーションによって仮想的な焦点距離f’が求まると、このキャリブレーションのために音響指向性中心の向いている対象(被写体)を指定するのと同様の操作によって、これから音響指向性中心を向けたい動画像中の対象(被写体)を利用者24が指定することも可能となる。つまり、キャリブレーションによって仮想的な焦点距離f’が求まれば、その後は、従来技術と同様に画像中で音声を強調したい対象を指定すること(すなわち、到達時間差Tを入力する操作)によって、指定した対象からの音声を強調した指向性音声Sbを生成することが可能となる。
本実施形態の音声付き動画像呈示装置では、上述した仮想的な焦点距離f’を求めるキャリブレーションのための対象を指定する操作と、これから音響指向性中心を向けたい対象を指定する操作とを、タッチパネル13上での利用者24の操作によって切り替えられるようにする。具体的には、例えば、キャリブレーションのために対象を指定するとき(すわなち、仮想的な焦点距離f’を計算する操作)は、利用者24は動画像中の対象(被写体)の表示される位置をタッチパネル13上で長くタッチし、これから音響指向性中心を向けたい対象を指定するとき(すわなち、到達時間差Tを入力する操作)は、この被写体の表示される位置をタッチパネル13上で短くタッチすることで、これら2つの操作を区別する。あるいは、キャリブレーションのために対象を指定するときはダブルタップ、これから音響指向性中心を向けたい対象を指定するときはシングルタップとすることにより、これら2つの操作を区別できるようにしてもよい。あるいは、上述したスライドバー114の近傍に切り替えスイッチが表示されるようにし、この切り替えスイッチを利用者24が操作することによって、キャリブレーションのために対象を指定するときの操作と、これから音響指向性中心を向けたい対象を指定するときの操作を切り替えられるようにすることも可能である。いずれにしても、キャリブレーションのために対象を指定する操作が行われて仮想的な焦点距離f’が求められた後は、同様の操作によって、これから音響指向性中心を向けたい対象を指定する操作を利用者24が行えるようにする。
図10は、本実施形態の音声付き動画像呈示装置の基本的な処理の流れを示すフローチャートである。この図10のフローチャートで示す一連の処理は、図6のフローチャートで示した処理と同様に、例えば利用者24によって音声付き動画像の読み込みを指示する操作入力が行われることで開始され、利用者24によって音声付き動画像のデータの再生が停止、早送り、巻き戻し、頭出しなどされるか、さもなければ音声付き動画像のデータの終端に達するまで継続される。なお、図10のステップS201〜ステップS204までの処理は、図6のステップS101〜ステップS104までの処理と同様であるので説明を省略する。
本実施形態では、利用者24の操作に応じて到達時間差Tが設定され、この到達時間差Tを持つ方向の音声を強調した指向性音声Sbが動画像とともに利用者24に呈示されている状態で、到達時間差Tを設定するための操作だけでなく、強調された音声の発生源として認識している対象を動画像中で指定する利用者24の操作、つまり、仮想的な焦点距離f’を求めるキャリブレーションのための対象を指定する利用者24の操作がなされたか否かも随時判定される(ステップS205)。そして、強調された音声の発生源として認識している対象を指定する利用者24の操作がなされていなければ(ステップS205:No)、そのままステップS202に戻って音声付き動画像の呈示が継続される。一方、強調された音声の発生源として認識している対象を指定する利用者24の操作がなされると(ステップS205:Yes)、取得部5が、利用者24により指定された対象の動画像中における座標値(x1,y1)を取得する(ステップS206)。
すなわち、利用者24は指向性音声Sbを聴きながら到達時間差Tを調節して所望の被写体から到来する音声を強調した指向性音声Sbとその到達時間差Tの値を聴覚的に探り当てた後、該音声を発している被写体がどこにあるかを、表示部12に表示されている動画像中で指定する。そして、このような利用者24の操作がなされると、取得部5は、利用者24により指定された対象(被写体)の動画像中における座標値(x1,y1)を取得する。
次に、キャリブレーション部6が、取得部5により取得されたx1,y1を用いて、上記式(12)や上記式(13)により、設定部2が設定した到達時間差Tに対応する仮想的な焦点距離f’を算出する(ステップS207)。この結果、到達時間差Tと座標値(x1,y1)との数量関係が明らかになる。
次に、出力制御部4が、ステップS207で算出した仮想的な焦点距離f’を用いて、設定部2が設定している到達時間差Tを持つ方向の音声の到来方向の範囲を示す音響指向性中心像を計算し(ステップS208)、ステップS202に戻って、主ビームフォーマ部3で生成された指向性音声Sbを動画像とともに出力し、利用者24に呈示する。このとき、ステップS208で求めた音響指向性中心像が表示中の動画像の中にあれば、表示画面113の該当する位置に、音響指向性中心マーク(主ビームフォーマ部3が強調する音声の方向の範囲を示すマーク)116を動画像上に重ねて表示させることで、現在の音響指向性中心が動画像上のどこにあるかを利用者24にフィードバックする。
以上のように、本実施形態の音声付き動画像呈示装置では、音声付き動画像を利用者24に呈示している状態で、強調された音声の発生源として利用者24が認識している対象、つまり、音響指向性中心の向いている被写体を利用者24が指定する操作を行うと、仮想的なマイク間距離d’のもとで、これと矛盾しない仮想的な焦点距離f’が決定される。そして、この仮想的な焦点距離f’を用いて音響指向性中心像を計算して音響指向性中心マーク116を動画像に重ねて表示することで、表示部12に表示されている動画像中のどこに音響指向性中心があるかを利用者24に認識させることが可能となる。
また、キャリブレーションによって仮想的な焦点距離f’が求められることで、到達時間差Tと座標値(x1,y1)との数量関係が明らかになるので、その後は、表示部12に表示されている動画像中で対象を指定する操作を利用者24が行うことで、利用者24が指定した対象からの音声を強調した指向性音声Sbを生成して利用者24に呈示することが可能となる。
(第3の実施形態)
次に、第3の実施形態の音声付き動画像呈示装置について説明する。本実施形態の音声付き動画像呈示装置には、利用者24が指定した音響指向性中心の向いている対象(被写体)を動画像中で追跡し、仮想的な焦点距離f’(キャリブレーションパラメータ)を用いて、音響指向性中心をこの利用者24が指定した対象に向け続けるように到達時間差Tを変更する機能が設けられている。
本実施形態の音声付き動画像呈示装置の機能ブロック構成を図11に示す。本実施形態の音声付き動画像呈示装置においては、上述した第2の実施形態の音声付き動画像呈示装置の構成に、対象追跡部7が付加されている。なお、その他の構成は第1および第2の実施形態と同様であるため、以下では、第1および第2の実施形態と同様の構成については同一の符号を付して重複した説明を省略し、本実施形態において特徴的な構成について説明する。
対象追跡部7は、動画像中で利用者24により指定された対象(図9に例示した被写体像108)の画像的な特徴を生成して記憶し、この記憶された特徴に基づいて、利用者24により指定された対象を動画像中で追跡して座標値(x1,y1)を更新し、上述したキャリブレーションパラメータ(仮想的な焦点距離f’)を用いて主ビームフォーマ部3の音響指向性中心をこの対象に向け続けるよう制御する。この動画像中の対象の追跡には例えばパーティクルフィルタを利用することができる。なお、パーティクルフィルタを用いた物体追跡は公知の技術であるため、ここでは詳細な説明を省略する。
図12は、本実施形態の音声付き動画像呈示装置の基本的な処理の流れを示すフローチャートである。この図12のフローチャートで示す一連の処理は、図10のフローチャートで示した処理と同様に、例えば利用者24によって音声付き動画像の読み込みを指示する操作入力が行われることで開始され、利用者24によって音声付き動画像のデータの再生が停止、早送り、巻き戻し、頭出しなどされるか、さもなければ音声付き動画像のデータの終端に達するまで継続される。なお、図12のステップS301〜ステップS306までの処理は、図10のステップS201〜ステップS206までの処理と同様であるので説明を省略する。
本実施形態では、利用者24により指定された対象(被写体像108)の動画像中における座標値(x1,y1)を取得部5が取得すると、対象追跡部7が、この対象の画像的な特徴を生成して記憶する(ステップS307)。そして、キャリブレーション部6が、取得部5により取得されたx1,y1を用いて、上記式(12)や上記式(13)により、設定部2が設定した到達時間差Tに対応する仮想的な焦点距離f’を算出する(ステップS308)。
その後、表示部12に表示される動画像が変化すると、対象追跡部7が、ステップS307で記憶した特徴に基づいて、表示部12に表示される動画像中の対象(被写体像108)を画像処理的に検出し、追跡する。そして、動画像中における対象の位置が変化するとその座標値(x1,y1)を更新し、ステップS308で算出した仮想的な焦点距離f’を用いて主ビームフォーマ部3の音響指向性中心を対象に向け続けるように、到達時間差Tを随時変更する(ステップS309)。これにより、変更後の到達時間差Tに基づいた指向性音声Sbが主ビームフォーマ部3により随時生成され、動画像とともに利用者24に呈示されることになる。
以上のように、本実施形態の動画像呈示装置では、対象追跡部7が表示部12に表示される動画像中で利用者24により指定された対象を追跡し、仮想的な焦点距離f’(キャリブレーションパラメータ)を用いて、音響指向性中心をこの利用者24が指定した対象に向け続けるように到達時間差Tを変更するようにしているので、動画像中における対象の位置が変化してもこの対象からの音声を強調した指向性音声Sbを利用者24に呈示し続けることができる。
(第4の実施形態)
次に、第4の実施形態の音声付き動画像呈示装置について説明する。本実施形態の音声付き動画像呈示装置には、音声付き動画像の撮影時におけるズーム変化を音響的に検知してこれに対処する機能が設けられている。
本実施形態の音声付き動画像呈示装置の機能ブロック構成を図13に示す。本実施形態の音声付き動画像呈示装置においては、上述した第3の実施形態の音声付き動画像呈示装置の構成に、副ビームフォーマ部8,9と、再キャリブレーション部10とが付加されている。なお、その他の構成は第1乃至第3の実施形態と同様であるため、以下では、第1乃至第3の実施形態と同様の構成については同一の符号を付して重複した説明を省略し、本実施形態において特徴的な構成について説明する。
第3の実施形態で説明した対象追跡部7による対象の追跡と音響指向性の制御によって、利用者24により指定された対象や撮影に使用している撮影装置が移動しても、本実施形態の音声付き動画像呈示装置では、利用者24により指定された対象に対して音響指向性中心を自動的に向け続けることが可能である。しかしながら、これは撮像系の実際の焦点距離fが変わらない場合に限られる。撮影時のズーム変化により焦点距離fが変わると、上述した仮想的な焦点距離f’と仮想的なマイク間距離d’の間に不整合(矛盾)が発生する。その影響は、仮想的な焦点距離f’に基づいて利用者24により指定された対象に音響指向性を向けても、それが正しい方向から常にずれているという現象となって現れる。そこで、本実施形態の音声付き動画像呈示装置では、2つの副ビームフォーマ部8,9と、再キャリブレーション部10とを設けることで、対象追跡部7による被写体の追跡と音響指向性の制御を経てもなお発生する音響指向性のずれ、すなわち撮影時のズーム変化を音響的に検出して対処できるようにしている。
副ビームフォーマ部8,9は、主ビームフォーマ部3の音響指向性中心、すなわち到達時間差Tから両方向に正の所定量ΔTだけずれた音響指向性中心をそれぞれ持つ。具体的には、主ビームフォーマ部3が到達時間差Tの音響指向性中心を持つとき、副ビームフォーマ部8はT−ΔTの音響指向性中心を持ち、副ビームフォーマ部9はT+ΔTの音響指向性中心を持つ。入力部1からのステレオ音声Sl,Srは、主ビームフォーマ部3および副ビームフォーマ部8,9の合計3つのビームフォーマ部にそれぞれ入力される。そして、主ビームフォーマ部3が到達時間差Tに対応した指向性音声Sbを出力するのに対して、副ビームフォーマ部8,9は、それぞれ主ビームフォーマ部3が強調する音声の方向に対して所定量ΔT分だけずれた方向の音声を強調した指向性音声を出力する。ここで、もし撮像装置のズーム変化により焦点距離fが変わったのであれば、主ビームフォーマ部3の音響指向性中心が利用者24が指定した対象から外れ、主ビームフォーマ部3の両側に音響指向性中心を有する副ビームフォーマ部8,9のいずれかの音響指向性中心が、利用者24が指定した対象の方向により近くなるはずである。本実施形態の音声付き動画像呈示装置では、この状態を主ビームフォーマ部3および副ビームフォーマ部8,9の出力パワーを比較することで検出する。なお、ここで比較する各ビームフォーマ部3,8,9の出力パワーは、直近の所定期間(短時間)に各ビームフォーマ部3,8,9が生成した指向性音声の出力パワーを平均化した値である。
再キャリブレーション部10は、これら合計3つのビームフォーマ部3,8,9の出力パワーを計算・比較し、副ビームフォーマ部8,9のいずれかの出力パワーが主ビームフォーマ部3の出力パワーより優位になったことを検出すると、主ビームフォーマ部3の音響指向性中心を、最も優位になった副ビームフォーマ部の音響指向性中心と同じにし、2つの副ビームフォーマ部8,9の音響指向性中心をこの主ビームフォーマ部3の新しい音響指向性中心から両方向にΔTだけずらして再設定する。また、再キャリブレーション部10は、追跡中の対象の座標値(x1,y1)と、ここで新たに設定された主ビームフォーマ部3の音響指向性中心(到達時間差T)を用いて、上記式(12)や上記式(13)によりキャリブレーションパラメータ(仮想的な焦点距離f’)を再計算する。なお、この再キャリブレーションが行われる場合は、後述する仮想的なマイク間距離d’を変更するときのために、そのときのx1,y1の値や到達時間差Tの値が記録されるものとする。
なお、再キャリブレーション部10が主ビームフォーマ部3および副ビームフォーマ部8,9の出力パワーを計算して比較する際は、直前(すなわち、対象追跡部7による対象の追跡と音響指向性の制御が正しく機能していたとき)に主ビームフォーマ部3が出力していた指向性音声Sbに含まれる主要な周波数成分についてのみ、出力パワーを計算して比較することが望ましい。これにより、突発的な雑音によって副ビームフォーマ部8,9の出力パワーが主ビームフォーマ部3の出力パワーよりも優位なったと誤って検出することを有効に抑制することができる。
図14は、本実施形態の音声付き動画像呈示装置の基本的な処理の流れを示すフローチャートである。この図14のフローチャートで示す一連の処理は、図12のフローチャートで示した処理と同様に、例えば利用者24によって音声付き動画像の読み込みを指示する操作入力が行われることで開始され、利用者24によって音声付き動画像のデータの再生が停止、早送り、巻き戻し、頭出しなどされるか、さもなければ音声付き動画像のデータの終端に達するまで継続される。なお、図14のステップS401〜ステップS409までの処理は、図12のステップS301〜ステップS309までの処理と同様であるので説明を省略する。
本実施形態では、対象追跡部7が表示部12に表示される動画像中で利用者24により指定された対象を追跡して到達時間差Tを随時変更している状態で、再キャリブレーション部10により、主ビームフォーマ部3の出力パワーと副ビームフォーマ部8,9の出力パワーが計算され(ステップS410)、これら各ビームフォーマ部3,8,9の出力パワーが比較される(ステップS411)。そして、副ビームフォーマ部8,9のいずれかの出力パワーが主ビームフォーマ部3の出力パワーより優位になったことを検出すると(ステップS411:Yes)、再キャリブレーション部10は、主ビームフォーマ部3の音響指向性中心を、最も優位になった副ビームフォーマ部の音響指向性中心と同じにし、2つの副ビームフォーマ部8,9の音響指向性中心をこの主ビームフォーマ部3の新たな音響指向性中心から両方向にΔTだけずらして再設定する(ステップS412)。そして、再キャリブレーション部10は、主ビームフォーマ部3の新たな音響指向性中心(すなわち、到達時間差T)に基づいて、キャリブレーションパラメータ(仮想的な焦点距離f’)を再計算する(ステップS413)。
以上のように、本実施形態の音声付き動画像呈示装置では、再キャリブレーション部10が、主ビームフォーマ部3の出力パワーと副ビームフォーマ部8,9の出力パワーとを比較して、副ビームフォーマ部8,9のいずれかの出力パワーが主ビームフォーマ部3の出力パワーよりも優位になった場合には、主ビームフォーマ部3の音響指向性中心を、出力パワーが優位になった副ビームフォーマ部の音響指向性中心と同じになるようにシフトさせるようにしている。そして、主ビームフォーマ部3の新たな音響指向性中心、つまり新たな到達時間差Tに基づいて、この新たな到達時間差Tに対応するキャリブレーションパラメータ(仮想的な焦点距離f’)を再計算するようにしている。したがって、音声付き動画像の撮影時にズーム変化が生じていた場合であっても、このズーム変化を音響的に検出してキャリブレーションパラメータ(仮想的な焦点距離f’)を自動的に調整することができ、利用者24が指定した対象の追跡を継続させることができる。
(第5の実施形態)
次に、第5の実施形態の音声付き動画像呈示装置について説明する。本実施形態の音声付き動画像呈示装置には、主ビームフォーマ部3により生成される指向性音声Sbと元のステレオ音声Sl,Srを混合し、このときの指向性音声Sbとステレオ音声Sl,Srの混合比(すなわち指向性音声Sbを強調する程度)を利用者24が調整できる機能が設けられている。
本実施形態の音声付き動画像呈示装置の機能ブロック構成を図15に示す。本実施形態の音声付き動画像呈示装置においては、上述した第4の実施形態の音声付き動画像呈示装置の構成に、強調程度設定部11が付加されている。なお、その他の構成は第1乃至第4の実施形態と同様であるため、以下では、第1乃至第4の実施形態と同様の構成については同一の符号を付して重複した説明を省略し、本実施形態において特徴的な構成について説明する。
強調程度設定部11は、利用者24が例えばタッチパネル13を利用して行う操作に応じて、主ビームフォーマ部3により生成される指向性音声Sbを強調する程度βを設定する。具体的には、例えば図16に示すように、表示部12の表示画面113に、利用者24が到達時間差Tを設定するために操作するスライドバー114のほかに、スライドバー117が表示される。利用者24は、指向性音声Sbを強調する程度βを調整するときに、この表示画面113に表示されるスライドバー117をタッチパネル13上で触ってスライドさせる。強調程度設定部11は、この利用者24によるスライドバー117の操作に応じて、指向性音声Sbを強調する程度βを設定する。このとき、βは0≦β≦1の範囲で設定可能である。
本実施形態の音声付き動画像呈示装置では、強調程度設定部11により指向性音声Sbを強調する程度βが設定されると、出力制御部4が、この設定されたβに応じて指向性音声Sbにステレオ音声Sl,Srを加重混合して出力音声とする。ここで、出力制御部4から出力される出力音声(ステレオ出力音声)をOl,Orとすると、出力音声Olは下記式(14)のように演算され、出力音声Orは下記式(15)のように演算される。このように、強調程度設定部11により設定されたβに応じて演算した出力音声Ol,Orを出力制御部4が呈示することで、利用者24は所望の強調程度で強調された指向性音声Sbを聴くことができる。
Ol=β・Sb+(1−β)・Sl ・・・(14)
Or=β・Sb+(1−β)・Sr ・・・(15)
なお、利用者24が違和感なく音声付き動画像を視聴できるように、主ビームフォーマ部3で生じた指向性音声Sbの遅延は補償され、動画像と出力音声Ol,Orは同期を保った状態で出力制御部4から出力される。以下、主ビームフォーマ部3での遅延を補償しながら指向性音声Sbを動画像とともに適切に呈示するための具体的な構成について説明する。
図17は、主ビームフォーマ部3が遅延和アレイで実現されている場合の主ビームフォーマ部3および出力制御部4の具体的な構成例を示すブロック図である。遅延和アレイで実現される主ビームフォーマ部3には、入力部1が入力した音声付き動画像に含まれるステレオ音声Sl,Sr(撮像装置のマイクロホン101で収録された音声Slとマイクロホン102で収録された音声Sr)が入力される。そして、音声Slは遅延器121、音声Srは遅延器122でそれぞれ遅延されることで同相化され、これら同相化された音声Slと音声Srが加算器123で加算されて指向性音声Sbとなる。このとき、強調すべき音声の音源がマイクロホン101に近いときは到達時間差Tが負値となり、強調すべき音声の音源がマイクロホン102に近いときは到達時間差Tが正値となる。そこで、主ビームフォーマ部3は、設定部2が設定した到達時間差Tを受けて、遅延器121での遅延量を0.5(Tm’−T)、遅延器122での遅延量を0.5(Tm’+T)に設定して動作する。このように0.5Tm’を中心に遅延量を0.5Tずつ振り分けることで、元の音声Sl,Srに対する到達時間差Tを保ちつつ、指向性音声Sbの遅延は元の音声Sl,Srに対して0.5Tm’だけ生じるようにできる。
また、出力制御部4は、指向性音声Sbを遅延器134で0.5(Tm’+T)、遅延器135で0.5(Tm’−T)だけ遅延させることで、これら2つの遅延出力の間に元あったのと同じ到達時間差Tを再び与える。さらに、出力制御部4は、指向性音声Sbを強調する程度β(0≦β≦1)を入力し、演算器124によってβから1−βの値を計算するとともに、乗算器125,126によって遅延器134と遅延器135の出力音声をβ倍してSblとSbrを生成する。以上の結果、SblとSbrの遅延は元のステレオ音声Sl,Srに対してTm’だけ生じることになる。そこで、出力制御部4は、遅延器132によって音声SlをTm’だけ遅延させ、乗算器127で(1−β)倍し、加算器129でSblと加算して出力音声Olを得る。同様に、出力制御部4は、遅延器133によって音声SrをTm’だけ遅延させ、乗算器128で(1−β)倍し、加算器130でSbrと加算して出力音声Orを得る。このとき、βを0に設定すると、Ol,OrはSbl,Sbrに等しくなり、βを1に設定すると、Ol,Orは遅延を受けたSl,Srに等しくなる。最後に、出力制御部4は、遅延器131で動画像をTm’遅延させることで出力音声Ol,Orとの同期を保つ。
図18は、主ビームフォーマ部3がGriffith−Jim型適応アレイで実現されている場合の主ビームフォーマ部3および出力制御部4の具体的な構成例を示すブロック図である。なお、出力制御部4の内部構成は、図17に示した構成例と同じである。
Griffith−Jim型適応アレイで実現される主ビームフォーマ部3には、遅延器201,202と、減算器203,204と、適応フィルタ205が設けられている。主ビームフォーマ部3は、0.5Tm’を中心にして、遅延器201の遅延量を0.5(Tm’−T)に設定し、遅延器202の遅延量を0.5(Tm’+T)に設定する。この結果、音声Slと音声Srは、到達時間差Tで与えられる方向に同相化され、減算器203による差信号Snはこの方向の音を含まない雑音成分だけとなる。そして、出力信号Sbと雑音成分Snの相関が最小となるように適応フィルタ205の係数が調節される。この調整には、よく知られている最急降下法や確率勾配法などの適応アルゴリズムが用いられる。この結果、主ビームフォーマ部3は、遅延和アレイよりも鋭い音響指向性を形成することができるようになる。なお、主ビームフォーマ部3がこのように適応アレイで実現される場合も、出力制御部4において遅延和アレイのときと同様にして出力音声Ol,Orと動画像の同期をとることができる。
なお、図17や図18にて例示した主ビームフォーマ部3および出力制御部4の構成は、上述した第1乃至第4の実施形態の音声付き動画像呈示装置においても適用することができる。この場合、出力制御部4に入力されるβには適当な値を与えておくようにすればよい。また、第4の実施形態および本実施形態においては、上述のように元のステレオ音声Sl,Srと指向性音声Sbl,Sbrの加重和を出力音声Ol,Orとするではなく、副ビームフォーマ部8,9の出力を出力音声Ol,Orとすることも可能である。この場合、元のステレオ音声Sl,Srと指向性音声Sbl,Sbrの加重和を出力音声Ol,Orとするか、あるいは副ビームフォーマ部8,9の出力を出力音声Ol,Orとするかを、利用者24が選択できるようにすることが望ましい。
また、上述の遅延和アレイや適応アレイを用いた主ビームフォーマ部3の実現方法は、副ビームフォーマ部8,9についても同様に適用できる。この場合、副ビームフォーマ部8,9に対しては、上記Tの値に代わってT−ΔTとT+ΔTの値が使われる点だけが異なる。
以上のように、本実施形態の音声付き動画像呈示装置では、主ビームフォーマ部3により生成される指向性音声Sbと元のステレオ音声Sl,Srを混合し、このときの指向性音声Sbとステレオ音声Sl,Srの混合比(すなわち指向性音声Sbを強調する程度)を利用者24が調整できるようにしているので、利用者24は所望の強調程度で強調された指向性音声Sbを聴くことができる。
(ユーザインタフェース)
以上、第1乃至第5の実施形態の音声付き動画像呈示装置について説明したが、利用者24が到達時間差Tの設定や、動画像中の対象(被写体)の指定、強調の程度の設定などを行うためのユーザインタフェースは、上述した各実施形態にて例示したものに限定されるものではない。また、上述した各実施形態の音声付き動画像呈示装置は、利用者24が音声付き動画像の再生(視聴)を指示するための再生ボタン、再生を一時的に停止するための一時停止ボタン、再生を停止するための停止ボタン、早送りするための早送りボタン、巻き戻しするための巻き戻しボタン、音量を調節するための音量つまみなど、音声付き動画像を視聴する際に利用者24が操作する一通りの操作部が必要であり、これら操作部と一体となったユーザインタフェースを設けることが望ましい。以下では、上述した各実施形態の音声付き動画像呈示装置のユーザインタフェースとして好適なユーザインタフェース画面の具体例について説明する。
図19は、利用者24がタッチパネル13やマウスなどの他のポインティングデバイスを介して操作できるようにしたユーザインタフェース画面の具体例を示す図である。図中の301は表示中の動画像であり、利用者24は再生コントローラ302を操作することで、この表示されている動画像の再生、一時停止、停止、早送り、巻き戻し、先頭にジャンプ、終端にジャンプという操作を行える。また、動画像301にはそれが可能なときには上述した音響指向性中心マーク116や、被写体像108の位置を示すアイコンなどが重ねて表示できるようになっている。
また、図中の114は、利用者24が到達時間差Tを設定するために操作するスライドバーであり、図中の117は、利用者24が指向性音声Sbの強調の程度βを設定するために操作するスライドバーである。さらに、図中の310は、利用者24が出力制御部4から出力される出力音声Ol,Orの音量を調節するために操作するスライドバーであり、図中の311は、利用者24が仮想的なマイク間距離d’を調節するために操作するスライドバーである。このスライドバー311を設けることで、利用者24は現在の仮想的なマイク間距離d’が実際のマイク間距離dより小さいのではないかと感じたときなどに、このスライドバー311を操作することで仮想的なマイク間距離d’を自ら調節することができるようになる。なお、利用者24がスライドバー311を操作することで仮想的なマイク間距離d’が変更されたときは、この新たなマイク間距離d’の値と整合する仮想的な焦点距離f’の値が、上記式(12)や上記式(13)により再計算される。このとき、上述したキャリブレーション部6や再キャリブレーション部10が仮想的な焦点距離f’を計算するときに使用して記録した最新のx1,y1の値や到達時間差Tの値が、上記式(12)や上記式(13)に代入される。また、到達時間差Tの理論上の最大値Tm’も上記式(6)により新しいd’に合わせて再計算される。
また、図中の303は、入力部1が入力した音声付き動画像のデータの先頭時刻を0としてこの先頭から終端までの時間を左から右に表示した時刻表示である。また、図中の304は、入力部1が入力した音声付き動画像のデータの動画像部分のサムネイルを時刻順で左から右に表示した入力動画像サムネイル表示であり、図中の305は、入力部1が入力した音声付き動画像のデータの音声部分をチャンネル毎に縦に並べ、各チャンネルの波形を時刻順で左から右に表示した入力音声波形表示である。なお、音声付き動画像のデータの音声チャンネルが3以上ある場合には、この入力音声波形表示305の上で、利用者24が使用する2チャンネルを選択できるようになっている。
また、図中の306は、主ビームフォーマ部3に設定されるべき到達時間差Tの値を時刻順で左から右にグラフ表示した到達時間差グラフ表示であり、図中の307は、出力制御部4に設定されるべき指向性音声Sbの強調の程度βの値を時刻順で左から右にグラフ表示した強調程度グラフ表示である。利用者24は、上述したように、スライドバー114やスライドバー117を操作することで、到達時間差Tや指向性音声Sbの強調の程度βを任意に設定できるが、到達時間差グラフ表示306や強調程度グラフ表示307の上でも到達時間差Tや指向性音声Sbの強調の程度βの設定が行えるようになっている。
図20は、到達時間差グラフ表示306上で到達時間差Tの設定を行う例を示す図である。図20に示すように、到達時間差グラフ表示306は、各グラフを時系列に並ぶ複数の制御点322と、隣り合う制御点を結ぶ区分曲線321で表している。最初は先頭時刻と終端時刻に制御点を持つ1つの区分曲線でグラフが表現されている。利用者24は、このグラフ上の所望時刻をダブルクリックしてグラフ上に制御点を追加(図中323)したり、所望の制御点をドラッグして動かしたりすることで、到達時間差Tのグラフ形状を例えば同図(a)から(b)のように直感的に編集することができる。なお、図20は到達時間差グラフ表示306上で到達時間差Tの設定を行う例を示しているが、強調程度グラフ表示307も到達時間差グラフ表示306と同様にグラフが表現されており、到達時間差Tを設定する場合と同様の操作で、指向性音声Sbの強調の程度βを設定することができる。
図19のユーザインタフェース画面の説明に戻る。図中の308は、主ビームフォーマ部3の出力する指向性音声Sbの波形を時刻順で左から右に表示した指向性音声波形表示であり、図中の309は出力制御部4の出力する出力音声Ol,Orを縦に並べ、各波形を時刻順で左から右に表示した出力音声波形表示である。
図19のユーザインタフェース画面において、時刻表示303、入力動画像サムネイル表示304、入力音声波形表示305、到達時間差グラフ表示306、強調程度グラフ表示307、指向性音声波形表示308、出力音声波形表示309は、画面上の横位置が同一時刻となるように表示され、そこに現在表示されている動画像の時刻tを表す時刻指定バー312が重ねて表示されている。利用者24は、この時刻指定バー312を左右に動かすことで、所望の時刻tを指定して動画像と音声の頭出しを行えるようになっている。そして、頭出しを行った箇所から再生コントローラ302を操作することで、動画像と音声を繰り返し視聴しつつ、上述した要領で到達時間差T、対象の座標値(x1,y1)、指向性音声Sbの強調の程度β、仮想的なマイク間距離d’などを調節することが可能になる。
また、図中の313は、上述した各実施形態の音声付き動画像呈示装置に音声付き動画像のデータを含む所望のデータを読み込ませるためのロードボタンであり、図中の314は、上述した各実施形態の音声付き動画像呈示装置に指向性音声Sbを含む所望のデータを記録媒体(例えば、ローカルストレージ23など)に記録保存させるためのセーブボタンである。利用者24がこれらのボタンを押下すると、図21に示すインタフェース画面が表示されるようになっている。
図21に示すインタフェース画面について説明する。図中の401は、インタフェース画面のウィンドウである。また、図中の402は、データファイルを一覧表示するためのサブウィンドウであり、利用者24は、このサブウィンドウ402に表示されるデータファイル名をタップすることで所望のデータファイルを選択できるようになっている。また、図中の403は、選択されたデータファイル名を表示するための、あるいは新しいデータファイル名を入力するためのサブウィンドウである。
また、図中の404は、一覧表示したいデータタイプを選択できるプルダウンメニューであり、データタイプの選択を変えるとサブウィンドウ402に一覧表示されるデータファイルも当該タイプに限定されて表示される。また、図中の405は、選択されたデータファイルを保存あるいは読み込む操作を実行させるためのOKボタンであり、図中の406は、操作を中断してインタフェース画面401を終了させるためのキャンセルボタンである。
利用者24は、音声付き動画像のデータの読み込みを行う場合、まず図19のユーザインタフェース画面上でロードボタン313を押下することによって、図21のインタフェース画面のウィンドウ401を読み込みモードで表示させ、プルダウンメニュー404によってデータタイプとして音声付き動画像を選択する。これにより、サブウィンドウ402には読み込み可能な音声付き動画像ファイルの一覧が表示される。そして、この一連の中から所望の音声付き動画像ファイルを選択することで、音声付き動画像のデータの読み込みを行うことができる。
また、視聴していた音声付き動画像の指向性音声Sbを保存する場合、利用者24は、まず図19のユーザインタフェース画面上でセーブボタン314を押下することによって、図21のインタフェース画面のウィンドウ401を記録保存モードで表示させ、プルダウンメニュー404によってデータタイプとして指向性音声Sbを選択する。そして、データファイル名をサブウィンドウ403に入力すると、処理結果である指向性音声Sbを記録保存することができる。この他にも、音声付き動画像呈示装置が利用する動画像、音声、パラメータ類といった全ての情報を記録したプロジェクトファイルを記録保存したり、読み込んだりすることで、利用者24はいつでも作業を中断し、かつ再開することができるようになっている。
また、この図21に示すインタフェース画面を用いることで、具体的に以下に示すデータを選択して読み込みや記録保存ができるようになっている。すなわち、図21に示すインタフェース画面を用いて、指向性音声Sbや出力音声Ol,Orを記録媒体に記録することが可能である。このようにすることで、利用者24は、入力した音声付き動画像のデータから生成した指向性音声Sbや出力音声Ol,Orをいつでも利用できるようになる。また、その際、指向性音声Sbや出力音声Ol,Orと動画像とを同期の取れた音声付き動画像データに編集して記録することも可能である。このようにすることで、利用者24は、入力した動画像データに指向性音声Sbや出力音声Ol,Orを加えた2次製作物をいつでも利用できるようになる。
また、図21に示すインタフェース画面を用いて、仮想的なマイク間距離d’、仮想的な焦点距離f’、到達時間差T、対象の座標値(x1,y1)、指向性音声Sbの強調の程度β、使用チャンネルの番号などを記録媒体に記録することも可能である。このようにすることで、利用者24は、入力した音声付き動画像のデータから音響指向性の付いた出力音声を生成するためのこれらの情報をいつでも利用できるようになる。これは前記のプロジェクトファイルの記録保存に相当する。また、その際、音声付き動画像のデータに編集して記録することも可能である。具体的には、音声付き動画像のデータ中に設けた専用トラックに仮想的なマイク間距離d’、仮想的な焦点距離f’、到達時間差T、対象の座標値(x1,y1)、指向性音声Sbの強調の程度β、使用チャンネル番号などを記録する。このようにすることで、利用者24は、入力した音声付き動画像のデータに出力音声を生成するためのこれらの情報を埋め込んだ2次製作物をいつでも利用できるようになる。
また、図21に示すインタフェース画面を用いて、記録媒体に記録保存された仮想的なマイク間距離d’、仮想的な焦点距離f’、到達時間差T、対象の座標値(x1,y1)、指向性音声Sbの強調の程度β、使用チャンネルの番号などを記録媒体から読み込むことが可能である。このようにすることで、利用者24は、上述の記録機能と併せて使うことで視聴の中断と再開を容易に行えるようになる。これは前記のプロジェクトファイルの読み込みに相当する。なお、記録媒体に記録保存される、あるいは記録媒体から読み込まれるデータや情報の種類は、全てプルダウンメニュー404を用いたデータタイプの選択によって区別することが可能である。
(音声付き動画像呈示プログラム)
なお、上述した各実施形態の音声付き動画像呈示装置は、汎用的なコンピュータシステムに、上述した各部(入力部1、設定部2、主ビームフォーマ部3、出力制御部4など)の処理を実行する機能を実現するための音声付き動画像呈示プログラムを実装することで実現することも可能である。この場合のコンピュータシステムの構成例を図22に示す。
このコンピュータシステムは、音声付き動画像呈示プログラムをHDD34に記憶し、これをRAM32に読み出してCPU31で実行する。また、このコンピュータシステムは、その他ストレージ39に挿入される記録媒体やLAN35を介して接続される他の装置から音声付き動画像呈示プログラムの供給を受けることが可能である。また、このコンピュータシステムは、マウス/キーボード/タッチパネル36やディスプレイ37やD/A変換器40を使うことで、利用者24の操作入力を受け付け、利用者24への情報呈示を行うことが可能である。
このコンピュータシステムは、音声付き動画像のデータや出力音声Ol,Orを生成するための仮想的なマイク間距離d’、仮想的な焦点距離f’、到達時間差T、対象の座標値(x1,y1)、指向性音声Sbの強調の程度β、使用チャンネルの番号などのデータを、USBなどの外部インタフェース38を経由して接続されるムービーカメラや、LAN35を経由して通信路の先にあるサーバ、HDD34やその他ストレージ39から取り込むことができる。HDD34以外から取り込まれた音声付き動画像のデータはHDD34に一旦記録され、必要に応じてRAM32に読み出され、マウス/キーボード/タッチパネル36を介した利用者24の操作に応じてCPU31で処理されて、動画像がディスプレイ37に、指向性音声Sbや出力音声Ol,OrがD/A変換器40に出力される。D/A変換器40にはスピーカ41などが接続されており、指向性音声Sbや出力音声Ol,Orは音波として利用者24に呈示される。また、生成された指向性音声Sbや出力音声Ol,Or、仮想的なマイク間距離d’、仮想的な焦点距離f’、到達時間差T、対象の座標値(x1,y1)、指向性音声Sbの強調の程度β、使用チャンネルの番号などのデータはHDD34やその他ストレージ39などに記録保存される。
(変形例)
なお、上述した各実施形態の音声付き動画像呈示装置は、同時に収録された複数チャンネルの音声から、例えば選択された2チャンネルの音声を処理することで指向性音声Sbを生成して動画像とともに視聴できるようにした例であったが、nチャンネルの同時収録音声に対して、基準となる1つのチャンネルに対する他のn−1個のチャンネルの到達時間差T1〜Tn−1を、利用者24の操作に応じて設定部2が設定するようにすることで、3チャンネル以上の同時に収録された音声から所望の指向性音声Sbを生成して、動画像とともに呈示する構成とすることも可能である。
また、例えば、会議スペース全体の音を少数のマイクロホンで収音するために、マイク間距離が1〜2m程度離れてしまうような分散マイクロホンを持つテレビ会議システムであっても、利用者24が手元のコントローラなどを操作することによって、この利用者24の操作に応じて到達時間差Tを設定して、相手局の特定の発言者の発言を強調して聴くことのできるテレビ会議システムを実現することができる。
以上説明したとおり、実施の形態の音声付き動画像呈示装置によれば、利用者24の操作に応じて到達時間差Tを設定し、この設定した到達時間差Tを持つ音声を強調した指向性音声Sbを生成して動画像とともに利用者24に呈示するようにしているので、撮影時における撮影装置の焦点距離の情報やマイク間距離の情報が未知の音声付き動画像であっても、利用者24は、動画像中の所望の被写体から発せられる音声を強調させて動画像とともに視聴することができる。
なお、本発明は、上述した各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上述した各実施形態にて開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態にて示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
1 入力部
2 設定部
3 主ビームフォーマ部
4 出力制御部
5 取得部
6 キャリブレーション部
7 対象追跡部
8,9 副ビームフォーマ部
10 再キャリブレーション部
116 音響指向性中心マーク
T 到達時間差
Sl,Sr ステレオ音声
Sb 指向性音声
f’ キャリブレーションパラメータ

Claims (10)

  1. 複数チャンネルの音声と動画像とを含む音声付き動画像データを入力する入力部と、
    利用者の操作に応じて、所望の方向から到達する音声の複数チャンネル間における時間差である到達時間差を設定する設定部と、
    前記設定部が設定した到達時間差に基づいて複数チャンネルの音声の遅延量を設定し、前記到達時間差を持つ方向の音声を強調した音声である指向性音声を、前記音声付き動画像データに含まれる複数チャンネルの音声から生成する主ビームフォーマ部と、
    前記指向性音声を前記動画像とともに出力する出力制御部と、を備えることを特徴とする音声付き動画像呈示装置。
  2. 前記指向性音声とともに出力される動画像の中で、強調された音声の発生源として指定された対象の位置座標を取得する取得部と、
    前記取得部が取得した位置座標と、前記設定部が設定した到達時間差との関係を定めるキャリブレーションパラメータを計算するキャリブレーション部と、をさらに備えることを特徴とする請求項1に記載の音声付き動画像呈示装置。
  3. 前記対象を前記動画像中で追跡し、前記キャリブレーションパラメータを用いて、音声を強調する方向を前記対象に向け続けるように前記到達時間差を変更する対象追跡部をさらに備えることを特徴とする請求項2に記載の音声付き動画像呈示装置。
  4. 前記主ビームフォーマ部が強調する音声の方向に対して所定量ずれた方向の音声を強調した音声を生成する副ビームフォーマ部と、
    前記指向性音声の出力パワーと前記副ビームフォーマ部が生成する音声の出力パワーとを比較して、前記副ビームフォーマ部が生成する音声の出力パワーが前記指向性音声の出力パワーよりも優位になった場合に、前記主ビームフォーマ部が強調する音声の方向を前記所定量シフトさせるとともに、前記キャリブレーションパラメータを再計算する再キャリブレーション部と、をさらに備えることを特徴とする請求項2または3に記載の音声付き動画像呈示装置。
  5. 前記出力制御部は、前記主ビームフォーマ部が強調する音声の方向の範囲を示すマークを、前記動画像上に重ねて出力することを特徴とする請求項2〜4のいずれか一項に記載の音声付き動画像呈示装置。
  6. 前記動画像とともに表示される第1スライドバーに対する前記利用者の操作を受け付けるタッチパネルをさらに備え、
    前記設定部は、前記利用者による前記第1スライドバーの操作に応じて、前記到達時間差を設定することを特徴とする請求項1〜5のいずれか一項に記載の音声付き動画像呈示装置。
  7. 前記タッチパネルは、前記動画像とともに表示される第2スライドバーに対する前記利用者の操作をさらに受け付け、
    前記設定部は、前記利用者による前記第2スライドバーの操作に応じて、前記指向性音声の程度をさらに設定することを特徴とする請求項6に記載の音声付き動画像呈示装置。
  8. 前記キャリブレーション部で計算されたキャリブレーションパラメータは、仮想的なマイク間距離に対応する仮想的な焦点距離を含み、
    前記仮想的なマイク間距離および前記仮想的な焦点距離を記録する記録部をさらに備えることを特徴とする請求項2に記載の音声付き動画像呈示装置。
  9. 複数チャンネルの音声と動画像とを含む音声付き動画像データを入力するステップと、
    利用者の操作に応じて、所望の方向から到達する音声の複数チャンネル間における時間差である到達時間差を設定するステップと、
    設定した到達時間差に基づいて複数チャンネルの音声の遅延量を設定し、前記到達時間差を持つ方向の音声を強調した音声である指向性音声を、前記音声付き動画像データに含まれる複数チャンネルの音声から生成するステップと、
    前記指向性音声を前記動画像とともに出力するステップと、を含むことを特徴とする音声付き動画像呈示方法。
  10. コンピュータに、
    複数チャンネルの音声と動画像とを含む音声付き動画像データを入力する機能と、
    利用者の操作に応じて、所望の方向から到達する音声の複数チャンネル間における時間差である到達時間差を設定する機能と、
    設定した到達時間差に基づいて複数チャンネルの音声の遅延量を設定し、前記到達時間差を持つ方向の音声を強調した音声である指向性音声を、前記音声付き動画像データに含まれる複数チャンネルの音声から生成する機能と、
    前記指向性音声を前記動画像とともに出力する機能と、を実現させるための音声付き動画像呈示プログラム。
JP2010217568A 2010-09-28 2010-09-28 音声付き動画像呈示装置、方法およびプログラム Expired - Fee Related JP5198530B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010217568A JP5198530B2 (ja) 2010-09-28 2010-09-28 音声付き動画像呈示装置、方法およびプログラム
US13/189,657 US8837747B2 (en) 2010-09-28 2011-07-25 Apparatus, method, and program product for presenting moving image with sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010217568A JP5198530B2 (ja) 2010-09-28 2010-09-28 音声付き動画像呈示装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2012074880A JP2012074880A (ja) 2012-04-12
JP5198530B2 true JP5198530B2 (ja) 2013-05-15

Family

ID=45870677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010217568A Expired - Fee Related JP5198530B2 (ja) 2010-09-28 2010-09-28 音声付き動画像呈示装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US8837747B2 (ja)
JP (1) JP5198530B2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10154361B2 (en) * 2011-12-22 2018-12-11 Nokia Technologies Oy Spatial audio processing apparatus
EP2825898A4 (en) * 2012-03-12 2015-12-09 Nokia Technologies Oy TREATMENT OF A SOUND SOURCE
CN104412616B (zh) * 2012-04-27 2018-01-16 索尼移动通讯有限公司 基于麦克风阵列中的声音的相关性的噪声抑制
KR101969802B1 (ko) * 2012-06-25 2019-04-17 엘지전자 주식회사 이동 단말기 및 재생 영상의 오디오 줌잉 방법
EP2680616A1 (en) 2012-06-25 2014-01-01 LG Electronics Inc. Mobile terminal and audio zooming method thereof
WO2014080074A1 (en) * 2012-11-20 2014-05-30 Nokia Corporation Spatial audio enhancement apparatus
JP5866504B2 (ja) * 2012-12-27 2016-02-17 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理方法
EP2958339B1 (en) * 2013-02-15 2019-09-18 Panasonic Intellectual Property Management Co., Ltd. Directionality control system and directionality control method
DE102013105375A1 (de) 2013-05-24 2014-11-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Tonsignalerzeuger, Verfahren und Computerprogramm zum Bereitstellen eines Tonsignals
KR102150013B1 (ko) 2013-06-11 2020-08-31 삼성전자주식회사 음향신호를 위한 빔포밍 방법 및 장치
GB2516056B (en) * 2013-07-09 2021-06-30 Nokia Technologies Oy Audio processing apparatus
US9596437B2 (en) * 2013-08-21 2017-03-14 Microsoft Technology Licensing, Llc Audio focusing via multiple microphones
US9402095B2 (en) * 2013-11-19 2016-07-26 Nokia Technologies Oy Method and apparatus for calibrating an audio playback system
US9271077B2 (en) * 2013-12-17 2016-02-23 Personics Holdings, Llc Method and system for directional enhancement of sound using small microphone arrays
TWI494680B (zh) * 2014-01-28 2015-08-01 Altek Semiconductor Corp 影像擷取裝置及其影像形變校正方法
KR102154528B1 (ko) * 2014-02-03 2020-09-10 엘지전자 주식회사 이동 단말기 및 그 제어 방법
EP2942975A1 (en) * 2014-05-08 2015-11-11 Panasonic Corporation Directivity control apparatus, directivity control method, storage medium and directivity control system
US9414153B2 (en) * 2014-05-08 2016-08-09 Panasonic Intellectual Property Management Co., Ltd. Directivity control apparatus, directivity control method, storage medium and directivity control system
GB2549922A (en) * 2016-01-27 2017-11-08 Nokia Technologies Oy Apparatus, methods and computer computer programs for encoding and decoding audio signals
EP3209033B1 (en) 2016-02-19 2019-12-11 Nokia Technologies Oy Controlling audio rendering
KR102465227B1 (ko) 2016-05-30 2022-11-10 소니그룹주식회사 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체
GB2591066A (en) * 2018-08-24 2021-07-21 Nokia Technologies Oy Spatial audio processing

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3302300B2 (ja) * 1997-07-18 2002-07-15 株式会社東芝 信号処理装置および信号処理方法
JP4269883B2 (ja) 2003-10-20 2009-05-27 ソニー株式会社 マイクロホン装置、再生装置及び撮像装置
JP4934968B2 (ja) * 2005-02-09 2012-05-23 カシオ計算機株式会社 カメラ装置、カメラ制御プログラム及び記録音声制御方法
JP3906230B2 (ja) 2005-03-11 2007-04-18 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4247195B2 (ja) 2005-03-23 2009-04-02 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体
JP2006287544A (ja) * 2005-03-31 2006-10-19 Canon Inc 映像音声記録再生装置
JP4234746B2 (ja) 2006-09-25 2009-03-04 株式会社東芝 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP2010154259A (ja) * 2008-12-25 2010-07-08 Victor Co Of Japan Ltd 画像音声処理装置
WO2010149823A1 (en) * 2009-06-23 2010-12-29 Nokia Corporation Method and apparatus for processing audio signals
US8638951B2 (en) * 2010-07-15 2014-01-28 Motorola Mobility Llc Electronic apparatus for generating modified wideband audio signals based on two or more wideband microphone signals

Also Published As

Publication number Publication date
JP2012074880A (ja) 2012-04-12
US20120076304A1 (en) 2012-03-29
US8837747B2 (en) 2014-09-16

Similar Documents

Publication Publication Date Title
JP5198530B2 (ja) 音声付き動画像呈示装置、方法およびプログラム
US20230315380A1 (en) Devices with enhanced audio
JP6961007B2 (ja) 複合現実デバイスにおける仮想および実オブジェクトの記録
US8213648B2 (en) Audio signal processing apparatus, audio signal processing method, and audio signal processing program
KR101703388B1 (ko) 오디오 프로세싱 장치
US10635383B2 (en) Visual audio processing apparatus
JP6289121B2 (ja) 音響信号処理装置、動画撮影装置およびそれらの制御方法
US5548346A (en) Apparatus for integrally controlling audio and video signals in real time and multi-site communication control method
US20190139312A1 (en) An apparatus and associated methods
WO2013105413A1 (ja) 音場制御装置、音場制御方法、プログラム、音場制御システム及びサーバ
US20100302401A1 (en) Image Audio Processing Apparatus And Image Sensing Apparatus
JP2008042721A (ja) 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP2022065175A (ja) 音響処理装置および方法、並びにプログラム
US20150271618A1 (en) Device and method for playing sound
JP2013062640A (ja) 信号処理装置、信号処理方法、およびプログラム
JP6456171B2 (ja) 情報処理装置、情報処理方法及びプログラム
EP3503579A1 (en) Multi-camera device
JP2016109971A (ja) 信号処理装置および信号処理装置の制御方法
KR101391942B1 (ko) 오디오 스티어링 동영상 시스템 및 그 제공방법
JP2009159073A (ja) 音響再生装置および音響再生方法
WO2018155352A1 (ja) 電子機器の制御方法、電子機器、電子機器の制御システム、及び、プログラム
US11487496B2 (en) Controlling audio processing
JP2023104156A (ja) 音編集システム、音編集方法および音編集プログラム
EP3358852A1 (en) Interactive media content items
JP2013030967A (ja) 音声信号再生装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees