JP7100824B2 - データ処理装置、データ処理方法及びプログラム - Google Patents

データ処理装置、データ処理方法及びプログラム Download PDF

Info

Publication number
JP7100824B2
JP7100824B2 JP2018116973A JP2018116973A JP7100824B2 JP 7100824 B2 JP7100824 B2 JP 7100824B2 JP 2018116973 A JP2018116973 A JP 2018116973A JP 2018116973 A JP2018116973 A JP 2018116973A JP 7100824 B2 JP7100824 B2 JP 7100824B2
Authority
JP
Japan
Prior art keywords
acoustic
data
subject
image
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018116973A
Other languages
English (en)
Other versions
JP2019220848A (ja
Inventor
善樹 石毛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2018116973A priority Critical patent/JP7100824B2/ja
Priority to CN201910514660.4A priority patent/CN110620895A/zh
Priority to US16/442,217 priority patent/US20190394423A1/en
Publication of JP2019220848A publication Critical patent/JP2019220848A/ja
Priority to JP2022106907A priority patent/JP7347597B2/ja
Application granted granted Critical
Publication of JP7100824B2 publication Critical patent/JP7100824B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal

Description

本発明は、画像データ及び音響データを取得して処理するデータ処理装置、データ処理方法及びプログラムに関する。
この種のデータ処理装置(例えば、ビデオカメラ、コンパクトカメラ、スマートフォンなど)において、取得した画像データと音響データとを対応付けて再生する技術の一例としては、例えば、画角が略180゜という広範囲な撮影が可能な広角レンズ(魚眼レンズ)を用いて、会議中の各参加者の顔が含まれるように円形画像(魚眼画像)が撮影されると、その撮影された魚眼画像の中から各参加者の顔を認識して個々の参加者の発話時間と共に、各参加者の画像(部分画像)を切り出して表示するようにしたものが知られている(特許文献1参照)。
特開2015-19162号公報
しかしながら、上述した特許文献の技術にあっては、表示中の切出し画像内の被写体(参加者)がどの位置に表示されているかに関係なく、その撮影時に集音した音声データを単に出力するだけであり、切出し画像内の被写体(参加者)と、その被写体(参加者)の音声(出力音声)との関係が明確ではなく、参加者の誰が話しているかを知り得るものではなかった。
本発明の課題は、画像内の被写体(音源)とその被写体が発生した音響との対応関係を明確にできるようにすることである。
前記課題を解決するために本発明のデータ処理装置の一態様は、画像データを取得する画像取得手段と、音響データを取得する音響取得手段と、前記画像取得手段により取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定手段と、前記音響取得手段により取得された音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け手段と、前記画像データを表示する表示手段と、前記表示手段に表示されている画像データの中から音源として任意に指定された被写体を含む領域を切り出す切出手段と、を備え、前記対応付け手段は、前記切出手段により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得手段により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該被写体に対応付ける、ことを特徴とする。
また、前記課題を解決するため、本発明のデータ処理方法の一態様は、画像データを表示する表示手段を備えたデータ処理装置が実行するデータ処理方法であって、画像データを取得する画像取得処理と、音響データを取得する音響取得処理と、前記画像取得処理で取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定処理と、前記音響取得処理で取得された音響データの中から、前記特定処理で音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け処理と、前記画像取得処理で取得された画像データであって前記表示手段に表示されている画像データの中から音源として任意に指定された被写体を含む領域を切り出す切出処理と、を含み、前記対応付け処理は、前記切出処理で切出された切出し画像を前記表示手段に表示させると共に、前記音響取得処理で取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該被写体に対応付ける、ことを特徴とする。
また、前記課題を解決するため、本発明のプログラムの一態様は、画像データを表示する表示手段を備えたデータ処理装置のコンピュータに対して、画像データを取得する画像取得機能と、音響データを取得する音響取得機能と、前記画像取得機能により取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定機能と、前記音響取得機能により取得された音響データの中から、前記特定機能により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け機能と、前記画像取得機能で取得された画像データであって前記表示手段に表示されている画像データの中から音源として任意に指定された被写体を含む領域を切り出す切出機能と、を実現させ、前記対応付け機能は、前記切出機能により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得機能により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該被写体に対応付ける、ことを特徴とする。
本発明によれば、画像内の被写体(音源)とその被写体が発生した音響との対応関係を明確にすることができる。
データ処理装置1として適用したセパレート型デジタルカメラの外観図で、(1)は、撮像装置2と本体装置3とを一体的に組み合わせた状態、(2)は、撮像装置2と本体装置3とを分離した状態を示した図。 データ処理装置1を構成する本体装置3の基本的な構成要素を示したブロック図。 図3(1)は、撮像装置2を横置き姿勢とした状態を示した図、図3(2)は、横置き姿勢で撮影された魚眼画像を例示した図、図3(3)は、魚眼画像から音源の被写体を含む領域を切り出して拡大表示させた図。 データ処理装置1(本体装置3)の動作(第1実施形態での特徴的な動作:画像・音響再生処理)を示したフローチャート。 第2実施形態において、データ処理装置1(本体装置3)の特徴的な動作(画像・音響再生処理)を示したフローチャート。 図6(1)は、第3実施形態の動画像データを例示し、図6(2)は、この動画像データに同期して音響データ(音声データ)が出力される様子を例示した図。 第3実施形態において、データ処理装置1(本体装置3)の特徴的な動作(画像・音響再生処理)を示したフローチャート。 第1~第3実施形態の変形例を説明するための図で、データ処理装置1から外部機器(テレビ受像機又は監視モニタ装置)20に音響データ付き動画像データを送信して外部機器20に出力させる場合を示した図。
以下、図1~図4を参照して本発明の実施形態を説明する。
本実施形態は、データ処理装置1として適用したセパレート型デジタルカメラに適用した場合を例示したもので、このデジタルカメラは、後述する撮像部を備える撮像装置2と、後述する表示部を備える本体装置3とに分離可能なセパレート型デジタルカメラである。図1(1)は、撮像装置2と本体装置3とを一体的に組み合わせた状態を示し、図1(2)は、撮像装置2と本体装置3とを分離した状態を示している。このデータ処理装置1を構成する撮像装置2と本体装置3とは、それぞれが利用可能な無線通信を用いてペアリング(無線接続認識)が可能なもので、無線通信としては、例えば、無線LAN(Wi-Fi)又はBluetooth(登録商標)を使用するようにしている。
撮像装置2は、静止画像及び動画像を撮影可能なもので、撮影機能の他に録音機能を備え、画像の撮影時に集音した音響データ付き画像データを本体装置3側に送信するようにしている。この撮像装置2には広角レンズ(魚眼レンズ)4と、広角レンズ4の近傍に配設された単一のマイク(モノクロマイク)5が備えられている。なお、撮像装置2は、広角レンズ(魚眼レンズ)4と標準レンズ(図示省略)とを任意に撮り替え可能な構成となっている。撮像装置2は、図示省略したが、撮像装置2の全体動作を制御する制御部、二次電池を備えた電源部、ROMやフラッシュメモリなどを備えた記憶部、本体装置3との間で無線通信を行う通信部、広角レンズ4を備えた撮像部、モノクロマイク5を備えた音響入力部などを備えている。
広角レンズ4は、画角が略180゜という広範囲な撮影が可能な魚眼レンズで、本実施形態では1枚の魚眼レンズを使用して半天球の撮影を行うようにしている。なお、魚眼画像(半天球画像)の全体は、歪曲歪によってその中心(光軸)からレンズ端(周辺部)に向かう程、大きく歪んだものとなる。モノクロマイク5は、広角レンズ4側に設けられ、画像の撮影時にその撮像に同期して周辺の音響を集音するもので、例えば、ビームフォーミングにも最適な超小型マイクロフォンとして、例えば、振動・衝撃や温度変化に強く、優れた音響特性と電気特性を実現したMEMS(Micro Elerctronics Mechanical System)マイクで、本実施形態では無指向性のマイクを使用するようにしている。
本体装置3は、撮像装置2側で撮影・集音された音響データ付き画像データを受信取得すると、この画像データをライブビュー画像としてモニタ画面(ライブビュー画面)に表示したり、画像データと音響データとを対応付けて記憶保存したりするようにしている。本体装置3には、タッチ入力機能及び表示機能を備えたタッチ表示画面6と、動画像データの表示に同期してその音響データを出力する2台のスピーカ(ダイナミック型スピーカ)7、8とが備えられている。この2台のスピーカ7、8は、所定距離(可能な限り)離れて配設されたもので、図示の例は、長方形の本体装置3の長辺方向に可能な限り離して2台のスピーカ7、8を配設した場合を示している。すなわち、長方形の本体装置3を横長にした横向き姿勢において、本体装置3の左下角部には、第1スピーカ(左スピーカ)7が配設され、本体装置3の右下角部には、第2スピーカ(右スピーカ)8が配設されている。
図2は、データ処理装置1を構成する本体装置3の基本的な構成要素を示したブロック図である。
データ処理装置1(本体装置3)は、制御部11、電源部12、記憶部13、タッチ表示部14、短距離通信部15、姿勢検出部16、音響出力部17を有し、更に、本体装置3は、撮像装置2から短距離通信部15を介して画像データを受信取得したり、音響データを受信取得したりするデータ取得機能と、この取得した画像データを再生する画像再生機能と、取得した一連の音響データを再生する音響再生機能とを備えている。制御部11は、電源部(二次電池)12からの電力供給によって動作し、記憶部13内の各種のプログラムに応じてこの本体装置3の全体動作を制御するもので、この制御部11には図示しないCPU(中央演算処理装置)やメモリなどが設けられている。
記憶部13は、本実施形態を実現するためのプログラム(図4のフローチャートを参照)や各種のアプリケーションなどが格納されているプログラムメモリ13aと、この本体装置3が動作するために必要となる各種の情報(例えば、フラグなど)を一時的に記憶するワークメモリ13bと、音響データ付き画像データなどを記憶するデータメモリ13cを有する他に、第1実施形態では、後述する音響認識用メモリ13dと画像認識用メモリ13eを有している。なお、記憶部13は、例えば、SDカード、USBメモリなど、着脱自在な可搬型メモリ(記録メディア)を含む構成であってもよく、図示しないが、通信機能を介してネットワークに接続されている状態においては所定のサーバ装置側の記憶領域を含むものであってもよい。
上述の音響認識用メモリ13dは、音響データの解析時に使用されるもので、音源毎にその種類を示す情報と、音源の種類に応じて異なる音響的特徴(音響特徴量)を示す情報を対応付けて記憶する構成となっている。「音源の種類」は、例えば、人物(老若男女)、動物(大型犬、小型犬、猫、鳥)、物体(自動車、電車)を示しているが、それに限らないは勿論である。なお、音響認識用メモリ13dの内容は、予め入力された大量の音響データが統計的に処理され、音源の種類に応じた規則性や関連性など、音響的特徴を学習(機械学習、例えば、ディープラーニング)することによりモデル化されたもので、その内容は学習に応じて動的に逐次変更(追加、編集)される。
画像認識用メモリ13eは、画像データの解析時に使用されるもので、音源毎にその種類を示す情報と、音源の種類に応じて異なる外観的特徴(画像特徴量)を示す情報を対応付けて記憶する構成となっている。「音源の種類」は、音響認識用メモリ13dと同様に、人物(老若男女)、動物(大型犬、小型犬、猫、鳥)、物体(自動車、電車)を示しているが、それに限らないは勿論である。なお、画像認識用メモリ13eの内容は、予め入力された大量の画像データが統計的に処理され、音源の種類に応じた規則性や関連性など、外観的特徴を学習(機械学習、例えば、ディープラーニング)することによりモデル化されたもので、その内容は学習に応じて動的に逐次変更(追加、編集)される。
タッチ表示部14は、高精細液晶などのディスプレイ上にタッチパネルを積層配置した構成のタッチ表示画面6を有し、このタッチ表示画面6は、撮影されたライブビュー画像をリアルタイムに表示するモニタ画面(ライブビュー画面)となったり、撮影済み画像を再生する画面となったりする。短距離通信部15は、撮像装置2又は外部機器20との間で各種のデータの送受信を行う通信インターフェイスである。姿勢検出部16は、本体装置3に加わる加速度を検出する3軸タイプの加速度センサなどであり、本体装置3の姿勢として、長方形のタッチ表示部14の向きに応じて、縦長画面(縦向き画面)か、横長画面(横向き画面)かを検出して制御部11に与える。音響出力部17は、音響データを出力する第1スピーカ7及び第2スピーカ8を有し、各スピーカ7、8の出力音量をスピーカ毎に制御するようにしている。
図3(1)は、撮像装置2を横置き姿勢にした状態を示した図である。
すなわち、広角レンズ4の光軸方向を天頂に向けた状態(横置き状態)、つまり、光軸方向が重力方向に対して略逆方向となる状態で撮影する場合の姿勢(横置き姿勢)を示している。図3(2)は、この横置き姿勢で撮影された魚眼画像を例示した図で、会議中にテーブル上に横置き姿勢で載置された撮像装置2によって会議の様子が撮影された場合の魚眼画像(半天球画像)を示している。図3(3)は、この魚眼画像から音源(話者)の被写体を含むように所定の領域を切り出してタッチ表示画面6に拡大表示させた場合を示した図である。
なお、図示の例は、光軸方向を天頂に向けた横置き状態(横置き姿勢)で撮影した魚眼画像からその一部分の画像が切り出されて、その切出し画像が横長画面(横向き画面)として表示された場合を示したが、光軸方向を水平方向に向けた縦置き状態(縦置き姿勢)で撮影した魚眼画像からその一部分の画像が切り出されて、その切出し画像が横長画面(横向き画面)として表示させたり、縦長画面(縦向き画面)として表示させたりするようにしてもよい。
本体装置3の制御部11は、音響データ付き画像データを再生する際に、ユーザ操作によって再生対象が任意に指定されると、その指定された音響データ付き画像データをデータメモリ13cから読み出し取得する。その後、再生指示に応じて音響データ付き画像データの再生を開始するが、第1実施形態では、音響データ付き画像データの全てを逐次再生(全体再生)するのではなく、データを遂次解析して前後の無音区間を除いた音響区間を検出し、この音響区間の音響データ及び画像データを抽出し、この抽出した音響データ及び画像データのみを対応付けて再生(部分再生)するようにしている。
すなわち、制御部11は、一連の音響データを遂次解析して前後の無音区間を除いた音響区間を検出すると、この音響区間の音響データに対してその特徴を抽出する処理を行うことによりその区間の音響的特徴(周波数特性など)を得るようにしている。そして、音響認識用メモリ13dを参照してその音響的特徴に該当する音源の種類を得た後に、画像認識用メモリ13eを参照し、この音源の種類に該当する音響的特徴を持った音源(被写体)を特定する。その後、制御部11は、特定した音源(被写体)を含むように所定サイズの領域を切り出すと共に、この切出し画像に対して歪補正を施した後、タッチ表示画面6に拡大表示させる。なお、画像の切り出し方は任意であるが、図3(3)の例では、音源(話者)として特定した被写体(男性)Aの他に、可能な限り他の被写体(隣席の他の被写体B)を含むように画像の切り出しを行った場合である。
そして、制御部11は、再生対象として指定された一連の音響データの中から、上述のようにして特定した音源(被写体)に対応する音響データを選別(抽出)することにより当該音源(被写体)に該当する音響データ(当該音源の音響データ)として切り出すと共に、この切出し音響(トリミング音響)を、切出し画像に対応付けて(画像表示に同期して)出力させる。その際、切出し画像内における音源(被写体)の位置(表示位置)に応じて、切出し音響の出力状態(出力音量)を、スピーカ毎に制御するようにしている。つまり、切出し画像(平面)内において、その中心からの方向と距離(平面座標系の位置)を検出し、音源(被写体)の表示位置は、第1スピーカ7側の方向に偏っているか、第2スピーカ8側の方向に偏っているかに応じて、切出し音響の出力音量を制御するようにしている。
図示の例において音源(被写体)Aの位置は、切出し画像の中心から第1スピーカ7側の方向(図中、左方向)に偏っているので、第1スピーカ7からの出力音量を予め任意に設定されている音量(設定音量)よりも大きくし、逆に、第2スピーカ8からの出力音量を設定音量よりも小さくするようにしている。このような音量の制御は、切出し画像内においてその画像の中心から音源の位置までの距離に比例し、距離が遠くなる程、つまり、その方向に配置されているスピーカに近づくほど、そのスピーカの出力音量が大きくなるように、他方のスピーカの出力音量が小さくなるように両スピーカの出力音量を制御するようにしている。
次に、第1実施形態におけるデータ処理装置1(本体装置3)の動作概念を図4に示すフローチャートを参照して説明する。ここで、このフローチャートに記述されている各機能は、読み取り可能なプログラムコードの形態で格納されており、このプログラムコードにしたがった動作が逐次実行される。また、ネットワークなどの伝送媒体を介して伝送されてきた上述のプログラムコードに従った動作を逐次実行することもできる。このことは後述する他の実施形態においても同様であり、記録媒体の他に、伝送媒体を介して外部供給されたプログラム/データを利用して本実施形態特有の動作を実行することもできる。なお、図4は、データ処理装置1の全体動作のうち、本実施形態の特徴部分の動作概要を示したフローチャートであり、この図4のフローから抜けた際には、全体動作のメインフロー(図示省略)に戻る。
図4は、データ処理装置1(本体装置3)の動作(第1実施形態での特徴的な動作:画像・音響再生処理)を示したフローチャートで、音響データ付き画像データの再生が指示された際に実行開始される。ここで、再生対象として動画撮影された音響データ付き動画像データが指定されたものとする(以下、同様)。
先ず、本体装置3は、再生が指示されると、データメモリ13cの中から再生対象として指定された音響データ及び動画像データを読み出し取得する(ステップA1)。そして、取得した一連の音響データを逐次解析することにより、その中から音源の音響データを分離抽出して切出し音響を得る(ステップA2)。すなわち、前後の無音区間を切った音響区間において、音圧レベルが所定値以上の音源を主要な音源として分離抽出することにより、雑音を取り除いた主要な音源の音響データを切出し音響として得る。
そして、この切出し音響(主要な音源の音響データ)を解析することによってその音源の音響的特徴を得た後、音響認識用メモリ13dを参照して、この音響的特徴を持った音源の種類を得る(ステップA3)。その際、統計的手法、又はHMM(Hidden Markov Model:隠れマルコフモデル)手法などを用いて音響データの解析を行う。本実施形態においては、現在の状態から次の状態に遷移する確率を定義するHMMを用いて、切出し音響の解析を行い、それによって得られた時系列の音響的特徴と、その時系列の音響的特徴のモデルとのパターンマッチングによって音源の種類を認識するようにしている。
このような音響解析の結果、所定の種類の音源を特定することができたか否かを判別する(ステップA4)。すなわち、音響データを解析することにより得られた音響的特徴は、音響認識用メモリ13dに記憶されている音源の種類に該当するか否かを判別する。例えば、音源が人物であれば、更に老若男女の何れであるかを判別し、動物であれば、犬(大型犬、小型犬)、猫、小鳥であるかを判別し、物体であれば、自動車、電車であるかを判別する。
いま、特定した音源の種類が所定の種類でなければ(ステップA4でNO)、その切出し音響を無視(出力対象外)とするために、上述の音響解析処理(ステップA2に戻るが、所定の種類の音源であれば(ステップA4でYES)、その音源の種類を基にして、画像データを解析することにより当該音源である被写体が存在している画像内の位置(被写体の位置)を特定する(ステップA5)。すなわち、この音源の種類を基にして、画像認識用メモリ13eを参照することにより、この音源の種類に該当する外観的特徴を得ると共に、取得した画像データを解析することによりその外観的特徴を持った被写体(音源)の位置を特定する。
この場合の画像解析手法としては、例えば、局所特徴量と統計的学習手法との組み合わせで行うようにしてもよいが、本実施形態においては、物体(音源)検出のアルゴリズムとして、R―CNN(Regions with CNN features)の手法を用いて画像内の音源を特定するようにしている。すなわち、時系列順のフレーム画像の各々を逐次解析する際に、物体(音源)らしさ(Objectness)を見つける既存手法(Selective Search)を用いて、画像から物体(音源)候補(Region Proposals)を探した後、この音源候補の領域画像を全て一定の大きさにリサイズしてCNN(Convolutional Neural Network)にかけて音源の外観的な特徴(features)を抽出する。そして、抽出した音源の外観的な特徴を複数のSVM(support vector machine)を用いて、学習すると共に、カテゴリ識別、回帰分析(regression)によってBounding Box(音源(被写体)の位置)を推定する。
このようにして画像内における音源(被写体)の位置を特定すると、この音源(被写体)を含む所定サイズ(例えば、画像全体の1/4サイズ)の領域を動画像(魚眼画像)データの中から切り出す(ステップA6)。その際、音源(被写体)が画像の中心に来るように切り出す場合に限らず、なるべく複数の被写体が含まれるように切り出すようにしている。例えば、隣に他の人物などの被写体が存在していれば、その隣の被写体も含まれるように切り出したり、背景などとの構図を考慮して切り出したりするが、その切り出し方は、それに限らず、任意である。
いま、図3(1)~(3)に示したように、横置き姿勢で撮影された魚眼画像(半天球画像)の中から音源(話者)としての男性の被写体Aと、他の被写体(音源に隣席する女性)Bが含まれるようなに域が切り出されたものとすると、この切出し画像内における音源の被写体(男性)Aの位置として、画像の中心から音源(被写体)への方向とその距離を検出する(ステップA7)。すなわち、切出し画像内において音源(話者)として男性の被写体Aがその画像の中心からどの方向にどれくらい離れているか、言い換えれば、切出し画像内において音源の位置は、その画像の中心から第1スピーカ7側の方向にどれくらい偏っているかを検出すると共に、第2スピーカ8側の方向にどれくらい偏っているのかを検出する。
これによって検出した音源(被写体)の位置に応じて、その切出し音響の出力音量を決定する(ステップA8)。例えば、図3(3)において音源(話者)として被写体(男性)Aは、切出し画像の中心から第1スピーカ7側の方向(図中、左方向)に大きく偏っているので、第1スピーカ7から出力される切出し音響の出力音量が、設定音量よりもその偏り量分大きくなるように、逆に、第2スピーカ8から出力される切出し音響の出力音量が設定音量よりもその偏り量分小さくなるようにスピーカ毎にその切出し音響の出力音量を決定する。
その後、切出し画像に対して広角レンズ(魚眼レンズ)4による歪を補正する処理を施した後、その補正した切出し画像をタッチ表示画面6の全体サイズに拡大して表示させる処理(ステップA9)を行うと共に、切出し音響を、切出し画像の表示に対応付けて(同期させて)、スピーカ毎に決定した音量で出力させる(ステップA10)。図3(3)の場合には、切出し画像内においてその音源(被写体)の位置がその画像の中心から第1スピーカ7側の方向(図中、左方向)に大きく偏っているので、第1スピーカ7からの出力音量は、その偏りの距離に比例して大きくなり、逆に第2スピーカ8からの出力音量は、その偏り距離に比例して小さくなる。
このようにして切出し音響の出力音量を、その音源(被写体)の位置に応じてスピーカ毎に制御する処理を行うと、再生が終了したか、つまり、音響データ付き動画像データの再生がその末尾まで終了したか、又は再生途中でユーザ操作により再生終了が指示されたかを調べる(ステップA11)。ここで、再生終了でなければ(ステップA11でNO)、再生終了となるまで上述のステップA2に戻り、上述の動作を繰り返す。この場合、特定した音源(被写体)が移動体の場合、又は撮影者が移動しながら撮影を行った場合に、上述した動作が繰り返されることにより切出し音響の出力状態(出力音量)は、音源の位置の移動に追従して制御されることになる。
なお、切出し音響とそれに該当する切出し画像とを管理するためのファイルを作成する処理ステップを、上述のステップA6の後に新たに設け、この新たなステップで作成した管理ファイルを利用して、上述のステップA7以降の各処理を行うような構成にしてもよいことは勿論である。
以上のように、第1実施形態においてデータ処理装置1(本体装置3)は、画像データ及び音響データを取得すると、この取得した画像データを解析することにより当該画像内に存在している音源としての被写体を特定すると共に、取得した一連の音響データの中から音源として特定した被写体に該当する音響データを選別して当該被写体に対応付けるようにしたので、画像内に存在している音源として被写体と、その被写体が発生した音響との関係を明確にすることができる。
本体装置3は、取得した一連の音響データを解析することによりその音源の音響的特徴を特定すると共に、この音響的特徴を基にして、取得した画像データを解析することにより当該音響的特徴を持った被写体を特定するようにしたので、音響データを基にして、画像内に存在している音源としての被写体を的確に特定することが可能となる。
本体装置3は、音源として特定した被写体を含む画像データを表示させると共に、その音源の音響データを当該表示中の被写体に対応付けるようにしたので、音源の音響データを、表示中の音源(被写体)に対応付けることができ、その対応関係が明確なものとなる。
本体装置3は、取得した画像データの中から音源として特定した被写体を含む領域を切り出して表示している状態において、取得した音響データの中から、音源として表示している被写体に該当する音響データを選別して当該表示中の被写体に対応付けるようにしたので、音源として特定した被写体を基にして、その被写体を含む領域を切り出すことができると共に、切出し画像内の被写体(音源)とその被写体(音源)が発生した音響との対応関係を明確にすることができる。
本体装置3は、選別した音源(被写体)の音響データを出力する場合に、画像内の音源の位置に応じて、その音響の出力状態を制御するようにしたので、音源の位置に適合した音響出力が可能となり、臨場感のある音響を出力させることができる。
本体装置3は、異なる位置に配置された複数のスピーカとして第1スピーカ7と第2スピーカ8を有し、音源(被写体)の音響データを出力する際にその出力音量をスピーカ毎に制御するようにしたので、更に、臨場感のある音響を出力させることができる。
本体装置3は、特定した音源が移動体の場合、又は撮影者が移動しながら撮影を行った場合に、その音響データの出力状態(音量)を、音源の位置の移動に追従してスピーカ毎に制御するようにしたので、更に、臨場感のある音響を出力させることができる。
本体装置3は、音響データを出力させる際に、音源として特定した被写体に該当する音響データのみを選別(抽出)して出力することにより音響データと共に集音された他の音響データの出力を抑制するようにしたので、雑音などを抑制したクリアな音響を出力することができる。
画像データは、広角撮像された画像(魚眼画像)であり、音響データは、広角画像の撮影時にその撮影に同期して集音記憶された音響であるので、多くの被写体が存在している可能性が高い魚眼画像であっても、取得した音響データを解析することにより多くの被写体の中から音源としての被写体を容易に特定することが可能となる。
(第2実施形態)
以下、この発明の第2実施形態について図5のフローチャートを参照して説明する。
なお、上述した第1実施形態においては、音響解析を行ってから画像解析を行うことにより、切出し画像と切出し音響とを対応付けるようにしたが、第2実施形態においては、画像解析を行ってから音響解析を行うにより、切出し画像と切出し音響とを対応付けるようにしたものである。ここで、両実施形態において基本的あるいは名称的に同一のものは、同一符号を付して示し、その説明を省略すると共に、以下、第2実施形態の特徴部分を中心に説明するものとする。
図5は、第2実施形態において、データ処理装置1(本体装置3)の特徴的な動作(画像・音響再生処理)を示したフローチャートであり、音響データ付き動画像データの再生が指示された際に実行開始される。
先ず、本体装置3は、再生が指示されると、データメモリ13cの中から再生対象として指定された音響データ及び動画像データを読み出し取得する(ステップB1)。そして、取得した動画像データをフレーム毎に逐次解析することにより、画像内に各被写体の全体動作や口元の動作などから、音を発している被写体(例えば、発言している人物、吠えている犬など)を音源として特定する(ステップB2)。この場合、物体(音源)検出のアルゴリズムとして、R―CNNの手法を用いて画像内の音源を特定するようにしている。
このような画像解析の結果、音源としての被写体を特定することができたか否かを判別し(ステップB3)、音源(被写体)を特定できなければ、つまり、音を発している被写体が存在していなければ(ステップB3でNO)、そのときの画像を無視(出力対象外)とするために、上述の画像解析処理(ステップB2)に戻るが、音源(被写体)を特定できた場合には(ステップB3でYES)、この音源(被写体)を含む画像データを、更に解析することにより音源(被写体)の位置と外観的特徴(画像特徴量)を特定する処理を行う(ステップB4)。
次に、取得した一連の音響データを解析することにより、特定した外観的特徴を持った音源(被写体)の音響データを、この一連の音響データの中から選別(抽出)する(ステップB5)。この場合、特定した外観的特徴を基にして、画像認識用メモリ13eを参照し、この外観的特徴に該当する音源の種類を得ると共に、この音源の種類を基にして、音響認識用メモリ13dを参照し、この音源の種類に該当する音響的特徴を得た後、取得した一連の音響データを解析することによりその音響的特徴を持った音響データを抽出して切出し音響を得る。すなわち、特定した音源(被写体)に該当する音響データを選別(抽出)することにより当該音響データを切出し音響(トリミング音響)として得る。
以下、図4のステップA6~A11に対応する処理(ステップB6~B11)に移る。先ず、音源(被写体)を含む所定サイズの領域を動画像データの中から切り出し(ステップB6)、この切出し画像の中心から音源(被写体)への方向と距離(被写体の位置)を検出する処理(ステップB7)を行うと共に、切出し音響の音量を音源(被写体)の位置に応じてスピーカ毎に決定する処理を行う(ステップB8)。そして、切出し画像に対して歪補正処理を施した後に、その補正した切出し画像をタッチ表示画面6の全体サイズに拡大して表示させる(ステップB9)。
その後、切出し音響を画像表示に対応付けて(同期して)出力させる際に、この切出し音響の出力音量を、その音源(被写体)の位置に応じて、スピーカ毎に制御する(ステップB10)。このような出力処理が終わると、再生が終了したか、つまり、音響データ付き動画像データの再生がその末尾まで終了したか、又は再生途中でユーザ操作により再生終了が指示されたかを調べる(ステップB11)。ここで、再生終了でなければ(ステップB11でNO)、再生終了となるまで上述のステップB2に戻り、以下、上述の動作を繰り返す。
なお、切出し音響とそれに該当する切出し画像とを管理するためのファイルを作成する処理ステップを、上述のステップB6の後に新たに設け、この新たなステップにより作成した管理ファイルを利用して、上述のステップB7以降の各処理を行うような構成にしてもよいことは勿論である。
以上のように、第2実施形態においては、取得した画像データ内の被写体の動作を解析して音源となる被写体を特定し、この特定した音源の外観的特徴を基にして、音響データを解析することによりその外観的特徴に該当する音響データを、当該音源(被写体)の音響データとして選別(抽出)して、当該被写体に対応付けるようにしたので、画像内に存在している音源として被写体と、その被写体が発生した音響との関係を明確にすることができる。
その他、第2実施形態においても上述した第1実施形態と同様の効果を有する。すなわち、音源として特定した被写体を基にして、その被写体を含む領域を切り出すことができると共に、切出し画像内の被写体(音源)とその被写体(音源)が発生した音響(切出し音響)との対応関係を明確にすることができる。また、音源(被写体)の位置に応じて切出し音響の出力状態を制御することができると共に、その出力音量をスピーカ毎に制御することが可能となる。更に、音源の位置の移動に追従して切出し音響の出力状態を制御することができる。
(第1及び第2実施形態の変形例1)
上述した第1及び第2実施形態においては、取得した画像データの中から音源として特定した被写体に基づいてその被写体を含む領域を切り出して表示するようにしたが、その切り出し領域をユーザ操作によって任意に指定できるようにしても。すなわち、表示中の画像データの中から音源として任意に指定された被写体を含む領域を、ユーザ操作によって任意に指定されると、その指定領域の画像を切り出して表示するようにしてもよい。これによってユーザにあっては表示中の画像から所望する被写体を任意に指定するだけで、その被写体とその被写体が発生した音響データとを対応付けることができる。
(第1及び第2実施形態の変形例2)
上述した第1及び第2実施形態においては、音源(被写体)の音響データ(切出し音響)のみを分離抽出して出力(他の音響データの出力を抑制)するようにしたが、切出し音響のデータを分離せず、その音源による音響の発生区間を抽出して出力するようにしてもよい。これによって雑音も含めた撮影時の環境をそのまま再現することができるようになる。
(第1及び第2実施形態の変形例3)
上述した第1及び第2実施形態においては、画角が略180゜という広範囲な撮影が可能な広角レンズ(魚眼レンズ)4を使用して撮影した動画像について適用したが、撮像装置2の前面部と背面部に2枚の魚眼レンズを配置し、前面部の魚眼レンズによる前方180゜の撮影と、背面部の魚眼レンズによる後方180゜の撮影を同時に行って、360°の画像(全天球画像)に得るようにしてもよい。ここで、撮像装置2の前面部に設けたモノクロマイク5によって360°の集音を行った場合に、音源としての被写体が、モノクロマイク5に対して逆の方向に位置している場合には、視聴者の後方に音源が存在しているように、その音源の音響データを仮想化して出力するようにしてもよい。この仮想化は、例えば、聴取者に対して任意の方向からの音のように知覚させるバイノーラル化技術と、各チャンネルの音声が反対側の耳へまわりこむ現象(クロストーク成分)を削減する処理(クロストークキャンセル処理)などの一般的な方法で実施することが可能となる。
その他、上述した第1及び第2実施形態は、単一のモノクロマイク5を使用して集音した場合を示したが、2チャンネル以上のマイクを使用して録音するようにしてもよい。この場合、マイク別に集音した音響データに対してその出力音量を、第1及び第2実施形態と同様に、音源(被写体)の位置に応じて制御するようにすればよい。
(第3実施形態)
以下、この発明の第3実施形態について図6及び図7を参照して説明する。
なお、上述した第1実施形態においては、取得した一連の音響データの中から、音源の種類に該当する音響データを分離抽出するようにしたが、この第3実施形態においては、取得した一連の音響データの中から、個々の音源(人物であれば特定話者)に該当する音響データを分離抽出するようにしたものである。すなわち、この第3実施形態は、取得した一連の音響データを解析して音源毎の音響データに分離抽出した後、この分離抽出した音源毎の音響データの中から、音源として特定した被写体に該当する音響データを選別して当該被写体に対応付けるようにしたものである。ここで、両実施形態において基本的あるいは名称的に同一のものは、同一符号を付して示し、その説明を省略すると共に、以下、第3実施形態の特徴部分を中心に説明するものとする。
図6(1)は、第3実施形態の動画像データを例示したもので、上述した第1実施形態では、広角レンズ(魚眼レンズ)4を使用して撮影した画像を例示したが、この第3実施形態にあっては、標準レンズ(図示省略)を使用して撮影した画像を示している。図示の例は、男女3人X、Y、Zが会話している様子を撮影した場合で、その撮影時にはモノクロマイク5で集音された音響データと共にその画像データは、データメモリ13cに記憶保存される。なお、図示の撮影タイミングは、人物(二人の女性)X、Zが同時に会話している場合を示している。
図6(2)は、図6(1)に示した動画像データの表示に同期して音響データが再生される様子を例示した図である。
なお、上述した第1及び第2実施形態においては、取得した画像データの中からその一部分として、音源(被写体)を含む領域を切り出して表示するようにしたが、この第3実施形態においては、取得した画像データの全体を表示するようにしている。図示の例では、同時に会話している二人の女性X、Zの音響データが各スピーカ7、8から同時に再生された場合で、上述した第1及び第2実施形態と同様に、話者(音源)がその画像の中心からどの方向にどれくらい離れているかを検出し、この検出結果(話者の位置)に応じて、話者(音源)毎にその出力音量をスピーカ毎に制御するようにしている。
第3実施形態で使用する音響認識用メモリ13dは、音源毎にその音源の個々を識別する情報(音源ID)と、音響的特徴(音響特徴量)とを対応付けた構成となっている。同様に、第3実施形態で使用する画像認識用メモリ13eは、音源毎にその音源IDと外観的特徴(画像特徴量)とを対応付けた構成となっている。なお、上述した第1及び第2実施形態では音源としてその種類(人物、動物、物体)とした場合を示したが、第3実施形態では、音源を人物の個々(個人)に特化し、音響データを人の声(音声データ)とした場合である。
図7は、第3実施形態において、データ処理装置1(本体装置3)の特徴的な動作(画像・音響再生処理)を示したフローチャートであり、音響データ(音声データ)付き動画像データの再生が指示された際に実行開始される。
先ず、本体装置3は、再生が指示されると、データメモリ13cの中から再生対象として指定された音声データ付き動画像データを取得して(ステップC1)、その動画像データの再生を開始(ステップC2)させた後、取得した一連の音声データを逐次解析して(ステップC3)、音声(人の声)の有無を調べる(ステップC4)。
ここで、無音状態、又は人物以外の音響であれば(ステップC4でNO)、上述のステップC3に戻るが、音声を検出したときには(ステップC4でYES)、取得した一連の音声データを解析することにより話者毎にその音声データを分離抽出する(ステップC5)。この場合、例えば、一連の音声データを解析することによって得られた話者毎の音声データを分類するクラスタリング処理などの一般的な方法を実施して、話者毎にその個々の音声データ(各人の音声データ)を分離抽出する。
そして、分離抽出した話者毎の音声データ(音響的特徴)を基にして、音響認識用メモリ13dを参照し、その音響的特徴に該当する特定話者(音源ID)を認識する(ステップC6)。更に、この特定話者(音源ID)を基にして、画像認識用メモリ13eを参照し、その特定話者(音源ID)に該当する外観的特徴を得ると共に、取得した画像データを解析することによりその外観的特徴を持った被写体(話者)の位置(画像内の位置)を特定する(ステップC7)。
この話者毎の位置に応じて、その音声データを出力する際の音量をスピーカ毎に決定する(ステップC8)。例えば、図6(2)の場合において、話者Xは、画像の中心から第1スピーカ7側の方向(図中、左方向)に偏っているので、第1スピーカ7からの出力音量が設定音量よりも大きくなるように、また、第2スピーカ8からの出力音量が設定音量よりも小さくなるようにその音量を決定し、また、話者Zは、画像の中心から第2スピーカ8側の方向(図中、右方向)に偏っているので、第2スピーカ8からの出力音量が設定音量よりも大きくなるように、また、第1スピーカ7からの出力音量が設定音量よりも小さくなるようにその音量を決定する。
次に、話者毎に分離抽出した音声データを画像表示に同期してスピーカ毎に、上述の決定音量で出力する(ステップC9)。その際、複数の話者が同時に発言した音声であれば、スピーカ毎に各話者の音声データを合成した混合音を出力するようにしている。すなわち、図6(2)の場合には、第1スピーカ7から出力される話者X、Zの混合音は、話者Xの音声の方が話者Zの音声よりも音量が大きく出力され、逆に、第2スピーカ8から出力される話者X、Zの混合音は、話者Zの音声の方が話者Xの音声よりも音量が大きく出力される。以下、再生終了が指示されたか、つまり、音声データ付の動画像データの再生がその末尾まで終了したか、又は再生途中でユーザ操作により再生終了が指示されたかを調べる(ステップC10)。ここで、再生終了でなければ(ステップC10でNO)、再生終了となるまで上述のステップC3に戻り、以下、上述の動作を繰り返す。
なお、話者毎に分離抽出した音声データとそれに該当する話者を含む画像データとを管理するためのファイルを作成する処理ステップを、上述のステップC6の後に新たに設ける、又は話者毎に分離抽出した音声データとそれに該当する話者を含む画像データと話者に関する位置情報や認識された話者に関する情報等とを管理するためのファイルを作成する処理ステップを上述のステップC7の後に新たに設け、この新たなステップで作成した管理ファイルを利用してそれ以降の各処理を行うような構成にしてもよいことは勿論である。
以上のように、第3実施形態においては、取得した一連の音響データを解析することにより音源毎の音響データに分離抽出し、この分離抽出した音源毎の音響データの中から、音源(被写体)の音響データを選別して当該被写体に対応付けるようにしたので、音源(被写体)を精度良く特定することが可能となり、音源と被写体との対応付けがより確実なものとなる。
本体装置3は、表示中の画像データを解析することにより当該画像内に存在している音源としての各被写体を特定するようにしたので、分離抽出した音源毎の音響データを、表示中の音源(被写体)に対応付けることができ、その対応関係が明確なものとなる。
また、複数の話者が同時に会話している場合には、分離抽出した話者毎の音声データを、スピーカ毎に合成した混合音として出力するようにしたので、複数の話者が同時に会話していても聞き取りやすい音声を出力することが可能となる。
その他、第3実施形態においても上述した第1実施形態と同様の効果を有する。すなわち、表示されている音源の被写体(話者)の位置に応じて、その話者の音声データの出力音量を制御することが可能となると共に、その出力音量をスピーカ毎に制御することが可能となる。更に、音源(話者)の位置の移動に追従してその出力音声を制御することができる。
(第3実施形態の変形例1)
なお、上述した第3実施形態においては、取得した音声データの中から分離抽出した話者毎の音声データ(音響的特徴)を基にして、各話者を認識した後、各話者の外観的特徴からその被写体(話者)の位置を特定するようにしたが、これに限らず、例えば、取得した画像データを解析することによって話者毎の外観的特徴から話者を認識してその位置を特定した後、各話者の音響的特徴を基にして、取得した音声データを解析することによって話者毎の音声データを分離抽出するようにしてもよい。すなわち、上述した第1実施形態、第2実施形態の関係の様に、音響解析を行ってから画像解析を行うか、画像解析を行ってから音響解析を行うかのいずれであってもよい。
(第3実施形態の変形例2)
上述した第3実施形態においては、単一のモノクロマイク5によって集音した音声データを示したが、例えば、会議中の各参加者の個々にマイク(図示省略)を装着しておき、このマイク別に音声データを集音するようにしてもよい。この場合、動画像データの表示時にその画像内の被写体(話者)を特定し、マイク別の音声データの中からその音源(話者)の音声データを選別して当該被写体(話者)と音声データとを対応付けるようにすればよい。このように各参加者の個々にマイクを装着するようにすれば、音声データを解析して話者毎に音声データを分類するクラスタリング処理が不要となる。
(第3実施形態の変形例3)
その他、上述した第3実施形態においては、動画像データの再生中に話者毎にその音声データを分離抽出するようにしたが、動画像データの再生を開始する前処理として、話者毎にその音声データを分離抽出して記憶しておき、動画像データの再生中にその話者の出現(表示タイミング)に同期して、その音声データを出力するようにしてもよい。更に、第3実施形態は音源(被写体)を人物としたが、それに限らないことは勿論である。
(第1~第3実施形態の変形例4)
上述した第1~第3実施形態は、音源(被写体)の音響データのみを分離抽出して出力するようにしたが、音源(被写体)の音響データと、同時集音された雑音を含むその他の音響データとに分離して記憶しておき、音源(被写体)の音響データを出力する際に、雑音などの音響データを合成して出力するようにしてもよい。
(第1~第3実施形態の変形例5)
上述した第1~第3実施形態は、データ処理装置1としてデジタルカメラに適用した場合を示したが、音響データ付き動画像データを外部機器に送信することによってその外部機器をデータの出力先とするようにしてもよい。
図8は、データ処理装置(デジタルカメラ)1から外部機器20に音響データ付き動画像データを送信して外部機器20に出力させる場合を示した図である。
外部機器20は、例えば、テレビ受像装置又は監視モニタ装置を構成するもので、画像データを表示する表示部21の他に、データ処理装置1との間でデータ通常を行う短距離通信部22と、図中、外部機器20の左下角部に配設された左スピーカ23と、外部機器20の右下角部に配設された右スピーカ24が備えられている。なお、短距離通信としては、例えば、無線LAN(Wi-Fi)又はBluetooth(登録商標)を使用するようにすればよい。
この場合、データ処理装置1側では、例えば、上述した第1実施形態を適用したものとすると、図4のフローチャートと基本的には同様の動作を行うが、音響データ付き動画像データを外部機器20から出力させるために、図4のステップA9においては、切出し画像を外部機器20に送信する処理を行い、ステップA10においては、切出し画像の送信に同期して、この音源の音響データを、スピーカ毎に決定した音量制御情報と共に、外部機器20に送信するようにすればよい。この場合、外部機器20側では、受信した音量制御情報に基づいて音響データをスピーカ毎に決定音量で出力するようにすればよい。 このような大型の外部機器20をデータの出力先とすれば、更に迫力感と臨場感のある出力が可能となる。
なお、切出し音響とそれに該当する切出し画像とを管理するためのファイルを作成する処理ステップを、上述のステップA6の後に新たに設け、この新たなステップで作成した管理ファイルを外部機器20に送信して、外部機器20ではそのデータを利用して音声付画像を出力するような構成であってもよい。
また、外部機器20をデータの出力先とする場合にも上述した第2実施形態又は第3実施形態を適用するようにしてもよい。
(第1~第3実施形態の変形例6)
上述した第1~第3実施形態は、2つのスピーカ(第1スピーカ7、第2スピーカ8)を使用してステレオ出力する場合を示したが、例えば、3チャンネル以上のスピーカを使用して、臨場感のあるサラウンド音響を再生するようにしてもよい。この場合、長方形の表示画面の左右方向(長辺方向)に2チャンネルのスピーカを配置する場合に限らず、表示画面の上下方向(短辺方向)にも2チャンネルのスピーカを配置するようにしてもよい。その際、長方形の表示画面が縦長となる姿勢(縦向き姿勢)か、横長となる姿勢(横向き姿勢)に応じて、長辺方向に配置された2台のスピーカを使用するのか、短辺方向に配置された2台のスピーカを使用するのかを選択するようにすればよい。更に、視聴者の背後に2チャンネルのスピーカを配置するようにしてもよい。
また、第1~第3実施形態においては、各スピーカを表示画面に対して固定的に配設したが、これに限らず、視聴者に対して各スピーカを任意の位置に移動可能としてもよい。この場合、各スピーカを表示画面との相対的な位置関係をユーザ操作で任意に設定可能とすればよい。
その他、第1~第3実施形態においては、動画像データを再生するようにしたが、静止画像の再生中にその録音内容を出力するようにしてもよい。また、録画・録音されたデータを再生する場合に限らず、撮影中の画像データや撮影中に集音された音響データを、通信手段を介して取得してリアルタイムに出力する場合であってもよい。
また、データ処理装置1としては、セパレート型デジタルカメラ(本体装置3)に限らず、例えば、テレビ受像装置、監視モニタ装置、パーソナルコンピュータ、PDA(個人向け携帯型情報通信機器)、タブレット端末装置、スマートフォンなどの携帯電話機、電子ゲーム、音楽プレイヤー、電子腕時計などであってもよい。
また、上述した各実施形態において示した“装置”や“部”とは、機能別に複数の筐体に分離されていてもよく、単一の筐体に限らない。また、上述したフローチャートに記述した各ステップは、時系列的な処理に限らず、複数のステップを並列的に処理したり、別個独立して処理したりするようにしてもよい。
以上、この発明の実施形態について説明したが、この発明は、これに限定されるものではなく、特許請求の範囲に記載された発明とその均等の範囲を含むものである。
以下、本願出願の特許請求の範囲に記載された発明を付記する。
(付記)
(請求項1)
請求項1に記載の発明は、
画像データを取得する画像取得手段と、
音響データを取得する音響取得手段と、
前記画像取得手段により取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定手段と、
前記音響取得手段により取得された音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け手段と、
を備えることを特徴とするデータ処理装置。
(請求項2)
請求項2に記載の発明は、請求項1に記載のデータ処理装置において、
前記音響取得手段により取得された音響データを解析することによりその音響的特徴を得る音響解析手段を更に備え、
前記特定手段は、前記音響解析手段により得られた音響的特徴を基にして、前記画像取得手段により取得された画像データを解析することにより当該音響的特徴を持った音源としての被写体を特定する、
ことを特徴とする。
(請求項3)
請求項3に記載の発明は、請求項1に記載のデータ処理装置において、
前記特定手段は、前記画像取得手段により取得された画像データ内の被写体の動作を解析することにより音源としての被写体を特定し、
前記対応付け手段は、前記特定手段により音源として特定された被写体の外観的特徴を基にして、前記音響取得手段により取得された音響データを解析することにより当該外観的特徴を持った被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする。
(請求項4)
請求項4に記載の発明は、請求項1乃至3の何れか1項に記載のデータ処理装置において、
前記画像データを表示する表示手段を、更に設け、
前記対応付け手段は、前記音源として特定された被写体を含む画像データを前記表示手段に表示させると共に、前記選別した音響データを当該表示中の前記被写体に対応付ける、
ことを特徴とする。
(請求項5)
請求項5に記載の発明は、請求項4に記載のデータ処理装置において、
前記画像取得手段により取得された画像データの中から前記特定手段により音源として特定された被写体を含む領域を切り出す切出手段を、更に備え、
前記対応付け手段は、前記切出手段により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得手段により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該表示中の前記被写体に対応付ける、
ことを特徴とする。
(請求項6)
請求項6に記載の発明は、請求項4に記載のデータ処理装置において、
前記表示手段に表示されている画像データの中から音源として任意に指定された被写体を含む領域を切り出す切出手段を、更に備え、
前記対応付け手段は、前記切出手段により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得手段により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする。
(請求項7)
請求項7に記載の発明は、請求項1乃至6の何れか1項に記載のデータ処理装置において、
前記音響取得手段により取得された音響データを解析することにより音源毎の音響データに分離抽出する音響分離手段を、更に備え、
前記対応付け手段は、前記音響分離手段により分離抽出された音源毎の音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける、
ことを特徴とする。
(請求項8)
請求項8に記載の発明は、請求項4に記載のデータ処理装置において、
前記特定手段は、前記表示手段に表示されている画像データを解析することにより当該表示中の画像内に存在している音源としての被写体を特定する、
ことを特徴とする。
(請求項9)
請求項9に記載の発明は、請求項1乃至8の何れか1項に記載のデータ処理装置において、
前記対応付け手段により選別された音響データを出力する音響出力手段と、
前記音響出力手段から出力される前記音響データの出力状態を、前記特定手段により特定された被写体の位置に応じて制御する音響出力制御手段と、
を更に備える、
ことを特徴とする。
(請求項10)
請求項10に記載の発明は、請求項9に記載のデータ処理装置において、
前記音響出力手段は、異なる位置に配置された複数のスピーカを有し、
前記音響出力制御手段は、前記音響データの音量を、前記特定手段により特定された被写体の位置に応じて前記スピーカ毎に制御する、
ことを特徴とする。
(請求項11)
請求項11に記載の発明は、請求項9又は10に記載のデータ処理装置において、
前記音響出力制御手段は、前記音響出力手段から出力される前記音響データの出力状態を、前記特定手段により特定された被写体の位置の移動に追従して制御する、
ことを特徴とする。
(請求項12)
請求項12に記載の発明は、請求項9乃至11の何れか1項に記載のデータ処理装置において、
前記音響出力制御手段は、前記音響データを出力させる際に、前記音源として特定された被写体に該当する音響データのみを抽出して出力し、当該音響データと共に集音された他の音響データの出力を抑制する、
ことを特徴とする。
(請求項13)
請求項13に記載の発明は、請求項9乃至11の何れか1項に記載のデータ処理装置において、
前記音響出力制御手段は、前記音響データを出力させる際に、当該音響データと共に集音された他の音響データを合成して出力する、
ことを特徴とする。
(請求項14)
請求項14に記載の発明は、請求項1乃至13の何れか1項に記載のデータ処理装置において、
前記画像データは、広角撮影された画像データであり、
前記音響データは、前記広角画像の撮影に同期して当該広角を網羅する広範囲を集音した音響データである、
ことを特徴とする。
(請求項15)
請求項15に記載の発明は、請求項1乃至14の何れか1項に記載のデータ処理装置において、
前記対応付け手段は、前記音源として特定された被写体と当該被写体に該当する前記音響データとを対応付けた上で、前記被写体を含む画像データと前記被写体に該当する前記音響データとを管理するためのファイルを作成する、
ことを特徴とする。
(請求項16)
請求項16に記載の発明は、
データ処理方装置のデータ処理方法であって、
画像データを取得する処理と、
音響データを取得する処理と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する処理と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける処理と、
を含む、
ことを特徴とする。
(請求項17)
請求項17に記載の発明は、
データ処理方装置のコンピュータに対して、
画像データを取得する機能と、
音響データを取得する機能と、
前記取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する機能と、
前記取得された音響データの中から前記音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける機能と、
を実現させる、
ことを特徴とするプログラムである。
1 データ処理装置
2 撮像装置
3 本体装置
4 広角レンズ(魚眼レンズ)
5 モノクロマイク
6 タッチ表示画面
7 第1スピーカ
8 第2スピーカ
11 制御部
13a プログラムメモリ
13c データメモリ
13d 音響認識用メモリ
13e 画像認識用メモリ
14 タッチ表示部
17 音響出力部
20 外部機器
21 表示部
23 左スピーカ
24 右スピーカ

Claims (13)

  1. 画像データを取得する画像取得手段と、
    音響データを取得する音響取得手段と、
    前記画像取得手段により取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定手段と、
    前記音響取得手段により取得された音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け手段と、
    前記画像データを表示する表示手段と、
    前記表示手段に表示されている画像データの中から音源として任意に指定された被写体を含む領域を切り出す切出手段と、
    を備え
    前記対応付け手段は、前記切出手段により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得手段により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該被写体に対応付ける、
    ことを特徴とするデータ処理装置。
  2. 前記音響取得手段により取得された音響データを解析することによりその音響的特徴を得る音響解析手段を更に備え、
    前記特定手段は、前記音響解析手段により得られた音響的特徴を基にして、前記画像取得手段により取得された画像データを解析することにより当該音響的特徴を持った音源としての被写体を特定する、
    ことを特徴とする請求項1に記載のデータ処理装置。
  3. 前記特定手段は、前記画像取得手段により取得された画像データ内の被写体の動作を解析することにより音源としての被写体を特定し、
    前記対応付け手段は、前記特定手段により音源として特定された被写体の外観的特徴を基にして、前記音響取得手段により取得された音響データを解析することにより当該外観的特徴を持った被写体に該当する音響データを選別して当該被写体に対応付ける、
    ことを特徴とする請求項1に記載のデータ処理装置。
  4. 前記音響取得手段により取得された音響データを解析することにより音源毎の音響データに分離抽出する音響分離手段を備え、
    前記対応付け手段は、前記音響分離手段により分離抽出された音源毎の音響データの中から、前記特定手段により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける、
    ことを特徴とする請求項1乃至3の何れか1項に記載のデータ処理装置。
  5. 前記対応付け手段により選別された音響データを出力する音響出力手段と、
    前記音響出力手段から出力される前記音響データの出力状態を、前記特定手段により特定された被写体の位置に応じて制御する音響出力制御手段と、
    を備えることを特徴とする請求項1乃至4の何れか1項に記載のデータ処理装置。
  6. 前記音響出力手段は、異なる位置に配置された複数のスピーカを有し、
    前記音響出力制御手段は、前記音響データの音量を、前記特定手段により特定された被写体の位置に応じて前記スピーカ毎に制御する、
    ことを特徴とする請求項5に記載のデータ処理装置。
  7. 前記音響出力制御手段は、前記音響出力手段から出力される前記音響データの出力状態を、前記特定手段により特定された被写体の位置の移動に追従して制御する、
    ことを特徴とする請求項5又は6に記載のデータ処理装置。
  8. 前記音響出力制御手段は、前記音響データを出力させる際に、前記音源として特定された被写体に該当する音響データのみを抽出して出力し、当該音響データと共に集音された他の音響データの出力を抑制する、
    ことを特徴とする請求項5乃至7の何れか1項に記載のデータ処理装置。
  9. 前記音響出力制御手段は、前記音響データを出力させる際に、当該音響データと共に集音された他の音響データを合成して出力する、
    ことを特徴とする請求項5乃至7の何れか1項に記載のデータ処理装置。
  10. 前記画像データは、広角撮影された画像データであり、
    前記音響データは、前記広角撮影に同期して当該広角を網羅する広範囲を集音した音響データである、
    ことを特徴とする請求項1乃至9の何れか1項に記載のデータ処理装置。
  11. 前記対応付け手段は、前記音源として特定された被写体と当該被写体に該当する前記音響データとを対応付けた上で、前記被写体を含む画像データと前記被写体に該当する前記音響データとを管理するためのファイルを作成する、
    ことを特徴とする請求項1乃至10の何れか1項に記載のデータ処理装置。
  12. 画像データを表示する表示手段を備えたデータ処理装置が実行するデータ処理方法であって、
    画像データを取得する画像取得処理と、
    音響データを取得する音響取得処理と、
    前記画像取得処理で取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定処理と、
    前記音響取得処理で取得された音響データの中から、前記特定処理で音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け処理と、
    前記画像取得処理で取得された画像データであって前記表示手段に表示されている画像データの中から音源として任意に指定された被写体を含む領域を切り出す切出処理と、
    を含み、
    前記対応付け処理は、前記切出処理で切出された切出し画像を前記表示手段に表示させると共に、前記音響取得処理で取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該被写体に対応付ける、
    ことを特徴とするデータ処理方法。
  13. 画像データを表示する表示手段を備えたデータ処理装置のコンピュータに対して、
    画像データを取得する画像取得機能と、
    音響データを取得する音響取得機能と、
    前記画像取得機能により取得された画像データを解析することにより当該画像内に存在している音源としての被写体を特定する特定機能と、
    前記音響取得機能により取得された音響データの中から、前記特定機能により音源として特定された被写体に該当する音響データを選別して当該被写体に対応付ける対応付け機能と、
    前記画像取得機能で取得された画像データであって前記表示手段に表示されている画像データの中から音源として任意に指定された被写体を含む領域を切り出す切出機能と、
    を実現させ
    前記対応付け機能は、前記切出機能により切出された切出し画像を前記表示手段に表示させると共に、前記音響取得機能により取得された音響データの中から前記切出し画像内に音源として含まれている被写体に該当する音響データを選別して当該被写体に対応付ける、
    ことを特徴とするプログラム。
JP2018116973A 2018-06-20 2018-06-20 データ処理装置、データ処理方法及びプログラム Active JP7100824B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018116973A JP7100824B2 (ja) 2018-06-20 2018-06-20 データ処理装置、データ処理方法及びプログラム
CN201910514660.4A CN110620895A (zh) 2018-06-20 2019-06-13 数据处理装置、数据处理方法以及记录介质
US16/442,217 US20190394423A1 (en) 2018-06-20 2019-06-14 Data Processing Apparatus, Data Processing Method and Storage Medium
JP2022106907A JP7347597B2 (ja) 2018-06-20 2022-07-01 動画編集装置、動画編集方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018116973A JP7100824B2 (ja) 2018-06-20 2018-06-20 データ処理装置、データ処理方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022106907A Division JP7347597B2 (ja) 2018-06-20 2022-07-01 動画編集装置、動画編集方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019220848A JP2019220848A (ja) 2019-12-26
JP7100824B2 true JP7100824B2 (ja) 2022-07-14

Family

ID=68921431

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018116973A Active JP7100824B2 (ja) 2018-06-20 2018-06-20 データ処理装置、データ処理方法及びプログラム
JP2022106907A Active JP7347597B2 (ja) 2018-06-20 2022-07-01 動画編集装置、動画編集方法及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022106907A Active JP7347597B2 (ja) 2018-06-20 2022-07-01 動画編集装置、動画編集方法及びプログラム

Country Status (3)

Country Link
US (1) US20190394423A1 (ja)
JP (2) JP7100824B2 (ja)
CN (1) CN110620895A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10579879B2 (en) * 2016-08-10 2020-03-03 Vivint, Inc. Sonic sensing
US11157738B2 (en) * 2018-11-30 2021-10-26 Cloudminds Robotics Co., Ltd. Audio-visual perception system and apparatus and robot system
CN113450823B (zh) * 2020-03-24 2022-10-28 海信视像科技股份有限公司 基于音频的场景识别方法、装置、设备及存储介质
GB2601114A (en) * 2020-11-11 2022-05-25 Sony Interactive Entertainment Inc Audio processing system and method
US20240073518A1 (en) * 2022-08-25 2024-02-29 Rovi Guides, Inc. Systems and methods to supplement digital assistant queries and filter results
JP7464927B2 (ja) 2022-09-12 2024-04-10 公立大学法人公立はこだて未来大学 通信システム、通信装置、プログラム、及び制御方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009147768A (ja) 2007-12-17 2009-07-02 Hitachi Ltd 映像音声記録装置および映像音声再生装置
JP2009147727A (ja) 2007-12-14 2009-07-02 Sanyo Electric Co Ltd 撮像装置及び画像再生装置
JP2012089954A (ja) 2010-10-15 2012-05-10 Dainippon Printing Co Ltd 会議システム、監視システム、画像処理装置、画像処理方法及び画像処理プログラム等
JP2012151544A (ja) 2011-01-17 2012-08-09 Casio Comput Co Ltd 撮像装置及びプログラム
JP2014195267A (ja) 2014-05-02 2014-10-09 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
JP2015019162A (ja) 2013-07-09 2015-01-29 大日本印刷株式会社 会議支援システム
US20160054895A1 (en) 2014-08-21 2016-02-25 Samsung Electronics Co., Ltd. Method of providing visual sound image and electronic device implementing the same

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009182979A (ja) 2009-04-06 2009-08-13 Ricoh Co Ltd 会議画像再生装置および会議画像再生方法
JP5713782B2 (ja) 2011-04-21 2015-05-07 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2013007851A (ja) 2011-06-23 2013-01-10 Nikon Corp 撮像装置
US9754193B2 (en) * 2013-06-27 2017-09-05 Hewlett-Packard Development Company, L.P. Authenticating a user by correlating speech and corresponding lip shape
KR102072146B1 (ko) * 2013-06-27 2020-02-03 삼성전자주식회사 입체 음향 서비스를 제공하는 디스플레이 장치 및 방법
JP2016010010A (ja) 2014-06-24 2016-01-18 日立マクセル株式会社 音声入出力機能付き撮像装置およびテレビ会議システム
JP6651989B2 (ja) 2015-08-03 2020-02-19 株式会社リコー 映像処理装置、映像処理方法、及び映像処理システム
JP2018032912A (ja) 2016-08-22 2018-03-01 株式会社リコー 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム
CN106817667A (zh) * 2016-11-30 2017-06-09 努比亚技术有限公司 一种实现立体声的方法、装置及移动终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009147727A (ja) 2007-12-14 2009-07-02 Sanyo Electric Co Ltd 撮像装置及び画像再生装置
JP2009147768A (ja) 2007-12-17 2009-07-02 Hitachi Ltd 映像音声記録装置および映像音声再生装置
JP2012089954A (ja) 2010-10-15 2012-05-10 Dainippon Printing Co Ltd 会議システム、監視システム、画像処理装置、画像処理方法及び画像処理プログラム等
JP2012151544A (ja) 2011-01-17 2012-08-09 Casio Comput Co Ltd 撮像装置及びプログラム
JP2015019162A (ja) 2013-07-09 2015-01-29 大日本印刷株式会社 会議支援システム
JP2014195267A (ja) 2014-05-02 2014-10-09 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
US20160054895A1 (en) 2014-08-21 2016-02-25 Samsung Electronics Co., Ltd. Method of providing visual sound image and electronic device implementing the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
劉 玉宇 YUYU LIU,"音と映像の相関を用いた画像分割による話者領域の切り出し Speaker Segmentation Using Audiovisual Correlation 情報処理学会論文誌 トランザクション 情報処理学会論文誌 コンピュータビジョンとイメージメディア Vol.1 No.2", 情報処理学会論文誌 論文誌トランザクション 平成20年度▲1▼ [CD-ROM] (2008-11-15) [CS-NG-2009-00043-004],2008年11月15日

Also Published As

Publication number Publication date
JP2022133366A (ja) 2022-09-13
CN110620895A (zh) 2019-12-27
JP2019220848A (ja) 2019-12-26
JP7347597B2 (ja) 2023-09-20
US20190394423A1 (en) 2019-12-26

Similar Documents

Publication Publication Date Title
JP7100824B2 (ja) データ処理装置、データ処理方法及びプログラム
JP6017854B2 (ja) 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
US9906885B2 (en) Methods and systems for inserting virtual sounds into an environment
US10971188B2 (en) Apparatus and method for editing content
KR102197544B1 (ko) 공간화 오디오를 가진 혼합 현실 시스템
US9940969B2 (en) Audio/video methods and systems
US9949056B2 (en) Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene
TWI496480B (zh) 偕同一可攜式電子裝置用於產生多頻道音訊之系統和方法
WO2021184952A1 (zh) 增强现实处理方法及装置、存储介质和电子设备
JP6016322B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019206186A1 (zh) 唇语识别方法及其装置、增强现实设备以及存储介质
WO2021143574A1 (zh) 增强现实眼镜、基于增强现实眼镜的ktv实现方法与介质
KR20130096983A (ko) 얼굴을 포함하는 영상 처리 방법 및 장치
WO2021129444A1 (zh) 文件聚类方法及装置、存储介质和电子设备
JP6217696B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2022022871A (ja) 処理装置および没入度導出方法
US20240107257A1 (en) Relocation of sound components in spatial audio content
JP7456492B2 (ja) 音声処理装置、音声処理システム、音声処理方法及びプログラム
JP7388188B2 (ja) 発話者認識システム、発話者認識方法、及び発話者認識プログラム
US10986310B2 (en) Information processing apparatus, information processing method, and program
JP2021124526A (ja) 記録装置、記録システム、ファイル生成方法およびプログラム
JP2022112784A (ja) 映像通話装置、及びそれに用いる制御装置、制御方法
CN114531564A (zh) 处理方法及电子设备
JP2019062448A (ja) 画像処理装置、画像処理方法及びプログラム
JP2011004080A (ja) 情報処理装置、生成方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220616

R150 Certificate of patent or registration of utility model

Ref document number: 7100824

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150