JP2017017387A

JP2017017387A - 映像処理装置および映像処理方法

Info

Publication number: JP2017017387A
Application number: JP2015129025A
Authority: JP
Inventors: 慶太有元; Keita Arimoto; 祐高橋; Yu Takahashi; 森　隆志; Takashi Mori; 隆志森
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-06-26
Filing date: 2015-06-26
Publication date: 2017-01-19

Abstract

【課題】複数の収録素材データの表示を適切に切替える。
【解決手段】映像処理装置１０は、相互に同期した音響および動画を含む複数の収録素材データＤにおける当該音響の解析で特定音を検出する特定音検出部４４と、特定音検出部４４が特定音を検出した場合に複数の収録素材データＤのうち一の収録素材データＤから他の収録素材データＤに表示を切替させる素材切替部４６とを具備する。
【選択図】図１

Description

本発明は、音響および動画を処理する技術に関する。

音響と動画とを含む素材を表示する各種の技術が従来から提案されている。例えば特許文献１には、相異なる位置で収録された複数の画像を被写体の動き情報に応じて順次に切替えることでマルチアングル映像を再生する技術が開示されている。

特開２００７−２００９２号公報

しかし、特許文献１の技術では、被写体の動き情報に応じて画像の切替が制御されるから、例えば被写体が静止した場面等の画像内容の変化が少ない場合には画像を適切に切替えることは困難である。以上の事情を考慮して、本発明は、複数の収録素材データの表示を適切に切替えることを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る映像処理装置は、相互に同期した音響および動画を含む複数の収録素材データにおける当該音響の解析で特定音を検出する特定音検出部と、特定音検出部が特定音を検出した場合に複数の収録素材データのうち一の収録素材データから他の収録素材データに表示を切替させる素材切替部とを具備する。以上の構成では、収録素材データの音響から特定音が検出された場合に収録素材データの表示を切替させるから、被写体が実質的に静止した場面等の画像内容の変化が少ない場面でも複数の収録素材データの表示を適切に切替えることが可能である。

本発明の好適な態様において、特定音検出部は、特定の音源の音響を特定音として検出する。以上の態様では、特定の音源の音響（例えば特定の種類の楽器の演奏音）が検出された場合に収録素材データの表示を切替させるから、特定の音源の音響の有無に連動した収録素材データの切替が可能である。

本発明の好適な態様において、特定音検出部は、特定の語句の発話音を特定音として検出する。以上の態様では、特定の語句の発話音が検出された場合に収録素材データの表示を切替させるから、特定の語句の発話に連動した収録素材データの切替が可能である。

本発明の好適な態様において、素材切替部は、特定音検出部が特定音を検出した場合に、当該特定音の音量が最大である収録素材データに表示を切替させる。以上の態様では、特定音の音量が最大である収録素材データに表示を切替させるから、例えば特定音の音源の様子を重点的に収録した収録素材データを優先的に表示させることが可能である。

本発明の好適な態様において、素材切替部は、特定音検出部が特定音を検出した場合に、複数の収録素材データのうち特定の被写体を含む動画の収録素材データに表示を切替させる。以上の態様では、特定の被写体を含む動画の収録素材データに表示を切替させるから、特定の被写体を含む収録素材データを優先的に表示させることが可能である。例えば、特定音の音源を被写体として含む動画の収録素材データに表示を切替させる構成が好適である。

本発明の好適な態様に係る映像処理方法は、コンピュータが、相互に同期した音響および動画を含む複数の収録素材データにおける当該音響の解析で特定音を検出し、特定音を検出した場合に複数の収録素材データのうち一の収録素材データから他の収録素材データに表示を切替させる。以上の映像処理方法によれば、本発明に係る映像処理装置と同様の効果が実現される。

本発明の第１実施形態に係る映像処理装置の構成図である。複数の収録素材データの説明図である。複数の収録素材データを相互に同期させる処理の説明図である。再生画面の模式図である。素材切替部の動作の説明図である。第２実施形態における素材切替部の動作の説明図である。変形例における制御データの説明図である。

＜第１実施形態＞
図１は、第１実施形態の映像処理装置１０の構成図である。映像処理装置１０は、音響（例えば音声や楽音）および動画を処理するためのコンピュータシステムであり、図１に例示される通り、制御装置２２と記憶装置２４と通信装置２６と表示装置３２と放音装置３４とを具備する。例えば携帯電話機やスマートフォン、タブレット端末、パーソナルコンピュータ等の可搬型の情報処理装置で映像処理装置１０は好適に実現され得るが、据置型の情報処理装置で映像処理装置１０を実現することも可能である。

制御装置２２は、映像処理装置１０の各要素を統括的に制御する演算処理装置（例えばＣＰＵ）である。通信装置２６は、複数の収録装置１２と通信する。各収録装置１２は、音響を収音する収音装置と動画を撮像する撮像装置とを具備する映像機器であり、収音装置が収音した音響と撮像装置が撮像した動画とを表すデータ（以下「収録素材データ」という）Ｄを生成する。音響および動画の収録に専用されるデジタルカムコーダ等の映像機器のほか、収録機能を搭載した携帯電話機やスマートフォン等の情報端末が収録装置１２として利用され得る。第１実施形態の通信装置２６は、複数の収録装置１２から収録素材データＤを受信する。具体的には、通信装置２６は、例えばWi-Fi（登録商標）やBluetooth（登録商標）等の公知の近距離無線通信により各収録装置１２から収録素材データＤを受信する。ただし、通信装置２６と各収録装置１２との通信方式は任意であり、例えば通信装置２６が有線で各収録装置１２と通信することも可能である。

記憶装置２４は、例えば磁気記録媒体や半導体記録媒体等の公知の記録媒体で構成され、制御装置２２が実行するプログラムや制御装置２２が使用する各種のデータを記憶する。なお、映像処理装置１０が通信可能なサーバに記憶装置２４（すなわちクラウドストレージ）を設置することも可能である。すなわち、映像処理装置１０から記憶装置２４は省略され得る。

第１実施形態の記憶装置２４は、通信装置２６が複数の収録装置１２から受信した複数の収録素材データＤを記憶する。図２には、通信装置２６が各収録装置１２から受信した複数の収録素材データＤが例示されている。図２に例示される通り、任意の１個の収録素材データＤは、相互に並列に収録された音響および動画を包含する。なお、以下の説明では２個の収録素材データＤ（Ｄ1，Ｄ2）に便宜的に着目するが、映像処理装置１０の処理対象となる収録素材データＤの総数は任意である。

図１に例示された複数の収録装置１２の各々は、例えば相異なる位置で共通の収録対象（被写体）の音響および動画を並列に収録する。例えば、複数の収録装置１２は、音響ホール等の共通の音響空間の相異なる地点に配置されて各々が別個の角度から例えば舞台や観客の様子を収録して収録素材データＤを生成する。図２に例示される通り、音響や動画の収録の開始点は複数の収録素材データＤの間で相違し得る。また、複数の収録素材データＤは、相互に共通の音響（ただし音量等の音響特性は相違し得る）を含有する。

図１の表示装置３２は、制御装置２２から指示された画像を表示する出力機器（例えば液晶表示パネル）である。放音装置３４（例えばスピーカーやヘッドホン）は、制御装置２２から指示された音響を放音する。具体的には、収録素材データＤの動画を表示装置３２が表示するとともに当該収録素材データＤの音響を放音装置３４が放音する。すなわち、表示装置３２および放音装置３４は、収録素材データＤを再生する再生機器として機能する。

制御装置２２は、記憶装置２４に記憶されたプログラムを実行することで、複数の収録素材データＤを処理するための複数の機能（同期処理部４２，特定音検出部４４，素材切替部４６）を実現する。なお、制御装置２２の一部の機能を音響処理または画像処理の専用の電子回路で実現した構成や、制御装置２２の機能を複数の装置に分散した構成も採用され得る。

同期処理部４２は、複数の収録素材データＤを相互に同期させる。複数の収録素材データＤの同期とは、各収録素材データＤの音響および動画の時間軸が複数の収録素材データＤにわたり相互に合致する状態を意味する。すなわち、同期処理部４２は、図３に例示される通り、各収録素材データＤにおける特定の時刻が複数の収録素材データＤにわたり時間軸上の共通の時点となるように各収録素材データＤの時間軸上の位置を調整する。複数の収録素材データＤの同期には公知の技術が任意に採用され得るが、例えば図３の例示からも理解される通り、各収録素材データＤの音響を解析することで複数の収録素材データＤを相互に同期させる構成が好適である。すなわち、各収録素材データＤの音響の時間変動が複数の収録素材データＤにわたり時間軸上で整合するように各収録素材データＤの時間軸上の位置が調整される。

図１の特定音検出部４４は、同期処理部４２が同期させた複数の収録素材データＤにおける音響の解析で特定の音響（以下「特定音」という）を検出する。例えば、複数の収録素材データＤにわたり音響を総合的に解析することで特定音を検出する構成や、事前に選択された１個の収録素材データＤ（例えば収録装置１２の位置等の事情から特定音を包含することが想定される収録素材データＤ）から特定音を検出する構成が好適である。

第１実施形態の特定音検出部４４は、収録素材データＤの音響を解析することで特定の音源（以下「目標音源」という）の音響を特定音として検出する。例えば、音響ホール内で複数の楽器が演奏される演奏会を複数の収録装置１２が収録した場合を想定すると、特定音検出部４４は、特定の種類の楽器を目標音源として特定音（すなわち当該楽器の演奏音）を検出する。

目標音源の音響の検出には公知の技術が任意に採用され得る。例えば、目標音源の音響の傾向を表すＳＶＭ（Support Vector Machine）等の認識モデルに、収録素材データＤの音響から抽出されるＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）等の特徴量を適用することで、目標音源の音響を検出することが可能である。また、収録素材データＤの音響の周波数スペクトルの時系列（スペクトログラム）を表す観測行列を、検出対象の音響の特徴を表す既知の基底行列と各基底の時間変動を表す係数行列とに分解する非負値行列因子分解（ＮＭＦ： Nonnegative Matrix Factorization）により、目標音源の音響を検出することも可能である。

素材切替部４６は、複数の収録素材データＤの各々を順次に切替えて表示装置３２に表示させる。図４は、素材切替部４６が表示装置３２に表示させる画像（以下「再生画面」という）５０の模式図である。図４に例示される通り、第１実施形態の再生画面５０は、表示領域Ａ1と表示領域Ａ2とを包含する。表示領域Ａ1は、相異なる収録素材データＤの動画が表示される複数の単位領域Ｕに区分される。すなわち、複数の収録素材データＤの動画が表示領域Ａ1に並列に表示される。

他方、複数の収録素材データＤから選択された１個の収録素材データＤが表示領域Ａ2に表示される。表示領域Ａ2は、表示領域Ａ1の１個の単位領域Ｕと比較して大面積である。すなわち、表示領域Ａ1に表示された複数の収録素材データＤの何れかが表示領域Ａ2に優先的に表示される。第１実施形態の素材切替部４６は、表示領域Ａ2に表示される収録素材データＤを順次に切替える。したがって、視聴者は、表示領域Ａ1を視認することで複数の収録素材データＤの全体にわたる内容を確認しながら、表示領域Ａ2を視認することで特定の１個の収録素材データＤに注目することが可能である。

第１実施形態の素材切替部４６は、特定音検出部４４が特定音を検出した場合に、表示領域Ａ2に表示される収録素材データＤを切替える。すなわち、表示領域Ａ2の表示対象となる収録素材データＤが特定音を契機として順次に変更される。具体的には、素材切替部４６は、特定音検出部４４が検出した特定音に対応する時点で収録素材データＤの表示を切替える。例えば、素材切替部４６は、収録素材データＤの切替を指示する切替信号を表示装置３２に出力することで、表示領域Ａ2に表示される収録素材データＤを切替える。図５は、第１実施形態の素材切替部４６の動作の説明図である。図５には、各収録素材データＤから検出される特定音と、複数の収録素材データＤ（Ｄ1，Ｄ2）の各々において表示領域Ａ2に表示される区間（選択対象）との時間的な関係が例示されている。

図５から理解される通り、素材切替部４６は、特定音の検出が開始された時点ＴSで表示対象の収録素材データＤを切替える。具体的には、第１実施形態の素材切替部４６は、複数の収録素材データＤのうち特定音の音量が最大である１個の収録素材データＤに表示を切替える。図５では、目標音源を重点的に収録した収録素材データＤ2に、収録素材データＤ1と比較して大きい音量で特定音が含有されている状況が想定されている。以上の状況では、表示領域Ａ2に表示される収録素材データＤ1が、特定音の検出を契機として収録素材データＤ2に変更される。

また、素材切替部４６は、特定音検出部４４が特定音を検出しなくなる時点ＴEにおいて、表示領域Ａ2による表示対象を収録素材データＤ2から収録素材データＤ1に変更する。すなわち、収録素材データＤの音響に特定音が有意に含有される区間では収録素材データＤ2の動画が表示領域Ａ2に表示され、特定音が検出されない区間では収録素材データＤ1の動画が表示領域Ａ2に表示される。以上の説明から理解される通り、表示領域Ａ1に表示された複数の収録素材データＤのうち目標音源を重点的に収録した収録素材データＤの動画が優先的に表示領域Ａ2に表示される。なお、以上の説明では、収録素材データＤ1から収録素材データＤ2への切替と収録素材データＤ2から収録素材データＤ1への切替との双方を例示したが、片方向の切替（例えば収録素材データＤ1から収録素材データＤ2への切替）のみを許容することも可能である。

さらに、素材切替部４６は、複数の収録素材データＤのうち特定の１個の収録素材データＤの音響を表示装置３２による画像表示に並行して放音装置３４に放音させる。例えば、音響ホール内の広範にわたる音響を収録可能な位置に設置された所定の収録装置１２が収録した１個の収録素材データＤの音響が放音装置３４から放音される。なお、複数の収録素材データＤの音響を適宜に調整（例えばミキシングやマスタリング）したうえで放音装置３４に放音させることも可能である。収録素材データＤの調整には公知の自動調整技術（オートミキシング）が任意に採用され得る。

以上に説明した通り、第１実施形態では、収録素材データＤの音響から特定音が検出された場合に収録素材データＤの表示を切替えるから、収録素材データＤの動画に画像内容の変化が少ない場合でも複数の収録素材データＤを適切に切替えることが可能である。

第１実施形態では、目標音源の音響が検出された場合に収録素材データＤの表示を切替えるから、目標音源の音響の有無に連動した収録素材データＤの表示切替が可能である。また、第１実施形態では、特定音の音量が最大である収録素材データＤに表示を切替えるから、特定音の音源（目標音源）の様子を重点的に収録した収録素材データＤを優先的に表示領域Ａ2に表示させることが可能である。

＜第２実施形態＞
本発明の第２実施形態について説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態の特定音検出部４４は、目標音源の音響を特定音として検出した。第２実施形態の特定音検出部４４は、複数の収録素材データＤにおける音響を解析することで、特定の語句（以下「目標語句」という）の発話音を特定音として検出する。具体的には、特定音検出部４４は、収録素材データＤの音響に対する音声認識で発話内容を解析し、事前に選定された目標語句の文字列と解析結果の発話内容とを照合することで目標語句の発話音を特定音として検出する。収録素材データＤの音響に対する音声認識には、公知の技術が任意に採用され得る。例えば特開２０１４−２３５２６３号公報に開示された音声認識が好適に利用される。

図６は、第２実施形態における素材切替部４６の動作の説明図である。図６に例示される通り、素材切替部４６は、特定音検出部４４が目標語句の発話音（特定音）を検出した場合に、表示領域Ａ2に表示される収録素材データＤを切替える。具体的には、素材切替部４６は、第１実施形態と同様に、複数の収録素材データＤのうち特定音の音量が最大である１個の収録素材データＤに表示を切替える。すなわち、複数の収録素材データＤのうち目標語句の発話者を重点的に収録した収録素材データＤの動画が優先的に表示領域Ａ2に表示される。なお、収録素材データＤの音響を放音装置３４に放音させる動作は第１実施形態と同様である。

図６では、表示領域Ａ2に表示される収録素材データＤが、特定音の検出を契機として収録素材データＤ1から収録素材データＤ2に変更される場合が例示されている。素材切替部４６は、特定音が検出された時点ＴSから所定の時間（例えば数秒）Ｐが経過した時点ＴEにおいて、表示領域Ａ2での表示対象を収録素材データＤ2から収録素材データＤ1に変更する。例えば、複数の遊技者が麻雀を実施している場面を複数の収録装置１２が収録する状況を想定し、例えば「ロン」という目標語句の発話音を特定音として検出する場合を想定する。表示領域Ａ2に表示される収録素材データＤは、遊技の全体的な様子を収録した収録素材データＤ1から、遊技者の「ロン」という特定音の発話を契機として、当該遊技者の表情や手牌を重点的に収録した収録素材データＤ2に変更される。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、目標語句の発話音が検出された場合に収録素材データＤの表示を切替えるから、目標語句の発話に連動した収録素材データＤの切替が実現される。

なお、以上の説明では、目標語句の発話音の検出の時点ＴSから所定の時間Ｐにわたり収録素材データＤ2を表示領域Ａ2に表示したが、第１実施形態と同様に、特定音が存在する可変長の区間内で収録素材データＤ2を表示領域Ａ2に表示することも可能である。また、目標音源の音響を特定音として検出する第１実施形態において、第２実施形態と同様に、当該特定音の検出の時点ＴSから所定の時間Ｐにわたり収録素材データＤ2を表示領域Ａ2に表示する構成も採用され得る。

＜第３実施形態＞
第１実施形態では、特定音検出部４４が特定音を検出した場合に、当該特定音の音量が最大である収録素材データＤに表示を切替えた。第３実施形態の素材切替部４６は、特定音検出部４４が特定音を検出した場合に、複数の収録素材データＤのうち特定の被写体を含む動画の収録素材データＤに表示を切替える。なお、以下の説明では、第１実施形態と同様に、特定音検出部４４が目標音源の音響（例えば特定の種類の楽器の演奏音）を検出する場合を想定する。

具体的には、素材切替部４６は、複数の収録素材データＤのうち特定音の音源（すなわち目標音源）を被写体として包含する動画の収録素材データＤに表示を切替える。収録素材データＤの動画における目標音源の有無の判別には公知の画像認識が任意に採用され得る。例えば、目標音源（特定の楽器）の画像の統計的な傾向を表象する認識モデルを機械学習により生成し、各収録素材データＤの動画を当該認識モデルに適用する画像認識により目標音源の有無が収録素材データＤ毎に解析され得る。すなわち、特定音を発音する目標音源を重点的に収録した収録素材データＤの動画が優先的に表示領域Ａ2に表示される。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、特定の被写体を含む動画の収録素材データＤに表示を切替えるから、特定の被写体（例えば特定音の音源）を収録した収録素材データＤを優先的に表示させることが可能である。

なお、以上の説明では第１実施形態の構成を基礎としたが、特定の被写体を含む動画の収録素材データＤを優先的に表示させる第３実施形態の構成は、第２実施形態にも同様に適用される。例えば、目標語句の発声者を含む動画の収録素材データＤに表示を切替えることが可能である。目標語句の発声者の認識には公知の技術（話者識別技術や顔認識技術）が任意に採用され得る。以上の構成によれば、例えば特定の発話者（例えば子供）を被写体として含む区間を複数の収録素材データＤから抽出して相互に連結した動画を表示装置３２に表示させることが可能である。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、表示装置３２の表示領域Ａ2に動画が表示される収録素材データＤを順次に切替えたが、収録素材データＤの表示を切替えるための制御データＣを素材切替部４６が生成することも可能である。図７は、制御データＣの模式図である。図７に例示される通り、制御データＣは、収録素材データＤの表示を切替える切替点の時刻（ＴS1，ＴS2，……）と、当該切替点での切替先の収録素材データＤとを、時間軸上の複数の切替点の各々について指定する時系列データである。素材切替部４６は、特定音検出部４４が検出した特定音に対応する時点（例えば特定音の始点や終点）を切替点として、切替先の収録素材データＤ（例えば特定音の音量が最大である収録素材データＤや特定の被写体を含む動画の収録素材データＤ）を指定する制御データＣを生成する。複数の収録素材データＤを再生する場面では、制御データＣが指定する各切替点において収録素材データＤの切替が実行される。

また、特定音検出部４４が検出した特定音に対応した時点で動画が切替わる１個の動画ファイルを、複数の収録素材データＤから抽出した各区間を時間軸上で相互に連結することで素材切替部４６が生成（すなわち動画編集）することも可能である。素材切替部４６が生成した動画ファイル（マルチアングル映像）は、例えば映像処理装置１０のファイル出力部から、半導体メモリまたは光ディスク等の記録媒体や外部の情報端末に出力され得る。

以上の説明から理解される通り、素材切替部４６は、特定音が検出された場合に収録素材データＤの表示を切替させる要素として包括的に表現され、表示装置３２による表示対象の収録素材データＤを画像表示に並行して実時間的に切替える要素（第１実施形態から第３実施形態）のほか、収録素材データＤの表示の切替を制御する制御データＣを生成する要素や、特定音に対応する時点で表示が切替わる収録素材データＤを複数の収録素材データＤの編集により生成する要素も包含する。

（２）第１実施形態では目標音源の音響を特定音として例示し、第２実施形態では目標語句の発話音を特定音として例示したが、特定音は以上の例示に限定されない。例えば、音響的な特徴量（例えば音量や音高）が所定の条件を充足する音響を特定音として特定音検出部４４が検出することも可能である。例えば、音量が所定の閾値を上回る音響を特定音として検出する構成や、音高が所定の閾値を上回る音響を特定音として検出する構成が採用され得る。以上の例示から理解される通り、特定音は、収録素材データＤの切替の契機として検出可能な音響として包括的に表現される。

（３）前述の各形態では、映像処理装置１０に接続された収録装置１２から複数の収録素材データＤを取得したが、複数の収録素材データＤを取得するための構成は以上の例示に限定されない。例えば、光ディスク等の可搬型の記録媒体から複数の収録素材データＤを取得する構成や、インターネット等の通信網を介して複数の収録素材データＤを取得する構成も採用され得る。また、前述の各形態では、同期処理部４２が複数の収録素材データＤを相互に同期させる構成を例示したが、相互に同期する複数の収録素材データＤを映像処理装置１０が取得する構成も採用され得る。すなわち、複数の収録素材データＤを相互に同期させるための構成（同期処理部４２）は映像処理装置１０から省略され得る。

（４）収録装置１２の収音装置と撮像装置とを別体として相互に離間させることも可能である。例えば、演奏会や講演会等のイベントを想定すると、演奏者や講演者等の発音源の近傍に収音装置を設置することで明瞭な音響を収録する一方、舞台から離間した位置に撮像装置を設置することでイベントの全体的な様子を広角で撮像することが可能である。

（５）前述の各形態で例示した映像処理装置１０は、前述の通り制御装置２２とプログラムとの協働で実現される。各形態のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、以上に例示したプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。

（６）本発明は、前述の各形態に係る映像処理装置１０の動作方法（映像処理方法）としても本発明は特定される。具体的には、本発明の好適な態様に係る映像処理方法は、コンピュータ（相互の別体の複数の装置で構成されたコンピュータシステムを含む）が、相互に同期した音響および動画を含む複数の収録素材データＤにおける当該音響の解析で特定音を検出し、特定音を検出した場合に複数の収録素材データＤのうち一の収録素材データＤから他の収録素材データＤに表示を切替させる。

１０……映像処理装置、１２……収録装置、２２……制御装置、２４……記憶装置、２６……通信装置、３２……表示装置、３４……放音装置、４２……同期処理部、４４……特定音検出部、４６……素材切替部、５０……再生画面。

Claims

相互に同期した音響および動画を含む複数の収録素材データにおける当該音響の解析で特定音を検出する特定音検出部と、
前記特定音検出部が前記特定音を検出した場合に前記複数の収録素材データのうち一の収録素材データから他の収録素材データに表示を切替させる素材切替部と
を具備する映像処理装置。
前記特定音検出部は、特定の音源の音響を前記特定音として検出する
請求項１の映像処理装置。
前記特定音検出部は、特定の語句の発話音を前記特定音として検出する
請求項１の映像処理装置。
前記素材切替部は、前記特定音検出部が前記特定音を検出した場合に、当該特定音の音量が最大である収録素材データに表示を切替させる
請求項１から請求項３の何れかの映像処理装置。
前記素材切替部は、前記特定音検出部が前記特定音を検出した場合に、前記複数の収録素材データのうち特定の被写体を含む動画の収録素材データに表示を切替させる
請求項１から請求項３の何れかの映像処理装置。
コンピュータが、
相互に同期した音響および動画を含む複数の収録素材データにおける当該音響の解析で特定音を検出し、
前記特定音を検出した場合に前記複数の収録素材データのうち一の収録素材データから他の収録素材データに表示を切替させる
映像処理方法。