JP6693180B2

JP6693180B2 - 収録データ解析方法および収録データ解析装置

Info

Publication number: JP6693180B2
Application number: JP2016045131A
Authority: JP
Inventors: 祐高橋
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-03-09
Filing date: 2016-03-09
Publication date: 2020-05-13
Anticipated expiration: 2036-03-09
Also published as: WO2017154723A1; US20190005984A1; US10629240B2; JP2017161683A

Description

本発明は、収録データを解析する技術に関する。

画像や音声を含む複数の収録データの相互間の時間的な関係を解析する技術が従来から提案されている。例えば特許文献１には、撮影位置が異なる複数の撮像装置による画像の撮影時に録音された複数の音声データを解析することで、当該複数の画像を同期するための時間ずれ情報を生成する技術が開示されている。具体的には、２つの音声データ間の相互相関関数が最大となるずれ時間に応じて時間ずれ情報が生成される。

特開２００８−１９３５６１号公報

しかし、特許文献１の技術では、２つの音声データの相互相関関数が最大値をとるずれ時間を求めて画像データを同期させるから、例えば音声データに残響や雑音が含まれる場合は、相互相関関数の最大値から算出したずれ時間と現実のずれ時間との誤差が大きくなる可能性がある。以上の事情を考慮して、本発明は、収録データ間の時間差を高精度に特定することを目的とする。

以上の課題を解決するために、本発明に係る収録データ解析方法は、コンピュータが、Ｎ個（Ｎは３以上の自然数）の収録データを循環的に配列したときに相前後する２個の収録データで構成されるＮ個の収録データ対の各々について、当該収録データ対の２個の収録データの各々における収録対象の時間変化を表す時間信号の時間差に関する複数の候補値を算定し、Ｎ個の収録データ対にわたる候補値の合計値が０に近づくように、Ｎ個の収録データ対の各々における複数の候補値の何れかを当該収録データ対における２個の収録データ間の時間差として特定する。以上の方法では、Ｎ個の収録データ対にわたる時間差の候補値の合計値が０に近づくように、Ｎ個の収録データ対の各々における複数の候補値の何れかが当該収録データ対における２個の収録データ間の時間差として特定される。２個の収録データ間から特定された唯一の時間差を確定値として採用する方法、例えば２個の収録データ間の時間信号の相互相関が最大となる時間差を収録データ間の時間差として確定する方法では、時間信号に雑音が含まれる場合に、収録データ間の時間差に誤差が発生する可能性がある。本発明の前述の態様では、各収録データ対について複数の候補値の何れかが２個の収録データ間の時間差として特定されるから、収録データ間の時間差を高精度に特定することが可能である。つまり、収録データ間の時間差と現実の時間差との誤差を小さくすることが可能である。

本発明の好適な態様において、複数の候補値の算定においては、各収録データ対の２個の収録データの間における時間信号の相互相関に応じて、当該収録データ対の複数の候補値を算定する。以上の方法では、２個の収録データ間の時間差に関する複数の候補値が時間信号の相互相関に応じて算定される。したがって、相互相関以外の指標に応じて複数の候補値を算定する方法と比較して、収録データ間の時間差の複数の候補値を簡便に算定することができる。

本発明の好適な態様において、複数の候補値の算定においては、２個の収録データの間における時間信号の相互相関の絶対値を平滑化したときの極大点における時間差を候補値として特定する。以上の方法では、時間差に関する複数の候補値は、相前後する２個の収録データについて算出した相互相関の絶対値を平滑化して算定される。平滑化せずに相互相関の絶対値の数値の降順で時間差の複数の候補値を算定する方法では、相互相関の絶対値が最大となる時間差の周辺の範囲内に複数の候補値が局在し得るから、例えば雑音等に由来して相互相関が局所的に増大する場合には、その近傍から局所的に複数の候補値が特定される可能性がある。相互相関の絶対値を平滑化したときの極大点における時間差を候補値として特定する前述の方法によれば、複数の候補値が分散されるから、例えば雑音等に起因して相互相関が最大となる場合でも、２個の収録データの適正な時間差を含むように複数の候補値を特定すること（ひいては時間差を高精度に特定すること）が可能である。

本発明の好適な態様において、時間信号は、音響を収録対象として収録された音響信号である。以上の方法では、音響信号の時間差に関する複数の候補値が算定される。したがって、動画等の時間信号は収録条件（例えば撮影位置）に応じた時間変動の相違が大きいが、音響信号は収録条件に応じた時間変動の相違が小さいから、複数の収録データの間の時間差を高精度に特定できるという利点がある。

本発明の好適な態様に係る収録データ解析装置は、Ｎ個（Ｎは３以上の自然数）の収録データを循環的に配列したときに相前後する２個の収録データで構成されるＮ個の収録データ対の各々について、当該収録データ対の２個の収録データの各々における収録対象の時間変化を表す時間信号の時間差に関する複数の候補値を算定する候補算定部と、Ｎ個の収録データ対にわたる候補値の合計値が０に近づくように、Ｎ個の収録データ対の各々における複数の候補値の何れかを当該収録データ対における２個の収録データ間の時間差として特定する解析処理部とを具備する。以上の構成では、Ｎ個の収録データ対にわたる時間差の候補値の合計値が０に近づくように、Ｎ個の収録データ対の各々における複数の候補値の何れかが当該収録データ対における２個の収録データ間の時間差として特定される。２個の収録データ間から特定された唯一の時間差を確定値として採用する構成、例えば２個の収録データ間の時間信号の相互相関が最大となる時間差を収録データ間の時間差として確定する構成では、時間信号に雑音が含まれる場合に、収録データ間の時間差に誤差が発生する可能性がある。本発明の前述の態様では、各収録データ対について複数の候補値の何れかが２個の収録データ間の時間差として特定されるから、収録データ間の時間差を高精度に特定することが可能である。つまり、収録データ間の時間差と現実の時間差との誤差を小さくすることが可能である。

第１実施形態に係る収録データ編集システムの構成図である。Ｎ個の収録データ対における時間差の説明図である。収録データ対の相互相関の絶対値の説明図である。平滑化後の相互相関の説明図である。制御装置がコンテンツを生成する処理のフローチャートである。第２実施形態に係るＮ個の収録データ対における時間差の説明図である。Ｎ個の収録データ対の異なる順列における時間差の説明図である。制御装置がコンテンツを生成する処理のフローチャートである。

＜第１実施形態＞
図１は、第１実施形態に係る収録データ編集システム１０の構成図である。収録データ編集システム１０は、音響（例えば音声や楽音）および動画を処理するためのコンピュータシステムであり、図１に例示される通り、制御装置２２と記憶装置２４と通信装置２６と表示装置３２と放音装置３４と操作装置３６とを具備する。例えば携帯電話機やスマートフォン、タブレット端末、パーソナルコンピュータ等の可搬型の情報処理装置で収録データ編集システム１０は好適に実現され得るが、据置型の情報処理装置で収録データ編集システム１０を実現することも可能である。

制御装置２２は、収録データ編集システム１０の各要素を統括的に制御する演算処理装置（例えばＣＰＵ）である。通信装置２６は、複数（Ｎ個）の収録装置１２と通信する（Ｎは３以上の自然数）。各収録装置１２は、音響を収音する収音装置と動画を撮像する撮像装置とを具備する映像機器であり、収音装置が収音した音響と撮像装置が撮像した動画とを表すデータ（以下「収録データ」という）Ｘを生成する。音響および動画の収録に専用されるデジタルカムコーダ等の映像機器のほか、収録機能を搭載した携帯電話機やスマートフォン等の情報端末が収録装置１２として利用され得る。第１実施形態の通信装置２６は、Ｎ個の収録装置１２から収録データＸを受信する。具体的には、通信装置２６は、例えばWi-Fi（登録商標）やBluetooth（登録商標）等の公知の近距離無線通信により各収録装置１２から収録データＸを受信する。ただし、通信装置２６と各収録装置１２との通信方式は任意であり、例えば通信装置２６が有線で各収録装置１２と通信することも可能である。

記憶装置２４は、例えば磁気記録媒体や半導体記録媒体等の公知の記録媒体で構成され、制御装置２２が実行するプログラムや制御装置２２が使用する各種のデータを記憶する。第１実施形態の記憶装置２４は、通信装置２６が各収録装置１２から受信したＮ個の収録データＸ（Ｘ1，Ｘ2，……，ＸN）を記憶する。Ｎ個の収録データＸをあらかじめ記憶装置２４に保存しておくことも可能である。この場合、収録データ編集システム１０から通信装置２６は省略され得る。また、収録データ編集システム１０が通信可能なサーバに記憶装置２４（すなわちクラウドストレージ）を設置することも可能である。この場合、収録データ編集システム１０から記憶装置２４は省略され得る。

Ｎ個の収録装置１２の各々は、例えば相異なる位置で共通の収録対象（被写体）の音響および動画を並列に収録する。例えば、音響ホール等の共通の音響空間の相異なる地点に複数の収録装置１２が配置されて各々が別個の角度から例えば舞台や観客の様子を収録して収録データＸを生成する。第１実施形態の収録データＸは、収音装置が収音した音響を表す音響信号と撮像装置が撮像した動画を表す画像信号とを含む。例えば、舞台に設置された放音装置（例えばスピーカー）から舞台で行われる演劇用の楽曲の演奏音が再生されている場合、各収録装置１２が収録する収録データＸの音響には、演奏音（ただし音量等の音響特性は相違し得る）が共通に含有される。各収録装置１２の利用者は、自身の収録装置１２による収録を別々に開始する。したがって、音響や動画の収録の開始点は、Ｎ個の収録データＸの間で厳密には一致せず、収録データＸ毎に相違し得る。つまり、Ｎ個の収録データＸには、時間差がある。なお、第１実施形態では、複数の収録データＸの全部にわたって収録期間は時間軸上で部分的に重複する場合を便宜的に想定する。

図１の表示装置３２（例えば液晶表示パネル）は、制御装置２２から指示された画像を表示する。放音装置３４（例えばスピーカーやヘッドホン）は、制御装置２２から指示された音響を放音する。操作装置３６は、利用者からの指示を受付ける入力機器であり、例えば利用者による操作を検知する複数の操作子や表示装置３２の表示面に対する利用者の接触を検知するタッチパネルで構成される。

制御装置２２は、記憶装置２４に記憶されたプログラムを実行することで、Ｎ個の収録データＸを処理するための複数の機能（収録データ解析部４０，編集処理部４６）を実現する。なお、制御装置２２の一部の機能を音響処理または画像処理の専用の電子回路で実現した構成や、制御装置２２の機能を複数の装置に分散した構成も採用され得る。

収録データ解析部４０は、図２に例示される通り、収録装置１２が生成したＮ個の収録データＸ（Ｘ1〜ＸN）を循環的に配列したときに相前後する２個の収録データＸ（Ｘi，Ｘj）間の時間差Ｏij（ｉ,ｊ＝１〜Ｎ，ｉ≠ｊ）を特定する。Ｎ個の収録データＸ1〜ＸNの循環的な配列とは、Ｎ個の収録データＸ1〜ＸNを直列に配列するとともに最後の収録データＸNに先頭の収録データＸ1を後続させた配列（環状配列）を意味する。したがって、Ｎ個の収録データＸ1〜ＸNの循環的な配列には、相前後する２個の収録データＸ（Ｘi，Ｘj）で構成されるＮ個の対（以下「収録データ対」という）Ｐijが包含される。すなわち、数値ｉと数値ｊとの組合せは、（ｉ,ｊ）＝（１,２），（２,３），……（Ｎ−１,Ｎ），（Ｎ,１）のＮ通りである。図２から理解される通り、時間差Ｏijは、収録データＸiを基準としたときの収録データＸjの相対的な時間（オフセット）を意味する。なお、循環的に配列されたＮ個の収録データＸの順列は任意である。

図１に例示される通り、第１実施形態の収録データ解析部４０は、候補算定部４２と解析処理部４４とを具備する。候補算定部４２は、Ｎ個の収録データＸ（Ｘ1，Ｘ2，……，ＸN）を循環的に配列したときに相前後する２個の収録データＸで構成されるＮ個の収録データ対Ｐijの各々について、当該収録データ対Ｐijの２個の収録データＸの各々における音響信号の時間差に関する複数の候補値を算定する。収録データ対Ｐijについて算定された複数の候補値の何れかが確定的な時間差Ｏijとして採択される。

候補算定部４２は、具体的には、Ｎ個の収録データ対Ｐijの各々について、収録データＸiと収録データＸjとの間における音響信号の相互相関Ｃij(τ)の絶対値|Ｃij(τ)|に応じて複数の候補値を算定する。相互相関Ｃij(τ)は、以下の数式(１)で表現される通り、収録データＸiに含まれる音響信号ｙi(ｔ)の始点と収録データＸjに含まれる音響信号ｙj(ｔ)の始点とを時間軸上で一致させてから、音響信号ｙi(ｔ)に対する音響信号ｙj(ｔ)の時間差（時間軸上のシフト量）τを変数として両者間の時間波形の相関の程度を示した数値列である。なお、時間差τは、負の数値もとり得る。したがって、例えば、収録データＸjが時間軸上で収録データＸiの後方に位置する場合に時間差Ｏijは正数となり、収録データＸjが時間軸上で収録データＸiの前方に位置する場合に時間差Ｏijは負数となる。

また、相互相関Ｃij(τ)は、数式(２)で表現される通り、音響信号ｙi(ｔ)の周波数スペクトルＹi(ｆ)と音響信号ｙj(ｔ)の周波数スペクトルＹj(ｆ)とのクロススペクトルの逆フーリエ変換（IFFT）で算出することも可能である。ｆは周波数を意味し、Ｙi^＊(ｆ)は、Ｙi(ｆ)の複素共役である。数式(２)の演算により相互相関Ｃij(τ)を算定する構成によれば、数式(１)を演算する構成と比較して、相互相関Ｃij(τ)を算出する計算量を低減できるという利点がある。

図３は、任意の１個の収録データ対Ｐijについて算定された相互相関Ｃij(τ)の絶対値|Ｃij(τ)|の説明図である。絶対値|Ｃij(τ)|は、音響信号ｙi(ｔ)の時間波形と音響信号ｙj(ｔ)の時間波形との相関が高いほど、大きい値をとり得る。前述した通り、収録データＸは収録期間が時間軸上で部分的に重複しているので、収録データＸの各々に含まれる音響には、時間軸上で部分的に共通の音響（実演用の楽曲の演奏音）成分が含有されている。したがって、収録データ対Ｐijの相互相関Ｃij(τ)の絶対値|Ｃij(τ)|が最大となる時間差τが、当該収録データの時間差Ｏijとなり得る。しかし、実際には、収録データＸに含まれる音響に雑音が含有されている場合など、相互相関Ｃij(τ)の絶対値|Ｃij(τ)|が最大となる時間差τを収録データ対Ｐijの時間差Ｏijとして確定すると誤差が発生する可能性がある。第１実施形態ではこの問題を解決するために、相互相関Ｃij(τ)に応じて算定される複数の候補値Ｄの何れかを２個の収録データＸ間の時間差Ｏijとして特定する構成を採用する。

図１の候補算定部４２は、複数の候補値Ｄの算定において、具体的には、算出した相互相関Ｃij(τ)の絶対値|Ｃij(τ)|を平滑化（例えば移動平均）し、平滑化後の相互相関Ｃij_s(τ)からＭ個の候補値Ｄを特定する（Ｍは２以上の自然数）。図４は、平滑化後の相互相関Ｃij_s(τ)の説明図である。Ｍ個の候補値Ｄ（Ｄ1，Ｄ2，……，ＤM）は、図４に例示される通り、相互相関Ｃij_s(τ)におけるＭ個の極大点の各々における時間差τであり、収録データ対Ｐijの時間差Ｏijの候補である。Ｍ個の極大点とは、複数の極大点のうち、例えば極大値の降順でＭ番目までの極大点や、極大値が閾値を上回るＭ個の極大点である。閾値を上回るＭ個の極大点を特定した場合、収録データ対Ｐij毎に候補値Ｄの総数Ｍは異なり得る。なお、閾値は、実験的または統計的に選定される。候補値Ｄの総数Ｍは任意であり、候補値Ｄの総数が少ないほど制御装置２２の処理負荷を低減することが可能である。

図３に例示される通り、相互相関Ｃij(τ)の絶対値|Ｃij(τ)|が最大となる時間差τの周辺の範囲では局所的に絶対値|Ｃij(τ)|が大きい数値となる傾向がある。したがって、仮に平滑化せずに相互相関Ｃij(τ)の絶対値|Ｃij(τ)|の降順で時間差ＯijのＭ個の候補値Ｄを算定すると、例えば雑音等に由来して相互相関Ｃij(τ)の絶対値|Ｃij(τ)|が局所的に増大する場合に、その近傍から局所的に複数の候補値Ｄが特定される可能性がある。第１実施形態では、図４に例示される通り、平滑化後の相互相関Ｃij_s(τ)の極大点における時間差τを候補値Ｄとして特定するから、複数の候補値Ｄが分散される。すなわち、例えば雑音等に起因して相互相関Ｃij(τ)の絶対値|Ｃij(τ)|が最大となる場合でも、２個の収録データＸの適正な時間差Ｏijを含むように複数の候補値Ｄを特定すること（ひいては時間差Ｏijを高精度に特定すること）が可能である。もっとも、複数の候補値Ｄの局在が特段の問題とならない場合には、相互相関Ｃij(τ)の絶対値|Ｃij(τ)|から複数の候補値Ｄを特定することも可能である。以上に説明した通り、第１実施形態では、収録データ対Ｐijの音響信号ｙ(ｔ)の相互相関Ｃij(τ)に応じて複数の候補値Ｄを算定するので、相互相関Ｃij(τ)以外の指標に応じて複数の候補値Ｄを算定する構成と比較して、収録データＸ間の時間差τの複数の候補値Ｄを簡便に算定することができるという利点がある。

図１の解析処理部４４は、Ｎ個の収録データ対Ｐijの各々について、Ｍ個の候補値Ｄの何れかを収録データ対Ｐijにおける２個の収録データＸ間の時間差Ｏijとして特定する。

図２から理解される通り、Ｎ個の収録データ対にわたる適正な時間差Ｏijの合計値Ｓ（Ｓ＝Ｏ12＋Ｏ23＋……＋ＯN1）は０になる。したがって、合計値Ｓが０に近い候補値Ｄの組合せは、現実の時間差に近いと評価できる。すなわち、相異なる収録データ対Ｐijについて算定されたＮ個の候補値Ｄの合計値Ｓは、候補値Ｄの信頼度を表す指標として利用され得る。

解析処理部４４は、具体的には、Ｎ個の収録データ対Ｐijにわたり、各収録データ対ＰijのＭ個の候補値Ｄ1〜ＤMから１個の候補値Ｄmを選択する全通りの組合せ（すなわちＮ個の候補値Ｄmの組合せ）について、Ｎ個の候補値Ｄmの合計値Ｓを算出し、合計値Ｓが０に最も近くなる候補値Ｄmの組合せ（すなわち、合計値Ｓの絶対値が最小となる候補値Ｄmの組合せ）を特定する。解析処理部４４は、当該特定した組合せに含まれるＮ個の候補値Ｄmの各々を、Ｎ個のデータ対Ｐijの時間差Ｏijとして確定する。

編集処理部４６は、解析処理部４４が確定したＮ個の時間差Ｏijに応じて、Ｎ個の収録データＸを相互に同期させたコンテンツＺを生成する。収録データＸの同期とは、各収録データＸの音響および動画の時間軸をＮ個の収録データＸについて相互に合致させた状態を意味する。編集処理部４６は、具体的には、各収録データＸにおける特定の時刻がＮ個の収録データＸにわたり時間軸上の共通の時点となるように各収録データＸの時間軸上の位置を調整する。すなわち、図２に例示される通り、収録データＸiと収録データＸjとの時間差が、解析処理部４４により算定された時間差Ｏijとなるように、各収録データＸの時間軸上の位置が調整される。

図１の編集処理部４６で生成されたコンテンツＺは、制御装置２２の指示により再生される。具体的には、コンテンツＺの動画は表示装置３２で表示され、コンテンツＺの音響は放音装置３４で放音される。

図５は、制御装置２２がコンテンツＺを生成する処理のフローチャートである。操作装置３６に対する利用者からの指示を契機として図５の処理が開始される。例えば、舞台で実演される演劇の様子を相異なる位置から収録した４個の収録データＸ1〜Ｘ4がある場合、図５の処理を開始すると、候補算定部４２は、４個の収録データ対Ｐij（Ｐ12，Ｐ23，Ｐ34，Ｐ41）の各々について、収録データＸiの音響信号ｙi(ｔ)と収録データＸjの音響信号ｙj(ｔ)との相互相関Ｃij(τ)の絶対値|Ｃij(τ)|を算出する（ＳA1）。候補算定部４２は、４個の収録データ対Ｐijの各々について算出した相互相関Ｃij(τ)の絶対値|Ｃij(τ)|を平滑化する（ＳA2）。候補算定部４２は、４個の収録データ対Ｐijの平滑化後の各相互相関Ｃij_s(τ)について、降順で５番目までの極大点における時間差τを候補値Ｄ1〜Ｄ5として特定する（ＳA3）。ステップＳA1〜ステップＳA3は、複数の候補値Ｄ1〜Ｄ5を算定する処理である。

解析処理部４４は、４個の収録データ対Ｐ12〜Ｐ41にわたり、各収録データ対Ｐの５個の候補値Ｄ1〜Ｄ5から１個の候補値Ｄmを選択する全通りの組合せ（すなわち４個の候補値Ｄmの組合せ）から、任意の１つの組合せを決定する（ＳB1）。解析処理部４４は、決定した組合せにおける４個の候補値Ｄmの合計値Ｓを算出する（ＳB2）。解析処理部４４は、全通りの組合せについて合計値Ｓの算出が完了するまで、ステップＳB1とステップＳB2との処理を繰り返す（ＳB3：ＮＯ）。全組合せの合計値Ｓを算出した場合（ＳB3：ＹＥＳ）、解析処理部４４は、全組合せの合計値Ｓの中で最も０に近い合計値Ｓに対応する４個の候補値Ｄmの各々を、４個の収録データ対Ｐijの時間差Ｏij（Ｏ12，Ｏ23，Ｏ34，Ｏ41）として確定する（ＳB4）。ステップＳB1〜ステップＳB4は、４個の収録データ対Ｐ12〜Ｐ41の時間差Ｏijを特定する処理である。

編集処理部４６は、解析処理部４４が特定した時間差Ｏ12〜Ｏ41に応じて、４個の収録データＸ1〜Ｘ4を相互に同期させる編集処理によりコンテンツＺを生成する（ＳC1）。

以上の説明から理解される通り、第１実施形態では、Ｎ個の収録データ対Ｐijにわたる時間差τの候補値Ｄmの合計値Ｓが０に近づくように、Ｎ個の収録データ対Ｐijの各々における複数の候補値Ｄ1〜ＤMの何れかが当該収録データ対Ｐijにおける２個の収録データＸ（Ｘi，Ｘj）間の時間差Ｏijとして特定される。したがって、２個の収録データＸから特定された唯一の時間差τを確定値（時間差Ｏij）として採用する構成、例えば２個の収録データＸ間の時間信号の相互相関Ｃij(τ)が最大となる時間差τを収録データＸ間の時間差Ｏijとして確定する構成と比較して、収録データＸ間の時間差Ｏijを高精度に特定することが可能である。つまり、収録データＸ間の時間差Ｏijと現実の時間差との誤差を小さくすることが可能である。

＜第２実施形態＞
本発明の第２実施形態について説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図６は、第２実施形態に係るＮ個の収録データ対Ｐijにおける時間差Ｏijの説明図である。第１実施形態では、Ｎ個の収録データＸ（Ｘ1〜ＸN）の全部にわたって収録期間が時間軸上で部分的に重複する場合を例示した。第２実施形態では、Ｎ個から選択された２個の収録データＸが時間軸上で相互に重複しない可能性を想定する。例えば、図６の収録データＸ2は、収録データＸ1とは部分的に重複するけれども収録データＸ5とは時間軸上で重複しない。

ここで、収録データＸiと収録データＸjとが時間軸上で部分的に重複していない収録データ対Ｐijの場合、つまり、収録データ対Ｐijの現実の時間差が収録データＸiの時間長を超えている場合、収録データ対Ｐijの相互相関Ｃij(τ)は、有意な値をとらない。したがって、相互相関Ｃij(τ)から特定される候補値Ｄも有意な値にならない。図６から理解される通り、収録データＸiと収録データＸjとが時間軸上で部分的に重複しない場合でも、相前後する２個の収録データＸが時間軸上で相互に重複するようにＮ個の収録データＸを配列した場合には、第１実施形態で説明した通り、Ｎ個の収録データ対Ｐijにわたる時間差Ｏijの合計値Ｓは０に近づく。しかし、図７の収録データＸ2と収録データＸ5との関係のように、時間軸上で相互に重複しない２個の収録データＸが相前後するようにＮ個の収録データＸを配列した場合には、時間差Ｏijの合計値Ｓは０から離れる。すなわち、第２実施形態では、Ｎ個の収録データＸの配列の順番に応じて候補値Ｄの適否が相違し得る。そこで、第２実施形態では、Ｎ個の収録データＸの配列の順番を相違させたＫ通りの順列Ｑ1〜ＱKの各々について、収録データ対Ｐij毎の候補値Ｄの合計値Ｓを算定する。

第２実施形態における収録データ解析部４０は、第１実施形態と同様に、候補算定部４２と解析処理部４４とを具備する。第２実施形態の候補算定部４２は、Ｎ個の収録データＸ（Ｘ1，Ｘ2，……，ＸN）をＫ通りの順列（円順列）Ｑ1〜ＱKで循環的に配列したときに相前後する２個の収録データＸで構成されるＮ個の収録データ対Ｐijの各々について、当該収録データ対Ｐijの２個の収録データＸの各々における音響信号ｙ(ｔ)の時間差τに関するＭ個の候補値Ｄ（Ｄ1〜ＤM）を算定する。第１実施形態の候補算定部４２は、候補値Ｄの算定において複数の順列Ｑを考慮することは不要であり、任意の１通りの順列についてのみ収録データ対Ｐijの候補値Ｄを算定した。一方で、第２実施形態の候補算定部４２は、Ｋ通りの順列Ｑ1〜ＱKの各々について、収録データ対Ｐijの候補値Ｄを算定する。複数の候補値Ｄは、第１実施形態と同様に、Ｎ個の収録データ対Ｐijの各々について、収録データＸiと収録データＸjとの間における音響信号の相互相関Ｃij(τ)の絶対値|Ｃij(τ)|に応じて算定される。

第２実施形態における解析処理部４４は、第１実施形態と同様に、Ｎ個の収録データ対Ｐijの各々について、Ｍ個の候補値Ｄの何れかを収録データ対Ｐijにおける２個の収録データＸ間の時間差Ｏijとして特定する。具体的には、解析処理部４４は、Ｋ通りの順列Ｑ1〜ＱKの各々について、第１実施形態と同様に、各収録データ対ＰijのＭ個の候補値Ｄ1〜ＤMから１個の候補値Ｄmを選択する全通りの組合せでＮ個の候補値Ｄmの合計値Ｓを算出する。そして、解析処理部４４は、Ｋ通りの順列Ｑ1〜ＱKの各々について候補値Ｄの組合せ毎に算定した合計値Ｓのうち、０に最も近い候補値Ｄmの組合せを特定し、当該組合せに含まれるＮ個の候補値Ｄmの各々をＮ個のデータ対Ｐijの時間差Ｏijとして確定する。編集処理部４６は、第１実施形態と同様に、解析処理部４４が確定したＮ個の時間差Ｏijに応じて、Ｎ個の収録データＸを相互に同期させたコンテンツＺを生成する。

図８は、制御装置２２がコンテンツＺを生成する処理のフローチャートである。操作装置３６に対する利用者からの指示を契機として図８の処理が開始される。例えば、舞台で実演される演劇の様子を相異なる位置から収録した４個の収録データＸ1〜Ｘ4がある場合、図８の処理を開始すると、候補算定部４２は、４個の収録データＸを循環的に配列する６通りの順列Ｑ（Ｑ1〜Ｑ6）から、任意の１つの順列Ｑを決定する（ＳD1）。収録データ解析部４０（候補算定部４２および解析処理部４４）は、決定した順列Ｑについて、第１実施形態と同様に、４個の収録データ対Ｐijの各々について、相互相関Ｃij(τ)の絶対値|Ｃij(τ)|を算出する処理（ＳA1）から候補値Ｄmの合計値Ｓを算出する処理（ＳB2）までを実行する。

解析処理部４４は、候補値Ｄmの全通りの組合せについて合計値Ｓの算出が完了するまで、ステップＳB1およびステップＳB2の処理を繰り返す（ＳB3：ＮＯ）。全組合せの合計値Ｓを算出した場合（ＳB3：ＹＥＳ）、候補算定部４２は、４個の収録データＸを配列した全通りの順列Ｑ1〜Ｑ6について、候補値Ｄmの全組合せの合計値Ｓの算出（ステップＳA1〜ＳB2）が完了したかを判断する（ＳD2）。全順列Ｑ1〜Ｑ6について合計値Ｓを算出した場合（ＳD2：ＹＥＳ）、解析処理部４４は、全順列Ｑ1〜Ｑ6における全組合せの合計値Ｓの中で最も０に近い合計値Ｓに対応する４個の候補値Ｄmの各々を、４個の収録データ対Ｐijの時間差Ｏijとして確定する（ＳB4）。全順列Ｑ1〜Ｑ6について合計値Ｓの算出が完了していない場合（ＳD2：ＮＯ）、候補算定部４２は、未処理の順列Ｑを新たに選択（ＳD1）してステップＳA1〜ＳB3の処理を繰り返す。編集処理部４６は、第１実施形態と同様に、コンテンツＺを生成する（ＳC1）。

以上の説明から理解される通り、候補算定部４２は、Ｎ個の収録データＸの順列Ｑを決定する処理（ステップＳD1およびＳD2）と複数の候補値Ｄ1〜ＤMを算定する処理（ステップＳA1〜ＳA3）とを行い、解析処理部４４は、４個の収録データ対Ｐijの時間差Ｏijを特定する処理（ステップＳB1〜ＳB3およびステップＳB4）を行う。

第２実施形態においても第１実施形態と同様の効果が実現される。第２実施形態では特に、収録データＸの各々が、全部にわたって収録期間が時間軸上で部分的に重複していなくても、時間差Ｏijを適切に特定することが可能である。なお、第１実施形態で例示した、全部の収録データＸ（Ｘ1〜ＸN）にわたって収録期間が時間軸上で部分的に重複する場合においても、第２実施形態で例示した構成により時間差Ｏijを特定することができる。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、収録データ対Ｐijの各収録データＸに含まれる音響信号ｙ(ｔ)の時間差τに応じて複数の候補値Ｄを算定したが、時間差τの算出に使用される信号は音響信号ｙ(ｔ)に限定されない。例えば、各収録データＸの音響に共通の発話内容が含まれる場合は、各収録データＸの発話内容を音声認識により解析し、解析結果を２個の収録データＸ間で比較することで複数の候補値Ｄを算出することも可能である。また、音響信号ｙ(ｔ)から抽出される特徴量（例えば音高）の時間変化を示す時間信号を２個の収録データＸ間で比較する（例えば相互相関Ｃij(τ)を算定する）ことで複数の候補値Ｄを算定してもよい。さらには、収録データ対Ｐijに含まれる動画を表す画像信号から、例えば画像の明度の時間変化を示す時間信号を生成し、２個の収録データＸ間で時間信号を比較することで複数の候補値Ｄを算定することも可能である。以上の説明から理解される通り、複数の候補値Ｄの算定に使用される信号は、収録データ対Ｐijの２個の収録データＸの各々における収録対象（音響または動画）の時間変化を表す時間信号であれば任意である。ただし、音響信号ｙ(ｔ)は収録条件（例えば撮影位置）に応じた時間変動の相違が小さいという傾向を考慮すると、音響信号ｙ(ｔ)を使用した前述の各形態の構成では、動画等の時間信号を使用した構成と比較して、複数の収録データＸ1〜ＸNの間の時間差Ｏijを高精度に特定できるという利点がある。

（２）前述の各形態では、相互相関Ｃij(τ)に応じて収録データ対Ｐijの複数の候補値Ｄを算定したが、複数の候補値Ｄの算定に利用する指標は相互相関Ｃij(τ)に限定されない。例えば正規化相互相関に応じて収録データ対Ｐijの複数の候補値Ｄを算定することも可能である。複数の候補値Ｄの算定に利用する指標は、収録データ対Ｐijの２個の収録データＸの各々における収録対象の時間変化を表す時間信号の時間差が算出できれば任意である。

（３）前述の各形態では、編集処理部４６を収録データ編集システム１０に搭載したが、編集処理部４６を収録データ編集システム１０とは別個のサーバ装置や端末装置に搭載することも可能である。この場合、収録データ編集システム１０は、Ｎ個の収録データと解析処理部４４で特定した時間差Ｏijとをサーバ装置や端末装置に送信する。以上の説明から理解される通り、前述の各形態における収録データ編集システム１０は、Ｎ個の収録データＸについて時間差Ｏijを解析する収録データ解析部４０を具備する装置（すなわち収録データ解析装置）の例示であり、本発明の収録データ解析装置において編集処理（編集処理部４６）は必須ではない。

（４）前述の各形態では、複数の収録装置１２から取得した全部の収録データＸを対象として時間差Ｏijを特定したが、複数の収録装置１２から取得した収録データＸの一部について時間差Ｏijを解析することも可能である。例えば、収録データ解析部４０は、各収録データＸの収録期間（例えば開始時刻と終了時刻）を示す時間情報を収録データＸとともに各収録装置１２から取得し、時間情報が示す収録時間が時間軸上で相互に重複するＮ個の収録データＸを特定して第１実施形態と同様の動作を実行する。すなわち、他の収録データＸに対して時間軸上で重複しないと時間情報から推測される収録データＸが処理対象から除外される。なお、時間情報から各収録データＸの時間的な関係（時間差Ｏij）を特定することも可能であるが、実際には、収録装置１２で計測される時刻には収録装置１２毎に誤差が生じ得るから、前述の各形態の構成で時間差Ｏijを特定する意義はある。以上の構成によれば、時間軸上で他の収録データＸと重複しない収録データＸを処理対象から除外することができるから、収録装置１２が生成した全部の収録データＸを処理対象とする構成と比較して、収録データ解析部４０の処理負荷を軽減することが可能である。

（５）前述の各形態で例示した収録データ解析部４０は、前述の通り制御装置２２とプログラムとの協働で実現される。プログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。

（６）本発明は、前述の各形態に係る収録データ解析部４０の動作方法（収録データ解析方法）としても特定され得る。具体的には、本発明の好適な態様の収録データ解析方法においては、コンピュータ（単体の装置のほか、相互に別体の複数の装置で構成されたコンピュータシステムも含む）が、Ｎ個（Ｎは３以上の自然数）の収録データＸを循環的に配列したときに相前後する２個の収録データＸで構成されるＮ個の収録データ対Ｐijの各々について、当該収録データ対Ｐijの２個の収録データＸの各々における収録対象の時間変化を表す時間信号の時間差に関する複数の候補値Ｄを算定し、Ｎ個の収録データ対Ｐijにわたる候補値Ｄmの合計値Ｓが０に近づくように、Ｎ個の収録データ対Ｐijの各々における複数の候補値Ｄmの何れかを当該収録データ対Ｐijにおける２個の収録データＸ間の時間差Ｏijとして特定する。

１０……収録データ編集システム，１２……収録装置，２２……制御装置，２４……記憶装置，２６……通信装置，３２……表示装置，３４……放音装置，３６……操作装置，４０……収録データ解析部，４２……候補算定部，４４……解析処理部，４６……編集処理部。

Claims

コンピュータが、
Ｎ個（Ｎは３以上の自然数）の収録データを循環的に配列したときに相前後する２個の収録データで構成されるＮ個の収録データ対の各々について、当該収録データ対の前記２個の収録データの各々における収録対象の時間変化を表す時間信号の時間差に関する複数の候補値を算定し、
前記Ｎ個の収録データ対にわたる前記候補値の合計値が０に近づくように、前記Ｎ個の収録データ対の各々における前記複数の候補値の何れかを当該収録データ対における２個の収録データ間の時間差として特定する
収録データ解析方法。
前記複数の候補値の算定においては、前記各収録データ対の前記２個の収録データの間における前記時間信号の相互相関に応じて、当該収録データ対の前記複数の候補値を算定する
請求項１の収録データ解析方法。
前記複数の候補値の算定においては、前記２個の収録データの間における前記時間信号の相互相関の絶対値を平滑化したときの極大点における時間差を前記候補値として特定する
請求項２の収録データ解析方法。
前記時間信号は、音響を前記収録対象として収録された音響信号である
請求項１から請求項３の何れかの収録データ解析方法。
Ｎ個（Ｎは３以上の自然数）の収録データを循環的に配列したときに相前後する２個の収録データで構成されるＮ個の収録データ対の各々について、当該収録データ対の前記２個の収録データの各々における収録対象の時間変化を表す時間信号の時間差に関する複数の候補値を算定する候補算定部と、
前記Ｎ個の収録データ対にわたる前記候補値の合計値が０に近づくように、前記Ｎ個の収録データ対の各々における前記複数の候補値の何れかを当該収録データ対における２個の収録データ間の時間差として特定する解析処理部と
を具備する収録データ解析装置。