JP6693180B2 - 収録データ解析方法および収録データ解析装置 - Google Patents
収録データ解析方法および収録データ解析装置 Download PDFInfo
- Publication number
- JP6693180B2 JP6693180B2 JP2016045131A JP2016045131A JP6693180B2 JP 6693180 B2 JP6693180 B2 JP 6693180B2 JP 2016045131 A JP2016045131 A JP 2016045131A JP 2016045131 A JP2016045131 A JP 2016045131A JP 6693180 B2 JP6693180 B2 JP 6693180B2
- Authority
- JP
- Japan
- Prior art keywords
- recorded data
- recording
- candidate values
- time difference
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000007405 data analysis Methods 0.000 title claims description 23
- 238000012545 processing Methods 0.000 claims description 54
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 25
- 230000008859 change Effects 0.000 claims description 9
- 238000013459 approach Methods 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/36—Monitoring, i.e. supervising the progress of recording or reproducing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/90—Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
- Auxiliary Devices For Music (AREA)
Description
本発明は、収録データを解析する技術に関する。
画像や音声を含む複数の収録データの相互間の時間的な関係を解析する技術が従来から提案されている。例えば特許文献1には、撮影位置が異なる複数の撮像装置による画像の撮影時に録音された複数の音声データを解析することで、当該複数の画像を同期するための時間ずれ情報を生成する技術が開示されている。具体的には、2つの音声データ間の相互相関関数が最大となるずれ時間に応じて時間ずれ情報が生成される。
しかし、特許文献1の技術では、2つの音声データの相互相関関数が最大値をとるずれ時間を求めて画像データを同期させるから、例えば音声データに残響や雑音が含まれる場合は、相互相関関数の最大値から算出したずれ時間と現実のずれ時間との誤差が大きくなる可能性がある。以上の事情を考慮して、本発明は、収録データ間の時間差を高精度に特定することを目的とする。
以上の課題を解決するために、本発明に係る収録データ解析方法は、コンピュータが、N個(Nは3以上の自然数)の収録データを循環的に配列したときに相前後する2個の収録データで構成されるN個の収録データ対の各々について、当該収録データ対の2個の収録データの各々における収録対象の時間変化を表す時間信号の時間差に関する複数の候補値を算定し、N個の収録データ対にわたる候補値の合計値が0に近づくように、N個の収録データ対の各々における複数の候補値の何れかを当該収録データ対における2個の収録データ間の時間差として特定する。以上の方法では、N個の収録データ対にわたる時間差の候補値の合計値が0に近づくように、N個の収録データ対の各々における複数の候補値の何れかが当該収録データ対における2個の収録データ間の時間差として特定される。2個の収録データ間から特定された唯一の時間差を確定値として採用する方法、例えば2個の収録データ間の時間信号の相互相関が最大となる時間差を収録データ間の時間差として確定する方法では、時間信号に雑音が含まれる場合に、収録データ間の時間差に誤差が発生する可能性がある。本発明の前述の態様では、各収録データ対について複数の候補値の何れかが2個の収録データ間の時間差として特定されるから、収録データ間の時間差を高精度に特定することが可能である。つまり、収録データ間の時間差と現実の時間差との誤差を小さくすることが可能である。
本発明の好適な態様において、複数の候補値の算定においては、各収録データ対の2個の収録データの間における時間信号の相互相関に応じて、当該収録データ対の複数の候補値を算定する。以上の方法では、2個の収録データ間の時間差に関する複数の候補値が時間信号の相互相関に応じて算定される。したがって、相互相関以外の指標に応じて複数の候補値を算定する方法と比較して、収録データ間の時間差の複数の候補値を簡便に算定することができる。
本発明の好適な態様において、複数の候補値の算定においては、2個の収録データの間における時間信号の相互相関の絶対値を平滑化したときの極大点における時間差を候補値として特定する。以上の方法では、時間差に関する複数の候補値は、相前後する2個の収録データについて算出した相互相関の絶対値を平滑化して算定される。平滑化せずに相互相関の絶対値の数値の降順で時間差の複数の候補値を算定する方法では、相互相関の絶対値が最大となる時間差の周辺の範囲内に複数の候補値が局在し得るから、例えば雑音等に由来して相互相関が局所的に増大する場合には、その近傍から局所的に複数の候補値が特定される可能性がある。相互相関の絶対値を平滑化したときの極大点における時間差を候補値として特定する前述の方法によれば、複数の候補値が分散されるから、例えば雑音等に起因して相互相関が最大となる場合でも、2個の収録データの適正な時間差を含むように複数の候補値を特定すること(ひいては時間差を高精度に特定すること)が可能である。
本発明の好適な態様において、時間信号は、音響を収録対象として収録された音響信号である。以上の方法では、音響信号の時間差に関する複数の候補値が算定される。したがって、動画等の時間信号は収録条件(例えば撮影位置)に応じた時間変動の相違が大きいが、音響信号は収録条件に応じた時間変動の相違が小さいから、複数の収録データの間の時間差を高精度に特定できるという利点がある。
本発明の好適な態様に係る収録データ解析装置は、N個(Nは3以上の自然数)の収録データを循環的に配列したときに相前後する2個の収録データで構成されるN個の収録データ対の各々について、当該収録データ対の2個の収録データの各々における収録対象の時間変化を表す時間信号の時間差に関する複数の候補値を算定する候補算定部と、N個の収録データ対にわたる候補値の合計値が0に近づくように、N個の収録データ対の各々における複数の候補値の何れかを当該収録データ対における2個の収録データ間の時間差として特定する解析処理部とを具備する。以上の構成では、N個の収録データ対にわたる時間差の候補値の合計値が0に近づくように、N個の収録データ対の各々における複数の候補値の何れかが当該収録データ対における2個の収録データ間の時間差として特定される。2個の収録データ間から特定された唯一の時間差を確定値として採用する構成、例えば2個の収録データ間の時間信号の相互相関が最大となる時間差を収録データ間の時間差として確定する構成では、時間信号に雑音が含まれる場合に、収録データ間の時間差に誤差が発生する可能性がある。本発明の前述の態様では、各収録データ対について複数の候補値の何れかが2個の収録データ間の時間差として特定されるから、収録データ間の時間差を高精度に特定することが可能である。つまり、収録データ間の時間差と現実の時間差との誤差を小さくすることが可能である。
<第1実施形態>
図1は、第1実施形態に係る収録データ編集システム10の構成図である。収録データ編集システム10は、音響(例えば音声や楽音)および動画を処理するためのコンピュータシステムであり、図1に例示される通り、制御装置22と記憶装置24と通信装置26と表示装置32と放音装置34と操作装置36とを具備する。例えば携帯電話機やスマートフォン、タブレット端末、パーソナルコンピュータ等の可搬型の情報処理装置で収録データ編集システム10は好適に実現され得るが、据置型の情報処理装置で収録データ編集システム10を実現することも可能である。
図1は、第1実施形態に係る収録データ編集システム10の構成図である。収録データ編集システム10は、音響(例えば音声や楽音)および動画を処理するためのコンピュータシステムであり、図1に例示される通り、制御装置22と記憶装置24と通信装置26と表示装置32と放音装置34と操作装置36とを具備する。例えば携帯電話機やスマートフォン、タブレット端末、パーソナルコンピュータ等の可搬型の情報処理装置で収録データ編集システム10は好適に実現され得るが、据置型の情報処理装置で収録データ編集システム10を実現することも可能である。
制御装置22は、収録データ編集システム10の各要素を統括的に制御する演算処理装置(例えばCPU)である。通信装置26は、複数(N個)の収録装置12と通信する(Nは3以上の自然数)。各収録装置12は、音響を収音する収音装置と動画を撮像する撮像装置とを具備する映像機器であり、収音装置が収音した音響と撮像装置が撮像した動画とを表すデータ(以下「収録データ」という)Xを生成する。音響および動画の収録に専用されるデジタルカムコーダ等の映像機器のほか、収録機能を搭載した携帯電話機やスマートフォン等の情報端末が収録装置12として利用され得る。第1実施形態の通信装置26は、N個の収録装置12から収録データXを受信する。具体的には、通信装置26は、例えばWi-Fi(登録商標)やBluetooth(登録商標)等の公知の近距離無線通信により各収録装置12から収録データXを受信する。ただし、通信装置26と各収録装置12との通信方式は任意であり、例えば通信装置26が有線で各収録装置12と通信することも可能である。
記憶装置24は、例えば磁気記録媒体や半導体記録媒体等の公知の記録媒体で構成され、制御装置22が実行するプログラムや制御装置22が使用する各種のデータを記憶する。第1実施形態の記憶装置24は、通信装置26が各収録装置12から受信したN個の収録データX(X1,X2,……,XN)を記憶する。N個の収録データXをあらかじめ記憶装置24に保存しておくことも可能である。この場合、収録データ編集システム10から通信装置26は省略され得る。また、収録データ編集システム10が通信可能なサーバに記憶装置24(すなわちクラウドストレージ)を設置することも可能である。この場合、収録データ編集システム10から記憶装置24は省略され得る。
N個の収録装置12の各々は、例えば相異なる位置で共通の収録対象(被写体)の音響および動画を並列に収録する。例えば、音響ホール等の共通の音響空間の相異なる地点に複数の収録装置12が配置されて各々が別個の角度から例えば舞台や観客の様子を収録して収録データXを生成する。第1実施形態の収録データXは、収音装置が収音した音響を表す音響信号と撮像装置が撮像した動画を表す画像信号とを含む。例えば、舞台に設置された放音装置(例えばスピーカー)から舞台で行われる演劇用の楽曲の演奏音が再生されている場合、各収録装置12が収録する収録データXの音響には、演奏音(ただし音量等の音響特性は相違し得る)が共通に含有される。各収録装置12の利用者は、自身の収録装置12による収録を別々に開始する。したがって、音響や動画の収録の開始点は、N個の収録データXの間で厳密には一致せず、収録データX毎に相違し得る。つまり、N個の収録データXには、時間差がある。なお、第1実施形態では、複数の収録データXの全部にわたって収録期間は時間軸上で部分的に重複する場合を便宜的に想定する。
図1の表示装置32(例えば液晶表示パネル)は、制御装置22から指示された画像を表示する。放音装置34(例えばスピーカーやヘッドホン)は、制御装置22から指示された音響を放音する。操作装置36は、利用者からの指示を受付ける入力機器であり、例えば利用者による操作を検知する複数の操作子や表示装置32の表示面に対する利用者の接触を検知するタッチパネルで構成される。
制御装置22は、記憶装置24に記憶されたプログラムを実行することで、N個の収録データXを処理するための複数の機能(収録データ解析部40,編集処理部46)を実現する。なお、制御装置22の一部の機能を音響処理または画像処理の専用の電子回路で実現した構成や、制御装置22の機能を複数の装置に分散した構成も採用され得る。
収録データ解析部40は、図2に例示される通り、収録装置12が生成したN個の収録データX(X1〜XN)を循環的に配列したときに相前後する2個の収録データX(Xi,Xj)間の時間差Oij(i,j=1〜N,i≠j)を特定する。N個の収録データX1〜XNの循環的な配列とは、N個の収録データX1〜XNを直列に配列するとともに最後の収録データXNに先頭の収録データX1を後続させた配列(環状配列)を意味する。したがって、N個の収録データX1〜XNの循環的な配列には、相前後する2個の収録データX(Xi,Xj)で構成されるN個の対(以下「収録データ対」という)Pijが包含される。すなわち、数値iと数値jとの組合せは、(i,j)=(1,2),(2,3),……(N−1,N),(N,1)のN通りである。図2から理解される通り、時間差Oijは、収録データXiを基準としたときの収録データXjの相対的な時間(オフセット)を意味する。なお、循環的に配列されたN個の収録データXの順列は任意である。
図1に例示される通り、第1実施形態の収録データ解析部40は、候補算定部42と解析処理部44とを具備する。候補算定部42は、N個の収録データX(X1,X2,……,XN)を循環的に配列したときに相前後する2個の収録データXで構成されるN個の収録データ対Pijの各々について、当該収録データ対Pijの2個の収録データXの各々における音響信号の時間差に関する複数の候補値を算定する。収録データ対Pijについて算定された複数の候補値の何れかが確定的な時間差Oijとして採択される。
候補算定部42は、具体的には、N個の収録データ対Pijの各々について、収録データXiと収録データXjとの間における音響信号の相互相関Cij(τ)の絶対値|Cij(τ)|に応じて複数の候補値を算定する。相互相関Cij(τ)は、以下の数式(1)で表現される通り、収録データXiに含まれる音響信号yi(t)の始点と収録データXjに含まれる音響信号yj(t)の始点とを時間軸上で一致させてから、音響信号yi(t)に対する音響信号yj(t)の時間差(時間軸上のシフト量)τを変数として両者間の時間波形の相関の程度を示した数値列である。なお、時間差τは、負の数値もとり得る。したがって、例えば、収録データXjが時間軸上で収録データXiの後方に位置する場合に時間差Oijは正数となり、収録データXjが時間軸上で収録データXiの前方に位置する場合に時間差Oijは負数となる。
また、相互相関Cij(τ)は、数式(2)で表現される通り、音響信号yi(t)の周波数スペクトルYi(f)と音響信号yj(t)の周波数スペクトルYj(f)とのクロススペクトルの逆フーリエ変換(IFFT)で算出することも可能である。fは周波数を意味し、Yi*(f)は、Yi(f)の複素共役である。数式(2)の演算により相互相関Cij(τ)を算定する構成によれば、数式(1)を演算する構成と比較して、相互相関Cij(τ)を算出する計算量を低減できるという利点がある。
図3は、任意の1個の収録データ対Pijについて算定された相互相関Cij(τ)の絶対値|Cij(τ)|の説明図である。絶対値|Cij(τ)|は、音響信号yi(t)の時間波形と音響信号yj(t)の時間波形との相関が高いほど、大きい値をとり得る。前述した通り、収録データXは収録期間が時間軸上で部分的に重複しているので、収録データXの各々に含まれる音響には、時間軸上で部分的に共通の音響(実演用の楽曲の演奏音)成分が含有されている。したがって、収録データ対Pijの相互相関Cij(τ)の絶対値|Cij(τ)|が最大となる時間差τが、当該収録データの時間差Oijとなり得る。しかし、実際には、収録データXに含まれる音響に雑音が含有されている場合など、相互相関Cij(τ)の絶対値|Cij(τ)|が最大となる時間差τを収録データ対Pijの時間差Oijとして確定すると誤差が発生する可能性がある。第1実施形態ではこの問題を解決するために、相互相関Cij(τ)に応じて算定される複数の候補値Dの何れかを2個の収録データX間の時間差Oijとして特定する構成を採用する。
図1の候補算定部42は、複数の候補値Dの算定において、具体的には、算出した相互相関Cij(τ)の絶対値|Cij(τ)|を平滑化(例えば移動平均)し、平滑化後の相互相関Cij_s(τ)からM個の候補値Dを特定する(Mは2以上の自然数)。図4は、平滑化後の相互相関Cij_s(τ)の説明図である。M個の候補値D(D1,D2,……,DM)は、図4に例示される通り、相互相関Cij_s(τ)におけるM個の極大点の各々における時間差τであり、収録データ対Pijの時間差Oijの候補である。M個の極大点とは、複数の極大点のうち、例えば極大値の降順でM番目までの極大点や、極大値が閾値を上回るM個の極大点である。閾値を上回るM個の極大点を特定した場合、収録データ対Pij毎に候補値Dの総数Mは異なり得る。なお、閾値は、実験的または統計的に選定される。候補値Dの総数Mは任意であり、候補値Dの総数が少ないほど制御装置22の処理負荷を低減することが可能である。
図3に例示される通り、相互相関Cij(τ)の絶対値|Cij(τ)|が最大となる時間差τの周辺の範囲では局所的に絶対値|Cij(τ)|が大きい数値となる傾向がある。したがって、仮に平滑化せずに相互相関Cij(τ)の絶対値|Cij(τ)|の降順で時間差OijのM個の候補値Dを算定すると、例えば雑音等に由来して相互相関Cij(τ)の絶対値|Cij(τ)|が局所的に増大する場合に、その近傍から局所的に複数の候補値Dが特定される可能性がある。第1実施形態では、図4に例示される通り、平滑化後の相互相関Cij_s(τ)の極大点における時間差τを候補値Dとして特定するから、複数の候補値Dが分散される。すなわち、例えば雑音等に起因して相互相関Cij(τ)の絶対値|Cij(τ)|が最大となる場合でも、2個の収録データXの適正な時間差Oijを含むように複数の候補値Dを特定すること(ひいては時間差Oijを高精度に特定すること)が可能である。もっとも、複数の候補値Dの局在が特段の問題とならない場合には、相互相関Cij(τ)の絶対値|Cij(τ)|から複数の候補値Dを特定することも可能である。以上に説明した通り、第1実施形態では、収録データ対Pijの音響信号y(t)の相互相関Cij(τ)に応じて複数の候補値Dを算定するので、相互相関Cij(τ)以外の指標に応じて複数の候補値Dを算定する構成と比較して、収録データX間の時間差τの複数の候補値Dを簡便に算定することができるという利点がある。
図1の解析処理部44は、N個の収録データ対Pijの各々について、M個の候補値Dの何れかを収録データ対Pijにおける2個の収録データX間の時間差Oijとして特定する。
図2から理解される通り、N個の収録データ対にわたる適正な時間差Oijの合計値S(S=O12+O23+……+ON1)は0になる。したがって、合計値Sが0に近い候補値Dの組合せは、現実の時間差に近いと評価できる。すなわち、相異なる収録データ対Pijについて算定されたN個の候補値Dの合計値Sは、候補値Dの信頼度を表す指標として利用され得る。
解析処理部44は、具体的には、N個の収録データ対Pijにわたり、各収録データ対PijのM個の候補値D1〜DMから1個の候補値Dmを選択する全通りの組合せ(すなわちN個の候補値Dmの組合せ)について、N個の候補値Dmの合計値Sを算出し、合計値Sが0に最も近くなる候補値Dmの組合せ(すなわち、合計値Sの絶対値が最小となる候補値Dmの組合せ)を特定する。解析処理部44は、当該特定した組合せに含まれるN個の候補値Dmの各々を、N個のデータ対Pijの時間差Oijとして確定する。
編集処理部46は、解析処理部44が確定したN個の時間差Oijに応じて、N個の収録データXを相互に同期させたコンテンツZを生成する。収録データXの同期とは、各収録データXの音響および動画の時間軸をN個の収録データXについて相互に合致させた状態を意味する。編集処理部46は、具体的には、各収録データXにおける特定の時刻がN個の収録データXにわたり時間軸上の共通の時点となるように各収録データXの時間軸上の位置を調整する。すなわち、図2に例示される通り、収録データXiと収録データXjとの時間差が、解析処理部44により算定された時間差Oijとなるように、各収録データXの時間軸上の位置が調整される。
図1の編集処理部46で生成されたコンテンツZは、制御装置22の指示により再生される。具体的には、コンテンツZの動画は表示装置32で表示され、コンテンツZの音響は放音装置34で放音される。
図5は、制御装置22がコンテンツZを生成する処理のフローチャートである。操作装置36に対する利用者からの指示を契機として図5の処理が開始される。例えば、舞台で実演される演劇の様子を相異なる位置から収録した4個の収録データX1〜X4がある場合、図5の処理を開始すると、候補算定部42は、4個の収録データ対Pij(P12,P23,P34,P41)の各々について、収録データXiの音響信号yi(t)と収録データXjの音響信号yj(t)との相互相関Cij(τ)の絶対値|Cij(τ)|を算出する(SA1)。候補算定部42は、4個の収録データ対Pijの各々について算出した相互相関Cij(τ)の絶対値|Cij(τ)|を平滑化する(SA2)。候補算定部42は、4個の収録データ対Pijの平滑化後の各相互相関Cij_s(τ)について、降順で5番目までの極大点における時間差τを候補値D1〜D5として特定する(SA3)。ステップSA1〜ステップSA3は、複数の候補値D1〜D5を算定する処理である。
解析処理部44は、4個の収録データ対P12〜P41にわたり、各収録データ対Pの5個の候補値D1〜D5から1個の候補値Dmを選択する全通りの組合せ(すなわち4個の候補値Dmの組合せ)から、任意の1つの組合せを決定する(SB1)。解析処理部44は、決定した組合せにおける4個の候補値Dmの合計値Sを算出する(SB2)。解析処理部44は、全通りの組合せについて合計値Sの算出が完了するまで、ステップSB1とステップSB2との処理を繰り返す(SB3:NO)。全組合せの合計値Sを算出した場合(SB3:YES)、解析処理部44は、全組合せの合計値Sの中で最も0に近い合計値Sに対応する4個の候補値Dmの各々を、4個の収録データ対Pijの時間差Oij(O12,O23,O34,O41)として確定する(SB4)。ステップSB1〜ステップSB4は、4個の収録データ対P12〜P41の時間差Oijを特定する処理である。
編集処理部46は、解析処理部44が特定した時間差O12〜O41に応じて、4個の収録データX1〜X4を相互に同期させる編集処理によりコンテンツZを生成する(SC1)。
以上の説明から理解される通り、第1実施形態では、N個の収録データ対Pijにわたる時間差τの候補値Dmの合計値Sが0に近づくように、N個の収録データ対Pijの各々における複数の候補値D1〜DMの何れかが当該収録データ対Pijにおける2個の収録データX(Xi,Xj)間の時間差Oijとして特定される。したがって、2個の収録データXから特定された唯一の時間差τを確定値(時間差Oij)として採用する構成、例えば2個の収録データX間の時間信号の相互相関Cij(τ)が最大となる時間差τを収録データX間の時間差Oijとして確定する構成と比較して、収録データX間の時間差Oijを高精度に特定することが可能である。つまり、収録データX間の時間差Oijと現実の時間差との誤差を小さくすることが可能である。
<第2実施形態>
本発明の第2実施形態について説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
本発明の第2実施形態について説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図6は、第2実施形態に係るN個の収録データ対Pijにおける時間差Oijの説明図である。第1実施形態では、N個の収録データX(X1〜XN)の全部にわたって収録期間が時間軸上で部分的に重複する場合を例示した。第2実施形態では、N個から選択された2個の収録データXが時間軸上で相互に重複しない可能性を想定する。例えば、図6の収録データX2は、収録データX1とは部分的に重複するけれども収録データX5とは時間軸上で重複しない。
ここで、収録データXiと収録データXjとが時間軸上で部分的に重複していない収録データ対Pijの場合、つまり、収録データ対Pijの現実の時間差が収録データXiの時間長を超えている場合、収録データ対Pijの相互相関Cij(τ)は、有意な値をとらない。したがって、相互相関Cij(τ)から特定される候補値Dも有意な値にならない。図6から理解される通り、収録データXiと収録データXjとが時間軸上で部分的に重複しない場合でも、相前後する2個の収録データXが時間軸上で相互に重複するようにN個の収録データXを配列した場合には、第1実施形態で説明した通り、N個の収録データ対Pijにわたる時間差Oijの合計値Sは0に近づく。しかし、図7の収録データX2と収録データX5との関係のように、時間軸上で相互に重複しない2個の収録データXが相前後するようにN個の収録データXを配列した場合には、時間差Oijの合計値Sは0から離れる。すなわち、第2実施形態では、N個の収録データXの配列の順番に応じて候補値Dの適否が相違し得る。そこで、第2実施形態では、N個の収録データXの配列の順番を相違させたK通りの順列Q1〜QKの各々について、収録データ対Pij毎の候補値Dの合計値Sを算定する。
第2実施形態における収録データ解析部40は、第1実施形態と同様に、候補算定部42と解析処理部44とを具備する。第2実施形態の候補算定部42は、N個の収録データX(X1,X2,……,XN)をK通りの順列(円順列)Q1〜QKで循環的に配列したときに相前後する2個の収録データXで構成されるN個の収録データ対Pijの各々について、当該収録データ対Pijの2個の収録データXの各々における音響信号y(t)の時間差τに関するM個の候補値D(D1〜DM)を算定する。第1実施形態の候補算定部42は、候補値Dの算定において複数の順列Qを考慮することは不要であり、任意の1通りの順列についてのみ収録データ対Pijの候補値Dを算定した。一方で、第2実施形態の候補算定部42は、K通りの順列Q1〜QKの各々について、収録データ対Pijの候補値Dを算定する。複数の候補値Dは、第1実施形態と同様に、N個の収録データ対Pijの各々について、収録データXiと収録データXjとの間における音響信号の相互相関Cij(τ)の絶対値|Cij(τ)|に応じて算定される。
第2実施形態における解析処理部44は、第1実施形態と同様に、N個の収録データ対Pijの各々について、M個の候補値Dの何れかを収録データ対Pijにおける2個の収録データX間の時間差Oijとして特定する。具体的には、解析処理部44は、K通りの順列Q1〜QKの各々について、第1実施形態と同様に、各収録データ対PijのM個の候補値D1〜DMから1個の候補値Dmを選択する全通りの組合せでN個の候補値Dmの合計値Sを算出する。そして、解析処理部44は、K通りの順列Q1〜QKの各々について候補値Dの組合せ毎に算定した合計値Sのうち、0に最も近い候補値Dmの組合せを特定し、当該組合せに含まれるN個の候補値Dmの各々をN個のデータ対Pijの時間差Oijとして確定する。編集処理部46は、第1実施形態と同様に、解析処理部44が確定したN個の時間差Oijに応じて、N個の収録データXを相互に同期させたコンテンツZを生成する。
図8は、制御装置22がコンテンツZを生成する処理のフローチャートである。操作装置36に対する利用者からの指示を契機として図8の処理が開始される。例えば、舞台で実演される演劇の様子を相異なる位置から収録した4個の収録データX1〜X4がある場合、図8の処理を開始すると、候補算定部42は、4個の収録データXを循環的に配列する6通りの順列Q(Q1〜Q6)から、任意の1つの順列Qを決定する(SD1)。収録データ解析部40(候補算定部42および解析処理部44)は、決定した順列Qについて、第1実施形態と同様に、4個の収録データ対Pijの各々について、相互相関Cij(τ)の絶対値|Cij(τ)|を算出する処理(SA1)から候補値Dmの合計値Sを算出する処理(SB2)までを実行する。
解析処理部44は、候補値Dmの全通りの組合せについて合計値Sの算出が完了するまで、ステップSB1およびステップSB2の処理を繰り返す(SB3:NO)。全組合せの合計値Sを算出した場合(SB3:YES)、候補算定部42は、4個の収録データXを配列した全通りの順列Q1〜Q6について、候補値Dmの全組合せの合計値Sの算出(ステップSA1〜SB2)が完了したかを判断する(SD2)。全順列Q1〜Q6について合計値Sを算出した場合(SD2:YES)、解析処理部44は、全順列Q1〜Q6における全組合せの合計値Sの中で最も0に近い合計値Sに対応する4個の候補値Dmの各々を、4個の収録データ対Pijの時間差Oijとして確定する(SB4)。全順列Q1〜Q6について合計値Sの算出が完了していない場合(SD2:NO)、候補算定部42は、未処理の順列Qを新たに選択(SD1)してステップSA1〜SB3の処理を繰り返す。編集処理部46は、第1実施形態と同様に、コンテンツZを生成する(SC1)。
以上の説明から理解される通り、候補算定部42は、N個の収録データXの順列Qを決定する処理(ステップSD1およびSD2)と複数の候補値D1〜DMを算定する処理(ステップSA1〜SA3)とを行い、解析処理部44は、4個の収録データ対Pijの時間差Oijを特定する処理(ステップSB1〜SB3およびステップSB4)を行う。
第2実施形態においても第1実施形態と同様の効果が実現される。第2実施形態では特に、収録データXの各々が、全部にわたって収録期間が時間軸上で部分的に重複していなくても、時間差Oijを適切に特定することが可能である。なお、第1実施形態で例示した、全部の収録データX(X1〜XN)にわたって収録期間が時間軸上で部分的に重複する場合においても、第2実施形態で例示した構成により時間差Oijを特定することができる。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の各形態では、収録データ対Pijの各収録データXに含まれる音響信号y(t)の時間差τに応じて複数の候補値Dを算定したが、時間差τの算出に使用される信号は音響信号y(t)に限定されない。例えば、各収録データXの音響に共通の発話内容が含まれる場合は、各収録データXの発話内容を音声認識により解析し、解析結果を2個の収録データX間で比較することで複数の候補値Dを算出することも可能である。また、音響信号y(t)から抽出される特徴量(例えば音高)の時間変化を示す時間信号を2個の収録データX間で比較する(例えば相互相関Cij(τ)を算定する)ことで複数の候補値Dを算定してもよい。さらには、収録データ対Pijに含まれる動画を表す画像信号から、例えば画像の明度の時間変化を示す時間信号を生成し、2個の収録データX間で時間信号を比較することで複数の候補値Dを算定することも可能である。以上の説明から理解される通り、複数の候補値Dの算定に使用される信号は、収録データ対Pijの2個の収録データXの各々における収録対象(音響または動画)の時間変化を表す時間信号であれば任意である。ただし、音響信号y(t)は収録条件(例えば撮影位置)に応じた時間変動の相違が小さいという傾向を考慮すると、音響信号y(t)を使用した前述の各形態の構成では、動画等の時間信号を使用した構成と比較して、複数の収録データX1〜XNの間の時間差Oijを高精度に特定できるという利点がある。
(2)前述の各形態では、相互相関Cij(τ)に応じて収録データ対Pijの複数の候補値Dを算定したが、複数の候補値Dの算定に利用する指標は相互相関Cij(τ)に限定されない。例えば正規化相互相関に応じて収録データ対Pijの複数の候補値Dを算定することも可能である。複数の候補値Dの算定に利用する指標は、収録データ対Pijの2個の収録データXの各々における収録対象の時間変化を表す時間信号の時間差が算出できれば任意である。
(3)前述の各形態では、編集処理部46を収録データ編集システム10に搭載したが、編集処理部46を収録データ編集システム10とは別個のサーバ装置や端末装置に搭載することも可能である。この場合、収録データ編集システム10は、N個の収録データと解析処理部44で特定した時間差Oijとをサーバ装置や端末装置に送信する。以上の説明から理解される通り、前述の各形態における収録データ編集システム10は、N個の収録データXについて時間差Oijを解析する収録データ解析部40を具備する装置(すなわち収録データ解析装置)の例示であり、本発明の収録データ解析装置において編集処理(編集処理部46)は必須ではない。
(4)前述の各形態では、複数の収録装置12から取得した全部の収録データXを対象として時間差Oijを特定したが、複数の収録装置12から取得した収録データXの一部について時間差Oijを解析することも可能である。例えば、収録データ解析部40は、各収録データXの収録期間(例えば開始時刻と終了時刻)を示す時間情報を収録データXとともに各収録装置12から取得し、時間情報が示す収録時間が時間軸上で相互に重複するN個の収録データXを特定して第1実施形態と同様の動作を実行する。すなわち、他の収録データXに対して時間軸上で重複しないと時間情報から推測される収録データXが処理対象から除外される。なお、時間情報から各収録データXの時間的な関係(時間差Oij)を特定することも可能であるが、実際には、収録装置12で計測される時刻には収録装置12毎に誤差が生じ得るから、前述の各形態の構成で時間差Oijを特定する意義はある。以上の構成によれば、時間軸上で他の収録データXと重複しない収録データXを処理対象から除外することができるから、収録装置12が生成した全部の収録データXを処理対象とする構成と比較して、収録データ解析部40の処理負荷を軽減することが可能である。
(5)前述の各形態で例示した収録データ解析部40は、前述の通り制御装置22とプログラムとの協働で実現される。プログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。
(6)本発明は、前述の各形態に係る収録データ解析部40の動作方法(収録データ解析方法)としても特定され得る。具体的には、本発明の好適な態様の収録データ解析方法においては、コンピュータ(単体の装置のほか、相互に別体の複数の装置で構成されたコンピュータシステムも含む)が、N個(Nは3以上の自然数)の収録データXを循環的に配列したときに相前後する2個の収録データXで構成されるN個の収録データ対Pijの各々について、当該収録データ対Pijの2個の収録データXの各々における収録対象の時間変化を表す時間信号の時間差に関する複数の候補値Dを算定し、N個の収録データ対Pijにわたる候補値Dmの合計値Sが0に近づくように、N個の収録データ対Pijの各々における複数の候補値Dmの何れかを当該収録データ対Pijにおける2個の収録データX間の時間差Oijとして特定する。
10……収録データ編集システム,12……収録装置,22……制御装置,24……記憶装置,26……通信装置,32……表示装置,34……放音装置,36……操作装置,40……収録データ解析部,42……候補算定部,44……解析処理部,46……編集処理部。
Claims (5)
- コンピュータが、
N個(Nは3以上の自然数)の収録データを循環的に配列したときに相前後する2個の収録データで構成されるN個の収録データ対の各々について、当該収録データ対の前記2個の収録データの各々における収録対象の時間変化を表す時間信号の時間差に関する複数の候補値を算定し、
前記N個の収録データ対にわたる前記候補値の合計値が0に近づくように、前記N個の収録データ対の各々における前記複数の候補値の何れかを当該収録データ対における2個の収録データ間の時間差として特定する
収録データ解析方法。 - 前記複数の候補値の算定においては、前記各収録データ対の前記2個の収録データの間における前記時間信号の相互相関に応じて、当該収録データ対の前記複数の候補値を算定する
請求項1の収録データ解析方法。 - 前記複数の候補値の算定においては、前記2個の収録データの間における前記時間信号の相互相関の絶対値を平滑化したときの極大点における時間差を前記候補値として特定する
請求項2の収録データ解析方法。 - 前記時間信号は、音響を前記収録対象として収録された音響信号である
請求項1から請求項3の何れかの収録データ解析方法。 - N個(Nは3以上の自然数)の収録データを循環的に配列したときに相前後する2個の収録データで構成されるN個の収録データ対の各々について、当該収録データ対の前記2個の収録データの各々における収録対象の時間変化を表す時間信号の時間差に関する複数の候補値を算定する候補算定部と、
前記N個の収録データ対にわたる前記候補値の合計値が0に近づくように、前記N個の収録データ対の各々における前記複数の候補値の何れかを当該収録データ対における2個の収録データ間の時間差として特定する解析処理部と
を具備する収録データ解析装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016045131A JP6693180B2 (ja) | 2016-03-09 | 2016-03-09 | 収録データ解析方法および収録データ解析装置 |
PCT/JP2017/008267 WO2017154723A1 (ja) | 2016-03-09 | 2017-03-02 | 収録データ処理方法および収録データ処理装置 |
US16/126,082 US10629240B2 (en) | 2016-03-09 | 2018-09-10 | Recorded data processing method and recorded data processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016045131A JP6693180B2 (ja) | 2016-03-09 | 2016-03-09 | 収録データ解析方法および収録データ解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017161683A JP2017161683A (ja) | 2017-09-14 |
JP6693180B2 true JP6693180B2 (ja) | 2020-05-13 |
Family
ID=59790644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016045131A Active JP6693180B2 (ja) | 2016-03-09 | 2016-03-09 | 収録データ解析方法および収録データ解析装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10629240B2 (ja) |
JP (1) | JP6693180B2 (ja) |
WO (1) | WO2017154723A1 (ja) |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57190415A (en) | 1981-05-19 | 1982-11-24 | Nec Corp | Timing extracting circuit |
US7551832B2 (en) * | 2001-12-05 | 2009-06-23 | Scientific-Atlanta, Inc. | Application management and interface for cluster control of time shift buffer |
JP4361347B2 (ja) * | 2003-11-11 | 2009-11-11 | 株式会社リコー | データ同期装置、データ同期方法、およびその方法をコンピュータに実行させるプログラム |
JP3643372B1 (ja) * | 2004-05-24 | 2005-04-27 | 讀賣テレビ放送株式会社 | 放送信号監視装置及び放送信号監視方法 |
JP4748075B2 (ja) | 2007-02-07 | 2011-08-17 | カシオ計算機株式会社 | 画像同期システム及び画像同期方法 |
US8849432B2 (en) * | 2007-05-31 | 2014-09-30 | Adobe Systems Incorporated | Acoustic pattern identification using spectral characteristics to synchronize audio and/or video |
US8205148B1 (en) * | 2008-01-11 | 2012-06-19 | Bruce Sharpe | Methods and apparatus for temporal alignment of media |
US8754947B2 (en) | 2008-05-07 | 2014-06-17 | Evertz Microsystems Ltd. | Systems and methods for comparing media signals |
US8677437B2 (en) * | 2008-05-07 | 2014-03-18 | Evertz Microsystems Ltd. | Systems and methods for calculating the delay between media signals |
US8780209B2 (en) | 2008-05-07 | 2014-07-15 | Evertz Microsystems Ltd. | Systems and methods for comparing media signals |
US8924345B2 (en) * | 2011-09-26 | 2014-12-30 | Adobe Systems Incorporated | Clustering and synchronizing content |
US9258459B2 (en) * | 2012-01-24 | 2016-02-09 | Radical Switchcam Llc | System and method for compiling and playing a multi-channel video |
US8682144B1 (en) * | 2012-09-17 | 2014-03-25 | Google Inc. | Method for synchronizing multiple audio signals |
US10158907B1 (en) * | 2017-10-10 | 2018-12-18 | Shazam Investments Ltd. | Systems and methods for performing playout of multiple media recordings based on a matching segment among the recordings |
-
2016
- 2016-03-09 JP JP2016045131A patent/JP6693180B2/ja active Active
-
2017
- 2017-03-02 WO PCT/JP2017/008267 patent/WO2017154723A1/ja active Application Filing
-
2018
- 2018-09-10 US US16/126,082 patent/US10629240B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2017154723A1 (ja) | 2017-09-14 |
US20190005984A1 (en) | 2019-01-03 |
US10629240B2 (en) | 2020-04-21 |
JP2017161683A (ja) | 2017-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111901626B (zh) | 背景音频确定方法、视频剪辑方法、装置和计算机设备 | |
US10559323B2 (en) | Audio and video synchronizing perceptual model | |
JP2019145171A (ja) | 分割および合成を用いたハプティック変換システム | |
CN112822563A (zh) | 生成视频的方法、装置、电子设备和计算机可读介质 | |
CN1937462A (zh) | 内容偏好得分确定方法、内容重放装置及内容重放方法 | |
US20220054049A1 (en) | High-precision temporal measurement of vibro-acoustic events in synchronisation with a sound signal on a touch-screen device | |
JP2018056821A (ja) | 電子透かし埋込プログラム、電子透かし埋込装置、及び電子透かし埋込方法 | |
JP6693180B2 (ja) | 収録データ解析方法および収録データ解析装置 | |
US20160277864A1 (en) | Waveform Display Control of Visual Characteristics | |
JP2009260718A (ja) | 画像再生装置及び画像再生処理プログラム | |
JP6772487B2 (ja) | 収録データ解析方法および収録データ解析装置 | |
US20220394200A1 (en) | Training data generation method, method and device for generating learned model, recording medium, program, and information processing device | |
JP5754967B2 (ja) | 画像情報処理装置及びその制御方法 | |
US10891966B2 (en) | Audio processing method and audio processing device for expanding or compressing audio signals | |
JP2018157363A (ja) | データ同期方法 | |
WO2017026387A1 (ja) | 映像処理装置、映像処理方法および記録媒体 | |
KR20140112313A (ko) | 음원의 하이라이트 구간을 추출하는 전자 장치 및 방법 | |
US20230135778A1 (en) | Systems and methods for generating a mixed audio file in a digital audio workstation | |
JP2018155897A (ja) | 情報処理方法 | |
WO2019182074A1 (ja) | 信号処理方法および信号処理装置 | |
WO2019182075A1 (ja) | 情報処理方法および情報処理装置 | |
JP2017017387A (ja) | 映像処理装置および映像処理方法 | |
JP2018157385A (ja) | データ同期方法 | |
JP2018157386A (ja) | データ抽出方法 | |
JP2019095598A (ja) | システム、情報処理装置、認識器、閾値決定方法、コンピュータプログラム、及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200330 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6693180 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |