JP6785486B2 - 音声データの比較処理プログラム - Google Patents

音声データの比較処理プログラム Download PDF

Info

Publication number
JP6785486B2
JP6785486B2 JP2017029658A JP2017029658A JP6785486B2 JP 6785486 B2 JP6785486 B2 JP 6785486B2 JP 2017029658 A JP2017029658 A JP 2017029658A JP 2017029658 A JP2017029658 A JP 2017029658A JP 6785486 B2 JP6785486 B2 JP 6785486B2
Authority
JP
Japan
Prior art keywords
section
data
voice data
blocks
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017029658A
Other languages
English (en)
Other versions
JP2018136389A (ja
Inventor
友幸 西山
友幸 西山
久晴 鈴木
久晴 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EVIXAR INC.
Japan Broadcasting Corp
Original Assignee
EVIXAR INC.
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EVIXAR INC., Japan Broadcasting Corp filed Critical EVIXAR INC.
Priority to JP2017029658A priority Critical patent/JP6785486B2/ja
Publication of JP2018136389A publication Critical patent/JP2018136389A/ja
Application granted granted Critical
Publication of JP6785486B2 publication Critical patent/JP6785486B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声データの比較処理プログラムに関する。
従来より、番組で使用される映像素材を識別するための識別子、内容を示す情報、撮影日時、撮影場所を示す情報がそれぞれ対応付けられた第1のメタデータを含み、放送素材の編集内容を示すリストと、映像素材を識別するための識別子、内容を示す情報、撮影日時、撮影場所を示す情報がそれぞれ対応付けられた第2のメタデータの一覧とを表示する表示部と、前記第2のメタデータと、第1のメタデータとを比較する手段と、第1、第2のメタデータが対応しなかった場合、警告を報知する報知部とを備える編集装置がある(例えば、特許文献1参照)。
特開2010−219771号公報
ところで、ドラマやドキュメンタリー、バラエティ番組の音声・ナレーション編集や、BGM・効果音編集等を行うMA(Multi Audio)の完成品はデジタル音声データで作成されることがある。そして、完成品をもと内容の手直しが必要になった際には、オリジナルの音声データの一部を他の音声データに置き換えた編集音声データを作成したり、オリジナルの音声データの一部を削除した編集音声データを作成するような編集作業を行う場合がある。
このような場合に、編集音声データのファイルは、オリジナルの音声データのファイルをもとに編集装置上で編集作業を行い、作業内容を反映した新たな編集音声データのファイルを作成する。新たなファイルとして音声データを作成する際には、例えば、使用する編集装置のソフトウェアのバグによるノイズや時間的なずれが生じたり、人為的な編集装置の操作ミスで編集意図と異なる変更が行われる可能性があり、その場合、その音声データは完成品として不合格である。したがって、完成品の検査が必要となる。
しかしながら、従来の編集装置は、編集前のオリジナル音声データと編集後の音声データを比較して検査する機能を持たず、人間が手作業で編集音声データの全区間を聴く(画像も有る場合は視聴する)ことで検査を行っていた。
そこで、編集音声データとオリジナルの音声データの内容を比較し、一致する個所を判別し、その箇所同士を対応させ視覚的に把握できるように描画表示する、音声データの比較処理プログラムを提供し検査作業の負担を軽減することを目的とする。
本発明の実施の形態の音声データの比較処理プログラムは、第1音声データを時間軸方向に所定のブロック長毎に複数のブロックに分ける分割処理と、前記第1音声データに対して編集が行われた第2音声データを、前記ブロックのブロック長と等しい長さを有する探索窓を用いて前記ブロック長の区間毎に順番に選択し、前記第1音声データの前記複数のブロックの各々と、前記探索窓によって選択される区間との一致性を総当たり形式で判定する第1判定処理と、前記第1音声データ及び前記第2音声データに含まれる前記一致性がある区間を第1区間、前記一致性がない区間のうち前記第1音声データに含まれ、前記第2音声データに含まれない区間を第2区間、前記一致性がない区間のうち前記第2音声データに含まれ、前記第1音声データに含まれない区間を第3区間に分類する分類処理と、前記第1音声データを表す帯状の第1画像であって、互いに表示が異なる前記第1区間、前記第2区間、及び前記第3区間のうちの前記第1区間及び前記第2区間を含む第1画像を生成するとともに、前記第2音声データを表す帯状の第2画像であって、互いに表示が異なる前記第1区間、前記第2区間、及び前記第3区間のうちの前記第1区間及び前記第3区間を含む第2画像を生成する第1画像生成処理とをコンピュータに実行させる。
編集音声データとオリジナルの音声データの内容を比較し、一致する個所を判別し、その箇所同士を対応させ視覚的に把握できるように描画表示する、音声データの比較処理プログラムを提供することができる。
音声データの比較処理装置100を示す図である。 音声データの比較処理装置100が行う音声データの比較処理を説明する図である。 音声データの比較処理装置100が行う音声データの比較処理を説明する図である。 音声データの比較処理装置100が行う音声データの比較処理を説明する図である。 音声データの比較処理装置100が音声データの比較処理を実行する際に生成する画像を示す図である。 音声データの比較処理装置100が実行する処理を示すフローチャートである。 実施の形態の変形例による音声データの比較処理装置100が音声データの比較処理を実行する際に生成する画像を示す図である。
以下、本発明の音声データの比較処理プログラムを適用した実施の形態について説明する。
<実施の形態>
図1は、音声データの比較処理装置100を示す図である。音声データの比較処理装置100は、CPU(Central Processing Unit:中央演算装置)、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive:ハードディスクドライブ)等を内蔵するコンピュータによって実現される。音声データの比較処理装置100には、ディスプレイ、キーボード、マウス、及びモデム等が接続される。
実施の形態の音声データの比較処理プログラムは、上述のようなコンピュータを音声データの比較処理装置100として機能させるためのコンピュータプログラムである。
音声データの比較処理装置100は、主制御部110、分割処理部120、判定処理部130、測定処理部140、判定処理部150、分類処理部160、画像生成処理部170、及びメモリ180を含む。
主制御部110、分割処理部120、判定処理部130、測定処理部140、判定処理部150、分類処理部160、及び画像生成処理部170は、コンピュータのCPUが音声データの比較処理プログラムを実行することによって得られる機能ブロックを表す。メモリ180は、コンピュータのRAM、ROM、及びHDDに対応する。
主制御部110は、分割処理部120、判定処理部130、測定処理部140、判定処理部150、分類処理部160、及び画像生成処理部170が行う処理以外の処理を統括する制御部である。
分割処理部120は、オリジナルの音声データを時間軸方向に所定のブロック長毎に複数のブロック(区間)に分ける分割処理を行う。オリジナルの音声データは、人間の声、動物の鳴き声、その他の自然界に存在するあらゆる音、及び、人間が作り出した物が発する音や音楽等のあらゆる音であり、音源から採取した元の音や、編集を行っていない楽曲の音そのものを表すデジタルの音声データである。
オリジナルの音声データは、所定の有限の記録時間で区切られ、所定のファイル形式のデジタルデータとしてコンピュータのメモリ等に保存可能である。オリジナルの音声データは、第1音声データの一例である。
また、オリジナルの音声データに対して某かの編集処理が行われた音声データを編集音声データと称す。
編集音声データは、オリジナルの音声データをもとに、編集装置上で少なくとも一部分に編集(加工)処理が行われることによって作成される。このため、編集音声データのうちの編集処理が行われた部分は、オリジナルの音声データとは異なる。
また、編集音声データが編集装置で作成される過程で、ソフトウェアのバグや、人為的な作業ミスなどが原因でノイズの混入が生じたり、オリジナルの音声データに対する遅延が生じると、データ内容が一致しない場合が有り得る。
編集音声データは、所定の有限の記録時間で区切られ、所定のファイル形式のデジタルデータとしてコンピュータのメモリ等に保存可能である。編集音声データは、第2音声データの一例である。
判定処理部130は、オリジナルの音声データが分割されるブロック長と時間軸方向に等しい長さを有する探索窓を用いて、編集音声データをブロック長の区間毎に順番に選択し、オリジナルの音声データの複数のブロックの各々と、探索窓によって選択される区間との一致性を総当たり形式で判定する第1判定処理を行う。
第1判定処理は、複数のブロックの各々のデータのオーディオフィンガープリント(Audio Finger Print(AFP))と、探索窓によって選択される区間のデータのAFPとの一致性を判定する処理である。第1判定処理の詳細については、図3を用いて後述する。
測定処理部140は、判定処理部130が行う第1判定処理によって一致性があると判定された、複数のブロックの各々のデータと、探索窓によって選択される区間のデータとについて、相互相関関数を用いて、複数のブロックの各々のデータに対する探索窓によって選択される区間のデータの遅延量を測定する測定処理を行う。
すなわち、測定処理部140は、判定処理部130が行う第1判定処理によって一致性があると判定された、オリジナルの音声データのブロックのデータと、探索窓によって選択される区間のデータとについて、相互相関関数を用いて、オリジナルの音声データのブロックのデータに対する探索窓によって選択される区間のデータの遅延量を測定する。
判定処理部150は、測定処理部140によって測定された遅延量を用いて探索窓によって選択される区間のデータを時間軸方向に補正することにより、オリジナルの音声データのブロックと、探索窓によって選択される区間のデータとを時間軸方向で合わせる。そして、判定処理部150は、オリジナルの音声データのブロックと、時間軸方向に補正された探索窓によって選択される区間のデータとの値をサンプル単位で比較し、一致性があると判定する第2判定処理を行う。なお、サンプルとは、オリジナルの音声データのブロックと、時間軸方向に補正された探索窓によって選択される区間のデータとの時間軸方向に並べられた各値のことであり、音の振幅(デジタル値)を表す。
第2判定処理における一致性の判断には、ディザノイズ等の意図的な微小ノイズの付加の影響を加味して、スレッショルド(しきい値)を用いて判定を行う。機器のノイズや再生環境のS/N比を考慮して、例えば−70dBFS等の小さな値をスレッショルドに設定し、一致性の判断基準を人間の聴感で感じ取れないほど小さな値に設定することもできる。なお、−70dBFSとは、一例としてオリジナルの音声データのブロックと、時間軸方向に補正された探索窓によって選択される区間のデータとが16ビットで表される場合に、サンプル値が取り得る−32768から32767までの値において、10に相当する。
分類処理部160は、オリジナルの音声データ及び編集音声データの画像データの生成に際して、オリジナルの音声データ及び編集音声データを第1区間、第2区間、及び第3区間に分類する。
第1区間は、オリジナルの音声データ及び編集音声データに含まれる区間のうち、第2判定処理において一致性があると判定された区間である。すなわち、第1区間は、オリジナルの音声データ及び編集音声データのそれぞれに含まれる区間のうち、データ内容が一致する区間である。さらに換言すれば、オリジナルの音声データのコピーファイルのうち、編集作業が行われずに、かつ、コピー時に含まれ得るノイズや遅延等が人間の聴感で感じ取れない程度に小さい区間が、編集音声データに含まれる第1区間になる。このような編集音声データの第1区間には、オリジナルの音声データの中でデータ内容が一致する第1区間が存在することになる。
第2区間は、第2判定処理における一致性がない区間のうち、オリジナルの音声データに含まれ、編集音声データに含まれない区間である。第2区間は、例えば、編集音声データの中で編集作業が行われた区間にオリジナルの音声データで対応する区間、編集作業で編集音声データから削除された区間にオリジナルの音声データで対応する区間、編集作業で編集音声データの一部が他のデータに入れ替えられた区間にオリジナルの音声データで対応する区間、又は、編集音声データの中で編集作業が行われていないが、コピー時に含まれ得るノイズや遅延等が指定したスレッショルドを超えた区間にオリジナルの音声データで対応する区間等である。
第3区間は、第2判定処理における一致性がない区間のうち編集音声データに含まれ、オリジナルの音声データに含まれない区間である。第3区間は、例えば、編集音声データの中で編集作業が行われ、オリジナルの対応する区間とはデータ内容が一致しない区間、編集作業で編集音声データの一部が他のデータに入れ替えられ、オリジナルの対応する区間とはデータ内容が一致しない区間、又は、編集音声データの中で編集作業が行われていないが、コピー時に含まれ得るノイズや遅延等が指定したスレッショルドを超えたレベルになり、オリジナルの対応する区間とはデータ内容が一致しない区間等である。
画像生成処理部170は、オリジナルの音声データを表す帯状の第1画像と、編集音声データを表す帯状の第2画像とを生成する。第1画像は、第1区間及び第2区間を含む画像である。第2画像は、第1区間及び第3区間を含む画像である。第1区間、第2区間、及び第3区間は、ディスプレイ上で見分けが付くように、互いに異なる画像で表される。このような画像生成処理部170の処理は、第1画像生成処理の一例である。
また、画像生成処理部170は、第1画像に含まれる第1区間と、この第1区間に対応する、第2画像に含まれる第1区間との間を結ぶ線の画像を生成する。このような画像生成処理部170の処理は、第2画像生成処理の一例である。
メモリ180は、音声データの比較処理プログラムや、主制御部110、分割処理部120、判定処理部130、測定処理部140、判定処理部150、分類処理部160、及び画像生成処理部170が行う上述の処理等に必要なデータを格納する。
図2乃至図5は、音声データの比較処理装置100が行う音声データの比較処理を説明する。図2乃至図5のうち、図5はディスプレイに画像として表示される最終結果を表す。図2乃至図4は、処理途中のデータを模式的に示したものであり、ディスプレイに表示される画像ではない。ここでは、オリジナルの音声データを表す帯状の第1画像をO(オリジナルの頭文字のO)と示し、編集音声データを表す帯状の第2画像をE(編集(エディット)の頭文字のE)と示す。
また、各図において、上段にオリジナルの音声データOを示し、下段に編集音声データEを示す。また、各図において、横方向が時間軸方向である。オリジナルの音声データOと編集音声データEは、時間軸に沿って伸延している。オリジナルの音声データOと編集音声データEの始点は左端であり、終点は右端である。
まず、図2に示すように、オリジナルの音声データOの区間(1)に対応する編集音声データEの区間(1)については編集作業を行わず、オリジナルの音声データOの区間(2)に対応する編集音声データEの区間を削除(CUT)する編集を行い、オリジナルの音声データOの区間(3)に対応する編集音声データEの区間(3)については、音声データの内容についての編集作業を行わずに、時間軸方向において繰り上げる方向(図中左側の方向)にスライドさせる。また、編集音声データEの区間(3)の後に、新たな音声データとして区間(4)を挿入する編集作業を行ったとする。
なお、区間(1)〜(4)は、いずれも複数のブロックを含む区間である。
次に、図3の上段に示すように、音声データの比較処理装置100の分割処理部120は、オリジナルの音声データOに対して、時間軸方向に所定のブロック長毎に複数のブロック(区間)に分ける分割処理を行う。オリジナルの音声データOは、n個のブロックO、O、O・・・Oに分割される。ブロックO、O、O・・・Oの時間軸方向の幅は、N秒(Nは任意の値)である。また、ブロックO、O、O・・・Oの数nは、任意の整数である。
また、図3の下段に示すように、判定処理部130は、オリジナルの音声データOが分割されるブロック長と時間軸方向に等しい長さを有する探索窓Wを用いて、編集音声データEに対して第1判定処理を行う。探索窓Wは、図3の下段に太枠で示す矩形状の窓であり、図3の上段に示すn個のブロックO、O、O・・・Oの各々と時間軸方向に等しい幅を有する。また、探索窓Wの上下方向の幅は、ブロックO、O、O・・・Oの各々の幅と等しくN秒である。すなわち、探索窓Wの矩形状の開口の大きさは、ブロックO、O、O・・・Oの各々の大きさと等しい。
判定処理部130は、オリジナルの音声データOのブロックO、O、O・・・OをブロックOから1つずつ選択した状態で、探索窓Wを用いて、編集音声データEをブロック長の区間毎に順番に選択して、選択しているオリジナルの音声データOのブロックと、探索窓Wで選択している編集音声データEの区間とのデータのAFPの一致性を判定する。
図3の下段には、判定処理部130がオリジナルの音声データOのブロックOを選択している状態で、探索窓Wを用いて、編集音声データEを始点から終点までブロック長の区間毎に順番に選択して、ブロックOのデータのAFPと、探索窓Wで選択したブロックのデータのAFPとの一致性を判定している状態を示す。
判定処理部130は、オリジナルの音声データOのブロックO、O、O・・・Oのすべてについて、編集音声データEを始点から終点までブロック長の区間毎に順番に選択して一致性を判定するため、オリジナルの音声データOのブロックO、O、O・・・Oと、編集音声データEの探索窓によって選択される区間との一致性は、総当たり形式で判定されることになる。
AFPは、音の特徴量ベクトルであり、音声データを特徴量化したデータであるため、総当たり形式の一致性(マッチング)の判定は、比較的短時間で行うことができる。音声データの比較処理装置100は、AFPを用いた第1判定処理を行った後に、第1判定処理で一致したと判定された区間同士について、より精度の高い第2判定処理を行う。
なお、判定処理部130は、オリジナルの音声データOのブロック(O、O、O・・・Oのいずれか)と、編集音声データEの探索窓によって選択される区間とが一致すると判定した場合には、そのときのオリジナルの音声データOのブロックの時間的な位置と、探索窓の時間的な位置とをメモリ180に格納すればよい。
オリジナルの音声データOのブロックの時間的な位置とは、オリジナルの音声データOの始点からの経過時間、又は、そのブロックに与えられる時刻である。経過時間や時刻は、ブロックの始点と終点についてそれぞれ記録すればよい。ブロックの始点とは、時間軸方向において、ブロックの左端に相当する点であり、ブロックの終点とは、時間軸方向において、ブロックの右端に相当する点である。なお、オリジナルの音声データOの始点における時刻は、0時00分00秒のように時刻のカウントがゼロのものであってもよいし、10時00分00秒のように所定の時刻(10時)が付与されたものであってもよい。
同様に、探索窓の時間的な位置とは、編集音声データEの始点からの経過時間、又は、選択窓で選択される音声データに与えられる時刻である。探索窓の時間的な位置を定める経過時間や時刻は、探索窓の始点と終点についてそれぞれ記録すればよい。探索窓の始点とは、時間軸方向において、探索窓の左端に相当する点であり、探索窓の終点とは、時間軸方向において、探索窓の右端に相当する点である。
図4には、AFPを用いた第1判定処理の結果を示す。オリジナルの音声データOのブロックO、O、O・・・Oと、編集音声データEの区間E、E、E・・・E、Eとの間では、第1判定処理で一致したと判定されたデータ同士の間が直線で結ばれている。このような直線の画像は、画像生成処理部170によって生成される。区間E、E、E・・・E、Eは、第1判定処理で探索窓が配置された区間を表したものである。
画像生成処理部170は、メモリ180に格納されている第1判定処理で一致したと判定されたブロックの時間的な位置と、探索窓の時間的な位置とを用いて、直線の画像を生成する。各直線は、時間軸方向において、オリジナルの音声データOのブロック下端の中点と、編集音声データEの区間(E、E、E・・・E、Eのいずれか)の上端の中点とを結んでいる。これらの中点の時間的な位置は、メモリ180に格納されているブロックと探索窓の時間的な位置の始点と終点の中点の位置である。
なお、区間E、Eのx、yの値は、オリジナルの音声データOのブロックO、O、O・・・Oの数nよりも小さい値である。
例えば、ブロックOは区間E及び区間Eと一致したと判定されている。また、ブロックOは区間E及び区間Eと一致したと判定されており、ブロックOは区間Eと一致したと判定されている。また、ブロックOは区間Eと一致したと判定されており、ブロックOは区間Eと一致したと判定されている。ブロックOは一致する区間が存在しないと判定されている。
以上のように、オリジナルの音声データOに含まれる1つのブロックが、編集音声データEに含まれる複数の区間と一致すると判定される場合が有り得る。このように複数の区間と一致すると判定される場合には、実際に複数と一致する場合と、AFPという音の特徴量ベクトルを用いた一致性(マッチング)の判定では一致すると判定されても、人間の聴感のレベルでは、一致しないと判定される場合とが有り得る。後者については、第2判定処理で除外されることになる。
図5には、第2判定処理、分類処理、及び画像生成処理が完了した状態の画像を示す。第2判定処理の前に、測定処理部140によって、第1判定処理で一致性があると判定されたブロックのデータと探索窓によって選択される区間のデータとについて、相互相関関数を用いて遅延量が測定される。
そして、判定処理部150が第2判定処理を行うことにより、オリジナルの音声データのブロックのデータと、探索窓によって選択される区間のデータとの一致性が判定される。判定処理部150によって判定された一致性に基づき、分類処理部160は、オリジナルの音声データ及び編集音声データを第1区間、第2区間、及び第3区間に分類する。さらに、画像生成処理部170は、第1区間及び第2区間を含むオリジナルの音声データOを表す第1画像と、第1区間及び第3区間を含む編集音声データEを表す帯状の第2画像とを生成する。
この結果、図5に示すような画像が生成される。図5では、オリジナルの音声データOのブロックO、O、O・・・Oと、編集音声データEの区間E、E、E・・・E、Eとの間には、第2判定処理で一致したと判定されたデータ同士の間に直線が引かれている。
第2判定処理は、第1判定処理で一致したと判定されたデータ同士について行われるため、図5で直線で結ばれているブロックO、O、O・・・O、O等と、区間E、E、E・・・E、Eとの間は、直線で結ばれている。このような直線の画像は、画像生成処理部170によって生成される。
また、図5では、オリジナルの音声データOのブロックO、O、O・・・Oのうち、第2判定処理で一致する区間が見つかったブロックは、斜線で示されている。ブロックO、O、O・・・Oのうち斜線で示されているブロックは、オリジナルの音声データOに含まれる第1区間である。
また、区間E、E、E・・・E、Eのうち第2判定処理で一致するブロックが見つかった区間は、斜線で示されている。斜線で示されている区間は、編集音声データEに含まれる第1区間である。
すなわち、ブロックO、O、O・・・Oと、区間E、E、E・・・E、Eとのうち、直線で結ばれているブロック及び区間は、それぞれ、オリジナルの音声データO及び編集音声データEに含まれる第1区間である。斜線で示す第1区間は、実際の音声データの比較処理装置100ではカラー表示され、例えば、みどり色に表示される。
また、オリジナルの音声データOのうち、第2判定処理で一致する区間が見つからなかったブロックは、黒く塗り潰されている。図5では、オリジナルの音声データOのうち、ブロックOを含む4つのブロックが黒く塗り潰されている。これら4つのブロックは、オリジナルの音声データOに含まれ、編集音声データEに含まれない第2区間である。黒く塗り潰される第2区間は、実際の音声データの比較処理装置100においても、一例として、黒色に表示される。
また、編集音声データEのうち、第2判定処理で一致する区間が見つからなかったブロックは、斜めの網掛け(メッシュ)で表示されている。図5では、編集音声データEのうち、最後尾の3つのブロックが斜めの網掛け(メッシュ)で表示されている。これら3つのブロックは、オリジナルの音声データOに含まれず、編集音声データEに含まれる第3区間である。斜めの網掛け(メッシュ)で表示されている第3区間は、実際の音声データの比較処理装置100ではカラー表示され、例えば、赤色に表示される。なお、図5に示すオリジナルの音声データOと編集音声データEに、音声信号を表す波形を重ねて表示してもよい。
図6は、音声データの比較処理装置100が実行する処理を示すフローチャートである。
分割処理部120は、オリジナルの音声データOに対して、時間軸方向に所定のブロック長毎に複数のブロック(区間)に分ける分割処理を行う(ステップS1)。
これにより、図3の上段に示すように、オリジナルの音声データOが時間軸方向に複数のブロックに分けられる。
次いで、判定処理部130は、探索窓Wを用いて、編集音声データEに対して第1判定処理を行う(ステップS2)。これにより、図3の下段に示すように、ブロック長と等しい長さの探索窓Wが用いられて、編集音声データEに対して第1判定処理が行われる。
次いで、画像生成処理部170は、第1判定処理で一致したと判定されたブロックの時間的な位置と、探索窓の時間的な位置とを用いて、直線の画像を生成する(ステップS3)。これにより、図4に示すように、第1判定処理で一致したと判定されたオリジナルの音声データOのブロックと、編集音声データEの区間との間を結ぶ直線の画像が表示される。
次いで、測定処理部140は、第1判定処理で一致性があると判定されたブロックのデータと、探索窓によって選択される区間のデータとについて、相互相関関数を用いて遅延量を測定する(ステップS4)。
次いで、判定処理部150は、測定処理部140によって測定された遅延量を用いてブロックのデータと、探索窓によって選択される区間のデータと時間のずれを補正し、聴感では区別できないほど小さな閾値でサンプル値単位の比較を行うことで一致性を判定する第2判定処理を行う(ステップS5)。
次いで、分類処理部160は、オリジナルの音声データ及び編集音声データを第1区間、第2区間、及び第3区間に分類する(ステップS6)。
次いで、画像生成処理部170は、オリジナルの音声データを表す帯状の第1画像と、編集音声データを表す帯状の第2画像とを生成する(ステップS7)。第1画像は、第1区間及び第2区間を含み、第2画像は、第1区間及び第3区間を含む。
以上で一連の処理が終了する。
以上、実施の形態によれば、オリジナルの音声データOを所定のブロック長毎に複数のブロックに分け、オリジナルの音声データOの各ブロックと、編集音声データEの探索窓で選択される区間とについて、AFPを用いた一致性の第1判定処理を総当たり形式で行う。
そして、第1判定処理で一致すると判定されるブロック(オリジナルの音声データOのブロック)と区間(編集音声データEの中で探索窓で選択された区間)との組み合わせについて、第2判定処理を行うことによって、オリジナルの音声データOと、編集音声データEとの一致性を判定する。
この判定処理は、オリジナルの音声データOと、編集音声データEとの一致性を相互相関関数で求める遅延量に基づいて、人間の聴感のレベルで一致するかどうかを判定する処理である。
このため、一致すると判定された編集音声データEの区間は、人間が聴く限りオリジナルの音声データOの時間軸上で対応するブロックと同じ音声に聞こえる。
そして、一致したかどうかは、第1区間(斜線)の画像、第2区間(黒の塗り潰し)の画像、及び第3区間(斜めの網掛け(メッシュ))の画像という互いに異なる画像として表示される。
このため、編集音声データEのうちの編集作業が行われていない部分の音声データと、編集作業が行われている部分の音声データを画像で瞬時に認識でき、編集作業が行われている部分については、人間が試聴しなくてもオリジナルの音声データとの同一性が人間の聴感のレベルで保証されている。
従って、編集音声データのうちの編集作業が行われていない部分の音声データと、オリジナルの音声データのうちの対応する部分とを比較し、一致性を判定できる、音声データの比較処理プログラムを提供することができる。
また、実施の形態では、AFPを用いた一致性の第1判定処理を総当たり形式で行い、AFPを用いた一致性の判定よりも精度が高い判定が可能な相互相関関数を用いた第2判定処理の処理対象を絞る。処理対象は、第1判定処理で一致すると判定されるブロック(オリジナルの音声データOのブロック)と区間(編集音声データEの中で探索窓で選択された区間)との組み合わせである。
そして、処理対象を絞った上で第2判定処理を行うので、AFPを用いた一致性の第1判定処理を比較的高速で処理できるようなコンピュータの環境である場合に、より計算量の多い相互相関関数を用いた第2判定処理の処理対象を減らすことにより、全体の処理速度を高速化することができる。
また、第2判定処理については、人間の聴感のレベルでの一致性を判定基準とするので、人間の聴感のレベルでのデータの一致性を判定できる音声データの比較処理プログラムを提供することができる。編集音声データEの音声を聴くのは人間であるため、人間の聴感で感じ取れない程度の小さな値を判定基準に用いれば、十分だからである。
なお、以上では、第1判定処理が複数のブロックの各々のデータのAFPと、探索窓によって選択される区間のデータのAFPとの一致性を判定する処理である形態について説明した。
しかしながら、第1判定処理は、相互相関関数を用いて、総当たり形式で複数のブロックの各々のデータに対する探索窓によって選択される区間のデータの遅延量を測定し、この測定された遅延量をもとに時間軸方向に補正して、複数のブロックの各々のデータと、探索窓によって選択される区間のデータとを時間軸方向に合わせたうえで、それぞれのサンプル値の差分を測定し、この差分が人間の聴感で感じ取れない程度の小さな値である場合に、複数のブロックの各々のデータと、探索窓によって選択される区間のデータとの一致性があると判定する処理であってもよい。
また、以上では、第2判定処理を行う形態について説明したが、第2判定処理を行わずに、第1判定処理の判定結果に基づいて、第1区間、第2区間、及び第3区間を決定し、画像を生成してもよい。この場合には、音声データの比較処理装置100は、判定処理部150を含まずに、図4に示す第1判定処理の結果を示す画像に、第1区間、第2区間、及び第3区間の違いを示す画像(斜線、黒の塗り潰し、斜めの網掛け(メッシュ)が加えられることになる。ただし、第2判定処理を行わない場合、第1判定処理で用いるAFPは、人間の聴感上で判別しうる差異を取りこぼさないレベルで厳密な比較処理ができるアルゴリズムを使用している必要がある。もしくは、AFPによる判定でなく、上記の第2判定処理で用いた相互相関関数を用いたアルゴリズムでの判定処理を行う必要がある。
また、第1判定処理及び第2判定処理という2つの判定処理を行う代わりに1回の判定処理を行い、相互相関関数を用いて、総当たり形式ではなく、オリジナルの音声データOの複数のブロックと同様に、編集音声データEを時間軸方向に複数のブロックに分割し、オリジナルの音声データOのブロックと、時間軸上で対応する編集音声データEのブロックとの1対1での相関を相互相関関数を用いて求めてもよい。この場合に、上述のような判定処理の判定結果に基づいて、第1区間、第2区間、及び第3区間を決定し、画像を生成してもよい。図7に、このような処理で得られる画像を示す。
図7は、実施の形態の変形例による音声データの比較処理装置100が音声データの比較処理を実行する際に生成する画像を示す図である。
変形例による音声データの比較処理装置100の分割処理部120は、オリジナルの音声データOに対して、時間軸方向に所定のブロック長毎に複数のブロック(区間)に分ける分割処理を行い、オリジナルの音声データOは、n個のブロックO、O、O・・・Oに分割される。これにより、図4の上段に示すオリジナルの音声データOと同様に、始点から終点までがn個のブロックO、O、O・・・Oに分割される。
また、変形例による音声データの比較処理装置100の分割処理部120は、編集音声データEについても同様に、始点から終点までをブロックE、E、E・・・Eに分割する。ブロックO、O、O・・・Oと、ブロックE、E、E・・・Eとのブロック長は互いに等しい。
そして、変形例による音声データの比較処理装置100の測定処理部140は、相互相関関数を用いて、ブロックO、O、O・・・Oと、ブロックE、E、E・・・Eとの遅延量をそれぞれ測定する。この処理は、ブロックOとブロックEとのデータの遅延量を測定し、ブロックOとブロックEとのデータの遅延量を測定し、・・・、ブロックOとブロックEとのデータの遅延量を測定する処理であり、遅延量をn回求める処理である。
そして、変形例による音声データの比較処理装置100の判定処理部150は、測定処理部140によって測定されたn個の遅延量の各々によって、時間軸方向に補正して、それぞれのデータの時間軸方向に合わせたうえで、それぞれのサンプル値の差分を測定し、この差分が人間の聴感で感じ取れない程度の小さな値であるかどうかを判定することにより、n個のブロック同士の一致性を判定する第2判定処理を行う。一致性を判定は、人間の聴感のレベルでの判定である。
そして、変形例による音声データの比較処理装置100の分類処理部160は、オリジナルの音声データ及び編集音声データを第1区間、第2区間、及び第3区間に分類し、画像生成処理部170は、オリジナルの音声データを表す帯状の第1画像と、編集音声データを表す帯状の第2画像とを生成する。また、画像生成処理部170は、一致するブロック同士を結ぶ直線の画像を生成する。
以上のような処理により、画像生成処理部170によって、例えば、図7に示すような画像が生成される。図7では、ブロックO、O、O・・・Ok−1、Ok+3・・・Oと、ブロックE、E、E・・・Ek−1、Ek+3・・・Eとがそれぞれ一致すると判定され、第1区間(斜線)の画像で表示されるとともに、画像生成処理部170によって生成された直線の画像によって結ばれている。
また、ブロックO〜Ok+2については、対応するブロックE〜Ek+2とは一致しないと判定されているため、第2区間(黒の塗り潰し)の画像として表示される。また、ブロックE〜Ek+2は、編集されたブロック(区間)であるため、第3区間(斜めの網掛け(メッシュ))の画像として表示される。
以上のような実施の形態の変形例によれば、オリジナルの音声データOと編集音声データEとを所定のブロック長毎に複数のブロックに分け、時間軸上で対応するブロックに含まれるデータ同士の一致性を1対1の比較で判定する。
この判定処理は、オリジナルの音声データOの複数のブロックと、編集音声データEの複数のブロックとのデータの遅延量を相互相関関数で求め、人間の聴感のレベルで一致するかどうかを判定する処理である。
このため、一致すると判定された編集音声データEのブロックは、人間が聴く限りオリジナルの音声データOの時間軸上で対応するブロックと同じ音声に聞こえる。
そして、一致したかどうかは、第1区間(斜線)の画像、第2区間(黒の塗り潰し)の画像、及び第3区間(斜めの網掛け(メッシュ))の画像という互いに異なる画像として表示される。
このため、編集音声データEのうちの編集作業が行われていない部分の音声データと、編集作業が行われている部分の音声データを画像で瞬時に認識でき、編集作業が行われている部分については、人間が試聴しなくてもオリジナルの音声データとの同一性が人間の聴感のレベルで保証されている。
従って、編集作業が行われていない部分の音声データと、オリジナルの音声データのうちの対応する部分とを比較し、一致性を判定できる音声データの比較処理プログラムを提供することができる。
なお、図7に示す画像を求める処理では、相互相関関数を用いた判定処理を行う形態について説明したが、相互相関関数の代わりに、AFPを用いて判定処理を行ってもよい。
ここまで、オリジナル音声データと編集音声データの比較を前提に説明したが、本発明は、単純に2つの音声データの内容の一致を比較することに用いることもできる。2つの異なる音声データから一致する個所を探索することもでき、2つの内容が同じであるはずの音声データの内容の一致を確認することもできる。
以上、本発明の例示的な実施の形態の音声データの比較処理プログラムについて説明したが、本発明は、具体的に開示された実施の形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
100 音声データの比較処理装置
110 主制御部
120 分割処理部
130 判定処理部
140 測定処理部
150 判定処理部
160 分類処理部
170 画像生成処理部
180 メモリ

Claims (6)

  1. 第1音声データを時間軸方向に所定のブロック長毎に複数のブロックに分ける分割処理と、
    前記第1音声データに対して編集が行われた第2音声データを、前記ブロックのブロック長と等しい長さを有する探索窓を用いて前記ブロック長の区間毎に順番に選択し、前記第1音声データの前記複数のブロックの各々と、前記探索窓によって選択される区間との一致性を総当たり形式で判定する第1判定処理と、
    前記第1音声データ及び前記第2音声データに含まれる前記一致性がある区間を第1区間、前記一致性がない区間のうち前記第1音声データに含まれ、前記第2音声データに含まれない区間を第2区間、前記一致性がない区間のうち前記第2音声データに含まれ、前記第1音声データに含まれない区間を第3区間に分類する分類処理と、
    前記第1音声データを表す帯状の第1画像であって、互いに表示が異なる前記第1区間、前記第2区間、及び前記第3区間のうちの前記第1区間及び前記第2区間を含む第1画像を生成するとともに、前記第2音声データを表す帯状の第2画像であって、互いに表示が異なる前記第1区間、前記第2区間、及び前記第3区間のうちの前記第1区間及び前記第3区間を含む第2画像を生成する第1画像生成処理と
    をコンピュータに実行させる、音声データの比較処理プログラム。
  2. 前記第1判定処理は、
    前記複数のブロックの各々のデータのオーディオフィンガープリントと、前記探索窓によって選択される区間のデータのオーディオフィンガープリントとの一致性を判定する処理である、請求項1記載の音声データの比較処理プログラム。
  3. 前記第1判定処理は、
    相互相関関数を用いて、前記複数のブロックの各々のデータに対する前記探索窓によって選択される区間のデータの遅延量を測定して、前記複数のブロックの各々のデータ、又は、前記探索窓によって選択される区間のデータを時間軸方向に補正して、前記複数のブロックの各々のデータと、前記探索窓によって選択される区間のデータとを時間軸方向に合わせ、
    前記時間軸方向に合わせた前記複数のブロックの各々のデータと前記探索窓によって選択される区間のデータとのサンプル値の差分を測定し、
    前記差分が人間の聴感で感じ取れない程度の小さな値である場合に、前記複数のブロックの各々のデータと、前記探索窓によって選択される区間のデータとの一致性があると判定する処理である、請求項1記載の音声データの比較処理プログラム。
  4. 前記第1判定処理によって前記一致性があると判定された、前記複数のブロックの各々のデータと、前記探索窓によって選択される区間のデータとについて、相互相関関数を用いて、前記複数のブロックの各々のデータに対する前記探索窓によって選択される区間のデータの遅延量を測定する測定処理と、
    前記第1判定処理によって前記一致性があると判定された、前記複数のブロックの各々のデータ、又は、前記探索窓によって選択される区間のデータを時間軸方向に補正して、前記第1判定処理によって前記一致性があると判定された、前記複数のブロックの各々のデータと、前記探索窓によって選択される区間のデータとを時間軸方向に合わせる処理と、
    前記時間軸方向に合わせた前記複数のブロックの各々のデータと前記探索窓によって選択される区間のデータとのサンプル値の差分を測定する処理と、
    前記差分が人間の聴感で感じ取れない程度の小さな値である場合に、前記複数のブロックの各々のデータと、前記探索窓によって選択される区間のデータとの一致性があると判定する第2判定処理と
    をさらに含み、
    前記分類処理は、
    前記第1音声データ及び前記第2音声データに含まれる前記第2判定処理における一致性がある区間を第1区間、前記第2判定処理における一致性がない区間のうち前記第1音声データに含まれ、前記第2音声データに含まれない区間を第2区間、前記第2判定処理における一致性がない区間のうち前記第2音声データに含まれ、前記第1音声データに含まれない区間を第3区間に分類する処理である、請求項1または2に記載の音声データの比較処理プログラム。
  5. 前記第1画像に含まれる前記第1区間と、当該第1区間に対応する、前記第2画像に含まれる前記第1区間との間を結ぶ線の画像を生成する第2画像生成処理をさらに含む、請求項1乃至4のいずれか一項記載の音声データの比較処理プログラム。
  6. 第1音声データと、前記第1音声データに対して編集が行われた第2音声データとを時間軸方向に所定のブロック長毎に複数のブロックに分ける分割処理と、
    前記第1音声データの前記複数のブロックと、前記第2音声データの前記複数のブロックとの時間軸上で対応するブロック同士の一致性を判定する判定処理と、
    前記第1音声データ及び前記第2音声データに含まれる前記一致性がある区間を第1区間、前記一致性がない区間のうち前記第1音声データに含まれ、前記第2音声データに含まれない区間を第2区間、前記一致性がない区間のうち前記第2音声データに含まれ、前記第1音声データに含まれない区間を第3区間に分類する分類処理と、
    前記第1音声データを表す帯状の第1画像であって、互いに表示が異なる前記第1区間、前記第2区間、及び前記第3区間のうちの前記第1区間及び前記第2区間を含む第1画像を生成するとともに、前記第2音声データを表す帯状の第2画像であって、互いに表示が異なる前記第1区間、前記第2区間、及び前記第3区間のうちの前記第1区間及び前記第3区間を含む第2画像を生成する第1画像生成処理と
    をコンピュータに実行させる、音声データの比較処理プログラム。
JP2017029658A 2017-02-21 2017-02-21 音声データの比較処理プログラム Active JP6785486B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017029658A JP6785486B2 (ja) 2017-02-21 2017-02-21 音声データの比較処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017029658A JP6785486B2 (ja) 2017-02-21 2017-02-21 音声データの比較処理プログラム

Publications (2)

Publication Number Publication Date
JP2018136389A JP2018136389A (ja) 2018-08-30
JP6785486B2 true JP6785486B2 (ja) 2020-11-18

Family

ID=63366760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017029658A Active JP6785486B2 (ja) 2017-02-21 2017-02-21 音声データの比較処理プログラム

Country Status (1)

Country Link
JP (1) JP6785486B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4109705B2 (ja) * 2007-08-23 2008-07-02 富士通株式会社 文書処理プログラム、および、文書処理方法
WO2010073695A1 (ja) * 2008-12-25 2010-07-01 日本電気株式会社 編集情報提示装置、編集情報提示方法、プログラム、及び記録媒体
EP2648418A1 (en) * 2012-04-05 2013-10-09 Thomson Licensing Synchronization of multimedia streams
JP6122814B2 (ja) * 2014-07-17 2017-04-26 富士フイルム株式会社 情報処理装置、プログラム、及びデジタル検版方法

Also Published As

Publication number Publication date
JP2018136389A (ja) 2018-08-30

Similar Documents

Publication Publication Date Title
US9613605B2 (en) Method, device and system for automatically adjusting a duration of a song
JP4703480B2 (ja) 映像内の移動体検出方法、映像システムの異常発生原因分析支援方法及び支援システム
EP1081960A1 (en) Signal processing method and video/voice processing device
JP2018514118A (ja) ビデオプログラムのセグメントの検出
CN106797498A (zh) 信息处理设备、信息处理方法和程序
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
CN104050208A (zh) 信息处理装置、信息处理方法和程序
US20150037008A1 (en) Video synchronization based on audio
US8676024B2 (en) Method and apparatus for generating data representing digests of pictures
WO2018076174A1 (zh) 一种多媒体编辑方法、装置及智能终端
EP2795402A1 (en) A method, an apparatus and a computer program for determination of an audio track
JP2016173682A (ja) 異常判定装置および異常判定方法
JP6785486B2 (ja) 音声データの比較処理プログラム
KR20180080642A (ko) 음원과 동기화되는 동영상을 편집하는 방법
KR20170130729A (ko) 동영상 데이터와 음성 데이터의 자동 편집 방법 및 컴퓨터-판독가능 매체
JP5137783B2 (ja) ハッシュ生成装置及び検証装置及びハッシュ生成プログラム及びハッシュ生成方法
CN110739006B (zh) 音频处理方法、装置、存储介质及电子设备
JP2008084021A (ja) 動画シナリオ生成方法、プログラムおよび装置
JP2000285242A (ja) 信号処理方法及び映像音声処理装置
JP2007335984A (ja) イベント終了点抽出装置、イベント終了点抽出方法および抽出プログラム
JP5962278B2 (ja) 画像処理プログラム、画像処理装置及び画像処理方法
JP2018084443A (ja) 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム
JP2003069946A (ja) 映像解析装置,映像解析方法,映像解析プログラムおよびそのプログラム記録媒体
JP2012114559A (ja) 映像処理装置、映像処理方法及び映像処理プログラム
JP2015046758A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201019

R150 Certificate of patent or registration of utility model

Ref document number: 6785486

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250