JP6785486B2

JP6785486B2 - 音声データの比較処理プログラム

Info

Publication number: JP6785486B2
Application number: JP2017029658A
Authority: JP
Inventors: 友幸西山; 久晴鈴木
Original assignee: EVIXAR INC.; Japan Broadcasting Corp
Current assignee: EVIXAR INC.; Japan Broadcasting Corp
Priority date: 2017-02-21
Filing date: 2017-02-21
Publication date: 2020-11-18
Anticipated expiration: 2037-02-21
Also published as: JP2018136389A

Description

本発明は、音声データの比較処理プログラムに関する。

従来より、番組で使用される映像素材を識別するための識別子、内容を示す情報、撮影日時、撮影場所を示す情報がそれぞれ対応付けられた第１のメタデータを含み、放送素材の編集内容を示すリストと、映像素材を識別するための識別子、内容を示す情報、撮影日時、撮影場所を示す情報がそれぞれ対応付けられた第２のメタデータの一覧とを表示する表示部と、前記第２のメタデータと、第１のメタデータとを比較する手段と、第１、第２のメタデータが対応しなかった場合、警告を報知する報知部とを備える編集装置がある（例えば、特許文献１参照）。

特開２０１０−２１９７７１号公報

ところで、ドラマやドキュメンタリー、バラエティ番組の音声・ナレーション編集や、ＢＧＭ・効果音編集等を行うＭＡ（Multi Audio）の完成品はデジタル音声データで作成されることがある。そして、完成品をもと内容の手直しが必要になった際には、オリジナルの音声データの一部を他の音声データに置き換えた編集音声データを作成したり、オリジナルの音声データの一部を削除した編集音声データを作成するような編集作業を行う場合がある。

このような場合に、編集音声データのファイルは、オリジナルの音声データのファイルをもとに編集装置上で編集作業を行い、作業内容を反映した新たな編集音声データのファイルを作成する。新たなファイルとして音声データを作成する際には、例えば、使用する編集装置のソフトウェアのバグによるノイズや時間的なずれが生じたり、人為的な編集装置の操作ミスで編集意図と異なる変更が行われる可能性があり、その場合、その音声データは完成品として不合格である。したがって、完成品の検査が必要となる。

しかしながら、従来の編集装置は、編集前のオリジナル音声データと編集後の音声データを比較して検査する機能を持たず、人間が手作業で編集音声データの全区間を聴く（画像も有る場合は視聴する）ことで検査を行っていた。

そこで、編集音声データとオリジナルの音声データの内容を比較し、一致する個所を判別し、その箇所同士を対応させ視覚的に把握できるように描画表示する、音声データの比較処理プログラムを提供し検査作業の負担を軽減することを目的とする。

本発明の実施の形態の音声データの比較処理プログラムは、第１音声データを時間軸方向に所定のブロック長毎に複数のブロックに分ける分割処理と、前記第１音声データに対して編集が行われた第２音声データを、前記ブロックのブロック長と等しい長さを有する探索窓を用いて前記ブロック長の区間毎に順番に選択し、前記第１音声データの前記複数のブロックの各々と、前記探索窓によって選択される区間との一致性を総当たり形式で判定する第１判定処理と、前記第１音声データ及び前記第２音声データに含まれる前記一致性がある区間を第１区間、前記一致性がない区間のうち前記第１音声データに含まれ、前記第２音声データに含まれない区間を第２区間、前記一致性がない区間のうち前記第２音声データに含まれ、前記第１音声データに含まれない区間を第３区間に分類する分類処理と、前記第１音声データを表す帯状の第１画像であって、互いに表示が異なる前記第１区間、前記第２区間、及び前記第３区間のうちの前記第１区間及び前記第２区間を含む第１画像を生成するとともに、前記第２音声データを表す帯状の第２画像であって、互いに表示が異なる前記第１区間、前記第２区間、及び前記第３区間のうちの前記第１区間及び前記第３区間を含む第２画像を生成する第１画像生成処理とをコンピュータに実行させる。

編集音声データとオリジナルの音声データの内容を比較し、一致する個所を判別し、その箇所同士を対応させ視覚的に把握できるように描画表示する、音声データの比較処理プログラムを提供することができる。

音声データの比較処理装置１００を示す図である。音声データの比較処理装置１００が行う音声データの比較処理を説明する図である。音声データの比較処理装置１００が行う音声データの比較処理を説明する図である。音声データの比較処理装置１００が行う音声データの比較処理を説明する図である。音声データの比較処理装置１００が音声データの比較処理を実行する際に生成する画像を示す図である。音声データの比較処理装置１００が実行する処理を示すフローチャートである。実施の形態の変形例による音声データの比較処理装置１００が音声データの比較処理を実行する際に生成する画像を示す図である。

以下、本発明の音声データの比較処理プログラムを適用した実施の形態について説明する。

＜実施の形態＞
図１は、音声データの比較処理装置１００を示す図である。音声データの比較処理装置１００は、ＣＰＵ（Central Processing Unit：中央演算装置）、ＲＡＭ(Random Access Memory)、ＲＯＭ(Read Only Memory)、ＨＤＤ（Hard Disk Drive：ハードディスクドライブ）等を内蔵するコンピュータによって実現される。音声データの比較処理装置１００には、ディスプレイ、キーボード、マウス、及びモデム等が接続される。

実施の形態の音声データの比較処理プログラムは、上述のようなコンピュータを音声データの比較処理装置１００として機能させるためのコンピュータプログラムである。

音声データの比較処理装置１００は、主制御部１１０、分割処理部１２０、判定処理部１３０、測定処理部１４０、判定処理部１５０、分類処理部１６０、画像生成処理部１７０、及びメモリ１８０を含む。

主制御部１１０、分割処理部１２０、判定処理部１３０、測定処理部１４０、判定処理部１５０、分類処理部１６０、及び画像生成処理部１７０は、コンピュータのＣＰＵが音声データの比較処理プログラムを実行することによって得られる機能ブロックを表す。メモリ１８０は、コンピュータのＲＡＭ、ＲＯＭ、及びＨＤＤに対応する。

主制御部１１０は、分割処理部１２０、判定処理部１３０、測定処理部１４０、判定処理部１５０、分類処理部１６０、及び画像生成処理部１７０が行う処理以外の処理を統括する制御部である。

分割処理部１２０は、オリジナルの音声データを時間軸方向に所定のブロック長毎に複数のブロック（区間）に分ける分割処理を行う。オリジナルの音声データは、人間の声、動物の鳴き声、その他の自然界に存在するあらゆる音、及び、人間が作り出した物が発する音や音楽等のあらゆる音であり、音源から採取した元の音や、編集を行っていない楽曲の音そのものを表すデジタルの音声データである。

オリジナルの音声データは、所定の有限の記録時間で区切られ、所定のファイル形式のデジタルデータとしてコンピュータのメモリ等に保存可能である。オリジナルの音声データは、第１音声データの一例である。

また、オリジナルの音声データに対して某かの編集処理が行われた音声データを編集音声データと称す。

編集音声データは、オリジナルの音声データをもとに、編集装置上で少なくとも一部分に編集（加工）処理が行われることによって作成される。このため、編集音声データのうちの編集処理が行われた部分は、オリジナルの音声データとは異なる。

また、編集音声データが編集装置で作成される過程で、ソフトウェアのバグや、人為的な作業ミスなどが原因でノイズの混入が生じたり、オリジナルの音声データに対する遅延が生じると、データ内容が一致しない場合が有り得る。

編集音声データは、所定の有限の記録時間で区切られ、所定のファイル形式のデジタルデータとしてコンピュータのメモリ等に保存可能である。編集音声データは、第２音声データの一例である。

判定処理部１３０は、オリジナルの音声データが分割されるブロック長と時間軸方向に等しい長さを有する探索窓を用いて、編集音声データをブロック長の区間毎に順番に選択し、オリジナルの音声データの複数のブロックの各々と、探索窓によって選択される区間との一致性を総当たり形式で判定する第１判定処理を行う。

第１判定処理は、複数のブロックの各々のデータのオーディオフィンガープリント(Audio Finger Print（ＡＦＰ）)と、探索窓によって選択される区間のデータのＡＦＰとの一致性を判定する処理である。第１判定処理の詳細については、図３を用いて後述する。

測定処理部１４０は、判定処理部１３０が行う第１判定処理によって一致性があると判定された、複数のブロックの各々のデータと、探索窓によって選択される区間のデータとについて、相互相関関数を用いて、複数のブロックの各々のデータに対する探索窓によって選択される区間のデータの遅延量を測定する測定処理を行う。

すなわち、測定処理部１４０は、判定処理部１３０が行う第１判定処理によって一致性があると判定された、オリジナルの音声データのブロックのデータと、探索窓によって選択される区間のデータとについて、相互相関関数を用いて、オリジナルの音声データのブロックのデータに対する探索窓によって選択される区間のデータの遅延量を測定する。

判定処理部１５０は、測定処理部１４０によって測定された遅延量を用いて探索窓によって選択される区間のデータを時間軸方向に補正することにより、オリジナルの音声データのブロックと、探索窓によって選択される区間のデータとを時間軸方向で合わせる。そして、判定処理部１５０は、オリジナルの音声データのブロックと、時間軸方向に補正された探索窓によって選択される区間のデータとの値をサンプル単位で比較し、一致性があると判定する第２判定処理を行う。なお、サンプルとは、オリジナルの音声データのブロックと、時間軸方向に補正された探索窓によって選択される区間のデータとの時間軸方向に並べられた各値のことであり、音の振幅（デジタル値）を表す。

第２判定処理における一致性の判断には、ディザノイズ等の意図的な微小ノイズの付加の影響を加味して、スレッショルド（しきい値）を用いて判定を行う。機器のノイズや再生環境のS/N比を考慮して、例えば−７０ｄＢＦＳ等の小さな値をスレッショルドに設定し、一致性の判断基準を人間の聴感で感じ取れないほど小さな値に設定することもできる。なお、−７０ｄＢＦＳとは、一例としてオリジナルの音声データのブロックと、時間軸方向に補正された探索窓によって選択される区間のデータとが１６ビットで表される場合に、サンプル値が取り得る−３２７６８から３２７６７までの値において、１０に相当する。

分類処理部１６０は、オリジナルの音声データ及び編集音声データの画像データの生成に際して、オリジナルの音声データ及び編集音声データを第１区間、第２区間、及び第３区間に分類する。

第１区間は、オリジナルの音声データ及び編集音声データに含まれる区間のうち、第２判定処理において一致性があると判定された区間である。すなわち、第１区間は、オリジナルの音声データ及び編集音声データのそれぞれに含まれる区間のうち、データ内容が一致する区間である。さらに換言すれば、オリジナルの音声データのコピーファイルのうち、編集作業が行われずに、かつ、コピー時に含まれ得るノイズや遅延等が人間の聴感で感じ取れない程度に小さい区間が、編集音声データに含まれる第１区間になる。このような編集音声データの第１区間には、オリジナルの音声データの中でデータ内容が一致する第１区間が存在することになる。

第２区間は、第２判定処理における一致性がない区間のうち、オリジナルの音声データに含まれ、編集音声データに含まれない区間である。第２区間は、例えば、編集音声データの中で編集作業が行われた区間にオリジナルの音声データで対応する区間、編集作業で編集音声データから削除された区間にオリジナルの音声データで対応する区間、編集作業で編集音声データの一部が他のデータに入れ替えられた区間にオリジナルの音声データで対応する区間、又は、編集音声データの中で編集作業が行われていないが、コピー時に含まれ得るノイズや遅延等が指定したスレッショルドを超えた区間にオリジナルの音声データで対応する区間等である。

第３区間は、第２判定処理における一致性がない区間のうち編集音声データに含まれ、オリジナルの音声データに含まれない区間である。第３区間は、例えば、編集音声データの中で編集作業が行われ、オリジナルの対応する区間とはデータ内容が一致しない区間、編集作業で編集音声データの一部が他のデータに入れ替えられ、オリジナルの対応する区間とはデータ内容が一致しない区間、又は、編集音声データの中で編集作業が行われていないが、コピー時に含まれ得るノイズや遅延等が指定したスレッショルドを超えたレベルになり、オリジナルの対応する区間とはデータ内容が一致しない区間等である。

画像生成処理部１７０は、オリジナルの音声データを表す帯状の第１画像と、編集音声データを表す帯状の第２画像とを生成する。第１画像は、第１区間及び第２区間を含む画像である。第２画像は、第１区間及び第３区間を含む画像である。第１区間、第２区間、及び第３区間は、ディスプレイ上で見分けが付くように、互いに異なる画像で表される。このような画像生成処理部１７０の処理は、第１画像生成処理の一例である。

また、画像生成処理部１７０は、第１画像に含まれる第１区間と、この第１区間に対応する、第２画像に含まれる第１区間との間を結ぶ線の画像を生成する。このような画像生成処理部１７０の処理は、第２画像生成処理の一例である。

メモリ１８０は、音声データの比較処理プログラムや、主制御部１１０、分割処理部１２０、判定処理部１３０、測定処理部１４０、判定処理部１５０、分類処理部１６０、及び画像生成処理部１７０が行う上述の処理等に必要なデータを格納する。

図２乃至図５は、音声データの比較処理装置１００が行う音声データの比較処理を説明する。図２乃至図５のうち、図５はディスプレイに画像として表示される最終結果を表す。図２乃至図４は、処理途中のデータを模式的に示したものであり、ディスプレイに表示される画像ではない。ここでは、オリジナルの音声データを表す帯状の第１画像をＯ（オリジナルの頭文字のＯ）と示し、編集音声データを表す帯状の第２画像をＥ（編集（エディット）の頭文字のＥ）と示す。

また、各図において、上段にオリジナルの音声データＯを示し、下段に編集音声データＥを示す。また、各図において、横方向が時間軸方向である。オリジナルの音声データＯと編集音声データＥは、時間軸に沿って伸延している。オリジナルの音声データＯと編集音声データＥの始点は左端であり、終点は右端である。

まず、図２に示すように、オリジナルの音声データＯの区間（１）に対応する編集音声データＥの区間（１）については編集作業を行わず、オリジナルの音声データＯの区間（２）に対応する編集音声データＥの区間を削除（ＣＵＴ）する編集を行い、オリジナルの音声データＯの区間（３）に対応する編集音声データＥの区間（３）については、音声データの内容についての編集作業を行わずに、時間軸方向において繰り上げる方向（図中左側の方向）にスライドさせる。また、編集音声データＥの区間（３）の後に、新たな音声データとして区間（４）を挿入する編集作業を行ったとする。

なお、区間（１）〜（４）は、いずれも複数のブロックを含む区間である。

次に、図３の上段に示すように、音声データの比較処理装置１００の分割処理部１２０は、オリジナルの音声データＯに対して、時間軸方向に所定のブロック長毎に複数のブロック（区間）に分ける分割処理を行う。オリジナルの音声データＯは、ｎ個のブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎに分割される。ブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎの時間軸方向の幅は、Ｎ秒（Ｎは任意の値）である。また、ブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎの数ｎは、任意の整数である。

また、図３の下段に示すように、判定処理部１３０は、オリジナルの音声データＯが分割されるブロック長と時間軸方向に等しい長さを有する探索窓Ｗを用いて、編集音声データＥに対して第１判定処理を行う。探索窓Ｗは、図３の下段に太枠で示す矩形状の窓であり、図３の上段に示すｎ個のブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎの各々と時間軸方向に等しい幅を有する。また、探索窓Ｗの上下方向の幅は、ブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎの各々の幅と等しくＮ秒である。すなわち、探索窓Ｗの矩形状の開口の大きさは、ブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎの各々の大きさと等しい。

判定処理部１３０は、オリジナルの音声データＯのブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎをブロックＯ_１から１つずつ選択した状態で、探索窓Ｗを用いて、編集音声データＥをブロック長の区間毎に順番に選択して、選択しているオリジナルの音声データＯのブロックと、探索窓Ｗで選択している編集音声データＥの区間とのデータのＡＦＰの一致性を判定する。

図３の下段には、判定処理部１３０がオリジナルの音声データＯのブロックＯ_２を選択している状態で、探索窓Ｗを用いて、編集音声データＥを始点から終点までブロック長の区間毎に順番に選択して、ブロックＯ_２のデータのＡＦＰと、探索窓Ｗで選択したブロックのデータのＡＦＰとの一致性を判定している状態を示す。

判定処理部１３０は、オリジナルの音声データＯのブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎのすべてについて、編集音声データＥを始点から終点までブロック長の区間毎に順番に選択して一致性を判定するため、オリジナルの音声データＯのブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎと、編集音声データＥの探索窓によって選択される区間との一致性は、総当たり形式で判定されることになる。

ＡＦＰは、音の特徴量ベクトルであり、音声データを特徴量化したデータであるため、総当たり形式の一致性（マッチング）の判定は、比較的短時間で行うことができる。音声データの比較処理装置１００は、ＡＦＰを用いた第１判定処理を行った後に、第１判定処理で一致したと判定された区間同士について、より精度の高い第２判定処理を行う。

なお、判定処理部１３０は、オリジナルの音声データＯのブロック（Ｏ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎのいずれか）と、編集音声データＥの探索窓によって選択される区間とが一致すると判定した場合には、そのときのオリジナルの音声データＯのブロックの時間的な位置と、探索窓の時間的な位置とをメモリ１８０に格納すればよい。

オリジナルの音声データＯのブロックの時間的な位置とは、オリジナルの音声データＯの始点からの経過時間、又は、そのブロックに与えられる時刻である。経過時間や時刻は、ブロックの始点と終点についてそれぞれ記録すればよい。ブロックの始点とは、時間軸方向において、ブロックの左端に相当する点であり、ブロックの終点とは、時間軸方向において、ブロックの右端に相当する点である。なお、オリジナルの音声データＯの始点における時刻は、０時００分００秒のように時刻のカウントがゼロのものであってもよいし、１０時００分００秒のように所定の時刻（１０時）が付与されたものであってもよい。

同様に、探索窓の時間的な位置とは、編集音声データＥの始点からの経過時間、又は、選択窓で選択される音声データに与えられる時刻である。探索窓の時間的な位置を定める経過時間や時刻は、探索窓の始点と終点についてそれぞれ記録すればよい。探索窓の始点とは、時間軸方向において、探索窓の左端に相当する点であり、探索窓の終点とは、時間軸方向において、探索窓の右端に相当する点である。

図４には、ＡＦＰを用いた第１判定処理の結果を示す。オリジナルの音声データＯのブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎと、編集音声データＥの区間Ｅ_１、Ｅ_２、Ｅ_３・・・Ｅ_ｘ、Ｅ_ｙとの間では、第１判定処理で一致したと判定されたデータ同士の間が直線で結ばれている。このような直線の画像は、画像生成処理部１７０によって生成される。区間Ｅ_１、Ｅ_２、Ｅ_３・・・Ｅ_ｘ、Ｅ_ｙは、第１判定処理で探索窓が配置された区間を表したものである。

画像生成処理部１７０は、メモリ１８０に格納されている第１判定処理で一致したと判定されたブロックの時間的な位置と、探索窓の時間的な位置とを用いて、直線の画像を生成する。各直線は、時間軸方向において、オリジナルの音声データＯのブロック下端の中点と、編集音声データＥの区間（Ｅ_１、Ｅ_２、Ｅ_３・・・Ｅ_ｘ、Ｅ_ｙのいずれか）の上端の中点とを結んでいる。これらの中点の時間的な位置は、メモリ１８０に格納されているブロックと探索窓の時間的な位置の始点と終点の中点の位置である。

なお、区間Ｅ_ｘ、Ｅ_ｙのｘ、ｙの値は、オリジナルの音声データＯのブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎの数ｎよりも小さい値である。

例えば、ブロックＯ_１は区間Ｅ_１及び区間Ｅ_ｘと一致したと判定されている。また、ブロックＯ_２は区間Ｅ_２及び区間Ｅ_ｙと一致したと判定されており、ブロックＯ_３は区間Ｅ_３と一致したと判定されている。また、ブロックＯ_ｋは区間Ｅ_ｘと一致したと判定されており、ブロックＯ_ｌは区間Ｅ_ｙと一致したと判定されている。ブロックＯ_ｎは一致する区間が存在しないと判定されている。

以上のように、オリジナルの音声データＯに含まれる１つのブロックが、編集音声データＥに含まれる複数の区間と一致すると判定される場合が有り得る。このように複数の区間と一致すると判定される場合には、実際に複数と一致する場合と、ＡＦＰという音の特徴量ベクトルを用いた一致性（マッチング）の判定では一致すると判定されても、人間の聴感のレベルでは、一致しないと判定される場合とが有り得る。後者については、第２判定処理で除外されることになる。

図５には、第２判定処理、分類処理、及び画像生成処理が完了した状態の画像を示す。第２判定処理の前に、測定処理部１４０によって、第１判定処理で一致性があると判定されたブロックのデータと探索窓によって選択される区間のデータとについて、相互相関関数を用いて遅延量が測定される。

そして、判定処理部１５０が第２判定処理を行うことにより、オリジナルの音声データのブロックのデータと、探索窓によって選択される区間のデータとの一致性が判定される。判定処理部１５０によって判定された一致性に基づき、分類処理部１６０は、オリジナルの音声データ及び編集音声データを第１区間、第２区間、及び第３区間に分類する。さらに、画像生成処理部１７０は、第１区間及び第２区間を含むオリジナルの音声データＯを表す第１画像と、第１区間及び第３区間を含む編集音声データＥを表す帯状の第２画像とを生成する。

この結果、図５に示すような画像が生成される。図５では、オリジナルの音声データＯのブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎと、編集音声データＥの区間Ｅ_１、Ｅ_２、Ｅ_３・・・Ｅ_ｘ、Ｅ_ｙとの間には、第２判定処理で一致したと判定されたデータ同士の間に直線が引かれている。

第２判定処理は、第１判定処理で一致したと判定されたデータ同士について行われるため、図５で直線で結ばれているブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｋ、Ｏ_ｌ等と、区間Ｅ_１、Ｅ_２、Ｅ_３・・・Ｅ_ｘ、Ｅ_ｙとの間は、直線で結ばれている。このような直線の画像は、画像生成処理部１７０によって生成される。

また、図５では、オリジナルの音声データＯのブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎのうち、第２判定処理で一致する区間が見つかったブロックは、斜線で示されている。ブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎのうち斜線で示されているブロックは、オリジナルの音声データＯに含まれる第１区間である。

また、区間Ｅ_１、Ｅ_２、Ｅ_３・・・Ｅ_ｘ、Ｅ_ｙのうち第２判定処理で一致するブロックが見つかった区間は、斜線で示されている。斜線で示されている区間は、編集音声データＥに含まれる第１区間である。

すなわち、ブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎと、区間Ｅ_１、Ｅ_２、Ｅ_３・・・Ｅ_ｘ、Ｅ_ｙとのうち、直線で結ばれているブロック及び区間は、それぞれ、オリジナルの音声データＯ及び編集音声データＥに含まれる第１区間である。斜線で示す第１区間は、実際の音声データの比較処理装置１００ではカラー表示され、例えば、みどり色に表示される。

また、オリジナルの音声データＯのうち、第２判定処理で一致する区間が見つからなかったブロックは、黒く塗り潰されている。図５では、オリジナルの音声データＯのうち、ブロックＯ_ｎを含む４つのブロックが黒く塗り潰されている。これら４つのブロックは、オリジナルの音声データＯに含まれ、編集音声データＥに含まれない第２区間である。黒く塗り潰される第２区間は、実際の音声データの比較処理装置１００においても、一例として、黒色に表示される。

また、編集音声データＥのうち、第２判定処理で一致する区間が見つからなかったブロックは、斜めの網掛け（メッシュ）で表示されている。図５では、編集音声データＥのうち、最後尾の３つのブロックが斜めの網掛け（メッシュ）で表示されている。これら３つのブロックは、オリジナルの音声データＯに含まれず、編集音声データＥに含まれる第３区間である。斜めの網掛け（メッシュ）で表示されている第３区間は、実際の音声データの比較処理装置１００ではカラー表示され、例えば、赤色に表示される。なお、図５に示すオリジナルの音声データＯと編集音声データＥに、音声信号を表す波形を重ねて表示してもよい。

図６は、音声データの比較処理装置１００が実行する処理を示すフローチャートである。

分割処理部１２０は、オリジナルの音声データＯに対して、時間軸方向に所定のブロック長毎に複数のブロック（区間）に分ける分割処理を行う（ステップＳ１）。

これにより、図３の上段に示すように、オリジナルの音声データＯが時間軸方向に複数のブロックに分けられる。

次いで、判定処理部１３０は、探索窓Ｗを用いて、編集音声データＥに対して第１判定処理を行う（ステップＳ２）。これにより、図３の下段に示すように、ブロック長と等しい長さの探索窓Ｗが用いられて、編集音声データＥに対して第１判定処理が行われる。

次いで、画像生成処理部１７０は、第１判定処理で一致したと判定されたブロックの時間的な位置と、探索窓の時間的な位置とを用いて、直線の画像を生成する（ステップＳ３）。これにより、図４に示すように、第１判定処理で一致したと判定されたオリジナルの音声データＯのブロックと、編集音声データＥの区間との間を結ぶ直線の画像が表示される。

次いで、測定処理部１４０は、第１判定処理で一致性があると判定されたブロックのデータと、探索窓によって選択される区間のデータとについて、相互相関関数を用いて遅延量を測定する（ステップＳ４）。

次いで、判定処理部１５０は、測定処理部１４０によって測定された遅延量を用いてブロックのデータと、探索窓によって選択される区間のデータと時間のずれを補正し、聴感では区別できないほど小さな閾値でサンプル値単位の比較を行うことで一致性を判定する第２判定処理を行う（ステップＳ５）。

次いで、分類処理部１６０は、オリジナルの音声データ及び編集音声データを第１区間、第２区間、及び第３区間に分類する（ステップＳ６）。

次いで、画像生成処理部１７０は、オリジナルの音声データを表す帯状の第１画像と、編集音声データを表す帯状の第２画像とを生成する（ステップＳ７）。第１画像は、第１区間及び第２区間を含み、第２画像は、第１区間及び第３区間を含む。

以上で一連の処理が終了する。

以上、実施の形態によれば、オリジナルの音声データＯを所定のブロック長毎に複数のブロックに分け、オリジナルの音声データＯの各ブロックと、編集音声データＥの探索窓で選択される区間とについて、ＡＦＰを用いた一致性の第１判定処理を総当たり形式で行う。

そして、第１判定処理で一致すると判定されるブロック（オリジナルの音声データＯのブロック）と区間（編集音声データＥの中で探索窓で選択された区間）との組み合わせについて、第２判定処理を行うことによって、オリジナルの音声データＯと、編集音声データＥとの一致性を判定する。

この判定処理は、オリジナルの音声データＯと、編集音声データＥとの一致性を相互相関関数で求める遅延量に基づいて、人間の聴感のレベルで一致するかどうかを判定する処理である。

このため、一致すると判定された編集音声データＥの区間は、人間が聴く限りオリジナルの音声データＯの時間軸上で対応するブロックと同じ音声に聞こえる。

そして、一致したかどうかは、第１区間（斜線）の画像、第２区間（黒の塗り潰し）の画像、及び第３区間（斜めの網掛け（メッシュ））の画像という互いに異なる画像として表示される。

このため、編集音声データＥのうちの編集作業が行われていない部分の音声データと、編集作業が行われている部分の音声データを画像で瞬時に認識でき、編集作業が行われている部分については、人間が試聴しなくてもオリジナルの音声データとの同一性が人間の聴感のレベルで保証されている。

従って、編集音声データのうちの編集作業が行われていない部分の音声データと、オリジナルの音声データのうちの対応する部分とを比較し、一致性を判定できる、音声データの比較処理プログラムを提供することができる。

また、実施の形態では、ＡＦＰを用いた一致性の第１判定処理を総当たり形式で行い、ＡＦＰを用いた一致性の判定よりも精度が高い判定が可能な相互相関関数を用いた第２判定処理の処理対象を絞る。処理対象は、第１判定処理で一致すると判定されるブロック（オリジナルの音声データＯのブロック）と区間（編集音声データＥの中で探索窓で選択された区間）との組み合わせである。

そして、処理対象を絞った上で第２判定処理を行うので、ＡＦＰを用いた一致性の第１判定処理を比較的高速で処理できるようなコンピュータの環境である場合に、より計算量の多い相互相関関数を用いた第２判定処理の処理対象を減らすことにより、全体の処理速度を高速化することができる。

また、第２判定処理については、人間の聴感のレベルでの一致性を判定基準とするので、人間の聴感のレベルでのデータの一致性を判定できる音声データの比較処理プログラムを提供することができる。編集音声データＥの音声を聴くのは人間であるため、人間の聴感で感じ取れない程度の小さな値を判定基準に用いれば、十分だからである。

なお、以上では、第１判定処理が複数のブロックの各々のデータのＡＦＰと、探索窓によって選択される区間のデータのＡＦＰとの一致性を判定する処理である形態について説明した。

しかしながら、第１判定処理は、相互相関関数を用いて、総当たり形式で複数のブロックの各々のデータに対する探索窓によって選択される区間のデータの遅延量を測定し、この測定された遅延量をもとに時間軸方向に補正して、複数のブロックの各々のデータと、探索窓によって選択される区間のデータとを時間軸方向に合わせたうえで、それぞれのサンプル値の差分を測定し、この差分が人間の聴感で感じ取れない程度の小さな値である場合に、複数のブロックの各々のデータと、探索窓によって選択される区間のデータとの一致性があると判定する処理であってもよい。

また、以上では、第２判定処理を行う形態について説明したが、第２判定処理を行わずに、第１判定処理の判定結果に基づいて、第１区間、第２区間、及び第３区間を決定し、画像を生成してもよい。この場合には、音声データの比較処理装置１００は、判定処理部１５０を含まずに、図４に示す第１判定処理の結果を示す画像に、第１区間、第２区間、及び第３区間の違いを示す画像（斜線、黒の塗り潰し、斜めの網掛け（メッシュ）が加えられることになる。ただし、第２判定処理を行わない場合、第１判定処理で用いるAFPは、人間の聴感上で判別しうる差異を取りこぼさないレベルで厳密な比較処理ができるアルゴリズムを使用している必要がある。もしくは、AFPによる判定でなく、上記の第２判定処理で用いた相互相関関数を用いたアルゴリズムでの判定処理を行う必要がある。

また、第１判定処理及び第２判定処理という２つの判定処理を行う代わりに１回の判定処理を行い、相互相関関数を用いて、総当たり形式ではなく、オリジナルの音声データＯの複数のブロックと同様に、編集音声データＥを時間軸方向に複数のブロックに分割し、オリジナルの音声データＯのブロックと、時間軸上で対応する編集音声データＥのブロックとの１対１での相関を相互相関関数を用いて求めてもよい。この場合に、上述のような判定処理の判定結果に基づいて、第１区間、第２区間、及び第３区間を決定し、画像を生成してもよい。図７に、このような処理で得られる画像を示す。

図７は、実施の形態の変形例による音声データの比較処理装置１００が音声データの比較処理を実行する際に生成する画像を示す図である。

変形例による音声データの比較処理装置１００の分割処理部１２０は、オリジナルの音声データＯに対して、時間軸方向に所定のブロック長毎に複数のブロック（区間）に分ける分割処理を行い、オリジナルの音声データＯは、ｎ個のブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎに分割される。これにより、図４の上段に示すオリジナルの音声データＯと同様に、始点から終点までがｎ個のブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎに分割される。

また、変形例による音声データの比較処理装置１００の分割処理部１２０は、編集音声データＥについても同様に、始点から終点までをブロックＥ_１、Ｅ_２、Ｅ_３・・・Ｅ_ｎに分割する。ブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎと、ブロックＥ_１、Ｅ_２、Ｅ_３・・・Ｅ_ｎとのブロック長は互いに等しい。

そして、変形例による音声データの比較処理装置１００の測定処理部１４０は、相互相関関数を用いて、ブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｎと、ブロックＥ_１、Ｅ_２、Ｅ_３・・・Ｅ_ｎとの遅延量をそれぞれ測定する。この処理は、ブロックＯ_１とブロックＥ_１とのデータの遅延量を測定し、ブロックＯ_２とブロックＥ_２とのデータの遅延量を測定し、・・・、ブロックＯ_ｎとブロックＥ_ｎとのデータの遅延量を測定する処理であり、遅延量をｎ回求める処理である。

そして、変形例による音声データの比較処理装置１００の判定処理部１５０は、測定処理部１４０によって測定されたｎ個の遅延量の各々によって、時間軸方向に補正して、それぞれのデータの時間軸方向に合わせたうえで、それぞれのサンプル値の差分を測定し、この差分が人間の聴感で感じ取れない程度の小さな値であるかどうかを判定することにより、ｎ個のブロック同士の一致性を判定する第２判定処理を行う。一致性を判定は、人間の聴感のレベルでの判定である。

そして、変形例による音声データの比較処理装置１００の分類処理部１６０は、オリジナルの音声データ及び編集音声データを第１区間、第２区間、及び第３区間に分類し、画像生成処理部１７０は、オリジナルの音声データを表す帯状の第１画像と、編集音声データを表す帯状の第２画像とを生成する。また、画像生成処理部１７０は、一致するブロック同士を結ぶ直線の画像を生成する。

以上のような処理により、画像生成処理部１７０によって、例えば、図７に示すような画像が生成される。図７では、ブロックＯ_１、Ｏ_２、Ｏ_３・・・Ｏ_ｋ−１、Ｏ_ｋ＋３・・・Ｏ_ｎと、ブロックＥ_１、Ｅ_２、Ｅ_３・・・Ｅ_ｋ−１、Ｅ_ｋ＋３・・・Ｅ_ｎとがそれぞれ一致すると判定され、第１区間（斜線）の画像で表示されるとともに、画像生成処理部１７０によって生成された直線の画像によって結ばれている。

また、ブロックＯ_ｋ〜Ｏ_ｋ＋２については、対応するブロックＥ_ｋ〜Ｅ_ｋ＋２とは一致しないと判定されているため、第２区間（黒の塗り潰し）の画像として表示される。また、ブロックＥ_ｋ〜Ｅ_ｋ＋２は、編集されたブロック（区間）であるため、第３区間（斜めの網掛け（メッシュ））の画像として表示される。

以上のような実施の形態の変形例によれば、オリジナルの音声データＯと編集音声データＥとを所定のブロック長毎に複数のブロックに分け、時間軸上で対応するブロックに含まれるデータ同士の一致性を１対１の比較で判定する。

この判定処理は、オリジナルの音声データＯの複数のブロックと、編集音声データＥの複数のブロックとのデータの遅延量を相互相関関数で求め、人間の聴感のレベルで一致するかどうかを判定する処理である。

このため、一致すると判定された編集音声データＥのブロックは、人間が聴く限りオリジナルの音声データＯの時間軸上で対応するブロックと同じ音声に聞こえる。

従って、編集作業が行われていない部分の音声データと、オリジナルの音声データのうちの対応する部分とを比較し、一致性を判定できる音声データの比較処理プログラムを提供することができる。

なお、図７に示す画像を求める処理では、相互相関関数を用いた判定処理を行う形態について説明したが、相互相関関数の代わりに、ＡＦＰを用いて判定処理を行ってもよい。

ここまで、オリジナル音声データと編集音声データの比較を前提に説明したが、本発明は、単純に２つの音声データの内容の一致を比較することに用いることもできる。２つの異なる音声データから一致する個所を探索することもでき、２つの内容が同じであるはずの音声データの内容の一致を確認することもできる。

以上、本発明の例示的な実施の形態の音声データの比較処理プログラムについて説明したが、本発明は、具体的に開示された実施の形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

１００音声データの比較処理装置
１１０主制御部
１２０分割処理部
１３０判定処理部
１４０測定処理部
１５０判定処理部
１６０分類処理部
１７０画像生成処理部
１８０メモリ

Claims

第１音声データを時間軸方向に所定のブロック長毎に複数のブロックに分ける分割処理と、
前記第１音声データに対して編集が行われた第２音声データを、前記ブロックのブロック長と等しい長さを有する探索窓を用いて前記ブロック長の区間毎に順番に選択し、前記第１音声データの前記複数のブロックの各々と、前記探索窓によって選択される区間との一致性を総当たり形式で判定する第１判定処理と、
前記第１音声データ及び前記第２音声データに含まれる前記一致性がある区間を第１区間、前記一致性がない区間のうち前記第１音声データに含まれ、前記第２音声データに含まれない区間を第２区間、前記一致性がない区間のうち前記第２音声データに含まれ、前記第１音声データに含まれない区間を第３区間に分類する分類処理と、
前記第１音声データを表す帯状の第１画像であって、互いに表示が異なる前記第１区間、前記第２区間、及び前記第３区間のうちの前記第１区間及び前記第２区間を含む第１画像を生成するとともに、前記第２音声データを表す帯状の第２画像であって、互いに表示が異なる前記第１区間、前記第２区間、及び前記第３区間のうちの前記第１区間及び前記第３区間を含む第２画像を生成する第１画像生成処理と
をコンピュータに実行させる、音声データの比較処理プログラム。
前記第１判定処理は、
前記複数のブロックの各々のデータのオーディオフィンガープリントと、前記探索窓によって選択される区間のデータのオーディオフィンガープリントとの一致性を判定する処理である、請求項１記載の音声データの比較処理プログラム。
前記第１判定処理は、
相互相関関数を用いて、前記複数のブロックの各々のデータに対する前記探索窓によって選択される区間のデータの遅延量を測定して、前記複数のブロックの各々のデータ、又は、前記探索窓によって選択される区間のデータを時間軸方向に補正して、前記複数のブロックの各々のデータと、前記探索窓によって選択される区間のデータとを時間軸方向に合わせ、
前記時間軸方向に合わせた前記複数のブロックの各々のデータと前記探索窓によって選択される区間のデータとのサンプル値の差分を測定し、
前記差分が人間の聴感で感じ取れない程度の小さな値である場合に、前記複数のブロックの各々のデータと、前記探索窓によって選択される区間のデータとの一致性があると判定する処理である、請求項１記載の音声データの比較処理プログラム。
前記第１判定処理によって前記一致性があると判定された、前記複数のブロックの各々のデータと、前記探索窓によって選択される区間のデータとについて、相互相関関数を用いて、前記複数のブロックの各々のデータに対する前記探索窓によって選択される区間のデータの遅延量を測定する測定処理と、
前記第１判定処理によって前記一致性があると判定された、前記複数のブロックの各々のデータ、又は、前記探索窓によって選択される区間のデータを時間軸方向に補正して、前記第１判定処理によって前記一致性があると判定された、前記複数のブロックの各々のデータと、前記探索窓によって選択される区間のデータとを時間軸方向に合わせる処理と、
前記時間軸方向に合わせた前記複数のブロックの各々のデータと前記探索窓によって選択される区間のデータとのサンプル値の差分を測定する処理と、
前記差分が人間の聴感で感じ取れない程度の小さな値である場合に、前記複数のブロックの各々のデータと、前記探索窓によって選択される区間のデータとの一致性があると判定する第２判定処理と
をさらに含み、
前記分類処理は、
前記第１音声データ及び前記第２音声データに含まれる前記第２判定処理における一致性がある区間を第１区間、前記第２判定処理における一致性がない区間のうち前記第１音声データに含まれ、前記第２音声データに含まれない区間を第２区間、前記第２判定処理における一致性がない区間のうち前記第２音声データに含まれ、前記第１音声データに含まれない区間を第３区間に分類する処理である、請求項１または２に記載の音声データの比較処理プログラム。
前記第１画像に含まれる前記第１区間と、当該第１区間に対応する、前記第２画像に含まれる前記第１区間との間を結ぶ線の画像を生成する第２画像生成処理をさらに含む、請求項１乃至４のいずれか一項記載の音声データの比較処理プログラム。
第１音声データと、前記第１音声データに対して編集が行われた第２音声データとを時間軸方向に所定のブロック長毎に複数のブロックに分ける分割処理と、
前記第１音声データの前記複数のブロックと、前記第２音声データの前記複数のブロックとの時間軸上で対応するブロック同士の一致性を判定する判定処理と、
前記第１音声データ及び前記第２音声データに含まれる前記一致性がある区間を第１区間、前記一致性がない区間のうち前記第１音声データに含まれ、前記第２音声データに含まれない区間を第２区間、前記一致性がない区間のうち前記第２音声データに含まれ、前記第１音声データに含まれない区間を第３区間に分類する分類処理と、
前記第１音声データを表す帯状の第１画像であって、互いに表示が異なる前記第１区間、前記第２区間、及び前記第３区間のうちの前記第１区間及び前記第２区間を含む第１画像を生成するとともに、前記第２音声データを表す帯状の第２画像であって、互いに表示が異なる前記第１区間、前記第２区間、及び前記第３区間のうちの前記第１区間及び前記第３区間を含む第２画像を生成する第１画像生成処理と
をコンピュータに実行させる、音声データの比較処理プログラム。