JP5031793B2 - Tamper detection system, watermark information embedding device, tamper detection device, watermark information embedding method, and tamper detection method - Google Patents
Tamper detection system, watermark information embedding device, tamper detection device, watermark information embedding method, and tamper detection method Download PDFInfo
- Publication number
- JP5031793B2 JP5031793B2 JP2009118329A JP2009118329A JP5031793B2 JP 5031793 B2 JP5031793 B2 JP 5031793B2 JP 2009118329 A JP2009118329 A JP 2009118329A JP 2009118329 A JP2009118329 A JP 2009118329A JP 5031793 B2 JP5031793 B2 JP 5031793B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- audio
- watermark information
- feature amount
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
本発明は、フレーム単位で音声データと映像データとを含むコンテンツの改ざんを検出する技術に関する。 The present invention relates to a technique for detecting falsification of content including audio data and video data in units of frames.
下記の特許文献1には、ビデオデータとオーディオデータの組について、オーディオデータから32ビットのオーディオ透かしデータを作成してビデオデータに埋め込むと共に、ビデオデータから48ビットのビデオ透かしデータを作成してオーディオデータに埋め込むことにより、オーディオデータのみ、あるいは、ビデオデータのみのすげ替えを防止する技術が開示されている。
In
データの改ざんを高い精度で検出するためには、当該データの特徴を示すより多くの情報を、透かしとして当該データに埋め込む必要がある。しかし、改ざん判定の対象となるデータのデータ量に対して、透かし情報のデータ量の割合があまりに高すぎると、改ざん判定の対象となる本来のデータが劣化する場合がある。そのため、改ざん判定の対象となるデータの劣化を抑えつつ、改ざん検出の精度を高く保つには、対象となるデータに対する透かし情報の割合を、例えば1%程度とする場合がある。 In order to detect falsification of data with high accuracy, it is necessary to embed more information indicating the characteristics of the data in the data as a watermark. However, if the ratio of the data amount of the watermark information is too high with respect to the data amount of the data that is subject to falsification determination, the original data that is subject to falsification determination may be degraded. Therefore, in order to keep the accuracy of falsification detection while suppressing deterioration of data that is subject to falsification determination, the ratio of watermark information to the target data may be about 1%, for example.
また、上記した特許文献1の技術のように、ビデオデータとオーディオデータとを組にして互いの透かし情報を埋め込むことによりお互いを紐付ける場合、ビデオデータとオーディオデータとを同一の時間間隔でブロック化する必要がある。同一の時間間隔でブロック化した場合、ビデオデータのデータ量は、オーディオデータのデータ量の数百倍程度になる場合がある。そのため、ビデオデータの改ざん検出精度を、オーディオデータの改ざん検出精度と同程度にするためには、ビデオデータの透かし情報は、オーディオデータの透かし情報の数百倍にする必要がある。
Further, as in the technique of
しかし、上記した特許文献1の技術では、ビデオデータの透かし情報は、オーディオデータの透かし情報の1.5倍程度となっている。そのため、オーディオデータの特徴を示す透かし情報のデータ量が、改ざん判定の対象となるオーディオデータのデータ量の例えば1%程度となっている場合には、ビデオデータの特徴を示す透かし情報のデータ量は、改ざん検出の対象となるビデオデータのデータ量の1%に満たないことになり、ビデオデータの改ざん検出精度が低くなってしまう可能性がある。
However, in the technique disclosed in
逆に、ビデオデータの特徴を示す透かし情報のデータ量が、改ざん検出の対象となるビデオデータのデータ量の1%となっている場合には、オーディオデータの特徴を示す透かし情報のデータ量は、改ざん検出の対象となるオーディオデータのデータ量の例えば1%より多いことになり、本来のオーディオデータの品質が損なわれてしまう可能性がある。 Conversely, when the amount of watermark information indicating the characteristics of video data is 1% of the amount of video data targeted for falsification detection, the amount of watermark information indicating the characteristics of audio data is This means that the amount of audio data to be tampered with is greater than, for example, 1%, and the quality of the original audio data may be impaired.
また、単純に、オーディオデータおよびビデオデータについてそれぞれ1%のデータ量の透かし情報を作成してビデオデータおよびオーディオデータにそれぞれ埋め込むことも考えられるが、ビデオデータの透かし情報のデータ量はオーディオデータの透かし情報のデータ量よりも多くなるため(例えば数百倍)、本来のオーディオデータの品質が損なわれてしまうことになる。 In addition, it is conceivable to simply create watermark information of 1% data amount for audio data and video data and embed them in video data and audio data, respectively. Since the amount of data of the watermark information is larger (for example, several hundred times), the quality of the original audio data is impaired.
本発明は上記事情を鑑みてなされたものであり、本発明の目的は、音声データと映像データとの紐付けを行ないつつ、それぞれについて、改ざん検出精度を高く保つと共に、元のデータの品質劣化を低く抑えることにある。 The present invention has been made in view of the above circumstances, and an object of the present invention is to maintain high tampering detection accuracy for each of the audio data and the video data and to deteriorate the quality of the original data. Is to keep it low.
上記課題を解決するために本発明では、音声データから音声特徴量を作成すると共に、映像データから映像特徴量を作成し、音声特徴量の一部および映像特徴量の一部を音声データに埋め込むと共に、音声特徴量の残りの部分および映像特徴量の残りの部分を映像データに埋め込む。 In order to solve the above problems, in the present invention, an audio feature amount is created from audio data, a video feature amount is created from video data, and part of the audio feature amount and part of the video feature amount are embedded in the audio data. At the same time, the remaining part of the audio feature quantity and the remaining part of the video feature quantity are embedded in the video data.
例えば、本発明は、フレーム単位で音声データと映像データとを含むコンテンツの改ざんを検出する改ざん検出システムであって、
フレーム単位で音声データおよび映像データに透かし情報を埋め込む透かし情報埋込装置と、
フレーム単位で透かし情報が埋め込まれた音声データおよび映像データから透かし情報を読み出して、音声データおよび映像データの改ざんの有無を判定する改ざん検出装置と
を備え、
前記透かし情報埋込装置は、
外部から音声を取得してフレーム単位で音声データに変換する音声データ作成部と、
フレーム単位で、前記音声データ作成部によって作成された音声データ中の予め定められたビットを、音声透かし情報のビットに置き換えることにより、音声透かし情報を音声データに埋め込んで出力する音声透かし埋込部と、
フレーム単位で、前記音声透かし埋込部によって音声透かし情報が埋め込まれた音声データ中の音声透かし情報が埋め込まれていないビットから音声特徴量を抽出する第1の音声特徴量抽出部と、
外部から映像を取得してフレーム単位で映像データに変換する映像データ作成部と、
フレーム単位で、前記映像データ作成部によって作成された映像データ中の予め定められたビットを、映像透かし情報のビットに置き換えることにより、映像透かし情報を映像データに埋め込んで出力する映像透かし埋込部と、
フレーム単位で、前記映像透かし埋込部によって映像透かし情報が埋め込まれた映像データ中の映像透かし情報が埋め込まれていないビットから映像特徴量を抽出する第1の映像特徴量抽出部と、
フレーム単位で、前記音声特徴量の一部および前記映像特徴量の一部を含む音声透かし情報を作成し、作成した音声透かし情報を前記音声透かし埋込部に供給すると共に、フレーム単位で、前記音声特徴量の残りの部分および前記映像特徴量の残りの部分を含む映像透かし情報を作成し、作成した映像透かし情報を前記映像透かし埋込部に供給する透かし情報作成部と
を有し、
前記改ざん検出装置は、
フレーム単位で、音声データ中の音声透かし情報が埋め込まれるべきビット位置から音声透かし情報を抽出する音声透かし抽出部と、
フレーム単位で、音声データ中の音声透かし情報が埋め込まれていないビット位置から音声特徴量を抽出する第2の音声特徴量抽出部と、
フレーム単位で、映像データ中の映像透かし情報が埋め込まれるべきビット位置から映像透かし情報を抽出する映像透かし抽出部と、
フレーム単位で、映像データ中の映像透かし情報が埋め込まれていないビット位置から映像特徴量を抽出する第2の映像特徴量抽出部と、
フレーム単位で、前記音声透かし抽出部によって抽出された音声透かし情報から音声特徴量の一部および映像特徴量の一部を抽出し、フレーム単位で、前記映像透かし抽出部によって抽出された映像透かし情報から音声特徴量の残りの部分および映像特徴量の残りの部分を抽出し、フレーム単位で、抽出したデータから音声特徴量および映像特徴量をそれぞれ再構成する特徴量再構成部と、
フレーム単位で、前記第2の音声特徴量抽出部によって抽出された音声特徴量と、前記特徴量再構成部によって再構成された音声特徴量とを比較することにより、音声データの改ざんの有無を示す情報を出力する音声データ改ざん検出部と、
フレーム単位で、前記第2の映像特徴量抽出部によって抽出された映像特徴量と、前記特徴量再構成部によって再構成された映像特徴量とを比較することにより、映像データの改ざんの有無を示す情報を出力する映像データ改ざん検出部と
を有することを特徴とする改ざん検出システムを提供する。
For example, the present invention is a falsification detection system that detects falsification of content including audio data and video data in units of frames,
A watermark information embedding device for embedding watermark information in audio data and video data in frame units;
A tamper detection device that reads watermark information from audio data and video data in which watermark information is embedded in units of frames, and determines whether the audio data and video data have been tampered with;
The watermark information embedding device comprises:
An audio data creation unit that obtains audio from the outside and converts it into audio data in units of frames;
An audio watermark embedding unit that embeds audio watermark information in audio data and outputs it by replacing predetermined bits in the audio data created by the audio data creation unit in units of frames with bits of audio watermark information When,
A first audio feature amount extraction unit that extracts an audio feature amount from a bit in which audio watermark information is not embedded in the audio data in which the audio watermark information is embedded by the audio watermark embedding unit;
A video data creation unit that acquires video from outside and converts it into video data in units of frames;
A video watermark embedding unit that embeds video watermark information in video data and outputs the video watermark information by replacing predetermined bits in the video data created by the video data creation unit in units of frames with bits of video watermark information When,
A first video feature amount extraction unit that extracts a video feature amount from a bit in which video watermark information is not embedded in the video data in which the video watermark information is embedded by the video watermark embedding unit in units of frames;
Create audio watermark information including a part of the audio feature amount and a part of the video feature amount in frame units, supply the generated audio watermark information to the audio watermark embedding unit, and in frame units, A watermark information creating unit that creates video watermark information including the remaining part of the audio feature and the remaining part of the video feature, and supplies the created video watermark information to the video watermark embedding unit;
The tampering detection device includes:
An audio watermark extraction unit that extracts audio watermark information from a bit position in which audio watermark information in audio data is to be embedded in units of frames;
A second audio feature amount extraction unit that extracts an audio feature amount from a bit position in which audio watermark information is not embedded in the audio data in units of frames;
A video watermark extraction unit that extracts video watermark information from a bit position in which video watermark information in video data is to be embedded in a frame unit;
A second video feature amount extraction unit that extracts a video feature amount from a bit position in which video watermark information in video data is not embedded in a frame unit;
The video watermark information extracted by the video watermark extraction unit by extracting a part of the audio feature amount and a part of the video feature amount from the audio watermark information extracted by the audio watermark extraction unit for each frame. A feature amount reconstructing unit that extracts the remaining portion of the audio feature amount and the remaining portion of the video feature amount from the frame, and reconstructs the audio feature amount and the video feature amount from the extracted data in units of frames,
By comparing the voice feature quantity extracted by the second voice feature quantity extraction unit with the voice feature quantity reconstructed by the feature quantity reconstruction unit in units of frames, whether or not the voice data has been tampered with is determined. An audio data alteration detection unit that outputs information indicating
By comparing the video feature quantity extracted by the second video feature quantity extraction unit with the video feature quantity reconstructed by the feature quantity reconstruction unit in units of frames, the presence or absence of alteration of the video data is determined. There is provided a falsification detection system including a video data falsification detection unit that outputs information to be displayed.
本発明の改ざん検出システムによれば、音声データと映像データとの紐付けを行ないつつ、それぞれについて、改ざん検出精度を高く保つと共に、元のデータの品質劣化を抑えることができる。 According to the falsification detection system of the present invention, it is possible to maintain high falsification detection accuracy and suppress deterioration in quality of original data while associating audio data and video data.
まず、本発明の第1の実施形態について説明する。 First, a first embodiment of the present invention will be described.
図1は、本発明の一実施形態に係る改ざん検出システム10の構成の一例を示すシステム構成図である。改ざん検出システム10は、透かし情報埋込装置20および改ざん検出装置30を備える。
FIG. 1 is a system configuration diagram showing an example of a configuration of a
透かし情報埋込装置20は、マイク11を介して音声を取り込んでフレーム毎に音声データを作成し、作成した音声データから音声特徴量を抽出すると共に、カメラ12を介して映像を取り込んでフレーム毎に映像データを作成し、作成した映像データから映像特徴量を抽出する。そして、透かし情報埋込装置20は、音声特徴量の一部および映像特徴量の一部を含む音声透かし情報を音声データに埋め込むと共に、音声特徴量の残りの部分および映像特徴量の残りの部分を含む映像透かし情報を映像データに埋め込む。そして、透かし情報埋込装置20は、透かし情報を埋め込んだ音声データおよび映像データをフレーム毎にコンテンツデータとして記録媒体13に記録する。
The watermark
改ざん検出装置30は、記録媒体13からコンテンツデータをフレーム毎に読み出し、読み出したコンテンツデータをスピーカ14および表示装置15を介して再生すると共に、当該コンテンツデータに含まれる音声データから音声特徴量および音声透かし情報を抽出し、当該コンテンツデータに含まれる映像データから映像特徴量および映像透かし情報を抽出する。そして、改ざん検出装置30は、抽出した音声透かし情報および映像透かし情報から、音声特徴量および映像特徴量を復元する。
The
そして、改ざん検出装置30は、コンテンツデータに含まれる音声データから抽出した音声特徴量と、復元した音声特徴量とを比較することにより、音声データの改ざんの有無をフレーム毎に判定し、音声データに改ざんがあった場合にその旨を表示装置15に表示する。また、改ざん検出装置30は、コンテンツデータに含まれる映像データから抽出した映像特徴量と、復元した映像特徴量とを比較することにより、映像データの改ざんの有無をフレーム毎に判定し、映像データに改ざんがあった場合にその旨を表示装置15に表示する。
Then, the
図2は、透かし情報埋込装置20の機能構成の一例を示すブロック図である。透かし情報埋込装置20は、音声データ作成部200、映像データ作成部201、音声透かし埋込部202、透かし情報作成部203、映像透かし埋込部204、音声特徴量抽出部205、音声特徴量遅延部206、映像特徴量遅延部207、映像特徴量抽出部208、およびコンテンツ記録部209を有する。透かし情報埋込装置20内の各機能の動作については、図3以降のフローチャートを用いて説明する。
FIG. 2 is a block diagram illustrating an example of a functional configuration of the watermark
図3は、透かし情報埋込装置20の動作の一例を示すフローチャートである。透かし情報埋込装置20は、所定の時間間隔(本実施形態では1秒)のフレーム毎に音声および映像を取り込んで、それぞれ音声データおよび映像データとして処理する。そのため、透かし情報埋込装置20は、1フレーム毎に、図3のフローチャートに示す処理を実行する。
FIG. 3 is a flowchart showing an example of the operation of the watermark
まず、音声データ作成部200は、マイク11を介して1フレーム分の音声を取り込み、音声データxa[i](0≦i<XA)を作成して音声透かし埋込部202へ出力する(S100)。また、映像データ作成部201は、カメラ12を介して1フレーム分の映像を取り込み、映像データxv[i](0≦i<XV)を作成して音声透かし埋込部202へ出力する(S100)。
First, the audio
本実施形態において、音声データ作成部200は、音声を48kHzのサンプリング周波数で16ビットのデータに変換するため、1フレーム分の音声データxa[i]は768kビットとなり、XAは768,000となる。また、映像データ作成部201は、映像を30Hzのサンプリング周波数で640×480×24ビットのデータに変換するため、1フレーム分の映像データxv[i]は、221,184,000ビットとなり、XVは221,184,000となる。
In this embodiment, since the audio
次に、音声透かし埋込部202および映像透かし埋込部204は、後述する透かし情報の埋込処理を実行して、音声透かし情報dea[i]を音声データxa[i]の所定のビットに埋め込むと共に、映像透かし情報dev[i]を映像データxv[i]の所定のビットに埋め込む(S200)。そして、コンテンツ記録部209は、透かし情報が埋め込まれた音声データxa[i]および映像データxv[i]をコンテンツデータとして記録媒体13に記録する(S101)。
Next, the audio
次に、音声特徴量抽出部205および映像特徴量抽出部208は、後述する特徴量の抽出処理を実行することにより、ステップS200で透かし情報が埋め込まれた音声データxa[i]において透かし情報が埋め込まれていないビットから音声特徴量fa[i]を抽出すると共に、ステップS200で透かし情報が埋め込まれた映像データxv[i]において透かし情報が埋め込まれていないビットから映像特徴量fv[i]を抽出する(S300)。
Next, the audio feature
次に、音声特徴量遅延部206および映像特徴量遅延部207は、後述する特徴量の遅延処理を実行することにより、ステップS300で抽出した音声特徴量fa[i]および映像特徴量fv[i]を所定フレーム分遅延させる(S400)。
Next, the audio feature
次に、透かし情報作成部203は、後述する透かし情報の作成処理を実行することにより、ステップS400で遅延された音声特徴量fa[i]および映像特徴量fv[i]から、音声透かし情報dea[i]および映像透かし情報dev[i]を作成し(S500)、透かし情報埋込装置20は、本フローチャートに示す動作を終了する。
Next, the watermark
図4は、第1の実施形態における音声データについての透かし情報埋め込み処理(S200)の一例を示すフローチャートである。音声透かし埋込部202は、1フレーム毎の音声データxa[i]について、本フローチャートに示す処理を実行する。
FIG. 4 is a flowchart illustrating an example of watermark information embedding processing (S200) for audio data according to the first embodiment. The audio
まず、音声透かし埋込部202は、音声透かし情報埋込位置pwa[i](0≦i<DA)を準備する(S201)。ここで、音声透かし情報ビット長DAは、1フレームの音声データに埋め込まれる音声透かし情報のデータ量を示す。本実施形態では、音声データ64ビット当たりに1ビットの割合で音声透かし情報を埋め込むことを想定しており、DA=XA÷64=12,000である。
First, the audio
音声透かし情報埋込位置pwa[i]は、0≦pwa[i]<XAかつpwa[i]mod2=0を満たし、0≦i<DAかつ0≦j<DAかつi≠jを満たす任意の(i,j)について、pwa[i]≠pwa[j]を満たす数列である。本実施形態において、音声透かし情報埋込位置pwa[i]は透かし情報埋込装置20の管理者等によって予め設定されている。
Audio watermark information embedding position pwa [i] satisfies 0 ≦ pwa [i] <XA and pwa [i] mod2 = 0, and satisfies 0 ≦ i <DA and 0 ≦ j <DA and i ≠ j (i, j) is a sequence satisfying pwa [i] ≠ pwa [j]. In the present embodiment, the audio watermark information embedding position pwa [i] is set in advance by the administrator of the watermark
次に、音声透かし埋込部202は、変数ideaの値を0に初期化し(S202)、前のフレームにおいて透かし情報作成部203がステップS500で作成した音声透かし情報deaのidea番目のビットを、ステップS100において音声データ作成部200が生成した音声データxaのpwa[idea]番目のビットと置き換えることにより、音声透かし情報dea[idea]を音声データxa[pwa[idea]]に埋め込む(S203)。
Next, the audio
次に、音声透かし埋込部202は、変数ideaの値が音声透かし情報ビット長DAの値と一致したか否かを判定する(S204)。変数ideaの値が音声透かし情報ビット長DAの値と異なる場合(S204:No)、音声透かし埋込部202は、変数ideaの値を1増やして(S205)、再びステップS203に示した処理を実行する。変数ideaの値が音声透かし情報ビット長DAの値と一致した場合(S204:Yes)、音声透かし埋込部202は、音声透かし情報dea[i]が埋め込まれた音声データxa[i]を音声特徴量抽出部205およびコンテンツ記録部209へ出力し(S206)、本フローチャートに示した処理を終了する。
Next, the audio
ここで、ステップS203からS205の処理を図5を用いて説明すると、音声透かし情報埋込位置pwa[i]が例えば{2,6,0,4,・・・}である場合、音声透かし埋込部202は、音声透かし情報dea[0]のビット400を、音声データxa[pwa[0]]=xa[2]のビット402に埋め込み、音声透かし情報dea[1]のビット401を、音声データxa[pwa[1]]=xa[6]のビット403に埋め込む。pwa[i]は、偶数の集合であるため、音声透かし埋込部202は、音声データxa[i]の偶数番目のビットに音声透かし情報dea[i]のビットを埋め込む。
Here, the processing in steps S203 to S205 will be described with reference to FIG. 5. When the audio watermark information embedding position pwa [i] is {2, 6, 0, 4,. The embedding
図6は、第1の実施形態における映像データについての透かし情報埋め込み処理(S200)の一例を示すフローチャートである。映像透かし埋込部204は、1フレーム毎の映像データxv[i]について、本フローチャートに示す処理を実行する。
FIG. 6 is a flowchart illustrating an example of watermark information embedding processing (S200) for video data according to the first embodiment. The video
まず、映像透かし埋込部204は、映像透かし情報埋込位置pwv[i](0≦i<DV)を準備する(S211)。ここで、映像透かし情報ビット長DVは、1フレームの映像データに埋め込まれる映像透かし情報のデータ量を示す。本実施形態では、映像データの24ビットのうち輝度情報64ビット当たりに1ビットの割合で映像透かし情報を埋め込むことを想定しており、DV=XV÷(3×64)=1,152,000である。
First, the video
映像透かし情報埋込位置pwv[i]は、0≦pwv[i]<XVかつpwv[i]mod2=0を満たし、0≦i<DVかつ0≦j<DVかつi≠jを満たす任意の(i,j)について、pwv[i]≠pwv[j]を満たす数列である。本実施形態において、映像透かし情報埋込位置pwv[i]は透かし情報埋込装置20の管理者等によって予め設定されている。
The video watermark information embedding position pwv [i] satisfies 0 ≦ pwv [i] <XV and pwv [i] mod2 = 0, and satisfies 0 ≦ i <DV and 0 ≦ j <DV and i ≠ j (i, j) is a sequence satisfying pwv [i] ≠ pwv [j]. In this embodiment, the video watermark information embedding position pwv [i] is set in advance by the administrator of the watermark
次に、映像透かし埋込部204は、変数idevの値を0に初期化し(S212)、前のフレームにおいて透かし情報作成部203がステップS500で作成した映像透かし情報devのidev番目のビットを、ステップS100において音声データ作成部200が生成した映像データxvのpwv[idev]番目のビットと置き換えることにより、映像透かし情報dev[idev]を映像データxv[pwv[idev]]に埋め込む(S213)。なお、pwv[i]も偶数の集合であるため、映像透かし埋込部204は、映像データxv[i]の偶数のビットに映像透かし情報dev[i]のビットを埋め込む。
Next, the video
次に、映像透かし埋込部204は、変数idevの値が映像透かし情報ビット長DVの値と一致したか否かを判定する(S214)。変数idevの値が映像透かし情報ビット長DVの値と異なる場合(S214:No)、映像透かし埋込部204は、変数idevの値を1増やして(S215)、再びステップS213に示した処理を実行する。変数idevの値が映像透かし情報ビット長DVの値と一致した場合(S214:Yes)、映像透かし埋込部204は、映像透かし情報が埋め込まれた映像データxv[i]を映像特徴量抽出部208およびコンテンツ記録部209へ出力し(S216)、本フローチャートに示した処理を終了する。
Next, the video
図7は、音声データについての特徴量の抽出処理(S300)の一例を示すフローチャートである。音声特徴量抽出部205は、1フレーム毎の音声データxa[i]について、本フローチャートに示す処理を実行する。
FIG. 7 is a flowchart illustrating an example of feature amount extraction processing (S300) for audio data. The voice feature
まず、音声特徴量抽出部205は、音声特徴量抽出位置pfa[i](0≦i<FA)を準備する(S301)。ここで、音声特徴量ビット長FAは、音声データxa[i]の同一性を判定するために音声データxa[i]から抽出されるビットの集合を示す音声特徴量fa[i]のデータ量である。本実施形態において、音声特徴量ビット長FAは、例えば、1フレームの音声データxa[i]について、音声透かし情報ビット長DAから後述するヘッダ情報のデータ長DAHを除いた11,000である。
First, the voice feature
音声特徴量抽出位置pfa[i]は、0≦pfa[i]<XAかつpfa[i]mod2=1を満たす数列である。音声特徴量抽出位置pfa[i]は、例えば、XAが偶数であれば数列{0,1,2,…,XA/2-1}から、XAが奇数であれば数列{0,1,2,…,(XA-1)/2}から、擬似乱数を用いてランダムにFA個の数字{xn}を選択し、{2xn+1}を計算する方法で生成することができる。本実施形態において、音声特徴量抽出位置pfa[i]は透かし情報埋込装置20の管理者等によって予め設定されている。
The audio feature extraction position pfa [i] is a sequence satisfying 0 ≦ pfa [i] <XA and pfa [i] mod2 = 1. The speech feature extraction position pfa [i] is, for example, from the sequence {0,1,2,..., XA / 2-1} if XA is an even number and the sequence {0,1,2 if XA is an odd number ,..., (XA-1) / 2} can be generated by a method of selecting FA numbers {xn} randomly using pseudorandom numbers and calculating {2xn + 1}. In the present embodiment, the voice feature amount extraction position pfa [i] is set in advance by the administrator of the watermark
次に、音声特徴量抽出部205は、変数ipfaの値を0に初期化し(S302)、音声透かし埋込部202から出力された音声データxaのpfa[ipfa]番目のビットを読み出して音声特徴量faのipfa番目のビットに格納する(S303)。そして、音声特徴量抽出部205は、変数ipfaの値が音声特徴量ビット長FAの値と一致したか否かを判定する(S304)。
Next, the speech feature
変数ipfaの値が音声特徴量ビット長FAの値と異なる場合(S304:No)、音声特徴量抽出部205は、変数ipfaの値を1増やして(S305)、再びステップS303に示した処理を実行する。変数ipfaの値が音声特徴量ビット長FAの値と一致した場合(S304:Yes)、音声特徴量抽出部205は、音声特徴量fa[i]を音声特徴量遅延部206へ出力し(S306)、本フローチャートに示した処理を終了する。
When the value of the variable ipfa is different from the value of the audio feature amount bit length FA (S304: No), the audio feature
ここで、ステップS303からS305の処理を図8を用いて説明すると、音声特徴量読み出し位置pfa[i]が例えば{3,7,1,5,・・・}である場合、音声特徴量抽出部205は、音声データxa[pfa[0]]=xa[3]のビット404を読み出して、音声特徴量fa[0]のビット406に格納し、音声データxa[pfa[1]]=xa[7]のビット405を読み出して、音声特徴量fa[1]のビット407に格納する。音声特徴量読み出し位置pfa[i]は奇数の集合であるため、音声透かし埋込部202は、音声透かし情報dea[i]が埋め込まれていない音声データxa[i]の奇数番目のビットを読み出して音声特徴量fa[i]を作成する。
Here, the processing in steps S303 to S305 will be described with reference to FIG. 8. When the speech feature reading position pfa [i] is, for example, {3, 7, 1, 5,. The
図9は、映像データについての特徴量の抽出処理(S300)の一例を示すフローチャートである。映像特徴量抽出部208は、1フレーム毎の映像データxv[i]について、本フローチャートに示す処理を実行する。 FIG. 9 is a flowchart illustrating an example of a feature amount extraction process (S300) for video data. The video feature amount extraction unit 208 executes the processing shown in this flowchart for video data xv [i] for each frame.
まず、映像特徴量抽出部208は、映像特徴量抽出位置pfv[i](0≦i<FV)を準備する(S311)。ここで、映像特徴量ビット長FVは、映像データxv[i]の同一性を判定するために映像データxv[i]から抽出されるビットの集合を示す映像特徴量fv[i]のデータ量である。本実施形態において、映像特徴量ビット長FVは、例えば、1フレームの音声データxv[i]について、映像透かし情報ビット長DVから後述するヘッダ情報のデータ長DVHを除いた1,151,000である。 First, the video feature quantity extraction unit 208 prepares a video feature quantity extraction position pfv [i] (0 ≦ i <FV) (S311). Here, the video feature amount bit length FV is the data amount of the video feature amount fv [i] indicating a set of bits extracted from the video data xv [i] in order to determine the identity of the video data xv [i]. It is. In the present embodiment, the video feature amount bit length FV is, for example, 1,151,000 obtained by subtracting the data length DVH of header information described later from the video watermark information bit length DV for audio data xv [i] of one frame.
映像特徴量抽出位置pfv[i]は、0≦pfv[i]<XVかつpfv[i]mod2=1を満たす数列である。映像特徴量抽出位置pfv[i]は、例えば、XVが偶数であれば数列{0,1,2,…,XV/2-1}から、XVが奇数であれば数列{0,1,2,…,(XV-1)/2}から、擬似乱数を用いてランダムにFV個の数字{xn}を選択し、{2xn+1}を計算する方法で生成することができる。本実施形態において、映像特徴量抽出位置pfv[i]は透かし情報埋込装置20の管理者等によって予め設定されている。
The video feature quantity extraction position pfv [i] is a sequence satisfying 0 ≦ pfv [i] <XV and pfv [i] mod2 = 1. The video feature amount extraction position pfv [i] is, for example, from the sequence {0, 1, 2,..., XV / 2-1} if XV is an even number, and the sequence {0, 1, 2 if XV is an odd number. ,..., (XV-1) / 2} by using pseudorandom numbers and randomly selecting FV numbers {xn} and calculating {2xn + 1}. In the present embodiment, the video feature amount extraction position pfv [i] is set in advance by the administrator of the watermark
次に、映像特徴量抽出部208は、変数ipfvを0に初期化し(S312)、映像透かし埋込部204から出力された映像データxvのpfv[ipfv]番目のビットを読み出して映像特徴量fvのipfv番目のビットに格納する(S313)。そして、映像特徴量抽出部208は、変数ipfvの値が映像特徴量ビット長FVの値と一致したか否かを判定する(S314)。
Next, the video feature amount extraction unit 208 initializes the variable ipfv to 0 (S312), reads the pfv [ipfv] -th bit of the video data xv output from the video
変数ipfvの値が映像特徴量ビット長FVの値と異なる場合(S314:No)、映像特徴量抽出部208は、変数ipfvの値を1増やして(S315)、再びステップS313に示した処理を実行する。変数ipfvの値が映像特徴量ビット長FVの値と一致した場合(S314:Yes)、映像特徴量抽出部208は、映像特徴量fv[i]を映像特徴量遅延部207へ出力し(S316)、本フローチャートに示した処理を終了する。 When the value of the variable ipfv is different from the value of the video feature amount bit length FV (S314: No), the video feature amount extraction unit 208 increments the value of the variable ipfv by 1 (S315), and performs the process shown in step S313 again. Execute. When the value of the variable ipfv matches the value of the video feature amount bit length FV (S314: Yes), the video feature amount extraction unit 208 outputs the video feature amount fv [i] to the video feature amount delay unit 207 (S316). ), The process shown in this flowchart is terminated.
図10は、音声データについての特徴量の遅延処理(S400)の一例を示すフローチャートである。音声特徴量遅延部206は、1フレーム毎に音声特徴量抽出部205から出力された音声特徴量fa[i]について、本フローチャートに示す処理を実行する。
FIG. 10 is a flowchart showing an example of the feature amount delay processing (S400) for audio data. The audio feature
まず、音声特徴量遅延部206は、音声特徴量バッファbfa[BFA-1][j](0≦i<BFA,0≦j<FA)内の音声特徴量fa[i]を透かし情報作成部203へ出力する(S401)。本実施形態において、音声特徴量遅延部206は、音声特徴量バッファbfaを3個有しており、音声特徴量バッファ数BFAは3である。
First, the speech feature
次に、音声特徴量遅延部206は、変数ibfaにBFA-2(本実施形態ではBFA-2=1)を設定し(S402)、音声特徴量バッファbfa[ibfa][j]内のデータを、音声特徴量バッファbfa[ibfa+1][j]に格納する(S403)。そして、変数ibfaの値が0になったか否かを判定する(S404)。
Next, the speech feature
変数ibfaの値が0になっていない場合(S404:No)、音声特徴量遅延部206は、変数ibfaの値を1減らして(S405)、再びステップS403に示した処理を実行する。変数ibfaの値が0になった場合(S404:Yes)、音声特徴量遅延部206は、音声特徴量抽出部205から出力された音声特徴量fa[i]を、音声特徴量バッファbfa[0][j]内に格納し(S406)、本フローチャートに示した処理を終了する。
When the value of the variable ibfa is not 0 (S404: No), the audio feature
ここで、ステップS401からS405の処理を図11を用いて説明すると、音声特徴量遅延部206は、ステップS401において、音声特徴量バッファbfa[BFA-1][j]内の音声特徴量fa[i]を透かし情報作成部203へ出力し、ステップS403から405において、音声特徴量バッファbfa内の音声特徴量fa[i]を1つずつずらし、ステップS406において、音声特徴量抽出部205から出力された音声特徴量fa[i]を、音声特徴量バッファbfa[0][j]内に格納する。図10の処理は、1フレーム毎に実行され、音声特徴量バッファ数BFAが3であるため、音声特徴量遅延部206は、音声特徴量抽出部205から出力された音声特徴量fa[i]を、3フレーム分遅延させて透かし情報作成部203へ出力する。
Here, the processing of steps S401 to S405 will be described with reference to FIG. 11. In step S401, the speech feature
図12は、映像データについての特徴量の遅延処理(S400)の一例を示すフローチャートである。映像特徴量遅延部207は、1フレーム毎に映像特徴量抽出部208から出力された映像特徴量fv[i]について、本フローチャートに示す処理を実行する。
FIG. 12 is a flowchart illustrating an example of a feature amount delay process (S400) for video data. The video feature
まず、映像特徴量遅延部207は、映像特徴量バッファbfv[BFV-1][j](0≦i<BFV,0≦j<FV)内の映像特徴量fv[i]を透かし情報作成部203へ出力する(S411)。本実施形態において、映像特徴量遅延部207は、映像特徴量バッファbfvを3個有しており、映像特徴量バッファ数BFVは3である。
First, the video feature
次に、映像特徴量遅延部207は、変数ibfvにBFV-2(本実施形態ではBFV-2=1)を設定し(S412)、映像特徴量バッファbfv[ibfv][j]内のデータを、映像特徴量バッファbfv[ibfv+1][j]に格納する(S413)。そして、変数ibfvの値が0になったか否かを判定する(S414)。
Next, the video feature
変数ibfvの値が0になっていない場合(S414:No)、映像特徴量遅延部207は、変数ibfvの値を1減らして(S415)、再びステップS413に示した処理を実行する。変数ibfvの値が0になった場合(S414:Yes)、映像特徴量遅延部207は、映像特徴量抽出部208から出力された映像特徴量fv[i]を、映像特徴量バッファbfv[0][j]内に格納し(S416)、本フローチャートに示した処理を終了する。
When the value of the variable ibfv is not 0 (S414: No), the video feature
図13は、透かし情報の作成処理(S500)の一例を示すフローチャートである。透かし情報作成部203は、1フレーム毎に音声特徴量遅延部206および映像特徴量遅延部207からそれぞれ出力された音声特徴量fa[i]および映像特徴量fv[i]について、本フローチャートに示す処理を実行する。
FIG. 13 is a flowchart illustrating an example of watermark information creation processing (S500). The watermark
まず、透かし情報作成部203は、音声透かし情報dea[i](0≦i<DA)および映像透かし情報dev[i](0≦i<DV)の領域をメモリ上に確保し、音声透かし情報dea[i](0≦i<DAH)および映像透かし情報dev[i](0≦i<DVH)にそれぞれヘッダ情報を書き込む(S501)。本実施形態において、ヘッダ領域としては1000ビットを想定しており、DAH=DVH=1000である。また、ヘッダ情報には、音声透かし情報ヘッダ長DAH、映像透かし情報ヘッダ長DVH、分割パラメータFAA(後述)、分割パラメータFAV(後述)、分割パラメータFVA(後述)、分割パラメータFVV(後述)、時間情報、音声特徴量バッファ数BFA、および映像特徴量バッファ数BFVなどがある。
First, the watermark
次に、透かし情報作成部203は、下記の数式(1)を用いて分割パラメータFAA、FAV、FVA、およびFVVを算出する。
Next, the watermark
本実施形態において、音声特徴量ビット長FAは11,000であり、音声透かし情報ビット長DAは12,000であり、映像透かし情報ビット長DVは1,152,000であるので、透かし情報作成部203は、分割パラメータFAAを、11,000×12,000÷(12,000+1,152,000)≒113と算出する。そして、透かし情報作成部203は、分割パラメータFAVを、11,000−113=10,887と算出する。また、本実施形態において、映像特徴量ビット長FVは1,151,000であるので、透かし情報作成部203は、分割パラメータFVAを、1,151,000×12,000÷(12,000+1,152,000)≒11,866と算出する。そして、透かし情報作成部203は、分割パラメータFVVを、1,151,000−11,866=1,139,134と算出する。
In this embodiment, since the audio feature bit length FA is 11,000, the audio watermark information bit length DA is 12,000, and the video watermark information bit length DV is 1,152,000, the watermark
次に、透かし情報作成部203は、図14に示すように、音声特徴量fa[i](0≦i<FAA)を、音声透かし情報dea[i](DAH≦i<DAH+FAA)に格納する(S502)。そして、透かし情報作成部203は、図14に示すように、映像特徴量fv[i](0≦i<FVA)を、音声透かし情報dea[i](DAH+FAA≦i<DAH+FAA+FVA)に格納する(S503)。
Next, as shown in FIG. 14, the watermark
次に、透かし情報作成部203は、図14に示すように、音声特徴量fa[i](FAA≦i<FA)を、映像透かし情報dev[i](DVH≦i<DVH+FAV)に格納する(S504)。そして、透かし情報作成部203は、図14に示すように、映像特徴量fv[i](FVA≦i<FV)を、映像透かし情報dev[i](DVH+FAV≦i<DVH+FAV+FVV)に格納する(S505)。そして、透かし情報作成部203は、音声透かし情報dea[i]を音声透かし埋込部202へ出力し、映像透かし情報dev[i]を映像透かし埋込部204へ出力し(S506)、本フローチャートに示した処理を終了する。
Next, as shown in FIG. 14, the watermark
このように、透かし情報埋込装置20は、音声データxa[i]から抽出した音声特徴量fa[i]の一部のビットと、映像データxv[i]から抽出した映像特徴量fv[i]の一部のビットとを含む音声透かし情報dea[i]を音声データxa[i]に埋め込むと共に、音声特徴量fa[i]の残りのビットと、映像特徴量fv[i]の残りのビットとを含む映像透かし情報dev[i]を映像データxa[i]に埋め込むため、音声データxa[i]および映像データxv[i]のいずれを差し替えた場合であっても、コンテンツの改ざんを検出することができる。
As described above, the watermark
また、透かし情報埋込装置20は、作成した音声透かし情報dea[i]および映像透かし情報dev[i]を、所定数後のフレームの音声データxa[i]および映像データxa[i]にそれぞれ埋め込むため、音声データxa[i]および映像データxv[i]の削除や挿入による改ざんを検出することができる。
Also, the watermark
図15は、改ざん検出装置30の機能構成の一例を示すブロック図である。改ざん検出装置30は、コンテンツ再生部300、音声特徴量抽出部301、音声透かし抽出部302、映像透かし抽出部303、映像特徴量抽出部304、音声特徴量遅延部305、特徴量再構成部306、映像特徴量遅延部307、音声改ざん検出部308、および映像改ざん検出部309を有する。改ざん検出装置30内の各機能の動作については、図16以降のフローチャートを用いて説明する。
FIG. 15 is a block diagram illustrating an example of a functional configuration of the
図16は、改ざん検出装置30の動作の一例を示すフローチャートである。改ざん検出装置30は、所定の時間間隔(本実施形態では1秒)のフレームのコンテンツを記録媒体13から読み込む毎に、図16のフローチャートに示す処理を実行する。なお、コンテンツ再生部300は、記録媒体13から読み出したコンテンツを再生してスピーカ14および表示装置15を介して出力する通常のコンテンツ再生機能を実現するブロックであるため、コンテンツ再生部300の動作についての説明は省略する。
FIG. 16 is a flowchart illustrating an example of the operation of the
まず、音声特徴量抽出部301は、記録媒体13から1フレーム分の音声データxa[i](0≦i<XA)を読み込み、図7を用いて説明した特徴量の抽出処理を実行して、読み込んだ音声データxa[i]から音声特徴量fa[i]を抽出する(S300)。また、映像特徴量抽出部304は、記録媒体13から1フレーム分の映像データxv[i](0≦i<XV)を読み込み、図9を用いて説明した特徴量の抽出処理を実行して、読み込んだ映像データxv[i]から映像特徴量fv[i]を抽出する(S300)。
First, the audio feature
次に、音声特徴量遅延部305は、図10を用いて説明した特徴量の遅延処理を実行して、音声特徴量抽出部301によって抽出された音声特徴量fa[i]を、透かし情報埋込装置20の音声特徴量遅延部206が遅延させたフレーム数分遅延させる(S400)。同様に、映像特徴量遅延部307は、図12を用いて説明した特徴量の遅延処理を実行して、映像特徴量抽出部304によって抽出された映像特徴量fv[i]を、透かし情報埋込装置20の映像特徴量抽出部208が遅延させたフレーム数分遅延させる(S400)。
Next, the speech feature
次に、音声透かし抽出部302および映像透かし抽出部303は、それぞれ、記録媒体13から1フレーム分の音声データxa[i](0≦i<XA)および映像データxv[i](0≦i<XV)を読み込み、後述する透かし情報の抽出処理を実行して、読取音声透かし情報dda[i]および読取映像透かし情報ddv[i]を抽出する(S600)。
Next, the audio
次に、特徴量再構成部306は、後述する特徴量の再構成処理を実行することにより、ステップS600で抽出された読取音声透かし情報dda[i]および読取映像透かし情報ddv[i]から、読取音声特徴量fad[i]および読取映像特徴量fvd[i]をそれぞれ復元する(S700)。
Next, the feature
次に、音声改ざん検出部308は、ステップS400で遅延された音声特徴量fa[i]と、ステップS700で復元された読取音声特徴量fad[i]とを比較することにより、音声データxa[i]の改ざんの有無を判定する(S800)。また、映像改ざん検出部309は、ステップS400で遅延された映像特徴量fv[i]と、ステップS700で復元された読取映像特徴量fvd[i]とを比較することにより、映像データxv[i]の改ざんの有無を判定し(S800)、改ざん検出装置30は、本フローチャートに示した処理を終了する。
Next, the voice
図17は、第1の実施形態における音声データについての透かし情報の抽出処理(S600)の一例を示すフローチャートである。音声透かし抽出部302は、1フレーム毎に記録媒体13から読み出した音声データxa[i]について、本フローチャートに示す処理を実行する。
FIG. 17 is a flowchart illustrating an example of watermark information extraction processing (S600) for audio data according to the first embodiment. The audio
まず、音声透かし抽出部302は、音声透かし情報埋込位置pwa[i](0≦i<DA)を準備する(S601)。音声透かし情報埋込位置pwa[i]は、図4で説明した音声透かし情報埋込位置pwa[i]と同一の数列であり、音声透かし埋込部202によって用いられた音声透かし情報埋込位置pwa[i]が、例えば改ざん検出装置30の管理者等によって予め改ざん検出装置30に登録される。
First, the audio
次に、音声透かし抽出部302は、変数ivaの値を0に初期化し(S602)、音声データxaのpwa[iva]番目のビットを、読取音声透かし情報ddaのiva番目のビットに格納する(S603)。そして、音声透かし抽出部302は、変数ivaの値が音声透かし情報ビット長DAの値と一致したか否かを判定する(S604)。変数ivaの値が音声透かし情報ビット長DAの値と異なる場合(S604:No)、音声透かし抽出部302は、変数ivaの値を1増やして(S605)、再びステップS603に示した処理を実行する。変数ivaの値が音声透かし情報ビット長DAの値と一致した場合(S604:Yes)、音声透かし抽出部302は、読取音声透かし情報dda[i]を特徴量再構成部306へ出力し(S606)、本フローチャートに示した処理を終了する。
Next, the audio
ここで、ステップS603からS605の処理を図18を用いて説明すると、音声透かし情報埋込位置pwa[i]が例えば{2,6,0,4,・・・}である場合、音声透かし抽出部302は、読取音声透かし情報dda[0]のビット410に、音声データxa[pwa[0]]=xa[2]のビット408を格納し、読取音声透かし情報dda[1]のビット411に、音声データxa[pwa[1]]=xa[6]のビット409を格納する。音声透かし抽出部302は、音声データxa[i]の偶数番目のビットに埋め込まれている音声透かし情報dea[i]のビットを読取音声透かし情報dda[i]のビットとして抽出する。
Here, the processing of steps S603 to S605 will be described with reference to FIG. 18. When the audio watermark information embedding position pwa [i] is {2, 6, 0, 4,. The
図19は、第1の実施形態における映像データについての透かし情報の抽出処理(S600)の一例を示すフローチャートである。映像透かし抽出部303は、1フレーム毎に記録媒体13から読み出した映像データxv[i]について、本フローチャートに示す処理を実行する。
FIG. 19 is a flowchart illustrating an example of watermark information extraction processing (S600) for video data according to the first embodiment. The video
まず、映像透かし抽出部303は、映像透かし情報埋込位置pwv[i](0≦i<DV)を準備する(S611)。映像透かし情報埋込位置pwv[i]は、図6で説明した映像透かし情報埋込位置pwv[i]と同一の数列であり、映像透かし埋込部204によって用いられた映像透かし情報埋込位置pwv[i]が、例えば改ざん検出装置30の管理者等によって予め改ざん検出装置30に登録される。
First, the video
次に、映像透かし抽出部303は、変数ivvの値を0に初期化し(S612)、映像データxvのpwv[ivv]番目のビットを、読取映像透かし情報ddvのivv番目のビットに格納する(S613)。そして、映像透かし抽出部303は、変数ivvの値が映像透かし情報ビット長DVの値と一致したか否かを判定する(S614)。変数ivvの値が映像透かし情報ビット長DVの値と異なる場合(S614:No)、映像透かし抽出部303は、変数ivvの値を1増やして(S615)、再びステップS613に示した処理を実行する。変数ivvの値が映像透かし情報ビット長DVの値と一致した場合(S614:Yes)、映像透かし抽出部303は、読取映像透かし情報ddv[i]を特徴量再構成部306へ出力し(S616)、本フローチャートに示した処理を終了する。
Next, the video
図20は、特徴量の再構成処理(S700)の動作の一例を示すフローチャートである。特徴量再構成部306は、1フレーム毎に音声透かし抽出部302および映像透かし抽出部303からそれぞれ出力された読取音声透かし情報dda[i]および読取映像透かし情報ddv[i]について、本フローチャートに示す処理を実行する。
FIG. 20 is a flowchart illustrating an example of the operation of the feature amount reconstruction process (S700). The feature
まず、特徴量再構成部306は、読取音声透かし情報dda[i](0≦i<DAH)および読取映像透かし情報ddv[i](0≦i<DVH)のそれぞれのヘッダ情報を読み込んで、音声透かし情報ヘッダ長DAH、映像透かし情報ヘッダ長DVH、分割パラメータFAA、分割パラメータFAV、分割パラメータFVA、分割パラメータFVV、時間情報、音声特徴量バッファ数BFA、および映像特徴量バッファ数BFV等の情報を取得する(S701)。
First, the feature
次に、特徴量再構成部306は、図21に示すように、読取音声透かし情報dda[i](DAH≦i<DAH+FAA)を、読取音声特徴量fad[i](0≦i<FAA)に格納し(S702)、読取音声透かし情報dda[i](DAH+FAA≦i<DVH+FAA+FVA)を、読取映像特徴量fvd[i](0≦i<FVA)に格納する(S703)。
Next, as shown in FIG. 21, the feature
次に、特徴量再構成部306は、図21に示すように、読取映像透かし情報ddv[i](DVH≦i<DVH+FAV)を、読取音声特徴量fad[i](FAA≦i<FA)に格納し(S704)、読取映像透かし情報ddv[i](DVH+FAV≦i<DVH+FAV+FVV)を、読取映像特徴量fvd[i](FVA≦i<FV)に格納する(S705)。そして、特徴量再構成部306は、読取音声特徴量fad[i]を音声改ざん検出部308へ出力し、読取映像特徴量fvd[i]を映像改ざん検出部309へ出力し(S706)、本フローチャートに示した処理を終了する。
Next, as shown in FIG. 21, the feature
図22は、音声データについての改ざん判定処理(S800)の一例を示すフローチャートである。音声特徴量遅延部305から音声特徴量fa[i]を受け取ると共に、特徴量再構成部306から読取音声特徴量fad[i]を受け取った場合に、音声改ざん検出部308は、本フローチャートに示す処理を実行する。
FIG. 22 is a flowchart illustrating an example of falsification determination processing (S800) for audio data. When the voice feature quantity fa [i] is received from the voice feature
まず、音声改ざん検出部308は、変数iおよびjの値を0に初期化し(S801)、読取音声特徴量fad[i]の値と音声特徴量fa[i]の値とが一致するか否かを判定する(S802)。読取音声特徴量fad[i]の値と音声特徴量fa[i]の値とが一致した場合(S802:Yes)、音声改ざん検出部308は、ステップS804に示す処理を実行する。
First, the voice
読取音声特徴量fad[i]の値と音声特徴量fa[i]の値とが異なる場合(S802:No)、音声改ざん検出部308は、変数jの値を1増やし(S803)、変数iの値と音声特徴量ビット長FAの値とが一致したか否かを判定する(S804)。変数iの値と音声特徴量ビット長FAの値とが異なる場合(S804:No)、音声改ざん検出部308は、変数iの値を1増やし(S805)、再びステップS802に示した処理を実行する。
When the value of the read voice feature value fad [i] is different from the value of the voice feature value fa [i] (S802: No), the voice
変数iの値と音声特徴量ビット長FAの値とが一致した場合(S804:Yes)、音声改ざん検出部308は、変数jの値が0よりも大きいか否かを判定する(S806)。変数jの値が0である場合(S806:No)、音声改ざん検出部308は、本フローチャートに示した処理を終了する。変数jの値が0よりも大きい場合(S806:Yes)、音声改ざん検出部308は、例えば図23に示すように、画像50の領域52に、音声の改ざんが検出された旨を表示し(S807)、本フローチャートに示した処理を終了する。
When the value of the variable i matches the value of the voice feature amount bit length FA (S804: Yes), the voice tampering
なお、図23に示すように、画像50の領域51には、コンテンツ再生部300によって再生された映像が表示され、領域52には、改ざんが検出された場合に、その旨および改ざんが検出されたフレームの直前のフレームに含まれているヘッダ情報内の時刻情報等が表示される。
As shown in FIG. 23, an image reproduced by the
図24は、映像データについての改ざん判定処理(S800)の一例を示すフローチャートである。映像特徴量遅延部307から映像特徴量fv[i]を受け取ると共に、特徴量再構成部306から読取映像特徴量fvd[i]を受け取った場合に、映像改ざん検出部309は、本フローチャートに示す処理を実行する。
FIG. 24 is a flowchart illustrating an example of alteration determination processing (S800) for video data. When the video feature quantity fv [i] is received from the video feature
まず、映像改ざん検出部309は、変数iおよびjの値を0に初期化し(S811)、読取映像特徴量fvd[i]の値と映像特徴量fv[i]の値とが一致するか否かを判定する(S812)。読取映像特徴量fvd[i]の値と映像特徴量fv[i]の値とが一致した場合(S812:Yes)、映像改ざん検出部309は、ステップS814に示す処理を実行する。
First, the video
読取映像特徴量fvd[i]の値と映像特徴量fv[i]の値とが一致しない場合(S812:No)、映像改ざん検出部309は、変数jの値を1増やし(S813)、変数iの値と映像特徴量ビット長FVの値とが一致したか否かを判定する(S814)。変数iの値と映像特徴量ビット長FVの値とが異なる場合(S814:No)、映像改ざん検出部309は、変数iの値を1増やし(S815)、再びステップS812に示した処理を実行する。
When the value of the read video feature value fvd [i] does not match the value of the video feature value fv [i] (S812: No), the video
変数iの値と映像特徴量ビット長FVの値とが一致した場合(S814:Yes)、映像改ざん検出部309は、変数jの値が0よりも大きいか否かを判定する(S816)。変数jの値が0である場合(S816:No)、映像改ざん検出部309は、本フローチャートに示した処理を終了する。変数jの値が0よりも大きい場合(S816:Yes)、映像改ざん検出部309は、例えば図23に示すように、画像50の領域52に、映像の改ざんが検出された旨を表示し(S817)、本フローチャートに示した処理を終了する。
When the value of the variable i matches the value of the video feature amount bit length FV (S814: Yes), the video
以上、本発明の第1の実施形態について説明した。 The first embodiment of the present invention has been described above.
上記説明から明らかなように、本実施形態の改ざん検出システム10によれば、音声データと映像データとの関連付けを行ないつつ、それぞれについて、改ざん検出精度を高く保つと共に、元のデータの品質劣化を低く抑えることができる。
As is apparent from the above description, according to the
次に、本発明の第2の実施形態について説明する。 Next, a second embodiment of the present invention will be described.
本実施形態では、透かし情報埋込装置20において、透かし情報の埋込位置および特徴量の抽出位置を擬似乱数を用いて決定すると共に、特徴量から透かし情報を作成する際に、特徴量を擬似乱数を用いて並べ替えることにより、透かし情報の秘匿性を高める。また、改ざん検出装置30では、透かし情報埋込装置20が使用した擬似乱数と同一の擬似乱数を用いて、透かし情報の抽出位置および特徴量の抽出位置を決定すると共に、抽出した透かし情報から特徴量を復元する際に、透かし情報埋込装置20によって行なわれた並べ替えを元に戻す。
In the present embodiment, the watermark
例えば、音声透かし埋込部202は、図4のステップS201において、透かし情報埋込装置20の管理者等によって予め設定された定数SEED1を用いて擬似乱数を生成し、XAが偶数あれば数列{0,2,4,…,XA-2}を、XAが奇数であれば数列{0,2,4,…,XA-1}を、生成した擬似乱数を用いてランダムに並び替えた後、先頭のDA個を選択することにより、音声透かし情報埋込位置pwa[i]を生成する。
For example, the audio
また、映像透かし埋込部204は、例えば、図6のステップS211において、透かし情報埋込装置20の管理者等によって予め設定された定数SEED2を用いて擬似乱数を生成し、XVが偶数であれば数列{0,2,4,…,XV-2}を、XVが奇数であれば数列{0,2,4,…,XV-1}を、生成した擬似乱数を用いてランダムに並び替えた後、先頭のDV個を選択することにより、映像透かし情報埋込位置pwv[i]を生成する。
Also, the video
また、音声特徴量抽出部205は、例えば、図7のステップS301において、透かし情報埋込装置20の管理者等によって予め設定された定数SEED3を用いて擬似乱数を生成し、XAが偶数であれば数列{0,1,2,…,XA/2-1}から、XAが奇数であれば数列{0,1,2,…,(XA-1)/2}から、生成した擬似乱数を用いてランダムにFA個の数字{xn}を選択し、{2xn+1}を計算することにより、音声特徴量抽出位置pfa[i]を生成する。
Further, for example, in step S301 in FIG. 7, the audio feature
また、映像特徴量抽出部208は、例えば、図9のステップS311において、透かし情報埋込装置20の管理者等によって予め設定された定数SEED4を用いて擬似乱数を生成し、XVが偶数であれば数列{0,1,2,…,XV/2-1}から、XVが奇数であれば数列{0,1,2,…,(XV-1)/2}から、擬似乱数を用いてランダムにFV個の数字{xn}を選択し、{2xn+1}を計算することにより、映像特徴量抽出位置pfv[i]を生成する。
Further, for example, in step S311 of FIG. 9, the video feature quantity extraction unit 208 generates a pseudo random number using a constant SEED4 preset by the administrator of the watermark
また、透かし情報作成部203は、例えば、図13のステップS501の前に、透かし情報埋込装置20の管理者等によって予め設定された定数SEED5を用いて擬似乱数を生成し、音声特徴量遅延部206から出力された音声特徴量fa[i]および映像特徴量遅延部207から出力された映像特徴量fv[i]を、生成した擬似乱数を用いてそれぞれランダムに並び替えた後に、並び替えた音声特徴量fa[i]および映像特徴量fv[i]についてステップS501以降の処理を実行する。
Also, the watermark
例えば、透かし情報作成部203は、{1,2,3,…,FA}の数列z[i]をつくり、生成した擬似乱数を用いてこれをランダムに並び替えて数列z'[i]を作成する。そして、透かし情報作成部203は、音声特徴量fa[i]の各要素を音声特徴量fa'[z'[i]]にコピーし、fa'[i]の各要素をfa[i]にコピーすることにより、音声特徴量fa[i]の各要素をランダムに並べ替える。映像特徴量fv[i]についても同様に、透かし情報作成部203は、映像特徴量fv[i]の各要素を、映像特徴量fa'[z'[i]]にコピーし、fa'[i]の各要素をfa[i]にコピーすることにより、映像特徴量fa[i]の各要素をランダムに並べ替える。
For example, the watermark
また、透かし情報作成部203は、例えば、図13のステップS505の後に、透かし情報埋込装置20の管理者等によって予め設定された定数SEED5を用いて擬似乱数を生成し、ステップS503で作成した音声透かし情報dea[i]およびステップS505で作成した音声透かし情報dea[i]を、生成した擬似乱数を用いてそれぞれランダムに並び替えてから、並び替えた音声透かし情報dea[i]および音声透かし情報dea[i]についてステップS506の処理を実行する。
Further, the watermark
なお、上記した擬似乱数の生成方法は、同一の定数から同一の擬似乱数が生成可能な方法であれば、どのような方法でもかまわない。また、擬似乱数が同一の場合に同一の並び替え結果となる方法であれば、上記した並び替えは他の方法によって行なわれてもよい。例えば、プログラミング言語C++では標準関数としてランダムな並べ替えを行う関数を備えており、これを用いてもよい。 Note that the pseudo-random number generation method described above may be any method as long as the same pseudo-random number can be generated from the same constant. Further, as long as the pseudorandom numbers are the same, the above-described rearrangement may be performed by another method as long as the rearrangement result is the same. For example, the programming language C ++ includes a function for performing random sorting as a standard function, and this may be used.
また、透かし情報埋込装置20において擬似乱数の生成に使用されたSEED1からSEED5は、コンテンツデータと共に記録媒体13に記録される、あるいは、他の記録媒体を経由することにより、改ざん検出装置30によって当該コンテンツデータの改ざんの有無が判定される前に、予め改ざん検出装置30に提供される。
In addition, SEED1 to SEED5 used for generating pseudo-random numbers in the watermark
また、音声透かし抽出部302は、例えば、図17のステップS601において、予め取得したSEED1を用いて擬似乱数を生成し、生成した擬似乱数を用いて音声透かし情報埋込位置pwa[i]を復元する。また、映像透かし抽出部303は、例えば、図19のステップS611において、予め取得したSEED2を用いて擬似乱数を生成し、生成した擬似乱数を用いて映像透かし情報埋込位置pwv[i]を復元する。
Also, for example, in step S601 in FIG. 17, the audio
また、特徴量再構成部306は、例えば、図20のステップS701の前に、予め取得したSEED5を用いて擬似乱数を生成し、読取音声透かし情報dda[i]および読取映像透かし情報ddv[i]について、生成した擬似乱数を用いて、図13のステップS506の前に行われた並び替えと逆の操作を行なうことにより、読取音声透かし情報dda[i]および読取映像透かし情報ddv[i]の並びを元に戻す。
Further, for example, the feature
また、特徴量再構成部306は、例えば、図20のステップS706の前に、予め取得したSEED5を用いて擬似乱数を生成し、読取音声特徴量fad[i]および読取映像特徴量fvd[i]について、生成した擬似乱数を用いて、図13のステップS501の前に行われた並び替えと逆の操作を行なうことにより、読取音声特徴量fad[i]および読取映像特徴量fvd[i]の並びを元に戻す。
Further, for example, before step S706 in FIG. 20, the feature
以上、本発明の第2の実施形態について説明した。 The second embodiment of the present invention has been described above.
上記説明から明らかなように、本実施形態の改ざん検出システム10によれば、透かし情報の秘匿性を高めることができる。
As is apparent from the above description, according to the
次に、本発明の第3の実施形態について説明する。 Next, a third embodiment of the present invention will be described.
本実施形態では、透かし情報埋込装置20が、フレーム毎に、音声データおよび映像データから抽出した特徴量を複数回用いて透かし情報を作成して音声データおよび映像データに埋め込み、改ざん検出装置30が、フレーム毎に複数の特徴量のそれぞれのビットの値から、特徴量のビットの値を多数決により特定する。
In the present embodiment, the watermark
これにより、改ざん検出装置30は、記録媒体13に記録されたデータが劣化した場合や、データのわずかな変化を伴う変換が記録媒体13に記録されたコンテンツデータに施された場合等、コンテンツの改ざんとは異なる変化をキャンセルして、コンテンツの改ざんの有無を精度よく判定することができる。なお、以下では、第1の実施形態における改ざん検出システム10と異なる部分について説明する。
As a result, the
図25は、第3の実施形態における音声データについての透かし情報埋め込み処理(S200)の一例を示すフローチャートである。音声透かし埋込部202は、1フレーム毎の音声データxa[i]について、本フローチャートに示す処理を実行する。
FIG. 25 is a flowchart illustrating an example of watermark information embedding processing (S200) for audio data according to the third embodiment. The audio
まず、音声透かし埋込部202は、音声透かし情報埋込位置pwa[i](0≦i<WA)を準備する(S220)。ここで、音声透かし情報総ビット長WAは、1フレームの音声データに埋め込まれる音声透かし情報のデータの総量を示す。本実施形態では、音声データ64ビット当たりに1ビットの割合で音声透かし情報を埋め込む。また、本実施形態では、音声透かし情報dea[i](0≦i<DA)を音声データxa[i]に3回埋め込むことを想定している。本実施形態では、音声透かし情報総ビット長WAは12,000であり、音声透かし情報ビット長DAはWA÷3=4,000である。
First, the audio
音声透かし情報埋込位置pwa[i]は、0≦pwa[i]<XAかつpwa[i]mod2=0を満たし、0≦i<WAかつ0≦j<WAかつi≠jを満たす任意の(i,j)について、pwa[i]≠pwa[j]を満たす数列である。本実施形態において、音声透かし情報埋込位置pwa[i]は透かし情報埋込装置20の管理者等によって予め設定されている。
The audio watermark information embedding position pwa [i] satisfies 0 ≦ pwa [i] <XA and pwa [i] mod2 = 0, and satisfies 0 ≦ i <WA and 0 ≦ j <WA and i ≠ j (i, j) is a sequence satisfying pwa [i] ≠ pwa [j]. In the present embodiment, the audio watermark information embedding position pwa [i] is set in advance by the administrator of the watermark
次に、音声透かし埋込部202は、変数ideaおよびipwaの値を0に初期化し(S221)、前のフレームにおいて透かし情報作成部203がステップS500で作成した音声透かし情報deaのidea番目のビットを、ステップS100において音声データ作成部200が生成した音声データxaのpwa[ipwa]番目のビットと置き換えることにより、音声透かし情報dea[idea]を音声データxa[pwa[ipwa]]に埋め込む(S222)。
Next, the audio
次に、音声透かし埋込部202は、変数ipwaの値が音声透かし情報総ビット長WAの値と一致したか否かを判定する(S223)。変数ipwaの値が音声透かし情報総ビット長WAの値と一致した場合(S223:Yes)、音声透かし埋込部202は、音声透かし情報dea[i]が埋め込まれた音声データxa[i]を音声特徴量抽出部205およびコンテンツ記録部209へ出力し(S228)、本フローチャートに示した処理を終了する。
Next, the audio
変数ipwaの値が音声透かし情報総ビット長WAの値と異なる場合(S223:No)、音声透かし埋込部202は、変数ideaの値が音声透かし情報ビット長DAの値と一致したか否かを判定する(S224)。変数ideaの値が音声透かし情報ビット長DAの値と一致した場合(S224:Yes)、音声透かし埋込部202は、変数ideaの値を0に初期化し(S225)、ステップS227に示す処理を実行する。変数ideaの値が音声透かし情報ビット長DAの値と異なる場合(S224:No)、音声透かし埋込部202は、変数ideaの値を1増やし(S226)、変数ipwaの値を1増やし(S227)、再びステップS222に示した処理を実行する。
When the value of the variable ipwa is different from the value of the audio watermark information total bit length WA (S223: No), the audio
ここで、ステップS222からS227の処理を図26を用いて説明すると、音声透かし情報総ビット長WAは、音声透かし情報ビット長DAの3倍であるため、音声透かし埋込部202は、音声透かし情報dea[i]のそれぞれのビット412を3回ずつ、音声透かし情報埋込位置pwa[i]で指定される音声データxa[i]の偶数番目のビット413、414、および415に埋め込む。
Here, the processing of steps S222 to S227 will be described with reference to FIG. 26. Since the audio watermark information total bit length WA is three times the audio watermark information bit length DA, the audio
図27は、第3の実施形態における映像データについての透かし情報埋め込み処理(S200)の一例を示すフローチャートである。映像透かし埋込部204は、1フレーム毎の映像データxv[i]について、本フローチャートに示す処理を実行する。
FIG. 27 is a flowchart illustrating an example of watermark information embedding processing (S200) for video data according to the third embodiment. The video
まず、映像透かし埋込部204は、映像透かし情報埋込位置pwv[i](0≦i<WV)を準備する(S230)。ここで、映像透かし情報総ビット長WVは、1フレームの映像データに埋め込まれる映像透かし情報のデータの総量を示す。本実施形態では、映像データの24ビットのうち輝度情報64ビット当たりに1ビットの割合で映像透かし情報を埋め込む。また、本実施形態では、映像透かし情報dev[i](0≦i<DV)を映像データxv[i]に3回埋め込むことを想定している。また、本実施形態では、映像透かし情報総ビット長WVは1,152,000であり、映像透かし情報ビット長DVはWV÷3=384,000である。
First, the video
映像透かし情報埋込位置pwv[i]は、0≦pwv[i]<XVかつpwv[i]mod2=0を満たし、0≦i<WVかつ0≦j<WVかつi≠jを満たす任意の(i,j)について、pwv[i]≠pwv[j]を満たす数列である。本実施形態において、映像透かし情報埋込位置pwv[i]は透かし情報埋込装置20の管理者等によって予め設定されている。
The video watermark information embedding position pwv [i] satisfies 0 ≦ pwv [i] <XV and pwv [i] mod2 = 0, and satisfies 0 ≦ i <WV and 0 ≦ j <WV and i ≠ j (i, j) is a sequence satisfying pwv [i] ≠ pwv [j]. In this embodiment, the video watermark information embedding position pwv [i] is set in advance by the administrator of the watermark
次に、映像透かし埋込部204は、変数idevおよびipwvの値を0に初期化し(S231)、前のフレームにおいて透かし情報作成部203がステップS500で作成した映像透かし情報devのidev番目のビットを、ステップS100において音声データ作成部200が生成した映像データxvのpwv[ipwv]番目のビットと置き換えることにより、映像透かし情報dev[idev]を映像データxv[pwv[ipwv]]に埋め込む(S232)。
Next, the video
次に、映像透かし埋込部204は、変数ipwvの値が映像透かし情報総ビット長WVの値と一致したか否かを判定する(S233)。変数ipwvの値が映像透かし情報総ビット長WVの値と一致した場合(S233:Yes)、映像透かし埋込部204は、映像透かし情報dev[i]が埋め込まれた映像データxv[i]を映像特徴量抽出部208およびコンテンツ記録部209へ出力し(S238)、本フローチャートに示した処理を終了する。
Next, the video
変数ipwvの値が映像透かし情報総ビット長WVの値と異なる場合(S233:No)、映像透かし埋込部204は、変数idevの値が映像透かし情報ビット長DVの値と一致したか否かを判定する(S234)。変数idevの値が映像透かし情報ビット長DVの値と一致した場合(S234:Yes)、映像透かし埋込部204は、変数idevの値を0に初期化し(S235)、ステップS237に示す処理を実行する。変数idevの値が映像透かし情報ビット長DVの値と異なる場合(S234:No)、映像透かし埋込部204は、変数idevの値を1増やし(S236)、変数ipwvの値を1増やし(S237)、再びステップS232に示した処理を実行する。
When the value of the variable ipwv is different from the value of the video watermark information total bit length WV (S233: No), the video
図28は、第3の実施形態における音声データについての透かし情報の抽出処理(S600)の一例を示すフローチャートである。音声透かし抽出部302は、1フレーム毎に記録媒体13から読み出した音声データxa[i]について、本フローチャートに示す処理を実行する。
FIG. 28 is a flowchart illustrating an example of watermark information extraction processing (S600) for audio data according to the third embodiment. The audio
まず、音声透かし抽出部302は、音声透かし情報埋込位置pwa[i](0≦i<WA)を準備する(S620)。音声透かし情報埋込位置pwa[i]は、図25で説明した音声透かし情報埋込位置pwa[i]と同一の数列であり、音声透かし埋込部202によって用いられた音声透かし情報埋込位置pwa[i]が、例えば改ざん検出装置30の管理者等によって予め改ざん検出装置30に登録される。
First, the audio
次に、音声透かし抽出部302は、変数ivaおよび変数ipwaの値を0に初期化し(S621)、音声データxaのpwa[ipwa]番目の値が0か否かを判定する(S622)。音声データxa[pwa[ipwa]]の値が0である場合(S622:Yes)、音声透かし抽出部302は、音声投票バッファvaのiva番目のデータの値を1減らし(S623)、ステップS625に示す処理を実行する。
Next, the audio
音声データxa[pwa[ipwa]]の値が0ではない場合(S622:No)、音声透かし抽出部302は、音声投票バッファvaのiva番目のデータの値を1増やし(S624)、変数ipwaの値が音声透かし情報総ビット長WAの値と一致したか否かを判定する(S625)。変数ipwaの値が音声透かし情報総ビット長WAの値と異なる場合(S625:No)、音声透かし抽出部302は、変数ivaの値が音声透かし情報ビット長DAの値と一致したか否かを判定する(S626)。
If the value of the audio data xa [pwa [ipwa]] is not 0 (S622: No), the audio
変数ivaの値が音声透かし情報ビット長DAの値と一致した場合(S626:Yes)、音声透かし抽出部302は、変数ivaの値を0に初期化し(S627)、ステップS629に示す処理を実行する。変数ivaの値が音声透かし情報ビット長DAの値と異なる場合(S626:No)、音声透かし抽出部302は、変数ivaの値を1増やし(S628)、変数ipwaの値を1増やし(S629)、再びステップS622に示した処理を実行する。
When the value of the variable iva matches the value of the audio watermark information bit length DA (S626: Yes), the audio
ステップS625において、変数ipwaの値が音声透かし情報総ビット長WAの値と一致した場合(S625:Yes)、音声透かし抽出部302は、変数iddaの値を0に初期化し(S630)、音声投票バッファvaのidda番目のデータの値の符号が正か否かを判定する(S631)。音声投票バッファva[idda]のデータの値の符号が正である場合(S631:Yes)、音声透かし抽出部302は、読取音声透かし情報ddaのidda番目のビットに1を設定し(S632)、ステップS634に示す処理を実行する。
If the value of the variable ipwa matches the value of the audio watermark information total bit length WA in step S625 (S625: Yes), the audio
音声投票バッファva[idda]のデータの値の符号が正でない場合(S631:No)、音声透かし抽出部302は、読取音声透かし情報ddaのidda番目のビットに0を設定し(S632)、変数iddaの値を1増やす(S634)。ここで、本実施形態では、音声データxa[i]に音声透かし情報dea[i]の各ビットを3回(奇数回)埋め込むこととしており、音声透かし情報dea[i]の各ビットの値は0または1であるため、音声投票バッファva[idda]の値は0になることはない。
When the sign of the data value of the voice voting buffer va [idda] is not positive (S631: No), the voice
しかし、音声データxa[i]に音声透かし情報dea[i]の各ビットを遇数回埋め込む場合や、音声透かし情報dea[i]の一部を偶数回埋め込む場合には、音声投票バッファva[idda]の値が0になる場合がある。音声投票バッファva[idda]の値が0となった場合、音声透かし抽出部302は、読取音声透かし情報ddaのidda番目のビットに0または1を設定する。このとき、音声透かし抽出部302は、0または1の設定が偏らないように、交互に設定することが好ましい。
However, when embedding each bit of the audio watermark information dea [i] in the audio data xa [i] an even number of times or when embedding a part of the audio watermark information dea [i] an even number of times, the audio voting buffer va [ The idda] value may be 0. When the value of the audio voting buffer va [idda] becomes 0, the audio
次に、音声透かし抽出部302は、変数iddaの値が音声透かし情報ビット長DAの値と一致したか否かを判定する(S635)。変数iddaの値が音声透かし情報ビット長DAの値と異なる場合(S635:No)、音声透かし抽出部302は、再びステップS631に示した処理を実行する。変数iddaの値が音声透かし情報ビット長DAの値と一致した場合(S635:Yes)、音声透かし抽出部302は、読取音声透かし情報dda[i]を特徴量再構成部306へ出力し(S636)、本フローチャートに示した処理を終了する。
Next, the audio
ここで、ステップS622からS635の処理を図29を用いて説明すると、音声透かし抽出部302は、音声透かし情報埋込位置pwa[i]で示される音声データxa[i]の偶数番目の3つのビット416、417、および418を読み出して、当該ビットの値が0であれば音声投票バッファva[i]の対応するデータ419の値を1減らし、当該ビットの値が1であれば対応するデータ419の値を1増やす。そして、音声透かし抽出部302は、音声投票バッファva[i]のデータ419の値の符号が正であれば、読取音声透かし情報dda[i]の対応するビット418の値を1とし、負であれば0とすることにより、多数決により読取音声透かし情報dda[i]のビット418の値を決定する。
Here, the processing of steps S622 to S635 will be described with reference to FIG. 29. The audio
これにより、改ざん検出装置30は、記録媒体13に記録されたデータが劣化した場合や、データのわずかな変化を伴う変換が記録媒体13に記録されたコンテンツデータに施された場合等、コンテンツの改ざんとは異なるわずかな変化をキャンセルすることができ、コンテンツの改ざんの有無を精度よく判定することができる。
As a result, the
図30は、第3の実施形態における映像データについての透かし情報の抽出処理(S600)の一例を示すフローチャートである。映像透かし抽出部303は、1フレーム毎に記録媒体13から読み出した映像データxv[i]について、本フローチャートに示す処理を実行する。
FIG. 30 is a flowchart illustrating an example of watermark information extraction processing (S600) for video data according to the third embodiment. The video
まず、映像透かし抽出部303は、映像透かし情報埋込位置pwv[i](0≦i<WV)を準備する(S640)。映像透かし情報埋込位置pwv[i]は、図27で説明した映像透かし情報埋込位置pwv[i]と同一の数列であり、映像透かし埋込部204によって用いられた映像透かし情報埋込位置pwv[i]が、例えば改ざん検出装置30の管理者等によって予め改ざん検出装置30に登録される。
First, the video
次に、映像透かし抽出部303は、変数ivvおよび変数ipwvの値を0に初期化し(S641)、映像データxvのpwv[ipwv]番目の値が0か否かを判定する(S642)。映像データxv[pwv[ipwv]]の値が0である場合(S642:Yes)、映像透かし抽出部303は、映像投票バッファvvのivv番目のデータの値を1減らし(S643)、ステップS645に示す処理を実行する。
Next, the video
映像データxv[pwv[ipwv]]の値が0ではない場合(S642:No)、映像透かし抽出部303は、映像投票バッファvvのivv番目のデータの値を1増やし(S644)、変数ipwvの値が映像透かし情報総ビット長WVの値と一致したか否かを判定する(S645)。変数ipwvの値が映像透かし情報総ビット長WVの値と異なる場合(S645:No)、映像透かし抽出部303は、変数ivvの値が映像透かし情報ビット長DVの値と一致したか否かを判定する(S646)。
When the value of the video data xv [pwv [ipwv]] is not 0 (S642: No), the video
変数ivvの値が映像透かし情報ビット長DVの値と一致した場合(S646:Yes)、映像透かし抽出部303は、変数ivvの値を0に初期化し(S647)、ステップS649に示す処理を実行する。変数ivvの値が映像透かし情報ビット長DVの値と異なる場合(S646:No)、映像透かし抽出部303は、変数ivvの値を1増やし(S648)、変数ipwvの値を1増やし(S649)、再びステップS642に示した処理を実行する。
When the value of the variable ivv matches the value of the video watermark information bit length DV (S646: Yes), the video
ステップS645において、変数ipwvの値が映像透かし情報総ビット長WVの値と一致した場合(S645:Yes)、映像透かし抽出部303は、変数iddvの値を0に初期化し(S650)、映像投票バッファvvのiddv番目のデータの値の符号が正か否かを判定する(S651)。映像投票バッファvv[iddv]のデータの値の符号が正である場合(S651:Yes)、映像透かし抽出部303は、読取映像透かし情報ddvのiddv番目のビットに1を設定し(S652)、ステップS654に示す処理を実行する。
In step S645, when the value of the variable ipwv matches the value of the video watermark information total bit length WV (S645: Yes), the video
映像投票バッファvv[iddv]のデータの値の符号が正でない場合(S651:No)、映像透かし抽出部303は、読取映像透かし情報ddvのiddv番目のビットに0を設定し(S652)、変数iddvの値を1増やす(S654)。
When the sign of the data value of the video voting buffer vv [iddv] is not positive (S651: No), the video
次に、映像透かし抽出部303は、変数iddvの値が映像透かし情報ビット長DVの値と一致したか否かを判定する(S655)。変数iddvの値が映像透かし情報ビット長DVの値と異なる場合(S655:No)、映像透かし抽出部303は、再びステップS651に示した処理を実行する。変数iddvの値が映像透かし情報ビット長DVの値と一致した場合(S655:Yes)、映像透かし抽出部303は、読取映像透かし情報ddv[i]を特徴量再構成部306へ出力し(S656)、本フローチャートに示した処理を終了する。
Next, the video
以上、本発明の第3の実施形態について説明した。 Heretofore, the third embodiment of the present invention has been described.
なお、上記した第1から第3の実施形態における透かし情報埋込装置20または改ざん検出装置30は、例えば図31に示すような構成のコンピュータ60によって実現される。コンピュータ60は、CPU(Central Processing Unit)61、RAM(Random Access Memory)62、ROM(Read Only Memory)63、HDD(Hard Disk Drive)64、通信インターフェイス(I/F)65、入出力インターフェイス(I/F)66、およびメディアインターフェイス(I/F)67を備える。
The watermark
CPU61は、ROM63またはHDD64に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM63は、コンピュータ60の起動時にCPU61によって実行されるブートプログラムや、コンピュータ60のハードウェアに依存するプログラム等を格納する。
The
HDD64は、CPU61によって実行されるプログラムおよび当該プログラムによって使用されるデータ等を格納する。通信インターフェイス65は、通信回線を介して他の機器からデータを受信してCPU61へ送ると共に、CPU61が生成したデータを、通信回線を介して他の機器へ送信する。
The
CPU61は、入出力インターフェイス66を介して、スピーカ14や表示装置15等の出力装置、および、キーボードやマウス、マイク11、カメラ12等の入力装置を制御する。CPU61は、入出力インターフェイス66を介して、入力装置からデータを取得する。また、CPU61は、生成したデータを、入出力インターフェイス66を介して出力装置へ出力する。
The
メディアインターフェイス67は、記録媒体68に格納されたプログラムまたはデータを読み取り、RAM62を介してCPU61に提供する。CPU61は、当該プログラムを、メディアインターフェイス67を介して記録媒体68からRAM62上にロードし、ロードしたプログラムを実行する。記録媒体68は、例えばDVD(Digital Versatile Disk)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
The
コンピュータ60が透かし情報埋込装置20として機能する場合、コンピュータ60のCPU61は、RAM62上にロードされたプログラムを実行することにより、音声データ作成部200、映像データ作成部201、音声透かし埋込部202、透かし情報作成部203、映像透かし埋込部204、音声特徴量抽出部205、音声特徴量遅延部206、映像特徴量遅延部207、映像特徴量抽出部208、およびコンテンツ記録部209の各機能を実現する。
When the computer 60 functions as the watermark
また、コンピュータ60が改ざん検出装置30として機能する場合、コンピュータ60のCPU61は、RAM62上にロードされたプログラムを実行することにより、コンテンツ再生部300、音声特徴量抽出部301、音声透かし抽出部302、映像透かし抽出部303、映像特徴量抽出部304、音声特徴量遅延部305、特徴量再構成部306、映像特徴量遅延部307、音声改ざん検出部308、および映像改ざん検出部309の各機能を実現する。
When the computer 60 functions as the
コンピュータ60のCPU61は、これらのプログラムを、記録媒体68から読み取って実行するが、他の例として、他の装置から、通信媒体を介してこれらのプログラムを取得してもよい。通信媒体とは、通信回線、または、当該通信回線を伝搬するディジタル信号もしくは搬送波を指す。
The
なお、本発明は、上記した実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。 In addition, this invention is not limited to above-described embodiment, Many deformation | transformation are possible within the range of the summary.
例えば、上記した各実施形態では、透かし情報埋込装置20が1つの装置として実現される構成を例に説明したが、本発明はこれに限られず、複数のコンピュータのそれぞれに、透かし情報埋込装置20内の各機能を分散させ、当該複数のコンピュータを協調動作させて透かし情報埋込装置20の機能を実現させるようにしてもよい。上記した各実施形態における改ざん検出装置30についても同様である。
For example, in each of the embodiments described above, the configuration in which the watermark
また、上記した各実施形態における透かし情報埋込装置20または改ざん検出装置30内の各構成要素は、実施形態の説明を容易にするために、主な処理内容に応じて機能別に区分したものである。また、構成要素の区分方法やその名称によって、本願発明が制限されることはない。各実施形態における透かし情報埋込装置20または改ざん検出装置30内の構成要素は、処理内容に応じてさらに多くの構成要素に区分することもできるし、1つの構成要素がさらに多くの処理を実行するように区分することもできる。
In addition, each component in the watermark
また、上記した各実施形態において、透かし情報作成部203は、音声データxa[i]から抽出した音声特徴量fa[i]の一部および映像データxv[i]から抽出した映像特徴量fv[i]の一部を含む音声透かし情報dea[i]を作成すると共に、音声特徴量fa[i]の残りの部分および映像特徴量fv[i]の残りの部分を含む映像透かし情報dev[i]を作成するが、本発明はこれに限られない。例えば、透かし情報作成部203は、音声データxa[i]から抽出した音声特徴量fa[i]の全部および映像データxv[i]から抽出した映像特徴量fv[i]の一部を含む音声透かし情報dea[i]を作成し、映像特徴量fv[i]の残りの部分を含み、音声特徴量fa[i]を含まない映像透かし情報dea[i]を作成するようにしてもよい。
In each of the above embodiments, the watermark
また、上記した各実施形態では、音声特徴量遅延部206および映像特徴量遅延部207により各特徴量を3フレーム分遅延させたが、本発明はこれに限られず、透かし情報埋込装置20が、1フレーム分の時間(上記した各実施形態では1秒)の間に、音声透かし埋込部202による透かし情報の埋込処理、音声特徴量抽出部205による音声特徴量の抽出処理、および透かし情報作成部203による透かし情報の作成処理を終了可能な高性能のコンピュータである場合には、透かし情報埋込装置20には音声特徴量遅延部206および映像特徴量遅延部207が設けられていなくてもよい。
In each of the above embodiments, each feature amount is delayed by three frames by the audio feature
この場合、音声透かし埋込部202は、音声データ作成部200から1フレーム分の音声データxa[i]が出力されるたびに、前のフレームの音声データxa[i]および映像データxv[i]から作成された音声透かし情報dea[i]を音声データxa[i]に埋め込む。これにより、前のフレームから作成された透かし情報が埋め込まれないのは、最初の1フレームのみとなり、改ざんの検出対象となるフレームを多くすることができる。
In this case, every time audio data xa [i] for one frame is output from the audio
10・・・改ざん検出システム、11・・・マイク、12・・・カメラ、13・・・記録媒体、14・・・スピーカ、15・・・表示装置、20・・・透かし情報埋込装置、200・・・音声データ作成部、201・・・映像データ作成部、202・・・音声透かし埋込部、203・・・透かし情報作成部、204・・・映像透かし埋込部、205・・・音声特徴量抽出部、206・・・音声特徴量遅延部、207・・・映像特徴量遅延部、208・・・映像特徴量抽出部、209・・・コンテンツ記録部、30・・・改ざん検出装置、300・・・コンテンツ再生部、301・・・音声特徴量抽出部、302・・・音声透かし抽出部、303・・・映像透かし抽出部、304・・・映像特徴量抽出部、305・・・音声特徴量遅延部、306・・・特徴量再構成部、307・・・映像特徴量遅延部、308・・・音声改ざん検出部、309・・・映像改ざん検出部、50・・・画像、60・・・コンピュータ、61・・・CPU、62・・・RAM、63・・・ROM、64・・・HDD、65・・・通信インターフェイス、66・・・入出力インターフェイス、67・・・メディアインターフェイス、68・・・記録媒体
DESCRIPTION OF
Claims (8)
フレーム単位で音声データおよび映像データに透かし情報を埋め込む透かし情報埋込装置と、
フレーム単位で透かし情報が埋め込まれた音声データおよび映像データから透かし情報を読み出して、音声データおよび映像データの改ざんの有無を判定する改ざん検出装置と
を備え、
前記透かし情報埋込装置は、
外部から音声を取得してフレーム単位で音声データに変換する音声データ作成部と、
フレーム単位で、前記音声データ作成部によって作成された音声データ中の予め定められたビットを、音声透かし情報のビットに置き換えることにより、音声透かし情報を音声データに埋め込んで出力する音声透かし埋込部と、
フレーム単位で、前記音声透かし埋込部によって音声透かし情報が埋め込まれた音声データ中の音声透かし情報が埋め込まれていないビットから音声特徴量を抽出する第1の音声特徴量抽出部と、
外部から映像を取得してフレーム単位で映像データに変換する映像データ作成部と、
フレーム単位で、前記映像データ作成部によって作成された映像データ中の予め定められたビットを、映像透かし情報のビットに置き換えることにより、映像透かし情報を映像データに埋め込んで出力する映像透かし埋込部と、
フレーム単位で、前記映像透かし埋込部によって映像透かし情報が埋め込まれた映像データ中の映像透かし情報が埋め込まれていないビットから映像特徴量を抽出する第1の映像特徴量抽出部と、
フレーム単位で、前記音声特徴量の一部および前記映像特徴量の一部を含む音声透かし情報を作成し、作成した音声透かし情報を前記音声透かし埋込部に供給すると共に、フレーム単位で、前記音声特徴量の残りの部分および前記映像特徴量の残りの部分を含む映像透かし情報を作成し、作成した映像透かし情報を前記映像透かし埋込部に供給する透かし情報作成部と
を有し、
前記改ざん検出装置は、
フレーム単位で、音声データ中の音声透かし情報が埋め込まれるべきビット位置から音声透かし情報を抽出する音声透かし抽出部と、
フレーム単位で、音声データ中の音声透かし情報が埋め込まれていないビット位置から音声特徴量を抽出する第2の音声特徴量抽出部と、
フレーム単位で、映像データ中の映像透かし情報が埋め込まれるべきビット位置から映像透かし情報を抽出する映像透かし抽出部と、
フレーム単位で、映像データ中の映像透かし情報が埋め込まれていないビット位置から映像特徴量を抽出する第2の映像特徴量抽出部と、
フレーム単位で、前記音声透かし抽出部によって抽出された音声透かし情報から音声特徴量の一部および映像特徴量の一部を抽出し、フレーム単位で、前記映像透かし抽出部によって抽出された映像透かし情報から音声特徴量の残りの部分および映像特徴量の残りの部分を抽出し、フレーム単位で、抽出したデータから音声特徴量および映像特徴量をそれぞれ再構成する特徴量再構成部と、
フレーム単位で、前記第2の音声特徴量抽出部によって抽出された音声特徴量と、前記特徴量再構成部によって再構成された音声特徴量とを比較することにより、音声データの改ざんの有無を示す情報を出力する音声データ改ざん検出部と、
フレーム単位で、前記第2の映像特徴量抽出部によって抽出された映像特徴量と、前記特徴量再構成部によって再構成された映像特徴量とを比較することにより、映像データの改ざんの有無を示す情報を出力する映像データ改ざん検出部と
を有することを特徴とする改ざん検出システム。 A tamper detection system that detects tampering of content including audio data and video data in frame units,
A watermark information embedding device for embedding watermark information in audio data and video data in frame units;
A tamper detection device that reads watermark information from audio data and video data in which watermark information is embedded in units of frames, and determines whether the audio data and video data have been tampered with;
The watermark information embedding device comprises:
An audio data creation unit that obtains audio from the outside and converts it into audio data in units of frames;
An audio watermark embedding unit that embeds audio watermark information in audio data and outputs it by replacing predetermined bits in the audio data created by the audio data creation unit in units of frames with bits of audio watermark information When,
A first audio feature amount extraction unit that extracts an audio feature amount from a bit in which audio watermark information is not embedded in the audio data in which the audio watermark information is embedded by the audio watermark embedding unit;
A video data creation unit that acquires video from outside and converts it into video data in units of frames;
A video watermark embedding unit that embeds video watermark information in video data and outputs the video watermark information by replacing predetermined bits in the video data created by the video data creation unit in units of frames with bits of video watermark information When,
A first video feature amount extraction unit that extracts a video feature amount from a bit in which video watermark information is not embedded in the video data in which the video watermark information is embedded by the video watermark embedding unit in units of frames;
Create audio watermark information including a part of the audio feature amount and a part of the video feature amount in frame units, supply the generated audio watermark information to the audio watermark embedding unit, and in frame units, A watermark information creating unit that creates video watermark information including the remaining part of the audio feature and the remaining part of the video feature, and supplies the created video watermark information to the video watermark embedding unit;
The tampering detection device includes:
An audio watermark extraction unit that extracts audio watermark information from a bit position in which audio watermark information in audio data is to be embedded in units of frames;
A second audio feature amount extraction unit that extracts an audio feature amount from a bit position in which audio watermark information is not embedded in the audio data in units of frames;
A video watermark extraction unit that extracts video watermark information from a bit position in which video watermark information in video data is to be embedded in a frame unit;
A second video feature amount extraction unit that extracts a video feature amount from a bit position in which video watermark information in video data is not embedded in a frame unit;
The video watermark information extracted by the video watermark extraction unit by extracting a part of the audio feature amount and a part of the video feature amount from the audio watermark information extracted by the audio watermark extraction unit for each frame. A feature amount reconstructing unit that extracts the remaining portion of the audio feature amount and the remaining portion of the video feature amount from the frame, and reconstructs the audio feature amount and the video feature amount from the extracted data in units of frames,
By comparing the voice feature quantity extracted by the second voice feature quantity extraction unit with the voice feature quantity reconstructed by the feature quantity reconstruction unit in units of frames, whether or not the voice data has been tampered with is determined. An audio data alteration detection unit that outputs information indicating
By comparing the video feature quantity extracted by the second video feature quantity extraction unit with the video feature quantity reconstructed by the feature quantity reconstruction unit in units of frames, the presence or absence of alteration of the video data is determined. A falsification detection system comprising: a video data falsification detection unit that outputs information to be displayed.
前記透かし情報埋込装置は、
前記第1の音声特徴量抽出部によって抽出された音声特徴量を、第1のフレーム数分遅延させ、遅延させた音声特徴量を前記透かし情報作成部に供給する第1の音声特徴量遅延部と、
前記第1の映像特徴量抽出部によって抽出された映像特徴量を、第1のフレーム数分遅延させ、遅延させた映像特徴量を前記透かし情報作成部に供給する第1の映像特徴量遅延部と
をさらに有し、
前記透かし情報作成部は、
フレーム単位で、前記音声特徴量遅延部から供給された音声特徴量の一部および前記映像特徴量遅延部から供給された映像特徴量の一部を含む音声透かし情報を作成し、作成した音声透かし情報を前記音声透かし埋込部に供給すると共に、フレーム単位で、当該音声特徴量の残りの部分および当該映像特徴量の残りの部分を含む映像透かし情報を作成し、作成した映像透かし情報を前記映像透かし埋込部に供給し、
前記改ざん検出装置は、
前記第2の音声特徴量抽出部によって抽出された音声特徴量を、前記第1のフレーム数分遅延させ、遅延させた音声特徴量を前記音声データ改ざん検出部に供給する第2の音声特徴量遅延部と、
前記第2の映像特徴量抽出部によって抽出された映像特徴量を、前記第1のフレーム数分遅延させ、遅延させた映像特徴量を前記映像データ改ざん検出部に供給する第2の映像特徴量遅延部と
をさらに有し、
前記音声データ改ざん検出部は、
フレーム単位で、前記第2の音声特徴量遅延部から供給された音声特徴量と、前記特徴量再構成部によって再構成された音声特徴量とを比較することにより、音声データの改ざんの有無を示す情報を出力し、
前記映像データ改ざん検出部は、
フレーム単位で、前記第2の映像特徴量遅延部から供給された映像特徴量と、前記特徴量再構成部によって再構成された映像特徴量とを比較することにより、映像データの改ざんの有無を示す情報を出力することを特徴とする改ざん検出システム。 The falsification detection system according to claim 1,
The watermark information embedding device comprises:
A first audio feature amount delay unit that delays the audio feature amount extracted by the first audio feature amount extraction unit by a first number of frames and supplies the delayed audio feature amount to the watermark information creation unit When,
A first video feature amount delay unit that delays the video feature amount extracted by the first video feature amount extraction unit by a first number of frames and supplies the delayed video feature amount to the watermark information creation unit And
The watermark information creating unit
Created audio watermark information including a part of the audio feature amount supplied from the audio feature amount delay unit and a part of the video feature amount supplied from the video feature amount delay unit in a frame unit, and the generated audio watermark Information is supplied to the audio watermark embedding unit, and video watermark information including the remaining portion of the audio feature amount and the remaining portion of the video feature amount is generated in units of frames, and the generated video watermark information is Supply to the video watermark embedding part,
The tampering detection device includes:
The second audio feature amount that is extracted by the second audio feature amount extraction unit is delayed by the first number of frames, and the delayed audio feature amount is supplied to the audio data alteration detection unit. A delay unit;
A second video feature amount that is delayed by the first number of frames and that is delayed by the first video feature amount extraction unit and that is supplied to the video data alteration detection unit. A delay unit,
The voice data falsification detection unit
By comparing the audio feature quantity supplied from the second audio feature quantity delay unit with the audio feature quantity reconstructed by the feature quantity reconstruction unit in units of frames, the presence or absence of alteration of the audio data is determined. Output the information shown,
The video data alteration detection unit
By comparing the video feature quantity supplied from the second video feature quantity delay unit with the video feature quantity reconstructed by the feature quantity reconstruction unit in units of frames, the presence or absence of alteration of the video data is determined. A falsification detection system characterized by outputting information indicating.
外部から音声を取得してフレーム単位で音声データに変換する音声データ作成部と、
フレーム単位で、前記音声データ作成部によって作成された音声データ中の予め定められたビットを、音声透かし情報のビットに置き換えることにより、音声透かし情報を音声データに埋め込んで出力する音声透かし埋込部と、
フレーム単位で、前記音声透かし埋込部によって音声透かし情報が埋め込まれた音声データ中の音声透かし情報が埋め込まれていないビットから音声特徴量を抽出する音声特徴量抽出部と、
外部から映像を取得してフレーム単位で映像データに変換する映像データ作成部と、
フレーム単位で、前記映像データ作成部によって作成された映像データ中の予め定められたビットを、映像透かし情報のビットに置き換えることにより、映像透かし情報を映像データに埋め込んで出力する映像透かし埋込部と、
フレーム単位で、前記映像透かし埋込部によって映像透かし情報が埋め込まれた映像データ中の映像透かし情報が埋め込まれていないビットから映像特徴量を抽出する映像特徴量抽出部と、
フレーム単位で、前記音声特徴量の一部および前記映像特徴量の一部を含む音声透かし情報を作成し、作成した音声透かし情報を前記音声透かし埋込部に供給すると共に、フレーム単位で、前記音声特徴量の残りの部分および前記映像特徴量の残りの部分を含む映像透かし情報を作成し、作成した映像透かし情報を前記映像透かし埋込部に供給する透かし情報作成部と
を備えることを特徴とする透かし情報埋込装置。 A watermark information embedding device that embeds watermark information for detecting falsification of content including audio data and video data in frame units,
An audio data creation unit that obtains audio from the outside and converts it into audio data in units of frames;
An audio watermark embedding unit that embeds audio watermark information in audio data and outputs it by replacing predetermined bits in the audio data created by the audio data creation unit in units of frames with bits of audio watermark information When,
An audio feature amount extraction unit that extracts an audio feature amount from bits in which audio watermark information is not embedded in the audio data in which the audio watermark information is embedded by the audio watermark embedding unit in units of frames;
A video data creation unit that acquires video from outside and converts it into video data in units of frames;
A video watermark embedding unit that embeds video watermark information in video data and outputs the video watermark information by replacing predetermined bits in the video data created by the video data creation unit in units of frames with bits of video watermark information When,
A video feature amount extraction unit that extracts a video feature amount from a bit in which video watermark information is not embedded in the video data in which the video watermark information is embedded by the video watermark embedding unit in a frame unit;
Create audio watermark information including a part of the audio feature amount and a part of the video feature amount in frame units, supply the generated audio watermark information to the audio watermark embedding unit, and in frame units, A watermark information creating unit that creates video watermark information including the remaining part of the audio feature quantity and the remaining part of the video feature quantity, and supplies the created video watermark information to the video watermark embedding unit; A watermark information embedding device.
前記音声特徴量抽出部によって抽出された音声特徴量を、予め定められたフレーム数分遅延させ、遅延させた音声特徴量を前記透かし情報作成部に供給する音声特徴量遅延部と、
前記映像特徴量抽出部によって抽出された映像特徴量を、予め定められたフレーム数分遅延させ、遅延させた映像特徴量を前記透かし情報作成部に供給する映像特徴量遅延部と
をさらに備え、
前記透かし情報作成部は、
フレーム単位で、前記音声特徴量遅延部から供給された音声特徴量の一部および前記映像特徴量遅延部から供給された映像特徴量の一部を含む音声透かし情報を作成し、作成した音声透かし情報を前記音声透かし埋込部に供給すると共に、フレーム単位で、当該音声特徴量の残りの部分および当該映像特徴量の残りの部分を含む映像透かし情報を作成し、作成した映像透かし情報を前記映像透かし埋込部に供給することを特徴とする透かし情報埋込装置。 The watermark information embedding device according to claim 3,
A speech feature amount delay unit that delays the speech feature amount extracted by the speech feature amount extraction unit by a predetermined number of frames, and supplies the delayed speech feature amount to the watermark information creation unit;
A video feature amount delay unit that delays the video feature amount extracted by the video feature amount extraction unit by a predetermined number of frames, and supplies the delayed video feature amount to the watermark information creation unit;
The watermark information creating unit
Created audio watermark information including a part of the audio feature amount supplied from the audio feature amount delay unit and a part of the video feature amount supplied from the video feature amount delay unit in a frame unit, and the generated audio watermark Information is supplied to the audio watermark embedding unit, and video watermark information including the remaining portion of the audio feature amount and the remaining portion of the video feature amount is generated in units of frames, and the generated video watermark information is A watermark information embedding device, characterized by being supplied to a video watermark embedding unit.
フレーム単位で、音声データ中の音声透かし情報が埋め込まれるべきビット位置から音声透かし情報を抽出する音声透かし抽出部と、
フレーム単位で、音声データ中の音声透かし情報が埋め込まれていないビット位置から音声特徴量を抽出する音声特徴量抽出部と、
フレーム単位で、映像データ中の映像透かし情報が埋め込まれるべきビット位置から映像透かし情報を抽出する映像透かし抽出部と、
フレーム単位で、映像データ中の映像透かし情報が埋め込まれていないビット位置から映像特徴量を抽出する映像特徴量抽出部と、
フレーム単位で、前記音声透かし抽出部によって抽出された音声透かし情報から音声特徴量の一部および映像特徴量の一部を抽出し、フレーム単位で、前記映像透かし抽出部によって抽出された映像透かし情報から音声特徴量の残りの部分および映像特徴量の残りの部分を抽出し、フレーム単位で、抽出したデータから音声特徴量および映像特徴量をそれぞれ再構成する特徴量再構成部と、
フレーム単位で、前記音声特徴量抽出部によって抽出された音声特徴量と、前記特徴量再構成部によって再構成された音声特徴量とを比較することにより、音声データの改ざんの有無を示す情報を出力する音声データ改ざん検出部と、
フレーム単位で、前記映像特徴量抽出部によって抽出された映像特徴量と、前記特徴量再構成部によって再構成された映像特徴量とを比較することにより、映像データの改ざんの有無を示す情報を出力する映像データ改ざん検出部と
を備えることを特徴とする改ざん検出装置。 An alteration detection device that detects alteration of content including audio data and video data in units of frames,
An audio watermark extraction unit that extracts audio watermark information from a bit position in which audio watermark information in audio data is to be embedded in units of frames;
An audio feature amount extraction unit that extracts an audio feature amount from a bit position in which audio watermark information is not embedded in audio data in units of frames;
A video watermark extraction unit that extracts video watermark information from a bit position in which video watermark information in video data is to be embedded in a frame unit;
A video feature quantity extraction unit that extracts video feature quantities from bit positions in which video watermark information is not embedded in video data in units of frames;
The video watermark information extracted by the video watermark extraction unit by extracting a part of the audio feature amount and a part of the video feature amount from the audio watermark information extracted by the audio watermark extraction unit for each frame. A feature amount reconstructing unit that extracts the remaining portion of the audio feature amount and the remaining portion of the video feature amount from the frame, and reconstructs the audio feature amount and the video feature amount from the extracted data in units of frames,
Information indicating whether or not the audio data has been tampered with by comparing the audio feature amount extracted by the audio feature amount extraction unit with the audio feature amount reconstructed by the feature amount reconstruction unit in units of frames. An audio data alteration detection unit to be output;
By comparing the video feature amount extracted by the video feature amount extraction unit with the video feature amount reconstructed by the feature amount reconstruction unit in units of frames, information indicating the presence / absence of alteration of the video data is obtained. An alteration detection device comprising: an output video data alteration detection unit.
前記音声特徴量抽出部によって抽出された音声特徴量を、予め定められたフレーム数分遅延させ、遅延させた音声特徴量を前記音声データ改ざん検出部に供給する音声特徴量遅延部と、
前記映像特徴量抽出部によって抽出された映像特徴量を、予め定められたフレーム数分遅延させ、遅延させた映像特徴量を前記映像データ改ざん検出部に供給する映像特徴量遅延部と
をさらに備え、
前記音声データ改ざん検出部は、
フレーム単位で、前記音声特徴量遅延部から供給された音声特徴量と、前記特徴量再構成部によって再構成された音声特徴量とを比較することにより、音声データの改ざんの有無を示す情報を出力し、
前記映像データ改ざん検出部は、
フレーム単位で、前記映像特徴量遅延部から供給された映像特徴量と、前記特徴量再構成部によって再構成された映像特徴量とを比較することにより、映像データの改ざんの有無を示す情報を出力することを特徴とする改ざん検出装置。 The falsification detection device according to claim 5,
A speech feature amount delay unit that delays the speech feature amount extracted by the speech feature amount extraction unit by a predetermined number of frames and supplies the delayed speech feature amount to the speech data alteration detection unit;
A video feature amount delay unit that delays the video feature amount extracted by the video feature amount extraction unit by a predetermined number of frames and supplies the delayed video feature amount to the video data alteration detection unit; ,
The voice data falsification detection unit
Information indicating whether or not audio data has been tampered with by comparing the audio feature amount supplied from the audio feature amount delay unit with the audio feature amount reconstructed by the feature amount reconstruction unit in units of frames. Output,
The video data alteration detection unit
By comparing the video feature quantity supplied from the video feature quantity delay unit with the video feature quantity reconstructed by the feature quantity reconstruction unit in units of frames, information indicating the presence or absence of alteration of the video data is obtained. An alteration detection device characterized by outputting.
前記透かし情報埋込装置が、
外部から音声を取得してフレーム単位で音声データに変換する音声データ作成ステップと、
フレーム単位で、前記音声データ作成ステップにおいて作成した音声データ中の予め定められたビットを、音声透かし情報のビットに置き換えることにより、音声透かし情報を音声データに埋め込んで出力する音声透かし情報埋込ステップと、
フレーム単位で、前記音声透かし情報埋込ステップにおいて音声透かし情報が埋め込まれた音声データ中の音声透かし情報が埋め込まれていないビットから音声特徴量を抽出する音声特徴量抽出ステップと、
外部から映像を取得してフレーム単位で映像データに変換する映像データ作成ステップと、
フレーム単位で、前記映像データ作成ステップにおいて作成した映像データ中の予め定められたビットを、映像透かし情報のビットに置き換えることにより、映像透かし情報を映像データに埋め込んで出力する映像透かし情報埋込ステップと、
フレーム単位で、前記映像透かし情報埋込ステップにおいて映像透かし情報が埋め込まれた映像データ中の映像透かし情報が埋め込まれていないビットから映像特徴量を抽出する映像特徴量抽出ステップと、
フレーム単位で、前記音声特徴量の一部および前記映像特徴量の一部を含む音声透かし情報を作成するステップと、
フレーム単位で、前記音声特徴量の残りの部分および前記映像特徴量の残りの部分を含む映像透かし情報を作成するステップと
を実行することを特徴とする透かし情報埋込方法。 A watermark information embedding method in a watermark information embedding device for embedding watermark information for detecting falsification of content including audio data and video data in frame units,
The watermark information embedding device,
Audio data creation step for acquiring audio from outside and converting it into audio data in frame units;
Audio watermark information embedding step for embedding audio watermark information in audio data and outputting the audio watermark information by replacing predetermined bits in the audio data created in the audio data creation step in units of frames with bits of audio watermark information When,
An audio feature amount extraction step for extracting audio feature amounts from bits in which audio watermark information is not embedded in the audio data in which the audio watermark information is embedded in the audio watermark information embedding step in units of frames;
Video data creation step for acquiring video from outside and converting it to video data in frame units,
A video watermark information embedding step for embedding video watermark information in video data and outputting it by replacing a predetermined bit in the video data created in the video data creation step in units of frames with bits of video watermark information When,
A video feature amount extraction step for extracting a video feature amount from a bit in which video watermark information is not embedded in the video data in which the video watermark information is embedded in the video watermark information embedding step in units of frames;
Creating audio watermark information including a part of the audio feature quantity and a part of the video feature quantity in a frame unit;
A method of embedding watermark information, comprising: generating video watermark information including a remaining portion of the audio feature amount and a remaining portion of the video feature amount in units of frames.
前記改ざん検出装置が、
フレーム単位で、音声データ中の音声透かし情報が埋め込まれるべきビット位置から音声透かし情報を抽出する音声透かし情報抽出ステップと、
フレーム単位で、音声データ中の音声透かし情報が埋め込まれていないビット位置から音声特徴量を抽出する音声特徴量抽出ステップと、
フレーム単位で、映像データ中の映像透かし情報が埋め込まれるべきビット位置から映像透かし情報を抽出する映像透かし情報抽出ステップと、
フレーム単位で、映像データ中の映像透かし情報が埋め込まれていないビット位置から映像特徴量を抽出する映像特徴量抽出ステップと、
フレーム単位で、前記音声透かし情報抽出ステップにおいて抽出した音声透かし情報から音声特徴量の一部および映像特徴量の一部を抽出し、フレーム単位で、前記映像透かし情報抽出ステップにおいて抽出した映像透かし情報から音声特徴量の残りの部分および映像特徴量の残りの部分を抽出し、フレーム単位で、抽出したデータから音声特徴量および映像特徴量をそれぞれ再構成する特徴量再構成ステップと、
フレーム単位で、前記音声特徴量抽出ステップにおいて抽出した音声特徴量と、前記特徴量再構成ステップにおいて再構成した音声特徴量とを比較することにより、音声データの改ざんの有無を示す情報を出力する音声データ改ざん検出ステップと、
フレーム単位で、前記映像特徴量抽出ステップにおいて抽出した映像特徴量と、前記特徴量再構成ステップにおいて再構成した映像特徴量とを比較することにより、映像データの改ざんの有無を示す情報を出力する映像データ改ざん検出ステップと
を実行することを特徴とする改ざん検出方法。 An alteration detection method in an alteration detection device for detecting alteration of content including audio data and video data in units of frames,
The tamper detection device is
An audio watermark information extracting step for extracting audio watermark information from a bit position in which audio watermark information in the audio data is to be embedded in units of frames;
An audio feature amount extraction step for extracting an audio feature amount from a bit position in which audio watermark information is not embedded in the audio data in units of frames;
A video watermark information extraction step for extracting video watermark information from a bit position in which video watermark information in video data is to be embedded in a frame unit;
A video feature amount extraction step for extracting a video feature amount from a bit position in which video watermark information in the video data is not embedded in a frame unit;
The video watermark information extracted in the video watermark information extraction step in a frame unit by extracting a part of the audio feature quantity and a part of the video feature quantity in the frame unit from the audio watermark information extracted in the audio watermark information extraction step. A feature amount reconstruction step of extracting the remaining part of the audio feature amount and the remaining portion of the video feature amount from the frame, and reconstructing the audio feature amount and the video feature amount from the extracted data in units of frames,
Outputs information indicating whether or not the audio data has been altered by comparing the audio feature quantity extracted in the audio feature quantity extraction step with the audio feature quantity reconstructed in the feature quantity reconstruction step in units of frames. An audio data alteration detection step;
Information indicating whether the video data has been tampered is output by comparing the video feature quantity extracted in the video feature quantity extraction step with the video feature quantity reconstructed in the feature quantity reconstruction step in units of frames. And a video data alteration detection step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009118329A JP5031793B2 (en) | 2009-05-15 | 2009-05-15 | Tamper detection system, watermark information embedding device, tamper detection device, watermark information embedding method, and tamper detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009118329A JP5031793B2 (en) | 2009-05-15 | 2009-05-15 | Tamper detection system, watermark information embedding device, tamper detection device, watermark information embedding method, and tamper detection method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010268263A JP2010268263A (en) | 2010-11-25 |
JP5031793B2 true JP5031793B2 (en) | 2012-09-26 |
Family
ID=43364872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009118329A Expired - Fee Related JP5031793B2 (en) | 2009-05-15 | 2009-05-15 | Tamper detection system, watermark information embedding device, tamper detection device, watermark information embedding method, and tamper detection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5031793B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114501128A (en) * | 2020-11-12 | 2022-05-13 | 中国移动通信集团浙江有限公司 | Security protection method, tampering detection method and device for mixed multimedia information stream |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5557756B2 (en) * | 2011-01-17 | 2014-07-23 | 日本放送協会 | Digital watermark embedding device, digital watermark embedding program, digital watermark detection device, and digital watermark detection program |
JP6771520B2 (en) * | 2018-09-28 | 2020-10-21 | Toa株式会社 | Broadcasting system and information presentation device |
CN110853668B (en) * | 2019-09-06 | 2022-02-01 | 南京工程学院 | Voice tampering detection method based on multi-feature fusion |
WO2023089731A1 (en) * | 2021-11-18 | 2023-05-25 | エヴィクサー株式会社 | Determination system, information processing device, method, and program |
CN114155875B (en) * | 2022-02-09 | 2022-05-03 | 中国科学院自动化研究所 | Method and device for identifying voice scene tampering, electronic equipment and storage medium |
CN117240489A (en) * | 2022-06-07 | 2023-12-15 | 华为技术有限公司 | Conference data transmission method, device and equipment |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4143884B2 (en) * | 1998-10-07 | 2008-09-03 | ソニー株式会社 | Encoding apparatus and encoding method, decoding apparatus and decoding method, recording medium, and data processing apparatus |
JP4193665B2 (en) * | 2003-03-05 | 2008-12-10 | 株式会社日立製作所 | Digital watermarking method for binary images |
JP4728136B2 (en) * | 2006-02-10 | 2011-07-20 | 株式会社日立製作所 | Content distribution system and content distribution method |
JP2008085579A (en) * | 2006-09-27 | 2008-04-10 | Oki Electric Ind Co Ltd | Device for embedding information, information reader, method for embedding information, method for reading information and computer program |
JP4538469B2 (en) * | 2007-03-05 | 2010-09-08 | 富士フイルム株式会社 | Digital watermark embedding device for digital contents, operation control method thereof and control program thereof |
-
2009
- 2009-05-15 JP JP2009118329A patent/JP5031793B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114501128A (en) * | 2020-11-12 | 2022-05-13 | 中国移动通信集团浙江有限公司 | Security protection method, tampering detection method and device for mixed multimedia information stream |
CN114501128B (en) * | 2020-11-12 | 2023-11-03 | 中国移动通信集团浙江有限公司 | Security protection method, tamper detection method and device for mixed multimedia information stream |
Also Published As
Publication number | Publication date |
---|---|
JP2010268263A (en) | 2010-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5031793B2 (en) | Tamper detection system, watermark information embedding device, tamper detection device, watermark information embedding method, and tamper detection method | |
ES2719586T3 (en) | Creating benchmarks in a multimedia stream with automated content recognition | |
CN100534181C (en) | Increasing integrity of watermarks using robust features | |
Wu et al. | Tamper detection and recovery for medical images using near-lossless information hiding technique | |
JP4186531B2 (en) | Data embedding method, data extracting method, data embedding extracting method, and system | |
KR102065512B1 (en) | Computing device, method, computer program for processing video | |
ES2171212T3 (en) | METHOD AND APPARATUS FOR CODING / DECODING DATA AND ENVIRONMENT OF ENCRYPTED DATA. | |
HUP0103629A2 (en) | Verifiable electronic journal for a point of sale device and methods for using the same | |
JP2005528649A (en) | Re-embedding digital watermarks in multimedia signals | |
Hilbert et al. | Info Capacity| How to Measure the World’s Technological Capacity to Communicate, Store and Compute Information? Part II: Measurement Unit and Conclusions | |
JP2004525430A (en) | Digital watermark generation and detection | |
JP2009529250A (en) | Convert slideshow still images to multiple video frame images | |
JP4302533B2 (en) | Search for watermark time scale | |
FR2882212A1 (en) | CONVERTING A FIXED IMAGE TO A PLURALITY OF VIDEO FRAME IMAGES | |
JP2019041192A (en) | Data falsification detector, data falsification detection method, and data structure of image data | |
JP4070742B2 (en) | Method and apparatus for embedding / detecting synchronization signal for synchronizing audio file and text | |
Kong et al. | Reversible data hiding in encrypted medical DICOM image | |
JP2013068699A (en) | Image display device and image display program | |
Shirali-Shahreza | A new method for real-time steganography | |
Singh et al. | Enhancement of LSB based steganography for hiding image in audio | |
WO2019039194A1 (en) | Voice image reproduction device, voice image reproduction method, and data structure of image data | |
WO2019039192A1 (en) | Image reproduction device, information processing apparatus, image reproduction method, and data structure of image data | |
JP4728136B2 (en) | Content distribution system and content distribution method | |
JP2008020944A (en) | Image processing method, program, and device | |
KR100577558B1 (en) | Sync signal insertion/detection method and apparatus for synchronization between audio contents and text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110609 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120514 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120529 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120627 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150706 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |