JP2006171110A - Method for embedding additional information to audio data, method for reading embedded additional information from audio data, and apparatus therefor - Google Patents

Method for embedding additional information to audio data, method for reading embedded additional information from audio data, and apparatus therefor Download PDF

Info

Publication number
JP2006171110A
JP2006171110A JP2004360127A JP2004360127A JP2006171110A JP 2006171110 A JP2006171110 A JP 2006171110A JP 2004360127 A JP2004360127 A JP 2004360127A JP 2004360127 A JP2004360127 A JP 2004360127A JP 2006171110 A JP2006171110 A JP 2006171110A
Authority
JP
Japan
Prior art keywords
additional information
data
audio data
embedding
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004360127A
Other languages
Japanese (ja)
Inventor
Atsushi Matsushita
温 松下
Masahito Ito
雅仁 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AMK KK
Original Assignee
AMK KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AMK KK filed Critical AMK KK
Priority to JP2004360127A priority Critical patent/JP2006171110A/en
Publication of JP2006171110A publication Critical patent/JP2006171110A/en
Pending legal-status Critical Current

Links

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method for embedding additional information to audio data, corresponding to analog and digital transmission and corresponding to monaural transmission and irreversible compression, and to provide a method for reading the embedded additional information from the audio data and apparatuses therefor. <P>SOLUTION: Digitized discrete amplitude signals are transformed from a time region to a frequency region and the obtained spectra are divided to two groups in units of odd numbers, even numbers, etc. By adjusting gains, such that the summation of the amplitude of the one group is "1" if greater than the summation of the amplitude of the other and is "0" in the opposite case, the data are superposed and is returned to the original time region by inverse transformation. The data superposed signal are retransformed to the frequency region, and the comparison of the amplitude sum of the spectra of the two groups is performed. The embedded data are then taken out. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、音声データへの付加情報埋め込み方法、音声データからの付加情報埋読み取り方法及びそれらの装置に係り、特に音声データに付加信号データを埋め込むことができる音声データへの付加情報埋め込み方法、音声データからの付加情報埋読み取り方法及び装置に関する。   The present invention relates to a method for embedding additional information in audio data, a method for embedding additional information from audio data, and devices thereof, and more particularly, a method for embedding additional information in audio data capable of embedding additional signal data in audio data, The present invention relates to a method and apparatus for embedding additional information from audio data.

現在、ディジタル化された音楽コンテンツはCDのほか、インターネットを経由しても提供されている。このようなデジタル・オーディオデータでは、何度複製しても音質の劣化がない。このため、不正コピー防止技術が重要となっている。   Currently, digitized music content is provided via the Internet in addition to CDs. With such digital audio data, there is no deterioration in sound quality no matter how many times it is copied. For this reason, illegal copy prevention technology is important.

これらの不正な複製を防ぐためには、あらかじめ著作権情報等をオーディオデータ自身に埋め込むことで著作権の所在を明確にすることや、また、コンテンツ配布先の情報を埋め込むことで不正なコピーが出回った場合にもその流出経路を追跡することが考えられる。このとき、コンテンツの商品価値を下げないためには、情報の埋込みによる音質の変化が聴者に判別されてはならない。   In order to prevent these unauthorized duplications, it is necessary to clarify the whereabouts of copyright by embedding copyright information etc. in the audio data itself in advance, and illegal copies are circulated by embedding content distribution destination information. It is possible to track the outflow route even in the case of an accident. At this time, in order not to lower the product value of the content, the change in sound quality due to the embedding of information must not be discriminated by the listener.

また、音楽コンテンツにはフィルター処理、MPEGやAC3やATRACなどの圧縮・解凍、ディジタルからアナログへの変換、アナログからディジタルへの変換、切り出し、再生速度の変化などの処理が行われるので、オーディオデータの音質に著しい劣化を引き起こさない範囲でのデータ値の変更、欠損、挿入、リサンプリングに対し、埋め込んだ情報が保存されている必要がある。   In addition, music content is subjected to processing such as filtering, compression / decompression such as MPEG, AC3, and ATRAC, conversion from digital to analog, conversion from analog to digital, extraction, and change in playback speed. The embedded information needs to be stored for data value changes, loss, insertion, and resampling within a range that does not cause significant deterioration in sound quality.

このような現状に鑑み音信号に人間には聞こえにくいように他のデータを重畳する、電子透かし技術が提唱されている。電子透かしでは、スペクトル拡散を用いて弱い疑似ランダム信号をそのまま原音に加えるなどの基本的方式のほか、元の音の質を可能なかぎり損なわないようにするため、聴覚を模した心理音響モデルを用いて、音質を損なわずデータを埋め込もうとしているものが多い。   In view of such a current situation, a digital watermark technique has been proposed in which other data is superimposed on a sound signal so that it is difficult for humans to hear. In digital watermarking, in addition to basic methods such as adding weak pseudo-random signals directly to the original sound using spread spectrum, a psychoacoustic model that mimics hearing is used to avoid damaging the quality of the original sound as much as possible. Many use it to embed data without compromising sound quality.

データ埋め込みに用いられる代表的な心理音響モデルとして、最小可聴限界、周波数マスキング(同時マスキング)、時間マスキング、バンドエリミネーション、位相変化への鈍感さなどが挙げられる。   Typical psychoacoustic models used for data embedding include minimum audible limit, frequency masking (simultaneous masking), time masking, band elimination, and insensitivity to phase change.

特許文献1には最小可聴限界を利用した例が記載されている。この技術は、聴覚は、3〜4kHzを中心として鋭敏であり高周波や低周波の弱音には極めて鈍感であることを利用して、原音に加えるデータの周波数特性を可聴限界下に押さえることで、データの埋め込みによる音質変化を抑えている。   Patent Document 1 describes an example using the minimum audible limit. This technology uses the fact that hearing is sensitive around 3 to 4 kHz and is extremely insensitive to high and low frequency weak sounds, and by suppressing the frequency characteristics of data added to the original sound below the audible limit, Suppresses changes in sound quality due to data embedding.

特許文献2には周波数マスキングを利用した例が記載されている。この技術は近接している周波数に大きな周波数成分がある場合、小さな成分は聞き取れなく現象を利用して埋め込みを行なうものである。   Patent Document 2 describes an example using frequency masking. In this technique, when there is a large frequency component in the adjacent frequency, the small component cannot be heard and is embedded using a phenomenon.

特許文献3には時間マスキングを利用した例が記載されている。この技術は、大きな音の直後に小さな音を鳴らしても聞こえないことを利用したもので、エコー法、エコー拡散法などと呼ばれる。   Patent Document 3 describes an example using time masking. This technique utilizes the fact that even if a small sound is played immediately after a loud sound, it cannot be heard, and is called an echo method, an echo diffusion method, or the like.

特許文献4には、バンドエリミネーションを利用した例が記載されている。このは可聴帯域の一部に信号の無い周波数帯域を作っても聞こえにくいことを利用し、その帯域の有無で、空中伝搬を試みている。   Patent Document 4 describes an example using band elimination. This utilizes the fact that it is difficult to hear even if a frequency band with no signal is created in a part of the audible band, and attempts to propagate in the air with or without the band.

以上に挙げた心理音響モデルは、音の不可逆圧縮技術でも同様に用いられている。すなわち、聞こえにくい信号は再現性を落とすことによって成り立っている音の不可逆圧縮では、心理音響モデルを用いており、圧縮を強くするほど聞こえにくい成分に対する情報の割り当ては削減される。そのため、不可逆圧縮に弱いものがほとんどである。特に、最小可聴限界下に埋め込む方法や、バンドエリミネーションのような音がない領域を作る方法は、その領域が真っ先に情報削減の対象とされるため、不可逆圧縮に非常に弱い。   The psychoacoustic models listed above are similarly used in the irreversible compression technique of sound. That is, in the irreversible compression of the sound that is formed by reducing the reproducibility of the signal that is difficult to hear, the psychoacoustic model is used, and the allocation of information to the component that is difficult to hear is reduced as the compression is increased. For this reason, most of them are vulnerable to lossy compression. In particular, the method of embedding under the minimum audible limit and the method of creating an area without sound such as band elimination are very vulnerable to irreversible compression because the area is first targeted for information reduction.

特許文献5には、位相変化を利用した例が記載されている。これは位相変化に対して聴覚が鈍感であることを利用し、データ信号で位相変調を加えることにより透かしを埋め込む手法である。しかし、位相の基準となるキャリア信号を付加した音が必要となるため、位相変調によってキャリア信号を付加しただけの原音、もしくは他チャネル音声を必要とし、原音または他チャネルとの比較を行なわなくてはデータを取り出すことができず、特にモノラル信号においてデータが埋め込まれた音のみからデータを取り出すことが困難である。   Patent Document 5 describes an example using phase change. This is a technique for embedding a watermark by applying phase modulation with a data signal by utilizing the fact that hearing is insensitive to phase changes. However, since a sound with a carrier signal to be used as a phase reference is required, it requires an original sound with only a carrier signal added by phase modulation, or other channel sound, and it must be compared with the original sound or another channel. Cannot extract data, and it is particularly difficult to extract data only from a sound in which data is embedded in a monaural signal.

以上のような方式の多くは、埋め込まれたデータと原音の区別をつけるために、原音そのものか、埋め込み時に利用したパラメータであるキーが必要となるものが多い。直接振幅の大きさを少し変える、圧縮されたデータを改変するなどの手法もあるが、同様の問題を持っている。そのため、対象の音そのものを判別するという用途に用いようとした場合に適さない。   Many of the above methods often require the original sound itself or a key that is a parameter used at the time of embedding in order to distinguish the embedded data from the original sound. Although there are methods such as changing the amplitude directly and altering the compressed data, they have similar problems. For this reason, it is not suitable for use in the purpose of discriminating the target sound itself.

また、これらの方式の多くは、ディジタル化された信号を演算してデータを取り出すことを想定しているため、一時アナログ化することを想定していないものも多い。
特許文献6には、音場定位の移動を利用した方法が記載されている。これは、多チャネルの音信号に対して、チャネル間の音量を変え、音の定位位置をずらすことで信号を埋め込むが、モノラル信号には用いることができない。空中伝搬も、空気中で音が混合するため不可能である。これは前期位相変調においても同様である。
In many of these systems, it is assumed that data is extracted by calculating a digitized signal, and therefore many are not assumed to be temporarily analogized.
Patent Document 6 describes a method using movement of sound field localization. This embeds a multi-channel sound signal by changing the volume between channels and shifting the sound localization position, but cannot be used for a monaural signal. Propagation in the air is also impossible due to sound mixing in the air. The same applies to the first phase modulation.

特表2003−536113号公報Special table 2003-536113 gazette 特開2003−263183号公報JP 2003-263183 A 特開2000−172282号公報JP 2000-172282 A 特開2001−148670号公報JP 2001-148670 A 特開2004−279469号公報JP 2004-279469 A

前記の従来技術では、一般的な心理音響モデルを用いたものは不可逆圧縮に弱い、ディジタル信号のみを対象とし伝送時のアナログ化を考慮していない、データの取り出しに原音もしくはキーが必要、モノラル信号に対応していないなどの問題があった。また、アナログ放送、アナログ通信路に対応するためにアナログ音声からデータを取り出すことができる必要があり、対象の音が不明な状態でデータの抽出を行なう必要があるため原音やキーを必要せず、音信号の伝送過程での不可逆圧縮伸張処理に耐え、空中伝搬にも応用可能とすることが求められている。   In the above prior art, those using a general psychoacoustic model are weak against lossy compression, do not consider analogization at the time of transmission only for digital signals, require original sound or key to extract data, monaural There were problems such as not supporting the signal. In addition, it is necessary to be able to extract data from analog audio to support analog broadcasting and analog communication channels, and it is necessary to extract data when the target sound is unknown, so no original sound or keys are required Therefore, it is required to withstand irreversible compression / decompression processing during transmission of sound signals and to be applicable to air propagation.

そこで本発明は、アナログ、ディジタル伝送に対応し、モノラル伝送、不可逆的圧縮に対応する音声データへの付加情報埋め込み方法、音声データからの付加情報埋読み取り方法及びそれらの装置を提供することを目的とする。   SUMMARY OF THE INVENTION Accordingly, an object of the present invention is to provide a method for embedding additional information in audio data corresponding to analog and digital transmission, and corresponding to monaural transmission and irreversible compression, a method for embedding additional information from audio data, and an apparatus thereof. And

請求項1の発明は音声データのスペクトル分布の周波数振幅特性に付加情報信号を重畳する、音声データへの付加情報埋め込み方法である   The invention of claim 1 is a method for embedding additional information in audio data, wherein the additional information signal is superimposed on the frequency amplitude characteristic of the spectral distribution of the audio data.

請求項2の発明は、請求項1の音声データへの付加情報埋め込み方法において、ディジタル化された音声データの時間領域での離散振幅信号を周波数領域へ変換し、該変換された信号に周波数系列データに付加情報を重畳し、付加データが重畳された周波数系列データを音声データに変換することを特徴とする。   According to a second aspect of the present invention, in the additional information embedding method in the voice data of the first aspect, a discrete amplitude signal in the time domain of the digitized voice data is converted into the frequency domain, and the frequency sequence is converted into the converted signal. Additional information is superimposed on the data, and the frequency series data on which the additional data is superimposed is converted into audio data.

請求項3の発明は、請求項1または2の音声データへの付加情報埋め込み方法において、音声データのスペクトル分布を抽出し、該スペクトル分布のうち所定の周波数分布域を複数の帯域に分割し、該分割した帯域を複数のデータ群に纏め、該複数のデータ群のゲインを付加情報値に基づいて大小化し、再付加情報埋め込み後の複数データ群を連続したスペクトル分布に編成し、このスペクトル分布に基づいて付加情報を加えた音声データを作成することを特徴とする。   According to a third aspect of the present invention, in the additional information embedding method in the voice data according to the first or second aspect, the spectrum distribution of the voice data is extracted, and a predetermined frequency distribution area of the spectrum distribution is divided into a plurality of bands. The divided bands are grouped into a plurality of data groups, the gain of the plurality of data groups is increased or decreased based on the additional information value, and the plurality of data groups after embedding the re-addition information is organized into a continuous spectrum distribution. And generating voice data to which additional information is added.

請求項4の発明は、請求項1ないし3のいずれかの音声データへの付加情報埋め込み方法において、纏めるデータ群の群数を2とし、前記データ群の合計振幅の大小により1ビットの情報を割り付けることを特徴とする。   According to a fourth aspect of the present invention, in the additional information embedding method according to any one of the first to third aspects, the number of groups of data groups to be collected is two, and 1-bit information is obtained depending on the total amplitude of the data groups. It is characterized by assigning.

請求項5の発明は、請求項1ないし4のいずれかの音声データへの付加情報埋め込み方法において、2つに纏めたデータ群の合計振幅の平均値を略等しいものとする前処理を行なうことを特徴とする。   According to a fifth aspect of the present invention, in the method for embedding additional information in the audio data according to any one of the first to fourth aspects, the preprocessing is performed so that the average value of the total amplitude of the two data groups is substantially equal. It is characterized by.

請求項6の発明は、請求項1ないし5のいずれかの音声データへの付加情報埋め込み方法において、時系列データから、周波数系列データへの変換を、FFT(高速フーリエ変換),DFT(離散フーリエ変換)、DST(離散サイン変換)、DCT(離散コサイン変換)、MDCT(変形離散コサイン変換)のうち少なくとも1つ含む変換で行なうことを特徴とする。   According to a sixth aspect of the present invention, in the method for embedding additional information in the audio data according to any one of the first to fifth aspects, conversion from time series data to frequency series data is performed by FFT (fast Fourier transform), DFT (discrete Fourier transform). Conversion), DST (discrete sine transform), DCT (discrete cosine transform), and MDCT (modified discrete cosine transform).

請求項7の発明は、請求項1ないし6の音声データへの付加情報埋め込み方法において、音声データの領域を複数選択し、選択された各領域を対象として処理を行い選択された複数領域数に対応する複数ビット数の付加情報を埋め込むことを特徴とする。   According to a seventh aspect of the present invention, in the method for embedding additional information in the voice data according to any one of the first to sixth aspects, a plurality of voice data areas are selected, processing is performed for each selected area, and the number of the selected plurality of areas is set. Corresponding additional information of a plurality of bits is embedded.

請求項8の発明は、請求項1ないし6のいずれかの音声データへの付加情報埋め込み方法において、付加情報を埋め込む周波数領域を再生音が聴取者の音声認識への影響が大きい帯域をさけて行なうことを特徴とする。   According to an eighth aspect of the present invention, in the additional information embedding method according to any one of the first to sixth aspects, the frequency range in which the additional information is embedded avoids a band in which the reproduced sound has a large influence on the voice recognition of the listener. It is characterized by performing.

請求項9の発明は、請求項1ないし8のいずれかの音声データへの付加情報埋め込み方法において、前記周波数系列データへの変換に際して時間領域で隣りあうフレームをなだらかに重ね合わせて辺関することを特徴とする。   According to a ninth aspect of the present invention, in the additional information embedding method according to any one of the first to eighth aspects, the adjacent frames in the time domain are gently overlapped to relate to the frequency sequence data. Features.

請求項10の発明は、音声データのスペクトル分布を抽出し、該スペクトル分布のうち所定の周波数分布域を複数の帯域に分割し、該分割した帯域を複数のデータ群に纏め、該複数のデータ群の振幅を各データ群について大小判定し、前記各データ群の大小関係に基づいて付加情報を取り出す音声データからの付加情報取り出し方法である   The invention of claim 10 extracts a spectral distribution of audio data, divides a predetermined frequency distribution region of the spectral distribution into a plurality of bands, collects the divided bands into a plurality of data groups, and This is a method for extracting additional information from audio data, in which the amplitude of the group is determined for each data group, and additional information is extracted based on the size relationship of each data group.

請求項1の発明は、請求項10の音声データからの付加情報読み出し方法において、前記音声周波数の分割及び纏めは付加信号と同調するように行なうことを特徴とする。   According to a first aspect of the present invention, in the method for reading additional information from the voice data according to the tenth aspect, the division and summarization of the voice frequency is performed in synchronization with the additional signal.

請求項12の発明は、音声データのスペクトル分布の周波数振幅特性を抽出する振幅特性抽出手段と、周波数振幅特性に付加情報信号を重畳する重畳手段とを備えた、音声データへの付加情報埋め込み装置である。   According to a twelfth aspect of the present invention, there is provided an apparatus for embedding additional information in audio data, comprising amplitude characteristic extracting means for extracting frequency amplitude characteristics of a spectral distribution of audio data, and superimposing means for superimposing additional information signals on the frequency amplitude characteristics. It is.

請求項13の発明は、請求項12の音声データへの付加情報埋め込み装置において、付加情報重畳手段はディジタル化された音声データの時間領域での離散振幅信号を周波数領域へ変換して該変換された信号に周波数系列データに付加情報を重畳し、付加データが重畳された周波数系列データを音声データに変換する変換手段を備えたことを特徴とする。   According to a thirteenth aspect of the present invention, in the additional information embedding device in the voice data of the twelfth aspect, the additional information superimposing means converts the discrete amplitude signal in the time domain of the digitized voice data into the frequency domain and converts the signal. And a conversion means for superimposing additional information on the frequency sequence data on the received signal and converting the frequency sequence data on which the additional data is superimposed into audio data.

請求項14の発明は、請求項12または13の音声データへの付加情報埋め込み装置において、音声データのスペクトル分布を抽出するスペクトル分布抽出手段と、該スペクトル分布のうち所定の周波数分布域を複数の帯域に分割する帯域分割手段と、該分割した帯域を複数のデータ群に纏める帯域分割手段と、該複数のデータ群のゲインを付加情報値に基づいて大小化し、再付加情報埋め込み後の複数データ群を連続したスペクトル分布に編成する付加情報付加手段と、このスペクトル分布に基づいて付加情報を加えた音声データを作成する音声データ作成手段と、を備えたことを特徴とする。   According to a fourteenth aspect of the present invention, in the additional information embedding device according to the twelfth or thirteenth aspect, a spectral distribution extracting means for extracting a spectral distribution of the voice data, and a plurality of predetermined frequency distribution areas of the spectral distribution are arranged. Band division means for dividing the data into bands, band division means for collecting the divided bands into a plurality of data groups, and gains of the plurality of data groups are increased or decreased based on the additional information value, and the plurality of data after the re-addition information is embedded Additional information adding means for organizing the group into a continuous spectrum distribution and voice data creating means for creating voice data to which additional information is added based on the spectrum distribution are provided.

請求項15の発明は、請求項12ないし14のいずれかの音声データへの付加情報埋め込み装置において、前記帯域分割手段は、纏めるデータ群の群数を2とし、前記付加情報付加手段は前記データ群の合計振幅の大小により1ビットの情報を割り付けることを特徴とする。   According to a fifteenth aspect of the present invention, in the additional information embedding device according to any one of the twelfth to fourteenth aspects, the band dividing unit sets the number of groups of data groups to be collected to be two, and the additional information adding unit is the data One bit of information is assigned according to the total amplitude of the group.

請求項16の発明は、請求項12ないし15いずれかの音声データへの付加情報埋め込み装置において、2つに纏めたデータ群の合計振幅の平均値を略等しいものとする前処理手段を備えたことを特徴とする。   According to a sixteenth aspect of the present invention, there is provided the additional information embedding device according to any one of the twelfth to fifteenth aspects, further comprising preprocessing means for making the average value of the total amplitude of the two data groups substantially equal. It is characterized by that.

請求項17の発明は、請求項12ないし16のいずれかの音声データへの付加情報埋め込み方法において、振幅特性抽出手段は、時系列データから、周波数系列データへの変換を、FFT(高速フーリエ変換),DFT(離散フーリエ変換)、DST(離散サイン変換)、DCT(離散コサイン変換)、MDCT(変形離散コサイン変換)のうち少なくとも1つを含む変換で行なうことを特徴とする。   According to a seventeenth aspect of the present invention, in the additional information embedding method according to any one of the twelfth to sixteenth aspects, the amplitude characteristic extracting means converts the time series data into the frequency series data by using FFT (Fast Fourier Transform). ), DFT (Discrete Fourier Transform), DST (Discrete Sine Transform), DCT (Discrete Cosine Transform), and MDCT (Modified Discrete Cosine Transform).

請求項18の発明は、請求項12ないし17の音声データへの付加情報埋め込み装置において、音声データの周波数領域を複数選択し、選択された各領域を対象として処理を行い選択された複数領域数に対応する複数ビット数の付加情報を埋め込むことを特徴とする。   The invention according to claim 18 is the additional information embedding device for audio data according to claims 12 to 17, wherein a plurality of frequency regions of the audio data are selected, the selected regions are processed, and the number of selected regions is selected. The additional information of a plurality of bits corresponding to is embedded.

請求項19の発明は、請求項12ないし18のいずれかの音声データへの付加情報埋め込み装置において、付加情報重畳手段は、付加情報を埋め込む周波数領域を再生音が聴取者の音声認識への影響が大きい帯域をさけて行なうことを特徴とする。   According to a nineteenth aspect of the present invention, in the additional information embedding device according to any one of the twelfth to eighteenth aspects, the additional information superimposing means causes the reproduction sound to affect the listener's voice recognition in the frequency region in which the additional information is embedded. It is characterized by avoiding a large band.

請求項20の発明は、請求項12ないし19のいずれかの音声データへの付加情報埋め込み方法において、前記振幅特性抽出手段は、前記周波数系列データへの変換に際して時間領域で隣りあうフレームをなだらかに重ね合わせて辺関することを特徴とする。   According to a twentieth aspect of the present invention, in the additional information embedding method according to any one of the twelfth to nineteenth aspects, the amplitude characteristic extracting unit gently frames adjacent frames in the time domain when converting to the frequency series data. It is characterized by being overlapped and related.

請求項21の発明は、音声データのスペクトル分布を抽出するスペクトル分布抽出手段と、該スペクトル分布のうち所定の周波数分布域を複数の帯域に分割する帯域分割手段と、該分割した帯域を複数のデータ群に纏め、該複数のデータ群の振幅を各データ群について大小判定し、前記各データ群の大小関係に基づいて付加情報を取り出す付加情報抽出手段とをと備えた音声データへの付加情報取り出し装置である。   The invention according to claim 21 is a spectrum distribution extracting means for extracting a spectrum distribution of audio data, a band dividing means for dividing a predetermined frequency distribution area of the spectrum distribution into a plurality of bands, and a plurality of the divided bands. The additional information to the audio data is provided with an additional information extracting unit that collects the data groups, determines the magnitudes of the plurality of data groups for each data group, and extracts additional information based on the magnitude relationship of the data groups. It is a take-out device.

請求項22の発明は、請求項20の音声データへの付加情報読み出し装置において、帯域分割手段には前記音声周波数の分及び纏めの付加信号に同調させるフレーム同期手段を備えた特徴とする。   According to a twenty-second aspect of the present invention, in the additional information reading apparatus for the voice data according to the twentieth aspect, the band dividing unit includes a frame synchronization unit that tunes to the audio frequency component and the combined additional signal.

本発明によれば、音声データに付加データを重畳化し、この付加データの重畳、取り出しはアナログ、ディジタル伝送に対応し、モノラル伝送、不可逆的圧縮に対応することができる。このため、テレビ、ラジオ等で何が放送されているのか、CDやDVDに何が記録されているのかを判別することが可能となり、より詳細な情報を、例えばインターネットなどに接続された他の計算機等から取得したり、データそのものを提示したりするなどの動作を行なわせることができる。   According to the present invention, additional data is superposed on audio data, and superposition and extraction of the additional data correspond to analog and digital transmission, and can correspond to monaural transmission and irreversible compression. This makes it possible to determine what is being broadcast on TV, radio, etc., and what is recorded on CDs and DVDs. More detailed information can be obtained from other devices connected to the Internet, for example. Operations such as obtaining from a computer or presenting the data itself can be performed.

さらに、音信号に字幕など文字情報や他の音声のデータを重畳しておくことにより、聴覚障害者のアクセシビリティの向上や、災害時などにおける各種情報の提示、副音声を用いた解説や他国語の情報の挿入も可能となる。また、聴覚上は等しく聞こえる音でも重畳化するデータを変えることにより、音による認証など、セキュリティ分野への応用も可能となる。   Furthermore, by superimposing character information such as subtitles and other audio data on the sound signal, the accessibility of the hearing impaired is improved, the presentation of various information at the time of disaster, etc., explanation using sub-speech and other languages This information can be inserted. In addition, by changing the data to be superimposed even with sounds that can be heard equally, it is possible to apply to the security field such as authentication by sound.

以下本発明を実施するための最良の形態を、図に基づいて説明する。   Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings.

まず、本例に係る音声データへの付加情報埋め込み装置について説明する。図1は本発明の実施の形態に係る音声データへの付加情報埋め込み装置を示すブロック図、図2は本発明の実施の形態に係る音声データへの付加情報埋め込み方法を示すフローチャートである。   First, an additional information embedding device for audio data according to this example will be described. FIG. 1 is a block diagram showing a device for embedding additional information in audio data according to an embodiment of the present invention, and FIG. 2 is a flowchart showing a method for embedding additional information in audio data according to an embodiment of the present invention.

本例に係る音声データへの付加情報埋め込み装置は、音声信号に出所を明らかにする「すかし」である付加信号を埋め込むものである。本例では音声データへの付加情報埋め込み装置は、図1に示すように、付加信号を埋め込むべき音声データをアナログデータとして格納している音声信号格納手段11と、A/D変換手段12と、ディジタル化された離散振幅信号を時間領域から周波数領域へと変換し、二つのグループに分割するFFT変換装置13と、2つの分割されたグループのスペクトラム振幅の総和をそろえる信号平均化手段14と、付加信号埋め込み手段(すかし信号埋め込み手段)15を備える。この、付加信号埋め込み手段15は片グループの振幅の総和がもう片方の振幅の総和よりも大きい場合は「1」、逆の場合は「0」となるようにゲインを調整することで付加データを重畳化する。また、本例では付加情報埋め込み装置は、音声信号に付加すべきすかし信号を格納した付加信号格納手段16と、離散振幅信号を周波数領域から時間領域へと変換する逆FFT変換手段17と、ディジタル信号をアナログ信号に変換するDA変換器18とからなる。   The apparatus for embedding additional information in audio data according to this example embeds an additional signal, which is a “watermark” that identifies the source in the audio signal. In this example, as shown in FIG. 1, the additional information embedding device into the audio data includes an audio signal storage means 11 for storing the audio data to be embedded with the additional signal as analog data, an A / D conversion means 12, An FFT converter 13 that converts a digitized discrete amplitude signal from the time domain to the frequency domain and divides the signal into two groups; and a signal averaging means 14 that equalizes the sum of the spectrum amplitudes of the two divided groups; Additional signal embedding means (watermark signal embedding means) 15 is provided. The additional signal embedding means 15 adjusts the gain so that the sum of the amplitudes of one group is “1” when the sum of the amplitudes of the other group is larger than the sum of the amplitudes of the other group, and “0” in the opposite case. Superimpose. In this example, the additional information embedding device includes an additional signal storage unit 16 that stores a watermark signal to be added to an audio signal, an inverse FFT conversion unit 17 that converts a discrete amplitude signal from a frequency domain to a time domain, It comprises a DA converter 18 for converting a digital signal into an analog signal.

本例では、原音のスペクトルの存在している部分のゲインを調整し、周波数特性に図5に示すように、細かな強弱、即ち凹凸を持たせる。この周波数特性の凹凸は、共振性のものとは異なり、人間には知覚しにくいものである。実際に、2台以上のスピーカから同時に同じ音を流した場合に、距離が異なれば干渉による凹凸が生じるが、聴覚上はほとんど違和感を生じないことは、多チャネルオーディオが実用化されている現状では自明ともいえる。   In this example, the gain of the portion where the spectrum of the original sound exists is adjusted, and the frequency characteristics are given fine strength, that is, unevenness as shown in FIG. The unevenness of the frequency characteristic is unlikely to be perceived by humans, unlike the resonant one. Actually, when the same sound is played from two or more speakers at the same time, if the distance is different, unevenness due to interference occurs, but there is almost no sense of incongruity in hearing. Then it can be said that it is obvious.

以下図2に示すフローチャート、及び図5ないし図10に従って本例の作動を説明する。本例では、音声信号格納手段11から読み取られたアナログ音声信号は、A/D変換手段12で図6に示すように、デジタルデータに変換される(ST1)。図に示した例では一つのフレームを例えば32点の離散値に対して、FFT変換手段13はディジタル音声データのスペクトル分布をFFT変換で抽出し、該スペクトル分布のうち所定の周波数分布域を周波数に沿って2つの帯域(奇数次(O)、偶数次(E))に交互に分割する(ST3)。このようなフレームを必要とされるデータ長数分だけ選択して処理する。   The operation of this example will be described below with reference to the flowchart shown in FIG. 2 and FIGS. In this example, the analog audio signal read from the audio signal storage unit 11 is converted into digital data by the A / D conversion unit 12 as shown in FIG. 6 (ST1). In the example shown in the figure, for one frame, for example, 32 discrete values, the FFT transforming means 13 extracts the spectrum distribution of the digital audio data by FFT transform, and a predetermined frequency distribution region of the spectrum distribution is a frequency. Are alternately divided into two bands (odd order (O) and even order (E)) (ST3). Such frames are selected and processed for the required number of data lengths.

これによりは図7(a)の時系列のアナログデータ波形は図7(b)ように周波数列に沿った所定の周波数間を奇数次(O)、偶数次(E)のディジタル信号に変換され、2つのデータグループ化することができる。なお、前記離散値数は任意であり、例えば256以上とすることができる。これにより振幅信号を時間領域から周波数領域に変換される。   As a result, the time-series analog data waveform of FIG. 7A is converted into an odd-order (O) and even-order (E) digital signal between predetermined frequencies along the frequency train as shown in FIG. 7B. Two data groups can be grouped. The number of discrete values is arbitrary, and can be, for example, 256 or more. As a result, the amplitude signal is converted from the time domain to the frequency domain.

ついで、本例では信号平均化手段14は、2つに纏めたデータ群の合計振幅の平均値を略等しいものとする前処理を行なう(ST4)。即ち該複数のデータ群のゲインを付加情報値に基づいて大小化し、再付加情報埋め込み後の複数データ群を連続したスペクトル分布に編成する。   Next, in this example, the signal averaging means 14 performs preprocessing to make the average values of the total amplitudes of the two data groups substantially equal (ST4). That is, the gain of the plurality of data groups is increased or decreased based on the additional information value, and the plurality of data groups after the re-addition information is embedded is organized into a continuous spectrum distribution.

これは、図8に示すように、Σ(E)=Σ(O)となるように、それぞれに係数を掛ける処理をおこなうのであるが、1フレームの点数が多く(1024点以上など)、様々な音が混在する楽音では、統計的にΣE≒ΣOとなっているため省略できることが多い。もし、特定の周波数領域にしか埋め込まない場合は、埋め込む部分と埋め込まない部分で係数を変えることが望ましい
As shown in FIG. 8, processing is performed so that each coefficient is multiplied so that Σ (E) = Σ (O). However, the number of points in one frame is large (eg, 1024 points or more). In the case of musical tones with various sounds, statistically ΣE≈ΣO, so it can often be omitted. If it is embedded only in a specific frequency range, it is desirable to change the coefficient between the embedded part and the non-embedded part.

そして、本例では、すかし信号の埋め込み処理を行なう(ST5)。これは、図9に示すように、前記奇数次(O)、偶数次(E)の単位で2つのグループのうち、片グループの振幅の総和がもう片方の振幅の総和よりも大きい場合は「1」、逆の場合は「0」となるように、各次のゲインを調整する。これにより、所定周波数間で1ビットの情報を付加することができる。   In this example, watermark signal embedding processing is performed (ST5). As shown in FIG. 9, when the sum of the amplitudes of one group is larger than the sum of the amplitudes of the other group among the two groups in the odd-order (O) and even-order (E) units, Each next gain is adjusted so that it is “1” and “0” in the opposite case. Thereby, 1-bit information can be added between predetermined frequencies.

即ち、埋め込むデータが1ならばΣE>ΣO、0ならばΣE<ΣOとなるように、奇数次(O)、偶数次(E)のスペクトラムそれぞれのゲインを操作するのである。本例では、埋め込む付加情報のビット数に必要な数のフレームを選択し、フレームごとに、この計算を行なうことで、1フレームに1ビットを埋め込み、必要なビット数のデータを埋め込むものとする。この際、特定の周波数成分を対象とすることが好適である。即ち、低周波、高周波、聴覚上鋭敏な領域などをさけることが好ましい。   In other words, the gains of the odd-order (O) and even-order (E) spectra are manipulated so that ΣE> ΣO if the embedded data is 1, and ΣE <ΣO if 0. In this example, the necessary number of frames is selected for the number of additional information bits to be embedded, and this calculation is performed for each frame, thereby embedding one bit in one frame and embedding data of the necessary number of bits. . At this time, it is preferable to target a specific frequency component. That is, it is preferable to avoid low-frequency, high-frequency, and auditory sensitive areas.

この付加信号を付したデータを図10に示すように、逆FFT変換手段17で逆変換し(ST7)元の時間領域へ戻し、D/A変換して音声信号に復元する。これらの処理により、付加信号は、全スペクトル、もしくは一部のスペクトルに埋め込まれ出力される(ST8)。   As shown in FIG. 10, the data to which the additional signal is attached is inversely transformed by the inverse FFT transforming means 17 (ST7), returned to the original time domain, and restored to an audio signal by D / A conversion. Through these processes, the additional signal is embedded and output in the whole spectrum or a part of the spectrum (ST8).

図12に付加信号埋め込み前の音声信号の時系列データ(上段)と周波数系列データ(下段)を、図13に付加信号埋め込み後の音声信号の時系列データ(上段)と周波数系列データ(下段)を示す。両図を比較して時系列データにほとんど差がなく聴覚上変化がほとんどないことが分かる。また、付加信号埋め込み後の周波数系列データには付加信号による凹凸が発生していることが分かる。なお、この例では8kHz以上には信号はなく、8kHz以上の帯域に付加信号を埋め込むには雑音成分を付加することが必要となる。   FIG. 12 shows the time series data (upper stage) and frequency series data (lower stage) of the audio signal before embedding the additional signal, and FIG. 13 shows the time series data (upper stage) and frequency series data (lower stage) of the audio signal after the additional signal is embedded. Indicates. Comparing both figures, it can be seen that there is almost no difference in time series data and there is almost no change in hearing. It can also be seen that the frequency series data after embedding the additional signal has irregularities due to the additional signal. In this example, there is no signal above 8 kHz, and it is necessary to add a noise component to embed an additional signal in a band above 8 kHz.

このようにすかし信号が埋め込まれ、スペクトルに凹凸が存在していてもわずか数dBの変化であり、バンドエリミネーション、絶対可聴限界、周波数および時間マスキングを用いたときのように、圧縮によって消されることはない。本発明では、仮にゲインを低下させられたスペクトルが周波数マスキングと同様の原理で消滅するとしても、ゲインを上げられたスペクトルが残り、その振幅差が広がるため、データの取り出しが行ないやすくなる場合もある。   In this way, the watermark signal is embedded, and even if there is unevenness in the spectrum, it is a change of only a few dB, and it is erased by compression, as when using band elimination, absolute audible limit, frequency and time masking. It will never be. In the present invention, even if the spectrum whose gain has been reduced disappears on the same principle as frequency masking, the spectrum whose gain has been increased remains and the amplitude difference is widened. is there.

次に音声データからの付加情報装置について説明する。図3は本発明の実施の形態に係る音声データからの付加情報取り出し装置を示すブロック図、図4は本発明の実施の形態に係る音声データからの付加情報取り出し方法を示すフローチャートである。   Next, an additional information device from audio data will be described. FIG. 3 is a block diagram showing a device for extracting additional information from audio data according to the embodiment of the present invention, and FIG. 4 is a flowchart showing a method for extracting additional information from audio data according to the embodiment of the present invention.

本例では音声データへの付加情報取り出し装置は、図3に示すように、付加信号を埋め込まれた音声データをアナログデータとして格納しているすかし入り音声信号格納手段21と、D/A変換手段22と、ディジタル化された離散振幅信号を時間領域から周波数領域へと変換しFFT変換装置24と、前記FFT変換装置24において、付加信号が埋め込まれたフレームにおいて変換を行なうよう同期させるフレーム同期手段23と、FFT変換された信号である2つのグループのスペクトルの振幅和の比較を行いすかしデータを取り出す付加信号抽出手段25とからなる。   In this example, as shown in FIG. 3, the device for extracting additional information from audio data includes a watermarked audio signal storage means 21 that stores the audio data in which the additional signal is embedded as analog data, and D / A conversion. Means 22 and frame synchronization for converting the digitized discrete amplitude signal from the time domain to the frequency domain to synchronize the FFT converter 24 and the FFT converter 24 so that the conversion is performed in the frame in which the additional signal is embedded. It comprises means 23 and additional signal extraction means 25 for comparing the amplitude sums of the two groups of spectra which are FFT-transformed signals and extracting watermark data.

本例では、フレーム同期手段23は、付加信号が埋め込まれているフレームと処理中のフレームとのずれを解消する。このため、処理中のフレームを移動させ、ΣEとΣOとを比較し、図11に示すように、両値の比が最大となる点で処理中のフレームが付加信号が埋め込まれたフレームと一致したと判断する。なお、フレーム位置の決定に際しては、元音スペクトラムによりなだらかな曲線にならない場合には移動平均の処理を行う。   In this example, the frame synchronization means 23 eliminates the difference between the frame in which the additional signal is embedded and the frame being processed. Therefore, the frame being processed is moved, and ΣE and ΣO are compared. As shown in FIG. 11, the frame being processed matches the frame in which the additional signal is embedded at the point where the ratio between the two values is maximum. Judge that In determining the frame position, moving average processing is performed if the curve does not become a gentle curve due to the original sound spectrum.

本例ではすかし入り音声信号を取得し(ST11)、A/D変換した(ST12)後、フレームを同期しつつFFT変換を行い(ST13〜ST15)、すかし信号の取得を行なう。   In this example, a watermarked voice signal is acquired (ST11), and after A / D conversion (ST12), FFT conversion is performed while synchronizing frames (ST13 to ST15), and a watermark signal is acquired.

なお、付加信号を埋め込むため行ったバンドスペクトルの上記2つのグループ化は、隣り合う奇数次、偶数次で行なったが、2つずつ纏める、1つおきに行なうようにしても良い。さらに、時間領域から周波数領域への変換は、DFT、DST、DCT、MDCTなどを使用することができ、これらの変換のうち少なくとも1つを含む変換で行なうことができる。   Note that the above two band spectrum grouping performed for embedding the additional signal is performed in the adjacent odd-order and even-order, but may be performed every other group. Furthermore, the transform from the time domain to the frequency domain can be performed using a DFT, DST, DCT, MDCT, etc., and can be performed by a transform including at least one of these transforms.

また、図14(c)に示すように、FFTの場合、時間領域のフレームに重なり合いを持たせず、時間領域から周波数領域へ変換する(M=0)。この場合、スペクトラムの強度を変更し、周波数領域から時間領域へ戻した場合、周波数領域での信号の埋め込みによる波形の変化が生じ、つなぎ合わせた際に、フレーム間で不連続になり、雑音を発生することがある。   In addition, as shown in FIG. 14C, in the case of FFT, the time domain frames are not overlapped and are converted from the time domain to the frequency domain (M = 0). In this case, if the spectrum intensity is changed and returned from the frequency domain to the time domain, a waveform change occurs due to the embedding of the signal in the frequency domain. May occur.

このような事態に対処するため、MDCTでは、フレーム間をなだらかに重ね合わせる。すなわち図14(a)に示すように、時間領域にフレームを2つの領域で完全にオーバーラップさせるものとしている。即ち前のフレームと重複させて、フレームの更新の長さNの2倍の窓関数をかけることにより、フレーム長をN、重なり幅をMとしたときMとNとを等しいものととしている(M=N)。このようにして不連続をなくして、音質を改善しするものとしている。なお、オーバーラップの幅は、図14(b)に示すようにフレームの一部においてオーバーラップする(M=N/2)ようにしてもよい。このような処理は、MDCTに限らず、FFT,DFT,DST,DCTなどいかなる方法でも、同様に行うことができる。   In order to deal with such a situation, in MDCT, the frames are gently overlapped. That is, as shown in FIG. 14A, the frame is completely overlapped in the two regions in the time region. That is, by overlapping with the previous frame and applying a window function twice the frame update length N, M and N are equal when the frame length is N and the overlap width is M ( M = N). In this way, discontinuity is eliminated and sound quality is improved. Note that the overlap width may overlap in a part of the frame (M = N / 2) as shown in FIG. Such processing is not limited to MDCT, and can be similarly performed by any method such as FFT, DFT, DST, and DCT.

また、可聴帯域を複数のバンドに分割し、それぞれにデータを埋め込むようにしたり、音への影響が大きい帯域、特に直流領域や超低域などには埋め込まないなどの処理を加えることで音質劣化を防ぐことができる。なお、放送では60Hzの垂直同期信号、15.75kHzの水平同期信号の飛びつき、さらに約19kHzの高域にステレオパイロット信号等があるため、この部分はデータを埋め込まない、データ取り出し時に考慮しないなどの処理を行った方が、音質、エラーレートともによりよい結果が得られる。   In addition, the audio quality is degraded by dividing the audible band into multiple bands and embedding data in each band, or by adding processing such as not embedding in bands that have a large influence on sound, especially in the direct current region or the ultra low frequency region. Can be prevented. In broadcasting, the vertical synchronization signal of 60 Hz, the horizontal synchronization signal of 15.75 kHz jumps, and since there is a stereo pilot signal, etc. at a high frequency of about 19 kHz, this part is not embedded and is not taken into account when retrieving data. When processing is performed, better results are obtained in both sound quality and error rate.

情報の埋め込み前には、2つのグループのスペクトルの振幅の総和をそろえる前処理を行なうことが望ましく、データの読み取りを確実にする。特に、信号を埋め込まない帯域をもうける場合には、その帯域内の振幅をそろえる前処理を掛けるか、データ取り出し時に埋め込まれていない帯域を除外して振幅の合計を求めるのが望ましい。   Prior to the embedding of information, it is desirable to perform a pre-processing that aligns the sum of the amplitudes of the spectra of the two groups, ensuring data reading. In particular, when a band in which no signal is embedded is provided, it is desirable to perform preprocessing to align the amplitude in the band or to exclude the band that is not embedded at the time of data extraction and obtain the total amplitude.

本発明では、音にデータを重畳化し、そのデータを取り出すことで、テレビ、ラジオ等で何が放送されているのか、CDやDVDに何が記録されているのかを判別することが可能となり、より詳細な情報を、例えばインターネットなどに接続された他の計算機等から取得したり、データそのものを提示したりするなどの動作を行なわせることができる。音信号に字幕など文字情報や他の音声のデータを重畳しておくことにより、聴覚障害者のアクセシビリティの向上や、災害時などにおける各種情報の提示、副音声を用いた解説や他国語の情報の挿入も可能となる。   In the present invention, by superimposing data on sound and extracting the data, it is possible to determine what is being broadcast on a television, radio, etc., what is recorded on a CD or DVD, More detailed information can be obtained from, for example, another computer connected to the Internet or the like, or the data itself can be presented. By superimposing text information such as subtitles and other audio data on the sound signal, the accessibility of the hearing impaired is improved, various information is presented at the time of disaster, etc., explanation using sub-speech and information in other languages Can also be inserted.

また、聴覚上は等しく聞こえる音でも重畳化するデータを変えることにより、音による認証など、セキュリティ分野への応用も可能である。   In addition, it is possible to apply to the security field, such as authentication by sound, by changing the data to be superimposed even for sounds that can be heard equally.

本発明の実施の形態に係る音声データへの付加情報埋め込み装置を示すブロック図である。It is a block diagram which shows the additional information embedding apparatus to the audio | voice data which concerns on embodiment of this invention. 本発明の実施の形態に係る音声データへの付加情報埋め込み方法を示すフローチャートである。It is a flowchart which shows the additional information embedding method to the audio | voice data which concerns on embodiment of this invention. 本発明の実施の形態に係る音声データへの付加情報取り出し装置を示すブロック図である。It is a block diagram which shows the additional information extraction apparatus to the audio | voice data which concerns on embodiment of this invention. 本発明の実施の形態に係る音声データへの付加情報取り出し方法を示すフローチャートである。It is a flowchart which shows the additional information extraction method to audio | voice data which concerns on embodiment of this invention. 本発明の音声データへの付加情報埋め込み方法の概要を説明する音声データ時系列のグラフである。It is a graph of the audio | voice data time series explaining the outline | summary of the additional information embedding method to the audio | voice data of this invention. 本発明に係る音声データへの付加情報埋め込み方法における周波数系列のバンドスペクトルを示す図である。It is a figure which shows the band spectrum of the frequency series in the additional information embedding method to the audio | voice data which concerns on this invention. 実施の形態に係る音声データへの付加情報埋め込み方法のFFT処理を示す図である。It is a figure which shows the FFT process of the additional information embedding method to the audio | voice data which concerns on embodiment. 実施の形態に係る音声データへの付加情報埋め込み方法の前処理を示す図である。It is a figure which shows the pre-process of the additional information embedding method to the audio | voice data which concerns on embodiment. 実施の形態に係る音声データへの付加情報埋め込み方法の付加信号の埋め込みを説明する図である。It is a figure explaining the embedding of the additional signal of the additional information embedding method to the audio | voice data which concerns on embodiment. 実施の形態に係る音声データへの付加情報埋め込み方法の逆FFT変換を説明する図である。It is a figure explaining the inverse FFT conversion of the additional information embedding method to the audio | voice data which concerns on embodiment. 実施の形態に係る音声データへの付加情報取り出し方法の付加信号の取り出しを説明する図である。It is a figure explaining extraction of the additional signal of the additional information extraction method to the audio data according to the embodiment. 実施の形態に係る音声データへの付加情報埋め込み方法における付加信号を付加する前の音声データを示すグラフである。It is a graph which shows the audio | voice data before adding the additional signal in the additional information embedding method to the audio | voice data which concerns on embodiment. 実施の形態に係る音声データへの付加情報埋め込み方法における付加信号を付加した音声データを示すグラフである。It is a graph which shows the audio | voice data which added the additional signal in the additional information embedding method to the audio | voice data which concerns on embodiment. 実施の形態に係る音声データへの付加情報埋め込み方法におけるオーバーラップの状態を示すグラフである。It is a graph which shows the state of the overlap in the additional information embedding method to the audio | voice data which concerns on embodiment.

符号の説明Explanation of symbols

11 音声信号格納手段
12 A/D変換手段
13 FFT変換装置
14 信号平均化手段
15 付加信号埋め込み手段
16 付加信号格納手段
17 逆FFT変換手段
18 DA変換器
21 音声信号格納手段
22 D/A変換手段
23 フレーム同期手段
24 FFT変換装置
25 付加信号抽出手段

11 audio signal storage means 12 A / D conversion means 13 FFT conversion device 14 signal averaging means 15 additional signal embedding means 16 additional signal storage means 17 inverse FFT conversion means 18 DA converter 21 audio signal storage means 22 D / A conversion means 23 Frame synchronization means 24 FFT converter 25 Additional signal extraction means

Claims (22)

音声データのスペクトル分布の周波数振幅特性に付加情報信号を重畳することを特徴とする音声データへの付加情報埋め込み方法。 A method for embedding additional information in audio data, wherein the additional information signal is superimposed on a frequency amplitude characteristic of a spectral distribution of the audio data. ディジタル化された音声データの時間領域での離散振幅信号を周波数領域へ変換し、
該変換された信号に周波数系列データに付加情報を重畳し、
付加データが重畳された周波数系列データを音声データに変換することを特徴とする
請求項1の音声データへの付加情報埋め込み方法。
Convert the discrete amplitude signal in the time domain of digitized audio data to the frequency domain,
Superimposing additional information on the frequency sequence data on the converted signal,
2. The method of embedding additional information in audio data according to claim 1, wherein the frequency series data on which the additional data is superimposed is converted into audio data.
音声データのスペクトル分布を抽出し、
該スペクトル分布のうち所定の周波数分布域を複数の帯域に分割し、
該分割した帯域を複数のデータ群に纏め、
該複数のデータ群のゲインを付加情報値に基づいて大小化し、
再付加情報埋め込み後の複数データ群を連続したスペクトル分布に編成し、
このスペクトル分布に基づいて付加情報を加えた音声データを作成することを特徴とする請求項1または2の音声データへの付加情報埋め込み方法。
Extract the spectral distribution of audio data,
Dividing a predetermined frequency distribution region of the spectrum distribution into a plurality of bands;
The divided bands are combined into a plurality of data groups,
The gain of the plurality of data groups is increased or decreased based on the additional information value,
Organize multiple data groups after embedding re-addition information into a continuous spectral distribution,
3. The method for embedding additional information in audio data according to claim 1, wherein audio data to which additional information is added is created based on the spectrum distribution.
纏めるデータ群の群数を2とし、前記データ群の合計振幅の大小により1ビットの情報を割り付けることを特徴とする請求項3の音声データへの付加情報埋め込み方法。 4. The method of embedding additional information in audio data according to claim 3, wherein the number of groups of data groups to be collected is 2, and 1-bit information is assigned according to the total amplitude of the data groups. 2つに纏めたデータ群の合計振幅の平均値を略等しいものとする前処理を行なうことを特徴とする請求項3の音声データへの付加情報埋め込み方法。 4. The method of embedding additional information in audio data according to claim 3, wherein preprocessing is performed to make the average value of the total amplitudes of the two data groups substantially equal. 時系列データから、周波数系列データへの変換を、FFT(高速フーリエ変換),DFT(離散フーリエ変換)、DST(離散サイン変換)、DCT(離散コサイン変換)、MDCT(変形離散コサイン変換)のうち少なくとも1つを含む変換で行なうことを特徴とする請求項2ないし4のいずれかの音声データへの付加情報埋め込み方法。 Conversion from time series data to frequency series data includes FFT (fast Fourier transform), DFT (discrete Fourier transform), DST (discrete sine transform), DCT (discrete cosine transform), MDCT (modified discrete cosine transform). 5. The method of embedding additional information in audio data according to claim 2, wherein the conversion is performed by conversion including at least one. 音声データの領域を複数選択し、選択された各領域を対象として処理を行い選択された複数領域数に対応する複数ビット数の付加情報を埋め込むことを特徴とする請求項1ないし6の音声データへの付加情報埋め込み方法。 7. Audio data according to claim 1, wherein a plurality of areas of audio data are selected, processing is performed for each selected area, and additional information having a plurality of bits corresponding to the number of selected areas is embedded. Additional information embedding method. 付加情報を埋め込む周波数領域を再生音が聴取者の音声認識への影響が大きい帯域をさけて行なうことを特徴とする請求項1ないし7のいずれかの音声データへの付加情報埋め込み方法。 The method of embedding additional information in audio data according to any one of claims 1 to 7, wherein the frequency region in which the additional information is embedded is performed so as to avoid a band in which the reproduced sound has a great influence on the voice recognition of the listener. 前記周波数系列データへの変換に際して時間領域で隣りあうフレームをなだらかに重ね合わせ変換することを特徴とする請求項1ないし8のいずれかの音声データへの付加情報埋め込み方法。 9. The method for embedding additional information in audio data according to any one of claims 1 to 8, wherein the adjacent frames in the time domain are gently superimposed and converted when converting to the frequency series data. 音声データのスペクトル分布を抽出し、
該スペクトル分布のうち所定の周波数分布域を複数の帯域に分割し、
該分割した帯域を複数のデータ群に纏め、
該複数のデータ群の振幅を各データ群について大小判定し、
前記各データ群の大小関係に基づいて付加情報を取り出すことを特徴とする音声データからの付加情報取り出し方法。
Extract the spectral distribution of audio data,
Dividing a predetermined frequency distribution region of the spectrum distribution into a plurality of bands;
The divided bands are combined into a plurality of data groups,
The magnitude of the plurality of data groups is determined for each data group,
A method for extracting additional information from audio data, wherein the additional information is extracted based on a magnitude relationship between the data groups.
前記音声周波数の分割及び纏めは付加信号と同調するように行なうことを特徴とする請求項10の音声データからの付加情報読み出し方法。 11. The method for reading additional information from audio data according to claim 10, wherein the division and summarization of the audio frequency is performed in synchronization with an additional signal. 音声データのスペクトル分布の周波数振幅特性を抽出する振幅特性抽出手段と、周波数振幅特性に付加情報信号を重畳する重畳手段とを備えたことを特徴とする音声データへの付加情報埋め込み装置。 An apparatus for embedding additional information in audio data, comprising: amplitude characteristic extracting means for extracting frequency amplitude characteristics of the spectral distribution of the audio data; and superimposing means for superimposing additional information signals on the frequency amplitude characteristics. 付加情報重畳手段はディジタル化された音声データの時間領域での離散振幅信号を周波数領域へ変換して該変換された信号に周波数系列データに付加情報を重畳し、付加データが重畳された周波数系列データを音声データに変換する変換手段を備えたことを特徴とする請求項12の音声データへの付加情報埋め込み装置。 The additional information superimposing means converts the discrete amplitude signal in the time domain of the digitized audio data into the frequency domain, superimposes the additional information on the frequency sequence data on the converted signal, and the frequency sequence on which the additional data is superimposed. 13. The apparatus for embedding additional information in audio data according to claim 12, further comprising conversion means for converting the data into audio data. 音声データのスペクトル分布を抽出するスペクトル分布抽出手段と、
該スペクトル分布のうち所定の周波数分布域を複数の帯域に分割する帯域分割手段と、
該分割した帯域を複数のデータ群に纏める帯域分割手段と、
該複数のデータ群のゲインを付加情報値に基づいて大小化し、再付加情報埋め込み後の複数データ群を連続したスペクトル分布に編成する付加情報付加手段と、
このスペクトル分布に基づいて付加情報を加えた音声データを作成する音声データ作成手段と、を備えたことを特徴とする請求項12または13の音声データへの付加情報埋め込み装置。
Spectral distribution extraction means for extracting the spectral distribution of the audio data;
Band dividing means for dividing a predetermined frequency distribution area of the spectrum distribution into a plurality of bands;
Band dividing means for grouping the divided bands into a plurality of data groups;
Additional information adding means for increasing or decreasing the gain of the plurality of data groups based on the additional information value, and organizing the plurality of data groups after re-addition information embedding into a continuous spectrum distribution;
14. The apparatus for embedding additional information in audio data according to claim 12 or 13, further comprising audio data generating means for generating audio data to which additional information is added based on the spectrum distribution.
前記帯域分割手段は、纏めるデータ群の群数を2とし、
前記付加情報付加手段は前記データ群の合計振幅の大小により1ビットの情報を割り付けることを特徴とする請求項12ないし14のいずれかの音声データへの付加情報埋め込み装置。
The band dividing means sets the number of data groups to be grouped to 2,
15. The apparatus for embedding additional information in audio data according to claim 12, wherein the additional information adding means allocates 1-bit information according to the total amplitude of the data group.
2つに纏めたデータ群の合計振幅の平均値を略等しいものとする前処理手段を備えたことを特徴とする請求項12ないし15のいずれかの音声データへの付加情報埋め込み装置。 16. The apparatus for embedding additional information in audio data according to claim 12, further comprising preprocessing means for making the average value of the total amplitude of the two data groups substantially equal. 振幅特性抽出手段は、時系列データから、周波数系列データへの変換を、FFT(高速フーリエ変換),DFT(離散フーリエ変換)、DST(離散サイン変換)、DCT(離散コサイン変換)、MDCT(変形離散コサイン変換)のうち少なくとも1つを含む変換で行なうことを特徴とする請求項12ないし16のいずれかの音声データへの付加情報埋め込み装置。 The amplitude characteristic extraction means converts time series data to frequency series data by FFT (fast Fourier transform), DFT (discrete Fourier transform), DST (discrete sine transform), DCT (discrete cosine transform), MDCT (deformation). 17. The apparatus for embedding additional information in audio data according to claim 12, wherein the conversion is performed by conversion including at least one of discrete cosine conversion. 音声データの周波数領域を複数選択し、選択された各領域を対象として処理を行い選択された複数領域数に対応する複数ビット数の付加情報を埋め込むことを特徴とする請求項12ないし17の音声データへの付加情報埋め込み装置。 18. The audio according to claim 12, wherein a plurality of frequency regions of audio data are selected, processing is performed for each selected region, and additional information having a plurality of bits corresponding to the number of selected regions is embedded. Device for embedding additional information in data. 付加情報を埋め込む周波数領域を再生音が聴取者の音声認識への影響が大きい帯域をさけて行なうことを特徴とする請求項12ないし18のいずれかの音声データへの付加情報埋め込み装置。 The apparatus for embedding additional information in audio data according to any one of claims 12 to 18, wherein a frequency region in which the additional information is embedded is performed in a range where the reproduced sound has a large influence on the voice recognition of the listener. 前記振幅特性抽出手段は、前記周波数系列データへの変換に際して時間領域で隣りあうフレームをなだらかに重ね合わせて変換することを特徴とする請求項12ないし19のいずれかの音声データへの付加情報埋め込み方法。
20. The additional information embedding in audio data according to any one of claims 12 to 19, wherein the amplitude characteristic extracting means performs conversion by superimposing frames adjacent in the time domain gently upon conversion to the frequency series data. Method.
音声データのスペクトル分布を抽出するスペクトル分布抽出手段と、
該スペクトル分布のうち所定の周波数分布域を複数の帯域に分割する帯域分割手段と、
該分割した帯域を複数のデータ群に纏め、該複数のデータ群の振幅を各データ群について大小判定し、前記各データ群の大小関係に基づいて付加情報を取り出す付加情報抽出手段とをと備えたことを特徴とする音声データからの付加情報取り出し装置。
Spectral distribution extraction means for extracting the spectral distribution of the audio data;
Band dividing means for dividing a predetermined frequency distribution area of the spectrum distribution into a plurality of bands;
And additional information extracting means for collecting the divided bands into a plurality of data groups, determining the magnitude of the plurality of data groups for each data group, and extracting additional information based on the magnitude relationship of the data groups. A device for extracting additional information from audio data.
帯域分割手段には前記音声周波数の分及び纏めの付加信号に同調させるフレーム同期手段を備えた特徴とする請求項21の音声データからの付加情報読み出し装置。

The apparatus for reading additional information from audio data according to claim 21, wherein the band dividing means comprises frame synchronization means for tuning to the audio frequency components and the combined additional signal.

JP2004360127A 2004-12-13 2004-12-13 Method for embedding additional information to audio data, method for reading embedded additional information from audio data, and apparatus therefor Pending JP2006171110A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004360127A JP2006171110A (en) 2004-12-13 2004-12-13 Method for embedding additional information to audio data, method for reading embedded additional information from audio data, and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004360127A JP2006171110A (en) 2004-12-13 2004-12-13 Method for embedding additional information to audio data, method for reading embedded additional information from audio data, and apparatus therefor

Publications (1)

Publication Number Publication Date
JP2006171110A true JP2006171110A (en) 2006-06-29

Family

ID=36671976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004360127A Pending JP2006171110A (en) 2004-12-13 2004-12-13 Method for embedding additional information to audio data, method for reading embedded additional information from audio data, and apparatus therefor

Country Status (1)

Country Link
JP (1) JP2006171110A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243340A (en) * 2005-03-03 2006-09-14 Dainippon Printing Co Ltd Device for embedding information in sound signal, device for extracting information from sound signal, and device for reproducing sound signal
JP2009025400A (en) * 2007-07-17 2009-02-05 Dainippon Printing Co Ltd Device for embedding information in sound signal and device for extracting information from sound signal
JP2009075332A (en) * 2007-09-20 2009-04-09 Dainippon Printing Co Ltd Device for embedding information to sound signal, and device for extracting information from sound signal
WO2011096182A1 (en) * 2010-02-04 2011-08-11 パナソニック株式会社 Audio processing system
WO2014199449A1 (en) * 2013-06-11 2014-12-18 株式会社東芝 Digital-watermark embedding device, digital-watermark detection device, digital-watermark embedding method, digital-watermark detection method, digital-watermark embedding program, and digital-watermark detection program
CN113362835A (en) * 2020-03-05 2021-09-07 杭州网易云音乐科技有限公司 Audio watermark processing method and device, electronic equipment and storage medium

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243340A (en) * 2005-03-03 2006-09-14 Dainippon Printing Co Ltd Device for embedding information in sound signal, device for extracting information from sound signal, and device for reproducing sound signal
JP4713181B2 (en) * 2005-03-03 2011-06-29 大日本印刷株式会社 Information embedding device for sound signal, device for extracting information from sound signal, and sound signal reproducing device
JP2009025400A (en) * 2007-07-17 2009-02-05 Dainippon Printing Co Ltd Device for embedding information in sound signal and device for extracting information from sound signal
JP2009075332A (en) * 2007-09-20 2009-04-09 Dainippon Printing Co Ltd Device for embedding information to sound signal, and device for extracting information from sound signal
WO2011096182A1 (en) * 2010-02-04 2011-08-11 パナソニック株式会社 Audio processing system
WO2014199449A1 (en) * 2013-06-11 2014-12-18 株式会社東芝 Digital-watermark embedding device, digital-watermark detection device, digital-watermark embedding method, digital-watermark detection method, digital-watermark embedding program, and digital-watermark detection program
CN105283915A (en) * 2013-06-11 2016-01-27 株式会社东芝 Digital-watermark embedding device, digital-watermark detection device, digital-watermark embedding method, digital-watermark detection method, digital-watermark embedding program, and digital-watermark detection program
JPWO2014199449A1 (en) * 2013-06-11 2017-02-23 株式会社東芝 Digital watermark embedding device, digital watermark detection device, digital watermark embedding method, digital watermark detection method, digital watermark embedding program, and digital watermark detection program
US10424310B2 (en) 2013-06-11 2019-09-24 Kabushiki Kaisha Toshiba Digital watermark embedding device, digital watermark detecting device, digital watermark embedding method, digital watermark detecting method, computer-readable recording medium containing digital watermark embedding program, and computer-readable recording medium containing digital watermark detecting program
CN113362835A (en) * 2020-03-05 2021-09-07 杭州网易云音乐科技有限公司 Audio watermark processing method and device, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
Kang et al. Geometric invariant audio watermarking based on an LCM feature
EP1814105B1 (en) Audio processing
JP4251378B2 (en) Apparatus and method for embedding and extracting information in analog signals using distributed signal features
KR100287536B1 (en) Signal Synthesis Method and Device
US8032361B2 (en) Audio processing apparatus and method for processing two sampled audio signals to detect a temporal position
US20080263359A1 (en) Water mark embedding and extraction
US20100057231A1 (en) Audio watermarking apparatus and method
KR20010053329A (en) Apparatus and method for embedding and extracting information in analog signals using replica modulation
JP6608533B2 (en) System and method for preventing unauthorized recording, retransmission and misuse of audio and video
JP2001022366A (en) Method and device for embedding electronic watermark in waveform data
US20040039913A1 (en) Method and system for watermarking digital content and for introducing failure points into digital content
Hu et al. Efficient and robust frame-synchronized blind audio watermarking by featuring multilevel DWT and DCT
US20080273707A1 (en) Audio Processing
Steinebach et al. Audio watermarking quality evaluation: robustness to DA/AD processes
JP2006171110A (en) Method for embedding additional information to audio data, method for reading embedded additional information from audio data, and apparatus therefor
Shirali-Shahreza et al. Steganography in silence intervals of speech
Petrovic et al. Data hiding within audio signals
Arnold et al. A phase modulation audio watermarking technique
Lin et al. Audio watermarking techniques
Ngo et al. Method of audio watermarking based on adaptive phase modulation
KR100956945B1 (en) method of embedding and extracting audio watermark by using overtone
Singh et al. Multiplicative watermarking of audio in DFT magnitude
Tachibana Sonic watermarking
Lee et al. Audio watermarking through modification of tonal maskers
Gopalan Robust watermarking of music signals by cepstrum modification