JP2002169579A - Device for embedding additional data in audio signal and device for reproducing additional data from audio signal - Google Patents

Device for embedding additional data in audio signal and device for reproducing additional data from audio signal

Info

Publication number
JP2002169579A
JP2002169579A JP2000367429A JP2000367429A JP2002169579A JP 2002169579 A JP2002169579 A JP 2002169579A JP 2000367429 A JP2000367429 A JP 2000367429A JP 2000367429 A JP2000367429 A JP 2000367429A JP 2002169579 A JP2002169579 A JP 2002169579A
Authority
JP
Japan
Prior art keywords
audio signal
additional data
polarity
syllable
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000367429A
Other languages
Japanese (ja)
Inventor
Takayuki Arai
隆行 荒井
Shino Sakaguchi
志野 阪口
Yuji Murahara
雄二 村原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2000367429A priority Critical patent/JP2002169579A/en
Publication of JP2002169579A publication Critical patent/JP2002169579A/en
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a device for embedding additional data in an audio data with small possibility that the additional data are destroyed when a voice signal is processed. SOLUTION: This device has a polarity inversion part 13 which inverts the polarity of the audio signal inputted to an input terminal 11 and a border detection part 14 which detects a syllable border of the audio signal, and outputs the audio signal having its polarity inverted by syllables corresponding to the additional data inputted to an input terminal 12 from an output terminal 17.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声信号や楽音信
号などのオーディオ信号に対して付加データを埋め込む
装置及び付加データが埋め込まれたオーディオ信号から
付加データを再生する装置に関する。
[0001] 1. Field of the Invention [0002] The present invention relates to a device for embedding additional data in an audio signal such as a voice signal or a tone signal, and a device for reproducing additional data from an audio signal in which the additional data is embedded.

【0002】[0002]

【従来の技術】音声信号や楽音信号などのオーディオ信
号に対し、聴感上分からないように別のデータ(付加デ
ータ)を埋め込む方法として、聴覚マスキング特性を利
用する方法が提案されている。聴覚マスキング特性は、
レベルの高い成分に対して周波数または時間が近いレベ
ルの低い成分は聞き取りにくいという人間の聴覚の性質
である。
2. Description of the Related Art As a method of embedding another data (additional data) in an audio signal such as a voice signal or a musical sound signal so as to be inaudible, a method using an auditory masking characteristic has been proposed. Auditory masking characteristics
The low-frequency component whose frequency or time is close to the high-level component is a property of human hearing that it is difficult to hear.

【0003】従って、マスカーと呼ばれる前者の成分を
伝達しようとする主たるオーディオ信号とし、マスキー
と呼ばれる後者の成分に対して付加データを割り当てる
ことによって、オーディオ信号に付加データを埋め込む
ことができる。この方法によると、比較的高いビットレ
ートで付加データを埋め込むことが可能であり、データ
ハイディングや電子透かしなどへの応用が期待できる。
Accordingly, by assigning the former component called a masker as a main audio signal to be transmitted, and assigning additional data to the latter component called a masky, the additional data can be embedded in the audio signal. According to this method, additional data can be embedded at a relatively high bit rate, and application to data hiding, digital watermarking, and the like can be expected.

【0004】[0004]

【発明が解決しようとする課題】聴覚マスキング特性を
利用してオーディオ信号に付加データを埋め込む方法で
は、オーディオ信号に対する加工処理によって付加デー
タが破壊されてしまうという問題がある。例えば、MP
3(MPEG-1 Audio Layer-III)に代表されるようなMPE
Gオーディオ、またはATRAC(Adaptive Transform
Acoustic Coding)といった高品質・高能率のオーディオ
圧縮符号化技術では、聴覚マスキング特性を利用して圧
縮を行っている。従って、上述した手法で付加データが
埋め込まれたオーディオ信号に対して、このようなオー
ディオ圧縮符号化の処理を行うと、付加データは破壊さ
れてしまうことになる。
The method of embedding the additional data in the audio signal using the auditory masking characteristic has a problem that the additional data is destroyed by the processing of the audio signal. For example, MP
MPE such as 3 (MPEG-1 Audio Layer-III)
G audio or ATRAC (Adaptive Transform
In high-quality and high-efficiency audio compression encoding technology such as Acoustic Coding, compression is performed using the auditory masking characteristic. Therefore, if such audio compression encoding processing is performed on an audio signal in which additional data is embedded by the above-described method, the additional data will be destroyed.

【0005】また、聴覚マスキング特性を利用しない処
理、例えばA/D(アナログ−ディジタル変換)−D/
A(ディジタル−アナログ変換)の処理を付加データが
埋め込まれたオーディオ信号に対して行った場合も、同
様に付加データが破壊される可能性がある。
[0005] Further, processing not utilizing the auditory masking characteristic, for example, A / D (analog-digital conversion) -D /
Even when the processing of A (digital-analog conversion) is performed on the audio signal in which the additional data is embedded, the additional data may be similarly destroyed.

【0006】本発明は、オーディオ信号への加工処理に
よって付加データが破壊されるおそれの少ない、オーデ
ィオ信号への付加データ埋め込み装置及びオーディオ信
号からの付加データ再生装置を提供することを目的とす
る。
SUMMARY OF THE INVENTION It is an object of the present invention to provide a device for embedding additional data in an audio signal and a device for reproducing additional data from an audio signal, in which the additional data is less likely to be destroyed by processing into the audio signal.

【0007】[0007]

【課題を解決するための手段】上記の課題を解決するた
め、本発明では人間の聴覚はオーディオ信号の極性反転
に対して鈍感であるという性質を利用して、オーディオ
信号の極性反転の有無により付加データを埋め込み、ま
たオーディオ信号の極性反転を検出することによって、
埋め込まれた付加データを再生する。
In order to solve the above-mentioned problems, the present invention utilizes the property that human hearing is insensitive to the inversion of the polarity of an audio signal. By embedding additional data and detecting the polarity inversion of the audio signal,
Play the embedded additional data.

【0008】すなわち、本発明はオーディオ信号をその
所定単位毎に二値の付加データに応じて極性反転して出
力することにより、オーディオ信号に対して二値の付加
データを埋め込むことを基本的な特徴とする。オーディ
オ信号が音声信号の場合は、例えばオーディオ信号の音
節境界を検出し、その音節境界に基づきオーディオ信号
を音節単位毎に付加データに応じて極性反転して出力す
る。
That is, the present invention basically embeds the binary additional data in the audio signal by inverting the polarity of the audio signal in accordance with the binary additional data for each predetermined unit and outputting the inverted signal. Features. When the audio signal is an audio signal, for example, a syllable boundary of the audio signal is detected, and the polarity of the audio signal is inverted for each syllable unit based on the syllable boundary and output.

【0009】音節境界の検出は、例えば入力されるオー
ディオ信号をフレームに分割し、各フレームのオーディ
オ信号を線形予測分析して得られる残差信号の自己相関
をとって変形自己相関関数を求め、この変形自己相関関
数とオーディオ信号の各フレームの低周波エネルギーか
ら有声区間と非有声区間を判別し、オーディオ信号の非
有声区間と判別されたフレームのエネルギーから音節境
界を決定することにより行われる。
For detecting a syllable boundary, for example, an input audio signal is divided into frames, and the autocorrelation of a residual signal obtained by linear prediction analysis of the audio signal of each frame is obtained to obtain a modified autocorrelation function. The voiced section and the unvoiced section are determined from the modified autocorrelation function and the low-frequency energy of each frame of the audio signal, and the syllable boundary is determined from the energy of the frame determined as the unvoiced section of the audio signal.

【0010】また、本発明では上述のようにして所定単
位毎に二値の付加データに応じて極性反転されることで
付加データが埋め込まれたオーディオ信号の極性を所定
単位毎に判定することにより、埋め込まれた付加データ
を再生することを基本的な特徴とする。付加データが埋
め込まれたオーディオ信号が音声信号であって、そのオ
ーディオ信号が音節単位毎に付加データに応じて極性反
転されている場合は、オーディオ信号の音節境界を検出
し、その音節境界に基づきオーディオ信号の極性を音節
単位毎に判定することにより付加データを再生すること
ができる。
In the present invention, the polarity of the audio signal in which the additional data is embedded is determined for each predetermined unit by inverting the polarity according to the binary additional data for each predetermined unit as described above. The basic feature is to reproduce the embedded additional data. If the audio signal in which the additional data is embedded is a voice signal and the polarity of the audio signal is inverted in accordance with the additional data for each syllable unit, a syllable boundary of the audio signal is detected, and based on the syllable boundary. The additional data can be reproduced by determining the polarity of the audio signal for each syllable unit.

【0011】ここで、音節境界の検出は付加データ埋め
込み時と同様に、入力されるオーディオ信号をフレーム
に分割し、各フレームのオーディオ信号を線形予測分析
して得られる残差信号の自己相関をとって変形自己相関
関数を求め、この変形自己相関関数とオーディオ信号の
各フレームの低周波エネルギーから有声区間と非有声区
間を判別し、オーディオ信号の非有声区間と判別された
フレームのエネルギーから音節境界を決定することによ
り行われる。付加データの再生は、決定された音節境界
で挟まれた音節毎に有声区間と判別されたフレームの残
差信号の極性の多数決をとることで、オーディオ信号の
極性を音節単位毎に判定することにより行われる。
Here, the syllable boundary is detected by dividing an input audio signal into frames and performing auto-correlation of a residual signal obtained by performing linear prediction analysis on the audio signal of each frame, as in the case of embedding additional data. The voiced section and the unvoiced section are determined from the modified autocorrelation function and the low-frequency energy of each frame of the audio signal, and the syllable is determined from the energy of the frame determined as the unvoiced section of the audio signal. This is done by determining the boundaries. In reproducing the additional data, the polarity of the audio signal is determined for each syllable unit by taking a majority decision of the polarity of the residual signal of the frame determined to be a voiced section for each syllable sandwiched between the determined syllable boundaries. It is performed by

【0012】[0012]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1は、本発明の一実施形態に係
るオーディオ信号への付加データ埋め込み装置の概略構
成を示している。図1において、入力端子11にはディ
ジタル化された音声信号(言語音声)や楽音信号などの
オーディオ信号が入力され、もう一つの入力端子12に
はオーディオ信号に埋め込むべき二値(バイナリ)の付
加データが入力される。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows a schematic configuration of an apparatus for embedding additional data in an audio signal according to an embodiment of the present invention. In FIG. 1, an input terminal 11 receives an audio signal such as a digitized voice signal (language voice) or a tone signal, and another input terminal 12 adds a binary signal to be embedded in the audio signal. The data is entered.

【0013】入力端子11からのオーディオ信号は、極
性反転部13と境界検出部14に入力される。極性反転
部13は、入力されたオーディオ信号の極性を反転する
(振幅値に−1を乗じる)ものである。境界検出部14
は、入力されたオーディオ信号の所定の境界を検出する
ものであり、具体的にはオーディオ信号が音声信号の場
合は、例えば後述するように音節境界を検出し、オーデ
ィオ信号が楽音信号の場合は、曲中の無音区間、曲間な
どを検出する。
An audio signal from an input terminal 11 is input to a polarity inversion section 13 and a boundary detection section 14. The polarity inverting unit 13 inverts the polarity of the input audio signal (multiplies the amplitude value by -1). Boundary detector 14
Is for detecting a predetermined boundary of the input audio signal. Specifically, when the audio signal is a voice signal, for example, a syllable boundary is detected as described later, and when the audio signal is a musical tone signal, , A silent section in the music, a space between the music, and the like.

【0014】入力端子12からの付加データは、データ
バッファ15に一時保持される。データバッファ15に
保持された付加データは、境界検出部14で境界が検出
される毎に1ビットずつ読み出される。データバッファ
15から読み出された付加データは、スイッチ16に制
御信号として与えられる。
The additional data from the input terminal 12 is temporarily stored in the data buffer 15. The additional data held in the data buffer 15 is read out one bit at a time each time a boundary is detected by the boundary detection unit 14. The additional data read from the data buffer 15 is supplied to the switch 16 as a control signal.

【0015】スイッチ16は、入力端子11からのオー
ディオ信号と極性反転部13からの極性反転されたオー
ディオ信号が入力として与えられており、境界検出部1
4で境界が検出される毎に、次に境界が検出されるまで
の期間、データバッファ15から読み出された付加デー
タの各ビットの値に応じて切り替えられ、二つの入力の
いずれかのオーディオ信号を選択して出力端子17へ出
力する。
The switch 16 receives the audio signal from the input terminal 11 and the polarity-inverted audio signal from the polarity inversion unit 13 as inputs, and outputs the signal to the boundary detection unit 1.
Each time a boundary is detected in step 4, switching is performed in accordance with the value of each bit of the additional data read from the data buffer 15 until the next boundary is detected. The signal is selected and output to the output terminal 17.

【0016】例えば、境界検出部14で境界が検出され
たときに、データバッファ15から読み出された付加デ
ータのビットが“1”の場合は、スイッチ16では入力
端子11からのオーディオ信号が選択される。データバ
ッファ15から読み出された付加データのビットが
“0”の場合には、スイッチ16では極性反転部13で
極性反転されたオーディオ信号が選択される。
For example, if the bit of the additional data read from the data buffer 15 is “1” when the boundary is detected by the boundary detector 14, the switch 16 selects the audio signal from the input terminal 11. Is done. When the bit of the additional data read from the data buffer 15 is “0”, the switch 16 selects the audio signal whose polarity has been inverted by the polarity inverting unit 13.

【0017】スイッチ16が切り替わるときの各境界で
の不連続の影響を最小限に抑えるために、例えばスイッ
チ16が切り替わるとき、それまで選択していた信号の
レベルを徐々に減少させ、次に選択する信号のレベルを
徐々に増加させるようにしてもよい。これは具体的に
は、オーディオ信号の境界と境界で挟まれた区間の両端
の所定時間長(例えば、1〜10ms程度)の区間で直
線的な立ち上がり及び立ち下がり特性を持つ台形窓をス
イッチ16に適用することにより実現できる。
In order to minimize the effect of the discontinuity at each boundary when the switch 16 is switched, for example, when the switch 16 is switched, the level of the signal selected so far is gradually reduced, and The level of the signal to be transmitted may be gradually increased. Specifically, a trapezoidal window having linear rising and falling characteristics in a section of a predetermined time length (for example, about 1 to 10 ms) at both ends of a section between the boundaries of the audio signal is set to the switch 16. It can be realized by applying to

【0018】また、図1では説明を分かりやすくするた
め、極性反転部13とスイッチ16に分けて説明した
が、スイッチ16を省くと共に、極性反転部13に利得
制御機能を持たせてもよい。その場合、データバッファ
15から読み出された付加データに応じて極性反転部1
3における極性反転の有無を制御し、さらに極性反転の
開始時と終了時、つまりオーディオ信号の境界と境界で
挟まれた区間両端の所定時間長の区間で直線的な立ち上
がり及び立ち下がり特性を持つように利得を制御するよ
うな構成とすればよい。
In FIG. 1, the polarity inversion section 13 and the switch 16 are described separately for easy understanding. However, the switch 16 may be omitted and the polarity inversion section 13 may have a gain control function. In this case, the polarity inverting unit 1 is switched according to the additional data read from the data buffer 15.
3 has a linear rising and falling characteristic at the start and end of the polarity inversion, that is, at a predetermined time length at both ends between the audio signal boundaries. The configuration may be such that the gain is controlled as described above.

【0019】このようにして出力端子17からは、付加
データの各ビットの値に応じて境界と境界で挟まれた素
片(例えば、音節)単位で付加データに応じて極性反転
されたオーディオ信号が出力される。すなわち、付加デ
ータの“0”のビットに対応する素片の波形は極性反転
されず、付加データの“1”のビットに対応する素片の
波形は極性反転されることによって、付加データが素片
波形の極性反転の有無としてオーディオ信号(音声信
号)に埋め込まれる。
From the output terminal 17 in this manner, an audio signal whose polarity is inverted according to the additional data in units of segments (for example, syllables) sandwiched between the boundaries according to the value of each bit of the additional data. Is output. That is, the waveform of the segment corresponding to the “0” bit of the additional data is not inverted, and the waveform of the segment corresponding to the “1” bit of the additional data is inverted. It is embedded in the audio signal (audio signal) as the presence / absence of the polarity inversion of one waveform.

【0020】こうして素片波形の極性反転の有無として
付加データが埋め込まれたオーディオ信号は、人間の聴
覚特性上特に大きな品質劣化はなく、さらに聴覚マスキ
ング特性を利用した手法に比較して、オーディオ信号に
対する圧縮符号化やA/D−D/Aといった種々の加工
処理によって、埋め込まれた付加データが破壊されて再
生不能になってしまう可能性は非常に少ない。
The audio signal in which the additional data is embedded as to the presence or absence of the polarity reversal of the unit waveform has no particularly large deterioration in human auditory characteristics, and the audio signal is more compared with the method using the auditory masking characteristics. There is very little possibility that embedded additional data will be destroyed and become unreproducible by various processing processes such as compression encoding and A / D-D / A.

【0021】図2は、この様子を入力のオーディオ信号
が音声信号の場合について示した図であり、(a)は元
の音声信号波形、(b)は付加データに応じて音節単位
で極性反転された音声信号波形をそれぞれ示している。
図2(b)においては、矢印を付した音節波形が極性反
転している。入力されるオーディオ信号が楽音信号の場
合は、例えば曲毎、あるいは曲中の無音区間と無音区間
の間に挟まれた区間毎に付加データに応じて極性反転さ
れることにより、同様に極性反転の有無としてオーディ
オ信号に埋め込まれる。
FIGS. 2A and 2B show this situation in the case where the input audio signal is an audio signal. FIG. 2A shows the original audio signal waveform, and FIG. 2B shows the polarity inversion in syllable units according to the additional data. 3 shows the obtained audio signal waveforms.
In FIG. 2B, the polarity of the syllable waveform with an arrow is inverted. If the input audio signal is a tone signal, the polarity is inverted in accordance with the additional data, for example, for each song or for each interval between silent intervals in the song, thereby similarly inverting the polarity. Is embedded in the audio signal as presence or absence.

【0022】図3に、本発明の一実施形態に係るオーデ
ィオ信号からの付加データ再生装置の概略構成を示す。
この付加データ再生装置は図1の付加データ埋め込み装
置に対応しており、入力端子21には付加データが極性
反転の有無として埋め込まれたオーディオ信号が入力さ
れる。
FIG. 3 shows a schematic configuration of an apparatus for reproducing additional data from an audio signal according to an embodiment of the present invention.
This additional data reproducing apparatus corresponds to the additional data embedding apparatus shown in FIG. 1, and an input terminal 21 receives an audio signal in which the additional data is embedded as to whether or not the polarity is inverted.

【0023】入力端子21からの付加データが埋め込ま
れたオーディオ信号は、極性判定部22及び境界検出部
23に入力される。境界検出部23は、図1中の境界検
出部14と同様に入力されたオーディオ信号の境界を検
出するものであり、オーディオ信号が音声信号の場合
は、例えば後述するように音節境界を検出し、オーディ
オ信号が楽音信号の場合は、曲中の無音区間、曲間など
を検出する。極性判定部22では、境界検出部23によ
って境界が検出される毎に入力されたオーディオ信号の
極性判定を行い、その極性の判定結果を再生された付加
データとして出力端子25へ出力する。また、入力端子
21からのオーディオ信号は出力端子24にも導かれ
る。
The audio signal in which the additional data is embedded from the input terminal 21 is input to the polarity determination unit 22 and the boundary detection unit 23. The boundary detecting section 23 detects the boundary of the input audio signal in the same manner as the boundary detecting section 14 in FIG. 1. When the audio signal is a voice signal, for example, it detects a syllable boundary as described later. If the audio signal is a tone signal, a silent section in the music, a space between the music, and the like are detected. The polarity determination unit 22 determines the polarity of the input audio signal each time the boundary is detected by the boundary detection unit 23, and outputs the polarity determination result to the output terminal 25 as reproduced additional data. The audio signal from the input terminal 21 is also guided to the output terminal 24.

【0024】次に、オーディオ信号が音声信号の場合に
ついてさらに具体的に説明する。前述したように本発明
では、オーディオ信号をある境界と境界とで挟まれた素
片に分割し、その各素片に対して付加データの1ビット
を割り当て、割り当てたビットに応じて各素片の極性を
反転させたり反転させなかったりすることで付加データ
を埋め込む。ここで、オーディオ信号の素片の長さを決
める際には、1)素片の両端では波形の振幅が十分に小
さいこと、2)素片の長さが十分に長いこと、の二つの
条件を満たすことが望ましい。
Next, the case where the audio signal is an audio signal will be described more specifically. As described above, in the present invention, an audio signal is divided into segments sandwiched between certain boundaries, and one bit of additional data is assigned to each segment, and each segment is assigned according to the assigned bits. The additional data is embedded by inverting or not inverting the polarity of. Here, when determining the length of the segment of the audio signal, there are two conditions that 1) the amplitude of the waveform is sufficiently small at both ends of the segment and 2) the length of the segment is sufficiently long. It is desirable to satisfy

【0025】1)の条件は、極性反転した際の波形の不
連続を小さくするために望まれる。音声信号の場合、極
性反転は無音区間や非有声閉鎖子音の閉鎖区間などで行
うのが理想的であるが、母音に比べれば子音の振幅は相
対的に小さいので、子音の最中に極性を反転することも
考えられる。
The condition 1) is desired to reduce the discontinuity of the waveform when the polarity is inverted. In the case of audio signals, it is ideal to perform polarity reversal in silent periods or in closed periods of unvoiced closed consonants. It is also possible to reverse.

【0026】2)の条件に関しては、トレードオフが存
在する。すなわち、素片の長さは極性を判定できる程度
に十分に長いことが望まれる一方で、埋め込む付加デー
タのビットレートをできるだけ最大化するためには、で
きるだけ短い方がよい。例えば、素片として文を用いた
場合、文には極性を推定するに十分な母音が含まれるこ
とになるので、確実に付加データ1ビットを埋め込むこ
とが可能となるが、ビットレートはかなり低下してしま
う。これに対して、音節は極性判定のし易さと付加デー
タのビットレートの両方の面で、極性反転を行う素片単
位として最も効率がよい。
With respect to the condition 2), there is a trade-off. That is, while it is desired that the length of the segment is long enough to determine the polarity, it is better to be as short as possible in order to maximize the bit rate of the additional data to be embedded. For example, when a sentence is used as a segment, the sentence contains vowels sufficient for estimating the polarity, so that it is possible to embed 1 bit of additional data reliably, but the bit rate is considerably reduced. Resulting in. On the other hand, syllables are the most efficient as a unit for performing polarity reversal in terms of both ease of polarity determination and bit rate of additional data.

【0027】通常の音節は、核、開始部及び末尾からな
り、開始部や末尾では波形のパワーは通常、小さい。こ
れは上記1)の条件を満たしている。また、音節は母音
の定常部において極性を推定するという意味でも最適な
長さである。例えば、米国英語における音節の持続時間
は200〜250msであり、また母音の持続時間は約
100msである。
A normal syllable consists of a nucleus, a start and a tail, where the power of the waveform is usually small at the start and the end. This satisfies the above condition 1). Further, the syllable has an optimal length in the sense that the polarity is estimated in the stationary part of the vowel. For example, the duration of a syllable in US English is 200-250 ms, and the duration of a vowel is about 100 ms.

【0028】そこで、本実施形態では対象とするオーデ
ィオ信号が音声信号の場合、図1における境界検出部1
4及び図3における境界検出部23において、音節境界
を検出する。音節境界を自動的に検出するアルゴリズム
の公知例として、S. Wu, M.L. Shire, S. Greenberg an
d N. Morgan,“Integrating Syllable Boundary Inform
ation into Speech Recognition,”Proc. ICASSP(IEE
E), 1997と題した論文に、サブバンド・エネルギ軌跡に
基づいた音節開始部の自動検出アルゴリズムが記載され
ている。これに対して、本実施形態ではフルバンド・エ
ネルギ軌跡と変形自己相関関数による有声化検出とを併
用した方法を用いることで、二つの連続する音節境界間
に有声区間(特に、母音)が必ず存在するようにした。
Therefore, in this embodiment, when the target audio signal is an audio signal, the boundary detection unit 1 shown in FIG.
4 and 3 detects a syllable boundary. Known examples of algorithms for automatically detecting syllable boundaries include S. Wu, ML Shire, and S. Greenberg an.
d N. Morgan, “Integrating Syllable Boundary Inform
ation into Speech Recognition, ”Proc. ICASSP (IEE
A paper entitled E), 1997 describes an automatic syllable start detection algorithm based on subband energy trajectories. On the other hand, in the present embodiment, by using a method in which the full-band energy trajectory and the voicing detection by the modified autocorrelation function are used together, a voiced section (particularly, a vowel) always exists between two consecutive syllable boundaries. Made it exist.

【0029】図4は、図1における境界検出部14及び
図3における境界検出部23として用いられる音節境界
部の構成を示している。入力端子11からの音声信号
は、まずフレーム分割部31に入力され、所定のフレー
ム長のフレームに分割された後、窓掛け処理部32によ
って窓掛け処理が行われる。
FIG. 4 shows the structure of a syllable boundary used as the boundary detector 14 in FIG. 1 and the boundary detector 23 in FIG. The audio signal from the input terminal 11 is first input to the frame division unit 31 and is divided into frames having a predetermined frame length, and then the windowing processing unit 32 performs windowing processing.

【0030】入力された音声信号が16kHzサンプリ
ングのディジタル音声信号の場合、フレーム分割は例え
ばフレーム長:256点=16ms、フレーム周期:1
28点=8msで、すなわち連続するフレームが時間的
に50%(128点)だけオーバラップするように行わ
れる。ここで、フレーム周期は、隣接するフレーム間の
ずれ幅である。また、窓掛け処理部32ではフレーム長
と同じ窓掛け長で、例えばハミング窓により窓掛け処理
が行われる。窓掛け処理後の各フレームの音声信号は、
線形予測(LPC:Linear Predictive Coding)分析部
33に入力される。LPC分析部33における分析次数
は、例えば16次である。
When the input audio signal is a digital audio signal of 16 kHz sampling, the frame division is, for example, frame length: 256 points = 16 ms, frame period: 1
28 points = 8 ms, that is, continuous frames overlap by 50% (128 points) in time. Here, the frame period is a shift width between adjacent frames. In the windowing processing unit 32, windowing is performed with a windowing length equal to the frame length, for example, using a hamming window. The audio signal of each frame after windowing is
It is input to a linear prediction (LPC: Linear Predictive Coding) analyzer 33. The analysis order in the LPC analysis unit 33 is, for example, 16th order.

【0031】LPC分析部33によって得られたLPC
係数をフィルタ係数とする逆フィルタ34が構成され、
この逆フィルタ34によってフレーム分割部31からの
各フレームの音声信号についてLPCの予測誤差である
残差信号が求められる。残差信号は自己相関演算部35
に入力され、その自己相関関数(これを変形自己相関関
数という)が求められる。図5はこの様子を示す図であ
り、(a)はある典型的な音声信号の母音波形、(b)
は線形予測分析による残差信号、(c)は変形自己相関
関数をそれぞれ示している。
The LPC obtained by the LPC analyzer 33
An inverse filter 34 having coefficients as filter coefficients is configured,
With this inverse filter 34, a residual signal, which is an LPC prediction error, is obtained for the audio signal of each frame from the frame division unit 31. The residual signal is calculated by the autocorrelation operation unit 35
And its autocorrelation function (this is called a modified autocorrelation function) is obtained. FIGS. 5A and 5B show this state. FIG. 5A shows a vowel waveform of a typical sound signal, and FIG.
Denotes a residual signal obtained by linear prediction analysis, and (c) denotes a modified autocorrelation function.

【0032】変形自己相関関数は、有声/非有声判別部
36に入力される。有声/非有声判別部36には、さら
に低周波エネルギー算出部37によって求められた低周
波エネルギーが入力される。低周波エネルギー算出部3
7では、フレーム分割部31からの各フレームの音声信
号のうち、例えば1kHz以下の低周波成分のエネルギ
ー(これをフレーム内低周波エネルギーという)が算出
される。
The modified autocorrelation function is input to the voiced / unvoiced discriminating section 36. The voiced / non-voiced discriminating unit 36 receives the low-frequency energy obtained by the low-frequency energy calculating unit 37. Low frequency energy calculator 3
In step 7, in the audio signal of each frame from the frame division unit 31, the energy of a low-frequency component of, for example, 1 kHz or less (this is referred to as intra-frame low-frequency energy) is calculated.

【0033】有声/非有声判別部36では、変形自己相
関関数とフレーム内低周波エネルギーから、各フレーム
が有声区間か非有声区間かの判別が行われる。具体的に
は、変形自己相関関数を正規化したとき、例えばラグが
0.2ms以上のところにピーク値が0.2以上の正規
化ピークが存在し、かつ、フレーム内低周波エネルギー
がある区間全体の平均的な低周波エネルギーよりも大き
いとき有声区間と決定され、それ以外の区間は非有声区
間と決定される。
The voiced / non-voiced discriminating section 36 discriminates whether each frame is a voiced section or a non-voiced section from the modified autocorrelation function and the low-frequency energy in the frame. Specifically, when the modified autocorrelation function is normalized, for example, there is a normalized peak having a peak value of 0.2 or more where the lag is 0.2 ms or more and a low-frequency energy within the frame exists. When the energy is larger than the entire average low-frequency energy, the voiced section is determined, and the other sections are determined as non-voiced sections.

【0034】有声/非有声判別部36の判別結果は、フ
レーム内エネルギー算出部38によりフレーム分割部3
1からの各フレームの音声信号について求められたフレ
ーム内エネルギーと共に、音節境界決定部39に入力さ
れる。音節境界決定部39では、基本的には有声区間と
有声区間とで挟まれた連続した非有声区間毎に、フレー
ム内エネルギーが最小となる点が音節境界として決定さ
れる。
The discrimination result of the voiced / non-voiced discriminating section 36 is calculated by an intra-frame energy calculating section 38.
1 together with the intra-frame energy obtained for the audio signal of each frame, and is input to the syllable boundary determination unit 39. The syllable boundary determination unit 39 basically determines, as a syllable boundary, a point at which the energy in the frame becomes minimum for each continuous non-voiced section sandwiched between voiced sections.

【0035】より詳しくは、ある非有声区間でフレーム
内エネルギーが最小(Emin)のフレームを見出し、そ
のフレーム内エネルギーEminが所定のしきい値Eth以
下で、かつ直前の音節境界からの時間差Δtが100m
s以上、好ましくは200ms以上の点が音節境界とし
て決定される。図6は、音声信号のうちの母音波形につ
いて有声/非有声判別部36で求められた有声区間(矩
形で示す)と、音節境界決定部39で求められた音節境
界(丸印で示す)の例を示している。
More specifically, a frame whose energy in a frame is the minimum (Emin) is found in a certain unvoiced section, and the time difference Δt from the immediately preceding syllable boundary where the energy Emin in the frame is equal to or less than a predetermined threshold value Eth is found. 100m
Points equal to or longer than s, preferably equal to or longer than 200 ms are determined as syllable boundaries. FIG. 6 shows a voiced section (indicated by a rectangle) obtained by the voiced / non-voiced discriminating unit 36 for a vowel sound waveform of the audio signal and a syllable boundary (indicated by a circle) obtained by the syllable boundary determining unit 39. An example is shown.

【0036】次に、図2における極性判定部22につい
て具体例について説明する。音声信号のパワーの源は、
ほとんどの言語で呼吸器系であり、肺から空気が吐き出
される。肺からの空気は気管を通って、咽頭で声帯の間
を通過する。音声は通常、息を吐くときに発声されるの
で、発声時の声門気流は単一方向であり、その結果、音
声信号波形の極性は常に一定となる。
Next, a specific example of the polarity determining section 22 in FIG. 2 will be described. The source of the power of the audio signal is
It is a respiratory system in most languages, and air is exhaled from the lungs. Air from the lungs passes through the trachea and at the pharynx between the vocal cords. Since voice is usually uttered when exhaling, the glottal airflow during vocalization is unidirectional, so that the polarity of the voice signal waveform is always constant.

【0037】音声信号波形の極性を測定する一つの方法
は、音声信号の声門気流を線形予測(LPC:Linear P
redictive Coding)分析などの逆フィルタ法を用いて推
定する方法である。言語音は、一般的に有声音と非有声
音からなっており、複数の音源を入力とするときの声道
フィルタシステムからの応答として有声音と非有声音は
モデル化される。
One method of measuring the polarity of the audio signal waveform is to linearly predict the glottal airflow (LPC: Linear PPC) of the audio signal.
This is a method of estimating using an inverse filter method such as redictive coding (analysis). Speech sounds are generally composed of voiced sounds and unvoiced sounds, and voiced sounds and unvoiced sounds are modeled as responses from a vocal tract filter system when a plurality of sound sources are input.

【0038】線形予測分析では、有声音の音源は準周期
的なパルス、非有声音の音源はランダム雑音と仮定され
る。有声音に対する線形予測分析での残差信号はインパ
ルス的になるので、図5(a)に示した元の音声信号波
形の極性を調べるよりは、図5(b)に示したような線
形予測分析による残差信号のパルスの方向を調べること
によって、音源の方向性、すなわち元の音声信号波形の
極性を調べることができることが分かる。この図の例で
は、残差信号のパルスの方向は上向きとなっており、音
声信号波形の極性は正極性である。種々の条件、例えば
息を吐くときに発声するとか、録音する際の機器の極性
が時間と共に変わらないといった条件が変わらない限
り、母音の種類が変わっても音声信号波形の極性は一定
である。以上の点を踏まえて、極性判定部22について
説明する。
In the linear prediction analysis, the voiced sound source is assumed to be a quasi-periodic pulse, and the unvoiced sound source is assumed to be random noise. Since the residual signal in the linear prediction analysis for the voiced sound becomes impulse-like, the linear prediction as shown in FIG. 5B is performed rather than examining the polarity of the original voice signal waveform shown in FIG. It can be seen that by examining the direction of the pulse of the residual signal by analysis, the directionality of the sound source, that is, the polarity of the original audio signal waveform can be examined. In the example of this figure, the direction of the pulse of the residual signal is upward, and the polarity of the audio signal waveform is positive. The polarity of the audio signal waveform is constant even if the type of vowel changes, as long as various conditions, for example, utterance when exhaling, or the condition that the polarity of the device at the time of recording does not change with time, do not change. The polarity determination unit 22 will be described based on the above points.

【0039】図7は、入力されるオーディオ信号が音声
信号の場合における図3の極性判定部22と境界検出部
23の構成を合わせて示すブロック図である。入力端子
21には、図1に示した付加データ埋め込み装置によっ
て付加データが埋め込まれたオーディオ信号(音声信
号)が入力される。
FIG. 7 is a block diagram showing the configuration of the polarity judging unit 22 and the boundary detecting unit 23 in FIG. 3 when the input audio signal is an audio signal. The input terminal 21 receives an audio signal (audio signal) in which additional data is embedded by the additional data embedding device shown in FIG.

【0040】図7において、フレーム分割部31、窓掛
け処理部32、LPC分析部33、逆フィルタ34、自
己相関演算部35、有声/非有声判別部36、低周波エ
ネルギー算出部37、フレーム内エネルギー算出部38
及び音節境界決定部39については図4と同様であり、
図7はさらに極性計算部41が追加された構成となって
いる。図3との対応を示すと、フレーム分割部31、窓
掛け処理部32、LPC分析部33、逆フィルタ34、
自己相関演算部35、有声/非有声判別部36、低周波
エネルギー算出部37、フレーム内エネルギー算出部3
8及び音節境界決定部39は、図3の極性判定部22と
境界検出部23で共有され、これに極性計算部41がさ
らに組み合わされることにより、極性判定部22が構成
されている。
In FIG. 7, a frame dividing section 31, a windowing section 32, an LPC analyzing section 33, an inverse filter 34, an autocorrelation calculating section 35, a voiced / unvoiced discriminating section 36, a low-frequency energy calculating section 37, an intra-frame Energy calculator 38
And the syllable boundary determination unit 39 is the same as in FIG.
FIG. 7 shows a configuration in which a polarity calculation unit 41 is further added. As shown in correspondence with FIG. 3, the frame division unit 31, the windowing processing unit 32, the LPC analysis unit 33, the inverse filter 34,
Autocorrelation calculation unit 35, voiced / unvoiced discrimination unit 36, low-frequency energy calculation unit 37, intra-frame energy calculation unit 3
8 and the syllable boundary determination unit 39 are shared by the polarity determination unit 22 and the boundary detection unit 23 in FIG. 3, and the polarity calculation unit 41 is further combined with the polarity determination unit 22 to configure the polarity determination unit 22.

【0041】極性計算部41においては、逆フィルタ3
4からの残差信号と有声/非有声判別部36の判別結果
及び音節境界決定部39により決定された音節境界が入
力されることにより、有声区間の残差信号から音節境界
と音節境界とで挟まれた音節単位で音声信号波形の極性
が計算により求められる。具体的には、極性計算部41
では各音節内の有声区間のフレーム毎に残差信号パルス
の極性の多数決がとられることにより、各音節の音声信
号波形の極性が判別される。すなわち、各音節内の有声
区間で極性が反転していると推定されたフレームと非反
転と推定されたフレームとの間で多数決がとられる。
In the polarity calculator 41, the inverse filter 3
The syllabic boundary and the syllable boundary are obtained from the residual signal of the voiced section by inputting the residual signal from the voice signal 4 and the determination result of the voiced / non-voiced determining unit 36 and the syllable boundary determined by the syllable boundary determining unit 39. The polarity of the audio signal waveform is obtained by calculation for each interposed syllable. Specifically, the polarity calculator 41
In, the polarity of the residual signal pulse is determined for each frame of a voiced section in each syllable, whereby the polarity of the audio signal waveform of each syllable is determined. That is, a majority decision is made between a frame estimated to have inverted polarity and a frame estimated to be non-inverted in a voiced section in each syllable.

【0042】入力端子21には、音節単位で付加データ
に応じて極性反転されることにより付加データが埋め込
まれた音声信号が入力されるので、極性計算部41で得
られた極性判別結果は付加データを表しており、これが
再生された付加データとして出力端子25から出力され
る。
The input terminal 21 receives a voice signal in which the additional data is embedded by inverting the polarity in accordance with the additional data in syllable units, so that the polarity determination result obtained by the polarity calculator 41 is added to the input terminal 21. This represents data, which is output from the output terminal 25 as reproduced additional data.

【0043】オーディオ信号へのデータハイディングや
電子透かしの過程において、オーディオ信号の品質が劣
化しないようにすることは重要である。この要求に対し
て、本発明では人間の聴覚はオーディオ信号の極性反転
に対して鈍感であるという性質を利用している。この点
を確認するため、発明者らは元の音声信号と、音節単位
の極性反転の有無による付加データの埋め込み後の音声
信号との弁別実験を複数の被験者に対して試みた。以下
の実験では、音節境界の検出は手動で行った。
It is important that the quality of the audio signal does not deteriorate in the process of data hiding or digital watermarking on the audio signal. In response to this requirement, the present invention utilizes the property that human hearing is insensitive to inversion of the polarity of an audio signal. In order to confirm this point, the inventors tried a discrimination experiment for a plurality of subjects between the original speech signal and the speech signal after embedding the additional data depending on the presence / absence of polarity reversal in syllable units. In the following experiments, syllable boundaries were detected manually.

【0044】音声信号としては、TIMITデータベー
スの20文を用いた。被験者は20人の日本語母語話者
であり、いずれも健聴者であった。実験では、ABX弁
別法(XはAかBのいずれか)を用いた。Aが元の音声
信号で、かつBが極性反転信号、またはその逆のいずれ
かである。刺激の順番は、被験者毎にランダムに並べ替
えた。実験は簡易防音室でPC(パーソナルコンピュー
タ)を用いて行われ、被験者はヘッドフォン(Sennheis
er社製、HD 600)を介して刺激音を聞き、PCの
画面上の指示に従って回答した。各被験者は同じ刺激を
最大10回まで聞くことができた。Xが元の音声信号で
ある場合とXが極性反転信号である場合の正答率は50
%、すなわち同じ音声信号に対して元の音声信号と回答
する人の割合と極性判定された音声信号と回答する人の
割合が等しいことが理想である。
As the voice signal, 20 sentences of the TIMIT database were used. The subjects were 20 native speakers of Japanese, and all were hearing listeners. In the experiments, the ABX discrimination method (X is either A or B) was used. A is the original audio signal and B is the polarity inversion signal, or vice versa. The order of stimulation was randomly rearranged for each subject. The experiment was performed in a simple soundproof room using a PC (personal computer), and the subjects were headphones (Sennheis
er, HD600), and answered according to the instructions on the PC screen. Each subject could hear the same stimulus up to 10 times. The correct answer rate when X is the original audio signal and when X is the polarity inversion signal is 50
Ideally, the percentage of persons responding to the original audio signal with respect to the same audio signal is equal to the percentage of persons responding to the polarity-determined audio signal.

【0045】この弁別実験の結果、Xが元の音声信号で
ある場合とXが極性反転信号である場合の正答率の平均
は51.3%であり、本発明の手法による付加データの
埋め込み後の音声信号は、元の音声信号と識別できず、
付加データの埋め込みが信号品質にほとんど影響を与え
ないことが確認された。
As a result of this discrimination experiment, the average of the correct answer rate when X is the original voice signal and when X is the polarity-inverted signal is 51.3%. Audio signal is indistinguishable from the original audio signal,
It was confirmed that the embedding of the additional data hardly affected the signal quality.

【0046】一方、音節境界の検出を図4に示したよう
な構成で自動的に行った場合について同様の弁別実験を
行ったところ、Xが元の音声信号である場合と、Xが極
性反転信号である場合の正答率の平均は53.0%であ
った。この結果から、自動的に検出された音節境界に対
しても、人間の聴覚は元の音声信号と極性反転後の音声
信号を弁別できないことが分かった。
On the other hand, when a similar discrimination experiment was performed for the case where syllable boundaries were automatically detected with the configuration shown in FIG. 4, the case where X was the original voice signal and the case where X was the polarity inversion The average of the correct answer rate in the case of the signal was 53.0%. From this result, it was found that the human auditory sense could not discriminate the original speech signal from the speech signal after the polarity reversal even for the syllable boundary automatically detected.

【0047】次に、上記のようにして音声信号に埋め込
まれた付加データを図7に示すような構成で自動的に抽
出して再生することを試みた。この付加データ自動抽出
アルゴリズムは、前述したLPC分析に基づくものであ
り、まず音節境界を検出し、各音声フレームに対して音
節境界間(音節単位)で正負の極性に対する多数決を求
め、多い方の極性をその音節の極性とした。
Next, an attempt was made to automatically extract and reproduce the additional data embedded in the audio signal as described above with the configuration shown in FIG. This additional data automatic extraction algorithm is based on the above-described LPC analysis. First, syllable boundaries are detected, and a majority decision for positive and negative polarities between syllable boundaries (syllable units) is determined for each voice frame. The polarity was the polarity of the syllable.

【0048】付加データとしては、幾つかのバイナリデ
ータ列を用い、TIMITデータベースの20文に埋め
込んだ。その際、平均ビット長は1文当たり7.6ビッ
トであった。次に、埋め込まれた付加データであるバイ
ナリデータ列を抽出して再生し、埋め込む前の元の付加
データと比較したところ、96.78%の確率で正しく
再生された(152ビット中、5つの誤り)。誤りの内
訳は、自動音節境界検出における誤り2つと、自動極性
判定による誤り3つである。これらの検出や判定の精度
を高めることで、さらに誤りを低減することができる。
As additional data, several binary data strings were used and embedded in 20 sentences of the TIMIT database. At that time, the average bit length was 7.6 bits per sentence. Next, a binary data string as embedded additional data was extracted and reproduced, and compared with the original additional data before embedding, it was correctly reproduced with a probability of 96.78% (5 out of 152 bits). error). The breakdown of the errors is two errors in automatic syllable boundary detection and three errors due to automatic polarity determination. By increasing the accuracy of these detections and determinations, errors can be further reduced.

【0049】上記実施形態では、音声信号の音節境界を
検出して音節境界間、すなわち音節単位で付加データに
応じて音声信号の極性反転を行う例について述べたが、
付加データに基づく極性反転の単位は音節単位に限られ
ないことはいうまでもなく、例えば付加データのビット
レートが小さくてもよい場合は、単語・語句・文といっ
た単位であってもよい。
In the above embodiment, the example has been described in which the syllable boundaries of the audio signal are detected and the polarity of the audio signal is inverted between the syllable boundaries, that is, in units of syllables according to the additional data.
Needless to say, the unit of the polarity inversion based on the additional data is not limited to a syllable unit. For example, when the bit rate of the additional data may be small, a unit such as a word, a phrase, or a sentence may be used.

【0050】また、音声信号の極性反転させる単位の境
界として、音声信号の零クロス点を用いてもよい。零ク
ロス点で音声信号の極性を反転させた場合、若干の信号
品質劣化はあるが、振幅の大きなところで極性反転させ
る場合に比較して大きなノイズの発生はなく、品質をさ
ほど問題としない用途には使用できる。
A zero cross point of the audio signal may be used as a boundary of a unit for inverting the polarity of the audio signal. When the polarity of the audio signal is inverted at the zero crossing point, the signal quality is slightly degraded.However, compared to the case where the polarity is inverted where the amplitude is large, there is no large noise, and the quality is not a problem. Can be used.

【0051】さらに、対象とするオーディオ信号は楽音
信号であってもよいことは前述した通りであり、その場
合は曲の無音区間、曲間などを境界として付加データに
応じた極性反転を行うようにすればよい。
Further, as described above, the target audio signal may be a musical tone signal. In this case, the polarity inversion according to the additional data is performed with a boundary between a silent section of the music, a space between the music, and the like. What should I do?

【0052】上述した本発明に基づくオーディオ信号へ
の付加データ埋め込み及びオーディオ信号からの付加デ
ータ再生の処理は、DSP(ディジタル信号プロセッ
サ)のようなハードウェアで実現可能であるが、パーソ
ナルコンピュータのようなコンピュータを用いてソフト
ウェアにより実行することも可能である。従って、本発
明によれば以下に挙げるようなプログラム、あるいは当
該プログラムを格納したコンピュータ読み取り可能な記
録媒体を提供することができる。
The processing of embedding the additional data in the audio signal and reproducing the additional data from the audio signal based on the present invention can be realized by hardware such as a DSP (digital signal processor), but is similar to a personal computer. It can also be executed by software using a simple computer. Therefore, according to the present invention, it is possible to provide a program as described below, or a computer-readable recording medium storing the program.

【0053】(1)オーディオ信号に対して二値の付加
データを埋め込む処理をコンピュータに実行させるため
のプログラム、あるいは当該プログラムを格納したコン
ピュータ読み取り可能な記録媒体であって、前記オーデ
ィオ信号を該オーディオ信号の所定単位毎に前記付加デ
ータに応じて極性反転して出力する処理をコンピュータ
に実行させるためのプログラム、あるいは当該プログラ
ムを格納したコンピュータ読み取り可能な記録媒体。
(1) A program for causing a computer to execute a process of embedding binary additional data in an audio signal, or a computer-readable recording medium storing the program, wherein the audio signal is stored in the audio signal. A program for causing a computer to execute a process of inverting and outputting a polarity according to the additional data for each predetermined unit of a signal, or a computer-readable recording medium storing the program.

【0054】(2)オーディオ信号に対して二値の付加
データを埋め込む処理をコンピュータに実行させるため
のプログラム、あるいは当該プログラムを格納したコン
ピュータ読み取り可能な記録媒体であって、前記オーデ
ィオ信号の音節境界を検出する処理と、検出された音節
境界に基づき前記オーディオ信号を音節単位毎に前記付
加データに応じて極性反転して出力する処理をコンピュ
ータに実行させるためのプログラム、あるいは当該プロ
グラムを格納したコンピュータ読み取り可能な記録媒
体。
(2) A program for causing a computer to execute a process of embedding binary additional data in an audio signal, or a computer-readable recording medium storing the program, wherein the syllable boundary of the audio signal is A program for causing a computer to execute a process of detecting the audio signal and a process of inverting the polarity of the audio signal in accordance with the additional data for each syllable unit on the basis of the detected syllable boundary and outputting the audio signal, or a computer storing the program. A readable recording medium.

【0055】(3)上記(2)において、前記音節境界
を検出する処理は、入力されるオーディオ信号をフレー
ムに分割する処理と、分割された各フレームのオーディ
オ信号を線形予測分析する処理と、該線形予測分析にお
ける残差信号の自己相関をとって変形自己相関関数を求
める処理と、前記変形自己相関関数と前記オーディオ信
号の各フレームの低周波エネルギーから有声区間と非有
声区間を判別する処理と、前記オーディオ信号の非有声
区間と判別されたフレームのエネルギーから音節境界を
決定する処理とを有する。
(3) In the above (2), the processing for detecting the syllable boundary includes processing for dividing an input audio signal into frames, processing for performing linear prediction analysis on the audio signal of each divided frame, and A process of obtaining a modified autocorrelation function by taking an autocorrelation of the residual signal in the linear prediction analysis; and a process of discriminating a voiced section and an unvoiced section from the modified autocorrelation function and low-frequency energy of each frame of the audio signal. And determining a syllable boundary from the energy of the frame determined to be a non-voiced section of the audio signal.

【0056】(4)所定単位毎に二値の付加データに応
じて極性反転されることにより該付加データが埋め込ま
れたオーディオ信号から該付加データを再生する処理を
コンピュータに実行させるためのプログラム、あるいは
当該プログラムを格納したコンピュータ読み取り可能な
記録媒体であって、前記オーディオ信号の極性を所定単
位毎に判定することにより前記付加データを再生する処
理をコンピュータに実行させるためのプログラム、ある
いは当該プログラムを格納したコンピュータ読み取り可
能な記録媒体。
(4) A program for causing a computer to execute a process of reproducing the additional data from an audio signal in which the additional data is embedded by inverting the polarity in accordance with binary additional data for each predetermined unit. Alternatively, a computer-readable recording medium storing the program, the program causing a computer to execute processing of reproducing the additional data by determining the polarity of the audio signal for each predetermined unit, or A computer-readable recording medium stored.

【0057】(5)所定単位毎に二値の付加データに応
じて極性反転されることにより該付加データが埋め込ま
れたオーディオ信号から該付加データを再生する処理を
コンピュータに実行させるためのプログラム、あるいは
当該プログラムを格納したコンピュータ読み取り可能な
記録媒体であって、前記オーディオ信号の音節境界を検
出する処理と、検出された音節境界に基づき前記オーデ
ィオ信号の極性を音節単位毎に判定することにより前記
付加データを再生する処理とをコンピュータに実行させ
るためのプログラム、あるいは当該プログラムを格納し
たコンピュータ読み取り可能な記録媒体。
(5) A program for causing a computer to execute a process of reproducing the additional data from an audio signal in which the additional data is embedded by inverting the polarity in accordance with binary additional data for each predetermined unit. Alternatively, a computer-readable recording medium storing the program, wherein the process of detecting a syllable boundary of the audio signal, and determining the polarity of the audio signal for each syllable unit based on the detected syllable boundary, A program for causing a computer to execute a process of reproducing additional data, or a computer-readable recording medium storing the program.

【0058】(6)上記(5)において、前記音節境界
を検出する処理は、入力されるオーディオ信号をフレー
ムに分割する処理と、分割された各フレームのオーディ
オ信号を線形予測分析する処理と、該線形予測分析にお
ける残差信号の自己相関をとって変形自己相関関数を求
める処理と、前記変形自己相関関数と前記オーディオ信
号の各フレームの低周波エネルギーから有声区間と非有
声区間を判別する処理と、前記オーディオ信号の前記非
有声区間と判別されたフレームのエネルギーから音節境
界を決定する処理とを有し、前記付加データを再生する
処理は、前記決定された音節境界により挟まれた音節毎
に前記有声区間と判別されたフレームの残差信号の極性
の多数決をとることにより前記オーディオ信号の極性を
音節単位毎に判定する処理を有する。
(6) In the above (5), the processing for detecting a syllable boundary includes processing for dividing an input audio signal into frames, processing for performing linear prediction analysis on the audio signals of each of the divided frames, and A process of obtaining a modified autocorrelation function by taking an autocorrelation of the residual signal in the linear prediction analysis; and a process of discriminating a voiced section and an unvoiced section from the modified autocorrelation function and low-frequency energy of each frame of the audio signal. And determining a syllable boundary from the energy of the frame determined to be the non-voiced section of the audio signal. The processing of reproducing the additional data is performed for each syllable sandwiched by the determined syllable boundary. The polarity of the audio signal is determined for each syllable unit by taking the majority decision of the polarity of the residual signal of the frame determined to be the voiced section. Having that process.

【0059】さらに、本発明によると上述したオーディ
オ信号への付加データ埋め込み処理及びオーディオ信号
からの付加データ再生処理の両方の機能を有する装置、
及びプログラムあるいは記録媒体を提供することもでき
る。
Further, according to the present invention, an apparatus having both functions of embedding the additional data in the audio signal and reproducing the additional data from the audio signal,
And a program or a recording medium.

【0060】[0060]

【発明の効果】以上説明したように、本発明によればオ
ーディオ信号への加工処理によって付加データが破壊さ
れるおそれの少ないオーディオ信号への付加データの埋
め込み及びオーディオ信号からの付加データの再生を行
うことが可能となる。
As described above, according to the present invention, embedding of additional data in an audio signal and reproduction of the additional data from the audio signal are less likely to be caused by the processing of the audio signal. It is possible to do.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態に係るオーディオ信号への
付加データ埋め込み装置の構成を示すブロック図
FIG. 1 is a block diagram showing a configuration of an apparatus for embedding additional data in an audio signal according to an embodiment of the present invention.

【図2】音声信号の極性反転前及び極性反転後の波形を
示す図
FIG. 2 is a diagram showing waveforms of an audio signal before and after polarity inversion.

【図3】同実施形態に係るオーディオ信号からの付加デ
ータ再生装置の構成を示すブロック図
FIG. 3 is an exemplary block diagram showing the configuration of an apparatus for reproducing additional data from an audio signal according to the embodiment;

【図4】同実施形態における境界検出部の構成を示すブ
ロック図
FIG. 4 is a block diagram showing a configuration of a boundary detection unit according to the embodiment;

【図5】音声信号の母音波形と残差信号及び変形自己相
関関数の例を示す図
FIG. 5 is a diagram showing an example of a vowel sound waveform, a residual signal, and a modified autocorrelation function of an audio signal.

【図6】音声信号の母音波形と有声区間及び音節境界の
例を示す図
FIG. 6 is a diagram showing an example of a vowel sound waveform, a voiced section, and a syllable boundary of an audio signal.

【図7】同実施形態における極性判定部の構成を境界検
出部と共に示すブロック図
FIG. 7 is a block diagram showing a configuration of a polarity determination unit in the embodiment together with a boundary detection unit;

【符号の説明】[Explanation of symbols]

11…オーディオ信号入力端子 12…付加データ入力端子 13…極性反転部 14…境界検出部 15…データバッファ 16…スイッチ 17…オーディオ信号出力端子 21…オーディオ信号入力端子 22…極性判定部 23…境界検出部 24…オーディオ信号出力端子 25…付加データ出力端子 31…フレーム分割部 32…窓掛け処理部 33…線形予測分析部 34…逆フィルタ 35…自己相関関数演算部 36…有声/非有声判別部 37…低周波エネルギー算出部 38…フレーム内エネルギー算出部 39…音節境界決定部 41…極性計算部 DESCRIPTION OF SYMBOLS 11 ... Audio signal input terminal 12 ... Additional data input terminal 13 ... Polarity inversion part 14 ... Boundary detection part 15 ... Data buffer 16 ... Switch 17 ... Audio signal output terminal 21 ... Audio signal input terminal 22 ... Polarity determination part 23 ... Boundary detection Unit 24 audio signal output terminal 25 additional data output terminal 31 frame division unit 32 windowing processing unit 33 linear prediction analysis unit 34 inverse filter 35 autocorrelation function calculation unit 36 voiced / non-voiced determination unit 37 ... Low-frequency energy calculator 38. In-frame energy calculator 39. Syllable boundary determiner 41. Polarity calculator.

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】オーディオ信号に対して二値の付加データ
を埋め込む装置において、 前記オーディオ信号を該オーディオ信号の所定単位毎に
前記付加データに応じて極性反転して出力することを特
徴とするオーディオ信号への付加データ埋め込み装置。
An apparatus for embedding binary additional data in an audio signal, wherein the audio signal is inverted for each predetermined unit of the audio signal in accordance with the additional data and output. A device for embedding additional data in signals.
【請求項2】オーディオ信号に対して二値の付加データ
を埋め込む装置において、 前記オーディオ信号の音節境界を検出する手段と、 検出された音節境界に基づき前記オーディオ信号を音節
単位毎に前記付加データに応じて極性反転して出力する
手段とを備えたことを特徴とするオーディオ信号に対す
るオーディオ信号への付加データ埋め込み装置。
2. An apparatus for embedding binary additional data in an audio signal, comprising: means for detecting a syllable boundary of the audio signal; and detecting the audio signal based on the detected syllable boundary for each syllable unit. Means for embedding additional data in an audio signal with respect to the audio signal.
【請求項3】前記音節境界を検出する手段は、 入力されるオーディオ信号をフレームに分割する手段
と、分割された各フレームのオーディオ信号を線形予測
分析する手段と、該線形予測分析における残差信号の自
己相関をとって変形自己相関関数を求める手段と、前記
変形自己相関関数と前記オーディオ信号の各フレームの
低周波エネルギーから有声区間と非有声区間を判別する
手段と、前記オーディオ信号の非有声区間と判別された
フレームのエネルギーから音節境界を決定する手段とを
有することを特徴とする請求項2記載のオーディオ信号
への付加データ埋め込み装置。
3. The means for detecting a syllable boundary includes: means for dividing an input audio signal into frames; means for performing linear prediction analysis on the audio signal of each of the divided frames; Means for obtaining a modified autocorrelation function by taking an autocorrelation of a signal; means for determining a voiced section and an unvoiced section from the modified autocorrelation function and low-frequency energy of each frame of the audio signal; 3. The apparatus for embedding additional data in an audio signal according to claim 2, further comprising means for determining a syllable boundary from the energy of the frame determined to be a voiced section.
【請求項4】所定単位毎に二値の付加データに応じて極
性反転されることにより該付加データが埋め込まれたオ
ーディオ信号から該付加データを再生する装置におい
て、 前記オーディオ信号の極性を所定単位毎に判定すること
により前記付加データを再生することを特徴とするオー
ディオ信号からの付加データ再生装置。
4. An apparatus for reproducing said additional data from an audio signal in which said additional data is embedded by inverting the polarity in accordance with binary additional data for each predetermined unit, comprising: An apparatus for reproducing additional data from an audio signal, wherein the additional data is reproduced by making a determination every time.
【請求項5】所定単位毎に二値の付加データに応じて極
性反転されることにより該付加データが埋め込まれたオ
ーディオ信号から該付加データを再生する装置におい
て、 前記オーディオ信号の音節境界を検出する手段と、 検出された音節境界に基づき前記オーディオ信号の極性
を音節単位毎に判定することにより前記付加データを再
生する手段とを備えたことを特徴とするオーディオ信号
からの付加データ再生装置。
5. An apparatus for reproducing said additional data from an audio signal in which said additional data is embedded by inverting the polarity according to binary additional data for each predetermined unit, wherein a syllable boundary of said audio signal is detected. And a means for reproducing the additional data by determining the polarity of the audio signal for each syllable unit based on the detected syllable boundary.
【請求項6】前記音節境界を検出する手段は、 入力されるオーディオ信号をフレームに分割する手段
と、分割された各フレームのオーディオ信号を線形予測
分析する手段と、該線形予測分析における残差信号の自
己相関をとって変形自己相関関数を求める手段と、前記
変形自己相関関数と前記オーディオ信号の各フレームの
低周波エネルギーから有声区間と非有声区間を判別する
手段と、前記オーディオ信号の非有声区間と判別された
フレームのエネルギーから音節境界を決定する手段とを
有し、 前記付加データを再生する手段は、前記決定された音節
境界により挟まれた音節毎に前記有声区間と判別された
フレームの残差信号の極性の多数決をとることにより前
記オーディオ信号の極性を音節単位毎に判定することを
特徴とする請求項5記載のオーディオ信号からの付加デ
ータ再生装置。
6. The means for detecting a syllable boundary includes: means for dividing an input audio signal into frames; means for performing linear prediction analysis on an audio signal of each divided frame; and a residual in the linear prediction analysis. Means for obtaining a modified autocorrelation function by taking an autocorrelation of a signal; means for determining a voiced section and an unvoiced section from the modified autocorrelation function and low-frequency energy of each frame of the audio signal; Means for determining a syllable boundary from the energy of the frame determined to be a voiced section, wherein the means for reproducing the additional data is determined as the voiced section for each syllable sandwiched by the determined syllable boundary. The polarity of the audio signal is determined for each syllable unit by taking a majority decision of the polarity of the residual signal of the frame. Additional data reproducing apparatus from the mounting of the audio signal.
JP2000367429A 2000-12-01 2000-12-01 Device for embedding additional data in audio signal and device for reproducing additional data from audio signal Pending JP2002169579A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000367429A JP2002169579A (en) 2000-12-01 2000-12-01 Device for embedding additional data in audio signal and device for reproducing additional data from audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000367429A JP2002169579A (en) 2000-12-01 2000-12-01 Device for embedding additional data in audio signal and device for reproducing additional data from audio signal

Publications (1)

Publication Number Publication Date
JP2002169579A true JP2002169579A (en) 2002-06-14

Family

ID=18837857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000367429A Pending JP2002169579A (en) 2000-12-01 2000-12-01 Device for embedding additional data in audio signal and device for reproducing additional data from audio signal

Country Status (1)

Country Link
JP (1) JP2002169579A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002095727A1 (en) * 2001-05-17 2002-11-28 International Business Machines Corporation Content boundary detecting device, monitoring method, content position determining method, program, and storge medium
JP2005241796A (en) * 2004-02-25 2005-09-08 Dainippon Printing Co Ltd Embedding method of electronic watermark, and reproducing device of acoustic signal
JP2007501957A (en) * 2003-08-11 2007-02-01 ファクルテ ポリテクニーク デ モン Method for estimating resonant frequency
US7606388B2 (en) * 2002-05-14 2009-10-20 International Business Machines Corporation Contents border detection apparatus, monitoring method, and contents location detection method and program and storage medium therefor
JP2010530989A (en) * 2007-06-22 2010-09-16 ヴォイスエイジ・コーポレーション Method and apparatus for speech segment detection and speech signal classification
WO2015068310A1 (en) * 2013-11-11 2015-05-14 株式会社東芝 Digital-watermark detection device, method, and program
JP2017504892A (en) * 2014-01-20 2017-02-09 曲立東 Data tag distribution system and method based on audio frequency

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002095727A1 (en) * 2001-05-17 2002-11-28 International Business Machines Corporation Content boundary detecting device, monitoring method, content position determining method, program, and storge medium
US7606388B2 (en) * 2002-05-14 2009-10-20 International Business Machines Corporation Contents border detection apparatus, monitoring method, and contents location detection method and program and storage medium therefor
JP2007501957A (en) * 2003-08-11 2007-02-01 ファクルテ ポリテクニーク デ モン Method for estimating resonant frequency
JP2005241796A (en) * 2004-02-25 2005-09-08 Dainippon Printing Co Ltd Embedding method of electronic watermark, and reproducing device of acoustic signal
JP4570026B2 (en) * 2004-02-25 2010-10-27 大日本印刷株式会社 How to embed digital watermark
JP2010530989A (en) * 2007-06-22 2010-09-16 ヴォイスエイジ・コーポレーション Method and apparatus for speech segment detection and speech signal classification
US8990073B2 (en) 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
WO2015068310A1 (en) * 2013-11-11 2015-05-14 株式会社東芝 Digital-watermark detection device, method, and program
JPWO2015068310A1 (en) * 2013-11-11 2017-03-09 株式会社東芝 Digital watermark detection apparatus, method and program
US9747907B2 (en) 2013-11-11 2017-08-29 Kabushiki Kaisha Toshiba Digital watermark detecting device, method, and program
JP2017504892A (en) * 2014-01-20 2017-02-09 曲立東 Data tag distribution system and method based on audio frequency

Similar Documents

Publication Publication Date Title
Ainsworth Mechanisms of Speech Recognition: International Series in Natural Philosophy
US8670990B2 (en) Dynamic time scale modification for reduced bit rate audio coding
Owren et al. Measuring emotion-related vocal acoustics
WO2020224217A1 (en) Speech processing method and apparatus, computer device, and storage medium
JP2002014689A (en) Method and device for improving understandability of digitally compressed speech
JPH02242298A (en) Speaker identifying device based on glottis waveform
CN115485766A (en) Speech synthesis prosody using BERT models
Ishizuka et al. Noise robust voice activity detection based on periodic to aperiodic component ratio
Afroz et al. Recognition and classification of pauses in stuttered speech using acoustic features
Maiti et al. Speech denoising by parametric resynthesis
JP2002169579A (en) Device for embedding additional data in audio signal and device for reproducing additional data from audio signal
Sakaguchi et al. The effect of polarity inversion of speech on human perception and data hiding as an application
JP3618217B2 (en) Audio pitch encoding method, audio pitch encoding device, and recording medium on which audio pitch encoding program is recorded
US11915714B2 (en) Neural pitch-shifting and time-stretching
Sarma et al. Consonant-vowel unit recognition using dominant aperiodic and transition region detection
Hunt Delayed decisions in speech recognition—the case of formants
JP6526602B2 (en) Speech recognition apparatus, method thereof and program
Sharifzadeh Reconstruction of natural sounding speech from whispers
JP4778402B2 (en) Pause time length calculation device, program thereof, and speech synthesizer
JPH0950288A (en) Device and method for recognizing voice
WO2004077381A1 (en) A voice playback system
RU2234746C2 (en) Method for narrator-independent recognition of speech sounds
JP2006010739A (en) Speech recognition device
Shahnawazuddin Developing children's ASR system under low-resource conditions using end-to-end architecture
JPH07295588A (en) Estimating method for speed of utterance