CN108417199A - 音频水印信息检测装置及音频水印信息检测方法 - Google Patents

音频水印信息检测装置及音频水印信息检测方法 Download PDF

Info

Publication number
CN108417199A
CN108417199A CN201810409237.3A CN201810409237A CN108417199A CN 108417199 A CN108417199 A CN 108417199A CN 201810409237 A CN201810409237 A CN 201810409237A CN 108417199 A CN108417199 A CN 108417199A
Authority
CN
China
Prior art keywords
phase
watermark information
sound
audio watermark
mentioned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810409237.3A
Other languages
English (en)
Other versions
CN108417199B (zh
Inventor
橘健太郎
笼岛岳彦
田村正统
森田真弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN201810409237.3A priority Critical patent/CN108417199B/zh
Publication of CN108417199A publication Critical patent/CN108417199A/zh
Application granted granted Critical
Publication of CN108417199B publication Critical patent/CN108417199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Abstract

本发明提供能够在不会使合成声音的音质劣化的情况下插入音频水印的音频水印信息检测装置及音频水印信息检测方法。实施方式的音频水印信息检测装置,具备:音高标记推定部,其推定嵌入了音频水印信息的合成声音的音高标记,并按每个所推定的音高标记截取声音;相位提取部,其提取上述音高标记推定部所截取的声音的相位;代表相位计算部,其根据上述相位提取部所提取的相位计算成为多个频点的代表的代表相位;以及判定部,其基于上述代表相位,判定上述音频水印信息的有无。

Description

音频水印信息检测装置及音频水印信息检测方法
本申请是申请号为201380070775.X、申请日为2013年1月18日、发明名称为“声音合成装置、音频水印信息检测装置、声音合成方法、音频水印信息检测方法、声音合成程序及音频水印信息检测程序”的中国发明专利申请的分案申请。
技术领域
本发明的实施方式涉及声音合成装置、音频水印信息检测装置、声音合成方法、音频水印信息检测方法、声音合成程序及音频水印信息检测程序。
背景技术
公知的是,对表示声带的振动的声源信号进行表示声道特性的过滤,来合成声音。另外,合成声音的品质提高,有被滥用的危险性。因此,考虑通过在合成声音插入水印信息,能够防止、抑制滥用。
【专利文献1】特开2003-295878号公报
发明内容
但是,若在合成声音组入音频水印,则有时发生音质劣化。本发明要解决的问题在于提供能够在不会使合成声音的音质劣化的情况下插入音频水印的声音合成装置、音频水印信息检测装置、声音合成方法、音频水印信息检测方法、声音合成程序及音频水印信息检测程序。
实施方式的信息处理装置具备声源生成部、相位调制部和声道过滤部。声源生成部使用声音的基本频率序列及脉冲信号,生成声源信号。相位调制部对声源生成部所生成的声源信号,基于音频水印信息,按每个音高标记调制脉冲信号的相位。声道过滤部对相位调制部调制了脉冲信号的相位后的声源信号,使用频谱参数序列生成声音信号。
附图说明
图1是例示实施方式所涉及的声音合成装置的构成的方框图。
图2是例示声源部的构成的方框图。
图3是例示实施方式所涉及的声音合成装置进行的处理的流程图。
图4是对无音频水印的声音波形和声音合成装置插入了音频水印的声音波形进行对比的图。
图5是例示声源部的第1变形例及其周边的构成的方框图。
图6是表示声音波形、基本频率序列、音高标记及频带噪声强度序列的一例的图。
图7是例示表示具有图5中所示的声源部的声音合成装置所进行的处理的流程图。
图8是例示声源部的第2变形例及其周边的构成的方框图。
图9是例示实施方式所涉及的音频水印信息检测装置的构成的方框图。
图10是表示在判定部基于代表相位值来判定音频水印信息的有无的情况下进行的处理的图。
图11是例示实施方式所涉及的音频水印信息检测装置的工作的流程图。
图12是表示在判定部基于代表相位值来判定音频水印信息的有无的情况下进行的其他处理的第1例的图。
图13是表示在判定部基于代表相位值来判定音频水印信息的有无的情况下进行的其他处理的第2例的图。
具体实施方式
(声音合成装置)
以下参照附图,说明实施方式所涉及的声音合成装置。图1是例示实施方式所涉及的声音合成装置1的构成的方框图。另外,声音合成装置1由例如通用的计算机等实现。即,声音合成装置1具有作为具备例如CPU、存储装置、输入输出装置及通信接口等的计算机的功能。
如图1所示,声音合成装置1具备输入部10、声源部2a、声道过滤部12、输出部14及第1存储部16。输入部10、声源部2a、声道过滤部12及输出部14可以分别由硬件电路或通过CPU执行的软件构成。第1存储部16由例如HDD(Hard Disk Drive,硬盘驱动器)或存储器等构成。即,声音合成装置1也可以构成为通过执行声音合成程序来实现功能。
输入部10对声源部2a输入表示基本频率或基本周期的信息的序列(以下,记载为基本频率序列)、频谱参数的序列和至少包含音频水印信息的特征参数的序列。
基本频率序列设为例如有声音的帧的基本频率(F0)的值等和表示是无声音的帧这一情况的值的序列。这里,无声音的帧设为例如固定为0等预先确定的值的序列。另外,有声音的帧也可以包含周期信号的每帧的音高周期或对数F0等的值。
在本实施方式中,所谓帧,设为表示声音信号的区间。在声音合成装置1根据固定的帧频进行分析的情况下,特征参数为例如每5ms的值。
频谱参数将声音的频谱信息表现为参数。在声音合成装置1与基本频率序列同样地根据固定的帧频进行分析的情况下,频谱参数为与例如每5ms的区间对应的值。另外,对频谱参数,使用例如倒频谱、梅尔倒频谱、线性预测系数、频谱包络或梅尔LSP等各种参数。
声源部2a使用从输入部10输入的基本频率序列及后述的脉冲信号等,生成对相位进行了调制的声源信号(使用图2等详述),并对声道过滤部12输出。
声道过滤部12对声源部2a调制了相位后的声源信号,使用经由例如声源部2a接收到的频谱参数序列,进行卷积运算,生成声音信号。即,声道过滤部12生成声音波形。
输出部14输出声道过滤部12所生成的声音信号。例如,输出部14将声音信号(声音波形)表现为波形输出,或者作为声音文件(例如WAVE文件等)输出。
第1存储部16预先存储用于声音合成的多种脉冲信号,根据来自声源部2a的访问,对声源部2a输出某脉冲信号。
图2是例示声源部2a的构成的方框图。如图2所示,声源部2a具有例如声源生成部20及相位调制部22。声源生成部20对从第1存储部16接收到的脉冲信号,通过使用从输入部10接收到的特征参数的序列进行变形,生成针对有声音的帧的(脉冲)声源信号。即,声源生成部20制作脉冲列(或音高标记列)。音高标记列是表示配置音高脉冲的时刻的列的信息。
例如,声源生成部20确定基准时刻,根据基本频率序列内相符的帧的值计算该基准时刻处的音高周期。另外,声源生成部20通过反复在相对于基准时刻前进了所计算的音高周期的长度的量的时刻赋予标记的处理,来制作音高标记。另外,声源生成部20通过求出基本频率的倒数,来计算音高周期。
相位调制部22接收声源生成部20所生成的(脉冲)声源信号,进行相位调制。例如,相位调制部22对声源生成部20所生成的声源信号,基于使用了特征参数中所包含的音频水印信息的相位调制规则,按每个音高标记调制脉冲信号的相位。即,相位调制部22调制脉冲信号的相位,生成相位调制脉冲列。
相位调制规则既可以是时间序列性的调制,也可以是频率序列性的调制。例如,相位调制部22如下式1或下式2所示,按每个频点以时间序列调制相位,或者使用以时间序列及频率序列中的至少一种随机地调制的全通滤波器,时间性地进行调制。
例如,在相位调制部22以时间序列调制相位的情况下,也可以构成为将表示按每时间序列(按每预定的时刻)变化的相位调制规则组的表作为音频水印信息所用的密钥信息,由输入部10对相位调制部22预先输入。在该情况下,相位调制部22基于音频水印信息所用的密钥信息,按每个预定的时刻改变相位调制规则。另外,在检测音频水印信息的音频水印信息检测装置(后述)中,通过使用相位调制部22用于相位调制规则的改变的表,可以提高音频水印的秘匿性。
【数学式1】
【数学式2】
ph(t,f)=rand(f,t)…(2)
另外,a表示相位调制强度(斜率),f表示频点或频带,t表示时间,ph(t,f)表示时刻t处的频率f的相位。相位调制强度a例如设为使根据包括多个频点的2个频带的相位值所计算的2个代表相位值间的比率或差值变化以便成为预定值的值。并且,声音合成装置1将相位调制强度a用作为音频水印信息的位信息。另外,声音合成装置1也可以通过将相位调制强度a(斜率)设为多个值,将音频水印信息的位信息多位化。另外,在相位调制规则中,也可以使用预定的多个频点的中值、平均值或加权平均值等。
接着,说明图1所示的声音合成装置1所进行的处理。图3是例示声音合成装置1所进行的处理的流程图。如图3所示,在步骤100(S100),声源生成部20对从第1存储部16接收到的脉冲信号,通过使用从输入部10接收到的特征参数的序列进行变形,生成针对有声音的帧的(脉冲)声源信号。即,声源生成部20输出脉冲列。
在步骤102(S102),相位调制部22对声源生成部20所生成的声源信号,基于使用了特征参数中所包含的音频水印信息的相位调制规则,按每个音高标记来调制脉冲信号的相位。即,相位调制部22输出相位调制脉冲列。
在步骤104(S104),声道过滤部12对声源部2a调制了相位后的声源信号,使用经由声源部2a接收到的频谱参数序列,进行卷积运算,生成声音信号。即,声道过滤部12输出声音波形。
图4是对无音频水印的声音波形和声音合成装置1插入了音频水印的声音波形进行对比的图。图4(a)表示无音频水印的“Donate to the neediest cases today!”这一声音的声音波形的例子。另外,图4(b)表示声音合成装置1使用上式1插入了音频水印的“Donate to the neediest cases today!”这一声音的声音波形的例子。相对于图4(a)所示的声音波形,图4(b)所示的声音波形通过被插入了音频水印,相位偏离(被调制)。例如,图4(b)所示的声音波形即使插入音频水印,也不会发生人的听觉上的音质劣化。
(声源部2a的第1变形例:声源部2b)
接着,说明声源部2a的第1变形例(声源部2b)。图5是例示声源部2a的第1变形例(声源部2b)及其周边的构成的方框图。如图5所示,声源部2b具备例如判断部24、声源生成部20、相位调制部22、噪声声源生成部26及加法部28。第2存储部18预先存储用于声音合成的白色性及高斯性的噪声信号,根据来自声源部2b的访问,对声源部2b输出噪声信号。另外,在图5所示的声源部2b中,对与构成图2所示的声源部2a的部分实质相同的部分标注相同符号。
判断部24判断从输入部10接收到的特征参数中所包含的基本频率序列的所关注的帧是无声音的帧还是有声音的帧。另外,判断部24对噪声声源生成部26输出与无声音的帧有关的信息,对声源生成部20输出与有声音的帧有关的信息。例如,在基本频率序列中无声音的帧的值设为0的情况下,判断部24通过判定该帧的值是否为0,来判断所关注的帧是无声音的帧还是有声音的帧。
这里,输入部10既可以对声源部2b输入与对声源部2a(图1、2)输入的特征参数的序列相同的特征参数,也可以对声源部2b输入还加上了其他参数的序列的特征参数。例如,输入部10在特征参数的序列中增加频带噪声强度序列,该频带噪声强度序列表示对第1存储部16存储的脉冲信号及第2存储部18存储的噪声信号应用与n个(n是2以上的整数)通过频带对应的n个带通滤波器的情况下的强度。
图6是表示声音波形、基本频率序列、音高标记及频带噪声强度序列的一例的图。在图6中,(b)表示(a)中所示的声音波形的基本频率序列。另外,在图6中,(d)中所示的频带噪声强度是用相对于频谱的比例表示按(c)所示的每个音高标记例如分割为5个频带的各个频带(band1~band5)的噪声分量的强度的参数,成为0到1间的值。频带噪声强度序列按每个音高标记(或每分析帧)排列频带噪声强度而成。
由于无声音的帧的全频带被视为噪声分量,所以频带噪声强度的值成为1。另一方面,有声音的帧的频带噪声强度成为小于1的值。一般地,在高频带中噪声分量变强。另外,在有声摩擦音的高域分量中,频带噪声强度成为接近1的高的值。另外,基本频率序列也可以是对数基本频率,频带噪声强度也可以是分贝单位。
并且,声源部2b的声源生成部20从基本频率序列设定开始点,根据当前的位置处的基本频率计算音高周期。另外,声源生成部20通过反复进行将对当前的位置加上了所计算的音高周期的时刻设为下一个音高标记的处理,来制作音高标记。
另外,声源生成部20也可以构成为将n个带通滤波器应用于脉冲信号而生成分割成了n个频带的脉冲声源信号。
声源部2b的相位调制部22与声源部2a的情况同样,仅调制脉冲信号的相位。
噪声声源生成部26使用第2存储部18存储的白色性及高斯性的噪声信号和从输入部10接收到的特征参数的序列,生成针对包括无声音的基本频率序列的帧的噪声声源信号。
另外,噪声声源生成部26也可以构成为应用n个带通滤波器而生成分割成了n个频带的噪声声源信号。
加法部28通过将相位调制部22进行了相位调制的脉冲信号(相位调制脉冲列)和噪声声源生成部26生成的噪声声源信号的振幅控制为既定的比率之后进行重叠,来生成混合声源(加上了噪声声源信号的声源信号)。
另外,加法部28也可以构成为:通过按每个频带根据频带噪声强度序列来调整噪声声源信号和脉冲声源信号的振幅之后进行重叠,并对全部的频带重叠,来生成混合声源(加上了噪声声源信号的声源信号)。
接着,说明具有声源部2b的声音合成装置1所进行的处理。图7是例示具有图5所示的声源部2b的声音合成装置1进行的处理的流程图。如图7所示,在步骤200(S200),声源生成部20通过对从第1存储部16接收到的脉冲信号,使用从输入部10接收到的特征参数的序列进行变形,来生成针对有声音的帧的(脉冲)声源信号。即,声源生成部20输出脉冲列。
在步骤202(S202),相位调制部22对声源生成部20所生成的声源信号,基于使用了特征参数中所包含的音频水印信息的相位调制规则,按每个音高标记调制脉冲信号的相位。即,相位调制部22输出相位调制脉冲列。
在步骤204(S204),加法部28通过将相位调制部22进行了相位调制的脉冲信号(相位调制脉冲列)和噪声声源生成部26所生成的噪声声源信号的振幅控制为既定的比率之后进行重叠,来生成加上了噪声声源信号(噪声)的声源信号。
在步骤206(S206),声道过滤部12对声源部2b调制了相位后的声源信号(加上噪声),使用经由声源部2b接收到的频谱参数序列,进行卷积运算而生成声音信号。即,声道过滤部12输出声音波形。
(声源部2a的第2变形例:声源部2c)
接着,说明声源部2a的第2变形例(声源部2c)。图8是例示声源部2a的第2变形例(声源部2c)及其周边的构成的方框图。如图8所示,声源部2c具有例如判断部24、声源生成部20、过滤部3a、相位调制部22、噪声声源生成部26、过滤部3b及加法部28。另外,在图8所示的声源部2c中,对于与构成图5所示的声源部2b的部分实质相同的部分标注相同的符号。
过滤部3a具有使不同频带的信号通过、控制频带和强度的带通滤波器30、32。过滤部3a对声源生成部20所生成的声源信号的脉冲信号,例如应用2个带通滤波器30、32,由此生成分割成了2个频带的声源信号。另外,过滤部3b具有使不同频带的信号通过、控制频带和强度的带通滤波器34、36。过滤部3b对噪声声源生成部26所生成的噪声声源信号,例如应用2个带通滤波器34、36,由此生成分割成了2个频带的噪声声源信号。这样,在声源部2c中,过滤部3a与声源生成部20独立设置,过滤部3b与噪声声源生成部26独立设置。
然后,声源部2c的加法部28按每个频带,根据频带噪声强度序列,调整噪声声源信号和脉冲声源信号的振幅并重叠,通过对全部的频带进行重叠,来生成混合声源(加上了噪声声源信号的声源信号)。
另外,上述声源部2b及声源部2c可以分别由硬件电路或通过CPU执行的软件构成。第2存储部18由例如HDD或存储器等构成。另外,CPU执行的软件(程序)可以存储于磁盘、光盘或半导体存储器等记录介质中,或者经由网络颁布。
这样,声音合成装置1,由于相位调制部22基于音频水印信息仅调制脉冲信号即有声部的相位,所以能够在不使合成声音的音质劣化的情况下插入音频水印。
(音频水印信息检测装置)
接着,说明从插入了音频水印的合成声音检测音频水印信息的音频水印信息检测装置。图9是例示实施方式所涉及的音频水印信息检测装置4的构成的方框图。另外,音频水印信息检测装置4由例如通用的计算机等实现。即,音频水印信息检测装置4具有作为具备例如CPU、存储装置、输入输出装置及通信接口等的计算机的功能。
如图9所示,音频水印信息检测装置4具有音高标记推定部40、相位提取部42、代表相位计算部44及判定部46。音高标记推定部40、相位提取部42、代表相位计算部44及判定部46可以分别由硬件电路或通过CPU执行的软件构成。即,音频水印信息检测装置4也可以构成为通过执行音频水印信息检测程序来实现功能。
音高标记推定部40推定所输入的声音信号的音高标记序列。具体地,音高标记推定部40通过例如LPC分析等根据输入信号或输入信号的残差信号(所推定的声源信号)推定周期性的脉冲,由此来推定音高标记的序列,并对相位提取部42输出所推定的音高标记的序列。即,音高标记推定部40进行残差信号提取(声音截取)。
相位提取部42按例如每个所推定的音高标记,将前后的音高幅度短的一方的2倍截取为窗口长度,提取各频点处的每个音高标记的相位。相位提取部42对代表相位计算部44输出所提取的相位的序列。
代表相位计算部44基于上述相位调制规则,根据相位提取部42所提取的相位计算成为例如多个频点的代表的代表相位,并对判定部46输出代表相位的序列。
判定部46基于按每个音高标记所计算的代表相位值,判定音频水印信息的有无。关于判定部46进行的处理,使用图10详述。
图10是表示在判定部46基于代表相位值判定音频水印信息的有无的情况下进行的处理的图。图10(a)是表示伴随时间的经过而变化的按每个音高标记的代表相位值的图。判定部46按图10(a)中的每个预定的期间即分析帧(帧),计算代表相位所形成的直线的斜率。在图10(a)中,频率强度a呈现为直线的斜率。
并且,判定部46根据该斜率判定音频水印信息的有无。具体地,判定部46首先制作斜率的直方图,将成为最频的斜率设为代表斜率(斜率最频值)。接着,判定部46如图10(b)所示,判定斜率最频值是否处于第1阈值与第2阈值之间。判定部46在斜率最频值处于第1阈值与第2阈值之间的情况下,判定为有音频水印信息。另外,判定部46在斜率最频值不处于第1阈值与第2阈值之间的情况下,判定为无音频水印信息。
接着,说明音频水印信息检测装置4的工作。图11是例示音频水印信息检测装置4的工作的流程图。如图11所示,在步骤300(S300),音高标记推定部40进行残差信号提取(声音截取)。
在步骤302(S302),相位提取部42按每个音高标记,将前后的音高幅度短的一方的2倍截取为窗口长度,提取相位。
在步骤304(S304),代表相位计算部44基于相位调制规则,根据相位提取部42所提取的相位计算成为多个频点的代表的代表相位。
在步骤306(S306),CPU判定是否处理了帧的全部音高标记。CPU在判定为处理了帧的全部音高标记的情况下(S306:是),前进至S308的处理。另外,CPU在判定为未处理帧的全部音高标记的情况下(S306:否),前进至S302的处理。
在步骤308(S308),判定部46按每帧计算代表相位所形成的直线的斜率(代表相位的斜率)。
在步骤310(S310)中,CPU判定是否处理了全部帧。CPU在判定为处理了全部帧的情况下(S310:是),前进至S312的处理。另外,CPU在判定为处理了全部帧的情况下(S310:否),前进至S302的处理。
在步骤312(S312),判定部46制作在S308的处理中计算出的斜率的直方图。
在步骤314(S314),判定部46计算在S312的处理中制作的直方图的最频值(斜率最频值)。
在步骤316(S316),判定部46基于在S314的处理中计算出的斜率最频值,判定音频水印信息的有无。
这样,音频水印信息检测装置4,按每个音高标记提取相位,基于代表相位所形成的直线的斜率的频度,判定音频水印信息的有无。另外,判定部46不限于通过进行图10所示的处理来判定音频水印信息的有无,也可以构成为通过进行其他处理来判定音频水印信息的有无。
(判定部46进行的其他处理例子)
图12是表示在判定部46基于代表相位值判定音频水印信息的有无的情况下进行的其他处理的第1例的图。图12(a)是表示伴随时间的经过而变化的按每个音高标记的代表相位值的图。在图12(b)中,一点划线表示视为预定的期间即分析帧(帧)中的相对于时间变化的代表相位的变化的理想值的参照直线。另外,在图12(b)中,虚线是表示根据分析帧中的各代表相位值(例如4个代表相位值)推定的斜率的推定直线。
判定部46按每分析帧使参照直线前后移动,计算与代表相位的相关系数,如图12(c)中例示,在分析帧的相关系数的频度超过了直方图中的预定的阈值的情况下判定为有音频水印信息。另外,判定部46在分析帧的相关系数的频度未超过直方图中的阈值的情况下判定为无音频水印信息。
图13是表示在判定部46基于代表相位值判定音频水印信息的有无的情况下进行的其他处理的第2例的图。判定部46也可以使用图13所示的阈值判定音频水印信息的有无。另外,图13所示的阈值设为如下点:对包含音频水印信息的合成音和不含音频水印信息的合成音(或真人发声)这2个分别制作代表相位所形成的直线的斜率的直方图,能够使2个直方图最分离的点。
另外,判定部46也可以将包含音频水印信息的合成音的代表相位所形成的直线的斜率作为特征量,统计性地学习模型,将似然值作为阈值,来判定音频水印信息的有无。另外,判定部46也可以将包含音频水印信息的合成音和不包含音频水印信息的合成音的代表相位所形成的直线的斜率分别作为特征量,统计性地学习模型,并比较似然值,来判定音频水印信息的有无。
由本实施方式的声音合成装置1及音频水印信息检测装置4执行的各程序以可以安装的形式或可以执行的形式的文件记录到CD-ROM、软盘(FD)、CD-R、DVD(DigitalVersatile Disk:数字通用盘)等计算机可读取的记录介质而提供。
另外,也可以构成为将本实施方式的各程序存储在与因特网等网络连接的计算机上,通过经由网络下载而提供。
此外,虽然对本发明的几个实施方式通过多个的组合进行了说明,但是这些实施方式只是作为例子而呈现的,而并非要限定发明的范围。这些新实施方式能够以其他各种方式实施,在不脱离发明的主旨的范围,能够进行各种省略、置换、改变。这些实施方式和/或其变形包含于发明的范围和/或主旨,并且包含于权利要求的范围所记载的发明及其均等的范围。
符号的说明
1声音合成装置,10输入部,12声道过滤部,14输出部,16第1存储部,18第2存储部,2a、2b、2c声源部,20声源生成部,22相位调制部,24判断部,26噪声声源生成部,28加法部,3a,3b过滤部,30、32、34、36带通滤波器,4音频水印信息检测装置,40音高标记推定部,42相位提取部,44代表相位计算部,46判定部。

Claims (4)

1.一种音频水印信息检测装置,具备:
音高标记推定部,其推定嵌入了音频水印信息的合成声音的音高标记,并按每个所推定的音高标记截取声音;
相位提取部,其提取上述音高标记推定部所截取的声音的相位;
代表相位计算部,其根据上述相位提取部所提取的相位计算成为多个频点的代表的代表相位;以及
判定部,其基于上述代表相位,判定上述音频水印信息的有无。
2.权利要求1所述的音频水印信息检测装置,其中,
上述判定部按每个预定的期间即帧,计算表示相对于时间变化的上述代表相位的变化的斜率,并基于上述斜率的频度,判定上述音频水印信息的有无。
3.权利要求1所述的音频水印信息检测装置,其中,
上述判定部按每个预定的期间即帧,计算参照直线与上述代表相位的相关系数,在上述相关系数超过了预定的阈值的情况下,判定为有上述音频水印信息,所述参照直线视为相对于时间变化的上述代表相位的变化的理想值。
4.一种音频水印信息检测方法,包括:
推定嵌入了音频水印信息的合成声音的音高标记,并按每个所推定的音高标记截取声音的步骤;
提取所截取的声音的相位的步骤;
根据所提取的相位计算成为多个频点的代表的代表相位的步骤;以及基于上述代表相位判定上述音频水印信息的有无的步骤。
CN201810409237.3A 2013-01-18 2013-01-18 音频水印信息检测装置及音频水印信息检测方法 Active CN108417199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810409237.3A CN108417199B (zh) 2013-01-18 2013-01-18 音频水印信息检测装置及音频水印信息检测方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201380070775.XA CN105122351B (zh) 2013-01-18 2013-01-18 声音合成装置及声音合成方法
CN201810409237.3A CN108417199B (zh) 2013-01-18 2013-01-18 音频水印信息检测装置及音频水印信息检测方法
PCT/JP2013/050990 WO2014112110A1 (ja) 2013-01-18 2013-01-18 音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201380070775.XA Division CN105122351B (zh) 2013-01-18 2013-01-18 声音合成装置及声音合成方法

Publications (2)

Publication Number Publication Date
CN108417199A true CN108417199A (zh) 2018-08-17
CN108417199B CN108417199B (zh) 2022-11-22

Family

ID=51209230

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810409237.3A Active CN108417199B (zh) 2013-01-18 2013-01-18 音频水印信息检测装置及音频水印信息检测方法
CN201380070775.XA Active CN105122351B (zh) 2013-01-18 2013-01-18 声音合成装置及声音合成方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201380070775.XA Active CN105122351B (zh) 2013-01-18 2013-01-18 声音合成装置及声音合成方法

Country Status (5)

Country Link
US (2) US9870779B2 (zh)
EP (1) EP2947650A1 (zh)
JP (1) JP6017591B2 (zh)
CN (2) CN108417199B (zh)
WO (1) WO2014112110A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
WO2015068310A1 (ja) 2013-11-11 2015-05-14 株式会社東芝 電子透かし検出装置、方法及びプログラム
JP6353402B2 (ja) * 2015-05-12 2018-07-04 日本電信電話株式会社 音響電子透かしシステム、電子透かし埋め込み装置、電子透かし読み取り装置、その方法及びプログラム
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US10861463B2 (en) * 2018-01-09 2020-12-08 Sennheiser Electronic Gmbh & Co. Kg Method for speech processing and speech processing device
US10755694B2 (en) * 2018-03-15 2020-08-25 Motorola Mobility Llc Electronic device with voice-synthesis and acoustic watermark capabilities
US10692496B2 (en) * 2018-05-22 2020-06-23 Google Llc Hotword suppression
JP2021157128A (ja) * 2020-03-30 2021-10-07 Kddi株式会社 音声波形合成装置、方法及びプログラム
TWI790718B (zh) * 2021-08-19 2023-01-21 宏碁股份有限公司 會議終端及用於會議的回音消除方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1462439A (zh) * 2001-05-08 2003-12-17 皇家菲利浦电子有限公司 对于音频信号再抽样坚固的水印产生和检测
EP1594122A1 (en) * 2004-05-06 2005-11-09 Deutsche Thomson-Brandt Gmbh Spread spectrum watermarking
CN101101754A (zh) * 2007-06-25 2008-01-09 中山大学 一种基于傅立叶离散对数坐标变换的稳健音频水印方法
CN101263552A (zh) * 2005-09-16 2008-09-10 汤姆森许可贸易公司 使用相位修改给音频信号隐蔽地加水印
US20090204395A1 (en) * 2007-02-19 2009-08-13 Yumiko Kato Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
CN101751927A (zh) * 2008-10-10 2010-06-23 汤姆森许可贸易公司 重获原始信号中的水印数据的方法和设备
EP2439735A1 (en) * 2010-10-06 2012-04-11 Thomson Licensing Method and Apparatus for generating reference phase patterns
CN102859587A (zh) * 2010-02-26 2013-01-02 弗兰霍菲尔运输应用研究公司 水印生成器、水印解码器、用于根据二机制消息数据提供水印信号的方法、用于根据水印信号提供二进制消息数据的方法、以及使用差分编码的计算机程序

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US6480825B1 (en) * 1997-01-31 2002-11-12 T-Netix, Inc. System and method for detecting a recorded voice
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US20100042406A1 (en) * 2002-03-04 2010-02-18 James David Johnston Audio signal processing using improved perceptual model
JP4357791B2 (ja) * 2002-03-29 2009-11-04 株式会社東芝 電子透かし入り音声合成システム、合成音声の透かし情報検出システム及び電子透かし入り音声合成方法
US20060229878A1 (en) * 2003-05-27 2006-10-12 Eric Scheirer Waveform recognition method and apparatus
US7555432B1 (en) * 2005-02-10 2009-06-30 Purdue Research Foundation Audio steganography method and apparatus using cepstrum modification
JP2006251676A (ja) * 2005-03-14 2006-09-21 Akira Nishimura 振幅変調を用いた音響信号への電子透かしデータの埋め込み・検出装置
US20060227968A1 (en) * 2005-04-08 2006-10-12 Chen Oscal T Speech watermark system
JP4896455B2 (ja) * 2005-07-11 2012-03-14 株式会社エヌ・ティ・ティ・ドコモ データ埋込装置、データ埋込方法、データ抽出装置、及び、データ抽出方法
US20070217626A1 (en) * 2006-03-17 2007-09-20 University Of Rochester Watermark Synchronization System and Method for Embedding in Features Tolerant to Errors in Feature Estimates at Receiver
JP5004094B2 (ja) * 2008-03-04 2012-08-22 国立大学法人北陸先端科学技術大学院大学 電子透かし埋込装置及び電子透かし検出装置、並びに電子透かし埋込方法及び電子透かし検出方法
JP5168165B2 (ja) * 2009-01-20 2013-03-21 ヤマハ株式会社 電子透かし情報の埋め込みおよび抽出を行うための装置およびプログラム
FR2952263B1 (fr) * 2009-10-29 2012-01-06 Univ Paris Descartes Procede et dispositif d'annulation d'echo acoustique par tatouage audio
WO2011080597A1 (en) 2010-01-04 2011-07-07 Kabushiki Kaisha Toshiba Method and apparatus for synthesizing a speech with information
US8527268B2 (en) * 2010-06-30 2013-09-03 Rovi Technologies Corporation Method and apparatus for improving speech recognition and identifying video program material or content
JP5085700B2 (ja) 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US20130254159A1 (en) * 2011-10-25 2013-09-26 Clip Interactive, Llc Apparatus, system, and method for digital audio services
EP2784775B1 (en) * 2013-03-27 2016-09-14 Binauric SE Speech signal encoding/decoding method and apparatus

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1462439A (zh) * 2001-05-08 2003-12-17 皇家菲利浦电子有限公司 对于音频信号再抽样坚固的水印产生和检测
EP1594122A1 (en) * 2004-05-06 2005-11-09 Deutsche Thomson-Brandt Gmbh Spread spectrum watermarking
CN101263552A (zh) * 2005-09-16 2008-09-10 汤姆森许可贸易公司 使用相位修改给音频信号隐蔽地加水印
US20090204395A1 (en) * 2007-02-19 2009-08-13 Yumiko Kato Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
CN101101754A (zh) * 2007-06-25 2008-01-09 中山大学 一种基于傅立叶离散对数坐标变换的稳健音频水印方法
CN101751927A (zh) * 2008-10-10 2010-06-23 汤姆森许可贸易公司 重获原始信号中的水印数据的方法和设备
CN102859587A (zh) * 2010-02-26 2013-01-02 弗兰霍菲尔运输应用研究公司 水印生成器、水印解码器、用于根据二机制消息数据提供水印信号的方法、用于根据水印信号提供二进制消息数据的方法、以及使用差分编码的计算机程序
EP2439735A1 (en) * 2010-10-06 2012-04-11 Thomson Licensing Method and Apparatus for generating reference phase patterns

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAN LIU: "RST invariant video watermarking based on log-polar mapping and phase-only filtering", 《2010 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO》 *
蒋存云: "MP3音频数字水印技术研究", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
US20180005637A1 (en) 2018-01-04
US10109286B2 (en) 2018-10-23
JPWO2014112110A1 (ja) 2017-01-19
JP6017591B2 (ja) 2016-11-02
WO2014112110A1 (ja) 2014-07-24
CN108417199B (zh) 2022-11-22
CN105122351A (zh) 2015-12-02
US9870779B2 (en) 2018-01-16
EP2947650A1 (en) 2015-11-25
CN105122351B (zh) 2018-11-13
US20150325232A1 (en) 2015-11-12

Similar Documents

Publication Publication Date Title
CN105122351B (zh) 声音合成装置及声音合成方法
RU2624549C2 (ru) Формирование сигнала водяного знака и встраивание водяного знака
Sukittanon et al. Modulation-scale analysis for content identification
JP4807405B2 (ja) アナログ信号への情報の埋込みおよび抽出を分布信号特徴を用いて行なう装置および方法
JP4251378B2 (ja) アナログ信号への情報の埋込みおよび抽出を分布信号特徴を用いて行なう装置および方法
US10565970B2 (en) Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use
US9214159B2 (en) Watermark signal provider and method for providing a watermark signal
US20030063747A1 (en) Apparatus and method for embedding and extracting information in analog signals using distributed signal features and replica modulation
Faundez-Zanuy et al. Speaker verification security improvement by means of speech watermarking
CN104036788B (zh) 音频文件的音质识别方法及装置
CN101297354A (zh) 音频处理
KR20120128147A (ko) 워터마크 생성기, 워터마크 디코더, 워터마크 신호를 제공하는 방법, 워터마킹된 신호에 기초하여 이진 메시지 데이터를 제공하는 방법 및 개선된 동기화 개념을 이용한 컴퓨터 프로그램
RU2586845C2 (ru) Декодер водяного знака и способ формирования данных двоичного сообщения
Faundez-Zanuy et al. Speaker identification security improvement by means of speech watermarking
Zhao et al. Anti-forensics of environmental-signature-based audio splicing detection and its countermeasure via rich-features classification
Pilia et al. Time scaling detection and estimation in audio recordings
Tabara et al. Data hiding method in speech using echo embedding and voicing correction
Liu et al. A subband excitation substitute based scheme for narrowband speech watermarking
CN105283915B (zh) 数字水印嵌入装置及方法以及数字水印检测装置及方法
Zhang et al. Robust and transparent audio watermarking based on improved spread spectrum and psychoacoustic masking
Khalil et al. Improved watermark extraction exploiting undeterminated source separation methods
Liu et al. Identification of fake stereo audio
Liang et al. Robust blind extracting audio watermarking based on quadrature phase shift keying and improved spread spectrum
Khalil et al. Audio watermarking system based on frequency hopping modulation
Xu et al. Content-adaptive digital music watermarking based on music structure analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant