CN105283916B - 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质 - Google Patents
电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质 Download PDFInfo
- Publication number
- CN105283916B CN105283916B CN201380077322.XA CN201380077322A CN105283916B CN 105283916 B CN105283916 B CN 105283916B CN 201380077322 A CN201380077322 A CN 201380077322A CN 105283916 B CN105283916 B CN 105283916B
- Authority
- CN
- China
- Prior art keywords
- mentioned
- watermark
- potential risk
- synthetic video
- embedded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 26
- 238000003780 insertion Methods 0.000 claims abstract description 40
- 230000037431 insertion Effects 0.000 claims abstract description 40
- 238000001514 detection method Methods 0.000 claims description 8
- 238000009790 rate-determining step (RDS) Methods 0.000 claims 2
- 230000009466 transformation Effects 0.000 description 24
- 238000001228 spectrum Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明的电子水印嵌入装置具备:合成声音生成部,其按照所输入的文本,输出合成声音和合成声音所包含的音素的时刻信息;推定部,其推定在上述所输入的文本中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间;嵌入控制部,其通过使上述潜在风险区间与上述时刻信息相对应,来确定并输出上述合成声音中的电子水印的嵌入时刻;以及嵌入部,其对上述合成声音,在由上述合成声音的上述嵌入时刻指定的时刻嵌入电子水印。
Description
技术领域
本发明的实施方式涉及电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质。
背景技术
用近年的声音信号处理技术可以合成各种声音,例如通过合成后的声音,产生了使用熟人声音的假冒和/或名人声音的非法利用等危险性。另外,由于能够容易地生成与他人相似的声音(相似声),未来也无法否定使用熟人声音的假冒欺诈和/或非法利用名人声音的名誉损害等犯罪行为增加的可能性。为了防止这些犯罪于未然,开发了通过在合成音嵌入电子水印来与真人发声区别、检测合成音的非法利用的技术。
专利文献1:日本专利第3812848号公报
专利文献2:日本特开平11-85766号公报
另外,在使用声音合成技术作成相似声的媒体内容中包含以歧视用语和/或猥亵表达为代表的禁止播放表达或者联想到犯罪的表达等的情况下,若误使用该内容,则有可能发展为相似声本人的信用问题。因而,在可以生成这样的合成声音的装置中,需要在包含禁止播放用语等的情况下边保持声音的品质边嵌入能够高精度地检测的电子水印的功能,但是并未研究出有效的方法。
发明内容
本发明的实施方式是鉴于上述而提出的,其目的在于提供可以抑制声音的品质降低并且嵌入检测精度高的电子水印的电子水印嵌入装置。
为了解决上述问题,达到目的,本发明的实施方式具备:合成声音生成部,其按照所输入的文本,输出合成声音和合成声音所包含的音素的时刻信息;推定部,其推定在上述所输入的文本中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间;嵌入控制部,其通过使上述潜在风险区间与上述时刻信息相对应,来确定并输出上述合成声音中的电子水印的嵌入时刻;以及嵌入部,其对上述合成声音,在由上述合成声音的上述嵌入时刻指定的时刻嵌入电子水印。
附图说明
图1是表示第1实施方式的电子水印嵌入装置的功能构成的方框图。
图2是表示第1实施方式的加入水印声音生成部的详细构成的方框图。
图3是说明第1实施方式的加入水印声音生成部中的水印的嵌入方法的图。
图4是表示第2实施方式的电子水印嵌入装置的功能构成的方框图。
图5是表示第3实施方式的电子水印嵌入装置的功能构成的方框图。
图6是表示第4实施方式的电子水印嵌入装置的功能构成的方框图。
图7是表示各实施方式的电子水印嵌入装置的硬件构成的方框图。
具体实施方式
(第1实施方式)
以下,参照附图说明电子水印嵌入装置的实施方式。图1是表示电子水印嵌入装置的功能构成的方框图。如图1所示,电子水印嵌入装置1具备推定部101、合成声音生成部102、嵌入控制部103和加入水印声音生成部104。电子水印嵌入装置1输入包含文字信息的输入文本10,输出嵌入了电子水印的合成声音17。推定部101从外部取得输入文本10。以下,所谓“潜在风险区间”,定义为使用“潜在风险表达”的声音区间,将满足下述的单词、表达、语境定义为“潜在风险表达”。
·以歧视用语和/或猥亵表达为代表的不适于播放的单词、表达、语境
·联想到假冒欺诈等犯罪和/或其计划的单词、表达、语境
·有可能与他人的名誉损害有关的单词、表达、语境
推定部101根据输入文本10判定潜在风险区间,确定该区间的危险度。但是,输入文本10也可以是将通过进行文本分析而获得的韵律信息用文本形式表达出来的中间语言信息。在潜在风险区间的判定中,例如考虑以下的方法。
·预先存储列举了潜在风险表达的列表,检索在输入文本10是否包含列表中的表达的方法
·预先存储列举了潜在风险表达的列表,检索在进行了语素分析的输入文本10是否包含列表中的表达的方法
·学习包含潜在风险表达的单词排列(N-gram)的出现概率,对输入文本10的单词排列使用似然进行判定的方法
·在推定部101使用判断输入文本10是否可成为潜在风险表达的意图理解模块进行判定的方法
在潜在风险区间的危险度的确定中,如以下所例示可有各种方法。
·对在列举了潜在风险表达的列表中列举的各潜在风险表达分配危险度,计算输入文本10中与列表中的潜在风险表达一致的潜在风险表达的危险度的方法
·通过使包含潜在风险表达的各单词排列(N-gram)与危险度对应,对输入文本10中出现的潜在风险表达分配危险度的方法
·在意图理解模块中,通过使危险度与可成为潜在风险表达的各语境对应,在输入文本10可成为潜在风险表达的情况下,对该语境分配危险度的方法
推定部101将潜在风险区间11及潜在风险表达的危险度12向嵌入控制部103输出。
合成声音生成部102从外部取得输入文本10。合成声音生成部102从输入文本10提取音素串、暂停、音拍(mora)数、重音等韵律信息,生成合成声音13。为了与嵌入电子水印的时刻对应,需要各音素发声的时刻信息。因此,合成声音生成部102使用从输入文本10提取的音素串、暂停、音拍数等输出音素时刻信息。合成声音生成部102向加入水印声音生成部104输出合成声音13,向嵌入控制部103输出合成声音13的音素时刻信息14。
嵌入控制部103以从推定部101输出的潜在风险区间11、潜在风险表达的危险度12和从合成声音生成部102输出的音素时刻信息14作为输入。嵌入控制部103将从推定部101输出的潜在风险表达的危险度12改变为水印强度15。危险度12越高,水印强度15设定得越高。水印强度具有如下特征:若水印强度大则噪声耐性和/或编解码器耐性提高、水印的检测精度提高,另一方面人听到时会感觉到刺耳的声音。本实施方式的目的在于高精度地检测在合成声音13中包含的若被滥用则危险度高的潜在风险表达。因此,优选即使产生稍微的音质劣化也将水印强度设定得高。另外,也可以不基于危险度12来设定水印强度15,而将包含潜在风险表达的区间的水印强度15一律设定成高的值。
嵌入控制部103根据潜在风险区间11和音素时刻信息14,计算水印的嵌入时刻16。所谓嵌入时刻16,指以水印强度15指定的强度嵌入前述的电子水印的时刻的信息。嵌入控制部103将水印强度15和嵌入时刻16向加入水印声音生成部104输出。
加入水印声音生成部104以从合成声音生成部102输出的合成声音13、从嵌入控制部103输出的水印强度15和嵌入时刻16作为输入。加入水印声音生成部104在由嵌入时刻16指定的时刻,通过以水印强度15指定的强度对合成声音13嵌入电子水印,来生成加入水印合成声音17。
以下,说明加入水印声音生成部104中的水印的嵌入方法。作为电子水印的嵌入方法,需要满足以下2点条件:
(1)是在加入水印合成声音17的生成时,可以在潜在风险区间内嵌入水印且检测水印的方法
(2)是能够调整嵌入水印的强度的方法
参照图2说明能够实施满足上述2个条件的电子水印的嵌入方法的加入水印声音生成部104的详细功能构成。如图2所示,加入水印声音生成部104具备提取部201、变换应用部202、嵌入部203、逆变换应用部204和再合成部205。
提取部201从外部取得合成声音13。提取部201通过从合成声音13按单位时间切出时间长2T(例如,2T=64毫秒)的声音波形,来生成时刻(t)的单位声音帧21。另外,在以后的说明中,时间长2T也称为分析窗口长度。提取部201除了切出时间长2T的声音波形的处理之外,也可以进行除去所切出的声音波形的直流分量的处理、强调所切出的声音波形的高频分量的处理、将所切出的声音波形乘以窗口函数(例如,正弦窗口)的处理等。提取部201将单位声音帧21向变换应用部202输出。
变换应用部202以来自提取部201的单位声音帧21作为输入。变换应用部202对单位声音帧21应用正交变换,向频率区域射影。在正交变换中,可以使用离散傅里叶变换、离散余弦变换、修正离散余弦变换、正弦变换、离散小波变换等变换方式。变换应用部202将应用正交变换后的单位帧22向嵌入部203输出。
嵌入部203以来自变换应用部202的单位帧22、水印强度15、嵌入时刻16作为输入。如果单位帧22是由嵌入时刻16指定的单位帧,则嵌入部203对指定的子频带以基于水印强度15的强度嵌入电子水印。另外,电子水印的嵌入方法将后述。嵌入部203将加入水印单位帧23向逆变换应用部204输出。
逆变换应用部204以来自嵌入部203的加入水印单位帧23作为输入。逆变换应用部204对加入水印单位帧23应用逆正交变换,返回到时间域。在逆正交变换中,可以使用逆离散傅里叶变换、逆离散余弦变换、逆修正离散余弦变换、逆离散正弦变换、逆离散小波变换等,但是优选是与由变换应用部202使用的正交变换对应的逆正交变换。逆变换应用部204将应用逆正交变换后的单位帧24向再合成部205输出。
再合成部205以来自逆变换应用部204的应用逆正交变换后的单位帧24作为输入。再合成部205通过对应用逆正交变换后的单位帧24重叠前后的帧而进行帧的求和(和算),来生成加入水印合成声音17。另外,前后的帧优选例如以分析窗口长2T的一半即时间长T重复。
接着,使用图3说明由嵌入部203进行的水印的嵌入方法的详细情况。图3的上图表示从变换应用部202输出的某单位帧22。横轴表示频率,纵轴表示振幅频谱的强度。在本实施方式中,图3中设定P组和N组这2种子频带。在子频带中,至少包含2个以上相邻的频率bin。作为P组和N组的设定方法,可以在预先将全体频带基于特定的规则划分为指定个数的子频带之后,从所获得的子频带之中选择。另外,P组和N组可以在全部的单位帧22中设定相同的组,也可以按每单位帧22改变。
在某单位帧22,作为附加信息,考虑以水印强度2δ(δ≥0)嵌入1位的水印位{0,1}。在将某时刻t的第k个频率binWk的振幅频谱强度设为|Xt(Wk)|、将属于P组的全体频率的集合设为Ωp时,属于P组的全体频率bin的振幅频谱强度和由以下的数学式表示。
[数学式1]
同样,将属于N组的全体频率bin的振幅频谱强度和表示为SN(t)。此时,以满足以下的数学式的方式,根据嵌入的水印位改变SN(t)与SP(t)的大小关系。
若以水印强度2δ嵌入水印位“1”,则SP(t)-SN(t)≥2δ≥0
若以水印强度2δ嵌入水印位“0”,则SP(t)-SN(t)<2δ<0
作为例子,考虑在某单位帧22以水印强度2δ嵌入水印位“1”的情况。若嵌入水印位“1”,则只要在单位帧22改变各频率bin的强度,使得振幅频谱强度和的大小关系成为SP(t)-SN(t)≥2δ即可。即,若嵌入水印前的P组和N组的振幅强度差为SP(t)-SN(t)=2δ0(δ0≤δ),则使属于P组的全体频率bin的振幅频谱强度增加合计(δ-δ0)以上,且使属于N组的全体频率bin的振幅频谱强度减少合计(δ-δ0)以上。
另外,也可以取代本处理,而采用仅使属于P组的全体频率bin的振幅频谱强度增加合计(2δ-2δ0)以上的处理、或仅使属于N组的全体频率bin的振幅频谱强度减少合计(2δ-2δ0)以上的处理。另外,若δ<δ0,则由于满足数学式1的条件,所以也可有不嵌入水印等方法。这样,通过比较P组和N组的子频带中的SP(t)与SN(t)值,能够检测所嵌入的电子水印位。
通过以上,嵌入部203根据嵌入时刻16,确定是否在所输入的单位帧22嵌入水印。另外,嵌入部203在嵌入水印的情况下,以由水印强度15指定的强度嵌入。
接着,说明本实施方式中的意图理解模块。意图理解模块是理解所输入的文本的意图,判断该文本是否可成为潜在风险表达的模块。意图理解模块可以通过已有的公知技术、例如专利文献2中记载的技术实现。在本技术中,根据所输入的英文文本中的单词和词类的信息来捕捉文本的意思构造,提取最佳表现该意图的主要关键字。在日文文本中利用本公知技术的情况下,优选对文本进行语素分析而分解为词类。在给予了可成为潜在风险表达的文本的情况及给予了不可成为潜在风险表达的文本的情况下,所提取的关键字的种类和/或出现频度往往不同。因此,通过将这些分别模型化,识别从所输入的文本提取出的关键字接近哪一模型,能够判别潜在风险表达。
根据以上所示的实施方式的电子水印嵌入装置1,对包含潜在风险表达的单位帧,根据危险度将水印强度设定得高,嵌入电子水印。另一方面,对于不包含潜在风险表达的单位帧,设为不嵌入电子水印。这样,通过将水印强度设定得大,能够更切实地检测包含潜在风险表达的单位帧。
(第2实施方式)
接着,说明第2实施方式的电子水印嵌入装置2。如图4所示,电子水印嵌入装置2具备推定部401、合成声音生成部402、嵌入控制部403和加入水印声音生成部104。图4的电子水印嵌入装置2以输入文本10为输入,输出嵌入了电子水印的合成声音17。
推定部401从外部取得输入文本10。推定部401从输入文本10判定潜在风险区间,确定该区间的危险度。潜在风险区间及该区间的危险度作为文本标签记叙在文本10上。推定部401将带标签文本40向合成声音生成部402输出。
合成声音生成部402从推定部401取得带标签文本40。合成声音生成部402从带标签文本40提取音素串、暂停、音拍数、重音等韵律信息及潜在风险区间、潜在风险表达的危险度,生成合成声音13。在本实施方式中,为了与嵌入电子水印的时刻对应,需要各音素发声的时刻信息。因此,合成声音生成部402使用从带标签文本40提取的音素串、暂停、音拍数、潜在风险区间等,计算潜在风险表达的音素时刻信息41,计算潜在风险表达的危险度42。合成声音生成部402将合成声音13向加入水印声音生成部104输出,将合成声音13的潜在风险表达的音素时刻信息41及潜在风险表达的危险度42向嵌入控制部403输出。
嵌入控制部403输入从合成声音生成部402输出的潜在风险表达的音素时刻信息41和潜在风险表达的危险度42。嵌入控制部403将从合成声音生成部402输出的潜在风险表达的音素时刻信息41改变为水印的嵌入时刻16,将潜在风险表达的危险度42改变为水印强度15。嵌入控制部403将水印强度15和嵌入时刻16向加入水印声音生成部104输出。
与第1实施方式的差异在于以下方面不同:将由推定部401推定的潜在风险区间以文本标签等的形式追加到输入文本10上,作为带标签文本40输出,向合成声音生成部402输入。
(第3实施方式)
接着,说明第3实施方式的电子水印嵌入装置3。如图5所示,电子水印嵌入装置3具备推定部501、合成声音生成部502、嵌入控制部103和加入水印声音生成部104。电子水印嵌入装置3以输入文本10为输入,输出嵌入了电子水印的合成声音17。
合成声音生成部502从外部取得文本10。合成声音生成部502从输入文本10提取音素串、暂停、音拍数、重音等韵律信息,生成合成声音13。另外,合成声音生成部502使用音素串、暂停、音拍数等计算音素时刻信息14。进而,根据音素串、重音等生成中间语言信息50。所谓中间语言信息,是将通过合成声音生成部502进行文本分析而获得的韵律信息以文本形式进行表达的信息。合成声音生成部502将合成声音13向加入水印声音生成部104输出,将音素时刻信息14向嵌入控制部103输出,将中间语言信息50向推定部501输出。
推定部501从合成声音生成部502取得中间语言信息50。推定部501根据中间语言信息50判定潜在风险区间,确定该区间的危险度。潜在风险区间的判定,可有各种方法,但是也可以是预先存储例如使潜在风险表达与其中间语言表达相对应的列表,检索在所取得的中间语言信息50中是否包含列表中的中间语言表达的方法。对于潜在风险表达的危险度,也可以与第1实施方式同样,是使危险度与上述列表中的各中间语言表达相对应的方法。
在第1实施方式中,在推定部中,从输入文本10直接搜索潜在风险表达,但是在本实施方式中,成为从由合成声音生成部502输出的中间语言信息进行搜索的方法。
(第4实施方式)
接着,说明第4实施方式的电子水印嵌入装置4。如图6所示,电子水印嵌入装置4具备推定部601、合成声音生成部102、嵌入控制部103和加入水印声音生成部104。电子水印嵌入装置4输入文本10,输出嵌入了电子水印的合成声音17。
推定部601从输入文本10判定潜在风险区间,根据输入信号60确定该区间的危险度。在第1实施方式中,根据输入文本10唯一地确定危险度,但是即使使用了相同文本,有时也要相应地依所使用的相似声说话人来改变潜在风险表达的危险度。因此,在本实施方式中,根据输入信号60改变该区间的危险度。例如,即使是包含相同猥亵表达的输入文本10,在
·在使用了清纯派且人气急升中的偶像的相似声的情况
·在使用了擅长恶搞逗笑的艺人的相似声的情况下,自然要改变潜在风险表达的危险度。在前一种情况下,为了防止名誉损害,优选提高该区间的危险度,切实地检测猥亵表达。但是,输入信号60不限于相似声说话人的信息。例如,在利用本装置的用户多次使用了相同潜在风险表达的情况下,也可以视为有恶意的使用而每次使危险度增加等,将用户使用了该潜在风险表达的次数用于输入信号60。
在第1实施方式中,在推定部101中,无法从输入文本10以外改变潜在风险表达的危险度12,但是在本实施方式中,可以根据输入文本10以外的条件改变危险度12。
接着,使用图7说明各实施方式涉及的电子水印嵌入装置的硬件构成。图7是表示实施方式涉及的电子水印嵌入装置及检测装置的硬件构成的说明图。
实施方式涉及的电子水印嵌入装置具备CPU(Central Processing Unit:中央处理单元)51等控制装置、ROM(Read Only Memory:只读存储器)52和/或RAM(Random AccessMemory:随机存取存储器)53等存储装置、与网络连接而进行通信的通信I/F54、连接各部分的总线61。
由实施方式涉及的电子水印嵌入装置执行的程序通过预先装入ROM52等而提供。
由实施方式涉及的电子水印嵌入装置执行的程序也可以构成为以可以安装的形式或可以执行的形式的文件记录在CD-ROM(Compact Disk Read Only Memory,光盘只读存储器)、软盘(FD)、CD-R(Compact Disk Recordable,可刻录光盘)、DVD(Digital VersatileDisk,数字多功能盘)等由计算机可以读取的记录介质,作为计算机程序产品而提供。
进而,也可以构成为将由实施方式涉及的电子水印嵌入装置执行的程序存储到与因特网等网络连接的计算机上,经由网络下载而提供。另外,也可以构成为将由实施方式涉及的电子水印嵌入装置执行的程序经由因特网等网络提供或分发。
由实施方式涉及的电子水印嵌入装置执行的程序可以使计算机作为上述各部分而起作用。该计算机的CPU51能够从计算机可以读取的存储介质读出程序到主存储装置上并执行。另外,各部分的一部分或全部也可以通过硬件电路实现。
以上,虽然说明了本发明的实施方式,但是这些实施方式是作为例子而呈现的,并非要限定发明的范围。这些新的实施方式可以其他各种方式实施,在不脱离发明的主旨的范围,能够进行各种省略、置换、变更。这些实施方式和/或其变形包含于发明的范围和/或主旨,并且包含于权利要求的范围所记载的发明及其均等的范围。
符号的说明
1 电子水印嵌入装置,2 电子水印嵌入装置,3 电子水印嵌入装置,4 电子水印嵌入装置,10 输入文本,11 潜在风险区间,12 危险度,13 合成声音,14 音素时刻信息,15水印强度,16 嵌入时刻,17 合成声音,21 单位声音帧,22 单位帧,23 单位帧,24 单位帧,40 带标签文本,41 音素时刻信息,42 危险度,50 中间语言信息,60 输入信号,101 推定部,102 合成声音生成部,103 嵌入控制部,104 加入水印声音生成部,201 提取部,202 变换应用部,203 嵌入部,204 逆变换应用部,205 再合成部,401 推定部,402 合成声音生成部,403 嵌入控制部,501 推定部,502 合成声音生成部,601 推定部。
Claims (7)
1.一种电子水印嵌入装置,其特征在于,具备:
合成声音生成部,其按照所输入的文本,输出合成声音和合成声音所包含的音素的时刻信息;
推定部,其推定在上述所输入的文本中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间和上述潜在风险区间所包含的上述潜在风险表达的危险度;
嵌入控制部,其通过使上述潜在风险区间与上述时刻信息相对应,来确定并输出上述合成声音中的电子水印的嵌入时刻,基于上述危险度设定上述电子水印的水印强度,并且输出上述水印强度,上述水印强度具有在上述水印强度增大时上述水印的检测精度提高的特性;以及
嵌入部,其对上述合成声音,基于上述水印强度在由上述合成声音的上述嵌入时刻指定的时刻嵌入电子水印。
2.权利要求1所述的电子水印嵌入装置,其特征在于,
上述合成声音生成部按照所输入的中间语言信息,输出合成声音和合成声音所包含的音素的时刻信息,
上述推定部推定在所输入的上述中间语言信息中是否包含上述潜在风险表达,输出被推定为包含上述潜在风险表达的上述潜在风险区间。
3.权利要求1所述的电子水印嵌入装置,其特征在于,
上述推定部对上述所输入的文本,将上述潜在风险区间及上述危险度作为文本标签进行描述并输出,
上述合成声音生成部基于描述了上述文本标签的文本,输出上述合成声音及上述潜在风险表达的音素的时刻信息。
4.权利要求1所述的电子水印嵌入装置,其特征在于,
上述合成声音生成部输出中间语言信息,所述中间语言信息以文本形式表示了进行上述所输入的文本的文本分析而获得的韵律信息,
上述推定部推定在所输入的上述中间语言信息中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间。
5.权利要求1所述的电子水印嵌入装置,其特征在于,
上述推定部参照来自外部的输入信号所包含的信息,确定上述所输入的文本的上述潜在风险区间的上述危险度。
6.一种电子水印嵌入方法,其特征在于,包括:
合成声音生成步骤,按照所输入的文本,输出合成声音和合成声音所包含的音素的时刻信息;
推定步骤,推定在上述所输入的文本中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间和上述潜在风险区间所包含的上述潜在风险表达的危险度;
嵌入控制步骤,通过使上述潜在风险区间与上述时刻信息相对应,来确定并输出上述合成声音中的电子水印的嵌入时刻,基于上述危险度设定上述电子水印的水印强度,并且输出上述水印强度,上述水印强度具有在上述水印强度增大时上述水印的检测精度提高的特性;以及
嵌入步骤,对上述合成声音,基于上述水印强度在由上述合成声音的上述嵌入时刻指定的时刻嵌入电子水印。
7.一种非易失性计算机可读记录介质,其包含程序,该程序用于使计算机执行:
合成声音生成步骤,按照所输入的文本,输出合成声音和合成声音所包含的音素的时刻信息;
推定步骤,推定在上述所输入的文本中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间和上述潜在风险区间所包含的上述潜在风险表达的危险度;
嵌入控制步骤,通过使上述潜在风险区间与上述时刻信息相对应,来确定并输出上述合成声音中的电子水印的嵌入时刻,基于上述危险度设定上述电子水印的水印强度,并且输出上述水印强度,上述水印强度具有在上述水印强度增大时上述水印的检测精度提高的特性;以及
嵌入步骤,对上述合成声音,基于上述水印强度在由上述合成声音的上述嵌入时刻指定的时刻嵌入电子水印。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/066110 WO2014199450A1 (ja) | 2013-06-11 | 2013-06-11 | 電子透かし埋め込み装置、電子透かし埋め込み方法、及び電子透かし埋め込みプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105283916A CN105283916A (zh) | 2016-01-27 |
CN105283916B true CN105283916B (zh) | 2019-06-07 |
Family
ID=52021786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380077322.XA Expired - Fee Related CN105283916B (zh) | 2013-06-11 | 2013-06-11 | 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9881623B2 (zh) |
JP (1) | JP6203258B2 (zh) |
CN (1) | CN105283916B (zh) |
WO (1) | WO2014199450A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107731219B (zh) * | 2017-09-06 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 语音合成处理方法、装置及设备 |
US10755694B2 (en) | 2018-03-15 | 2020-08-25 | Motorola Mobility Llc | Electronic device with voice-synthesis and acoustic watermark capabilities |
CN112689871B (zh) * | 2018-05-17 | 2024-08-02 | 谷歌有限责任公司 | 使用神经网络以目标讲话者的话音从文本合成语音 |
WO2020005202A1 (en) * | 2018-06-25 | 2020-01-02 | Google Llc | Hotword-aware speech synthesis |
US11537690B2 (en) * | 2019-05-07 | 2022-12-27 | The Nielsen Company (Us), Llc | End-point media watermarking |
US11138964B2 (en) * | 2019-10-21 | 2021-10-05 | Baidu Usa Llc | Inaudible watermark enabled text-to-speech framework |
CN116778935A (zh) * | 2023-08-09 | 2023-09-19 | 北京百度网讯科技有限公司 | 水印生成、信息处理、音频水印生成模型训练方法和装置 |
CN117995165B (zh) * | 2024-04-03 | 2024-05-31 | 中国科学院自动化研究所 | 基于隐变量空间添加水印的语音合成方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1826633A (zh) * | 2004-06-04 | 2006-08-30 | 松下电器产业株式会社 | 声音合成装置 |
CN101185122A (zh) * | 2005-06-03 | 2008-05-21 | 皇家飞利浦电子股份有限公司 | 用于安全水印的同态加密 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7024016B2 (en) * | 1996-05-16 | 2006-04-04 | Digimarc Corporation | Digital watermarking apparatus and methods |
DE69638122D1 (de) * | 1996-09-04 | 2010-03-18 | Intertrust Tech Corp | Zuverlässige Infrastrukturhilfssysteme, Verfahren und Techniken für sicheren elektronischen Handel, elektronische Transaktionen, Handelsablaufsteuerung und Automatisierung, verteilte Verarbeitung und Rechteverwaltung |
JPH11190996A (ja) * | 1997-08-15 | 1999-07-13 | Shingo Igarashi | 合成音声判別システム |
JP3575242B2 (ja) | 1997-09-10 | 2004-10-13 | 日本電信電話株式会社 | キーワード抽出装置 |
JP3321767B2 (ja) * | 1998-04-08 | 2002-09-09 | 株式会社エム研 | 音声データに透かし情報を埋め込む装置とその方法及び音声データから透かし情報を検出する装置とその方法及びその記録媒体 |
JP3779837B2 (ja) * | 1999-02-22 | 2006-05-31 | 松下電器産業株式会社 | コンピュータ及びプログラム記録媒体 |
JP2001305957A (ja) * | 2000-04-25 | 2001-11-02 | Nippon Hoso Kyokai <Nhk> | Id情報埋め込み方法および装置ならびにid情報制御装置 |
JP2002023777A (ja) * | 2000-06-26 | 2002-01-25 | Internatl Business Mach Corp <Ibm> | 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器 |
JP3511502B2 (ja) * | 2000-09-05 | 2004-03-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ加工検出システム、付加情報埋め込み装置、付加情報検出装置、デジタルコンテンツ、音楽コンテンツ処理装置、付加データ埋め込み方法、コンテンツ加工検出方法、記憶媒体及びプログラム伝送装置 |
JP2002297199A (ja) * | 2001-03-29 | 2002-10-11 | Toshiba Corp | 合成音声判別方法と装置及び音声合成装置 |
GB2378370B (en) * | 2001-07-31 | 2005-01-26 | Hewlett Packard Co | Method of watermarking data |
JP2004227468A (ja) * | 2003-01-27 | 2004-08-12 | Canon Inc | 情報提供装置、情報提供方法 |
JP3984207B2 (ja) * | 2003-09-04 | 2007-10-03 | 株式会社東芝 | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム |
JP2007156169A (ja) * | 2005-12-06 | 2007-06-21 | Canon Inc | 音声合成装置及び音声合成方法 |
JP2007333851A (ja) * | 2006-06-13 | 2007-12-27 | Oki Electric Ind Co Ltd | 音声合成方法、音声合成装置、音声合成プログラム、音声合成配信システム |
JP2009086597A (ja) * | 2007-10-03 | 2009-04-23 | Hitachi Ltd | テキスト音声変換サービスシステム及び方法 |
CN102203853B (zh) * | 2010-01-04 | 2013-02-27 | 株式会社东芝 | 合成语音的方法和装置 |
JP2011155323A (ja) * | 2010-01-25 | 2011-08-11 | Sony Corp | 電子透かし生成装置、電子透かし検証装置、電子透かし生成方法及び電子透かし検証方法 |
WO2015068310A1 (ja) * | 2013-11-11 | 2015-05-14 | 株式会社東芝 | 電子透かし検出装置、方法及びプログラム |
-
2013
- 2013-06-11 CN CN201380077322.XA patent/CN105283916B/zh not_active Expired - Fee Related
- 2013-06-11 JP JP2015522298A patent/JP6203258B2/ja active Active
- 2013-06-11 WO PCT/JP2013/066110 patent/WO2014199450A1/ja active Application Filing
-
2015
- 2015-12-11 US US14/966,027 patent/US9881623B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1826633A (zh) * | 2004-06-04 | 2006-08-30 | 松下电器产业株式会社 | 声音合成装置 |
CN101185122A (zh) * | 2005-06-03 | 2008-05-21 | 皇家飞利浦电子股份有限公司 | 用于安全水印的同态加密 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2014199450A1 (ja) | 2017-02-23 |
WO2014199450A1 (ja) | 2014-12-18 |
JP6203258B2 (ja) | 2017-09-27 |
US9881623B2 (en) | 2018-01-30 |
CN105283916A (zh) | 2016-01-27 |
US20160099003A1 (en) | 2016-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105283916B (zh) | 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质 | |
Kamble et al. | Advances in anti-spoofing: from the perspective of ASVspoof challenges | |
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
Hu et al. | Pitch‐based gender identification with two‐stage classification | |
CN102394062A (zh) | 一种自动录音设备源识别的方法和系统 | |
CN104835498A (zh) | 基于多类型组合特征参数的声纹识别方法 | |
EP1569200A1 (en) | Identification of the presence of speech in digital audio data | |
CN102723079B (zh) | 基于稀疏表示的音乐和弦自动识别方法 | |
CN102486920A (zh) | 音频事件检测方法和装置 | |
CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
Singh | Forensic and Automatic Speaker Recognition System. | |
WO2012014301A1 (ja) | 飲酒状態判定装置及び飲酒状態判定方法 | |
Zhang et al. | Speech emotion recognition using combination of features | |
JP2018180334A (ja) | 感情認識装置、方法およびプログラム | |
Xue et al. | Cross-modal information fusion for voice spoofing detection | |
Barrington et al. | Single and multi-speaker cloned voice detection: from perceptual to learned features | |
Wang et al. | Detection of speech tampering using sparse representations and spectral manipulations based information hiding | |
Singh | Multimedia application for forensic automatic speaker recognition from disguised voices using MFCC feature extraction and classification techniques | |
Wu et al. | The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge. | |
Doets et al. | Distortion estimation in compressed music using only audio fingerprints | |
KR100766170B1 (ko) | 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법 | |
Gao | Audio deepfake detection based on differences in human and machine generated speech | |
Büker et al. | Deep convolutional neural networks for double compressed AMR audio detection | |
Munir et al. | Deepfake defense: Constructing and evaluating a specialized Urdu deepfake audio dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190607 |