CN113205821B - 一种基于对抗样本的语音隐写方法 - Google Patents
一种基于对抗样本的语音隐写方法 Download PDFInfo
- Publication number
- CN113205821B CN113205821B CN202110446800.6A CN202110446800A CN113205821B CN 113205821 B CN113205821 B CN 113205821B CN 202110446800 A CN202110446800 A CN 202110446800A CN 113205821 B CN113205821 B CN 113205821B
- Authority
- CN
- China
- Prior art keywords
- audio
- sample
- party
- information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000006870 function Effects 0.000 claims description 18
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000005856 abnormality Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000009940 knitting Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于对抗样本的语音隐写方法,包括:将噪声δ经编解码器Aa添加到音频X上,生成满足最小化目标函数的音频样本X’,其中,音频X包含内容文本为T,音频样本X’包含需要加密传输的信息S。本发明将所生成的音频对抗样本用于语音隐写领域,具有较高的保密性、隐蔽性、安全性。在通常情况下,第三方无法轻易察觉到加密音频样本存在异常或隐写信息;即便第三方认为该音频样本存在隐写信息,在保障编解码器模型Aa不被窃取的前提下,第三方无法获得其中所隐藏的信息。
Description
技术领域
本发明涉及语音识别、深度学习、信息安全技术领域,具体涉及一种基于对抗样本的语音隐写方法。
背景技术
随着机器学习和深度学习技术的快速发展,自然语言处理技术的应用场景越来越广泛,例如机器翻译、智能客服、情感分析、语音识别等,日常生活中的各个地方都存在着自然语言处理技术的应用。
目前自然语言处理技术的许多发明理论被广泛应用于语音识别领域,最广泛使用的技术包括基于长短时记忆网络(Long Short-Term Memory,LSTM)和连接时序分类(Connectionist Temporal Classification,CTC)的语音识别发明、基于自注意力机制(Transformer)的语音识别发明,可以较为准确地识别出说话者想表达的内容,例如电信运营商智能客服等。目前基于神经网络的语音识别技术已经广泛应用于智能音箱、智能语音助手、车载语音等诸多场景中,语音识别技术的出现客观上解放了人们的双手与眼睛,仅需通过开口说话就可以与机器进行交互,方便了人们的生活。
但是,近年来的一些研究表明,神经网络等人工智能技术存在一定的安全隐患,引起了人们的担忧。例如在图像领域中,卷积神经网络具有脆弱性,攻击者通过添加人眼难以察觉的微小扰动构造对抗样本,对抗样本和原始图像相似性高,人眼难以察觉异常,但使用卷积神经网络识别该对抗样本时,神经网络将以很大的概率将对抗样本识别错,从而产生错误的预测。
此外,许多研究也表明语音识别技术也存在类似的情况。Carlini&Wagner等人通过向音频中添加微小的噪声,生成的对抗音频不仅让人耳无法察觉到噪声,还能使语音识别系统错误的识别出指定的文本序列。最近学术界提出的一种Commander Song能够将控制命令隐藏在音乐中,并对Google的语音识别系统进行攻击。另一方面,Shreya Khare等人指出在完全不知道系统内部结构的场景下,一种多目标进化优化的对抗样本生成技术也能够对智能语音识别系统构成威胁。这些针对语音识别系统不同的攻击场景均揭示出现代智能语音识别系统的脆弱性。
研究针对语音识别系统等神经网络的攻击具有积极的意义。一方面通过生成对抗样本,可以去评测现有的语音识别系统的稳定性和鲁棒性;另一方面,通过巧妙地利用音频对抗样本自身的特殊性质可以实现隐蔽通信、通信安全等目的。因此,通过研究对语音识别系统生成音频对抗样本的发明,并论证音频对抗样本用于语音隐写领域的安全性和隐秘性,为语音隐写提供一种新的思路和发明。目前主流的语音隐写发明包括:将信息加密压缩到音频比特流中的发明(例如使用MP3stego等工具)、将信息隐藏在频谱图中等。主要技术都是基于传统密码学与信息学的发明,未考虑到利用现代智能语音识别系统的脆弱性实现语音隐写。
发明内容
本发明的目的是为了克服以上现有技术存在的不足,提供了一种具有隐蔽性、保密性和实用性的基于对抗样本的语音隐写方法。
本发明的目的通过以下的技术方案实现:
一种基于对抗样本的语音隐写方法,其特征在于:利用生成对抗样本的方法将噪声δ经编解码器Aa添加到音频X上,生成满足最小化目标函数的音频样本X′,其中,音频X包含内容文本为T,音频样本X′包含需要加密传输的信息S。优选地,我们设置目标函数为dBX(δ)+c·l(X+δ,S)+d·g(X+δ,T),然后对其进行最小化。
其中,δ是噪声,X是原始音频,X′是加入扰动后的对抗音频,T为原始音频包含的语义文本,S是需要加密传输的信息。计算音频X的声学属性分贝值dB(X)=maxi20·log10(Xi),为避免将噪声δ添加到音频X上后所添加噪声被人耳察觉到明显异常,从而破坏隐写的隐蔽性,需要根据音频X的声学属性分贝值计算信噪比损失函数dBX(δ)=dB(δ)-dB(X),当dBX(δ)越小时所添加的噪声越不容易被人耳察觉。
l(X+δ,S)为编解码器模型Aa的损失函数,用于评估音频样本X’经编解码器Aa识别后结果与加密信息S的一致性;当该损失函数l(X+δ,s)为0时代表编解码器模型Aa识别音频样本X’的结果与加密信息S完全一致,反之,该损失函数越大时,识别音频样本X’的结果与加密信息S的差别越大。
g(X+δ,T)为第三方的语音识别模型Bb的损失函数,用于评估音频样本X’在被第三方窃听后,被第三方的语音识别模型Bb识别的结果与内容文本T的一致性。当该损失函数g(X+δ,T)为0时代表语音识别模型Bba识别音频样本X’的结果与内容文本T完全一致,反之,该损失函数越大时,识别音频样本X’的结果与内容文本T的差别越大。c、d为可人为调整的参数,用以动态权衡隐写音频样本的隐蔽性等级,默认情况下设置c=1,d=0。
优选地,目标函数使用Adam优化器执行求解,最大迭代次数设置为6000,学习率初始设置为10。
本发明相对于现有技术具有如下优点:
一些传统的语音隐写发明例如将信息存储在频谱图上所生成的音频为一段杂乱无章的噪音,容易引起相关人员的注意并进一步分析得到加密信息;本发明进一步在语音隐写的隐蔽性上进行了进一步加强,巧妙地利用了音频对抗样本难以被人类听觉所感知,并且能够成功的绕过语音识别系统的特性,提出了一种新颖的基于对抗样本的语音隐写方法。
本发明将所生成的音频对抗样本用于语音隐写领域,具有较高的保密性、隐蔽性、安全性。在通常情况下,第三方无法轻易察觉到加密音频样本存在异常或隐写信息。即便第三方认为该音频样本存在隐写信息,在保障编解码器模型Aa不被窃取的前提下,第三方无法获得其中所隐藏的信息。
本发明不仅可以用于机要部门的秘密通信,也可以被用于个人隐私保护、数字作品版权保护等民用目的,具有较高的应用价值。同时对该基于对抗样本的语音隐写方法的研究可以为现有的语音识别模型抵御对抗攻击、提高鲁棒性提供思路,也可以为如何检测这类新颖的语音隐写数据提供方向。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本实施例的基于对抗样本的语音隐写方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
参见图1,内容文本T为“我今天很高兴”的音频样本X,经过人耳、编解码器模型Aa、第三方语音识别模型Bb的识别结果均为“我今天很高兴”,即Aa(X)=“我今天很高兴”,Bb(X)=“我今天很高兴”,需加密传输的信息S为“下周一行动”。
步骤1:通过最小化损失函数dBX(δ)+c·l(X+δ,″下周一行动″)+d·g(X+δ,″我今天很高兴″),优化过程可选取Adam优化器,最大迭代次数设置为6000,学习率初始设置为10。
步骤2:在步骤1中计算得到最优的噪声δ后,将噪声δ添加原始音频样本X中,并保存输出为音频Y。原始音频样本X为不含任何重要信息的音频。
步骤3:测试音频Y在人耳听来无明显异常且识别结果仍为“我今天很高兴”,第三方模型Bb识别结果也不发生改变,Bb(Y)=“我今天很高兴”,但音频Y经编解码器Aa解码结果为“下周一行动”,实现语音隐写。
本发明新颖地采用基于对抗样本的发明实现语音隐写,可以应用于真实场景当中,且具备高度隐蔽性、保密性和安全性,具有较好的实际应用价值。
本发明核心思想简单,对损失函数进行简单修改即可将不同的语音识别模型改造为编解码器模型,对其进行研究一方面可以提高现有的语音识别模型抵御对抗攻击的能力,另一方面可以对此类基于神经网络脆弱性的语音隐写样本检测提供方向。
上述具体实施方式为本发明的优选实施例,并不能对本发明进行限定,其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式,都包含在本发明的保护范围之内。
Claims (2)
1.一种基于对抗样本的语音隐写方法,其特征在于,包括:利用生成对抗样本的方法将噪声δ经编解码器Aa添加到音频X上,生成满足最小化目标函数的音频样本X′,其中,音频X包含内容文本为T,音频样本X′包含需要加密传输的信息S;
最小化目标函数dBX(δ)+c·l(X+δ,S)+d·g(X+δ,T);
其中,δ是噪声,X是原始音频,X′是加入扰动后的对抗音频,T为原始音频包含的语义文本,S是需要加密传输的信息,c、d是可人为调整的参数;
计算音频X的声学属性分贝值dB(X)=maxi20·log10(Xi),并根据音频X的声学属性分贝值计算信噪比损失函数dBX(δ)=dB(δ)-dB(X);
l(X+δ,S)为编解码器模型Aa的损失函数,用于评估音频样本X′经编解码器Aa识别后结果与加密信息S的一致性;
g(X+δ,T)为第三方的语音识别模型Bb的损失函数,用于评估音频样本′在被第三方窃听后,被第三方的语音识别模型Bb识别的结果与内容文本的一致性。
2.根据权利要求1所述的基于对抗样本的语音隐写方法,其特征在于,目标函数使用Adam优化器执行求解,最大迭代次数设置为6000,学习率初始设置为10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110446800.6A CN113205821B (zh) | 2021-04-25 | 2021-04-25 | 一种基于对抗样本的语音隐写方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110446800.6A CN113205821B (zh) | 2021-04-25 | 2021-04-25 | 一种基于对抗样本的语音隐写方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113205821A CN113205821A (zh) | 2021-08-03 |
CN113205821B true CN113205821B (zh) | 2023-08-29 |
Family
ID=77028376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110446800.6A Active CN113205821B (zh) | 2021-04-25 | 2021-04-25 | 一种基于对抗样本的语音隐写方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113205821B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012049659A2 (en) * | 2010-10-14 | 2012-04-19 | Centro De Investigación Y De Estudios Avanzados Del Instituto Politécnico Nacional | High payload data-hiding method in audio signals based on a modified ofdm approach |
CN111640444A (zh) * | 2020-04-17 | 2020-09-08 | 宁波大学 | 基于cnn的自适应音频隐写方法和秘密信息提取方法 |
CN111680292A (zh) * | 2020-06-10 | 2020-09-18 | 北京计算机技术及应用研究所 | 一种基于高隐蔽性通用扰动的对抗样本生成方法 |
CN111711821A (zh) * | 2020-06-15 | 2020-09-25 | 南京工程学院 | 基于深度学习的信息隐藏方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102636638B1 (ko) * | 2016-12-21 | 2024-02-15 | 삼성전자주식회사 | 컨텐츠 운용 방법 및 이를 구현한 전자 장치 |
US11128435B2 (en) * | 2019-07-08 | 2021-09-21 | Tencent America LLC | Distributed and collaborative analytics of encrypted data using deep polynomial networks |
-
2021
- 2021-04-25 CN CN202110446800.6A patent/CN113205821B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012049659A2 (en) * | 2010-10-14 | 2012-04-19 | Centro De Investigación Y De Estudios Avanzados Del Instituto Politécnico Nacional | High payload data-hiding method in audio signals based on a modified ofdm approach |
CN111640444A (zh) * | 2020-04-17 | 2020-09-08 | 宁波大学 | 基于cnn的自适应音频隐写方法和秘密信息提取方法 |
CN111680292A (zh) * | 2020-06-10 | 2020-09-18 | 北京计算机技术及应用研究所 | 一种基于高隐蔽性通用扰动的对抗样本生成方法 |
CN111711821A (zh) * | 2020-06-15 | 2020-09-25 | 南京工程学院 | 基于深度学习的信息隐藏方法 |
Non-Patent Citations (1)
Title |
---|
基于深度残差网络的语音隐写分析方法;任奕茗等;计算机应用;1-6 * |
Also Published As
Publication number | Publication date |
---|---|
CN113205821A (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aloufi et al. | Privacy-preserving voice analysis via disentangled representations | |
Djebbar et al. | Comparative study of digital audio steganography techniques | |
Cheng et al. | Personal voice assistant security and privacy—a survey | |
Zhang et al. | Voiceprint mimicry attack towards speaker verification system in smart home | |
Qian et al. | Voicemask: Anonymize and sanitize voice input on mobile devices | |
Neustein et al. | Forensic speaker recognition | |
Qian et al. | Speech sanitizer: Speech content desensitization and voice anonymization | |
Kong et al. | Adversarial audio: A new information hiding method and backdoor for dnn-based speech recognition models | |
Wang et al. | Vsmask: Defending against voice synthesis attack via real-time predictive perturbation | |
Kheddar et al. | Pitch and fourier magnitude based steganography for hiding 2.4 kbps melp bitstream | |
Chen et al. | VoiceCloak: Adversarial Example Enabled Voice De-Identification with Balanced Privacy and Utility | |
Cheng et al. | Uniap: Protecting speech privacy with non-targeted universal adversarial perturbations | |
Williams et al. | Revisiting speech content privacy | |
Yu et al. | Antifake: Using adversarial audio to prevent unauthorized speech synthesis | |
Williams et al. | New challenges for content privacy in speech and audio | |
Zhang et al. | Volere: Leakage resilient user authentication based on personal voice challenges | |
Wu | Information hiding in speech signals for secure communication | |
CN113205821B (zh) | 一种基于对抗样本的语音隐写方法 | |
Shahid et al. | " Is this my president speaking?" Tamper-proofing Speech in Live Recordings | |
Guo et al. | PhantomSound: Black-Box, Query-Efficient Audio Adversarial Attack via Split-Second Phoneme Injection | |
He et al. | A Novel AMR‐WB Speech Steganography Based on Diameter‐Neighbor Codebook Partition | |
Kazemi et al. | Data hiding robust to mobile communication vocoders | |
Nematollahi et al. | Semifragile speech watermarking based on least significant bit replacement of line spectral frequencies | |
Moorthy et al. | Generative adversarial analysis using U-lsb based audio steganography | |
Saini et al. | Speaker Anonymity and Voice Conversion Vulnerability: A Speaker Recognition Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |