CN115225309B - 一种基于变速变调的语音对抗样本防御方法 - Google Patents
一种基于变速变调的语音对抗样本防御方法 Download PDFInfo
- Publication number
- CN115225309B CN115225309B CN202210544265.2A CN202210544265A CN115225309B CN 115225309 B CN115225309 B CN 115225309B CN 202210544265 A CN202210544265 A CN 202210544265A CN 115225309 B CN115225309 B CN 115225309B
- Authority
- CN
- China
- Prior art keywords
- voice
- sample
- speech
- recognition system
- tone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000007123 defense Effects 0.000 title claims abstract description 14
- 206010034719 Personality change Diseases 0.000 abstract description 17
- 230000008859 change Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3226—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
- H04L9/3231—Biological data, e.g. fingerprint, voice or retina
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Biodiversity & Conservation Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于变速变调的语音对抗样本防御方法,其对采集的语音样本进行变速变调操作;然后将采集的语音样本和变速变调操作后得到的语音音频分别输入到自动语音识别系统中,自动语音识别系统输出两者的识别结果;接着计算两者的识别结果的字符改变率;再通过比较字符改变率与阈值的大小来判定语音样本为语音正常样本还是为语音对抗样本;优点是其针对语音识别系统的语音对抗样本进行防御,提高语音识别系统的安全性与鲁棒性,在保证语音正常样本识别准确率的条件下,提高了语音对抗样本的防御效率,降低了语音对抗样本的攻击成功率。
Description
技术领域
本发明涉及一种多媒体信息安全技术,尤其是涉及一种基于变速变调的语音对抗样本防御方法。
背景技术
随着多媒体信息技术的不断发展,多媒体信息安全问题也逐渐凸显。新技术通常也会带来新的安全问题。在最近十年,借助深度神经网络对数据特征强大的学习能力,多媒体信息技术得到了迅速的发展。然而,深度神经网络容易遭受对抗样本的攻击,对抗样本的攻击也阻碍了深度神经网络在现实世界的广泛使用。对深度神经网络的对抗样本的深入研究,是保障深度神经网络安全性的重要途径。作为当下最热门的深度学习中的信息安全问题,对抗样本在学术界和工业界受到了高度的关注。
作为多媒体信息安全领域的重要方向,对抗样本领域有非常多的研究成果,但目前大部分的工作都集中在图像对抗样本领域,语音领域的对抗样本的研究相对较少。随着智能语音技术在生活中的广泛应用,语音领域的对抗样本安全问题同样值得关注,例如在声纹识别、语音购物等对安全性要求较高的场景下,都有可能遭受对抗样本的攻击。因此,语音对抗样本防御方法的研究至关重要,它能够帮助研究人员发现和改进现有的语音识别系统可能出现的漏洞,加强语音识别系统的安全性与鲁棒性,增大恶意攻击的难度。
目前针对语音对抗样本防御方法的研究工作较少,已有的语音对抗样本防御方法也存在一些问题。一部分方法如语音平滑方法,其防御效率较低,效果不理想;一部分方法如移除静音段方法,其对原始语音的影响较大,从而影响了语音识别系统的准确率;还有一部分方法如比特位缩减法,其需要重新训练语音识别系统或者添加额外的深度学习模型,这样就需要较高的计算成本。因此,如何简单、有效以及快速防御语音对抗样本至关重要。
发明内容
本发明所要解决的技术问题是提供一种基于变速变调的语音对抗样本防御方法,其针对语音识别系统的语音对抗样本进行防御,提高语音识别系统的安全性与鲁棒性,在保证语音正常样本识别准确率的条件下,提高了语音对抗样本的防御效率,降低了语音对抗样本的攻击成功率。
本发明解决上述技术问题所采用的技术方案为:一种基于变速变调的语音对抗样本防御方法,其特征在于包括以下步骤:
步骤4:通过比较CR与阈值K的大小来判定x为语音正常样本还是为语音对抗样本,如果CR大于阈值K,则判定x为语音正常样本;如果CR小于或等于阈值K,则判定x为语音对抗样本。
所述的步骤4中,阈值K取值为0.85。
与现有技术相比,本发明的优点在于:
1)本发明方法采用的变速变调操作是直接对语音音频进行处理的,处理所需要的时间复杂度较低,且不需要对自动语音识别系统做修改以及训练,因此本发明方法简单易实现,可实际应用于实时前端处理。
2)本发明方法相对于目前先进的Kwon与Yang的防御方法,语音对抗样本的检测率提高了4.82%。
3)本发明方法在对音频处理后对正常音频的影响非常小,在保证语音正常样本识别准确率的条件下,提高了语音对抗样本的防御效率,降低了语音对抗样本的攻击成功率。
附图说明
图1为本发明方法的总体实现框图;
图2为“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库各自中的所有语音正常样本在经过语速(Speed)操作之后对应的字符改变率的平均值及所有语音对抗样本在经过语速(Speed)操作之后对应的字符改变率的平均值;
图3为“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库各自中的所有语音正常样本在经过节拍(Tempo)操作之后对应的字符改变率的平均值及所有语音对抗样本在经过节拍(Tempo)操作之后对应的字符改变率的平均值;
图4为“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库各自中的所有语音正常样本在经过语调(Pitch)操作之后对应的字符改变率的平均值及所有语音对抗样本在经过语调(Pitch)操作之后对应的字符改变率的平均值;
图5给出了语音修改对语音正常样本与语音对抗样本的影响示意图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
给定一个自动语音识别系统g()以及一个原始语音样本x',一个恶意的攻击者可以使用相应的对抗样本生成方法来得到一个语音对抗样本x*,如图5所示,x'离原始识别结果y'=g(x')所在的决策边界较远,x*离目标文本y*=g(x*)所在的决策边界较近,这意味着在对语音样本进行修改后,语音对抗样本更容易逃离决策边界,即更有可能被自动语音识别系统g()识别成其他非目标文本。之前已有工作根据这一特点来防御语音对抗样本。
所以防御语音对抗样本的关键是找到一个合适的语音修改方法M(),其不仅可以破坏语音对抗样本而且不会让语音正常样本丢失信息。更具体一点就是,语音正常样本的识别结果y'=g(x')要尽可能与修改后样本的识别结果相似,语音对抗样本的识别结果y*=g(x*)要尽可能与修改后样本的识别结果/>不同。最后可以得到目标函数,描述为:/>其中,X表示语音数据库,x'为X中的语音样本,D()为计算两个文本的编辑距离的函数。
破坏策略的目的是破坏掉对抗样本的扰动使其攻击失效。给定一个语音样本x(语音正常样本或语音对抗样本),只需要在将其输入自动语音识别系统之前对其进行TPSM操作。对于语音正常样本,由于细微的变速变调将不会影响到语音的内容,自动语音识别系统的识别结果将不会改变或改变很小。对于语音对抗样本,由于其扰动是基于当前的时域和频域添加的,因此变速变调将会使其时域与频域发生改变,扰动也将失效,自动语音识别系统的识别结果将与原来大不相同。
检测策略的目的是检测一个未知语音是否为语音对抗样本。由于语音对抗样本的识别结果更容易受到变速变调的影响,因此,可以利用变速变调前后识别结果的变化量的大小来确认语音样本是否为语音对抗样本。
本发明提出的一种基于变速变调的语音对抗样本防御方法,其总体实现框图如图1所示,其包括以下步骤:
由于不清楚x为语音对抗样本还是为语音正常样本,因此对x进行变速变调操作。
步骤2:将x输入到现有的自动语音识别(ASR,Automatic Speech Recognition)系统中,自动语音识别系统输出x的识别结果,记为y;将输入到相同的自动语音识别(ASR,Automatic Speech Recognition)系统中,自动语音识别系统输出/>的识别结果,记为/>通过自动语音识别系统得到的识别结果为语音样本中单人说话内容相应的文本。
步骤3:计算y和的字符改变率,记为CR,/>在此用字符改变率CR来衡量x的识别结果y的变化量;其中,min()为取最小值函数,/>为计算y和/>两个文本的编辑距离的函数,/>输出编辑次数,L表示y的字符数,如果文本是英文则字符数指文本所包含的所有字母数量,如果文本是中文则字符数指文本所包含的中文字字数。两个文本的编辑距离的函数引用自V I LEVENSHTEIN.Binary codes capable ofcorrecting deletions,insertions,and reversals[J].Soviet physics doklady.1966,10:707–710.(能够纠正删除、插入和反转的二进制代码[J].苏联物理学博士)。
步骤4:通过比较CR与阈值K的大小来判定x为语音正常样本还是为语音对抗样本,如果CR大于阈值K,则判定x为语音正常样本;如果CR小于或等于阈值K,则判定x为语音对抗样本;其中,阈值K取值为0.85。
变速变调操作可以利用时间音调尺度修改(Time-and Pitch-ScaleModification,TPSM)来实现。之前已有工作已经研究了TPSM对ASR(Automatic SpeechRecognition,自动语音识别)系统的影响。在某些情况下,使用适当的参数进行时间尺度修改(Time Scale Modification,TSM)可以提高ASR系统的性能。音高尺度修改(Pitch ScaleModification,PSM)可以用来提高儿童的语音识别能力。TSM作为一种数字信号处理方法,可以用来拉伸或压缩语音信号的持续时间。理想情况下,时间修改后的信号听起来就像原始信号的内容相同但是说话速度不同。基于波形相似度重叠添加(WSOLA)或基于相位声码器的TSM方法可以高度保留谐波信号的感知质量。
TPSM有三种操作类型。第一种为语速(Speed)操作,可以同时修改语速和语调。第二种为节拍(Tempo)操作,只修改语速不修改语调。第三种为语调(Pitch)操作,只修改语调不修改语速。对于语速(Speed)操作,可以直接通过改变语音的采样率来实现。对于节拍(Tempo)操作,可以使用TSM算法来实现。对于语调(Pitch)操作,可以先改变语音的语速,然后用TSM把时间尺度调整回来。考虑到人类语音的机制,略微改变语音语速和语调后,语音正常样本的识别结果不会有太大变化。而对抗扰动是针对当前时间和频率分布精心设计的,当语速和语调发生变化时,扰动将被破坏,语音对抗样本将会失去攻击效果。
在本发明中阈值K通过在不同TPSM操作下语音正常样本与语音对抗样本的CR变化来确定,具体过程为:选择“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库,利用OPT(optimization-based attack,基于梯度优化的文本式语音对抗样本攻击)方法生成三个数据集中的每个语音正常样本对应的语音对抗样本,按本发明方法计算每个语音正常样本对应的字符改变率及每个语音对抗样本对应的字符改变率。“TIMIT”语音数据库来源于VZUE,S SENEFF,J GLASS.Speech database development at MIT:TIMIT and beyond[J].Speech communication.1990,9:351–356.(麻省理工学院的语音数据库开发:TIMIT及其他[J].语音交流),“LibriSpeech”语音数据库来源于http://www.openslr.org/12/.,“CommonVoice”语音数据库来源于R ARDILA,et al.Common voice:A massively-multilingual speech corpus[J].arXiv preprint arXiv:1912.06670,2019.(大规模多语言语音语料库[J])。
图2给出了“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库各自中的所有语音正常样本在经过语速(Speed)操作之后对应的字符改变率的平均值及所有语音对抗样本在经过语速(Speed)操作之后对应的字符改变率的平均值,图3给出了“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库各自中的所有语音正常样本在经过节拍(Tempo)操作之后对应的字符改变率的平均值及所有语音对抗样本在经过节拍(Tempo)操作之后对应的字符改变率的平均值,图4给出了“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库各自中的所有语音正常样本在经过语调(Pitch)操作之后对应的字符改变率的平均值及所有语音对抗样本在经过语调(Pitch)操作之后对应的字符改变率的平均值。图2、图3和图4中,位于上方的曲线对应于语音正常样本,位于下方的曲线对应于语音对抗样本,Similarity rate表示相似性变化即指字符改变率。从图2、图3和图4中可以看出,语音正常样本在经过TPSM操作之后其字符改变率较小,且始终在90%以上,而语音对抗样本在经过TPSM操作之后其字符改变率较大,最低接近0%,因此本发明为了区分语音正常样本与语音对抗样本,将阈值K取值为85%,即0.85。
为了进一步验证本发明方法的可行性和有效性,对本发明方法进行实验。
实验设置:语音对抗样本的生成利用一种基于梯度优化的文本式语音对抗样本攻击(OPT)攻击(N CARLINI,D WAGNER.Audio adversarial examples:Targeted attacks onspeech-to-text[J].Proceedings 2018IEEE Symposium on Security and PrivacyWorkshops,SPW 2018,2018:1–7.,(音频对抗示例:针对语音到文本的针对性攻击[J].2018年IEEE安全和隐私研讨会论文集)),使用DeepSpeech作为所采用的自动语音识别系统,使用“TIMIT”、“LibriSpeech”和“CommonVoice”作为语音数据库。对比方法有Kwon方法(ZYANG,B LI,P Y CHEN,D SONG.Characterizing audio adversarial examples usingtemporal dependency[J].arXiv preprint arXiv:1180.910875,2018.(使用时间依赖性表征音频对抗性示例[J]))和Yang方法(H KWON,H YOON,K W PARK.Acoustic-decoy:Detection of adversarial examples through audio modification on speechrecognition system[J].Neurocomputing.2020,417:357–370.(通过语音识别系统上的音频修改来检测对抗样本[J].神经计算))。
实验结果:
表1给出了分别使用本发明方法、Kwon方法、Yang方法之后的语音对抗样本的平均攻击成功率(ASRavg)与语音正常样本的识别准确率(ACC)。
表1分别使用本发明方法、Kwon方法、Yang方法之后的语音对抗样本的平均攻击成功率(ASRavg)与语音正常样本的识别准确率(ACC)
从表1中可以看出,本发明方法使用变速变调操作后语音正常样本的ACC都较高,接近于没有使用防御方法的ACC,这说明变速变调操作几乎不会影响语音正常样本的识别,优于Kwon方法和Yang方法。其中,对于其余语音对抗样本防御方法的防御结果来说,利用语速、节拍、语调修改操作进行防御的结果平均提高了4.82%,并且利用语调修改操作的防御结果好于利用语速修改操作的防御结果,利用语速修改操作的防御结果好于利用节拍修改操作的防御结果,最好结果可达到7.69%,并且语音正常样本的ACC可达到95.60%。
Claims (2)
1.一种基于变速变调的语音对抗样本防御方法,其特征在于包括以下步骤:
步骤4:通过比较CR与阈值K的大小来判定x为语音正常样本还是为语音对抗样本,如果CR大于阈值K,则判定x为语音正常样本;如果CR小于或等于阈值K,则判定x为语音对抗样本。
2.根据权利要求1所述的一种基于变速变调的语音对抗样本防御方法,其特征在于所述的步骤4中,阈值K取值为0.85。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210544265.2A CN115225309B (zh) | 2022-05-19 | 2022-05-19 | 一种基于变速变调的语音对抗样本防御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210544265.2A CN115225309B (zh) | 2022-05-19 | 2022-05-19 | 一种基于变速变调的语音对抗样本防御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115225309A CN115225309A (zh) | 2022-10-21 |
CN115225309B true CN115225309B (zh) | 2023-06-13 |
Family
ID=83607142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210544265.2A Active CN115225309B (zh) | 2022-05-19 | 2022-05-19 | 一种基于变速变调的语音对抗样本防御方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115225309B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118471253B (zh) * | 2024-07-10 | 2024-10-11 | 厦门理工学院 | 基于音高调制的音频稀疏对抗攻击方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992934A (zh) * | 2019-10-28 | 2020-04-10 | 浙江工业大学 | 面向语音识别系统黑盒攻击模型的防御方法及防御装置 |
CN111261147A (zh) * | 2020-01-20 | 2020-06-09 | 浙江工业大学 | 一种面向语音识别系统的音乐嵌入攻击防御方法 |
-
2022
- 2022-05-19 CN CN202210544265.2A patent/CN115225309B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992934A (zh) * | 2019-10-28 | 2020-04-10 | 浙江工业大学 | 面向语音识别系统黑盒攻击模型的防御方法及防御装置 |
CN111261147A (zh) * | 2020-01-20 | 2020-06-09 | 浙江工业大学 | 一种面向语音识别系统的音乐嵌入攻击防御方法 |
Non-Patent Citations (2)
Title |
---|
Adversarial examples devastation and detection on speech recognition system by adding random noise;Mingyu Dong, etc.;《arXiv》;全文 * |
面向语音识别系统的对抗样本攻击及防御综述;陈佳豪等;《小型微型计算机系统》;第43卷(第3期);第466-474页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115225309A (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111261147A (zh) | 一种面向语音识别系统的音乐嵌入攻击防御方法 | |
CN115225309B (zh) | 一种基于变速变调的语音对抗样本防御方法 | |
Javed et al. | Voice spoofing detector: A unified anti-spoofing framework | |
Wang et al. | Investigating active-learning-based training data selection for speech spoofing countermeasure | |
Sun et al. | Ai-synthesized voice detection using neural vocoder artifacts | |
Andronic et al. | MP3 compression to diminish adversarial noise in end-to-end speech recognition | |
Wang et al. | Adversarial examples attack and countermeasure for speech recognition system: A survey | |
Yu et al. | HANME: hierarchical attention network for singing melody extraction | |
Zhang et al. | A retrieval algorithm for encrypted speech based on convolutional neural network and deep hashing | |
CN114640518B (zh) | 一种基于音频隐写的个性化触发器后门攻击方法 | |
Zhang et al. | Localizing fake segments in speech | |
Cho et al. | HYU submission for the DCASE 2023 task 6a: Automated audio captioning model using AL-MixGen and synonyms substitution | |
Salvi et al. | Exploring the synthetic speech attribution problem through data-driven detectors | |
Li et al. | Audio Anti-Spoofing Detection: A Survey | |
Chen et al. | Singing Voice Graph Modeling for SingFake Detection | |
Guo et al. | INOR—An Intelligent noise reduction method to defend against adversarial audio examples | |
Zhang et al. | Audio deepfake detection with self-supervised XLS-R and SLS classifier | |
Cai et al. | PBSM: Backdoor attack against Keyword spotting based on pitch boosting and sound masking | |
CN116884431A (zh) | 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置 | |
Yang et al. | Deep Belief Networks for Automatic Music Genre Classification. | |
Bolt et al. | Supervised Contrastive Learning For Musical Onset Detection | |
Zhang et al. | A Compressed Synthetic Speech Detection Method with Compression Feature Embedding | |
CN114927128A (zh) | 语音关键词的检测方法、装置、电子设备及可读存储介质 | |
CN115240645A (zh) | 基于注意力重打分的流式语音识别方法 | |
Zhao et al. | D3-SACNN: DGA domain detection with self-Attention convolutional network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |