CN115083426A - 基于对抗样本生成的高保真语音脱敏方法和装置 - Google Patents

基于对抗样本生成的高保真语音脱敏方法和装置 Download PDF

Info

Publication number
CN115083426A
CN115083426A CN202210629015.9A CN202210629015A CN115083426A CN 115083426 A CN115083426 A CN 115083426A CN 202210629015 A CN202210629015 A CN 202210629015A CN 115083426 A CN115083426 A CN 115083426A
Authority
CN
China
Prior art keywords
model
audio
voice
confrontation
desensitization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210629015.9A
Other languages
English (en)
Inventor
陈艳姣
徐文渊
陈骁孚
滕飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210629015.9A priority Critical patent/CN115083426A/zh
Publication of CN115083426A publication Critical patent/CN115083426A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于对抗样本生成技术的高保真语音脱敏方法和装置,属于数据隐私保护领域。通过将受保护者音频输入对抗式生成网络脱敏模型,输出音频能在保持原来语义内容的前提下,改变音频中的声纹特征,进而使得人工智能说话人识别模型无法通过输入音频判断说话者身份,实现脱除原始说话人身份信息的效果。该脱敏模型的训练主要通过最小化对抗式生成网络中的生成器以及鉴别器损失以达到训练目的。在具体应用场景中,说话者可以先将自己的音频经已训练好的脱敏模型处理,而后将生成的音频提供给外界,而不泄露自己的身份,达到保护个人隐私的目的。

Description

基于对抗样本生成的高保真语音脱敏方法和装置
技术领域
本发明涉及语音识别领域与声纹特征建模领域,尤其涉及一种基于对抗样本生成的高保真语音脱敏方法
背景技术
深度学习技术已经应用到日常生活的各个方面,尤其是在语音识别、图片识别、目标检测等方面。但是随着深度学习和物联网技术的发展,其带来的隐私问题也受到了用户的不断关注。当用户需要语音控制家中物联网设备或者传达文字消息时,往往需要通过智能终端的语音识别或者说话人识别模型来实现,这样就会将用户的纯净音频暴露给一些并不需要提供声纹认证的应用系统的服务器,而深度学习技术同样可以从泄露的语音数据中提取用户的声纹特征并非法出售,而非法人员则会利用受害者的声纹合成音频,伪装成受害人,进而获取非法授权或者达到其他非法目的。
在大数据时代,越来越多的语音数据被发布,以用于改善基于语音的服务或学术研究。但在语音数据发布过程中存在着隐私泄露的风险。例如,在语音数据发布中,攻击者如果通过声纹识别得到特定用户的语音数据,则可以通过分析语音数据来了解用户的敏感信息。
虽然深度学习技术已经取得了广泛的应用,但是越来越多的研究表明这项技术本身存在着许多安全隐患。
发明内容
本发明针对现有技术存在的问题,提出了一种基于对抗样本生成的高保真语音脱敏方法和装置,通过构建对抗样本生成模型,使得生成的对抗样本能够在保留原音频中的语义信息前提下,改变音频中的声纹信息,进而防止说话人身份隐私的泄露。
本发明是通过以下技术方案得以实现的:
第一个方面,本发明提出了一种基于对抗样本生成技术的高保真语音脱敏方法,包括以下步骤:
构建生成式对抗网络,包括待训练的对抗样本生成模型、语音鉴别模型、以及预训练的说话人识别模型和语音识别模型;
对生成式对抗网络进行训练,将训练好的生成式对抗网络中的对抗样本生成模型作为语音脱敏模型,利用语音脱敏模型对输入的纯净音频叠加扰动,生成保留纯净音频的原始语义信息并对身份信息脱敏的对抗音频,使用对抗音频与外界进行交互。
进一步地,所述的高保真语音脱敏方法包括以下步骤:
S01,构建生成式对抗网络,随机初始化网络中语音鉴别模型和对抗样本生成模型的参数;
S02,采集纯净音频数据集,将数据集分为训练集和测试集;
S03,利用训练集对生成式对抗网络进行训练,分为两个阶段:
第一阶段,将语音鉴别模型、预训练好的说话人识别模型和语音识别模型的参数固定;通过反向传播算法对对抗样本生成模型的参数进行迭代更新,选取使得测试集的损失函数最低的对抗样本生成模型的参数作为最佳参数保存;
第二阶段,将对抗样本生成模型按照第一阶段得到的最佳参数进行固定,通过反向传播算法对语音鉴别模型的参数进行迭代更新,选取使得测试集的损失函数最低的语音鉴别模型的参数作为最佳参数保存;
第二阶段,将对抗样本生成模型按照第一阶段得到的最佳参数进行固定,通过反向传播算法对语音鉴别模型的参数进行迭代更新,使用测试集选取语音鉴别模型的最佳参数;
循环执行第一阶段和第二阶段的训练过程,直至对抗样本生成模型的参数和语音鉴别模型的参数满足优化的既定目标,训练完成;
S04,将训练完成后得到的对抗样本生成模型作为语音脱敏模型,将说话人音频作为语音脱敏模型的输入,利用语音脱敏模型对输入的说话人音频叠加扰动,生成保留说话人音频的原始语义信息并对说话人身份信息脱敏的对抗音频,使用对抗音频与外界进行交互,实现隐藏说话人身份的目的。
进一步地,将每一个训练周期得到的模型参数保存在一个断点文件中,当前训练周期结束后,利用测试集测试模型的训练损失函数值是否降低,若是,则删除先前的断点文件,保留当前的断点文件;若否,则删除当前的断点文件,保留先前的断点文件。
进一步地,在对生成式对抗网络进行训练的过程中,采用极小极大博弈算法使得对抗样本生成模型和语音鉴别模型在交替训练后达到动态平衡。
进一步地,所述的利用训练集对生成式对抗网络进行训练的第一阶段中,反向传播算法的损失包括三部分:声纹损失、语义损失和相似性损失;
所述的声纹损失的计算具体为:通过说话人识别模型对纯净音频和对抗音频进行编码,获得纯净音频声纹矩阵和对抗音频声纹矩阵,计算二者之间的余弦距离作为声纹损失。
所述的语义损失的计算具体为:通过语音识别模型对纯净音频和对抗音频进行内容识别,得到纯净音频的单词序列X和对抗音频的单词序列,计算二者的连接时序分类损失作为语义损失;
所述的相似性损失的计算具体为:通过语音鉴别模型提取纯净音频和对抗音频的相似性特征,预测对抗音频与纯净音频的相似置信度,根据相似置信度与真实标签计算交叉熵损失作为相似性损失。
进一步地,所述的利用训练集对生成式对抗网络进行训练的第二阶段中,反向传播算法的损失为相似性损失;所述的相似性损失的计算具体为:通过语音鉴别模型提取纯净音频和对抗音频的相似性特征,预测对抗音频与纯净音频的相似置信度,根据相似置信度与真实标签计算交叉熵损失作为相似性损失。
第二个方面,本发明提出了一种基于对抗样本生成技术的高保真语音脱敏装置,用于实现上述的高保真语音脱敏方法。
本发明的有益效果在于:
(1)本发明利用对抗样本生成技术改变音频中的声纹特征,对于原音频的扰动非常小,无论是在物理域还是数字域中都能轻易被相应实体捕获到其中的语义内容。
(2)本发明所训练出的语音脱敏模型不依赖于特殊硬件,具有高移植性,占据存储资源小,响应及时,处理迅速的特点。
(3)当说话人识别模型以及语音识别模型迭代发展时,只需要将网络训练时相应的模型替换一下,就能达到适应模型迭代发展的脱敏效果,在迭代发展后的模型作用下实现更为精准有效的语音脱敏。
附图说明
图1为本发明实施例示出的一种基于对抗样本生成的高保真语音脱敏方法的工作流程示意图。
图2为本发明实施例示出的语音脱敏模型训练流程示意图。
具体实施方式
下面结合附图对发明的技术方案进行说明。附图仅为本发明的示意性图解,附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本发明提出了对抗样本生成的高保真语音脱敏技术,构建生成对抗样本的损失函数并进行迭代优化以生成人耳不可察觉的扰动,使得在隐私的语音数据上添加扰动后,用户的音频内容能够被人听清,语音识别模型能够正确解析其中语义消息,但是智能设备却无法提取用户的真实声纹,在将音频数据上传后也无法对其进行非法利用,以此保护用户的隐私。
图1为本发明的方法工作流程示意图。本发明使用一种生成式对抗网络进行面向语音的对抗样本生成,该网络将作为脱敏模型进行使用,可实现对该语音中包含的说话人信息的模糊,实现保护原始语义信息并对身份信息脱敏的效果。整个工作流程可以分为两个阶段:
第一阶段是训练语音脱敏模型。首先,搭建一个生成式对抗网络并初始化训练的超参数,如训练周期,学习率等,所述的生成式对抗网络包括一个对抗样本生成模型和一个语音鉴别模型;收集网络上公开的或者已有的语音资源作为样本,将样本分为测试集、训练集。然后,依次训练对抗样本生成模型和语音鉴别模型,并保存训练集损失值小的模型参数,直到训练周期达到所设阈值。
在第二阶段是应用阶段。将训练好的对抗样本生成模型作为语音脱敏模型,对输入的纯净音频加以处理,生成脱敏后的语音用于提供给外界,以达到保护说话人身份的目的。
本实施例中,对抗音频是通过语音脱敏模型在输入的纯净音频上施加细微的扰动后生成的,实现保护原始语义信息并对身份信息脱敏的效果。
本发明的语音脱敏模型训练流程示意图分为两个部分:
如图2中的(a)所示,第一部分是训练对抗样本生成模型。首先将语音鉴别模型、说话人识别模型、语音识别模型参数固定;如果存在之前保存的对抗样本生成模型参数,则直接加载,否则随机初始化模型参数,通过反向传播算法让对抗样本生成模型参数不断更新学习,并用测试集选取使得模型泛化能力较好的参数保存。
本实施例中,所述的说话人识别模型和语音识别模型的预训练好的,不需要更新参数;将对抗样本生成模型输出的对抗音频分别作为语音鉴别模型、说话人识别模型、语音识别模型的输入,反向传播算法的损失函数分为三个部分:声纹损失、语义损失、以及相似性损失。
所述的声纹损失的计算为:通过说话人识别模型对纯净音频和对抗音频进行编码,获得纯净音频声纹矩阵和对抗音频声纹矩阵,计算二者之间的余弦距离,公式为:
Loss声纹=cosine(A,A’)
其中,A表示纯净音频声纹矩阵,A’表示对抗音频声纹矩阵,Loss声纹表示声纹损失。
所述的语义损失的计算为:利用语音识别模型对纯净音频和对抗音频进行内容识别,所述的语音识别模型能够解码出音频所包含的完整的语句或者单词信息,得到纯净音频的单词序列X和对抗音频的单词序列Y,其中单词序列X即对抗音频的语义内容真值,计算单词序列X和单词序列Y的连接时序分类损失,公式为:
Loss语义=CTCLoss(X,Y)
其中,Loss语义表示连接时序分类损失。
所述的相似性损失的计算为:利用语音鉴别模型提取纯净音频和对抗音频的相似性特征,预测对抗音频样本为正样本的概率,即对抗音频与纯净音频之间的相似性程度(相似置信度),根据语音鉴别模型输出的相似置信度与真实标签计算交叉熵损失,公式为:
Figure BDA0003678776450000051
Li=-(yn*log(zn)+(1-yn)*log(1-zn))
其中,N为样本数量,zn表示预测第n个对抗音频样本为正样本的概率,yn表示第n个对抗音频样本的标签,Li表示第i个对抗音频样本的交叉熵损失,Loss相似表示所有样本的平均交叉熵损失。
将训练对抗样本生成模型总的损失函数即为三者的线性组合,本领域技术人员可根据实际情况赋予三者不同的权重,以寻找最符合期望的脱敏模型。
如图2中的(b)所示,第二部分是训练语音鉴别模型。固定对抗样本生成模型参数,如果存在之前保存的语音鉴别模型参数,则直接加载,否则随机初始化语音鉴别模型参数,在训练过程中通过反向传播算法使得语音鉴别模型参数不断更新学习,并用测试集选取能够使模型泛化能力较好的参数进行保存。在第二部分的训练过程中,损失函数为语音鉴别模型输出的相似置信度与真实标签之间的交叉熵损失。
循环交替执行第一部分的训练过程和第二部分的训练过程,直至对抗样本生成模型的参数和语音鉴别模型的参数满足优化的既定目标,训练完成。本实施例中,可以设置一个训练周期的阈值,采用极小极大博弈算法使得对抗样本生成模型和语音鉴别模型在交替训练后达到动态平衡。
与前述的一种基于对抗样本生成的高保真语音脱敏方法的实施例相对应,本申请还提供了一种基于对抗样本生成的高保真语音脱敏装置的实施例,所述的装置包括:
生成式对抗网络模块,其包括对抗样本生成模型、语音鉴别模型、说话人识别模型和语音识别模型;
生成式对抗网络训练模块,其用于对生成式对抗网络中的对抗样本生成模型、语音鉴别模型进行训练,获得最佳参数;
数据获取模块,其用于获取纯净音频数据集构建训练集、测试集,以及用于获取需要进行脱敏处理的说话人音频;
语音脱敏模块,其用于加载训练好的对抗样本生成模型的参数,将加载得到的对抗样本生成模型作为语音脱敏模型;以及,用于获取需要进行脱敏处理的说话人音频并作为语音脱敏模型的输入,输出脱敏后的对抗音频用于与外界进行交互,实现隐藏说话人身份的目的。
关于上述实施例中的装置,其中各个单元或模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中各个模块都可以是或者也可以不是物理上分开的。另外,在本发明中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现,以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。

Claims (7)

1.一种基于对抗样本生成技术的高保真语音脱敏方法,其特征在于,包括以下步骤:
构建生成式对抗网络,包括待训练的对抗样本生成模型、语音鉴别模型、以及预训练的说话人识别模型和语音识别模型;
对生成式对抗网络进行训练,将训练好的生成式对抗网络中的对抗样本生成模型作为语音脱敏模型,利用语音脱敏模型对输入的纯净音频叠加扰动,生成保留纯净音频的原始语义信息并对身份信息脱敏的对抗音频,使用对抗音频与外界进行交互。
2.根据权利要求1所述的一种基于对抗样本生成技术的高保真语音脱敏方法,其特征在于,所述的高保真语音脱敏方法包括以下步骤:
S01,构建生成式对抗网络,随机初始化网络中语音鉴别模型和对抗样本生成模型的参数;
S02,采集纯净音频数据集,将数据集分为训练集和测试集;
S03,利用训练集对生成式对抗网络进行训练,分为两个阶段:
第一阶段,将语音鉴别模型、预训练好的说话人识别模型和语音识别模型的参数固定;通过反向传播算法对对抗样本生成模型的参数进行迭代更新,选取使得测试集的损失函数最低的对抗样本生成模型的参数作为最佳参数保存;
第二阶段,将对抗样本生成模型按照第一阶段得到的最佳参数进行固定,通过反向传播算法对语音鉴别模型的参数进行迭代更新,选取使得测试集的损失函数最低的语音鉴别模型的参数作为最佳参数保存;
循环执行第一阶段和第二阶段的训练过程,直至对抗样本生成模型的参数和语音鉴别模型的参数满足优化的既定目标,训练完成;
S04,将训练完成后得到的对抗样本生成模型作为语音脱敏模型,将说话人音频作为语音脱敏模型的输入,利用语音脱敏模型对输入的说话人音频叠加扰动,生成保留说话人音频的原始语义信息并对说话人身份信息脱敏的对抗音频,使用对抗音频与外界进行交互,实现隐藏说话人身份的目的。
3.根据权利要求2所述的一种基于对抗样本生成技术的高保真语音脱敏方法,其特征在于,将每一个训练周期得到的模型参数保存在一个断点文件中,当前训练周期结束后,利用测试集测试模型的训练损失函数值是否降低,若是,则删除先前的断点文件,保留当前的断点文件;若否,则删除当前的断点文件,保留先前的断点文件。
4.根据权利要求1或2所述的一种基于对抗样本生成技术的高保真语音脱敏方法,其特征在于,在对生成式对抗网络进行训练的过程中,采用极小极大博弈算法使得对抗样本生成模型和语音鉴别模型在交替训练后达到动态平衡。
5.根据权利要求2所述的一种基于对抗样本生成技术的高保真语音脱敏方法,其特征在于,所述的利用训练集对生成式对抗网络进行训练的第一阶段中,反向传播算法的损失包括三部分:声纹损失、语义损失和相似性损失;
所述的声纹损失的计算具体为:通过说话人识别模型对纯净音频和对抗音频进行编码,获得纯净音频声纹矩阵和对抗音频声纹矩阵,计算二者之间的余弦距离作为声纹损失。
所述的语义损失的计算具体为:通过语音识别模型对纯净音频和对抗音频进行内容识别,得到纯净音频的单词序列X和对抗音频的单词序列,计算二者的连接时序分类损失作为语义损失;
所述的相似性损失的计算具体为:通过语音鉴别模型提取纯净音频和对抗音频的相似性特征,预测对抗音频与纯净音频的相似置信度,根据相似置信度与真实标签计算交叉熵损失作为相似性损失。
6.根据权利要求2所述的一种基于对抗样本生成技术的高保真语音脱敏方法,其特征在于,所述的利用训练集对生成式对抗网络进行训练的第二阶段中,反向传播算法的损失为相似性损失;所述的相似性损失的计算具体为:通过语音鉴别模型提取纯净音频和对抗音频的相似性特征,预测对抗音频与纯净音频的相似置信度,根据相似置信度与真实标签计算交叉熵损失作为相似性损失。
7.一种基于对抗样本生成技术的高保真语音脱敏装置,用于实现权利要求1所述的高保真语音脱敏方法,所述的语音脱敏装置包括:
生成式对抗网络模块,其包括对抗样本生成模型、语音鉴别模型、说话人识别模型和语音识别模型;
生成式对抗网络训练模块,其用于对生成式对抗网络中的对抗样本生成模型、语音鉴别模型进行训练,获得最佳参数;
数据获取模块,其用于获取纯净音频数据集构建训练集、测试集,以及用于获取需要进行脱敏处理的说话人音频;
语音脱敏模块,其用于加载训练好的对抗样本生成模型的参数,将加载得到的对抗样本生成模型作为语音脱敏模型;以及,用于获取需要进行脱敏处理的说话人音频并作为语音脱敏模型的输入,输出脱敏后的对抗音频用于与外界进行交互,实现隐藏说话人身份的目的。
CN202210629015.9A 2022-06-06 2022-06-06 基于对抗样本生成的高保真语音脱敏方法和装置 Pending CN115083426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210629015.9A CN115083426A (zh) 2022-06-06 2022-06-06 基于对抗样本生成的高保真语音脱敏方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210629015.9A CN115083426A (zh) 2022-06-06 2022-06-06 基于对抗样本生成的高保真语音脱敏方法和装置

Publications (1)

Publication Number Publication Date
CN115083426A true CN115083426A (zh) 2022-09-20

Family

ID=83248534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210629015.9A Pending CN115083426A (zh) 2022-06-06 2022-06-06 基于对抗样本生成的高保真语音脱敏方法和装置

Country Status (1)

Country Link
CN (1) CN115083426A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952854A (zh) * 2023-03-14 2023-04-11 杭州太美星程医药科技有限公司 文本脱敏模型的训练方法、文本脱敏方法及应用

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952854A (zh) * 2023-03-14 2023-04-11 杭州太美星程医药科技有限公司 文本脱敏模型的训练方法、文本脱敏方法及应用

Similar Documents

Publication Publication Date Title
Kwon et al. Selective audio adversarial example in evasion attack on speech recognition system
CN105702263B (zh) 语音重放检测方法和装置
WO2021159902A1 (zh) 年龄识别方法、装置、设备及计算机可读存储介质
CN111241291A (zh) 利用对抗生成网络生成对抗样本的方法及装置
CN112837669B (zh) 语音合成方法、装置及服务器
Chen et al. Distribution-preserving steganography based on text-to-speech generative models
Dawood et al. A robust voice spoofing detection system using novel CLS-LBP features and LSTM
Nagakrishnan et al. A robust cryptosystem to enhance the security in speech based person authentication
CN115083426A (zh) 基于对抗样本生成的高保真语音脱敏方法和装置
CN110232927B (zh) 说话人验证反欺骗方法和装置
Dixit et al. Review of audio deepfake detection techniques: Issues and prospects
Pai et al. Designing a secure audio/text based captcha using neural network
CN117079658A (zh) 一种基于差分隐私的说话人匿名化系统及方法
CN113129875A (zh) 一种基于对抗样本的语音数据隐私保护方法
Altalahin et al. Unmasking the truth: A deep learning approach to detecting deepfake audio through mfcc features
CN111354374A (zh) 语音处理方法、模型训练方法及电子设备
Nagaraja et al. VoIPLoc: passive VoIP call provenance via acoustic side-channels
CN111899747B (zh) 用于合成音频的方法和装置
Gupta et al. A predictive approach for speaker verification by machine learning and MFCC
Li On identity authentication technology of distance education system based on voiceprint recognition
Wang et al. An opt-in framework for privacy protection in audio-based applications
Markowitz The many roles of speaker classification in speaker verification and identification
Khanbekov et al. Continuous speaker authentication when using network administrator virtual assistant
Dou et al. Cochleagram-based identification of electronic disguised voice with pitch scaling in the noisy environment
Mutrak et al. Intelligent Virtual Assistant-VISION

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination