CN113380235A - 基于知识迁移的电话信道虚假语音鉴别方法及存储介质 - Google Patents

基于知识迁移的电话信道虚假语音鉴别方法及存储介质 Download PDF

Info

Publication number
CN113380235A
CN113380235A CN202110931452.1A CN202110931452A CN113380235A CN 113380235 A CN113380235 A CN 113380235A CN 202110931452 A CN202110931452 A CN 202110931452A CN 113380235 A CN113380235 A CN 113380235A
Authority
CN
China
Prior art keywords
channel model
telephone
channel
telephone channel
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110931452.1A
Other languages
English (en)
Other versions
CN113380235B (zh
Inventor
易江燕
陶建华
田正坤
傅睿博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110931452.1A priority Critical patent/CN113380235B/zh
Publication of CN113380235A publication Critical patent/CN113380235A/zh
Application granted granted Critical
Publication of CN113380235B publication Critical patent/CN113380235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供一种基于知识迁移的电话信道虚假语音鉴别方法,包括:将利用麦克风信道语音数据训练而得的鉴别模型作为麦克风信道模型,将利用电话信道语音训练数据训练得到的声学模型视为电话信道模型;在所述电话信道模型训练过程中,应用所述麦克风信道模型指导所述电话信道模型进行训练,使得所述电话信道模型模仿所述麦克风信道模型的行为,即迫使所述电话信道模型的后验概率分布逼近所述麦克风信道模型的后验概率分布;应用训练后的电话信道模型对电话信道语音进行预测,得到电话信道语音的真假判别结果。

Description

基于知识迁移的电话信道虚假语音鉴别方法及存储介质
技术领域
本发明涉及语音鉴别领域,具体涉及一种基于知识迁移的电话信道虚假语音鉴别方法。
背景技术
语音合成与转换技术的日益成熟,与之相应的检测技术也受到越来越多的学者的关注。目前大多虚假语音鉴别技术都致力于解决麦克风信道语音的真假判别问题,很少关注电话信道语音的真假问题。但是语音是电话信道进行信息传输的天然载体,不需要视频或文本等模态就能很容易欺骗大众。因此研究电话信道语音真假的鉴别问题具有重要的意义。然而,因受电话带宽、编码标准和信道噪声的影响,电话信道虚假语音鉴别任务更具挑战性,目前方法采用高斯混合模型和深度神经网络及其变种,采集或模拟电话信道的语音数据进行模型训练。
公开号为CN112992126A公开了一种语音真伪的验证方法、装置、电子设备及可读存储介质,包括:获取待识别语音;将待识别语音输入预先训练好的声音特征提取网络,得到目标特征向量;目标特征向量包含用于区分声音来源的待识别语音的时序信息以及音素长时对应信息;将目标特征向量输入至预先训练好的分类模型中,确定待识别语音是否为真实用户发出的;分类模型是基于最大互信息准则进行训练的,用于区分真实语音与伪造语音。
公开号为CN112712809B公开了一种语音检测方法、装置、电子设备及存储介质。从待检测语音中提取出多个语音特征信息;将语音特征信息分别输入至预先训练好的多个语音来源模型中,确定待检测语音与每个语音来源模型的来源类型之间的第一匹配度;针对于每个语音类别模型,基于确定出的第一匹配度,确定待检测语音与该语音类别模型对应的类别类型之间的第二匹配度;基于确定出的多个第一匹配度和多个第二匹配度,确定待检测语音的类别类型和来源类型。
现有技术缺点
但是相比于麦克风信道语音的鉴别任务,电话信道语音鉴别的错误率依然很高。因为电话带宽、各种编码标准和信道噪声掩盖了虚假语音的伪造痕迹,模型很难学习真假语音的区分性特征。
发明内容
有鉴于此,本发明第一方面提供一种基于知识迁移的电话信道虚假语音鉴别方法,包括:
利用麦克风信道语音数据训练而得的鉴别模型作为麦克风信道模型,将利用电话信道语音训练数据训练得到的声学模型视为电话信道模型;在所述电话信道模型训练过程中,应用所述麦克风信道模型指导所述电话信道模型进行训练,使得所述电话信道模型模仿所述麦克风信道模型的行为,即迫使所述电话信道模型的后验概率分布逼近所述麦克风信道模型的后验概率分布;应用训练后的电话信道模型对电话信道语音进行预测,得到电话信道语音的真假判别结果。;
所述应用所述麦克风信道模型指导所述电话信道模型进行训练,使得所述电话信道模型模仿所述麦克风信道模型的行为具体为:使所述电话信道模型的后验概率分布逼近所述麦克风信道模型的后验概率分布。
优选的,所述电话信道模型训练的具体步骤包括:
特征提取:
从麦克风信道的语音数据中提取麦克风信道声学特征;
从电话信道的语音数据中提取电话信道声学特征;
麦克风信道模型训练步骤:
将麦克风信道声学特征作为所述麦克风信道模型的输入,采用后向传播算法进行梯度反传,利用随机梯度下降算法更新所述麦克风信道模型参数,得到训练后的麦克风信道模型;
电话信道模型训练步骤:
将麦克风信道声学特征作为训练后的麦克风信道模型的输入,采用前向算法生成语音类别的后验概率;
利用电话信道声学特征作为所述电话信道模型的输入,应用所述麦克风信道模型生成的语音类别的后验概率指导所述电话信道模型进行训练,更新所述电话信道模型的参数,得到训练后的电话信道模型。
优选的,所述应用训练后的电话信道模型对电话信道语音进行预测的具体步骤包括:
电话信道特征提取:
从电话信道的语音预测数据中提取电话信道声学特征;
将所述电话信道声学特征输入训练后的电话信道模型,得到电话信道语音的鉴别结果。
优选的,所述应用所述麦克风信道模型生成的语音类别的后验概率指导所述电话信道模型进行训练的方法是通过最小化麦克风信道模型和电话信道模型之间后验概率分布的差异来实现。
优选的,所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示,具体计算公式包括:
Figure 286358DEST_PATH_IMAGE001
(1)
其中,P m 代表麦克风信道模型的后验概率,Q代表电话信道模型的后验概率;i表示为语音类别的下标,s i i对应的语音类别,x m 表示麦克风信道语音数据的声学特征,x表示电话信道语音数据的声学特征;P m (s i |x m )表示麦克风信道语音数据的声学特征x m 被识别为s i 的后验概率;Q (s i |x )表示电话信道语音数据的声学特征x被识别为s i 的后验概率。
优选的,所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示,具体计算公式还包括:
Figure 605475DEST_PATH_IMAGE002
(2)
其中,
Figure DEST_PATH_IMAGE003
(3)
Figure 618431DEST_PATH_IMAGE004
(4)。
其中,
Figure DEST_PATH_IMAGE005
代表 Q和Pm交叉熵,
Figure 297674DEST_PATH_IMAGE006
代表Pm信息熵。
优选的,所述公式(4)与所述麦克风信道模型的后验概率分布P m (s i |x m )有关,与电话信道模型的后验概率分布Q (s i |x )无关;
根据所述公式(2)-(4),所述公式(4)与所述麦克风信道模型的后验概率分布Pm(si|xm)有关,与电话信道模型的后验概率分布Q (si|x )无关,因此所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示,其计算公式可进一步简化为:
Figure DEST_PATH_IMAGE007
(5);
电话信道模型训练的优化准则即最小化公式(5)的差异。
优选的,所述麦克风信道声学特征为声学特征常数Q谱系数;所述电话信道声学特征为声学特征常数Q谱系数。
优选的,所述麦克风信道模型和电话信道模型均为深度神经网络模型。
本发明第二方面提供一种可读存储介质,其特征在于,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述所述的基于知识迁移的电话信道虚假语音鉴别方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的方法只在训练阶段利用麦克风信道模型的知识,在预测阶段直接利用电话信道模型鉴别即可,不会增加额外的计算开销,但提高了鉴别模型的鉴别精度。
附图说明
图1为本发明实施例提供的麦克风信道模型训练流程图;
图2为本发明实施例提供的电话信道模型训练流程图;
图3为本发明实施例提供的电话信道语音真假判别预测流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本申请提出利用知识迁移的方法对电话信道的语音进行声学建模,学习更具区分性的真假判别表征,以提高电话信道虚假语音的鉴别准确率。
本申请实施例提供的一种基于知识迁移的电话信道虚假语音鉴别方法,包括:
将利用麦克风信道语音数据训练而得的鉴别模型作为麦克风信道模型,将利用电话信道语音训练数据训练得到的声学模型视为电话信道模型;在所述电话信道模型训练过程中,应用所述麦克风信道模型指导所述电话信道模型进行训练,使得所述电话信道模型模仿所述麦克风信道模型的行为,即迫使所述电话信道模型的后验概率分布逼近所述麦克风信道模型的后验概率分布;应用训练后的电话信道模型对电话信道语音进行预测,得到电话信道语音的真假判别结果;
所述电话信道模型训练的具体步骤包括:
特征提取:
从麦克风信道的语音数据中提取麦克风信道声学特征常数Q谱系数(CQCC);
从电话信道的语音数据中提取电话信道声学特征常数Q谱系数(CQCC);
如图1所示,麦克风信道模型训练步骤:
将麦克风信道声学特征作为所述麦克风信道模型的输入,采用后向传播算法进行梯度反传,利用随机梯度下降算法更新所述麦克风信道模型参数,得到训练后的麦克风信道模型;
如图2所示,电话信道模型训练步骤:
将麦克风信道声学特征作为训练后的麦克风信道模型的输入,采用前向算法生成语音类别的后验概率;
利用电话信道声学特征作为所述电话信道模型的输入,应用所述麦克风信道模型生成的语音类别的后验概率指导训练所述电话信道模型,在电话信道模型训练的过程中,麦克风信道模型的参数保持不变,更新所述电话信道模型的参数,得到训练后的电话信道模型;所述麦克风信道模型和电话信道模型均为深度神经网络;所述深度神经网络包含2个卷积层和5个全连接层;每个卷积层采用最大池化进行处理,全连接层的节点数为2048;
所述应用所述麦克风信道模型生成的语音类别的后验概率指导所述电话信道模型进行训练的思想是通过最小化麦克风信道模型和电话信道模型之间后验概率分布的差异来实现。所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示,其计算公式可表示为:
Figure 463207DEST_PATH_IMAGE008
(1)
所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示,具体计算公式还可表示为:
Figure 936914DEST_PATH_IMAGE009
(2)
其中,
Figure 640427DEST_PATH_IMAGE003
(3)
Figure 342935DEST_PATH_IMAGE004
(4)
其中,
Figure 81084DEST_PATH_IMAGE010
代表 Q和Pm交叉熵,
Figure 725692DEST_PATH_IMAGE011
代表Pm信息熵,P m 代表麦克风信道模型的后验概率,Q代表电话信道模型的后验概率;i表示为语音类别的下标,s i i对应的语音类别,x m 表示麦克风信道语音数据的声学特征,x表示电话信道语音数据的声学特征;P m (s i |x m )表示麦克风信道语音数据的声学特征x m 被识别为s i 的后验概率;Q (s i |x )表示电话信道语音数据的声学特征x被识别为s i 的后验概率。
因为,公式(4)只与麦克风信道模型的后验概率分布有关,而与电话信道模型的后验概率分布无关,因此可以忽略,由此可得
Figure 916502DEST_PATH_IMAGE007
(5)
电话信道模型训练的优化准则即最小化公式(5)的差异。
如图3所示,所述应用训练后的电话信道模型对电话信道语音进行预测的具体步骤包括:
电话信道特征提取:
从电话信道采集的语音预测数据中提取电话信道声学特征CQCC;
将所述电话信道声学特征CQCC输入训练后的电话信道模型,得到电话信道语音的鉴别结果。
本方法只在训练阶段利用麦克风信道模型的后验概率知识,在预测阶段直接利用电话信道模型进行语音真假鉴别即可,不会增加额外的计算开销,但提高了电话信道模型的鉴别精度。
本发明还提供一种可读存储介质,其特征在于,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如实施例中所述的基于知识迁移的电话信道虚假语音鉴别方法。
本发明还提供一种计算机设备,包括处理器和存储器,其中,所述存储器,用于存放计算机程序;所述处理器,用于执行存储在所述存储器上的计算机程序时,实现实施例中所述基于知识迁移的电话信道虚假语音鉴别方法的步骤。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种基于知识迁移的电话信道虚假语音鉴别方法,其特征在于,所述方法包括:
利用麦克风信道语音数据训练而得的鉴别模型作为麦克风信道模型,将利用电话信道语音训练数据训练得到的声学模型视为电话信道模型;在所述电话信道模型训练过程中,应用所述麦克风信道模型指导所述电话信道模型进行训练,使得所述电话信道模型模仿所述麦克风信道模型的行为;应用训练后的电话信道模型对电话信道语音进行预测,得到电话信道语音的真假判别结果;
所述应用所述麦克风信道模型指导所述电话信道模型进行训练,使得所述电话信道模型模仿所述麦克风信道模型的行为具体为:使所述电话信道模型的后验概率分布逼近所述麦克风信道模型的后验概率分布。
2.根据权利要求1所述的基于知识迁移的电话信道虚假语音鉴别方法,其特征在于,所述电话信道模型训练的具体步骤包括:
特征提取:
从麦克风信道的语音数据中提取麦克风信道声学特征;
从电话信道的语音数据中提取电话信道声学特征;
麦克风信道模型训练步骤:
将麦克风信道声学特征作为所述麦克风信道模型的输入,采用后向传播算法进行梯度反传,利用随机梯度下降算法更新所述麦克风信道模型参数,得到训练后的麦克风信道模型;
电话信道模型训练步骤:
将麦克风信道声学特征作为训练后的麦克风信道模型的输入,采用前向算法生成语音类别的后验概率;
利用电话信道声学特征作为所述电话信道模型的输入,应用所述麦克风信道模型生成的语音类别的后验概率指导所述电话信道模型进行训练,更新所述电话信道模型的参数,得到训练后的电话信道模型。
3.根据权利要求2所述的基于知识迁移的电话信道虚假语音鉴别方法,其特征在于,所述应用训练后的电话信道模型对电话信道语音进行预测的具体步骤包括:
电话信道特征提取:
从电话信道的语音预测数据中提取电话信道声学特征;
将所述电话信道声学特征输入训练后的电话信道模型,得到电话信道语音的鉴别结果。
4.根据权利要求2所述的基于知识迁移的电话信道虚假语音鉴别方法,其特征在于,所述应用所述麦克风信道模型生成的语音类别的后验概率指导所述电话信道模型进行训练的方法是通过最小化麦克风信道模型和电话信道模型之间后验概率分布的差异来实现。
5.根据权利要求4所述的基于知识迁移的电话信道虚假语音鉴别方法,其特征在于,所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示,具体计算公式包括:
Figure 667616DEST_PATH_IMAGE001
(1)
其中,P m 代表麦克风信道模型的后验概率,Q代表电话信道模型的后验概率;i表示为语音类别的下标,s i i对应的语音类别,x m 表示麦克风信道语音数据的声学特征,x表示电话信道语音数据的声学特征;P m (s i |x m )表示麦克风信道语音数据的声学特征x m 被识别为s i 的后验概率;Q (s i |x )表示电话信道语音数据的声学特征x被识别为s i 的后验概率。
6.根据权利要求5所述的基于知识迁移的电话信道虚假语音鉴别方法,其特征在于,所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示,具体计算公式还包括:
Figure 971559DEST_PATH_IMAGE002
(2)
其中,
Figure 777841DEST_PATH_IMAGE003
(3)
Figure 703202DEST_PATH_IMAGE004
(4)
其中,
Figure 303948DEST_PATH_IMAGE005
代表 Q和P m 的交叉熵,
Figure 829607DEST_PATH_IMAGE006
代表P m 的信息熵。
7.根据权利要求6所述的基于知识迁移的电话信道虚假语音鉴别方法,其特征在于,
所述公式(4)与所述麦克风信道模型的后验概率分布P m (s i |x m )有关,与电话信道模型的后验概率分布Q (s i |x )无关;
根据所述公式(2)-(4),所述麦克风信道模型和电话信道模型之间后验概率分布的差异用相对熵来表示,其计算公式可进一步简化为:
Figure 705159DEST_PATH_IMAGE007
(5);
电话信道模型训练的优化准则即最小化公式(5)的差异。
8.根据权利要求2所述的基于知识迁移的电话信道虚假语音鉴别方法,其特征在于,所述麦克风信道声学特征为声学特征常数Q谱系数;所述电话信道声学特征为声学特征常数Q谱系数。
9.根据权利要求1所述的基于知识迁移的电话信道虚假语音鉴别方法,其特征在于,所述麦克风信道模型和电话信道模型均为深度神经网络。
10.一种可读存储介质,其特征在于,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1-9任一项所述的基于知识迁移的电话信道虚假语音鉴别方法。
CN202110931452.1A 2021-08-13 2021-08-13 基于知识迁移的电话信道虚假语音鉴别方法及存储介质 Active CN113380235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110931452.1A CN113380235B (zh) 2021-08-13 2021-08-13 基于知识迁移的电话信道虚假语音鉴别方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110931452.1A CN113380235B (zh) 2021-08-13 2021-08-13 基于知识迁移的电话信道虚假语音鉴别方法及存储介质

Publications (2)

Publication Number Publication Date
CN113380235A true CN113380235A (zh) 2021-09-10
CN113380235B CN113380235B (zh) 2021-11-16

Family

ID=77577113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110931452.1A Active CN113380235B (zh) 2021-08-13 2021-08-13 基于知识迁移的电话信道虚假语音鉴别方法及存储介质

Country Status (1)

Country Link
CN (1) CN113380235B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102396160A (zh) * 2009-07-10 2012-03-28 华为技术有限公司 用于评估串扰信道的强度的方法
CN103730112A (zh) * 2013-12-25 2014-04-16 安徽讯飞智元信息科技有限公司 语音多信道模拟与采集方法
US20150019214A1 (en) * 2013-07-10 2015-01-15 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
US20190266998A1 (en) * 2017-06-12 2019-08-29 Ping An Technology(Shenzhen) Co., Ltd. Speech recognition method and device, computer device and storage medium
CN111312283A (zh) * 2020-02-24 2020-06-19 中国工商银行股份有限公司 跨信道声纹处理方法及装置
CN111341323A (zh) * 2020-02-10 2020-06-26 厦门快商通科技股份有限公司 声纹识别训练数据扩增方法、系统、移动终端及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102396160A (zh) * 2009-07-10 2012-03-28 华为技术有限公司 用于评估串扰信道的强度的方法
US20150019214A1 (en) * 2013-07-10 2015-01-15 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
CN103730112A (zh) * 2013-12-25 2014-04-16 安徽讯飞智元信息科技有限公司 语音多信道模拟与采集方法
US20190266998A1 (en) * 2017-06-12 2019-08-29 Ping An Technology(Shenzhen) Co., Ltd. Speech recognition method and device, computer device and storage medium
CN111341323A (zh) * 2020-02-10 2020-06-26 厦门快商通科技股份有限公司 声纹识别训练数据扩增方法、系统、移动终端及存储介质
CN111312283A (zh) * 2020-02-24 2020-06-19 中国工商银行股份有限公司 跨信道声纹处理方法及装置

Also Published As

Publication number Publication date
CN113380235B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN107610692B (zh) 基于神经网络堆叠自编码器多特征融合的声音识别方法
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
US20080065380A1 (en) On-line speaker recognition method and apparatus thereof
WO2019191554A1 (en) Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition
CN110310647B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
KR101807948B1 (ko) 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법
CN110706692B (zh) 儿童语音识别模型的训练方法及系统
JP2017097162A (ja) キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
JP2016080916A (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
CN109346087B (zh) 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN102419974A (zh) 处理语音识别的稀疏表示特征的方法和系统
JP6723120B2 (ja) 音響処理装置および音響処理方法
Chakraborty et al. Bird call identification using dynamic kernel based support vector machines and deep neural networks
CN113284513B (zh) 基于音素时长特征的虚假语音检测方法及装置
CN113362814B (zh) 一种融合组合模型信息的语音鉴别模型压缩方法
TWI740315B (zh) 聲音分離方法、電子設備和電腦可讀儲存媒體
Yu et al. Cam: Context-aware masking for robust speaker verification
CN111666996B (zh) 一种基于attention机制的高精度设备源识别方法
Chang et al. Audio adversarial examples generation with recurrent neural networks
CN113380235B (zh) 基于知识迁移的电话信道虚假语音鉴别方法及存储介质
Qais et al. Deepfake audio detection with neural networks using audio features
JP4170072B2 (ja) 音声抽出装置
KR20210145733A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
US20220335928A1 (en) Estimation device, estimation method, and estimation program
CN113284486B (zh) 一种环境对抗的鲁棒语音鉴别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant