CN115083423B - 语音鉴别的数据处理方法和装置 - Google Patents

语音鉴别的数据处理方法和装置 Download PDF

Info

Publication number
CN115083423B
CN115083423B CN202210861979.6A CN202210861979A CN115083423B CN 115083423 B CN115083423 B CN 115083423B CN 202210861979 A CN202210861979 A CN 202210861979A CN 115083423 B CN115083423 B CN 115083423B
Authority
CN
China
Prior art keywords
audio
training
acoustic features
quantized
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210861979.6A
Other languages
English (en)
Other versions
CN115083423A (zh
Inventor
陶建华
许乐
易江燕
张震
李鹏
石瑾
刘睿霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
National Computer Network and Information Security Management Center
Original Assignee
Institute of Automation of Chinese Academy of Science
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, National Computer Network and Information Security Management Center filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210861979.6A priority Critical patent/CN115083423B/zh
Publication of CN115083423A publication Critical patent/CN115083423A/zh
Application granted granted Critical
Publication of CN115083423B publication Critical patent/CN115083423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本公开涉及一种语音鉴别的数据处理方法和装置,涉及语音识别技术、人工智能和计算机技术领域,上述数据处理方法包括:获取待鉴别音频;对上述待鉴别音频进行特征提取,得到初始声学特征;对上述初始声学特征进行量化处理,得到量化声学特征;将上述量化声学特征输入至目标语音鉴别模型中进行处理,输出得到上述待鉴别音频的真伪结果,上述目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型。在确保语音真伪鉴别准确率的基础上能够提升语音真伪鉴别的鉴别速度,提升数据处理的效率。

Description

语音鉴别的数据处理方法和装置
技术领域
本公开涉及语音识别技术、人工智能和计算机技术领域,尤其涉及一种语音鉴别的数据处理方法和装置。
背景技术
随着深度学习技术的发展,基于神经网络或音频编辑软件进行语音合成、模仿操作,对目标说话人的数字音频文件进行修改等得到的语音在听感层面极其接近于原声,将这种通过软件或神经网络生成的语音称为合成语音或生成语音。
相对于人真实发出的语音而言,这些合成语音容易对信息安全产生极大威胁,例如在安全支付的语音验证环节、语音门禁系统等。
发明内容
为了解决或者至少部分地解决发现的以下技术问题:目前针对合成语音的鉴别检测技术大多聚焦于对识别准确率的提升方面,在涉及到电信诈骗、伪造语音进行安全支付等对识别速度有较高要求的情景,目前的检测方式难以实现语音真伪的快速鉴别;本公开的实施例提供了一种语音鉴别的数据处理方法和装置,以在确保语音真伪鉴别准确率的基础上提升语音真伪鉴别的鉴别速度,提升数据处理的效率。
第一方面,本公开的实施例提供了一种语音鉴别的数据处理方法。上述数据处理方法包括:获取待鉴别音频;对上述待鉴别音频进行特征提取,得到初始声学特征;对上述初始声学特征进行量化处理,得到量化声学特征;将上述量化声学特征输入至目标语音鉴别模型中进行处理,输出得到上述待鉴别音频的真伪结果,上述目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型。
根据本公开的实施例,对上述初始声学特征进行量化处理,得到量化声学特征,包括:统计上述初始声学特征的特征值分布情况,得到特征值分布结果;根据上述特征值分布结果中的分布密集程度,将上述初始声学特征的特征值划分至多个数值区间,分布越稀疏对应划分的区间个数越少且区间范围越大,分布越密集对应划分的区间个数越多且区间范围越小;针对上述初始声学特征划分至上述多个数值区间内的各个特征值,分别进行量化处理,得到量化声学特征。
根据本公开的实施例,在对特征值进行量化处理时,根据上述待鉴别音频的音频类型对应的预设量化步长范围,确定各个数值区间所对应的量化步长,其中,区间范围越大的区间所对应的量化步长大于或等于区间范围越小的区间所对应的量化步长。
根据本公开的实施例,上述目标语音鉴别模型通过以下方式得到:获取参数预训练好的语音鉴别模型;对上述参数预训练好的语音鉴别模型的模型参数进行量化处理;获取训练音频样本的训练量化声学特征;将上述训练量化声学特征输入至量化处理后的语音鉴别模型,根据输出结果来对量化处理后的模型参数进行微调,得到上述目标语音鉴别模型。
根据本公开的实施例,获取参数预训练好的语音鉴别模型,包括:获取训练音频库中的训练音频样本;对上述训练音频样本进行特征提取,得到训练声学特征;将上述训练声学特征输入至参数待训练的神经网络模型中,将上述训练音频样本为真实音频或伪造音频的真实结果作为训练标签,对上述神经网络模型进行预训练,得到参数预训练好的语音鉴别模型。获取训练音频样本的训练量化声学特征,包括:对上述训练音频样本的训练声学特征进行量化处理,得到训练量化声学特征。
根据本公开的实施例,上述目标语音鉴别模型通过以下方式得到:获取训练音频库中的训练音频样本;对上述训练音频样本进行特征提取,得到训练声学特征;将上述训练声学特征输入至参数待训练的神经网络模型中,将上述训练音频样本为真实音频或伪造音频的真实结果作为训练标签,对上述神经网络模型进行预训练,得到参数预训练好的语音鉴别模型;对上述训练声学特征进行量化处理,得到训练量化声学特征;对上述语音鉴别模型的模型参数进行量化处理;将上述训练量化声学特征输入至量化处理后的语音鉴别模型,根据输出结果来对量化处理后的模型参数进行微调,得到参数预训练好且经过量化后的目标语音鉴别模型。
根据本公开的实施例,对上述训练音频样本的训练声学特征进行量化处理,得到训练量化声学特征,包括:统计上述训练声学特征的特征值分布情况,得到训练特征值分布结果;根据上述训练特征值分布结果中的分布密集程度,将上述训练声学特征的特征值划分为多个数值区间,分布越稀疏对应划分的区间个数越少且区间范围越大,分布越密集对应划分的区间个数越多且区间范围越小;针对上述训练声学特征划分至上述多个数值区间内的各个特征值,分别进行量化处理,得到训练量化声学特征。
根据本公开的实施例,上述数据处理方法还包括:将上述待鉴别音频的量化声学特征以整形类型的数据存储至数据队列中;从上述数据队列中获取一个或多个目标待鉴别音频的量化声学特征;其中,将上述量化声学特征输入至目标语音鉴别模型中进行处理,包括:将从上述数据队列中获取到的上述目标待鉴别音频的量化声学特征输入至目标语音鉴别模型中进行处理。
根据本公开的实施例,对上述待鉴别音频进行特征提取,得到初始声学特征,包括:对上述待鉴别音频进行分帧加窗处理;对分帧加窗处理后的音频进行取绝对值计算;对取绝对值后的音频进行快速傅里叶变换FFT处理;对经FFT处理后的音频输入至滤波器组进行滤波处理;对滤波处理后的音频进行离散余弦变换DCT处理,得到倒谱系数,上述倒谱系数作为上述初始声学特征。
第二方面,本公开的实施例提供了一种语音鉴别的数据处理装置。上述数据处理装置包括:数据获取模块、特征提取模块、量化模块和处理模块。上述数据获取模块用于获取待鉴别音频。上述特征提取模块用于对上述待鉴别音频进行特征提取,得到初始声学特征。上述量化模块用于对上述初始声学特征进行量化处理,得到量化声学特征。上述处理模块用于将上述量化声学特征输入至目标语音鉴别模型中进行处理,输出得到上述待鉴别音频的真伪结果,上述目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型。
第三方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的语音鉴别的数据处理方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的语音鉴别的数据处理方法。
本公开实施例提供的一些技术方案至少具有如下优点的部分或全部:
通过对待鉴别音频进行特征提取,得到初始声学特征;对上述初始声学特征进行量化处理,得到量化声学特征;将上述量化声学特征输入至目标语音鉴别模型中进行处理,其中目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型,同时结合输入前的量化声学特征和模型参数为经过量化的模型参数,避免了常规输入参数为浮点数的转换运算,同时将数据转换过程与语音鉴别模型解耦,能够更加精细的控制特征的量化过程,实现更高精度的特征量化,有利于对最终模型输出准确率的保留,从而在确保语音真伪鉴别准确率的基础上提升语音真伪鉴别的鉴别速度,提升数据处理的效率的同时还节约存储成本,适配于实时语音鉴别或者对语音真伪鉴别速度要求比较快的场景。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了根据本公开一实施例的语音鉴别的数据处理方法的流程图;
图2示意性地示出了根据本公开实施例的量化处理前后的特征值对比图,其中(a)为量化处理前的初始化声学特征图,(b)为量化处理后的量化声学特征图;
图3示意性地示出了根据本公开实施例的步骤S120的详细实施流程图;
图4示意性地示出了根据本公开实施例的步骤S130的详细实施流程图;
图5示意性地示出了根据本公开实施例的待鉴别音频的初始特征值的分布结果示意图;
图6示意性地示出了根据本公开实施例的目标语音鉴别模型的构建过程示意图;
图7示意性地示出了根据本公开另一实施例的语音鉴别的数据处理方法的流程图;
图8示意性地示出了根据本公开实施例的语音鉴别的数据处理方法执行过程中涉及的数据类型运算过程示意图;
图9示意性示出了根据本公开实施例的语音鉴别的数据处理装置的结构框图;以及
图10示意性示出了本公开实施例提供的电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的第一个示例性实施例提供了一种语音鉴别的数据处理方法。本实施例提供的数据处理方法可以由电子设备来执行,该电子设备具有神经网络模型或者能够调用神经网络模型来进行数据处理。该电子设备可以是安装有语音鉴别软件的终端设备或者为语音鉴别软件提供服务的服务器。
图1示意性地示出了根据本公开实施例的语音鉴别的数据处理方法的流程图。
参照图1所示,本公开的实施例提供的语音鉴别的数据处理方法,包括以下步骤:S110、S120、S130和S140。
在步骤S110,获取待鉴别音频。
待鉴别音频可以是真实的音频或者通过神经网络或音频编辑软件等进行语音合成、模仿操作得到的合成音频。另外,上述待鉴别音频可以是各种语种下的音频。
在步骤S120,对上述待鉴别音频进行特征提取,得到初始声学特征。
在该步骤S120中,可以基于特征提取网络来对待鉴别音频进行特征提取,也可以基于其他处理方式来进行特征提取。进行特征提取得到的声学特征一般为浮点形式(float),例如为基于单精度fp32((32bit,4个字节))形式来进行存储和计算。
在步骤S130,对上述初始声学特征进行量化处理,得到量化声学特征。
本公开的实施例中,通过对初始声学特征进行量化处理,量化处理的量化准则如下:
Figure 709249DEST_PATH_IMAGE001
,(1)
其中,
Figure 42141DEST_PATH_IMAGE002
表示x经量化处理后的取值;x表示量化处理前的初始声学特征的特征值;
Figure 856513DEST_PATH_IMAGE003
表示量化零点,即为原x可取的最小值的量化结果;S表示量化尺度,它定义了量化的步长,如果x的变换小于这个步长,量化结果将不变。
由于特征量化的方法与具体的倒谱系数无关,存在更高的鲁棒性,适用于以各种倒谱系数为输入的语音鉴别模型。
例如,在一实施例中,初始声学特征可以是MFCC(梅尔倒谱系数)、CQCC(常数Q变换倒谱系数)、LFCC(线性频率倒谱系数)等各种倒谱系数。
图2示意性地示出了根据本公开实施例的量化处理前后的特征值对比图,其中(a)为量化处理前的初始化声学特征图,(b)为量化处理后的量化声学特征图。
以MFCC为例,对某一输入的待鉴别音频提取出来的初始声学特征:MFCC进行量化处理后,参照图2中(a)和(b)所示,量化处理前后的信息丢失率很小,基本各帧在各个维度下的特征在量化前后的对比差异很小,量化处理后的量化声学特征基本保留了原先待鉴别音频的大部分特征信息。
通过以下公式计算信息丢失率:
Figure 678976DEST_PATH_IMAGE004
,(2)
其中,Iloss表示信息丢失率,A i 表示初始声学特征值,B i 表示量化后的特征值,i表示特征的序号,row表示全部特征的最大序号,右上角的T表示转置。
经计算可知,对于整数线性尺度的量化结果,对应的特征经过量化前后的信息丢失率小于0.2%。
在步骤S140,将上述量化声学特征输入至目标语音鉴别模型中进行处理,输出得到上述待鉴别音频的真伪结果,上述目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型。
目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型,该语音鉴别模型可以是神经网络模型,该神经网络模型的各个参数是预训练好且经过量化的。
基于上述步骤S110~S140,通过对待鉴别音频进行特征提取,得到初始声学特征;对上述初始声学特征进行量化处理,得到量化声学特征;将上述量化声学特征输入至目标语音鉴别模型中进行处理,其中目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型,同时结合输入前的量化声学特征和模型参数为经过量化的模型参数,避免了常规输入参数为浮点数的转换运算,同时将数据转换过程与语音鉴别模型解耦,能够更加精细的控制特征的量化过程,实现更高精度的特征量化,有利于对最终模型输出准确率的保留,从而在确保语音真伪鉴别准确率的基础上提升语音真伪鉴别的鉴别速度,提升数据处理的效率的同时还节约存储成本,适配于实时语音鉴别或者对语音真伪鉴别速度要求比较快的场景。
图3示意性地示出了根据本公开实施例的步骤S120的详细实施流程图。
根据本公开的实施例,参照图3所示,上述步骤S120中,对上述待鉴别音频进行特征提取,得到初始声学特征,包括以下步骤:S310、S320、S330、S340和S350。
在步骤S310,对上述待鉴别音频进行分帧加窗处理。
语音信号分帧的目的是把若干个语音采样点分为一帧,在这一帧内,语音信号的特性可是视为是稳定的。语音分帧并不是确定帧长就结束了,为了使得语音帧之间有一个平滑的过度,一般帧与帧之间有一定的重叠,相邻两帧的起始位置的时间差叫做帧移。选择较短的帧移可以跟踪语音信号的连续性,并且不会遗漏帧边缘处的突然变化,即有助于处理语速较快的情况;较长的帧移意味着较少的语音帧数目,这减少了后续相关处理(如解码)的计算量。
为了避免频谱泄露(任何其他类型的操作产生了新的频率成分,就称其为频谱泄漏。频谱泄漏使信号真实频率进行DFT操作之后,在多个频率之间扩展,这使得很难从频谱找到信号的实际频率),还需要进行加窗处理,窗函数设计使得频谱的能量主要集中在主瓣,尽量使旁瓣的能量低,使得窗口内的信号近似具有周期性。
在步骤S320,对分帧加窗处理后的音频进行取绝对值计算。
在步骤S330,对取绝对值后的音频进行快速傅里叶变换FFT处理。
在步骤S340,对经FFT处理后的音频输入至滤波器组进行滤波处理。
在步骤S350,对滤波处理后的音频进行离散余弦变换DCT处理,得到倒谱系数,上述倒谱系数作为上述初始声学特征。
倒谱系数包括但不限于是MFCC(梅尔倒谱系数)、CQCC(常数Q变换倒谱系数)、LFCC(线性频率倒谱系数)等。
在本公开的一些实施例中,可以预先对初始声学特征的量化步长进行实验调优,基于实验调优后的量化步长来对初始声学特征进行统一化量化处理,这种方式下,基本能够保证目标语音鉴别模型输出准确率,并能够提升语音真伪鉴别的鉴别速度。
在本公开的另一些实施例中,为了在已有准确度和较快的鉴别速度的情况下进一步提升目标语音鉴别模型输出准确率,提出了一种根据特征值分布来划分多个数值区间,并针对不同的数值区间进行各个区间的量化处理,同一个数值区间内的量化步长是一致的,不同数值区间的量化步长可以具有差异。
图4示意性地示出了根据本公开实施例的步骤S130的详细实施流程图。
根据本公开的实施例,参照图4所示,上述步骤S130中,对上述初始声学特征进行量化处理,得到量化声学特征,包括以下步骤:S410、S420和S430。
在步骤S410,统计上述初始声学特征的特征值分布情况,得到特征值分布结果。
图5示意性地示出了根据本公开实施例的待鉴别音频的初始特征值的分布示意图。
对多个待鉴别音频的初始声学特征的特征值的分布进行统计后,大致均呈正态分布,以其中一待鉴别音频的结果进行示意,参照图5所示,该待鉴别音频的初始声学特征的特征值分布呈两端稀疏、中间密集的正态分布形式,特征值取值在-40~40之间,特征值在-1~1的范围内较为集中。
基于上述可知,语音鉴别模型的输入特征值分布通常较为集中,且在[0,1]的范围内,基于以上特性,可以将调整量化边界后的量化值映射为INT8类型(整形的一种示例)的数据存储。该方法不仅可以节省声学特征文件存储的开销,还可以将浮点运算转换为整型运算,进而实现对模型速度的提升。
在步骤S420,根据上述特征值分布结果中的分布密集程度,将上述初始声学特征的特征值划分至多个数值区间;其中,分布越稀疏对应划分的区间个数越少且区间范围越大,分布越密集对应划分的区间个数越多且区间范围越小。
在这里的区间划分趋势中,指的是整体的趋势,对于分布密集程度差异很大的第一区间(例如为特征值分布很稀疏对应的区间)和第二区间(例如为特征值分布很密集的区间)而言,第一区间的区间范围大于第二区间的区间范围。
上述分布密集程度是指同一个取值或者取值范围内的特征值个数越多,表示分布越密集;反之,分布越稀疏。
示例性的,上述初始声学特征的特征值划分的区间包括:[-40,-24]、[-24,-15]、[-15,-10]、[-10,-8]、[-8,-6]、[-6,-4]、[-4,-3]、[-3,-2.2]、[-2.2,-1.6]、[-1.6,-1.1]、[-1.1,-0.7]、[-0.7,-0.5]、[-0.5,-0.4]、[-0.4,-0.35]、[-0.35,-0.3]、[-0.3,-0.25]、[-0.25,-0.2]、[-0.2,-0.15]、[-0.15,-0.1]、[-0.1,-0.05]、[-0.05,0]、[0,0.05]、[0.05,0.1]、[0.1,0.15]、[0.15,0.2]、[0.2,0.25]、[0.25,0.3]、[0.3,0.35]、[0.35,0.4]、[0.4,0.5]、[0.5,0.7]、[0.7,1.1]、[1.1,1.6]、[1.6,2.2]、[2.2,3]、[3,4]、[4,6]、[6,8]、[8,10]、[10,15]、[15,24]、[24,40]。
在步骤S430,针对上述初始声学特征划分至上述多个数值区间内的各个特征值,分别进行量化处理,得到量化声学特征。
基于上述步骤S410~S430,针对分布密集的特征值区间而言,量化过程中所涉及的数值个数较多,因此通过划分相对较小的区间范围和较多的区间个数来确保更小幅度内的量化,避免导致较大的信息损失率而影响准确度的提升;针对分布稀疏的特征值区间而言,量化过程中所涉及的数值个数较小,通过划分相对较大的区间范围和较少的区间个数,来保证准确率的同时还提升处理效率。
根据本公开的实施例,在对特征值进行量化处理时,根据上述待鉴别音频的音频类型对应的预设量化步长范围,确定各个数值区间所对应的量化步长,其中,区间范围越大的区间所对应的量化步长大于或等于区间范围越小的区间所对应的量化步长。
例如,不同音频类型对应的量化步长不同,例如,区间范围越小,匹配的量化步长越小。
待鉴别音频的音频类型包括大类和细分类,大类例如包括:中文音频、外文音频(可以是各种语种,诸如英文、日文、韩文等)等。细分类包括:普通话、方言等。由于不同音频类型所对应的发音方式存在差异,进行量化的量化尺度也是具有差异的,本公开的实施例中,不同的音频类型对应于各自的预设量化步长范围,可以通过预先实验来确定一个参考量化步长范围,将该参考量化步长范围作为实测过程中的预设量化步长范围。
另外,在一实施例中,在对所述特征值划分数值区间时,根据所述待鉴别音频的音频类型对应的预设量化步长范围,将特征值分布结果中分布稀疏的数值对应划分的区间范围等于或大于所述预设量化步长范围的最大值;将特征值分布结果中分布密集的数值对应划分的区间范围等于或小于所述预设量化步长范围的最小值。
在本公开的实施例中,目标语音鉴别模型的构建过程包括:获取参数预训练好的语音鉴别模型;对上述参数预训练好的语音鉴别模型的模型参数进行量化处理;获取训练音频样本的训练量化声学特征;将上述训练量化声学特征输入至量化处理后的语音鉴别模型,根据输出结果来根据实测结果来对量化处理后的模型参数进行微调,得到上述目标语音鉴别模型。上述模型参数进行量化处理的步骤和获取训练音频样本的训练量化声学特征的步骤不限定先后执行顺序。下面结合图6来示例一些具体实施过程。
图6示意性地示出了根据本公开实施例的目标语音鉴别模型的构建过程示意图。
根据本公开的实施例,参照图6所示,上述步骤S140中,目标语音鉴别模型的构建过程包括以下步骤:S610、S620、S630、S640、S650和S660。
在步骤S610,获取训练音频库中的训练音频样本。
在步骤S620,对上述训练音频样本进行特征提取,得到训练声学特征。
在步骤S630,将上述训练声学特征输入至参数待训练的神经网络模型中,将上述训练音频样本为真实音频或伪造音频的真实结果作为训练标签,对上述神经网络模型进行预训练,得到参数预训练好的语音鉴别模型。
参数待训练的神经网络模型中的参数是浮点类型。
在一些实施例中,上述参数预训练好的语音鉴别模型可以是直接获取到的已有的经过训练音频库进行语音鉴别预训练的预训练模型,或者基于上述步骤S610~S630训练得到的模型。
在步骤S640,对上述训练声学特征进行量化处理,得到训练量化声学特征。
根据本公开的实施例,可以基于与上述步骤130中实施方式对应的执行逻辑来对训练集数据进行量化处理。
例如,在一实施例中,对上述训练声学特征进行量化处理,得到训练量化声学特征,包括:统计上述训练声学特征的特征值分布情况,得到训练特征值分布结果;根据上述训练特征值分布结果中的分布密集程度,将上述训练声学特征的特征值划分为多个数值区间,分布越稀疏对应划分的区间个数越少且区间范围越大,分布越密集对应划分的区间个数越多且区间范围越小;针对上述训练声学特征划分至上述多个数值区间内的各个特征值,分别进行量化处理,得到训练量化声学特征。
在步骤S650,对上述语音鉴别模型的模型参数进行量化处理。
对模型参数进行量化处理的方式可以是:针对该语音鉴别模型中的各层参数进行预设量化尺度下的量化处理。
在步骤S660,将上述训练量化声学特征输入至量化处理后的语音鉴别模型,根据输出结果来对量化处理后的模型参数进行微调,得到参数预训练好且经过量化后的目标语音鉴别模型。
目标语音鉴别模型中的参数是量化后且经过微调处理适应于量化声学特征的模型参数。
图7示意性地示出了根据本公开另一实施例的语音鉴别的数据处理方法的流程图。
参照图7所示,本公开实施例提供的语音鉴别的数据处理方法除了包括上述步骤S110、S120、S130和S140之外,还包括以下步骤:S710和S720,本实施例中,步骤S140包括步骤S140a。
在步骤S110,获取待鉴别音频。
在步骤S120,对上述待鉴别音频进行特征提取,得到初始声学特征。
在步骤S130,对上述初始声学特征进行量化处理,得到量化声学特征。
在步骤S710,将上述待鉴别音频的量化声学特征以整形类型(int)的数据存储至数据队列中。
在步骤S720,从上述数据队列中获取一个或多个目标待鉴别音频的量化声学特征。
在步骤S140a,将从上述数据队列中获取到的上述目标待鉴别音频的量化声学特征输入至目标语音鉴别模型中进行处理,输出得到上述待鉴别音频的真伪结果。上述目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型。
在一些实施例中,执行步骤S130的第一功能模块与执行步骤S140的第二功能模块为独立的两个模块,在数据并行量大且集中的场景下,当待鉴别音频的数据量很大导致第二功能模块的处理速度匹配不上时,此时就需要对生成的量化声学特征在数据队列中进行缓存,等待第二功能模块执行完已有处理任务后再从数据队列中读取接下来要处理的目标待鉴别音频并输入至目标语音鉴别模型中进行处理。
图8示意性地示出了根据本公开实施例的语音鉴别的数据处理方法执行过程中涉及的数据类型运算过程示意图。
参照图8所示,目标语音鉴别模型为包括多个网络层的神经网络模型,通过对初始声学特征进行量化处理,得到量化声学特征,将量化声学特征作为量化后模型的输入,一方面,将模型输入和模型参数统合起来,输入和模型参数均为整形数据,例如图8中示例的权重参数和模型输入均为int8数据,避免了浮点运算以及传统方式中需要进行浮点运算和对浮点类型的转换过程,能够有效提升目标语音鉴别模型的运算速度;同时由于数值转换过程是以输入的预处理方式进行的,与模型自身的运算解耦,从而更加精细地控制特征的量化过程,实现更高精度的特征量化,有利于对最终模型输出准确率的保留。
需要强调的是,本公开的方案并不仅仅是对模型量化的简单套用,在模型量化过程中,由于输入通常为浮点值,所以将不可避免的涉及到浮点运算与类型转换,本公开实施例通过创新性地提出将输入特征的量化与模型的量化整体进行整合,并将输入特征的量化过程与模型自身的运算解耦,在保证模型输出准确率的基础上提升了模型的运算速度。
本公开的第二个示例性实施例提供了一种语音鉴别的数据处理装置。
图9示意性示出了根据本公开实施例的语音鉴别的数据处理装置的结构框图。
参照图9所示,本公开实施例提供的语音鉴别的数据处理装置900包括:数据获取模块901、特征提取模块902、量化模块903和处理模块904。
上述数据获取模块901用于获取待鉴别音频。
上述特征提取模块902用于对上述待鉴别音频进行特征提取,得到初始声学特征。上述特征提取模块902包括用于执行步骤S310~S350的功能模块或子模块。
上述量化模块903用于对上述初始声学特征进行量化处理,得到量化声学特征。上述量化模块903包括用于执行步骤S410~S430的功能模块或子模块。
上述处理模块904用于将上述量化声学特征输入至目标语音鉴别模型中进行处理,输出得到上述待鉴别音频的真伪结果,上述目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型。
在一些实施例中,上述数据处理装置900还包括:模型构建模块。在一实施例中,上述模型构建模块用于:获取参数预训练好的语音鉴别模型;对上述参数预训练好的语音鉴别模型的模型参数进行量化处理;获取训练量化声学特征;将上述训练量化声学特征输入至量化处理后的语音鉴别模型,根据输出结果来根据实测结果来对量化处理后的模型参数进行微调,得到上述目标语音鉴别模型。
在一具体实施例中,该模型构建模块用于:训练获取训练音频库中的训练音频样本;对上述训练音频样本进行特征提取,得到训练声学特征;将上述训练声学特征输入至参数待训练的神经网络模型中,将上述训练音频样本为真实音频或伪造音频的真实结果作为训练标签,对上述神经网络模型进行预训练,得到参数预训练好的语音鉴别模型;对上述训练声学特征进行量化处理,得到训练量化声学特征;对上述参数预训练好的语音鉴别模型的模型参数进行量化处理;将上述训练量化声学特征输入至量化处理后的语音鉴别模型,根据输出结果来根据实测结果来对量化处理后的模型参数进行微调,得到参数预训练好且经过量化后的目标语音鉴别模型。
上述装置900所包含的功能模块中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。上述装置900所包含的功能模块中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,上述装置900所包含的功能模块中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
本公开的第三个示例性实施例提供了一种电子设备。
图10示意性示出了本公开实施例提供的一种电子设备的结构框图。
参照图10所示,本公开实施例提供的电子设备1000包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001、通信接口1002和存储器1003通过通信总线1004完成相互间的通信;存储器1003,用于存放计算机程序;处理器1001,用于执行存储器上所存放的程序时,实现如上所述的语音鉴别的数据处理方法。
本公开的第四个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的语音鉴别的数据处理方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语音鉴别的数据处理方法,其特征在于,包括:
获取待鉴别音频;
对所述待鉴别音频进行特征提取,得到初始声学特征;
对所述初始声学特征进行量化处理,得到量化声学特征;
将所述量化声学特征输入至目标语音鉴别模型中进行处理,输出得到所述待鉴别音频的真伪结果,所述目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型;
其中,对所述初始声学特征进行量化处理,得到量化声学特征,包括:
统计所述初始声学特征的特征值分布情况,得到特征值分布结果;
根据所述特征值分布结果中的分布密集程度,将所述初始声学特征的特征值划分至多个数值区间;其中,分布越稀疏对应划分的区间个数越少且区间范围越大,分布越密集对应划分的区间个数越多且区间范围越小;
针对所述初始声学特征划分至所述多个数值区间内的各个特征值,分别进行量化处理,得到量化声学特征。
2.根据权利要求1所述的数据处理方法,其特征在于,在对特征值进行量化处理时,根据所述待鉴别音频的音频类型对应的预设量化步长范围,确定各个数值区间所对应的量化步长,其中,区间范围越大的区间所对应的量化步长大于或等于区间范围越小的区间所对应的量化步长。
3.根据权利要求1所述的数据处理方法,其特征在于,所述目标语音鉴别模型通过以下方式得到:
获取参数预训练好的语音鉴别模型;
对所述参数预训练好的语音鉴别模型的模型参数进行量化处理;
获取训练音频样本的训练量化声学特征;
将所述训练量化声学特征输入至量化处理后的语音鉴别模型,根据输出结果来对量化处理后的模型参数进行微调,得到所述目标语音鉴别模型。
4.根据权利要求3所述的数据处理方法,其特征在于,所述获取参数预训练好的语音鉴别模型,包括:
获取训练音频库中的训练音频样本;
对所述训练音频样本进行特征提取,得到训练声学特征;
将所述训练声学特征输入至参数待训练的神经网络模型中,将所述训练音频样本为真实音频或伪造音频的真实结果作为训练标签,对所述神经网络模型进行预训练,得到参数预训练好的语音鉴别模型;
所述获取训练音频样本的训练量化声学特征,包括:对所述训练音频样本的训练声学特征进行量化处理,得到训练量化声学特征。
5.根据权利要求4所述的数据处理方法,其特征在于,对所述训练音频样本的训练声学特征进行量化处理,得到训练量化声学特征,包括:
统计所述训练声学特征的特征值分布情况,得到训练特征值分布结果;
根据所述训练特征值分布结果中的分布密集程度,将所述训练声学特征的特征值划分为多个数值区间,分布越稀疏对应划分的区间个数越少且区间范围越大,分布越密集对应划分的区间个数越多且区间范围越小;
针对所述训练声学特征划分至所述多个数值区间内的各个特征值,分别进行量化处理,得到训练量化声学特征。
6.根据权利要求1所述的数据处理方法,其特征在于,还包括:
将所述待鉴别音频的量化声学特征以整形类型的数据存储至数据队列中;
从所述数据队列中获取一个或多个目标待鉴别音频的量化声学特征;
其中,将所述量化声学特征输入至目标语音鉴别模型中进行处理,包括:将从所述数据队列中获取到的所述目标待鉴别音频的量化声学特征输入至目标语音鉴别模型中进行处理。
7.根据权利要求1所述的数据处理方法,其特征在于,对所述待鉴别音频进行特征提取,得到初始声学特征,包括:
对所述待鉴别音频进行分帧加窗处理;
对分帧加窗处理后的音频进行取绝对值计算;
对取绝对值后的音频进行快速傅里叶变换FFT处理;
对经FFT处理后的音频输入至滤波器组进行滤波处理;
对滤波处理后的音频进行离散余弦变换处理,得到倒谱系数,所述倒谱系数作为所述初始声学特征。
8.一种语音鉴别的数据处理装置,其特征在于,包括:
数据获取模块,用于获取待鉴别音频;
特征提取模块,用于对所述待鉴别音频进行特征提取,得到初始声学特征;
量化模块,用于对所述初始声学特征进行量化处理,得到量化声学特征;其中,对所述初始声学特征进行量化处理,得到量化声学特征,包括:
统计所述初始声学特征的特征值分布情况,得到特征值分布结果;
根据所述特征值分布结果中的分布密集程度,将所述初始声学特征的特征值划分至多个数值区间;其中,分布越稀疏对应划分的区间个数越少且区间范围越大,分布越密集对应划分的区间个数越多且区间范围越小;
针对所述初始声学特征划分至所述多个数值区间内的各个特征值,分别进行量化处理,得到量化声学特征;
处理模块,用于将所述量化声学特征输入至目标语音鉴别模型中进行处理,输出得到所述待鉴别音频的真伪结果,所述目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7中任一项所述的数据处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的数据处理方法。
CN202210861979.6A 2022-07-21 2022-07-21 语音鉴别的数据处理方法和装置 Active CN115083423B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210861979.6A CN115083423B (zh) 2022-07-21 2022-07-21 语音鉴别的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210861979.6A CN115083423B (zh) 2022-07-21 2022-07-21 语音鉴别的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN115083423A CN115083423A (zh) 2022-09-20
CN115083423B true CN115083423B (zh) 2022-11-15

Family

ID=83243113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210861979.6A Active CN115083423B (zh) 2022-07-21 2022-07-21 语音鉴别的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN115083423B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153161A (zh) * 2023-10-31 2023-12-01 中国传媒大学 基于域不变表征学习的跨域语音鉴伪方法及系统
CN117351940B (zh) * 2023-12-05 2024-03-01 中国科学院自动化研究所 基于语音大模型的合成语音检测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2821036A1 (en) * 2008-03-10 2009-09-17 Sascha Disch Device and method for manipulating an audio signal having a transient event
CN104157290A (zh) * 2014-08-19 2014-11-19 大连理工大学 一种基于深度学习的说话人识别方法
CN107039036A (zh) * 2017-02-17 2017-08-11 南京邮电大学 一种基于自动编码深度置信网络的高质量说话人识别方法
CN108766465A (zh) * 2018-06-06 2018-11-06 华中师范大学 一种基于enf通用背景模型的数字音频篡改盲检测方法
CN110211593A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备及存储介质
CN113642710A (zh) * 2021-08-16 2021-11-12 北京百度网讯科技有限公司 一种网络模型的量化方法、装置、设备和存储介质
CN114386518A (zh) * 2022-01-14 2022-04-22 桂林电子科技大学 基于自适应宽度自注意力机制的轻量化异常声事件检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060227968A1 (en) * 2005-04-08 2006-10-12 Chen Oscal T Speech watermark system
AU2018226844B2 (en) * 2017-03-03 2021-11-18 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2821036A1 (en) * 2008-03-10 2009-09-17 Sascha Disch Device and method for manipulating an audio signal having a transient event
CN104157290A (zh) * 2014-08-19 2014-11-19 大连理工大学 一种基于深度学习的说话人识别方法
CN107039036A (zh) * 2017-02-17 2017-08-11 南京邮电大学 一种基于自动编码深度置信网络的高质量说话人识别方法
CN108766465A (zh) * 2018-06-06 2018-11-06 华中师范大学 一种基于enf通用背景模型的数字音频篡改盲检测方法
CN110211593A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备及存储介质
CN113642710A (zh) * 2021-08-16 2021-11-12 北京百度网讯科技有限公司 一种网络模型的量化方法、装置、设备和存储介质
CN114386518A (zh) * 2022-01-14 2022-04-22 桂林电子科技大学 基于自适应宽度自注意力机制的轻量化异常声事件检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于量子隧穿效应的说话人真伪鉴别方法;黄亮等;《计算机应用》;20170910(第09期);全文 *

Also Published As

Publication number Publication date
CN115083423A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN115083423B (zh) 语音鉴别的数据处理方法和装置
CN109599093B (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
CN106486131B (zh) 一种语音去噪的方法及装置
Hossan et al. A novel approach for MFCC feature extraction
CN109256144B (zh) 基于集成学习与噪声感知训练的语音增强方法
Hu et al. Pitch‐based gender identification with two‐stage classification
CN108831443B (zh) 一种基于堆叠自编码网络的移动录音设备源识别方法
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
Hasan et al. Preprocessing of continuous bengali speech for feature extraction
Li et al. A comparative study on physical and perceptual features for deepfake audio detection
Sampaio et al. Detection of AMR double compression using compressed-domain speech features
CN112767950A (zh) 一种声纹识别方法、装置及计算机可读存储介质
CN116884431A (zh) 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置
CN116959468A (zh) 一种基于dcctn网络模型的语音增强方法、系统及设备
Wang et al. Detection of voice transformation spoofing based on dense convolutional network
Lee et al. HYU Submission for The Dcase 2022: Fine-tuning method using device-aware data-random-drop for device-imbalanced acoustic scene classification
CN114420100B (zh) 语音检测方法及装置、电子设备及存储介质
CN112309404B (zh) 机器语音的鉴别方法、装置、设备及存储介质
CN116386664A (zh) 一种语音伪造检测方法、装置、系统及存储介质
CN111402898B (zh) 音频信号处理方法、装置、设备及存储介质
US20220277761A1 (en) Impression estimation apparatus, learning apparatus, methods and programs for the same
CN111292754A (zh) 语音信号处理方法、装置及设备
CN111326161A (zh) 一种声纹确定方法及装置
CN112820267B (zh) 波形生成方法以及相关模型的训练方法和相关设备、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant