CN112927694B - 一种基于融合声纹特征的语音指令合法性判别方法 - Google Patents

一种基于融合声纹特征的语音指令合法性判别方法 Download PDF

Info

Publication number
CN112927694B
CN112927694B CN202110249305.6A CN202110249305A CN112927694B CN 112927694 B CN112927694 B CN 112927694B CN 202110249305 A CN202110249305 A CN 202110249305A CN 112927694 B CN112927694 B CN 112927694B
Authority
CN
China
Prior art keywords
voice
signal
voiceprint
features
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110249305.6A
Other languages
English (en)
Other versions
CN112927694A (zh
Inventor
宋军
张芷馨
刘欢
胡祎伟
黄邑灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202110249305.6A priority Critical patent/CN112927694B/zh
Publication of CN112927694A publication Critical patent/CN112927694A/zh
Application granted granted Critical
Publication of CN112927694B publication Critical patent/CN112927694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明提供一种基于融合声纹特征的语音指令合法性判别方法,包括:设备终端获取语音信号,并转化为文字;将文字与设备终端语音唤醒库中的唤醒词进行匹配,若文字与唤醒词匹配成功,则使用语音活动端点检测技术VAD对所述语音信号进行分离;对分离后的语音信号进行预处理;对预处理后的语音信号提取各个声纹特征,包括:CQCC特征、MFCC特征、LPCC特征和IMFCC特征;对各个声纹特征逐一串行合并,得到融合声纹特征;将所述融合声纹特征输入至结合注意力机制和MFM激活函数的ResNet网络进行训练,得到训练好的语音识别模型;利用训练好的语音识别模型检测语音攻击。本发明的有益效果:可以有效检测并防御恶意语音欺诈攻击设备终端,显著提高了终端可用性。

Description

一种基于融合声纹特征的语音指令合法性判别方法
技术领域
本发明涉及语音识别产品的安全领域,具体涉及一种基于融合声纹特征的语音指令合法性判别方法。
背景技术
语音活动端点检测技术(VAD)对语音指令进行分离,以去除噪音段对说话人声纹特征的影响。传统的VAD方法基于短时能量和短时平均过零率进行端点检测。
现有的大多数语音攻击检测方法采用单一的检测算法来检测某一种语音攻击,如申请号为CN201610220000.1的发明,采用长窗比例因子的回放语音攻击检测算法,检测的语音攻击只有语音重放攻击。然而现在的语音攻击多种多样,如重放攻击,模拟攻击,海豚攻击等等。只检测单一的语音攻击是完全不够的。
现有的语音攻击检测方法多数采用计算语音序列的相似度来抵御攻击,如申请号为CN201811621085.X的发明采用计算气爆音相似度的方式来判断语音是否为攻击语音,该方式计算较为复杂。本发明受卷积神经网络在图像识别领域中应用的启发,将融合声纹特征视为图像信息。以卷积神经网络模型为基础,对单一声纹特征逐一进行串行合并构建融合声纹特征。融合声纹特征符合卷积神经网络模型的输入特点,可以省略复杂的时序权重计算,提高模型的训练效率。
现有的语音攻击检测方法需要用户提供额外的身份认证。现有的一些语音攻击检测方法只针对某一具体的设备。
发明内容
有鉴于此,本发明提供了一种基于融合声纹特征的语音指令合法性判别方法,本发明采用了结合卷积神经网络(CNN)和循环神经网络(RNN)模型来提高语音段与噪音段分离的准确率。通过CNN从原始的语音输入中自动学习语音信号的最佳表示,并将学习到的语音信号中间表示放入RNN网络中进行学习及预测。经过VAD技术,可成功对语音段和噪音段进行分割,显著降低噪声对说话人声纹特征的影响。经过分离得到的噪音段将用于噪声音量检测,语音段将提取单一声纹特征。
本发明提供一种基于融合声纹特征的语音指令合法性判别方法,包括以下步骤:
S101:设备终端获取语音信号,并将所述语音信号转化为文字;
S102:将文字与设备终端语音唤醒库中的唤醒词进行匹配,若文字与唤醒词匹配成功,则进入步骤S103,否则流程结束;
S103:使用语音活动端点检测技术VAD对所述语音信号进行分离,得到分离后的语音信号;
S104:对分离后的语音信号进行预处理,得到预处理后的语音信号;
S105:对预处理后的语音信号提取各个声纹特征,包括:语音段常数Q变换倒谱系数CQCC特征、梅尔倒谱系数MFCC特征、语音段线性预测倒谱系数LPCC特征和语音段IMFCC特征;
S106:对各个声纹特征逐一串行合并,得到融合声纹特征;
S107:将所述融合声纹特征输入至结合注意力机制和MFM激活函数的ResNet网络进行训练,得到训练好的语音识别模型;
S108:利用训练好的语音识别模型检测语音攻击。
进一步地,步骤S104中,对分离后的语音信号进行预处理,具体包括:预加重处理、分帧处理和加窗处理;
预加重处理,具体如式(1):
y(n)=x(n)-0.97*x(n-1) (1)
式(1)中,x(n)为分离后的语音信号;y(n)为预加重后的信号;
分帧处理:将预加重信号每N个采样点组成一帧;N为预设值;
加窗处理:将每帧信号乘以窗函数,得到加窗后信号,具体如式(2):
Sw(n)=y(n)×W(n) (2)
式(2)中,W(n)为窗函数,Sw(n)为加窗后信号。
进一步地,步骤S105中,提取梅尔倒谱系数MFCC特征具体过程如下:
S201:对加窗后信号Sw(n)进行快速傅里叶变换,得到变换后的信号;
S202:对变换后的信号进行Mel滤波,得到滤波信号;
S203:计算滤波信号中每个滤波器组输出的对数能量;
S204:根据对数能量,使用离散余弦变换DCT求解梅尔倒谱系数MFCC特征。
进一步地,步骤S105中,提取语音段IMFCC特征具体过程为:将步骤S202中Mel滤波替换为IMel滤波,其余过程与提取梅尔倒谱系数MFCC特征保持不变,最终得到语音段IMFCC特征。
进一步地,步骤S105中提取语音段常数Q变换倒谱系数CQCC特征,具体过程为:对预处理后的语音信号进行CQT变换,得到CQT信号;根据CQT信号提取语音段常数Q变换倒谱系数CQCC特征,如式(3):
Figure GDA0003764710020000031
式(3)中,CQCC(p)为提取的语音段常数Q变换倒谱系数CQCC特征;l为均匀重新采样频率区间的标号;p=0,1,...,L-1,L为均匀重新采样频率区间总数;XCQ(l)为CQT信号。
进一步地,步骤S105中提取语音段线性预测倒谱系数LPCC特征的具体过程如下:通过语音样本获取语音预测系数;根据所述语音预测系数,进行倒谱分析,得到语音段线性预测倒谱系数LPCC特征。
步骤S106中,对各个声纹特征进行合并前,还对其进行标准化处理;标准化如式(4)所示:
Figure GDA0003764710020000041
式(4)中,x′为一维的声纹特征向量;
Figure GDA0003764710020000042
为一维的声纹特征向量均值;s2为一维的声纹特征向量标准差。
本发明的有益效果是:本发明基于人声与机器声学特征的不同,利用合法语音指令与攻击语音指令声纹特征存在的差异性,分别提取待识别语音的MFCC、IMFCC、CQCC、LPCC和频率特征,并利用卷积神经网络将这些特征进行融合,得到语音的融合特征。利用融合特征判断语音指令的合法性,无需用户提供额外的身份认证,可以有效检测并防御恶意语音欺诈攻击,显著提高了系统的可用性。解决了已有研究方案中针对应用程序修改加密传感器数据导致技术缺乏一般性或影响应用程序有效性的问题;改进了实施访问控制策略导致的检测攻击范围较窄和借助外部硬件导致的应用局限性问题。
附图说明
图1是本发明一种基于融合声纹特征的语音指令合法性判别方法的流程示意图;
图2为语音段提取的工作流程图;
图3为去噪后的语音段预处理流程图;
图4为语音特征提取的工作流程图;
图5为特征融合流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
为了更好的解释说明,本发明先对相关专业概念进行释义如下:
(1)梅尔倒谱系数(MFCC)是语音识别领域中最常用的特征之一。它描述人类的听觉感知,以达到拟合人类听觉系统的目的。MFCC特征是一种将低频部分放大,将高频部分压缩,从而获得类似于人类听觉感知的特征。
(2)常数Q变换倒谱系数(CQCC),它可有效捕获特殊迹象并寻找攻击语音与真实语音之间的差距。
(3)IMFCC特征,主要是为了解决不同设备发出攻击语音的差异度集中在低频部分而提出,可以减小播放设备不同带来的误差,突出真实语音和重放语音之间的差异。
(4)LPCC特征通常用于捕获通过说话者的声道特性表现出的说话者特定信息。
请参考图1,本发明提供的一种基于融合声纹特征的语音指令合法性判别方法,具体包括以下步骤:
S101:设备终端获取语音信号,并将所述语音信号转化为文字;
设备终端可以为具备语音识别功能信号的终端,但对此不作限制;优选的,本发明中用百度短语音识别API将捕获到的音频识别为文字;
S102:将文字与设备终端语音唤醒库中的唤醒词进行匹配,若文字与唤醒词匹配成功,则进入步骤S103,否则流程结束;
请参考图2,为语音段提取的工作流程图;优选的,百度语音识别API返回JSON格式的语音识别结果,提取“result”字段数据作为语音识别内容,并与语音唤醒词库中用户使用的唤醒词(如:“Hi,Siri”、“小爱同学”等)进行匹配。若匹配成功,则推断该音频样本需要进行识别检测,进入后续步骤;
S103:使用语音活动端点检测技术VAD对所述语音信号进行分离,得到分离后的语音信号;
优选的,本发明将语音信号转为wav格式,通过调用vad_extract.py脚本文件执行VAD技术,分离噪声及语音段,生成噪声及语音段的wav文件并存入原始语音所目录下;
通过组合使用Java提供的Runtime类和Process类的方法实现vad_extract.py脚本文件的跨平台调用;Runtime.getRuntime()返回当前应用程序的Runtime对象,该对象的exec()方法指示Java虚拟机创建一个子进程执行指定的可执行程序,并返回与该子进程对应的Process对象实例。VolumeDect类实现了将输入语音进行噪音段与语音段分离的功能,其中changeToWav函数将传入的arm音频转化为wav格式。VAD函数进行语音分离操作GetVolume函数为对外接口,传入带噪语音路径即可得到对应噪音及语音段的wav文件路径;这里也可以采用其他相关方法,不用以作限制;
S104:对分离后的语音信号进行预处理,得到预处理后的语音信号;
优选的,预处理操作包括预加重操作、分帧处理和加窗处理;请参考图3,图3为去噪后语音段预处理流程图;
(1)预加重操作,减轻噪声对信号的影响,尤其是尖锐噪声,突出高频部分。同时消除发声过程中声带和嘴唇的震动效应,以补偿语音信号受发音系统抑制的高频部分。具体公式下,其中x(n)为原始信号,即n时刻的语音采样值;y(n)为预加重后信号;0.97为预加重系数;
y(n)=x(n)-0.97·x(n-1)
(2)分帧处理。将语音信号中每N个采样点集合成一个观测单位,分帧过程中,让相邻两帧之间有一段重叠区域。此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。
(3)加窗处理。将每一帧乘以窗函数,以增加每一帧的左端和右端的连续性。其中W(n)是窗函数(通常为汉明窗),Sw(n)是加窗后信号。
Sw(n)=y(n)×W(n)
S105:对预处理后的语音信号提取各个声纹特征,包括:语音段常数Q变换倒谱系数CQCC特征、梅尔倒谱系数MFCC特征、语音段线性预测倒谱系数LPCC特征和语音段IMFCC特征;
请参考图4,图4为语音特征提取流程图;提取MFCC特征具体如下:
(1)对加窗信号Sw(n)进行快速傅里叶变换,公式如下:
Figure GDA0003764710020000071
Xa(k)为快速傅里叶变换后的信号;k为语音信号帧数的序号;N表示傅里叶变换的点数;
(2)对傅里叶变换后的加窗信号进行Mel滤波;
(3)计算每个滤波器组输出的对数能量,公式如下:
Figure GDA0003764710020000081
i为滤波器组的编号;Hm(i)为三角滤波器的频率响应;M为滤波器组的总数;
(4)使用离散余弦变换(DCT)求出MFCC特征,公式如下:
Figure GDA0003764710020000082
C(n)为MFCC特征;M是三角滤波器个数;
提取IMFCC特征:IMFCC的提取过程与MFCC类似,主要区别在于将提取过程中的Mel滤波器组更换为IMel滤波器组。
取语音段常数Q变换倒谱系数(CQCC)特征:
(1)对预处理后的语音帧进行CQT变换。离散时域信号的CQT特征XCQ(k,n)定义如下:
Figure GDA0003764710020000083
其中k=1,2,...,K是频率窗的索引,
Figure GDA0003764710020000084
是ak(n)的复共轭函数,Nk是可变窗函数的长度。基函数ak(n)定义如下:
Figure GDA0003764710020000091
其中,fk是窗k的中心频率,fs是采样率,φk是相位偏移。比例因子C定义如下:
Figure GDA0003764710020000092
其中w(·)为窗函数。fk定义如下:
Figure GDA0003764710020000093
其中f1是最低频率区间的中心频率,B确定每个八度音程的箱数。
Q因子由下式给出:
Figure GDA0003764710020000094
对信号进行重建,对第一个k区间(低频)进行下采样操作和对剩余K-k区间(高频)进行上采样操作,fk和f1之间的距离的公式如下所示:
Figure GDA0003764710020000095
其中k=1,2,...,K是频率窗索引。距离
Figure GDA0003764710020000096
是k的函数,寻找用于线性重采样的周期Tl。相当于确定kl∈1,2,...,K的值,并得到Tl
Figure GDA0003764710020000101
解决上述问题只需要关注第一个间隔音阶。一旦Tl在该间隔音程中被修复,较高的间隔音程的分辨率将比间隔音阶高出两倍。通过将第一个间隔音阶分割成具有周期Tl的d个相等部分,通过求解kl可获得线性分辨率:
Figure GDA0003764710020000102
新的频率由下式给出:
Figure GDA0003764710020000103
该公式以间隔音阶作为单位,每一个间隔中均有不定个数的均匀样本,第j-1个间隔中含有的样本为2d个。信号重建的算法采用多相抗混叠滤波器和样本插值方法以均匀采样率Fl重新采样信号。
(2)提取CQCC,公式如下:
Figure GDA0003764710020000104
其中p=0,1,...,L-1,l是均匀重新采样的频率区间。
提取语音段线性预测倒谱系数(LPCC)特征。第m个语音样本可以通过其前个样本的线性组合来预测,即:
S(m)≈a1S(m-1)+a2S(m-2)+…anS(m-n)
其中a1,a2,a3...被称为线性预测系数,为一段连续语音分析帧上的常数。这些系数被用来预测语音样本。此外,预测误差(e(m))由下列公式计算得到:
Figure GDA0003764710020000111
其中S(m)和
Figure GDA0003764710020000112
分别是原始语音信号和预测语音信号。为了计算一组唯一的预测系数,根据(e(m))的最小均方误差(MSE)准则,求取MSE期望值Em
Figure GDA0003764710020000113
其中p是特定语音分析帧的数目。为了解决上述LPCC方程,必须使Em对每一个ak进行求偏导,其偏导数结果为0。
Figure GDA0003764710020000114
结果化简为:
Figure GDA0003764710020000115
Figure GDA0003764710020000116
表示成自相关形式(Yule-Walker方程):
Figure GDA0003764710020000121
上式拆写为加权式子,即得到Toeplize矩阵,使用Levinson-Durbin算法来求解Toeplize矩阵。求出预测系数后,进行倒谱分析。最终,可以使用下列递推式,计算LPCC特征。
C0=logen,p=1
Figure GDA0003764710020000122
Figure GDA0003764710020000123
S106:对各个声纹特征逐一串行合并,得到融合声纹特征;
请参考图5,图5为特征融合流程图;优选的,以卷积神经网络模型为基础,对之前提取的单一声纹特征逐一进行串行合并构建融合声纹特征,各声纹特征进行融合时进行标准化处理,最终得到融合声纹特征。标准化如下所示:
Figure GDA0003764710020000124
式中,x′为一维的声纹特征向量;
Figure GDA0003764710020000125
为一维的声纹特征向量均值;s2为一维的声纹特征向量标准差。
S107:将所述融合声纹特征输入至结合注意力机制和MFM激活函数的ResNet网络进行训练,得到训练好的语音识别模型;
将融合声纹特征传入改进后的ResNet,首先经过独立自注意力层,利用注意力机制帮助模型对输入值的每个部分赋予不同的权重,抽取出更加关键及重要的信息。然后特征经过激活函数为MFM的卷积层,MFM操作类似于生物识别中的局部特征选择,其通过不同滤波器在每个位置选择最优特征,在反向传播时导致0、1梯度来抑制或激活神经元。最后经过全连接层输出结果。
S108:利用训练好的语音识别模型检测语音攻击。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:本发明使用了一种基于融合声纹特征的语音指令合法性判别方案。本发明基于人声与机器声学特征的不同,利用合法语音指令与攻击语音指令声纹特征存在的差异性,分别提取待识别语音的MFCC、IMFCC、CQCC、LPCC和频率特征,并利用卷积神经网络将这些特征进行融合,得到语音的融合特征。利用融合特征判断语音指令的合法性,无需用户提供额外的身份认证,可以有效检测并防御恶意语音欺诈攻击,显著提高了系统的可用性。解决了已有研究方案中针对应用程序修改加密传感器数据导致技术缺乏一般性或影响应用程序有效性的问题;改进了实施访问控制策略导致的检测攻击范围较窄和借助外部硬件导致的应用局限性问题。
在不冲突的情况下,本发明中上述实施例及实施例中的特征可以相互结合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:包括以下步骤:
S101:设备终端获取语音信号,并将所述语音信号转化为文字;
S102:将文字与设备终端语音唤醒库中的唤醒词进行匹配,若文字与唤醒词匹配成功,则进入步骤S103,否则流程结束;
S103:使用语音活动端点检测技术VAD对所述语音信号进行分离,得到分离后的语音信号;
S104:对分离后的语音信号进行预处理,得到预处理后的语音信号;
S105:对预处理后的语音信号提取各个声纹特征,包括:语音段常数Q变换倒谱系数CQCC特征、梅尔倒谱系数MFCC特征、语音段线性预测倒谱系数LPCC特征和语音段IMFCC特征;
S106:对各个声纹特征逐一串行合并,得到融合声纹特征;
S107:将所述融合声纹特征输入至结合注意力机制和MFM激活函数的ResNet网络进行训练,得到训练好的语音识别模型;
S108:利用训练好的语音识别模型检测语音攻击。
2.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:
步骤S104中,对分离后的语音信号进行预处理,具体包括:预加重处理、分帧处理和加窗处理;
预加重处理,具体如式(1):
y(n)=x(n)-0.97*x(n-1) (1)
式(1)中,x(n)为分离后的语音信号;y(n)为预加重后的信号;
分帧处理:将预加重信号每N个采样点组成一帧;N为预设值;
加窗处理:将每帧信号乘以窗函数,得到加窗后信号,具体如式(2):
Sw(n)=y(n)×W(n) (2)
式(2)中,W(n)为窗函数,Sw(n)为加窗后信号。
3.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中,提取梅尔倒谱系数MFCC特征具体过程如下:
S201:对加窗后信号Sw(n)进行快速傅里叶变换,得到变换后的信号;
S202:对变换后的信号进行Mel滤波,得到滤波信号;
S203:计算滤波信号中每个滤波器组输出的对数能量;
S204:根据对数能量,使用离散余弦变换DCT求解梅尔倒谱系数MFCC特征。
4.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中,提取语音段IMFCC特征具体过程为:将步骤S202中Mel滤波替换为IMel滤波,其余过程与提取梅尔倒谱系数MFCC特征保持不变,最终得到语音段IMFCC特征。
5.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中提取语音段常数Q变换倒谱系数CQCC特征,具体过程为:
对预处理后的语音信号进行CQT变换,得到CQT信号;根据CQT信号提取语音段常数Q变换倒谱系数CQCC特征,如式(3):
Figure FDA0003764710010000031
式(3)中,CQCC(p)为提取的语音段常数Q变换倒谱系数CQCC特征;l为均匀重新采样频率区间的标号;p=0,1,...,L-1,L为均匀重新采样频率区间总数;XCQ(l)为CQT信号。
6.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中提取语音段线性预测倒谱系数LPCC特征的具体过程如下:通过语音样本获取语音预测系数;根据所述语音预测系数,进行倒谱分析,得到语音段线性预测倒谱系数LPCC特征。
7.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S106中,对各个声纹特征进行合并前,还对其进行标准化处理;标准化如式(4)所示:
Figure FDA0003764710010000032
式(4)中,x′为一维的声纹特征向量;
Figure FDA0003764710010000033
为一维的声纹特征向量均值;s2为一维的声纹特征向量标准差。
CN202110249305.6A 2021-03-08 2021-03-08 一种基于融合声纹特征的语音指令合法性判别方法 Active CN112927694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110249305.6A CN112927694B (zh) 2021-03-08 2021-03-08 一种基于融合声纹特征的语音指令合法性判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110249305.6A CN112927694B (zh) 2021-03-08 2021-03-08 一种基于融合声纹特征的语音指令合法性判别方法

Publications (2)

Publication Number Publication Date
CN112927694A CN112927694A (zh) 2021-06-08
CN112927694B true CN112927694B (zh) 2022-09-13

Family

ID=76171832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110249305.6A Active CN112927694B (zh) 2021-03-08 2021-03-08 一种基于融合声纹特征的语音指令合法性判别方法

Country Status (1)

Country Link
CN (1) CN112927694B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436646B (zh) * 2021-06-10 2022-09-23 杭州电子科技大学 一种采用联合特征与随机森林的伪装语音检测方法
CN113488074B (zh) * 2021-08-20 2023-06-23 四川大学 一种用于检测合成语音的二维时频特征生成方法
CN114003885B (zh) * 2021-11-01 2022-08-26 浙江大学 一种智能语音认证方法、系统及可存储介质
CN115188387B (zh) * 2022-07-12 2023-04-07 四川农业大学 一种有效的海洋哺乳动物声音自动检测和分类方法
CN116087339A (zh) * 2023-04-11 2023-05-09 中国科学院地质与地球物理研究所 一种基于智能声纹识别的近钻头岩性识别方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108039176A (zh) * 2018-01-11 2018-05-15 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
CN109243487A (zh) * 2018-11-30 2019-01-18 宁波大学 一种归一化常q倒谱特征的回放语音检测方法
CN110299141A (zh) * 2019-07-04 2019-10-01 苏州大学 一种声纹识别中录音回放攻击检测的声学特征提取方法
CN110718229A (zh) * 2019-11-14 2020-01-21 国微集团(深圳)有限公司 录音回放攻击的检测方法及对应检测模型的训练方法
CN112270931A (zh) * 2020-10-22 2021-01-26 江西师范大学 一种基于孪生卷积神经网络进行欺骗性语音检测的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10325601B2 (en) * 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
AU2018226844B2 (en) * 2017-03-03 2021-11-18 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108039176A (zh) * 2018-01-11 2018-05-15 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
CN109243487A (zh) * 2018-11-30 2019-01-18 宁波大学 一种归一化常q倒谱特征的回放语音检测方法
CN110299141A (zh) * 2019-07-04 2019-10-01 苏州大学 一种声纹识别中录音回放攻击检测的声学特征提取方法
CN110718229A (zh) * 2019-11-14 2020-01-21 国微集团(深圳)有限公司 录音回放攻击的检测方法及对应检测模型的训练方法
CN112270931A (zh) * 2020-10-22 2021-01-26 江西师范大学 一种基于孪生卷积神经网络进行欺骗性语音检测的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Comparison of Features for Replay Attack Detection;Zhifeng Xie等;《Journal of Physics: Conference Series》;20190224;全文 *
Replay Attack Detection Using Linear Prediction Analysis-Based Relative Phase Features;Khomdet Phapatanaburi等;《IEEE Access》;20191217;全文 *
基于信道信息的数字音频盲取证关键问题研究;王志锋;《中国博士学位论文全文数据库信息科技辑》;20131115;全文 *
基于倒谱特征的重放语音检测;金雨晨等;《物联网技术》;20200630;全文 *

Also Published As

Publication number Publication date
CN112927694A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN112927694B (zh) 一种基于融合声纹特征的语音指令合法性判别方法
WO2021139425A1 (zh) 语音端点检测方法、装置、设备及存储介质
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
TW201935464A (zh) 基於記憶性瓶頸特徵的聲紋識別的方法及裝置
US8069039B2 (en) Sound signal processing apparatus and program
EP1569200A1 (en) Identification of the presence of speech in digital audio data
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
KR20010102549A (ko) 화자 인식 방법 및 장치
CN111445900A (zh) 一种语音识别的前端处理方法、装置及终端设备
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN112397093B (zh) 一种语音检测方法与装置
CN116665649A (zh) 基于韵律特征的合成语音检测方法
Isyanto et al. Voice biometrics for Indonesian language users using algorithm of deep learning CNN residual and hybrid of DWT-MFCC extraction features
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
CN113241059B (zh) 语音唤醒方法、装置、设备及存储介质
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Kajita et al. Speech analysis and speech recognition using subbandautocorrelation analysis
Islam et al. Improvement of speech enhancement techniques for robust speaker identification in noise
CN115641856B (zh) 一种语音的重复音频检测方法、装置及存储介质
KR102300599B1 (ko) 가중치를 이용한 음성 신호의 스트레스 판별 방법 및 그를 위한 장치
Tashan et al. Vowel based speaker verification using self organising map
Chaudhary Short-term spectral feature extraction and their fusion in text independent speaker recognition: A review
Pattanayak et al. Significance of single frequency filter for the development of children's KWS system.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant