CN105139857A - 一种自动说话人识别中针对语音欺骗的对抗方法 - Google Patents

一种自动说话人识别中针对语音欺骗的对抗方法 Download PDF

Info

Publication number
CN105139857A
CN105139857A CN201510561139.8A CN201510561139A CN105139857A CN 105139857 A CN105139857 A CN 105139857A CN 201510561139 A CN201510561139 A CN 201510561139A CN 105139857 A CN105139857 A CN 105139857A
Authority
CN
China
Prior art keywords
vector
feature
mfcc
voice
ppp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510561139.8A
Other languages
English (en)
Other versions
CN105139857B (zh
Inventor
李明
翁时涛
王尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Original Assignee
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, SYSU CMU Shunde International Joint Research Institute filed Critical Sun Yat Sen University
Priority to CN201510561139.8A priority Critical patent/CN105139857B/zh
Publication of CN105139857A publication Critical patent/CN105139857A/zh
Application granted granted Critical
Publication of CN105139857B publication Critical patent/CN105139857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出了一种自动说话人识别中针对欺骗技术的对抗方法,该方法是基于多种特征和多个子系统融合方法的反语音欺骗技术。本发明通过融合语音层面音素后验概率串联特征和声音层面MFCC特征或相位层面MFDCC特征,系统的性能得到显著的提升。通过组合已经提出的i-vector子系统和涵盖声音和韵律层信息的OpenSMILE(open?Speech?and?Music?Interpretation?by?Large?Space?Extraction)基准,进一步提升了系统最终的表现。对于后端模型,使用开发数据,在欺骗性攻击已知的情况下,两级的支持向量机比一级余弦相似度或PLDA评分有更加优异的表现。而在测试数据不可见且欺骗性条件未知的情况下,一级评分方式表现出了更强的鲁棒性。

Description

一种自动说话人识别中针对语音欺骗的对抗方法
技术领域
本发明涉及自动化说话人识别领域,更具体地,涉及一种自动说话人识别中针对语音欺骗的对抗方法。
背景技术
说话人识别的目的是通过一段语音自动确认已知说话人的身份。在过去的十年中,说话人识别吸引了许多研究者的注意力,同时也取得了非常显著的成果。但是最近的报道称,许多现有的说话者识别系统对不同的欺骗性攻击,例如:说话人自适应的语音合成,声音转换,声音回放等,对抗能力十分脆弱。
由于说的内容被限制或者预先定义好了,基于文本的说话人识别比文本独立的说话人识别对声音回放的欺骗性攻击有更强的鲁棒性。而说话人自适应声音合成和声音转化作为最常用的欺骗手法,可以将任意文本或者说话转换成原本说话人的声音。为了提高说话人识别系统对于欺骗性攻击的鲁棒性,不同的方法已经被提出。更高级别的动态特征以及语音质量评估被用于检测那些人造信号。此外,修正的群时延倒谱系数(MGDCC)特征已被提出用于在相位层面区分原始和伪造的语音信号。这种方法是基于合成的欺骗性语音和真人流畅说话的相位信息有明显差异的事实,然而人的听觉系统对于这种差异并不敏感。从幅度谱和相位谱获得的长期间的调制特征也已经被提出用来检测合成语音。
总体变化空间因子(I-vector)由于均匀优异的性能,高的鉴别性和较小的储存空间,已被广泛用于在说话者识别。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),提供一种自动说话人识别中针对语音欺骗的对抗方法,鲁棒性更强。
为解决上述技术问题,本发明的技术方案如下:
一种自动说话人识别中针对语音欺骗的对抗方法,包括以下步骤:
1)音频数据的采集;
2)特征提取,提取上述音频数据的四种特征,分别为:OpenSMILE特征,MFCC特征,MFCC-PPP特征和MGDCC-PPP特征;
3)分类判别,对得到的特征采用多种方式进行分类,得到分类结果,其中分类方式包括K近邻分类、余弦相似度评分、PLDA建模和支持向量机SVM;
4)得分融合:在评分层面采用加权求和融合的方法来进一步提升性能,融合的权重是通过开发数据集调试出来的。
进一步的,所述步骤2)中各特征的具体提取过程为:
21)OpenSMILE特征提取方法:将由步骤1)获取的音频数据导入OpenSMILE工具,计算出包括MFCC特征,响度,听觉频谱,浊音概率,F0,F0包络,粗糙声程
22)MFCC特征向量提取方法:对由步骤1)的音频数据,以T1ms的数据为一帧,且每隔T2ms提取一帧,计算出音频数据个总的帧数;
对音频数据中的每一帧,依次进行以下步骤:提取数据,预加重和去除直流偏移,然后将它和加窗函数相乘;然后计算该点的能量,进行快速傅里叶变换并计算功率谱;计算每个梅尔滤波器的能量,以及对数能量并作余弦变换,保留18个MFCC系数以及它们的一阶差分,一共36维的特征作为MFCC特征;
23)MFCC-PPP特征向量提取方法:MFCC-PPP特征向量是由MFCC特征向量提取方法提取的MFCC特征和串联特征组合起来得到的;其中串联特征是用音素识别器和英语声学模型进行音素解码,对得到的音素后验概率进行主成分分析和均值方差归一化得到的;
24)MGDCC-PPP特征提取方法:将由MFCC特征向量提取方法提取的MFCC特征替换成群时延功能相位谱MGDCC特征,就能得到MGDCC-PPP特征;
采用上述得到的MFCC,MFCC-PPP和MGDCC-PPP特征构建各自的高斯混合模型GMM,并对各自的高斯模型进行统计量计算和因子分析,分别得到MFCC-ivector,MFCC-PPP-ivector,MGDCC-PPP-ivector,最后对得到的i-vector特征和OpenSMILE特征进行归一化。
进一步的,所述24)中MGDCC特征是一种强调语音相位特性的帧层面的特征,是由如下方法得到的,
首先获得修改后的群时延功能相位谱MGDFPS,同样是将已有的音频数据分帧,对于每一个帧x(n),n是语音信号的采样点的索引,MGDFPS谱的是通过如下公式计算出来的:
其中X(ω)和Y(ω)是声音信号x(n)和nx(n)的傅里叶变换;XR(ω)和XI(ω)是X(ω)的实部和虚部;YR(ω)和YI(ω)分别是Y(ω)的实部和虚部;|S(ω)|2是通过平滑X(ω)获得的;再这基础上应用了梅尔频率滤波器和离散余弦变换,则获得MGDCC特征。
进一步的,上述步骤3)中:
31)K近邻分类的实现过程为:
K近邻分类是一种无参数支持多个类的分类器;
对于训练数据计算出的i-vector特征,将属于同一个人的所有i-vector特征划为一个类;
对于测试数据得到的需要评分的i-vector特征,找到与它最临近的类,其中要评分的i-vector特征和已知类中的i-vector特征之间的距离是基于欧氏距离计算出来的:
D(xt,yt)=sqrt(Σ(xt-yt)^2
xt,yt分别代表两个i-vector特征;最后,根据要评分的i-vector特征在各个类的分布计算出相应的评分;
32)余弦相似度评分的实现过程为:
对于得到的i-vector特征,如果是训练数据得到的,将属于同一个人的i-vector特征归为一类,并计算出这个类的平均值,该平均值也是一个i-vector特征;
对于测试数据得到的需要评分的i-vector特征,通过如下公式计算出两个i-vector特征x,y的余弦相似度,其中x是要评分的i-vector特征,yt是每个人的均值i-vector特征,t是不同人的索引:
s i m i l a r i t y ( x , y t ) = x t y t | | x | | 2 | | y t | | 2
得到的余弦相似度的值则作为评判的分数;
33)PLDA建模的实现过程为:
对于上述由训练数据/语音得到的i-vector特征,假设有R个i-vector特征是属于同一个说话人的,将这R个i-vector特征的集合表示为{ηr:r=1,…,R},则PLDA模型假设每一个i-vector被分解成:
ηr=m+φβ+∈r
其中m是一个全局偏移,φ的每一列是用来表示各个用户自身特异性的子空间,β是一个隐式识别向量,服从正态分布,∈r是残余项;在该公式中,m+φβ只与每个说话人自身特性有关,而不受每一句话影响;而∈r则依赖于每一句话;
对于需要评分的测试数据的i-vector特征,采用基于假设的标准对数似然比来用于评分:
其中η1表示需要评分的i-vector特征,η2表示训练好的已知说话人的i-vector特征,是一个假设,假设η1,η2共享同一个隐式识别向量β,也是一个假设,假设η1,η2各自包含不同的隐式识别向量β1,β2
34)支持向量机SVM的实现过程为:
采用了线性内核LIBLINEAR和多项式内核LIBPOLY延展两种SVM来进行分类;
其中线性内核LIBLINEAR是一个大型线性分类的开源库;对于训练数据得到的L个i-vector特征xi,i=1,…,L,将属于同一个说话人的标记yi为+1,不是该说话人的i-vector特征标记yi为-1,分类器计算如下公式:
min w [ 1 2 w T w + CΣ i = 1 L m a x ( 1 - y i w T x i , 0 ) ]
其中C是一个大于0的惩罚项,自定义;w是一个和i-vector特征维数相同的向量,由公式得到:
w = Σ i = 1 L α i y i x i - - - ( 1 )
αi是系数,只有离分割平面最近的i-vector特征的系数αi>0,其它i-vector的系数αi=0;
然后,对于测试数据中需要评分的i-vector特征x,计算wTx,得到的值被映射到[-1,1]上,其中结果大于0的特征向量会被认为属于同一个说话人的,结果小于0的i-vector特征会判为不属于同一个说话人,同时,结果越远离分割点0,说明判别可信度越高;
多项式内核延展LIBPOLY,则是将(1)式中的xi映射到了更高维的Φ(xi),最后,在计算wTΦ(xj)的过程时,由(1)知:
w T Φ ( x j ) = ( Σ i = 1 L α i y i Φ ( x i ) ) T Φ ( x j ) = ( Σ i = 1 L α i y i Φ ( x i ) ) T Φ ( x j )
多项式内核延展LIBPOLY中,映射后的Φ(xi)TΦ(xj)设为了其中和r是用户自定义的参数,d是多项式的核数;
最终评判的方式与上述线性内核LIBLINEAR是一样的。
与现有技术相比,本发明技术方案的有益效果是:为了在对抗过程中检测出这些假的语音信号,本发明提出一个基于分数判定,包含多个不同i-vector子系统的融合方法。将声音相关的梅尔频率倒谱系数(MFCC)特征,相位层面的修正的群时延倒谱系数(MGDCC)和语音层面音素后验概率(PPP)串联特征组成的对抗策略效果都非常好。此外,在i-vector建模之前在特征层面融合这些特征也能提升对抗的效果。同时本发明使用了多项式内核支持向量机做监督分类。为了提高对抗的通用性,还采用了余弦相似性和PLDA打分作为一类分类方法。通过将之前提出的i-vector子系统以及涵盖了声音和韵律信息的OpenSMILE基准线组合起来,进一步优化了最终性能。所提出的融合系统在由INTERSPEECH2015提供的自动化说话人识别领域中针对语音欺骗的对抗的数据库中开发和测试集上实现了0.29%和3.26%的相等错误率(EER)。
附图说明
图1为本发明的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。
Ⅳ实验结果
表1显示了4个子系统在开发数据上的实验结果。可以观察到在特征层面融合PPP特征提高了性能。对比MFCCi-vector子系统(EER=6.63%),MFCC-PPPi-vector的错误率减少了1.06%。另一方面,OpenSmile特征的结果要优于MFCCi-vector子系统,原因可能是它包含了韵律层面的信息。
在开发数据集上四个子系统的表现(使用LIBPOLY),见表1:
方法 EER(%)
MFCC i-vector 6.63
MFCC-PPP i-vector 1.06
MGDCC-PPP i-vector 2.23
OpenSMILE 1.57
表1
对于开发数据所提出的方法的表现,见表2:
表2
不同阶多项式内核的MFCC-PPPi-vectorSVM子系统的表现,见表3:
表3
LIBLINEAR和简化PLDA后端在未知欺骗手段的条件下的表现(EER),见表4:
训练集 测试集 PLDA LIBLINEAR
人声和欺骗手段 人声和欺骗手段[1] 3.57 3.4
表4
其中1,2,3,4,5分别代表一种欺骗手段,包括语音合成,声音回放等。我们用不同欺骗手段获得的语音数据和真实说话人的语音数据来训练模型,再用相应的欺骗手段和真实说话人的语音来测试,在后端检测系统的性能。
测试数据上不同欺骗条件下融合系统的表现,见表5:
表5
此外,为了得到一个鲁棒性强的对抗系统,对不同的分类技术进行了评估。表2展示了在开发数据上他们的表现。由于带有SVM分类器的OpenSMILE被用来作为一个基准系统,本实施例就不在这个特征上使用其他的分类方法。另外,因为两阶段的PLDA分类器在MFCC-PPP上得到了一个很差的结果,而MFCC-PPP却是应用在其它分类方法上效果最好的特征,所以本实施例不打算将两阶段的PLDA分类器的结果融合到本发明中。在6个分类方法中,LIBPOLY将基准系统的在开发数据上的ERR从1.57%降低到了0.29%,达到了最好的效果。LIBPOLY相对于LIBLINEAR的提升促使我们进一步提高SVM多项式内核的程度。表3显示了更高多项式内核程度只能提供与双核多项式内核相同的效果,然而计算时间却显著地增加了。所以在测试数据上提交的结果是基于双多项式内核产生的。
而对于PLDA后端,实验结果显示简化PLDA对于不可见的伪造声音攻击有更强的鲁棒性。通过训练中的四种伪造的话语和在测试中的剩余的一种伪造的话语来模拟未知的欺骗性攻击。尽管对于已知的欺骗性攻击,PLDA的表现与LIBLINEAR差不多,但是对于未知的测试数据,尤其是与语音合成相关的未知攻击(索引3和4),它的表现要优于LIBLINEAR。如表2中所示,两级的PLDA只实现了较为一般的结果,估计原因可能是训练数据中总的说话人数目有限(25)以及说话人形成的子空间可能并不垂直于欺骗数据的子空间。
表5显示了本发明对于测试数据中每一个单独的欺骗攻击的判定结果。其中S1和S5是已知的攻击,S6到S10是未知的攻击,S3和S4是合成的波形,而S1,S2和S5是通过声音转换得到的。除了S10这个大多数参与者都没有得到较好结果的测试数据外,我们的系统对于所有的攻击的对抗都表现出较好的效果,
最后,本发明的对抗方法对于已知和未知的欺骗性攻击分别达到了0.38%和6.15%的EER。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种自动说话人识别中针对语音欺骗的对抗方法,其特征在于,包括以下步骤:
1)音频数据的采集;
2)特征提取,提取上述音频数据的四种特征,分别为:OpenSMILE特征,MFCC特征,MFCC-PPP特征和MGDCC-PPP特征;
3)分类判别,对得到的特征采用多种方式进行分类,得到分类结果,其中分类方式包括K近邻分类、余弦相似度评分、PLDA建模和支持向量机SVM;
4)得分融合:在评分层面采用加权求和融合的方法来进一步提升性能,融合的权重是通过开发数据集调试出来的。
2.根据权利要求1所述的自动说话人识别中针对语音欺骗的对抗方法,其特征在于,所述步骤2)的具体提取过程为:
21)OpenSMILE特征提取方法:将由步骤1)获取的音频数据导入OpenSMILE工具,计算出包括MFCC特征,响度,听觉频谱,浊音概率,F0,F0包络,粗糙声程;
22)MFCC特征向量提取方法:对由步骤1)的音频数据,以T1ms的数据为一帧,且每隔T2ms提取一帧,计算出音频数据个总的帧数;
对音频数据中的每一帧,依次进行以下步骤:提取数据,预加重和去除直流偏移,然后将它和加窗函数相乘;然后计算该点的能量,进行快速傅里叶变换并计算功率谱;计算每个梅尔滤波器的能量,以及对数能量并作余弦变换,保留18个MFCC系数以及它们的一阶差分,一共36维的特征作为MFCC特征;
23)MFCC-PPP特征向量提取方法:MFCC-PPP特征向量是由MFCC特征向量提取方法提取的MFCC特征和串联特征组合起来得到的;其中串联特征是用音素识别器和英语声学模型进行音素解码,对得到的音素后验概率进行主成分分析和均值方差归一化得到的;
24)MGDCC-PPP特征提取方法:将由MFCC特征向量提取方法提取的MFCC特征替换成群时延功能相位谱MGDCC特征,就能得到MGDCC-PPP特征;
采用上述得到的MFCC,MFCC-PPP和MGDCC-PPP特征构建各自的高斯混合模型GMM,并对各自的高斯模型进行统计量计算和因子分析,分别得到MFCC-ivector,MFCC-PPP-ivector,MGDCC-PPP-ivector,最后对得到的i-vector特征和OpenSMILE特征进行归一化。
3.根据权利要求2所述的自动说话人识别中针对语音欺骗的对抗方法,其特征在于,所述24)中MGDCC特征是一种强调语音相位特性的帧层面的特征,是由如下方法得到的,
首先获得修改后的群时延功能相位谱MGDFPS,同样是将已有的音频数据分帧,对于每一个帧x(n),n是语音信号的采样点的索引,MGDFPS谱的是通过如下公式计算出来的:
其中X(ω)和Y(ω)是声音信号x(n)和nx(n)的傅里叶变换;XR(ω)和XI(ω)是X(ω)的实部和虚部;YR(ω)和YI(ω)分别是Y(ω)的实部和虚部;|S(ω)|2是通过平滑X(ω)获得的;再这基础上应用了梅尔频率滤波器和离散余弦变换,则获得MGDCC特征。
4.根据权利要求3所述的自动说话人识别中针对语音欺骗的对抗方法,其特征在于,上述步骤3)中:
31)K近邻分类的实现过程为:
K近邻分类是一种无参数支持多个类的分类器;
对于训练数据计算出的i-vector特征,将属于同一个人的所有i-vector特征划为一个类;
对于测试数据得到的需要评分的i-vector特征,找到与它最临近的类,其中要评分的i-vector特征和已知类中的i-vector特征之间的距离是基于欧氏距离计算出来的:
D ( x t , y t ) = s q r t ( Σ ( x t - y t ) ^ 2 )
xt,yt分别代表两个i-vector特征;最后,根据要评分的i-vector特征在各个类的分布计算出相应的评分;
32)余弦相似度评分的实现过程为:
对于得到的i-vector特征,如果是训练数据得到的,将属于同一个人的i-vector特征归为一类,并计算出这个类的平均值,该平均值也是一个i-vector特征;
对于测试数据得到的需要评分的i-vector特征,通过如下公式计算出两个i-vector特征x,y的余弦相似度,其中x是要评分的i-vector特征,yt是每个人的均值i-vector特征,t是不同人的索引:
s i m i l a r i t y ( x , y t ) = x t y t | | x | | 2 | | y t | | 2
得到的余弦相似度的值则作为评判的分数;
33)PLDA建模的实现过程为:
对于上述由训练数据/语音得到的i-vector特征,假设有R个i-vector特征是属于同一个说话人的,将这R个i-vector特征的集合表示为{ηr:r=1,…,R},则PLDA模型假设每一个i-vector被分解成:
ηr=m+φβ+εr
其中m是一个全局偏移,φ的每一列是用来表示各个用户自身特异性的子空间,β是一个隐式识别向量,服从正态分布,εr是残余项;在该公式中,m+φβ只与每个说话人自身特性有关,而不受每一句话影响;而εr则依赖于每一句话;
对于需要评分的测试数据的i-vector特征,采用基于假设的标准对数似然比来用于评分:
其中η1表示需要评分的i-vector特征,η2表示训练好的已知说话人的i-vector特征,Hs是一个假设,假设η1,η2共享同一个隐式识别向量β,Hd也是一个假设,假设η1,η2各自包含不同的隐式识别向量β1,β2
34)支持向量机SVM的实现过程为:
采用了线性内核LIBLINEAR和多项式内核LIBPOLY延展两种SVM来进行分类;
其中线性内核LIBLINEAR是一个大型线性分类的开源库;对于训练数据得到的L个i-vector特征xi,i=1,…,L,将属于同一个说话人的标记yi为+1,不是该说话人的i-vector特征标记yi为-1,分类器计算如下公式:
min w [ 1 2 w T w + CΣ i = 1 L m a x ( 1 - y i w T x i , 0 ) ]
其中C是一个大于0的惩罚项,自定义;w是一个和i-vector特征维数相同的向量,由公式得到:
w = Σ i = 1 L α i y i x i - - - ( 1 )
αi是系数,只有离分割平面最近的i-vector特征的系数αi>0,其它i-vector的系数αi=0;
然后,对于测试数据中需要评分的i-vector特征x,计算wTx,得到的值被映射到[-1,1]上,其中结果大于0的特征向量会被认为属于同一个说话人的,结果小于0的i-vector特征会判为不属于同一个说话人,同时,结果越远离分割点0,说明判别可信度越高;
多项式内核延展LIBPOLY,则是将(1)式中的xi映射到了更高维的Φ(xi),最后,在计算wTΦ(xj)的过程时,由(1)知:
w T Φ ( x j ) = ( Σ i = 1 L α i y i Φ ( x i ) ) T Φ ( x j ) = ( Σ i = 1 L α i y i Φ ( x i ) ) T Φ ( x j )
多项式内核延展LIBPOLY中,映射后的Φ(xi)TΦ(xj)设为了其中和r是用户自定义的参数,d是多项式的核数;
最终评判的方式与上述线性内核LIBLINEAR是一样的。
CN201510561139.8A 2015-09-02 2015-09-02 一种自动说话人识别中针对语音欺骗的对抗方法 Active CN105139857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510561139.8A CN105139857B (zh) 2015-09-02 2015-09-02 一种自动说话人识别中针对语音欺骗的对抗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510561139.8A CN105139857B (zh) 2015-09-02 2015-09-02 一种自动说话人识别中针对语音欺骗的对抗方法

Publications (2)

Publication Number Publication Date
CN105139857A true CN105139857A (zh) 2015-12-09
CN105139857B CN105139857B (zh) 2019-03-22

Family

ID=54725179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510561139.8A Active CN105139857B (zh) 2015-09-02 2015-09-02 一种自动说话人识别中针对语音欺骗的对抗方法

Country Status (1)

Country Link
CN (1) CN105139857B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
CN106019230A (zh) * 2016-05-27 2016-10-12 南京邮电大学 一种基于i-vector说话人识别的声源定位方法
WO2017162017A1 (zh) * 2016-03-25 2017-09-28 腾讯科技(深圳)有限公司 语音数据处理方法、装置和存储介质
WO2017166651A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 语音识别模型训练方法、说话人类型识别方法及装置
CN107274905A (zh) * 2016-04-08 2017-10-20 腾讯科技(深圳)有限公司 一种声纹识别方法及系统
CN107274906A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 语音信息处理方法、装置、终端及存储介质
CN107527616A (zh) * 2017-09-29 2017-12-29 上海与德通讯技术有限公司 智能识别方法及机器人
CN108564955A (zh) * 2018-03-19 2018-09-21 平安科技(深圳)有限公司 电子装置、身份验证方法和计算机可读存储介质
CN109448759A (zh) * 2018-12-28 2019-03-08 武汉大学 一种基于气爆音的抗语音认证欺骗攻击检测方法
CN109887496A (zh) * 2019-01-22 2019-06-14 浙江大学 一种黑盒场景下的定向对抗音频生成方法及系统
CN109920447A (zh) * 2019-01-29 2019-06-21 天津大学 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法
CN109935233A (zh) * 2019-01-29 2019-06-25 天津大学 一种基于振幅和相位信息的录音攻击检测方法
CN110047504A (zh) * 2019-04-18 2019-07-23 东华大学 身份矢量x-vector线性变换下的说话人识别方法
CN110176243A (zh) * 2018-08-10 2019-08-27 腾讯科技(深圳)有限公司 语音增强方法、模型训练方法、装置和计算机设备
CN110232927A (zh) * 2019-06-13 2019-09-13 苏州思必驰信息科技有限公司 说话人验证反欺骗方法和装置
WO2019210796A1 (zh) * 2018-05-02 2019-11-07 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN110491391A (zh) * 2019-07-02 2019-11-22 厦门大学 一种基于深度神经网络的欺骗语音检测方法
WO2020019831A1 (zh) * 2018-07-23 2020-01-30 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN111276131A (zh) * 2020-01-22 2020-06-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111755014A (zh) * 2020-07-02 2020-10-09 四川长虹电器股份有限公司 一种领域自适应的录音重放攻击检测方法及系统
WO2020253054A1 (zh) * 2019-06-20 2020-12-24 平安科技(深圳)有限公司 评估音频信号损失的方法、装置及存储介质
CN113409771A (zh) * 2021-05-25 2021-09-17 合肥讯飞数码科技有限公司 一种伪造音频的检测方法及其检测系统和存储介质
CN113611314A (zh) * 2021-08-03 2021-11-05 成都理工大学 一种说话人识别方法及系统
CN113808603A (zh) * 2021-09-29 2021-12-17 恒安嘉新(北京)科技股份公司 一种音频篡改检测方法、装置、服务器和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6246751B1 (en) * 1997-08-11 2001-06-12 International Business Machines Corporation Apparatus and methods for user identification to deny access or service to unauthorized users
CN101127777A (zh) * 2007-10-10 2008-02-20 华为技术有限公司 处理语音通信安全威胁信息的方法、装置及系统
US20100054433A1 (en) * 2008-09-03 2010-03-04 Alcatel-Lucent Verifying authenticity of voice mail participants in telephony networks
US20140359739A1 (en) * 2013-05-31 2014-12-04 International Business Machines Corporation Voice based biometric authentication method and apparatus
WO2014203370A1 (ja) * 2013-06-20 2014-12-24 株式会社東芝 音声合成辞書作成装置及び音声合成辞書作成方法
CN104717219A (zh) * 2015-03-20 2015-06-17 百度在线网络技术(北京)有限公司 基于人工智能的声纹登录方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6246751B1 (en) * 1997-08-11 2001-06-12 International Business Machines Corporation Apparatus and methods for user identification to deny access or service to unauthorized users
CN101127777A (zh) * 2007-10-10 2008-02-20 华为技术有限公司 处理语音通信安全威胁信息的方法、装置及系统
US20100054433A1 (en) * 2008-09-03 2010-03-04 Alcatel-Lucent Verifying authenticity of voice mail participants in telephony networks
US20140359739A1 (en) * 2013-05-31 2014-12-04 International Business Machines Corporation Voice based biometric authentication method and apparatus
CN104217149A (zh) * 2013-05-31 2014-12-17 国际商业机器公司 基于语音的生物认证方法及设备
WO2014203370A1 (ja) * 2013-06-20 2014-12-24 株式会社東芝 音声合成辞書作成装置及び音声合成辞書作成方法
CN104717219A (zh) * 2015-03-20 2015-06-17 百度在线网络技术(北京)有限公司 基于人工智能的声纹登录方法和装置

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
CELIA SHAHNAZ ET AL: ""A Detection Method of Nasalised Vowels Based on an Acoustic Parameter Derived From Phase Spectrum"", 《IEEE》 *
E.BELALCAZAR BOLANOS ET AL: ""Feature Selection for hypernasality detection using PC,LDA,Kernel PCA and Greedy Kernel PCA"", 《IEEE》 *
HARDIK B.SAILOR ET AL: ""Fusion of Magnitude and Phase-based Features for Objective Evaluation of TTS Voice"", 《IEEE》 *
L.F.DHARO ET AL: ""Extended phone Log-likelihood ratio features and acoustic-based i-vectors for language recognition"", 《2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTIC,SPEECH AND SIGNAL PROCESSING》 *
RAJESH M. HEGDE ET AL: ""Application of the modified group delay function to speaker identification and discrimination"", 《IEEE》 *
SARA MOTAMED ET AL: ""Speech Emotion Recognition Based on Learning Automata in Fuzzy Petrinet"", 《JOURNAL OF MATHEMATICS AND COMPUTER SCIENCE》 *
宁向延 等: ""二次判决的融合系统在说话人识别中的应用"", 《武汉大学学报(工学版)》 *
李琳 等: ""基于概率修正PLDA的说话人识别系统"", 《天津大学学报(自然科学与工程技术版)》 *
甄挚: ""说话人识别系统中语音特征参数提取方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
粟志意 等: ""基于总体变化子空间自适应的i-vector说话人识别系统研究"", 《自动化学报》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017162017A1 (zh) * 2016-03-25 2017-09-28 腾讯科技(深圳)有限公司 语音数据处理方法、装置和存储介质
US10692503B2 (en) 2016-03-25 2020-06-23 Tencent Technology (Shenzhen) Company Limited Voice data processing method, apparatus and storage medium
WO2017166651A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 语音识别模型训练方法、说话人类型识别方法及装置
CN107274905A (zh) * 2016-04-08 2017-10-20 腾讯科技(深圳)有限公司 一种声纹识别方法及系统
CN106019230A (zh) * 2016-05-27 2016-10-12 南京邮电大学 一种基于i-vector说话人识别的声源定位方法
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
CN105869630B (zh) * 2016-06-27 2019-08-02 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
CN107274906A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 语音信息处理方法、装置、终端及存储介质
CN107527616A (zh) * 2017-09-29 2017-12-29 上海与德通讯技术有限公司 智能识别方法及机器人
CN108564955A (zh) * 2018-03-19 2018-09-21 平安科技(深圳)有限公司 电子装置、身份验证方法和计算机可读存储介质
WO2019179029A1 (zh) * 2018-03-19 2019-09-26 平安科技(深圳)有限公司 电子装置、身份验证方法和计算机可读存储介质
WO2019210796A1 (zh) * 2018-05-02 2019-11-07 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
WO2020019831A1 (zh) * 2018-07-23 2020-01-30 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN110176243B (zh) * 2018-08-10 2023-10-31 腾讯科技(深圳)有限公司 语音增强方法、模型训练方法、装置和计算机设备
CN110176243A (zh) * 2018-08-10 2019-08-27 腾讯科技(深圳)有限公司 语音增强方法、模型训练方法、装置和计算机设备
CN109448759A (zh) * 2018-12-28 2019-03-08 武汉大学 一种基于气爆音的抗语音认证欺骗攻击检测方法
CN109887496A (zh) * 2019-01-22 2019-06-14 浙江大学 一种黑盒场景下的定向对抗音频生成方法及系统
CN109935233A (zh) * 2019-01-29 2019-06-25 天津大学 一种基于振幅和相位信息的录音攻击检测方法
CN109920447A (zh) * 2019-01-29 2019-06-21 天津大学 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法
CN109920447B (zh) * 2019-01-29 2021-07-13 天津大学 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法
CN110047504B (zh) * 2019-04-18 2021-08-20 东华大学 身份矢量x-vector线性变换下的说话人识别方法
CN110047504A (zh) * 2019-04-18 2019-07-23 东华大学 身份矢量x-vector线性变换下的说话人识别方法
CN110232927A (zh) * 2019-06-13 2019-09-13 苏州思必驰信息科技有限公司 说话人验证反欺骗方法和装置
CN110232927B (zh) * 2019-06-13 2021-08-13 思必驰科技股份有限公司 说话人验证反欺骗方法和装置
WO2020253054A1 (zh) * 2019-06-20 2020-12-24 平安科技(深圳)有限公司 评估音频信号损失的方法、装置及存储介质
CN110491391A (zh) * 2019-07-02 2019-11-22 厦门大学 一种基于深度神经网络的欺骗语音检测方法
CN111276131A (zh) * 2020-01-22 2020-06-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111755014B (zh) * 2020-07-02 2022-06-03 四川长虹电器股份有限公司 一种领域自适应的录音重放攻击检测方法及系统
CN111755014A (zh) * 2020-07-02 2020-10-09 四川长虹电器股份有限公司 一种领域自适应的录音重放攻击检测方法及系统
CN113409771A (zh) * 2021-05-25 2021-09-17 合肥讯飞数码科技有限公司 一种伪造音频的检测方法及其检测系统和存储介质
CN113611314A (zh) * 2021-08-03 2021-11-05 成都理工大学 一种说话人识别方法及系统
CN113808603A (zh) * 2021-09-29 2021-12-17 恒安嘉新(北京)科技股份公司 一种音频篡改检测方法、装置、服务器和存储介质
CN113808603B (zh) * 2021-09-29 2023-07-07 恒安嘉新(北京)科技股份公司 一种音频篡改检测方法、装置、服务器和存储介质

Also Published As

Publication number Publication date
CN105139857B (zh) 2019-03-22

Similar Documents

Publication Publication Date Title
CN105139857A (zh) 一种自动说话人识别中针对语音欺骗的对抗方法
CN107610707B (zh) 一种声纹识别方法及装置
CN103177733B (zh) 汉语普通话儿化音发音质量评测方法与系统
Alegre et al. Spoofing countermeasures to protect automatic speaker verification from voice conversion
CN105261367B (zh) 一种说话人识别方法
CN105810212B (zh) 一种复杂噪声环境下的列车鸣笛识别方法
CN108694954A (zh) 一种性别年龄识别方法、装置、设备及可读存储介质
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN105023573A (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN105654944B (zh) 一种融合了短时与长时特征建模的环境声识别方法及装置
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
CN105280181B (zh) 一种语种识别模型的训练方法及语种识别方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN103077720A (zh) 一种说话人识别方法及系统
CN104221079A (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
CN104575519A (zh) 特征提取方法、装置及重音检测的方法、装置
Pruthi et al. Acoustic parameters for the automatic detection of vowel nasalization.
CN105845141A (zh) 基于信道鲁棒的说话人确认模型及说话人确认方法和装置
Bhati et al. Unsupervised Speech Signal to Symbol Transformation for Zero Resource Speech Applications.
CN109920447A (zh) 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法
Gupta et al. Segment-level pyramid match kernels for the classification of varying length patterns of speech using SVMs
Michalevsky et al. Speaker identification using diffusion maps
CN112349267A (zh) 基于注意力机制特征的合成语音检测方法
CN109410968B (zh) 一种高效的歌曲中人声起始位置检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 510275 Xingang West Road, Guangdong, Guangzhou, No. 135, No.

Applicant after: Sun Yat-sen University

Applicant after: Internation combination research institute of Carnegie Mellon University of Shunde Zhongshan University

Address before: 528300 Daliang street, Shunde District, Guangdong,,, Carnegie Mellon University, Zhongshan University, Shunde

Applicant before: Internation combination research institute of Carnegie Mellon University of Shunde Zhongshan University

Applicant before: Sun Yat-sen University

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant