CN110136746A - 一种基于融合特征的加性噪声环境下手机来源识别方法 - Google Patents

一种基于融合特征的加性噪声环境下手机来源识别方法 Download PDF

Info

Publication number
CN110136746A
CN110136746A CN201910231119.2A CN201910231119A CN110136746A CN 110136746 A CN110136746 A CN 110136746A CN 201910231119 A CN201910231119 A CN 201910231119A CN 110136746 A CN110136746 A CN 110136746A
Authority
CN
China
Prior art keywords
speech
noisy
subset
library
mobile phone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910231119.2A
Other languages
English (en)
Other versions
CN110136746B (zh
Inventor
王让定
秦天芸
严迪群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huzhou Chuangguan Technology Co ltd
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201910231119.2A priority Critical patent/CN110136746B/zh
Publication of CN110136746A publication Critical patent/CN110136746A/zh
Application granted granted Critical
Publication of CN110136746B publication Critical patent/CN110136746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于融合特征的加性噪声环境下手机来源识别方法,其将从傅里叶域中提取的MFCC特征、STFTSDF特征和从CQT域提取的CQTSDF特征组成的融合特征作为设备指纹,相较于单一特征能够更精确的表征设备区分信息;在训练阶段采用了多场景训练的方式,训练集中不仅有未添加场景噪声的干净的语音样本,还有含有不同场景噪声类型和噪声强度的含噪语音样本,训练得到的M分类模型具有通用性,并且对已知噪声场景和未知噪声场景的语音样本都能进行有效的手机来源识别;其使用深度学习的CNN模型来建立M分类模型,CNN模型不仅提升了对未添加场景噪声的干净的语音样本的来源识别准确性,而且大幅度提升了含噪语音样本的手机来源识别效果,噪声鲁棒性强。

Description

一种基于融合特征的加性噪声环境下手机来源识别方法
技术领域
本发明涉及手机来源识别技术领域,尤其涉及一种基于融合特征的加性噪声环境下手机来源识别方法。
背景技术
随着信息技术的发展,易于携带的手机越来越普及,很多人习惯用手机来录制语音,也因此,基于手机录音设备来源识别的研究受到了广泛关注。近些年,基于安静环境下对手机录音设备来源识别取得了一定的研究成果。
C.Hanilci等从录音文件中提取梅尔频率倒谱系数(MFCC)作为设备区分性特征,并比较SVM、VQ这两种分类器对设备的识别情况,经对14款不同型号手机识别的闭集识别率分析发现,SVM分类器识别效果突出;随后,C.Hanilci等人又从静音段中提取MFCC作为设备的区分性特征,采用SVM分类器比较MFCC、线性频率倒谱系数(LFCC)、Bark频率倒谱系数(BFCC)和线性预测倒谱系数(LPCC)这四种声学的倒谱特征以及其与动态特征的组合特征在手机来源识别中的性能优劣,得出MFCC分类效果较好;C.Kotropoulos等借鉴对固定麦克风的识别研究,将频谱轮廓特征作为设备指纹,使用稀疏表示分类器对7个不同品牌的21款手机进行识别,闭集识别率达到为95%;金超提出从静音段中提取录音设备的设备噪声方法,将设备噪声作为提取表征录音设备之间区分性信息的载体,以区别手机品牌和型号;Simeng Qi等采用去噪处理和谱减法得到噪声信号,将噪声信号的傅里叶直方图系数作为深度模型的输入,比较三种不同的深度学习分类算法Softmax、MLP、CNN的识别效果。
虽然手机来源识别算法取得了一定发展,但仍存在一些局限性,主要表现为:同品牌不同型号手机误识,由于相同品牌的手机录音设备在电路设计和电子元器件选配方面有着较高相似性和一致性,导致嵌入在语音文件中的设备信息差异较小,难以识别;目前手机来源识别应用背景基本都是在安静环境下,而实际生活中的录音更多是在不同噪音环境中形成,环境噪声会影响设备识别性能,这就导致现有研究算法在噪声攻击情况下鲁棒性差。
发明内容
鉴于上述问题,本发明的目的在于提供一种手机来源辨识度高,计算复杂度低,噪声鲁棒性强的基于融合特征的加性噪声环境下手机来源识别方法。
本发明解决上述技术问题所采用的技术方案为:一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述方法包括,
步骤一、选取M个不同型号手机,每个手机获取N个人的P个语音样本,得到语音样本N×P个,并形成一个子集,将M个子集共M×N×P个语音样本构成基础语音库;其中,M≥10,N≥10,P≥10;
步骤二、选取噪声类型X种,噪声强度Y种,得到场景噪声共X×Y种,对所述基础语音库中的每个子集中的所有语音样本添加每种场景噪声,形成M个含噪子集共M×N×P个含噪语音样本,形成一个含噪语音库,X×Y种场景噪声共得到X×Y个含噪语音库,其中,X≥2,Y≥2;
步骤三、对所述基础语音库中每个子集中的每个语音样本进行常Q变换,得到基础语音库中第m个子集中的第n个语音样本中的第k个频率点的常Q变换域频率值Fm,n(k),频率值的幅值Hm,n(k),常Q变换域频谱分布特征值CQTSDFm,n(k),第n个语音样本对应的K个频率点的常Q变换域频谱分布特征向量CQTSDFm,n,CQTSDFm,n=[CQTSDFm,n(1),…,CQTSDFm,n(k),…,CQTSDFm,n(K)];
对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的常Q变换域频率值Fi,m,n(k),频率值的幅值Hi,m,n(k),常Q变换域频谱分布特征值CQTSDFi,m,n(k)以及第n个含噪语音样本对应的K个频率点的常Q变换域频谱分布特征向量CQTSDFi,m,n,i为正整数,1≤i≤X×Y,CQTSDFi,m,n的维数为1×K;
其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,k为正整数,1≤k≤K,K表示常Q变换的频率点的总点数,K≥9,gk为正整数,1≤gk≤Gk,Gk表示常Q变换的过程中分帧的窗口长度,zm,n(gk)表示基础语音库中的第m个子集中的第n个语音样本,w(gk)表示常Q变换的过程中采用的窗函数,e为自然基数,j为虚数单位,fk表示常Q变换的过程中采用的滤波器的中心频率,表示第m个手机的采样率,为Fm,n(k)的共扼,Tk表示基础语音库中的每个子集中的每个语音样本在第k个频率点处的总帧数,tk为正整数,1≤tk≤Tk,c为一个随机正数,CQTSDFm,n的维数为1×K,符号“[]”为向量表示符号,CQTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的常Q变换域频谱分布特征值,CQTSDFm,n(K)表示基础语音库中的第m个子集中的第n个语音样本对应的第K个频率点的常Q变换域频谱分布特征值;
步骤四、对所述基础语音库中的每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本对应的第d个频率点的傅里叶变换域频率值Sm,n(d),频率值的幅值Qm,n(d),傅里叶变换域频谱分布特征值STFTSDFm,n(d),第n个语音样本对应的D个频率点的傅里叶变换域频谱分布特征向量STFTSDFm,n,STFTSDFm,n=[STFTSDFm,n(1),…,STFTSDFm,n(d),…,STFTSDFm,n(D)];
对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中第m个含噪子集中的第n个含噪语音样本对应的第d个频率点的傅里叶变换域频率值Si,m,n(d),频率值的幅值Qi,m,n(d),傅里叶变换域频谱分布特征值STFTSDFi,m,n(d),第n个含噪语音样本对应的的D个频率点的傅里叶变换域频谱分布特征向量STFTSDFi,m,n,i为正整数,1≤i≤X×Y,STFTSDFi,m,n的维数为1×D;
其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,d为正整数,1≤d≤D,D表示傅里叶变换的频率点的总点数,g为正整数,1≤g≤G,G表示傅里叶变换过程中分帧的窗口长度,zm,n(g)表示基础语音库中的第m个子集中的第n个语音样本,w(g)表示傅里叶变换过程中采用的窗函数,e为自然基数,j为虚数单位,为Sm,n(d)的共扼,T表示基础语音库中的每个子集中的每个语音样本的总帧数,t为正整数,1≤t≤T,c为一个随机正数,STFTSDFm,n的维数为1×D,STFTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的傅里叶变换域频谱分布特征值,STFTSDFm,n(D)表示基础语音库中的第m个子集中的第n个语音样本对应的第D个频率点的傅里叶变换域频谱分布特征值;
步骤五、对所述基础语音库中每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本中的第d个频率点的傅里叶变换域频率值Sm,n(d),其经每个滤波器组后的对数能量Cm,n(d), 再进行离散余弦变换得到MFCC特征值MFCCm,n(a),基础语音库中第m个子集中的第n个语音样本对应的MFCC特征向量MFCCm,n,MFCCm,n=[MFCCm,n(1),…,MFCCm,n(a),…,MFCCm,n(A)];
对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中第m个含噪子集中的第n个含噪语音样本对应的第a个阶特征值MFCCi,m,n(a),i为正整数,1≤i≤X×Y,MFCCi,m,n的维数为1×A;
其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,f(p)表示中心频率,p为三角滤波器组的数量,p=1,…,P,LP(d)的约束条件为a为正整数,1≤a≤A,A表示MFCC特征的阶数,STFTSDFm,n的维数为1×A,MFCCm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1阶特征值,MFCCm,n(A)表示基础语音库中的第m个子集中的第n个语音样本对应的第A阶特征值;
步骤六、将所述基础语音库中每个子集中的每个语音样本的常Q变换域频谱分布特征、傅里叶变换域频谱分布特征、MFCC特征按序排列组成一个维数为K+D+A的行向量,形成融合特征向量,得到基础语音库中第m个子集中的第n个语音样本的融合特征向量Rm,n,Rm,n=[CQTSDFm,n(1),…,CQTSDFm,n(K),STFTSDFm,n(1),…,STFTSDFm,n(D),MFCCm,n(1),…,MFCCm,n(A)];
对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本的融合特征向量Ri,m,n,Ri,m,n=[CQTSDFi,m,n(1),…,CQTSDFi,m,n(K),STFTSDFi,m,n(1),…,STFTSDFi,m,n(D),MFCCi,m,n(1),…,MFCCi,m,n(A)],该Ri,m,n为一个维数为K+D+A的行向量;
步骤七、将所述基础语音库中第m个子集中的所有语音样本对应的融合特征向量及所有含噪语音库中的第m个含噪子集中的所有含噪语音样本对应的融合特征向量标记为第m种类别,并将其作为输入特征,输入到CNN模型中进行训练,得到M分类模型,M分类模型输出端输出类别,输出类别为M种,与选取的M个手机对应;
步骤八、取一个待识别录音,记为Vtest,按照步骤三至六操作,获得Vtest对应的融合特征向量Rtest,将Rtest输入到M分类模型,M分类模型输出端输出Rtest类别,即得到Rtest的手机来源,Rtest的维数为K+D+A。
优选的,所述步骤一中的每个手机获取N个人的P个语音样本的具体过程为:
将手机置于静环境下分别采集N个不同人的语音,将采集到的每个语音转换成wav格式并将每个wav格式语音分割成多个语音片段,再从每个wav格式语音的所有语音片段中随机选取P个语音片段作为语音样本。
优选的,所述步骤一中每个手机获取N个人的P个语音样本的具体过程为:
将手机置于静环境下分别采集由高保真音箱回放的N个人各自对应的P个语句,将每个语句转换成wav格式语音以作为语音样本。
优选的,所述步骤三中的其中,fmin表示常Q变换过程中采用的滤波器的最低中心频率,fmax表示常Q变换过程中采用的滤波器的最高中心频率,B表示常Q变换子带的频率点的点数,符号为向下取整符号;其中,Q表示常Q变换的Q因子,
优选的,所述步骤七中CNN模型的网络框架包括输入层、第一卷积层、第一非线性激活层、第二卷积层、第二非线性激活层、最大池化层、全连接层、第三非线性激活层、输出层,输入层的输入端输入的输入特征维数为K+D+A,第一卷积层有72个卷积核、卷积核的大小为1×3、卷积核的移动步长为1,第二卷积层有72个卷积核、卷积核的大小为1×2、卷积核的移动步长为1,最大池化层的核的大小为1×26、核的移动步长为1,全连接层有64个神经元,输出层的输出端输出类别,第一非线性激活层、第二非线性激活层、第三非线性激活层均采用ReLU函数,CNN模型中的Dropout损失函数的值为0.25,CNN模型中的分类器为Softmax。
优选的,所述语音片段时长为3~10秒。
优选的,所述语句时长为3秒。
优选的,所述D取值256或512或1024。
与现有技术相比,本发明的优点在于:
1)本发明利用了来自不同频域获取的特征的融合特征,相比于单一特征,融合特征从多角度更精细的表征了设备差异信息,不仅提升了对干净语音的识别效果,也提升了大部分含噪语音的识别效果。
2)本发明在训练阶段集中了干净语音样本和含有不同场景噪声类型和噪声强度的含噪语音样本,使得训练得到的M分类模型具有通用性,确保了手机来源识别的准确性。
3)本发明使用深度学习的CNN模型建立M分类模型,相比于传统算法,CNN模型不仅提升了对干净语音样本的来源识别准确性,还大幅度提升了含噪语音样本的手机来源识别效果,噪声鲁棒性强。
附图说明
图1为本发明方法的总体实现框图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于融合特征的加性噪声环境下手机来源识别方法,其总体实现框图如图1所示,其包括以下步骤:
步骤一:选取M个不同主流品牌不同型号的手机;然后使用每个手机获取N个人各自对应的P个语音样本,每个手机对应的语音样本共有N×P个;再将每个手机对应的所有语音样本构成一个子集,将M个子集共M×N×P个语音样本构成基础语音库;其中,M≥10,在本实施例中取M=24,N≥10,在本实施例中取N=12,P≥10,在本实施例中取P=50。
在本实施例中,在步骤一中使用每个手机获取N个人各自对应的P个语音样本的方式有两种。第一种为:使用每个手机获取N个人各自对应的P个语音样本的具体过程为:选取N个不同年龄不同性别的人,如选取6个不同年龄的男性参与者和6个不同年龄的女性参与者,使用M个手机在安静办公室环境下同时采集每个人用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;然后将每个手机采集到的每个语音转换成wav格式语音;接着将每个手机对应的每个wav格式语音分割成多个时长为3~10秒的语音片段;再从每个手机对应的每个wav格式语音的所有语音片段中随机选取P个语音片段作为语音样本,将利用这种方式构成的基础语音库记为CKC-SD。第二种为:使用每个手机获取N个人各自对应的P个语音样本的具体过程为:使用M个手机在安静办公室环境下同时采集由高保真音箱回放的TIMIT库中的N个人各自对应的P个时长为3秒的语句;然后将每个手机采集到的每个语句转换成wav格式语音;再将每个手机对应的每个wav格式语音作为语音样本,将利用这种方式构成的基础语音库记为TIMIT-RD。
表1给出了获取基础语音库CKC-SD和基础语音库TIMIT-RD使用的M个手机的主流品牌和型号的信息。
表1获取基础语音库CKC-SD和基础语音库TIMIT-RD使用的M个手机的主流品牌和型号的信息表
步骤二:选取不同噪声类型不同噪声强度的场景噪声共X×Y种,噪声类型共X种,噪声强度共Y种;然后采用噪声添加工具在基础语音库中的每个子集中的所有语音样本中添加每种场景噪声,将基础语音库中的每个子集中的所有语音样本添加一种场景噪声后得到的含噪语音样本构成一个含噪子集,将针对添加一种场景噪声得到的M个含噪子集共M×N×P个含噪语音样本构成一个含噪语音库,针对X×Y种场景噪声共得到X×Y个含噪语音库;其中,X≥2,在本实施例中取X=5,Y≥2,在本实施例中取Y=3。
在本实施例中,选取来自NOISEX-92噪声数据库中的白噪声(white noise)、嘈杂噪声(babble noise)、街道噪声(street noise)、餐厅噪声(cafe noise)和汽车噪声(volvo noise)这五种噪声类型,并且对于每种噪声类型,考虑3个信噪比(SNR)等级(即噪声强度),即0dB、10dB和20dB;噪声添加工具选用遵循国际电联有关噪声添加和滤波的开源工具FaNT;针对基础语音库CKC-SD,对应有15个含噪语音库;针对基础语音库TIMIT-RD,也对应有15个含噪语音库。
步骤三:对基础语音库中的每个子集中的每个语音样本进行常Q变换,将基础语音库中的每个子集中的每个语音样本变换到频域,将基础语音库中的第m个子集中的第n个语音样本对应的第k个频率点的常Q变换域频率值记为Fm,n(k),然后计算基础语音库中的每个子集中的每个语音样本对应的每个频率点的频率值的幅值,将Fm,n(k)的幅值记为Hm,n(k),接着计算基础语音库中的每个子集中的每个语音样本对应的每个频率点的常Q变换域频谱分布特征值,将基础语音库中的第m个子集中的第n个语音样本对应的第k个频率点的常Q变换域频谱分布特征值记为CQTSDFm,n(k),再将基础语音库中的每个子集中的每个语音样本对应的K个频率点的常Q变换域频谱分布特征值构成常Q变换域频谱分布特征向量,将基础语音库中的第m个子集中的第n个语音样本对应的常Q变换域频谱分布特征向量记为CQTSDFm,n,CQTSDFm,n=[CQTSDFm,n(1),…,CQTSDFm,n(k),…,CQTSDFm,n(K)];其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,k为正整数,1≤k≤K,K表示常Q变换的频率点的总点数,K≥9,在本实施例中取K=420,gk为正整数,1≤gk≤Gk,Gk表示常Q变换的过程中分帧的窗口长度,zm,n(gk)表示基础语音库中的第m个子集中的第n个语音样本,w(gk)表示常Q变换的过程中采用的窗函数,在本实施例中采用汉宁窗,e为自然基数,j为虚数单位,fk表示常Q变换的过程中采用的滤波器的中心频率,表示第m个手机的采样率,为Fm,n(k)的共扼,Tk表示基础语音库中的每个子集中的每个语音样本在第k个频率点处的总帧数,tk为正整数,1≤tk≤Tk,c为一个随机正数,CQTSDFm,n的维数为1×K,符号“[]”为向量表示符号,CQTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的常Q变换域频谱分布特征值,CQTSDFm,n(K)表示基础语音库中的第m个子集中的第n个语音样本对应的第K个频率点的常Q变换域频谱分布特征值。
采用相同的操作方式对每个含噪语音库中的每个含噪子集中的每个含噪语音样本进行处理,获得每个含噪语音库中的每个含噪子集中的每个含噪语音样本对应的各个频率点的常Q变换域频率值、各个频率点的频率值的幅值、各个频率点的频谱分布特征值、常Q变换域频谱分布特征向量,将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的常Q变换域频率值记为Fi,m,n(k),将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的频率值的幅值记为Hi,m,n(k),将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的常Q变换域频谱分布特征值记为CQTSDFi,m,n(k),将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的常Q变换域频谱分布特征向量记为CQTSDFi,m,n;其中,i为正整数,1≤i≤X×Y,CQTSDFi,m,n的维数为1×K。
在本实施例中,步骤三中,其中,fmin表示常Q变换的过程中采用的滤波器的最低中心频率,fmax表示常Q变换的过程中采用的滤波器的最高中心频率,B表示常Q变换每倍程的频率点的点数,符号为向下取整符号,在本实施例中的值为7,B的值为60;其中,Q表示常Q变换的Q因子,
步骤四:对基础语音库中的每个子集中的每个语音样本进行傅里叶变换,将基础语音库中的每个子集中的每个语音样本变换到频域,将基础语音库中的第m个子集中的第n个语音样本对应的第d个频率点的傅里叶变换域频率值记为Sm,n(d),然后计算基础语音库中的每个子集中的每个语音样本对应的每个频率点的频率值的幅值,将Sm,n(d)的幅值记为Qm,n(d),接着计算基础语音库中的每个子集中的每个语音样本对应的每个频率点的傅里叶变换域频谱分布特征值,将基础语音库中的第m个子集中的第n个语音样本对应的第d个频率点的傅里叶变换域频谱分布特征值记为STFTSDFm,n(d),再将基础语音库中的每个子集中的每个语音样本对应的D个频率点的傅里叶变换域频谱分布特征值构成傅里叶变换域频谱分布特征向量,将基础语音库中的第m个子集中的第n个语音样本对应的傅里叶变换域频谱分布特征向量记为STFTSDFm,n,STFTSDFm,n=[STFTSDFm,n(1),…,STFTSDFm,n(d),…,STFTSDFm,n(D)];其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,d为正整数,1≤d≤D,D表示傅里叶变换的频率点的总点数,D=256或512或1024,在本实例中D取256,g为正整数,1≤g≤G,G表示傅里叶变换的过程中分帧的窗口长度,zm,n(g)表示基础语音库中的第m个子集中的第n个语音样本,w(g)表示常Q变换的过程中采用的窗函数,在本实施例中采用汉宁窗,e为自然基数,j为虚数单位,为Sm,n(d)的共扼,T表示基础语音库中的每个子集中的每个语音样本的总帧数,t为正整数,1≤t≤T,c为一个随机正数,STFTSDFm,n的维数为1×D,STFTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的傅里叶变换域频谱分布特征值,STFTSDFm,n(D)表示基础语音库中的第m个子集中的第n个语音样本对应的第D个频率点的傅里叶变换域频谱分布特征值;
采用相同的操作方式对每个含噪语音库中的每个含噪子集中的每个含噪语音样本进行处理,获得每个含噪语音库中的每个含噪子集中的每个含噪语音样本对应的各个频率点的傅里叶变换域频率值、各个频率点的频率值的幅值、各个频率点的傅里叶变换域频谱分布特征值、傅里叶变换域频谱分布特征向量,将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第d个频率点的频率值记为Si,m,n(d),将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第d个频率点的频率值的幅值记为Qi,m,n(d),将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第d个频率点的傅里叶变换域频谱分布特征值记为STFTSDFi,m,n(d),将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的傅里叶变换域频谱分布特征向量记为STFTSDFim,n;其中,i为正整数,1≤i≤X×Y,STFTSDFi,m,n的维数为1×D。
步骤五:对基础语音库中的每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本中的第d个频率点的傅里叶变换域频率值Sm,n(d),其经每个滤波器组后的对数能量Cm,n(d), 再进行离散余弦变换得到MFCC特征值MFCCm,n(a),基础语音库中第m个子集中的第n个语音样本对应的MFCC特征向量MFCCm,n,MFCCm,n=[MFCCm,n(1),…,MFCCm,n(a),…,MFCCm,n(A)];其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,f(p)表示中心频率,p为三角滤波器组的数量,p=1,..,P,在本实例中P取12,LP(d)的约束条件为a为正整数,1≤a≤A,A表示MFCC特征的阶数,在本实例中A取12,MFCCm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1阶特征值,MFCCm,n(A)表示基础语音库中的第m个子集中的第n个语音样本对应的第A阶特征值;
采用相同的操作方式对每个含噪语音库中的每个含噪子集中的每个含噪语音样本进行处理,获得每个含噪语音库中的每个含噪子集中的每个含噪语音样本对应的各阶特征值,将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第a个阶特征值记为MFCCi,m,n(a);其中,i为正整数,1≤i≤X×Y,MFCCi,m,n的维数为1×A;
步骤六:将基础语音库中的每个子集中的每个语音样本的常Q变换域频谱分布特征、傅里叶域频谱分布特征、MFCC特征按序排列组成一个维数为K+D+A的行向量,作为每个子集中的每个语音样本的融合特征向量,将基础语音库中的第m个子集中的第n个语音样本的融合特征向量记为Rm,n,Rm,n=[CQTSDFm,n(1),…,CQTSDFm,n(K),STFTSDFm,n(1),…,STFTSDFm,n(D),MFCCm,n(1),…,MFCCm,n(A)]。
采用相同的操作方式将每个含噪语音库中的每个含噪子集中的每个含噪语音样本的常Q变换域频谱分布特征、傅里叶域频谱分布特征、MFCC特征按序排列组成一个维数为K+D+A的行向量,作为每个子集中的每个语音样本的融合特征,将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本的融合特征向量记为Ri,m,n,Ri,m,n=[CQTSDFi,m,n(1),…,CQTSDFi,m,n(K),STFTSDFi,m,n(1),…,STFTSDFi,m,n(D),MFCCi,m,n(1),…,MFCCi,m,n(A)]
步骤六:对基础语音库中的每个子集中的每个语音样本对应的融合特征向量及每个含噪语音库中的每个含噪子集中的每个含噪语音样本对应的融合特征向量进行类别标记,将基础语音库中的第m个子集中的所有语音样本对应的融合特征向量及所有含噪语音库中的第m个含噪子集中的所有含噪语音样本对应的融合特征向量标记为第m种类别;然后将基础语音库中的所有子集中的语音样本对应的融合特征向量及所有含噪语音库中的含噪子集中的含噪语音样本对应的融合特征向量作为输入特征,输入到CNN模型中进行训练,训练得到M分类模型,M分类模型的输出端用于输出类别,输出的类别为M种,与选取的M个手机一一对应。
在本实施例中,步骤七中,CNN模型的网络框架包括输入层、第一卷积层、第一非线性激活层、第二卷积层、第二非线性激活层、最大池化层、全连接层、第三非线性激活层、输出层,输入层的输入端输入的输入特征的维数为1×K,第一卷积层有72个卷积核、卷积核的大小为1×3、卷积核的移动步长为1,第二卷积层有72个卷积核、卷积核的大小为1×2、卷积核的移动步长为1,最大池化层的核的大小为1×26、核的移动步长为1,全连接层有64个神经元,输出层的输出端输出类别,第一非线性激活层、第二非线性激活层、第三非线性激活层均采用ReLU函数,CNN模型中的Dropout损失函数的值为0.25,CNN模型中的分类器为Softmax。
步骤八:取一个待识别的语音,记为Vtest;然后按照步骤三至六的过程,以相同的操作方式获得Vtest对应的融合特征向量,记为Rtest;再将Rtest输入到训练得到的M分类模型中进行分类别,M分类模型的输出端输出Rtest的类别,即得到Rtest的手机来源;其中,Rtest的维数为1×(K+D+A)。
为了验证本发明方法的可行性和有效性,对本发明方法进行实验。
将基础语音库CKC-SD中的每个子集中的一半数量的语音样本及基础语音库CKC-SD对应的9个含噪语音库(包括添加白噪声且信噪比为20dB的含噪语音库、添加白噪声且信噪比为10dB的含噪语音库、添加白噪声且信噪比为0dB的含噪语音库、添加嘈杂噪声且信噪比为20dB的含噪语音库、添加嘈杂噪声且信噪比为10dB的含噪语音库、添加嘈杂噪声且信噪比为0dB的含噪语音库、添加街道噪声且信噪比为20dB的含噪语音库、添加街道噪声且信噪比为10dB的含噪语音库、添加街道噪声且信噪比为0dB的含噪语音库)中的每个含噪子集中的一半数量的含噪语音样本构成训练集,提取训练集中的所有语音样本的频谱分布特征向量用于训练CNN模型;而将基础语音库CKC-SD中的所有子集中的剩余一半数量的语音样本构成一个测试集,并将基础语音库CKC-SD对应的每个含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成一个测试集,共有16个测试集;同样,将基础语音库TIMIT-RD中的每个子集中的一半数量的语音样本及基础语音库TIMIT-RD对应的9个含噪语音库中的每个含噪子集中的一半数量的含噪语音样本构成训练集,提取训练集中的所有语音样本的频谱分布特征向量用于训练CNN模型;而将基础语音库TIMIT-RD中的所有子集中的剩余一半数量的语音样本构成一个测试集,并将基础语音库TIMIT-RD对应的每个含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成一个测试集,共有16个测试集。
一、融合向量的识别性能
为验证本发明方法提出的融合特征向量的识别性能,对单一特征CQTSDF、STFTSDF、MFCC及本发明方法提出的融合特征向量分别在基础语音库CKC-SD对应的训练集下进行训练,并使用基础语音库CKC-SD对应的16个测试集进行测试,识别结果如表2所示。其中,clean表示基础语音库CKC-SD中的所有子集中的剩余一半数量的语音样本构成的测试集,white-20dB表示基础语音库CKC-SD对应的添加白噪声且信噪比为20dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,white-10dB表示基础语音库CKC-SD对应的添加白噪声且信噪比为10dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,white-0dB表示基础语音库CKC-SD对应的添加白噪声且信噪比为0dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,babble-20dB表示基础语音库CKC-SD对应的添加嘈杂噪声且信噪比为20dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,babble-10dB表示基础语音库CKC-SD对应的添加嘈杂噪声且信噪比为10dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,babble-0dB表示基础语音库CKC-SD对应的添加嘈杂噪声且信噪比为0dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,street-20dB表示基础语音库CKC-SD对应的添加街道噪声且信噪比为20dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,street-10dB表示基础语音库CKC-SD对应的添加街道噪声且信噪比为10dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,street-0dB表示基础语音库CKC-SD对应的添加街道噪声且信噪比为0dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,cafe-20dB表示基础语音库CKC-SD对应的添加餐厅噪声且信噪比为20dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,cafe-10dB表示基础语音库CKC-SD对应的添加餐厅噪声且信噪比为10dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,cafe-0dB表示基础语音库CKC-SD对应的添加餐厅噪声且信噪比为0dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,volvo-20dB表示基础语音库CKC-SD对应的添加汽车噪声且信噪比为20dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,volvo-10dB表示基础语音库CKC-SD对应的添加汽车噪声且信噪比为10dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集,volvo-0dB表示基础语音库CKC-SD对应的添加汽车噪声且信噪比为0dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集。
从表2中可以看出,融合特征,相比于单一特征,不仅提升了对干净语音的识别效果,也提升了大部分含噪语音的识别效果。语音文件经过不同的时频变换方法会得到不同的频域信息,由于傅里叶变换和常Q变换这两种时频转换方式采用的频率分辨率不同的,所以这三种特征表征的频域信息在不同频带精度是不同的,反映的设备区分性信息不同,因此能够更精确的表征设备区分信息。
表2不同特征的分类准确性(%)

Claims (8)

1.一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述方法包括,
步骤一、选取M个不同型号手机,每个手机获取N个人的P个语音样本,得到语音样本N×P个,并形成一个子集,将M个子集共M×N×P个语音样本构成基础语音库;其中,M≥10,N≥10,P≥10;
步骤二、选取噪声类型X种,噪声强度Y种,得到场景噪声共X×Y种,对所述基础语音库中的每个子集中的所有语音样本添加每种场景噪声,形成M个含噪子集共M×N×P个含噪语音样本,形成一个含噪语音库,X×Y种场景噪声共得到X×Y个含噪语音库,其中,X≥2,Y≥2;
步骤三、对所述基础语音库中每个子集中的每个语音样本进行常Q变换,得到基础语音库中第m个子集中的第n个语音样本中的第k个频率点的常Q变换域频率值Fm,n(k),频率值幅值Hm,n(k),常Q变换域频谱分布特征值CQTSDFm,n(k),第n个语音样本对应的K个频率点的常Q变换域频谱分布特征向量CQTSDFm,n,CQTSDFm,n=[CQTSDFm,n(1),…,CQTSDFm,n(k),…,CQTSDFm,n(K)];
对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的常Q变换域频率值Fi,m,n(k),频率值的幅值Hi,m,n(k),常Q变换域频谱分布特征值CQTSDFi,m,n(k)以及第n个含噪语音样本对应的K个频率点的常Q变换域频谱分布特征向量CQTSDFi,m,n,i为正整数,1≤i≤X×Y,CQTSDFi,m,n的维数为1×K;
其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,k为正整数,1≤k≤K,K表示常Q变换的频率点的总点数,K≥9,gk为正整数,1≤gk≤Gk,Gk表示常Q变换的过程中分帧的窗口长度,zm,n(gk)表示基础语音库中的第m个子集中的第n个语音样本,w(gk)表示常Q变换的过程中采用的窗函数,e为自然基数,j为虚数单位,fk表示常Q变换的过程中采用的滤波器的中心频率,表示第m个手机的采样率,为Fm,n(k)的共扼,Tk表示基础语音库中的每个子集中的每个语音样本在第k个频率点处的总帧数,tk为正整数,1≤tk≤Tk,c为一个随机正数,CQTSDFm,n的维数为1×K,符号“[]”为向量表示符号,CQTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的常Q变换域频谱分布特征值,CQTSDFm,n(K)表示基础语音库中的第m个子集中的第n个语音样本对应的第K个频率点的常Q变换域频谱分布特征值;
步骤四、对所述基础语音库中的每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本对应的第d个频率点的傅里叶变换域频率值Sm,n(d),频率值的幅值Qm,n(d),傅里叶变换域频谱分布特征值STFTSDFm,n(d),第n个语音样本对应的D个频率点的傅里叶变换域频谱分布特征向量STFTSDFm,n,STFTSDFm,n=[STFTSDFm,n(1),…,STFTSDFm,n(d),…,STFTSDFm,n(D)];
对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中第m个含噪子集中的第n个含噪语音样本对应的第d个频率点的傅里叶变换域频率值Si,m,n(d),频率值的幅值Qi,m,n(d),傅里叶变换域频谱分布特征值STFTSDFi,m,n(d),第n个含噪语音样本对应的的D个频率点的傅里叶变换域频谱分布特征向量STFTSDFi,m,n,i为正整数,1≤i≤X×Y,STFTSDFi,m,n的维数为1×D;
其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,d为正整数,1≤d≤D,D表示傅里叶变换的频率点的总点数,g为正整数,1≤g≤G,G表示傅里叶变换的过程中分帧的窗口长度,zm,n(g)表示基础语音库中的第m个子集中的第n个语音样本,w(g)表示傅里叶变换的过程中采用的窗函数,e为自然基数,j为虚数单位,为Sm,n(d)的共扼,T表示基础语音库中的每个子集中的每个语音样本的总帧数,t为正整数,1≤t≤T,c为一个随机正数,STFTSDFm,n的维数为1×D,STFTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的傅里叶变换域频谱分布特征值,STFTSDFm,n(D)表示基础语音库中的第m个子集中的第n个语音样本对应的第D个频率点的傅里叶变换域频谱分布特征值;
步骤五、对所述基础语音库中每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本中的第d个频率点的傅里叶变换域频率值Sm,n(d),其经每个滤波器组后的对数能量Cm,n(d), 再进行离散余弦变换得到MFCC特征值MFCCm,n(a),基础语音库中第m个子集中的第n个语音样本对应的MFCC特征向量MFCCm,n,MFCCm,n=[MFCCm,n(1),…,MFCCm,n(a),…,MFCCm,n(A)];;
对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中第m个含噪子集中的第n个含噪语音样本对应的第a个阶特征值MFCCi,m,n(a),i为正整数,1≤i≤X×Y,MFCCi,m,n的维数为1×A;
其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,a为正整数,1≤a≤A,A表示MFCC特征的阶数,STFTSDFm,n的维数为1×A,MFCCm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1阶特征值,MFCCm,n(A)表示基础语音库中的第m个子集中的第n个语音样本对应的第A阶特征值;
步骤六、将所述基础语音库中每个子集中的每个语音样本的常Q变换域频谱分布特征、傅里叶域频谱分布特征、MFCC特征按序排列组成一个维数为K+D+A的行向量,形成融合特征向量,得到基础语音库中第m个子集中的第n个语音样本的融合特征向量Rm,n
Rm,n=[CQTSDFm,n(1),…,CQTSDFm,n(K),STFTSDFm,n(1),…,STFTSDFm,n(D),MFCCm,n(1),…,MFCCm,n(A)];
对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本的融合特征向量Ri,m,n
Ri,m,n=[CQTSDFi,m,n(1),…,CQTSDFi,m,n(K),STFTSDFi,m,n(1),…,STFTSDFi,m,n(D),MFCCi,m,n(1),…,MFCCi,m,n(A)],
该Ri,m,n为一个维数为K+D+A的行向量;
步骤七、将所述基础语音库中第m个子集中的所有语音样本对应的融合特征向量及所有含噪语音库中的第m个含噪子集中的所有含噪语音样本对应的融合特征向量标记为第m种类别,并将其作为输入特征,输入到CNN模型中进行训练,得到M分类模型,M分类模型输出端输出类别,输出类别为M种,与选取的M个手机对应;
步骤八、取一个待识别录音,记为Vtest,按照步骤三至六操作,获得Vtest对应的融合特征向量Rtest,将Rtest输入到M分类模型,M分类模型输出端输出Rtest类别,即得到Rtest的手机来源,Rtest的维数为1×(K+D+A)。
2.根据权利要求1所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述步骤一中的每个手机获取N个人的P个语音样本的具体过程为,
将手机置于静环境下分别采集N个不同人的语音,将采集到的每个语音转换成wav格式并将每个wav格式语音分割成多个语音片段,再从每个wav格式语音的所有语音片段中随机选取P个语音片段作为语音样本。
3.根据权利要求1所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述步骤一中每个手机获取N个人的P个语音样本的具体过程为,
将手机置于静环境下分别采集由高保真音箱回放的N个人各自对应的P个语句,将每个语句转换成wav格式语音以作为语音样本。
4.根据权利要求1至3中任一项所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:
所述的步骤三中,其中,fmin表示常Q变换的过程中采用的滤波器的最低中心频率,fmax表示常Q变换的过程中采用的滤波器的最高中心频率,B表示常Q变换子带的频率点的点数,符号为向下取整符号;其中,Q表示常Q变换的Q因子,
5.根据权利要求4所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:
所述的步骤七中,CNN模型的网络框架包括输入层、第一卷积层、第一非线性激活层、第二卷积层、第二非线性激活层、最大池化层、全连接层、第三非线性激活层、输出层,输入层的输入端输入的输入特征的维数为1×K,第一卷积层有72个卷积核、卷积核的大小为1×3、卷积核的移动步长为1,第二卷积层有72个卷积核、卷积核的大小为1×2、卷积核的移动步长为1,最大池化层的核的大小为1×26、核的移动步长为1,全连接层有64个神经元,输出层的输出端输出类别,第一非线性激活层、第二非线性激活层、第三非线性激活层均采用ReLU函数,CNN模型中的Dropout损失函数的值为0.25,CNN模型中的分类器为Softmax。
6.根据权利要求2所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:
所述语音片段时长为3~10秒。
7.根据权利要求3所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:
所述语句时长为3秒。
8.根据权利要求1所述的一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:
所述D取值256或512或1024。
CN201910231119.2A 2019-03-26 2019-03-26 一种基于融合特征的加性噪声环境下手机来源识别方法 Active CN110136746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910231119.2A CN110136746B (zh) 2019-03-26 2019-03-26 一种基于融合特征的加性噪声环境下手机来源识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910231119.2A CN110136746B (zh) 2019-03-26 2019-03-26 一种基于融合特征的加性噪声环境下手机来源识别方法

Publications (2)

Publication Number Publication Date
CN110136746A true CN110136746A (zh) 2019-08-16
CN110136746B CN110136746B (zh) 2021-11-09

Family

ID=67568582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910231119.2A Active CN110136746B (zh) 2019-03-26 2019-03-26 一种基于融合特征的加性噪声环境下手机来源识别方法

Country Status (1)

Country Link
CN (1) CN110136746B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569764A (zh) * 2019-08-28 2019-12-13 北京工业大学 一种基于卷积神经网络的手机型号识别方法
CN111462737A (zh) * 2020-03-26 2020-07-28 中国科学院计算技术研究所 一种训练用于语音分组的分组模型的方法和语音降噪方法
CN113155271A (zh) * 2020-01-23 2021-07-23 上海擎动信息科技有限公司 声振检测方法、系统、终端及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394062A (zh) * 2011-10-26 2012-03-28 华南理工大学 一种自动录音设备源识别的方法和系统
CN107274912A (zh) * 2017-07-13 2017-10-20 东莞理工学院 一种手机录音的设备来源辨识方法
CN107507626A (zh) * 2017-07-07 2017-12-22 宁波大学 一种基于语音频谱融合特征的手机来源识别方法
CN109285538A (zh) * 2018-09-19 2019-01-29 宁波大学 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN109378014A (zh) * 2018-10-22 2019-02-22 华中师范大学 一种基于卷积神经网络的移动设备源识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394062A (zh) * 2011-10-26 2012-03-28 华南理工大学 一种自动录音设备源识别的方法和系统
CN107507626A (zh) * 2017-07-07 2017-12-22 宁波大学 一种基于语音频谱融合特征的手机来源识别方法
CN107274912A (zh) * 2017-07-13 2017-10-20 东莞理工学院 一种手机录音的设备来源辨识方法
CN109285538A (zh) * 2018-09-19 2019-01-29 宁波大学 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN109378014A (zh) * 2018-10-22 2019-02-22 华中师范大学 一种基于卷积神经网络的移动设备源识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CEMAL HANILCI, ETC: "Recognition of Brand and Models of Cell-Phones From Recorded Speech Signals", <IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY> *
CONSTANTINE KOTROPOULOS, ETC: "Mobile Phone Identification Using Recorded Speech Signals", <PROCEEDINGS OF THE 19TH INTERNATIONAL CONFERENCE ON DIGAL SIGNAL PROCESSING> *
秦天芸,王让定,裴安山: "基于线性预测梅尔频率倒谱系数的设备来源识别", 《数据通信》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569764A (zh) * 2019-08-28 2019-12-13 北京工业大学 一种基于卷积神经网络的手机型号识别方法
CN110569764B (zh) * 2019-08-28 2023-12-22 北京工业大学 一种基于卷积神经网络的手机型号识别方法
CN113155271A (zh) * 2020-01-23 2021-07-23 上海擎动信息科技有限公司 声振检测方法、系统、终端及介质
CN113155271B (zh) * 2020-01-23 2023-08-22 上海擎动信息科技有限公司 声振检测方法、系统、终端及介质
CN111462737A (zh) * 2020-03-26 2020-07-28 中国科学院计算技术研究所 一种训练用于语音分组的分组模型的方法和语音降噪方法
CN111462737B (zh) * 2020-03-26 2023-08-08 中国科学院计算技术研究所 一种训练用于语音分组的分组模型的方法和语音降噪方法

Also Published As

Publication number Publication date
CN110136746B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN109285538A (zh) 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN101261832B (zh) 汉语语音情感信息的提取及建模方法
Cai et al. Sensor network for the monitoring of ecosystem: Bird species recognition
CN109767785A (zh) 基于卷积神经网络的环境噪声识别分类方法
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
CN108305615A (zh) 一种对象识别方法及其设备、存储介质、终端
CN105810212B (zh) 一种复杂噪声环境下的列车鸣笛识别方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN106531159B (zh) 一种基于设备本底噪声频谱特征的手机来源识别方法
CN107507626B (zh) 一种基于语音频谱融合特征的手机来源识别方法
CN110136746A (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
CN101710490A (zh) 语音评测的噪声补偿方法及装置
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
CN109559736A (zh) 一种基于对抗网络的电影演员自动配音方法
CN108986824A (zh) 一种回放语音检测方法
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN110136709A (zh) 语音识别方法及基于语音识别的视频会议系统
CN107464563B (zh) 一种语音交互玩具
CN108876951A (zh) 一种基于声音识别的教学考勤方法
CN115424620A (zh) 一种基于自适应触发器的声纹识别后门样本生成方法
CN106782503A (zh) 基于发音过程中生理信息的自动语音识别方法
Sun et al. A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea
CN110390937A (zh) 一种基于ArcFace loss算法的跨信道声纹识别方法
Zhang et al. Fault diagnosis method based on MFCC fusion and SVM
CN110415707B (zh) 一种基于语音特征融合和gmm的说话人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190816

Assignee: Ningbo Science and Technology Innovation Association

Assignor: Ningbo University

Contract record no.: X2023980033633

Denomination of invention: A Method for Mobile Phone Source Recognition in Additive Noise Environment Based on Fusion Features

Granted publication date: 20211109

License type: Common License

Record date: 20230317

EE01 Entry into force of recordation of patent licensing contract
TR01 Transfer of patent right

Effective date of registration: 20240407

Address after: 313200 Room 337, Building 3, No. 266, Zhenxing Road, Yuyue Town, Deqing County, Huzhou City, Zhejiang Province

Patentee after: Huzhou Chuangguan Technology Co.,Ltd.

Country or region after: China

Address before: 315211, Fenghua Road, Jiangbei District, Zhejiang, Ningbo 818

Patentee before: Ningbo University

Country or region before: China

TR01 Transfer of patent right