CN110148425A - 一种基于完整局部二进制模式的伪装语音检测方法 - Google Patents
一种基于完整局部二进制模式的伪装语音检测方法 Download PDFInfo
- Publication number
- CN110148425A CN110148425A CN201910396609.8A CN201910396609A CN110148425A CN 110148425 A CN110148425 A CN 110148425A CN 201910396609 A CN201910396609 A CN 201910396609A CN 110148425 A CN110148425 A CN 110148425A
- Authority
- CN
- China
- Prior art keywords
- camouflage
- local binary
- voice
- binary pattern
- complete local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 238000012706 support-vector machine Methods 0.000 claims abstract description 33
- 230000009466 transformation Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 26
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于完整局部二进制模式的伪装语音检测方法,包括:对真实语音库和相应的伪装语音库中所有语音进行变量Q变换,得到所有真实语音和伪装语音的语谱图;分别将各语谱图转换为相应的灰度图像,并采用完整局部二进制模式处理,生成相应的纹理特征;将所有的纹理特征作为训练支持向量机的训练集,训练得到支持向量机;将待识别语音输入至支持向量机,以进行伪装语音的识别。本发明采用变量Q变换获取的语谱图,纹理更加清晰,有助于提取语音信号的纹理特征;而且采用完整局部二进制模式,包含语谱图的局部符号差值信息和局部幅度差值信息,可更全面地获取信号的纹理特征,有利于支持向量机的分类,提高识别伪装语音的准确率。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种基于完整局部二进制模式的伪装语音检测方法。
背景技术
伪装语音检测是通过对说话人的声音进行分析,进而识别出它是真实说话人的语音还是人为恶意伪装的语音。伪装语音通常由设备回放、语音转换及语音合成技术生成,通过这些蓄意的操作能够伪装成特定的说话人声音,从而达到欺骗说话人识别系统的目的。伪装语音识别系统可针对恶意的伪装语音实现反伪装检测,提高说话人识别系统安全性能,具有广阔的应用前景。伪装语音识别通常需要对目标语音信号特征提取,再跟其对应的真实语音的特征比对分析进而判定真伪。传统的伪装语音检测系统提取的特征参数主要分为两种:一种是语音信号的幅度谱特征,通常有高阶梅尔倒谱系数、梅尔主频率和对数幅度谱等;另一种是语音信号的相位谱特征,通常有修正的群延时和相对相移等。而实际情况下,因为说话人识别系统要应对的是各种未知的伪装语音的攻击,所以根据上述特征的检测效果往往不是很理想。
发明内容
基于现有技术中存在的上述不足,本发明提供一种基于完整局部二进制模式的伪装语音检测方法。
为了达到上述发明目的,本发明采用以下技术方案:
一种基于完整局部二进制模式的伪装语音检测方法,包括以下步骤:
S1、对真实语音库和相应的伪装语音库中所有语音进行变量Q变换,得到所有真实语音和伪装语音的语谱图;
S2、分别将各语谱图转换为相应的灰度图像,并采用完整局部二进制模式处理,生成相应的纹理特征;
S3、将所有的纹理特征作为训练支持向量机的训练集,训练得到支持向量机;
S4、将待识别语音输入至支持向量机,以进行伪装语音的识别。
作为优选方案,所述步骤S1具体为:
利用变量Q变换求取真实语音库和伪装语音库中语音的频谱,并绘制语谱图,即有:
其中,Xvq(k)是数字语音序列的VQT频谱;x(n)是有限长的数字语音序列;n是数字语音序列的序号;wNk是长度为Nk的窗函数;k是频谱的频率序号;Nk是窗函数的长度和k值有关;Q是变量因子;
变量因子Q通过引入附加参数γ使Q向低频平滑减少,以提高低频处的时间分辨率,即有:
Bk=Qfk+γ;
其中,Bk是第k频率窗口的带宽;fk是第k频率窗口的中心频率;γ是预先设定的附加参数。
作为优选方案,所述步骤S2具体包括:
S21、基于灰度图像,分别计算完整局部二进制模式的符号差值特征和幅度差值特征;
S22、将完整局部二进制模式的符号差值特征和幅度差值特征级联,得到完整局部二进制模式特征向量,作为语音的纹理特征。。
作为优选方案,所述计算完整局部二进制模式的符号差值特征,包括以下步骤:
读取灰度图像的每个像素点灰度值,设置3×3的评估窗口进行二进制编码,使其相邻像素点与中心像素点进行灰度值比较;若相邻像素点的灰度值gp大于或等于其中心像素点灰度值gc,二进制位设置为1,否则设置为0,即:
其中,CLBP_S是完整局部二进制模式的符号差值;
所述评估窗口能生成8位二进制数,同时转换为十进制值,每一个十进制值代表一种纹理模式,则共有256种纹理模式;
应用所述评估窗口分析整幅灰度图像,得到一幅包含256种纹理模式的特征图像,统计特征图像上每一种纹理模式的数量生成直方图,将每一种纹理模式作为特征向量的维度,再将相应的纹理模式的数量作为特征向量在所述维度下的值,则生成的统计直方图可得1×256的完整局部二进制模式的符号差值特征向量。
作为优选方案,所述计算完整局部二进制模式的幅度差值特征,包括以下步骤:
读取灰度图像的每个像素点灰度值;对相邻像素点灰度值与中心像素点灰度值的差值取绝对值,记为相邻像素点与中心像素点的幅度差值mp;再取整幅图像所有幅度差值平均,记为幅度差值的阈值c;
mp=|gp-gc|;
其中,gp为相邻像素点的灰度值;gc为中心像素点灰度值;k为幅度差值mp序号;N为mp的总数;
每个相邻像素点与中心像素点的幅度差值的绝对值mp作为新的相邻像素点灰度值,幅度差值的阈值c作为新中心像素点灰度值;设置3×3的评估窗口进行二进制编码,使其新的相邻像素点与新的中心像素点进行灰度值比较;若新的相邻像素点的灰度值mp大于或等于其新的中心像素点灰度值c,二进制位设置为1;否则设置为0;即:
其中,CLBP_M是完整局部二进制模式的幅度差值;
所述评估窗口能生成8位二进制数,同时转换为十进制值,每一个十进制值代表一种纹理模式,则共有256种纹理模式;
应用所述评估窗口分析整幅灰度图像,得到一幅包含256种纹理模式的特征图像,统计所述特征图像上每一种纹理模式的数量生成直方图,将每一种纹理模式作为特征向量的维度,再将相应的纹理模式的数量作为特征向量在所述维度下的值,则生成的统计直方图可得1×256的完整局部二进制模式的幅度差值特征向量。
作为优选方案,所述步骤S3具体包括:
将获得的训练集设置标签,记(xi,yi),i=1,2,3,...,N,xi∈Rn,yi∈[-1,1];其中,xi是训练样本也就是获得的完整局部二进制模式特征向量;N是训练样本的总数;n是样本空间的维数;Rn是n维样本空间;yi是样本的分类类别;yi=1表示伪装语音;yi=-1表示真实语音;引入错误惩罚因子C和径向基核函数K(xi,xj)以训练最优支持向量确定一个最优超平面;
使目标函数最大化的条件为:
采用的径向基核函数:
其中,αi为每个样本对应的拉格朗日乘子;错误惩罚因子C在确定径向基核函数后,控制错误分类样本的惩罚程度;只有部分αi不为零,其所对应的样本就是训练所得的支持向量机。
作为优选方案,所述支持向量机包括SVM输入层、SVM隐层和输出层。
作为优选方案,所述支持向量机的分类函数为:
其中,b为分类阈值。
作为优选方案,所述步骤S4中将待识别语音输入至支持向量机之前,还提取待识别语音的纹理特征。
作为优选方案,所述步骤S4具体包括:采用支持向量机的分类函数对待识别语音的纹理特征进行特征分类,以进行伪装语音的识别。
作为优选方案,所述步骤S1之前还包括:
S0、采集真实说话人语音以建立真实语音库,并训练建立相应的伪装语音库。
本发明与现有技术相比,有益效果是:
(1)本发明采用变量Q变换获取的语谱图相比于常用的短时傅里叶变换获取的语谱图,纹理更加清晰,有助于提取语音信号的纹理特征,而且采用的完整局部二进制模式,包含语谱图的局部符号差值信息和局部幅度差值信息,可更全面地获取信号的纹理特征,有利于支持向量机的分类,提高识别伪装语音的准确率。
(2)由于伪装语音较于真实语音缺少自然、动态的纹理特征,本发明应用语音信号的纹理特征训练的支持向量机,相比于使用传统的幅度和相位特征训练的支持向量机,识别伪装语音的效果更好、泛化能力更强。
附图说明
图1是本发明实施例的基于完整局部二进制模式的伪装语音检测方法的流程图;
图2是本发明实施例的基于完整局部二进制模式的伪装语音检测方法中利用完整局部二进制模式的符号差值对语谱图的变换图;
图3是本发明实施例的基于完整局部二进制模式的伪装语音检测方法中训练支持向量机的示意图;
图4是本发明实施例的基于完整局部二进制模式的伪装语音检测方法对应的检测系统的框架图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明实施例的基于完整局部二进制模式的伪装语音检测方法利用完整局部二进制模式(Completed Local Binary Pattern,CLBP)提取说话人真实语音信号和伪装语音信号的语谱图的纹理特征并用来训练具有真伪语音分类功能的支持向量机,可以有效地实现反伪装检测。
为了提取语音的纹理特征,需要对说话人语音信号进行变量Q变换(Variable-QTransform,VQT)得到清晰纹理的语谱图,再将语谱图作为一副图像处理,把语谱图转换为灰度图,采用完整局部二进制模式获得语谱图的统计直方图,将其用作支持向量机(Support Vector Machine,SVM)训练及分类的语音纹理特征向量。采用上述方法获取真实语音库及伪装语音库中所有语音信号的纹理特征向量用作训练集,设置径向基核作为支持向量机的核函数来训练支持向量,将训练得到的支持向量机作识别伪装语音的分类器。在说话人识别系统上,同样需要提取待识别的说话人声音纹理特征,以实现支持向量机的区分真伪语音的功能。
需要将伪装语音检测方法对应的伪装语音识别系统(如图4所示)作为说话人识别系统的后端来检测通过说话人识别系统后的声音是否真实,提高说话人识别系统的安全性能。
具体地,如图1所示,本发明实施例的基于完整局部二进制模式的伪装语音检测方法包括以下步骤:
S0、采集真实说话人语音以建立真实语音库(简称为语音库),并训练建立相应的伪装语音库;
S1、对真实语音库和相应的伪装语音库中所有语音进行变量Q变换,得到所有真实语音和伪装语音的语谱图;具体地,利用变量Q变换(Variable-Q Transform)求取真实语音库和伪装语音库中语音的频谱,并绘制语谱图,即有:
其中,Xvq(k)是数字语音序列的VQT频谱;x(n)是有限长的数字语音序列;n是数字语音序列的序号;wNk是长度为Nk的窗函数(如hamming窗);k是频谱的频率序号;Nk是窗函数的长度,和k值有关;Q是变量因子;
变量因子Q通过引入附加参数γ使Q向低频平滑减少,以提高低频处的时间分辨率,即有:
Bk=Qfk+γ;
其中,Bk是第k频率窗口的带宽;fk是第k频率窗口的中心频率;γ是预先设定的附加参数。
S2、分别将各语谱图转换为相应的灰度图像,并采用完整局部二进制模式处理,生成相应的纹理特征;具体地,将获得的语谱图转换为灰度图,再基于完整局部二进制模式对每幅灰度图处理得其纹理特征;步骤如下:
(1)首先,计算完整局部二进制模式的符号差值(CLBP_S)特征
如图2所示,读取灰度图像的每个像素点灰度值,设置3×3的评估窗口进行二进制编码,使其相邻像素点与中心像素点进行灰度值比较;若相邻像素点的灰度值gp大于或等于其中心像素点灰度值gc,二进制位设置为1,否则设置为0,即:
其中,CLBP_S是完整局部二进制模式的符号差值;
评估窗口可以生成8位二进制数,同时转换为十进制值,每一个十进制值代表一种纹理模式,从00000000(0)到11111111(255)一共有256种纹理模式;应用此评估窗口分析整幅灰度图,将得到一幅包含256种纹理模式的特征图像,统计该图像上每一种模式的数量生成直方图,将每一种纹理模式作为特征向量的维度,再将该纹理模式的数量作为特征向量在该维度下的值,所以由生成的统计直方图可得1×256的完整局部二进制模式的符号差值(CLBP_S)特征向量。
(2)计算完整局部二进制模式的幅度差值(CLBP_M)特征
读取灰度图像的每个像素点灰度值;对相邻像素点灰度值与中心像素点灰度值的差值取绝对值,记为相邻像素点与中心像素点的幅度差值mp;再取整幅图像所有幅度差值平均,记为幅度差值的阈值c;
mp=|gp-gc|;
其中,gp为相邻像素点的灰度值;gc为中心像素点灰度值;k为幅度差值mp序号;N为mp的总数;
每个相邻像素点与中心像素点的幅度差值的绝对值mp作为新的相邻像素点灰度值,幅度差值的阈值c作为新中心像素点灰度值;设置3×3的评估窗口进行二进制编码,使其新的相邻像素点与新的中心像素点进行灰度值比较;若新的相邻像素点的灰度值mp大于或等于其新的中心像素点灰度值c,二进制位设置为1;否则设置为0;即:
其中,CLBP_M是完整局部二进制模式的幅度差值;
该评估窗口同样可以生成8位二进制数,同时转换为十进制值,每一个十进制值代表一种纹理模式,从00000000(0)到11111111(255)一共有256种纹理模式。应用该评估窗口分析整幅灰度图像,得到一幅包含256种纹理模式的特征图像,统计该特征图像上每一种纹理模式的数量生成直方图,将每一种纹理模式作为特征向量的维度,再将相应的纹理模式的数量作为特征向量在所述维度下的值,所以由生成的统计直方图可得1×256的完整局部二进制模式的幅度差值(CLBP_M)特征向量。
(3)最后将完整局部二进制模式的符号差值(CLBP_S)特征和完整局部二进制模式的幅度差值(CLBP_M)特征简单级联,得到完整局部二进制模式(CLBP)特征向量,作为语音的纹理特征:
CLBP=[CLBP_S CLBP_M];
按照上述步骤,求真实语音库和伪装语音库所有语音的CLBP特征向量,用作伪装识别支持向量机的训练集。
S3、将所有的纹理特征作为训练支持向量机的训练集,训练得到支持向量机;具体地,将获得的训练集设置标签,记(xi,yi),i=1,2,3,...,N,xi∈Rn,yi∈[-1,1];其中,xi是训练样本也就是获得的完整局部二进制模式特征向量;N是训练样本的总数;n是样本空间的维数;Rn是n维样本空间;yi是样本的分类类别;yi=1表示伪装语音;yi=-1表示真实语音;引入错误惩罚因子C和径向基核函数(Radial Basic Function,RBF)K(xi,xj)以训练最优支持向量确定一个最优超平面;
使目标函数最大化的条件为:
采用的径向基核函数RBF:
其中,αi为每个样本对应的拉格朗日乘子;错误惩罚因子C在确定径向基核函数后,控制错误分类样本的惩罚程度;只有部分αi不为零,其所对应的样本就是训练所得的支持向量机SVM,用作伪装识别分类。如图3所示,支持向量机内含三层,从下至上分别为SVM输入层、SVM隐层以及输出层;
通过上述步骤,可得分类函数为
其中,b为分类阈值,可由支持向量求得。应用此分类决策函数可对待识别的语音信号的纹理特征分类,达到识别真伪语音的目的。
S4、将待识别语音输入至支持向量机,以进行伪装语音的识别。具体地,将训练得到的SVM模型作为说话人识别系统的后端;待说话人识别系统确认语音为目标说话人后,提取待识别语音的纹理特征,输入至SVM进行分类来实现伪装语音识别的功能。
本发明实施例的基于完整局部二进制模式的伪装语音检测方法具有如下优点:
(1)采用变量Q变换获取的语谱图相比于常用的短时傅里叶变换获取的语谱图,纹理更加清晰,有助于提取语音信号的纹理特征,而且采用的完整局部二进制模式,包含语谱图的局部符号差值信息和局部幅度差值信息,可更全面地获取信号的纹理特征,有利于支持向量机的分类,提高识别伪装语音的准确率;
(2)由于伪装语音较于真实语音缺少自然、动态的纹理特征;应用语音信号的纹理特征训练的支持向量机,相比于使用传统的幅度和相位特征训练的支持向量机,识别伪装语音的效果更好、泛化能力更强。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (10)
1.一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,包括以下步骤:
S1、对真实语音库和相应的伪装语音库中所有语音进行变量Q变换,得到所有真实语音和伪装语音的语谱图;
S2、分别将各语谱图转换为相应的灰度图像,并采用完整局部二进制模式处理,生成相应的纹理特征;
S3、将所有的纹理特征作为训练支持向量机的训练集,训练得到支持向量机;
S4、将待识别语音输入至支持向量机,以进行伪装语音的识别。
2.根据权利要求1所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述步骤S1具体为:
利用变量Q变换求取真实语音库和伪装语音库中语音的频谱,并绘制语谱图,即有:
其中,Xvq(k)是数字语音序列的VQT频谱;x(n)是有限长的数字语音序列;n是数字语音序列的序号;wNk是长度为Nk的窗函数;k是频谱的频率序号;Nk是窗函数的长度,和k值有关;Q是变量因子;
变量因子Q通过引入附加参数γ使Q向低频平滑减少,以提高低频处的时间分辨率,即有:
Bk=Qfk+γ;
其中,Bk是第k频率窗口的带宽;fk是第k频率窗口的中心频率;γ是预先设定的附加参数。
3.根据权利要求2所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述步骤S2具体包括:
S21、基于灰度图像,分别计算完整局部二进制模式的符号差值特征和幅度差值特征;
S22、将完整局部二进制模式的符号差值特征和幅度差值特征级联,得到完整局部二进制模式特征向量,作为语音的纹理特征。
4.根据权利要求3所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述计算完整局部二进制模式的符号差值特征,包括以下步骤:
读取灰度图像的每个像素点灰度值,设置3×3的评估窗口进行二进制编码,使其相邻像素点与中心像素点进行灰度值比较;若相邻像素点的灰度值gp大于或等于其中心像素点灰度值gc,二进制位设置为1,否则设置为0,即:
其中,CLBP_S是完整局部二进制模式的符号差值;
所述评估窗口能生成8位二进制数,同时转换为十进制值,每一个十进制值代表一种纹理模式,则共有256种纹理模式;
应用所述评估窗口分析整幅灰度图像,得到一幅包含256种纹理模式的特征图像,统计特征图像上每一种纹理模式的数量生成直方图,将每一种纹理模式作为特征向量的维度,再将相应的纹理模式的数量作为特征向量在所述维度下的值,则生成的统计直方图可得1×256的完整局部二进制模式的符号差值特征向量。
5.根据权利要求4所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述计算完整局部二进制模式的幅度差值特征,包括以下步骤:
读取灰度图像的每个像素点灰度值;对相邻像素点灰度值与中心像素点灰度值的差值取绝对值,记为相邻像素点与中心像素点的幅度差值mp;再取整幅图像所有幅度差值平均,记为幅度差值的阈值c;
mp=|gp-gc|;
其中,gp为相邻像素点的灰度值;gc为中心像素点灰度值;k为幅度差值mp序号;N为mp的总数;
每个相邻像素点与中心像素点的幅度差值的绝对值mp作为新的相邻像素点灰度值,幅度差值的阈值c作为新中心像素点灰度值;设置3×3的评估窗口进行二进制编码,使其新的相邻像素点与新的中心像素点进行灰度值比较;若新的相邻像素点的灰度值mp大于或等于其新的中心像素点灰度值c,二进制位设置为1;否则设置为0;即:
其中,CLBP_M是完整局部二进制模式的幅度差值;
所述评估窗口能生成8位二进制数,同时转换为十进制值,每一个十进制值代表一种纹理模式,则共有256种纹理模式;
应用所述评估窗口分析整幅灰度图像,得到一幅包含256种纹理模式的特征图像,统计所述特征图像上每一种纹理模式的数量生成直方图,将每一种纹理模式作为特征向量的维度,再将相应的纹理模式的数量作为特征向量在所述维度下的值,则生成的统计直方图可得1×256的完整局部二进制模式的幅度差值特征向量。
6.根据权利要求5所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述步骤S3具体包括:
将获得的训练集设置标签,记(xi,yi),i=1,2,3,...,N,xi∈Rn,yi∈[-1,1];其中,xi是训练样本也就是获得的完整局部二进制模式特征向量;N是训练样本的总数;n是样本空间的维数;Rn是n维样本空间;yi是样本的分类类别;yi=1表示伪装语音;yi=-1表示真实语音;引入错误惩罚因子C和径向基核函数K(xi,xj) 以训练最优支持向量确定一个最优超平面;
使目标函数最大化的条件为:
采用的径向基核函数:
其中,αi为每个样本对应的拉格朗日乘子;错误惩罚因子C在确定径向基核函数后,控制错误分类样本的惩罚程度;只有部分αi不为零,其所对应的样本就是训练所得的支持向量机。
7.根据权利要求6所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述支持向量机包括SVM输入层、SVM隐层和输出层。
8.根据权利要求7所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述支持向量机的分类函数为:
其中,b为分类阈值。
9.根据权利要求7所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述步骤S4中将待识别语音输入至支持向量机之前,还提取待识别语音的纹理特征;所述步骤S4具体包括:采用支持向量机的分类函数对待识别语音的纹理特征进行特征分类,以进行伪装语音的识别。
10.根据权利要求1-9任一项所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述步骤S1之前还包括:
S0、采集真实说话人语音以建立真实语音库,并训练建立相应的伪装语音库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910396609.8A CN110148425A (zh) | 2019-05-14 | 2019-05-14 | 一种基于完整局部二进制模式的伪装语音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910396609.8A CN110148425A (zh) | 2019-05-14 | 2019-05-14 | 一种基于完整局部二进制模式的伪装语音检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110148425A true CN110148425A (zh) | 2019-08-20 |
Family
ID=67595259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910396609.8A Pending CN110148425A (zh) | 2019-05-14 | 2019-05-14 | 一种基于完整局部二进制模式的伪装语音检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110148425A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634475A (zh) * | 2019-09-17 | 2019-12-31 | 北京声智科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN111275752A (zh) * | 2020-01-22 | 2020-06-12 | 中国农业科学院农业信息研究所 | 水流测速方法、装置、计算机设备及存储介质 |
CN111613240A (zh) * | 2020-05-22 | 2020-09-01 | 杭州电子科技大学 | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 |
CN112201258A (zh) * | 2020-10-15 | 2021-01-08 | 杭州电子科技大学 | 一种基于ambp的噪声鲁棒性伪装语音检测方法 |
CN112767337A (zh) * | 2021-01-12 | 2021-05-07 | 杭州海康威视数字技术股份有限公司 | 一种烟盒检测方法和装置 |
CN112863523A (zh) * | 2019-11-27 | 2021-05-28 | 华为技术有限公司 | 语音防伪方法、装置、终端设备及存储介质 |
CN113314148A (zh) * | 2021-07-29 | 2021-08-27 | 中国科学院自动化研究所 | 基于原始波形的轻量级神经网络生成语音鉴别方法和系统 |
CN113436646A (zh) * | 2021-06-10 | 2021-09-24 | 杭州电子科技大学 | 一种采用联合特征与随机森林的伪装语音检测方法 |
CN116664990A (zh) * | 2023-08-01 | 2023-08-29 | 苏州浪潮智能科技有限公司 | 伪装目标检测方法、模型训练方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002517175A (ja) * | 1991-02-22 | 2002-06-11 | シーウェイ テクノロジーズ インコーポレイテッド | 人間の音源を識別するための手段および装置 |
CN104091602A (zh) * | 2014-07-11 | 2014-10-08 | 电子科技大学 | 一种基于模糊支持向量机的语音情感识别方法 |
CN104464724A (zh) * | 2014-12-08 | 2015-03-25 | 南京邮电大学 | 一种针对刻意伪装语音的说话人识别方法 |
CN105810191A (zh) * | 2016-03-08 | 2016-07-27 | 江苏信息职业技术学院 | 融合韵律信息的汉语方言辨识方法 |
-
2019
- 2019-05-14 CN CN201910396609.8A patent/CN110148425A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002517175A (ja) * | 1991-02-22 | 2002-06-11 | シーウェイ テクノロジーズ インコーポレイテッド | 人間の音源を識別するための手段および装置 |
CN104091602A (zh) * | 2014-07-11 | 2014-10-08 | 电子科技大学 | 一种基于模糊支持向量机的语音情感识别方法 |
CN104464724A (zh) * | 2014-12-08 | 2015-03-25 | 南京邮电大学 | 一种针对刻意伪装语音的说话人识别方法 |
CN105810191A (zh) * | 2016-03-08 | 2016-07-27 | 江苏信息职业技术学院 | 融合韵律信息的汉语方言辨识方法 |
Non-Patent Citations (5)
Title |
---|
CHRISTIAN SCHORKHUBER ET AL.: "《A Matlab Toolbox for Efficient Perfect Reconstruction Time-Frequency Transforms with Log-Frequency Resolution》", 《AES 53RD INTERNATIONAL CONFERENCE》 * |
SHAMSIAH ABIDIN ET AL.: "《Spectrotemporal Analysis Using Local Binary Pattern Variants for Acoustic Scene Classification》", 《IEEE/ACM TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》 * |
李燕萍等: "《基于GMM统计特性的电子伪装语音鉴定研究》", 《计算机技术与发展》 * |
蒋海华等: "《基于PCA和SVM的普通话语音情感识别》", 《计算机科学》 * |
高文曦等: "《基于遗传算法数据降维的汉语数字语音识别》", 《计算机系统应用》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634475A (zh) * | 2019-09-17 | 2019-12-31 | 北京声智科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
WO2021103913A1 (zh) * | 2019-11-27 | 2021-06-03 | 华为技术有限公司 | 语音防伪方法、装置、终端设备及存储介质 |
CN112863523B (zh) * | 2019-11-27 | 2023-05-16 | 华为技术有限公司 | 语音防伪方法、装置、终端设备及存储介质 |
CN112863523A (zh) * | 2019-11-27 | 2021-05-28 | 华为技术有限公司 | 语音防伪方法、装置、终端设备及存储介质 |
CN111275752A (zh) * | 2020-01-22 | 2020-06-12 | 中国农业科学院农业信息研究所 | 水流测速方法、装置、计算机设备及存储介质 |
CN111613240A (zh) * | 2020-05-22 | 2020-09-01 | 杭州电子科技大学 | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 |
CN112201258A (zh) * | 2020-10-15 | 2021-01-08 | 杭州电子科技大学 | 一种基于ambp的噪声鲁棒性伪装语音检测方法 |
CN112767337A (zh) * | 2021-01-12 | 2021-05-07 | 杭州海康威视数字技术股份有限公司 | 一种烟盒检测方法和装置 |
CN112767337B (zh) * | 2021-01-12 | 2023-08-04 | 杭州海康威视数字技术股份有限公司 | 一种烟盒检测方法和装置 |
CN113436646A (zh) * | 2021-06-10 | 2021-09-24 | 杭州电子科技大学 | 一种采用联合特征与随机森林的伪装语音检测方法 |
CN113436646B (zh) * | 2021-06-10 | 2022-09-23 | 杭州电子科技大学 | 一种采用联合特征与随机森林的伪装语音检测方法 |
CN113314148A (zh) * | 2021-07-29 | 2021-08-27 | 中国科学院自动化研究所 | 基于原始波形的轻量级神经网络生成语音鉴别方法和系统 |
CN113314148B (zh) * | 2021-07-29 | 2021-11-09 | 中国科学院自动化研究所 | 基于原始波形的轻量级神经网络生成语音鉴别方法和系统 |
CN116664990A (zh) * | 2023-08-01 | 2023-08-29 | 苏州浪潮智能科技有限公司 | 伪装目标检测方法、模型训练方法、装置、设备及介质 |
CN116664990B (zh) * | 2023-08-01 | 2023-11-14 | 苏州浪潮智能科技有限公司 | 伪装目标检测方法、模型训练方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110148425A (zh) | 一种基于完整局部二进制模式的伪装语音检测方法 | |
CN105022835B (zh) | 一种群智感知大数据公共安全识别方法及系统 | |
CN106297776B (zh) | 一种基于音频模板的语音关键词检索方法 | |
CN109524014A (zh) | 一种基于深度卷积神经网络的声纹识别分析方法 | |
CN113221673B (zh) | 基于多尺度特征聚集的说话人认证方法及系统 | |
US20200125836A1 (en) | Training Method for Descreening System, Descreening Method, Device, Apparatus and Medium | |
CN111931820B (zh) | 一种基于卷积残差网络的水中目标辐射噪声lofar谱图线谱提取方法 | |
CN109284717A (zh) | 一种面向数字音频复制粘贴篡改操作的检测方法及系统 | |
CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN113436646B (zh) | 一种采用联合特征与随机森林的伪装语音检测方法 | |
CN110287770B (zh) | 一种基于卷积神经网络的水中个体目标匹配识别方法 | |
CN108847252B (zh) | 基于声信号语谱图纹理分布的声特征提取方法 | |
CN113111786B (zh) | 基于小样本训练图卷积网络的水下目标识别方法 | |
CN111724770A (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN110176250A (zh) | 一种基于局部学习的鲁棒声学场景识别方法 | |
CN110415730B (zh) | 一种音乐分析数据集构建方法及基于其的音高、时值提取方法 | |
CN112257741A (zh) | 一种基于复数神经网络的生成性对抗虚假图片的检测方法 | |
John et al. | Classification of Indian classical carnatic music based on raga using deep learning | |
CN104504361B (zh) | 基于方向特征的手掌静脉主方向特征提取方法 | |
Lu et al. | Detecting Unknown Speech Spoofing Algorithms with Nearest Neighbors. | |
Li et al. | Advanced RawNet2 with Attention-based Channel Masking for Synthetic Speech Detection | |
CN107437414A (zh) | 基于嵌入式gpu系统的并行化游客识别方法 | |
CN114359786A (zh) | 一种基于改进时空卷积网络的唇语识别方法 | |
CN114333840A (zh) | 语音鉴别方法及相关装置、电子设备和存储介质 | |
Guo et al. | DeltaVLAD: An efficient optimization algorithm to discriminate speaker embedding for text-independent speaker verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190820 |