CN107274911A - 一种基于声音特征的相似度分析方法 - Google Patents
一种基于声音特征的相似度分析方法 Download PDFInfo
- Publication number
- CN107274911A CN107274911A CN201710305251.4A CN201710305251A CN107274911A CN 107274911 A CN107274911 A CN 107274911A CN 201710305251 A CN201710305251 A CN 201710305251A CN 107274911 A CN107274911 A CN 107274911A
- Authority
- CN
- China
- Prior art keywords
- audio
- sequence
- similarity
- signal
- zero
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 27
- 230000005236 sound signal Effects 0.000 claims abstract description 51
- 238000005314 correlation function Methods 0.000 claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims description 35
- 238000005070 sampling Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 18
- 238000002864 sequence alignment Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000001256 tonic effect Effects 0.000 claims description 6
- 238000011524 similarity measure Methods 0.000 claims description 4
- 210000001367 artery Anatomy 0.000 claims 1
- 210000003462 vein Anatomy 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 238000009432 framing Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 4
- 230000001788 irregular Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000020509 sex determination Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种基于声音特征的相似度分析方法,属于音频信号处理技术领域。本发明为比对两个待测音频的相似性,进行音频相似度比对是以物理特征中的幅度、过零率作为基本参数,对比了三种物理特征参数算法:波形比较、包络比较和过零率比较。通过相关函数进行相似度值的计算;设定相似性阈值;相似度值与相似阈值进行比对,进行相似性判定。本发明可用于音频信号的相似度比对,可以应用在广播电视信号的监测方面。与现有技术相比,本发明算法简单,理论清晰,技术容易实现。
Description
技术领域
本发明涉及一种基于声音特征的相似度分析方法,属于音频信号处理技术领域。
背景技术
对广播音频进行安全、快速和有效的监测是目前亟待解决的问题,而目前已有的大多数针对音频内容的研究主要是音频分类、音频检索、语音识别等方面,用于这些研究的算法复杂度高,在实际的音频相似度比对时,这些算法往往很难具体实现和应用。现有的基于内容的音频研究主要是音频分类、音频检索、语音识别等方面,其算法复杂度高,理论复杂,在实际应用中很难具体实现。
发明内容
本发明要解决的技术问题是提供一种基于声音特征的相似度分析方法,分别通过提取波形、包络、过零率等特征参数进行音频信号相似度的计算,并对计算的结果进行相似性判定。
本发明的技术方案是:一种基于声音特征的相似度分析方法。该方法包括以下步骤:
(1)音频采集:音频采集是通过麦克风接收待测音频,此过程需要把模拟信号转化为数字信号,设置麦克风接收音频的声道数,同时设置采样率、量化精度,为了无失真恢复原连续信号,采样率需要满足奈奎斯特采样定理;
(2)预处理:预处理过程包括:滤波处理、预加重处理、加窗分帧;
(3)数据写入WAV文件:把预处理后的序列写入WAV文件,此步骤可以通过编写MATLAB程序来实现;
(4)读取WAV文件数据:读取WAV文件中的数据值,此步骤可以通过编写MATLAB程序来实现;
(5)特征参数提取:从待测音频序列中提取特征参数,波形序列、包络序列、过零率序列;
(6)音频比对:待测音频的三种特征序列分别通过相关函数来计算相似度值;
(7)相似性阈值设定:设定相似性的阈值,用来判定待测音频的相似性;
(8)相似度判定:相似度计算结果和设定的阈值进行比较,大于等于相似度阈值,判定两个待测音频相似,否则,判定为不相似;
上述的一种基于声音特征的相似度分析方法,步骤(1)中音频采集,在通过麦克风接收测试音频时,需要设置接收声道数,接收语音信号时,设置为单声道,接收音乐信号时,设置为双声道。采样率满足奈奎斯特采样定理,采样率fs≥2fh,fh为信号最高频率,接收声道数设置为单声道,采样率设置为44.1KHz,量化精度为16bit;
上述的一种基于声音特征的相似度分析方法,步骤(2)中预处理包括以下步骤:
(1)滤波处理:滤波处理的目的有两个:抑制输入信号各频率分量中频率超出fs/2的所有分量(fs为采样频率),以防混叠干扰;(2)抑制50Hz的电源工频干扰。这样,滤波器必须是一个带通滤波器,设其上、下截止频率分别是fH和fL,通常取fH=3400Hz,fL=60~100Hz;
(2)预加重处理:预加重处理的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。预加重一般是在语音信号数字化之后,在参数分析之前在计算机里用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现。一般是一阶的数字滤波器,即H(Z)=1-uZ-1,其中,u值接近于1,典型值为0.94;
(3)加窗分帧:音频序列是时间轴上的一维信号,为了能够对其进行信号分析,需要假设音频信号在毫秒级别的短时间处于稳定状态,因此在此基础上对音频信号进行加窗分帧操作。对音频信号加窗分帧处理可采用连续分段的方法,但为了使帧与帧之间平滑过渡保持其连续性,一般会采用交叠分段的方法。分帧是用可移动的有限长度窗口进行加权的方法来实现的,也就是用一定的窗函数w(n)来乘s(n),从而形成加窗的音频信号sw(n)=s(n)×w(n);
上述的一种基于声音特征的相似度分析方法,步骤(5)中特征参数提取包括以下步骤:
(1)波形序列提取:音频信号的波形是含有较丰富频率分布的不规则波形,包含音频信号的所有时域特征,比较两个音频信号的时域波形,可以完整的比较音频信号在时域的所有细节特征,因此可以利用波形幅度值来计算相似度。音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要先进行采样和量化,将它变成时间和幅度都是离散的数字信号。t是定义在时间轴上的连续变量,n为代表序列点的整数值,采样就是利用采样脉冲序列p(t)从连续信号f(t)中“抽取”一系列离散样值,得到采样信号fs(t)。采样信号fs(t)经过量化的预处理过程得到数字信号f(n)。设Ts为采样周期,待测音频信号的最高频率为fh,满足采样定理,1/Ts≥2fh。待测音频的比较时长均相同,设为T,假设两个待测音频时域函数为x1(t)和x2(t),t是定义在时间轴上的连续变量,令N=T×(1/TS),把Ts归一化为1,这样,x1(nTs)和x2(nTs)可简记为x1(n)和x2(n),然后x1(n)和x2(n)的幅度再经过量化,即得到要提取的波形序列x1’(n)和x2’(n);
(2)包络序列提取:信号包络是反映波形幅度变化的曲线,可以描述该信号的局部最大值的变化情况。音频信号的时域波形可以比较音频信号所有细节成分,包络是比较信号波形的轮廓。假设两个待测音频时域函数为x1(t)和x2(t),t是定义在时间轴上的连续变量,通过波形提取方法,可以获得音频波形序列x1’(n)和x2’(n)。经过包络提取流程:音频波形序列x1’(n)和x2’(n)、取绝对值|x1’(n)|和|x2’(n)|、低通滤波、减去直流分量,最后得到待测音频信号包络序列x1”(n)和x2”(n);
(3)过零率序列提取:过零率是音频信号时域分析中一种简单特征,指信号通过零值的次数,对于连续音频信号,可以观察时域波形通过时间轴的情况。对于离散信号,过零次数是信号采样值符号变化的次数。假设两个待测音频时域函数为x1(t)和x2(t),t是定义在时间轴上的连续变量,通过波形提取方法,可以获得波形序列x1’(n)和x2’(n),通过式和计算算x1’(n)和x2’(n)的过零率,式中,Leff是序列x1’(n)和x2’(n)在已设定时间段内计算过零率值的序列长度,每50ms计算序列过零率值,sgn为符号函数,Z1、Z2分别是序列x1’(n)和x2’(n)在Leff长度下的过零率值,通过上述过程得到过零率序列x1”’(n)和x2”’(n)。
上述的一种基于声音特征的相似度分析方法,步骤(6)中音频比对包括以下步骤:
(1)若提取的音频特征参数为波形序列,音频比对是通过互相关函数计算波形序列的相似程度,互相关函数的定义:
(2)若提取的音频特征参数为包络序列,音频比对是通过互相关函数计算包络序列的相似程度,互相关函数的定义:
(3)若提取的音频特征参数为过零率序列,音频比对是通过互相关函数计算过零率序列的相似程度,互相关函数的定义:
上述的一种基于声音特征的相似度分析方法,步骤(7)中相似性阈值设定:以互相关函数的峰值即最大互相关系数来确定比对音频是否相似。在波形序列比对算法中,设定阈值为60%,在包络和过零率序列比对算法中,设定阈值为80%;
上述的一种基于声音特征的相似度分析方法,步骤(8)中相似度判定:波形序列值的互相关函数峰值大于等于60%判定为相似,小于60%,判定为不相似,在包络和过零率序列比对算法中,互相关函数峰值大于等于80%判定为相似,小于80%,判定为不相似。
本发明的有益效果是:本发明可用于音频信号的相似度比对,可以应用在广播电视信号的监测方面。与现有技术相比,本发明算法简单,理论清晰,技术容易实现。
附图说明
图1是本发明相似度比较流程图;
图2是本发明音频信号波形序列提取流程图;
图3是本发明音频信号包络序列提取流程图;
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
一种基于声音特征的相似度分析方法,具体步骤为:
(1)音频采集:音频采集是通过麦克风接收待测音频,并把模拟信号转化为数字信号;
(2)特征参数提取:从待测音频序列中提取特征参数,包括波形序列、包络序列、过零率序列;
(3)音频比对:待测音频的三种特征序列分别通过相关函数来计算相似度值;
(4)相似性阈值设定:设定相似性的阈值,用来判定待测音频的相似性。
(5)相似度判定:相似度计算结果和设定的阈值进行比较,大于等于相似性阈值,判定两个待测音频相似,否则,判定为不相似。
所述音频采集在通过麦克风接收待测音频时,需要设置接收声道数;当接收语音信号时,设置为单声道,接收音乐信号时,设置为双声道;采样率满足奈奎斯特采样定理,采样率fs≥2fh,fh为信号最高频率。接收声道数设置为单声道,采样率设置为44.1KHz,量化精度为16bit;
所述特征参数提取包括以下步骤:
(1)波形序列提取:音频信号的波形是含有较丰富频率分布的不规则波形,包含音频信号的所有时域特征,比较两个音频信号的时域波形,可以完整的比较音频信号在时域的所有细节特征,因此可以利用波形幅度值来计算相似度。音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要先进行采样和量化,将它变成时间和幅度都是离散的数字信号。对音频信号进行采样和量化,将音频信号变成时间和幅度都是离散的数字信号;t是定义在时间轴上的连续变量,n为代表序列点的整数值,采样为利用采样脉冲序列p(t)从连续信号f(t)中抽取一系列离散样值,得到采样信号fs(t),采样信号fs(t)经过量化的预处理过程得到数字信号f(n);设Ts为采样周期,待测音频信号的最高频率为fh,满足采样定理,1/Ts≥2fh;待测音频的比较时长相同,设为T,假设两个待测音频时域函数为x1(t)和x2(t),t是定义在时间轴上的连续变量;
令N=T×(1/TS),将Ts归一化为1,x1(nTs)和x2(nTs)记为x1(n)和x2(n),然后x1(n)和x2(n)的幅度再经过量化,即得到要提取的波形序列x1’(n)和x2’(n);
(2)包络序列提取:信号包络是反映波形幅度变化的曲线,可以描述该信号的局部最大值的变化情况。音频信号的时域波形可以比较音频信号所有细节成分,包络是比较信号波形的轮廓。假设两个待测音频时域函数为x1(t)和x2(t),t是定义在时间轴上的连续变量,通过波形提取方法,获得音频波形序列x1’(n)和x2’(n);经过包络提取流程:音频波形序列x1’(n)和x2’(n)、取绝对值|x1’(n)|和|x2’(n)|、低通滤波、减去直流分量,最后得到待测音频信号包络序列x1”(n)和x2”(n);
(3)过零率序列提取:过零率是音频信号时域分析中一种简单特征,指信号通过零值的次数,对于连续音频信号,可以观察时域波形通过时间轴的情况。对于离散信号,过零次数是信号采样值符号变化的次数。假设两个待测音频时域函数为x1(t)和x2(t),t是定义在时间轴上的连续变量,通过波形提取方法,获得波形序列x1’(n)和x2’(n),
通过式(1)和(2)计算x1’(n)和x2’(n)的过零率
式中,Leff是序列x1’(n)和x2’(n)在已设定时间段内计算过零率值的序列长度,sgn为符号函数,Z1、Z2分别是序列x1’(n)和x2’(n)在Leff长度下的过零率值,得到过零率序列x1”’(n)和x2”’(n);
所述音频比对包括以下步骤:
(1)若提取的音频特征参数为波形序列,音频比对是通过互相关函数计算波形序列的相似程度,互相关函数的定义:
(2)若提取的音频特征参数为包络序列,音频比对是通过互相关函数计算包络序列的相似程度,互相关函数的定义:
(3)若提取的音频特征参数为过零率序列,音频比对是通过互相关函数计算过零率序列的相似程度,互相关函数的定义:
所述相似性阈值设定为以互相关函数的峰值即最大互相关系数来确定比对音频是否相似,在波形序列值比对算法中,设定阈值为60%,在包络和过零率序列比对算法中,设定阈值为80%。
所述相似度判定为:
波形序列值的互相关函数峰值大于等于60%判定为相似,小于60%判定为不相似;在包络和过零率序列比对算法中,互相关函数峰值大于等于80%判定为相似,小于80%,判定为不相似。
实施例1:本发明的音频相似度分析包括以下步骤:
(1)音频采集:音频采集是通过麦克风接收待测音频,此过程需要把模拟信号转化为数字信号,设置麦克风接收音频的声道数,同时设置采样率、量化精度,为了无失真恢复原连续信号,采样率需要满足奈奎斯特采样定理;
(2)在通过麦克风接收测试音频时,需要设置接收声道数,接收语音信号时,设置为单声道,接收音乐信号时,设置为双声道。采样率满足奈奎斯特采样定理,采样率fs≥2fh,fh为信号最高频率,
将接收声道数设置为单声道,采样率设置为44.1KHz,量化精度为16bit。
(3)预处理:预处理过程包括:滤波处理、预加重处理、加窗分帧;
(4)滤波处理的目的有两个:抑制输入信号各频率分量中频率超出fs/2的所有分量(fs为采样频率),以防混叠干扰;(2)抑制50Hz的电源工频干扰。这样,滤波器必须是一个带通滤波器,设其上、下截止频率分别是fH和fL。通常取fH=3400Hz,fL=60~100Hz;
(5)预加重处理:预加重处理的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。预加重一般是在语音信号数字化之后,在参数分析之前在计算机里用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现。一般是一阶的数字滤波器,即H(Z)=1-uZ-1,其中,u值接近于1,典型值为0.94;
(6)加窗分帧:音频序列是时间轴上的一维信号,为了能够对其进行信号分析,需要假设音频信号在毫秒级别的短时间处于稳定状态,因此在此基础上对音频信号进行加窗分帧操作。对音频信号加窗分帧处理可采用连续分段的方法,但为了使帧与帧之间平滑过渡保持其连续性,一般会采用交叠分段的方法。分帧是用可移动的有限长度窗口进行加权的方法来实现的,也就是用一定的窗函数w(n)来乘s(n),从而形成加窗的音频信号sw(n)=s(n)×w(n)。
(7)数据写入WAV文件:把预处理后的序列写入WAV文件,此步骤可以通过编写MATLAB程序来实现;
(8)读取WAV文件数据:读取WAV文件中的数据值,此步骤可以通过编写MATLAB程序来实现;
(9)特征参数提取:从待测音频序列中提取特征参数,波形序列、包络序列、过零率序列;
(10)波形序列提取:音频信号的波形是含有较丰富频率分布的不规则波形,包含音频信号的所有时域特征,比较两个音频信号的时域波形,可以完整的比较音频信号在时域的所有细节特征,因此可以利用波形幅度值来计算相似度。音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要先进行采样和量化,将它变成时间和幅度都是离散的数字信号。t是定义在时间轴上的连续变量,n为代表序列点的整数值,采样就是利用采样脉冲序列p(t)从连续信号f(t)中“抽取”一系列离散样值,得到采样信号fs(t)。采样信号fs(t)经过量化的预处理过程得到数字信号f(n)。设Ts为采样周期,待测音频信号的最高频率为fh,满足采样定理,1/Ts≥2fh。待测音频的比较时长均相同,设为T,假设两个待测音频时域函数为x1(t)和x2(t),t是定义在时间轴上的连续变量,令N=T×(1/TS),把Ts归一化为1,这样,x1(nTs)和x2(nTs)可简记为x1(n)和x2(n),然后x1(n)和x2(n)的幅度再经过量化,即得到要提取的波形序列x1’(n)和x2’(n);
(11)包络序列提取,信号包络是反映波形幅度变化的曲线,可以描述该信号的局部最大值的变化情况。音频信号的时域波形可以比较音频信号所有细节成分,包络是比较信号波形的轮廓。假设两个待测音频时域函数为x1(t)和x2(t),t是定义在时间轴上的连续变量,通过波形提取方法,可以获得音频波形序列x1’(n)和x2’(n)。经过包络提取流程:音频波形序列x1’(n)和x2’(n)、取绝对值|x1’(n)|和|x2’(n)|、低通滤波、减去直流分量,最后得到待测音频信号包络序列x1”(n)和x2”(n);
(12)过零率序列提取,过零率是音频信号时域分析中一种简单特征,指信号通过零值的次数,对于连续音频信号,可以观察时域波形通过时间轴的情况。对于离散信号,过零次数是信号采样值符号变化的次数。假设两个待测音频时域函数为x1(t)和x2(t),t是定义在时间轴上的连续变量,通过波形提取方法,可以获得波形序列x1’(n)和x2’(n),通过式和计算x1’(n)和x2’(n)的过零率,式中,Leff是序列x1’(n)和x2’(n)在已设定时间段内计算过零率值的序列长度,sgn为符号函数,Z1、Z2分别是序列x1’(n)和x2’(n)在Leff长度下的过零率值,通过上述过程得到过零率序列x1”’(n)和x2”’(n)。
(13)音频比对:待测音频的三种特征序列分别通过相关函数来计算相似度值;分别计算R(m)得出对应的相关值,步骤如下:
(a)若提取的音频特征参数为波形序列,音频比对是通过互相关函数计算波形序列的相似程度,互相关函数的定义:
(b)若提取的音频特征参数为包络序列,音频比对是通过互相关函数计算包络序列的相似程度,互相关函数的定义:
(c)若提取的音频特征参数为过零率序列,音频比对是通过互相关函数计算过零率序列的相似程度,互相关函数的定义:
(14)相似性阈值设定:设定相似性的阈值,用来判定待测音频的相似性。以互相关函数的峰值即最大互相关系数来确定比对音频是否相似。在波形序列比对算法中,设定阈值为60%,在包络和过零率序列比对算法中,设定阈值为80%。
(15)相似度判定:相似度计算结果和设定的阈值进行比较,大于等于相似度阈值,判定两个待测音频相似,否则,判定为不相似;波形序列值的互相关函数峰值大于等于60%判定为相似,小于60%,判定为不相似,在包络和过零率序列比对算法中,互相关函数峰值大于等于80%判定为相似,小于80%,判定为不相似。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种基于声音特征的相似度分析方法,其特征在于具体步骤为:
(1)音频采集:音频采集是通过麦克风接收待测音频,并把模拟信号转化为数字信号;
(2)特征参数提取:从待测音频序列中提取特征参数,包括波形序列、包络序列、过零率序列;
(3)音频比对:待测音频的三种特征序列分别通过相关函数来计算相似度值;
(4)相似性阈值设定:设定相似性的阈值,用来判定待测音频的相似性。
(5)相似度判定:相似度计算结果和设定的阈值进行比较,大于等于相似性阈值,判定两个待测音频相似,否则,判定为不相似。
2.根据权利要求1所述的基于声音特征的相似度分析方法,其特征在于:所述音频采集在通过麦克风接收待测音频时,需要设置接收声道数;当接收语音信号时,设置为单声道,接收音乐信号时,设置为双声道;采样率满足奈奎斯特采样定理,采样率fs≥2fh,fh为信号最高频率。
3.根据权利要求1所述的基于声音特征的相似度分析方法,其特征在于:所述特征参数提取包括以下步骤:
(1)波形序列提取:对音频信号进行采样和量化,将音频信号变成时间和幅度都是离散的数字信号;t是定义在时间轴上的连续变量,n为代表序列点的整数值,采样为利用采样脉冲序列p(t)从连续信号f(t)中抽取一系列离散样值,得到采样信号fs(t),采样信号fs(t)经过量化的预处理过程得到数字信号f(n);设Ts为采样周期,待测音频信号的最高频率为fh,满足采样定理,1/Ts≥2fh;待测音频的比较时长相同,设为T,假设两个待测音频时域函数为x1(t)和x2(t),t是定义在时间轴上的连续变量;
令N=T×(1/TS),将Ts归一化为1,x1(nTs)和x2(nTs)记为x1(n)和x2(n),然后x1(n)和x2(n)的幅度再经过量化,即得到要提取的波形序列x1’(n)和x2’(n);
(2)包络序列提取:假设两个待测音频时域函数为x1(t)和x2(t),t是定义在时间轴上的连续变量,通过波形提取方法,获得音频波形序列x1’(n)和x2’(n);经过包络提取流程:音频波形序列x1’(n)和x2’(n)、取绝对值|x1’(n)|和|x2’(n)|、低通滤波、减去直流分量,最后得到待测音频信号包络序列x1”(n)和x2”(n);
(3)过零率序列提取:假设两个待测音频时域函数为x1(t)和x2(t),t是定义在时间轴上的连续变量,通过波形提取方法,获得波形序列x1’(n)和x2’(n),
通过式(1)和(2)计算x1’(n)和x2’(n)的过零率
式中,Leff是序列x1’(n)和x2’(n)在已设定时间段内计算过零率值的序列长度,sgn为符号函数,Z1、Z2分别是序列x1’(n)和x2’(n)在Leff长度下的过零率值,得到过零率序列x1”’(n)和x2”’(n)。
4.根据权利要求1所述的基于声音特征的相似度分析方法,其特征在于:所述音频比对包括以下步骤:
(1)若提取的音频特征参数为波形序列,音频比对是通过互相关函数计算波形序列的相似程度,互相关函数的定义:
(2)若提取的音频特征参数为包络序列,音频比对是通过互相关函数计算包络序列的相似程度,互相关函数的定义:
(3)若提取的音频特征参数为过零率序列,音频比对是通过互相关函数计算过零率序列的相似程度,互相关函数的定义:
5.根据权利要求1所述的基于声音特征的相似度分析方法,其特征在于:所述相似性阈值设定为以互相关函数的峰值即最大互相关系数来确定比对音频是否相似,在波形序列值比对算法中,设定阈值为60%,在包络和过零率序列比对算法中,设定阈值为80%。
6.根据权利要求1所述的基于声音特征的相似度分析方法,其特征在于:所述相似度判定为:
波形序列值的互相关函数峰值大于等于60%判定为相似,小于60%判定为不相似;在包络和过零率序列比对算法中,互相关函数峰值大于等于80%判定为相似,小于80%,判定为不相似。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710305251.4A CN107274911A (zh) | 2017-05-03 | 2017-05-03 | 一种基于声音特征的相似度分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710305251.4A CN107274911A (zh) | 2017-05-03 | 2017-05-03 | 一种基于声音特征的相似度分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107274911A true CN107274911A (zh) | 2017-10-20 |
Family
ID=60073693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710305251.4A Pending CN107274911A (zh) | 2017-05-03 | 2017-05-03 | 一种基于声音特征的相似度分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107274911A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108231091A (zh) * | 2018-01-24 | 2018-06-29 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
CN108615006A (zh) * | 2018-04-23 | 2018-10-02 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN108711437A (zh) * | 2018-03-06 | 2018-10-26 | 深圳市沃特沃德股份有限公司 | 语音处理方法和装置 |
CN108881652A (zh) * | 2018-07-11 | 2018-11-23 | 北京大米科技有限公司 | 回音检测方法、存储介质和电子设备 |
CN109599104A (zh) * | 2018-11-20 | 2019-04-09 | 北京小米智能科技有限公司 | 多波束选取方法及装置 |
CN109829265A (zh) * | 2019-01-30 | 2019-05-31 | 杭州拾贝知识产权服务有限公司 | 一种音频作品的侵权取证方法和系统 |
CN110085259A (zh) * | 2019-05-07 | 2019-08-02 | 国家广播电视总局中央广播电视发射二台 | 音频比对方法、装置和设备 |
CN110134819A (zh) * | 2019-04-25 | 2019-08-16 | 广州智伴人工智能科技有限公司 | 一种语音音频筛选系统 |
CN110310661A (zh) * | 2019-07-03 | 2019-10-08 | 云南康木信科技有限责任公司 | 一种两路实时广播音频延时和相似度的计算方法 |
CN110491413A (zh) * | 2019-08-21 | 2019-11-22 | 中国传媒大学 | 一种基于孪生网络的音频内容一致性监测方法及系统 |
CN110910899A (zh) * | 2019-11-27 | 2020-03-24 | 杭州联汇科技股份有限公司 | 一种实时音频信号一致性对比检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456346A (zh) * | 2010-10-19 | 2012-05-16 | 盛乐信息技术(上海)有限公司 | 拼接语音检测系统及方法 |
CN103440873A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种基于相似性的音乐推荐方法 |
CN105244040A (zh) * | 2015-07-20 | 2016-01-13 | 杭州联汇数字科技有限公司 | 一种音频信号一致性对比方法 |
-
2017
- 2017-05-03 CN CN201710305251.4A patent/CN107274911A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456346A (zh) * | 2010-10-19 | 2012-05-16 | 盛乐信息技术(上海)有限公司 | 拼接语音检测系统及方法 |
CN103440873A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种基于相似性的音乐推荐方法 |
CN105244040A (zh) * | 2015-07-20 | 2016-01-13 | 杭州联汇数字科技有限公司 | 一种音频信号一致性对比方法 |
Non-Patent Citations (2)
Title |
---|
赵花婷: ""一种基于音频匹配的广告检测算法"", 《计算机与现代化》 * |
郭兴吉: "基于特征的音频比对技术", 《河南师范大学学报自然科学版》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108231091A (zh) * | 2018-01-24 | 2018-06-29 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
CN108231091B (zh) * | 2018-01-24 | 2021-05-25 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
CN108711437A (zh) * | 2018-03-06 | 2018-10-26 | 深圳市沃特沃德股份有限公司 | 语音处理方法和装置 |
CN108615006B (zh) * | 2018-04-23 | 2020-04-17 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN108615006A (zh) * | 2018-04-23 | 2018-10-02 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN108881652A (zh) * | 2018-07-11 | 2018-11-23 | 北京大米科技有限公司 | 回音检测方法、存储介质和电子设备 |
CN108881652B (zh) * | 2018-07-11 | 2021-02-26 | 北京大米科技有限公司 | 回音检测方法、存储介质和电子设备 |
CN109599104A (zh) * | 2018-11-20 | 2019-04-09 | 北京小米智能科技有限公司 | 多波束选取方法及装置 |
CN109599104B (zh) * | 2018-11-20 | 2022-04-01 | 北京小米智能科技有限公司 | 多波束选取方法及装置 |
CN109829265A (zh) * | 2019-01-30 | 2019-05-31 | 杭州拾贝知识产权服务有限公司 | 一种音频作品的侵权取证方法和系统 |
CN110134819A (zh) * | 2019-04-25 | 2019-08-16 | 广州智伴人工智能科技有限公司 | 一种语音音频筛选系统 |
CN110085259A (zh) * | 2019-05-07 | 2019-08-02 | 国家广播电视总局中央广播电视发射二台 | 音频比对方法、装置和设备 |
CN110085259B (zh) * | 2019-05-07 | 2021-09-17 | 国家广播电视总局中央广播电视发射二台 | 音频比对方法、装置和设备 |
CN110310661A (zh) * | 2019-07-03 | 2019-10-08 | 云南康木信科技有限责任公司 | 一种两路实时广播音频延时和相似度的计算方法 |
CN110310661B (zh) * | 2019-07-03 | 2021-06-11 | 云南康木信科技有限责任公司 | 一种两路实时广播音频延时和相似度的计算方法 |
CN110491413A (zh) * | 2019-08-21 | 2019-11-22 | 中国传媒大学 | 一种基于孪生网络的音频内容一致性监测方法及系统 |
CN110910899A (zh) * | 2019-11-27 | 2020-03-24 | 杭州联汇科技股份有限公司 | 一种实时音频信号一致性对比检测方法 |
CN110910899B (zh) * | 2019-11-27 | 2022-04-08 | 杭州联汇科技股份有限公司 | 一种实时音频信号一致性对比检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107274911A (zh) | 一种基于声音特征的相似度分析方法 | |
KR101269296B1 (ko) | 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
CN103236260A (zh) | 语音识别系统 | |
KR20060044629A (ko) | 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템 | |
WO2019086118A1 (en) | Segmentation-based feature extraction for acoustic scene classification | |
Pillos et al. | A Real-Time Environmental Sound Recognition System for the Android OS. | |
CN108682432B (zh) | 语音情感识别装置 | |
WO2017045429A1 (zh) | 一种音频数据的检测方法、系统及存储介质 | |
CN106024010A (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
CN101625860A (zh) | 语音端点检测中的背景噪声自适应调整方法 | |
WO2018095167A1 (zh) | 声纹识别方法和声纹识别系统 | |
CN112786059A (zh) | 一种基于人工智能的声纹特征提取方法及装置 | |
CN110782915A (zh) | 一种基于深度学习的波形音乐成分分离方法 | |
Jaafar et al. | Automatic syllables segmentation for frog identification system | |
Labied et al. | An overview of automatic speech recognition preprocessing techniques | |
Martin et al. | Cepstral modulation ratio regression (CMRARE) parameters for audio signal analysis and classification | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
CN106653040A (zh) | 一种人声音频信号采样处理方法 | |
Kumari et al. | Audio signal classification based on optimal wavelet and support vector machine | |
CN110689875A (zh) | 一种语种识别方法、装置及可读存储介质 | |
Zengyuan et al. | A speech denoising algorithm based on harmonic regeneration | |
Nandyala et al. | Real time isolated word recognition using adaptive algorithm | |
Ge et al. | Design and Implementation of Intelligent Singer Recognition System | |
Wei et al. | A Survey of Sound-based Biometrics used in Species Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171020 |