CN101221762A - 一种mp3压缩域音频分割方法 - Google Patents
一种mp3压缩域音频分割方法 Download PDFInfo
- Publication number
- CN101221762A CN101221762A CNA2007101718029A CN200710171802A CN101221762A CN 101221762 A CN101221762 A CN 101221762A CN A2007101718029 A CNA2007101718029 A CN A2007101718029A CN 200710171802 A CN200710171802 A CN 200710171802A CN 101221762 A CN101221762 A CN 101221762A
- Authority
- CN
- China
- Prior art keywords
- quiet
- frame
- energy
- data
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明涉及一种MP3压缩域音频分割方法。本方法先从MP3压缩音频数据中提取特征参数,再将音频信息进行静音分割,对非静音语音分割,在语音段中用统计判决模型进行说话人改变检测,最后由说话人改变点的得到分割结果。实验结果,采用本发明得分割方法比传统分割方法,在其准确率、召回率和综合性能均有显著提高。
Description
技术领域
本发明涉及信号处理和模式识别,主要是一种MP3(MPEG1-layer3)压缩域音频分割方法。
背景技术
说话人检索技术是指利用信号处理和模式识别方法,从大量音频文档中搜索特定说话人的技术。音频分割就是说话人检索技术需要解决的关键问题之一。
常用的音频分割方法,大部分工作都是在非压缩域中进行的,直接对压缩域中进行音频分割、并对说话人改变点进行检测的问题很少涉及。压缩域中的数据是来自于原始音频编码后的二进制码流,从这些数据流不能直接体现原始音频的一些特性。因此,压缩域中的音频分割首先要考虑的是特征提取的数据源问题,即如何对压缩数据进行处理,以最小的计算代价提取有效的音频特征来满足分割需要。理论分析及实验结果证明通过对压缩数据部分解码,可获得与原始音频谱特性相似的数据,以这些数据为数据源提取出的音频特征可以体现不同话者间语音的差别,并可用于进一步分割和分类。本发明正是采用上述的方法,从MPEG1标准声音第三层压缩技术MP3压缩域数据中提取特征参数梅尔倒谱系数MFCC(Mel-frequency CepstralCoefficients)、以及其他特征参数,对MP3压缩域的音频信息进行分割的。
本发明所提出的分割方法解决了MP3压缩域中不同话者的分割问题,可进一步用于MP3压缩域的语音识别与检索中。
发明内容
本发明的目的在于提供一种MP3压缩域音频分割方法,通过从MP3压缩数据中直接提取音频特征参数,通过语音检测和说话人改变的检测,实现将MP3音频数据分割成属于不同人的语音段,用于说话人检索的音频分割。
本发明解决其技术问题采用的技术方案为:先从MP3压缩音频数据中提取特征参数,再将音频信息进行静音分割,对非静音语音分割,在语音段中用统计判决模型进行说话人改变检测,最后由说话人改变点得到分割结果。
本发明解决其技术问题所采用的技术方案还可以进一步完善。首先从MP3压缩音频数据中生成修正离散余弦变换MDCT(Modified Discrete Cosine Transform)矩阵,再从中提取有效的特征参数,利用能量检测将静音去除,用基频特征去除非语音段,然后结合所提取的压缩域谱特征的变化趋势进行统计判决,实现了将音频分割成不同的说话人的语音段。该方法具体包括如下步骤:
1)、MP3压缩音频的预处理:包括对解码帧头,边信息读取,主数据读取,哈夫曼解码和量化四个部分;
2)、生成MDCT矩阵:找出每一子带中的MDCT系数,对子带中系数排列,形成矩阵三部分;
3)、压缩域特征参数的提取:包括能量参数,谱中心距,MFCC参数的求取;
4)、静音的检测:通过设定门限判别静音段和非静音段,并对结果做出修正;
5)、语音检测:对非静音部分进一不去除非语音成分;
6)、说话人改变点检测:根据高斯假设模型计算贝叶斯信息准则BIC值根据其值的变化趋势来寻找改变点。
本发明有益的效果是:直接从MP3压缩音频数据中提取有效的特征参数,比将压缩数据解压后再提取特征,既算法更简单,又节省计算时间;利用能量检测将静音去除,用基频特征去除非语音段,仅对语音段进行倒谱特征提取,又可节省计算时间,并且消除了非语音对说话人分割的不利影响;运用统计判决模型进行说话人检索的音频分割,比用传统的判决方法进行说话人检索的音频分割,精度提高了许多。
附图说明
图1是本发明的方法流程图
具体实施方式
本发明的一个优选实施例结合附图说明如下:本MP3压缩域音频分割方法,共分六步:
第一步:MP3压缩域音频数据处理
压缩域音频数据的处理分为帧头信息的读取,边信息的读取,主数据的读取,哈夫曼解码和量化。
1、帧头信息的读取
A)、定义存放帧头信息的结构体layer;
B)、读取帧中的同步信息;
C)、使解码器与数据流同步;
D)、确定该帧数据开始的位置,把帧头信息存放于layer类型的变量Headi中。
2、边信息的读取
A)、定义存放边信息的结构体sideinf;
B)、由帧头结束的地方确定边信息开始位置;
C)、读取边信息存放于sideinf类型的变量Sidei中。
3、主数据的读取
A)、定义存放缩放因子的结构scalefac,存放主数据大小的变量Maindata;
B)、计算主数据的长度并将该值存放于Maindata变量中;
C)、申请Maindata大小的内存空间Memory;
D)、读取主数据到Memory中;
E)、从Memory中读取缩放因子到scalefac类型的变量Scalei中。
4、哈夫曼解码和反量化
A)、定义一个颗粒中存放哈夫曼解码数据的数组is[32][18];
B)、根据边信息Sidei确定主数据中的哈夫曼数据的起始位置;
C)、对哈夫曼数据进行解码并将解码数据放在is[32][18]中;
D)、对is[32][18]中的数据进行反量化,仍存放于is[32][18]中。
第二步:生成MDCT系数矩阵
每个颗粒的数据由32个子带构成且每一子带含有18个系数,根据频率由低到高分布的原则,每一颗粒可形成一个32×18的矩阵。该过程如下:
1、找出每一子带系数
A)、找出is[32][18]中每一子带的MDCT系数Si,共32个;
B)、定义Si子带中的系数为Si[j],每一子带系数18个。
2、形成行向量
A)、按频率高低原则重新排列Si中系数,仍存放于Si[j]中;
B)、将每一子带排列完成后的Si[j]看作是矩阵中的行向量。
3、形成矩阵
A)、将Si[j]行向量依子带序号组合形成32×18M[i][j];
B)、依照上述原则,一帧中两个颗粒的MDCT系数矩阵表示为M1[i][j],M2[i][j]。
第三步:压缩域特征参数的提取
所提取的压缩域特征包括能量参数E、谱中心距SC(Spectral Centroid)和谱特征参数MFCC。
1、能量参数
A)、能量提取
其中i表示边带的序号,j表示每一边带中MDCT系数的序号,M1 2[i][j],表示第一颗粒的第i个边带中第j个MDCT系数的平方,M2 2[i][j]表示第二个颗粒的第i个边带中第j个MDCT系数的平方,Et表示一帧的能量。
B)、能量阈值计算
能量阈值计算主要是为随后去除静音做准备。因语音信号能量在不同情况下是变化的,我们采用以下能量阈值计算方法:
TE=Emin+λ×[Eμ-Emin]
其中TE是阈值,Emin是各帧能量的最小值,Eμ是各帧能量的平均值,λ是一个可变系数。
2、谱中心距SC
谱中心距体现了能量的集中区域,可以看作是时域中过零率的近似。计算此参数为静音和非静音的平滑修正做准备。计算公式如下:
其中,i表示边带序号,j表示边带内的MDCT系数的序号,M[i][j]表示第i个边带第j个MDCT系数;
3、谱特征参数MFCC
A)、计算每帧两个颗粒中MDCT系数的平方M1k 2,M2k 2,0≤k≤575是MDCT系数的序号;
B)、计算两个颗粒平方和的平均
C)、定义N个滤波器组对应Mel域的中心为FC(m),1≤m≤N为滤波器序号;
D)、采样率为Fs,信号的最高频率fH=Fs/2.0,最低频率为fL=0;
E)、 其中 B-1是其逆函数;
F)、Mel三角滤波器的函数为:
G)、计算每个滤波器输出能量X(m)
H)、计算能量的余弦变换
第四步:静音的检测
1、静音与非静音段划分
A)、按能量提取方法计算每帧能量
B)、将算出的能量与能量阈值作对比,低于能量阈值的音频帧视为静音帧,并合并到静音段。
C)、大于等于能量阈值的音频帧视为非静音帧,并合并到非静音段。
2、静音/非静音段的平滑修正
A)、对静音段信号统计得到SC门限TSC;
B)、计算每个静音段的SC记为SCj;
C)、若SCj>TSC,则该段是语音中的清音,合并到对应的非静音段;
D)、计算每个静音段中的帧数FN;
E)、若FN<50,认为该段是连续音频的停顿,合并入对应的非静音段中;
F)、将连续的非静音部分合并成长的非静音段。
第五步:语音检测
经过上面步骤所得到的非静音段可能含有非语音的音频,为便于后面的话者分割,需要进一步进行语音的检测。基本的实现方法如下:
1、以每个颗粒中的子带为单位求取该子带MDCT系数绝对值的平均MDi;
2、分别找出每个子带中所有大于3倍MDi的值MDCTj;
3、判断对一个颗粒中的MDCTj值使用HPS(harmonic product spectrum)算法判断是否有谐波成分存在;
4、若一帧中HPS检测结果不为零,就判断为语音帧;反之,判为非语音帧。将HPS检测结果不为零的帧归为语音段用于说话人改变的检测。
第六步:说话人改变检测
每一说话人的语音特征在特征空间中都形成一定的分布。因而,在连续语音段内,对同一个说话人而言,其BIC值的总体趋势是一定的;当说话人改变时候,信号的到普特性将发生明显的变化。因而可以用统计判决模型来判别说话人的改变。其检测过程如下:
1、定义检测长度
每次检测的最小语音长度为window,最大语音检测长度为max window。
2、判断检测长度以决定首地址位置
判断当前语音的长度,若大于max window,则把当前语音段的首地址向后移动max window;重新选定window长的语音段并执行3。
3、检测改变点
进行说话人趋势判断,用统计判决方法检测这段有无改变点。
4、若没有改变点
若无改变点,则当前被检测语音段的长度增加window长,执行步骤2;否则把当前语音段的首地址移到检测出的改变点位置,重新定义被检测语音段长度为window,执行步骤2。
实验结果
本实验使用了中央电视台广播音频资料进行了试验。音频资料的格式为MP3,采样频率为44.1KHz,总计时间约为20小时。
我们对这些MP3压缩域音频资料同时使用传统分割检测方法和本发明的分割检测方法进行了实验。实验结果表明,本发明的分割检测方法比传统分割检测方法而言,大大提高了判别的准确率和召回率。
我们对分割方法的结果主要从三方面评估:
A)、准确率(PRC):已经检测出来的正确的语音特征改变点占所有检测出来的语音特征改变点的百分比;
B)、召回率(RCL):召回率为已检测出来的正确的语音特征改变点占真实语音特征改变点的百分比;
C)、综合性能(F1):
准确率体现了检测出的改变点中,正确的改变点在所有检测出的改变点中所占的比率,体现了检测结果的正确性;召回率体现了所检测出的正确的改变点在真实改变点中所占的比率,体现了距离实际结果的正确性;这两个指标与其综合性能可以很好地体现分割效果。因此,我们采用这些指标作为最终的衡量尺度。
统计实验结果如下:
采用的算法 | 准确率(PRC) | 召回率(RCL) | 综合性能(F1) |
本发明检测 | 82.85% | 85.67% | 83.81% |
传统分割检测 | 21.91% | 57.93% | 31.14% |
实验结果表明,本发明的MP3压缩域音频分割方法能针对MP3压缩数据,有效地进行说话人改变检测,并且在数据源相同的情况下统计判决模型分割检测方法比传统分割检测方法的精度有很大提高。可以看出统计判决模型分割检测方法在压缩域中的话者分割效果平均性能指标达到82%以上,这与在非压缩域中采用其他分割法所得到的结果可相比拟。
Claims (8)
1.一种MP3压缩域音频分割方法,其特征在于:首先从MPEG1标准声音第三层压缩技术MP3文件中得到体现原始音频频域特性的数据,其次对这些数据计算能量和频域特征参数,然后使用这些参数去除静音部分并检测出语音;最后在语音片段间检测话者的改变,由此得到最终分割结果。
2.根据权利要求1所述的MP3压缩域音频分割方法,其特征在于:具体操作步骤如下:
a.MP3压缩音频的预处理:包括对解码帧头,边信息读取,主数据读取,哈夫曼解码和量化;
b.生成修正离散余弦变换MDCT矩阵:找出每一子带中的MDCT系数,对子带中系数排列,形成矩阵;
c.压缩域特征参数的提取:包括能量参数,谱中心距SC,梅尔倒谱系数MFCC参数的求取;
d.静音的检测:通过设定门限判别静音段和非静音段,并对结果做出修正;
e.语音检测:对非静音部分进一步去除非语音成分;
f.说话人改变点检测:根据统计判决模型进行说话人改变检测。
3.根据权利要求2所述的MP3压缩域音频分割方法,其特征在于:所述的MP3压缩音频预处理具体步骤是:
a.帧头信息的读取
(a).定义存放帧头信息的结构体layer;
(b).读取帧中的同步信息;
(c).使解码器与数据流同步;
(d).确定该帧数据开始的位置,把帧头信息存放于layer类型的变量Headi中;
b.边信息的读取
(a).定义存放边信息的结构体sideinf;
(b).由帧头结束的地方确定边信息开始位置;
(c).读取边信息存放于sideinf类型的变量Sidei中;
c.主数据的读取
(a).定义存放缩放因子的结构scalefac,存放主数据大小的变量Maindata;
(b).计算主数据的长度并将该值存放于Maindata变量中;
(c).申请Maindata大小的内存空间Memory;
(d).读取主数据到Memory中;
(e).从Memory中读取缩放因子到scalefac类型的变量Scalei中;
c.哈夫曼解码和反量化
(a).定义一个颗粒中存放哈夫曼解码数据的数组is[32][18];
(b).根据边信息Sidei确定主数据中的哈夫曼数据的起始位置;
(c).对哈夫曼数据进行解码并将解码数据放在is[32][18]中;
(d).对is[32][18]中的数据进行反量化,仍存放于is[32][18]中。
4.根据权利要求2所述的MP3压缩域音频分割方法,其特征在于:所述的生成MDCT矩阵具体步骤是:
a.找出每一子带系数
(a).找出is[32][18]中每一子带的MDCT系数Si,共32个;
(b).定义Si子带中的系数为Si[j],每一子带系数18个;
b.形成行向量
(a).按频率高低原则重新排列Si中系数,仍存放于Si[j]中;
(b).将每一子带排列完成后的Si[j]看作是矩阵中的行向量;
c.形成矩阵
(a).将Si[j]行向量依子带序号组合形成32×18M[i][j];
(b).依照上述原则,一帧中两个颗粒的MDCT系数矩阵表示为M1[i][j],M2[i][j]。
5.根据权利要求2所述的MP3压缩域音频分割方法,其特征在于:所述的特征参数提取的具体步骤是:
a.能量参数
(a).提取能量
其中i表示边带的序号,j表示每一边带中MDCT系数的序号,M1 2[i][j],表示第一颗粒的第i个边带中第j个MDCT系数的平方,M2 2[i][j]表示第二个颗粒的第i个边带中第j个MDCT系数的平方,Et表示一帧的能量。
(b).计算能量阈值
能量阈值计算主要是为随后去除静音做准备;采用以下能量阈值计算方法:
TE=Emin+λ×[Eμ-Emin]
其中TE是阈值,Emin是各帧能量的最小值,Eμ是各帧能量的平均值,λ是一个可变系数;
b.求取谱中心距SC
其中,i表示边带序号,j表示边带内的MDCT系数的序号,M[i][j]表示第i个边带第j个MDCT系数;
c.求取谱特征参数MFCC
(a).计算每帧中两个颗粒中MDCT系数的平方M1k 2,M2k 2,0≤k≤575是MDCT系数的序号;
(b).计算两个颗粒平方和的平均
(c).定义N个滤波器组对应Mel域的中心为FC(m),1≤m≤N为滤波器序号;
(d).采样率为Fs,信号的最高频率FH=Fs/2.0,最低频率为FL=0;
(e).计算滤波器的中心频率 其中 B-1是其逆函数,B(fL)表示信号最低频率变换到梅尔Mel域的频率,B(fH)表示信号最高频率变换到梅尔Mel域后的频率,FC(m)表示计算得到的滤波器中心频率;
(f).梅尔Mel三角滤波器的函数为:
(g).计算每个滤波器输出能量X(m)
(h).计算能量的余弦变换
6.根据权利要求2所述的MP3压缩域音频分割方法,其特征在于:所述的静音检测的具体步骤是:
a.静音与非静音段划分
(a).根据信号统计得到能量门限TE;
(b).对一系列音频帧求能量Et;
(c).若Ei<TE,视为静音段,否则视为非静音段。
b.静音/非静音段的平滑修正
(a).对静音段信号统计得到SC门限TSC;
(b).计算每个静音段的SC记为SCj;
(c).若SCj>TSC,则该段是语音中的清音,合并到对应的非静音段;
(d).计算每个静音段中的帧数FN;
(e).若FN<50,认为该段是连续语音的停顿,合并入对应的非静音段中;
(f).将连续的非静音部分合并成长的非静音段。
7.根据权利要求2所述的MP3压缩域音频分割方法,其特征在于:所述的语音检测的具体步骤是:
a.以每个颗粒中的子带为单位求取该子带MDCT系数绝对值的平均MDi;
b.分别找出每个子带中所有大于3倍MDi的值MDCTj;
c.对每个颗粒中的MDCTj值使用HPS算法判断是否有谐波成分存在;
d.若一帧中HPS检测结果不为零,就判断为语音帧;反之,判为非语音帧。
8.根据权利要求2所述的压缩域分割方法,其特征在于:所述的说话人改变点检测的具体步骤是:
a.定义检测长度:
每次检测的最小语音长度为window,最大语音检测长度为max window;
b.判断检测长度以决定首地址位置
判断当前语音的长度,若大于max window,则把当前语音段的首地址向后移动max window;重新选定window长的语音段并执行3;
c.检测改变点:进行说话人趋势判断,用统计判决方法检测这段有无改变点;
d.若没有改变点
若无改变点,则当前被检测语音段的长度增加window长,执行步骤2;否则把当前语音段的首地址移到检测出的改变点位置,重新定义被检测语音段长度为window,执行步骤2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101718029A CN101221762A (zh) | 2007-12-06 | 2007-12-06 | 一种mp3压缩域音频分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101718029A CN101221762A (zh) | 2007-12-06 | 2007-12-06 | 一种mp3压缩域音频分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101221762A true CN101221762A (zh) | 2008-07-16 |
Family
ID=39631546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007101718029A Pending CN101221762A (zh) | 2007-12-06 | 2007-12-06 | 一种mp3压缩域音频分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101221762A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930746A (zh) * | 2010-06-29 | 2010-12-29 | 上海大学 | 一种mp3压缩域音频自适应降噪方法 |
CN103198058A (zh) * | 2012-01-06 | 2013-07-10 | 蒂雅克股份有限公司 | 文件编辑装置 |
CN103578470A (zh) * | 2012-08-09 | 2014-02-12 | 安徽科大讯飞信息科技股份有限公司 | 一种电话录音数据的处理方法及系统 |
CN104464722A (zh) * | 2014-11-13 | 2015-03-25 | 北京云知声信息技术有限公司 | 基于时域和频域的语音活性检测方法和设备 |
CN105825870A (zh) * | 2016-03-14 | 2016-08-03 | 江苏时间环三维科技有限公司 | 一种语音指令数据获取方法及装置 |
WO2016150275A1 (zh) * | 2015-03-20 | 2016-09-29 | 广东欧珀移动通信有限公司 | 一种预设风格歌曲处理的方法及装置 |
CN106653020A (zh) * | 2016-12-13 | 2017-05-10 | 中山大学 | 一种基于深度学习的智慧视听设备多业务控制方法及系统 |
CN106782506A (zh) * | 2016-11-23 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种将录音音频分割成段的方法 |
CN106782508A (zh) * | 2016-12-20 | 2017-05-31 | 美的集团股份有限公司 | 语音音频的切分方法和语音音频的切分装置 |
CN109102799A (zh) * | 2018-08-17 | 2018-12-28 | 信阳师范学院 | 一种基于频域系数对数和的语音端点检测方法 |
CN110322887A (zh) * | 2019-04-28 | 2019-10-11 | 武汉大晟极科技有限公司 | 一种多类型音频信号能量特征提取方法 |
WO2019227547A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 一种语音切分方法、装置、计算机设备及存储介质 |
CN110660413A (zh) * | 2018-06-28 | 2020-01-07 | 新唐科技股份有限公司 | 语音活动侦测系统 |
CN111681664A (zh) * | 2020-07-24 | 2020-09-18 | 北京百瑞互联技术有限公司 | 一种降低音频编码码率的方法、系统、存储介质及设备 |
CN112601153A (zh) * | 2021-03-01 | 2021-04-02 | 成都大熊猫繁育研究基地 | 一种声音自动采集与传输装置及其使用方法 |
CN113596261A (zh) * | 2021-07-19 | 2021-11-02 | 电信科学技术第十研究所有限公司 | 一种语音线路检测方法及装置 |
CN116417015A (zh) * | 2023-04-03 | 2023-07-11 | 广州市迪士普音响科技有限公司 | 一种压缩音频的静默检测方法及装置 |
-
2007
- 2007-12-06 CN CNA2007101718029A patent/CN101221762A/zh active Pending
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930746B (zh) * | 2010-06-29 | 2012-05-02 | 上海大学 | 一种mp3压缩域音频自适应降噪方法 |
CN101930746A (zh) * | 2010-06-29 | 2010-12-29 | 上海大学 | 一种mp3压缩域音频自适应降噪方法 |
CN103198058A (zh) * | 2012-01-06 | 2013-07-10 | 蒂雅克股份有限公司 | 文件编辑装置 |
CN103198058B (zh) * | 2012-01-06 | 2016-09-07 | 蒂雅克股份有限公司 | 文件编辑装置 |
CN103578470A (zh) * | 2012-08-09 | 2014-02-12 | 安徽科大讯飞信息科技股份有限公司 | 一种电话录音数据的处理方法及系统 |
CN103578470B (zh) * | 2012-08-09 | 2019-10-18 | 科大讯飞股份有限公司 | 一种电话录音数据的处理方法及系统 |
CN104464722B (zh) * | 2014-11-13 | 2018-05-25 | 北京云知声信息技术有限公司 | 基于时域和频域的语音活性检测方法和设备 |
CN104464722A (zh) * | 2014-11-13 | 2015-03-25 | 北京云知声信息技术有限公司 | 基于时域和频域的语音活性检测方法和设备 |
WO2016150275A1 (zh) * | 2015-03-20 | 2016-09-29 | 广东欧珀移动通信有限公司 | 一种预设风格歌曲处理的方法及装置 |
US10031714B2 (en) | 2015-03-20 | 2018-07-24 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and device for processing audio files |
CN105825870B (zh) * | 2016-03-14 | 2019-04-02 | 江苏时间环三维科技有限公司 | 一种语音指令数据获取方法及装置 |
CN105825870A (zh) * | 2016-03-14 | 2016-08-03 | 江苏时间环三维科技有限公司 | 一种语音指令数据获取方法及装置 |
CN106782506A (zh) * | 2016-11-23 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种将录音音频分割成段的方法 |
CN106653020A (zh) * | 2016-12-13 | 2017-05-10 | 中山大学 | 一种基于深度学习的智慧视听设备多业务控制方法及系统 |
CN106782508A (zh) * | 2016-12-20 | 2017-05-31 | 美的集团股份有限公司 | 语音音频的切分方法和语音音频的切分装置 |
WO2019227547A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 一种语音切分方法、装置、计算机设备及存储介质 |
CN110660413B (zh) * | 2018-06-28 | 2022-04-15 | 新唐科技股份有限公司 | 语音活动侦测系统 |
CN110660413A (zh) * | 2018-06-28 | 2020-01-07 | 新唐科技股份有限公司 | 语音活动侦测系统 |
CN109102799A (zh) * | 2018-08-17 | 2018-12-28 | 信阳师范学院 | 一种基于频域系数对数和的语音端点检测方法 |
CN109102799B (zh) * | 2018-08-17 | 2023-01-24 | 信阳师范学院 | 一种基于频域系数对数和的语音端点检测方法 |
CN110322887A (zh) * | 2019-04-28 | 2019-10-11 | 武汉大晟极科技有限公司 | 一种多类型音频信号能量特征提取方法 |
CN111681664A (zh) * | 2020-07-24 | 2020-09-18 | 北京百瑞互联技术有限公司 | 一种降低音频编码码率的方法、系统、存储介质及设备 |
CN112601153B (zh) * | 2021-03-01 | 2021-05-07 | 成都大熊猫繁育研究基地 | 一种声音自动采集与传输装置及其使用方法 |
CN112601153A (zh) * | 2021-03-01 | 2021-04-02 | 成都大熊猫繁育研究基地 | 一种声音自动采集与传输装置及其使用方法 |
CN113596261A (zh) * | 2021-07-19 | 2021-11-02 | 电信科学技术第十研究所有限公司 | 一种语音线路检测方法及装置 |
CN113596261B (zh) * | 2021-07-19 | 2024-01-05 | 电信科学技术第十研究所有限公司 | 一种语音线路检测方法及装置 |
CN116417015A (zh) * | 2023-04-03 | 2023-07-11 | 广州市迪士普音响科技有限公司 | 一种压缩音频的静默检测方法及装置 |
CN116417015B (zh) * | 2023-04-03 | 2023-09-12 | 广州市迪士普音响科技有限公司 | 一种压缩音频的静默检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101221762A (zh) | 一种mp3压缩域音频分割方法 | |
Chou et al. | Robust singing detection in speech/music discriminator design | |
Didiot et al. | A wavelet-based parameterization for speech/music discrimination | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
CN104021785A (zh) | 一种提取会议中最重要嘉宾语音的方法 | |
CN102129456A (zh) | 去相关稀疏映射音乐流派有监督自动分类方法 | |
CN110647656B (zh) | 一种利用变换域稀疏化和压缩降维的音频检索方法 | |
CN106024010A (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
CN102543079A (zh) | 一种实时的音频信号分类方法及设备 | |
CN106548786A (zh) | 一种音频数据的检测方法及系统 | |
Thiruvengatanadhan | Speech recognition using SVM | |
Ghosal et al. | Speech/music classification using empirical mode decomposition | |
Song et al. | Automatic vocal segments detection in popular music | |
Velayatipour et al. | A review on speech-music discrimination methods | |
Vani et al. | Hilbert Huang transform based speech recognition | |
CN102655000B (zh) | 一种清浊音分类方法和装置 | |
CN101667423A (zh) | 基于概率密度比的压缩域高鲁棒语音/音乐分割方法 | |
CN108877816B (zh) | 基于qmdct系数的aac音频重压缩检测方法 | |
Tomchuk | Spectral Masking in MFCC Calculation for Noisy Speech | |
Thiruvengatanadhan | Music genre classification using mfcc and aann | |
Kos et al. | On-line speech/music segmentation for broadcast news domain | |
Ghodasara et al. | Speech/music classification using block based MFCC features | |
Yang et al. | Performance test of parameters for speaker recognition system based on SVM-VQ | |
Chen et al. | Speech hashing algorithm based on short-time stability | |
Mubarak et al. | Modulation features for speech and music classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20080716 |