CN106297824A - 一种基于分层可靠度变化趋势的音频分割方法 - Google Patents

一种基于分层可靠度变化趋势的音频分割方法 Download PDF

Info

Publication number
CN106297824A
CN106297824A CN201610872916.5A CN201610872916A CN106297824A CN 106297824 A CN106297824 A CN 106297824A CN 201610872916 A CN201610872916 A CN 201610872916A CN 106297824 A CN106297824 A CN 106297824A
Authority
CN
China
Prior art keywords
trip point
window
reliability
frame
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610872916.5A
Other languages
English (en)
Other versions
CN106297824B (zh
Inventor
杨新宇
王银瑞
丁建行
董怡卓
罗晶
杨泽正
王艺蒙
李雨墨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201610872916.5A priority Critical patent/CN106297824B/zh
Publication of CN106297824A publication Critical patent/CN106297824A/zh
Application granted granted Critical
Publication of CN106297824B publication Critical patent/CN106297824B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

本发明公开了一种基于分层可靠度变化趋势的音频分割方法,具体步骤包括:1)定长分析窗内基于可靠度变化趋势的分层跳变点检测;2)基于定长分析窗内跳变点检测的音频分割。本发明采用定长分析窗来避免分窗检测导致的累积误差,在定长分析窗内根据可靠度变化趋势来检测声学跳变点以解决冗余点过多与硬判决的局限性问题,同时在定长分析窗内采用自顶向下的分层检测方式来避免跳变点漏检的情况,能够有效减少冗余分割点,提高综合性能。

Description

一种基于分层可靠度变化趋势的音频分割方法
【技术领域】
本发明属于音频信号处理领域,特别涉及一种基于分层可靠度变化趋势的音频分割方法。
【背景技术】
近年来,在信号处理领域中,对信号的分割处理方面,基于内容的音频信号分割,也称跳变点检测,是指利用连续音频信号流在发生转变时听觉特征之间存在差异的现象将音频分为若干片段,每个片段在内容上具有一致性或在声学特征上具有相似性。目前基于内容的音频信号分割方法主要分为基于距离、基于模型、基于模型选择的分割方法3类。其中,基于距离的分割方法是利用相邻窗的样本间的距离来度量相邻音频段的相似性,它具有计算简单的特点,但是该方法在选择候选分割点的时候需要事先设定门限值,并且当门限值较小时,易检测出冗余分割点,而当门限值较大时,会导致分割点漏检,并且对声学特征的改变比较敏感。基于模型的分割方法不需要对阈值的界定,它是使用训练好的模型来分割音频流,但是生成这个模型
需要事先采集样本,反复训练,计算代价过高且适应性差。基于模型选择的方法是一种假设检验的方法,它使用贝叶斯信息准则(Bayesian information criterion,BIC)作为模型的选择标准,具有无门限、鲁棒等优点,但是BIC方法需要不断增加固定窗口长度来计算BIC值,计算量很大,易产生累积误差,根据ΔBIC的正负判断是否为跳变点的硬判决方式具有局限性,并且对于较短的音频分割效果较差。
【发明内容】
为解决现有分割方法中设置门限导致分割点冗余或者漏检,分窗检测方式导致累计误差,硬判决方式存在局限性的问题,本发明提出了一种新的信号音频分割方法——基于分层可靠度变化趋势的音频分割方法。该方法能够有效减少冗余分割点,提高综合性能。
为达以上目的,本发明采用的技术手段如下:
一种基于分层可靠度变化趋势的音频分割方法,包括以下步骤:
1)定长分析窗内基于可靠度变化趋势的分层跳变点检测;
假设每次分析窗内只有一个跳变点,然后计算窗口内各帧的可靠度,根据可靠度的变化趋势来检测分析窗内是否有跳变点;
2)基于定长分析窗内跳变点检测的音频分割;
对整个音频信号特征序列从起始位置加定长分析窗W0,若没有检测到跳变点,窗口向后移动Δl距离,0<Δl<Nmin;继续检测下一区域距离;若检测到跳变点,得到一个定长分析窗内以显著度排序的跳变点的序列;将分析窗W0移至具有最大时间上标的跳变点处,继续检测下一区域;当定长分析窗遍历整个歌曲音频流后,将会得到所有的跳变点的集合CP;然后再将跳变点的集合CP重新按照时间排序,完成对整个音频流的分割。
作为本发明的进一步改进,可靠度的变化趋势是指:
在跳变点xk左侧,随着音频帧靠近跳变点xk时,可靠度值呈上升趋势,在跳变点xk右侧,随着音频帧远离跳变点xk时,可靠度值呈下降趋势,而在跳变点xk处,RE(xk)将取得极大值。
作为本发明的进一步改进,检测分析窗内是否有跳变点具体步骤为:
若未检测到跳变点,表明该窗口中不含跳变点;若检测到跳变点SP1,则以SP1为界,将W0切分为两个子窗W1与W2,然后再按照上述流程检测子窗W1与W2中是否包含跳变点,若未检测到跳变点,则不再切分窗口,认为其中不包含跳变点;若检测到跳变点,则以跳变点为界将子窗一分为二继续检测下一层子窗,直至子窗长度小于最小窗口长度Nmin或子窗内不包含跳变点。
作为本发明的进一步改进,步骤1)具体为:
(i)按帧提取音频特征,确定最大窗口W0的长度为Nmax、最小窗口Wm的长度为Nmin
(ii)计算分析窗内各帧的可靠度,选取可靠度最大的第k帧作为预选择跳变点,分析窗内始末段NM帧的可靠度不计算,0<NM<Nmin;根据预选择跳变点左右两侧可靠度的变化趋势来确定其是否为真实跳变点,即:
IncNum L ( k ) > &alpha; &CenterDot; Num L SumIncRE L ( k ) > SumDecRE L ( k ) DecNum R ( k ) > &alpha; &CenterDot; Num R SumDecRE R ( k ) > SumIncRE R ( k ) - - - ( 2 )
其中,IncNumL(k)是第k帧左侧可靠度上升的次数,NumL是第k帧左侧的帧数,SumIncREL(k)是第k帧左侧可靠度的增加量,SumDecREL(k)是第k帧左侧可靠度的减少量,DecNumR(k)是第k帧右侧可靠度下降的次数,NumR是第k帧右侧的帧数,SumIncRER(k)是第k帧右侧可靠度的增加量,SumDecRER(k)是第k帧右侧可靠度的减少量,α是音频帧数百分比;
(iii)若(2)不成立,则窗内不包含跳变点;
(iv)若(2)成立,则预选择跳变点第k帧为真实跳变点,并将跳变点放入跳变点集合,然后以跳变点为界,将窗口一分为二分割成两个子窗;判断子窗是否长度小于最小窗口长度,小于最小窗口长度的不予处理,大于最小窗口长度的子窗执行(ii)步骤,若(2)不成立,不再切分窗口;若(2)成立,跳到(iv)。
相对于现有技术,本发明具有以下优点:
本发明采用定长分析窗来避免分窗检测导致的累积误差,在定长分析窗内根据可靠度变化趋势来检测声学跳变点以解决冗余点过多与硬判决的局限性问题,同时在定长分析窗内采用自顶向下的分层检测方式来避免跳变点漏检的情况,通过分层检测可靠度的变化趋势来检测声学跳变点,既不会导致误检点增加并且还解决了硬判决的问题,能够有效减少冗余分割点,提高综合性能。解决了现有的采用固定长度提取音频特征导致音频内容信息表达不完整的问题。
【附图说明】
图1为可靠度变化曲线,(a)中左图为定长分析窗内音频时域波形,右图为窗口内可靠度变化曲线;(b)中左右两图分别为音频跳变点SP1左右两侧子窗内可靠度变化曲线;(c)左右两图分别为音频跳变点SP2左右两侧子窗内可靠度变化曲线;
图2为三种分割方法性能对比图,其中,(a)、(b)、(c)、(d)分别为三种分割方法的误警率、召回率、精确度、综合性能的比较。
【具体实施方式】
下面结合附图,对本发明的具体实施方式进行详细阐述,但本发明不限于该实施例。为了使公众对本发明有彻底的了解,在以下本发明优选施例中详细说明具体的细节。
为解决音频分割中冗余点过多以及硬判决存在局限性的问题,本发明采用根据可靠度的变化趋势来检测声学跳变点,其原理如下:
为每个信号片段按帧提取音频特征X={x1,x2,..,xN},其中N是音频帧数,每帧特征的维数为P。假设xk∈X是本段歌曲的一个音频分割点,则xk将音频特征X分成了两部分,X1={x1,x2,..,xk}与X2={xk+1,xk+2,..,xN},两段子音频由于特征之间的差异,设其分别服从N(μ1,Σ1)和N(μ2,Σ2)分布。
定义:xk的可靠度RE(xk)为左右两段信号在各自模型上的似然对数之和,即:
R E ( x k ) = L ( X 1 | N ( &mu; 1 , &Sigma; 1 ) ) + L ( X 2 | N ( &mu; 2 , &Sigma; 2 ) ) = &Sigma; j = 1 k lg P &lsqb; x j | N ( &mu; 1 , c ) &rsqb; + &Sigma; j = k + 1 k lg P &lsqb; x j | N ( &mu; 2 , &Sigma; 2 ) &rsqb; = - N 2 lg 2 &pi; - k 2 lg | &Sigma; 1 | - N - k 2 lg | &Sigma; 2 | - 1 2 &Sigma; j = 1 k ( x j - &mu; 1 ) T &Sigma; 1 - 1 ( x j - &mu; 1 ) - 1 2 &Sigma; j = k + 1 k ( x j - &mu; 2 ) T &Sigma; 2 - 1 ( x j - &mu; 2 ) - - - ( 1 )
此时,当分别计算各个音频帧的可靠度时,会有定理1成立。
定理1:在跳变点xk左侧,随着音频帧靠近跳变点xk时,可靠度值呈上升趋势,在跳变点xk右侧,随着音频帧远离跳变点xk时,可靠度值呈下降趋势,而在跳变点xk处,RE(xk)将取得极大值。
证明过程如下:设xm与xm+1是跳变点xk左侧相邻的两点,显然有下式成立,
lgP[xm+1|N(μ1,∑1)]>lgP[xm+1|N(μ2,∑2)],
则xm+1与xm的可靠度之差为:
R E ( x m + 1 ) - R E ( x m ) = &Sigma; j = 1 m + 1 lg P &lsqb; x j | N ( &mu; 1 , &Sigma; 1 ) &rsqb; + &Sigma; j = m + 2 k lg P &lsqb; x j | N ( &mu; 2 , &Sigma; 2 ) &rsqb; - ( &Sigma; j = 1 m lg P &lsqb; x j | N ( &mu; 1 , &Sigma; 1 ) &rsqb; + &Sigma; j = m + 1 k lg P &lsqb; x j | N ( &mu; 2 , &Sigma; 2 ) &rsqb; ) = lg P &lsqb; x m + 1 | N ( &mu; 1 , &Sigma; 1 ) &rsqb; - lg P &lsqb; x m + 1 | N ( &mu; 2 , &Sigma; 2 ) &rsqb; > 0
即在跳变点左侧可靠度呈上升趋势。同理可得,在跳变点右侧可靠度呈下降趋势。
由上述可知在跳变点左右两侧可靠度呈现先上升后下降的趋势,在跳变点处取得极大值,并且当该段音频中没有跳变点,各帧音频特征对应的可靠度没有规律,因此可根据音频特征的可靠度变化趋势来检测跳变点。
本发明的音频信号处理领域中分层可靠度变化趋势音频分割方法,包括以下步骤:
1)定长分析窗内基于可靠度变化趋势的分层跳变点检测;
2)基于定长分析窗内跳变点检测的音频分割;
步骤1)的具体操作为:在跳变点检测之前,首先确定最大窗口W0的长度为Nmax、最小窗口Wm的长度为Nmin,假设每次分析窗内只有一个跳变点,然后计算窗口内各帧的可靠度,根据可靠度的变化趋势来检测分析窗内是否有跳变点,若未检测到,表明该窗口中不含跳变点。若检测到跳变点SP1,则以SP1为界,将W0切分为两个子窗W1与W2,然后再按照上述流程检测子窗W1与W2中是否包含跳变点,若未检测到,则不再切分窗口,认为其中不包含跳变点。若检测到,则以跳变点为界将子窗一分为二继续检测下一层子窗,直至子窗长度小于最小窗口长度Nmin或子窗内不包含跳变点。其具体流程如下:
(i)按帧提取音频特征,确定最大窗口W0的长度为Nmax、最小窗口Wm的长度为Nmin
(ii)计算分析窗内各帧的可靠度,选取可靠度最大的第k帧作为预选择跳变点,为保证有足够的数据使得可靠度计算更加可靠,分析窗内始末段NM(0<NM<Nmin)帧的可靠度不计算。根据预选择跳变点左右两侧可靠度的变化趋势来确定其是否为真实跳变点,即:
IncNum L ( k ) > &alpha; &CenterDot; Num L SumIncRE L ( k ) > SumDecRE L ( k ) DecNum R ( k ) > &alpha; &CenterDot; Num R SumDecRE R ( k ) > SumIncRE R ( k ) - - - ( 2 )
其中,IncNumL(k)是第k帧左侧可靠度上升的次数,NumL是第k帧左侧的帧数,SumIncREL(k)是第k帧左侧可靠度的增加量,SumDecREL(k)是第k帧左侧可靠度的减少量,DecNumR(k)是第k帧右侧可靠度下降的次数,NumR是第k帧右侧的帧数,SumIncRER(k)是第k帧右侧可靠度的增加量,SumDecRER(k)是第k帧右侧可靠度的减少量,α是音频帧数百分比。这里选择可靠度上升、下降次数的原因是排除音频帧可靠度瞬间变化较大带来的影响,而选择可靠度增加量、减少量的原因是解决可靠度上升、下降次数与可靠度增量变化不一致的情况;
(iii)若(2)不成立,由定理1可知分析窗内不包含跳变点。
(iv)若(2)成立,则预选择跳变点第k帧为真实跳变点,并将跳变点放入跳变点集合,然后以跳变点为界,将窗口一分为二分割成两个子窗。判断子窗是否长度小于最小窗口长度,小于最小窗口长度的不予处理,大于最小窗口长度的子窗执行(ii)步骤,若(2)不成立,不再切分窗口。若(2)成立,跳到(iv)。
步骤2)的具体操作为:对整个音频信号特征序列从起始位置加定长分析窗W0,若没有检测到跳变点,窗口向后移动Δl(0<Δl<Nmin)距离,继续检测下一区域距离;若检测到跳变点,得到一个定长分析窗内以显著度排序的跳变点的序列。将分析窗W0移至具有最大时间上标的跳变点处,继续检测下一区域。当定长分析窗遍历整个民歌音频流后,将会得到所有的跳变点的集合CP。然后再将它们重新按照时间排序,就可以完成对整个音频流的分割。
为证明本发明提出的音频分割方法的有效性和优越性,实验选用了声学跳变点已知的5首苹果铃声作为实验数据,选择的对比方法为目前使用频率较高的基于距离的GLR音频分割方法与基于模型选择的BIC音频分割方法。提取特征时,帧长为20ms,帧移为10ms。其中实现GLR音频分割方法时,通过反复调整门限值,选取了最好的分割结果用来比较。实现BIC分割方法时,初始窗长为200帧,窗增量为50帧,最大窗长取1500帧,窗口移动距离为50帧,惩罚因子取1.5。实现本发明提出的音频分割方法时,最大窗长为1500帧,最小窗长为200帧,窗口移动距离为50帧,α取75%。
图1(a)左图为定长分析窗内已知跳变点位置的音频时域波形,其中9.95s处的音频跳变点SP1比4.95s处的音频跳变点SP2明显。通过计算窗口内各帧可靠度得到1(a)右图可靠度变化曲线,从中可以看出对应于音频时域波形中的两个声学跳变点SP2与SP1,可靠度均取得了峰值,并且从可靠度的大小与变化趋势可以首先确定SP1为音频跳变点,以跳变点SP1为界将窗口一分为二,计算各子窗内各帧的可靠度,便得到图1(b)音频跳变点SP1左右两侧子窗内可靠度变化曲线,从图1(b)左图中可以看出跳变点SP2被有效检测出来。而由于跳变点SP1右侧子窗内不含跳变点,因此可靠度变化无规律可循,图1(b)右图与此分析一致。同理以跳变点SP2为界将子窗口一分为二,可知左右两个新子窗内均不含音频跳变点,从图1(c)中可以看出左右两侧子窗内可靠度变化也无规律可循,与事实相符。由此可以看出本发明提出的音频分割方法是有效的。
本发明衡量音频分割性能的主要指标有以下四个:误警率(FA)、召回率(RCL),精确率(PRC)、综合性能(F-measure),其计算公式如下所示:
图2(a)(b)(c)(d)分别为5首歌曲在GLR、BIC和本发明音频分割方法下的误警率、召回率、精确度、综合性能的比较。可以直观的看出,本发明提出的音频分割方法相比于基于距离的GLR分割方法以及基于模型选择的BIC分割方法,误警率有比较明显的降低,召回率、准确率以及综合性能都有显著的提高,这是因为GLR分割方法性能容易受门限值影响、对声学特征的跳变很敏感,进而容易导致误检点增加,而BIC分割方法由于采用硬判决的方式,很容易检测出过多的冗余分割点。本发明的音频分割方法通过分层检测可靠度的变化趋势来检测声学跳变点,既不会导致误检点增加并且还解决了硬判决的问题,对于减少冗余分割点,提高综合性能有着很好的作用。这也证明了本发明音频分割方法的优越性。
以上,仅为本发明的较佳实施例,并非仅限于本发明的实施范围,凡依本发明专利范围的内容所做的等效变化和修饰,都应为本发明的技术范畴。

Claims (4)

1.一种基于分层可靠度变化趋势的音频分割方法,其特征在于,包括以下步骤:
1)定长分析窗内基于可靠度变化趋势的分层跳变点检测;
假设每次分析窗内只有一个跳变点,然后计算窗口内各帧的可靠度,根据可靠度的变化趋势来检测分析窗内是否有跳变点;
2)基于定长分析窗内跳变点检测的音频分割;
对整个音频信号特征序列从起始位置加定长分析窗W0,若没有检测到跳变点,窗口向后移动Δl距离,0<Δl<Nmin,Nmin为最小窗口Wm的长度;继续检测下一区域距离;若检测到跳变点,得到一个定长分析窗内以显著度排序的跳变点的序列;将分析窗W0移至具有最大时间上标的跳变点处,继续检测下一区域;当定长分析窗遍历整个歌曲音频流后,将会得到所有的跳变点的集合CP;然后再将跳变点的集合CP重新按照时间排序,完成对整个音频流的分割。
2.根据权利要求1所述的一种基于分层可靠度变化趋势的音频分割方法,其特征在于,可靠度的变化趋势是指:
在跳变点xk左侧,随着音频帧靠近跳变点xk时,可靠度值呈上升趋势,在跳变点xk右侧,随着音频帧远离跳变点xk时,可靠度值呈下降趋势,而在跳变点xk处,RE(xk)将取得极大值。
3.根据权利要求1所述的一种基于分层可靠度变化趋势的音频分割方法,其特征在于,检测分析窗内是否有跳变点具体步骤为:
若未检测到跳变点,表明该窗口中不含跳变点;若检测到跳变点SP1,则以SP1为界,将W0切分为两个子窗W1与W2,然后再按照上述流程检测子窗W1与W2中是否包含跳变点,若未检测到跳变点,则不再切分窗口,认为其中不包含跳变点;若检测到跳变点,则以跳变点为界将子窗一分为二继续检测下一层子窗,直至子窗长度小于最小窗口长度Nmin或子窗内不包含跳变点。
4.根据权利要求1所述的一种基于分层可靠度变化趋势的音频分割方法,其特征在于,步骤1)具体为:
(i)按帧提取音频特征,确定最大窗口W0的长度为Nmax、最小窗口Wm的长度为Nmin
(ii)计算分析窗内各帧的可靠度,选取可靠度最大的第k帧作为预选择跳变点,分析窗内始末段NM帧的可靠度不计算,0<NM<Nmin;根据预选择跳变点左右两侧可靠度的变化趋势来确定其是否为真实跳变点,即:
IncNum L ( k ) > &alpha; &CenterDot; Num L SumIncRE L ( k ) > SumDecRE L ( k ) DecNum R ( k ) > &alpha; &CenterDot; Num R SumDecRE R ( k ) > SumIncRE R ( k ) - - - ( 2 )
其中,IncNumL(k)是第k帧左侧可靠度上升的次数,NumL是第k帧左侧的帧数,SumIncREL(k)是第k帧左侧可靠度的增加量,SumDecREL(k)是第k帧左侧可靠度的减少量,DecNumR(k)是第k帧右侧可靠度下降的次数,NumR是第k帧右侧的帧数,SumIncRER(k)是第k帧右侧可靠度的增加量,SumDecRER(k)是第k帧右侧可靠度的减少量,α是音频帧数百分比;
(iii)若(2)不成立,则窗内不包含跳变点;
(iv)若(2)成立,则预选择跳变点第k帧为真实跳变点,并将跳变点放入跳变点集合,然后以跳变点为界,将窗口一分为二分割成两个子窗;判断子窗是否长度小于最小窗口长度,小于最小窗口长度的不予处理,大于最小窗口长度的子窗执行(ii)步骤,若(2)不成立,不再切分窗口;若(2)成立,跳到(iv)。
CN201610872916.5A 2016-09-30 2016-09-30 一种基于分层可靠度变化趋势的音频分割方法 Expired - Fee Related CN106297824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610872916.5A CN106297824B (zh) 2016-09-30 2016-09-30 一种基于分层可靠度变化趋势的音频分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610872916.5A CN106297824B (zh) 2016-09-30 2016-09-30 一种基于分层可靠度变化趋势的音频分割方法

Publications (2)

Publication Number Publication Date
CN106297824A true CN106297824A (zh) 2017-01-04
CN106297824B CN106297824B (zh) 2017-08-01

Family

ID=57716297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610872916.5A Expired - Fee Related CN106297824B (zh) 2016-09-30 2016-09-30 一种基于分层可靠度变化趋势的音频分割方法

Country Status (1)

Country Link
CN (1) CN106297824B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481739A (zh) * 2017-08-16 2017-12-15 成都品果科技有限公司 音频切割方法及装置
CN116316586A (zh) * 2023-03-15 2023-06-23 国网湖北省电力有限公司随州供电公司 一种采用跳变分析法对电力系统中功率跳变溯源的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040024592A1 (en) * 2002-08-01 2004-02-05 Yamaha Corporation Audio data processing apparatus and audio data distributing apparatus
US20140136191A1 (en) * 2012-11-15 2014-05-15 Fujitsu Limited Speech signal processing apparatus and method
CN105227763A (zh) * 2015-08-31 2016-01-06 武汉工程大学 一种在智能移动设备上实现的乐器音频实时分割方法
CN105913849A (zh) * 2015-11-27 2016-08-31 中国人民解放军总参谋部陆航研究所 一种基于事件检测的说话人分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040024592A1 (en) * 2002-08-01 2004-02-05 Yamaha Corporation Audio data processing apparatus and audio data distributing apparatus
US20140136191A1 (en) * 2012-11-15 2014-05-15 Fujitsu Limited Speech signal processing apparatus and method
CN105227763A (zh) * 2015-08-31 2016-01-06 武汉工程大学 一种在智能移动设备上实现的乐器音频实时分割方法
CN105913849A (zh) * 2015-11-27 2016-08-31 中国人民解放军总参谋部陆航研究所 一种基于事件检测的说话人分割方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481739A (zh) * 2017-08-16 2017-12-15 成都品果科技有限公司 音频切割方法及装置
CN116316586A (zh) * 2023-03-15 2023-06-23 国网湖北省电力有限公司随州供电公司 一种采用跳变分析法对电力系统中功率跳变溯源的方法
CN116316586B (zh) * 2023-03-15 2023-10-10 国网湖北省电力有限公司随州供电公司 一种采用跳变分析法对电力系统中功率跳变溯源的方法

Also Published As

Publication number Publication date
CN106297824B (zh) 2017-08-01

Similar Documents

Publication Publication Date Title
CN102799899B (zh) 基于svm和gmm的特定音频事件分层泛化识别方法
CN103065627B (zh) 基于dtw与hmm证据融合的特种车鸣笛声识别方法
CN102682760B (zh) 重叠语音检测方法和系统
CN103886871B (zh) 语音端点的检测方法和装置
CN103839538B (zh) 音乐节奏检测方法及检测装置
CN101308653A (zh) 一种应用于语音识别系统的端点检测方法
CN106601230B (zh) 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统
CN105810213A (zh) 一种典型异常声音检测方法及装置
CN106404388A (zh) 一种刮板输送机飘链故障诊断方法
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN106297824A (zh) 一种基于分层可靠度变化趋势的音频分割方法
CN104240719A (zh) 音频的特征提取方法、音频的分类方法和相关装置
CN105869658A (zh) 一种采用非线性特征的语音端点检测方法
CN103559289B (zh) 语种无关的关键词检索方法及系统
CN104103280A (zh) 基于动态时间归整算法的离线语音端点检测的方法和装置
Baillie et al. An audio-based sports video segmentation and event detection algorithm
CN101876985B (zh) 基于混合模型的web文本情感主题识别方法
Yao et al. Application of short time energy analysis in monitoring the stability of arc sound signal
CN106251861A (zh) 一种基于场景建模的公共场所异常声音检测方法
CN104239372B (zh) 一种音频数据分类方法及装置
CN104299611A (zh) 基于时频脊线-Hough变换的汉语声调识别方法
Wang et al. Automatic audio segmentation using the generalized likelihood ratio
CN103325372A (zh) 基于改进声调核模型的汉语语音声调识别方法
CN101067929B (zh) 使用共振峰增强提取话音共振峰轨迹的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170801

Termination date: 20200930

CF01 Termination of patent right due to non-payment of annual fee