CN108364637A - 一种音频句子边界检测方法 - Google Patents

一种音频句子边界检测方法 Download PDF

Info

Publication number
CN108364637A
CN108364637A CN201810101218.4A CN201810101218A CN108364637A CN 108364637 A CN108364637 A CN 108364637A CN 201810101218 A CN201810101218 A CN 201810101218A CN 108364637 A CN108364637 A CN 108364637A
Authority
CN
China
Prior art keywords
audio
song
cluster
sentence boundary
singing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810101218.4A
Other languages
English (en)
Other versions
CN108364637B (zh
Inventor
张栋
彭建云
肖小强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810101218.4A priority Critical patent/CN108364637B/zh
Publication of CN108364637A publication Critical patent/CN108364637A/zh
Application granted granted Critical
Publication of CN108364637B publication Critical patent/CN108364637B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种音频句子边界检测方法。针对歌声音频的分句问题,根据人耳听觉感知特性对演唱歌声采用CQT进行时频转换,通过子带谱熵法对演唱歌声进行细粒度的端点检测;在此基础上,利用演唱歌声句子之间停顿和发音间隔较长的特点,基于K‑means算法进行聚类分析得到分句端点位置,可较好的得到清唱音频句子之间的边界点,并自适应不同节奏的音乐。本发明所提出的一种音频句子边界检测方法,该方法简单,实现灵活,具有较强的实用性。

Description

一种音频句子边界检测方法
技术领域
本发明涉及音频分割领域,特别是一种音频句子边界检测方法。
背景技术
在音乐检索、语音识别和音频场景分析等领域中,音频分割是一个至关重要的处理技术。面对当前大数据时代数以万计的音频数据,若能自动的根据不同内容对音频数据流进行分割,将极大地简化人工操作和提高效率。但是,目前与歌声音频分句相关的研究还很少,部分工作本质上还是针对文本语句的分割。因此,研究如何对清唱歌声音频进行句子边界检测具有非常重要的实际应用价值。
发明内容
本发明的目的在于提供一种音频句子边界检测方法,能够分析出清唱音频句子之间的边界序列,并自适应不同节奏的音乐。
为实现上述目的,本发明的技术方案是:一种音频句子边界检测方法,按照如下步骤实现:
步骤S1:将输入的清唱歌声音频信号进行预处理,预处理方式包括:滤波、预加重和归一化;
步骤S2:对预处理后的歌声音频x(n)进行CQT变换得到频域信号XCQT(k);
步骤S3:取频域信号XCQT(k)的50Hz-5kHz分量,将其按频率均等划分为八个子带,分别计算每个子带谱熵H(m);
步骤S4:采用单参数的双门限法反向端点检测将歌声音频x(n)分别标注为语音段起点序列Sp(n)和终点序列Ep(n);
步骤S5:根据肘部法则设置类簇的个数为K=2,将歌声段长度序列S(n)和非歌声段长度序列M(n)依次对应组合成样本数据集T(n)={(S(n),M(n))|0<n<L};
步骤S6:采用K-means聚类分析将样本数据集T(n)分为K类,并输出K个类簇和质心w1,w2,…,wk
步骤S7:在K个类簇中,将质心最大的类簇作为音频句子边界的检测结果,以该类簇中的数据对歌声音频x(n)进行句子边界标注得到句子边界序列。
在本发明一实施例中,在所述步骤S2中,所述频域信号XCQT(k)为:
其中,是窗长为Nk的汉宁窗函数;Nk=[Q*fs/fk],[·]表示向上取整;Q=(21/b-1)-1,b表示相邻的倍频之间频率点个数,设置为12;fs为采样频率;fk为第k个半音的中心频率,fk=f0*2k/b,f0为基础频率。
在本发明一实施例中,在所述步骤S3中,所述子带谱熵H(m)为:
其中,式中P(l,m)表示第m帧的第l条谱线的子带频谱概率密度,eps为保证对数的运算对象不为零而引入的一个小数。
在本发明一实施例中,所述步骤S4,具体实现步骤如下:
步骤S41:将平滑滤波后子带谱熵H(m)的最小值记为Hmin,以及前250ms的均值记为Hmean,设置高阈值门限TH=0.99(Hmean-H min)+H min,低阈值门限TL=0.96(Hmean-H min)+Hmin
步骤S42:以子带谱熵H(m)为参数,通过单参数的双门限法反向端点检测对歌声音频x(n)进行端点标注,将语音段起点序列记为Sp(n),终点序列记为Ep(n)。
在本发明一实施例中,在所述步骤S5中,所述歌声段长度序列S(n)为:
S(n)=Ep(n)-Sp(n),0<n<L;
非歌声段长度序列M(n)为:
M(n)=Sp(n+1)-Ep(n),0<n<L;
其中,L为起点序列Sp(n)和终点序列Ep(n)的长度。
在本发明一实施例中,所述步骤S6,具体实现步骤如下:
步骤S61:采用K-means++算法从T(n)中选出距离最远的K个点分别作为初始聚类中心c1,c2,…,ck
步骤S62:计算每个数据点到K个聚类中心的欧氏距离d(T(i),cj),根据距离质心最近的原则,如果d(T(i),cj)是该样本数据到K个聚类中心距离中的最小值,那么T(i)∈cj
步骤S63:计算K个类簇的质心w1,w2,…,wk,直到对任意的i∈{1,2,3,…,k},都有wi=ci成立,则聚类结束;否则令ci=wi,i∈{1,2,3,…,k},继续进行聚类;
步骤S64:输出K个类簇和质心w1,w2,…,wk
相较于现有技术,本发明具有以下有益效果:本发明提出了一种音频句子边界检测方法,根据人耳听觉感知特性对演唱歌声采用CQT进行时频转换,通过子带谱熵法对演唱歌声进行细粒度的端点检测;在此基础上,利用演唱歌声句子之间停顿和发音间隔较长的特点,基于K-means算法进行聚类分析得到分句端点位置,可较好的得到清唱音频句子之间的边界序列,并自适应不同节奏的音乐。该方法简单,实现灵活,具有较强的实用性。
附图说明
图1为本发明中音频句子边界检测方法的流程图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提出一种音频句子边界检测方法,如图1所示主要分为三个步骤:首先利用基于CQT改进的谱熵算法对歌声信号进行常规的端点检测,然后结合K-Means算法进行分析并归类出句子端点,最后分析句子边界序列对歌声信号进行分割。具体如下:
步骤S1:计算歌声音频的CQT谱:首先对整个歌声音频信号进行滤波,预加重、归一化等预处理,然后对预处理后的歌声音频x(n)进行CQT变换得到频域信号XCQT(k):
其中,是窗长为Nk的汉宁窗函数;Nk=[Q*fs/fk],[·]表示向上取整;Q=(21/b-1)-1,b表示相邻的倍频之间频率点个数,设置为12;fs为采样频率;fk为第k个半音的中心频率,fk=f0*2k/b,f0为基础频率。
步骤S2:计算子带谱熵:取频域信号XCQT(k)的50Hz-5kHz分量,将其按频率均等划分为八个子带,分别计算每个子带的谱熵H(m)。
步骤S3:双门限法反向端点检测:将平滑滤波后子带谱熵H(m)的最小值记为Hmin,以及前250ms的均值记为Hmean,设置高阈值门限TH=0.99(Hmean-Hmin)+Hmin,低阈值门限TL=0.96(Hmean-Hmin)+Hmin;以子带谱熵H(m)为参数,通过单参数的双门限法反向端点检测对歌声音频x(n)进行端点标注,将语音段起点序列记为Sp(n),终点序列记为Ep(n)。
步骤S4:构建样本数据集:歌声段长度序列为S(n)=Ep(n)-Sp(n),非歌声段长度序列为M(n)=Sp(n+1)-Ep(n),将S(n)和M(n)组合成样本数据集T(n)={(S(n),M(n))|0<n<L},根据肘部法则设置类簇的个数K=2。
步骤S5:K-means聚类分析:采用K-means++算法从T(n)中选出距离最远的K个点分别作为初始聚类中心c1,c2,…,ck;计算每个数据点到K个聚类中心的欧氏距离d(T(i),cj),根据距离质心最近的原则,如果d(T(i),cj)是该样本数据到K个聚类中心距离中的最小值,那么T(i)∈cj;计算K个类簇的质心w1,w2,…,wk,直到对任意的i∈{1,2,3,…,k},都有wi=ci成立,则聚类结束;否则令ci=wi,i∈{1,2,3,…,k},继续进行聚类;最后输出K个类簇和质心w1,w2,…,wk
步骤S6:分句处理:在K个类簇中,将质心最大的类簇作为音频句子边界的检测结果,以该类簇中的数据对歌声音频x(n)进行句子边界标注得到句子边界序列。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (6)

1.一种音频句子边界检测方法,其特征在于,按照如下步骤实现:
步骤S1:将输入的清唱歌声音频信号进行预处理,预处理方式包括:滤波、预加重和归一化;
步骤S2:对预处理后的歌声音频x(n)进行CQT变换得到频域信号XCQT(k);
步骤S3:取频域信号XCQT(k)的50Hz-5kHz分量,将其按频率均等划分为八个子带,分别计算每个子带谱熵H(m);
步骤S4:采用单参数的双门限法反向端点检测将歌声音频x(n)分别标注为语音段起点序列Sp(n)和终点序列Ep(n);
步骤S5:根据肘部法则设置类簇的个数为K=2,将歌声段长度序列S(n)和非歌声段长度序列M(n)依次对应组合成样本数据集T(n)={(S(n),M(n))|0<n<L};
步骤S6:采用K-means聚类分析将样本数据集T(n)分为K类,并输出K个类簇和质心w1,w2,…,wk
步骤S7:在K个类簇中,将质心最大的类簇作为音频句子边界的检测结果,以该类簇中的数据对歌声音频x(n)进行句子边界标注得到句子边界序列。
2.根据权利要求1所述的一种音频句子边界检测方法,其特征在于,在所述步骤S2中,所述频域信号XCQT(k)为:
其中,是窗长为Nk的汉宁窗函数;Nk=[Q*fs/fk],[·]表示向上取整;Q=(21/b-1)-1,b表示相邻的倍频之间频率点个数,设置为12;fs为采样频率;fk为第k个半音的中心频率,fk=f0*2k/b,f0为基础频率。
3.根据权利要求1所述的一种音频句子边界检测方法,其特征在于,在所述步骤S3中,所述子带谱熵H(m)为:
其中,式中P(l,m)表示第m帧的第l条谱线的子带频谱概率密度,eps为保证对数的运算对象不为零而引入的一个小数。
4.根据权利要求1所述的一种音频句子边界检测方法,其特征在于,所述步骤S4,具体实现步骤如下:
步骤S41:将平滑滤波后子带谱熵H(m)的最小值记为Hmin,以及前250ms的均值记为Hmean,设置高阈值门限TH=0.99(Hmean-Hmin)+Hmin,低阈值门限TL=0.96(Hmean-Hmin)+Hmin
步骤S42:以子带谱熵H(m)为参数,通过单参数的双门限法反向端点检测对歌声音频x(n)进行端点标注,将语音段起点序列记为Sp(n),终点序列记为Ep(n)。
5.根据权利要求1所述的一种音频句子边界检测方法,其特征在于,在所述步骤S5中,所述歌声段长度序列S(n)为:
S(n)=Ep(n)-Sp(n),0<n<L;
非歌声段长度序列M(n)为:
M(n)=Sp(n+1)-Ep(n),0<n<L;
其中,L为起点序列Sp(n)和终点序列Ep(n)的长度。
6.根据权利要求1所述的一种音频句子边界检测方法,其特征在于,所述步骤S6,具体实现步骤如下:
步骤S61:采用K-means++算法从T(n)中选出距离最远的K个点分别作为初始聚类中心c1,c2,…,ck
步骤S62:计算每个数据点到K个聚类中心的欧氏距离d(T(i),cj),根据距离质心最近的原则,如果d(T(i),cj)是该样本数据到K个聚类中心距离中的最小值,那么T(i)∈cj
步骤S63:计算K个类簇的质心w1,w2,…,wk,直到对任意的i∈{1,2,3,…,k},都有wi=ci成立,则聚类结束;否则令ci=wi,i∈{1,2,3,…,k},继续进行聚类;
步骤S64:输出K个类簇和质心w1,w2,…,wk
CN201810101218.4A 2018-02-01 2018-02-01 一种音频句子边界检测方法 Expired - Fee Related CN108364637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810101218.4A CN108364637B (zh) 2018-02-01 2018-02-01 一种音频句子边界检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810101218.4A CN108364637B (zh) 2018-02-01 2018-02-01 一种音频句子边界检测方法

Publications (2)

Publication Number Publication Date
CN108364637A true CN108364637A (zh) 2018-08-03
CN108364637B CN108364637B (zh) 2021-07-13

Family

ID=63004318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810101218.4A Expired - Fee Related CN108364637B (zh) 2018-02-01 2018-02-01 一种音频句子边界检测方法

Country Status (1)

Country Link
CN (1) CN108364637B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119070A (zh) * 2018-10-19 2019-01-01 科大讯飞股份有限公司 一种语音端点检测方法、装置、设备及存储介质
CN110020712A (zh) * 2019-03-26 2019-07-16 浙江大学 一种基于聚类的优化粒子群bp网络预测方法和系统
CN110867180A (zh) * 2019-10-15 2020-03-06 北京雷石天地电子技术有限公司 一种基于k均值聚类算法生成逐字歌词文件的系统与方法
CN111599348A (zh) * 2020-05-07 2020-08-28 武汉数字化设计与制造创新中心有限公司 一种机床加工过程监测信号的自动分段方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074236A (zh) * 2010-11-29 2011-05-25 清华大学 一种分布式麦克风的说话人聚类方法
US8380500B2 (en) * 2008-04-03 2013-02-19 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for judging speech/non-speech
US9123351B2 (en) * 2011-03-31 2015-09-01 Oki Electric Industry Co., Ltd. Speech segment determination device, and storage medium
CN105825871A (zh) * 2016-03-16 2016-08-03 大连理工大学 一种无前导静音段语音的端点检测方法
CN106157951A (zh) * 2016-08-31 2016-11-23 北京华科飞扬科技股份公司 进行音频断句的自动拆分方法及系统
CN106997765A (zh) * 2017-03-31 2017-08-01 福州大学 人声音色的定量表征方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8380500B2 (en) * 2008-04-03 2013-02-19 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for judging speech/non-speech
CN102074236A (zh) * 2010-11-29 2011-05-25 清华大学 一种分布式麦克风的说话人聚类方法
US9123351B2 (en) * 2011-03-31 2015-09-01 Oki Electric Industry Co., Ltd. Speech segment determination device, and storage medium
CN105825871A (zh) * 2016-03-16 2016-08-03 大连理工大学 一种无前导静音段语音的端点检测方法
CN106157951A (zh) * 2016-08-31 2016-11-23 北京华科飞扬科技股份公司 进行音频断句的自动拆分方法及系统
CN106997765A (zh) * 2017-03-31 2017-08-01 福州大学 人声音色的定量表征方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENCHEN KONG: ""Musical note segmentation based on the double-threshold endpoint detection and fundamental frequency curve fluctuation measure"", 《2017 4TH INTERNATIONAL CONFERENCE ON SYSTEMS AND INFORMATICS (ICSAI)》 *
李战明 等: ""一种基于谱熵的语音端点检测方法"", 《计算机技术应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119070A (zh) * 2018-10-19 2019-01-01 科大讯飞股份有限公司 一种语音端点检测方法、装置、设备及存储介质
CN110020712A (zh) * 2019-03-26 2019-07-16 浙江大学 一种基于聚类的优化粒子群bp网络预测方法和系统
CN110867180A (zh) * 2019-10-15 2020-03-06 北京雷石天地电子技术有限公司 一种基于k均值聚类算法生成逐字歌词文件的系统与方法
CN110867180B (zh) * 2019-10-15 2022-03-29 北京雷石天地电子技术有限公司 一种基于k均值聚类算法生成逐字歌词文件的系统与方法
CN111599348A (zh) * 2020-05-07 2020-08-28 武汉数字化设计与制造创新中心有限公司 一种机床加工过程监测信号的自动分段方法和系统
CN111599348B (zh) * 2020-05-07 2023-04-07 武汉数字化设计与制造创新中心有限公司 一种机床加工过程监测信号的自动分段方法和系统

Also Published As

Publication number Publication date
CN108364637B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
Vijayasenan et al. An information theoretic approach to speaker diarization of meeting data
CN108364637A (zh) 一种音频句子边界检测方法
Fan et al. End-to-end post-filter for speech separation with deep attention fusion features
Kekre et al. Speaker identification by using vector quantization
Millet et al. Learning to detect dysarthria from raw speech
Zhou et al. Dynamic Margin Softmax Loss for Speaker Verification.
Tan et al. Evaluation of a Sparse Representation-Based Classifier For Bird Phrase Classification Under Limited Data Conditions.
Kobayashi et al. Audio feature extraction based on sub-band signal correlations for music genre classification
CN107369451B (zh) 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
Qi et al. A novel two-step SVM classifier for voiced/unvoiced/silence classification of speech
Fan et al. Deep attention fusion feature for speech separation with end-to-end post-filter method
Raghib et al. Emotion analysis and speech signal processing
Guan et al. Transductive nonnegative matrix factorization for semi-supervised high-performance speech separation
Kenai et al. A new architecture based VAD for speaker diarization/detection systems
Zajíc et al. UWB-NTIS speaker diarization system for the DIHARD II 2019 challenge
WO2020126028A1 (en) An audio processing apparatus and method for audio scene classification
Jeong et al. Dlr: Toward a deep learned rhythmic representation for music content analysis
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Ganoun et al. Performance analysis of spoken arabic digits recognition techniques
CN108074584A (zh) 一种基于信号多特征统计的音频信号分类方法
Yu et al. Monaural Music Source Separation Using Deep Convolutional Neural Network Embedded with Feature Extraction Module
Yue et al. Speaker age recognition based on isolated words by using SVM
GS et al. Synthetic speech classification using bidirectional LSTM Networks
Ghosal et al. Speech/music discrimination using perceptual feature
CN115171716B (zh) 一种基于空间特征聚类的连续语音分离方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210713

Termination date: 20220201

CF01 Termination of patent right due to non-payment of annual fee