CN108364637A - 一种音频句子边界检测方法 - Google Patents
一种音频句子边界检测方法 Download PDFInfo
- Publication number
- CN108364637A CN108364637A CN201810101218.4A CN201810101218A CN108364637A CN 108364637 A CN108364637 A CN 108364637A CN 201810101218 A CN201810101218 A CN 201810101218A CN 108364637 A CN108364637 A CN 108364637A
- Authority
- CN
- China
- Prior art keywords
- audio
- song
- cluster
- sentence boundary
- singing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 abstract description 3
- 230000033764 rhythmic process Effects 0.000 abstract description 3
- 230000008447 perception Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种音频句子边界检测方法。针对歌声音频的分句问题,根据人耳听觉感知特性对演唱歌声采用CQT进行时频转换,通过子带谱熵法对演唱歌声进行细粒度的端点检测;在此基础上,利用演唱歌声句子之间停顿和发音间隔较长的特点,基于K‑means算法进行聚类分析得到分句端点位置,可较好的得到清唱音频句子之间的边界点,并自适应不同节奏的音乐。本发明所提出的一种音频句子边界检测方法,该方法简单,实现灵活,具有较强的实用性。
Description
技术领域
本发明涉及音频分割领域,特别是一种音频句子边界检测方法。
背景技术
在音乐检索、语音识别和音频场景分析等领域中,音频分割是一个至关重要的处理技术。面对当前大数据时代数以万计的音频数据,若能自动的根据不同内容对音频数据流进行分割,将极大地简化人工操作和提高效率。但是,目前与歌声音频分句相关的研究还很少,部分工作本质上还是针对文本语句的分割。因此,研究如何对清唱歌声音频进行句子边界检测具有非常重要的实际应用价值。
发明内容
本发明的目的在于提供一种音频句子边界检测方法,能够分析出清唱音频句子之间的边界序列,并自适应不同节奏的音乐。
为实现上述目的,本发明的技术方案是:一种音频句子边界检测方法,按照如下步骤实现:
步骤S1:将输入的清唱歌声音频信号进行预处理,预处理方式包括:滤波、预加重和归一化;
步骤S2:对预处理后的歌声音频x(n)进行CQT变换得到频域信号XCQT(k);
步骤S3:取频域信号XCQT(k)的50Hz-5kHz分量,将其按频率均等划分为八个子带,分别计算每个子带谱熵H(m);
步骤S4:采用单参数的双门限法反向端点检测将歌声音频x(n)分别标注为语音段起点序列Sp(n)和终点序列Ep(n);
步骤S5:根据肘部法则设置类簇的个数为K=2,将歌声段长度序列S(n)和非歌声段长度序列M(n)依次对应组合成样本数据集T(n)={(S(n),M(n))|0<n<L};
步骤S6:采用K-means聚类分析将样本数据集T(n)分为K类,并输出K个类簇和质心w1,w2,…,wk;
步骤S7:在K个类簇中,将质心最大的类簇作为音频句子边界的检测结果,以该类簇中的数据对歌声音频x(n)进行句子边界标注得到句子边界序列。
在本发明一实施例中,在所述步骤S2中,所述频域信号XCQT(k)为:
其中,是窗长为Nk的汉宁窗函数;Nk=[Q*fs/fk],[·]表示向上取整;Q=(21/b-1)-1,b表示相邻的倍频之间频率点个数,设置为12;fs为采样频率;fk为第k个半音的中心频率,fk=f0*2k/b,f0为基础频率。
在本发明一实施例中,在所述步骤S3中,所述子带谱熵H(m)为:
其中,式中P(l,m)表示第m帧的第l条谱线的子带频谱概率密度,eps为保证对数的运算对象不为零而引入的一个小数。
在本发明一实施例中,所述步骤S4,具体实现步骤如下:
步骤S41:将平滑滤波后子带谱熵H(m)的最小值记为Hmin,以及前250ms的均值记为Hmean,设置高阈值门限TH=0.99(Hmean-H min)+H min,低阈值门限TL=0.96(Hmean-H min)+Hmin;
步骤S42:以子带谱熵H(m)为参数,通过单参数的双门限法反向端点检测对歌声音频x(n)进行端点标注,将语音段起点序列记为Sp(n),终点序列记为Ep(n)。
在本发明一实施例中,在所述步骤S5中,所述歌声段长度序列S(n)为:
S(n)=Ep(n)-Sp(n),0<n<L;
非歌声段长度序列M(n)为:
M(n)=Sp(n+1)-Ep(n),0<n<L;
其中,L为起点序列Sp(n)和终点序列Ep(n)的长度。
在本发明一实施例中,所述步骤S6,具体实现步骤如下:
步骤S61:采用K-means++算法从T(n)中选出距离最远的K个点分别作为初始聚类中心c1,c2,…,ck;
步骤S62:计算每个数据点到K个聚类中心的欧氏距离d(T(i),cj),根据距离质心最近的原则,如果d(T(i),cj)是该样本数据到K个聚类中心距离中的最小值,那么T(i)∈cj;
步骤S63:计算K个类簇的质心w1,w2,…,wk,直到对任意的i∈{1,2,3,…,k},都有wi=ci成立,则聚类结束;否则令ci=wi,i∈{1,2,3,…,k},继续进行聚类;
步骤S64:输出K个类簇和质心w1,w2,…,wk。
相较于现有技术,本发明具有以下有益效果:本发明提出了一种音频句子边界检测方法,根据人耳听觉感知特性对演唱歌声采用CQT进行时频转换,通过子带谱熵法对演唱歌声进行细粒度的端点检测;在此基础上,利用演唱歌声句子之间停顿和发音间隔较长的特点,基于K-means算法进行聚类分析得到分句端点位置,可较好的得到清唱音频句子之间的边界序列,并自适应不同节奏的音乐。该方法简单,实现灵活,具有较强的实用性。
附图说明
图1为本发明中音频句子边界检测方法的流程图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提出一种音频句子边界检测方法,如图1所示主要分为三个步骤:首先利用基于CQT改进的谱熵算法对歌声信号进行常规的端点检测,然后结合K-Means算法进行分析并归类出句子端点,最后分析句子边界序列对歌声信号进行分割。具体如下:
步骤S1:计算歌声音频的CQT谱:首先对整个歌声音频信号进行滤波,预加重、归一化等预处理,然后对预处理后的歌声音频x(n)进行CQT变换得到频域信号XCQT(k):
其中,是窗长为Nk的汉宁窗函数;Nk=[Q*fs/fk],[·]表示向上取整;Q=(21/b-1)-1,b表示相邻的倍频之间频率点个数,设置为12;fs为采样频率;fk为第k个半音的中心频率,fk=f0*2k/b,f0为基础频率。
步骤S2:计算子带谱熵:取频域信号XCQT(k)的50Hz-5kHz分量,将其按频率均等划分为八个子带,分别计算每个子带的谱熵H(m)。
步骤S3:双门限法反向端点检测:将平滑滤波后子带谱熵H(m)的最小值记为Hmin,以及前250ms的均值记为Hmean,设置高阈值门限TH=0.99(Hmean-Hmin)+Hmin,低阈值门限TL=0.96(Hmean-Hmin)+Hmin;以子带谱熵H(m)为参数,通过单参数的双门限法反向端点检测对歌声音频x(n)进行端点标注,将语音段起点序列记为Sp(n),终点序列记为Ep(n)。
步骤S4:构建样本数据集:歌声段长度序列为S(n)=Ep(n)-Sp(n),非歌声段长度序列为M(n)=Sp(n+1)-Ep(n),将S(n)和M(n)组合成样本数据集T(n)={(S(n),M(n))|0<n<L},根据肘部法则设置类簇的个数K=2。
步骤S5:K-means聚类分析:采用K-means++算法从T(n)中选出距离最远的K个点分别作为初始聚类中心c1,c2,…,ck;计算每个数据点到K个聚类中心的欧氏距离d(T(i),cj),根据距离质心最近的原则,如果d(T(i),cj)是该样本数据到K个聚类中心距离中的最小值,那么T(i)∈cj;计算K个类簇的质心w1,w2,…,wk,直到对任意的i∈{1,2,3,…,k},都有wi=ci成立,则聚类结束;否则令ci=wi,i∈{1,2,3,…,k},继续进行聚类;最后输出K个类簇和质心w1,w2,…,wk。
步骤S6:分句处理:在K个类簇中,将质心最大的类簇作为音频句子边界的检测结果,以该类簇中的数据对歌声音频x(n)进行句子边界标注得到句子边界序列。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (6)
1.一种音频句子边界检测方法,其特征在于,按照如下步骤实现:
步骤S1:将输入的清唱歌声音频信号进行预处理,预处理方式包括:滤波、预加重和归一化;
步骤S2:对预处理后的歌声音频x(n)进行CQT变换得到频域信号XCQT(k);
步骤S3:取频域信号XCQT(k)的50Hz-5kHz分量,将其按频率均等划分为八个子带,分别计算每个子带谱熵H(m);
步骤S4:采用单参数的双门限法反向端点检测将歌声音频x(n)分别标注为语音段起点序列Sp(n)和终点序列Ep(n);
步骤S5:根据肘部法则设置类簇的个数为K=2,将歌声段长度序列S(n)和非歌声段长度序列M(n)依次对应组合成样本数据集T(n)={(S(n),M(n))|0<n<L};
步骤S6:采用K-means聚类分析将样本数据集T(n)分为K类,并输出K个类簇和质心w1,w2,…,wk;
步骤S7:在K个类簇中,将质心最大的类簇作为音频句子边界的检测结果,以该类簇中的数据对歌声音频x(n)进行句子边界标注得到句子边界序列。
2.根据权利要求1所述的一种音频句子边界检测方法,其特征在于,在所述步骤S2中,所述频域信号XCQT(k)为:
其中,是窗长为Nk的汉宁窗函数;Nk=[Q*fs/fk],[·]表示向上取整;Q=(21/b-1)-1,b表示相邻的倍频之间频率点个数,设置为12;fs为采样频率;fk为第k个半音的中心频率,fk=f0*2k/b,f0为基础频率。
3.根据权利要求1所述的一种音频句子边界检测方法,其特征在于,在所述步骤S3中,所述子带谱熵H(m)为:
其中,式中P(l,m)表示第m帧的第l条谱线的子带频谱概率密度,eps为保证对数的运算对象不为零而引入的一个小数。
4.根据权利要求1所述的一种音频句子边界检测方法,其特征在于,所述步骤S4,具体实现步骤如下:
步骤S41:将平滑滤波后子带谱熵H(m)的最小值记为Hmin,以及前250ms的均值记为Hmean,设置高阈值门限TH=0.99(Hmean-Hmin)+Hmin,低阈值门限TL=0.96(Hmean-Hmin)+Hmin;
步骤S42:以子带谱熵H(m)为参数,通过单参数的双门限法反向端点检测对歌声音频x(n)进行端点标注,将语音段起点序列记为Sp(n),终点序列记为Ep(n)。
5.根据权利要求1所述的一种音频句子边界检测方法,其特征在于,在所述步骤S5中,所述歌声段长度序列S(n)为:
S(n)=Ep(n)-Sp(n),0<n<L;
非歌声段长度序列M(n)为:
M(n)=Sp(n+1)-Ep(n),0<n<L;
其中,L为起点序列Sp(n)和终点序列Ep(n)的长度。
6.根据权利要求1所述的一种音频句子边界检测方法,其特征在于,所述步骤S6,具体实现步骤如下:
步骤S61:采用K-means++算法从T(n)中选出距离最远的K个点分别作为初始聚类中心c1,c2,…,ck;
步骤S62:计算每个数据点到K个聚类中心的欧氏距离d(T(i),cj),根据距离质心最近的原则,如果d(T(i),cj)是该样本数据到K个聚类中心距离中的最小值,那么T(i)∈cj;
步骤S63:计算K个类簇的质心w1,w2,…,wk,直到对任意的i∈{1,2,3,…,k},都有wi=ci成立,则聚类结束;否则令ci=wi,i∈{1,2,3,…,k},继续进行聚类;
步骤S64:输出K个类簇和质心w1,w2,…,wk。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810101218.4A CN108364637B (zh) | 2018-02-01 | 2018-02-01 | 一种音频句子边界检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810101218.4A CN108364637B (zh) | 2018-02-01 | 2018-02-01 | 一种音频句子边界检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108364637A true CN108364637A (zh) | 2018-08-03 |
CN108364637B CN108364637B (zh) | 2021-07-13 |
Family
ID=63004318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810101218.4A Expired - Fee Related CN108364637B (zh) | 2018-02-01 | 2018-02-01 | 一种音频句子边界检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108364637B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109119070A (zh) * | 2018-10-19 | 2019-01-01 | 科大讯飞股份有限公司 | 一种语音端点检测方法、装置、设备及存储介质 |
CN110020712A (zh) * | 2019-03-26 | 2019-07-16 | 浙江大学 | 一种基于聚类的优化粒子群bp网络预测方法和系统 |
CN110867180A (zh) * | 2019-10-15 | 2020-03-06 | 北京雷石天地电子技术有限公司 | 一种基于k均值聚类算法生成逐字歌词文件的系统与方法 |
CN111599348A (zh) * | 2020-05-07 | 2020-08-28 | 武汉数字化设计与制造创新中心有限公司 | 一种机床加工过程监测信号的自动分段方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
US8380500B2 (en) * | 2008-04-03 | 2013-02-19 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for judging speech/non-speech |
US9123351B2 (en) * | 2011-03-31 | 2015-09-01 | Oki Electric Industry Co., Ltd. | Speech segment determination device, and storage medium |
CN105825871A (zh) * | 2016-03-16 | 2016-08-03 | 大连理工大学 | 一种无前导静音段语音的端点检测方法 |
CN106157951A (zh) * | 2016-08-31 | 2016-11-23 | 北京华科飞扬科技股份公司 | 进行音频断句的自动拆分方法及系统 |
CN106997765A (zh) * | 2017-03-31 | 2017-08-01 | 福州大学 | 人声音色的定量表征方法 |
-
2018
- 2018-02-01 CN CN201810101218.4A patent/CN108364637B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8380500B2 (en) * | 2008-04-03 | 2013-02-19 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for judging speech/non-speech |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
US9123351B2 (en) * | 2011-03-31 | 2015-09-01 | Oki Electric Industry Co., Ltd. | Speech segment determination device, and storage medium |
CN105825871A (zh) * | 2016-03-16 | 2016-08-03 | 大连理工大学 | 一种无前导静音段语音的端点检测方法 |
CN106157951A (zh) * | 2016-08-31 | 2016-11-23 | 北京华科飞扬科技股份公司 | 进行音频断句的自动拆分方法及系统 |
CN106997765A (zh) * | 2017-03-31 | 2017-08-01 | 福州大学 | 人声音色的定量表征方法 |
Non-Patent Citations (2)
Title |
---|
CHENCHEN KONG: ""Musical note segmentation based on the double-threshold endpoint detection and fundamental frequency curve fluctuation measure"", 《2017 4TH INTERNATIONAL CONFERENCE ON SYSTEMS AND INFORMATICS (ICSAI)》 * |
李战明 等: ""一种基于谱熵的语音端点检测方法"", 《计算机技术应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109119070A (zh) * | 2018-10-19 | 2019-01-01 | 科大讯飞股份有限公司 | 一种语音端点检测方法、装置、设备及存储介质 |
CN110020712A (zh) * | 2019-03-26 | 2019-07-16 | 浙江大学 | 一种基于聚类的优化粒子群bp网络预测方法和系统 |
CN110867180A (zh) * | 2019-10-15 | 2020-03-06 | 北京雷石天地电子技术有限公司 | 一种基于k均值聚类算法生成逐字歌词文件的系统与方法 |
CN110867180B (zh) * | 2019-10-15 | 2022-03-29 | 北京雷石天地电子技术有限公司 | 一种基于k均值聚类算法生成逐字歌词文件的系统与方法 |
CN111599348A (zh) * | 2020-05-07 | 2020-08-28 | 武汉数字化设计与制造创新中心有限公司 | 一种机床加工过程监测信号的自动分段方法和系统 |
CN111599348B (zh) * | 2020-05-07 | 2023-04-07 | 武汉数字化设计与制造创新中心有限公司 | 一种机床加工过程监测信号的自动分段方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108364637B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vijayasenan et al. | An information theoretic approach to speaker diarization of meeting data | |
CN108364637A (zh) | 一种音频句子边界检测方法 | |
Fan et al. | End-to-end post-filter for speech separation with deep attention fusion features | |
Kekre et al. | Speaker identification by using vector quantization | |
Millet et al. | Learning to detect dysarthria from raw speech | |
Zhou et al. | Dynamic Margin Softmax Loss for Speaker Verification. | |
Tan et al. | Evaluation of a Sparse Representation-Based Classifier For Bird Phrase Classification Under Limited Data Conditions. | |
Kobayashi et al. | Audio feature extraction based on sub-band signal correlations for music genre classification | |
CN107369451B (zh) | 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法 | |
Qi et al. | A novel two-step SVM classifier for voiced/unvoiced/silence classification of speech | |
Fan et al. | Deep attention fusion feature for speech separation with end-to-end post-filter method | |
Raghib et al. | Emotion analysis and speech signal processing | |
Guan et al. | Transductive nonnegative matrix factorization for semi-supervised high-performance speech separation | |
Kenai et al. | A new architecture based VAD for speaker diarization/detection systems | |
Zajíc et al. | UWB-NTIS speaker diarization system for the DIHARD II 2019 challenge | |
WO2020126028A1 (en) | An audio processing apparatus and method for audio scene classification | |
Jeong et al. | Dlr: Toward a deep learned rhythmic representation for music content analysis | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Ganoun et al. | Performance analysis of spoken arabic digits recognition techniques | |
CN108074584A (zh) | 一种基于信号多特征统计的音频信号分类方法 | |
Yu et al. | Monaural Music Source Separation Using Deep Convolutional Neural Network Embedded with Feature Extraction Module | |
Yue et al. | Speaker age recognition based on isolated words by using SVM | |
GS et al. | Synthetic speech classification using bidirectional LSTM Networks | |
Ghosal et al. | Speech/music discrimination using perceptual feature | |
CN115171716B (zh) | 一种基于空间特征聚类的连续语音分离方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210713 Termination date: 20220201 |
|
CF01 | Termination of patent right due to non-payment of annual fee |