CN114913844A - 一种基音归一化重构的广播语种识别方法 - Google Patents
一种基音归一化重构的广播语种识别方法 Download PDFInfo
- Publication number
- CN114913844A CN114913844A CN202210376131.4A CN202210376131A CN114913844A CN 114913844 A CN114913844 A CN 114913844A CN 202210376131 A CN202210376131 A CN 202210376131A CN 114913844 A CN114913844 A CN 114913844A
- Authority
- CN
- China
- Prior art keywords
- frame
- voice
- frequency
- language identification
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000010606 normalization Methods 0.000 title claims abstract description 18
- 230000004044 response Effects 0.000 claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 17
- 230000005284 excitation Effects 0.000 claims description 13
- 238000001228 spectrum Methods 0.000 claims description 13
- 230000001755 vocal effect Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 8
- 239000000463 material Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000037433 frameshift Effects 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 16
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种基音归一化重构的广播语种识别方法,属于语种识别技术领域。本发明首先将语音信号进行端点检测提取静音段与有声段,然后提取有声段中的基音频率和声道响应,再将基音频率归一化后经压控振荡器和差分判决转换为有声段的声门脉冲,静音段的声门脉冲由白噪声构成,通过全极点滤波器模型将二者进行重构得到归一化后的音频信号。本发明可以减少播音员发音特征对语种识别的影响,进而提高广播音频语种识别的准确率。
Description
技术领域
本发明涉及一种基音归一化重构的广播语种识别方法,属于语种识别技术领域。
背景技术
随着社会的不断进步,语种识别技术在人们的日常生活中应用广泛,全世界发现已存的语言就有7099多种,在中国境内还包含80多种不同民族、不同地区的方言,其应用价值越来越受到重视。
在边境地区经常出现广播串台、信号篡改等情况,而人所能掌握的语言比较少,依靠人工区分语种和鉴别信号传输是否正常较为困难。
语种识别技术的核心问题在于如何取出各语种之间具有区分度的特征,传统的底层声学特征包括梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)、伽马通频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)、感知线性预测倒谱系数(Perceptual Linear Predictive,PLP)、基于滤波器组的Fbank特征(LogMel-scaleFilter Bank Energies,Fbank)。
这些底层声学特征在语种识别、说话人识别、情绪识别中均取得了广泛的应用.然而语言之间的差异很多都体现在发音方式、句法、语义等韵律特征之中。但是在语种识别训练中,并不能保证所提取的声学特征不被说话人特征、情绪特征所影响,而且这些特征是否是区别各语种之间的深层次特征也需要进一步研究。
语音重构作为语音合成的一个分支,常见的语音合成分为波形拼接法,参数合成法,规则合成法和深度学习法等。波形拼接法利用语音素材库中的素材提取并拼接成所需语音,但针对不同语种而言所需素材太大;参数合成法利用基音频率、共振峰、声道特性等参数合成语音,声码器是参数合成中最基础的部分,传统声码器通过预处理提取出声学特征和语言学特征作为控制条件,合成出所需语音,但合成效果不够自然。规则合成法利用音素组成音节,再融合语言的韵律特征合成语音,合成自然、清晰,但韵律特征不易提取。
发明内容
本发明要解决的技术问题是提供一种基音归一化重构的广播语种识别方法,用以解决在真实环境下语种识别准确率提升困难的问题。
本发明的技术方案是:一种基音归一化重构的广播语种识别方法,首先将语音信号进行端点检测提取静音段与有声段,然后提取有声段中的基音频率和声道响应,再将基音频率归一化后经压控振荡器和差分判决转换为有声段的声门脉冲,静音段的声门脉冲由白噪声构成,通过全极点滤波器模型将二者进行重构得到归一化后的音频信号。
具体步骤为:
Step1:对语音信号进行端点检测,通过对语音信号提取子带熵谱特征和伽马通频率倒谱系数一维特征进行自适应加权融合,对融合后的特征进行聚类得到判决门限,根据判决门限值标记语音信号中的有声段和静音段。
Step2:从标记的有声段中提取出基音频率,并归一化至指定频率范围,构建归一化的声门脉冲激励,静音段的声门脉冲激励由白噪声构成。
Step3:对分帧加窗后的音频信号进行傅里叶变换后求取对数能量谱,然后进行傅里叶逆变换并取实数部分,再从中取出能量最集中的部分,构建声道响应。
Step4:将声门脉冲激励和声道响应通过全极点模型并加重信号的高频部分重构出基音频率归一化后的语音。
Step5:将语料库中的所有语音按照Step1-Step4进行重构得到归一化后的语料库,再从语料库的音频中提取声学特征作为语种之间的区分特征,送入分类模型中进行训练和识别,从而得到所需判别的语音所属的语言种类。
所述Step1具体为:
Step1.1:对素材库中的音频信号进行分帧和加窗处理,其中窗长度为256,帧移为128,对加窗后的短时语音帧信号进行快速傅里叶变换计算得到能量谱,如式(1)所示:
Ei(k)=|Xi(k)|2 (1)
Step1.2:将每帧信号划分为Nb个子带,每个子带内含有4条谱线,计算每个子带能量的概率:
Step1.3:求出每一帧语音信号的子带谱熵:
Step1.4:将式(1)得到的谱线能量Ei(k)通过Gammatone滤波器进行GFCC0提取:
再通过离散余弦变换得到GFCC特征:
其中,所求13维的GFCC特征,因此n=13,再提取第一维系数得到GFCC0特征Gi。
Step1.5:对所提取的2类特征进行中值平滑处理,然后进行幅度平移调整再取绝对值得到Hi′,Gi′,根据平均自适应计算得到权重系数后,进行特征融合:
Fi=α1Hi′+α2Gi′ (6)
其中,α1是子带熵谱特征的权重系数,α2是GFCC0特征的权重系数。
对Fi归一化得到融合特征值:
Step1.6:通过模糊C均值聚类算法将融合特征F′进行自适应聚类,设置聚类中心数为2,迭代计算出语音聚类中心dvoice和噪声聚类中心dnoice。
Step1.7:根据聚类中心设定门限值:
其中,Th为高门限值,Tl为低门限值,β1和β2为经验常数。
Step1.8:依据双门限值来判定,低于门限值用0表示,认为该帧是静音段,高于门限值用1表示,认为该帧是有声段,将每一帧检测结果组成端点检测结果向量v:
v=[v1,v2,v3,…,vi],vi∈{0,1} (9)
其中,vi为第i帧的端点检测结果。
所述Step2具体为:
Step2.1:音频中静音段和噪声会影响基音频率估计的准确度,端点检测可以将有声段和静音段区分开,再从有声段提取基音频率可降低估计错误的概率。
如果v中第i帧的VAD结果为1,则提取第i帧的有声段语音xi(n)进行点数为256的傅里叶变换后得到信号Xi(k),再取对数后得到对数幅度谱:
Li(k)=20lg(|Xi(k)|),0<k≤256 (10)
Step2.2:对Li进行傅里叶逆变换后得到当前帧语音信号的倒谱序列Ni,在倒谱中显示谐波峰值之间间隔相等的间距,该间距就是基音周期,采样频率于基音周期的商则是所求的基音频率。本发明默认寻找基音频率为50~400Hz之间的最大谐波峰值,所对应的区间范围如式(12)中的S1,S2所示:
针对采样频率fs=8000Hz的语音而言,只在倒谱序列中20~160区间寻找最大值,即:
第t个有声段中各帧的基音频率f1,…,fL构成基音频率向量fbm:
其中,l为一个有声段内的帧数.
得到第t个有声段内归一化后的基音频率:
循环提取并计算,得到一段语音归一化后的基音频率:
其中,T为有声段段数.
将归一化后的基音频率矩阵Z经过三次样条插值使帧与帧之间的基音频率过渡更加平滑,然后再经过中值滤波和线性平滑处理去除有声段内估计错误的野点,得到平滑基音频率Z1,将Z1输入压控振荡器生成声门脉冲激励信号Z2。
Step2.4:如果v中第i帧的VAD结果为0,则产生帧长为256,均值为0的高斯白噪声Z5将Z2进行一个单位的时延得到矩阵Z3,二者依次相减得到一帧声门脉冲激励矩阵Z4
所述Step3具体为:
Step3.1:将式(11)中提取出的对数幅度谱取出前128个数据得到矩阵P1:
P1=Li(k),0≤k≤128 (17)
Step3.2:为了方便将声门激励与声道激励分离,对P1进行离散余弦变换得到矩阵P2.因为二者在倒谱域中处在不同的倒谱区间,因此将倒谱中的λ=25条谱线为界,1~25区间的数据构建成声道响应的倒谱矩阵G,如下式所示:
Step3.3:对G进行反对数后得到G1如式(19)所示,再将与G1翻转变换得到G2,G1与G2将合并为G4,如式(19)所示。
G4={G2,G1} (20)
为了减少计算量,取出声道响应参数中,能量最高峰128点附近能量较为集中的部分作为声道响应参数矩阵.即取出[107,151]之间的响应点数构造新的声道响应参数矩阵。
所述Step4具体为:
重构随着语音帧数一帧一帧进行,当前帧为静音段时,声门冲激为白噪声生的Z5,利用提取出的声门脉冲激励矩阵G6,将当前帧的声门脉冲激励与声道响应参数放入全极点滤波器,重构出当前帧语音Wi
当前帧为有声段时,利用提取出的声门脉冲激励矩阵Z4.将当前帧的声门脉冲激励与声道响应放入全极点滤波器,重构出有声段当前帧语音Wi。
滤波器参数每一帧更新一次,最终将有声段与静音段中每帧的重构语音进行叠加,得到重构语音:
W=[W1,W2,…,Wi] (21)
由于声道模型经过全极点滤波器进行重构,导致重构语音在低频部分被削弱,因此需要经过幅值归一化和预加重来提高语音的低频部分。
本发明的有益效果是:可以减少播音员发音特征对语种识别的影响,进而提高广播音频语种识别的准确率。
附图说明
图1是本发明总体结构框图;
图2是本发明端点检测效果图;
图3是本发明的一帧语音信号的声道响应波形图;
图4是本发明的一帧声门冲激响应和重构语音波形图;
图5是本发明的原语音波形图和语谱图;
图6是本发明的重构原语音波形图和语谱图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1,如图1所示,一种基音归一化重构的广播语种识别方法,具体步骤为:
Step1:测试音频数据获取
从国际广播电台不同时段的节目中获取语料作为数据集,包含汉语、藏语、老挝语、柬埔寨语、缅甸语6种语言。每个语种的广播音频均为采样率8000Hz、位数为16位的单声道、持续时间10秒的音频.人工去除了音频播放时包含背景音乐噪声和电话采访噪声干扰的情况。
Step2:语音端点检测
按照本发明中的端点检测方法进行端点检测,端点检测结果参见图2,从图中可以看出一段10秒长的语音被标记为若干段,其中有声段中只有语音波形,静音段中不含有语音波形。
Step3:基音频率提取及归一化
提取端点检测结果为1的第i帧的有声段语音xi(n)进行点数为256的傅里叶变换后得到信号Xi(k),取对数后得到对数幅度谱Ll。
对Ll进行傅里叶逆变换后寻找基音频率为50~400Hz之间的最大谐波峰值,即20~160区间寻找最大值。
循环提取所有有声段中每一帧的基音频率,得到一段语音的基音频率序列F=[f1,f2,f3,…,fi]
按照式(14)对提取的基音频率进行归一化,保证在归一化后语音声调不产生太大的改变
对归一化的基音频率矩阵F进行三次样条插值使矩阵更加平滑,再经过中值滤波和线性平滑得到矩阵Z2。
将Z2输入压控振荡器并进行差分判决得到声门脉冲激励Z3,如图4所示。
Step4:声道参数提取
将提取出的对数幅度谱取出前128个数据进行离散余弦变换得到倒谱域。
将倒谱中的λ=25条谱线为界,1~25区间的数据构建成声道冲激响应的倒谱矩阵G。
对G进行反对数后得到G1。
再将与G1翻转变换得到G2,G1与G2将合并为G4
再对G4进行傅里叶逆变换并取实数部分,再取出能量较为集中的[107,151]之间的数据,得到声道模型的全极点滤波器矩阵G5。如图3所示。
Step5:语音重构
重构随着语音帧数一帧一帧进行,当前帧为静音段时,声门冲激为白噪声生的Z5。
当前帧为有声段时,利用提取出的声门脉冲激励矩阵G5,将当前帧的声门脉冲激励与声道响应参数放入全极点滤波器,重构出有声段中当前帧语音Wi。当前帧为无声段时,将当前帧白噪声构成的声门脉冲激励于声道响应放入全极点滤波器,重构出无声段中当前帧的语音Wi,一帧语音的合成效果如图4所示。
滤波器参数每一帧更新一次,最终将每帧的重构语音进行叠加,得到重构语音。
经过幅值归一化和预加重来提高语音的高频部分,原语音的波形和语谱图如图5所示,重构语音的波形和语谱图如图6所示。
从图中可以看出,经过重构的语音信号与原语音无太大差别,能够保留语音的完整语义。
Step6:语种识别
本发明采用高斯混合通用背景模型作为语种识别训练模型。从每个语种的数据集中随机选取300条语音作为GMM训练集,6个语种共计1800条训练语料。UBM训练集则是从数据集中随机选取300条语音作为训练语料,6个语种共计1800条语音。从数据集中随机选取每种语种171条语音作为测试集,6种语种共计1026条语音。
提取MFCC、GFCC、PLP特征作为语种识别区分特征,利用重构模型对测试集和训练集进行基音频率归一化,归一化范围分别归一化至100Hz~300Hz进行模型训练和识别。识别结果如表1所示。
表1:基音频率归一化至不同范围内的语种平均识别率(%)
从表1可以看出,所提取的底层声学特征,在进过语音重构后,平均语种识别正确率均得到了提高。其次,无论将基音频率归一化至哪一个频率范围,也不会对语种识别产生特别大的影响,这也说明了提取底层声学特征时,基音频率的变化不会对区分语种的特征向量产生变化。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
1.一种基音归一化重构的广播语种识别方法,其特征在于:
Step1:对语音信号进行端点检测,通过对语音信号提取子带熵谱特征和伽马通频率倒谱系数一维特征进行自适应加权融合,对融合后的特征进行聚类得到判决门限,根据判决门限值标记语音信号中的有声段和静音段;
Step2:从标记的有声段中提取出基音频率,并归一化至指定频率范围,构建归一化的声门脉冲激励,静音段的声门脉冲激励由白噪声构成;
Step3:对分帧加窗后的音频信号进行傅里叶变换后求取对数能量谱,然后进行傅里叶逆变换并取实数部分,再从中取出能量最集中的部分,构建声道响应;
Step4:将声门脉冲激励和声道响应通过全极点模型并加重信号的高频部分重构出基音频率归一化后的语音;
Step5:将语料库中的所有语音按照Step1-Step4进行重构得到归一化后的语料库,再从语料库的音频中提取声学特征作为语种之间的区分特征,送入分类模型中进行训练和识别,从而得到所需判别的语音所属的语言种类。
2.根据权利要求1所述的基音归一化重构的广播语种识别方法,其特征在于,所述Step1具体为:
Step1.1:对素材库中的音频信号进行分帧和加窗处理,其中窗长度为256,帧移为128,对加窗后的短时语音帧信号进行快速傅里叶变换计算得到能量谱,如式(1)所示:
Ei(k)=|Xi(k)|2 (1)
Step1.2:将每帧信号划分为Nb个子带,每个子带内含有4条谱线,计算每个子带能量的概率:
Step1.3:求出每一帧语音信号的子带谱熵:
Step1.4:将式(1)得到的谱线能量Ei(k)通过Gammatone滤波器进行GFCC0提取:
式中,Hm(k)为Gammatone滤波器响应,m为滤波器序号,α为指数压缩值;
再通过离散余弦变换得到GFCC特征:
提取第一维系数得到GFCC0特征Gi;
Step1.5:对所提取的2类特征进行中值平滑处理,然后进行幅度平移调整再取绝对值得到H′i,G′i,根据平均自适应计算得到权重系数后,进行特征融合:
Fi=α1H′i+α2G′i (6)
其中,α1是子带熵谱特征的权重系数,α2是GFCC0特征的权重系数;
对Fi归一化得到融合特征值:
Step1.6:通过模糊C均值聚类算法将融合特征F′进行自适应聚类,设置聚类中心数为2,迭代计算出语音聚类中心dvoice和噪声聚类中心dnoice;
Step1.7:根据聚类中心设定门限值:
其中,Th为高门限值,Tl为低门限值,β1和β2为经验常数;
Step1.8:依据双门限值来判定,低于门限值用0表示,认为该帧是静音段,高于门限值用1表示,认为该帧是有声段,将每一帧检测结果组成端点检测结果向量v:
v=[v1,v2,v3,…,vi],vi∈{0,1} (9)
其中,vi为第i帧的端点检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210376131.4A CN114913844A (zh) | 2022-04-11 | 2022-04-11 | 一种基音归一化重构的广播语种识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210376131.4A CN114913844A (zh) | 2022-04-11 | 2022-04-11 | 一种基音归一化重构的广播语种识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114913844A true CN114913844A (zh) | 2022-08-16 |
Family
ID=82765101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210376131.4A Pending CN114913844A (zh) | 2022-04-11 | 2022-04-11 | 一种基音归一化重构的广播语种识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114913844A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160796A (zh) * | 2021-04-28 | 2021-07-23 | 北京中科模识科技有限公司 | 一种广播音频的语种识别方法、装置、设备及存储介质 |
-
2022
- 2022-04-11 CN CN202210376131.4A patent/CN114913844A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160796A (zh) * | 2021-04-28 | 2021-07-23 | 北京中科模识科技有限公司 | 一种广播音频的语种识别方法、装置、设备及存储介质 |
CN113160796B (zh) * | 2021-04-28 | 2023-08-08 | 北京中科模识科技有限公司 | 一种广播音频的语种识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11056097B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
Vergin et al. | Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition | |
US9031834B2 (en) | Speech enhancement techniques on the power spectrum | |
US20150262587A1 (en) | Pitch Synchronous Speech Coding Based on Timbre Vectors | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN110648684B (zh) | 一种基于WaveNet的骨导语音增强波形生成方法 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN1815552A (zh) | 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法 | |
CN106710604A (zh) | 提高语音可懂度的共振峰增强装置和方法 | |
Katsir et al. | Speech bandwidth extension based on speech phonetic content and speaker vocal tract shape estimation | |
Lesnichaia et al. | Classification of Accented English Using CNN Model Trained on Amplitude Mel-Spectrograms. | |
CN114913844A (zh) | 一种基音归一化重构的广播语种识别方法 | |
CN113436607A (zh) | 一种快速语音克隆方法 | |
Cherif et al. | Pitch detection and formant analysis of Arabic speech processing | |
Arun Sankar et al. | Design of MELPe-based variable-bit-rate speech coding with mel scale approach using low-order linear prediction filter and representing excitation signal using glottal closure instants | |
Thirumuru et al. | Application of non-negative frequency-weighted energy operator for vowel region detection | |
CN114550741A (zh) | 一种语义识别的方法和系统 | |
Rengaswamy et al. | Robust f0 extraction from monophonic signals using adaptive sub-band filtering | |
Sen et al. | Feature extraction | |
Jung et al. | Pitch alteration technique in speech synthesis system | |
Mittal et al. | An impulse sequence representation of the excitation source characteristics of nonverbal speech sounds | |
Vogten et al. | The Formator: a speech analysis-synthesis system based on formant extraction from linear prediction coefficients | |
Feng et al. | The Research of Forensic Voiceprint Identification Based on WMFCC | |
Nirmal et al. | Voice conversion system using salient sub-bands and radial basis function | |
Kumar et al. | Speech pitch shifting using complex continuous wavelet transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |