CN113113052B - 一种离散点的语音基音识别装置及计算机存储介质 - Google Patents
一种离散点的语音基音识别装置及计算机存储介质 Download PDFInfo
- Publication number
- CN113113052B CN113113052B CN202110375951.7A CN202110375951A CN113113052B CN 113113052 B CN113113052 B CN 113113052B CN 202110375951 A CN202110375951 A CN 202110375951A CN 113113052 B CN113113052 B CN 113113052B
- Authority
- CN
- China
- Prior art keywords
- pitch
- denoising
- module
- voice
- calculation module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims description 69
- 238000000034 method Methods 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 238000001228 spectrum Methods 0.000 claims description 10
- 238000003491 array Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 13
- 101000802640 Homo sapiens Lactosylceramide 4-alpha-galactosyltransferase Proteins 0.000 description 5
- 102100035838 Lactosylceramide 4-alpha-galactosyltransferase Human genes 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种离散点的语音基音识别装置,包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块,所述语音接收模块接收外部的语音并转换成离散点信号,所述去噪模块对所述离散点信号进行去噪处理,所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围,所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值,所述基音提取模块根据所述频率值从语音中提取出基音。本发明先通过所述基音粗算模块对基音的频率范围进行缩小限定,再通过所述基音精算模块计算出准确的基音频率值,大大地减小了计算的复杂程度,提高识别效率。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种离散点的语音基音识别装置。
背景技术
基音是指发浊音时声带振动的周期,基音周期的估计称为基音检测,其目的是提取出与声带振动频率一致或尽可能相吻合的基音周期变化的轨迹曲线,是语音信号处理中最重要的特征参数之一,在旋律辨识、声调辨识、语音合成和语音编码等研究领域起着非常关键的作用。基音检测算法用于检测基音信号的方法。由于语音信号可视为一个动态非平稳随机过程,语音波形和声带振动的频率变化范围大且十分复杂。
现在已经开发出了很多基音识别系统,经过我们大量的检索与参考,发现现有的识别系统有如公开号为KR100538987B1,KR1019970050104A和KR100538985B1所公开的系统,包括以下步骤:语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取基音周期、LPCC、ΔLPCC、能量、能量的一阶差分、GFCC特征参数共同组合成多维特征向量、采用离散二进制粒子群优化算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM-UBM模型对测试语音进行识别。但该系统计算量大,过程较复杂,效率较低,不能快速地识别出基音。
发明内容
本发明的目的在于,针对所存在的不足,提出了一种离散点的语音基音识别装置,
为了克服现有技术的不足,本发明采用如下技术方案:
一种离散点的语音基音识别装置,包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块,所述语音接收模块接收外部的语音并转换成离散点信号,所述去噪模块对所述离散点信号进行去噪处理,所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围,所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值,所述基音提取模块根据所述频率值从语音中提取出基音;
进一步的,所述语音接收模块内设有语音接收电路和模数转换单元,所述语音接收电路将语音振动转换成连续的电信号,所述模数转换单元将连续的电信号转换成离散的数字信号S(m);
进一步的,所述去噪模块利用如下去噪公式进行去噪处理:
其中,k0为去噪点;
进一步的,所述去噪点k0通过去噪指数公式P(k)来确定:
对于任意自然数k,P(k0)满足P(k0)<P(k);
进一步的,所述基音粗算模块从数字信号中以所述去噪点为长度提取出若干分析帧,所述分析帧与分析窗函数计算得到若干分析窗数列:
第i分析窗数列:
其中,分析窗函数为:
进一步的,将所述分析窗数列重新组合后获取峰值和谷值,相邻峰值与谷值之间的距离的最大值Lmax和最小值Lmin对应的时间为基音周期范围[Δtmin,Δtmax];
进一步的,所述基音精算模块对处于区间[Lmin,Lmax]内的每个整数值j计算得到基音指数Qj,Qj中最小值对应的周期T为基音周期,对应的频率f为基音频率,
进一步的,所述基音精算模块对数字信号进行傅里叶变换得到频谱系数X(k),根据所述频谱系数X(k)计算得到能量函数E(k),所述基音指数Qj为:
其中,j为傅里叶变换时的点数;
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种离散点的语音基音识别装置程序,所述离散点的语音基音识别装置程序被处理器执行时,实现一种离散点的语音基音识别装置的步骤。
本发明所取得的有益效果是:
本发明通过去噪模块先去除原始信号中的噪音,未后续的基音识别排除了干扰,保证了语音的纯度,提高了基音识别的准确性,利用基音粗算模块快速地缩小基音频率所处的范围,是提高效率的关键,基音精算模块在所求的的范围内进行高精度计算,最终准确地确认基音频率,整个过程大大地减少了计算量。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在不同的视图中,相同的附图标记指定对应的部分。
图1为整体结构框架示意图。
图2为基音频率计算流程示意图。
图3为二分法寻找去噪点示意图。
图4为分析窗数列示意图。
图5为本发明计算量效果对比示意图。
具体实施方式
为了使得本发明的目的.技术方案及优点更加清楚明白,以下结合其实施例,对本发明进行进一步详细说明;应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。对于本领域技术人员而言,在查阅以下详细描述之后,本实施例的其它系统.方法和/或特征将变得显而易见。旨在所有此类附加的系统.方法.特征和优点都包括在本说明书内.包括在本发明的范围内,并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征,并且这些特征根据以下将详细描述将是显而易见的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或组件必须具有特定的方位,以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例一。
一种离散点的语音基音识别装置,包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块,所述语音接收模块接收外部的语音并转换成离散点信号,所述去噪模块对所述离散点信号进行去噪处理,所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围,所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值,所述基音提取模块根据所述频率值从语音中提取出基音;
所述语音接收模块内设有语音接收电路和模数转换单元,所述语音接收电路将语音振动转换成连续的电信号,所述模数转换单元将连续的电信号转换成离散的数字信号S(m);
所述去噪模块利用如下去噪公式进行去噪处理:
其中,k0为去噪点;
所述去噪点k0通过去噪指数公式P(k)来确定:
对于任意自然数k,P(k0)满足P(k0)<P(k);
所述基音粗算模块从数字信号中以所述去噪点为长度提取出若干分析帧,所述分析帧与分析窗函数计算得到若干分析窗数列:
第i分析窗数列:
其中,分析窗函数为:
将所述分析窗数列重新组合后获取峰值和谷值,相邻峰值与谷值之间的距离的最大值Lmax和最小值Lmin对应的时间为基音周期范围[Δtmin,Δtmax];
所述基音精算模块对处于区间[Lmin,Lmax]内的每个整数值j计算得到基音指数Qj,Qj中最小值对应的周期T为基音周期,对应的频率f为基音频率,
所述基音精算模块对数字信号进行傅里叶变换得到频谱系数X(k),根据所述频谱系数X(k)计算得到能量函数E(k),所述基音指数Qj为:
其中,j为傅里叶变换时的点数;
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种离散点的语音基音识别装置程序,所述离散点的语音基音识别装置程序被处理器执行时,实现一种离散点的语音基音识别装置的步骤。
实施例二。
一种离散点的语音基音识别装置,包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块,所述语音接收模块接收外部的语音并转换成离散点信号,所述去噪模块对所述离散点信号进行去噪处理,所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围,所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值,所述基音提取模块根据所述频率值从语音中提取出基音;
所述语音接收模块内设有语音接收电路和模数转换单元,所述语音接收电路将语音振动转换成连续的电信号,所述模数转换单元将连续的电信号转换成离散的数字信号S(m);
所述去噪模块利用如下去噪公式进行去噪处理:
其中,k0为去噪点;
所述去噪点k0通过去噪指数公式P(k)来确定:
对于任意自然数k,P(k0)满足P(k0)<P(k);
所述基音粗算模块从数字信号中以所述去噪点为长度提取出若干分析帧,所述分析帧与分析窗函数计算得到若干分析窗数列:
第i分析窗数列:
其中,分析窗函数为:
将所述分析窗数列重新组合后获取峰值和谷值,相邻峰值与谷值之间的距离的最大值Lmax和最小值Lmin对应的时间为基音周期范围[Δtmin,Δtmax];
所述基音精算模块对处于区间[Lmin,Lmax]内的每个整数值j计算得到基音指数Qj,Qj中最小值对应的周期T为基音周期,对应的频率f为基音频率,
所述基音精算模块对数字信号进行傅里叶变换得到频谱系数X(k),根据所述频谱系数X(k)计算得到能量函数E(k),所述基音指数Qj为:
其中,j为傅里叶变换时的点数;
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种离散点的语音基音识别装置程序,所述离散点的语音基音识别装置程序被处理器执行时,实现一种离散点的语音基音识别装置的步骤;
基于此设计了一种离散点的语音基音识别装置,包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块,所述语音接收模块接收外部的语音并转换成离散点信号,所述去噪模块对所述离散点信号进行去噪处理,所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围,所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值,所述基音提取模块根据所述频率值从语音中提取出基音;
所述语音接收模块内设有语音接收电路和模数转换单元,所述语音接收电路将语音振动转换成连续的电信号,所述模数转换单元将连续的电信号转换成离散的数字信号S(m),所述模数转换单元的采样频率为48KHz;
所述去噪模块利用去噪函数对所述数字信号进行去噪处理,所述去噪函数表达式R(k)为:
选取区间[k1,k′1],计算中间轴值并将所述数字信号S(m)与所述去噪函数R(k)按照如下的去噪指数公式对三个点k1、k′1和k′1′进行计算:
得到三个值P(k1)、P(k′1)和P(k′1′);
取对k2和k′2利用去噪指数公式计算得到P(k2)和P(k′2),若P(k2)<=P(k′2),则对区间[k1,k′1′]按照上述过程进行同样的处理,若P(k2)>=P(k′2),则对区间[k′1′,k′1]按照上述过程进行同样的处理;
重复操作n次直至区间[kn+1,k′n+1]的区间长度小于2,选择P(kn+1)和P(k′n+1)中的较小值,其对应的k值向上取偶并得到去噪点k0:
所述k0以及去噪数列参与到去噪计算中,所述去噪公式为:
实施例三。
一种离散点的语音基音识别装置,包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块,所述语音接收模块接收外部的语音并转换成离散点信号,所述去噪模块对所述离散点信号进行去噪处理,所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围,所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值,所述基音提取模块根据所述频率值从语音中提取出基音;
所述语音接收模块内设有语音接收电路和模数转换单元,所述语音接收电路将语音振动转换成连续的电信号,所述模数转换单元将连续的电信号转换成离散的数字信号S(m);
所述去噪模块利用如下去噪公式进行去噪处理:
其中,k0为去噪点;
所述去噪点k0通过去噪指数公式P(k)来确定:
对于任意自然数k,P(k0)满足P(k0)<P(k);
所述基音粗算模块从数字信号中以所述去噪点为长度提取出若干分析帧,所述分析帧与分析窗函数计算得到若干分析窗数列:
第i分析窗数列:
其中,分析窗函数为:
将所述分析窗数列重新组合后获取峰值和谷值,相邻峰值与谷值之间的距离的最大值Lmax和最小值Lmin对应的时间为基音周期范围[Δtmin,Δtmax];
所述基音精算模块对处于区间[Lmin,Lmax]内的每个整数值j计算得到基音指数Qj,Qj中最小值对应的周期T为基音周期,对应的频率f为基音频率,
所述基音精算模块对数字信号进行傅里叶变换得到频谱系数X(k),根据所述频谱系数X(k)计算得到能量函数E(k),所述基音指数Qj为:
其中,j为傅里叶变换时的点数;
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种离散点的语音基音识别装置程序,所述离散点的语音基音识别装置程序被处理器执行时,实现一种离散点的语音基音识别装置的步骤;
基于此设计了一种离散点的语音基音识别装置,包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块,所述语音接收模块接收外部的语音并转换成离散点信号,所述去噪模块对所述离散点信号进行去噪处理,所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围,所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值,所述基音提取模块根据所述频率值从语音中提取出基音;
所述语音接收模块内设有语音接收电路和模数转换单元,所述语音接收电路将语音振动转换成连续的电信号,所述模数转换单元将连续的电信号转换成离散的数字信号S(m),所述模数转换单元的采样频率为48KHz;
所述去噪模块利用去噪函数对所述数字信号进行去噪处理,所述去噪函数表达式R(k)为:
选取区间[k1,k′1],计算中间轴值并将所述数字信号S(m)与所述去噪函数R(k)按照如下的去噪指数公式对三个点k1、k′1和k′1′进行计算:
得到三个值P(k1)、P(k′1)和P(k′1′);
取对k2和k′2利用去噪指数公式计算得到P(k2)和P(k′2),若P(k2)<=P(k′2),则对区间[k1,k′1′]按照上述过程进行同样的处理,若P(k2)>=P(k′2),则对区间[k′1′,k′1]按照上述过程进行同样的处理;
重复操作n次直至区间[kn+1,k′n+1]的区间长度小于2,选择P(kn+1)和P(k′n+1)中的较小值,其对应的k值向上取偶并得到去噪点k0:
所述k0以及去噪数列参与到去噪计算中,所述去噪公式为:
所述基音粗算模块对所述去噪后的数字信号S(m)添加分析窗进行分析,所述分析窗函数为:
n的取值范围为1~k0,k0作为分析窗的窗长度;
将所述数字信号提取出多个分析帧,每个分析帧的长度为k0,相邻两个分析帧有长度的离散点处于重叠状态,所述分析帧与所述分析窗函数相乘,得到多个分析窗数列:
第一分析窗数列:S1(n)=S(n)·W(n),n=1,2,…,k0;
第二分析窗数列:
……
第i分析窗数列:
将所述第一分析窗数列至第i分析窗数列整合为一组信号F(n):
将所述信号F(n)中提取出峰值点和谷值点,并分别计算出相邻的峰值点与谷值点之间的距离L,所述距离L为两个点之间包含的其余离散点个数加1,选择其中最大距离Lmax和最小距离Lmin,根据采样频率转换为周期Δtmax和Δtmin,其倒数为所述基音粗算模块的基音的频率范围[fmin,fmax]:
实施例四。
一种离散点的语音基音识别装置,包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块,所述语音接收模块接收外部的语音并转换成离散点信号,所述去噪模块对所述离散点信号进行去噪处理,所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围,所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值,所述基音提取模块根据所述频率值从语音中提取出基音;
所述语音接收模块内设有语音接收电路和模数转换单元,所述语音接收电路将语音振动转换成连续的电信号,所述模数转换单元将连续的电信号转换成离散的数字信号S(m);
所述去噪模块利用如下去噪公式进行去噪处理:
其中,k0为去噪点;
所述去噪点k0通过去噪指数公式P(k)来确定:
对于任意自然数k,P(k0)满足P(k0)<P(k);
所述基音粗算模块从数字信号中以所述去噪点为长度提取出若干分析帧,所述分析帧与分析窗函数计算得到若干分析窗数列:
第i分析窗数列:
其中,分析窗函数为:
将所述分析窗数列重新组合后获取峰值和谷值,相邻峰值与谷值之间的距离的最大值Lmax和最小值Lmin对应的时间为基音周期范围[Δtmin,Δtmax];
所述基音精算模块对处于区间[Lmin,Lmax]内的每个整数值j计算得到基音指数Qj,Qj中最小值对应的周期T为基音周期,对应的频率f为基音频率,
所述基音精算模块对数字信号进行傅里叶变换得到频谱系数X(k),根据所述频谱系数X(k)计算得到能量函数E(k),所述基音指数Qj为:
其中,j为傅里叶变换时的点数;
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种离散点的语音基音识别装置程序,所述离散点的语音基音识别装置程序被处理器执行时,实现一种离散点的语音基音识别装置的步骤;
基于此设计了一种离散点的语音基音识别装置,包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块,所述语音接收模块接收外部的语音并转换成离散点信号,所述去噪模块对所述离散点信号进行去噪处理,所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围,所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值,所述基音提取模块根据所述频率值从语音中提取出基音;
所述语音接收模块内设有语音接收电路和模数转换单元,所述语音接收电路将语音振动转换成连续的电信号,所述模数转换单元将连续的电信号转换成离散的数字信号S(m),所述模数转换单元的采样频率为48KHz;
所述去噪模块利用去噪函数对所述数字信号进行去噪处理,所述去噪函数表达式R(k)为:
选取区间[k1,k′1],计算中间轴值并将所述数字信号S(m)与所述去噪函数R(k)按照如下的去噪指数公式对三个点k1、k′1和k′1′进行计算:
得到三个值P(k1)、P(k′1)和P(k′1′);
取对k2和k′2利用去噪指数公式计算得到P(k2)和P(k′2),若P(k2)<=P(k′2),则对区间[k1,k′1′]按照上述过程进行同样的处理,若P(k2)>=P(k′2),则对区间[k′1′,k′1]按照上述过程进行同样的处理;
重复操作n次直至区间[kn+1,k′n+1]的区间长度小于2,选择P(kn+1)和P(k′n+1)中的较小值,其对应的k值向上取偶并得到去噪点k0:
所述k0以及去噪数列参与到去噪计算中,所述去噪公式为:
所述基音粗算模块对所述去噪后的数字信号S(m)添加分析窗进行分析,所述分析窗函数为:
n的取值范围为1~k0,k0作为分析窗的窗长度;
将所述数字信号提取出多个分析帧,每个分析帧的长度为k0,相邻两个分析帧有长度的离散点处于重叠状态,所述分析帧与所述分析窗函数相乘,得到多个分析窗数列:
第一分析窗数列:S1(n)=S(n)·W(n),n=1,2,…,k0;
第二分析窗数列:
……
第i分析窗数列:
将所述第一分析窗数列至第i分析窗数列整合为一组信号F(n):
将所述信号F(n)中提取出峰值点和谷值点,并分别计算出相邻的峰值点与谷值点之间的距离L,所述距离L为两个点之间包含的其余离散点个数加1,选择其中最大距离Lmax和最小距离Lmin,根据采样频率转换为周期Δtmax和Δtmin,其倒数为所述基音粗算模块的基音的频率范围[fmin,fmax]:
所述基音精算模块从所述去噪模块中获取完成去噪后的数字信号S(m),将所述数字信号进行Lmax点的傅里叶变化,得到频谱系数Xmax(k):
所述频谱系数为复数,包括实部XR(k)与虚部XI(k);
根据所述实部XR(k)与虚部XI(k)计算出能量函数Emax(k):
对所述能量函数作平滑处理:
其中V(n)满足/>
具体的,V(n)的表达式为:
将所述数字信号进行Lmin点的傅里叶变化,得到频谱系数Xmin(K):
再计算出能量函数Emin(k):
同样对能量函数作平滑处理:
对于处于Lmax和Lmin之间的每一个整数点j,都对数字信号进行j点的傅里叶变化,按照与上述相同的方法,得到平滑处理后的能量函数
对所有的能量函数进行基量转换得到基音指数Qj:
其中,Lmin<=j<=Lmax;
从所述Qj中选择出最小值,其j值对应的周期T为基音周期,对应的频率f为基音频率,
确定基音周期以及基音频率后,所述基音提取模块根据所述基音周期从原始语音信号中提取出基音信号。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。也就是说上面讨论的方法,系统和设备是示例。各种配置可以适当地省略,替换或添加各种过程或组件。例如,在替代配置中,可以以与所描述的顺序不同的顺序执行方法,和/或可以添加,省略和/或组合各种部件。而且,关于某些配置描述的特征可以以各种其他配置组合,如可以以类似的方式组合配置的不同方面和元素。此外,随着技术发展其中的元素可以更新,即许多元素是示例,并不限制本公开或权利要求的范围。
在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而,可以在没有这些具体细节的情况下实践配置例如,已经示出了众所周知的电路,过程,算法,结构和技术而没有不必要的细节,以避免模糊配置。该描述仅提供示例配置,并且不限制权利要求的范围,适用性或配置。相反,前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下,可以对元件的功能和布置进行各种改变。
综上,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (2)
1.一种离散点的语音基音识别装置,包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块,所述语音接收模块接收外部的语音并转换成离散点信号,所述去噪模块对所述离散点信号进行去噪处理,所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围,所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值,所述基音提取模块根据所述频率值从语音中提取出基音;
所述语音接收模块内设有语音接收电路和模数转换单元,所述语音接收电路将语音振动转换成连续的电信号,所述模数转换单元将连续的电信号转换成离散的数字信号;
所述去噪模块利用如下去噪公式进行去噪处理:
,其中,/>为去噪点;所述去噪点/>通过去噪指数公式/>来确定:
;
对于任意自然数k,满足/>;
所述基音粗算模块从数字信号中以所述去噪点为长度提取出若干分析帧,所述分析帧与分析窗函数计算得到若干分析窗数列:
第i分析窗数列:;
其中,分析窗函数为:
;
将所述分析窗数列重新组合后获取峰值和谷值,相邻峰值与谷值之间的距离的最大值和最小值/>对应的时间为基音周期范围/>;
所述基音精算模块对处于区间内的每个整数值j计算得到基音指数/>,/>中最小值对应的周期/>为基音周期,对应的频率f为基音频率,/>;
所述基音精算模块对数字信号进行傅里叶变换得到频谱系数,根据所述频谱系数计算得到能量函数/>,所述基音指数/>为:
,其中,j为傅里叶变换时的点数。
2.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种离散点的语音基音识别装置程序,所述离散点的语音基音识别装置程序被处理器执行时,实现如权利要求1所述的一种离散点的语音基音识别装置的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110375951.7A CN113113052B (zh) | 2021-04-08 | 2021-04-08 | 一种离散点的语音基音识别装置及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110375951.7A CN113113052B (zh) | 2021-04-08 | 2021-04-08 | 一种离散点的语音基音识别装置及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113113052A CN113113052A (zh) | 2021-07-13 |
CN113113052B true CN113113052B (zh) | 2024-04-05 |
Family
ID=76714624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110375951.7A Active CN113113052B (zh) | 2021-04-08 | 2021-04-08 | 一种离散点的语音基音识别装置及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113113052B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1991976A (zh) * | 2005-12-31 | 2007-07-04 | 潘建强 | 基于音素的语音识别方法与系统 |
CN102779526A (zh) * | 2012-08-07 | 2012-11-14 | 无锡成电科大科技发展有限公司 | 语音信号中基音提取及修正方法 |
CN102842305A (zh) * | 2011-06-22 | 2012-12-26 | 华为技术有限公司 | 一种基音检测的方法和装置 |
CN105067101A (zh) * | 2015-08-05 | 2015-11-18 | 北方工业大学 | 振源识别的基于振动信号的基音频率特征的提取方法 |
CN110176242A (zh) * | 2019-07-10 | 2019-08-27 | 广州荔支网络技术有限公司 | 一种音色的识别方法、装置、计算机设备和存储介质 |
CN110379438A (zh) * | 2019-07-24 | 2019-10-25 | 山东省计算中心(国家超级计算济南中心) | 一种语音信号基频检测与提取方法及系统 |
CN110400565A (zh) * | 2019-08-20 | 2019-11-01 | 广州国音智能科技有限公司 | 说话人识别方法、系统及计算机可读存储介质 |
CN111613223A (zh) * | 2020-04-03 | 2020-09-01 | 厦门快商通科技股份有限公司 | 语音识别方法、系统、移动终端及存储介质 |
-
2021
- 2021-04-08 CN CN202110375951.7A patent/CN113113052B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1991976A (zh) * | 2005-12-31 | 2007-07-04 | 潘建强 | 基于音素的语音识别方法与系统 |
CN102842305A (zh) * | 2011-06-22 | 2012-12-26 | 华为技术有限公司 | 一种基音检测的方法和装置 |
CN102779526A (zh) * | 2012-08-07 | 2012-11-14 | 无锡成电科大科技发展有限公司 | 语音信号中基音提取及修正方法 |
CN105067101A (zh) * | 2015-08-05 | 2015-11-18 | 北方工业大学 | 振源识别的基于振动信号的基音频率特征的提取方法 |
CN110176242A (zh) * | 2019-07-10 | 2019-08-27 | 广州荔支网络技术有限公司 | 一种音色的识别方法、装置、计算机设备和存储介质 |
CN110379438A (zh) * | 2019-07-24 | 2019-10-25 | 山东省计算中心(国家超级计算济南中心) | 一种语音信号基频检测与提取方法及系统 |
CN110400565A (zh) * | 2019-08-20 | 2019-11-01 | 广州国音智能科技有限公司 | 说话人识别方法、系统及计算机可读存储介质 |
CN111613223A (zh) * | 2020-04-03 | 2020-09-01 | 厦门快商通科技股份有限公司 | 语音识别方法、系统、移动终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113113052A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106935248B (zh) | 一种语音相似度检测方法及装置 | |
CN103503060B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
US8831942B1 (en) | System and method for pitch based gender identification with suspicious speaker detection | |
CN103117059B (zh) | 一种基于张量分解的语音信号特征提取方法 | |
CN104887263B (zh) | 一种基于心音多维特征提取的身份识别算法及其系统 | |
Bharti et al. | Real time speaker recognition system using MFCC and vector quantization technique | |
CN108682432B (zh) | 语音情感识别装置 | |
CN110890087A (zh) | 一种基于余弦相似度的语音识别方法和装置 | |
Hassan et al. | Pattern classification in recognizing Qalqalah Kubra pronuncation using multilayer perceptrons | |
CN115510909A (zh) | 一种dbscan进行异常声音特征的无监督算法 | |
CN111489763A (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Li et al. | A comparative study on physical and perceptual features for deepfake audio detection | |
CN111508504A (zh) | 基于听觉中枢感知机理的说话人识别方法 | |
CN113252323B (zh) | 一种基于人耳听觉特性的断路器机械故障识别方法及系统 | |
Li et al. | EMD-TEO based speech emotion recognition | |
CN113113052B (zh) | 一种离散点的语音基音识别装置及计算机存储介质 | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
KR101671305B1 (ko) | 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치 | |
CN112052880A (zh) | 一种基于更新权值支持向量机的水声目标识别方法 | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
Jamaludin et al. | An improved time domain pitch detection algorithm for pathological voice | |
Cai et al. | The best input feature when using convolutional neural network for cough recognition | |
KR20050051435A (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
CN113948088A (zh) | 基于波形模拟的语音识别方法及装置 | |
Al-Sarayreh et al. | Using the sound recognition techniques to reduce the electricity consumption in highways |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |