CN105976811A - 一种包含声母的音节切分方法及装置 - Google Patents
一种包含声母的音节切分方法及装置 Download PDFInfo
- Publication number
- CN105976811A CN105976811A CN201610270526.0A CN201610270526A CN105976811A CN 105976811 A CN105976811 A CN 105976811A CN 201610270526 A CN201610270526 A CN 201610270526A CN 105976811 A CN105976811 A CN 105976811A
- Authority
- CN
- China
- Prior art keywords
- syllable
- signal
- starting point
- phrase
- continuous phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 108010001267 Protein Subunits Proteins 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 206010009269 Cleft palate Diseases 0.000 description 16
- 241001672694 Citrus reticulata Species 0.000 description 14
- 150000001875 compounds Chemical class 0.000 description 8
- 238000009499 grossing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000002889 sympathetic effect Effects 0.000 description 3
- 206010013887 Dysarthria Diseases 0.000 description 2
- 206010009259 cleft lip Diseases 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 206010068319 Oropharyngeal pain Diseases 0.000 description 1
- 201000007100 Pharyngitis Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 230000001447 compensatory effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000003254 palate Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002630 speech therapy Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种包含声母的音节切分方法及装置,涉及语音信号处理技术领域。本发明技术要点包括:步骤1:获取一段语音信号;该语音信号包括至少一个音节,且该语音信号包含的音节都是带有声母的音节;步骤2:识别所述语音信号中的各个连续词组的起点及终点;步骤3:确定各个连续词组中的各个音节间的粗切分点;步骤4:根据连续词组的起点、终点及音节粗切分点对各个连续词组中的各个音节进行精确切分。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其是一种音节自动切分技术。
背景技术
腭裂语音计算机自动评估算法的实现具有重要临床意义,将为语音师和腭裂患者提供有效的客观辅助诊断,有助于腭裂语音评估与语音治疗的广泛普及。
腭裂语音会出现特有的表现形式,包括共鸣障碍和构音障碍。其中,高鼻音是共鸣障碍的主要表现形式,主要发生于普通话韵母及浊音声母部分。构音障碍是由于患者发音方法不正确而产生,其表现形式包括辅音替代、代偿性发音等。腭裂构音障碍主要发生于普通话音节中的韵母部分。在对腭裂语音共鸣与构音障碍的研究中,需要首先实现对腭裂语音中各个音节信号的自动识别,该步骤为普通话腭裂语音信号处理的重要预处理过程。
普通话中,一个汉字的发音为一个音节。通常,一个音节由声母和韵母两部分组成,普通话中也存在零声母现象,即音节中只有韵母部分。在研究腭裂语音时,腭裂语音数据库包含的语音样本中,没有零声母和辅音省略的音节。也即是本发明的处理对象是包含声母与韵母的音节,由于音节中必然包含韵母,因此又简称为包含声母的音节。
发明内容
本发明的目的在于提供一种包含声母音节的识别、切分算法。
本发明首先提供了一种包含声母的音节切分方法,包括:
步骤1:获取一段语音信号;该语音信号包括至少一个音节,且该语音信号包含的音节都是带有声母的音节;
步骤2:识别所述语音信号中的各个连续词组的起点及终点;
步骤3:确定各个连续词组中的各个音节间的粗切分点;
步骤4:根据连续词组的起点、终点及音节粗切分点对各个连续词组中的各个音节进行精确切分。
所述步骤2进一步包括:
步骤21:提取反映该语音信号幅值变化趋势的准包络曲线;
步骤22:对准包络曲线进行平滑及归一化处理;
步骤23:对步骤22的结果进行连续词组的端点检测,从而得到各连续词组的起点及终点。
所述步骤23进一步包括:
步骤231:在步骤22的结果中取信号幅值大于阈值D1的信号段;
步骤232:在每一段信号幅值大于阈值D1的信号段中,判断是否有信号的幅值大于阈值D2;如果该段语音信号中有信号的幅值大于阈值D2,则这段语音信号的时域波形与幅值为D1的直线的两个交点,为连续词组的起点与终点。
所述步骤3进一步包括:
步骤31:对步骤23得到的连续词组计算时长,如不超过单音节时间阈值,则认为该连续词组为一个音节;否则对步骤23得到的连续词组进行后续的处理步骤;
步骤32:去掉峰值小于第一阈值的波峰,查找连续词组的剩余波峰;
步骤33:确定两个相邻波峰之间的波谷,确定并将第一个波谷作为音节的粗切分点。
所述步骤4进一步包括:
步骤41:将步骤1得到的原始语音信号中幅值小于第二阈值的信号幅值设为0;
步骤42:在连续词组的起点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧;
步骤43:计算步骤42得到的各个语音帧的短时过零率,将其中第一个短时过零率不为0的语音帧的起点作为一个音节的精确切分起点;
步骤44:在连续词组的音节粗切分点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧;
步骤45:计算步骤44得到的各个语音帧的短时过零率,将左侧语音帧中最后一个短时过零率不为0的语音帧的起点作为前一个音节的精确切分终点;将右侧语音帧中第一个短时过零率不为0的语音帧的起点作为后一个音节的精确切分起点;
步骤46:在连续词组的终点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧;
步骤47:计算步骤46得到的各个语音帧的短时过零率,将其中最后一个短时过零率不为0的语音帧的起点作为音节的精确切分终点。
本发明还提供了一种包含声母的音节切分装置,包括:
原始语音信号获取单元,用于读取一段语音信号;该语音信号包括至少一个音节,且该语音信号包含的音节都是带有声母的音节;
连续词组识别单元,用于识别所述语音信号中的各个连续词组的起点及终点;
音节粗切分单元,用于确定各个连续词组中的各个音节间的粗切分点;
音节精确切分单元,根据连续词组的起点、终点及音节粗切分点对各个连续词组中的各个音节进行精确切分。
所述连续词组识别单元进一步包括:
准包络线提取子单元,用于提取反映该语音信号幅值变化趋势的准包络曲线;
预处理子单元,用于对准包络曲线进行平滑及归一化处理;
端点检测子单元,用于对预处理子单元输出的结果进行连续词组的端点检测,从而得到各连续词组的起点及终点。
所述端点检测子单元进一步用于:
在对预处理子单元输出的结果中取信号幅值大于阈值D1的信号段;
以及在每一段信号幅值大于阈值D1的信号段中,判断是否有信号的幅值大于阈值D2;如果该段语音信号中有信号的幅值大于阈值D2,则这段语音信号的时域波形与幅值为D1的直线的两个交点,为连续词组的起点与终点。
所述音节粗切分单元进一步包括:
单音节判别子单元,用于对端点检测子单元得到的连续词组计算时长,如不超过单音节时间阈值,则认为该连续词组为一个音节;否则对端点检测子单元得到的连续词组输出到后续的子单元;
波峰检测子单元,用于去掉峰值小于第一阈值的波峰,查找连续词组的剩余波峰;
波谷检测子单元,用于确定两个相邻波峰之间的波谷,确定并将第一个波谷作为音节的粗切分点。
所述音节精确切分子单元进一步包括:
幅值置零子单元,用于将原始语音信号获取单元得到的原始语音信号中小于第二阈值的幅值设为0;
连续词组起点加窗子单元,用于在连续词组的起点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧;
连续词组首音节起点精确切分子单元,用于计算加窗子单元得到的各个语音帧的短时过零率,将其中第一个短时过零率不为0的语音帧的起点作为一个音节的精确切分起点;
粗切分点加窗子单元,用于在连续词组的音节粗切分点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧;
连续词组内音节精确切分子单元,用于计算音节粗切分点加窗子单元得到的各个语音帧的短时过零率,将左侧语音帧中最后一个短时过零率不为0的语音帧的起点作为前一个音节的精确切分终点;将右侧语音帧中第一个短时过零率不为0的语音帧的起点作为后一个音节的精确切分起点;
连续词组终点加窗子单元,用于在连续词组的终点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧;
连续词组末音节终点精确切分子单元,用于计算连续词组终点加窗子单元得到的各个语音帧的短时过零率,将其中最后一个短时过零率不为0的语音帧的起点作为音节的精确切分终点。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明提供了计算机自动识别含声母音节的方法,填补了现有技术空白,为腭裂语音的计算机自动评估奠定了基础。
2.本发明在切分音节时先进行粗切分,然后在粗切分点的基础上进一步寻找精确切分点,即提高了处理速度,又使得音节切分更加精准。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明流程图。
图2为一段原始语音信号的时域波形。
图3为经过中值滤波后的原始语音信号的准包络曲线。
图4为对平滑后的准包络曲线进行归一化后的波形。
图5为连续词组提取后的结果。
图6为音节粗切分结果。
图7为对原始语音信号进行幅值置零后的结果。
图8为一段语音信号中选取其中一个连续词组进行音节精确切分的结果。
图9为对一段语音信号进行音节精确切分的结果。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
普通话中,一个汉字的发音为一个音节。本发明处理的对象是由声母和韵母两部分组成的音节,不考虑零声母和辅音省略的音节。
普通话中共包含21个声母,其中m,n,l,r四个声母为浊音,剩下的的17个声母为清音。根据发音位置和发音方式的不同,声母又可以分为:塞音(b,p,d,t,g,k)、塞擦音(z,c,zh,ch,j,q)、擦音(f,s,sh,r,x,h)、鼻音(m,n)和边音(l)。普通中包含三十九个韵母,韵母由元音和复合元音组成。
本实施例中的腭裂语音数据由四川大学华西口腔医院唇腭裂外科“腭裂语音治疗中心”进行采集。该中心为国内最大的唇腭裂治疗中心。受试者在安静的录音室中,朗读“四川大学华西口腔医院语音矫治室普通话构音测量表”。该测量表充分考虑普通话构音结构和腭裂语音特性,包含了完整的腭裂语音单元,共包含84个词语和10个数字,覆盖了普通话中的全部声母和各语种中最为常用的元音。
如图1,该发明首先获取一段语音信号,然后对语音信号中的连续词组进行自动检测。通过该检测步骤,得到的一个普通话词组中可能包含多个普通话音节。算法的第三步实现对词组中单个音节信号的自动粗切分。算法的第四步实现对腭裂语音普通话音节的精确切分。
下面详细介绍本发明步骤:
1.获取一段语音信号;其采样频率为22050Hz,语音信号时长8~10秒。
步骤3:确定各个连续词组中的各个音节间的粗切分点;
步骤4:根据连续词组的起点、终点及音节粗切分点对各个连续词组中的各个音节进行精确切分。
每位受试者录制一段语音信号,采集到的语音信号如图2所示。
2.识别所述语音信号中的各个连续词组的起点及终点
2.1提取反映该语音信号幅值变化趋势的准包络曲线。准包络曲线可以是信号的包络线,也可以是信号正数部分的包络线,或者是信号取绝对值后的包络线。
本实施例通过计算信号的短时对数能量矩阵获得其准包络曲线。
对语音信号进行分帧处理,如语音帧长度为21.8ms,帧移为10.9ms,计算每帧语音信号的对数能量,得到该段语音信号的短时对数能量向量LE。在其他实施例中还可以使用短时线性能量特征计算信号的准包络曲线。
与短时线性能量特征相比,短时对数能量对小的线性能量值压缩小,而不致将幅度较小的辅音信号误认为静音切掉。同时,短时对数能量特征能较好地反映语音段、噪声段、无声段的区别。
以语音信号的第i帧xi(n)为例,其短时对数能量值LEi的计算表达式为:
LEi=lg(Ei+a)-lga;(1)
其中:N为第i帧信号的信号长度,a为一个固定的常数。经过试验证明,当a=5×105时,取得了较好的检测结果。
如此计算各帧的短时对数能量值,便得到一个该语音信号的短时对数能量向量LE。
2.2对准包络曲线进行平滑及归一化处理
首先对准包络曲线,即短时对数能量向量LE,进行中值滤波,得到平滑后的对数能量向量。本实施例的滤波长度为3,图3为平滑后的结果。
然后对平滑后的对数能量向量进行归一化,得到向量E,如图4所示,本实施例使平滑后的准包络曲线的幅值位于0~1之间。
2.3对连续词组进行端点检测,从而得到各连续词组的起点及终点。求取平滑和归一化后的准包络曲线E中,其幅值大于阈值D1的信号段(D1的取值为0.05)。在每一段信号幅值大于阈值D1的信号段中,判断是否有信号的幅值大于阈值D2(D2的取值为0.1)。如果该段语音信号中有信号的幅值大于阈值D2,则这段语音信号的时域波形与幅值为D1的直线的两个交点,为连续词组的起点与终点。
对词组的起始点检测结果如图5所示。图5上半部分为原始语音信号的时域波形,下半部分为准包络曲线,实线为连续词组的起点,虚线为连续词组的终点。
3.确定各个连续词组中的各个音节间的粗切分点
3.1由2.3节提出的腭裂语音连续词组自动检测结果中,其每个词组可能包含一个或多个普通话音节。有些词组包含一个汉字,如“塔”、“拿”等;有些词组包含两个或三个汉字,如“爸爸”、“爬楼梯”等。根据普通话音节的时长,对2.3节得到的连续词组计算时长,即计算连续词组起点与终点的时间间隔,如不超过单音节时间阈值,如270ms,则认为该连续词组为一个音节,则无需进行进一步处理,该词组的起点及终点即为该音节的起点与终点;否则对2.3节得到的连续词组进行后续的处理步骤。
3.2去掉峰值小于第一阈值的波峰,本实施例中第一阈值取0.12,查找连续词组的剩余波峰。
3.3确定两个相邻波峰之间的波谷,如果波谷的个数大于1,则取第一个波谷,作为该词组中音节的粗切分点。切分结果如图6所示,上半部分为原始语音信号,下半部分为准包络曲线,实线为音节粗切分点。
4根据连续词组的起点、终点及音节粗切分点对各个连续词组中的各个音节进行精确切分。
4.1将步骤1得到的原始语音信号中幅值小于第二阈值,如0.005,的信号幅值设为0。处理结果如图7。然后对连续词组的起点、终点及内部的音节粗切分点分别处理。
4.2对连续词组的起点进行精确定位
在连续词组的起点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧。本实施例中取帧的长度为130ms,帧移为帧长的一半,共取了10帧信号。以连续词组的起点为起始点分别向右、向左截取语音帧。
计算各个语音帧的短时过零率,将其中第一个短时过零率不为0的语音帧的起点作为一个音节的精确切分起点。
4.3对连续词组中的音节粗切分点进行校正
在连续词组的音节粗切分点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧。加窗过程参见4.2节。
计算各个语音帧的短时过零率,将左侧语音帧中最后一个短时过零率不为0的语音帧的起点作为前一个音节的精确切分终点;将右侧语音帧中第一个短时过零率不为0的语音帧的起点作为后一个音节的精确切分起点。
依次方法对连续词组中的音节粗切分点一一处理。
4.4对连续词组的终点进行精确定位
在连续词组的终点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧。加窗过程参见4.2节。
计算各个语音帧的短时过零率,将其中最后一个短时过零率不为0的语音帧的起点作为音节的精确切分终点。
图8为一段语音信号中,选取其中一个连续词组,进行音节精确切分的结果。上半部分为一段语音信号的时域波形图。下半部分为该语音信号中,选取其中的一个连续词组,该词组的时域波形图,其中实线为词组的起始端点以及词组间音节的粗切分点,虚线为音节的精确切分点。
图9所示为对一段语音信号精确切分的结果,上半部分为原始语音信号的时域波形,下半部分为准包络曲线,其中实线为音节的起始点,虚线为音节的结束点。对某些词组,上一个音节的结束点可能会和下一个音节的起始点重合。
本发明还提供了一种与上述方法步骤一一对应的功能模块组成的软系统。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
Claims (10)
1.一种包含声母的音节切分方法,其特征在于,包括:
步骤1:获取一段语音信号;该语音信号包括至少一个音节,且该语音信号包含的音节都是带有声母的音节;
步骤2:识别所述语音信号中的各个连续词组的起点及终点;
步骤3:确定各个连续词组中的各个音节间的粗切分点;
步骤4:根据连续词组的起点、终点及音节粗切分点对各个连续词组中的各个音节进行精确切分。
2.根据权利要求1所述的一种包含声母的音节切分方法,其特征在于,
所述步骤2进一步包括:
步骤21:提取反映该语音信号幅值变化趋势的准包络曲线;
步骤22:对准包络曲线进行平滑及归一化处理;
步骤23:对步骤22的结果进行连续词组的端点检测,从而得到各连续词组的起点及终点。
3.根据权利要求2所述的一种包含声母的音节切分方法,其特征在于,所述步骤23进一步包括:
步骤231:在步骤22的结果中取信号幅值大于阈值D1的信号段;
步骤232:在每一段信号幅值大于阈值D1的信号段中,判断是否有信号的幅值大于阈值D2;如果该段语音信号中有信号的幅值大于阈值D2,则这段语音信号的时域波形与幅值为D1的直线的两个交点,为连续词组的起点与终点。
4.根据权利要求2所述的一种包含声母的音节切分方法,其特征在于,
所述步骤3进一步包括:
步骤31:对步骤23得到的连续词组计算时长,如不超过单音节时间阈值,则认为该连续词组为一个音节;否则对步骤23得到的连续词组进行后续的处理步骤;
步骤32:去掉峰值小于第一阈值的波峰,查找连续词组的剩余波峰;
步骤33:确定两个相邻波峰之间的波谷,确定并将第一个波谷作为音节的粗切分点。
5.根据权利要求2所述的一种包含声母的音节切分方法,其特征在于,所述步骤4进一步包括:
步骤41:将步骤1得到的原始语音信号中幅值小于第二阈值的信号幅值设为0;
步骤42:在连续词组的起点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧;
步骤43:计算步骤42得到的各个语音帧的短时过零率,将其中第一个短时过零率不为0的语音帧的起点作为一个音节的精确切分起点;
步骤44:在连续词组的音节粗切分点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧;
步骤45:计算步骤44得到的各个语音帧的短时过零率,将左侧语音帧中最后一个短时过零率不为0的语音帧的起点作为前一个音节的精确切分终点;将右侧语音帧中第一个短时过零率不为0的语音帧的起点作为后一个音节的精确切分起点;
步骤46:在连续词组的终点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧;
步骤47:计算步骤46得到的各个语音帧的短时过零率,将其中最后一个短时过零率不为0的语音帧的起点作为音节的精确切分终点。
6.一种包含声母的音节切分装置,其特征在于,包括:
原始语音信号获取单元,用于读取一段语音信号;该语音信号包括至少一个音节,且该语音信号包含的音节都是带有声母的音节;
连续词组识别单元,用于识别所述语音信号中的各个连续词组的起点及终点;
音节粗切分单元,用于确定各个连续词组中的各个音节间的粗切分点;
音节精确切分单元,根据连续词组的起点、终点及粗切分点对各个连续词组中的各个音节进行精确切分。
7.根据权利要求6所述的一种包含声母的音节切分装置,其特征在于,
所述连续词组识别单元进一步包括:
准包络线提取子单元,用于提取反映该语音信号幅值变化趋势的准包络曲线;
预处理子单元,用于对准包络曲线进行平滑及归一化处理;
端点检测子单元,用于对预处理子单元输出的结果进行连续词组的端点检测,从而得到各连续词组的起点及终点。
8.根据权利要求7所述的一种包含声母的音节切分装置,其特征在于,所述端点检测子单元进一步用于:
在对预处理子单元输出的结果中取信号幅值大于阈值D1的信号段;
以及在每一段信号幅值大于阈值D1的信号段中,判断是否有信号的幅值大于阈值D2;如果该段语音信号中有信号的幅值大于阈值D2,则这段语音信号的时域波形与幅值为D1的直线的两个交点,为连续词组的起点与终点。
9.根据权利要求7所述的一种包含声母的音节切分方法,其特征在于,
所述音节粗切分单元进一步包括:
单音节判别子单元,用于对端点检测子单元得到的连续词组计算时长,如不超过单音节时间阈值,则认为该连续词组为一个音节;否则对端点检测子单元得到的连续词组输出到后续的子单元;
波峰检测子单元,用于去掉峰值小于第一阈值的波峰,查找连续词组的剩余波峰;
波谷检测子单元,用于确定两个相邻波峰之间的波谷,确定并将第一个波谷作为音节的粗切分点。
10.根据权利要求7所述的一种包含声母的音节切分装置,其特征在于,所述音节精确切分子单元进一步包括:
幅值置零子单元,用于将原始语音信号获取单元得到的原始语音信号中幅值小于第二阈值的信号幅值设为0;
连续词组起点加窗子单元,用于在连续词组的起点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧;
连续词组首音节起点精确切分子单元,用于计算加窗子单元得到的各个语音帧的短时过零率,将其中第一个短时过零率不为0的语音帧的起点作为一个音节的精确切分起点;
粗切分点加窗子单元,用于在连续词组的粗切分点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧;
连续词组内音节精确切分子单元,用于计算粗切分点加窗子单元得到的各个语音帧的短时过零率,将左侧语音帧中最后一个短时过零率不为0的语音帧的起点作为前一个音节的精确切分终点;将右侧语音帧中第一个短时过零率不为0的语音帧的起点作为后一个音节的精确切分起点;
连续词组终点加窗子单元,用于在连续词组的终点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号,得到若干语音帧;
连续词组末音节终点精确切分子单元,用于计算连续词组终点加窗子单元得到的各个语音帧的短时过零率,将其中最后一个短时过零率不为0的语音帧的起点作为音节的精确切分终点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610270526.0A CN105976811B (zh) | 2016-04-27 | 2016-04-27 | 一种包含声母的音节切分方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610270526.0A CN105976811B (zh) | 2016-04-27 | 2016-04-27 | 一种包含声母的音节切分方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105976811A true CN105976811A (zh) | 2016-09-28 |
CN105976811B CN105976811B (zh) | 2019-07-12 |
Family
ID=56993639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610270526.0A Expired - Fee Related CN105976811B (zh) | 2016-04-27 | 2016-04-27 | 一种包含声母的音节切分方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105976811B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107039035A (zh) * | 2017-01-10 | 2017-08-11 | 上海优同科技有限公司 | 一种语音起始点和终止点的检测方法 |
CN107886959A (zh) * | 2017-09-30 | 2018-04-06 | 中国农业科学院蜜蜂研究所 | 一种提取蜜蜂访花视频片段的方法和装置 |
CN110277104A (zh) * | 2019-06-21 | 2019-09-24 | 上海乂学教育科技有限公司 | 单词语音训练系统 |
CN111883169A (zh) * | 2019-12-12 | 2020-11-03 | 马上消费金融股份有限公司 | 一种音频文件切割位置处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290766A (zh) * | 2007-04-20 | 2008-10-22 | 西北民族大学 | 安多藏语语音音节切分的方法 |
US20120253812A1 (en) * | 2011-04-01 | 2012-10-04 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
CN103077728A (zh) * | 2012-12-31 | 2013-05-01 | 上海师范大学 | 一种病人虚弱语音端点检测方法 |
JP2013210501A (ja) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | 素片登録装置,音声合成装置,及びプログラム |
-
2016
- 2016-04-27 CN CN201610270526.0A patent/CN105976811B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290766A (zh) * | 2007-04-20 | 2008-10-22 | 西北民族大学 | 安多藏语语音音节切分的方法 |
US20120253812A1 (en) * | 2011-04-01 | 2012-10-04 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
JP2013210501A (ja) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | 素片登録装置,音声合成装置,及びプログラム |
CN103077728A (zh) * | 2012-12-31 | 2013-05-01 | 上海师范大学 | 一种病人虚弱语音端点检测方法 |
Non-Patent Citations (3)
Title |
---|
LING HE等: "Automatic Evaluation of Hypernasality and Speech Intelligibility for Children with Cleft Palate", 《2013 IEEE 8TH CONFERENCE ON INDUSTRIAL ELECTRONICS AND APPLICATIONS》 * |
张晓东等: "文本文件的语音识别中音节的自动切分", 《皖西学院学报》 * |
汤霖等: "基于语音知识的音节切分", 《中文信息学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107039035A (zh) * | 2017-01-10 | 2017-08-11 | 上海优同科技有限公司 | 一种语音起始点和终止点的检测方法 |
CN107886959A (zh) * | 2017-09-30 | 2018-04-06 | 中国农业科学院蜜蜂研究所 | 一种提取蜜蜂访花视频片段的方法和装置 |
CN110277104A (zh) * | 2019-06-21 | 2019-09-24 | 上海乂学教育科技有限公司 | 单词语音训练系统 |
CN111883169A (zh) * | 2019-12-12 | 2020-11-03 | 马上消费金融股份有限公司 | 一种音频文件切割位置处理方法及装置 |
CN111883169B (zh) * | 2019-12-12 | 2021-11-23 | 马上消费金融股份有限公司 | 一种音频文件切割位置处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105976811B (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108922563B (zh) | 基于偏差器官形态行为可视化的口语学习矫正方法 | |
Loukina et al. | Rhythm measures and dimensions of durational variation in speech | |
CN103617799B (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
CN105825852A (zh) | 一种英语口语朗读考试评分方法 | |
CN101751919B (zh) | 一种汉语口语重音自动检测方法 | |
US20200160839A1 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
CN103366735B (zh) | 语音数据的映射方法和装置 | |
CN105976811A (zh) | 一种包含声母的音节切分方法及装置 | |
CN102426834B (zh) | 测试英文口语韵律水平的方法 | |
CN103366759A (zh) | 语音数据的测评方法和装置 | |
CN106875943A (zh) | 一种用于大数据分析的语音识别系统 | |
Tamburini | Automatic prosodic prominence detection in speech using acoustic features: an unsupervised system. | |
Arsikere et al. | Automatic estimation of the first three subglottal resonances from adults’ speech signals with application to speaker height estimation | |
Gordon | Induction of rate-dependent processing by coarse-grained aspects of speech | |
WO2013052292A1 (en) | Waveform analysis of speech | |
Bird et al. | Dynamics of voice quality over the course of the English utterance | |
CN202758611U (zh) | 语音数据的测评装置 | |
Kovac et al. | Exploring language-independent digital speech biomarkers of hypokinetic dysarthria | |
Truong et al. | Automatic detection of frequent pronunciation errors made by L2-learners. | |
Buder et al. | FORMOFFA: An automated formant, moment, fundamental frequency, amplitude analysis of normal and disordered speech | |
Tahiry et al. | Arabic stop consonants characterisation and classification using the normalized energy in frequency bands | |
Abdo et al. | MFC peak based segmentation for continuous Arabic audio signal | |
Cole et al. | The C-MU phonetic classification system | |
Al-Dulaimi et al. | A tool for training speech imitation accuracy | |
Lachachi | Unsupervised phoneme segmentation based on main energy change for arabic speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190712 Termination date: 20200427 |