CN112712823A - 拖音的检测方法、装置、设备及存储介质 - Google Patents
拖音的检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112712823A CN112712823A CN202011538711.6A CN202011538711A CN112712823A CN 112712823 A CN112712823 A CN 112712823A CN 202011538711 A CN202011538711 A CN 202011538711A CN 112712823 A CN112712823 A CN 112712823A
- Authority
- CN
- China
- Prior art keywords
- voice
- segment
- generate
- syllable
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 125
- 238000012545 processing Methods 0.000 claims abstract description 39
- 230000000694 effects Effects 0.000 claims abstract description 36
- 230000001629 suppression Effects 0.000 claims abstract description 34
- 238000005070 sampling Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 31
- 230000001755 vocal effect Effects 0.000 claims description 19
- 239000012634 fragment Substances 0.000 claims description 18
- 206010019133 Hangover Diseases 0.000 claims description 13
- 230000035945 sensitivity Effects 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 239000000284 extract Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 208000003028 Stuttering Diseases 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及人工智能技术领域,公开了拖音的检测方法、装置、设备及存储介质,用于节省拖音检测的时间,从而提高拖音检测的效率。拖音的检测方法包括:实时获取多段语音数据,并对多段语音数据进行实时采样处理,生成离散语音信号;依次采用活性检测算法和静音抑制算法对离散语音信号进行处理,生成至少一个有声语音片段;结合预置的过零率算法对至少一个有声语音片段进行人声检测,确定至少一个目标人声段;对至少一个目标人声段进行音节检测,生成多个待检测音节;按照预置的发音时长阈值对多个待检测音节进行拖音检测,在多个待检测音节中确定目标拖音音节。此外,本发明还涉及区块链技术,多段语音数据可存储于区块链中。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种拖音的检测方法、装置、设备及存储介质。
背景技术
现实生活中,我们会发现很多人说话有口吃之类的问题,因此很多矫正口吃问题教育语言机构和在线发音矫正平台应运而生。
在现有技术中,大多数教育语言机构或者在线发音矫正平台,对口吃中的拖音通常没有智能算法进行检测和提取,即使有部分教育语言机构或者在线发音矫正平台采用深度学习来训练智能模型进行拖音检测,但是通常需要大量的标注数据进行模型训练,从而导致检测效率低下。
发明内容
本发明提供了一种拖音的检测方法、装置、设备及存储介质,用于节省拖音检测的时间,从而提高拖音检测的效率。
本发明第一方面提供了一种拖音的检测方法,包括:实时获取多段语音数据,并对所述多段语音数据进行实时采样处理,生成离散语音信号;依次采用活性检测算法和静音抑制算法对所述离散语音信号进行处理,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段;结合预置的过零率算法对所述至少一个有声语音片段进行人声检测,确定至少一个目标人声段;对所述至少一个目标人声段进行音节检测,生成多个待检测音节;按照预置的发音时长阈值对所述多个待检测音节进行拖音检测,在所述多个待检测音节中确定目标拖音音节,所述目标拖音音节为一个或者多个。
可选的,在本发明第一方面的第一种实现方式中,所述实时获取多段语音数据,并对所述多段语音数据进行实时采样处理,生成离散语音信号包括:按照预置的采样率实时获取多段语音数据,所述多段语音数据为模拟声波数据;将所述多段语音数据进行实时拼接,生成实时拼接后的语音数据,并将所述实时拼接后的语音数据进行二进制处理,生成离散语音信号,所述离散语音信号为二进制数据。
可选的,在本发明第一方面的第二种实现方式中,所述依次采用活性检测算法和静音抑制算法对所述离散语音信号进行处理,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段包括:采用带通滤波器,按照预置的音频频谱将所述离散语音信号的音频分割为多个音频子带;依次通过活性检测算法和静音抑制算法分别对所述多个音频子带进行计算,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段。
可选的,在本发明第一方面的第三种实现方式中,所述依次通过活性检测算法和静音抑制算法分别对所述多个音频子带进行计算,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段包括:分别对所述多个音频子带进行特征计算,生成多个子带特征;分别对所述多个子带特征进行子带能量计算,生成多个子带特征量;分别对所述多个子带特征量进行概率密度计算,生成噪声分布概率和语音分布概率;采用活性检测算法基于所述噪声分布概率和所述语音分布概率计算每个子带特征量对应的似然比,生成多个加权对数似然比,所述多个加权对数似然比与所述多个音频子带一一对应;将加权对数似然比小于或者等于似然阈值的音频子带确定为静音信号,采用静音抑制算法对所述静音信号进行抑制,并将加权对数似然比大于似然阈值的音频子带确定为有声语音片段,得到至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段。
可选的,在本发明第一方面的第四种实现方式中,所述结合预置的过零率算法对所述至少一个有声语音片段进行人声检测,确定至少一个目标人声段包括:从所述至少一个有声语音片段中提取多个语音音量,并计算所述多个语音音量的平均值,生成语音平均音量,一个有声语音子片段对应一个语音音量;分别将所述多个语音音量进行归一化,生成归一化音量值组,并将所述归一化音量值组中小于归一化阈值的归一化音量值调整为零,生成调整后的归一化音量值组;对所述归一化音量值组按照预置的数量点进行平均值计算,得到多个音量平均值;采用预置的过零率算法对所述多个音量平均值进行过零检查,生成多个非零音量值,并对所述多个非零音量值进行求和计算以及均值计算,生成非零音量总值和非零音量均值;基于所述多个语音平均音量、所述非零音量总值和所述非零音量均值生成灵敏度阈值;将语音音量大于或者等于所述灵敏度阈值的有声语音子片段确定为目标人声段。
可选的,在本发明第一方面的第五种实现方式中,所述对所述至少一个目标人声段进行音节检测,生成多个待检测音节包括:从所述至少一个目标人声段中提取多个离散数据绝对值组;在每个离散数据绝对值组中确定最小的离散数据绝对值,得到多个离散数据绝对值;读取相邻两个离散数据绝对值间的离散数据,得到多个离散数据,并分别将所述多个离散数据确定为多个待检测音节。
可选的,在本发明第一方面的第六种实现方式中,所述按照预置的发音时长阈值对所述多个待检测音节进行拖音检测,在所述多个待检测音节中确定目标拖音音节,所述目标拖音音节为一个或者多个包括:分别提取所述多个待检测音节的发音时长,得到多个音节发音时长;将音节发音时长大于预置的发音时长阈值的待检测音节确定为目标拖音音节,所述目标拖音音节为一个或者多个。
本发明第二方面提供了一种拖音的检测装置,包括:获取模块,用于实时获取多段语音数据,并对所述多段语音数据进行实时采样处理,生成离散语音信号;有声片段生成模块,用于依次采用活性检测算法和静音抑制算法对所述离散语音信号进行处理,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段;人声检测模块,用于结合预置的过零率算法对所述至少一个有声语音片段进行人声检测,确定至少一个目标人声段;音节检测模块,用于对所述至少一个目标人声段进行音节检测,生成多个待检测音节;拖音检测模块,用于按照预置的发音时长阈值对所述多个待检测音节进行拖音检测,在所述多个待检测音节中确定目标拖音音节,所述目标拖音音节为一个或者多个。
可选的,在本发明第二方面的第一种实现方式中,所述获取模块具体用于:按照预置的采样率实时获取多段语音数据,所述多段语音数据为模拟声波数据;将所述多段语音数据进行实时拼接,生成实时拼接后的语音数据,并将所述实时拼接后的语音数据进行二进制处理,生成离散语音信号,所述离散语音信号为二进制数据。
可选的,在本发明第二方面的第二种实现方式中,所述有声片段生成模块包括:分割单元,用于采用带通滤波器,按照预置的音频频谱将所述离散语音信号的音频分割为多个音频子带;有声片段生成单元,用于依次通过活性检测算法和静音抑制算法分别对所述多个音频子带进行计算,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段。
可选的,在本发明第二方面的第三种实现方式中,所述有声片段生成单元还可以具体用于:分别对所述多个音频子带进行特征计算,生成多个子带特征;分别对所述多个子带特征进行子带能量计算,生成多个子带特征量;分别对所述多个子带特征量进行概率密度计算,生成噪声分布概率和语音分布概率;采用活性检测算法基于所述噪声分布概率和所述语音分布概率计算每个子带特征量对应的似然比,生成多个加权对数似然比,所述多个加权对数似然比与所述多个音频子带一一对应;将加权对数似然比小于或者等于似然阈值的音频子带确定为静音信号,采用静音抑制算法对所述静音信号进行抑制,并将加权对数似然比大于似然阈值的音频子带确定为有声语音片段,得到至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段。
可选的,在本发明第二方面的第四种实现方式中,所述人声检测模块还可以具体用于:从所述至少一个有声语音片段中提取多个语音音量,并计算所述多个语音音量的平均值,生成语音平均音量,一个有声语音子片段对应一个语音音量;分别将所述多个语音音量进行归一化,生成归一化音量值组,并将所述归一化音量值组中小于归一化阈值的归一化音量值调整为零,生成调整后的归一化音量值组;对所述归一化音量值组按照预置的数量点进行平均值计算,得到多个音量平均值;采用预置的过零率算法对所述多个音量平均值进行过零检查,生成多个非零音量值,并对所述多个非零音量值进行求和计算以及均值计算,生成非零音量总值和非零音量均值;基于所述多个语音平均音量、所述非零音量总值和所述非零音量均值生成灵敏度阈值;将语音音量大于或者等于所述灵敏度阈值的有声语音子片段确定为目标人声段。
可选的,在本发明第二方面的第五种实现方式中,所述音节检测模块还可以具体用于:从所述至少一个目标人声段中提取多个离散数据绝对值组;在每个离散数据绝对值组中确定最小的离散数据绝对值,得到多个离散数据绝对值;读取相邻两个离散数据绝对值间的离散数据,得到多个离散数据,并分别将所述多个离散数据确定为多个待检测音节。
可选的,在本发明第二方面的第六种实现方式中,所述拖音检测模块还可以具体用于:分别提取所述多个待检测音节的发音时长,得到多个音节发音时长;将音节发音时长大于预置的发音时长阈值的待检测音节确定为目标拖音音节,所述目标拖音音节为一个或者多个。
本发明第三方面提供了一种拖音的检测设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述拖音的检测设备执行上述的拖音的检测方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的拖音的检测方法。
本发明提供的技术方案中,实时获取多段语音数据,并对所述多段语音数据进行实时采样处理,生成离散语音信号;采用活性检测算法和静音抑制算法对所述离散语音信号进行处理,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段;结合预置的过零率算法对所述至少一个有声语音片段进行人声检测,确定至少一个目标人声段;对所述至少一个目标人声段进行音节检测,生成多个待检测音节;按照预置的发音时长阈值对所述多个待检测音节进行拖音检测,在所述多个待检测音节中确定目标拖音音节,所述目标拖音音节为一个或者多个。本发明实施例中,通过使用活性检测算法、静音抑制算法和过零率算法对离散语音信号进行一系列处理,从而生成待检测音节,然后基于待检测音节确定目标拖音音节,从而不需要大量的标注拖音数据进行模型训练,节省了拖音检测的时间,提高了拖音检测的效率。
附图说明
图1为本发明实施例中拖音的检测方法的一个实施例示意图;
图2为本发明实施例中拖音的检测方法的另一个实施例示意图;
图3为本发明实施例中拖音的检测装置的一个实施例示意图;
图4为本发明实施例中拖音的检测装置的另一个实施例示意图;
图5为本发明实施例中拖音的检测设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种拖音的检测方法、装置、设备及存储介质,用于节省拖音检测的时间,从而提高拖音检测的效率。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中拖音的检测方法的一个实施例包括:
101、实时获取多段语音数据,并对多段语音数据进行实时采样处理,生成离散语音信号;
服务器实时获取多段语音数据,并将多个语音数据实时采样处理为离散语音信号。需要强调的是,为进一步保证上述多段语音数据的私密和安全性,上述多段语音数据还可以存储于一区块链的节点中。
在本实施例中,采用在线处理的方式对多段语音数据进行处理,从而得到一连串的二进制数据,即离散语音信号,例如,语音数据为“你在干什么(中间停顿无声3秒)(杂音1)你怎么不回答(杂音2)我(中间无人回答3秒)”,经过在线处理,生成离散语音信号为[1 00 …… 1]。在线处理的方式能够对语音数据进行实时处理,无需等采集完全部语音再进行处理。语音数据是由采样得到的,每一段语音数据都记录了原始模拟声波在获取时刻的状态。
可以理解的是,本发明的执行主体可以为拖音的检测装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
102、依次采用活性检测算法和静音抑制算法对离散语音信号进行处理,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段;
服务器采用活性检测算法和静音抑制算法将离散语音信号处理为至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段。
需要说明的是,在本实施例中,活性检测算法为WebRTC VAD算法,静音抑制算法即将静音信号进行抑制的算法。假设离散语音信号为[1 0 0 …… 1],服务器采用活性检测算法对[1 0 0 …… 1]进行活性检测,生成活性检测结果,并采用静音抑制算法对活性检测结果进行静音抑制,从而生成两个有声语音片段,即“你在干什么(杂音1)”和“你怎么不回答(杂音2)我”。
103、结合预置的过零率算法对至少一个有声语音片段进行人声检测,确定至少一个目标人声段;
服务器结合预置的过零率算法对至少一个有声语音片段进行人声检测,从而确定至少一个目标人声段。
过零率算法可以理解为结合多个有声语音子片段生成一个门限值,然后将大于该门限值的有声语音子片段确定为目标人声段。假设有声语音片段为“你在干什么(杂音1)”和“你怎么不回答(杂音2)我”,服务器则基于每个有声片段中的有声语音子片段和过零率算法确定门限值,其中杂音、噪音的音量值低于所述门限值,因此服务器将大于该门限值的有声语音子片段确定为“你在干什么”和“你怎么不回答我”的两个有声语音子片段。
104、对至少一个目标人声段进行音节检测,生成多个待检测音节;
服务器对至少一个目标人声段进行音节检测,从而生成多个待检测音节。
现代标准汉语的音系常用音节作为分析单位,往往一个汉字对应一个音节。因此服务器对目标人声段进行音节检测,从而得到多个待检测音节。例如目标人声段为“你在干什么”,其中,服务器对“你在干什么”的目标人声段进行音节检测,从而得到“你”、“在”、“干”、“什”以及“么”的多个待检测音节。
105、按照预置的发音时长阈值对多个待检测音节进行拖音检测,在多个待检测音节中确定目标拖音音节,目标拖音音节为一个或者多个。
服务器按照预置的发音时长阈值分别对多个待检测音节进行拖音检测,然后在多个待检测音节中确定为一个或者多个的目标拖音音节。
例如,假设多个待检测音节分别为“你”、“在”、“干”、“什”以及“么”,服务器按照预置的发音时长阈值对“你”、“在”、“干”、“什”以及“么”分别进行拖音检测,从而确定目标拖音音节为“你”。
本发明实施例中,通过使用活性检测算法、静音抑制算法和过零率算法对离散语音信号进行一系列处理,从而生成待检测音节,然后基于待检测音节确定目标拖音音节,从而不需要大量的标注拖音数据进行模型训练,节省了拖音检测的时间,提高了拖音检测的效率。
请参阅图2,本发明实施例中拖音的检测方法的另一个实施例包括:
201、实时获取多段语音数据,并对多段语音数据进行实时采样处理,生成离散语音信号;
服务器实时获取多段语音数据,并将多个语音数据实时采样处理为离散语音信号。需要强调的是,为进一步保证上述多段语音数据的私密和安全性,上述多段语音数据还可以存储于一区块链的节点中。
在本实施例中,采用在线处理的方式对多段语音数据进行处理,从而得到一连串的二进制数据,即离散语音信号,例如,语音数据为“你在干什么(中间停顿无声3秒)(杂音1)你怎么不回答(杂音2)我(中间无人回答3秒)”,经过在线处理,生成离散语音信号为[1 00……1]。在线处理的方式能够对语音数据进行实时处理,无需等采集完全部语音再进行处理。语音数据是由采样得到的,每一段语音数据都记录了原始模拟声波在获取时刻的状态。
具体的,服务器按照预置的采样率实时获取为模拟声波数据的多段语音数据;服务器将多段语音数据进行实时拼接,生成实时拼接后的语音数据,并将实时拼接后的语音数据进行二进制处理,生成为二进制数据的离散语音信号。
服务器按照预置的采样率实时获取为模拟声波数据的多段语音数据,在本实施例中,采样率可以为8khz、16khz、32khz、48khz,当在16khz、32khz、48khz的采样率下进行数据采样后,还需要将语音数据的音频频率降为8khz再进行语音信号转换的处理;在得到多段语音数据之后,分别对多段语音数据进行在线的二进制处理,生成为二进制的离散语音信号。
202、采用带通滤波器,按照预置的音频频谱将离散语音信号的音频分割为多个音频子带;
服务器按照音频频谱采用带通滤波器将离散信号的音频分割为多个音频子带。在本实施例中,服务器主要将离散信号的音频划分为6个音频子带,其中6个音频子带分别为80Hz~250Hz、250Hz~500Hz、500Hz~1KHz、1KHz~2KHz、2KHz~3KHz以及3KHz~4KHz。
203、依次通过活性检测算法和静音抑制算法分别对多个音频子带进行计算,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段;
服务器依次通过活性检测算法对音频子带进行计算,生成计算后的结果,然后采用静音抑制算法对计算后的结果进行静音抑制,从而生成有声语音片段,例如,离散语音信号为“你在干什么(中间停顿无声3秒)(杂音1)你怎么不回答(杂音2)我(中间无人回答3秒)”的离散语音信号。经过高斯模型、活性检测算法以及静音处理算法处理后,生成两个有声语音片段,分别为“你在干什么(杂音1)”和“你怎么不回答(杂音2)我”。
具体的,服务器分别对多个音频子带进行特征计算,生成多个子带特征,然后分别计算多个子带特征的子带能量,生成多个子带特征量,其中计算子带特征的子带能量的函数为WebRtcVad_CalcVad8khz函数;服务器再采用预置的高斯模型计算每个子带特征量的概率密度,即噪声分布概率和语音分布概率;然后基于噪声分布概率和语音分布概率计算相关似然参数,计算分布概率的函数为WebRtcVad_GaussianProbability函数,相关似然参数为高斯模型的相关似然参数,然后基于相关似然参数和活性检测算法对噪音分布概率和语音分布概率进行计算,生成多个加权对数似然比,一个加权对数似然比对应一个音频子带;最后将加权对数似然比小于或者等于似然阈值的音频子带确定为静音信号,并采用静音抑制算法抑制静音信号,将加权对数似然比大于似然阈值的音频子带确定为有声语音片段。
204、结合预置的过零率算法对至少一个有声语音片段进行人声检测,确定至少一个目标人声段;
服务器结合预置的过零率算法对至少一个有声语音片段进行人声检测,从而确定至少一个目标人声段。
过零率算法可以理解为结合多个有声语音子片段生成一个门限值,然后将大于该门限值的有声语音子片段确定为目标人声段。假设有声语音片段为“你在干什么(杂音1)”和“你怎么不回答(杂音2)我”,服务器则基于每个有声片段中的有声语音子片段和过零率算法确定门限值,然后将大于该门限值的有声语音子片段确定为“你在干什么”和“你怎么不回答我”两个有声语音子片段。
具体的,服务器从至少一个有声语音片段中提取多个语音音量,并计算多个语音音量的平均值,生成语音平均音量,一个有声语音子片段对应一个语音音量;服务器分别将多个语音音量进行归一化,生成归一化音量值组,并将归一化音量值组中小于归一化阈值的归一化音量值调整为零,生成调整后的归一化音量值组;然后服务器对归一化音量值组按照预置的数量点进行平均值计算,得到多个音量平均值;服务器采用预置的过零率算法对多个音量平均值进行过零检查,生成多个非零音量值,并对多个非零音量值进行求和计算以及均值计算,生成非零音量总值和非零音量均值;服务器基于多个语音平均音量、非零音量总值和非零音量均值生成灵敏度阈值;服务器将语音音量大于或者等于灵敏度阈值的有声语音子片段确定为目标人声段。
服务器首先从语音片段中提取多个语音音量,再对多个语音音量进行平均值的计算,生成语音平均音量;然后对多个语音音量进行归一化,将多个语音音量归一化至0-1之间,生成归一化音量值组,归一化音量值组中包括多个归一化音量值,服务器将小于0.25(归一化阈值)的归一化音量值调整为0,生成调整后的归一化音量值组;服务器采用过零率算法对调整后的归一化音量值组以256个离散语音信号点,即预置的数量点为一值段进行平均值计算,生成多个音量平均值,然后采用预置的过零率算法分别为每个点与对应的音量平均值进行减法计算,生成音量差值,再过滤掉为0的音量差值,得到多个非零音量值,并对多个非零音量值进行求和计算和平均值计算,生成非零音量总之和非零音量均值;服务器基于多个语音平均音量、非零音量总值和非零音量均值设置灵敏度阈值,最后将语音音量大于或者等于灵敏度阈值的有声语音子片段确定为目标人声段。其中,语音平均音量一般为70,非零音量总值为50,非零音量均值为0.35。
205、对至少一个目标人声段进行音节检测,生成多个待检测音节;
服务器对至少一个目标人声段进行音节检测,从而生成多个待检测音节。
现代标准汉语的音系常用音节作为分析单位,往往一个汉字对应一个音节。因此服务器对目标人声段进行音节检测,从而得到多个待检测音节。例如目标人声段为“你在干什么”,其中,服务器对“你在干什么”的目标人声段进行音节检测,从而得到“你”、“在”、“干”、“什”以及“么”的多个待检测音节。
具体的,服务器从至少一个目标人声段中提取多个离散数据绝对值组;服务器在每个离散数据绝对值组中确定最小的离散数据绝对值,得到多个离散数据绝对值;服务器读取相邻两个离散数据绝对值间的离散数据,得到多个离散数据,并分别将多个离散数据确定为多个待检测音节。
服务器从每个目标人声字段中提取多个离散数据绝对值组,当以8k的采样率采集语音数据时,服务器以每600个离散语音信号点提取离散数据绝对值,生成多个离散数据绝对值组;当以16k的采样率采集语音数据时,服务器以每1200个离散语音信号点提取离散数据绝对值,生成多个离散数据绝对值组;然后服务器在每个离散数据绝对值组中确定最小的离散数据绝对值,得到多个离散数据绝对值,然后读取相邻两个离散数据绝对值间的离散数据,得到多个离散数据。最后将多个离散数据分别确定为多个待检测音节。需要说明的是,当离散数据绝对值小于0.35时,服务器忽略不计该离散数据绝对值。
206、按照预置的发音时长阈值对多个待检测音节进行拖音检测,在多个待检测音节中确定目标拖音音节,目标拖音音节为一个或者多个。
服务器按照预置的发音时长阈值分别对多个待检测音节进行拖音检测,然后在多个待检测音节中确定为一个或者多个的目标拖音音节。
例如,假设多个待检测音节分别为“你”、“在”、“干”、“什”以及“么”,服务器按照预置的发音时长阈值对“你”、“在”、“干”、“什”以及“么”分别进行拖音检测,从而确定目标拖音音节为“你”。
具体的,服务器读取每个待检测音节的发音时长,得到多个音节发音时长,然后将每个音节发音时长与发音时长阈值进行对比,发音时长阈值为0.4秒,例如,“你”、“在”、“干”、“什”以及“么”的发音时长分别为0.5、0.4、0.3、0.3和0.3,服务器将音节发音时长大于0.4秒的待检测音节,即“你”,确定为目标拖音音节,在其他实施例中,目标拖音音节可以为一个、两个或者多个。需要说明的是,0.4秒为普通话的发音时长阈值,如果是四川方言,发音时长阈值则为0.3秒。
本发明实施例中,通过使用活性检测算法、静音抑制算法和过零率算法对离散语音信号进行一系列处理,从而生成待检测音节,然后基于待检测音节确定目标拖音音节,从而不需要大量的标注拖音数据进行模型训练,节省了拖音检测的时间,提高了拖音检测的效率。
上面对本发明实施例中拖音的检测方法进行了描述,下面对本发明实施例中拖音的检测装置进行描述,请参阅图3,本发明实施例中拖音的检测装置一个实施例包括:
获取模块301,用于实时获取多段语音数据,并对所述多段语音数据进行实时采样处理,生成离散语音信号;
有声片段生成模块302,用于依次采用活性检测算法和静音抑制算法对所述离散语音信号进行处理,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段;
人声检测模块303,用于结合预置的过零率算法对所述至少一个有声语音片段进行人声检测,确定至少一个目标人声段;
音节检测模块304,用于对所述至少一个目标人声段进行音节检测,生成多个待检测音节;
拖音检测模块305,用于按照预置的发音时长阈值对所述多个待检测音节进行拖音检测,在所述多个待检测音节中确定目标拖音音节,所述目标拖音音节为一个或者多个。
本发明实施例中,通过使用活性检测算法、静音抑制算法和过零率算法对离散语音信号进行一系列处理,从而生成待检测音节,然后基于待检测音节确定目标拖音音节,从而不需要大量的标注拖音数据进行模型训练,节省了拖音检测的时间,提高了拖音检测的效率。
请参阅图4,本发明实施例中拖音的检测装置的另一个实施例包括:
获取模块301,用于实时获取多段语音数据,并对所述多段语音数据进行实时采样处理,生成离散语音信号;
有声片段生成模块302,用于依次采用活性检测算法和静音抑制算法对所述离散语音信号进行处理,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段;
人声检测模块303,用于结合预置的过零率算法对所述至少一个有声语音片段进行人声检测,确定至少一个目标人声段;
音节检测模块304,用于对所述至少一个目标人声段进行音节检测,生成多个待检测音节;
拖音检测模块305,用于按照预置的发音时长阈值对所述多个待检测音节进行拖音检测,在所述多个待检测音节中确定目标拖音音节,所述目标拖音音节为一个或者多个。
可选的,获取模块301还可以具体用于:
按照预置的采样率实时获取多段语音数据,所述多段语音数据为模拟声波数据;
将所述多段语音数据进行实时拼接,生成实时拼接后的语音数据,并将所述实时拼接后的语音数据进行二进制处理,生成离散语音信号,所述离散语音信号为二进制数据。
可选的,有声片段生成模块302包括:
分割单元3021,用于采用带通滤波器,按照预置的音频频谱将所述离散语音信号的音频分割为多个音频子带;
有声片段生成单元3022,用于依次通过活性检测算法和静音抑制算法分别对所述多个音频子带进行计算,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段。
可选的,有声片段生成单元3022还可以具体用于:
分别对所述多个音频子带进行特征计算,生成多个子带特征;
分别对所述多个子带特征进行子带能量计算,生成多个子带特征量;
分别对所述多个子带特征量进行概率密度计算,生成噪声分布概率和语音分布概率;
采用活性检测算法基于所述噪声分布概率和所述语音分布概率计算每个子带特征量对应的似然比,生成多个加权对数似然比,所述多个加权对数似然比与所述多个音频子带一一对应;
将加权对数似然比小于或者等于似然阈值的音频子带确定为静音信号,采用静音抑制算法对所述静音信号进行抑制,并将加权对数似然比大于似然阈值的音频子带确定为有声语音片段,得到至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段。
可选的,人声检测模块303还可以具体用于:
从所述至少一个有声语音片段中提取多个语音音量,并计算所述多个语音音量的平均值,生成语音平均音量,一个有声语音子片段对应一个语音音量;
分别将所述多个语音音量进行归一化,生成归一化音量值组,并将所述归一化音量值组中小于归一化阈值的归一化音量值调整为零,生成调整后的归一化音量值组;
对所述归一化音量值组按照预置的数量点进行平均值计算,得到多个音量平均值;
采用预置的过零率算法对所述多个音量平均值进行过零检查,生成多个非零音量值,并对所述多个非零音量值进行求和计算以及均值计算,生成非零音量总值和非零音量均值;
基于所述多个语音平均音量、所述非零音量总值和所述非零音量均值生成灵敏度阈值;
将语音音量大于或者等于所述灵敏度阈值的有声语音子片段确定为目标人声段。
可选的,音节检测模块304还可以具体用于:
从所述至少一个目标人声段中提取多个离散数据绝对值组;
在每个离散数据绝对值组中确定最小的离散数据绝对值,得到多个离散数据绝对值;
读取相邻两个离散数据绝对值间的离散数据,得到多个离散数据,并分别将所述多个离散数据确定为多个待检测音节。
可选的,拖音检测模块305还可以具体用于:
分别提取所述多个待检测音节的发音时长,得到多个音节发音时长;
将音节发音时长大于预置的发音时长阈值的待检测音节确定为目标拖音音节,所述目标拖音音节为一个或者多个。
本发明实施例中,通过使用活性检测算法、静音抑制算法和过零率算法对离散语音信号进行一系列处理,从而生成待检测音节,然后基于待检测音节确定目标拖音音节,从而不需要大量的标注拖音数据进行模型训练,节省了拖音检测的时间,提高了拖音检测的效率。
上面图3和图4从模块化功能实体的角度对本发明实施例中的拖音的检测装置进行详细描述,下面从硬件处理的角度对本发明实施例中拖音的检测设备进行详细描述。
图5是本发明实施例提供的一种拖音的检测设备的结构示意图,该拖音的检测设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对拖音的检测设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在拖音的检测设备500上执行存储介质530中的一系列指令操作。
拖音的检测设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的拖音的检测设备结构并不构成对拖音的检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种拖音的检测设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述拖音的检测方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述拖音的检测方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种拖音的检测方法,其特征在于,所述拖音的检测方法包括:
实时获取多段语音数据,并对所述多段语音数据进行实时采样处理,生成离散语音信号;
依次采用活性检测算法和静音抑制算法对所述离散语音信号进行处理,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段;
结合预置的过零率算法对所述至少一个有声语音片段进行人声检测,确定至少一个目标人声段;
对所述至少一个目标人声段进行音节检测,生成多个待检测音节;
按照预置的发音时长阈值对所述多个待检测音节进行拖音检测,在所述多个待检测音节中确定目标拖音音节,所述目标拖音音节为一个或者多个。
2.根据权利要求1所述的拖音的检测方法,其特征在于,所述实时获取多段语音数据,并对所述多段语音数据进行实时采样处理,生成离散语音信号包括:
按照预置的采样率实时获取多段语音数据,所述多段语音数据为模拟声波数据;
将所述多段语音数据进行实时拼接,生成实时拼接后的语音数据,并将所述实时拼接后的语音数据进行二进制处理,生成离散语音信号,所述离散语音信号为二进制数据。
3.根据权利要求1所述的拖音的检测方法,其特征在于,所述依次采用活性检测算法和静音抑制算法对所述离散语音信号进行处理,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段包括:
采用带通滤波器,按照预置的音频频谱将所述离散语音信号的音频分割为多个音频子带;
依次通过活性检测算法和静音抑制算法分别对所述多个音频子带进行计算,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段。
4.根据权利要求3所述的拖音的检测方法,其特征在于,所述依次通过活性检测算法和静音抑制算法分别对所述多个音频子带进行计算,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段包括:
分别对所述多个音频子带进行特征计算,生成多个子带特征;
分别对所述多个子带特征进行子带能量计算,生成多个子带特征量;
分别对所述多个子带特征量进行概率密度计算,生成噪声分布概率和语音分布概率;
采用活性检测算法基于所述噪声分布概率和所述语音分布概率计算每个子带特征量对应的似然比,生成多个加权对数似然比,所述多个加权对数似然比与所述多个音频子带一一对应;
将加权对数似然比小于或者等于似然阈值的音频子带确定为静音信号,采用静音抑制算法对所述静音信号进行抑制,并将加权对数似然比大于似然阈值的音频子带确定为有声语音片段,得到至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段。
5.根据权利要求1所述的拖音的检测方法,其特征在于,所述结合预置的过零率算法对所述至少一个有声语音片段进行人声检测,确定至少一个目标人声段包括:
从所述至少一个有声语音片段中提取多个语音音量,并计算所述多个语音音量的平均值,生成语音平均音量,一个有声语音子片段对应一个语音音量;
分别将所述多个语音音量进行归一化,生成归一化音量值组,并将所述归一化音量值组中小于归一化阈值的归一化音量值调整为零,生成调整后的归一化音量值组;
对所述归一化音量值组按照预置的数量点进行平均值计算,得到多个音量平均值;
采用预置的过零率算法对所述多个音量平均值进行过零检查,生成多个非零音量值,并对所述多个非零音量值进行求和计算以及均值计算,生成非零音量总值和非零音量均值;
基于所述多个语音平均音量、所述非零音量总值和所述非零音量均值生成灵敏度阈值;
将语音音量大于或者等于所述灵敏度阈值的有声语音子片段确定为目标人声段。
6.根据权利要求1所述的拖音的检测方法,其特征在于,所述对所述至少一个目标人声段进行音节检测,生成多个待检测音节包括:
从所述至少一个目标人声段中提取多个离散数据绝对值组;
在每个离散数据绝对值组中确定最小的离散数据绝对值,得到多个离散数据绝对值;
读取相邻两个离散数据绝对值间的离散数据,得到多个离散数据,并分别将所述多个离散数据确定为多个待检测音节。
7.根据权利要求1所述的拖音的检测方法,其特征在于,所述按照预置的发音时长阈值对所述多个待检测音节进行拖音检测,在所述多个待检测音节中确定目标拖音音节,所述目标拖音音节为一个或者多个包括:
分别提取所述多个待检测音节的发音时长,得到多个音节发音时长;
将音节发音时长大于预置的发音时长阈值的待检测音节确定为目标拖音音节,所述目标拖音音节为一个或者多个。
8.一种拖音的检测装置,其特征在于,所述拖音的检测装置包括:
获取模块,用于实时获取多段语音数据,并对所述多段语音数据进行实时采样处理,生成离散语音信号;
有声片段生成模块,用于依次采用活性检测算法和静音抑制算法对所述离散语音信号进行处理,生成至少一个有声语音片段,一个有声语音片段包括多个有声语音子片段;
人声检测模块,用于结合预置的过零率算法对所述至少一个有声语音片段进行人声检测,确定至少一个目标人声段;
音节检测模块,用于对所述至少一个目标人声段进行音节检测,生成多个待检测音节;
拖音检测模块,用于按照预置的发音时长阈值对所述多个待检测音节进行拖音检测,在所述多个待检测音节中确定目标拖音音节,所述目标拖音音节为一个或者多个。
9.一种拖音的检测设备,其特征在于,所述拖音的检测设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述拖音的检测设备执行如权利要求1-7中任意一项所述的拖音的检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述拖音的检测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011538711.6A CN112712823A (zh) | 2020-12-23 | 2020-12-23 | 拖音的检测方法、装置、设备及存储介质 |
PCT/CN2021/124632 WO2022134781A1 (zh) | 2020-12-23 | 2021-10-19 | 拖音的检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011538711.6A CN112712823A (zh) | 2020-12-23 | 2020-12-23 | 拖音的检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112712823A true CN112712823A (zh) | 2021-04-27 |
Family
ID=75543676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011538711.6A Pending CN112712823A (zh) | 2020-12-23 | 2020-12-23 | 拖音的检测方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112712823A (zh) |
WO (1) | WO2022134781A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744730A (zh) * | 2021-09-13 | 2021-12-03 | 北京奕斯伟计算技术有限公司 | 声音检测方法及装置 |
WO2022134781A1 (zh) * | 2020-12-23 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 拖音的检测方法、装置、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI585756B (zh) * | 2015-07-30 | 2017-06-01 | 國立屏東大學 | 口吃偵測方法與裝置、電腦程式產品 |
CN108831508A (zh) * | 2018-06-13 | 2018-11-16 | 百度在线网络技术(北京)有限公司 | 语音活动检测方法、装置和设备 |
CN111554324A (zh) * | 2020-04-01 | 2020-08-18 | 深圳壹账通智能科技有限公司 | 智能化语言流利度识别方法、装置、电子设备及存储介质 |
CN111862951B (zh) * | 2020-07-23 | 2024-01-26 | 海尔优家智能科技(北京)有限公司 | 语音端点检测方法及装置、存储介质、电子设备 |
CN112712823A (zh) * | 2020-12-23 | 2021-04-27 | 深圳壹账通智能科技有限公司 | 拖音的检测方法、装置、设备及存储介质 |
-
2020
- 2020-12-23 CN CN202011538711.6A patent/CN112712823A/zh active Pending
-
2021
- 2021-10-19 WO PCT/CN2021/124632 patent/WO2022134781A1/zh active Application Filing
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022134781A1 (zh) * | 2020-12-23 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 拖音的检测方法、装置、设备及存储介质 |
CN113744730A (zh) * | 2021-09-13 | 2021-12-03 | 北京奕斯伟计算技术有限公司 | 声音检测方法及装置 |
CN113744730B (zh) * | 2021-09-13 | 2023-09-08 | 北京奕斯伟计算技术股份有限公司 | 声音检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022134781A1 (zh) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | rVAD: An unsupervised segment-based robust voice activity detection method | |
Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN111816218A (zh) | 语音端点检测方法、装置、设备及存储介质 | |
Hu et al. | Segregation of unvoiced speech from nonspeech interference | |
CN106548786B (zh) | 一种音频数据的检测方法及系统 | |
Muhammad et al. | Voice content matching system for quran readers | |
WO2022134781A1 (zh) | 拖音的检测方法、装置、设备及存储介质 | |
Yusnita et al. | Malaysian English accents identification using LPC and formant analysis | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
Sreekumar et al. | Spectral matching based voice activity detector for improved speaker recognition | |
Wiśniewski et al. | Automatic detection of disorders in a continuous speech with the hidden Markov models approach | |
Murugaiya et al. | Probability enhanced entropy (PEE) novel feature for improved bird sound classification | |
Dave et al. | Speech recognition: A review | |
Zouhir et al. | A bio-inspired feature extraction for robust speech recognition | |
Yousfi et al. | Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation | |
KR102042344B1 (ko) | 음성 유사도 판단 장치 및 음성 유사도 판단 방법 | |
Tchorz et al. | Estimation of the signal-to-noise ratio with amplitude modulation spectrograms | |
Cristea et al. | New cepstrum frequency scale for neural network speaker verification | |
KR20190125078A (ko) | 음성 유사도 판단 장치 및 음성 유사도 판단 방법 | |
Montalvão et al. | Is masking a relevant aspect lacking in MFCC? A speaker verification perspective | |
Islam et al. | Bangla dataset and MMFCC in text-dependent speaker identification. | |
Alam et al. | Neural response based phoneme classification under noisy condition | |
Tomchuk | Spectral masking in MFCC calculation for noisy speech | |
Zouhir et al. | Speech Signals Parameterization Based on Auditory Filter Modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40050552 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |