CN107045870A - 一种基于特征值编码的语音信号端点检测方法 - Google Patents

一种基于特征值编码的语音信号端点检测方法 Download PDF

Info

Publication number
CN107045870A
CN107045870A CN201710370540.2A CN201710370540A CN107045870A CN 107045870 A CN107045870 A CN 107045870A CN 201710370540 A CN201710370540 A CN 201710370540A CN 107045870 A CN107045870 A CN 107045870A
Authority
CN
China
Prior art keywords
short
frame
mrow
consonant
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710370540.2A
Other languages
English (en)
Other versions
CN107045870B (zh
Inventor
张二华
王满洪
王明合
唐振民
许昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201710370540.2A priority Critical patent/CN107045870B/zh
Publication of CN107045870A publication Critical patent/CN107045870A/zh
Application granted granted Critical
Publication of CN107045870B publication Critical patent/CN107045870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Abstract

本发明公开了一种基于特征值编码的语音信号端点检测方法。该方法首先分帧提取短时能量和短时过零率特征参数,统计短时能量的平均值、短时过零率的平均值和短时过零率的最大值,由统计结果和经验参数对短时能量设置4个阈值,对短时过零率设置1个阈值,根据这些阈值对语音特征进行编码,然后基于每帧的特征值编码,按照五级判定规则,对语音信号进行端点检测。本发明对有声段的短时能量设置了最低阈值的限制,对于模棱两可的疑似语音,结合相邻帧的特征按规则进行取舍,五级判别规则可有效应对各种复杂情况,避免误检和漏检,能显著提高语音信号端点检测的正确率。

Description

一种基于特征值编码的语音信号端点检测方法
技术领域
本发明属于语音信号处理领域,具体涉及一种基于特征值编码的语音信号端点检测方法。
背景技术
语音信号可以分为有声段和无声段,有声段又可辅音段、元音段以及辅音和元音之间的过渡段。在语音识别和说话人识别系统中,无声段的混入会显著降低系统的识别性能,必须将每一个有声段的起止位置检测出来,这就是语音信号的端点检测技术。
语音信号具有短时平稳的特征,通过分帧处理提取语音信号的短时特征,时间域的短时特征主要有短时能量、短时过零率等,可以根据这些短时特征进行端点检测。短时能量反映了语音信号的振幅或强度,一般元音段的短时能量较强,辅音段的短时能量较弱,无声段的短时能量更弱。短时过零率表示一帧语音信号的波形穿过横轴(零值)的次数,即语音数据的正负号改变的次数,过零率在一定程度上能反映频率信息,一般辅音段的短时过零率较高,元音段的短时过零率较低,无声段的短时过零率也较低。
迄今研究者提出了多种语音信号端点检测方法,如基于短时能量的方法、基于短时能量和短时过零率相结合的双门限法、基于谱熵的方法、基于梅尔倒谱相似度的方法、基于子带信噪比的方法等。上述端点检测方法主要适用于语音压缩与编码、语音增强、语音识别等,其特点是将全部有声段(包括辅音段和元音段)从语音信号中检测出来,目的是保持语音信号的完整度、自然度和可懂度。
端点检测方法中,最常用的是基于短时能量和短时过零率相结合的双门限法,该方法根据短时能量可以较准确地区分元音段和无声段(静音段),但对于辅音段,由于其能量较弱,仅依据短时能量极易将低于能量门限的辅音段误判为无声段,此时可利用辅音段的短时过零率较高,无声段的短时过零率较低的特点,结合短时过零率综合判断。双门限法以短时能量为主,短时过零率为辅,对短时能量设置两个阈值,高能量阈值EH和低能量阈值EL,对短时过零率设置一个阈值ZH。
双门限法进行端点检测的主要步骤和特点如下:
(1)首先根据短时能量的高阈值EH对语音信号进行一次初判。由EH可求出短时能量曲线与高阈值界线的两个交点A1、A2,其中A1为起始点,A2为终止点,A1A2之间的部分可以肯定为有声段,一般对应于主音段,但精确的起止点还需在A1点之前、A2点之后进一步查找。
(2)再根据短时能量的低阈值EL,从A1点往前,A2点往后搜索短时能量曲线与低阈值界线的两个交点B1、B2,则B1B2之间仍能肯定为有声段,但还不是最终的起止点。在B1点之前、B2点之后可能还存在辅音段,其短时能量很弱,仅依据能量特征很难将辅音段与无声段区分开。由于辅音段的短时过零率明显高于无声段,可利用短时过零率特征进一步检测有声段的精确位置。
(3)根据短时过零率阈值ZH,从B1点往前,B2点往后进行搜索,查找短时过零率高于ZH的两个边界点C1、C2,则C1C2之间即为最后检测出来的有声段。
实践中发现,利用传统的双门限法检测辅音时,只要短时能量低于EL,且短时过零率高于ZH,就判断为辅音,忽略了有声段对短时能量的最低要求,常造成误检或漏检。此外还发现,有些辅音,起始段较明显,能量较强,尾部接近元音时能量反而减弱、过零率也有所降低,容易判定为无声段,造成辅音与元音中断,整个辅音段丢失。
另外,语音信号端点检测的结果严重依赖于短时能量和短时过零率的阈值,而这些阈值如何设定,目前还没有统一的、公认的方法,若阈值选取不当,极易造成误检或漏检,使端点检测的正确率明显下降。
发明内容
本发明的目的在于提供一种基于特征值编码的语音信号端点检测方法,用于克服语音信号端点检测中传统双门限法对短时能量设置的门限太少,常存在误检和漏检的缺陷。
实现本发明目的的技术解决方案为:一种基于特征值编码的语音信号端点检测方法,步骤如下:
(1)将语音信号采样序列分成固定长度的帧,相邻帧之间重合半帧,对每一帧语音提取短时能量、短时过零率两个特征参数;
(2)根据各帧的短时能量和短时过零率,统计短时能量的平均值、短时过零率的平均值和短时过零率的最大值;
(3)根据短时能量的平均值和经验参数,对短时能量设置4个阈值;
(4)根据短时过零率的平均值、短时过零率的最大值及经验参数,对短时过零率设置1个阈值;
(5)根据短时能量和短时过零率的阈值,对每一帧语音生成一个1字节的特征值编码;
(6)根据每帧的特征值编码及五级判定规则,对语音信号进行端点检测。
本发明与现有技术相比,其显著优点为:(1)对有声段设置了最低短时能量阈值的限制,能防止将无声段误判为有声段。(2)对短时能量设置4个阈值,对短时过零率设置1个阈值,给出了阈值设置的经验参数,客观性强,自适应性好。
(3)根据短时能量和短时过零率的多个阈值,对每一帧语音生成一个1字节的特征值编码,端点检测直接根据特征值编码进行,占用存储空间少,检测速度快。
(4)与传统技术相比,在辅音段和无声段之间,增设了能量较低的疑似辅音。先将那些能量较弱的、不明显的、模棱两可的语音段作为疑似辅音,再根据相邻帧的特征进行综合判别,合理取舍,将部分疑似辅音合并到明显的辅音段中,将另一部分疑似辅音判别为无声段,能避免辅音段的漏检。(5)五级判定规则能有效应对各种复杂情况,避免误检和漏检,鲁棒性强,能显著提高语音信号端点检测的正确率。
附图说明
图1为语音帧的特征值编码方案图。
图2为基于特征值编码的语音信号端点检测流程图。
具体实施方式
语音信号可分为无声段和有声段,其中有声段又可分为辅音段、元音段及辅音与元音之间的过渡段,这些语音段特征比较明显,容易判别。在辅音段与无声段之间,还普遍存在不明显的、模棱两可的语音段,本发明先将这些语音段作为疑似辅音,再根据相邻帧的特征进行综合判别,最终将部分疑似辅音合并到明显的辅音段中,将另一部分疑似辅音判别为无声段。
本发明综合利用短时能量和短时过零率两种特征参数,提出了一种基于特征值编码的语音信号端点检测方法,根据音节的结构特点对短时能量设置4个阈值,对短时过零率设置1个阈值,并给出了这些阈值的设置方法,按照这些阈值对语音特征进行编码。然后根据每帧的特征值编码,按照五级判别规则进行端点检测。该方法对有声段的短时能量设置了最低阈值的限制,对模棱两可的疑似语音,结合相邻帧的特征进行综合判别,能有效应对各种复杂情况,显著提高端点检测的正确率。
本发明一种基于特征值编码的语音信号端点检测方法,包括如下步骤:
(1)将语音信号采样序列划分为一系列固定长度的帧,相邻帧之间重合半帧,对每一帧语音数据提取短时能量、短时过零率两个特征参数。
(2)根据各帧的短时能量和短时过零率,统计短时能量的平均值、短时过零率的平均值和短时过零率的最大值。
(3)根据短时能量的平均值、短时过零率的平均值、短时过零率的最大值及经验参数,对短时能量设置4个阈值,从高到低依次为EH、EL、ELL和ELLL
(4)根据短时过零率的平均值、短时过零率的最大值及经验参数,对短时过零率设置1个阈值ZH
(5)根据短时能量和短时过零率阈值,对每一帧语音生成一个1字节的特征值编码。
(6)根据每帧的特征值编码及五级判定规则,对语音信号进行端点检测,五级判定步骤如下:
(a)第一级判定,根据特征值编码直接判定明显的主音段和无声段。
(b)第二级判定,以判定的主音段为种子点,搜索紧邻主音段的中等能量语音帧及典型辅音帧,判定为有声段。
(c)第三级判定,搜索疑似辅音帧,根据左侧相邻帧的特征,将疑似辅音帧归于典型辅音段或判定为无声段。
(d)第四级判定,以判定的各有声段为种子点,搜索紧邻有声段的中等能量语音帧及典型辅音帧,判定为有声段。
(e)第五级判定,对所有余下的、仍处于待定状态的语音帧,判定为无声段。
下面结合附图和附表对本发明具体实施作进一步详细描述。
如图2所示,步骤1:分帧提取短时能量和短时过零率特征参数
语音是由声带的振动经声道的共振后发出的,在语音的发音过程中,声道处于变化状态,其变化速度与声带的振动速度相比要缓慢得多,语音信号是一种短时平稳信号,在较短的时间内(10~30ms)是相对平稳的,在较长的时间内是逐渐变化的。根据语音信号的短时平稳性,可将语音信号划分为一系列的时窗进行分析,在一个短时窗内语音信号是平稳的,一个时窗称为一帧。
将语音信号采样序列划分为一系列长度为10~32ms的帧,为了使帧与帧之间平滑过渡,保持其连续性,相邻帧之间重合半帧。对采样频率为16000Hz的语音信号,帧长设为512个数据,相邻帧之间重合256个数据。
通过分帧处理提取语音信号的短时特征,时间域的短时特征有短时能量和短时过零率,首先计算各帧的短时能量和短时过零率特征参数。
短时能量能反映语音信号的振幅或强度,一般元音的能量较强,辅音的能量较弱,无声段的能量更弱。
第i帧的短时能量定义为:
其中,N表示第i帧中包含的语音数据的个数;Sn表示第n个采样数据的值。
短时过零率表示一帧语音信号的波形穿过横轴(零值)的次数,即语音数据的正负号改变的次数。第i帧的短时过零率定义为:
其中,N表示第i帧中包含的语音数据的个数;Sn表示第n个采样数据的值;sgn为符号函数,定义为
短时过零率在一定程度上能反映语音信号的频率,一般辅音段的短时过零率较高,元音段的短时过零率较低,无声段的短时过零率也较低。
利用短时能量可以较准确地区分元音段和静音段,但对于辅音段,由于其能量较弱,仅依据短时能量极易将辅音段误判为无声段,此时可利用辅音段的短时过零率较高,无声段的短时过零率较低的特点,结合短时过零率综合判断。
步骤2:根据各帧的短时能量和短时过零率,统计短时能量的平均值、短时过零率的平均值和短时过零率的最大值。
短时能量的平均值Eavg定义为:
其中,M表示语音段的总帧数,Ei表示第i帧的短时能量。
短时过零率的平均值Zavg及最大值Zmax定义为:
Zmax=max(Zi,i=1,2,...,M)
其中,M表示语音段的总帧数,Zi表示第i帧的短时过零率。
步骤3:根据短时能量的平均值、短时过零率的平均值、短时过零率的最大值,对短时能量设置4个阈值,对短时过零率设置1个阈值。
(1)语音可划分为一个个音节,音节是发音时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段。音节由音素构成,音素分为元音和辅音。元音是在发音过程中气流通过口腔时不受阻碍发出的音,辅音是在发音过程中气流经过口腔或鼻腔时受到阻碍而形成的音。语音学中将发音时声带振动的音称为浊音,发音时声带不振动的音称为清音。发元音时声带振动,多数语言中的元音均为浊音,鼻音、边音、半元音也是浊音。发辅音时声带不一定振动,辅音分为清辅音和浊辅音。古汉语的辅音有清浊之分,而现代汉语(除吴语、老湘语)没有全浊辅音和部分次浊音,普通话仅有部分次浊音(如m、n、l)。汉语的声母清化过程伴随着声调的分化,汉语的声母清浊不辨后,靠声调来区别。
元音构成一个音节的主体,无论从音长还是从音强来看,元音在音节中都占主要成分。辅音因气流受到阻碍,发音不响亮,辅音的音长和音强与元音相比都很小,辅音依元音而存在,辅音与元音配合,构成音节。辅音只出现在音节的前端、后端或前后两端。
汉语是单音节字,一个汉字就是一个音节,一个音节包括声母和韵母。汉语音节一般由声母、韵母和声调三部分组成。每个汉字有四种音节结构:V、CV、VC1、CVC1。其中C是除了[nɡ]以外的全部辅音;V是单元音或复合元音;C1是鼻辅音[n]或[nɡ]。C称为声母,V或VC1称为韵母,这就是汉语的声-韵结构。元音和辅音是按音素发音时气流是否受到阻碍来分类的,浊音与清音是按发音时声带是否振动来分类的,声母和与韵母则是按汉语音节的结构来分类的。
汉语音节中的元音是音节的核心,是主音段,元音在音节中是必不可少的。在辅音和元音之间还存在过渡段,鼻韵尾是普通话里唯一能出现在音节末尾的辅音,其特征与声母里的鼻辅音基本相同。
汉语音节的这种结构特点既是连续语音音节切分的依据,也是语音信号端点检测的依据。本发明根据这些特点对短时能量设置4个阈值,对短时过零率设置一个阈值。
语音信号可分为无声段和有声段,其中有声段又可分为辅音段、元音段及辅音与元音之间的过渡段,这些语音段特征比较明显,容易判别。在辅音段与无声段之间,还普遍存在不明显的、模棱两可的语音段,本发明先将这些语音段作为疑似辅音,再根据相邻帧的特征进行综合判别,将部分疑似辅音合并到明显的辅音段中,将另一部分疑似辅音判别为无声段。
(2)本发明对短时能量设置4个阈值,分别为高阈值EH、低阈值EL、较低阈值ELL和极低阈值ELLL。这些阈值都有明确的含义。
EH为短时能量的高阈值,若某帧的短时能量大于EH,则可肯定为语音段,且是元音段,属于音节的主音段;
EL为短时能量的低阈值,若某帧的短时能量大于EL但小于EH,一般为振幅较低的元音段,或辅音与元音之间的过渡段;
ELL为辅音段的短时能量阈值,若某帧的短时能量大于ELL但小于EL,且短时过零率较大,则可判断为辅音段;
ELLL为疑似辅音段的短时能量阈值,若某帧的短时能量大于ELLL但小于ELL,且短时过零率较大,则可作为疑似辅音。
若某帧的短时能量小于ELLL,则可确定为无声段。
对一段语音,根据短时能量的平均值Eavg,按以下经验参数对短时能量设置4个阈值:
EH=0.165×Eavg
EL=0.05×Eavg
ELL=0.0146×Eavg
ELLL=0.0048×Eavg
(3)本发明对短时过零率设置1个阈值ZH。其含义为,辅音的短时过零率较高,一般大于ZH;元音的短时过零率较低,一般小于ZH,无声段的短时过零率更低。
根据短时过零率的平均值Zavg、短时过零率的最大值Zmax,按以下经验参数设置短时过零率的阈值ZH
ZH=Zavg+0.015×(Zmax-Zavg)
步骤4:对每帧生成一个1字节的特征值编码。
本发明对每一帧语音生成一个特征值编码,编码长度为8位,1个字节,从左向右依次为第7~0位,第7位代表最高位,第0位代表最低位。其中,第2~0位用于语音帧的短时能量编码,第3位用于语音帧的短时过零率编码,第7~6位用于语音帧的状态编码,第5~4位留作备用。语音帧特征值编码如图1。
(1)根据第i帧的短时能量Ei及4个阈值,按下列情况对第2~0位进行编码:
若Ei<ELLL,编码为000;
若ELLL≤Ei<ELL,编码为001;
若ELL≤Ei<EL,编码为010;
若EL≤Ei<EH,编码为011;
若E≥EH,编码为100。
编码101、110、111留作备用。
(2)根据第i帧的短时过零率Zi及阈值ZH,按下列情况对第3位进行编码:
若Zi<ZH,编码为0;
若Zi≥ZH,编码为1。
(3)第7~6位为状态编码,用于标记端点检测的中间结果或最终结果,按下列情况进行编码:
若为无声帧,编码为00;
若为有声帧,编码为11;
若为待定帧,编码为01;
编码10留作备用。
各语音帧的初始状态全部设置为待定帧,编码为01;
(4)特征值编码的第5~4位备用,全部设置为00。
根据上述编码方法,对每一帧语音根据短时能量和短时过零率特征参数生成一个1字节的特征值编码,按帧号形成特征值编码序列,以后不再计算特征参数,后续的端点检测直接根据特征值编码进行多级综合判断。
有声段包括辅音段、元音段以及辅音与元音之间的过渡段。元音段的特点是短时能量强,但短时过零率较低低频。
辅音段的共同特点是短时过零率较高,本发明按短时能量的强弱将辅音分为以下三类:
第一类为典型辅音,其特点是短时过零率较高,短时能量较弱;
第二类为非典型辅音1,其特点为短时过零率较高,短时能量也较强,这类辅音很少见。实际上因其短时能量较强,可直接判定为有声段。
第三类为非典型辅音2,其特点为短时过零率较高,短时能量中等,主要为振幅较强的辅音,或辅音与元音之间的过渡段。
以上三类辅音统称为广义辅音。
对每一帧语音可根据短时能量和短时过零率得到一个编码,然后参照表1中的规则,对于明显的语音段和无声段,可根据编码直接判断;对于模棱两可的语音帧,需要将相邻几帧联系起来综合判断。
表1语音帧的特征值编码及判定规则
步骤5:第一级判定,根据特征值编码直接判定明显的主音段和无声段。
(1)搜索特征值编码的第3~0位为0100或1100的所有帧,这些语音帧是能独立构成音节的元音段,也是主音段,将这些语音帧直接判定为有声段,并将其特征值编码的第7~6位赋值为11。
这些主音段是与其相邻的过渡段或辅音段能否判定为有声段的依靠。若过渡段或辅音段能与主音段连通,则这些过渡段或辅音段也能判别为语音段;若过渡段或辅音段不能与主音段连通,则这些过渡段或辅音段就不能判别为语音段,只得判别为无声段。
(2)同时搜索特征值编码的第3~0位为0000、0001或1000的所有帧,将这些语音帧直接判别为无声段,并将其特征值编码的第7~6位赋值为00。
步骤6:第二级判定,以各主音段为种子点,搜索紧邻主音段的中等能量语音帧及典型辅音帧,判定为有声段。
本步骤的目的是搜索与主音段直接连通的中等能量语音帧及典型辅音帧,只要与已标记的有声段直接相邻,即可判断为有声段。其它未与主音段直接连通的中等能量语音段或典型辅音段,经过后续步骤的有序处理后,还可以通过疑似辅音段(需经过与广义辅音段合并)作为桥梁,再与主音段连通,这些语音段将在后续步骤中补充进来。追踪过程中须记下种子点的位置,防止重复追踪或遗漏。
该步骤的具体方法为:以各主音段为种子点,先向左侧,再向右侧,搜索紧邻的中等能量语音帧(特征值编码的第3~0位为0011或1011)及典型辅音帧(特征值编码的第3~0位为1010),将这些语音帧判定为有声段,将其编码的第7~6位赋值为11,并沿原来的方向继续追踪,直至遇到已判定的有声帧(特征值编码的第7~6位为11)、疑似辅音帧(特征值编码的第3~0位为0010或1001)或已判定的无声帧(特征值编码的第7~6位为00)为止。
步骤7:第三级判定,搜索疑似辅音帧,根据左侧相邻帧的特征,将疑似辅音帧归于典型辅音段或判定为无声段。
由于汉语是单音节字,辅音主要出现在主音段的左侧,尽管鼻辅音出现在韵尾,但能量较强,可与主音段连通,疑似辅音段主要出现在主音段的左侧,因此辅音主要从主音段向左扩展。
先搜索出疑似辅音帧(特征值编码的第3~0位为0010或1001),若其左侧为广义辅音段(特征值编码的第3~0位为1010、1011或1100),且连续的疑似辅音帧数≤连续的广义辅音帧数,则这些连续的疑似辅音帧可与左侧连续的广义辅音帧合并,一起归于典型辅音帧,将其编码的第3~0位重置为1010。若疑似辅音帧的左侧无广义辅音段,或者连续的疑似辅音帧数>连续的广义辅音帧数,则这些疑似辅音帧不能与左侧的广义辅音帧合并,此时将这些连续的疑似辅音帧判定为无声段,并将其编码的7~6位赋值为00。
步骤8:第四级判定,以判定的各有声段为种子点,搜索紧邻有声段的中等能量语音帧及典型辅音帧,判定为有声段。
与步骤6类似,只不过将“与主音段直接连通”变为“与判定的有声段直接连通”(包括目前已判定为有声段的主音段、短时能量中等的有声段及典型辅音段)。
该步骤的具体方法为:以目前已判定的各有声段为种子点,先向左侧,再向右侧,搜索紧邻的中等能量语音帧(特征值编码的第3~0位为0011或1011)及典型辅音帧(特征值编码的第3~0位为1010),将这些语音帧判定为有声段,将其编码的第7~6位赋值为11,并沿原来的方向继续追踪,直至遇到已判定的有声帧(特征值编码的第7~6位为11)或无声帧(特征值编码的第7~6位为00)为止。
追踪过程中须记下种子点的位置,防止重复追踪或遗漏。
步骤9:第五级判定,对所有余下的、仍处于待定状态的语音帧(特征值编码的第7~6位为01),判定为无声段,并将其编码的第7~6位赋值为00。
步骤10:结果输出:将所有特征值编码的第7~6位为11的语音帧作为有声段输出,将所特征值编码的第7~6位为00的语音帧作为无声段输出。

Claims (9)

1.一种基于特征值编码的语音信号端点检测方法,其特征在于包括如下步骤:
(1)将语音信号采样序列分成固定长度的帧,相邻帧之间重合半帧,对每一帧语音提取短时能量、短时过零率两个特征参数;
(2)根据各帧的短时能量和短时过零率,统计短时能量的平均值、短时过零率的平均值和短时过零率的最大值;
(3)根据短时能量的平均值和经验参数,对短时能量设置4个阈值;
(4)根据短时过零率的平均值、短时过零率的最大值及经验参数,对短时过零率设置1个阈值;
(5)根据短时能量和短时过零率的阈值,对每一帧语音生成一个1字节的特征值编码;
(6)根据每帧的特征值编码及五级判定规则,对语音信号进行端点检测。
2.如权利要求1所述的基于特征值编码的语音信号端点检测方法,其特征在于:步骤(1)中所述提取短时能量和短时过零率的方法为:将语音信号采样序列划分为一系列长度为32ms的帧;分帧后,对每一帧分别提取短时能量和短时过零率特征参数。
3.如权利要求2所述的基于特征值编码的语音信号端点检测方法,其特征在于:所述短时能量特征参数的提取方法为:
在步骤(1)中,所提取的第i帧的短时能量为:
<mrow> <msub> <mi>E</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <msub> <mi>S</mi> <mi>n</mi> </msub> <mn>2</mn> </msup> </mrow>
其中,N表示第i帧中包含的语音数据的个数;Sn表示第n个采样数据的值。
4.如权利要求2所述的基于特征值编码的语音信号端点检测方法,其特征在于:所述短时过零率特征参数的提取方法为:
在步骤(1)中,所提取的第i帧的短时过零率为:
<mrow> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>|</mo> <mi>s</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>s</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow>
其中,N表示第i帧中包含的语音数据的个数;Sn表示第n个采样数据的值;sgn为符号函数,定义为
<mrow> <mi>sgn</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>&lt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> </mrow>
5.如权利要求1所述的基于特征值编码的语音信号端点检测方法,其特征在于:步骤(2)中,统计短时能量的平均值Eavg,公式为:
<mrow> <msub> <mi>E</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>E</mi> <mi>i</mi> </msub> </mrow>
其中,M表示语音段的总帧数,Ei表示第i帧的短时能量;
统计短时过零率的平均值Zavg,最大值Zmax,公式为:
<mrow> <msub> <mi>Z</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>Z</mi> <mi>i</mi> </msub> </mrow>
<mrow> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <mi>M</mi> </mrow> </munder> <msub> <mi>Z</mi> <mi>i</mi> </msub> </mrow>
其中,M表示语音段的总帧数,Zi表示第i帧的短时过零率。
6.如权利要求1所述的基于特征值编码的语音信号端点检测方法,其特征在于:步骤(4)中所述短时能量阈值的设置方法为:
对短时能量设置4个阈值,从高到低依次为EH、EL、ELL和ELLL,经验参数及公式为:
EH=0.165×Eavg
EL=0.05×Eavg
ELL=0.0146×Eavg
ELLL=0.0048×Eavg
其中,Eavg为短时能量的平均值。
7.如权利要求1所述的基于特征值编码的语音信号端点检测方法,其特征在于:步骤(4)中所述短时过零率阈值的设置方法为:
对短时过零率设置1个阈值ZH,经验参数及公式为:
ZH=Zavg+0.015×(Zmax-Zavg)
其中,Zavg为短时过零率的平均值,Zmax为最大值。
8.如权利要求1所述的基于特征值编码的语音信号端点检测方法,其特征在于:步骤(5)中所述对每一帧语音生成1个1字节的特征值编码:
(a)每一帧语音特征值编码的长度为8位,1个字节,从左到右依次为第7~0位,第7位为最高位,第0位为最低位;其中,第2~0位用于语音帧的短时能量特征编码,第3位用于语音帧的短时过零率特征编码,第7~6位用于语音帧的状态编码;
(b)根据语音帧的短时能量特征参数Ei,按下列情况对第2~0位进行编码:
若Ei<ELLL,编码为000;
若ELLL≤Ei<ELL,编码为001;
若ELL≤Ei<EL,编码为010;
若EL≤Ei<EH,编码为011;
若Ei≥EH,编码为100;
(c)根据语音帧的短时过零率特征参数Zi,按下列情况对第3位进行编码:
若Zi<ZH,编码为0;
若Zi≥ZH,编码为1;
(d)第7~6位为状态编码,用于标记端点检测的中间结果或最终结果,按下列情况进行编码:
若判定为无声段,编码为00;
若判定为有声段,编码为11;
若为待定状态,编码为01;
端点检测开始前,每帧的初始状态设置为01,为待定状态;
(e)若编码的第3~0位为0010或1001,称为疑似辅音;
若编码的第3~0位为1010,称为典型辅音;
若编码的第3~0位为1010、1011或1100,称为广义辅音。
9.如权利要求1所述的基于特征值编码的语音信号端点检测方法,其特征在于:步骤(6)所述的五级判定规则为:
(a)第一级判定:根据特征值编码直接判定明显的主音段和无声段;搜索特征值编码的第3~0位为0100或1100的所有帧,这些语音帧是能独立构成音节的主音段,将这些语音帧直接判定为有声段,并将其特征值编码的第7~6位赋值为11;同时搜索特征值编码的第3~0位为0000、0001或1000的所有帧,将这些语音帧直接判定为无声段,并将其特征值编码的第7~6位赋值为00;
(b)第二级判定:以各主音段为种子点,搜索紧邻主音段的中等能量语音帧及典型辅音帧,判定为有声段;
以各主音段为种子点,先向左侧,再向右侧,搜索紧邻的中等能量语音帧及典型辅音帧,中等能量语音帧的特征值编码的第3~0位为0011或1011,典型辅音帧的特征值编码的第3~0位为1010,将这些语音帧判定为有声段,将其编码的第7~6位赋值为11,并沿原来的方向继续追踪,直至遇到已判定的有声帧、疑似辅音帧或已判定的无声帧为止,已判定的有声帧的特征值编码的第7~6位为11,疑似辅音帧的特征值编码的第3~0位为0010或1001,已判定的无声帧的特征值编码的第7~6位为00;
(c)第三级判定,搜索疑似辅音帧,根据左侧相邻帧的特征,将疑似辅音帧归于典型辅音段或判定为无声段;
先搜索出疑似辅音帧,其特征值编码的第3~0位为0010或1001,若其左侧为广义辅音段,即特征值编码的第3~0位为1010、1011或1100,且连续的疑似辅音帧数≤连续的广义辅音帧数,则这些连续的疑似辅音帧可与左侧连续的广义辅音帧合并,一起归于典型辅音帧,将其编码的第3~0位重置为1010;若疑似辅音帧的左侧无广义辅音段,或者连续的疑似辅音帧数>连续的广义辅音帧数,则这些疑似辅音帧不能与左侧的广义辅音帧合并,此时将这些连续的疑似辅音帧判定为无声段,并将其编码的7~6位赋值为00;
(d)第四级判定,以判定的各有声段为种子点,搜索紧邻有声段的中等能量语音帧及典型辅音帧,判定为有声段;
以目前已判定的各有声段为种子点,先向左侧,再向右侧,搜索紧邻的中等能量语音帧及典型辅音帧,中等能量语音帧的特征值编码的第3~0位为0011或1011,典型辅音帧的特征值编码的第3~0位为1010,将这些语音帧判定为有声段,将其编码的第7~6位赋值为11,并沿原来的方向继续追踪,直至遇到已判定的有声帧或无声帧为止,已判定的有声帧的特征值编码的第7~6位为11,无声帧的特征值编码的第7~6位为00;
(e)第五级判定,对所有余下的、仍处于待定状态的语音帧,其特征值编码的第7~6位为01,判定为无声段,并将其编码的第7~6位赋值为00。
CN201710370540.2A 2017-05-23 2017-05-23 一种基于特征值编码的语音信号端点检测方法 Active CN107045870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710370540.2A CN107045870B (zh) 2017-05-23 2017-05-23 一种基于特征值编码的语音信号端点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710370540.2A CN107045870B (zh) 2017-05-23 2017-05-23 一种基于特征值编码的语音信号端点检测方法

Publications (2)

Publication Number Publication Date
CN107045870A true CN107045870A (zh) 2017-08-15
CN107045870B CN107045870B (zh) 2020-06-26

Family

ID=59546610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710370540.2A Active CN107045870B (zh) 2017-05-23 2017-05-23 一种基于特征值编码的语音信号端点检测方法

Country Status (1)

Country Link
CN (1) CN107045870B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452399A (zh) * 2017-09-18 2017-12-08 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取方法及装置
CN107799124A (zh) * 2017-10-12 2018-03-13 安徽咪鼠科技有限公司 一种应用于智能语音鼠标的vad检测方法
CN107886962A (zh) * 2017-11-17 2018-04-06 南京理工大学 一种面向ip语音的高安全性隐写方法
CN108039182A (zh) * 2017-12-22 2018-05-15 西安烽火电子科技有限责任公司 一种语音激活检测方法
CN108694416A (zh) * 2018-05-23 2018-10-23 重庆科技学院 基于多特征融合算法的振动光纤入侵事件检测方法
CN108711437A (zh) * 2018-03-06 2018-10-26 深圳市沃特沃德股份有限公司 语音处理方法和装置
CN108847218A (zh) * 2018-06-27 2018-11-20 郑州云海信息技术有限公司 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN110308796A (zh) * 2019-07-08 2019-10-08 合肥工业大学 一种基于腕部pvdf传感器阵列的手指运动识别方法
CN110556131A (zh) * 2019-08-14 2019-12-10 北京声加科技有限公司 一种语音活动检测设备及方法
CN111276164A (zh) * 2020-02-15 2020-06-12 中国人民解放军空军特色医学中心 飞机上高噪音环境自适应话音激活检测装置及方法
CN111754979A (zh) * 2020-07-21 2020-10-09 南京智金科技创新服务中心 智能语音识别方法及装置
CN112019282A (zh) * 2020-08-13 2020-12-01 西安烽火电子科技有限责任公司 一种短波时变信道衰落带宽估计方法
CN112863496A (zh) * 2019-11-27 2021-05-28 阿里巴巴集团控股有限公司 一种语音端点检测方法以及装置
CN113160835A (zh) * 2021-04-23 2021-07-23 河南牧原智能科技有限公司 一种猪只声音提取方法、装置、设备及可读存储介质
CN113345423A (zh) * 2021-06-24 2021-09-03 科大讯飞股份有限公司 语音端点检测方法、装置、电子设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040050765A (ko) * 2002-12-09 2004-06-17 엘지전자 주식회사 세탁기의 음성인식 방법
US20040210436A1 (en) * 2000-04-19 2004-10-21 Microsoft Corporation Audio segmentation and classification
KR20060064494A (ko) * 2004-12-08 2006-06-13 한국전자통신연구원 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치
CN1971621A (zh) * 2006-11-10 2007-05-30 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN101494049A (zh) * 2009-03-11 2009-07-29 北京邮电大学 一种用于音频监控系统中的音频特征参数的提取方法
CN101625858A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 语音端点检测中短时能频值的提取方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN103366739A (zh) * 2012-03-28 2013-10-23 郑州市科学技术情报研究所 面向孤立词语音识别的自适应端点检测方法及其系统
CN103489454A (zh) * 2013-09-22 2014-01-01 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法
CN103886871A (zh) * 2014-01-28 2014-06-25 华为技术有限公司 语音端点的检测方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040210436A1 (en) * 2000-04-19 2004-10-21 Microsoft Corporation Audio segmentation and classification
KR20040050765A (ko) * 2002-12-09 2004-06-17 엘지전자 주식회사 세탁기의 음성인식 방법
KR20060064494A (ko) * 2004-12-08 2006-06-13 한국전자통신연구원 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치
CN1971621A (zh) * 2006-11-10 2007-05-30 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN101625858A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 语音端点检测中短时能频值的提取方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101494049A (zh) * 2009-03-11 2009-07-29 北京邮电大学 一种用于音频监控系统中的音频特征参数的提取方法
CN103366739A (zh) * 2012-03-28 2013-10-23 郑州市科学技术情报研究所 面向孤立词语音识别的自适应端点检测方法及其系统
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN103489454A (zh) * 2013-09-22 2014-01-01 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法
CN103886871A (zh) * 2014-01-28 2014-06-25 华为技术有限公司 语音端点的检测方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MINGHE WANG ET AL.: "I-vector Based Speaker Gender Recognition", 《2015 IEEE ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC)》 *
王明合 等: "基于Fisher线性判别分析的语音信号端点检测方法", 《电子与信息学报》 *
许昊 等: "基于改进C0复杂度和MFCC相似度的端点检测", 《现代电子技术》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452399A (zh) * 2017-09-18 2017-12-08 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取方法及装置
CN107799124A (zh) * 2017-10-12 2018-03-13 安徽咪鼠科技有限公司 一种应用于智能语音鼠标的vad检测方法
CN107886962A (zh) * 2017-11-17 2018-04-06 南京理工大学 一种面向ip语音的高安全性隐写方法
CN108039182A (zh) * 2017-12-22 2018-05-15 西安烽火电子科技有限责任公司 一种语音激活检测方法
CN108039182B (zh) * 2017-12-22 2021-10-08 西安烽火电子科技有限责任公司 一种语音激活检测方法
CN108711437A (zh) * 2018-03-06 2018-10-26 深圳市沃特沃德股份有限公司 语音处理方法和装置
CN108694416A (zh) * 2018-05-23 2018-10-23 重庆科技学院 基于多特征融合算法的振动光纤入侵事件检测方法
CN108847218B (zh) * 2018-06-27 2020-07-21 苏州浪潮智能科技有限公司 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN108847218A (zh) * 2018-06-27 2018-11-20 郑州云海信息技术有限公司 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN110308796A (zh) * 2019-07-08 2019-10-08 合肥工业大学 一种基于腕部pvdf传感器阵列的手指运动识别方法
CN110308796B (zh) * 2019-07-08 2022-12-02 合肥工业大学 一种基于腕部pvdf传感器阵列的手指运动识别方法
CN110556131A (zh) * 2019-08-14 2019-12-10 北京声加科技有限公司 一种语音活动检测设备及方法
CN112863496B (zh) * 2019-11-27 2024-04-02 阿里巴巴集团控股有限公司 一种语音端点检测方法以及装置
CN112863496A (zh) * 2019-11-27 2021-05-28 阿里巴巴集团控股有限公司 一种语音端点检测方法以及装置
CN111276164A (zh) * 2020-02-15 2020-06-12 中国人民解放军空军特色医学中心 飞机上高噪音环境自适应话音激活检测装置及方法
CN111276164B (zh) * 2020-02-15 2021-08-03 中国人民解放军空军特色医学中心 飞机上高噪音环境自适应话音激活检测装置及方法
CN111754979A (zh) * 2020-07-21 2020-10-09 南京智金科技创新服务中心 智能语音识别方法及装置
CN112019282B (zh) * 2020-08-13 2022-10-28 西安烽火电子科技有限责任公司 一种短波时变信道衰落带宽估计方法
CN112019282A (zh) * 2020-08-13 2020-12-01 西安烽火电子科技有限责任公司 一种短波时变信道衰落带宽估计方法
CN113160835A (zh) * 2021-04-23 2021-07-23 河南牧原智能科技有限公司 一种猪只声音提取方法、装置、设备及可读存储介质
CN113345423A (zh) * 2021-06-24 2021-09-03 科大讯飞股份有限公司 语音端点检测方法、装置、电子设备和存储介质
CN113345423B (zh) * 2021-06-24 2024-02-13 中国科学技术大学 语音端点检测方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN107045870B (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN107045870A (zh) 一种基于特征值编码的语音信号端点检测方法
CN102800314B (zh) 具有反馈指导的英语句子识别与评价系统及其方法
JPS6336676B2 (zh)
JPS62217295A (ja) 音声認識方式
Quan et al. Reduce the dimensions of emotional features by principal component analysis for speech emotion recognition
Hou et al. Multi-layered features with SVM for Chinese accent identification
JPH0250198A (ja) 音声認識システム
Chen et al. Text-independent phoneme segmentation combining egg and speech data
CN103325372A (zh) 基于改进声调核模型的汉语语音声调识别方法
EP0109140B1 (en) Recognition of continuous speech
CN1337670A (zh) 特定人汉语短语语音识别快速方法
Phoophuangpairoj et al. Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs
Lertwongkhanakool et al. An automatic real-time synchronization of live speech with its transcription approach
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
KR100981540B1 (ko) 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법
TWI830385B (zh) 用於語音語句之情緒預測裝置、方法以及其電腦程式產品
Gulzar et al. An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words
JP3128251B2 (ja) 音声認識装置
Vyas et al. Study of Speech Recognition Technology and its Significance in Human-Machine Interface
Pitt et al. Using pronunciation data as a starting point in modeling word recognition
JPS6147999A (ja) 音声認識装置
JPH0682275B2 (ja) 音声認識装置
JPH0242238B2 (zh)
JPH0455518B2 (zh)
CN115731936A (zh) 一种针对说话人识别的多层级音素生成的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant