CN108962225B - 一种多尺度自适应语音端点检测方法 - Google Patents

一种多尺度自适应语音端点检测方法 Download PDF

Info

Publication number
CN108962225B
CN108962225B CN201810679766.5A CN201810679766A CN108962225B CN 108962225 B CN108962225 B CN 108962225B CN 201810679766 A CN201810679766 A CN 201810679766A CN 108962225 B CN108962225 B CN 108962225B
Authority
CN
China
Prior art keywords
frame
digital audio
short
scale
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810679766.5A
Other languages
English (en)
Other versions
CN108962225A (zh
Inventor
张志刚
黄军勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201810679766.5A priority Critical patent/CN108962225B/zh
Publication of CN108962225A publication Critical patent/CN108962225A/zh
Application granted granted Critical
Publication of CN108962225B publication Critical patent/CN108962225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Television Receiver Circuits (AREA)

Abstract

本发明公开了一种多尺度自适应语音端点检测方法,包括步骤:读取数字音频信号;计算数字音频信号的背景信号阈值;对数字音频信号进行粗检,检出语音信号端点待选区域;对待选区域进行细检,检出语音信号端点。本发明以短时幅值和差分函数为特征,采用大尺度计算数字音频信号的背景信号阈值,既满足了短时平稳性要求,又减少了计算量,且本语音检测方法方法算法简单,检测速度快,端点定位准确,自适应性强,能够较好地满足多种环境下语音信号检测的需要,为数字音频信号后续处理打下良好基础。

Description

一种多尺度自适应语音端点检测方法
技术领域
本发明属于数字音频信号处理技术领域,具体涉及一种多尺度自适应语音端点检测方法。
背景技术
近年来随着人工智能的迅速发展,语音信号应用日益广泛,在语音识别、语音控制、语义识别、语音翻译等领域有着良好的应用前景。
语音信号检测是数字音频信号处理的第一个环节,其目的是从采集到的数字音频信号中检测出有用的语音段,并准确地定位出语音段的起始点和终止点,它是数字音频信号处理的重要环节。
多年来,广大学者已提出了多种语音端点检测方法,这些方法各具特点,针对不同环境下的语音信号展示了良好的检测性能。但现有方法复杂程度较高,而且无法做到自适应检测,因此,其应用范围有限。
发明内容
本发明的目的是提供一种多尺度自适应语音端点检测方法,解决了现有技术中存在的语音端点检测无法做到自适应检测的问题。
本发明所采用的技术方案是,一种多尺度自适应语音端点检测方法,包括步骤:读取数字音频信号;计算数字音频信号的背景信号阈值;对数字音频信号进行粗检,检出语音信号端点待选区域;对待选区域进行细检,检出语音信号端点。
本发明的特点还在于:
具体包括以下步骤:
步骤1,读取数字音频信号;
步骤2,读取数字音频信号起始部分内容,以短时幅值和短时幅值前向差分函数为特征,采用大尺度计算背景信号阈值Hb;
步骤3,对数字音频信号进行大尺度粗检,检出语音信号的起始点待选区域与终止点待选区域;
步骤4,对步骤3检测出的起始点待选区域与终止点待选区域进行小尺度细检,检出语音信号起始点与终止点。
步骤2具体包括以下步骤:
步骤2.1,对整个待测数字音频信号,按大尺度计算短时幅值,如式1:
Figure BDA0001710662100000021
式中:xn(i)表示第n帧内第i个数字音频信号的幅值,N为帧长,M(n)表示第n帧的短时幅值;
步骤2.2,计算待测数字音频信号前m帧的短时幅值前向差分函数F1(n),其中16≤m≤24,如式2:
Figure BDA0001710662100000022
步骤2.3,找出短时幅值前向差分函数F1(n)的最大值,以及对应的帧号k;
步骤2.4,计算前k个帧的短时幅值的平均值,该值即为背景信号阈值Hb。
步骤3具体包括以下步骤:
步骤3.1,根据阈值Hb进行逐帧比较,若第i帧及其后连续P帧,其短时幅值都大于Hb,则取从(i-1)帧开始的w个帧,作为起始点的待选区域;其中,4≤P≤6,4≤w≤6;
步骤3.2,根据阈值Hb进行逐帧比较,若第i帧及其后连续的P帧,其短时幅值都小于Hb,则取从(i)帧开始的x帧,作为终止点的待选区域;其中,4≤P≤6,4≤x≤6。
步骤4具体包括以下步骤:
步骤4.1,对步骤3检出的起始点待选区域与终止点待选区域,按照小尺度计算短时幅值,如式1;
Figure BDA0001710662100000031
式中:xn(i)表示第n帧内第i个数字音频信号的幅值,N为帧长,M(n)表示第n帧的短时幅值;
步骤4.2,计算起始点待选区域与终止点待选区域的逆向差分函数,如式3:
Figure BDA0001710662100000032
步骤4.3,对起始点待选区域,找出逆向差分函数F2(n)的最大值,以及其对应的帧号y,则y帧为起始点;
步骤4.4,对终止点待选区域,找出逆向差分函数F2(n)的最大值,以及其对应的帧号z,则z帧为终止点。
还包括步骤5,合并步骤4检出的语音段。
步骤5的具体过程为:找出第一个起始点与最后一个终止点,去除中间所有端点。
步骤5的具体过程为:设定一个间隙阈值Hn,若前一个语音段终止点和下一个语音段起始点之间的距离<Hn,则将这两段合并为一段,否则不合并;循环上述操作,直至合并完毕。
步骤2、步骤3中,大尺度帧长为256,帧移为128。
步骤4中,小尺度帧长为128,帧移为64。
本发明的有益效果是:
(1)以短时幅值和差分函数为特征,既满足了短时平稳性要求,又减少了计算量。
(2)采用大尺度计算数字音频信号的背景信号阈值,自适应强,且可适用于多种环境。
(3)大尺度粗检提高了语音信号端点检测的速度;小尺度细检保证了语音信号端点检测的精度。
(4)本语音检测方法算法简单,检测速度快,端点定位准确,自适应性强,能够较好地满足多种环境下语音信号检测的需要,为数字音频信号后续处理打下良好基础。
附图说明
图1是本发明多尺度自适应语音端点检测方法的流程图;
图2是运用本发明多尺度自适应语音端点检测方法检测的语音信号端点效果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1所示,一种多尺度自适应语音端点检测方法,包括步骤:读取数字音频信号;计算数字音频信号的背景信号阈值;对数字音频信号进行粗检,检出语音信号端点待选区域;对待选区域进行细检,检出语音信号端点。
具体包括以下步骤:
步骤1,读取数字音频信号。
步骤2,读取数字音频信号起始部分内容,以短时幅值和短时幅值前向差分函数为特征,采用大尺度计算背景信号阈值Hb,其中,大尺度帧长为256,帧移为128;
步骤2.1,对整个待测数字音频信号,按大尺度计算短时幅值,如式1:
Figure BDA0001710662100000051
式中:xn(i)表示第n帧内第i个数字音频信号的幅值,N为帧长,M(n)表示第n帧的短时幅值;
步骤2.2,计算待测数字音频信号前m帧的短时幅值前向差分函数F1(n),其中16≤m≤24,如式2:
Figure BDA0001710662100000052
步骤2.3,找出短时幅值前向差分函数F1(n)的最大值,以及对应的帧号k;
步骤2.4,计算前k个帧的短时幅值的平均值,该值即为背景信号阈值Hb。
步骤3,对数字音频信号进行大尺度粗检,检出语音信号的起始点待选区域与终止点待选区域,其中,大尺度帧长为256,帧移为128;
步骤3.1,根据阈值Hb进行逐帧比较,若第i帧及其后连续P帧,其短时幅值都大于Hb,则取从(i-1)帧开始的w个帧,作为起始点的待选区域;其中,4≤P≤6,4≤w≤6;
步骤3.2,根据阈值Hb进行逐帧比较,若第i帧及其后连续的P帧,其短时幅值都小于Hb,则取从(i)帧开始的x帧,作为终止点的待选区域;其中,4≤P≤6,4≤x≤6。
步骤4,对步骤3检测出的起始点待选区域与终止点待选区域进行小尺度细检,检出语音信号起始点与终止点,其中,小尺度帧长为128,帧移为64;
步骤4.1,对步骤3检出的起始点待选区域与终止点待选区域,按照小尺度计算短时幅值,如式1;
Figure BDA0001710662100000061
式中:xn(i)表示第n帧内第i个数字音频信号的幅值,N为帧长,M(n)表示第n帧的短时幅值;
步骤4.2,计算起始点待选区域与终止点待选区域的逆向差分函数,如式3:
Figure BDA0001710662100000062
步骤4.3,对起始点待选区域,找出逆向差分函数F2(n)的最大值,以及其对应的帧号y,则y帧为起始点;
步骤4.4,对终止点待选区域,找出逆向差分函数F2(n)的最大值,以及其对应的帧号z,则z帧为终止点。
步骤5,合并步骤4检出的语音段;找出第一个起始点与最后一个终止点,去除中间所有端点;或者,设定一个间隙阈值Hn,若前一个语音段终止点和下一个语音段起始点之间的距离<Hn,则将这两段合并为一段,否则不合并;循环上述操作,直至合并完毕。
按照上述方法,在TIMIT语音库中,选取100个语音样本进行测试,检测效果如图2所示,一般来说,一条语句是由多个词汇组成,因为发音关系,各个词汇之间会有间隙;从图中可以看出,采用本发明方法可以准确地检测出各个语音词汇(小语音段),图中短虚线表示各语音段的起始点,短实线表示终止点,这样更有利于后续对单个词汇的处理和识别;长虚线为端点整合后的起始点,长实线为端点整合后的终止点。
本发明一种多尺度自适应语音端点检测方法在背景信号检测时,以短时幅值和差分函数为特征,既满足了短时平稳性要求,又减少了计算量;采用大尺度计算数字音频信号的背景信号阈值,自适应强,且可适用于多种环境;大尺度粗检提高了语音信号端点检测的速度;小尺度细检保证了语音信号端点检测的精度;本语音检测方法方法算法简单,检测速度快,端点定位准确,自适应性强,能够较好地满足多种环境下语音信号检测的需要,为数字音频信号后续处理打下良好基础。

Claims (8)

1.一种多尺度自适应语音端点检测方法,其特征在于,包括步骤:读取数字音频信号;计算数字音频信号的背景信号阈值;对数字音频信号进行粗检,检出语音信号端点待选区域;对待选区域进行细检,检出语音信号端点;具体包括以下步骤:
步骤1,读取数字音频信号;
步骤2,读取数字音频信号起始部分内容,以短时幅值和短时幅值前向差分函数为特征,采用大尺度计算背景信号阈值Hb;
步骤3,对数字音频信号进行大尺度粗检,检出语音信号的起始点待选区域与终止点待选区域;
步骤4,对步骤3检测出的起始点待选区域与终止点待选区域进行小尺度细检,检出语音信号起始点与终止点;
所述步骤2具体包括以下步骤:
步骤2.1,对整个待测数字音频信号,按大尺度计算短时幅值,如式1:
Figure FDA0002487984590000011
式中:xn(i)表示第n帧内第i个数字音频信号的幅值,N为帧长,M(n)表示第n帧的短时幅值;
步骤2.2,计算待测数字音频信号前m帧的短时幅值前向差分函数F1(n),其中16≤m≤24,如式2:
Figure FDA0002487984590000012
步骤2.3,找出短时幅值前向差分函数F1(n)的最大值,以及对应的帧号k;
步骤2.4,计算前k个帧的短时幅值的平均值,该平均值即为背景信号阈值Hb。
2.如权利要求1所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3.1,根据阈值Hb进行逐帧比较,若第i帧及其后连续P帧,其短时幅值都大于Hb,则取从(i-1)帧开始的w个帧,作为起始点的待选区域;其中,4≤P≤6,4≤w≤6;
步骤3.2,根据阈值Hb进行逐帧比较,若第i帧及其后连续的P帧,其短时幅值都小于Hb,则取从(i)帧开始的x帧,作为终止点的待选区域;其中,4≤P≤6,4≤x≤6。
3.如权利要求1所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤4具体包括以下步骤:
步骤4.1,对步骤3检出的起始点待选区域与终止点待选区域,按照小尺度计算短时幅值,如式1;
Figure FDA0002487984590000021
式中:xn(i)表示第n帧内第i个数字音频信号的幅值,N为帧长,M(n)表示第n帧的短时幅值;
步骤4.2,计算起始点待选区域与终止点待选区域的逆向差分函数,如式3:
Figure FDA0002487984590000022
步骤4.3,对起始点待选区域,找出逆向差分函数F2(n)的最大值,以及其对应的帧号y,则y帧为起始点;
步骤4.4,对终止点待选区域,找出逆向差分函数F2(n)的最大值,以及其对应的帧号z,则z帧为终止点。
4.如权利要求1所述的多尺度自适应语音端点检测方法,其特征在于,还包括步骤5,合并步骤4检出的语音段。
5.如权利要求4所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤5的具体过程为:找出第一个起始点与最后一个终止点,去除中间所有端点。
6.如权利要求4所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤5的具体过程为:步骤5.1:设定一个间隙阈值Hn,若前一个语音段终止点和下一个语音段起始点之间的距离<Hn,则将这两段合并为一段,否则不合并;步骤5.2:循环步骤5.1的操作,直至合并完毕。
7.如权利要求1所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤2、步骤3中,大尺度帧长为256,帧移为128。
8.如权利要求1所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤4中,小尺度帧长为128,帧移为64。
CN201810679766.5A 2018-06-27 2018-06-27 一种多尺度自适应语音端点检测方法 Active CN108962225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810679766.5A CN108962225B (zh) 2018-06-27 2018-06-27 一种多尺度自适应语音端点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810679766.5A CN108962225B (zh) 2018-06-27 2018-06-27 一种多尺度自适应语音端点检测方法

Publications (2)

Publication Number Publication Date
CN108962225A CN108962225A (zh) 2018-12-07
CN108962225B true CN108962225B (zh) 2020-10-23

Family

ID=64487116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810679766.5A Active CN108962225B (zh) 2018-06-27 2018-06-27 一种多尺度自适应语音端点检测方法

Country Status (1)

Country Link
CN (1) CN108962225B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07199994A (ja) * 1993-12-28 1995-08-04 Nec Corp 音声符号化方式
CN101206858B (zh) * 2007-12-12 2011-07-13 北京中星微电子有限公司 一种孤立词语音端点检测的方法及系统
CN101201980B (zh) * 2007-12-19 2010-06-02 北京交通大学 一种基于语音情感识别的远程汉语教学系统
CN101625857B (zh) * 2008-07-10 2012-05-09 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN103065627B (zh) * 2012-12-17 2015-07-29 中南大学 基于dtw与hmm证据融合的特种车鸣笛声识别方法
CN103117067B (zh) * 2013-01-19 2015-07-15 渤海大学 一种低信噪比下语音端点检测方法
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
CN104464722B (zh) * 2014-11-13 2018-05-25 北京云知声信息技术有限公司 基于时域和频域的语音活性检测方法和设备
CN105825870B (zh) * 2016-03-14 2019-04-02 江苏时间环三维科技有限公司 一种语音指令数据获取方法及装置

Also Published As

Publication number Publication date
CN108962225A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN106297776B (zh) 一种基于音频模板的语音关键词检索方法
CN108010515B (zh) 一种语音端点检测和唤醒方法及装置
CN106098079B (zh) 音频信号的信号提取方法与装置
CN104021789A (zh) 一种利用短时时频值的自适应端点检测方法
CN110890102A (zh) 一种基于rnn声纹识别的发动机缺陷检测算法
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN104103280B (zh) 基于动态时间归整算法的离线语音端点检测的方法和装置
US20200126556A1 (en) Robust start-end point detection algorithm using neural network
CN103996399B (zh) 语音检测方法和系统
CN108335699A (zh) 一种基于动态时间规整和语音活动检测的声纹识别方法
CN110890087A (zh) 一种基于余弦相似度的语音识别方法和装置
CN106448659A (zh) 一种基于短时能量和分形维数的语音端点检测方法
CN105869658A (zh) 一种采用非线性特征的语音端点检测方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
Lu et al. Unsupervised speaker segmentation and tracking in real-time audio content analysis
CN108962225B (zh) 一种多尺度自适应语音端点检测方法
KR101122590B1 (ko) 음성 데이터 분할에 의한 음성 인식 장치 및 방법
CN113823326B (zh) 一种高效语音关键词检测器训练样本使用方法
CN113536955B (zh) 一种可持续学习的信号调制类型识别方法
Muscariello et al. Towards robust word discovery by self-similarity matrix comparison
Li et al. Tibetan voice activity detection based on one-dimensional convolutional neural network
CN112992157A (zh) 一种基于残差和批量归一化的神经网络带噪声纹识别方法
WO1987004294A1 (en) Frame comparison method for word recognition in high noise environments
CN107833582A (zh) 基于弧长的语音信号端点检测方法
CN109859744B (zh) 一种应用于吸油烟机中的语音端点检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant