CN107305774A - 语音检测方法和装置 - Google Patents

语音检测方法和装置 Download PDF

Info

Publication number
CN107305774A
CN107305774A CN201610257244.7A CN201610257244A CN107305774A CN 107305774 A CN107305774 A CN 107305774A CN 201610257244 A CN201610257244 A CN 201610257244A CN 107305774 A CN107305774 A CN 107305774A
Authority
CN
China
Prior art keywords
audio
section
present video
video section
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610257244.7A
Other languages
English (en)
Other versions
CN107305774B (zh
Inventor
范海金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610257244.7A priority Critical patent/CN107305774B/zh
Priority to PCT/CN2017/074798 priority patent/WO2017181772A1/zh
Priority to EP17785258.9A priority patent/EP3447769B1/en
Priority to JP2018516116A priority patent/JP6705892B2/ja
Priority to KR1020187012848A priority patent/KR102037195B1/ko
Publication of CN107305774A publication Critical patent/CN107305774A/zh
Priority to US15/968,526 priority patent/US10872620B2/en
Application granted granted Critical
Publication of CN107305774B publication Critical patent/CN107305774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音检测方法和装置。其中,该方法包括:将待检测的音频信号划分为多个音频段;提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征;根据音频段的音频特征从音频段中检测出目标语音段。本发明解决了由于采用现有的语音检测方法所导致的语音检测的准确率较低的技术问题。

Description

语音检测方法和装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种语音检测方法和装置。
背景技术
目前,为了简化操作,改善用户体验,在很多领域都开始应用语音信号实现控制。例如,将语音信号作为语音输入密码。但在现有技术中,对语音信号所采用的语音检测方式通常是对输入信号进行单个特征提取,这样提取到的单个特征,往往对噪声较为敏感,无法准确区分干扰声音和语音信号,从而导致语音检测的准确率下降。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音检测方法和装置,以至少解决由于采用现有的语音检测方法所导致的语音检测的准确率较低的技术问题。
根据本发明实施例的一个方面,提供了一种语音检测方法,包括:将待检测的音频信号划分为多个音频段;提取每个上述音频段中的音频特征,其中,上述音频特征至少包括上述音频段的时域特征及频域特征;根据上述音频段的上述音频特征从上述音频段中检测出目标语音段。
根据本发明实施例的另一方面,还提供了一种语音检测装置,包括:划分单元,用于将待检测的音频信号划分为多个音频段;提取单元,用于提取每个上述音频段中的音频特征,其中,上述音频特征至少包括上述音频段的时域特征及频域特征;检测单元,用于根据上述音频段的上述音频特征从上述音频段中检测出目标语音段。
在本发明实施例中,通过将待检测的音频信号划分为多个音频段,并提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征,从而实现融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段,以降低音频段中的噪声信号对语音检测过程的干扰,达到提高检测语音准确率的目的,进而克服现有技术中仅通过单个特征来检测语音方式所导致的检测准确率较低的问题。
进一步,在准确检测出目标语音段的同时,还可以使人机交互设备快速实时地判断出由目标语音段构成的语音段的起始时刻及终止时刻,从而实现人机交互设备对检测出的语音进行准确实时地反应,达到人机自然交互的效果。此外,人机交互设备通过准确检测出目标语音段构成的语音段的起始时刻及终止时刻,还将实现提高人机交互效率的效果,进而克服现有技术中由交互人员通过按下控制按钮来触发启动人机交互过程所导致的人机交互效率较低的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的语音检测法的应用环境示意图;
图2是根据本发明实施例的另一种可选的语音检测方法的应用环境示意图;
图3是根据本发明实施例的一种可选的语音检测方法的流程示意图;
图4是根据本发明实施例的一种可选的语音检测方法的波形示意图;
图5是根据本发明实施例的另一种可选的语音检测方法的波形示意图;
图6是根据本发明实施例的又一种可选的语音检测方法的波形示意图;
图7是根据本发明实施例的又一种可选的语音检测方法的波形示意图;
图8是根据本发明实施例的又一种可选的语音检测方法的波形示意图;
图9是根据本发明实施例的另一种可选的语音检测方法的流程示意图;
图10是根据本发明实施例的一种可选的语音检测装置的示意图;以及
图11是根据本发明实施例的一种可选的语音检测设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种上述语音检测方法的实施例。可选地,在本实施例中,该语音检测方法可以但不限于应用于如图1所示的应用环境中。通过终端102获取待检测的音频信号,将该待检测的音频信号通过网络104发送给服务器106,服务器106将待检测的音频信号划分为多个音频段;提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征;并根据音频段的音频特征从音频段中检测出目标语音段。通过融合音频段在时频和频域中多个特征,利用各个特征的互补性,以实现从音频信号的多个音频段中准确检测出目标语音段,从而保证由目标语音段构成的语音段被检测出的准确率。
可选地,在本实施例中,上述语音检测方法还可以但不限于应用于如图2所示的应用环境中。也就是说,在终端102获取到待检测的音频信号后,由终端102来执行上述语音检测方法中对音频段的检测过程,具体过程可以如上,这里不再赘述。
需要说明的是,在本实施例中,图1-2所示的终端仅为一种示例。可选地,在本实施例中,上述终端可以包括但不限于以下至少之一:手机、平板电脑、笔记本电脑、台式PC机、数字电视及其他人机交互设备。上述只是一种示例,本实施例对此不做任何限定。可选地,在本实施例中,上述网络可以包括但不限于以下至少之一:广域网、城域网、局域网。上述只是一种示例,本实施例对此不做任何限定。
根据本发明实施例,提供了一种语音检测方法,如图3所示,该方法包括:
S302,将待检测的音频信号划分为多个音频段;
S304,提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征;
S306,根据音频段的音频特征从音频段中检测出目标语音段。
可选地,在本实施例中,上述语音检测方法可以但不限于应用于以下至少一种场景中:智能机器人聊天系统、自动问答系统、人机聊天软件等。也就是说,将本实施例中所提供的语音检测方法应用于人机交互过程中,通过提取音频段中至少包括音频段的时域特征及频域特征的音频特征,来准确检测出对待检测的音频信号中所划分的多个音频段中的目标语音段,从而使用于人机交互的设备可以获知由目标语音段构成的语音段的起始时刻及终止时刻,以便于设备在获取所要表达的完整的语音信息后再进行准确答复。这里,在本实施例中,上述语音段可以包括但不限于:一个目标语音段或连续多个目标语音段。其中,每一个目标语音段包括该目标语音段的起始时刻及终止时刻。本实施例中对此不做任何限定。
需要说明的是,在本实施例中,人机交互设备通过将待检测的音频信号划分为多个音频段,并提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征,从而实现融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段,以降低音频段中的噪声信号对语音检测过程的干扰,达到提高语音检测的准确率的目的,进而克服现有技术中仅通过单个特征来检测语音的方式所导致的检测准确率较低的问题。
进一步,在准确检测出目标语音段的同时,还可以使人机交互设备快速实时地判断出由目标语音段构成的语音段的起始时刻及终止时刻,从而实现人机交互设备对检测获取到的语音信息进行准确实时地反应,达到人机自然交互的效果。此外,人机交互设备通过准确检测出目标语音段构成的语音段的起始时刻及终止时刻,还将实现提高人机交互效率的效果,进而克服现有技术中由交互人员通过按下控制按钮来触发启动人机交互过程所导致的人机交互效率较低的问题。
可选地,在本实施例中,上述音频特征可以包括但不限于以下至少之一:在时域的信号过零率、在时域的短时能量、在频域的谱平度、在时域的信号信息熵、自相关性系数、小波变换后信号、信号复杂度等。
需要说明的是,1)上述信号过零率可以但不限于用于去除一些脉冲噪声的干扰;2)上述短时能量可以但不限于用于衡量音频信号的幅度大小,配合一定的阈值以去除不相关人群说话语音的干扰;3)上述谱平度可以但不限于用于在频域内计算信号的频率分布特性,根据该特征的大小,以判断音频信号是否为背景高斯白噪声;4)上述信号时域信息熵可以但不限于用于度量音频信号在时域的分布特性,该特征用于区别语音信号和一般噪声。在本实施例中,通过在语音检测过程中融合上述在时域及频域的多个特征来抵抗脉冲和背景噪声的干扰,增强鲁棒性,以实现从待检测的音频信号所划分的多个音频段中准确检测出目标语音段,进而达到准确获取该目标语音段构成的语音段的起始时刻及终止时刻,以实现人机自然交互。
可选地,在本实施例中,根据音频段的音频特征从音频信号的多个音频段中检测出目标语音段的方式可以包括但不限于:判断音频段的音频特征是否满足预定阈值条件;在音频段的音频特征满足预定阈值条件时,则检测出该音频段为目标语音段。
需要说明的是,在本实施例中,在判断音频段的音频特征是否满足预定阈值条件时,可以按照以下至少一种顺序从多个音频段获取用于进行判断的当前音频段:1)按照音频信号的输入顺序;2)按照预定顺序。其中,上述预定顺序可以为随机顺序,也可以为按照预定原则排列的顺序,例如按照音频段的大小顺序。上述仅是一种示例,本实施例中对此不做任何限定。
此外,在本实施例中,上述预定阈值条件可以但不限于将根据变化的场景进行自适应更新调整。通过不断更新用于与音频特征进行比较的预定阈值条件,以保证在检测过程中根据不同场景准确从多个音频段中检测出目标语音段。进一步,对于音频段在多个域的多个特征,通过分别判断是否满足对应的预定阈值条件,以实现对音频段进行多次判断筛选,从而保证准确地检测出目标语音段。
可选地,在本实施例中,在按照音频信号的输入顺序从多个音频段中获取音频段,以判断音频段的音频特征是否满足预定阈值条件的情况下,根据音频段的音频特征从音频段中检测出目标语音段包括:重复执行以下步骤,直至当前音频段为多个音频段中的最后一个音频段,其中,当前音频段被初始化为多个音频段中的第一个音频段:
S1,判断当前音频段的音频特征是否满足预定阈值条件;
S2,在当前音频段的音频特征满足预定阈值条件时,则检测出当前音频段为目标语音段;
S3,在当前音频段的音频特征不满足预定阈值条件时,至少根据当前音频段的音频特征更新预定阈值条件,得到更新后的预定阈值条件;
S4,判断当前音频段是否为多个音频段中的最后一个音频段,若不是,则将当前音频段的下一个音频段作为当前音频段。
需要说明的是,在本实施例中,上述预定阈值条件可以但不限于至少根据当前音频段的音频特征更新,以得到更新后的预定阈值条件。也就是说,在更新上述预定阈值条件时,是根据当前音频段(历史音频段)的音频特征来确定下一个音频段所需的预定阈值条件,从而使对音频段的检测过程更加准确。
可选地,在本实施例中,在将待检测的音频信号划分为多个音频段之后,还包括:
S1,获取多个音频段中前N个音频段,其中,N为大于1的整数;
S2,根据前N个音频段构建抑噪模型,其中,抑噪模型用于对多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理;
S3,根据前N个音频段获取初始预定阈值条件。
需要说明的是,为了保证语音检测过程的准确率,在本实施例中将对多个音频段进行抑噪处理,以避免噪声对语音信号的干扰。例如,采用最小均方误差对数谱幅度估计方式来消除音频信号的背景噪声。
可选地,在本实施例中,上述前N个音频段可以但不限于为无语音输入的音频段。也就是说,在人机交互过程开启前,执行初始化操作,通过无语音输入的音频段来构建抑噪模型,并获取用于判断音频特征的初始预定阈值条件。其中,上述初始预定阈值条件可以但不限于根据前N个音频段的音频特征的平均值确定。
可选地,在本实施例中,在提取每个音频段中的音频特征之前,还包括:对采集到的待检测的音频信号进行二次量化,其中,第二次量化的量化级小于第一次量化的量化级。
需要说明的是,在本实施例中,第一次量化可以但不限于在采集音频信号时进行;第二次量化可以但不限于在执行抑噪处理后进行。此外,在本实施例中,量化级越大,干扰越敏感,也就是说,在量化级较大时,由于量化间隔较小,因而较小的噪声信号也会被执行量化操作,这样量化后的结果既包括语音信号,也包括噪声信号,对语音信号检测造成了很大干扰。在本实施例中,通过调整量化级实现二次量化,即第二次量化的量化级小于第一次量化的量化级,从而实现对噪声信号进行二次过滤,以达到降低干扰的效果。
可选地,在本实施例中,将待检测的音频信号划分为多个音频段可以包括但不限于:通过定长窗口采样设备采集到的音频信号。其中,在本实施例中,上述定长窗口的长度较小,例如,采用的窗口的长度为256(信号个数)。即,通过小窗口实现对音频信号的划分,从而实现实时地返回处理结果,以便完成语音信号的实时检测。
通过本申请提供的实施例,通过将待检测的音频信号划分为多个音频段,并提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征,从而实现融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段,以降低音频段中的噪声信号对语音检测过程的干扰,达到提高语音检测的准确率的目的,进而克服现有技术中仅通过单个特征来检测语音的方式所导致的检测准确率较低的问题。
作为一种可选的方案,根据音频段的音频特征从音频段中检测出目标语音段包括:
S1,判断当前音频段的音频特征是否满足预定阈值条件,其中,当前音频段的音频特征包括:当前音频段在时域的信号过零率、当前音频段在时域的短时能量、当前音频段在频域的谱平度、当前音频段在时域的信号信息熵;
S2,在当前音频段的音频特征满足预定阈值条件时,则检测出当前音频段为目标语音段。
可选地,在本实施例中,对N个音频段中的当前音频段x(i)的音频特征可以通过如下公式获取:
1)在时域的信号过零率(即短时过零率)计算:
其中sgn[]是符号函数:
2)在时域的短时能量计算:
其中h[i]是窗口函数,当采用下列函数
3)在频域的谱平度计算:
首先对音频段x(i)i=0,1,2…,N-1进行傅立叶变换得到频域幅度值大小f(i)i=0,1,2…,N-1;
根据以下公式计算谱平度:
4)在时域的信号信息熵计算:
首先计算信号绝对值归一化后的相对概率大小:
再根据以下公式计算信号信息熵:
具体结合以下示例进行说明,如图4示出了带有脉冲噪声的原始音频信号,中间带((横轴50000-150000之间的信号)有一些脉冲噪声,语音信号为最后一段(横轴230000-240000之间的信号);图5示出了对原始音频信号单独提取信号过零率的音频信号,可以看到根据信号过零率特征能够很好地区别出脉冲噪声,如中间带((横轴50000-150000之间的信号)的脉冲噪声可以被直接过滤,但是对于低能量的非脉冲噪声(横轴210000-220000之间的信号)却不能被区分出来;图6示出了对原始音频信号单独提取短时能量的音频信号,可以看到根据短时能量特征可以过滤低能量的非脉冲噪声(横轴210000-220000之间的信号),但是却无法区分中间带((横轴50000-150000之间的信号)的脉冲噪声(脉冲信号也有比较大的能量);图7示出了对原始音频信号提取谱平度和信号信息熵音频信号,这两者能过把语音信号和脉冲噪声都检测出来,能够最大程度的保留所有类语音信号;进一步,图8示出了采用本实施例中提供的方式:在提取谱平度和信号信息熵的基础上结合短时能量特征及信号过零率特征,可以分辨脉冲噪声和其他低能量噪声的干扰,把实际的语音信号检测出来。由上述附图所示信号可知,本实施例中提取出的音频信号将更利于准确检测出目标语音段。
通过本申请提供的实施例,通过在语音检测过程中融合上述在时域及频域的多个特征来抵抗脉冲和背景噪声的干扰,增强鲁棒性,以实现从待检测的音频信号所划分的多个音频段中准确检测出目标语音段,进而达到准确获取该目标语音段对应的语音信号的起始时间及终止时间,实现人机之间的自然交互。
作为一种可选的方案,根据音频段的音频特征从音频段中检测出目标语音段包括:
S1,重复执行以下步骤,直至当前音频段为多个音频段中的最后一个音频段,其中,当前音频段被初始化为多个音频段中的第一个音频段:
S11,判断当前音频段的音频特征是否满足预定阈值条件;
S12,在当前音频段的音频特征满足预定阈值条件时,则检测出当前音频段为目标语音段;
S13,在当前音频段的音频特征不满足预定阈值条件时,至少根据当前音频段的音频特征更新预定阈值条件,得到更新后的预定阈值条件;
S14,判断当前音频段是否为多个音频段中的最后一个音频段,若不是,则将当前音频段的下一个音频段作为当前音频段。
可选地,在本实施例中,上述预定阈值条件可以但不限于将根据变化的场景进行自适应更新调整。其中,在本实施例中,在按照音频信号的输入顺序从多个音频段中获取音频段,以判断音频段的音频特征是否满足预定阈值条件的情况下,上述预定阈值条件可以但不限于至少根据当前音频段的音频特征更新。也就是说,在需要更新预定阈值条件时,基于当前音频段(历史音频段)获取下一个更新后的预定阈值条件。
需要说明的是,对于待检测的音频信号来说,包括多个音频段,上述判断过程将对各个音频段重复执行,直至遍历上述待检测音频信号所划分的多个音频段。即,直至当前音频段为多个音频段中的最后一个音频段。
通过本申请提供的实施例,通过不断更新用于与音频特征进行比较的预定阈值条件,以保证在检测过程中根据不同场景准确从多个音频段中检测出目标语音段。进一步,对于音频段在多个域的多个特征,通过分别判断是否满足对应的预定阈值条件,以实现对音频段进行多次判断筛选,从而保证检测出准确的目标语音段。
作为一种可选的方案,
S1,判断当前音频段的音频特征是否满足预定阈值条件包括:S11,判断当前音频段在时域的信号过零率是否大于第一阈值;在当前音频段的信号过零率大于第一阈值时,判断当前音频段在时域的短时能量是否大于第二阈值;在当前音频段的短时能量大于第二阈值时,判断当前音频段在频域的谱平度是否小于第三阈值;在当前音频段在频域的谱平度小于第三阈值时,判断当前音频段在时域的信号信息熵是否小于第四阈值;
S2,在当前音频段的音频特征满足预定阈值条件时,则检测出当前音频段为目标语音段包括:S21,在判断出当前音频段的信号信息熵小于第四阈值时,则检测出当前音频段为目标语音段。
可选地,在本实施例中,上述根据当前音频段在时域及频域的多个特征来检测目标语音段的过程可以但不限于在对音频信号进行第二次量化后执行。本实施例中对此不做任何限定。
需要说明的是,上述音频特征在语音检测过程的作用如下:
1)信号过零率:获取当前音频段在时域的信号过零率;该信号过零率表示一段音频信号中波形穿过零轴的次数,一般情况下,语音信号的过零率比非语音信号大;
2)短时能量:获取当前音频段在时域幅度上的时域能量;该短时能量信号用于在信号能量上区分非语音信号和语音信号;一般情况下,语音信号的短时能量大于非语音信号的短时能量;
3)谱平度:对当前音频段进行傅立叶变换并计算其谱平度;其中,语音信号的频率分布比较集中,对应的谱平度较小;高斯白噪声信号频率分布比较分散,对应的谱平度较大;
4)信号信息熵:对当前音频段进行归一化后计算信号信息熵;其中,语音信号分布比较集中,对应的信号信息熵小,非语音信号特别是高斯白噪声分布比较分散,对应的信号信息熵比较大。
具体结合图9所示示例进行说明:
S902,获取当前音频段的音频特征;
S904,判断当前音频段的信号过零率是否大于第一阈值,如果当前音频段的信号过零率大于第一阈值,则进行下一步操作;如果当前音频段的信号过零率小于等于第一阈值,那么当前音频段直接判定为非目标语音段;
S906,判断当前音频段的短时能量是否大于第二阈值,如果大于第二阈值,则进行下一步的判断;如果当前音频段的短时能量小于等于第二阈值,那么当前音频段直接判定为非目标语音段,并根据该当前音频段的短时能量更新第二阈值;
S908,判断当前音频段的谱平度是否小于第三阈值,如果小于第三阈值,则进行下一步的判断;如果当前音频段的谱平度大于等于第三阈值,那么当前音频段直接判定为非目标语音段,并根据该当前音频段的谱平度更新第三阈值;
S910,判断当前音频段的信号信息熵是否小于第四阈值,如果小于第四阈值,则进行下一步的判断;如果当前音频段的信号信息熵大于等于第四阈值,那么当前音频段直接判定为非目标语音段,并根据该当前音频段的谱平度更新第四阈值。
在执行完步骤S910后,在判断出上述四个特征均满足所对应的预定阈值条件时,则判定当前音频段为目标语音段。
通过本申请提供的实施例,通过融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段,以降低音频段中的噪声信号对语音检测过程的干扰,达到提高语音检测的准确率的目的。
作为一种可选的方案,至少根据当前音频段的音频特征更新预定阈值条件包括:
1)在当前音频段的短时能量小于等于第二阈值时,至少根据当前音频段的短时能量更新第二阈值;或者
2)在当前音频段的谱平度大于等于第三阈值时,至少根据当前音频段的谱平度更新第三阈值;或者
3)在当前音频段的信号信息熵大于等于第四阈值时,至少根据当前音频段的信号信息熵更新第四阈值。
可选地,在本实施例中,至少根据当前音频段的音频特征更新预定阈值条件包括:
A=a×A'+(1-a)×B (8)
其中,a表示衰减系数,在B表示当前音频段的短时能量时,A’表示第二阈值,A表示更新后的第二阈值;在B表示当前音频段的谱平度时,A’表示第三阈值,A表示更新后的第三阈值;在B表示当前音频段的信号信息熵时,A’表示第四阈值,A表示更新后的第四阈值。
也就是说,在更新上述预定阈值条件时,是根据当前音频段(历史音频段)的音频特征来确定下一个音频段所需的预定阈值条件,从而使对目标语音检测过程更加准确。
通过本申请提供的实施例,通过不断更新用于与音频特征进行比较的预定阈值条件,以保证在检测过程中根据不同场景准确从多个音频段中检测出目标语音段。
作为一种可选的方案,在根据音频段的音频特征从音频段中检测出目标语音段之后,还包括:
S1,根据目标语音段在多个音频段中的位置确定目标语音段构成的连续语音段的起始时刻及终止时刻。
可选地,在本实施例中,上述语音段可以包括但不限于一个目标语音段,或连续多个目标语音段。其中,每一个目标语音段包括目标语音段的起始时刻,及目标语音段的终止时刻。
需要说明的是,在本实施例中,在从多个音频段检测出目标语音段的同时,即可根据目标语音段的时间标签,如目标语音段的起始时刻及目标语音段的终止时刻,来获取目标语音段构成的语音段的起始时刻及终止时刻。
可选地,在本实施例中,根据目标语音段在多个音频段中的位置确定目标语音段构成的连续语音段的起始时刻及终止时刻包括:
S1,获取连续K个目标语音段中的第一个目标语音段的起始时刻,作为连续语音段的起始时刻;
S2,在确认连续语音段的起始时刻后,获取在第K个目标语音段之后,连续M个非目标语音段中的第一个非目标语音段的起始时刻,作为连续语音段的终止时刻。
可选地,在本实施例中,上述K为大于等于1的整数,上述M可以根据不同场景设置为不同取值,本实施例中对此不做任何限定。
具体结合以下示例进行说明,假设从多个(例如,20个)音频段(假设每段时长均为T)中检测出的目标语音段包括:P1-P5,P7-P8,P10,P17-P20。进一步,假设M为5。
基于上述假设可知,前5个目标语音段连续,P5与P7之间包括一个非目标语音段(即P6),P8与P10之间包括一个非目标语音段(即P9),P10与P17之间包括6个非目标语音段(即P11-P16)。
根据前K个(即前5个)连续目标语音段可以确认:从待检测的音频信号中检测出一个包含语音信号的语音段A,其中,该语音段A的起始时刻为前5个目标语音段中的第一个目标语音段的起始时刻(即P1的起始时刻)。进一步,由于P5与P7之间非目标语音段的数量为1,即小于M(M=5);由于P8与P10之间非目标语音段的数量为1,即小于M(M=5),则可以判定在非目标语音段P6及非目标语音段P9时,上述语音段A并未终止。而由于P10与P17之间非目标语音段的数量为6,即大于M(M=5),即连续非目标语音段(P11-P16)的数量已满足M个的预设阈值,则可以判定上述语音段A在连续非目标语音段(即P11-P16)中的第一个非目标语音段的起始时刻(即P11的起始时刻)终止,则将P11的起始时刻作为语音段A的终止时刻。也就是说,语音段A的起始时刻为P1的起始时刻0,终止时刻为P11的起始时刻10T。
这里,需要说明的是,在本示例中,上述连续目标语音段P17-P20将用于判定下一个语音段B的检测过程。检测过程可以参照上述过程执行,本实施例中在此不再赘述。
此外,在本实施例中,可以但不限于实时获取待检测的音频信号,以便于检测音频信号中的音频段是否为目标语音段,从而达到准确检测出目标语音段构成的语音段的起始时刻及语音段的终止时刻,进而实现人机交互设备可以根据完整的语音段所要表达的语音信息后再进行准确答复,实现人机交互。需要说明的是,在实时获取待检测的音频信号的过程中,对于语音检测可以但不限于重复执行上述检测步骤。本实施例中在此不再赘述。
通过本申请提供的实施例,在准确检测出目标语音段的同时,还可以使人机交互设备快速实时地判断出目标语音段构成的语音段的起始时刻及终止时刻,从而实现人机交互设备对检测获取到的语音信息进行准确实时地反应,达到人机自然交互的效果。此外,人机交互设备通过准确检测出目标语音段所对应的语音信号的起始时间及终止时间,还将实现提高人机交互效率的效果,进而克服现有技术中由交互人员通过按下控制按钮来触发启动人机交互过程所导致的人机交互效率较低的问题。
作为一种可选的方案,在将待检测的音频信号划分为多个音频段之后,还包括:
S1,获取多个音频段中前N个音频段,其中,N为大于1的整数;
S2,根据前N个音频段构建抑噪模型,其中,抑噪模型用于对多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理;
S3,根据前N个音频段获取初始预定阈值条件。
例如,具体通过以下方式根据前N个音频段构建抑噪模型。假设音频信号包括纯净语音信号和独立的高斯白噪声,则可以通过以下方式来抑噪:对前N个音频段的背景噪声进行傅立叶变换,得到信号的频域信息;根据该背景噪声的频域信息,估计出噪声的频域对数普特征,以构建抑噪模型。进一步,对第N+1个音频段及其之后的音频段,可以但不限于基于上述抑噪模型采用最大释然估计方法,实现对音频信号进行消除噪声处理。
又例如,在人机交互过程开启前,执行初始化操作,通过无语音输入的音频段来构建抑噪模型,并获取用于判断音频特征的初始预定阈值条件。其中,上述初始预定阈值条件可以但不限于根据前N个音频段的音频特征的平均值确定。
通过本申请提供的实施例,利用多个音频段中前N个音频段来实现人机交互的初始化操作,如构建抑噪模型,以对多个音频段进行抑噪处理,避免噪声对语音信号的干扰。如获取用于判断音频特征的初始预定阈值条件,以便于对多个音频段进行语音检测。
作为一种可选的方案,在提取每个音频段中的音频特征之前,还包括:
S1,采集待检测的音频信号,其中,在采集音频信号时对音频信号进行第一次量化;
S2,对采集到的音频信号进行第二次量化,其中,第二次量化的量化级小于第一次量化的量化级。
需要说明的是,在本实施例中,第一次量化可以但不限于在采集音频信号时进行;第二次量化可以但不限于在执行抑噪处理后进行。此外,在本实施例中,量化级越大,干扰越敏感,也就是说,较小的干扰越容易对语音信号造成干扰,通过调整量化级进行二次干扰,以实现对干扰的二次过滤的效果。
具体结合以下示例进行说明,例如,在第一次量化时,采用16比特,在第二次量化时,采用8比特,即[-128--127]的范围;从而实现通过再次过滤,来准确区分语音信号与噪声。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述语音检测方法的语音检测装置,如图10所示,该装置包括:
1)划分单元1002,用于将待检测的音频信号划分为多个音频段;
3)提取单元1004,用于提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征;
3)检测单元1006,用于根据音频段的音频特征从音频段中检测出目标语音段。
可选地,在本实施例中,上述语音检测装置可以但不限于应用于以下至少一种场景中:智能机器人聊天系统、自动问答系统、人机聊天软件等。也就是说,将本实施例中所提供的语音检测装置应用于人机交互过程中,通过提取音频段中至少包括音频段的时域特征及频域特征的音频特征,来准确检测出对待检测的音频信号中所划分的多个音频段中的目标语音段,从而使用于人机交互的设备可以获知由目标语音段构成的语音段的起始时刻及终止时刻,以便于设备在获取所要表达的完整的语音信息后再进行准确答复。这里,在本实施例中,上述语音段可以包括但不限于:一个目标语音段或连续多个目标语音段。其中,每一个目标语音段包括该目标语音段的起始时刻及终止时刻。本实施例中对此不做任何限定。
需要说明的是,在本实施例中,人机交互设备通过将待检测的音频信号划分为多个音频段,并提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征,从而实现融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段,以降低音频段中的噪声信号对语音检测过程的干扰,达到提高语音检测的准确率的目的,进而克服现有技术中仅通过单个特征来检测语音的方式所导致的检测准确率较低的问题。
进一步,在准确检测出目标语音段的同时,还可以使人机交互设备快速实时地判断出由目标语音段构成的语音段的起始时刻及终止时刻,从而实现人机交互设备对检测获取到的语音信息进行准确实时地反应,达到人机自然交互的效果。此外,人机交互设备通过准确检测出目标语音段构成的语音段的起始时刻及终止时刻,还将实现提高人机交互效率的效果,进而克服现有技术中由交互人员通过按下控制按钮来触发启动人机交互过程所导致的人机交互效率较低的问题。
可选地,在本实施例中,上述音频特征可以包括但不限于以下至少之一:在时域的信号过零率、在时域的短时能量、在频域的谱平度、在时域的信号信息熵、自相关性系数、小波变换后信号、信号复杂度等。
需要说明的是,1)上述信号过零率可以但不限于用于去除一些脉冲噪声的干扰;2)上述短时能量可以但不限于用于衡量音频信号的幅度大小,配合一定的阈值以去除不相关人群说话语音的干扰;3)上述谱平度可以但不限于用于在频域内计算信号的频率分布特性,根据该特征的大小,以判断音频信号是否为背景高斯白噪声;4)上述信号时域信息熵可以但不限于用于度量音频信号在时域的分布特性,该特征用于区别语音信号和一般噪声。在本实施例中,通过在语音检测过程中融合上述在时域及频域的多个特征来抵抗脉冲和背景噪声的干扰,增强鲁棒性,以实现从待检测的音频信号所划分的多个音频段中准确检测出目标语音段,进而达到准确获取该目标语音段构成的语音段的起始时刻及终止时刻,以实现人机自然交互。
可选地,在本实施例中,根据音频段的音频特征从音频信号的多个音频段中检测出目标语音段的方式可以包括但不限于:判断音频段的音频特征是否满足预定阈值条件;在音频段的音频特征满足预定阈值条件时,则检测出该音频段为目标语音段。
需要说明的是,在本实施例中,在判断音频段的音频特征是否满足预定阈值条件时,可以按照以下至少一种顺序从多个音频段获取用于进行判断的当前音频段:1)按照音频信号的输入顺序;2)按照预定顺序。其中,上述预定顺序可以为随机顺序,也可以为按照预定原则排列的顺序,例如按照音频段的大小顺序。上述仅是一种示例,本实施例中对此不做任何限定。
此外,在本实施例中,上述预定阈值条件可以但不限于将根据变化的场景进行自适应更新调整。通过不断更新用于与音频特征进行比较的预定阈值条件,以保证在检测过程中根据不同场景准确从多个音频段中检测出目标语音段。进一步,对于音频段在多个域的多个特征,通过分别判断是否满足对应的预定阈值条件,以实现对音频段进行多次判断筛选,从而保证准确地检测出目标语音段。
可选地,在本实施例中,在按照音频信号的输入顺序从多个音频段中获取音频段,以判断音频段的音频特征是否满足预定阈值条件的情况下,根据音频段的音频特征从音频段中检测出目标语音段包括:重复执行以下步骤,直至当前音频段为多个音频段中的最后一个音频段,其中,当前音频段被初始化为多个音频段中的第一个音频段:
S1,判断当前音频段的音频特征是否满足预定阈值条件;
S2,在当前音频段的音频特征满足预定阈值条件时,则检测出当前音频段为目标语音段;
S3,在当前音频段的音频特征不满足预定阈值条件时,至少根据当前音频段的音频特征更新预定阈值条件,得到更新后的预定阈值条件;
S4,判断当前音频段是否为多个音频段中的最后一个音频段,若不是,则将当前音频段的下一个音频段作为当前音频段。
需要说明的是,在本实施例中,上述预定阈值条件可以但不限于至少根据当前音频段的音频特征更新,以得到更新后的预定阈值条件。也就是说,在更新上述预定阈值条件时,是根据当前音频段(历史音频段)的音频特征来确定下一个音频段所需的预定阈值条件,从而使对音频段的检测过程更加准确。
可选地,在本实施例中,上述装置还包括:
1)第一获取单元,用于在将待检测的音频信号划分为多个音频段之后,获取多个音频段中前N个音频段,其中,N为大于1的整数;
2)构建单元,用于根据前N个音频段构建抑噪模型,其中,抑噪模型用于对多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理;
3)第二获取单元,用于根据前N个音频段获取初始预定阈值条件。
需要说明的是,为了保证语音检测过程的准确率,在本实施例中将对多个音频段进行抑噪处理,以避免噪声对语音信号的干扰。例如,采用最小均方误差对数谱幅度估计方式来消除音频信号的背景噪声。
可选地,在本实施例中,上述前N个音频段可以但不限于为无语音输入的音频段。也就是说,在人机交互过程开启前,执行初始化操作,通过无语音输入的音频段来构建抑噪模型,并获取用于判断音频特征的初始预定阈值条件。其中,上述初始预定阈值条件可以但不限于根据前N个音频段的音频特征的平均值确定。
可选地,在本实施例中,在提取每个音频段中的音频特征之前,还包括:对采集到的待检测的音频信号进行二次量化,其中,第二次量化的量化级小于第一次量化的量化级。
需要说明的是,在本实施例中,第一次量化可以但不限于在采集音频信号时进行;第二次量化可以但不限于在执行抑噪处理后进行。此外,在本实施例中,量化级越大,干扰越敏感,也就是说,在量化级较大时,由于量化间隔较小,因而较小的噪声信号也会被执行量化操作,这样量化后的结果既包括语音信号,也包括噪声信号,对语音信号检测造成了很大干扰。在本实施例中,通过调整量化级实现二次量化,即第二次量化的量化级小于第一次量化的量化级,从而实现对噪声信号进行二次过滤,以达到降低干扰的效果。
可选地,在本实施例中,将待检测的音频信号划分为多个音频段可以包括但不限于:通过定长窗口采样设备采集到的音频信号。其中,在本实施例中,上述定长窗口的长度较小,例如,采用的窗口的长度为256(信号个数)。即,通过小窗口实现对音频信号的划分,从而实现实时地返回处理结果,以便完成语音信号的实时检测。
通过本申请提供的实施例,通过将待检测的音频信号划分为多个音频段,并提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征,从而实现融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段,以降低音频段中的噪声信号对语音检测过程的干扰,达到提高语音检测的准确率的目的,进而克服现有技术中仅通过单个特征来检测语音的方式所导致的检测准确率较低的问题。
作为一种可选的方案,检测单元1006包括:
1)判断模块,用于判断当前音频段的音频特征是否满足预定阈值条件,其中,当前音频段的音频特征包括:当前音频段在时域的信号过零率、当前音频段在时域的短时能量、当前音频段在频域的谱平度、当前音频段在时域的信号信息熵;
2)检测模块,用于在当前音频段的音频特征满足预定阈值条件时,则检测出当前音频段为目标语音段。
可选地,在本实施例中,对N个音频段中的当前音频段x(i)的音频特征可以通过如下公式获取:
1)在时域的信号过零率(即短时过零率)计算:
其中sgn[]是符号函数:
2)在时域的短时能量计算:
其中h[i]是窗口函数,当采用下列函数
3)在频域的谱平度计算:
首先对音频段x(i)i=0,1,2…,N-1进行傅立叶变换得到频域幅度值大小f(i)i=0,1,2…,N-1;
根据以下公式计算谱平度:
4)在时域的信号信息熵计算:
首先计算信号绝对值归一化后的相对概率大小:
再根据以下公式计算信号信息熵:
具体结合以下示例进行说明,如图4示出了带有脉冲噪声的原始音频信号,中间带((横轴50000-150000之间的信号)有一些脉冲噪声,语音信号为最后一段(横轴230000-240000之间的信号);图5示出了对原始音频信号单独提取信号过零率的音频信号,可以看到根据信号过零率特征能够很好地区别出脉冲噪声,如中间带((横轴50000-150000之间的信号)的脉冲噪声可以被直接过滤,但是对于低能量的非脉冲噪声(横轴210000-220000之间的信号)却不能被区分出来;图6示出了对原始音频信号单独提取短时能量的音频信号,可以看到根据短时能量特征可以过滤低能量的非脉冲噪声(横轴210000-220000之间的信号),但是却无法区分中间带((横轴50000-150000之间的信号)的脉冲噪声(脉冲信号也有比较大的能量);图7示出了对原始音频信号提取谱平度和信号信息熵音频信号,这两者能过把语音信号和脉冲噪声都检测出来,能够最大程度的保留所有类语音信号;进一步,此外,图8示出了采用本实施例中提供的方式:在提取谱平度和信号信息熵的基础上结合提取短时能量上述四个特征及信号过零率特征的音频信号。,可以分辨脉冲噪声和其他低能量噪声的干扰,把实际的语音信号检测出来。由上述附图所示信号可知,本实施例中提取出的音频信号将更利于准确检测出目标语音段。
通过本申请提供的实施例,通过在语音检测过程中融合上述在时域及频域的多个特征来抵抗脉冲和背景噪声的干扰,增强鲁棒性,以实现从待检测的音频信号所划分的多个音频段中准确检测出目标语音段,进而达到准确获取该目标语音段对应的语音信号的起始时间及终止时间,实现人机之间的自然交互。
作为一种可选的方案,检测单元1006包括:
1)判断模块,用于重复执行以下步骤,直至当前音频段为多个音频段中的最后一个音频段,其中,当前音频段被初始化为多个音频段中的第一个音频段:
S1,判断当前音频段的音频特征是否满足预定阈值条件;
S2,在当前音频段的音频特征满足预定阈值条件时,则检测出当前音频段为目标语音段;
S3,在当前音频段的音频特征不满足预定阈值条件时,至少根据当前音频段的音频特征更新预定阈值条件,得到更新后的预定阈值条件;
S4,判断当前音频段是否为多个音频段中的最后一个音频段,若不是,则将当前音频段的下一个音频段作为当前音频段。
可选地,在本实施例中,上述预定阈值条件可以但不限于将根据变化的场景进行自适应更新调整。其中,在本实施例中,在按照音频信号的输入顺序从多个音频段中获取音频段,以判断音频段的音频特征是否满足预定阈值条件的情况下,上述预定阈值条件可以但不限于至少根据当前音频段的音频特征更新。也就是说,在需要更新预定阈值条件时,基于当前音频段(历史音频段)获取下一个更新后的预定阈值条件。
需要说明的是,对于待检测的音频信号来说,包括多个音频段,上述判断过程将对各个音频段重复执行,直至遍历上述待检测音频信号所划分的多个音频段。即,直至当前音频段为多个音频段中的最后一个音频段。
通过本申请提供的实施例,通过不断更新用于与音频特征进行比较的预定阈值条件,以保证在检测过程中根据不同场景准确从多个音频段中检测出目标语音段。进一步,对于音频段在多个域的多个特征,通过分别判断是否满足对应的预定阈值条件,以实现对音频段进行多次判断筛选,从而保证检测出准确的目标语音段。
作为一种可选的方案,
1)判断模块包括:(1)判断子模块,用于判断当前音频段在时域的信号过零率是否大于第一阈值;在当前音频段的信号过零率大于第一阈值时,判断当前音频段在时域的短时能量是否大于第二阈值;在当前音频段的短时能量大于第二阈值时,判断当前音频段在频域的谱平度是否小于第三阈值;在当前音频段在频域的谱平度小于第三阈值时,判断当前音频段在时域的信号信息熵是否小于第四阈值;
2)检测模块包括:(1)检测子模块,用于在判断出当前音频段的信号信息熵小于第四阈值时,则检测出当前音频段为目标语音段。
可选地,在本实施例中,上述根据当前音频段在时域及频域的多个特征来检测目标语音段的过程可以但不限于在对音频信号进行第二次量化后执行。本实施例中对此不做任何限定。
需要说明的是,上述音频特征在语音检测过程的作用如下:
1)信号过零率:获取当前音频段在时域的信号过零率;该信号过零率表示一段音频信号中波形穿过零轴的次数,一般情况下,语音信号的过零率比非语音信号大;
2)短时能量:获取当前音频段在时域幅度上的时域能量;该短时能量信号用于在信号能量上区分非语音信号和语音信号;一般情况下,语音信号的短时能量大于非语音信号的短时能量;
3)谱平度:对当前音频段进行傅立叶变换并计算其谱平度;其中,语音信号的频率分布比较集中,对应的谱平度较小;高斯白噪声信号频率分布比较分散,对应的谱平度较大;
4)信号信息熵:对当前音频段进行归一化后计算信号信息熵;其中,语音信号分布比较集中,对应的信号信息熵小,非语音信号特别是高斯白噪声分布比较分散,对应的信号信息熵比较大。
具体结合图9所示示例进行说明:
S902,获取当前音频段的音频特征;
S904,判断当前音频段的信号过零率是否大于第一阈值,如果当前音频段的信号过零率大于第一阈值,则进行下一步操作;如果当前音频段的信号过零率小于等于第一阈值,那么当前音频段直接判定为非目标语音段;
S906,判断当前音频段的短时能量是否大于第二阈值,如果大于第二阈值,则进行下一步的判断;如果当前音频段的短时能量小于等于第二阈值,那么当前音频段直接判定为非目标语音段,并根据该当前音频段的短时能量更新第二阈值;
S908,判断当前音频段的谱平度是否小于第三阈值,如果小于第三阈值,则进行下一步的判断;如果当前音频段的谱平度大于等于第三阈值,那么当前音频段直接判定为非目标语音段,并根据该当前音频段的谱平度更新第三阈值;
S910,判断当前音频段的信号信息熵是否小于第四阈值,如果小于第四阈值,则进行下一步的判断;如果当前音频段的信号信息熵大于等于第四阈值,那么当前音频段直接判定为非目标语音段,并根据该当前音频段的谱平度更新第四阈值。
在执行完步骤S910后,在判断出上述四个特征均满足所对应的预定阈值条件时,则判定当前音频段为目标语音段。
通过本申请提供的实施例,通过融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段,以降低音频段中的噪声信号对语音检测过程的干扰,达到提高语音检测的准确率的目的。
作为一种可选的方案,判断模块通过以下步骤实现至少根据当前音频段的音频特征更新预定阈值条件包括:
1)在当前音频段的短时能量小于等于第二阈值时,至少根据当前音频段的短时能量更新第二阈值;或者
2)在当前音频段的谱平度大于等于第三阈值时,至少根据当前音频段的谱平度更新第三阈值;或者
3)在当前音频段的信号信息熵大于等于第四阈值时,至少根据当前音频段的信号信息熵更新第四阈值。
可选地,在本实施例中,判断模块通过以下步骤实现至少根据当前音频段的音频特征更新预定阈值条件包括:
A=a×A'+(1-a)×B (8)
其中,a表示衰减系数,在B表示当前音频段的短时能量时,A’表示第二阈值,A表示更新后的第二阈值;在B表示当前音频段的谱平度时,A’表示第三阈值,A表示更新后的第三阈值;在B表示当前音频段的信号信息熵时,A’表示第四阈值,A表示更新后的第四阈值。
也就是说,在更新上述预定阈值条件时,是根据当前音频段(历史音频段)的音频特征来确定下一个音频段所需的预定阈值条件,从而使对目标语音检测过程更加准确。
通过本申请提供的实施例,通过不断更新用于与音频特征进行比较的预定阈值条件,以保证在检测过程中根据不同场景准确从多个音频段中检测出目标语音段。
作为一种可选的方案,还包括:
1)确定单元,用于在根据音频段的音频特征从音频段中检测出目标语音段之后,根据目标语音段在多个音频段中的位置确定目标语音段构成的连续语音段的起始时刻及终止时刻。
可选地,在本实施例中,上述语音段可以包括但不限于一个目标语音段,或连续多个目标语音段。其中,每一个目标语音段包括目标语音段的起始时刻,及目标语音段的终止时刻。
需要说明的是,在本实施例中,在从多个音频段检测出目标语音段的同时,即可根据目标语音段的时间标签,如目标语音段的起始时刻及目标语音段的终止时刻,来获取目标语音段构成的语音段的起始时刻及终止时刻。
可选地,在本实施例中,上述确定单元包括:
1)第一获取模块,用于获取连续K个目标语音段中的第一个目标语音段的起始时刻,作为连续语音段的起始时刻;
2)第二获取模块,用于在确认连续语音段的起始时刻后,获取在第K个目标语音段之后,连续M个非目标语音段中的第一个非目标语音段的起始时刻,作为连续语音段的终止时刻
可选地,在本实施例中,上述K为大于等于1的整数,上述M可以根据不同场景设置为不同取值,本实施例中对此不做任何限定。
具体结合以下示例进行说明,假设从多个(例如,20个)音频段(假设每段时长均为T)中检测出的目标语音段包括:P1-P5,P7-P8,P10,P17-P20。进一步,假设M为5。
基于上述假设可知,前5个目标语音段连续,P5与P7之间包括一个非目标语音段(即P6),P8与P10之间包括一个非目标语音段(即P9),P10与P17之间包括6个非目标语音段(即P11-P16)。
根据前K个(即前5个)连续目标语音段可以确认:从待检测的音频信号中检测出一个包含语音信号的语音段A,其中,该语音段A的起始时刻为前5个目标语音段中的第一个目标语音段的起始时刻(即P1的起始时刻)。进一步,由于P5与P7之间非目标语音段的数量为1,即小于M(M=5);由于P8与P10之间非目标语音段的数量为1,即小于M(M=5),则可以判定在非目标语音段P6及非目标语音段P9时,上述语音段A并未终止。而由于P10与P17之间非目标语音段的数量为6,即大于M(M=5),即连续非目标语音段(P11-P16)的数量已满足M个的预设阈值,则可以判定上述语音段A在连续非目标语音段(即P11-P16)中的第一个非目标语音段的起始时刻(即P11的起始时刻)终止,则将P11的起始时刻作为语音段A的终止时刻。也就是说,语音段A的起始时刻为P1的起始时刻0,终止时刻为P11的起始时刻10T。
这里,需要说明的是,在本示例中,上述连续目标语音段P17-P20将用于判定下一个语音段B的检测过程。检测过程可以参照上述过程执行,本实施例中在此不再赘述。
此外,在本实施例中,可以但不限于实时获取待检测的音频信号,以便于检测音频信号中的音频段是否为目标语音段,从而达到准确检测出目标语音段构成的语音段的起始时刻及语音段的终止时刻,进而实现人机交互设备可以根据完整的语音段所要表达的语音信息后再进行准确答复,实现人机交互。需要说明的是,在实时获取待检测的音频信号的过程中,对于语音检测可以但不限于重复执行上述检测步骤。本实施例中在此不再赘述。
通过本申请提供的实施例,在准确检测出目标语音段的同时,还可以使人机交互设备快速实时地判断出目标语音段构成的语音段的起始时刻及终止时刻,从而实现人机交互设备对获取到的语音信息进行准确实时地反应,达到人机自然交互的效果。此外,人机交互设备通过准确检测出目标语音段所对应的语音信号的起始时间及终止时间,还将实现提高人机交互效率的效果,进而克服现有技术中由交互人员通过按下控制按钮来触发启动人机交互过程所导致的人机交互效率较低的问题。
作为一种可选的方案,还包括:
1)第一获取单元,用于在将待检测的音频信号划分为多个音频段之后,获取多个音频段中前N个音频段,其中,N为大于1的整数;
2)构建单元,用于根据前N个音频段构建抑噪模型,其中,抑噪模型用于对多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理;
3)第二获取单元,用于根据前N个音频段获取初始预定阈值条件。
例如,具体通过以下方式根据前N个音频段构建抑噪模型。假设音频信号包括纯净语音信号和独立的高斯白噪声,则可以通过以下方式来抑噪:对前N个音频段的背景噪声进行傅立叶变换,得到信号的频域信息;根据该背景噪声的频域信息,估计出噪声的频域对数普特征,以构建抑噪模型。进一步,对第N+1个音频段及其之后的音频段,可以但不限于基于上述抑噪模型采用最大释然估计方法,实现对音频信号进行消除噪声处理。
又例如,在人机交互过程开启前,执行初始化操作,通过无语音输入的音频段来构建抑噪模型,并获取用于判断音频特征的初始预定阈值条件。其中,上述初始预定阈值条件可以但不限于根据前N个音频段的音频特征的平均值确定。
通过本申请提供的实施例,利用多个音频段中前N个音频段来实现人机交互的初始化操作,如构建抑噪模型,以对多个音频段进行抑噪处理,避免噪声对语音信号的干扰。如获取用于判断音频特征的初始预定阈值条件,以便于对多个音频段进行语音检测。
作为一种可选的方案,还包括:
1)采集单元,用于在提取每个音频段中的音频特征之前,采集待检测的音频信号,其中,在采集音频信号时对音频信号进行第一次量化;
2)量化单元,用于对采集到的音频信号进行第二次量化,其中,第二次量化的量化级小于第一次量化的量化级。
需要说明的是,在本实施例中,第一次量化可以但不限于在采集音频信号时进行;第二次量化可以但不限于在执行抑噪处理后进行。此外,在本实施例中,量化级越大,干扰越敏感,也就是说,较小的干扰越容易对语音信号造成干扰,通过调整量化级进行二次干扰,以实现对干扰的二次过滤的效果。
具体结合以下示例进行说明,例如,在第一次量化时,采用16比特,在第二次量化时,采用8比特,即[-128--127]的范围;从而实现通过再次过滤,来准确区分语音信号与噪声。
实施例3
根据本发明实施例,还提供了一种用于实施上述语音检测方法的语音检测设备,如图11所示,该设备包括:
1)通讯接口1102,设置为获取待检测的音频信号;
2)处理器1104,与通讯接口1102连接,设置为将待检测的音频信号划分为多个音频段;还设置为提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征;还设置为根据音频段的音频特征从音频段中检测出目标语音段;
3)存储器1106,与通讯接口1102及处理器1104连接,设置为存储音频信号中的多个音频段及目标语音段。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,将待检测的音频信号划分为多个音频段;
S2,提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征;
S3,根据音频段的音频特征从音频段中检测出目标语音。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (22)

1.一种语音检测方法,其特征在于,包括:
将待检测的音频信号划分为多个音频段;
提取每个所述音频段中的音频特征,其中,所述音频特征至少包括所述音频段的时域特征及频域特征;
根据所述音频段的所述音频特征从所述音频段中检测出目标语音段。
2.根据权利要求1所述的方法,其特征在于,根据所述音频段的所述音频特征从所述音频段中检测出所述目标语音段包括:
判断当前音频段的音频特征是否满足预定阈值条件,其中,所述当前音频段的音频特征包括:所述当前音频段在时域的信号过零率、所述当前音频段在时域的短时能量、所述当前音频段在频域的谱平度、所述当前音频段在时域的信号信息熵;
在所述当前音频段的音频特征满足所述预定阈值条件时,则检测出所述当前音频段为所述目标语音段。
3.根据权利要求1所述的方法,其特征在于,根据所述音频段的所述音频特征从所述音频段中检测出所述目标语音段包括:重复执行以下步骤,直至当前音频段为所述多个音频段中的最后一个音频段,其中,所述当前音频段被初始化为所述多个音频段中的第一个音频段:
判断所述当前音频段的音频特征是否满足预定阈值条件;
在所述当前音频段的音频特征满足所述预定阈值条件时,则检测出所述当前音频段为所述目标语音段;
在所述当前音频段的音频特征不满足所述预定阈值条件时,至少根据所述当前音频段的音频特征更新所述预定阈值条件,得到更新后的所述预定阈值条件;
判断所述当前音频段是否为所述多个音频段中的最后一个音频段,若不是,则将所述当前音频段的下一个音频段作为所述当前音频段。
4.根据权利要求2或3所述的方法,其特征在于,
判断所述当前音频段的音频特征是否满足所述预定阈值条件包括:判断所述当前音频段在时域的信号过零率是否大于第一阈值;在所述当前音频段的所述信号过零率大于所述第一阈值时,判断所述当前音频段在时域的短时能量是否大于第二阈值;在所述当前音频段的所述短时能量大于所述第二阈值时,判断所述当前音频段在频域的谱平度是否小于第三阈值;在所述当前音频段在频域的所述谱平度小于所述第三阈值时,判断所述当前音频段在时域的信号信息熵是否小于第四阈值;
在所述当前音频段的音频特征满足所述预定阈值条件时,则检测出所述当前音频段为所述目标语音段包括:在判断出所述当前音频段的所述信号信息熵小于所述第四阈值时,则检测出所述当前音频段为所述目标语音段。
5.根据权利要求4所述的方法,其特征在于,至少根据所述当前音频段的音频特征更新所述预定阈值条件包括:
在所述当前音频段的所述短时能量小于等于所述第二阈值时,至少根据所述当前音频段的所述短时能量更新所述第二阈值;或者
在所述当前音频段的所述谱平度大于等于所述第三阈值时,至少根据所述当前音频段的所述谱平度更新所述第三阈值;或者
在所述当前音频段的所述信号信息熵大于等于所述第四阈值时,至少根据所述当前音频段的所述信号信息熵更新所述第四阈值。
6.根据权利要求5所述的方法,其特征在于,至少根据所述当前音频段的音频特征更新所述预定阈值条件包括:
A=a×A'+(1-a)×B,
其中,所述a表示衰减系数,在所述B表示所述当前音频段的所述短时能量时,所述A’表示所述第二阈值,所述A表示更新后的所述第二阈值;在所述B表示所述当前音频段的所述谱平度时,所述A’表示所述第三阈值,所述A表示更新后的所述第三阈值;在所述B表示所述当前音频段的所述信号信息熵时,所述A’表示所述第四阈值,所述A表示更新后的所述第四阈值。
7.根据权利要求1所述的方法,其特征在于,在根据所述音频段的所述音频特征从所述音频段中检测出目标语音段之后,还包括:
根据所述目标语音段在所述多个音频段中的位置确定所述目标语音段构成的连续语音段的起始时刻及终止时刻。
8.根据权利要求7所述的方法,其特征在于,所述根据所述目标语音段在所述多个音频段中的位置确定所述目标语音段构成的连续语音段的起始时刻及终止时刻包括:
获取连续K个所述目标语音段中的第一个目标语音段的起始时刻,作为所述连续语音段的所述起始时刻;
在确认所述连续语音段的起始时刻后,获取在第K个目标语音段之后,连续M个非目标语音段中的第一个非目标语音段的起始时刻,作为所述连续语音段的所述终止时刻。
9.根据权利要求2或3所述的方法,其特征在于,在将待检测的所述音频信号划分为所述多个音频段之后,还包括:
获取所述多个音频段中前N个音频段,其中,所述N为大于1的整数;
根据所述前N个音频段构建抑噪模型,其中,所述抑噪模型用于对所述多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理;
根据所述前N个音频段获取初始预定阈值条件。
10.根据权利要求1所述的方法,其特征在于,在提取每个所述音频段中的音频特征之前,还包括:
采集待检测的所述音频信号,其中,在采集所述音频信号时对所述音频信号进行第一次量化;
对采集到的所述音频信号进行第二次量化,其中,所述第二次量化的量化级小于所述第一次量化的量化级。
11.根据权利要求10所述的方法,其特征在于,在所述对采集到的所述音频信号进行第二次量化之前,还包括:
对所述采集到的所述音频信号进行抑噪处理。
12.一种语音检测装置,其特征在于,包括:
划分单元,用于将待检测的音频信号划分为多个音频段;
提取单元,用于提取每个所述音频段中的音频特征,其中,所述音频特征至少包括所述音频段的时域特征及频域特征;
检测单元,用于根据所述音频段的所述音频特征从所述音频段中检测出目标语音段。
13.根据权利要求12所述的装置,其特征在于,所述检测单元包括:
判断模块,用于判断当前音频段的音频特征是否满足预定阈值条件,其中,所述当前音频段的音频特征包括:所述当前音频段在时域的信号过零率、所述当前音频段在时域的短时能量、所述当前音频段在频域的谱平度、所述当前音频段在时域的信号信息熵;
检测模块,用于在所述当前音频段的音频特征满足所述预定阈值条件时,则检测出所述当前音频段为所述目标语音段。
14.根据权利要求12所述的装置,其特征在于,所述检测单元包括:
判断模块,用于重复执行以下步骤,直至当前音频段为所述多个音频段中的最后一个音频段,其中,所述当前音频段被初始化为所述多个音频段中的第一个音频段:
判断所述当前音频段的音频特征是否满足预定阈值条件;
在所述当前音频段的音频特征满足所述预定阈值条件时,则检测出所述当前音频段为所述目标语音段;
在所述当前音频段的音频特征不满足所述预定阈值条件时,至少根据所述当前音频段的音频特征更新所述预定阈值条件,得到更新后的所述预定阈值条件;
判断所述当前音频段是否为所述多个音频段中的最后一个音频段,若不是,则将所述当前音频段的下一个音频段作为所述当前音频段。
15.根据权利要求13或14所述的装置,其特征在于,
所述判断模块包括:判断子模块,用于判断所述当前音频段在时域的信号过零率是否大于第一阈值;在所述当前音频段的所述信号过零率大于所述第一阈值时,判断所述当前音频段在时域的短时能量是否大于第二阈值;在所述当前音频段的所述短时能量大于所述第二阈值时,判断所述当前音频段在频域的谱平度是否小于第三阈值;在所述当前音频段在频域的所述谱平度小于所述第三阈值时,判断所述当前音频段在时域的信号信息熵是否小于第四阈值;
所述检测模块包括:检测子模块,用于在判断出所述当前音频段的所述信号信息熵小于所述第四阈值时,则检测出所述当前音频段为所述目标语音段。
16.根据权利要求15所述的装置,其特征在于,所述判断模块通过以下步骤实现至少根据所述当前音频段的音频特征更新所述预定阈值条件:
在所述当前音频段的所述短时能量小于等于所述第二阈值时,至少根据所述当前音频段的所述短时能量更新所述第二阈值;或者
在所述当前音频段的所述谱平度大于等于所述第三阈值时,至少根据所述当前音频段的所述谱平度更新所述第三阈值;或者
在所述当前音频段的所述信号信息熵大于等于所述第四阈值时,至少根据所述当前音频段的所述信号信息熵更新所述第四阈值。
17.根据权利要求16所述的装置,其特征在于,所述判断模块通过以下步骤实现至少根据所述当前音频段的音频特征更新所述预定阈值条件:
A=a×A'+(1-a)×B,
其中,所述a表示衰减系数,在所述B表示所述当前音频段的所述短时能量时,所述A’表示所述第二阈值,所述A表示更新后的所述第二阈值;在所述B表示所述当前音频段的所述谱平度时,所述A’表示所述第三阈值,所述A表示更新后的所述第三阈值;在所述B表示所述当前音频段的所述信号信息熵时,所述A’表示所述第四阈值,所述A表示更新后的所述第四阈值。
18.根据权利要求12所述的装置,其特征在于,还包括:
确定单元,用于在根据所述音频段的所述音频特征从所述音频段中检测出目标语音段之后,根据所述目标语音段在所述多个音频段中的位置确定所述目标语音段构成的连续语音段的起始时刻及终止时刻。
19.根据权利要求18所述的装置,其特征在于,所述确定单元包括:
第一获取模块,用于获取连续K个所述目标语音段中的第一个目标语音段的起始时刻,作为所述连续语音段的所述起始时刻;
第二获取模块,用于在确认所述连续语音段的起始时刻后,获取在第K个目标语音段之后,连续M个非目标语音段中的第一个非目标语音段的起始时刻,作为所述连续语音段的所述终止时刻。
20.根据权利要求13或14所述的装置,其特征在于,还包括:
第一获取单元,用于在将待识别的所述音频信号划分为所述多个音频段之后,获取所述多个音频段中前N个音频段,其中,所述N为大于1的整数;
构建单元,用于根据所述前N个音频段构建抑噪模型,其中,所述抑噪模型用于对所述多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理;
第二获取单元,用于根据所述前N个音频段获取初始预定阈值条件。
21.根据权利要求12所述的装置,其特征在于,还包括:
采集单元,用于在提取每个所述音频段中的音频特征之前,采集待识别的所述音频信号,其中,在采集所述音频信号时对所述音频信号进行第一次量化;
量化单元,用于对采集到的所述音频信号进行第二次量化,其中,所述第二次量化的量化级小于所述第一次量化的量化级。
22.根据权利要求21所述的装置,其特征在于,还包括:
抑噪单元,用于在所述对采集到的所述音频信号进行第二次量化之前,对所述采集到的所述音频信号进行抑噪处理。
CN201610257244.7A 2016-04-22 2016-04-22 语音检测方法和装置 Active CN107305774B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201610257244.7A CN107305774B (zh) 2016-04-22 2016-04-22 语音检测方法和装置
PCT/CN2017/074798 WO2017181772A1 (zh) 2016-04-22 2017-02-24 语音检测方法、装置及存储介质
EP17785258.9A EP3447769B1 (en) 2016-04-22 2017-02-24 Voice detection method and apparatus, and storage medium
JP2018516116A JP6705892B2 (ja) 2016-04-22 2017-02-24 音声検出方法、装置及び記憶媒体
KR1020187012848A KR102037195B1 (ko) 2016-04-22 2017-02-24 음성 검측 방법, 장치 및 기억 매체
US15/968,526 US10872620B2 (en) 2016-04-22 2018-05-01 Voice detection method and apparatus, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610257244.7A CN107305774B (zh) 2016-04-22 2016-04-22 语音检测方法和装置

Publications (2)

Publication Number Publication Date
CN107305774A true CN107305774A (zh) 2017-10-31
CN107305774B CN107305774B (zh) 2020-11-03

Family

ID=60116605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610257244.7A Active CN107305774B (zh) 2016-04-22 2016-04-22 语音检测方法和装置

Country Status (6)

Country Link
US (1) US10872620B2 (zh)
EP (1) EP3447769B1 (zh)
JP (1) JP6705892B2 (zh)
KR (1) KR102037195B1 (zh)
CN (1) CN107305774B (zh)
WO (1) WO2017181772A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108447505A (zh) * 2018-05-25 2018-08-24 百度在线网络技术(北京)有限公司 音频信号过零率处理方法、装置及语音识别设备
CN108986830A (zh) * 2018-08-28 2018-12-11 安徽淘云科技有限公司 一种音频语料筛选方法及装置
CN109389993A (zh) * 2018-12-14 2019-02-26 广州势必可赢网络科技有限公司 一种语音数据采集方法、装置、设备及存储介质
CN109389999A (zh) * 2018-09-28 2019-02-26 北京亿幕信息技术有限公司 一种高性能的音视频自动断句方法和系统
CN109801646A (zh) * 2019-01-31 2019-05-24 北京嘉楠捷思信息技术有限公司 一种基于融合特征的语音端点检测方法和装置
CN109859744A (zh) * 2017-11-29 2019-06-07 宁波方太厨具有限公司 一种应用于吸油烟机中的语音端点检测方法
CN110189747A (zh) * 2019-05-29 2019-08-30 大众问问(北京)信息科技有限公司 语音信号识别方法、装置及设备
CN110197663A (zh) * 2019-06-30 2019-09-03 联想(北京)有限公司 一种控制方法、装置及电子设备
CN110264999A (zh) * 2019-03-27 2019-09-20 北京爱数智慧科技有限公司 一种音频处理方法、设备及计算机可读介质
CN111742365A (zh) * 2018-02-28 2020-10-02 罗伯特·博世有限公司 用于监控系统中的音频事件检测的系统和方法
WO2021093808A1 (zh) * 2019-11-13 2021-05-20 腾讯音乐娱乐科技(深圳)有限公司 一种有效语音信号的检测方法、装置及设备
CN113113041A (zh) * 2021-04-29 2021-07-13 电子科技大学 一种基于时频跨域特征选择的语音分离方法
WO2021146857A1 (zh) * 2020-01-20 2021-07-29 深圳市大疆创新科技有限公司 音频处理方法及装置
CN113470694A (zh) * 2021-04-25 2021-10-01 重庆市科源能源技术发展有限公司 水轮机组遥听监测方法、装置和系统

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020170212A1 (en) * 2019-02-21 2020-08-27 OPS Solutions, LLC Acoustical or vibrational monitoring in a guided assembly system
US10984808B2 (en) * 2019-07-09 2021-04-20 Blackberry Limited Method for multi-stage compression in sub-band processing
CN115956359A (zh) 2020-06-30 2023-04-11 吉尼赛斯云服务第二控股有限公司 用于音调和语音分类的累积平均频谱熵分析
WO2022018864A1 (ja) * 2020-07-22 2022-01-27 2nd Community株式会社 音データ処理装置、音データ処理方法及び音データ処理プログラム
CN112562735B (zh) * 2020-11-27 2023-03-24 锐迪科微电子(上海)有限公司 语音检测方法、装置、设备和存储介质
CN114299978A (zh) * 2021-12-07 2022-04-08 阿里巴巴(中国)有限公司 音频信号的处理方法、装置、设备及存储介质
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258881A (ja) * 2001-02-28 2002-09-11 Fujitsu Ltd 音声検出装置及び音声検出プログラム
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101968957A (zh) * 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法
CN102044242A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102314884A (zh) * 2011-08-16 2012-01-11 捷思锐科技(北京)有限公司 语音激活检测方法与装置
CN103077728A (zh) * 2012-12-31 2013-05-01 上海师范大学 一种病人虚弱语音端点检测方法
CN103813251A (zh) * 2014-03-03 2014-05-21 深圳市微纳集成电路与系统应用研究院 一种可调节去噪程度的助听器去噪装置和方法
US20150081287A1 (en) * 2013-09-13 2015-03-19 Advanced Simulation Technology, inc. ("ASTi") Adaptive noise reduction for high noise environments
CN104464722A (zh) * 2014-11-13 2015-03-25 北京云知声信息技术有限公司 基于时域和频域的语音活性检测方法和设备
US20150332667A1 (en) * 2014-05-15 2015-11-19 Apple Inc. Analyzing audio input for efficient speech and music recognition

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62150299A (ja) * 1985-12-25 1987-07-04 沖電気工業株式会社 音声信号区間検出器
JPH04223497A (ja) * 1990-12-25 1992-08-13 Oki Electric Ind Co Ltd 有音区間の検出方法
JP3088163B2 (ja) * 1991-12-18 2000-09-18 沖電気工業株式会社 Lsp係数の量子化方法
JP3451146B2 (ja) * 1995-02-17 2003-09-29 株式会社日立製作所 スペクトルサブトラクションを用いた雑音除去システムおよび方法
JPH11338499A (ja) * 1998-05-28 1999-12-10 Kokusai Electric Co Ltd ノイズキャンセラ
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
TW490655B (en) * 2000-12-27 2002-06-11 Winbond Electronics Corp Method and device for recognizing authorized users using voice spectrum information
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
US8069039B2 (en) * 2006-12-25 2011-11-29 Yamaha Corporation Sound signal processing apparatus and program
WO2009078093A1 (ja) * 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
CN101685446A (zh) * 2008-09-25 2010-03-31 索尼(中国)有限公司 音频数据分析装置和方法
US9165567B2 (en) * 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
JP5870476B2 (ja) * 2010-08-04 2016-03-01 富士通株式会社 雑音推定装置、雑音推定方法および雑音推定プログラム
US9100479B2 (en) * 2011-03-10 2015-08-04 Angel.Com Incorporated Answering machine detection
US9047873B2 (en) * 2012-12-21 2015-06-02 Draeger Safety, Inc. Self contained breathing and communication apparatus
CN103117067B (zh) * 2013-01-19 2015-07-15 渤海大学 一种低信噪比下语音端点检测方法
DE212014000045U1 (de) * 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9443521B1 (en) * 2013-02-14 2016-09-13 Sociometric Solutions, Inc. Methods for automatically analyzing conversational turn-taking patterns
US9076459B2 (en) * 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
US9281007B2 (en) * 2014-02-07 2016-03-08 Avago Technologies General Ip (Singapore) Pte. Ltd. Read channel sampling utilizing two quantization modules for increased sample bit width
KR20150105847A (ko) * 2014-03-10 2015-09-18 삼성전기주식회사 음성구간 검출 방법 및 장치
US20150279373A1 (en) * 2014-03-31 2015-10-01 Nec Corporation Voice response apparatus, method for voice processing, and recording medium having program stored thereon
US10186282B2 (en) 2014-06-19 2019-01-22 Apple Inc. Robust end-pointing of speech signals using speaker recognition
CN104021789A (zh) * 2014-06-25 2014-09-03 厦门大学 一种利用短时时频值的自适应端点检测方法
CN105261375B (zh) * 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
CN104409081B (zh) * 2014-11-25 2017-12-22 广州酷狗计算机科技有限公司 语音信号处理方法和装置
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258881A (ja) * 2001-02-28 2002-09-11 Fujitsu Ltd 音声検出装置及び音声検出プログラム
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN102044242A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法、装置和电子设备
CN101968957A (zh) * 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法
CN102314884A (zh) * 2011-08-16 2012-01-11 捷思锐科技(北京)有限公司 语音激活检测方法与装置
CN103077728A (zh) * 2012-12-31 2013-05-01 上海师范大学 一种病人虚弱语音端点检测方法
US20150081287A1 (en) * 2013-09-13 2015-03-19 Advanced Simulation Technology, inc. ("ASTi") Adaptive noise reduction for high noise environments
CN103813251A (zh) * 2014-03-03 2014-05-21 深圳市微纳集成电路与系统应用研究院 一种可调节去噪程度的助听器去噪装置和方法
US20150332667A1 (en) * 2014-05-15 2015-11-19 Apple Inc. Analyzing audio input for efficient speech and music recognition
CN104464722A (zh) * 2014-11-13 2015-03-25 北京云知声信息技术有限公司 基于时域和频域的语音活性检测方法和设备

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859744B (zh) * 2017-11-29 2021-01-19 宁波方太厨具有限公司 一种应用于吸油烟机中的语音端点检测方法
CN109859744A (zh) * 2017-11-29 2019-06-07 宁波方太厨具有限公司 一种应用于吸油烟机中的语音端点检测方法
US11810435B2 (en) 2018-02-28 2023-11-07 Robert Bosch Gmbh System and method for audio event detection in surveillance systems
CN111742365A (zh) * 2018-02-28 2020-10-02 罗伯特·博世有限公司 用于监控系统中的音频事件检测的系统和方法
CN108447505A (zh) * 2018-05-25 2018-08-24 百度在线网络技术(北京)有限公司 音频信号过零率处理方法、装置及语音识别设备
CN108986830A (zh) * 2018-08-28 2018-12-11 安徽淘云科技有限公司 一种音频语料筛选方法及装置
CN109389999A (zh) * 2018-09-28 2019-02-26 北京亿幕信息技术有限公司 一种高性能的音视频自动断句方法和系统
CN109389993A (zh) * 2018-12-14 2019-02-26 广州势必可赢网络科技有限公司 一种语音数据采集方法、装置、设备及存储介质
CN109801646A (zh) * 2019-01-31 2019-05-24 北京嘉楠捷思信息技术有限公司 一种基于融合特征的语音端点检测方法和装置
CN109801646B (zh) * 2019-01-31 2021-11-16 嘉楠明芯(北京)科技有限公司 一种基于融合特征的语音端点检测方法和装置
CN110264999A (zh) * 2019-03-27 2019-09-20 北京爱数智慧科技有限公司 一种音频处理方法、设备及计算机可读介质
CN110189747A (zh) * 2019-05-29 2019-08-30 大众问问(北京)信息科技有限公司 语音信号识别方法、装置及设备
CN110197663A (zh) * 2019-06-30 2019-09-03 联想(北京)有限公司 一种控制方法、装置及电子设备
CN110197663B (zh) * 2019-06-30 2022-05-31 联想(北京)有限公司 一种控制方法、装置及电子设备
WO2021093808A1 (zh) * 2019-11-13 2021-05-20 腾讯音乐娱乐科技(深圳)有限公司 一种有效语音信号的检测方法、装置及设备
WO2021146857A1 (zh) * 2020-01-20 2021-07-29 深圳市大疆创新科技有限公司 音频处理方法及装置
CN113470694A (zh) * 2021-04-25 2021-10-01 重庆市科源能源技术发展有限公司 水轮机组遥听监测方法、装置和系统
CN113113041A (zh) * 2021-04-29 2021-07-13 电子科技大学 一种基于时频跨域特征选择的语音分离方法
CN113113041B (zh) * 2021-04-29 2022-10-11 电子科技大学 一种基于时频跨域特征选择的语音分离方法

Also Published As

Publication number Publication date
JP2018532155A (ja) 2018-11-01
KR102037195B1 (ko) 2019-10-28
EP3447769A1 (en) 2019-02-27
US20180247662A1 (en) 2018-08-30
US10872620B2 (en) 2020-12-22
WO2017181772A1 (zh) 2017-10-26
EP3447769A4 (en) 2019-12-18
CN107305774B (zh) 2020-11-03
KR20180063282A (ko) 2018-06-11
EP3447769B1 (en) 2022-03-30
JP6705892B2 (ja) 2020-06-03

Similar Documents

Publication Publication Date Title
CN107305774A (zh) 语音检测方法和装置
CN110927706B (zh) 基于卷积神经网络的雷达干扰检测识别方法
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN104732978B (zh) 基于联合深度学习的文本相关的说话人识别方法
CN106486131B (zh) 一种语音去噪的方法及装置
CN110956957B (zh) 语音增强模型的训练方法及系统
CN109346087B (zh) 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN112786057B (zh) 一种声纹识别方法、装置、电子设备及存储介质
CN113327626A (zh) 语音降噪方法、装置、设备及存储介质
CN106971724A (zh) 一种防干扰声纹识别方法和系统
CN109308903A (zh) 语音模仿方法、终端设备及计算机可读存储介质
CN112767927A (zh) 一种提取语音特征的方法、装置、终端及存储介质
CN113823293A (zh) 一种基于语音增强的说话人识别方法及系统
CN113707175B (zh) 基于特征分解分类器与自适应后处理的声学事件检测系统
CN112420056A (zh) 基于变分自编码器的说话人身份鉴别方法、系统及无人机
CN111464468A (zh) 信号调制模式识别方法、装置、设备和可读存储介质
CN114626412A (zh) 用于无人值守传感器系统的多类别目标识别方法及系统
CN106971732A (zh) 一种基于识别模型提升声纹识别准确度的方法和系统
CN113113051A (zh) 音频指纹提取方法、装置、计算机设备和存储介质
CN106971728A (zh) 一种快速识别声纹方法和系统
CN106887229A (zh) 一种提升声纹识别准确度的方法和系统
CN112863542B (zh) 语音检测方法和装置、存储介质及电子设备
CN117975994B (zh) 嗓音数据的质量分类方法、装置以及计算机设备
CN111149154B (zh) 一种声纹识别方法、装置、设备和储存介质
TWI749547B (zh) 應用深度學習的語音增強系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant