CN116110438A - 语音激活检测方法、装置、存储介质及电子设备 - Google Patents
语音激活检测方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116110438A CN116110438A CN202211735105.2A CN202211735105A CN116110438A CN 116110438 A CN116110438 A CN 116110438A CN 202211735105 A CN202211735105 A CN 202211735105A CN 116110438 A CN116110438 A CN 116110438A
- Authority
- CN
- China
- Prior art keywords
- voice
- detected
- sub
- target
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 186
- 230000004913 activation Effects 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000003213 activating effect Effects 0.000 claims abstract description 10
- 230000004044 response Effects 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 206010002953 Aphonia Diseases 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
本公开涉及一种语音激活检测方法、装置、存储介质及电子设备,该方法包括:从待检测语音的起始位置截取初始统计窗长的待检测子语音,将待检测子语音作为目标待检测子语音,根据目标待检测子语音的目标语音检测结果,确定下一级统计窗长,从目标待检测子语音的末尾位置截取下一级待检测子语音,将下一级待检测子语音作为目标待检测子语音,重复根据目标语音检测结果至截取下一级统计窗长的下一级待检测子语音的步骤,若下一级待检测子语音的语音检测结果为零,则在下一级待检测子语音的末尾位置截断待检测语音,生成目标待检测语音,激活目标待检测语音的语音检测。从而通过动态变化的统计窗长,准确确定出语音中的语音结尾,提高用户的产品体验。
Description
技术领域
本公开涉及语音检测技术,具体地,涉及一种语音激活检测方法、装置、存储介质及电子设备。
背景技术
随着智能化、数字化的发展,现在越来越多的产品都会接入语音交互系统,以“语音”作为交互媒介,从而提升交互便捷性。作为语音交互系统载体的硬件设备,其上运行软件的一个重要指标即为功耗,其中减少语音识别、声纹识别、关键词识别等模块对信号的无效响应是降低功耗的重要手段。因此能够检测语音是否存在的技术就成为关键。相关即使中,存在VAD(Voice Activity Detector,语音激活检测技术)技术,可以减少大多数云端语音应用的无效处理,可以大大降低网络流量的浪费,并节省成本。
目前,不管传统的基于声学人工特征的方法,还是最新的基于大数据训练的模型,判断一小段信号是否存在语音已经很准确,但这些方法往往忽略了语音的语义完整性。通常情况下,由于说话习惯或者话语者思考等因素,一小段表意明确的语音信号,或多或少都会存在停顿或者间隙,而对于较长的语音间隙,VAD往往会将其判断为语音结尾,从而导致一句完整语义的语音信号被截断。特别对于语音识别这类输出语义结果的应用而言,被前后截断的语音信号会被翻译错误,可能导致无意义的结果,甚至传递不同或者相反的意图。
发明内容
本公开的目的是提供一种语音激活检测方法、装置、存储介质及电子设备,以解决相关技术中语音识别过程中语音结尾判定不准确的技术问题。
为了实现上述目的,本公开的第一方面提供一种语音激活检测方法,包括:
响应于接收到待检测语音,从所述待检测语音的起始位置截取初始统计窗长的第一待检测子语音;
将所述第一待检测子语音作为目标待检测子语音,在所述目标待检测子语音的目标语音检测结果不为零的情况下,根据所述目标语音检测结果,确定下一级统计窗长;
根据所述待检测语音,从所述目标待检测子语音的末尾位置截取所述下一级统计窗长的下一级待检测子语音;
在所述下一级待检测子语音的语音检测结果不为零的情况下,将所述下一级待检测子语音作为所述目标待检测子语音,重复所述根据所述目标语音检测结果,至从所述目标待检测子语音的末尾位置截取所述下一级统计窗长的下一级待检测子语音的步骤;
在所述下一级待检测子语音的语音检测结果为零的情况下,在所述下一级待检测子语音的末尾位置截断所述待检测语音,以生成目标待检测语音;
响应于所述目标待检测语音的生成,激活所述目标待检测语音的语音检测。
可选地,所述根据所述目标语音检测结果,确定下一级统计窗长,包括:
根据所述待检测语音,对环境中的噪声进行检测,以生成所述环境对应的信噪比;
根据所述信噪比,确定所述目标待检测子语音的语音检测阈值;
在所述目标语音检测结果大于所述语音检测阈值的情况下,将预设单位调整窗长叠加在所述初始统计窗长上,以生成所述下一级统计窗长;
在所述目标语音检测结果小于或等于所述语音检测阈值的情况下,将所述初始统计窗长减所述预设单位调整窗长,以生成所述下一级统计窗长。
可选地,所述根据所述信噪比,确定所述目标待检测子语音的语音检测阈值,包括:
根据所述信噪比,确定所述待检测语音中每一帧语音对应的语音检测子阈值;
根据所述每一帧语音的时长和所述初始统计窗长,确定所述待检测语音中的语音帧数;
根据所述语音帧数和所述语音检测子阈值,确定所述语音检测阈值。
可选地,所述方法还包括:
通过流式推理模型对所述目标检测子语音进行检测,生成所述目标检测子语音的所述目标语音检测结果,其中,所述流式推理模型包括深度神经网络模型、循环神经网络模型、长短期记忆模型或注意力模型。
可选地,所述在所述下一级待检测子语音的语音检测结果为零的情况下,在所述下一级待检测子语音的末尾位置截断所述待检测语音,以生成目标待检测语音,包括:
在所述下一级待检测子语音的语音检测结果为零的情况下,确定所述下一级待检测子语音的末尾位置为语音结尾;
根据所述语音结尾和所述待检测语音,生成所述目标待检测语音。
可选地,所述响应于所述目标待检测语音的生成,激活所述目标待检测语音的语音检测,包括:
响应于所述目标待检测语音的生成,确定所述目标待检测语音为完整语音;
对所述完整语音进行语义检测,以生成所述完整语音对应的语义信息。
可选地,所述初始统计窗长对应的时长为500ms。
根据本公开的第二方面提供一种语音激活检测装置,所述装置包括:
第一截取模块,用于响应于接收到待检测语音,从所述待检测语音的起始位置截取初始统计窗长的第一待检测子语音;
确定模块,用于将所述第一待检测子语音作为目标待检测子语音,在所述目标待检测子语音的目标语音检测结果不为零的情况下,根据所述目标语音检测结果,确定下一级统计窗长;
第二截取模块,用于根据所述待检测语音,从所述目标待检测子语音的末尾位置截取所述下一级统计窗长的下一级待检测子语音;
第三截取模块,用于在所述下一级待检测子语音的语音检测结果不为零的情况下,将所述下一级待检测子语音作为所述目标待检测子语音,重复所述根据所述目标语音检测结果,至从所述目标待检测子语音的末尾位置截取所述下一级统计窗长的下一级待检测子语音的步骤;
生成模块,用于在所述下一级待检测子语音的所述下一级语音检测结果为零的情况下,在所述下一级待检测子语音的末尾位置截断所述待检测语音,以生成目标待检测语音;
执行模块,用于响应于所述目标待检测语音的生成,激活所述目标待检测语音的语音检测。
根据本公开的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
根据本公开的第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
通过上述技术方案,响应于接收到待检测语音,从待检测语音的起始位置截取初始统计窗长的第一待检测子语音,将第一待检测子语音作为目标待检测子语音,在目标待检测子语音的目标语音检测结果不为零的情况下,根据目标语音检测结果,确定下一级统计窗长,根据待检测语音,从目标待检测子语音的末尾位置截取下一级统计窗长的下一级待检测子语音,在下一级待检测子语音的语音检测结果不为零的情况下,将下一级待检测子语音作为目标待检测子语音,重复根据目标语音检测结果,至从目标待检测子语音的末尾位置截取下一级统计窗长的下一级待检测子语音的步骤,在下一级待检测子语音的语音检测结果为零的情况下,在下一级待检测子语音的末尾位置截断待检测语音,以生成目标待检测语音,响应于目标待检测语音的生成,激活目标待检测语音的语音检测。从而通过动态变化的统计窗长,准确确定出语音中的语音结尾,在语音结尾的位置截断语音,并激活对该截断后语音的语音检测,使语音检测更准确,提高用户的产品体验。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种语音激活检测方法的流程图。
图2是根据一示例性实施例示出的一种统计窗长的确定方法的流程图。
图3是根据一示例性实施例示出的一种语音数据的标注方法的示意图。
图4是根据一示例性实施例示出的一种语音激活检测装置的框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
需要说明的是,本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
相关技术中,由于语音和噪声的混淆性,VAD技术在信噪比较低的环境下,会产生非连续“1”的值,偶尔还会产生错误将语音判断为静音。因此,VAD技术中会后接一个后处理过程,一般为一个统计窗,具有一定的长度。这个窗会统计对应时间内语音检测结果高于某一阈值的比例,通常情况下统计窗内的语音统计比例低于某一阈值时,会将此时刻判定为语音结尾,由于统计窗的存在,需要积累历史信息对未来的语音信息给出结果,所以后处理窗会给VAD带来决策时延,语音结尾的断定时间要晚于实际语音结尾时刻。考虑到语音间隙的存在,为了防止截断的频发,因此后处理的窗往往需要设置的比较长。这对于交互时延比较敏感的产品而言,过久的时延不是允许的,会降低用户的产品使用体验;而过短的时延又会引起语音被错误截断,导致语音间隙被判定为语音结尾。因此,“语音截断(切音)”和“响应时延”存在矛盾关系。
有鉴于此,本公开提供一种语音激活检测方法,图1是根据一示例性实施例示出的一种语音激活检测方法的流程图,如图1所示,该方法包括以下步骤。
步骤S101,响应于接收到待检测语音,从待检测语音的起始位置截取初始统计窗长的第一待检测子语音。
值得一提的是,本实施例应用于终端设备中,该终端设备可以接收用户发出的语音,对该语音进行解析,确定语音的语义信息,并根据不同的语义信息作出不同的响应动作,示例的,该终端设备可以是语音交互机器人,通过采集用户发出的语音,并对语音进行分析,确定语音对应的语义后,根据该语义与用户进行交互,例如,用户发出“喝水”语音后,语音交互机器人根据分析确定语义信息为“喝水”后,通过机械手臂将水杯传递给用户。其中,终端设备通过设定语音检测方式,实时采集环境中用户发出的待检测语音,当确定环境中存在用户发出的待检测语音后,将该待检测语音录入至语音检测模块中进行实时的语音检测。需要说明的是,通常情况下终端设备对用户发出的待检测语音进行语音检测时,需要对待检测语音中一段完整的语音进行检测,确定该完整语音对应的语音信息。基于不同用户的语音习惯,待检测语音中可能存在语音间隔,语音间隔前后的语音才能构成一段完整的语音,因此,终端设备需要分辨待检测语音中的语音间隔,在对待检测语音进行实时语音检测的过程中,当检测待检测语音中的语音间隔时,暂不对语音间隔前的待检测语音进行响应的语义检测和语音响应,而继续监听环境中的语音信息,直至待检测语音中存在语音结尾后,对语音结尾前的待检测语音进行语义检测和语音响应。因此,本实施例中需要对接收到的待检测语音进行截取,从而确定待检测语音中的语音间隔位置和语音结尾位置,并根据不同的位置对待检测语音进行分析和截取。
示例的,本实施例中终端设备中预设有初始统计窗长,该初始统计窗长用于截取待检测语音。当终端设备检测到环境中存在待检测语音时,对环境中的待检测语音进行实时录制,并在待检测语音的起始位置截取初始统计窗长的第一待检测子语音,其中,待检测语音可以是一段时间内,语音振幅的变化信号,因此,对应的初始统计窗长可以是一段预设的时间截取周期,根据该时间截取周期从待检测语音的初始位置,对该待检测语音进行截取,生成对应的第一待检测子语音。值得一提的是,在通过初始统计窗长对待检测语音进行截取时,为避免初始统计窗长中截取到一部分空语音,而导致响应时间的延长,因此,初始统计窗长对应的时间截取周期,应当远小于待检测语音对应的时间周期,例如,通常情况下待检测语音的时间周期为5s-15s,则对应的该初始统计窗长的时间截取周期为1s,从待检测语音的初始位置截取1s的待检测语音,生成第一待检测子语音。
可选地,初始统计窗长对应的时长为500ms。
示例的,本实施例中可以设定初始统计窗长的时长为500ms,当检测到环境中存在待检测语音时,从待检测语音的初始位置截取500ms的待检测语音生成500ms的第一待检测子语音。
步骤S102,将第一待检测子语音作为目标待检测子语音,在目标待检测子语音的目标语音检测结果不为零的情况下,根据目标语音检测结果,确定下一级统计窗长。
示例的,本实施例中将第一待检测子语音作为目标待检测子语音,对该目标待检测子语音进行检测。本实施例中可以对目标待检测子语音中用户语音对应的音频振幅进行检测,根据该音频振幅生成目标待检测子语音对应的目标语音检测结果,当该目标语音检测结果不为零时,则表示该目标待检测子语音中存在用户对应的语音,对应确定待检测语音在第一待检测子语音的结尾处并未出现语音结尾,并需要对待检测语音中第一待检测子语音之后的语音继续进行检测。当确定目标待检测子语音的目标语音检测结果不为零时,根据目标语音检测结果,确定初始统计窗长之后的下一级统计窗长的时长。本实施例中下一级统计窗长对应的时长可以根据目标语音检测结果进行改变,示例的,当根据目标语音检测结果对应的值较大时,则确定目标待检测子语音为一段强语音,表示大概率情况下,待检测语音中目标待检测子语音之后的一段语音不是语音结尾,因此,可以在初始统计窗长的基础上,适当增加下一级统计窗长的时长,以避免在后续语音中出现语音间隔时,被误检测为语音结尾;当根据目标语音检测结果对应的值较小时,则确定目标待检测子语音为一段弱语音,表示大概率情况下,待检测语音中目标待检测子语音之后的一段语音可能为语音结尾,因此,可以在初始统计窗长的基础上,适当减小下一级统计窗长的时长,以减少语音响应时间。
可选地,在一种实施方式中,上述步骤S102之前,该方法还包括:
通过流式推理模型对目标检测子语音进行检测,生成目标检测子语音的目标语音检测结果,其中,流式推理模型包括深度神经网络模型、循环神经网络模型、长短期记忆模型或注意力模型。
示例的,本实施例中考虑到终端设备与用户之间进行交互的实时性,可以通过流式推理模型对目标检测子语音进行检测,确定目标检测子语音中用户发出的语音信号,并根据该语音信号的强度生成目标语音检测结果,其中,该流式推理模型可以是:DNN(DeepNeural Network,深度神经网络)模型、RNN(Recurrent Neural Networks,循环神经网络)模型、GRU(Gated Recurrent Unit,门控循环单元结构)模型、LSTM(Long Short TermMemory,长短时记忆结构)模型或注意力模型。
步骤S103,根据待检测语音,从目标待检测子语音的末尾位置截取下一级统计窗长的下一级待检测子语音。
示例的,本实施例中通过上述步骤确定下一级统计窗长后,从目标待检测子语音的末尾位置对待检测语音进行截取,截取下一级统计窗长的语音,生成下一级待检测子语音,例如,通过实时录制确定待检测语音对应的语音时长为15s,初始统计窗长对应的时长为500ms,通过上述步骤确定下一级统计窗长对应的时长为550ms后,则初始统计窗长对应的目标待检测子语音为待检测语音中0-500ms内的语音信号,下一级待检测子语音为待检测语音中500ms-1050ms内的语音信号。
步骤S104,在下一级待检测子语音的语音检测结果不为零的情况下,将下一级待检测子语音作为目标待检测子语音,重复根据目标语音检测结果,至从目标待检测子语音的末尾位置截取下一级统计窗长的下一级待检测子语音的步骤。
示例的,本实施例中对下一级待检测子语音进行语音检测,生成语音检测结果,其中,通过待检测子语音生成语音检测结果的方式可以参照上述步骤S102,不再赘述。当下一级待检测子语音对应的语音检测结果不为零时,表示在该下一级待检测子语音中存在用户发出的语音,并将该下一级待检测子语音作为目标待检测子语音,重复上述S102-S103的步骤,对待检测语音进行检测。生成后续的统计窗长,通过后续的统计窗长在上一级待检测子语音的末尾位置,截取对应长度的待检测子语音,若该待检测子语音对应的语音检测结果不为零,则参照上述方式,继续对待检测语音进行检测。
步骤S105,在下一级待检测子语音的语音检测结果为零的情况下,在下一级待检测子语音的末尾位置截断待检测语音,以生成目标待检测语音。
示例的,本实施例中通过上述方式陆续对待检测语音进行截取,生成下一级待检测语音,并对生成的每一级待检测语音进行检测,当每一级待检测语音对应的语音检测结果不为零时,则继续参照上述方式生成下一级统计窗口,对待检测语音进行截取和检测;当存在下一级待检测子语音对应的语音检测结果为零时,则表示该下一级待检测子语音中不存在用户发出的语音,即在下一级待检测子语音的末尾位置出现了语音结尾。因此在下一级待检测子语音的末尾位置截断待检测语音,并根据截断位置之前的待检测语音,生成目标待检测语音。
可选地,上述步骤S105,包括:
在下一级待检测子语音的语音检测结果为零的情况下,确定下一级待检测子语音的末尾位置为语音结尾;
根据语音结尾和待检测语音,生成目标待检测语音。
示例的,本实施例中当确定下一级待检测子语音的语音检测检测结果为零时,根据各个统计窗长,从待检测语音中确定下一级待检测子语音的末尾位置为语音结尾,通过该末尾位置对待检测语音进行截取,确定待检测语音中末尾位置之前的待检测语音为目标待检测语音。
步骤S106,响应于目标待检测语音的生成,激活目标待检测语音的语音检测。
示例的,本实施例中通过上述步骤生成目标待检测语音后,表示该目标待检测语音中存在用户的语音信息,因此,需要激活终端设备的语音检测功能,通过终端设备的语音检测功能,对目标待检测语音进行解析,确定目标待检测语音对应的语义信息。
可选地,在另一种实施方式中,上述步骤S106,包括:
响应于目标待检测语音的生成,确定目标待检测语音为完整语音;
对完整语音进行语义检测,以生成完整语音对应的语义信息。
示例的,本实施例中当目标待检测语音生成后,确定该目标待检测语音为完整语音,终端设备对目标待检测语音进行语义检测,生成对应的完整语音对应的语义信息,终端设备根据该语义信息通过对应的设定程序,做出相应的响应动作。
通过上述方式,响应于接收到待检测语音,从待检测语音的起始位置截取初始统计窗长的第一待检测子语音,将第一待检测子语音作为目标待检测子语音,在目标待检测子语音的目标语音检测结果不为零的情况下,根据目标语音检测结果,确定下一级统计窗长,根据待检测语音,从目标待检测子语音的末尾位置截取下一级统计窗长的下一级待检测子语音,在下一级待检测子语音的语音检测结果不为零的情况下,将下一级待检测子语音作为目标待检测子语音,重复根据目标语音检测结果,至从目标待检测子语音的末尾位置截取下一级统计窗长的下一级待检测子语音的步骤,在下一级待检测子语音的语音检测结果为零的情况下,在下一级待检测子语音的末尾位置截断待检测语音,以生成目标待检测语音,响应于目标待检测语音的生成,激活目标待检测语音的语音检测。从而通过动态变化的统计窗长,准确确定出语音中的语音结尾,在语音结尾的位置截断语音,并激活对该截断后语音的语音检测,使语音检测更准确,提高用户的产品体验。
图2是根据一示例性实施例示出的一种统计窗长的确定方法的流程图,如图2所示,在一种实施方式中上述步骤S102,可以包括以下步骤。
步骤S201,根据待检测语音,对环境中的噪声进行检测,以生成环境对应的信噪比。
值得一提的是,终端设备在对环境中用户发出的语音进行检测时,用户发出的语音夹杂在嘈杂的环境声音中,因此,当终端设备检测到环境中存在用户发出的语音时,对环境中的声音进行实时录制检测,生成对应的待检测语音,其中,该待检测语音中包括用户发出的语音,以及当前环境中的环境噪音。示例的,本实施例中终端设备对环境中的待检测语音进行实时监测,当确定环境中存在用户发出的语音时,根据采集到的待检测语音,对待检测语音中除用户发出的语音之外的其他环境噪音进行噪声检测,生成当前环境下用户发出的语音与环境噪音之间的信噪比。其中,该信噪比为待检测语音中用户发出的语音与环境噪音之间的比例,当用户在相对较安静的环境中发出语音时,待检测语音对应的信噪比较大;当用户在相对较嘈杂的环境中发出语音时,待检测语音对应的信噪比较小。
步骤S202,根据信噪比,确定目标待检测子语音的语音检测阈值。
示例的,本实施例中终端设备在对待检测语音进行检测时,不同的信噪比环境下,待检测语音中是否存在用户发出的语音所对应的标准不同,例如,在信噪比较高的环境下,待检测语音对应的语音检测结果需要达到较高的值,才能确定该待检测语音中存在用户发出的语音;在信噪比较低的环境中,待检测语音对应的语音检测结果需要达到较低的值,就可以确定该待检测语音中存在用户发出的语音,其中,通过待检测语音确定对应语音检测结果的方式可以参照上述步骤S102,不再赘述。因此,可以通过有限实验,建立信噪比与语音检测阈值之间的对应关系,通过对应关系确定该信噪比对应的语音检测阈值。
可选地,在一种实施方式中,上述步骤S202,包括:
根据信噪比,确定待检测语音中每一帧语音对应的语音检测子阈值;
根据每一帧语音的时长和初始统计窗长,确定目标待检测语音中的语音帧数;
根据语音帧数和语音检测子阈值,确定语音检测阈值。
值得一提的是,待检测语音可以由多帧语音组成,通过上述步骤确定在不同的信噪比下,每一帧语音对应的语音检测结果大于语音检测子阈值时,则确定该帧语音中存在用户发出的语音,根据每一帧语音所对应的时长,以及目标待检测子语音对应的初始统计窗长,确定目标待检测语音中的语音帧数,将该语音帧数与语音检测子阈值相乘,从而确定目标待检测语音对应的语音检测阈值。
步骤S203,在目标语音检测结果大于语音检测阈值的情况下,将预设单位调整窗长叠加在初始统计窗长上,以生成下一级统计窗长。
示例的,本实施例中当目标待检测语音对应的目标语音检测结果大于语音检测阈值时,则表示目标待检测语音中存在较强的用户发出的语音,对应后续的待检测语音中大概率不会出现语音结尾,因此,可以在初始统计窗长的基础上,适当增加下一级统计窗长的时长,将预设单位调整窗长叠加在初始统计窗长上,生成下一级统计窗长。示例的,本实施例中预设单位调整窗长对应的时长可以设置为50ms,初始统计窗长对应的时长为500ms,则下一级统计窗长对应的时长为550ms。
步骤S204,在目标语音检测结果小于或等于语音检测阈值的情况下,将初始统计窗长减预设单位调整窗长,以生成下一级统计窗长。
示例的,本实施例中当目标待检测语音对应的目标语音检测结果小于或者等于语音检测阈值时,则表示目标待检测语音中用户发出的语音较弱,对应后续的待检测语音中大概率会出现语音结尾,因此,可以在初始统计窗长的基础上,适当减少下一级统计窗长的时长,用初始统计窗长减去预设单位调整窗长,生成下一级统计窗长。示例的,本实施例中预设单位调整窗长对应的时长可以设置为50ms,初始统计窗长对应的时长为500ms,则下一级统计窗长对应的时长为450ms。
示例的,在另一种实施方式中,可以根据语音检测阈值和初始统计窗长,对下一级统计窗长进行梯度划分,示例的,目标待检测语音对应的目标语音检测结果的取值区间为0-1,其中,0代表目标待检测语音中完全没有用户发出的语音,1代表目标待检测语音中完全为用户发出的语音。通过实验确定语音检测阈值为0.3,初始统计窗长设置为500ms,对下一级统计窗长进行梯度划分,确定当0<目标语音检测结果<0.3时,确定下一级统计窗长为450ms;当0.3≤目标语音检测结果<0.6时,确定下一级统计窗长为500ms;当0.6≤目标语音检测结果≤1时,确定下一级统计窗长为600ms,对此,本实施例中不做限定。
通过上述方式,设定变化的统计窗长,既避免了将待检测语音中的语音间隔检测为语音结尾,而导致完成的一段用户语音被截断,同时,也避免了较长的统计窗长导致的延时响应,提高了用户与终端设备之间的语音交互体验。
通过VAD技术在对语音进行标注时,会将语音标记为1,非语音标记为0,示例的,图3是根据一示例性实施例示出的一种语音数据的标注方法的示意图,如图3所示,其中方法(1)为通过VAD技术对语音数据进行标注,当存在语音的部分标记为1,非语音部分标记为0,这就导致一句完整语义的语音间隙被标记为0,最终就会导致模型将语音间隙判断为语音结尾,从而截断语音;而本方案中所提供的语音检测方法为图1中的方法(2),通过本方案中所提供的语音激活检测方法,可以强制将一段完整语音中的间隙标注为1,这样模型就可以学习语义信息,从而导致模型不会轻易将语音间隙判断为语音结尾。
图4是根据一示例性实施例示出的一种语音激活检测装置的框图,如图4所示,该装置100包括:第一截取模块110、确定模块120、第二截取模块130、第三截取模块140、生成模块150和执行模块160。
第一截取模块110,用于响应于接收到待检测语音,从待检测语音的起始位置截取初始统计窗长的第一待检测子语音;
确定模块120,用于将第一待检测子语音作为目标待检测子语音,在目标待检测子语音的目标语音检测结果不为零的情况下,根据目标语音检测结果,确定下一级统计窗长;
第二截取模块130,用于根据待检测语音,从目标待检测子语音的末尾位置截取下一级统计窗长的下一级待检测子语音;
第三截取模块140,用于在下一级待检测子语音的语音检测结果不为零的情况下,将下一级待检测子语音作为目标待检测子语音,重复根据目标语音检测结果,至从目标待检测子语音的末尾位置截取下一级统计窗长的下一级待检测子语音的步骤;
生成模块150,用于在下一级待检测子语音的下一级语音检测结果为零的情况下,在下一级待检测子语音的末尾位置截断待检测语音,以生成目标待检测语音;
执行模块160,用于响应于目标待检测语音的生成,激活目标待检测语音的语音检测。
可选地,该确定模块120,包括:
第一生成子模块,用于根据待检测语音,对环境中的噪声进行检测,以生成环境对应的信噪比;
确定子模块,用于根据信噪比,确定目标待检测子语音的语音检测阈值;
第二生成子模块,用于在目标语音检测结果大于语音检测阈值的情况下,将预设单位调整窗长叠加在初始统计窗长上,以生成下一级统计窗长;
第三生成子模块,用于在目标语音检测结果小于或等于语音检测阈值的情况下,将初始统计窗长减预设单位调整窗长,以生成下一级统计窗长。
可选地,确定子模块,用于:
根据信噪比,确定待检测语音中每一帧语音对应的语音检测子阈值;
根据每一帧语音的时长和初始统计窗长,确定目标待检测语音中的语音帧数;
根据语音帧数和语音检测子阈值,确定语音检测阈值。
可选地,该装置还包括检测模块,该检测模块用于:
通过流式推理模型对目标检测子语音进行检测,生成目标检测子语音的目标语音检测结果,其中,流式推理模型包括深度神经网络模型、循环神经网络模型、长短期记忆模型或注意力模型。
可选地,生成模块150,用于:
在下一级待检测子语音的语音检测结果为零的情况下,确定下一级待检测子语音的末尾位置为语音结尾;
根据语音结尾和待检测语音,生成目标待检测语音。
可选地,执行模块160,用于:
响应于目标待检测语音的生成,确定目标待检测语音为完整语音;
对完整语音进行语义检测,以生成完整语音对应的语义信息。
可选地,初始统计窗长对应的时长为500ms。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。
其中,处理器501用于控制该电子设备500的整体操作,以完成上述的语音激活检测方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的语音激活检测方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的语音激活检测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的语音激活检测方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的语音激活检测方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种语音激活检测方法,其特征在于,包括:
响应于接收到待检测语音,从所述待检测语音的起始位置截取初始统计窗长的第一待检测子语音;
将所述第一待检测子语音作为目标待检测子语音,在所述目标待检测子5语音的目标语音检测结果不为零的情况下,根据所述目标语音检测结果,确定下一级统计窗长;
根据所述待检测语音,从所述目标待检测子语音的末尾位置截取所述下一级统计窗长的下一级待检测子语音;
在所述下一级待检测子语音的语音检测结果不为零的情况下,将所述下0一级待检测子语音作为所述目标待检测子语音,重复所述根据所述目标语音检测结果,至从所述目标待检测子语音的末尾位置截取所述下一级统计窗长的下一级待检测子语音的步骤;
在所述下一级待检测子语音的语音检测结果为零的情况下,在所述下一级待检测子语音的末尾位置截断所述待检测语音,以生成目标待检测语音;5响应于所述目标待检测语音的生成,激活所述目标待检测语音的语音检测。
2.根据权利要求1所述的检测方法,其特征在于,所述根据所述目标语音检测结果,确定下一级统计窗长,包括:
0根据所述待检测语音,对环境中的噪声进行检测,以生成所述环境对应的信噪比;
根据所述信噪比,确定所述目标待检测子语音的语音检测阈值;
在所述目标语音检测结果大于所述语音检测阈值的情况下,将预设单位调整窗长叠加在所述初始统计窗长上,以生成所述下一级统计窗长;
5在所述目标语音检测结果小于或等于所述语音检测阈值的情况下,将所述初始统计窗长减所述预设单位调整窗长,以生成所述下一级统计窗长。
3.根据权利要求2所述的检测方法,其特征在于,所述根据所述信噪比,确定所述目标待检测子语音的语音检测阈值,包括:
根据所述信噪比,确定所述待检测语音中每一帧语音对应的语音检测子阈值;
根据所述每一帧语音的时长和所述初始统计窗长,确定所述待检测语音中的语音帧数;
根据所述语音帧数和所述语音检测子阈值,确定所述语音检测阈值。
4.根据权利要求1所述的检测方法,其特征在于,所述方法还包括:
通过流式推理模型对所述目标检测子语音进行检测,生成所述目标检测子语音的所述目标语音检测结果,其中,所述流式推理模型包括深度神经网络模型、循环神经网络模型、长短期记忆模型或注意力模型。
5.根据权利要求1所述的检测方法,其特征在于,所述在所述下一级待检测子语音的语音检测结果为零的情况下,在所述下一级待检测子语音的末尾位置截断所述待检测语音,以生成目标待检测语音,包括:
在所述下一级待检测子语音的语音检测结果为零的情况下,确定所述下一级待检测子语音的末尾位置为语音结尾;
根据所述语音结尾和所述待检测语音,生成所述目标待检测语音。
6.根据权利要求1所述的检测方法,其特征在于,所述响应于所述目标待检测语音的生成,激活所述目标待检测语音的语音检测,包括:
响应于所述目标待检测语音的生成,确定所述目标待检测语音为完整语音;
对所述完整语音进行语义检测,以生成所述完整语音对应的语义信息。
7.根据权利要求1-6中任一项所述的检测方法,其特征在于,所述初始统计窗长对应的时长为500ms。
8.一种语音激活检测装置,其特征在于,所述装置包括:
第一截取模块,用于响应于接收到待检测语音,从所述待检测语音的起始位置截取初始统计窗长的第一待检测子语音;
确定模块,用于将所述第一待检测子语音作为目标待检测子语音,在所述目标待检测子语音的目标语音检测结果不为零的情况下,根据所述目标语音检测结果,确定下一级统计窗长;
第二截取模块,用于根据所述待检测语音,从所述目标待检测子语音的末尾位置截取所述下一级统计窗长的下一级待检测子语音;
第三截取模块,用于在所述下一级待检测子语音的语音检测结果不为零的情况下,将所述下一级待检测子语音作为所述目标待检测子语音,重复所述根据所述目标语音检测结果,至从所述目标待检测子语音的末尾位置截取所述下一级统计窗长的下一级待检测子语音的步骤;
生成模块,用于在所述下一级待检测子语音的语音检测结果为零的情况下,在所述下一级待检测子语音的末尾位置截断所述待检测语音,以生成目标待检测语音;
执行模块,用于响应于所述目标待检测语音的生成,激活所述目标待检测语音的语音检测。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211735105.2A CN116110438A (zh) | 2022-12-30 | 2022-12-30 | 语音激活检测方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211735105.2A CN116110438A (zh) | 2022-12-30 | 2022-12-30 | 语音激活检测方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116110438A true CN116110438A (zh) | 2023-05-12 |
Family
ID=86257455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211735105.2A Pending CN116110438A (zh) | 2022-12-30 | 2022-12-30 | 语音激活检测方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116110438A (zh) |
-
2022
- 2022-12-30 CN CN202211735105.2A patent/CN116110438A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11127416B2 (en) | Method and apparatus for voice activity detection | |
CN112581982B (zh) | 询问结束检测 | |
CN111540349B (zh) | 一种语音的打断方法和装置 | |
US9899021B1 (en) | Stochastic modeling of user interactions with a detection system | |
CN108346425B (zh) | 一种语音活动检测的方法和装置、语音识别的方法和装置 | |
CN110047481B (zh) | 用于语音识别的方法和装置 | |
US8781826B2 (en) | Method for operating a speech recognition system | |
US11200899B2 (en) | Voice processing method, apparatus and device | |
US11304041B2 (en) | Contextually prompting users to switch communication modes | |
CN112581938B (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN108877779B (zh) | 用于检测语音尾点的方法和装置 | |
CN109686368B (zh) | 语音唤醒应答处理方法及装置、电子设备及存储介质 | |
CN107483736B (zh) | 一种即时通信应用程序的消息处理方法及装置 | |
CN110097884B (zh) | 一种语音交互方法和装置 | |
CN110830866A (zh) | 一种语音助手唤醒方法、装置及无线耳机和存储介质 | |
CN104660817B (zh) | 一种工作模式的切换方法及装置 | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
CN111724781A (zh) | 音频数据的存储方法、装置、终端及存储介质 | |
CN111580773B (zh) | 信息处理方法、装置及存储介质 | |
CN111933149A (zh) | 语音交互方法、穿戴式设备、终端及语音交互系统 | |
CN112614514A (zh) | 有效语音片段检测方法、相关设备及可读存储介质 | |
CN111063356B (zh) | 电子设备响应方法及系统、音箱和计算机可读存储介质 | |
CN116110438A (zh) | 语音激活检测方法、装置、存储介质及电子设备 | |
CN116783650A (zh) | 助理命令的场境抑制 | |
CN111739515B (zh) | 语音识别方法、设备、电子设备和服务器、相关系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |