CN114913879A - 语音数据处理方法及装置、语音数据处理系统及电子设备 - Google Patents
语音数据处理方法及装置、语音数据处理系统及电子设备 Download PDFInfo
- Publication number
- CN114913879A CN114913879A CN202110169539.XA CN202110169539A CN114913879A CN 114913879 A CN114913879 A CN 114913879A CN 202110169539 A CN202110169539 A CN 202110169539A CN 114913879 A CN114913879 A CN 114913879A
- Authority
- CN
- China
- Prior art keywords
- voice
- time
- num
- value
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 230000003321 amplification Effects 0.000 claims abstract description 24
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 24
- 230000007423 decrease Effects 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Control Of Amplification And Gain Control (AREA)
Abstract
本发明提供语音数据处理方法及装置、语音数据处理系统及电子设备,语音数据处理方法包括:步骤S1:接收模拟语音信号;步骤S2:对所述模拟语音信号进行增益放大处理;步骤S3:将增益放大处理后的语音信号的电压与一参考电压Vref进行比较,获得第一比较结果;步骤S4:根据所述第一比较结果计算数量比值,数量比值和第一阈值P比较计算num T,num T与预设的第二阈值N比较判断所述模拟语音信号对应为语音段或非语音段;及步骤S5:计算S_T时间内的所述第一比较结果的数量比值,数量比值与第一阈值P的比较结果增大或降低所述增益和所述参考电压Vref。本发明提供的语音数据处理方法及装置、语音数据处理系统及电子设备具有功耗低,语音端点检测精度高等优点。
Description
技术领域
本发明涉及语音检测技术领域,尤其涉及一种语音数据处理方法及装置、语音数据处理系统及电子设备。
背景技术
语音端点检测(VAD)主要功能是检测语音信号的起始点和结束点,模拟端的语音端点检测主要对模拟信号做初始的语音起始点和结束点的检测,然后将检测到的语音信号送入数字语音处理模块,做精确的数字端的语音端点检测、语音识别或降噪等。
模拟端的语音端点检测是语音信号处理中比较重要的功能模块之一,在对功耗要求较高的语音控制设备如蓝牙耳机、智能音箱等电子产品上被广泛的应用,模拟端的语音端点检测一般是连接模拟语音信号与数字语音信号的桥梁,通过对模拟语音信号的检测起到唤醒数字语音处理模块的作用,可以一定程度上减少对数字语音处理模块端之数字信号处理器的连续使用。模拟端语音端点检测对降低系统功耗有非常大的作用。
传统上一般采用固定的阈值对模拟端语音信号能量值序列做判断的方式,或是通过计算模拟信号的信噪比与阈值进行比较的方式来对模拟语音信号进行语音段(如用户语音输入)和非语音段(如环境噪声)的分类。传统的技术方案的实现通常存在电路复杂,功耗高存的弊端。
发明内容
基于上述现状,本发明的主要目的在于提供一种语音数据处理方法及装置、语音数据处理系统及电子设备。
为实现上述目的,本发明采用的技术方案如下:一种语音数据处理方法,包括:步骤S1:接收模拟语音信号;步骤S2:对所述模拟语音信号进行增益放大处理;步骤S3:将增益放大处理后的语音信号的电压与一参考电压Vref进行比较,获得第一比较结果,所述第一比较结果表征增益放大处理后的语音信号的电压是否大于所述参考电压Vref;步骤S4:计算t时间段内的所述第一比较结果的数量比值,数量比值与预设的第一阈值P进行比较获得第二比较结果;计算预设的T时间内第二比较结果之和num T,其中T时间包含n个等同的t时间段;比较num T与预设的第二阈值N并根据该比较结果判断所述模拟语音信号对应为语音段或非语音段,如判断结果为语音段,则唤醒数字语音处理模块进入语音状态,如判断为非语音段,数字语音处理模块保持静默状态;及步骤S5:计算S_T时间内的所述第一比较结果的数量比值,根据该数量比值与所述第一阈值P的比较结果增大或降低所述增益和所述参考电压Vref以用于判断下一个S_T时间内的模拟语音信号对应为语音段或非语音段。
优选地,步骤S2中所述增益放大处理的增益与所述参考电压Vref数值相匹配。
优选地,在步骤S5中,根据数量比值和第一阈值P的差值确定所述增益和所述参考电压Vref的调节步长。
优选地,在步骤S3中,所述第一比较结果为0或1;所述步骤S4包括:
步骤S41:计算t时间内0和1的数量比值a0,数量比值ɑ0=量值0/量值all,量值all为t时间内量值0和量值1的总和,量值0为t时间内0的量值数,量值1为t时间内1的量值数;步骤S42:数量比值a0与第一阈值P进行比较,若a0<P,第二比较结果num temp=0,若a0≥P,第二比较结果num temp=1;步骤S43:计算num T=sum(num temp1+...num tempn),T时间包含n个等同的t时段t1、t1、······tn,num tempn为tn时间内数量比值a0与第一阈值P进行比较所获得的第二比较结果;及步骤S44:num T与第二阈值N进行比较,num T>N,则判断tn为非语音段,num T≤N,则判断tn为语音段。
优选地,在所述语音状态和所述静默状态下采用的所述第二阈值取值不同。
优选地,在所述语音状态和所述静默状态下采用的所述第二阈值取值不同,语音状态下的第二阈值取值大于静默状态下的第二阈值取值。
优选地,所述步骤S5包括:步骤S51:计算S_T时间内0和1的数量比值a0,数量比值ɑ0=量值0/量值all,量值all为t时间内量值0和量值1的总和,量值0为t时间内0的量值数,量值1为t时间内1的量值数;及步骤S52:数量比值a0与第一阈值P进行比较,若a0<P,增大所述增益和所述参考电压;若a0≥P,降低所述增益和所述参考电压。
优选地,所述语音数据处理方法中以S_T时间周期调整所述增益和所述参考电压Vref,S_T时间的时长大于所述T时间的时长。
优选地,所述t时间段内包括的语音信号帧数为4-10帧,所述T时间段内包括的语音信号帧数为70-95帧,所述S_T时间段内包括的数据帧数为100-200帧。
本发明还提供一种语音数据处理装置,包括:语音接收模块,用于接收模拟语音信号;放大模块,用于对所述模拟语音信号进行增益放大处理;比较模块,用于将增益放大处理后的语音信号的电压与一参考电压Vref进行比较,获得第一比较结果,所述第一比较结果表征增益放大处理后的语音信号的电压是否大于所述参考电压Vref;处理模块,用于计算t时间内的所述第一比较结果的数量比值,数量比值与预设的第一阈值P进行比较获得第二比较结果;计算T时间内第二比较结果之和num T,其中T时间包含n个等同的t时间段;比较num T与预设的第二阈值N并根据该比较结果判断所述模拟语音信号对应为语音段或非语音段,如判断结果为语音段,则唤醒数字语音处理模块进入语音状态,如判断为非语音段,数字语音处理模块保持静默状态;及调整模块,用于计算S_T时间内的所述第一比较结果的数量比值,根据该数量比值与所述第一阈值P的比较结果增大或降低所述增益和所述参考电压Vref以用于判断下一个S_T时间内的模拟语音信号对应为语音段或非语音段。
优选地,所述比较模块设置一阈值电压,该阈值电压划分为多个等级的电压,比较模块选取与所述增益数值匹配的其中一个等级的电压作为所述参考电压。
优选地,所述调整模块根据S_T时间内的所述第一比较结果的数量比值和第一阈值P的差值确定所述增益和所述参考电压Vref的调节步长。
优选地,处理模块包括:第一计算模块,用于计算t时间内0和1的数量比值a0,数量比值ɑ0=量值0/量值all,量值all为t时间内量值0和量值1的总和,量值0为t时间内0的量值数,量值1为t时间内1的量值数;第二计算模块,用于计算num temp,数量比值a0与第一阈值P进行比较,若a0<P,第二比较结果num temp=0,若a0≥P,第二比较结果num temp=1;第三计算模块,用于计算num T=sum(num temp1+...num tempn),T时间包含若干n个等同的t时段t1、t1、······tn,num tempn为tn时间内数量比值a0与第一阈值P进行比较所获得的第二比较结果;及第四计算模块,用于将num T与第二阈值N进行比较,num T>N,则判断tn为非语音段,num T≤N,则判断tn为语音段。
优选地,在所述语音状态和所述静默状态下采用的所述第二阈值取值不同。
优选地,调整模块包括:第一调整计算模块;用于计算S_T时间内0和1的数量比值a0,数量比值ɑ0=量值0/量值all,量值all为t时间内量值0和量值1的总和,量值0为t时间内0的量值数,量值1为t时间内1的量值数;及第二调整计算模块;用于计算数量比值a0与第一阈值P进行比较,若a0<P,增大所述增益和所述参考电压;若a0≥P,降低所述增益和所述参考电压。
优选地,所述语音数据处理装置以S_T时间周期调整所述增益和所述参考电压Vref,S_T时间的时长大于所述t时间的时长。
本发明还提供一种语音数据处理系统,包括如上所述的语音数据处理装置及数字语音处理模块,所述语音数据处理装置检测到语音段时,唤醒数字语音处理模块工作。
本发明还提供一种电子设备,所述电子设备包括如上所述的语音数据处理系统。
优选地,所述电子设备为手机、音箱、耳机、运动手环、电脑、录音笔或电子玩具。
与现有技术相比,本发明所提供的语音数据处理方法对模拟语音信号进行增益放大处理后与参考电压Vref进行比较,获得第一比较结果,计算t时间内的所述第一比较结果的数量比值,数量比值与预设的第一阈值P进行比较获得第二比较结果;计算T时间内第二比较结果之和num T,T时间包含n个t时间段;num T与预设的第二阈值N进行比较并根据该比较结果判断所述模拟语音信号对应为语音段或非语音段,如判断结果为语音段,则唤醒数字语音处理模块进入语音状态,如判断为非语音段,数字语音处理模块保持静默状态。计算S_T时间内的所述第一比较结果的数量比值,根据该数量比值与所述第一阈值P的比较结果增大或降低所述增益和所述参考电压Vref。实现了在不同模拟语音信号的输入下,适用不同的增益和参考电压。具体地,在模拟语音信号S_T周期内数量比值大于第一阈值P时,增大所述参考电压及对应选定增益,在模拟语音信号S_T周期内数量比值小于第一阈值P时,降低所述参考电压及选定对应所述增益,如此使得模拟语音信号可以更好地放大或缩小从而更加精确的对应量化的某一个参考电压Vref,在整体上实现了效能的有效利用,使得模拟端检测语音段或非语音段的整体功耗降低,同时又保障了语音段或非语音段的检测精度。本发明所提供的语音数据处理方法可以通过简单的硬件设计电路方案实现,如麦克风、放大器、比较器和DSP组合即可实现该方案,硬件电路简单,可降低模拟端语音数据处理的功耗。在硬件电路简单的情况下,通过第一比较结果计算所述模拟语音信号的噪声能量的方法(两级阈值比较)进一步有效保障了语音段或非语音段的检测精度。
本发明中,增益与所述参考电压数值相匹配,两者的匹配保障语音段或非语音段的检测精度。
本发明中,通过计算数量比值a0或a1,再与第一阈值进行比较计算出num temp,再通过计算T时间内的num temp之和num T,num T与第二阈值进行比较,根据比较结果判断T时间内的中间时段为语音段或非语音段。通过两次阈值比较的方式判断T时间内的中间时段为语音段或非语音段。计算方法简单,检测精准度高。
本发明中,通过对参考电压和增益自适应实时调整,使得增益和参考电压始终适应于当前的模拟语音信号输入情况进行调整,降低了能耗,保障了语音段或非语音段的检测精度。
本发明所提供的语音数据处理方法所对应的装置、语音数据处理系统及电子设备同样具有以上优点。
本发明的其他有益效果,将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述,本领域技术人员通过这些技术特征和技术方案的介绍,应能理解所述技术特征和技术方案带来的有益技术效果。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1本发明中一种语音数据处理方法的流程示意图。
图2为图1中步骤S4之具体实施方式的详细流程图。
图3为图2中步骤S43中T时间的界定示意图。
图4为本发明中语音数据处理装置的模块示意图。
图5为本发明中语音数据处理系统的模块示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分,为了避免混淆本发明的实质,公知的方法、过程、流程、元件并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
第一实施例
请参阅图1,本发明第一实施例揭示了一种语音数据处理方法,其包括:
步骤S1:接收模拟语音信号;具体地,所述模拟语音信号的来源可以是用户发出,也可以是某种设备所发出。接收模拟语音信号的装置可以是麦克风等任一种能够接收模拟语音信号的装置。
步骤S2:对所述模拟语音信号进行增益放大处理;具体地,令增益为gain_db,对模拟语音信号进行放大以便进行进一步的信号处理。
作为一种优选实施方式,对模拟语音信号的放大通过放大器实现:
vin为原始的模拟语音信号的电压值,vout为经放大器放大后的模拟语音信号的电压值,gain_db为放大器的增益,其单位为db。本发明中,增益为可调参数。作为一种实施方式,增益取值范围为-6db到42db之间,在调整增益时,增益间隔为1db至5db,优选为3db。
可以理解,步骤S2中的放大处理不限定于通过放大器实现,其也可以通过能够实现放大功能的其他软件和/或硬件电路实现。
步骤S3:将增益放大处理后的语音信号的电压与一参考电压Vref进行比较,获得第一比较结果,所述第一比较结果表征增益放大处理后的语音信号的电压是否大于所述参考电压Vref;作为一种实施例,经过放大后的所述模拟语音信号与所述参考电压Vref进行比较后获得第一比较结果为0或1。
作为一种优选实施方式,步骤S3可以通过比较器实现。作为一种实施方式,比较器设置一阈值电压,该阈值电压划分为多个等级的电压,选取其中一个等级的电压作为所述参考电压。参考电压与增益数值是相匹配的,即增益和参考电压之间有设定的对应关系,通过设定的对应关系,每一增益匹配一最佳参考电压。本发明中,参考电压为可调参数。作为另一种实施方式,以固定或非固定的步长对参考电压进行调整。参考电压Vref不得低于5V,且不高于15V。
可以理解,步骤S2中的比较运算不限定于通过比较器实现,其也可以通过其他能够实现比较运算的软件和/或硬件电路实现。
步骤S4:计算t时间内的所述第一比较结果的数量比值,数量比值与预设的第一阈值P进行比较获得第二比较结果;计算T时间内第二比较结果之和num T,T时间包含n个t时间;num T与预设的第二阈值N进行比较并根据该比较结果判断所述模拟语音信号对应为语音段或非语音段,如判断结果为语音段,则唤醒数字语音处理模块进入语音状态,如判断为非语音段,数字语音处理模块保持静默状态。
步骤S4中,根据所述第一比较结果计算所述模拟语音信号的噪声能量,并根据所述噪声能量判断所述模拟语音信号对应为语音段或非语音段,该判断结果用于确定是否唤醒数字语音处理模块;
请参阅图2,作为一种具体实施方式,所述步骤S4包括:
步骤S41:计算t时间内0和1的数量比值a0,数量比值ɑ0=量值0/量值all,量值all为t时间内量值0和量值1的总和,量值0为t时间内0的量值数,量值1为t时间内1的量值数。例如:t时间内,比较结果包括5个0,15个1,即量值0的数量为5,量值1的数量为15,ɑ0=5/(5+15)。
步骤S42:数量比值a0与第一阈值P进行比较,若a0<P,第二比较结果num temp=0,若a0≥P,第二比较结果num temp=1。例如:第一阈值P为0.8,ɑ0=5/(5+15)=0.25,ɑ0小于0.8,num temp=0。
步骤S43:计算num T=sum(num temp1+...num tempn),请参阅图3,T时间包含若干n个等同的t时段t1、t1、······tn,num tempn为tn时间内数量比值a0与第一阈值P进行比较所获得的第二比较结果。例如:T时间包含若干4个等同的时段t1,t2,t3,t4,时段t1,t2,t3,t4内的第二比较结果分别为:0,1,1,1。num T=3。
步骤S44:num T与第二阈值N进行比较,num T>N,则判断tn为非语音段,num T≤N,则判断tn为语音段。可以理解,该判断结果可以认为是对应T时间中的任意tn,也可以认为是对应于T时间。如第二阈值N设定为2,num T=3,num T大于第二阈值N,判断tn或T时间为非语音段。
可以理解,在步骤S4中,根据所述第一比较结果计算所述模拟语音信号的噪声能量的计算方式不做限定,其也可以通过建立噪声能量计算模型等其他方式进行。在上述的计算方式中,可以理解,步骤S41中,也可以计算数量比值a1,数量比值ɑ1=量值1/量值all。对应地,步骤S42中,数量比值a1与预先设置的第一阈值P进行比较,若a0<P,第二比较结果num temp=0,若a0≥P,第二比较结果num temp=1。num T与预先设置的第二阈值N进行比较,num T>N,则判断时段tn为语音段,num T≤N,则判断时段tn为非语音段。可以理解,计算数量比值a1是计算数量比值a0的等同方式,均属于本发明的保护范围。
作为一种实施例,在所述语音状态和所述静默状态下采用的所述第二阈值取值不同。如此,可以提高计算精度。作为一种实施例,数量比值计算的是a0时,语音状态下的第二阈值大于静默状态下的第二阈值。
在步骤S4中,判断模拟语音信号对应为非语音段时,数字语音处理模块将不会被唤醒而保持静默状态。判断模拟语音信号对应为语音段时,唤醒数字语音处理模块进入语音状态,即唤醒数字语音处理模块工作,由数字语音处理模块做精确的数字端的语音端点检测、语音识别或降噪等。
步骤S5:计算S_T时间内的所述第一比较结果的数量比值,根据该数量比值与所述第一阈值P的比较结果增大或降低所述增益和所述参考电压Vref以用于判断下一个S_T时间内的模拟语音信号对应为语音段或非语音段。
作为一种实施例,步骤S5包括:
步骤S51:计算S_T时间内0和1的数量比值a0,数量比值ɑ0=量值0/量值all,量值all为t时间内量值0和量值1的总和,量值0为t时间内0的量值数,量值1为t时间内1的量值数;及
步骤S52:数量比值a0与第一阈值P进行比较,若a0<P,增大所述增益和所述参考电压;若a0≥P,降低所述增益和所述参考电压。
可以理解,在步骤S5中第一比较结果的数量比值计算方式和步骤S4中所提及的计算方式保持一致。如果数量比值计算的是a1,则对应的a1<P,降低所述增益和所述参考电压;若a1≥P,增大所述增益和所述参考电压。在下一个S_T时间内,以调整后的增益与参考电压进行步骤S2、步骤S3的计算。如此实现对增益与参考电压的自适应实时调整。可以理解,调整增益和参考电压的频次和步长可以自由选择。本发明中以S_T时间为周期调整所述增益和所述参考电压Vref,S_T时间的时长大于所述t时间的时长。作为一种实施例,在步骤S5中,根据数量比值和第一阈值P的差值确定所述增益和所述参考电压Vref的调节步长。数量比值和第一阈值P的差值越大,调节步长越长,反之,调节步长越小。可以理解,对于参考电压和增益的增大或降低不限于前述的一些调整方式,只要能够实现调节目的均属于本发明的保护范围。
作为一种实施例,t时间段内包括的语音信号帧数为4-10帧,T时间段内包括的语音信号帧数为70-95帧,所述S_T时间段内包括的数据帧数为100-200帧。在该参数下,自适应调整可稳定进行,还保障计算精度。
作为一种实施方式,参考电压和增益的调整是联动的,由于增益和电压之间具有设定的对应关系,调节增益或参考电压的其中一者,则另一者对应与之按设定的对应关系完成调整。如调整参考电压后,选定对应增益。作为另一种实施方式,参考电压和增益的调整是分开进行的,两者分别根据S_T时间内数量比值与所述第一阈值P的比较结果进行调整,在该种实施方式中,参考电压和增益之间依然满足设定的对应关系。可以理解,前述的方式均属于本发明的保护范围。
请参阅图4,本发明提供一种语音数据处理装置20,其用于进行模拟端的语音端点检测,该语音数据处理装置20包括:
语音接收模块21,用于接收模拟语音信号。
放大模块22,用于对所述模拟语音信号进行增益放大处理。
比较模块23,用于将增益放大处理后的语音信号的电压与一参考电压Vref进行比较,获得第一比较结果,所述第一比较结果表征增益放大处理后的语音信号的电压是否大于所述参考电压Vref。
处理模块24,用于计算t时间内的所述第一比较结果的数量比值,数量比值与预设的第一阈值P进行比较获得第二比较结果;计算T时间内第二比较结果之和num T,其中T时间包含n个等同的t时间段;num T与预设的第二阈值N进行比较并根据该比较结果判断所述模拟语音信号对应为语音段或非语音段,如判断结果为语音段,则唤醒数字语音处理模块进入语音状态,如判断为非语音段,数字语音处理模块保持静默状态;及
调整模块25,用于计算S_T时间内的所述第一比较结果的数量比值,根据该数量比值与所述第一阈值P的比较结果增大或降低所述增益和所述参考电压Vref以用于判断下一个S_T时间内的模拟语音信号对应为语音段或非语音段。
作为一种实施例,所述比较模块设置一阈值电压,该阈值电压划分为多个等级的电压,比较模块选取与所述增益数值匹配的其中一个等级的电压作为所述参考电压。
作为一种实施例,所述处理模块24包括:
第一计算模块,用于计算t时间内0和1的数量比值a0,数量比值ɑ0=量值0/量值all,量值all为t时间内量值0和量值1的总和,量值0为t时间内0的量值数,量值1为t时间内1的量值数。
第二计算模块,用于计算num temp,数量比值a0与第一阈值P进行比较,若a0<P,第二比较结果num temp=0,若a0≥P,第二比较结果num temp=1。
第三计算模块,用于计算num T=sum(num temp1+...num tempn),T时间包含若干n个等同的t时段t1、t1、······tn,num tempn为tn时间内数量比值a0与第一阈值P进行比较所获得的第二比较结果。
第四计算模块,用于将num T与第二阈值N进行比较,num T>N,则判断tn为非语音段,num T≤N,则判断tn为语音段。
作为一种实施例,在所述语音状态和所述静默状态下采用的所述第二阈值取值不同。
作为一种实施例,调整模块根据S_T时间内的所述第一比较结果的数量比值和第一阈值P的差值确定所述增益和所述参考电压Vref的调节步长。
作为一种实施例,语音数据处理装置以S_T时间周期调整所述增益和所述参考电压Vref,S_T时间的时长大于所述t时间的时长。
可以理解,处理模块可以是CPU,DSP,MCU等。调整模块可以在实体上与处理模块集成在一起,也可以分体设置。
语音数据处理装置可以认为是语音数据处理方法所对应的装置,语音数据处理方法中所揭示的内容均适用于语音数据处理装置。
第二实施例
请参阅图5,本发明第二实施例提供一种语音数据处理系统30,包括如第一实施例种揭示的语音数据处理装置31及数字语音处理模块32,语音数据处理装置31检测到语音段时,唤醒数字语音处理模块32工作。数字语音处理模块32对语音信号做精确的数字端的语音端点检测、语音识别或降噪等。
第三实施例
本发明第三实施例提供一种电子设备(未图示),电子设备包括如第二实施例所述的语音数据处理系统。电子设备可以为为手机、音箱、耳机、运动手环、电脑、录音笔或电子玩具。
本领域的技术人员能够理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
附图中的流程图和模块图,图示了按照本申请各种实施例的方法、装置、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。
Claims (19)
1.一种语音数据处理方法,其特征在于,包括:
步骤S1:接收模拟语音信号;
步骤S2:对所述模拟语音信号进行增益放大处理;
步骤S3:将增益放大处理后的语音信号的电压与一参考电压Vref进行比较,获得第一比较结果,所述第一比较结果表征增益放大处理后的语音信号的电压是否大于所述参考电压Vref;
步骤S4:计算t时间段内的所述第一比较结果的数量比值,数量比值与预设的第一阈值P进行比较获得第二比较结果;计算预设的T时间内第二比较结果之和num T,其中T时间包含n个等同的t时间段;比较num T与预设的第二阈值N并根据该比较结果判断所述模拟语音信号对应为语音段或非语音段,如判断结果为语音段,则唤醒数字语音处理模块进入语音状态,如判断为非语音段,数字语音处理模块保持静默状态;及
步骤S5:计算S_T时间内的所述第一比较结果的数量比值,根据该数量比值与所述第一阈值P的比较结果增大或降低所述增益和所述参考电压Vref以用于判断下一个S_T时间内的模拟语音信号对应为语音段或非语音段。
2.如权利要求1所述的语音数据处理方法,其特征在于,步骤S2中所述增益放大处理的增益与所述参考电压Vref数值相匹配。
3.如权利要求1所述的语音数据处理方法,其特征在于,在步骤S5中,根据数量比值和第一阈值P的差值确定所述增益和所述参考电压Vref的调节步长。
4.如权利要求1所述的语音数据处理方法,其特征在于,在步骤S3中,所述第一比较结果为0或1;
所述步骤S4包括:
步骤S41:计算t时间内0和1的数量比值a0,数量比值ɑ0=量值0/量值all,量值all为t时间内量值0和量值1的总和,量值0为t时间内0的量值数,量值1为t时间内1的量值数;
步骤S42:数量比值a0与第一阈值P进行比较,若a0<P,第二比较结果num temp=0,若a0≥P,第二比较结果num temp=1;
步骤S43:计算num T=sum(num temp1+...num tempn),T时间包含n个等同的t时段t1、t1、······tn,num tempn为tn时间内数量比值a0与第一阈值P进行比较所获得的第二比较结果;及
步骤S44:num T与第二阈值N进行比较,num T>N,则判断tn为非语音段,num T≤N,则判断tn为语音段。
5.如权利要求1-4任一项所述的语音数据处理方法,其特征在于,在所述语音状态和所述静默状态下采用的所述第二阈值取值不同。
6.如权利要求4所述的语音数据处理方法,其特征在于,在所述语音状态和所述静默状态下采用的所述第二阈值取值不同,语音状态下的第二阈值取值大于静默状态下的第二阈值取值。
7.如权利要求1-4任一项所述的语音数据处理方法,其特征在于,所述步骤S5包括:
步骤S51:计算S_T时间内0和1的数量比值a0,数量比值ɑ0=量值0/量值all,量值all为t时间内量值0和量值1的总和,量值0为t时间内0的量值数,量值1为t时间内1的量值数;及
步骤S52:数量比值a0与第一阈值P进行比较,若a0<P,增大所述增益和所述参考电压;若a0≥P,降低所述增益和所述参考电压。
8.如权利要求1-4任一项所述的语音数据处理方法,其特征在于,所述语音数据处理方法中以S_T时间周期调整所述增益和所述参考电压Vref,S_T时间的时长大于所述T时间的时长。
9.如权利要求1-4任一项所述的语音数据处理方法,其特征在于,所述t时间段内包括的语音信号帧数为4-10帧,所述T时间段内包括的语音信号帧数为70-95帧,所述S_T时间段内包括的数据帧数为100-200帧。
10.一种语音数据处理装置,其特征在于,包括:
语音接收模块,用于接收模拟语音信号;
放大模块,用于对所述模拟语音信号进行增益放大处理;
比较模块,用于将增益放大处理后的语音信号的电压与一参考电压Vref进行比较,获得第一比较结果,所述第一比较结果表征增益放大处理后的语音信号的电压是否大于所述参考电压Vref;
处理模块,用于计算t时间内的所述第一比较结果的数量比值,数量比值与预设的第一阈值P进行比较获得第二比较结果;计算T时间内第二比较结果之和num T,其中T时间包含n个等同的t时间段;比较num T与预设的第二阈值N并根据该比较结果判断所述模拟语音信号对应为语音段或非语音段,如判断结果为语音段,则唤醒数字语音处理模块进入语音状态,如判断为非语音段,数字语音处理模块保持静默状态;及
调整模块,用于计算S_T时间内的所述第一比较结果的数量比值,根据该数量比值与所述第一阈值P的比较结果增大或降低所述增益和所述参考电压Vref以用于判断下一个S_T时间内的模拟语音信号对应为语音段或非语音段。
11.如权利要求10所述的语音数据处理装置,其特征在于,所述比较模块设置一阈值电压,该阈值电压划分为多个等级的电压,比较模块选取与所述增益数值匹配的其中一个等级的电压作为所述参考电压。
12.如权利要求10所述的语音数据处理装置,其特征在于,所述调整模块根据S_T时间内的所述第一比较结果的数量比值和第一阈值P的差值确定所述增益和所述参考电压Vref的调节步长。
13.如权利要求10所述的语音数据处理装置,其特征在于,处理模块包括:
第一计算模块,用于计算t时间内0和1的数量比值a0,数量比值ɑ0=量值0/量值all,量值all为t时间内量值0和量值1的总和,量值0为t时间内0的量值数,量值1为t时间内1的量值数;
第二计算模块,用于计算num temp,数量比值a0与第一阈值P进行比较,若a0<P,第二比较结果num temp=0,若a0≥P,第二比较结果num temp=1;
第三计算模块,用于计算num T=sum(num temp1+...num tempn),T时间包含若干n个等同的t时段t1、t1、······tn,num tempn为tn时间内数量比值a0与第一阈值P进行比较所获得的第二比较结果;及
第四计算模块,用于将num T与第二阈值N进行比较,num T>N,则判断tn为非语音段,num T≤N,则判断tn为语音段。
14.如权利要求10-13任一项所述的语音数据处理装置,其特征在于,在所述语音状态和所述静默状态下采用的所述第二阈值取值不同。
15.如权利要求10-13任一项所述的语音数据处理装置,其特征在于,调整模块包括:
第一调整计算模块;用于计算S_T时间内0和1的数量比值a0,数量比值ɑ0=量值0/量值all,量值all为t时间内量值0和量值1的总和,量值0为t时间内0的量值数,量值1为t时间内1的量值数;及
第二调整计算模块;用于计算数量比值a0与第一阈值P进行比较,若a0<P,增大所述增益和所述参考电压;若a0≥P,降低所述增益和所述参考电压。
16.如权利要求9所述的语音数据处理装置,其特征在于,所述语音数据处理装置以S_T时间周期调整所述增益和所述参考电压Vref,S_T时间的时长大于所述t时间的时长。
17.一种语音数据处理系统,其特征在于,包括如权利要求10-16任一项所述的语音数据处理装置及数字语音处理模块,所述语音数据处理装置检测到语音段时,唤醒数字语音处理模块工作。
18.一种电子设备,其特征在于:所述电子设备包括如权利要求17所述的语音数据处理系统。
19.如权利要求18所述的电子设备,其特征在于:所述电子设备为手机、音箱、耳机、运动手环、电脑、录音笔或电子玩具。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110169539.XA CN114913879A (zh) | 2021-02-07 | 2021-02-07 | 语音数据处理方法及装置、语音数据处理系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110169539.XA CN114913879A (zh) | 2021-02-07 | 2021-02-07 | 语音数据处理方法及装置、语音数据处理系统及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114913879A true CN114913879A (zh) | 2022-08-16 |
Family
ID=82761561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110169539.XA Pending CN114913879A (zh) | 2021-02-07 | 2021-02-07 | 语音数据处理方法及装置、语音数据处理系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114913879A (zh) |
-
2021
- 2021-02-07 CN CN202110169539.XA patent/CN114913879A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10824391B2 (en) | Audio user interface apparatus and method | |
KR101981878B1 (ko) | 스피치의 방향에 기초한 전자 디바이스의 제어 | |
EP2994910B1 (en) | Method and apparatus for detecting a target keyword | |
US8275609B2 (en) | Voice activity detection | |
US9992745B2 (en) | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate | |
CN111465981B (zh) | 模拟语音活动检测器系统和方法 | |
US10347252B2 (en) | Electronic device with wake on voice function and operation method thereof | |
CN111292737A (zh) | 语音交互及语音唤醒检测方法、装置、设备及存储介质 | |
US11664012B2 (en) | On-device self training in a two-stage wakeup system comprising a system on chip which operates in a reduced-activity mode | |
CN115019817A (zh) | 语音唤醒方法及装置、电子设备及存储介质 | |
CN114913879A (zh) | 语音数据处理方法及装置、语音数据处理系统及电子设备 | |
CN108877788B (zh) | 具有语音唤醒功能的电子装置及其操作方法 | |
CN110600019A (zh) | 基于实时场景下语音信噪比预分级的卷积神经网络计算电路 | |
US11205433B2 (en) | Method and apparatus for activating speech recognition | |
US11790931B2 (en) | Voice activity detection using zero crossing detection | |
US20220130405A1 (en) | Low Complexity Voice Activity Detection Algorithm | |
US11783818B2 (en) | Two stage user customizable wake word detection | |
CN113284517B (zh) | 语音端点检测方法、电路、音频处理芯片和音频设备 | |
JP2002299975A (ja) | デジタルagc装置 | |
US20230386451A1 (en) | Voice wakeup detecting device and method | |
KR102044962B1 (ko) | 환경 분류 보청기 및 이를 이용한 환경 분류 방법 | |
TW202226226A (zh) | 具低複雜度語音活動檢測演算之設備及方法 | |
JPH07225592A (ja) | 有音区間検出装置 | |
JP2007206154A (ja) | 実環境騒音下の音声区間の検出 | |
CN117354623A (zh) | 拍照的控制方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |