CN111128167B - 一种远场语音唤醒方法、装置、电子产品及存储介质 - Google Patents
一种远场语音唤醒方法、装置、电子产品及存储介质 Download PDFInfo
- Publication number
- CN111128167B CN111128167B CN201911394098.2A CN201911394098A CN111128167B CN 111128167 B CN111128167 B CN 111128167B CN 201911394098 A CN201911394098 A CN 201911394098A CN 111128167 B CN111128167 B CN 111128167B
- Authority
- CN
- China
- Prior art keywords
- audio
- amplitude
- signal
- module
- frequency point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000005236 sound signal Effects 0.000 claims abstract description 160
- 230000003321 amplification Effects 0.000 claims abstract description 22
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 230000002618 waking effect Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 18
- 230000001105 regulatory effect Effects 0.000 claims description 12
- 230000033228 biological regulation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000030279 gene silencing Effects 0.000 claims description 3
- 230000008685 targeting Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例公开了一种远场语音唤醒方法、装置、电子产品及存储介质,其中该方法包括:根据预设的分段式幅频滤波器对待播放音频进行滤波,得到限幅音频;在限幅音频播放过程中,采集功放模块输出的电信号,并接收音频采集模块输入的第一声信号;将电信号转换为第二声信号,从第一声音号中去除第二声信号,得到第三声信号;于识别到第三声信号中包含唤醒指令时,停止播放限幅音频,并唤醒远场语音控制功能。本发明实施例提供的一种远场语音唤醒方法、装置、电子产品及存储介质,通过预设的分段式幅频滤波器对待播放音频进行限幅,从而降低了扬声器的谐波失真,第一声信号中谐波失真信号也相应减少,从而提高了远场语音唤醒的成功率。
Description
技术领域
本发明实施例涉及语音唤醒技术领域,尤其涉及一种远场语音唤醒方法、装置、电子产品及存储介质。
背景技术
目前,具备音频播放功能的电子产品(例如智能音箱或智能电视等产品)可同时具备远场语音控制功能。电子产品在音频播放的过程中,远场语音控制功能的实现步骤大致可以是:接收唤醒语音;根据唤醒语音进行电子产品的打断唤醒(即停止播放音频,激活远场语音控制功能);接收控制语音,根据控制语音识别控制命令,并根据控制命令控制播放。其中,控制命令例如包括音量调节命令和音频调换命令等。
现有技术中,电子产品接收的唤醒语音为用户发出的声音和电子产品播放的声音的叠加,为提高打断唤醒的成功率,通常可在识别唤醒指令前先将唤醒语音中电子产品播放的声音消除。消除电子产品播放的声音的步骤大致可以是:电子产品采集功放输出的电信号,并将电信号转换为声信号;从唤醒语音中去除该声信号。然而,由于扬声器的谐波失真的特点,从唤醒语音中去除功放对应的声信号并不能消除扬声器产生的谐波失真信号,导致唤醒指令的识别率低,进而影响打断唤醒。
发明内容
有鉴于此,本发明实施例提供了一种远场语音唤醒方法、装置、电子产品及存储介质,可提高远场语音唤醒的成功率。
第一方面,本发明实施例提供了一种远场语音唤醒方法,包括:
根据预设的分段式幅频滤波器对待播放音频进行滤波,得到限幅音频;
在所述限幅音频播放过程中,采集功放模块输出的电信号,并接收音频采集模块输入的第一声信号;
将所述电信号转换为第二声信号,从所述第一声音号中去除所述第二声信号,得到第三声信号;
于识别到所述第三声信号中包含唤醒指令时,停止播放所述限幅音频,并唤醒远场语音控制功能。
第二方面,本发明实施例提供了一种远场语音唤醒装置,包括:
滤波模块,用于根据预设的分段式幅频滤波器对待播放音频进行滤波,得到限幅音频;
采集模块,用于在所述限幅音频播放过程中,采集功放模块输出的电信号,并接收音频采集模块输入的第一声信号;
消音模块,用于将所述电信号转换为第二声信号,从所述第一声音号中去除所述第二声信号,得到第三声信号;
唤醒模块,用以于识别到所述第三声信号中包含唤醒指令时,停止播放所述限幅音频,并唤醒远场语音控制功能。
第三方面,本发明实施例提供了一种电子产品,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的远场语音唤醒方法。
第四方面,本发明实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的远场语音唤醒方法。
本发明实施例提供的一种远场语音唤醒方法、装置、电子产品及存储介质,电子产品根据预设的分段式幅频滤波器对待播放音频进行滤波,得到限幅音频;在限幅音频播放过程中,采集功放模块输出的电信号,并接收音频采集模块输入的第一声信号;将电信号转换为第二声信号,从第一声音号中去除第二声信号,得到第三声信号;于识别到第三声信号中包含唤醒指令时,停止播放限幅音频,并唤醒远场语音控制功能。
电子产品通过预设的分段式幅频滤波器对待播放音频进行限幅,得到限幅音频并播放,可以降低扬声器播放该音频时的总谐波失真,从而第一声信号中谐波失真信号也相应减少。从第一声音号中去除第二声信号后得到的第三声信号,更接近于用户发出的声音,提高了唤醒指令的识别率,进而提高了远场语音唤醒的成功率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种远场语音唤醒方法流程图;
图2是本发明实施例一提供的一种远场语音唤醒方法中生成分段式幅频滤波器的流程图;
图3是本发明实施例二提供的一种远场语音唤醒方法中确定各特征频点的音频信号的门限幅值的流程图;
图4是本发明实施例三提供的一种远场语音唤醒装置结构示意图;
图5是本发明实施例四提供的一种电子产品的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下将参照本发明实施例中的附图,通过实施方式清楚、完整地描述本发明的技术方案,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下述各实施例中,每个实施例中同时提供了可选特征和示例,实施例中记载的各个特征可进行组合,形成多个可选方案,不应将每个编号的实施例仅视为一个技术方案。
实施例一
图1是本发明实施例一提供的一种远场语音唤醒方法流程图,本实施例可适用于远场语音唤醒的情况,例如是智能电视机在正常播放节目过程中,进行远场语音唤醒的情况。该方法可以由本发明实施例提供的远场语音唤醒装置实现,具体可由远场语音唤醒装置中的硬件和/或软件实现,且远场语音唤醒装置可集成于本发明实施例提供的电子产品中。
参见图1,该远场语音唤醒方法,包括如下步骤:
S110、根据预设的分段式幅频滤波器对待播放音频进行滤波,得到限幅音频。
实施本发明提供的远场语音唤醒方法的电子产品,例如可以是智能音箱或智能电视等具备音频播放功能的电子产品。电子产品可在读取本地音频数据,或通过音频接口接收的其他终端发送的音频数据后,将音频数据经过音量调节模块调幅,和/或经过功放模块增益,得到待播放音频数据。且电子产品的扬声器模块可将待播放的音频数据转化为声音号进行播放。
由于扬声器模块中机械振动系统和磁路系统的非线性,在输入f1频率的信号,会输出2f1、3f1和4f1等频率的信号,可将此现象称为扬声器模块的谐波失真。改善扬声器模块谐波失真的常规方案可包括:提升扬声器模块中弹波组件的硬度,从而降低音频振幅,以降低谐波失真,但该做法的缺点是使最低共振频率F0升高,导致低频音效变差;此外,还可以通过降低扬声器模块整体输出功率的方式降低谐波失真,但该做法会导致扬声器模块的输出声压降低,影响声音响度。
而本实施例中提供的分段式幅频滤波器,根据扬声器模块在不同频段的谐波失真不同的性质,为不同频段的信号分别设置了门限幅值。电子产品可提前根据其内部配置的扬声器模块的谐波失真特性,生成的分段式幅频滤波器,并利用该分段式幅频滤波器对待播放音频进行滤波,从而可实现对不同频段的待播放音频信号进行不同门限幅值的幅值滤波,不仅降低了各频段信号的谐波失真,同时还保证了播放音效,也避免了减低整体输出功率。
S120、在限幅音频播放过程中,采集功放模块输出的电信号,并接收音频采集模块输入的第一声信号。
电子产品的扬声器模块将限幅音频转化为声音信号播放,可以使得播放的声音信号中失真谐波信号大大减少,也就使得扬声器模块播放的声信号与根据功放模块输出的电信号转换的声音号之间基本相同。在限幅音频播放过程中,电子产品的音频采集模块(例如数字麦克风)可采集包含扬声器模块播放的声信号的第一声信号。同时,电子产品还可以采集功放模块输出的电信号,以用于模拟扬声器模块播放的声信号。
S130、将电信号转换为第二声信号,从第一声音号中去除第二声信号,得到第三声信号。
电子产品可基于自身配置的扬声器模块的电声转换原理,利用软件程序模拟扬声器模块将功放模块输出的电信号转换为声信号的过程,得到第二声信号。由于扬声器模块中失真谐波信号大大减少,模拟扬声器模块播放的第二声音号,与实际扬声器模块播放的声信号的相似度较高。因此,从第一声音号中去除第二声信号的过程,可用来代替从第一声音号中去除扬声器播放的声信号的过程。当第一声信号中还包括用户发出的声信号时,得到的第三声信号相应的也就与用户发出的声信号基本相同。
S140、于识别到第三声信号中包含唤醒指令时,停止播放限幅音频,并唤醒远场语音控制功能。
其中,识别第三声信号的语音识别方法,例如可以是基于动态时间规整(DynamicTime Warping)的算法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于非参数模型的矢量量化(VQ)的方法或者基于人工神经网络(ANN)的算法等,在此不做穷举。基于与用户发出的声音号相似度极高的第三声音信号进行唤醒指令识别,可大大提高唤醒指令的识别率。
在成功识别到第三声信号中包含唤醒指令时,电子产品可控制扬声器模块停止播放限幅音频,并唤醒远场语音控制功能,以在较为安静的情况下监听用户的控制语音,实现远场语音控制。
本发明实施例提供远场语音唤醒方法中,在根据预设的分段式幅频滤波器对待播放音频进行滤波之前,还可以包括:生成分段式幅频滤波器。图2是本发明实施例一提供的一种远场语音唤醒方法中生成分段式幅频滤波器的流程图。参见图2,分段式幅频滤波器的生成步骤,可包括:
S210、将预设频段按照1/n倍频程划分为至少一个子频段,其中n为预设正整数;
S220、选取各子频段内的特征频点,确定各特征频点的音频信号的门限幅值,并将门限幅值作为各子频段内任意频点的门限幅值;
S230、根据各子频段内任意频点的门限幅值,生成分段式幅频滤波器。
可选的,预设频段为20Hz-20kHz频段。人耳的听觉频率为20Hz-20KHz,因此可将预设频段相应设置为20Hz-20kHz频段。由于人耳听觉对频率的敏感度呈对数排列,因此可将预设频段按照倍频程划分区间。
其中,将预设频段按照1/n倍频程划分为至少一个子频段可以是,首先将预设频段中起始频点的频点值作为第一个频点值,计算第一个频点值的1/n倍频程的频点值,得到第二个频点值;再计算该第二个频点值的1/n倍频程的频点值,得到第三个频点值;依次计算,直至计算出的频点值大于等于预设频段中终止频点的频点值为止,将终止频点的频点值作为最后的频点值;可以将相邻频点值之间构成的频段,作为子频段。
其中,可通过下述公式计算1/n倍频程的频点:
fc=f0×21/n;
其中,f0为初始频点,fc为目标频点,n为正整数。其中,n越大,划分得到的子频段越多,也就是分段式幅频滤波器的分段越精细,对待播放音频的限幅滤波效果越好,相应的电子产品的打断唤醒效果越好。但是,划分得到的子频段越多,分段式幅频滤波器占用电子产品运算资源也随之增加。因此,可通过匹配实际应用场景中电子产品资源和滤波效果,得到n值。
选取各子频段内的特征频点时,可以将各子频段的起始频点、中点频点或终止频点作为特征频点。特征频点可以作为所在的子频段的参考频点,确定该特征频点的门限幅值后,可以将该门限幅值作为特征频点所在子频段的任意一个频点的门限幅值。
其中,确定特征频点的音频信号的门限幅值,可以是通过电子产品的扬声器模块播放该特征频点的音频信号,同时计算扬声器模块在播放该特征频点的音频信号的总谐波失真;调节该音频信号的幅值使总谐波失真降低到期望数值;其中,每次调节幅值完毕,可对调节后的幅值进行监听记录,并可将总谐波失真降低到期望数值时监听到的音频幅值,作为该特征频点的音频信号的门限幅值。
各子频段的门限幅值,即为各子频段内任意一个频点的音频信号的滤波上限值。将各子频率段的门限幅值值形成滤波器组合,即形成分段式幅频滤波器。将分段式幅频滤波器嵌入到电子产品系统,当待播放音频信号经过该滤波器时,待播放音频信号的幅值低于待播放音频信号所在频段的门限幅值时,可自由通过;高于所在频段的门限幅值时,输出的音频幅值被限制为该频段的门限幅值。
由于扬声器模块在不同频率段的失真表现不一样,通过将预设频段按倍频程分为若干子频段,并针对每个子频段进行谐波失真控制,可形成分段式幅频滤波器。通过分段式幅频滤波器对待播放音频进行限幅滤波,可降低各频段信号的谐波失真,提高唤醒指令识别率,进而提高打断唤醒率。
示例性的,当预设频段为20Hz-20kHz频段,倍频程为1/3时,分段式幅频滤波器的生成大致过程为:以20Hz为第一个频点值,根据1/3倍频程计算并四舍五入,可得到频点值如下:20、25、32、40、50、63、80、100、125、160、200、250、315、400、500、630、800、1000、1250、1600、2000、2500、3150、4000、5000、6300、8000、10000、12500、16000和20000(单位Hz),共31个频率点。将相邻频率点组成一个子频段,即20~25、25~32、32~40...16000~20000共30个子频段。取每个子频段的起始频率为该段的特征频点,确定各特征频点的音频信号的门限幅值,并将门限幅值作为各子频段内任意频点的门限幅值;根据各子频段内任意频点的门限幅值,生成分段式幅频滤波器。
本实施例提供的远场语音唤醒方法,根据预设的分段式幅频滤波器对待播放音频进行滤波,得到限幅音频;在限幅音频播放过程中,采集功放模块输出的电信号,并接收音频采集模块输入的第一声信号;将电信号转换为第二声信号,从第一声音号中去除第二声信号,得到第三声信号;于识别到第三声信号中包含唤醒指令时,停止播放限幅音频,并唤醒远场语音控制功能。电子产品通过预设的分段式幅频滤波器对待播放音频进行限幅,得到限幅音频并播放,可以降低扬声器播放该音频时的总谐波失真,从而第一声信号中谐波失真信号也相应减少。从第一声音号中去除第二声信号后得到的第三声信号,更接近于用户发出的声音,提高了唤醒指令的识别率,进而提高了远场语音唤醒的成功率。
实施例二
本实施例在上述实施例基础上,对确定各特征频点的音频信号的门限幅值的步骤进行了优化。本发明实施例与上述实施例提出的远场语音唤醒方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
图3是本发明实施例二提供的一种远场语音唤醒方法中确定各特征频点的音频信号的门限幅值的流程图。参见图3,上述实施例S230步骤中,确定各特征频点的音频信号的门限幅值,可包括:
S231、依序从各特征频点中选取当前特征频点;
S232、通过信号发生器输出当前特征频点的音频信号,并经功放模块驱动扬声器播放音频信号,其中信号发生器初始输出的音频幅值为最大值;
S233、通过音频采集模块采集第四声信号,并将第四声信号转换为频域信号;
S234、根据频率信号,计算当前特征频点的总谐波失真,并以总谐波失真小于等于预设数值为目标,降低音频幅值;
S235、将总谐波失真小于等于预设数值时的最大音频幅值,作为当前频点的音频信号的门限幅值,直至确定各特征频点的门限幅值为止。
依序从各特征频点中选取当前特征频点,可以是根据频点值从小到大、从大到小或随机大小的方式从各特征频点中选取当前特征频点,且选取过程需遍历全部特征频点。
在选取当前特征频点后,电子产品可通过内置的信号发生器输出当前特征频点的音频信号。且为了扩大用户可选择音量的范围,需要确定出数值最大的门限幅值,因此信号发生器初始可输出的音频幅值最大的当前频点的音频信号,即初始输出当前频点的0dB的音频信号。该音频信号可经功放模块驱动扬声器播放音频信号。
在播放音频信号的同时,电子产品可通过音频采集模块(例如数字麦克风)采集第四声信号,第四声信号中包含扬声器模块播放的声信号。优选的,可以在环境噪音较小的环境下进行音频信号的播放和采集,以提高总谐波失真的计算准确度。其中,可以利用快速傅里叶变换(Fast Fourier Transformation,FFT)将第四声信号转换为频域信号。
其中,可通过下述公式计算当前特征频点的总谐波失真:
其中,THD为总谐波失真数值,H1为当前特征频点的频域幅值,H2-HN为当前特征频点的N次谐波的频域幅值,其中N为正整数。例如,H1为20Hz频点的频域幅值时,H2-HN为40Hz、60Hz、80Hz...(20*N)Hz频点的频域幅值。当其中,N越大,计算得到的总谐波失真越准确,N例如可以取10,且还可以根据实际场景选取其他数值。
当THD大于预设数值时,可调低信号发生器输出的音频幅值,并重新计算THD,直至THD小于等于预设数值为止。电子产品中在信号发生器之后还可以设置一幅值监听模块,用于记录输出给功放模块的音频幅值。在逐渐调低信号发生器输出的音频幅值的过程中,当经过某一次调低信号发生器输出的音频幅值时,计算THD小于等于预设数值,则该音频幅值为总谐波失真小于等于预设数值时的最大音频幅值,可将记录的该次调低后的音频幅值作为门限幅值。同理,可以计算出各特征频点的门限幅值,即可得到各子频段的待播放音频的门限幅值。
可选的,预设数值为3%。其中,为保证电子产品95%的打断唤醒成功率,可以将总谐波失真控制在3%以内。此外,预设数值还可以根据实际应用场景进行自定义设置。
进一步的,在通过信号发生器输出当前特征频点的音频信号之后,还包括:将信号发生器输出的音频信号经音量调节模块调节,其中音量调节模块初始调试的音频幅值为最大值;相应的,经功放模块驱动扬声器播放音频信号,包括:经功放模块驱动扬声器播放经音量调节模块调节后的音频信号;相应的,降低音频幅值,包括:降低信号发生器输出的音频幅值,和/或降低音量调节模块调试的音频幅值。
为更加扩大用户可选择音量的范围,可在信号发生器之后连接音量调节模块,以使音量调节模块对信号发生器发出的信号进行增益,并将增益后的音频信号发送至功放模块。为确定数值最大的门限幅值,音量调节模块初始调试的音频幅值可以为最大值。且在THD大于预设数值时,可调低信号发生器输出的音频幅值,和/或降低音量调节模块调试的音频幅值,以减小重新计算后的THD大小。
进一步的,在计算当前特征频点的总谐波失真的同时,还包括:检测当前特征频点在当前音频幅值下的第四声信号的声压值;相应的,以总谐波失真小于等于预设数值为目标,降低音频幅值,包括:以总谐波失真小于等于预设数值,且检测的声压值小于等于预设声压值为目标,降低音频幅值;相应的,将总谐波失真小于等于预设数值时的最大音频幅值,作为当前频点的音频信号的门限幅值,包括:将总谐波失真小于等于预设数值,且检测的声压值小于等于预设声压值时的最大音频幅值,作为当前频点的音频信号的门限幅值。
电子产品内实施打断唤醒功能的打断唤醒模型,通常设置有允许处理的最大声压,可将该允许处理的最大声压作为预设声压值。为保证打断唤醒的成功率,在保证扬声器模块输出的音频信号的总谐波失真小于预设数值的同时,还需保证扬声器模块输出的音频信号的声压值小于允许处理的最大声压值。
其中,在计算当前特征频点的总谐波失真的同时,电子产品还可以通过声压检测模块检测当前特征频点在当前音频幅值下的第四声信号的声压值,并可以在声压值大于预设声压值时,调低信号发生器输出的音频幅值,和/或降低音量调节模块调试的音频幅值。并且,可将同时满足总谐波失真小于等于预设数值,以及检测的声压值小于等于预设声压值时的最大音频幅值,作为当前频点的音频信号的门限幅值。
通过预设声压值和总谐波失真的预设数值,来确定各子频段的门限幅值,可进一步提高远场语音唤醒率,此外还保证了了扬声器的输出声压,最大化发挥出扬声器性能,且不增加硬件成本。
本实施例在上述实施例基础上,确定各特征频点的音频信号的门限幅值的步骤进行了优化,具体是,从而确定了各特征频点的音频信号的门限幅值。此外,还提供了通过音量调节模块调节音频幅值的方案,可以进一步提高门限幅值的确定范围;还提供了同时计算第四声音信号的总谐波失真和检测第四声音信号的声压值,以确定门限幅值的方案,在保证扬声器具备较小谐波失真的同时,还保证了声压值满足打断唤醒算法的可处理的最大声压值,从而提高了打断唤醒的成功率。本发明实施例与上述实施例提出的远场语音唤醒方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
实施例三
图4是本发明实施例三提供的一种远场语音唤醒装置结构示意图,本实施例可适用于远场语音唤醒的情况,例如是智能电视机在正常播放节目过程中,进行远场语音唤醒的情况。
参见图4,本实施例中远场语音唤醒装置,包括:
滤波模块410,用于根据预设的分段式幅频滤波器对待播放音频进行滤波,得到限幅音频;
采集模块420,用于在限幅音频播放过程中,采集功放模块输出的电信号,并接收音频采集模块输入的第一声信号;
消音模块430,用于将电信号转换为第二声信号,从第一声音号中去除第二声信号,得到第三声信号;
唤醒模块440,用以于识别到第三声信号中包含唤醒指令时,停止播放限幅音频,并唤醒远场语音控制功能。
可选的,远场语音唤醒装置,还包括:滤波器生成模块,且滤波器生成模块,包括:
第一子频段划分子模块,用于将预设频段按照倍频划分为至少一个第一子频段;
第二子频段划分子模块,用于针对各第一子频段,计算得到起始频点的1/n倍频程的频点,并根据1/n倍频程的频点将各第一子频段划分为n个第二子频段,其中n为预设正整数;
门限幅值确定子模块,用于选取各第二子频段内的特征频点,确定各特征频点的音频信号的门限幅值,并将门限幅值作为各第二子频段内任意频点的门限幅值;
滤波器生成子模块,用于根据各第二子频段内任意频点的门限幅值,生成分段式幅频滤波器。
可选的,门限幅值确定子模块,包括:
频点选取单元,用于依序从各特征频点中选取当前特征频点;
音频播放单元,用于通过信号发生器输出当前特征频点的音频信号,并经功放模块驱动扬声器播放音频信号,其中信号发生器初始输出的音频幅值为最大值;
频域转换单元,用于通过音频采集模块采集第四声信号,并将第四声信号转换为频域信号;
幅值调节单元,用于根据频率信号,计算当前特征频点的总谐波失真,并以总谐波失真小于等于预设数值为目标,降低音频幅值;
幅值确定单元,用于将总谐波失真小于等于预设数值时的最大音频幅值,作为当前频点的音频信号的门限幅值,直至确定各特征频点的门限幅值为止。
可选的,音频播放单元,还用于在通过信号发生器输出当前特征频点的音频信号之后,将信号发生器输出的音频信号经音量调节模块调节,其中音量调节模块初始调试的音频幅值为最大值;经功放模块驱动扬声器播放经音量调节模块调节后的音频信号;
相应的,幅值调节单元,还用于降低信号发生器输出的音频幅值,和/或降低音量调节模块调试的音频幅值。
可选的,幅值调节单元,还用于在计算当前特征频点的总谐波失真的同时,检测当前特征频点在当前音频幅值下的第四声信号的声压值;以总谐波失真小于等于预设数值,且检测的声压值小于等于预设声压值为目标,降低音频幅值;
相应的,幅值确定单元,还用于将总谐波失真小于等于预设数值,且检测的声压值小于等于预设声压值时的最大音频幅值,作为当前频点的音频信号的门限幅值。
可选的,预设频段为20Hz-20kHz频段。
可选的,预设数值为3%。
本实施例提供的远场语音唤醒装置,与上述实施例提出的远场语音唤醒方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
实施例四
本实施例提供了一种电子产品,本实施例可适用于远场语音唤醒的情况。本实施例提供的电子产品,例如可以是智能音箱或智能电视等具备音频播放功能的电子产品。
图5是本发明实施例四提供的一种电子产品的结构示意图。参见图5,该电子产品包括:
一个或多个处理器510;
存储器520,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器510执行,使得一个或多个处理器510实现如上述实施例提出的远场语音唤醒方法。
图5中以一个处理器510为例;处理器510和存储器520可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的远场语音唤醒方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行电子产品的各种功能应用以及数据处理,即实现上述的远场语音唤醒方法。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需的应用程序;存储数据区可存储根据电子产品的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至电子产品。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
此外,电子产品还可配置其他模块以实现对远场语音唤醒,其他模块例如包括信号接收器,用于接收待播放的音频信号;信号发生器,用于在确定各特征频点的音频信号的门限幅值时,生成各特征频点的音频信号;音量调节模块,用于作为电子产品的系统音量增益模块,进行音量大小的调节;功放模块和扬声器,用于放大音频信号,并将音频信号转化为声信号并播放;音频采集模块,用于采集声信号;幅值监听模块,用于记录每次降低音频幅值后的音频幅值。此外,当电子产品具备其他功能时,还可以包括相应的模块,在此不做穷举。
本实施例提出的电子产品与上述实施例提出的远场语音唤醒方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
实施例五
本实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提出的远场语音唤醒方法。
本实施例提出的存储介质与上述实施例提出的远场语音唤醒方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (8)
1.一种远场语音唤醒方法,其特征在于,包括:
根据预设的分段式幅频滤波器对待播放音频进行滤波,得到限幅音频;
在所述限幅音频播放过程中,采集功放模块输出的电信号,并接收音频采集模块输入的第一声信号;
将所述电信号转换为第二声信号,从所述第一声信号中去除所述第二声信号,得到第三声信号;
于识别到所述第三声信号中包含唤醒指令时,停止播放所述限幅音频,并唤醒远场语音控制功能;
其中,所述分段式幅频滤波器的生成步骤,包括:
将预设频段按照1/n倍频程划分为至少一个子频段,其中n为预设正整数;
选取各子频段内的特征频点,确定各特征频点的音频信号的门限幅值,并将所述门限幅值作为各子频段内任意频点的门限幅值;
根据所述各子频段内任意频点的门限幅值,生成分段式幅频滤波器;
其中,所述确定各特征频点的音频信号的门限幅值,包括:
依序从各特征频点中选取当前特征频点;
通过信号发生器输出当前特征频点的音频信号,并经所述功放模块驱动扬声器播放所述音频信号,其中所述信号发生器初始输出的音频幅值为最大值;
通过所述音频采集模块采集第四声信号,并将所述第四声信号转换为频域信号;
根据频率信号,计算所述当前特征频点的总谐波失真,并以所述总谐波失真小于等于预设数值为目标,降低所述音频幅值;
将所述总谐波失真小于等于预设数值时的最大音频幅值,作为当前频点的音频信号的门限幅值,直至确定各特征频点的门限幅值为止。
2.根据权利要求1所述的方法,其特征在于,在所述通过信号发生器输出当前特征频点的音频信号之后,还包括:
将信号发生器输出的音频信号经音量调节模块调节,其中所述音量调节模块初始调试的音频幅值为最大值;
相应的,所述经所述功放模块驱动扬声器播放所述音频信号,包括:经所述功放模块驱动扬声器播放经音量调节模块调节后的音频信号;
相应的,所述降低所述音频幅值,包括:降低所述信号发生器输出的音频幅值,和/或降低所述音量调节模块调试的音频幅值。
3.根据权利要求1所述的方法,其特征在于,在所述计算所述当前特征频点的总谐波失真的同时,还包括:
检测当前特征频点在当前音频幅值下的第四声信号的声压值;
相应的,所述以所述总谐波失真小于等于预设数值为目标,降低所述音频幅值,包括:
以所述总谐波失真小于等于预设数值,且检测的声压值小于等于预设声压值为目标,降低所述音频幅值;
相应的,所述将所述总谐波失真小于等于预设数值时的最大音频幅值,作为所述当前频点的音频信号的门限幅值,包括:
将所述总谐波失真小于等于预设数值,且检测的声压值小于等于预设声压值时的最大音频幅值,作为所述当前频点的音频信号的门限幅值。
4.根据权利要求1-3任一所述的方法,其特征在于,所述预设频段为20Hz-20kHz频段。
5.根据权利要求1-3任一所述的方法,其特征在于,所述预设数值为3%。
6.一种远场语音唤醒装置,其特征在于,包括:
滤波模块,用于根据预设的分段式幅频滤波器对待播放音频进行滤波,得到限幅音频;
采集模块,用于在所述限幅音频播放过程中,采集功放模块输出的电信号,并接收音频采集模块输入的第一声信号;
消音模块,用于将所述电信号转换为第二声信号,从所述第一声信号中去除所述第二声信号,得到第三声信号;
唤醒模块,用以于识别到所述第三声信号中包含唤醒指令时,停止播放所述限幅音频,并唤醒远场语音控制功能;
滤波器生成模块,所述滤波器生成模块包括:
第一子频段划分子模块,用于将预设频段按照倍频划分为至少一个第一子频段;
第二子频段划分子模块,用于针对各所述第一子频段,计算得到起始频点的1/n倍频程的频点,并根据所述1/n倍频程的频点将各所述第一子频段划分为n个第二子频段,其中n为预设正整数;
门限幅值确定子模块,用于选取各所述第二子频段内的特征频点,确定各特征频点的音频信号的门限幅值,并将所述门限幅值作为各所述第二子频段内任意频点的门限幅值;
滤波器生成子模块,用于根据各第二子频段内任意频点的门限幅值,生成分段式幅频滤波器;
其中,所述门限幅值确定子模块,包括:
频点选取单元,用于依序从各特征频点中选取当前特征频点;
音频播放单元,用于通过信号发生器输出当前特征频点的音频信号,并经所述功放模块驱动扬声器播放所述音频信号,其中所述信号发生器初始输出的音频幅值为最大值;
频域转换单元,用于通过所述音频采集模块采集第四声信号,并将所述第四声信号转换为频域信号;
幅值调节单元,用于根据频率信号,计算所述当前特征频点的总谐波失真,并以所述总谐波失真小于等于预设数值为目标,降低所述音频幅值;
幅值确定单元,用于将所述总谐波失真小于等于预设数值时的最大音频幅值,作为当前频点的音频信号的门限幅值,直至确定各特征频点的门限幅值为止。
7.一种电子产品,其特征在于,所述电子产品包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的远场语音唤醒方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的远场语音唤醒方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911394098.2A CN111128167B (zh) | 2019-12-30 | 2019-12-30 | 一种远场语音唤醒方法、装置、电子产品及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911394098.2A CN111128167B (zh) | 2019-12-30 | 2019-12-30 | 一种远场语音唤醒方法、装置、电子产品及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111128167A CN111128167A (zh) | 2020-05-08 |
CN111128167B true CN111128167B (zh) | 2023-10-27 |
Family
ID=70504967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911394098.2A Active CN111128167B (zh) | 2019-12-30 | 2019-12-30 | 一种远场语音唤醒方法、装置、电子产品及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111128167B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739545B (zh) * | 2020-06-24 | 2023-01-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
CN113852893A (zh) * | 2020-06-28 | 2021-12-28 | 北京小米移动软件有限公司 | 数据处理方法及装置、终端和存储介质 |
CN111816177B (zh) * | 2020-07-03 | 2021-08-10 | 北京声智科技有限公司 | 电梯的语音打断控制方法、装置及电梯 |
CN112562708B (zh) * | 2020-11-17 | 2022-02-25 | 北京百度网讯科技有限公司 | 非线性回声消除方法、装置、电子设备及存储介质 |
CN115437599A (zh) * | 2022-08-31 | 2022-12-06 | 高创(苏州)电子有限公司 | 音频播放装置及其音频播放方法、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105992100A (zh) * | 2015-02-12 | 2016-10-05 | 电信科学技术研究院 | 一种音频均衡器预置集参数的确定方法及装置 |
CN107170461A (zh) * | 2017-07-24 | 2017-09-15 | 歌尔科技有限公司 | 语音信号处理方法及装置 |
CN108804072A (zh) * | 2018-06-13 | 2018-11-13 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置、存储介质及终端 |
CN208724111U (zh) * | 2018-06-22 | 2019-04-09 | 四川长虹电器股份有限公司 | 基于电视设备的远场语音控制系统 |
CN109669663A (zh) * | 2018-12-28 | 2019-04-23 | 百度在线网络技术(北京)有限公司 | 音区幅值获取方法、装置、电子设备及存储介质 |
CN110177317A (zh) * | 2019-05-17 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 回声消除方法、装置、计算机可读存储介质和计算机设备 |
-
2019
- 2019-12-30 CN CN201911394098.2A patent/CN111128167B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105992100A (zh) * | 2015-02-12 | 2016-10-05 | 电信科学技术研究院 | 一种音频均衡器预置集参数的确定方法及装置 |
CN107170461A (zh) * | 2017-07-24 | 2017-09-15 | 歌尔科技有限公司 | 语音信号处理方法及装置 |
CN108804072A (zh) * | 2018-06-13 | 2018-11-13 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置、存储介质及终端 |
CN208724111U (zh) * | 2018-06-22 | 2019-04-09 | 四川长虹电器股份有限公司 | 基于电视设备的远场语音控制系统 |
CN109669663A (zh) * | 2018-12-28 | 2019-04-23 | 百度在线网络技术(北京)有限公司 | 音区幅值获取方法、装置、电子设备及存储介质 |
CN110177317A (zh) * | 2019-05-17 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 回声消除方法、装置、计算机可读存储介质和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111128167A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111128167B (zh) | 一种远场语音唤醒方法、装置、电子产品及存储介质 | |
CN106898348B (zh) | 一种出声设备的去混响控制方法和装置 | |
Hu et al. | Environment-specific noise suppression for improved speech intelligibility by cochlear implant users | |
CN109360562B (zh) | 回声消除方法、装置、介质以及语音唤醒方法和设备 | |
CN113205803B (zh) | 一种具有自适应降噪能力的语音识别方法及装置 | |
WO2023284402A1 (zh) | 音频信号处理方法、系统、装置、电子设备和存储介质 | |
CN104754462A (zh) | 音量自动调节装置及方法和耳机 | |
CN113949955B (zh) | 降噪处理方法、装置、电子设备、耳机及存储介质 | |
CN113630708A (zh) | 耳机麦克风异常检测的方法、装置、耳机套件及存储介质 | |
CN115691543A (zh) | 用于声学系统的自适应均衡方法及系统 | |
CN110931007A (zh) | 语音识别方法及系统 | |
CN113259801B (zh) | 一种智能耳机的喇叭降噪方法和相关装置 | |
US10607591B1 (en) | Sound playback device and method for masking interference sound through noise masking signal thereof | |
CN111785298A (zh) | 声学性能测试方法及装置、电子设备、计算机可读介质 | |
CN1983804B (zh) | 音频处理装置及音量管理方法 | |
US20120033835A1 (en) | System and method for modifying an audio signal | |
CN110390954B (zh) | 语音产品质量的评价方法和装置 | |
CN110782887A (zh) | 语音信号处理方法、系统、装置、设备和计算机存储介质 | |
CN114664303A (zh) | 连续语音指令快速识别控制系统 | |
CN114286253B (zh) | 音频处理方法、装置及音频播放设备 | |
CN115243153A (zh) | 一种音响音质调节方法、系统 | |
TWI779261B (zh) | 風切濾波裝置 | |
CN107404625A (zh) | 终端的音效处理方法及装置 | |
CN114067817A (zh) | 低音增强方法、装置、电子设备及存储介质 | |
CN113763945B (zh) | 一种语音唤醒方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |