CN112201239A - 目标设备的确定方法及装置、存储介质、电子装置 - Google Patents
目标设备的确定方法及装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN112201239A CN112201239A CN202011027362.1A CN202011027362A CN112201239A CN 112201239 A CN112201239 A CN 112201239A CN 202011027362 A CN202011027362 A CN 202011027362A CN 112201239 A CN112201239 A CN 112201239A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- target
- signal
- decision
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004044 response Effects 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 18
- 238000013139 quantization Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 26
- 230000007246 mechanism Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 230000002860 competitive effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供了一种目标设备的确定方法及装置、存储介质、电子装置,该方法包括:对获取到的第一语音信号进行去噪处理,得到第一目标语音信号;在从第一目标语音信号中检测到唤醒词的情况下,确定唤醒词的长度;基于唤醒词的长度从第一语音信号中获取第二语音信号,其中,第二语音信号的长度小于第一语音信号;对第二语音信号进行去噪处理,得到第二目标语音信号;确定第二目标语音信号的判决量,以确定响应第二目标语音信号的目标设备,其中,判决量用于表示目标语音信号的能量。通过本发明,解决了相关技术中确定的响应设备不准确的问题,达到准确确定响应设备的效果。
Description
技术领域
本发明实施例涉及通信领域,具体而言,涉及一种目标设备的确定方法及装置、存储介质、电子装置。
背景技术
随着智能设备的普及,家庭中可能同时在线多台智能网器终端设备,为了避免出现对某智能设备唤醒时所有设备都应答现象,就需要多设备之间依据某种策略选择唯一设备响应。此外,用户希望设备能尽可能快的响应,避免长时间的等待。而现有分布式语音唤醒处理过程中,计算分布式语音唤醒的判决量时,使用固定长度的一段音频,即截取一段固定长度的唤醒词的唤醒音频段,然后计算该段音频的能量特征,最后得到该段音频的判决量。即在唤醒之后,信号回采一段固定长度的音频用于分布式唤醒决策量的计算。由于音频时间长度固定,所以分布式判决量的计算量固定。但是对于不同品类的设备,设备的系统平台可能不一致,设备的计算性能也有差异。
针对上述技术问题,相关技术中尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种目标设备的确定方法及装置、存储介质、电子装置,以至少解决相关技术中确定的响应设备不准确的问题。
根据本发明的一个实施例,提供了一种目标设备的确定方法,包括:对获取到的第一语音信号进行去噪处理,得到第一目标语音信号;在从上述第一目标语音信号中检测到唤醒词的情况下,确定上述唤醒词的长度;基于上述唤醒词的长度从上述第一语音信号中获取第二语音信号,其中,上述第二语音信号的长度小于上述第一语音信号;对上述第二语音信号进行去噪处理,得到第二目标语音信号;确定上述第二目标语音信号的判决量,以确定响应上述第二目标语音信号的目标设备,其中,上述判决量用于表示上述目标语音信号的能量。
根据本发明的另一个实施例,提供了一种目标设备的确定装置,包括:第一确定模块,用于对获取到的第一语音信号进行去噪处理,得到第一目标语音信号;第二确定模块,用于在从上述第一目标语音信号中检测到唤醒词的情况下,确定上述唤醒词的长度;第一获取模块,用于基于上述唤醒词的长度从上述第一语音信号中获取第二语音信号,其中,上述第二语音信号的长度小于上述第一语音信号;第三确定模块,用于对上述第二语音信号进行去噪处理,得到第二目标语音信号;第四确定模块,用于确定上述第二目标语音信号的判决量,以确定响应上述第二目标语音信号的目标设备,其中,上述判决量用于表示上述目标语音信号的能量。
在一个示例性实施例中,上述第一确定模块,包括:第一获取单元,用于利用麦克风阵列设备获取上述第一语音信号;第一确定单元,用于去除上述第一语音信号中的干扰信号,以得到上述第一目标语音信号。
在一个示例性实施例中,上述第二确定模块,包括:第二确定单元,用于将上述第一目标语音信号输入至语音唤醒处理模型中,得到上述语音唤醒处理模型输出的上述唤醒词,其中,上述语音唤醒处理模型是基于N个预设唤醒词训练得到的;第三确定单元,用于确定上述唤醒词包括的字符数量,以检测出上述唤醒词的长度。
在一个示例性实施例中,上述第一获取模块,包括:第二获取单元,用于从检测到上述唤醒词的时刻开始,从上述第一语音信号中截取与上述唤醒词的长度匹配的语音信号,以获取到上述第二语音信号。
在一个示例性实施例中,上述第三确定模块,包括:第三确定单元,用于去除上述第二语音信号中的干扰信号,以得到上述第二目标语音信号。
在一个示例性实施例中,上述第四确定模块,包括:第一转换单元,用于将上述第二目标语音信号转换为频域信号;第四确定单元,用于基于预设分布式决策计算上述频域信号的判决量,以得到上述第二目标语音信号的判决量;第一同步单元,用于将上述判决量同步至N个终端设备中,其中,上述N个终端设备均是设置在相同网段内参与分布式竞争响应的设备,上述N是大于或等于1的自然数;第五确定单元,用于确定上述N个终端设备计算出的N个预设判决量;第六确定单元,用于确定上述N个预设判决量中的每个预设判决量与上述判决量之间的量化关系;第七确定单元,用于基于上述量化关系从上述N个终端设备中确定出响应上述第二目标语音信号的目标设备。
在一个示例性实施例中,上述装置还包括:上述同步模块,用于确定上述第二目标语音信号的判决量,以确定响应上述第二目标语音信号的目标设备之后,将上述目标设备响应上述第二目标语音信号的响应结果,同步至其他设备中,以指示上述其他设备不对上述第二目标语音信号进行响应,其中,上述其他设备是除上述目标设备之外的设备,上述其他设备与上述目标设备设置在相同网段内。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,由于对获取到的第一语音信号进行去噪处理,得到第一目标语音信号;在从第一目标语音信号中检测到唤醒词的情况下,确定唤醒词的长度;基于唤醒词的长度从第一语音信号中获取第二语音信号,其中,第二语音信号的长度小于第一语音信号;对第二语音信号进行去噪处理,得到第二目标语音信号;确定第二目标语音信号的判决量,以确定响应第二目标语音信号的目标设备,其中,判决量用于表示目标语音信号的能量。实现了基于唤醒词的长度计算分布式决策量,从而可以减少计算量。因此,可以解决相关技术中确定的响应设备不准确的问题,达到准确确定响应设备的效果。
附图说明
图1是本发明实施例的一种目标设备的确定方法的移动终端的硬件结构框图;
图2根据本发明实施例的目标设备的确定方法的流程图;
图3是根据本发明实施例的具体实施例的流程图;
图4是根据本发明实施例的目标设备的确定装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种目标设备的确定方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的目标设备的确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种目标设备的确定方法,图2根据本发明实施例的目标设备的确定方法的流程图,如图2示,该流程包括如下步骤:
步骤S202,对获取到的第一语音信号进行去噪处理,得到第一目标语音信号;
步骤S204,在从第一目标语音信号中检测到唤醒词的情况下,确定唤醒词的长度;
步骤S206,基于唤醒词的长度从第一语音信号中获取第二语音信号,其中,第二语音信号的长度小于第一语音信号;
步骤S208,对第二语音信号进行去噪处理,得到第二目标语音信号;
步骤S210,确定第二目标语音信号的判决量,以确定响应第二目标语音信号的目标设备,其中,判决量用于表示目标语音信号的能量。
其中,上述步骤的执行主体可以为服务器等,但不限于此。
可选地,本实施例包括但不限于应用于通过语音对家电设备进行控制的场景中。例如,在用户家庭中,通过语音信号控制空调的开关、通过语音信号控制洗衣机等等。
通过上述步骤,由于对获取到的第一语音信号进行去噪处理,得到第一目标语音信号;在从第一目标语音信号中检测到唤醒词的情况下,确定唤醒词的长度;基于唤醒词的长度从第一语音信号中获取第二语音信号,其中,第二语音信号的长度小于第一语音信号;对第二语音信号进行去噪处理,得到第二目标语音信号;确定第二目标语音信号的判决量,以确定响应第二目标语音信号的目标设备,其中,判决量用于表示目标语音信号的能量。实现了基于唤醒词的长度计算分布式决策量,从而可以减少计算量。因此,可以解决相关技术中确定的响应设备不准确的问题,达到准确确定响应设备的效果。
在一个示例性实施例中,对获取到的第一语音信号进行去噪处理,得到第一目标语音信号,包括:
S1,利用麦克风阵列设备获取第一语音信号;
S2,去除第一语音信号中的干扰信号,以得到第一目标语音信号。
可选地,在本实施例中,麦克风阵列可以设置在家电设备中,也可以单独设置在控制设备中,例如,通过音箱中的麦克风阵列获取用户发出的“打开空调”、“开始洗衣服”等语音信号。
可选地,在获取第一语音信号时,由于环境的复杂性,会存在较多的干扰信号,需要对干扰信号进行处理。例如,对第一语音信号的回声消除、降噪、波束形成、增益控制等处理。
通过本实施例,通过对语音信号中的干扰信号的处理,可以比较准确的检测出第一语音信号中的唤醒词。
在一个示例性实施例中,在从第一目标语音信号中检测到唤醒词的情况下,确定唤醒词的长度,包括:
S1,将第一目标语音信号输入至语音唤醒处理模型中,得到语音唤醒处理模型输出的唤醒词,其中,语音唤醒处理模型是基于N个预设唤醒词训练得到的;
S2,确定唤醒词包括的字符数量,以检测出唤醒词的长度。
可选地,在本实施例中,语音唤醒处理模型包括但不限于是利用N个预设唤醒词训练得到的网络模型。唤醒词包括但不限于是唤醒家电设备的语音信号,例如“打开空调”,其中包括4个字符,即唤醒词的长度是4。
通过本实施例,通过对语音信号中的唤醒词的检测,可以准确的确定出唤醒词的长度,有利于后续基于唤醒词的长度进行相应的判决量计算,可以自适应调整分布式判决量计算的窗长,缩短计算时间提高响应速度。
在一个示例性实施例中,基于唤醒词的长度从第一语音信号中获取第二语音信号,包括:
S1,从检测到唤醒词的时刻开始,从第一语音信号中截取与唤醒词的长度匹配的语音信号,以获取到第二语音信号。
可选地,在本实施例中,从检测到唤醒词的时刻开始,从第一语音信号中回采并截取有效唤醒词长度的原始音频,传递给分布式判决量计算模块,音频的截取长度可以根据唤醒词有效长度进行自适应调整。
通过本实施例,基于唤醒词的长度在第一语音信号中回采有效长度的原始信号,以得到第二语音信号,可以减少判决量的计算量,提高判决量的计算速度。
在一个示例性实施例中,对第二语音信号进行去噪处理,得到第二目标语音信号,包括:
S1,去除第二语音信号中的干扰信号,以得到第二目标语音信号。
可选地,在本实施例中,去除第二语音信号中的干扰信号包括:回声消除、降噪、波束形成、增益控制等处理。
通过本实施例,通过对第二语音信号中的干扰信号的处理,可以比较准确的计算出第二目标语音信号的判决量。
在一个示例性实施例中,确定第二目标语音信号的判决量,以确定响应第二目标语音信号的目标设备,包括:
S1,将第二目标语音信号转换为频域信号;
S2,基于预设分布式决策计算频域信号的判决量,以得到第二目标语音信号的判决量;
S3,将判决量同步至N个终端设备中,其中,N个终端设备均是设置在相同网段内参与分布式竞争响应的设备,N是大于或等于1的自然数;
S4,确定N个终端设备计算出的N个预设判决量;
S5,确定N个预设判决量中的每个预设判决量与判决量之间的量化关系;
S6,基于量化关系从N个终端设备中确定出响应第二目标语音信号的目标设备。
可选地,在本实施例中,将第二目标语音信号变换到频域,得到频域信号。并根据分布式决策机制计算频域信号的分布竞争响应对应的判决量。由于分布式竞争响应的决策机制不同,对应的判决量的计算方式也不同。例如,分布式就近响应策略,其决策机制为根据各家电设备与声源的距离,选择最近的家电设备响应,对应判决量可以是各家电设备接收到唤醒词音频的能量大小。将计算得到的判决量共享同步给同网段内参与分布式竞争响应的所有家电设备。
通过本实施例,通过不同长度的唤醒词,计算出对应的判决量,可以自适应的将截取的唤醒音频送入分布式决策计算。提高了分布式决策计算的效率。
在一个示例性实施例中,确定第二目标语音信号的判决量,以确定响应第二目标语音信号的目标设备之后,方法还包括:
S1,将目标设备响应第二目标语音信号的响应结果,同步至其他设备中,以指示其他设备不对第二目标语音信号进行响应,其中,其他设备是除目标设备之外的设备,其他设备与目标设备设置在相同网段内。
可选地,在本实施例中,目标设备根据自身计算得到的判决量与接收到同网段内其他设备共享同步的判决量,按照预定义的决策规则分析判断其他设备判决量之间的量化关系,并根据决策规则选则出唯一一台目标设备做出响应,并将判决响应结果同步给网段内其他设备,而使其他设备保持静默。
通过本实施例,由于缩短了分布式判决量的时间,使得参与分布式唤醒的各设备能更快的将各自的判决量共享同步给网段内的其他设备,从而提高分布式竞争响应的判决准确性。
下面结合具体实施例对本发明进行说明:
在本实施例中,以对家电设备进行的控制为例进行说明,如图3所示,包括以下步骤:
S301:通过麦克风阵列实时采集用户的语音信号;
S302:将麦克风阵列采集到的语音信号进行前端信号处理,包括回声消除、噪声消除、波束形成等前端语音信号处理,以去除回声、噪声等非声源信号的干扰信号,提高有效语音的信噪比;
S303:将经过语音信号处理后的语音信号传递给唤醒处理模块,进行唤醒词检测,若检测到唤醒词,则将继续进行后续自适应窗长信号回采处理;若未检测到唤醒词,不进行后续处理;
S304:在检测到唤醒词之后,对唤醒词的长度进行检测,得到唤醒词的有效长度。从检测到唤醒词的时刻开始回采并截取有效唤醒词长度的原始音频传递给分布式判决量计算模块,该音频的截取长度根据唤醒词有效长度进行自适应调整;
S305:对自适应窗长回采的语音信号进行相应的前端信号处理,包括回声消除、噪声消除、波束形成等前端语音信号处理,以去除回声、噪声等非声源信号的干扰信号,提高有效语音的信噪比;提高后续判决量计算的准确性;
S306:根据处理后的回采语音信号,将其变换到频域并根据分布式决策机制对应计算分布竞争响应对应的判决量;由于分布式竞争响应的决策机制不同,对应的判决量的计算方式也不同;如分布式就近响应策略,其决策机制为根据各智能设备与声源的距离,选择最近的设备响应,对应判决量可以是各设备接收到唤醒词音频的能量大小;将计算得到的判决量共享同步给同网段内参与分布式竞争响应的所有设备;
S307:各设备根据自身计算得到的判决量与接收到同网段内其他设备共享同步的判决量,按照预定义的决策规则分析判断各个设备判决量之间的量化关系,并根据决策规则选则出唯一一台设备做出响应,并将判决响应结果同步给网段内其他设备,而使其他设备保持静默。
综上所述,本实施例可有效地根据唤醒词的有效长度调整回采信号的音频长度,从而避免固定回采长度带来的冗余计算,从而减小分布式竞争响应判决量的计算量。可减少分布式竞争响应判决量的计算量,从而缩短分布式唤醒竞争响应的时间。可缩短分布式判决量的时间,使得参与分布式唤醒的各设备能更快的将各自的判决量共享同步给网段内的其他设备,从而提高分布式竞争响应的判决准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种目标设备的确定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的目标设备的确定装置的结构框图,如图4所示,该装置包括:
第一确定模块42,用于对获取到的第一语音信号进行去噪处理,得到第一目标语音信号;
第二确定模块44,用于在从第一目标语音信号中检测到唤醒词的情况下,确定唤醒词的长度;
第一获取模块46,用于基于唤醒词的长度从第一语音信号中获取第二语音信号,其中,第二语音信号的长度小于第一语音信号;
第三确定模块48,用于对第二语音信号进行去噪处理,得到第二目标语音信号;
第四确定模块410,用于确定第二目标语音信号的判决量,以确定响应第二目标语音信号的目标设备,其中,判决量用于表示目标语音信号的能量。
可选地,本实施例包括但不限于应用于通过语音对家电设备进行控制的场景中。例如,在用户家庭中,通过语音信号控制空调的开关、通过语音信号控制洗衣机等等。
通过上述装置,由于对获取到的第一语音信号进行去噪处理,得到第一目标语音信号;在从第一目标语音信号中检测到唤醒词的情况下,确定唤醒词的长度;基于唤醒词的长度从第一语音信号中获取第二语音信号,其中,第二语音信号的长度小于第一语音信号;对第二语音信号进行去噪处理,得到第二目标语音信号;确定第二目标语音信号的判决量,以确定响应第二目标语音信号的目标设备,其中,判决量用于表示目标语音信号的能量。实现了基于唤醒词的长度计算分布式决策量,从而可以减少计算量。因此,可以解决相关技术中确定的响应设备不准确的问题,达到准确确定响应设备的效果。
在一个示例性实施例中,上述第一确定模块,包括:第一获取单元,用于利用麦克风阵列设备获取上述第一语音信号;第一确定单元,用于去除上述第一语音信号中的干扰信号,以得到上述第一目标语音信号。
可选地,在本实施例中,麦克风阵列可以设置在家电设备中,也可以单独设置在控制设备中,例如,通过音箱中的麦克风阵列获取用户发出的“打开空调”、“开始洗衣服”等语音信号。
可选地,在获取第一语音信号时,由于环境的复杂性,会存在较多的干扰信号,需要对干扰信号进行处理。例如,对第一语音信号的回声消除、降噪、波束形成、增益控制等处理。
通过本实施例,通过对语音信号中的干扰信号的处理,可以比较准确的检测出第一语音信号中的唤醒词。
在一个示例性实施例中,上述第二确定模块,包括:第二确定单元,用于将上述第一目标语音信号输入至语音唤醒处理模型中,得到上述语音唤醒处理模型输出的上述唤醒词,其中,上述语音唤醒处理模型是基于N个预设唤醒词训练得到的;第三确定单元,用于确定上述唤醒词包括的字符数量,以检测出上述唤醒词的长度。
可选地,在本实施例中,语音唤醒处理模型包括但不限于是利用N个预设唤醒词训练得到的网络模型。唤醒词包括但不限于是唤醒家电设备的语音信号,例如“打开空调”,其中包括4个字符,即唤醒词的长度是4。
通过本实施例,通过对语音信号中的唤醒词的检测,可以准确的确定出唤醒词的长度,有利于后续基于唤醒词的长度进行相应的判决量计算,可以自适应调整分布式判决量计算的窗长,缩短计算时间提高响应速度。
在一个示例性实施例中,上述第一获取模块,包括:第二获取单元,用于从检测到上述唤醒词的时刻开始,从上述第一语音信号中截取与上述唤醒词的长度匹配的语音信号,以获取到上述第二语音信号。
可选地,在本实施例中,从检测到唤醒词的时刻开始,从第一语音信号中回采并截取有效唤醒词长度的原始音频,传递给分布式判决量计算模块,音频的截取长度可以根据唤醒词有效长度进行自适应调整。
通过本实施例,基于唤醒词的长度在第一语音信号中回采有效长度的原始信号,以得到第二语音信号,可以减少判决量的计算量,提高判决量的计算速度。
在一个示例性实施例中,上述第三确定模块,包括:第三确定单元,用于去除上述第二语音信号中的干扰信号,以得到上述第二目标语音信号。
可选地,在本实施例中,去除第二语音信号中的干扰信号包括:回声消除、降噪、波束形成、增益控制等处理。
通过本实施例,通过对第二语音信号中的干扰信号的处理,可以比较准确的计算出第二目标语音信号的判决量。
在一个示例性实施例中,上述第四确定模块,包括:第一转换单元,用于将上述第二目标语音信号转换为频域信号;第四确定单元,用于基于预设分布式决策计算上述频域信号的判决量,以得到上述第二目标语音信号的判决量;第一同步单元,用于将上述判决量同步至N个终端设备中,其中,上述N个终端设备均是设置在相同网段内参与分布式竞争响应的设备,上述N是大于或等于1的自然数;第五确定单元,用于确定上述N个终端设备计算出的N个预设判决量;第六确定单元,用于确定上述N个预设判决量中的每个预设判决量与上述判决量之间的量化关系;第七确定单元,用于基于上述量化关系从上述N个终端设备中确定出响应上述第二目标语音信号的目标设备。
可选地,在本实施例中,将第二目标语音信号变换到频域,得到频域信号。并根据分布式决策机制计算频域信号的分布竞争响应对应的判决量。由于分布式竞争响应的决策机制不同,对应的判决量的计算方式也不同。例如,分布式就近响应策略,其决策机制为根据各家电设备与声源的距离,选择最近的家电设备响应,对应判决量可以是各家电设备接收到唤醒词音频的能量大小。将计算得到的判决量共享同步给同网段内参与分布式竞争响应的所有家电设备。
通过本实施例,通过不同长度的唤醒词,计算出对应的判决量,可以自适应的将截取的唤醒音频送入分布式决策计算。提高了分布式决策计算的效率。
在一个示例性实施例中,上述装置还包括:上述同步模块,用于确定上述第二目标语音信号的判决量,以确定响应上述第二目标语音信号的目标设备之后,将上述目标设备响应上述第二目标语音信号的响应结果,同步至其他设备中,以指示上述其他设备不对上述第二目标语音信号进行响应,其中,上述其他设备是除上述目标设备之外的设备,上述其他设备与上述目标设备设置在相同网段内。
可选地,在本实施例中,目标设备根据自身计算得到的判决量与接收到同网段内其他设备共享同步的判决量,按照预定义的决策规则分析判断其他设备判决量之间的量化关系,并根据决策规则选则出唯一一台目标设备做出响应,并将判决响应结果同步给网段内其他设备,而使其他设备保持静默。
通过本实施例,由于缩短了分布式判决量的时间,使得参与分布式唤醒的各设备能更快的将各自的判决量共享同步给网段内的其他设备,从而提高分布式竞争响应的判决准确性。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,对获取到的第一语音信号进行去噪处理,得到第一目标语音信号;
S2,在从第一目标语音信号中检测到唤醒词的情况下,确定唤醒词的长度;
S3,基于唤醒词的长度从第一语音信号中获取第二语音信号,其中,第二语音信号的长度小于第一语音信号;
S4,对第二语音信号进行去噪处理,得到第二目标语音信号;
S5,确定第二目标语音信号的判决量,以确定响应第二目标语音信号的目标设备,其中,判决量用于表示目标语音信号的能量。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
在一个示例性实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,对获取到的第一语音信号进行去噪处理,得到第一目标语音信号;
S2,在从第一目标语音信号中检测到唤醒词的情况下,确定唤醒词的长度;
S3,基于唤醒词的长度从第一语音信号中获取第二语音信号,其中,第二语音信号的长度小于第一语音信号;
S4,对第二语音信号进行去噪处理,得到第二目标语音信号;
S5,确定第二目标语音信号的判决量,以确定响应第二目标语音信号的目标设备,其中,判决量用于表示目标语音信号的能量。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种目标设备的确定方法,其特征在于,包括:
对获取到的第一语音信号进行去噪处理,得到第一目标语音信号;
在从所述第一目标语音信号中检测到唤醒词的情况下,确定所述唤醒词的长度;
基于所述唤醒词的长度从所述第一语音信号中获取第二语音信号,其中,所述第二语音信号的长度小于所述第一语音信号;
对所述第二语音信号进行去噪处理,得到第二目标语音信号;
确定所述第二目标语音信号的判决量,以确定响应所述第二目标语音信号的目标设备,其中,所述判决量用于表示所述目标语音信号的能量。
2.根据权利要求1所述的方法,其特征在于,对获取到的第一语音信号进行去噪处理,得到第一目标语音信号,包括:
利用麦克风阵列设备获取所述第一语音信号;
去除所述第一语音信号中的干扰信号,以得到所述第一目标语音信号。
3.根据权利要求1所述的方法,其特征在于,在从所述第一目标语音信号中检测到唤醒词的情况下,确定所述唤醒词的长度,包括:
将所述第一目标语音信号输入至语音唤醒处理模型中,得到所述语音唤醒处理模型输出的所述唤醒词,其中,所述语音唤醒处理模型是基于N个预设唤醒词训练得到的;
确定所述唤醒词包括的字符数量,以检测出所述唤醒词的长度。
4.根据权利要求1所述的方法,其特征在于,基于所述唤醒词的长度从所述第一语音信号中获取第二语音信号,包括:
从检测到所述唤醒词的时刻开始,从所述第一语音信号中截取与所述唤醒词的长度匹配的语音信号,以获取到所述第二语音信号。
5.根据权利要求1所述的方法,其特征在于,对所述第二语音信号进行去噪处理,得到第二目标语音信号,包括:
去除所述第二语音信号中的干扰信号,以得到所述第二目标语音信号。
6.根据权利要求1所述的方法,其特征在于,确定所述第二目标语音信号的判决量,以确定响应所述第二目标语音信号的目标设备,包括:
将所述第二目标语音信号转换为频域信号;
基于预设分布式决策计算所述频域信号的判决量,以得到所述第二目标语音信号的判决量;
将所述判决量同步至N个终端设备中,其中,所述N个终端设备均是设置在相同网段内参与分布式竞争响应的设备,所述N是大于或等于1的自然数;
确定所述N个终端设备计算出的N个预设判决量;
确定所述N个预设判决量中的每个预设判决量与所述判决量之间的量化关系;
基于所述量化关系从所述N个终端设备中确定出响应所述第二目标语音信号的目标设备。
7.根据权利要求1所述的方法,其特征在于,确定所述第二目标语音信号的判决量,以确定响应所述第二目标语音信号的目标设备之后,所述方法还包括:
将所述目标设备响应所述第二目标语音信号的响应结果,同步至其他设备中,以指示所述其他设备不对所述第二目标语音信号进行响应,其中,所述其他设备是除所述目标设备之外的设备,所述其他设备与所述目标设备设置在相同网段内。
8.一种目标设备的确定装置,其特征在于,包括:
第一确定模块,用于对获取到的第一语音信号进行去噪处理,得到第一目标语音信号;
第二确定模块,用于在从所述第一目标语音信号中检测到唤醒词的情况下,确定所述唤醒词的长度;
第一获取模块,用于基于所述唤醒词的长度从所述第一语音信号中获取第二语音信号,其中,所述第二语音信号的长度小于所述第一语音信号;
第三确定模块,用于对所述第二语音信号进行去噪处理,得到第二目标语音信号;
第四确定模块,用于确定所述第二目标语音信号的判决量,以确定响应所述第二目标语音信号的目标设备,其中,所述判决量用于表示所述目标语音信号的能量。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011027362.1A CN112201239B (zh) | 2020-09-25 | 2020-09-25 | 目标设备的确定方法及装置、存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011027362.1A CN112201239B (zh) | 2020-09-25 | 2020-09-25 | 目标设备的确定方法及装置、存储介质、电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112201239A true CN112201239A (zh) | 2021-01-08 |
CN112201239B CN112201239B (zh) | 2024-05-24 |
Family
ID=74007330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011027362.1A Active CN112201239B (zh) | 2020-09-25 | 2020-09-25 | 目标设备的确定方法及装置、存储介质、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112201239B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170083285A1 (en) * | 2015-09-21 | 2017-03-23 | Amazon Technologies, Inc. | Device selection for providing a response |
WO2017092189A1 (zh) * | 2015-11-30 | 2017-06-08 | 中兴通讯股份有限公司 | 语音唤醒实现方法、装置及终端、计算机存储介质 |
CN109427333A (zh) * | 2017-08-25 | 2019-03-05 | 三星电子株式会社 | 激活语音识别服务的方法和用于实现所述方法的电子装置 |
CN109584860A (zh) * | 2017-09-27 | 2019-04-05 | 九阳股份有限公司 | 一种语音唤醒词定义方法和系统 |
CN110097876A (zh) * | 2018-01-30 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 语音唤醒处理方法和被唤醒设备 |
US20190251963A1 (en) * | 2018-02-09 | 2019-08-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice awakening method and device |
CN110223684A (zh) * | 2019-05-16 | 2019-09-10 | 华为技术有限公司 | 一种语音唤醒方法及设备 |
CN110673096A (zh) * | 2019-09-30 | 2020-01-10 | 北京地平线机器人技术研发有限公司 | 语音定位方法和装置、计算机可读存储介质、电子设备 |
CN110970016A (zh) * | 2019-10-28 | 2020-04-07 | 苏宁云计算有限公司 | 一种唤醒模型生成方法、智能终端唤醒方法及装置 |
CN111223497A (zh) * | 2020-01-06 | 2020-06-02 | 苏州思必驰信息科技有限公司 | 一种终端的就近唤醒方法、装置、计算设备及存储介质 |
CN111312239A (zh) * | 2020-01-20 | 2020-06-19 | 北京松果电子有限公司 | 响应方法、装置、电子设备及存储介质 |
CN111402883A (zh) * | 2020-03-31 | 2020-07-10 | 云知声智能科技股份有限公司 | 一种复杂环境下分布式语音交互系统中就近响应系统和方法 |
CN111640431A (zh) * | 2020-04-30 | 2020-09-08 | 海尔优家智能科技(北京)有限公司 | 一种设备响应处理方法及装置 |
-
2020
- 2020-09-25 CN CN202011027362.1A patent/CN112201239B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170083285A1 (en) * | 2015-09-21 | 2017-03-23 | Amazon Technologies, Inc. | Device selection for providing a response |
WO2017092189A1 (zh) * | 2015-11-30 | 2017-06-08 | 中兴通讯股份有限公司 | 语音唤醒实现方法、装置及终端、计算机存储介质 |
CN109427333A (zh) * | 2017-08-25 | 2019-03-05 | 三星电子株式会社 | 激活语音识别服务的方法和用于实现所述方法的电子装置 |
CN109584860A (zh) * | 2017-09-27 | 2019-04-05 | 九阳股份有限公司 | 一种语音唤醒词定义方法和系统 |
CN110097876A (zh) * | 2018-01-30 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 语音唤醒处理方法和被唤醒设备 |
US20190251963A1 (en) * | 2018-02-09 | 2019-08-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice awakening method and device |
CN110223684A (zh) * | 2019-05-16 | 2019-09-10 | 华为技术有限公司 | 一种语音唤醒方法及设备 |
CN110673096A (zh) * | 2019-09-30 | 2020-01-10 | 北京地平线机器人技术研发有限公司 | 语音定位方法和装置、计算机可读存储介质、电子设备 |
CN110970016A (zh) * | 2019-10-28 | 2020-04-07 | 苏宁云计算有限公司 | 一种唤醒模型生成方法、智能终端唤醒方法及装置 |
CN111223497A (zh) * | 2020-01-06 | 2020-06-02 | 苏州思必驰信息科技有限公司 | 一种终端的就近唤醒方法、装置、计算设备及存储介质 |
CN111312239A (zh) * | 2020-01-20 | 2020-06-19 | 北京松果电子有限公司 | 响应方法、装置、电子设备及存储介质 |
CN111402883A (zh) * | 2020-03-31 | 2020-07-10 | 云知声智能科技股份有限公司 | 一种复杂环境下分布式语音交互系统中就近响应系统和方法 |
CN111640431A (zh) * | 2020-04-30 | 2020-09-08 | 海尔优家智能科技(北京)有限公司 | 一种设备响应处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112201239B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111223497B (zh) | 一种终端的就近唤醒方法、装置、计算设备及存储介质 | |
CN109473092B (zh) | 一种语音端点检测方法及装置 | |
CN110265052B (zh) | 收音设备的信噪比确定方法、装置、存储介质及电子装置 | |
CN109450747B (zh) | 一种唤醒智能家居设备的方法、装置及计算机存储介质 | |
CN106231145B (zh) | 一种回声延时处理方法及回声延时处理装置 | |
CN112037789A (zh) | 设备唤醒方法、装置、存储介质及电子装置 | |
CN113593548B (zh) | 智能设备的唤醒方法和装置、存储介质及电子装置 | |
CN111640431A (zh) | 一种设备响应处理方法及装置 | |
CN112837686A (zh) | 唤醒响应操作的执行方法、装置、存储介质及电子装置 | |
CN109524013A (zh) | 一种语音处理方法、装置、介质和智能设备 | |
CN102142257A (zh) | 一种音频信号处理方法及装置 | |
CN112420051A (zh) | 设备的确定方法、装置及存储介质 | |
US20240005940A1 (en) | Echo cancellation method and apparatus, device, and storage medium | |
CN110708370B (zh) | 一种数据处理方法及终端 | |
CN112201239B (zh) | 目标设备的确定方法及装置、存储介质、电子装置 | |
CN115171703B (zh) | 分布式语音唤醒方法和装置、存储介质及电子装置 | |
CN112837694B (zh) | 设备唤醒方法、装置、存储介质及电子装置 | |
CN112786047B (zh) | 一种语音处理方法、装置、设备、存储介质及智能音箱 | |
CN114120995A (zh) | 控制方法、语音设备、控制设备、电子设备及存储介质 | |
CN113889116A (zh) | 语音信息的处理方法和装置、存储介质及电子装置 | |
CN113035174A (zh) | 语音识别处理方法、装置、设备及系统 | |
CN111462743A (zh) | 一种语音信号处理方法及装置 | |
CN113870879A (zh) | 智能家电麦克风的共享方法、智能家电和可读存储介质 | |
CN111464644A (zh) | 一种数据传输方法及电子设备 | |
CN113051126A (zh) | 画像构建方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |