CN112599143A - 降噪方法、语音采集设备及计算机可读存储介质 - Google Patents
降噪方法、语音采集设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112599143A CN112599143A CN202011377658.6A CN202011377658A CN112599143A CN 112599143 A CN112599143 A CN 112599143A CN 202011377658 A CN202011377658 A CN 202011377658A CN 112599143 A CN112599143 A CN 112599143A
- Authority
- CN
- China
- Prior art keywords
- voice
- noise reduction
- wake
- sequence
- sound signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000005236 sound signal Effects 0.000 claims abstract description 94
- 230000004044 response Effects 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000001960 triggered effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005265 energy consumption Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
本发明提供一种降噪方法、装置以及存储介质,其中方法包括:接收至少一个语音采集设备发送的预唤醒信息;根据所述预唤醒信息确定语音采集设备中的响应单位和降噪单位;分别控制所述响应单位和所述降噪单位采集声音信号;以及对所采集的声音信号进行处理,生成对应的消噪音频。
Description
技术领域
本发明涉及智能家居,具体而言,主要涉及一种降噪的方法、语音采集设备及计算机可读存储介质。
背景技术
随着智能技术的发展,越来越多的智能家居设备进入了人们的生活、学习和工作中。目前,智能家居设备一般通过响应用户的语音控制指令,执行某些特定的操作,来满足用户的需要。其中,为了能够采集到用户在不同位置的语音控制指令,往往需要在用户所在场所的不同位置(例如用户家中)安装多个语音采集设备。
然而,这样的方式,一方面经常出现多个语音采集设备同时响应用户语音,产生重复的语音指令,引起设备重复操作;另一方面,语音环境中存在的噪声,常常影响语音识别的精准度,降低用户体验。
发明内容
有鉴于此,本发明提出一种降噪方法、语音采集设备及计算机可读存储介质,能够自动控制响应用户语音的语音采集设备,并降低所采集语音受到的噪声影响,提高语音识别准确度。
首先,为实现上述目的,本发明提出一种降噪方法,包括:
接收至少一个语音采集设备发送的预唤醒信息;
根据所述预唤醒信息确定语音采集设备中的响应单位和降噪单位;
分别控制所述响应单位和所述降噪单位采集声音信号;以及
对所采集的声音信号进行处理,生成对应的消噪音频。
优选地,在接收至少一个语音采集设备发送的预唤醒信息的步骤之前,还包括:
响应用户发出的唤醒指令,生成预唤醒信息;以及
发送所述预唤醒信息至至少一个语音采集设备。
优选地,根据所述预唤醒信息确定语音采集设备中的响应单位和降噪单位的步骤,具体包括:
比对所有的预唤醒信息,生成与所述语音采集设备对应的预唤醒序列;
确定第一序列的语音采集设备为所述响应单位,其余序列的语音采集设备为所述降噪单位。
优选地,所述预唤醒信息包括所述唤醒指令的接收时间,所述比对所有的预唤醒信息,生成与所述语音采集设备对应的预唤醒序列的步骤,具体包括:
比对所述接收时间,根据接收时间的先后顺序生成所述预唤醒序列;
所述确定第一序列的语音采集设备为所述响应单位,其余序列的语音采集设备为所述降噪单位的步骤,具体包括:
确定所述预唤醒序列中接收时间最早的语音采集设备为所述响应单位,所述预唤醒序列中的其余语音采集设备为所述降噪单位。
优选地,所述预唤醒信息还包括所述唤醒指令的声场强度,所述比对所有的预唤醒信息,生成与所述语音采集设备对应的预唤醒序列的步骤,具体包括:
比对所述声场强度,根据声场强度的大小顺序生成所述预唤醒序列;
所述确定第一序列的语音采集设备为所述响应单位,其余序列的语音采集设备为所述降噪单位的步骤,具体包括:
确定所述预唤醒序列中声场强度最大的语音采集设备为所述响应单位,所述预唤醒序列中的其余语音采集设备为所述降噪单位。
优选地,所述响应单位所采集的声音信号为第一声音信号;
所述对所采集的声音信号进行处理的步骤,具体包括:
获取所述第一声音信号,所述第一声音信号为时域信号;
对所述第一声音信号进行傅里叶变换,生成第一频域信号。
优选地,所述降噪单位所采集的声音信号为第二声音信号;
所述对所采集的声音信号进行处理的步骤,具体包括:
获取所述第二声音信号,所述声音信号为时域信号;
对所述第二声音信号进行傅里叶变换和人声频谱滤波处理,生成第二频域信号。
优选地,所述消噪音频的生成公式为:
其中,Nn(ω)为所述第二频域信号,I(ω)为所述第一频域信号,ki为与不同的降噪单位对应的权重,O(ω,k1,...,kn)为函数O(ω)关于k1,...,kn的最大值,即消除噪声的音频,所述消噪音频。
此外,为实现上述目的,本发明还提供一种语音采集设备,包括存储器、处理器、以及存储在所述存储器上并可被所述处理器运行的降噪程序,所述降噪程序被所述处理器执行时,可实现如上文所述的降噪方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介上存储有降噪程序,所述降噪程序可被至少一个处理器执行,以使所述至少一个处理器执行如上文所述的降噪方法的步骤。
相较于现有技术,本发明所提供的降噪方法、系统、设备及计算机可读存储介质,能够通过用户唤醒指令的接收时间和/或声场强度,自动判断多个语音采集设备中的响应单位和降噪单位。这样,一方面可以通过控制响应单位响应用户的语音控制,避免多设备重复响应;另一方面,还可以通过降噪单位辅助进行语音信号的降噪处理,降低响应单位所采集的语音受到的噪声影响,提高语音识别准确度。
附图说明
图1是本发明各实施例可选的运行环境示意图;
图2是本发明各实施例可选的语音采集设备的硬件架构示意图;
图3是本发明所述的降噪程序一实施例的程序模块图;
图4是本发明所述的降噪方法一实施例的流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
现在,将参考附图1和附图2,描述实现本发明各个实施例的运行环境和语音采集设备1的硬件架构。
参图1所示,是实现本发明各个实施例一可选的运行环境示意图。如图所示,本发明可应用于智能家居系统中,所述智能家居系统至少包括,但不仅限于,至少一个语音采集设备1。
所述语音采集设备1具体可以设置于用户所在场所房屋的不同位置,通过如图1所示的智能家庭网络进行相互之间的通信连接和协同工作,以实现智能家居设备的语音控制。此外,其他实施例中,所述智能家居系统还可以包括一服务器,所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等,该服务器可通过上述图1所示的智能家庭网络与所述至少一个语音采集设备1进行通信连接,控制所述至少一个语音采集设备1协同工作,实现智能家居设备的语音控制。
其中,所述的网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
所述语音采集设备1可以是智能家电,例如智能面板、智能开关、智能音箱、智能电视、智能空调、智能门锁、数字屏幕等固定终端,也可以是移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等的移动设备。其中,每一个所述语音采集设备1均配备有拾音单元,所述拾音单元可以是拾音器、麦克风、话筒、录音机、录音笔、电话机、移动通信设备、语音面板等音频采集装置,用于采集所述语音采集设备1附近的声音信号。
一般地,所述语音采集设备1可在不工作时处于休眠状态以节约能耗,当且仅当监测到预设的唤醒指令时,所述语音采集设备1才从所述休眠状态逐渐转入工作状态。其中,所述唤醒指令具体可以包括用户发出的唤醒语音。例如,所述用户发出的唤醒语音可以是“小络同学”、“你好,小络”等。所述唤醒语音是提前在所述语音采集设备1内设置好的,当检测到用户发出与所述用户语音匹配的声音信号时,所述语音采集设备1判定检测到所述唤醒指令;反之,若用户发出的是其他语音信号,为判定为无效请求。此外,所述唤醒指令具体还可以包括预设按键所触发的电平信号。例如,所述预设按键所触发的电平信号可以是所述语音采集设备1的电源按键、音量按键、或其他任意物理按键被触发时所产生的电平信号等。所述语音采集设备1实时监测所述电平信号是否产生,若产生则判定检测到所述唤醒指令;反之,若未产生则判定未检测到所述唤醒指令。
进一步地,当用户输出所述唤醒指令时,由于房屋环境大小限制,用户所发出的声音信号通常会唤醒不止一个的语音采集设备1,即往往不止一个语音采集设备1会检测到所述唤醒指令。因此,为防止多个语音采集设备1同时响应用户语音指令,本实施例中,在检测到所述唤醒指令时,所述语音采集设备1首先响应所述唤醒指令,生成对应的预唤醒信息。其中,所述预唤醒信息至少包括对应的语音采集设备1的标识,例如,可以包括该语音采集设备1的MAC地址等唯一标识信息。其次,所述语音采集设备1发送所述预唤醒信息至其他语音采集设备1,并同时接收其他语音采集设备1所发送的预唤醒信息。可以理解,从一个语音采集设备1来看,其自身响应所述唤醒指令生成所述预唤醒信息,并在发送自身所生成的预唤醒信息给其他语音采集设备1的同时,也接收其他语音采集设备1所发送的该语音采集设备1所响应所述唤醒指令而生成的预唤醒信息。需要说明的是,不同的语音采集设备1所生成的预唤醒信息的格式是相同的。
更进一步地,所述语音采集设备1比对所述预唤醒信息,生成一预唤醒队列。其中,所述预唤醒队列与所述预唤醒信息中所包含的语音采集设备1的标识一一对应。可以理解,所述预唤醒队列由所述语音采集设备1比对所述预唤醒信息中的特征信息而得出。示例性地,所述特征信息可以是所述唤醒指令的接收时间。一般地,用户的位置离语音采集设备1越近,则所述语音采集设备1越早接收到该用户发出的语音,越早检测到所述唤醒指令。因此,所述语音采集设备1可以比对所述预唤醒信息中所述唤醒指令的接收时间,即比对对应的语音采集设备1检测到所述唤醒指令的时间,进而根据所述接收时间的先后顺序,生成所述预唤醒序列。在另一示例中,所述特征信息还可以是所述唤醒指令的声场强度。一般地,用户的位置离语音采集设备1越近,则所述语音采集设备1所接收到的该用户发出的语音声场强度越大,检测到所述唤醒指令的声场强度也越大。因此,所述语音采集设备1还可以比对所述预唤醒信息中所述唤醒指令的声场强度,即比对对应的语音采集设备1检测到的声音信号的声场强度,进而根据所述声场强度的大小顺序,生成所述预唤醒序列。
此外,在生成所述预唤醒序列之后,确定所述预唤醒序列中第一序列的语音采集设备1为响应单位,其余序列的语音采集设备1为所述降噪单位。具体地,当所述特征信息为所述唤醒指令的接收时间时,确定所述预唤醒序列中接收时间最早的语音采集设备1为所述响应单位,所述预唤醒序列中的其余语音采集设备1为所述降噪单位。当所述特征信息为所述唤醒指令的语音声场强度时,确定所述预唤醒序列中语音声场强度最大的语音采集设备1为所述响应单位,所述预唤醒序列中的其余语音采集设备1为所述降噪单位。进一步地,所述预唤醒序列被广播至每一个语音采集设备1,和/或由服务器下发至每一个语音采集设备1,以使所述语音采集设备1根据其在所述预唤醒序列中的排列位置,确定其身份,即确定该语音采集设备1是响应单位还是降噪单位。
需要说明的是,本实施例中,所述响应单位主要用于响应所述唤醒指令,执行唤醒操作,并响应用户后续的语音指令;而所述降噪单位则不响应用户语音指令,主要用于采集周围环境中的声音信号,进而辅助所述响应单位对其所采集的声音限号进行噪声消除。其中,详细的降噪过程,将在后文中进行详细介绍。
参图2所示,是实现本发明的各个实施例一可选的语音采集设备1的硬件架构示意图。如图所示,所述语音采集设备1可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、通信接口13。需要指出的是,图1仅示出了具有组件11-13的语音采集设备1,但应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述语音采集设备1的内部存储单元,例如该语音采集设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述语音采集设备1的外部存储设备,例如该语音采集设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述语音采集设备1的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述语音采集设备1的操作系统和各类应用软件,例如降噪程序10的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述语音采集设备1的总体操作。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述降噪程序10的程序代码等。
所述通信接口13可包括无线网络接口或有线网络接口,例如,所述通信接口13可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System ofMobile communication,GSM)、宽带码分多址(Wideband Code Division MultipleAccess,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等网络通信接口。本实施例中,所述通信接口13通常用于在所述语音采集设备1和/或其他语音采集设备1之间建立通信连接和传输数据。
至此,己经详细描述了实现本发明各实施例可选的运行环境和语音采集设备1的硬件架构。以下,将基于上述运行环境和硬件架构,提出本发明的各个实施例。
首先,本发明提出一种降噪程序10。
如图3所示,为本发明所述的降噪程序10第一实施例的程序模块示意图。
本实施例中,所述的降噪程序10可以被分割成一个或多个模块,所述一个或多个模块可被存储于存储设备(本实施例中为存储器11)中,并由一个或多个控制器(本实施例中为所述处理器12)所执行,以完成本发明。例如,在图3中,所述降噪程序10可以被分割成接收模块201、确定模块202、控制模块203、处理模块204、以及降噪模块205。本发明所称的程序模块是指一种能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述软件在所述语音采集设备1中的执行过程。以下将就上述各程序模块201-205的具体功能进行详细描述。
所述接收模块201,用于接收至少一个语音采集设备1发送的预唤醒信息。
本实施例中,设置于用户所在场所房屋的不同位置的多个语音采集设备1通过智能家庭网络相互通信连接。所述语音采集设备1可以是配备有拾音单元的智能家居设备,例如智能面板、智能开关、智能音箱、智能电视、智能空调、智能门锁、数字屏幕等,所述拾音单元可以是拾音器、麦克风、话筒、录音机、录音笔、电话机、语音面板等音频采集装置,用于采集所述语音采集设备1附近的声音信号。
一般地,所述语音采集设备1可在不工作时处于休眠状态以节约能耗,当且仅当监测到预设的唤醒指令时,所述语音采集设备1才从所述休眠状态逐渐转入工作状态。其中,所述唤醒指令具体可以包括用户发出的唤醒语音。例如,所述用户发出的唤醒语音可以是“小络同学”、“你好,小络”等。所述唤醒语音是提前在所述语音采集设备1内设置好的,当检测到用户发出与所述用户语音匹配的声音信号时,所述语音采集设备1判定检测到所述唤醒指令;反之,若用户发出的是其他语音信号,为判定为无效请求。此外,所述唤醒指令具体还可以包括预设按键所触发的电平信号。例如,所述预设按键所触发的电平信号可以是所述语音采集设备1的电源按键、音量按键、或其他任意物理按键被触发时所产生的电平信号等。所述语音采集设备1实时监测所述电平信号是否产生,若产生则判定检测到所述唤醒指令;反之,若未产生则判定未检测到所述唤醒指令。
进一步地,当用户输出所述唤醒指令时,由于房屋环境大小限制,用户所发出的声音信号通常会唤醒不止一个的语音采集设备1,即往往不止一个语音采集设备1会检测到所述唤醒指令。因此,为防止多个语音采集设备1同时响应用户语音指令,本实施例中,在检测到所述唤醒指令时,所述语音采集设备1首先响应所述唤醒指令,生成对应的预唤醒信息。其中,所述预唤醒信息至少包括对应的语音采集设备1的标识,例如,可以包括该语音采集设备1的MAC地址等唯一标识信息。其次,所述语音采集设备1发送所述预唤醒信息至其他语音采集设备1,并同时通过接收模块201接收其他语音采集设备1所发送的预唤醒信息。可以理解,从一个语音采集设备1来看,其自身响应所述唤醒指令生成所述预唤醒信息,并在发送自身所生成的预唤醒信息给其他语音采集设备1的同时,也通过接收模块201接收其他语音采集设备1所发送的该语音采集设备1所响应所述唤醒指令而生成的预唤醒信息。需要说明的是,不同的语音采集设备1所生成的预唤醒信息的格式是相同的。
所述确定模块202,用于根据所述预唤醒信息确定语音采集设备1中的响应单位和降噪单位。
本实施例中,在接收所述预唤醒信息后,所述语音采集设备1比对所述预唤醒信息,生成一预唤醒队列。其中,所述预唤醒队列与所述预唤醒信息中所包含的语音采集设备1的标识一一对应。可以理解,所述预唤醒队列由所述语音采集设备1比对所述预唤醒信息中的特征信息而得出。示例性地,所述特征信息可以是所述唤醒指令的接收时间。一般地,用户的位置离语音采集设备1越近,则所述语音采集设备1越早接收到该用户发出的语音,越早检测到所述唤醒指令。因此,所述语音采集设备1可以比对所述预唤醒信息中所述唤醒指令的接收时间,即比对对应的语音采集设备1检测到所述唤醒指令的时间,进而根据所述接收时间的先后顺序,生成所述预唤醒序列。在另一示例中,所述特征信息还可以是所述唤醒指令的声场强度。一般地,用户的位置离语音采集设备1越近,则所述语音采集设备1所接收到的该用户发出的语音声场强度越大,检测到所述唤醒指令的声场强度也越大。因此,所述语音采集设备1还可以比对所述预唤醒信息中所述唤醒指令的声场强度,即比对对应的语音采集设备1检测到的声音信号的声场强度,进而根据所述声场强度的大小顺序,生成所述预唤醒序列。
对应地,在生成所述预唤醒序列之后,所述确定模块202确定所述预唤醒序列中第一序列的语音采集设备1为响应单位,其余序列的语音采集设备1为所述降噪单位。具体地,当所述特征信息为所述唤醒指令的接收时间时,所述确定模块202确定所述预唤醒序列中接收时间最早的语音采集设备1为所述响应单位,所述预唤醒序列中的其余语音采集设备1为所述降噪单位。当所述特征信息为所述唤醒指令的语音声场强度时,所述确定模块202确定所述预唤醒序列中语音声场强度最大的语音采集设备1为所述响应单位,所述预唤醒序列中的其余语音采集设备1为所述降噪单位。
所述控制模块203,用于分别控制所述响应单位和所述降噪单位采集声音信号。
从上文可知,所述响应单位主要是距离用户位置较近的语音采集设备1,因此,该响应单位主要用于响应所述唤醒指令执行唤醒操作,并在唤醒后响应用户的语音指令,与用户进行交互,完成特点的智能家居控制操作。而所述降噪单位则主要是距离用户位置较远的语音采集设备1,该降噪单位采集用户声音信号的效果不佳,故不用与用户进行交互,响应用户语音指令,只需在所述响应单位采集用户声音信号的同时,同步进行声音信号的采集即可。需要注意的是,本实施例中,由于位置差异,所述响应单位所采集的声音信号通常主要包括用户人声和少部分的环境噪声。而所述降噪单位所采集的声音信号通常主要包括环境噪声和少部分的用户人声。
所述处理模块204,用于对所采集的声音信号进行处理。
如上文所述,本实施例中的声音信号包括所述响应单位采集的声音信号和所述降噪单位采集的声音信号。若所述响应单位所采集的声音信号为第一声音信号,若所述降噪单位所采集的声音信号为第二声音信号,则所述处理模块204对所述声音信号的处理分别包括对所述第一声音信号的处理和对所述第二声音信号的处理。其中,对所述第一声音信号的处理包括:获取所述第一声音信号,所述第一声音信号为时域信号;以及对所述第一声音信号进行傅里叶变换,生成第一频域信号。对所述第一声音信号的处理包括:获取所述第二声音信号,所述第二声音信号为时域信号;以及对所述第二声音信号进行傅里叶变换和人声频谱滤波处理,生成第二频域信号。
所述降噪模块205,用于根据处理后的声音信号,生成对应的消噪音频。
从上文可知,所述响应单位为与用户进行语音交互的语音采集设备1,故需要保证该响应单位所采集的声音信号尽可能的都是用户人声,才能提高用户语音识别的准确率。而对于降噪单位而言,所述降噪单位主要采集的是环境声音信号,即环境噪声。因而,在对所述第一声音信号进行降噪处理时,所述降噪模块205可以根据所述第二频域信号和所述第一频域信号,构建主动降噪的算法函数,生成降噪后的声音信号,即所述消噪音频。
具体而言,所述消噪音频的生成公式为:
其中,Nn(ω)为所述第二频域信号,I(ω)为所述第一频域信号,ki为与不同的降噪单位对应的权重,O(ω,k1,...,kn)为函数O(ω)关于k1,...,kn的最大值,即消除噪声的音频,所述消噪音频。
通过上述程序模块201-205,本发明所提供的降噪程序10,能够通过用户唤醒指令的接收时间和/或声场强度,自动判断多个语音采集设备1中的响应单位和降噪单位。这样,一方面可以通过控制响应单位响应用户的语音控制,避免多设备重复响应;另一方面,还可以通过降噪单位辅助进行语音信号的降噪处理,降低响应单位所采集的语音受到的噪声影响,提高语音识别准确度。
其次,本发明还提出一种降噪方法。
参图4所示,是本发明所述的降噪方法第一实施例的流程示意图。本实施例中,根据不同的需求,图4所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。所述降噪方法包括:
步骤S110,接收至少一个语音采集设备1发送的预唤醒信息。
本实施例中,设置于用户所在场所房屋的不同位置的多个语音采集设备1通过智能家庭网络相互通信连接。所述语音采集设备1可以是配备有拾音单元的智能家居设备,例如智能面板、智能开关、智能音箱、智能电视、智能空调、智能门锁、数字屏幕等,所述拾音单元可以是拾音器、麦克风、话筒、录音机、录音笔、电话机、语音面板等音频采集装置,用于采集所述语音采集设备1附近的声音信号。
一般地,所述语音采集设备1可在不工作时处于休眠状态以节约能耗,当且仅当监测到预设的唤醒指令时,所述语音采集设备1才从所述休眠状态逐渐转入工作状态。其中,所述唤醒指令具体可以包括用户发出的唤醒语音。例如,所述用户发出的唤醒语音可以是“小络同学”、“你好,小络”等。所述唤醒语音是提前在所述语音采集设备1内设置好的,当检测到用户发出与所述用户语音匹配的声音信号时,所述语音采集设备1判定检测到所述唤醒指令;反之,若用户发出的是其他语音信号,为判定为无效请求。此外,所述唤醒指令具体还可以包括预设按键所触发的电平信号。例如,所述预设按键所触发的电平信号可以是所述语音采集设备1的电源按键、音量按键、或其他任意物理按键被触发时所产生的电平信号等。所述语音采集设备1实时监测所述电平信号是否产生,若产生则判定检测到所述唤醒指令;反之,若未产生则判定未检测到所述唤醒指令。
进一步地,当用户输出所述唤醒指令时,由于房屋环境大小限制,用户所发出的声音信号通常会唤醒不止一个的语音采集设备1,即往往不止一个语音采集设备1会检测到所述唤醒指令。因此,为防止多个语音采集设备1同时响应用户语音指令,本实施例中,在检测到所述唤醒指令时,所述语音采集设备1首先响应所述唤醒指令,生成对应的预唤醒信息。其中,所述预唤醒信息至少包括对应的语音采集设备1的标识,例如,可以包括该语音采集设备1的MAC地址等唯一标识信息。其次,所述语音采集设备1发送所述预唤醒信息至其他语音采集设备1,并同时接收其他语音采集设备1所发送的预唤醒信息。可以理解,从一个语音采集设备1来看,其自身响应所述唤醒指令生成所述预唤醒信息,并在发送自身所生成的预唤醒信息给其他语音采集设备1的同时,也接收其他语音采集设备1所发送的该语音采集设备1所响应所述唤醒指令而生成的预唤醒信息。需要说明的是,不同的语音采集设备1所生成的预唤醒信息的格式是相同的。
步骤S120,根据所述预唤醒信息确定语音采集设备1中的响应单位和降噪单位。
本实施例中,在接收所述预唤醒信息后,所述语音采集设备1比对所述预唤醒信息,生成一预唤醒队列。其中,所述预唤醒队列与所述预唤醒信息中所包含的语音采集设备1的标识一一对应。可以理解,所述预唤醒队列由所述语音采集设备1比对所述预唤醒信息中的特征信息而得出。示例性地,所述特征信息可以是所述唤醒指令的接收时间。一般地,用户的位置离语音采集设备1越近,则所述语音采集设备1越早接收到该用户发出的语音,越早检测到所述唤醒指令。因此,所述语音采集设备1可以比对所述预唤醒信息中所述唤醒指令的接收时间,即比对对应的语音采集设备1检测到所述唤醒指令的时间,进而根据所述接收时间的先后顺序,生成所述预唤醒序列。在另一示例中,所述特征信息还可以是所述唤醒指令的声场强度。一般地,用户的位置离语音采集设备1越近,则所述语音采集设备1所接收到的该用户发出的语音声场强度越大,检测到所述唤醒指令的声场强度也越大。因此,所述语音采集设备1还可以比对所述预唤醒信息中所述唤醒指令的声场强度,即比对对应的语音采集设备1检测到的声音信号的声场强度,进而根据所述声场强度的大小顺序,生成所述预唤醒序列。
对应地,在生成所述预唤醒序列之后,所述语音采集设备1确定所述预唤醒序列中第一序列的语音采集设备1为响应单位,其余序列的语音采集设备1为所述降噪单位。具体地,当所述特征信息为所述唤醒指令的接收时间时,所述语音采集设备1确定所述预唤醒序列中接收时间最早的语音采集设备1为所述响应单位,所述预唤醒序列中的其余语音采集设备1为所述降噪单位。当所述特征信息为所述唤醒指令的语音声场强度时,所述语音采集设备1确定所述预唤醒序列中语音声场强度最大的语音采集设备1为所述响应单位,所述预唤醒序列中的其余语音采集设备1为所述降噪单位。
步骤S130,分别控制所述响应单位和所述降噪单位采集声音信号。
从上文可知,所述响应单位主要是距离用户位置较近的语音采集设备1,因此,该响应单位主要用于响应所述唤醒指令执行唤醒操作,并在唤醒后响应用户的语音指令,与用户进行交互,完成特点的智能家居控制操作。而所述降噪单位则主要是距离用户位置较远的语音采集设备1,该降噪单位采集用户声音信号的效果不佳,故不用与用户进行交互,响应用户语音指令,只需在所述响应单位采集用户声音信号的同时,同步进行声音信号的采集即可。需要注意的是,本实施例中,由于位置差异,所述响应单位所采集的声音信号通常主要包括用户人声和少部分的环境噪声。而所述降噪单位所采集的声音信号通常主要包括环境噪声和少部分的用户人声。
步骤S140,对所采集的声音信号进行处理。
如上文所述,本实施例中的声音信号包括所述响应单位采集的声音信号和所述降噪单位采集的声音信号。若所述响应单位所采集的声音信号为第一声音信号,若所述降噪单位所采集的声音信号为第二声音信号,则对所述声音信号的处理分别包括对所述第一声音信号的处理和对所述第二声音信号的处理。其中,对所述第一声音信号的处理包括:获取所述第一声音信号,所述第一声音信号为时域信号;以及对所述第一声音信号进行傅里叶变换,生成第一频域信号。对所述第一声音信号的处理包括:获取所述第二声音信号,所述第二声音信号为时域信号;以及对所述第二声音信号进行傅里叶变换和人声频谱滤波处理,生成第二频域信号。
步骤S150,根据处理后的声音信号,生成对应的消噪音频。
从上文可知,所述响应单位为与用户进行语音交互的语音采集设备1,故需要保证该响应单位所采集的声音信号尽可能的都是用户人声,才能提高用户语音识别的准确率。而对于降噪单位而言,所述降噪单位主要采集的是环境声音信号,即环境噪声。因而,在对所述第一声音信号进行降噪处理时,可以根据所述第二频域信号和所述第一频域信号,构建主动降噪的算法函数,生成降噪后的声音信号,即所述消噪音频。
具体而言,所述消噪音频的生成公式为:
其中,Nn(ω)为所述第二频域信号,I(ω)为所述第一频域信号,ki为与不同的降噪单位对应的权重,O(ω,k1,...,kn)为函数O(ω)关于k1,...,kn的最大值,即消除噪声的音频,所述消噪音频。
通过上述流程步骤S110-S150,本发明所提供的降噪方法,能够通过用户唤醒指令的接收时间和/或声场强度,自动判断多个语音采集设备1中的响应单位和降噪单位。这样,一方面可以通过控制响应单位响应用户的语音控制,避免多设备重复响应;另一方面,还可以通过降噪单位辅助进行语音信号的降噪处理,降低响应单位所采集的语音受到的噪声影响,提高语音识别准确度。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种降噪方法,其特征在于,包括:
接收至少一个语音采集设备发送的预唤醒信息;
根据所述预唤醒信息确定语音采集设备中的响应单位和降噪单位;
分别控制所述响应单位和所述降噪单位采集声音信号;以及
对所采集的声音信号进行处理,生成对应的消噪音频。
2.根据权利要求1所述的降噪方法,其特征在于,在接收至少一个语音采集设备发送的预唤醒信息的步骤之前,还包括:
响应用户发出的唤醒指令,生成预唤醒信息;以及
发送所述预唤醒信息至至少一个语音采集设备。
3.根据权利要求2所述的降噪方法,其特征在于,根据所述预唤醒信息确定语音采集设备中的响应单位和降噪单位的步骤,具体包括:
比对所有的预唤醒信息,生成与所述语音采集设备对应的预唤醒序列;
确定第一序列的语音采集设备为所述响应单位,其余序列的语音采集设备为所述降噪单位。
4.根据权利要求3所述的降噪方法,其特征在于,所述预唤醒信息包括所述唤醒指令的接收时间,所述比对所有的预唤醒信息,生成与所述语音采集设备对应的预唤醒序列的步骤,具体包括:
比对所述接收时间,根据接收时间的先后顺序生成所述预唤醒序列;
所述确定第一序列的语音采集设备为所述响应单位,其余序列的语音采集设备为所述降噪单位的步骤,具体包括:
确定所述预唤醒序列中接收时间最早的语音采集设备为所述响应单位,所述预唤醒序列中的其余语音采集设备为所述降噪单位。
5.根据权利要求3所述的降噪方法,其特征在于,所述预唤醒信息还包括所述唤醒指令的声场强度,所述比对所有的预唤醒信息,生成与所述语音采集设备对应的预唤醒序列的步骤,具体包括:
比对所述声场强度,根据声场强度的大小顺序生成所述预唤醒序列;
所述确定第一序列的语音采集设备为所述响应单位,其余序列的语音采集设备为所述降噪单位的步骤,具体包括:
确定所述预唤醒序列中声场强度最大的语音采集设备为所述响应单位,所述预唤醒序列中的其余语音采集设备为所述降噪单位。
6.根据权利要求1-5任一项所述的降噪方法,其特征在于,所述响应单位所采集的声音信号为第一声音信号;
所述对所采集的声音信号进行处理的步骤,具体包括:
获取所述第一声音信号,所述第一声音信号为时域信号;
对所述第一声音信号进行傅里叶变换,生成第一频域信号。
7.根据权利要求6所述的降噪方法,其特征在于,所述降噪单位所采集的声音信号为第二声音信号;
所述对所采集的声音信号进行处理的步骤,具体包括:
获取所述第二声音信号,所述第二声音信号为时域信号;
对所述第二声音信号进行傅里叶变换和人声频谱滤波处理,生成第二频域信号。
9.一种语音采集设备,包括存储器、处理器、以及存储在所述存储器上并可被所述处理器运行的降噪程序,所述降噪程序被所述处理器执行时,可实现如权利要求1-8中任一项所述的降噪方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有降噪程序,所述降噪程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1至8中任一项所述的降噪方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011377658.6A CN112599143A (zh) | 2020-11-30 | 2020-11-30 | 降噪方法、语音采集设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011377658.6A CN112599143A (zh) | 2020-11-30 | 2020-11-30 | 降噪方法、语音采集设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112599143A true CN112599143A (zh) | 2021-04-02 |
Family
ID=75187368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011377658.6A Pending CN112599143A (zh) | 2020-11-30 | 2020-11-30 | 降噪方法、语音采集设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112599143A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
US20190066671A1 (en) * | 2017-08-22 | 2019-02-28 | Baidu Online Network Technology (Beijing) Co., Ltd. | Far-field speech awaking method, device and terminal device |
CN109949810A (zh) * | 2019-03-28 | 2019-06-28 | 华为技术有限公司 | 一种语音唤醒方法、装置、设备及介质 |
US20200328903A1 (en) * | 2019-04-15 | 2020-10-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for waking up via speech |
CN111862999A (zh) * | 2019-04-08 | 2020-10-30 | 群光电子股份有限公司 | 语音处理系统及语音处理方法 |
-
2020
- 2020-11-30 CN CN202011377658.6A patent/CN112599143A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190066671A1 (en) * | 2017-08-22 | 2019-02-28 | Baidu Online Network Technology (Beijing) Co., Ltd. | Far-field speech awaking method, device and terminal device |
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN109949810A (zh) * | 2019-03-28 | 2019-06-28 | 华为技术有限公司 | 一种语音唤醒方法、装置、设备及介质 |
CN111862999A (zh) * | 2019-04-08 | 2020-10-30 | 群光电子股份有限公司 | 语音处理系统及语音处理方法 |
US20200328903A1 (en) * | 2019-04-15 | 2020-10-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for waking up via speech |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111883091B (zh) | 音频降噪方法和音频降噪模型的训练方法 | |
CN109346071A (zh) | 唤醒处理方法、装置及电子设备 | |
CN107277672B (zh) | 一种支持唤醒模式自动切换的方法和装置 | |
CN108320751B (zh) | 一种语音交互方法、装置、设备和服务器 | |
CN203571948U (zh) | 一种语音空调器以及一种空调器控制系统 | |
CN112634922A (zh) | 语音信号处理方法、设备及计算机可读存储介质 | |
CN111261160B (zh) | 一种信号处理方法及装置 | |
CN105549718A (zh) | 一种优化应用程序耗电的方法、装置及电子设备 | |
CN113160815B (zh) | 语音唤醒的智能控制方法、装置、设备及存储介质 | |
CN111862965B (zh) | 唤醒处理方法、装置、智能音箱及电子设备 | |
CN110677899A (zh) | 一种数据传输方法、装置、终端设备及存储介质 | |
CN110767225A (zh) | 一种语音交互方法、装置及系统 | |
CN112311635B (zh) | 语音打断唤醒方法、装置及计算机可读存储介质 | |
CN108600559B (zh) | 静音模式的控制方法、装置、存储介质及电子设备 | |
CN112581960A (zh) | 语音唤醒方法、装置、电子设备及可读存储介质 | |
TW201732497A (zh) | 麥克風裝置 | |
CN114373462A (zh) | 语音交互设备及其控制方法、控制装置 | |
CN111326146A (zh) | 语音唤醒模板的获取方法、装置、电子设备及计算机可读存储介质 | |
CN112599143A (zh) | 降噪方法、语音采集设备及计算机可读存储介质 | |
CN116582382A (zh) | 智能设备控制方法、装置、存储介质及电子设备 | |
CN113096652A (zh) | 语音唤醒方法及芯片系统 | |
CN108399918B (zh) | 智能设备连接方法、智能设备及终端 | |
CN116386623A (zh) | 一种智能设备的语音交互方法、存储介质及电子装置 | |
CN112216279A (zh) | 语音传输方法、智能终端及计算机可读存储介质 | |
CN110853632A (zh) | 基于声纹信息的语音识别方法及智能交互设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230927 Address after: No. 15, Jiannan Road, Nanyou Community, Yuehai Street, Nanshan District, Shenzhen, Guangdong 518000 Hengda Tianjing B2801 Applicant after: Xingluo home yunwulian Technology Co.,Ltd. Address before: 31a01, block a, aerospace science and Technology Plaza, no.1698, Haizhu community, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000 Applicant before: Star Network Intelligent Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210402 |
|
WD01 | Invention patent application deemed withdrawn after publication |