CN108389587A - 基于语音唤醒技术的语音增强器 - Google Patents

基于语音唤醒技术的语音增强器 Download PDF

Info

Publication number
CN108389587A
CN108389587A CN201810372027.1A CN201810372027A CN108389587A CN 108389587 A CN108389587 A CN 108389587A CN 201810372027 A CN201810372027 A CN 201810372027A CN 108389587 A CN108389587 A CN 108389587A
Authority
CN
China
Prior art keywords
voice
module
signal
input terminal
output end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810372027.1A
Other languages
English (en)
Inventor
李瑞鹏
刘岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Macro Cloud Intelligent Technology Co Ltd
Original Assignee
Suzhou Macro Cloud Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Macro Cloud Intelligent Technology Co Ltd filed Critical Suzhou Macro Cloud Intelligent Technology Co Ltd
Priority to CN201810372027.1A priority Critical patent/CN108389587A/zh
Publication of CN108389587A publication Critical patent/CN108389587A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于语音唤醒技术的语音增强器,包括由两个以上麦克风组成的麦克风阵列、用于将所述麦克风阵列拾取的语音进行信号放大处理的放大模块、用于将所述放大后的语音信号进行取样处理的动态信号取样模块;还包括用于将动态信号取样的语音信号进行设定音框的线性差异处理模块、用于将经过线性差异处理后的语音信号进行滤波处理的自适应滤波模块、用于增强滤波后的语音信号的语音增强模块、用于确定音源位置的TDOA计算模块及网络通信模块。本发明能够根据音源位置关闭或开启对应的家电设备,避免了传统语音控制位置不精准的缺陷,使智能家居语音交互系统的智能化水平得到提升。

Description

基于语音唤醒技术的语音增强器
技术领域
本发明涉及智能家居领域,特别是涉及一种基于语音唤醒技术的语音增强器。
背景技术
随着科技的发展,智能家居逐渐被普及应用,在智能家居的实施过程中,语音交互是实现智能家居智能化的一项重要技术手段,目前智能家居的语音交互系统,在唤醒语及命令语的拾取过程中,不可避免地会受到外界环境噪音和其他人说话的干扰,如果干扰噪音过强,会严重影响语音交互系统的灵敏性,造成唤醒失灵及语音交互不畅;而且,由于在室内家电产品安装位置比较分散,现有的语音交互不能很精确地根据发声者的位置开启或关闭与人体位置相对应的家电设备,语音控制存在着错控、混控等问题。
发明内容
本发明的目的是克服现有技术中的不足之处,提供一种基于语音唤醒技术的语音增强器,能够根据人体位置用语音控制对应的家电设备,提高语智能家居中音交互的精准性与灵敏性。
为解决上述技术问题,本发明通过下述技术方案来解决:
一种基于语音唤醒技术的语音增强器,包括
语料取样模组、语音前处理模组和语音后处理模组;
所述语料取样模组包括由两个以上麦克风组成的麦克风阵列、用于将所述麦克风阵列拾取的语音进行信号放大处理的放大模块及用于将所述放大后的语音信号进行取样处理的动态信号取样模块;
所述语音前处理模组包括用于将动态取样的语音信号进行设定音框的线性差异处理模块、用于将经过线性差异处理后的语音信号进行自适应滤波处理的滤波模块及用于增强滤波后的语音信号的语音增强模块;
所述语音后处理模组包括用于确定音源位置的TDOA计算模块及用于将所述音源位置信息及语音信号发送至智能终端的网络通信模块;
所述麦克风阵列的输出端连接所述放大模块的输入端,所述放大模块的输出端连接动态信号取样模块的输入端,所述动态取样模块的输出端连接所述线性差异处理模块的输入端,所述线性差异处理模块的输出端连接所述滤波模块的输入端,所述滤波模块的输出端连接所述语音增强模块的输入端,所述语音增强模块的输出端同时连接所述TDOA计算模块的输入端及网络通信模块的输入端,所述TDOA计算模块的输出端还连接所述网络通信模块的输入端,所述网络通信模块的输出端连接所述智能终端的输入端。
进一步地,所述两个以上麦克风分布于房间内的不同位置并且与所述语音增强器电性连接。
进一步地,所述线性差异处理模块还用于将切成音框的语音信号设定音量限值。
进一步地,所述两个以上麦克风与所述语音增强器通过接口可拆卸连接。
进一步地,所述网络通信模块通过ZIGBEE技术进行无线信号传输。
本发明相比现有技术具有以下优点及有益效果:
(1)本发明通过设置在室内不同位置的两个以上麦克风组成的麦克风阵列进行语音的拾取,通过对麦克风阵列拾取的语音进行放大、叠加、增强处理,有效地对原始语音进行了噪声抑制和混响消除,提高了室内不同位置及较低音量的语音识别能力。
(2)本发明的动态信号取样模块通过语音取样算法精确的在混杂的语音环境中提取目标语音信息,提高了干扰噪音环境中的语音识别能力,所述线性差异处理模块通过设定的音量限值滤除目标语音音量较小的部分,避免了一个发声位置对其他较远位置家电设备的语音干扰,使语音控制位置更精准。
(3)所述TDOA计算模块根据方向角算法得出音源的入射的方向角,通过所述方向角确定音源位置,再将所述音源位置及增强数字语音信号通过无线通信模块发送至智能终端,智能终端能够根据所述音源位置信息和增强数字语音信号开启或关闭音源位置附近的家电设备,这样的设计使语音控制更契合人们的真实意愿,提高了语音交互的智能化体验。
(4)本发明的多个麦克风通过接口与所述语音增强器电连接,通过在室内设置不同数量的麦克风及相应阵列结构,能够根据房间的大小,空间结构合理的布局麦克风阵列结构,优化了资源配置,灵活提高了麦克风阵列的拾音效果及语音增强效果。
附图说明
图1为本发明基于语音唤醒技术的语音增强器的原理流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,一种基于语音唤醒技术的语音增强器,包括:语料取样模组1、语音前处理模组2及语音后处理模组3。
所述语料取样模组包括由两个以上麦克风组成的麦克风阵列4、用于将所述麦克风阵列拾取的语音进行信号放大处理的放大模块5及用于将所述放大后的语音信号进行取样处理的动态信号取样模6;所述语音前处理模组2包括用于将动态信号取样的语音信号进行设定音框的线性差异处理模块7、用于将经过线性差异处理后的语音信号进行自适应滤波处理的滤波模块8及用于增强滤波后的语音信号的语音增强模块9;所述语音后处理模组包括用于确定音源位置的TDOA计算模块10及用于将所述音源位置信息及语音信号发送至智能终端的网络通信模块11。
所述麦克风阵列4的输出端连接所述放大模块5的输入端,所述放大模块5的输出端连接动态信号取样模块6的输入端,所述动态取样模块6的输出端连接所述线性差异处理模块7的输入端,所述线性差异处理模块7的输出端连接所述滤波模块8的输入端,所述滤波模块8的输出端连接所述语音增强模块9的输入端,所述语音增强模块9的输出端同时连接所述TDOA计算模块10的输入端及网络通信模块11的输入端,所述TDOA计算模块10的输出端还连接所述网络通信模块11的输入端,所述网络通信模块11的输出端连接所述智能终端12的输入端。
本实施例的工作原理如下:本实施例的麦克风阵列4进行音源定位是利用麦克风阵列4接收语音信号,判断出音源的位置方向,主要是利用同一音源到麦克风阵列4中每支麦克风的距离的差异,因此同一音源的语音信号传递到每个支麦克风会有时间差TDOA,利用求得的TDOA,代入方向角算法公式即可得到音源入射的方向。首先由麦克风阵列4接收语音信号,麦克风接收的语音信号经过放大模块5放大后,再经由动态信号取样模块6,依设定的取样频率取样语音信号并进行分析,所述线性差异处理模块7将每支麦克风接收的语音信号音量标准化并切割成多个音框,再将切成音框的语音信号设定音量限值,去除音量教小的部份,算出一段语音信号中所有音框的音量,再由滤波模块8将所有音框音量的语音信号进行自适应滤波处理,得到调节数字语音信号,所述语音增强模块9将所述多个音框的调节数字语音信号进行叠加处理,生成增强数字语音信号,同时,根据算法估算所述麦克风阵列中每支麦克风的TDOA,将求得的TDOA代入方向角算法公式,即可得到音源入射的方向角,所述网络通信模块3将TDOA模块计算出的方向角数据信号及增强数字语音信号发送至智能终端12,所述智能终端12根据所述方向角数据信号及增强数字语音信号开启或关闭对应音源位置的家电设备,采用TDOA的定位方式进行音源定位能够更加精准的确定发声者的位置信息,即使在比较小的空间距离范围内,也能准确定位发声者位置。由此,本发明通过确定音源位置,并根据音源位置关闭或开启对应的家电设备,避免了传统语音控制位置不精准的缺陷,语音控制更好地满足了人们实际需求,使智能家居语音交互系统的智能化水平得到提升。
根据本发明技术方案,所述两个以上麦克风分布于房间内的不同位置并且与所述语音增强器电性连接,由于在声源离麦克风较远的情况下,麦克风接收到的信号往往经过距离衰减、噪音干扰和回声造成的混响干扰,导致语音质量的下降,本实施例通过在室内合适的位置布置麦克风阵列结构,有效解决了上述问题,通过多路麦克风指向声源进行波束形成,从而获得高质量的音源输入,提高了语音识别能力。
所述两个以上麦克风与所述语音增强器通过接口可拆卸连接,所述语音增强器可以嵌入式或隐藏式安装于室内的墙壁上,通过接口可拆卸连接能够在室内设置不同数量的麦克风并对不同数量的麦克风设定相应阵列结构,能够根据房间的大小,空间结构合理的布局麦克风阵列结构,优化了资源配置,通过不同的阵列结构灵活的提高了不同房间内的麦克风阵列的拾音效果及语音增强效果。
所述网络通信模块通过ZIGBEE技术进行无线信号传输,采用ZIGBEE网络通信方式使智能终端能够同时连接并控制更多数量的所述语音增强器,并保持良好的信号传输质量,降低了功耗,节省了材料成本。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于语音唤醒技术的语音增强器,其特征在于:包括
语料取样模组、语音前处理模组及语音后处理模组;
所述语料取样模组包括由两个以上麦克风组成的麦克风阵列、用于将所述麦克风阵列拾取的语音进行信号放大处理的放大模块及用于将所述放大后的语音信号进行取样处理的动态信号取样模块;
所述语音前处理模组包括用于将动态信号取样的语音信号进行设定音框的线性差异处理模块、用于将经过线性差异处理后的语音信号进行自适应滤波处理的滤波模块及用于增强滤波后的语音信号的语音增强模块;
所述语音后处理模组包括用于确定音源位置的TDOA计算模块及用于将所述音源位置信息及语音信号发送至智能终端的网络通信模块;
所述麦克风阵列的输出端连接所述放大模块的输入端,所述放大模块的输出端连接动态信号取样模块的输入端,所述动态取样模块的输出端连接所述线性差异处理模块的输入端,所述线性差异处理模块的输出端连接所述滤波模块的输入端,所述滤波模块的输出端连接所述语音增强模块的输入端,所述语音增强模块的输出端同时连接所述TDOA计算模块的输入端及网络通信模块的输入端,所述TDOA计算模块的输出端还连接所述网络通信模块的输入端,所述网络通信模块的输出端连接所述智能终端的输入端。
2.根据权利要求1所述的基于语音唤醒技术的语音增强器,其特征在于:所述两个以上麦克风分布于房间内的不同位置并与所述语音增强器电性连接。
3.根据权利要求1所述的基于语音唤醒技术的语音增强器,其特征在于:所述线性差异处理模块还用于将切成音框的语音信号设定音量限值。
4.根据权利要求1所述的基于语音唤醒技术的语音增强器,其特征在于:所述两个以上麦克风与所述语音增强器通过接口可拆卸连接。
5.根据权利要求1所述的基于语音唤醒技术的语音增强器,其特征在于:所述网络通信模块通过ZIGBEE技术进行无线信号传输。
CN201810372027.1A 2018-04-24 2018-04-24 基于语音唤醒技术的语音增强器 Pending CN108389587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810372027.1A CN108389587A (zh) 2018-04-24 2018-04-24 基于语音唤醒技术的语音增强器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810372027.1A CN108389587A (zh) 2018-04-24 2018-04-24 基于语音唤醒技术的语音增强器

Publications (1)

Publication Number Publication Date
CN108389587A true CN108389587A (zh) 2018-08-10

Family

ID=63065443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810372027.1A Pending CN108389587A (zh) 2018-04-24 2018-04-24 基于语音唤醒技术的语音增强器

Country Status (1)

Country Link
CN (1) CN108389587A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119082A (zh) * 2018-10-22 2019-01-01 深圳锐越微技术有限公司 语音唤醒电路及电子设备
CN110503970A (zh) * 2018-11-23 2019-11-26 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN110517704A (zh) * 2019-08-23 2019-11-29 南京邮电大学 一种基于麦克风阵列波束形成算法的语音处理系统
CN111964154A (zh) * 2020-08-28 2020-11-20 邯郸美的制冷设备有限公司 空调器室内机、控制方法、运行控制装置及空调器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577449A (zh) * 2017-09-04 2018-01-12 百度在线网络技术(北京)有限公司 唤醒语音的拾取方法、装置、设备及存储介质
CN107682240A (zh) * 2017-09-27 2018-02-09 四川长虹电器股份有限公司 一种用于智慧家居的分布式语音交互系统
CN208284231U (zh) * 2018-04-24 2018-12-25 苏州宏云智能科技有限公司 基于语音唤醒技术的语音增强器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577449A (zh) * 2017-09-04 2018-01-12 百度在线网络技术(北京)有限公司 唤醒语音的拾取方法、装置、设备及存储介质
CN107682240A (zh) * 2017-09-27 2018-02-09 四川长虹电器股份有限公司 一种用于智慧家居的分布式语音交互系统
CN208284231U (zh) * 2018-04-24 2018-12-25 苏州宏云智能科技有限公司 基于语音唤醒技术的语音增强器

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119082A (zh) * 2018-10-22 2019-01-01 深圳锐越微技术有限公司 语音唤醒电路及电子设备
CN110503970A (zh) * 2018-11-23 2019-11-26 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN110503970B (zh) * 2018-11-23 2021-11-23 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN110517704A (zh) * 2019-08-23 2019-11-29 南京邮电大学 一种基于麦克风阵列波束形成算法的语音处理系统
CN111964154A (zh) * 2020-08-28 2020-11-20 邯郸美的制冷设备有限公司 空调器室内机、控制方法、运行控制装置及空调器

Similar Documents

Publication Publication Date Title
CN108389587A (zh) 基于语音唤醒技术的语音增强器
CN106910500B (zh) 对带麦克风阵列的设备进行语音控制的方法及设备
CN103026733B (zh) 用于多麦克风位置选择性处理的系统、方法、设备和计算机可读媒体
CN102461203B (zh) 用于对多信道信号进行基于相位的处理的系统、方法及设备
CN100535992C (zh) 小尺度麦克风阵列语音增强系统和方法
CN102164328B (zh) 一种用于家庭环境的基于传声器阵列的音频输入系统
CN205249484U (zh) 一种麦克风线性阵列增强指向性拾音器
WO2017218128A1 (en) Far field automatic speech recognition pre-processing
CN109660928B (zh) 包括用于影响处理算法的语音可懂度估计器的听力装置
CN101819758B (zh) 一种声音控制屏幕显示的系统及实现方法
CN108109617A (zh) 一种远距离拾音方法
CN110648678A (zh) 一种用于具有多麦克风会议的场景识别方法和系统
JP2021110938A (ja) 平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出
CN108320749A (zh) 远场语音控制设备和远场语音控制系统
CN103124165A (zh) 自动增益控制
CN109669159A (zh) 基于麦克风十字环阵列的声源定位跟踪装置及方法
CN107124647A (zh) 一种全景视频录制时自动生成字幕文件的方法及装置
CN205754809U (zh) 一种机器人自适应音量调节系统
CN110349582A (zh) 显示装置与远场语音处理电路
CN110517704A (zh) 一种基于麦克风阵列波束形成算法的语音处理系统
CN208284231U (zh) 基于语音唤醒技术的语音增强器
CN111883161A (zh) 一种音频采集和位置识别的方法及装置
CN103117083A (zh) 一种音频信息采集装置及方法
CN103559878A (zh) 一种消除音频信息中的噪声的方法及装置
CN112349291A (zh) 基于ai降噪模型的扩声系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination