CN108364642A - 一种声源锁定方法 - Google Patents

一种声源锁定方法 Download PDF

Info

Publication number
CN108364642A
CN108364642A CN201810153073.2A CN201810153073A CN108364642A CN 108364642 A CN108364642 A CN 108364642A CN 201810153073 A CN201810153073 A CN 201810153073A CN 108364642 A CN108364642 A CN 108364642A
Authority
CN
China
Prior art keywords
sound source
voice
sound
frequency
locking means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810153073.2A
Other languages
English (en)
Inventor
陈思应
孙振奎
陈跃华
余杰
何云鹏
高君效
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Leader Technology Co Ltd
Chipintelli Technology Co Ltd
Original Assignee
Chengdu Leader Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Leader Technology Co Ltd filed Critical Chengdu Leader Technology Co Ltd
Priority to CN201810153073.2A priority Critical patent/CN108364642A/zh
Publication of CN108364642A publication Critical patent/CN108364642A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明涉及语音识别领域,特别是涉及到一种声源锁定方法,由声音采集模块采集外部语音数据并传输给语音识别模块进行识别,该方法采用DNN算法来确定出声源与设备的距离,使用该方法的设备能够屏蔽声源以外所发出的声音并可不用将客户的语音数据传输至云端,提高语音识别的准确性并避免泄露客户隐私。

Description

一种声源锁定方法
技术领域
本发明涉及智能语音识别技术领域,特别是涉及到一种能够利用DNN算法确定声源位置的声源锁定方法。
背景技术
语音识别是人机交互里很重要的模块,从PC时代到现在的移动互联时代,人机交互由鼠标键盘走向智能手机、Pad等的多点触摸,到了智能硬件时代,交互则更加多元,不仅有触摸,还有基于语音、视觉的交互,原本是以机器为中心的人机交互,逐渐走向以人为中心的自然交互,语音交互作为最有效的沟通控制方式,在家用方面,它可以帮助用户把家中的各种终端设备无缝连接起来,如智能语音微波炉,用户通过简单的语音命令即可控制微波炉进行不同的工作。
从商业化的角度来看,根据识别的距离可将语音识别分为近场和远场,目前业界所做的近场人对机器说话的识别准确率可达90%以上,但在远场景的识别就不尽人意,对于一些工作在特定区域内的电子设备要求其对特定区域内的噪音具有较好的抑制,且使用距离要求在2-5米内,这对近场语音识别技术而言很难做到。
现有技术的缺点在于:
一般的智能语音设备要求在近场使用,但是当声源与设备的距离在2-5米之内时,声源的语音识别准确率较低。
发明内容
为了解决上述远场景的语音识别问题,发明了一种能够确定声源与设备之间距离的声源锁定方法。
一种声源锁定方法,其包括以下步骤:
步骤一、语音采集模块采集外部语音数据并发送给语音识别模块;
步骤二 所述语音识别模块将所述语音数据进行快速傅立叶变化后,得到频谱集,;
步骤三 将所述频谱集划分成N个子带频谱;
步骤四 用主频分离的方法将所述子带频谱进行频率成分的搜索并归类分组;
步骤五 对同一所述语音数据在所述语音采集模块的左通道和右通道的相同频率的所述子带频谱做互相关运算得到互相关函数;
步骤六 累加所述互相关函数获取延迟时间并计算出声源与设备之间的距离;
步骤七将所述频谱集输入所述语音识别模块的语音识别引擎;
步骤八 所述语音识别引擎根据所述频谱集内的频谱特征采用DNN(深度神经网络)算法在本地终端对所述频谱集内的频谱进行识别;
步骤九 所述语音识别模块将步骤八的识别结果发送给设备控制电路;
步骤十 所述设备控制电路根据所述识别结果控制所述设备执行操作。
作为本发明的优选方案,所述语音识别模块由语音处理电路和声源锁定电路组成,所述语音处理电路分析并处理所述语音采集模块采集来的所述语音数据,所述声源锁定电路根据所述语音处理电路的处理结果锁定声源的位置。
作为本发明的优选方案,所述DNN算法包括有语音预处理、特征提取、形成发音字典及建立语音模型等四个过程,其中语音预处理过程包括对语音信号或语音数据的采样、反混叠滤波、语音增强和端点检测,特征提取过程的作用是从语音信号或语音数据的波形中提取一组能够描述语音信号或语音数据特征的参数,以便训练和识别,形成发音字典则是根据发音的音素,得到相应的文本集合即为发音字典,建立语音模型则是利用语法知识调整声学模型所识别出的不合逻辑的词语。
作为本发明的优选方案,所述互相关运算的运算式为,其中i为频带数,τ为延迟时间。
作为本发明的优选方案,所述语音采集模块包含有N个语音采集设备,所述N为大于等于2的正整数,N个所述语音采集设备根据客户需求进行排列,可以进行横排也可以进行竖排。
作为本发明的优选方案,所述语音采集设备之间的距离为b,C为声速,所述语音采集设备与所述声源之间的几何关系确定出声源的偏角θ,sinθ =ITD(θ )*C/d。
为了使音频数据容易被神经网络处理,需要把复杂的声波分解成一个个组成部分,为实现声波分解,需要利用到傅里叶变换,傅立叶变换将复杂的声波分解为简单的声波,然后将每一份频段所包含的能量加在一起,得到的结果便是从低音到高音的一个频谱,再将该频谱输入深度神经网络,对于每个小的音频切片,神经网络都将尝试找出当前正在说的声音所对应的声母或韵母,当通过神经网络跑完我们的整个音频剪辑之后,最终得到一份映射,其中标明了每个音频块和其最有可能对应的声母或韵母,然后将这些基于发音的预测与基于标注的文本数据库的可能性得分相结合,去掉最不可能的结果,留下最实际的结果。
语音识别技术中,最关键的是如何从语音信号波形中提取有用的特征信息,也就是如何有效地去除噪声,声源定位为音频去噪提供了一个非常好的途径,通过对声源的定位,可以锁定人说话的位置,将其他地方的声音视为噪声虑除,提高了识别信号的信噪比。
每个声源都有各自的主频,在频域内混合声源保持着各自主频不变,同一位置不能同时存在不同频率声音的频谱,这可叫做主频独占原则,主频独占原则是主频分离的理论基础,声音信号可以表示为以基音为基本单位的各次正弦率成分的叠加,即公式一:,两个混叠的语音的各次频率成分在频域上的分布因基频不同而不同,在频率轴上从小到大依次排列两基频的各次频率成分公式二f1, f2,...,nf1,mf2,... 表示,其中,f1, f2分别为两基频,假设f1< f2,相邻频率成分间距不是固定的,有的靠近些,有的离远些,如果相邻频率成分的间距大于频率间隔门限(T)时,相邻频率成分的窗函数谱主瓣交叠部分较少,两个频率成分可以分开拟合;反之,如果相邻频率成分的间距小于频率间隔门限(T),则两个频率成分的幅度计算须考虑相互作用的影响,必须拟合在一起,根据相邻频率成分间距将频率成分分组,分组方法如下:
A从第一个频带的第一个频率开始搜索;
B 假定所考虑的频率是 fr,相邻的下一个频率是fr+1,假若| fr -fr+1| < T,则将fr+1归入此频带,否则该频带停止搜索,由fr+1 开始新的频带;
C 重复B)直到fr>fs/2,其中fs 为采样频率。
将公式二中的频率成分分成一系列的可独立的拟合组,假设第i 组由K 个频率成分fi1, fi2,...,fik组成,则取该组所属的频带为[ai,bi],ai=( fi1-1+ fi1)/2,bi=( fik+fik+1)/2,其中, fi1-1是排在fi1前的谐波, fik+1是排在fik后的频率。
与现有技术相比,本发明的有益效果:
1、由于采用了声源锁定电路锁定了声源的位置,这样就能够屏蔽声源以外所发出的声音,提高语音识别的准确性;
2、采用了该声源锁定方法就不用将客户的语音数据上传到云端进行识别,避免了泄露客户隐私的安全隐患。
附图说明
图1为本发明声源锁定方法的流程图;
图2为本发明语音识别模块的框图;
图3为本发明DNN算法框图;
图4为本发明声源锁定方法实施例中声源与微波炉距离计算原理图。
具体实施方式
下面结合实施例及具体实施方式对本发明作进一步的详细描述,但不应将此理解为本发明上述主体的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
如图1所示,一种声源锁定方法包含如下步骤:
步骤一 语音采集模块采集外部语音数据并发送给语音识别模块,本实施例中语音采集模块为2个横排排列的麦克风;
步骤二 麦克风将采集到的语音数据进行快速傅立叶变化后,得到频谱集;
步骤三 将频谱集划分成N个子带频谱;
步骤四 用主频分离的方法将所述子带频谱进行频率成分的搜索并归类分组;
步骤五 对同一所述语音数据在所述语音采集模块的左通道和右通道的相同频率的所述子带频谱做互相关运算得到互相关函数;
步骤六 累加所述互相关函数获取延迟时间并计算出声源与设备之间的距离;
步骤七 将所述频谱集输入所述语音识别模块的语音识别引擎;
步骤八 所述语音识别引擎根据所述频谱集内的频谱特征采用DNN(深度神经网络)算法在本地终端对所述频谱集内的频谱进行识别;
步骤九 所述语音识别模块将步骤八的识别结果发送给设备控制电路,本实施例中的设备为微波炉,在其他实施例中,设备可以是空调、洗衣机、电饭煲等其它家用电器;
步骤十 微波炉控制电路根据所述识别结果控制微波炉执行操作。
如图2所示,语音识别模块由语音处理电路和电源锁定电路组成,语音处理电路处理由麦克风传输来的所采集的语音数据,并将处理结果传输给电源锁定电路,电源锁定电路根据处理结果锁定声源的位置并同时屏蔽掉声源之外的噪声。
如图3所示,DNN算法包括语音预处理、特征提取、形成发音字典及建立语音模型等四个过程,其中语音预处理过程包括对语音信号或语音数据的采样、反混叠滤波、语音增强和端点检测,特征提取过程的作用是从语音信号或语音数据的波形中提取一组能够描述语音信号或语音数据特征的参数,以便训练和识别,形成发音字典则是根据发音的音素,得到相应的文本集合即为发音字典,建立语音模型则是利用语法知识调整声学模型所识别出的不合逻辑的词语。
如图4所示,两个麦克风之间的距离为b,C为声速,两个麦克风与所述声源之间的几何关系确定出声源的偏角θ,sinθ =ITD(θ )*C/d,根据θ角求出声源与微波炉的距离。

Claims (6)

1.一种声源锁定方法,其包括以下步骤:
步骤一 语音采集模块采集外部语音数据并发送给语音识别模块;
步骤二 所述语音识别模块将所述语音数据进行快速傅立叶变化后得到频谱集;
步骤三 将所述频谱集划分成N个子带频谱,N为大于1的正整数;
步骤四 用主频分离的方法将所述子带频谱进行频率成分的搜索并归类分组;
步骤五 对同一所述语音数据在所述语音采集模块的左通道和右通道的相同频率的所述子带频谱做互相关运算得到互相关函数;
步骤六 累加所述互相关函数获取延迟时间并计算出声源与设备之间的距离;
步骤七 将所述频谱集输入所述语音识别模块中的语音识别引擎;
步骤八 所述语音识别引擎根据所述频谱集内的频谱特征采用DNN(深度神经网络)算法在本地终端对所述频谱集内的频谱进行识别;
步骤九 语音识别模块将步骤八的识别结果发送给设备控制电路;
步骤十 所述设备控制电路根据所述识别结果控制所述设备执行操作。
2.根据权利要求1所述的一种声源锁定方法,其特征在于:所述语音识别模块由语音处理电路和声源锁定电路组成,所述语音分析电路处理所述语音采集模块采集来的所述语音数据,所述声源锁定电路根据所述语音分析电路的处理结果锁定声源的位置。
3.根据权利要求1所述的一种声源锁定方法,其特征在于:所述DNN算法包括语音预处理、特征提取、形成发音字典及建立语音模型四个过程。
4.根据权利要求1所述的一种声源锁定方法,其特征在于:所述互相关运算的运算式为,其中i为频带数,τ为延迟时间。
5.根据权利要求1所述的一种声源锁定方法,其特征在于:所述语音采集模块包含有N个语音采集设备,所述N为大于等于2的正整数。
6.根据权利要求5所述的一种声源锁定方法,其特征在于:所述语音采集设备之间的距离为b,C为声速,所述所述语音采集设备与所述声源之间的几何关系确定出声源的偏角θ,sinθ =ITD(θ )*C/d。
CN201810153073.2A 2018-02-22 2018-02-22 一种声源锁定方法 Pending CN108364642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810153073.2A CN108364642A (zh) 2018-02-22 2018-02-22 一种声源锁定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810153073.2A CN108364642A (zh) 2018-02-22 2018-02-22 一种声源锁定方法

Publications (1)

Publication Number Publication Date
CN108364642A true CN108364642A (zh) 2018-08-03

Family

ID=63002852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810153073.2A Pending CN108364642A (zh) 2018-02-22 2018-02-22 一种声源锁定方法

Country Status (1)

Country Link
CN (1) CN108364642A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101682809A (zh) * 2007-06-21 2010-03-24 伯斯有限公司 声音辨别方法和装置
CN102682765A (zh) * 2012-04-27 2012-09-19 中咨泰克交通工程集团有限公司 高速公路音频车辆检测装置及其方法
CN204390737U (zh) * 2014-07-29 2015-06-10 科大讯飞股份有限公司 一种家庭语音处理系统
CN105845127A (zh) * 2015-01-13 2016-08-10 阿里巴巴集团控股有限公司 语音识别方法及其系统
CN106383603A (zh) * 2016-09-23 2017-02-08 安徽声讯信息技术有限公司 一种基于语音鼠标的语音控制系统
CN106603878A (zh) * 2016-12-09 2017-04-26 奇酷互联网络科技(深圳)有限公司 语音定位方法、装置和系统
CN107134286A (zh) * 2017-05-15 2017-09-05 深圳米唐科技有限公司 基于语音交互的无线音频播放方法、音乐播放器及存储介质
CN107195296A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN107271963A (zh) * 2017-06-22 2017-10-20 广东美的制冷设备有限公司 声源定位的方法和装置及空调器
CN107479030A (zh) * 2017-07-14 2017-12-15 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法
CN107705785A (zh) * 2017-08-01 2018-02-16 百度在线网络技术(北京)有限公司 智能音箱的声源定位方法、智能音箱及计算机可读介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101682809A (zh) * 2007-06-21 2010-03-24 伯斯有限公司 声音辨别方法和装置
CN102682765A (zh) * 2012-04-27 2012-09-19 中咨泰克交通工程集团有限公司 高速公路音频车辆检测装置及其方法
CN204390737U (zh) * 2014-07-29 2015-06-10 科大讯飞股份有限公司 一种家庭语音处理系统
CN105845127A (zh) * 2015-01-13 2016-08-10 阿里巴巴集团控股有限公司 语音识别方法及其系统
CN107195296A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN106383603A (zh) * 2016-09-23 2017-02-08 安徽声讯信息技术有限公司 一种基于语音鼠标的语音控制系统
CN106603878A (zh) * 2016-12-09 2017-04-26 奇酷互联网络科技(深圳)有限公司 语音定位方法、装置和系统
CN107134286A (zh) * 2017-05-15 2017-09-05 深圳米唐科技有限公司 基于语音交互的无线音频播放方法、音乐播放器及存储介质
CN107271963A (zh) * 2017-06-22 2017-10-20 广东美的制冷设备有限公司 声源定位的方法和装置及空调器
CN107479030A (zh) * 2017-07-14 2017-12-15 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法
CN107705785A (zh) * 2017-08-01 2018-02-16 百度在线网络技术(北京)有限公司 智能音箱的声源定位方法、智能音箱及计算机可读介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TANIAHABIB: "Auditory inspired methods for localization of multiple concurrent speakers", 《COMPUTER SPEECH & LANGUAGE》 *
解传栋: "资源稀少情况下的语音识别的主动学习方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
韦康博: "《人工智能 比你想象的更具颠覆性的智能革命》", 30 September 2016, 北京:现代出版社 *
黄秀轩: "混叠语音的计算听觉场景分析研究", 《中国优秀博士学位论文全文数据库信息科技辑》 *

Similar Documents

Publication Publication Date Title
Wang et al. Deep extractor network for target speaker recovery from single channel speech mixtures
Gupta et al. Feature extraction using MFCC
CN108847238B (zh) 一种服务机器人语音识别方法
CN109901031A (zh) 用于局部放电信号的信噪分离方法、信息数据处理终端
CN105825871B (zh) 一种无前导静音段语音的端点检测方法
CN103456312B (zh) 一种基于计算听觉场景分析的单通道语音盲分离方法
CN105488466B (zh) 一种深层神经网络和水声目标声纹特征提取方法
CN102005070A (zh) 一种语音识别门禁系统
CN104887263B (zh) 一种基于心音多维特征提取的身份识别算法及其系统
CN102981615B (zh) 手势识别装置及识别方法
CN103854660B (zh) 一种基于独立成分分析的四麦克语音增强方法
CN104515905B (zh) 基于cqt多分辨率的被试的脑电信号自适应频谱分析方法
CN107274911A (zh) 一种基于声音特征的相似度分析方法
CN109036437A (zh) 口音识别方法、装置、计算机装置及计算机可读存储介质
CN108172220A (zh) 一种新型语音除噪方法
CN112786057B (zh) 一种声纹识别方法、装置、电子设备及存储介质
Liu et al. Replay attack detection using magnitude and phase information with attention-based adaptive filters
CN107564530A (zh) 一种基于声纹能量特征的无人机检测方法
CN108091327A (zh) 一种智能语音设备控制方法
CN104751856B (zh) 一种语音语句识别方法及装置
CN108133704A (zh) 一种声源锁定系统
Zeng et al. Bark-wavelet analysis and Hilbert–Huang transform for underwater target recognition
CN108364642A (zh) 一种声源锁定方法
CN117493961A (zh) 一种局部放电信号分离与识别方法、装置及存储介质
CN112908340A (zh) 一种基于全局-局部加窗的声音特征快速提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180803

WD01 Invention patent application deemed withdrawn after publication