CN113362808B - 一种目标方向语音提取方法、装置、电子设备和存储介质 - Google Patents

一种目标方向语音提取方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113362808B
CN113362808B CN202110616989.9A CN202110616989A CN113362808B CN 113362808 B CN113362808 B CN 113362808B CN 202110616989 A CN202110616989 A CN 202110616989A CN 113362808 B CN113362808 B CN 113362808B
Authority
CN
China
Prior art keywords
noise
calculating
signal data
spectrum
normalized cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110616989.9A
Other languages
English (en)
Other versions
CN113362808A (zh
Inventor
关海欣
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202110616989.9A priority Critical patent/CN113362808B/zh
Publication of CN113362808A publication Critical patent/CN113362808A/zh
Application granted granted Critical
Publication of CN113362808B publication Critical patent/CN113362808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种目标方向语音提取方法、装置、电子设备和存储介质,该方法包括:获取多路信号数据;根据所述多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率;计算输入信号归一化互谱;计算多个噪声归一化互谱;选取使得相干散射比CDR最小的噪声归一化互谱,根据最小的相干散射比CDR计算各个频点的增益系数;计算增益系数与频域信号数据xi(k,f)中第一个阵元的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。本申请实施例将噪声归一化互谱由散射噪声扩展为方向噪声,并通过对噪声归一化互谱空间采样,令相干散射比CDR最小的方法选择噪声归一化互谱,最终实现提取目标语音并抑制目标区域以外的干扰。

Description

一种目标方向语音提取方法、装置、电子设备和存储介质
技术领域
本发明涉及语音提取技术领域,具体涉及一种目标方向语音提取方法、装置、电子设备和存储介质。
背景技术
目前根据提取特定方向声音的技术主要是波束形成技术,如果使用固定波束形成技术通常需要较多阵元才能达到较好效果,如果使用自适应波束形成技术,需要实时检测信号数据,调控自适应滤波器更新,避免发生语音损伤,但在噪声下目标信号数据检测并不容易。
有学者研究基于相关性的降低混响和散射噪声的方法,但该方法不能去除方向性的声音干扰。
发明内容
本发明提供一种目标方向语音提取方法、装置、电子设备和存储介质,能够解决上述不能去除方向性的声音干扰技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明实施例提供一种目标方向语音提取方法,包括:
获取多路信号数据;
根据多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率;
计算输入信号归一化互谱;
计算多个噪声归一化互谱;
选取使得相干散射比CDR最小的噪声归一化互谱,根据最小的相干散射比CDR计算各个频点的增益系数;
计算增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。
在一些实施例中,上述方法中根据多路信号数据确定频域信号数据xi(k,f),包括:
将多路数据中的每一路数据均使用分帧、加窗分解到时频域;
通过傅里叶变换是转到时频域得到频域信号数据。
在一些实施例中,上述方法中计算输入信号归一化互谱,包括:
计算互功率谱;计算两个自功率谱的模之积;
计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱。
在一些实施例中,上述方法中计算多个噪声归一化互谱,包括:
根据声音入射模型计算多个噪声方向上的噪声归一化互谱。
第二方面,本发明实施例还提供一种目标方向语音提取装置,包括:
获取模块:用于获取多路信号数据;
确定模块:用于根据多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率;
第一计算模块:用于计算输入信号归一化互谱;
第二计算模块:用于计算多个噪声归一化互谱;
第三计算模块:用于选取使得相干散射比CDR最小的噪声归一化互谱,根据最小的相干散射比CDR计算各个频点的增益系数;
第四计算模块:计算增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。
在一些实施例中,上述装置中的确定模块还用于:
将多路数据中的每一路数据均使用分帧、加窗分解到时频域;
通过傅里叶变换是转到时频域得到频域信号数据。
在一些实施例中,上述装置中的第一计算模块还用于:
计算互功率谱;计算两个自功率谱的模之积;
计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱。
在一些实施例中,上述装置中的第二计算模块计算多个噪声归一化互谱,包括:
根据声音入射模型计算多个噪声方向上的噪声归一化互谱。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种目标方向语音提取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种目标方向语音提取方法。
本发明的有益效果是:获取多路信号数据;根据所述多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率;计算输入信号归一化互谱;计算多个噪声归一化互谱;选取使得相干散射比CDR最小的噪声归一化互谱,根据最小的相干散射比CDR计算各个频点的增益系数;计算所述增益系数与频域信号数据xi(k,f)中第一个阵元的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。本申请实施例中将噪声归一化互谱由散射噪声扩展为方向噪声,并通过对噪声归一化互谱空间采样,令相干散射比CDR最小的方法选择噪声归一化互谱,最终实现提取目标语音并抑制目标区域以外的干扰。相比于基于相关性的降低混响和散射噪声的方法,本申请可以去除方向性噪声干扰,提取目标方向语音。
附图说明
图1为本发明实施例提供的一种目标方向语音提取方法图一;
图2为本发明实施例提供的一种目标方向语音提取方法图二;
图3为本发明实施例提供的一种目标方向语音提取方法图三;
图4为本发明实施例提供的一种目标方向语音提取装置图;
图5为本发明实施例提供的一种电子设备的示意性框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
图1为本发明实施例提供的一种目标方向语音提取方法图一。
第一方面,结合图1,本发明实施例提供一种目标方向语音提取方法,包括S101、S102、S103、S104、S105和S106六个步骤:
S101:获取多路信号数据。
S102:根据多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率。
S103:计算输入信号归一化互谱。
S104:计算多个噪声归一化互谱。
具体的,本申请实施例中,由于在实际定向拾音过程中仅知道目标语音方位,并不知道噪声方位,本申请中需要设定多个噪声方向,比如目标方向在0°,左右偏差在+-20°,那么干扰方向来自(-90°~-20°)U(20°~90°),本申请每隔几度计算一个噪声归一化互谱,比如每隔5°计算一个,则有多个噪声归一化互谱Γn1,Γn2,……,在计算增益时选取。
S105:选取使得相干散射比CDR最小的噪声归一化互谱,根据最小的相干散射比CDR计算各个频点的增益系数;
Figure BDA0003098055210000051
具体的,本申请实施例中,上面公式中Δt为目标语音方位折算的时延,通过该公式即可计算相干散射比CDR;英文为COHERENT-TO-DIFFUSE Ratio由于噪声可来自于多个方位,所以此处选取使得相干散射比CDR最小的噪声归一化互谱Γn;
Figure BDA0003098055210000052
通过相干散射比CDR即可计算时频点的增益系数,其中Gmin=0.1,u=1,这两个参数用于平衡降噪与语音损伤,可取α=2,β=1相当于维纳滤波。
S106:计算增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。
具体的,本申请实施例中将噪声归一化互谱由散射噪声扩展为方向噪声,并通过对噪声归一化互谱空间采样,令相干散射比CDR最小的方法选择噪声归一化互谱,计算增益系数与频域信号数据xi(k,f)的积,增益系数得到后,通常选取与第一个阵元数据x1(k,f)乘积,最终将输出一路降噪后语音,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据,最终实现提取目标语音并抑制目标区域以外的干扰。相比于基于相关性的降低混响和散射噪声的方法,本申请可以去除方向性噪声干扰,提取目标方向语音。
图2为本发明实施例提供的一种目标方向语音提取方法图二。
在一些实施例中,结合图2,上述方法中根据多路信号数据确定频域信号数据xi(k,f),包括S201和S202两个步骤:
S201:将多路数据中的每一路数据均使用分帧、加窗分解到时频域。
S202:通过傅里叶变换转到时频域得到频域信号数据。
图3为本发明实施例提供的一种目标方向语音提取方法图三。
在一些实施例中,结合图3,上述方法中计算输入信号归一化互谱,包括S301、S302和S303三个步骤:
S301:计算互功率谱;
S302:计算两个自功率谱的模之积;
S303:计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱。
具体的,本申请实施例中,
互功率谱
Figure BDA0003098055210000061
是xi(k,f)*conj(xj(k,f)),conj为共轭算子;
两个自功率谱的模之积Фx(k,f)=|Фx1x1(k,f)|*|Фx2x2(k,f)|;
计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱如下公式所示:
Figure BDA0003098055210000062
在一些实施例中,上述方法中计算多个噪声归一化互谱,包括:
根据声音入射模型计算多个噪声方向上的噪声归一化互谱。
具体的,本申请实施例中,根据声音入射模型计算多个噪声方向上的噪声归一化互谱Γn(k,f)=exp(j2πfΔt),其中j是虚部标识符,即sqrt(-1),Δt=d*cos(angle)/c,Δt是噪声进入阵元的延时差,其中d指mic间距,angle是噪声相对阵列垂线角(取弧度),c是声音传播速度,常温下c=343m/s。
图4为本发明实施例提供的一种目标方向语音提取装置图。
第二方面,本发明实施例还提供一种目标方向语音提取装置,结合图4,包括:
获取模块401:用于获取多路信号数据。
确定模块402:用于根据多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率。
第一计算模块403:用于计算输入信号归一化互谱。
第二计算模块404:用于计算多个噪声归一化互谱。
具体的,本申请实施例中,由于在实际定向拾音过程中仅知道目标语音方位,并不知道噪声方位,本申请中需要设定多个噪声方向,比如目标方向在0°,左右偏差在+-20°,那么干扰方向来自(-90°~-20°)U(20°~90°),本申请每隔几度第二计算模块404计算一个噪声归一化互谱,比如每隔5°计算一个,则有多个噪声归一化互谱Γn1,Γn2,……,在计算增益时选取。
第三计算模块405:用于选取使得相干散射比CDR最小的噪声归一化互谱,根据最小的相干散射比CDR计算各个频点的增益系数;
Figure BDA0003098055210000071
具体的,本申请实施例中,上面公式中Δt为目标语音方位折算的时延,通过该公式即可计算相干散射比CDR;由于噪声可来自于多个方位,所以此处选取使得相干散射比CDR最小的噪声归一化互谱Γn;
Figure BDA0003098055210000072
通过相干散射比CDR即可计算时频点的增益系数,其中Gmin=0.1,u=1,这两个参数用于平衡降噪与语音损伤,可取α=2,β=1相当于维纳滤波。
第四计算模块406:计算增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。
具体的,本申请实施例中将噪声归一化互谱由散射噪声扩展为方向噪声,并通过对噪声归一化互谱空间采样,令CDR最小的方法选择噪声归一化互谱,第四计算模块406计算增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据最终实现提取目标语音并抑制目标区域以外的干扰。相比于基于相关性的降低混响和散射噪声的方法,本申请可以去除方向性噪声干扰,提取目标方向语音。
在一些实施例中,上述装置中的确定模块402还用于:
将多路数据中的每一路数据均使用分帧、加窗分解到时频域;
通过傅里叶变换是转到时频域得到频域信号数据。
在一些实施例中,上述装置中的第一计算模块403还用于:
计算互功率谱;计算两个自功率谱的模之积;
计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱。
具体的,本申请实施例中,
互功率谱
Figure BDA0003098055210000081
是xi(k,f)*conj(xj(k,f)),conj为共轭算子;
两个自功率谱的模之积Фx(k,f)=|Фx1x1(k,f)|*|Фx2x2(k,f)|;
计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱如:
Figure BDA0003098055210000082
在一些实施例中,上述装置中的第二计算模块404计算多个噪声归一化互谱,包括:
根据声音入射模型计算多个噪声方向上的噪声归一化互谱。
具体的,本申请实施例中,根据声音入射模型计算多个噪声方向上的噪声归一化互谱Γn(k,f)=exp(j2πfΔt),其中j是虚部标识符,即sqrt(-1),Δt=d*cos(angle)/c,Δt是噪声进入阵元的延时差,其中d指mic间距,angle是噪声相对阵列垂线角(取弧度),c是声音传播速度,常温下c=343m/s。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种目标方向语音提取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种目标方向语音提取方法。
图5是本公开实施例提供的一种电子设备的示意性框图。
如图5所示,电子设备包括:至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503,用于与外部设备之间的信息传输。可理解,总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图5中将各种总线都标为总线系统504。
可以理解,本实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例提供的目标方向语音提取方法中任一一种目标方向语音提取方法方法的程序可以包含在应用程序中。
在本申请实施例中,处理器501通过调用存储器502存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器501用于执行本申请实施例提供的一种目标方向语音提取方法各实施例的步骤。
获取多路信号数据;
根据多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率;
计算输入信号归一化互谱;
计算多个噪声归一化互谱;
选取使得相干散射比CDR最小的噪声归一化互谱,根据最小的相干散射比CDR计算各个频点的增益系数;
计算增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据。
本申请实施例提供的一种目标方向语音提取方法中任一方法可以应用于处理器501中,或者由处理器501实现。处理器501可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例提供的一种目标方向语音提取方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成目标方向语音提取方法的步骤。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种目标方向语音提取方法,其特征在于,包括:
获取多路信号数据;
根据所述多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率;
计算输入信号归一化互谱;
计算多个噪声归一化互谱;
选取使得相干散射比CDR最小的噪声归一化互谱,根据最小的相干散射比CDR计算各个频点的增益系数;
计算所述增益系数与所述频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据;
其中,所述计算输入信号归一化互谱,包括:
计算互功率谱;计算两个自功率谱的模之积;
计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱。
2.根据权利要求1所述的目标方向语音提取方法,其特征在于,根据所述多路信号数据确定频域信号数据xi(k,f),包括:
将所述多路信号数据中的每一路数据均使用分帧、加窗分解到时频域;
通过傅里叶变换是转到时频域得到频域信号数据。
3.根据权利要求1所述的目标方向语音提取方法,其特征在于,所述计算多个噪声归一化互谱,包括:
根据声音入射模型计算多个噪声方向上的噪声归一化互谱。
4.一种目标方向语音提取装置,其特征在于,包括:
获取模块:用于获取多路信号数据;
确定模块:用于根据所述多路信号数据确定频域信号数据xi(k,f),其中i表示阵元,k为帧(时间),f为频率;
第一计算模块:用于计算输入信号归一化互谱;
第二计算模块:用于计算多个噪声归一化互谱;
第三计算模块:用于选取使得相干散射比CDR最小的噪声归一化互谱,根据最小的相干散射比CDR计算各个频点的增益系数;
第四计算模块:计算所述增益系数与频域信号数据xi(k,f)的积,通过傅里叶逆变换与重叠相加操作得到降噪后的信号数据;
其中,所述第一计算模块还用于:
计算互功率谱;计算两个自功率谱的模之积;
计算互功率谱和两个自功率谱的模之积的商得到数据归一化互谱。
5.根据权利要求4所述的目标方向语音提取装置,其特征在于,所述确定模块还用于:
将多路数据中的每一路数据均使用分帧、加窗分解到时频域;
通过傅里叶变换是转到时频域得到频域信号数据。
6.根据权利要求4所述的目标方向语音提取装置,其特征在于,第二计算模块计算多个噪声归一化互谱,包括:
根据声音入射模型计算多个噪声方向上的噪声归一化互谱。
7.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至3任一项所述一种目标方向语音提取方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至3任一项所述一种目标方向语音提取方法。
CN202110616989.9A 2021-06-02 2021-06-02 一种目标方向语音提取方法、装置、电子设备和存储介质 Active CN113362808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110616989.9A CN113362808B (zh) 2021-06-02 2021-06-02 一种目标方向语音提取方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110616989.9A CN113362808B (zh) 2021-06-02 2021-06-02 一种目标方向语音提取方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113362808A CN113362808A (zh) 2021-09-07
CN113362808B true CN113362808B (zh) 2023-03-21

Family

ID=77531457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110616989.9A Active CN113362808B (zh) 2021-06-02 2021-06-02 一种目标方向语音提取方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113362808B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
CN105869651A (zh) * 2016-03-23 2016-08-17 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法
CN109637554A (zh) * 2019-01-16 2019-04-16 辽宁工业大学 基于cdr的mclp语音去混响方法
CN111048106A (zh) * 2020-03-12 2020-04-21 深圳市友杰智新科技有限公司 基于双麦克风的拾音方法、装置和计算机设备
CN112485761A (zh) * 2021-02-03 2021-03-12 成都启英泰伦科技有限公司 一种基于双麦克风的声源定位方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1302461C (zh) * 2004-04-13 2007-02-28 中国科学院声学研究所 用于海中垂直阵接收信号互谱矩阵估计中的噪声抑制方法
JP2010210728A (ja) * 2009-03-09 2010-09-24 Univ Of Tokyo 音響信号処理方法及び装置
CN103389495B (zh) * 2013-07-18 2015-04-22 中国航天空气动力技术研究院 一种针对提高低频声源分辨率的修正方法
CN105609112A (zh) * 2016-01-15 2016-05-25 苏州宾果智能科技有限公司 一种声源定位方法和装置及其时延估计方法和装置
JP2020160290A (ja) * 2019-03-27 2020-10-01 パナソニックIpマネジメント株式会社 信号処理装置、信号処理システム及び信号処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
CN105869651A (zh) * 2016-03-23 2016-08-17 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法
CN109637554A (zh) * 2019-01-16 2019-04-16 辽宁工业大学 基于cdr的mclp语音去混响方法
CN111048106A (zh) * 2020-03-12 2020-04-21 深圳市友杰智新科技有限公司 基于双麦克风的拾音方法、装置和计算机设备
CN112485761A (zh) * 2021-02-03 2021-03-12 成都启英泰伦科技有限公司 一种基于双麦克风的声源定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
岳剑平,王德俊,惠俊英,梁国龙,冯海泓,陈新华.单矢量传感器的互谱估计与方位估计.(第03期),全文. *
王群 ; 曾庆宁 ; 郑展恒 ; .低信噪比环境下的麦克风阵列语音识别算法研究.(第31期),全文. *

Also Published As

Publication number Publication date
CN113362808A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
US10123113B2 (en) Selective audio source enhancement
US10515650B2 (en) Signal processing apparatus, signal processing method, and signal processing program
CN109102822B (zh) 一种基于固定波束形成的滤波方法及装置
EP3189521B1 (en) Method and apparatus for enhancing sound sources
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
EP2431973A1 (en) Apparatus and method for enhancing audio quality using non-uniform configuration of microphones
CN109285557B (zh) 一种定向拾音方法、装置及电子设备
US20220270638A1 (en) Method and apparatus for processing live stream audio, and electronic device and storage medium
CN110706719B (zh) 一种语音提取方法、装置、电子设备及存储介质
CN111435598B (zh) 语音信号处理方法、装置、计算机可读介质及电子设备
US10839820B2 (en) Voice processing method, apparatus, device and storage medium
EP3113508B1 (en) Signal-processing device, method, and program
KR20200128687A (ko) 하울링 억제 방법, 장치 및 전자 설비
WO2016119388A1 (zh) 一种基于语音信号构造聚焦协方差矩阵的方法及装置
JP2007336232A (ja) 特定方向収音装置、特定方向収音プログラム、記録媒体
WO2020107455A1 (zh) 语音处理方法、装置、存储介质及电子设备
CN113362808B (zh) 一种目标方向语音提取方法、装置、电子设备和存储介质
US9445195B2 (en) Directivity control method and device
US20240212701A1 (en) Estimating an optimized mask for processing acquired sound data
CN111724808A (zh) 音频信号处理方法、装置、终端及存储介质
JP7270869B2 (ja) 情報処理装置、出力方法、及び出力プログラム
CN113870884B (zh) 单麦克风噪声抑制方法和装置
CN115831145A (zh) 一种双麦克风语音增强方法和系统
CN117711418A (zh) 一种定向拾音方法、系统、设备及存储介质
The et al. An Increased Implementation of Generalized Sidelobe Canceller Based on the Expectation-Maximization Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant