CN108877827B - 一种语音增强交互方法及系统、存储介质及电子设备 - Google Patents

一种语音增强交互方法及系统、存储介质及电子设备 Download PDF

Info

Publication number
CN108877827B
CN108877827B CN201710338190.1A CN201710338190A CN108877827B CN 108877827 B CN108877827 B CN 108877827B CN 201710338190 A CN201710338190 A CN 201710338190A CN 108877827 B CN108877827 B CN 108877827B
Authority
CN
China
Prior art keywords
frequency domain
theta
reverberation
domain signal
scanning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710338190.1A
Other languages
English (en)
Other versions
CN108877827A (zh
Inventor
金剑
张益萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rockchip Electronics Co Ltd
Original Assignee
Fuzhou Rockchip Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou Rockchip Electronics Co Ltd filed Critical Fuzhou Rockchip Electronics Co Ltd
Priority to CN201710338190.1A priority Critical patent/CN108877827B/zh
Publication of CN108877827A publication Critical patent/CN108877827A/zh
Application granted granted Critical
Publication of CN108877827B publication Critical patent/CN108877827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种语音增强交互方法及系统、存储介质及电子设备,将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号,并进行混响抑制和平稳噪声抑制;基于去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位,获取唤醒方向;在主方向和唤醒方向基于去除混响和平稳噪声的各个麦克风的频域信号,获取主方向波束时域信号和唤醒方向波束时域信号;对所述主方向波束时域信号进行语音识别;对所述唤醒方向波束时域信号进行唤醒词识别,若识别为唤醒词,则将主方向更改为所获取的唤醒方向。本发明的语音增强交互方法及系统、存储介质及电子设备有效地提高了语音交互的稳定性和可靠性。

Description

一种语音增强交互方法及系统、存储介质及电子设备
技术领域
本发明涉及语音处理的技术领域,特别是涉及一种语音增强交互方法及系统、存储介质及电子设备。
背景技术
随着信息科技的发展,人工智能技术越来越走进人们的生活当中。而在众多的人机交互中,语音交互是一种最自然且最符合人类行为的一种交互方式。语音识别技术的不断发展,也使得语音交互成为现实。在使用过程中,通常使用特定唤醒词触发语音交互系统。然而,在实际生活场景中,语音交互环境较为复杂,容易受到环境噪声、混响、人声干扰等影响,使得麦克风采集的语音信号信噪比较差,严重影响了语音交互的准确性。
现有技术中,采用各种语音增强方法来提高语音信噪比,其中包括单麦克风语音增强技术和麦克风阵列语音增强技术。单麦克风语音增强技术为比较传统的语音增强技术,包括谱减法、维纳滤波法等方法。麦克风阵列语音增强相比单麦克风语音增强技术,引入了声源信号的空间信息。现有语音增强麦克风阵列通常采用均匀线形阵列,并使用自适应波束形成语音增强方法,例如广义旁瓣相消器(GSC),同时还需要声源定位功能来确定目标声源位置,以使得波束方向指向目标声源方向。现有声源定位方法通常采用时延估计方法,例如利用广义互相关方法(GCC)。
单麦克风语音增强技术算法复杂度小,但对非平稳噪声的抑制效果较差,且容易造成语音不同程度的失真。线形麦克风阵列语音增强方法由于其布局的局限性,对阵列法线方向的拾音效果较好,但对轴向拾音效果较差;同时,自适应波束形成虽然对噪声具有实时的跟踪性,但在噪声环境复杂且混响较大时,声源定位准确度难以保证,同时零陷方向的自适应跟踪准确度也难以保证,从而造成语音不同程度的失真。为了避免复杂环境下自适应波束的效果恶化,通常需要设计复杂的自适应算法以及复杂的声源定位方法,难以满足嵌入式系统的实时性应用需求。一般情况下,声源定位方法与自适应波束方法通常采用不同的设计方法,如GCC与GSC方法,两者几乎没有复用模块,从而造成更大的复杂度。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种语音增强交互方法及系统、存储介质及电子设备,在进行语音识别时,生成主方向和唤醒方向两路波束信号,并当干扰方向声源为唤醒词时将正在进行语音识别的主方向切换为唤醒方向,从而有效地提高了语音交互的稳定性和可靠性。
为实现上述目的及其他相关目的,本发明提供一种基于环形麦克风阵列的语音增强交互方法,包括以下步骤:将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号;在频域对所述各个麦克风的频域信号进行混响抑制和平稳噪声抑制,得到去除混响和平稳噪声的各个麦克风的频域信号;基于所述去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位,获取唤醒方向;在主方向和唤醒方向基于所述去除混响和平稳噪声的各个麦克风的频域信号,获取主方向波束时域信号和唤醒方向波束时域信号;所述主方向为当前正在拾音的目标方向;对所述主方向波束时域信号进行语音识别;对所述唤醒方向波束时域信号进行唤醒词识别,若识别为唤醒词,则将主方向更改为所获取的唤醒方向,并基于更改后的主方向对应的主方向波束时域信号进行语音识别。
于本发明一实施例中,对环形麦克风阵列中各个麦克风的时域信号xi(n)进行分帧加窗以及短时傅里叶变换,得到各个麦克风的频域信号Xi(k,l),其中i表示第i个麦克风,n表示时域样点索引号,k表示频域样点索引号,l表示当前帧号,i取值为1~M的自然数,M为麦克风的个数。
于本发明一实施例中,对所述各个麦克风的频域信号Xi(k,l)进行混响抑制和平稳噪声抑制时,以交互空间的混响时间为先验知识,建立统计模型,进行后混响方差估计,同时采用最小值跟踪算法进行噪声估计;然后将估计得到的后混响方差和噪声方差作为输入,采用改进型最小均方误差方法计算语音增强增益Gi(k,l),最后根据X′i(k,l)=Xi(k,l)×Gi(k,l)得到去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l)。
于本发明一实施例中,获取所述唤醒方向包括以下步骤:
设定扫描方向θj及扫描频段[Kl,Kh],其中
Figure BDA0001294496430000021
Sn为扫描个数;
基于去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l),在各个扫描方向θj的扫描频段上进行波束滤波,并计算各个扫描方向对应的扫描频段上波束滤波后的能量值
Figure BDA0001294496430000022
其中
Figure BDA0001294496430000023
为扫描方向θj对应的超增益固定波束滤波器;
计算各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和
Figure BDA0001294496430000031
其中L为一定时间片T所对应的帧数,L=floor(T×Fs/N),N为帧长,Fs为麦克风信号的采样率,floor()表示向下取整运算;
搜索各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和S(θj,l)中前三个能量大值对应的扫描方向;其中θm1、θm2和θm3分别表示能量第一大值、第二大值和第三大值所对应的扫描方向;
对前三个能量大值对应的扫描方向进行平滑,获取唤醒方向θW
于本发明一实施例中,对前三个能量大值对应的扫描方向进行平滑,获取唤醒方向θW包括以下步骤:
根据
Figure BDA0001294496430000032
对θm1和θm2进行平滑操作,得到θ12,其中θΔ为预设最大误差角;
根据
Figure BDA0001294496430000033
对θ12和θm3进行平滑操作,得到唤醒方向θW,其中α为预设平滑系数。
于本发明一实施例中,获取主方向波束时域信号xI(n,l)和唤醒方向波束时域信号xW(n,l)时,包括以下步骤:
根据
Figure BDA0001294496430000034
对主方向上去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l)进行频域波束滤波,得到滤波后的主方向波束频域信号YI(k,l);根据
Figure BDA0001294496430000035
对唤醒方向上去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l)进行频域波束滤波,得到滤波后的唤醒方向波束频域信号YW(k,l);其中,
Figure BDA0001294496430000036
Figure BDA0001294496430000037
分别表示主方向θI和唤醒方向θW对应的超增益固定波束滤波器;
分别对主方向波束频域信号YI(k,l)和唤醒方向波束频域信号YW(k,l)进行短时反傅里叶变换,得到主方向波束时域信号xI(n,l)和唤醒方向波束时域信号xW(n,l)。
于本发明一实施例中,所述超增益固定波束滤波器的系数预先通过仿真计算获得,其中干扰噪声假设为散射噪声,白噪声的增益根据需求进行设定。
相应地,本发明还提供一种基于环形麦克风阵列的语音增强交互系统,包括转换模块、抑制模块、第一获取模块、第二获取模块和语音识别模块;
转换模块用于将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号;
抑制模块用于在频域对所述各个麦克风的频域信号进行混响抑制和平稳噪声抑制,得到去除混响和平稳噪声的各个麦克风的频域信号;
第一获取模块用于基于所述去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位,获取唤醒方向;
第二获取模块用于在主方向和唤醒方向基于所述去除混响和平稳噪声的各个麦克风的频域信号,获取主方向波束时域信号和唤醒方向波束时域信号;所述主方向为当前正在拾音的目标方向;
语音识别模块用于对所述主方向波束时域信号进行语音识别;对所述唤醒方向波束时域信号进行唤醒词识别,若识别为唤醒词,则将主方向更改为所获取的唤醒方向,并基于更改后的主方向对应的主方向波束时域信号进行语音识别。
于本发明一实施例中,所述转换模块对环形麦克风阵列中各个麦克风的时域信号xi(n)进行分帧加窗以及短时傅里叶变换,得到各个麦克风的频域信号Xi(k,l),其中i表示第i个麦克风,n表示时域样点索引号,k表示频域样点索引号,l表示当前帧号,i取值为1~M的自然数,M为麦克风的个数。
于本发明一实施例中,所述抑制模块对所述各个麦克风的频域信号Xi(k,l)进行混响抑制和平稳噪声抑制时,以交互空间的混响时间为先验知识,建立统计模型,进行后混响方差估计,同时采用最小值跟踪算法进行噪声估计;然后将估计得到的后混响方差和噪声方差作为输入,采用改进型最小均方误差方法计算语音增强增益Gi(k,l),最后根据X′i(k,l)=Xi(k,l)×Gi(k,l)得到去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l)。
于本发明一实施例中,所述第一获取模块执行以下操作:
设定扫描方向θj及扫描频段[Kl,Kh],其中
Figure BDA0001294496430000041
Sn为扫描个数;
基于去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l),在各个扫描方向θj的扫描频段上进行波束滤波,并计算各个扫描方向对应的扫描频段上波束滤波后的能量值
Figure BDA0001294496430000042
其中
Figure BDA0001294496430000043
为扫描方向θj对应的超增益固定波束滤波器;
计算各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和
Figure BDA0001294496430000051
其中L为一定时间片T所对应的帧数,L=floor(T×Fs/N),N为帧长,Fs为麦克风信号的采样率,floor()表示向下取整运算;
搜索各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和S(θj,l)中前三个能量大值对应的扫描方向;其中θm1、θm2和θm3分别表示能量第一大值、第二大值和第三大值所对应的扫描方向;
对前三个能量大值对应的扫描方向进行平滑,获取唤醒方向θW
于本发明一实施例中,对前三个能量大值对应的扫描方向进行平滑,获取唤醒方向θW包括以下步骤:
根据
Figure BDA0001294496430000052
对θm1和θm2进行平滑操作,得到θ12,其中θΔ为预设最大误差角;
根据
Figure BDA0001294496430000053
对θ12和θm3进行平滑操作,得到唤醒方向θW,其中α为预设平滑系数。
于本发明一实施例中,所述第二获取模块执行以下操作:
根据
Figure BDA0001294496430000054
对主方向上去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l)进行频域波束滤波,得到滤波后的主方向波束频域信号YI(k,l);根据
Figure BDA0001294496430000055
对唤醒方向上去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l)进行频域波束滤波,得到滤波后的唤醒方向波束频域信号YW(k,l);其中,
Figure BDA0001294496430000056
Figure BDA0001294496430000057
(k,i)分别表示主方向θI和唤醒方向θW对应的超增益固定波束滤波器;
分别对主方向波束频域信号YI(k,l)和唤醒方向波束频域信号YW(k,l)进行短时反傅里叶变换,得到主方向波束时域信号xI(n,l)和唤醒方向波束时域信号xW(n,l)。
于本发明一实施例中,所述超增益固定波束滤波器的系数预先通过仿真计算获得,其中干扰噪声假设为散射噪声,白噪声的增益根据需求进行设定。
同时,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述基于环形麦克风阵列的语音增强交互方法。
另外,本发明还提供一种电子设备,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述任一项所述基于环形麦克风阵列的语音增强交互方法。
如上所述,本发明的语音增强交互方法及系统、存储介质及电子设备,具有以下有益效果:
(1)通过设计主方向和唤醒方向两路波束信号来提高语音交互的稳定性,仅当干扰方向声源为唤醒词时才将正在进行语音识别的主方向切换为唤醒方向,避免了其他方向非唤醒词干扰;
(2)将波束形成与声源定位相结合,即波束形成和声源定位使用相同的波束滤波器进行波束扫描;
(3)在声源定位中,通过有效频段扫描以及根据扫描能量大小进行多方向平滑的方法提高了声源定位在混响等复杂环境下的鲁棒性和准确性;
(4)由于波束滤波器为预先离线计算获得,扫描频段设置为较窄的有效波束频段,故计算复杂度相对较小,在实际嵌入式系统中可以有效地进行实时处理。
附图说明
图1显示为本发明的基于环形麦克风阵列的语音增强交互方法的流程图;
图2显示为本发明的获取唤醒方向的流程图;
图3显示为本发明的基于环形麦克风阵列的语音增强交互系统的结构示意图;
图4显示为本发明的电子设备的结构示意图。
元件标号说明
1 转换模块
2 抑制模块
3 第一获取模块
4 第二获取模块
5 语音识别模块
41 处理器
42 存储器
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,本发明的基于环形麦克风阵列的语音增强交互方法包括以下步骤:
步骤S1、将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号。
设麦克风信号的采样率为Fs,环形麦克风阵列中包含的麦克风个数为M个,麦克风的时域信号为xi(n),麦克风的频域信号为Xi(k,l),其中下标索引i表示第i个麦克风,n表示时域样点索引号,k表示频域样点索引号,l表示当前帧号,i取值为1~M的自然数。
具体地,对环形麦克风阵列中各个麦克风的时域信号xi(n)进行分帧加窗以及短时傅里叶变换,得到各个麦克风的频域信号Xi(k,l)。其中,帧长N的设置通常与采样率Fs有关。例如,当采样率Fs为16000Hz时,可选择帧长N为512点,帧间移动为128点,窗型可选择旁瓣较小的汉明窗。
需要说明的是,对于本领域技术人员而言,分帧加窗以及短时傅里叶变换均为成熟的现有技术,故在此不再赘述。
步骤S2、在频域对各个麦克风的频域信号进行混响抑制和平稳噪声抑制,得到去除混响和平稳噪声的各个麦克风的频域信号。
本发明采用谱增强方法进行混响抑制和平稳噪声抑制。具体地,以交互空间的混响时间为先验知识,建立统计模型,进行后混响方差估计,同时采用最小值跟踪算法进行噪声估计;然后将估计得到的后混响方差和噪声方差作为输入,采用改进型最小均方误差(MMSE)方法计算语音增强增益Gi(k,l),最后根据X′i(k,l)=Xi(k,l)×Gi(k,l)去除混响和平稳噪声。其中,X′i(k,l)表示去除混响和平稳噪声的各个麦克风的频域信号。
其中,交互空间可以为客厅、卧室、展厅等等。不同的交互空间都有一个混响时间,就是各种墙壁反射等等,表象就是就是指声音传到人耳朵后,还有余音多长时间。算法具体实现时,通常将混响时间设置成一个能囊括生活中大多数交互空间的一个经验值,如0.5秒。
需要说明的是,谱增强方法降噪和去混响仅为本发明所采用的一种方法,但并不限定为该方法。凡是能够实现混响去除和噪声平稳的方法均在本发明的保护范围之列。
步骤S3、基于去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位,获取唤醒方向。
具体地,对可能出现的唤醒方向进行搜索扫描,即以一定的分辨率对360度方向进行波束扫描,并分别计算扫描方向特定频段的波束能量,然后根据扫描方向波束能量的大小来确定声源方向。
如图2所示,步骤S3包括以下步骤:
31)设定扫描方向θj及扫描频段[Kl,Kh]。
其中,根据精度和复杂度要求可设定扫描方向的个数,例如,设定扫描个数Sn为18,采用均匀扫描,则扫描方向表示为
Figure BDA0001294496430000081
j表示扫描方向索引。扫描频段可根据超增益固定波束滤波器波束效果较好的频段进行设计,如在300Hz到3500Hz频段内进行。
合理设计频段范围不仅可以提高定位精度,同时可以减少复杂度。频段起始频率Fl和终止频率Fh对应的频域索引Kl和Kh的计算方法如下所示,
Kl=floor(Fl/Fs×N)
Kh=floor(Fh/Fs×N)
其中floor()表示向下取整运算。
32)基于去除混响和平稳噪声的各个麦克风的频域信号,在各个扫描方向的扫描频段上进行波束滤波,并计算各个扫描方向的扫描频段上波束滤波后的能量值。
其中,各扫描方向上的波束形成方法采用超增益固定波束形成方法。各方向的超增益固定波束滤波器系数预先通过仿真计算获得,其中干扰噪声假设为散射噪声,白噪声增益的设置可根据需求进行设定。在实际计算过程中,将各方向的超增益固定波束滤波器系数存入文件,在算法进行初始化时可一次性读入内存。
具体地,在内存中读取扫描方向θj对应的超增益固定波束滤波器
Figure BDA0001294496430000082
基于去除混响和平稳噪声的各个麦克风的频域信号,对Kl和Kh频段进行波束滤波,并计算各个扫描方向对应的扫描频段上波束滤波后的能量值
Figure BDA0001294496430000083
33)计算各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和。
具体地,一定时间片即一定帧数内,时间片T大小的选择可根据声源移动的响应速度来设计,也就是假设声源不会发生大角度移动的时间范围。例如,设置T=0.5秒,即假设0.5秒内声源不会发生大角度移动。该时间片所对应的帧数L=floor(T×Fs/N),进而各个扫描方向时间片内的波束频段能量和为
Figure BDA0001294496430000091
34)搜索各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和S(θj,l)中前三个能量大值对应的扫描方向。
具体地,采用θm1、θm2和θm3分别表示能量第一大值、第二大值和第三大值所对应的扫描方向。
35)对前三个能量大值对应的扫描方向进行平滑,获取唤醒方向。
其中,θΔ为预设最大误差角,当θm1、θm2和θm3彼此间的夹角小于θΔ时,进行平滑,否则不进行平滑。
具体地,包括以下步骤:
a、根据
Figure BDA0001294496430000092
对θm1和θm2进行平滑操作,得到θ12
b、根据
Figure BDA0001294496430000093
对θ12和θm3进行平滑操作,得到唤醒方向θW,其中α为预设平滑系数,取值0到1之间,一般取靠近1,如0.94。
步骤S4、在主方向和唤醒方向基于去除混响和平稳噪声的各个麦克风的频域信号,获取主方向波束时域信号和唤醒方向波束时域信号;其中主方向为当前正在拾音的目标方向。
本发明采用的波束形成方法为超增益固定波束形成方法,与获取唤醒方向时采用的波束形成方法相同,不同的只是针对的频段不同。各方向的超增益固定波束滤波器系数预先通过仿真计算获得,其中干扰噪声假设为散射噪声,白噪声增益的设置可根据需求进行设定。
对于环形阵列来说,其方向的分辨率可根据环形麦克风的个数以及设计的固定波束宽度来决定。例如,当麦克风阵列中麦克风的个数为6个时,可选择每10度角设计一个超增益固定波束滤波器,这样360度需要设计36个超增益固定波束滤波器系数。设计好的超增益固定波束滤波器系数用Wθ(k,i)表示,其中θ表示超增益固定波束滤波器对应的目标方向。在实际计算过程中,将各方向的超增益固定波束滤波器系数存入文件,在算法进行初始化时可一次性读入内存。
具体地,主方向和唤醒方向分别用θI和θW表示,主方向和唤醒方向对应的超增益固定波束滤波器分别用
Figure BDA0001294496430000101
Figure BDA0001294496430000102
表示,则根据
Figure BDA0001294496430000103
对主方向上去除混响和平稳噪声的各个麦克风的频域信号进行频域波束滤波,得到主方向波束频域信号YI(k,l);根据
Figure BDA0001294496430000104
对唤醒方向上去除混响和平稳噪声的各个麦克风的频域信号进行频域波束滤波,得到唤醒方向波束频域信号YW(k,l);最后分别将主方向波束频域信号YI(k,l)和唤醒方向波束频域信号YW(k,l)进行短时反傅里叶变换,从而得到主方向波束时域信号xI(n,l)和唤醒方向波束时域信号xW(n,l)。
其中,主方向为当前正在拾音的目标方向,即上一个唤醒方向或初始化方向。
步骤S5、对各个麦克风的主方向波束时域信号进行语音识别;对各个麦克风的唤醒方向波束时域信号进行唤醒词识别,若识别为唤醒词,则将主方向更改为所获取的唤醒方向,并基于更改后的主方向上各个麦克风的的波束时域信号进行语音识别。
具体地,对各个麦克风的唤醒方向波束时域信号进行唤醒词识别时,采用现有常见的唤醒词识别技术,其输出为唤醒词存在标志Flag。当输出存在唤醒词即Flag为1时,则将主方向替换为当前唤醒方向;当输出存在唤醒词即Flag不为1时,则不变更主方向。具体算法如下式所示:
Figure BDA0001294496430000105
如图3所示,本发明的基于环形麦克风阵列的语音增强交互系统包括转换模块1、抑制模块2、第一获取模块3、第二获取模块4和语音识别模块5。
转换模块1用于将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号。
设麦克风信号的采样率为Fs,环形麦克风阵列中包含的麦克风个数为M个,麦克风的时域信号为xi(n),麦克风的频域信号为Xi(k,l),其中下标索引i表示第i个麦克风,n表示时域样点索引号,k表示频域样点索引号,l表示当前帧号,i取值为1~M的自然数。
具体地,对环形麦克风阵列中各个麦克风的时域信号xi(n)进行分帧加窗以及短时傅里叶变换,得到各个麦克风的频域信号Xi(k,l)。其中,帧长N的设置通常与采样率Fs有关。例如,当采样率Fs为16000Hz时,可选择帧长N为512点,帧间移动为128点,窗型可选择旁瓣较小的汉明窗。
需要说明的是,对于本领域技术人员而言,分帧加窗以及短时傅里叶变换均为成熟的现有技术,故在此不再赘述。
抑制模块2与转换模块1相连,用于在频域对各个麦克风的频域信号进行混响抑制和平稳噪声抑制,得到去除混响和平稳噪声的各个麦克风的频域信号。
本发明采用谱增强方法进行混响抑制和平稳噪声抑制。具体地,以交互空间的混响时间为先验知识,建立统计模型,进行后混响方差估计,同时采用最小值跟踪算法进行噪声估计;然后将估计得到的后混响方差和噪声方差作为输入,采用改进型最小均方误差(MMSE)方法计算语音增强增益Gi(k,l),最后根据X′i(k,l)=Xi(k,l)×Gi(k,l)去除混响和平稳噪声。其中,X′i(k,l)表示去除混响和平稳噪声的各个麦克风的频域信号。
其中,交互空间可以为客厅、卧室、展厅等等。不同的交互空间都有一个混响时间,就是各种墙壁反射等等,表象就是就是指声音传到人耳朵后,还有余音多长时间。算法具体实现时,通常将混响时间设置成一个能囊括生活中大多数交互空间的一个经验值,如0.5秒。
需要说明的是,谱增强方法降噪和去混响仅为本发明所采用的一种方法,但并不限定为该方法。凡是能够实现混响去除和噪声平稳的方法均在本发明的保护范围之列。
第一获取模块3与抑制模块2相连,用于基于去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位,获取唤醒方向。
具体地,对可能出现的唤醒方向进行搜索扫描,即以一定的分辨率对360度方向进行波束扫描,并分别计算扫描方向特定频段的波束能量,然后根据扫描方向波束能量的大小来确定声源方向。
如图2所示,第一获取模块3执行以下操作:
31)设定扫描方向θj及扫描频段[Kl,Kh]。
其中,根据精度和复杂度要求可设定扫描方向的个数,例如,设定扫描个数Sn为18,采用均匀扫描,则扫描方向表示为
Figure BDA0001294496430000111
j表示扫描方向索引。扫描频段可根据超增益固定波束滤波器波束效果较好的频段进行设计,如在300Hz到3500Hz频段内进行。
合理设计频段范围不仅可以提高定位精度,同时可以减少复杂度。频段起始频率Fl和终止频率Fh对应的频域索引Kl和Kh的计算方法如下所示,
Kl=floor(Fl/Fs×N)
Kh=floor((Fh/Fs×N)
其中floor()表示向下取整运算。
32)基于去除混响和平稳噪声的各个麦克风的频域信号,在各个扫描方向的扫描频段上进行波束滤波,并计算各个扫描方向的扫描频段上波束滤波后的能量值。
其中,各扫描方向上的波束形成方法采用超增益固定波束形成方法。各方向的超增益固定波束滤波器系数预先通过仿真计算获得,其中干扰噪声假设为散射噪声,白噪声增益的设置可根据需求进行设定。在实际计算过程中,将各方向的超增益固定波束滤波器系数存入文件,在算法进行初始化时可一次性读入内存。
具体地,在内存中读取扫描方向θj对应的超增益固定波束滤波器
Figure BDA0001294496430000121
(k,i),基于去除混响和平稳噪声的各个麦克风的频域信号,对Kl和Kh频段进行波束滤波,并计算各个扫描方向对应的扫描频段上波束滤波后的能量值
Figure BDA0001294496430000122
33)计算各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和。
具体地,一定时间片即一定帧数内,时间片T大小的选择可根据声源移动的响应速度来设计,也就是假设声源不会发生大角度移动的时间范围。例如,设置T=0.5秒,即假设0.5秒内声源不会发生大角度移动。该时间片所对应的帧数L=floor(T×Fs/N),进而各个扫描方向时间片内的波束频段能量和为
Figure BDA0001294496430000123
34)搜索各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和S(θj,l)中前三个能量大值对应的扫描方向。
具体地,采用θm1、θm2和θm3分别表示能量第一大值、第二大值和第三大值所对应的扫描方向。
35)对前三个能量大值对应的扫描方向进行平滑,获取唤醒方向。
其中,θΔ为预设最大误差角,当θm1、θm2和θm3彼此间的夹角小于θΔ时,进行平滑,否则不进行平滑。
具体地,包括以下步骤:
a、根据
Figure BDA0001294496430000124
对θm1和θm2进行平滑操作,得到θ12
b、根据
Figure BDA0001294496430000131
对θ12和θm3进行平滑操作,得到唤醒方向θW,其中α为预设平滑系数,取值0到1之间,一般取靠近1,如0.94。
第二获取模块4和抑制模块2和第一获取模块3相连,用于在主方向和唤醒方向基于去除混响和平稳噪声的各个麦克风的频域信号,获取主方向波束时域信号和唤醒方向波束时域信号;其中主方向为当前正在拾音的目标方向。
本发明采用的波束形成方法为超增益固定波束形成方法,与获取唤醒方向时采用的波束形成方法相同,不同的只是针对的频段不同。各方向的超增益固定波束滤波器系数预先通过仿真计算获得,其中干扰噪声假设为散射噪声,白噪声增益的设置可根据需求进行设定。
对于环形阵列来说,其方向的分辨率可根据环形麦克风的个数以及设计的固定波束宽度来决定。例如,当麦克风阵列中麦克风的个数为6个时,可选择每10度角设计一个超增益固定波束滤波器,这样360度需要设计36个超增益固定波束滤波器系数。设计好的超增益固定波束滤波器系数用Wθ(k,i)表示,其中θ表示超增益固定波束滤波器对应的目标方向。在实际计算过程中,将各方向的超增益固定波束滤波器系数存入文件,在算法进行初始化时可一次性读入内存。
具体地,主方向和唤醒方向分别用θI和θW表示,主方向和唤醒方向对应的超增益固定波束滤波器分别用
Figure BDA0001294496430000132
Figure BDA0001294496430000133
表示,则根据
Figure BDA0001294496430000134
对主方向上去除混响和平稳噪声的各个麦克风的频域信号进行频域波束滤波,得到主方向波束频域信号YI(k,l);根据
Figure BDA0001294496430000135
对唤醒方向上去除混响和平稳噪声的各个麦克风的频域信号进行频域波束滤波,得到唤醒方向波束频域信号YW(k,l);最后分别将主方向波束频域信号YI(k,l)和唤醒方向波束频域信号YW(k,l)进行短时反傅里叶变换,从而得到主方向波束时域信号xI(n,l)和唤醒方向波束时域信号xW(n,l)。
其中,主方向为当前正在拾音的目标方向,即上一个唤醒方向或初始化方向。
语音识别模块5与第二获取模块4相连,用于对各个麦克风的主方向波束时域信号进行语音识别;对各个麦克风的唤醒方向波束时域信号进行唤醒词识别,若识别为唤醒词,则将主方向更改为所获取的唤醒方向,并基于更改后的主方向上各个麦克风的的波束时域信号进行语音识别。
具体地,对各个麦克风的唤醒方向波束时域信号进行唤醒词识别时,采用现有常见的唤醒词识别技术,其输出为唤醒词存在标志Flag。当输出存在唤醒词即Flag为1时,则将主方向替换为当前唤醒方向;当输出存在唤醒词即Flag不为1时,则不变更主方向。具体算法如下式所示:
Figure BDA0001294496430000141
同时,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于环形麦克风阵列的语音增强交互方法。
其中,计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图4所示,本发明还的电子设备包括处理器41及存储器42;
存储器42用于存储计算机程序.
处理器41用于执行存储器42存储的计算机程序,以使所述电子设备执行上述基于环形麦克风阵列的语音增强交互方法。
综上所述,本发明的语音增强交互方法及系统、存储介质及电子设备通过设计主方向和唤醒方向两路波束信号来提高语音交互的稳定性,仅当干扰方向声源为唤醒词时才将正在进行语音识别的主方向切换为唤醒方向;将波束形成与声源定位相结合,即波束形成和声源定位使用相同的波束滤波器进行波束扫描;在声源定位中,通过有效频段扫描以及根据扫描能量大小进行多方向平滑的方法提高了声源定位在混响等复杂环境下的鲁棒性和准确性;由于波束滤波器为预先离线计算获得,扫描频段设置为较窄的有效波束频段,故计算复杂度相对较小,在实际嵌入式系统中可以有效地进行实时处理。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (12)

1.一种基于环形麦克风阵列的语音增强交互方法,其特征在于:包括以下步骤:
将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号;
在频域对所述各个麦克风的频域信号进行混响抑制和平稳噪声抑制,得到去除混响和平稳噪声的各个麦克风的频域信号;
基于所述去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位,获取唤醒方向;
在主方向和唤醒方向基于所述去除混响和平稳噪声的各个麦克风的频域信号,获取主方向波束时域信号和唤醒方向波束时域信号;所述主方向为当前正在拾音的目标方向;
对所述主方向波束时域信号进行语音识别;对所述唤醒方向波束时域信号进行唤醒词识别,若识别为唤醒词,则将主方向更改为所获取的唤醒方向,并基于更改后的主方向对应的主方向波束时域信号进行语音识别;
对环形麦克风阵列中各个麦克风的时域信号xi(n)进行分帧加窗以及短时傅里叶变换,得到各个麦克风的频域信号Xi(k,l),其中i表示第i个麦克风,n表示时域样点索引号,k表示频域样点索引号,l表示当前帧号,i取值为1~M的自然数,M为麦克风的个数;
获取所述唤醒方向包括以下步骤:
设定扫描方向θj及扫描频段[Kl,Kh],其中
Figure FDA0002947933390000011
Sn为扫描个数;
基于去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l),在各个扫描方向θj的扫描频段上进行波束滤波,并计算各个扫描方向对应的扫描频段上波束滤波后的能量值
Figure FDA0002947933390000012
其中
Figure FDA0002947933390000013
为扫描方向θj对应的超增益固定波束滤波器;
计算各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和
Figure FDA0002947933390000014
其中L为一定时间片T所对应的帧数,L=floor(T×Fs/N),N为帧长,Fs为麦克风信号的采样率,floor()表示向下取整运算;
搜索各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和S(θj,l)中前三个能量大值对应的扫描方向;其中θm1、θm2和θm3分别表示能量第一大值、第二大值和第三大值所对应的扫描方向;
对前三个能量大值对应的扫描方向进行平滑,获取唤醒方向θW
2.根据权利要求1所述的基于环形麦克风阵列的语音增强交互方法,其特征在于:对所述各个麦克风的频域信号Xi(k,l)进行混响抑制和平稳噪声抑制时,以交互空间的混响时间为先验知识,建立统计模型,进行后混响方差估计,同时采用最小值跟踪算法进行噪声估计;然后将估计得到的后混响方差和噪声方差作为输入,采用改进型最小均方误差方法计算语音增强增益Gi(k,l),最后根据X′i(k,l)=Xi(k,l)×Gi(k,l)得到去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l)。
3.根据权利要求1所述的基于环形麦克风阵列的语音增强交互方法,其特征在于:对前三个能量大值对应的扫描方向进行平滑,获取唤醒方向θW包括以下步骤:
根据
Figure FDA0002947933390000021
对θm1和θm2进行平滑操作,得到θ12,其中θΔ为预设最大误差角;
根据
Figure FDA0002947933390000022
对θ12和θm3进行平滑操作,得到唤醒方向θW,其中α为预设平滑系数。
4.根据权利要求1所述的基于环形麦克风阵列的语音增强交互方法,其特征在于:获取主方向波束时域信号xI(n,l)和唤醒方向波束时域信号xW(n,l)时,包括以下步骤:
根据
Figure FDA0002947933390000023
对主方向上去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l)进行频域波束滤波,得到滤波后的主方向波束频域信号YI(k,l);根据
Figure FDA0002947933390000024
对唤醒方向上去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l)进行频域波束滤波,得到滤波后的唤醒方向波束频域信号YW(k,l);其中,
Figure FDA0002947933390000025
Figure FDA0002947933390000026
分别表示主方向θI和唤醒方向θW对应的超增益固定波束滤波器;
分别对主方向波束频域信号YI(k,l)和唤醒方向波束频域信号YW(k,l)进行短时反傅里叶变换,得到主方向波束时域信号xI(n,l)和唤醒方向波束时域信号xW(n,l)。
5.根据权利要求1或4所述的基于环形麦克风阵列的语音增强交互方法,其特征在于:所述超增益固定波束滤波器的系数预先通过仿真计算获得,其中干扰噪声假设为散射噪声,白噪声的增益根据需求进行设定。
6.一种基于环形麦克风阵列的语音增强交互系统,其特征在于:包括转换模块、抑制模块、第一获取模块、第二获取模块和语音识别模块;
转换模块用于将环形麦克风阵列中各个麦克风的时域信号转换为各个麦克风的频域信号;
抑制模块用于在频域对所述各个麦克风的频域信号进行混响抑制和平稳噪声抑制,得到去除混响和平稳噪声的各个麦克风的频域信号;
第一获取模块用于基于所述去除混响和平稳噪声的各个麦克风的频域信号进行唤醒方向声源定位,获取唤醒方向;
第二获取模块用于在主方向和唤醒方向基于所述去除混响和平稳噪声的各个麦克风的频域信号,获取主方向波束时域信号和唤醒方向波束时域信号;所述主方向为当前正在拾音的目标方向;
语音识别模块用于对所述主方向波束时域信号进行语音识别;对所述唤醒方向波束时域信号进行唤醒词识别,若识别为唤醒词,则将主方向更改为所获取的唤醒方向,并基于更改后的主方向对应的主方向波束时域信号进行语音识别;
所述转换模块对环形麦克风阵列中各个麦克风的时域信号xi(n)进行分帧加窗以及短时傅里叶变换,得到各个麦克风的频域信号Xi(k,l),其中i表示第i个麦克风,n表示时域样点索引号,k表示频域样点索引号,l表示当前帧号,i取值为1~M的自然数,M为麦克风的个数;
所述第一获取模块执行以下操作:
设定扫描方向θj及扫描频段[Kl,Kh],其中
Figure FDA0002947933390000031
Sn为扫描个数;
基于去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l),在各个扫描方向θj的扫描频段上进行波束滤波,并计算各个扫描方向对应的扫描频段上波束滤波后的能量值
Figure FDA0002947933390000032
其中
Figure FDA0002947933390000033
为扫描方向θj对应的超增益固定波束滤波器;
计算各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和
Figure FDA0002947933390000041
其中L为一定时间片T所对应的帧数,L=floor(T×Fs/N),N为帧长,Fs为麦克风信号的采样率,floor()表示向下取整运算;
搜索各个扫描方向的扫描频段上一定时间片内的波束滤波后的能量值之和S(θj,l)中前三个能量大值对应的扫描方向;其中θm1、θm2和θm3分别表示能量第一大值、第二大值和第三大值所对应的扫描方向;
对前三个能量大值对应的扫描方向进行平滑,获取唤醒方向θW
7.根据权利要求6所述的基于环形麦克风阵列的语音增强交互系统,其特征在于:所述抑制模块对所述各个麦克风的频域信号Xi(k,l)进行混响抑制和平稳噪声抑制时,以交互空间的混响时间为先验知识,建立统计模型,进行后混响方差估计,同时采用最小值跟踪算法进行噪声估计;然后将估计得到的后混响方差和噪声方差作为输入,采用改进型最小均方误差方法计算语音增强增益Gi(k,l),最后根据X′i(k,l)=Xi(k,l)×Gi(k,l)得到去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l)。
8.根据权利要求6所述的基于环形麦克风阵列的语音增强交互系统,其特征在于:对前三个能量大值对应的扫描方向进行平滑,获取唤醒方向θW包括以下步骤:
根据
Figure FDA0002947933390000042
对θm1和θm2进行平滑操作,得到θ12,其中θΔ为预设最大误差角;
根据
Figure FDA0002947933390000043
对θ12和θm3进行平滑操作,得到唤醒方向θW,其中α为预设平滑系数。
9.根据权利要求6所述的基于环形麦克风阵列的语音增强交互系统,其特征在于:所述第二获取模块执行以下操作:
根据
Figure FDA0002947933390000044
对主方向上去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l)进行频域波束滤波,得到滤波后的主方向波束频域信号YI(k,l);根据
Figure FDA0002947933390000051
对唤醒方向上去除混响和平稳噪声的各个麦克风的频域信号X′i(k,l)进行频域波束滤波,得到滤波后的唤醒方向波束频域信号YW(k,l);其中,
Figure FDA0002947933390000052
Figure FDA0002947933390000053
分别表示主方向θI和唤醒方向θW对应的超增益固定波束滤波器;
分别对主方向波束频域信号YI(k,l)和唤醒方向波束频域信号YW(k,l)进行短时反傅里叶变换,得到主方向波束时域信号xI(n,l)和唤醒方向波束时域信号xW(n,l)。
10.根据权利要求6或9所述的基于环形麦克风阵列的语音增强交互系统,其特征在于:所述超增益固定波束滤波器的系数预先通过仿真计算获得,其中干扰噪声假设为散射噪声,白噪声的增益根据需求进行设定。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5中任一项所述基于环形麦克风阵列的语音增强交互方法。
12.一种电子设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权利要求1至5中任一项所述基于环形麦克风阵列的语音增强交互方法。
CN201710338190.1A 2017-05-15 2017-05-15 一种语音增强交互方法及系统、存储介质及电子设备 Active CN108877827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710338190.1A CN108877827B (zh) 2017-05-15 2017-05-15 一种语音增强交互方法及系统、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710338190.1A CN108877827B (zh) 2017-05-15 2017-05-15 一种语音增强交互方法及系统、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN108877827A CN108877827A (zh) 2018-11-23
CN108877827B true CN108877827B (zh) 2021-04-20

Family

ID=64320419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710338190.1A Active CN108877827B (zh) 2017-05-15 2017-05-15 一种语音增强交互方法及系统、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN108877827B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11961522B2 (en) 2018-11-28 2024-04-16 Samsung Electronics Co., Ltd. Voice recognition device and method
KR20200063984A (ko) * 2018-11-28 2020-06-05 삼성전자주식회사 음성 인식 장치 및 방법
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法
CN109817209B (zh) * 2019-01-16 2020-09-25 深圳市友杰智新科技有限公司 一种基于双麦克风阵列的智能语音交互系统
CN111627425B (zh) * 2019-02-12 2023-11-28 阿里巴巴集团控股有限公司 一种语音识别方法及系统
CN113990320A (zh) * 2019-03-11 2022-01-28 阿波罗智联(北京)科技有限公司 语音识别方法、装置、设备和存储介质
CN109920442B (zh) * 2019-03-15 2021-07-30 厦门大学 一种麦克风阵列语音增强的方法和系统
CN110085258B (zh) * 2019-04-02 2023-11-14 深圳Tcl新技术有限公司 一种提高远场语音识别率的方法、系统及可读存储介质
CN109979185B (zh) * 2019-04-11 2020-08-14 杭州微纳科技股份有限公司 一种远场语音输入装置
CN110223708B (zh) * 2019-05-07 2023-05-30 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
KR20200132613A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치
CN112216295B (zh) * 2019-06-25 2024-04-26 大众问问(北京)信息科技有限公司 一种声源定位方法、装置及设备
CN112216298B (zh) * 2019-07-12 2024-04-26 大众问问(北京)信息科技有限公司 双麦克风阵列声源定向方法、装置及设备
CN110265020B (zh) * 2019-07-12 2021-07-06 大象声科(深圳)科技有限公司 语音唤醒方法、装置及电子设备、存储介质
CN110517702B (zh) * 2019-09-06 2022-10-04 腾讯科技(深圳)有限公司 信号生成的方法、基于人工智能的语音识别方法及装置
CN111078185A (zh) * 2019-12-26 2020-04-28 珠海格力电器股份有限公司 录制声音的方法及设备
CN114143668A (zh) * 2020-09-04 2022-03-04 阿里巴巴集团控股有限公司 音频信号处理、混响检测和会议方法、设备及存储介质
CN113314135B (zh) * 2021-05-25 2024-04-26 北京小米移动软件有限公司 声音信号识别方法及装置
CN115171703B (zh) * 2022-05-30 2024-05-24 青岛海尔科技有限公司 分布式语音唤醒方法和装置、存储介质及电子装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102164328A (zh) * 2010-12-29 2011-08-24 中国科学院声学研究所 一种用于家庭环境的基于传声器阵列的音频输入系统
CN102831898A (zh) * 2012-08-31 2012-12-19 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
CN102969002A (zh) * 2012-11-28 2013-03-13 厦门大学 一种可抑制移动噪声的麦克风阵列语音增强装置
CN104936091A (zh) * 2015-05-14 2015-09-23 科大讯飞股份有限公司 基于圆形麦克风阵列的智能交互方法及系统
CN105679329A (zh) * 2016-02-04 2016-06-15 厦门大学 可适应强烈背景噪声的麦克风阵列语音增强装置
CN106098075A (zh) * 2016-08-08 2016-11-09 腾讯科技(深圳)有限公司 基于麦克风阵列的音频采集方法和装置
CN106531179A (zh) * 2015-09-10 2017-03-22 中国科学院声学研究所 一种基于语义先验的选择性注意的多通道语音增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9531948B2 (en) * 2013-01-09 2016-12-27 Lg Electronics Inc. Voice tracking apparatus and control method therefor

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102164328A (zh) * 2010-12-29 2011-08-24 中国科学院声学研究所 一种用于家庭环境的基于传声器阵列的音频输入系统
CN102831898A (zh) * 2012-08-31 2012-12-19 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
CN102969002A (zh) * 2012-11-28 2013-03-13 厦门大学 一种可抑制移动噪声的麦克风阵列语音增强装置
CN104936091A (zh) * 2015-05-14 2015-09-23 科大讯飞股份有限公司 基于圆形麦克风阵列的智能交互方法及系统
CN106531179A (zh) * 2015-09-10 2017-03-22 中国科学院声学研究所 一种基于语义先验的选择性注意的多通道语音增强方法
CN105679329A (zh) * 2016-02-04 2016-06-15 厦门大学 可适应强烈背景噪声的麦克风阵列语音增强装置
CN106098075A (zh) * 2016-08-08 2016-11-09 腾讯科技(深圳)有限公司 基于麦克风阵列的音频采集方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于麦克风阵列的声源定位与语音增强方法研究;崔玮玮;《中国博士学位论文全文数据库 信息科技辑》;20100215(第02期);I136-6 *

Also Published As

Publication number Publication date
CN108877827A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108877827B (zh) 一种语音增强交互方法及系统、存储介质及电子设备
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN109671433B (zh) 一种关键词的检测方法以及相关装置
CN109597022B (zh) 声源方位角运算、定位目标音频的方法、装置和设备
CN107221336B (zh) 一种增强目标语音的装置及其方法
CN108122563B (zh) 提高语音唤醒率及修正doa的方法
CN109102822B (zh) 一种基于固定波束形成的滤波方法及装置
WO2020103703A1 (zh) 一种音频数据处理方法、装置、设备及存储介质
Benesty et al. Speech enhancement in the STFT domain
CN109215677B (zh) 一种适用于语音和音频的风噪检测和抑制方法和装置
CN104854878B (zh) 使用双麦克风阵列抑制空间干扰的设备、方法和计算机介质
CN111916101B (zh) 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
CN110660406A (zh) 近距离交谈场景下双麦克风移动电话的实时语音降噪方法
CN113077806B (zh) 音频处理方法及装置、模型训练方法及装置、介质和设备
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
CN110660407A (zh) 一种音频处理方法及装置
Bai et al. Audio enhancement and intelligent classification of household sound events using a sparsely deployed array
CN113160846B (zh) 噪声抑制方法和电子设备
CN112712818A (zh) 语音增强方法、装置、设备
CN113782044A (zh) 一种语音增强方法及装置
WO2020078210A1 (zh) 混响语音信号中后混响功率谱的自适应估计方法及装置
Jaroslavceva et al. Robot Ego‐Noise Suppression with Labanotation‐Template Subtraction
CN107393553B (zh) 用于语音活动检测的听觉特征提取方法
Jafari et al. Evaluations on underdetermined blind source separation in adverse environments using time-frequency masking
Wang et al. A reverberation robust target speech detection method using dual-microphone in distant-talking scene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 350003 building 18, No.89, software Avenue, Gulou District, Fuzhou City, Fujian Province

Patentee after: Ruixin Microelectronics Co.,Ltd.

Address before: 350003 Fuzhou City, Fujian Province building 18, No. 89, software Avenue, Gulou District, Fuzhou City, Fujian Province

Patentee before: FUZHOU ROCKCHIP ELECTRONICS Co.,Ltd.

CP03 Change of name, title or address