CN105427860A - 远场语音识别方法和装置 - Google Patents

远场语音识别方法和装置 Download PDF

Info

Publication number
CN105427860A
CN105427860A CN201510768005.3A CN201510768005A CN105427860A CN 105427860 A CN105427860 A CN 105427860A CN 201510768005 A CN201510768005 A CN 201510768005A CN 105427860 A CN105427860 A CN 105427860A
Authority
CN
China
Prior art keywords
far field
identified
signal
road
far
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510768005.3A
Other languages
English (en)
Other versions
CN105427860B (zh
Inventor
宋辉
魏建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510768005.3A priority Critical patent/CN105427860B/zh
Publication of CN105427860A publication Critical patent/CN105427860A/zh
Application granted granted Critical
Publication of CN105427860B publication Critical patent/CN105427860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提出一种远场语音识别方法和装置,该远场语音识别方法包括:将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号;通过远场识别的声学模型对所述待识别的信号进行识别。本发明对远场语音进行识别时所采用的远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配,从而可以提升远场语音识别的识别性能。

Description

远场语音识别方法和装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种远场语音识别方法和装置。
背景技术
远场语音识别,即远距离语音识别,在以智能家居为代表的多种领域的诉求越来越明显。目前,近场语音识别已经能够达到很高的识别率,但是远场语音识别,尤其是说话人距离麦克风3至5米的距离,由于噪声和/或混响等干扰因素的影响,识别率远远低于近场语音识别。
远场识别性能之所以下降如此明显,是由于在远场场景下,语音信号幅度过低,噪声和/或混响等其他干扰因素凸显,而识别系统中的声学模型通常是由近场语音数据训练生成,识别数据和训练数据的不匹配导致远场语音识别率迅速下降。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种远场语音识别方法。该方法中,对远场语音进行识别时所采用的远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配,从而可以提升远场语音识别的识别性能。
本发明的第二个目的在于提出一种远场语音识别装置。
为了实现上述目的,本发明第一方面实施例的远场语音识别方法,包括:将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号;通过远场识别的声学模型对所述待识别的信号进行识别。
本发明实施例的远场语音识别方法中,将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号,然后通过远场识别的声学模型对所述待识别的信号进行识别,其中,上述远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配,从而可以提升远场语音识别的识别性能。
为了实现上述目的,本发明第二方面实施例的远场语音识别装置,包括:获得模块,用于将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号;识别模块,用于通过远场识别的声学模型对所述获得模块获得的待识别的信号进行识别。
本发明实施例的远场语音识别装置中,获得模块将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号,然后识别模块通过远场识别的声学模型对所述待识别的信号进行识别,其中,上述远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配,从而可以提升远场语音识别的识别性能。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明远场语音识别方法一个实施例的流程图;
图2为本发明远场语音识别方法另一个实施例的流程图;
图3为本发明远场语音识别方法中冲激响应函数一个实施例的示意图;
图4为本发明远场语音识别装置一个实施例的结构示意图;
图5为本发明远场语音识别装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明远场语音识别方法一个实施例的流程图,如图1所示,上述远场语音识别方法可以包括:
步骤101,将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号。
步骤102,通过远场识别的声学模型对上述待识别的信号进行识别。
上述远场语音识别方法中,将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号,然后通过远场识别的声学模型对所述待识别的信号进行识别,其中,上述远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配,从而可以提升远场语音识别的识别性能。
图2为本发明远场语音识别方法另一个实施例的流程图,如图2所示,步骤102之前,还可以包括:
步骤201,确定远场声源到每一路麦克风之间的冲激响应函数。
具体地,确定远场声源到每一路麦克风之间的冲激响应函数可以为:根据远场语音识别的应用场景,确定麦克风阵列拓扑结构;根据上述麦克风阵列拓扑结构估计远场声源到每一路麦克风之间的冲激响应函数。
具体实现时,可以根据具体的识别任务,确定远场语音识别的应用场景。举例来说,比如要将远场语音识别应用在智能电视系统中,那么可以设计一种含有N=4路麦克风的均匀线性阵列,均匀的布置在电视机顶端。人与电视机(也就是与麦克风阵列)的距离大约为2至4米,这是一种典型的远场语音识别的场景。
确定了具体的应用场景和麦克风阵列拓扑结构之后,接下来需要估计远场声源到每一路麦克风之间的冲激响应函数。这一组冲激响应函数能够模拟原始声源经过空间传输和/或房间反射等影响,到达麦克风时的最终结果。说的再具体些,这一组冲激响应函数能够模拟远场空间的混响效应。
冲激响应函数的估计,可以利用数字信号处理理论获得。假设声源到第1路麦克风的冲激响应函数为h1(n),原始声源信号为x(n),则第1路麦克风的接收信号可以表示为:
y(n)=x(n)*h1(n)(1)
式(1)中,*表示卷积。
对式(1)等号两边进行傅立叶变换,可得:
Y(ω)=X(ω)H1(ω)(2)
对式(2)等号两边取共轭,可得:
Y * ( ω ) = X * ( ω ) H 1 * ( ω ) - - - ( 3 )
将式(2)与式(3)相乘,可得:
| Y 2 ( ω ) | = | X 2 ( ω ) | | H 1 2 ( ω ) | - - - ( 4 )
因此:
| H 1 2 ( ω ) | = | Y 2 ( ω ) | | X 2 ( ω ) | - - - ( 5 )
可以在声源处,播放一段白噪声声源,然后在第一个麦克风的位置接收白噪声信号,便可得到X(ω)和Y(ω),进而可以求出H1(ω)以及h1(n)。
利用同样的方法,可以估计出声源到另外三路麦克风之间的冲激响应函数h2(n)、h3(n)和h4(n)。
对于家居客厅环境,一个典型的冲激响应函数可以如图3所示,图3为本发明远场语音识别方法中冲激响应函数一个实施例的示意图。
步骤202,将上述冲激响应函数与近场训练数据相卷积,获得每一路麦克风接收到的模拟远场信号。
具体地,将近场训练数据s(n),与每一路冲激响应函数卷积,可以获得每一路麦克风接收到的模拟远场信号,如下所示:
xc1(n)=s(n)*h1(n)(6)
xc2(n)=s(n)*h2(n)(7)
xc3(n)=s(n)*h3(n)(8)
xc4(n)=s(n)*h4(n)(9)
这一步完成了训练数据从近场到远场的转换,从近场训练数据s(n)出发,得到了模拟远场信号xc1(n)~xc4(n)。每一路麦克风接收到的模拟远场信号都包含了声源到该路麦克风的冲激响应信息。换句话说,麦克风阵列的每一路模拟远场信号都是近场信号加入混响后的结果。
步骤203,将上述每一路麦克风接收到的模拟远场信号进行自适应波束形成处理,获得一路输出信号。
具体地,可以将上述每一路麦克风接收到的模拟远场信号xc1(n)~xc4(n),通过阵列处理模块,进行自适应波束形成处理。基于麦克风阵列的自适应波束形成有很多成熟的算法,本实施例对进行自适应波束形成处理时所采用的算法不作限定,但本实施例以采用基于广义旁瓣消除(GeneralizedSidelobeCanceler;GSC)的自适应波束形成方法为例进行说明。
采用GSC的自适应波束形成方法对目标声源方向进行增强处理,同时利用旁瓣消除能够抑制一部分来自其他方向的噪音和混响干扰信号,可以达到一定的抑制噪音和混响的作用。
最重要的是,在匹配训练阶段通过引入波束形成技术,使得输出信号中包含了阵列处理运算所产生的语音失真部分,利用上述输出信号重新训练获得的声学模型,除了可以“学习”到远场混响效应之外,还能够“学习”到波束形成处理所带来的语音变形效应,使得最终获得的远场识别的声学模型与待识别的信号更匹配,从而可以进一步改善远场识别性能。
步骤204,利用上述输出信号重新训练声学模型,获得远场识别的声学模型。
经过自适应波束形成处理后,可以得到一路输出信号。不难看出,这路输出信号既通过冲激响应函数的引入,模拟了远场混响效应,又通过自适应波束形成技术的引入,模拟了信号通过麦克风阵列处理后的失真效应,而这两点,恰好是远场识别与近场识别的两个最重要的不同点。利用上述输出信号重新训练声学模型,所获得的远场识别的声学模型,很好地学习了这两个重要的远场效应,使得上述远场识别的声学模型与待识别的信号更匹配,识别率也更高。
本实施例中,步骤201~步骤204与步骤101可以并行执行,也可以先后执行,但图2以步骤201~步骤204在步骤101之前执行为例示出。
获得上述远场识别的声学模型之后,在步骤101与步骤102的远场语音识别阶段,仍以在智能电视系统中进行远场语音识别为例,通过麦克风阵列接收到的4路待识别的远场语音,都是包含混响的信号,这一点已经通过卷积冲激响应函数的方式,灌输到了训练数据当中;将上述待识别的远场语音经过GSC自适应波束形成处理后,得到一路待识别的信号,然后通过上述远场识别的声学模型对这一路待识别的信号进行识别,这一路待识别的信号由于阵列处理的缘故,与原始信号相比产生一定的失真,这一点通过波束形成匹配训练技术也加入到了训练数据当中,所以本实施例中,待识别的信号与训练数据最大限度地实现了匹配。
此外,本实施例并没有真实录制大量的远场语音作为训练数据,虽然真实录制大量的远场语音作为训练数据是理论上最合理的训练方法,得到的模型也最匹配,但是这样做不仅浪费了大量的近场训练数据,而且要耗费大量的时间和人力来进行录制,成本极高,现实中几乎不可行。本实施例提供的远场语音识别方法利用已有的近场语音作为源头,产生和近场语音同等规模的模拟远场训练数据,既节省了大量的录音成本,又显著地改善了远场识别效果。
本实施例提供的远场语音识别方法中,一方面,通过冲激响应函数的引入,将远场数据的混响效应引入到训练数据中,另一方面,将波束形成技术引入到匹配训练当中,使得语音信号通过阵列处理产生的变形和失真,也引入到训练数据当中,从而最大限度地实现了训练数据和识别数据的匹配,从而有效改善了远场识别的性能。实验证明,该方法可用于任何远场识别任务中,对远场识别性能具有明显地改善。
图4为本发明远场语音识别装置一个实施例的结构示意图,图4所示的远场语音识别装置可以实现本发明图1所示实施例的流程。如图4所示,上述远场语音识别装置可以包括:获得模块41和识别模块42;
其中,获得模块41,用于将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号;
识别模块42,用于通过远场识别的声学模型对获得模块41获得的待识别的信号进行识别。
上述远场语音识别装置中,获得模块41将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号,然后识别模块42通过远场识别的声学模型对所述待识别的信号进行识别,其中,上述远场识别的声学模型能够与远场识别的输入语音信号实现真正匹配,从而可以提升远场语音识别的识别性能。
图5为本发明远场语音识别装置另一个实施例的结构示意图,与图4所示的远场语音识别装置相比,不同之处在于,图5所示的远场语音识别装置还可以包括:确定模块43和训练模块44;
其中,确定模块43,用于在识别模块42对获得模块41获得的待识别的信号进行识别之前,确定远场声源到每一路麦克风之间的冲激响应函数;
具体地,确定模块43可以包括:拓扑结构确定子模块431和估计子模块432;
其中,拓扑结构确定子模块431,用于根据远场语音识别的应用场景,确定麦克风阵列拓扑结构;
估计子模块432,用于根据拓扑结构确定子模块431确定的麦克风阵列拓扑结构估计远场声源到每一路麦克风之间的冲激响应函数。
具体实现时,可以根据具体的识别任务,确定远场语音识别的应用场景。举例来说,比如要将远场语音识别应用在智能电视系统中,那么可以设计一种含有N=4路麦克风的均匀线性阵列,均匀的布置在电视机顶端。人与电视机(也就是与麦克风阵列)的距离大约为2至4米,这是一种典型的远场语音识别的场景。
拓扑结构确定子模块431确定了具体的应用场景和麦克风阵列拓扑结构之后,接下来估计子模块432需要估计远场声源到每一路麦克风之间的冲激响应函数。这一组冲激响应函数能够模拟原始声源经过空间传输和/或房间反射等影响,到达麦克风时的最终结果。说的再具体些,这一组冲激响应函数能够模拟远场空间的混响效应。
冲激响应函数的估计,可以利用数字信号处理理论获得。假设声源到第1路麦克风的冲激响应函数为h1(n),原始声源信号为x(n),则第1路麦克风的接收信号可以表示为:
y(n)=x(n)*h1(n)(1)
式(1)中,*表示卷积。
对式(1)等号两边进行傅立叶变换,可得:
Y(ω)=X(ω)H1(ω)(2)
对式(2)等号两边取共轭,可得:
Y * ( ω ) = X * ( ω ) H 1 * ( ω ) - - - ( 3 )
将式(2)与式(3)相乘,可得:
| Y 2 ( ω ) | = | X 2 ( ω ) | | H 1 2 ( ω ) | - - - ( 4 )
因此:
| H 1 2 ( ω ) | = | Y 2 ( ω ) | | X 2 ( ω ) | - - - ( 5 )
可以在声源处,播放一段白噪声声源,然后在第一个麦克风的位置接收白噪声信号,便可得到X(ω)和Y(ω),进而可以求出H1(ω)以及h1(n)。
利用同样的方法,估计子模块432可以估计出声源到另外三路麦克风之间的冲激响应函数h2(n)、h3(n)和h4(n)。
对于家居客厅环境,一个典型的冲激响应函数可以如图3所示。
本实施例中,获得模块41,还用于将确定模块43确定的冲激响应函数与近场训练数据相卷积,获得每一路麦克风接收到的模拟远场信号;以及将上述每一路麦克风接收到的模拟远场信号进行自适应波束形成处理,获得一路输出信号。
具体地,获得模块41将近场训练数据s(n),与每一路冲激响应函数卷积,可以获得每一路麦克风接收到的模拟远场信号,如下所示:
xc1(n)=s(n)*h1(n)(6)
xc2(n)=s(n)*h2(n)(7)
xc3(n)=s(n)*h3(n)(8)
xc4(n)=s(n)*h4(n)(9)
这一步完成了训练数据从近场到远场的转换,从近场训练数据s(n)出发,得到了模拟远场信号xc1(n)~xc4(n)。每一路麦克风接收到的模拟远场信号都包含了声源到该路麦克风的冲激响应信息。换句话说,麦克风阵列的每一路模拟远场信号都是近场信号加入混响后的结果。
然后,获得模块41可以将上述每一路麦克风接收到的模拟远场信号xc1(n)~xc4(n),通过阵列处理模块,进行自适应波束形成处理。基于麦克风阵列的自适应波束形成有很多成熟的算法,本实施例对进行自适应波束形成处理时所采用的算法不作限定,但本实施例以采用基于广义旁瓣消除(GeneralizedSidelobeCanceler;GSC)的自适应波束形成方法为例进行说明。
采用GSC的自适应波束形成方法对目标声源方向进行增强处理,同时利用旁瓣消除能够抑制一部分来自其他方向的噪音和混响干扰信号,可以达到一定的抑制噪音和混响的作用。
最重要的是,在匹配训练阶段通过引入波束形成技术,使得输出信号中包含了阵列处理运算所产生的语音失真部分,利用上述输出信号重新训练获得的声学模型,除了可以“学习”到远场混响效应之外,还能够“学习”到波束形成处理所带来的语音变形效应,使得最终获得的远场识别的声学模型与待识别的信号更匹配,从而可以进一步改善远场识别性能。
训练模块44,用于利用获得模块41获得的输出信号重新训练声学模型,获得远场识别的声学模型。
具体地,经过自适应波束形成处理后,获得模块41可以得到一路输出信号。不难看出,这路输出信号既通过冲激响应函数的引入,模拟了远场混响效应,又通过自适应波束形成技术的引入,模拟了信号通过麦克风阵列处理后的失真效应,而这两点,恰好是远场识别与近场识别的两个最重要的不同点。训练模块44利用上述输出信号重新训练声学模型,所获得的远场识别的声学模型,很好地学习了这两个重要的远场效应,使得上述远场识别的声学模型与待识别的信号更匹配,识别率也更高。
训练模块44获得上述远场识别的声学模型之后,在远场语音识别阶段,仍以在智能电视系统中进行远场语音识别为例,通过麦克风阵列接收到的4路待识别的远场语音,都是包含混响的信号,这一点已经通过卷积冲激响应函数的方式,灌输到了训练数据当中;获得模块41将上述待识别的远场语音经过GSC自适应波束形成处理后,得到一路待识别的信号,然后识别模块42通过上述远场识别的声学模型对这一路待识别的信号进行识别,这一路待识别的信号由于阵列处理的缘故,与原始信号相比产生一定的失真,这一点通过波束形成匹配训练技术也加入到了训练数据当中,所以本实施例中,待识别的信号与训练数据最大限度地实现了匹配。
本实施例提供的远场语音识别装置中,一方面,通过冲激响应函数的引入,将远场数据的混响效应引入到训练数据中,另一方面,将波束形成技术引入到匹配训练当中,使得语音信号通过阵列处理产生的变形和失真,也引入到训练数据当中,从而最大限度地实现了训练数据和识别数据的匹配,从而有效改善了远场识别的性能。实验证明,该装置可用于任何远场识别任务中,对远场识别性能具有明显地改善。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(ProgrammableGateArray;以下简称:PGA),现场可编程门阵列(FieldProgrammableGateArray;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种远场语音识别方法,其特征在于,包括:
将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号;
通过远场识别的声学模型对所述待识别的信号进行识别。
2.根据权利要求1所述的方法,其特征在于,所述通过远场识别的声学模型对所述待识别的信号进行识别之前,还包括:
确定远场声源到每一路麦克风之间的冲激响应函数;
将所述冲激响应函数与近场训练数据相卷积,获得每一路麦克风接收到的模拟远场信号;
将所述每一路麦克风接收到的模拟远场信号进行自适应波束形成处理,获得一路输出信号;
利用所述输出信号重新训练声学模型,获得远场识别的声学模型。
3.根据权利要求2所述的方法,其特征在于,所述确定远场声源到每一路麦克风之间的冲激响应函数包括:
根据远场语音识别的应用场景,确定麦克风阵列拓扑结构;
根据所述麦克风阵列拓扑结构估计远场声源到每一路麦克风之间的冲激响应函数。
4.一种远场语音识别装置,其特征在于,包括:
获得模块,用于将麦克风阵列接收的待识别的远场语音进行自适应波束形成处理,获得一路待识别的信号;
识别模块,用于通过远场识别的声学模型对所述获得模块获得的待识别的信号进行识别。
5.根据权利要求4所述的装置,其特征在于,还包括:确定模块和训练模块;
所述确定模块,用于在所述识别模块对所述获得模块获得的待识别的信号进行识别之前,确定远场声源到每一路麦克风之间的冲激响应函数;
所述获得模块,还用于将所述确定模块确定的冲激响应函数与近场训练数据相卷积,获得每一路麦克风接收到的模拟远场信号;以及将所述每一路麦克风接收到的模拟远场信号进行自适应波束形成处理,获得一路输出信号;
所述训练模块,用于利用所述获得模块获得的输出信号重新训练声学模型,获得远场识别的声学模型。
6.根据权利要求5所述的装置,其特征在于,所述确定模块包括:
拓扑结构确定子模块,用于根据远场语音识别的应用场景,确定麦克风阵列拓扑结构;
估计子模块,用于根据所述拓扑结构确定子模块确定的麦克风阵列拓扑结构估计远场声源到每一路麦克风之间的冲激响应函数。
CN201510768005.3A 2015-11-11 2015-11-11 远场语音识别方法和装置 Active CN105427860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510768005.3A CN105427860B (zh) 2015-11-11 2015-11-11 远场语音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510768005.3A CN105427860B (zh) 2015-11-11 2015-11-11 远场语音识别方法和装置

Publications (2)

Publication Number Publication Date
CN105427860A true CN105427860A (zh) 2016-03-23
CN105427860B CN105427860B (zh) 2019-09-03

Family

ID=55506015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510768005.3A Active CN105427860B (zh) 2015-11-11 2015-11-11 远场语音识别方法和装置

Country Status (1)

Country Link
CN (1) CN105427860B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331956A (zh) * 2016-11-04 2017-01-11 北京声智科技有限公司 集成远场语音识别和声场录制的系统和方法
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN107316649A (zh) * 2017-05-15 2017-11-03 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
CN107452372A (zh) * 2017-09-22 2017-12-08 百度在线网络技术(北京)有限公司 远场语音识别模型的训练方法和装置
CN107680586A (zh) * 2017-08-01 2018-02-09 百度在线网络技术(北京)有限公司 远场语音声学模型训练方法及系统
CN109377991A (zh) * 2018-09-30 2019-02-22 珠海格力电器股份有限公司 一种智能设备控制方法及装置
CN109523999A (zh) * 2018-12-26 2019-03-26 中国科学院声学研究所 一种提升远场语音识别的前端处理方法和系统
CN109658935A (zh) * 2018-12-29 2019-04-19 苏州思必驰信息科技有限公司 多通道带噪语音的生成方法及系统
CN110047478A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN110097871A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种语音数据处理方法及装置
CN111951786A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 声音识别模型的训练方法、装置、终端设备及介质
CN112489668A (zh) * 2020-11-04 2021-03-12 北京百度网讯科技有限公司 去混响方法、装置、电子设备和存储介质
WO2023051622A1 (zh) * 2021-09-28 2023-04-06 乐鑫信息科技(上海)股份有限公司 提升远场语音交互性能的方法和远场语音交互系统

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
CN1451226A (zh) * 2000-05-26 2003-10-22 皇家菲利浦电子有限公司 用于与自适应波束形成组合的回声抵消的方法和设备
CN1689073A (zh) * 2002-10-23 2005-10-26 皇家飞利浦电子股份有限公司 基于语音来控制设备
CN1830026A (zh) * 2001-01-30 2006-09-06 汤姆森特许公司 几何源分离的几何信号处理技术
CN1947171A (zh) * 2004-04-28 2007-04-11 皇家飞利浦电子股份有限公司 自适应波束形成器、旁瓣抑制器、自动语音通信设备
CN101015001A (zh) * 2004-09-07 2007-08-08 皇家飞利浦电子股份有限公司 提高了噪声抑制能力的电话装置
CN101369427A (zh) * 2007-08-13 2009-02-18 哈曼贝克自动系统股份有限公司 通过组合的波束形成和后滤波的降噪
JP2009071510A (ja) * 2007-09-12 2009-04-02 National Institute Of Advanced Industrial & Technology 点音源検出方法
CN102508204A (zh) * 2011-11-24 2012-06-20 上海交通大学 基于波束形成和传递路径分析的室内噪声源定位方法
JP2012178679A (ja) * 2011-02-25 2012-09-13 Yamaha Corp 音響処理装置
CN102708874A (zh) * 2011-03-03 2012-10-03 微软公司 麦克风阵列的噪声自适应波束形成
CN103181190A (zh) * 2010-10-22 2013-06-26 高通股份有限公司 用于远场多源追踪和分离的系统、方法、设备和计算机可读媒体
CN103267571A (zh) * 2013-05-10 2013-08-28 合肥工业大学 采用单面声压和振速测量的实时声场分离方法
CN104810021A (zh) * 2015-05-11 2015-07-29 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置
CN104952450A (zh) * 2015-05-15 2015-09-30 百度在线网络技术(北京)有限公司 远场识别的处理方法和装置
US20150302869A1 (en) * 2014-04-17 2015-10-22 Arthur Charles Tomlin Conversation, presence and context detection for hologram suppression

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1451226A (zh) * 2000-05-26 2003-10-22 皇家菲利浦电子有限公司 用于与自适应波束形成组合的回声抵消的方法和设备
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
CN1830026A (zh) * 2001-01-30 2006-09-06 汤姆森特许公司 几何源分离的几何信号处理技术
CN1689073A (zh) * 2002-10-23 2005-10-26 皇家飞利浦电子股份有限公司 基于语音来控制设备
CN1947171A (zh) * 2004-04-28 2007-04-11 皇家飞利浦电子股份有限公司 自适应波束形成器、旁瓣抑制器、自动语音通信设备
CN101015001A (zh) * 2004-09-07 2007-08-08 皇家飞利浦电子股份有限公司 提高了噪声抑制能力的电话装置
CN101369427A (zh) * 2007-08-13 2009-02-18 哈曼贝克自动系统股份有限公司 通过组合的波束形成和后滤波的降噪
JP2009071510A (ja) * 2007-09-12 2009-04-02 National Institute Of Advanced Industrial & Technology 点音源検出方法
CN103181190A (zh) * 2010-10-22 2013-06-26 高通股份有限公司 用于远场多源追踪和分离的系统、方法、设备和计算机可读媒体
JP2012178679A (ja) * 2011-02-25 2012-09-13 Yamaha Corp 音響処理装置
CN102708874A (zh) * 2011-03-03 2012-10-03 微软公司 麦克风阵列的噪声自适应波束形成
CN102508204A (zh) * 2011-11-24 2012-06-20 上海交通大学 基于波束形成和传递路径分析的室内噪声源定位方法
CN103267571A (zh) * 2013-05-10 2013-08-28 合肥工业大学 采用单面声压和振速测量的实时声场分离方法
US20150302869A1 (en) * 2014-04-17 2015-10-22 Arthur Charles Tomlin Conversation, presence and context detection for hologram suppression
CN104810021A (zh) * 2015-05-11 2015-07-29 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置
CN104952450A (zh) * 2015-05-15 2015-09-30 百度在线网络技术(北京)有限公司 远场识别的处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王守帅: ""室内远距离语音控制在电视机上的应用研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN106331956A (zh) * 2016-11-04 2017-01-11 北京声智科技有限公司 集成远场语音识别和声场录制的系统和方法
US10629194B2 (en) 2017-05-15 2020-04-21 Baidu Online Network Technology (Beijing) Co., Ltd. Speech recognition method and device based on artificial intelligence
CN107316649A (zh) * 2017-05-15 2017-11-03 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
CN107316649B (zh) * 2017-05-15 2020-11-20 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
CN107680586A (zh) * 2017-08-01 2018-02-09 百度在线网络技术(北京)有限公司 远场语音声学模型训练方法及系统
CN107680586B (zh) * 2017-08-01 2020-09-29 百度在线网络技术(北京)有限公司 远场语音声学模型训练方法及系统
CN107452372A (zh) * 2017-09-22 2017-12-08 百度在线网络技术(北京)有限公司 远场语音识别模型的训练方法和装置
CN110047478A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN110047478B (zh) * 2018-01-16 2021-06-08 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN110097871A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种语音数据处理方法及装置
US11869493B2 (en) 2018-01-31 2024-01-09 Alibaba Group Holding Limited Method and apparatus for audio data processing
CN110097871B (zh) * 2018-01-31 2023-05-12 阿里巴巴集团控股有限公司 一种语音数据处理方法及装置
US11538471B2 (en) 2018-01-31 2022-12-27 Alibaba Group Holding Limited Method and apparatus for audio data processing
CN109377991A (zh) * 2018-09-30 2019-02-22 珠海格力电器股份有限公司 一种智能设备控制方法及装置
CN109377991B (zh) * 2018-09-30 2021-07-23 珠海格力电器股份有限公司 一种智能设备控制方法及装置
CN109523999A (zh) * 2018-12-26 2019-03-26 中国科学院声学研究所 一种提升远场语音识别的前端处理方法和系统
CN109523999B (zh) * 2018-12-26 2021-03-23 中国科学院声学研究所 一种提升远场语音识别的前端处理方法和系统
CN109658935B (zh) * 2018-12-29 2021-02-26 苏州思必驰信息科技有限公司 多通道带噪语音的生成方法及系统
CN109658935A (zh) * 2018-12-29 2019-04-19 苏州思必驰信息科技有限公司 多通道带噪语音的生成方法及系统
CN111951786A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 声音识别模型的训练方法、装置、终端设备及介质
CN112489668A (zh) * 2020-11-04 2021-03-12 北京百度网讯科技有限公司 去混响方法、装置、电子设备和存储介质
CN112489668B (zh) * 2020-11-04 2024-02-02 北京百度网讯科技有限公司 去混响方法、装置、电子设备和存储介质
WO2023051622A1 (zh) * 2021-09-28 2023-04-06 乐鑫信息科技(上海)股份有限公司 提升远场语音交互性能的方法和远场语音交互系统
CN113921007B (zh) * 2021-09-28 2023-04-11 乐鑫信息科技(上海)股份有限公司 提升远场语音交互性能的方法和远场语音交互系统

Also Published As

Publication number Publication date
CN105427860B (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN105427860A (zh) 远场语音识别方法和装置
CN110992974B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
Nam et al. Filteraugment: An acoustic environmental data augmentation method
CN104810021B (zh) 应用于远场识别的前处理方法和装置
CN105355210A (zh) 用于远场语音识别的预处理方法和装置
CN108269567A (zh) 用于生成远场语音数据的方法、装置、计算设备以及计算机可读存储介质
CN109272989A (zh) 语音唤醒方法、装置和计算机可读存储介质
US9602923B2 (en) Estimating a room impulse response
CN107481731A (zh) 一种语音数据增强方法及系统
CN111031463B (zh) 麦克风阵列性能评测方法、装置、设备和介质
CN110400572A (zh) 音频增强方法及系统
CN108417224A (zh) 双向神经网络模型的训练和识别方法及系统
US11869493B2 (en) Method and apparatus for audio data processing
CN102263866B (zh) 使用固定回波消除滤波器系数的方法和音频通信装置
CN112285666A (zh) 基于深度U-Inception网络的雷达干扰抑制方法
US11393443B2 (en) Apparatuses and methods for creating noise environment noisy data and eliminating noise
CN112712818A (zh) 语音增强方法、装置、设备
Tang et al. Low-frequency compensated synthetic impulse responses for improved far-field speech recognition
CN116580709A (zh) 神经网络模型的训练方法及电子设备和存储介质
CN116935879A (zh) 一种基于深度学习的两阶段网络降噪和去混响方法
CN114495909A (zh) 一种端到端的骨气导语音联合识别方法
CN113782002A (zh) 基于混响模拟的语音识别测试方法及系统
CN110992966A (zh) 一种人声分离方法及系统
CN112346013B (zh) 一种基于深度学习的双耳声源定位方法
CN112634877B (zh) 一种远场语音模拟方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant