CN111627425A - 一种语音识别方法及系统 - Google Patents
一种语音识别方法及系统 Download PDFInfo
- Publication number
- CN111627425A CN111627425A CN201910111593.1A CN201910111593A CN111627425A CN 111627425 A CN111627425 A CN 111627425A CN 201910111593 A CN201910111593 A CN 201910111593A CN 111627425 A CN111627425 A CN 111627425A
- Authority
- CN
- China
- Prior art keywords
- different
- doas
- speech recognition
- acoustic models
- different doas
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004927 fusion Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 241001061260 Emmelichthys struhsakeri Species 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种语音识别方法及系统,本申请实施例通过预先设置的DoA角度,将空间分成若干个区域,从而将信号源划分至不同的空间区域;进而对不同空间区域的信号进行增强和识别处理后融合得到信号源的识别结果。本申请不需要估计每个时刻真实的信号源方向,避免了在复杂环境下,由于估计信号的信噪比和信号源方向而带来的识别不准确的问题,从而保障了语音识别结果的准确性。
Description
技术领域
本申请涉及但不限于信号处理技术,尤指一种语音识别方法及系统。
背景技术
相关技术中,远场语音识别系统主要包括两个组成部分:一是前端信号增强部分,用于对接收到的多通道带噪语音信号进行处理,从而得到增强后的单通道语音信号。前端信号增强部分通过利用多个通道的语音信号之间的关联性,去除一定的噪声干扰,提升信号的信噪比;另一个是后端常用的语音识别(ASR)部分,用于对前端信号增强部分处理后的单通道语音信号输入一个通用的语音识别系统,以得到最终的语音识别结果。
在复杂环境下,很难估计出信号的信噪比和信号源方向,也就是说,相关技术中的远场语音识别技术很难保障语音识别结果的准确性。
发明内容
本申请提供一种语音识别方法及系统,能够保障语音识别结果的准确性。
本发明实施例提供了一种语音识别方法,包括:
按照不同的波达方向DoA对信号源进行划分;
对对应于不同DoA的信号源分别进行增强处理;
对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果;
将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。
在一种示例性实例中,所述按照不同的波达方向DoA对信号源进行划分,包括:
将空间划分为多个区域,从而将信号源划分至不同DoA角度形成的区域。
在一种示例性实例中,所述DoA角度包括以下至少之一:30度、60度、90度、120度、150度。
在一种示例性实例中,所述对对应于不同DoA的信号源分别进行增强处理,包括:
对所述对应于不同DoA的信号源都分别进行基于延时叠加DAS的波束形成方法,得到所述增强处理后的信号。
在一种示例性实例中,所述对对应于不同DoA的信号源分别进行增强处理,包括:
对所述对应于不同DoA的信号源都分别进行MVDR的波束形成方法,得到所述增强处理后的信号。
在一种示例性实例中,所述方法之前还包括:根据不同的所述DoA对空间进行区域划分;对不同区域内的语音信号进行语音增强处理,得到不同的增强信号样本;利用得到的各样本训练得到对应不同DoA的所述声学模型。
在一种示例性实例中,所述将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果,包括:
将对应不同DoA的所述识别结果输入各自所述声学模型;对各声学模型的输出结果进行融合,得到所述识别结果。
在一种示例性实例中,所述融合通过基于ROVER的融合系统实现。
本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项所述的语音识别方法。
本申请又提供了一种用于实现信息分享的装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的语音识别方法的步骤。
本申请还提供了一种音箱,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的语音识别方法的步骤。
本申请再提供了一种语音识别系统,包括:预处理模块、第一处理模块、第二处理模块、识别模块;其中,
预处理模块,用于按照不同的DoA对信号源进行划分;
第一处理模块,用于对对应于不同DoA的信号源分别进行增强处理;
第二处理模块,用于对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果;
识别模块,用于将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。
在一种示例性实例中,所述装置还包括:训练模块,用于根据不同的所述DoA对空间进行区域划分;对不同区域内的语音信号进行语音增强处理,得到不同的增强信号样本;利用得到的各样本训练得到对应不同DoA的所述声学模型。
本申请包括:按照不同的波达方向DoA对信号源进行划分;对对应于不同DoA的信号源分别进行增强处理;对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果;将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。本申请实施例通过预先设置的DoA角度,将空间分成若干个区域,从而将信号源划分至不同的空间区域;进而对不同空间区域的信号进行增强和识别处理后融合得到信号源的识别结果。本申请不需要估计每个时刻真实的信号源方向,避免了在复杂环境下,由于估计信号的信噪比和信号源方向而带来的识别不准确的问题,从而保障了语音识别结果的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请语音识别方法的流程示意图;
图2为本申请一种基于Delay-and-Sum波束形成方法的示例;
图3为本申请语音识别系统的组成结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在本申请一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本申请语音识别方法的流程示意图,如图1所示,包括:
步骤100:按照不同的波达方向(DoA,Direction Of Arrival)对信号源进行划分。
声音到达麦克风阵列不同麦克风的延迟,通过这个延迟可以计算出目标声源即步骤100中的信号源可能在空间的某个角度内即某个DOA角度内。本申请发明人发现,当不能准确估计DoA时,可以将空间划分成不同的方向,然后假设目标声源在这个方向。
在一种示例性实例中,按照预先设置的至少一个DoA角度,比如30度、60度、90度、120度、150度等,将空间划分为多个区域,从而假设信号源出现在这些DoA角度区域内,也就是说,将信号源划分至不同DoA角度形成的区域。这里需要说明的是,信号源是移动的,所以不同时刻可能处于不同的DoA角度区域内,但是肯定会处于某个DoA角度区域内。
在复杂环境下,很难估计信号的信噪比和信号源方向,因此,本申请实施例中,并不需要估计每个时刻真实的信号源方向,而是通过预先设置的DoA角度,将空间分成若干个区域,从而假设信号源出现在这些DoA角度区域内。通过假设信号源总是会处于其中某一个DoA角度范围内,使得后续可以针对每个区域的信号源分别进行信号增强处理。
步骤101:对对应于不同DoA的信号源分别进行增强处理。
在一种示例性实例中,增强处理可以包括:
对对应于不同DoA的信号源都分别进行基于延时叠加(DAS,Delay-and-Sum)的波束形成方法,得到增强处理后的信号。图2为本申请一种基于Delay-and-Sum波束形成方法的示例,具体实现可以参见相关技术,这里仅仅是举例说明,并不用于限定本申请的保护范围。
在一种示例性实例中,增强处理可以包括:
对对应于不同DoA的信号源都分别进行MVDR的波束形成方法,得到增强处理后的信号。其中,MVDR(Minimum Variance Distortionless Response)是Capon于1967年提出的一种自适应的空间波数谱估计算法。
步骤102:对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果。
在一种示例性实例中,语音识别可以包括如ASR系统。
本申请中,由于对对应不同DoA的信号都进行了波束形成,因此,经过语音识别如ASR系统后会得到若干个对应不同DoA的识别结果。
步骤103:将不同DoA的识别结果输入各自的声学模型,并对各神学模型的输出结果进行融合处理,得到信号源对应的识别结果。
本步骤之前还包括:根据不同的DoA对空间进行区域划分,然后对不同区域的语音信号进行语音增强处理,得到不同的增强信号样本,利用得到的各样本训练得到对应不同DoA的声学模型。训练的方法很多,可以采用相关技术来实现,具体实现并不用于限定本申请的保护范围。
在一种示例性实例中,本步骤可以包括:将对应不同DoA的识别结果输入各自训练好的声学模型,然后再将各声学模型的输出结果采用如基于ROVER的融合系统进行融合,得到最终信号源对应的识别结果。
在一种示例性实例中,融合可以通过一种基于识别结果投票的错误降低(ROVER,Recognizer Output Voting Error Reduction)方法的融合系统来实现。
本申请实施例通过预先设置的DoA角度,将空间分成若干个区域,从而将信号源划分至不同的空间区域;进而对不同空间区域的信号进行增强和识别处理后融合得到信号源的识别结果。本申请不需要估计每个时刻真实的信号源方向,避免了在复杂环境下,由于估计信号的信噪比和信号源方向而带来的识别不准确的问题,从而保障了语音识别结果的准确性。
本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项的语音识别方法。
本申请再提供一种实现信息分享的装置,包括存储器和处理器,其中,存储器中存储有上述任一项的语音识别方法的步骤。
本申请还提供一种音箱,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的语音识别方法的步骤。
图3为本申请语音识别系统的组成结构示意图,如图3所示,至少包括:预处理模块、第一处理模块、第二处理模块、识别模块;其中,
预处理模块,用于按照不同的DoA对信号源进行划分;
第一处理模块,用于对对应于不同DoA的信号源分别进行增强处理;
第二处理模块,用于对增强处理后的对应不同DoA的信号分别进行语音识别,得到识别结果;
识别模块,用于将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。
在一种示例性实例中,预处理模块具体用于:
按照预先设置的至少一个DoA角度,比如30度、60度、90度、120度、150度等,将空间划分为多个区域,从而假设信号源出现在这些DoA角度区域内,也就是说,将信号源划分至不同DoA角度形成的区域。
在一种示例性实例中,第一处理模块具体用于:
对对应于不同DoA的信号源都分别进行基于DAS的波束形成方法,得到增强后的信号;
或者,对对应于不同DoA的信号源都分别进行MVDR的波束形成方法,得到增强后的信号。其中,MVDR是Capon于1967年提出的一种自适应的空间波数谱估计算法。
在一种示例性实例中,第二处理模块可以是ASR系统。
在一种示例性实例中,识别模块具体用于:
将对应不同DoA的识别结果输入训练好的各自的声学模型,将各声学模型的识别结果采用如基于ROVER的融合系统进行融合,得到信号源对应的识别结果。
本申请语音识别装置还包括:训练模块,用于根据不同的所述DoA对空间进行区域划分;对不同区域内的语音信号进行语音增强处理,得到不同的增强信号样本;利用得到的各样本训练得到对应不同DoA的所述声学模型。
需要说明的是,本申请语音识别系统中的各模块可以单独设置在不同的实体设备中,也可以合理组合后设置在多个实体设备中,还可以是都设置在同一实体设备中。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (13)
1.一种语音识别方法,包括:
按照不同的波达方向DoA对信号源进行划分;
对对应于不同DoA的信号源分别进行增强处理;
对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果;
将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。
2.根据权利要求1所述的语音识别方法,其中,所述按照不同的波达方向DoA对信号源进行划分,包括:
将空间划分为多个区域,从而将信号源划分至不同DoA角度形成的区域。
3.根据权利要求2所述的语音识别方法,其中,所述DoA角度包括以下至少之一:30度、60度、90度、120度、150度。
4.根据权利要求1所述的语音识别方法,其中,所述对对应于不同DoA的信号源分别进行增强处理,包括:
对所述对应于不同DoA的信号源都分别进行基于延时叠加DAS的波束形成方法,得到所述增强处理后的信号。
5.根据权利要求1所述的语音识别方法,其中,所述对对应于不同DoA的信号源分别进行增强处理,包括:
对所述对应于不同DoA的信号源都分别进行MVDR的波束形成方法,得到所述增强处理后的信号。
6.根据权利要求1所述的语音识别方法,所述方法之前还包括:根据不同的所述DoA对空间进行区域划分;对不同区域内的语音信号进行语音增强处理,得到不同的增强信号样本;利用得到的各样本训练得到对应不同DoA的所述声学模型。
7.根据权利要求6或7所述的语音识别方法,其中,所述将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果,包括:
将对应不同DoA的所述识别结果输入各自所述声学模型;对各声学模型的输出结果进行融合,得到所述识别结果。
8.根据权利要求6所述的语音识别方法,其中,所述融合通过基于ROVER的融合系统实现。
9.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~权利要求8任一项所述的语音识别方法。
10.一种用于实现信息分享的装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行权利要求1~权利要求8任一项所述的语音识别方法的步骤。
11.一种音箱,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行权利要求1~权利要求8任一项所述的语音识别方法的步骤。
12.一种语音识别系统,包括:预处理模块、第一处理模块、第二处理模块、识别模块;其中,
预处理模块,用于按照不同的DoA对信号源进行划分;
第一处理模块,用于对对应于不同DoA的信号源分别进行增强处理;
第二处理模块,用于对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果;
识别模块,用于将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。
13.根据权利要求12所述的语音识别系统,所述装置还包括:训练模块,用于根据不同的所述DoA对空间进行区域划分;对不同区域内的语音信号进行语音增强处理,得到不同的增强信号样本;利用得到的各样本训练得到对应不同DoA的所述声学模型。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910111593.1A CN111627425B (zh) | 2019-02-12 | 2019-02-12 | 一种语音识别方法及系统 |
US17/428,015 US20220028404A1 (en) | 2019-02-12 | 2020-02-03 | Method and system for speech recognition |
PCT/CN2020/074178 WO2020164397A1 (zh) | 2019-02-12 | 2020-02-03 | 一种语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910111593.1A CN111627425B (zh) | 2019-02-12 | 2019-02-12 | 一种语音识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627425A true CN111627425A (zh) | 2020-09-04 |
CN111627425B CN111627425B (zh) | 2023-11-28 |
Family
ID=72045480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910111593.1A Active CN111627425B (zh) | 2019-02-12 | 2019-02-12 | 一种语音识别方法及系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220028404A1 (zh) |
CN (1) | CN111627425B (zh) |
WO (1) | WO2020164397A1 (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102271299A (zh) * | 2010-06-01 | 2011-12-07 | 索尼公司 | 声音信号处理装置和声音信号处理方法 |
US20130332165A1 (en) * | 2012-06-06 | 2013-12-12 | Qualcomm Incorporated | Method and systems having improved speech recognition |
CN105161092A (zh) * | 2015-09-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
KR101658001B1 (ko) * | 2015-03-18 | 2016-09-21 | 서강대학교산학협력단 | 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법 |
WO2017017568A1 (en) * | 2015-07-26 | 2017-02-02 | Vocalzoom Systems Ltd. | Signal processing and source separation |
CN108877827A (zh) * | 2017-05-15 | 2018-11-23 | 福州瑞芯微电子股份有限公司 | 一种语音增强交互方法及系统、存储介质及电子设备 |
CN108922553A (zh) * | 2018-07-19 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及系统 |
CN109147787A (zh) * | 2018-09-30 | 2019-01-04 | 深圳北极鸥半导体有限公司 | 一种智能电视声控识别系统及其识别方法 |
CN109272989A (zh) * | 2018-08-29 | 2019-01-25 | 北京京东尚科信息技术有限公司 | 语音唤醒方法、装置和计算机可读存储介质 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090030552A1 (en) * | 2002-12-17 | 2009-01-29 | Japan Science And Technology Agency | Robotics visual and auditory system |
WO2005048239A1 (ja) * | 2003-11-12 | 2005-05-26 | Honda Motor Co., Ltd. | 音声認識装置 |
CA2611205C (en) * | 2005-06-08 | 2014-11-25 | Massachusetts Institute Of Technology | Continuous, continental-shelf-scale monitoring of fish populations and behavior |
US8275615B2 (en) * | 2007-07-13 | 2012-09-25 | International Business Machines Corporation | Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation |
US9076450B1 (en) * | 2012-09-21 | 2015-07-07 | Amazon Technologies, Inc. | Directed audio for speech recognition |
WO2014125736A1 (ja) * | 2013-02-14 | 2014-08-21 | ソニー株式会社 | 音声認識装置、および音声認識方法、並びにプログラム |
KR102351366B1 (ko) * | 2015-01-26 | 2022-01-14 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
US9697826B2 (en) * | 2015-03-27 | 2017-07-04 | Google Inc. | Processing multi-channel audio waveforms |
WO2017138934A1 (en) * | 2016-02-10 | 2017-08-17 | Nuance Communications, Inc. | Techniques for spatially selective wake-up word recognition and related systems and methods |
EP3381033B1 (en) * | 2016-03-23 | 2020-08-12 | Google LLC | Adaptive audio enhancement for multichannel speech recognition |
US10170134B2 (en) * | 2017-02-21 | 2019-01-01 | Intel IP Corporation | Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment |
US10499139B2 (en) * | 2017-03-20 | 2019-12-03 | Bose Corporation | Audio signal processing for noise reduction |
US10297267B2 (en) * | 2017-05-15 | 2019-05-21 | Cirrus Logic, Inc. | Dual microphone voice processing for headsets with variable microphone array orientation |
US10943583B1 (en) * | 2017-07-20 | 2021-03-09 | Amazon Technologies, Inc. | Creation of language models for speech recognition |
CN109686378B (zh) * | 2017-10-13 | 2021-06-08 | 华为技术有限公司 | 语音处理方法和终端 |
CN107742522B (zh) * | 2017-10-23 | 2022-01-14 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
US11308932B2 (en) * | 2017-12-20 | 2022-04-19 | Harman International Industries, Incorporated | Virtual test environment for active noise management systems |
CN110047478B (zh) * | 2018-01-16 | 2021-06-08 | 中国科学院声学研究所 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
US10867610B2 (en) * | 2018-05-04 | 2020-12-15 | Microsoft Technology Licensing, Llc | Computerized intelligent assistant for conferences |
US20190341053A1 (en) * | 2018-05-06 | 2019-11-07 | Microsoft Technology Licensing, Llc | Multi-modal speech attribution among n speakers |
US10349172B1 (en) * | 2018-08-08 | 2019-07-09 | Fortemedia, Inc. | Microphone apparatus and method of adjusting directivity thereof |
CN112292870A (zh) * | 2018-08-14 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 音频信号处理装置及方法 |
US10622004B1 (en) * | 2018-08-20 | 2020-04-14 | Amazon Technologies, Inc. | Acoustic echo cancellation using loudspeaker position |
US11574628B1 (en) * | 2018-09-27 | 2023-02-07 | Amazon Technologies, Inc. | Deep multi-channel acoustic modeling using multiple microphone array geometries |
US11043214B1 (en) * | 2018-11-29 | 2021-06-22 | Amazon Technologies, Inc. | Speech recognition using dialog history |
US11170761B2 (en) * | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
-
2019
- 2019-02-12 CN CN201910111593.1A patent/CN111627425B/zh active Active
-
2020
- 2020-02-03 WO PCT/CN2020/074178 patent/WO2020164397A1/zh active Application Filing
- 2020-02-03 US US17/428,015 patent/US20220028404A1/en active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102271299A (zh) * | 2010-06-01 | 2011-12-07 | 索尼公司 | 声音信号处理装置和声音信号处理方法 |
US20130332165A1 (en) * | 2012-06-06 | 2013-12-12 | Qualcomm Incorporated | Method and systems having improved speech recognition |
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
KR101658001B1 (ko) * | 2015-03-18 | 2016-09-21 | 서강대학교산학협력단 | 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법 |
WO2017017568A1 (en) * | 2015-07-26 | 2017-02-02 | Vocalzoom Systems Ltd. | Signal processing and source separation |
US20180233129A1 (en) * | 2015-07-26 | 2018-08-16 | Vocalzoom Systems Ltd. | Enhanced automatic speech recognition |
CN105161092A (zh) * | 2015-09-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN108877827A (zh) * | 2017-05-15 | 2018-11-23 | 福州瑞芯微电子股份有限公司 | 一种语音增强交互方法及系统、存储介质及电子设备 |
CN108922553A (zh) * | 2018-07-19 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及系统 |
CN109272989A (zh) * | 2018-08-29 | 2019-01-25 | 北京京东尚科信息技术有限公司 | 语音唤醒方法、装置和计算机可读存储介质 |
CN109147787A (zh) * | 2018-09-30 | 2019-01-04 | 深圳北极鸥半导体有限公司 | 一种智能电视声控识别系统及其识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020164397A1 (zh) | 2020-08-20 |
CN111627425B (zh) | 2023-11-28 |
US20220028404A1 (en) | 2022-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Diaz-Guerra et al. | Robust sound source tracking using SRP-PHAT and 3D convolutional neural networks | |
JP7434137B2 (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
CN108831498B (zh) | 多波束波束成形的方法、装置及电子设备 | |
EP3210391B1 (en) | Reverberation estimator | |
CN108717495A (zh) | 多波束波束成形的方法、装置及电子设备 | |
Grondin et al. | ODAS: Open embedded audition system | |
US9966081B2 (en) | Method and apparatus for synthesizing separated sound source | |
Janský et al. | Auxiliary function-based algorithm for blind extraction of a moving speaker | |
US10708702B2 (en) | Signal processing method and signal processing device | |
CN113466839B (zh) | 侧扫声呐海底线检测方法和装置 | |
CN112951263B (zh) | 语音增强方法、装置、设备和存储介质 | |
JP4676893B2 (ja) | 信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体 | |
JP2019054344A (ja) | フィルタ係数算出装置、収音装置、その方法、及びプログラム | |
CN111627425B (zh) | 一种语音识别方法及系统 | |
FR3116348A1 (fr) | Localisation perfectionnée d’une source acoustique | |
Dan et al. | Calibration of a microphone array based on a probabilistic model of microphone positions | |
Zhang et al. | Acoustic source localization via subspace based method using small aperture MEMS arrays | |
JP6087856B2 (ja) | 音場収音再生装置、システム、方法及びプログラム | |
US20220310092A1 (en) | Multi-look enhancement modeling and application for keyword spotting | |
US12094481B2 (en) | ADL-UFE: all deep learning unified front-end system | |
CN113608167B (zh) | 声源定位方法、装置及设备 | |
WO2022183968A1 (zh) | 音频信号处理方法、设备、系统及存储介质 | |
JP7207539B2 (ja) | 学習データ拡張装置、学習データ拡張方法、およびプログラム | |
Varzandeh et al. | Speech-Aware Binaural DOA Estimation Utilizing Periodicity and Spatial Features in Convolutional Neural Networks | |
CN112311999A (zh) | 智能视频音箱设备及其摄像头视角调整方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40036386 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |