CN111627425A - 一种语音识别方法及系统 - Google Patents

一种语音识别方法及系统 Download PDF

Info

Publication number
CN111627425A
CN111627425A CN201910111593.1A CN201910111593A CN111627425A CN 111627425 A CN111627425 A CN 111627425A CN 201910111593 A CN201910111593 A CN 201910111593A CN 111627425 A CN111627425 A CN 111627425A
Authority
CN
China
Prior art keywords
different
doas
speech recognition
acoustic models
different doas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910111593.1A
Other languages
English (en)
Other versions
CN111627425B (zh
Inventor
张仕良
雷鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910111593.1A priority Critical patent/CN111627425B/zh
Priority to US17/428,015 priority patent/US20220028404A1/en
Priority to PCT/CN2020/074178 priority patent/WO2020164397A1/zh
Publication of CN111627425A publication Critical patent/CN111627425A/zh
Application granted granted Critical
Publication of CN111627425B publication Critical patent/CN111627425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种语音识别方法及系统,本申请实施例通过预先设置的DoA角度,将空间分成若干个区域,从而将信号源划分至不同的空间区域;进而对不同空间区域的信号进行增强和识别处理后融合得到信号源的识别结果。本申请不需要估计每个时刻真实的信号源方向,避免了在复杂环境下,由于估计信号的信噪比和信号源方向而带来的识别不准确的问题,从而保障了语音识别结果的准确性。

Description

一种语音识别方法及系统
技术领域
本申请涉及但不限于信号处理技术,尤指一种语音识别方法及系统。
背景技术
相关技术中,远场语音识别系统主要包括两个组成部分:一是前端信号增强部分,用于对接收到的多通道带噪语音信号进行处理,从而得到增强后的单通道语音信号。前端信号增强部分通过利用多个通道的语音信号之间的关联性,去除一定的噪声干扰,提升信号的信噪比;另一个是后端常用的语音识别(ASR)部分,用于对前端信号增强部分处理后的单通道语音信号输入一个通用的语音识别系统,以得到最终的语音识别结果。
在复杂环境下,很难估计出信号的信噪比和信号源方向,也就是说,相关技术中的远场语音识别技术很难保障语音识别结果的准确性。
发明内容
本申请提供一种语音识别方法及系统,能够保障语音识别结果的准确性。
本发明实施例提供了一种语音识别方法,包括:
按照不同的波达方向DoA对信号源进行划分;
对对应于不同DoA的信号源分别进行增强处理;
对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果;
将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。
在一种示例性实例中,所述按照不同的波达方向DoA对信号源进行划分,包括:
将空间划分为多个区域,从而将信号源划分至不同DoA角度形成的区域。
在一种示例性实例中,所述DoA角度包括以下至少之一:30度、60度、90度、120度、150度。
在一种示例性实例中,所述对对应于不同DoA的信号源分别进行增强处理,包括:
对所述对应于不同DoA的信号源都分别进行基于延时叠加DAS的波束形成方法,得到所述增强处理后的信号。
在一种示例性实例中,所述对对应于不同DoA的信号源分别进行增强处理,包括:
对所述对应于不同DoA的信号源都分别进行MVDR的波束形成方法,得到所述增强处理后的信号。
在一种示例性实例中,所述方法之前还包括:根据不同的所述DoA对空间进行区域划分;对不同区域内的语音信号进行语音增强处理,得到不同的增强信号样本;利用得到的各样本训练得到对应不同DoA的所述声学模型。
在一种示例性实例中,所述将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果,包括:
将对应不同DoA的所述识别结果输入各自所述声学模型;对各声学模型的输出结果进行融合,得到所述识别结果。
在一种示例性实例中,所述融合通过基于ROVER的融合系统实现。
本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项所述的语音识别方法。
本申请又提供了一种用于实现信息分享的装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的语音识别方法的步骤。
本申请还提供了一种音箱,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的语音识别方法的步骤。
本申请再提供了一种语音识别系统,包括:预处理模块、第一处理模块、第二处理模块、识别模块;其中,
预处理模块,用于按照不同的DoA对信号源进行划分;
第一处理模块,用于对对应于不同DoA的信号源分别进行增强处理;
第二处理模块,用于对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果;
识别模块,用于将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。
在一种示例性实例中,所述装置还包括:训练模块,用于根据不同的所述DoA对空间进行区域划分;对不同区域内的语音信号进行语音增强处理,得到不同的增强信号样本;利用得到的各样本训练得到对应不同DoA的所述声学模型。
本申请包括:按照不同的波达方向DoA对信号源进行划分;对对应于不同DoA的信号源分别进行增强处理;对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果;将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。本申请实施例通过预先设置的DoA角度,将空间分成若干个区域,从而将信号源划分至不同的空间区域;进而对不同空间区域的信号进行增强和识别处理后融合得到信号源的识别结果。本申请不需要估计每个时刻真实的信号源方向,避免了在复杂环境下,由于估计信号的信噪比和信号源方向而带来的识别不准确的问题,从而保障了语音识别结果的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请语音识别方法的流程示意图;
图2为本申请一种基于Delay-and-Sum波束形成方法的示例;
图3为本申请语音识别系统的组成结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在本申请一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本申请语音识别方法的流程示意图,如图1所示,包括:
步骤100:按照不同的波达方向(DoA,Direction Of Arrival)对信号源进行划分。
声音到达麦克风阵列不同麦克风的延迟,通过这个延迟可以计算出目标声源即步骤100中的信号源可能在空间的某个角度内即某个DOA角度内。本申请发明人发现,当不能准确估计DoA时,可以将空间划分成不同的方向,然后假设目标声源在这个方向。
在一种示例性实例中,按照预先设置的至少一个DoA角度,比如30度、60度、90度、120度、150度等,将空间划分为多个区域,从而假设信号源出现在这些DoA角度区域内,也就是说,将信号源划分至不同DoA角度形成的区域。这里需要说明的是,信号源是移动的,所以不同时刻可能处于不同的DoA角度区域内,但是肯定会处于某个DoA角度区域内。
在复杂环境下,很难估计信号的信噪比和信号源方向,因此,本申请实施例中,并不需要估计每个时刻真实的信号源方向,而是通过预先设置的DoA角度,将空间分成若干个区域,从而假设信号源出现在这些DoA角度区域内。通过假设信号源总是会处于其中某一个DoA角度范围内,使得后续可以针对每个区域的信号源分别进行信号增强处理。
步骤101:对对应于不同DoA的信号源分别进行增强处理。
在一种示例性实例中,增强处理可以包括:
对对应于不同DoA的信号源都分别进行基于延时叠加(DAS,Delay-and-Sum)的波束形成方法,得到增强处理后的信号。图2为本申请一种基于Delay-and-Sum波束形成方法的示例,具体实现可以参见相关技术,这里仅仅是举例说明,并不用于限定本申请的保护范围。
在一种示例性实例中,增强处理可以包括:
对对应于不同DoA的信号源都分别进行MVDR的波束形成方法,得到增强处理后的信号。其中,MVDR(Minimum Variance Distortionless Response)是Capon于1967年提出的一种自适应的空间波数谱估计算法。
步骤102:对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果。
在一种示例性实例中,语音识别可以包括如ASR系统。
本申请中,由于对对应不同DoA的信号都进行了波束形成,因此,经过语音识别如ASR系统后会得到若干个对应不同DoA的识别结果。
步骤103:将不同DoA的识别结果输入各自的声学模型,并对各神学模型的输出结果进行融合处理,得到信号源对应的识别结果。
本步骤之前还包括:根据不同的DoA对空间进行区域划分,然后对不同区域的语音信号进行语音增强处理,得到不同的增强信号样本,利用得到的各样本训练得到对应不同DoA的声学模型。训练的方法很多,可以采用相关技术来实现,具体实现并不用于限定本申请的保护范围。
在一种示例性实例中,本步骤可以包括:将对应不同DoA的识别结果输入各自训练好的声学模型,然后再将各声学模型的输出结果采用如基于ROVER的融合系统进行融合,得到最终信号源对应的识别结果。
在一种示例性实例中,融合可以通过一种基于识别结果投票的错误降低(ROVER,Recognizer Output Voting Error Reduction)方法的融合系统来实现。
本申请实施例通过预先设置的DoA角度,将空间分成若干个区域,从而将信号源划分至不同的空间区域;进而对不同空间区域的信号进行增强和识别处理后融合得到信号源的识别结果。本申请不需要估计每个时刻真实的信号源方向,避免了在复杂环境下,由于估计信号的信噪比和信号源方向而带来的识别不准确的问题,从而保障了语音识别结果的准确性。
本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项的语音识别方法。
本申请再提供一种实现信息分享的装置,包括存储器和处理器,其中,存储器中存储有上述任一项的语音识别方法的步骤。
本申请还提供一种音箱,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的语音识别方法的步骤。
图3为本申请语音识别系统的组成结构示意图,如图3所示,至少包括:预处理模块、第一处理模块、第二处理模块、识别模块;其中,
预处理模块,用于按照不同的DoA对信号源进行划分;
第一处理模块,用于对对应于不同DoA的信号源分别进行增强处理;
第二处理模块,用于对增强处理后的对应不同DoA的信号分别进行语音识别,得到识别结果;
识别模块,用于将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。
在一种示例性实例中,预处理模块具体用于:
按照预先设置的至少一个DoA角度,比如30度、60度、90度、120度、150度等,将空间划分为多个区域,从而假设信号源出现在这些DoA角度区域内,也就是说,将信号源划分至不同DoA角度形成的区域。
在一种示例性实例中,第一处理模块具体用于:
对对应于不同DoA的信号源都分别进行基于DAS的波束形成方法,得到增强后的信号;
或者,对对应于不同DoA的信号源都分别进行MVDR的波束形成方法,得到增强后的信号。其中,MVDR是Capon于1967年提出的一种自适应的空间波数谱估计算法。
在一种示例性实例中,第二处理模块可以是ASR系统。
在一种示例性实例中,识别模块具体用于:
将对应不同DoA的识别结果输入训练好的各自的声学模型,将各声学模型的识别结果采用如基于ROVER的融合系统进行融合,得到信号源对应的识别结果。
本申请语音识别装置还包括:训练模块,用于根据不同的所述DoA对空间进行区域划分;对不同区域内的语音信号进行语音增强处理,得到不同的增强信号样本;利用得到的各样本训练得到对应不同DoA的所述声学模型。
需要说明的是,本申请语音识别系统中的各模块可以单独设置在不同的实体设备中,也可以合理组合后设置在多个实体设备中,还可以是都设置在同一实体设备中。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (13)

1.一种语音识别方法,包括:
按照不同的波达方向DoA对信号源进行划分;
对对应于不同DoA的信号源分别进行增强处理;
对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果;
将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。
2.根据权利要求1所述的语音识别方法,其中,所述按照不同的波达方向DoA对信号源进行划分,包括:
将空间划分为多个区域,从而将信号源划分至不同DoA角度形成的区域。
3.根据权利要求2所述的语音识别方法,其中,所述DoA角度包括以下至少之一:30度、60度、90度、120度、150度。
4.根据权利要求1所述的语音识别方法,其中,所述对对应于不同DoA的信号源分别进行增强处理,包括:
对所述对应于不同DoA的信号源都分别进行基于延时叠加DAS的波束形成方法,得到所述增强处理后的信号。
5.根据权利要求1所述的语音识别方法,其中,所述对对应于不同DoA的信号源分别进行增强处理,包括:
对所述对应于不同DoA的信号源都分别进行MVDR的波束形成方法,得到所述增强处理后的信号。
6.根据权利要求1所述的语音识别方法,所述方法之前还包括:根据不同的所述DoA对空间进行区域划分;对不同区域内的语音信号进行语音增强处理,得到不同的增强信号样本;利用得到的各样本训练得到对应不同DoA的所述声学模型。
7.根据权利要求6或7所述的语音识别方法,其中,所述将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果,包括:
将对应不同DoA的所述识别结果输入各自所述声学模型;对各声学模型的输出结果进行融合,得到所述识别结果。
8.根据权利要求6所述的语音识别方法,其中,所述融合通过基于ROVER的融合系统实现。
9.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~权利要求8任一项所述的语音识别方法。
10.一种用于实现信息分享的装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行权利要求1~权利要求8任一项所述的语音识别方法的步骤。
11.一种音箱,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行权利要求1~权利要求8任一项所述的语音识别方法的步骤。
12.一种语音识别系统,包括:预处理模块、第一处理模块、第二处理模块、识别模块;其中,
预处理模块,用于按照不同的DoA对信号源进行划分;
第一处理模块,用于对对应于不同DoA的信号源分别进行增强处理;
第二处理模块,用于对增强处理后的对应不同DoA的信号分别进行语音识别,得到对应不同DoA的识别结果;
识别模块,用于将不同DoA的识别结果输入各自的声学模型,并对各声学模型的输出结果进行融合处理,得到识别结果。
13.根据权利要求12所述的语音识别系统,所述装置还包括:训练模块,用于根据不同的所述DoA对空间进行区域划分;对不同区域内的语音信号进行语音增强处理,得到不同的增强信号样本;利用得到的各样本训练得到对应不同DoA的所述声学模型。
CN201910111593.1A 2019-02-12 2019-02-12 一种语音识别方法及系统 Active CN111627425B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910111593.1A CN111627425B (zh) 2019-02-12 2019-02-12 一种语音识别方法及系统
US17/428,015 US20220028404A1 (en) 2019-02-12 2020-02-03 Method and system for speech recognition
PCT/CN2020/074178 WO2020164397A1 (zh) 2019-02-12 2020-02-03 一种语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910111593.1A CN111627425B (zh) 2019-02-12 2019-02-12 一种语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN111627425A true CN111627425A (zh) 2020-09-04
CN111627425B CN111627425B (zh) 2023-11-28

Family

ID=72045480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910111593.1A Active CN111627425B (zh) 2019-02-12 2019-02-12 一种语音识别方法及系统

Country Status (3)

Country Link
US (1) US20220028404A1 (zh)
CN (1) CN111627425B (zh)
WO (1) WO2020164397A1 (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102271299A (zh) * 2010-06-01 2011-12-07 索尼公司 声音信号处理装置和声音信号处理方法
US20130332165A1 (en) * 2012-06-06 2013-12-12 Qualcomm Incorporated Method and systems having improved speech recognition
CN105161092A (zh) * 2015-09-17 2015-12-16 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
KR101658001B1 (ko) * 2015-03-18 2016-09-21 서강대학교산학협력단 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
WO2017017568A1 (en) * 2015-07-26 2017-02-02 Vocalzoom Systems Ltd. Signal processing and source separation
CN108877827A (zh) * 2017-05-15 2018-11-23 福州瑞芯微电子股份有限公司 一种语音增强交互方法及系统、存储介质及电子设备
CN108922553A (zh) * 2018-07-19 2018-11-30 苏州思必驰信息科技有限公司 用于音箱设备的波达方向估计方法及系统
CN109147787A (zh) * 2018-09-30 2019-01-04 深圳北极鸥半导体有限公司 一种智能电视声控识别系统及其识别方法
CN109272989A (zh) * 2018-08-29 2019-01-25 北京京东尚科信息技术有限公司 语音唤醒方法、装置和计算机可读存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030552A1 (en) * 2002-12-17 2009-01-29 Japan Science And Technology Agency Robotics visual and auditory system
JP4516527B2 (ja) * 2003-11-12 2010-08-04 本田技研工業株式会社 音声認識装置
CN101194182B (zh) * 2005-06-08 2011-06-08 麻省理工学院 鱼类聚集群及其习性的连续地大陆架规模监测
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
US9076450B1 (en) * 2012-09-21 2015-07-07 Amazon Technologies, Inc. Directed audio for speech recognition
KR102351366B1 (ko) * 2015-01-26 2022-01-14 삼성전자주식회사 음성 인식 방법 및 장치
US9697826B2 (en) * 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms
RU2698153C1 (ru) * 2016-03-23 2019-08-22 ГУГЛ ЭлЭлСи Адаптивное улучшение аудио для распознавания многоканальной речи
US10170134B2 (en) * 2017-02-21 2019-01-01 Intel IP Corporation Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment
US10499139B2 (en) * 2017-03-20 2019-12-03 Bose Corporation Audio signal processing for noise reduction
US10297267B2 (en) * 2017-05-15 2019-05-21 Cirrus Logic, Inc. Dual microphone voice processing for headsets with variable microphone array orientation
US10943583B1 (en) * 2017-07-20 2021-03-09 Amazon Technologies, Inc. Creation of language models for speech recognition
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
WO2019123345A1 (en) * 2017-12-20 2019-06-27 Harman International Industries, Incorporated Virtual test environment for active noise management systems
CN110047478B (zh) * 2018-01-16 2021-06-08 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
US10867610B2 (en) * 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences
US10349172B1 (en) * 2018-08-08 2019-07-09 Fortemedia, Inc. Microphone apparatus and method of adjusting directivity thereof
CN112292870A (zh) * 2018-08-14 2021-01-29 阿里巴巴集团控股有限公司 音频信号处理装置及方法
US10622004B1 (en) * 2018-08-20 2020-04-14 Amazon Technologies, Inc. Acoustic echo cancellation using loudspeaker position
US11574628B1 (en) * 2018-09-27 2023-02-07 Amazon Technologies, Inc. Deep multi-channel acoustic modeling using multiple microphone array geometries
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102271299A (zh) * 2010-06-01 2011-12-07 索尼公司 声音信号处理装置和声音信号处理方法
US20130332165A1 (en) * 2012-06-06 2013-12-12 Qualcomm Incorporated Method and systems having improved speech recognition
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
KR101658001B1 (ko) * 2015-03-18 2016-09-21 서강대학교산학협력단 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
WO2017017568A1 (en) * 2015-07-26 2017-02-02 Vocalzoom Systems Ltd. Signal processing and source separation
US20180233129A1 (en) * 2015-07-26 2018-08-16 Vocalzoom Systems Ltd. Enhanced automatic speech recognition
CN105161092A (zh) * 2015-09-17 2015-12-16 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
CN108877827A (zh) * 2017-05-15 2018-11-23 福州瑞芯微电子股份有限公司 一种语音增强交互方法及系统、存储介质及电子设备
CN108922553A (zh) * 2018-07-19 2018-11-30 苏州思必驰信息科技有限公司 用于音箱设备的波达方向估计方法及系统
CN109272989A (zh) * 2018-08-29 2019-01-25 北京京东尚科信息技术有限公司 语音唤醒方法、装置和计算机可读存储介质
CN109147787A (zh) * 2018-09-30 2019-01-04 深圳北极鸥半导体有限公司 一种智能电视声控识别系统及其识别方法

Also Published As

Publication number Publication date
US20220028404A1 (en) 2022-01-27
CN111627425B (zh) 2023-11-28
WO2020164397A1 (zh) 2020-08-20

Similar Documents

Publication Publication Date Title
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
Diaz-Guerra et al. Robust sound source tracking using SRP-PHAT and 3D convolutional neural networks
US10062379B2 (en) Adaptive beam forming devices, methods, and systems
CN108831498B (zh) 多波束波束成形的方法、装置及电子设备
Xiao et al. Speech dereverberation for enhancement and recognition using dynamic features constrained deep neural networks and feature adaptation
EP3210391B1 (en) Reverberation estimator
CN110310642B (zh) 语音处理方法、系统、客户端、设备和存储介质
US9966081B2 (en) Method and apparatus for synthesizing separated sound source
Grondin et al. ODAS: Open embedded audition system
US10708702B2 (en) Signal processing method and signal processing device
CN113466839B (zh) 侧扫声呐海底线检测方法和装置
CN112951263B (zh) 语音增强方法、装置、设备和存储介质
CN111627425B (zh) 一种语音识别方法及系统
JP4676893B2 (ja) 信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体
JP2019054344A (ja) フィルタ係数算出装置、収音装置、その方法、及びプログラム
JP6087856B2 (ja) 音場収音再生装置、システム、方法及びプログラム
WO2022183968A1 (zh) 音频信号处理方法、设备、系统及存储介质
Dan et al. Calibration of a microphone array based on a probabilistic model of microphone positions
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
CN113608167A (zh) 声源定位方法、装置及设备
WO2022106765A1 (fr) Localisation perfectionnée d'une source acoustique
CN111785282A (zh) 一种语音识别方法及装置和智能音箱
US20240137720A1 (en) Generating restored spatial audio signals for occluded microphones
Li et al. MAF-Net: multidimensional attention fusion network for multichannel speech separation
US11886996B2 (en) Training data extension apparatus, training data extension method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40036386

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant