CN113782024B - 一种针对语音唤醒后提升自动语音识别准确率的方法 - Google Patents

一种针对语音唤醒后提升自动语音识别准确率的方法 Download PDF

Info

Publication number
CN113782024B
CN113782024B CN202111136150.1A CN202111136150A CN113782024B CN 113782024 B CN113782024 B CN 113782024B CN 202111136150 A CN202111136150 A CN 202111136150A CN 113782024 B CN113782024 B CN 113782024B
Authority
CN
China
Prior art keywords
voice
recognition
fixed beam
covariance matrix
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111136150.1A
Other languages
English (en)
Other versions
CN113782024A (zh
Inventor
尹钧
赵亚丽
缪炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Huwen Information Technology Co ltd
Original Assignee
Shanghai Huwen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Huwen Information Technology Co ltd filed Critical Shanghai Huwen Information Technology Co ltd
Priority to CN202111136150.1A priority Critical patent/CN113782024B/zh
Publication of CN113782024A publication Critical patent/CN113782024A/zh
Application granted granted Critical
Publication of CN113782024B publication Critical patent/CN113782024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及智能语音交互技术领域,且公开了一种针对语音唤醒后提升自动语音识别准确率的方法,将N个语音采集设备以间距d线性排列构成语音采集模块,N为大于等于2的正整数,将采集到的多通道带噪语音数据经傅里叶变换后输入固定波束形成模块,根据预先设计的多个导向矢量生成多个方向的固定波束。该针对语音唤醒后提升自动语音识别准确率的方法,通过提供一种简单有效的提升识别正确率的方法,利用了唤醒加识别的这种常用语音交互模式,将看似没有关系的两者有效结合在一起,以固定波束形成方式,且只在唤醒后识别前触发噪声统计的更新,无需再估计语音统计特性,避免了复杂的计算以及参数估计错误带来的语音畸变。

Description

一种针对语音唤醒后提升自动语音识别准确率的方法
技术领域
本发明涉及智能语音交互技术领域,具体为一种针对语音唤醒后提升自动语音识别准确率的方法。
背景技术
随着远场智能语音交互应用的越来越深入发展,语音识别的效果直接影响着用户在智能语音设备上的体验,通常来说,语音识别技术涉及到对设备的唤醒、唤醒后对设备的语音控制、与设备进行人机对话等,为方便描述,这里术语“识别”特指通过云端自动语音识别(ASR)系统对唤醒后用户的请求进行识别(如“今天天气怎么样”),在识别中,一个字的错误也可能导致错误的请求。
在实际产品的应用中,环境噪声、房间混响等因素会导致语音识别准确性的严重下降,语音信号处理是现代通信和人工智能等领域的核心技术之一,信号被声传感器,即麦克风采集后,通过前端信号处理技术改善目标语音质量,是一种有效的提升语音识别率的方法,其中,麦克风阵列技术能够利用空间多个麦克风采集到的信息通过波束形成的方式来增强目标语音,波束形成的方法有很多,简单来说,可分为固定波束形成和自适应波束形成,一般来说,固定波束形成即通过设计固定权重方式对空间生成相应拾音波束,该方法稳定且计算复杂度低,但因为无法获知实时的房间混响、噪声统计特性等信息,导致在不同环境很难保持性能一致性,自适应波束形成通过噪声统计特性以及传递函数的估计实时更新权重,使得性能对环境变化有一定的适应性,但算法不够轻便,相比之下会大幅度增加设备使用功耗,并且在更新波束权重时,需要准确区分语音或噪声段,否则有可能损伤到目标语音,严重的在语音识别中会造成掉字、换字等错误,影响用户体验,设计通过简单有效的阵列信号处理来提升识别率的方法是非常必要的。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种针对语音唤醒后提升自动语音识别准确率的方法,具备通过简单有效的阵列信号处理来提升识别率等优点,解决了环境噪声、房间混响等因素会导致语音识别准确性的严重下降,导致可能损伤到目标语音,严重的在语音识别中会造成掉字、换字等错误,影响用户体验的问题。
(二)技术方案
本发明要解决的另一技术问题是提供一种针对语音唤醒后提升自动语音识别准确率的方法,包括以下步骤:
1)将N个语音采集设备以间距d线性排列构成语音采集模块,N为大于等于2的正整数;
2)将采集到的多通道带噪语音数据经傅里叶变换后输入固定波束形成模块,根据预先设计的多个导向矢量生成多个方向的固定波束;
3)将所述多路固定波束数据输入唤醒模块进行唤醒打分;
4)在成功唤醒后,锁定唤醒置信度最高的那一路固定波束所使用的导向矢量S(k,θi),并记录唤醒时刻t0,其中,k为对应子频带,θi为期望方向角;
5)在唤醒后与识别前的时间段估计并更新噪声协方差矩阵Rn;
6)将所述噪声协方差矩阵Rn重构目标函数后,再基于导向矢量S(k,θi)生成约束条件,可计算出波束权重W(k),在识别状态开启时停止更新权重,并沿用估计的权重合成波束数据用于识别直到识别状态关闭;
所述步骤六中波束权重的更新,其特征在于对于步骤四中置信度最高的那一路固定波束基于当前噪声统计特性的更新,使得更新后的波束对当前噪声即波束旁瓣有更好的抑制,实现方式是基于线性约束最小方差的方法,根据所述噪声协方差矩阵Rn重构目标函数{WH*Rn*W},通过导向矢量设计约束条件,计算出波束权重W,其中WH为W的共轭转置。
进一步,所述步骤二中固定波束形成模块,包括预先对平面空间划分为至少2个可能的方向角或导向矢量,具体划分方式可根据步骤一中语音采集设备数量和间距来设计,以至少有一个导向矢量包含目标语音方向为准,并根据不同导向矢量预先完成固定波束权重的计算,预先设计的固定波束不依赖环境,所以可以根据白噪声增益最大化、指向性最大化或者其他任意合理的目标来设计。
进一步,所述固定波束数据,包括经过波束形成滤波以及后置滤波得到的增强的语音数据。
进一步,所述步骤五包括确定识别请求发生的时刻t1,该时刻可根据语音存在概率进行判断,并利用t0至t1的这段时间来估计当下的噪声协方差矩阵,在t1时刻后停止更新,也可以直接简单的根据唤醒时刻t0之后的一段固定长度的时间通常小于1s来更新噪声协方差矩阵,所述唤醒时刻t0一般指触发唤醒的那一刻,也可以综合唤醒分数低于预设的阈值时调整为唤醒词说完的某一刻。
进一步,所述波束权重的更新在识别开始时停止更新,保存波束权重,并用固定波束形成的方式得到增强后的语音数据送去识别,与步骤四中描述的固定波束不同的是此时噪声协方差矩阵Rn更新了,步骤四中固定波束所使用的协方差矩阵Rn是预先设计的,可以是单位矩阵,也可以是根据sinc(.)函数或者其他函数特别构造的,同时,在某些特殊环境下,所更新的噪声协方差矩阵Rn也可退化成步骤四中所述固定波束对应的协方差矩阵。
(三)有益效果
与现有技术相比,本发明提供了一种针对语音唤醒后提升自动语音识别准确率的方法,具备以下有益效果:
1、该针对语音唤醒后提升自动语音识别准确率的方法,通过提供一种简单有效的提升识别正确率的方法,利用了唤醒加识别的这种常用语音交互模式,将看似没有关系的两者有效结合在一起。
2、该针对语音唤醒后提升自动语音识别准确率的方法,以固定波束形成方式,且只在唤醒后识别前触发噪声统计的更新,无需再估计语音统计特性,避免了复杂的计算以及参数估计错误带来的语音畸变。
3、该针对语音唤醒后提升自动语音识别准确率的方法,在识别过程中实时更新权重可能会严重损伤到语音,本发明有效结合唤醒时刻信息创造了权重更新的时机,既能避免在识别过程中更新波束,又可以尽可能的得到满足短时平稳的噪声统计特性。
4、该针对语音唤醒后提升自动语音识别准确率的方法,简单有效不仅指的是对噪声协方差矩阵的更新方式,也包括利用唤醒分数来选择所需的置信度最高的导向矢量,从而避免了对导向矢量的冗余计算,用提取的导向矢量与所述噪声协方差矩阵即可对波束权重进行更新。
附图说明
图1为本发明中一种提升语音识别正确率的流程图;
图2为本发明中的固定波束形成模块的框架图;
图3为本发明中的更新固定波束的示意图。
具体实施方式
下面将结合本发明的实施例和附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1~3所示,一种针对唤醒后提升自动语音识别的方法,包括以下步骤:
1)将N个语音采集设备以间距d线性排列构成语音采集模块,N为大于等于2的正整数,相比于传统的键盘输入、文字输入,语音输入的速度,语音输入的效率至少是传统输入方式的三倍以上,在这种输入方式不变的场景下,通过语音的交互效率会更高,通过语音的方式,直接下达指令会更方便,即我们发出语音指令的时候,可以一次性的下达多条指令,然后由机器识别之后,分别去执行这些指令的意图;
2)将采集到的多通道带噪语音数据经傅里叶变换后输入固定波束形成模块,根据预先设计的多个导向矢量生成多个方向的固定波束,固定波束形成模块,包括预先对平面空间划分为至少2个可能的方向角或导向矢量,具体划分方式可根据步骤一中语音采集设备数量和间距来设计,以至少有一个导向矢量包含目标语音方向为准,并根据不同导向矢量预先完成固定波束权重的计算,傅里叶变换是数字信号处理中的基本操作,广泛应用于表述及分析离散时域信号领域,但由于其运算量与变换点数N的平方成正比关系,因此,在N较大时,直接应用DFT算法进行谱变换是不切合实际的,然而,快速傅里叶变换技术的出现使情况发生了根本性的变化,使得该方法的实用性能得到广泛应用;
3)将多路固定波束数据输入唤醒模块进行唤醒打分,送去唤醒的固定波束数据,包括经过波束形成滤波以及后置滤波得到的增强的语音数据,波束形成的优点是可以利用空间信息做空间滤波(Spatial filtering),以单麦克风降噪为例,单麦克风接收到的信号,无法分辨来波方向,对于噪声的抑制主要抑制平稳噪声,因为语音信号是非平稳的,如何准确区分非平稳的噪声和语音比较困难,麦克风阵列至少有两颗麦克风,能够一定程度的区分来波方向,对于非期望方向的干扰语音或者其他非平稳噪声可以线性地衰减;
4)在成功唤醒后,锁定唤醒置信度最高的那一路固定波束所使用的导向矢量S(k,θi),并记录唤醒时刻t0,其中,k为对应子频带,θi为期望方向角,麦克风阵列的性能主要用白噪声增益和指向性来评价,前者用来评价阵列在白噪声场景下的抑制能力,后者用来评价阵列在扩散场噪声下的阵列增益,其本质都是阵列增益,可以理解为输出信噪比除以输入信噪比,也可以表示为信号的传递函数;
5)在唤醒后与识别前的时间段估计并更新噪声协方差矩阵Rn,所属步骤包括确定识别请求发生的时刻t1,该时刻可根据语音存在概率判断,并利用t0至t1的这段时间来估计当下的噪声协方差矩阵,在t1时刻后停止更新,也可以直接简单的根据唤醒时刻t0之后的一段固定长度的时间(通常小于1s)来更新噪声协方差矩阵,唤醒时刻t0一般指触发唤醒的那一刻,也可以综合唤醒分数(低于预设的阈值时)调整为唤醒词说完的某一刻,在统计学与概率论中,协方差矩阵的每个元素是各个向量元素之间的协方差,是从标量随机变量到高维度随机向量的自然推广,协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的,标准差和方差一般是用来描述一维数据的,可以利用协方差矩阵来运算多维数据的数据集;
6)将噪声协方差矩阵Rn重构目标函数后,再基于导向矢量S(k,θi)生成约束条件,可计算出波束权重W(k),在识别状态开启时停止更新权重,并沿用估计的权重合成波束数据用于识别直到识别状态关闭,波束权重的更新,指的是对于步骤四中置信度最高的那一路固定波束基于当前噪声统计特性的更新,使得更新后的波束对当前噪声(即波束旁瓣)有更好的抑制,实现方式是基于线性约束最小方差的方法,根据噪声协方差矩阵Rn重构目标函数{WH*Rn*W},通过导向矢量设计约束条件,计算出波束权重W,其中WH为W的共轭转置,同时,在某些特殊环境下,所更新的噪声协方差矩阵Rn也可退化成步骤四中固定波束对应的协方差矩阵。
本发明的有益效果是:提供了一种简单有效的提升识别正确率的方法,利用了唤醒加识别的这种常用语音交互模式,将看似没有关系的两者有效结合在一起,以固定波束形成方式,且只在唤醒后识别前触发噪声统计的更新,无需再估计语音统计特性,避免了复杂的计算以及参数估计错误带来的语音畸变,在识别过程中实时更新权重可能会严重损伤到语音,本发明有效结合唤醒时刻信息创造了权重更新的时机,既能避免在识别过程中更新波束,又可以尽可能的得到满足短时平稳的噪声统计特性,本发明简单有效不仅指的是对噪声协方差矩阵的更新方式,也包括利用唤醒分数来选择所需的置信度最高的导向矢量,从而避免了对导向矢量的冗余计算,用提取的导向矢量与所述噪声协方差矩阵即可对波束权重进行更新。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种针对语音唤醒后提升自动语音识别准确率的方法,其特征在于:包括以下步骤:
1)将N个语音采集设备以间距d线性排列构成语音采集模块,N为大于等于2的正整数;
2)将采集到的多通道带噪语音数据经傅里叶变换后输入固定波束形成模块,根据预先设计的多个导向矢量生成多个方向的固定波束;
3)将多路固定波束数据输入唤醒模块进行唤醒打分;
4)在成功唤醒后,锁定唤醒置信度最高的那一路固定波束所使用的导向矢量S(k,θi),并记录唤醒时刻t0,其中,k为对应子频带,θi为期望方向角;
5)在唤醒后与识别前的时间段估计并更新噪声协方差矩阵Rn;
6)将所述噪声协方差矩阵Rn重构目标函数后,再基于导向矢量S(k,θi)生成约束条件,可计算出波束权重W(k),在识别状态开启时停止更新权重,并沿用估计的权重合成波束数据用于识别直到识别状态关闭;
所述6)中波束权重的更新,包括对于4)中置信度最高的那一路固定波束基于当前噪声统计特性的更新,使得更新后的波束对当前噪声有更好的抑制,该噪声为波束旁瓣,实现方式是基于线性约束最小方差的方法,根据所述噪声协方差矩阵Rn重构目标函数{WH*Rn*W},通过导向矢量设计约束条件,计算出波束权重W,其中WH为W的共轭转置。
2.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法,其特征在于:所述2)中固定波束形成模块,包括预先对平面空间划分为至少2个可能的方向角或导向矢量,具体划分方式可根据1)中语音采集设备数量和间距来设计,以至少有一个导向矢量包含目标语音方向为准,并根据不同导向矢量预先完成固定波束权重的计算,预先设计的固定波束不依赖环境,所以可以根据白噪声增益最大化、指向性最大化或者其他任意合理的目标来设计。
3.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法,其特征在于:所述固定波束数据,包括经过波束形成滤波以及后置滤波得到的增强的语音数据。
4.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法,其特征在于:所述5)包括确定识别请求发生的时刻t1,该时刻可根据语音存在概率进行判断,并利用t0至t1的这段时间来估计当下的噪声协方差矩阵,在t1时刻后停止更新,或者直接简单的根据唤醒时刻t0之后的一段固定长度的时间来更新噪声协方差矩阵,该时间小于1s,所述唤醒时刻t0指触发唤醒的那一刻,或者将综合唤醒分数低于预设的阈值时调整为唤醒词说完的某一刻作为t0。
5.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法,其特征在于:所述波束权重的更新,在识别开始时停止更新,保存波束权重,并用固定波束形成的方式得到增强后的语音数据送去识别,与4)中描述的固定波束不同的是此时噪声协方差矩阵Rn更新了,4)中固定波束所使用的协方差矩阵Rn是预先设计的,或者是单位矩阵,或者是根据sinc(.)函数或者其他函数特别构造的,同时,在某些特殊环境下,所更新的噪声协方差矩阵Rn退化成4)中所述固定波束对应的协方差矩阵。
CN202111136150.1A 2021-09-27 2021-09-27 一种针对语音唤醒后提升自动语音识别准确率的方法 Active CN113782024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111136150.1A CN113782024B (zh) 2021-09-27 2021-09-27 一种针对语音唤醒后提升自动语音识别准确率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111136150.1A CN113782024B (zh) 2021-09-27 2021-09-27 一种针对语音唤醒后提升自动语音识别准确率的方法

Publications (2)

Publication Number Publication Date
CN113782024A CN113782024A (zh) 2021-12-10
CN113782024B true CN113782024B (zh) 2024-03-12

Family

ID=78853772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111136150.1A Active CN113782024B (zh) 2021-09-27 2021-09-27 一种针对语音唤醒后提升自动语音识别准确率的方法

Country Status (1)

Country Link
CN (1) CN113782024B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008141593A (ja) * 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音声収音装置、その方法、そのプログラム、およびその記録媒体
CN106683685A (zh) * 2016-12-23 2017-05-17 上海语知义信息技术有限公司 基于最小二乘法的目标方向语音检测方法
CN106710603A (zh) * 2016-12-23 2017-05-24 上海语知义信息技术有限公司 利用线性麦克风阵列的语音识别方法及系统
CN107018470A (zh) * 2016-01-28 2017-08-04 讯飞智元信息科技有限公司 一种基于环形麦克风阵列的语音记录方法及系统
CN108122563A (zh) * 2017-12-19 2018-06-05 北京声智科技有限公司 提高语音唤醒率及修正doa的方法
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视
CN113053368A (zh) * 2021-03-09 2021-06-29 锐迪科微电子(上海)有限公司 语音增强方法、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100493172B1 (ko) * 2003-03-06 2005-06-02 삼성전자주식회사 마이크로폰 어레이 구조, 이를 이용한 일정한 지향성을갖는 빔 형성방법 및 장치와 음원방향 추정방법 및 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008141593A (ja) * 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音声収音装置、その方法、そのプログラム、およびその記録媒体
CN107018470A (zh) * 2016-01-28 2017-08-04 讯飞智元信息科技有限公司 一种基于环形麦克风阵列的语音记录方法及系统
CN106683685A (zh) * 2016-12-23 2017-05-17 上海语知义信息技术有限公司 基于最小二乘法的目标方向语音检测方法
CN106710603A (zh) * 2016-12-23 2017-05-24 上海语知义信息技术有限公司 利用线性麦克风阵列的语音识别方法及系统
CN108122563A (zh) * 2017-12-19 2018-06-05 北京声智科技有限公司 提高语音唤醒率及修正doa的方法
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视
CN113053368A (zh) * 2021-03-09 2021-06-29 锐迪科微电子(上海)有限公司 语音增强方法、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
自适应波束形成算法性能优化研究;陈灿峰 等;《计算机仿真》;第34卷(第9期);第254-258页 *

Also Published As

Publication number Publication date
CN113782024A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN109272989A (zh) 语音唤醒方法、装置和计算机可读存储介质
CN102938254B (zh) 一种语音信号增强系统和方法
WO2019080553A1 (zh) 基于麦克风阵列的目标语音获取方法及装置
CN110556103A (zh) 音频信号处理方法、装置、系统、设备和存储介质
CN109599124A (zh) 一种音频数据处理方法、装置及存储介质
CN110223708B (zh) 基于语音处理的语音增强方法及相关设备
CN107863099B (zh) 一种新型双麦克风语音检测和增强方法
CN109188362B (zh) 一种麦克风阵列声源定位信号处理方法
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN111599371A (zh) 语音增加方法、系统、装置及存储介质
CN110660406A (zh) 近距离交谈场景下双麦克风移动电话的实时语音降噪方法
CN111239686B (zh) 一种基于深度学习的双通道声源定位方法
CN110534126A (zh) 一种基于固定波束形成的声源定位和语音增强方法及系统
CN107167770A (zh) 一种混响条件下的麦克风阵列声源定位装置
CN112034418A (zh) 基于频域Bark子带的波束扫描方法及声源定向装置
CN113936681A (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN106019230B (zh) 一种基于i-vector说话人识别的声源定位方法
CN114171041A (zh) 基于环境检测的语音降噪方法、装置、设备及存储介质
CN112526602A (zh) 一种基于长短时窗和ar模型方差激增效应的p波到时拾取方法
US20240012093A1 (en) Improved location of an acoustic source
CN113782024B (zh) 一种针对语音唤醒后提升自动语音识别准确率的方法
CN116559778B (zh) 一种基于深度学习的车辆鸣笛定位方法及系统
CN112712818A (zh) 语音增强方法、装置、设备
CN117169812A (zh) 一种基于深度学习和波束形成的声源定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant