CN113782024A - 一种针对语音唤醒后提升自动语音识别准确率的方法 - Google Patents
一种针对语音唤醒后提升自动语音识别准确率的方法 Download PDFInfo
- Publication number
- CN113782024A CN113782024A CN202111136150.1A CN202111136150A CN113782024A CN 113782024 A CN113782024 A CN 113782024A CN 202111136150 A CN202111136150 A CN 202111136150A CN 113782024 A CN113782024 A CN 113782024A
- Authority
- CN
- China
- Prior art keywords
- voice
- awakening
- fixed beam
- covariance matrix
- wake
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 35
- 238000001914 filtration Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 230000001960 triggered effect Effects 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及智能语音交互技术领域,且公开了一种针对语音唤醒后提升自动语音识别准确率的方法,将N个语音采集设备以间距d线性排列构成语音采集模块,N为大于等于2的正整数,将采集到的多通道带噪语音数据经傅里叶变换后输入固定波束形成模块,根据预先设计的多个导向矢量生成多个方向的固定波束。该针对语音唤醒后提升自动语音识别准确率的方法,通过提供一种简单有效的提升识别正确率的方法,利用了唤醒加识别的这种常用语音交互模式,将看似没有关系的两者有效结合在一起,以固定波束形成方式,且只在唤醒后识别前触发噪声统计的更新,无需再估计语音统计特性,避免了复杂的计算以及参数估计错误带来的语音畸变。
Description
技术领域
本发明涉及智能语音交互技术领域,具体为一种针对语音唤醒后提升自动语音识别准确率的方法。
背景技术
随着远场智能语音交互应用的越来越深入发展,语音识别的效果直接影响着用户在智能语音设备上的体验,通常来说,语音识别技术涉及到对设备的唤醒、唤醒后对设备的语音控制、与设备进行人机对话等,为方便描述,这里术语“识别”特指通过云端自动语音识别(ASR)系统对唤醒后用户的请求进行识别(如“今天天气怎么样”),在识别中,一个字的错误也可能导致错误的请求。
在实际产品的应用中,环境噪声、房间混响等因素会导致语音识别准确性的严重下降,语音信号处理是现代通信和人工智能等领域的核心技术之一,信号被声传感器,即麦克风采集后,通过前端信号处理技术改善目标语音质量,是一种有效的提升语音识别率的方法,其中,麦克风阵列技术能够利用空间多个麦克风采集到的信息通过波束形成的方式来增强目标语音,波束形成的方法有很多,简单来说,可分为固定波束形成和自适应波束形成,一般来说,固定波束形成即通过设计固定权重方式对空间生成相应拾音波束,该方法稳定且计算复杂度低,但因为无法获知实时的房间混响、噪声统计特性等信息,导致在不同环境很难保持性能一致性,自适应波束形成通过噪声统计特性以及传递函数的估计实时更新权重,使得性能对环境变化有一定的适应性,但算法不够轻便,相比之下会大幅度增加设备使用功耗,并且在更新波束权重时,需要准确区分语音或噪声段,否则有可能损伤到目标语音,严重的在语音识别中会造成掉字、换字等错误,影响用户体验,设计通过简单有效的阵列信号处理来提升识别率的方法是非常必要的。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种针对语音唤醒后提升自动语音识别准确率的方法,具备通过简单有效的阵列信号处理来提升识别率等优点,解决了环境噪声、房间混响等因素会导致语音识别准确性的严重下降,导致可能损伤到目标语音,严重的在语音识别中会造成掉字、换字等错误,影响用户体验的问题。
(二)技术方案
本发明要解决的另一技术问题是提供一种针对语音唤醒后提升自动语音识别准确率的方法,包括以下步骤:
1)将N个语音采集设备以间距d线性排列构成语音采集模块,N为大于等于2的正整数;
2)将采集到的多通道带噪语音数据经傅里叶变换后输入固定波束形成模块,根据预先设计的多个导向矢量生成多个方向的固定波束;
3)将所述多路固定波束数据输入唤醒模块进行唤醒打分;
4)在成功唤醒后,锁定唤醒置信度最高的那一路固定波束所使用的导向矢量S(k,θi),并记录唤醒时刻t0,其中,k为对应子频带,θi为期望方向角;
5)在唤醒后与识别前的时间段估计并更新噪声协方差矩阵Rn;
6)将所述噪声协方差矩阵Rn重构目标函数后,再基于导向矢量S(k,θi)生成约束条件,可计算出波束权重W(k),在识别状态开启时停止更新权重,并沿用估计的权重合成波束数据用于识别直到识别状态关闭。
进一步,所述步骤二中固定波束形成模块,包括预先对平面空间划分为至少2个可能的方向角或导向矢量,具体划分方式可根据步骤一中语音采集设备数量和间距来设计,以至少有一个导向矢量包含目标语音方向为准,并根据不同导向矢量预先完成固定波束权重的计算,预先设计的固定波束不依赖环境,所以可以根据白噪声增益最大化、指向性最大化或者其他任意合理的目标来设计。
进一步,所述固定波束数据,包括经过波束形成滤波以及后置滤波得到的增强的语音数据。
进一步,所述步骤五包括确定识别请求发生的时刻t1,该时刻可根据语音存在概率进行判断,并利用t0至t1的这段时间来估计当下的噪声协方差矩阵,在t1时刻后停止更新,也可以直接简单的根据唤醒时刻t0之后的一段固定长度的时间(通常小于1s)来更新噪声协方差矩阵,所述唤醒时刻t0一般指触发唤醒的那一刻,也可以综合唤醒分数(低于预设的阈值时)调整为唤醒词说完的某一刻。
进一步,所述步骤六中波束权重的更新,其特征在于对于步骤四中置信度最高的那一路固定波束基于当前噪声统计特性的更新,使得更新后的波束对当前噪声(即波束旁瓣)有更好的抑制,实现方式是基于线性约束最小方差的方法,根据所述噪声协方差矩阵Rn重构目标函数{WH*Rn*W},通过导向矢量设计约束条件,计算出波束权重W,其中WH为W的共轭转置。
进一步,所述波束权重的更新,指的是在唤醒后与识别前对噪声协方差矩阵Rn的更新,也可以不仅限于此,比如对导向矢量以及对相应约束条件设计的更新。
进一步,所述波束权重的更新在识别开始时停止更新,保存波束权重,并用固定波束形成的方式得到增强后的语音数据送去识别,与步骤四中描述的固定波束不同的是此时噪声协方差矩阵Rn更新了,步骤四中固定波束所使用的协方差矩阵Rn是预先设计的,可以是单位矩阵,也可以是根据sinc(.)函数或者其他函数特别构造的,同时,在某些特殊环境下,所更新的噪声协方差矩阵Rn也可退化成步骤四中所述固定波束对应的协方差矩阵。
(三)有益效果
与现有技术相比,本发明提供了一种针对语音唤醒后提升自动语音识别准确率的方法,具备以下有益效果:
1、该针对语音唤醒后提升自动语音识别准确率的方法,通过提供一种简单有效的提升识别正确率的方法,利用了唤醒加识别的这种常用语音交互模式,将看似没有关系的两者有效结合在一起。
2、该针对语音唤醒后提升自动语音识别准确率的方法,以固定波束形成方式,且只在唤醒后识别前触发噪声统计的更新,无需再估计语音统计特性,避免了复杂的计算以及参数估计错误带来的语音畸变。
3、该针对语音唤醒后提升自动语音识别准确率的方法,在识别过程中实时更新权重可能会严重损伤到语音,本发明有效结合唤醒时刻信息创造了权重更新的时机,既能避免在识别过程中更新波束,又可以尽可能的得到满足短时平稳的噪声统计特性。
4、该针对语音唤醒后提升自动语音识别准确率的方法,简单有效不仅指的是对噪声协方差矩阵的更新方式,也包括利用唤醒分数来选择所需的置信度最高的导向矢量,从而避免了对导向矢量的冗余计算,用提取的导向矢量与所述噪声协方差矩阵即可对波束权重进行更新。
附图说明
图1为本发明中一种提升语音识别正确率的流程图;
图2为本发明中的固定波束形成模块的框架图;
图3为本发明中的更新固定波束的示意图。
具体实施方式
下面将结合本发明的实施例和附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1~3所示,一种针对唤醒后提升自动语音识别的方法,包括以下步骤:
1)将N个语音采集设备以间距d线性排列构成语音采集模块,N为大于等于2的正整数,相比于传统的键盘输入、文字输入,语音输入的速度,语音输入的效率至少是传统输入方式的三倍以上,在这种输入方式不变的场景下,通过语音的交互效率会更高,通过语音的方式,直接下达指令会更方便,即我们发出语音指令的时候,可以一次性的下达多条指令,然后由机器识别之后,分别去执行这些指令的意图;
2)将采集到的多通道带噪语音数据经傅里叶变换后输入固定波束形成模块,根据预先设计的多个导向矢量生成多个方向的固定波束,固定波束形成模块,包括预先对平面空间划分为至少2个可能的方向角或导向矢量,具体划分方式可根据步骤一中语音采集设备数量和间距来设计,以至少有一个导向矢量包含目标语音方向为准,并根据不同导向矢量预先完成固定波束权重的计算,傅里叶变换是数字信号处理中的基本操作,广泛应用于表述及分析离散时域信号领域,但由于其运算量与变换点数N的平方成正比关系,因此,在N较大时,直接应用DFT算法进行谱变换是不切合实际的,然而,快速傅里叶变换技术的出现使情况发生了根本性的变化,使得该方法的实用性能得到广泛应用;
3)将多路固定波束数据输入唤醒模块进行唤醒打分,送去唤醒的固定波束数据,包括经过波束形成滤波以及后置滤波得到的增强的语音数据,波束形成的优点是可以利用空间信息做空间滤波(Spatialfiltering),以单麦克风降噪为例,单麦克风接收到的信号,无法分辨来波方向,对于噪声的抑制主要抑制平稳噪声,因为语音信号是非平稳的,如何准确区分非平稳的噪声和语音比较困难,麦克风阵列至少有两颗麦克风,能够一定程度的区分来波方向,对于非期望方向的干扰语音或者其他非平稳噪声可以线性地衰减;
4)在成功唤醒后,锁定唤醒置信度最高的那一路固定波束所使用的导向矢量S(k,θi),并记录唤醒时刻t0,其中,k为对应子频带,θi为期望方向角,麦克风阵列的性能主要用白噪声增益和指向性来评价,前者用来评价阵列在白噪声场景下的抑制能力,后者用来评价阵列在扩散场噪声下的阵列增益,其本质都是阵列增益,可以理解为输出信噪比除以输入信噪比,也可以表示为信号的传递函数;
5)在唤醒后与识别前的时间段估计并更新噪声协方差矩阵Rn,所属步骤包括确定识别请求发生的时刻t1,该时刻可根据语音存在概率判断,并利用t0至t1的这段时间来估计当下的噪声协方差矩阵,在t1时刻后停止更新,也可以直接简单的根据唤醒时刻t0之后的一段固定长度的时间(通常小于1s)来更新噪声协方差矩阵,唤醒时刻t0一般指触发唤醒的那一刻,也可以综合唤醒分数(低于预设的阈值时)调整为唤醒词说完的某一刻,在统计学与概率论中,协方差矩阵的每个元素是各个向量元素之间的协方差,是从标量随机变量到高维度随机向量的自然推广,协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的,标准差和方差一般是用来描述一维数据的,可以利用协方差矩阵来运算多维数据的数据集;
6)将噪声协方差矩阵Rn重构目标函数后,再基于导向矢量S(k,θi)生成约束条件,可计算出波束权重W(k),在识别状态开启时停止更新权重,并沿用估计的权重合成波束数据用于识别直到识别状态关闭,波束权重的更新,指的是对于步骤四中置信度最高的那一路固定波束基于当前噪声统计特性的更新,使得更新后的波束对当前噪声(即波束旁瓣)有更好的抑制,实现方式是基于线性约束最小方差的方法,根据噪声协方差矩阵Rn重构目标函数{WH*Rn*W},通过导向矢量设计约束条件,计算出波束权重W,其中WH为W的共轭转置,同时,在某些特殊环境下,所更新的噪声协方差矩阵Rn也可退化成步骤四中固定波束对应的协方差矩阵。
本发明的有益效果是:提供了一种简单有效的提升识别正确率的方法,利用了唤醒加识别的这种常用语音交互模式,将看似没有关系的两者有效结合在一起,以固定波束形成方式,且只在唤醒后识别前触发噪声统计的更新,无需再估计语音统计特性,避免了复杂的计算以及参数估计错误带来的语音畸变,在识别过程中实时更新权重可能会严重损伤到语音,本发明有效结合唤醒时刻信息创造了权重更新的时机,既能避免在识别过程中更新波束,又可以尽可能的得到满足短时平稳的噪声统计特性,本发明简单有效不仅指的是对噪声协方差矩阵的更新方式,也包括利用唤醒分数来选择所需的置信度最高的导向矢量,从而避免了对导向矢量的冗余计算,用提取的导向矢量与所述噪声协方差矩阵即可对波束权重进行更新。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种针对语音唤醒后提升自动语音识别准确率的方法,其特征在于:包括以下步骤:
1)将N个语音采集设备以间距d线性排列构成语音采集模块,N为大于等于2的正整数;
2)将采集到的多通道带噪语音数据经傅里叶变换后输入固定波束形成模块,根据预先设计的多个导向矢量生成多个方向的固定波束;
3)将所述多路固定波束数据输入唤醒模块进行唤醒打分;
4)在成功唤醒后,锁定唤醒置信度最高的那一路固定波束所使用的导向矢量S(k,θi),并记录唤醒时刻t0,其中,k为对应子频带,θi为期望方向角;
5)在唤醒后与识别前的时间段估计并更新噪声协方差矩阵Rn;
6)将所述噪声协方差矩阵Rn重构目标函数后,再基于导向矢量S(k,θi)生成约束条件,可计算出波束权重W(k),在识别状态开启时停止更新权重,并沿用估计的权重合成波束数据用于识别直到识别状态关闭。
2.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法,其特征在于:所述步骤二中固定波束形成模块,包括预先对平面空间划分为至少2个可能的方向角或导向矢量,具体划分方式可根据步骤一中语音采集设备数量和间距来设计,以至少有一个导向矢量包含目标语音方向为准,并根据不同导向矢量预先完成固定波束权重的计算,预先设计的固定波束不依赖环境,所以可以根据白噪声增益最大化、指向性最大化或者其他任意合理的目标来设计。
3.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法,其特征在于:所述固定波束数据,包括经过波束形成滤波以及后置滤波得到的增强的语音数据。
4.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法,其特征在于:所述步骤五包括确定识别请求发生的时刻t1,该时刻可根据语音存在概率进行判断,并利用t0至t1的这段时间来估计当下的噪声协方差矩阵,在t1时刻后停止更新,也可以直接简单的根据唤醒时刻t0之后的一段固定长度的时间(通常小于1s)来更新噪声协方差矩阵,所述唤醒时刻t0一般指触发唤醒的那一刻,也可以综合唤醒分数(低于预设的阈值时)调整为唤醒词说完的某一刻。
5.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法,其特征在于:所述步骤六中波束权重的更新,其特征在于对于步骤四中置信度最高的那一路固定波束基于当前噪声统计特性的更新,使得更新后的波束对当前噪声(即波束旁瓣)有更好的抑制,实现方式是基于线性约束最小方差的方法,根据所述噪声协方差矩阵Rn重构目标函数{WH*Rn*W},通过导向矢量设计约束条件,计算出波束权重W,其中WH为W的共轭转置。
6.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法,其特征在于:所述波束权重的更新,指的是在唤醒后与识别前对噪声协方差矩阵Rn的更新,也可以不仅限于此,比如对导向矢量以及对相应约束条件设计的更新。
7.根据权利要求1所述的一种针对语音唤醒后提升自动语音识别准确率的方法,其特征在于:所述波束权重的更新,在识别开始时停止更新,保存波束权重,并用固定波束形成的方式得到增强后的语音数据送去识别,与步骤四中描述的固定波束不同的是此时噪声协方差矩阵Rn更新了,步骤四中固定波束所使用的协方差矩阵Rn是预先设计的,可以是单位矩阵,也可以是根据sinc(.)函数或者其他函数特别构造的,同时,在某些特殊环境下,所更新的噪声协方差矩阵Rn也可退化成步骤四中所述固定波束对应的协方差矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111136150.1A CN113782024B (zh) | 2021-09-27 | 2021-09-27 | 一种针对语音唤醒后提升自动语音识别准确率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111136150.1A CN113782024B (zh) | 2021-09-27 | 2021-09-27 | 一种针对语音唤醒后提升自动语音识别准确率的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113782024A true CN113782024A (zh) | 2021-12-10 |
CN113782024B CN113782024B (zh) | 2024-03-12 |
Family
ID=78853772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111136150.1A Active CN113782024B (zh) | 2021-09-27 | 2021-09-27 | 一种针对语音唤醒后提升自动语音识别准确率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113782024B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040175006A1 (en) * | 2003-03-06 | 2004-09-09 | Samsung Electronics Co., Ltd. | Microphone array, method and apparatus for forming constant directivity beams using the same, and method and apparatus for estimating acoustic source direction using the same |
JP2008141593A (ja) * | 2006-12-04 | 2008-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 音声収音装置、その方法、そのプログラム、およびその記録媒体 |
CN106683685A (zh) * | 2016-12-23 | 2017-05-17 | 上海语知义信息技术有限公司 | 基于最小二乘法的目标方向语音检测方法 |
CN106710603A (zh) * | 2016-12-23 | 2017-05-24 | 上海语知义信息技术有限公司 | 利用线性麦克风阵列的语音识别方法及系统 |
CN107018470A (zh) * | 2016-01-28 | 2017-08-04 | 讯飞智元信息科技有限公司 | 一种基于环形麦克风阵列的语音记录方法及系统 |
CN108122563A (zh) * | 2017-12-19 | 2018-06-05 | 北京声智科技有限公司 | 提高语音唤醒率及修正doa的方法 |
CN110875045A (zh) * | 2018-09-03 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、智能设备和智能电视 |
CN113053368A (zh) * | 2021-03-09 | 2021-06-29 | 锐迪科微电子(上海)有限公司 | 语音增强方法、电子设备和存储介质 |
-
2021
- 2021-09-27 CN CN202111136150.1A patent/CN113782024B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040175006A1 (en) * | 2003-03-06 | 2004-09-09 | Samsung Electronics Co., Ltd. | Microphone array, method and apparatus for forming constant directivity beams using the same, and method and apparatus for estimating acoustic source direction using the same |
JP2008141593A (ja) * | 2006-12-04 | 2008-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 音声収音装置、その方法、そのプログラム、およびその記録媒体 |
CN107018470A (zh) * | 2016-01-28 | 2017-08-04 | 讯飞智元信息科技有限公司 | 一种基于环形麦克风阵列的语音记录方法及系统 |
CN106683685A (zh) * | 2016-12-23 | 2017-05-17 | 上海语知义信息技术有限公司 | 基于最小二乘法的目标方向语音检测方法 |
CN106710603A (zh) * | 2016-12-23 | 2017-05-24 | 上海语知义信息技术有限公司 | 利用线性麦克风阵列的语音识别方法及系统 |
CN108122563A (zh) * | 2017-12-19 | 2018-06-05 | 北京声智科技有限公司 | 提高语音唤醒率及修正doa的方法 |
CN110875045A (zh) * | 2018-09-03 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、智能设备和智能电视 |
CN113053368A (zh) * | 2021-03-09 | 2021-06-29 | 锐迪科微电子(上海)有限公司 | 语音增强方法、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
陈灿峰 等: "自适应波束形成算法性能优化研究", 《计算机仿真》, vol. 34, no. 9, pages 254 - 258 * |
Also Published As
Publication number | Publication date |
---|---|
CN113782024B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491404B (zh) | 语音处理方法、装置、终端设备及存储介质 | |
CN110992974B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN107703486B (zh) | 一种基于卷积神经网络cnn的声源定位方法 | |
WO2020042707A1 (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN111081231B (zh) | 用于多声道语音识别的自适应音频增强 | |
CN109272989A (zh) | 语音唤醒方法、装置和计算机可读存储介质 | |
US10123113B2 (en) | Selective audio source enhancement | |
CN105068048B (zh) | 基于空间稀疏性的分布式麦克风阵列声源定位方法 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
CN108122563A (zh) | 提高语音唤醒率及修正doa的方法 | |
CN110223708B (zh) | 基于语音处理的语音增强方法及相关设备 | |
CN110556103A (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
CN108877827A (zh) | 一种语音增强交互方法及系统、存储介质及电子设备 | |
CN102938254A (zh) | 一种语音信号增强系统和方法 | |
CN110660406A (zh) | 近距离交谈场景下双麦克风移动电话的实时语音降噪方法 | |
CN112735460B (zh) | 基于时频掩蔽值估计的波束成形方法及系统 | |
CN111239686B (zh) | 一种基于深度学习的双通道声源定位方法 | |
CN110867178B (zh) | 一种多通道远场语音识别方法 | |
CN112712818A (zh) | 语音增强方法、装置、设备 | |
CN113782024A (zh) | 一种针对语音唤醒后提升自动语音识别准确率的方法 | |
CN111443328A (zh) | 基于深度学习的声音事件检测与定位方法 | |
CN113223552B (zh) | 语音增强方法、装置、设备、存储介质及程序 | |
CN113763984B (zh) | 一种用于分布式多说话人的参数化噪声消除系统 | |
CN114333884B (zh) | 一种基于麦克风阵列结合唤醒词进行的语音降噪方法 | |
US20240212701A1 (en) | Estimating an optimized mask for processing acquired sound data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |