CN108122563A - 提高语音唤醒率及修正doa的方法 - Google Patents
提高语音唤醒率及修正doa的方法 Download PDFInfo
- Publication number
- CN108122563A CN108122563A CN201711375740.3A CN201711375740A CN108122563A CN 108122563 A CN108122563 A CN 108122563A CN 201711375740 A CN201711375740 A CN 201711375740A CN 108122563 A CN108122563 A CN 108122563A
- Authority
- CN
- China
- Prior art keywords
- wake
- voice
- signal
- value
- confidence level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 16
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 16
- 230000002708 enhancing effect Effects 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 230000002618 waking effect Effects 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 206010002953 Aphonia Diseases 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000009740 moulding (composite fabrication) Methods 0.000 description 5
- 239000004568 cement Substances 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8003—Diversity systems specially adapted for direction finding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开提供了一种提高语音唤醒率及修正DOA的方法,包括:步骤S1,进行单或双通道语音增强,通过VAD检测或者语音存在概率计算是否存在语音,若存在语音则转至步骤S2;步骤S2,进行唤醒,当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3;步骤S3,进行高分辨率DOA估计以及基于估计方向的波束合成,对波束合成之后的信号进行第二次唤醒,判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况,若存在则转至步骤S4;步骤S4,设备进入识别状态,确定DOA。通过两次唤醒,可以大大提高远场语音唤醒率,同时得到更加准确的目标方向估计,便于后续语音增强中提高SNR减少语音损伤,进一步提高识别率。
Description
技术领域
本公开涉及智能语音交互领域,尤其涉及一种提高语音唤醒率和修正DOA(Direction of Arrival,即波达方向)的方法。
背景技术
当前智能语音硬件设备应用越来越广泛,如智能音响、机器人等。这些智能语音设备一般通过麦克风阵列信号处理后再进行语音识别,从而提高远场条件下的语音识别率。这些设备一般都具有的功能包括可以用某个关键词唤醒,唤醒后可以找到说话人的方向,可以对说话人的方向进行语音增强,并且自己在播放音乐或语音的情况下,可对其用唤醒词打断。因此主要涉及的技术包括回声消除技术、波达方向估计技术、波束形成技术、去混响技术等。
目前这些智能语音交互设备存在的一个难题是远场唤醒率低。智能语音交互设备的唤醒、识别依赖于语音信号质量的好坏,设备对接收到的干净的语音信号唤醒率、识别率都很高,对受混响、噪声、干扰影响远场语音信号唤醒率、识别率都较低。这是因为目前的处理方法是在唤醒时进行DOA估计,而此时用于唤醒的语音信号通常是某一路未经处理或者经过单通道降噪的麦克风信号,信号质量偏低,导致唤醒率偏低,且当多个声源同时存在或者当设备距离墙壁、显示屏等强反射面时,唤醒时刻DOA估计不准确,导致后面的波束形成误将说话人的声音当做噪声消除掉,从而造成设备无法听懂说话人的指令。
公开内容
(一)要解决的技术问题
本公开提供了一种提高语音唤醒率和修正的方法,以至少部分解决以上所提出的技术问题。
(二)技术方案
根据本公开的一个方面,提供了一种提高语音唤醒率及修正DOA的方法,包括:步骤S0,接收麦克风阵列获取的录音信号,并判断设备是否处于唤醒状态,若处于未唤醒状态,则执行步骤S1;步骤S1,进行单或双通道语音增强,通过VAD检测或者语音存在概率计算是否存在语音,若存在语音则转至步骤S2;若不存在语音则返回步骤S0;步骤S2,进行唤醒,当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3;若唤醒置信度小于第一唤醒阈值ε_l时返回步骤S0;步骤S3,进行高分辨率DOA估计以及基于估计方向的波束合成,对波束合成之后的信号进行第二次唤醒,判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况,若存在则转至步骤S4;若不存在则返回步骤S0;步骤S4,设备进入识别状态,确定DOA。
在本公开一些实施例中,所述步骤S3包括:采用MUSIC算法进行高分辨率DOA估计,假设有D个声源,
数据协方差矩阵表示为:
R(k)xx=E{X(k)X(k)H}=R(k)SS+R(k)nn
其中R(k)SS=E{S(k)S(k)H},R(k)nn=E{n(k)n(k)H}分别是语音、噪声协方差矩阵;S(k)=[s1(k),…,sl(k),…,sD(k)]T是D*1维信号源向量,sl(k)是第l个声源信号,n(k)是噪声向量,T表示转置,k表示频带。
对数据协方差矩阵进行分解,R(k)xx=EΛEH,Λ是降序排列的特征值构成的对角矩阵,E(k)=[E(k)S,E(k)n]是对应的特征向量,E(k)S、E(k)n分别是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的信号子空间和噪声子空间;
阵元域MUSIC方位谱函数为:
P(k,θ)=1/aH(k,θ)E(k)nE(k)n Ha(k,θ),θ∈Θ
a(k,θ)是阵列流形向量,θ表示方位角,Θ表示观察扇面。
在本公开一些实施例中,通过高分辨率DOA估计区分多个声源,并显示该方向信号功率,根据确定的声源方向,针对声源方向进行波束形成。
在本公开一些实施例中,所述步骤S1中:单或双通道语音增强时,单通道降噪可任选某一路信号,降噪方法包括维纳滤波、谱减法、IMCRA方法,双通道降噪利用双通道相关性进行降噪或者双通道自适应算法进行语音增强。
在本公开一些实施例中,所述步骤S2中:当检测到语音存在时进行唤醒,并计算唤醒置信度,唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3,否则视为非唤醒关键词,返回步骤S0。
在本公开一些实施例中,第一唤醒阈值ε_l根据不同的关键词、模型选择不同的值,所述第一唤醒阈值ε_l的范围为0.3以下。
在本公开一些实施例中,所述步骤S3还包括:对波束合成之后的信号进行第二次唤醒,选择是方位谱能量较高的n个波束进行逐个计算唤醒置信度:当唤醒置信度都低于第二唤醒阈值ε_h时视为语音无关键词,设备保持未唤醒状态;当唤醒置信度存在高于第二唤醒阈值ε_h的情况时,选择唤醒置信度最高的波束方向即为目标声源方向。
在本公开一些实施例中,所述第二唤醒阈值ε_h的选择依赖于唤醒词、唤醒模型,同时兼顾设备误唤醒率。
在本公开一些实施例中,所述步骤S0包括:麦克风阵列进行录音,设备实时接收麦克风阵列采集信号,其中,假设麦克风的个数是N,目标声源个数为1,干扰声源的数量为D-1,其中D>=1,采集信号记为:
x(n)=[x1(n),…,xi(n),…,xN(n)]T
后续信号处理主要在频域进行,采用重叠相加语音处理框架,将时域信号进行FFT变换转到频域:
X(k)=[x1(k),…,xi(k),…,xN(k)]T
麦克信号为语音信号与噪声、干扰的叠加:
X(k)=A(k,ΘD)S(k)+n(k)
其中,i表示麦克风序号,n表示时域序列,k表示频带,N*D维阵列流形矩阵A(k,ΘD)=[a(k,θ1),…,a(k,θl),…,a(k,θD)],a(k,θl)是阵列流形向量,ΘD=[θ1,…,θl,…θD]表示D个信号源方向。
在本公开一些实施例中,所述步骤S0还包括:若设备处于唤醒状态,即处于语音识别状态,则执行步骤S4;所述步骤S4还包括:确定DOA后,对该目标语音方向进行信号增强,在识别结束后,将设备状态改为未唤醒状态,返回步骤S0。
(三)有益效果
从上述技术方案可以看出,本公开提高语音唤醒率和修正DOA的方法至少具有以下有益效果其中之一:
(1)通过两次唤醒,可以大大提高远场语音唤醒率,同时得到更加准确的目标方向估计,便于后续语音增强中提高SNR减少语音损伤,进一步提高识别率,大幅提高智能设备体验效果;
(2)通过远场语音信号的回声消除、波束形成等语音增强技术处理后语音质量会有较大提高。
附图说明
图1为本公开实施例提高语音唤醒率和修正DOA的方法流程图。
图2为本公开实施例DOA估计与传统方法及真实值的对比图。
图3为本公开实施例与未采用波束合成情形下语谱图及其唤醒置信度对比图。
具体实施方式
本公开提供了一种提高语音唤醒率和修正DOA的方法,用于提高远场唤醒率,通过引入VAD(Voice Activity Detection,即语音活动检测)检测或者语音存在概率估计(针对阵列某一通道信号),在语音存在时刻进行唤醒,当唤醒置信度大于某一较低阈值ε_l,对阵列信号进行高分辨率DOA估计,在估计出的置信度较高的n个声源方向分别进行估计方向的波束合形成,对n个波束信号进行唤醒,唤醒置信度大于某一较高阈值ε_h时,智能设备进入唤醒状态,该方向即为目标说话人方向,后续可对该方向信号增强,进行识别。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
本公开某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本公开的各种实施例可以许多不同形式实现,而不应被解释为限于此数所阐述的实施例;相对地,提供这些实施例使得本公开满足适用的法律要求。
在本公开的第一个示例性实施例中,提供了提高语音唤醒率和修正DOA的方法,结合语音增强、DOA估计、波束形成技术提高唤醒率。图1为本公开实施例提高语音唤醒率和修正DOA的方法流程图。如图1所示,本公开提高语音唤醒率和修正DOA的方法包括:
步骤S0,接收麦克风阵列获取的录音信号,并判断设备是否处于唤醒状态,若处于未唤醒状态,则执行步骤S1;若处于唤醒状态,即处于识别状态,则执行步骤S4;
步骤S1,进行单或双通道语音增强,通过VAD检测或者语音存在概率计算是否存在语音,若存在语音则转至步骤S2;若不存在语音则返回步骤S0;
步骤S2,进行唤醒并计算唤醒置信度,当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3;若唤醒置信度小于第一唤醒阈值ε_l时返回步骤S0;
步骤S3,进行高分辨率DOA估计以及估计方向的波束合成,对波束合成之后的信号进行第二次唤醒,判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况,若存在则转至步骤S4;若不存则返回步骤S0;
步骤S4,设备进入识别状态,对该目标语音方向进行信号增强,提高识别效果,直到识别结束,设备状态改为未唤醒状态,返回步骤S0;
以下分别对本实施例提高语音唤醒率和修正DOA的方法的各个步骤进行详细描述。
步骤S0,识别接收麦克风阵列获取的录音信号,并判断设备是否处于唤醒状态,若处于未唤醒状态,则执行步骤S1;若处于唤醒状态,即处于识别状态,则执行步骤S4;具体包括:
麦克风阵列进行录音,设备接收阵列采集信号。设备存在两个状态,一是未唤醒状态,二是唤醒状态,即设备已被唤醒。假设麦克风的个数是N,目标声源个数为1和干扰声源的数量为D-1,其中D>=1,采集信号记为
x(n)=[x1(n),…,xi(n),…,xN(n)]T
后续信号处理主要在频域进行,采用重叠相加语音处理框架,将时域信号进行FFT变换转到频域:
X(k)=[x1(k),…,xi(k),…,xN(k)]T
麦克信号为语音信号与噪声、干扰的叠加:
X(k)=A(k,ΘD)S(k)+n(k)
其中N*D维阵列流形矩阵A(k,ΘD)=[a(k,θ1),…,a(k,θl),…,a(k,θD],a(k,θl)是阵列流形向量,ΘD=[θ1,…,θl,…θD]表示D个信号源方向,S(k)=[s1(k),…,sl(k),…,sD(k)]T是D*1维信号源向量,sl(k)是第l个声源信号,n(k)是噪声向量,T表示转置,n表示时域序列,i表示麦克风序号,k表示频带。
步骤S1,进行单或双通道语音增强,通过VAD检测或者语音存在概率计算是否存在语音,若存在语音则转至步骤S2;若不存在语音则返回步骤S0;具体包括:
单或双通道语音增强,目的是为后面的VAD检测或者语音存在概率计算和第一次唤醒提供质量更好的语音信号。单通道降噪可任选某一路信号,降噪方法可采用维纳滤波、谱减法、IMCRA等方法,双通道降噪利用双通道相关性进行降噪或者双通道自适应算法进行语音增强。
步骤S2,进行唤醒并计算唤醒置信度,当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3;若唤醒置信度小于第一唤醒阈值ε_l时返回步骤S0;具体包括:
检测到语音存在时进行唤醒,唤醒置信度大于第一唤醒阈值ε_l时进行后续处理,否则视为非唤醒关键词。第一唤醒阈值ε_l根据不同的关键词、模型选择不同的值,与常规的唤醒阈值相比较小,通常为0.3以下。考虑计算量的问题,唤醒可以采用较小的唤醒模型筛选语音信号,选择恰当的第一唤醒阈值ε_l非常关键。
步骤S3,进行高分辨率DOA估计以及估计方向的波束合成,对波束合成之后的信号进行第二次唤醒,判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况,若存在则转至步骤S4;若不存则返回步骤S0;具体包括:
进行高分辨率DOA估计以及估计方向的波束合成。本公开采用MUSIC算法估计DOA,假设有D个声源,
数据协方差矩阵表示为:
E(k)xx=E{X(k)X(k)H}=R(k)SS+R(k)nn
其中R(k)SS=E{S(k)S(k)H},R(k)nn=E{n(k)n(k)H}分别是语音、噪声协方差矩阵;
对数据协方差矩阵进行分解,R(k)xx=EΛEH,Λ是降序排列的特征值构成的对角矩阵,E(k)=[E(k)S,E(k)n]是对应的特征向量,E(k)S、E(k)n分别是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的信号子空间和噪声子空间;
阵元域MUSIC方位谱函数为:
P(k,θ)=1/aH(k,θ)W(k)nE(k)n Ha(k,θ),θ∈Θ
θ表示方位角,Θ表示观察扇面。
如图2所示,说话人方向为-18°方向,干扰分别在-25°和10°方向,信号与干扰的强度相同,传统DOA估计无法区分相邻较近的两个声源,而高分辨率DOA估计可以清晰地区分多个声源,且正确地显示了该方向信号功率。确定了声源方向,针对声源方向进行波束形成,提高信号的质量,语音信号唤醒置信度提高较多。
对波束合成之后的信号进行第二次唤醒,选择是方位谱能量较高的n个波束进行逐个计算唤醒置信度,唤醒置信度都低于第二唤醒阈值ε_h时视为语音无关键词,设备保持未唤醒状态,唤醒置信度存在高于第二唤醒阈值ε_h的情况时,选择唤醒置信度最高的波束方向即为目标声源方向。第二唤醒阈值ε_h的选择依赖于唤醒词、唤醒模型,同时兼顾设备误唤醒率,选择合适的阈值。
步骤S4,设备进入识别状态,确定DOA,对该目标语音方向进行信号增强,提高识别效果,直到识别结束,设备状态改为未唤醒状态,重复上述步骤。
图3为本公开实施例与未采用波束合成情形下语谱图及其唤醒置信度对比图,其中(a)、(b)、(c)分别是距离说话人0.2m(近场)、3m(远场)的阵列录音(取麦克风1)及波束合成后三种情况的语音时频图(为消除幅度影响,语音均做了归一化处理),本实施例中实际录音及仿真均采用4麦克风环阵,半径为0.035m。如图3所示,图题中给出了相应的唤醒置信度,分别为0.9、0.47、0.85,可以看出当说话人距离阵列较远时,语音信号已严重污染,唤醒置信度较低,容易漏检,为防止漏检需要设置较低的唤醒阈值,会造成误唤醒率增高,影响用户体验,经过多通道语音增强后的关键词唤醒置信度已接近近场语音,可提高唤醒率。
至此,本公开第一实施例提高语音唤醒率和修正DOA的方法介绍完毕。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词,以修饰相应的元件,其本身并不意味着该元件有任何的序数,也不代表某一元件与另一元件的顺序、或是制造方法上的顺序,该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。
此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。
本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种提高语音唤醒率及修正DOA的方法,包括:
步骤S0,接收麦克风阵列获取的录音信号,并判断设备是否处于唤醒状态,若处于未唤醒状态,则执行步骤S1;
步骤S1,进行单或双通道语音增强,通过VAD检测或者语音存在概率计算是否存在语音,若存在语音则转至步骤S2;若不存在语音则返回步骤S0;
步骤S2,进行唤醒,当唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3;若唤醒置信度小于第一唤醒阈值ε_l时返回步骤S0;
步骤S3,进行高分辨率DOA估计以及基于估计方向的波束合成,对波束合成之后的信号进行第二次唤醒,判断唤醒置信度是否存在高于第二唤醒阈值ε_h的情况,若存在则转至步骤S4;若不存在则返回步骤S0;
步骤S4,设备进入识别状态,确定DOA。
2.根据权利要求1所述的方法,所述步骤S3包括:
采用MUSIC算法进行高分辨率DOA估计,声源个数为D个,
则数据协方差矩阵表示为:
R(k)xx=E{X(k)X(k)H}=R(k)SS+R(k)nn
其中R(k)SS=E{S(k)S(k)H},R(k)nn=E{n(k)n(k)H分别是语音、噪声协方差矩阵;S(k)=[s1(k),…,sl(k),…,sD(k)]T是D*1维信号源向量,sl(k)是第l个声源信号,n(k)是噪声向量,T表示转置,k表示频带;
对数据协方差矩阵进行分解,R(k)xx=EΛEH,Λ是降序排列的特征值构成的对角矩阵,E(k)=[E(k)S,E(k)n]是对应的特征向量,E(k)S、E(k)n分别是由较大的D个特征值与较小的N-D个特征值对应的特征向量组成的信号子空间和噪声子空间;
阵元域MUSIC方位谱函数为:
P(k,θ)=1/aH(k,θ)E(k)nE(k)n H(k,θ),θ∈Θ
a(k,θ)是阵列流形向量,θ表示方位角,Θ表示观察扇面。
3.根据权利要求2所述的方法,通过高分辨率DOA估计区分多个声源,并显示该方向信号功率,根据确定的声源方向,针对声源方向进行波束形成。
4.根据权利要求1或2所述的方法,所述步骤S1中:
单或双通道语音增强时,单通道降噪任选某一路信号,降噪方法包括维纳滤波、谱减法、IMCRA方法,双通道降噪利用双通道相关性进行降噪或者双通道自适应算法进行语音增强。
5.根据权利要求1或2所述的方法,所述步骤S2中:
当检测到语音存在时进行唤醒,并计算唤醒置信度,唤醒置信度大于第一唤醒阈值ε_l时转至步骤S3,否则视为非唤醒关键词,返回步骤S0。
6.根据权利要求5所述的方法,第一唤醒阈值ε_l根据不同的关键词、模型选择不同的值,所述第一唤醒阈值ε_l的范围为0.3以下。
7.根据权利要求6所述的方法,所述步骤S3还包括:
对波束合成之后的信号进行第二次唤醒,选择是方位谱能量较高的n个波束进行逐个计算唤醒置信度:
当唤醒置信度都低于第二唤醒阈值ε_h时视为语音无关键词,设备保持未唤醒状态;
当唤醒置信度存在高于第二唤醒阈值ε_h的情况时,选择唤醒置信度最高的波束方向即为目标声源方向。
8.根据权利要求7所述的方法,所述第二唤醒阈值ε_h的选择依赖于唤醒词、唤醒模型,同时兼顾设备误唤醒率。
9.根据权利要求1所述的方法,所述步骤S0包括:
麦克风阵列进行录音,设备实时接收麦克风阵列采集信号,其中,
假设麦克风的个数是N,目标声源个数为1,干扰声源的数量为D-1,其中D>=1,采集信号记为:
x(n)=[x1(n),…,xi(n),…,xN(n)]T
后续信号处理主要在频域进行,采用重叠相加语音处理框架,将时域信号进行FFT变换转到频域:
X(k)=[x1(k),…,xi(k),…,xN(k)]T
麦克信号为语音信号与噪声、干扰的叠加:
X(k)=A(k,ΘD)S(k)+n(k)
其中,i表示麦克风序号,n表示时域序列,k表示频带,N*D维阵列流形矩阵A(k,ΘD)=[a(k,θ1),…,a(k,θl),…,a(k,θD)],a(k,θl)是阵列流形向量,ΘD=[θ1,…,θl,…θD]表示D个信号源方向。
10.根据权利要求1所述的方法,
所述步骤S0还包括:
若设备处于唤醒状态,即处于语音识别状态,则执行步骤S4;和/或
所述步骤S4还包括:
确定DOA后,对该目标语音方向进行信号增强,在识别结束后,将设备状态改为未唤醒状态,返回步骤S0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711375740.3A CN108122563B (zh) | 2017-12-19 | 2017-12-19 | 提高语音唤醒率及修正doa的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711375740.3A CN108122563B (zh) | 2017-12-19 | 2017-12-19 | 提高语音唤醒率及修正doa的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108122563A true CN108122563A (zh) | 2018-06-05 |
CN108122563B CN108122563B (zh) | 2021-03-30 |
Family
ID=62230399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711375740.3A Active CN108122563B (zh) | 2017-12-19 | 2017-12-19 | 提高语音唤醒率及修正doa的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108122563B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538306A (zh) * | 2017-12-29 | 2018-09-14 | 北京声智科技有限公司 | 提高语音设备doa估计的方法及装置 |
CN108899044A (zh) * | 2018-07-27 | 2018-11-27 | 苏州思必驰信息科技有限公司 | 语音信号处理方法及装置 |
CN108922553A (zh) * | 2018-07-19 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及系统 |
CN109192219A (zh) * | 2018-09-11 | 2019-01-11 | 四川长虹电器股份有限公司 | 基于关键词改进麦克风阵列远场拾音的方法 |
CN109461456A (zh) * | 2018-12-03 | 2019-03-12 | 北京云知声信息技术有限公司 | 一种提升语音唤醒成功率的方法 |
CN109599124A (zh) * | 2018-11-23 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN109697984A (zh) * | 2018-12-28 | 2019-04-30 | 北京声智科技有限公司 | 一种降低智能设备自唤醒的方法 |
CN109920433A (zh) * | 2019-03-19 | 2019-06-21 | 上海华镇电子科技有限公司 | 嘈杂环境下电子设备的语音唤醒方法 |
CN110534102A (zh) * | 2019-09-19 | 2019-12-03 | 北京声智科技有限公司 | 一种语音唤醒方法、装置、设备及介质 |
CN110570861A (zh) * | 2019-09-24 | 2019-12-13 | Oppo广东移动通信有限公司 | 用于语音唤醒的方法、装置、终端设备及可读存储介质 |
CN110782911A (zh) * | 2018-07-30 | 2020-02-11 | 阿里巴巴集团控股有限公司 | 音频信号处理方法、装置、设备和存储介质 |
WO2020029882A1 (zh) * | 2018-08-06 | 2020-02-13 | 腾讯科技(深圳)有限公司 | 一种方位角估计的方法、设备及存储介质 |
CN110797051A (zh) * | 2019-10-28 | 2020-02-14 | 星络智能科技有限公司 | 一种唤醒门限设置方法、装置、智能音箱及存储介质 |
WO2020043037A1 (zh) * | 2018-08-30 | 2020-03-05 | 阿里巴巴集团控股有限公司 | 语音转录设备、系统、方法、及电子设备 |
CN110875045A (zh) * | 2018-09-03 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、智能设备和智能电视 |
CN111175693A (zh) * | 2020-01-19 | 2020-05-19 | 河北科技大学 | 一种波达方向估计方法及波达方向估计装置 |
CN111179909A (zh) * | 2019-12-13 | 2020-05-19 | 航天信息股份有限公司 | 一种多麦远场语音唤醒方法及系统 |
EP3657497A1 (en) * | 2018-11-20 | 2020-05-27 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for selecting target beam data from a plurality of beams |
CN111276143A (zh) * | 2020-01-21 | 2020-06-12 | 北京远特科技股份有限公司 | 声源定位方法、装置、语音识别控制方法和终端设备 |
CN112413859A (zh) * | 2020-11-24 | 2021-02-26 | 珠海格力电器股份有限公司 | 空调器控制方法、装置、空调器及存储介质 |
CN112435668A (zh) * | 2020-11-06 | 2021-03-02 | 联想(北京)有限公司 | 一种语音识别方法、装置及存储介质 |
CN112562742A (zh) * | 2020-12-29 | 2021-03-26 | 苏州思必驰信息科技有限公司 | 语音处理方法和装置 |
CN113066488A (zh) * | 2021-03-26 | 2021-07-02 | 深圳市欧瑞博科技股份有限公司 | 语音唤醒智能控制方法、装置、电子设备及存储介质 |
CN113782024A (zh) * | 2021-09-27 | 2021-12-10 | 上海互问信息科技有限公司 | 一种针对语音唤醒后提升自动语音识别准确率的方法 |
CN114333884A (zh) * | 2020-09-30 | 2022-04-12 | 北京君正集成电路股份有限公司 | 一种基于麦克风阵列结合唤醒词进行的语音降噪方法 |
CN115148203A (zh) * | 2022-06-06 | 2022-10-04 | 青岛海尔科技有限公司 | 拾音校准方法、装置、非易失性存储介质及电子设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7349851B2 (en) * | 1998-11-12 | 2008-03-25 | Microsoft Corporation | Speech recognition user interface |
CN101908918A (zh) * | 2010-07-26 | 2010-12-08 | 重庆大学 | 无线通信接收机中的一种波束合成方法 |
CN104076331A (zh) * | 2014-06-18 | 2014-10-01 | 南京信息工程大学 | 一种七元麦克风阵列的声源定位方法 |
US9098467B1 (en) * | 2012-12-19 | 2015-08-04 | Rawles Llc | Accepting voice commands based on user identity |
CN105912092A (zh) * | 2016-04-06 | 2016-08-31 | 北京地平线机器人技术研发有限公司 | 人机交互中的语音唤醒方法及语音识别装置 |
EP3096319A1 (en) * | 2014-01-15 | 2016-11-23 | Yulong Computer Telecommunication Scientific (Shenzhen) Co., Ltd. | Speech processing method and speech processing apparatus |
CN106448663A (zh) * | 2016-10-17 | 2017-02-22 | 海信集团有限公司 | 语音唤醒方法及语音交互装置 |
CN106531179A (zh) * | 2015-09-10 | 2017-03-22 | 中国科学院声学研究所 | 一种基于语义先验的选择性注意的多通道语音增强方法 |
CN106782585A (zh) * | 2017-01-26 | 2017-05-31 | 芋头科技(杭州)有限公司 | 一种基于麦克风阵列的拾音方法及系统 |
CN107144819A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种声源定位方法、装置及电子设备 |
CN107274901A (zh) * | 2017-08-10 | 2017-10-20 | 湖州金软电子科技有限公司 | 一种远场语音交互装置 |
US9842584B1 (en) * | 2013-03-14 | 2017-12-12 | Amazon Technologies, Inc. | Providing content on multiple devices |
-
2017
- 2017-12-19 CN CN201711375740.3A patent/CN108122563B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7349851B2 (en) * | 1998-11-12 | 2008-03-25 | Microsoft Corporation | Speech recognition user interface |
CN101908918A (zh) * | 2010-07-26 | 2010-12-08 | 重庆大学 | 无线通信接收机中的一种波束合成方法 |
US9098467B1 (en) * | 2012-12-19 | 2015-08-04 | Rawles Llc | Accepting voice commands based on user identity |
US9842584B1 (en) * | 2013-03-14 | 2017-12-12 | Amazon Technologies, Inc. | Providing content on multiple devices |
EP3096319A1 (en) * | 2014-01-15 | 2016-11-23 | Yulong Computer Telecommunication Scientific (Shenzhen) Co., Ltd. | Speech processing method and speech processing apparatus |
CN104076331A (zh) * | 2014-06-18 | 2014-10-01 | 南京信息工程大学 | 一种七元麦克风阵列的声源定位方法 |
CN106531179A (zh) * | 2015-09-10 | 2017-03-22 | 中国科学院声学研究所 | 一种基于语义先验的选择性注意的多通道语音增强方法 |
CN105912092A (zh) * | 2016-04-06 | 2016-08-31 | 北京地平线机器人技术研发有限公司 | 人机交互中的语音唤醒方法及语音识别装置 |
CN106448663A (zh) * | 2016-10-17 | 2017-02-22 | 海信集团有限公司 | 语音唤醒方法及语音交互装置 |
CN106782585A (zh) * | 2017-01-26 | 2017-05-31 | 芋头科技(杭州)有限公司 | 一种基于麦克风阵列的拾音方法及系统 |
CN107144819A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种声源定位方法、装置及电子设备 |
CN107274901A (zh) * | 2017-08-10 | 2017-10-20 | 湖州金软电子科技有限公司 | 一种远场语音交互装置 |
Non-Patent Citations (3)
Title |
---|
MASASHI EBISAWA: "Estimation of direction of attention using EEG and out-of-head sound localization", 《2011 ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY》 * |
刘明飞: "智能家居中语音增强和分离的研究与应用", 《中国优秀硕士学位论文全文数据库》 * |
宋俊才: "超分辨DOA估计方法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538306B (zh) * | 2017-12-29 | 2020-05-26 | 北京声智科技有限公司 | 提高语音设备doa估计的方法及装置 |
CN108538306A (zh) * | 2017-12-29 | 2018-09-14 | 北京声智科技有限公司 | 提高语音设备doa估计的方法及装置 |
CN108922553A (zh) * | 2018-07-19 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及系统 |
CN108922553B (zh) * | 2018-07-19 | 2020-10-09 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及系统 |
CN108899044A (zh) * | 2018-07-27 | 2018-11-27 | 苏州思必驰信息科技有限公司 | 语音信号处理方法及装置 |
CN110782911A (zh) * | 2018-07-30 | 2020-02-11 | 阿里巴巴集团控股有限公司 | 音频信号处理方法、装置、设备和存储介质 |
WO2020029882A1 (zh) * | 2018-08-06 | 2020-02-13 | 腾讯科技(深圳)有限公司 | 一种方位角估计的方法、设备及存储介质 |
TWI711035B (zh) * | 2018-08-06 | 2020-11-21 | 大陸商騰訊科技(深圳)有限公司 | 方位角估計的方法、設備、語音交互系統及儲存介質 |
US11908456B2 (en) | 2018-08-06 | 2024-02-20 | Tencent Technology (Shenzhen) Company Limited | Azimuth estimation method, device, and storage medium |
WO2020043037A1 (zh) * | 2018-08-30 | 2020-03-05 | 阿里巴巴集团控股有限公司 | 语音转录设备、系统、方法、及电子设备 |
WO2020048431A1 (zh) * | 2018-09-03 | 2020-03-12 | 阿里巴巴集团控股有限公司 | 一种语音处理方法、电子设备和显示设备 |
CN110875045A (zh) * | 2018-09-03 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、智能设备和智能电视 |
CN109192219B (zh) * | 2018-09-11 | 2021-12-17 | 四川长虹电器股份有限公司 | 基于关键词改进麦克风阵列远场拾音的方法 |
CN109192219A (zh) * | 2018-09-11 | 2019-01-11 | 四川长虹电器股份有限公司 | 基于关键词改进麦克风阵列远场拾音的方法 |
KR20200063095A (ko) * | 2018-11-20 | 2020-06-04 | 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 | 멀티 빔 선택 방법 및 장치 |
US11337173B2 (en) | 2018-11-20 | 2022-05-17 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for selecting from a plurality of beams |
KR102240490B1 (ko) * | 2018-11-20 | 2021-04-15 | 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 | 멀티 빔 선택 방법 및 장치 |
EP3657497A1 (en) * | 2018-11-20 | 2020-05-27 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for selecting target beam data from a plurality of beams |
CN109599124A (zh) * | 2018-11-23 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN109599124B (zh) * | 2018-11-23 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
WO2020113935A1 (zh) * | 2018-12-03 | 2020-06-11 | 北京云知声信息技术有限公司 | 一种提升语音唤醒成功率的方法、装置及存储介质 |
CN109461456B (zh) * | 2018-12-03 | 2022-03-22 | 云知声智能科技股份有限公司 | 一种提升语音唤醒成功率的方法 |
CN109461456A (zh) * | 2018-12-03 | 2019-03-12 | 北京云知声信息技术有限公司 | 一种提升语音唤醒成功率的方法 |
CN109697984B (zh) * | 2018-12-28 | 2020-09-04 | 北京声智科技有限公司 | 一种降低智能设备自唤醒的方法 |
CN109697984A (zh) * | 2018-12-28 | 2019-04-30 | 北京声智科技有限公司 | 一种降低智能设备自唤醒的方法 |
CN109920433A (zh) * | 2019-03-19 | 2019-06-21 | 上海华镇电子科技有限公司 | 嘈杂环境下电子设备的语音唤醒方法 |
CN109920433B (zh) * | 2019-03-19 | 2021-08-20 | 上海华镇电子科技有限公司 | 嘈杂环境下电子设备的语音唤醒方法 |
CN110534102A (zh) * | 2019-09-19 | 2019-12-03 | 北京声智科技有限公司 | 一种语音唤醒方法、装置、设备及介质 |
CN110534102B (zh) * | 2019-09-19 | 2020-10-30 | 北京声智科技有限公司 | 一种语音唤醒方法、装置、设备及介质 |
CN110570861B (zh) * | 2019-09-24 | 2022-02-25 | Oppo广东移动通信有限公司 | 用于语音唤醒的方法、装置、终端设备及可读存储介质 |
CN110570861A (zh) * | 2019-09-24 | 2019-12-13 | Oppo广东移动通信有限公司 | 用于语音唤醒的方法、装置、终端设备及可读存储介质 |
CN110797051A (zh) * | 2019-10-28 | 2020-02-14 | 星络智能科技有限公司 | 一种唤醒门限设置方法、装置、智能音箱及存储介质 |
CN111179909B (zh) * | 2019-12-13 | 2023-01-10 | 航天信息股份有限公司 | 一种多麦远场语音唤醒方法及系统 |
CN111179909A (zh) * | 2019-12-13 | 2020-05-19 | 航天信息股份有限公司 | 一种多麦远场语音唤醒方法及系统 |
CN111175693A (zh) * | 2020-01-19 | 2020-05-19 | 河北科技大学 | 一种波达方向估计方法及波达方向估计装置 |
CN111276143A (zh) * | 2020-01-21 | 2020-06-12 | 北京远特科技股份有限公司 | 声源定位方法、装置、语音识别控制方法和终端设备 |
CN114333884A (zh) * | 2020-09-30 | 2022-04-12 | 北京君正集成电路股份有限公司 | 一种基于麦克风阵列结合唤醒词进行的语音降噪方法 |
CN114333884B (zh) * | 2020-09-30 | 2024-05-03 | 北京君正集成电路股份有限公司 | 一种基于麦克风阵列结合唤醒词进行的语音降噪方法 |
CN112435668A (zh) * | 2020-11-06 | 2021-03-02 | 联想(北京)有限公司 | 一种语音识别方法、装置及存储介质 |
CN112413859A (zh) * | 2020-11-24 | 2021-02-26 | 珠海格力电器股份有限公司 | 空调器控制方法、装置、空调器及存储介质 |
CN112413859B (zh) * | 2020-11-24 | 2021-11-16 | 珠海格力电器股份有限公司 | 空调器控制方法、装置、空调器及存储介质 |
CN112562742A (zh) * | 2020-12-29 | 2021-03-26 | 苏州思必驰信息科技有限公司 | 语音处理方法和装置 |
CN112562742B (zh) * | 2020-12-29 | 2022-10-21 | 思必驰科技股份有限公司 | 语音处理方法和装置 |
CN113066488B (zh) * | 2021-03-26 | 2023-10-27 | 深圳市欧瑞博科技股份有限公司 | 语音唤醒智能控制方法、装置、电子设备及存储介质 |
CN113066488A (zh) * | 2021-03-26 | 2021-07-02 | 深圳市欧瑞博科技股份有限公司 | 语音唤醒智能控制方法、装置、电子设备及存储介质 |
CN113782024A (zh) * | 2021-09-27 | 2021-12-10 | 上海互问信息科技有限公司 | 一种针对语音唤醒后提升自动语音识别准确率的方法 |
CN113782024B (zh) * | 2021-09-27 | 2024-03-12 | 上海互问信息科技有限公司 | 一种针对语音唤醒后提升自动语音识别准确率的方法 |
CN115148203A (zh) * | 2022-06-06 | 2022-10-04 | 青岛海尔科技有限公司 | 拾音校准方法、装置、非易失性存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108122563B (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108122563A (zh) | 提高语音唤醒率及修正doa的方法 | |
Zhang et al. | A speech enhancement algorithm by iterating single-and multi-microphone processing and its application to robust ASR | |
US9881631B2 (en) | Method for enhancing audio signal using phase information | |
CN109597022A (zh) | 声源方位角运算、定位目标音频的方法、装置和设备 | |
US8363850B2 (en) | Audio signal processing method and apparatus for the same | |
CN105393305B (zh) | 用于处理声音信号的方法 | |
CN109599124A (zh) | 一种音频数据处理方法、装置及存储介质 | |
CN110556103A (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
CN108899044A (zh) | 语音信号处理方法及装置 | |
JP2008079256A (ja) | 音響信号処理装置、音響信号処理方法及びプログラム | |
CN108538306B (zh) | 提高语音设备doa估计的方法及装置 | |
Xiao et al. | The NTU-ADSC systems for reverberation challenge 2014 | |
Wang et al. | Mask weighted STFT ratios for relative transfer function estimation and its application to robust ASR | |
JP2022533300A (ja) | キューのクラスター化を使用した音声強化 | |
Martín-Doñas et al. | Dual-channel DNN-based speech enhancement for smartphones | |
CN109859769A (zh) | 一种掩码估计方法及装置 | |
Xiao et al. | Beamforming networks using spatial covariance features for far-field speech recognition | |
Malek et al. | Block‐online multi‐channel speech enhancement using deep neural network‐supported relative transfer function estimates | |
Mirsamadi et al. | A generalized nonnegative tensor factorization approach for distant speech recognition with distributed microphones | |
US11727926B1 (en) | Systems and methods for noise reduction | |
CN113870893A (zh) | 一种多通道双说话人分离方法及系统 | |
Seltzer | Bridging the gap: Towards a unified framework for hands-free speech recognition using microphone arrays | |
CN111755010A (zh) | 一种结合语音增强和关键词识别的信号处理方法、装置 | |
Wang et al. | A speech enhancement system for automotive speech recognition with a hybrid voice activity detection method | |
CN107393553A (zh) | 用于语音活动检测的听觉特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1256424 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |