CN107785029B - 目标语音检测方法及装置 - Google Patents
目标语音检测方法及装置 Download PDFInfo
- Publication number
- CN107785029B CN107785029B CN201710994194.5A CN201710994194A CN107785029B CN 107785029 B CN107785029 B CN 107785029B CN 201710994194 A CN201710994194 A CN 201710994194A CN 107785029 B CN107785029 B CN 107785029B
- Authority
- CN
- China
- Prior art keywords
- detection
- model
- module
- target voice
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 240
- 230000005236 sound signal Effects 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H17/00—Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明公开了一种目标语音检测方法及装置,该方法包括:接收基于麦克风阵列采集的声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;分别基于所述声音信号和所述不同方向波束逐帧提取检测特征;将提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果;根据所述模型输出结果得到当前帧对应的目标语音的检测结果。利用本发明,可以提高检测结果的准确性。
Description
技术领域
本发明涉及语音信号处理领域,具体涉及一种目标语音检测方法及装置。
背景技术
语音作为最自然、方便快捷的交互方式之一,已在人们的日常生活和工作中得到了广泛的应用。语音信号的处理,如语音编码、降噪等,也一直是相关领域研究人员研究的热点。以语音降噪为例,目标语音检测作为降噪中最重要的步骤之一,其检测的准确性直接影响降噪的效果,如果目标语音检测不准确,在降噪过程中有效语音会失真较严重,因而目标语音的准确检测有着重要的意义。
现有的目标语音检测方法主要有以下两大类:
1、基于强度差的目标语音检测
比如,先对主麦克风信号做降噪,然后利用降噪后主麦克风信号与副麦克风信号强度差来进行语音检测;或者基于语音参考信号和噪声参考信号能量差进行目标语音检测。这类方法是基于主麦克风拾取的目标信号强度大于副麦克风接收目标信号,噪声信号在两个麦克风中的强度相同的假设。比如,当信噪比高时,主、副麦克能量比大于1,当信噪比低时,能量比小于1。
这种基于强度差的目标语音检测方法的使用场景具有局限性,即目标信号到达主、副麦克风强度差必须达到一定阈值(如3db以上)才能有效。而且,在噪声较大、信噪比比较低的情况下,目标语音检出概率较低。
2、基于机器学习的目标语音检测
比如,将单通道带噪信号作为输入,将理想二值掩模(Ideal Binary Mask,IBM)或者理想比值掩模(Ideal Ratio Mask,IRM)作为输出,其输出值即可作为目标语音存在的依据;或者利用多通道数据,先将多个通道合成一个通道作为输入,进而来获得掩模。
现有的基于机器学习的目标语音检测方法存在以下问题:只利用单通道信息,信息未充分利用,目标语音检测效果不佳;即使利用多通道信息,但每个神经网络仍然只处理一路原始信号或者一路混合信号,未很好地利用多通道的空间信息,如果噪声中存在其他方向的人声干扰,该类方法效果就会急剧下降。
发明内容
本发明实施例提供一种目标语音检测装置及方法,以解决传统目标语音检测方法存在的应用场景受限、低信噪比环境下检测、信息利用不充分导致检测效果不佳中的一个或多个问题。
为此,本发明提供如下技术方案:
一种目标语音检测方法,所述方法包括:
接收基于麦克风阵列采集的声音信号;
对所述声音信号进行波束成形处理,得到不同方向波束;
基于所述声音信号和所述不同方向波束逐帧提取检测特征;
将提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果;
根据所述模型输出结果得到当前帧对应的目标语音的检测结果。
优选地,按以下方式构建所述目标语音检测模型:
确定目标语音检测模型的拓扑结构;
利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;
提取所述训练数据的检测特征;
基于所述检测持征及标注信息,训练得到所述目标语音检测模型的参数。
优选地,所述目标语音检测模型为分类模型或回归模型,所述目标语音检测模型的输出为当前帧每个频点的理想二进制掩码或理想比例掩码。
优选地,所述检测特征包括:空间维度信息、频率维度信息、时间维度信息。
优选地,所述基于所述声音信号和所述不同方向波束逐帧提取检测特征包括:
在每帧的每个频点上将各个波束信号与麦克风阵列采集的声音信号依次拼接,得到多维空间向量;
对所述多维空间向量中每个元素分别求模,然后将每帧所有频点的模进行拼接,得到包含了空间信息的多维频率向量;
对所述包含了空间信息的多维频率向量进行帧扩展,得到包含了空间及频率信息的多维时间向量。
优选地,所述方法还包括:
基于强度差进行目标语音检测,得到基于强度差的检测结果;
所述根据所述模型输出结果确定当前帧是否为目标语音帧包括:
融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。
优选地,所述基于强度差进行目标语音检测,得到基于强度差的检测结果包括:
根据所述不同方向的波束得到语音参考信号和噪声参考信号;
分别计算所述语音参考信号和噪声参考信号的功率;
计算语音参考信号和噪声参考信号的功率比值;
根据所述功率比值得到基于强度差的检测结果。
一种目标语音检测装置,所述装置包括:信号接收模块,波束形成模块,检测特征提取模块,第一检测模块,检测结果输出模块;其中:
所述信号接收模块,用于接收基于麦克风阵列采集的声音信号,并将所述声音信号输出给所述波束形成模块;
所述波束形成模块,用于对输入的所述声音信号进行波束成形处理,得到不同方向波束;
所述检测特征提取模块,其输入分别连接所述信号接收模块和所述波束形成模块的输出,用于分别基于所述声音信号和所述不同方向波束逐帧提取检测特征,并将提取的检测特征输出给所述第一检测模块;
所述第一检测模块,用于将所述检测特征提取模块提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果,并将所述模型输出结果发送给所述检测结果输出模块;
所述检测结果输出模块,用于根据所述模型输出结果得到当前帧对应的目标语音的检测结果。
优选地,所述装置还包括:模型构建模块,用于构建所述目标语音检测模型;
所述模型构建模块包括:
结构设计单元,用于确定目标语音检测模型的拓扑结构;
训练数据处理单元,用于利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;
特征提取单元,用于提取所述训练数据的检测特征;
训练单元,用于基于所述检测特征及标注信息,训练得到所述目标语音检测模型的参数。
优选地,所述目标语音检测模型为分类模型或回归模型。
优选地,所述装置还包括:
第二检测模块,其输入与所述波束形成模块的输出相连,用于基于强度差进行目标语音检测,得到基于强度差的检测结果,并将所述基于强度差的检测结果发送给所述检测结果输出模块;
所述检测结果输出模块融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。
优选地,所述第二检测模块包括:
参考信号获取单元,用于根据所述不同方向的波束得到语音参考信号和噪声参考信号;
计算单元,用于分别计算所述语音参考信号和噪声参考信号的功率,计算语音参考信号和噪声参考信号的功率比值;
检测结果单元,用于根据所述功率比值得到基于强度差的检测结果。
一种计算机可读存储介质,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行如前述任一项所述的人机交互应用方法中的步骤。
本发明实施例提供的目标语音检测方法检测方法及装置,接收基于麦克风阵列采集的声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;分别基于所述声音信号和所述不同方向波束逐帧提取检测特征;利用预先构建的目标语音检测模型及多通道的信息,检测目标语音,从而有效地提高了目标语音检测的准确性,而且不存在应用场景受限的问题,即使在信噪比较低的环境下,也能够得到准确的检测结果。
进一步地,结合基于强度差的检测结果,即融合基于强度差的检测结果和基于模型的检测结果,得到当前帧对应的目标语音的检测结果,进一步提高了检测结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例目标语音检测方法的一种流程图;
图2是本发明实施例中目标语音检测模型的构建流程图;
图3是本发明实施例目标语音检测方法的另一种流程图;
图4是本发明实施例目标语音检测装置的一种结构示意图;
图5是本发明实施例中模型构建模块的一种示意图;
图6是本发明实施例目标语音检测装置的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图1所示,是本发明实施例目标语音检测方法的一种流程图,包括以下步骤:
步骤101,接收基于麦克风阵列采集的声音信号。
在具体应用中,在采集到声音信号后,还需要对其进行预处理。
以包含M个麦克风的麦克风阵列接收声音信号为例,采集的信号分别为x1(t),x2(t)...xM(t)。
所述预处理主要指将接收到的声音信号从时域变换到频率域,得到频域信号X(k,l)=[X1(k,l),X2(k,l)...XM(k,l)]T,其中k表示信号的频率(0,1,...,K),l表示帧序号。
步骤102,对所述声音信号进行波束成形处理,得到不同方向波束。
波束形成具体可以采用现有技术,比如基于方向估计的自适应算法、基于信号结构的波束形成方法等,对此本发明实施例不做限定。波束形成算法主要是通过对麦克风阵列采集到的信号进行处理,使得麦克风阵列对空间域中的某些方向具有较大的增益,而其他方向的增益较小,好像形成一个走向的波束一样。
根据M个麦克风形成主瓣分布指向N个不同方向的波束,可通过波束形成器,得到N个方向的波束:
其中,Wn(k,l)表示指向第n个方向第k个频带的波束形成器系数,由不同波束形成方法确定。
步骤103,分别基于所述声音信号和所述不同方向波束逐帧提取检测特征。
所述检测特征为考虑了空间维度信息、频率维度信息和时间维度信息的综合信息,具体提取方法如下:
1.空间维度信息V1(k,l)
具体地,在每帧的每个频点上将得到的各个波束信号与麦克风阵列采集的声音信号依次拼接,得到多维空间向量。比如,根据M个麦克风形成主瓣分布指向N个不同方向的波束,在每帧的每个频点上将N个波束信号与M个麦克信号拼接成(M+N)维空间向量V1(k,l):
2.频率维度信息
首先对上述多维空间向量中每个元素分别求模,然后将每帧所有频点的模进行拼接,得到包含了空间信息的多维频率向量。比如,对上述V1(k,l)中每个元素分别求模MD(k,l)=f(V1(k,l)),其中f(x)=|x|2,然后将第l帧所有频点的模MD(k,l)进行拼接,得到(M+N)*K维频率向量:
V2(l)=[MD(1,l);MD(2,l);...;MD(K,l)] (3)
3.时间维度信息
对包含了空间信息的多维频率向量进行帧扩展,得到包含了空间及频率信息的多维时间向量。比如,对上述V2(l)进行帧扩展,向前、向后分别扩展P帧,得到(M+N)*K*2P维的时间维度信息:
V3(l)=[V2(l-P);V2(l-P+1);...;V2(l+P)] (4)
步骤104,将提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果。
即,将上述当前帧l对应的考虑了空间维度、频率维度、时间维度的检测特征V3(l),输入到预先构建的目标语音检测模型,输出为当前帧l每个频点k的理想二值掩码(IBM,Ideal Binary Mask)或者理想浮值掩码(IRM,Ideal Ratio Mask)。以输出为IRM为例,则模型的输出可以定义为Imodel(k,l)。
所述目标语音检测模型可以是分类模型或回归模型,如果输出是IRM,则为回归模型,否则为分类模型。
所述目标语音检测模型具体可以选用深度神经网络(DNN)、循环神经网络(RNN)等神经网络模型。
步骤105,根据所述模型输出结果得到当前帧对应的目标语音的检测结果。
所述模型输出结果可以是IBM或IRM;如果模型输出是IBM,则根据该输出即可确定当前帧是否为目标语音帧;如果模型输出是IRM,则还需要根据设定的阈值进行判断,大于该阈值,则为目标语音帧,否则为非目标语音帧。当然,也可以直接将模型输出的IRM作为相应的检测结果。
上述目标语音检测模型的构建流程如图2所示,包括以下步骤:
步骤201,确定目标语音检测模型的拓扑结构。
前面提到,所述目标语音检测模型可以是分类模型或回归模型,对此本发明实施例不做限定。
步骤202,利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注。
所述干净语音包含所述目标语音。
步骤203,提取所述训练数据的检测特征。
所述检测特征为考虑了空间维度信息、频率维度信息和时间维度信息的综合信息,具体提取方法如前所述。
步骤204,基于所述检测持征及标注信息,训练得到所述目标语音检测模型的参数。
本发明实施例提供的目标语音检测方法,基于麦克风阵列采集声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;分别基于所述声音信号和所述不同方向波束逐帧提取检测特征;利用预先构建的目标语音检测模型及多通道的信息,检测目标语音,从而有效地提高了目标语音检测的准确性,而且不存在应用场景受限的问题,即使在信噪比较低的环境下,也能够得到准确的检测结果。
为了进一步提高目标语音检测结果的准确性,在本发明方法另一实施例中,还提供一种基于强度差和基于检测模型两种检测方法结果的目标语音检测方法。
如图3所示,是本发明实施例目标语音检测方法的一种流程图,包括以下步骤:
步骤301,接收基于麦克风阵列采集的声音信号。
步骤302,对所述声音信号进行波束成形处理,得到不同方向波束。
步骤303,基于强度差进行目标语音检测,得到基于强度差的检测结果。
具体地,首先根据所述不同方向的波束得到语音参考信号和噪声参考信号;然后分别计算所述语音参考信号和噪声参考信号的功率,并计算语音参考信号和噪声参考信号的功率比值,最后根据所述功率比值得到基于强度差的检测结果。
假设语音参考信号为F,噪声参考信号为U,其能量比定义为:
其中,PF(k,l),PU(k,l)分别为语音参考信号和噪声参考信号的功率估计,可采用1阶递归方式进行功率估计:
PF(k,l)=α1PF(k,l-1)+(1-α1)|XF(k,l)|2 (6)
PU(k,l)=α2PU(k,l-1)+(1-α2)|XU(k,l)|2 (7)
其中,XF(k,l)为语音参考信号,即波束主瓣方向指向目标方向的波束形成后信号,可通过主瓣方向指向目标语音的固定波束形成算法得到,比如延迟求和波束形成(Delay and Sumbeamforming)、恒定束宽波束形成(Constant Beam-widthbeam-former)、超增益波束形成(Super-Gainbeamforming)等算法;
XU(k,l)为噪声参考信号,即陷零方向指向目标方向的波束形成后信号,可根据自适应阻塞矩阵得到,比如可采用频域归一化最小均方(NLMS)自适应方法进行滤波器更新,得到噪声参考信号:
XU(k,l)=X1(k,l)-WN(k,l)X2(k,l);
其中,WN(k,l)为自适应阻塞矩阵系数,α为固定学习步长,比如该步长可以取值为0.05,上标*表示复数取共轭,δ为小正数,比如δ可以取值为0.001。Iratio(k,l)为当前时频点目标语音检测结果:
其中,阈值th1和th2由大量实验和/或经验得到,比如可以取th2=2,th1=0.5。
需要说明的是,还可以设定一个阈值th,如果Iratio(k,l)大于该阈值th,则认为当前帧为目标语音帧,否则当前帧为非目标语音帧。
步骤304,基于检测模型进行目标语音检测,得到基于模型的检测结果。
基于检测模型的目标语音检测过程可参照前面图1中的步骤103至步骤104,在此不再赘述。
步骤305,融合所述基于强度差的检测结果和所述基于模型的检测结果,得到当前帧对应的目标语音的检测结果。
具体地,可以基于Imodel(k,l)和Iratio(k,l)进行联合判定,以语音降噪中自适应噪声消除(ANC,Adaptive Noise Cancellation)为例,判定是否有目标语音如下:
其中,阈值th3、th4、th5和th6由大量实验和/或经验得到,比如可以取th3=0.5,th4=0.5,th5=0.25,th6=0.25。
需要说明的是,在所述目标语音检测模型采用分类模型,而且基于强度差的检测结果也是二值结果,即0或1的情况下,在对两种方式的检测结果进行融合时,可以采用“与”或者“或”的融合方式。当然,在实际应用中,也可以采用其它融合方式,对此本发明实施例不做限定。
需要说明的是,上述步骤303和步骤304是分别基于不同方法的目标语音检测过程,两者是独立进行,而且没有时间上的先后顺序关系。可以并行执行,也可以其中任一个步骤先执行。
可见,本发明实施例的目标语音检测方法,不仅可以在信噪比较低的环境下,也能够得到准确的检测结果,而且可以结合基于强度差检测结果,进一步提高了检测结果的准确性。
相应地,本发明实施例还提供一种计算机可读存储介质,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行本发明目标语音检测实施例中的各步骤。
相应地,本发明实施例还提供一种目标语音检测装置,如图4所示,是该装置的一种结构示意图。
在该实施例中,所述装置包括以下各模块:信号接收模块401,波束形成模块402,检测特征提取模块403,第一检测模块404、检测结果输出模块405。其中:
所述信号接收模块401,用于接收基于麦克风阵列采集的声音信号,并将所述声音信号输出给所述波束形成模块402;
所述波束形成模块402,用于对输入的所述声音信号进行波束成形处理,得到不同方向波束;
所述检测特征提取模块403的输入分别连接所述信号接收模块401和所述波束形成模块402的输出,用于分别基于所述声音信号和所述不同方向波束逐帧提取检测特征,并将提取的检测特征输出给所述第一检测模块404;
所述第一检测模块404,用于将所述检测特征提取模块403提取的当前帧的检测特征输入预先构建的目标语音检测模型400,得到模型输出结果,并将所述模型输出结果发送给所述检测结果输出模块405;
所述检测结果输出模块405,用于根据所述模型输出结果得到当前帧对应的目标语音的检测结果。
需要说明的是,上述信号接收模块401在采集到声音信号后,还需要对其进行预处理,所述预处理主要指将接收到的声音信号从时域变换到频率域,得到频域信号。
上述检测特征提取模块403提取的检测特征为考虑了空间维度信息、频率维度信息和时间维度信息的综合信息,具体提取方式可以参见前面本发明方法实施例中的描述,在此不再赘述。
上述目标语音检测模型400可以是分类模型或回归模型,具体可以由相应的模型构建模块预选构建,所述模型构建模块可以作为本发明装置的一部分,也可以独立于本发明装置,对此本发明实施例不做限定。
图5示出了本发明实施例中模型构建模块的一种结构,包括以下各单元:
结构设计单元51,用于确定目标语音检测模型的拓扑结构;
训练数据处理单元52,用于利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;
特征提取单元53,用于提取所述训练数据的检测特征;
训练单元54,用于基于所述检测持征及标注信息,训练得到所述目标语音检测模型的参数。
需要说明的是,在目标语音检测模型构建过程中,所述特征提取单元53提取的检测特征同样为考虑了空间维度信息、频率维度信息和时间维度信息的综合信息,具体提取方式可以参见前面本发明方法实施例中的描述,在此不再赘述。
本发明实施例提供的目标语音检测装置,基于麦克风阵列采集声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;分别基于所述声音信号和所述不同方向波束逐帧提取检测特征;利用预先构建的目标语音检测模型及多通道的信息,检测目标语音,从而有效地提高了目标语音检测的准确性,而且不存在应用场景受限的问题,即使在信噪比较低的环境下,也能够得到准确的检测结果。
如图6所示,是本发明实施例目标语音检测装置的另一种结构示意图。
与图5所示实施例不同的是,在该实施例中,所述装置还包括:
第二检测模块406,其输入与所述波束形成模块402的输出相连,用于基于强度差进行目标语音检测,得到基于强度差的检测结果,并将所述基于强度差的检测结果发送给所述检测结果输出模块405。
所述第二检测模块406具体可以包括以下各单元:
参考信号获取单元,用于根据所述不同方向的波束得到语音参考信号和噪声参考信号;
计算单元,用于分别计算所述语音参考信号和噪声参考信号的功率,计算语音参考信号和噪声参考信号的功率比值;
检测结果单元,用于根据所述功率比值得到基于强度差的检测结果。
相应地,在该实施例中,所述检测结果输出模块405融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。具本融合方式可参照前面本发明方法实施例中的描述,在此不再赘述。
本发明实施例的目标语音检测装置,分别基于模型和基于强度差的方式对目标语音进行检测,并将两种不同方式的检测结果进行综合考虑,从而可以使得到的检测结果更准确。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (13)
1.一种目标语音检测方法,其特征在于,所述方法包括:
接收基于麦克风阵列采集的声音信号;
对所述声音信号进行波束成形处理,得到不同方向波束;
基于所述声音信号和所述不同方向波束逐帧提取检测特征;
将提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果;
根据所述模型输出结果确定当前帧是否为目标语音帧。
2.根据权利要求1所述的方法,其特征在于,按以下方式构建所述目标语音检测模型:
确定目标语音检测模型的拓扑结构;
利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;
提取所述训练数据的检测特征;
基于所述检测特征及标注信息,训练得到所述目标语音检测模型的参数。
3.根据权利要求1所述的方法,其特征在于,所述目标语音检测模型为分类模型或回归模型,所述目标语音检测模型的输出为当前帧每个频点的理想二进制掩码或理想比例掩码。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述检测特征包括:空间维度信息、频率维度信息和时间维度信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所述声音信号和所述不同方向波束逐帧提取检测特征包括:
在每帧的每个频点上将各个波束信号与麦克风阵列采集的声音信号依次拼接,得到多维空间向量;
对所述多维空间向量中每个元素分别求模,然后将每帧所有频点的模进行拼接,得到包含了空间信息的多维频率向量;
对所述包含了空间信息的多维频率向量进行帧扩展,得到包含了空间及频率信息的多维时间向量。
6.根据权利要求1至3、5任一项所述的方法,其特征在于,所述方法还包括:
基于强度差进行目标语音检测,得到基于强度差的检测结果;
所述根据所述模型输出结果确定当前帧是否为目标语音帧包括:
融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。
7.根据权利要求6所述的方法,其特征在于,所述基于强度差进行目标语音检测,得到基于强度差的检测结果包括:
根据所述不同方向的波束得到语音参考信号和噪声参考信号;
分别计算所述语音参考信号和噪声参考信号的功率;
计算语音参考信号和噪声参考信号的功率比值;
根据所述功率比值得到基于强度差的检测结果。
8.一种目标语音检测装置,其特征在于,所述装置包括:信号接收模块,波束形成模块,检测特征提取模块,第一检测模块,检测结果输出模块;其中:
所述信号接收模块,用于接收基于麦克风阵列采集的声音信号,并将所述声音信号输出给所述波束形成模块;
所述波束形成模块,用于对输入的所述声音信号进行波束成形处理,得到不同方向波束;
所述检测特征提取模块,其输入分别连接所述信号接收模块和所述波束形成模块的输出,用于分别基于所述声音信号和所述不同方向波束逐帧提取检测特征,并将提取的检测特征输出给所述第一检测模块;
所述第一检测模块,用于将所述检测特征提取模块提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果,并将所述模型输出结果发送给所述检测结果输出模块;
所述检测结果输出模块,用于根据所述模型输出结果确定当前帧是否为目标语音帧。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:模型构建模块,用于构建所述目标语音检测模型;
所述模型构建模块包括:
结构设计单元,用于确定目标语音检测模型的拓扑结构;
训练数据处理单元,用于利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;
特征提取单元,用于提取所述训练数据的检测特征;
训练单元,用于基于所述检测特征及标注信息,训练得到所述目标语音检测模型的参数。
10.根据权利要求8所述的装置,其特征在于,所述目标语音检测模型为分类模型或回归模型。
11.根据权利要求8至10任一项所述的装置,其特征在于,所述装置还包括:
第二检测模块,其输入与所述波束形成模块的输出相连,用于基于强度差进行目标语音检测,得到基于强度差的检测结果,并将所述基于强度差的检测结果发送给所述检测结果输出模块;
所述检测结果输出模块融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。
12.根据权利要求11所述的装置,其特征在于,所述第二检测模块包括:
参考信号获取单元,用于根据所述不同方向的波束得到语音参考信号和噪声参考信号;
计算单元,用于分别计算所述语音参考信号和噪声参考信号的功率,计算语音参考信号和噪声参考信号的功率比值;
检测结果单元,用于根据所述功率比值得到基于强度差的检测结果。
13.一种计算机可读存储介质,其特征在于,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行如权利要求1至7任一项所述的目标语音检测方法中的步骤。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994194.5A CN107785029B (zh) | 2017-10-23 | 2017-10-23 | 目标语音检测方法及装置 |
PCT/CN2018/095758 WO2019080551A1 (zh) | 2017-10-23 | 2018-07-16 | 目标语音检测方法及装置 |
ES18871326T ES2964131T3 (es) | 2017-10-23 | 2018-07-16 | Método y aparato de detección de voz objetivo |
JP2020517383A JP7186769B2 (ja) | 2017-10-23 | 2018-07-16 | 対象音声検出方法及び装置 |
KR1020207014261A KR102401217B1 (ko) | 2017-10-23 | 2018-07-16 | 타겟 음성 검출 방법 및 장치 |
EP18871326.7A EP3703054B1 (en) | 2017-10-23 | 2018-07-16 | Target voice detection method and apparatus |
US16/757,892 US11308974B2 (en) | 2017-10-23 | 2018-07-16 | Target voice detection method and apparatus |
HUE18871326A HUE065118T2 (hu) | 2017-10-23 | 2018-07-16 | Eljárás és berendezés célhang érzékelésére |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994194.5A CN107785029B (zh) | 2017-10-23 | 2017-10-23 | 目标语音检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107785029A CN107785029A (zh) | 2018-03-09 |
CN107785029B true CN107785029B (zh) | 2021-01-29 |
Family
ID=61433874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710994194.5A Active CN107785029B (zh) | 2017-10-23 | 2017-10-23 | 目标语音检测方法及装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11308974B2 (zh) |
EP (1) | EP3703054B1 (zh) |
JP (1) | JP7186769B2 (zh) |
KR (1) | KR102401217B1 (zh) |
CN (1) | CN107785029B (zh) |
ES (1) | ES2964131T3 (zh) |
HU (1) | HUE065118T2 (zh) |
WO (1) | WO2019080551A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107785029B (zh) | 2017-10-23 | 2021-01-29 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
CN108335694B (zh) * | 2018-02-01 | 2021-10-15 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
US10672414B2 (en) * | 2018-04-13 | 2020-06-02 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
CN110797021B (zh) * | 2018-05-24 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 |
CN110364166B (zh) * | 2018-06-28 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 实现语音信号识别的电子设备 |
CN109801646B (zh) * | 2019-01-31 | 2021-11-16 | 嘉楠明芯(北京)科技有限公司 | 一种基于融合特征的语音端点检测方法和装置 |
CN110223708B (zh) * | 2019-05-07 | 2023-05-30 | 平安科技(深圳)有限公司 | 基于语音处理的语音增强方法及相关设备 |
CN110265065B (zh) * | 2019-05-13 | 2021-08-03 | 厦门亿联网络技术股份有限公司 | 一种构建语音端点检测模型的方法及语音端点检测系统 |
CN111613247B (zh) * | 2020-04-14 | 2023-03-21 | 云知声智能科技股份有限公司 | 一种基于麦克风阵列的前景语音检测方法及装置 |
CN111883166B (zh) * | 2020-07-17 | 2024-05-10 | 北京百度网讯科技有限公司 | 一种语音信号处理方法、装置、设备以及存储介质 |
CN112151036B (zh) * | 2020-09-16 | 2021-07-30 | 科大讯飞(苏州)科技有限公司 | 基于多拾音场景的防串音方法、装置以及设备 |
CN112562649B (zh) * | 2020-12-07 | 2024-01-30 | 北京大米科技有限公司 | 一种音频处理的方法、装置、可读存储介质和电子设备 |
CN113077803B (zh) * | 2021-03-16 | 2024-01-23 | 联想(北京)有限公司 | 一种语音处理方法、装置、可读存储介质及电子设备 |
CN113270108B (zh) * | 2021-04-27 | 2024-04-02 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
CN113345469B (zh) * | 2021-05-24 | 2024-07-09 | 北京小米移动软件有限公司 | 语音信号的处理方法、装置、电子设备及存储介质 |
CN115240698A (zh) * | 2021-06-30 | 2022-10-25 | 达闼机器人股份有限公司 | 模型训练方法、语音检测定位方法、电子设备及存储介质 |
CN116580723B (zh) * | 2023-07-13 | 2023-09-08 | 合肥星本本网络科技有限公司 | 一种强噪声环境下的语音检测方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766093A (zh) * | 2015-04-01 | 2015-07-08 | 中国科学院上海微系统与信息技术研究所 | 一种基于麦克风阵列的声目标分类方法 |
CN105244036A (zh) * | 2014-06-27 | 2016-01-13 | 中兴通讯股份有限公司 | 一种麦克风语音增强方法及装置 |
CN105788607A (zh) * | 2016-05-20 | 2016-07-20 | 中国科学技术大学 | 应用于双麦克风阵列的语音增强方法 |
CN105869651A (zh) * | 2016-03-23 | 2016-08-17 | 北京大学深圳研究生院 | 基于噪声混合相干性的双通道波束形成语音增强方法 |
CN205621437U (zh) * | 2015-12-16 | 2016-10-05 | 宁波桑德纳电子科技有限公司 | 一种声像联合定位的远距离语音采集装置 |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN106504763A (zh) * | 2015-12-22 | 2017-03-15 | 电子科技大学 | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 |
CN106710603A (zh) * | 2016-12-23 | 2017-05-24 | 上海语知义信息技术有限公司 | 利用线性麦克风阵列的语音识别方法及系统 |
CN106782618A (zh) * | 2016-12-23 | 2017-05-31 | 上海语知义信息技术有限公司 | 基于二阶锥规划的目标方向语音检测方法 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091469A (ja) * | 2000-09-19 | 2002-03-27 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識装置 |
US7415117B2 (en) * | 2004-03-02 | 2008-08-19 | Microsoft Corporation | System and method for beamforming using a microphone array |
CN101218848B (zh) * | 2005-07-06 | 2011-11-16 | 皇家飞利浦电子股份有限公司 | 用于声束形成的设备和方法 |
KR20090037845A (ko) | 2008-12-18 | 2009-04-16 | 삼성전자주식회사 | 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
CN101192411B (zh) * | 2007-12-27 | 2010-06-02 | 北京中星微电子有限公司 | 大距离麦克风阵列噪声消除的方法和噪声消除系统 |
US9100734B2 (en) | 2010-10-22 | 2015-08-04 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
CN102074246B (zh) * | 2011-01-05 | 2012-12-19 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
KR101811716B1 (ko) * | 2011-02-28 | 2017-12-28 | 삼성전자주식회사 | 음성 인식 방법 및 그에 따른 음성 인식 장치 |
JP5318258B1 (ja) * | 2012-07-03 | 2013-10-16 | 株式会社東芝 | 集音装置 |
TW201443875A (zh) * | 2013-05-14 | 2014-11-16 | Hon Hai Prec Ind Co Ltd | 收音方法及收音系統 |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
US9715660B2 (en) * | 2013-11-04 | 2017-07-25 | Google Inc. | Transfer learning for deep neural network based hotword detection |
JP6221158B2 (ja) * | 2014-08-27 | 2017-11-01 | 本田技研工業株式会社 | 自律行動ロボット、及び自律行動ロボットの制御方法 |
CN105590631B (zh) | 2014-11-14 | 2020-04-07 | 中兴通讯股份有限公司 | 信号处理的方法及装置 |
US20160180214A1 (en) * | 2014-12-19 | 2016-06-23 | Google Inc. | Sharp discrepancy learning |
US10580401B2 (en) * | 2015-01-27 | 2020-03-03 | Google Llc | Sub-matrix input for neural network layers |
US9697826B2 (en) * | 2015-03-27 | 2017-07-04 | Google Inc. | Processing multi-channel audio waveforms |
CN105336340B (zh) * | 2015-09-30 | 2019-01-01 | 中国电子科技集团公司第三研究所 | 一种用于低空目标声探测系统的风噪抑制方法和装置 |
JP6594222B2 (ja) * | 2015-12-09 | 2019-10-23 | 日本電信電話株式会社 | 音源情報推定装置、音源情報推定方法、およびプログラム |
KR102151682B1 (ko) * | 2016-03-23 | 2020-09-04 | 구글 엘엘씨 | 다중채널 음성 인식을 위한 적응성 오디오 강화 |
US9972339B1 (en) * | 2016-08-04 | 2018-05-15 | Amazon Technologies, Inc. | Neural network based beam selection |
CN106483502B (zh) * | 2016-09-23 | 2019-10-18 | 科大讯飞股份有限公司 | 一种声源定位方法及装置 |
US10140980B2 (en) * | 2016-12-21 | 2018-11-27 | Google LCC | Complex linear projection for acoustic modeling |
WO2018127447A1 (en) * | 2017-01-03 | 2018-07-12 | Koninklijke Philips N.V. | Method and apparatus for audio capture using beamforming |
US11133011B2 (en) * | 2017-03-13 | 2021-09-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for multichannel end-to-end speech recognition |
CN106952653B (zh) * | 2017-03-15 | 2021-05-04 | 科大讯飞股份有限公司 | 噪声去除方法、装置和终端设备 |
CN107785029B (zh) * | 2017-10-23 | 2021-01-29 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
US10546593B2 (en) * | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
US11120786B2 (en) * | 2020-03-27 | 2021-09-14 | Intel Corporation | Method and system of automatic speech recognition with highly efficient decoding |
-
2017
- 2017-10-23 CN CN201710994194.5A patent/CN107785029B/zh active Active
-
2018
- 2018-07-16 EP EP18871326.7A patent/EP3703054B1/en active Active
- 2018-07-16 US US16/757,892 patent/US11308974B2/en active Active
- 2018-07-16 WO PCT/CN2018/095758 patent/WO2019080551A1/zh unknown
- 2018-07-16 ES ES18871326T patent/ES2964131T3/es active Active
- 2018-07-16 JP JP2020517383A patent/JP7186769B2/ja active Active
- 2018-07-16 HU HUE18871326A patent/HUE065118T2/hu unknown
- 2018-07-16 KR KR1020207014261A patent/KR102401217B1/ko active IP Right Grant
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105244036A (zh) * | 2014-06-27 | 2016-01-13 | 中兴通讯股份有限公司 | 一种麦克风语音增强方法及装置 |
CN104766093A (zh) * | 2015-04-01 | 2015-07-08 | 中国科学院上海微系统与信息技术研究所 | 一种基于麦克风阵列的声目标分类方法 |
CN205621437U (zh) * | 2015-12-16 | 2016-10-05 | 宁波桑德纳电子科技有限公司 | 一种声像联合定位的远距离语音采集装置 |
CN106504763A (zh) * | 2015-12-22 | 2017-03-15 | 电子科技大学 | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 |
CN105869651A (zh) * | 2016-03-23 | 2016-08-17 | 北京大学深圳研究生院 | 基于噪声混合相干性的双通道波束形成语音增强方法 |
CN105788607A (zh) * | 2016-05-20 | 2016-07-20 | 中国科学技术大学 | 应用于双麦克风阵列的语音增强方法 |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN106710603A (zh) * | 2016-12-23 | 2017-05-24 | 上海语知义信息技术有限公司 | 利用线性麦克风阵列的语音识别方法及系统 |
CN106782618A (zh) * | 2016-12-23 | 2017-05-31 | 上海语知义信息技术有限公司 | 基于二阶锥规划的目标方向语音检测方法 |
Non-Patent Citations (3)
Title |
---|
人机交互中的声源定位与增强方法研究;李文东;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20150115(第1期);全文 * |
基于麦克风阵列的语音增强与识别研究;李晓雪;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20110315(第3期);全文 * |
复杂环境下阵列语音识别方法的研究;韩颖;《中国优秀硕士学位论文全文数据库(电子期刊)》;20140615(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP3703054C0 (en) | 2023-09-20 |
JP7186769B2 (ja) | 2022-12-09 |
US11308974B2 (en) | 2022-04-19 |
EP3703054A4 (en) | 2021-07-28 |
WO2019080551A1 (zh) | 2019-05-02 |
JP2021500593A (ja) | 2021-01-07 |
US20200342890A1 (en) | 2020-10-29 |
CN107785029A (zh) | 2018-03-09 |
ES2964131T3 (es) | 2024-04-04 |
EP3703054B1 (en) | 2023-09-20 |
KR102401217B1 (ko) | 2022-05-23 |
HUE065118T2 (hu) | 2024-05-28 |
EP3703054A1 (en) | 2020-09-02 |
KR20200066367A (ko) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107785029B (zh) | 目标语音检测方法及装置 | |
JP7011075B2 (ja) | マイク・アレイに基づく対象音声取得方法及び装置 | |
US10602267B2 (en) | Sound signal processing apparatus and method for enhancing a sound signal | |
CN109272989B (zh) | 语音唤醒方法、装置和计算机可读存储介质 | |
CN110503970A (zh) | 一种音频数据处理方法、装置及存储介质 | |
CN102708874A (zh) | 麦克风阵列的噪声自适应波束形成 | |
CN109782231B (zh) | 一种基于多任务学习的端到端声源定位方法及系统 | |
US20160322062A1 (en) | Speech processing method and speech processing apparatus | |
EP2123116A1 (en) | Multi-sensor sound source localization | |
CN111415676A (zh) | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 | |
CN105609113A (zh) | 基于双谱加权空间相关矩阵的语音声源定位方法 | |
CN104637494A (zh) | 基于盲源分离的双话筒移动设备语音信号增强方法 | |
Kühne et al. | A novel fuzzy clustering algorithm using observation weighting and context information for reverberant blind speech separation | |
CN114613384B (zh) | 一种基于深度学习多输入语音信号波束形成信息互补方法 | |
CN109036452A (zh) | 一种语音信息处理方法、装置、电子设备及存储介质 | |
Zheng et al. | Exploiting joint sparsity for far-field microphone array sound source localization | |
Xu et al. | Adaptive selection of local and non-local attention mechanisms for speech enhancement | |
Sherafat et al. | Comparison of different beamforming-based approaches for sound source separation of multiple heavy equipment at construction job sites | |
Zhang et al. | Microphone clustering and BP network based acoustic source localization in distributed microphone arrays | |
CN117054968B (zh) | 基于线性阵列麦克风的声源定位系统及其方法 | |
Xu et al. | Sound source localization based on data and neural network model | |
Li et al. | Microphone array speech enhancement system combining ICA preprocessing in highly noisy environments | |
CN103413555B (zh) | 一种小孔径阵列麦克风语音增强方法 | |
CN116027272A (zh) | 一种声源定位方法、装置、设备及存储介质 | |
CN118380010A (zh) | 语音增强方法、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |