CN107785029A - 目标语音检测方法及装置 - Google Patents

目标语音检测方法及装置 Download PDF

Info

Publication number
CN107785029A
CN107785029A CN201710994194.5A CN201710994194A CN107785029A CN 107785029 A CN107785029 A CN 107785029A CN 201710994194 A CN201710994194 A CN 201710994194A CN 107785029 A CN107785029 A CN 107785029A
Authority
CN
China
Prior art keywords
detection
target voice
model
module
testing result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710994194.5A
Other languages
English (en)
Other versions
CN107785029B (zh
Inventor
马峰
王海坤
王智国
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201710994194.5A priority Critical patent/CN107785029B/zh
Publication of CN107785029A publication Critical patent/CN107785029A/zh
Priority to EP18871326.7A priority patent/EP3703054B1/en
Priority to KR1020207014261A priority patent/KR102401217B1/ko
Priority to HUE18871326A priority patent/HUE065118T2/hu
Priority to ES18871326T priority patent/ES2964131T3/es
Priority to PCT/CN2018/095758 priority patent/WO2019080551A1/zh
Priority to US16/757,892 priority patent/US11308974B2/en
Priority to JP2020517383A priority patent/JP7186769B2/ja
Application granted granted Critical
Publication of CN107785029B publication Critical patent/CN107785029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H17/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明公开了一种目标语音检测方法及装置,该方法包括:接收基于麦克风阵列采集的声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;分别基于所述声音信号和所述不同方向波束逐帧提取检测特征;将提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果;根据所述模型输出结果得到当前帧对应的目标语音的检测结果。利用本发明,可以提高检测结果的准确性。

Description

目标语音检测方法及装置
技术领域
本发明涉及语音信号处理领域,具体涉及一种目标语音检测方法及装置。
背景技术
语音作为最自然、方便快捷的交互方式之一,已在人们的日常生活和工作中得到了广泛的应用。语音信号的处理,如语音编码、降噪等,也一直是相关领域研究人员研究的热点。以语音降噪为例,目标语音检测作为降噪中最重要的步骤之一,其检测的准确性直接影响降噪的效果,如果目标语音检测不准确,在降噪过程中有效语音会失真较严重,因而目标语音的准确检测有着重要的意义。
现有的目标语音检测方法主要有以下两大类:
1、基于强度差的目标语音检测
比如,先对主麦克风信号做降噪,然后利用降噪后主麦克风信号与副麦克风信号强度差来进行语音检测;或者基于语音参考信号和噪声参考信号能量差进行目标语音检测。这类方法是基于主麦克风拾取的目标信号强度大于副麦克风接收目标信号,噪声信号在两个麦克风中的强度相同的假设。比如,当信噪比高时,主、副麦克能量比大于1,当信噪比低时,能量比小于1。
这种基于强度差的目标语音检测方法的使用场景具有局限性,即目标信号到达主、副麦克风强度差必须达到一定阈值(如3db以上)才能有效。而且,在噪声较大、信噪比比较低的情况下,目标语音检出概率较低。
2、基于机器学习的目标语音检测
比如,将单通道带噪信号作为输入,将理想二值掩模(Ideal Binary Mask,IBM)或者理想比值掩模(Ideal Ratio Mask,IRM)作为输出,其输出值即可作为目标语音存在的依据;或者利用多通道数据,先将多个通道合成一个通道作为输入,进而来获得掩模。
现有的基于机器学习的目标语音检测方法存在以下问题:只利用单通道信息,信息未充分利用,目标语音检测效果不佳;即使利用多通道信息,但每个神经网络仍然只处理一路原始信号或者一路混合信号,未很好地利用多通道的空间信息,如果噪声中存在其他方向的人声干扰,该类方法效果就会急剧下降。
发明内容
本发明实施例提供一种目标语音检测装置及方法,以解决传统目标语音检测方法存在的应用场景受限、低信噪比环境下检测、信息利用不充分导致检测效果不佳中的一个或多个问题。
为此,本发明提供如下技术方案:
一种目标语音检测方法,所述方法包括:
接收基于麦克风阵列采集的声音信号;
对所述声音信号进行波束成形处理,得到不同方向波束;
基于所述声音信号和所述不同方向波束逐帧提取检测特征;
将提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果;
根据所述模型输出结果得到当前帧对应的目标语音的检测结果。
优选地,按以下方式构建所述目标语音检测模型:
确定目标语音检测模型的拓扑结构;
利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;
提取所述训练数据的检测特征;
基于所述检测持征及标注信息,训练得到所述目标语音检测模型的参数。
优选地,所述目标语音检测模型为分类模型或回归模型,所述目标语音检测模型的输出为当前帧每个频点的理想二进制掩码或理想比例掩码。
优选地,所述检测特征包括:空间维度信息、频率维度信息、时间维度信息。
优选地,所述基于所述声音信号和所述不同方向波束逐帧提取检测特征包括:
在每帧的每个频点上将各个波束信号与麦克风阵列采集的声音信号依次拼接,得到多维空间向量;
对所述多维空间向量中每个元素分别求模,然后将每帧所有频点的模进行拼接,得到包含了空间信息的多维频率向量;
对所述包含了空间信息的多维频率向量进行帧扩展,得到包含了空间及频率信息的多维时间向量。
优选地,所述方法还包括:
基于强度差进行目标语音检测,得到基于强度差的检测结果;
所述根据所述模型输出结果确定当前帧是否为目标语音帧包括:
融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。
优选地,所述基于强度差进行目标语音检测,得到基于强度差的检测结果包括:
根据所述不同方向的波束得到语音参考信号和噪声参考信号;
分别计算所述语音参考信号和噪声参考信号的功率;
计算语音参考信号和噪声参考信号的功率比值;
根据所述功率比值得到基于强度差的检测结果。
一种目标语音检测装置,所述装置包括:信号接收模块,波束形成模块,检测特征提取模块,第一检测模块,检测结果输出模块;其中:
所述信号接收模块,用于接收基于麦克风阵列采集的声音信号,并将所述声音信号输出给所述波束形成模块;
所述波束形成模块,用于对输入的所述声音信号进行波束成形处理,得到不同方向波束;
所述检测特征提取模块,其输入分别连接所述信号接收模块和所述波束形成模块的输出,用于分别基于所述声音信号和所述不同方向波束逐帧提取检测特征,并将提取的检测特征输出给所述第一检测模块;
所述第一检测模块,用于将所述检测特征提取模块提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果,并将所述模型输出结果发送给所述检测结果输出模块;
所述检测结果输出模块,用于根据所述模型输出结果得到当前帧对应的目标语音的检测结果。
优选地,所述装置还包括:模型构建模块,用于构建所述目标语音检测模型;
所述模型构建模块包括:
结构设计单元,用于确定目标语音检测模型的拓扑结构;
训练数据处理单元,用于利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;
特征提取单元,用于提取所述训练数据的检测特征;
训练单元,用于基于所述检测特征及标注信息,训练得到所述目标语音检测模型的参数。
优选地,所述目标语音检测模型为分类模型或回归模型。
优选地,所述装置还包括:
第二检测模块,其输入与所述波束形成模块的输出相连,用于基于强度差进行目标语音检测,得到基于强度差的检测结果,并将所述基于强度差的检测结果发送给所述检测结果输出模块;
所述检测结果输出模块融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。
优选地,所述第二检测模块包括:
参考信号获取单元,用于根据所述不同方向的波束得到语音参考信号和噪声参考信号;
计算单元,用于分别计算所述语音参考信号和噪声参考信号的功率,计算语音参考信号和噪声参考信号的功率比值;
检测结果单元,用于根据所述功率比值得到基于强度差的检测结果。
一种计算机可读存储介质,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行如前述任一项所述的人机交互应用方法中的步骤。
本发明实施例提供的目标语音检测方法检测方法及装置,接收基于麦克风阵列采集的声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;分别基于所述声音信号和所述不同方向波束逐帧提取检测特征;利用预先构建的目标语音检测模型及多通道的信息,检测目标语音,从而有效地提高了目标语音检测的准确性,而且不存在应用场景受限的问题,即使在信噪比较低的环境下,也能够得到准确的检测结果。
进一步地,结合基于强度差的检测结果,即融合基于强度差的检测结果和基于模型的检测结果,得到当前帧对应的目标语音的检测结果,进一步提高了检测结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例目标语音检测方法的一种流程图;
图2是本发明实施例中目标语音检测模型的构建流程图;
图3是本发明实施例目标语音检测方法的另一种流程图;
图4是本发明实施例目标语音检测装置的一种结构示意图;
图5是本发明实施例中模型构建模块的一种示意图;
图6是本发明实施例目标语音检测装置的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图1所示,是本发明实施例目标语音检测方法的一种流程图,包括以下步骤:
步骤101,接收基于麦克风阵列采集的声音信号。
在具体应用中,在采集到声音信号后,还需要对其进行预处理。
以包含M个麦克风的麦克风阵列接收声音信号为例,采集的信号分别为x1(t),x2(t)...xM(t)。
所述预处理主要指将接收到的声音信号从时域变换到频率域,得到频域信号X(k,l)=[X1(k,l),X2(k,l)...XM(k,l)]T,其中k表示信号的频率(0,1,...,K),l表示帧序号。
步骤102,对所述声音信号进行波束成形处理,得到不同方向波束。
波束形成具体可以采用现有技术,比如基于方向估计的自适应算法、基于信号结构的波束形成方法等,对此本发明实施例不做限定。波束形成算法主要是通过对麦克风阵列采集到的信号进行处理,使得麦克风阵列对空间域中的某些方向具有较大的增益,而其他方向的增益较小,好像形成一个走向的波束一样。
根据M个麦克风形成主瓣分布指向N个不同方向的波束,可通过波束形成器,得到N个方向的波束:
其中,Wn(k,l)表示指向第n个方向第k个频带的波束形成器系数,由不同波束形成方法确定。
步骤103,分别基于所述声音信号和所述不同方向波束逐帧提取检测特征。
所述检测特征为考虑了空间维度信息、频率维度信息和时间维度信息的综合信息,具体提取方法如下:
假设是预设的目标方向的输出信号,为非目标方向输出信号。
1.空间维度信息V1(k,l)
具体地,在每帧的每个频点上将得到的各个波束信号与麦克风阵列采集的声音信号依次拼接,得到多维空间向量。比如,根据M个麦克风形成主瓣分布指向N个不同方向的波束,在每帧的每个频点上将N个波束信号与M个麦克信号拼接成(M+N)维空间向量V1(k,l):
需要说明的是,在实际应用中,对于目标方向信号其他方向信号麦克风采集的声音信号拼接顺序没有限制。
2.频率维度信息
首先对上述多维空间向量中每个元素分别求模,然后将每帧所有频点的模进行拼接,得到包含了空间信息的多维频率向量。比如,对上述V1(k,l)中每个元素分别求模MD(k,l)=f(V1(k,l)),其中f(x)=|x|2,然后将第l帧所有频点的模MD(k,l)进行拼接,得到(M+N)*K维频率向量:
V2(l)=[MD(1,l);MD(2,l);...;MD(K,l)] (3)
3.时间维度信息
对包含了空间信息的多维频率向量进行帧扩展,得到包含了空间及频率信息的多维时间向量。比如,对上述V2(l)进行帧扩展,向前、向后分别扩展P帧,得到(M+N)*K*2P维的时间维度信息:
V3(l)=[V2(l-P);V2(l-P+1);...;V2(l+P)] (4)
步骤104,将提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果。
即,将上述当前帧l对应的考虑了空间维度、频率维度、时间维度的检测特征V3(l),输入到预先构建的目标语音检测模型,输出为当前帧l每个频点k的理想二值掩码(IBM,Ideal Binary Mask)或者理想浮值掩码(IRM,Ideal Ratio Mask)。以输出为IRM为例,则模型的输出可以定义为Imodel(k,l)。
所述目标语音检测模型可以是分类模型或回归模型,如果输出是IRM,则为回归模型,否则为分类模型。
所述目标语音检测模型具体可以选用深度神经网络(DNN)、循环神经网络(RNN)等神经网络模型。
步骤105,根据所述模型输出结果得到当前帧对应的目标语音的检测结果。
所述模型输出结果可以是IBM或IRM;如果模型输出是IBM,则根据该输出即可确定当前帧是否为目标语音帧;如果模型输出是IRM,则还需要根据设定的阈值进行判断,大于该阈值,则为目标语音帧,否则为非目标语音帧。当然,也可以直接将模型输出的IRM作为相应的检测结果。
上述目标语音检测模型的构建流程如图2所示,包括以下步骤:
步骤201,确定目标语音检测模型的拓扑结构。
前面提到,所述目标语音检测模型可以是分类模型或回归模型,对此本发明实施例不做限定。
步骤202,利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注。
所述干净语音包含所述目标语音。
步骤203,提取所述训练数据的检测特征。
所述检测特征为考虑了空间维度信息、频率维度信息和时间维度信息的综合信息,具体提取方法如前所述。
步骤204,基于所述检测持征及标注信息,训练得到所述目标语音检测模型的参数。
本发明实施例提供的目标语音检测方法,基于麦克风阵列采集声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;分别基于所述声音信号和所述不同方向波束逐帧提取检测特征;利用预先构建的目标语音检测模型及多通道的信息,检测目标语音,从而有效地提高了目标语音检测的准确性,而且不存在应用场景受限的问题,即使在信噪比较低的环境下,也能够得到准确的检测结果。
为了进一步提高目标语音检测结果的准确性,在本发明方法另一实施例中,还提供一种基于强度差和基于检测模型两种检测方法结果的目标语音检测方法。
如图3所示,是本发明实施例目标语音检测方法的一种流程图,包括以下步骤:
步骤301,接收基于麦克风阵列采集的声音信号。
步骤302,对所述声音信号进行波束成形处理,得到不同方向波束。
步骤303,基于强度差进行目标语音检测,得到基于强度差的检测结果。
具体地,首先根据所述不同方向的波束得到语音参考信号和噪声参考信号;然后分别计算所述语音参考信号和噪声参考信号的功率,并计算语音参考信号和噪声参考信号的功率比值,最后根据所述功率比值得到基于强度差的检测结果。
假设语音参考信号为F,噪声参考信号为U,其能量比定义为:
其中,PF(k,l),PU(k,l)分别为语音参考信号和噪声参考信号的功率估计,可采用1阶递归方式进行功率估计:
PF(k,l)=α1PF(k,l-1)+(1-α1)|XF(k,l)|2 (6)
PU(k,l)=α2PU(k,l-1)+(1-α2)|XU(k,l)|2 (7)
其中,XF(k,l)为语音参考信号,即波束主瓣方向指向目标方向的波束形成后信号,可通过主瓣方向指向目标语音的固定波束形成算法得到,比如延迟求和波束形成(Delay and Sumbeamforming)、恒定束宽波束形成(Constant Beam-widthbeam-former)、超增益波束形成(Super-Gainbeamforming)等算法;
XU(k,l)为噪声参考信号,即陷零方向指向目标方向的波束形成后信号,可根据自适应阻塞矩阵得到,比如可采用频域归一化最小均方(NLMS)自适应方法进行滤波器更新,得到噪声参考信号:
XU(k,l)=X1(k,l)-WN(k,l)X2(k,l);
其中,WN(k,l)为自适应阻塞矩阵系数,α为固定学习步长,比如该步长可以取值为0.05,上标*表示复数取共轭,δ为小正数,比如δ可以取值为0.001。Iratio(k,l)为当前时频点目标语音检测结果:
其中,阈值th1和th2由大量实验和/或经验得到,比如可以取th2=2,th1=0.5。
需要说明的是,还可以设定一个阈值th,如果Iratio(k,l)大于该阈值th,则认为当前帧为目标语音帧,否则当前帧为非目标语音帧。
步骤304,基于检测模型进行目标语音检测,得到基于模型的检测结果。
基于检测模型的目标语音检测过程可参照前面图1中的步骤103至步骤104,在此不再赘述。
步骤305,融合所述基于强度差的检测结果和所述基于模型的检测结果,得到当前帧对应的目标语音的检测结果。
具体地,可以基于Imodel(k,l)和Iratio(k,l)进行联合判定,以语音降噪中自适应噪声消除(ANC,Adaptive Noise Cancellation)为例,判定是否有目标语音如下:
其中,阈值th3、th4、th5和th6由大量实验和/或经验得到,比如可以取th3=0.5,th4=0.5,th5=0.25,th6=0.25。
需要说明的是,在所述目标语音检测模型采用分类模型,而且基于强度差的检测结果也是二值结果,即0或1的情况下,在对两种方式的检测结果进行融合时,可以采用“与”或者“或”的融合方式。当然,在实际应用中,也可以采用其它融合方式,对此本发明实施例不做限定。
需要说明的是,上述步骤303和步骤304是分别基于不同方法的目标语音检测过程,两者是独立进行,而且没有时间上的先后顺序关系。可以并行执行,也可以其中任一个步骤先执行。
可见,本发明实施例的目标语音检测方法,不仅可以在信噪比较低的环境下,也能够得到准确的检测结果,而且可以结合基于强度差检测结果,进一步提高了检测结果的准确性。
相应地,本发明实施例还提供一种计算机可读存储介质,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行本发明目标语音检测实施例中的各步骤。
相应地,本发明实施例还提供一种目标语音检测装置,如图4所示,是该装置的一种结构示意图。
在该实施例中,所述装置包括以下各模块:信号接收模块401,波束形成模块402,检测特征提取模块403,第一检测模块404、检测结果输出模块405。其中:
所述信号接收模块401,用于接收基于麦克风阵列采集的声音信号,并将所述声音信号输出给所述波束形成模块402;
所述波束形成模块402,用于对输入的所述声音信号进行波束成形处理,得到不同方向波束;
所述检测特征提取模块403的输入分别连接所述信号接收模块401和所述波束形成模块402的输出,用于分别基于所述声音信号和所述不同方向波束逐帧提取检测特征,并将提取的检测特征输出给所述第一检测模块404;
所述第一检测模块404,用于将所述检测特征提取模块403提取的当前帧的检测特征输入预先构建的目标语音检测模型400,得到模型输出结果,并将所述模型输出结果发送给所述检测结果输出模块405;
所述检测结果输出模块405,用于根据所述模型输出结果得到当前帧对应的目标语音的检测结果。
需要说明的是,上述信号接收模块401在采集到声音信号后,还需要对其进行预处理,所述预处理主要指将接收到的声音信号从时域变换到频率域,得到频域信号。
上述检测特征提取模块403提取的检测特征为考虑了空间维度信息、频率维度信息和时间维度信息的综合信息,具体提取方式可以参见前面本发明方法实施例中的描述,在此不再赘述。
上述目标语音检测模型400可以是分类模型或回归模型,具体可以由相应的模型构建模块预选构建,所述模型构建模块可以作为本发明装置的一部分,也可以独立于本发明装置,对此本发明实施例不做限定。
图5示出了本发明实施例中模型构建模块的一种结构,包括以下各单元:
结构设计单元51,用于确定目标语音检测模型的拓扑结构;
训练数据处理单元52,用于利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;
特征提取单元53,用于提取所述训练数据的检测特征;
训练单元54,用于基于所述检测持征及标注信息,训练得到所述目标语音检测模型的参数。
需要说明的是,在目标语音检测模型构建过程中,所述特征提取单元53提取的检测特征同样为考虑了空间维度信息、频率维度信息和时间维度信息的综合信息,具体提取方式可以参见前面本发明方法实施例中的描述,在此不再赘述。
本发明实施例提供的目标语音检测装置,基于麦克风阵列采集声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;分别基于所述声音信号和所述不同方向波束逐帧提取检测特征;利用预先构建的目标语音检测模型及多通道的信息,检测目标语音,从而有效地提高了目标语音检测的准确性,而且不存在应用场景受限的问题,即使在信噪比较低的环境下,也能够得到准确的检测结果。
如图6所示,是本发明实施例目标语音检测装置的另一种结构示意图。
与图5所示实施例不同的是,在该实施例中,所述装置还包括:
第二检测模块406,其输入与所述波束形成模块402的输出相连,用于基于强度差进行目标语音检测,得到基于强度差的检测结果,并将所述基于强度差的检测结果发送给所述检测结果输出模块405。
所述第二检测模块406具体可以包括以下各单元:
参考信号获取单元,用于根据所述不同方向的波束得到语音参考信号和噪声参考信号;
计算单元,用于分别计算所述语音参考信号和噪声参考信号的功率,计算语音参考信号和噪声参考信号的功率比值;
检测结果单元,用于根据所述功率比值得到基于强度差的检测结果。
相应地,在该实施例中,所述检测结果输出模块405融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。具本融合方式可参照前面本发明方法实施例中的描述,在此不再赘述。
本发明实施例的目标语音检测装置,分别基于模型和基于强度差的方式对目标语音进行检测,并将两种不同方式的检测结果进行综合考虑,从而可以使得到的检测结果更准确。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种目标语音检测方法,其特征在于,所述方法包括:
接收基于麦克风阵列采集的声音信号;
对所述声音信号进行波束成形处理,得到不同方向波束;
基于所述声音信号和所述不同方向波束逐帧提取检测特征;
将提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果;
根据所述模型输出结果得到当前帧对应的目标语音的检测结果。
2.根据权利要求1所述的方法,其特征在于,按以下方式构建所述目标语音检测模型:
确定目标语音检测模型的拓扑结构;
利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;
提取所述训练数据的检测特征;
基于所述检测持征及标注信息,训练得到所述目标语音检测模型的参数。
3.根据权利要求1所述的方法,其特征在于,所述目标语音检测模型为分类模型或回归模型,所述目标语音检测模型的输出为当前帧每个频点的理想二进制掩码或理想比例掩码。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述检测特征包括:空间维度信息、频率维度信息、时间维度信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所述声音信号和所述不同方向波束逐帧提取检测特征包括:
在每帧的每个频点上将各个波束信号与麦克风阵列采集的声音信号依次拼接,得到多维空间向量;
对所述多维空间向量中每个元素分别求模,然后将每帧所有频点的模进行拼接,得到包含了空间信息的多维频率向量;
对所述包含了空间信息的多维频率向量进行帧扩展,得到包含了空间及频率信息的多维时间向量。
6.根据权利要求1至3、5任一项所述的方法,其特征在于,所述方法还包括:
基于强度差进行目标语音检测,得到基于强度差的检测结果;
所述根据所述模型输出结果确定当前帧是否为目标语音帧包括:
融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。
7.根据权利要求6所述的方法,其特征在于,所述基于强度差进行目标语音检测,得到基于强度差的检测结果包括:
根据所述不同方向的波束得到语音参考信号和噪声参考信号;
分别计算所述语音参考信号和噪声参考信号的功率;
计算语音参考信号和噪声参考信号的功率比值;
根据所述功率比值得到基于强度差的检测结果。
8.一种目标语音检测装置,其特征在于,所述装置包括:信号接收模块,波束形成模块,检测特征提取模块,第一检测模块,检测结果输出模块;其中:
所述信号接收模块,用于接收基于麦克风阵列采集的声音信号,并将所述声音信号输出给所述波束形成模块;
所述波束形成模块,用于对输入的所述声音信号进行波束成形处理,得到不同方向波束;
所述检测特征提取模块,其输入分别连接所述信号接收模块和所述波束形成模块的输出,用于分别基于所述声音信号和所述不同方向波束逐帧提取检测特征,并将提取的检测特征输出给所述第一检测模块;
所述第一检测模块,用于将所述检测特征提取模块提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果,并将所述模型输出结果发送给所述检测结果输出模块;
所述检测结果输出模块,用于根据所述模型输出结果得到当前帧对应的目标语音的检测结果。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:模型构建模块,用于构建所述目标语音检测模型;
所述模型构建模块包括:
结构设计单元,用于确定目标语音检测模型的拓扑结构;
训练数据处理单元,用于利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;
特征提取单元,用于提取所述训练数据的检测特征;
训练单元,用于基于所述检测特征及标注信息,训练得到所述目标语音检测模型的参数。
10.根据权利要求8所述的装置,其特征在于,所述目标语音检测模型为分类模型或回归模型。
11.根据权利要求8至10任一项所述的装置,其特征在于,所述装置还包括:
第二检测模块,其输入与所述波束形成模块的输出相连,用于基于强度差进行目标语音检测,得到基于强度差的检测结果,并将所述基于强度差的检测结果发送给所述检测结果输出模块;
所述检测结果输出模块融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。
12.根据权利要求11所述的装置,其特征在于,所述第二检测模块包括:
参考信号获取单元,用于根据所述不同方向的波束得到语音参考信号和噪声参考信号;
计算单元,用于分别计算所述语音参考信号和噪声参考信号的功率,计算语音参考信号和噪声参考信号的功率比值;
检测结果单元,用于根据所述功率比值得到基于强度差的检测结果。
13.一种计算机可读存储介质,其特征在于,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行如权利要求1至7任一项所述的人机交互应用方法中的步骤。
CN201710994194.5A 2017-10-23 2017-10-23 目标语音检测方法及装置 Active CN107785029B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201710994194.5A CN107785029B (zh) 2017-10-23 2017-10-23 目标语音检测方法及装置
ES18871326T ES2964131T3 (es) 2017-10-23 2018-07-16 Método y aparato de detección de voz objetivo
KR1020207014261A KR102401217B1 (ko) 2017-10-23 2018-07-16 타겟 음성 검출 방법 및 장치
HUE18871326A HUE065118T2 (hu) 2017-10-23 2018-07-16 Eljárás és berendezés célhang érzékelésére
EP18871326.7A EP3703054B1 (en) 2017-10-23 2018-07-16 Target voice detection method and apparatus
PCT/CN2018/095758 WO2019080551A1 (zh) 2017-10-23 2018-07-16 目标语音检测方法及装置
US16/757,892 US11308974B2 (en) 2017-10-23 2018-07-16 Target voice detection method and apparatus
JP2020517383A JP7186769B2 (ja) 2017-10-23 2018-07-16 対象音声検出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710994194.5A CN107785029B (zh) 2017-10-23 2017-10-23 目标语音检测方法及装置

Publications (2)

Publication Number Publication Date
CN107785029A true CN107785029A (zh) 2018-03-09
CN107785029B CN107785029B (zh) 2021-01-29

Family

ID=61433874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710994194.5A Active CN107785029B (zh) 2017-10-23 2017-10-23 目标语音检测方法及装置

Country Status (8)

Country Link
US (1) US11308974B2 (zh)
EP (1) EP3703054B1 (zh)
JP (1) JP7186769B2 (zh)
KR (1) KR102401217B1 (zh)
CN (1) CN107785029B (zh)
ES (1) ES2964131T3 (zh)
HU (1) HUE065118T2 (zh)
WO (1) WO2019080551A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019080551A1 (zh) * 2017-10-23 2019-05-02 科大讯飞股份有限公司 目标语音检测方法及装置
CN109801646A (zh) * 2019-01-31 2019-05-24 北京嘉楠捷思信息技术有限公司 一种基于融合特征的语音端点检测方法和装置
CN110164446A (zh) * 2018-06-28 2019-08-23 腾讯科技(深圳)有限公司 语音信号识别方法和装置、计算机设备和电子设备
CN110797021A (zh) * 2018-05-24 2020-02-14 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN111883166A (zh) * 2020-07-17 2020-11-03 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
WO2020224226A1 (zh) * 2019-05-07 2020-11-12 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN111971743A (zh) * 2018-04-13 2020-11-20 微软技术许可有限责任公司 用于改进的实时音频处理的系统、方法和计算机可读介质
CN112151036A (zh) * 2020-09-16 2020-12-29 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备
CN113270108A (zh) * 2021-04-27 2021-08-17 维沃移动通信有限公司 语音活动检测方法、装置、电子设备及介质
CN113345469A (zh) * 2021-05-24 2021-09-03 北京小米移动软件有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN115240698A (zh) * 2021-06-30 2022-10-25 达闼机器人股份有限公司 模型训练方法、语音检测定位方法、电子设备及存储介质
CN116580723A (zh) * 2023-07-13 2023-08-11 合肥星本本网络科技有限公司 一种强噪声环境下的语音检测方法和系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335694B (zh) * 2018-02-01 2021-10-15 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
CN110265065B (zh) * 2019-05-13 2021-08-03 厦门亿联网络技术股份有限公司 一种构建语音端点检测模型的方法及语音端点检测系统
CN111613247B (zh) * 2020-04-14 2023-03-21 云知声智能科技股份有限公司 一种基于麦克风阵列的前景语音检测方法及装置
CN112562649B (zh) * 2020-12-07 2024-01-30 北京大米科技有限公司 一种音频处理的方法、装置、可读存储介质和电子设备
CN113077803B (zh) * 2021-03-16 2024-01-23 联想(北京)有限公司 一种语音处理方法、装置、可读存储介质及电子设备

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192411A (zh) * 2007-12-27 2008-06-04 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统
CN101218848A (zh) * 2005-07-06 2008-07-09 皇家飞利浦电子股份有限公司 用于声束形成的设备和方法
US20090164212A1 (en) * 2007-12-19 2009-06-25 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
CN102074246A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
CN103181190A (zh) * 2010-10-22 2013-06-26 高通股份有限公司 用于远场多源追踪和分离的系统、方法、设备和计算机可读媒体
US20140343929A1 (en) * 2013-05-14 2014-11-20 Hon Hai Precision Industry Co., Ltd. Voice recording system and method
CN104766093A (zh) * 2015-04-01 2015-07-08 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的声目标分类方法
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
CN105336340A (zh) * 2015-09-30 2016-02-17 中国电子科技集团公司第三研究所 一种用于低空目标声探测系统的风噪抑制方法和装置
CN105590631A (zh) * 2014-11-14 2016-05-18 中兴通讯股份有限公司 信号处理的方法及装置
CN105788607A (zh) * 2016-05-20 2016-07-20 中国科学技术大学 应用于双麦克风阵列的语音增强方法
CN105869651A (zh) * 2016-03-23 2016-08-17 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法
CN205621437U (zh) * 2015-12-16 2016-10-05 宁波桑德纳电子科技有限公司 一种声像联合定位的远距离语音采集装置
US20160322055A1 (en) * 2015-03-27 2016-11-03 Google Inc. Processing multi-channel audio waveforms
CN106328156A (zh) * 2016-08-22 2017-01-11 华南理工大学 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN106710603A (zh) * 2016-12-23 2017-05-24 上海语知义信息技术有限公司 利用线性麦克风阵列的语音识别方法及系统
CN106782618A (zh) * 2016-12-23 2017-05-31 上海语知义信息技术有限公司 基于二阶锥规划的目标方向语音检测方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
KR20090037845A (ko) * 2008-12-18 2009-04-16 삼성전자주식회사 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
KR101811716B1 (ko) * 2011-02-28 2017-12-28 삼성전자주식회사 음성 인식 방법 및 그에 따른 음성 인식 장치
JP5318258B1 (ja) 2012-07-03 2013-10-16 株式会社東芝 集音装置
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
JP6221158B2 (ja) * 2014-08-27 2017-11-01 本田技研工業株式会社 自律行動ロボット、及び自律行動ロボットの制御方法
US20160180214A1 (en) * 2014-12-19 2016-06-23 Google Inc. Sharp discrepancy learning
US10580401B2 (en) * 2015-01-27 2020-03-03 Google Llc Sub-matrix input for neural network layers
JP6594222B2 (ja) * 2015-12-09 2019-10-23 日本電信電話株式会社 音源情報推定装置、音源情報推定方法、およびプログラム
EP4235646A3 (en) 2016-03-23 2023-09-06 Google LLC Adaptive audio enhancement for multichannel speech recognition
US9972339B1 (en) * 2016-08-04 2018-05-15 Amazon Technologies, Inc. Neural network based beam selection
CN106483502B (zh) * 2016-09-23 2019-10-18 科大讯飞股份有限公司 一种声源定位方法及装置
US10140980B2 (en) * 2016-12-21 2018-11-27 Google LCC Complex linear projection for acoustic modeling
WO2018127447A1 (en) * 2017-01-03 2018-07-12 Koninklijke Philips N.V. Method and apparatus for audio capture using beamforming
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107785029B (zh) 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
US10546593B2 (en) * 2017-12-04 2020-01-28 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
US11120786B2 (en) * 2020-03-27 2021-09-14 Intel Corporation Method and system of automatic speech recognition with highly efficient decoding

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101218848A (zh) * 2005-07-06 2008-07-09 皇家飞利浦电子股份有限公司 用于声束形成的设备和方法
US20090164212A1 (en) * 2007-12-19 2009-06-25 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
CN101192411A (zh) * 2007-12-27 2008-06-04 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统
CN103181190A (zh) * 2010-10-22 2013-06-26 高通股份有限公司 用于远场多源追踪和分离的系统、方法、设备和计算机可读媒体
CN102074246A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
US20140343929A1 (en) * 2013-05-14 2014-11-20 Hon Hai Precision Industry Co., Ltd. Voice recording system and method
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
CN105590631A (zh) * 2014-11-14 2016-05-18 中兴通讯股份有限公司 信号处理的方法及装置
US20160322055A1 (en) * 2015-03-27 2016-11-03 Google Inc. Processing multi-channel audio waveforms
CN104766093A (zh) * 2015-04-01 2015-07-08 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的声目标分类方法
CN105336340A (zh) * 2015-09-30 2016-02-17 中国电子科技集团公司第三研究所 一种用于低空目标声探测系统的风噪抑制方法和装置
CN205621437U (zh) * 2015-12-16 2016-10-05 宁波桑德纳电子科技有限公司 一种声像联合定位的远距离语音采集装置
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN105869651A (zh) * 2016-03-23 2016-08-17 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法
CN105788607A (zh) * 2016-05-20 2016-07-20 中国科学技术大学 应用于双麦克风阵列的语音增强方法
CN106328156A (zh) * 2016-08-22 2017-01-11 华南理工大学 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN106710603A (zh) * 2016-12-23 2017-05-24 上海语知义信息技术有限公司 利用线性麦克风阵列的语音识别方法及系统
CN106782618A (zh) * 2016-12-23 2017-05-31 上海语知义信息技术有限公司 基于二阶锥规划的目标方向语音检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李文东: "人机交互中的声源定位与增强方法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *
李晓雪: "基于麦克风阵列的语音增强与识别研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *
韩颖: "复杂环境下阵列语音识别方法的研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11308974B2 (en) 2017-10-23 2022-04-19 Iflytek Co., Ltd. Target voice detection method and apparatus
WO2019080551A1 (zh) * 2017-10-23 2019-05-02 科大讯飞股份有限公司 目标语音检测方法及装置
CN111971743B (zh) * 2018-04-13 2024-03-19 微软技术许可有限责任公司 用于改进的实时音频处理的系统、方法和计算机可读介质
CN111971743A (zh) * 2018-04-13 2020-11-20 微软技术许可有限责任公司 用于改进的实时音频处理的系统、方法和计算机可读介质
CN110797021A (zh) * 2018-05-24 2020-02-14 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
US11996091B2 (en) 2018-05-24 2024-05-28 Tencent Technology (Shenzhen) Company Limited Mixed speech recognition method and apparatus, and computer-readable storage medium
CN110797021B (zh) * 2018-05-24 2022-06-07 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN110164446A (zh) * 2018-06-28 2019-08-23 腾讯科技(深圳)有限公司 语音信号识别方法和装置、计算机设备和电子设备
CN109801646B (zh) * 2019-01-31 2021-11-16 嘉楠明芯(北京)科技有限公司 一种基于融合特征的语音端点检测方法和装置
CN109801646A (zh) * 2019-01-31 2019-05-24 北京嘉楠捷思信息技术有限公司 一种基于融合特征的语音端点检测方法和装置
WO2020224226A1 (zh) * 2019-05-07 2020-11-12 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN111883166A (zh) * 2020-07-17 2020-11-03 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
CN111883166B (zh) * 2020-07-17 2024-05-10 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
CN112151036B (zh) * 2020-09-16 2021-07-30 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备
CN112151036A (zh) * 2020-09-16 2020-12-29 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备
CN113270108A (zh) * 2021-04-27 2021-08-17 维沃移动通信有限公司 语音活动检测方法、装置、电子设备及介质
CN113270108B (zh) * 2021-04-27 2024-04-02 维沃移动通信有限公司 语音活动检测方法、装置、电子设备及介质
CN113345469A (zh) * 2021-05-24 2021-09-03 北京小米移动软件有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN115240698A (zh) * 2021-06-30 2022-10-25 达闼机器人股份有限公司 模型训练方法、语音检测定位方法、电子设备及存储介质
CN116580723B (zh) * 2023-07-13 2023-09-08 合肥星本本网络科技有限公司 一种强噪声环境下的语音检测方法和系统
CN116580723A (zh) * 2023-07-13 2023-08-11 合肥星本本网络科技有限公司 一种强噪声环境下的语音检测方法和系统

Also Published As

Publication number Publication date
JP2021500593A (ja) 2021-01-07
WO2019080551A1 (zh) 2019-05-02
ES2964131T3 (es) 2024-04-04
EP3703054C0 (en) 2023-09-20
EP3703054A1 (en) 2020-09-02
KR102401217B1 (ko) 2022-05-23
US20200342890A1 (en) 2020-10-29
HUE065118T2 (hu) 2024-05-28
CN107785029B (zh) 2021-01-29
JP7186769B2 (ja) 2022-12-09
EP3703054B1 (en) 2023-09-20
KR20200066367A (ko) 2020-06-09
US11308974B2 (en) 2022-04-19
EP3703054A4 (en) 2021-07-28

Similar Documents

Publication Publication Date Title
CN107785029A (zh) 目标语音检测方法及装置
CN110444214B (zh) 语音信号处理模型训练方法、装置、电子设备及存储介质
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN110503970A (zh) 一种音频数据处理方法、装置及存储介质
CN109841226A (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN105488466B (zh) 一种深层神经网络和水声目标声纹特征提取方法
US20140114655A1 (en) Emotion recognition using auditory attention cues extracted from users voice
CN108172238A (zh) 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN110379412A (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
JPH02160298A (ja) 雑音除去方法、それに用いるニューラルネットワークの学習方法
CN109256118B (zh) 基于生成式听觉模型的端到端汉语方言识别系统和方法
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN109979476A (zh) 一种语音去混响的方法及装置
CN115602152B (zh) 一种基于多阶段注意力网络的语音增强方法
CN113191178A (zh) 一种基于听觉感知特征深度学习的水声目标识别方法
CN109584895B (zh) 语音降噪方法及装置
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
Qiu et al. Adversarial multi-task learning with inverse mapping for speech enhancement
CN113782044B (zh) 一种语音增强方法及装置
CN106531156A (zh) 一种基于室内多移动源实时处理的语音信号增强技术方法
CN114613384B (zh) 一种基于深度学习多输入语音信号波束形成信息互补方法
CN110136741A (zh) 一种基于多尺度上下文的单通道语音增强方法
CN115881156A (zh) 基于多尺度的多模态时域语音分离方法
CN113257269A (zh) 一种基于深度学习的波束形成方法和存储设备
Zhang et al. End-to-end overlapped speech detection and speaker counting with raw waveform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant