CN111863036B - 语音检测的方法和装置 - Google Patents
语音检测的方法和装置 Download PDFInfo
- Publication number
- CN111863036B CN111863036B CN202010697058.1A CN202010697058A CN111863036B CN 111863036 B CN111863036 B CN 111863036B CN 202010697058 A CN202010697058 A CN 202010697058A CN 111863036 B CN111863036 B CN 111863036B
- Authority
- CN
- China
- Prior art keywords
- voice
- network
- sub
- fully
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 claims abstract description 147
- 238000000034 method Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 80
- 238000000605 extraction Methods 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 238000007477 logistic regression Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 16
- 230000015654 memory Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Navigation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了语音检测的方法和装置,涉及语音处理和深度学习技术领域。具体实施方式包括:获取目标语音;将该目标语音输入预先训练的深度神经网络,得到该目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,其中,该深度神经网络用于预测语音在该多个方向区间中的每个方向区间是否存在子语音。本申请可以对每个方向区间分别进行预测,从而准确地确定出目标语音在每个方向区间是否存在子语音,实现精准预测。
Description
技术领域
本申请涉及计算机技术领域,具体涉及语音处理和深度学习技术领域,尤其涉及语音检测的方法和装置。
背景技术
到达方向(Direction Of Arrival,DOA)估计,为对波所到达的方向进行估计,也即对声源方向进行估计。这里的来源可以是音频来源或者其它可用于通信的信号来源。话音激活检测(Voice Activity Detection,VAD),可以检测当前音频中是否包含语音信号(即人声信号),也即对音频进行判断,将人声信号从各种背景噪声区分出来。
相关技术中的到达方向估计,通常利用接收装置列阵获取信号,并确定一个从接收装置到信号的波达方向线,并利用波达方向线进行三角测量,从而确定到达方向。
发明内容
提供了一种语音检测的方法、装置、电子设备以及存储介质。
根据第一方面,提供了一种语音检测的方法,包括:获取目标语音;将目标语音输入预先训练的深度神经网络,得到目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,其中,深度神经网络用于预测语音在多个方向区间中的每个方向区间是否存在子语音。
根据第二方面,提供了一种深度神经网络的训练方法,包括:获取训练样本,其中,所述训练样本中的语音样本包括在预设的至少一个方向区间的子语音;将所述语音样本输入所述深度神经网络,得到预测结果,其中,所述深度神经网络用于预测语音在多个方向区间中的每个方向区间是否存在子语音;基于所述预测结果,对所述深度神经网络进行训练,得到训练后的深度神经网络。
根据第三方面,提供了一种语音检测的装置,包括:获取单元,被配置成获取目标语音;预测单元,被配置成将所述目标语音输入预先训练的深度神经网络,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,其中,所述深度神经网络用于预测语音在所述多个方向区间中的每个方向区间是否存在子语音。
根据第四方面,提供了一种深度神经网络的训练装置,包括:样本获取单元,被配置成获取训练样本,其中,所述训练样本中的语音样本包括在预设的至少一个方向区间的子语音;输入单元,被配置成将所述语音样本输入所述深度神经网络,得到预测结果,其中,所述深度神经网络用于预测语音在多个方向区间中的每个方向区间是否存在子语音;训练单元,被配置成基于所述预测结果,对所述深度神经网络进行训练,得到训练后的深度神经网络。
根据第五方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如语音检测的方法或深度神经网络的训练方法中任一实施例的方法。
根据第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如语音检测的方法或深度神经网络的训练方法中任一实施例的方法。
根据本申请的方案,可以对每个方向区间分别进行预测,从而准确地确定出目标语音在每个方向区间是否存在子语音,实现精准预测。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请一些实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的语音检测的方法的一个实施例的流程图;
图3a是根据本申请的语音检测的方法的一个应用场景的示意图;
图3b是根据本申请的语音检测的深度神经网络的预测过程的示意图;
图4a是根据本申请的深度神经网络的训练方法的一个实施例的流程图;
图4b是根据本申请的语音检测的深度神经网络的训练网络结构的示意图;
图5是根据本申请的语音检测的装置的一个实施例的结构示意图;
图6是用来实现本申请实施例的语音检测的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的语音检测的方法或语音检测的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如语音检测类应用、直播应用、即时通信工具、邮箱客户端、社交平台软件等。
这里的终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的目标语音等数据进行分析等处理,并将处理结果(例如深度神经网络的预测结果)反馈给终端设备。
需要说明的是,本申请实施例所提供的语音检测的方法可以由服务器105或者终端设备101、102、103执行,相应地,语音检测的装置可以设置于服务器105或者终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的语音检测的方法的一个实施例的流程200。该语音检测的方法,包括以下步骤:
步骤201,获取目标语音。
在本实施例中,语音检测的方法运行于其上的执行主体(例如图1所示的服务器或终端设备)可以获取目标语音。在实践中,该目标语音可以是单通道语音,也可以是多通道语音,也即,目标语音可以是由一个麦克风接收得到的语音,也可以是由在多个不同接收方向的麦克风组成的麦克风列阵接收得到的语音。
步骤202,将目标语音输入预先训练的深度神经网络,得到目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,其中,深度神经网络用于预测语音在多个方向区间中的每个方向区间是否存在子语音。
在本实施例中,上述执行主体可以将目标语音输入预先训练的深度神经网络,得到该深度神经网络输出的预测结果。具体地,该预测结果是目标语音在预设的多个方向区间中的每个方向区间是否存在子语音。目标语音是至少一个声源发出的语音,其中的每个声源发出目标语音中的一个子语音,且每个声源对应一个到达方向。需要说明的是,在本申请中,多个指至少两个。
具体地,这里的深度神经网络可以是各种网络,比如,卷积神经网络、残差神经网络等等。
预测结果中可以包括对于上述多个方向区间中的每个方向区间所预测的、是否存在子语音的结果,比如,全方向包括360°,如果每个方向区间包括120°,则上述多个方向区间可以包括3个方向区间。如果每个方向区间包括36°,则上述多个方向区间可以包括10个方向区间。如果每个方向区间包括30°,则上述多个方向区间可以包括12个方向区间。
上述深度神经网络的预测结果可以全面地、分别来预测每个方向区间是否存在子语音,每个方向区间在该预测结果中存在对应的结果。比如,在方向区间有12个的情况下,预测结果中可以存在12个结果,不同方向区间分别对应这12个结果中的不同结果。
在实践中,预测结果可以是定性的,比如预测结果可以是表示存在子语音的“1”,或者表示不存在子语音的“0”。或者,预测结果也可以是定量的,比如预测结果可以是表示存在子语音的概率p例如“0.96”,该概率的取值范围为[0,1]。该预测结果可以存在门限值,比如0.95,也即,如果该概率大于或等于该门限值,则目标语音在该方向区间内存在子语音。此外,预测结果还可以表示不存在子语音的概率q例如“0.06”,该概率的范围为[1,0]。该预测结果也可以存在门限值,比如0.05,也即,如果该概率小于或等于该门限值,则目标语音在该方向区间内存在子语音。
本申请的上述实施例提供的方法可以对每个方向区间分别进行预测,从而准确地确定出目标语音在每个方向区间是否存在子语音,从而实现精准预测。
继续参见图3a,图3a是根据本实施例的语音检测的方法的应用场景的一个示意图。在图3a的应用场景中,执行主体301获取目标语音302。执行主体301将目标语音302输入预先训练的深度神经网络,得到深度神经网络的预测结果303为:目标语音在预设的3个方向区间中的每个方向区间是否存在子语音,具体地,第一个方向区间存在子语音,第二个方向区间存在子语音,第三个方向区间不存在子语音,其中,深度神经网络用于预测输入的语音在上述3个方向区间中的每个方向区间是否存在子语音。
本申请还提供了语音检测的方法的又一个实施例,深度神经网络包括多头全连接网络,多头全连接网络的输出分别用于表征语音在多个方向区间中的每个方向区间是否存在子语音,其中,多头全连接网络中任意两个全连接网络所对应的方向区间不同。
在本实施例中,深度神经网络中的全连接网络可以是多头全连接网络。语音检测的方法运行于其上的执行主体(例如图1所示的服务器或终端设备)可以利用多头全连接网络中所包括的多个全连接网络进行全连接处理,深度神经网络输出的预测结果中可以包括每个全连接网络的全部或部分输出。全连接网络与方向区间之间存在对应关系,也即一个全连接网络对应多个方向区间中的一个方向区间,相应地,一个全连接网络可以预测目标语音在与该全连接网络对应的方向区间是否存在子语音。
多头全连接网络的输入可以如本领域中的其它全连接网络的输入,比如,输入可以是目标语音的语音特征。
本实施例可以利用多头全连接网络,实现分别对不同的方向区间的子语音进行准确预测。
在本实施例的一些可选的实现方式中,多头全连接网络中的全连接网络包括全连接层、仿射层和逻辑回归层。
在这些可选的实现方式中,多头全连接网络可以包括全连接(fully connected,FC)层(比如连接有激活relu层的全连接层FC-relu)、仿射层(affine layer)和逻辑回归层(softmax layer)。这些实现方式可以利用全连接网络中的各个处理层进行更加精细化的处理,有助于得到更加准确的预测结果。
在本实施例的一些可选的实现方式中,深度神经网络还包括特征提取网络和卷积网络;上述将目标语音输入预先训练的深度神经网络,得到目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,可以包括:将目标语音输入预先训练的深度神经网络,基于特征提取网络,提取目标语音的语音特征;利用卷积网络处理语音特征,得到待输入多头全连接网络的卷积后语音特征。
在这些可选的实现方式中,上述执行主体可以先利用特征提取(feature-extraction,FE)网络提取目标语音的语音特征,并利用卷积网络(Convolutional NeuralNetworks,CNN,比如连接有激活relu层的卷积层CNN-relu)对语音特征进行卷积处理,从而得到卷积后语音特征。具体地,卷积网络可以包括一个或两个以上的卷积层,此外,卷积网络中还可以包括激活层。
在实践中,上述执行主体可以采用各种方式基于特征提取网络提取目标语音的语音特征,比如,特征提取网络可以用于进行频谱分析,上述执行主体可以利用特征提取网络对目标语音进行频谱分析,得到目标语音的语谱图,并将该语谱图作为待输入卷积网络的语音特征。
这些实现方式可以通过提取语音特征以及对语音特征进行卷积,实现提取语音特征,以及对语音特征进行较为充分的处理,从而有助于让多头全连接网络更好地利用卷积后语音特征,以得到准确的预测结果。
在这些实现方式的一些可选的应用场景中,深度神经网络还包括傅里叶变换网络;这些实现方式中的基于特征提取网络,提取目标语音的语音特征,可以包括:利用傅里叶变换网络对目标语音进行傅里叶变换,得到复数形式的向量;利用特征提取网络,对向量的实部和虚部进行归一化,得到归一化实部和归一化虚部;将归一化实部和归一化虚部,作为目标语音的语音特征。
在这些可选的应用场景中,上述执行主体可以对目标语音进行傅里叶变换(fastfourier transform,FFT),得到的结果是一个向量。并且,该向量表现为复数形式,比如可以表示为x+yj,其中,x为实部,y为虚部,j为虚部单位。相应地,是归一化实部,是归一化虚部。由此可知,上述归一化实部和归一化虚部包括了全方向的相位信息。在现有技术中,往往直接采用傅里叶变换所得到的向量的相位作为语音特征,而由于相位的周期性(一般以2π为周期),采用该方式计算出的相位往往与真实相位存在若干个2π的偏差。
这些应用场景可以确定归一化实部和归一化虚部作为语音特征,避免了现有技术中引入相位偏差的问题。并且对语音确定了多种特征,从而有助于得到更加准确的预测结果。
可选地,上述方法还可以包括:利用特征提取网络,确定向量的模长的对数;以及将归一化实部和归一化虚部,作为目标语音的语音特征,包括:将归一化实部、归一化虚部和对数,作为目标语音的语音特征。
具体地,对复数形式的向量确定模长,即是确定该向量的实部和虚部的平方和的开方结果。
上述执行主体可以将得到的归一化实部、归一化虚部和对数,以三个不同的通道(channel)输入卷积网络,进行卷积处理。该对数可以为检测语音提供充足的信息。
在这些实现方式的一些可选的应用场景中,将目标语音输入预先训练的深度神经网络,得到目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,还可以包括:对于多头全连接网络中的每个全连接网络,将卷积后语音特征输入该全连接网络,得到目标语音在该全连接网络对应的方向区间存在子语音的概率。
在这些可选的应用场景中,上述执行主体可以将卷积网络输出的卷积后语音特征,输入多头全连接网络中的每个全连接网络,从而得到目标语音在每个全连接网络对应的方向区间存在子语音的概率。在实践中,这里的概率可以是上述表示存在子语音的概率p,和/或表示不存在子语音的概率q。
这些应用场景可以利用多头全连接网络,准确地确定出目标语音在每个方向区间是否子语音的概率。
在这些应用场景的一些可选的情况下,上述深度神经网络还可以包括合并层;上述将目标语音输入预先训练的深度神经网络,得到目标语音在预设的多个方向区间的每个方向区间是否存在子语音,还可以包括:对多头全连接网络对应的各个概率进行合并处理,得到待输出的概率集合。
在这些可选的情况下,上述执行主体可以利用合并(concate)层,对多头全连接网络中各个全连接网络得到的概率进行合并处理,并将合并处理结果作为深度神经网络的预测结果。
若每个全连接网络的结果为单个概率比如上述概率p,上述合并处理可以是将各个全连接网络得到的概率合并为概率集合。若每个全连接网络的结果为至少两个概率比如上述概率p和概率q,上述合并处理可以是将每个全连接网络得到的至少两个概率的其中一个概率比如上述概率p,合并为概率集合。具体地,若深度神经网络训练时采用的损失函数为交叉熵函数,那么预测结果则包括概率p和概率q,且p+q=1。因而,可以选择上述其中一个概率,比如概率p作为预测结果进行输出。
在实践中,合并处理还可以包括转置处理,以符号T表示,概率集合是pn的集合,pn表示在方向区间n有子语音的概率,pn=[p0,p1,,pN-1]T,其中,n=0,1,…,N-1。
如图3b所示,图中示出了语音信息输入深度神经网络进行预测,得到预测结果的全过程。
这些情况下,上述执行主体可以利用合并层,对各个概率进行合并处理,从而可以让深度神经网络实现一次性输出多个方向区间是否存在目标语音的子语音。
进一步参考图4a,其示出了深度神经网络的训练方法的一个实施例的流程400。该流程400,可以包括以下步骤:
步骤401,获取训练样本,其中,训练样本中的语音样本包括在预设的至少一个方向区间的子语音。
在本实施例中,深度神经网络的训练方法运行于其上的执行主体(例如图1所示的服务器或终端设备)可以获取训练样本。训练样本中包括用于训练的语音样本,该语音样本中可以包括在一个或多个预设的方向区间的子语音。
步骤402,将语音样本输入深度神经网络,得到预测结果,其中,深度神经网络用于预测语音在多个方向区间中的每个方向区间是否存在子语音。
在本实施例中,上述执行主体可以将语音样本输入深度神经网络,在深度神经网络中进行前向传播,并得到深度神经网络输出的预测结果。具体地,所输入的深度神经网络是待训练的深度神经网络。
步骤403,基于预测结果,对深度神经网络进行训练,得到训练后的深度神经网络。
在本实施例中,上述执行主体可以基于预测结果,对深度神经网络进行训练,以得到训练后的深度神经网络。在训练样本中可以包括上述语音样本所对应的真实结果,也即该语音样本在多个方向区间中的每个方向区间是否存在子语音。
具体地,上述执行主体可以基于预测结果和上述真实结果,确定损失值,并利用该损失值在深度神经网络中进行反向传播,从而得到训练后的深度神经网络。
本实施例训练得到的深度神经网络,可以对每个方向区间分别进行预测,从而准确地确定出语音在每个方向区间是否存在子语音,实现精准预测。
在本实施例的一些可选的实现方式中,深度神经网络包括多头全连接网络,多头全连接网络的输出分别用于表征语音在多个方向区间中的每个方向区间是否存在子语音,其中,多头全连接网络中任意两个全连接网络所对应的方向区间不同。
在这些实现方式的一些可选的应用场景中,步骤402可以包括:将语音样本输入深度神经网络,利用深度神经网络确定语音样本的特征,得到待处理语音特征,其中,训练样本还包括语音样本中每个子语音的方向信息,待处理语音特征包括语音样本中每个子语音分别对应的待处理子语音特征;对于每个子语音的待处理子语音特征,在多头全连接网络中,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该待处理子语音特征的待输入全连接网络;利用多头全连接网络,确定语音样本在多个到达方向区间中的每个到达方向区间是否存在子语音。
在这些可选的应用场景中,上述执行主体可以将确定上述语音样本的特征,并将所确定的特征作为待处理语音特征。具体地,上述执行主体可以采用多种方式确定上述语音样本的特征。比如,上述执行主体可以利用特征提取层,提取上述语音样本的特征,并将提取的特征作为待处理语音特征。此外,上述执行主体还可以对该提取的特征做其它处理,并将处理结果作为待处理语音特征。比如,上述执行主体可以将提取的特征输入预设模型,并预设模型输出的结果作为待处理语音特征。
上述执行主体可以对于每个待处理子语音特征,利用特征定向网络,确定该子语音的方向信息所指示的方向所在的方向区间,从而确定该方向区间所对应的全连接网络。将该所对应的全连接网络作为该待处理子语音特征的待输入全连接网络。
多头全连接网络中的每个全连接网络,都可以输出上述语音样本在多个到达方向区间中的每个到达方向区间是否存在子语音。
在这些应用场景的一些可选的情况下,上述对于每个子语音的待处理子语音特征,在多头全连接网络中,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该待处理子语音特征的待输入全连接网络,可以包括:利用特征定向网络,对于每个子语音的待处理子语音特征,在多头全连接网络中,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该待处理子语音特征的待输入全连接网络。
在这些情况下,上述执行主体可以通过特征定向网络,确定每个待处理子语音特征所对应的全连接网络,也即待输入的全连接网络。从而上述执行主体可以对于每个待处理子语音特征,将该待处理子语音特征输入该待处理子语音特征所对应的全连接网络中。
这些情况下上述执行主体可以利用特征定向网络,在训练过程中,将待处理子语音特征分配到各个全连接网络中,实现每个全连接网络在训练中学习到特定方向区间内的子语音的特征,从而能够提高检测出该方向区间内的子语音的准确度。
在这些应用场景的一些可选的情况下,这些应用场景中的利用多头全连接网络,确定语音样本在多个到达方向区间中的每个到达方向区间是否存在子语音,可以包括:对于每个待处理子语音特征,利用该待处理子语音特征在所对应的全连接网络进行前向传播,获得语音样本在多个方向区间中的每个方向区间存在子语音的概率。
在这些情况下,上述执行主体可以对于每个待处理子语音特征,利用该待处理子语音特征在该待处理子语音特征所对应的全连接网络进行前向传播,前向传播的结果为语音样本在多个方向区间中的每个方向区间存在子语音的概率。
这些情况下上述执行主体可以通过在每个方向区间存在子语音的概率,进行精准预测。
可选地,上述利用深度神经网络确定语音样本的特征,得到待处理语音特征,可以包括:基于特征提取网络,提取语音样本的语音特征;利用卷积网络处理所提取的语音特征,得到待输入多头全连接网络的待处理语音特征。
该情况下,上述执行主体可以利用特征提取网络和卷积网络,充分提取语音样本的特征,以便于后续对特征进行利用。
可选地,上述深度神经网络还包括傅里叶变换网络;上述基于特征提取网络,提取语音样本的语音特征,可以包括:利用傅里叶变换网络对语音样本进行傅里叶变换,得到复数形式的向量;利用特征提取网络,对向量的实部和虚部进行归一化,得到归一化实部和归一化虚部;将归一化实部和归一化虚部,作为语音样本的语音特征。
这些情况下的上述执行主体可以确定归一化实部和归一化虚部作为语音特征,避免了现有技术中引入相位偏差的问题。并且对语音确定了多种特征,从而有助于训练后的深度神经网络预测出更加准确的预测结果。
可选地,上述基于预测结果,对深度神经网络进行训练,得到训练后的深度神经网络,可以包括:基于所获得的概率,在训练网络结构中进行反向传播,以更新卷积网络的参数和多头全连接网络的参数。
在实践中,上述执行主体可以基于所获得的概率,和训练样本中的真实结果比如真实概率(比如存在为“1”,不存在为“0”),以及预设损失函数(比如交叉熵函数),确定所获得概率的损失值,从而利用该损失值在进行反向传播,以更新卷积网络的参数和多头全连接网络的参数。
可选地,上述基于所获得的概率,在训练网络结构中进行反向传播,以更新卷积网络的参数和多头全连接网络的参数,可以包括:对于每个所获得的概率,确定该概率对应的损失值,利用损失值在获得该概率的全连接网络中进行反向传播,得到该概率对应的第一结果;
利用特征定向网络,对各个所得到的第一结果进行合并,得到第一结果集合;
利用第一结果集合,在卷积网络中进行反向传播,以更新卷积网络的参数和多头全连接网络的参数。
在实践中,上述执行主体可以利用在每个全连接网络所获得的概率,和训练样本中标注的、语音样本中是否存在子语音在该全连接网络所对应的方向区间内的真实结果也即真实概率,和预设损失函数,确定每个全连接网络对应的损失值。并利用每个全连接网络对应的损失值,在该全连接网络中进行反向传播,从而得到每个全连接网络对应的反向传播的结果,也即每个全连接网络对应的第一结果。
上述执行主体可以利用特征定向网络,对各个全连接网络对应的第一结果进行合并,得到第一结果集合。之后上述执行主体可以利用第一结果集合,在卷积网络中进行反向传播,并更新卷积网络中的参数以及多头全连接网络的参数。
如图4b所示,图中示出了深度神经网络的训练网络结构。其中的DOA-Splitter为特征定向网络。
这些实现方式可以在卷积网络和多头全连接层中进行反向传播,以实现更新这两个网络中的参数。并且,这些实现方式还可以利用特征定向网络,对各个全连接网络的反向传播结果进行合并,从而可以继续在卷积网络中进行反向传播,实现在整个模型中进行反向传播,进行参数更新。
进一步参考图5,作为对上述图2和图3所示方法的实现,本申请提供了一种语音检测的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,除下面所记载的特征外,该装置实施例还可以包括与图2所示的方法实施例相同或相应的特征或效果。该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的语音检测的装置500包括:获取单元501和预测单元502。其中,获取单元501,被配置成获取目标语音;预测单元502,被配置成将目标语音输入预先训练的深度神经网络,得到目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,其中,深度神经网络用于预测语音在多个方向区间中的每个方向区间是否存在子语音。
在本实施例中,语音检测的装置500的获取单元501和预测单元502的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201和步骤202的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,深度神经网络包括多头全连接网络,多头全连接网络的输出分别用于表征语音在多个方向区间中的每个方向区间是否存在子语音,其中,多头全连接网络中任意两个全连接网络所对应的方向区间不同。
在本实施例的一些可选的实现方式中,深度神经网络还包括特征提取网络和卷积网络;预测单元,进一步被配置成按照如下方式执行将目标语音输入预先训练的深度神经网络,得到目标语音在预设的多个方向区间中的每个方向区间是否存在子语音:将目标语音输入预先训练的深度神经网络,基于特征提取网络,提取目标语音的语音特征;利用卷积网络处理语音特征,得到待输入多头全连接网络的卷积后语音特征。
在本实施例的一些可选的实现方式中,深度神经网络还包括傅里叶变换网络;预测单元,进一步被配置成按照如下方式执行基于特征提取网络,提取目标语音的语音特征:利用傅里叶变换网络对目标语音进行傅里叶变换,得到复数形式的向量;利用特征提取网络,对向量的实部和虚部进行归一化,得到归一化实部和归一化虚部;将归一化实部和归一化虚部,作为目标语音的语音特征。
在本实施例的一些可选的实现方式中,装置还包括:确定单元,被配置成利用特征提取网络,确定向量的模长的对数;以及预测单元,进一步被配置成按照如下方式执行将归一化实部和归一化虚部,作为目标语音的语音特征:将归一化实部、归一化虚部和对数,作为目标语音的语音特征。
在本实施例的一些可选的实现方式中,预测单元,进一步被配置成按照如下方式执行将目标语音输入预先训练的深度神经网络,得到目标语音在预设的多个方向区间中的每个方向区间是否存在子语音:对于多头全连接网络中的每个全连接网络,将卷积后语音特征输入该全连接网络,得到目标语音在该全连接网络对应的方向区间存在子语音的概率。
在本实施例的一些可选的实现方式中,深度神经网络还包括合并层;预测单元,进一步被配置成按照如下方式执行将目标语音输入预先训练的深度神经网络,得到目标语音在预设的多个方向区间中的每个方向区间是否存在子语音:对多头全连接网络对应的各个概率进行合并处理,得到待输出的概率集合。
在本实施例的一些可选的实现方式中,多头全连接网络中的全连接网络包括全连接层、仿射层和逻辑回归层。
在本实施例的一些可选的实现方式中,深度神经网络的训练网络结构还包括特征定向网络、傅里叶变换网络、特征提取网络和卷积网络;网络结构的训练步骤包括:将训练样本中的语音样本,在深度神经网络的傅里叶变换网络、特征提取网络和卷积网络中进行前向传播,得到语音样本的卷积后语音特征,其中,训练样本还包括语音样本中不同子语音的方向信息,卷积后语音特征包括不同子语音分别对应的卷积后子语音特征;对于语音样本的卷积后语音特征中每个子语音的卷积后子语音特征,利用特征定向网络,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该卷积后子语音特征的待输入全连接网络;在多头全连接网络进行前向传播,获得语音样本在多个方向区间中的每个方向区间存在子语音的概率;基于所获得的概率,在训练网络结构中进行反向传播,以更新卷积网络的参数和多头全连接网络的参数。
在本实施例的一些可选的实现方式中,基于所获得的概率,在训练网络结构中进行反向传播,更新卷积网络的参数和多头全连接网络的参数,包括:对于每个所获得的概率,确定该概率对应的损失值,利用损失值在获得该概率的全连接网络中进行反向传播,得到该概率对应的第一结果;利用特征定向网络,对各个所得到的第一结果进行合并,得到第一结果集合;将第一结果集合,在卷积网络中进行反向传播,以更新卷积网络的参数和多头全连接网络的参数。
作为对上述各图所示方法的实现,本申请提供了一种深度神经网络的训练装置的一个实施例,该装置实施例与图4a和图4b所示的方法实施例相对应,除下面所记载的特征外,该装置实施例还可以包括与图4a所示的方法实施例相同或相应的特征或效果。该装置具体可以应用于各种电子设备中。
本实施例的深度神经网络的训练装置包括:样本获取单元、输入单元和训练单元。其中,样本获取单元,被配置成获取训练样本,其中,训练样本中的语音样本包括在预设的至少一个方向区间的子语音;输入单元,被配置成将语音样本输入深度神经网络,得到预测结果,其中,深度神经网络用于预测语音在多个方向区间中的每个方向区间是否存在子语音;训练单元,被配置成基于预测结果,对深度神经网络进行训练,得到训练后的深度神经网络。
在本实施例中,深度神经网络的训练装置的样本获取单元、输入单元和训练单元的具体处理及其所带来的技术效果可分别参考图4a对应实施例中步骤401、步骤402和步骤403的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,深度神经网络包括多头全连接网络,多头全连接网络的输出分别用于表征语音在多个方向区间中的每个方向区间是否存在子语音,其中,多头全连接网络中任意两个全连接网络所对应的方向区间不同。
在本实施例的一些可选的实现方式中,输入单元,进一步被配置成按照如下方式执行将语音样本输入深度神经网络,得到预测结果:将语音样本输入深度神经网络,利用深度神经网络确定语音样本的特征,得到待处理语音特征,其中,训练样本还包括语音样本中每个子语音的方向信息,待处理语音特征包括语音样本中每个子语音分别对应的待处理子语音特征;对于每个子语音的待处理子语音特征,在多头全连接网络中,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该待处理子语音特征的待输入全连接网络;利用多头全连接网络,确定语音样本在多个到达方向区间中的每个到达方向区间是否存在子语音。
在本实施例的一些可选的实现方式中,深度神经网络的训练网络结构还包括特征定向网络;输入单元,进一步被配置成按照如下方式执行对于每个子语音的待处理子语音特征,在多头全连接网络中,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该待处理子语音特征的待输入全连接网络:利用特征定向网络,对于每个子语音的待处理子语音特征,在多头全连接网络中,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该待处理子语音特征的待输入全连接网络。
在本实施例的一些可选的实现方式中,输入单元,进一步被配置成按照如下方式执行利用多头全连接网络,确定语音样本在多个到达方向区间中的每个到达方向区间是否存在子语音:对于每个待处理子语音特征,利用该待处理子语音特征在所对应的全连接网络进行前向传播,获得语音样本在多个方向区间中的每个方向区间存在子语音的概率。
在本实施例的一些可选的实现方式中,深度神经网络还包括特征提取网络和卷积网络;输入单元,进一步被配置成按照如下方式执行利用深度神经网络确定语音样本的特征,得到待处理语音特征:基于特征提取网络,提取语音样本的语音特征;利用卷积网络处理所提取的语音特征,得到待输入多头全连接网络的待处理语音特征。
在本实施例的一些可选的实现方式中,深度神经网络还包括傅里叶变换网络;输入单元,进一步被配置成按照如下方式执行基于特征提取网络,提取语音样本的语音特征:利用傅里叶变换网络对语音样本进行傅里叶变换,得到复数形式的向量;利用特征提取网络,对向量的实部和虚部进行归一化,得到归一化实部和归一化虚部;将归一化实部和归一化虚部,作为语音样本的语音特征。
在本实施例的一些可选的实现方式中,训练单元,进一步被配置成按照如下方式执行基于预测结果,对深度神经网络进行训练,得到训练后的深度神经网络:基于所获得的概率,在训练网络结构中进行反向传播,以更新卷积网络的参数和多头全连接网络的参数。
在本实施例的一些可选的实现方式中,训练单元,进一步被配置成按照如下方式执行基于所获得的概率,在训练网络结构中进行反向传播,以更新卷积网络的参数和多头全连接网络的参数:对于每个所获得的概率,确定该概率对应的损失值,利用损失值在获得该概率的全连接网络中进行反向传播,得到该概率对应的第一结果;利用特征定向网络,对各个所得到的第一结果进行合并,得到第一结果集合;利用第一结果集合,在卷积网络中进行反向传播,以更新卷积网络的参数和多头全连接网络的参数。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的语音检测的方法的电子设备的框图,也是深度神经网络的训练方法的电子设备的框图。以语音检测的方法的电子设备的框图为例进行以下说明:
电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的语音检测的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音检测的方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音检测的方法对应的程序指令/模块(例如,附图5所示的获取单元501和预测单元502)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音检测的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音检测的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至语音检测的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
语音检测的方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与语音检测的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元和预测单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取目标语音的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取目标语音;将目标语音输入预先训练的深度神经网络,得到目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,其中,深度神经网络用于预测语音在多个方向区间中的每个方向区间是否存在子语音。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取训练样本,其中,所述训练样本中的语音样本包括在预设的至少一个方向区间的子语音;将所述语音样本输入所述深度神经网络,得到预测结果,其中,所述深度神经网络用于预测语音在多个方向区间中的每个方向区间是否存在子语音;基于所述预测结果,对所述深度神经网络进行训练,得到训练后的深度神经网络。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (36)
1.一种语音检测方法,所述方法包括:
获取目标语音;
将所述目标语音输入预先训练的一个深度神经网络,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,其中,所述深度神经网络用于预测语音在所述多个方向区间中的每个方向区间是否存在子语音;
其中,所述深度神经网络包括傅里叶变换网络、特征提取网络、卷积网络、多头全连接网络和合并层;所述傅里叶变换网络、所述特征提取网络和所述卷积网络用于提取所述目标语音的卷积后语音特征;所述多头全连接网络用于基于所述卷积后语音特征确定所述多个方向区间中的每个方向区间存在子语音的概率;所述合并层用于对所述概率进行合并,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音。
2.根据权利要求1所述的方法,其中,所述多头全连接网络的输出分别用于表征语音在多个方向区间中的每个方向区间是否存在子语音,其中,所述多头全连接网络中任意两个全连接网络所对应的方向区间不同。
3.根据权利要求2所述的方法,其中,所述将所述目标语音输入预先训练的深度神经网络,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,包括:
将目标语音输入预先训练的深度神经网络,基于所述特征提取网络,提取所述目标语音的语音特征;
利用所述卷积网络处理所述语音特征,得到待输入所述多头全连接网络的卷积后语音特征。
4.根据权利要求3所述的方法,其中,所述基于所述特征提取网络,提取所述目标语音的语音特征,包括:
利用所述傅里叶变换网络对所述目标语音进行傅里叶变换,得到复数形式的向量;
利用所述特征提取网络,对所述向量的实部和虚部进行归一化,得到归一化实部和归一化虚部;
将所述归一化实部和所述归一化虚部,作为所述目标语音的语音特征。
5.根据权利要求4所述的方法,其中,所述方法还包括:
利用所述特征提取网络,确定所述向量的模长的对数;以及
所述将所述归一化实部和所述归一化虚部,作为所述目标语音的语音特征,包括:
将所述归一化实部、所述归一化虚部和所述对数,作为所述目标语音的语音特征。
6.根据权利要求3所述的方法,其中,所述将所述目标语音输入预先训练的深度神经网络,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,还包括:
对于所述多头全连接网络中的每个全连接网络,将所述卷积后语音特征输入该全连接网络,得到所述目标语音在该全连接网络对应的方向区间存在子语音的概率。
7.根据权利要求6所述的方法,其中,所述将所述目标语音输入预先训练的深度神经网络,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,还包括:
对所述多头全连接网络对应的各个概率进行合并处理,得到待输出的概率集合。
8.根据权利要求2所述的方法,其中,所述多头全连接网络中的全连接网络包括全连接层、仿射层和逻辑回归层。
9.一种深度神经网络的训练方法,包括:
获取训练样本,其中,所述训练样本中的语音样本包括在预设的至少一个方向区间的子语音;
将所述语音样本输入一个所述深度神经网络,得到预测结果,其中,所述深度神经网络用于预测语音在多个方向区间中的每个方向区间是否存在子语音;
基于所述预测结果,对所述深度神经网络进行训练,得到训练后的深度神经网络;
其中,所述深度神经网络包括傅里叶变换网络、特征提取网络、卷积网络、多头全连接网络和合并层;所述傅里叶变换网络、所述特征提取网络和所述卷积网络用于提取目标语音的卷积后语音特征;所述多头全连接网络用于基于所述卷积后语音特征确定所述多个方向区间中的每个方向区间存在子语音的概率;所述合并层用于对所述概率进行合并,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音。
10.根据权利要求9所述的方法,其中,所述多头全连接网络的输出分别用于表征语音在多个方向区间中的每个方向区间是否存在子语音,其中,所述多头全连接网络中任意两个全连接网络所对应的方向区间不同。
11.根据权利要求10所述的方法,其中,所述将所述语音样本输入所述深度神经网络,得到预测结果,包括:
将所述语音样本输入所述深度神经网络,利用所述深度神经网络确定所述语音样本的特征,得到待处理语音特征,其中,所述训练样本还包括所述语音样本中每个子语音的方向信息,所述待处理语音特征包括所述语音样本中每个子语音分别对应的待处理子语音特征;
对于每个子语音的待处理子语音特征,在所述多头全连接网络中,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该待处理子语音特征的待输入全连接网络;
利用所述多头全连接网络,确定所述语音样本在所述多个到达方向区间中的每个到达方向区间是否存在子语音。
12.根据权利要求11所述的方法,其中,所述深度神经网络的训练网络结构还包括特征定向网络;
所述对于每个子语音的待处理子语音特征,在所述多头全连接网络中,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该待处理子语音特征的待输入全连接网络,包括:
利用所述特征定向网络,对于每个子语音的待处理子语音特征,在所述多头全连接网络中,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该待处理子语音特征的待输入全连接网络。
13.根据权利要求11所述的方法,其中,所述利用所述多头全连接网络,确定所述语音样本在所述多个到达方向区间中的每个到达方向区间是否存在子语音,包括:
对于每个待处理子语音特征,利用该待处理子语音特征在所对应的全连接网络进行前向传播,获得所述语音样本在所述多个方向区间中的每个方向区间存在子语音的概率。
14.根据权利要求11所述的方法,其中,所述利用所述深度神经网络确定所述语音样本的特征,得到待处理语音特征,包括:
基于所述特征提取网络,提取所述语音样本的语音特征;
利用所述卷积网络处理所提取的语音特征,得到待输入所述多头全连接网络的待处理语音特征。
15.根据权利要求14所述的方法,其中,所述基于所述特征提取网络,提取所述语音样本的语音特征,包括:
利用所述傅里叶变换网络对所述语音样本进行傅里叶变换,得到复数形式的向量;
利用所述特征提取网络,对所述向量的实部和虚部进行归一化,得到归一化实部和归一化虚部;
将所述归一化实部和所述归一化虚部,作为所述语音样本的语音特征。
16.根据权利要求13所述的方法,其中,所述基于所述预测结果,对所述深度神经网络进行训练,得到训练后的深度神经网络,包括:
基于所获得的概率,在训练网络结构中进行反向传播,以更新所述卷积网络的参数和所述多头全连接网络的参数。
17.根据权利要求16所述的方法,其中,所述基于所获得的概率,在所述训练网络结构中进行反向传播,以更新所述卷积网络的参数和所述多头全连接网络的参数,包括:
对于每个所获得的概率,确定该概率对应的损失值,利用所述损失值在获得该概率的全连接网络中进行反向传播,得到该概率对应的第一结果;
利用特征定向网络,对各个所得到的第一结果进行合并,得到第一结果集合;
利用所述第一结果集合,在所述卷积网络中进行反向传播,以更新所述卷积网络的参数和所述多头全连接网络的参数。
18.一种语音检测的装置,所述装置包括:
获取单元,被配置成获取目标语音;
预测单元,被配置成将所述目标语音输入预先训练的一个深度神经网络,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音,其中,所述深度神经网络用于预测语音在所述多个方向区间中的每个方向区间是否存在子语音;
其中,所述深度神经网络包括傅里叶变换网络、特征提取网络、卷积网络、多头全连接网络和合并层;所述傅里叶变换网络、所述特征提取网络和所述卷积网络用于提取所述目标语音的卷积后语音特征;所述多头全连接网络用于基于所述卷积后语音特征确定所述多个方向区间中的每个方向区间存在子语音的概率;所述合并层用于对所述概率进行合并,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音。
19.根据权利要求18所述的装置,其中,所述多头全连接网络的输出分别用于表征语音在多个方向区间中的每个方向区间是否存在子语音,其中,所述多头全连接网络中任意两个全连接网络所对应的方向区间不同。
20.根据权利要求19所述的装置,其中,所述预测单元,进一步被配置成按照如下方式执行所述将所述目标语音输入预先训练的深度神经网络,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音:
将目标语音输入预先训练的深度神经网络,基于所述特征提取网络,提取所述目标语音的语音特征;
利用所述卷积网络处理所述语音特征,得到待输入所述多头全连接网络的卷积后语音特征。
21.根据权利要求20所述的装置,其中,所述预测单元,进一步被配置成按照如下方式执行所述基于所述特征提取网络,提取所述目标语音的语音特征:
利用所述傅里叶变换网络对所述目标语音进行傅里叶变换,得到复数形式的向量;
利用所述特征提取网络,对所述向量的实部和虚部进行归一化,得到归一化实部和归一化虚部;
将所述归一化实部和所述归一化虚部,作为所述目标语音的语音特征。
22.根据权利要求21所述的装置,其中,所述装置还包括:
确定单元,被配置成利用所述特征提取网络,确定所述向量的模长的对数;以及
所述预测单元,进一步被配置成按照如下方式执行所述将所述归一化实部和所述归一化虚部,作为所述目标语音的语音特征:
将所述归一化实部、所述归一化虚部和所述对数,作为所述目标语音的语音特征。
23.根据权利要求20所述的装置,其中,所述预测单元,进一步被配置成按照如下方式执行所述将所述目标语音输入预先训练的深度神经网络,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音:
对于所述多头全连接网络中的每个全连接网络,将所述卷积后语音特征输入该全连接网络,得到所述目标语音在该全连接网络对应的方向区间存在子语音的概率。
24.根据权利要求23所述的装置,其中,所述预测单元,进一步被配置成按照如下方式执行所述将所述目标语音输入预先训练的深度神经网络,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音:
对所述多头全连接网络对应的各个概率进行合并处理,得到待输出的概率集合。
25.根据权利要求19所述的装置,其中,所述多头全连接网络中的全连接网络包括全连接层、仿射层和逻辑回归层。
26.一种深度神经网络的训练装置,包括:
样本获取单元,被配置成获取训练样本,其中,所述训练样本中的语音样本包括在预设的至少一个方向区间的子语音;
输入单元,被配置成将所述语音样本输入一个所述深度神经网络,得到预测结果,其中,所述深度神经网络用于预测语音在多个方向区间中的每个方向区间是否存在子语音;
训练单元,被配置成基于所述预测结果,对所述深度神经网络进行训练,得到训练后的深度神经网络;
其中,所述深度神经网络包括傅里叶变换网络、特征提取网络、卷积网络、多头全连接网络和合并层;所述傅里叶变换网络、所述特征提取网络和所述卷积网络用于提取目标语音的卷积后语音特征;所述多头全连接网络用于基于所述卷积后语音特征确定所述多个方向区间中的每个方向区间存在子语音的概率;所述合并层用于对所述概率进行合并,得到所述目标语音在预设的多个方向区间中的每个方向区间是否存在子语音。
27.根据权利要求26所述的装置,其中,所述多头全连接网络的输出分别用于表征语音在多个方向区间中的每个方向区间是否存在子语音,其中,所述多头全连接网络中任意两个全连接网络所对应的方向区间不同。
28.根据权利要求26所述的装置,其中,所述输入单元,进一步被配置成按照如下方式执行所述将所述语音样本输入所述深度神经网络,得到预测结果:
将所述语音样本输入所述深度神经网络,利用所述深度神经网络确定所述语音样本的特征,得到待处理语音特征,其中,所述训练样本还包括所述语音样本中每个子语音的方向信息,所述待处理语音特征包括所述语音样本中每个子语音分别对应的待处理子语音特征;
对于每个子语音的待处理子语音特征,在所述多头全连接网络中,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该待处理子语音特征的待输入全连接网络;
利用所述多头全连接网络,确定所述语音样本在所述多个到达方向区间中的每个到达方向区间是否存在子语音。
29.根据权利要求26所述的装置,其中,所述深度神经网络的训练网络结构还包括特征定向网络;
所述输入单元,进一步被配置成按照如下方式执行对于每个子语音的待处理子语音特征,在所述多头全连接网络中,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该待处理子语音特征的待输入全连接网络:
利用所述特征定向网络,对于每个子语音的待处理子语音特征,在所述多头全连接网络中,确定该子语音的方向信息指示的方向所在的方向区间所对应的全连接网络,并将该全连接网络作为该待处理子语音特征的待输入全连接网络。
30.根据权利要求26所述的装置,其中,所述输入单元,进一步被配置成按照如下方式执行利用所述多头全连接网络,确定所述语音样本在所述多个到达方向区间中的每个到达方向区间是否存在子语音:
对于每个待处理子语音特征,利用该待处理子语音特征在所对应的全连接网络进行前向传播,获得所述语音样本在所述多个方向区间中的每个方向区间存在子语音的概率。
31.根据权利要求26所述的装置,其中,所述输入单元,进一步被配置成按照如下方式执行利用所述深度神经网络确定所述语音样本的特征,得到待处理语音特征:
基于所述特征提取网络,提取所述语音样本的语音特征;
利用所述卷积网络处理所提取的语音特征,得到待输入所述多头全连接网络的待处理语音特征。
32.根据权利要求31所述的装置,其中,所述输入单元,进一步被配置成按照如下方式执行所述基于所述特征提取网络,提取所述语音样本的语音特征:
利用所述傅里叶变换网络对所述语音样本进行傅里叶变换,得到复数形式的向量;
利用所述特征提取网络,对所述向量的实部和虚部进行归一化,得到归一化实部和归一化虚部;
将所述归一化实部和所述归一化虚部,作为所述语音样本的语音特征。
33.根据权利要求31所述的装置,其中,所述训练单元,进一步被配置成按照如下方式执行所述基于所述预测结果,对所述深度神经网络进行训练,得到训练后的深度神经网络:
基于所获得的概率,在训练网络结构中进行反向传播,以更新所述卷积网络的参数和所述多头全连接网络的参数。
34.根据权利要求33所述的装置,其中,所述训练单元,进一步被配置成按照如下方式执行基于所获得的概率,在所述训练网络结构中进行反向传播,以更新所述卷积网络的参数和所述多头全连接网络的参数:
对于每个所获得的概率,确定该概率对应的损失值,利用所述损失值在获得该概率的全连接网络中进行反向传播,得到该概率对应的第一结果;
利用特征定向网络,对各个所得到的第一结果进行合并,得到第一结果集合;
利用所述第一结果集合,在所述卷积网络中进行反向传播,以更新所述卷积网络的参数和所述多头全连接网络的参数。
35.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8或9-17中任一所述的方法。
36.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-8或9-17中任一所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010697058.1A CN111863036B (zh) | 2020-07-20 | 2020-07-20 | 语音检测的方法和装置 |
KR1020210031674A KR102599978B1 (ko) | 2020-07-20 | 2021-03-10 | 음성 검출 방법 및 장치 |
EP21163855.6A EP3816999B1 (en) | 2020-07-20 | 2021-03-22 | Neural network based determination of the direction of arrival of voice |
US17/208,387 US20210210113A1 (en) | 2020-07-20 | 2021-03-22 | Method and apparatus for detecting voice |
JP2021047560A JP7406521B2 (ja) | 2020-07-20 | 2021-03-22 | 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010697058.1A CN111863036B (zh) | 2020-07-20 | 2020-07-20 | 语音检测的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111863036A CN111863036A (zh) | 2020-10-30 |
CN111863036B true CN111863036B (zh) | 2022-03-01 |
Family
ID=73000971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010697058.1A Active CN111863036B (zh) | 2020-07-20 | 2020-07-20 | 语音检测的方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210210113A1 (zh) |
EP (1) | EP3816999B1 (zh) |
JP (1) | JP7406521B2 (zh) |
KR (1) | KR102599978B1 (zh) |
CN (1) | CN111863036B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786069B (zh) * | 2020-12-24 | 2023-03-21 | 北京有竹居网络技术有限公司 | 语音提取方法、装置和电子设备 |
US11862179B2 (en) * | 2021-04-01 | 2024-01-02 | Capital One Services, Llc | Systems and methods for detecting manipulated vocal samples |
CN115240698A (zh) * | 2021-06-30 | 2022-10-25 | 达闼机器人股份有限公司 | 模型训练方法、语音检测定位方法、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10460749B1 (en) * | 2018-06-28 | 2019-10-29 | Nuvoton Technology Corporation | Voice activity detection using vocal tract area information |
CN110517677A (zh) * | 2019-08-27 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 语音处理系统、方法、设备、语音识别系统及存储介质 |
CN110648692A (zh) * | 2019-09-26 | 2020-01-03 | 苏州思必驰信息科技有限公司 | 语音端点检测方法及系统 |
CN110740412A (zh) * | 2018-07-18 | 2020-01-31 | 奥迪康有限公司 | 包括语音存在概率估计器的听力装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9972339B1 (en) * | 2016-08-04 | 2018-05-15 | Amazon Technologies, Inc. | Neural network based beam selection |
KR102017244B1 (ko) * | 2017-02-27 | 2019-10-21 | 한국전자통신연구원 | 자연어 인식 성능 개선 방법 및 장치 |
KR102478393B1 (ko) * | 2018-02-12 | 2022-12-19 | 삼성전자주식회사 | 노이즈가 정제된 음성 신호를 획득하는 방법 및 이를 수행하는 전자 장치 |
WO2019194451A1 (ko) * | 2018-04-06 | 2019-10-10 | 삼성전자주식회사 | 인공지능을 이용한 음성 대화 분석 방법 및 장치 |
JP6903611B2 (ja) | 2018-08-27 | 2021-07-14 | 株式会社東芝 | 信号生成装置、信号生成システム、信号生成方法およびプログラム |
WO2020129231A1 (ja) | 2018-12-21 | 2020-06-25 | 三菱電機株式会社 | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム |
WO2020241923A1 (ko) * | 2019-05-29 | 2020-12-03 | 엘지전자 주식회사 | 사용자 환경에서의 음성 인식 모델의 성능을 예측하는 인공 지능 장치 및 그 방법 |
CN111696570B (zh) * | 2020-08-17 | 2020-11-24 | 北京声智科技有限公司 | 语音信号处理方法、装置、设备及存储介质 |
-
2020
- 2020-07-20 CN CN202010697058.1A patent/CN111863036B/zh active Active
-
2021
- 2021-03-10 KR KR1020210031674A patent/KR102599978B1/ko active IP Right Grant
- 2021-03-22 EP EP21163855.6A patent/EP3816999B1/en active Active
- 2021-03-22 US US17/208,387 patent/US20210210113A1/en not_active Abandoned
- 2021-03-22 JP JP2021047560A patent/JP7406521B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10460749B1 (en) * | 2018-06-28 | 2019-10-29 | Nuvoton Technology Corporation | Voice activity detection using vocal tract area information |
CN110740412A (zh) * | 2018-07-18 | 2020-01-31 | 奥迪康有限公司 | 包括语音存在概率估计器的听力装置 |
CN110517677A (zh) * | 2019-08-27 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 语音处理系统、方法、设备、语音识别系统及存储介质 |
CN110648692A (zh) * | 2019-09-26 | 2020-01-03 | 苏州思必驰信息科技有限公司 | 语音端点检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
KR102599978B1 (ko) | 2023-11-08 |
JP2022017170A (ja) | 2022-01-25 |
EP3816999A3 (en) | 2021-10-20 |
US20210210113A1 (en) | 2021-07-08 |
EP3816999B1 (en) | 2022-11-09 |
KR20220011064A (ko) | 2022-01-27 |
JP7406521B2 (ja) | 2023-12-27 |
EP3816999A2 (en) | 2021-05-05 |
CN111863036A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7166322B2 (ja) | モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
US10657962B2 (en) | Modeling multiparty conversation dynamics: speaker, response, addressee selection using a novel deep learning approach | |
CN111863036B (zh) | 语音检测的方法和装置 | |
CN111539514B (zh) | 用于生成神经网络的结构的方法和装置 | |
US20190164549A1 (en) | Method and apparatus for controlling page | |
CN111862987B (zh) | 语音识别方法和装置 | |
US20180143965A1 (en) | Trained data input system | |
CN111582454B (zh) | 生成神经网络模型的方法和装置 | |
CN112559870B (zh) | 多模型融合方法、装置、电子设备和存储介质 | |
CN111522944B (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
CN111563593A (zh) | 神经网络模型的训练方法和装置 | |
CN112201259B (zh) | 声源定位方法、装置、设备和计算机存储介质 | |
CN112669855A (zh) | 语音处理方法和装置 | |
CN111782785B (zh) | 自动问答方法、装置、设备以及存储介质 | |
CN112507090A (zh) | 用于输出信息的方法、装置、设备和存储介质 | |
CN110991183A (zh) | 问题的谓词确定方法、装置、设备及存储介质 | |
CN112270169B (zh) | 对白角色预测方法、装置、电子设备及存储介质 | |
CN112650844A (zh) | 对话状态的追踪方法、装置、电子设备和存储介质 | |
CN112685996B (zh) | 文本标点预测方法、装置、可读介质和电子设备 | |
CN111767988A (zh) | 神经网络的融合方法和装置 | |
CN111582478B (zh) | 用于确定模型结构的方法和装置 | |
CN113241061B (zh) | 语音识别结果的处理方法、装置、电子设备和存储介质 | |
CN114330333A (zh) | 用于处理技能信息的方法、模型训练方法及装置 | |
CN114357994A (zh) | 意图识别处理和置信度判断模型的生成方法及装置 | |
CN113096799A (zh) | 质控方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |