CN108962237B - 混合语音识别方法、装置及计算机可读存储介质 - Google Patents

混合语音识别方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN108962237B
CN108962237B CN201810507294.5A CN201810507294A CN108962237B CN 108962237 B CN108962237 B CN 108962237B CN 201810507294 A CN201810507294 A CN 201810507294A CN 108962237 B CN108962237 B CN 108962237B
Authority
CN
China
Prior art keywords
voice
vector
speech
adaptive
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810507294.5A
Other languages
English (en)
Other versions
CN108962237A (zh
Inventor
王珺
陈杰
苏丹
俞栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201810507294.5A priority Critical patent/CN108962237B/zh
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910746274.8A priority patent/CN111445905B/zh
Priority to CN201910745788.1A priority patent/CN110797021B/zh
Publication of CN108962237A publication Critical patent/CN108962237A/zh
Priority to PCT/CN2019/082978 priority patent/WO2019223457A1/zh
Priority to EP19806534.4A priority patent/EP3806089A4/en
Priority to JP2020547178A priority patent/JP7177167B2/ja
Priority to US16/989,844 priority patent/US20200372905A1/en
Application granted granted Critical
Publication of CN108962237B publication Critical patent/CN108962237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本申请提供了一种混合语音识别方法、混合语音识别装置及计算机可读存储介质。该混合语音识别方法包括:当监听到适应语音和混合语音的输入时,基于所述适应语音获取目标对象的语音特征;基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的语音;其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音。本申请技术方案可从混合语音中确定出目标对象的语音,方便对混合语音中目标对象的语音进行追踪。

Description

混合语音识别方法、装置及计算机可读存储介质
技术领域
本申请属于语音识别技术领域,具体涉及一种混合语音识别方法、混合语音识别装置及计算机可读存储介质。
背景技术
语音作为语言的声学表现,是人类交流信息最自然、最有效和最方便的手段之一,近年来,语音识别技术获得了巨大的进展,然而,由于人们在输入语音的同时,不可避免地会收到环境噪声、房间混响乃至其它说话人的话音干扰。这些干扰最终使得采集到的语音并非纯净的语音,而是受到噪声污染的语音(即混合语音)。近年来,很多基于深度学习的方法和系统被开发出来处理混合语音信号的分离和识别,如深度吸引网络。
深度吸引子网络(即Deep Attractor Network)为混合语音的每个时频窗口生成区分性的嵌入向量,并为混合语音中的每个说话人生成一个吸引子,然后通过计算嵌入向量离这些吸引子的距离来估计对应的时频窗口归属于相应说话人的掩码(即Mask),之后利用这些Mask计算得到混合语音中每个说话人在时频域中的表示。基于深度吸引子网络的混合语音识别方案的系统框架可图1所示,下面结合图1对该方案的处理流程进行说明:
首先将混合语音频谱(即图1中的Mixture)输入长短期记忆网络(即图1中的LSTMlayer),计算得到每个时频窗口对应的嵌入向量(即图1中的Embedding);然后,利用混合语音中各说话人的有监督的标注信息(即图1中的Ideal mask),对所有的嵌入向量作加权规整,得到对应各说话人的吸引子(即图1中的Attractors);然后,通过衡量混合语音的各个嵌入向量与吸引子之间的距离,来估计各个说话人语音的Mask;利用这些Mask计算得到混合语音中每个说话人在时频域中的表示(即图1中的clean reference)。
虽然深度吸引子网络不硬性限定混合语音中说话人的数目,但是,它们在识别过程中仍然需要知道或估计说话人的数目。并且,基于深度吸引子网络的混合语音识别方案仅能实现对混合语音中各个说话人语音的分离,而无法追踪特定说话人(例如目标对象)的语音,即无法针对性地获得混合语音中目标对象在时频域中的表示。
发明内容
有鉴于此,本申请提供了一种混合语音识别方法、混合语音识别装置及计算机可读存储介质,可从混合语音中确定出目标对象的语音,方便对混合语音中目标对象的语音进行追踪。
本申请实施例的第一方面提供了一种混合语音识别方法,包括:
监听语音的输入;
当监听到适应语音和混合语音的输入时,基于所述适应语音获取目标对象的语音特征;
基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的语音;
其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音。
基于本申请第一方面,在第一种可能的实现方式中,所述基于适应语音获取目标对象的语音特征包括:
将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量,其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音,所述K不小于1;
基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量;
将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码;
所述基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的语音为:
基于所述混合语音各帧的掩码,确定所述混合语音中属于所述目标对象的语音。
基于本申请第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量具体为:
基于所述适应语音有效帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量,其中,所述适应语音有效帧是指所述适应语音中频谱幅度大于适应频谱比较值的帧,所述适应频谱比较值等于所述适应语音的最大频谱幅度与预设频谱阈值之间的差值。
基于本申请第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述基于所述适应语音有效帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量,包括:
针对每个向量维度,将所述适应语音各帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和,得到所述适应语音有效帧在相应向量维度的总向量;
将所述适应语音有效帧在各向量维度的总向量分别除以所述适应语音各帧的有监督标注之和,得到所述适应语音在各向量维度的平均向量;
其中,所述适应语音中频谱幅度大于适应频谱比较值的帧的有监督标注取1,所述适应语音中频谱幅度不大于适应频谱比较值的帧的有监督标注取0。
基于本申请第一方面的第一种可能的实现方式,或者本申请第一方面的第二种可能的实现方式,或者本申请第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量之后还包括:
将所述适应语音在各向量维度的平均向量和所述混合语音各帧在各向量维度的向量输入预先训练好的前向神经网络,得到各帧在各向量维度的规整向量;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码替换为:
分别衡量所述各帧在各向量维度的规整向量与预设的语音提取子之间的距离,以估计得到所述混合语音各帧的掩码。
基于本申请第一方面的第一种可能的实现方式,或者本申请第一方面的第二种可能的实现方式,或者本申请第一方面的第三种可能的实现方式,在第五种可能的实现方式中,所述将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间之后还包括:
基于聚类算法对所述混合语音各帧在各向量维度的向量进行处理,以确定所述混合语音在各向量维度上对应不同说话人语音的质心向量;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子替换为:
将所述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维度的语音提取子,其中,所述目标质心向量为在同一向量维度与所述适应语音的平均向量距离最小的质心向量。
基于本申请第一方面的第一种可能的实现方式,或者本申请第一方面的第二种可能的实现方式,或者本申请第一方面的第三种可能的实现方式,在第六种可能的实现方式中,所述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量之后还包括:
分别比较预设的M个语音提取子与所述适应语音在各向量维度的平均向量之间的距离,其中,所述M大于1;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子替换为:
将所述M个语音提取子中,与所述适应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取子。
基于本申请第一方面的第一种可能的实现方式,或者本申请第一方面的第二种可能的实现方式,或者本申请第一方面的第三种可能的实现方式,在第七种可能的实现方式中,所述将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量具体为:
将所述适应语音的频谱和所述混合语音的频谱经深度神经网络映射到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量。
基于本申请第一方面的第七种可能的实现方式,在第八种可能的实现方式中,所述深度神经网络由4层双向长短时记忆网络构成,每层双向长短时记忆网络有600个结点。
基于本申请第一方面的第七种可能的实现方式,在第九种可能的实现方式中,所述K取40。
本申请第二方面提供一种混合语音识别装置,包括:
监听单元,用于监听语音的输入;
获取单元,用于当所述监听单元监听到适应语音和混合语音的输入时,基于所述适应语音获取目标对象的语音特征;
确定单元,用于基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的语音;
其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音。
基于本申请第二方面,在第一种可能的实现方式中,所述获取单元包括:
空间映射单元,用于当所述监听单元监听到适应语音和混合语音的输入时,将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量,其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音,所述K不小于1;
计算单元,用于基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量;
掩码估计单元,用于将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码;
所述确定单元具体用于基于所述混合语音各帧的掩码,确定所述混合语音中属于所述目标对象的语音。
基于本申请第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述计算单元具体用于:基于所述适应语音有效帧在各向量维度的向量,得到所述适应语音在各向量维度的平均向量,其中,所述适应语音有效帧是指所述适应语音中频谱幅度大于适应频谱比较值的帧,所述适应频谱比较值等于所述适应语音的最大频谱幅度与预设频谱阈值之间的差值。
基于本申请第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述计算单元具体用于:针对每个向量维度,将所述适应语音各帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和,得到所述适应语音有效帧在相应向量维度的总向量;将所述适应语音有效帧在各向量维度的总向量分别除以所述适应语音各帧的有监督标注之和,得到所述适应语音在各向量维度的平均向量;
其中,所述适应语音中频谱幅度大于适应频谱比较值的帧的有监督标注取1,所述适应语音中频谱幅度不大于适应频谱比较值的帧的有监督标注取0。
基于本申请第二方面的第一种可能的实现方式,或者本申请第二方面的第二种可能的实现方式,或者本申请第二方面的第三种可能的实现方式,,在第四种可能的实现方式中,所述混合语音识别装置还包括:
规整单元,用于将所述适应语音在各向量维度的平均向量和所述混合语音各帧在各向量维度的向量输入预先训练好的前向神经网络,得到各帧在各向量维度的规整向量;
所述掩码估计单元具体用于:分别衡量所述各帧在各向量维度的规整向量与预设的语音提取子之间的距离,以估计得到所述混合语音各帧的掩码。
基于本申请第二方面的第一种可能的实现方式,或者本申请第二方面的第二种可能的实现方式,或者本申请第二方面的第三种可能的实现方式,在第五种可能的实现方式中,所述混合语音识别装置还包括:
聚类单元,用于基于聚类算法对所述混合语音各帧在各向量维度的向量进行处理,以确定所述混合语音在各向量维度上对应不同说话人语音的质心向量;
所述掩码估计单元具体用于:将所述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码。
基于本申请第二方面的第一种可能的实现方式,或者本申请第二方面的第二种可能的实现方式,或者本申请第二方面的第三种可能的实现方式,在第六种可能的实现方式中,所述混合语音识别装置还包括:
比较单元,用于分别比较预设的M个语音提取子与所述适应语音在各向量维度的平均向量之间的距离,其中,所述M大于1;
所述掩码估计单元具体用于:将所述M个语音提取子中,与所述适应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码。
基于本申请第二方面的第一种可能的实现方式,或者本申请第二方面的第二种可能的实现方式,或者本申请第二方面的第三种可能的实现方式,在第七种可能的实现方式中,所述空间映射单元具体用于:当所述监听单元监听到适应语音和混合语音的输入时,将所述适应语音的频谱和所述混合语音的频谱经深度神经网络映射到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量。
本申请第三方面提供一种混合语音识别装置,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序。该处理器执行上述计算机程序时实现上述第一方面或者上述第一方面的任一可能实现方式中提及的混合语音识别方法。
本申请第四方面提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序。上述计算机程序被处理器执行时实现上述第一方面或者上述第一方面的任一可能实现方式中提及的混合语音识别方法。
由上可见,本申请方案在监听到适应语音和混合语音的输入时,基于该适应语音获取目标对象的语音特征;基于上述目标对象的语音特征,确定上述混合语音中属于所述目标对象的语音。通过引入适应语音学习目标对象的语音特征,本申请方案可从混合语音中确定出目标对象的语音,以方便对混合语音中目标对象的语音进行追踪。例如在智能音箱的应用场景中,可利用唤醒语音作为适应语音学习唤醒语音说话人(即目标对象)的特征,并从在唤醒语音之后输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外,由于本申请目标对象的语音特征并不依赖于混合语音中说话人的数目,因此,本申请方案无需在混合语音识别过程预先获知或估计混合语音中说话人的数目。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为基于深度吸引子网络的混合语音识别方案流程示意图;
图2为本申请提供的混合语音识别方法一个实施例流程结构示意图;
图3为本申请提供的混合语音识别方法另一个实施例流程结构示意图;
图4-a为本申请提供的一种识别网络结构示意图;
图4-b为本申请提供的另一种识别网络结构示意图;
图5为本申请提供的混合语音识别方法另一个实施例流程结构示意图;
图6为本申请提供的再一种识别网络结构示意图;
图7为本申请提供的混合语音识别装置一个实施例结构示意图;
图8为本发明提供的混合语音识别装置另一个实施例结构示意图;
图9为本发明提供的混合语音识别装置再一个实施例结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应理解,下述方法实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对各实施例的实施过程构成任何限定。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
本申请实施例提供一种混合语音识别方法,请参阅图2,本申请实施例中的混合语音识别方法包括:
步骤101、监听语音的输入;
本申请实施例中,可以通过麦克风阵列监听语音的输入,以便减少语音输入的噪声干扰。
步骤102、当监听到适应语音和混合语音的输入时,基于所述适应语音获取目标对象的语音特征;
本申请实施例中,上述适应语音为包含预设语音信息的语音。当监听到包含预设语音信息的语音输入时,可认为监听到适应语音的输入。例如,在智能音箱的应用场景中,通常需要输入唤醒语音来唤醒智能音箱的语音控制功能,唤醒语音为包含唤醒词(例如“叮咚叮咚”)的语音,因此,在该应用场景下,可以将唤醒语音作为适应语音,当监听到唤醒语音的输入时,即可认为监听到适应语音的输入。
可选的,在步骤102中,可以基于语音特征识别算法(例如梅尔频率倒谱系数(MFCC,Mel-frequency cepstral coefficients)算法)从上述适应语音提取目标对象的语音特征。
当然,在步骤102中,也可以通过其它方式从上述适应语音提取目标对象的语音特征,具体可参见后续实施例中的说明。
步骤103、基于上述目标对象的语音特征,确定上述混合语音中属于上述目标对象的语音;
其中,上述混合语音为在所述适应语音之后输入的非适应语音。
在步骤103中,基于上述目标对象的语音特征,可以通过相似度似然算法从上述混合语音中识别出与上述目标对象的语音特征相似的语音特征,进而确定出上述混合语音中属于上述目标对象的语音。
由上可见,本申请方案在监听到适应语音和混合语音的输入时,基于该适应语音获取目标对象的语音特征;基于上述目标对象的语音特征,确定上述混合语音中属于所述目标对象的语音。通过引入适应语音学习目标对象的语音特征,本申请方案可从混合语音中确定出目标对象的语音,以方便对混合语音中目标对象的语音进行追踪。例如在智能音箱的应用场景中,可利用唤醒语音作为适应语音学习唤醒语音说话人(即目标对象)的特征,并从在唤醒语音之后输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外,由于本申请目标对象的语音特征并不依赖于混合语音中说话人的数目,因此,本申请方案无需在混合语音识别过程预先获知或估计混合语音中说话人的数目。
下面以另一实施例对本申请中的混合语音识别方法进行说明,请参阅图3,本申请实施例中的混合语音识别方法包括:
步骤201、监听语音的输入;
本申请实施例中,可以通过麦克风阵列监听语音的输入,以便减少语音输入的噪声干扰。
步骤202、当监听到适应语音和混合语音的输入时,将上述适应语音的频谱和上述混合语音的频谱分别嵌入到K维度的向量空间,得到上述适应语音各帧在各向量维度的向量以及上述混合语音各帧在各向量维度的向量;
其中,上述适应语音为包含预设语音信息的语音,上述K不小于1,可选的,上述K可以取40。
本申请实施例中,当监听到包含预设语音信息的语音输入时,可认为监听到适应语音的输入。例如,在智能音箱的应用场景中,通常需要输入唤醒语音来唤醒智能音箱的语音控制功能,唤醒语音为包含唤醒词(例如“叮咚叮咚”)的语音,因此,在该应用场景下,可以将唤醒语音作为适应语音,当监听到唤醒语音的输入时,即可认为监听到适应语音的输入。
混合语音为在上述适应语音之后输入的非适应语音,在真实的智能语音交互场景中,特别是远讲条件下,经常会出现不同说话人的语音混叠的情况,从而导致输入的语音为混合语音,本申请实施例中的混合识别方法便是为了从混合语音中确定出属于目标对象的语音。
在步骤202中,可以将上述适应语音的频谱和上述混合语音的频谱经深度神经网络映射到K维度的向量空间,以得到上述适应语音各帧在各向量维度的向量以及上述混合语音各帧在各向量维度的向量。可选的,上述深度神经网络由4层双向长短时记忆网络(LSTM,Long Short-Term Memory)构成,每层LSTM可有600个结点。当然,上述深度神经网络也可以替换为各种其它有效的新型的模型结构,例如,卷积神经网络(CNN,ConvolutionalNeural Network)和其它网络结构相结合的模型,或者其它网络结构,例如时延网络、闸控卷积神经网络等。本申请不限定深度神经网络的模型类型和拓扑结构。
具体的,本申请实施例的频谱可以通过对语音进行短时傅里叶变换后,对短时傅里叶变换的结果取对数后得到。
以下举例对步骤202进行说明,以上标“ws”表示适应语音,“cs”表示混合语音,“Xf,t”表示第t帧语音的频谱(f表示频谱维度的序列号,t表示时间维度的帧序列号),则适应语音的频谱可以表示为
Figure GDA0002590591830000121
混合语音的频谱可以表示为
Figure GDA0002590591830000122
则在步骤202中,可以分别将适应语音的输入频谱
Figure GDA0002590591830000123
和混合语音的输入频谱
Figure GDA0002590591830000124
经深度神经网络映射为K维的向量,得到适应语音各帧在各向量维度的向量
Figure GDA0002590591830000131
(
Figure GDA0002590591830000132
表示适应语音的第t帧在第k向量维度的向量,k∈[1,K])以及混合语音各帧在各向量维度的向量
Figure GDA0002590591830000133
(
Figure GDA0002590591830000134
表示混合语音的第t帧在第k向量维度的向量,k∈[1,K])。
步骤203、基于上述适应语音各帧在各向量维度的向量,计算上述适应语音在各向量维度的平均向量;
本申请实施例中,可以通过公式
Figure GDA0002590591830000135
计算上述适应语音在各向量维度的平均向量
Figure GDA0002590591830000136
其中,T1表示适应语音的帧数。
或者,为去除低能量频谱窗口噪声以得到适应语音的有效帧,在步骤203中,也可以将适应语音的频谱与一定频谱阈值比较,如果适应语音某帧(也即某时频窗口)的频谱幅度大于适应频谱比较值,则认为该帧为适应语音有效帧,在步骤203中,基于上述适应语音有效帧在各向量维度的向量,计算上述适应语音在各向量维度的平均向量。其中,上述适应频谱比较值等于适应语音的最大频谱幅度与预设频谱阈值之间的差值。具体的,可以设置适应语音的有监督标注
Figure GDA0002590591830000137
将适应语音各帧的频谱分别与一频谱阈值Γ比较,如果适应语音某帧(也即某时频窗口)的频谱幅度大于适应频谱比较值(即适应语音的最大频谱幅度与Γ之间的差值),则该时频窗口对应的适应语音的有监督标注
Figure GDA0002590591830000138
取0;否则,
Figure GDA0002590591830000139
取1,具体公式可以表现为如下第一公式:
第一公式:
Figure GDA00025905918300001310
上述基于上述适应语音有效帧在各向量维度的向量,得到上述适应语音在各向量维度的平均向量包括:针对每个向量维度,将上述适应语音各帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和,得到上述适应语音有效帧在相应向量维度的总向量;将上述适应语音有效帧在各向量维度的总向量分别除以上述适应语音各帧的有监督标注之和,得到上述适应语音在各向量维度的平均向量。具体地,上述基于上述适应语音有效帧在各向量维度的向量,得到上述适应语音在各向量维度的平均向量可以通过如下第二公式实现:
第二公式:
Figure GDA0002590591830000141
Figure GDA0002590591830000142
表示上述适应语音在向量维度k的平均向量,k∈[1,K]。
步骤204、将上述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,分别衡量上述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计上述混合语音各帧的掩码;
在步骤204中,通过衡量混合语音各帧在各向量维度的向量与语音提取子的距离来估计上述混合语音各帧的掩码,以还原目标对象的语音,估计方法如第三公式所示:
第三公式:
Figure GDA0002590591830000143
在上述第三公式中,
Figure GDA0002590591830000144
表示上述混合语音第t帧的掩码,
Figure GDA0002590591830000145
Figure GDA0002590591830000146
可以参照前述说明。
如果混合语音某帧(即时频窗口)的向量与语音提取子的内积距离越小,则该帧归属于目标对象的概率越大,相应的,通过第三公式估算出来对应该时频窗口的掩码也越大。
步骤205、基于上述混合语音各帧的掩码,确定上述混合语音中属于上述目标对象的语音;
本申请实施例中,在获得上述混合语音各帧的掩码后,即可基于上述混合语音各帧的掩码,确定上述混合语音中属于上述目标对象的语音。具体的,利用该掩码对上述混合语音进行加权,即可逐帧提取上述混合语音中属于上述目标对象的语音,而掩码越大,相应时频窗口的语音也将被提取得越多。
需要说明的是,图3所示实施例中是将上述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,当然,在其它实施例中也可以以其它方式选取目标对象在各向量维度的语音提取子。
例如,一种替代方案可以是:在上述步骤202之后,基于聚类算法(例如K-means算法)对上述混合语音各帧在各向量维度的向量进行处理,以确定上述混合语音在各向量维度上对应不同说话人语音的质心向量。将上述步骤204替换为:将上述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维度的语音提取子,分别衡量上述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计上述混合语音各帧的掩码,其中,上述目标质心向量为在同一向量维度与上述适应语音的平均向量距离最小的质心向量。
又例如,另一种替代方案可以是:在上述步骤203之后,分别比较预设的M个语音提取子与上述适应语音在各向量维度的平均向量之间的距离,其中,上述M大于1。将上述步骤204替换为:将上述M个语音提取子中,与上述适应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取子,分别衡量上述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计上述混合语音各帧的掩码。
为了实现图3所示混合语音识别流程,本申请实施例中可以预先构建用于实现该混合语音识别流程的识别网络,并对该识别网络进行训练。
在一种应用场景中,上述识别网络的结构示意图可如图4-a所示。下面结合图4-a对上述识别网络的训练过程进行说明:
1、将用以训练识别网络的适应语音样本和混合语音样本输入深度神经网络,该深度神经网络由4层双向LSTM层构成,每层LSTM有600个结点。当然,上述深度神经网络也可以替换为各种其它有效的新型的模型结构,例如,CNN和其它网络结构相结合的模型,或者其它网络结构,例如时延网络、闸控卷积神经网络等。本申请不限定深度神经网络的模型类型和拓扑结构。
本应用场景以上标“ws'”表示适应语音样本,“cs'”表示混合语音样本,“Xf,t”表示第t帧语音的频谱(f表示频谱维度的序列号,t表示时间维度的帧序列号),则适应语音样本的频谱可以表示为
Figure GDA0002590591830000161
混合语音样本的频谱可以表示为
Figure GDA0002590591830000162
则可以分别将适应语音样本的输入频谱
Figure GDA0002590591830000163
和混合语音样本的输入频谱
Figure GDA0002590591830000164
经深度神经网络映射为K维的向量,得到适应语音样本各帧在各向量维度的向量
Figure GDA0002590591830000165
(
Figure GDA0002590591830000166
表示适应语音样本的第t帧在第k向量维度的向量,k∈[1,K])以及混合语音样本各帧在各向量维度的向量
Figure GDA0002590591830000167
(
Figure GDA0002590591830000168
表示混合语音样本的第t帧在第k向量维度的向量,k∈[1,K])。
2、为去除低能量频谱窗口噪声以得到适应语音的有效帧,设置适应语音样本的有监督标注
Figure GDA0002590591830000169
将适应语音样本各帧的频谱分别与一频谱阈值Γ比较,如果适应语音样本某帧(也即某时频窗口)的频谱幅度大于适应频谱比较值(即适应语音样本的最大频谱幅度与Γ之间的差值),则该时频窗口对应的适应语音样本的有监督标注
Figure GDA00025905918300001610
取0;否则,
Figure GDA00025905918300001611
取1,具体公式可以表现为第四公式。
第四公式:
Figure GDA00025905918300001612
本应用场景中,利用适应语音样本的向量
Figure GDA00025905918300001613
和有监督标注
Figure GDA00025905918300001614
来估计目标对象在向量空间的语音提取子
Figure GDA00025905918300001615
针对每个向量维度,将上述适应语音样本各帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和,得到上述适应语音样本有效帧在相应向量维度的总向量;将上述适应语音样本有效帧在各向量维度的总向量分别除以上述适应语音样本各帧的有监督标注之和,得到上述适应语音样本在各向量维度的平均向量,计算方法可如第五公式。
第五公式:
Figure GDA00025905918300001616
3、通过衡量混合语音样本各帧在各向量维度的向量与语音提取子
Figure GDA00025905918300001617
的距离来估计还原目标对象的Mask,估计方法如第六公式所示,如果一时频窗口与语音提取子的内积距离越小,则该时频窗口归属于目标对象的概率越大,那么通过第六公式估算出来的相应时频窗口的Mask越大,则混合语音样本中相应的时频窗口的语音也将被提取得越多。
第六公式:
Figure GDA0002590591830000171
在上述第六公式中,
Figure GDA0002590591830000172
表示上述混合语音样本第t帧的掩码,
Figure GDA0002590591830000173
Figure GDA0002590591830000174
可以参照前述说明。
4、通过上述识别网络的目标函数重建由估计得到的Mask还原出的目标对象语音与目标对象的参考语音之间的频谱误差,之后通过最小化该目标函数来训练整个网络,该目标函数L可以如第七公式所示。
第七公式:
Figure GDA0002590591830000175
在上述第七公式中,
Figure GDA0002590591830000176
表示目标对象的参考语音在第t帧的频谱(也即参考语音频谱)。上述第七公式是标准的L2重建误差。由于重建误差反映的是还原的语音与目标对象的参考语音之间的频谱误差,因此,训练上述识别网络时可以通过生成梯度减小全局误差以优化提取到的目标对象的语音质量。
在另一种应用场景中,上述识别网络的结构示意图也可如图4-b所示。在本应用场景中,对识别网络的训练过程无需适应语音样本的输入,也即不区分目标对象和干扰对象。下面结合图4-b对上述识别网络的训练过程进行说明:
1、设混合语音样本中共有C个说话人的语音,为得到各说话人的有监督标注Yc,f,t,可以先去除混合语音样本中的低能量频谱窗口噪声,之后针对混合语音样本的每个说话人的语音频谱幅度,如果某一说话人在某帧的语音频谱幅度均大于该帧中其它说话人的频谱幅度,则该说话人在该帧对应的Yc,f,t取1,否则取0。
本应用场景中,以“Xc,f,t”表示混合语音样本第t帧语音的频谱,将混合语音样本的输入频谱Xc,f,t经深度神经网络映射为K维的向量,得到混合语音样本各帧在各向量维度的向量Vk,f,t(Vk,f,t表示混合语音样本的第t帧在第k向量维度的向量,k∈[1,K])。上述深度神经网络由4层双向LSTM层构成,每层LSTM有600个结点。当然,上述深度神经网络也可以替换为各种其它有效的新型的模型结构,例如,CNN和其它网络结构相结合的模型,或者其它网络结构,例如时延网络、闸控卷积神经网络等。本申请不限定深度神经网络的模型类型和拓扑结构。
2、利用混合语音样本的向量Vk,f,t和有监督标注Yc,f,t来估计各说话人在向量空间的语音提取子Ac,k,计算方法如第八公式。
第八公式:
Figure GDA0002590591830000181
3、通过衡量混合语音样本各帧在各向量维度的向量与各语音提取子的距离来估计各说话人的Mask,估计方法如第九公式所示。
第九公式:
Figure GDA0002590591830000182
在上述第九公式中,Mc,f,t表示上述混合语音样本中第t帧与说话人c有关的掩码,Ac,k和Vk,f,t可以参照前述说明。
4、利用各说话人的Mask提取混合语音样本中各个说话人的语音;
5、通过上述识别网络的目标函数重建由估计得到的Mask还原出的各说话人语音与相对应的说话人的参考语音之间的频谱误差,之后通过最小化该目标函数来训练整个网络,该目标函数L可以如第十公式所示。
第十公式:
Figure GDA0002590591830000183
在上述第十公式中,Sc,f,t表示说话人c的参考语音在第t帧的频谱(也即参考语音频谱)。上述第十公式是标准的L2重建误差。由于重建误差反映的是还原出的各说话人与相应说话人的参考语音之间的频谱误差,因此,训练上述识别网络时可以通过生成梯度减小全局误差以优化提取到的所有说话人的语音质量。
由上可见,本申请实施例在监听到适应语音和混合语音的输入时,将适应语音的频谱和混合语音的频谱分别嵌入到K维度的向量空间,并基于适应语音为目标对象确定语音提取子,然后通过衡量混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,来估计混合语音各帧的掩码,最后基于掩码确定出混合语音中属于该目标对象的语音。通过引入适应语音学习目标对象的特征,本申请方案可从混合语音中确定出目标对象的语音,以方便对混合语音中目标对象的语音进行追踪。例如在智能音箱的应用场景中,可利用唤醒语音作为适应语音学习唤醒语音说话人(即目标对象)的特征,并从在唤醒语音之后输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外,由于本申请语音提取子的确定并不依赖于混合语音中说话人的数目,因此,本申请方案无需在混合语音识别过程预先获知或估计混合语音中说话人的数目。
下面以另一实施例对本申请中的混合语音识别方法进行描述,本实施例与图3所示实施例的区别在于,本实施例在识别网络(即用于实现混合语音识别的网络)中引入一前向神经网络将原始的向量空间映射到规整的向量空间,从而使得通过该识别网络训练得到的语音提取子的分布相对更集中稳定。如图5所示,本申请实施例中的混合语音识别方法包括:
步骤301、监听语音的输入;
本申请实施例中,可以通过麦克风阵列监听语音的输入,以便减少语音输入的噪声干扰。
步骤302、当监听到适应语音和混合语音的输入时,将上述适应语音的频谱和上述混合语音的频谱分别嵌入到K维度的向量空间,得到上述适应语音各帧在各向量维度的向量以及上述混合语音各帧在各向量维度的向量;
其中,上述适应语音为包含预设语音信息的语音,上述K不小于1,可选的,上述K可以取40。
本申请实施例中,当监听到包含预设语音信息的语音输入时,可认为监听到适应语音的输入。例如,在智能音箱的应用场景中,通常需要输入唤醒语音来唤醒智能音箱的语音控制功能,唤醒语音为包含唤醒词(例如“叮咚叮咚”)的语音,因此,在该应用场景下,可以将唤醒语音作为适应语音,当监听到唤醒语音的输入时,即可认为监听到适应语音的输入。
混合语音为在上述适应语音之后输入的非适应语音,在真实的智能语音交互场景中,特别是远讲条件下,经常会出现不同说话人的语音混叠的情况,从而导致输入的语音为混合语音,本申请实施例中的混合识别方法便是为了从混合语音中确定出属于目标对象的语音。
在步骤302中,可以上述适应语音的频谱和上述混合语音的频谱经深度神经网络映射为K维度的向量空间,以得到上述适应语音各帧在各向量维度的向量以及上述混合语音各帧在各向量维度的向量。可选的,上述深度神经网络由4层双向LSTM构成,每层LSTM可有600个结点。当然,上述深度神经网络也可以替换为各种其它有效的新型的模型结构,例如,卷积神经网络(CNN,Convolutional Neural Network)和其它网络结构相结合的模型,或者其它网络结构,例如时延网络、闸控卷积神经网络等。本申请不限定深度神经网络的模型类型和拓扑结构。
具体的,本申请实施例的频谱可以通过对语音进行短时傅里叶变换后,对短时傅里叶变换的结果取对数后得到。
以下举例对步骤302进行说明,以上标“ws”表示适应语音,“cs”表示混合语音,“Xf,t”表示第t帧语音的频谱(f表示频谱维度的序列号,t表示时间维度的帧序列号),则适应语音的频谱可以表示为
Figure GDA0002590591830000201
混合语音的频谱可以表示为
Figure GDA0002590591830000202
则在步骤302中,可以分别将适应语音的输入频谱
Figure GDA0002590591830000203
和混合语音的输入频谱
Figure GDA0002590591830000204
经深度神经网络映射为K维的向量,得到适应语音各帧在各向量维度的向量
Figure GDA0002590591830000205
(
Figure GDA0002590591830000206
表示适应语音的第t帧在第k向量维度的向量,k∈[1,K])以及混合语音各帧在各向量维度的向量
Figure GDA0002590591830000207
(
Figure GDA0002590591830000208
表示混合语音的第t帧在第k向量维度的向量,k∈[1,K])。
步骤303、基于上述适应语音各帧在各向量维度的向量,计算上述适应语音在各向量维度的平均向量;
本申请实施例中,可以通过公式
Figure GDA0002590591830000211
计算上述适应语音在各向量维度的平均向量
Figure GDA0002590591830000212
其中,T1表示适应语音的帧数。
或者,为去除低能量频谱窗口噪声以得到适应语音的有效帧,在步骤303中,也可以将适应语音的频谱与一定频谱阈值比较,如果适应语音某帧(也即某时频窗口)的频谱幅度大于适应频谱比较值,则认为该帧为适应语音有效帧,在步骤303中,基于上述适应语音有效帧在各向量维度的向量,计算上述适应语音在各向量维度的平均向量。其中,上述适应频谱比较值等于适应语音的最大频谱幅度与预设频谱阈值之间的差值。具体的,可以设置适应语音的有监督标注
Figure GDA0002590591830000218
将适应语音各帧的频谱分别与一频谱阈值Γ比较,如果适应语音某帧(也即某时频窗口)的频谱幅度大于适应频谱比较值(即适应语音的最大频谱幅度与Γ之间的差值),则该时频窗口对应的适应语音的有监督标注
Figure GDA0002590591830000213
取0;否则,
Figure GDA0002590591830000214
取1,具体公式可以表现参照前述第一公式,上述基于上述适应语音有效帧在各向量维度的向量,计算上述适应语音在各向量维度的平均向量可以通过前述第二公式实现。
步骤304、将上述适应语音在各向量维度的平均向量和上述混合语音各帧在各向量维度的向量输入预先训练好的前向神经网络,得到各帧在各向量维度的规整向量;
本申请实施例中,上述前向神经网络可以为两层的网络,每层结点数可以为256。以前述举例进一步说明,将上述适应语音在各向量维度的平均向量
Figure GDA0002590591830000215
和上述混合语音各帧在各向量维度的向量
Figure GDA0002590591830000216
合并成2K维度的向量入上述前向神经网络,输出K维的规整向量
Figure GDA0002590591830000217
具体的,该前向神经网络的函数表示可以如第十一公式所示。
第十一公式:
Figure GDA0002590591830000221
在上述第十一公式中,
Figure GDA0002590591830000222
表示通过深度神经网络学习到的非线性映射函数,其作用是将原始向量空间映射到新的向量空间(即规整后的向量空间)。
步骤305、分别衡量上述各帧在各向量维度的规整向量与预设的语音提取子之间的距离,以估计得到上述混合语音各帧的掩码;
由于本申请实施例中的识别网络训练得到的语音提取子具有分布稳定集中的特性,因此,本申请实施例中,可以利用训练上述识别网络时得到的所有语音提取子的质心作为预设的语音提取子。由于本申请实施例中在混合语音的识别过程中不需要重新估计语音提取子,因此,本申请实施例中的混合语音识别方案能较好地实现逐帧实时处理。
步骤306、基于上述混合语音各帧的掩码,确定上述混合语音中属于所述目标对象的语音;
本申请实施例中,在获得上述混合语音各帧的掩码后,即可基于上述混合语音各帧的掩码,确定上述混合语音中属于上述目标对象的语音。具体的,利用该掩码对上述混合语音进行加权,即可逐帧提取上述混合语音中属于上述目标对象的语音,而掩码越大,相应时频窗口的语音也将被提取得越多。
下面对用以实现图5所示混合语音识别流程的识别网络进行说明,该识别网络的结构示意图可如图6所示。下面结合图6对上述识别网络的训练过程进行说明:
1、将用以训练识别网络的适应语音样本和混合语音样本输入深度神经网络,该深度神经网络由4层双向LSTM层构成,每层LSTM有600个结点。当然,上述深度神经网络也可以替换为各种其它有效的新型的模型结构,例如,CNN和其它网络结构相结合的模型,或者其它网络结构,例如时延网络、闸控卷积神经网络等。本申请不限定深度神经网络的模型类型和拓扑结构。
本应用场景以上标“ws'”表示适应语音样本,“cs'”表示混合语音样本,“Xf,t”表示第t帧语音的频谱(f表示频谱维度的序列号,t表示时间维度的帧序列号),则适应语音样本的频谱可以表示为
Figure GDA0002590591830000231
混合语音样本的频谱可以表示为
Figure GDA0002590591830000232
则可以分别将适应语音样本的输入频谱
Figure GDA0002590591830000233
和混合语音样本的输入频谱
Figure GDA0002590591830000234
经深度神经网络映射为K维的向量,得到适应语音样本各帧在各向量维度的向量
Figure GDA0002590591830000235
(
Figure GDA0002590591830000236
表示适应语音样本的第t帧在第k向量维度的向量,k∈[1,K])以及混合语音样本各帧在各向量维度的向量
Figure GDA0002590591830000237
(
Figure GDA0002590591830000238
表示混合语音样本的第t帧在第k向量维度的向量,k∈[1,K])。
2、为去除低能量频谱窗口噪声以得到适应语音的有效帧,设置适应语音样本的有监督标注
Figure GDA0002590591830000239
将适应语音样本各帧的频谱分别与一频谱阈值Γ比较,如果适应语音样本某帧(也即某时频窗口)的频谱幅度大于适应频谱比较值(即适应语音样本的最大频谱幅度与Γ之间的差值),则该时频窗口对应的适应语音样本的有监督标注
Figure GDA00025905918300002310
取0;否则,
Figure GDA00025905918300002311
取1,具体公式可以表现为参见前述第四公式。
本应用场景中,基于上述适应语音各帧在各向量维度的向量
Figure GDA00025905918300002312
和有监督标注
Figure GDA00025905918300002313
计算上述适应语音在各向量维度的平均向量
Figure GDA00025905918300002314
计算方法如上述第五公式。
3、将上述适应语音在各向量维度的平均向量
Figure GDA00025905918300002315
和上述混合语音各帧在各向量维度的向量
Figure GDA00025905918300002316
合并成2K维度的向量入前向神经网络,输出K维的规整向量
Figure GDA00025905918300002317
具体的,该前向神经网络的函数表示可以如上述第十一公式所示。关于前向神经网络的说明可以参照步骤304中的描述,此处不再赘述。
4、为得到混合语音样本中目标对象的有监督标注
Figure GDA00025905918300002318
可以先去除混合语音样本中的低能量频谱窗口噪声,之后针对混合语音样本中目标对象的语音频谱幅度,如果目标对象在某帧的语音频谱幅度均大于该帧中干扰对象的频谱幅度,则目标对象在该帧对应的
Figure GDA00025905918300002319
取1,否则取0。
5、基于规整向量
Figure GDA0002590591830000241
和混合语音样本中目标对象的有监督标注
Figure GDA0002590591830000242
通过第十二公式估算规整的语音提取子
Figure GDA0002590591830000243
第十二公式:
Figure GDA0002590591830000244
6、通过衡量各帧在各向量维度的规整向量
Figure GDA0002590591830000245
与规整后的语音提取子
Figure GDA0002590591830000246
的距离来估计还原目标对象的Mask,估计方法如第十三公式所示,如果一时频窗口与语音提取子的内积距离越小,则该时频窗口归属于目标对象的概率越大,那么通过第十二公式估算出来的相应时频窗口的Mask越大,则混合语音样本中相应的时频窗口的语音也将被提取得越多。
第十三公式:
Figure GDA0002590591830000247
在上述第十三公式中,
Figure GDA0002590591830000248
表示上述混合语音样本第t帧的掩码。
7、通过上述识别网络的目标函数重建由估计得到的Mask还原出的目标对象语音与目标对象的参考语音之间的频谱误差,通过最小化该目标函数来训练整个网络,该目标函数L可以如第十四公式所示。
第十四公式:
Figure GDA0002590591830000249
在上述第十四公式中,
Figure GDA00025905918300002410
表示目标对象的参考语音在第t帧的频谱(也即参考语音频谱)。上述第十四公式是标准的L2重建误差。由于重建误差反映的是还原的语音与目标对象的参考语音之间的频谱误差,因此,训练上述识别网络时可以通过生成梯度减小全局误差以优化提取到的目标对象的语音质量。
不同于混合语音样本,在实际的混合语音识别中,由于并不知晓输入的混合语音中哪些语音属于目标对象,因此,混合语音中目标对象的有监督标注是未知的,故如前面提及的,可以利用训练上述识别网络时得到的所有语音提取子的质心作为预设的语音提取子,在图3所示实施例的步骤305中,分别衡量上述各帧在各向量维度的规整向量与预设的语音提取子之间的距离,以估计得到上述混合语音各帧的掩码。
本申请实施例提供一种混合语音识别装置。如图7所示,本申请实施例中的混合语音识别装置包括:
监听单元71,用于监听语音的输入;
获取单元72,用于当监听单元71监听到适应语音和混合语音的输入时,基于所述适应语音获取目标对象的语音特征;
确定单元73,用于基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的语音;
其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音。
可选的,在图7所示实施例的基础上,如图8所示,获取单元72可包括:
空间映射单元721,用于当监听单元71监听到适应语音和混合语音的输入时,将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量,其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音,所述K不小于1;
计算单元722,用于基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量;
掩码估计单元723,用于将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码;
确定单元73,用于基于所述混合语音各帧的掩码,确定所述混合语音中属于所述目标对象的语音。
可选的,计算单元722具体用于:基于所述适应语音有效帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量,其中,所述适应语音有效帧是指所述适应语音中频谱幅度大于适应频谱比较值的帧,所述适应频谱比较值等于所述适应语音的最大频谱幅度与预设频谱阈值之间的差值。
可选的,本申请实施例中的混合语音识别装置还包括:规整单元,用于将所述适应语音在各向量维度的平均向量和所述混合语音各帧在各向量维度的向量输入预先训练好的前向神经网络,得到各帧在各向量维度的规整向量。掩码估计单元723具体用于:分别衡量所述各帧在各向量维度的规整向量与预设的语音提取子之间的距离,以估计得到所述混合语音各帧的掩码。
可选的,本申请实施例中的混合语音识别装置还包括:聚类单元,用于基于聚类算法对所述混合语音各帧在各向量维度的向量进行处理,以确定所述混合语音在各向量维度上对应不同说话人语音的质心向量。掩码估计单元723具体用于:将所述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码。
可选的,本申请实施例中的混合语音识别装置还包括:比较单元,用于分别比较预设的M个语音提取子与所述适应语音在各向量维度的平均向量之间的距离,其中,所述M大于1。掩码估计单元723具体用于:将所述M个语音提取子中,与所述适应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码。
应理解,本发明实施例中的混合语音识别装置可以用于实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
由上可见,本申请实施例在监听到适应语音和混合语音的输入时,基于该适应语音获取目标对象的语音特征;基于上述目标对象的语音特征,确定上述混合语音中属于所述目标对象的语音。通过引入适应语音学习目标对象的语音特征,本申请方案可从混合语音中确定出目标对象的语音,以方便对混合语音中目标对象的语音进行追踪。例如在智能音箱的应用场景中,可利用唤醒语音作为适应语音学习唤醒语音说话人(即目标对象)的特征,并从在唤醒语音之后输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外,由于本申请目标对象的语音特征并不依赖于混合语音中说话人的数目,因此,本申请方案无需在混合语音识别过程预先获知或估计混合语音中说话人的数目。
本申请实施例提供另一种混合语音识别装置,请参阅图9,本申请实施例中的混合语音识别装置还包括:存储器81,一个或多个处理器82(图9中仅示出一个)及存储在存储器81上并可在处理器上运行的计算机程序。其中:存储器82用于存储软件程序以及模块,处理器82通过运行存储在存储器81的软件程序以及单元,从而执行各种功能应用以及数据处理。具体地,处理器82通过运行存储在存储器81的上述计算机程序时实现以下步骤:
监听语音的输入;
获取单元,用于当所述监听单元监听到适应语音和混合语音的输入时,基于所述适应语音获取目标对象的语音特征;
确定单元,用于基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的语音;
其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音。
假设上述为第一种可能的实现方式,则在第一种可能的实现方式作为基础而提供的第二种可能的实现方式中,所述基于适应语音获取目标对象的语音特征包括:
将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量,其中,所述K不小于1;
基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量;
将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码;
基于所述混合语音各帧的掩码,确定所述混合语音中属于所述目标对象的语音。
在第二种可能的实现方式作为基础而提供的第三种可能的实现方式中,所述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量具体为:
基于所述适应语音有效帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量,其中,所述适应语音有效帧是指所述适应语音中频谱幅度大于适应频谱比较值的帧,所述适应频谱比较值等于所述适应语音的最大频谱幅度与预设频谱阈值之间的差值。
在上述第三种可能的实现方式作为基础而提供的第四种可能的实现方式中,所述计算单元具体用于:针对每个向量维度,将所述适应语音各帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和,得到所述适应语音有效帧在相应向量维度的总向量;将所述适应语音有效帧在各向量维度的总向量分别除以所述适应语音各帧的有监督标注之和,得到所述适应语音在各向量维度的平均向量;
其中,所述适应语音中频谱幅度大于适应频谱比较值的帧的有监督标注取1,所述适应语音中频谱幅度不大于适应频谱比较值的帧的有监督标注取0。
在上述第二种可能的实现方式或者上述第三种可能的实现方式或者上述第四种可能的实现方式作为基础而提供的第五种可能的实现方式中,在基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量之后,处理器82通过运行存储在存储器81的上述计算机程序时还实现以下步骤:
将所述适应语音在各向量维度的平均向量和所述混合语音各帧在各向量维度的向量输入预先训练好的前向神经网络,得到各帧在各向量维度的规整向量;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码替换为:
分别衡量所述各帧在各向量维度的规整向量与预设的语音提取子之间的距离,以估计得到所述混合语音各帧的掩码。
在上述第二种可能的实现方式或者上述第三种可能的实现方式或者上述第四种可能的实现方式作为基础而提供的第六种可能的实现方式中,在所述将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间之后,处理器82通过运行存储在存储器81的上述计算机程序时还实现以下步骤:
基于聚类算法对所述混合语音各帧在各向量维度的向量进行处理,以确定所述混合语音在各向量维度上对应不同说话人语音的质心向量;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子替换为:将所述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维度的语音提取子,其中,所述目标质心向量为在同一向量维度与所述适应语音的平均向量距离最小的质心向量。
在上述第二种可能的实现方式或者上述第三种可能的实现方式或者上述第四种可能的实现方式作为基础而提供的第七种可能的实现方式中,在所述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量之后,处理器82通过运行存储在存储器81的上述计算机程序时还实现以下步骤:
分别比较预设的M个语音提取子与上述适应语音在各向量维度的平均向量之间的距离,其中,上述M大于1;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子替换为:将所述M个语音提取子中,与所述适应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取子。
可选的,如图9示,上述混合语音识别装置还包括:一个或多个输入设备83(图9中仅示出一个)和一个或多个输出设备84(图9中仅示出一个)。存储器81、处理器82、输入设备83和输出设备84通过总线85连接。
应当理解,在本申请实施例中,所称处理器82可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备83可以包括键盘、触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备84可以包括显示器、扬声器等。
存储器84可以包括只读存储器和随机存取存储器,并向处理器81提供指令和数据。存储器84的一部分或全部还可以包括非易失性随机存取存储器。
由上可见,本申请实施例在监听到适应语音和混合语音的输入时,基于该适应语音获取目标对象的语音特征;基于上述目标对象的语音特征,确定上述混合语音中属于所述目标对象的语音。通过引入适应语音学习目标对象的语音特征,本申请方案可从混合语音中确定出目标对象的语音,以方便对混合语音中目标对象的语音进行追踪。例如在智能音箱的应用场景中,可利用唤醒语音作为适应语音学习唤醒语音说话人(即目标对象)的特征,并从在唤醒语音之后输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外,由于本申请目标对象的语音特征并不依赖于混合语音中说话人的数目,因此,本申请方案无需在混合语音识别过程预先获知或估计混合语音中说话人的数目。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (14)

1.一种混合语音识别方法,其特征在于,包括:
监听语音的输入;
当监听到适应语音和混合语音的输入时,基于所述适应语音获取目标对象的语音特征;
所述基于适应语音获取目标对象的语音特征包括:
将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量,其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音,所述K不小于1;
基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量;
将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码;
基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的语音;
其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音。
2.根据权利要求1所述的混合语音识别方法,其特征在于,所述基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的语音为:
基于所述混合语音各帧的掩码,通过所述混合语音各帧的掩码对所述混合语音进行加权,逐帧提取经过加权的所述混合语音中属于所述目标对象的语音,直至确定所述混合语音中属于所述目标对象的语音。
3.根据权利要求2所述的混合语音识别方法,其特征在于,所述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量具体为:
基于所述适应语音有效帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量,其中,所述适应语音有效帧是指所述适应语音中频谱幅度大于适应频谱比较值的帧,所述适应频谱比较值等于所述适应语音的最大频谱幅度与预设频谱阈值之间的差值。
4.根据权利要求3所述的混合语音识别方法,其特征在于,所述基于所述适应语音有效帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量,包括:
针对每个向量维度,将所述适应语音各帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和,得到所述适应语音有效帧在相应向量维度的总向量;
将所述适应语音有效帧在各向量维度的总向量分别除以所述适应语音各帧的有监督标注之和,得到所述适应语音在各向量维度的平均向量;
其中,所述适应语音中频谱幅度大于适应频谱比较值的帧的有监督标注取1,所述适应语音中频谱幅度不大于适应频谱比较值的帧的有监督标注取0。
5.根据权利要求2至4任一项所述的混合语音识别方法,其特征在于,所述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量之后还包括:
将所述适应语音在各向量维度的平均向量和所述混合语音各帧在各向量维度的向量输入预先训练好的前向神经网络,得到各帧在各向量维度的规整向量;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码替换为:
分别衡量所述各帧在各向量维度的规整向量与预设的语音提取子之间的距离,以估计得到所述混合语音各帧的掩码。
6.根据权利要求2至4任一项所述的混合语音识别方法,其特征在于,所述将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间之后还包括:
基于聚类算法对所述混合语音各帧在各向量维度的向量进行处理,以确定所述混合语音在各向量维度上对应不同说话人语音的质心向量;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子替换为:
将所述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维度的语音提取子,其中,所述目标质心向量为在同一向量维度与所述适应语音的平均向量距离最小的质心向量。
7.根据权利要求2至4任一项所述的混合语音识别方法,其特征在于,所述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量之后还包括:
分别比较预设的M个语音提取子与上述适应语音在各向量维度的平均向量之间的距离,其中,上述M大于1;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子替换为:
将所述M个语音提取子中,与所述适应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取子。
8.根据权利要求2至4任一项所述的混合语音识别方法,其特征在于,所述将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量具体为:
将所述适应语音的频谱和所述混合语音的频谱经深度神经网络映射到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量。
9.根据权利要求8所述的混合语音识别方法,其特征在于,所述深度神经网络由4层双向长短时记忆网络构成,每层双向长短时记忆网络有600个结点。
10.根据权利要求8所述的混合语音识别方法,其特征在于,所述K取40。
11.一种混合语音识别装置,其特征在于,包括:
监听单元,用于监听语音的输入;
获取单元,用于当所述监听单元监听到适应语音和混合语音的输入时,基于所述适应语音获取目标对象的语音特征;
其中,所述获取单元包括:
空间映射单元,用于当所述监听单元监听到适应语音和混合语音的输入时,将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量,其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音,所述K不小于1;
计算单元,用于基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量;
掩码估计单元,用于将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码;
确定单元,用于基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的语音;
其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音。
12.根据权利要求11所述的混合语音识别装置,其特征在于,
所述确定单元具体用于基于所述混合语音各帧的掩码,通过所述混合语音各帧的掩码对所述混合语音进行加权,逐帧提取经过加权的所述混合语音中属于所述目标对象的语音,直至确定所述混合语音中属于所述目标对象的语音。
13.一种混合语音识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述方法的步骤。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述方法的步骤。
CN201810507294.5A 2018-05-24 2018-05-24 混合语音识别方法、装置及计算机可读存储介质 Active CN108962237B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201910746274.8A CN111445905B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN201910745788.1A CN110797021B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN201810507294.5A CN108962237B (zh) 2018-05-24 2018-05-24 混合语音识别方法、装置及计算机可读存储介质
PCT/CN2019/082978 WO2019223457A1 (zh) 2018-05-24 2019-04-17 混合语音识别方法、装置及计算机可读存储介质
EP19806534.4A EP3806089A4 (en) 2018-05-24 2019-04-17 METHOD AND DEVICE FOR MIXED SPEECH RECOGNITION AND COMPUTER-READABLE STORAGE MEDIUM
JP2020547178A JP7177167B2 (ja) 2018-05-24 2019-04-17 混合音声の特定方法、装置及びコンピュータプログラム
US16/989,844 US20200372905A1 (en) 2018-05-24 2020-08-10 Mixed speech recognition method and apparatus, and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810507294.5A CN108962237B (zh) 2018-05-24 2018-05-24 混合语音识别方法、装置及计算机可读存储介质

Related Child Applications (2)

Application Number Title Priority Date Filing Date
CN201910745788.1A Division CN110797021B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN201910746274.8A Division CN111445905B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN108962237A CN108962237A (zh) 2018-12-07
CN108962237B true CN108962237B (zh) 2020-12-04

Family

ID=64499498

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201910746274.8A Active CN111445905B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN201810507294.5A Active CN108962237B (zh) 2018-05-24 2018-05-24 混合语音识别方法、装置及计算机可读存储介质
CN201910745788.1A Active CN110797021B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910746274.8A Active CN111445905B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910745788.1A Active CN110797021B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

Country Status (5)

Country Link
US (1) US20200372905A1 (zh)
EP (1) EP3806089A4 (zh)
JP (1) JP7177167B2 (zh)
CN (3) CN111445905B (zh)
WO (1) WO2019223457A1 (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
JP2016508007A (ja) 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
CN111445905B (zh) * 2018-05-24 2023-08-08 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) * 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN111696571A (zh) * 2019-03-15 2020-09-22 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN110070882B (zh) * 2019-04-12 2021-05-11 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110265060B (zh) * 2019-06-04 2021-05-11 广东工业大学 一种基于密度聚类的说话人数目自动检测方法
CN117037835A (zh) * 2020-02-28 2023-11-10 维沃移动通信有限公司 音频数据的处理方法、电子设备及介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
CN111583916B (zh) * 2020-05-19 2023-07-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111754982A (zh) * 2020-06-19 2020-10-09 平安科技(深圳)有限公司 语音通话的噪声消除方法、装置、电子设备及存储介质
CN111667817A (zh) * 2020-06-22 2020-09-15 平安资产管理有限责任公司 一种语音识别方法、装置、计算机系统及可读存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112614492A (zh) * 2020-12-09 2021-04-06 通号智慧城市研究设计院有限公司 基于时空信息融合的声纹识别方法、系统及存储介质
CN113436633B (zh) * 2021-06-30 2024-03-12 平安科技(深圳)有限公司 说话人识别方法、装置、计算机设备及存储介质
CN113409776A (zh) * 2021-06-30 2021-09-17 南京领行科技股份有限公司 一种语音识别方法、装置、电子设备及存储介质
WO2023127058A1 (ja) * 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム
CN116168687B (zh) * 2023-04-24 2023-07-21 北京探境科技有限公司 一种语音数据处理方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104049721A (zh) * 2013-03-11 2014-09-17 联想(北京)有限公司 信息处理方法及电子设备
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
CN105989836A (zh) * 2015-03-06 2016-10-05 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
CN106782504A (zh) * 2016-12-29 2017-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
WO2017112466A1 (en) * 2015-12-21 2017-06-29 Microsoft Technology Licensing, Llc Multi-speaker speech separation
JP2017116876A (ja) * 2015-12-25 2017-06-29 綜合警備保障株式会社 話者認識装置、判別値生成方法及びプログラム
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3910898B2 (ja) * 2002-09-17 2007-04-25 株式会社東芝 指向性設定装置、指向性設定方法及び指向性設定プログラム
US7620546B2 (en) * 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
KR101670313B1 (ko) * 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
CN102201236B (zh) * 2011-04-06 2012-12-19 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
KR101305373B1 (ko) * 2011-12-16 2013-09-06 서강대학교산학협력단 관심음원 제거방법 및 그에 따른 음성인식방법
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9953632B2 (en) * 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
US9892731B2 (en) * 2015-09-28 2018-02-13 Trausti Thor Kristjansson Methods for speech enhancement and speech recognition using neural networks
CN105895078A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 动态选择语音模型的语音识别方法及装置
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
WO2017218492A1 (en) * 2016-06-14 2017-12-21 The Trustees Of Columbia University In The City Of New York Neural decoding of attentional selection in multi-speaker environments
CN107679617B (zh) * 2016-08-22 2021-04-09 赛灵思电子科技(北京)有限公司 多次迭代的深度神经网络压缩方法
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
KR102562287B1 (ko) * 2016-10-14 2023-08-02 삼성전자주식회사 전자 장치 및 전자 장치의 오디오 신호 처리 방법
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
JP6991041B2 (ja) * 2017-11-21 2022-01-12 ヤフー株式会社 生成装置、生成方法、および生成プログラム
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
CN111445905B (zh) * 2018-05-24 2023-08-08 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104049721A (zh) * 2013-03-11 2014-09-17 联想(北京)有限公司 信息处理方法及电子设备
CN105989836A (zh) * 2015-03-06 2016-10-05 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
WO2017112466A1 (en) * 2015-12-21 2017-06-29 Microsoft Technology Licensing, Llc Multi-speaker speech separation
JP2017116876A (ja) * 2015-12-25 2017-06-29 綜合警備保障株式会社 話者認識装置、判別値生成方法及びプログラム
CN106782504A (zh) * 2016-12-29 2017-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEEP ATTRACTOR NETWORK FOR SINGLE-MICROPHONE SPEAKER SEPARATION;Zhuo Chen等;《2017 IEEE International Conference on Acoustics,Speech and Signal Processing》;20171231;第246-250页 *
Speaker-Independent Speech Separation With Deep Attractor Network;Yi Luo等;《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20180430;第26卷(第4期);第787-796页 *

Also Published As

Publication number Publication date
CN111445905A (zh) 2020-07-24
US20200372905A1 (en) 2020-11-26
CN110797021A (zh) 2020-02-14
JP2021516369A (ja) 2021-07-01
CN110797021B (zh) 2022-06-07
CN111445905B (zh) 2023-08-08
EP3806089A4 (en) 2021-07-21
JP7177167B2 (ja) 2022-11-22
CN108962237A (zh) 2018-12-07
EP3806089A1 (en) 2021-04-14
WO2019223457A1 (zh) 2019-11-28

Similar Documents

Publication Publication Date Title
CN108962237B (zh) 混合语音识别方法、装置及计算机可读存储介质
CN107564513B (zh) 语音识别方法及装置
Hsu et al. Unsupervised learning of disentangled and interpretable representations from sequential data
Sailor et al. Unsupervised Filterbank Learning Using Convolutional Restricted Boltzmann Machine for Environmental Sound Classification.
CN108281146B (zh) 一种短语音说话人识别方法和装置
Moon et al. AR and ARMA model order selection for time-series modeling with ImageNet classification
Lu et al. Ensemble modeling of denoising autoencoder for speech spectrum restoration.
CN110503971A (zh) 用于语音处理的基于神经网络的时频掩模估计和波束形成
JP6235938B2 (ja) 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
WO2019227586A1 (zh) 语音模型训练方法、说话人识别方法、装置、设备及介质
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
Zöhrer et al. Gated recurrent networks applied to acoustic scene classification and acoustic event detection
US9798923B2 (en) System and method for tracking and recognizing people
WO2019227574A1 (zh) 语音模型训练方法、语音识别方法、装置、设备及介质
CN111461176A (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
KR20130068869A (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
CN110797033A (zh) 基于人工智能的声音识别方法、及其相关设备
Liu et al. Audio-visual keyword spotting based on adaptive decision fusion under noisy conditions for human-robot interaction
Rahman et al. Dynamic thresholding on speech segmentation
Shekofteh et al. MLP-based isolated phoneme classification using likelihood features extracted from reconstructed phase space
Chakrabartty et al. Robust speech feature extraction by growth transformation in reproducing kernel Hilbert space
CN114626412A (zh) 用于无人值守传感器系统的多类别目标识别方法及系统
Dennis et al. Generalized Hough transform for speech pattern classification
CN112489678A (zh) 一种基于信道特征的场景识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant