CN111445905A - 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 - Google Patents

混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 Download PDF

Info

Publication number
CN111445905A
CN111445905A CN201910746274.8A CN201910746274A CN111445905A CN 111445905 A CN111445905 A CN 111445905A CN 201910746274 A CN201910746274 A CN 201910746274A CN 111445905 A CN111445905 A CN 111445905A
Authority
CN
China
Prior art keywords
voice
vector
speech
mixed
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910746274.8A
Other languages
English (en)
Other versions
CN111445905B (zh
Inventor
王珺
陈杰
苏丹
俞栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910746274.8A priority Critical patent/CN111445905B/zh
Publication of CN111445905A publication Critical patent/CN111445905A/zh
Application granted granted Critical
Publication of CN111445905B publication Critical patent/CN111445905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了混合语音识别网络训练方法,包括:通过混合语音识别网络中的深度神经网络获取混合语音样本,通过混合语音识别网络对混合语音样本的向量和相应的有监督标注进行处理,形成目标对象在向量空间的语音提取子;通过混合语音识别网络,利用混合语音样本的向量和语音提取子确定目标对象的掩码;通过目标对象的掩码与目标对象的参考语音对混合语音识别网络的参数进行更新。本申请还提供了混合语音识别方法、装置及存储介质。本申请可从混合语音中确定出目标对象的语音,方便对混合语音中目标对象的语音进行追踪,同时在混合语音识别网络训练过程中仅需要混合语音样本有效减少了训练阶段的样本数量,提升了混合语音识别网络的训练效率。

Description

混合语音识别网络训练方法、混合语音识别方法、装置及存储 介质
分案说明
本申请基于申请号为:201810507294.5、申请日为2018年05月24日、发 明名称为:混合语音识别方法、装置及计算机可读存储介质的中国专利申请提 出,在该中国专利申请记载的范围内提出分案,该中国专利申请的全部内容在 此引入本申请作为参考。
技术领域
本申请属于语音识别技术领域,具体涉及一种混合语音识别网络训练方法、 混合语音识别方法、装置及存储介质。
背景技术
语音作为语言的声学表现,是人类交流信息最自然、最有效和最方便的手 段之一,近年来,语音识别技术获得了巨大的进展,然而,由于人们在输入语 音的同时,不可避免地会收到同一环境中的不同说话人的话音干扰。这些干扰 最终使得采集到的语音并非纯净的语音,而是受到噪声污染的语音(即混合语 音)。近年来,很多基于深度学习的方法和系统被开发出来处理混合语音信号 的分离和识别,如深度吸引网络。为此,人工智能技术(AI,Artificial Intelligence)提供了训练适当的语音识别网络来支持上述应用的方案。其中, 人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应 用系统人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有 感知、推理与决策的功能,在语音处理领域中,也就是通过利用数字计算机或 者数字计算机控制的机器实现对语音的识别。
深度吸引子网络(即Deep Attractor Network)为混合语音的每个时频窗 口生成区分性的嵌入向量,并为混合语音中的每个说话人生成一个吸引子,然 后通过计算嵌入向量离这些吸引子的距离来估计对应的时频窗口归属于相应说 话人的掩码(即Mask),之后利用这些Mask计算得到混合语音中每个说话人在 时频域中的表示。基于深度吸引子网络的混合语音识别方案的系统框架可图1 所示,下面结合图1对该方案的处理流程进行说明:
首先将混合语音频谱(即图1中的Mixture)输入长短期记忆网络(即图1 中的LSTMlayer),计算得到每个时频窗口对应的嵌入向量(即图1中的 Embedding);然后,利用混合语音中各说话人的有监督的标注信息(即图1 中的Ideal mask),对所有的嵌入向量作加权规整,得到对应各说话人的吸引 子(即图1中的Attractors);然后,通过衡量混合语音的各个嵌入向量与吸 引子之间的距离,来估计各个说话人语音的Mask;利用这些Mask计算得到混 合语音中每个说话人在时频域中的表示(即图1中的clean reference)。
虽然深度吸引子网络不硬性限定混合语音中说话人的数目,但是,它们在 识别过程中仍然需要知道或估计说话人的数目。并且,基于深度吸引子网络的 混合语音识别方案仅能实现对混合语音中各个说话人语音的分离,而无法追踪 特定说话人(例如目标对象)的语音,即无法针对性地获得混合语音中目标对 象在时频域中的表示。
发明内容
有鉴于此,本申请提供了一种混合语音识别网络训练方法、混合语音识别 方法、装置及存储介质,可从混合语音中确定出目标对象的语音,方便对混合 语音中目标对象的语音进行追踪。
本发明实施例提供了一种混合语音识别网络训练方法包括:
通过所述混合语音识别网络中的深度神经网络获取混合语音样本,其中, 所述混合语音样本包括至少两个不同的说话人的语音;
所述深度神经网络确定与所述混合语音样本对应的混合语音样本的向量;
通过所述混合语音识别网络对所述混合语音样本的向量和相应的有监督标 注进行处理,形成目标对象在向量空间的语音提取子;
通过所述混合语音识别网络,利用所述混合语音样本的向量和所述语音提 取子确定所述目标对象的掩码;
通过所述目标对象的掩码与目标对象的参考语音对所述混合语音识别网络 的参数进行更新。
上述方案中,所述通过所述语音识别网络的深度神经网络确定与所述混合 语音样本对应的混合语音样本的向量,包括:
将所述混合语音样本嵌入到K维度的向量空间,得到所述混合语音样本中 的各帧在各向量维度的向量,其中,
所述混合语音样本为在所述适应语音样本之后输入的非适应语音样本。
上述方案中,所述通过所述混合语音识别网络对所述混合语音样本的向量 和相应的有监督标注进行处理,形成目标对象在向量空间的语音提取子,包括:
对所述混合语音样本中的低能量频谱窗口噪声进行除噪处理;
根据所述混合语音样本中目标对象的语音频谱幅度和相应语音帧中干扰对 象的频谱幅度,确定所述混合语音样本中目标对象的有监督标注;
根据所述混合语音样本的向量和所述混合语音样本中目标对象的有监督标 注确定所述混合语音样本中不同的说话人的语音在在向量空间中所对应的的语 音提取子。
上述方案中,所述通过所述目标对象的掩码与目标对象的参考语音对所述 混合语音识别网络的参数进行更新,包括:
根据所述混合语音样本中不同的说话人岁对应的掩码,提取混合语音样本 中各个说话人的语音;
通过所述语音识别网络的目标函数,确定利用所述目标对象的掩码所提取 的各个说话人的语音与目标对象的参考语音的频谱误差;
通过所述频谱误差,对所述语音识别网络的目标函数进行最小化处理,以 实现更新所述混合语音识别网络的参数。
本申请实施例的第一方面提供了一种混合语音识别方法,包括:
监听语音的输入;
当监听到适应语音和混合语音的输入时,基于所述适应语音获取目标对象 的语音特征;
基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的 语音;
其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述 适应语音之后输入的非适应语音。
基于本申请第一方面,在第一种可能的实现方式中,所述基于适应语音获 取目标对象的语音特征包括:
将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空 间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向 量维度的向量,其中,所述适应语音为包含预设语音信息的语音,所述混合语 音为在所述适应语音之后输入的非适应语音,所述K不小于1;
基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量 维度的平均向量;
将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语 音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的 语音提取子之间的距离,以估计所述混合语音各帧的掩码;
所述基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对 象的语音为:
基于所述混合语音各帧的掩码,确定所述混合语音中属于所述目标对象的 语音。
基于本申请第一方面的第一种可能的实现方式,在第二种可能的实现方式 中,所述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各 向量维度的平均向量具体为:
基于所述适应语音有效帧在各向量维度的向量,计算所述适应语音在各向 量维度的平均向量,其中,所述适应语音有效帧是指所述适应语音中频谱幅度 大于适应频谱比较值的帧,所述适应频谱比较值等于所述适应语音的最大频谱 幅度与预设频谱阈值之间的差值。
基于本申请第一方面的第二种可能的实现方式,在第三种可能的实现方式 中,所述基于所述适应语音有效帧在各向量维度的向量,计算所述适应语音在 各向量维度的平均向量,包括:
针对每个向量维度,将所述适应语音各帧在相应向量维度的向量分别乘以 相应帧的有监督标注后求和,得到所述适应语音有效帧在相应向量维度的总向 量;
将所述适应语音有效帧在各向量维度的总向量分别除以所述适应语音各帧 的有监督标注之和,得到所述适应语音在各向量维度的平均向量;
其中,所述适应语音中频谱幅度大于适应频谱比较值的帧的有监督标注取 1,所述适应语音中频谱幅度不大于适应频谱比较值的帧的有监督标注取0。
基于本申请第一方面的第一种可能的实现方式,或者本申请第一方面的第 二种可能的实现方式,或者本申请第一方面的第三种可能的实现方式,在第四 种可能的实现方式中,所述基于所述适应语音各帧在各向量维度的向量,计算 所述适应语音在各向量维度的平均向量之后还包括:
将所述适应语音在各向量维度的平均向量和所述混合语音各帧在各向量维 度的向量输入预先训练好的前向神经网络,得到各帧在各向量维度的规整向量;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度 的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维 度的语音提取子之间的距离,以估计所述混合语音各帧的掩码替换为:
分别衡量所述各帧在各向量维度的规整向量与预设的语音提取子之间的距 离,以估计得到所述混合语音各帧的掩码。
基于本申请第一方面的第一种可能的实现方式,或者本申请第一方面的第 二种可能的实现方式,或者本申请第一方面的第三种可能的实现方式,在第五 种可能的实现方式中,所述将所述适应语音的频谱和所述混合语音的频谱分别 嵌入到K维度的向量空间之后还包括:
基于聚类算法对所述混合语音各帧在各向量维度的向量进行处理,以确定 所述混合语音在各向量维度上对应不同说话人语音的质心向量;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度 的语音提取子替换为:
将所述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维 度的语音提取子,其中,所述目标质心向量为在同一向量维度与所述适应语音 的平均向量距离最小的质心向量。
基于本申请第一方面的第一种可能的实现方式,或者本申请第一方面的第 二种可能的实现方式,或者本申请第一方面的第三种可能的实现方式,在第六 种可能的实现方式中,所述基于所述适应语音各帧在各向量维度的向量,计算 所述适应语音在各向量维度的平均向量之后还包括:
分别比较预设的M个语音提取子与所述适应语音在各向量维度的平均向量 之间的距离,其中,所述M大于1;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度 的语音提取子替换为:
将所述M个语音提取子中,与所述适应语音在一向量维度的平均向量距离 最小的语音提取子作为目标对象在相应向量维度的语音提取子。
基于本申请第一方面的第一种可能的实现方式,或者本申请第一方面的第 二种可能的实现方式,或者本申请第一方面的第三种可能的实现方式,在第七 种可能的实现方式中,所述将所述适应语音的频谱和所述混合语音的频谱分别 嵌入到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所 述混合语音各帧在各向量维度的向量具体为:
将所述适应语音的频谱和所述混合语音的频谱经深度神经网络映射到K维 度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音 各帧在各向量维度的向量。
基于本申请第一方面的第七种可能的实现方式,在第八种可能的实现方式 中,所述深度神经网络由4层双向长短时记忆网络构成,每层双向长短时记忆 网络有600个结点。
基于本申请第一方面的第七种可能的实现方式,在第九种可能的实现方式 中,所述K取40。
本申请第二方面提供一种混合语音识别装置,包括:
监听单元,用于监听语音的输入;
获取单元,用于当所述监听单元监听到适应语音和混合语音的输入时,基 于所述适应语音获取目标对象的语音特征;
确定单元,用于基于所述目标对象的语音特征,确定所述混合语音中属于 所述目标对象的语音;
其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述 适应语音之后输入的非适应语音。
基于本申请第二方面,在第一种可能的实现方式中,所述获取单元包括:
空间映射单元,用于当所述监听单元监听到适应语音和混合语音的输入时, 将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间, 得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维 度的向量,其中,所述适应语音为包含预设语音信息的语音,所述混合语音为 在所述适应语音之后输入的非适应语音,所述K不小于1;
计算单元,用于基于所述适应语音各帧在各向量维度的向量,计算所述适 应语音在各向量维度的平均向量;
掩码估计单元,用于将所述适应语音在各向量维度的平均向量作为目标对 象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向 量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码;
所述确定单元具体用于基于所述混合语音各帧的掩码,确定所述混合语音 中属于所述目标对象的语音。
基于本申请第二方面的第一种可能的实现方式,在第二种可能的实现方式 中,所述计算单元具体用于:基于所述适应语音有效帧在各向量维度的向量, 得到所述适应语音在各向量维度的平均向量,其中,所述适应语音有效帧是指 所述适应语音中频谱幅度大于适应频谱比较值的帧,所述适应频谱比较值等于 所述适应语音的最大频谱幅度与预设频谱阈值之间的差值。
基于本申请第二方面的第二种可能的实现方式,在第三种可能的实现方式 中,所述计算单元具体用于:针对每个向量维度,将所述适应语音各帧在相应 向量维度的向量分别乘以相应帧的有监督标注后求和,得到所述适应语音有效 帧在相应向量维度的总向量;将所述适应语音有效帧在各向量维度的总向量分 别除以所述适应语音各帧的有监督标注之和,得到所述适应语音在各向量维度 的平均向量;
其中,所述适应语音中频谱幅度大于适应频谱比较值的帧的有监督标注取 1,所述适应语音中频谱幅度不大于适应频谱比较值的帧的有监督标注取0。
基于本申请第二方面的第一种可能的实现方式,或者本申请第二方面的第 二种可能的实现方式,或者本申请第二方面的第三种可能的实现方式,,在第 四种可能的实现方式中,所述混合语音识别装置还包括:
规整单元,用于将所述适应语音在各向量维度的平均向量和所述混合语音 各帧在各向量维度的向量输入预先训练好的前向神经网络,得到各帧在各向量 维度的规整向量;
所述掩码估计单元具体用于:分别衡量所述各帧在各向量维度的规整向量 与预设的语音提取子之间的距离,以估计得到所述混合语音各帧的掩码。
基于本申请第二方面的第一种可能的实现方式,或者本申请第二方面的第 二种可能的实现方式,或者本申请第二方面的第三种可能的实现方式,在第五 种可能的实现方式中,所述混合语音识别装置还包括:
聚类单元,用于基于聚类算法对所述混合语音各帧在各向量维度的向量进 行处理,以确定所述混合语音在各向量维度上对应不同说话人语音的质心向量;
所述掩码估计单元具体用于:将所述混合语音在各向量维度的目标质心向 量作为目标对象在相应向量维度的语音提取子,分别衡量所述混合语音各帧在 各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合 语音各帧的掩码。
基于本申请第二方面的第一种可能的实现方式,或者本申请第二方面的第 二种可能的实现方式,或者本申请第二方面的第三种可能的实现方式,在第六 种可能的实现方式中,所述混合语音识别装置还包括:
比较单元,用于分别比较预设的M个语音提取子与所述适应语音在各向量 维度的平均向量之间的距离,其中,所述M大于1;
所述掩码估计单元具体用于:将所述M个语音提取子中,与所述适应语音 在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度 的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维 度的语音提取子之间的距离,以估计所述混合语音各帧的掩码。
基于本申请第二方面的第一种可能的实现方式,或者本申请第二方面的第 二种可能的实现方式,或者本申请第二方面的第三种可能的实现方式,在第七 种可能的实现方式中,所述空间映射单元具体用于:当所述监听单元监听到适 应语音和混合语音的输入时,将所述适应语音的频谱和所述混合语音的频谱经 深度神经网络映射到K维度的向量空间,得到所述适应语音各帧在各向量维度 的向量以及所述混合语音各帧在各向量维度的向量。
本申请第三方面提供一种混合语音识别装置,包括存储器,处理器及存储 在存储器上并可在处理器上运行的计算机程序。该处理器执行上述计算机程序 时实现上述第一方面或者上述第一方面的任一可能实现方式中提及的混合语音 识别方法。
本申请第四方面提供一种计算机可读存储介质,该计算机可读存储介质上 存储有计算机程序。上述计算机程序被处理器执行时实现上述第一方面或者上 述第一方面的任一可能实现方式中提及的混合语音识别方法。
由上可见,本申请方案在监听到适应语音和混合语音的输入时,基于该适 应语音获取目标对象的语音特征;基于上述目标对象的语音特征,确定上述混 合语音中属于所述目标对象的语音。通过引入适应语音学习目标对象的语音特 征,本申请方案可从混合语音中确定出目标对象的语音,以方便对混合语音中 目标对象的语音进行追踪。例如在智能音箱的应用场景中,可利用唤醒语音作 为适应语音学习唤醒语音说话人(即目标对象)的特征,并从在唤醒语音之后 输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外,由于本申请目 标对象的语音特征并不依赖于混合语音中说话人的数目,因此,本申请方案无 需在混合语音识别过程预先获知或估计混合语音中说话人的数目。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳 动性的前提下,还可以根据这些附图获得其他的附图。
图1为基于深度吸引子网络的混合语音识别方案流程示意图;
图2为本申请提供的混合语音识别方法一个实施例流程结构示意图;
图3为本申请提供的混合语音识别方法另一个实施例流程结构示意图;
图4-a为本申请提供的一种识别网络结构示意图;
图4-b为本申请提供的另一种识别网络结构示意图;
图5为本申请提供的混合语音识别方法另一个实施例流程结构示意图;
图6为本申请提供的再一种识别网络结构示意图;
图7为本申请提供的混合语音识别装置一个实施例结构示意图;
图8为本发明提供的混合语音识别装置另一个实施例结构示意图;
图9为本发明提供的混合语音识别装置再一个实施例结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术 之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当 清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中, 省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节 妨碍本申请的描述。
应理解,下述方法实施例中各步骤的序号的大小并不意味着执行顺序的先 后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对各实施例的实施 过程构成任何限定。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
本申请实施例提供一种混合语音识别方法,请参阅图2,本申请实施例中 的混合语音识别方法包括:
步骤101、监听语音的输入;
本申请实施例中,可以通过麦克风阵列监听语音的输入,以便减少语音输 入的噪声干扰。
步骤102、当监听到适应语音和混合语音的输入时,基于所述适应语音获 取目标对象的语音特征;
本申请实施例中,上述适应语音为包含预设语音信息的语音。当监听到包 含预设语音信息的语音输入时,可认为监听到适应语音的输入。例如,在智能 音箱的应用场景中,通常需要输入唤醒语音来唤醒智能音箱的语音控制功能, 唤醒语音为包含唤醒词(例如“叮咚叮咚”)的语音,因此,在该应用场景下, 可以将唤醒语音作为适应语音,当监听到唤醒语音的输入时,即可认为监听到 适应语音的输入。
可选的,在步骤102中,可以基于语音特征识别算法(例如梅尔频率倒谱 系数(MFCC,Mel-frequency cepstral coefficients)算法)从上述适应语音 提取目标对象的语音特征。
当然,在步骤102中,也可以通过其它方式从上述适应语音提取目标对象 的语音特征,具体可参见后续实施例中的说明。
步骤103、基于上述目标对象的语音特征,确定上述混合语音中属于上述 目标对象的语音;
其中,上述混合语音为在所述适应语音之后输入的非适应语音。
在步骤103中,基于上述目标对象的语音特征,可以通过相似度似然算法 从上述混合语音中识别出与上述目标对象的语音特征相似的语音特征,进而确 定出上述混合语音中属于上述目标对象的语音。
由上可见,本申请方案在监听到适应语音和混合语音的输入时,基于该适 应语音获取目标对象的语音特征;基于上述目标对象的语音特征,确定上述混 合语音中属于所述目标对象的语音。通过引入适应语音学习目标对象的语音特 征,本申请方案可从混合语音中确定出目标对象的语音,以方便对混合语音中 目标对象的语音进行追踪。例如在智能音箱的应用场景中,可利用唤醒语音作 为适应语音学习唤醒语音说话人(即目标对象)的特征,并从在唤醒语音之后 输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外,由于本申请目 标对象的语音特征并不依赖于混合语音中说话人的数目,因此,本申请方案无 需在混合语音识别过程预先获知或估计混合语音中说话人的数目。
下面以另一实施例对本申请中的混合语音识别方法进行说明,请参阅图3, 本申请实施例中的混合语音识别方法包括:
步骤201、监听语音的输入;
本申请实施例中,可以通过麦克风阵列监听语音的输入,以便减少语音输 入的噪声干扰。
步骤202、当监听到适应语音和混合语音的输入时,将上述适应语音的频 谱和上述混合语音的频谱分别嵌入到K维度的向量空间,得到上述适应语音各 帧在各向量维度的向量以及上述混合语音各帧在各向量维度的向量;
其中,上述适应语音为包含预设语音信息的语音,上述K不小于1,可选 的,上述K可以取40。
本申请实施例中,当监听到包含预设语音信息的语音输入时,可认为监听 到适应语音的输入。例如,在智能音箱的应用场景中,通常需要输入唤醒语音 来唤醒智能音箱的语音控制功能,唤醒语音为包含唤醒词(例如“叮咚叮咚”) 的语音,因此,在该应用场景下,可以将唤醒语音作为适应语音,当监听到唤 醒语音的输入时,即可认为监听到适应语音的输入。
混合语音为在上述适应语音之后输入的非适应语音,在真实的智能语音交 互场景中,特别是远讲条件下,经常会出现不同说话人的语音混叠的情况,从 而导致输入的语音为混合语音,本申请实施例中的混合识别方法便是为了从混 合语音中确定出属于目标对象的语音。
在步骤202中,可以将上述适应语音的频谱和上述混合语音的频谱经深度 神经网络映射到K维度的向量空间,以得到上述适应语音各帧在各向量维度的 向量以及上述混合语音各帧在各向量维度的向量。可选的,上述深度神经网络 由4层双向长短时记忆网络(LSTM,Long Short-Term Memory)构成,每层LSTM 可有600个结点。当然,上述深度神经网络也可以替换为各种其它有效的新型 的模型结构,例如,卷积神经网络(CNN,Convolutional Neural Network)和 其它网络结构相结合的模型,或者其它网络结构,例如时延网络、闸控卷积神 经网络等。本申请不限定深度神经网络的模型类型和拓扑结构。
具体的,本申请实施例的频谱可以通过对语音进行短时傅里叶变换后,对 短时傅里叶变换的结果取对数后得到。
以下举例对步骤202进行说明,以上标“ws”表示适应语音,“cs”表示 混合语音,“Xf,t”表示第t帧语音的频谱(f表示频谱维度的序列号,t表示 时间维度的帧序列号),则适应语音的频谱可以表示为
Figure BDA0002165679380000141
混合语音的频谱可 以表示为
Figure BDA0002165679380000142
则在步骤202中,可以分别将适应语音的输入频谱
Figure BDA0002165679380000143
和混合语 音的输入频谱
Figure BDA0002165679380000144
经深度神经网络映射为K维的向量,得到适应语音各帧在各 向量维度的向量
Figure BDA0002165679380000145
(
Figure BDA0002165679380000146
表示适应语音的第t帧在第k向量维度的向量, k∈[1,K])以及混合语音各帧在各向量维度的向量
Figure BDA0002165679380000147
(
Figure BDA0002165679380000148
表示混合语音的第 t帧在第k向量维度的向量,k∈[1,K])。
步骤203、基于上述适应语音各帧在各向量维度的向量,计算上述适应语 音在各向量维度的平均向量;
本申请实施例中,可以通过公式
Figure BDA0002165679380000151
计算上述适应语音在各向量维 度的平均向量
Figure BDA0002165679380000152
其中,T1表示适应语音的帧数。
或者,为去除低能量频谱窗口噪声以得到适应语音的有效帧,在步骤203 中,也可以将适应语音的频谱与一定频谱阈值比较,如果适应语音某帧(也即 某时频窗口)的频谱幅度大于适应频谱比较值,则认为该帧为适应语音有效帧, 在步骤203中,基于上述适应语音有效帧在各向量维度的向量,计算上述适应 语音在各向量维度的平均向量。其中,上述适应频谱比较值等于适应语音的最 大频谱幅度与预设频谱阈值之间的差值。具体的,可以设置适应语音的有监督 标注
Figure BDA0002165679380000153
将适应语音各帧的频谱分别与一频谱阈值Γ比较,如果适应语音某帧 (也即某时频窗口)的频谱幅度大于适应频谱比较值(即适应语音的最大频谱 幅度与Γ之间的差值),则该时频窗口对应的适应语音的有监督标注
Figure BDA0002165679380000154
取0; 否则,
Figure BDA0002165679380000155
取1,具体公式可以表现为如下第一公式:
第一公式:
Figure BDA0002165679380000156
上述基于上述适应语音有效帧在各向量维度的向量,得到上述适应语音在 各向量维度的平均向量包括:针对每个向量维度,将上述适应语音各帧在相应 向量维度的向量分别乘以相应帧的有监督标注后求和,得到上述适应语音有效 帧在相应向量维度的总向量;将上述适应语音有效帧在各向量维度的总向量分 别除以上述适应语音各帧的有监督标注之和,得到上述适应语音在各向量维度 的平均向量。具体地,上述基于上述适应语音有效帧在各向量维度的向量,得 到上述适应语音在各向量维度的平均向量可以通过如下第二公式实现:
第二公式:
Figure BDA0002165679380000157
Figure BDA0002165679380000158
表示上述适应语音在向量维度k的平均向 量,k∈[1,K]。
步骤204、将上述适应语音在各向量维度的平均向量作为目标对象在各向 量维度的语音提取子,分别衡量上述混合语音各帧在各向量维度的向量与相应 向量维度的语音提取子之间的距离,以估计上述混合语音各帧的掩码;
在步骤204中,通过衡量混合语音各帧在各向量维度的向量与语音提取子 的距离来估计上述混合语音各帧的掩码,以还原目标对象的语音,估计方法如 第三公式所示:
第三公式:
Figure BDA0002165679380000161
在上述第三公式中,
Figure BDA0002165679380000162
表示上述混合语音第t帧的掩码,
Figure BDA0002165679380000163
Figure BDA0002165679380000164
可以 参照前述说明。
如果混合语音某帧(即时频窗口)的向量与语音提取子的内积距离越小, 则该帧归属于目标对象的概率越大,相应的,通过第三公式估算出来对应该时 频窗口的掩码也越大。
步骤205、基于上述混合语音各帧的掩码,确定上述混合语音中属于上述 目标对象的语音;
本申请实施例中,在获得上述混合语音各帧的掩码后,即可基于上述混合 语音各帧的掩码,确定上述混合语音中属于上述目标对象的语音。具体的,利 用该掩码对上述混合语音进行加权,即可逐帧提取上述混合语音中属于上述目 标对象的语音,而掩码越大,相应时频窗口的语音也将被提取得越多。
需要说明的是,图3所示实施例中是将上述适应语音在各向量维度的平均 向量作为目标对象在各向量维度的语音提取子,当然,在其它实施例中也可以 以其它方式选取目标对象在各向量维度的语音提取子。
例如,一种替代方案可以是:在上述步骤202之后,基于聚类算法(例如 K-means算法)对上述混合语音各帧在各向量维度的向量进行处理,以确定上 述混合语音在各向量维度上对应不同说话人语音的质心向量。将上述步骤204 替换为:将上述混合语音在各向量维度的目标质心向量作为目标对象在相应向 量维度的语音提取子,分别衡量上述混合语音各帧在各向量维度的向量与相应 向量维度的语音提取子之间的距离,以估计上述混合语音各帧的掩码,其中, 上述目标质心向量为在同一向量维度与上述适应语音的平均向量距离最小的质 心向量。
又例如,另一种替代方案可以是:在上述步骤203之后,分别比较预设的 M个语音提取子与上述适应语音在各向量维度的平均向量之间的距离,其中, 上述M大于1。将上述步骤204替换为:将上述M个语音提取子中,与上述适 应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向 量维度的语音提取子,分别衡量上述混合语音各帧在各向量维度的向量与相应 向量维度的语音提取子之间的距离,以估计上述混合语音各帧的掩码。
为了实现图3所示混合语音识别流程,本申请实施例中可以预先构建用于 实现该混合语音识别流程的识别网络,并对该识别网络进行训练。
(这些具体的应用场景的技术方案建议提取一下加入到权利要求中,多增 加几个从权保护详细的方案)
在一种应用场景中,上述识别网络的结构示意图可如图4-a所示。下面结 合图4-a对上述识别网络的训练过程进行说明:
1、将用以训练识别网络的适应语音样本和混合语音样本输入深度神经网络, 该深度神经网络由4层双向LSTM层构成,每层LSTM有600个结点。当然,上 述深度神经网络也可以替换为各种其它有效的新型的模型结构,例如,CNN和 其它网络结构相结合的模型,或者其它网络结构,例如时延网络、闸控卷积神 经网络等。本申请不限定深度神经网络的模型类型和拓扑结构。
本应用场景以上标“ws'”表示适应语音样本,“cs'”表示混合语音样本, “Xf,t”表示第t帧语音的频谱(f表示频谱维度的序列号,t表示时间维度的 帧序列号),则适应语音样本的频谱可以表示为
Figure BDA0002165679380000171
混合语音样本的频谱可 以表示为
Figure BDA0002165679380000172
则可以分别将适应语音样本的输入频谱
Figure BDA0002165679380000173
和混合语音样本的输 入频谱
Figure BDA0002165679380000174
经深度神经网络映射为K维的向量,得到适应语音样本各帧在各向 量维度的向量
Figure BDA0002165679380000181
(
Figure BDA0002165679380000182
表示适应语音样本的第t帧在第k向量维度的向量, k∈[1,K])以及混合语音样本各帧在各向量维度的向量
Figure BDA0002165679380000183
(
Figure BDA0002165679380000184
表示混合语音 样本的第t帧在第k向量维度的向量,k∈[1,K])。
2、为去除低能量频谱窗口噪声以得到适应语音的有效帧,设置适应语音样 本的有监督标注
Figure BDA0002165679380000185
将适应语音样本各帧的频谱分别与一频谱阈值Γ比较,如 果适应语音样本某帧(也即某时频窗口)的频谱幅度大于适应频谱比较值(即 适应语音样本的最大频谱幅度与Γ之间的差值),则该时频窗口对应的适应语 音样本的有监督标注
Figure BDA0002165679380000186
取0;否则,
Figure BDA0002165679380000187
取1,具体公式可以表现为第四公式。
第四公式:
Figure BDA0002165679380000188
本应用场景中,利用适应语音样本的向量
Figure BDA0002165679380000189
和有监督标注
Figure BDA00021656793800001810
来估计目标 对象在向量空间的语音提取子
Figure BDA00021656793800001811
针对每个向量维度,将上述适应语音样本各 帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和,得到上述适应 语音样本有效帧在相应向量维度的总向量;将上述适应语音样本有效帧在各向 量维度的总向量分别除以上述适应语音样本各帧的有监督标注之和,得到上述 适应语音样本在各向量维度的平均向量,计算方法可如第五公式。
第五公式:
Figure BDA00021656793800001812
3、通过衡量混合语音样本各帧在各向量维度的向量与语音提取子
Figure BDA00021656793800001813
的距 离来估计还原目标对象的Mask,估计方法如第六公式所示,如果一时频窗口与 语音提取子的内积距离越小,则该时频窗口归属于目标对象的概率越大,那么 通过第六公式估算出来的相应时频窗口的Mask越大,则混合语音样本中相应的 时频窗口的语音也将被提取得越多。
第六公式:
Figure BDA00021656793800001814
在上述第六公式中,
Figure BDA00021656793800001815
表示上述混合语音样本第t帧的掩码,
Figure BDA00021656793800001816
Figure BDA00021656793800001817
可以参照前述说明。
4、通过上述识别网络的目标函数重建由估计得到的Mask还原出的目标对 象语音与目标对象的参考语音之间的频谱误差,之后通过最小化该目标函数来 训练整个网络,该目标函数L可以如第七公式所示。
第七公式:
Figure BDA0002165679380000191
在上述第七公式中,
Figure BDA0002165679380000192
表示目标对象的参考语音在第t帧的频谱(也即参 考语音频谱)。上述第七公式是标准的L2重建误差。由于重建误差反映的是还 原的语音与目标对象的参考语音之间的频谱误差,因此,训练上述识别网络时 可以通过生成梯度减小全局误差以优化提取到的目标对象的语音质量。
在另一种应用场景中,上述识别网络的结构示意图也可如图4-b所示。在 本应用场景中,对识别网络的训练过程无需适应语音样本的输入,也即不区分 目标对象和干扰对象。下面结合图4-b对上述识别网络的训练过程进行说明:
1、设混合语音样本中共有C个说话人的语音,为得到各说话人的有监督标 注Yc,f,t,可以先去除混合语音样本中的低能量频谱窗口噪声,之后针对混合语 音样本的每个说话人的语音频谱幅度,如果某一说话人在某帧的语音频谱幅度 均大于该帧中其它说话人的频谱幅度,则该说话人在该帧对应的Yc,f,t取1,否则 取0。
本应用场景中,以“Xc,f,t”表示混合语音样本第t帧语音的频谱,将混合 语音样本的输入频谱Xc,f,t经深度神经网络映射为K维的向量,得到混合语音样 本各帧在各向量维度的向量Vk,f,t(Vk,f,t表示混合语音样本的第t帧在第k向量维 度的向量,k∈[1,K])。上述深度神经网络由4层双向LSTM层构成,每层LSTM 有600个结点。当然,上述深度神经网络也可以替换为各种其它有效的新型的 模型结构,例如,CNN和其它网络结构相结合的模型,或者其它网络结构,例 如时延网络、闸控卷积神经网络等。本申请不限定深度神经网络的模型类型和 拓扑结构。
2、利用混合语音样本的向量Vk,f,t和有监督标注Yc,f,t来估计各说话人在向量 空间的语音提取子Ac,k,计算方法如第八公式。
第八公式:
Figure BDA0002165679380000201
3、通过衡量混合语音样本各帧在各向量维度的向量与各语音提取子的距离 来估计各说话人的Mask,估计方法如第九公式所示。
第九公式:
Figure BDA0002165679380000202
在上述第九公式中,Mc,f,t表示上述混合语音样本中第t帧与说话人c有关 的掩码,Ac,k和Vk,f,t可以参照前述说明。
4、利用各说话人的Mask提取混合语音样本中各个说话人的语音;
5、通过上述识别网络的目标函数重建由估计得到的Mask还原出的各说话 人语音与相对应的说话人的参考语音之间的频谱误差,之后通过最小化该目标 函数来训练整个网络,该目标函数L可以如第十公式所示。
第十公式:
Figure BDA0002165679380000203
在上述第十公式中,Sc,f,t表示说话人c的参考语音在第t帧的频谱(也即 参考语音频谱)。上述第十公式是标准的L2重建误差。由于重建误差反映的是 还原出的各说话人与相应说话人的参考语音之间的频谱误差,因此,训练上述 识别网络时可以通过生成梯度减小全局误差以优化提取到的所有说话人的语音 质量。
由上可见,本申请实施例在监听到适应语音和混合语音的输入时,将适应 语音的频谱和混合语音的频谱分别嵌入到K维度的向量空间,并基于适应语音 为目标对象确定语音提取子,然后通过衡量混合语音各帧在各向量维度的向量 与相应向量维度的语音提取子之间的距离,来估计混合语音各帧的掩码,最后 基于掩码确定出混合语音中属于该目标对象的语音。通过引入适应语音学习目 标对象的特征,本申请方案可从混合语音中确定出目标对象的语音,以方便对 混合语音中目标对象的语音进行追踪。例如在智能音箱的应用场景中,可利用 唤醒语音作为适应语音学习唤醒语音说话人(即目标对象)的特征,并从在唤 醒语音之后输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外,由 于本申请语音提取子的确定并不依赖于混合语音中说话人的数目,因此,本申 请方案无需在混合语音识别过程预先获知或估计混合语音中说话人的数目。
下面以另一实施例对本申请中的混合语音识别方法进行描述,本实施例与 图3所示实施例的区别在于,本实施例在识别网络(即用于实现混合语音识别 的网络)中引入一前向神经网络将原始的向量空间映射到规整的向量空间,从 而使得通过该识别网络训练得到的语音提取子的分布相对更集中稳定。如图5 所示,本申请实施例中的混合语音识别方法包括:
步骤301、监听语音的输入;
本申请实施例中,可以通过麦克风阵列监听语音的输入,以便减少语音输 入的噪声干扰。
步骤302、当监听到适应语音和混合语音的输入时,将上述适应语音的频 谱和上述混合语音的频谱分别嵌入到K维度的向量空间,得到上述适应语音各 帧在各向量维度的向量以及上述混合语音各帧在各向量维度的向量;
其中,上述适应语音为包含预设语音信息的语音,上述K不小于1,可选 的,上述K可以取40。
本申请实施例中,当监听到包含预设语音信息的语音输入时,可认为监听 到适应语音的输入。例如,在智能音箱的应用场景中,通常需要输入唤醒语音 来唤醒智能音箱的语音控制功能,唤醒语音为包含唤醒词(例如“叮咚叮咚”) 的语音,因此,在该应用场景下,可以将唤醒语音作为适应语音,当监听到唤 醒语音的输入时,即可认为监听到适应语音的输入。
混合语音为在上述适应语音之后输入的非适应语音,在真实的智能语音交 互场景中,特别是远讲条件下,经常会出现不同说话人的语音混叠的情况,从 而导致输入的语音为混合语音,本申请实施例中的混合识别方法便是为了从混 合语音中确定出属于目标对象的语音。
在步骤302中,可以上述适应语音的频谱和上述混合语音的频谱经深度神 经网络映射为K维度的向量空间,以得到上述适应语音各帧在各向量维度的向 量以及上述混合语音各帧在各向量维度的向量。可选的,上述深度神经网络由 4层双向LSTM构成,每层LSTM可有600个结点。当然,上述深度神经网络也 可以替换为各种其它有效的新型的模型结构,例如,卷积神经网络(CNN, Convolutional Neural Network)和其它网络结构相结合的模型,或者其它网络 结构,例如时延网络、闸控卷积神经网络等。本申请不限定深度神经网络的模 型类型和拓扑结构。
具体的,本申请实施例的频谱可以通过对语音进行短时傅里叶变换后,对 短时傅里叶变换的结果取对数后得到。
以下举例对步骤302进行说明,以上标“ws”表示适应语音,“cs”表示 混合语音,“Xf,t”表示第t帧语音的频谱(f表示频谱维度的序列号,t表示 时间维度的帧序列号),则适应语音的频谱可以表示为
Figure BDA0002165679380000221
混合语音的频谱可 以表示为
Figure BDA0002165679380000222
则在步骤302中,可以分别将适应语音的输入频谱
Figure BDA0002165679380000223
和混合语 音的输入频谱
Figure BDA0002165679380000224
经深度神经网络映射为K维的向量,得到适应语音各帧在各 向量维度的向量
Figure BDA0002165679380000225
(
Figure BDA0002165679380000226
表示适应语音的第t帧在第k向量维度的向量, k∈[1,K])以及混合语音各帧在各向量维度的向量
Figure BDA0002165679380000227
(
Figure BDA0002165679380000228
表示混合语音的第 t帧在第k向量维度的向量,k∈[1,K])。
步骤303、基于上述适应语音各帧在各向量维度的向量,计算上述适应语 音在各向量维度的平均向量;
本申请实施例中,可以通过公式
Figure BDA0002165679380000229
计算上述适应语音在各向量维 度的平均向量
Figure BDA00021656793800002210
其中,T1表示适应语音的帧数。
或者,为去除低能量频谱窗口噪声以得到适应语音的有效帧,在步骤303 中,也可以将适应语音的频谱与一定频谱阈值比较,如果适应语音某帧(也即 某时频窗口)的频谱幅度大于适应频谱比较值,则认为该帧为适应语音有效帧, 在步骤303中,基于上述适应语音有效帧在各向量维度的向量,计算上述适应 语音在各向量维度的平均向量。其中,上述适应频谱比较值等于适应语音的最 大频谱幅度与预设频谱阈值之间的差值。具体的,可以设置适应语音的有监督 标注
Figure BDA0002165679380000231
将适应语音各帧的频谱分别与一频谱阈值Γ比较,如果适应语音某帧 (也即某时频窗口)的频谱幅度大于适应频谱比较值(即适应语音的最大频谱 幅度与Γ之间的差值),则该时频窗口对应的适应语音的有监督标注
Figure BDA0002165679380000232
取0; 否则,
Figure BDA0002165679380000233
取1,具体公式可以表现参照前述第一公式,上述基于上述适应语音 有效帧在各向量维度的向量,计算上述适应语音在各向量维度的平均向量可以 通过前述第二公式实现。
步骤304、将上述适应语音在各向量维度的平均向量和上述混合语音各帧 在各向量维度的向量输入预先训练好的前向神经网络,得到各帧在各向量维度 的规整向量;
本申请实施例中,上述前向神经网络可以为两层的网络,每层结点数可以 为256。以前述举例进一步说明,将上述适应语音在各向量维度的平均向量
Figure BDA0002165679380000234
和上述混合语音各帧在各向量维度的向量
Figure BDA0002165679380000235
合并成2K维度的向量入上述前向 神经网络,输出K维的规整向量
Figure BDA0002165679380000236
具体的,该前向神经网络的函数表示可 以如第十一公式所示。
第十一公式:
Figure BDA0002165679380000237
在上述第十一公式中,
Figure RE-GDA0002375698800000238
表示通过深度神经网络学习到的非线性 映射函数,其作用是将原始向量空间映射到新的向量空间(即规整后的向量空 间)。
步骤305、分别衡量上述各帧在各向量维度的规整向量与预设的语音提取 子之间的距离,以估计得到上述混合语音各帧的掩码;
由于本申请实施例中的识别网络训练得到的语音提取子具有分布稳定集中 的特性,因此,本申请实施例中,可以利用训练上述识别网络时得到的所有语 音提取子的质心作为预设的语音提取子。由于本申请实施例中在混合语音的识 别过程中不需要重新估计语音提取子,因此,本申请实施例中的混合语音识别 方案能较好地实现逐帧实时处理。
步骤306、基于上述混合语音各帧的掩码,确定上述混合语音中属于所述 目标对象的语音;
本申请实施例中,在获得上述混合语音各帧的掩码后,即可基于上述混合 语音各帧的掩码,确定上述混合语音中属于上述目标对象的语音。具体的,利 用该掩码对上述混合语音进行加权,即可逐帧提取上述混合语音中属于上述目 标对象的语音,而掩码越大,相应时频窗口的语音也将被提取得越多。
下面对用以实现图5所示混合语音识别流程的识别网络进行说明,该识别 网络的结构示意图可如图6所示。下面结合图6对上述识别网络的训练过程进 行说明:
1、将用以训练识别网络的适应语音样本和混合语音样本输入深度神经网络, 该深度神经网络由4层双向LSTM层构成,每层LSTM有600个结点。当然,上 述深度神经网络也可以替换为各种其它有效的新型的模型结构,例如,CNN和 其它网络结构相结合的模型,或者其它网络结构,例如时延网络、闸控卷积神 经网络等。本申请不限定深度神经网络的模型类型和拓扑结构。
本应用场景以上标“ws'”表示适应语音样本,“cs'”表示混合语音样本, “Xf,t”表示第t帧语音的频谱(f表示频谱维度的序列号,t表示时间维度的 帧序列号),则适应语音样本的频谱可以表示为
Figure BDA0002165679380000241
混合语音样本的频谱可 以表示为
Figure BDA0002165679380000242
则可以分别将适应语音样本的输入频谱
Figure BDA0002165679380000243
和混合语音样本的输 入频谱
Figure BDA0002165679380000244
经深度神经网络映射为K维的向量,得到适应语音样本各帧在各向 量维度的向量
Figure BDA0002165679380000251
(
Figure BDA0002165679380000252
表示适应语音样本的第t帧在第k向量维度的向量, k∈[1,K])以及混合语音样本各帧在各向量维度的向量
Figure BDA0002165679380000253
(
Figure BDA0002165679380000254
表示混合语音 样本的第t帧在第k向量维度的向量,k∈[1,K])。
2、为去除低能量频谱窗口噪声以得到适应语音的有效帧,设置适应语音样 本的有监督标注
Figure BDA0002165679380000255
将适应语音样本各帧的频谱分别与一频谱阈值Γ比较,如 果适应语音样本某帧(也即某时频窗口)的频谱幅度大于适应频谱比较值(即 适应语音样本的最大频谱幅度与Γ之间的差值),则该时频窗口对应的适应语 音样本的有监督标注
Figure BDA0002165679380000256
取0;否则,
Figure BDA0002165679380000257
取1,具体公式可以表现为参见前述第 四公式。
本应用场景中,基于上述适应语音各帧在各向量维度的向量
Figure BDA0002165679380000258
和有监督 标注
Figure BDA0002165679380000259
计算上述适应语音在各向量维度的平均向量
Figure BDA00021656793800002510
计算方法如上述第五 公式。
3、将上述适应语音在各向量维度的平均向量
Figure BDA00021656793800002511
和上述混合语音各帧在各 向量维度的向量
Figure BDA00021656793800002512
合并成2K维度的向量入前向神经网络,输出K维的规整向 量
Figure BDA00021656793800002513
具体的,该前向神经网络的函数表示可以如上述第十一公式所示。关 于前向神经网络的说明可以参照步骤304中的描述,此处不再赘述。
4、为得到混合语音样本中目标对象的有监督标注
Figure BDA00021656793800002514
可以先去除混合语 音样本中的低能量频谱窗口噪声,之后针对混合语音样本中目标对象的语音频 谱幅度,如果目标对象在某帧的语音频谱幅度均大于该帧中干扰对象的频谱幅 度,则目标对象在该帧对应的
Figure BDA00021656793800002515
取1,否则取0。
5、基于规整向量
Figure BDA00021656793800002516
和混合语音样本中目标对象的有监督标注
Figure BDA00021656793800002517
通过 第十二公式估算规整的语音提取子
Figure BDA00021656793800002518
第十二公式:
Figure BDA00021656793800002519
6、通过衡量各帧在各向量维度的规整向量
Figure BDA00021656793800002520
与规整后的语音提取子
Figure BDA00021656793800002521
的 距离来估计还原目标对象的Mask,估计方法如第十三公式所示,如果一时频窗 口与语音提取子的内积距离越小,则该时频窗口归属于目标对象的概率越大, 那么通过第十二公式估算出来的相应时频窗口的Mask越大,则混合语音样本中 相应的时频窗口的语音也将被提取得越多。
第十三公式:
Figure BDA0002165679380000261
在上述第十三公式中,
Figure BDA0002165679380000262
表示上述混合语音样本第t帧的掩码。
7、通过上述识别网络的目标函数重建由估计得到的Mask还原出的目标对 象语音与目标对象的参考语音之间的频谱误差,通过最小化该目标函数来训练 整个网络,该目标函数L可以如第十四公式所示。
第十四公式:
Figure BDA0002165679380000263
在上述第十四公式中,
Figure BDA0002165679380000264
表示目标对象的参考语音在第t帧的频谱(也即 参考语音频谱)。上述第十四公式是标准的L2重建误差。由于重建误差反映的 是还原的语音与目标对象的参考语音之间的频谱误差,因此,训练上述识别网 络时可以通过生成梯度减小全局误差以优化提取到的目标对象的语音质量。
不同于混合语音样本,在实际的混合语音识别中,由于并不知晓输入的混 合语音中哪些语音属于目标对象,因此,混合语音中目标对象的有监督标注是 未知的,故如前面提及的,可以利用训练上述识别网络时得到的所有语音提取 子的质心作为预设的语音提取子,在图3所示实施例的步骤305中,分别衡量 上述各帧在各向量维度的规整向量与预设的语音提取子之间的距离,以估计得 到上述混合语音各帧的掩码。
本申请实施例提供一种混合语音识别装置。如图7所示,本申请实施例中 的混合语音识别装置包括:
监听单元71,用于监听语音的输入;
获取单元72,用于当监听单元71监听到适应语音和混合语音的输入时, 基于所述适应语音获取目标对象的语音特征;
确定单元73,用于基于所述目标对象的语音特征,确定所述混合语音中属 于所述目标对象的语音;
其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述 适应语音之后输入的非适应语音。
可选的,在图7所示实施例的基础上,如图8所示,获取单元72可包括:
空间映射单元721,用于当监听单元71监听到适应语音和混合语音的输入 时,将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空 间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向 量维度的向量,其中,所述适应语音为包含预设语音信息的语音,所述混合语 音为在所述适应语音之后输入的非适应语音,所述K不小于1;
计算单元722,用于基于所述适应语音各帧在各向量维度的向量,计算所 述适应语音在各向量维度的平均向量;
掩码估计单元723,用于将所述适应语音在各向量维度的平均向量作为目 标对象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度 的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的 掩码;
确定单元73,用于基于所述混合语音各帧的掩码,确定所述混合语音中属 于所述目标对象的语音。
可选的,计算单元722具体用于:基于所述适应语音有效帧在各向量维度 的向量,计算所述适应语音在各向量维度的平均向量,其中,所述适应语音有 效帧是指所述适应语音中频谱幅度大于适应频谱比较值的帧,所述适应频谱比 较值等于所述适应语音的最大频谱幅度与预设频谱阈值之间的差值。
可选的,本申请实施例中的混合语音识别装置还包括:规整单元,用于将 所述适应语音在各向量维度的平均向量和所述混合语音各帧在各向量维度的向 量输入预先训练好的前向神经网络,得到各帧在各向量维度的规整向量。掩码 估计单元723具体用于:分别衡量所述各帧在各向量维度的规整向量与预设的 语音提取子之间的距离,以估计得到所述混合语音各帧的掩码。
可选的,本申请实施例中的混合语音识别装置还包括:聚类单元,用于基 于聚类算法对所述混合语音各帧在各向量维度的向量进行处理,以确定所述混 合语音在各向量维度上对应不同说话人语音的质心向量。掩码估计单元723具 体用于:将所述混合语音在各向量维度的目标质心向量作为目标对象在相应向 量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应 向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码。
可选的,本申请实施例中的混合语音识别装置还包括:比较单元,用于分 别比较预设的M个语音提取子与所述适应语音在各向量维度的平均向量之间的 距离,其中,所述M大于1。掩码估计单元723具体用于:将所述M个语音提 取子中,与所述适应语音在一向量维度的平均向量距离最小的语音提取子作为 目标对象在相应向量维度的语音提取子,分别衡量所述混合语音各帧在各向量 维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各 帧的掩码。
应理解,本发明实施例中的混合语音识别装置可以用于实现上述方法实施 例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方 法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
由上可见,本申请实施例在监听到适应语音和混合语音的输入时,基于该 适应语音获取目标对象的语音特征;基于上述目标对象的语音特征,确定上述 混合语音中属于所述目标对象的语音。通过引入适应语音学习目标对象的语音 特征,本申请方案可从混合语音中确定出目标对象的语音,以方便对混合语音 中目标对象的语音进行追踪。例如在智能音箱的应用场景中,可利用唤醒语音 作为适应语音学习唤醒语音说话人(即目标对象)的特征,并从在唤醒语音之 后输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外,由于本申请 目标对象的语音特征并不依赖于混合语音中说话人的数目,因此,本申请方案 无需在混合语音识别过程预先获知或估计混合语音中说话人的数目。
本申请实施例提供另一种混合语音识别装置,请参阅图9,本申请实施例 中的混合语音识别装置还包括:存储器81,一个或多个处理器82(图9中仅示 出一个)及存储在存储器81上并可在处理器上运行的计算机程序。其中:存储 器82用于存储软件程序以及模块,处理器82通过运行存储在存储器81的软件 程序以及单元,从而执行各种功能应用以及数据处理。具体地,处理器82通过 运行存储在存储器81的上述计算机程序时实现以下步骤:
监听语音的输入;
获取单元,用于当所述监听单元监听到适应语音和混合语音的输入时,基 于所述适应语音获取目标对象的语音特征;
确定单元,用于基于所述目标对象的语音特征,确定所述混合语音中属于 所述目标对象的语音;
其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述 适应语音之后输入的非适应语音。
假设上述为第一种可能的实现方式,则在第一种可能的实现方式作为基础 而提供的第二种可能的实现方式中,所述基于适应语音获取目标对象的语音特 征包括:
将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空 间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向 量维度的向量,其中,所述K不小于1;
基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量 维度的平均向量;
将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语 音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的 语音提取子之间的距离,以估计所述混合语音各帧的掩码;
基于所述混合语音各帧的掩码,确定所述混合语音中属于所述目标对象的 语音。
在第二种可能的实现方式作为基础而提供的第三种可能的实现方式中,所 述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维 度的平均向量具体为:
基于所述适应语音有效帧在各向量维度的向量,计算所述适应语音在各向 量维度的平均向量,其中,所述适应语音有效帧是指所述适应语音中频谱幅度 大于适应频谱比较值的帧,所述适应频谱比较值等于所述适应语音的最大频谱 幅度与预设频谱阈值之间的差值。
在上述第三种可能的实现方式作为基础而提供的第四种可能的实现方式中, 所述计算单元具体用于:针对每个向量维度,将所述适应语音各帧在相应向量 维度的向量分别乘以相应帧的有监督标注后求和,得到所述适应语音有效帧在 相应向量维度的总向量;将所述适应语音有效帧在各向量维度的总向量分别除 以所述适应语音各帧的有监督标注之和,得到所述适应语音在各向量维度的平 均向量;
其中,所述适应语音中频谱幅度大于适应频谱比较值的帧的有监督标注取 1,所述适应语音中频谱幅度不大于适应频谱比较值的帧的有监督标注取0。
在上述第二种可能的实现方式或者上述第三种可能的实现方式或者上述第 四种可能的实现方式作为基础而提供的第五种可能的实现方式中,在基于所述 适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向 量之后,处理器82通过运行存储在存储器81的上述计算机程序时还实现以下 步骤:
将所述适应语音在各向量维度的平均向量和所述混合语音各帧在各向量维 度的向量输入预先训练好的前向神经网络,得到各帧在各向量维度的规整向量;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度 的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维 度的语音提取子之间的距离,以估计所述混合语音各帧的掩码替换为:
分别衡量所述各帧在各向量维度的规整向量与预设的语音提取子之间的距 离,以估计得到所述混合语音各帧的掩码。
在上述第二种可能的实现方式或者上述第三种可能的实现方式或者上述第 四种可能的实现方式作为基础而提供的第六种可能的实现方式中,在所述将所 述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间之后, 处理器82通过运行存储在存储器81的上述计算机程序时还实现以下步骤:
基于聚类算法对所述混合语音各帧在各向量维度的向量进行处理,以确定 所述混合语音在各向量维度上对应不同说话人语音的质心向量;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度 的语音提取子替换为:将所述混合语音在各向量维度的目标质心向量作为目标 对象在相应向量维度的语音提取子,其中,所述目标质心向量为在同一向量维 度与所述适应语音的平均向量距离最小的质心向量。
在上述第二种可能的实现方式或者上述第三种可能的实现方式或者上述第 四种可能的实现方式作为基础而提供的第七种可能的实现方式中,在所述基于 所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平 均向量之后,处理器82通过运行存储在存储器81的上述计算机程序时还实现 以下步骤:
分别比较预设的M个语音提取子与上述适应语音在各向量维度的平均向量 之间的距离,其中,上述M大于1;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度 的语音提取子替换为:将所述M个语音提取子中,与所述适应语音在一向量维 度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取 子。
可选的,如图9示,上述混合语音识别装置还包括:一个或多个输入设备 83(图9中仅示出一个)和一个或多个输出设备84(图9中仅示出一个)。存 储器81、处理器82、输入设备83和输出设备84通过总线85连接。
应当理解,在本申请实施例中,所称处理器82可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字 信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门 或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处 理器也可以是任何常规的处理器等。
输入设备83可以包括键盘、触控板、指纹采传感器(用于采集用户的指纹 信息和指纹的方向信息)、麦克风等,输出设备84可以包括显示器、扬声器等。
存储器84可以包括只读存储器和随机存取存储器,并向处理器81提供指 令和数据。存储器84的一部分或全部还可以包括非易失性随机存取存储器。
由上可见,本申请实施例在监听到适应语音和混合语音的输入时,基于该 适应语音获取目标对象的语音特征;基于上述目标对象的语音特征,确定上述 混合语音中属于所述目标对象的语音。通过引入适应语音学习目标对象的语音 特征,本申请方案可从混合语音中确定出目标对象的语音,以方便对混合语音 中目标对象的语音进行追踪。例如在智能音箱的应用场景中,可利用唤醒语音 作为适应语音学习唤醒语音说话人(即目标对象)的特征,并从在唤醒语音之 后输入的混合语音中识别追踪属于唤醒语音说话人的语音。另外,由于本申请 目标对象的语音特征并不依赖于混合语音中说话人的数目,因此,本申请方案 无需在混合语音识别过程预先获知或估计混合语音中说话人的数目。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上 述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上 述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不 同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功 能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在, 也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬 件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模 块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上 述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程, 在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详 述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示 例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来 实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用 和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现 所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通 过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如, 上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的 划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些 特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦 合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以 是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者 也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部 单元来实现本实施例方案的目的。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或 使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请 实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关 的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算 机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计 算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象 代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能 够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机 存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软 件分发介质等。需要说明的是,上述计算机可读介质包含的内容可以根据司法 管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根 据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照 前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其 依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特 征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申 请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (15)

1.一种混合语音识别网络训练方法,其特征在于,所述方法包括:
通过所述混合语音识别网络中的深度神经网络获取混合语音样本,其中,所述混合语音样本包括至少两个不同的说话人的语音;
所述深度神经网络确定与所述混合语音样本对应的混合语音样本的向量;
通过所述混合语音识别网络对所述混合语音样本的向量和相应的有监督标注进行处理,形成目标对象在向量空间的语音提取子;
通过所述混合语音识别网络,利用所述混合语音样本的向量和所述语音提取子确定所述目标对象的掩码;
通过所述目标对象的掩码与目标对象的参考语音对所述混合语音识别网络的参数进行更新。
2.根据权利要求1所述的方法,其特征在于,所述通过所述语音识别网络的深度神经网络确定与所述混合语音样本对应的混合语音样本的向量,包括:
将所述混合语音样本嵌入到K维度的向量空间,得到所述混合语音样本中的各帧在各向量维度的向量,其中,
所述混合语音样本为输入的非适应语音样本。
3.根据权利要求1所述的方法,其特征在于,所述通过所述混合语音识别网络对所述混合语音样本的向量和相应的有监督标注进行处理,形成目标对象在向量空间的语音提取子,包括:
对所述混合语音样本中的低能量频谱窗口噪声进行除噪处理;
根据所述混合语音样本中目标对象的语音频谱幅度和相应语音帧中干扰对象的频谱幅度,确定所述混合语音样本中目标对象的有监督标注;
根据所述混合语音样本的向量和所述混合语音样本中目标对象的有监督标注确定所述混合语音样本中不同的说话人的语音在在向量空间中所对应的的语音提取子。
4.根据权利要求1所述的方法,其特征在于,所述通过所述目标对象的掩码与目标对象的参考语音对所述混合语音识别网络的参数进行更新,包括:
根据所述混合语音样本中不同的说话人岁对应的掩码,提取混合语音样本中各个说话人的语音;
通过所述语音识别网络的目标函数,确定利用所述目标对象的掩码所提取的各个说话人的语音与目标对象的参考语音的频谱误差;
通过所述频谱误差,对所述语音识别网络的目标函数进行最小化处理,以实现更新所述混合语音识别网络的参数。
5.一种混合语音识别方法,其特征在于,应用于如权利要求1-4任一项所述的方法训练得到的混合语音识别网络,包括:
监听语音的输入;
当监听到适应语音和混合语音的输入时,基于所述适应语音获取目标对象的语音特征;
基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的语音;
其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音。
6.根据权利要求5所述的混合语音识别方法,其特征在于,所述基于适应语音获取目标对象的语音特征包括:
将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量,其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音,所述K不小于1;
基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量;
将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码;
所述基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的语音为:
基于所述混合语音各帧的掩码,确定所述混合语音中属于所述目标对象的语音。
7.根据权利要求6所述的混合语音识别方法,其特征在于,所述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量具体为:
基于所述适应语音有效帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量,其中,所述适应语音有效帧是指所述适应语音中频谱幅度大于适应频谱比较值的帧,所述适应频谱比较值等于所述适应语音的最大频谱幅度与预设频谱阈值之间的差值。
8.根据权利要求7所述的混合语音识别方法,其特征在于,所述基于所述适应语音有效帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量,包括:
针对每个向量维度,将所述适应语音各帧在相应向量维度的向量分别乘以相应帧的有监督标注后求和,得到所述适应语音有效帧在相应向量维度的总向量;
将所述适应语音有效帧在各向量维度的总向量分别除以所述适应语音各帧的有监督标注之和,得到所述适应语音在各向量维度的平均向量;
其中,所述适应语音中频谱幅度大于适应频谱比较值的帧的有监督标注取1,所述适应语音中频谱幅度不大于适应频谱比较值的帧的有监督标注取0。
9.根据权利要求6至8任一项所述的混合语音识别方法,其特征在于,所述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量之后还包括:
将所述适应语音在各向量维度的平均向量和所述混合语音各帧在各向量维度的向量输入预先训练好的前向神经网络,得到各帧在各向量维度的规整向量;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子,分别衡量所述混合语音各帧在各向量维度的向量与相应向量维度的语音提取子之间的距离,以估计所述混合语音各帧的掩码替换为:
分别衡量所述各帧在各向量维度的规整向量与预设的语音提取子之间的距离,以估计得到所述混合语音各帧的掩码。
10.根据权利要求6至8任一项所述的混合语音识别方法,其特征在于,所述将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间之后还包括:
基于聚类算法对所述混合语音各帧在各向量维度的向量进行处理,以确定所述混合语音在各向量维度上对应不同说话人语音的质心向量;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子替换为:
将所述混合语音在各向量维度的目标质心向量作为目标对象在相应向量维度的语音提取子,其中,所述目标质心向量为在同一向量维度与所述适应语音的平均向量距离最小的质心向量。
11.根据权利要求6至8任一项所述的混合语音识别方法,其特征在于,所述基于所述适应语音各帧在各向量维度的向量,计算所述适应语音在各向量维度的平均向量之后还包括:
分别比较预设的M个语音提取子与上述适应语音在各向量维度的平均向量之间的距离,其中,上述M大于1;
所述将所述适应语音在各向量维度的平均向量作为目标对象在各向量维度的语音提取子替换为:
将所述M个语音提取子中,与所述适应语音在一向量维度的平均向量距离最小的语音提取子作为目标对象在相应向量维度的语音提取子。
12.根据权利要求6至8任一项所述的混合语音识别方法,其特征在于,所述将所述适应语音的频谱和所述混合语音的频谱分别嵌入到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量具体为:
将所述适应语音的频谱和所述混合语音的频谱经深度神经网络映射到K维度的向量空间,得到所述适应语音各帧在各向量维度的向量以及所述混合语音各帧在各向量维度的向量。
13.一种混合语音识别装置,其特征在于,包括:
监听单元,用于监听语音的输入;
获取单元,用于当所述监听单元监听到适应语音和混合语音的输入时,基于所述适应语音获取目标对象的语音特征;
确定单元,用于基于所述目标对象的语音特征,确定所述混合语音中属于所述目标对象的语音;
其中,所述适应语音为包含预设语音信息的语音,所述混合语音为在所述适应语音之后输入的非适应语音。
14.一种混合语音识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求5至12任一项所述方法的步骤。
15.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的混合语音识别网络训练方法,或者实现如权利要求5至12任一项所述方法的步骤。
CN201910746274.8A 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 Active CN111445905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910746274.8A CN111445905B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810507294.5A CN108962237B (zh) 2018-05-24 2018-05-24 混合语音识别方法、装置及计算机可读存储介质
CN201910746274.8A CN111445905B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201810507294.5A Division CN108962237B (zh) 2018-05-24 2018-05-24 混合语音识别方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111445905A true CN111445905A (zh) 2020-07-24
CN111445905B CN111445905B (zh) 2023-08-08

Family

ID=64499498

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201910745788.1A Active CN110797021B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN201910746274.8A Active CN111445905B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN201810507294.5A Active CN108962237B (zh) 2018-05-24 2018-05-24 混合语音识别方法、装置及计算机可读存储介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910745788.1A Active CN110797021B (zh) 2018-05-24 2018-05-24 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201810507294.5A Active CN108962237B (zh) 2018-05-24 2018-05-24 混合语音识别方法、装置及计算机可读存储介质

Country Status (5)

Country Link
US (1) US11996091B2 (zh)
EP (1) EP3806089B1 (zh)
JP (1) JP7177167B2 (zh)
CN (3) CN110797021B (zh)
WO (1) WO2019223457A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436633A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 说话人识别方法、装置、计算机设备及存储介质
CN114882914A (zh) * 2022-06-16 2022-08-09 中国电信股份有限公司 混叠音处理方法、装置和存储介质

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
CN110797021B (zh) * 2018-05-24 2022-06-07 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) * 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN111696571A (zh) * 2019-03-15 2020-09-22 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN110459237B (zh) * 2019-04-12 2020-11-20 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110265060B (zh) * 2019-06-04 2021-05-11 广东工业大学 一种基于密度聚类的说话人数目自动检测方法
CN117037835A (zh) * 2020-02-28 2023-11-10 维沃移动通信有限公司 音频数据的处理方法、电子设备及介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
CN111583916B (zh) * 2020-05-19 2023-07-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111754982A (zh) * 2020-06-19 2020-10-09 平安科技(深圳)有限公司 语音通话的噪声消除方法、装置、电子设备及存储介质
CN111667817A (zh) * 2020-06-22 2020-09-15 平安资产管理有限责任公司 一种语音识别方法、装置、计算机系统及可读存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112614492A (zh) * 2020-12-09 2021-04-06 通号智慧城市研究设计院有限公司 基于时空信息融合的声纹识别方法、系统及存储介质
US20220406324A1 (en) * 2021-06-18 2022-12-22 Samsung Electronics Co., Ltd. Electronic device and personalized audio processing method of the electronic device
CN113409776B (zh) * 2021-06-30 2024-06-07 南京领行科技股份有限公司 一种语音识别方法、装置、电子设备及存储介质
WO2023127058A1 (ja) * 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム
CN116978358A (zh) * 2022-10-21 2023-10-31 腾讯科技(深圳)有限公司 语音处理方法、装置、设备和介质
CN116168687B (zh) * 2023-04-24 2023-07-21 北京探境科技有限公司 一种语音数据处理方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110224980A1 (en) * 2010-03-11 2011-09-15 Honda Motor Co., Ltd. Speech recognition system and speech recognizing method
CN102201236A (zh) * 2011-04-06 2011-09-28 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
WO2017218492A1 (en) * 2016-06-14 2017-12-21 The Trustees Of Columbia University In The City Of New York Neural decoding of attentional selection in multi-speaker environments
CN107919133A (zh) * 2016-10-09 2018-04-17 赛谛听股份有限公司 针对目标对象的语音增强系统及语音增强方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3910898B2 (ja) 2002-09-17 2007-04-25 株式会社東芝 指向性設定装置、指向性設定方法及び指向性設定プログラム
US7620546B2 (en) * 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
US8392185B2 (en) * 2008-08-20 2013-03-05 Honda Motor Co., Ltd. Speech recognition system and method for generating a mask of the system
US20150112682A1 (en) * 2008-12-10 2015-04-23 Agnitio Sl Method for verifying the identity of a speaker and related computer readable medium and computer
KR101670313B1 (ko) * 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
KR101305373B1 (ko) * 2011-12-16 2013-09-06 서강대학교산학협력단 관심음원 제거방법 및 그에 따른 음성인식방법
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
CN104049721B (zh) * 2013-03-11 2019-04-26 联想(北京)有限公司 信息处理方法及电子设备
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9953632B2 (en) * 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
CN105989836B (zh) * 2015-03-06 2020-12-01 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
US9892731B2 (en) * 2015-09-28 2018-02-13 Trausti Thor Kristjansson Methods for speech enhancement and speech recognition using neural networks
CN105895078A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 动态选择语音模型的语音识别方法及装置
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
JP6616182B2 (ja) * 2015-12-25 2019-12-04 綜合警備保障株式会社 話者認識装置、判別値生成方法及びプログラム
WO2017141317A1 (ja) * 2016-02-15 2017-08-24 三菱電機株式会社 音響信号強調装置
CN107689948B (zh) * 2016-08-22 2020-09-01 赛灵思公司 应用于神经网络硬件加速系统的高效数据访存管理装置
KR102562287B1 (ko) * 2016-10-14 2023-08-02 삼성전자주식회사 전자 장치 및 전자 장치의 오디오 신호 처리 방법
US9881634B1 (en) * 2016-12-01 2018-01-30 Arm Limited Multi-microphone speech processing system
US10192553B1 (en) * 2016-12-20 2019-01-29 Amazon Technologes, Inc. Initiating device speech activity monitoring for communication sessions
CN106782504B (zh) 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
IT201700044093A1 (it) * 2017-04-21 2018-10-21 Telecom Italia Spa Metodo e sistema di riconoscimento del parlatore
CN107785029B (zh) 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
JP6991041B2 (ja) 2017-11-21 2022-01-12 ヤフー株式会社 生成装置、生成方法、および生成プログラム
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
CN110797021B (zh) * 2018-05-24 2022-06-07 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110224980A1 (en) * 2010-03-11 2011-09-15 Honda Motor Co., Ltd. Speech recognition system and speech recognizing method
CN102201236A (zh) * 2011-04-06 2011-09-28 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
WO2017218492A1 (en) * 2016-06-14 2017-12-21 The Trustees Of Columbia University In The City Of New York Neural decoding of attentional selection in multi-speaker environments
CN107919133A (zh) * 2016-10-09 2018-04-17 赛谛听股份有限公司 针对目标对象的语音增强系统及语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Y. LUO 等: ""Speaker-independent speech separation with deep attractor network"" *
ZHUO CHEN ET AL.: ""Cracking the cocktail party problem by multi-beam deep attractor network"" *
ZHUO CHEN等: ""DEEP ATTRACTOR NETWORK FOR SINGLE-MICROPHONE SPEAKER SEPARATION"" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436633A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 说话人识别方法、装置、计算机设备及存储介质
CN113436633B (zh) * 2021-06-30 2024-03-12 平安科技(深圳)有限公司 说话人识别方法、装置、计算机设备及存储介质
CN114882914A (zh) * 2022-06-16 2022-08-09 中国电信股份有限公司 混叠音处理方法、装置和存储介质

Also Published As

Publication number Publication date
US11996091B2 (en) 2024-05-28
CN110797021B (zh) 2022-06-07
JP2021516369A (ja) 2021-07-01
CN111445905B (zh) 2023-08-08
EP3806089B1 (en) 2024-06-19
WO2019223457A1 (zh) 2019-11-28
EP3806089A4 (en) 2021-07-21
US20200372905A1 (en) 2020-11-26
CN108962237B (zh) 2020-12-04
CN110797021A (zh) 2020-02-14
CN108962237A (zh) 2018-12-07
EP3806089A1 (en) 2021-04-14
JP7177167B2 (ja) 2022-11-22

Similar Documents

Publication Publication Date Title
CN110797021B (zh) 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN107564513B (zh) 语音识别方法及装置
Hsu et al. Unsupervised learning of disentangled and interpretable representations from sequential data
Koutini et al. CP-JKU submissions to DCASE’19: Acoustic scene classification and audio tagging with receptive-field-regularized CNNs
JP6235938B2 (ja) 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
JP6189970B2 (ja) 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ
EP2695160B1 (en) Speech syllable/vowel/phone boundary detection using auditory attention cues
CN111461176A (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
WO2019237519A1 (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
Patel et al. Speech recognition using hidden Markov model with MFCC-subband technique
JP6620882B2 (ja) ドメイン適応を用いたパターン認識装置、方法およびプログラム
EP2786313A1 (en) System and method for tracking and recognizing people
Maas et al. Recurrent neural network feature enhancement: The 2nd CHiME challenge
Zhang et al. Birdsoundsdenoising: Deep visual audio denoising for bird sounds
McLaren et al. Softsad: Integrated frame-based speech confidence for speaker recognition
Liu et al. Audio-visual keyword spotting based on adaptive decision fusion under noisy conditions for human-robot interaction
CN110797033A (zh) 基于人工智能的声音识别方法、及其相关设备
Poorjam et al. Quality control of voice recordings in remote Parkinson’s disease monitoring using the infinite hidden Markov model
Shekofteh et al. MLP-based isolated phoneme classification using likelihood features extracted from reconstructed phase space
CN113421546A (zh) 基于跨被试多模态的语音合成方法及相关设备
Markuš et al. Fast localization of facial landmark points
Chundong et al. S1 and S2 heart sound recognition using optimized BP neural network
Nidhyananthan et al. A review on speech enhancement algorithms and why to combine with environment classification
Lu et al. Fingerspelling alphabet recognition using a two-level hidden markov model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025921

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant