CN109313910B - 用于讲话者无关的多讲话者语音分离的置换不变训练 - Google Patents
用于讲话者无关的多讲话者语音分离的置换不变训练 Download PDFInfo
- Publication number
- CN109313910B CN109313910B CN201780030696.4A CN201780030696A CN109313910B CN 109313910 B CN109313910 B CN 109313910B CN 201780030696 A CN201780030696 A CN 201780030696A CN 109313910 B CN109313910 B CN 109313910B
- Authority
- CN
- China
- Prior art keywords
- signal
- allocation
- frames
- individual
- sources
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 59
- 238000000926 separation method Methods 0.000 title abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 140
- 238000012545 processing Methods 0.000 claims description 22
- 230000005236 sound signal Effects 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 32
- 238000013136 deep learning model Methods 0.000 abstract description 30
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000006073 displacement reaction Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 230000037433 frameshift Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011065 in-situ storage Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
- G06F18/21348—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis overcoming non-stationarity or permutations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本文描述的技术改进了使计算设备能够在与讲话者无关的多讲话者场景中进行自动语音识别(“ASR”)的方法。在一些示例中,深度学习模型的置换不变训练可以用于与讲话者无关的多个讲话者场景。在一些示例中,该技术可以确定模型对源信号的估计与源信号之间的置换考虑的分配。在一些示例中,该技术可以包括训练生成估计的模型以最小化置换考虑的分配的偏差。这些技术可以实现为神经网络的结构本身,解决了标签置换问题,标签置换问题阻碍了基于深度学习的语音分离技术的进步。这里讨论的技术还可以包括源追踪以在混合信号的帧中追踪源自相同源的流。
Description
背景技术
近年来,由于在最近的ASR系统中利用的深度学习技术,自动语音识别(“ASR”)系统的准确性得到显着改善。2010年,广泛接受的Switchboard会话转录基准任务的单词错误率(WER)超过20%,2016年,由于深度学习的发展,它已降至7%以下。
尽管在指示单个说话者语音方面已经取得了令人印象深刻的进步,但是多讲话者混合语音分离、追踪和识别的ASR的进步(通常被称为鸡尾酒会问题)已经不那么令人印象深刻了。尽管人类听众可以容易地感知声学混合物中的单独源,但是对于自动计算系统来说同样的任务似乎是困难的,尤其是当仅有混合语音的单通道可用时。
当前的解决方案受限于仅用于闭集讲话者,不能随着增加的说话者或词汇量而扩展;只分离高度不同的信号(例如,将音乐与讲话者分开)而不是分离类似信号(诸如多个讲话者)的更困难的任务;依赖于取决于讲话者的模型,这些模型需要在训练时标识讲话者并从讲话者那里收集数据,从而导致有限的词汇、语法和讲话者集合;假设时频区间(bins)仅属于一个扬声器;或者具有不可共同训练的部分,因此限制了系统性能。
发明内容
提供本发明内容是为了介绍与用于讲话者无关的多讲话者语音分离的置换不变训练有关的简化概念。本发明内容不旨在标识所要求保护的户数方案的必要特征,也不旨在用于确定所要求保护的技术方案的范围。
本文描述的技术使计算设备能够在与讲话者无关的多个讲话者场景中进行自动语音识别(“ASR”),这意味着这些技术能够检测混合信号的部分并将其归因于多个讲话者中对该混合信号有贡献的讲话者。无论这些技术之前是否先前已接收过与讲话者有关的数据,无论是在训练中还是在评估的早期。换句话说,这里描述的技术使得ASR能够用于多个讲话者,并且即使在语音重叠时,甚至当讲话者从信号中消失或者先前未遇到的讲话者出现时也是如此。通过本文讨论的技术启用计算设备的场景的示例包括自动会议和讲座转录;音频/视频录制的自动字幕;多方人机交互(例如,在物联网(IoT)世界中),其中通常观察到语音重叠;等。这对于信号增强技术(诸如,例如,智能助听器可以将特定信号从混合物隔离并增强、削减或以其他方式修改特定信号)、信号检测和增强、现场音频制作等等也很重要。
在一些示例中,本文讨论的技术包括深度学习模型的置换不变训练。这里讨论的技术克服了先前尝试解决标签模糊或标签置换问题的缺点和局限性。例如,先前的尝试通常在每个时间频率上利用在平行组的混合物上训练的深度学习模型及其组成目标源来预测属于目标类的源。这些先前的尝试将讲话者与多个讲话者隔离的方式受到严重限制,因为他们依赖于讲话者相关的模型,假设在训练时间期间讲话者是已知的,这导致在评估时间闭集目标说话者并且通常仅对有限的词汇和语法起作用。先前的尝试也基于信号的瞬时能量来分配标签,这是有问题的,因为如果讲话者移动到不同的位置,如果讲话者面向的方向改变,或者如果讲话者讲话更大声或更温和,则讲话者的瞬时能量可以改变。
本文所讨论的技术采用用于语音分离的深度学习模型的置换不变训练(“PIT”,也是在上下文中训练的置换不变性),其用于多个讲话者信号中的独立讲话者。与其中第一生成信号估计被视为可归因于第一信号源的将语音分离视为多级回归、分段或聚类问题的先前解决方案不同,本文所讨论的技术优化了分离回归误差(即偏差)的深度学习模型,忽略混合源的顺序。换句话说,对适当信号源的神经网络的给定输出可以变化,意味着在神经网络的输出和适当的信号源之间可能存在许多可能匹配的置换(即,S!可能的置换,其中S是信号源的数目)。具体地,这里讨论的技术可以首先确定最佳输出-目标分配,并且然后最小化最佳输出-目标分配的偏差(例如,误差)(其中“输出”是指深度学习模型的输出,以用于试图隔离特定“目标”源的特定源信号)。这些技术可以在神经网络的结构本身内实现,解决了标签置换问题,阻碍了基于深度学习的语音分离技术的进步。这里讨论的技术还可以包括源(例如,讲话者、噪声)追踪,其与本文讨论的PIT深度学习模型一起工作,以通过混合信号的多个帧来追踪源自相同源的流。换句话说,这里讨论的技术可以补偿训练标签中的置换。
这里讨论的技术提高了计算设备从混合信号(诸如,例如来自多个相等或接近相等的语音信号的语音信号)中分离信号的能力。这些技术改善了用于分离语音的深度学习模型的性能,包括提高独立讲话者和多讲话者场景的深度学习模型的准确性,减少计算时间,以及为包括两个或更多信号源的场景提供可扩展性。这些技术还通过提高ASR的准确性来改善人机交互,这使得计算设备能够将人类可理解的语音转换成机器可读或机器可执行的指令或信号。
附图说明
参考附图描述了详细描述。在附图中,附图标记的最左边的数字标识首次出现附图标记的图。不同图中的相同附图标记表示相似或相同的项。
图1是描绘示例设备的框图,其中用于讲话者无关的多讲话者场景的深度学习模型的置换不变训练(“PIT”)的示例可以操作。
图2A和图2B是描绘用于与讲话者无关的多讲话者场景的深度学习模型的PIT的示例系统和过程的框图。
图3A和图3B描绘了具有1的帧移位的双源情况的分配顺序。
图4A和图4B是示出了进行神经网络的PIT的示例过程的流程图。
图5是示出了进行神经网络的PIT的示例过程的流程图。
图6是示出了进行神经网络的PIT的示例过程的流程图。
图7是示出了进行神经网络的PIT的示例过程的流程图。
图8是示出了进行PIT语音分离的示例过程的流程图。
具体实施方式
概述
在一些示例中,本公开可以使计算设备能够针对与讲话者无关的多讲话者场景进行深度学习模型的置换不变训练(“PIT”)。在一些示例中,这里讨论的技术提高了从混合信号(诸如,例如来自多个相等或接近相等的语音信号的语音信号)中分离信号的计算设备的能力,与从不同类型的音频信号(例如,从音乐分离语音,从机械噪声分离语音,从一般背景噪声分离语音)或从非常不同的语音(例如,从高语音寄存器内的语音分离深语音寄存器内的语音)分离语音信号相比,这些语音信号更难分离。在一些示例中,本文讨论的技术可以改善用于分离语音的深度学习模型的性能,包括提高针对独立讲话者和多讲话者场景的深度学习模型的准确性,减少计算时间,以及为包括两个信号源的场景提供可伸缩性。在一些示例中,本文所讨论的技术还通过提高自动语音识别(“ASR”)的准确性来改善人机交互,这使得计算设备能够将人类可理解的信号转换为机器可读或机器可执行指令和/或信号。这里讨论的技术还允许ASR继续前进,克服由先前解决方案产生的不准确的训练数据引起的ASR进展的停止,该解决方案抑制了对神经网络的进一步训练。
在一些示例中,本文描述的技术使计算设备能够在与讲话者无关的多个讲话者场景中进行ASR,这意味着这些技术能够从多个讲话者中检测混合信号的部分并将其归因于多个讲话者中对混合信号有贡献的讲话者,无论这些技术之前是否曾接收过与讲话者相关的数据,无论是在训练中还是在评估的早期。换句话说,这里描述的技术使得ASR能够用于多个讲话者,即使在语音重叠时,甚至当讲话者从信号中消失或者先前未遇到的讲话者出现时也是如此。通过本文讨论的技术启用计算设备的场景的示例包括自动会议和讲座转录;音频/视频录制的自动字幕;多方人机交互(例如,在物联网(IoT)世界中),其中通常观察到语音重叠;等。这对于信号增强技术(诸如,例如,智能助听器可以将特定信号从混合物隔离并增强、削减或以其他方式修改特定信号)、信号检测和增强、现场音频制作等等也很重要。
本文讨论的技术克服了先前对解决方案的尝试的缺点和限制。例如,先前的尝试通常在每个时频区间上利用在平行组的混合物上训练的深度学习模型及其组成目标源来预测属于目标类的源。将讲话者与多个讲话者隔离的这些先前的尝试受到严重限制,因为它们依赖于讲话者相关的模型,假设在训练时间期间讲话者是已知的,这导致在评估时间闭集目标说话者并且通常仅对有限的词汇和语法起作用,或者因为它们基于帧的瞬时能量将标签分配给帧,但当以前第二信号有更大的能量,如果与第一源相关联的一个信号的能量变得大于与第二源相关联的第二信号的能量,则这可能导致错误标识源。
与讲话者无关的多讲话者语音分离的一个困难源于标签模糊问题(或等效地称为置换问题)。简而言之,即使深度学习模型具有分离信号的能力,也没有有效的方法在训练时间期间向相应的输出层提供适当的标签(例如,监督信号)。先前解决方案将特定模型输出视为仅与特定源有关,而实际上,与不同源有关的信号可以淡入和淡出不同的输出。换句话说,这些先前解决方案将来自解决方案系统的第一信号估计输出视为可归因于第一信号源,即使在某些情况下可能不是这样,因此阻碍了神经网络可以被训练的深度。
寻求解决该问题的先前技术仅使用一个信息源(例如,瞬时能量),与解码器紧密耦合,不容易扩展到超过两个讲话者,假设特定时频区间仅属于一个扬声器(这是图像识别的精细近似,其中图像的某些部分可能仅归因于一个对象,但在ASR中这种近似非常粗糙),并且先前解决方案的不同分类部分不能共同训练,妨碍了系统的性能。
在一些示例中,这里讨论的技术采用用于语音分离的深度学习模型的置换不变训练(“PIT”,也是在一些句法上下文中训练的置换不变),其用于多个讲话者信号中的独立讲话者。与以前将语音分离视为多类回归、分割或聚类问题的解决方案不同,在一些示例中,本文讨论的技术优化了分离回归误差(即偏差)的深度学习模型,忽略了混合源的顺序。换句话说,对适当信号源的神经网络的给定输出可以变化,意味着在神经网络的输出和适当的信号源之间可能存在许多可能匹配的置换(即,S!可能的置换,其中S是信号源的数目)。
在一些示例中,这里讨论的技术可以首先确定最佳输出-目标分配,并且然后最小化最佳输出-目标分配的偏差(例如,误差)(其中“输出”是指深度学习模型的输出,以用于试图隔离特定“目标”源的特定源信号)。这些技术可以在神经网络的结构本身内实现,解决了标签置换问题,阻碍了基于深度学习的语音分离技术的进步。这里讨论的技术还可以包括源(例如,讲话者、噪声)追踪,其与本文讨论的PIT深度学习模型一起工作,以通过混合信号的多个帧来追踪源自相同源的流。因此,这些技术提供了置换不变训练,因为它们考虑并补偿哪个信号源的变化适当地归因于哪个神经网络的输出。
实验结果表明,本文讨论的PIT深度学习模型(本文中的“PIT模型”)即使在其中相同的能量语音混合在一起的丹麦语料库的困难设置中,对训练模型中的模型(即,模型是“讲话者无关的”)看不到的讲话者表现得非常好。此外,实验结果表明,丹麦语训练的PIT模型可以有效地分离和追踪英语语音源。在训练器件,类似于人类,PIT模型学习了声学线索以用于源分离,声学线索既是讲话者也是语言独立的。
一般术语“深度学习模型”、“模型”和“神经网络”在本文中可互换使用。“PIT模型”是指是如本文所述的置换不变训练模型。此外,尽管该描述使用术语“深度学习模型”、“模型”和“神经网络”,但是可以预期本文讨论的技术可以用于深度学习模型、生成模型、分类器和/或任何其他适当的机器学习技术。
语音分离问题的详细描述
尽管PIT深度学习模型也适用于多声道语音,但更难以解决的问题是单声道语音分离,并且因此本文的讨论涉及单声道语音分离。本领域技术人员将理解,这里讨论的技术可以同样地应用于多声道语音。
单声道语音分离的目标是估计混合在一起并在单声道信号中重叠的各个源信号。将S源信号序列在时域中表示为xs(t),s=1,…,S并将混合信号序列在时域中表示为对于每个时间t和频率f,这些信号的相应的短时傅里叶变换(STFT)分别是Xs(t,f)和/>给定Y(t,f),单声道语音分离的目标是恢复每个源Xs(t,f)(在本文中等效地称为源信号)。在实际应用场景中,在一些示例中,恢复前两个或三个高能源信号就足够了。在一些示例中,可以恢复更多的源信号。在一些示例中,如在音频工程应用中,可以恢复所有源信号。在一些示例中,恢复前两个或三个源信号可能是足够的,因为剩余的源可归因于噪声。在许多情况下,噪声是低能量的,因此,在某些情况下,可以使用能量或功率阈值来确定要恢复的信号量和数量。
在一些示例中,当相位信息可用时,可以在复合谱域中执行PIT模型的信号恢复。在一些示例中,PIT模型的信号恢复可以在信号频谱的幅度上执行,这意味着PIT模型可以在幅度数据(例如,功率、能量、幅度)上操作,没有相位数据并且不需要恢复相位数据。因此,PIT模型可以在更短的时间内执行信号恢复,具有更少的处理负担,具有更少的硬件要求,和/或具有比现有解决方案更少的系统组件。
在一些示例中,在没有获得或不可获得相位信息的情况下,混合频谱的幅度|Y(t,f)|不能提供足够的信息来恢复源信号|Xs(t,f)|(这里简称为源信号或真源信号当在Xs(t,f)和|Xs(t,f)|之间不存在歧义时),视为有导致相同的混合光谱的|Y(t,f)|无数个可能的|Xs(t,f)|组合。在一些示例中,本文描述的PIT系统可以通过训练包含一对|Y(t,f)|和|Xs(t,f)|的集合来训练深度学习模型,其中深度学习模型寻找和学习规律性(例如,声学线索)。更具体地,在一些示例中,PIT系统可以训练深度学习模型g(·),使得g(f|Y|);θ)=|Xs|,s=1,…,S,其中θ是模型参数,并且f(|Y|)是|Y|的一些特征表示。为简单和清楚起见,下文的讨论省略并将继续省略时频索引。
在一些示例中,对于所有时频区间(t,f),PIT模型可以包括和具有约束/>的深度学习模型,并且,其中/>是将估计信号从混合信号(例如,在一些示例中的掩码)隔离的函数。在一些示例中,softmax操作可用于满足该约束。在一些示例中,可以使用hardmax操作来满足该约束。在一些示例中,掩码可以用于将|Xs|估计为其中/>是两个操作数的元素乘积。如这里所提到的,这里称为“输出层”、“估计信号”、“估计源信号”或“信号估计”。术语“输出层”也可以指直接估计的信号|Xs|。
在一些示例中,PIT系统可以优化模型参数θ,以最小化估计的掩码与理想掩码之间的偏差。例如,PIT系统可以最小化均方误差(“MSE”),诸如:
在一些示例中,PIT系统可以优化模型参数θ,以最小化估计的源信号和真实源信号|Xs|之间的误差,例如,根据:
该示例允许静默区段|Xs|=0被明确限定,因此掩码估计的准确性不影响那些区段的训练标准。在一些示例中,Jx可以用作训练目标函数。在一些示例中,可以修改Jx以反映诸如例如普通最小二乘法的其他回归估计器。
在一些示例中,PIT系统可以使用源信号和/或估计信号的狄拉克(Dirac)增量表示来追踪和/或重建源信号流。例如,PIT系统可以使用δXs(t,f)=Xs(t,f)-Xs(t-m,f-n)相邻帧(或相邻频率区间)的频谱的增量,和/或δ|Xs(t,f)|=|Xs(t,f)|-|Xs(t-m,f-n)|相邻帧(或相邻频率区间)的频谱幅度的增量,其中m和n分别是在时间和频率上的距离,在一些示例中,可以是0或1。在一些示例中,PIT系统可以估计源信号的增量表示。在PIT系统估计源信号的增量表示的示例中,PIT系统还可以估计源信号Xs的频谱,和/或源信号|Xs|的频谱幅度的估计,如本文所讨论的。在一些示例中,PIT系统可以使用估计的增量信号以及估计的信号来通过最小化重建的增量源信号和原始增量源信号之间的重建误差和/或通过最大化估计的增量信号与源信号相对应的可能性来更精确地追踪和/或重建源流。在一些示例中,可以针对每个元帧进行最小化和/或最大化。在一些示例中,可以每N帧进行最小化和/或最大化,并且可以基于N帧的最小化和/或最大化来进行重建和/或追踪。在一些示例中,增量表示可以扩展到Xs(t,f)或|Xs(t,f)|的任何函数,其通常是线性的。
在一些示例中,估计的源信号可以直接与ASR系统集成。在这种情况下,PIT系统可以优化模型参数θ,以最小化senone(例如,绑定三音素状态)或其他建模单元(诸如三音素、单声道、字素)的后验分布和目标分布之间的交叉熵。
示例设备
图1是描绘示例设备100的选择组件的框图,示例设备100可以表示(多个)分布式计算资源102和/或计算设备104中的一个或多个,或实现本文描述的技术中的一些或全部的其他计算设备。在一些示例中,示例设备100可以包括(多个)分布式计算资源102,其可以经由一个或多个网络106彼此通信和/或与外部设备(诸如计算设备104)通信。在至少一个示例中,(多个)分布式计算资源102可以独立地或并行地实现本文描述的技术。在一些示例中,计算设备104可以实现本文所讨论的技术。这样,(多个)分布式计算资源102和/或计算设备104可以包括PIT系统。
示例设备100可以包括具有可操作地连接到计算机可读介质110的一个或多个处理单元108的计算设备的任何类型。该连接可以经由总线112,在一些示例中,总线112可以包括一个或多个系统总线、数据总线、地址总线、PCI总线、Mini-PCI总线以及各种本地、外围和/或独立总线,或经由另一可操作连接。(多个)处理单元108可以表示例如微处理器,控制器或任何其他合适类型的处理器,以用于处理计算机可执行指令以控制设备的操作以便促进跨通道通信。在使用片上系统架构的一些示例中,(多个)处理单元108可以包括一个或多个固定功能块(也称为加速器),其通过在硬件(而不是软件或固件)中使用PIT系统来实现该方法的一部分。
示例设备100可以包括但不限于台式计算机、服务器计算机、网络服务器计算机、个人计算机、移动计算机、膝上型计算机、平板计算机、可穿戴计算机、植入式计算设备、电信设备、汽车计算机、支持网络的电视、瘦客户机、终端、个人数据助理(PDA)、游戏机、游戏设备、工作站、媒体播放器、个人视频录像机(PVR),机顶盒、相机、包含在计算中的集成组件设备、设备和/或任何其他类型的计算设备,诸如一个或多个单独的处理器设备,诸如中央处理单元(“CPU”)-类型处理器(例如,微处理器),图形处理单元(“GPU”)和/或(多个)加速器设备。
在一些示例中,分布式计算资源102可以包括在集群和/或其他分组配置中操作的一个或多个计算设备,以共享资源、平衡负载、提高性能、提供故障转移支持和/或冗余和/或用于其他目的。尽管示出为台式计算机,但是(多个)分布式计算资源102和/或计算设备104可以包括各种各样的设备类型,并且不限于任何特定类型的设备。例如,(多个)分布式计算资源102可以包括具有一个或多个处理单元的任何类型的计算设备,处理单元可操作地连接到计算机可读介质、I/O接口和/或(多个)网络接口。
在一些示例中,(多个)网络106可以包括诸如因特网的公共网络、诸如机构和/或个人内联网的私有网络、或者私有和公共网络的某种组合。(多个)网络106还可以包括任何类型的有线和/或无线网络,包括但不限于局域网(LAN)、广域网(WAN)、卫星网络、有线网络、Wi-Fi网络、WiMax网络、移动通信网络(例如,3G,4G等)或其任何组合。(多个)网络106可以利用通信协议,包括基于分组和/或基于数据报的协议,诸如因特网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)和/或其他类型的协议。此外,(多个)网络106还可以包括许多便于网络通信和/或形成网络硬件基础的设备,例如交换机、路由器、网关、接入点、防火墙、基站、中继器、骨干设备等等。
如本文所使用的,计算机可读介质110包括两种类型的计算机可读介质,即计算机存储介质和通信介质。计算机存储介质可包括以用于存储信息(以压缩或未压缩形式)的任何方法或技术实现的易失性和非易失性、非暂时性机器可读、可移动和不可移动介质,诸如计算机(或其他电子设备)可读和/或可执行指令、数据结构、程序模块和/或其他数据,以执行本文描述的过程或方法。计算机存储介质包括但不限于硬盘驱动器、软盘、光盘、CD-ROM、DVD、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、闪存、磁性和/或或者光学卡、固态存储器设备和/或适合于存储电子指令的其他类型的物理机器可读介质。
相反,通信介质包含计算机可读指令、数据结构,程序模块和/或调制数据信号(例如载波)和/或其他传输机制中的其他数据。如这里所限定的,计算机存储介质不包括通信介质。
在一些示例中,如关于设备100所示,计算机可读介质110可以存储可由(多个)处理单元108和/或(多个)加速器114读取和/或执行的指令。存储在计算机可读介质110上的可执行指令可以包括例如(多个)PIT模型116和/或PIT模型训练模块118以及可以由(多个)处理单元108和/或(多个)加速器114加载和执行的其他模块、程序和/或应用程序(例如,操作系统,固件)。
在一些示例中,(多个)PIT模型116和/或PIT模型训练模块118可以实现为硬件,诸如例如作为集成电路或专门配置的处理器,诸如例如一个或多个加速器114。在一些示例中,一个或多个加速器114可以代替(多个)处理单元108,或者可以通过总线112另外耦合到示例设备100的组件。加速器114可以包括:例如(多个)CPU型处理器114(1)、(多个)GPU 114(2)、(多个)场可编程门阵列(“FPGA”)114(3)、(多个)数字信号处理(“DSP”)-类型加速器114(4),和/或(多个)其他加速器114(N)。在一些示例中,这里讨论的示例设备100可以配置(多个)第一处理单元108和/或(多个)加速器114以执行PIT训练并将(多个)第二处理单元108和/或(多个)加速器114配置为配置为硬件处理器的PIT模型。在一些示例中,加速器114和/或处理单元108可以访问计算机可读介质110。
(多个)PIT模型116和/或PIT模型训练模块118的计算机可执行指令和/或硬件实现中的一些或全部可以可用于远程设备和/或(多个)分布式计算资源102,可从远程设备和/或(多个)分布式计算资源102访问或存储在远程设备和/或(多个)分布式计算资源102上,其可以被配置为云服务系统。在一些示例中,可以采用任何数目的模块,并且本文描述的由一个或多个模块采用的技术可以由更多或更少数目的模块使用。在一些示例中,示例设备100可以经由网络106存储和/或远程访问(多个)PIT模型116和/或PIT模型训练模块118。
在一些示例中,(多个)PIT模型116可以包括深度神经网络(“DNN”)、卷积神经网络(“CNN”)、长期短期记忆(“LSTM”)递归神经网络(“RNN”)或其他合适的深度学习模型中的一个或多个,深度学习模型具有确定模型的输出的模型参数。在一些示例中,(多个)PIT模型116可以附加地或替代地包括一个或多个生成模型,诸如高斯混合模型(“GMM”),隐马尔可夫模型(“HMM”),(Bayes)朴素贝叶斯分类器等。在一些示例中,可以使用任何适当的机器学习。
在所示示例中,计算机可读介质110还可以包括数据存储器120。在一些示例中,数据存储器120包括数据存储装置,诸如数据库、数据仓库和/或其他类型的结构化或非结构化数据存储。在一些示例中,数据存储器120包括具有一个或多个表、索引、存储过程等的关系数据库以实现数据访问。在一些示例中,数据存储器120可以存储(多个)PIT模型116和/或训练数据,诸如包括源信号的语言语料库,所述源信号可以被添加在一起以创建用于训练(多个)PIT模型的重叠单声道混合信号116。数据存储器120可以存储用于存储在计算机可读介质110中和/或由(多个)处理器108和/或(多个)加速器114执行的过程、应用程序、组件和/或模块的操作的数据。或者,上述数据的一些或者全部可以存储在单独的存储器上,诸如(多个)分布式计算资源102的存储器、(多个)计算设备104的存储器、或CPU类型处理器上的存储器(例如,(多个)微处理器、GPU上的存储器、FPGA类型加速器上的存储器、DSP类型加速器上的存储器和/或另一个加速器上的存储器)。
示例设备100还可以包括(多个)输入/输出(I/O)接口122,以允许设备100与诸如包括外围输入设备(例如,键盘、鼠标、笔、游戏控制器、语音输入设备、触摸输入设备、手势输入设备等)的用户输入设备和/或包括外围输出设备的输出设备(例如,显示器、打印机、音频扬声器、触觉输出等)的输入/输出设备通信。在一些示例中,I/O接口122可以允许示例设备与一个或多个麦克风(例如,麦克风阵列)通信以捕获音频信息。PIT模型训练模块118可以使用该捕获的音频信息来进行所接收的音频信息的波束成形(即,空间滤波)。该经空间滤波的音频数据可用于得到用作训练数据的“真实源信号”。
示例设备100还可以包括(多个)网络接口124以实现通过网络106的通信。这样的(多个)网络接口114可以包括一个或多个网络接口控制器(NIC)或其他类型的收发器设备以在网络106上发送和接收通信。
示例技术
图2A描绘了用于置换不变训练的示例技术200的第一部分。虽然图2A描绘了双源条件,从下面的讨论中将理解,下面讨论的PIT系统和过程可以缩放以处理两个以上的源而没有禁止的计算处理或时间要求。
在一些示例中,混合信号(即f(|Y|))202的特征表示被提供作为(多个)PIT模型116(例如g(f(|Y|);θ)=|Xs|,s=1,…,S))的输入。在一些示例中,特征表示202包括N个帧(在本文中称为元帧或窗口,其具有N个帧的窗口长度)的特征向量。在一些示例中,帧可以包括数据的离散部分,诸如例如,时频区间、时频索引、离散量的时间(例如,25毫秒、35毫秒)、或者频谱的一部分。在一些示例中,PIT模型116可以为每个源(例如,讲话者、噪声)生成掩码的一帧。例如,图2A示出了用于从混合信号中隔离信号的掩码204(1)和204(2)。在该示例中,帧可以是中心帧。在该示例中,可以将掩码的一帧应用于混合信号的一帧以(例如,通过将混合信号乘以(206)(多个)掩码)将估计的源信号(208(1)和208(2))),(其中表示单帧示例)从混合信号隔离。在一些示例中,(多个)PIT模型116可以每源生成多个掩码帧,以便得到估计的源信号。在一些示例中,可以使用附加于或替代掩码来将信号与混合信号隔离的技术。在一些示例中,可以使用掩码,因为模型可以学习产生掩码。所选择的其他技术也可以训练,以便从PIT创建的可靠训练数据中受益。
标记模糊度问题的困难在于知道|X1|,......|Xs|,的哪个个体真实源信号对应于的哪个个体估计的源信号。先前解决方案仅将第一估计的源信号对应于(在时间或处理中)第一真实源信号|X1(t1,f1)|,将第二估计的源信号对应于第二真实源信号|X2(t1,f1)|,并且计算/>和|X1(t1,f1)|之间以及/>和|X2(t1,f1)|之间的偏差之和。可以通过最小化这种偏差来训练模型。然而,如果训练集包含许多讲话者所说的许多话语,讲话者具有相似特征和/或类似能量的话语,则该模型生成基本对称的估计并且训练无效。
在其他示例中,可以使用置换不变训练和基于区段的决策来训练模型。在此示例中,真正的源流是作为集合而不是有序列表给出的。换句话说,无论使用哪个顺序列出源,都可以获得相同的训练结果。使用PIT实现此行为。PIT系统动态地将真实源信号与估计的源信号相关联。为了实现这一点,在一些示例中,PIT系统(例如,PIT模型训练模块118和/或(多个)PIT模型116)可以计算(210)真实源信号(214(1)和214(2))|X1|,......,|Xs|和估计的源信号(208(1)和208(2))之间的成对的偏差度量(212(1))。在一些示例中,PIT系统可以计算每个真实源信号与每个估计的源信号之间的偏差的成对度量(212(1)-(4))。在一些示例中,真实源信号(214(1)和214(2))与估计的源信号(208(1)和208(2))之间的偏差的成对度量可以是成对均方误差(“MSE”)。在一些示例中,其他回归估计器可以另外地或替代地用于MSE,诸如例如,普通最小二乘。在一些示例中,偏差是“成对的”,因为估计的源信号是针对多个帧生成的并且与真实源信号的多个帧进行比较。示例技术200在图2B中继续。
图2B描绘了用于置换不变训练的示例技术200的第二部分。在一些示例中,在PIT系统计算估计的源信号(208(1)和208(2))与真实源信号(214(1)和(214(2))之间的偏差的成对度量之后,PIT系统可以然后确定(216)真实源信号(以及,通过扩展,源信号可归因的源)和估计源之间的可能分配(216(1)和216(2)),并计算(218)针对可能的分配的总偏差(218(1)和218(2))。在一些示例中,这些可能的分配是排他的,意味着只有一个估计的源信号可以分配给一个真正的源信号。在一些示例中,可能的分配的数目将是S!。
例如,对于双源条件,PIT系统可以计算和|X1|、/>和|X2|、/>和|X2|、/>和|X1|之间的成对偏差(分别为212(1)-212(4)),分别为/>和对于双讲话者条件,有两种可能的分配(或等效地,“分配顺序”、“标签分配”):(可能的分配216(1))和/>(可能的分配216(2))。在一些示例中,PIT系统可以计算(218)可能分配的总偏差(218(1)和218(2))。在该示例中,个体估计的源信号和个体真实源信号之间的总偏差将分别为:和/>针对两个分配个体源信号被分配(取决于分配)给个体真实源信号。本领域技术人员将理解,这可以使用两个以上的信号源进行扩展。
在一些示例中,PIT系统可以识别检测到的多个源S,在这种情况下,可能的分配的数量可以是S!。例如,对于两个源,有两种可能的分配,对于三种源,有六种可能的分配。
在一些示例中,PIT系统比较(220)可能的分配的总偏差(218(1)和218(2))并选择与最小总偏差相关联的可能的分配。在一些示例中,PIT系统使用该选择的可能分配来将个体估计的源信号分配给各个真实源信号(即,分配确定哪个个体估计的源信号被分配给哪个个体真实源信号)。该最小总偏差是最小总偏差222,并且与其相关联的可能分配在本文中称为置换考虑的分配224。在一些示例中,PIT系统可以训练(多个)PIT模型116的模型参数θ,以最小化该最小总偏差222(例如,通过PIT模型训练模块118)。在一些示例中,PIT可以通过使用以下等式来开发训练目标函数来优化模型参数θ,以最小化估计的源信号和真实源信号之间的偏差。
在一些示例中,PIT系统可以使用基于区段的决策制定。换句话说,代替基于诸如中心帧的一个帧做出分配决定,PIT系统可以基于特征表示202的元帧做出决定。在该示例中,(多个)PIT模型116可以使用帧的每个移位的混合信号的特征表示202的N帧(即,元帧,窗口)作为(多个)PIT模型116的输入,以针对每个输入元帧生成语音(即,估计的源信号)的M>1帧的分离的掩码,使得在区段而不是一帧重构语音上进行分配决定。这允许根据上面讨论的技术利用上下文信息进行追踪和更准确的分配。估计分离语音的多个帧的源信号还允许PIT系统在整个混合信号中追踪可归因于某个源的信号。在一些示例中,对于流传输的混合语音信号,元帧窗口可以每次迭代移位一帧。在其他示例中,可以根据准确度和计算时间约束使用其他帧移位速率。在该示例中,针对估计的源信号和真实源信号的M>1帧计算在估计的源信号和真实源信号之间计算的偏差度量。
在一些示例中,可用的唯一信息是诸如在推理期间的混合语音。在一些示例中,可以针对每个输入元帧直接执行语音分离,为此针对每个流估计具有M帧的源信号帧的元帧。注意,“元帧”和“窗口”在本文中可互换使用,并且都指代的帧的离散数目的单元。在一些示例中,输入窗口然后移位一个(或更多)帧。在一些示例中,可以选择移位速率,使得移位窗口与最后窗口重叠至少两帧。在一些示例中,多于两个帧应该重叠以提供进一步的上下文信息。当相邻输入窗口的输出具有重叠帧时,PIT系统可以至少部分地通过最小化重叠帧的整体(在整个话语上)偏差(例如,MSE)来追踪可归因于各个源的信号。在一些示例中,可以训练另一模型(例如,DNN/CNN/LSTM,或甚至诸如GMM或HMM的生成的模型)以将估计的源信号聚类为正确的流。在一些示例中,可以利用增量信号来辅助追踪和/或重建。
在一些示例中,追踪讲话者可以至少部分地基于重叠帧的信号数据之间的MSE。在这些示例中,PIT系统可以在多任务优化框架下优化重建偏差(如上所述)和/或重叠帧的子集(例如,中心)之间的MSE。在一些示例中,真实源信号|Xs|在评估期间可用于PIT系统(例如,从存储器中检索、从通过对由麦克风和/或麦克风阵列捕获的信号进行空间滤波而获得的空间滤波信号获得)并且可以根据PIT系统通过PIT模型116估计考虑的分配。在一些示例中,PIT系统可以使用分配给帧或元帧的置换考虑的分配来追踪源流。在一些示例中,PIT系统可以通过如下来追踪源流:获得针对每个帧或者由帧间隔速率间隔的帧的置换考虑的分配,或者通过获得针对每个元帧或通过元帧间隔率彼此间隔的元帧的置换考虑的分配。在双源示例中,输出1O1可以分配给真正的源信号1|X1|,输出2O2可以分配给真正的源信号2|X2|以用于第一分配顺序,并且反向用于第二分配顺序。在产生两个以上源信号的一些示例中,可以维持置换考虑的分配表以相应地关联适当的输出和源。
在一些示例中,一旦针对每个元帧确定了输出和源流之间的关系,就可以估计分离的语音,同时考虑到针对所需的分离语音所需的多个元帧的置换考虑的分配(例如,在一些示例中的所有元帧)。例如,可以通过利用根据所考虑的置换考虑的帧的分配来利用归因于该源的所有帧来估计源的分离语音。在一些示例中,这意味着通过平滑一个或多个元帧的帧来估计分离的语音的帧,这取决于针对相应的帧的置换考虑的分配。在一些示例中,可以使用相邻输出元帧的总偏差来确定置换考虑的分配。在一些示例中,可以使用相邻输出元帧的总偏差和估计的源信号的嵌入的相似度得分来确定置换考虑的分配。在一些示例中,在相邻输出元帧之间计算嵌入。在一些示例中,相似度得分可以包括元帧的内容之间的余弦距离。在一些示例中,可以使用其他距离度量来确定相似度得分。
在一些示例中,为了实现这一点,PIT系统可以从对应于相同源的可用元帧中选择中心帧。在一些示例中,因为生成了估计和置换考虑的分配,PIT系统可以直接缝合元帧的输出。由于相同的帧包含在M个元帧中,因此在每次迭代中元帧被移位一帧的示例中,PIT系统可以对元帧进行平均以获得分离的语音。在这些示例中,PIT系统可以至少部分地基于感兴趣的帧到评估感兴趣的帧(即,M个元帧)的每个元帧的中心帧的距离来对平均值进行加权。
图3A描绘了具有两个信号源的示例场景的第一帧分配顺序,其中(多个)PIT模型116产生帧移位为1的估计的源信号(例如,根据以上讨论的任何技术产生帧窗口的估计)。在一些示例中,这些分配可用于缝合元帧的输出。注意,构成估计的源信号的窗口的五个帧被加阴影以表示当帧移位率为1时(多个)PIT模型116的估计迭代之间将重叠的帧。阴影的替代形式表示不同的数据。
图3B描绘了具有两个信号源的示例场景的第二帧分配顺序,其中(多个)PIT模型116根据上述任何技术产生帧移位为1的估计的源信号。在一些示例中,这些分配可用于缝合元帧的输出。第二个框架分配顺序有助于说明先前的解决方案的缺陷。对于时间t和时间t+1,先前的解决方案将输出1标记为对应于源1,即使该标签分配在时间t+1不准确,因为根据本文所讨论的技术时间t+1处的模型的输出1应该被分配给源2。注意,构成估计的源信号的窗口的五个帧被加阴影以表示当帧移位率为1时PIT模型116的估计迭代之间将重叠的帧。阴影的替代形式表示不同的数据。
示例流程
图4A-图8分别示出了示例过程400、500、600、700和800,其可以全部或部分地执行。这些过程可以但不必须由图1的示例设备100和/或在场景200中或在场景200的一部分中执行。
图4A和图4B描绘了进行诸如(多个)PIT模型116的神经网络的PIT的示例性过程400。
在402,根据本文所讨论的任何技术,PIT系统获得混合信号。在一些示例中,PIT系统可以从计算机可读介质110或从远程设备检索混合信号,或者PIT系统可以经由(多个)I/O接口122经由麦克风或其他I/O设备捕获混合信号。
在404,根据本文所讨论的技术中的任何技术,诸如(多个)PIT模型116的神经网络生成源信号估计。
在406,根据本文所讨论的技术中的任何技术,PIT系统标识信号源标签。在一些示例中,这是一个微不足道的步骤。在一些示例中,标签对应于多个估计的源信号。在一些示例中,标识信号源标签可以包括标识多个源信号。在一些示例中,标识信号源标签可以包括标识多个“讲话者”标签和多个“噪声”标签,这两个数字相加地等于估计的源信号的数目。
在408,根据本文所讨论的技术中的任何技术,PIT系统获得训练数据。例如,训练数据可包括空间滤波信号和/或真实的源信号。在一些示例中,PIT系统可以经由(多个)I/O接口112从麦克风阵列或从计算机可读介质110获得空间滤波信号。
在410,根据本文所讨论的技术中的任何技术,PIT系统计算个体估计与训练信号(例如,真实的源信号)之间的偏差。例如,这些偏差可以是估计的信号和真实的信号之间的误差(例如,距离)。
在412,根据本文所讨论的技术中的任何技术,PIT系统(例如,根据计算的偏差)计算针对可能的分配顺序的总偏差分数。
在414,PIT系统至少部分地基于所选择的分配顺序与最小总偏差相关联,从可能的分配顺序中选择分配顺序。在一些示例中,可以在个体估计的源信号和分配了个体估计的源信号的各个真实的源信号之间计算偏差,并且可以针对不同的可能的分配顺序对偏差进行总计。
在416,PIT系统修改神经网络的参数以最小化最小总偏差(例如,PIT系统训练神经网络具有最小化总偏差的训练目标)。
图5描绘了进行诸如(多个)PIT模型116的神经网络的PIT的示例性过程500。
在502,根据本文所讨论的技术中的任何技术,PIT系统通过神经网络从混合信号生成输出层,输出层是源信号的估计。
在504,根据本文所讨论的技术中的任何技术,PIT系统确定要分配给输出层的标签的分配顺序,个体标签与个体源信号相关联,并且分配顺序至少部分地基于个体输出层和个体源信号之间的最小总偏差分数。
在506,根据本文所讨论的任何技术,PIT系统优化神经网络的模型参数以最小化总偏差分数。
图6描绘了进行诸如(多个)PIT模型116的神经网络的示例性过程600。
在602,根据本文所讨论的技术中的任何技术,PIT系统通过神经网络并从单声道信号的帧的窗口生成可归因于对单声道信号有贡献的不同信号源的信号的估计。
在604,根据本文所讨论的技术中的任何技术,PIT系统至少部分地基于如下来确定将哪些个体信号源与个体估计相关联:与个体信号源相关联的训练数据和个体估计之间的最小总偏差。
在606,根据本文所讨论的技术中的任何技术,PIT系统修改神经网络的参数以减小最小总偏差。
图7描绘了进行诸如(多个)PIT模型116的神经网络的示例性过程700。
在702,根据本文所讨论的技术中的任何技术,PIT系统通过麦克风阵列捕获由源生成的信号以获得空间滤波的信号。
在704,根据本文所讨论的技术中的任何技术,PIT系统获得空间滤波的信号的单声道表示。
在706,根据本文所讨论的技术中的任何技术,PIT系统通过神经网络并且从单声道信号的帧的窗口生成由源生成的信号的估计。
在708,根据本文所讨论的技术中的任何技术,PIT系统标识表示源的标签。
在710,根据本文所讨论的技术中的任何技术,PIT系统至少部分地基于个体估计与空间滤波的信号之间的最小差来确定标签中的哪个标签与个体估计相关联。
在712,根据本文所讨论的技术中的任何技术,PIT系统修改神经网络的参数以减小最小总偏差。
图8描绘了进行PIT语音分离的示例性过程800。
在802,根据本文所讨论的技术中的任何技术,PIT系统通过神经网络并从单声道信号的帧的窗口生成可归因于对单声道信号有贡献的不同信号源的信号的估计。
在804,根据本文所讨论的技术中的任何技术,PIT系统确定分配模式,分配模式至少部分地基于与个体信号源相关联的训练数据与个体估计之间的最小总偏差来限定哪个个体信号源与个体估计相关联。
在806,根据本文所讨论的任何技术,PIT系统至少部分地基于分配模式来分离可归因于个体信号源中的一个个体信号源的信道。
在808,根据本文所讨论的任何技术,PIT系统至少部分地基于与多个帧相关联的分配模式,追踪在单声道信号的多个帧中的讲话者或噪声。
示例条款
A.一种训练用于从混合信号中分离源信号的模型的方法,包括:通过模型,从混合信号生成输出层,输出层是所述源信号的估计;确定要分配给输出层的标签的分配顺序,个体标签与个体源信号相关联,并且分配顺序被至少部分地基于个体输出层和个体源信号之间的最小总偏差分数;和优化模型的模型参数以最小化所确定的分配顺序的总偏差分数。
B.如段落A所述的方法,其中确定标签的分配顺序包括:计算个体输出层和源信号之间的一组成对偏差;计算针对可能的分配顺序的总偏差分数,针对可能的分配顺序的总偏差分数包括个体输出层和根据可能的分配顺序与个体输出层相对应的个体源信号的相应对之间的成对偏差的总和;和至少部分地基于与分配顺序相关联的总偏差分数是总偏差分数中的最小总偏差分数,从可能的分配顺序中选择分配顺序。
C.如段落B或C所述的方法,其中成对偏差包括个体输出层与所述源信号中的一个或多个源信号之间的均方误差。
D.如段落A至C中任一段所述的方法,针对分配顺序的总偏差分数包括个体输出源和根据分配顺序与个体输出源相关联的个体源信号之间的总均方误差。
E.如段落A至D中任一段所述的方法,其中针对个体输出层的两帧或更多帧以及源信号的两帧或更多帧计算成对偏差。
F.如段落A至E中任一段所述的方法,其中将个体标签分配给个体输出层将输出层归因于源信号的个体源信号的源。
G.如段落A至F中任一段所述的方法,其中模型使用混合信号的两帧或更多帧或混合信号的特征信号的两帧或更多帧来获得输出层。
H.如段落A至G中任一段所述的方法,进一步包括:将混合信号的当前窗口移位一帧或多帧以获得相邻窗口,其中相邻窗口和当前窗口具有重叠帧;并且至少部分地基于与最小总偏差分数相关联的分配顺序来选择针对相邻窗口的分配顺序。
I.如段落A-H中任一段所述的方法,进一步包括:选择针对混合信号、输出层和源信号的多个窗口的分配顺序;记录针对多个窗口的分配顺序;和至少部分地基于针对多个窗口的分配顺序的记录,通过混合信号的多个帧追踪可归因于信号产生源的源信号。
J.如段落A-I中任一段所述的方法,其中追踪可归因于信号产生源的源信号包括:标识被包括在窗口中的所述混合信号的所述多个帧的帧的子集,所述窗口具有通过相应的分配顺序与所述源信号相关联的中心帧。
K.如段落A-J中任一段落所述的方法,进一步包括:获得与输出层的第一元帧相关联的第一最小总偏差;获得与输出层的第二元帧相关联的第二最小总偏差;计算输出层的嵌入的相似度分数;和至少部分地基于第一最小总偏差或者第二最小总偏差和相似度分数来确定针对第一元帧或者第一元帧的中心帧的分配顺序。
L.如段落A-K中任一段所述的方法,其中输出层包括:源信号的增量表示的估计,源信号的频谱幅度的估计或者源信号的频谱的估计中的一个或多个估计;并且如段落A所述的方法,还包括:至少部分地基于增量表示的所述估计,通过混合信号的多个帧追踪可归因于源信号的源。
M.如段落A-L中任一段所述的方法,进一步包括:至少部分地基于针对混合信号、输出层和源信号的多个帧的分配顺序来估计分离的源信号,其中估计包括:对于可归因于所述源信号的第一信号的信号源,基于与第一信号相关联的多个帧的帧的子集的相应的置换考虑的分配顺序,标识所述帧的子集;和将所述帧的子集与所述信号源相关联以获得可归因于所述第一信号的源的分离信号源。
N.如段落A-M中任一段所述的方法,进一步包括:通过麦克风阵列对混合信号进行空间滤波以获得信号源并且标识信号产生源;和至少部分地基于经空间滤波的信号源来联合优化所述模型。
O.一种系统,包括:一个或多个处理器;模型;存储有计算机可执行指令的存储器,计算机可执行指令当由所述一个或多个处理器执行时,将处理器配置为:通过模型并且从单声道信号的帧的窗口生成可归因于对单声道信号有贡献的不同信号源的信号的估计;至少部分地基于如下来确定将哪些个体信号源与个体估计相关联:与个体信号源相关联的训练数据和个体估计之间的最小总偏差;和修改所述模型的参数以减少所述最小总偏差。
P.如段落O所述的系统,其中一个或多个处理器中的至少一个处理器是专用处理单元,专用处理单元包括以下中的一个或多个:图形处理单元;或者集成电路;并且其中专用处理单元被配置为模型以生成信号的估计。
Q.如段落O或P的系统所述,处理器还被配置为:将混合信号的当前窗口移位一个或多个帧以获得相邻窗口,其中相邻窗口和当前窗口具有重叠帧;并且至少部分地基于与最小总误差分数相关联的分配顺序或针对相邻窗口和当前窗口的重叠部分的相似度分数来选择相邻窗口的分配顺序。
R.如段落O-Q中任一段落所述的系统,处理器还被配置为至少部分地基于针对当前窗口和相邻窗口的分配顺序来估计分离的源信号。
S.一种方法,包括:通过模型并且从单声道信号的帧的窗口生成可归因于对单声道信号有贡献的不同信号源的信号的估计;确定针对估计的分配模式,分配模式至少部分地基于如下来限定哪些个体信号源与哪些个体估计相关联:与个体信号源相关联的训练数据和所述个体估计之间的最小总成对偏差;和至少部分地基于分配模式来分离可归因于个体信号源中的一个个体信号源的信道。
T.如段落S所述的方法,进一步包括:至少部分地基于与多个帧相关联的分配模式,在单声道信号的多个帧中追踪讲话者或噪声。
U.如段落S或T所述的方法,进一步包括:修改模型的参数以减少训练数据与估计之间的最小总成对偏差。
V.如段落S-U中任一段所述的方法,其中分离可归因于个体信号源之一的信道包括:标识与个体信号源中的一个个体源信号相对应的单声道信号的帧的子集;帧的子集包括与在窗口上的平均分配相关联的帧,包含与个体源信号中的一个个体源信号相对应的帧;并且将帧的子集与个体信号源中的一个个体源信号相关联,以获得可归因于个体信号源中的一个个体源信号的信道。
结论
尽管用结构特征和/或方法动作专用的语言描述了本主题,但应理解,所附权利要求中限定的主题不必限于所描述的具体特征或动作。而是,公开了具体特征和动作作为实现权利要求的示例形式。
本文描述的模块表示可以存储在任何类型的计算机可读介质中并且可以以软件和/或硬件实现的指令。上述所有方法和过程可以通过由一个或多个计算机或处理器、硬件或其某种组合执行的软件代码模块和/或计算机可执行指令来体现并且完全自动化。可选地,方法中的一些或者全部可以体现在专用计算机硬件中。
除非另外特别说明,否则诸如“可(can)”、“可以(could)”、“可能(may)”或“会(might)”之类的条件语言在上下文中被理解为表示某些示例包括某些特征、元素和/或步骤,而其他示例不包括。因此,这种条件语言通常不旨在暗示某些特征、元素和/或步骤对于一个或多个示例是以任何方式所需的,或者一个或多个示例必须包括用于在有或没有用户输入或提示的情况下决定的逻辑,在任何特定示例中是否包括或将要执行某些特征、元素和/或步骤。
除非另有明确说明,否则诸如短语“X、Y或Z中的至少一个”的联合语言应被理解为表示项、术语等,联合语言可以是X、Y或Z或其任何组合。除非明确描述为单数,否则“一(a)”表示单数和复数。
本文描述和/或附图中描绘的流程图中的任何例程描述、元素或块应当被理解为潜在地表示包括用于实现例程中的特定逻辑函数或元素的一个或多个计算机可执行指令的模块、片段或代码部分。替换实现包括在本文描述的示例的范围内,其中元素或功能可以被删除,或者从示出或讨论的顺序执行,包括基本上同步或相反的顺序,这取决于所涉及的功能,如本领域技术人员将理解的。
应该强调的是,可以对上述示例进行许多变化和修改,其中的元素应被理解为是其他可接受的示例。所有这些修改和变化旨在包括在本公开的范围内并且由所附权利要求保护。
Claims (20)
1.一种从具有音频源信号和噪声源信号的第一混合信号分离两个或更多个源信号的方法,所述方法包括:
从第二混合信号生成输出层,所述输出层是所述第二混合信号中的音频源信号的估计;
生成多个标签,其中所述多个标签的总数目等于所述输出层的总数目;
迭代地将所述多个标签分配给所述输出层以用于标签和输出层的可能组合,以创建一组可能分配,所述一组可能分配中的每个可能分配与标签和输出层的组合相对应;
获得多个空间滤波信号,其中空间滤波信号的总数目等于所述多个标签的所述总数目;
确定针对所述一组可能分配中的每个可能分配的分配误差分数,至少部分地基于针对相应的可能分配的相应的输出层的多个标签中的标签与所述多个空间滤波信号之间的差来确定所述分配误差分数;
确定要分配给所述输出层的标签的分配顺序,个体标签与个体音频源信号相关联,并且所述分配顺序至少部分地基于个体输出层和所述个体音频源信号之间的最小总偏差分数,其中所述最小总偏差分数是所述分配误差分数中的最低分配误差分数;
通过迭代地优化模型的模型参数来生成一组掩码,以最小化所确定的所述分配顺序的所述最小总偏差分数;以及
通过使用所述一组掩码从所述第一混合信号生成所述两个或更多个音频源信号,所述两个或更多个音频源信号的所述源与所述第二混合信号中的所述音频源信号的源不同。
2.根据权利要求1所述的方法,其中确定所述标签的所述分配顺序包括:
计算所述个体输出层和所述音频源信号之间的一组成对偏差;
计算针对可能的分配顺序的总偏差分数,针对可能的分配顺序的总偏差分数包括所述个体输出层和根据所述可能的分配顺序与所述个体输出层相对应的所述个体音频源信号的相应对之间的所述成对偏差的总和;以及
至少部分地基于与所述分配顺序相关联的总偏差分数是所述总偏差分数中的最小总偏差分数,从所述可能的分配顺序中选择所述分配顺序。
3.根据权利要求2所述的方法,针对分配顺序的所述总偏差分数包括个体输出源和根据所述分配顺序与个体输出音频源相关联的所述个体音频源信号之间的总均方误差。
4.根据权利要求1所述的方法,其中将个体标签分配给个体输出层将所述个体输出层归因于所述音频源信号的个体音频源信号的源。
5.根据权利要求1所述的方法,其中所述模型使用所述混合信号的两帧或更多帧或者所述第二混合信号的特征信号的两帧或更多帧来获得所述输出层。
6.根据权利要求1所述的方法,还包括:
将所述第二混合信号的当前窗口移位一帧或多帧以获得相邻窗口,其中所述相邻窗口和所述当前窗口具有重叠帧;以及
至少部分地基于所述分配顺序与最小总偏差分数相关联来选择针对所述相邻窗口的分配顺序。
7.根据权利要求1所述的方法,还包括:
选择针对所述第二混合信号、输出层和音频源信号的多个窗口的分配顺序;
记录针对所述多个窗口的所述分配顺序;以及
至少部分地基于针对所述多个窗口的分配顺序的记录,追踪所述第二混合信号的多个帧中的可归因于信号产生音频源的源信号。
8.根据权利要求7所述的方法,其中追踪可归因于信号产生音频源的所述音频源信号包括:
标识被包括在具有通过相应的分配顺序与所述音频源信号相关联的中心帧的窗口中的所述第二混合信号的所述多个帧中的帧的子集。
9.根据权利要求8所述的方法,还包括:
获得与所述输出层的第一元帧相关联的第一最小总偏差;
获得与所述输出层的第二元帧相关联的第二最小总偏差;
计算所述输出层的嵌入的相似度分数;以及
至少部分地基于所述第一最小总偏差或者所述第二最小总偏差和所述相似度分数来确定针对所述第一元帧或者所述第一元帧的中心帧的分配顺序。
10.根据权利要求1所述的方法,所述输出层包括:
源信号的增量表示的估计,以及
所述源信号的频谱幅度的估计或者所述源信号的频谱的估计中的一个或多个估计;并且
根据权利要求1所述的方法,还包括:至少部分地基于所述增量表示的所述估计来追踪所述第二混合信号的多个帧中的可归因于所述源信号的源。
11.根据权利要求1所述的方法,还包括:
至少部分地基于针对所述第二混合信号、输出层和音频源信号的多个帧的分配顺序来估计分离的音频源信号,其中估计包括:
对于可归因于所述音频源信号的第一信号的信号源,基于与所述第一信号相关联的所述多个帧的帧的子集的相应的置换考虑的分配顺序,标识所述帧的子集;以及
将所述帧的子集与信号音频源相关联以获得可归因于所述第一信号的源的分离的信号音频源。
12.根据权利要求1所述的方法,还包括:
通过麦克风阵列对所述混合信号进行空间滤波以获得信号音频源并且标识信号产生音频源;以及
至少部分地基于经空间滤波的所述信号音频源来联合优化所述模型。
13.一种用于从具有音频源信号和噪声源信号的第一单声道信号分离两个或更多个音频源信号的系统,所述系统包括:
一个或多个处理器;以及
其上存储有计算机可执行指令的存储器,所述计算机可执行指令当由所述一个或多个处理器执行时,将所述处理器配置为:
从第二单声道信号的帧的窗口生成可归因于对所述第二单声道信号有贡献的不同音频信号源的音频源信号的估计;
生成多个标签,其中所述多个标签的总数目等于所述不同音频信号源的总数目;
迭代地将所述多个标签分配给所述不同音频信号源以用于标签和不同音频信号源的全部可能组合,以创建一组可能分配,所述一组可能分配中的每个可能分配与标签和不同音频信号源的组合相对应;
获得多个空间滤波信号,其中空间滤波信号的总数目等于所述多个标签的所述总数目;
确定针对所述一组可能分配中的每个可能分配的分配误差分数,至少部分地基于针对相应的可能分配的相应的输出层的多个标签中的标签与所述多个空间滤波信号之间的差来确定所述分配误差分数;
至少部分地基于如下来确定哪些个体音频信号源将与个体估计相关联:与所述个体音频信号源相关联的训练数据和所述个体估计之间的最小总偏差,其中所述最小总偏差分数是所述分配误差分数中的最低分配误差;
通过迭代地修改模型的参数来生成一组掩码,以减少所述最小总偏差;以及
通过使用所述一组掩码从所述第一单声道信号生成所述两个或更多个音频源信号,所述两个或更多个音频源信号的所述源与所述第二单声道信号中的所述音频源信号的源不同。
14.根据权利要求13所述的系统,其中所述一个或多个处理器中的至少一个处理器是图形处理单元;并且
其中所述图形处理单元被配置为运行所述模型以生成所述音频源信号的所述估计。
15.根据权利要求13所述的系统,所述处理器还被配置为:
将混合信号的当前窗口移位一帧或多帧以获得相邻窗口,其中所述相邻窗口和所述当前窗口具有重叠帧;以及
至少部分地基于针对所述相邻窗口的分配顺序与最小总误差分数相关联或针对所述相邻窗口和所述当前窗口的重叠部分的相似度分数来选择所述分配顺序。
16.根据权利要求13所述的系统,所述处理器还被配置为至少部分地基于针对当前窗口和相邻窗口的分配顺序来估计分离的音频源信号。
17.一种用于从具有音频源信号和噪声源信号的第一单声道信号分离两个或更多个音频源信号的方法,所述方法包括:
从第二单声道信号的帧的窗口生成可归因于对所述第二单声道信号有贡献的不同音频信号源的音频源信号的估计;
生成多个标签,其中所述多个标签的总数目等于所述不同音频信号源的总数目;
迭代地将所述多个标签分配给所述不同音频信号源以用于标签和不同音频信号源的可能组合,以创建一组可能分配,所述一组可能分配中的每个可能分配与标签和不同音频信号源的组合相对应;
获得多个空间滤波信号,其中空间滤波信号的总数目等于所述多个标签的所述总数目;
确定针对所述一组可能分配中的每个可能分配的分配误差分数,至少部分地基于针对相应的可能分配的相应的输出层的多个标签中的标签与所述多个空间滤波信号之间的差来确定所述分配误差分数;
确定针对所述估计的分配模式,所述分配模式至少部分地基于如下来限定哪些个体音频信号源与哪些个体估计相关联:与所述个体音频信号源相关联的训练数据和所述个体估计之间的最小总成对偏差,其中所述最小总成对偏差是所述分配误差分数中的最低分配误差分数;
通过迭代地修改模型的参数来生成一组掩码,以减少最小总偏差;以及
通过使用所述一组掩码从所述第一单声道信号生成所述两个或更多个音频源信号,所述两个或更多个音频源信号的所述源与所述第二单声道信号中的所述音频源信号的源不同。
18.根据权利要求17所述的方法,还包括:
通过至少部分地基于与所述多个帧相关联的分配模式,追踪所述第一单声道信号的多个帧中的讲话者或噪声。
19.根据权利要求17所述的方法,还包括:
使用所确定的所述分配模式,至少部分地基于所述分配模式来分离可归因于所述个体音频信号源中的一个个体音频信号源的信道。
20.根据权利要求19所述的方法,其中分离可归因于所述个体音频信号源中的一个个体音频信号源的所述信道包括:
标识与所述个体音频信号源中的所述一个个体音频信号源相对应的所述单声道信号的帧的子集,所述帧的子集包括与在包含帧的窗口上的分配的平均相关联的帧,所述平均与所述个体音频信号源中的所述一个个体音频信号源相对应;以及
将所述帧的子集与所述个体音频信号源中的所述一个个体音频源信号相关联,以获得可归因于所述个体音频信号源中的所述一个个体音频源信号的所述信道。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662339061P | 2016-05-19 | 2016-05-19 | |
US62/339,061 | 2016-05-19 | ||
US15/226,527 | 2016-08-02 | ||
US15/226,527 US10249305B2 (en) | 2016-05-19 | 2016-08-02 | Permutation invariant training for talker-independent multi-talker speech separation |
PCT/US2017/031473 WO2017200782A1 (en) | 2016-05-19 | 2017-05-06 | Permutation invariant training for talker-independent multi-talker speech separation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109313910A CN109313910A (zh) | 2019-02-05 |
CN109313910B true CN109313910B (zh) | 2023-08-29 |
Family
ID=58800898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780030696.4A Active CN109313910B (zh) | 2016-05-19 | 2017-05-06 | 用于讲话者无关的多讲话者语音分离的置换不变训练 |
Country Status (4)
Country | Link |
---|---|
US (2) | US10249305B2 (zh) |
EP (1) | EP3459077B1 (zh) |
CN (1) | CN109313910B (zh) |
WO (1) | WO2017200782A1 (zh) |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
KR102692670B1 (ko) * | 2017-01-04 | 2024-08-06 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US11810579B2 (en) * | 2017-05-24 | 2023-11-07 | Neuropath Sprl | Systems and methods for tracking biomarkers in subjects |
CN108109619B (zh) * | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
US10713563B2 (en) * | 2017-11-27 | 2020-07-14 | Technische Universiteit Eindhoven | Object recognition using a convolutional neural network trained by principal component analysis and repeated spectral clustering |
CN108198569B (zh) * | 2017-12-28 | 2021-07-16 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
TWI651927B (zh) * | 2018-02-14 | 2019-02-21 | National Central University | 訊號源分離方法及訊號源分離裝置 |
US10699697B2 (en) * | 2018-03-29 | 2020-06-30 | Tencent Technology (Shenzhen) Company Limited | Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition |
US10699698B2 (en) * | 2018-03-29 | 2020-06-30 | Tencent Technology (Shenzhen) Company Limited | Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition |
US10957337B2 (en) | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
WO2019198306A1 (ja) * | 2018-04-12 | 2019-10-17 | 日本電信電話株式会社 | 推定装置、学習装置、推定方法、学習方法及びプログラム |
US10811000B2 (en) * | 2018-04-13 | 2020-10-20 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for recognizing simultaneous speech by multiple speakers |
CN112805780B (zh) * | 2018-04-23 | 2024-08-09 | 谷歌有限责任公司 | 使用端到端模型的讲话者分割 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10699700B2 (en) * | 2018-07-31 | 2020-06-30 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
WO2020039571A1 (ja) | 2018-08-24 | 2020-02-27 | 三菱電機株式会社 | 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN109379311B (zh) * | 2018-09-30 | 2021-08-17 | 中国人民解放军战略支援部队信息工程大学 | 基于卷积神经网络的超短波特定信号识别方法 |
US11475898B2 (en) * | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11217254B2 (en) * | 2018-12-24 | 2022-01-04 | Google Llc | Targeted voice separation by speaker conditioned on spectrogram masking |
CN109859770A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 音乐分离方法、装置及计算机可读存储介质 |
US11264029B2 (en) | 2019-01-05 | 2022-03-01 | Starkey Laboratories, Inc. | Local artificial intelligence assistant system with ear-wearable device |
US11264035B2 (en) * | 2019-01-05 | 2022-03-01 | Starkey Laboratories, Inc. | Audio signal processing for automatic transcription using ear-wearable device |
US11031017B2 (en) * | 2019-01-08 | 2021-06-08 | Google Llc | Fully supervised speaker diarization |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN110010148B (zh) * | 2019-03-19 | 2021-03-16 | 中国科学院声学研究所 | 一种低复杂度的频域盲分离方法及系统 |
CN110459238B (zh) * | 2019-04-12 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及相关设备 |
US10885345B2 (en) * | 2019-04-29 | 2021-01-05 | Tencent America LLC | End-to-end video captioning with multi-task reinforcement learning |
US11138980B2 (en) * | 2019-04-30 | 2021-10-05 | Microsoft Technology Licensing, Llc | Processing overlapping speech from distributed devices |
CN110007265A (zh) * | 2019-04-30 | 2019-07-12 | 哈尔滨工业大学 | 一种基于深度神经网络的波达方向估计方法 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN112185411B (zh) * | 2019-07-03 | 2024-08-06 | 南京人工智能高等研究院有限公司 | 语音分离方法、装置、介质和电子设备 |
WO2021071489A1 (en) * | 2019-10-10 | 2021-04-15 | Google Llc | Targeted voice separation by speaker for speech recognition |
CN110970056B (zh) * | 2019-11-18 | 2022-03-11 | 清华大学 | 一种从视频中分离音源的方法 |
CN110970053B (zh) * | 2019-12-04 | 2022-03-15 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
CN111063341B (zh) * | 2019-12-31 | 2022-05-06 | 思必驰科技股份有限公司 | 复杂环境中多人语音的分割聚类方法及系统 |
US11521595B2 (en) * | 2020-05-01 | 2022-12-06 | Google Llc | End-to-end multi-talker overlapping speech recognition |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
CN111583954B (zh) * | 2020-05-12 | 2021-03-30 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112151036B (zh) * | 2020-09-16 | 2021-07-30 | 科大讯飞(苏州)科技有限公司 | 基于多拾音场景的防串音方法、装置以及设备 |
CN113129920B (zh) * | 2021-04-15 | 2021-08-17 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于u型网络和音频指纹的音乐与人声分离方法 |
CN113380270B (zh) * | 2021-05-07 | 2024-03-29 | 普联国际有限公司 | 一种音频音源分离方法、装置、存储介质及电子设备 |
CN113707172B (zh) * | 2021-06-02 | 2024-02-09 | 西安电子科技大学 | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 |
CN113362831A (zh) * | 2021-07-12 | 2021-09-07 | 科大讯飞股份有限公司 | 一种说话人分离方法及其相关设备 |
CN114005453A (zh) * | 2021-11-02 | 2022-02-01 | 北京百度网讯科技有限公司 | 模型训练方法、声纹特征的提取方法及其设备、程序产品 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997005730A1 (en) * | 1995-07-27 | 1997-02-13 | British Telecommunications Public Limited Company | Assessment of signal quality |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN102254556A (zh) * | 2010-05-17 | 2011-11-23 | 阿瓦雅公司 | 基于听者和说者的讲话风格比较估计听者理解说者的能力 |
CN103688272A (zh) * | 2011-03-03 | 2014-03-26 | 赛弗有限责任公司 | 用于数据内的共同元素的自主检测和分离的系统以及与之关联的方法和设备 |
US8898056B2 (en) * | 2006-03-01 | 2014-11-25 | Qualcomm Incorporated | System and method for generating a separated signal by reordering frequency components |
CN105229725A (zh) * | 2013-03-11 | 2016-01-06 | 微软技术许可有限责任公司 | 多语言深神经网络 |
WO2016039751A1 (en) * | 2014-09-11 | 2016-03-17 | Nuance Communications, Inc. | Method for scoring in an automatic speech recognition system |
EP3011286A1 (en) * | 2013-06-21 | 2016-04-27 | Brüel & Kjaer Sound & Vibration Measurement A/S | Method of determining noise sound contributions of noise sources of a motorized vehicle |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5150323A (en) | 1989-08-11 | 1992-09-22 | Hughes Aircraft Company | Adaptive network for in-band signal separation |
DE20016999U1 (de) | 1999-10-14 | 2001-01-25 | Kiwitz, André, 27570 Bremerhaven | Vorrichtung zur Geräuscherkennung und -trennung sowie Lärmüberwachung von Lärmemmissionsgebieten und als Windkraftüberwachungsanlage |
GB0003571D0 (en) * | 2000-02-17 | 2000-04-05 | Secr Defence Brit | Signal processing technique |
KR20050115857A (ko) | 2002-12-11 | 2005-12-08 | 소프트맥스 인코퍼레이티드 | 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법 |
US7454333B2 (en) | 2004-09-13 | 2008-11-18 | Mitsubishi Electric Research Lab, Inc. | Separating multiple audio signals recorded as a single mixed signal |
US7464029B2 (en) | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
US20070083365A1 (en) | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
US8874439B2 (en) * | 2006-03-01 | 2014-10-28 | The Regents Of The University Of California | Systems and methods for blind source signal separation |
US7664643B2 (en) | 2006-08-25 | 2010-02-16 | International Business Machines Corporation | System and method for speech separation and multi-talker speech recognition |
WO2008155919A1 (ja) * | 2007-06-21 | 2008-12-24 | Panasonic Corporation | 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 |
JP4294724B2 (ja) * | 2007-08-10 | 2009-07-15 | パナソニック株式会社 | 音声分離装置、音声合成装置および声質変換装置 |
US8175871B2 (en) * | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
KR101434200B1 (ko) * | 2007-10-01 | 2014-08-26 | 삼성전자주식회사 | 혼합 사운드로부터의 음원 판별 방법 및 장치 |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
DE602008002695D1 (de) * | 2008-01-17 | 2010-11-04 | Harman Becker Automotive Sys | Postfilter für einen Strahlformer in der Sprachverarbeitung |
US8503653B2 (en) * | 2008-03-03 | 2013-08-06 | Alcatel Lucent | Method and apparatus for active speaker selection using microphone arrays and speaker recognition |
US8249168B2 (en) * | 2008-11-06 | 2012-08-21 | Advanced Micro Devices, Inc. | Multi-instance video encoder |
US20100174389A1 (en) * | 2009-01-06 | 2010-07-08 | Audionamix | Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation |
US8473287B2 (en) * | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8712069B1 (en) * | 2010-04-19 | 2014-04-29 | Audience, Inc. | Selection of system parameters based on non-acoustic sensor information |
US8775341B1 (en) * | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US10726861B2 (en) * | 2010-11-15 | 2020-07-28 | Microsoft Technology Licensing, Llc | Semi-private communication in open environments |
CN102169690A (zh) | 2011-04-08 | 2011-08-31 | 哈尔滨理工大学 | 基于表面肌电信号的语音信号识别系统和识别方法 |
US9679564B2 (en) | 2012-12-12 | 2017-06-13 | Nuance Communications, Inc. | Human transcriptionist directed posterior audio source separation |
US9570093B2 (en) * | 2013-09-09 | 2017-02-14 | Huawei Technologies Co., Ltd. | Unvoiced/voiced decision for speech processing |
EP2922056A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
US9390712B2 (en) | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
US9881631B2 (en) | 2014-10-21 | 2018-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Method for enhancing audio signal using phase information |
US20170061978A1 (en) | 2014-11-07 | 2017-03-02 | Shannon Campbell | Real-time method for implementing deep neural network based speech separation |
US9576583B1 (en) * | 2014-12-01 | 2017-02-21 | Cedar Audio Ltd | Restoring audio signals with mask and latent variables |
US10339921B2 (en) * | 2015-09-24 | 2019-07-02 | Google Llc | Multichannel raw-waveform neural networks |
US10347271B2 (en) | 2015-12-04 | 2019-07-09 | Synaptics Incorporated | Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network |
US10492008B2 (en) * | 2016-04-06 | 2019-11-26 | Starkey Laboratories, Inc. | Hearing device with neural network-based microphone signal processing |
WO2017218492A1 (en) | 2016-06-14 | 2017-12-21 | The Trustees Of Columbia University In The City Of New York | Neural decoding of attentional selection in multi-speaker environments |
US10460727B2 (en) | 2017-03-03 | 2019-10-29 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
US11133011B2 (en) | 2017-03-13 | 2021-09-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for multichannel end-to-end speech recognition |
US10957337B2 (en) | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
US10573301B2 (en) | 2018-05-18 | 2020-02-25 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
US11089402B2 (en) | 2018-10-19 | 2021-08-10 | Bose Corporation | Conversation assistance audio device control |
-
2016
- 2016-08-02 US US15/226,527 patent/US10249305B2/en active Active
-
2017
- 2017-05-06 CN CN201780030696.4A patent/CN109313910B/zh active Active
- 2017-05-06 EP EP17726742.4A patent/EP3459077B1/en active Active
- 2017-05-06 WO PCT/US2017/031473 patent/WO2017200782A1/en unknown
-
2019
- 2019-02-28 US US16/289,403 patent/US11170785B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997005730A1 (en) * | 1995-07-27 | 1997-02-13 | British Telecommunications Public Limited Company | Assessment of signal quality |
US8898056B2 (en) * | 2006-03-01 | 2014-11-25 | Qualcomm Incorporated | System and method for generating a separated signal by reordering frequency components |
CN102254556A (zh) * | 2010-05-17 | 2011-11-23 | 阿瓦雅公司 | 基于听者和说者的讲话风格比较估计听者理解说者的能力 |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN103688272A (zh) * | 2011-03-03 | 2014-03-26 | 赛弗有限责任公司 | 用于数据内的共同元素的自主检测和分离的系统以及与之关联的方法和设备 |
CN105229725A (zh) * | 2013-03-11 | 2016-01-06 | 微软技术许可有限责任公司 | 多语言深神经网络 |
EP3011286A1 (en) * | 2013-06-21 | 2016-04-27 | Brüel & Kjaer Sound & Vibration Measurement A/S | Method of determining noise sound contributions of noise sources of a motorized vehicle |
WO2016039751A1 (en) * | 2014-09-11 | 2016-03-17 | Nuance Communications, Inc. | Method for scoring in an automatic speech recognition system |
Non-Patent Citations (1)
Title |
---|
Joint Optimization of Masks and Deep Recurrent Neural Networks for Monaural Source Separation;Po-Sen Huang 等;《 IEEE/ACM Transactions on Audio, Speech, and Language Processing》;20151231;第23卷(第12期);第2136–2147页 * |
Also Published As
Publication number | Publication date |
---|---|
US20190198024A1 (en) | 2019-06-27 |
EP3459077B1 (en) | 2023-11-22 |
EP3459077A1 (en) | 2019-03-27 |
US11170785B2 (en) | 2021-11-09 |
US20170337924A1 (en) | 2017-11-23 |
US10249305B2 (en) | 2019-04-02 |
WO2017200782A1 (en) | 2017-11-23 |
CN109313910A (zh) | 2019-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109313910B (zh) | 用于讲话者无关的多讲话者语音分离的置换不变训练 | |
US10699697B2 (en) | Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition | |
US10902843B2 (en) | Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier | |
US10460727B2 (en) | Multi-talker speech recognizer | |
Li et al. | Large-scale domain adaptation via teacher-student learning | |
WO2020024646A1 (en) | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks | |
US10249292B2 (en) | Using long short-term memory recurrent neural network for speaker diarization segmentation | |
US10726326B2 (en) | Learning of neural network | |
Tong et al. | A comparative study of robustness of deep learning approaches for VAD | |
KR102294638B1 (ko) | 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 | |
EP3123466A1 (en) | Mixed speech recognition | |
WO2020214297A1 (en) | Speech extraction using attention network | |
Nwe et al. | Speaker clustering and cluster purification methods for RT07 and RT09 evaluation meeting data | |
Picheny et al. | Trends and advances in speech recognition | |
JP2024050983A (ja) | 自動音声認識のための多言語再スコアリングモデル | |
CN116348953A (zh) | 用于源分离的帧级置换不变训练 | |
Shi et al. | Casa-asr: Context-aware speaker-attributed asr | |
Tao | Audiovisual speech activity detection with advanced long short-term memory | |
Liang et al. | The Second Multi-Channel Multi-Party Meeting Transcription Challenge (M2MeT 2.0): A Benchmark for Speaker-Attributed ASR | |
Motlicek et al. | Real‐Time Audio‐Visual Analysis for Multiperson Videoconferencing | |
JP2016080832A (ja) | 学習データ生成装置及びそのプログラム | |
Audhkhasi et al. | Empirical link between hypothesis diversity and fusion performance in an ensemble of automatic speech recognition systems. | |
Kynych et al. | A Lightweight Approach to Real-Time Speaker Diarization: From Audio Toward Audio-Visual Data Streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |