CN113380268A - 模型训练的方法、装置和语音信号的处理方法、装置 - Google Patents

模型训练的方法、装置和语音信号的处理方法、装置 Download PDF

Info

Publication number
CN113380268A
CN113380268A CN202110921714.6A CN202110921714A CN113380268A CN 113380268 A CN113380268 A CN 113380268A CN 202110921714 A CN202110921714 A CN 202110921714A CN 113380268 A CN113380268 A CN 113380268A
Authority
CN
China
Prior art keywords
data set
model
training
real data
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110921714.6A
Other languages
English (en)
Inventor
龚亚光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110921714.6A priority Critical patent/CN113380268A/zh
Publication of CN113380268A publication Critical patent/CN113380268A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本公开涉及一种模型训练的方法、装置和语音信号的处理方法、装置,涉及计算机技术领域。该模型训练的方法包括:利用教师模型对第一真实数据集合中的混合语音信号进行语音分离处理,第一真实数据集合中的混合语音信号不具有标签,教师模型利用第一合成数据集合进行训练,第一合成数据集合中的混合语音信号具有标签;根据语音分离处理结果,生成第一真实数据集合中的混合语音信号的标签;根据第一真实数据集合及其对应的标签、第一合成数据集合及其对应的标签,训练用于进行语音分离处理的第一学生模型;利用训练后的第一学生模型,重新训练教师模型,直至满足训练结束条件。

Description

模型训练的方法、装置和语音信号的处理方法、装置
技术领域
本公开涉及计算机技术领域,特别涉及一种模型训练的方法、模型训练的装置、语音信号的处理方法、语音信号的处理装置和非易失性计算机可读存储介质。
背景技术
语音分离技术是音频领域一个由来已久的研究方向。人脑能够在嘈杂的环境中提取感兴趣的声音来源,屏蔽其他噪声的干扰,这被称作鸡尾酒会效应。如何让机器也能具有人脑的选择性,能从混合的音频中分离出单独每一路原始音频,这就是语音分离技术所解决的问题。
例如,可以通过波束形成算法,利用麦克风阵列的空间信息对来自不同方向的声源进行分离;也可以采用独立成分分析、非负矩阵分解等信号处理算法实现语音分离。随着技术和算力的发展,利用各种深度神经网络进行语音分离取得了不错的效果提升。
在相关技术中,利用大量具有标签(label)的人工合成数据训练用于语音分离的深度神经网络。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:无法对真实数据进行准确的语音分离处理,导致语音分离效果下降。
鉴于此,本公开提出了一种机器学习模型的训练技术方案,能够提高语音分离效果。
根据本公开的一些实施例,提供了一种模型训练的方法,包括:利用教师模型对第一真实数据集合中的混合语音信号进行语音分离处理,第一真实数据集合中的混合语音信号不具有标签,教师模型利用第一合成数据集合进行训练,第一合成数据集合中的混合语音信号具有标签;根据语音分离处理结果,生成第一真实数据集合中的混合语音信号的标签;根据第一真实数据集合及其对应的标签、第一合成数据集合及其对应的标签,训练用于进行语音分离处理的第一学生模型;利用训练后的第一学生模型,重新训练教师模型,直至满足训练结束条件。
在一些实施例中,利用训练后的第一学生模型,重新训练教师模型包括:根据训练后的第一学生模型的参数,更新教师模型的参数。
在一些实施例中,根据第一真实数据集合及其对应的标签、第一合成数据集合及其对应的标签,训练用于进行语音分离处理的第一学生模型包括:为第一真实数据集合中的每一条混合语音信号增加K种噪声,生成第二真实数据集合,K为大于或等于2的正整数;为第一合成数据集合中的每一条混合语音信号增加K种噪声,生成第二合成数据集合;根据第一真实数据集合中混合语音信号的标签,生成第二真实数据集合中已增加K种噪声的混合语音信号的标签;根据第二真实数据集合及其对应的标签、第二合成数据集合及其对应的标签,训练第一学生模型。
在一些实施例中,为第一真实数据集合中的每一条混合语音信号增加K种噪声,生成第二真实数据集合,为第一合成数据集合中的每一条混合语音信号增加K种噪声,生成第二合成数据集合包括:为第一真实数据集合中的每一条混合语音信号增加K种噪声,生成第二真实数据集合中的K条具有不同噪声的混合语音信号;为第一合成数据集合中的每一条混合语音信号增加K种噪声,生成第二合成数据集合中的K条具有不同噪声的混合语音信号。
在一些实施例中,根据第二真实数据集合及其对应的标签、第二合成数据集合及其对应的标签,训练第一学生模型包括:从第二真实数据集合和第二合成数据集合中选择多条已增加K种噪声的混合语音信号作为多条训练数据,用于训练第一学生模型,多条训练数据的数量根据K种噪声的种类的数量确定。
在一些实施例中,从第二真实数据集合和第二合成数据集合中选择多条已增加K种噪声的混合语音信号作为多条训练数据包括:从第二真实数据集合和第二合成数据集合中选择(1\K)×N条已增加K种噪声的混合语音信号作为训练数据,N为第二真实数据集合和第二合成数据集合的数据总数。
在一些实施例中,模型训练的方法还包括:增加第一学生模型的层数或者节点数量中的至少一项,生成第二学生模型;根据第一真实数据集合及其标签、第一合成数据集合及其标签,训练第二学生模型;利用训练后的第二学生模型,重新训练教师模型。
在一些实施例中,教师模型、第一学生模型利用排列不变训练方式进行训练。
在一些实施例中,根据训练后的第一学生模型的参数,更新教师模型的参数包括:利用EMA(Exponential Moving Average,指数滑动平均)算法进行训练,根据训练后的第一学生模型的参数,更新教师模型的参数。
在一些实施例中,模型训练的方法还包括:利用训练后的第一学生模型或者更新参数后的教师模型处理混合语音信号,确定语音分离结果。
根据本公开的另一些实施例,提供一种语音信号的处理方法,包括:利用第一学生模型或者教师模型处理混合语音信号,确定语音分离结果。
在一些实施例中,第一学生模型和教师模型通过如下方式进行训练:利用教师模型对第一真实数据集合中的混合语音信号进行语音分离处理,第一真实数据集合中的混合语音信号不具有标签,教师模型利用第一合成数据集合进行训练,第一合成数据集合中的混合语音信号具有标签;根据语音分离处理结果,生成第一真实数据集合中的混合语音信号的标签;根据第一真实数据集合及其对应的标签、第一合成数据集合及其对应的标签,训练用于进行语音分离处理的第一学生模型;利用训练后的第一学生模型,重新训练教师模型,直至满足训练结束条件。
根据本公开的又一些实施例,提供一种模型训练的装置,包括:处理单元,用于利用教师模型对第一真实数据集合中的混合语音信号进行语音分离处理,第一真实数据集合中的混合语音信号不具有标签,教师模型利用第一合成数据集合进行训练,第一合成数据集合中的混合语音信号具有标签;生成单元,用于根据语音分离处理结果,生成第一真实数据集合中的混合语音信号的标签;训练单元,用于根据第一真实数据集合及其对应的标签、第一合成数据集合及其对应的标签,训练用于进行语音分离处理的第一学生模型,利用训练后的第一学生模型,重新训练教师模型,直至满足训练结束条件。
在一些实施例中,生成单元为第一真实数据集合中的每一条混合语音信号增加K种噪声,生成第二真实数据集合,K为大于或等于2的正整数,为第一合成数据集合中的每一条混合语音信号增加K种噪声,生成第二合成数据集合,根据第一真实数据集合中混合语音信号的标签,生成第二真实数据集合中已增加K种噪声的混合语音信号的标签;训练单元根据第二真实数据集合及其对应的标签、第二合成数据集合及其对应的标签,训练第一学生模型。
在一些实施例中,训练单元从第二真实数据集合和第二合成数据集合中选择多条已增加K种噪声的混合语音信号作为多条训练数据,用于训练第一学生模型,多条训练数据的数量根据K种噪声的种类的数量确定。
根据本公开的再一些实施例,提供一种语音信号的处理装置,包括:处理单元,用于利用第一学生模型或者教师模型处理混合语音信号,确定语音分离结果。
在一些实施例中,第一学生模型和教师模型通过如下方式进行训练:利用教师模型对第一真实数据集合中的混合语音信号进行语音分离处理,第一真实数据集合中的混合语音信号不具有标签,教师模型利用第一合成数据集合进行训练,第一合成数据集合中的混合语音信号具有标签;根据语音分离处理结果,生成第一真实数据集合中的混合语音信号的标签;根据第一真实数据集合及其对应的标签、第一合成数据集合及其对应的标签,训练用于进行语音分离处理的第一学生模型;利用训练后的第一学生模型,重新训练教师模型,直至满足训练结束条件。
根据本公开的再一些实施例,提供一种模型训练的装置,包括:存储器;和耦接至存储器的处理器,处理器被配置为基于存储在存储器装置中的指令,执行上述任一个实施例中的模型训练的方法。
根据本公开的再一些实施例,提供一种语音信号的处理装置,包括:存储器;和耦接至存储器的处理器,处理器被配置为基于存储在存储器装置中的指令,执行上述任一个实施例中的语音信号的处理方法。
根据本公开的再一些实施例,提供一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的模型训练的方法或者语音信号的处理方法。
在上述实施例中,利用具有标签的合成混合语音信号训练后的教师模型,生成真实混合语音信号的标签;基于真实混合语音信号的标签,训练学生模型、调整教师模型。这样,使得机器学习模型能够学习真实混合语音信号的特征,从而提高语音分离效果。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开:
图1示出本公开的模型训练的方法的一些实施例的流程图;
图2示出图1的步骤130的一些实施例的流程图;
图3示出本公开的模型训练的方法的另一些实施例的流程图;
图4示出本公开的模型训练的装置的一些实施例的框图;
图5示出本公开的模型训练的装置的另一些实施例的框图;
图6示出本公开的模型训练的装置又的一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
语音分离技术在实际生活中应用十分广泛。例如,在车载场景,通过分离司机和乘客的语音,对司机的言行进行规范和审核;在教育场景,通过分离老师和学生的语音来分析课堂质量。语音分离的效果对于下游的语音识别等任务有着至关重要的影响。
如前所述,利用神经网络进行语音分离主要分为两类:基于masking(掩蔽)和基于mapping(映射)的网络。基于masking的算法通过预测时频谱上的掩蔽值,将掩蔽值点乘到混合音频上即可得到分离后的干净音频;基于mapping的网络直接预测分离后的音频。
这两类方法的共同点在于,都需使用大量人工合成数据进行监督学习训练。由于监督学习需要有label(用于标注掩蔽值或干净音频),如果不使用合成数据则又无法获得label,因此需要使用合成数据进行训练。
然而,一方面,几乎无法获取到足够的有标注的真实训练数据;另一方面,使用合成数据训练导致的技术问题在于,合成数据无法反映真实场景的数据特点,即与真实数据之间存在差异,从而导致模型对真实数据分离的效果下降。
针对上述技术问题,本公开旨在同时使用标注的合成数据和未标注的真实数据进行半监督学习训练,从而提升模型的语音分离效果。例如,可以通过不断迭代更新生成的标签,更大程度上挖掘真实场景数据的信息特征。
例如,可以通过如下的实施例实现本公开的技术方案。
图1示出本公开的模型训练的方法的一些实施例的流程图。
如图1所示,在步骤110中,利用教师模型对第一真实数据集合中的混合语音信号进行语音分离处理。第一真实数据集合中的混合语音信号不具有标签,第一合成数据集合中的混合语音信号具有标签。
在一些实施例中,教师(teacher)模型利用第一合成数据集合进行训练。例如,教师模型利用PIT(Permutation Invariant Training,排列不变)训练方式进行训练。
例如,一条混合音频信号包含m路干净语音信号,另一条混合音频信号同样包含m路干净语音信号。
因为,两条混合语音信号之间各路干净语音信号的对应关系不明确,所以需要计算m!种对应关系下的损失函数,取其中的最小值作为最终损失结果,用于训练机器学习模型。
例如,可以通过MSE(Mean Square Error,均方误差)方式求两条混合语音信号之间各路干净语音信号的MSE损失函数值。
在一些实施例中,还可以利用SI-SNRi(Scale Invariant-Signal to NoiseRatio improvement,尺度不变信噪比改进)等其他损失函数替换上述过程中的MSE损失函数。例如,由于信噪比的提升越大越好,可以取SI-SNRi值的相反数替换MSE值,用于训练机器学习模型。
例如,对于基于mapping的方法,混合音频信号可以是原始波形或者经过STFT(Short-time Fourier transform,短时傅里叶变换)之后的时频谱;对于基于masking的方法,混合音频信号可以是经过STFT之后每个时频点的掩蔽值。
例如,初始的数据集包括标注数据无标注集合S(即第一合成数据集合)、无标注数据集合U(即第一真实数据集合)、预先实现的K种不同的噪声扰动算法,K为正整数。使用当前的S充分训练 teacher模型。
例如,噪声扰动的处理算法包括:增加高斯噪声处理、增加混响处理、timestretch(时间延长)处理、SpecAugument(数据扩充)处理、Mixup(混合)处理、对抗扰动处理等。
在一些实施例中,在S、生成标签之后的U中,对于每一个数据可以构建数据对(Xm b,Xc b)。Xm b为混合语音信号,Xc b是标注的各路干净音频。例如,可以通过如下损失函数训练教师模型:
Figure 869436DEST_PATH_IMAGE001
B是一个batch(一批数据)中标注数据的数量,model1()代表教师模型的推理过程。
在步骤120中,根据处理结果,生成第一真实数据集合中的混合语音信号的标签。
在步骤130中,根据第一真实数据集合及其标签、第一合成数据集合及其标签,训练第一学生模型。
在一些实施例中,可以通过图2的实施例实现步骤130。
图2示出图1的步骤130的一些实施例的流程图。
如图2所示,在步骤1310中,为第一真实数据集合中的每一条混合语音信号增加多种噪声,生成第二真实数据集合;为第一合成数据集合中的每一条混合语音信号增加多种噪声,生成第二合成数据集合。
在一些实施例中,为第一真实数据集合中的每一条混合语音信号增加K种噪声,生成第二真实数据集合中的K条具有不同噪声的混合语音信号;为第一合成数据集合中的每一条混合语音信号增加K种噪声,生成第二合成数据集合中的K条具有不同噪声的混合语音信号。
例如,可以对S和U取并集,生成总的数据集;对总的数据集中的每一条数据进行K种噪声扰动处理得到数据集X,以实现数据增强。即,每一条原数据均生成K条新数据,来源于同一条原数据的每条新数据都具有不同的噪声。
这样,相比于总的数据集,X的数据量扩大到了原来的K倍。X中来源于S的新数据的标签与S中原数据的标签保持一致。
例如,U中的无标注数据通过teacher模型生成标签。可以将X中来源于U的新数据的标签,更新为U中相应的原数据的标签。
在步骤1320中,根据第一真实数据集合的标签,生成第二真实数据集合的标签。
在步骤1330中,根据第二真实数据集合及其标签、第二合成数据集合及其标签,训练第一学生模型。例如,可以采用PIT方法训练第一学生模型。
在一些实施例中,从第二真实数据集合和第二合成数据集合中选择多条训练数据,用于训练第一学生(student)模型。多条训练数据的数量根据多种噪声种类的数量确定。
例如,从 X中随机抽取其中1/K的数据,以保证数据增强前后的数据量不变;利用抽取的数据训练student模型。
例如,从第二真实数据集合和第二合成数据集合中选择(1\K)×N条已增加K种噪声的混合语音信号作为训练数据,N为第二真实数据集合和所述第二合成数据集合的数据总数。
在一些实施例中,student模型的网络规模可以等于或者大于teacher模型。例如,可以在student模型的基础上继续进行迭代训练或者将student模型更换为规模更大的网络结构。
例如,可以通过如下损失函数训练学生模型:
Figure 264645DEST_PATH_IMAGE002
Model2()代表学生模型的推理过程。
在训练完毕第一学生模型后,可以继续通过图1中的其余步骤更新教师模型的参数。
在步骤140中,利用训练后的第一学生模型,重新训练教师模型,直至满足训练结束条件。例如,根据训练后的第一学生模型的参数,更新教师模型的参数。例如,利用EMA算法,更新教师模型的参数。
在一些实施例中,可以重复执行步骤110~140,直到满足训练结束条件。
在一些实施例中,可以通过图3中的实施例训练机器学习模型。
图3示出本公开的模型训练的方法的另一些实施例的流程图。
如图3所示,在步骤310中,增加第一学生模型的层数或者节点数量中的至少一项,生成第二学生模型。
在一些实施例中,可以确定训练之后的测试结果是否提升;在测试结果提升的情况下,保持第一学生模型的原有规模;在测试结果没有提升的情况下,增加第一学生模型的规模。
在步骤320中,根据第一真实数据集合及其标签、第一合成数据集合及其标签,训练第二学生模型。例如,可以采用PIT方法训练第二学生模型。
在步骤330中,根据训练后的第一学生模型的参数,更新教师模型的参数。
在一些实施例中,利用训练后的第二学生模型或者更新参数后的教师模型处理混合语音信号,确定语音分离结果。例如,可以利用训练后的第二学生模型处理混合语音信号。
例如,可以对教师模型、第一学生模型、第二学生模型进行性能评估,选取其中性能最佳的模型进行语音分离处理。
上述实施例中,对于所有训练数据都进行K种噪声增强,随后每个epoch(一代训练)再随机抽取其中的1/K进行训练,这使得模型对于多种噪声的鲁棒性有所提升。
teacher模型用于产生、更新真实数据的标签;student模型用于学习噪声鲁棒性,从而提高了一致性损失的学习效果。
在训练过程中扩大student模型的网络规模,这种灵活的设计可以获得更优的网络结构。
在一些实施例中,可以采用双模型结构实现本公开的技术方案,两个模型都需要训练,而不是简单地通过EMA更新teacher模型。例如,在训练过程中可以同时使用有标注和无标注数据;在迭代过程中通过当前的teacher模型对无标注数据产生标签。
例如,初始的数据集包括标注数据无标注集合S(即第一合成数据集合)、无标注数据集合U(即第一真实数据集合)、预先实现的K种不同的噪声扰动算法,训练步骤如下。
在步骤1中,使用当前的S充分训练 teacher模型。
在步骤2中,可以对S和U取并集,生成总的数据集;对总的数据集中的每一条数据进行K种噪声扰动处理得到数据集X,以实现数据增强。即,每一条原数据均生成K条新数据,来源于同一条原数据的每条新数据都具有不同的噪声。
这样,相比于总的数据集,X的数据量扩大到了原来的K倍。X中来源于S的新数据的标签与S中原数据的标签保持一致。
在步骤3中,U中的无标注数据通过teacher模型生成标签。可以将X中来源于U的新数据的标签,更新为U中相应的原数据的标签。
在步骤4中,从 X中随机抽取其中1/K的数据,以保证数据增强前后的数据量不变;利用抽取的数据训练student模型。
在一些实施例中,student模型的网络规模可以等于或者大于teacher模型。例如,可以在student模型的基础上继续进行迭代训练或者将student模型更换为规模更大的网络结构。
在步骤5中,利用EMA算法进行训练,根据训练后的第一学生模型的参数,更新教师模型的参数。例如,可以重复执行步骤3~5,直到满足训练结束条件。
在一些实施例中,在S、生成标签之后的U中,对于每一个数据可以构建数据对(Xm b,Xc b)。Xm b为混合语音信号,Xc b是标注的各路干净音频。
例如,噪声扰动的处理算法包括:增加高斯噪声处理、增加混响处理、timestretch(时间延长)处理、SpecAugument(数据扩充)处理、Mixup(混合)处理、对抗扰动处理等。
例如,一条混合音频信号包含m路干净语音信号,另一条混合音频信号同样包含m路干净语音信号。
因为,两条混合语音信号之间各路干净语音信号的对应关系不明确,所以可以通过MSE(Mean Square Error,均方误差)方式求两条混合语音信号之间各路干净语音信号的MSE损失函数值,再计算所有m!个MSE损失函数的最小值作为最终损失结果,用于训练机器学习模型。
还可以利用SI-SNR(Scale Invariant-Signal to Noise Ratio,尺度不变信噪比)等其他损失函数替换上述过程中的MSE损失函数。
例如,对于基于mapping的方法,混合音频信号可以是原始波形或者经过STFT(Short-time Fourier transform,短时傅里叶变换)之后的时频谱;对于基于masking的方法,混合音频信号可以是经过STFT之后每个时频点的掩蔽值。
在一些实施例中,语音信号的处理方法包括:利用第一学生模型或者教师模型处理混合语音信号,确定语音分离结果。例如,第一学生模型和教师模型通过上述任一个实施例中的训练方法进行训练。
图4示出本公开的模型训练的装置的一些实施例的框图。
如图4所示,模型训练的装置4包括处理单元41、生成单元42、训练单元43。
处理单元41利用教师模型对第一真实数据集合中的混合语音信号进行语音分离处理。第一真实数据集合中的混合语音信号不具有标签,教师模型利用第一合成数据集合进行训练,第一合成数据集合中的混合语音信号具有标签。
生成单元42根据处理结果,生成第一真实数据集合中的混合语音信号的标签。
训练单元43根据第一真实数据集合及其标签、第一合成数据集合及其标签,训练第一学生模型;利用训练后的第一学生模型,重新训述教师模型,直至满足训练结束条件。例如,训练单元43根据训练后的第一学生模型的参数,更新教师模型的参数。
在一些实施例中,生成单元42为第一真实数据集合中的每一条混合语音信号增加多种噪声,生成第二真实数据集合;为第一合成数据集合中的每一条混合语音信号增加多种噪声,生成第二合成数据集合;根据第一真实数据集合的标签,生成第二真实数据集合的标签。
训练单元43根据第二真实数据集合及其标签、第二合成数据集合及其标签,训练第一学生模型。
在一些实施例中,训练单元43从第二真实数据集合和第二合成数据集合中选择多条训练数据,用于训练第一学生模型,多条训练数据的数量根据多种噪声种类的数量确定。
在一些实施例中,生成单元42为第一真实数据集合中的每一条混合语音信号增加K种噪声,生成第二真实数据集合中的K条具有不同噪声的混合语音信号;为第一合成数据集合中的每一条混合语音信号增加K种噪声,生成第二合成数据集合中的K条具有不同噪声的混合语音信号。
在一些实施例中,训练单元43从第二真实数据集合和第二合成数据集合中选择多条训练数据,用于训练第一学生模型。多条训练数据的数量根据多种噪声种类的数量确定。
例如,训练单元43从第二真实数据集合和第二合成数据集合中选择(1\K)×N条已增加K种噪声的混合语音信号作为训练数据,N为第二真实数据集合和第二合成数据集合的数据总数。
在一些实施例中,训练单元43增加第一学生模型的层数或者节点数量中的至少一项,生成第二学生模型;根据第一真实数据集合及其标签、第一合成数据集合及其标签,训练第二学生模型;根据训练后的第二学生模型的参数,更新教师模型的参数。
在一些实施例中,教师模型、第一学生模型利用排列不变训练方式进行训练。
在一些实施例中,训练单元43利用EMA算法,进行训练,根据训练后的第一学生模型的参数,更新教师模型的参数。
在一些实施例中,处理单元41利用训练后的第一学生模型或者更新参数后的教师模型处理混合语音信号,确定语音分离结果。
在一些实施例中,语音信号的处理装置包括处理单元,用于利用第一学生模型或者教师模型处理混合语音信号,确定语音分离结果。例如,第一学生模型和教师模型通过上述任一个实施例中的训练方法进行训练。
图5示出本公开的模型训练的装置的另一些实施例的框图。
如图5所示,该实施例的模型训练的装置5包括:存储器51以及耦接至该存储器51的处理器52,处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的模型训练的方法。
其中,存储器51例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序Boot Loader、数据库以及其他程序等。
图6示出本公开的模型训练的装置又的一些实施例的框图。
如图6所示,该实施例的模型训练的装置6包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的模型训练的方法。
存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序Boot Loader以及其他程序等。
模型训练的装置6还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的模型训练的方法、模型训练的装置、语音信号的处理方法、语音信号的处理装置和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (18)

1.一种模型训练的方法,包括:
利用教师模型对第一真实数据集合中的混合语音信号进行语音分离处理,所述第一真实数据集合中的混合语音信号不具有标签,所述教师模型利用第一合成数据集合进行训练,所述第一合成数据集合中的混合语音信号具有标签;
根据语音分离处理结果,生成所述第一真实数据集合中的混合语音信号的标签;
根据所述第一真实数据集合及其对应的标签、所述第一合成数据集合及其对应的标签,训练用于进行语音分离处理的第一学生模型;
利用训练后的第一学生模型,重新训练所述教师模型,直至满足训练结束条件。
2.根据权利要求1所述的模型训练的方法,其中,所述利用训练后的第一学生模型,重新训练所述教师模型包括:
根据训练后的第一学生模型的参数,更新所述教师模型的参数。
3.根据权利要求1所述的模型训练的方法,其中,所述根据所述第一真实数据集合及其对应的标签、所述第一合成数据集合及其对应的标签,训练用于进行语音分离处理的第一学生模型包括:
为所述第一真实数据集合中的每一条混合语音信号增加K种噪声,生成第二真实数据集合,K为大于或等于2的正整数;
为所述第一合成数据集合中的每一条混合语音信号增加K种噪声,生成第二合成数据集合;
根据所述第一真实数据集合中混合语音信号的标签,生成所述第二真实数据集合中已增加K种噪声的混合语音信号的标签;
根据所述第二真实数据集合及其对应的标签、所述第二合成数据集合及其对应的标签,训练所述第一学生模型。
4.根据权利要求3所述的模型训练的方法,其中,所述为所述第一真实数据集合中的每一条混合语音信号增加K种噪声,生成第二真实数据集合,为所述第一合成数据集合中的每一条混合语音信号增加K种噪声,生成第二合成数据集合包括:
为所述第一真实数据集合中的每一条混合语音信号增加K种噪声,生成所述第二真实数据集合中的K条具有不同噪声的混合语音信号;
为所述第一合成数据集合中的每一条混合语音信号增加K种噪声,生成所述第二合成数据集合中的K条具有不同噪声的混合语音信号。
5.根据权利要求3所述的模型训练的方法,其中,所述根据所述第二真实数据集合及其对应的标签、所述第二合成数据集合及其对应的标签,训练所述第一学生模型包括:
从所述第二真实数据集合和所述第二合成数据集合中选择多条已增加K种噪声的混合语音信号作为多条训练数据,用于训练所述第一学生模型,所述多条训练数据的数量根据所述K种噪声的种类的数量确定。
6.根据权利要求5所述的模型训练的方法,其中,所述从所述第二真实数据集合和所述第二合成数据集合中选择多条已增加K种噪声的混合语音信号作为训练数据包括:
从所述第二真实数据集合和所述第二合成数据集合中选择(1\K)×N条已增加K种噪声的混合语音信号作为训练数据,N为所述第二真实数据集合和所述第二合成数据集合的数据总数。
7.根据权利要求1所述的模型训练的方法,还包括:
增加所述第一学生模型的层数或者节点数量中的至少一项,生成第二学生模型;
根据所述第一真实数据集合及其标签、所述第一合成数据集合及其标签,训练所述第二学生模型;
利用训练后的第二学生模型,重新训练所述教师模型。
8.根据权利要求1所述的模型训练的方法,其中,
所述教师模型、所述第一学生模型利用排列不变训练方式进行训练。
9.根据权利要求2所述的模型训练的方法,其中,所述根据训练后的第一学生模型的参数,更新所述教师模型的参数包括:
利用指数滑动平均EMA算法进行训练,根据训练后的第一学生模型的参数,更新所述教师模型的参数。
10.根据权利要求1-9任一项所述的模型训练的方法,还包括:
利用训练后的第一学生模型或者更新参数后的教师模型处理混合语音信号,确定语音分离结果。
11.一种语音信号的处理方法,包括:
利用第一学生模型或者教师模型处理混合语音信号,确定语音分离结果,所述第一学生模型和教师模型通过如下方式进行训练:
利用教师模型对第一真实数据集合中的混合语音信号进行语音分离处理,所述第一真实数据集合中的混合语音信号不具有标签,所述教师模型利用第一合成数据集合进行训练,所述第一合成数据集合中的混合语音信号具有标签;
根据语音分离处理结果,生成所述第一真实数据集合中的混合语音信号的标签;
根据所述第一真实数据集合及其对应的标签、所述第一合成数据集合及其对应的标签,训练用于进行语音分离处理的第一学生模型;
利用训练后的第一学生模型,重新训练所述教师模型,直至满足训练结束条件。
12.一种模型训练的装置,包括:
处理单元,用于利用教师模型对第一真实数据集合中的混合语音信号进行语音分离处理,所述第一真实数据集合中的混合语音信号不具有标签,所述教师模型利用第一合成数据集合进行训练,所述第一合成数据集合中的混合语音信号具有标签;
生成单元,用于根据语音分离处理结果,生成所述第一真实数据集合中的混合语音信号的标签;
训练单元,用于根据所述第一真实数据集合及其对应的标签、所述第一合成数据集合及其对应的标签,训练用于进行语音分离处理的第一学生模型,利用训练后的第一学生模型,重新训练所述教师模型,直至满足训练结束条件。
13.根据权利要求12所述的模型训练的装置,其中,
所述生成单元为所述第一真实数据集合中的每一条混合语音信号增加K种噪声,生成第二真实数据集合,K为大于或等于2的正整数,为所述第一合成数据集合中的每一条混合语音信号增加K种噪声,生成第二合成数据集合,根据所述第一真实数据集合中混合语音信号的标签,生成所述第二真实数据集合中已增加K种噪声的混合语音信号的标签;
所述训练单元根据所述第二真实数据集合及其对应的标签、所述第二合成数据集合及其对应的标签,训练所述第一学生模型。
14.根据权利要求13所述的模型训练的装置,其中,
所述训练单元从所述第二真实数据集合和所述第二合成数据集合中选择多条已增加K种噪声的混合语音信号作为多条训练数据,用于训练所述第一学生模型,所述多条训练数据的数量根据所述K种噪声的种类的数量确定。
15.一种语音信号的处理装置,包括:
处理单元,用于利用第一学生模型或者教师模型处理混合语音信号,确定语音分离结果,所述第一学生模型和教师模型通过如下方式进行训练:
利用教师模型对第一真实数据集合中的混合语音信号进行语音分离处理,所述第一真实数据集合中的混合语音信号不具有标签,所述教师模型利用第一合成数据集合进行训练,所述第一合成数据集合中的混合语音信号具有标签;
根据语音分离处理结果,生成所述第一真实数据集合中的混合语音信号的标签;
根据所述第一真实数据集合及其对应的标签、所述第一合成数据集合及其对应的标签,训练用于进行语音分离处理的第一学生模型;
利用训练后的第一学生模型,重新训练所述教师模型,直至满足训练结束条件。
16.一种模型训练的装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-10任一项所述的模型训练的方法。
17.一种语音信号的处理装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求11所述的语音信号的处理方法。
18.一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-10任一项所述的模型训练的方法、或者权利要求11所述的语音信号的处理方法。
CN202110921714.6A 2021-08-12 2021-08-12 模型训练的方法、装置和语音信号的处理方法、装置 Pending CN113380268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110921714.6A CN113380268A (zh) 2021-08-12 2021-08-12 模型训练的方法、装置和语音信号的处理方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110921714.6A CN113380268A (zh) 2021-08-12 2021-08-12 模型训练的方法、装置和语音信号的处理方法、装置

Publications (1)

Publication Number Publication Date
CN113380268A true CN113380268A (zh) 2021-09-10

Family

ID=77576767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110921714.6A Pending CN113380268A (zh) 2021-08-12 2021-08-12 模型训练的方法、装置和语音信号的处理方法、装置

Country Status (1)

Country Link
CN (1) CN113380268A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132183A (zh) * 2022-05-25 2022-09-30 腾讯科技(深圳)有限公司 音频识别模型的训练方法、装置、设备、介质及程序产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986788A (zh) * 2018-06-06 2018-12-11 国网安徽省电力有限公司信息通信分公司 一种基于后验知识监督的噪声鲁棒声学建模方法
CN110246487A (zh) * 2019-06-13 2019-09-17 苏州思必驰信息科技有限公司 用于单通道的语音识别模型的优化方法及系统
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法
CN111179962A (zh) * 2020-01-02 2020-05-19 腾讯科技(深圳)有限公司 语音分离模型的训练方法、语音分离方法及装置
CN111179961A (zh) * 2020-01-02 2020-05-19 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111341341A (zh) * 2020-02-11 2020-06-26 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN112287920A (zh) * 2020-09-17 2021-01-29 昆明理工大学 基于知识蒸馏的缅甸语ocr方法
CN112505628A (zh) * 2020-10-29 2021-03-16 北京遥测技术研究所 一种基于图卷积神经网络的自适应波束形成方法
CN113160855A (zh) * 2021-05-28 2021-07-23 思必驰科技股份有限公司 在线语音活性检测系统改进方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986788A (zh) * 2018-06-06 2018-12-11 国网安徽省电力有限公司信息通信分公司 一种基于后验知识监督的噪声鲁棒声学建模方法
CN110246487A (zh) * 2019-06-13 2019-09-17 苏州思必驰信息科技有限公司 用于单通道的语音识别模型的优化方法及系统
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法
CN111179962A (zh) * 2020-01-02 2020-05-19 腾讯科技(深圳)有限公司 语音分离模型的训练方法、语音分离方法及装置
CN111179961A (zh) * 2020-01-02 2020-05-19 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111341341A (zh) * 2020-02-11 2020-06-26 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN112287920A (zh) * 2020-09-17 2021-01-29 昆明理工大学 基于知识蒸馏的缅甸语ocr方法
CN112505628A (zh) * 2020-10-29 2021-03-16 北京遥测技术研究所 一种基于图卷积神经网络的自适应波束形成方法
CN113160855A (zh) * 2021-05-28 2021-07-23 思必驰科技股份有限公司 在线语音活性检测系统改进方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132183A (zh) * 2022-05-25 2022-09-30 腾讯科技(深圳)有限公司 音频识别模型的训练方法、装置、设备、介质及程序产品
CN115132183B (zh) * 2022-05-25 2024-04-12 腾讯科技(深圳)有限公司 音频识别模型的训练方法、装置、设备、介质及程序产品

Similar Documents

Publication Publication Date Title
Luo et al. Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation
US10380995B2 (en) Method and device for extracting speech features based on artificial intelligence
CN106104674B (zh) 混合语音识别
US20200335086A1 (en) Speech data augmentation
Schlüter Learning to Pinpoint Singing Voice from Weakly Labeled Examples.
CN111201569B (zh) 电子装置及其控制方法
Wang et al. Online non-negative convolutive pattern learning for speech signals
Tuckute et al. Many but not all deep neural network audio models capture brain responses and exhibit correspondence between model stages and brain regions
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
CN115662435B (zh) 一种虚拟教师拟真化语音的生成方法及终端
US20230326249A1 (en) Few-shot gesture recognition method
Ntalampiras Generalized sound recognition in reverberant environments
Parekh et al. Listen to interpret: Post-hoc interpretability for audio networks with nmf
Wang Supervised speech separation using deep neural networks
CN113380268A (zh) 模型训练的方法、装置和语音信号的处理方法、装置
US20230267950A1 (en) Audio signal generation model and training method using generative adversarial network
Parekh et al. Tackling interpretability in audio classification networks with non-negative matrix factorization
Fakoor et al. Constrained convolutional-recurrent networks to improve speech quality with low impact on recognition accuracy
CN115565548A (zh) 异常声音检测方法、装置、存储介质及电子设备
CN115116443A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
US20200090041A1 (en) Automatic generation of synthetic samples using dynamic deep autoencoders
Marták et al. Probabilistic modelling of signal mixtures with differentiable dictionaries
Nguyen et al. Improving mix-and-separate training in audio-visual sound source separation with an object prior
Jannu et al. An Overview of Speech Enhancement Based on Deep Learning Techniques
Seo Minimum Word Error Rate Training for Speech Separation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210910

RJ01 Rejection of invention patent application after publication