CN113380270B - 一种音频音源分离方法、装置、存储介质及电子设备 - Google Patents

一种音频音源分离方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113380270B
CN113380270B CN202110499107.5A CN202110499107A CN113380270B CN 113380270 B CN113380270 B CN 113380270B CN 202110499107 A CN202110499107 A CN 202110499107A CN 113380270 B CN113380270 B CN 113380270B
Authority
CN
China
Prior art keywords
audio
model
coding
data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110499107.5A
Other languages
English (en)
Other versions
CN113380270A (zh
Inventor
李治均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pulian International Co ltd
Original Assignee
Pulian International Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pulian International Co ltd filed Critical Pulian International Co ltd
Priority to CN202110499107.5A priority Critical patent/CN113380270B/zh
Publication of CN113380270A publication Critical patent/CN113380270A/zh
Application granted granted Critical
Publication of CN113380270B publication Critical patent/CN113380270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种音频音源分离方法,包括:获取待分离的混合音频数据;通过训练后的编码模型对所述待分离的混合音频数据进行编码,获得编码特征表征;将所述编码特征表征输入至训练后的生成网络模型中,获得源音频特征表征;通过训练后的解码模型对所述源音频特征表征进行解码,获得音源分离结果。相应的,本发明还公开了一种音频音源分离装置、计算机可读存储介质及电子设备。本发明的技术方案中所使用的音源分离模型具有较强的泛化能力,从而提高了音源分离结果的准确性。

Description

一种音频音源分离方法、装置、存储介质及电子设备
技术领域
本发明涉及音频数据处理技术领域,尤其涉及一种音频音源分离方法、装置、计算机可读存储介质及电子设备。
背景技术
对混合音频中的源音频进行音源分离,是音频处理领域的一个基本问题,到目前为止,基于深度学习模型的音源分离方法是解决这一问题的最有效的手段。
但是,当前所采用的相关的深度学习模型受到了极大的限制,因为这些模型通常是基于监督学习的情形下进行训练得到的,即已知混合音频与其相对应的源音频。这种训练方法存在两个重大缺陷:一为很多情况下我们容易获得混合音频而较难得到独立的源音频,例如,在医学诊断中容易获得各个器官所对应的混合的声音,而其中每一个器官所对应的单独的声音较难获得;二为在实际生活中,混合音频与独立源音频无法同时获得,实际应用中是将获得的独立源音频进行人工混合得到合成的混合音频,而人工合成的混合音频与真实场景中的混合音频的声源分布及环境响应并不相同,故利用人工合成的混合音频训练得到的模型实际应用场景受限,从而导致模型的泛化能力较差,音源分离结果的准确性较差。
发明内容
本发明实施例所要解决的技术问题在于,提供一种音频音源分离方法、装置、计算机可读存储介质及电子设备,所使用的音源分离模型具有较强的泛化能力,从而提高了音源分离结果的准确性。
为了解决上述技术问题,本发明实施例提供了一种音频音源分离方法,包括:
获取待分离的混合音频数据;
通过训练后的编码模型对所述待分离的混合音频数据进行编码,获得编码特征表征;
将所述编码特征表征输入至训练后的生成网络模型中,获得源音频特征表征;
通过训练后的解码模型对所述源音频特征表征进行解码,获得音源分离结果。
进一步地,所述编码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成;所述解码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。
进一步地,所述方法预先通过以下步骤对所述编码模型和所述解码模型进行训练:
获取混合音频训练数据集;其中,所述混合音频训练数据集中包括N个混合音频训练数据,N>1;
将N个所述混合音频训练数据输入至预设的编码模型和预设的解码模型中,对应获得N个混合音频估计数据;
根据N个所述混合音频训练数据、N个所述混合音频估计数据和预设的均方误差损失函数对所述预设的编码模型和所述预设的解码模型进行训练;其中,xj(t)表示第j个混合音频训练数据,/>表示第j个混合音频训练数据xj(t)经过编码-解码处理后对应获得的第j个混合音频估计数据,j=1,2,…,N。
进一步地,所述生成网络模型包括生成模块和掩码模块;
则,所述将所述编码特征表征输入至训练后的生成网络模型中,获得源音频特征表征,具体包括:
将所述编码特征表征输入至所述生成模块中,获得初始源音频数据;
将所述编码特征表征输入至所述掩码模块中,获得源音频位置掩码数据;
根据所述初始源音频数据和所述源音频位置掩码数据,获得所述源音频特征表征。
进一步地,所述生成模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成;所述掩码模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。
进一步地,所述生成模块包括降采样层、过渡层和升采样层;所述掩码模块包括降采样层、过渡层、升采样层和二值化处理层;其中,所述二值化处理层用于对所述掩码模块的升采样层的输出进行二值化处理。
进一步地,所述方法预先通过以下步骤对所述生成网络模型进行训练:
获取混合音频训练数据集;其中,所述混合音频训练数据集中包括N个混合音频训练数据,N>1;
通过所述编码模型对N个所述混合音频训练数据进行编码,对应获得N个训练编码特征表征;
将N个所述训练编码特征表征输入至预设的生成网络模型中,对应获得N*M个训练源音频特征表征;其中,所述预设的生成网络模型中包括M个预设的生成模块和M个预设的掩码模块,M>1;
通过所述解码模型对N*M个所述训练源音频特征表征进行解码,获得N*M个训练源音频数据;
根据N个所述混合音频训练数据、N*M个所述训练源音频特征表征、N*M个所述训练源音频数据和预设的损失函数L=Lex+Ltc+Lmc,对所述预设的生成网络模型进行训练;其中,Lex表示预设的互斥损失函数,Ltc表示预设的时间连续损失函数,Lmc表示预设的预测源音频与原混合音频差值最小化函数;且,
|| ||F表示F-范数,λ1和λ2表示归一化因子,/>表示第j个混合音频训练数据xj(t)经过所述编码模型、第i个所述预设的生成模块以及第i个所述预设的掩码模块处理后对应获得的第i个训练源音频特征表征,j=1,2,…,N,i=1,2,…,M,k=1,2,…,M;
表示/>所对应的矩阵中的第p行、第q列的元素;
表示第j个混合音频训练数据xj(t)经过所述编码模型、第i个所述预设的生成模块、第i个所述预设的掩码模块以及所述解码模型处理后对应获得的第i个训练源音频数据。
为了解决上述技术问题,本发明实施例还提供了一种音频音源分离装置,包括:
混合音频数据获取单元,用于获取待分离的混合音频数据;
混合音频数据编码单元,用于通过训练后的编码模型对所述待分离的混合音频数据进行编码,获得编码特征表征;
源音频特征获取单元,用于将所述编码特征表征输入至训练后的生成网络模型中,获得源音频特征表征;
源音频特征解码单元,用于通过训练后的解码模型对所述源音频特征表征进行解码,获得音源分离结果。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的音频音源分离方法。
本发明实施例还提供了一种电子设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的音频音源分离方法。
与现有技术相比,本发明实施例提供了一种音频音源分离方法、装置、计算机可读存储介质及电子设备,首先,获取待分离的混合音频数据,接着,通过训练后的编码模型对所述待分离的混合音频数据进行编码,获得编码特征表征,并将所述编码特征表征输入至训练后的生成网络模型中,获得源音频特征表征,最后,通过训练后的解码模型对所述源音频特征表征进行解码,获得音源分离结果;本发明实施例中所使用的训练后的编码模型、生成网络模型和解码模型具有较强的泛化能力,从而提高了音源分离结果的准确性。
附图说明
图1是本发明提供的一种音频音源分离方法的一个优选实施例的流程图;
图2是本发明提供的一种音频音源分离装置的一个优选实施例的结构框图;
图3是本发明提供的一种电子设备的一个优选实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种音频音源分离方法,参见图1所示,是本发明提供的一种音频音源分离方法的一个优选实施例的流程图,所述方法包括步骤S11至步骤S14:
步骤S11、获取待分离的混合音频数据;
步骤S12、通过训练后的编码模型对所述待分离的混合音频数据进行编码,获得编码特征表征;
步骤S13、将所述编码特征表征输入至训练后的生成网络模型中,获得源音频特征表征;
步骤S14、通过训练后的解码模型对所述源音频特征表征进行解码,获得音源分离结果。
具体的,在执行步骤S11至步骤S14之前,本发明实施例预先训练好了相应的音源分离模型以供后续使用,本发明实施例中所采用的音源分离模型由训练后的编码模型、训练后的解码模型和训练后的生成网络模型构成,在对混合音频中的源音频进行音源分离时,首先,获取待分离的混合音频数据,接着,将获得的待分离的混合音频数据输入至训练后的编码模型中,通过训练后的编码模型对待分离的混合音频数据进行自动编码,相应获得待分离的混合音频数据所对应的高维空间中的编码特征表征,然后,将获得的编码特征表征输入至训练后的生成网络模型中进行音源分离,相应获得待分离的混合音频数据所对应的高维空间中的源音频特征表征,最后,将获得的源音频特征表征输入至训练后的解码模型中,通过训练后的解码模型对源音频特征表征进行自动解码,相应获得音源分离结果,即混合音频数据中的源音频分离完成。
其中,待分离的混合音频数据可以为直接根据音频时域波形获得的混合音频数据,也可为对时域波形进行时频域转换后的时频域音频特征数据,包括但不限于logmel频谱、梅尔频率倒谱系数MFCC以及CQT声谱等。
需要说明的是,本发明实施例中所采用的编码-解码方法与现有技术中常用的编码-解码方法不同,现有技术中所采用的编码-解码模型一般是一个模型,通常将编码后的输出直接作为解码的输入,通过解码得到相应的结果,即编码-解码处理流程是一体化的流程,而本发明实施例的目的在于分离混合音频中的源音频,故在模型处理流程上与一般的编码-解码模型不同,本发明实施例中所采用的编码模型和解码模型是两个独立的模型,由编码模型对混合音频数据进行编码处理后的输出,需要先经过生成网络模型进行音源分离,再将分离得到的源音频特征表征作为解码模型的输入,通过解码模型进行解码处理,以得到混合音频数据中的源音频数据。
进一步的,虽然本发明实施例中的编码-解码处理流程并不是一体化的流程,但是,为了保证音源分离的有效性(即混合音频长度与源音频长度相同),需要保证解码模型的输出向量的维度与编码模型的输入向量的维度相同,以达到分离音频的目的;例如,利用卷积神经网络CNN搭建编码-解码模型,其编码模型中的运算一般为卷积运算,相应的解码模型中的运算则为反卷积运算。
假设编码模型的输入向量的维度为(5,5),编码模型为3个隐藏单元的循环神经网络RNN,则编码模型的输出向量的维度为(5,3),编码模型的输出作为生成网络模型的输入,由于生成网络模型的输入向量与输出向量的维度相同,故生成网络模型的输出向量的维度为(5,3),然后将生成网络模型的输出经过由5个隐藏单元的RNN构成的解码模型进行自动解码,则得到解码模型的输出向量的维度为(5,5);与上文中的卷积运算以及反卷积运算类似,只需通过专门设计的网络即可实现解码模型的输出向量的维度与编码模型的输入向量的维度相同。
另外,本发明实施例可以适用于各种混合音频数据,例如,单通道混合音频数据,单通道音频是音频格式中信息量最少的音频格式,在此情况下,本发明实施例仍然可以有效的工作。
本发明实施例所提供的一种音频音源分离方法,通过训练后的编码模型对待分离的混合音频数据进行编码,相应获得编码特征表征,通过训练后的生成网络模型对编码特征表征进行音源分离,相应获得源音频特征表征,通过训练后的解码模型对源音频特征表征进行解码,相应获得音源分离结果;所使用的训练后的编码模型、生成网络模型和解码模型具有较强的泛化能力,从而提高了音源分离结果的准确性。
作为上述方案的改进,所述编码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成;所述解码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。
具体的,结合上述实施例,编码模型可以由深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、循环神经网络RNN和注意力机制模型等网络中的一种或几种构成,解码模型可以由深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、循环神经网络RNN和注意力机制模型等网络中的一种或几种构成。
其中,编码模型的公式为:h(x)=E(x(t)),x(t)表示待分离的混合音频数据,E(·)表示编码模型,h(x)表示待分离的混合音频数据x(t)经过编码模型进行自动编码后获得的编码特征表征。
解码模型的公式为: 表示编码特征表征经过生成网络模型处理后获得的源音频特征表征,D(·)表示解码模型,/>表示源音频特征表征/>经过解码模型D(·)进行自动解码后获得的分离后的源音频数据。
以采用LSTM构成编码模型和解码模型为例,在编码模型中,待分离的混合音频数据x(t)经过多个LSTM层进行运算,得到编码特征表征h(x),在解码模型中,源音频特征表征经过多个LSTM层进行运算,得到分离后的源音频数据/>
可以理解的,编码模型和解码模型具体所采用的构成网络可以相同,也可以不相同,只需要保证解码模型的输出向量的维度与编码模型的输入向量的维度相同即可,为了设计方便,可以采用相同的网络构成编码模型和解码模型。
需要说明的是,常用的编码-解码模型,如seq2seq模型,其编码模型与解码模型均为LSTM模型,但是,由于seq2seq模型过大,无法在实际设备端部署,本发明实施例在实际应用时可以使用自行设计的RNN网络搭建相应的编码模型和解码模型。
在另一个优选实施例中,所述方法预先通过以下步骤对所述编码模型和所述解码模型进行训练:
获取混合音频训练数据集;其中,所述混合音频训练数据集中包括N个混合音频训练数据,N>1;
将N个所述混合音频训练数据输入至预设的编码模型和预设的解码模型中,对应获得N个混合音频估计数据;
根据N个所述混合音频训练数据、N个所述混合音频估计数据和预设的均方误差损失函数对所述预设的编码模型和所述预设的解码模型进行训练;其中,xj(t)表示第j个混合音频训练数据,/>表示第j个混合音频训练数据xj(t)经过编码-解码处理后对应获得的第j个混合音频估计数据,j=1,2,…,N。
具体的,结合上述实施例,本发明实施例在预先训练编码模型和解码模型时,首先,根据真实环境下采集的混合音频获取混合音频训练数据集,该混合音频训练数据集中包括N个混合音频训练数据{x1(t),x2(t),...,xj(t),...,xN(t)},接着,将获得的N个混合音频训练数据{x1(t),x2(t),...,xj(t),...xN(t)}输入至预先构建的编码模型中进行自动编码,并将自动编码的输出结果输入至预先构建的解码模型中进行自动解码,对应获得N个混合音频估计数据最后,利用预先设置的均方误差函数(Mean Square Error,MSE)作为损失函数对预先构建的编码模型和预先构建的解码模型进行训练,其中,均方误差损失函数的公式为:/>xj(t)表示N个混合音频训练数据中的第j个混合音频训练数据,/>表示第j个混合音频训练数据xj(t)经过依次编码模型和解码模型处理后对应获得的第j个混合音频估计数据,j=1,2,…,N。
可以理解的,当根据均方误差损失函数对编码模型和解码模型进行训练时,一般来说,Lmse会随着训练的进行逐渐变小,则可以自定义一个训练代数,如训练100代后停止训练,或者,也可以计算前后两次训练所对应的Lmse的变化量,若变化量过小,如小于10-5,则说明已经收敛,可以停止训练,本发明实施例对具体的停止训练条件不做具体限定。
本发明实施例所提供的一种音频音源分离方法,使用真实环境下采集的大量的混合音频数据,并通过网络自行学习更便于计算机理解的音频特征而非人工设计特征,使得训练后的编码模型和训练后的解码模块的通用性更加广泛。
在又一个优选实施例中,所述生成网络模型包括生成模块和掩码模块;
则,所述将所述编码特征表征输入至训练后的生成网络模型中,获得源音频特征表征,具体包括:
将所述编码特征表征输入至所述生成模块中,获得初始源音频数据;
将所述编码特征表征输入至所述掩码模块中,获得源音频位置掩码数据;
根据所述初始源音频数据和所述源音频位置掩码数据,获得所述源音频特征表征。
具体的,结合上述实施例,训练后的生成网络模型由生成模块和掩码模块两部分构成,在通过训练后的编码模型相应获得待分离的混合音频数据所对应的编码特征表征之后,先将获得的编码特征表征输入至训练后的生成网络模型的生成模块中,相应获得待分离的混合音频数据中的源音频所对应的初始源音频数据,并且,将获得的编码特征表征输入至训练后的生成网络模型的掩码模块中,相应获得待分离的混合音频数据中的源音频所对应的源音频位置掩码数据,再根据获得的待分离的混合音频数据中的源音频所对应的初始源音频数据和源音频位置掩码数据进行运算,相应获得待分离的混合音频数据中的源音频所对应的源音频特征表征。
需要说明的是,训练后的生成网络模型由若干个生成模块和若干个掩码模块构成,并且一个生成模块与一个掩码模块对应为一组,生成网络模型中的总组数可以根据实际应用场景中可能出现的源音频的个数进行设置,也可以提前设置为一个较大值,例如,设置总组数为M(M>1),其中,生成模块的作用为初步生成源音频的高维特征,而不关心其出现的时间节点,由于源音频通常不会出现于整个音频时间,因此掩码模块的作用为输出源音频的激活与静默位置掩码,相应的,在第i(i=1,2,…,M)组生成模块和掩码模块中,第i个生成模块将编码模型的输出h(x)作为输入,输出得到混合音频数据中的第i个源音频所对应的初始源音频数据第i个掩码模块将编码模型的输出h(x)作为输入,输出得到混合音频数据中的第i个源音频所对应的源音频位置掩码数据mi(x),将第i个生成模块和第i个掩码模块的输出按照矩阵元素位置乘法进行相乘,即得到预测的第i个源音频所对应的高维空间中的源音频特征表征/>即有/>⊙为Hadamard乘积的运算符号,表示矩阵中的对应位置元素相乘。
作为上述方案的改进,所述生成模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成;所述掩码模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。
具体的,结合上述实施例,生成模块可以由深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、循环神经网络RNN和注意力机制模型等网络中的一种或几种构成,掩码模块可以由深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、循环神经网络RNN和注意力机制模型等网络中的一种或几种构成。
可以理解的,生成模块和掩码模块具体所采用的构成网络可以相同,也可以不相同,为了设计方便,可以采用相同的网络构成生成模块和掩码模块。
作为上述方案的改进,所述生成模块包括降采样层、过渡层和升采样层;所述掩码模块包括降采样层、过渡层、升采样层和二值化处理层;其中,所述二值化处理层用于对所述掩码模块的升采样层的输出进行二值化处理。
具体的,结合上述实施例,生成模块的结构从功能上可以分为三部分:降采样部分、跳跃连接部分和升采样部分,相应的,生成模块包括若干层降采样层、一层过渡层和若干层升采样层,利用降采样部分与升采样部分可以使生成模块学习到不同尺寸的特征含义,利用跳跃连接部分可以使生成模块同时学习到不同层次(浅层与深层)的特征含义。
假设生成模块包括T层降采样层、一层过渡层和T层升采样层,首先,将编码特征表征h(x)输入至生成模块的降采样部分,得到不同降采样层的输出,具体公式为:其中,DOWMt(·)表示第t层降采样层,dt(x)表示第t层降采样层的输出,1<t≤T;接着,将第T层降采样层的输出dT(x)经过一层过渡层,得到第1层升采样层的输入,具体公式为:u(x)=Tran(dT(x)),其中,Tran(·)表示过渡层,u(x)表示第1层升采样层的输入;然后,将u(x)输入至生成模块的升采样部分,得到不同的升采样层的输出,具体公式为:/>其中,UPt(·)表示第t层升采样层,ut(x)表示第t层升采样层的输出,1<t≤T。
掩码模块包括若干层降采样层、一层过渡层、若干层升采样层和一层二值化处理层,且掩码模块中的降采样层、过渡层和升采样层的功能以及处理流程与生成模块中的降采样层、过渡层和升采样层的功能以及处理流程对应相同,这里不再赘述。
掩码模块与生成模块的区别之处在于,由于掩码模块的作用为找出源音频在混合音频中激活与静默的位置掩码,其最好为0-1掩码,因此,可以在掩码模块中额外设置一层二值化处理层,以将掩码模块的最后一层升采样层的输出进行二值化处理,二值化处理层可以采用sigmoid函数,具体公式为:其中,uT(t)表示掩码模块的第T层升采样层的输出。
需要说明的是,第i个生成模块的第T层升采样层的输出即为上述实施例中的混合音频数据中的第i个源音频所对应的初始源音频数据第i个掩码模块的二值化处理层的输出即为上述实施例中的混合音频数据中的第i个源音频所对应的源音频位置掩码数据mi(x)。
另外,本发明实施例中的术语“降采样”、“升采样”为从功能上解释对应网络层操作的意义,其中,降采样的具体运算形式可以有很多,由于其主要目的为使维度减少,例如可以使用卷积层(CNN)作为降采样层,假设输入向量的维度为(5,5),将其通过3*3的卷积操作可得到的输出向量的维度为(3,3),即达到减少维度的目的;又如使用RNN层作为降采样层,将维度为(5,5)的输入向量通过3个隐藏单元的RNN可得到维度为(5,3)的输出向量,通过多个操作即可将维度逐渐减少以得到不同尺寸的特征;升采样同理,这里不再赘述。
在又一个优选实施例中,所述方法预先通过以下步骤对所述生成网络模型进行训练:
获取混合音频训练数据集;其中,所述混合音频训练数据集中包括N个混合音频训练数据,N>1;
通过所述编码模型对N个所述混合音频训练数据进行编码,对应获得N个训练编码特征表征;
将N个所述训练编码特征表征输入至预设的生成网络模型中,对应获得N*M个训练源音频特征表征;其中,所述预设的生成网络模型中包括M个预设的生成模块和M个预设的掩码模块,M>1;
通过所述解码模型对N*M个所述训练源音频特征表征进行解码,获得N*M个训练源音频数据;
根据N个所述混合音频训练数据、N*M个所述训练源音频特征表征、N*M个所述训练源音频数据和预设的损失函数L=Lex+Ltc+Lmc,对所述预设的生成网络模型进行训练;其中,Lex表示预设的互斥损失函数,Ltc表示预设的时间连续损失函数,Lmc表示预设的预测源音频与原混合音频差值最小化函数;且,
|| ||F表示F-范数,λ1和λ2表示归一化因子,/>表示第j个混合音频训练数据xj(t)经过所述编码模型、第i个所述预设的生成模块以及第i个所述预设的掩码模块处理后对应获得的第i个训练源音频特征表征,j=1,2,…,N,i=1,2,…,M,k=1,2,…,M;
表示/>所对应的矩阵中的第p行、第q列的元素;
表示第j个混合音频训练数据xj(t)经过所述编码模型、第i个所述预设的生成模块、第i个所述预设的掩码模块以及所述解码模型处理后对应获得的第i个训练源音频数据。
具体的,结合上述实施例,本发明实施例在预先训练生成网络模型时,首先,根据真实环境下采集的混合音频获取混合音频训练数据集,该混合音频训练数据集中包括N个混合音频训练数据{x1(t),x2(t),...,xj(t),...,xN(t)},接着,通过训练后的编码模型对N个混合音频训练数据{x1(t),x2(t),...,xj(t),...,xN(t)}进行自动编码,对应获得N个训练编码特征表征,并将获得的N个训练编码特征表征输入至预先构建的生成网络模型(包括M个预设的生成模块和M个预设的掩码模块,M>1)中进行音源分离,对应获得N*M个训练源音频特征表征,然后,通过训练后的解码模型对获得的N*M个训练源音频特征表征进行自动解码,相应获得N*M个训练源音频数据,最后,利用预先设置的损失函数L=Lex+Ltc+Lmc对预先构建的生成网络模型进行训练。
需要说明的是,本发明实施例在预先训练生成网络模型的过程中利用了上述实施例中的训练后的编码模型和训练后的解码模型,并且仅对生成网络模型中的相关参数进行训练学习调整,而编码模型和解码模型则保持不变;进一步的,在实际训练过程中,由于生成网络模型中包括M个生成模块和M个掩码模块,因此,一个混合音频训练数据通过生成网络模型即可得到M个训练源音频特征表征,N个混合音频训练数据通过生成网络模块可得到N*M个训练源音频特征表征。
其中,Lex表示预先设置的互斥损失函数,为了保证生成网络模型的输出具有最大差异化的特征(即理想情况下生成网络模型的输出分别表示不同的音频类别,而非随意将混合音频进行分解),使用互斥损失函数使其差异最大化,且互斥损失函数的具体公式为:|| ||F表示F-范数,λ1和λ2表示归一化因子,/>表示N个混合音频训练数据中的第j个混合音频训练数据xj(t)经过训练后的编码模型、第i个预设的生成模块以及第i个预设的掩码模块依次处理后对应获得的第i个训练源音频特征表征,j=1,2,…,N,i=1,2,…,M,k=1,2,…,M;
Ltc表示预先设置的时间连续损失函数,为了保证预测的源音频不失真,从另一方面保证差异最大化以及时频域平稳,除了使用互斥损失函数之外,还可以使用时间连续损失函数进行学习,且时间连续损失函数的具体公式为: 实际上为二维矩阵,则表示第i个训练源音频特征表征/>所对应的矩阵中的第p行、第q列的元素;
Lmc表示预先设置的预测源音频与原混合音频差值最小化函数,为了保证预测的源音频能够组成原混合音频,还可以使用预测源音频与原混合音频差值最小化函数进行学习,且预测源音频与原混合音频差值最小化函数的具体公式为: 表示N个混合音频训练数据中的第j个混合音频训练数据xj(t)经过训练后的编码模型、第i个预设的生成模块、第i个预设的掩码模块以及训练后的解码模型依次处理后对应获得的第i个训练源音频数据。
可以理解的,当根据损失函数L=Lex+Ltc+Lmc对预先构建的生成网络模型进行训练时,一般来说,损失函数L会随着训练的进行逐渐变小,则可以自定义一个训练代数,如训练100代后停止训练,或者,也可以计算前后两次训练所对应的损失函数L的变化量,若变化量过小,如小于10-5,则说明已经收敛,可以停止训练,本发明实施例对具体的停止训练条件不做具体限定。
本发明实施例所提供的一种音频音源分离方法,使用真实环境下采集的大量的混合音频数据,并以无监督学习的方式对生成网络模型进行训练,使得训练后的生成网络模型的通用性更加广泛,同时,将生成网络模型划分为生成模块和掩码模块两部分,分别用于解决源音频类型问题和源音频出现位置问题,使得模型更有效的进行学习,此外,在通用的损失函数Lmc的基础上,增加了用于使各个源音频具有差异化特征的损失函数Lex和Ltc,保证了在没有真实源音频数据的情况下,模型仍然能够获得准确的音源分离结果。
本发明实施例还提供了一种音频音源分离装置,参见图2所示,是本发明提供的一种音频音源分离装置的一个优选实施例的结构框图,所述装置包括:
混合音频数据获取单元11,用于获取待分离的混合音频数据;
混合音频数据编码单元12,用于通过训练后的编码模型对所述待分离的混合音频数据进行编码,获得编码特征表征;
源音频特征获取单元13,用于将所述编码特征表征输入至训练后的生成网络模型中,获得源音频特征表征;
源音频特征解码单元14,用于通过训练后的解码模型对所述源音频特征表征进行解码,获得音源分离结果。
优选地,所述编码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成;所述解码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。
优选地,所述装置还包括编码-解码模型训练单元,所述编码-解码模型训练单元用于:
获取混合音频训练数据集;其中,所述混合音频训练数据集中包括N个混合音频训练数据,N>1;
将N个所述混合音频训练数据输入至预设的编码模型和预设的解码模型中,对应获得N个混合音频估计数据;
根据N个所述混合音频训练数据、N个所述混合音频估计数据和预设的均方误差损失函数对所述预设的编码模型和所述预设的解码模型进行训练;其中,xj(t)表示第j个混合音频训练数据,/>表示第j个混合音频训练数据xj(t)经过编码-解码处理后对应获得的第j个混合音频估计数据,j=1,2,…,N。
优选地,所述生成网络模型包括生成模块和掩码模块;
则,所述源音频特征获取单元13具体包括:
初始源音频获取子单元,用于将所述编码特征表征输入至所述生成模块中,获得初始源音频数据;
位置掩码获取子单元,用于将所述编码特征表征输入至所述掩码模块中,获得源音频位置掩码数据;
源音频特征获取子单元,用于根据所述初始源音频数据和所述源音频位置掩码数据,获得所述源音频特征表征。
优选地,所述生成模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成;所述掩码模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。
优选地,所述生成模块包括降采样层、过渡层和升采样层;所述掩码模块包括降采样层、过渡层、升采样层和二值化处理层;其中,所述二值化处理层用于对所述掩码模块的升采样层的输出进行二值化处理。
优选地,所述装置还包括生成网络模型训练单元,所述生成网络模型训练单元用于:
获取混合音频训练数据集;其中,所述混合音频训练数据集中包括N个混合音频训练数据,N>1;
通过所述编码模型对N个所述混合音频训练数据进行编码,对应获得N个训练编码特征表征;
将N个所述训练编码特征表征输入至预设的生成网络模型中,对应获得N*M个训练源音频特征表征;其中,所述预设的生成网络模型中包括M个预设的生成模块和M个预设的掩码模块,M>1;
通过所述解码模型对N*M个所述训练源音频特征表征进行解码,获得N*M个训练源音频数据;
根据N个所述混合音频训练数据、N*M个所述训练源音频特征表征、N*M个所述训练源音频数据和预设的损失函数L=Lex+Ltc+Lmc,对所述预设的生成网络模型进行训练;其中,Lex表示预设的互斥损失函数,Ltc表示预设的时间连续损失函数,Lmc表示预设的预测源音频与原混合音频差值最小化函数;且,
|| ||F表示F-范数,λ1和λ2表示归一化因子,/>表示第j个混合音频训练数据xj(t)经过所述编码模型、第i个所述预设的生成模块以及第i个所述预设的掩码模块处理后对应获得的第i个训练源音频特征表征,j=1,2,…,N,i=1,2,…,M,k=1,2,…,M;
表示/>所对应的矩阵中的第p行、第q列的元素;
表示第j个混合音频训练数据xj(t)经过所述编码模型、第i个所述预设的生成模块、第i个所述预设的掩码模块以及所述解码模型处理后对应获得的第i个训练源音频数据。
需要说明的是,本发明实施例所提供的一种音频音源分离装置,能够实现上述任一实施例所述的音频音源分离方法的所有流程,装置中的各个单元、子单元的作用以及实现的技术效果分别与上述实施例所述的音频音源分离方法的作用以及实现的技术效果对应相同,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的音频音源分离方法。
本发明实施例还提供了一种电子设备,参见图3所示,是本发明提供的一种电子设备的一个优选实施例的结构框图,所述电子设备包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序,所述处理器10在执行所述计算机程序时实现上述任一实施例所述的音频音源分离方法。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······),所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器10执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子设备中的执行过程。
所述处理器10可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器10也可以是任何常规的处理器,所述处理器10是所述电子设备的控制中心,利用各种接口和线路连接所述电子设备的各个部分。
所述存储器20主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器20可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器20也可以是其他易失性固态存储器件。
需要说明的是,上述电子设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图3结构框图仅仅是上述电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
综上,本发明实施例所提供的一种音频音源分离方法、装置、计算机可读存储介质及电子设备,通过训练后的编码模型对待分离的混合音频数据进行编码,相应获得编码特征表征,通过训练后的生成网络模型对编码特征表征进行音源分离,相应获得源音频特征表征,通过训练后的解码模型对源音频特征表征进行解码,相应获得音源分离结果,从而能够从混合音频中分离出不同类别的源音频,并且利用了大量的真实场景中的混合音频数据,结合深度学习技术对编码模型、生成网络模型和解码模型进行训练,使得模型具有较强的泛化能力,可以适用于常见的多种混合音频场景,从而提高了音源分离结果的准确性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (9)

1.一种音频音源分离方法,其特征在于,包括:
获取待分离的混合音频数据;
通过训练后的编码模型对所述待分离的混合音频数据进行编码,获得编码特征表征;
将所述编码特征表征输入至训练后的生成网络模型中,获得源音频特征表征;
通过训练后的解码模型对所述源音频特征表征进行解码,获得音源分离结果;
所述生成网络模型包括生成模块和掩码模块;
则,所述将所述编码特征表征输入至训练后的生成网络模型中,获得源音频特征表征,具体包括:
将所述编码特征表征输入至所述生成模块中,获得初始源音频数据;
将所述编码特征表征输入至所述掩码模块中,获得源音频位置掩码数据;
根据所述初始源音频数据和所述源音频位置掩码数据,获得所述源音频特征表征。
2.如权利要求1所述的音频音源分离方法,其特征在于,所述编码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成;所述解码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。
3.如权利要求1或2所述的音频音源分离方法,其特征在于,所述方法预先通过以下步骤对所述编码模型和所述解码模型进行训练:
获取混合音频训练数据集;其中,所述混合音频训练数据集中包括N个混合音频训练数据,N>1;
将N个所述混合音频训练数据输入至预设的编码模型和预设的解码模型中,对应获得N个混合音频估计数据;
根据N个所述混合音频训练数据、N个所述混合音频估计数据和预设的均方误差损失函数对所述预设的编码模型和所述预设的解码模型进行训练;其中,xj(t)表示第j个混合音频训练数据,/>表示第j个混合音频训练数据xj(t)经过编码-解码处理后对应获得的第j个混合音频估计数据,j=1,2,…,N。
4.如权利要求1所述的音频音源分离方法,其特征在于,所述生成模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成;所述掩码模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。
5.如权利要求1所述的音频音源分离方法,其特征在于,所述生成模块包括降采样层、过渡层和升采样层;所述掩码模块包括降采样层、过渡层、升采样层和二值化处理层;其中,所述二值化处理层用于对所述掩码模块的升采样层的输出进行二值化处理。
6.如权利要求1所述的音频音源分离方法,其特征在于,所述方法预先通过以下步骤对所述生成网络模型进行训练:
获取混合音频训练数据集;其中,所述混合音频训练数据集中包括N个混合音频训练数据,N>1;
通过所述编码模型对N个所述混合音频训练数据进行编码,对应获得N个训练编码特征表征;
将N个所述训练编码特征表征输入至预设的生成网络模型中,对应获得N*M个训练源音频特征表征;其中,所述预设的生成网络模型中包括M个预设的生成模块和M个预设的掩码模块,M>1;
通过所述解码模型对N*M个所述训练源音频特征表征进行解码,获得N*M个训练源音频数据;
根据N个所述混合音频训练数据、N*M个所述训练源音频特征表征、N*M个所述训练源音频数据和预设的损失函数L=Lex+Ltc+Lmc,对所述预设的生成网络模型进行训练;其中,Lex表示预设的互斥损失函数,Ltc表示预设的时间连续损失函数,Lmc表示预设的预测源音频与原混合音频差值最小化函数;且,
|| ||F表示F-范数,λ1和λ2表示归一化因子,/>表示第j个混合音频训练数据xj(t)经过所述编码模型、第i个所述预设的生成模块以及第i个所述预设的掩码模块处理后对应获得的第i个训练源音频特征表征,j=1,2,…,N,i=1,2,…,M,k=1,2,…,M;
表示/>所对应的矩阵中的第p行、第q列的元素;
表示第j个混合音频训练数据xj(t)经过所述编码模型、第i个所述预设的生成模块、第i个所述预设的掩码模块以及所述解码模型处理后对应获得的第i个训练源音频数据。
7.一种音频音源分离装置,其特征在于,包括:
混合音频数据获取单元,用于获取待分离的混合音频数据;
混合音频数据编码单元,用于通过训练后的编码模型对所述待分离的混合音频数据进行编码,获得编码特征表征;
源音频特征获取单元,用于将所述编码特征表征输入至训练后的生成网络模型中,获得源音频特征表征;
源音频特征解码单元,用于通过训练后的解码模型对所述源音频特征表征进行解码,获得音源分离结果;
所述生成网络模型包括生成模块和掩码模块;
则,所述源音频特征获取单元具体包括:
初始源音频获取子单元,用于将所述编码特征表征输入至所述生成模块中,获得初始源音频数据;
位置掩码获取子单元,用于将所述编码特征表征输入至所述掩码模块中,获得源音频位置掩码数据;
源音频特征获取子单元,用于根据所述初始源音频数据和所述源音频位置掩码数据,获得所述源音频特征表征。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1~6任一项所述的音频音源分离方法。
9.一种电子设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1~6任一项所述的音频音源分离方法。
CN202110499107.5A 2021-05-07 2021-05-07 一种音频音源分离方法、装置、存储介质及电子设备 Active CN113380270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110499107.5A CN113380270B (zh) 2021-05-07 2021-05-07 一种音频音源分离方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110499107.5A CN113380270B (zh) 2021-05-07 2021-05-07 一种音频音源分离方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN113380270A CN113380270A (zh) 2021-09-10
CN113380270B true CN113380270B (zh) 2024-03-29

Family

ID=77570847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110499107.5A Active CN113380270B (zh) 2021-05-07 2021-05-07 一种音频音源分离方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113380270B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114171053B (zh) * 2021-12-20 2024-04-05 Oppo广东移动通信有限公司 一种神经网络的训练方法、音频分离方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1160770A2 (en) * 2000-06-02 2001-12-05 Lucent Technologies Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
CN110739002A (zh) * 2019-10-16 2020-01-31 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
CN111326168A (zh) * 2020-03-25 2020-06-23 合肥讯飞数码科技有限公司 语音分离方法、装置、电子设备和存储介质
CN111370032A (zh) * 2020-02-20 2020-07-03 厦门快商通科技股份有限公司 语音分离方法、系统、移动终端及存储介质
CN111968669A (zh) * 2020-07-28 2020-11-20 安徽大学 一种多元混合声信号分离方法及装置
CN112071329A (zh) * 2020-09-16 2020-12-11 腾讯科技(深圳)有限公司 一种多人的语音分离方法、装置、电子设备和存储介质
CN112639968A (zh) * 2018-08-30 2021-04-09 杜比国际公司 用于控制对经低比特率编码的音频的增强的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10014002B2 (en) * 2016-02-16 2018-07-03 Red Pill VR, Inc. Real-time audio source separation using deep neural networks
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
US11373672B2 (en) * 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN112712819B (zh) * 2020-12-23 2022-07-26 电子科技大学 视觉辅助跨模态音频信号分离方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1160770A2 (en) * 2000-06-02 2001-12-05 Lucent Technologies Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
CN112639968A (zh) * 2018-08-30 2021-04-09 杜比国际公司 用于控制对经低比特率编码的音频的增强的方法和装置
CN110739002A (zh) * 2019-10-16 2020-01-31 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
CN111370032A (zh) * 2020-02-20 2020-07-03 厦门快商通科技股份有限公司 语音分离方法、系统、移动终端及存储介质
CN111326168A (zh) * 2020-03-25 2020-06-23 合肥讯飞数码科技有限公司 语音分离方法、装置、电子设备和存储介质
CN111968669A (zh) * 2020-07-28 2020-11-20 安徽大学 一种多元混合声信号分离方法及装置
CN112071329A (zh) * 2020-09-16 2020-12-11 腾讯科技(深圳)有限公司 一种多人的语音分离方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Speech Synthesis Approach for High Quality Speech Separation and Generation;Qingju Liu;《IEEE Signal Processing Letters》;全文 *
基于深度学习的特定人单声道语音分离研究;张一萱;《中国优秀硕士学位论文全文数据库》;全文 *

Also Published As

Publication number Publication date
CN113380270A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
Gu et al. Stack-captioning: Coarse-to-fine learning for image captioning
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
Simeone A brief introduction to machine learning for engineers
Fraccaro et al. Sequential neural models with stochastic layers
Hsu et al. Unsupervised learning of disentangled and interpretable representations from sequential data
CN109844773B (zh) 使用卷积神经网络处理序列
Xu et al. Adversarially approximated autoencoder for image generation and manipulation
WO2020024646A1 (en) Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
Mansimov et al. Generating images from captions with attention
Vinyals et al. Learning with recursive perceptual representations
WO2020064990A1 (en) Committed information rate variational autoencoders
US10706350B1 (en) Video analysis using convolutional networks
CN113222998B (zh) 基于自监督低秩网络的半监督图像语义分割方法及装置
KR20210034462A (ko) 픽셀 별 주석을 생성하는 생성적 적대 신경망(gan)을 학습시키는 방법
CN113380270B (zh) 一种音频音源分离方法、装置、存储介质及电子设备
DE102022131824A1 (de) Visuelle Spracherkennung für Digitalvideos unter Einsatz generativ-adversativen Lernens
CN116206314A (zh) 模型训练方法、公式识别方法、装置、介质及设备
CN116956835A (zh) 一种基于预训练语言模型的文书生成方法
Li et al. An audio-visual speech separation model inspired by cortico-thalamo-cortical circuits
US20230394306A1 (en) Multi-Modal Machine Learning Models with Improved Computational Efficiency Via Adaptive Tokenization and Fusion
Wang et al. Deep learning in audio classification
CN116013274A (zh) 语音识别的方法、装置、计算机设备和存储介质
CN114464267A (zh) 模型训练与生成物预测的方法及装置
CN112509559A (zh) 音频识别方法、模型训练方法、装置、设备及存储介质
WO2020250220A1 (en) Sound analysis for determination of sound sources and sound isolation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant