CN111091800A - 歌曲生成方法和装置 - Google Patents

歌曲生成方法和装置 Download PDF

Info

Publication number
CN111091800A
CN111091800A CN201911357117.4A CN201911357117A CN111091800A CN 111091800 A CN111091800 A CN 111091800A CN 201911357117 A CN201911357117 A CN 201911357117A CN 111091800 A CN111091800 A CN 111091800A
Authority
CN
China
Prior art keywords
singing voice
signal
song
trained
optimization model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911357117.4A
Other languages
English (en)
Other versions
CN111091800B (zh
Inventor
熊皓
何中军
李芝
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201911357117.4A priority Critical patent/CN111091800B/zh
Publication of CN111091800A publication Critical patent/CN111091800A/zh
Application granted granted Critical
Publication of CN111091800B publication Critical patent/CN111091800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本公开涉及音频数据处理技术领域。本公开的实施例公开了歌曲生成方法和装置。该方法包括:从参考歌曲的音频中提取出参考歌声信号和伴奏信号,获取用户歌唱参考歌曲的用户歌声信号;采用已训练的歌声优化模型中的说话人声纹编码器对用户歌声信号进行编码,采用已训练的歌声优化模型中的音乐编码器对参考歌声信号和伴奏信号进行编码;基于用户歌声信号的编码、参考歌声信号的编码和伴奏信号的编码,采用已训练的歌声优化模型中的频谱解码器进行解码,得到优化后的歌曲的频谱信号;将优化后的歌曲的频谱信号转换为优化后的歌曲的音频。该方法能够差异化地优化用户演唱的不同歌曲,丰富了歌曲的生成方式。

Description

歌曲生成方法和装置
技术领域
本公开的实施例涉及计算机技术领域,具体涉及音频处理技术领域,尤其涉及歌曲生成方法和装置。
背景技术
歌曲是将人声与音乐相结合形成的有声产品。歌曲的制作方法一般是录制歌唱者的歌声,然后将歌声与伴奏合成。
随着语音技术和人工智能的发展,歌曲的制作方式也越来越多样。目前一些音乐应用提供对用户演唱的歌曲进行优化的功能,具体实现方式是通过后台调音器对用户的声音进行滤波等处理,或者通过调整基频或音长等语音特征来平滑用户的声音。这种优化方式针对不同的歌曲采用相同的优化策略,优化方法单一,优化效果有待提升。
发明内容
本公开的实施例提出了歌曲生成方法和装置、电子设备和计算机可读介质。
第一方面,本公开的实施例提供了一种歌曲生成方法,包括:从参考歌曲的音频中提取出参考歌声信号和伴奏信号,获取用户歌唱参考歌曲的用户歌声信号;采用已训练的歌声优化模型中的说话人声纹编码器对用户歌声信号进行编码,采用已训练的歌声优化模型中的音乐编码器对参考歌声信号和伴奏信号进行编码;基于用户歌声信号的编码、参考歌声信号的编码和伴奏信号的编码,采用已训练的歌声优化模型中的频谱解码器进行解码,得到优化后的歌曲的频谱信号;将优化后的歌曲的频谱信号转换为优化后的歌曲的音频。
在一些实施例中,上述基于用户歌声信号的编码、参考歌声信号的编码和伴奏信号的编码,采用已训练的歌声优化模型中的频谱解码器进行解码,包括:将用户歌声信号的编码与参考歌声信号的编码拼接形成歌声编码,采用已训练的歌声优化模型中的频谱解码器对歌声编码和伴奏信号的编码进行解码。
在一些实施例中,上述方法还包括训练歌声优化模型的步骤,包括:基于说话人声纹识别任务训练说话人声纹编码器;基于已训练完成的说话人声纹编码器对歌声优化模型中的音乐编码器和频谱解码器进行训练。
在一些实施例中,上述歌声优化模型还包括声码器;基于已训练完成的说话人声纹编码器对歌声优化模型中的音乐编码器和频谱解码器进行训练,包括:获取样本参考歌曲的音频,从样本参考歌曲的音频中提取出样本参考歌声信号和样本伴奏信号;采用待训练的音乐编码器对样本参考歌声信号和样本伴奏信号进行编码;采用已训练完成的说话人声纹编码器对样本参考歌声信号进行声纹特征编码;将样本参考歌声信号的声纹特征编码与样本参考歌声信号的编码拼接,得到样本参考歌声的编码;采用待训练的频谱解码器对样本参考歌声的编码和样本伴奏信号的编码进行解码,得到样本参考歌曲的频谱信号;采用声码器对样本参考歌曲的频谱信号进行转换,得到待训练的歌声优化模型对样本参考歌曲的音频的优化结果;基于待训练的歌声优化模型对样本参考歌曲的音频的优化结果与对应的样本参考歌曲的音频之间的差异,迭代调整待训练的音乐编码器、待训练的频谱解码器的参数。
在一些实施例中,上述频谱解码器至少包括依次连接的三个注意力解码单元,三个注意力解码单元分别将频谱解码器对优化后的歌曲的频谱信号的预测结果、音乐编码模块对参考歌声信号的编码和音乐编码模块对伴奏信号的编码接入频谱解码器进行解码。
第二方面,本公开的实施例提供了一种歌曲生成装置,包括:获取单元,被配置为从参考歌曲的音频中提取出参考歌声信号和伴奏信号,获取用户歌唱参考歌曲的用户歌声信号;编码单元,被配置为采用已训练的歌声优化模型中的说话人声纹编码器对用户歌声信号进行编码,采用已训练的歌声优化模型中的音乐编码器对参考歌声信号和伴奏信号进行编码;解码单元,被配置为基于用户歌声信号的编码、参考歌声信号的编码和伴奏信号的编码,采用已训练的歌声优化模型中的频谱解码器进行解码,得到优化后的歌曲的频谱信号;转换单元,被配置为将优化后的歌曲的频谱信号转换为优化后的歌曲的音频。
在一些实施例中,上述解码单元被配置为按照如下方式进行解码:将用户歌声信号的编码与参考歌声信号的编码拼接形成歌声编码,采用已训练的歌声优化模型中的频谱解码器对歌声编码和伴奏信号的编码进行解码。
在一些实施例中,上述装置还包括训练单元,被配置为按照如下方式训练歌声优化模型:基于说话人声纹识别任务训练说话人声纹编码器;基于已训练完成的说话人声纹编码器对歌声优化模型中的音乐编码器和频谱解码器进行训练。
在一些实施例中,上述歌声优化模型还包括声码器;上述训练单元进一步被配置为基于已训练完成的说话人声纹编码器,按照如下方式对歌声优化模型中的音乐编码器和频谱解码器进行训练:获取样本参考歌曲的音频,从样本参考歌曲的音频中提取出样本参考歌声信号和样本伴奏信号;采用待训练的音乐编码器对样本参考歌声信号和样本伴奏信号进行编码;采用已训练完成的说话人声纹编码器对样本参考歌声信号进行声纹特征编码;将样本参考歌声信号的声纹特征编码与样本参考歌声信号的编码拼接,得到样本参考歌声的编码;采用待训练的频谱解码器对样本参考歌声的编码和样本伴奏信号的编码进行解码,得到样本参考歌曲的频谱信号;采用声码器对样本参考歌曲的频谱信号进行转换,得到待训练的歌声优化模型对样本参考歌曲的音频的优化结果;基于待训练的歌声优化模型对样本参考歌曲的音频的优化结果与对应的样本参考歌曲的音频之间的差异,迭代调整待训练的音乐编码器、待训练的频谱解码器的参数。
在一些实施例中,上述频谱解码器至少包括依次连接的三个注意力解码单元,三个注意力解码单元分别将频谱解码器对优化后的歌曲的频谱信号的预测结果、音乐编码模块对参考歌声信号的编码和音乐编码模块对伴奏信号的编码接入频谱解码器进行解码。
第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面提供的歌曲生成方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现第一方面提供的歌曲生成方法。
本公开的上述实施例的歌曲生成方法和装置,通过从参考歌曲的音频中提取出参考歌声信号和伴奏信号,获取用户歌唱参考歌曲的用户歌声信号,采用已训练的歌声优化模型中的说话人声纹编码器对用户歌声信号进行编码,采用已训练的歌声优化模型中的音乐编码器对参考歌声信号和伴奏信号进行编码,基于用户歌声信号的编码、参考歌声信号的编码和伴奏信号的编码,采用已训练的歌声优化模型中的频谱解码器进行解码,得到优化后的歌曲的频谱信号,将优化后的歌曲的频谱信号转换为优化后的歌曲的音频,实现了对用户演唱的歌曲的自动优化,提升了歌曲生成方式的多样性。由于不同参考歌曲的风格、演唱方式等具有差异化,所以本公开的上述歌曲生成方法和装置能够差异化地优化用户演唱的不同歌曲,提升了优化效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的歌曲生成方法的一个实施例的流程图;
图3是根据本公开的歌曲生成方法的另一个实施例的流程图;
图4是歌声优化模型的一个示例性结构图;
图5是歌声优化模型中的频谱解码器的示例性结构示意图;
图6是本公开的歌曲生成装置的一个实施例的结构示意图;
图7是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的歌曲生成方法或歌曲生成装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是用户端设备,其上可以安装有各种音频输入应用。例如,歌唱类应用、音视频播放应用、语音服务类应用,等等。用户110可以使用终端设备101、102、103录制音频数据。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是运行各种服务的服务器,例如为终端设备101、102、103上运行的音频输入应用提供后台支持的服务器。服务器105可以接收终端设备101、102、103发送的音频数据,对音频数据进行处理,并将处理结果反馈至终端设备101、102、103。
在具体的应用场景中,服务器105可以是提供歌曲优化服务的服务器。服务器105可以从终端设备101、102、103接收用户录制的歌曲,然后利用已训练的歌声优化模型对用户的歌声进行优化,生成优化后的歌曲音频,并将优化后的歌曲音频发送至终端设备101、102、103。终端设备101、102、103可以通过音频输出装置向用户输出优化后的歌曲音频。
需要说明的是,本公开的实施例所提供的歌曲生成方法一般由服务器105执行,相应地,歌曲生成装置一般设置于服务器105中。
在一些场景中,服务器105可以从数据库、存储器或其他设备获取用户演唱歌曲的音频,这时,示例性系统架构100可以不存在终端设备101、102、103和网络104。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,其示出了根据本公开的歌曲生成方法的一个实施例的流程200。该歌曲生成方法,包括:
步骤201,从参考歌曲的音频中提取出参考歌声信号和伴奏信号,获取用户歌唱参考歌曲的用户歌声信号。
在本实施例中,歌曲生成方法的执行主体可以获取用户歌唱参考歌曲所生成的音频,并从中提取出歌声信号作为用户歌声信号。上述执行主体也可以获取录制用户歌唱参考歌曲时的歌声所形成的用户歌声信号。
参考歌曲可以是用户选择演唱的歌曲。参考歌曲的音频可以是参考歌曲的原唱音频,或者高质量的翻唱音频。可以从参考歌曲的音频中将歌声信号和伴奏信号分离得到参考歌声信号和参考歌曲的伴奏信号。
可以采用多种方法从参考歌曲的音频中提取出参考歌声信号和伴奏信号。例如可以将参考歌曲的音频通过傅里叶变换得到伴奏信号和歌声信号的混合振幅谱和混合相位谱。然后利用已训练的分离模型(可以基于深度神经网络构建)分离出人声和伴奏声的振幅谱。分离出来的人声和伴奏声的振幅谱与混合相位谱经过逆傅里叶变换,可以得到歌声信号和伴奏信号。
又例如,可以通过音频滤波来提取歌声信号和伴奏信号。可以将参考歌曲的音频复制到两个音轨上,分别滤除高频的人声信号和低频的伴奏信号来实现歌声信号和伴奏信号的分离。
步骤202,采用已训练的歌声优化模型中的说话人声纹编码器对用户歌声信号进行编码,采用已训练的歌声优化模型中的音乐编码器对参考歌声信号和伴奏信号进行编码。
在本实施例中,可以获取预先训练的歌声优化模型。歌声优化模型可以包括说话人声纹编码器和音乐编码器。其中说话人声纹编码器用于对输入的声音信号中的说话人的声纹特征进行编码。音乐编码器可以对输入的声音信号中的旋律、音高、音色等音乐特征进行编码。
在预先训练歌声优化模型时,可以基于说话人识别任务对说话人声纹编码器进行训练。具体地,可以获取样本歌曲集合并标注其中的样本歌曲的演唱者,采用待训练的说话人声纹编码器对样本歌曲中的歌声信号提取特征并编码,利用分类器对说话人声纹编码器的编码结果进行说话人身份识别,根据识别结果与标注的演唱者是否一致确定待训练的说话人声纹编码器的误差,根据该误差迭代调整说话人声纹编码器的参数,直到该误差收敛至一定的范围。
上述音乐编码器可以基于歌曲合成任务训练得出。具体地,可以采用待训练的音乐编码器对样本歌曲的歌声信号和伴奏信号分别进行编码,然后采用已训练完成的音乐合成模型对编码结果进行合成,采用已根据包含人工对歌曲质量的打分结果的歌曲集合训练得到的歌曲质量评估模型来评估音乐合成模型合成的歌曲的质量,然后根据评估结果迭代调整待训练的音乐编码器的参数。
音乐编码器可以采用与自然语言处理技术中用于处理序列数据的transformer单元(转换单元)中的编码器Encoder类似的结构,包括至少两个Self Attention(自注意力)单元。
上述说话人声纹编码器可以对用户的声纹进行编码,音乐编码器可以对歌曲的歌声信号和伴奏信号进行编码,这样,歌声优化模型可以分别获得用户的声纹特征、参考歌声的特征以及伴奏的特征,以便在后续流程中将用户的声纹特征与参考歌声的特征融合,实现用户歌声的优化。
步骤203,基于用户歌声信号的编码、参考歌声信号的编码和伴奏信号的编码,采用已训练的歌声优化模型中的频谱解码器进行解码,得到优化后的歌曲的频谱信号。
可以将说话人声纹编码器对用户歌声信号的编码、上述音乐编码器对参考歌声信号的编码和对伴奏信号的编码输入至已训练的歌声优化模型中的频谱解码器、频谱解码器可以采用卷积神经网络构建。进一步地,频谱解码器可以采用与自然语言处理技术中用于处理序列数据的transformer单元(转换单元)中的解码器Decoder类似的结构,包括至少两个Multi-head Attention(多头注意力)单元。该多头注意力单元可以是基于注意力机制的神经网络。其中一个多头注意力单元接收频谱解码器的输出,另一个多头注意力单元接收说话人声纹编码器和音乐编码器的输出,并基于说话人声纹编码器的编码结果和音乐编码器的编码器结果进行解码,得到频谱信号。
上述频谱解码器可以独立于音乐编码器、说话人编码器进行训练。具体地,可以在对说话人编码器和音乐编码器训练完成之后,收集样本歌曲音频构建频谱解码器的训练样本,基于说话人编码器对样本歌曲音频中的演唱者的声纹的编码、音乐编码器对样本歌曲音频中的歌声信号的编码以及对样本歌曲音频中的伴奏信号的编码,利用待训练的频谱解码器进行解码,然后将解码结果与样本歌曲音频对应的频谱信号进行比对,根据比对结果确定待训练的频谱解码器的误差,并依据该误差迭代调整待训练的频谱解码器的参数。
上述频谱解码器也可以与音乐编码器一同训练。即在每次迭代训练过程中,根据待训练的音乐编码器对样本歌曲音频中的歌声信号和伴奏信号的编码,以及待训练的频谱解码器对音乐编码器的编码结果集说话人声纹编码器对演唱者声纹的编码的解码结果,对待训练的音乐编码器和待训练的频谱解码器的参数一并调整。
步骤204,将优化后的歌曲的频谱信号转换为优化后的歌曲的音频。
可以通过逆傅立叶变换将频谱解码器输出的频谱信号转换为时域信号,则得到优化后的歌曲的音频。该优化后的歌曲的音频是对用户的歌声优化后的音频。
本实施例的方法可以融合参考歌曲的参考歌声与用户的歌声,针对不同演唱者演唱的参考歌曲或者不同的参考歌曲,演唱者的歌声特征是差异化的,因此本实施例的歌曲生成方法可以基于不同参考歌曲对用户的歌声进行差异化地优化,有效地丰富了歌曲的生成方式,提升了优化效果。
在实践中,若用户演唱的歌曲有两个歌手A、B演唱的两个版本,则用户选择歌手A演唱的版本、采用上述实施例的方法对自己的歌声进行优化后,得到第一版本的优化结果;用户选择歌手B演唱的版本、采用上述实施例的方法对自己的歌声进行优化后,得到第二版本的优化结果。两个版本的优化结果分别融合了歌手A的演唱特点和歌手B的演唱特点,由此可以生成丰富多样的歌曲音频。
请参考图3,其示出了本公开的歌曲生成方法的另一个实施例的流程图。如图3所示,本实施例的歌曲生成方法的流程300,包括以下步骤:
步骤301,从参考歌曲的音频中提取出参考歌声信号和伴奏信号,获取用户歌唱参考歌曲的用户歌声信号。
在本实施例中,歌曲生成方法的执行主体可以获取参考歌曲的音频,采用基于深度学习的方法、或者滤波的方法等将参考歌曲的音频中的人声和伴奏分离,得到参考歌声信号和伴奏信号。上述执行主体还可以与录制用户歌唱参考歌曲的音频的设备连接来获取用户歌声信号,或者获取用户主动上传的歌唱参考歌曲的用户歌声信号。
步骤302,采用已训练的歌声优化模型中的说话人声纹编码器对用户歌声信号进行编码,采用已训练的歌声优化模型中的音乐编码器对参考歌声信号和伴奏信号进行编码。
可以将获取到的参考歌声信号、用户歌声信号和伴奏信号输入已训练的歌声优化模型。已训练的歌声优化模型包括说话人声纹编码器、音乐编码器以及频谱解码器。其中,说话人声纹编码器用于对输入的用户歌声信号中的用户的声纹特征进行提取和编码,音乐编码器用于对参考歌声信号和伴奏信号的特征进行编码。
本实施例中的步骤301和步骤302分别与前述实施例的步骤201、步骤202一致,步骤301和步骤302的具体实现方式可以分别参考前述实施例中步骤201和步骤202的描述,此处不再赘述。
步骤303,将用户歌声信号的编码与参考歌声信号的编码拼接形成歌声编码,采用已训练的歌声优化模型中的频谱解码器对歌声编码和伴奏信号的编码进行解码,得到优化后的歌曲的频谱信号。
在本实施例中,可以将说话人编码器对用户歌声信号的编码通过concat(连接)的方式与参考歌声信号的编码拼接在一起,形成歌声编码,然后将歌声编码和伴奏信号输入至已训练的歌声生成模型中的频谱解码器进行解码。将用户歌声信号的编码与参考歌声信号的编码拼接后得到的歌声编码中包含用户的声纹特征以及参考歌声的特征。这样在训练歌曲优化模型的过程中,频谱解码器可以学习如何将歌声编码和伴奏信号的编码通过解码合成为歌曲信号的频谱。并且,在训练歌曲优化模型的过程中,还可以学习说话人编码器对用户歌声信号的编码与参考歌声信号的编码之间的拼接方式,进而提升频谱解码器解码结果的准确性。
请参考图4,其示出了歌曲优化模型的一个示例性结构图。其中,歌曲优化模型包括说话人声纹编码器、音乐编码器1、音乐编码器2、频谱解码器。其中,说话人声纹编码器接收用户歌声信号并编码,音乐编码器1接收参考歌声信号的MFCC(Mel-scale FrequencyCepstral Coefficients,梅尔倒谱系数)采样特征,音乐编码器2接收伴奏信号的MFCC采样特征。说话人声纹编码器的输出与音乐编码器1通过concat操作连接。频谱解码器接收音乐编码器1和音乐编码器2的输出,并输出频谱信号。
可选地,歌曲优化模型还可以包括声码器。声码器经频谱解码器解码得到的频谱信号转换为时域的信号,即得到优化后的歌曲的音频信号。
图5示出了频谱解码器的一个示例性结构示意图。频谱解码器可以至少包括依次连接的三个注意力解码单元1、2、3。注意力解码单元可以是Multi-Head Attention单元,其可以由全连接层等网络层构成,解码过程中可以将编码序列中所关注的位置通过权值的参数传递至当前位置的解码中。注意力解码单元1将频谱解码器已预测出的歌声信号的MFCC特征接入,注意力解码单元2将音乐编码模块1对参考歌声信号的编码接入,注意力解码单元3将音乐编码模块2对伴奏信号的编码接入。频谱解码器可以接收由说话人编码模块对用户的声纹特征编码后与参考歌声信号特征编码拼接后形成的歌声编码中的语义信息、以及伴奏信号中的语义信息,使得解码结果更准确可靠。
步骤304,将优化后的歌曲的频谱信号转换为优化后的歌曲的音频。
本实施例的步骤304与前述实施例的步骤204一致,步骤304的具体实现方式可以参考前述实施例中对步骤204的描述,此处不再赘述。
本实施例的歌曲生成方法的流程300通过将说话人声纹编码与参考歌声信号的编码连接形成歌声编码,使得频谱解码器可以直接对歌声编码和伴奏信号的编码进行解码,降低了频谱解码器的计算复杂度,从而提升歌声优化的效率。并且在训练歌声优化模型过程中频谱解码器无需学习如何融合说话人的声纹特征和歌曲演唱者的歌声特征,有助于提升训练效率。
在上述实施例的一些可选的实现方式中,歌曲生成方法的流程还可以包括训练歌声优化模型的步骤。该训练歌声优化模型的步骤包括:首先基于说话人声纹识别任务训练说话人声纹编码器,然后基于已训练完成的说话人声纹编码器对歌声优化模型中的音乐编码器和频谱解码器进行训练。
可以收集歌曲音频并标注其中的演唱者来构建用于训练说话人声纹编码器的样本集合。根据待训练的说话人声纹编码器对歌曲音频中的歌声信号的编码结果,采用分类器来识别演唱者,并基于分类器的错误识别率构建说话人声纹编码器的损失函数,基于损失函数迭代调整说话人声纹编码器的参数,多次迭代后分类器基于说话人声纹编码器的编码结果的识别错误率收敛后得到训练完成的说话人声纹编码器。
可以通过执行多轮迭代操作来训练歌声优化模型中的音乐编码器和频谱解码器,具体地,每一轮迭代操作可以按照如下方式执行:
首先,获取样本参考歌曲的音频,从样本参考歌曲的音频中提取出样本参考歌声信号和样本伴奏信号。样本参考歌曲可以通过收集歌曲作品来获取,可以采用滤波、基于深度学习等的方法将人声和伴奏分离得到样本参考歌声和样本伴奏信号。
随后,采用待训练的音乐编码器对样本参考歌声信号和样本伴奏信号进行编码。待训练的音乐编码器可以基于卷积神经网络构建,可以包括多个卷积层和全连接层。在本实施例中,可以初始化待训练的音乐编码器的参数,在每一轮迭代操作中采用当前的音乐编码器对述样本参考歌声信号和样本伴奏信号进行编码。
而后,采用已训练完成的说话人声纹编码器对样本参考歌声信号进行声纹特征编码。
然后,将参考歌声信号的声纹特征编码与样本参考歌声信号的编码拼接,得到样本参考歌声的编码。可以将说话人声纹编码器对参考歌声信号的编码结果通过concat操作与音乐编码器对样本参考歌声信号的编码结果拼接,形成样本参考歌声的编码。
之后,采用待训练的频谱解码器对样本参考歌声的编码和样本伴奏信号的编码进行解码,得到样本参考歌曲的频谱信号。待训练的频谱解码器可以基于卷积神经网络构建,包括多个卷积层和全连接层。可以初始化待训练的频谱解码器的参数,在每轮迭代操作中采用当前的频谱解码器对样本参考歌声的编码和样本伴奏信号的编码进行解码。
之后,将样本参考歌曲的频谱信号转换为时域信号,得到待训练的歌声优化模型对样本参考歌曲的音频的优化结果。可选地,上述歌声优化模型还可以包括声码器,则在此步骤中,可以采用声码器对样本参考歌曲的频谱信号进行转换。在这里,声码器可以是预先训练完成的,也可以是通过歌声优化模型的训练与上述说话人声纹编码器、音乐编码器一并训练得到的。
最后,基于待训练的歌声优化模型对样本参考歌曲的音频的优化结果与对应的样本参考歌曲的音频之间的差异,迭代调整待训练的音乐编码器、待训练的频谱解码器的参数。可以构建目标监督函数,目标监督函数的值表征当前迭代操作中待训练的歌声优化模型对样本参考歌曲的音频的优化结果与对应的样本参考歌曲的音频之间的差异,判断损失函数是否达到预设的收敛条件,若未达到,则采用梯度下降法调整歌声优化模型中的说话人声纹编码器、音乐编码器的参数,更新说话人声纹编码器、音乐编码器。并继续执行下一轮迭代操作。若某一轮迭代操作之后目标监督函数达到预设的收敛条件,则停止训练,得到训练完成的歌声优化模型。
通过上述流程,可以收集大量的歌曲音频来训练歌声优化模型。在实践中由用户演唱并基于歌手演唱的歌曲音频优化后的歌曲样本数量较少且难以获取,本实施例中通过利用参考歌曲的歌声信号作为说话人声纹编码器的输入,使得说话人声纹编码器能够学习演唱者的声纹特征,并且训练过程中歌声优化模型可以学习将演唱者的声纹特征与歌曲音频中的歌声信号特征和伴奏信号的特征融合,从而得到可靠的歌声优化模型,进而可以提升歌声优化效果。
在一些实施例中,上述歌曲生成方法的流程还可以包括:向用户推送优化后的歌曲的音频。用户接收到推送的优化后的歌曲音频之后,可以播放、发布在社交平台,或者存储在本地或云存储空间,还可以进一步对优化后的歌曲的音频进行调音、效果合成等操作。由于已经通过上述流程对用户的歌声进行了优化,本公开的实施例可以有效降低歌曲的后期制作难度。
请参考图6,作为对上述歌曲生成方法的实现,本公开提供了一种歌曲生成装置的一个实施例,该装置实施例与图2和图3所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的歌曲生成装置600包括获取单元601、编码单元602、解码单元603以及转换单元604。其中,获取单元601被配置为从参考歌曲的音频中提取出参考歌声信号和伴奏信号,获取用户歌唱参考歌曲的用户歌声信号;编码单元602被配置为采用已训练的歌声优化模型中的说话人声纹编码器对用户歌声信号进行编码,采用已训练的歌声优化模型中的音乐编码器对参考歌声信号和伴奏信号进行编码;解码单元603被配置为基于用户歌声信号的编码、参考歌声信号的编码和伴奏信号的编码,采用已训练的歌声优化模型中的频谱解码器进行解码,得到优化后的歌曲的频谱信号;转换单元604被配置为将优化后的歌曲的频谱信号转换为优化后的歌曲的音频。
在一些实施例中,上述解码单元603被配置为按照如下方式进行解码:将用户歌声信号的编码与参考歌声信号的编码拼接形成歌声编码,采用已训练的歌声优化模型中的频谱解码器对歌声编码和伴奏信号的编码进行解码。
在一些实施例中,上述装置还包括训练单元,被配置为按照如下方式训练歌声优化模型:基于说话人声纹识别任务训练说话人声纹编码器;基于已训练完成的说话人声纹编码器对歌声优化模型中的音乐编码器和频谱解码器进行训练。
在一些实施例中,上述歌声优化模型还包括声码器;上述训练单元进一步被配置为基于已训练完成的说话人声纹编码器,按照如下方式对歌声优化模型中的音乐编码器和频谱解码器进行训练:获取样本参考歌曲的音频,从样本参考歌曲的音频中提取出样本参考歌声信号和样本伴奏信号;采用待训练的音乐编码器对样本参考歌声信号和样本伴奏信号进行编码;采用已训练完成的说话人声纹编码器对样本参考歌声信号进行声纹特征编码;将样本参考歌声信号的声纹特征编码与样本参考歌声信号的编码拼接,得到样本参考歌声的编码;采用待训练的频谱解码器对样本参考歌声的编码和样本伴奏信号的编码进行解码,得到样本参考歌曲的频谱信号;采用声码器对样本参考歌曲的频谱信号进行转换,得到待训练的歌声优化模型对样本参考歌曲的音频的优化结果;基于待训练的歌声优化模型对样本参考歌曲的音频的优化结果与对应的样本参考歌曲的音频之间的差异,迭代调整待训练的音乐编码器、待训练的频谱解码器的参数。
在一些实施例中,上述频谱解码器至少包括依次连接的三个注意力解码单元,三个注意力解码单元分别将频谱解码器对优化后的歌曲的频谱信号的预测结果、音乐编码模块对参考歌声信号的编码和音乐编码模块对伴奏信号的编码接入频谱解码器进行解码。
上述装置600中的各单元与参考图2和图3描述的方法中的步骤相对应。由此,上文针对歌曲生成方法描述的操作、特征及所能达到的技术效果同样适用于装置600及其中包含的单元,在此不再赘述。
下面参考图7,其示出了适于用来实现本公开的实施例的电子设备(例如图1所示的服务器)700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707;包括例如硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置708被安装,或者从ROM 702被安装。在该计算机程序被处理装置701执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:从参考歌曲的音频中提取出参考歌声信号和伴奏信号,获取用户歌唱参考歌曲的用户歌声信号;采用已训练的歌声优化模型中的说话人声纹编码器对用户歌声信号进行编码,采用已训练的歌声优化模型中的音乐编码器对参考歌声信号和伴奏信号进行编码;基于用户歌声信号的编码、参考歌声信号的编码和伴奏信号的编码,采用已训练的歌声优化模型中的频谱解码器进行解码,得到优化后的歌曲的频谱信号;将优化后的歌曲的频谱信号转换为优化后的歌曲的音频。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个器、程序段、或代码的一部分,该器、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、编码单元、解码单元以及转换单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“从参考歌曲的音频中提取出参考歌声信号和伴奏信号、获取用户歌唱参考歌曲的用户歌声信号的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种歌曲生成方法,包括:
从参考歌曲的音频中提取出参考歌声信号和伴奏信号,获取用户歌唱所述参考歌曲的用户歌声信号;
采用已训练的歌声优化模型中的说话人声纹编码器对所述用户歌声信号进行编码,采用所述已训练的歌声优化模型中的音乐编码器对所述参考歌声信号和所述伴奏信号进行编码;
基于所述用户歌声信号的编码、所述参考歌声信号的编码和所述伴奏信号的编码,采用所述已训练的歌声优化模型中的频谱解码器进行解码,得到优化后的歌曲的频谱信号;
将所述优化后的歌曲的频谱信号转换为优化后的歌曲的音频。
2.根据权利要求1所述的方法,其中,所述基于所述用户歌声信号的编码、所述参考歌声信号的编码和所述伴奏信号的编码,采用所述已训练的歌声优化模型中的频谱解码器进行解码,包括:
将所述用户歌声信号的编码与所述参考歌声信号的编码拼接形成歌声编码,采用所述已训练的歌声优化模型中的频谱解码器对所述歌声编码和所述伴奏信号的编码进行解码。
3.根据权利要求1或2所述的方法,其中,所述方法还包括训练歌声优化模型的步骤,包括:
基于说话人声纹识别任务训练所述说话人声纹编码器;
基于已训练完成的说话人声纹编码器对所述歌声优化模型中的音乐编码器和频谱解码器进行训练。
4.根据权利要求3所述的方法,其中,所述歌声优化模型还包括声码器;
所述基于已训练完成的说话人声纹编码器对所述歌声优化模型中的音乐编码器和频谱解码器进行训练,包括:
获取样本参考歌曲的音频,从所述样本参考歌曲的音频中提取出样本参考歌声信号和样本伴奏信号;
采用待训练的音乐编码器对所述样本参考歌声信号和样本伴奏信号进行编码;
采用已训练完成的所述说话人声纹编码器对所述样本参考歌声信号进行声纹特征编码;
将所述样本参考歌声信号的声纹特征编码与所述样本参考歌声信号的编码拼接,得到样本参考歌声的编码;
采用待训练的频谱解码器对所述样本参考歌声的编码和所述样本伴奏信号的编码进行解码,得到样本参考歌曲的频谱信号;
采用所述声码器对所述样本参考歌曲的频谱信号进行转换,得到待训练的歌声优化模型对所述样本参考歌曲的音频的优化结果;
基于所述待训练的歌声优化模型对所述样本参考歌曲的音频的优化结果与对应的样本参考歌曲的音频之间的差异,迭代调整待训练的音乐编码器、待训练的频谱解码器的参数。
5.根据权利要求1-4任一项所述的方法,其中,所述频谱解码器至少包括依次连接的三个注意力解码单元,所述三个注意力解码单元分别将所述频谱解码器对优化后的歌曲的频谱信号的预测结果、所述音乐编码模块对所述参考歌声信号的编码和所述音乐编码模块对所述伴奏信号的编码接入所述频谱解码器进行解码。
6.一种歌曲生成装置,包括:
获取单元,被配置为从参考歌曲的音频中提取出参考歌声信号和伴奏信号,获取用户歌唱所述参考歌曲的用户歌声信号;
编码单元,被配置为采用已训练的歌声优化模型中的说话人声纹编码器对所述用户歌声信号进行编码,采用所述已训练的歌声优化模型中的音乐编码器对所述参考歌声信号和所述伴奏信号进行编码;
解码单元,被配置为基于所述用户歌声信号的编码、所述参考歌声信号的编码和所述伴奏信号的编码,采用所述已训练的歌声优化模型中的频谱解码器进行解码,得到优化后的歌曲的频谱信号;
转换单元,被配置为将所述优化后的歌曲的频谱信号转换为优化后的歌曲的音频。
7.根据权利要求6所述的装置,其中,所述解码单元被配置为按照如下方式进行解码:
将所述用户歌声信号的编码与所述参考歌声信号的编码拼接形成歌声编码,采用所述已训练的歌声优化模型中的频谱解码器对所述歌声编码和所述伴奏信号的编码进行解码。
8.根据权利要求6或7所述的装置,其中,所述装置还包括训练单元,被配置为按照如下方式训练歌声优化模型:
基于说话人声纹识别任务训练所述说话人声纹编码器;
基于已训练完成的说话人声纹编码器对所述歌声优化模型中的音乐编码器和频谱解码器进行训练。
9.根据权利要求8所述的装置,其中,所述歌声优化模型还包括声码器;
所述训练单元进一步被配置为基于已训练完成的说话人声纹编码器,按照如下方式对所述歌声优化模型中的音乐编码器和频谱解码器进行训练:
获取样本参考歌曲的音频,从所述样本参考歌曲的音频中提取出样本参考歌声信号和样本伴奏信号;
采用待训练的音乐编码器对所述样本参考歌声信号和样本伴奏信号进行编码;
采用已训练完成的所述说话人声纹编码器对所述样本参考歌声信号进行声纹特征编码;
将所述样本参考歌声信号的声纹特征编码与所述样本参考歌声信号的编码拼接,得到样本参考歌声的编码;
采用待训练的频谱解码器对所述样本参考歌声的编码和所述样本伴奏信号的编码进行解码,得到样本参考歌曲的频谱信号;
采用所述声码器对所述样本参考歌曲的频谱信号进行转换,得到待训练的歌声优化模型对所述样本参考歌曲的音频的优化结果;
基于所述待训练的歌声优化模型对所述样本参考歌曲的音频的优化结果与对应的样本参考歌曲的音频之间的差异,迭代调整待训练的音乐编码器、待训练的频谱解码器的参数。
10.根据权利要求6-9任一项所述的装置,其中,所述频谱解码器至少包括依次连接的三个注意力解码单元,所述三个注意力解码单元分别将所述频谱解码器对优化后的歌曲的频谱信号的预测结果、所述音乐编码模块对所述参考歌声信号的编码和所述音乐编码模块对所述伴奏信号的编码接入所述频谱解码器进行解码。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201911357117.4A 2019-12-25 2019-12-25 歌曲生成方法和装置 Active CN111091800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911357117.4A CN111091800B (zh) 2019-12-25 2019-12-25 歌曲生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911357117.4A CN111091800B (zh) 2019-12-25 2019-12-25 歌曲生成方法和装置

Publications (2)

Publication Number Publication Date
CN111091800A true CN111091800A (zh) 2020-05-01
CN111091800B CN111091800B (zh) 2022-09-16

Family

ID=70397236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911357117.4A Active CN111091800B (zh) 2019-12-25 2019-12-25 歌曲生成方法和装置

Country Status (1)

Country Link
CN (1) CN111091800B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111653256A (zh) * 2020-08-10 2020-09-11 浙江大学 一种基于编码-解码网络的音乐伴奏自动生成方法及其系统
CN111899720A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN112397043A (zh) * 2020-11-03 2021-02-23 北京中科深智科技有限公司 一种语音转化成歌曲的方法和系统
CN112435642A (zh) * 2020-11-12 2021-03-02 浙江大学 一种基于深度神经网络的旋律midi伴奏生成方法
CN113284501A (zh) * 2021-05-18 2021-08-20 平安科技(深圳)有限公司 歌手识别方法、装置、设备及存储介质
CN113470693A (zh) * 2021-07-07 2021-10-01 杭州网易云音乐科技有限公司 假唱检测方法、装置、电子设备及计算机可读存储介质
CN113555001A (zh) * 2021-07-23 2021-10-26 平安科技(深圳)有限公司 歌声合成方法、装置、计算机设备及存储介质
CN113707113A (zh) * 2021-08-24 2021-11-26 北京达佳互联信息技术有限公司 用户歌声的修音方法、装置及电子设备
CN113744721A (zh) * 2021-09-07 2021-12-03 腾讯音乐娱乐科技(深圳)有限公司 模型训练方法、音频处理方法、设备及可读存储介质
CN114627892A (zh) * 2022-03-18 2022-06-14 厦门大学 一种基于深度学习的多声部音乐人声主旋律提取方法
CN115996301A (zh) * 2021-10-19 2023-04-21 哲库科技(上海)有限公司 一种合成方法、电子设备及计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09212182A (ja) * 1996-02-01 1997-08-15 Victor Co Of Japan Ltd カラオケ装置
JP2000099093A (ja) * 1998-09-18 2000-04-07 Dainippon Printing Co Ltd 音響信号の符号化方法
AU2008229637A1 (en) * 2007-03-18 2008-09-25 Igruuv Pty Ltd File creation process, file format and file playback apparatus enabling advanced audio interaction and collaboration capabilities
CN105359214A (zh) * 2013-05-03 2016-02-24 石哲 二重唱模式的媒体内容物制作方法及用于其的媒体内容物制作装置
CN106024005A (zh) * 2016-07-01 2016-10-12 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN108269560A (zh) * 2017-01-04 2018-07-10 北京酷我科技有限公司 一种声音合成方法及系统
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN110570876A (zh) * 2019-07-30 2019-12-13 平安科技(深圳)有限公司 歌声合成方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09212182A (ja) * 1996-02-01 1997-08-15 Victor Co Of Japan Ltd カラオケ装置
JP2000099093A (ja) * 1998-09-18 2000-04-07 Dainippon Printing Co Ltd 音響信号の符号化方法
AU2008229637A1 (en) * 2007-03-18 2008-09-25 Igruuv Pty Ltd File creation process, file format and file playback apparatus enabling advanced audio interaction and collaboration capabilities
CN105359214A (zh) * 2013-05-03 2016-02-24 石哲 二重唱模式的媒体内容物制作方法及用于其的媒体内容物制作装置
CN106024005A (zh) * 2016-07-01 2016-10-12 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN108269560A (zh) * 2017-01-04 2018-07-10 北京酷我科技有限公司 一种声音合成方法及系统
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN110570876A (zh) * 2019-07-30 2019-12-13 平安科技(深圳)有限公司 歌声合成方法、装置、计算机设备和存储介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899720A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN111899720B (zh) * 2020-07-30 2024-03-15 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN111653256A (zh) * 2020-08-10 2020-09-11 浙江大学 一种基于编码-解码网络的音乐伴奏自动生成方法及其系统
CN112397043A (zh) * 2020-11-03 2021-02-23 北京中科深智科技有限公司 一种语音转化成歌曲的方法和系统
CN112397043B (zh) * 2020-11-03 2021-11-16 北京中科深智科技有限公司 一种语音转化成歌曲的方法和系统
CN112435642A (zh) * 2020-11-12 2021-03-02 浙江大学 一种基于深度神经网络的旋律midi伴奏生成方法
CN112435642B (zh) * 2020-11-12 2022-08-26 浙江大学 一种基于深度神经网络的旋律midi伴奏生成方法
CN113284501B (zh) * 2021-05-18 2024-03-08 平安科技(深圳)有限公司 歌手识别方法、装置、设备及存储介质
CN113284501A (zh) * 2021-05-18 2021-08-20 平安科技(深圳)有限公司 歌手识别方法、装置、设备及存储介质
CN113470693A (zh) * 2021-07-07 2021-10-01 杭州网易云音乐科技有限公司 假唱检测方法、装置、电子设备及计算机可读存储介质
CN113470693B (zh) * 2021-07-07 2024-06-04 杭州网易云音乐科技有限公司 假唱检测方法、装置、电子设备及计算机可读存储介质
CN113555001A (zh) * 2021-07-23 2021-10-26 平安科技(深圳)有限公司 歌声合成方法、装置、计算机设备及存储介质
CN113707113A (zh) * 2021-08-24 2021-11-26 北京达佳互联信息技术有限公司 用户歌声的修音方法、装置及电子设备
CN113707113B (zh) * 2021-08-24 2024-02-23 北京达佳互联信息技术有限公司 用户歌声的修音方法、装置及电子设备
CN113744721B (zh) * 2021-09-07 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 模型训练方法、音频处理方法、设备及可读存储介质
CN113744721A (zh) * 2021-09-07 2021-12-03 腾讯音乐娱乐科技(深圳)有限公司 模型训练方法、音频处理方法、设备及可读存储介质
CN115996301A (zh) * 2021-10-19 2023-04-21 哲库科技(上海)有限公司 一种合成方法、电子设备及计算机存储介质
CN114627892A (zh) * 2022-03-18 2022-06-14 厦门大学 一种基于深度学习的多声部音乐人声主旋律提取方法

Also Published As

Publication number Publication date
CN111091800B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN111091800B (zh) 歌曲生成方法和装置
CN107657017B (zh) 用于提供语音服务的方法和装置
CN111161695B (zh) 歌曲生成方法和装置
CN111899720A (zh) 用于生成音频的方法、装置、设备和介质
WO2021227707A1 (zh) 音频合成方法、装置、计算机可读介质及电子设备
CN111798821B (zh) 声音转换方法、装置、可读存储介质及电子设备
CN114207706A (zh) 使用组合的韵律信息经由神经网络生成声学序列
CN109308901A (zh) 歌唱者识别方法和装置
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
CN112951200B (zh) 语音合成模型的训练方法、装置、计算机设备及存储介质
CN115033734B (zh) 一种音频数据处理方法、装置、计算机设备以及存储介质
WO2024055752A9 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
CN114627856A (zh) 语音识别方法、装置、存储介质及电子设备
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
CN114999443A (zh) 语音生成方法及装置、存储介质、电子设备
CN116798405A (zh) 语音合成方法、装置、存储介质和电子设备
CN115376498A (zh) 语音识别方法、模型训练方法、装置、介质、电子设备
JP7497523B2 (ja) カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体
CN112863476B (zh) 个性化语音合成模型构建、语音合成和测试方法及装置
CN114117096B (zh) 多媒体数据处理方法及相关设备
CN112885326A (zh) 个性化语音合成模型创建、语音合成和测试方法及装置
CN113823300B (zh) 语音处理方法及装置、存储介质、电子设备
CN116129862A (zh) 语音合成方法、装置、电子设备及存储介质
CN112652292A (zh) 用于生成音频的方法、装置、设备和介质
CN116863909B (zh) 基于因子图的语音合成方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant