CN117012169A - 一种音乐生成方法、装置、系统以及存储介质 - Google Patents

一种音乐生成方法、装置、系统以及存储介质 Download PDF

Info

Publication number
CN117012169A
CN117012169A CN202210474514.5A CN202210474514A CN117012169A CN 117012169 A CN117012169 A CN 117012169A CN 202210474514 A CN202210474514 A CN 202210474514A CN 117012169 A CN117012169 A CN 117012169A
Authority
CN
China
Prior art keywords
music
audio
voice
initial
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210474514.5A
Other languages
English (en)
Inventor
安德鲁·肖
章奕林
陈纪同
维伯特·蒂奥
肖陈正义
徐良钦
薛愉凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lemon Inc Cayman Island
Original Assignee
Lemon Inc Cayman Island
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lemon Inc Cayman Island filed Critical Lemon Inc Cayman Island
Priority to CN202210474514.5A priority Critical patent/CN117012169A/zh
Priority to PCT/SG2023/050291 priority patent/WO2023211387A2/zh
Publication of CN117012169A publication Critical patent/CN117012169A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

本公开涉及一种音乐生成方法、装置、系统以及存储介质,本公开实施例通过获取文本信息,并将文本信息转换为对应的语音音频;以及,获取初始音乐音频,初始音乐音频包括音乐关键点,初始音乐音频的音乐特征在音频关键点的位置处存在突变;从而,基于音乐关键点的位置,将语音音频与初始音乐音频进行合成,得到目标音乐音频;在目标音乐音频中,语音音频出现在初始音乐音频的音乐关键点的位置处,实现了由文本信息到音乐音频的生成,由于用户可以定制文本信息的内容以及定制初始音乐音频,因此可以实现个性音乐定制的目的,弥补目前无法实现个性化音乐定制的不足。

Description

一种音乐生成方法、装置、系统以及存储介质
技术领域
本公开涉及多媒体内容处理技术领域,尤其涉及一种音乐生成方法、装置、系统以及存储介质。
背景技术
人工智能音乐创作是当前技术的热点,在自动音乐生成方面取得了一些进展。但是,就目前技术而言,基于人工智能系统虽可以生成各种各样的音乐,但在生成过程中无法实现个人定制。
发明内容
为了解决上述技术问题,本公开提供了一种音乐生成方法、装置、系统以及存储介质。
第一方面,本公开提供了一种音乐生成方法,所述方法包括:
获取文本信息,并对所述文本信息进行语音合成,得到所述文本信息对应的语音音频;
获取初始音乐音频,所述初始音乐音频包括音乐关键点,所述初始音乐音频的音乐特征在所述音频关键点的位置处存在突变;
基于所述音乐关键点的位置,将所述语音音频与所述初始音乐音频进行合成,得到目标音乐音频;在所述目标音乐音频中,所述语音音频出现在所述初始音乐音频的所述音乐关键点的位置处。
在一些实施例中,所述对所述文本信息进行语音合成,得到所述文本信息对应的语音音频包括:
采用文本到语音方式将所述文本信息转换为对应的语音;
响应于选择音色的操作,从多种预设的音色中选择目标音色;
基于所述目标音色,将所述文本信息对应的语音转换为语音音频。
在一些实施例中,所述获取初始音乐音频,包括:
响应于选择音乐类别的操作,从多个预设音乐类别中选择目标音乐类别;
从所述目标音乐类别对应的多个音乐音频中,选择一个音乐音频作为初始音乐音频。
在一些实施例中,所述从所述目标音乐类别对应的多个音乐音频中,选择一个音乐音频作为初始音乐音频,包括:
获取所述目标音乐类别对应的多个音乐风格模板,所述音乐风格模板为基于旋律、和弦进行和谱写器乐创建的用于生成音乐的音频模板;
响应于选择音乐风格模板的操作,从所述多个音乐风格模板中选择目标音乐风格模板作为初始音乐音频;或者,从所述多个音乐风格模板中随机选择一个音乐风格模板作为初始音乐音频。
在一些实施例中,所述音频关键点位于所述音乐风格模板中多个预设位置中的任一位置,其中,所述多个预设位置包括以下至少一个:
所述音乐风格模板中合唱之前的预设位置,所述音乐风格模板中节拍强度大于或等于预设阈值的位置,所述音乐风格模板中短语之前或短语之后的预设位置。
在一些实施例中,所述基于所述音乐关键点的位置,将所述语音音频与所述初始音乐音频进行合成,得到目标音乐音频包括:
将所述语音音频与至少一个音乐关键点进行随机匹配,且不同的语音音频匹配不同的音乐关键点;
基于所述随机匹配的结果,将所述语音音频注入所述初始音乐音频中匹配的音乐关键点,并将注入的语音音频与所述初始音乐音频合成为目标音乐音频。
在一些实施例中,所述基于所述音乐关键点的位置,将所述语音音频与所述初始音乐音频进行合成,得到目标音乐音频包括:
将所述语音音频与至少一个音乐关键点按照预设策略匹配,且不同的语音音频匹配不同的音乐关键点;
基于所述按照预设策略匹配的结果,将所述语音音频注入所述初始音乐音频中匹配的音乐关键点,并将注入的语音音频与所述初始音乐音频合成为目标音乐音频。
在一些实施例中,所述将注入的语音音频与所述初始音乐音频合成为目标音乐音频包括:
将注入的语音音频与所述初始音乐音频进行混响处理、延迟处理、压缩处理和音量处理中的至少一种处理,得到目标音乐音频。
第二方面,本公开还提出一种音乐生成装置,所述装置包括:
第一获取单元,用于获取文本信息;
第一合成单元,用于对所述文本信息进行语音合成,得到所述文本信息对应的语音音频;
第二获取单元,用于获取初始音乐音频,所述初始音乐音频包括音乐关键点,所述初始音乐音频的音乐特征在所述音频关键点的位置处存在突变;
第二合成单元,用于基于所述音乐关键点的位置,将所述语音音频与所述初始音乐音频进行合成,得到目标音乐音频;在所述目标音乐音频中,所述语音音频出现在所述初始音乐音频的所述音乐关键点的位置处。
第三方面,本公开还提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述音乐生成方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储程序或指令,当所述程序或指令被至少一个计算装置运行时,使至少一个计算装置执行如上所述音乐生成方法的步骤。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的技术方案通过获取文本信息,并将文本信息转换为对应的语音音频;以及,获取初始音乐音频,初始音乐音频包括音乐关键点,初始音乐音频的音乐特征在音频关键点的位置处存在突变;从而,基于音乐关键点的位置,将语音音频与初始音乐音频进行合成,得到目标音乐音频;在目标音乐音频中,语音音频出现在初始音乐音频的音乐关键点的位置处,实现了由文本信息到音乐音频的生成,由于用户可以定制文本信息的内容以及定制初始音乐音频,因此可以实现个性音乐定制的目的,弥补目前无法实现个性化音乐定制的不足。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种音乐生成方法的流程图;
图2为本公开实施例提供的另一种音乐生成方法的流程图;
图3为本公开实施例提供的另一种音乐生成方法的流程图;
图4为本公开实施例中的一种音乐生成装置的结构示意图;
图5是本公开实施例提供的一种包括至少一个计算装置和至少一个存储指令的存储装置的系统的示例性框图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1为本公开实施例提供的一种音乐生成方法的流程图,本实施例可适用于客户端中进行个性化音乐定制的情况,该方法可以由音乐生成装置执行,该装置可以采用软件和/或硬件的方式实现,该装置可配置于电子设备中,例如终端,具体包括但不限于智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备、台式机、笔记本电脑、一体机、智能家居设备等。或者,本实施例可适用于服务端中进行个性化音乐定制的情况,该方法可以由音乐生成装置执行,该装置可以采用软件和/或硬件的方式实现,该装置可配置于电子设备中,例如服务器。
如图1所示,该方法具体可以包括:
S110、获取文本信息,并对文本信息进行语音合成,得到文本信息对应的语音音频。
本步骤中文本信息可以为文本短语,文本短语为用户输入的文本短语或用户从文本短语数据库中选择的文本短语。本申请对文本短语所使用的语种不限。示例性地,文本短语可以为“今天周末了”,或者,文本短语可以为“happyweekend”。
本步骤中对文本信息进行语音合成的实现方法有多种,本申请对此不作限制。示例性地,本步骤的实现方法包括:针对任一文本短语,采用文本到语音方式将该文本短语转换为对应的语音;响应于选择音色的操作,从多种预设的音色中选择目标音色;基于目标音色,将该文本短语对应的语音转换为语音音频。
“采用文本到语音方式将该文本短语转换为对应的语音”是指将文本短语转化为对应的音频数据。音频数据所反映的内容与文本短语一致。
进一步地,音频数据与文本短语所使用的语种可以相同,也可以不同,本申请对此不作限制。示例性地,音频数据使用的语种为英文,而文本短语使用的语种为中文。
进一步地,若音频数据与文本短语所使用的语种不同,其具体实现方法可以为,首先对文本短语进行翻译,得到目标语种的文本短语,将目标语种的文本短语转化为对应的音频数据。目标语种为音频数据所使用的语种。
音色即音色数据,用于对已得到的与文本短语对应的音频数据进行修饰。
可选地,可以简单地设置音色包括但不限于男士音色、女士音色、儿童音色以及卡通动画形象音色。或者,根据人物属性数据,形成不同的音色数据,存储在音色数据库中。人物属性数据包括人物的年龄、性别、语气、职业等。其中“选择音色”是指选择其中的一个音色作为目标音色。“基于目标音色,将该文本短语对应的语音转换为语音音频”是指利用所选择的音色数据修饰已得到的与文本短语对应的音频数据。
示例性地,若输入的文本短语是“终于周末了”,选择音色为男士音色,形成的人声样本为以男士音色朗读的“终于周末了”的音频数据。
S120、获取初始音乐音频,初始音乐音频包括音乐关键点,初始音乐音频的音乐特征在音频关键点的位置处存在突变。
本步骤中获取初始音乐音频的方式如下:响应于选择音乐类别的操作,从多个预设音乐类别中选择目标音乐类别;从目标音乐类别对应的多个音乐音频中,选择一个音乐音频作为初始音乐音频。
在一些实施例中,从目标音乐类别对应的多个音乐音频中,选择一个音乐音频作为初始音乐音频的方式如下:获取目标音乐类别对应的多个音乐风格模板;响应于选择音乐风格模板的操作,从多个音乐风格模板中选择目标音乐风格模板作为初始音乐音频;或者,从多个音乐风格模板中随机选择一个音乐风格模板作为初始音乐音频。
音乐风格模板是指预先设置的音乐片段。音乐风格模板为基于旋律、和弦进行和谱写器乐创建的用于生成音乐的音频模板。音乐风格模板可以为带有歌词的音乐片段,也可以为纯音乐片段。
在本技术方案中,音乐风格模板作为背景乐使用。在实际中,可以预先设置音乐风格模板数据库,在执行本步骤时,从音乐风格模板数据库中选择需要的音乐风格模板。
可选地,音乐关键点位于音乐风格模板中多个预设位置中的任一位置,其中,多个预设位置包括以下至少一个:音乐风格模板中合唱之前的预设位置,音乐风格模板中节拍强度大于或等于预设阈值的位置,音乐风格模板中短语之前或短语之后的预设位置。其中,“音乐风格模板中短语”是指音乐风格模板包括歌词唱段,歌词唱段中的短语。这样设置的实质是选择有利于识别的位置,作为音乐关键点,注入语音音频。由于相对于语音音频而言,音乐风格模板属于背景乐,这样设置可以使得插入音乐关键点中的语音音频不被背景乐覆盖,容易被识别。
S130、基于音乐关键点的位置,将语音音频与初始音乐音频进行合成,得到目标音乐音频;在目标音乐音频中,语音音频出现在初始音乐音频的音乐关键点的位置处。
本步骤的实质是将语音音频插入到目标音乐风格模板的音频关键点,形成目标音乐音频。
音乐关键点是语音音频的注入点,也可以理解为语音音频的插入点。进一步地,考虑到在实际中,语音音频在播放时往往需要持续一段时间,音乐关键点为语音音频插入的起始位置。示例性地,若某音乐风格模板中某一个插入点位于距该音乐风格模板开始时间的第12秒,将语音音频插入该目标音乐风格模板中的该插入点,是指,在该音乐风格模板开始时间的第12秒插入该语音音频,使得当该音乐风格模板播放到第12秒时,该语音音频也开始播放。换言之,将该语音音频的第一秒与该音乐风格模板开始时间的第12秒对齐。
进一步地,本步骤在实现的过程中还可以包括:将注入的语音音频与目标音乐风格模板进行混响处理、延迟处理、压缩处理和音量处理中的至少一种处理,得到目标音乐音频。这样设置的实质是对目标音乐进行修饰,是使目标音乐的整体效果更加和谐、优美。
上述技术方案通过获取文本信息,并将文本信息转换为对应的语音音频;以及,获取初始音乐音频,初始音乐音频包括音乐关键点,初始音乐音频的音乐特征在音频关键点的位置处存在突变;从而,基于音乐关键点的位置,将语音音频与初始音乐音频进行合成,得到目标音乐音频;在目标音乐音频中,语音音频出现在初始音乐音频的音乐关键点的位置处,实现了由文本信息到音乐音频的生成,由于用户可以定制文本信息的内容以及定制初始音乐音频,因此可以实现个性音乐定制的目的,弥补目前无法实现个性化音乐定制的不足。
图2为本公开实施例提供的另一种音乐生成方法的流程图。图2为图1中的一个具体示例。参见图2,该方法包括:
S210、获取至少一个文本短语。
本步骤中文本短语为用户输入的文本短语或用户从文本短语数据库中选择的文本短语。本申请对文本短语所使用的语种不限。
S220、将至少一个文本短语转换为对应的至少一个语音音频。
本步骤的实现方法有多种,本申请对此不作限制。示例性地,本步骤的实现方法包括:针对任一文本短语,采用文本到语音方式将该文本短语转换为对应的语音;响应于选择音色的操作,从多种预设的音色中选择目标音色;基于目标音色,将该文本短语对应的语音转换为语音音频。
“采用文本到语音方式将该文本短语转换为对应的语音”是指将文本短语转化为对应的音频数据。音频数据所反映的内容与文本短语一致。
进一步地,音频数据与文本短语所使用的语种可以相同,也可以不同,本申请对此不作限制。示例性地,音频数据使用的语种为英文,而文本短语使用的语种为中文。
进一步地,若音频数据与文本短语所使用的语种不同,其具体实现方法可以为,首先对文本短语进行翻译,得到目标语种的文本短语,将目标语种的文本短语转化为对应的音频数据。目标语种为音频数据所使用的语种。
音色即音色数据,用于对已得到的与文本短语对应的音频数据进行修饰。
可选地,可以简单地设置音色包括但不限于男士音色、女士音色、儿童音色以及卡通动画形象音色。其中“选择音色”是指选择其中的一个音色作为目标音色。“基于目标音色,将该文本短语对应的语音转换为语音音频”是指利用所选择的音色数据修饰已得到的与文本短语对应的音频数据。
S230、响应于选择音乐风格模板的操作,从多个音乐风格模板中选择目标音乐风格模板作为初始音乐音频;或者,从多个音乐风格模板中随机选择一个音乐风格模板作为初始音乐音频。
音乐风格模板是指预先设置的音乐片段。音乐风格模板为基于旋律、和弦进行和谱写器乐创建的用于生成音乐的音频模板。音乐风格模板可以为带有歌词的音乐片段,也可以为纯音乐片段。
在本技术方案中,音乐风格模板作为背景乐使用。在实际中,可以预先设置音乐风格模板数据库,在执行本步骤时,从音乐风格模板数据库中选择需要的音乐风格模板。
可选地,音乐关键点位于音乐风格模板中多个预设位置中的任一位置,其中,多个预设位置包括以下至少一个:音乐风格模板中合唱之前的预设位置,音乐风格模板中节拍强度大于或等于预设阈值的位置,音乐风格模板中短语之前或短语之后的预设位置。其中,“音乐风格模板中短语”是指音乐风格模板包括歌词唱段,歌词唱段中的短语。这样设置的实质是选择有利于识别的位置,作为音乐关键点,注入语音音频。由于相对于语音音频而言,音乐风格模板属于背景乐,这样设置可以使得插入音乐关键点中的语音音频不被背景乐覆盖,容易被识别。
S240、将语音音频与至少一个音乐关键点进行随机匹配,且不同的语音音频匹配不同的音乐关键点。
S250、基于随机匹配的结果,将语音音频注入初始音乐音频中匹配的音乐关键点,并将注入的语音音频与初始音乐音频合成为目标音乐音频。
示例性地,所选择的音乐风格模板包括10个音乐关键点,而需要注入的语音音频有2个,可以在这10个音乐关键点中随机地选取1个,建立所选取的第一音乐关键点与第一个语音音频的匹配关系,然后在剩余的9个关键点中随机地选取1个,建立所选取的第二音乐关键点与第二个语音音频的匹配关系。并且每个语音音频仅唯一地对应一个音乐关键点,不同语音音频所对应的音乐关键点不同。根据该匹配关系,将语音音频注入到与其匹配的音乐关键点处,合成目标音乐音频。
上述技术方案基于随机匹配的结果,将至少一个语音音频注入目标音乐风格模板中匹配的音乐关键点,其算法简单,易于实现。
图3为本公开实施例提供的另一种音乐生成方法的流程图。图3为图1中的一个具体示例。参见图3,该方法包括:
S310、获取至少一个文本短语。
本步骤中文本短语为用户输入的文本短语或用户从文本短语数据库中选择的文本短语。本申请对文本短语所使用的语种不限。
S320、将至少一个文本短语转换为对应的至少一个语音音频。
本步骤的实现方法有多种,本申请对此不作限制。示例性地,本步骤的实现方法包括:针对任一文本短语,采用文本到语音方式将该文本短语转换为对应的语音;响应于选择音色的操作,从多种预设的音色中选择目标音色;基于目标音色,将该文本短语对应的语音转换为语音音频。
“采用文本到语音方式将该文本短语转换为对应的语音”是指将文本短语转化为对应的音频数据。音频数据所反映的内容与文本短语一致。
进一步地,音频数据与文本短语所使用的语种可以相同,也可以不同,本申请对此不作限制。示例性地,音频数据使用的语种为英文,而文本短语使用的语种为中文。
进一步地,若音频数据与文本短语所使用的语种不同,其具体实现方法可以为,首先对文本短语进行翻译,得到目标语种的文本短语,将目标语种的文本短语转化为对应的音频数据。目标语种为音频数据所使用的语种。
音色即音色数据,用于对已得到的与文本短语对应的音频数据进行修饰。
可选地,可以简单地设置音色包括但不限于男士音色、女士音色、儿童音色以及卡通动画形象音色。其中“选择音色”是指选择其中的一个音色作为目标音色。“基于目标音色,将该文本短语对应的语音转换为语音音频”是指利用所选择的音色数据修饰已得到的与文本短语对应的音频数据。
S330、响应于选择音乐风格模板的操作,从多个音乐风格模板中选择目标音乐风格模板作为初始音乐音频;或者,从多个音乐风格模板中随机选择一个音乐风格模板作为初始音乐音频。
音乐风格模板是指预先设置的音乐片段。音乐风格模板为基于旋律、和弦进行和谱写器乐创建的用于生成音乐的音频模板。音乐风格模板可以为带有歌词的音乐片段,也可以为纯音乐片段。
在本技术方案中,音乐风格模板作为背景乐使用。在实际中,可以预先设置音乐风格模板数据库,在执行本步骤时,从音乐风格模板数据库中选择需要的音乐风格模板。
可选地,音乐关键点位于音乐风格模板中多个预设位置中的任一位置,其中,多个预设位置包括以下至少一个:音乐风格模板中合唱之前的预设位置,音乐风格模板中节拍强度大于或等于预设阈值的位置,音乐风格模板中短语之前或短语之后的预设位置。其中,“音乐风格模板中短语”是指音乐风格模板包括歌词唱段,歌词唱段中的短语。这样设置的实质是选择有利于识别的位置,作为音乐关键点,注入语音音频。由于相对于语音音频而言,音乐风格模板属于背景乐,这样设置可以使得插入音乐关键点中的语音音频不被背景乐覆盖,容易被识别。
S340、将语音音频与至少一个音乐关键点按照预设策略匹配,且不同的语音音频匹配不同的音乐关键点。
预设策略为人工预先设置的匹配规则。在实际中,“预设策略”可以有多种,本申请对此不作限制。示例性地,可以根据音乐风格模板所表达的内容,将音乐风格模板分为段落,使得不同段落所表达的含义不同,并且每个段落包括一个或多个音乐关键点。根据语音音频所表达的含义与段落所表达的含义的一致性,建立语音音频与音乐关键点的匹配关系。
示例性地,假设音乐风格模板可划分为2个段落,其中第一个段落用于赞颂春天,第二个段落用于赞颂夏天。语音音频有两个,第一个语音音频为“不知细叶谁裁出,二月春风似剪刀”,第二个语音音频为“绿树浓阴夏日长,楼台倒影入池塘”。建立第一个语音音频与第一个段落中音乐关键点的匹配关系,建立第二个语音音频与第二个段落中音乐关键点的匹配关系。
或者,可以设置按照播放时间先后顺序,逐一创建语音音频与音乐关键点的匹配关系。示例性地,假设音乐风格模板包括10个音乐关键点,语音音频有两个,建立第一个语音音频与第一个音乐关键点的匹配关系,建立第二个语音音频与第二个音乐关键点的匹配关系,其中,第一个语音音频的播放时间早于第二个语音音频,第一个音乐关键点的播放时间早于第二个音乐关键点。
S350、基于按照预设策略匹配的结果,将语音音频注入初始音乐音频中匹配的音乐关键点,并将注入的语音音频与初始音乐音频合成为目标音乐音频。
上述技术方案通过设置基于按照预设策略匹配的结果,将至少一个语音音频注入目标音乐风格模板中匹配的音乐关键点,可以使得语音音频与目标音乐风格模板契合,二者含义互为补充、互为解释说明,有利于使得所定制的音乐更加和谐。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
图4为本公开实施例中的一种音乐生成装置的结构示意图。本公开实施例所提供的音乐生成装置可以配置于客户端中,或者可以配置于服务端中。参见图4,该音乐生成装置具体包括:
第一获取单元41,用于获取文本信息;
第一合成单元42,用于对所述文本信息进行语音合成,得到所述文本信息对应的语音音频;
第二获取单元43,用于获取初始音乐音频,所述初始音乐音频包括音乐关键点,所述初始音乐音频的音乐特征在所述音频关键点的位置处存在突变;
第二合成单元44,用于基于所述音乐关键点的位置,将所述语音音频与所述初始音乐音频进行合成,得到目标音乐音频;在所述目标音乐音频中,所述语音音频出现在所述初始音乐音频的所述音乐关键点的位置处。
在一些实施例中,第一合成单元42,用于采用文本到语音方式将所述文本信息转换为对应的语音;响应于选择音色的操作,从多种预设的音色中选择目标音色;基于所述目标音色,将所述文本信息对应的语音转换为语音音频。
在一些实施例中,第二获取单元43,用于响应于选择音乐类别的操作,从多个预设音乐类别中选择目标音乐类别;从所述目标音乐类别对应的多个音乐音频中,选择一个音乐音频作为初始音乐音频。
在一些实施例中,第二获取单元43从所述目标音乐类别对应的多个音乐音频中,选择一个音乐音频作为初始音乐音频,包括:获取所述目标音乐类别对应的多个音乐风格模板,所述音乐风格模板为基于旋律、和弦进行和谱写器乐创建的用于生成音乐的音频模板;响应于选择音乐风格模板的操作,从所述多个音乐风格模板中选择目标音乐风格模板作为初始音乐音频;或者,从所述多个音乐风格模板中随机选择一个音乐风格模板作为初始音乐音频。
在一些实施例中,所述音频关键点位于所述音乐风格模板中多个预设位置中的任一位置,其中,所述多个预设位置包括以下至少一个:所述音乐风格模板中合唱之前的预设位置,所述音乐风格模板中节拍强度大于或等于预设阈值的位置,所述音乐风格模板中短语之前或短语之后的预设位置。
在一些实施例中,第二合成单元44基于所述音乐关键点的位置,将所述语音音频与所述初始音乐音频进行合成,得到目标音乐音频,包括:将所述语音音频与至少一个音乐关键点进行随机匹配,且不同的语音音频匹配不同的音乐关键点;基于所述随机匹配的结果,将所述语音音频注入所述初始音乐音频中匹配的音乐关键点,并将注入的语音音频与所述初始音乐音频合成为目标音乐音频。
在一些实施例中,第二合成单元44基于所述音乐关键点的位置,将所述语音音频与所述初始音乐音频进行合成,得到目标音乐音频,包括:将所述语音音频与至少一个音乐关键点按照预设策略匹配,且不同的语音音频匹配不同的音乐关键点;基于所述按照预设策略匹配的结果,将所述语音音频注入所述初始音乐音频中匹配的音乐关键点,并将注入的语音音频与所述初始音乐音频合成为目标音乐音频。
在一些实施例中,第二合成单元44将注入的语音音频与所述初始音乐音频合成为目标音乐音频,包括:将注入的语音音频与所述初始音乐音频进行混响处理、延迟处理、压缩处理和音量处理中的至少一种处理,得到目标音乐音频。
本公开实施例提供的音乐生成装置,可执行本公开方法实施例所提供的音乐生成方法中客户端或服务端所执行的步骤,具备执行步骤和有益效果,此处不再赘述。
在一些实施例中,信息显示装置中各单元的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如信息显示装置中的至少两个单元可以实现为一个单元;音乐生成装置中的各单元也可以划分为多个子单元。可以理解的是,各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。
图5是本公开实施例提供的一种包括至少一个计算装置和至少一个存储指令的存储装置的系统的示例性框图。在一些实施例中,该系统可用于大数据处理,至少一个计算装置和至少一个存储装置可以为分布式部署,使该系统为分布式数据处理集群。
如图5所示,系统包括:至少一个计算装置51、至少一个存储指令的存储装置52。可以理解,本实施例中的存储装置52可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储装置52存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础任务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用任务。实现本公开实施例提供的音乐生成方法的程序可以包含在应用程序中。
在本公开实施例中,至少一个计算装置51通过调用至少一个存储装置52存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,至少一个计算装置51用于执行本公开实施例提供的音乐生成方法各实施例的步骤。
本公开实施例提供的音乐生成方法可以应用于计算装置51中,或者由计算装置51实现。
计算装置51可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过计算装置51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的计算装置51可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本公开实施例提供的音乐生成方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储装置52,计算装置51读取存储装置52中的信息,结合其硬件完成方法的步骤。
本公开实施例还提出一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,当所述程序或指令被至少一个计算装置运行时,使至少一个计算装置执行如音乐生成方法各实施例的步骤,为避免重复描述,在此不再赘述。其中,计算装置可以为图5所示的计算装置51。在一些实施例中,计算机可读存储介质为非暂态计算机可读存储介质。
本公开实施例还提出一种计算机程序产品,其中,该计算机程序产品包括计算机程序,该计算机程序存储在非暂态计算机可读存储介质中,计算机的至少一个处理器从存储介质读取并执行该计算机程序,使得计算机执行如音乐生成方法各实施例的步骤,为避免重复描述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (11)

1.一种音乐生成方法,所述方法包括:
获取文本信息,并对所述文本信息进行语音合成,得到所述文本信息对应的语音音频;
获取初始音乐音频,所述初始音乐音频包括音乐关键点,所述初始音乐音频的音乐特征在所述音频关键点的位置处存在突变;
基于所述音乐关键点的位置,将所述语音音频与所述初始音乐音频进行合成,得到目标音乐音频;在所述目标音乐音频中,所述语音音频出现在所述初始音乐音频的所述音乐关键点的位置处。
2.根据权利要求1所述的方法,其中,所述对所述文本信息进行语音合成,得到所述文本信息对应的语音音频包括:
采用文本到语音方式将所述文本信息转换为对应的语音;
响应于选择音色的操作,从多种预设的音色中选择目标音色;
基于所述目标音色,将所述文本信息对应的语音转换为语音音频。
3.根据权利要求1所述的方法,其中,所述获取初始音乐音频,包括:
响应于选择音乐类别的操作,从多个预设音乐类别中选择目标音乐类别;
从所述目标音乐类别对应的多个音乐音频中,选择一个音乐音频作为初始音乐音频。
4.根据权利要求3所述的方法,其中,所述从所述目标音乐类别对应的多个音乐音频中,选择一个音乐音频作为初始音乐音频,包括:
获取所述目标音乐类别对应的多个音乐风格模板,所述音乐风格模板为基于旋律、和弦进行和谱写器乐创建的用于生成音乐的音频模板;
响应于选择音乐风格模板的操作,从所述多个音乐风格模板中选择目标音乐风格模板作为初始音乐音频;或者,从所述多个音乐风格模板中随机选择一个音乐风格模板作为初始音乐音频。
5.根据权利要求4所述的方法,其中,所述音频关键点位于所述音乐风格模板中多个预设位置中的任一位置,其中,所述多个预设位置包括以下至少一个:
所述音乐风格模板中合唱之前的预设位置,所述音乐风格模板中节拍强度大于或等于预设阈值的位置,所述音乐风格模板中短语之前或短语之后的预设位置。
6.根据权利要求1所述的方法,其中,所述基于所述音乐关键点的位置,将所述语音音频与所述初始音乐音频进行合成,得到目标音乐音频包括:
将所述语音音频与至少一个音乐关键点进行随机匹配,且不同的语音音频匹配不同的音乐关键点;
基于所述随机匹配的结果,将所述语音音频注入所述初始音乐音频中匹配的音乐关键点,并将注入的语音音频与所述初始音乐音频合成为目标音乐音频。
7.根据权利要求1所述的方法,其中,所述基于所述音乐关键点的位置,将所述语音音频与所述初始音乐音频进行合成,得到目标音乐音频包括:
将所述语音音频与至少一个音乐关键点按照预设策略匹配,且不同的语音音频匹配不同的音乐关键点;
基于所述按照预设策略匹配的结果,将所述语音音频注入所述初始音乐音频中匹配的音乐关键点,并将注入的语音音频与所述初始音乐音频合成为目标音乐音频。
8.根据权利要求6或7所述的方法,其中,所述将注入的语音音频与所述初始音乐音频合成为目标音乐音频包括:
将注入的语音音频与所述初始音乐音频进行混响处理、延迟处理、压缩处理和音量处理中的至少一种处理,得到目标音乐音频。
9.一种音乐生成装置,所述装置包括:
第一获取单元,用于获取文本信息;
第一合成单元,用于对所述文本信息进行语音合成,得到所述文本信息对应的语音音频;
第二获取单元,用于获取初始音乐音频,所述初始音乐音频包括音乐关键点,所述初始音乐音频的音乐特征在所述音频关键点的位置处存在突变;
第二合成单元,用于基于所述音乐关键点的位置,将所述语音音频与所述初始音乐音频进行合成,得到目标音乐音频;在所述目标音乐音频中,所述语音音频出现在所述初始音乐音频的所述音乐关键点的位置处。
10.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至8任一项所述音乐生成方法的步骤。
11.一种计算机可读存储介质,其中,所述计算机可读存储介质存储程序或指令,当所述程序或指令被至少一个计算装置运行时,使至少一个计算装置执行如权利要求1至8任一项所述音乐生成方法的步骤。
CN202210474514.5A 2022-04-29 2022-04-29 一种音乐生成方法、装置、系统以及存储介质 Pending CN117012169A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210474514.5A CN117012169A (zh) 2022-04-29 2022-04-29 一种音乐生成方法、装置、系统以及存储介质
PCT/SG2023/050291 WO2023211387A2 (zh) 2022-04-29 2023-04-27 一种音乐生成方法、装置、系统以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210474514.5A CN117012169A (zh) 2022-04-29 2022-04-29 一种音乐生成方法、装置、系统以及存储介质

Publications (1)

Publication Number Publication Date
CN117012169A true CN117012169A (zh) 2023-11-07

Family

ID=88519961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210474514.5A Pending CN117012169A (zh) 2022-04-29 2022-04-29 一种音乐生成方法、装置、系统以及存储介质

Country Status (2)

Country Link
CN (1) CN117012169A (zh)
WO (1) WO2023211387A2 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125599A (ja) * 1999-10-25 2001-05-11 Mitsubishi Electric Corp 音声データ同期装置及び音声データ作成装置
JP2011043710A (ja) * 2009-08-21 2011-03-03 Sony Corp 音声処理装置、音声処理方法及びプログラム
CN108877753B (zh) * 2018-06-15 2020-01-21 百度在线网络技术(北京)有限公司 音乐合成方法及系统、终端以及计算机可读存储介质
CN110189741A (zh) * 2018-07-05 2019-08-30 腾讯数码(天津)有限公司 音频合成方法、装置、存储介质和计算机设备

Also Published As

Publication number Publication date
WO2023211387A3 (zh) 2023-12-28
WO2023211387A2 (zh) 2023-11-02

Similar Documents

Publication Publication Date Title
US10891928B2 (en) Automatic song generation
CN110555126B (zh) 旋律的自动生成
CN108962217B (zh) 语音合成方法及相关设备
CN108806655B (zh) 歌曲的自动生成
CN106652997B (zh) 一种音频合成的方法及终端
US9330657B2 (en) Text-to-speech for digital literature
CN110941954A (zh) 文本播报方法、装置、电子设备及存储介质
TW202006534A (zh) 音頻合成方法、裝置、儲存媒體和計算機設備
CN113012665B (zh) 音乐生成方法及音乐生成模型的训练方法
CN111128116B (zh) 一种语音处理方法、装置、计算设备及存储介质
US9646585B2 (en) Information processing apparatus, information processing method, and program
JP2022092032A (ja) 歌唱合成システム及び歌唱合成方法
CN114173067A (zh) 一种视频生成方法、装置、设备及存储介质
CN107295164B (zh) 闹钟铃声生成的方法、移动终端及存储介质
CN111666445A (zh) 一种情景歌词的显示方法、装置及音箱设备
CN110503991B (zh) 语音播报方法、装置、电子设备及存储介质
CN117012169A (zh) 一种音乐生成方法、装置、系统以及存储介质
CN115810341A (zh) 音频合成方法、装置、设备以及介质
KR102613350B1 (ko) 텍스트를 이용한 컨텐츠 제공 방법 및 디바이스
CN113658570B (zh) 歌曲处理方法、装置、计算机设备、存储介质及程序产品
US20230419932A1 (en) Information processing device and control method thereof
CN117059052A (zh) 歌曲生成方法、装置、系统及存储介质
CN114896448A (zh) 一种歌曲定制方法、装置、电子设备及存储介质
CN117012170A (zh) 一种音乐生成方法、装置、系统及存储介质
CN117012172A (zh) 电子乐曲的生成方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Shaw Andrew

Inventor after: Zhang Yilin

Inventor after: Chen Jitong

Inventor after: Vibert Theo

Inventor after: Chen Zhenyu

Inventor after: Xu Liangqin

Inventor after: Xue Yufan

Inventor before: Shaw Andrew

Inventor before: Zhang Yilin

Inventor before: Chen Jitong

Inventor before: Vibert Theo

Inventor before: Xiao Chen Zhengyi

Inventor before: Xu Liangqin

Inventor before: Xue Yufan