CN110516110A - 歌曲生成方法、装置、计算机设备及存储介质 - Google Patents

歌曲生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110516110A
CN110516110A CN201910662215.2A CN201910662215A CN110516110A CN 110516110 A CN110516110 A CN 110516110A CN 201910662215 A CN201910662215 A CN 201910662215A CN 110516110 A CN110516110 A CN 110516110A
Authority
CN
China
Prior art keywords
character
song
original
lyrics
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910662215.2A
Other languages
English (en)
Other versions
CN110516110B (zh
Inventor
向纯玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910662215.2A priority Critical patent/CN110516110B/zh
Priority to PCT/CN2019/117302 priority patent/WO2021012503A1/zh
Publication of CN110516110A publication Critical patent/CN110516110A/zh
Application granted granted Critical
Publication of CN110516110B publication Critical patent/CN110516110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种歌曲生成方法、装置、计算机设备及存储介质,通过获取原始语音数据,原始语音数据包括文本信息;将文本信息输入到预设的歌曲数据库中,并从歌曲数据库中筛选出与文本信息匹配度最高的匹配歌曲,匹配歌曲包括歌词信息、语气词和乐谱信息;根据歌词信息对文本信息进行字符切割,得到原始字符段序列;将语气词加入到原始字符段序列对应的字符段中,并对加入语气词后的原始字符段序列进行字符押韵调整,得到目标字符段序列;根据原始字符段序列,对原始语音数据进行切割分段,得到原始分段语音;根据目标字符段序列,对原始分段语音进行韵律调整,得到目标分段语音;基于乐谱信息,将每一目标分段语音进行语音合成,得到目标歌曲;不但实现了智能化生成目标歌曲,还保证了生成的目标歌曲仍保持有用户输入的原有语音数据的音效。

Description

歌曲生成方法、装置、计算机设备及存储介质
技术领域
本发明涉及语音语义领域,尤其涉及一种歌曲生成方法、装置、计算机设备及存储介质。
背景技术
在音乐的历史发展进程中,Rap(说唱、饶舌)作为一种流行的音乐形式,被越来越多的人喜爱和追捧。然而,随着用户对个性元素的追求,用户在听别人演唱说唱音乐的同时,也希望自己能够演唱说唱音乐。目前,对于Rap(说唱、饶舌)歌曲的生成,大部分都是需要用户读取固定的歌词或文本内容、仅能在有限的几种曲调中进行配乐,且人为参与的较多,需专业人士进行辅导生成,操作过程复杂,无法智能化生成对应的目标歌曲。
发明内容
本发明实施例提供一种歌曲生成方法、装置、计算机设备及存储介质,以解决无法智能化生成目标歌曲的问题。
一种歌曲生成方法,包括:
获取原始语音数据,所述原始语音数据包括文本信息;
将所述文本信息输入到预设的歌曲数据库中,并从所述歌曲数据库中筛选出与所述文本信息匹配度最高的匹配歌曲,所述匹配歌曲包括歌词信息、语气词和乐谱信息;
根据所述歌词信息对所述文本信息进行字符切割,得到原始字符段序列;
将所述语气词加入到所述原始字符段序列对应的字符段中,并对所述加入语气词后的原始字符段序列进行字符押韵调整,得到目标字符段序列;
根据所述原始字符段序列,对所述原始语音数据进行切割分段,得到原始分段语音;
根据所述目标字符段序列,对所述原始分段语音进行韵律调整,得到目标分段语音;
基于所述乐谱信息,将每一所述目标分段语音进行语音合成,得到目标歌曲。
一种歌曲生成装置,包括:
原始语音数据获取模块,用于获取原始语音数据,所述原始语音数据包括文本信息;
歌曲匹配模块,用于将所述文本信息输入到预设的歌曲数据库中,并从所述歌曲数据库中筛选出与所述文本信息匹配度最高的匹配歌曲,所述匹配歌曲包括歌词信息、语气词和乐谱信息;
字符切割模块,用于根据所述歌词信息对所述文本信息进行字符切割,得到原始字符段序列;
字符押韵调整模块,用于将所述语气词加入到所述原始字符段序列对应的字符段中,并对所述加入语气词后的原始字符段序列进行字符押韵调整,得到目标字符段序列;
语音数据切割分段模块,用于根据所述原始字符段序列,对所述原始语音数据进行切割分段,得到原始分段语音;
韵律调整模块,用于根据所述目标字符段序列,对所述原始分段语音进行韵律调整,得到目标分段语音;
语音合成模块,用于基于所述乐谱信息,将每一所述目标分段语音进行语音合成,得到目标歌曲。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述歌曲生成方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述歌曲生成方法。
上述歌曲生成方法、装置、计算机设备及存储介质,通过获取原始语音数据,原始语音数据包括文本信息;将文本信息输入到预设的歌曲数据库中,并从歌曲数据库中筛选出与文本信息匹配度最高的匹配歌曲,匹配歌曲包括歌词信息、语气词和乐谱信息;根据歌词信息对文本信息进行字符切割,得到原始字符段序列;将语气词加入到原始字符段序列对应的字符段中,并对加入语气词后的原始字符段序列进行字符押韵调整,得到目标字符段序列;根据原始字符段序列,对原始语音数据进行切割分段,得到原始分段语音;根据目标字符段序列,对原始分段语音进行韵律调整,得到目标分段语音;基于乐谱信息,将每一目标分段语音进行语音合成,得到目标歌曲;先根据匹配歌曲对输入的原始语音数据的文本信息进行处理,得到目标字符段序列,然后再根据目标字符段序列对用户输入的原始语音数据进行个性化调整,不但实现了智能化生成目标歌曲,还保证了生成的目标歌曲仍保持有用户输入的原有语音数据的音效。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中歌曲生成方法的一应用环境示意图;
图2是本发明一实施例中歌曲生成方法的一示例图;
图3是本发明一实施例中歌曲生成方法的另一示例图;
图4是本发明一实施例中歌曲生成方法的另一示例图;
图5是本发明一实施例中歌曲生成方法的另一示例图;
图6是本发明一实施例中歌曲生成方法的另一示例图;
图7是本发明一实施例中歌曲生成方法的另一示例图;
图8是本发明一实施例中歌曲生成方法的另一示例图
图9是本发明一实施例中歌曲生成装置的一原理框图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的歌曲生成方法,该歌曲生成方法可应用如图1所示的应用环境中。具体地,该歌曲生成方法应用在歌曲生成系统中,该歌曲生成系统包括如图1所示的客户端和服务端,客户端与服务端通过网络进行通信,用于解决无法智能化生成目标歌曲的问题。其中,客户端又称为用户端,是指与服务端相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种歌曲生成方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10:获取原始语音数据,原始语音数据包括文本信息。
其中,原始语音数据指用于生成歌曲的语音数据。在本实施例中,原始语音数据需包含有具体的文字信息。可选地,原始语音数据可以为用户通过某些录音APP或小程序实时采集的用户说/唱出来的语音数据,也可以是客户端预先采集并保存的语音数据,或者是本地直接上传或者发送到客户端的语音数据,客户端将该原始语音数据发送到服务端,服务端即获取到原始语音数据。
其中,文本信息指将原始语音数据进行文本转换后所生成的信息。具体地,可以采用基于深度学习的语音文本互转技术对原始语音数据进行文本转换,或者采用语音识别模型对原始语音数据进行语音识别,从而获取文本信息。其中,语音识别模型是预先训练好的用于识别原始语音数据中的文本信息的模型。在本实施例中,语音识别模型可采用语音静态解码网络,由于静态解码网络已经把搜索空间全部展开,因此其在进行文本翻译时,解码速度非常快,从而可快速获取文本信息。
优选地,为了提高原始语音数据进行文本转换的效率和准确性,在将原始语音数据进行文本转换前,可预先对原始语音数据进行噪音去除处理,以排除环境噪声。具体地,为了保证去噪后的原始语音数据不出现失真现象,可采用小波变换和小波阈值法对原始语音数据进行噪音去除处理。
S20:将文本信息输入到预设的歌曲数据库中,并从歌曲数据库中筛选出与文本信息匹配度最高的匹配歌曲,匹配歌曲包括歌词信息、语气词和乐谱信息。
其中,歌曲数据库是预先创建的用于存储歌曲信息的数据库。在歌曲数据库中至少存储有一样本歌曲信息。样本歌曲信息是歌曲数据库中预先存储的歌曲信息,每一样本歌曲信息包括样本歌曲和对应的歌词特征。歌词特征可以包括:歌词数量、歌词段落数、每句歌词字数和重复歌词段落数等。在本实施例中,歌曲数据库中存储的样本歌曲包括短时间的段落歌曲和较长时间的完整版歌曲;且样本歌曲主要为RAP歌曲。例如:样本歌曲可以为时长只有10秒的段落歌曲,也可以为时长为5分钟的完整版歌曲。
将文本信息输入到预设的歌曲数据库中,然后进行在线匹配,从歌曲数据库中筛选出与该文本信息匹配度最高的匹配歌曲。其中,匹配歌曲指与文本信息匹配度最高的歌曲。匹配歌曲包括歌词信息、语气词和乐谱信息。歌词信息指匹配歌曲中所包含的具有具体词义的歌词。语气词指匹配歌曲中所包含的不具有任何词义的词。例如:yoyo、skrr、yeahhey。乐谱信息指匹配歌词中所包含的配乐和节调。
在本实施例中,可采用相似度算法,从预设的歌曲数据库中筛选出与该文本信息匹配度最高的匹配歌曲。其中,相似度算法是用于计算两个物体之间相似度的算法。相似度算法可以为文本相似度算法、余弦相似度算法或编辑距离算法。具体地,由于相似度算法可计算两个向量之间的相似度。因此,需预先对文本信息进行特征提取,获取文本信息的文本特征;然后将该文本特征的和每一样本歌曲的歌词特征分别转换成向量A=(A1,A2,……,An)和向量B(B1,B2,……,Bn);再采用相似度算法计算该文本特征和每一样本歌曲的歌词特征之间的相似度,最后将计算得到与该文本特征相似度最高的样本歌曲作为匹配度最高的匹配歌曲。
S30:根据歌词信息对文本信息进行字符切割,得到原始字符段序列。
其中,原始字符段序列是指由若干字符段组成的序列。原始字符段序列包含的每一字符段所对应的字符长度可能相同或不同。具体地,计算歌词信息中每一段歌词的字符长度;然后根据该歌词信息的字符长度序列,对文本信息进行相同字符长度的段落切割,得到原始字符段序列。具体地,对文本信息进行相同字符长度的段落切割,可先采用OCR技术的文字定位方法,确定文本信息中需要切割的位置,然后再采用OCR技术的文本切割方法,在文本信息中需要切割的位置进行字符切割,得到原始字符段序列。
优选地,为了保证获取的原始字符段序列的语句顺畅性,还可对原始字符段序列进行字符调整。具体地,服务端将进行字符切割后所得的原始字符段序列发送给客户端,然后获取客户端根据原始字符段序列返回的字符调整标签,最后根据该字符调整标签,调整该原始字符段序列中对应的字符。其中,字符调整标签指标识了该原始字符段序列中哪些字符需进行对应调整的信息。字符调整标签包括调整前的字符和对应调整后的字符。
S40:将语气词加入到原始字符段序列对应的字符段中,并对加入语气词后的原始字符段序列进行字符押韵调整,得到目标字符段序列。
为了提高最后生成的目标歌曲更具有RAP韵律感,需将匹配歌曲中包含的语气词加入到原始字段序列对应的字符段中。根据步骤S30可知,原始字符段序列中所包含的每一字符段与匹配歌曲中的每一分段歌词是一一对应的。因此,可将匹配歌曲中每一分段歌词后的语气词,加入到原始字符段序列对应的字符段中。例如:若匹配歌曲中的某一分段歌词为“还记得曾经志高,想要逆了天道yo~yo”,且在原始字符段序列中与该分段歌词对应的字符段为“蜗居徙倚为出路,吃着粥和面包”;则在该字符段“蜗居徙倚为出路,吃着粥和面包”后加入对应的语气词,得到“蜗居徙倚为出路,吃着粥和面包yo~yo”。可以理解地,若匹配歌曲中不包含任何语气词,则也不需对原始字符段序列中包含的字符段添加语气词。
对加入语气词后的原始字符段序列进行字符押韵调整主要包括:对原始字符段序列中韵律不协调的字符进行同义词替换,和对原始字符段序列中每一原始字符段的韵脚进行押韵调整。具体地,可将加入语气词后的原始字符段序列输入到预先设定的RAP同义词库中,并将该原始字符段序列所包含的原始字符与RAP同义词库中的预设词语进行一一匹配;若从RAP同义词库中成功匹配到与原始字符属于同义词的预设词语,则表示该原始字符属于韵律不协调的字符,需将对应匹配成功的预设词语替换掉该原始字符;若从RAP同义词库中没有匹配到与该原始字符属于同义词的预设词语,则不需要对该原始字符进行同义词替换。进一步地,若从RAP同义词库中成功匹配到与该原始字符属于同义词的预设词语至少为两个,则可任意选择其中一个预设词语替换该原始字符;从而实现将原始字符段序列中所有韵律不协调的字符进行同义词替换,得到更具有RAP音调感的字符段序列。其中,RAP同义词库是预先设定的存储有大量预设词语的数据库。在本实施例中,RAP同义词库的预设词语都是预先采集、具有RAP音调的词语。
在对原始字符段序列中韵律不协调的字符进行同义词替换之后,还需对该原始字符段序列中每一原始字符段的韵脚进行押韵调整。具体地,对该原始字符段序列中每一原始字符段的韵脚进行押韵调整可以为:若目标歌曲中只包含一种押韵方式,则可直接根据该押韵方式,对原始字符段序列中每一原始字符段的韵脚进行相同押韵方式的押韵调整。若目标歌曲中至少包含两种押韵方式,则可任意选择其中一种押韵方式,对该原始字符段序列中每一原始字符段的韵脚进行对应押韵方式的押韵调整。
S50:根据原始字符段序列,对原始语音数据进行切割分段,得到原始分段语音。
其中,原始分段语音指对用户输入的原始语音数据进行切割分段后的语音数据。具体地,根据原始字符段序列中每一字符段的字符长度,对原始语音数据中对应的字符进行相同字符数的切割分段,得到原始分段语音。例如:原始字符段序列为包含5个字符、6个字符和10个字符的字符段序列,则在该原始语音数据相应字符的时间片段处进行切割,确保得到的原始分段语音也是由5个字符,6个字符、10个字符组成的分段语音。优选地,可采用语音分割技术,由系统自动完成对原始语音数据的切割分段,得到原始分段语音。
S60:根据目标字符段序列,对原始分段语音进行韵律调整,得到目标分段语音。
其中,目标分段语音指对原始分段语音进行韵律调整后,得到的与目标字符段序列相匹配协调的分段语音。具体地,根据目标字符段序列,对原始分段语音进行韵律调整主要包括:根据目标字符段序列中每一字符段之间的相对位置,对原始分段语音进行相应的时间拉伸或压缩,从而调整原始分段语音的音速;然后获取目标字符段序列中进行字符押韵调整后的新增字符所对应的语音片段,并根据该新增字符所对应的语音片段,调整原始分段语音中对应字符的语音片段,得到目标分段语音,保证了得到的目标分段语音韵律自然的同时,还具有用户的个性化特色。其中,新增字符包括进行同义词替换后的新增同义词和进行韵脚替替换后的新增韵脚词。可选地,可采用音频信息处理方法实现对原始分段语音的韵律调整,得到目标分段语音。其中,音频信息处理方法可以为:可实现对原始分段语音进行相应的时间拉伸或压缩的SOLA算法,和可实现对原始分段语音中的语音片段进行调整的语音端点检测技术等。
S70:基于乐谱信息,将每一目标分段语音进行语音合成,得到目标歌曲。
乐谱信息包括匹配歌曲的配乐和匹配歌曲的节调。具体地,将匹配歌曲的配乐作为背景音乐;然后采用语音合成方法将获取的每一目标分段语音进行语音合成;最后根据匹配歌曲的节调对进行语音合成后的语音进行节奏快慢、音调高低的调整,得到目标歌曲。其中,节调主要包括pitch(音调)、tempo(节拍)和rate(速度)等。优选地,语音合成方法可以为基于LMA声道模型的语音合成方法。
在本实施例中,通过获取原始语音数据,原始语音数据包括文本信息;将文本信息输入到预设的歌曲数据库中,并从歌曲数据库中筛选出与文本信息匹配度最高的匹配歌曲,匹配歌曲包括歌词信息、语气词和乐谱信息;根据歌词信息对文本信息进行字符切割,得到原始字符段序列;将语气词加入到原始字符段序列对应的字符段中,并对加入语气词后的原始字符段序列进行字符押韵调整,得到目标字符段序列;根据原始字符段序列,对原始语音数据进行切割分段,得到原始分段语音;根据目标字符段序列,对原始分段语音进行韵律调整,得到目标分段语音;基于乐谱信息,将每一目标分段语音进行语音合成,得到目标歌曲;先根据匹配歌曲对输入的原始语音数据的文本信息进行处理,得到目标字符段序列,然后再根据目标字符段序列对用户输入的原始语音数据进行个性化调整,不但实现了智能化生成目标歌曲,还保证了生成的目标歌曲仍保持有用户输入的原有语音数据的音效。
在一实施例中,如图3所示,根据歌词信息对文本信息进行字符切割,得到原始字符段序列,具体包括如下步骤:
S301:获取歌词信息,歌词信息包括N个分段歌词,N为正整数。
其中,分段歌词指歌词信息所包含的句子,N为正整数。歌词信息中至少包含一个分段歌词。在本实施例中,主要根据获取的歌词信息中的句号、逗号等标点符号,对歌词信息进行划分,从而获取分段歌词。
S302:计算每一分段歌词的字符长度,得到歌词信息的字符长度序列。
其中,每一分段歌词的字符长度指每一分段歌词所包含字符的数量。例如:若一分段歌词包括5个字符,则该分段歌词的字符长度为5。具体地,将每一分段歌词的字符长度进行组合,即可得到该歌词信息的字符长度序列。字符长度序列包括每一分段歌词的字符长度。各分段歌词的字符长度的先后顺序与相应的分段歌词在歌词信息中出现的先后顺序一致。可以理解,歌词信息中最开始的分段歌词所对应的字符长度在字符长度序列中的顺序最靠前。
S303:基于歌词信息的字符长度序列,对文本信息进行字符切割,得到原始字符段序列。
具体地,预先根据歌词信息的字符长度序列,确定获取的文本信息中需进行字符切割的切割点,然后采用字符串分割算法对该文本信息进行相同字符长度的切割,得到原始字符段序列。可以理解地,原始字符段序列的字符长度序列与歌词信息的字符长度序列相同。示例性地,若歌词信息的字符长度序列为[5,6,9],则在对文本信息进行字符切割后,得到的原始字符段序列也是为[5,6,9]。
在本实施例中,通过获取歌词信息,歌词信息包括N个分段歌词,N为正整数;计算每一分段歌词的字符长度,得到歌词信息的字符长度序列;再基于歌词信息的字符长度序列,对文本信息进行字符切割,得到原始字符段序列,保证了原始字符段序列能更好的兼容歌词信息的分句字数,节奏感好。
在一实施例中,如图4所示,对加入语气词后的原始字符段序列进行字符押韵调整,得到目标字符段序列,具体包括如下步骤:
S401:将加入语气词后的原始字符段序列中的每一原始字符段进行分词切割,得到原始分词序列。
为了提高后续进行同义词匹配的准确性,还需对加入语气词后的原始字符段序列中的每一字符段进行分词切割。其中,分词切割是指将一个连续的字符序列切分成多个单独的字符或者字符序列的过程。
具体地,可采用预设的分词方式对加入语气词后的原始字符段序列中的每一原始字符段进行分词切割处理,得到多个字符或者字符序列,并对得到的多个字符或者字符序列进行去停词等处理,处理后的字符或者字符序列按照各自在原始字符段序列中出现的先后顺序形成原始分词序列。其中,预设的分词方式可以是基于字符匹配或者基于统计的分词方式。可预先在服务端设置进行分词切割得到的各原始分词的词长阈值,使得原始分词序列中的各原始分词的词长均不超过词长阈值。
S402:将原始分词序列中的每一原始分词与预设的同义词数据库中的预设分词进行同义词匹配,得到匹配结果,匹配结果包括匹配成功和匹配失败。
其中,同义词数据库指预先设定的存储有大量具有RAP节奏感的分词的数据库。预设分词指具有RAP节奏感的分词,预设词组可以预先从互联网上采集获取。具体地,将原始分词序列中的每一原始分词输入到预设的同义词数据库中,并采用同义词相似匹配方法,将每一原始分词与同义词数据库中的预设分词进行同义词匹配,若原始分词与同义词词数据库中的任意一预设分词相匹配,则得到该原始分词的匹配结果为匹配成功,若原始分词与同义词词数据库中的任意一预设分词都不相匹配,则得到该原始分词的匹配结果为匹配失败。
S403:对匹配结果为匹配成功的原始分词进行分词替换,得到初始字符段序列。
具体地,将根据步骤S402得到的匹配结果为匹配成功的原始分词进行分词替换,即将每一原始分词对应匹配的预设分词替换掉对应的原始分词,得到初始字符段序列。
S404:对初始字符段序列中每一初始字符段的韵脚字符进行韵脚调整,得到目标字符段序列。
具体地,对初始字符段序列中每一初始字符段的韵脚字符进行韵脚调整是指:将初始字符段序列中每一初始字符段的韵脚字符调整成符合预设押韵方式的字符段序列的过程。在本实施例中,对初始字符段序列中每一初始字符段的韵脚字符进行韵脚调整主要根据匹配歌曲的歌词信息中每一分段歌词的押韵方式进行调整,以确保得到的目标字符段序列中相邻初始字符段之间的韵脚字符具有相同的押韵方式。
在本实施例中,通过将加入语气词后的原始字符段序列中的每一原始字符段进行分词切割,得到原始分词序列;将原始分词序列中的每一原始分词与预设的同义词数据库中的预设分词进行同义词匹配,得到匹配结果,匹配结果包括匹配成功和匹配失败;对匹配结果为匹配成功的原始分词进行分词替换,得到初始字符段序列;对初始字符段序列中每一初始字符段的韵脚字符进行韵脚调整,得到目标字符段序列;进一步提高了获取的目标字符段序列的RAP节奏感。
在一实施例中,如图5所示,对初始字符段序列中每一初始字符段的韵脚字符进行韵脚调整,得到目标字符段序列,具体包括如下步骤:
S4041:检测歌词信息的押韵方式,根据押韵方式确定初始字符段序列中的每一初始字符段的韵脚字符。
其中,押韵方式是指在韵文的创作中,在某些句子的最后一个或几个字,都使用韵母相同或相近的字或者平仄统一的方式。同一韵母字的地方,称为韵脚。可选地,押韵方式可以为:单押、双押和三押。具体地,检测歌词信息的押韵方式指检测歌词信息中每一分段歌词所包含的韵脚数。可选地,可采用押韵工具实现对歌词信息的押韵方式的检测。具体地,输入歌词信息中的每一分段歌词,借助押韵工具进行押韵检测,即可得到该歌词信息的押韵方式。
在获取歌词信息的押韵方式之后,再根据该押韵方式确定初始字符段序列中的每一初始字符段的韵脚字符。具体地,若获取到歌词信息的押韵方式为双押,则确定初始字符段序列中每一初始字符段的韵脚字符为每一字符段中的最后两个字符。
S4042:对每一初始字符段的韵脚字符进行注音,得到每一初始字符段的韵脚字符的音节特征。
具体地,对每一初始字符段的韵脚字符进行注音是指给每一初始字符段中的韵脚字符标注拼音的过程。优选地,可采用中文转拼音算法自动实现对每一初始字符段的韵脚字符的注音。其中,中文转拼音算法主要是通过一个二维坐标对每一个中文字或英文进行定位,从而建立一个二维表来实现中文(或英文)和拼音及韵脚的对应关系的过程。然后,再根据每一初始字符段的韵脚字符的注音,确定每一初始字符段的韵脚字符的音节特征。其中,音节特征指韵脚字符的韵母特征。例如:对“灯火阑珊的城”中的韵脚字符“城”进行注音后为“cheng”,则该韵脚字符“城”的音节特征即为“eng”。
S4043:判断初始字符段序列中的相邻初始字符段组之间的韵脚字符的音节特征是否相同。
其中,相邻初始字符段组是指由两个配对成功的初始字符段组成的字符段组。具体地,可预先对该初始字符段序列中的初始字符段按照预设的配对方式进行配对,从而确定该原始字符段序列中的相邻初始字符段组。可选地,配对方式可以为将初始字符段序列中的第一初始字符段和第二初始字符段成相邻初始字符段组;第三初始字符段和第四初始字符段组成相邻初始字符段组,以此类型进行字符段配对。可以理解地,第二初始字符段和第三初始字符段不属于相邻初始字符段组。
具体地,判断初始字符段序列中的相邻初始字符段组之间的韵脚字符的音节特征是否相同是指:判断初始字符段序列中相邻初始字符段组之间的韵脚字符的韵母是否相同或相似。例如:“en”与“en”属于相同韵母,“eng”与“en”属于相似韵母。可选地,可采用字符串匹配法对每一相邻初始字符段组之间的韵脚字符的韵母进行差异对比,以判断该初始字符段序列中的相邻初始字符段组之间的韵脚字符的音节特征是否相同。若相邻初始字符段组之间的韵脚字符的韵母匹配成功,则判断该相邻初始字符段组之间的韵脚字符的音节特征相同,反正,则不同。
S4044:对韵脚字符的音节特征不同的相邻初始字符段组的韵脚字符进行同义词替换,得到每一相邻初始字符段组的韵脚字符的音节特征都相同的目标字符段序列。
具体地,可将韵脚字符的音节特征不同的相邻初始字符段组中的前一初始字符段的韵脚字符,替换成与后一初始字符段的韵脚字符的音节特征相同的韵脚字符,或者将后一初始字符段的韵脚字符,替换成与前一初始字符段的韵脚字符的音节特征相同的韵脚字符。此次不做具体限制。可选地,可将需进行同义词替换的韵脚字符输入到RAP韵脚词库中进行查询,获取与对应初始字符段的韵脚字符的音节相同的的字符,然后再进行同义词匹配,将匹配度最高的字符替换掉对应需进行同义词替换的韵脚字符,得到每一相邻初始字符段组的韵脚字符的音节特征都相同的目标字符段序列。
在本实施例中,通过检测歌词信息的押韵方式,根据押韵方式确定初始字符段序列中的每一初始字符段的韵脚字符;对每一初始字符段的韵脚字符进行注音,得到每一初始字符段的韵脚字符的音节特征;判断初始字符段序列中的相邻初始字符段组之间的韵脚字符的音节特征是否相同;对韵脚字符的音节特征不同的相邻初始字符段组的韵脚字符进行同义词替换,得到每一相邻初始字符段组的韵脚字符的音节特征都相同的目标字符段序列;确保得到的目标字符段序列与匹配歌曲的歌词信息的押韵方式相匹配。
在一实施例中,如图6所示,根据目标字符段序列对原始分段语音进行韵律调整,得到目标分段语音,具体包括如下步骤:
S601:获取目标字符段序列,根据目标字符段序列中字符段之间的相对位置,对原始分段语音进行相应的时间拉伸或压缩,得到初始分段语音。
其中,目标字符段序列中字符段之间的相对位置指目标字符段序列中每一字符段之间的“留白”时长在对应音轨上的位置。具体地,根据目标字符段序列中每一字符段之间的“留白”时长在对应音轨上的位置,对原始分段语音进行相应的时间拉伸或压缩。对原始分段语音进行相应的时间拉伸或压缩指对原始分段语音进行变速不变调的操作处理。可选地,可采用SOLA-TS算法对原始分段语音进行相应的时间拉伸或压缩,SOLA-TS算法可以使一段语音在语调不发生变化的前提下,加快或减慢语音速度。
S602:提取目标字符段序列中新增字符对应的语音片段,得到新增语音片段。
其中,新增字符指相对比原始字符段序列,进行字符押韵调整后的字符;主要包括进行同义词替换后的新增同义词,和进行韵脚词替换后的新增韵脚词。新增语音片段指新增字符所对应的语音片段。在一具体实施方法中,可预先采用字符串匹配法,将目标字符段序列与原始字符段序列进行一一匹配,从而确定目标字符段序列中的新增字符,然后再将该新增字符进行对应的语音转化,得到新增语音片段,并将该新增语音片段存储在服务端的数据库中,在执行完步骤S601之后,可直接从服务端的数据库提取对应的新增语音片段。
S603:检测每一初始分段语音中是否包括待处理字符,待处理字符为需进行字符押韵调整的字符,并对待处理字符的初始分段语音进行切割分段,得到子分段语音序列,子分段语音序列包括待替换语音,待替换语音指待处理字符对应的语音片段。
检测每一初始分段语音中是否包括待处理字符,待处理字符为需进行字符押韵调整的字符。具体地,可先通过文本解析出每一初始分段语音所对应的分段字符,并将每一分段字符与目标字符段序列中对应的字符段进行一一匹配,若该分段字符中出现与对应字符段中的字符不相匹配的字符,则表示该初始分段语音中包括待处理字符,需对该初始分段语音进行切割分段。反之,若该分段字符所包含的字符与对应字符段中的字符相匹配,则表示该初始分段语音中不包括待处理字符,不需对该初始分段语音进行切割分段。具体地,可采用语音端点检测技术,实现对待处理字符的初始分段语音进行切割分段,得到子分段语音序列。可以理解地,子分段语音序列是由非替换语音和替换语音组成的语音序列。其中,替换语音指待处理字符对应的语音片段。
S604:将新增语音片段替换子分段语音序列中对应的待替换语音,得到目标分段语音。
具体地,可采用语音合成和处理技术,将新增语音片段替换子分段语音序列中对应的待替换语音,得到目标分段语音。
在本实施例中,通过获取目标字符段序列,根据目标字符段序列中字符段之间的相对位置,对原始分段语音进行相应的时间拉伸或压缩,得到初始分段语音;提取目标字符段序列中新增字符对应的语音片段,得到新增语音片段;检测每一初始分段语音中是否包括待处理字符,待处理字符为需进行字符押韵调整的字符,并对待处理字符的初始分段语音进行切割分段,得到子分段语音序列,子分段语音序列包括待替换语音,待替换语音指待处理字符对应的语音片段;将新增语音片段替换子分段语音序列中对应的待替换语音,得到目标分段语音;通过目标字符段序列对原始分段语音进行处理,不但提高了目标分段语音的整体韵律感,还保证了获取的目标分段语音仍保持有用户输入的原有语音数据的音效。
在一实施例中,如图7所示,从歌曲数据库中筛选出与文本信息匹配度最高的匹配歌曲之前,歌曲生成方法还包括:
S21:获取M首样本歌曲,样本歌曲包括样本歌词,M为正整数。
其中,样本歌曲指服务端预先采集的歌曲。可选地,可以从互联网或第三方音乐网站/平台所公开的歌曲集中获取样本歌曲。为了保证后续歌曲匹配的精确度,获取的样本歌曲的数量N应不少于1000。在本实施例中,获取的样本歌曲为rap歌曲。样本歌曲包括样本歌词,样本歌词指每一样本歌曲所对应的歌词。
S22:对每一样本歌词进行文本解析,得到每一样本歌词的歌词特征,其中,歌词特征包括歌词数量、歌词段落数、每句歌词字数和重复歌词段落数。
对获取的每一样本歌词进行文本解析,得到每一样本歌词的歌词特征。其中,歌词特征包括歌词数量、歌词段落数、平均每句歌词长短和重复段落数。具体地,可采用文本特征提取算法实现对每一样本歌词进行文本解析,得到每一样本歌词的歌词特征。例如:文本特征提取算法可以为TF-IDF算法、Word2Vec算法或Countvectorizer算法等。
S23:将获取的每一样本歌曲与对应的歌词特征对应存储,得到歌曲数据库。
具体地,将根据步骤S21和步骤S22获取的每一样本歌曲与对应的歌词特征进行关联存储在预先设定的歌曲数据库中。
在本实施例中,通过获取M首样本歌曲,样本歌曲包括样本歌词,M为正整数;对每一样本歌词进行文本解析,得到每一样本歌词的歌词特征,其中,歌词特征包括歌词数量、歌词段落数、每句歌词字数和重复歌词段落数;将获取的每一样本歌曲与对应的歌词特征对应存储,得到歌曲数据库;避免了歌曲单一的局限性,进一步提高了匹配歌曲的准确性。
在一实施例中,如图8所示,从歌曲数据库中筛选出与文本信息匹配度最高的匹配歌曲,具体包括如下步骤:
S201:提取文本信息的文本特征。
具体地,可采用文本特征提取算法,对获取的文本信息进行特征提取,得到该文本信息的文本特征。可选地,文本特征可以为:文本字符数量、文本段落数、文本每段字数或重复文本段落数等。优选地,若获取的文本信息的字符数较多,则可预先对文本信息进行句子切分处理,得到文本信息包含的分句;然后再提取该文本信息包含的分句的文本特征。其中,句子切分主要依据句号、逗号等标点符号而实现。同样地,提取该文本信息包含的分句的文本特征与提取文本信息的文本特征相同,此处不做冗余赘述。优选地,文本特征还可以包括分句的情感特征,例如积极、消极或中性。
S202:将文本信息的文本特征与歌曲数据库中每一样本歌曲对应的歌词特征进行一一匹配,得到每一样本歌曲的特征匹配度。
具体地,由于获取的文本信息与歌曲数据库中每一样本歌曲的歌词不同,因此,可以将文本信息的文本特征与每一样本歌曲对应的歌词特征进行匹配,得到每一样本歌曲的特征匹配度。在本实施例中,对文本信息的文本特征的数量不做具体限制。类似地,在获取与文本特征匹配的歌曲的操作中,对样本歌曲中的歌词特征的数量也不做具体限制,只要获取到与文本信息的文本特征对应的歌词特征即可进行比对匹配。要说明的是,使用不同的文本特征与每一样本歌曲对应的歌词特征进行匹配,得到的匹配歌曲的效果不同。例如:若文本信息的文本特征为文本字符数量和文本段落数,则将该文本特征与歌曲数据库中每一样本歌曲对应的歌词字符数量和歌词段落数进行匹配,得到的每一样本歌曲的特征匹配度为该文本信息的文本字符数量和文本段落数与每一样本歌曲的歌词数量和歌词段落数的匹配度。因此,后续得到的匹配歌曲能更好的兼容文本信息的字符数,节奏感相对较好。
可选地,预先将文本信息的文本特征的和每一样本歌曲的歌词特征分别转换成向量A=(A1,A2,……,An)和向量B(B1,B2,……,Bn),然后采用相似度算法计算文本信息的文本特征和每一样本歌曲对应的歌词特征的特征匹配度,从而获取文本信息的文本特征和每一样本歌曲对应的歌词特征的特征匹配度。在本实施例中,相似度算法可以采用编辑距离算法,即采用编辑距离算法计算文本信息的文本特征与每一样本歌曲对应的歌词特征之间的特征匹配度。编辑距离(Edit Distance),又称莱文斯坦距离(Levenshtein Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同,得到的特征匹配度越小。
优选地,为了提高获取的匹配歌曲的准确度,在将文本信息的文本特征与歌曲数据库中每一样本歌曲对应的歌词特征进行一一匹配之前,还可分别为每个文本特征设置权重系数。其中,每个文本特征设置的权重系数相加为1,最后根据每个文本特征对应的特征匹配度的权重系数,确定每一样本歌曲的特征匹配度。本方案对具体实施例不作限定。在本步骤中,通过控制不同的文本特征对应的权重,可以加强得到的匹配歌曲中权重较高的文本特征对应的效果,同时减弱权重较低的文本特征对应的效果,有利于精细化地控制得到的匹配歌曲的效果,提高了歌曲匹配的成功率。
S203:将特征匹配度最高的样本歌曲确定为匹配歌曲。
具体地,将根据S202得到的与文本信息的文本特征的特征匹配度最高的样本歌曲确定为匹配歌曲,进一步提高获取的匹配歌曲的准确性。
在本实施例中,通过提取文本信息的文本特征;将文本信息的文本特征与歌曲数据库中每一样本歌曲对应的歌词特征进行一一匹配,得到每一样本歌曲的特征匹配度;将特征匹配度最高的样本歌曲确定为匹配歌曲;从而提高了匹配歌曲的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种歌曲生成装置,该歌曲生成装置与上述实施例中歌曲生成方法一一对应。如图9所示,该歌曲生成装置包括原始语音数据获取模块10、歌曲匹配模块20、字符切割模块30、字符押韵调整模块40、语音数据切割分段模块50、韵律调整模块60和语音合成模块70。各功能模块详细说明如下:
原始语音数据获取模块10,用于获取原始语音数据,原始语音数据包括文本信息;
歌曲匹配模块20,用于将文本信息输入到预设的歌曲数据库中,并从歌曲数据库中筛选出与文本信息匹配度最高的匹配歌曲,匹配歌曲包括歌词信息、语气词和乐谱信息;
字符切割模块30,用于根据歌词信息对文本信息进行字符切割,得到原始字符段序列;
字符押韵调整模块40,用于将语气词加入到原始字符段序列对应的字符段中,并对加入语气词后的原始字符段序列进行字符押韵调整,得到目标字符段序列;
语音数据切割分段模块50,用于根据原始字符段序列,对原始语音数据进行切割分段,得到原始分段语音;
韵律调整模块60,用于根据目标字符段序列,对原始分段语音进行韵律调整,得到目标分段语音;
语音合成模块70,用于基于乐谱信息,将每一目标分段语音进行语音合成,得到目标歌曲。
优选地,字符切割模块30,包括:
歌词信息获取单元,用于获取歌词信息,歌词信息包括N个分段歌词,N为正整数;
计算单元,用于计算每一分段歌词的字符长度,得到歌词信息的字符长度序列;
字符切割单元,用于基于歌词信息的字符长度序列,对文本信息进行字符切割,得到原始字符段序列。
优选地,字符押韵调整模块40,包括:
分词切割单元,用于将加入语气词后的原始字符段序列中的每一原始字符段进行分词切割,得到原始分词序列;
同义词匹配单元,用于将原始分词序列中的每一原始分词与预设的同义词数据库中的预设分词进行同义词匹配,得到匹配结果,匹配结果包括匹配成功和匹配失败;
分词替换单元,用于对匹配结果为匹配成功的原始分词进行分词替换,得到初始字符段序列;
韵脚调整单元,用于对初始字符段序列中每一初始字符段的韵脚字符进行韵脚调整,得到目标字符段序列。
优选地,韵脚调整单元,包括:
检测子单元,用于检测歌词信息的押韵方式,根据押韵方式确定初始字符段序列中的每一初始字符段的韵脚字符;
注音子单元,用于对每一初始字符段的韵脚字符进行注音,得到每一初始字符段的韵脚字符的音节特征;
判断子单元,用于判断初始字符段序列中的相邻初始字符段组之间的韵脚字符的音节特征是否相同;
同义词替换子单元,用于对韵脚字符的音节特征不同的相邻初始字符段组的韵脚字符进行同义词替换,得到每一相邻初始字符段组的韵脚字符的音节特征都相同的目标字符段序列。
优选地,韵律调整模块60,包括:
原始分段语音调整单元,用于获取目标字符段序列,根据目标字符段序列中字符段之间的相对位置,对原始分段语音进行相应的时间拉伸或压缩,得到初始分段语音;
提取单元,用于提取目标字符段序列中新增字符对应的语音片段,得到新增语音片段;
语音切割分段单元,用于检测每一初始分段语音中是否包括待处理字符,待处理字符为需进行字符押韵调整的字符,并对待处理字符的初始分段语音进行切割分段,得到子分段语音序列,子分段语音序列包括待替换语音,待替换语音指待处理字符对应的语音片段;
语音替换单元,用于将新增语音片段替换子分段语音序列中对应的待替换语音,得到目标分段语音。
优选地,歌曲生成装置,还包括:
样本歌曲获取模块,用于获取M首样本歌曲,样本歌曲包括样本歌词,M为正整数;
文本解析模块,用于对每一样本歌词进行文本解析,得到每一样本歌词的歌词特征,其中,歌词特征包括歌词数量、歌词段落数、平均每句歌词长短和重复歌词段落数中的至少一个特征;
存储模块,用于将获取的每一样本歌曲与对应的歌词特征对应存储,得到歌曲数据库。
优选地,歌曲匹配模块20,包括:
文本特征提取单元,用于提取文本信息的文本特征;
歌曲匹配单元,用于将文本信息的文本特征与歌曲数据库中每一样本歌曲对应的歌词特征进行一一匹配,得到每一样本歌曲的特征匹配度;
筛选单元,用于将特征匹配度最高的样本歌曲确定为匹配歌曲。
关于歌曲生成装置的具体限定可以参见上文中对于歌曲生成方法的限定,在此不再赘述。上述歌曲生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例歌曲生成方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种歌曲生成方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中歌曲生成方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中歌曲生成方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种歌曲生成方法,其特征在于,包括:
获取原始语音数据,所述原始语音数据包括文本信息;
将所述文本信息输入到预设的歌曲数据库中,并从所述歌曲数据库中筛选出与所述文本信息匹配度最高的匹配歌曲,所述匹配歌曲包括歌词信息、语气词和乐谱信息;
根据所述歌词信息对所述文本信息进行字符切割,得到原始字符段序列;
将所述语气词加入到所述原始字符段序列对应的字符段中,并对所述加入语气词后的原始字符段序列进行字符押韵调整,得到目标字符段序列;
根据所述原始字符段序列,对所述原始语音数据进行切割分段,得到原始分段语音;
根据所述目标字符段序列,对所述原始分段语音进行韵律调整,得到目标分段语音;
基于所述乐谱信息,将每一所述目标分段语音进行语音合成,得到目标歌曲。
2.如权利要求1所述的歌曲生成方法,其特征在于,所述根据所述歌词信息对所述文本信息进行字符切割,得到原始字符段序列,包括:
获取所述歌词信息,所述歌词信息包括N个分段歌词,N为正整数;
计算每一所述分段歌词的字符长度,得到所述歌词信息的字符长度序列;
基于所述歌词信息的所述字符长度序列,对所述文本信息进行字符切割,得到原始字符段序列。
3.如权利要求1所述的歌曲生成方法,所述对所述加入语气词后的原始字符段序列进行字符押韵调整,得到目标字符段序列,包括:
将所述加入语气词后的原始字符段序列中的每一原始字符段进行分词切割,得到原始分词序列;
将所述原始分词序列中的每一原始分词与预设的同义词数据库中的预设分词进行同义词匹配,得到匹配结果,所述匹配结果包括匹配成功和匹配失败;
对所述匹配结果为匹配成功的原始分词进行分词替换,得到初始字符段序列;
对所述初始字符段序列中每一初始字符段的韵脚字符进行韵脚调整,得到目标字符段序列。
4.如权利要求3所述的歌曲生成方法,其特征在于,所述对所述初始字符段序列中每一初始字符段的韵脚字符进行韵脚调整,得到目标字符段序列,包括:
检测所述歌词信息的押韵方式,根据所述押韵方式确定所述初始字符段序列中的每一初始字符段的韵脚字符;
对每一所述初始字符段的所述韵脚字符进行注音,得到每一所述初始字符段的所述韵脚字符的音节特征;
判断所述初始字符段序列中的相邻初始字符段组之间的所述韵脚字符的音节特征是否相同;
对韵脚字符的音节特征不同的相邻初始字符段组的所述韵脚字符进行同义词替换,得到每一所述相邻初始字符段组的所述韵脚字符的音节特征都相同的目标字符段序列。
5.如权利要求1所述的歌曲生成方法,其特征在于,所述根据目标字符段序列对所述原始分段语音进行韵律调整,得到目标分段语音,包括:
获取所述目标字符段序列,根据所述目标字符段序列中字符段之间的相对位置,对所述原始分段语音进行相应的时间拉伸或压缩,得到初始分段语音;
提取所述目标字符段序列中新增字符对应的语音片段,得到新增语音片段;
检测每一所述初始分段语音中是否包括待处理字符,所述待处理字符为需进行字符押韵调整的字符,并对所述待处理字符的所述初始分段语音进行切割分段,得到子分段语音序列,所述子分段语音序列包括待替换语音,所述待替换语音指所述待处理字符对应的语音片段;
将所述新增语音片段替换所述子分段语音序列中对应的所述待替换语音,得到目标分段语音。
6.如权利要求1所述的歌曲生成方法,其特征在于,所述从歌曲数据库中筛选出与所述文本信息匹配度最高的匹配歌曲之前,所述歌曲生成方法,还包括:
获取M首样本歌曲,所述样本歌曲包括样本歌词,M为正整数;
对每一所述样本歌词进行文本解析,得到每一所述样本歌词的歌词特征,其中,所述歌词特征包括歌词数量、歌词段落数、每句歌词字数和重复歌词段落数;
将获取的每一所述样本歌曲与对应的所述歌词特征对应存储,得到所述歌曲数据库。
7.如权利要求1所述的歌曲生成方法,其特征在于,所述从歌曲数据库中筛选出与所述文本信息匹配度最高的匹配歌曲,包括:
提取所述文本信息的文本特征;
将所述文本信息的所述文本特征与所述歌曲数据库中每一所述样本歌曲对应的所述歌词特征进行一一匹配,得到每一所述样本歌曲的特征匹配度;
将所述特征匹配度最高的所述样本歌曲确定为匹配歌曲。
8.一种歌曲生成装置,其特征在于,包括:
原始语音数据获取模块,用于获取原始语音数据,所述原始语音数据包括文本信息;
歌曲匹配模块,用于将所述文本信息输入到预设的歌曲数据库中,并从所述歌曲数据库中筛选出与所述文本信息匹配度最高的匹配歌曲,所述匹配歌曲包括歌词信息、语气词和乐谱信息;
字符切割模块,用于根据所述歌词信息对所述文本信息进行字符切割,得到原始字符段序列;
字符押韵调整模块,用于将所述语气词加入到所述原始字符段序列对应的字符段中,并对所述加入语气词后的原始字符段序列进行字符押韵调整,得到目标字符段序列;
语音数据切割分段模块,用于根据所述原始字符段序列,对所述原始语音数据进行切割分段,得到原始分段语音;
韵律调整模块,用于根据所述目标字符段序列,对所述原始分段语音进行韵律调整,得到目标分段语音;
语音合成模块,用于基于所述乐谱信息,将每一所述目标分段语音进行语音合成,得到目标歌曲。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述歌曲生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述歌曲生成方法。
CN201910662215.2A 2019-07-22 2019-07-22 歌曲生成方法、装置、计算机设备及存储介质 Active CN110516110B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910662215.2A CN110516110B (zh) 2019-07-22 2019-07-22 歌曲生成方法、装置、计算机设备及存储介质
PCT/CN2019/117302 WO2021012503A1 (zh) 2019-07-22 2019-11-12 歌曲生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910662215.2A CN110516110B (zh) 2019-07-22 2019-07-22 歌曲生成方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110516110A true CN110516110A (zh) 2019-11-29
CN110516110B CN110516110B (zh) 2023-06-23

Family

ID=68623314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910662215.2A Active CN110516110B (zh) 2019-07-22 2019-07-22 歌曲生成方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN110516110B (zh)
WO (1) WO2021012503A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326131A (zh) * 2020-03-03 2020-06-23 北京香侬慧语科技有限责任公司 一种歌曲转换方法、装置、设备以及介质
CN111339352A (zh) * 2020-01-22 2020-06-26 华为技术有限公司 一种音频生成方法、装置和存储介质
CN112037769A (zh) * 2020-07-28 2020-12-04 出门问问信息科技有限公司 一种训练数据生成方法、装置以及计算机可读存储介质
CN112115718A (zh) * 2020-09-29 2020-12-22 腾讯科技(深圳)有限公司 内容文本生成方法和装置、音乐评论文本生成方法
CN112750421A (zh) * 2020-12-23 2021-05-04 出门问问(苏州)信息科技有限公司 一种歌声合成方法、装置及可读存储介质
CN113010730A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 音乐文件生成方法、装置、设备及存储介质
CN113270081A (zh) * 2020-02-14 2021-08-17 原相科技股份有限公司 调整歌伴奏音的方法及调整歌伴奏音的电子装置
CN113377992A (zh) * 2021-06-21 2021-09-10 腾讯音乐娱乐科技(深圳)有限公司 歌曲分段方法、设备和存储介质
CN113377971A (zh) * 2021-05-31 2021-09-10 北京达佳互联信息技术有限公司 多媒体资源生成方法、装置、电子设备以及存储介质
CN113392262A (zh) * 2020-11-26 2021-09-14 腾讯科技(北京)有限公司 音乐识别方法、推荐方法、装置、设备及存储介质
CN113626635A (zh) * 2021-08-10 2021-11-09 功夫(广东)音乐文化传播有限公司 一种歌曲乐句划分方法、系统、电子设备及介质
CN113658594A (zh) * 2021-08-16 2021-11-16 北京百度网讯科技有限公司 歌词识别方法、装置、设备、存储介质及产品
CN114020958A (zh) * 2021-09-26 2022-02-08 天翼爱音乐文化科技有限公司 一种音乐分享方法、设备及存储介质
CN114038446A (zh) * 2021-11-24 2022-02-11 北京房江湖科技有限公司 语音合成方法和计算机可读存储介质、电子设备
WO2022042418A1 (zh) * 2020-08-27 2022-03-03 北京字节跳动网络技术有限公司 音乐合成方法、装置、设备和计算机可读介质
CN116011430A (zh) * 2023-03-22 2023-04-25 暗链科技(深圳)有限公司 韵脚去重方法、非易失性可读存储介质及电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470612B (zh) * 2021-06-25 2024-01-02 北京达佳互联信息技术有限公司 一种音乐数据的生成方法、装置、设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144626A1 (en) * 2011-12-04 2013-06-06 David Shau Rap music generation
CN104391980A (zh) * 2014-12-08 2015-03-04 百度在线网络技术(北京)有限公司 生成歌曲的方法和装置
CN104867491A (zh) * 2015-06-17 2015-08-26 百度在线网络技术(北京)有限公司 用于语音合成的韵律模型训练方法和装置
US20170092247A1 (en) * 2015-09-29 2017-03-30 Amper Music, Inc. Machines, systems, processes for automated music composition and generation employing linguistic and/or graphical icon based musical experience descriptors
CN107799119A (zh) * 2016-09-07 2018-03-13 中兴通讯股份有限公司 音频制作方法、装置及系统
CN109599079A (zh) * 2017-09-30 2019-04-09 腾讯科技(深圳)有限公司 一种音乐的生成方法和装置
CN109979497A (zh) * 2017-12-28 2019-07-05 阿里巴巴集团控股有限公司 歌曲的生成方法、装置和系统及数据处理和歌曲播放方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012021799A2 (en) * 2010-08-13 2012-02-16 Rockstar Music, Inc. Browser-based song creation
US8682938B2 (en) * 2012-02-16 2014-03-25 Giftrapped, Llc System and method for generating personalized songs
CN105740394B (zh) * 2016-01-27 2019-02-26 广州酷狗计算机科技有限公司 歌曲生成方法、终端及服务器
CN108806656B (zh) * 2017-04-26 2022-01-28 微软技术许可有限责任公司 歌曲的自动生成
CN109166564B (zh) * 2018-07-19 2023-06-06 平安科技(深圳)有限公司 为歌词文本生成乐曲的方法、装置及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144626A1 (en) * 2011-12-04 2013-06-06 David Shau Rap music generation
CN104391980A (zh) * 2014-12-08 2015-03-04 百度在线网络技术(北京)有限公司 生成歌曲的方法和装置
CN104867491A (zh) * 2015-06-17 2015-08-26 百度在线网络技术(北京)有限公司 用于语音合成的韵律模型训练方法和装置
US20170092247A1 (en) * 2015-09-29 2017-03-30 Amper Music, Inc. Machines, systems, processes for automated music composition and generation employing linguistic and/or graphical icon based musical experience descriptors
CN107799119A (zh) * 2016-09-07 2018-03-13 中兴通讯股份有限公司 音频制作方法、装置及系统
CN109599079A (zh) * 2017-09-30 2019-04-09 腾讯科技(深圳)有限公司 一种音乐的生成方法和装置
CN109979497A (zh) * 2017-12-28 2019-07-05 阿里巴巴集团控股有限公司 歌曲的生成方法、装置和系统及数据处理和歌曲播放方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339352A (zh) * 2020-01-22 2020-06-26 华为技术有限公司 一种音频生成方法、装置和存储介质
CN111339352B (zh) * 2020-01-22 2024-04-26 花瓣云科技有限公司 一种音频生成方法、装置和存储介质
CN113270081A (zh) * 2020-02-14 2021-08-17 原相科技股份有限公司 调整歌伴奏音的方法及调整歌伴奏音的电子装置
CN113270081B (zh) * 2020-02-14 2024-06-11 达发科技股份有限公司 调整歌伴奏音的方法及调整歌伴奏音的电子装置
CN111326131B (zh) * 2020-03-03 2023-06-02 北京香侬慧语科技有限责任公司 一种歌曲转换方法、装置、设备以及介质
CN111326131A (zh) * 2020-03-03 2020-06-23 北京香侬慧语科技有限责任公司 一种歌曲转换方法、装置、设备以及介质
CN112037769A (zh) * 2020-07-28 2020-12-04 出门问问信息科技有限公司 一种训练数据生成方法、装置以及计算机可读存储介质
WO2022042418A1 (zh) * 2020-08-27 2022-03-03 北京字节跳动网络技术有限公司 音乐合成方法、装置、设备和计算机可读介质
CN112115718A (zh) * 2020-09-29 2020-12-22 腾讯科技(深圳)有限公司 内容文本生成方法和装置、音乐评论文本生成方法
CN113392262A (zh) * 2020-11-26 2021-09-14 腾讯科技(北京)有限公司 音乐识别方法、推荐方法、装置、设备及存储介质
CN112750421B (zh) * 2020-12-23 2022-12-30 出门问问(苏州)信息科技有限公司 一种歌声合成方法、装置及可读存储介质
CN112750421A (zh) * 2020-12-23 2021-05-04 出门问问(苏州)信息科技有限公司 一种歌声合成方法、装置及可读存储介质
CN113010730A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 音乐文件生成方法、装置、设备及存储介质
CN113010730B (zh) * 2021-03-22 2023-07-21 平安科技(深圳)有限公司 音乐文件生成方法、装置、设备及存储介质
CN113377971A (zh) * 2021-05-31 2021-09-10 北京达佳互联信息技术有限公司 多媒体资源生成方法、装置、电子设备以及存储介质
CN113377971B (zh) * 2021-05-31 2024-02-27 北京达佳互联信息技术有限公司 多媒体资源生成方法、装置、电子设备以及存储介质
CN113377992A (zh) * 2021-06-21 2021-09-10 腾讯音乐娱乐科技(深圳)有限公司 歌曲分段方法、设备和存储介质
CN113626635A (zh) * 2021-08-10 2021-11-09 功夫(广东)音乐文化传播有限公司 一种歌曲乐句划分方法、系统、电子设备及介质
CN113658594A (zh) * 2021-08-16 2021-11-16 北京百度网讯科技有限公司 歌词识别方法、装置、设备、存储介质及产品
CN114020958A (zh) * 2021-09-26 2022-02-08 天翼爱音乐文化科技有限公司 一种音乐分享方法、设备及存储介质
CN114020958B (zh) * 2021-09-26 2022-12-06 天翼爱音乐文化科技有限公司 一种音乐分享方法、设备及存储介质
CN114038446A (zh) * 2021-11-24 2022-02-11 北京房江湖科技有限公司 语音合成方法和计算机可读存储介质、电子设备
CN116011430B (zh) * 2023-03-22 2024-04-02 暗链科技(深圳)有限公司 韵脚去重方法、非易失性可读存储介质及电子设备
CN116011430A (zh) * 2023-03-22 2023-04-25 暗链科技(深圳)有限公司 韵脚去重方法、非易失性可读存储介质及电子设备

Also Published As

Publication number Publication date
WO2021012503A1 (zh) 2021-01-28
CN110516110B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN110516110A (zh) 歌曲生成方法、装置、计算机设备及存储介质
CN104391980B (zh) 生成歌曲的方法和装置
US20210158795A1 (en) Generating audio for a plain text document
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
CN110264991A (zh) 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质
WO2020062680A1 (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
WO2018200268A1 (en) Automatic song generation
El Amrani et al. Building CMU Sphinx language model for the Holy Quran using simplified Arabic phonemes
CN110570876B (zh) 歌声合成方法、装置、计算机设备和存储介质
JP2015510147A (ja) テキストの音声化及び意味に基づくオーディオhip
CN108073565A (zh) 词语规范化的方法和设备及机器翻译方法和设备
JP7379756B2 (ja) 韻律的特徴からのパラメトリックボコーダパラメータの予測
CN109326280B (zh) 一种歌唱合成方法及装置、电子设备
EP4158619B1 (en) Phrase-based end-to-end text-to-speech (tts) synthesis
CN112735371B (zh) 一种基于文本信息生成说话人视频的方法及装置
Le et al. Developing STT and KWS systems using limited language resources
CN116386594A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN116343747A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
Xie et al. Multi-speaker multi-style text-to-speech synthesis with single-speaker single-style training data scenarios
Zhang et al. Learning Syllable-Level Discrete Prosodic Representation for Expressive Speech Generation.
Suni et al. The simple4all entry to the blizzard challenge 2014
CN112735378A (zh) 泰语语音合成方法、装置以及设备
Krug et al. Articulatory synthesis for data augmentation in phoneme recognition
CN116453502A (zh) 基于双说话人嵌入的跨语言语音合成方法及系统
CN116978381A (zh) 音频数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant