CN106898340A - 一种歌曲的合成方法及终端 - Google Patents

一种歌曲的合成方法及终端 Download PDF

Info

Publication number
CN106898340A
CN106898340A CN201710203929.8A CN201710203929A CN106898340A CN 106898340 A CN106898340 A CN 106898340A CN 201710203929 A CN201710203929 A CN 201710203929A CN 106898340 A CN106898340 A CN 106898340A
Authority
CN
China
Prior art keywords
word
audio data
information
music
lyrics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710203929.8A
Other languages
English (en)
Other versions
CN106898340B (zh
Inventor
赵伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN201710203929.8A priority Critical patent/CN106898340B/zh
Publication of CN106898340A publication Critical patent/CN106898340A/zh
Application granted granted Critical
Publication of CN106898340B publication Critical patent/CN106898340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72442User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for playing music files

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明实施例公开了一种歌曲的合成方法,包括:对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据;获取所述歌词信息对应的乐谱信息;按所述乐谱信息对所述歌词所包括的每个文字对应的文字音频数据进行合成,获得歌曲音频数据。本发明还提供一种终端。采用本发明,可使得终端可仅根据用户的音频数据即能合成歌曲,提高录制歌曲的效果,并提高用户体验度。

Description

一种歌曲的合成方法及终端
技术领域
本发明涉及互联网技术领域,尤其涉及一种歌曲的合成方法及终端。
背景技术
随着通信及信息技术的高速发展,手机也日渐普及,其功能也日益增加,各种音乐类产品也应运而生,特别是K歌类音乐产品,其中,用户可通过K歌类进行录制歌曲,并分享录制歌曲。
目前,用户在通过K歌类音乐产品进行录制歌曲时,大都是用户选择相应的音乐伴奏并跟随音乐伴奏及字幕进行演唱录制。但是,有些用户由于自身演唱水平不高而导致用户不满意其所录制的歌曲,从而降低了用户使用K歌类音乐产品进行分享录制歌曲的热情。
发明内容
本发明实施例所要解决的技术问题在于,提供一种歌曲合成方法及终端。可使得终端可仅根据用户的音频数据即能合成歌曲,提高录制歌曲的效果,并提高用户体验度。
本发明实施例第一方面提供了一种歌曲的合成方法,可包括:
对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据;
获取所述歌词信息对应的乐谱信息;
按所述乐谱信息对所述每个文字对应的文字音频数据进行合成,获得歌曲音频数据。
本发明实施例第二方面提供了一种终端,可包括:
第一获取单元,用于对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据;
第二获取单元,用于获取所述歌词信息对应的乐谱信息;
合成单元,用于按所述乐谱信息对所述每个文字对应的文字音频数据进行合成,获得歌曲音频数据。
在本发明实施例中,终端对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据,获取所述歌词信息对应的乐谱信息,按所述乐谱信息对所述每个文字对应的文字音频数据进行合成,获得歌曲音频数据,使得终端可仅根据用户的音频数据即能合成歌曲,提高录制歌曲的效果,并提高用户体验度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种网络构架示意图;
图2是本发明实施例提供的一种歌曲的合成方法的流程示意图;
图3是本发明实施例提供的一种终端的结构示意图;
图4是本发明实施例提供的另一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的一种歌曲的合成方法可以应用于终端录制歌曲的场景。
在本发明实施例中,所描述的终端可包括:手机、平板电脑、掌上电脑或者移动互联网设备(Mobile Internet Device,MID)等,上述终端仅是举例,而非穷举,包含但不限于上述终端。
为了更好理解本发明实施例公开的方案,下面先对本发明实施例适用的网络构架进行描述。请参阅图1,图1是本发明实施例公开的一种网络构架示意图。在图1所示的网络构架中,可以包括终端和歌曲服务器,终端可以通过网络与歌曲服务器进行连接,终端可向歌曲服务器请求获取数据。
基于图1所示的网络构架,本发明实施例公开了一种歌曲的合成方法。下面将结合附图2,对本发明实施例提供的一种歌曲的合成方法进行详细介绍,其中,实施例的执行主体为终端。
参见图2,是本发明实施例提供的一种歌曲的合成方法一种实施例流程示意图。本发明实施例的一种歌曲的合成方法包括如下步骤:
S100,对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据。
在本发明实施例中,当用户需通过自身语音进行合成歌曲时,用户可操作终端输入合成歌曲指令,其中,指令可携带歌曲标识。当终端接收到合成歌曲指令时,终端可根据歌曲标识获取歌曲标识对应的歌曲的歌词信息,并显示歌词信息,以使用户根据终端显示的歌词信息进行朗读,以向终端输入音频数据。同时,当终端接收到合成歌曲指令时,终端可开启终端内置的麦克风,通过麦克风采集用户针对显示的歌词信息进行输入的音频数据从而获取音频数据。其中,歌词信息可以是一句歌词或多句歌词,在此不进行限制。
在本发明实施例中,当终端获取到音频数据后,终端可对音频数据进行识别,获得歌词信息所包括的每个文字对应的文字音频。具体的,终端可对音频数据的音素进行识别切分,获得歌词信息中所包括的每个文字对应的文字音频数据。
在本发明实施例中,终端对音频数据的音素进行识别切分,获得歌词信息中所包括的每个文字对应的文字音频数据具体可以是:终端首先收集大量语料,对语料进行切分为音素,为每个音素进行训练模型获得音素模型,其中,模型可以是GMM-HMM模型,或者DNN-HMM模型等,在此不进行限制。其中,由于每个音素的具体发音情况受到上下文的影响,因此,终端在训练模型的时候可把不同上下文的因素分开训练,如同样是音素a,在不同上下文环境中,如n-a+m(表示在此语料中a音素前面的音素是音素n,后面的音素是m)、k-a+m这两个同一音素在实际情况下是训练成两个模型的,这样的话,如果音素总数是n个的话,实际训练的模型数是n^3(由于训练集可能不够,所以会让一些比较难出现的音素映射到其他音素的模型上)。
在本发明实施例中,当终端对音素进行训练后,终端可将歌词信息所包括的文字转换为音素序列,比如文字内容“我们”转成的音素序列为sil-w+o w-o+m m-en+sil(其中sil表示静音),之后终端可以将该音素序列输入至上述所生成的音素模型中,获得音素模型序列。
在本发明实施例中,终端可将音频数据进行分帧,并对每帧的音频数据进行特征提取,获得每帧的音频特征。当获得每帧的音频特征后,终端可将每帧的音频特征输入至上述获得的音素模型序列中进行计算计算置信度,其中,一个音素模型序列可以对应多帧的音频特征,每一帧的音频特征与一个音素模型序列都可以算出一个0~1的匹配度,由于按顺序经过音素模型序列进行计算,故终端最终可以得到一条与所有帧的音频特征匹配度最大化的路径,即是最优路径。具体可如:有5帧音频特征,有两个音素模型序列,则一共可能有5种不同的路径,分别是(5,0)(表示5帧的语音特征对应音素模型序列1,0帧对应音素模型序列2,此中情况的总置信度就是5帧的语音特征中的每一帧的语音特征与音素模型序列1的匹配度的乘积)、(4,1)…,最后根据最优路径终端可获取用户在什么时间读了哪个音素,因此终端将音素合并后即可获得用户读取每个文字所对应的时间信息,从而终端可根据每个文字所对应的时间信息对获取到的音频数据进行切分,获取歌词信息中的每个文字所对应的文字音频数据。其中,每个文字所对应的文字音频数据xii∈[1,n],其中n为该句的字数。
S101,获取所述歌词信息对应的乐谱信息。
终端可获取歌词信息对应的歌曲标识,根据歌曲标识获取歌曲标识对应的乐谱信息,其中,乐谱信息可以是MIDI(Musical Instrument Digital Interface,乐器数字接口)文件,MIDI文件包括目标歌曲对应的歌词信息中的每个文字对应的音符的起始时间和持续时间以及每个音符的音高值,具体的,可参见下表一所示的乐谱信息。
表一
表一第一列所示的为歌词信息所包括的文字,如表一所示,歌词信息包括的文字为“明朝清风”,表一第二列所示音符为每个文字所对应的音符,其中,歌词信息中的大部分文字在歌曲音频数据中只有一个音符,但是也有一个文字在歌曲音频数据中有多个音符(在歌曲中一个字的也会变调),如表一中的乐谱信息显示歌词中的“清”字对应的歌曲音频数据包括两个频率69和67,即是两个音符,其中每个音符都有各自对应的时间信息,两个音符加起来的时间信息就是“清”字对应的歌曲音频的时间信息。
S102,按所述乐谱信息对所述歌词所包括的每个文字对应的文字音频数据进行合成,获得歌曲音频数据。
在本发明实施例中,当终端获取到歌词信息所包括的每个文字所对应的文字音频数据,终端可按乐谱信息记录的每个文字在歌曲音频数据中的时间信息以及音符对每个文字的文字音频数据进行拉伸处理,获得每个文字对应的第一文字音频数据。
其中,终端按乐谱信息记录的每个文字在歌曲音频数据中的时间信息以及音符对每个文字的文字音频数据进行拉伸处理,获得每个文字对应的第一文字音频数据具体可以是:首先,终端获取每个文字对应的文字音频数据的时间长度,将每个文字对应的文字音频数据的时间长度以及该文字在乐谱信息中对应的音符的时间长度转化为帧数,如一个文字所对应的文字音频数据的时间长度tx,该文字在乐谱信息中对应的音符的时间长度为ty,一帧为5ms,则该文字对应的文字音频数据的帧数fx=tx/5,同样文字在乐谱信息中对应的音符的帧数fy=ty/5,其中,若是最后一片不足5ms的按一帧处理。因此,终端可定义每一帧的文字音频数据为dx ii∈[1,fx]。
进一步的,由于人在发声时声带震动产生的频率经过声道过滤后会产生大量泛音。因此为了避免这些泛音影响终端数据处理,终端需要从文字音频数据中提取直接表现声带震动频率的基频信息,基频信息也决定了整帧文字音频数据的音高。因此,终端可对每一帧文字音频数据进行提取基频信息,具体的终端可定义每一帧的文字音频数据的基频信息为px ii∈[1,fx]。同理,终端可定义每帧的文字在乐谱信息中对应的音符的基频信息为py ii∈[1,fy]。定义每一帧处理后的文字音频数据为dy i,则从而终端可根据每一帧处理后的文字音频数据以及帧的宽度获得第一文字音频数据。其中,终端可根据预置公式进行提取基频信息,具体可如,参见表一,如文字“明”在歌曲中的文字音频数据的频率为69,利用乐谱信息中的频率与实际频率的对应公式计算得到文字“明”在歌曲中的文字音频数据的实际频率为440,由于此字只有这一个基频,即基频信息py i=440i∈[1,fy]。
在本发明实施例中,当终端对每个文字对应的文字音频数据进行拉伸处理,获得每个文字对应的第一文字音频数据后,终端对每个文字对应的第一文字音频数据进行音高调整,即是进行频率调整,获得每个文字对应的第二文字音频数据。具体可如:终端根据目标帧频率将每个文字对应的第一文字音频数据切分为n个周期,如某一时刻的频率为440hz,则意味着该时段每秒钟有440个周期,将每个文字整个输出时间按照这样的方式切分为n个周期并定义为ojj∈[1,n],根据每个周期所属的帧id获取周期对应的原始音频帧dy j,也就得到了对应的dy j对于周期j,其对应的原始音频帧为dx i,其原始频率为px ii∈[1,fx],以原始帧中最大的采样点值为中心点,截取出一个时长为的数据块ki i∈[1,m],其中m为此周期采样点的个数,加窗后得到新的数据快设目标音频句子的采样点个数为ny,初始时各采样点值均为0,按照时间信息将上一步获取到的每个字的每一周期对应的ri累加到y的采样点中,其中静音部分不处理,只填充乐谱信息中有歌词的时间部分,这样就得到了调整频率后的第二文字音频数据,也就是音高转换后的第二文字音频数据。
在本发明实施例中,当终端获取到每个文字所对应的第二文字音频数据后,终端可按歌词信息所包括的文字顺序将每个文字对应的第二文字音频数据进行合成,获得音频数据片段,并从乐谱信息中获取该音频数据片段对应的伴奏数据与音频数据片段进行合成混音后即可得到该歌词对应的歌曲音频数据,终端可播放歌曲音频数据给用户进行试听。
在本发明实施例中,终端对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据,获取所述歌词信息对应的乐谱信息,按所述乐谱信息对所述歌词所包括的每个文字对应的文字音频数据进行合成,获得歌曲音频数据,使得终端可仅根据用户的音频数据即能合成歌曲,提高录制歌曲的效果,并提高用户体验度。
下面将结合附图3和4,对本发明实施例提供的一种终端进行介绍。需要说明的是,附图3和4所示的一种终端,用于执行本发明图2所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明图2所示的实施例。
请参见图3,为本发明实施例提供了一种终端的结构示意图。如图3所示,本发明实施例的所述终端可以包括:
第一获取单元100,用于对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据;
第二获取单元200,用于获取所述歌词信息对应的乐谱信息;
合成单元300,用于按所述乐谱信息对所述歌词所包括的每个文字对应的文字音频数据进行合成,获得歌曲音频数据。
其中,所述第一获取单元100包括:
输出子单元,用于输出所述歌词信息;
接收子单元,用于接收用户针对所述歌词信息输入的所述音频数据。
其中,所述乐谱信息包括所述歌词信息中的每个文字所对应的音频时长;
所述合成单元300包括:
第一获取子单元,用于从所述乐谱信息中获取所述歌词信息中的每个文字所对应的音频时长;
第一调整子单元,用于按所述每个文字所对应的音频时长对每个文字所对应的目标文字音频数据的时长进行调整,获得每个文字所对应的第一文字音频数据;
第一合成子单元,用于按所述乐谱信息对所述每个文字对应的第一文字音频数据进行合成,获得歌曲音频数据。
其中,所述乐谱信息包括所述歌词信息中的每个文字所对应的音高信息;
所述第一合成子单元包括:
第二获取子单元,用于从所述乐谱信息中获取所述歌词信息中的每个文字所对应的音高信息;
第二调整子单元,用于按所述每个文字所对应的音高信息对每个文字所对应的第一文字音频数据的音高进行调整,获得每个文字所对应的第二文字音频数据;
第二合成子单元,用于按所述乐谱信息对所述每个文字对应的第二文字音频数据进行合成,获得所述歌曲音频数据。
其中,所述乐谱信息包括伴奏数据;
所述第二合成子单元包括:
第三获取子单元,用于按所述歌词信息所包括的文字顺序将每个文字所对应的第二文字音频数据进行合成,获得音频数据片段;
第四获取子单元,用于从所述乐谱信息中获取所述音频数据片段对应的伴奏数据;
第三合成子单元,用于将所述音频数据片段对应的伴奏数据与所述音频数据片段进行合成,获得所述歌曲音频数据。
其中,可以理解的是,本实施例的终端中的单元的各功能模块的功能可根据图2述的方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再进行赘述。
在本发明实施例中,终端对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据,获取所述歌词信息对应的乐谱信息,按所述乐谱信息对所述歌词所包括的每个文字对应的文字音频数据进行合成,获得歌曲音频数据,使得终端可仅根据用户的音频数据即能合成歌曲,提高录制歌曲的效果,并提高用户体验度。
请参见图4,为本发明实施例提供了又一种终端的结构示意图。如图4所示,终端1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及通信连接应用程序。
在图4所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;网络接口1004用于与新闻服务器相连接,获取新闻服务器发送的数据;而处理器1001可以用于调用存储器1005中存储的通信连接应用程序,并具体执行以下操作:
对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据;
获取所述歌词信息对应的乐谱信息;
按所述乐谱信息对所述每个文字对应的文字音频数据进行合成,获得歌曲音频数据。
其中,所述处理器1001对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据包括:
输出所述歌词信息;
接收用户针对所述歌词信息输入的所述音频数据。
其中,所述乐谱信息包括所述歌词信息中的每个文字所对应的音频时长;
所述处理器1001按所述乐谱信息对所述每个文字对应的文字音频数据进行合成,获得歌曲音频数据包括:
从所述乐谱信息中获取所述歌词信息中的每个文字所对应的音频时长;
按所述每个文字所对应的音频时长对每个文字所对应的目标文字音频数据的时长进行调整,获得每个文字所对应的第一文字音频数据;
按所述乐谱信息对所述每个文字对应的第一文字音频数据进行合成,获得歌曲音频数据。
其中,所述乐谱信息包括所述歌词信息中的每个文字所对应的频率信息和伴奏信息;
所述处理器1001按所述乐谱信息对所述每个文字对应的第一文字音频数据进行合成,获得歌曲音频数据包括:
从所述乐谱信息中获取所述歌词信息中的每个文字所对应的频率信息;
按所述每个文字所对应的频率信息对每个文字所对应的第一文字音频数据的频率进行调整,获得每个文字所对应的第二文字音频数据;
按所述歌词信息所包括的文字顺序将每个文字所对应的第二文字音频数据进行合成,获得音频数据片段;
从所述乐谱信息中获取伴奏信息进行合成,获得所述歌曲音频数据。
其中,在所述处理器1001按所述乐谱信息对所述每个文字对应的文字音频进行合成,获得歌曲音频之后,所述处理器1001还执行:
播放所述歌曲音频。
其中,可以理解的是,本实施例的终端中的单元的各功能模块的功能可根据图2所述的方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再进行赘述。
在本发明实施例中,终端对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据,获取所述歌词信息对应的乐谱信息,按所述乐谱信息对所述歌词所包括的每个文字对应的文字音频数据进行合成,获得歌曲音频数据,使得终端可仅根据用户的音频数据即能合成歌曲,提高录制歌曲的效果,并提高用户体验度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种歌曲的合成方法,其特征在于,所述方法包括:
对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据;
获取所述歌词信息对应的乐谱信息;
按所述乐谱信息对所述歌词所包括的每个文字对应的文字音频数据进行合成,获得歌曲音频数据。
2.如权利要求1所述的方法,其特征在于,所述对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据包括:
输出所述歌词信息;
接收用户针对所述歌词信息输入的所述音频数据。
3.如权利要求2所述的方法,其特征在于,所述乐谱信息包括所述歌词信息中的每个文字所对应的音频时长;
所述按所述乐谱信息对所述歌词所包括的每个文字对应的文字音频数据进行合成,获得歌曲音频数据包括:
从所述乐谱信息中获取所述歌词信息中的每个文字所对应的音频时长;
按所述每个文字所对应的音频时长对每个文字所对应的目标文字音频数据的时长进行调整,获得每个文字所对应的第一文字音频数据;
按所述乐谱信息对所述每个文字对应的第一文字音频数据进行合成,获得所述歌曲音频数据。
4.如权利要求3所述的方法,其特征在于,所述乐谱信息包括所述歌词信息中的每个文字所对应的音高信息;
所述按所述乐谱信息对所述每个文字对应的第一文字音频数据进行合成,获得所述歌曲音频数据包括:
从所述乐谱信息中获取所述歌词信息中的每个文字所对应的音高信息;
按所述每个文字所对应的音高信息对每个文字所对应的第一文字音频数据的音高进行调整,获得每个文字所对应的第二文字音频数据;
按所述乐谱信息对所述每个文字对应的第二文字音频数据进行合成,获得所述歌曲音频数据。
5.如权利要求4所述的方法,其特征在于,所述乐谱信息包括伴奏数据;
所述按所述乐谱信息对所述每个文字对应的第二文字音频数据进行合成,获得所述歌曲音频数据包括:
按所述歌词信息所包括的文字顺序将每个文字所对应的第二文字音频数据进行合成,获得音频数据片段;
从所述乐谱信息中获取所述音频数据片段对应的伴奏数据;
将所述音频数据片段对应的伴奏数据与所述音频数据片段进行合成,获得所述歌曲音频数据。
6.一种终端,其特征在于,所述终端包括:
第一获取单元,用于对用户输入的音频数据进行识别,获取预置歌词信息中每个文字对应的文字音频数据;
第二获取单元,用于获取所述歌词信息对应的乐谱信息;
合成单元,用于按所述乐谱信息对所述歌词所包括的每个文字对应的文字音频数据进行合成,获得歌曲音频数据。
7.如权利要求6所述的终端,其特征在于,所述第一获取单元包括:
输出子单元,用于输出所述歌词信息;
接收子单元,用于接收用户针对所述歌词信息输入的所述音频数据。
8.如权利要求7所述的终端,其特征在于,所述乐谱信息包括所述歌词信息中的每个文字所对应的音频时长;
所述合成单元包括:
第一获取子单元,用于从所述乐谱信息中获取所述歌词信息中的每个文字所对应的音频时长;
第一调整子单元,用于按所述每个文字所对应的音频时长对每个文字所对应的目标文字音频数据的时长进行调整,获得每个文字所对应的第一文字音频数据;
第一合成子单元,用于按所述乐谱信息对所述每个文字对应的第一文字音频数据进行合成,获得所述歌曲音频数据。
9.如权利要求8所述的终端,其特征在于,所述乐谱信息包括所述歌词信息中的每个文字所对应的音高信息;
所述第一合成子单元包括:
第二获取子单元,用于从所述乐谱信息中获取所述歌词信息中的每个文字所对应的音高信息;
第二调整子单元,用于按所述每个文字所对应的音高信息对每个文字所对应的第一文字音频数据的音高进行调整,获得每个文字所对应的第二文字音频数据;
第二合成子单元,用于按所述乐谱信息对所述每个文字对应的第二文字音频数据进行合成,获得所述歌曲音频数据。
10.如权利要求9所述的方法,其特征在于,所述乐谱信息包括伴奏数据;
所述第二合成子单元包括:
第三获取子单元,用于按所述歌词信息所包括的文字顺序将每个文字所对应的第二文字音频数据进行合成,获得音频数据片段;
第四获取子单元,用于从所述乐谱信息中获取所述音频数据片段对应的伴奏数据;
第三合成子单元,用于将所述音频数据片段对应的伴奏数据与所述音频数据片段进行合成,获得所述歌曲音频数据。
CN201710203929.8A 2017-03-30 2017-03-30 一种歌曲的合成方法及终端 Active CN106898340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710203929.8A CN106898340B (zh) 2017-03-30 2017-03-30 一种歌曲的合成方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710203929.8A CN106898340B (zh) 2017-03-30 2017-03-30 一种歌曲的合成方法及终端

Publications (2)

Publication Number Publication Date
CN106898340A true CN106898340A (zh) 2017-06-27
CN106898340B CN106898340B (zh) 2021-05-28

Family

ID=59193853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710203929.8A Active CN106898340B (zh) 2017-03-30 2017-03-30 一种歌曲的合成方法及终端

Country Status (1)

Country Link
CN (1) CN106898340B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108428441A (zh) * 2018-02-09 2018-08-21 咪咕音乐有限公司 多媒体文件生成方法、电子设备和存储介质
CN109147757A (zh) * 2018-09-11 2019-01-04 广州酷狗计算机科技有限公司 歌声合成方法及装置
CN109326280A (zh) * 2017-07-31 2019-02-12 科大讯飞股份有限公司 一种歌唱合成方法及装置、电子设备
CN109801608A (zh) * 2018-12-18 2019-05-24 武汉西山艺创文化有限公司 一种基于神经网络的歌曲生成方法和系统
CN109817191A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 颤音建模方法、装置、计算机设备及存储介质
CN109979497A (zh) * 2017-12-28 2019-07-05 阿里巴巴集团控股有限公司 歌曲的生成方法、装置和系统及数据处理和歌曲播放方法
CN110136689A (zh) * 2019-04-02 2019-08-16 平安科技(深圳)有限公司 基于迁移学习的歌声合成方法、装置及存储介质
CN110570834A (zh) * 2019-09-27 2019-12-13 广州市迪声音响有限公司 实现歌曲播放过程中歌谱同步显示的方法和装置以及设备
WO2020000976A1 (zh) * 2018-06-29 2020-01-02 上海掌门科技有限公司 一种获取音乐数据的方法、设备和计算机存储介质
CN110767204A (zh) * 2018-07-27 2020-02-07 华为技术有限公司 声音处理方法、装置及存储介质
CN111292717A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备
CN111445892A (zh) * 2020-03-23 2020-07-24 北京字节跳动网络技术有限公司 歌曲生成方法、装置、可读介质及电子设备
CN111862911A (zh) * 2020-06-11 2020-10-30 北京时域科技有限公司 歌曲即时生成方法和歌曲即时生成装置
CN111916039A (zh) * 2019-05-08 2020-11-10 北京字节跳动网络技术有限公司 音乐文件的处理方法、装置、终端及存储介质
CN112331234A (zh) * 2020-10-27 2021-02-05 北京百度网讯科技有限公司 歌曲多媒体的合成方法、装置、电子设备及存储介质
CN112786013A (zh) * 2021-01-11 2021-05-11 北京有竹居网络技术有限公司 基于唱本的语音合成方法、装置、可读介质和电子设备
CN113436591A (zh) * 2021-06-24 2021-09-24 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质
CN114360492A (zh) * 2021-10-26 2022-04-15 腾讯科技(深圳)有限公司 音频合成方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103035235A (zh) * 2011-09-30 2013-04-10 西门子公司 一种将语音转换为旋律的方法和装置
US20150310850A1 (en) * 2012-12-04 2015-10-29 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis
CN105788589A (zh) * 2016-05-04 2016-07-20 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN106373580A (zh) * 2016-09-05 2017-02-01 北京百度网讯科技有限公司 基于人工智能的合成歌声的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103035235A (zh) * 2011-09-30 2013-04-10 西门子公司 一种将语音转换为旋律的方法和装置
US20150310850A1 (en) * 2012-12-04 2015-10-29 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis
CN105788589A (zh) * 2016-05-04 2016-07-20 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN106373580A (zh) * 2016-09-05 2017-02-01 北京百度网讯科技有限公司 基于人工智能的合成歌声的方法和装置

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326280B (zh) * 2017-07-31 2022-10-04 科大讯飞股份有限公司 一种歌唱合成方法及装置、电子设备
CN109326280A (zh) * 2017-07-31 2019-02-12 科大讯飞股份有限公司 一种歌唱合成方法及装置、电子设备
CN109979497A (zh) * 2017-12-28 2019-07-05 阿里巴巴集团控股有限公司 歌曲的生成方法、装置和系统及数据处理和歌曲播放方法
CN108428441A (zh) * 2018-02-09 2018-08-21 咪咕音乐有限公司 多媒体文件生成方法、电子设备和存储介质
WO2020000976A1 (zh) * 2018-06-29 2020-01-02 上海掌门科技有限公司 一种获取音乐数据的方法、设备和计算机存储介质
CN110767204B (zh) * 2018-07-27 2022-06-14 华为技术有限公司 声音处理方法、装置及存储介质
CN110767204A (zh) * 2018-07-27 2020-02-07 华为技术有限公司 声音处理方法、装置及存储介质
CN109147757A (zh) * 2018-09-11 2019-01-04 广州酷狗计算机科技有限公司 歌声合成方法及装置
CN109801608A (zh) * 2018-12-18 2019-05-24 武汉西山艺创文化有限公司 一种基于神经网络的歌曲生成方法和系统
CN109817191A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 颤音建模方法、装置、计算机设备及存储介质
CN109817191B (zh) * 2019-01-04 2023-06-06 平安科技(深圳)有限公司 颤音建模方法、装置、计算机设备及存储介质
WO2020140390A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 颤音建模方法、装置、计算机设备及存储介质
CN110136689B (zh) * 2019-04-02 2022-04-22 平安科技(深圳)有限公司 基于迁移学习的歌声合成方法、装置及存储介质
CN110136689A (zh) * 2019-04-02 2019-08-16 平安科技(深圳)有限公司 基于迁移学习的歌声合成方法、装置及存储介质
CN111916039A (zh) * 2019-05-08 2020-11-10 北京字节跳动网络技术有限公司 音乐文件的处理方法、装置、终端及存储介质
US11514923B2 (en) 2019-05-08 2022-11-29 Beijing Bytedance Network Technology Co., Ltd. Method and device for processing music file, terminal and storage medium
CN110570834A (zh) * 2019-09-27 2019-12-13 广州市迪声音响有限公司 实现歌曲播放过程中歌谱同步显示的方法和装置以及设备
CN111292717A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备
CN111292717B (zh) * 2020-02-07 2021-09-17 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备
CN111445892A (zh) * 2020-03-23 2020-07-24 北京字节跳动网络技术有限公司 歌曲生成方法、装置、可读介质及电子设备
CN111862911A (zh) * 2020-06-11 2020-10-30 北京时域科技有限公司 歌曲即时生成方法和歌曲即时生成装置
CN111862911B (zh) * 2020-06-11 2023-11-14 北京时域科技有限公司 歌曲即时生成方法和歌曲即时生成装置
CN112331234A (zh) * 2020-10-27 2021-02-05 北京百度网讯科技有限公司 歌曲多媒体的合成方法、装置、电子设备及存储介质
CN112786013A (zh) * 2021-01-11 2021-05-11 北京有竹居网络技术有限公司 基于唱本的语音合成方法、装置、可读介质和电子设备
CN113436591A (zh) * 2021-06-24 2021-09-24 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质
CN113436591B (zh) * 2021-06-24 2023-11-17 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质
CN114360492A (zh) * 2021-10-26 2022-04-15 腾讯科技(深圳)有限公司 音频合成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN106898340B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN106898340A (zh) 一种歌曲的合成方法及终端
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
CN106373580B (zh) 基于人工智能的合成歌声的方法和装置
WO2021218138A1 (zh) 歌曲合成方法、装置、设备及存储介质
JP4413144B2 (ja) 携帯用音声合成のためのシステム及び方法
CN110675886B (zh) 音频信号处理方法、装置、电子设备及存储介质
CN108847215B (zh) 基于用户音色进行语音合成的方法及装置
CN106652997A (zh) 一种音频合成的方法及终端
CN105957515B (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
CN108053814B (zh) 一种模拟用户歌声的语音合成系统及方法
CN109326280B (zh) 一种歌唱合成方法及装置、电子设备
CN110310621A (zh) 歌唱合成方法、装置、设备以及计算机可读存储介质
CN106898339A (zh) 一种歌曲的合唱方法及终端
CN108269579A (zh) 语音数据处理方法、装置、电子设备及可读存储介质
CN111105776A (zh) 有声播放装置及其播放方法
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
JP7069386B1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
JP7497523B2 (ja) カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体
O’Callaghan Mediated Mimesis: Transcription as Processing
CN111276118A (zh) 一种实现音频电子书的方法及系统
CN113421544B (zh) 歌声合成方法、装置、计算机设备及存储介质
WO2024103383A1 (zh) 音频处理方法、装置、设备、存储介质及程序产品
CN112992118B (zh) 一种少语料的语音模型训练及合成方法
JPH1115488A (ja) 合成音声評価・合成装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant