CN109741724A - 制作歌曲的方法、装置及智能音响 - Google Patents
制作歌曲的方法、装置及智能音响 Download PDFInfo
- Publication number
- CN109741724A CN109741724A CN201811615302.4A CN201811615302A CN109741724A CN 109741724 A CN109741724 A CN 109741724A CN 201811615302 A CN201811615302 A CN 201811615302A CN 109741724 A CN109741724 A CN 109741724A
- Authority
- CN
- China
- Prior art keywords
- voice
- information
- song
- preset
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000015654 memory Effects 0.000 claims description 17
- 230000033764 rhythmic process Effects 0.000 claims description 15
- 238000004519 manufacturing process Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004088 simulation Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
公开了一种制作歌曲的方法、装置及智能音响。其中,该方法包括:采集用户的语音信号;根据所述语音信号中的哼唱语音,生成旋律信息,以及从所述用户的语音信号中提取曲风关键词;从预设歌词数据库中获取与所述曲风关键词匹配的歌词信息;根据所述旋律信息和所述歌词信息制作歌曲。根据本公开,可以激发用户的创作灵感,让用户创作出属于自己的个性化歌曲,从而提升用户体验。
Description
技术领域
本公开涉及智能音响技术领域,更具体地,涉及一种制作歌曲的方法、装置及智能音响。
背景技术
智能音响作为音响的升级产物,可以用语音实现上网功能,比如点播歌曲、上网购物、了解天气预报等。现有的音乐软件,能够实现对已有歌曲进行简单的分类选择、播放、下载、分享等功能;或者实现听歌识曲、自唱评分等功能。
但是,现有技术中的智能音响和音乐软件,在智能化的实现方面还不够强大,无法进行个性化歌曲创作,用户体验较为单一。因此,发明人认为,有必要针对上述问题中的至少一个进行改进。
发明内容
本公开的一个目的是提供一种制作歌曲的新的技术方案。
根据本公开的第一方面,提供了一种制作歌曲的方法,包括:
采集用户的语音信号;
根据所述语音信号中的哼唱语音,生成旋律信息,以及从所述用户的语音信号中提取曲风关键词;
从预设歌词数据库中获取与所述曲风关键词匹配的歌词信息;
根据所述旋律信息和所述歌词信息制作歌曲。
可选的,所述根据语音信号中的哼唱语音,生成旋律信息包括:
根据所述哼唱语音,生成语音模拟信号;
根据谱曲算法,将所述语音模拟信号转换成音符信息;
根据所述音符信息生成所述旋律信息。
可选的,所述根据谱曲算法,将所述语音模拟信号转换成音符信息,包括:
获取所述语音模拟信号的幅度值;
将所述语音模拟信号的幅度值与多个预设幅度阈值进行比较,根据比较结果,在幅度上对所述语音模拟信号进行拆分,得到多个第一子信号,并根据预设的第一关系表,确定各所述第一子信号对应的音节X,其中,第一关系表中存储有预设幅度阈值与音节的对应关系;
获取每个所述第一子信号的时长,将所述时长与多个预设的时长阈值进行比较,根据比较结果以及预设的第二关系表,确定每个所述第一子信号对应的节拍Y;其中,所述第二关系表中存储有时长阈值与节拍的对应关系;
根据所述音节X和所述节拍Y生成所述音符信息。
可选的,所述方法还包括:
获取所述语音模拟信号的幅度下限值L以及幅度上限值H,预设7个音节并根据公式Xn,n+1=L+n(H-L)/7,n=0,1,2,3,4,5,6,确定7个音节对应的幅度阈值(Xn,n+1,Xn+1,n+2),建立包含所述幅度阈值与7个音节的对应关系的所述第一关系表;和/或,
获取所述语音模拟信号的多个第一子信号中的最长时长值G以及最短时长值T,预设6个节拍并根据公式确定6个节拍对应的时长阈值mY1,建立包含时长阈值与节拍的对应关系的所述第二关系表,其中,G%32表示最长时长值G除以32的余数。
可选的,所述根据所述旋律信息和所述歌词信息制作歌曲,包括:
对所述旋律信息进行节奏增强处理;
确定节奏增强后的所述旋律信息的曲式结构;
根据所述旋律信息的曲式结构和所述歌词信息进行填词操作制作所述歌曲。
可选的,所述从预设歌词数据库中获取与所述曲风关键词匹配的歌词信息之后,还包括:
按照字数、句式、词性的顺序对所述歌词信息进行分类并建立临时歌词数据库。
根据本公开的第二方面,提供了一种制作歌曲的装置,包括:
采集模块,用于采集用户的语音信号;
旋律生成模块,用于根据所述语音信号中的哼唱语音,生成旋律信息;
关键词提取模块,用于从所述用户的语音信号中提取曲风关键词;
获取模块,用于从预设歌词数据库中获取与所述曲风关键词匹配的歌词信息;
制作模块,用于根据所述旋律信息和所述歌词信息制作歌曲。
可选的,所述旋律生成模块具体包括:
第一生成单元,用于根据所述哼唱语音,生成语音模拟信号;
转换单元,用于根据谱曲算法,将所述语音模拟信号转换成音符信息;
第二生成单元,用于根据所述音符信息生成所述旋律信息。
可选的,所述转换单元具体用于:
获取所述语音模拟信号的幅度值;
将所述语音模拟信号的幅度值与多个预设幅度阈值进行比较,根据比较结果,在幅度上对所述语音模拟信号进行拆分,得到多个第一子信号,并根据预设的第一关系表,确定各所述第一子信号对应的音节X,其中,第一关系表中存储有预设幅度阈值与音节的对应关系;
获取每个所述第一子信号的时长,将所述时长与多个预设的时长阈值进行比较,根据比较结果以及预设的第二关系表,确定每个所述第一子信号对应的节拍Y;其中,所述第二关系表中存储有时长阈值与节拍的对应关系;
根据所述音节X和所述节拍Y生成所述音符信息。
根据本公开的第三方面,提供了一种智能音响,包括存储器和处理器,所述存储器用于存储指令;所述指令用于控制所述处理器进行操作,以执行如本公开第一方面中任意一项所述的制作歌曲的方法。
根据本公开,可以激发用户的创作灵感,让用户创作出属于自己的个性化歌曲,提升用户体验。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本公开实施例的客户端的硬件结构示意图。
图2是根据本公开实施例的制作歌曲的方法的流程示意图。
图3示出了语音模拟信号的波形示意图。
图4是根据本公开实施例的制作歌曲的装置的结构示意图。
图5是根据本公开实施例的智能音响的结构示意图。
图6是根据本公开实施例的智能音响的例子结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是根据本公开实施例的客户端的硬件结构示意图。
根据图1所示,客户端1000可以包括一个或多个处理器1010、一个或者多个存储器1020。
处理器1010可以是中央处理器CPU、嵌入式处理器、微处理器MCU等。
存储器1020例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。
存储器1020用于存储指令,该指令用于控制处理器1010进行操作以执行根据本公开实施例的制作歌曲的方法。技术人员可以根据本公开的方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
本公开实施例的客户端1000还可以包括接口装置1030、通信装置1040、显示装置1050、输入装置1060、扬声器1070、麦克风1080等等。
接口装置1030例如包括USB接口、耳机接口等。通信装置1040例如能够进行有线或无线通信,具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等等。输入装置1060例如可以包括触摸屏、键盘、体感输入等。用户可以通过麦克风1080输入语音信息。客户端1000可以通过扬声器1070输出语音信息。
虽然图1示出了客户端1000的多个装置,但本公开实施例的客户端1000也可以仅包括其中的部分装置,例如处理器1010、存储器1020、扬声器1070、麦克风1080等。
以上客户端可以通过诸如有线或无线网络等方式发送或接收信号,或可以在诸如存储器中将信号处理或存储为物理存储状态。客户端可以是包括硬件、软件或内嵌逻辑组件或者两个或多个此类组件的组合的电子装置,并能够执行由客户端实施或支持的合适的功能。例如,客户端可以是智能音响,等等。
<方法实施例>
图2是根据本公开实施例的制作歌曲的方法的流程示意图。本实施例的制作歌曲的方法,例如可以由图1中所示的客户端执行。
如图2所示,在步骤2100,采集用户的语音信号。
其中,用户的语音信号中包含哼唱语音和曲风关键词。具体的,该哼唱语音是用户自由哼唱的一段曲调,曲风关键词是用户对想要制作的歌曲分类描述,例如,可以体现情感的歌曲分类,如安静、欢快;再例如,体现歌曲流派的歌曲分类,如流行、爵士等。
步骤2200,根据所述语音信号中的哼唱语音,生成旋律信息,以及从所述用户的语音信号中提取曲风关键词。
在从用户的语音信号中提取所述曲风关键词时,可以利用语音识别技术进行曲风关键词的提取。
步骤2300,从预设歌词数据库中获取与所述曲风关键词匹配的歌词信息。
步骤2400,根据所述旋律信息和所述歌词信息制作歌曲。
通过本发明实施例的制作歌曲的方法,可以激发用户的创作灵感,让用户创作出属于自己的个性化歌曲,提升用户体验。
在本发明实施例中,根据语音信号中的哼唱语音,生成旋律信息包括:根据语音信号中的哼唱语音,生成语音模拟信号;对语音模拟信号进行分析,利用谱曲算法,将语音模拟信号转换成音符信息;根据音符信息生成旋律信息。
在本发明实施例中,根据谱曲算法,将语音模拟信号转换成音符信息包括:获取语音模拟信号的幅度值,再将语音模拟信号的幅度值与多个预设幅度阈值进行比较,根据比较结果,在幅度上对语音模拟信号进行拆分,得到多个第一子信号,并根据预设的第一关系表,确定各第一子信号对应的音节X;以及,获取每个第一子信号的时长,将时长与多个预设的时长阈值进行比较,根据比较结果以及预设的第二关系表,确定每个第一子信号对应的节拍Y;根据音节X和节拍Y生成音符信息。其中,第一关系表中存储有预设幅度阈值与音节的对应关系;第二关系表中存储有时长阈值与节拍的对应关系。
在一个例子中,第一关系表可以是根据语音模拟信号的幅度上限值和幅度下限值,确定出7个音节对应的幅度阈值后建立的。
具体的,如图3所示,根据语音模拟信号波形的最低点和最高点,分别确定出语音模拟信号的幅度下限值L以及幅度上限值H,将(H-L)的高度平均分成7份,每一份对应一个音节。采用等差数列公式可以计算出7个音节分别对应的幅度阈值(Xn,n+1,Xn+1,n+2)。
在本例中,具体可以根据公式Xn,n+1=L+n(H-L)/7,n=0,1,2,3,4,5,6,确定7个音节分别对应的幅度阈值X1,2、X2,3、X3,4、X4,5、X5,6、X6,7,建立并存储第一关系表。其中,表中的X0,1是语音模拟信号的幅度下限值L,X7,8是语音模拟信号的幅度上限值H。
第一关系表
音节X | 幅度阈值 |
1 | X<sub>0,1</sub>≤X<X<sub>1,2</sub> |
2 | X<sub>1,2</sub>≤X<X<sub>2,3</sub> |
3 | X<sub>2,3</sub>≤X<X<sub>3,4</sub> |
4 | X<sub>3,4</sub>≤X<X<sub>4,5</sub> |
5 | X<sub>4,5</sub>≤X<X<sub>5,6</sub> |
6 | X<sub>5,6</sub>≤X<X<sub>6,7</sub> |
7 | X<sub>6,7</sub>≤X≤X<sub>7,8</sub> |
在另一个例子中,所述第二关系表可以是根据所拆分得到的多个第一子信号的时长值,确定出6个节拍对应的时长阈值后建立的。
具体的,获取语音模拟信号的多个第一子信号中的最长时长值G(秒)以及最短时长值T(秒)。假设1秒时长值对应1/8节拍,那么2秒时长值对应1/4节拍,4秒时长值对应1/2节拍,8秒时长值对应1节拍,16秒时长值对应2节拍,32秒时长值对应4节拍。据此获知,节拍与时长值之间成等比数列的关系。
在本例中,将最长时长值G(秒)当做4节拍,则1/8节拍为G/32。在计算时长阈值时,存在两种情况,第一种情况是G/32没有余数,此时,1节拍所用的时长值Y1=T(G/32)×8。另一种情况是G/32有余数,余数部分等于(G%32)/4,此时,1节拍所用的时长值Y1=(G%32)/4+T(G/4)。其中,G%32表示最长时长值G除以32的余数,本例在计算时,采用最短时长值T(秒)作为系数,使1节拍所需的时长值随最短时长值动态变化,从而使节拍阈值更合理。
也就是说,可以根据公式确定6个节拍分别对应的时长阈值mY1,建立并存储第二关系表。其中,
第二关系表
节拍Y | 时长阈值 |
八分之一拍 | 0<Y<Y<sub>1</sub>/8 |
四分之一拍 | Y<sub>1</sub>/8≤Y<Y<sub>1</sub>/4 |
半拍 | Y<sub>1</sub>/4≤Y<Y<sub>1</sub>/2 |
一拍 | Y<sub>1</sub>/2≤Y<Y<sub>1</sub> |
两拍 | Y<sub>1</sub>≤Y<2Y<sub>1</sub> |
四拍 | 2Y<sub>1</sub>≤Y<4Y<sub>1</sub> |
在本发明实施例中,预设歌词数据库是根据已有的歌曲在后台建立的歌词数据库。在获取到曲风关键词后,采用模糊算法识别出预设歌词数据库中与曲风关键词匹配的歌词信息。
需要说明的是,在实际应用过程中,步骤2200和步骤2300的执行没有先后顺序之分。
在一个例子中,为了更快速的进行填词操作,在获取与曲风关键词匹配的歌词信息后,还可以按照字数、句式、词性的顺序对所述歌词信息进行分类并建立临时歌词数据库。
其中,按照字数分类,例如可以分别将2个字、3个字、4个字、5个字的歌词分为一类。按照句式分类,例如可以按照主语、谓语、宾语、倒装句、祈使句等类别对歌词进行分类。按照词性分类,例如可以按照名词、形容词、副词、动词等类别对歌词进行分类。例如,2个字-主语-名词分为一类,4个字-倒装句-动词的顺序分为一类等。
在本发明实施例中,根据所述旋律信息和所述歌词信息制作歌曲包括:首先对所述旋律信息进行节奏增强处理。接着,确定节奏增强后的所述旋律信息的曲式结构,识别出节奏增强后的旋律信息的曲式结构,如单段体、两段体、三段体或其他曲式。最后,根据所述旋律信息的曲式结构和所述歌词信息进行填词操作制作所述歌曲。
进一步的,还可以在语法、上下文的语义连贯性等方面,对填词制作的歌曲进行优化。
实际应用中,用户可以根据需求,对制作的歌曲执行播放、保存、删除以及分享等操作。在此不作具体限定。
本实施例的制作歌曲的方法,通过采集用户的语音信号,根据所述语音信号中的哼唱语音,生成旋律信息,并从所述用户的语音信号中提取曲风关键词;从预设歌词数据库中获取与所述曲风关键词匹配的歌词信息;再根据所述旋律信息和所述歌词信息制作歌曲。从而激发用户的创作灵感,让用户创作出属于自己的个性化歌曲,进而提升用户体验。
<装置实施例>
图4是根据本公开实施例的制作歌曲的装置的结构示意图。本实施例的制作歌曲的装置,例如可以设置在图1所示的客户端中,用于执行根据本公开方法实施例所述的制作歌曲的方法。
如图4所示,本实施例的制作歌曲的装置4000可以包括:采集模块4100、旋律生成模块4200,关键词提取模块4300,获取模块4400以及制作模块4500。
其中,采集模块4100,用于采集用户的语音信号。
旋律生成模块4200,用于根据所述语音信号中的哼唱语音,生成旋律信息。
关键词提取模块4300,用于从所述用户的语音信号中提取曲风关键词。
获取模块4400,用于从预设歌词数据库中获取与所述曲风关键词匹配的歌词信息。
制作模块4500,用于根据所述旋律信息和所述歌词信息制作歌曲。
所述旋律生成模块4200具体可以包括:第一生成单元,用于根据所述哼唱语音,生成语音模拟信号。转换单元,用于根据谱曲算法,将所述语音模拟信号转换成音符信息。第二生成单元,用于根据所述音符信息生成所述旋律信息。
其中,所述转换单元具体用于:获取所述语音模拟信号的幅度值;将所述语音模拟信号的幅度值与多个预设幅度阈值进行比较,根据比较结果,在幅度上对所述语音模拟信号进行拆分,得到多个第一子信号,并根据预设的第一关系表,确定各所述第一子信号对应的音节X;获取每个所述第一子信号的时长,将所述时长与多个预设的时长阈值进行比较,根据比较结果以及预设的第二关系表,确定每个所述第一子信号对应的节拍Y;根据所述音节X和所述节拍Y生成所述音符信息。
其中,第一关系表中存储有预设幅度阈值与音节的对应关系;所述第二关系表中存储有时长阈值与节拍的对应关系。
在一个例子中,所述旋律生成模块4200还可以用于获取所述语音模拟信号的幅度下限值L以及幅度上限值H,预设7个音节并根据公式Xn,n+1=L+n(H-L)/7,n=0,1,2,3,4,5,6,确定7个音节对应的幅度阈值(Xn,n+1,Xn+1,n+2),建立包含所述幅度阈值与7个音节的对应关系的所述第一关系表。
在另一个例子中,所述旋律生成模块4200还可以用于获取所述语音模拟信号的多个第一子信号中的最长时长值G以及最短时长值T,预设6个节拍并根据公式确定6个节拍对应的时长阈值mY1,建立包含时长阈值与节拍的对应关系的所述第二关系表,其中,G%32表示最长时长值G除以32的余数。
具体的,所述制作模块4500具体可以用于:对所述旋律信息进行节奏增强处理;确定节奏增强后的所述旋律信息的曲式结构;根据所述旋律信息的曲式结构和所述歌词信息进行填词操作制作所述歌曲。
进一步的,所述获取模块4400在从预设歌词数据库中获取与所述曲风关键词匹配的歌词信息之后,还可以按照字数、句式、词性的顺序对所述歌词信息进行分类并建立临时歌词数据库。
本实施例的制作歌曲的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
<智能音响>
可以在智能音响中实现上述实施例中的任何一个。例如,所述智能音响可以包括上述实施例中的制作歌曲的装置或者包括上述实施例中的客户端。
此外,图5是根据本公开实施例的智能音响的结构示意图。如图5所示,本实施例的智能音响5000可以包括存储器5100和处理器5200,所述存储器5100用于存储指令;所述指令用于控制所述处理器5200进行操作,以执行前面参照图2所示的制作歌曲的方法中的操作。
<例子>
图6是根据本公开实施例的智能音响的例子的结构示意图。
如图6所示,在本例中,智能音响可以包括用户接口模块、旋律生成模块、文本生成模块和合成模块。
其中,用户接口模块主要用于与用户进行交互。具体的,用户接口模块可以对用户自由哼唱的一段曲调进行哼唱语音的采集和生成,并将哼唱语音传递给旋律生成模块。
用户接口模块还可以对用户输入的歌曲描述进行采集,比如所创作的歌曲想要表达的情感,如失落,高兴等,歌曲创作的背景,例如过生日,纪念日等,歌曲创作的意义,例如用于怀念一段时光,赠送朋友等。然后通过语音识别技术提取曲风关键词,并将曲风关键词传递给文本生成模块。
用户接口模块还可以接收来自合成模块的歌曲,根据用户输入的指令执行对歌曲的播放、保存、删除和分享等操作。
例如,用户接口模块包括麦克风和扬声器,则可以通过麦克风接收用户输入的语音指令,如“播放歌曲”、“分享歌曲到朋友圈/微博/朋友A”等执行对应的操作,并在执行完对应的操作后,通过扬声器向用户发出执行完成的响应语音,例如,“即将播放歌曲”、“歌曲已分享至朋友圈/微博/朋友A”等。
又例如,用户接口模块还可以包括显示装置,如触摸式显示屏,用户可以通过在触摸式显示屏上触摸对应的功能按钮,使智能音响执行对应的操作。例如,用户在触摸式显示屏上点击“保存至本地/云端”按钮,则智能音响将歌曲保存至本地或云端,并在触摸式显示屏上显示“保存成功”的提示信息。
旋律生成模块主要用于接收来自用户接口模块的哼唱语音,根据哼唱语音,生成语音模拟信号。然后获取语音模拟信号的幅度上限值和幅度下限值,根据语音模拟信号的幅度上限值和幅度下限值,将语音模拟信号从幅度上平均分成7个音节。
具体的,根据预设公式Xn,n+1=L+n(H-L)/7,n=0,1,2,3,4,5,6确定7个音节分别对应的幅度阈值(Xn,n+1,Xn+1,n+2),建立包含幅度阈值与7个音节的对应关系的第一关系表。其中,L表示语音模拟信号的幅度下限值,H表示语音模拟信号的上限值。
第一关系表
音节X | 幅度阈值 |
1 | X<sub>0,1</sub>≤X<X<sub>1,2</sub> |
2 | X<sub>1,2</sub>≤X<X<sub>2,3</sub> |
3 | X<sub>2,3</sub>≤X<X<sub>3,4</sub> |
4 | X<sub>3,4</sub>≤X<X<sub>4,5</sub> |
5 | X<sub>4,5</sub>≤X<X<sub>5,6</sub> |
6 | X<sub>5,6</sub>≤X<X<sub>6,7</sub> |
7 | X<sub>6,7</sub>≤X≤X<sub>7,8</sub> |
第一关系表中X0,1为语音模拟信号的幅度下限值,X7,8为语音模拟信号的上限值。在实际应用中,可以设置音节1、2、3、4、5、6、7分别对应哆、来、咪、法、嗦、啦、哂。
旋律生成模块在建立第一关系表后,将语音模拟信号的幅度值与第一关系表中的幅度阈值进行比较,根据比较结果,将语音模拟信号在幅度上拆分为多个第一子信号,并且根据第一关系表,确定各第一子信号对应的音节X。
同时,旋律生成模块获取多个第一子信号的时长值,从中确定出最长时长值和最短时长值,根据公式确定预设的6个节拍分别对应的时长阈值mY1,建立包含时长阈值与6个节拍的对应关系的第二关系表。其中,G表示最长时长值,T表示最短时长值,G%32表示最长时长值G除以32的余数。
第二关系表
旋律生成模块将各第一子信号的时长值与第二关系表中的时长阈值进行比较,根据比较结果和第二关系表,确定各第一子信号对应的节拍Y。
旋律生成模块根据所述音节X和所述节拍Y生成所述音符信息,进而根据音符信息生成旋律信息,并将旋律信息传递给合成模块。
文本生成模块主要用于根据曲风关键词自动创作歌词,生成歌词信息。
具体的,文本生成模块依据已有的歌曲在后台建立预设歌词数据库。然后,利用模糊查询算法识别出预设歌词数据库中与曲风关键词匹配的歌词信息。最后,按照字数、句式、词性的顺序对所述歌词信息进行分类并建立一个在线的临时歌词数据库。例如,将2个字的歌词信息按照2个字-主语-名词的顺序分为一类,将4个字的歌词信息按照4个字-倒装句-动词的顺序分为一类等。以便于合成模块可以更快速的完成词曲合成的操作。
文本生成模块生成歌词信息后,将歌词信息传递给合成模块。
合成模块接收来自旋律生成模块的旋律信息,以及来自文本生成模块的歌词信息后,根据旋律信息和歌词信息制作歌曲。
具体的,合成模块对来自旋律生成模块的旋律信息进行节奏感增强处理。接着,根据旋律信息的周期性规律,分析旋律信息的曲式结构,以识别出曲式结构,例如单段体、两段体、三段体或其他曲式。
然后,合成模块根据旋律信息的曲式结构,以及从临时歌词数据库中提取的歌词信息进行初步填词操作,生成歌曲。最后,合成模块在语法、上下文的语义连贯性等方面,对初步填词生成的歌曲进行优化,使歌曲中的歌词语义更连贯,更符合表达习惯,从而得到最终制作的歌曲,并传递给用户接口模块。
根据本例的智能音响,可以根据用户输入的曲风关键词和哼唱语音,制作出属于用户的个性化的歌曲,从而激发用户的创作灵感,进而提升用户体验。
本发明可以是设备、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (10)
1.一种制作歌曲的方法,其特征在于,包括:
采集用户的语音信号;
根据所述语音信号中的哼唱语音,生成旋律信息,以及从所述用户的语音信号中提取曲风关键词;
从预设歌词数据库中获取与所述曲风关键词匹配的歌词信息;
根据所述旋律信息和所述歌词信息制作歌曲。
2.根据权利要求1所述的方法,其特征在于,所述根据语音信号中的哼唱语音,生成旋律信息包括:
根据所述哼唱语音,生成语音模拟信号;
根据谱曲算法,将所述语音模拟信号转换成音符信息;
根据所述音符信息生成所述旋律信息。
3.根据权利要求2所述的方法,其特征在于,所述根据谱曲算法,将所述语音模拟信号转换成音符信息,包括:
获取所述语音模拟信号的幅度值;
将所述语音模拟信号的幅度值与多个预设幅度阈值进行比较,根据比较结果,在幅度上对所述语音模拟信号进行拆分,得到多个第一子信号,并根据预设的第一关系表,确定各所述第一子信号对应的音节X,其中,第一关系表中存储有预设幅度阈值与音节的对应关系;
获取每个所述第一子信号的时长,将所述时长与多个预设的时长阈值进行比较,根据比较结果以及预设的第二关系表,确定每个所述第一子信号对应的节拍Y;其中,所述第二关系表中存储有时长阈值与节拍的对应关系;
根据所述音节X和所述节拍Y生成所述音符信息。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述语音模拟信号的幅度下限值L以及幅度上限值H,预设7个音节并根据公式Xn,n+1=L+n(H-L)/7,n=0,1,2,3,4,5,6,确定7个音节对应的幅度阈值(Xn,n+1,Xn+1,n+2),建立包含所述幅度阈值与7个音节的对应关系的所述第一关系表;和/或
获取所述语音模拟信号的多个第一子信号中的最长时长值G以及最短时长值T,预设6个节拍并根据公式确定6个节拍对应的时长阈值mY1,建立包含时长阈值与节拍的对应关系的所述第二关系表,其中,G%32表示最长时长值G除以32的余数。
5.根据权利要求1所述的方法,其中,所述根据所述旋律信息和所述歌词信息制作歌曲,包括:
对所述旋律信息进行节奏增强处理;
确定节奏增强后的所述旋律信息的曲式结构;
根据所述旋律信息的曲式结构和所述歌词信息进行填词操作制作所述歌曲。
6.根据权利要求1所述的方法,其中,所述从预设歌词数据库中获取与所述曲风关键词匹配的歌词信息之后,还包括:
按照字数、句式、词性的顺序对所述歌词信息进行分类并建立临时歌词数据库。
7.一种制作歌曲的装置,其特征在于,包括:
采集模块,用于采集用户的语音信号;
旋律生成模块,用于根据所述语音信号中的哼唱语音,生成旋律信息;
关键词提取模块,用于从所述用户的语音信号中提取曲风关键词;
获取模块,用于从预设歌词数据库中获取与所述曲风关键词匹配的歌词信息;
制作模块,用于根据所述旋律信息和所述歌词信息制作歌曲。
8.根据权利要求7所述的装置,其特征在于,所述旋律生成模块具体包括:
第一生成单元,用于根据所述哼唱语音,生成语音模拟信号;
转换单元,用于根据谱曲算法,将所述语音模拟信号转换成音符信息;
第二生成单元,用于根据所述音符信息生成所述旋律信息。
9.根据权利要求8所述的装置,其特征在于,所述转换单元具体用于:
获取所述语音模拟信号的幅度值;
将所述语音模拟信号的幅度值与多个预设幅度阈值进行比较,根据比较结果,在幅度上对所述语音模拟信号进行拆分,得到多个第一子信号,并根据预设的第一关系表,确定各所述第一子信号对应的音节X,其中,第一关系表中存储有预设幅度阈值与音节的对应关系;
获取每个所述第一子信号的时长,将所述时长与多个预设的时长阈值进行比较,根据比较结果以及预设的第二关系表,确定每个所述第一子信号对应的节拍Y;其中,所述第二关系表中存储有时长阈值与节拍的对应关系;
根据所述音节X和所述节拍Y生成所述音符信息。
10.一种智能音响,其特征在于,包括存储器和处理器,所述存储器用于存储指令;所述指令用于控制所述处理器进行操作,以执行如权利要求1-6中任意一项所述的制作歌曲的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811615302.4A CN109741724B (zh) | 2018-12-27 | 2018-12-27 | 制作歌曲的方法、装置及智能音响 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811615302.4A CN109741724B (zh) | 2018-12-27 | 2018-12-27 | 制作歌曲的方法、装置及智能音响 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109741724A true CN109741724A (zh) | 2019-05-10 |
CN109741724B CN109741724B (zh) | 2023-03-28 |
Family
ID=66361597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811615302.4A Active CN109741724B (zh) | 2018-12-27 | 2018-12-27 | 制作歌曲的方法、装置及智能音响 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109741724B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185321A (zh) * | 2019-06-14 | 2021-01-05 | 微软技术许可有限责任公司 | 歌曲生成 |
CN112420004A (zh) * | 2019-08-22 | 2021-02-26 | 北京峰趣互联网信息服务有限公司 | 生成歌曲的方法、装置、电子设备及计算机可读存储介质 |
CN112785993A (zh) * | 2021-01-15 | 2021-05-11 | 杭州网易云音乐科技有限公司 | 一种乐曲生成方法、装置、介质和计算设备 |
CN113539217A (zh) * | 2021-06-29 | 2021-10-22 | 广州酷狗计算机科技有限公司 | 歌词创作导航方法及其装置、设备、介质、产品 |
CN114023286A (zh) * | 2021-10-15 | 2022-02-08 | 天翼爱音乐文化科技有限公司 | 一种说唱音乐生成方法、系统、装置与存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1703734A (zh) * | 2002-10-11 | 2005-11-30 | 松下电器产业株式会社 | 从声音确定音符的方法和装置 |
CN101652807A (zh) * | 2007-02-01 | 2010-02-17 | 缪斯亚米有限公司 | 音乐转录 |
CN103035235A (zh) * | 2011-09-30 | 2013-04-10 | 西门子公司 | 一种将语音转换为旋律的方法和装置 |
US20140174279A1 (en) * | 2012-12-21 | 2014-06-26 | The Hong Kong University Of Science And Technology | Composition using correlation between melody and lyrics |
CN108428441A (zh) * | 2018-02-09 | 2018-08-21 | 咪咕音乐有限公司 | 多媒体文件生成方法、电子设备和存储介质 |
EP3389028A1 (en) * | 2017-04-10 | 2018-10-17 | Sugarmusic S.p.A. | Automatic music production from voice recording. |
CN108806656A (zh) * | 2017-04-26 | 2018-11-13 | 微软技术许可有限责任公司 | 歌曲的自动生成 |
-
2018
- 2018-12-27 CN CN201811615302.4A patent/CN109741724B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1703734A (zh) * | 2002-10-11 | 2005-11-30 | 松下电器产业株式会社 | 从声音确定音符的方法和装置 |
CN101652807A (zh) * | 2007-02-01 | 2010-02-17 | 缪斯亚米有限公司 | 音乐转录 |
CN103035235A (zh) * | 2011-09-30 | 2013-04-10 | 西门子公司 | 一种将语音转换为旋律的方法和装置 |
US20140174279A1 (en) * | 2012-12-21 | 2014-06-26 | The Hong Kong University Of Science And Technology | Composition using correlation between melody and lyrics |
EP3389028A1 (en) * | 2017-04-10 | 2018-10-17 | Sugarmusic S.p.A. | Automatic music production from voice recording. |
CN108806656A (zh) * | 2017-04-26 | 2018-11-13 | 微软技术许可有限责任公司 | 歌曲的自动生成 |
CN108428441A (zh) * | 2018-02-09 | 2018-08-21 | 咪咕音乐有限公司 | 多媒体文件生成方法、电子设备和存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185321A (zh) * | 2019-06-14 | 2021-01-05 | 微软技术许可有限责任公司 | 歌曲生成 |
CN112185321B (zh) * | 2019-06-14 | 2024-05-31 | 微软技术许可有限责任公司 | 歌曲生成 |
CN112420004A (zh) * | 2019-08-22 | 2021-02-26 | 北京峰趣互联网信息服务有限公司 | 生成歌曲的方法、装置、电子设备及计算机可读存储介质 |
CN112785993A (zh) * | 2021-01-15 | 2021-05-11 | 杭州网易云音乐科技有限公司 | 一种乐曲生成方法、装置、介质和计算设备 |
CN112785993B (zh) * | 2021-01-15 | 2024-04-12 | 杭州网易云音乐科技有限公司 | 一种乐曲生成方法、装置、介质和计算设备 |
CN113539217A (zh) * | 2021-06-29 | 2021-10-22 | 广州酷狗计算机科技有限公司 | 歌词创作导航方法及其装置、设备、介质、产品 |
CN113539217B (zh) * | 2021-06-29 | 2024-05-31 | 广州酷狗计算机科技有限公司 | 歌词创作导航方法及其装置、设备、介质、产品 |
CN114023286A (zh) * | 2021-10-15 | 2022-02-08 | 天翼爱音乐文化科技有限公司 | 一种说唱音乐生成方法、系统、装置与存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109741724B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109741724B (zh) | 制作歌曲的方法、装置及智能音响 | |
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
CN108806656B (zh) | 歌曲的自动生成 | |
CN108288468B (zh) | 语音识别方法及装置 | |
CN108806655B (zh) | 歌曲的自动生成 | |
US20200075024A1 (en) | Response method and apparatus thereof | |
CN112185321B (zh) | 歌曲生成 | |
CN110188356B (zh) | 信息处理方法及装置 | |
CN111798821B (zh) | 声音转换方法、装置、可读存储介质及电子设备 | |
Tsunoo et al. | Beyond timbral statistics: Improving music classification using percussive patterns and bass lines | |
CN113314119B (zh) | 语音识别智能家居控制方法及装置 | |
CN109326280B (zh) | 一种歌唱合成方法及装置、电子设备 | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
WO2019137392A1 (zh) | 文件分类处理方法、装置及终端、服务器、存储介质 | |
CN112669815B (zh) | 歌曲定制生成方法及其相应的装置、设备、介质 | |
CN113813609A (zh) | 游戏音乐风格分类方法、装置、可读介质及电子设备 | |
CN110851650A (zh) | 一种评论输出方法、装置、以及计算机存储介质 | |
CN111046217B (zh) | 组合歌曲生成方法、装置、设备以及存储介质 | |
CN116959393B (zh) | 音乐生成模型的训练数据生成方法、装置、设备及介质 | |
CN114446268A (zh) | 一种音频数据处理方法、装置、电子设备、介质和程序产品 | |
Bretan et al. | Chronicles of a Robotic Musical Companion. | |
CN109802987B (zh) | 用于显示装置的内容推送方法、推送装置和显示设备 | |
Le et al. | Emotional Vietnamese Speech Synthesis Using Style-Transfer Learning. | |
Barde et al. | Speech recognition technique for identification of raga | |
Mahardhika et al. | Method to Profiling the Characteristics of Indonesian Dangdut Songs, Using K-Means Clustering and Features Fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |