CN104952471B

CN104952471B - 一种媒体文件合成方法、装置和设备

Info

Publication number: CN104952471B
Application number: CN201510334317.3A
Authority: CN
Inventors: 陈齐福; 刘夺; 薛土林
Original assignee: SHENZHEN XINCHUANGKE ELECTRONIC TECHNOLOGY Co Ltd
Current assignee: SHENZHEN XINCHUANGKE ELECTRONIC TECHNOLOGY Co Ltd
Priority date: 2015-06-16
Filing date: 2015-06-16
Publication date: 2019-03-26
Anticipated expiration: 2035-06-16
Also published as: CN104952471A; WO2016202176A1

Abstract

本发明涉及多媒体合成技术领域，提供了一种媒体文件合成方法、装置和设备。所述方法包括：接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，所述媒体文件模板包括提示信息、背景音信息和/或特效音信息和/或图片集信息，所述提示信息用于提示制作者需要录制的语音信息的内容；录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；获取所述媒体文件模板中的背景音信息和/或特效音信息和/或图片集信息，将所述语音信息、背景音信息和/或特效音信息和/或图片集信息合成媒体文件。本发明克服了现有技术中录制多媒体文件难的问题。

Description

一种媒体文件合成方法、装置和设备

【技术领域】

本发明涉及多媒体合成技术领域，特别是涉及一种媒体文件合成方法、装置和设备。

【背景技术】

目前，互联网技术拉近人与人之间距离同时，也增加了人与人交流的手段。拿父母与孩子来说，当父母出差或外出工作时，为留守在家里的小孩录制儿童故事，从而增进父母与孩子的感情已经不是什么难事。

现有技术中，通常采用逐行录制的方法，即播放预先录制好的文字信息，制作者根据所述字幕的播放速度，在固定的时间内，以特定的速度，按照字幕的要求进行朗读，完成故事的录制。而在实际录制过程中，由于制作者对故事内容不熟悉，难以把握语速，难以把握录音进度，导致录制的语音信息和故事模板中的音乐、图片、视频等信息难以协调，比如：由于语速过快，字幕朗读完成后，音乐、图片、视频还未播放完毕，造成录音缺失；或由于语速过慢，在制作者朗读未完成时，音乐、图片、视频等已经播放完毕，造成录音剩余等，以上问题都造成录制的效果差，降低了录制节目的使用效果。

鉴于此，克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。

【发明内容】

本发明要解决的技术问题是提供一种媒体文件合成方法、装置和设备，从而克服现有技术中录制多媒体文件难的问题。

本发明采用如下技术方案：

一种媒体文件合成方法，所述方法包括：

获取媒体文件模板列表，在屏幕上输出所述媒体文件模板列表；

接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定制作者要合成的媒体文件模板，所述媒体文件模板包括提示信息、背景音信息、特效音信息和图片集信息，所述提示信息用于提示制作者需要录制的语音信息的内容；

依次输出媒体文件模板中的提示信息；

依次录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；

获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息；

将所述特效音信息插入语音信息中或者叠加于语音信息上形成特效音-语音信息；

输出特效音-语音信息时长和背景音信息时长，或者输出特效音-语音信息时长和背景音信息时长的对比结果；

接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令，根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理；当对背景音信息进行处理时，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将特效音信息/处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件；当对特效音-语音信息进行处理，背景音信息不进行处理时，将处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件。

一种媒体文件合成方法，所述方法包括：

接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，所述媒体文件模板包括提示信息、背景音信息和/或特效音信息和/或图片集信息，所述提示信息用于提示制作者需要录制的语音信息的内容；

录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；

获取所述媒体文件模板中的背景音信息和/或特效音信息和/或图片集信息，将所述语音信息、背景音信息和/或特效音信息和/或图片集信息合成媒体文件。

一种媒体文件合成装置，所述装置包括：

指令接收模块，用于接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，所述媒体文件模板包括提示信息、背景音信息和/或特效音信息和/或图片集信息，所述提示信息用于提示制作者需要录制的语音信息的内容；

录音模块，用于录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；

文件合成模块，用于获取所述媒体文件模板中的背景音信息和/或特效音信息和/或图片集信息，将所述语音信息、背景音信息和/或特效音信息和/或图片集信息合成媒体文件。一种设备，所述设备包括如上所述的媒体文件合成装置。

本发明实施例的有益效果为：本发明实施例通过提供一种根据录制的语音信息反向生成媒体文件的方法、装置和设备，在提高制作个性化多媒体文件的效率的同时，减少了制作者使用的复杂度，克服了现有技术中多媒体文件难以制作的问题。

【附图说明】

图1是本发明实施例1提供的媒体文件合成方法的流程图；

图2是图1中录制生成的媒体文件的结构示意图；

图3是本发明实施例2提供的媒体文件合成方法的流程图；

图4是图3中录制生成的媒体文件的结构示意图；

图5是本发明实施例3提供的媒体文件合成方法的流程图；

图6是图5中录制生成的媒体文件的结构示意图；

图7是本发明实施例4提供的媒体文件合成方法的流程图；

图8是图7中录制生成的媒体文件的结构示意图；

图9是本发明实施例5提供的媒体文件合成方法的流程图；

图10是图9中录制生成的媒体文件的结构示意图；

图11是本发明实施例6提供的媒体文件合成方法的流程图；

图12是图11中录制生成的媒体文件的结构示意图；

图13是本发明实施例7提供的媒体文件合成方法的流程图；

图14是图13中录制生成的媒体文件的结构示意图；

图15是本发明实施例8提供的媒体文件合成方法的流程图；

图16是本发明实施例9提供的媒体文件合成装置的结构框图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1

如图1所示，本实施例提供了一种媒体文件合成方法，所述方法包括如下步骤：

S101：接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，该媒体文件模板包括：提示信息、背景音信息、特效音信息和图片集信息，所述提示信息用于提示制作者需要录制的语音信息的内容；

提示信息起到提示制作者需要录制的语音信息内容的作用，制作者的语音信息由制作者根据该提示信息而发出。所述提示信息可以是文字信息或录音信息。背景音信息、特效音信息和图片集信息是后续合成的媒体文件中的组成内容，当然，文字信息也同样可以作为后续合成的媒体文件中的组成内容。

本实施例中，合成的媒体文件为制作者录制的故事，该故事包括制作者的语音信息(例如制作者朗读故事的声音)、背景音信息(例如背景音乐)、特效音信息(例如雷声、雨声、马蹄声等等)、图片集信息(例如故事插图)等。制作者首先需在多媒体模板库中挑选待录制的媒体文件模板，也即故事模板，该媒体文件模板为系统预先设置和存储的模板数据。例如制作者需录制《小红帽》的故事，则需选择《小红帽》模板。具体地，本方法可以在电子设备上应用，制作者指令的发出可通过在电子设备的屏幕上点击选择实现。

优选地，在本步骤之前，本方法还可以包括获取媒体文件模板列表，输出所述媒体文件模板列表的步骤，从而方便制作者根据输出的媒体文件模板列表选择相应的模板。例如将媒体文件模板列表输出至电子设备的屏幕上供制作者选择。

S102：录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；

优选地，在本步骤之前，本方法还包括：输出所述提示信息。当提示信息是文字信息时，可在电子设备的屏幕上输出文字信息(类似字幕的形式)，制作者根据文字信息朗读故事，由电子设备录制制作者朗读的故事；当提示信息是录音信息(即保存好的故事录音)时，可通过耳机输出录音信息给制作者，制作者直接根据该录音信息朗读故事，由电子设备录制制作者朗读的故事。

优选地，所述媒体文件模板可包括一段或多段提示信息；所述录制制作者的语音信息之前，所述方法还包括：依次输出所述提示信息；因此，所述语音信息也包括一段或多段，每段语音信息由制作者根据每段提示信息而发出。也即该故事是分段录制的，每段提示信息就相当于是一段字幕，或者一段故事录音。每输出一段提示信息、录制好该段提示信息对应的制作者语音之后，再输出下一段提示信息……直至录制完所有段落的制作者语音。

其中，所述文字信息的展示方式，具体可以是以滚动字幕方式进行呈现；也可以是全屏分段的方式进行呈现。其具体呈现方式，本发明不作特殊限定。在最终生成的媒体文件中，文字信息是可选择性地添加到所述媒体文件中的，即最后生成的媒体文件可以显示所述文字信息，也可以不显示所述文字信息。

S103：获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息，将所述语音信息、背景音信息、特效音信息和图片集信息合成媒体文件。

优选地，图片集信息中可包括多幅图片，在合成媒体文件之前，需要将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息；然后根据所述特效音-语音信息时长和背景音信息时长判断是否需要对特效音-语音信息时长和/或背景音信息时长进行处理；若需要，根据所述特效音-语音信息时长对所述背景音信息时长进行处理，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，然后将所述特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件；或者根据所述背景音信息时长对所述特效音-语音信息时长进行处理，将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致，然后将所述处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件；或者对所述特效音-语音信息时长、所述背景音信息时长进行处理，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将所述处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件。

进一步地，可通过输出特效音-语音信息时长和背景音信息时长，或者输出特效音-语音信息时长和背景音信息时长的对比结果(制作者可根据输出的相关信息，选择对特效音-语音信息和/或背景音信息进行相关裁剪、压缩或拉伸的操作，使特效音-语音信息时长大致和背景音信息时长相匹配，当然，背景音信息时长也可以稍大于特效音-语音信息时长，即语音信息开始之前和结束之后均预留有预定长度的背景音信息)；接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令，根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理。当对背景音信息进行处理时，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将特效音-语音信息(或者处理后的特效音-语音信息)、处理后的背景音信息和图片集信息叠加合成媒体文件；当对特效音-语音信息进行处理，背景音信息不进行处理时，将图片集信息中所有图片的播放总时长设置为与背景音信息时长一致，将处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件。例如，当语音信息时长与背景音信息时长大致匹配时，可不用对语音信息或背景音信息进行处理，直接合成媒体文件；当语音信息时长大于背景音信息时长时，制作者可选择对语音信息进行压缩，和/或对背景音信息进行拉伸的操作，然后再合成媒体文件；当语音信息时长小于背景音信息时长且需要进行处理时，制作者可选择对语音信息进行拉伸，和/或对背景音信息进行裁剪或压缩的操作，然后再合成媒体文件。

此外，提示信息可以包括一段或多段，背景音信息也可以包括一段或多段，特效音信息也可以包括一个或多个，图片集信息也可以包括一组或多组。根据提示信息逐一录制语音信息，将每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息，将特效音-语音信息与背景音信息、图片集信息按预设顺序叠加，合成媒体文件。例如，当录制的语音信息包括5段，背景音信息包括2段，特效音信息包括3个，图片集信息包括2组时，录制生成的媒体文件结构如图2所示。

媒体文件制作完成后，制作者可直接播放该媒体文件，也可以通过网络分享该媒体文件，例如通过微信/QQ将该媒体文件发送给微信/QQ好友，或者将该媒体文件分享到微信朋友圈/QQ空间。好友接收到该媒体文件后，可选择播放。播放该媒体文件时，按媒体文件中的顺序和设定时间播放每一组图片集、语音、背景音和特效音。播放完成后，可选择带有“重听”或者“录制故事”功能的按键，从而重新播放该媒体文件，或者执行本实施例的步骤进行故事的录制。

本实施例通过提供一种根据录制的语音信息反向生成媒体文件的方法，在提高制作个性化多媒体文件的效率的同时，不需要由制作者控制朗读语速，而是在后期合成时对模板中的文件进行处理，减少了制作者使用的复杂度，克服了现有技术中多媒体文件难以制作的问题；此外，生成的媒体文件中既包括背景音信息，也包括特效音信息和图片集信息，内容丰富，使听众更容易融入故事的意境。

实施例2

如图3所示，本实施例提供了一种媒体文件合成方法，该方法与实施例1的区别在于，合成的媒体文件中除制作者的语音信息外，仅包括背景音信息。所述方法包括如下步骤：

S201：接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，该媒体文件模板包括提示信息、背景音信息，该提示信息用于提示制作者需要录制的语音信息的内容；

S202：录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；

S203：获取所述媒体文件模板中的背景音信息，将所述语音信息和背景音信息合成媒体文件。

具体地，可根据所述语音信息时长和背景音信息时长判断是否需要对语音信息时长和/或背景音信息时长进行处理；若需要，根据所述语音信息时长对所述背景音信息时长进行处理，将所述语音信息和处理后的背景音信息叠加合成媒体文件；或者根据所述背景音信息时长对所述语音信息时长进行处理，将所述处理后的语音信息和背景音信息叠加合成媒体文件；或者对所述语音信息时长和背景音信息时长进行处理，将处理后的语音信息和处理后的背景音信息叠加合成媒体文件。

进一步地，可通过输出语音信息时长和背景音信息时长，或者输出语音信息时长和背景音信息时长的对比结果(制作者可根据输出的相关信息，选择对语音信息和/或背景音信息进行相关裁剪、压缩或拉伸的操作，使语音信息时长大致和背景音信息时长相匹配，当然，背景音信息时长也可以稍大于语音信息时长，即语音信息开始之前和结束之后均预留有预定长度的背景音信息)；接收制作者输入的对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令，根据所述指令对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理，将处理后的语音信息、背景音信息叠加合成媒体文件，或者将语音信息、处理后的背景音信息叠加合成媒体文件，或者将处理后的语音信息、处理后的背景音信息叠加合成媒体文件。例如，当语音信息时长与背景音信息时长大致匹配时，可不用对语音信息或背景音信息进行处理，直接合成媒体文件；当语音信息时长大于背景音信息时长时，制作者可选择对语音信息进行压缩，和/或对背景音信息进行拉伸的操作，然后再合成媒体文件；当语音信息时长小于背景音信息时长且需要进行处理时，制作者可选择对语音信息进行拉伸，和/或对背景音信息进行裁剪或压缩的操作，然后再合成媒体文件。

此外，提示信息可以包括一段或多段，背景音信息也可以包括一段或多段，将语音信息与背景音信息按预设顺序叠加，合成媒体文件。具体地，当录制的语音信息包括9段，背景音信息包括3段时，合成的媒体文件结构如图4所示。

具体的执行过程可参考实施例1的描述，此处不赘述。

本实施例通过提供一种根据录制的语音信息反向生成媒体文件的方法，在提高制作个性化多媒体文件的效率的同时，不需要由制作者控制朗读语速，而是在后期合成时对模板中的文件进行处理，减少了制作者使用的复杂度，克服了现有技术中多媒体文件难以制作的问题。

实施例3

如图5所示，本实施例提供了一种媒体文件合成方法，该方法与实施例1的区别在于，合成的媒体文件中除制作者的语音信息外，仅包括特效音信息。所述方法包括如下步骤：

S301：接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，该媒体文件模板包括提示信息、特效音信息，该提示信息用于提示制作者需要录制的语音信息的内容；

S302：录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；

S303：获取所述媒体文件模板中的特效音信息，将所述语音信息和特效音信息合成媒体文件。

具体地，将所述特效音信息插入所述语音信息中或者叠加于语音信息上，合成媒体文件。

此外，提示信息可以为一段或多段，相应地，录制成的语音信息为一段或多段，所述特效音信息可以为一个或多个，每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面，或者每个特效音信息按预设顺序分别叠加于某一段语音信息上，合成媒体文件。例如，当录制的语音信息包括4段，特效音信息包括2个时，合成的媒体文件结构如图6所示。

具体的执行过程可参考实施例1的描述，此处不赘述。

实施例4

如图7所示，本实施例提供了一种媒体文件合成方法，该方法与实施例1的区别在于，合成的媒体文件中除制作者的语音信息外，仅包括图片集信息。所述方法包括如下步骤：

S401：接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，该媒体文件模板包括提示信息、图片集信息，该提示信息用于提示制作者需要录制的语音信息的内容；

S402：录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；

S403：获取所述媒体文件模板中的图片集信息，将所述语音信息和图片集信息合成媒体文件。

具体地，将所述图片集信息中所有图片的播放总时长设置为与语音信息时长一致或者将所述图片集信息中所有图片的播放总时长设置为稍大于语音信息时长(即语音信息开始之前和结束之后均预留有一定时间的图片播放)，然后将所述语音信息和图片集信息叠加合成为媒体文件。

此外，提示信息可以包括一段或多段，所述图片集信息可以包括一组或多组，将语音信息与图片集信息按预设顺序叠加，合成媒体文件。例如，当录制的语音信息包括6段，图片集信息包括2组时，合成的媒体文件结构如图8所示。

具体的执行过程可参考实施例1的描述，此处不赘述。

实施例5

如图9所示，本实施例提供了一种媒体文件合成方法，该方法与实施例1的区别在于，合成的媒体文件中除制作者的语音信息外，仅包括背景音信息和特效音信息。所述方法包括如下步骤：

S501：接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，该媒体文件模板包括提示信息、背景音信息和特效音信息，该提示信息用于提示制作者需要录制的语音信息的内容；

S502：录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；

S503：获取所述媒体文件模板中的背景音信息和特效音信息，将所述语音信息、背景音信息和特效音信息合成媒体文件。

具体地，将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息；根据所述特效音-语音信息时长和背景音信息时长判断是否需要对特效音-语音信息时长和/或背景音信息时长进行处理；若需要，根据所述特效音-语音信息时长对所述背景音信息时长进行处理，将所述特效音-语音信息和处理后的背景音信息叠加合成媒体文件；或者根据所述背景音信息时长对所述特效音-语音信息时长进行处理，将所述处理后的特效音-语音信息和背景音信息叠加合成媒体文件，或者对所述特效音-语音信息时长和背景音信息时长进行处理，将处理后的特效音-语音信息和处理后的背景音信息叠加合成媒体文件。

进一步地，可通过输出特效音-语音信息时长和背景音信息时长，或者输出特效音-语音信息时长和背景音信息时长的对比结果(制作者可根据输出的相关信息，选择对特效音-语音信息和/或背景音信息进行相关裁剪、压缩或拉伸的操作，使特效音-语音信息时长大致和背景音信息时长相匹配，当然，背景音信息时长也可以稍大于特效音-语音信息时长，即语音信息开始之前和结束之后均预留有预定长度的背景音信息)；接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令，根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理，将处理后的特效音-语音信息、背景音信息叠加合成媒体文件，或者将特效音-语音信息、处理后的背景音信息叠加合成媒体文件，或者将处理后的特效音-语音信息、处理后的背景音信息叠加合成媒体文件。例如，当特效音-语音信息时长与背景音信息时长大致匹配时，可不用对特效音-语音信息或背景音信息进行处理，直接合成媒体文件；当特效音-语音信息时长大于背景音信息时长时，制作者可选择对特效音-语音信息进行压缩，和/或对背景音信息进行拉伸的操作，然后再合成媒体文件；当特效音-语音信息时长小于背景音信息时长且需要进行处理时，制作者可选择对特效音-语音信息进行拉伸，和/或对背景音信息进行裁剪或压缩的操作，然后再合成媒体文件。

此外，提示信息可以包括一段或多段，所述背景音信息可以包括一段或多段，特效音信息也可以包括一个或多个，每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息，将特效音-语音信息与背景音信息按预设顺序叠加，合成媒体文件。例如，当录制的语音信息包括10段，背景音信息包括3段，特效音信息包括5个时，合成的媒体文件结构如图10所示。

具体的执行过程可参考实施例1的描述，此处不赘述。

实施例6

如图11所示，本实施例提供了一种媒体文件合成方法，该方法与实施例1的区别在于，合成的媒体文件中除制作者的语音信息外，仅包括背景音信息和图片集信息。所述方法包括如下步骤：

S601：接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，该媒体文件模板包括提示信息、背景音信息和图片集信息，该提示信息用于提示制作者需要录制的语音信息的内容；

S602：录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；

S603：获取所述媒体文件模板中的背景音信息和图片集信息，将所述语音信息、背景音信息和图片集信息合成媒体文件。

具体地，根据所述语音信息时长和背景音信息时长判断是否需要对语音信息时长和/或背景音信息时长进行处理；若需要，根据所述语音信息时长对所述背景音信息时长进行处理，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将所述语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件；或者根据所述背景音信息时长对所述语音信息时长进行处理，将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致，将所述处理后的语音信息、背景音信息和图片集信息叠加合成媒体文件；或者对所述背景音信息时长和所述语音信息时长进行处理，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将所述处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件。

进一步地，可通过输出语音信息时长和背景音信息时长，或者输出语音信息时长和背景音信息时长的对比结果(制作者可根据输出的相关信息，选择对语音信息和/或背景音信息进行相关裁剪、压缩或拉伸的操作，使语音信息时长大致和背景音信息时长相匹配，当然，背景音信息时长也可以稍大于语音信息时长，即语音信息开始之前和结束之后均预留有预定长度的背景音信息)；接收制作者输入的对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令，根据所述指令对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理。当对背景音信息进行处理时，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将语音信息/处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件，或者当对语音信息进行处理，背景音信息不处理时，将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致，将处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件。例如，当语音信息时长与背景音信息时长大致匹配时，可不用对语音信息或背景音信息进行处理，直接合成媒体文件；当语音信息时长大于背景音信息时长时，制作者可选择对语音信息进行压缩，和/或对背景音信息进行拉伸的操作，然后再合成媒体文件；当语音信息时长小于背景音信息时长且需要进行处理时，制作者可选择对语音信息进行拉伸，和/或对背景音信息进行裁剪或压缩的操作，然后再合成媒体文件。

此外，提示信息可以包括一段或多段，所述背景音信息可以包括一段或多段，图片集信息也可以包括一组或多组，将语音信息、背景音信息和图片集信息按预设顺序叠加，合成媒体文件。例如，当录制的语音信息包括11段，背景音信息包括2段，图片集信息包括3组时，合成的媒体文件结构如图12所示。

具体的执行过程可参考实施例1的描述，此处不赘述。

实施例7

如图13所示，本实施例提供了一种媒体文件合成方法，该方法与实施例1的区别在于，合成的媒体文件中除制作者的语音信息外，仅包括特效音信息和图片集信息。所述方法包括如下步骤：

S701：接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，该媒体文件模板包括提示信息、特效音信息和图片集信息，该提示信息用于提示制作者需要录制的语音信息的内容；

S702：录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；

S703：获取所述媒体文件模板中的特效音信息和图片集信息，将所述特效音信息和图片集信息合成媒体文件。

具体地，将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息，将所述图片集信息中所有图片的播放总时长设置为与特效音-语音信息时长一致或者将所述图片集信息中所有图片的播放总时长设置为稍大于特效音-语音信息时长(即特效音-语音信息开始之前和结束之后均预留有一定时间的图片播放)，将特效音-语音信息与图片集信息叠加合成媒体文件。

此外，提示信息可以包括一段或多段，所述特效音信息可以包括一个或多个，图片集信息也可以包括一组或多组，每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息，将特效音-语音信息和图片集信息按预设顺序叠加，合成媒体文件。

例如，当录制的语音信息包括6段，特效音信息包括3个，图片集信息包括2组时，合成的媒体文件结构如图14所示。

具体的执行过程可参考实施例1的描述，此处不赘述。

实施例8

如图15所示，本实施例提供了一种媒体文件合成方法，该方法与实施例1相似，合成的媒体文件中除制作者的语音信息外，还包括背景音信息、特效音信息和图片集信息。所述方法包括如下步骤：

S801：获取媒体文件模板列表，并输出所述媒体文件模板列表；

S802：接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，该媒体文件模板包括提示信息、背景音信息、特效音信息和图片集信息，该提示信息用于提示制作者需要录制的语音信息的内容；

S803：依次输出媒体文件模板中的提示信息；

S804：依次录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；

S805：获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息；

S806：将所述特效音信息插入语音信息中或者叠加于语音信息上形成特效音-语音信息；

S807：输出特效音-语音信息时长和背景音信息时长，或者输出特效音-语音信息时长和背景音信息时长的对比结果；

S808：接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令，根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理；当对背景音信息进行处理时，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将特效音信息/处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件；当对特效音-语音信息进行处理，背景音信息不进行处理时，将处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件。

具体的执行过程可参考实施例1的描述，此处不赘述。

实施例9

如图16所示，本实施例提供了一种媒体文件合成装置，图中虚线框表示优选实施方式所包含的内容。所述装置包括指令接收模块100、录音模块200和文件合成模块300，其中：

指令接收模块100用于接收制作者输入的媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，该媒体文件模板包括：提示信息、背景音信息、特效音信息和图片集信息，所述提示信息用于提示制作者需要录制的语音信息的内容；

优选地，本装置还可以包括模板列表获取模块400，用于获取媒体文件模板列表，从而方便制作者根据输出的媒体文件模板列表选择相应的模板。例如将媒体文件模板列表输出至电子设备的屏幕上供制作者选择。

录音模块200用于录制制作者的语音信息，所述语音信息由制作者根据所述提示信息而发出；

优选地，本装置中，还可以包括提示信息输出模块500，用于输出提示信息。当提示信息是文字信息时，提示信息输出模块500可以是电子设备的屏幕，也即可在电子设备的屏幕上输出文字信息，制作者根据文字信息朗读故事，由电子设备录制制作者朗读的故事；当提示信息是录音信息(即保存好的故事录音)时，提示信息输出模块500可以是电子设备的音频输出口，例如可通过耳机输出录音信息给制作者，制作者直接根据该录音信息朗读故事，由电子设备录制制作者朗读的故事。

所述媒体文件模板可包括一段或多段提示信息；在录制制作者的语音信息之前，需要依次输出所述提示信息；因此，所述语音信息也包括一段或多段，每段语音信息由制作者根据每段提示信息而发出。也即该故事是分段录制的，每段提示信息就相当于是一段字幕，或者一段故事录音。每输出一段提示信息、录制好该段提示信息对应的制作者语音之后，再输出下一段提示信息……直至录制完所有段落的制作者语音。

文件合成模块300用于获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息，将所述语音信息、背景音信息、特效音信息和图片集信息合成媒体文件。

进一步地，可通过输出特效音-语音信息时长和背景音信息时长，或者输出特效音-语音信息时长和背景音信息时长的对比结果(制作者可根据输出的相关信息，选择对特效音-语音信息和/或者背景音信息进行相关裁剪、压缩或拉伸的操作，使语音信息时长大致和背景音信息时长相匹配，当然，背景音信息时长也可以稍大于语音信息时长，即语音信息开始之前和结束之后均预留有预定长度的背景音信息)；接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或者对背景音信息进行裁剪、压缩或拉伸的处理的指令，根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理。当对背景音信息进行处理时，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将特效音-语音信息(或者处理后的特效音-语音信息)、处理后的背景音信息和图片集信息叠加合成媒体文件；当对特效音-语音信息进行处理，背景音信息不进行处理时，将图片集信息中所有图片的播放总时长设置为与背景音信息时长一致，将处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件。例如，当语音信息时长与背景音信息时长大致匹配时，可不用对语音信息或背景音信息进行处理，直接合成媒体文件；当语音信息时长大于背景音信息时长时，制作者可选择对语音信息进行压缩，和/或者对背景音信息进行拉伸的操作，然后再合成媒体文件；当语音信息时长小于背景音信息时长且需要进行处理时，制作者可选择对语音信息进行拉伸，和/或者对背景音信息进行裁剪或压缩的操作，然后再合成媒体文件。

此外，提示信息可以包括一段或多段，背景音信息也可以包括一段或多段，特效音信息也可以包括一个或多个，图片集信息也可以包括一组或多组。根据提示信息逐一录制语音信息，将每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成入特效音的语音信息，将特效音-语音信息与背景音信息、图片集信息按预设顺序叠加，合成媒体文件。例如，当录制的语音信息包括5段，背景音信息包括2段，特效音信息包括3个，图片集信息包括2组时，录制生成的媒体文件结构如图2所示。

在另一实施例中，合成的媒体文件中除制作者的语音信息外，仅包括背景音信息，该装置的结构和本实施例相似，只是装置内各模块的具体功能实现不完全相同，具体可参考实施例2的描述。

在另一实施例中，合成的媒体文件中除制作者的语音信息外，仅包括特效音信息，该装置的结构和本实施例相似，只是装置内各模块的具体功能实现不完全相同，具体可参考实施例3的描述。

在另一实施例中，合成的媒体文件中除制作者的语音信息外，仅包括图片集信息，该装置的结构和本实施例相似，只是装置内各模块的具体功能实现不完全相同，具体可参考实施例4的描述。

在另一实施例中，合成的媒体文件中除制作者的语音信息外，仅包括背景音信息和特效音信息，该装置的结构和本实施例相似，只是装置内各模块的具体功能实现不完全相同，具体可参考实施例5的描述。

在另一实施例中，合成的媒体文件中除制作者的语音信息外，仅包括背景音信息和图片集信息，该装置的结构和本实施例相似，只是装置内各模块的具体功能实现不完全相同，具体可参考实施例6的描述。

在另一实施例中，合成的媒体文件中除制作者的语音信息外，仅包括特效音信息和图片集信息，该装置的结构和本实施例相似，只是装置内各模块的具体功能实现不完全相同，具体可参考实施例7的描述。

本实施例通过提供一种根据录制的语音信息反向生成媒体文件的装置哎，在提高制作个性化多媒体文件的效率的同时，不需要由制作者控制朗读语速，而是在后期合成时对模板中的文件进行处理，减少了制作者使用的复杂度，克服了现有技术中多媒体文件难以制作的问题；此外，生成的媒体文件中既包括背景音信息，也包括特效音信息和图片集信息，内容丰富，使听众更容易融入故事的意境。

实施例10

本实施例提供了一种设备，所述设备包括实施例9所述的媒体文件合成装置。该设备可以是智能手机、平板电脑、笔记本电脑、台式电脑等电子设备。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种媒体文件合成方法，其特征在于，所述方法包括：

获取媒体文件模板列表，并输出所述媒体文件模板列表；

接收媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，所述媒体文件模板包括提示信息、背景音信息、特效音信息和图片集信息，所述提示信息用于提示需要录制的语音信息的内容；

依次输出媒体文件模板中的提示信息；

依次录制语音信息，所述语音信息根据所述提示信息而发出；

接收对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令，根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理；当对背景音信息进行处理时，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将特效音信息/处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件；当对特效音-语音信息进行处理，背景音信息不进行处理时，将处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件。

2.一种媒体文件合成方法，其特征在于，所述方法包括：

获取媒体文件模板列表，输出所述媒体文件模板列表；

接收媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，所述媒体文件模板包括提示信息、背景音信息和/或特效音信息和/或图片集信息，所述提示信息用于提示需要录制的语音信息的内容；

录制语音信息，所述语音信息根据所述提示信息而发出，所述提示信息为文字信息或录音信息；

获取所述媒体文件模板中的背景音信息和/或特效音信息和/或图片集信息，将所述语音信息、背景音信息和/或特效音信息和/或图片集信息合成媒体文件，所述文字信息选择性地添加到所述媒体文件中。

3.如权利要求2所述的方法，其特征在于，当所述媒体文件模板包括提示信息、背景音信息时，所述获取所述媒体文件模板中的背景音信息，将所述语音信息和背景音信息合成媒体文件具体包括：

获取所述媒体文件模板中的背景音信息；

根据所述语音信息时长和背景音信息时长判断是否需要对语音信息时长和/或背景音信息时长进行处理；

若需要，根据所述语音信息时长对所述背景音信息时长进行处理，将所述语音信息和处理后的背景音信息叠加合成媒体文件；或者根据所述背景音信息时长对所述语音信息时长进行处理，将所述处理后的语音信息和背景音信息叠加合成媒体文件；或者对所述语音信息时长和背景音信息时长进行处理，将处理后的语音信息和处理后的背景音信息叠加合成媒体文件；

或者，

所述获取所述媒体文件模板中的背景音信息，将所述语音信息和背景音信息合成媒体文件具体包括：

获取所述媒体文件模板中的背景音信息；

输出语音信息时长和背景音信息时长，或者输出语音信息时长和背景音信息时长的对比结果；

接收对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令，根据所述指令对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理，将处理后的语音信息和背景音信息叠加合成媒体文件，或者将语音信息和处理后的背景音信息叠加合成媒体文件，或者将处理后的语音信息、处理后的背景音信息叠加合成媒体文件。

4.如权利要求2所述的方法，其特征在于，当所述媒体文件模板包括提示信息、特效音信息时，所述获取所述媒体文件模板中的特效音信息，将所述语音信息和特效音信息合成媒体文件具体包括：

获取所述媒体文件模板中的特效音信息，将所述特效音信息插入所述语音信息中或者叠加于语音信息上，合成媒体文件。

5.如权利要求2所述的方法，其特征在于，当所述媒体文件模板包括提示信息、背景音信息和特效音信息时，所述获取所述媒体文件模板中的背景音信息和特效音信息，将所述语音信息、背景音信息和特效音信息合成媒体文件具体包括：

获取所述媒体文件模板中的背景音信息和特效音信息；

将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息；

根据所述特效音-语音信息时长和背景音信息时长判断是否需要对特效音-语音信息时长和/或背景音信息时长进行处理；

若需要，根据所述特效音-语音信息时长对所述背景音信息时长进行处理，将所述特效音-语音信息和处理后的背景音信息叠加合成媒体文件；或者根据所述背景音信息时长对所述特效音-语音信息时长进行处理，将所述处理后的特效音-语音信息和背景音信息叠加合成媒体文件；或者对所述特效音-语音信息时长和背景音信息时长进行处理，将处理后的特效音-语音信息和处理后的背景音信息叠加合成媒体文件；

或者，

所述获取所述媒体文件模板中的背景音信息和特效音信息，将所述语音信息、背景音信息和特效音信息合成媒体文件具体包括：

获取所述媒体文件模板中的背景音信息和特效音信息；

接收对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令，根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理，将处理后的特效音-语音信息和背景音信息叠加合成媒体文件，或者将特效音-语音信息和处理后的背景音信息叠加合成媒体文件，或者将处理后的特效音-语音信息、处理后的背景音信息叠加合成媒体文件。

6.如权利要求2所述的方法，其特征在于，当所述媒体文件模板包括提示信息、图片集信息时，所述获取所述媒体文件模板中的图片集信息，将所述语音信息和图片集信息合成媒体文件具体包括：

获取所述媒体文件模板中的图片集信息；

将所述图片集信息中所有图片的播放总时长设置为与语音信息时长一致，或者将所述图片集信息中所有图片的播放总时长设置为大于语音信息时长，将所述语音信息和图片集信息叠加合成媒体文件。

7.如权利要求2所述的方法，其特征在于，当所述媒体文件模板包括提示信息、背景音信息和图片集信息时，所述获取所述媒体文件模板中的背景音信息和图片集信息，将所述语音信息、背景音信息和图片集信息合成媒体文件具体包括：

获取所述媒体文件模板中的背景音信息和图片集信息；

若需要，根据所述语音信息时长对所述背景音信息时长进行处理，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将所述语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件；或者根据所述背景音信息时长对所述语音信息时长进行处理，将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致，将所述处理后的语音信息、背景音信息和图片集信息叠加合成媒体文件；或者对所述背景音信息时长和所述语音信息时长进行处理，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将所述处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件；

或者，

所述获取所述媒体文件模板中的背景音信息和图片集信息，将所述语音信息、背景音信息和图片集信息合成媒体文件具体包括：

获取所述媒体文件模板中的背景音信息和图片集信息；

接收对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令，根据所述指令对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理；当对背景音信息进行处理时，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将语音信息/处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件，当对语音信息进行处理，背景音信息不进行处理时，将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致，将处理后的语音信息、背景音信息和图片集信息叠加合成媒体文件。

8.如权利要求2所述的方法，其特征在于，当所述媒体文件模板包括提示信息、特效音信息和图片集信息时，所述获取所述媒体文件模板中的特效音信息和图片集信息，将所述语音信息、特效音信息和图片集信息合成媒体文件具体包括：

获取所述媒体文件模板中的特效音信息和图片集信息；

将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息，将所述图片集信息中所有图片的播放总时长设置为与特效音-语音信息时长一致，或者将所述图片集信息中所有图片的播放总时长设置为大于特效音-语音信息时长，将特效音-语音信息与图片集信息叠加合成媒体文件。

9.如权利要求2所述的方法，其特征在于，当所述媒体文件模板包括提示信息、背景音信息、特效音信息和图片集信息时，所述获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息，将所述语音信息、背景音信息、特效音信息和图片集信息合成媒体文件具体包括：

若需要，根据所述特效音-语音信息时长对所述背景音信息时长进行处理，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将所述特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件；或者根据所述背景音信息时长对所述特效音-语音信息时长进行处理，将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致，将所述处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件；或者对所述特效音-语音信息时长、所述背景音信息时长进行处理，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将所述处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件；

或者，

所述获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息，将所述语音信息、背景音信息、特效音信息和图片集信息合成媒体文件具体包括：

接收对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令，根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理；当对背景音信息进行处理时，将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致，将特效音-语音信息/处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件；当对特效音-语音信息进行处理，背景音信息不进行处理时，将图片集信息中所有图片的播放总时长设置为与背景音信息时长一致，将处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件。

10.如权利要求2-9任一项所述的方法，其特征在于，所述媒体文件模板包括一段或多段提示信息，所述语音信息为一段或多段，每段语音信息根据每段提示信息而发出；背景音信息为一段或多段；所述图片集信息为一组或多组，每组图片集信息中包括一幅或多幅图片；所述特效音信息为一个或多个。

11.如权利要求10所述的方法，其特征在于，在录制语音信息之前，所述方法还包括：输出所述提示信息；

当所述提示信息为多段时，在录制语音信息之前，所述方法还包括：依次输出提示信息。

12.一种媒体文件合成装置，其特征在于，所述装置包括：

模板列表获取模块，用于获取媒体文件模板列表，并输出所述媒体文件模板列表；

指令接收模块，用于接收媒体文件模板选择指令，根据所述模板选择指令确定待合成的媒体文件模板，所述媒体文件模板包括提示信息、背景音信息和/或特效音信息和/或图片集信息，所述提示信息用于提示需要录制的语音信息的内容；

录音模块，用于录制语音信息，所述语音信息根据所述提示信息而发出，所述提示信息为文字信息或录音信息；

文件合成模块，用于获取所述媒体文件模板中的背景音信息和/或特效音信息和/或图片集信息，将所述语音信息、背景音信息和/或特效音信息和/或图片集信息合成媒体文件，所述文字信息选择性地添加到所述媒体文件中。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：提示信息输出模块，用于输出提示信息。

14.一种电子设备，其特征在于，所述电子设备包括权利要求12或13所述的媒体文件合成装置。