CN110619673B - 有声动图生成、播放方法、数据处理方法、系统及设备 - Google Patents

有声动图生成、播放方法、数据处理方法、系统及设备 Download PDF

Info

Publication number
CN110619673B
CN110619673B CN201810631243.3A CN201810631243A CN110619673B CN 110619673 B CN110619673 B CN 110619673B CN 201810631243 A CN201810631243 A CN 201810631243A CN 110619673 B CN110619673 B CN 110619673B
Authority
CN
China
Prior art keywords
audio
image
moving picture
time length
song
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810631243.3A
Other languages
English (en)
Other versions
CN110619673A (zh
Inventor
毛灵超
曾广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810631243.3A priority Critical patent/CN110619673B/zh
Publication of CN110619673A publication Critical patent/CN110619673A/zh
Application granted granted Critical
Publication of CN110619673B publication Critical patent/CN110619673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请实施例提供一种有声动图生成、播放方法、数据处理方法、系统及设备。其中,所述有声动图生成方法包括:获取为动图图像配置的第一音频;所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;根据所述动图图像及所述第二音频,生成有声动图。本申请实施例提供的技术方案,为动图图像配置了音频,提高了动图图像的趣味性,另外,通过对第一音频进行时长缩放处理而非现有技术中的简单切断,保证了第一音频的完整性,用户体验好。

Description

有声动图生成、播放方法、数据处理方法、系统及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种有声动图生成、播放方法、数据处理方法、系统及设备。
背景技术
动图图像,即动态图片(dynamic image),是指一组静态图像以指定的频率切换而产生动态效果的图片。网络上常见的表现形式是GIF(Graphics Interchange Format,图像互换格式)动图图像。目前,用户看到的动图图像均为无声动图图像,较为单调。
为了增加趣味性,市面上出现了一种短视频与音乐结合的方案,但添加的音乐基本上都是根据短视频的播放时长自动截断,如歌曲的一句歌词未完即被切断结束,因缺乏完成性,结尾非常突然,用户体验差。
发明内容
鉴于上述问题,提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的有有声动图生成、播放方法、数据处理方法、系统及设备。
于是,在本申请的一个实施例中,提供了一种有声动图生成方法。该方法包括:
获取为动图图像配置的第一音频;
所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频,生成有声动图。
在本申请的另一个实施例中,提供了一种数据处理方法。该方法,包括:
获取动图图像的图像时长;
根据所述图像时长,检索到音频时长满足预设条件的第一音频;
根据所述图像时长,对所述第一音频进行时长缩放处理,得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频,生成结果数据。
在本申请的又一个实施例中,提供了一种有声动图生成方法。该方法,适于客户端,包括:
接收服务端反馈的与动图图像匹配的至少一个音频;
将所述至少一个音频中的一个作为所述第一音频;
所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;
将根据所述动图图像及所述第二音频生成的有声动图上传至所述服务端。
在本申请的又一个实施例中,提供了一种有声动图生成方法。该方法,适于服务端,包括:
接收客户端针对动图图像发送的音频获取请求;
根据所述音频获取请求中携带的与所述动图图像有关的信息,获取与所述动图图像匹配的至少一个音频;
将所述至少一个音频反馈至所述客户端,以由所述客户端根据所述至少一个音频及所述动图图像生成有声动图。
在本申请的又一个实施例中,提供了一种有声动图生成系统。该系统包括:
客户端,用于接收服务端反馈的与动图图像匹配的至少一个音频;将所述至少一个音频中的一个作为所述第一音频;所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;将根据所述动图图像及所述第二音频生成的有声动图上传至所述服务端;
服务端,用于接收客户端针对动图图像发送的音频获取请求;根据所述音频获取请求中携带的与所述动图图像有关的信息,获取与所述动图图像匹配的至少一个音频;将所述至少一个音频反馈至所述客户端。
在本申请的又一实施例中,提供了一种有声动图播放方法。该方法,包括:
显示用户添加的动图图像;
响应于用户触发的音频获取事件,显示至少一个音频对应的页面元素;
响应于用户从所述至少一个音频中选出第一音频的选择操作,所述第一音频的音频时长与所述动图图像的图像时长不等时,播放根据所述动图图像及对所述第一音频进行时长缩放处理后得到的第二音频生成的有声动图。
在本申请的又一实施例中,提供了一种电子设备。 该电子设备,包括:第一存储器以及第一处理器;
所述第一存储器,用于存储程序;
所述第一处理器,与所述第一存储器耦合,用于执行所述第一存储器中存储的所述程序,以用于:
获取为动图图像配置的第一音频;
所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频,生成有声动图。
在本申请的又一实施例中,提供了一种电子设备。该电子设备,包括:第二存储器以及第二处理器;
所述第二存储器,用于存储程序;
所述第二处理器,与所述第二存储器耦合,用于执行所述第二存储器中存储的所述程序,以用于:
获取动图图像的图像时长;
根据所述图像时长,检索到音频时长满足预设条件的第一音频;
根据所述图像时长,对所述第一音频进行时长缩放处理,得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频,生成结果数据。
在本申请的又一实施例中,提供了一种客户端设备。该客户端设备,包括:第三存储器、第三处理器及第三通信组件;其中,
所述第三存储器,用于存储程序;
所述第三通信组件,与所述第三处理器连接,用于接收服务端反馈的与动图图像匹配的至少一个音频;
所述第三处理器,与所述第三存储器耦合,用于执行所述第三存储器中存储的所述程序,以用于:
将所述至少一个音频中的一个作为所述第一音频;
所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频生成的有声动图;
所述第三通信组件,还用于将所述有声动图上传至所述服务端。
在本申请的又一实施例中,提供了一种服务端设备。该服务端设备,包括:第四存储器、第四处理器及第四通信组件;其中,
所述第四存储器,用于存储程序;
所述第四通信组件,与所述第四处理器连接,用于接收客户端针对动图图像发送的音频获取请求;
所述第四处理器,与所述第四存储器耦合,用于执行所述第四存储器中存储的所述程序,以用于:
根据所述音频获取请求中携带的与所述动图图像有关的信息,获取与所述动图图像匹配的至少一个音频;
所述第四通信组件,还用于将所述至少一个音频反馈至所述客户端,以由所述客户端根据所述至少一个音频及所述动图图像生成有声动图。
在本申请的又一实施例中,提供了一种移动终端。该移动终端,包括:第五存储器、第五处理器及第五显示器;其中,
所述第五存储器,用于存储程序;
所述第五显示器,与所述第五处理器耦合,用于显示用户添加的动图图像;
所述第五处理器,与所述第五存储器耦合,用于执行所述第五存储器中存储的所述程序,以用于:
响应于用户触发的音频获取事件,控制所述第四显示器显示至少一个音频对应的页面元素;
响应于用户从所述至少一个音频中选出第一音频的选择操作,所述第一音频的音频时长与所述动图图像的图像时长不等时,控制所述第五显示器播放根据所述动图图像及对所述第一音频进行时长缩放处理后得到的第二音频生成的有声动图。
本申请实施例提供的技术方案中,为动图图像配置或检索到后第一音频,对第一音频进行时长缩放处理使得音频时长满足设定要求,再根据动图图像及处理后得到第二音频生成有声动图;提高了动图图像的趣味性,另外,通过对第一音频进行时长缩放处理而非现有技术中的简单切断,保证了第一音频的完整性,用户体验好。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的有声动图生成方法的流程示意图;
图2为本申请一实施例提供的有声动图生成系统的结构示意图;
图3为本申请另一实施例提供的有声动图生成方法的流程示意图;
图4为本申请又一实施例提供的有声动图生成方法的流程示意图;
图5为本申请一实施例提供的有声动图播放方法的流程示意图;
图6为本申请实施例提供的显示有添加控键的一具体界面示意图;
图7为本申请实施例提供的添加动图图像后的一具体界面示意图;
图8为本申请实施例提供的显示有各音频对应页面元素的一具体界面示意图;
图9为本申请实施例提供的显示有“播放”控键及“分享”控键的一具体界面示意图;
图10为本申请一实施例提供的数据处理方法的流程示意图;
图11为本申请一实施例提供的有声动图生成装置的结构示意图;
图12为本申请另一实施例提供的有声动图生成装置的结构示意图;
图13为本申请又一实施例提供的有声动图生成装置的结构示意图;
图14为本申请又一实施例提供的有声动图播放装置的结构示意图;
图15为本申请一实施例提供的数据处理装置的结构示意图;
图16为本申请一实施例提供的电子设备的结构示意图;
图17为本申请另一实施例提供的电子设备的结构示意图;
图18为本申请一实施例提供的客户端设备的结构示意图;
图19为本申请一实施例提供的服务端设备的结构示意图;
图20为本申请一实施例提供的移动终端的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了本申请一实施例提供的有声动图生成方法的流程示意图。如图1所示,所述方法包括:
101、获取为动图图像配置的第一音频。
102、所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频。
103、根据所述动图图像及所述第二音频,生成有声动图。
上述101中,为动图图像配置的第一音频可以是用户自行导入。例如,用户通过系统提供的交互界面自行从本地已存储的一个或多个候选音频中选择导入;也可以是用户输入搜索关键词后从网络侧检索到的;等等。
或者,第一音频由客户端系统自动为动图图像配置。例如,系统通过对动图图像的内容进行识别,基于识别得到的动图图像内容为动图图像配置合适的音频。
或者,第一音频由服务端为动图图像提供。例如,用户通过客户端将动图图像上传至服务端,由服务端通过对动图图像进行内容识别后,基于识别后得到的动图图像内容为其配置合适的音频。
其中,第一音频可以是完整的一首曲目,如纯音乐曲目,歌曲等等;还可以是片段,如纯音乐曲目片段或歌曲片段等等。
上述102中,对第一音频进行的时长缩放处理,可采用音频变速算法来实现。音频变速算法是指在保持声音音调(pitch)不变的前提下,将音频片段的时间长度进行调整,包括时间长度的加长与缩短。由于Time Scale是在保持音调不变的前提下进行的变化,所以变换后的音频片段既保持了原有的音调,又使自身的长度发生了变化。其中,音频变速算法的具体实现可参见现有技术,如现有技术中的OLA(Overlap-and-Add,重叠叠加)算法,或者是SOLA(Synchronized Overlap-Add,改进的OLA算法)等等,本申请实施例对此不作具体限定。所述设定要求可以调整后的音频时长与图像时长之差小于或等于第二预设阈值。在一种具体实现结构中,本实施例中第二预设阈值取值为零,采用时长缩放处理后的第一音频的音频时长与图像时长之差等于零。
上述103中,可将所述动图图像与所述第二音频绑定生成有声动图。例如,将所述动图图像及所述第二音频写入动图图像文件中并在动图图像文件中添加有声标志位。当需要播放动图图像文件时,检测该动图图像文件中是否含有有声标志位;当检测到含有有声标志位时,将从动图图像文件中读取到的动图图像数据发送给图片播放器并提示图片播放器进行播放,同时将从动图图像文件中读取到的音频数据发送给音频片段播放器并提示音频片段播放器进行播放。
本申请实施例提供的技术方案中,为动图图像配置第一音频,并在第一音频的音频时长与动图图像的图像时长不等时,对第一音频进行时长缩放处理使得音频时长等于图像时长,再根据动图图像及处理后得到第二音频生成有声动图;提高了动图图像的趣味性,另外,通过对第一音频进行时长缩放处理而非现有技术中的简单切断,保证了第一音频的完整性,用户体验好。
在一种可实现的技术方案中,上述101可采用如下步骤实现:
1011、获取与所述动图图像相关的关键词。
1012、从网络侧或本地,获取与所述关键词匹配的至少一个音频。
1013、将所述至少一个音频中的一个作为所述第一音频。
上述1011中,所述动图图像相关的关键词可采用如下两种方式获取到:
方式一、分别对构成所述动图图像的多幅图像信息进行语义识别,以得到各幅图像信息的语义特征;根据所述各幅图像信息的语义特征,确定所述关键词。
方式二、获取用户针对所述动图图像输入的文案信息;根据所述文案信息确定所述关键词。
上述方式一中,语义识别可采用现有技术中的学习算法(如卷积神经网络学习算法)等实现。其中,识别各幅图像的语义特征的目的就是为了获得动图图像的具体内容。例如,显示有火锅的动图图像,通过语义识别可得到该动图图像的语义特征至少包括:火锅、人。因此,可将语义特征直接作为与所述动图图像相关的关键词。当然,也可根据语义特征,将语义特征及语义特征的近义词等共同作为关键词。
上述方式二中,用户输入的文案信息可能是一个词条,短句和/或长句等等,本申请实施例对此不作具体限定。因此,在具体实施时,可直接将文案信息作为所述关键词,也可根据所述文案信息重新进行分词等操作,得到关键词;本申请实施例对此不作具体限定。
上述从网络侧获取的与关键词匹配的一个音频可以是:音频名称包含有关键词、音频创作者等信息的音频;或者是包括关键词或关键词的近义词的歌词的歌曲片段,等等,本申请对此不作具体限定。
例如,在一种可实现的技术方案中,当从网络侧或本地获取到的与所述关键词匹配的音频为歌曲片段时,上述1012可具体包括:
S1、从网络侧或本地,获取含有所述关键词或所述关键词的近义词的至少一段歌词;
S2、分别获取所述至少一段歌词中各段歌词对应的歌曲片段。
在具体实现时,从网络侧或本地也可直接获取到一段歌词对应的歌曲片段。当无法从网络侧获取到一段歌词对应的歌曲片段时,可采用上述先获取含有该段歌词的歌曲音频;然后再从歌曲音频中截取歌曲片段的方式得到。下面对至少一段歌词中的第一段歌词对应的歌曲片段为例,对歌曲片段的获取方法进行说明,所述至少一段歌词中的其余段歌词也可采用如下方式获取到对应的歌曲片段。具体的,获取所述至少一段歌词中的第一段歌词对应的歌曲片段,包括:
S21、从网络侧或本地,获取所述第一段歌词对应的歌曲音频;
S22、从所述歌曲音频中,节选出歌曲片段。
在一种可实现的技术方案中,上述步骤S22中节选歌曲片段可以由用户手动节选。例如,系统为用户提供节选选项,用户进入该节选界面后,可通过滑动片段起始时间标以及结束时间标在时间轴上的位置的方式来节选。也可通过直接在界面中输入起始时间和终止时间的方式来进行节选等。例如:上述“从所述歌曲音频中,节选出歌曲片段”,包括:
S221、响应于用户针对所述歌曲音频的节选操作,获取用户节选出的歌曲片段。
其中,所述节选操作可以是用户通过滑动两个时间标的位置的滑动操作,也可以是用户输入起始时间和终止时间的输入操作等等;本申请实施例对此不作具体限定。
在另一种可实现的技术方案中,上述歌曲片段的节选也可由系统自动实现。例如,上述“从所述歌曲音频中,节选出歌曲片段”,包括:
S221’、根据所述歌曲音频对应的歌词文件,确定所述第一段歌词的起始时间和终止时间;
S222’、从所述歌曲音频中,节选出所述起始时间至所述终止时间内的歌曲片段。
实际应用中,歌曲音频大多存在有与其对应的歌词文件。歌词文件中除包含有歌词外,还包含有各段歌词的时间标。例如LRC格式的歌词文件。以LRC为扩展名的歌词文件可以在各类数码播放器中同步显示。LRC 歌词是一种包含着“*:*”形式的“标签(tag)”、基于纯文本的歌词专用格式。LRC文件是通过编辑器把歌词按歌曲歌词出现的时间编辑到一起,然后在播放歌曲时同步依次将歌词显示出来的,用记事本按照上述格式写好后,将扩展名改为LRC即可做出“文件名.LRC”的歌词文件。所述标签包括时间标签,形式为“[mm:ss]”或“[mm:ss.fff]”(分钟数:秒数)。它可以位于歌词中的任意位置,一行歌词可以包含多个时间标签(比如歌词中的叠句部分)。基于这些时间标签,即可获取到歌词文件中某一段歌词对应歌曲片段的起始时间和终止时间。
进一步的,为了提高音频的音频时长与图像时长的匹配度。有可能上述节选出的音频时长与图像时长差的太多,采用时长缩放处理后的音频的播放效果较差。为保证音频时长缩放处理后的效果,可预先设置一个范围。例如,若采用上述方案节选出的歌曲片段的音频时长与所述图像时长的时差超过预设范围,则可重新节选歌曲片段,以获得效果更好的音频。
即上述“从所述歌曲音频中,节选出歌曲片段”,还可包括如下步骤:
S223’、根据所述图像时长,调整所述起始时间和/或所述终止时间,以使所述起始时间至所述终止时间的时长与所述图像时长的时差满足预设条件。
具体的,所述预设条件包括:所述起始时间至所述终止时间的时长与所述图像时长的时差小于第一预设阈值。其中,第一预设阈值可以是一个经验值,本申请实施例对此不作具体限定。
经过上述调整节选出的歌曲片段可能完整性会发生变化,因此,上述实施例提供的“从所述歌曲音频中,节选出歌曲片段”,还包括如下步骤:
S224’、结合所述歌曲音频对应的歌词文件判定所述起始时间至所述终止时间内的歌曲片段包含不完整句式的歌词时,继续调整所述起始时间和/或所述终止时间,直至所述起始时间至所述终止时间的时长与所述图像时长的时差满足预设条件,且所述起始时间至所述终止时间内的歌曲片段包含完整句式的歌词。
进一步的,所述第一音频为歌曲音频或歌曲片段。相应的,本申请实施例提供的所述方法,还包括如下步骤:
104、获取所述第一音频对应的歌词。
105、将所述歌词添加至所述有声动图,以在有声动图上同步展示所述歌词。
具体实施时,可将歌词采用卡拉ok的形式直接映射到动图图像上以在有声动图上同步展示所述歌词。
在一种可实现的技术方案中,所述歌词可以弹幕形式播放。用户界面上显示有弹幕开关控键;用户触控开启该弹幕开关控键时,所述歌词以弹幕的形式展示在所述有声动图上。用户触控关闭该弹幕开关控键时,所述有声动图播放时隐藏所述歌词。
这里需要说明的是:上述实施例提供的有声动图生成方法的执行主体可以客户端,也可以服务端。当然,也可以由客户端和服务端共同完成。需要说明的是:上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤101至步骤103的执行主体可以为设备A;又比如,步骤101和102的执行主体可以为设备A,步骤103的执行主体可以为设备B;等等。
下面介绍一种基于如下系统架构实现的有声动图生成方法的方案。在介绍方法之前,先对系统架构进行说明。
图2示出了本申请一实施例提供的有声动图生成系统的结构示意图。如图2所示,本实施例提供的所述有声动图生成系统,包括:客户端201和服务端202。其中,
客户端201,用于接收服务端反馈的与动图图像匹配的至少一个音频;将所述至少一个音频中的一个作为所述第一音频;所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;将根据所述动图图像及所述第二音频生成的有声动图上传至所述服务端;
服务端202,用于接收客户端针对动图图像发送的音频获取请求;根据所述音频获取请求中携带的与所述动图图像有关的信息,获取与所述动图图像匹配的至少一个音频;将所述至少一个音频反馈至所述客户端。
本申请实施例提供的技术方案中,为动图图像配置第一音频,并在第一音频的音频时长与动图图像的图像时长不等时,对第一音频进行时长缩放处理使得音频时长等于图像时长,再根据动图图像及处理后得到第二音频生成有声动图;提高了动图图像的趣味性,另外,通过对第一音频进行时长缩放处理而非现有技术中的简单切断,保证了第一音频的完整性,用户体验好。
本申请实施例提供的所述有声动图生成系统中各组成单元,如服务端、客户端的具体工作流程及之间的信令交互将在以下各实施例中作进一步的说明。
图3示出了本申请一实施例提供的有声动图生成方法的流程示意图。本申请实施例提供的所述方法适于客户端。其中,所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件,也可以是安装在终端中的一个应用软件,还可以是嵌入在终端操作系统中的工具软件等,本申请实施例对此不作限定。该终端可以为手机、平板电脑、智能穿戴设备、车载智能设备等任意终端设备。具体的,如图3所示,所述方法包括:
301、接收服务端反馈的与动图图像匹配的至少一个音频。
302、将所述至少一个音频中的一个作为所述第一音频。
303、所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频。
304、将根据所述动图图像及所述第二音频生成的有声动图上传至所述服务端。
上述301中,上述至少一个音频可以是服务端根据用户输入的文案信息为动图图像配置的;也可是服务端通过对动图图像的内容进行识别,基于识别得到的动图图像内容为动图图像配置。即,本申请实施例提供的所述方法还可包括如下步骤:
305、响应于用户针对所述动图图像输入的文案信息,将所述文案信息发送至所述服务端,以由所述服务端根据所述文案信息获取并反馈所述至少一个音频。
306、将所述动图图像上传至所述服务端,以由所述服务端根据构成所述动图图像的多幅图像信息的语义特征获取所述至少一个音频。
其中,所述至少一个音频可以是纯音频曲目、歌曲等等;也可以是纯音乐曲目片段或歌曲片段等等,本申请实施例对此不作具体限定。
上述302中,第一音频可以是用户从至少一个音频中选择出的。例如,客户端显示的交互界面中显示有至少一个音频供用户点选,客户端响应于用户针对所述至少一个音频的选择操作,将选择操作指向的一个音频(即用户点选的一个音频)作为第一音频。或者,客户端系统根据预设策略从至少一个音频中选出的。例如,系统从至少一个音频中选择音频时长与动图图像的图像时长最接近的一个音频作为所述第一音频;等等,本申请实施例对此不作具体限定。
上述303中,可采用音频变速算法对所述第一音频进行时长缩放处理。具体的可参见上述实施例中的相关内容,此处不再赘述。
上述304中,有关“根据所述动图图像及所述第二音频生成有声动图”的内容可参见上述实施例中的相应内容,此处不再赘述。
本申请实施例提供的技术方案中,为动图图像配置第一音频,并在第一音频的音频时长与动图图像的图像时长不等时,对第一音频进行时长缩放处理使得音频时长等于图像时长,再根据动图图像及处理后得到第二音频生成有声动图;提高了动图图像的趣味性,另外,通过对第一音频进行时长缩放处理而非现有技术中的简单切断,保证了第一音频的完整性,用户体验好。
进一步的,用户还可对步骤302中选出的第一音频进行节选操作。特别是,对于选出的第一音频的音频时长与动图图像的图像时长相差较大的音频,客户端还可为用户提供手动节选的功能。即本申请实施例提供的所述方法还包括:响应于用户针对所述第一音频的节选操作,将所述第一音频更新为所述用户节选出的片段。
进一步的,所述第一音频为歌曲音频或歌曲片段。相应的,本申请实施例提供的所述方法还包括:
307、获取所述第一音频对应的歌词。
308、将所述歌词添加至所述有声动图,以在有声动图上同步展示所述歌词。
其中,上述307中所述第一音频对应的歌词可从网络侧(如服务端)或本地获取。若第一音频为歌曲片段,则客户端从网络侧或本地获取所述第一音频对应的歌词文件后,可从所述歌词文件中节选出该歌曲片段对应的所述歌词。
具体实施时,上述308中所述歌词可采用卡拉ok的形式直接映射到动图图像上以在有声动图上同步展示所述歌词。在一种可实现的技术方案中,所述歌词可以弹幕形式播放。用户界面上显示有弹幕开关控键;用户触控开启该弹幕开关控键时,所述歌词以弹幕的形式展示在所述有声动图上。用户触控关闭该弹幕开关控键时,所述有声动图播放时隐藏所述歌词。
图4示出了本申请一实施例提供的有声动图生成方法的流程示意图。本申请实施例提供的所述方法适于服务端。其中,所述服务端可以是常用服务器、云端、虚拟服务器等,本申请实施例对此不作具体限定。具体的,如图4所示,所述方法,包括:
401、接收客户端针对动图图像发送的音频获取请求。
402、根据所述音频获取请求中携带的与所述动图图像有关的信息,获取与所述动图图像匹配的至少一个音频。
403、将所述至少一个音频反馈至所述客户端,以由所述客户端根据所述至少一个音频及所述动图图像生成有声动图。
上述401中,客户端可在用户触控界面上的虚拟控键或实体控键触发音频获取请求;或者,客户端在用户针对所述动图图像输入文案信息后触发所述音频获取请求;等等,本申请实施例对此不作具体限定。
上述402中,与所述动图图像有关的信息为用户输入的文案信息或构成所述动图图像的多幅图像信息。其中,文案信息可以一个词条、短语和/或语句等等,本申请实施例对此不作具体限定。在一种可实现的技术方案中,“根据与所述动图图像有关的信息,获取与所述动图图像匹配的至少一个音频”,可采用如下步骤实现:
4021、根据与所述动图图像有关的信息,确定关键词。
4022、获取与所述关键词匹配的至少一个音频。
上述4021中,当与所述动图图像有关的信息为用户输入的文案信息时,可根据所述文案信息确定所述关键词,如直接将文案信息作为所述关键词,或根据所述文案信息进行分词等操作得到所述关键词。当与所述动图图像有关的信息为构成所述动图图像的多幅图像信息时,可分别对构成所述动图图像的多幅图像信息进行语义识别,以得到各幅图像信息的语义特征;根据所述各幅图像信息的语义特征,确定所述关键词。
其中,对图像信息进行语义识别可参见现有技术中的图像语义特征的提取与分析技术实现,例如通过自学习算法(如卷积神经网络算法)实现对图像信息的语义识别,具体实现过程可参见现有技术中的相应内容,此处不再赘述。
上述4022中 “获取与所述关键词匹配的至少一个音频”可具体包括:
获取包含有所述关键词或所述关键词的近义词的音频名称的至少一个音频;或者
获取含有所述关键词或所述关键词的近义词的至少一段歌词;分别获取所述至少一段歌词中各段歌词对应的歌曲片段。
在具体实施,可直接从本地音频数据库中或从网络侧获取到一段歌词对应的歌曲片段。当无法获取到一段歌词对应的歌曲片段时,可先获取含有该段歌词的歌曲音频;然后再从歌曲音频中截取歌曲片段的方式得到。下面对至少一段歌词中的第一段歌词为例,对获取第一段歌词对应的歌曲片段的获取方法进行说明。其中,所述至少一段歌词中的其余段歌词对应的歌曲片段可采用如下方式获取,也可采用其他方式获取得到,本申请对此不作具体限定。即,上述“获取所述至少一段歌词中的第一段歌词对应的歌曲片段”,包括:
获取所述第一段歌词对应的歌曲音频;
从所述歌曲音频中,节选出歌曲片段。
进一步的,上述“从所述歌曲音频中,节选出歌曲片段”可具体采用如下方法实现:
根据所述歌曲音频对应的歌词文件,确定所述第一段歌词的起始时间和终止时间;
从所述歌曲音频中,节选出所述起始时间至所述终止时间内的歌曲片段。
再进一步的,从所述歌曲音频中,节选出歌曲片段,还可包括如下步骤:
根据所述图像时长,调整所述起始时间和/或所述终止时间,以使所述起始时间至所述终止时间的时长与所述图像时长的时差满足预设条件。
再进一步的,从所述歌曲音频中,节选出歌曲片段,还包括如下步骤:
结合所述歌曲音频对应的歌词文件判定所述起始时间至所述终止时间内的歌曲片段包含不完整句式的歌词时,继续调整所述起始时间和/或所述终止时间,直至所述起始时间至所述终止时间的时长与所述图像时长的时差满足预设条件,且所述起始时间至所述终止时间内的歌曲片段包含完整句式的歌词。
其中,所述预设条件包括:所述起始时间至所述终止时间的时长与所述图像时长的时差小于第一预设阈值。该第一预设阈值可以是一个经验值,本申请实施例对此不作具体限定。
本申请实施例提供的技术方案中,为动图图像配置第一音频,并在第一音频的音频时长与动图图像的图像时长不等时,对第一音频进行时长缩放处理使得音频时长等于图像时长,再根据动图图像及处理后得到第二音频生成有声动图;提高了动图图像的趣味性,另外,通过对第一音频进行时长缩放处理而非现有技术中的简单切断,保证了第一音频的完整性,用户体验好。
这里需要说明的是:本申请各实施例是从不同角度对技术方案进行说明,各实施例中的内容可互相参照。
图5示出了本申请一实施例提供的有声动图播放方法的流程示意图。本申请实施例提供的技术方案的执行主体可以是客户端。所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件,也可以是安装在终端中的一个应用软件,还可以是嵌入在终端操作系统中的工具软件等,本申请实施例对此不作限定。该终端可以为手机、平板电脑、智能穿戴设备、车载智能设备等任意终端设备。具体的,如图5所示,所述方法包括:
501、显示用户添加的动图图像。
502、响应于用户触发的音频获取事件,显示至少一个音频对应的页面元素。
503、响应于用户从所述至少一个音频中选出第一音频的选择操作,所述第一音频的音频时长与所述动图图像的图像时长不等时,播放根据所述动图图像及对所述第一音频进行时长缩放处理后得到的第二音频生成的有声动图。
上述501中显示的已添加动图图像可以是用户点击交互界面上的添加控键并从候选的多个候选动图图像中选定的一个动图图像后添加进来的;或者是用户发出指定语音后并按照语音指令添加进来的;等等。例如,图6所示的示例,交互界面上显示有“点击添加一张动图图像”的添加控键10。用户触控该添加控键10后,当前界面或跳转至新的界面中以展示至少一个候选动图图像,供用户选择。图7示出,用户成功添加一张动图图像后的界面实例。
上述502中,音频获取事件可以是用户点击界面上的获取控键后被触发的;或者是用户在文案输入区30中输入文案信息后被触发的;等等。图7示出了文案输入区30的一种界面实现示例;图8示出了用户在文案输入区30中输入“火锅底料”后的一种界面实现实例。“显示至少一个音频对应的页面元素”,可包括但不限于如下的至少一种:
显示至少一个音频中各音频的音频名称;
显示至少一个音频中各音频对应的歌词;
显示至少一个音频中各音频对应的来源信息;
显示至少一个音频中各音频对应的创作者信息;
显示至少一个音频中各音频的音频时长。
图8示出了一种显示各音频对应页面元素70的界面实现实例。图8所示的示例中,各音频对应的页面元素包括:音频名称、对应歌词、创作者信息。图8仅示例性的示出了一种实现方案,实质上各音频对应的页面元素还可包括:来源信息(如资源提供方信息)、音频时长等等,本申请实施例对此不作具体限定。
上述503中,可采用音频变速算法实现对第一音频进行时长缩放处理。对所述第一音频进行时长缩放处理后得到第二音频。通过绑定所述动图图像及所述第二音频即可得到有声动图;或者将动图图像及第二音频写入有声动图文件中得到所述有声动图。其中,所述音频变速算法可参见现有技术中的相关内容,此处不再赘述。
本申请实施例提供的技术方案中,为动图图像配置第一音频,并在第一音频的音频时长与动图图像的图像时长不等时,对第一音频进行时长缩放处理使得音频时长等于图像时长,再根据动图图像及处理后得到第二音频生成有声动图;提高了动图图像的趣味性,另外,通过对第一音频进行时长缩放处理而非现有技术中的简单切断,保证了第一音频的完整性,用户体验好。此外,本申请实施例提供的技术方案,操作简单,用户无需深入学习即可掌握,便于用户使用。
在一种可实现的技术方案中,本申请实施例还可包括如下步骤:
504、显示文案输入区。
505、监听到用户在所述文案输入区输入文案信息后,触发所述音频获取事件。
进一步的,本申请实施例还可包括如下步骤:
506、向服务端发送的文案信息,以由所述服务端反馈与所述文案信息匹配的所述至少一个音频。
在另一种可实现的技术方案中,客户端还为用户提供音频获取控键。即本申请实施例提供的所述方法,还可包括:
507、显示音频获取控键。
508、监听到用户触控所述音频获取控键的触发操作后,触发所述音频获取事件。
相应的,本申请实施例提供的所述方法还可包括:
509、向服务端发送构成所述动图图像的多幅图像信息,以由服务端根据构成所述动图图像的多幅图像信息的语义特征获取并反馈所述至少一个音频。
进一步的,本申请实施例提供的所述方法还可包括:
510、在所述动图图像上或所述动图图像周围显示图像时长。
图7示出了一种在动图图像上显示图像时长的界面,如图中标号40标出的图像时长。在动图图像上或动图图像周围展示图像时长的目的是为用户提供手动选择第一音频的依据。用户可根据图像时长,从至少一个音频中选择音频时长最接近图像时长的音频作为第一音频。
进一步的,本申请实施例提供的所述方法还可包括:
511、在所述动图图像上或所述动图图像周围显示更换控键。
512、响应于用户触控所述更换控键的操作,显示包含有至少一个候选动图图像的动图图像更换界面。
如图7所示,在动图图像上显示的更换控键20。用户在发现已添加的动图图像错误时,可通过触控该更换控键20重新选择需添加的动图图像,以修正错误。
进一步的,本申请实施例提供的所述方法还可包括:
513、显示试听所述至少一个音频中各音频的试听控键。
图8示出了各音频对应的试听控键60的示例。
514、响应于用户触控所述至少一个音频中第一音频对应的试听控键的操作,播放所述第一音频。
用户通过触控各音频对应的试听控键60,即可预先听各音频是否是其想要的音频,以作为用户选择音频的依据。
在具体实施时,如图8所示的界面中还可显示各音频对应的“选择”控键50。当然,界面中也可不设置该“选择”控键50,各音频显示的区域即为该音频对应的可触控的控键,用户通过触控该音频显示的区域即可完成音频的选定。
进一步的,所述第一音频为歌曲音频或者歌曲片段。相应的,本申请实施例提供的所述方法,还可包括:
515、获取所述第一音频对应的歌词。
516、将所述歌词添加至所述有声动图;
517、在所述有声动图上显示所述歌词。
上述515中,第一音频对应的歌词可以是从第一音频对应的歌词文件中获取。
上述516中,可将歌词添加至有声动图对应的有声动图文件中。在播放有声动图时,获取该有声动图文件中的歌词,然后在有声动图上显示所述歌词。
上述517中,可在监听到用户触控播放有声动图的控键时,在用户界面上显示有声动图,同时在所述有声动图上显示所述歌词。
在一具体实施例中,在所述有声动图上显示所述歌词,包括:逐个突出显示所述歌词的各单词。比如,高亮显示、加粗显示、跳跃显示等等,本申请实施例对此不作具体限定。例如,歌词采用卡拉ok的形式直接映射到动图图像上以在有声动图上同步展示所述歌词。图9示出了显示播放有声动图的控键——“播放”控键80的示例。
进一步的,本申请实施例提供的方法还包括如下步骤:
518、响应于用户触发分享所述有声动图的事件,将所述有声动图上传至服务端。
有声动图上传至服务端后即其他用户的客户端即可获取并查看到该有声动图。具体的,用户可通过触控“分享”控键来触发分享所述有声动图的事件,如图9所示的界面中显示的“分享”控键90。或者,用户可通过发出分享语音来触发分享所述有声动图的事件,本申请实施例对此不作具体限定。
上述501~517各步骤主要介绍了有声动图制作、试播及分享的过程。有声动图分享后,其他用户的客户端即可从服务端获取并查看上述分享的有声动图。例如,用户可通过登录应用APP的主页,并通过主页导航看到其他用户分享的有声动图。用户点击查看该有声动图后,用户界面中即可播放其他用户制作并上传的有声动图。该过程同现有视频分享的过程,此处不再赘述。
在一种可实现的技术方案中,本申请实施例提供的有声动图上还可显示有为其配置的音频对应的歌词。所述歌词可以弹幕形式播放。即本申请实施例提供的所述方法还包括:
518、显示有弹幕开关控键。
519、响应于用户触控开启该弹幕开关控键的操作,所述歌词以弹幕的形式展示在所述有声动图上。
520、响应于用户触控关闭该弹幕开关控键的操作,在所述有声动图播放时隐藏所述歌词。
制作和分享有声动图的用户也可获取并查看到其他用户制作和分享的有声动图。上述518至520的过程可简单理解为:在查看其他用户制作和分享的有声动图时,客户端为用户提供了弹幕开关控键。这样用户自行选择是否在动图图像上显示以弹幕形式播放的歌词。
下面结合图6至图9,从界面操作的角度对上述实施例提供的技术方案进行说明。
如图6所示,界面上显示有添加控键10。用户点击该添加控键10后,页面即进入用于显示候选动图图像的选择界面(图中未示出)。用户从中选择一个动图图像并确定后,即进入图所示的显示有已添加动图图像的界面,如图7所示,。
在图7所示的界面中,显示有动图图像的图像时长40以及“更换”控键20。在动图图像的下方显示有文案输入区30。
用户在文案输入区输入“火锅底料”后,如图8所示,界面中显示有包含有关键词“火锅”及“底料”的至少一个歌曲片段;各歌曲片段对应的页面元素包括:歌曲片段对应的歌词、歌名及创作者信息。
针对每个候选歌曲片段还显示有试听控键60;用户触控所述试听控键60后,即播放该试听控键60对应的歌曲片段。例如,用户触控“老子吃火锅 你吃火锅底料”对应的试听控键60,此时客户端即播放该段音频片段,用户可根据听到的内容做出判断是否选择。
如图8所示,界面中针对每个候选片段还显示有“选择”控键50。用户触控所述“选择”控键50后,即该“选择”控键50对应的歌曲段落即为被选中的第一音频。
当第一音频的音频时长与动图图像的图像时长不等时,自动对第一音频进行时长缩放处理得到第二音频。将第二音频与动图图像绑定,得到有声动图;并进入图9所示的界面。
在图9所示的界面中,显示有“播放”控键80。用户点击该“播放”控键80后,即可在该界面中看到有声动图的最终播放效果。
在图9所示的界面中,还显示有“分享”控键90。用户点击该“分享”控键90后,即可看到为用户提供的多种社交分享渠道(即多种社交应用)(图中未示出)。用户从中选定一种社交分享渠道后,客户端即将有声动图上传至对应的服务端,以便其他用户通过网络在相应的社交分享渠道中获取并看到该有声动图。
这里需要说明的是:本申请各实施例提供的技术方案中提及的动图图像不限于GIF格式图片。
图10示出了本申请一实施例提供的数据处理方法的流程示意图。如图10所示,所述方法包括:
S01、获取动图图像的图像时长。
S02、根据所述图像时长,检索到音频时长满足预设条件的第一音频。
S03、根据所述图像时长,对所述第一音频进行时长缩放处理,得到音频时长满足设定要求的第二音频。
S04、根据所述动图图像及所述第二音频,生成结果数据。
上述S01中,动图图像的图像时长可从动图图像对应的图像信息中获取到。
上述S02中,所述预设条件可包括:所述图像时长和所述第一音频的音频时长之差小于第一预设阈值。其中,第一预设阈值可以是一个经验值,本申请实施例对此不作具体限定。具体实施时,可从网络侧或本地检索第一音频。
上述S302中,所述设定要求包括:所述图像时长和所述第二音频的音频时长之差小于第二预设阈值。同样的,所述第二预设阈值可以是一个经验值,本申请实施例对此不作具体限定。具体实施时,所述第二预设阈值可小于所述第一预设阈值。
有关上述S03和S04可参见上述各实施例中的相关内容,此处不再赘述。
本申请实施例提供的技术方案中,为动图图像检索第一音频,并对第一音频进行时长缩放处理使得音频时长满足设定要求,再根据动图图像及处理后得到第二音频生成结果数据,即有声动图;提高了动图图像的趣味性,另外,通过对第一音频进行时长缩放处理而非现有技术中的简单切断,保证了第一音频的完整性,用户体验好。
进一步的,为了提高第一音频与动图图像的匹配度,上述步骤S02中根据所述图像时长,检索到音频时长满足预设条件的第一音频,可具体采用如下方法实现,及包括如下步骤:
S021、获取与所述动图图像相关的关键词。
S022、结合所述图像时长及所述关键词,检索音频时长满足所述预设条件,且与所述关键词匹配的所述第一音频。
有关上述步骤S021和S022的具体实现可参见上述各实施例中的相应内容,此处不再赘述。
图11示出了本申请一实施例提供的有声动图生成装置的结构示意图。如图所示,所述有声动图生成装置包括:第一获取模块601、第一处理模块602和第一生成模块603。其中,第一获取模块601用于获取为动图图像配置的第一音频;第一处理模块602用于所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;第一生成模块603用于根据所述动图图像及所述第二音频,生成有声动图。
本申请实施例提供的技术方案中,为动图图像配置第一音频,并在第一音频的音频时长与动图图像的图像时长不等时,对第一音频进行时长缩放处理使得音频时长等于图像时长,再根据动图图像及处理后得到第二音频生成有声动图;提高了动图图像的趣味性,另外,通过对第一音频进行时长缩放处理而非现有技术中的简单切断,保证了第一音频的完整性,用户体验好。
进一步的,所述第一获取模块601还用于:获取与所述动图图像相关的关键词;从网络侧或本地,获取与所述关键词匹配的至少一个音频;将所述至少一个音频中的一个作为所述第一音频。
进一步的,所述第一获取模块601还用于:分别对构成所述动图图像的多幅图像信息进行语义识别,以得到各幅图像信息的语义特征;根据所述各幅图像信息的语义特征,确定所述关键词。
所述第一获取模块601还用于:获取用户针对所述动图图像输入的文案信息;根据所述文案信息,确定所述关键词。
进一步的,所述第一获取模块601还用于:从网络侧或本地,获取含有所述关键词或所述关键词的近义词的至少一段歌词;分别获取所述至少一段歌词中各段歌词对应的歌曲片段。
进一步的,所述第一获取模块601还用于:从网络侧或本地,获取所述第一段歌词对应的歌曲音频;从所述歌曲音频中,节选出歌曲片段。
进一步的,所述第一获取模块601还用于:响应于用户针对所述歌曲音频的节选操作,获取用户节选出的歌曲片段。
进一步的,所述第一获取模块601还用于:根据所述歌曲音频对应的歌词文件,确定所述第一段歌词的起始时间和终止时间;从所述歌曲音频中,节选出所述起始时间至所述终止时间内的歌曲片段。
进一步的,所述第一获取模块601还用于:根据所述图像时长,调整所述起始时间和/或所述终止时间,以使所述起始时间至所述终止时间的时长与所述图像时长的时差满足预设条件。
进一步的,所述第一获取模块601还用于:结合所述歌曲音频对应的歌词文件判定所述起始时间至所述终止时间内的歌曲片段包含不完整句式的歌词时,继续调整所述起始时间和/或所述终止时间,直至所述起始时间至所述终止时间的时长与所述图像时长的时差满足预设条件,且所述起始时间至所述终止时间内的歌曲片段包含完整句式的歌词。
进一步的,所述第一音频为歌曲音频或歌曲片段。本申请实施例提供的有声动图生成装置还可包括第一添加模块。其中,所述第一获取模块还用于:获取所述第一音频对应的歌词;第一添加模块,用于将所述歌词添加至所述有声动图,以在有声动图上同步展示所述歌词。
进一步的,所述第一获取模块601还用于从网络侧或本地,获取包含有所述关键词或所述关键词的近义词的音频名称的至少一个音频。
进一步的,所述第一获取模块601还用于:将所述至少一个音频中音频时长与所述图像时长的时差最小的一个作为所述第一音频;或者响应于用户针对所述至少一个音频的选择事件,将所述选择事件指向的一个音频作为所述第一音频。
进一步的,所述第一处理模块,还用于采用音频变速算法,对所述第一音频进行时长缩放处理。
这里需要说明的是:上述实施例提供的有声动图生成装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图12示出了本申请另一实施例提供有声动图生成装置的结构示意图。如图所示,所述有声动图生成装置包括:第一接收模块701、确定模块702、第二处理模块703和上传模块704。其中,第一接收模块701用于接收服务端反馈的与动图图像匹配的至少一个音频;确定模块702用于将所述至少一个音频中的一个作为所述第一音频;第二处理模块703用于所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;上传模块704用于将根据所述动图图像及所述第二音频生成的有声动图上传至所述服务端。
本申请实施例提供的技术方案中,为动图图像配置第一音频,并在第一音频的音频时长与动图图像的图像时长不等时,对第一音频进行时长缩放处理使得音频时长等于图像时长,再根据动图图像及处理后得到第二音频生成有声动图;提高了动图图像的趣味性,另外,通过对第一音频进行时长缩放处理而非现有技术中的简单切断,保证了第一音频的完整性,用户体验好。
进一步的,本申请实施例提供的有声动图生成装置还包括第一发送模块。所述第一发送模块用于响应于用户针对所述动图图像输入的文案信息,将所述文案信息发送至所述服务端,以由所述服务端根据所述文案信息获取并反馈所述至少一个音频。
进一步的,所述上传模块704还用于将所述动图图像上传至所述服务端,以由所述服务端根据构成所述动图图像的多幅图像信息的语义特征获取所述至少一个音频。
进一步的,本申请实施例提供的所述有声动图生成装置还包括:更新模块。该更新模块用于响应于用户针对所述第一音频的节选操作,将所述第一音频更新为所述用户节选出的片段。
进一步的,所述第二处理模块703还用于采用音频变速算法,对所述第一音频进行时长缩放处理。
进一步的,所述第一音频为歌曲音频或歌曲片段。相应的,本申请实施例提供的所述有声动图生成装置还包括:第二获取模块和第二添加模块。其中,第二获取模块还用于获取所述第一音频对应的歌词;所述第二添加模块还用于将所述歌词添加至所述有声动图,以在有声动图上同步展示所述歌词。
这里需要说明的是:上述实施例提供的有声动图生成装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图13示出了本申请一实施例提供的有声动图生成装置的结构示意图。如图12所示,本申请实施例提供的所述装置包括:第二接收模块801、第三获取模块802及反馈模块803。其中,第二接收模块801用于接收客户端针对动图图像发送的音频获取请求;第三获取模块802用于根据所述音频获取请求中携带的与所述动图图像有关的信息,获取与所述动图图像匹配的至少一个音频;反馈模块803用于将所述至少一个音频反馈至所述客户端,以由所述客户端根据所述至少一个音频及所述动图图像生成有声动图。
本申请实施例提供的技术方案中,为动图图像配置第一音频,并在第一音频的音频时长与动图图像的图像时长不等时,对第一音频进行时长缩放处理使得音频时长等于图像时长,再根据动图图像及处理后得到第二音频生成有声动图;提高了动图图像的趣味性,另外,通过对第一音频进行时长缩放处理而非现有技术中的简单切断,保证了第一音频的完整性,用户体验好。
进一步的,与所述动图图像有关的信息为用户输入的文案信息或构成所述动图图像的多幅图像信息。
进一步的,所述第三获取模块802还用于:根据与所述动图图像有关的信息,确定关键词;获取与所述关键词匹配的至少一个音频。
进一步的,所述第三获取模块802还用于:与所述动图图像有关的信息为用户输入的文案信息时,根据所述文案信息确定所述关键词;与所述动图图像有关的信息为构成所述动图图像的多幅图像信息时,分别对所述多幅图像信息进行语义识别以得到各幅图像信息的语义特征;根据所述各幅图像信息的语义特征,确定所述关键词。
进一步的,所述第三获取模块802还用于:获取含有所述关键词或所述关键词的近义词的至少一段歌词;分别获取所述至少一段歌词中各段歌词对应的歌曲片段。
进一步的,所述第三获取模块802还用于:获取所述第一段歌词对应的歌曲音频;从所述歌曲音频中,节选出歌曲片段。
进一步的,所述第三获取模块802还用于:根据所述歌曲音频对应的歌词文件,确定所述第一段歌词的起始时间和终止时间;从所述歌曲音频中,节选出所述起始时间至所述终止时间内的歌曲片段。
进一步的,所述第三获取模块802还用于:根据所述图像时长,调整所述起始时间和/或所述终止时间,以使所述起始时间至所述终止时间的时长与所述图像时长的时差满足预设条件。
进一步的,所述第三获取模块802还用于:结合所述歌曲音频对应的歌词文件判定所述起始时间至所述终止时间内的歌曲片段包含不完整句式的歌词时,继续调整所述起始时间和/或所述终止时间,直至所述起始时间至所述终止时间的时长与所述图像时长的时差满足预设条件,且所述起始时间至所述终止时间内的歌曲片段包含完整句式的歌词。
进一步的,所述第三获取模块802还用于:获取包含有所述关键词或所述关键词的近义词的音频名称的至少一个音频。
这里需要说明的是:上述实施例提供的有声动图生成装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图14示出了本申请一实施例提供的有声动图播放装置的结构示意图。如图所示,所述有声动图播放装置包括:显示模块901及播放模块902。其中,显示模块901用于显示用户添加的动图图像;响应于用户触发的音频获取事件,显示至少一个音频对应的页面元素;播放模块902用于响应于用户从所述至少一个音频中选出第一音频的选择操作,所述第一音频的音频时长与所述动图图像的图像时长不等时,播放根据所述动图图像及对所述第一音频进行时长缩放处理后得到的第二音频生成的有声动图。
本申请实施例提供的技术方案中,为动图图像配置第一音频,并在第一音频的音频时长与动图图像的图像时长不等时,对第一音频进行时长缩放处理使得音频时长等于图像时长,再根据动图图像及处理后得到第二音频生成有声动图;提高了动图图像的趣味性,另外,通过对第一音频进行时长缩放处理而非现有技术中的简单切断,保证了第一音频的完整性,用户体验好。
进一步的,本申请实施例提供的所述有声动图播放装置还可包括:触发模块。其中,显示模块还用于显示文案输入区;所述触发模块用于监听到用户在所述文案输入区输入文案信息后,触发所述音频获取事件。
再进一步的,本申请实施例提供的所述有声动图播放装置还可包括:第二发送模块。其中,第二发送模块用于向服务端发送的文案信息,以由所述服务端反馈与所述文案信息匹配的所述至少一个音频。
进一步的,所述显示模块901还用于显示音频获取控键;所述触发模块还用于监听到用户触控所述音频获取控键的触发操作后,触发所述音频获取事件。
再进一步的,所述第二发送模块还用于:向服务端发送构成所述动图图像的多幅图像信息,以由服务端根据构成所述动图图像的多幅图像信息的语义特征获取并反馈所述至少一个音频。
进一步的,所述显示模块901还用于在所述动图图像上或所述动图图像周围显示图像时长。
进一步的,所述显示模块901还用于在所述动图图像上或所述动图图像周围显示更换控键;响应于用户触控所述更换控键的操作,显示包含有至少一个候选动图图像的动图图像更换界面。
进一步的,所述显示模块901还用于显示至少一个音频中各音频的音频名称;和/或显示至少一个音频中各音频对应的歌词;和/或显示至少一个音频中各音频对应的来源信息;和/或显示至少一个音频中各音频对应的创作者信息;和/或显示至少一个音频中各音频的音频时长。
进一步的,所述显示模块901还用于显示试听所述至少一个音频中各音频的试听控键;响应于用户触控所述至少一个音频中第一音频对应的试听控键的操作,播放所述第一音频。
进一步的,所述第一音频为歌曲音频或者歌曲片段。相应的本申请实施来提供的所述有声动图播放装置还包括:第四获取模块及第三添加模块。其中,第四获取模块用于获取所述第一音频对应的歌词;第三添加模块用于将所述歌词添加至所述有声动图;所述显示模块还用于在所述有声动图上显示所述歌词。
进一步的,所述显示模块901还用于逐个突出显示所述歌词的各单词。
这里需要说明的是:上述实施例提供的有声动图播放装置可实现上述有声动图播放方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图15为本申请一实施例提供的数据处理装置的结构示意图。如图15所述,所述数据处理装置包括:第一获取模块1001、检索模块1002、第三处理模块1003及第二生成模块1004。其中,所述第一获取模块1001用于获取动图图像的图像时长;所述检索模块1002用于根据所述图像时长,检索到音频时长满足预设条件的第一音频;所述第三处理模块1003用于根据所述图像时长,对所述第一音频进行时长缩放处理,得到音频时长满足设定要求的第二音频;所述第二生成模块1004用于根据所述动图图像及所述第二音频,生成结果数据。
进一步的,所述预设条件包括:所述图像时长和所述第一音频的音频时长之差小于第一预设阈值。所述设定要求包括:所述图像时长和所述第二音频的音频时长之差小于第二预设阈值。
进一步的,所述检索模块1002还用于获取与所述动图图像相关的关键词;结合所述图像时长及所述关键词,检索音频时长满足所述预设条件,且与所述关键词匹配的所述第一音频。
这里需要说明的是:上述实施例提供的有数据处理装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图16为本申请一实施例提供的电子设备的结构示意图。该电子设备包括:第一存储器1101以及第一处理器1102。第一存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。第一存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述第一处理器1102,与所述第一存储器1101耦合,用于执行所述第一存储器1101中存储的所述程序,以用于:
获取为动图图像配置的第一音频;
所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频,生成有声动图。
其中,第一处理器1102在执行第一存储器1101中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图16所示,电子设备还包括:第一通信组件1103、第一显示器1104、第一电源组件1105、第一音频组件1106等其它组件。图16中仅示意性给出部分组件,并不意味着电子设备只包括图16所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的有声动图生成方法步骤或功能。
图17示出了本申请一实施例提供的电子设备的结构示意图。如图所示,所述电子设备包括第二存储器1201以及第二处理器1202。第二存储器1201可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。第二存储器1201可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述第二处理器1202,与所述第二存储器1201耦合,用于执行所述第二存储器1201中存储的所述程序,以用于:
获取动图图像的图像时长;
根据所述图像时长,检索到音频时长满足预设条件的第一音频;
根据所述图像时长,对所述第一音频进行时长缩放处理,得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频,生成结果数据。
其中,第二处理器1202在执行第二存储器1201中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图17所示,电子设备还包括:第二通信组件1203、第二显示器1204、第二电源组件205、第二音频组件1206等其它组件。图17中仅示意性给出部分组件,并不意味着电子设备只包括图17所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的数据处理方法步骤或功能。
图18示出了本申请一实施例提供的客户端设备的结构示意图。该客户端设备包括第三存储器1301、第三处理器1302及第三通信组件1303。其中,第三存储器1301可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。第三存储器1301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述第三通信组件1303,与所述第三处理器1302连接,用于接收服务端反馈的与动图图像匹配的至少一个音频;
所述第三处理器1302,与所述第三存储器1301耦合,用于执行所述第三存储器1301中存储的所述程序,以用于:
将所述至少一个音频中的一个作为所述第一音频;
所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频生成的有声动图;
所述第三通信组件,还用于将所述有声动图上传至所述服务端。
其中,第三处理器1302在执行第三存储器1301中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图18所示,客户端设备还包括:第三显示器1304、第三电源组件1305、第三音频组件1306等其它组件。图18中仅示意性给出部分组件,并不意味着客户端设备只包括图18所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的有声动图生成方法步骤或功能。
图19示出了本申请一实施例提供的服务端设备的结构示意图。如图19所示,所述服务端设备包括:第四存储器1401、第四处理器1402及第四通信组件1403。其中,所述第四存储器1401用于存储程序。第四存储器1401可被配置为存储其它各种数据以支持在服务端设备上的操作。这些数据的示例包括用于在服务端设备上操作的任何应用程序或方法的指令。第四存储器1401可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述第四通信组件1403,与所述第四处理器1402连接,用于接收客户端针对动图图像发送的音频获取请求;
所述第四处理器1402,与所述第四存储器1401耦合,用于执行所述第四存储器1401中存储的所述程序,以用于:
根据所述音频获取请求中携带的与所述动图图像有关的信息,获取与所述动图图像匹配的至少一个音频;
所述第四通信组件1403,还用于将所述至少一个音频反馈至所述客户端,以由所述客户端根据所述至少一个音频及所述动图图像生成有声动图。
其中,第四处理器1402在执行第四存储器1401中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图19所示,服务端设备还包括:第四显示器1204、第四电源组件1205、第四音频组件1206等其它组件。图19中仅示意性给出部分组件,并不意味着服务端设备只包括图19所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的有声动图生成方法步骤或功能。
图20示出了本申请一实施例提供的移动终端的结构示意图。如图20所示,所述移动终端包括:第五存储器1501、第五处理器1502及第五显示器1504。其中,所述第五存储器1501用于存储程序。第五存储器1501可被配置为存储其它各种数据以支持在客户端设备上的操作。这些数据的示例包括用于在客户端设备上操作的任何应用程序或方法的指令。第五存储器1501可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述第五显示器1504,与所述第五处理器1502耦合,用于显示用户添加的动图图像;
所述第五处理器1502,与所述第五存储器1501耦合,用于执行所述第五存储器1501中存储的所述程序,以用于:
响应于用户触发的音频获取事件,控制所述第五显示器显示至少一个音频对应的页面元素;
响应于用户从所述至少一个音频中选出第一音频的选择操作,所述第一音频的音频时长与所述动图图像的图像时长不等时,控制所述第五显示器1504播放根据所述动图图像及对所述第一音频进行时长缩放处理后得到的第二音频生成的有声动图。
其中,第五处理器1502在执行第五存储器1501中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图20所示,移动终端还包括:第五电源组件1505、第五音频组件1506等其它组件。图20中仅示意性给出部分组件,并不意味着移动终端只包括图20所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的有声动图播放方法步骤或功能。
移动终端可以以各种形式来实施。例如,本申请中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA( 个人数字助理)、PAD( 平板电脑)、PMP( 便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV 、台式计算机等等的固定终端。
在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (52)

1.一种有声动图生成方法,其特征在于,包括:
基于动图图像对应的语义特征或基于用户输入的文案信息,确定关键词;
获取为动图图像配置的第一音频;其中,第一音频与所述关键词匹配;
所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频,生成有声动图。
2.根据权利要求1所述的方法,其特征在于在,获取为动图图像配置的第一音频,包括:
从网络侧或本地,获取与所述关键词匹配的至少一个音频;
将所述至少一个音频中的一个作为所述第一音频。
3.根据权利要求1所述的方法,其特征在于,基于动图图像对应的语义特征,确定关键词,包括:
分别对构成所述动图图像的多幅图像信息进行语义识别,以得到各幅图像信息的语义特征;
根据所述各幅图像信息的语义特征,确定所述关键词。
4.根据权利要求1所述的方法,其特征在于,基于用户输入的文案信息,确定关键词,包括:
获取用户针对所述动图图像输入的文案信息;
根据所述文案信息,确定所述关键词。
5.根据权利要求2所述的方法,其特征在于,从网络侧或本地,获取与所述关键词匹配的至少一个音频,包括:
从网络侧或本地,获取含有所述关键词或所述关键词的近义词的至少一段歌词;
分别获取所述至少一段歌词中各段歌词对应的歌曲片段。
6.根据权利要求5所述的方法,其特征在于,获取所述至少一段歌词中的第一段歌词对应的歌曲片段,包括:
从网络侧或本地,获取所述第一段歌词对应的歌曲音频;
从所述歌曲音频中,节选出歌曲片段。
7.根据权利要求6所述的方法,其特征在于,从所述歌曲音频中,节选出歌曲片段,包括:
响应于用户针对所述歌曲音频的节选操作,获取用户节选出的歌曲片段。
8.根据权利要求6所述的方法,其特征在于,从所述歌曲音频中,节选出歌曲片段,包括:
根据所述歌曲音频对应的歌词文件,确定所述第一段歌词的起始时间和终止时间;
从所述歌曲音频中,节选出所述起始时间至所述终止时间内的歌曲片段。
9.根据权利要求8所述的方法,其特征在于,从所述歌曲音频中,节选出歌曲片段,还包括:
根据所述图像时长,调整所述起始时间和/或所述终止时间,以使所述起始时间至所述终止时间的时长满足预设条件。
10.根据权利要求9所述的方法,其特征在于,所述预设条件包括:所述起始时间至所述终止时间的时长与所述图像时长之差小于第一预设阈值。
11.根据权利要求9所述的方法,其特征在于,从所述歌曲音频中,节选出歌曲片段,还包括:
结合所述歌曲音频对应的歌词文件判定所述起始时间至所述终止时间内的歌曲片段包含不完整句式的歌词时,继续调整所述起始时间和/或所述终止时间,直至所述起始时间至所述终止时间的时长与所述图像时长的时差满足预设条件,且所述起始时间至所述终止时间内的歌曲片段包含完整句式的歌词。
12.根据权利要求1至4中任一项所述的方法,其特征在于,所述设定要求包括:
所述音频时长与所述图像时长之差小于或等于第二预设阈值。
13.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一音频为歌曲音频或歌曲片段;以及
所述方法,还包括:
获取所述第一音频对应的歌词;
将所述歌词添加至所述有声动图,以在有声动图上同步展示所述歌词。
14.根据权利要求2至4中任一项所述的方法,其特征在于,从网络侧或本地,获取与所述关键词匹配的至少一个音频,包括:
从网络侧或本地,获取包含有所述关键词或所述关键词的近义词的音频名称的至少一个音频。
15.根据权利要求2所述的方法,其特征在于,将所述至少一个音频中的一个作为所述第一音频,包括:
将所述至少一个音频中音频时长与所述图像时长的时差最小的一个作为所述第一音频;或者
响应于用户针对所述至少一个音频的选择事件,将所述选择事件指向的一个音频作为所述第一音频。
16.根据权利要求1至4中任一项所述的方法,其特征在于,对所述第一音频进行时长缩放处理,包括:
采用音频变速算法,对所述第一音频进行时长缩放处理。
17.一种数据处理方法,其特征在于,包括:
基于动图图像对应的语义特征或基于用户输入的文案信息,确定关键词;
获取所述动图图像的图像时长;
根据所述图像时长,检索音频时长满足预设条件的第一音频;其中,所述第一音频与所述关键词匹配;
根据所述图像时长,对所述第一音频进行时长缩放处理,得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频,生成结果数据。
18.根据权利要求17所述的方法,其特征在于,所述预设条件包括:所述图像时长和所述第一音频的音频时长之差小于第一预设阈值。
19.根据权利要求17所述的方法,其特征在于,所述设定要求包括:所述图像时长和所述第二音频的音频时长之差小于第二预设阈值。
20.根据权利要求17至18中任一项所述的方法,其特征在于,根据所述图像时长,检索音频时长满足预设条件的第一音频,包括:
结合所述图像时长及所述关键词,检索音频时长满足所述预设条件,且与所述关键词匹配的所述第一音频。
21.一种有声动图生成方法,适于客户端,其特征在于,包括:
接收服务端反馈的与动图图像匹配的至少一个音频;其中,至少一个音频是所述服务端获取到的与关键词匹配的音频,所述关键词是基于动图图像对应的语义特征或基于用户输入的文案信息确定的;
将所述至少一个音频中的一个作为第一音频;
所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;
将根据所述动图图像及所述第二音频生成的有声动图上传至所述服务端。
22.根据权利要求21所述的方法,其特征在于,还包括:
响应于用户针对所述动图图像输入的文案信息,将所述文案信息发送至所述服务端,以由所述服务端根据所述文案信息获取并反馈所述至少一个音频。
23.根据权利要求21所述的方法,其特征在于,还包括:
将所述动图图像上传至所述服务端,以由所述服务端根据构成所述动图图像的多幅图像信息的语义特征获取所述至少一个音频。
24.根据权利要求21至23中任一项所述的方法,其特征在于,还包括:
响应于用户针对所述第一音频的节选操作,将所述第一音频更新为所述用户节选出的片段。
25.根据权利要求21至23中任一项所述的方法,其特征在于,对所述第一音频进行时长缩放处理,包括:
采用音频变速算法,对所述第一音频进行时长缩放处理。
26.根据权利要求21至23中任一项所述的方法,其特征在于,所述第一音频为歌曲音频或歌曲片段;以及
所述方法,还包括:
获取所述第一音频对应的歌词;
将所述歌词添加至所述有声动图,以在有声动图上同步展示所述歌词。
27.根据权利要求21至23中任一项所述的方法,其特征在于,所述设定要求包括:
所述音频时长与所述图像时长之差小于或等于第二预设阈值。
28.一种有声动图生成方法,适于服务端,其特征在于,包括:
接收客户端针对动图图像发送的音频获取请求;
根据所述音频获取请求中携带的与所述动图图像有关的信息,确定所述动图图像对应的语义特征或用户输入的文案信息;
基于所述语义特征或所述文案信息,确定关键词;
获取与所述关键词匹配的至少一个音频;
将所述至少一个音频反馈至所述客户端,以由所述客户端根据所述至少一个音频及所述动图图像执行如下步骤:将所述至少一个音频中的一个音频作为第一音频;所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;根据所述动图图像及所述第二音频,生成有声动图。
29.根据权利要求28所述的方法,其特征在于,与所述动图图像有关的信息为用户输入的文案信息或构成所述动图图像的多幅图像信息。
30.根据权利要求29所述的方法,其特征在于,与所述动图图像有关的信息为构成所述动图图像的多幅图像信息时,
根据所述音频获取请求中携带的与所述动图图像有关的信息,确定所述动图图像对应的语义特征,包括:
分别对所述多幅图像信息进行语义识别以得到各幅图像信息的语义特征;
以及,根据所述语义特征,确定所述关键词,包括:
根据所述各幅图像信息的语义特征,确定所述关键词。
31.根据权利要求28至30中任一项所述的方法,其特征在于,获取与所述关键词匹配的至少一个音频,包括:
获取含有所述关键词或所述关键词的近义词的至少一段歌词;
分别获取所述至少一段歌词中各段歌词对应的歌曲片段。
32.根据权利要求31所述的方法,其特征在于,获取所述至少一段歌词中的第一段歌词对应的歌曲片段,包括:
获取所述第一段歌词对应的歌曲音频;
从所述歌曲音频中,节选出歌曲片段。
33.根据权利要求32所述的方法,其特征在于,从所述歌曲音频中,节选出歌曲片段,包括:
根据所述歌曲音频对应的歌词文件,确定所述第一段歌词的起始时间和终止时间;
从所述歌曲音频中,节选出所述起始时间至所述终止时间内的歌曲片段。
34.根据权利要求33所述的方法,其特征在于,从所述歌曲音频中,节选出歌曲片段,还包括:
根据所述图像时长,调整所述起始时间和/或所述终止时间,以使所述起始时间至所述终止时间的时长与所述图像时长满足预设条件。
35.根据权利要求34所述的方法,其特征在于,从所述歌曲音频中,节选出歌曲片段,还包括:
结合所述歌曲音频对应的歌词文件判定所述起始时间至所述终止时间内的歌曲片段包含不完整句式的歌词时,继续调整所述起始时间和/或所述终止时间,直至所述起始时间至所述终止时间的时长与所述图像时长的时差满足预设条件,且所述起始时间至所述终止时间内的歌曲片段包含完整句式的歌词。
36.根据权利要求28至30中任一项所述的方法,其特征在于,获取与所述关键词匹配的至少一个音频,包括:
获取包含有所述关键词或所述关键词的近义词的音频名称的至少一个音频。
37.一种有声动图生成系统,其特征在于,包括:
客户端,用于接收服务端反馈的与动图图像匹配的至少一个音频;将所述至少一个音频中的一个作为第一音频;所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;将根据所述动图图像及所述第二音频生成的有声动图上传至所述服务端;
服务端,用于接收客户端针对动图图像发送的音频获取请求;根据所述音频获取请求中携带的与所述动图图像有关的信息,确定所述动图图像对应的语义特征或用户输入的文案信息;基于所述语义特征或所述文案信息,确定关键词;获取与所述关键词匹配的至少一个音频;将所述至少一个音频反馈至所述客户端。
38.一种有声动图播放方法,其特征在于,包括:
显示用户添加的动图图像;
接收服务端反馈的与动图图像匹配的至少一个音频;其中,所述至少一个音频是所述服务端获取到的与关键词匹配的音频,所述关键词是基于动图图像对应的语义特征或基于用户输入的文案信息确定的;
响应于用户触发的音频获取事件,显示至少一个音频对应的页面元素;
响应于用户从所述至少一个音频中选出第一音频的选择操作,所述第一音频的音频时长与所述动图图像的图像时长不等时,播放根据所述动图图像及对所述第一音频进行时长缩放处理后得到的第二音频生成的有声动图。
39.根据权利要求38所述的方法,其特征在于,还包括:
显示文案输入区;
监听到用户在所述文案输入区输入文案信息后,触发所述音频获取事件。
40.根据权利要求39所述的方法,其特征在于,还包括:
向服务端发送的文案信息,以由所述服务端反馈与所述文案信息匹配的所述至少一个音频。
41.根据权利要求38所述的方法,其特征在于,还包括:
显示音频获取控键;
监听到用户触控所述音频获取控键的触发操作后,触发所述音频获取事件。
42.根据权利要求41所述的方法,其特征在于,还包括:
向服务端发送构成所述动图图像的多幅图像信息,以由服务端根据构成所述动图图像的多幅图像信息的语义特征获取并反馈所述至少一个音频。
43.根据权利要求38至42中任一项所述的方法,其特征在于,还包括:
在所述动图图像上或所述动图图像周围显示图像时长。
44.根据权利要求38至42中任一项所述的方法,其特征在于,还包括:
在所述动图图像上或所述动图图像周围显示更换控键;
响应于用户触控所述更换控键的操作,显示包含有至少一个候选动图图像的动图图像更换界面。
45.根据权利要求38至42中任一项所述的方法,其特征在于,所述显示至少一个音频对应的页面元素,包括:
显示至少一个音频中各音频的音频名称;和/或
显示至少一个音频中各音频对应的歌词;和/或
显示至少一个音频中各音频对应的来源信息;和/或
显示至少一个音频中各音频对应的创作者信息;和/或
显示至少一个音频中各音频的音频时长。
46.根据权利要求38至42中任一项所述的方法,其特征在于,还包括:
显示试听所述至少一个音频中各音频的试听控键;
响应于用户触控所述至少一个音频中第一音频对应的试听控键的操作,播放所述第一音频。
47.根据权利要求38至42中任一项所述的方法,其特征在于,所述第一音频为歌曲音频或者歌曲片段;以及
所述方法,还包括;
获取所述第一音频对应的歌词;
将所述歌词添加至所述有声动图;
在所述有声动图上显示所述歌词。
48.一种电子设备,其特征在于,包括:第一存储器以及第一处理器;
所述第一存储器,用于存储程序;
所述第一处理器,与所述第一存储器耦合,用于执行所述第一存储器中存储的所述程序,以用于:
基于动图图像对应的语义特征或基于用户输入的文案信息,确定关键词;
获取为动图图像配置的第一音频;其中,第一音频与所述关键词匹配;
所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频,生成有声动图。
49.一种电子设备,其特征在于,包括:第二存储器以及第二处理器;
所述第二存储器,用于存储程序;
所述第二处理器,与所述第二存储器耦合,用于执行所述第二存储器中存储的所述程序,以用于:
基于动图图像对应的语义特征或基于用户输入的文案信息,确定关键词;
获取动图图像的图像时长;
根据所述图像时长,检索音频时长满足预设条件的第一音频;其中,所述第一音频与所述关键词匹配;
根据所述图像时长,对所述第一音频进行时长缩放处理,得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频,生成结果数据。
50.一种客户端设备,其特征在于,包括:第三存储器、第三处理器及第三通信组件;其中,
所述第三存储器,用于存储程序;
所述第三通信组件,与所述第三处理器连接,用于接收服务端反馈的与动图图像匹配的至少一个音频;其中,至少一个音频是所述服务端获取到的与关键词匹配的音频,所述关键词是基于动图图像对应的语义特征或基于用户输入的文案信息确定的;
所述第三处理器,与所述第三存储器耦合,用于执行所述第三存储器中存储的所述程序,以用于:
将所述至少一个音频中的一个作为第一音频;
所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;
根据所述动图图像及所述第二音频生成的有声动图;
所述第三通信组件,还用于将所述有声动图上传至所述服务端。
51.一种服务端设备,其特征在于,包括:第四存储器、第四处理器及第四通信组件;其中,
所述第四存储器,用于存储程序;
所述第四通信组件,与所述第四处理器连接,用于接收客户端针对动图图像发送的音频获取请求;
所述第四处理器,与所述第四存储器耦合,用于执行所述第四存储器中存储的所述程序,以用于:
根据所述音频获取请求中携带的与所述动图图像有关的信息,确定所述动图图像对应的语义特征或用户输入的文案信息;
基于所述语义特征或所述文案信息,确定关键词;
获取与所述关键词匹配的至少一个音频;
所述第四通信组件,还用于将所述至少一个音频反馈至所述客户端,以由所述客户端根据所述至少一个音频及所述动图图像执行如下步骤:将所述至少一个音频中的一个音频作为第一音频;所述第一音频的音频时长与所述动图图像的图像时长不等时,对所述第一音频进行时长缩放处理,以得到音频时长满足设定要求的第二音频;根据所述动图图像及所述第二音频,生成有声动图。
52.一种移动终端,其特征在于,包括:第五存储器、第五处理器及第五显示器;其中,
所述第五存储器,用于存储程序;
所述第五显示器,与所述第五处理器耦合,用于显示用户添加的动图图像;
所述第五处理器,与所述第五存储器耦合,用于执行所述第五存储器中存储的所述程序,以用于:
响应于用户触发的音频获取事件,控制所述第五显示器显示至少一个音频对应的页面元素;
接收服务端反馈的与动图图像匹配的至少一个音频;其中,所述至少一个音频是所述服务端获取到的与关键词匹配的音频,所述关键词是基于动图图像对应的语义特征或基于用户输入的文案信息确定的;
响应于用户从所述至少一个音频中选出第一音频的选择操作,所述第一音频的音频时长与所述动图图像的图像时长不等时,控制所述第五显示器播放根据所述动图图像及对所述第一音频进行时长缩放处理后得到的第二音频生成的有声动图。
CN201810631243.3A 2018-06-19 2018-06-19 有声动图生成、播放方法、数据处理方法、系统及设备 Active CN110619673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810631243.3A CN110619673B (zh) 2018-06-19 2018-06-19 有声动图生成、播放方法、数据处理方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810631243.3A CN110619673B (zh) 2018-06-19 2018-06-19 有声动图生成、播放方法、数据处理方法、系统及设备

Publications (2)

Publication Number Publication Date
CN110619673A CN110619673A (zh) 2019-12-27
CN110619673B true CN110619673B (zh) 2023-04-11

Family

ID=68920102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810631243.3A Active CN110619673B (zh) 2018-06-19 2018-06-19 有声动图生成、播放方法、数据处理方法、系统及设备

Country Status (1)

Country Link
CN (1) CN110619673B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111935537A (zh) * 2020-06-30 2020-11-13 百度在线网络技术(北京)有限公司 音乐短片视频生成方法、装置、电子设备和存储介质
CN112153307A (zh) 2020-08-28 2020-12-29 北京达佳互联信息技术有限公司 短视频中添加歌词的方法、装置、电子设备及存储介质
CN114063863B (zh) * 2021-11-29 2024-10-15 维沃移动通信有限公司 视频处理方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2096626A1 (en) * 2008-02-29 2009-09-02 Sony Corporation Method for visualizing audio data
CN103186578A (zh) * 2011-12-29 2013-07-03 方正国际软件(北京)有限公司 漫画有声效果的处理系统和处理方法
CN104065869A (zh) * 2013-03-18 2014-09-24 三星电子株式会社 在电子装置中与播放音频组合地显示图像的方法
CN104284219A (zh) * 2013-07-11 2015-01-14 Lg电子株式会社 移动终端和控制该移动终端的方法
CN105261054A (zh) * 2015-08-27 2016-01-20 努比亚技术有限公司 一种合成有声gif图片的装置和方法
CN107707828A (zh) * 2017-09-26 2018-02-16 维沃移动通信有限公司 一种视频处理方法及移动终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2096626A1 (en) * 2008-02-29 2009-09-02 Sony Corporation Method for visualizing audio data
CN103186578A (zh) * 2011-12-29 2013-07-03 方正国际软件(北京)有限公司 漫画有声效果的处理系统和处理方法
CN104065869A (zh) * 2013-03-18 2014-09-24 三星电子株式会社 在电子装置中与播放音频组合地显示图像的方法
CN104284219A (zh) * 2013-07-11 2015-01-14 Lg电子株式会社 移动终端和控制该移动终端的方法
CN105261054A (zh) * 2015-08-27 2016-01-20 努比亚技术有限公司 一种合成有声gif图片的装置和方法
CN107707828A (zh) * 2017-09-26 2018-02-16 维沃移动通信有限公司 一种视频处理方法及移动终端

Also Published As

Publication number Publication date
CN110619673A (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
CN107871500B (zh) 一种播放多媒体的方法和装置
US11669296B2 (en) Computerized systems and methods for hosting and dynamically generating and providing customized media and media experiences
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
US20160055245A1 (en) Systems and methods for providing information discovery and retrieval
US11043216B2 (en) Voice feedback for user interface of media playback device
US20080300872A1 (en) Scalable summaries of audio or visual content
US20220208155A1 (en) Systems and methods for transforming digital audio content
US9524751B2 (en) Semi-automatic generation of multimedia content
US9087508B1 (en) Presenting representative content portions during content navigation
JP2015517684A (ja) コンテンツのカスタマイズ
CN110619673B (zh) 有声动图生成、播放方法、数据处理方法、系统及设备
KR20080035617A (ko) 단일 액션 미디어 재생 리스트 생성
US12086503B2 (en) Audio segment recommendation
CN114501106A (zh) 一种文稿显示控制方法、装置、电子设备和存储介质
WO2019047850A1 (zh) 标识的显示方法和装置、请求的响应方法和装置
US9563704B1 (en) Methods, systems, and media for presenting suggestions of related media content
US20230022966A1 (en) Method and system for analyizing, classifying, and node-ranking content in audio tracks
US20240087547A1 (en) Systems and methods for transforming digital audio content
US20140122606A1 (en) Information processing device, information processing method, and program
US20220406280A1 (en) Information processing apparatus, information processing method, and information processing program
EP4295248A1 (en) Systems and methods for transforming digital audio content
US20200302933A1 (en) Generation of audio stories from text-based media
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
CN106095760A (zh) 语音互联网系统
WO2024097380A1 (en) Systems and methods for transforming digital audio content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant