CN104735468A

CN104735468A - 一种基于语义分析将图像合成新视频的方法及系统

Info

Publication number: CN104735468A
Application number: CN201510157995.7A
Authority: CN
Inventors: 李国祥
Original assignee: Beijing Wei Yang Science And Technology Ltd
Current assignee: Beijing Wei Yang Science And Technology Ltd
Priority date: 2015-04-03
Filing date: 2015-04-03
Publication date: 2015-06-24
Anticipated expiration: 2035-04-03
Also published as: CN104735468B

Abstract

本发明提供了一种基于语义分析将图像合成新视频的方法及系统，方法包括：客户端将预先获取的图像提交至服务器；服务器对客户端提交的图像进行语义分析；根据语义分析的结果，选择相应的视频合成模板，并使用所选择的视频合成模块对所述图像进行渲染，以合成新视频。本发明采用语义分析的视频合成方式，与现有技术中的视频软件的使用难度较高，导致用户进行视频合成的难度变高相比，其通过客户端将预先获取的图像提交至服务器，以使服务器能够获得进行视频编辑的基础文件，进而服务器对客户端所提交的图像进行语义分析，进而确定图像的主体内容，并且根据主体内容选择相应的视频合成模块对客户端所发出的图像进行渲染，从而自动合成了新视频。

Description

一种基于语义分析将图像合成新视频的方法及系统

技术领域

本发明涉及视频生成领域，具体而言，涉及一种基于语义分析将图像合成新视频的方法和系统。

背景技术

拍照、视频录制是日常生活中常见的两种拍摄方式，这两种拍摄方式所得到的产物都可以称为图像(拍照所得到的是某个画面照片，视频可以理解为是将大量的照片、图像帧合成为能够表现连贯动作的动画)。

在进行基础的拍照和视频录制之后，可以进一步通过PS、flash制作软件对图像进行编辑，以实现制作一个逻辑型更强或者能够展现作者需求的连续型动画。常见的如电影，通常是预先拍摄大量的分镜头，再通过后期的视频处理将大量的分镜头整合成一个完成的电影，从而完成电影的制作。

当然，这种电影的制作方式同样适用于某个用户个体。传统的用户制作视频的方式通常使用非线性影音编辑软件手工进行编辑，如使用绘声绘影等视频编辑软件将多个视频以时间点，或者以图像帧为参照进行删除、组合，还可以将拍摄得到的照片进行插入。

随着智能手机的普及，随着用户拍摄照片、视频数量的不断增加，进而将拍摄到的照片和视频整理成可讲述故事的视频的需求不断增加。但使用传统的如绘声绘影等视频制作软件进行视频整合的难度较高，集中体现在此类视频制作软件过于专业化，很多需要进行照片、视频整合的个人用户难以熟练的操作此类软件，并且由于个人用户期望编辑的照片和视频的数量较大，进一步拖缓了视频合成速度。

发明内容

本发明的目的在于提供一种基于语义分析将图像合成新视频的方法和装置，以降低用户进行视频合成的难度。

第一方面，本发明实施例提供了一种基于语义分析将图像合成新视频的方法，包括：

客户端将预先获取的图像提交至服务器；

服务器对客户端提交的图像进行语义分析；

根据语义分析的结果，选择相应的视频合成模板，并使用所选择的视频合成模板对图像进行渲染，以合成新视频。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，服务器对客户端提交的图像进行语义分析包括:

对图像进行语义分析，识别出图像的内容；

对识别出的图像内容进行提取，得到结构化信息；

将得到的结构化信息和结构化语法数据库进行对比，得出结构化信息的本体描述。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，选择相应的视频合成模板包括：

选择视频合成模板数据库中与本体描述相对应的视频合成模板，视频模板数据库存储有基于本体描述设计的视频合成模板。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，语义分析包括：

物体动作分析、镜头运动分析、视频稳定性分析、人脸识别分析、情景分析、人脸捕捉及索引、物体捕捉及跟踪、人物捕捉、语音捕捉、音定位分析、音乐分析以及故事话题分析。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，使用所选择的视频合成模块对图像进行渲染，以合成新视频包括：

根据对图像进行语义分析的结果进行故事编辑，将编辑好的故事合成音频；

根据选择的视频模板对获取到的图像和合成的音频进行渲染，以合成新视频。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，还包括：

将合成后的新视频以视频索引的形式发送至客户端。

第二方面，本发明实施例还提供了一种基于语义分析将图像合成新视频的系统，包括：

客户端模块，用于将预先获取的图像提交至服务器；

服务器端语义分析模块，用于对客户端提交的图像进行语义分析；

服务器端视频渲染合成模块，用于根据语义分析的结果，选择相应的视频合成模板，并使用所选择的视频合成模板对图像进行渲染，以合成新视频。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，服务器端语义分析模块包括：

图像识别单元，用于对图像进行语义分析，识别出图像的内容；

结构化信息获取单元，用于对识别出的图像内容进行提取，得到结构化信息；

本体描述获取单元，用于将得到的结构化信息和结构化语法数据库进行对比，得出结构化信息的本体描述。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，图像识别单元包括：

物体动作分析子单元、镜头运动分析子单元、视频稳定性分析子单元、人脸识别子单元、情景分析子单元、人物捕捉子单元、语音捕捉子单元、声音定位分析子单元、音乐分析子单元以及故事话题分析子单元。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，服务器端视频渲染合成模块包括：

故事编辑单元，用于根据语义分析模块的分析结果，进行故事编辑，并将编辑好的故事合成音频；

服务器端视频渲染合成单元，用于将选择的视频模板和合成的音频进行渲染，合成新视频。

本发明实施例提供的一种基于语义分析将图像合成新视频的方法，采用语义分析的视频合成方式，与现有技术中的视频软件的使用难度较高，导致用户进行视频合成的难度变高相比，其通过客户端将预先获取的图像提交至服务器，以使服务器能够获得进行视频编辑的基础文件，进而服务器对客户端所提交的图像进行语义分析，进而确定图像的主体内容，并且根据主体内容选择相应的视频合成模板对客户端所发出的图像进行渲染，从而自动合成了新视频。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的一种基于语义分析将图像合成新视频的方法流程图；

图2示出了本发明实施例所提供的一种基于语义分析将图像合成新视频的细节流程图

图3示出了本发明实施例所提供的一种基于语义分析将图像合成新视频的系统结构示意图。

主要元件符号说明：

S101-S103为基于语义分析将图像合成新视频的方法步骤；

S1021-S1023为基于语义分析将图像合成新视频的细节流程步骤；

10、客户端模块，20、服务器端语义分析模块，30、服务器端视频渲染合成模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，个人用户如果需要进行视频合成，则需要使用相应的视频合成软件来完成。但通常由于视频合成中存在较多的专业化内容，如帧图像的截取、编辑，需要使用专业代码来向专业编辑软件下达指令等等，这些过于专业化的内容都造成了用户上手困难，难以熟习视频编辑软件的各种功能，从而导致了某些视频编辑功能难以实现，和导致了用户进行图像编辑时间的加长。有鉴于此如图1所示，本申请实施例提供了一种基于语义分析将图像合成新视频的方法，包括如下步骤：

S101，客户端将预先获取的图像提交至服务器；

S102，服务器对客户端提交的图像进行语义分析；

S103，根据语义分析的结果，选择相应的视频合成模板，并使用所选择的视频合成模板对图像进行渲染，以合成新视频。

本发明实施例中，客户端可以是但不限于手机、电脑、电视、浏览器、内容性网站，上述客户端可安装特定软件，用户打开软件，即可将图像上传至服务器，其中浏览器可通过安装插件将图像上传至服务器，服务器接收到客户端提交的图像后，首先需要对图像进行语义分析，如图2所示，本发明实施例中步骤S102，服务器对客户端提交的图像进行语义分析，包括:

S1021：对图像进行语义分析，识别出图像的内容。

其中，对图像进行语义分析包括物体动作分析、镜头运动分析、视频稳定性分析、人脸识别分析、情景分析、人脸捕捉及索引、物体捕捉及跟踪、人物捕捉、语音捕捉、声音定位分析、音乐分析以及故事话题分析，上述分析可采用但不限于通过图像的底层视觉特征如颜色、纹理及形状等及其组合来提取相关语义描述，通过识别和推理找出图像中的具体目标对象及其相互之间的关系，然后给出语义表达，通过图像包含的对象、场景的含义和目标进行高层推理，得到相关的语义描述，进而识别出图像的内容。

S1022：对识别出的图像内容进行提取，得到结构化信息。

提取出图像的内容的结构化信息，结构化信息是指信息经过分析后可分解成多个互相关联的组成部分，各组成部分间有明确的层次结构，其使用和维护通过数据库进行管理，并有一定的操作规范，我们通常接触的，包括生产、业务、交易、客户信息等方面的记录都属于结构化信息。无法完全数字化的信息称为非结构化信息，如文档文件、图片、图纸资料、缩微胶片等。

S1023：将得到的结构化信息和结构化语法数据库进行对比，得到结构化信息的本体描述；

结构化语法库是将中英文关键词库映射到基于本体结构的语法表，形成具有逻辑推理功能的数据库，如SPARQL数据库，将结构化信息和结构化语法库进行对比，也就是和结构化语法库中的关键词对比，而每个关键词对应一个本体描述，由此得出结构化信息的本体描述。其中，关键词是数据库建立过程中预先选取的，每个关键词都对应一个本体，本体即Ontology，是共享概念模型的形式化规范说明，在人工智能界，最早给出Ontology定义的是Neches等人，他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”，例如酒的本体可以是红酒、白酒、法国酒、酒类杂志等等，而本体描述则是OWL，指的是web本体语言。

根据语义分析的结果，选择相应的视频模板，对选择的视频模板进行渲染，合成新视频；

其中，视频模板是预先建立的，是基于本体描述建立的视频模板数据库，视频模板数据库中每个视频模板对应一个本体描述，服务器对接收到的图像进行语义分析，得出图像的本体描述后，根据得到的本体描述从视频模板数据库中选择相应的视频模板，进一步地，服务器根据对图像语义分析结果进行故事的编辑，将编辑好的故事合成语音，将合成的语音和选择的模板进行混合渲染，合成新视频，在合成过程中，根据音频朗读语速来决定动画视频素材的出现时间点及时长。

基于本发明，用户在手机、平板电脑、电脑或电视上安装客户端应用软件，打开软件将照片、视频提交后，即可由系统自动生成可以讲述故事的视频；用户在各种浏览器安装浏览器插件后，在通过浏览器将照片、视频提交后，即可由系统自动生成可以讲述故事的视频；内容性网站可以在页面内嵌入一行javascript代码后，可以为用户提供浏览该网站时，即可由系统自动生成可以讲述故事的视频；开发者可通过系统提供的API第三方开发接口进行二次开发，为自己的用户提供将照片、视频提交后，即可由系统自动生成可以讲述故事的视频。

具体的，选择相应的视频合成模板包括：

在进行此步骤之前，需要系统内容先建立本体描述与视频模板的对应机制(可以是数据表中写入相关联或者相对应的本体描述和视频模板)。当服务器确定结构化信息的本体描述之后，便可以在数据表中查找相对应的视频模板编号，再根据调取到的视频模块编号选择相对应的视频模板。具体的，搜索视频模块编号的方式可以是二分搜索法，或者是哈希搜索法。其中，哈希搜索法是指预先将视频模块编号和本体描述预先换算成哈希值，再通过在数据表中记录相对应的哈希值，从而保证在进行数据检索的时候能根据哈希对比的方式来较快速的找到需要的视频模板。当然，为了进一步提高查找速度，还可以通过将数据表的主键设置为视频模板编码的方式来提高查找速度。

步骤S103，使用所选择的视频合成模块对图像进行渲染，以合成新视频，可以分为如下两个子步骤来执行：

服务器根据对图像进行语义分析的结果进行故事编辑，将编辑好的故事合成音频；

服务器根据选择的视频模板对获取到的图像合成的音频进行渲染，以合成新视频。

其中，第一个子步骤的目的是制备故事音频，如将编辑好的故事使用语音合成软件制作对应的音频内容(使用语音的方式朗读故事，以形成视频的背景音乐)。

视频渲染即是将合成视频的多种素材合并成一个完整视频的过程。本申请中主要是指将视频和音频融合成一个完整视频的过程。其中如何通过帧图像来合成完整视频已是现有技术，在此不再赘述。

具体的，本申请所提供的基于语义分析将图像合成新视频的方法还包括服务器将合成后的新视频以视频索引的形式发送至客户端。

也就是服务器在完成了视频合成之后，可以不将完整的视频内容直接提供给用户，而是将携带有视频内容的链接发送给客户端(如可以将视频所在的网页链接提供给客户端)。

客户端在对接收到的网页链接进行访问的时候，服务器可以通过服务器最大负载量来调整访问的数量，这中方式与服务器直接将新视频直接发送给用户端相比，能够优化资源配置，降低服务器发生宕机的概率(如可以通过负载均衡服务器来进行访问量的调节，从而避免服务器出现宕机的现象，也可以将访问的客户端引导至其他关联的链接或服务器上)。

需要说明的是，客户端在使用的时候，可以根据客户端的不同在客户端内加载/设置不同的模块来使本方法适用于不同的工作环境，具体如：

1，iPhone手机应用模块；

2，iPad平板电脑应用模块；

3，Android手机应用模块；

4，Android平板电脑应用模块；

5，电视机顶盒应用模块；

6，Windows平台软件应用模块；

7，Mac平台软件应用模块；

8，IE浏览器插件模块；

9，Chrome浏览器插件模块；

10，Firefox浏览器插件模块；

11，Wordpress插件模块；

12，Drupal插件模块；

13，Joomla插件模块；

14，Mediawiki插件模块；

15，Discuz插件模块；

16，PhpWind插件模块；

17，网页javascript脚本模块；

18，API第三方开发接口；

以上模块的设置目的是为了能够使本发明所提供的方法和系统能够应用到不同的环境中，在不同的环境中所调整的主要是编码和脚本，对方法没有实质影响。

更具体需要说明的是，服务器在进行物体动作分析、镜头运动分析、视频稳定性分析、人脸识别分析、情景分析、人脸捕捉及索引、物体捕捉及跟踪、人物捕捉、语音捕捉、音定位分析、音乐分析以及故事话题分析的时候，所采用的主要是视频分析和音频分析技术，其中，视频分析主要是依据对相邻帧图像中像素的色彩进行采集和对比，音频分析是主要以对采样点(或者是某一时域的连续采样点)进行分析，从而完成了语义分析。语义分析中的多种具体分析方式可以相互作用，如语义分析的结果可以受多种具体分析结果的影响。

另一方面，本发明还提供了一种基于语义分析将图像合成新视频的系统，参见图3，包括：

客户端模块10，用于将预先获取的图像提交至服务器。

本发明实施例中客户端模块是iPhone手机应用、iPad平板电脑应用、Android手机应用、Android平板电脑应用、电视机顶盒应用、Windows平台软件应用、Mac平台软件应用、IE浏览器插件、Chrome浏览器插件及Firefox浏览器插件中任何一项。。

服务器端语义分析模块20，用于对客户端提交的图像进行语义分析，其中，服务器端语义分析模块20包括：

其中，对图像进行语义分析包括物体动作分析、镜头运动分析、视频稳定性分析、人脸识别分析、情景分析、人脸捕捉及索引、物体捕捉及跟踪、人物捕捉、语音捕捉、声音定位分析、音乐分析以及故事话题分析，上述分析可采用但不限于通过图像的底层视觉特征如颜色、纹理及形状等及其组合来提取相关语义描述，通过识别和推理找出图像中的具体目标对象及其相互之间的关系，然后给出语义表达，通过图像包含的对象、场景的含义和目标进行高层推理，得到相关的语义描述，进而识别出图像的内容，基上，图像识别单元包括：物体动作分析子单元、镜头运动分析子单元、视频稳定性分析子单元、人脸识别子单元、情景分析子单元、人物捕捉子单元、语音捕捉子单元、声音定位分析子单元、音乐分析子单元以及故事话题分析子单元。

结构化信息获取单元，用于对识别出的图像内容进行提取，得到结构化信息。提取出图像的内容的结构化信息，结构化信息是指信息经过分析后可分解成多个互相关联的组成部分，各组成部分间有明确的层次结构，其使用和维护通过数据库进行管理，并有一定的操作规范，我们通常接触的，包括生产、业务、交易、客户信息等方面的记录都属于结构化信息。无法完全数字化的信息称为非结构化信息，如文档文件、图片、图纸资料、缩微胶片等。

本体描述获取单元，用于将得到的结构化信息和结构化语法数据库进行对比，得出结构化信息的本体描述。结构化语法库是将中英文关键词库映射到基于本体结构的语法表，形成具有逻辑推理功能的数据库，如SPARQL数据库，将结构化信息和结构化语法库进行对比，也就是和结构化语法库中的关键词对比，而每个关键词对应一个本体描述，由此得出结构化信息的本体描述。其中，关键词是数据库建立过程中预先选取的，每个关键词都对应一个本体，本体即Ontology，是共享概念模型的形式化规范说明，在人工智能界，最早给出Ontology定义的是Neches等人，他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”，例如酒的本体可以是红酒、白酒、法国酒、酒类杂志等等，而本体描述则是OWL，指的是web本体语言。

服务器端视频渲染合成模块30，用于根据语义分析的结果，选择相应的视频合成模板，并使用所选择的视频合成模块对图像进行渲染，以合成新视频。其中，视频模板是预先建立的，是基于本体描述建立的视频模板数据库，视频模板数据库中每个视频模板对应一个本体描述，服务器对接收到的图像进行语义分析，得出图像的本体描述后，根据得到的本体描述从视频模板数据库中选择相应的视频模板，服务器端视频渲染合成模块包括：故事编辑单元，用于根据语义分析模块的分析结果，进行故事编辑，并将编辑好的故事合成音频；服务器端视频渲染合成单元，用于将选择的视频模板和合成的音频进行渲染，合成新视频。服务器根据对图像语义分析结果进行故事的编辑，将编辑好的故事合成语音，将合成的语音和选择的模板进行混合渲染，合成新视频，在合成过程中，根据音频朗读语速来决定动画视频素材的出现时间点及时长。

基于本发明实施例提供的基于语义分析将图像合成新视频的系统，用户可在手机、平板电脑、电脑或电视上安装客户端应用软件，打开软件将照片、视频提交后，即可由系统自动生成可以讲述故事的视频；用户还可以在各种浏览器安装浏览器插件后，在通过浏览器将照片、视频提交后，即可由系统自动生成可以讲述故事的视频；内容性网站可以在页面内嵌入一行javascript代码后，可以为用户提供浏览该网站时，通过浏览器将照片、视频提交后，即可由系统自动生成可以讲述故事的视频；开发者可通过系统提供的API第三方开发接口进行二次开发，为自己的用户提供将照片、视频提交后，即可由系统自动生成可以讲述故事的视频。

本发明实施例所提供的进行基于语义分析将图像合成新视频的方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于语义分析将图像合成新视频的方法，其特征在于，包括：

客户端将预先获取的图像提交至服务器；

服务器对客户端提交的图像进行语义分析；

服务器根据语义分析的结果，选择相应的视频合成模板，并使用所选择的视频合成模板对所述图像进行渲染，以合成新视频。

2.根据权利要求1所述的基于语义分析将图像合成新视频的方法，其特征在于，所述服务器对客户端提交的图像进行语义分析包括:

服务器对图像进行语义分析，识别出图像的内容；

服务器对识别出的图像内容进行提取，得到结构化信息；

服务器将得到的结构化信息和结构化语法数据库进行对比，得出结构化信息的本体描述。

3.根据权利要求2所述的基于语义分析将图像合成新视频的方法，其特征在于，所述选择相应的视频合成模板包括：

服务器选择视频合成模板数据库中与所述本体描述相对应的视频合成模板，所述视频模板数据库存储有基于本体描述设计的视频合成模板。

4.根据权利要求2所述的基于语义分析将图像合成新视频的方法，其特征在于，所述语义分析包括：

5.根据权利要求4所述的基于语义分析将图像合成新视频的方法，其特征在于，所述使用所选择的视频合成模块对所述图像进行渲染，以合成新视频包括：

服务器根据选择的视频模板对获取到的图像和合成的音频进行渲染，以合成新视频。

6.根据权利要求1-5任一项所述的基于语义分析将图像合成新视频的方法，其特征在于，还包括：

服务器将合成后的新视频以视频索引的形式发送至客户端。

7.一种基于语义分析将图像合成新视频的系统，其特征在于，包括：

客户端模块，用于将预先获取的图像提交至服务器；

服务器端视频渲染合成模块，用于根据语义分析的结果，选择相应的视频合成模板，并使用所选择的视频合成模板对所述图像进行渲染，以合成新视频。

8.根据权利要求7所述的基于语义分析将图像合成新视频的系统，其特征在于，服务器端语义分析模块包括：

9.根据权利要求8所述的基于语义分析将图像合成新视频的系统，其特征在于，所述图像识别单元包括：

10.根据权利要求9所述的基于语义分析将图像合成新视频的系统，其特征在于，所述服务器端视频渲染合成模块包括：