CN104735468A - 一种基于语义分析将图像合成新视频的方法及系统 - Google Patents

一种基于语义分析将图像合成新视频的方法及系统 Download PDF

Info

Publication number
CN104735468A
CN104735468A CN201510157995.7A CN201510157995A CN104735468A CN 104735468 A CN104735468 A CN 104735468A CN 201510157995 A CN201510157995 A CN 201510157995A CN 104735468 A CN104735468 A CN 104735468A
Authority
CN
China
Prior art keywords
video
analysis
semantic analysis
image
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510157995.7A
Other languages
English (en)
Other versions
CN104735468B (zh
Inventor
李国祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wei Yang Science And Technology Ltd
Original Assignee
Beijing Wei Yang Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wei Yang Science And Technology Ltd filed Critical Beijing Wei Yang Science And Technology Ltd
Priority to CN201510157995.7A priority Critical patent/CN104735468B/zh
Publication of CN104735468A publication Critical patent/CN104735468A/zh
Application granted granted Critical
Publication of CN104735468B publication Critical patent/CN104735468B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明提供了一种基于语义分析将图像合成新视频的方法及系统,方法包括:客户端将预先获取的图像提交至服务器;服务器对客户端提交的图像进行语义分析;根据语义分析的结果,选择相应的视频合成模板,并使用所选择的视频合成模块对所述图像进行渲染,以合成新视频。本发明采用语义分析的视频合成方式,与现有技术中的视频软件的使用难度较高,导致用户进行视频合成的难度变高相比,其通过客户端将预先获取的图像提交至服务器,以使服务器能够获得进行视频编辑的基础文件,进而服务器对客户端所提交的图像进行语义分析,进而确定图像的主体内容,并且根据主体内容选择相应的视频合成模块对客户端所发出的图像进行渲染,从而自动合成了新视频。

Description

一种基于语义分析将图像合成新视频的方法及系统
技术领域
本发明涉及视频生成领域,具体而言,涉及一种基于语义分析将图像合成新视频的方法和系统。
背景技术
拍照、视频录制是日常生活中常见的两种拍摄方式,这两种拍摄方式所得到的产物都可以称为图像(拍照所得到的是某个画面照片,视频可以理解为是将大量的照片、图像帧合成为能够表现连贯动作的动画)。
在进行基础的拍照和视频录制之后,可以进一步通过PS、flash制作软件对图像进行编辑,以实现制作一个逻辑型更强或者能够展现作者需求的连续型动画。常见的如电影,通常是预先拍摄大量的分镜头,再通过后期的视频处理将大量的分镜头整合成一个完成的电影,从而完成电影的制作。
当然,这种电影的制作方式同样适用于某个用户个体。传统的用户制作视频的方式通常使用非线性影音编辑软件手工进行编辑,如使用绘声绘影等视频编辑软件将多个视频以时间点,或者以图像帧为参照进行删除、组合,还可以将拍摄得到的照片进行插入。
随着智能手机的普及,随着用户拍摄照片、视频数量的不断增加,进而将拍摄到的照片和视频整理成可讲述故事的视频的需求不断增加。但使用传统的如绘声绘影等视频制作软件进行视频整合的难度较高,集中体现在此类视频制作软件过于专业化,很多需要进行照片、视频整合的个人用户难以熟练的操作此类软件,并且由于个人用户期望编辑的照片和视频的数量较大,进一步拖缓了视频合成速度。
发明内容
本发明的目的在于提供一种基于语义分析将图像合成新视频的方法和装置,以降低用户进行视频合成的难度。
第一方面,本发明实施例提供了一种基于语义分析将图像合成新视频的方法,包括:
客户端将预先获取的图像提交至服务器;
服务器对客户端提交的图像进行语义分析;
根据语义分析的结果,选择相应的视频合成模板,并使用所选择的视频合成模板对图像进行渲染,以合成新视频。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,服务器对客户端提交的图像进行语义分析包括:
对图像进行语义分析,识别出图像的内容;
对识别出的图像内容进行提取,得到结构化信息;
将得到的结构化信息和结构化语法数据库进行对比,得出结构化信息的本体描述。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,选择相应的视频合成模板包括:
选择视频合成模板数据库中与本体描述相对应的视频合成模板,视频模板数据库存储有基于本体描述设计的视频合成模板。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,语义分析包括:
物体动作分析、镜头运动分析、视频稳定性分析、人脸识别分析、情景分析、人脸捕捉及索引、物体捕捉及跟踪、人物捕捉、语音捕捉、音定位分析、音乐分析以及故事话题分析。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,使用所选择的视频合成模块对图像进行渲染,以合成新视频包括:
根据对图像进行语义分析的结果进行故事编辑,将编辑好的故事合成音频;
根据选择的视频模板对获取到的图像和合成的音频进行渲染,以合成新视频。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,还包括:
将合成后的新视频以视频索引的形式发送至客户端。
第二方面,本发明实施例还提供了一种基于语义分析将图像合成新视频的系统,包括:
客户端模块,用于将预先获取的图像提交至服务器;
服务器端语义分析模块,用于对客户端提交的图像进行语义分析;
服务器端视频渲染合成模块,用于根据语义分析的结果,选择相应的视频合成模板,并使用所选择的视频合成模板对图像进行渲染,以合成新视频。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,服务器端语义分析模块包括:
图像识别单元,用于对图像进行语义分析,识别出图像的内容;
结构化信息获取单元,用于对识别出的图像内容进行提取,得到结构化信息;
本体描述获取单元,用于将得到的结构化信息和结构化语法数据库进行对比,得出结构化信息的本体描述。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,图像识别单元包括:
物体动作分析子单元、镜头运动分析子单元、视频稳定性分析子单元、人脸识别子单元、情景分析子单元、人物捕捉子单元、语音捕捉子单元、声音定位分析子单元、音乐分析子单元以及故事话题分析子单元。
结合第二方面,本发明实施例提供了第二方面的第三种可能的实施方式,其中,服务器端视频渲染合成模块包括:
故事编辑单元,用于根据语义分析模块的分析结果,进行故事编辑,并将编辑好的故事合成音频;
服务器端视频渲染合成单元,用于将选择的视频模板和合成的音频进行渲染,合成新视频。
本发明实施例提供的一种基于语义分析将图像合成新视频的方法,采用语义分析的视频合成方式,与现有技术中的视频软件的使用难度较高,导致用户进行视频合成的难度变高相比,其通过客户端将预先获取的图像提交至服务器,以使服务器能够获得进行视频编辑的基础文件,进而服务器对客户端所提交的图像进行语义分析,进而确定图像的主体内容,并且根据主体内容选择相应的视频合成模板对客户端所发出的图像进行渲染,从而自动合成了新视频。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种基于语义分析将图像合成新视频的方法流程图;
图2示出了本发明实施例所提供的一种基于语义分析将图像合成新视频的细节流程图
图3示出了本发明实施例所提供的一种基于语义分析将图像合成新视频的系统结构示意图。
主要元件符号说明:
S101-S103为基于语义分析将图像合成新视频的方法步骤;
S1021-S1023为基于语义分析将图像合成新视频的细节流程步骤;
10、客户端模块,20、服务器端语义分析模块,30、服务器端视频渲染合成模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,个人用户如果需要进行视频合成,则需要使用相应的视频合成软件来完成。但通常由于视频合成中存在较多的专业化内容,如帧图像的截取、编辑,需要使用专业代码来向专业编辑软件下达指令等等,这些过于专业化的内容都造成了用户上手困难,难以熟习视频编辑软件的各种功能,从而导致了某些视频编辑功能难以实现,和导致了用户进行图像编辑时间的加长。有鉴于此如图1所示,本申请实施例提供了一种基于语义分析将图像合成新视频的方法,包括如下步骤:
S101,客户端将预先获取的图像提交至服务器;
S102,服务器对客户端提交的图像进行语义分析;
S103,根据语义分析的结果,选择相应的视频合成模板,并使用所选择的视频合成模板对图像进行渲染,以合成新视频。
本发明实施例中,客户端可以是但不限于手机、电脑、电视、浏览器、内容性网站,上述客户端可安装特定软件,用户打开软件,即可将图像上传至服务器,其中浏览器可通过安装插件将图像上传至服务器,服务器接收到客户端提交的图像后,首先需要对图像进行语义分析,如图2所示,本发明实施例中步骤S102,服务器对客户端提交的图像进行语义分析,包括:
S1021:对图像进行语义分析,识别出图像的内容。
其中,对图像进行语义分析包括物体动作分析、镜头运动分析、视频稳定性分析、人脸识别分析、情景分析、人脸捕捉及索引、物体捕捉及跟踪、人物捕捉、语音捕捉、声音定位分析、音乐分析以及故事话题分析,上述分析可采用但不限于通过图像的底层视觉特征如颜色、纹理及形状等及其组合来提取相关语义描述,通过识别和推理找出图像中的具体目标对象及其相互之间的关系,然后给出语义表达,通过图像包含的对象、场景的含义和目标进行高层推理,得到相关的语义描述,进而识别出图像的内容。
S1022:对识别出的图像内容进行提取,得到结构化信息。
提取出图像的内容的结构化信息,结构化信息是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范,我们通常接触的,包括生产、业务、交易、客户信息等方面的记录都属于结构化信息。无法完全数字化的信息称为非结构化信息,如文档文件、图片、图纸资料、缩微胶片等。
S1023:将得到的结构化信息和结构化语法数据库进行对比,得到结构化信息的本体描述;
结构化语法库是将中英文关键词库映射到基于本体结构的语法表,形成具有逻辑推理功能的数据库,如SPARQL数据库,将结构化信息和结构化语法库进行对比,也就是和结构化语法库中的关键词对比,而每个关键词对应一个本体描述,由此得出结构化信息的本体描述。其中,关键词是数据库建立过程中预先选取的,每个关键词都对应一个本体,本体即Ontology,是共享概念模型的形式化规范说明,在人工智能界,最早给出Ontology定义的是Neches等人,他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”,例如酒的本体可以是红酒、白酒、法国酒、酒类杂志等等,而本体描述则是OWL,指的是web本体语言。
根据语义分析的结果,选择相应的视频模板,对选择的视频模板进行渲染,合成新视频;
其中,视频模板是预先建立的,是基于本体描述建立的视频模板数据库,视频模板数据库中每个视频模板对应一个本体描述,服务器对接收到的图像进行语义分析,得出图像的本体描述后,根据得到的本体描述从视频模板数据库中选择相应的视频模板,进一步地,服务器根据对图像语义分析结果进行故事的编辑,将编辑好的故事合成语音,将合成的语音和选择的模板进行混合渲染,合成新视频,在合成过程中,根据音频朗读语速来决定动画视频素材的出现时间点及时长。
基于本发明,用户在手机、平板电脑、电脑或电视上安装客户端应用软件,打开软件将照片、视频提交后,即可由系统自动生成可以讲述故事的视频;用户在各种浏览器安装浏览器插件后,在通过浏览器将照片、视频提交后,即可由系统自动生成可以讲述故事的视频;内容性网站可以在页面内嵌入一行javascript代码后,可以为用户提供浏览该网站时,即可由系统自动生成可以讲述故事的视频;开发者可通过系统提供的API第三方开发接口进行二次开发,为自己的用户提供将照片、视频提交后,即可由系统自动生成可以讲述故事的视频。
具体的,选择相应的视频合成模板包括:
选择视频合成模板数据库中与本体描述相对应的视频合成模板,视频模板数据库存储有基于本体描述设计的视频合成模板。
在进行此步骤之前,需要系统内容先建立本体描述与视频模板的对应机制(可以是数据表中写入相关联或者相对应的本体描述和视频模板)。当服务器确定结构化信息的本体描述之后,便可以在数据表中查找相对应的视频模板编号,再根据调取到的视频模块编号选择相对应的视频模板。具体的,搜索视频模块编号的方式可以是二分搜索法,或者是哈希搜索法。其中,哈希搜索法是指预先将视频模块编号和本体描述预先换算成哈希值,再通过在数据表中记录相对应的哈希值,从而保证在进行数据检索的时候能根据哈希对比的方式来较快速的找到需要的视频模板。当然,为了进一步提高查找速度,还可以通过将数据表的主键设置为视频模板编码的方式来提高查找速度。
步骤S103,使用所选择的视频合成模块对图像进行渲染,以合成新视频,可以分为如下两个子步骤来执行:
服务器根据对图像进行语义分析的结果进行故事编辑,将编辑好的故事合成音频;
服务器根据选择的视频模板对获取到的图像合成的音频进行渲染,以合成新视频。
其中,第一个子步骤的目的是制备故事音频,如将编辑好的故事使用语音合成软件制作对应的音频内容(使用语音的方式朗读故事,以形成视频的背景音乐)。
视频渲染即是将合成视频的多种素材合并成一个完整视频的过程。本申请中主要是指将视频和音频融合成一个完整视频的过程。其中如何通过帧图像来合成完整视频已是现有技术,在此不再赘述。
具体的,本申请所提供的基于语义分析将图像合成新视频的方法还包括服务器将合成后的新视频以视频索引的形式发送至客户端。
也就是服务器在完成了视频合成之后,可以不将完整的视频内容直接提供给用户,而是将携带有视频内容的链接发送给客户端(如可以将视频所在的网页链接提供给客户端)。
客户端在对接收到的网页链接进行访问的时候,服务器可以通过服务器最大负载量来调整访问的数量,这中方式与服务器直接将新视频直接发送给用户端相比,能够优化资源配置,降低服务器发生宕机的概率(如可以通过负载均衡服务器来进行访问量的调节,从而避免服务器出现宕机的现象,也可以将访问的客户端引导至其他关联的链接或服务器上)。
需要说明的是,客户端在使用的时候,可以根据客户端的不同在客户端内加载/设置不同的模块来使本方法适用于不同的工作环境,具体如:
1,iPhone手机应用模块;
2,iPad平板电脑应用模块;
3,Android手机应用模块;
4,Android平板电脑应用模块;
5,电视机顶盒应用模块;
6,Windows平台软件应用模块;
7,Mac平台软件应用模块;
8,IE浏览器插件模块;
9,Chrome浏览器插件模块;
10,Firefox浏览器插件模块;
11,Wordpress插件模块;
12,Drupal插件模块;
13,Joomla插件模块;
14,Mediawiki插件模块;
15,Discuz插件模块;
16,PhpWind插件模块;
17,网页javascript脚本模块;
18,API第三方开发接口;
以上模块的设置目的是为了能够使本发明所提供的方法和系统能够应用到不同的环境中,在不同的环境中所调整的主要是编码和脚本,对方法没有实质影响。
更具体需要说明的是,服务器在进行物体动作分析、镜头运动分析、视频稳定性分析、人脸识别分析、情景分析、人脸捕捉及索引、物体捕捉及跟踪、人物捕捉、语音捕捉、音定位分析、音乐分析以及故事话题分析的时候,所采用的主要是视频分析和音频分析技术,其中,视频分析主要是依据对相邻帧图像中像素的色彩进行采集和对比,音频分析是主要以对采样点(或者是某一时域的连续采样点)进行分析,从而完成了语义分析。语义分析中的多种具体分析方式可以相互作用,如语义分析的结果可以受多种具体分析结果的影响。
另一方面,本发明还提供了一种基于语义分析将图像合成新视频的系统,参见图3,包括:
客户端模块10,用于将预先获取的图像提交至服务器。
本发明实施例中客户端模块是iPhone手机应用、iPad平板电脑应用、Android手机应用、Android平板电脑应用、电视机顶盒应用、Windows平台软件应用、Mac平台软件应用、IE浏览器插件、Chrome浏览器插件及Firefox浏览器插件中任何一项。。
服务器端语义分析模块20,用于对客户端提交的图像进行语义分析,其中,服务器端语义分析模块20包括:
图像识别单元,用于对图像进行语义分析,识别出图像的内容;
其中,对图像进行语义分析包括物体动作分析、镜头运动分析、视频稳定性分析、人脸识别分析、情景分析、人脸捕捉及索引、物体捕捉及跟踪、人物捕捉、语音捕捉、声音定位分析、音乐分析以及故事话题分析,上述分析可采用但不限于通过图像的底层视觉特征如颜色、纹理及形状等及其组合来提取相关语义描述,通过识别和推理找出图像中的具体目标对象及其相互之间的关系,然后给出语义表达,通过图像包含的对象、场景的含义和目标进行高层推理,得到相关的语义描述,进而识别出图像的内容,基上,图像识别单元包括:物体动作分析子单元、镜头运动分析子单元、视频稳定性分析子单元、人脸识别子单元、情景分析子单元、人物捕捉子单元、语音捕捉子单元、声音定位分析子单元、音乐分析子单元以及故事话题分析子单元。
结构化信息获取单元,用于对识别出的图像内容进行提取,得到结构化信息。提取出图像的内容的结构化信息,结构化信息是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范,我们通常接触的,包括生产、业务、交易、客户信息等方面的记录都属于结构化信息。无法完全数字化的信息称为非结构化信息,如文档文件、图片、图纸资料、缩微胶片等。
本体描述获取单元,用于将得到的结构化信息和结构化语法数据库进行对比,得出结构化信息的本体描述。结构化语法库是将中英文关键词库映射到基于本体结构的语法表,形成具有逻辑推理功能的数据库,如SPARQL数据库,将结构化信息和结构化语法库进行对比,也就是和结构化语法库中的关键词对比,而每个关键词对应一个本体描述,由此得出结构化信息的本体描述。其中,关键词是数据库建立过程中预先选取的,每个关键词都对应一个本体,本体即Ontology,是共享概念模型的形式化规范说明,在人工智能界,最早给出Ontology定义的是Neches等人,他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”,例如酒的本体可以是红酒、白酒、法国酒、酒类杂志等等,而本体描述则是OWL,指的是web本体语言。
服务器端视频渲染合成模块30,用于根据语义分析的结果,选择相应的视频合成模板,并使用所选择的视频合成模块对图像进行渲染,以合成新视频。其中,视频模板是预先建立的,是基于本体描述建立的视频模板数据库,视频模板数据库中每个视频模板对应一个本体描述,服务器对接收到的图像进行语义分析,得出图像的本体描述后,根据得到的本体描述从视频模板数据库中选择相应的视频模板,服务器端视频渲染合成模块包括:故事编辑单元,用于根据语义分析模块的分析结果,进行故事编辑,并将编辑好的故事合成音频;服务器端视频渲染合成单元,用于将选择的视频模板和合成的音频进行渲染,合成新视频。服务器根据对图像语义分析结果进行故事的编辑,将编辑好的故事合成语音,将合成的语音和选择的模板进行混合渲染,合成新视频,在合成过程中,根据音频朗读语速来决定动画视频素材的出现时间点及时长。
基于本发明实施例提供的基于语义分析将图像合成新视频的系统,用户可在手机、平板电脑、电脑或电视上安装客户端应用软件,打开软件将照片、视频提交后,即可由系统自动生成可以讲述故事的视频;用户还可以在各种浏览器安装浏览器插件后,在通过浏览器将照片、视频提交后,即可由系统自动生成可以讲述故事的视频;内容性网站可以在页面内嵌入一行javascript代码后,可以为用户提供浏览该网站时,通过浏览器将照片、视频提交后,即可由系统自动生成可以讲述故事的视频;开发者可通过系统提供的API第三方开发接口进行二次开发,为自己的用户提供将照片、视频提交后,即可由系统自动生成可以讲述故事的视频。
本发明实施例所提供的进行基于语义分析将图像合成新视频的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于语义分析将图像合成新视频的方法,其特征在于,包括:
客户端将预先获取的图像提交至服务器;
服务器对客户端提交的图像进行语义分析;
服务器根据语义分析的结果,选择相应的视频合成模板,并使用所选择的视频合成模板对所述图像进行渲染,以合成新视频。
2.根据权利要求1所述的基于语义分析将图像合成新视频的方法,其特征在于,所述服务器对客户端提交的图像进行语义分析包括:
服务器对图像进行语义分析,识别出图像的内容;
服务器对识别出的图像内容进行提取,得到结构化信息;
服务器将得到的结构化信息和结构化语法数据库进行对比,得出结构化信息的本体描述。
3.根据权利要求2所述的基于语义分析将图像合成新视频的方法,其特征在于,所述选择相应的视频合成模板包括:
服务器选择视频合成模板数据库中与所述本体描述相对应的视频合成模板,所述视频模板数据库存储有基于本体描述设计的视频合成模板。
4.根据权利要求2所述的基于语义分析将图像合成新视频的方法,其特征在于,所述语义分析包括:
物体动作分析、镜头运动分析、视频稳定性分析、人脸识别分析、情景分析、人脸捕捉及索引、物体捕捉及跟踪、人物捕捉、语音捕捉、音定位分析、音乐分析以及故事话题分析。
5.根据权利要求4所述的基于语义分析将图像合成新视频的方法,其特征在于,所述使用所选择的视频合成模块对所述图像进行渲染,以合成新视频包括:
服务器根据对图像进行语义分析的结果进行故事编辑,将编辑好的故事合成音频;
服务器根据选择的视频模板对获取到的图像和合成的音频进行渲染,以合成新视频。
6.根据权利要求1-5任一项所述的基于语义分析将图像合成新视频的方法,其特征在于,还包括:
服务器将合成后的新视频以视频索引的形式发送至客户端。
7.一种基于语义分析将图像合成新视频的系统,其特征在于,包括:
客户端模块,用于将预先获取的图像提交至服务器;
服务器端语义分析模块,用于对客户端提交的图像进行语义分析;
服务器端视频渲染合成模块,用于根据语义分析的结果,选择相应的视频合成模板,并使用所选择的视频合成模板对所述图像进行渲染,以合成新视频。
8.根据权利要求7所述的基于语义分析将图像合成新视频的系统,其特征在于,服务器端语义分析模块包括:
图像识别单元,用于对图像进行语义分析,识别出图像的内容;
结构化信息获取单元,用于对识别出的图像内容进行提取,得到结构化信息;
本体描述获取单元,用于将得到的结构化信息和结构化语法数据库进行对比,得出结构化信息的本体描述。
9.根据权利要求8所述的基于语义分析将图像合成新视频的系统,其特征在于,所述图像识别单元包括:
物体动作分析子单元、镜头运动分析子单元、视频稳定性分析子单元、人脸识别子单元、情景分析子单元、人物捕捉子单元、语音捕捉子单元、声音定位分析子单元、音乐分析子单元以及故事话题分析子单元。
10.根据权利要求9所述的基于语义分析将图像合成新视频的系统,其特征在于,所述服务器端视频渲染合成模块包括:
故事编辑单元,用于根据语义分析模块的分析结果,进行故事编辑,并将编辑好的故事合成音频;
服务器端视频渲染合成单元,用于将选择的视频模板和合成的音频进行渲染,合成新视频。
CN201510157995.7A 2015-04-03 2015-04-03 一种基于语义分析将图像合成新视频的方法及系统 Expired - Fee Related CN104735468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510157995.7A CN104735468B (zh) 2015-04-03 2015-04-03 一种基于语义分析将图像合成新视频的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510157995.7A CN104735468B (zh) 2015-04-03 2015-04-03 一种基于语义分析将图像合成新视频的方法及系统

Publications (2)

Publication Number Publication Date
CN104735468A true CN104735468A (zh) 2015-06-24
CN104735468B CN104735468B (zh) 2018-08-31

Family

ID=53458832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510157995.7A Expired - Fee Related CN104735468B (zh) 2015-04-03 2015-04-03 一种基于语义分析将图像合成新视频的方法及系统

Country Status (1)

Country Link
CN (1) CN104735468B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106973250A (zh) * 2017-02-24 2017-07-21 广州乐庚信息科技有限公司 一种视频文件自动生成的方法及装置
CN107170432A (zh) * 2017-03-31 2017-09-15 珠海市魅族科技有限公司 一种音乐产生方法和装置
CN107454346A (zh) * 2017-07-03 2017-12-08 李洪海 影视数据解析方法、视频制作模板推荐方法、装置及设备
CN107925788A (zh) * 2015-07-10 2018-04-17 株式会社普兰特 基于数据结构化的直观的视频内容再生成方法及其用户界面装置
CN110309351A (zh) * 2018-02-14 2019-10-08 阿里巴巴集团控股有限公司 数据对象的视频影像生成、装置及计算机系统
CN110458237A (zh) * 2019-08-14 2019-11-15 北京市商汤科技开发有限公司 语义识别方法和装置、电子设备及存储介质
CN110521213A (zh) * 2017-03-23 2019-11-29 韩国斯诺有限公司 故事影像制作方法及系统
CN110677734A (zh) * 2019-09-30 2020-01-10 北京达佳互联信息技术有限公司 视频合成方法、装置、电子设备及存储介质
CN110858924A (zh) * 2018-08-22 2020-03-03 北京优酷科技有限公司 视频背景音乐的生成方法及装置
CN110909185A (zh) * 2018-09-17 2020-03-24 国家新闻出版广电总局广播科学研究院 智能化广播电视节目制作方法及装置
CN111580788A (zh) * 2019-02-15 2020-08-25 阿里巴巴集团控股有限公司 模板搭配信息推荐方法、装置及电子设备
CN111654645A (zh) * 2020-05-27 2020-09-11 上海卓越睿新数码科技有限公司 一种标准化的课程视频展示效果设计方法
CN111783475A (zh) * 2020-07-28 2020-10-16 北京深睿博联科技有限责任公司 一种基于短语关系传播的语义视觉定位方法及装置
CN112132931A (zh) * 2020-09-29 2020-12-25 新华智云科技有限公司 一种模板化视频合成的处理方法、装置及系统
WO2022063124A1 (zh) * 2020-09-25 2022-03-31 连尚(北京)网络科技有限公司 视频融合方法和设备
WO2022141533A1 (zh) * 2020-12-31 2022-07-07 深圳市大疆创新科技有限公司 视频处理方法、视频处理装置、终端设备以及存储介质
CN114946193A (zh) * 2020-01-23 2022-08-26 张衡淳 使用基于云的语音结合的定制视频制作服务提供系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006014020A (ja) * 2004-06-28 2006-01-12 Noritsu Koki Co Ltd 画像編集装置及び写真処理装置
CN101021904A (zh) * 2006-10-11 2007-08-22 鲍东山 视频内容分析系统
CN101252646A (zh) * 2008-01-24 2008-08-27 王志远 实现视频宣传片模块化制作的方法
CN101315702A (zh) * 2007-05-29 2008-12-03 翟卫东 电子相册制作方法及其装置
CN101419597A (zh) * 2007-10-26 2009-04-29 英业达股份有限公司 建立格式化网页的系统及其方法
CN101594475A (zh) * 2008-05-26 2009-12-02 新奥特(北京)视频技术有限公司 一种字幕背景模板自适应选择的方法
CN102880873A (zh) * 2012-08-31 2013-01-16 公安部第三研究所 基于图像分割和语义提取实现人员行为识别的系统及方法
CN102982572A (zh) * 2012-10-31 2013-03-20 北京百度网讯科技有限公司 一种智能化图像编辑方法和装置
CN103632147A (zh) * 2013-12-10 2014-03-12 公安部第三研究所 实现面部特征标准化语义描述的系统及方法
CN104244086A (zh) * 2014-09-03 2014-12-24 陈飞 基于实时对话语义分析的视频实时拼接装置及其方法
CN104349175A (zh) * 2014-08-18 2015-02-11 周敏燕 一种基于手机终端的视频制作系统及方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006014020A (ja) * 2004-06-28 2006-01-12 Noritsu Koki Co Ltd 画像編集装置及び写真処理装置
CN101021904A (zh) * 2006-10-11 2007-08-22 鲍东山 视频内容分析系统
CN101315702A (zh) * 2007-05-29 2008-12-03 翟卫东 电子相册制作方法及其装置
CN101419597A (zh) * 2007-10-26 2009-04-29 英业达股份有限公司 建立格式化网页的系统及其方法
CN101252646A (zh) * 2008-01-24 2008-08-27 王志远 实现视频宣传片模块化制作的方法
CN101594475A (zh) * 2008-05-26 2009-12-02 新奥特(北京)视频技术有限公司 一种字幕背景模板自适应选择的方法
CN102880873A (zh) * 2012-08-31 2013-01-16 公安部第三研究所 基于图像分割和语义提取实现人员行为识别的系统及方法
CN102982572A (zh) * 2012-10-31 2013-03-20 北京百度网讯科技有限公司 一种智能化图像编辑方法和装置
CN103632147A (zh) * 2013-12-10 2014-03-12 公安部第三研究所 实现面部特征标准化语义描述的系统及方法
CN104349175A (zh) * 2014-08-18 2015-02-11 周敏燕 一种基于手机终端的视频制作系统及方法
CN104244086A (zh) * 2014-09-03 2014-12-24 陈飞 基于实时对话语义分析的视频实时拼接装置及其方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107925788A (zh) * 2015-07-10 2018-04-17 株式会社普兰特 基于数据结构化的直观的视频内容再生成方法及其用户界面装置
CN107925788B (zh) * 2015-07-10 2020-07-03 伟播株式会社 基于数据结构化的直观的视频内容再生成方法及其用户界面装置
CN106973250A (zh) * 2017-02-24 2017-07-21 广州乐庚信息科技有限公司 一种视频文件自动生成的方法及装置
US11704355B2 (en) 2017-03-23 2023-07-18 Snow Corporation Method and system for producing story video
US11954142B2 (en) 2017-03-23 2024-04-09 Snow Corporation Method and system for producing story video
CN110521213B (zh) * 2017-03-23 2022-02-18 韩国斯诺有限公司 故事影像制作方法及系统
CN110521213A (zh) * 2017-03-23 2019-11-29 韩国斯诺有限公司 故事影像制作方法及系统
CN107170432B (zh) * 2017-03-31 2021-06-15 珠海市魅族科技有限公司 一种音乐产生方法和装置
CN107170432A (zh) * 2017-03-31 2017-09-15 珠海市魅族科技有限公司 一种音乐产生方法和装置
CN107454346A (zh) * 2017-07-03 2017-12-08 李洪海 影视数据解析方法、视频制作模板推荐方法、装置及设备
CN107454346B (zh) * 2017-07-03 2020-10-16 李洪海 影视数据解析方法、视频制作模板推荐方法、装置及设备
CN110309351A (zh) * 2018-02-14 2019-10-08 阿里巴巴集团控股有限公司 数据对象的视频影像生成、装置及计算机系统
CN110858924A (zh) * 2018-08-22 2020-03-03 北京优酷科技有限公司 视频背景音乐的生成方法及装置
CN110858924B (zh) * 2018-08-22 2021-11-26 阿里巴巴(中国)有限公司 视频背景音乐的生成方法、装置及存储介质
CN110909185A (zh) * 2018-09-17 2020-03-24 国家新闻出版广电总局广播科学研究院 智能化广播电视节目制作方法及装置
CN110909185B (zh) * 2018-09-17 2022-08-05 国家广播电视总局广播电视科学研究院 智能化广播电视节目制作方法及装置
CN111580788A (zh) * 2019-02-15 2020-08-25 阿里巴巴集团控股有限公司 模板搭配信息推荐方法、装置及电子设备
CN111580788B (zh) * 2019-02-15 2024-04-09 阿里巴巴集团控股有限公司 模板搭配信息推荐方法、装置及电子设备
CN110458237A (zh) * 2019-08-14 2019-11-15 北京市商汤科技开发有限公司 语义识别方法和装置、电子设备及存储介质
CN110458237B (zh) * 2019-08-14 2022-03-04 北京市商汤科技开发有限公司 语义识别方法和装置、电子设备及存储介质
CN110677734A (zh) * 2019-09-30 2020-01-10 北京达佳互联信息技术有限公司 视频合成方法、装置、电子设备及存储介质
CN110677734B (zh) * 2019-09-30 2023-03-10 北京达佳互联信息技术有限公司 视频合成方法、装置、电子设备及存储介质
US11996123B2 (en) 2019-09-30 2024-05-28 Beijing Dajia Internet Information Technology Co., Ltd. Method for synthesizing videos and electronic device therefor
CN114946193A (zh) * 2020-01-23 2022-08-26 张衡淳 使用基于云的语音结合的定制视频制作服务提供系统
CN111654645A (zh) * 2020-05-27 2020-09-11 上海卓越睿新数码科技有限公司 一种标准化的课程视频展示效果设计方法
CN111783475A (zh) * 2020-07-28 2020-10-16 北京深睿博联科技有限责任公司 一种基于短语关系传播的语义视觉定位方法及装置
WO2022063124A1 (zh) * 2020-09-25 2022-03-31 连尚(北京)网络科技有限公司 视频融合方法和设备
CN112132931A (zh) * 2020-09-29 2020-12-25 新华智云科技有限公司 一种模板化视频合成的处理方法、装置及系统
CN112132931B (zh) * 2020-09-29 2023-12-19 新华智云科技有限公司 一种模板化视频合成的处理方法、装置及系统
WO2022141533A1 (zh) * 2020-12-31 2022-07-07 深圳市大疆创新科技有限公司 视频处理方法、视频处理装置、终端设备以及存储介质

Also Published As

Publication number Publication date
CN104735468B (zh) 2018-08-31

Similar Documents

Publication Publication Date Title
CN104735468A (zh) 一种基于语义分析将图像合成新视频的方法及系统
JP7123122B2 (ja) 認知的洞察を使用したビデオ・シーンの移動
CN109145152B (zh) 一种基于查询词的自适应智能生成图文视频缩略图方法
CN101300567B (zh) 在Web上的媒体共享和创作的方法
US20140161356A1 (en) Multimedia message from text based images including emoticons and acronyms
WO2023011094A1 (zh) 视频编辑方法、装置、电子设备以及存储介质
US20220208155A1 (en) Systems and methods for transforming digital audio content
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
US10277834B2 (en) Suggestion of visual effects based on detected sound patterns
JP2010020781A (ja) アニメーション製作方法及び装置
US20180143741A1 (en) Intelligent graphical feature generation for user content
US11636282B2 (en) Machine learned historically accurate temporal classification of objects
JP2019185738A (ja) コンテンツメディアにテキスト要約を関連付けるためのシステム及び方法、プログラム、及びコンピュータ装置
US20140161423A1 (en) Message composition of media portions in association with image content
US20180189249A1 (en) Providing application based subtitle features for presentation
CN112287168A (zh) 用于生成视频的方法和装置
US20240087547A1 (en) Systems and methods for transforming digital audio content
US20140163956A1 (en) Message composition of media portions in association with correlated text
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
CN117171369A (zh) 一种内容生成方法、装置、计算机设备及存储介质
CN110347379B (zh) 组合型众包题目的处理方法、装置及存储介质
US11532111B1 (en) Systems and methods for generating comic books from video and images
CN116389849A (zh) 视频生成方法、装置、设备及存储介质
CN113312516B (zh) 一种视频处理方法及相关装置
US11461379B1 (en) Speech to text (STT) and natural language processing (NLP) based video bookmarking and classification system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180831