CN104756105A - 用于针对网络中至少一个视频服务提供方的用户自动概括视频内容的过程 - Google Patents

用于针对网络中至少一个视频服务提供方的用户自动概括视频内容的过程 Download PDF

Info

Publication number
CN104756105A
CN104756105A CN201380055121.XA CN201380055121A CN104756105A CN 104756105 A CN104756105 A CN 104756105A CN 201380055121 A CN201380055121 A CN 201380055121A CN 104756105 A CN104756105 A CN 104756105A
Authority
CN
China
Prior art keywords
video
camera lens
mixed
user
video content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380055121.XA
Other languages
English (en)
Inventor
A·奥塔加茨
E·马里利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent SAS
Original Assignee
Alcatel Lucent SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Lucent SAS filed Critical Alcatel Lucent SAS
Publication of CN104756105A publication Critical patent/CN104756105A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种用于针对网络中的至少一个视频服务提供方(1)的用户自动概括视频内容(B)的过程,所述过程提供:监视关于至少两个视频混搭(A)的信息,所述至少两个视频混搭由所述视频服务提供方(1)的用户生成,所述混搭包含所述视频内容的至少一个镜头(C,D,E,F);分析所述信息从而识别所述视频内容的最流行的镜头(C);编辑视频概要(S1,S2),所述视频概要包括所述识别镜头的至少一个。

Description

用于针对网络中至少一个视频服务提供方的用户自动概括视频内容的过程
技术领域
本发明涉及用于针对网络中至少一个视频服务提供方的用户自动概括视频内容的过程、涉及应用以及涉及包括用于实现所述过程的部件的架构。
背景技术
视频内容的视频概要可以是以包括所述视频内容的部分的视频序列的形式,即,所述视频内容的更短版本。视频概要也可以是以包括视频内容的被选择的图像的超媒体文档的形式,用户与所述图像交互以访问所述视频内容的内部部分。
在自动视频概要的领域中已经完成大量工作,特别是由学术实验室(例如法国的研究中心INRIA和EURECOM)完成的、或者是由美国的大学(例如美国麻省理工学院(MIT)和卡内基〃梅隆(Carnegie Mellon))完成的、或者甚至是由公司(例如微软、惠普、IBMn或摩托罗拉)完成的。
确实,视频概要呈现用于若干应用的许多兴趣,因为它特别是允许实现归档过程和其它更复杂的特征,例如视频电话会议、视频邮件或视频新闻。
例如,微软的研究实验室已经发表关于在视频概要上的领先工作的一些论文,例如文章“使用增强的标志检测的足球视频概要”(M.EL Deeb,B.Abou Zaid,H.Zawbaa,M.Zahaar,and M.El-Saban,2009,“SoccerVideo Summarization Using Enhanced Logo Detection”),其可在地址http://research.microsoft.com/apps/pubs/default.aspx?id=101167中得到。这篇文章涉及用于概括足球比赛视频的方法,其中算法检测用于描绘有趣事件的回放镜头。一般地,微软的工作是基于低层视频分析器和规则引擎,并且使用不仅是固定的、不允许用户编辑个性化的视频概要而且还是针对特定语义领域(例如足球)的专用算法。
三菱社会的研究实验室已经提出关于用于个人视频录像机(PVR)的视频概要的研究,如可以在http://www.merl.com/projects/VideoSummarization处得到的文章中所解释的,并且特别是如在技术报告“用于视频概要、浏览和取回的统一框架”(Y.Rui,Z.Xiong,R.Radhakrishnan,A.Divakaran,T.S.Huang,Beckman Institute for Advanced Science and Technology,University ofIllinois and Mitsubishi Electric Research Labs,“A Unified Framework forVideo Summarization,Browsing and Retrieval”)中所解释的。这些研究是基于自动音频视觉分析和视频略读方法,但不允许提取视频内容的主键序列。
文档“视频概要:最先进的概念性框架和调查”(A.G.Money和H.Agius,《视觉通信和图像表示》期刊,第19卷,第2期,第121-143页,2008)(A.G.Money and H.Agius,“Video summarisation:A conceptualFramework and Survey of the State of the Art”,Journal of VisualCommunication and Image Representation,Volume 19,Issue 2,Pages121-143,2008)和“在视频概要和略读中的进展”(R.M.Jiang、A.H.Sadka、D.Crookes,在“在多媒体信号处理和通信中的最新进展”中,柏林/海德堡:斯普林格,2009)(R.M.Jiang,A.H.Sadka,D.Crookes,“Advances inVideo Summarization and Skimming”,in“Recent Advances in MultimediaSignal Processing and Communications”,Berlin/Heidelberg:Springer,2009)分别提供对视频概要的不同已知技术的概论和关于视频概要的静态和动态方法的解释。
总而言之,用于视频概要的已知方法可以分为三大类:基于音频流分析的方法、基于视频流分析的方法和基于所述分析两者的混合方法。这样的方法经典地基于通过专用算法从音频和/或视频分析提取的元数据。
至于缺点,这样的方法必须处理在音频和视频分析与它们的分析算法限制之间的语义差距(“semantic gap”)。因此,由于可听语音链接到视频主题,基于音频的方法有时并不足够。此外,特别是当视频上下文具有触发高语义差距的高级语义时,基于视频的方法经历识别所述上下文的困难。此外,混合方法遇到呈现最后概要的困难,并且非常依赖于视频主题。
特别地,视频概要是基于视频分析和分段。在以下文档中特别进一步详细描述这样的方法:“基于运动对象检测和轨迹提取的监视视频概要”(Z.Ji,Y.Su,R.Qian,J.Ma,“Surveillance Video Summarisation Based onMoving Object Detection and Trajectory Extraction”,2nd InternationalConference on Signal Processing Systems,2010)、“改进的次优视频概要算法”(L.Coelho,L.A.Da Silva Cruz,L.Ferreira,P.A.“AnImproved Sub-Optimal Video Summarization Algorithm”,52ndInternational Symposium ELMAR-2010)、“在压缩视频上的快速视频概要”(J.Almeida,R.S.Torres,N.J.Leite,“Rapid Video Summarisation onCompressed Video”,IEEE International Symposium on Multimedia,2010)、“用户特定的视频概要”(X.Wang,J.Chen,C.Zhu,“User-SpecificVideo Summarisation”,International Conference on Multimedia andSignal Processing,2011)、“具有多情态替代的基于关键字的视频概要学习平台”(W-H.Chang,J-C.Yang,Y-C Wu,“A Keyword Based VideoSummarisation Learning Platform with Multimodal Surrogates”,11thIEEE International Conference on Advanced Learning Technologies,2011),以及“通过在线场景分类的基于视觉显著性的空中视频概要”(J.Wang,Y.Wang,Z.Zhang,“Visual Saliency Based Aerial VideoSummarization by Online Scene Classification”,6th InternationalConference on Image and Graphics,2011)。
然而,由于需要大容量处理、视频/音频分析器和语义/本体描述和解释的限制,这些方案并不适合概括显著数量的视频内容。此外,这些方案不与例如那些目前正在互联网用户中流行的异构的和多种视频服务提供方交互,它们不是基于用户反馈,并且它们不能提出动态视频概要。此外,由于它们使用视频分析、分段和/或特定元数据本体/语义,所以它们的响应时间非常显著,并且在不同的被使用的语义描述之间没有明显的转换。
发明内容
本发明旨在通过提出用于自动概括视频内容的过程来改进现有技术,所述过程对于概括来自网络的异构视频服务提供方的大容量的视频数据特别有效,以便向所述视频服务提供方的用户提供动态更新的和丰富的视频概要,同时限制使用经典的概要方法会遇到的缺点。
为此目的,并且根据第一方面,本发明涉及用于针对网络中的至少一个视频服务提供方的用户自动概括视频内容的过程,所述过程提供:
-监视关于至少两个视频混搭(“mashup”)的信息,所述至少两个视频混搭由所述视频服务提供方的用户生成,所述混搭包含所述视频内容的至少一个镜头;
-分析所述信息从而识别所述视频内容的最流行的镜头;
-编辑视频概要,所述视频概要包括所述被识别的镜头的至少一个。
根据第二方面,本发明涉及用于自动概括来自网络中的视频服务提供方的视频内容的应用,所述应用包括:
-至少一个用于监视关于至少两个视频混搭的信息的模块,所述至少两个视频混搭由所述视频服务提供方的用户生成,所述混搭包含所述视频内容的至少一个镜头,所述模块包括用于分析所述信息从而识别所述视频内容的最流行的镜头的部件;
-至少一个用于编辑视频概要的模块,所述视频概要包括所述被识别的镜头的至少一个。
根据第三方面,本发明涉及一种用于包括至少一个视频服务提供方的网络和手工视频创作(“composing”)应用的架构,所述手工视频创作应用允许所述网络用户从所述服务提供方的至少一个视频内容生成视频混搭,所述架构进一步包括用于针对用户自动概括视频内容的应用,所述应用包括:
-至少一个用于监视关于至少两个视频混搭的信息的模块,所述混搭包含所述视频内容的至少一个镜头,所述模块包括用于分析所述信息从而识别所述视频内容的最流行的镜头的部件;
-至少一个用于编辑视频概要的模块,所述视频概要包括所述被识别的镜头的至少一个。
附图说明
本发明的其它方面和优点将在参考附图所做的以下描述中显而易见,在附图中:
-图1示意性示出用于包括至少一个视频服务提供方的网络和手工视频创作应用(例如包括用于实现根据本发明的方法的部件的应用)的架构;
-图2示意性示出根据本发明的过程的步骤中的一些;
-图3示意性示出具有明显的模块的、仅具有手工视频创作应用和概括应用的图1的架构。
具体实施方式
关于这些附图,将在下文描述用于自动概括在网络中的至少一个视频服务提供方1的用户的视频内容的过程、包括用于实现所述过程的部件的应用2和用于包括至少一个视频服务提供方1的网络、手工视频创作应用3以及所述概括应用2的架构。
如在图1中所示,视频服务提供方1可以是例如Youtube、Tivizio、Kaltura或Flickr的视频分享服务提供方。它们还可以是例如Facebook、Google或MySpace的社交网络服务提供方。目前,用户产生上百个视频、音频和图像内容,特别是通过智能手机或照片相机,并且在这样的服务提供方1上发布。
手工视频创作应用2可以是基于云的web 2.0应用并且允许网络用户从架构的视频服务提供方1的至少一个视频内容B生成视频混搭A,即视频段或剪辑和音频段的组合(“composition”)。为此,手工视频创作应用3包括至少一个用于与视频服务提供方1交互的专用应用程序编程接口(API),以便获得视频内容B,这样的应用的用户希望使用视频内容B来生成视频混搭A。特别地,采用基于web的手工视频创作应用3,架构的用户特别是可以与这样的应用的其他用户协作来生成视频混搭A。
一般来说,希望生成视频内容B的视频概要或若干视频内容B的视频混搭A的用户必须查看、评论和/或分割这样的(多个)视频内容来选择最相关的镜头。然而,镜头的选择从一个用户到另一个用户可以差异很大,从而使得可以从唯一的视频内容B生成多种视频概要和混搭A。
因此,针对向在网络中的至少一个视频服务提供方1的用户提供视频内容B的有效概要,过程提供用于监视关于至少两个视频混搭A的信息,该至少两个视频混搭A由这样的视频服务提供方1的用户生成并且包含这样的视频内容的至少一个镜头。
为此,架构包括用于自动概括来自网络中的视频服务提供方1的视频内容B的应用2,所述应用包括至少一个用于监视关于至少两个视频混搭A的这样的信息的模块,所述至少两个视频混搭A包含所述视频内容的至少一个镜头。
特别地,过程可以提供从视频混搭A的描述符来监视关于所述视频混搭的信息,所述描述符存储在数据库中。视频文件(即未经加工的视频内容或视频混搭)的描述符是具有特定格式的文件,例如.xml文件,并且包含关于所述视频文件的技术信息,例如原始视频内容的URL(统一资源定位符)地址、所述视频文件的开始和结束、每秒帧(FPS)速率,或所述文件的持续时间。
为此,手工视频创作应用3包括这样的数据库4,其中所述应用的用户存储他们生成的视频混搭A的描述符,从而使得希望访问所述视频混搭或者希望访问原始视频内容B的用户将仅提取描述符,并且因此将不需要从相应的视频服务提供方1下载所述视频混搭或内容。
关于图3,应用2包括用于与手工视频创作应用3交互从而从所述创作应用的数据库4提取相关视频混搭A的描述符的部件,从而使得用于监视概括应用2的至少一个模块从所述描述符监视关于所述混搭的信息。
因此,过程提供分析被监视的信息从而识别视频内容B的最流行的镜头。为此,用于监视概括应用2的至少一个模块包括用于分析被监视的信息从而识别最流行的镜头的部件。
特别地,被监视的信息包括视频内容B的出现在视频混搭A中的镜头,从而使得在视频混搭A中出现最多的镜头可以被识别为最流行的镜头。
为此,概括应用2包括用于监视视频混搭A的组合的模块5,该视频混搭A包括视频内容B的至少一个镜头,特别是在所述视频混搭中出现的所述视频内容的镜头,所述模块包括用于分析所述组合的部件以便提取关于视频内容B的镜头的统计数据,并且因此从所述数据将在视频混搭A中出现最多的所述视频内容的镜头识别为最流行的镜头。特别地,统计数据由手工视频创作应用3的特定部件计算并且被存储在所述创作应用的数据库4中,用于监视组合的模块5与所述数据库交互从而提取涉及在被监视的混搭A中发生的镜头的统计数据。
统计数据特别地包括针对视频内容B的每个镜头的发生率分数(“scores of occurrences”),所述分数在例如政治、体育或商业的不同上下文中计算。它们可以是以数字、在时期上的频率、百分比或趋势的形式,并且它们还可以被链接到查看、分享、编辑、评论或元数据的数量。总而言之,关于镜头、混搭A和/或视频内容B的所有种类的动作和/或交互可以由手工视频创作应用3记录并且被用作统计数据。
过程可以提供根据预定义规则来识别视频内容的最流行的镜头。为此,概括应用2包括预定义规则的至少一个模块6,模块5包括与所述预定义规则的模块交互的部件。关于图3,概括应用2包括用于存储预定义规则的专用数据库7,预定义规则的模块6一当与模块5交互就与所述数据库交互从而提取有关的预定义规则。
预定义规则包括用于识别最流行的镜头的规则。例如,仅在具有最高使用频率的镜头呈现小于五分钟的总持续时间的情况下,可以提供规则以用于将所述镜头选择为流行的镜头。此外,可以提供推论规则以用于修剪总持续时间多于五分钟的流行的镜头。
特别地,针对更好的概要个性化,过程可以提供由用户预定义的规则。为此,关于图3,概括应用2包括用于允许用户预定义规则的模块8,所述模块包括用于提供在所述概括应用的用户接口上的专用子接口从而允许用户做出所述预定义的部件。
根据非代表性变形,可以在预定义规则的模块6中实现用于用户预定义的模块8的特征和/或用于存储预定义规则的数据库7的特征。
过程提供编辑视频概要,所述视频概要包括视频内容B的被识别的镜头的至少一个镜头。为此,概括应用2包括至少一个模块9,该模块9用于与用于监视和分析的至少一个模块协作来编辑所述视频概要。
特别地,用于编辑的模块9包括与用于监视和分析视频混搭A的组合的模块5交互的部件,以便通过链接视频内容B的被识别的最流行镜头来编辑视频概要。
过程还可以提供根据预定义规则来编辑视频概要。为此,预定义规则的模块6可以包括用于编辑视频概要的专用规则,用于编辑的模块9包括与预定义规则的所述模块交互的部件。
例如,预定义规则可以包括指示必须在视频概要的镜头之间添加标题和/或过渡的规则。它们还可以包括用于将视频概要的持续时间限制到视频内容的总持续时间的至多10%的规则,或者如果可能的话,还可以包括添加副标题的规则。
关于图2,被编辑的视频概要S1、S2将呈现不同组合,以及特别是根据被应用的预定义规则的不同持续时间。基于被表示的混搭A的组合的分析,用于所述分析的模块5已经将镜头C识别为与视频内容B最相关,从而使得它会在所述混搭的四个混搭中出现。因此,根据预定义编辑规则,用于编辑的模块9将编辑仅包括最相关的镜头C的短视频概要S1,或者编辑还包括视频内容B的其它较为不流行的镜头D、E、F的长视频概要S2,所述镜头至少在混搭A中的一个中出现。
关于视频混搭A的信息还可以包括在生成所述混搭的期间由用户输入的文本数据,所述文本数据被进一步分析从而编辑用于视频概要的文本描述。为此,概括应用2包括用于监视和分析视频混搭A的文本数据的模块10,用于编辑的模块9包括用于根据所述分析来编辑用于视频概要的文本描述的部件。
关于视频混搭A的信息还可以包括元数据和/或注释,所述元数据和/或注释被进一步分析从而编辑用于视频概要的视频过渡。特别地,视频混搭A的元数据和/或注释可以涉及所述视频混搭的生成的上下文,即所述视频混搭的主要话题或目标听众。为此,概括应用2包括用于监视和分析视频混搭A的元数据和/或注释的模块11,用于编辑的模块9包括用于根据所述分析来编辑用于视频概要的恰当的视频过渡的部件。
在有关的视频混搭A中的至少一个混搭是由至少两个用户生成时,过程还可以提供保存在所述混搭生成的期间所述用户之间发生的会话,所述会话被进一步监视为关于所述混搭的信息并且被分析从而编辑视频概要。特别地,可以以任何类型的格式(例如视频格式、音频格式和/或文本格式)呈现会话。
为此,概括应用2包括用于保存所述会话的模块12,所述模块包括用于监视和分析所述会话作为关于所涉及的视频混搭A的信息的部件,从而使得用于编辑的模块9根据所述分析来编辑视频概要。
特别地,过程可以提供连续并且动态地更新视频概要,从而使得用户将受益于最新的并且不断丰富的视频概要。因此,信息还可以包括先前的视频混搭的更新和/或已经生成所述混搭的用户的简档(“profile”)的更新,和/或甚至包括关于新生成的视频混搭的信息,该新生成的视频混搭包括视频内容B的至少一个镜头。确实,所述更新可以特别地具有对于视频内容B的镜头流行度的影响。
为此,概括应用2包括至少一个用于监视和分析上文提及的所述信息的至少一种的模块。关于图3,概括应用包括分别用于监视和分析先前的视频混搭的更新和已经生成所述混搭的用户简档的更新的两个模块13、14。特别地,这些模块13、14中的每一个包括用于保存在被编辑的视频概要和相应的视频混搭和用户简档之间的链接的部件,从而使得用于编辑的至少一个模块根据所述数据的监视和分析来编辑(即更新)视频概要。
关于新生成的视频混搭,用于监视和分析的所有前述模块5、10、11、12适于考虑它们,从而使得用于编辑的至少一个模块编辑(即更新)视频概要。
关于图3,概括应用2包括用于编辑新的视频概要的模块9和用于根据上文提及的更新信息的分析来编辑(即更新)先前编辑的视频概要的专用模块15,以便考虑新的统计数据、文本数据、元数据和/或注释。根据非代表性变形,可以在用于编辑的唯一的模块中实现用于编辑的这些模块9、15两者的特征。
针对更好地个性化视频概要,过程可以提供允许用户给出关于被编辑的视频概要的反馈,所述反馈被进一步监视为信息并且被分析用于编辑所述视频概要。此外,用户的介入还可以允许避免视频概括的已知方法的缺点,例如可以在经典的视频内容B的音频和视频文件的分析之间特别观察到的语义差距。
为此,概括应用2包括用于允许用户给出所述反馈的模块16,所述模块包括用于监视和分析所述反馈的部件,从而使得用于更新的模块15再次根据所述分析来编辑视频概要。
关于图1和图3,概括应用2包括用于保存被编辑的视频概要的描述符的数据库17,从而使得所述描述符对于希望看见所述概要的用户可用,而无需从视频服务提供方1下载对应的原始视频内容B。为此,概括应用2包括通过用户接口提供用户友好的视频门户搜索的部件,该视频门户搜索向网络用户提供全球接入点以在由异构视频服务提供方1提供的巨大库存中准确搜索视频内容B,并且因此不需要下载所述内容。
特别地,如在图1和图3中所示,架构包括至少一个应用或服务18,该应用或服务18包括用于利用存储在数据库17中的视频概要描述符以便基于例如电子学习服务、文化活动或体育赛事的视频概要来提供专用服务的部件。
要将最新的视频概要提供给用户,概括应用2还可以包括删除视频概要的部件,与该视频概要对应的视频内容B已经从架构的视频服务提供方1删除。为此,概括应用2包括用于在视频概括描述符的每一个中连续检查原始视频内容B的URL地址的有效性的专用部件,从而使得如果所述地址不再有效,则视频概要描述符将被删除。
在用户从视频内容B生成视频混搭A时,过程提供特别地基于统计分数和数据的所述内容的隐式概要。因此,过程提供不需要使用经典的视频和/或音频分析器的视频概要,并且因此允许避免使用这样的分析器一般会观察到的缺点。此外,通过使用视频描述符而不是原始视频内容B,过程允许将到巨大数量的视频文件的访问聚集到唯一和准确的接入点。
说明书和附图仅示出本发明的原理。因此将理解的是,虽然在本文中没有明确描述或示出,但是本领域技术人员将能够设计体现本发明原理并且包括在其精神和范围内的多种布置。此外,在本文中列举的所有示例主要明确旨在仅用于教学目的,以帮助读者理解本发明的原理和由发明人贡献的改进现有技术的概念,并且应被解释为不限于所述特别列举的示例和条件。此外,在本文中列举的本发明的原理、方面和实施例以及其特定示例的所有陈述旨在包括其等同物。

Claims (13)

1.一种用于针对网络中的至少一个视频服务提供方(1)的用户自动概括视频内容(B)的过程,所述过程提供:
-监视关于由所述视频服务提供方(1)的用户生成的至少两个视频混搭(A)的信息,所述混搭包含所述视频内容的至少一个镜头(C,D,E,F);
-分析所述信息从而识别所述视频内容的最流行的镜头(C);
-编辑包括至少一个所述被识别的镜头的视频概要(S1,S2)。
2.根据权利要求1所述的过程,其特征在于被监视的信息包括所述视频内容(B)的出现在所述视频混搭(A)中的镜头(C,D,E,F),在视频混搭(A)中出现最多的镜头(C)被识别为最流行的镜头。
3.根据权利要求1或2所述的过程,其特征在于所述过程提供识别所述视频内容(B)的最流行的镜头(C)和/或根据预定义规则编辑所述视频概要(S1,S2)。
4.根据权利要求3所述的过程,其特征在于所述规则由所述用户预定义。
5.根据权利要求1至4中的任意一项所述的过程,其特征在于从所述视频混搭的描述符监视关于所述视频混搭(A)的信息,所述描述符存储在数据库(4)中。
6.根据权利要求1至5中的任意一项所述的过程,其特征在于关于所述视频混搭(A)的信息包括在生成所述混搭的期间由用户输入的文本数据,所述文本数据被分析从而编辑用于所述视频概要(S1,S2)的文本描述。
7.根据权利要求1至6中的任意一项所述的过程,其特征在于关于所述视频混搭(A)的信息包括元数据和/或注释,所述元数据和/或注释被分析从而编辑用于所述视频概要(S1,S2)的视频过渡。
8.根据权利要求1至7中的任意一项所述的过程,其特征在于至少一个视频混搭(A)由至少两个用户生成,所述过程提供保存在生成所述混搭的期间所述用户之间发生的会话,所述会话被进一步监视为信息并且被分析从而编辑所述视频概要(S1,S2)。
9.根据权利要求1至8中的任意一项所述的过程,其特征在于所述信息包括先前的视频混搭(A)的更新、和/或已经生成所述视频混搭的用户的简档的更新、和/或关于包括所述视频内容(B)的至少一个镜头(C,D,E,F)的新生成的视频混搭(A)的信息。
10.根据权利要求1至9中的任意一项所述的过程,其特征在于所述过程提供允许用户给出关于被编辑的视频概要(S1,S2)的反馈,所述反馈被进一步监视为信息并且被分析以便编辑所述视频概要(S1,S2)。
11.一种用于自动概括来自网络中的视频服务提供方(1)的视频内容(B)的应用(2),所述应用包括:
-至少一个用于监视关于由所述视频服务提供方(1)的用户生成的至少两个视频混搭(A)的信息的模块(5,10,11,12,13,14,16),所述混搭包含所述视频内容的至少一个镜头(C,D,E,F),所述模块包括用于分析所述信息从而识别所述视频内容的最流行的镜头(C)的部件;
-至少一个用于编辑包括至少一个所述被识别的镜头的视频概要的模块(9,15)。
12.根据权利要求11所述的应用(2),其特征在于所述过程包括用于监视和分析所述视频内容(B)的出现在所述视频混搭(A)中的镜头(C,D,E,F)的模块(5),所述模块将在视频混搭(A)中出现最多的镜头(C)识别为最流行的镜头。
13.一种用于包括至少一个视频服务提供方(1)的网络和手工视频创作应用(3)的架构,所述手工视频创作应用允许所述网络的用户从所述服务提供方的至少一个视频内容(B)生成视频混搭(A),所述架构进一步包括用于针对用户自动概括视频内容(B)的应用(2),所述应用包括:
-至少一个用于监视关于至少两个视频混搭(A)的信息的模块(5,10,11,12,13,14,16),所述混搭包含所述视频内容的至少一个镜头(C,D,E,F),所述模块包括用于分析所述信息从而识别所述视频内容的最流行的镜头(C)的部件;
-至少一个用于编辑包括至少一个所述被识别的镜头的视频概要(S1,S2)的模块(9,15)。
CN201380055121.XA 2012-08-24 2013-08-19 用于针对网络中至少一个视频服务提供方的用户自动概括视频内容的过程 Pending CN104756105A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12306020.4A EP2701078A1 (en) 2012-08-24 2012-08-24 Process for summarising automatically a video content for a user of at least one video service provider in a network
EP12306020.4 2012-08-24
PCT/EP2013/067208 WO2014029714A1 (en) 2012-08-24 2013-08-19 Process for summarising automatically a video content for a user of at least one video service provider in a network

Publications (1)

Publication Number Publication Date
CN104756105A true CN104756105A (zh) 2015-07-01

Family

ID=46801391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380055121.XA Pending CN104756105A (zh) 2012-08-24 2013-08-19 用于针对网络中至少一个视频服务提供方的用户自动概括视频内容的过程

Country Status (6)

Country Link
US (1) US20150189402A1 (zh)
EP (1) EP2701078A1 (zh)
JP (1) JP2015532043A (zh)
KR (1) KR20150046221A (zh)
CN (1) CN104756105A (zh)
WO (1) WO2014029714A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109844736A (zh) * 2017-05-05 2019-06-04 谷歌有限责任公司 概括视频内容

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10971191B2 (en) * 2012-12-12 2021-04-06 Smule, Inc. Coordinated audiovisual montage from selected crowd-sourced content with alignment to audio baseline
US20150348587A1 (en) * 2014-05-27 2015-12-03 Thomson Licensing Method and apparatus for weighted media content reduction
US9313556B1 (en) 2015-09-14 2016-04-12 Logitech Europe S.A. User interface for video summaries
US10299017B2 (en) 2015-09-14 2019-05-21 Logitech Europe S.A. Video searching for filtered and tagged motion
US9805567B2 (en) 2015-09-14 2017-10-31 Logitech Europe S.A. Temporal video streaming and summaries
WO2017046704A1 (en) 2015-09-14 2017-03-23 Logitech Europe S.A. User interface for video summaries
US10904446B1 (en) 2020-03-30 2021-01-26 Logitech Europe S.A. Advanced video conferencing systems and methods
US10972655B1 (en) 2020-03-30 2021-04-06 Logitech Europe S.A. Advanced video conferencing systems and methods
US10965908B1 (en) 2020-03-30 2021-03-30 Logitech Europe S.A. Advanced video conferencing systems and methods
US10951858B1 (en) 2020-03-30 2021-03-16 Logitech Europe S.A. Advanced video conferencing systems and methods

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1511287A (zh) * 2001-04-23 2004-07-07 Svod��˾ 节目指南增强
US20080235589A1 (en) * 2007-03-19 2008-09-25 Yahoo! Inc. Identifying popular segments of media objects
CN101325680A (zh) * 2007-06-15 2008-12-17 索尼株式会社 图像处理装置和方法及程序

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284392A (ja) * 2004-03-26 2005-10-13 Toshiba Solutions Corp ダイジェスト配信リスト生成サーバ及びダイジェスト配信リスト生成プログラム
JP2006186672A (ja) * 2004-12-27 2006-07-13 Toshiba Corp 映像再生装置、ネットワークシステム及び映像再生方法
US20070297755A1 (en) * 2006-05-31 2007-12-27 Russell Holt Personalized cutlist creation and sharing system
JP5169239B2 (ja) * 2008-01-18 2013-03-27 ソニー株式会社 情報処理装置および方法、並びにプログラム
WO2013001135A1 (en) * 2011-06-28 2013-01-03 Nokia Corporation Video remixing system
US9363488B2 (en) * 2012-01-06 2016-06-07 Nokia Technologies Oy Methods, apparatuses and computer program products for analyzing crowd source sensed data to determine information related to media content of media capturing devices
WO2014001607A1 (en) * 2012-06-29 2014-01-03 Nokia Corporation Video remixing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1511287A (zh) * 2001-04-23 2004-07-07 Svod��˾ 节目指南增强
US20080235589A1 (en) * 2007-03-19 2008-09-25 Yahoo! Inc. Identifying popular segments of media objects
CN101325680A (zh) * 2007-06-15 2008-12-17 索尼株式会社 图像处理装置和方法及程序

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109844736A (zh) * 2017-05-05 2019-06-04 谷歌有限责任公司 概括视频内容
CN109844736B (zh) * 2017-05-05 2023-08-22 谷歌有限责任公司 概括视频内容

Also Published As

Publication number Publication date
KR20150046221A (ko) 2015-04-29
EP2701078A1 (en) 2014-02-26
WO2014029714A1 (en) 2014-02-27
JP2015532043A (ja) 2015-11-05
US20150189402A1 (en) 2015-07-02

Similar Documents

Publication Publication Date Title
CN104756105A (zh) 用于针对网络中至少一个视频服务提供方的用户自动概括视频内容的过程
KR101557494B1 (ko) 비디오 인터벌 주석
KR102028198B1 (ko) 동영상 장면과 메타데이터 저작 방법
US8831403B2 (en) System and method for creating customized on-demand video reports in a network environment
US10210253B2 (en) Apparatus of providing comments and statistical information for each section of video contents and the method thereof
US20190392866A1 (en) Video summarization and collaboration systems and methods
US8489600B2 (en) Method and apparatus for segmenting and summarizing media content
CN101300567B (zh) 在Web上的媒体共享和创作的方法
US20150139610A1 (en) Computer-assisted collaborative tagging of video content for indexing and table of contents generation
CN106354861A (zh) 电影标签自动标引方法及自动标引系统
Tran et al. Exploiting character networks for movie summarization
Teyssou et al. The InVID plug-in: web video verification on the browser
US9788084B2 (en) Content-object synchronization and authoring of dynamic metadata
JP6920475B2 (ja) デジタルビデオコンテンツの修正
KR101916874B1 (ko) 자동으로 동영상 하이라이트 영상의 제목을 생성하는 방법, 장치 및 컴퓨터 판독가능 기록 매체
Dimoulas et al. Application of mobile cloud-based technologies in news reporting: Current trends and future perspectives
CN111263186A (zh) 视频生成、播放、搜索以及处理方法、装置和存储介质
CN103530311A (zh) 对元数据进行优先次序排序的方法和装置
CN114845149A (zh) 视频片段的剪辑方法、视频推荐方法、装置、设备及介质
US20150026147A1 (en) Method and system for searches of digital content
Valdés et al. A framework for video abstraction systems analysis and modelling from an operational point of view
Outtagarts et al. A cloud-based collaborative and automatic video editor
Scipione et al. I-Media-Cities: A Digital Ecosystem Enriching A Searchable Treasure Trove Of Audio Visual Assets
Ma et al. An Autonomous Data Collection Pipeline for Online Time-Sync Comments
KR101646244B1 (ko) 비정형 메타데이터 기반 미디어 자산 관리기

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150701

WD01 Invention patent application deemed withdrawn after publication