CN1306438C - 媒介分段系统和相关的方法 - Google Patents

媒介分段系统和相关的方法 Download PDF

Info

Publication number
CN1306438C
CN1306438C CNB011230681A CN01123068A CN1306438C CN 1306438 C CN1306438 C CN 1306438C CN B011230681 A CNB011230681 A CN B011230681A CN 01123068 A CN01123068 A CN 01123068A CN 1306438 C CN1306438 C CN 1306438C
Authority
CN
China
Prior art keywords
scene
media
frame
color
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB011230681A
Other languages
English (en)
Other versions
CN1359082A (zh
Inventor
林童
张洪江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1359082A publication Critical patent/CN1359082A/zh
Application granted granted Critical
Publication of CN1306438C publication Critical patent/CN1306438C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/40Combinations of multiple record carriers
    • G11B2220/45Hierarchical combination of record carriers, e.g. HDD for fast access, optical discs for long term storage or tapes for backup
    • G11B2220/455Hierarchical combination of record carriers, e.g. HDD for fast access, optical discs for long term storage or tapes for backup said record carriers being in one device and being used as primary and secondary/backup media, e.g. HDD-DVD combo device, or as source and target media, e.g. PC and portable player

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

一种方法,包括接收媒介内容和分析所接收的媒介的连续场面的一个或多个属性。至少部分基于一个或多个属性的分析,对每个连续场面产生相关值,其中,执行场景分段以对语义相关的场面进行分组。

Description

媒介分段系统和相关的方法
                    技术领域
本发明涉及一种图象处理,更具体地说,是涉及一种媒介分段系统和相关的方法。
                    技术背景
随着近年来数据处理、存储及网络技术的发展,许多个人计算机系统有能力接收、处理和再现多媒体对象(例如音频、图象和视频内容)。例如,应用于多媒体再现领域的这种计算能力的一个示例,是使视频内容从一个远程服务器通过网络“流”到一个具有适当配置的计算系统,用于在该计算系统上再现。再现系统有很多种,所提供的功能类似于典型的视频盒式磁带放象机/录像机(VCR)。然而,随着计算能力的增强,消费者期望能有更先进的性能。这种期望的最初示例是快速访问相关媒介内容的能力。现有技术的系统尚不能满足这一期望。
为了适应和访问媒介庞大的数据量,目前可以采用各种图象数据库和视觉信息系统。这些系统已用于各种各样的应用装置,包括医学图象管理、CAD/CAM系统、罪犯识别系统、剪辑图库等等。现有技术的系统可能采用多种搜索技术之任一种,以访问及检索相关信息。这些现有技术的系统基本上是利用基于文本的、关键词方法对这种媒介内容进行编索引和检索。根据这一方法,每一帧(frame)、场面(shot)或场景(scene)(每一项包括一个或多个前者)被存储为数据库对象,其中数据库中的每一幅图象(例如帧、场面、场景)与人工产生的该对象的文字说明相关。于是采用逻辑查询可以检索这些关键词描述信息,其中的检索是基于对查询文本的精确匹配或概率匹配。
而这些现有技术系统的作用是激励了人们对这种技术的欲望,这些现有技术的系统中没有一个真正促进了基于内容的媒介搜索,因此未能全面地寻到所需的位置以访问和检索特定的媒介内容。专门基于文本的系统中存在几个问题。自动产生描述性关键词或提取建立分类层次所需的语义信息,已超出了当前计算图象和智能技术的能力。相应地,这种图象的文字描述应该是人工产生的。应该理解的是,人工输入关键词描述信息是冗长乏味的、耗费时间的过程,易于不精确和受描述的限制。而且,某些视觉特性,例如结构和图案的描述,如果不是不可能的话,也往往是难以充分地或精确地用一些文字说明来描述,特别是对于那些多用途的索引编制和检索应用装置而言。
而已讨论的其它方法试图基于内容对媒介定性地分段.所有方法的计算量是巨大的,结果,对于几乎是实时用户应用装置而言是不适用的。这些现有技术的方法一般都试图在各帧之间识别相似材料以检测出场面边界线。本领域技术人员可理解的是,场面边界线常常表示编辑点,例如摄像渐变,并不是语义的边界线。而且,由于所涉及的计算的复杂性,这种场面往往被定义为静态的,或在前的固定数量的帧,或是随后的编辑点(例如在先的三帧和后来的三帧)。在这方面,这种在先技术的系统一般都利用帧的固定窗口定义一个场面。
相反,场景包括语义上相似的场面,因此可包含多个场面边界线。相应地,在先技术的方法是基于两个场面之间帧的视觉相似性,往往不会产生好的效果,所需要的是对场面之间语义相关性的定量值。
因此,提出一种媒介分段系统和相关的方法,不受在先技术的系统一般常带有的局限性的妨碍。
                     本发明概述
本发明涉及一种媒介分段系统和相关的方法,便于实现在语义级对媒介内容的快速访问和检索。根据本发明的一个实施例,所提出的一种方法包括:接收媒介内容并分析所接收媒介的连续场面的一个或多个属性;至少是部分地根据对该一个或多个属性的分析,产生相对于每一个连续场面的相关值,其中实现场景分段,将语义上紧密结合的场面分组。
                    附图简述
在所有附图中相同的参考编号用于表示相同的部件和装置。
图1是含有本发明之思想的计算系统示例的方框图;
图2是根据本发明的一个实施例实现基于内容的场景分段的媒介分析工具之示例的方框图;
图3说明了根据本发明的一个方面表示颜色对象分段和跟踪;
图4说明根据本发明的一个方面表示扩展窗口场面分组技术;
图5说明根据本发明的一个方面的数据结构,该数据结构包括扩展场景窗口;
图6说明了根据本发明的一个方面的共生矩阵(co-occurrencematrices),它用于瞬间切片分析;
图7是根据本发明的一个实施例的用于基于内容的场景分段方法示例之流程图;
图8是根据本发明的一个方面的颜色对象分段方法之示例的流程图,该方法用于识别媒介内容的场面之间的语义相似性;
图9是根据本发明的一个方面的瞬间切片分析方法之示例的流程图,该方法可识别媒介内容的场面之间的语义相似性;
图10是存储媒介示例的方块图,该存储媒介含有存储其中的多条可执行指令,在这些可执行指令中至少包括一个子集,当执行该指令子集时,实现含有本发明之思想的媒介分析工具。
                      详细说明
本发明涉及一种基于内容的场景分段系统和相关的方法。在这方面,本发明克服了现有技术的图象存储和检索系统所带有的常见的多种局限性,这些现有技术的系统主要依赖于文字的关键词。本发明的创造性特征是在视觉的媒介内容范围设计的。然而,应该理解的是,本发明并未限制于此,以下说明的创新的媒介分析工具充分利用这里所述的创造性思想,对各种各样的任何多媒体内容实现基于内容的媒介分段,例如所述的多媒体内容包括音频内容、图象内容等。在这方面,以下所述的实施例只是对本发明的范围和宗旨做出例证。
在对本发明的说明中,将根据以上的附图说明网络结构和相关方法之示例。然而,应该注意的是,在不背离本发明的情况下,可以对这里所述的结构和方法适当地做出修改。实际上,这种替代的实施例在本发明的范围和宗旨内是可以预料的。
                  计算系统示例
图1说明了一种计算系统102示例,它包括一种创新的媒介分析工具104,该工具分析媒介内容,在一个场面的每帧内识别一个或多个对象,将含有类似对象的场面分段成场景,用于存储并在之后用于基于内容的访问和检索。正如以上所介绍的,并根据以下说明可以理解的是,在不背离本发明的宗旨和范围的情况下.该分析工具104可被充分利用,为实现基于内容的搜索之目的而对其它类型的媒介进行识别和分段。应该理解的是,尽管在图1中的分析工具104被描述为一个分离的、独立的应用程序,它也可以适当地作为应用程序的一个功能来实现,例如媒介播放器、媒介信息库、支解者(ripper)应用程序等。由以下的说明将清楚地看出,计算机102是用来表示任何种类的、为一般目的或特定目的的计算平台,当该计算平台具有创新的分析工具104时,它根据上述的第一实施例实现本发明的思想。可以理解的是,尽管在图1的说明中,分析工具104被描述为一种软件应用程序,可以选择的是,计算机102也支持工具104实现为一种硬件。在这方面,除了对分析工具104的说明外,以下对计算机系统102的说明只是用来作为例证,在不背离本发明的宗旨和范围的情况下,性能更好或更弱的计算机系统可以适当地被替代。
如图所示,计算机102包括一个或多个处理器或处理单元132、系统存储器134和总线136,总线136将各种系统部件(包括系统存储器134)连接至处理器132。
总线136表示任何种类的总线结构之一种或多种,包括存储器总线或存储器控制器、外围设备总线、加速图形端口及处理器或采用多种总线结构之任何总线的局部总线。系统存储器包括只读存储器(ROM)138和随机存取存储器(RAM)140。基本输入/输出系统(BIOS)142存储于ROM 138中,该系统包括有助于在计算机102内各部件之间传输信息的基本程序库。计算机102还包括一个硬盘驱动器144,用于对硬盘(未示出)的读写;一个磁盘驱动器146,用于对可携带磁盘148进行读写;以及一个光盘驱动器150,用于对可携带光盘152进行读或写操作,例如CD ROM、DVD ROM或其它类似的光学媒介。该硬盘驱动器144、磁盘驱动器146和光盘驱动器150通过SCSI(小型计算机系统接口)接口154或某些其它适用的总线接口而连接到总线136。这些驱动器及其相关的计算机可读媒介为计算机102提供计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。
尽管这里所述的操作平台示例采用了硬盘144、可携带磁盘148和可携带光盘152,本领域技术人员可以理解的是,能够存储数据的其它类型的计算机可读媒介可以由计算机存取,例如盒式磁带、闪速(flash)存储器卡、数字式视频光盘、随机存取存储器(RAM)、只读存储器(ROM)等等,这些媒介也可以被用于该示例的操作平台。
在硬盘144、磁盘148、光盘152、ROM 138或RAM 140上可存储多个程序模块,包括操作系统158、一个或多个应用程序160(例如,包含有与本发明之思想相结合的分析工具104)、其它程序模块162和程序数据164(例如结果、语言、模型、数据结构等)。用户可通过输入装置(例如键盘166和点击装置168)向计算机102输入指令和信息。其它输入装置(未示出)可包括(话筒、操纵杆、游戏手柄、卫星碟型天线、扫描仪或其它类似装置。这些输入装置和其它输入装置通过接口170连接至处理单元132,该接口连接至总线136。监视器172或其它类型的显示装置也通过一个接口(例如视频适配器174)连接至总线136。除了监视器172外,个人计算机往往包括其它外围输出设备(未示出),例如扬声器和打印机。
如图所示,计算机102运行在网络环境之中,采用逻辑连接方式连接一个或多个远程计算机,例如远程计算机176。远程计算机176可以是另一台个人计算机、个人数字助理、服务器、路由器或其它网络设备、网络“瘦客户机(thin-client)”PC、同位体(peer)设备或其它常见的网络节点,一般包括与计算机102类似的上述许多或全部的组件,尽管在图1中只图示出存储器存储装置178。在这方面,创新的分析工具104可以由远程计算系统(例如计算系统176)充分调用和利用。
如图所示,在图1中描述的逻辑连接包括局域网(LAN)180和远程网(WAN)182。这种网络平台常见于办公室、企业区域计算机网络、企业内部互连网和因特网。在一个实施例中,远程计算机执行一个因特网浏览器程序以访问和利用在线服务,例如由位于华盛顿的雷德蒙德的微软公司生产和销售的“Internet Explorer”网上浏览器。
当用于局域网的网络平台中时,计算机102通过网络接口或适配器184连接至局域网180。当用于远程网的网络平台时,计算机102一般包括调制解调器186或其它用于在远程网182(例如因特网)上建立连接的装置。调制解调器186可以是内置式或外置式的,它经过输入/输出(I/O)接口156连接至总线136。除了网络的连通性之外,I/O接口156也支持一个或多个打印机188。在一个网络平台中,所描述的与个人计算机102相关的程序模块、或是其中的部分可存储于远程存储器存储装置。可以理解的是,所示的网络连接是示例性的,可以采用其它的手段在各计算机之间建立通信链接。
一般来说,通过在不同时间存储于计算机的各种计算机可读存储媒介的指令,计算机102的数据处理器被编程。程序和操作系统一般被分布在例如软盘或CD-ROM上。由此,它们被安装或调入计算机的辅助存储器中。在执行时,它们至少被部分调入计算机的主电子存储器中。在此描述的本发明包括这些以及其它各种类型的计算机可读存储媒介,这种媒介包含指令或程序,所述的指令或程序与微处理器或其它数据处理器相结合而共同实现以下所述的创新步骤。本发明也包括计算机本身,这种计算机是根据以下所述的方法和技术被编程的。而且,计算机的某些子部件可被编程,以实现以下所述的功能和步骤。当这种子部件按所述内容编程时,本发明包括这种子部件。另外,这里所述的本发明包括数据结构,这些数据结构被包含于各种类型的存储媒介上,如下所述。
为了实现所述的用途,程序和其它可执行程序部件(例如操作系统)在此被图示为分立的方块,尽管可以理解的是,这些程序和部件在不同的时间驻留在该计算机的不同存储部件之中,并由该计算机的数据处理器执行之。
                媒介分析工具示例
图2说明了根据本发明的一个实施例、结合有本发明之思想的媒介分析工具示例的方框图。根据图2所述的实施例,所描述的媒介分析工具104包括一个或多个控制器202、媒介分析引擎204、存储器/存储装置206、输入/输出接口以及可选择的一个或多个应用程序210,每一部分具有如图所示的连接关系。如上所述,媒介分析工具104分析所接收的媒介各帧之内容,至少是部分地根据所接收媒介之内容的一个或多个属性,将该媒介分段为不同的场景。
根据本发明的一个实施例,媒介分析工具104可以有选择地调用颜色对象分析器212、瞬间切片分析功能214和相关性检测器216之中的一个或多个,对媒介场景进行识别和分段。根据一个实施例,颜色对象分析器212或瞬间切片分析功能被调用,并与相关性检测器216组合,以识别各场面之间的语义相似性,实现场景检测和分段。如图所示,颜色对象分析器包括颜色空间量化器(quantizer)218。所描述的瞬间切片分析功能214包括运动图形分析和关键帧提取功能220,以下将做更详细的说明。如图所示,存储装置/存储器206包括的存储器存有一个或多个所接收的媒介内容224、扩展的场景窗口数据结构226和(或)被识别的场景数据结构228。以下将要详细说明的是,媒介分析引擎204分析所接收媒介的一个或多个属性(例如颜色、结构、时空信息等),以识别各场面之间的语义相似性。至少是部分地根据对语义相似性的分析,媒介分析引擎204将所接收的媒介分段为场景,随后用于基于内容的访问和检索。
可以理解的是,尽管部件202-228被描述为多个不同的功能块,其中的一个或多个可以适当地组合成一个或多个功能块。同样,分析工具104可以适当地用更少的功能块实现,即,在不背离本发明的宗旨和范围的情况下,只用对象识别功能212或瞬间切片分析功能214中的一个功能。
根据一个实施例,控制器202从任意多个源接收媒介内容,例如这些源包括本机存储装置(206)、远程媒介供应者和(或)内容存储源,通过网络连接至媒介分析工具104(参见图7)。根据一个实施例,由控制器202自远程信息源接收媒介内容并存放在存储装置/存储器224中用于分析。根据一个实施例,由主计算机102以压缩格式接收该媒介并解压,然后呈现给媒介分析工具104。在一个可选的实施例中,控制器202有选择地调用驻留在媒介分析工具104内的解码器应用程序(例如210),将以压缩格式接收的媒介解压,然后有选择地调用媒介分析引擎204。除了本发明的上述创新方面之外,控制器202是用来表示任何各种各样本领域中已知的控制逻辑,例如处理器、特定用途的集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)等等。而且,应该理解的是,控制器202可以用软件充分地实现,作为多个可执行指令,当执行这些指令时(例如由处理单元132执行),实现上述的控制功能。
媒介分析引擎204被选择性地被控制器202调用,以识别所接收媒介各场面之间的语义相关性,以便将该媒介精确地分段为场景。与现有技术不同,现有技术最多是识别各帧之间的视觉相似性,以识别出场面边界线,而媒介分析引擎204有选择地调用一个或多个语义上下文的分析器212和(或)214,以识别连续场面内的一个或多个定性的帧属性。以下将详细说明,这些属性的量化信息被提交给相关性检测器216,以确定是否这些场面在语义上是相关的或相似的。如果满足相似性的一个阈值,这些场面被分组为一个场景的至少一个子集。
根据图2所描述的示例,所描述的媒介分析引擎204包括两个语义上下文的媒介分析器:颜色对象分析器212和瞬间切片分析功能214。由以下的说明可以理解到的是,可以调用一个或多个媒介分析器用于场景分段。因此,在不背离本发明的宗旨和范围的情况下,可以用语义分析性能更强或更弱的媒介分析引擎替代所说明的
实施例。
                  颜色对象分析器
如图所示,颜色对象分析器212包括颜色量化器218。与测量视觉相似性的现有技术之方法不同,颜色对象分析器212调用颜色量化器,对于连续各场面内的一帧或多帧的一个或多个主对象和(或)周围对象,计算在颜色空间中的颜色柱状图。根据一个实施例,色度、饱和度和浓淡色度,即“HSV”,颜色空间被用于颜色量化及计算柱状图。HSV颜色空间为这种分析提供优于其它颜色空间的多个优点,因为它是自然的及与知觉近似一致的,所以,HSV颜色空间的量化产生一个色彩集,该色彩集是密集的和完整的。根据一个实施例,该HSV颜色空间是由颜色量化器218以一个三维直角坐标系进行量化,该直角坐标系分别对于X和Y有10个值、对于Z(亮度)有5个值。本领域技术人员可以理解的是,采用10个值表示颜色(即X和Y坐标)使得颜色量化器218能区别出该HSV空间中即使是稍有不同的颜色之间的差别,能够识别出更多的对象,即使是照明条件变化的情况下。
为了确定视频场面的主颜色对象,由颜色量化器218将该场面的每一帧的象素和(或)内编码(intra-encoded)帧(I)投影到已量化的颜色空间中(例如HSV颜色空间)。这些象素在三维颜色空间中的归一化分布构成该帧的三维颜色柱状图。在该三维颜色柱状图中所有主要的局部最大点被识别;由颜色量化器218将在该颜色空间中一个小邻域内环绕每个局部最大点的区域定义为一个颜色对象(例如参见图3)。一旦识别出颜色对象,颜色对象分析器212用最多的象素信息识别一个或多个对象。这些对象被识别为包含相对该帧的最重要的颜色信息,对噪声更有反弹性。根据一个实施例,颜色对象分析器212选择最高的20个对象作为主要对象。
于是,通过只对包含在主颜色对象中的象素进行计数,颜色对象分析器212产生相对于每一帧的3D主颜色柱状图。根据一个实施例,该主颜色柱状图被表示为:
histd(k,x,y,z)                                 (1)
其中,k表示帧数,x、y、z表示颜色箱(bin)。应该理解的是,已知上述内容,颜色对象分析器212在空间区域中尚不能实现对象分段,而要考虑到归入对象的颜色空间中主要区域的象素。
一旦识别出主要对象,颜色对象分析器212跟踪通过各帧的颜色空间中的对象,以识别场面的主要对象。如果在两个相邻帧中两个颜色对象的中心充分接近,这两个颜色对象被识别为相同的颜色对象。这种颜色跟踪过程一直持续到该场面中所有的帧都被跟踪。在跟踪之后,只有那些在场面中具有最长持续时间的颜色对象被记为主要对象。根据一个实施例,颜色对象分析器212对每个场面产生一个总的主颜色柱状图,表示为:
histd a(x,y,z)                                   (2)
其中a表示一个场面。总的主颜色柱状图包括的主要颜色对象是通过该场面的各帧所共有的。根据一个实施例,颜色对象分析器212对在一个场面中具有较长持续时间的颜色对象采用一个加权值,用数学式表示为:
histd A(x,y,z)=histd a(x,y,z)×d1/d0               (3)
其中d0是该场面的持续时间,d1是具有颜色(x,y,z)的主颜色对象的持续时间。根据一个实施例,颜色对象分析器212通过使该场面内的每个主颜色对象的平均尺寸归一化,进一步改善柱状图(3)。因此,一个场面的主颜色柱状图表示一帧中的结构内容和一个场面中的瞬间内容。此外,这些主颜色对象往往表示一个场面中的主要对象或背景,在两个场面中这些颜色对象之间的相关性能够表示这两个场面之间的相关性。
参见图3,图中表示根据本发明的一个方面、填充有所识别对象的HSV颜色空间之示例。如图所示,描述了两个HSV颜色空间圆柱体,例如一个表示帧(N)302,一个表示帧(N+1)304。该HSV颜色柱状图302和304被用于识别相关帧(302,304)内的主颜色对象(例如306A...N,308A...N),以识别一个场面中的主颜色对象。接着,这种HSV颜色柱状图被用于为场景分段而识别主颜色对象。
再参见图2,一旦由颜色对象分析器212产生主颜色对象柱状图,控制器202有选择地调用相关性检测器216的情况,得出两场面a和b之间的相关性值。相关性检测器216可以采用多种统计技术的任何技术,以识别场面之间的相关性。根据一个实施例,通过计算场面a和b的两个主颜色柱状图之间的柱状图交集,相关性检测器216计算出这两个场面之间的相关性,用数学式表示为:
Cor(a,b)=∑x∑y∑z min[histd A(x,y,z),histd B(x,y,z)]    (4)
其特性是:
1)0≤cor(a,b)≤1,cor(a,a)=1
2)cor(a,b)=cor(b,a)
              用于场面分组的扩展窗配置
至少部分基于相关性检测器216执行的相关性分析,控制器202将各场面分组以将媒介分段为场景。根据一实施例,控制器202将满足最小相关性阈值(Tc)的场面分组。
根据本发明的一个方面,控制器202利用存储器206的扩展窗218将相关的连续场面分组为至少部分基于相关性检测器216取出的相关性记分的一个场景。可以理解的是,根据下面的说明,扩展窗技术省略了比较许多场面对或构造复杂的场面链接的需要.因此减少了计算复杂度。
另外,考虑到瞬间约束,即时间相互接近的场面很可能属于同一场,两个场面间的相关性记分由一个瞬间接近(或吸收)参数w加权:
w=1/(1+d/C)   (5)
其中,d为两场面间的最小距离,C为至少部分由场面长度确定的常数。根据一实施例,控制器202假设每场景至少包括三场面。首先,第一组三个场面形成新场景,扩展窗的尺寸设置为3。每次分析新场面时,其相关值与窗中的上三个场面比较,确定三个相关值中的最大值v。然后,如果计算的最大值大于包含扩展窗的场面的平均最大相关性记分减任何变量,场面被吸收入扩展窗中的当前场景。控制器202执行的比较的数学表示式为:
v>平均值-变量            (6)
如果最大值(v)不满足这个阈值,分析几个更靠后的场面以改善当前场面代表新场景之起始的可信度。根据经验可以确定,在一个场景中常常有一场面不满足前面的要包括在该场景内的要求。然而,对其它连续场面的分析可能会确认当前场面不代表语义场景的结束。如果控制器202判定一个或多个后续场面满足公式(6),任何前面的场面可被包括在扩展窗218中导出的场景中。控制器202导出的当前场面I对新场景的吸收比表示为数学式:
R(i)=(right(i)+right(i+1))/(left(i)+left(i+1))    (7)
其中:如果R(i)>T且R(i)>R(i-1)且R(i)>R(i+1),其中T为阈值,
则:left(i)=max{cor(i,i-1),cor(i,i-2),cor(i,i-3)}
left(i+1)=max{cor(i+1,i-1),cor(i+1,i-2)}
right(i)=max{cor(i,i+1),cor(i,i+2),cor(i,i+3)}
right(i+1)=max{cor(i+1,i+2),cor(i+1,i+3),cor(i+1,i-4)}
根据一实施例,控制器202设置阈值T为1.5。因此,在从右端对场面i的吸收大于从左端的吸收之位置,判定当前场面i开始一个新场景。否则,控制器202放置场面i于扩展窗的当前场景中。下文参照图4和5图示描绘扩展窗。
参照图4,该图描述了将场面加入至少部分基于上述相关性测量的扩展场景窗。如图所示,控制器202将各场面的相关值与在前的及连续的场面相比较,以识别每个场面应放置在哪一个场景。
图5描绘根据本发明的一个方面的存储装置/存储器206,它包括扩展场景窗218。如上所述,扩展窗218用于将具有类似语义内容(如相关性测量所定义)的场面分组。
                  时空分析功能
除颜色对象分析器212外,或是作为对颜色对象分析器212的替代,控制器202可选择地调用时空切片分析功能214的实例(instance),以识别场面之间的语义类似性,从中可识别独立的场景。如图所示,瞬间切片分析功能214包括移动分析功能220和空间分析功能222。以下做更详细的说明,瞬间切片分析功能214从连续场面的帧中切割一个或多个横向或纵向的一维(1D)切片,以量化切片的移动图象,并选择关键帧代表一个场面的每个移动分段。至少部分地基于由该1D切片的量化特征,控制器202调用相关性检测器216的实例,以测量相邻场面的量化特征间的类似性,来识别场景边界。此外,与现有技术不同,该瞬间切片分析功能214识别场面间的语义内聚性(cohesive)以识别媒介场景。
根据一实施例,瞬间切片分析功能214从接收的媒介的垂直和水平面切割1D切片,并选择调用移动分析功能220的实例。移动分析功能220反复划分每个场面的切片为更小的片断,其每个具有连贯的移动图象。在二维时空切片,瞬间结构包含指示移动轨道的信息。根据一实施例,通常的结构分析方法是采用例如共生矩阵计算,以特征化场面中的移动图象。根据一实施例,计算15个共生矩阵以对在3个不同方向中通过5个扫描的轨道进行模拟,而代表每个矩阵的平滑度和对比度的30个特征被提取。参照图6描绘15个共生矩阵的例子。
根据一实施例,根据下列4种至少部分基于场面的基本移动之一,分析功能220特征化场面内的每个片断的移动;1)不移动或细微移动;2)放大或缩小;3)摇摄(pan);和4)字幕(title)。至少基于相对于连贯移动图象的每个片断的移动图象,根据下列原则选择一个或多个关键帧:
1)不移动或细微移动;选择任意帧用于检索
2)放大或缩小;选择第一帧和最后帧用于检索
3)摇摄;选择对应的垂直切片用于检索
4)字幕:选择对应的水平切片用于检索
一旦被检索,每个场面将由一个或多个关键帧的一组特征表示,这些关键帧至少是部分地基于上述移动分析而提取的。关键帧的特征可以是颜色柱状图或其它图象特征。至少部分基于场面的关键帧的特征,相关性检测器计算场面的类似性之值,以确定这些场面是否语义相关,如果是,控制器202将这些场面分段为一个场景,它至少暂时存储在存储器228。在一实施例中,控制器202通过识别两场面的关键帧间的柱状图交集计算场面间的相似性。另外,如上所述,根据一实施例,媒介分析工具104利用扩展窗动态地由那些满足语义相似性的阈值的场面产生场景。
这里所用的每一个存储装置/存储器206和输入/输出接口208都是用来表示本领域所公知的那些元件。媒介分析工具104利用存储器206至少部分暂时地保存媒介内容224、扩展场景窗226和/或所识别的场景228。I/O接口208使媒介分析工具104能与外部元件和系统通信,有助于实现分布式结构和远程操作。
应用程序210是用来包括各种各样的应用程序,它们可使用媒介分析引擎204、或由媒介分析引擎204所用,以自动识别具有语义内聚性的场面用于场景分段。在这方面,应用程序210可适当包括图象用户接口(GUI)、媒介播放器、媒介发生器、媒介数据库控制器等。
按以上所做的描述,可以理解的是,媒介分析工具可在多个可选的实施例中充分实现。根据一实施例,媒介分析工具104可以用软件实现而作为一个独立的应用程序,作为较高级多媒体应用的子集,如媒介解码应用程序、媒介着色(rendering)应用程序、浏览器应用程序、媒介播放器应用程序等。可选的是,媒介分析工具104也可由硬件充分实现,例如采用专用集成电路(ASIC)、控制器、可编程逻辑器件(PLD)、多媒体加速器外围装置等。这些可选的实现方式在本发明的宗旨和范围内可以预期到的。
                  运行和实施示例
以上参照图1至图6介绍了媒介分析工具104的运行环境和功能组件,以下参照图7至图10将更充分地阐述系统的运行。为简化描述,并不受限制,以下对媒介分析工具104的阐述是在按语义对视频媒介进行分段的范围中。然而,本领域技术人员知道,该媒介分析工具104可扩展到按语义对其它类型的媒介(例如音频内容)进行分段。
图7的流程图描绘了根据本发明的一个实施例、将媒介动态分段为语义类似单元的方法示例。更具体地说,根据所描述的实施例,图7表示用于将视频内容动态分段为场景的方法示例,这种分段至少部分是基于组成场景的场面间的语义类似性。
如图7所示的方法,在框702,开始接收对媒介内容分段的指示。更具体地说,媒介分析工具104的控制器202从本机应用程序(如210)或外部源(即通过I/O接口208)接收指示。
作为响应,在框704,媒介分析工具104调用媒介分析引擎204的实例来分析所识别的媒介内容,以识别组成媒介的场面间的语义类似性。如上所述,媒介分析引擎204选择地调用颜色对象分析器212以执行颜色对象分段,和/或瞬间切片分析功能214以对媒介内容进行瞬间切片分析。至少部分地基于这种分析,调用相关性检测器216识别具有统计上的语义内聚性的场面。
在框706,那些被找出的具有统计上的语义相关性的场面被分组在一起,形成语义相关的媒介内容的场景。如上所述,一旦相关性检测器216确定一个场面与在前的场面和/或随后的场面语义相关,该场景被加入到一个定义场景的场面的扩展窗(218)。利用扩展窗218使得媒介分析工具104免于现有技术常有的繁琐的复杂计算。
图8的流程图描绘了根据本发明的一个方面、颜色对象分段的方法示例。根据所述的实施例,该方法始于框802,其中,在HSV颜色空间分析媒介内容。即,来自帧的内容由颜色量化器218在HSV颜色空间中进行量化。
在框804,在HSV颜色空间中通过帧和场面识别和跟踪主对象。更具体地说,如上所述,控制器202在HSV颜色空间中识别对象,跟踪这种对象通过帧边界。帧间对象的小的位置移动指示相似的语义结构。
在框806,关于HSV颜色空间中主颜色对象的信息被发送到相关性检测器216,它至少部分地基于连续场面中的主颜色对象产生语义相似性之值。在框808,与其它场面在统计的语义上相似的场面被分组在场面的扩展窗中。一旦识别了所有语义相似的场面(并因此保存在扩展窗中),这些场面被定义为场景,存储之以方便以后的访问和检索。
图9的流程图描绘了根据本发明的一个方面、瞬间切片分析的方法示例。如上所述,媒介分析引擎204可以有选择地调用瞬间切片分析功能214作为可选方案,或者另加上颜色对象分析器212,以识别语义相似的场面,用于分段为场景。不象颜色对象分析器212,瞬间切片分析功能214分析所接收的媒介内容的移动和时空结构属性,以分段场景。
因此,根据图9的实施例,该方法始于框902,从一个或多个连续场面的一个或多个帧中提取一维水平和垂直方向的切片。在框904,至少部分地基于这些分段的移动属性,移动分析功能220反复划分这些切片更小的分段。
在框906,控制器202选择地调用瞬间分析功能222,以根据移动模式分析提取场面的关键帧,并提取这些关键帧的特征,代表该场面的视觉内容。根据上述实施例,瞬间分析功能222提取关键帧的移动、颜色和/或瞬间结构属性中的一个或多个,代表该场面的视觉内容。
在框908,向相关性检测器216提供所识别的关键帧的特征,至少部分地根据这些特征,相关性检测器216得出场面间的语义相似性的统计数值。如上所述,具有统计上的语义相似性的内容被分组在一起构成一个场景。如上所述,控制器202可充分使用扩展窗218将场面分组在场景分段中。
                     可选实施例
图10是一种存储媒介的方框图,在该存储媒介中存储有多个指令,根据本发明的另一实施例,其中包括实现根据本发明的思想的指令。图10在整体上描述了一种存储媒介/装置1000,它存储有多个可执行指令,其中至少包括在执行时可实现本发明的媒介分析工具104的可执行指令之子集。
这里所用的存储媒介1000是用来代表本领域技术人员已知的多种存储装置和/或存储媒介之一种或多种,如:易失性存储装置、非易失性存储装置、磁存储媒介、光学存储媒介等。类似地,可执行指令是用来表现任何在本领域中公知的软件语言,如:C++、VisualBasic、Hypertext Markup Language(HTML,超文本标记语言)、Java、eXtensible Markup Language(XML,可扩充标记语言)等。另外,可以理解的是,存储媒介/装置1000并不是非要与任何主机系统设在一处。即,存储媒介/装置1000可位于一个远程服务器内,该服务器与一个执行系统建立通信连接,并可由该系统访问。因此,图10的软件实现被认为是例证性的,其它存储媒介和软件实施例也在本发明的精神和范围内。
虽然本发明对结构特征和方法性步骤采用特定的术语描述,应该理解的是,权利要求书中所限定的本发明并不限于所述的具体特征或步骤。例如,这里所表述的发明原理可以适当地用于识别具有多种音频内容的存储媒介(例如音乐CD)上不同的音频内容(例如歌曲)。根据这个可选的实施例,媒介分析工具104的应用程序210产生存储媒介上的音频内容的颜色表示。有很多技术都可以适当地用于执行这个声音到视觉的转换,如:频谱分析等。一旦完成声音到视觉的转换,根据以上公开的本发明的思想,媒介分析工具104选择性地调用颜色对象分析器212、颜色量化器218和相关性检测器216,从该多种音频内容中识别出语义不同的音频内容。因此,可以理解的是,虽然公开了具体特征和步骤,但只是作为本发明的实施例,在这里说明更广泛的发明原理。

Claims (41)

1.一种用于图像处理的方法,包括:
分析所接收的媒介内容的连续场面的一个或多个属性;和
至少部分地基于对所述场面的一个或多个属性的分析,产生连续场面的相关值。
2.如权利要求1的方法,其中所述媒介内容是从远程提供者和/或本地存储器接收。
3.如权利要求1的方法,其中所述的相关值反映所述连续场面之间的语义相关性。
4.如权利要求1的方法,其中,对媒介的连续场面的一个或多个属性的分析包括:
产生帧的颜色柱状图;和
识别所述颜色柱状图中的主要颜色对象。
5.如权利要求4的方法,其中产生帧的颜色柱状图之步骤包括:
将帧的象素、和/或内部编码帧的DC块投影至一个量化的颜色空间;和
产生所述象素和/或块的归一化的分布,为每一帧产生颜色柱状图。
6.如权利要求5的方法,其中所述量化的颜色空间是色度、饱和度、及浓淡色度(HSV)颜色空间。
7.如权利要求4的方法,还包括:
在通过帧的颜色空间中跟踪所识别的颜色对象;和
至少部分地基于通过帧的主颜色对象的相对位置,检测场面的边界。
8.如权利要求1的方法,还包括:
产生所检测的场面间的相关值;和
至少部分基于所产生的相关值,把场面加入一动态调整大小的、定义场景的场面的扩展窗。
9.如权利要求8的方法,其中所产生的相关性至少部分地反映所述场面中颜色对象的相关性。
10.如权利要求8的方法,其中产生相关值之步骤包括:
识别与两个或多个场面之每个场面相关的颜色柱状图的交集。
11.一种用于控制计算机处理媒介分段的装置,所述的装置在需要时与所述计算机连接以控制所述计算机,所述装置包括媒介分析工具和相关性检测器,该媒介分析工具和相关性检测器分别包括多个可执行指令的子集,其中
当所述媒介分析工具通过该装置与所述计算机连接时,所述媒介分析工具用于控制所述计算机以分析接收到的媒介内容的连续场面的一个或更多的属性;
当所述相关性检测器通过该装置与所述计算机连接时,所述相关性检测器用于控制所述计算机以至少部分地基于场面的一个或更多的属性的分析产生用于连续场面的相关值。
12.一种用于图像处理的方法,包括:
分析在一颜色空间中与所接收的媒介内容有关的颜色信息,以识别一个或多个颜色对象;
通过所接收的媒介内容跟踪颜色对象,以识别场面;及
量化场面间的相关性,以至少部分地基于所分析的颜色信息来识别场景,该颜色信息与所接收的媒介内容有关。
13.如权利要求12的方法,其中分析颜色信息之步骤包括:
将每帧的象素、或内部编码帧的DC块投影到一个量化的颜色空间;和
产生所述象素和/或块的归一化的分布,以产生媒介内容的颜色柱状图。
14.如权利要求13的方法,还包括
识别所述颜色柱状图中的局部最大点;
定义颜色对象为环绕每个所识别的局部最大点的N个量化单元的区域。
15.如权利要求14的方法,其中所述颜色对象定义为环绕识别的局部最大点的3个量化单元的区域。
16.如权利要求14的方法,其中通过媒介内容跟踪颜色对象还包括:
在关联于两帧的颜色空间中,选择一个或多个颜色对象;和
产生对于帧的相关值,表示出现在每帧的对象是同一对象的可能性。
17.如权利要求16的方法,其中产生帧间相关值包括:
在两帧中的每帧中,定位颜色对象的中心点;和
计算每帧中的每一个对象的中心点的相对位置,其中,如果对象的相对位置不偏离预定的阈值,对象被识别为一般对象。
18.如权利要求14的方法,还包括:
产生场面颜色柱状图,以仅包括通过帧并具有最长持续时间的颜色对象,所述的帧包括所识别的场面。
19.如权利要求18的方法,其中量化场面间的相关性包括:
计算两场面颜色柱状图间的柱状图交集,以确定场面间的语义相关性。
20.如权利要求19的方法,还包括:
当场面间的相关值大于预定阈值时,将扩展窗中语义相关的场面分组。
21.如权利要求20的方法,其中场面的组合包括场景。
22.如权利要求12的方法,还包括:
当场面间的相关值大于预定阈值时,将扩展窗中语义相关的场面分组。
23.一种用于控制计算机处理媒介分段的装置,所述的装置在需要时与所述计算机连接以控制所述计算机,所述装置包括媒介分析工具和相关性检测器,该媒介分析工具和相关性检测器分别包括多个可执行指令的子集,其中
当所述媒介分析工具通过该装置与所述计算机连接时,所述媒介分析工具用于控制所述计算机以分析在一颜色空间中与所接收的媒介内容有关的颜色信息,以识别一个或多个颜色对象,通过所接收的媒介内容跟踪颜色对象,以识别场面;及
当所述相关性检测器通过该装置与所述计算机连接时,所述相关性检测器用于控制所述计算机,以至少部分地基于与所接收的媒介内容有关的所分析的颜色信息,来量化场面间的相关性以识别场景。
24.一种用于图像处理的方法,包括:
分析一个或多个所接收的媒介内容的属性,以识别所接收的内容的元素间的语义相似性;和
将接收的媒介内容分段为语义相关元素的场景。
25.如权利要求24的方法,其中的分析步骤包括:
识别所接收媒介的帧的颜色空间内的对象;和
跟踪在通过帧的颜色空间中所识别的对象,以产生帧间相关值,检测场面边界。
26.如权利要求24的方法,其中的分析步骤包括
从所接收的媒介的帧中提取一个或多个切片,以分析所接收的媒介的帧的一个或多个时空属性;
至少部分基于帧的时空属性,产生帧间相关值;及
至少部分基于该帧间相关值,选择场面内的分段边界。
27.如权利要求24的方法,其中的分段包括:
产生所识别的场面间的相关值;
用相关值大于预定阈值的场面填充动态扩展窗。
28.如权利要求27的方法,其中产生相关值之步骤包括:
至少部分地基于帧的时空属性,为所识别的场面的每个分段选择一个或多个关键帧
至少部分基于场面的关键帧的视觉特征,产生所识别场面间的相关值。
29.一种用于控制计算机以作为一媒介分析工具来处理媒介分段的装置,所述的装置在需要时与所述计算机连接以控制所述计算机,所述装置包括媒介分析工具和相关性检测器,该媒介分析工具和相关性检测器分别包括多个可执行指令的子集,其中
当所述媒介分析工具通过该装置与所述计算机连接以将分析指令传送到所述计算机时,所述媒介分析工具用于控制所述计算机以分析接收到的媒介内容的一个或更多的属性以识别所接收的内容的元素之间的语义的相似性;及
当所述相关性检测器通过该装置与所述计算机连接以将这样的指令传送给所述计算机时,所述相关性检测器用于控制所述计算机以将所述接收的媒介内容分段成语义相关元素的场景。
30.如权利要求29的装置,其中,分析所接收的媒介内容的一个或多个属性的指令包括在所接收的媒介的帧的颜色空间内识别对象的指令,和在通过帧的颜色空间中跟踪所识别的对象、以产生帧间相关值来检测场景边界的指令。
31.如权利要求29的装置,其中,分析所接收的媒介内容的一个或多个属性的指令包括从所接收的媒介的帧提取一个或多个切片的指令,以分析所接收的媒介的帧的一个或多个时空属性;至少部分地基于帧的时空属性,产生帧间相关值的指令,和至少部分基于帧间相关值选择场景边界的指令。
32.如权利要求29的装置,其中,将所接收的媒介分段的指令包括产生所识别的场面间的相关值的指令,和用相关值大于预定阈值的场面填充动态扩展窗的指令。
33.一种计算系统,包括:
盘驱动器,可移动并接收如权利要求31的存储媒介;
执行单元,连接到该盘驱动器,执行在所述可移动接收的存储媒介上的多个指令的至少一个子集,实现媒介分析工具。
34.一种计算系统,包括:
存储装置,接收和提供媒介内容;和
媒介分析工具,连接到所述存储装置,分析媒介内容的一个或多个属性,识别所接收的内容的元素间的语义相似性,和分段所接收媒介内容为语义相关元素的场景。
35.如权利要求34的计算系统,其中媒介分析工具包括:
颜色对象分析器,以将帧的象素、和/或内部编码的帧的DC块投影到一个量化的颜色空间;和产生帧的颜色柱状图。
36.如权利要求35的计算系统,其中所述颜色对象分析器从颜色柱状图中的局部最大点识别颜色空间对象,和跟踪通过帧的主要颜色空间对象,以识别语义相似帧的场面。
37.如权利要求33的计算系统,其中媒介分析工具还包括:
相关性检测器,以从颜色对象分析器接收与多个场面有关的一个或多个属性,并计算两个或多个场面间的相关值。
38.如权利要求37的计算系统,其中的媒介分析工具还包括:
动态确定尺寸的扩展窗,连接到该相关性检测器,以保留定义一个场景的语义相关场面,直到所有统计分析的场面都包括在该场景中。
39.如权利要求34的计算系统,其中媒介分析工具包括:
瞬间切片分析器,以从一个或多个帧中提取一维切片,并分析切片的一个或多个时空属性,以检测场面边界。
40.如权利要求39的计算系统,其中媒介分析工具包括:
相关性检测器,以从瞬间切片分析器接收与多个场面相关的一个或多个属性,并计算两个或多个场面间的相关值。
41.如权利要求40的计算系统,其中媒介分析工具还包括:
动态确定尺寸的扩展窗,连接到该相关性检测器,以保留定义一个场景的语义相关场面,直到所有统计分析的场面包括在该场景中。
CNB011230681A 2000-07-28 2001-07-30 媒介分段系统和相关的方法 Expired - Fee Related CN1306438C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/627,762 2000-07-28
US09/627,762 US6724933B1 (en) 2000-07-28 2000-07-28 Media segmentation system and related methods

Publications (2)

Publication Number Publication Date
CN1359082A CN1359082A (zh) 2002-07-17
CN1306438C true CN1306438C (zh) 2007-03-21

Family

ID=24516029

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011230681A Expired - Fee Related CN1306438C (zh) 2000-07-28 2001-07-30 媒介分段系统和相关的方法

Country Status (3)

Country Link
US (1) US6724933B1 (zh)
JP (1) JP4981221B2 (zh)
CN (1) CN1306438C (zh)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236395B1 (en) * 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system
JP3810268B2 (ja) * 2000-04-07 2006-08-16 シャープ株式会社 オーディオビジュアルシステム
US8028314B1 (en) 2000-05-26 2011-09-27 Sharp Laboratories Of America, Inc. Audiovisual information management system
US8020183B2 (en) 2000-09-14 2011-09-13 Sharp Laboratories Of America, Inc. Audiovisual management system
US6774908B2 (en) * 2000-10-03 2004-08-10 Creative Frontier Inc. System and method for tracking an object in a video and linking information thereto
US20030038796A1 (en) * 2001-02-15 2003-02-27 Van Beek Petrus J.L. Segmentation metadata for audio-visual content
JP4783985B2 (ja) * 2001-02-28 2011-09-28 日本電気株式会社 映像処理装置、映像表示装置及びそれに用いる映像処理方法並びにそのプログラム
KR100438269B1 (ko) * 2001-03-23 2004-07-02 엘지전자 주식회사 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법
US7904814B2 (en) 2001-04-19 2011-03-08 Sharp Laboratories Of America, Inc. System for presenting audio-video content
US7464154B2 (en) * 2001-05-18 2008-12-09 Network Resonance, Inc. System, method and computer program product for analyzing data from network-based structured message stream
US7451110B2 (en) * 2001-05-18 2008-11-11 Network Resonance, Inc. System, method and computer program product for providing an efficient trading market
US7124299B2 (en) * 2001-05-18 2006-10-17 Claymore Systems, Inc. System, method and computer program product for auditing XML messages in a network-based message stream
US7936693B2 (en) * 2001-05-18 2011-05-03 Network Resonance, Inc. System, method and computer program product for providing an IP datalink multiplexer
US7143354B2 (en) * 2001-06-04 2006-11-28 Sharp Laboratories Of America, Inc. Summarization of baseball video content
US7499077B2 (en) * 2001-06-04 2009-03-03 Sharp Laboratories Of America, Inc. Summarization of football video content
US20030206710A1 (en) * 2001-09-14 2003-11-06 Ferman Ahmet Mufit Audiovisual management system
EP1302865A1 (en) * 2001-10-10 2003-04-16 Mitsubishi Electric Information Technology Centre Europe B.V. Method and apparatus for searching for and retrieving colour images
US7474698B2 (en) 2001-10-19 2009-01-06 Sharp Laboratories Of America, Inc. Identification of replay segments
US7120873B2 (en) 2002-01-28 2006-10-10 Sharp Laboratories Of America, Inc. Summarization of sumo video content
US6874089B2 (en) * 2002-02-25 2005-03-29 Network Resonance, Inc. System, method and computer program product for guaranteeing electronic transactions
US7769997B2 (en) * 2002-02-25 2010-08-03 Network Resonance, Inc. System, method and computer program product for guaranteeing electronic transactions
US8214741B2 (en) 2002-03-19 2012-07-03 Sharp Laboratories Of America, Inc. Synchronization of video and data
GB0215624D0 (en) * 2002-07-05 2002-08-14 Colthurst James R Razor head
US7657836B2 (en) 2002-07-25 2010-02-02 Sharp Laboratories Of America, Inc. Summarization of soccer video content
AU2003265318A1 (en) * 2002-08-02 2004-02-23 University Of Rochester Automatic soccer video analysis and summarization
US7657907B2 (en) 2002-09-30 2010-02-02 Sharp Laboratories Of America, Inc. Automatic user profiling
CN1754391B (zh) * 2003-02-27 2010-05-26 精工爱普生株式会社 利用特定颜色空间的图像再生装置及方法
US20040197088A1 (en) * 2003-03-31 2004-10-07 Ferman Ahmet Mufit System for presenting audio-video content
US8949899B2 (en) 2005-03-04 2015-02-03 Sharp Laboratories Of America, Inc. Collaborative recommendation system
US8356317B2 (en) 2004-03-04 2013-01-15 Sharp Laboratories Of America, Inc. Presence based technology
US7594245B2 (en) * 2004-03-04 2009-09-22 Sharp Laboratories Of America, Inc. Networked video devices
JP4215681B2 (ja) * 2004-05-26 2009-01-28 株式会社東芝 動画像処理装置及びその方法
KR20060116335A (ko) * 2005-05-09 2006-11-15 삼성전자주식회사 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체
US20060271855A1 (en) * 2005-05-27 2006-11-30 Microsoft Corporation Operating system shell management of video files
US7639873B2 (en) * 2005-07-28 2009-12-29 Microsoft Corporation Robust shot detection in a video
US8316301B2 (en) * 2005-08-04 2012-11-20 Samsung Electronics Co., Ltd. Apparatus, medium, and method segmenting video sequences based on topic
US20070239820A1 (en) * 2005-11-23 2007-10-11 Nokia Corporation System and method for providing quality feedback metrics for data transmission in rich media services
US20070157228A1 (en) 2005-12-30 2007-07-05 Jason Bayer Advertising with video ad creatives
US8689253B2 (en) 2006-03-03 2014-04-01 Sharp Laboratories Of America, Inc. Method and system for configuring media-playing sets
JP4377887B2 (ja) * 2006-03-30 2009-12-02 株式会社東芝 映像分割装置
US7431797B2 (en) * 2006-05-03 2008-10-07 Applied Materials, Inc. Plasma reactor with a dynamically adjustable plasma source power applicator
US7707162B2 (en) * 2007-01-08 2010-04-27 International Business Machines Corporation Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
DE102007028175A1 (de) * 2007-06-20 2009-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Automatisiertes Verfahren zur zeitlichen Segmentierung eines Videos in Szenen unter Berücksichtigung verschiedener Typen von Übergängen zwischen Bildfolgen
KR20090034086A (ko) * 2007-10-02 2009-04-07 삼성전자주식회사 그래픽 유저 인터페이스 표시 장치 및 방법
US9171344B2 (en) 2007-10-30 2015-10-27 Onemednet Corporation Methods, systems, and devices for managing medical images and records
US8065166B2 (en) * 2007-10-30 2011-11-22 Onemednet Corporation Methods, systems, and devices for managing medical images and records
US9760677B2 (en) 2009-04-29 2017-09-12 Onemednet Corporation Methods, systems, and devices for managing medical images and records
EP2245595A1 (en) * 2008-01-17 2010-11-03 Koninklijke Philips Electronics N.V. Extracting colors
JP5302768B2 (ja) * 2008-06-26 2013-10-02 キヤノン株式会社 画像処理装置及び画像処理方法
ES2371895B1 (es) * 2009-02-13 2012-09-07 Telefónica, S.A. Método de detección de la opción seleccionada en un menú de aplicación multimedia.
US8620078B1 (en) 2009-07-14 2013-12-31 Matrox Electronic Systems, Ltd. Determining a class associated with an image
US8675981B2 (en) * 2010-06-11 2014-03-18 Microsoft Corporation Multi-modal gender recognition including depth data
JP2012039524A (ja) * 2010-08-10 2012-02-23 Sony Corp 動画像処理装置、動画像処理方法およびプログラム
US8589187B2 (en) * 2010-12-28 2013-11-19 Microsoft Corporation Automated clustering for patient disposition
US9734867B2 (en) * 2011-03-22 2017-08-15 Futurewei Technologies, Inc. Media processing devices for detecting and ranking insertion points in media, and methods thereof
US8953891B1 (en) 2011-09-30 2015-02-10 Tribune Broadcasting Company, Llc Systems and methods for identifying a black/non-black frame attribute
US9064009B2 (en) * 2012-03-28 2015-06-23 Hewlett-Packard Development Company, L.P. Attribute cloud
JP6141829B2 (ja) * 2012-04-05 2017-06-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 動画解析装置、動画解析方法、プログラム、及び集積回路
JP5994974B2 (ja) * 2012-05-31 2016-09-21 サターン ライセンシング エルエルシーSaturn Licensing LLC 情報処理装置、プログラム及び情報処理方法
US9110562B1 (en) 2012-07-26 2015-08-18 Google Inc. Snapping a pointing-indicator to a scene boundary of a video
US8818037B2 (en) * 2012-10-01 2014-08-26 Microsoft Corporation Video scene detection
US9680689B2 (en) 2013-02-14 2017-06-13 Comcast Cable Communications, Llc Fragmenting media content
CN104618807B (zh) * 2014-03-31 2017-11-17 腾讯科技(北京)有限公司 多媒体播放方法、装置及系统
US10431208B2 (en) 2015-06-01 2019-10-01 Sinclair Broadcast Group, Inc. Content presentation analytics and optimization
WO2016196692A1 (en) 2015-06-01 2016-12-08 Miller Benjamin Aaron Break state detection in content management systems
US10855765B2 (en) * 2016-05-20 2020-12-01 Sinclair Broadcast Group, Inc. Content atomization
US11523188B2 (en) * 2016-06-30 2022-12-06 Disney Enterprises, Inc. Systems and methods for intelligent media content segmentation and analysis
CN111327945B (zh) * 2018-12-14 2021-03-30 北京沃东天骏信息技术有限公司 用于分割视频的方法和装置
US10929665B2 (en) 2018-12-21 2021-02-23 Samsung Electronics Co., Ltd. System and method for providing dominant scene classification by semantic segmentation
WO2021149924A1 (ko) * 2020-01-20 2021-07-29 주식회사 씨오티커넥티드 미디어 인리치먼트 제공 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1048477A (zh) * 1989-06-30 1991-01-09 德国汤姆森-布兰特有限公司 信号处理系统
EP0977135A2 (en) * 1998-07-31 2000-02-02 Kabushiki Kaisha Toshiba Method of retrieving video picture and apparatus therefor
EP1014280A2 (en) * 1998-12-25 2000-06-28 Matsushita Electric Industrial Co., Ltd. Data processing device, data processing method and storage medium, and program for causing computer to execute the data processing method
EP1022667A2 (en) * 1999-01-25 2000-07-26 Mitsubishi Denki Kabushiki Kaisha Methods of feature extraction of video sequences

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5635982A (en) * 1994-06-27 1997-06-03 Zhang; Hong J. System for automatic video segmentation and key frame extraction for video sequences having both sharp and gradual transitions
US5708767A (en) * 1995-02-03 1998-01-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
US6195458B1 (en) * 1997-07-29 2001-02-27 Eastman Kodak Company Method for content-based temporal segmentation of video
JP3558886B2 (ja) * 1998-08-26 2004-08-25 シャープ株式会社 映像処理装置
US6389168B2 (en) * 1998-10-13 2002-05-14 Hewlett Packard Co Object-based parsing and indexing of compressed video streams
US6272250B1 (en) * 1999-01-20 2001-08-07 University Of Washington Color clustering for scene change detection and object tracking in video sequences
JP2000187731A (ja) * 1998-12-21 2000-07-04 Ricoh Co Ltd 画像特徴抽出方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1048477A (zh) * 1989-06-30 1991-01-09 德国汤姆森-布兰特有限公司 信号处理系统
EP0977135A2 (en) * 1998-07-31 2000-02-02 Kabushiki Kaisha Toshiba Method of retrieving video picture and apparatus therefor
EP1014280A2 (en) * 1998-12-25 2000-06-28 Matsushita Electric Industrial Co., Ltd. Data processing device, data processing method and storage medium, and program for causing computer to execute the data processing method
EP1022667A2 (en) * 1999-01-25 2000-07-26 Mitsubishi Denki Kabushiki Kaisha Methods of feature extraction of video sequences

Also Published As

Publication number Publication date
CN1359082A (zh) 2002-07-17
JP2002125178A (ja) 2002-04-26
JP4981221B2 (ja) 2012-07-18
US6724933B1 (en) 2004-04-20

Similar Documents

Publication Publication Date Title
CN1306438C (zh) 媒介分段系统和相关的方法
US9953222B2 (en) Selecting and presenting representative frames for video previews
US7334191B1 (en) Segmentation and detection of representative frames in video sequences
US7949188B2 (en) Image processing apparatus, image processing method, and program
US6718063B1 (en) Method and apparatus for computing the similarity between images
US9298682B2 (en) Annotating images
JP4334977B2 (ja) ビデオを自動的に編集するためのシステムおよび方法
US7065250B1 (en) Automated image interpretation and retrieval system
JP4580183B2 (ja) 視覚的に代表するビデオサムネイルの生成
JP4258090B2 (ja) ビデオフレームの分類方法及びセグメント化方法、及びコンピュータ可読記憶媒体
CN1520561A (zh) 流式视频书签
US20120099793A1 (en) Video summarization using sparse basis function combination
CN1957310A (zh) 用于内容项目签名匹配的方法和装置
CN1685344A (zh) 用于概括未知视频内容的方法
JP2003177778A (ja) 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法
CN101048799A (zh) 通过实时视频动作分析理解视频内容
JP2000322450A (ja) ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム
CN1723456A (zh) 图像搜索
CN1577392A (zh) 测量视觉相似性的设备和方法
EP1473642A3 (en) Information processing apparatus, method, storage medium and program
WO2000048397A1 (fr) Procede de traitement de signal et dispositif de traitement video/audio
CN1503167A (zh) 信息存储及检索
CN1685359A (zh) 未知多维数据中发现模式的计算方法
US20100169178A1 (en) Advertising Method for Image Search
Hauptmann et al. Video Classification and Retrieval with the Informedia Digital Video Library System.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150429

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150429

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington, USA

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070321

Termination date: 20200730

CF01 Termination of patent right due to non-payment of annual fee