CN102549603A - 基于相关性的图像选择 - Google Patents

基于相关性的图像选择 Download PDF

Info

Publication number
CN102549603A
CN102549603A CN2010800427609A CN201080042760A CN102549603A CN 102549603 A CN102549603 A CN 102549603A CN 2010800427609 A CN2010800427609 A CN 2010800427609A CN 201080042760 A CN201080042760 A CN 201080042760A CN 102549603 A CN102549603 A CN 102549603A
Authority
CN
China
Prior art keywords
video
keyword
frame
characteristic
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800427609A
Other languages
English (en)
Other versions
CN102549603B (zh
Inventor
G·彻奇克
S·本吉奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN102549603A publication Critical patent/CN102549603A/zh
Application granted granted Critical
Publication of CN102549603B publication Critical patent/CN102549603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

一种系统、计算机可读存储介质和计算机实施的方法,响应于用户关键词查询来呈现视频搜索结果。视频托管系统使用机器学习过程以学习特征-关键词模型,该特征-关键词模型将来自已标注训练数据集的媒体内容的特征与描述它们的内容的关键词关联。该系统使用学习的模型以基于在视频中找到的特征来提供与关键词查询相关的视频搜索结果。另外,该系统使用学习的模型来确定并且呈现代表视频的一个或者多个缩略图图像。

Description

基于相关性的图像选择
技术领域
本发明总体上涉及标识与搜索项相关的视频或者其部分。具体而言,本发明的实施例涉及基于视频的视听内容来选择一个或者多个有代表性的缩略图图像。
背景技术
媒体托管网站的用户通常通过输入关键词或者搜索项以查询描述媒体内容的文本元数据来浏览或者搜索托管的媒体内容。可搜索元数据可以例如包括媒体文件的标题或者媒体内容的描述摘要。这样的文本元数据经常无法代表视频的整个内容,在视频很长并且具有多种场景时尤其如此。换而言之,如果视频具有大量场景和多种内容,则这些场景中的某一些可能并未在文本元数据中被描述,因此该视频将不会响应于对很可能描述此类场景的关键词的搜索而被返回。因此,常规搜索引擎经常无法返回与用户的搜索最相关的媒体内容。
常规媒体托管网站的第二问题在于:由于托管的媒体内容数量庞大,所以搜索查询可能响应于用户查询来返回数以百计或者甚至数以千计的媒体文件。因而,用户可能难以评价数以百计或者数以千计的搜索结果中的哪些搜索结果最相关。为了辅助用户评估哪些搜索结果最相关,网站可以将每个搜索结果与缩略图一起呈现。传统上,用来代表视频的缩略图图像是来自视频文件的预定帧(例如,第一帧、中间帧或者最后帧)。然而,以此方式选择的缩略图经常没有代表视频的实际内容,因为不存在缩略图的序数位置与视频的内容之间的关系。另外,缩略图可能未与用户的搜索查询相关。因此,用户可能难以评价数以百计或者数以千计的搜索结果中的哪些搜索结果最相关。
因而,需要用于找到并且呈现媒体搜索结果的将允许用户容易评估它们的相关性的改进方法。
发明内容
一种系统、计算机可读存储介质和计算机实施的方法,用于响应于用户关键词查询而找到和呈现视频搜索结果。视频托管系统从用户接收关键词搜索查询,并且选择具有与关键词查询相关的内容的视频。视频托管系统使用视频索引从视频选择帧作为代表视频的内容,该视频索引存储多个视频的帧同与帧相关联的关键词之间的关键词关联性得分。视频托管系统呈现所选择的帧作为用于视频的缩略图。
在一个方面中,一种计算机系统,使用视频帧的特征与描述视频内容的关键词之间的关系的机器学习的模型来生成可搜索视频索引。视频托管系统接收已标注训练数据集,该数据集包括媒体项目(例如,图像或者音频剪辑)集以及描述媒体项目的内容的一个或者多个关键词。视频托管系统提取表征媒体项目的内容的特征。训练机器学习的模型以学习在具体特征与描述内容的关键词之间的相关性。继而基于视频的特征和机器学习的模型来生成视频索引,该视频索引将视频数据库中的视频帧映射到关键词。
有利地,视频托管系统基于视频的实际内容而不是仅依赖于文本元数据来找到并且呈现搜索结果。因此,视频托管系统让用户能够更好地评价搜索结果集合中的视频的相关性。
在本发明内容和以下具体实施方式中描述的特征和优点并非囊括性的。本领域普通技术人员按照其附图、说明书和权利要求将清楚诸多附加特征和优点。
附图说明
图1是根据一个实施例的视频托管系统100的高级框图。
图2是图示了根据一个实施例的学习引擎140的高级框图。
图3是图示了根据一个实施例的用于生成已学习特征-关键词模型的由学习引擎140执行的步骤的流程图。
图4是图示了根据一个实施例的用于生成特征数据集255的由学习引擎140执行的步骤的流程图。
图5是图示了根据一个实施例的用于生成特征-关键词矩阵的由学习引擎140执行的步骤的流程图。
图6是图示了根据一个实施例的图像注解引擎160的具体视图的框图。
图7是图示了根据一个实施例的用于找到并且呈现视频搜索结果的由视频托管系统100执行的步骤的流程图。
图8是图示了根据一个实施例的用于基于视频元数据为视频选择缩略图的由视频托管系统100执行的步骤的流程图。
图9是图示了根据一个实施例的用于基于用户搜索查询中的关键词为视频选择缩略图的由视频托管系统100执行的步骤的流程图。
图10是根据一个实施例的用于基于用户关键词查询来标识视频内的具体事件或者场景的由图像注解引擎160执行的步骤的流程图。
附图仅出于图示的目的而描绘本发明的优选实施例。本领域技术人员根据下文讨论将容易认识到可以运用这里所示结构和方法的替代实施例而未脱离这里描述的本发明原理。
具体实施方式
系统架构
图1图示了视频托管系统100的一个实施例。视频托管系统100响应于用户关键词查询来找到并且呈现视频搜索结果集合。视频托管系统100基于视频的实际视听内容而不是仅依赖于与视频关联的文本元数据来呈现搜索结果。每个搜索结果与代表视频的视听内容的缩略图一起呈现,该缩略图辅助用户评价结果的相关性。
在一个实施例中,视频托管系统100包括前端服务器110、视频搜索引擎120、视频注解引擎130、学习引擎140、视频数据库175、视频注解索引185和特征-关键词模型195。视频托管系统100代表任何允许客户端设备150的用户经由搜索和/或浏览界面访问视频内容的系统。视频源可以来自用户的视频上传、系统或者其它视频网站或者数据库的搜索或者抓取(crawl)等或者其任何组合。例如在一个实施例中,视频托管系统100可以被配置用于允许用户上传内容。在另一实施例中,视频托管系统100可以被配置用于仅通过抓取其它源或者搜索这样的源从这样的源来离线(为了构建视频数据库)或者在查询时间获得视频。
各种部件(或称模块,例如前端服务器110、视频搜索服务器120、视频注解引擎130、学习引擎140、视频数据库175、视频注解索引185和特征-关键词模型195,的每一个被实施为具有一个或者多个计算机的服务器类计算机系统的部分,该计算机包括CPU、存储器、网络接口、外围接口和其它公知部件。部件本身优选地运行操作系统(例如LINUX)、具有通用高性能CPU、1G或者更多存储器和100G或者更多盘储存器。当然可以使用其它类型的计算机,并且有望随着将来开发更强大计算机,可以根据这里的教导来配置它们。在这一实施例中,模块存储于计算机可读存储设备(例如,硬盘)上、加载到存储器中并且由作为系统100的部分而包括的一个或者多个处理器执行。备选地,硬件或者软件模块可以存储于系统100内的别处。当配置用于执行这里描述的各种操作时,如本领域技术人员理解的那样,通用计算机变成具体计算机,因为这样的计算机存储的特定功能和数据以与如它的底层操作系统和硬件逻辑可以提供的它的本机能力不同的方式配置它。用于实施该系统的适当视频托管系统100是YOUTUBETM网站;其它视频托管系统也已知并且可以适于根据这里公开的教导来操作。将理解这里描述的视频托管系统100的命名部件代表本发明的一个实施例并且其它实施例可以包括其它部件。此外,其它实施例可以不含这里描述的部件和/或以不同方式在模块之中分布描述的功能。此外,划归多个部件的功能可以并入到单个部件中。
图1还图示了通过网络160而可通信地耦合到视频托管系统100的三个客户端设备150。客户端设备150可以是能够支持与系统100的通信接口的任何类型的通信设备。适当设备可以包括但不限于个人计算机、移动计算机(例如,笔记本计算机)、个人数字助理(PDA)、智能电话、移动电话以及游戏控制台和设备、具有网络功能的查看设备(例如,机顶盒、电视机和接收器)。在图1中示出了仅三个客户端150以便使描述简化和清楚。实际上,数以千计或者数以百万计的客户端150可以经由网络160连接到视频托管系统100。
网络160可以是有线或者无线网络。网络160的示例包括因特网、内部网、WiFi网络、WiMAX网络、移动电话网络或者其组合。本领域技术人员将认识到,其它实施例可以具有与这里描述的模块不同的模块并且可以用不同方式在模块之中分布功能。在客户端设备与系统100之间的通信方法并不限于任何具体用户接口或者网络协议,但是在一个典型实施例中,用户经由客户端设备150的运用标准网际协议的常规web浏览器来与视频托管系统100交互。
客户端150经由前端服务器110来与视频托管系统100交互以搜寻视频数据库175中存储的视频内容。前端服务器110提供允许用户输入搜索查询(例如,关键词)的控制和元素。响应于查询,前端服务器110提供与查询相关的搜索结果集合。在一个实施例中,搜索结果包括指向视频数据库175中的相关视频内容的链接列表。前端服务器110可以将链接与例如缩略图图像、标题和/或文本摘要等与视频内容相关联的信息一起呈现。前端服务器110还提供允许用户从搜索结果选择视频用于在客户端150上查看的控制和元素。
视频搜索引擎120处理经由前端服务器110接收的用户查询,并且生成包括,指向视频数据库175中与查询相关的视频或者视频部分的链接的结果集合,并且是用于此功能的一个方式。视频搜索引擎120还可以执行搜索功能,例如根据搜索结果的相关性对搜索结果排名和/或对搜索结果计分。在一个实施例中,视频搜索引擎120使用各种文本查询技术基于与视频关联的文本元数据来找到相关视频。在另一实施例中,视频搜索引擎120基于视频或者视频部分的实际视听内容而不是依赖于文本元数据来搜寻视频或者视频部分。例如,如果用户录入搜索查询“车赛”,则视频搜索引擎120可以找到并且返回来自电影车赛场景,尽管该场景可能仅仅是电影中未在文本元数据中被描述的简短部分。下文将参照图10更具体描述用于使用视频搜索引擎以基于视频的视听内容对视频的特定场景定位的过程。
在一个实施例中,视频搜索引擎120还选择缩略图图像或者缩略图图像集以与每个取回的搜索结果一起显示。每个缩略图图像包括代表视频的视听内容并且响应于用户查询的图像帧,并且辅助用户确定搜索结果的相关性。下文参照图8-图9更具体描述用于选择一个或者多个有代表性的缩略图图像的方法。
视频注解引擎130利用与来自视频数据库175的视频的帧或者场景的视听内容相关的关键词注解帧或者场景,并且将这些注解存储到视频注解索引185,并且是一种用于执行这一功能的手段。在一个实施例中,视频注解引擎130根据来自视频数据库175的视频的采样部分(例如,视频帧或者简短音频剪辑)生成特征向量。视频注解引擎130继而将已学习特征-关键词模型195应用于提取的特征向量以生成关键词得分集。每个关键词得分代表在关键词与一个或者多个特征之间的已学习关联的相对强度。因此,得分可以理解为描述关键词描述帧的内容的相对可能性。在一个实施例中,视频注解引擎130也根据每个视频的帧的关键词得分对帧排名,这有助于在查询时间对视频计分和排名。视频注解引擎130将用于每帧的关键词得分存储到视频注解引擎185。视频搜索引擎120可以使用这些关键词得分以确定与用户查询最相关的视频或者视频部分并且确定代表视频内容的缩略图图像。下文参照图6更具体描述视频注释引擎130。
学习引擎140使用机器学习来训练特征-关键词模型195,该模型将图像或者简短音频剪辑的特征与描述它们的可视或者音频内容的关键词相关联,并且是一种用于执行这一功能的手段。学习引擎140处理用代表训练图像、视频和/或音频剪辑(“媒体项目”)的音频和/或可视内容的一个或者多个关键词标注的已标注媒体项目的集合。例如,可以用诸如“海豚”、“游泳”、“海洋”等关键词标注在海洋中游泳的海豚的图像。学习引擎140从已标注训练数据(图像、视频或者音频)提取特征集,并且分析所提取的特征以确定在具体特征与标注的关键词之间的统计关联性。例如,在一个实施例中,学习引擎140生成权重、频率值或者判别函数的矩阵,以指示在已被用于标注媒体项目的关键词与根据媒体项目的内容而导出的特征之间的关联性的相对强度。学习引擎140将在关键词与特征之间的导出的关系存储到特征-关键词模型195。下文参照图2更具体描述学习引擎140。
图2是图示了根据一个实施例的学习引擎140的具体视图的框图。在所示实施例中,学习引擎包括点通(click-through)模块210、特征提取模块220、关键词学习模块240、关联性学习模块230、已标注训练数据集245、特征数据集255和关键词数据集265。本领域技术人员将认识到,其它实施例可以具有与这里描述的模块不同的模块并且可以用不同方式在模块之中分布功能。此外,划归各种模块的功能可以由多个引擎执行。
点通模块210提供用于获取已标注训练数据集245的自动化机制并且是一种用于执行这一功能的手段。点通模块210跟踪视频托管系统100上的或者一个或者多个外部媒体搜索网站上的用户搜索查询。当用户执行搜索查询并且从搜索结果选择媒体项目时,点通模块210存储用户查询中的关键词与用户所选媒体项目之间的正(positive)关联性。点通模块210也可以存储在关键词与未选搜索结果之间的负(negative)关联性。例如,用户搜寻“海豚”并且接收图像结果集合。用户从列表选择的图像可能实际上包含海豚的图像并且因此提供用于图像的良好标签。基于学习的正和/或负关联性,点通模块210确定用于随附于每个图像的一个或者多个关键词。例如,在一个实施例中,点通模块210在观察到图像与关键词之间的阈值数目的正关联性之后(例如在搜寻“海豚”的5个用户从结果集合选择相同图像之后)存储用于媒体项目的关键词。因此,点通模块210可以基于监视用户搜索和在选择搜索结果时的所得用户动作,在统计上标识关键词与图像之间的关系。这一方式利用个体用户对什么内容在他们的搜索行为的普通过程中针对给定关键词作为相关图像有价值的了解。在一些实施例中,关键词标识模块240可以使用自然语言技术(例如取词干和过滤)以预处理搜索查询数据以便标识和提取关键词。点通模块210将标注的媒体项目以及与其相关联的关键词存储到已标注训练数据集245。
在一个备选实施例中,已标注训练数据集245可以代之以存储来自外部源291(例如,已标注储备图像或者音频剪辑数据库)的训练数据。在一个实施例中,从与图像或者音频剪辑关联的元数据(例如文件名、标题或者文本摘要)提取关键词。已标注训练数据集245还可以存储从上文讨论的源的组合获取的数据(例如,使用从点通模块210和从一个或者多个外部数据库291导出的数据)。
特征提取模块220从已标注训练数据集245提取特征集,并且是一种用于执行这一功能的手段。特征以这样的方式来表征媒体的不同方面,即,相似对象的图像将具有相似的特征并且相似声音的音频剪辑将具有相似的特征。为了从图像提取特征,特征提取模块220可以应用文理算法、边缘检测算法或者颜色标识算法以提取图像特征。对于音频剪辑,特征提取模块220可以向声波应用各种变换(例如,生成声谱图)、应用带通滤波器或者自相关的集合、继而应用向量量化算法以提取音频特征。
在一个实施例中,特征提取模块220将训练图像分段成“分片(patch)”并且提取用于每个分片的特征。分片可以有高度和宽度范围(例如64×64个像素)。分片可以重叠或者不重叠。特征提取模块220将无监督学习算法应用于特征数据,以标识最有效表征图像的多数分片的特征子集。例如,特征提取模块220可以应用聚类算法(例如K均值聚类)以标识彼此相似或者在图像中共同出现的特征聚类或者组。因此,例如特征提取模块220可以标识10,000个最有代表性的特征模式和相关联的分片。
类似地,特征提取模块220将训练音频剪辑分段成简短“声音”并且提取用于声音的特征。与训练图像一样,特征提取模块220应用无监督学习以标识最有效地表征训练音频剪辑的音频特征子集。
关键词标识模块240基于已标注训练数据集245来标识频繁出现的关键词集,并且是一种用于执行这一功能的手段。例如,在一个实施例中,关键词标识模块240确定已标注训练数据集中的N个最常用关键词(例如N=20,000)。关键词标识模块220在关键词数据集265中存储频繁出现关键词集。
关联性学习模块230确定特征数据集255中的特征与关键词数据集265中的关键词之间的统计关联性,并且是一种用于执行这一功能的手段。例如,在一个实施例中,关联性学习模块230以特征-关键词矩阵的形式来表示关联性。特征-关键词矩阵包括具有m行和n列的矩阵,其中m行中的每行对应于来自特征数据集255的不同特征向量而n列中的每列对应于关键词数据集265中的不同关键词(例如,m=10,000并且n=20,000)。在一个实施例中,特征-关键词矩阵的每个条目包括权重或者得分,该权重或者得分指示特征与训练数据集中的关键词之间的相关性的相对强度。例如矩阵数据集中的条目可以指示用关键词“海豚”标注的图像将指示具体特征向量Y的相对可能性。关联性学习模块230将学习的特征-关键词矩阵存储到已学习特征-关键词模型195。在其它备选实施例中,可以使用不同关联函数和表示(例如将关键词与可视和/或音频特征相关的非线性函数)。
图3是图示了用于生成特征-关键词模型195的方法的一个实施例的流程图。首先,矩阵学习引擎140例如从外部源291或者从如上文描述的点通模块210接收(302)已标注训练数据集245。关键词学习模块240确定(304)已标注训练数据245中的最频繁出现关键词(例如前20,000个关键词)。特征提取模块220继而生成(306)用于训练数据245的特征,并且将有代表性的特征存储到特征数据集255。关联性学习模块230生成(308)将关键词映射到特征的特征-关键词矩阵,并且将该映射存储到特征-关键词模型195。
图4图示了用于根据已标准训练图像245生成(306)特征的过程的一个示例实施例。在该示例实施例中,特征提取模块220通过确定代表与图像分片关联的颜色数据的颜色直方图来生成(402)颜色特征。用于给定分片的颜色直方图存储该分片内的每个颜色的像素数目。
特征提取模块220还生成(404)纹理特征。在一个实施例中,特征提取模块220使用局部二进制模式(LBP)代表每个分片内的边缘和纹理数据。用于像素的LBP代表邻近像素的相对像素强度值。例如,用于给定像素的LBP可以是8位代码(对应于半径为1个像素的圆中的8个邻近像素),1指示邻近像素具有较高强度值,而0指示邻近像素具有较低强度值。特征提取模块继而确定用于每个分片的直方图,该直方图存储给定分片内的LBP值计数。
特征提取模块220将聚类应用(406)于颜色特征和纹理特征。例如,在一个实施例中,特征提取模块220将K均值聚类应用于颜色直方图,以标识最好地代表分片的多个聚类(例如20个)。对于每个聚类,确定代表该聚类的主导颜色的聚类质心(特征向量),由此创建用于所有分片的主导颜色特征集。特征提取模块220对LBP直方图单独聚类,以标识最好地表征分片纹理的纹理直方图(即纹理特征)子集,由此还标识用于分片的主导纹理特征集。
特征提取模块220继而生成(408)用于每个特征的特征向量。在一个实施例中,用于分片的纹理和颜色直方图被联合,以形成用于该分片的单个特征向量。特征提取模块220将无监督学习算法(例如聚类)应用于用于分片的特征向量积,以生成(410)代表大多数分片的特征向量子集(例如10,000个最有代表性的特征向量)。特征提取模块220将特征向量子集存储到特征数据库255。
对于音频训练数据,特征提取模块220可以通过计算美尔频率倒谱系数(MFCC)来生成音频特征向量。这些系数基于对数功率谱在非线性频率标度上的线性预先变换来代表声音的短期功率谱。音频特征向量继而被存储到特征数据集255,并且可以与图像特征向量相似地被处理。在另一实施例中,特征提取模块220通过使用稳定化听觉图像(SAI)来生成音频特征向量。在又一实施例中,一个或者多个带通滤波器应用于音频数据,并且基于在声道之内和之间的相关性来导出特征。在又一实施例中,声谱图被用作音频特征。
图5图示了用于从特征数据集255和关键词数据集265迭代地学习特征关键词矩阵的示例过程。在一个实施例中,关联性学习模块230通过用初始权重填充条目来初始化(502)特征-关键词矩阵。例如,在一个实施例中,初始权重都设置成零。对于来自关键词数据集265的给定关键词K,关联性学习模块230随机选择(504)正训练项目p+(即用关键词K标注的训练项目)并且随机选择负训练项目p-(即未用关键词K标注的训练项目)。特征提取模块220如上文描述的那样确定(506)用于正训练项目和负训练项目的特征向量。关联性学习引擎230通过使用特征-关键词矩阵将特征向量从特征空间变换到关键词空间(例如通过将特征向量与特征-关键词矩阵相乘产生关键词向量)来生成(508)用于正训练项目和负训练项目中的每个训练项目的关键词得分。关联性学习模块230继而确定(510)在关键词得分之间的差值。如果差值大于预定义阈值(即正和负训练项目被正确排序),则矩阵不变(512)。否则,矩阵条目被设置(514)使得差值大于阈值。关联性学习模块230继而确定(516)是否满足停止标准。如果未满足停止标准,则矩阵学习用新的正和负训练项目执行另一迭代520以进一步改进矩阵。如果满足停止条件,则学习过程停止(518)。
在一个实施例中,当先前选择的正负训练对的滑动窗上正确排序的对数平均而言超过了预定义阈值时,停止标准得以满足。备选地,可以通过将学习的矩阵应用于单独确认数据集来测量学习的矩阵的性能,并且停止标准在性能超过预定义阈值时得以满足。
在一个替代实施例中,为了得分在关键词之间兼容,在学习过程的每次迭代中,针对不同关键词而不是相同关键词K计算并且比较关键词得分。因此,在这一实施例中,选择正训练项目p+作为用第一关键词K1标注的训练项目,并且选择负训练项目p-作为用不同关键词K2标注的训练项目。在这一实施例中,关联性学习模块230生成用于每个训练项目/关键词对(即正对和负对)的关键词得分。关联性学习模块230继而以与上文描述的方式相同的方式比较关键词得分,尽管关键词得分与不同关键词有关。
在替代实施例中,关联性学习模块230学习不同类型的特征-关键词模型195(例如,生成模型或者判别模型)。例如,在一个备选实施例中,关联性学习模块230导出可以应用于特征集,以获得与那些特征关联的一个或者多个关键词的判别函数(即分类器)。在这一实施例中,关联性学习模块230将聚类算法应用于与图像分片或者音频段相关联的具体类型的特征或者所有特征。关联性学习模块230生成用于关键词数据集265中的每个关键词的分类器。分类器包括判别函数(例如,超平面)和权重或者其它值的集合,其中权重或者值指定特征在区分媒体项目类与另一媒体项目类的判别能力。关联性学习模块230将学习的分类器存储到已学习特征-关键词模型195。
在一些实施例中,特征提取模块220和关联性学习模块230迭代地生成用于新训练数据245的特征集,并且重新训练分类器直至该分类器收敛。当添加新的训练特征集基本上未改变与特征集关联的判别函数和权重时,分类器收敛。在一个具体实施例中,在线支持向量机算法被用来基于与新训练数据245相关联的特征值,来迭代地重新计算超平面函数直至超平面函数收敛。在其它实施例中,关联性学习模块230定期地重新训练分类器。在一些实施例中,关联性学习模块230在连续基础上,例如无论何时向已标注训练数据集245添加新搜索查询数据(例如来自新点通数据),重新训练分类器。
在任何前述实施例中,所得特征-关键词矩阵代表在(如已经应用于图像/音频文件的)关键词与根据图像/音频文件导出的特征向量之间的关系的模型。该模型可以理解为在关键词的共同出现和代表图像/音频文件的物理特性(例如,颜色、纹理、频率信息)方面表达底层物理关系。
图6图示了视频注解引擎130的具体视图。在一个实施例中,视频注解引擎130包括视频采样模块610、纹理提取模块620和缩略图选择模块630。本领域技术人员将认识到,其它实施例可以具有与这里描述的模块不同的模块并且可以用不同方式在模块之中分布功能。此外,划归各种模块的功能可以由多个引擎执行。
视频采样模块610从视频数据库175中的视频采样视频内容帧。在一个实施例中,视频采样模块610从视频数据库175中的个体视频采样视频内容。采样模块610可以按照固定周期速率(例如每10秒1帧)、依赖于内在因素(例如视频的长度)的速率或者基于外在因素(例如视频的受欢迎度(例如将按照比基于查看次数的更少受欢迎的视频更高的频率对更多受欢迎的视频采样))的速率对视频采样。备选地,视频采样模块610使用场景分割以基于场景边界对帧采样。例如视频采样模块610可以从每帧采样至少一帧以保证采样的帧代表视频的整个内容。在另一备选实施例中,视频采样模块610采样视频的全部场景而不是个体帧。
特征提取模块620使用与上文关于学习引擎140描述的特征提取模块220相同的方法。特征提取模块620生成用于每个采样帧或者场景的特征向量。例如,如上文描述的那样,每个特征向量可以包括10,000个条目,每个条目代表通过向量量化获得的具体特征。
帧注解模块630生成用于视频的每个采样帧的关键词关联性得分。帧注解模块630将已学习特征-关键词模型195应用到用于采样帧的特征向量,以确定用于该帧的关键词关联性得分。例如,帧注解模块630可以使用特征-关键词矩阵来执行矩阵乘法,以将特征向量变换到关键词空间。帧注解模块630因此生成用于每帧的关键词关联性得分向量(“关键词得分向量”),其中关键词得分向量中的每个关键词关联性得分指定帧与关键词数据集265中的频繁使用关键词集的关键词相关的可能性。帧注解模块630与帧的标记(例如,帧在帧作为其一部分的视频中的偏移)和视频注解索引185中的视频的标记相关联地存储该帧的关键词得分向量。因此,每个采样帧基于根据帧而导出的特征向量来与描述每个关键词与帧之间的关系的关键词向量得分相关联。另外,如上文描述的那样,数据库中的每个视频因此与(可以用于缩略图的)一个或者多个采样帧相关联,并且这些采样帧与关键词相关联。
在备选实施例中,视频注解引擎130生成用于帧集合(例如场景)而不是每个个体采样帧的关键词得分。例如,可以针对视频的具体场景存储关键词得分。对于音频特征,关键词得分可以与跨越具体音频剪辑的帧集合(如例,来自具体个人的话音)相关联地存储。
操作和使用
当用户输入一个或者多个词的搜索查询时,搜索引擎120访问视频注解索引185以找到并且呈现相关视频结果集合(例如通过在索引185中执行查找)。在一个实施例中,搜索引擎120使用视频注解索引185中的用于与所选关键词匹配的输入查询词的关键词得分来找到与搜索查询相关的视频,并且对结果集合中的相关视频排名。视频搜索引擎120也可以提供用于每个搜索结果的指示与搜索查询的感知相关性的相关性得分。除了视频注解索引185中的关键词得分之外或者备选地,搜索引擎120也可以访问包括与视频关联的文本元数据的常规索引以便找到搜索结果、对搜索结果排名和计分。
图7是图示了用于找到并且呈现视频搜索结果的由视频托管系统100执行的主要过程的流程图。前端服务器110从用接收(702)包括一个或者多个查询项的搜索查询。搜索引擎120确定(704)满足关键词搜索查询的结果集合;可以使用任何类型的搜索算法和索引结果来选择这一结果集合。结果集合包括指向一个或者多个视频的链接,该视频具有与查询项相关的内容。
搜索引擎120继而基于关键词得分从结果集合中的每个视频选择(706)代表视频的内容的一帧(或者多个帧)。对于每个搜索结果,前端服务器110呈现(708)所选择的帧作为一个或者多个有代表性的缩略图的集合。
图8和图9图示了可以用来基于关键词得分来选择(906)帧的两个不同实施例。在图8的实施例中,视频搜索引擎120基于与视频数据库175中的视频相关联地被存储的文本元数据来选择代表视频的缩略图。视频搜索引擎120从视频数据库选择(802)视频以用于缩略图选择。视频搜索引擎120继而从与视频数据库175中的视频相关联地被存储的元数据提取(804)关键词。元数据可以例如包括作者或者其他用户所提供视频的视频标题或者文本摘要。视频搜索引擎120继而访问视频注解索引185,并且使用提取的关键词来选择(806)代表视频的一个或者多个有代表性的帧(例如,通过选择针对提取的关键词具有最高排名关键词得分的帧或者帧集)。前端服务器110继而显示(808)所选择的帧作为用于搜索结果中的视频的缩略图。这一实施例有利地保证所选缩略图将实际上代表视频内容。例如考虑标题为“海豚游泳”的视频,该视频包括游泳海豚的一些场景,但是其它场景仅为空旷海洋。视频搜索引擎120将选择实际上描绘海豚的一个或者多个帧而不是任意选择缩略图帧(例如第一帧或者中心帧)。因此,用户更好地能够评价搜索结果与查询的相关性。
图9是图示了用于选择缩略图用于与搜索结果集合中的视频一起呈现的过程的第二实施例的流程图。在这一实施例中,一个或者多个所选缩略图依赖于在用户搜索查询中提供的关键词。首先,搜索引擎120基于用户搜索查询来标识(902)视频搜索结果集合。搜索引擎120从用户的搜索查询提取(904)关键词,以用于在选择用于每个搜索结果的有代表性的缩略图帧时使用。对于结果集合中的每个视频,视频搜索引擎120继而访问视频注解索引185,并且使用提取的关键词来选择(906)视频的一个或者多个有代表性的帧(例如通过选择针对提取的关键词具有最高排名关键词得分的一个或者多个帧)。前端服务器110继而显示(908)所选择的帧作为用于搜索结果中的视频的缩略图。
这一实施例有利地保证视频缩略图实际上与用户的搜索查询有关。例如假设用户录入查询“滑板上的狗”。标题为“玩把戏的动物”的视频包括由滑板上的狗主演的相关场景、但是也包括无狗或者滑板的若干其它场景。图9的方法有利地保证呈现的缩略图代表用户搜寻的场景(即滑板上的狗)。因此,用户可以容易评价搜索结果与关键词查询的相关性。
视频托管系统100的另一特征允许用户使用视频注解索引185来搜寻视频内的具体场景或者事件。例如在长篇动作电影中,用户可能想要使用查询项(例如“车赛”或者“搏斗”)来搜寻搏斗场景或者车赛场景。视频托管系统100继而仅取回与查询相关的一个或者多个具体场景(而不是整个视频)。图10图示了用于找到与关键词查询相关的场景或者事件的过程的一个示例实施例。搜索引擎120从用户接收(1002)搜索查询并且从搜索串标识(1004)关键词。使用关键词,搜索引擎120标识视频注解索引185(例如,通过执行查找功能)以取回针对提取的关键词具有最高关键词得分的多个帧1006(例如,前10个)。搜索引擎继而确定(1008)用于视频内的相关场景的边界。例如,搜索引擎120可以使用场景分割技术以找到包括高度相关帧的场景的边界。备选地,搜索引擎120可以分析周围帧的关键词得分以确定边界。例如,搜索引擎120可以返回这样的视频剪辑,在该视频剪辑中的所有采样帧具有在阈值以上的关键词。搜索引擎120基于关键词得分来选择(1010)用于结果集合中的每个视频的缩略图图像。前端服务器110继而显示(1012)所选缩略图代表的视频的排名集合。
视频托管系统100的另一特征是有能力基于视频注解索引185来选择可以在回放用户所选视频之前、期间或者之后显示的“有关视频”的集合。在这一实施例中,视频托管系统100从标题或者其它元数据与所选视频的回放关联的关键词。视频托管系统100使用提取的关键词来查询视频注解索引185寻找与关键词相关的视频;这标识可能在其实际图像/音频内容方面与用户所选的视频相似而不是仅在其元数据中具有相同关键词的其它视频。视频托管系统100继而如上文描述的那样选择用于有关视频的缩略图并且在用户界面显示的“有关视频”部分中呈现缩略图。这一实施例有利地基于回放视频的内容向用户提供可能令人感兴趣的其它视频。
视频托管系统100的另一特征是有能力基于使用视频注解索引185来找到并且呈现可以在回放所选视频之前、期间或者之后显示的广告。在一个实施例中,视频托管系统100在用户查看视频时实时取回与视频帧关联的关键词(即通过使用当前帧索引在注解索引185中执行查找)。视频托管系统100继而可以使用取回的关键词来查询广告数据库寻找与关键词相关的广告。视频托管系统100继而可以在视频回访时实时显示与当前帧有关的广告。
上文描述的实施例有利地允许媒体宿主提供与用户的搜索查询最相关的视频内容项目和有代表性的缩略图图像。通过学习在文本查询与非文本媒体内容之间的关联性,视频托管系统较仅依赖于文本元数据的系统而言提供改进的搜索结果。
已经关于优先数目的实施例具体描述本发明。本领域技术人员将理解还可以在其它实施例中实现本发明。首先,部件的具体命名、术语的大写、属性、数据结构或者任何其它编程或者结构方面并非必需或者重要的,并且实施本发明或者它的特征的机制可以具有不同名称、格式或者协议。另外可以如描述的那样经由硬件与软件的组合或者完全在硬件单元中实施系统。功能在这里描述的各种系统部件之间的具体划分仅为举例而非必需;单个系统部件执行的功能可以代之以由多个部件执行,而多个部件执行的功能可以代之以由单个部件执行。例如可以在多个或者一个模块中提供媒体宿主服务的具体功能。
上文描述的一些部分在对信息的操作的算法和符号表示呈现本发明的特征。这些算法描述和表示是本领域技术人员用来向本领域其他技术人员最有效传达他们的工作实质的手段。这些操作尽管在功能或者逻辑上加以描述、但是理解为由计算机程序实施。另外也已经证实将这些操作布置称为模块或者代码设备有时是便利的而不失一般性。
然而应当记住所有这些和相似术语将与适当物理数量关联并且仅为应用于这些数量的便利标志。除非如根据本讨论清楚的那样另有具体明示,理解在说明书全文中,利用诸如“处理”或者“计算”或者“运算”或者“确定”或者“显示”等术语的讨论指代计算机系统的动作和过程或者相似电子计算设备,该计算机系统或者电子计算设备操纵并且变换如在计算机系统存储器或者寄存器或者其它这样的信息存储、传输或者显示设备内表示为物理(电子)数量的数据。
本发明的某些特征包括这里以算法的形式描述的过程步骤和指令。所有这样的过程步骤、指令或者算法由计算设备执行,这些计算设备包括某一形式的处理单元(例如微处理器、微控制器、专用逻辑电路等)以及存储器(RAM、ROM等)和例如适合用于接收或者提供数据的输入/输出设备。
本发明也涉及一种用于执行这里的操作的装置。这一装置可以被具体构造用于期望目的,或者它可以包括存储于计算机中的计算机程序有选择地激活或者重新配置的通用计算机,在该情况下,通用计算机在结构和功能上等效于专用于执行这里描述的功能和操作的具体计算机。体现计算机可执行数据(例如程序代码和数据)的计算机程序存储于有形计算机可读存储介质中,该存储介质例如是但不限于任何类型的盘(包括软盘、光盘、CD-ROM、光磁盘)、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或者光学卡、专用集成电路(ASIC)或者适合于持久存储电子编码指令的任何类型的介质。还应当注意这样的计算机程序(它们原本作为通过更改物理介质(例如更改或者变化介质的物理结构和/或性质(例如电气、光学、机械、磁、化学性质))来存储于这样的介质中的数据而存在)本身并非抽象想法或者概念或者表示而代之以是物理过程产生的物理人为产品,这些物理过程将物理介质从一个状态变换成另一状态(例如电荷改变或者磁极性改变)以便在介质中持久存储计算机程序。另外,在说明书中提及的计算机可以包括单个处理器或者可以是如下架构,这些架构运用多个处理器设计以求增加的计算能力。
最后应当注意以在说明书中使用的语言已经主要出于可读性和指导的目的而加以选择并且可能尚未被选择用来界定或者限制发明主题内容。因而本发明的公开内容旨在于举例说明而限制本发明的范围。

Claims (51)

1.一种用于创建可搜索的视频索引的计算机实施的方法,所述方法由计算机系统执行并且包括:
接收已标注训练数据集,所述已标注训练数据集包括媒体项目的集合以及描述所述媒体项目的内容的一个或者多个关键词;
提取表征所述媒体项目的所述内容的特征;
训练机器学习的模型以学习所提取的所述媒体项目的所述特征与描述所述内容的所述关键词之间的相关性;以及
基于视频数据库中的视频的特征以及所述机器学习的模型,生成将所述视频数据库中的所述视频的帧映射到关键词的所述视频索引。
2.根据权利要求1所述的方法,其中所述媒体项目包括图像。
3.根据权利要求1所述的方法,其中所述媒体项目包括音频剪辑。
4.根据权利要求1所述的方法,其中提取表征所述媒体项目的所述内容的所述特征包括:
将每个图像分割成多个分片;
生成用于每个所述分片的特征向量;以及
应用聚类算法以确定所述已标注训练数据中的多个最有代表性的特征向量。
5.根据权利要求4所述的方法,其中所述分片至少部分地重叠。
6.根据权利要求4所述的方法,还包括:
确定所述已标注训练数据集中的多个最常被找到的关键词。
7.根据权利要求6所述的方法,还包括:
存储最有代表性的关键词与最常被找到的特征向量之间的关联性。
8.根据权利要求6所述的方法,其中存储最常被找到关键词与最常被找到的特征向量之间的关联性包括:
生成关联函数的集合,每个关联函数代表所述最有代表性的特征向量之一与所述最常被找到的关键词之一之间的关联强度。
9.根据权利要求7所述的方法,其中存储最常被找到的关键词与最常被找到的特征向量之间的关联性包括:
生成特征-关键词矩阵,其中所述特征-关键词矩阵的第一维度中的条目每一个对应于所述最有代表性的特征向量中不同的一个,并且其中所述特征-关键词矩阵的第二维度中的条目每个对应于所述最常被找到的关键词中不同的一个。
10.根据权利要求9所述的方法,其中生成所述特征-关键词矩阵包括:
通过利用初始权重填充所述条目来初始化所述特征-关键词矩阵;
选择与第一关键词相关联的正训练媒体项目以及与第二关键词不相关联的负训练媒体项目;
提取用于所述正训练媒体项目和负训练媒体项目的特征以获得正特征向量和负特征向量;
使用所述特征-关键词矩阵向所述正特征向量应用变换以获得用于所述正训练媒体项目的第一关键词得分;
使用所述特征-关键词矩阵向所述负特征向量应用变换以获得用于所述负训练媒体项目的第二关键词得分;
确定用于所述正媒体训练项目的所述关键词得分是否比用于所述负训练媒体项目的所述关键词得分至少高出阈值;以及
响应于用于所述正媒体训练项目的所述关键词得分没有比用于所述负训练媒体项目的所述关键词得分至少高出阈值,调节所述特征-关键词矩阵中的所述权重。
11.根据权利要求1所述的方法,其中生成所述视频索引包括:
对所述视频数据库中的视频的帧进行采样;
计算代表所述第一采样帧的内容的所述视频的第一采样帧的第一特征向量;
将所述机器学习的模型应用于所述第一特征向量以生成所述第一采样帧与选择的关键词之间的关键词关联性得分;以及
将所述关键词关联性得分与所述第一采样帧相关联地存储在所述视频索引中。
12.根据权利要求1所述的方法,其中生成所述视频索引包括:
对所述视频数据库中的视频的场景进行采样;
计算代表所述第一采样场景的内容的所述视频的第一采样场景的第一特征向量;
将所述机器学习的模型应用于所述第一特征向量以生成所述第一采样场景与选择的关键词之间的关键词关联性得分;以及
将所述关键词关联性得分与所述第一采样场景相关联地存储在所述视频索引中。
13.一种用于呈现视频搜索结果的计算机实施的方法,所述方法由计算机系统执行并且包括:
接收视频;
使用视频注解索引从所述视频选择帧作为所述视频的内容的代表,所述视频注解索引存储多个视频的帧同与所述多个视频的所述帧相关联的关键词之间的关键词关联性得分;以及
提供选择的帧作为所述视频的缩略图。
14.根据权利要求13所述的方法,其中从所述视频选择所述帧作为所述视频的内容的代表包括:
选择代表期望视频内容的关键词;
访问所述视频注解索引以确定所述视频的帧与选择的关键词之间的关键词关联性得分;以及
根据所述视频注解索引来选择具有与所述选择的关键词的最高排名关键词关联性得分的帧。
15.根据权利要求14所述的方法,其中选择代表所述期望视频内容的所述关键词包括使用所述视频的标题作为所述选择的关键词。
16.根据权利要求14所述的方法,其中选择代表所述期望视频内容的所述关键词包括使用所述关键词查询作为所述选择的关键词。
17.根据权利要求13所述的方法,其中接收所述视频包括:
从所述用户接收关键词查询;以及
从视频数据库选择具有与所述关键词查询相关的内容的视频。
18.根据权利要求18所述的方法,其中选择具有与所述关键词查询相关的内容的所述视频包括:
确定具有与来自所述关键词查询的关键词的高关键词关联性得分的视频帧;
确定与所述关键词查询相关的场景的场景边界,视频的所述场景包括具有所述高关键词关联性得分的所述帧;以及
选择所述场景作为所述选择的视频。
19.根据权利要求18所述的方法,还包括:
基于所得集合中的视频的帧与所述关键词查询中的关键词之间的所述关键词关联性得分,在所述所得集合中的多个视频之中对所述选择的视频进行排名。
20.根据权利要求18所述的方法,还包括:
基于所述视频的帧与所述关键词查询中的关键词之间的所述关键词关联性得分,呈现所述选择的视频的相关性得分。
21.一种计算机可读存储介质,存储用于创建可搜索视频索引的计算机可执行代码,所述计算机可执行程序代码在执行时使应用执行以下步骤:
接收已标注训练数据集,所述已标注训练数据集包括媒体项目的集合以及描述所述媒体项目的内容的一个或者多个关键词;
提取表征所述媒体项目的所述内容的特征;
训练机器学习的模型以学习所提取的所述媒体项目的所述特征与描述所述内容的所述关键词之间的相关性;以及
基于视频数据库中的视频的特征以及所述机器学习的模型,生成将所述视频数据库中的所述视频的帧映射到关键词的所述视频索引。
22.根据权利要求21所述的计算机可读存储介质,其中所述媒体项目包括图像。
23.根据权利要求21所述的计算机可读存储介质,其中所述媒体项目包括音频剪辑。
24.根据权利要求21所述的计算机可读存储介质,其中提取表征所述媒体项目的所述内容的所述特征包括:
将每个图像分割成多个分片;
生成用于每个所述分片的特征向量;以及
应用聚类算法以确定所述已标注训练数据中的多个最有代表性的特征向量。
25.根据权利要求24所述的计算机可读存储介质,其中所述分片至少部分地重叠。
26.根据权利要求24所述的计算机可读存储介质,还包括:
确定所述已标注训练数据集中的多个最常被找到的关键词。
27.根据权利要求26所述的计算机可读存储介质,还包括:
存储最常被找到的关键词与最常被找到的特征向量之间的关联性。
28.根据权利要求26所述的计算机可读存储介质,其中存储最常被找到关键词与最常被找到的特征向量之间的关联性包括:
生成关联函数的集合,每个关联函数代表所述最有代表性的特征向量之一与所述最常被找到的关键词之一之间的关联强度。
29.根据权利要求27所述的计算机可读存储介质,其中存储最常被找到的关键词与最有代表性的特征向量之间的关联性包括:
生成特征-关键词矩阵,其中所述特征-关键词矩阵的第一维度中的条目每一个对应于所述最有代表性的特征向量中不同的一个,并且其中所述特征-关键词矩阵的第二维度中的条目每个对应于所述最常被找到的关键词中不同的一个。
30.根据权利要求29所述的计算机可读存储介质,其中生成所述特征-关键词矩阵包括:
通过利用初始权重填充所述条目来初始化所述特征-关键词矩阵;
选择与第一关键词相关联的正训练媒体项目以及与第二关键词不相关联的负训练媒体项目;
提取用于所述正训练媒体项目和负训练媒体项目的特征以获得正特征向量和负特征向量;
使用所述特征-关键词矩阵向所述正特征向量应用变换以获得用于所述正训练媒体项目的第一关键词得分;
使用所述特征-关键词矩阵向所述负特征向量应用变换以获得用于所述负训练媒体项目的第二关键词得分;
确定用于所述正媒体训练项目的所述关键词得分是否比用于所述负训练媒体项目的所述关键词得分至少高出阈值;以及
响应于用于所述正媒体训练项目的所述关键词得分没有比用于所述负训练媒体项目的所述关键词得分至少高出阈值,调节所述特征-关键词矩阵中的所述权重。
31.根据权利要求21所述的计算机可读存储介质,其中生成所述视频索引包括:
对所述视频数据库中的视频的帧进行采样;
计算代表所述第一采样帧的内容的所述视频的第一采样帧的第一特征向量;
将所述机器学习的模型应用于所述第一特征向量以生成所述第一采样帧与选择的关键词之间的关键词关联性得分;以及
将所述关键词关联性得分与所述第一采样帧相关联地存储在所述视频索引中。
32.根据权利要求21所述的计算机可读存储介质,其中生成所述视频索引包括:
对所述视频数据库中的视频的场景进行采样;
计算代表所述第一采样场景的内容的所述视频的第一采样场景的第一特征向量;
将所述机器学习的模型应用于所述第一特征向量以生成所述第一采样场景与选择的关键词之间的关键词关联性得分;以及
将所述关键词关联性得分与所述第一采样场景相关联地存储在所述视频索引中。
33.一种计算机可读存储介质,存储用于呈现视频索引结果的计算机可执行代码,所述计算机可执行程序代码在执行时使应用执行以下步骤:
接收视频;
使用视频注解索引从所述视频选择帧作为所述视频的内容的代表,所述视频注解索引存储多个视频的帧同与所述多个视频的所述帧相关联的关键词之间的关键词关联性得分;以及
提供选择的帧作为所述视频的缩略图。
34.根据权利要求33所述的计算机可读存储介质,其中从所述视频选择所述帧作为所述视频的内容的代表包括:
选择代表期望视频内容的关键词;
访问所述视频注解索引以确定所述视频的帧与选择的关键词之间的关键词关联性得分;以及
根据所述视频注解索引来选择具有与所述选择的关键词的最高排名关键词关联性得分的帧。
35.根据权利要求34所述的计算机可读存储介质,其中选择代表所述期望视频内容的所述关键词包括使用所述视频的标题作为所述选择的关键词。
36.根据权利要求34所述的计算机可读存储介质,其中选择代表所述期望视频内容的所述关键词包括使用所述关键词查询作为所述选择的关键词。
37.根据权利要求33所述的计算机可读存储介质,其中接收所述视频包括:
从所述用户接收关键词查询;以及
从视频数据库选择具有与所述关键词查询相关的内容的视频。
38.根据权利要求37所述的计算机可读存储介质,其中选择具有与所述关键词查询相关的内容的所述视频包括:
确定具有与来自所述关键词查询的关键词的高关键词关联性得分的视频帧;
确定与所述关键词查询相关的场景的场景边界,视频的所述场景包括具有所述高关键词关联性得分的所述帧;以及
选择所述场景作为所述选择的视频。
39.根据权利要求37所述的计算机可读存储介质,还包括:
基于所得集合中的视频的帧与所述关键词查询中的关键词之间的所述关键词关联性得分,在所述所得集合中的多个视频之中对所述选择的视频进行排名。
40.根据权利要求37所述的计算机可读存储介质,还包括:
基于所述视频的帧与所述关键词查询中的关键词之间的所述关键词关联性得分,呈现所述选择的视频的相关性得分。
41.一种视频托管系统,用于找到并且呈现与关键词查询相关的视频,所述系统包括:
前端服务器,配置用于从用户接收关键词查询并且呈现结果集合,所述结果集合包括具有与所述关键词查询相关的内容的视频以及代表所述视频的所述内容的缩略图图像;
视频注解索引,包括关键词与视频的帧之间的映射,所述映射根据机器学习的模型而被导出;以及
视频搜索引擎,配置用于访问所述视频注解索引,以确定具有与所述关键词相关的内容的所述视频,以及确定代表所述视频的所述内容的所述缩略图图像。
42.根据权利要求41所述的系统,还包括:
视频数据库,存储所述视频搜索引擎可搜索的视频,其中在所述视频注解索引中对所述存储的视频的帧编索引,以将所述帧映射到描述其内容的关键词。
43.根据权利要求41所述的系统,还包括:
视频注解引擎,配置用于使用通过机器学习获得的已学习特征-关键词模型来确定视频数据库中的视频的帧与描述其内容的关键词之间的映射。
44.根据权利要求43所述的系统,其中所述视频注解引擎包括:
视频采样模块,配置用于对来自视频数据库的视频的帧进行采样;
特征提取模块,配置用于生成代表每个采样视频帧的特征向量;以及
帧注解模块,配置用于将所述已学习特征-关键词模型应用于所述特征向量,以确定用于每个所述采样视频帧的关键词得分,所述关键词得分与相关的采样帧相关联地被编索引到所述视频注解索引中。
45.根据权利要求41所述的系统,还包括:
学习引擎,配置用于学习特征-关键词模型,所述特征-关键词模型将已标注训练数据集中的图像或者音频剪辑的特征映射到描述其内容的关键词。
46.根据权利要求44所述的系统,其中所述学习引擎包括:
特征提取模块,配置用于生成特征数据集,所述特征数据集包括用于所述已标注训练数据集的多个最有代表性的特征向量;
关键词学习模块,配置用于生成关键词数据集,所述关键词数据集包括所述已标注训练数据集中的多个最常出现关键词;以及
关联性学习模块,适于生成所述关键词-特征模型,所述关键词-特征模型映射特征数据集中的所述特征向量与所述关键词数据集中的所述关键词之间的关联性。
47.根据权利要求46所述的系统,其中所述学习引擎还包括:
点通模块,配置用于通过跟踪媒体搜索网站上的用户搜索查询来自动获取用于所述已标注训练数据的标签,以及通过观察用户选择的搜索结果和所述用户未选择的搜索结果来学习用于媒体项目的标签。
48.一种用于呈现广告的方法,所述方法由计算机执行并且包括:
使用基于web的视频播放器来播放选择的视频;
在回放所述选择的视频期间监视视频的当前帧;
使用视频的所述当前帧来访问视频注解索引以确定与所述当前帧关联的一个或者多个关键词;
使用所述一个或者多个关键词来访问广告数据库以选择与所述一个或者多个关键词关联的广告;以及
在回放所述当前帧期间提供所述广告用于播放。
49.根据权利要求48所述的方法,其中所述视频注解索引根据机器学习的模型将视频帧映射到一个或者多个关键词。
50.一种用于呈现相关视频的集合的方法,所述方法由计算机执行并且包括:
使用基于web的视频播放器来播放选择的视频;
提取与所述选择的视频相关联的元数据,所述元数据包括描述所述选择的视频的一个或者多个关键词;
使用所述一个或者多个关键词来访问视频注解索引以确定一个或者多个相关视频;以及
提供所述一个或者多个相关视频以用于显示,每个相关视频由代表其内容的缩略图图像表示。
51.根据权利要求50所述的方法,其中所述视频注解索引根据机器学习的模型将关键词映射到视频数据库中的视频。
CN201080042760.9A 2009-08-24 2010-08-18 基于相关性的图像选择 Active CN102549603B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/546,436 US20110047163A1 (en) 2009-08-24 2009-08-24 Relevance-Based Image Selection
US12/546,436 2009-08-24
PCT/US2010/045909 WO2011025701A1 (en) 2009-08-24 2010-08-18 Relevance-based image selection

Publications (2)

Publication Number Publication Date
CN102549603A true CN102549603A (zh) 2012-07-04
CN102549603B CN102549603B (zh) 2015-05-06

Family

ID=43606147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080042760.9A Active CN102549603B (zh) 2009-08-24 2010-08-18 基于相关性的图像选择

Country Status (6)

Country Link
US (5) US20110047163A1 (zh)
EP (2) EP2471026B1 (zh)
CN (1) CN102549603B (zh)
AU (3) AU2010286797A1 (zh)
CA (1) CA2771593C (zh)
WO (1) WO2011025701A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015061979A1 (zh) * 2013-10-30 2015-05-07 宇龙计算机通信科技(深圳)有限公司 终端和视频文件管理方法
CN106708876A (zh) * 2015-11-16 2017-05-24 任子行网络技术股份有限公司 一种基于Lucene的相似视频检索方法及系统
CN106776890A (zh) * 2016-11-29 2017-05-31 北京小米移动软件有限公司 视频播放进度的调整方法及装置
CN107025275A (zh) * 2017-03-21 2017-08-08 腾讯科技(深圳)有限公司 视频搜索方法及装置
CN107077595A (zh) * 2014-09-08 2017-08-18 谷歌公司 选择和呈现代表性帧以用于视频预览
CN107533638A (zh) * 2015-08-11 2018-01-02 谷歌有限责任公司 利用标签正确性概率来注释视频
CN107870959A (zh) * 2016-09-23 2018-04-03 奥多比公司 响应于视频搜索查询提供相关视频场景
CN107960125A (zh) * 2015-06-24 2018-04-24 谷歌有限责任公司 选择视频的代表性视频帧
CN108629266A (zh) * 2017-03-20 2018-10-09 奥多比公司 使用图像到题目嵌入的大规模图像加标记
CN109598527A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 广告效果分析方法及装置
CN110023982A (zh) * 2016-10-11 2019-07-16 电子湾有限公司 选择产品标题
CN110059223A (zh) * 2018-01-18 2019-07-26 奥誓公司 机内循环、图像到视频计算机视觉引导
CN110073375A (zh) * 2016-12-13 2019-07-30 谷歌有限责任公司 用于量子位读出的补偿脉冲
CN110178148A (zh) * 2017-01-18 2019-08-27 微软技术许可有限责任公司 物理实体的计算机辅助跟踪
CN110914872A (zh) * 2017-07-24 2020-03-24 国际商业机器公司 用认知洞察力导航视频场景
CN112055847A (zh) * 2018-09-18 2020-12-08 谷歌有限责任公司 处理图像的方法和系统
CN113646800A (zh) * 2018-09-27 2021-11-12 株式会社OPTiM 物体状况判断系统、物体状况判断方法以及程序

Families Citing this family (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200257596A1 (en) 2005-12-19 2020-08-13 Commvault Systems, Inc. Systems and methods of unified reconstruction in storage systems
GB2473155A (en) * 2008-05-26 2011-03-02 Kenshoo Ltd A system for finding website invitation cueing keywords and for attribute-based generation of invitation-cueing instructions
US8111923B2 (en) * 2008-08-14 2012-02-07 Xerox Corporation System and method for object class localization and semantic class based image segmentation
US9477667B2 (en) * 2010-01-14 2016-10-25 Mobdub, Llc Crowdsourced multi-media data relationships
CN102823242B (zh) 2010-01-22 2016-08-10 汤姆森特许公司 基于取样超分辨率视频编码和解码的方法和装置
WO2011090798A1 (en) 2010-01-22 2011-07-28 Thomson Licensing Data pruning for video compression using example-based super-resolution
US20110218994A1 (en) * 2010-03-05 2011-09-08 International Business Machines Corporation Keyword automation of video content
US20110225133A1 (en) * 2010-03-09 2011-09-15 Microsoft Corporation Metadata-aware search engine
CN102193946A (zh) * 2010-03-18 2011-09-21 株式会社理光 为媒体文件添加标签方法和使用该方法的系统
US9323438B2 (en) 2010-07-15 2016-04-26 Apple Inc. Media-editing application with live dragging and live editing capabilities
KR101838320B1 (ko) * 2010-09-10 2018-03-13 톰슨 라이센싱 예시-기반 데이터 프루닝을 이용한 비디오 디코딩
WO2012033971A1 (en) 2010-09-10 2012-03-15 Thomson Licensing Recovering a pruned version of a picture in a video sequence for example - based data pruning using intra- frame patch similarity
WO2012033972A1 (en) 2010-09-10 2012-03-15 Thomson Licensing Methods and apparatus for pruning decision optimization in example-based data pruning compression
US8959071B2 (en) 2010-11-08 2015-02-17 Sony Corporation Videolens media system for feature selection
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
US20130334300A1 (en) * 2011-01-03 2013-12-19 Curt Evans Text-synchronized media utilization and manipulation based on an embedded barcode
US8954477B2 (en) 2011-01-28 2015-02-10 Apple Inc. Data structures for a media-editing application
US8751565B1 (en) 2011-02-08 2014-06-10 Google Inc. Components for web-based configurable pipeline media processing
US11747972B2 (en) 2011-02-16 2023-09-05 Apple Inc. Media-editing application with novel editing tools
US9997196B2 (en) 2011-02-16 2018-06-12 Apple Inc. Retiming media presentations
FR2973134B1 (fr) * 2011-03-23 2015-09-11 Xilopix Procede pour affiner les resultats d'une recherche dans une base de donnees
US8938393B2 (en) 2011-06-28 2015-01-20 Sony Corporation Extended videolens media engine for audio recognition
US8879835B2 (en) * 2011-08-26 2014-11-04 Adobe Systems Incorporated Fast adaptive edge-aware matting
US20130073961A1 (en) * 2011-09-20 2013-03-21 Giovanni Agnoli Media Editing Application for Assigning Roles to Media Content
US20130073960A1 (en) 2011-09-20 2013-03-21 Aaron M. Eppolito Audio meters and parameter controls
US9536564B2 (en) 2011-09-20 2017-01-03 Apple Inc. Role-facilitated editing operations
US9075825B2 (en) * 2011-09-26 2015-07-07 The University Of Kansas System and methods of integrating visual features with textual features for image searching
US9098533B2 (en) * 2011-10-03 2015-08-04 Microsoft Technology Licensing, Llc Voice directed context sensitive visual search
US8649613B1 (en) * 2011-11-03 2014-02-11 Google Inc. Multiple-instance-learning-based video classification
CN102542066B (zh) * 2011-11-11 2014-04-09 冉阳 视频聚类方法、排序方法和视频搜索方法以及相应装置
JP5922255B2 (ja) * 2011-12-28 2016-05-24 インテル コーポレイション データストリームのリアルタイム自然言語処理
US9846696B2 (en) * 2012-02-29 2017-12-19 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and methods for indexing multimedia content
US9146993B1 (en) * 2012-03-16 2015-09-29 Google, Inc. Content keyword identification
US9292552B2 (en) * 2012-07-26 2016-03-22 Telefonaktiebolaget L M Ericsson (Publ) Apparatus, methods, and computer program products for adaptive multimedia content indexing
US9633015B2 (en) 2012-07-26 2017-04-25 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and methods for user generated content indexing
US8935246B2 (en) * 2012-08-08 2015-01-13 Google Inc. Identifying textual terms in response to a visual query
CN103714063B (zh) * 2012-09-28 2017-08-04 国际商业机器公司 数据分析方法及其系统
US9172740B1 (en) 2013-01-15 2015-10-27 Google Inc. Adjustable buffer remote access
US9311692B1 (en) 2013-01-25 2016-04-12 Google Inc. Scalable buffer remote access
US9225979B1 (en) 2013-01-30 2015-12-29 Google Inc. Remote access encoding
US10356461B2 (en) 2013-03-15 2019-07-16 adRise, Inc. Adaptive multi-device content generation based on associated internet protocol addressing
US10887421B2 (en) 2013-03-15 2021-01-05 Tubi, Inc. Relevant secondary-device content generation based on associated internet protocol addressing
US10594763B2 (en) 2013-03-15 2020-03-17 adRise, Inc. Platform-independent content generation for thin client applications
US10445367B2 (en) 2013-05-14 2019-10-15 Telefonaktiebolaget Lm Ericsson (Publ) Search engine for textual content and non-textual content
US9521189B2 (en) * 2013-08-21 2016-12-13 Google Inc. Providing contextual data for selected link units
US10289810B2 (en) 2013-08-29 2019-05-14 Telefonaktiebolaget Lm Ericsson (Publ) Method, content owner device, computer program, and computer program product for distributing content items to authorized users
WO2015030645A1 (en) 2013-08-29 2015-03-05 Telefonaktiebolaget L M Ericsson (Publ) Methods, computer program, computer program product and indexing systems for indexing or updating index
US10108617B2 (en) * 2013-10-30 2018-10-23 Texas Instruments Incorporated Using audio cues to improve object retrieval in video
US9189834B2 (en) 2013-11-14 2015-11-17 Adobe Systems Incorporated Adaptive denoising with internal and external patches
US9286540B2 (en) * 2013-11-20 2016-03-15 Adobe Systems Incorporated Fast dense patch search and quantization
WO2015112870A1 (en) 2014-01-25 2015-07-30 Cloudpin Inc. Systems and methods for location-based content sharing using unique identifiers
US9728230B2 (en) * 2014-02-20 2017-08-08 International Business Machines Corporation Techniques to bias video thumbnail selection using frequently viewed segments
WO2015127385A1 (en) * 2014-02-24 2015-08-27 Lyve Minds, Inc. Automatic generation of compilation videos
US9779775B2 (en) 2014-02-24 2017-10-03 Lyve Minds, Inc. Automatic generation of compilation videos from an original video based on metadata associated with the original video
US9767540B2 (en) 2014-05-16 2017-09-19 Adobe Systems Incorporated Patch partitions and image processing
US10318575B2 (en) * 2014-11-14 2019-06-11 Zorroa Corporation Systems and methods of building and using an image catalog
US10074102B2 (en) * 2014-11-26 2018-09-11 Adobe Systems Incorporated Providing alternate words to aid in drafting effective social media posts
US9847101B2 (en) * 2014-12-19 2017-12-19 Oracle International Corporation Video storytelling based on conditions determined from a business object
US9842390B2 (en) * 2015-02-06 2017-12-12 International Business Machines Corporation Automatic ground truth generation for medical image collections
US10095786B2 (en) 2015-04-09 2018-10-09 Oath Inc. Topical based media content summarization system and method
CN104881798A (zh) * 2015-06-05 2015-09-02 北京京东尚科信息技术有限公司 基于商品图像特征的个性化搜索装置及方法
US10062015B2 (en) 2015-06-25 2018-08-28 The Nielsen Company (Us), Llc Methods and apparatus for identifying objects depicted in a video using extracted video frames in combination with a reverse image search engine
US10242033B2 (en) * 2015-07-07 2019-03-26 Adobe Inc. Extrapolative search techniques
US10140880B2 (en) * 2015-07-10 2018-11-27 Fujitsu Limited Ranking of segments of learning materials
WO2017012123A1 (en) * 2015-07-23 2017-01-26 Wizr Video processing
US9858967B1 (en) * 2015-09-09 2018-01-02 A9.Com, Inc. Section identification in video content
CN105488183B (zh) * 2015-12-01 2018-12-04 北京邮电大学世纪学院 挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置
US10592750B1 (en) * 2015-12-21 2020-03-17 Amazon Technlogies, Inc. Video rule engine
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier
US10678853B2 (en) * 2015-12-30 2020-06-09 International Business Machines Corporation Aligning visual content to search term queries
KR20170098079A (ko) * 2016-02-19 2017-08-29 삼성전자주식회사 전자 장치 및 전자 장치에서의 비디오 녹화 방법
US10891019B2 (en) * 2016-02-29 2021-01-12 Huawei Technologies Co., Ltd. Dynamic thumbnail selection for search results
CN105787087B (zh) * 2016-03-14 2019-09-17 腾讯科技(深圳)有限公司 合演视频中搭档的匹配方法和装置
US9858340B1 (en) 2016-04-11 2018-01-02 Digital Reasoning Systems, Inc. Systems and methods for queryable graph representations of videos
US10289642B2 (en) * 2016-06-06 2019-05-14 Baidu Usa Llc Method and system for matching images with content using whitelists and blacklists in response to a search query
US10008218B2 (en) 2016-08-03 2018-06-26 Dolby Laboratories Licensing Corporation Blind bandwidth extension using K-means and a support vector machine
US10311112B2 (en) 2016-08-09 2019-06-04 Zorroa Corporation Linearized search of visual media
US10467257B2 (en) 2016-08-09 2019-11-05 Zorroa Corporation Hierarchical search folders for a document repository
US10664514B2 (en) 2016-09-06 2020-05-26 Zorroa Corporation Media search processing using partial schemas
US10645142B2 (en) * 2016-09-20 2020-05-05 Facebook, Inc. Video keyframes display on online social networks
US10685047B1 (en) 2016-12-08 2020-06-16 Townsend Street Labs, Inc. Request processing system
US10430661B2 (en) * 2016-12-20 2019-10-01 Adobe Inc. Generating a compact video feature representation in a digital medium environment
US10268897B2 (en) 2017-03-24 2019-04-23 International Business Machines Corporation Determining most representative still image of a video for specific user
US10540444B2 (en) * 2017-06-20 2020-01-21 The Boeing Company Text mining a dataset of electronic documents to discover terms of interest
CN107609461A (zh) * 2017-07-19 2018-01-19 阿里巴巴集团控股有限公司 模型的训练方法、数据相似度的确定方法、装置及设备
US10372991B1 (en) * 2018-04-03 2019-08-06 Google Llc Systems and methods that leverage deep learning to selectively store audiovisual content
US20190354608A1 (en) * 2018-05-21 2019-11-21 Qingdao Hisense Electronics Co., Ltd. Display apparatus with intelligent user interface
US11507619B2 (en) 2018-05-21 2022-11-22 Hisense Visual Technology Co., Ltd. Display apparatus with intelligent user interface
US10965985B2 (en) 2018-05-21 2021-03-30 Hisense Visual Technology Co., Ltd. Display apparatus with intelligent user interface
CN110795597A (zh) * 2018-07-17 2020-02-14 上海智臻智能网络科技股份有限公司 视频关键字确定、视频检索方法及装置、存储介质、终端
CN109089133B (zh) * 2018-08-07 2020-08-11 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
EP3834098A4 (en) * 2018-09-12 2021-08-11 Avigilon Corporation SYSTEM AND METHOD FOR IMPROVING THE SPEED OF SIMILARITY-BASED SEARCHES
CN109376145B (zh) * 2018-11-19 2022-05-06 深圳Tcl新技术有限公司 影视对白数据库的建立方法、建立装置及存储介质
WO2020106451A1 (en) * 2018-11-20 2020-05-28 Google Llc Methods, systems, and media for modifying search results based on search query risk
US11250039B1 (en) * 2018-12-06 2022-02-15 A9.Com, Inc. Extreme multi-label classification
US11803556B1 (en) * 2018-12-10 2023-10-31 Townsend Street Labs, Inc. System for handling workplace queries using online learning to rank
CN109933688A (zh) * 2019-02-13 2019-06-25 北京百度网讯科技有限公司 确定视频标注信息的方法、装置、设备和计算机存储介质
CN111800671B (zh) * 2019-04-08 2022-08-12 百度时代网络技术(北京)有限公司 用于对齐段落和视频的方法和装置
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
CN110362694A (zh) * 2019-07-05 2019-10-22 武汉莱博信息技术有限公司 基于人工智能的文献数据检索方法、设备及可读存储介质
CN110381368A (zh) * 2019-07-11 2019-10-25 北京字节跳动网络技术有限公司 视频封面生成方法、装置及电子设备
US11531707B1 (en) 2019-09-26 2022-12-20 Okta, Inc. Personalized search based on account attributes
US11500927B2 (en) * 2019-10-03 2022-11-15 Adobe Inc. Adaptive search results for multimedia search queries
WO2021173219A1 (en) * 2020-02-27 2021-09-02 Rovi Guides, Inc. Systems and methods for generating dynamic annotations
US11128910B1 (en) 2020-02-27 2021-09-21 Rovi Guides, Inc. Systems and methods for generating dynamic annotations
US11606613B2 (en) 2020-02-27 2023-03-14 Rovi Guides, Inc. Systems and methods for generating dynamic annotations
WO2021171099A2 (en) * 2020-02-28 2021-09-02 Lomotif Private Limited Method for atomically tracking and storing video segments in multi-segment audio-video compositions
CN111432282B (zh) * 2020-04-01 2022-01-04 腾讯科技(深圳)有限公司 一种视频推荐方法及装置
EP3948516A1 (en) * 2020-06-09 2022-02-09 Google LLC Generation of interactive audio tracks from visual content
US11645733B2 (en) 2020-06-16 2023-05-09 Bank Of America Corporation System and method for providing artificial intelligence architectures to people with disabilities
US11829413B1 (en) * 2020-09-23 2023-11-28 Amazon Technologies, Inc. Temporal localization of mature content in long-form videos using only video-level labels
US20220114361A1 (en) * 2020-10-14 2022-04-14 Adobe Inc. Multi-word concept tagging for images using short text decoder
CN112399262B (zh) * 2020-10-30 2024-02-06 深圳Tcl新技术有限公司 视频搜索方法、电视及存储介质
CN112559800B (zh) * 2020-12-17 2023-11-14 北京百度网讯科技有限公司 用于处理视频的方法、装置、电子设备、介质和产品
CN112733779B (zh) * 2021-01-19 2023-04-07 三星电子(中国)研发中心 一种基于人工智能的视频海报展示方法和系统
US11532111B1 (en) * 2021-06-10 2022-12-20 Amazon Technologies, Inc. Systems and methods for generating comic books from video and images
US12022138B2 (en) 2021-06-21 2024-06-25 Tubi, Inc. Model serving for advanced frequency management
CN113378781B (zh) * 2021-06-30 2022-08-05 北京百度网讯科技有限公司 视频特征提取模型的训练方法、装置和电子设备
WO2023000950A1 (zh) * 2021-07-23 2023-01-26 聚好看科技股份有限公司 显示设备及媒资内容推荐方法
CN113901263B (zh) * 2021-09-30 2022-08-19 宿迁硅基智能科技有限公司 一种视频素材的标签生成方法及装置
CN116150428B (zh) * 2021-11-16 2024-06-07 腾讯科技(深圳)有限公司 视频标签获取方法、装置、电子设备及存储介质
US11893032B2 (en) * 2022-01-11 2024-02-06 International Business Machines Corporation Measuring relevance of datasets to a data science model

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6574378B1 (en) * 1999-01-22 2003-06-03 Kent Ridge Digital Labs Method and apparatus for indexing and retrieving images using visual keywords
US20050267879A1 (en) * 1999-01-29 2005-12-01 Shunichi Sekiguchi Method of image feature coding and method of image search
CN101071439A (zh) * 2007-05-24 2007-11-14 北京交通大学 一种基于多视角的交互式视频搜索方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7263659B2 (en) * 1998-09-09 2007-08-28 Ricoh Company, Ltd. Paper-based interface for multimedia information
JP4449216B2 (ja) * 1998-12-28 2010-04-14 ソニー株式会社 映像情報の編集方法及び編集装置
US20040125877A1 (en) * 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content
US20020164070A1 (en) * 2001-03-14 2002-11-07 Kuhner Mark B. Automatic algorithm generation
KR20040020933A (ko) * 2001-06-22 2004-03-09 노사 오모이구이 지식 검색, 관리, 전달 및 프리젠테이션을 위한 시스템 및방법
JP4062908B2 (ja) * 2001-11-21 2008-03-19 株式会社日立製作所 サーバ装置および画像表示装置
US6865226B2 (en) * 2001-12-05 2005-03-08 Mitsubishi Electric Research Laboratories, Inc. Structural analysis of videos with hidden markov models and dynamic programming
US20030196206A1 (en) * 2002-04-15 2003-10-16 Shusman Chad W. Method and apparatus for internet-based interactive programming
US8682097B2 (en) * 2006-02-14 2014-03-25 DigitalOptics Corporation Europe Limited Digital image enhancement with reference images
WO2005076594A1 (en) * 2004-02-06 2005-08-18 Agency For Science, Technology And Research Automatic video event detection and indexing
US8156427B2 (en) * 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US7639387B2 (en) * 2005-08-23 2009-12-29 Ricoh Co., Ltd. Authoring tools using a mixed media environment
US20060179051A1 (en) * 2005-02-09 2006-08-10 Battelle Memorial Institute Methods and apparatus for steering the analyses of collections of documents
US8572088B2 (en) * 2005-10-21 2013-10-29 Microsoft Corporation Automated rich presentation of a semantic topic
US7680853B2 (en) * 2006-04-10 2010-03-16 Microsoft Corporation Clickable snippets in audio/video search results
US20070255755A1 (en) * 2006-05-01 2007-11-01 Yahoo! Inc. Video search engine using joint categorization of video clips and queries based on multiple modalities
EP2049983A2 (en) * 2006-08-07 2009-04-22 Yeda Research And Development Co. Ltd. Data similarity and importance using local and global evidence scores
US20080120291A1 (en) * 2006-11-20 2008-05-22 Rexee, Inc. Computer Program Implementing A Weight-Based Search
US7840076B2 (en) * 2006-11-22 2010-11-23 Intel Corporation Methods and apparatus for retrieving images from a large collection of images
US20080154889A1 (en) * 2006-12-22 2008-06-26 Pfeiffer Silvia Video searching engine and methods
KR100856027B1 (ko) * 2007-01-09 2008-09-03 주식회사 태그스토리 저작권 인증된 동영상 데이터 서비스 시스템 및 방법
US8806320B1 (en) * 2008-07-28 2014-08-12 Cut2It, Inc. System and method for dynamic and automatic synchronization and manipulation of real-time and on-line streaming media
US20090263014A1 (en) * 2008-04-17 2009-10-22 Yahoo! Inc. Content fingerprinting for video and/or image
US20090327236A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Visual query suggestions
US9390169B2 (en) * 2008-06-28 2016-07-12 Apple Inc. Annotation of movies
US20100191689A1 (en) * 2009-01-27 2010-07-29 Google Inc. Video content analysis for automatic demographics recognition of users and videos
US8559720B2 (en) * 2009-03-30 2013-10-15 Thomson Licensing S.A. Using a video processing and text extraction method to identify video segments of interest
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US8983192B2 (en) * 2011-11-04 2015-03-17 Google Inc. High-confidence labeling of video volumes in a video sharing service
US9070046B2 (en) * 2012-10-17 2015-06-30 Microsoft Technology Licensing, Llc Learning-based image webpage index selection
US9779304B2 (en) * 2015-08-11 2017-10-03 Google Inc. Feature-based video annotation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6574378B1 (en) * 1999-01-22 2003-06-03 Kent Ridge Digital Labs Method and apparatus for indexing and retrieving images using visual keywords
US20050267879A1 (en) * 1999-01-29 2005-12-01 Shunichi Sekiguchi Method of image feature coding and method of image search
CN101071439A (zh) * 2007-05-24 2007-11-14 北京交通大学 一种基于多视角的交互式视频搜索方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015061979A1 (zh) * 2013-10-30 2015-05-07 宇龙计算机通信科技(深圳)有限公司 终端和视频文件管理方法
US10229323B2 (en) 2013-10-30 2019-03-12 Yulong Computer Telecommunications Scientific (Shenzhen) Co., Ltd. Terminal and method for managing video file
US10867183B2 (en) 2014-09-08 2020-12-15 Google Llc Selecting and presenting representative frames for video previews
US12014542B2 (en) 2014-09-08 2024-06-18 Google Llc Selecting and presenting representative frames for video previews
CN107077595A (zh) * 2014-09-08 2017-08-18 谷歌公司 选择和呈现代表性帧以用于视频预览
CN107960125A (zh) * 2015-06-24 2018-04-24 谷歌有限责任公司 选择视频的代表性视频帧
US11200423B2 (en) 2015-08-11 2021-12-14 Google Llc Feature-based video annotation
CN107533638A (zh) * 2015-08-11 2018-01-02 谷歌有限责任公司 利用标签正确性概率来注释视频
CN107533638B (zh) * 2015-08-11 2023-08-11 谷歌有限责任公司 利用标签正确性概率来注释视频
CN106708876B (zh) * 2015-11-16 2020-04-21 任子行网络技术股份有限公司 一种基于Lucene的相似视频检索方法及系统
CN106708876A (zh) * 2015-11-16 2017-05-24 任子行网络技术股份有限公司 一种基于Lucene的相似视频检索方法及系统
CN107870959A (zh) * 2016-09-23 2018-04-03 奥多比公司 响应于视频搜索查询提供相关视频场景
CN107870959B (zh) * 2016-09-23 2023-08-04 奥多比公司 响应于视频搜索查询提供相关视频场景
CN110023982B (zh) * 2016-10-11 2022-02-25 电子湾有限公司 用于选择产品标题的系统、方法、存储设备及介质
US11580589B2 (en) 2016-10-11 2023-02-14 Ebay Inc. System, method, and medium to select a product title
CN110023982A (zh) * 2016-10-11 2019-07-16 电子湾有限公司 选择产品标题
CN106776890A (zh) * 2016-11-29 2017-05-31 北京小米移动软件有限公司 视频播放进度的调整方法及装置
CN110073375B (zh) * 2016-12-13 2023-08-25 谷歌有限责任公司 用于量子位读出的补偿脉冲
CN110073375A (zh) * 2016-12-13 2019-07-30 谷歌有限责任公司 用于量子位读出的补偿脉冲
CN110178148A (zh) * 2017-01-18 2019-08-27 微软技术许可有限责任公司 物理实体的计算机辅助跟踪
CN108629266B (zh) * 2017-03-20 2024-04-19 奥多比公司 一种用于计算相关性分数的计算系统、方法
CN108629266A (zh) * 2017-03-20 2018-10-09 奥多比公司 使用图像到题目嵌入的大规模图像加标记
CN107025275B (zh) * 2017-03-21 2019-11-15 腾讯科技(深圳)有限公司 视频搜索方法及装置
CN107025275A (zh) * 2017-03-21 2017-08-08 腾讯科技(深圳)有限公司 视频搜索方法及装置
CN110914872A (zh) * 2017-07-24 2020-03-24 国际商业机器公司 用认知洞察力导航视频场景
CN109598527A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 广告效果分析方法及装置
CN110059223B (zh) * 2018-01-18 2023-04-07 维里逊专利及许可公司 用于机内循环、图像到视频计算机视觉引导的方法与装置
CN110059223A (zh) * 2018-01-18 2019-07-26 奥誓公司 机内循环、图像到视频计算机视觉引导
CN112055847A (zh) * 2018-09-18 2020-12-08 谷歌有限责任公司 处理图像的方法和系统
CN112055847B (zh) * 2018-09-18 2024-03-12 谷歌有限责任公司 处理图像的方法和系统
US11947591B2 (en) 2018-09-18 2024-04-02 Google Llc Methods and systems for processing imagery
CN113646800A (zh) * 2018-09-27 2021-11-12 株式会社OPTiM 物体状况判断系统、物体状况判断方法以及程序

Also Published As

Publication number Publication date
CN102549603B (zh) 2015-05-06
US20230306057A1 (en) 2023-09-28
AU2018201624B2 (en) 2019-11-21
US11017025B2 (en) 2021-05-25
AU2018201624A1 (en) 2018-03-29
AU2016202074A1 (en) 2016-04-28
CA2771593C (en) 2018-10-30
EP2471026A1 (en) 2012-07-04
US20180349391A1 (en) 2018-12-06
US20110047163A1 (en) 2011-02-24
US20210349944A1 (en) 2021-11-11
US10614124B2 (en) 2020-04-07
WO2011025701A1 (en) 2011-03-03
EP2471026B1 (en) 2018-04-11
AU2016202074B2 (en) 2017-12-07
EP3352104A1 (en) 2018-07-25
EP2471026A4 (en) 2014-03-12
AU2010286797A1 (en) 2012-03-15
CA2771593A1 (en) 2011-03-03
US20150220543A1 (en) 2015-08-06
US11693902B2 (en) 2023-07-04

Similar Documents

Publication Publication Date Title
US20230306057A1 (en) Relevance-Based Image Selection
US10922350B2 (en) Associating still images and videos
US11949964B2 (en) Generating action tags for digital videos
US9372920B2 (en) Identifying textual terms in response to a visual query
US9148619B2 (en) Music soundtrack recommendation engine for videos
CN114342353B (zh) 用于视频分割的方法和系统
US11461386B2 (en) Visual recognition using user tap locations
US8498455B2 (en) Scalable face image retrieval
Ulges et al. A system that learns to tag videos by watching youtube
Chen et al. Name-face association with web facial image supervision
Zhang et al. Interactive mobile visual search for social activities completion using query image contextual model
Tsafaris Interactive video search based on online content classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.