CN108388836A

CN108388836A - 一种用于获取视频语义信息的方法与装置

Info

Publication number: CN108388836A
Application number: CN201810074371.2A
Authority: CN
Inventors: 罗江春; 陈锡岩
Original assignee: Beijing Survey Technology Co Ltd
Current assignee: Beijing Survey Technology Co Ltd
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2018-08-10
Anticipated expiration: 2038-01-25
Also published as: WO2019144840A1; CN108388836B

Abstract

本发明的目的是提供一种用于获取视频语义信息的方法与设备。本发明通过对视频中的视频帧进行目标提取，以确定所述视频帧中所包含的视觉对象，然后根据所述视觉对象所对应的对象特征，确定所述一个或多个视频帧所对应的场景信息，最后根据所述场景信息，确定所述视频的视频帧所对应的视频语义信息。与现有技术相比，本发明能够基于视频自动获取详细完整的视频语义信息，节省了用于视频语义获取的大量人工资源，同时，所获取的视频语义信息能够便于后续对于视频的分析或搜索等。

Description

一种用于获取视频语义信息的方法与装置

技术领域

本发明涉及视频技术领域，尤其涉及一种用于获取视频语义信息的技术。

背景技术

当前，获取视频内容的方法主要包括：根据视频介绍来获取，或是通过对视频内容进行分析后获取。前者主要是基于视频简介，而视频简介所覆盖的视频内容有限，无法反应视频内容的具体细节；后者则主要是对视频画面进行人物识别以及情绪识别，因此，所还原的视频信息有限，无法完整地还原视频所对应的具体语义信息。

因此，如何能够获取详细的视频语义信息，进一步支持视频的应用，成为了本领域技术人员亟待解决的问题之一。

发明内容

本发明的目的是提供一种用于获取视频语义信息的方法与设备。

根据本发明的一个实施例，提供了一种用于获取视频语义信息的方法，其中，该方法包括以下步骤：

提取视频中的一个或多个视频帧；

对所述视频帧进行目标提取，以确定所述视频帧中所包含的视觉对象；

根据所述视觉对象所对应的对象特征，以确定所述一个或多个视频帧所对应的场景信息；

根据所述场景信息，确定所述视频的视频帧所对应的视频语义信息。

可选地，提取视频中的一个或多个视频帧的步骤包括：

提取视频中的多个视频帧，其中，所述多个视频帧是连续的。

可选地，该方法还包括：

对视频进行场景分割；

其中，提取视频中的多个视频帧的步骤包括：

根据所述视频中所对应的场景，提取所述视频中的多个视频帧，其中，所述多个视频帧是连续的且对应于同一场景。

可选地，提取视频中的一个或多个视频帧的步骤包括：

当满足一个或多个触发条件时，提取视频中的一个或多个视频帧；

其中，所述触发条件包括以下至少任一项：

根据所述视频的播放时间长度触发；

根据所述视频的播放时间点触发；

根据所述视频的一个或多个播放内容触发。

可选地，确定所述视频帧中所包含的视觉对象的步骤包括：

对所述视频帧进行目标提取，结合所述视频的视频相关信息，以确定所述视频帧中所包含的视觉对象。

可选地，确定所述一个或多个视频帧所对应的场景信息的步骤包括：

确定每个所述视觉对象所对应的对象特征；

根据每个所述视觉对象所对应的对象特征间的关联性信息，确定所述一个或多个视频帧所对应的场景信息。

可选地，确定每个所述视觉对象所对应的对象特征的步骤包括：

根据每个所述视觉对象的对象属性，确定每个所述视觉对象所对应的对象特征。

可选地，确定所述视频的视频帧所对应的视频语义信息的步骤包括：

对所述视觉对象以及所述视觉对象所对应的对象特征进行语义组合，以生成候选视频语义信息；

根据所述场景信息，结合所述候选视频语义信息，确定所述视频的视频帧所对应的视频语义信息。

可选地，该方法还包括：

获取与所述一个或多个视频帧相对应的语音和/或字幕信息；

其中，确定所述视频的视频帧所对应的视频语义信息的步骤包括：

根据所述场景信息，结合所述语音和/或字幕信息，确定所述视频的视频帧所对应的视频语义信息。

可选地，该方法还包括：

获取一个或多个视频检索序列；

将所述视频检索序列与所述视频语义信息进行匹配，以确定所述视频检索序列所对应的目标视频。

根据本发明的另一个实施例，还提供了一种用于获取视频语义信息的处理设备，其中，所述处理设备包括：

用于提取视频中的一个或多个视频帧的装置；

用于对所述视频帧进行目标提取，以确定所述视频帧中所包含的视觉对象的装置；

用于根据所述视觉对象所对应的对象特征，以确定所述一个或多个视频帧所对应的场景信息的装置；

用于根据所述场景信息，确定所述视频的视频帧所对应的视频语义信息的装置。

可选地，用于提取视频中的一个或多个视频帧的装置用于：

可选地，所述处理设备还包括：

用于对视频进行场景分割的装置；

其中，用于提取视频中的多个视频帧的装置用于：

可选地，用于提取视频中的一个或多个视频帧的装置用于：

其中，所述触发条件包括以下至少任一项：

根据所述视频的播放时间长度触发；

根据所述视频的播放时间点触发；

根据所述视频的一个或多个播放内容触发。

可选地，用于确定所述视频帧中所包含的视觉对象的装置用于：

可选地，用于确定所述一个或多个视频帧所对应的场景信息的装置包括：

用于确定每个所述视觉对象所对应的对象特征的单元；

用于根据每个所述视觉对象所对应的对象特征间的关联性信息，确定所述一个或多个视频帧所对应的场景信息的单元。

可选地，用于确定每个所述视觉对象所对应的对象特征的单元用于：

可选地，用于确定所述视频的视频帧所对应的视频语义信息的装置用于：

可选地，所述处理设备还包括：

用于获取与所述一个或多个视频帧相对应的语音和/或字幕信息的装置；

其中，用于确定所述视频的视频帧所对应的视频语义信息的装置用于：

可选地，所述处理设备还包括：

用于获取一个或多个视频检索序列的装置；

用于将所述视频检索序列与所述视频语义信息进行匹配，以确定所述视频检索序列所对应的目标视频的装置。

根据本发明的另一个实施例，还提供了一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机可读指令，当所述计算机可读指令被一个或多个设备执行时，使得所述设备执行如上述所述的方法。

根据本发明的另一个实施例，还提供了一种获取视频语义信息的系统，其特征在于，所述系统包括存储器和处理器，所述存储器中存储有计算机可读指令，当所述计算机可读指令被所述处理器执行时，所述处理器执行如上述所述的方法。

与现有技术相比，本发明通过对视频中的视频帧进行目标提取，以确定所述视频帧中所包含的视觉对象，然后根据所述视觉对象所对应的对象特征，确定所述一个或多个视频帧所对应的场景信息，最后根据所述场景信息，确定所述视频的视频帧所对应的视频语义信息；从而本发明能够基于视频自动获取详细完整的视频语义信息，节省了用于视频语义获取的大量人工资源，同时，所获取的视频语义信息能够便于后续对于视频的分析或搜索等。

而且，本发明还能够对连续的视频帧或对应于同一场景的连续视频帧进行分析，从而使得所获取的视频语义信息更加完整准确。

而且，本发明还能够基于不同的触发条件，来提取视频中的一个或多个视频帧，从而实现了对于视频帧的定向提取，进而实现了全自动的视频语义分析，便于对视频语义信息的定向分析与获取，提高了处理效率，节约了大量的人工资源。

而且，本发明还能够结合视频的视频相关信息，来确定所述视频帧中所包含的视觉对象，从而使得所确定的视觉对象更加准确，进一步提升了所获得的视频语义信息的准确性。

而且，本发明还能够根据每个所述视觉对象所对应的对象特征间的关联性信息，确定所述一个或多个视频帧所对应的场景信息；进一步地，还能够根据每个所述视觉对象的对象属性，确定每个所述视觉对象所对应的对象特征。从而，本发明提高了所获取的场景信息的准确性，进一步提升了所获得的视频语义信息的准确性。

而且，本发明还能够根据所述场景信息，结合所述语音和/或字幕信息，确定所述视频的视频帧所对应的视频语义信息，从而提高了所获取的视频语义信息的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个方面的一种用于获取视频语义信息的处理设备示意图；

图2示出根据本发明另一个方面的一种用于获取视频语义信息的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在上下文中所称的“处理设备”，即为“计算机设备”，也称为“电脑”，是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备，其可以包括处理器与存储器，由处理器执行在存储器中预存的存续指令来执行预定处理过程，或是由ASIC、FPGA、DSP等硬件执行预定处理过程，或是由上述二者组合来实现。

所述计算机设备包括用户设备和/或网络设备。其中，所述用户设备包括但不限于电脑、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

本领域技术人员应能理解，一般情况下，本发明中所述的“处理设备”可以仅是网络设备，即由网络设备来执行相应的操作；在特殊情况下，也可以是由用户设备与网络设备或服务器相集成来组成，即由用户设备与网络设备相配合来执行相应的操作，例如，由用户设备向网络设备发送指令，以指示网络设备开始执行“获取视频语义信息”的相应操作。

需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备或网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个方面的一种用于获取视频语义信息的处理设备示意图；其中，所述处理设备包括用于提取视频中的一个或多个视频帧的装置(以下简称“第一装置1”)；用于对所述视频帧进行目标提取，以确定所述视频帧中所包含的视觉对象的装置(以下简称“第二装置2”)；用于根据所述视觉对象所对应的对象特征，以确定所述一个或多个视频帧所对应的场景信息的装置(以下简称“第三装置3”)；用于根据所述场景信息，确定所述视频的视频帧所对应的视频语义信息的装置(以下简称“第四装置4”)。

所述第一装置1提取视频中的一个或多个视频帧。

具体地，所述第一装置1通过自动提取或是人工指定提取等方式，从待分析的视频中，提取出一个或多个视频帧。本领域技术人员应能理解，所提取的视频帧可以是一张或多张，也可以是连续或不连续。当所述第一装置1提取了视频帧后，后续的装置即对所提取的视频帧进行视频语义信息的分析。

优选地，所述第一装置1提取视频中的多个视频帧，其中，所述多个视频帧是连续的。也即，所述第一装置1可以同时提取同一视频中的多个连续的视频帧；在此，所述连续的视频帧，即为相邻两个视频帧的播放时间相差在一定阈值范围内的多个视频帧。当所述第一装置1提取了连续视频帧后，后续的装置即对所提取的连续视频帧进行视频语义信息的分析。

在此，所执行的分析可以将连续的视频帧作为一个整体进行分析，从而对多个连续的视频帧得到一个视频语义信息；也可以将连续的视频帧分别分析，从而对多个连续的视频帧得到多个视频语义信息。

更优选地，所述处理设备还包括用于对视频进行场景分割的装置(以下简称“第五装置”，未示出)。其中，所述第五装置对视频进行场景分割；然后，所述第一装置1根据所述视频中所对应的场景，提取所述视频中的多个视频帧，其中，所述多个视频帧是连续的且对应于同一场景。

具体地，所述第五装置根据视频的时间、色彩、人物变更等，对所述视频进行场景分割。例如，将所述视频按照每一分钟为一个场景的默认设置，将该视频的每一分钟作为一个场景以进行分割；或者，根据所述视频中的色彩变化，如从冷色调切换为暖色调时，则认为场景发生变化，从而执行场景分割；或者，根据所述视频中的人物变更，如画面中从两个人变成三个人，则认为场景发生了变化，从而执行场景分割。

本领域技术人员应能理解，其他的场景分割方法也适用于本发明，以供本发明对所述视频进行场景分割。

然后，所述第一装置1根据所分割后的视频，按照每个场景，对所述视频进行视频帧的提取，换言之，所述第一装置1可以对所述多个场景中的至少一个来提取视频帧，所提取的视频帧是连续的且对应于该场景。

优选地，当满足一个或多个触发条件时，所述第一装置1提取视频中的一个或多个视频帧。

具体地，所述第一装置1可以实时地或是基于事件触发地，对所述视频进行检测，判断当前视频是否满足触发条件；当满足所述触发条件时，所述第一装置1则提取视频中的一个或多个视频帧。

其中，所述触发条件包括以下至少任一项：

根据所述视频的播放时间长度触发：例如，当所述视频的播放时间长度在第五分钟时，则执行视频帧的提取，在此，若某一用户从该视频的起始阶段(即0分0秒)开始播放，则表示在第五分钟(即5分0秒)进行视频帧的提取，若某一用户从该视频的第十分钟(即10分0秒)开始播放，则表示在第十五分钟(即15分0秒)进行视频帧的提取。

根据所述视频的播放时间点触发：例如，在所述视频的第三分钟、第五分钟和第七分钟触发视频帧的提取。

根据所述视频的一个或多个播放内容触发：其中，所述播放内容包括但不限于语音、人物、物品、图案等。例如，当所述视频出现语音时，则触发对视频帧的提取；当所述视频出现人物“曹操”时，则触发对视频帧的提取；当所述视频出现物品“可口可乐”时，则触发对视频帧的提取；当所述视频出现“CCTV”的LOGO时，则触发对视频帧的提取等。

在此，所述第一装置1可以基于缺省设置，来决定“当触发对视频帧的提取时，提取多少个视频帧、所提取的视频帧所对应的视频长度”等；也可以基于所述触发条件，来确定提取视频帧的参数设置，例如，提取频率(一秒内提取几帧)、提取数量(一共提取多少个视频帧)、所提取的视频帧所对应的视频长度(如当从某一时间点开始提取视频帧后，再到哪一时间点停止提取)、提取哪些视频帧等。例如，不同的触发条件可以对应不同的参数设置，如若触发视频帧提取的播放内容不同，则所对应的提取视频帧的参数设置也不同。

所述第二装置2对所述视频帧进行目标提取，以确定所述视频帧中所包含的视觉对象。

具体地，所述第二装置2通过对所述视频帧进行图像处理，基于各类图像处理算法，如通过对所述视频帧进行纹理提取、色彩分析等方式，提取所述视频帧中所包含的目标；然后，通过将所提取的目标与一个或多个对象模型进行比较，以确定所述目标所对应的视觉对象，进而确定所述视频帧中所包含的视觉对象。

在此，所述视觉对象包括但不限于人物、物品、背景、图标等。

例如，若对某个电视剧的视频帧进行目标提取，则可以确定该视频帧中包含四个目标，然后，将这四个目标与现有的对象模型进行匹配，可以确定这四个目标分别是：“两个人物、一个沙发、一个茶几”。在此，所述的对象模型可以是预设置的，也可以是基于机器学习的方式不断学习获取的。

优选地，所述第二装置2可以对所述视频帧进行目标提取，结合所述视频的视频相关信息，以确定所述视频帧中所包含的视觉对象。

具体地，所述视频相关信息包括但不限于视频内容简介、视频主要人物简介、视频相关搜索结果、视频出品方/作者等。

所述第二装置2通过对所述视频帧进行图像处理，基于各类图像处理算法，如通过对所述视频帧进行纹理提取、色彩分析等方式，提取所述视频帧中所包含的目标。然后，通过将所提取的目标与一个或多个与所述视频相关信息关联的对象模型进行匹配，以确定所述目标所对应的视觉对象，进而确定所述视频帧中所包含的视觉对象；或者，先将将所提取的目标与一个或多个通用对象模型进行匹配，当确定了所述目标的所述类别(如人物、物品、背景、图标等类别)后，将所述目标与该视频信息相关联的该类别中的具体模型进行匹配，以确定所述目标所对应的视觉对象，进而确定所述视频帧中所包含的视觉对象。

例如，若所述视频相关信息为该视频的演员表，则将所提取的目标(主要为人物类目标)与所述演员表中的各个演员的图像模型进行匹配，以确定所提取的目标是否是该演员；或者，将所提取的目标与通用模型进行匹配，首先确定该目标的类别是“人物”，然后，将所述人物目标与该视频的各个演员的图像模型进行匹配，以确定所提取的目标是否是该演员。

所述第三装置3根据所述视觉对象所对应的对象特征，以确定所述一个或多个视频帧所对应的场景信息。

具体地，所述第三装置3通过对所述视觉对象的图像特征进行分析，以确定所述视觉对象所对应的对象特征。

其中，所述对象特征包括但不限于动作、情绪、色彩、位置等，进一步地，对于同一视频帧内的多个视觉对象，所述对象特征还包括多个视觉对象之间的交互或关联关系。

然后，所述第三装置3根据所述对象特征，对多个所述对象特征间的相互关系进行分析，以确定所述一个或多个视频帧所对应的场景信息。在此，所述场景信息的确定，可以基于预先设定的对象特征模型来进行分析，所述对象特征模型中包括多种对象特征或其组合与不同的场景信息的映射关系。

其中，所述场景信息包括但不限于如诙谐、恐怖、搞笑、愉悦等表述场景状态或场景氛围的信息。

例如，所述第二装置2确定所述视觉对象为“沙发”、“王力宏”，经过所述第三装置3对上述视觉对象的分析，“沙发”的对象特征为“色彩为米色”，“王力宏”的对象特征为“坐”、“微笑”，则所述第三装置3基于对象特征模型中对“沙发”、“米色”、“坐”、“微笑”、“王力宏(人物)”的映射关系，通过基于对其中的“色彩情绪”、“表情情绪”等的分析，确定其场景信息为“愉悦”。

在此，本领域技术人员应能理解，当所述第三装置3对所述对象特征进行分析时，可以先基于两两对象特征进行分析，或将两两对象特征与所述对象特征模型中的映射关系进行匹配；从而，经过多轮的分析或匹配后，最终得到最后的场景信息。此外，所述第三装置3也可以直接将全部对象特征进行分析与匹配，从而直接得到场景信息。

优选地，所述第三装置3包括用于确定每个所述视觉对象所对应的对象特征的单元(以下简称“三一单元”，未示出)，以及用于根据每个所述视觉对象所对应的对象特征间的关联性信息，确定所述一个或多个视频帧所对应的场景信息的单元(以下简称“三二单元”，未示出)。

具体地，所述三一单元对每个所述视觉对象的图像特征分别进行分析，从而分别确定所述视觉对象所对应的对象特征。

更优选地，所述三一单元可以根据每个所述视觉对象的对象属性，确定每个所述视觉对象所对应的对象特征。

具体地，所述三一单元首先基于所述视觉对象的名称等，确定每个视觉对象所对应的对象属性；其中，所述对象属性包括但不限于所述视觉对象的各种类别。

例如，当所述视觉对象为“沙发”时，其所对应的对象属性为“家具”，相应地，“家具”所具有的对象特征应当包括“颜色、形状、大小”等；例如，当所述视觉对象为“王力宏”时，其所对应的对象属性为“人物”和/或“娱乐明星”，则相应地，“人物”所具有的对象特征为“性别、表情、动作、服饰”等，“娱乐明星”所具有的对象特征为“姓名”等。

然后，所述三一单元根据所确定的对象属性所要求的对象特征，对于所述具体的视觉对象，按照上述对象特征进行分析，以得出该视觉对象所对应的对象特征。

例如，“沙发”的对象特征即为“颜色米色、L形沙发、大”，“王力宏”的对象特征即为“性别男、表情微笑、动作坐下、服饰衬衫、姓名王力宏”。

然后，所述三二单元根据每个视觉对象所对应的对象特征间的关联性信息，确定所述一个或多个视频帧所对应的场景信息。在此，所述关联性信息可以基于预先设定的关联模型进行得出；所述关联模型中包括两种或多种不同的对象特征间的关联性信息，这种关联性信息可以基于对大量数据的分析与训练得到。例如，“沙发”和“坐下”具有关联性信息，“微笑”和“坐下”也具有关联性信息，“米色”和“微笑”在情绪上也具有关联性信息(即都表示愉悦)，从而，继上例，所确定的场景信息为“愉悦”。

所述第四装置4根据所述场景信息，确定所述视频的视频帧所对应的视频语义信息。

具体地，所述第四装置4根据所确定的场景信息，将该场景信息转换为“文字或语音”等形式的信息，以作为所述视频的视频帧所对应的视频语义信息。其中，所述视频语义信息包括但不限于场景概况、场景状态和/或场景细节信息等，如时间、地点、人物、动作、情绪等。其中，所述情绪包括开心、生气、恐惧、平静等，所述场景信息包括诙谐、恐怖、搞笑、愉悦等。

在此，所述第四装置4可以直接将所述场景信息作为所述视频语义信息，也可以将所述场景信息进行整理以作为所述视频语义信息，以使其符合语言表达习惯，例如，继上例，所述视频语义信息可以是“愉悦的场景”，也可以是如“王力宏微笑着坐在沙发上”等表示“某人在某地做某事”、“某人以某种情绪做某事”、“某物和某物之间处于何种状态”等的具体信息。

优选地，所述第四装置4可以对所述视觉对象以及所述视觉对象所对应的对象特征进行语义组合，以生成候选视频语义信息；根据所述场景信息，结合所述候选视频语义信息，确定所述视频的视频帧所对应的视频语义信息。

具体地，所述第四装置4可以将所述视觉对象以及所述视觉对象所对应的对象特征进行语义组合，例如，继上例，当所述第二装置2确定所述视觉对象为“沙发”、“王力宏”，且“沙发”的对象特征为“色彩为米色”、“王力宏”的对象特征为“坐”、“微笑”时，所述第四装置4可以将上述对象特征进行语义组合，如“沙发+米色”、“沙发+王力宏+坐”、“微笑+坐”等。所生成的上述语义组合，则作为候选视频语义信息。

在此，本领域技术人员应能理解，上述语义组合可以是两两组合，也可以是多个对象特征的组合；可以是同一视觉对象的多个对象特征间的组合，也可以是不同视觉对象的多个对象特征间的组合。

然后，所述第四装置4根据所述场景信息，对所述候选视频语义信息进行重新组合或挑选；进一步地，还可以根据所述场景信息，对所述候选视频语义信息进行润色，从而确定所述视频的视频帧所对应的视频语义信息。

例如，继上例，若所述场景信息为“愉悦”，则所述第四装置4将包含“愉悦”的“米色”和“微笑”作为视频语义信息中的一部分，从而，所确定的视频语义信息为“坐在米色沙发上微笑”等。

优选地，所述处理设备还包括用于获取与所述一个或多个视频帧相对应的语音和/或字幕信息的装置(以下简称“第六装置”，未示出)，所述第四装置4根据所述场景信息，结合所述语音和/或字幕信息，确定所述视频的视频帧所对应的视频语义信息。

具体地，所述第六装置还可以通过直接获取该视频帧所对应视频的语音文件或字幕文件等方式，或是通过对所述视频进行语音提取或字幕提取的方式，获取与所述一个或多个视频帧相对应的语音和/或字幕信息。

然后，所述第四装置4根据所述场景信息，结合所述语音和/或字幕信息，通过利用所述语音和/或字幕来对所述场景信息与对象特征信息进行组合，以生成视频语义信息；或是将所述语音和/或字幕信息直接作为所述视频语义信息中的一部分；或是利用所述语音和/或字幕信息来对所生成的候选视频语义信息进行筛选等，从而确定所述视频语义信息。

优选地，所述处理设备还包括用于获取一个或多个视频检索序列的装置(以下简称“第七装置”，未示出)以及用于将所述视频检索序列与所述视频语义信息进行匹配，以确定所述视频检索序列所对应的目标视频的装置(以下简称“第八装置”，未示出)。

具体地，所述第七装置通过直接与用户交互或者与其他能够提供视频检索序列的装置相交互，以获取一个或多个视频检索序列；然后，所述第八装置将所述视频检索序列与所确定的各个视频所对应的各个帧/连续帧的视频语义信息进行匹配，若所述视频检索序列与所述视频语义信息匹配，则把该视频语义信息所对应的视频作为目标视频。

进一步地，所述处理设备还可以将所述目标视频提供给发送所述视频检索序列的用户。

图2示出根据本发明另一个方面的一种用于获取视频语义信息的方法流程图。其中，在步骤S1中，所述处理设备提取视频中的一个或多个视频帧；在步骤S2中，所述处理设备对所述视频帧进行目标提取，以确定所述视频帧中所包含的视觉对象；在步骤S3中，所述处理设备根据所述视觉对象所对应的对象特征，以确定所述一个或多个视频帧所对应的场景信息；在步骤S4中，所述处理设备根据所述场景信息，确定所述视频的视频帧所对应的视频语义信息。

在步骤S1中，所述处理设备提取视频中的一个或多个视频帧。

具体地，在步骤S1中，所述处理设备通过自动提取或是人工指定提取等方式，从待分析的视频中，提取出一个或多个视频帧。本领域技术人员应能理解，所提取的视频帧可以是一张或多张，也可以是连续或不连续。当所述处理设备提取了视频帧后，后续的步骤即对所提取的视频帧进行视频语义信息的分析。

优选地，在步骤S1中，所述处理设备提取视频中的多个视频帧，其中，所述多个视频帧是连续的。也即，所述处理设备可以同时提取同一视频中的多个连续的视频帧；在此，所述连续的视频帧，即为相邻两个视频帧的播放时间相差在一定阈值范围内的多个视频帧。当所述处理设备提取了连续视频帧后，后续的步骤即对所提取的连续视频帧进行视频语义信息的分析。

更优选地，所述方法还包括步骤S5。其中，在步骤S5中，所述处理设备对视频进行场景分割；然后，在步骤S1中，所述处理设备根据所述视频中所对应的场景，提取所述视频中的多个视频帧，其中，所述多个视频帧是连续的且对应于同一场景。

具体地，在步骤S5中，所述处理设备根据视频的时间、色彩、人物变更等，对所述视频进行场景分割。例如，将所述视频按照每一分钟为一个场景的默认设置，将该视频的每一分钟作为一个场景以进行分割；或者，根据所述视频中的色彩变化，如从冷色调切换为暖色调时，则认为场景发生变化，从而执行场景分割；或者，根据所述视频中的人物变更，如画面中从两个人变成三个人，则认为场景发生了变化，从而执行场景分割。

然后，在步骤S1中，所述处理设备根据所分割后的视频，按照每个场景，对所述视频进行视频帧的提取，换言之，所述处理设备可以对所述多个场景中的至少一个来提取视频帧，所提取的视频帧是连续的且对应于该场景。

优选地，当满足一个或多个触发条件时，在步骤S1中，所述处理设备提取视频中的一个或多个视频帧。

具体地，在步骤S1中，所述处理设备可以实时地或是基于事件触发地，对所述视频进行检测，判断当前视频是否满足触发条件；当满足所述触发条件时，所述处理设备则提取视频中的一个或多个视频帧。

其中，所述触发条件包括以下至少任一项：

在此，所述处理设备可以基于缺省设置，来决定“当触发对视频帧的提取时，提取多少个视频帧、所提取的视频帧所对应的视频长度”等；也可以基于所述触发条件，来确定提取视频帧的参数设置，例如，提取频率(一秒内提取几帧)、提取数量(一共提取多少个视频帧)、所提取的视频帧所对应的视频长度(如当从某一时间点开始提取视频帧后，再到哪一时间点停止提取)、提取哪些视频帧等。例如，不同的触发条件可以对应不同的参数设置，如若触发视频帧提取的播放内容不同，则所对应的提取视频帧的参数设置也不同。

在步骤S2中，所述处理设备对所述视频帧进行目标提取，以确定所述视频帧中所包含的视觉对象。

具体地，在步骤S2中，所述处理设备通过对所述视频帧进行图像处理，基于各类图像处理算法，如通过对所述视频帧进行纹理提取、色彩分析等方式，提取所述视频帧中所包含的目标；然后，通过将所提取的目标与一个或多个对象模型进行比较，以确定所述目标所对应的视觉对象，进而确定所述视频帧中所包含的视觉对象。

优选地，在步骤S2中，所述处理设备可以对所述视频帧进行目标提取，结合所述视频的视频相关信息，以确定所述视频帧中所包含的视觉对象。

在步骤S2中，所述处理设备通过对所述视频帧进行图像处理，基于各类图像处理算法，如通过对所述视频帧进行纹理提取、色彩分析等方式，提取所述视频帧中所包含的目标。然后，通过将所提取的目标与一个或多个与所述视频相关信息关联的对象模型进行匹配，以确定所述目标所对应的视觉对象，进而确定所述视频帧中所包含的视觉对象；或者，先将将所提取的目标与一个或多个通用对象模型进行匹配，当确定了所述目标的所述类别(如人物、物品、背景、图标等类别)后，将所述目标与该视频信息相关联的该类别中的具体模型进行匹配，以确定所述目标所对应的视觉对象，进而确定所述视频帧中所包含的视觉对象。

在步骤S3中，所述处理设备根据所述视觉对象所对应的对象特征，以确定所述一个或多个视频帧所对应的场景信息。

具体地，在步骤S3中，所述处理设备通过对所述视觉对象的图像特征进行分析，以确定所述视觉对象所对应的对象特征。

然后，所述处理设备根据所述对象特征，对多个所述对象特征间的相互关系进行分析，以确定所述一个或多个视频帧所对应的场景信息。在此，所述场景信息的确定，可以基于预先设定的对象特征模型来进行分析，所述对象特征模型中包括多种对象特征或其组合与不同的场景信息的映射关系。

例如，所述处理设备确定所述视觉对象为“沙发”、“王力宏”，经过所述处理设备对上述视觉对象的分析，“沙发”的对象特征为“色彩为米色”，“王力宏”的对象特征为“坐”、“微笑”，则在步骤S3中，所述处理设备基于对象特征模型中对“沙发”、“米色”、“坐”、“微笑”、“王力宏(人物)”的映射关系，通过基于对其中的“色彩情绪”、“表情情绪”等的分析，确定其场景信息为“愉悦”。

在此，本领域技术人员应能理解，当所述处理设备对所述对象特征进行分析时，可以先基于两两对象特征进行分析，或将两两对象特征与所述对象特征模型中的映射关系进行匹配；从而，经过多轮的分析或匹配后，最终得到最后的场景信息。此外，所述处理设备也可以直接将全部对象特征进行分析与匹配，从而直接得到场景信息。

优选地，所述步骤S3包括步骤S31(未示出)以及步骤S32(未示出)；其中，在步骤S31中，所述处理设备确定每个所述视觉对象所对应的对象特征；在步骤S32中，所述处理设备根据每个所述视觉对象所对应的对象特征间的关联性信息，确定所述一个或多个视频帧所对应的场景信息。

具体地，在步骤S31中，所述处理设备对每个所述视觉对象的图像特征分别进行分析，从而分别确定所述视觉对象所对应的对象特征。

更优选地，在步骤S31中，所述处理设备可以根据每个所述视觉对象的对象属性，确定每个所述视觉对象所对应的对象特征。

具体地，在步骤S31中，所述处理设备首先基于所述视觉对象的名称等，确定每个视觉对象所对应的对象属性；其中，所述对象属性包括但不限于所述视觉对象的各种类别。

然后，在步骤S31中，所述处理设备根据所确定的对象属性所要求的对象特征，对于所述具体的视觉对象，按照上述对象特征进行分析，以得出该视觉对象所对应的对象特征。

然后，在步骤S32中，所述处理设备根据每个视觉对象所对应的对象特征间的关联性信息，确定所述一个或多个视频帧所对应的场景信息。在此，所述关联性信息可以基于预先设定的关联模型进行得出；所述关联模型中包括两种或多种不同的对象特征间的关联性信息，这种关联性信息可以基于对大量数据的分析与训练得到。例如，“沙发”和“坐下”具有关联性信息，“微笑”和“坐下”也具有关联性信息，“米色”和“微笑”在情绪上也具有关联性信息(即都表示愉悦)，从而，继上例，所确定的场景信息为“愉悦”。

在步骤S4中，所述处理设备根据所述场景信息，确定所述视频的视频帧所对应的视频语义信息。

具体地，在步骤S4中，所述处理设备根据所确定的场景信息，将该场景信息转换为“文字或语音”等形式的信息，以作为所述视频的视频帧所对应的视频语义信息。其中，所述视频语义信息包括但不限于场景概况、场景状态和/或场景细节信息等，如时间、地点、人物、动作、情绪等。其中，所述情绪包括开心、生气、恐惧、平静等，所述场景信息包括诙谐、恐怖、搞笑、愉悦等。

在此，在步骤S4中，所述处理设备可以直接将所述场景信息作为所述视频语义信息，也可以将所述场景信息进行整理以作为所述视频语义信息，以使其符合语言表达习惯，例如，继上例，所述视频语义信息可以是“愉悦的场景”，也可以是如“王力宏微笑着坐在沙发上”等表示“某人在某地做某事”、“某人以某种情绪做某事”、“某物和某物之间处于何种状态”等的具体信息。

优选地，在步骤S4中，所述处理设备可以对所述视觉对象以及所述视觉对象所对应的对象特征进行语义组合，以生成候选视频语义信息；根据所述场景信息，结合所述候选视频语义信息，确定所述视频的视频帧所对应的视频语义信息。

具体地，在步骤S4中，所述处理设备可以将所述视觉对象以及所述视觉对象所对应的对象特征进行语义组合，例如，继上例，当所述处理设备确定所述视觉对象为“沙发”、“王力宏”，且“沙发”的对象特征为“色彩为米色”、“王力宏”的对象特征为“坐”、“微笑”时，所述处理设备可以将上述对象特征进行语义组合，如“沙发+米色”、“沙发+王力宏+坐”、“微笑+坐”等。所生成的上述语义组合，则作为候选视频语义信息。

然后，所述处理设备根据所述场景信息，对所述候选视频语义信息进行重新组合或挑选；进一步地，还可以根据所述场景信息，对所述候选视频语义信息进行润色，从而确定所述视频的视频帧所对应的视频语义信息。

例如，继上例，若所述场景信息为“愉悦”，则所述处理设备将包含“愉悦”的“米色”和“微笑”作为视频语义信息中的一部分，从而，所确定的视频语义信息为“坐在米色沙发上微笑”等。

优选地，所述方法还包括步骤S6(未示出)，其中，在步骤S6中，所述处理设备获取与所述一个或多个视频帧相对应的语音和/或字幕信息；在步骤S4中，所述处理设备根据所述场景信息，结合所述语音和/或字幕信息，确定所述视频的视频帧所对应的视频语义信息。

具体地，在步骤S6中，所述处理设备还可以通过直接获取该视频帧所对应视频的语音文件或字幕文件等方式，或是通过对所述视频进行语音提取或字幕提取的方式，获取与所述一个或多个视频帧相对应的语音和/或字幕信息。

然后，在步骤S4中，所述处理设备根据所述场景信息，结合所述语音和/或字幕信息，通过利用所述语音和/或字幕来对所述场景信息与对象特征信息进行组合，以生成视频语义信息；或是将所述语音和/或字幕信息直接作为所述视频语义信息中的一部分；或是利用所述语音和/或字幕信息来对所生成的候选视频语义信息进行筛选等，从而确定所述视频语义信息。

优选地，所述方法还包括步骤S7(未示出)以及步骤S8(未示出)；其中，在步骤S7中，所述处理设备获取一个或多个视频检索序列；在步骤S8中，所述处理设备将所述视频检索序列与所述视频语义信息进行匹配，以确定所述视频检索序列所对应的目标视频。

具体地，在步骤S7中，所述处理设备通过直接与用户交互或者与其他能够提供视频检索序列的装置相交互，以获取一个或多个视频检索序列；然后，在步骤S8中，所述处理设备将所述视频检索序列与所确定的各个视频所对应的各个帧/连续帧的视频语义信息进行匹配，若所述视频检索序列与所述视频语义信息匹配，则把该视频语义信息所对应的视频作为目标视频。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于获取视频语义信息的方法，其中，该方法包括以下步骤：

提取视频中的一个或多个视频帧；

2.根据权利要求1所述的方法，其中，提取视频中的一个或多个视频帧的步骤包括：

3.根据权利要求2所述的方法，其中，该方法还包括：

对视频进行场景分割；

其中，提取视频中的多个视频帧的步骤包括：

4.根据权利要求1至3中任一项所述的方法，其中，提取视频中的一个或多个视频帧的步骤包括：

其中，所述触发条件包括以下至少任一项：

根据所述视频的播放时间长度触发；

根据所述视频的播放时间点触发；

根据所述视频的一个或多个播放内容触发。

5.根据权利要求1至4中任一项所述的方法，其中，确定所述视频帧中所包含的视觉对象的步骤包括：

6.根据权利要求1至5中任一项所述的方法，其中，确定所述一个或多个视频帧所对应的场景信息的步骤包括：

确定每个所述视觉对象所对应的对象特征；

7.根据权利要求6所述的方法，其中，确定每个所述视觉对象所对应的对象特征的步骤包括：

8.根据权利要求1至7中任一项所述的方法，其中，确定所述视频的视频帧所对应的视频语义信息的步骤包括：

9.根据权利要求1至8中任一项所述的方法，其中，该方法还包括：

获取与所述一个或多个视频帧相对应的语音和/或字幕信息；

10.根据权利要求1至9中任一项所述的方法，其中，该方法还包括：

获取一个或多个视频检索序列；

11.一种用于获取视频语义信息的处理设备，其中，所述处理设备包括：

用于提取视频中的一个或多个视频帧的装置；

12.根据权利要求11所述的处理设备，其中，用于提取视频中的一个或多个视频帧的装置用于：

13.根据权利要求12所述的处理设备，其中，所述处理设备还包括：

用于对视频进行场景分割的装置；

其中，用于提取视频中的多个视频帧的装置用于：

14.根据权利要求11至13中任一项所述的处理设备，其中，用于提取视频中的一个或多个视频帧的装置用于：

其中，所述触发条件包括以下至少任一项：

根据所述视频的播放时间长度触发；

根据所述视频的播放时间点触发；

根据所述视频的一个或多个播放内容触发。

15.根据权利要求11至14中任一项所述的处理设备，其中，用于确定所述视频帧中所包含的视觉对象的装置用于：

16.根据权利要求11至15中任一项所述的处理设备，其中，用于确定所述一个或多个视频帧所对应的场景信息的装置包括：

用于确定每个所述视觉对象所对应的对象特征的单元；

17.根据权利要求16所述的处理设备，其中，用于确定每个所述视觉对象所对应的对象特征的单元用于：

18.根据权利要求11至17中任一项所述的处理设备，其中，用于确定所述视频的视频帧所对应的视频语义信息的装置用于：

19.根据权利要求11至18中任一项所述的处理设备，其中，所述处理设备还包括：

20.根据权利要求11至19中任一项所述的处理设备，其中，所述处理设备还包括：

用于获取一个或多个视频检索序列的装置；