CN113190710B

CN113190710B - 语义视频图像的生成方法、播放方法及相关装置

Info

Publication number: CN113190710B
Application number: CN202110458504.8A
Authority: CN
Inventors: 孙其民
Original assignee: Nanchang Virtual Reality Institute Co Ltd
Current assignee: Nanchang Virtual Reality Institute Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2023-05-02
Anticipated expiration: 2041-04-27
Also published as: CN113190710A

Abstract

一种语义视频图像的生成方法、播放方法及相关装置，该语义视频图像的生成方法，包括：对当前帧图像进行图像识别，以识别出当前帧图像中的各个物体对象，以及各个物体对象的语义信息；为识别出的各个物体对象分配唯一的ID，并建立对应关系；分别确定各个物体对象在当前视频帧图像中所占区域的位置，得到各个物体对象的区域位置信息；在一空白图像中确定各个物体对象对应的图像区域，并将图像区域中的每一个像素点的颜色值赋值为对应的ID，得到语义索引帧图像；根据语义索引帧图像和各个物体对象的语义信息，生成语义参考视频帧图像；将各帧的语义参考视频帧图像与原始视频进行帧时序相关处理，得到语义视频图像。

Description

语义视频图像的生成方法、播放方法及相关装置

技术领域

本发明涉及电子信息技术领域，特别是涉及一种语义视频图像的生成方法、播放方法及相关装置。

背景技术

随着信息技术和互联网技术的发展，视频称为越来越重要信息传递媒介，社交平台上短视频使用量激增，在线视频、视频直播等随着5G设施的建设将更广泛地应用。现有视频技术在实时、大信息量传递取得了极大的成功，视觉和听觉体验效果不断提升，但其可交互性却一直缺乏，这主要是因为现有视频的设计就是单向传递信息，人的眼睛和耳朵被动地接收。不管是直播还是录播，播放机在播放的时候把画面声音呈现出来，但它不知道人在接收到这些信息时会想什么，会有什么交互的动机。

用户体验越来越受到重视，例如在基于融合眼球追踪的VR(虚拟现实)系统中，系统能够获知人眼注视点的位置信息，但是因为现有的视频图像只有色彩光影信息，不能提供注视点位置所关注的对象是什么，所以难以准确推断用户的视觉交互行为意图。

发明内容

鉴于上述状况，有必要提供一种语义视频图像的生成方法、播放方法及相关装置，以解决现有技术无法确定播放的视频图像的语义信息的问题。

一种语义视频图像的生成方法，包括：

对原始视频的当前帧图像进行图像识别，以识别出所述当前帧图像中的各个物体对象，以及各个所述物体对象的语义信息；

为识别出的各个物体对象分配唯一的ID，并建立各个所述ID和所述语义信息之间的对应关系；

分别确定各个物体对象在所述当前视频帧图像中所占区域的位置，得到各个所述物体对象的区域位置信息；

在一索引图像中确定各个所述物体对象的区域位置信息所对应的图像区域，并将所述图像区域中的每一个像素点的颜色值赋值为对应的所述物体对象的ID，以得到所述当前视频帧图像对应的语义索引帧图像；

根据所述语义索引帧图像和各个所述物体对象的语义信息，生成所述当前帧图像对应的语义参考视频帧图像；

将所述语义参考视频帧图像与所述当前帧图像进行时序相关处理，得到语义视频图像。

进一步的，上述语义视频图像的生成方法，其中，所述为识别出的各个物体对象分配唯一的ID的步骤包括：

判断识别的当前物体是否为前序帧图像中识别到的物体对象；

若是，将前序帧图像中识别到的物体对象的ID作为所述当前物体的ID；

若否，为所述当前物体分配ID。

进一步的，上述语义视频图像的生成方法，其中，所述对原始视频的当前帧图像进行图像识别，以识别出所述当前帧图像中的各个物体对象，以及各个所述物体对象的语义信息的步骤包括：

对原始视频的当前帧图像进行显著性检测，以确定所述当前帧图像中面积比例大于阈值的显著性区域；

对所述显著性区域进行图像识别，以识别出所述显著性区域中的各个物体对象，以及各个所述物体对象的语义信息。

进一步的，上述语义视频图像的生成方法，其中，所述原始视频的当前帧图像的步骤包括：

获取用户设置的语义级别参数，对原始视频的当前帧图像进行图像识别，以识别出所述当前帧图像中的各个物体对象，以及所述用户设置的语义参数级别所对应的语义信息，其中所述语义级别参数设置有多个，不同语义级别参数对应的语义信息复杂程度不同。

进一步的，上述语义视频图像的生成方法，其中，所述在一索引图像中确定各个所述物体对象的区域位置信息所对应的图像区域的步骤之前还包括：

新建一幅与所述当前帧图像尺寸相同，且像素点坐标一一对应的空白图像；

将所述空白图像中的所有像素点的颜色值初始化为预设值，得到索引图像。

本发明还公开了一种如上述任意一项所述的语义视频图像的播放方法，包括：

获取服务器发送的语义视频图像，并进行解析得到原始视频帧图像和语义参考视频帧图像；

播放解析后的原始视频帧图像，并同步提取所述原始视频帧图像所对应的目标语义参考视频帧图像；

当检测到用户的视线定位到所述原始视频帧图像中的任意一像素点时，获取所述像素点的位置信息；

在所述目标语义参考视频帧图像中查找所述位置信息对应的目标像素点，并查询所述目标像素点的颜色值；

根据所述对应关系提取所述语义参考视频帧图像中所述颜色值对应的语义信息，并进行交互处理。

进一步的，上述语义视频图像的播放方法，其中，所述获取服务器发送的语义视频图像，并进行解析得到原始视频帧图像和语义参考视频帧图像的步骤包括：

获取服务器发送的语义视频图像，所述语义视频图像包括独立的原始视频流和语义参考视频流；

将所述原始视频流和所述语义参考视频流同步进行解析，分别得到原始视频帧图像和语义参考视频帧图像。

获取服务器发送的语义视频图像，所述语义视频帧图像为原始视频帧图像和语义参考视频帧图像以同帧交替的方式推送的混合流；

对所述混合流中的解析奇偶帧对进行解析，得到一对原始视频帧图像和语义参考视频帧图像。

本发明还公开一种语义视频图像的生成装置，包括：

图像识别模块，用于对原始视频的当前帧图像进行图像识别，以识别出所述当前帧图像中的各个物体对象，以及各个所述物体对象的语义信息；

ID分配模块，用于为识别出的各个物体对象分配唯一的ID，并建立各个所述ID和所述语义信息之间的对应关系；

位置确定模块，用于分别确定各个物体对象在所述当前视频帧图像中所占区域的位置，得到各个所述物体对象的区域位置信息；

语义索引帧图像生成模块，用于在一索引图像中确定各个所述物体对象的区域位置信息所对应的图像区域，并将所述图像区域中的每一个像素点的颜色值赋值为对应的所述物体对象的ID，以得到所述当前视频帧图像对应的语义索引帧图像；

语义参考视频帧图像生成模块，用于根据所述语义索引帧图像和各个所述物体对象的语义信息，生成所述当前帧图像对应的语义参考视频帧图像；

时序处理模块，用于将所述语义参考视频帧图像与所述当前帧图像进行时序相关处理，得到语义视频图像。

本发明还公开一种语义视频图像的播放装置，包括：

解析模块，用于获取服务器发送的语义视频图像，并进行解析得到原始视频帧图像和语义参考视频帧图像；

视频播放模块，用于播放解析后的原始视频帧图像，并同步提取所述原始视频帧图像所对应的目标语义参考视频帧图像；

位置检测模块，用于当检测到用户的视线定位到所述原始视频帧图像中的任意一像素点时，获取所述像素点的位置信息；

查询模块，用于在所述目标语义参考视频帧图像中查找所述位置信息对应的目标像素点，并查询所述目标像素点的颜色值；

语义交互模块，用于根据所述对应关系提取所述语义参考视频帧图像中所述颜色值对应的语义信息，并进行交互处理。

本发明中针对原始视频的每一帧图像进行物体对象识别得到各个物体对象的语义信息，再对识别到的物体对象分配唯一的ID，并建立ID和语义信息之间的对应关系。并且，在一空白图像中与各个物体对象对应位置的图像区域进行像素点的颜色值赋值，得到语义索引帧图像。语义索引帧图像和各个物体对象的语义信息，生成语义参考视频帧图像，各帧语义参考视频帧图像和原始视频形成了语义视频图像。由于该语义索引帧图像中对应物体对象的区域的像素的颜色值等于ID，因此可作为语义信息的索引。通过该方式为视频添加语义信息，可满足用户观看、交互等处理的信息需求，并使交互等相关处理更智能、更有效。

附图说明

图1为本发明第一实施例中的语义视频图像的生成方法的流程图；

图2为本发明第二实施例中的语义视频图像的生成方法的流程图；

图3为原始视频帧中当前帧图像的示意图；

图4为当前帧图像对应的语义索引帧图像；

图5为本发明第三实施例中的语义视频图像的播放方法的流程图；

图6为本发明第四实施例中的语义视频图像的生成装置的结构框图；

图7为本发明第五实施例中的语义视频图像的播放装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1，为本发明第一实施例中的语义视频图像的生成方法，包括步骤S11～S16。

步骤S11，对原始视频的当前帧图像进行图像识别，以识别出所述当前帧图像中的各个物体对象，以及各个所述物体对象的语义信息。

该方法可应用于服务器等设备中，服务器获取到原始视频时，实时对获取到的每一帧图像进行物体对象的识别，以识别出图像中存在的物体对象。该原始视频可以为完整的视频文件或视频片段，也可以是视频直播软件实时上传的视频帧图像。物体对象的识别可采用现有技术中的图像识别技术，例如可采用基于深度学习的物体识别和多目标跟踪方法来实现。深度学习方法的效果与模型训练关系密切，通过针对目标视频场景针对性地进行训练，能够显著提高深度学习算法的目标识别和跟踪精度。比如针对足球比赛视频处理，可以用足球比赛视频进行深度模型训练。

进行图像识别可以识别出当前帧图像中的各个物体对象并输出各个物体对象的语义信息。该语义信息根据预设的识别目的来设置，例如，识别目的是要区分各个物体对象是什么，则识别得到的语义信息是例如人、猫、狗等类别信息。如果还要识别到物体对象间的空间拓扑关系，则需要更强大的图像识别能力，识别模块要能多地识别出图像中蕴含的语义信息。识别模块输出语义信息的能力跟其配置的图像识别知识库有关。

可以理解的，根据识别的目的不同可以将识别的语义信息按照语义复杂度分为若干个级别，例如3级：1-为名称语义，2-为属性语义，3-为推理语义。

1-名称语义：对应最简单的语义，就是对象的名称。自动图像识别得到的是物体对象的类别名称，一幅图像中如果有同一类别的多个对象，为了区分识别出来的不同对象，对每个跟踪识别出的不同对象生成一个不同的对象名称。这时识别得到的语义是对象的类别名称，所以称为名称语义。自动图像识别在识别获得物体对象的类别后，以类别名称为线索可从图像识别知识库中按照规则抽取该对象的相关语义信息。

2-属性语义：除了对象的名称语义，每个对象还有属性，如“猫1”有一个属性是描述它的“颜色”。这些语义信息可以是自动图像识别获得的，也可以是手工添加的。

3-推理语义：除了有前面两级的语义信息，还有语义对象之间的关联信息，如“猫1抓蝴蝶”。这些语义信息可以是自动图像识别获得的，也可以是手工添加的。

步骤S12，为识别出的各个物体对象分配唯一的ID，并建立各个所述ID和对应物体对象的语义信息之间的对应关系。

为识别出的每个物体对象分配一个唯一的ID，对于一帧图像来说，需要保证该帧图像中各个物体对象分配的ID不同。接下来为每个ID对应的对象生成对象名称：一种实施方案是直接用ID作为对象名称，使二者合一；再一种实施方案是另外生成一个与ID不同的对象名称，比如用类别名加ID的组合作为对象名称，例如ID采用的是数字形式，而对象名称希望是能反映对象类别信息的、让人能直接感受到语义的形式，则可以采用类别名加ID的形式构造对象名称，如ID是“22”，类别是“蜜蜂”，则可生成新的对象名“蜜蜂22”。

在识别出物体对象的类别后，就获得了该对象的类别语义信息。并按照语义抽取规则判断如有必要，就以类别名称为线索从图像识别知识库中按照语义抽取规则抽取该对象的相关语义信息。如果一实施方案中对象ID和对象名称不是合一的，还需要为对象添加一条语义信息，指明对象名称所指的对象的ID属性值为它的对象ID。当前帧所有对象的语义信息称为该帧的语义段落。

根据以上过程可以看出，由对象ID可以在语义段落中找到对应对象的全部语义信息，因此对象ID就是查询该对象语义信息的索引。

步骤S13，分别确定各个物体对象在所述当前视频帧图像中所占区域的位置，得到各个所述物体对象的区域位置信息。

步骤S14，在一索引图像中确定各个所述物体对象的区域位置信息所对应的图像区域，并将所述图像区域中的每一个像素点的颜色值赋值为所述图像区域对应的物体对象的ID，以得到所述当前视频帧图像对应的语义索引帧图像。可以理解的，对该原始视频的所有帧图像进行上述步骤的处理到的所有帧语义索引帧图像称为语义索引视频。

为了便于后续信息的处理，该索引图像的与当前视频帧图像的尺寸相同，且该索引图像与当前视频帧图像中的各个像素点的位置对应。取一索引图像，将该索引图像中各个物体对象对应的区域图像的像素点的颜色值赋值为对应物体对象的ID，得到当前帧图像对应的语义索引帧图像。例如当前帧图像中的物体对象的ID为1，在索引图像中物体对象对应的区域的像素点的颜色值赋值为1。该语义索引帧图像中各像素点的颜色值为一个语义信息的索引，通过该索引可以确定原始视频帧对应的像素所关联的物体对象的语义信息。

可以理解的，该语义索引帧图像中，没有与物体对象对应的空白区域的像素点则不进行赋值，该空白区域的像素点的颜色值为默认值，如为0。

物体对象分配的ID可以是数字或字符串。不管是数字还是字符串，其在计算机内部都是以二进制形式出现，如果ID不超出一个颜色系统的颜色值二进制表示范围，可以认为该ID是一个颜色编号。一幅语义索引帧图像中所有ID都可以看做一个颜色系统的颜色编号时，该语义索引帧图像是可以直观以颜色图像形式在显示设备上呈现出来的，这在直观地分析视觉行为轨迹时是有帮助的。

为了便于把语义索引帧图像如一般彩色图像一样显示，需要让它的每个像素点的颜色值的二进制位数不超出显示系统支持的颜色的二进制位数。这实际上把对象的最大ID值做了限制，当对象ID值大于选定的最大颜色数时，不能直接作为颜色值使用。这时可以采用在显示前预处理丢弃ID值最高位的方法，从最高位开始往低位，丢弃超出颜色二进制位数的所有高位数。如选用24为颜色，颜色值位是0-23，则丢弃ID值二进制表示中从最高位到24位的所有数字，只保留0-23位数。因为每帧的语义索引帧图像之间不会互相影响，只要能够区分本帧的各物体对象的颜色即可，因此通过截断高位的方法不会造成本帧中的物体对象的混乱，因为用24位表示对象个数，在一帧中应该是很充足了。

步骤S15，根据所述语义索引帧图像和各个所述物体对象的语义信息，生成所述当前帧图像对应的语义参考视频帧图像。

该当前帧图像对应的语义参考视频帧图像包括语义索引帧图像及各个物体对象的语义信息。对该原始视频中的每一帧图像进行上述步骤处理得到每一帧图像对应的语义参考视频帧图像，所有帧的语义参考视频帧图像即形成语义参考视频。

当前帧图像中所有物体对象的语义信息形成一语义段落，所有帧的语义段落组成语义视频的语义知识库。

将语义参考视频帧图像中各个物体对象对应的区域图像的像素点的颜色值进行赋值，使该区域图像的像素点的颜色值等于对应物体对象的ID。这样每一帧语义参考视频帧图像中的每个像素值所表示的语义索引与该帧原始视频帧图像中对应像素点相关联，这样可以通过语义索引帧图像判断原始视频帧图像的任一像素点是否有关联的语义信息，如果有就可以通过对应语义参考视频帧图像中的语义索引帧图像中对应像素值表示的语义索引进一步在当前语义参考视频帧图像的语义段落中找到该物体对象的所有语义信息。

步骤S16，将所述语义参考视频帧图像与所述当前帧图像进行时序相关处理，得到语义视频图像。

将当前帧图像和对应的语义参考视频帧图像进行进行帧时序相关处理，得到语义视频图像，所有帧语义视频图像构成了语义视频图像。语义段落是文本信息，且与帧时序相关，作为语义索引帧图像的字幕。因此，所有帧的语义段落就构成了语义视频图像的语义字幕。

本实施例中针对原始视频的每一帧图像进行物体对象识别得到各个物体对象的语义信息，再对识别到的物体对象分配ID，并建立ID和语义信息之间的对应关系，在一空白图像中与各个物体对象对应位置的图像区域进行像素点的颜色值赋值，得到语义索引帧图像。语义索引帧图像和各个物体对象的语义信息，生成语义参考视频帧图像，语义参考视频帧图像和当前帧图像形成了语义视频图像。由于该语义索引帧图像中对应物体对象的区域的像素的颜色值等于ID，因此可作为语义信息的索引。通过该方式得到的语义参考视频图像包含了各个物体对象的语义信息，可满足用户观看、交互等处理的信息需求，并使交互等相关处理更智能、更有效。

请参阅图2，为本发明第二实施例中的语义视频图像生成方法，包括步骤S21～S28。

步骤S21，对原始视频的当前帧图像进行显著性检测，以确定所述当前帧图像中面积比例大于阈值的显著性区域。

步骤S22，对所述显著性区域进行图像识别，以识别出所述显著性区域中的各个物体对象，以及各个所述物体对象的语义信息。

在进行物体对象识别可预先设置物体对象筛选策略，以减少整个视频图像中识别出的总体对象数目，减少后续处理计算量和存储空间。具体实施时，可对当前帧图像进行显著性检测，基于视觉显著性策略，显著性定义可以采用物体对象在一帧画面中所占面积的比例，设置一个阈值，并确定该当前帧图像中面积比例大于阈值的显著性区域。该显著性区域即为占面比例大于阈值的物体对象所在的区域。比如当画面中有草地时，不需要把草的叶子识别出来，或者把一棵树的叶子识别出来，除非草叶或树叶是出现在特写镜头中的时候，因为这时它足够显著。

对筛选到的显著性区域进行图像识别，以识别出该显著性区域中的各个物体对象，以及各个物体对象的语义信息。具体实施时可基于深度学习的物体识别和多目标跟踪方法来实现。跟踪识别在从图像中获取对象的语义信息方面，具有很大的伸缩度，最简单的是只给出的对象的类别语义。

该语义信息采用RDF(Resource Description Framework)格式表示，例如语义信息“cat1”是“cat”类型的对象，用RDF规范可以表示为：ov:Cat1 rdf:type ov:cat。其中rdf是RDF的标准名空间，“ov”是实施例假定的应用中自定义的名空间。每个视频帧对应的语义信息组成该帧的语义段落，在RDF表示下是文本信息，可以看做是该帧的一个微型语义知识库。所有帧的语义段落合并起来构成整个视频的语义库。语义知识库中构建采用OWL(WebOntology Language)规范，语义知识库是符合OWL规范语义信息库。采用Turtle语法格式做RDF序列化实现。语义检索实现支持SPARQL(SPARQL Protocol And RDF Query Language)标准的语义查询语言。

可选地，在本发明的一种实现方式中，在语义视频图像的语义知识库中，可以为识别到的物体对象添加更多的语义信息。例如增加该物体对象的属性信息(比如对象是猫，属性语义就是描述这只猫的属性，包括颜色、品种等)，以形成属性语义。以及，添加物体对象之间的关联信息(如“猫1”坐“草地”)形成推理语义。该物体对象的属性信息以及关联信息可以是图像识别程序自动产生的，也可以是人工添加的。具体实施时，按照语义复杂度分为三个级别：1-名称语义，2-属性语义，3-推理语义。用户可设置语义级别参数，在从图像识别知识库中抽取知识的时候，可以使用语义级别参数可以查询抽取响应级别的语义信息出来，可以控制语义信息复杂度。

步骤S23，为识别出的各个物体对象分配唯一的ID，并建立各个所述ID和所述语义信息之间的对应关系。

可以理解的，为识别到的物体对象分配ID，其ID可以是针对全部视频帧图像中识别到的物体对象来说是唯一的。

具体的，在本发明的一种实施方式中，所述为识别出的各个物体对象分配唯一的ID的步骤包括：

若否，为所述当前物体分配ID。

该实施方式中，对原始视频从第一帧开始逐帧进行物体对象的跟踪识别。跟踪是从当前帧和已经处理过的至少一个前序帧中识别的物体对象，如果当前帧中识别出的物体在前序跟踪帧中已经出现过的，当前帧中该物体对象被认为是从前序帧跟踪而来，不需要为该物体对象创建新的ID。这样通过跟踪是否是重复出现的对象，避免重复计数，可以大大减少识别出的物体对象数目。

在本发明的另一种实施方式中，对从前序帧跟踪而来的物体对象，可以使用前序帧中已经识别出的语义信息，从而不为它在当前帧添加更多语义信息，即它的语义信息保持不变。如果当前帧识别出该对象的更多语义，可以把这些新的语义信息添加进去。如果当前帧如果识别出的语义与前序帧已经添加的语义有不一致，以当前帧的语义替换从前序帧继承而来的不一致的语义。例如，前序帧识别出一个人，并且还有这个的表情语义信息，在当前帧也出现了同一个人，但是当前帧识别的表情语义信息跟前序帧不同，比如前面的表情语义是快乐，现在的表情是悲伤，因为一个人不能即悲伤又快乐，所以当前帧的表情语义将被替换为悲伤。

步骤S24，分别确定各个物体对象在所述当前视频帧图像中所占区域的位置，得到各个所述物体对象的区域位置信息。

步骤S25，新建一幅与所述当前帧图像尺寸相同，且像素点坐标一一对应的空白图像，并将所述空白图像中的所有像素点的颜色值初始化为预设值，得到索引图像。

步骤S26，确定所述索引图像中与各个所述物体对象的区域位置信息所对应的图像区域，并将所述图像区域中的每一个像素点的颜色值赋值为所述图像区域对应的物体对象的ID，以得到所述当前视频帧图像对应的语义索引帧图像。

具体实施时，在当前帧图像中识别出的物体对象，对识别出的每个对象按照轮廓进行分割，找出组成该对象的所有像素。如图3所示，为原始视频的当前帧图像。接下来，创建一幅与当前帧图像同尺度的空白图像，两幅图像的像素按照坐标顺序一一对应。初始化所有像素颜色值为预设值，该预设值为与所有帧的物体对象分配的ID不同，例如该预设值可以为0，而物体对象分配的ID为大于或等于1的整数。对当前帧图像中每个识别出的对象，把分割出的该对象区域的每个像素在空白图像中的对应像素点填充颜色为该对象的ID值，形成语义索引帧图像。如图4所示为当前帧中图像中只识别出一个对象“猫”时所建立的语义索引帧图像，猫所占据的区域所有像素有一个共同的颜色值(猫的ID)，其他区域因为没有物体对象显示为黑色(颜色值为0)。

步骤S27，根据所述语义索引帧图像和各个所述物体对象的语义信息，生成所述当前帧图像对应的语义参考视频帧图像。

步骤S28，将所述语义参考视频帧图像与所述当前帧图像进行时序相关处理，得到语义视频图像。

语义索引帧图像与原始视频帧图像对应，是一幅与原始视频帧图像相同分辨率尺度大小的图像，它的像素与原始视频帧图像的像素点按照像素坐标位置一一对应。

语义索引帧图像的像素值为一个对象的语义索引，通过该索引可以确定原始视频帧对应的像素所关联的对象的语义信息。全部语义索引帧图像组成语义索引视频。

语义视频图像帧图像的语义段落是当前帧图像中全部物体对象的语义信息的集合。所有帧的语义段落组成语义知识库。

语义段落都是文本信息，且与帧时序相关，该语义段落可作为语义索引帧图像的字幕，把语义索引视频和语义字幕合并起来成为语义参考视频。语义参考视频和原始视频形成最终的语义视频图像。

进一步的，生成语义视频图像后，还可对该语义视频图像进行压缩，其中，语义视频图像中，该原始视频采用有损压缩，语义索引帧图像逐帧采用行程压缩编码后，对整体对全部帧进行文件级无损压缩，该语义字幕采用整体文件无损压缩。

请参阅图5，为本发明第三实施例中的语义视频图像的播放方法，用于上述实施例中的语义视频图像的播放，包括步骤S31～S35。

步骤S31，获取服务器发送的语义视频图像，并进行解析得到原始视频帧图像和语义参考视频帧图像。

服务器生成语义视频图像后，将该语义视频图像推送至视频终端，该视频终端可以是电脑、手机等用户终端。具体实施时，可将语义视频分成独立的原始视频流和语义参考视频流推送到视频终端。视频终端接收到两个视频流，分别进行解析，并同步两个视频流的帧，对相同的原始视频帧图像和语义参考视频帧进行本地播放和交互应用处理。

可以理解的，在本发明的另一个实施例，还可以把原始视频和语义参考视频在推送时进行帧同步，以同帧交替的方式混合成一个流进行推送。例如原始视频帧图像作为混合流的奇数帧，语义参考视频帧图像作为混合流的偶数帧。视频终端接收到混合流，分别解析奇偶帧对，就是对应的原始视频帧图像和语义参考视频帧图像，可进行本地播放和交互处理。

步骤S32，播放解析后的原始视频帧图像，并同步提取所述原始视频帧图像所对应的目标语义参考视频帧图像。

当用户观看原始视频的同时使用语义视频图像时，播放器需要对两个视频进行帧同步，在显示原始视频的每一帧的时候，同步提取出语义索引视频的同一帧。

步骤S33，当检测到用户的视线定位到所述原始视频帧图像中的任意一像素点时，获取所述像素点的位置信息。

视频终端播放语义视频图像时，实时检测用户的视线落在屏幕上的位置，具体实施时可眼球追踪技术检测用户的视线定位到哪里。

步骤S34，在所述目标语义参考视频帧图像中查找所述位置信息对应的目标像素点，并查询所述目标像素点的颜色值。

步骤S35，根据所述对应关系提取所述语义参考视频帧图像中所述颜色值对应的语义信息，并进行交互处理。

当用户的目光定位到原始视频帧图像的具体像素的时候，播放器通过像素坐标，在对应的参考视频帧图像中找出像素坐标对应的目标像素点，并获取该目标像素点的颜色值。该颜色值即为一物体对象的ID，因此根据ID和语义信息的对应关系可确定该颜色值对应的语义信息。通过该方式系统可以根据知道用户当前注视点关注的是什么，可以做出交互逻辑判断，或者记录用户的观看过程中的注视轨迹语义信息，作为分析用户视觉行为的依据。比如通过跟踪用户关注点，发现用户对视频中某个球员一段时间持续关注，则可以把该用户的观看行为信息发送到服务器端，服务器端据此可向该用户推送有关该球员的纪念品礼物或弹幕信息。

请参阅图6，为本发明第四实施例中的语义视频图像的生成装置，包括：

图像识别模块41，用于对原始视频的当前帧图像进行图像识别，以识别出所述当前帧图像中的各个物体对象，以及各个所述物体对象的语义信息；

ID分配模块42，用于为识别出的各个物体对象分配唯一的ID，并建立各个所述ID和所述语义信息之间的对应关系；

位置确定模块43，用于分别确定各个物体对象在所述当前视频帧图像中所占区域的位置，得到各个所述物体对象的区域位置信息；

语义索引帧图像生成模块44，用于在一索引图像中确定各个所述物体对象的区域位置信息所对应的图像区域，并将所述图像区域中的每一个像素点的颜色值赋值为对应的所述物体对象的ID，以得到所述当前视频帧图像对应的语义索引帧图像；

语义参考视频帧图像生成模块45，用于根据所述语义索引帧图像和各个所述物体对象的语义信息，生成所述当前帧图像对应的语义参考视频帧图像；

时序处理模块46，用于将所述语义参考视频帧图像与所述当前帧图像进行时序相关处理，得到语义视频图像。

进一步的，上述语义视频图像的生成装置，还包括：

空白图像新建模块，用于新建一幅与所述当前帧图像尺寸相同的空白图像，所述空白图像与所述当前帧图像的像素点坐标一一对应；

初始化模块，用于将所述空白图像中的所有像素点的颜色值初始化为预设值。

本发明实施例所提供的语义视频图像的生成装置，其实现原理及产生的技术效果和前述语义视频图像的生成方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

请参阅图7，为本发明第五实施例中的语义视频图像的播放装置，包括：

解析模块51，用于获取服务器发送的语义视频图像，并进行解析得到原始视频帧图像和语义参考视频帧图像；

视频播放模块52，用于播放解析后的原始视频帧图像，并同步提取所述原始视频帧图像所对应的目标语义参考视频帧图像；

位置检测模块53，用于当检测到用户的视线定位到所述原始视频帧图像中的任意一像素点时，获取所述像素点的位置信息；

查询模块54，用于在所述目标语义参考视频帧图像中查找所述位置信息对应的目标像素点，并查询所述目标像素点的颜色值；

语义交互模块55，用于根据所述对应关系提取所述语义参考视频帧图像中所述颜色值对应的语义信息，并进行交互处理。

本发明实施例所提供的语义视频图像的播放装置，其实现原理及产生的技术效果和前述语义视频图像的播放方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语义视频图像的生成方法，其特征在于，包括：

分别确定各个物体对象在当前视频帧图像中所占区域的位置，得到各个所述物体对象的区域位置信息；

将所述语义参考视频帧图像与所述当前帧图像进行时序相关处理，得到语义视频图像；

所述在一索引图像中确定各个所述物体对象的区域位置信息所对应的图像区域的步骤之前还包括：

2.如权利要求1所述的语义视频图像的生成方法，其特征在于，所述为识别出的各个物体对象分配唯一的ID的步骤包括：

若否，为所述当前物体分配ID。

3.如权利要求1所述的语义视频图像的生成方法，其特征在于，所述对原始视频的当前帧图像进行图像识别，以识别出所述当前帧图像中的各个物体对象，以及各个所述物体对象的语义信息的步骤包括：

4.如权利要求1所述的语义视频图像的生成方法，其特征在于，所述原始视频的当前帧图像的步骤包括：

5.一种如权利要求1至4任意一项所述的语义视频图像的播放方法，其特征在于，包括：

6.如权利要求5所述的语义视频图像的播放方法，其特征在于，所述获取服务器发送的语义视频图像，并进行解析得到原始视频帧图像和语义参考视频帧图像的步骤包括：

7.如权利要求5所述的语义视频图像的播放方法，其特征在于，所述获取服务器发送的语义视频图像，并进行解析得到原始视频帧图像和语义参考视频帧图像的步骤包括：

8.一种语义视频图像的生成装置，其特征在于，包括：

位置确定模块，用于分别确定各个物体对象在当前视频帧图像中所占区域的位置，得到各个所述物体对象的区域位置信息；

语义索引帧图像生成模块，用于在一索引图像中确定各个所述物体对象的区域位置信息所对应的图像区域，并将所述图像区域中的每一个像素点的颜色值赋值为对应的所述物体对象的ID，以得到所述当前视频帧图像对应的语义索引帧图像，其中，得到所述索引图像的方法包括：新建一幅与所述当前帧图像尺寸相同，且像素点坐标一一对应的空白图像；将所述空白图像中的所有像素点的颜色值初始化为预设值，以得到所述索引图像；

9.一种如权利要求1至4任意一项所述的语义视频图像的播放装置，其特征在于，包括：