CN110287369B

CN110287369B - 一种基于语义的视频检索方法及系统

Info

Publication number: CN110287369B
Application number: CN201910554597.7A
Authority: CN
Inventors: 陈宏江; 高岩; 赵全军; 孙萍; 杨浩
Original assignee: Sinosoft Co ltd
Current assignee: Sinosoft Co ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2022-02-22
Anticipated expiration: 2039-06-25
Also published as: CN110287369A

Abstract

本发明实施例涉及一种基于语义的视频检索方法，该方法包括：创建语义概念模型；基于所述语义概念模型创建语义概念目标检测模型；利用所述语义概念目标检测模型对待检测视频进行检测，获得待检测视频的语义；其中，所述创建语义概念模型包括以下子步骤：建立目标识别图片的训练集得到初级语义信息，基于所述初级语义信息创建初级语义概念模型；根据所述初级语义信息生成高级语义信息，基于所述高级语义信息创建高级语义概念模型。本发明实施例还涉及一种基于语义的视频检索系统。利用本发明的视频检索方法可以准确地检测到所需视频，从而也减少了视频检索过程中的语义歧义对检索精度的影响并提高了视频检索的精度。

Description

一种基于语义的视频检索方法及系统

技术领域

本发明属于涉及信息检索的技术领域，尤其涉及一种基于语义的视频检索方法及系统。

背景技术

语义检则是基于对信息资源的语义处理实现效率更高的检索，它是一种根据知识库并通过逻辑判断和推理得出检索结果的检索方法，使信息检索从目前基于关键字的层面提高到基于知识的层面，具有一定的智能化。

目前语义检索采用的主要方法就是提取和处理语义信息，但对概念之间关系的理解不够通用和全面，因此对关系的利用也很欠缺。尽管目前语义检索的方法都已经开始关注概念间的关系，但仅是简单的属性链关系，仍然缺少对概念间各种复杂关联关系的处理方法，更不能根据用户提供的检索目标对关系做自适应的修正。

现有技术中的一种基于概念关系的领域数据语义的检索方法包括，准备知识库：该知识库中存储有根据领域的相关知识以及词表而定义该领域内的概念及各概念之间的相关度；建立语义推理模型：该语义推理模型用于求解未定义的概念相关度；检索及语义推理，从而推理出间接相关的检索结果，该方法是基于领域数据知识库的构建以实现概念推理，并基于语义进行智能文本检索，但该方法仅应用于文本检索且受领域限制，不能应用于题材广泛的视频检索；

还有一种视频检索方法是基于视频图像内容、字幕信息和音频信息的视频检索方法，其中的基于视频图像内容的检索，提取了视频关键帧图像的初级特征和人脸目标，并基于此进行相关检索；但该方法存在的技术问题是除了人脸含初级语义外，不存在其他初级语义，更没有高级语义，因此导致检索精度较低；

另外，还有一种视频检索方法的是基于深度特征进行视频检索的方法，通过深度特征能够表征语义，但这一方法存在的问题是，该方法的深度特征和人类语言的语义存在语义鸿沟，只能通过视频实现视频检索，不能通过输入语义文本实现视频检索。

综上，现有技术中的视频检索方法存在的技术问题是：应用领域较窄、检索精度低或实现视频检索的方法单一。

发明内容

有鉴于此，本发明实施例提供一种基于语义的视频检索方法及系统，以至少解决现有技术中的一个技术问题，从而使本发明的视频检索方法及系统应用领域广、减少了视频检索过程中的由于语义歧义对检索精度的影响以及视频检索的方法多样。

第一方面，本发明实施例提供了一种基于语义的视频检索方法，该方法包括：

创建语义概念模型；

基于所述语义概念模型创建语义概念目标检测模型；

利用所述语义概念目标检测模型对待检测视频进行检测，获得待检测视频的语义；

基于所述待检测视频的语义建立索引数据库，利用所述索引数据库查询所需视频；

其中，所述创建语义概念模型包括以下子步骤：

建立目标识别图片的训练集得到初级语义信息，基于所述初级语义信息创建初级语义概念模型；

根据所述初级语义信息生成高级语义信息，基于所述高级语义信息创建高级语义概念模型。

第二方面，本发明实施例提供了一种基于语义的视频检索系统，该系统包括语义概念创建模块、目标检测创建模块、语义检测模块和查询模块；

所述语义概念创建模块用于创建语义概念模型；

所述目标检测模块基于所述语义概念模型创建语义概念目标检测模型；

所述语义检测模块利用所述语义概念目标检测模型对待检测视频进行检测，获得待检测视频的语义；

所述查询模块基于所述待检测视频的语义建立索引数据库并利用所述索引库查询所需视频；

其中，所述语义概念创建模块执行以下操作：

本发明通过创建语义概念模型，可以准确地检索到语义的概念；基于所述语义概念模型创建语义概念目标检测模型并利用所述语义概念目标检测模型对待检测视频进行检测以获得待检测视频的语义从而检测到所需视频，同时也减少了视频检索过程中的语义歧义对检索精度的影响并提高了视频检索的精度。

附图说明

图1为本发明实施例提供的一种基于语义的视频检索方法的流程示意图；

图2为本发明实施例提供的一种基于语义的视频检索系统的结构示意图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

实施例一

下面介绍本发明实施例提供的一种基于语义的视频检索方法的具体实施方式，参见图

1，该方法包括；

S100:创建语义概念模型；

具体的，所述创建语义概念模型包括以下子步骤S110和S120；

S110：建立目标识别图片的训练集得到初级语义信息，基于所述初级语义信息创建初级语义概念模型；

其中，该训练集中包括多个初始图片，对所述初始图片进行目标标注得到目标标注信息，该目标标注信息为初级语义信息，基于所述初级语义信息创建初级语义概念模型；所述目标标注信息包括目标在图片中的像素位置、目标名称等；

所述目标名称包括目标的类别和人物，目标的类别例如为：汽车、行人、人脸、大海、楼房、城市广场等；

所述人物可以通过人脸检测方法以识别出初始图片中的人脸信息，可以通过收集大量人物的人脸特征并生成人脸特征库(FaceBase)利用该人脸特征库对初始图片中的人脸进行识别并标注出人物。

S120：根据所述初级语义信息生成高级语义信息，基于所述高级语义信息创建高级语义概念模型；

其中，通过步骤S110获得的初级语义信息，例如：目标类别和人物，可以得到抽象的高级语义信息，基于所述高级语义信息创建高级语义概念模型；

例如对初始图片中进行标注的初级语义信息为：大量行人、笑脸，背景为城市广场和蓝天，那么对应的高级语义信息为：欢庆、游行、集会等中的一个或多个类别。

进一步的，所述创建语义概念模型还包括子步骤S130，可以基于所述初级语义概念模型和高级语义概念模型建立映射训练集。

例如在初级语义概念模型中存储“巴黎铁塔”、“婚纱女郎”、“正装男士”、“鲜花”和“笑脸”等具体事物的概念知识集合；

而所述高级语义概念模型中用于存储与上述“巴黎铁塔”、“婚纱女郎”、“正装男士”、“鲜花”和“笑脸”具体概念的抽象概念知识集合“浪漫”，那么可以得到的映射训练集如下；

T:{SL_i→SH_i},i＝1,2,...,n，其中T为映射训练集，SL_i是初级语义信息，SH_i高级语义信息，i为训练集合T中的样本序号；

其中，初级语义信息和高级语义信息的对应关系例如：

SL_i：(婚纱女郎、正装男士、鲜花、笑脸)→SH_i：浪漫。

S200:基于所述语义概念模型创建语义概念目标检测模型；

本实施例中的语义概念是一个概念集合，是对视频场景中的语义类别的划分；其中，所述语义概念目标检测模型包括两个级别，分别为初级语义概念目标检测模型和高级语义概念目标检测模型。

所述初级语义概念目标检测模型用于检测视频场景中的语义场景目标，该模型是对一个个具体的事物的进行检测的模型；例如该模型可以用于检测视频中是否包含“巴黎铁塔”、“婚纱女郎”、“正装男士”、“鲜花”和“笑脸”等语义概念。

具体的，创建初级语义概念目标检测模型包括以下子步骤：

S210：基于所述目标识别图片的训练集生成训练目标识别模型，例如可以通过基于深度学习的M2Det获得训练目标识别模型，具体的，利用M2Det获得训练目标识别模型的步骤包括子步骤S211-S213；

S211：标注目标识别图片的训练集中的训练样本，生成标注后的训练样本；

S212：读取标注后的训练样本，根据标注数据生成目标识别结果tensor(张量)；

S213：:基于所述目标识别结果tensor对标注后的训练样本进行训练，获得训练目标识别模型；当满足预设的训练结束条件后，保存深度网络的参数到该训练目标识别模型文件中。

M2Det是利用基础网络和MLFPN提取输入图片的特征，得到密集的bounding boxes和类别概率。MLFPN的作用就是将基础网络得到的多尺度特征叠加组合，得到新的多层次多尺度特征，以聚合浅层信息定位能力强、深层信息分类能力强的特点。所以MLFPN模块可以作为独立组件拼接到各类目标检测网络中。MLFPN包含三个模块，FFM(Feature FusionModule，特征融合模块)，TUM(Thinned U-shape Module，简化U型模块)和SFAM(Scale-wiseFeature Aggregation Module，多尺度特征增强模块)。

S220：利用所述训练目标识别模型识别图片中目标物体，例如可以通过生成的M2Det目标识别模型识别图片中目标物体；

S230：对图片进行人脸检测，提取人脸的特证,根据人脸特征获得初级语义概念目标检测模型；

优选的，可以通过mtcnn(Multi-task convolutional neural networks，多任务卷积神经网络)对图片进行检测以检测图片中是否存在人脸，具体的，使用mtcnn检测图片中是否存在人脸的步骤包括：采用P-Net网络获得候选窗体和边界回归量，同时候选窗体根据边界框进行校准，再利用NMS方法去除重叠窗体；将P-Net网络确定的包含候选窗体的图片在R-Net网络中训练，利用边界框向量微调候选框体，再利用NMS方法去除重叠窗体；利用O-Net网络在去除候选窗体，同时显示五个人脸关键点定位。

提所检测到的人脸的特征并在人脸库(FaceBase)中检索，从而实现了人物识别，以此可以得到初级语义目标检测模型。

而高级语义概念目标检测模型是在一个视频的关键帧场景中对多个目标元素组成的情感特征进行检测的模型；即用于检测视频整体的语义，例如上述的“婚纱女郎”、“正装男士”、“鲜花”和“笑脸”等语义所对应的高级语义概念为“浪漫”。

具体的，创建高级语义概念模型包括基于所述第一映射集获得高级语义概念目标检测模型；由于第一映射集中具有大量的训练样本，本实施例可以通过朴素贝叶斯方法对这些训练样本进行训练，从而获得初级语义向高级语义的映射函数f，即获得高级语义概念目标检测模型，公式如下：

式中SL_i是输入的初级语义表达式(6.即语义关键词)，

是通过SL_i及映射函数f生成的高级语义。

S300：利用所述语义概念目标检测模型对待检测视频进行检测，获得待检测视频的语义；

上述语义概念目标检测模型用于视频场景的语义化，其中待检测视频的语义包括待检测视频的初级语义和高级语义；具体的，所述获得待检测视频的语义包括以下子步骤：

S310：对待检测视频进行解析获得视频帧图片；

具体的，可以通过FFmpeg(Fast Forward Moving Picture Expert Group)，将待检测视频按1％的比率进行解析获得视频帧图片，将该视频帧图片按顺序存放于指定的目录中，文件名称可以按帧序号进行命名；

其中，FFmpeg是一个视频和音频流的开源免费平台。从framebufer中获取帧数据通常为rgb格式，在此通过FFmpeg转换，将其转换为nv12T格式的数据，使其符合H.264编码器的输入格式。FFmpeg是一个开源免费跨平台的视频和音频流方案，属于自由软件，它提供了录制、转换以及流化音视频的完整解决方案。

S320：比较相邻视频帧图片的相似度以对镜头进行分割获得待检测视频的关键帧；

进一步的，步骤S320包括以下子步骤S321和S322,其中步骤S321中对镜头进行分割的具体方法如下：

通过提取视频帧图片的颜色直方图特征，利用颜色直方图特征计算相邻视频帧图片的相似度，并利用该相似度对镜头进行分割。

颜色直方图是图片中颜色分布的统计特征，在同一个镜头内，如果没有事物进出场景，视频帧图片内的颜色分布基本不会发生变化，基于此特征，在本实施例中，如果相邻帧图片出项较大的波动，可判别此帧为视频的镜头(shot)的分割点。

由于数字图像单个通道的位深为8，范围在0-255间，通过统计整个通道的分布可得视频中的帧序列图片的颜色直方图特征为

其中的N为直方图维度，i为图像通道数；即将0-255的范围分成N段，分别统计各段像素的概率，且满足

颜色直方图采用RGB颜色空间，将3个通道的颜色直方图拼接在一起，组成图片的颜色直方图

在实施中选用N＝32，即图片的颜色直方图特征维度为96.

本实施例中，可以将视频中的帧序列图片的颜色直方图采用RGB颜色空间，具体例如可以将视频中的帧序列图片分为3个通道，将这3个通道的颜色直方图拼接在一起，组成视频中的帧序列图片的颜色直方图的特征为

在本实施例中可选用N＝32，即视频中的帧序列图片的颜色直方图特征维度为3N＝96。

根据相邻视频帧图片的颜色直方图特征得到相邻视频帧图片的颜色直方图的卡方距离，作为相邻视频帧图片之间的相似度，具体计算方法如下：

由于视频帧图片的颜色直方图特征鲁棒性较强，当镜头内出现显著变化时，颜色直方图才会出现变化。由此当相邻视频帧图片的颜色直方图出现显著变化时，可断定此视频帧即为镜头分割位置从而判断该视频帧为镜头分割帧。

具体的，设相邻视频帧图片的颜色直方图特征分别为H_t和H_t+1，本实施例中可采用卡方距离计算相邻视频帧图片的颜色直方图的卡方距离；

其中，d_t是第t帧和t+1帧图片的颜色直方图的卡方距离；t是帧序号，t＝0,1,2,…；H_t是第t帧图片的颜色直方图特征，H_t+1是第t+1帧图片的颜色直方图特征；N为单通道直方图维度，n是迭代变量；H_t(n)是第t帧图片颜色直方图的特征向量的第n维的数值，H_t+1(n)是第t+1帧图片颜色直方图的特征向量的第n维的数值。

利用第t帧和t+1帧图片的颜色直方图的卡方距离判断相邻的第t帧和t+1帧图片是否相似，所述d_t在[0,1]范围之间，若d_t大于预设的分割阈值T时，则对该视频进行镜头分割，并将视频分割成多个镜头；

优选的，该预设的分割阈值T＝0.1，在其他实施例中，该预设的分割阈值根据实际应用而定，以确定合适的分割阈值。

S322:在将镜头分割后，将镜头的首帧作为视频的关键帧，并提取该视频的关键帧所述对应的视频时刻。

S330：利用所述初级语义概念目标检测模型对视频的关键帧进行检测，获取初级语义；

S340：利用所述初级语义概念目标检测模型对待检测视频进行检测，获得所述初级语义所对应的高级语义。

进一步的，将所述初级语义和高级语义进行注册，例如可以将所述初级语义和高级语义注册到视频检索引擎模块中。

S400：基于所述待检测视频的语义建立索引数据库，利用所述索引数据库查询所需视频；

例如，可以划分待检测视频的语义的级别，并对所述语义的级别进行排序，例如可以按照该语义级别的倒顺序(例如语义级别的排顺序)建立索引数据库，并通过语义关键词查询所需视频。

例如，上述所述的索引数据库如下：

语义	视频	语义级别
			婚纱女郎	视频1(time0)，视频2(time3)	低
正装男士	视频1(time0)	低
			鲜花	视频1(time0)，视频1(time7)	低
笑脸	视频1(time0)，视频3(time4)	低
			浪漫	视频1(time0)	高

通过用户提交的语义关键词并利用上述索引数据库检索所需视频，从而命中所需视频。

进一步的，将命中的所需视频根据命中次数按降序进行排列，以返回检索到的视频，例如，在上表中，有一个待检测视频v，检出的低级语义有两个(即笑脸和正装男士)，通过这2个语义分别命中“视频1”2次，“视频3”1次，那么返回的结果是按命中次数排序的，即：“视频1”、“视频3”。这里“视频1”、“视频3”就是所述的检索到的视频。

实施例二

下面介绍本发明实施例提供的一种基于语义的视频检索系统的具体实施方式，参见图2，该系统包括语义概念创建模块、目标检测创建模块、语义检测模块和查询模块；

所述语义概念创建模块用于创建语义概念模型；

其中，所述语义概念创建模块执行以下操作：

进一步的，所述语义概念创建模块还执行以下操作：通过所述初级语义概念模型和高级语义概念模型建立映射训练集。

进一步的，所述语义概念目标检测模型包括初级语义概念目标检测模型；所述初级语义概念目标检测模型执行以下操作：

基于所述目标识别图片的训练集生成训练目标识别模型；

利用所述训练目标识别模型识别图片中目标物体；

对图片进行人脸检测并提取人脸的特证,根据所述人脸的特征获得所述初级语义概念目标检测模型。

进一步的，所述语义概念目标检测模型还包括高级语义概念目标检测模型；所述高级语义概念目标检测模型是基于所述映射训练集获得的。

进一步的，所述待检测视频的语义包括待检测视频的初级语义和高级语义；

其中，获得待检测视频的语义通过以下方式获得：

对待检测视频进行解析获得视频帧图片；

比较相邻的视频帧图片的相似度以对镜头进行分割并获得待检测视频的关键帧；

利用所述初级语义概念目标检测模型对视频的关键帧进行检测，获取待检测视频的初级语义；

利用所述初级语义概念目标检测模型对待检测视频进行检测，获得所述待检测视频的初级语义所对应的高级语义。

本实施例的视频检索系统的工作过程与上述实施例的一种基于语义的视频检索方法的工作过程大体一致，在此不再赘述。

本发明的有益效果是：

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于语义的视频检索方法，其特征在于，该方法包括：

创建语义概念模型；

基于所述语义概念模型创建语义概念目标检测模型；

其中，所述创建语义概念模型包括以下子步骤：

建立目标识别图片的训练集得到初级语义信息，基于所述初级语义信息创建初级语义概念模型；所述初级语义信息为目标标注信息，所述目标标注信息包括目标在图片中的像素位置和目标名称；

根据所述初级语义信息生成高级语义信息，基于所述高级语义信息创建高级语义概念模型；

基于所述初级语义概念模型和高级语义概念模型建立映射训练集；

其中，所述创建语义概念目标检测模型包括创建初级语义概念目标检测模型和创建高级语义概念目标检测模型；所述初级语义概念目标检测模型用于检测视频场景中的语义场景目标，是对一个个具体事物进行检测的模型；所述高级语义概念目标检测模型是在一个视频的关键帧场景中对多个目标元素组成的情感特征进行检测的模型；

所述创建初级语义概念目标检测模型包括以下子步骤：

基于所述目标识别图片的训练集生成训练目标识别模型；

利用所述训练目标识别模型识别图片中目标物体；

对图片进行人脸检测并提取人脸的特征,根据所述人脸的特征获得所述初级语义概念目标检测模型；

所述创建高级语义概念目标检测模型包括通过朴素贝叶斯方法对所述映射训练集中的训练样本进行训练，以获得初级语义向高级语义的映射函数；

所述待检测视频的语义包括待检测视频的初级语义和高级语义；

其中，获得待检测视频的语义包括以下子步骤：

对待检测视频进行解析获得视频帧图片；

通过提取视频帧图片的颜色直方图特征计算相邻视频帧图片的相似度，比较相邻的视频帧图片的相似度以对镜头进行分割并获得待检测视频的关键帧；

利用初级语义概念目标检测模型对视频的关键帧进行检测，获取待检测视频的初级语义；

利用高级语义概念目标检测模型对待检测视频进行检测，获得所述待检测视频的初级语义所对应的高级语义；

所述索引数据库通过以下方法获得：

划分待检测视频的语义的级别；

对所述语义级别进行排序；

按照该语义级别的顺序建立索引数据库。

2.一种基于语义的视频检索系统，其特征在于，该系统包括语义概念创建模块、目标检测创建模块、语义检测模块和查询模块；

所述语义概念创建模块用于创建语义概念模型；

所述目标检测模块基于所述语义概念模型创建语义概念目标检测模型；所述创建语义概念目标检测模型包括创建初级语义概念目标检测模型和创建高级语义概念目标检测模型；所述初级语义概念目标检测模型用于检测视频场景中的语义场景目标，是对一个个具体事物进行检测的模型；所述高级语义概念目标检测模型是在一个视频的关键帧场景中对多个目标元素组成的情感特征进行检测的模型；

其中，所述语义概念创建模块执行以下操作：

所述目标检测模块执行以下操作创建初级语义概念目标检测模型：

基于所述目标识别图片的训练集生成训练目标识别模型；

利用所述训练目标识别模型识别图片中目标物体；

所述目标检测模块执行以下操作创建高级语义概念目标检测模型：

通过朴素贝叶斯方法对所述映射训练集中的训练样本进行训练，以获得初级语义向高级语义的映射函数；

所述语义检测模块执行以下操作获得待检测视频的语义：

对待检测视频进行解析获得视频帧图片；

所述查询模块执行以下操作获得索引数据库：

划分待检测视频的语义的级别；

对所述语义级别进行排序；

按照该语义级别的顺序建立索引数据库。