CN112307908A

CN112307908A - 一种视频语义提取方法及装置

Info

Publication number: CN112307908A
Application number: CN202011101561.2A
Authority: CN
Inventors: 伍永豪; 刘念; 李聪; 伍绍儒
Original assignee: City College Wuhan University Of Science And Technology
Current assignee: City College Wuhan University Of Science And Technology
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-02-02
Anticipated expiration: 2040-10-15
Also published as: CN112307908B

Abstract

本发明涉及视频语义分析技术领域，公开了一种视频语义提取方法，包括以下步骤：获取目标场景的样本视频，对所述样本视频中背景特征进行标注；通过标注后的样本视频对神经网络进行训练得到背景抽取模型；通过所述背景抽取模型抽取出目标视频中的背景特征，得到目标特征；建立多种目标物体的特征模型，并为每一种特征模型定义相对应的特征语义，得到特征语义库；在所述特征语义库中搜索与所述目标特征相匹配的目标特征模型，以所述目标特征模型所对应的特征语义作为所述目标视频的语义。本发明具有视频语义分析精度高、算法简单的技术效果。

Description

一种视频语义提取方法及装置

技术领域

本发明涉及视频语义分析技术领域，具体涉及一种视频语义提取方法及装置。

背景技术

随着数字影像技术和互联网技术的迅速发展，互联网中的图像、视频越来越多。如何对图像、视频进行快速的识别，以便筛选出相关的目标图像、视频，是需要解决的问题。

目前，图像语义标注一般基于全局信息进行，这种方法由于掺杂了背景信息，因此精度不高，只适用于背景单一的图像。对于背景复杂的图像通常需要基于区域划分进行语义标注，然而区域划分无疑会增加语义标注的算法复杂度，降低标注效率，特别是对于视频语义标注来说，这种问题显得更为突出。

发明内容

本发明的目的在于克服上述技术不足，提供一种视频语义提取方法及装置，解决现有技术中视频语义标注精度低、算法复杂的技术问题。

为达到上述技术目的，本发明的技术方案提供一种视频语义提取方法，包括以下步骤：

获取目标场景的样本视频，对所述样本视频中背景特征进行标注；

通过标注后的样本视频对神经网络进行训练得到背景抽取模型；

通过所述背景抽取模型抽取出目标视频中的背景特征，得到目标特征；

建立多种目标物体的特征模型，并为每一种特征模型定义相对应的特征语义，得到特征语义库；

在所述特征语义库中搜索与所述目标特征相匹配的目标特征模型，以所述目标特征模型所对应的特征语义作为所述目标视频的语义。

本发明还提供一种视频语义提取装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述视频语义提取方法。

本发明还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述视频语义提取方法。

与现有技术相比，本发明的有益效果包括：本发明对样本视频进行背景标注，以标注后的样本视频作为样本数据对神经网络进行训练，得到背景抽取模型，通过背景抽取模型可以快速抽取目标视频中背景特征，得到目标特征，在抽取得到目标特征后，将目标特征与特征语义库中特征模型进行对比匹配，得到相应的特征语义，各目标特征的特征语义组成目标视频的语义。由于摒除了背景特征对视频语义提取的影响，从而提高了语义提取的精度，且直接采用背景抽取模型抽取背景，简化了背景划分算法。

附图说明

图1是本发明提供的视频语义提取方法一实施方式的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本发明的实施例1提供了视频语义提取方法，包括以下步骤：

S1、获取目标场景的样本视频，对所述样本视频中背景特征进行标注；

S2、通过标注后的样本视频对神经网络进行训练得到背景抽取模型；

S3、通过所述背景抽取模型抽取出目标视频中的背景特征，得到目标特征；

S4、建立多种目标物体的特征模型，并为每一种特征模型定义相对应的特征语义，得到特征语义库；

S5、在所述特征语义库中搜索与所述目标特征相匹配的目标特征模型，以所述目标特征模型所对应的特征语义作为所述目标视频的语义。

本发明实施例对样本视频进行背景标注，以标注后的样本视频作为样本数据对神经网络进行训练，得到背景抽取模型，通过背景抽取模型可以快速抽取目标视频中背景特征，得到目标特征，在抽取得到目标特征后，将目标特征与特征语义库中特征模型进行对比匹配，得到相应的特征语义，各目标特征的特征语义组成目标视频的语义。由于摒除了背景特征对视频语义提取的影响，从而提高了语义提取的精度，且直接采用背景抽取模型抽取背景，简化了背景划分算法。

具体的，特征语义库根据具体的目标场景以及应用场景进行建立，选取应用场景相关的目标物体进行特征模型的建模，从而加快匹配速度，提高匹配精度。例如，用于在监控视频中检测异常行为时，物体模型可以是各种异常行为的模型，从而识别存在异常行为的目标特征，达到异常行为检测的目的，这对于监控视频的快速浏览和有效浏览非常有效，检测的。再比如，在工业中对工件进行质检，则以不同工件作为目标物体，进行特征模型的建立，然后拍摄工件在传送带上传送的视频，通过识别视频中目标特征，并将目标特征与特征模型进行比较，筛选出符合质检要求的工件，筛除不符合质检要求的工件。再比如，用于学生的口语训练过程中，用于自动生成相关的关键字，以及生成参考答案，播放素材视频，学生根据素材视频描述视频内容进行口语训练，当学生的语音信息中断时，输出相应画面的目标特征的语义作为提示词进行提醒，帮助学生不断提高口语能力。总之特征语义库的建立根据具体应用场景进行设定，本发明提供的视频语义提取方法可应用于各行各业，以上仅为举例说明，并不用于限定本发明。

本发明通过建立背景抽取模型实现目标视频的背景抽取，仅需少量的样本视频就可实现目标视频的背景抽取，且抽取效率快，算法简单。背景抽取后，根据目标物体建立的特征语义库贴近应用场景，因此匹配语义精度高。

优选的，对样本视频中环境背景进行标注，具体为：

将所述样本视频分为多帧样本图像；

分别对每一所述样本图像进行分割得到多个样本特征；

对比各所述样本图像的样本特征，筛选出各所述样本图像中共同的样本特征作为所述背景特征。

对于同一目标场景下的样本视频，其背景一般具有共同性，因此，先对样本图像进行分割，通过对比各样本图像找出背景特征。样本特征的对比通过轮廓对比实现即可。例如，将学生口语训练的素材视频进行标注，素材视频的各帧样本图像种包括人物、交通工具等运动物体，还包括山、水、建筑物等静止物体，通过标注，可标注山、水、建筑物等环境背景。

优选的，对所述样本图像进行分割得到多个样本特征，具体为：

计算所述样本图像中相邻色素点之间的色差值，在色差值超过设定阈值处设置边界，通过所述边界将所述样本图像分割为不同区域，得到所述样本特征。

通过色差值对样本图像进行分割，设定阈值的选取根据具体的目标场景进行设定，如背景与特征之间色差较大，可将设定阈值调高，如背景与特征之间色差较小，可将设定阈值调低。

优选的，通过标注后的样本视频对神经网络进行训练得到背景抽取模型，具体为：

以所述样本图像为输入，以所述样本图像除所述背景特征外的其他样本特征作为输出，对所述神经网络进行训练，得到所述背景抽取模型。

通过样本图像进行训练，在样本图像输入神经网络前需进行图像预处理，图像预处理包括边缘检测、中值滤波。

优选的，通过所述背景抽取模型抽取出目标视频中的背景特征，得到目标特征，具体为：

将所述目标视频分为多帧目标图像；

将所述目标图像分别输入所述背景抽取模型，得到各所述目标图像的目标特征。

通过背景抽取模型分别对每一帧目标图像中目标特征进行提取。

优选的，建立目标物体的特征模型，具体为：

采集多幅不同角度、不同距离、不同时间点的目标物体图像，获取各所述目标物体图像中目标物体的特征参数，得到所述目标物体的特征模型。

通过不同角度不同距离获取的目标物体图像，从不同方向反映了目标物体的特征，从而获取目标物体不同状态下的特征参数，使得建立的特征模型更加准确的描述目标物体的特征，提高后续匹配的精确度。

优选的，所述特征参数包括尺寸参数、颜色参数、角度参数、纹理参数、形状参数以及速度参数。

特征参数的选取，可根据目标物体特性进行设置。例如，目标物体的颜色特征较为明显，可主要通过颜色参数进行匹配，在颜色匹配成功的情况下，再选取其他的特征参数进行辅助判断。目标物体图像可以从样本视频中截取，从样本视频中截取多张连续的目标物体图像，即可获取到目标物体的速度参数，从而获取到目标物体的动态的特征参数。

优选的，在所述特征语义库中搜索与所述目标特征相匹配的目标特征模型，具体为：

获取目标特征的特征参数，在所述特征语义库中搜索与所述目标特征的特征参数相似度最高的特征模型作为所述目标特征模型。

通过相似度判断目标特征与特征模型的相似度，从而找出与目标特征最相似的目标特征模型，采用目标特征模型相对应的特征语义对目标特征进行语义标注。特征参数相似度的计算可采用矩阵相似度方法计算。可为每一种特征参数赋不同权值，计算各特征参数的相似度加权和作为最终的判断指标，选取相似度加权和最大的特征模型作为目标特征模型。每一帧目标图像上所有目标特征的语义组成该目标图像的语义，所有目标图像的语义组成目标视频的语义。

对目标特征进行语义标注，特征语义根据需要实现的功能进行定义。例如对于人物，可进行姓名标注，对于除人物外其他物体进行颜色标注，可实现对学生的颜色识别训练。

实施例2

本发明的实施例2提供了视频语义提取装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现以上实施例提供的视频语义提取方法。

视频语义提取方法具体包括以下步骤：

本发明实施例提供的视频语义提取装置，用于实现视频语义提取方法，因此，上述视频语义提取方法所具备的技术效果，视频语义提取装置同样具备，在此不再赘述。

实施例3

本发明的实施例3提供了计算机存储介质，其上存储有计算机程序，所述计算机程序被所述处理器执行时，实现以上实施例提供的视频语义提取方法。

视频语义提取方法具体包括以下步骤：

本发明实施例提供的计算机存储介质，用于实现视频语义提取方法，因此，上述视频语义提取方法所具备的技术效果，计算机存储介质同样具备，在此不再赘述。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种视频语义提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的视频语义提取方法，其特征在于，对样本视频中环境背景进行标注，具体为：

将所述样本视频分为多帧样本图像；

分别对每一所述样本图像进行分割得到多个样本特征；

3.根据权利要求2所述的视频语义提取方法，其特征在于，对所述样本图像进行分割得到多个样本特征，具体为：

4.根据权利要求2所述的视频语义提取方法，其特征在于，通过标注后的样本视频对神经网络进行训练得到背景抽取模型，具体为：

5.根据权利要求1所述的视频语义提取方法，其特征在于，通过所述背景抽取模型抽取出目标视频中的背景特征，得到目标特征，具体为：

将所述目标视频分为多帧目标图像；

将各所述目标图像分别输入所述背景抽取模型，得到各所述目标图像的目标特征。

6.根据权利要求1所述的视频语义提取方法，其特征在于，建立目标物体的特征模型，具体为：

采集多幅不同的目标物体图像，获取各所述目标物体图像中目标物体的特征参数，得到所述目标物体的特征模型。

7.根据权利要求6所述的视频语义提取方法，其特征在于，所述特征参数包括尺寸参数、颜色参数、角度参数、纹理参数以及形状参数。

8.根据权利要求6所述的视频语义提取方法，其特征在于，在所述特征语义库中搜索与所述目标特征相匹配的目标特征模型，具体为：

9.一种视频语义提取装置，其特征在于，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-8任一所述的视频语义提取方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，实现如权利要求1-8任一所述的视频语义提取方法。