CN108334611B

CN108334611B - 基于非负张量分解的时序可视媒体语义索引精度增强方法

Info

Publication number: CN108334611B
Application number: CN201810121031.0A
Authority: CN
Inventors: 王鹏; 孙立峰; 杨士强; 晏晨
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2020-04-24
Anticipated expiration: 2038-02-07
Also published as: CN108334611A

Abstract

本发明涉及一种基于非负张量分解的时序可视媒体语义索引精度增强方法，属于视觉媒体处理技术领域。首先，对时序可视媒体中包含的物体和场景进行语义索引，构建置信度张量，通过阈值判断筛选出部分元素，应用加权非负张量分解的方法对筛选后的张量进行重新估计，完成精度增强。本发明的优点是利用时序语义关系，增强了时序可视媒体语义索引的准确率。本方法不依赖于大量标注数据集和知识库，具有很强的灵活性和适应性。采用加权非负张量分解，提高了方法的灵活性和效果。算法的计算复杂度低，可扩展性强，适合于实际工业应用。

Description

基于非负张量分解的时序可视媒体语义索引精度增强方法

技术领域

本发明涉及一种基于非负张量分解的时序可视媒体语义索引精度增强方法，属于视觉媒体处理技术领域。

背景技术

可视媒体语义索引的精度增强是利用概念相关性对索引结果进行进一步改善的关键技术。这种索引增强技术的作用是给出可视媒体进行概念探测的结果，对概念探测的结果应用概念的量化关系进行调整和改善，以达到对大量可视媒体有效索引的目的。发明名称为“一种用于可视媒体语义索引的精度增强方法”(申请号：201610108055.3)的专利申请公开了一种全局增强和局部增强相结合的方式，对可视媒体语义索引的结果进行改善。但是在全局增强过程中，该专利申请采用的加权矩阵分解的方法，无法更好地利用时序可视媒体中语义概念出现的时间特征，故在时序可视媒体语义索引精度增强的过程中还存在改善的空间。尤其随着图像流、视频等时序可视媒体体量的快速增长，对时序可视媒体如可穿戴视觉采集设备记录的连续图像流或者视频的有效索引具有很高的应用价值。

对时序可视媒体语义索引的精度增强方法同样需要满足如下要求：1)对语义概念索引的灵活性；2)对不同数量和质量的标注数据的适应性；3)对大规模样本数据的扩展性。在时序可视媒体语义索引增强的过程中，应该尽量保证上述三点，这样才能保证增强方法在视觉大数据上的灵活应用，从而达到预期的效果。

发明内容

本发明的目的是提出一种基于非负张量分解的时序可视媒体语义索引精度增强方法，以应对当前单类概念探测器造成的概念探测精度低及不均衡的问题，既可应对普通的索引精度增强任务，也可处理由于外部知识或标注数据不足造成的概念相关性构建缺陷，并且可以用于为不同应用域中的语义索引结果进行精度增强。

本发明提出的的基于非负张量分解的时序可视媒体语义索引精度增强方法，包括以下步骤：

(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引，得到时序可视媒体语义索引的初始探测置信度值，根据所有初始探测置信度值得到一个张量T(T_ijk)_N×M×L，其中，L表示时序可视媒体按固定时间间隔切分成段的分段总数量，N表示每个时间间隔中所包含的连续图片的数量，M表示时序可视媒体中的概念的个数，张量T中的每个元素T_ijk表示在第k个时间间隔中第i个图片对第j个概念的探测置信度值，1≤k≤L；

(2)设定一个探测置信度阈值，分别将上述张量T中的初始探测置信度值即每个元素T_ijk与设定的探测置信度阈值进行比较，若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值，则保留初始探测置信度值，若张量T中的初始探测置信度值小于设定的探测置信度阈值，则将初始探测置信度值更新为0，并将更新后的张量记为T”，将张量T”中的每个元素记为T”_ijk,其中，1≤i≤N,1≤j≤M,1≤k≤L；

(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解，得到精度增强后的时序可视媒体语义索引，记为张量T'，具体包括以下步骤：

(3-1)构建三个初始非负矩阵

及

其中K为一个设定参数，取值范围为[M/2,2M]；

(3-2)构建一个权重张量W，W＝(W_ijk)_N×M×L，其中w_ijk∈[0,1]，1≤i≤N,1≤j≤M，1≤k≤L，根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量T中的初始探测置信度值，对权重张量W中的各元素w_ijk进行赋值，若上述步骤(1)张量T中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值，则权重张量W的元素w_ijk赋以值(0.5,1.0]，若上述步骤(1)张量T中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值，则权重张量W的元素w_ijk赋以值[0,0.5]；

(3-3)根据上述步骤(3-1)构建的三个非负矩阵

及

以及上述步骤(3-2)构建的权重矩阵W，构建一个费效函数F：

其中U⁽¹⁾，U⁽²⁾及U⁽³⁾分别代表上述非负矩阵

及

且该费效函数满足约束U⁽¹⁾≥0，U⁽²⁾≥0及U⁽³⁾≥0；

(3-4)求解上述费效函数F，得到优化后的非负矩阵

及

优化迭代过程如下：

以U⁽¹⁾的迭代优化过程为例：

采用上述方法，得到矩阵U⁽²⁾和U⁽³⁾的优化结果，将迭代收敛后的

及

作为优化后的非负张量

及

其中，符号○代表元素乘法，W为上述步骤(3-2)中的权重张量；

根据上述优化结果，利用下式，计算得到一个张量

张量

中的每个元素

为：

(3-5)将上述步骤(3-4)的张量

与上述步骤(1)的张量T进行加权平均，得到张量T'：

其中，α的取值范围为(0,1)，T'即为精度增强后的时序可视媒体语义索引。

本发明提出的基于非负张量分解的时序可视媒体语义索引精度增强方法，其优点是：

1、本发明提出的基于非负张量分解的时序可视媒体语义索引精度增强方法中，充分使用概念的时间相关性如同时出现和重复出现规律等，对精度较低的概念探测结果进行修正，从而增强了视觉媒体语义索引的准确率。由于本方法不依赖于大量语义标注数据集和知识库，方法直接应用于概念探测的结果，具有很强的灵活性和适应性。

2、本发明方法对时序可视媒体在时间维度上采用了时间分段的组织方式，可以充分保留时序可视媒体在单个时间分段中语义的强相关性，尤其对于事件记录等具有强时间关联特征的可视媒体进行索引，具有更好的精度增强效果。

3、本发明方法对时序可视媒体的典型应用领域具有很好的适应性，如各种视频的语义索引。另外，随着可穿戴视觉感知设备的不断普及如谷歌眼镜、微软的SenseCam等，对穿戴者行为记录的视频或者连续的图像流的语义索引均可以采用本发明的方法进行精度增强。

具体实施方式

(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引，得到时序可视媒体语义索引的初始探测置信度值，根据所有初始探测置信度值得到一个张量T(T_ijk)_N×M×L，其中，L表示时序可视媒体按固定时间间隔切分成段的分段总数量，N表示每个时间间隔中所包含的连续图片的数量，M表示时序可视媒体中的概念(即物体或场景)的个数，张量T中的每个元素T_ijk表示在第k个时间间隔中第i个图片对第j个概念(即物体或场景)的探测置信度值，1≤k≤L；