CN108334611B - 基于非负张量分解的时序可视媒体语义索引精度增强方法 - Google Patents

基于非负张量分解的时序可视媒体语义索引精度增强方法 Download PDF

Info

Publication number
CN108334611B
CN108334611B CN201810121031.0A CN201810121031A CN108334611B CN 108334611 B CN108334611 B CN 108334611B CN 201810121031 A CN201810121031 A CN 201810121031A CN 108334611 B CN108334611 B CN 108334611B
Authority
CN
China
Prior art keywords
tensor
equal
detection confidence
visual media
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810121031.0A
Other languages
English (en)
Other versions
CN108334611A (zh
Inventor
王鹏
孙立峰
杨士强
晏晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810121031.0A priority Critical patent/CN108334611B/zh
Publication of CN108334611A publication Critical patent/CN108334611A/zh
Application granted granted Critical
Publication of CN108334611B publication Critical patent/CN108334611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于非负张量分解的时序可视媒体语义索引精度增强方法,属于视觉媒体处理技术领域。首先,对时序可视媒体中包含的物体和场景进行语义索引,构建置信度张量,通过阈值判断筛选出部分元素,应用加权非负张量分解的方法对筛选后的张量进行重新估计,完成精度增强。本发明的优点是利用时序语义关系,增强了时序可视媒体语义索引的准确率。本方法不依赖于大量标注数据集和知识库,具有很强的灵活性和适应性。采用加权非负张量分解,提高了方法的灵活性和效果。算法的计算复杂度低,可扩展性强,适合于实际工业应用。

Description

基于非负张量分解的时序可视媒体语义索引精度增强方法
技术领域
本发明涉及一种基于非负张量分解的时序可视媒体语义索引精度增强方法,属于视觉媒体处理技术领域。
背景技术
可视媒体语义索引的精度增强是利用概念相关性对索引结果进行进一步改善的关键技术。这种索引增强技术的作用是给出可视媒体进行概念探测的结果,对概念探测的结果应用概念的量化关系进行调整和改善,以达到对大量可视媒体有效索引的目的。发明名称为“一种用于可视媒体语义索引的精度增强方法”(申请号:201610108055.3)的专利申请公开了一种全局增强和局部增强相结合的方式,对可视媒体语义索引的结果进行改善。但是在全局增强过程中,该专利申请采用的加权矩阵分解的方法,无法更好地利用时序可视媒体中语义概念出现的时间特征,故在时序可视媒体语义索引精度增强的过程中还存在改善的空间。尤其随着图像流、视频等时序可视媒体体量的快速增长,对时序可视媒体如可穿戴视觉采集设备记录的连续图像流或者视频的有效索引具有很高的应用价值。
对时序可视媒体语义索引的精度增强方法同样需要满足如下要求:1)对语义概念索引的灵活性;2)对不同数量和质量的标注数据的适应性;3)对大规模样本数据的扩展性。在时序可视媒体语义索引增强的过程中,应该尽量保证上述三点,这样才能保证增强方法在视觉大数据上的灵活应用,从而达到预期的效果。
发明内容
本发明的目的是提出一种基于非负张量分解的时序可视媒体语义索引精度增强方法,以应对当前单类概念探测器造成的概念探测精度低及不均衡的问题,既可应对普通的索引精度增强任务,也可处理由于外部知识或标注数据不足造成的概念相关性构建缺陷,并且可以用于为不同应用域中的语义索引结果进行精度增强。
本发明提出的的基于非负张量分解的时序可视媒体语义索引精度增强方法,包括以下步骤:
(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引,得到时序可视媒体语义索引的初始探测置信度值,根据所有初始探测置信度值得到一个张量T(Tijk)N×M×L,其中,L表示时序可视媒体按固定时间间隔切分成段的分段总数量,N表示每个时间间隔中所包含的连续图片的数量,M表示时序可视媒体中的概念的个数,张量T中的每个元素Tijk表示在第k个时间间隔中第i个图片对第j个概念的探测置信度值,1≤k≤L;
(2)设定一个探测置信度阈值,分别将上述张量T中的初始探测置信度值即每个元素Tijk与设定的探测置信度阈值进行比较,若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值,则保留初始探测置信度值,若张量T中的初始探测置信度值小于设定的探测置信度阈值,则将初始探测置信度值更新为0,并将更新后的张量记为T”,将张量T”中的每个元素记为T”ijk,其中,1≤i≤N,1≤j≤M,1≤k≤L;
(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解,得到精度增强后的时序可视媒体语义索引,记为张量T',具体包括以下步骤:
(3-1)构建三个初始非负矩阵
Figure BDA0001572077860000021
Figure BDA0001572077860000022
其中K为一个设定参数,取值范围为[M/2,2M];
(3-2)构建一个权重张量W,W=(Wijk)N×M×L,其中wijk∈[0,1],1≤i≤N,1≤j≤M,1≤k≤L,根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量T中的初始探测置信度值,对权重张量W中的各元素wijk进行赋值,若上述步骤(1)张量T中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值(0.5,1.0],若上述步骤(1)张量T中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值[0,0.5];
(3-3)根据上述步骤(3-1)构建的三个非负矩阵
Figure BDA0001572077860000023
Figure BDA0001572077860000024
以及上述步骤(3-2)构建的权重矩阵W,构建一个费效函数F:
Figure BDA0001572077860000025
其中U(1),U(2)及U(3)分别代表上述非负矩阵
Figure BDA0001572077860000026
Figure BDA0001572077860000027
且该费效函数满足约束U(1)≥0,U(2)≥0及U(3)≥0;
(3-4)求解上述费效函数F,得到优化后的非负矩阵
Figure BDA0001572077860000028
Figure BDA0001572077860000029
优化迭代过程如下:
以U(1)的迭代优化过程为例:
Figure BDA00015720778600000210
采用上述方法,得到矩阵U(2)和U(3)的优化结果,将迭代收敛后的
Figure BDA00015720778600000211
Figure BDA00015720778600000212
作为优化后的非负张量
Figure BDA00015720778600000213
Figure BDA00015720778600000214
其中,符号○代表元素乘法,W为上述步骤(3-2)中的权重张量;
根据上述优化结果,利用下式,计算得到一个张量
Figure BDA0001572077860000031
张量
Figure BDA0001572077860000032
中的每个元素
Figure BDA0001572077860000033
为:
Figure BDA0001572077860000034
(3-5)将上述步骤(3-4)的张量
Figure BDA0001572077860000035
与上述步骤(1)的张量T进行加权平均,得到张量T':
Figure BDA0001572077860000036
其中,α的取值范围为(0,1),T'即为精度增强后的时序可视媒体语义索引。
本发明提出的基于非负张量分解的时序可视媒体语义索引精度增强方法,其优点是:
1、本发明提出的基于非负张量分解的时序可视媒体语义索引精度增强方法中,充分使用概念的时间相关性如同时出现和重复出现规律等,对精度较低的概念探测结果进行修正,从而增强了视觉媒体语义索引的准确率。由于本方法不依赖于大量语义标注数据集和知识库,方法直接应用于概念探测的结果,具有很强的灵活性和适应性。
2、本发明方法对时序可视媒体在时间维度上采用了时间分段的组织方式,可以充分保留时序可视媒体在单个时间分段中语义的强相关性,尤其对于事件记录等具有强时间关联特征的可视媒体进行索引,具有更好的精度增强效果。
3、本发明方法对时序可视媒体的典型应用领域具有很好的适应性,如各种视频的语义索引。另外,随着可穿戴视觉感知设备的不断普及如谷歌眼镜、微软的SenseCam等,对穿戴者行为记录的视频或者连续的图像流的语义索引均可以采用本发明的方法进行精度增强。
具体实施方式
本发明提出的的基于非负张量分解的时序可视媒体语义索引精度增强方法,包括以下步骤:
(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引,得到时序可视媒体语义索引的初始探测置信度值,根据所有初始探测置信度值得到一个张量T(Tijk)N×M×L,其中,L表示时序可视媒体按固定时间间隔切分成段的分段总数量,N表示每个时间间隔中所包含的连续图片的数量,M表示时序可视媒体中的概念(即物体或场景)的个数,张量T中的每个元素Tijk表示在第k个时间间隔中第i个图片对第j个概念(即物体或场景)的探测置信度值,1≤k≤L;
(2)设定一个探测置信度阈值,分别将上述张量T中的初始探测置信度值即每个元素Tijk与设定的探测置信度阈值进行比较,若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值,则保留初始探测置信度值,若张量T中的初始探测置信度值小于设定的探测置信度阈值,则将初始探测置信度值更新为0,并将更新后的张量记为T”,将张量T”中的每个元素记为T”ijk,其中,1≤i≤N,1≤j≤M,1≤k≤L;
(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解,得到精度增强后的时序可视媒体语义索引,记为张量T',具体包括以下步骤:
(3-1)构建三个初始非负矩阵
Figure BDA0001572077860000041
Figure BDA0001572077860000042
其中K为一个设定参数,取值范围为[M/2,2M],本发明的一个实施例中取值为M;
(3-2)构建一个权重张量W,W=(Wijk)N×M×L,其中wijk∈[0,1],1≤i≤N,1≤j≤M,1≤k≤L,根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量T中的初始探测置信度值,对权重张量W中的各元素wijk进行赋值,若上述步骤(1)张量T中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值(0.5,1.0],若上述步骤(1)张量T中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值[0,0.5];
(3-3)根据上述步骤(3-1)构建的三个非负矩阵
Figure BDA0001572077860000043
Figure BDA0001572077860000044
以及上述步骤(3-2)构建的权重矩阵W,构建一个费效函数F:
Figure BDA0001572077860000045
其中U(1),U(2)及U(3)分别代表上述非负矩阵
Figure BDA0001572077860000046
Figure BDA0001572077860000047
且该费效函数满足约束U(1)≥0,U(2)≥0及U(3)≥0;
(3-4)求解上述费效函数F,得到优化后的非负矩阵
Figure BDA0001572077860000048
优化迭代过程如下:
以U(1)的迭代优化过程为例:
Figure BDA00015720778600000410
采用上述方法,得到矩阵U(2)和U(3)的优化结果,将迭代收敛后的
Figure BDA00015720778600000411
Figure BDA00015720778600000412
作为优化后的非负张量
Figure BDA00015720778600000413
Figure BDA00015720778600000414
其中,符号○代表元素乘法,W为上述步骤(3-2)中的权重张量;
根据上述优化结果,利用下式,计算得到一个张量
Figure BDA00015720778600000415
张量
Figure BDA00015720778600000416
中的每个元素
Figure BDA00015720778600000417
为:
Figure BDA00015720778600000418
(3-5)将上述步骤(3-4)的张量
Figure BDA00015720778600000419
与上述步骤(1)的张量T进行加权平均,得到张量T':
Figure BDA00015720778600000420
其中,α的取值范围为(0,1),T'即为精度增强后的时序可视媒体语义索引。

Claims (1)

1.一种基于非负张量分解的时序可视媒体语义索引精度增强方法,其特征在于该方法包括以下步骤:
(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引,得到时序可视媒体语义索引的初始探测置信度值,根据所有初始探测置信度值得到一个张量T(Tijk)N×M×L,其中,L表示时序可视媒体按固定时间间隔切分成段的分段总数量,N表示每个时间间隔中所包含的连续图片的数量,M表示时序可视媒体中的概念的个数,张量T中的每个元素Tijk表示在第k个时间间隔中第i个图片对第j个概念的探测置信度值,1≤k≤L;
(2)设定一个探测置信度阈值,分别将上述张量T中的初始探测置信度值即每个元素Tijk与设定的探测置信度阈值进行比较,若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值,则保留初始探测置信度值,若张量T中的初始探测置信度值小于设定的探测置信度阈值,则将初始探测置信度值更新为0,并将更新后的张量记为T”,将张量T”中的每个元素记为T”ijk,其中,1≤i≤N,1≤j≤M,1≤k≤L;
(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解,得到精度增强后的时序可视媒体语义索引,记为张量T',具体包括以下步骤:
(3-1)构建三个初始非负矩阵
Figure FDA0002272424350000011
Figure FDA0002272424350000012
其中K为一个设定参数,取值范围为[M/2,2M];
(3-2)构建一个权重张量W,W=(wijk)N×M×L,其中wijk∈[0,1],1≤i≤N,1≤j≤M,1≤k≤L,根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量T中的初始探测置信度值,对权重张量W中的各元素wijk进行赋值,若上述步骤(1)张量T中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值(0.5,1.0],若上述步骤(1)张量T中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值[0,0.5];
(3-3)根据上述步骤(3-1)构建的三个非负矩阵
Figure FDA0002272424350000013
Figure FDA0002272424350000014
以及上述步骤(3-2)构建的权重矩阵W,构建一个费效函数F:
Figure FDA0002272424350000015
其中U(1),U(2)及U(3)分别代表上述非负矩阵
Figure FDA0002272424350000016
Figure FDA0002272424350000017
且该费效函数满足约束U(1)≥0,U(2)≥0及U(3)≥0;
(3-4)求解上述费效函数F,得到优化后的非负矩阵
Figure FDA0002272424350000018
Figure FDA0002272424350000019
优化迭代过程如下:
以U(1)的迭代优化过程为例:
Figure FDA0002272424350000021
采用上述方法,得到矩阵U(2)和U(3)的优化结果,将迭代收敛后的
Figure FDA0002272424350000022
Figure FDA0002272424350000023
作为优化后的非负张量
Figure FDA0002272424350000024
Figure FDA0002272424350000025
其中,符号○代表元素乘法,W为上述步骤(3-2)中的权重张量;
根据上述优化结果,利用下式,计算得到一个张量
Figure FDA0002272424350000026
张量
Figure FDA0002272424350000027
中的每个元素
Figure FDA0002272424350000028
为:
Figure FDA0002272424350000029
(3-5)将上述步骤(3-4)的张量
Figure FDA00022724243500000210
与上述步骤(1)的张量T进行加权平均,得到张量T':
Figure FDA00022724243500000211
其中,α的取值范围为(0,1),T'即为精度增强后的时序可视媒体语义索引。
CN201810121031.0A 2018-02-07 2018-02-07 基于非负张量分解的时序可视媒体语义索引精度增强方法 Active CN108334611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810121031.0A CN108334611B (zh) 2018-02-07 2018-02-07 基于非负张量分解的时序可视媒体语义索引精度增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810121031.0A CN108334611B (zh) 2018-02-07 2018-02-07 基于非负张量分解的时序可视媒体语义索引精度增强方法

Publications (2)

Publication Number Publication Date
CN108334611A CN108334611A (zh) 2018-07-27
CN108334611B true CN108334611B (zh) 2020-04-24

Family

ID=62927002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810121031.0A Active CN108334611B (zh) 2018-02-07 2018-02-07 基于非负张量分解的时序可视媒体语义索引精度增强方法

Country Status (1)

Country Link
CN (1) CN108334611B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109905289B (zh) * 2019-01-23 2019-12-06 中国人民解放军32801部队 一种网络服务可信属性动态预测方法
CN109918616B (zh) * 2019-01-23 2020-01-31 中国人民解放军32801部队 一种基于语义索引精度增强的可视媒体处理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG193995A1 (en) * 2011-03-28 2013-11-29 Agency Science Tech & Res A method, an apparatus and a computer-readable medium for indexing a document for document retrieval
US9158847B1 (en) * 2011-07-19 2015-10-13 Kyndi Inc. Cognitive memory encoding networks for fast semantic indexing storage and retrieval
CN102521368B (zh) * 2011-12-16 2013-08-21 武汉科技大学 基于相似度矩阵迭代的跨媒体语义理解和优化方法
CN105787045B (zh) * 2016-02-26 2019-03-26 清华大学 一种用于可视媒体语义索引的精度增强方法

Also Published As

Publication number Publication date
CN108334611A (zh) 2018-07-27

Similar Documents

Publication Publication Date Title
CN111814854B (zh) 一种无监督域适应的目标重识别方法
CN109829443B (zh) 基于图像增强与3d卷积神经网络的视频行为识别方法
Shelhamer et al. Clockwork convnets for video semantic segmentation
CN111062892B (zh) 一种基于复合残差网络和深层监督的单幅图像去雨方法
CN108491822B (zh) 一种基于嵌入式设备有限缓存的人脸检测去重方法
CN110728294A (zh) 一种基于迁移学习的跨领域图像分类模型构建方法和装置
CN101477633B (zh) 自动估计图像和视频的视觉显著度的方法
CN103345492A (zh) 一种视频浓缩的方法和系统
CN113313810A (zh) 一种透明物体的6d姿态参数计算方法
CN108334611B (zh) 基于非负张量分解的时序可视媒体语义索引精度增强方法
Asim et al. A key frame based video summarization using color features
CN112926485A (zh) 一种少样本水闸图像分类方法
CN115527159B (zh) 一种基于跨模态间尺度注意聚合特征的计数系统及方法
CN114998799B (zh) 基于全局知识挖掘和前景注意力的交互视频动作检测方法
CN115563342A (zh) 一种视频主题检索的方法、系统、设备及存储介质
CN116109499A (zh) 一种基于Transformer的面向记忆的单图片去雨方法
CN116863384A (zh) 一种基于CNN-Transfomer的自监督视频分割方法和系统
CN113139966B (zh) 一种基于贝叶斯记忆的层次级联视频目标分割方法
Xu et al. Accurate and rapid localization of tea bud leaf picking point based on YOLOv8
CN117475134A (zh) 基于多尺度跨层特征融合网络的伪装目标检测算法
CN117197577A (zh) 基于对比学习的目标检测模型对抗训练方法
CN117611988A (zh) 一种面向新增耕地管护属性自动识别监测方法及系统
CN109886996B (zh) 一种视觉追踪优化方法
Xia et al. Application of yolov7 and transformer structures to small object (license plate) detection in complex traffic scenes
Xiong et al. TFA-CNN: an efficient method for dealing with crowding and noise problems in crowd counting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant