CN108334611A - 基于非负张量分解的时序可视媒体语义索引精度增强方法 - Google Patents

基于非负张量分解的时序可视媒体语义索引精度增强方法 Download PDF

Info

Publication number
CN108334611A
CN108334611A CN201810121031.0A CN201810121031A CN108334611A CN 108334611 A CN108334611 A CN 108334611A CN 201810121031 A CN201810121031 A CN 201810121031A CN 108334611 A CN108334611 A CN 108334611A
Authority
CN
China
Prior art keywords
tensor
visual media
value
mentioned steps
ijk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810121031.0A
Other languages
English (en)
Other versions
CN108334611B (zh
Inventor
王鹏
孙立峰
杨士强
晏晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810121031.0A priority Critical patent/CN108334611B/zh
Publication of CN108334611A publication Critical patent/CN108334611A/zh
Application granted granted Critical
Publication of CN108334611B publication Critical patent/CN108334611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于非负张量分解的时序可视媒体语义索引精度增强方法,属于视觉媒体处理技术领域。首先,对时序可视媒体中包含的物体和场景进行语义索引,构建置信度张量,通过阈值判断筛选出部分元素,应用加权非负张量分解的方法对筛选后的张量进行重新估计,完成精度增强。本发明的优点是利用时序语义关系,增强了时序可视媒体语义索引的准确率。本方法不依赖于大量标注数据集和知识库,具有很强的灵活性和适应性。采用加权非负张量分解,提高了方法的灵活性和效果。算法的计算复杂度低,可扩展性强,适合于实际工业应用。

Description

基于非负张量分解的时序可视媒体语义索引精度增强方法
技术领域
本发明涉及一种基于非负张量分解的时序可视媒体语义索引精度增强方法,属于视觉媒体处理技术领域。
背景技术
可视媒体语义索引的精度增强是利用概念相关性对索引结果进行进一步改善的关键技术。这种索引增强技术的作用是给出可视媒体进行概念探测的结果,对概念探测的结果应用概念的量化关系进行调整和改善,以达到对大量可视媒体有效索引的目的。发明名称为“一种用于可视媒体语义索引的精度增强方法”(申请号:201610108055.3)的专利申请公开了一种全局增强和局部增强相结合的方式,对可视媒体语义索引的结果进行改善。但是在全局增强过程中,该专利申请采用的加权矩阵分解的方法,无法更好地利用时序可视媒体中语义概念出现的时间特征,故在时序可视媒体语义索引精度增强的过程中还存在改善的空间。尤其随着图像流、视频等时序可视媒体体量的快速增长,对时序可视媒体如可穿戴视觉采集设备记录的连续图像流或者视频的有效索引具有很高的应用价值。
对时序可视媒体语义索引的精度增强方法同样需要满足如下要求:1)对语义概念索引的灵活性;2)对不同数量和质量的标注数据的适应性;3)对大规模样本数据的扩展性。在时序可视媒体语义索引增强的过程中,应该尽量保证上述三点,这样才能保证增强方法在视觉大数据上的灵活应用,从而达到预期的效果。
发明内容
本发明的目的是提出一种基于非负张量分解的时序可视媒体语义索引精度增强方法,以应对当前单类概念探测器造成的概念探测精度低及不均衡的问题,既可应对普通的索引精度增强任务,也可处理由于外部知识或标注数据不足造成的概念相关性构建缺陷,并且可以用于为不同应用域中的语义索引结果进行精度增强。
本发明提出的的基于非负张量分解的时序可视媒体语义索引精度增强方法,包括以下步骤:
(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引,得到时序可视媒体语义索引的初始探测置信度值,根据所有初始探测置信度值得到一个张量T(Tijk)N×M×L,其中,L表示时序可视媒体按固定时间间隔切分成段的分段总数量,N表示每个时间间隔中所包含的连续图片的数量,M表示时序可视媒体中的概念的个数,张量T中的每个元素Tijk表示在第k个时间间隔中第i个图片对第j个概念的探测置信度值,1≤k≤L;
(2)设定一个探测置信度阈值,分别将上述张量T中的初始探测置信度值即每个元素Tijk与设定的探测置信度阈值进行比较,若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值,则保留初始探测置信度值,若张量T中的初始探测置信度值小于设定的探测置信度阈值,则将初始探测置信度值更新为0,并将更新后的张量记为T”,将张量T”中的每个元素记为T”ijk,其中,1≤i≤N,1≤j≤M,1≤k≤L;
(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解,得到精度增强后的时序可视媒体语义索引,记为张量T',具体包括以下步骤:
(3-1)构建三个初始非负矩阵其中K为一个设定参数,取值范围为[M/2,2M];
(3-2)构建一个权重张量W,W=(Wijk)N×M×L,其中wijk∈[0,1],1≤i≤N,1≤j≤M,1≤k≤L,根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量T中的初始探测置信度值,对权重张量W中的各元素wijk进行赋值,若上述步骤(1)张量T中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值(0.5,1.0],若上述步骤(1)张量T中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值[0,0.5];
(3-3)根据上述步骤(3-1)构建的三个非负矩阵以及上述步骤(3-2)构建的权重矩阵W,构建一个费效函数F:
其中U(1),U(2)及U(3)分别代表上述非负矩阵且该费效函数满足约束U(1)≥0,U(2)≥0及U(3)≥0;
(3-4)求解上述费效函数F,得到优化后的非负矩阵优化迭代过程如下:
以U(1)的迭代优化过程为例:
采用上述方法,得到矩阵U(2)和U(3)的优化结果,将迭代收敛后的作为优化后的非负张量其中,符号○代表元素乘法,W为上述步骤(3-2)中的权重张量;
根据上述优化结果,利用下式,计算得到一个张量张量中的每个元素为:
(3-5)将上述步骤(3-4)的张量与上述步骤(1)的张量T进行加权平均,得到张量T':
其中,α的取值范围为(0,1),T'即为精度增强后的时序可视媒体语义索引。
本发明提出的基于非负张量分解的时序可视媒体语义索引精度增强方法,其优点是:
1、本发明提出的基于非负张量分解的时序可视媒体语义索引精度增强方法中,充分使用概念的时间相关性如同时出现和重复出现规律等,对精度较低的概念探测结果进行修正,从而增强了视觉媒体语义索引的准确率。由于本方法不依赖于大量语义标注数据集和知识库,方法直接应用于概念探测的结果,具有很强的灵活性和适应性。
2、本发明方法对时序可视媒体在时间维度上采用了时间分段的组织方式,可以充分保留时序可视媒体在单个时间分段中语义的强相关性,尤其对于事件记录等具有强时间关联特征的可视媒体进行索引,具有更好的精度增强效果。
3、本发明方法对时序可视媒体的典型应用领域具有很好的适应性,如各种视频的语义索引。另外,随着可穿戴视觉感知设备的不断普及如谷歌眼镜、微软的SenseCam等,对穿戴者行为记录的视频或者连续的图像流的语义索引均可以采用本发明的方法进行精度增强。
具体实施方式
本发明提出的的基于非负张量分解的时序可视媒体语义索引精度增强方法,包括以下步骤:
(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引,得到时序可视媒体语义索引的初始探测置信度值,根据所有初始探测置信度值得到一个张量T(Tijk)N×M×L,其中,L表示时序可视媒体按固定时间间隔切分成段的分段总数量,N表示每个时间间隔中所包含的连续图片的数量,M表示时序可视媒体中的概念(即物体或场景)的个数,张量T中的每个元素Tijk表示在第k个时间间隔中第i个图片对第j个概念(即物体或场景)的探测置信度值,1≤k≤L;
(2)设定一个探测置信度阈值,分别将上述张量T中的初始探测置信度值即每个元素Tijk与设定的探测置信度阈值进行比较,若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值,则保留初始探测置信度值,若张量T中的初始探测置信度值小于设定的探测置信度阈值,则将初始探测置信度值更新为0,并将更新后的张量记为T”,将张量T”中的每个元素记为T”ijk,其中,1≤i≤N,1≤j≤M,1≤k≤L;
(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解,得到精度增强后的时序可视媒体语义索引,记为张量T',具体包括以下步骤:
(3-1)构建三个初始非负矩阵其中K为一个设定参数,取值范围为[M/2,2M],本发明的一个实施例中取值为M;
(3-2)构建一个权重张量W,W=(Wijk)N×M×L,其中wijk∈[0,1],1≤i≤N,1≤j≤M,1≤k≤L,根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量T中的初始探测置信度值,对权重张量W中的各元素wijk进行赋值,若上述步骤(1)张量T中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值(0.5,1.0],若上述步骤(1)张量T中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值[0,0.5];
(3-3)根据上述步骤(3-1)构建的三个非负矩阵以及上述步骤(3-2)构建的权重矩阵W,构建一个费效函数F:
其中U(1),U(2)及U(3)分别代表上述非负矩阵且该费效函数满足约束U(1)≥0,U(2)≥0及U(3)≥0;
(3-4)求解上述费效函数F,得到优化后的非负矩阵优化迭代过程如下:
以U(1)的迭代优化过程为例:
采用上述方法,得到矩阵U(2)和U(3)的优化结果,将迭代收敛后的作为优化后的非负张量其中,符号○代表元素乘法,W为上述步骤(3-2)中的权重张量;
根据上述优化结果,利用下式,计算得到一个张量张量中的每个元素为:
(3-5)将上述步骤(3-4)的张量与上述步骤(1)的张量T进行加权平均,得到张量T':
其中,α的取值范围为(0,1),T'即为精度增强后的时序可视媒体语义索引。

Claims (1)

1.一种基于非负张量分解的时序可视媒体语义索引精度增强方法,其特征在于该方法包括以下步骤:
(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引,得到时序可视媒体语义索引的初始探测置信度值,根据所有初始探测置信度值得到一个张量T(Tijk)N×M×L,其中,L表示时序可视媒体按固定时间间隔切分成段的分段总数量,N表示每个时间间隔中所包含的连续图片的数量,M表示时序可视媒体中的概念的个数,张量T中的每个元素Tijk表示在第k个时间间隔中第i个图片对第j个概念的探测置信度值,1≤k≤L;
(2)设定一个探测置信度阈值,分别将上述张量T中的初始探测置信度值即每个元素Tijk与设定的探测置信度阈值进行比较,若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值,则保留初始探测置信度值,若张量T中的初始探测置信度值小于设定的探测置信度阈值,则将初始探测置信度值更新为0,并将更新后的张量记为T”,将张量T”中的每个元素记为T”ijk,其中,1≤i≤N,1≤j≤M,1≤k≤L;
(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解,得到精度增强后的时序可视媒体语义索引,记为张量T',具体包括以下步骤:
(3-1)构建三个初始非负矩阵其中K为一个设定参数,取值范围为[M/2,2M];
(3-2)构建一个权重张量W,W=(Wijk)N×M×L,其中wijk∈[0,1],1≤i≤N,1≤j≤M,1≤k≤L,根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量T中的初始探测置信度值,对权重张量W中的各元素wijk进行赋值,若上述步骤(1)张量T中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值(0.5,1.0],若上述步骤(1)张量T中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值[0,0.5];
(3-3)根据上述步骤(3-1)构建的三个非负矩阵以及上述步骤(3-2)构建的权重矩阵W,构建一个费效函数F:
其中U(1),U(2)及U(3)分别代表上述非负矩阵且该费效函数满足约束U(1)≥0,U(2)≥0及U(3)≥0;
(3-4)求解上述费效函数F,得到优化后的非负矩阵优化迭代过程如下:
以U(1)的迭代优化过程为例:
采用上述方法,得到矩阵U(2)和U(3)的优化结果,将迭代收敛后的作为优化后的非负张量其中,符号○代表元素乘法,W为上述步骤(3-2)中的权重张量;
根据上述优化结果,利用下式,计算得到一个张量张量中的每个元素为:
(3-5)将上述步骤(3-4)的张量与上述步骤(1)的张量T进行加权平均,得到张量T':
其中,α的取值范围为(0,1),T'即为精度增强后的时序可视媒体语义索引。
CN201810121031.0A 2018-02-07 2018-02-07 基于非负张量分解的时序可视媒体语义索引精度增强方法 Active CN108334611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810121031.0A CN108334611B (zh) 2018-02-07 2018-02-07 基于非负张量分解的时序可视媒体语义索引精度增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810121031.0A CN108334611B (zh) 2018-02-07 2018-02-07 基于非负张量分解的时序可视媒体语义索引精度增强方法

Publications (2)

Publication Number Publication Date
CN108334611A true CN108334611A (zh) 2018-07-27
CN108334611B CN108334611B (zh) 2020-04-24

Family

ID=62927002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810121031.0A Active CN108334611B (zh) 2018-02-07 2018-02-07 基于非负张量分解的时序可视媒体语义索引精度增强方法

Country Status (1)

Country Link
CN (1) CN108334611B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109905289A (zh) * 2019-01-23 2019-06-18 中国人民解放军军事科学院系统工程研究院 一种网络服务可信属性动态预测方法
CN109918616A (zh) * 2019-01-23 2019-06-21 中国人民解放军军事科学院系统工程研究院 一种基于语义索引精度增强的可视媒体处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521368A (zh) * 2011-12-16 2012-06-27 武汉科技大学 基于相似度矩阵迭代的跨媒体语义理解和优化方法
CN103548015A (zh) * 2011-03-28 2014-01-29 新加坡科技研究局 索引用于文件检索的文件的方法、装置及计算机可读媒介
US9158847B1 (en) * 2011-07-19 2015-10-13 Kyndi Inc. Cognitive memory encoding networks for fast semantic indexing storage and retrieval
CN105787045A (zh) * 2016-02-26 2016-07-20 清华大学 一种用于可视媒体语义索引的精度增强方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103548015A (zh) * 2011-03-28 2014-01-29 新加坡科技研究局 索引用于文件检索的文件的方法、装置及计算机可读媒介
US9158847B1 (en) * 2011-07-19 2015-10-13 Kyndi Inc. Cognitive memory encoding networks for fast semantic indexing storage and retrieval
CN102521368A (zh) * 2011-12-16 2012-06-27 武汉科技大学 基于相似度矩阵迭代的跨媒体语义理解和优化方法
CN105787045A (zh) * 2016-02-26 2016-07-20 清华大学 一种用于可视媒体语义索引的精度增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PENG WANG等: "Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification", 《NEUROCOMPUTING》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109905289A (zh) * 2019-01-23 2019-06-18 中国人民解放军军事科学院系统工程研究院 一种网络服务可信属性动态预测方法
CN109918616A (zh) * 2019-01-23 2019-06-21 中国人民解放军军事科学院系统工程研究院 一种基于语义索引精度增强的可视媒体处理方法
CN109905289B (zh) * 2019-01-23 2019-12-06 中国人民解放军32801部队 一种网络服务可信属性动态预测方法
CN109918616B (zh) * 2019-01-23 2020-01-31 中国人民解放军32801部队 一种基于语义索引精度增强的可视媒体处理方法

Also Published As

Publication number Publication date
CN108334611B (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
Dudhane et al. C^ 2msnet: A novel approach for single image haze removal
Perez et al. Poverty prediction with public landsat 7 satellite imagery and machine learning
Li et al. Using user generated online photos to estimate and monitor air pollution in major cities
CN107301624B (zh) 基于区域划分及浓雾预处理的卷积神经网络去雾方法
CN103745454B (zh) 一种基于排序学习的图像处理算法或系统的评价方法
CN109117774B (zh) 一种基于稀疏编码的多视角视频异常检测方法
CN110827265B (zh) 基于深度学习的图片异常检测方法
US20080212889A1 (en) Method for reducing image noise
CN108961230A (zh) 结构表面裂缝特征的识别与提取方法
CN110853074A (zh) 一种利用光流增强目标的视频目标检测网络系统
CN107529071B (zh) 一种视频数据处理方法以及装置
CN108334611A (zh) 基于非负张量分解的时序可视媒体语义索引精度增强方法
CN111833347A (zh) 一种输电线路防振锤缺陷检测方法及相关装置
Han et al. Local patchwise minimal and maximal values prior for single optical remote sensing image dehazing
CN111950457A (zh) 油田安全生产图像识别方法及系统
CN116958889A (zh) 一种基于伪标签的半监督小样本目标检测方法
CN114399630A (zh) 基于信念攻击和显著区域扰动限制的对抗样本生成方法
Pazhani et al. A novel haze removal computing architecture for remote sensing images using multi-scale Retinex technique
CN114332559A (zh) 一种基于自适应跨模态融合机制和深度注意力网络的rgb-d显著性目标检测方法
CN110490170B (zh) 一种人脸候选框提取方法
CN117116096A (zh) 基于多通道交通图像与深度cnn的机场延误预测方法及系统
CN115830514B (zh) 一种适用于带弯曲河道的全河段表面流速计算方法及系统
CN111340839A (zh) 一种基于分块的视频噪声估计方法
CN115331152B (zh) 一种消防识别方法和系统
Hung et al. Moran’s I for impulse noise detection and removal in color images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant