CN108334611B - 基于非负张量分解的时序可视媒体语义索引精度增强方法 - Google Patents
基于非负张量分解的时序可视媒体语义索引精度增强方法 Download PDFInfo
- Publication number
- CN108334611B CN108334611B CN201810121031.0A CN201810121031A CN108334611B CN 108334611 B CN108334611 B CN 108334611B CN 201810121031 A CN201810121031 A CN 201810121031A CN 108334611 B CN108334611 B CN 108334611B
- Authority
- CN
- China
- Prior art keywords
- tensor
- equal
- detection confidence
- visual media
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 19
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 238000001514 detection method Methods 0.000 claims description 62
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于非负张量分解的时序可视媒体语义索引精度增强方法,属于视觉媒体处理技术领域。首先,对时序可视媒体中包含的物体和场景进行语义索引,构建置信度张量,通过阈值判断筛选出部分元素,应用加权非负张量分解的方法对筛选后的张量进行重新估计,完成精度增强。本发明的优点是利用时序语义关系,增强了时序可视媒体语义索引的准确率。本方法不依赖于大量标注数据集和知识库,具有很强的灵活性和适应性。采用加权非负张量分解,提高了方法的灵活性和效果。算法的计算复杂度低,可扩展性强,适合于实际工业应用。
Description
技术领域
本发明涉及一种基于非负张量分解的时序可视媒体语义索引精度增强方法,属于视觉媒体处理技术领域。
背景技术
可视媒体语义索引的精度增强是利用概念相关性对索引结果进行进一步改善的关键技术。这种索引增强技术的作用是给出可视媒体进行概念探测的结果,对概念探测的结果应用概念的量化关系进行调整和改善,以达到对大量可视媒体有效索引的目的。发明名称为“一种用于可视媒体语义索引的精度增强方法”(申请号:201610108055.3)的专利申请公开了一种全局增强和局部增强相结合的方式,对可视媒体语义索引的结果进行改善。但是在全局增强过程中,该专利申请采用的加权矩阵分解的方法,无法更好地利用时序可视媒体中语义概念出现的时间特征,故在时序可视媒体语义索引精度增强的过程中还存在改善的空间。尤其随着图像流、视频等时序可视媒体体量的快速增长,对时序可视媒体如可穿戴视觉采集设备记录的连续图像流或者视频的有效索引具有很高的应用价值。
对时序可视媒体语义索引的精度增强方法同样需要满足如下要求:1)对语义概念索引的灵活性;2)对不同数量和质量的标注数据的适应性;3)对大规模样本数据的扩展性。在时序可视媒体语义索引增强的过程中,应该尽量保证上述三点,这样才能保证增强方法在视觉大数据上的灵活应用,从而达到预期的效果。
发明内容
本发明的目的是提出一种基于非负张量分解的时序可视媒体语义索引精度增强方法,以应对当前单类概念探测器造成的概念探测精度低及不均衡的问题,既可应对普通的索引精度增强任务,也可处理由于外部知识或标注数据不足造成的概念相关性构建缺陷,并且可以用于为不同应用域中的语义索引结果进行精度增强。
本发明提出的的基于非负张量分解的时序可视媒体语义索引精度增强方法,包括以下步骤:
(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引,得到时序可视媒体语义索引的初始探测置信度值,根据所有初始探测置信度值得到一个张量T(Tijk)N×M×L,其中,L表示时序可视媒体按固定时间间隔切分成段的分段总数量,N表示每个时间间隔中所包含的连续图片的数量,M表示时序可视媒体中的概念的个数,张量T中的每个元素Tijk表示在第k个时间间隔中第i个图片对第j个概念的探测置信度值,1≤k≤L;
(2)设定一个探测置信度阈值,分别将上述张量T中的初始探测置信度值即每个元素Tijk与设定的探测置信度阈值进行比较,若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值,则保留初始探测置信度值,若张量T中的初始探测置信度值小于设定的探测置信度阈值,则将初始探测置信度值更新为0,并将更新后的张量记为T”,将张量T”中的每个元素记为T”ijk,其中,1≤i≤N,1≤j≤M,1≤k≤L;
(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解,得到精度增强后的时序可视媒体语义索引,记为张量T',具体包括以下步骤:
(3-2)构建一个权重张量W,W=(Wijk)N×M×L,其中wijk∈[0,1],1≤i≤N,1≤j≤M,1≤k≤L,根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量T中的初始探测置信度值,对权重张量W中的各元素wijk进行赋值,若上述步骤(1)张量T中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值(0.5,1.0],若上述步骤(1)张量T中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值[0,0.5];
以U(1)的迭代优化过程为例:
其中,α的取值范围为(0,1),T'即为精度增强后的时序可视媒体语义索引。
本发明提出的基于非负张量分解的时序可视媒体语义索引精度增强方法,其优点是:
1、本发明提出的基于非负张量分解的时序可视媒体语义索引精度增强方法中,充分使用概念的时间相关性如同时出现和重复出现规律等,对精度较低的概念探测结果进行修正,从而增强了视觉媒体语义索引的准确率。由于本方法不依赖于大量语义标注数据集和知识库,方法直接应用于概念探测的结果,具有很强的灵活性和适应性。
2、本发明方法对时序可视媒体在时间维度上采用了时间分段的组织方式,可以充分保留时序可视媒体在单个时间分段中语义的强相关性,尤其对于事件记录等具有强时间关联特征的可视媒体进行索引,具有更好的精度增强效果。
3、本发明方法对时序可视媒体的典型应用领域具有很好的适应性,如各种视频的语义索引。另外,随着可穿戴视觉感知设备的不断普及如谷歌眼镜、微软的SenseCam等,对穿戴者行为记录的视频或者连续的图像流的语义索引均可以采用本发明的方法进行精度增强。
具体实施方式
本发明提出的的基于非负张量分解的时序可视媒体语义索引精度增强方法,包括以下步骤:
(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引,得到时序可视媒体语义索引的初始探测置信度值,根据所有初始探测置信度值得到一个张量T(Tijk)N×M×L,其中,L表示时序可视媒体按固定时间间隔切分成段的分段总数量,N表示每个时间间隔中所包含的连续图片的数量,M表示时序可视媒体中的概念(即物体或场景)的个数,张量T中的每个元素Tijk表示在第k个时间间隔中第i个图片对第j个概念(即物体或场景)的探测置信度值,1≤k≤L;
(2)设定一个探测置信度阈值,分别将上述张量T中的初始探测置信度值即每个元素Tijk与设定的探测置信度阈值进行比较,若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值,则保留初始探测置信度值,若张量T中的初始探测置信度值小于设定的探测置信度阈值,则将初始探测置信度值更新为0,并将更新后的张量记为T”,将张量T”中的每个元素记为T”ijk,其中,1≤i≤N,1≤j≤M,1≤k≤L;
(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解,得到精度增强后的时序可视媒体语义索引,记为张量T',具体包括以下步骤:
(3-2)构建一个权重张量W,W=(Wijk)N×M×L,其中wijk∈[0,1],1≤i≤N,1≤j≤M,1≤k≤L,根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量T中的初始探测置信度值,对权重张量W中的各元素wijk进行赋值,若上述步骤(1)张量T中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值(0.5,1.0],若上述步骤(1)张量T中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值[0,0.5];
以U(1)的迭代优化过程为例:
其中,α的取值范围为(0,1),T'即为精度增强后的时序可视媒体语义索引。
Claims (1)
1.一种基于非负张量分解的时序可视媒体语义索引精度增强方法,其特征在于该方法包括以下步骤:
(1)分别对初始时序可视媒体中包含的物体和场景进行语义索引,得到时序可视媒体语义索引的初始探测置信度值,根据所有初始探测置信度值得到一个张量T(Tijk)N×M×L,其中,L表示时序可视媒体按固定时间间隔切分成段的分段总数量,N表示每个时间间隔中所包含的连续图片的数量,M表示时序可视媒体中的概念的个数,张量T中的每个元素Tijk表示在第k个时间间隔中第i个图片对第j个概念的探测置信度值,1≤k≤L;
(2)设定一个探测置信度阈值,分别将上述张量T中的初始探测置信度值即每个元素Tijk与设定的探测置信度阈值进行比较,若张量T中的初始探测置信度值大于或等于设定的探测置信度阈值,则保留初始探测置信度值,若张量T中的初始探测置信度值小于设定的探测置信度阈值,则将初始探测置信度值更新为0,并将更新后的张量记为T”,将张量T”中的每个元素记为T”ijk,其中,1≤i≤N,1≤j≤M,1≤k≤L;
(3)采用加权非负张量分解方法对上述更新后的张量T”进行加权非负张量分解,得到精度增强后的时序可视媒体语义索引,记为张量T',具体包括以下步骤:
(3-2)构建一个权重张量W,W=(wijk)N×M×L,其中wijk∈[0,1],1≤i≤N,1≤j≤M,1≤k≤L,根据上述步骤(2)设定的探测置信度阈值和上述步骤(1)的张量T中的初始探测置信度值,对权重张量W中的各元素wijk进行赋值,若上述步骤(1)张量T中的初始探测置信度值高于或等于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值(0.5,1.0],若上述步骤(1)张量T中的初始探测置信度值低于上述步骤(2)设定的探测置信度阈值,则权重张量W的元素wijk赋以值[0,0.5];
以U(1)的迭代优化过程为例:
其中,α的取值范围为(0,1),T'即为精度增强后的时序可视媒体语义索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810121031.0A CN108334611B (zh) | 2018-02-07 | 2018-02-07 | 基于非负张量分解的时序可视媒体语义索引精度增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810121031.0A CN108334611B (zh) | 2018-02-07 | 2018-02-07 | 基于非负张量分解的时序可视媒体语义索引精度增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108334611A CN108334611A (zh) | 2018-07-27 |
CN108334611B true CN108334611B (zh) | 2020-04-24 |
Family
ID=62927002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810121031.0A Active CN108334611B (zh) | 2018-02-07 | 2018-02-07 | 基于非负张量分解的时序可视媒体语义索引精度增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108334611B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109905289B (zh) * | 2019-01-23 | 2019-12-06 | 中国人民解放军32801部队 | 一种网络服务可信属性动态预测方法 |
CN109918616B (zh) * | 2019-01-23 | 2020-01-31 | 中国人民解放军32801部队 | 一种基于语义索引精度增强的可视媒体处理方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG193995A1 (en) * | 2011-03-28 | 2013-11-29 | Agency Science Tech & Res | A method, an apparatus and a computer-readable medium for indexing a document for document retrieval |
US9158847B1 (en) * | 2011-07-19 | 2015-10-13 | Kyndi Inc. | Cognitive memory encoding networks for fast semantic indexing storage and retrieval |
CN102521368B (zh) * | 2011-12-16 | 2013-08-21 | 武汉科技大学 | 基于相似度矩阵迭代的跨媒体语义理解和优化方法 |
CN105787045B (zh) * | 2016-02-26 | 2019-03-26 | 清华大学 | 一种用于可视媒体语义索引的精度增强方法 |
-
2018
- 2018-02-07 CN CN201810121031.0A patent/CN108334611B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108334611A (zh) | 2018-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814854B (zh) | 一种无监督域适应的目标重识别方法 | |
CN109829443B (zh) | 基于图像增强与3d卷积神经网络的视频行为识别方法 | |
Shelhamer et al. | Clockwork convnets for video semantic segmentation | |
CN111062892B (zh) | 一种基于复合残差网络和深层监督的单幅图像去雨方法 | |
CN108491822B (zh) | 一种基于嵌入式设备有限缓存的人脸检测去重方法 | |
CN110728294A (zh) | 一种基于迁移学习的跨领域图像分类模型构建方法和装置 | |
CN101477633B (zh) | 自动估计图像和视频的视觉显著度的方法 | |
CN103345492A (zh) | 一种视频浓缩的方法和系统 | |
CN113313810A (zh) | 一种透明物体的6d姿态参数计算方法 | |
CN108334611B (zh) | 基于非负张量分解的时序可视媒体语义索引精度增强方法 | |
Asim et al. | A key frame based video summarization using color features | |
CN112926485A (zh) | 一种少样本水闸图像分类方法 | |
CN115527159B (zh) | 一种基于跨模态间尺度注意聚合特征的计数系统及方法 | |
CN114998799B (zh) | 基于全局知识挖掘和前景注意力的交互视频动作检测方法 | |
CN115563342A (zh) | 一种视频主题检索的方法、系统、设备及存储介质 | |
CN116109499A (zh) | 一种基于Transformer的面向记忆的单图片去雨方法 | |
CN116863384A (zh) | 一种基于CNN-Transfomer的自监督视频分割方法和系统 | |
CN113139966B (zh) | 一种基于贝叶斯记忆的层次级联视频目标分割方法 | |
Xu et al. | Accurate and rapid localization of tea bud leaf picking point based on YOLOv8 | |
CN117475134A (zh) | 基于多尺度跨层特征融合网络的伪装目标检测算法 | |
CN117197577A (zh) | 基于对比学习的目标检测模型对抗训练方法 | |
CN117611988A (zh) | 一种面向新增耕地管护属性自动识别监测方法及系统 | |
CN109886996B (zh) | 一种视觉追踪优化方法 | |
Xia et al. | Application of yolov7 and transformer structures to small object (license plate) detection in complex traffic scenes | |
Xiong et al. | TFA-CNN: an efficient method for dealing with crowding and noise problems in crowd counting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |