CN117350926B - 一种基于目标权重的多模态数据增强方法 - Google Patents
一种基于目标权重的多模态数据增强方法 Download PDFInfo
- Publication number
- CN117350926B CN117350926B CN202311642069.XA CN202311642069A CN117350926B CN 117350926 B CN117350926 B CN 117350926B CN 202311642069 A CN202311642069 A CN 202311642069A CN 117350926 B CN117350926 B CN 117350926B
- Authority
- CN
- China
- Prior art keywords
- fused
- image
- target
- images
- weight matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 238000002372 labelling Methods 0.000 claims abstract description 5
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 230000014509 gene expression Effects 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 13
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于目标权重的多模态数据增强方法,首先随机获取多对待融合图文对和对应的目标标注文件;将多对待融合图文对中的图像均缩放到统一尺寸,并同步调整对应目标标注文件中各目标的位置信息;遍历每张图像中的目标,每个目标生成一个对应的距离加权权重矩阵,然后根据每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化后,根据归一化后的权重矩阵进行图像融合,形成融合图像;最后将多对待融合图文对中的文本进行多种组合排序,得到多个融合文本,将每个融合文本均与融合图像进行组合,从而形成多对融合图文对。本发明具有不破坏多模态数据语义关系、数据多样性强、方法简单易用等优点。
Description
技术领域
本发明涉及视觉语言技术领域,具体是一种基于目标权重的多模态数据增强方法。
背景技术
深度学习作为一种机器学习方法,使用神经网络模型来从数据中提取特征并做出决策。深度学习的主要特点之一是它对大规模数据的需求,通常需要大量标记的数据来进行有效的训练。在实际数据采集时,往往很难覆盖所有场景;同时,大量的数据采集和标注需要高昂的成本。针对这一问题,数据增强的概念被提出,数据增强是一种用于增加训练数据数量和多样性的技术。它的基本思想是通过对原始数据进行一系列变换和扩展,生成新的训练样本,从而帮助模型更好地泛化到未见过的数据。数据增强技术通常应用于计算机视觉任务,如图像分类和目标检测,以及自然语言处理任务,如文本分类和情感分析。常见数据增强操作包括随机旋转、翻转和缩放图像,添加噪声或扭曲,随机剪裁/拼接图像;对文本数据进行同义词替换、删除或添加单词等。
多模态数据包含图像、文本等类型的数据,广泛应用在视觉定位(VisualGrounding)、图像描述生成(Image Captioning)、视觉问答(Visual Question Answering,VQA)、图像-文本匹配(Image-Text Matching)、跨模态生成(Cross-Modal Generation)等任务中。然而在多模态数据之间存在一定的关联性,在图像、文本单模态中使用的数据增强方法往往会破坏多模态数据语义之间的对应性。例如,在视觉定位任务中,文本描述为“左侧的狗”,而如果使用随机翻转数据增强,图像中目标的位置会被变换,导致与文本语义不对应,导致训练数据错误,影响模型性能。针对这一情况,现在可用的数据增强手段较少,一般仅仅进行图像的尺寸变化。论文【MixGen: A New Multi-Modal Data Augmentation】提出了一种“将图像加权求和、文本拼接”的方法,但这种方法在图像融合过程中没有考虑目标区域的特殊性,在一定程度上引入了噪声。
综上所述,现有的多模态数据增强的方法存在数据增强方法较为单一、无法满足模型泛化需求的缺点。
发明内容
本发明要解决的技术问题是提供一种基于目标权重的多模态数据增强方法,具有不破坏多模态数据语义关系、数据多样性强、方法简单易用等优点。
本发明的技术方案为:
一种基于目标权重的多模态数据增强方法,具体包括有以下步骤:
(1)、随机获取多对待融合图文对和与每对图文对对应的目标标注文件;
(2)、将多对待融合图文对中的图像尺寸均缩放到统一尺寸,然后根据每张缩放后的图像对对应目标标注文件中各目标的位置信息进行同步调整;
(3)、遍历每张图像中的目标,每个目标生成一个对应的距离加权权重矩阵,然后根据每张图像中每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化,得到多张待融合图像归一化后的权重矩阵,最后根据归一化后的权重矩阵进行图像融合,形成融合图像;
(4)、将多对待融合图文对中的文本进行多种组合排序,得到多个融合文本,将每个融合文本均与融合图像进行组合,从而形成多对融合图文对。
所述的目标标注文件包括有对应图像中所有目标的位置信息,具体包括有目标边界的形状、目标边界像素点的坐标信息、目标的尺寸信息和倾斜角度信息。
所述的图像尺寸的缩放方法选用最近邻插值法、双线性插值法或双三次插值法。
所述的每个目标生成一个对应的距离加权权重矩阵;具体见下式(1)和式(2):
(1),
(2);
式(1)和式(2)中,为图像的尺寸;/>代表目标/>在图像中覆盖的区域;代表图像/>中第i行第j列的像素;/>为超参数,取值为不小于1的浮点数;/>为不小于1的正整数,距离目标越近的像素点,其/>取值越小。
所述的的取值方法为:以目标的边界开始顺次向外膨胀,将与边界处像素点紧邻的目标区域外像素点记为/>,像素点/>对应的/>为1,与像素点/>紧邻的目标区域外像素点记为/>,像素点/>对应的/>为2,依次类推,与/>紧邻的目标区域外像素点记为/>,像素点/>对应的/>为/>。
所述的根据每张图像中每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化,得到多张待融合图像归一化后的权重矩阵,权重矩阵归一化的公式见下式(3):
(3);
式(3)中,为多张待融合图像归一化后的权重矩阵,/>为每张图像中目标的个数,/>为待融合图像的图像个数。
所述的根据归一化后的权重矩阵进行图像融合,计算公式见下式(4):
(4);
式(4)中,为融合后的融合图像,/>为每张待融合图像。
所述的将多对待融合图文对中的文本进行多种组合排序,得到多个融合文本的具体方式为:将多个待融合文本均作为第一段表述,然后针对每个第一段表述,除了第一段表述外的其它待融合文本作为后几段表述并随机排列于第一段表述后面,相邻段表述之间采用分隔符号分隔开,从而组成一个融合文本,即针对多个第一段表述,最后形成了多个融合文本。
本发明的优点:
(1)、本发明采用基于目标的距离加权权重矩阵进行图像融合,在不破坏多模态数据语义关系的同时,减少图像融合过程中与目标无关的噪声,增强了图像融合的质量。
(2)、本发明的文本融合将多个待融合文本采用随机组合排序的方式生成多个融合文本,在增加文本描述多样性的同时,保证融合后文本描述的差异性。
综上所述,本发明具有不破坏视语多模态数据语义关系、数据多样性强、方法简单易用等优点。
附图说明
图1是本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
见图1,一种基于目标权重的多模态数据增强方法,具体包括有以下步骤:
(1)、随机获取对待融合图文对和与每对图文对对应的目标标注文件;图文对记为/>,其中/>;/>为图文对中的每张待融合图像,/>为图文对中的每个待融合文本;目标标注文件的格式为txt、xml或json等,目标标注文件包括有对应图像中所有目标的位置信息,具体包括有目标边界的形状(如矩形框、多边形等)、目标边界像素点的坐标信息(如左上角坐标、右下角坐标、中心点坐标、多边形框多点坐标)、目标的尺寸信息(长宽)和倾斜角度信息等;
(2)、将多对待融合图文对中的图像尺寸采用最近邻插值法、双线性插值法或双三次插值法缩放到统一尺寸,然后根据每张缩放后的图像对对应目标标注文件中各目标的位置信息进行同步调整;经缩放后的图像尺寸为,其中,/>代表图像宽度(横轴方向),代表图像的高度(纵轴方向);
(3)、遍历每张图像中的目标,每个目标生成一个对应的距离加权权重矩阵;具体见下式(1)和式(2):
(1),
(2);
式(1)和式(2)中,代表目标/>在图像中覆盖的区域;/>代表图像/>中第i行第j列的像素;/>为超参数,取值为不小于1的浮点数;/>为不小于1的正整数,距离目标越近的像素点,其/>取值越小;/>的取值方法为:以目标的边界开始顺次向外膨胀,将与边界处像素点紧邻的目标区域外像素点记为/>,像素点/>对应的/>为1,与像素点/>紧邻的目标区域外像素点记为/>,像素点/>对应的/>为2,依次类推,与/>紧邻的目标区域外像素点记为/>,像素点/>对应的/>为/>;
然后根据每张图像中每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化,得到多张待融合图像归一化后的权重矩阵,权重矩阵归一化的公式见下式(3):
(3);
式(3)中,为多张待融合图像归一化后的权重矩阵,/>为每张图像中目标的个数,/>为待融合图像的图像个数;
最后根据归一化后的权重矩阵进行图像融合,形成融合图像;其中,图像融合的计算公式见下式(4):
(4);
式(4)中,为融合后的融合图像,/>为每张待融合图像;
(4)、将个待融合文本/> (/>)均作为第一段表述,然后针对每个第一段表述,除了第一段表述外的其它/>个待融合文本作为后/>段表述并随机排列于第一段表述后面,相邻段表述之间采用句号分隔开,从而组成一个融合文本,即针对/>个第一段表述,最后形成了/>个融合文本,最后将每个融合文本均与融合图像进行组合,从而形成/>对融合图文对,即完成多模态数据增强。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种基于目标权重的多模态数据增强方法,其特征在于:具体包括有以下步骤:
(1)、随机获取多对待融合图文对和与每对图文对对应的目标标注文件;
(2)、将多对待融合图文对中的图像尺寸均缩放到统一尺寸,然后根据每张缩放后的图像对对应目标标注文件中各目标的位置信息进行同步调整;
(3)、遍历每张图像中的目标,每个目标生成一个对应的距离加权权重矩阵,然后根据每张图像中每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化,得到多张待融合图像归一化后的权重矩阵,最后根据归一化后的权重矩阵进行图像融合,形成融合图像;
每个目标生成一个对应的距离加权权重矩阵;具体见下式(1)和式(2):
(1),
(2);
式(1)和式(2)中,为图像的尺寸;/>代表目标/>在图像中覆盖的区域;代表图像/>中第i行第j列的像素;/>为超参数,取值为不小于1的浮点数;/>为不小于1的正整数,距离目标越近的像素点,其/>取值越小;
的取值方法为:以目标的边界开始顺次向外膨胀,将与边界处像素点紧邻的目标区域外像素点记为/>,像素点/>对应的/>为1,与像素点/>紧邻的目标区域外像素点记为/>,像素点/>对应的/>为2,依次类推,与/>紧邻的目标区域外像素点记为/>,像素点/>对应的/>为/>;
根据每张图像中每个目标的距离加权权重矩阵对多张待融合图像进行权重矩阵的归一化,得到多张待融合图像归一化后的权重矩阵,权重矩阵归一化的公式见下式(3):
(3);
式(3)中,为多张待融合图像归一化后的权重矩阵,/>为每张图像中目标的个数,/>为待融合图像的图像个数;
根据归一化后的权重矩阵进行图像融合,计算公式见下式(4):
(4);
式(4)中,为融合后的融合图像,/>为每张待融合图像;
(4)、将多对待融合图文对中的文本进行多种组合排序,得到多个融合文本,将每个融合文本均与融合图像进行组合,从而形成多对融合图文对。
2.根据权利要求1所述的一种基于目标权重的多模态数据增强方法,其特征在于:所述的目标标注文件包括有对应图像中所有目标的位置信息,具体包括有目标边界的形状、目标边界像素点的坐标信息、目标的尺寸信息和倾斜角度信息。
3.根据权利要求1所述的一种基于目标权重的多模态数据增强方法,其特征在于:所述的图像尺寸的缩放方法选用最近邻插值法、双线性插值法或双三次插值法。
4.根据权利要求1所述的一种基于目标权重的多模态数据增强方法,其特征在于:所述的将多对待融合图文对中的文本进行多种组合排序,得到多个融合文本的具体方式为:将多个待融合文本均作为第一段表述,然后针对每个第一段表述,除了第一段表述外的其它待融合文本作为后几段表述并随机排列于第一段表述后面,相邻段表述之间采用分隔符号分隔开,从而组成一个融合文本,即针对多个第一段表述,最后形成了多个融合文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311642069.XA CN117350926B (zh) | 2023-12-04 | 2023-12-04 | 一种基于目标权重的多模态数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311642069.XA CN117350926B (zh) | 2023-12-04 | 2023-12-04 | 一种基于目标权重的多模态数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117350926A CN117350926A (zh) | 2024-01-05 |
CN117350926B true CN117350926B (zh) | 2024-02-13 |
Family
ID=89371381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311642069.XA Active CN117350926B (zh) | 2023-12-04 | 2023-12-04 | 一种基于目标权重的多模态数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117350926B (zh) |
Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182950A (zh) * | 2013-05-22 | 2014-12-03 | 浙江大华技术股份有限公司 | 一种图像处理方法及其装置 |
CN106503683A (zh) * | 2016-10-28 | 2017-03-15 | 武汉大学 | 一种基于动态注意中心的视频显著目标检测方法 |
CN107680107A (zh) * | 2017-10-30 | 2018-02-09 | 西北工业大学 | 一种基于多图谱的扩散张量磁共振图像的自动分割方法 |
CN110110675A (zh) * | 2019-05-13 | 2019-08-09 | 电子科技大学 | 一种融合边缘信息的小波域分形红外卷云检测方法 |
CN111179199A (zh) * | 2019-12-31 | 2020-05-19 | 展讯通信(上海)有限公司 | 图像处理方法、装置及可读存储介质 |
CN111311492A (zh) * | 2020-02-04 | 2020-06-19 | 西安电子科技大学 | 一种裂缝图像拼接方法 |
CN111462030A (zh) * | 2020-03-27 | 2020-07-28 | 高小翎 | 多图像融合的立体布景视觉新角度构建绘制方法 |
CN112365404A (zh) * | 2020-11-23 | 2021-02-12 | 成都唐源电气股份有限公司 | 一种基于多相机的接触网全景图像拼接方法、系统及设备 |
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN112884795A (zh) * | 2019-11-29 | 2021-06-01 | 国网江苏省电力有限公司盐城供电分公司 | 一种基于多特征显著性融合的输电线路巡检前景与背景分割方法 |
CN113570530A (zh) * | 2021-06-10 | 2021-10-29 | 北京旷视科技有限公司 | 图像融合方法、装置、计算机可读存储介质和电子设备 |
US11189017B1 (en) * | 2018-09-11 | 2021-11-30 | Apple Inc. | Generalized fusion techniques based on minimizing variance and asymmetric distance measures |
CN113762409A (zh) * | 2021-09-17 | 2021-12-07 | 北京航空航天大学 | 一种基于事件相机的无人机目标检测方法 |
WO2021244079A1 (zh) * | 2020-06-02 | 2021-12-09 | 苏州科技大学 | 智能家居环境中图像目标检测方法 |
CN113781375A (zh) * | 2021-09-10 | 2021-12-10 | 厦门大学 | 一种基于多曝光融合的车载视觉增强方法 |
CN114095700A (zh) * | 2021-11-08 | 2022-02-25 | 北京航空航天大学合肥创新研究院(北京航空航天大学合肥研究生院) | 一种全景红外视觉地面震动监测方法 |
CN114241372A (zh) * | 2021-12-09 | 2022-03-25 | 江苏和正特种装备有限公司 | 一种应用于扇扫拼接的目标识别方法 |
CN114549969A (zh) * | 2022-01-12 | 2022-05-27 | 中国地质大学(武汉) | 一种基于图像信息融合的显著性检测方法和系统 |
WO2022155899A1 (zh) * | 2021-01-22 | 2022-07-28 | 深圳市大疆创新科技有限公司 | 目标检测方法、装置、可移动平台和存储介质 |
CN115546595A (zh) * | 2022-09-30 | 2022-12-30 | 山东大学 | 基于激光雷达和摄像头融合感知的轨迹追踪方法及系统 |
WO2023024441A1 (zh) * | 2021-08-25 | 2023-03-02 | 上海商汤智能科技有限公司 | 模型重建方法及相关装置、电子设备和存储介质 |
WO2023098524A1 (zh) * | 2021-12-02 | 2023-06-08 | 天津御锦人工智能医疗科技有限公司 | 多模态医学数据融合的评估方法、装置、设备及存储介质 |
CN116577796A (zh) * | 2022-11-17 | 2023-08-11 | 昆易电子科技(上海)有限公司 | 对齐参数的验证方法、装置、存储介质及电子设备 |
CN117132513A (zh) * | 2022-05-19 | 2023-11-28 | 上海联影医疗科技股份有限公司 | 医学图像处理方法、装置和设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7835594B2 (en) * | 2006-12-01 | 2010-11-16 | Harris Corporation | Structured smoothing for superresolution of multispectral imagery based on registered panchromatic image |
CN107146199B (zh) * | 2017-05-02 | 2020-01-17 | 厦门美图之家科技有限公司 | 一种人脸图像的融合方法、装置及计算设备 |
CN111260597B (zh) * | 2020-01-10 | 2021-12-03 | 大连理工大学 | 一种多波段立体相机的视差图像融合方法 |
-
2023
- 2023-12-04 CN CN202311642069.XA patent/CN117350926B/zh active Active
Patent Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182950A (zh) * | 2013-05-22 | 2014-12-03 | 浙江大华技术股份有限公司 | 一种图像处理方法及其装置 |
CN106503683A (zh) * | 2016-10-28 | 2017-03-15 | 武汉大学 | 一种基于动态注意中心的视频显著目标检测方法 |
CN107680107A (zh) * | 2017-10-30 | 2018-02-09 | 西北工业大学 | 一种基于多图谱的扩散张量磁共振图像的自动分割方法 |
US11189017B1 (en) * | 2018-09-11 | 2021-11-30 | Apple Inc. | Generalized fusion techniques based on minimizing variance and asymmetric distance measures |
CN110110675A (zh) * | 2019-05-13 | 2019-08-09 | 电子科技大学 | 一种融合边缘信息的小波域分形红外卷云检测方法 |
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN112884795A (zh) * | 2019-11-29 | 2021-06-01 | 国网江苏省电力有限公司盐城供电分公司 | 一种基于多特征显著性融合的输电线路巡检前景与背景分割方法 |
CN111179199A (zh) * | 2019-12-31 | 2020-05-19 | 展讯通信(上海)有限公司 | 图像处理方法、装置及可读存储介质 |
CN111311492A (zh) * | 2020-02-04 | 2020-06-19 | 西安电子科技大学 | 一种裂缝图像拼接方法 |
CN111462030A (zh) * | 2020-03-27 | 2020-07-28 | 高小翎 | 多图像融合的立体布景视觉新角度构建绘制方法 |
WO2021244079A1 (zh) * | 2020-06-02 | 2021-12-09 | 苏州科技大学 | 智能家居环境中图像目标检测方法 |
CN112365404A (zh) * | 2020-11-23 | 2021-02-12 | 成都唐源电气股份有限公司 | 一种基于多相机的接触网全景图像拼接方法、系统及设备 |
WO2022155899A1 (zh) * | 2021-01-22 | 2022-07-28 | 深圳市大疆创新科技有限公司 | 目标检测方法、装置、可移动平台和存储介质 |
CN113570530A (zh) * | 2021-06-10 | 2021-10-29 | 北京旷视科技有限公司 | 图像融合方法、装置、计算机可读存储介质和电子设备 |
WO2023024441A1 (zh) * | 2021-08-25 | 2023-03-02 | 上海商汤智能科技有限公司 | 模型重建方法及相关装置、电子设备和存储介质 |
CN113781375A (zh) * | 2021-09-10 | 2021-12-10 | 厦门大学 | 一种基于多曝光融合的车载视觉增强方法 |
CN113762409A (zh) * | 2021-09-17 | 2021-12-07 | 北京航空航天大学 | 一种基于事件相机的无人机目标检测方法 |
CN114095700A (zh) * | 2021-11-08 | 2022-02-25 | 北京航空航天大学合肥创新研究院(北京航空航天大学合肥研究生院) | 一种全景红外视觉地面震动监测方法 |
WO2023098524A1 (zh) * | 2021-12-02 | 2023-06-08 | 天津御锦人工智能医疗科技有限公司 | 多模态医学数据融合的评估方法、装置、设备及存储介质 |
CN114241372A (zh) * | 2021-12-09 | 2022-03-25 | 江苏和正特种装备有限公司 | 一种应用于扇扫拼接的目标识别方法 |
CN114549969A (zh) * | 2022-01-12 | 2022-05-27 | 中国地质大学(武汉) | 一种基于图像信息融合的显著性检测方法和系统 |
CN117132513A (zh) * | 2022-05-19 | 2023-11-28 | 上海联影医疗科技股份有限公司 | 医学图像处理方法、装置和设备 |
CN115546595A (zh) * | 2022-09-30 | 2022-12-30 | 山东大学 | 基于激光雷达和摄像头融合感知的轨迹追踪方法及系统 |
CN116577796A (zh) * | 2022-11-17 | 2023-08-11 | 昆易电子科技(上海)有限公司 | 对齐参数的验证方法、装置、存储介质及电子设备 |
Non-Patent Citations (5)
Title |
---|
Distance-Weighted Regional Energy and Structure Tensor in NSCT Domain;Ming Lv 等;《Sensors (Basel)》;第23卷(第10期) * |
加权KNN的图文数据融合分类;康丽萍;孙显;许光銮;;中国图象图形学报;20160716(第07期);第24-34页 * |
基于显著性权重融合的图像拼接算法;朱凌云;郑志天;;电子制作(第24期);第51-52页 * |
基于融合距离的极化SAR图像非局部均值滤波;曾顶 等;《系统工程与电子技术》;第1-14页 * |
朱凌云 ; 郑志天 ; .基于显著性权重融合的图像拼接算法.电子制作.2019,(第24期),第51-52页. * |
Also Published As
Publication number | Publication date |
---|---|
CN117350926A (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN111414906B (zh) | 纸质票据图片的数据合成与文本识别方法 | |
CN110796143A (zh) | 一种基于人机协同的场景文本识别方法 | |
CN102737240B (zh) | 分析数字文档图像的方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN116342601B (zh) | 基于边缘引导和多层级搜索的图像篡改检测方法 | |
CN113592735A (zh) | 文本页面图像还原方法及系统、电子设备和计算机可读介质 | |
CN111127417A (zh) | 一种基于sift特征匹配和改进的ssd算法的软包装卷料印刷缺陷检测方法 | |
CN114677596A (zh) | 一种基于注意力模型的遥感图像船舶检测方法和装置 | |
Liu et al. | Asflow: Unsupervised optical flow learning with adaptive pyramid sampling | |
CN116597466A (zh) | 一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统 | |
CN116912604B (zh) | 模型训练方法、图像识别方法、装置以及计算机存储介质 | |
CN103927533B (zh) | 一种针对早期专利文档扫描件中图文信息的智能处理方法 | |
CN117350926B (zh) | 一种基于目标权重的多模态数据增强方法 | |
CN111144469B (zh) | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 | |
CN116977624A (zh) | 一种基于YOLOv7模型的目标识别方法、系统、电子设备及介质 | |
CN116468083A (zh) | 一种基于Transformer的生成对抗网络方法 | |
AU2021203867B2 (en) | Image identification methods and apparatuses, image generation methods and apparatuses, and neural network training methods and apparatuses | |
CN114241486A (zh) | 一种提高识别试卷学生信息准确率的方法 | |
CN102938156B (zh) | 一种基于积分图像的面状注记配置方法 | |
Stötzner et al. | CNN based Cuneiform Sign Detection Learned from Annotated 3D Renderings and Mapped Photographs with Illumination Augmentation | |
CN114926858B (zh) | 一种基于特征点信息的深度学习的猪脸识别方法 | |
CN116777905B (zh) | 基于长尾分布数据的智能工业旋转检测方法及系统 | |
CN113159020B (zh) | 基于核尺度扩张的文本检测方法 | |
CN113609918B (zh) | 一种基于零次学习的短视频分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |