CN117557871A - 三维模型标注方法、装置、设备及存储介质 - Google Patents

三维模型标注方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117557871A
CN117557871A CN202410043041.2A CN202410043041A CN117557871A CN 117557871 A CN117557871 A CN 117557871A CN 202410043041 A CN202410043041 A CN 202410043041A CN 117557871 A CN117557871 A CN 117557871A
Authority
CN
China
Prior art keywords
dimensional model
dimensional
labeling
atlas
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410043041.2A
Other languages
English (en)
Other versions
CN117557871B (zh
Inventor
李志�
伍琦
李志刚
石博文
陈宇
谭龙
刘孝卫
邱德顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zihai Technology Chengdu Co ltd
Original Assignee
Zihai Technology Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zihai Technology Chengdu Co ltd filed Critical Zihai Technology Chengdu Co ltd
Priority to CN202410043041.2A priority Critical patent/CN117557871B/zh
Publication of CN117557871A publication Critical patent/CN117557871A/zh
Application granted granted Critical
Publication of CN117557871B publication Critical patent/CN117557871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了三维模型标注方法、装置、设备及存储介质,属于三维模型标注技术领域。方法通过将三维模型导入预设的三维渲染引擎,通过预设视角对三维模型进行渲染,获得二维图集;对二维图集进行语义分割,获得分割图像集;利用多个多模态大语言模型对分割图像集进行图像识别,获得多个图集内容;对多个图集内容进行交集运算,并将交集运算的结果标注到三维模型的模型文件中。本申请利用多模态大语言模型来对语义分割后的二维图像进行图像识别处理,极大程度的拓展了识别内容,能够快速得到标注结果,且避免了预先训练的过程,从而降低模型标注的训练成本,无需再次对模型进行识别训练,提高了三维模型标注技术的适应性。

Description

三维模型标注方法、装置、设备及存储介质
技术领域
本发明涉及三维模型标注技术领域,尤其涉及三维模型标注方法、装置、设备及存储介质。
背景技术
随着人工智能的兴起和发展,采用机器学习方法对三维图像或三维模型进行图像处理被广泛应用于多个领域之中,如游戏、影视、三维动画等相关领域。通过模型对三维图像进行标注或特征提取,实现对图像进行分类识别。
目前采用模型对图像分类的方法分为两种,第一种方法基于三维数据的直接标注和分类方法:在这种技术中,三维模型的原始数据,如点云或体素,直接被用于标注和分类。这种方法的优点是能够保留和利用模型的所有三维空间信息。首先,通过数据预处理步骤,将原始三维模型转换为适合机器学习处理的格式。接着,特征提取步骤会用深度学习模型,如PointNet或者VoxNet,从预处理后的数据中提取有用的特征。然后,这些特征被送入分类器进行标注和分类。最后,通过大量的已标注数据来训练和优化分类器。
第二种方法是基于二维图像的标注和分类方法:在这种方法中,三维模型首先被渲染成二维图像集。然后,这些图像被用于标注和分类。首先,通过三维渲染技术,将三维模型转化为一系列二维图像,每个图像从一个特定的角度和距离展示模型。然后,通过使用传统的二维图像处理和深度学习技术,例如卷积神经网络(CNN),对这些图像进行处理和特征提取。接着,这些特征被送入分类器进行标注和分类。最后,通过大量的已标注图像来训练和优化分类器。
以上两种方法都需要有大量的已标注的数据进行大量训练,且训练成本较高,实际操作中难以实现。同时方法在对不同图像类别的识别时均需要再次训练模型,适应性较差。
发明内容
有鉴于此,本发明实施例提供了三维模型标注方法、装置、设备及存储介质,用以解决现有三维模型标注技术训练成本较高,且适应性较差的问题。
本发明采用的技术方案是:
第一方面,本发明提供了一种三维模型标注方法,包括:
将三维模型导入预设的三维渲染引擎,通过预设视角对三维模型进行渲染,获得二维图集;
对所述二维图集进行语义分割,获得分割图像集;
利用多个多模态大语言模型对所述分割图像集进行图像识别,获得多个图集内容;
对多个图集内容进行交集运算,并将交集运算的结果标注到所述三维模型的模型文件中。
进一步地,所述利用多个多模态大语言模型对所述分割图像集进行图像识别,获得多个图集内容,包括:
预先分级构建标签库,形成多个层级标签,每个标签包含多个父类标签或多个子类标签;
多个多模态大语言模型分别利用所述标签库的所有顶层标签,对所述分割图像集进行第一轮标签标注,并将已标注的标签添加到已标注标签列表;
根据第一轮标签标注的结果检索所有子类标签进行下一轮标注,直至所有子类标签完成标注,若子类标签在已标注标签列表中则不再进行标注;
将每个多模态大语言模型的所有标签标注结果作为对应的图集内容。
进一步地,所述多个多模态大语言模型分别利用所述标签库的所有顶层标签,对所述分割图像集进行第一轮标签标注,包括:
通过多个多模态大语言模型分别对所述分割图像集中的三维模型与所述标签库中的顶层标签的相似度进行判断,获得三维模型的标签相似度;
基于预设的模糊度量值范围,根据三维模型的标签相似度确定所述三维模型的置信度,为所述三维模型标注出具有置信度的顶层标签。
第二方面,本发明提供一种三维模型标注装置,包括:
视图渲染模块,用于将三维模型导入预设的三维渲染引擎,通过预设视角对三维模型进行渲染,获得二维图集;
图像语义分割模块,用于对所述二维图集进行语义分割,获得分割图像集;
图像识别模块,用于利用多个多模态大语言模型对所述分割图像集进行图像识别,获得多个图集内容;
信息标注模块,用于对多个图集内容进行交集运算,并将交集运算的结果标注到所述三维模型的模型文件中。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的三维模型标注方法的步骤。
第四方面,一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的三维模型标注方法的步骤。
综上所述,本发明的有益效果如下:
本发明提供的一种三维模型标注方法,通过利用预设的三维渲染引擎来对三维模型进行渲染,得到对应二维图集,能够较低图像背景和其他光影效果对后续三维模型的图像识别干扰,提高模型的识别准确率。同时,利用多模态大语言模型来对语义分割后的二维图像进行图像识别处理,极大程度的拓展了识别内容,能够快速得到标注结果,且避免了预先训练的过程,从而降低模型标注的训练成本。此外,多模态大语言模型能够对不同图像类别的输入图像进行内容识别,无需再次对模型进行识别训练,提高了三维模型标注技术的适应性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,这些均在本发明的保护范围内。
图1为本发明的一种三维模型标注方法流程示意图;
图2为本发明的一种三维模型标注装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。如果不冲突,本发明以及实施例中的各个特征可以相互结合,均在本发明的保护范围之内。
实施例1:
请参见图1,图1为本发明实施例1中一种三维模型标注方法流程示意图,本发明提供的所述方法包括:
S1:将三维模型导入预设的三维渲染引擎,通过预设视角对三维模型进行渲染,获得二维图集。
其中,本发明实施例渲染所使用的三维渲染引擎为现有成熟的引擎,如虚幻引擎、Blender引擎等。在预设视角下,通过三维渲染引擎将三维模型转化为一系列二维图像,形成二维图集。
S2:对所述二维图集进行语义分割,获得分割图像集。其中,本发明实施例在对二维图集进行语义分割时,主要采用开源的算法进行图像语义分割,如FCN算法、U-net算法、Deeplab算法、Mask-RCNN算法等。语义分割描述了将每个像素与类标签相关联的过程。不同类的物体产生不同的语义,而语义分割就是要将这些属于不同类别的像素进行归类,把属于同一类的像素归为一起。
具体的,本发明实施例使用Segment Anything算法进行图像语义分割,将图像切分开,得到分割后的二维图集。Segment Anything算法是一种AI图像分割算法。通过利用现行成熟的图像分割工具对渲染后的二维图像进行语义分割预处理,能够帮助后续模块准确识别模型区域,避免背景及其他光影效果干扰。
S3:利用多个多模态大语言模型对所述分割图像集进行图像识别,获得多个图集内容。
其中,本发明使用的多模态大语言模型来对分割图像集进行图像内容识别标注,如百度文心一言、讯飞星火大语言模型。借助当下多模态大语言模型能够识别图片并准确提取图片要素的特点,进行三维模型的信息标注及分类,极大程度的拓展了识别内容,避免了预先训练的过程,能够快速得到标注结果。多模态大语言模型的核心思想是将不同模态的数据进行融合,从而提供更加丰富、准确的语言输出。它可以通过对多模态数据进行联合训练,学习到不同模态之间的关联关系,从而实现对多模态输入的理解和处理。
S4:对多个图集内容进行交集运算,并将交集运算的结果标注到所述三维模型的模型文件中。
进一步地,在一个实施例中,本发明步骤S3中利用多个多模态大语言模型对所述分割图像集进行图像识别,获得多个图集内容,包括以下子步骤:
S301:预先分级构建标签库,形成多个层级标签,每个标签包含多个父类标签或多个子类标签;
S302:多个多模态大语言模型分别利用所述标签库的所有顶层标签,对所述分割图像集进行第一轮标签标注,并将已标注的标签添加到已标注标签列表;
S303:根据第一轮标签标注的结果检索所有子类标签进行下一轮标注,直至所有子类标签完成标注,若子类标签在已标注标签列表中则不再进行标注;
S304:将每个多模态大语言模型的所有标签标注结果作为对应的图集内容。
具体的,经过反复测试发现,大模型在少数类别差异较大的标签中能正常进行标注,在多个类别且相似度较高的标签中难以分辨并进行正常标注。因此,本发明通过预先构建层级标签库的方式来存储设置多种图像类型标签,且每种类型的标签之间具有一定的关联性,可以提高方法的应用范围,方便后续对图像类别进行标注,提升模型的分类识别准确率。
进一步地,本发明实施例中,上述步骤S302中的多个多模态大语言模型分别利用所述标签库的所有顶层标签,对所述分割图像集进行第一轮标签标注,包括:
通过多个多模态大语言模型分别对所述分割图像集中的三维模型与所述标签库中的顶层标签的相似度进行判断,获得三维模型的标签相似度;
基于预设的模糊度量值范围,根据三维模型的标签相似度确定所述三维模型的置信度,为所述三维模型标注出具有置信度的顶层标签。
具体的,本发明实施例使用模糊度量的方式进行标注,即通过大模型判断一个三维模型符合某个标签的程度,依据不同程度给出对应的置信度,置信度越大说明越符合标签描述,例如:一辆银灰色轿车会标注一个置信度为0.7的白色标签。
通过模糊度量的标注方式能有效提供标注的准确性,其次在使用过程可以通过控制模糊度量值的范围来查找三维模型资产。
本发明实施例通过利用预设的三维渲染引擎来对三维模型进行渲染,得到对应二维图集,能够较低图像背景和其他光影效果对后续三维模型的图像识别干扰,提高模型的识别准确率。同时,利用多模态大语言模型来对语义分割后的二维图像进行图像识别处理,极大程度的拓展了识别内容,能够快速得到标注结果,且避免了预先训练的过程,从而降低模型标注的训练成本。此外,多模态大语言模型能够对不同图像类别的输入图像进行内容识别,无需再次对模型进行识别训练,提高了三维模型标注技术的适应性。
实施例2:
参照图2所示,本发明提供一种三维模型标注装置,包括:
视图渲染模块,用于将三维模型导入预设的三维渲染引擎,通过预设视角对三维模型进行渲染,获得二维图集;
图像语义分割模块,用于对所述二维图集进行语义分割,获得分割图像集;
图像识别模块,用于利用多个多模态大语言模型对所述分割图像集进行图像识别,获得多个图集内容;
信息标注模块,用于对多个图集内容进行交集运算,并将交集运算的结果标注到所述三维模型的模型文件中。
具体的,本发明提供的三维模型标注装置,其通过视图渲染模块将三维模型导入三维渲染引擎(如虚幻、Blender等),使用预设的视角进行模型渲染,得到二维图集。然后调用图像语义分割模块,使用Segment Anything算法进行图像语义分割,将图像切分开,得到分割后的二维图集。并进一步地调用图像识别模块,使用多个多模态大预言模型(如百度文心一言、讯飞星火大语言模型)对分割后的二维图集进行图像的内容识别,得到图集内容。最后通过信息标注模块对多个大语言模型的结果求交集,将最终结果保存为模型信息,并标注到模型文件中,完成三维模型的标注。
进一步地,本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的三维模型标注方法的步骤。
进一步地,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的三维模型标注方法的步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种三维模型标注方法,其特征在于,包括:
将三维模型导入预设的三维渲染引擎,通过预设视角对三维模型进行渲染,获得二维图集;
对所述二维图集进行语义分割,获得分割图像集;
利用多个多模态大语言模型对所述分割图像集进行图像识别,获得多个图集内容;
对多个图集内容进行交集运算,并将交集运算的结果标注到所述三维模型的模型文件中。
2.根据权利要求1所述的三维模型标注方法,其特征在于,所述利用多个多模态大语言模型对所述分割图像集进行图像识别,获得多个图集内容,包括:
预先分级构建标签库,形成多个层级标签,每个标签包含多个父类标签或多个子类标签;
多个多模态大语言模型分别利用所述标签库的所有顶层标签,对所述分割图像集进行第一轮标签标注,并将已标注的标签添加到已标注标签列表;
根据第一轮标签标注的结果检索所有子类标签进行下一轮标注,直至所有子类标签完成标注,若子类标签在已标注标签列表中则不再进行标注;
将每个多模态大语言模型的所有标签标注结果作为对应的图集内容。
3.根据权利要求2所述的三维模型标注方法,其特征在于,所述多个多模态大语言模型分别利用所述标签库的所有顶层标签,对所述分割图像集进行第一轮标签标注,包括:
通过多个多模态大语言模型分别对所述分割图像集中的三维模型与所述标签库中的顶层标签的相似度进行判断,获得三维模型的标签相似度;
基于预设的模糊度量值范围,根据三维模型的标签相似度确定所述三维模型的置信度,为所述三维模型标注出具有置信度的顶层标签。
4.一种三维模型标注装置,其特征在于,包括:
视图渲染模块,用于将三维模型导入预设的三维渲染引擎,通过预设视角对三维模型进行渲染,获得二维图集;
图像语义分割模块,用于对所述二维图集进行语义分割,获得分割图像集;
图像识别模块,用于利用多个多模态大语言模型对所述分割图像集进行图像识别,获得多个图集内容;
信息标注模块,用于对多个图集内容进行交集运算,并将交集运算的结果标注到所述三维模型的模型文件中。
5.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述三维模型标注方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述三维模型标注方法的步骤。
CN202410043041.2A 2024-01-11 2024-01-11 三维模型标注方法、装置、设备及存储介质 Active CN117557871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410043041.2A CN117557871B (zh) 2024-01-11 2024-01-11 三维模型标注方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410043041.2A CN117557871B (zh) 2024-01-11 2024-01-11 三维模型标注方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117557871A true CN117557871A (zh) 2024-02-13
CN117557871B CN117557871B (zh) 2024-03-19

Family

ID=89813309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410043041.2A Active CN117557871B (zh) 2024-01-11 2024-01-11 三维模型标注方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117557871B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080455A1 (en) * 2017-09-12 2019-03-14 Beihang University Method and device for three-dimensional feature-embedded image object component-level semantic segmentation
CN111968240A (zh) * 2020-09-04 2020-11-20 中国科学院自动化研究所 基于主动学习的摄影测量网格的三维语义标注方法
CN112348972A (zh) * 2020-09-22 2021-02-09 陕西土豆数据科技有限公司 一种基于大规模场景三维模型精细语义标注方法
WO2023093217A1 (zh) * 2021-11-23 2023-06-01 上海商汤智能科技有限公司 数据标注方法、装置、计算机设备、存储介质和程序
CN116468860A (zh) * 2023-06-20 2023-07-21 子亥科技(成都)有限公司 一种三维模型文件生成方法、装置、设备及存储介质
WO2023142918A1 (zh) * 2022-01-28 2023-08-03 华为云计算技术有限公司 一种基于预训练大模型的图像处理方法及相关装置
WO2023179038A1 (zh) * 2022-03-24 2023-09-28 华为云计算技术有限公司 数据标注的方法、ai开发平台、计算设备集群和存储介质
US20230326212A1 (en) * 2021-12-09 2023-10-12 Kpmg Llp System and method for implementing a multimodal assistant using large language models
CN117079299A (zh) * 2023-10-12 2023-11-17 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN117292146A (zh) * 2023-10-27 2023-12-26 中科苏州智能计算技术研究院 一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080455A1 (en) * 2017-09-12 2019-03-14 Beihang University Method and device for three-dimensional feature-embedded image object component-level semantic segmentation
CN111968240A (zh) * 2020-09-04 2020-11-20 中国科学院自动化研究所 基于主动学习的摄影测量网格的三维语义标注方法
CN112348972A (zh) * 2020-09-22 2021-02-09 陕西土豆数据科技有限公司 一种基于大规模场景三维模型精细语义标注方法
WO2023093217A1 (zh) * 2021-11-23 2023-06-01 上海商汤智能科技有限公司 数据标注方法、装置、计算机设备、存储介质和程序
US20230326212A1 (en) * 2021-12-09 2023-10-12 Kpmg Llp System and method for implementing a multimodal assistant using large language models
WO2023142918A1 (zh) * 2022-01-28 2023-08-03 华为云计算技术有限公司 一种基于预训练大模型的图像处理方法及相关装置
WO2023179038A1 (zh) * 2022-03-24 2023-09-28 华为云计算技术有限公司 数据标注的方法、ai开发平台、计算设备集群和存储介质
CN116468860A (zh) * 2023-06-20 2023-07-21 子亥科技(成都)有限公司 一种三维模型文件生成方法、装置、设备及存储介质
CN117079299A (zh) * 2023-10-12 2023-11-17 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN117292146A (zh) * 2023-10-27 2023-12-26 中科苏州智能计算技术研究院 一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵什陆等: "深度学习多模态图像语义分割前沿进展", 《中国图像图形学报》, vol. 28, no. 2023, 16 November 2023 (2023-11-16), pages 3320 - 3341 *

Also Published As

Publication number Publication date
CN117557871B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
Dvornik et al. On the importance of visual context for data augmentation in scene understanding
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN113255501B (zh) 生成表格识别模型的方法、设备、介质及程序产品
CN113378815B (zh) 一种场景文本定位识别的系统及其训练和识别的方法
CN111488873A (zh) 一种基于弱监督学习的字符级场景文字检测方法和装置
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN114722822B (zh) 命名实体识别方法、装置、设备和计算机可读存储介质
CN117437647B (zh) 基于深度学习和计算机视觉的甲骨文字检测方法
CN112926700B (zh) 针对目标图像的类别识别方法和装置
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN112084788B (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN117829243A (zh) 模型训练方法、目标检测方法、装置、电子设备及介质
CN116958512A (zh) 目标检测方法、装置、计算机可读介质及电子设备
CN117557871B (zh) 三维模型标注方法、装置、设备及存储介质
CN114842301A (zh) 一种图像注释模型的半监督训练方法
JP2023017759A (ja) セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置
CN113223018A (zh) 细粒度图像分析处理方法
Meena Deshpande License plate detection and recognition using yolo v4
CN116612466B (zh) 基于人工智能的内容识别方法、装置、设备及介质
CN113792703B (zh) 一种基于Co-Attention深度模块化网络的图像问答方法及装置
Lu et al. Complementary pseudolabel based on global-and-channel information for unsupervised person reidentification
CN113850301B (zh) 训练数据的获取方法和装置、模型训练方法和装置
Saeed et al. Deciphering the past: enhancing Assyrian Cuneiform recognition with YOLOv8 object detection
CN117689963B (zh) 一种基于多模态预训练模型的视觉实体链接方法
CN110472728B (zh) 目标信息确定方法、目标信息确定装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant