CN116049367A - 一种基于无监督知识增强的视觉-语言预训练方法及装置 - Google Patents
一种基于无监督知识增强的视觉-语言预训练方法及装置 Download PDFInfo
- Publication number
- CN116049367A CN116049367A CN202310043498.9A CN202310043498A CN116049367A CN 116049367 A CN116049367 A CN 116049367A CN 202310043498 A CN202310043498 A CN 202310043498A CN 116049367 A CN116049367 A CN 116049367A
- Authority
- CN
- China
- Prior art keywords
- training
- data
- knowledge
- module
- vision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及多模态机器学习领域,提供了一种基于无监督知识增强的视觉‑语言预训练方法及装置。目的在于在于克服上述问题,使得视觉‑语言预训练模型适用于通用领域,且不需要进行编码、挑选和融入,模型简单有效,训练时间大幅度缩短。主要方案包括对互联网现有的大量图片和文本进行收集,得到大量无标注的包含图片和文本的多模态数据;对得到的大规模多模态数据集进行无监督训练,得到知识标注模块;将得到的知识标注模块与原有的视觉‑语言预训练模型进行联合训练,得到最终完整的视觉‑语言预训练模块;使用视觉常识推理任务提高的测试集对得到的视觉‑语言模块进行测试,得到最终的预训练模型。
Description
技术领域
本发明涉及多模态机器学习领域,提供了一种基于无监督知识增强的视觉-语言预训练方法及装置。
背景技术
百度的ERNIE-ViL是现有的知识增强的多模态预训练模型。其实施步骤可被概括如下:
(1)百度的ERNIE-ViL预训练任务可以被简单概括为:视觉问答。简单来说,视觉问答可以看成是看图问答。输入给模型的是图片和有关该图片的一些问题,模型被要求给出问题的答案。由于输入是图片(视觉模态),输出是问题(文本模态),所以该任务是典型的多模态预训练任务。
(2)目前主流的公开的视觉-语言预训练数据集,如:COCO。COCO 是一个大型、丰富的物体检测、分割和描述数据集。 数据集以场景理解为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的分割进行位置标定,含 91 个常见对象类别,其中 82 类有超过 5 000 个标签实例,共含 32. 8 万幅图像和 250 万个标签实例。
(3)视觉-语言预训练技术的目标是让人工智能学习视觉-语言模态之间的语义对齐,通俗来说,就是让人工智能更准确地描述出场景中的内容。为了实现该目标,百度标注了(物体、属性、关系)的大规模知识数据集。由于百度预训练任务希望找出物体之间的(属性、关系),而事物之间的关系和属性纷繁复杂,因此新标注的数据集样本数量需大于COCO数据集样本数量,即:样本数量至少需要是百万级别,需要耗费大量标注人力与金钱成本。
(4)在标注的(物体、属性、关系)的大规模知识数据集的基础上,百度的ERNIE-Vil需要将结构化的知识数据集中的知识转化成模型能够理解的知识向量。
(5)由于知识数据集非常庞大,所以一个样本对应的知识可能不止一个。因此,在将知识转换为知识向量后,需要从中挑选一个最适合该样本的知识向量。
(6)其次,模型送入最后挑选的知识向量,进行训练。由于训练前需要进行知识向量编码、知识向量挑选、知识向量融入三大步,再加上知识数据集规模非常大,所以训练需要花费较长的时间和计算资源。
(7)最后,将训练得到的模型进行测试,挑选出有着最好测试结果的关键点模型,作为预训练最后输出的模型。
目前现有技术存在的缺陷如下:
(1)百度视觉问答的领域与标注的大规模知识数据集的领域密切相关,可能不能进行通用场景的视觉问答;
(2)大规模知识数据集的标注成本较高,需要花费大量人力与物力。
(3)由于知识数据集规模较大,所以模型训练需要花费很多时间(需要进行知识向量生成、知识向量挑选、知识向量融入)。
发明内容
本发明的目的在于在于克服上述问题,使得视觉-语言预训练模型适用于通用领域,且不需要进行编码、挑选和融入,模型简单有效,训练时间大幅度缩短。
为了实现上述目的本发明采用以下技术手段:
一种基于无监督知识增强的视觉-语言预训练方法,无需标注且模型适配通用领域,包括以下步骤:
步骤1:对互联网现有的大量图片和文本进行收集,得到大量无标注的包含图片和文本的多模态数据;
步骤2 对步骤1得到的大规模多模态数据集进行无监督训练,得到知识标注模块;
步骤3:将步骤2得到的知识标注模块与原有的视觉-语言预训练模型进行联合训练,得到最终完整的视觉-语言预训练模块;
步骤4:使用视觉常识推理任务提高的测试集对步骤3得到的视觉-语言模块进行测试,得到最终的预训练模型。
上述技术方案中,其特征在于无需标注且适配通用领域。步骤1具体包括以下步骤:
步骤1.1:对视觉-语言预训练进行数据评估,得到完成预训练需要的数据量大小;
步骤1.2 对互联网进行图片、文本以及带文本的图片的三类数据进行统计,得到收录上述三种数据最多的若干个网站;
步骤1.3 对步骤1.2网站中的数据进行爬取,得到爬取后的数据;
步骤1.4 对爬取后的数据进行数据总量统计并与步骤1.1预估的数据量进行对比,得到一个决定:
若爬取得到的数据量大于预估数据量,则完成步骤1;若爬取得到的数据量小于预估数据量,则重复1.2-1.4,直至满足预估数据量。
上述技术方案中,其特征在于无需标注且适配通用领域。步骤2具体包括以下步骤:
步骤2.1:对步骤1得到的数据进行分类,得到纯图片、纯文本、带文本的图片的样本比例;
步骤2.2 由步骤1可知,训练数据包含各个领域,是通用领域的数据,模型训练后能得到一个适配多个领域的多模态预训练模型;
步骤2.3 对步骤2.2得到的多模态预训练模型首先进行目标检测预训练,即模型训练的目标是为了用方框分隔出图片中各个物体;
步骤2.4 由于训练数据中包含带文字的图片,在2.3的基础上,进行跨模态的训练,例如:模型输入图片,输出其对应的名称,最终将2.3,2.4训练得到的模块命名为——知识标注模块。
上述技术方案中,步骤3 具体包括以下步骤:
步骤3.1:从步骤1中挑选出一些不作为训练集的图片,送入步骤2得到的知识标注模块,检查知识标注模块是否能分隔出图片中的物体以及标注物体之间的关系;
步骤3.2:对视觉常识推理任务进行建模,得到多模态预训练模型;
步骤3.3:对步骤3.2得到的预训练模型与知识标注模块进行联合学习训练(模型训练的损失函数值等于两个模块各自的损失函数值的权重和),直至得到最终完整的多模态预训练模型。
步骤3.4:输入图片,得到知识标注模块的输出,即:图片中各个分隔物体的名称(一个或多个语言词汇),和预训练模型的输出,即:关于输入图片的初始回答。
步骤3.5:将知识标注模块输出的词输入到预训练模型中,对解码概率进行调整。由于在解码时,预训练模型会先计算词表中所有词被输出的概率,所以输入的词通过放大k倍原先解码概率的方法来提高这些词被预训练模块输出的概率。
步骤3.6:基于步骤3.5调整后各个词输出的概率,对步骤3.4中得到的初始回答进行再生成,得到改良后的回答。
上述技术方案中,步骤4 具体包括以下步骤:
步骤4.1:对华盛顿大学和艾伦人工智能研究所的研究者联合创建了一个数据集进行获取,得到该数据集;
步骤4.2 对步骤3得到的预训练模型在步骤4.1得到的测试集上进行测试,反复迭代,直至得到拥有最好测试结果的预训练模型。
本发明还提供了一种基于无监督知识增强的视觉-语言预训练装置,包括以下模块:
数据获取模块:对互联网现有的大量图片和文本进行收集,得到大量无标注的包含图片和文本的多模态数据;
知识标注模块:对数据获取模块得到的大规模多模态数据集进行无监督训练,得到知识标注模块;
联合训练模块:将得到的知识标注模块与原有的视觉-语言预训练模型进行联合训练,得到最终完整的视觉-语言预训练模块;
测试模块:使用视觉常识推理任务提高的测试集对得到的视觉-语言模块进行测试,得到最终的预训练模型。
上述装置中,数据获取模块具体包括以下步骤:
步骤1.1:对视觉-语言预训练进行数据评估,得到完成预训练需要的数据量大小;
步骤1.2 :对互联网进行图片、文本以及带文本的图片的三类数据进行统计,得到收录上述三种数据最多的若干个网站;
步骤1.3 :对步骤1.2网站中的数据进行爬取,得到爬取后的数据;
步骤1.4 :对爬取后的数据进行数据总量统计并与步骤1.1预估的数据量进行对比,得到一个决定:
若爬取得到的数据量大于预估数据量,则完成步骤1;若爬取得到的数据量小于预估数据量,则重复1.2-1.4,直至满足预估数据量。
上述装置中,知识标注模块具体包括以下步骤:
步骤2.1:对得到的数据进行分类,得到纯图片、纯文本、带文本的图片的样本比例;
步骤2.2 :训练数据包含各个领域,是通用领域的数据,模型训练后能得到一个适配多个领域的多模态预训练模型;
步骤2.3 :对步骤2.2得到的多模态预训练模型首先进行目标检测预训练,使其用方框分隔出图片中的各个物体;
步骤2.4 由于训练数据中包含带文字的图片,在2.3的基础上,进行跨模态的训练,得到能够对步骤2.3中可分隔出的各个物体进行名称标识的知识标注模块。
上述装置中,联合训练模块具体包括以下步骤:
步骤3.1:挑选出一些不作为训练集的图片,送入步骤2得到的知识标注模块,检查知识标注模块是否能正确识别物体以及输出物体的名称;
步骤3.2:对视觉常识推理任务进行建模,得到预训练模型;
步骤3.3:对步骤3.2得到的预训练模型与知识标注模块进行联合学习训练,得到最后的基于知识增强的视觉-语言预训练模型;
步骤3.4:输入图片,得到知识标注模块的输出,即:图片中各个分隔物体的名称,和预训练模型的输出,即:关于输入图片的初始回答;
步骤3.5:将知识标注模块输出的词输入到预训练模型中,对解码概率进行调整,由于在解码时,预训练模型会先计算词表中所有词被输出的概率,所以输入的词通过放大k倍原先解码概率的方法来提高这些词被预训练模块输出的概率;
步骤3.6:基于步骤3.5调整后各个词输出的概率,对步骤3.4中得到的初始回答进行再生成,得到改良后的回答。
上述装置中,测试模块具体包括以下步骤:
步骤4.1:对华盛顿大学和艾伦人工智能研究所的研究者联合创建了一个数据集进行获取,得到该数据集;
步骤4.2 对步骤3得到的预训练模型在步骤4.1得到的测试集上进行测试,反复迭代,直至得到拥有最好测试结果的预训练模型。
因为本发明采用上述技术方案,因此具备以下有益效果:
(1)由于本方案提出的预训练使用的数据集来自于互联网,包含各个领域,所以该预训练模型具备解决通用领域的视觉问答的能力。
(2)本方案采用无监督训练的方式,不需要进行人工标注,节省了大量人力、物力和财力。
(3)本方案步骤2得到了知识标注模块,得到了知识的隐式表示,不需要进行知识编码、知识挑选和知识融入,模型简单有效,训练时间大幅度缩短。
附图说明
图1为本发明预训练流程图;
图2为百度ERNIE-ViL预训练流程图。
具体实施方式
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。
本发明提供了一种基于无监督知识增强的视觉-语言预训练方法,包括以下步骤:
步骤1:对互联网现有的大量图片和文本进行收集,得到大量无标注的包含图片和文本的多模态数据;
步骤2 对步骤1得到的大规模多模态数据集进行无监督训练,得到知识标注模块;
步骤3:将步骤2得到的知识标注模块与原有的视觉-语言预训练模型进行联合训练,得到最终完整的视觉-语言预训练模块;
步骤4:使用公共测试集对步骤3得到的模型进行测试,得到最终的模型。
上述技术方案中,步骤1具体包括以下步骤:
步骤1.1:对视觉-语言预训练进行数据评估,得到完成预训练需要的数据量大小;
步骤1.2 对互联网进行图片、文本以及带文本的图片的三类数据进行统计,得到收录上述三种数据最多的若干个网站;
步骤1.3 对步骤1.2网站中的数据进行爬取,得到爬取后的数据;
步骤1.4 对爬取后的数据进行数据总量统计并与步骤1.1预估的数据量进行对比,得到一个决定:
若爬取得到的数据量大于预估数据量,则完成步骤1;若爬取得到的数据量小于预估数据量,则重复1.2-1.4,直至满足预估数据量。
上述技术方案中,步骤2具体包括以下步骤:
步骤2.1:对步骤1得到的数据进行分类,得到纯图片、纯文本、带文本的图片的样本比例;
步骤2.2 由步骤1可知,训练数据包含各个领域,是通用领域的数据,模型训练后能得到一个适配多个领域的多模态预训练模型;
步骤2.3 对步骤2.2得到的多模态预训练模型首先进行目标检测预训练,即模型训练的目标是为了用方框分隔出图片中各个物体;
步骤2.4 在步骤2.3的基础上,通过分隔出的物体是否重叠,确定物体间是否存在关系,最终将2.3,2.4训练得到的模块命名为——知识标注模块。
上述技术方案中,步骤3 具体包括以下步骤:
步骤3.1:从步骤1中挑选出一些不作为训练集的图片,送入步骤2得到的知识标注模块,检查知识标注模块是否能正确识别物体以及输出物体的名称;
步骤3.2:对视觉常识推理任务进行建模,得到预训练模型;
步骤3.3:对步骤3.2得到的预训练模型与知识标注模块进行联合学习训练,得到最后的基于知识增强的视觉-语言预训练模型。
步骤3.4:输入图片,得到知识标注模块的输出,即:图片中各个分隔物体的名称(一个或多个语言词汇),和预训练模型的输出,即:关于输入图片的初始回答。
步骤3.5:将知识标注模块输出的词输入到预训练模型中,对解码概率进行调整,由于在解码时,预训练模型会先计算词表中所有词被输出的概率,所以输入的词通过放大k倍原先解码概率的方法来提高这些词被预训练模块输出的概率。
上述技术方案中,步骤4 具体包括以下步骤:
步骤4.1:对华盛顿大学和艾伦人工智能研究所的研究者联合创建了一个数据集进行获取,得到该数据集;
步骤4.2 对步骤3得到的预训练模型在步骤4.1得到的测试集上进行测试,反复迭代,直至得到拥有最好测试结果的预训练模型。
本发明还提供了一种基于无监督知识增强的视觉-语言预训练装置,包括以下模块:
数据获取模块:对互联网现有的大量图片和文本进行收集,得到大量无标注的包含图片和文本的多模态数据;
知识标注模块:对数据获取模块得到的大规模多模态数据集进行无监督训练,得到知识标注模块;
联合训练模块:将得到的知识标注模块与原有的视觉-语言预训练模型进行联合训练,得到最终完整的视觉-语言预训练模块;
测试模块:使用视觉常识推理任务提高的测试集对得到的视觉-语言模块进行测试,得到最终的预训练模型。
上述装置中,数据获取模块具体包括以下步骤:
步骤1.1:对视觉-语言预训练进行数据评估,得到完成预训练需要的数据量大小;
步骤1.2 :对互联网进行图片、文本以及带文本的图片的三类数据进行统计,得到收录上述三种数据最多的若干个网站;
步骤1.3 :对步骤1.2网站中的数据进行爬取,得到爬取后的数据;
步骤1.4 :对爬取后的数据进行数据总量统计并与步骤1.1预估的数据量进行对比,得到一个决定:
若爬取得到的数据量大于预估数据量,则完成步骤1;若爬取得到的数据量小于预估数据量,则重复1.2-1.4,直至满足预估数据量。
上述装置中,知识标注模块具体包括以下步骤:
步骤2.1:对得到的数据进行分类,得到纯图片、纯文本、带文本的图片的样本比例;
步骤2.2 :训练数据包含各个领域,是通用领域的数据,模型训练后能得到一个适配多个领域的多模态预训练模型;
步骤2.3 :对步骤2.2得到的多模态预训练模型首先进行目标检测预训练,使其用方框分隔出图片中的各个物体;
步骤2.4 由于训练数据中包含带文字的图片,在2.3的基础上,进行跨模态的训练,得到能够对步骤2.3中可分隔出的各个物体进行名称标识的知识标注模块。
上述装置中,联合训练模块具体包括以下步骤:
步骤3.1:挑选出一些不作为训练集的图片,送入步骤2得到的知识标注模块,检查知识标注模块是否能正确识别物体以及输出物体的名称;
步骤3.2:对视觉常识推理任务进行建模,得到预训练模型;
步骤3.3:对步骤3.2得到的预训练模型与知识标注模块进行联合学习训练,得到最后的基于知识增强的视觉-语言预训练模型;
步骤3.4:输入图片,得到知识标注模块的输出,即:图片中各个分隔物体的名称,和预训练模型的输出,即:关于输入图片的初始回答;
步骤3.5:将知识标注模块输出的词输入到预训练模型中,对解码概率进行调整,由于在解码时,预训练模型会先计算词表中所有词被输出的概率,所以输入的词通过放大k倍原先解码概率的方法来提高这些词被预训练模块输出的概率;
步骤3.6:基于步骤3.5调整后各个词输出的概率,对步骤3.4中得到的初始回答进行再生成,得到改良后的回答。
上述装置中,测试模块具体包括以下步骤:
步骤4.1:对华盛顿大学和艾伦人工智能研究所的研究者联合创建了一个数据集进行获取,得到该数据集;
步骤4.2 对步骤3得到的预训练模型在步骤4.1得到的测试集上进行测试,反复迭代,直至得到拥有最好测试结果的预训练模型。
Claims (10)
1.一种基于无监督知识增强的视觉-语言预训练方法,其特征在于,包括以下步骤:
步骤1:对互联网现有的大量图片和文本进行收集,得到大量无标注的包含图片和文本的多模态数据;
步骤2 :对步骤1得到的大规模多模态数据集进行无监督训练,得到知识标注模块;
步骤3:将步骤2得到的知识标注模块与原有的视觉-语言预训练模型进行联合训练,得到最终完整的视觉-语言预训练模块;
步骤4:使用视觉常识推理任务提高的测试集对步骤3得到的视觉-语言模块进行测试,得到最终的预训练模型。
2.根据权利要求1所述的一种基于无监督知识增强的视觉-语言预训练方法,其特征在于:步骤1具体包括以下步骤:
步骤1.1:对视觉-语言预训练进行数据评估,得到完成预训练需要的数据量大小;
步骤1.2 :对互联网进行图片、文本以及带文本的图片的三类数据进行统计,得到收录上述三种数据最多的若干个网站;
步骤1.3 :对步骤1.2网站中的数据进行爬取,得到爬取后的数据;
步骤1.4 :对爬取后的数据进行数据总量统计并与步骤1.1预估的数据量进行对比,得到一个决定:
若爬取得到的数据量大于预估数据量,则完成步骤1;若爬取得到的数据量小于预估数据量,则重复1.2-1.4,直至满足预估数据量。
3.根据权利要求1所述的一种基于无监督知识增强的视觉-语言预训练方法,其特征在于:步骤2具体包括以下步骤:
步骤2.1:对步骤1得到的数据进行分类,得到纯图片、纯文本、带文本的图片的样本比例;
步骤2.2 :训练数据包含各个领域,是通用领域的数据,模型训练后能得到一个适配多个领域的多模态预训练模型;
步骤2.3 :对步骤2.2得到的多模态预训练模型首先进行目标检测预训练,使其用方框分隔出图片中的各个物体;
步骤2.4 由于训练数据中包含带文字的图片,在2.3的基础上,进行跨模态的训练,得到能够对步骤2.3中可分隔出的各个物体进行名称标识的知识标注模块。
4.根据权利要求1所述的一种基于无监督知识增强的视觉-语言预训练方法,其特征在于:步骤3 具体包括以下步骤:
步骤3.1:从步骤1中挑选出一些不作为训练集的图片,送入步骤2得到的知识标注模块,检查知识标注模块是否能正确识别物体以及输出物体的名称;
步骤3.2:对视觉常识推理任务进行建模,得到预训练模型;
步骤3.3:对步骤3.2得到的预训练模型与知识标注模块进行联合学习训练,得到最后的基于知识增强的视觉-语言预训练模型;
步骤3.4:输入图片,得到知识标注模块的输出,即:图片中各个分隔物体的名称,和预训练模型的输出,即:关于输入图片的初始回答;
步骤3.5:将知识标注模块输出的词输入到预训练模型中,对解码概率进行调整,由于在解码时,预训练模型会先计算词表中所有词被输出的概率,所以输入的词通过放大k倍原先解码概率的方法来提高这些词被预训练模块输出的概率;
步骤3.6:基于步骤3.5调整后各个词输出的概率,对步骤3.4中得到的初始回答进行再生成,得到改良后的回答。
5.根据权利要求1所述的一种基于无监督知识增强的视觉-语言预训练方法,其特征在于:步骤4 具体包括以下步骤:
步骤4.1:对华盛顿大学和艾伦人工智能研究所的研究者联合创建了一个数据集进行获取,得到该数据集;
步骤4.2 对步骤3得到的预训练模型在步骤4.1得到的测试集上进行测试,反复迭代,直至得到拥有最好测试结果的预训练模型。
6.一种基于无监督知识增强的视觉-语言预训练装置,其特征在于,包括以下模块:
数据获取模块:对互联网现有的大量图片和文本进行收集,得到大量无标注的包含图片和文本的多模态数据;
知识标注模块:对数据获取模块得到的大规模多模态数据集进行无监督训练,得到知识标注模块;
联合训练模块:将得到的知识标注模块与原有的视觉-语言预训练模型进行联合训练,得到最终完整的视觉-语言预训练模块;
测试模块:使用视觉常识推理任务提高的测试集对得到的视觉-语言模块进行测试,得到最终的预训练模型。
7.根据权利要求6所述的一种基于无监督知识增强的视觉-语言预训练装置,其特征在于:数据获取模块具体包括以下步骤:
步骤1.1:对视觉-语言预训练进行数据评估,得到完成预训练需要的数据量大小;
步骤1.2 :对互联网进行图片、文本以及带文本的图片的三类数据进行统计,得到收录上述三种数据最多的若干个网站;
步骤1.3 :对步骤1.2网站中的数据进行爬取,得到爬取后的数据;
步骤1.4 :对爬取后的数据进行数据总量统计并与步骤1.1预估的数据量进行对比,得到一个决定:
若爬取得到的数据量大于预估数据量,则完成步骤1;若爬取得到的数据量小于预估数据量,则重复1.2-1.4,直至满足预估数据量。
8.根据权利要求6所述的一种基于无监督知识增强的视觉-语言预训练装置,其特征在于:知识标注模块具体包括以下步骤:
步骤2.1:对得到的数据进行分类,得到纯图片、纯文本、带文本的图片的样本比例;
步骤2.2 :训练数据包含各个领域,是通用领域的数据,模型训练后能得到一个适配多个领域的多模态预训练模型;
步骤2.3 :对步骤2.2得到的多模态预训练模型首先进行目标检测预训练,使其用方框分隔出图片中的各个物体;
步骤2.4 由于训练数据中包含带文字的图片,在2.3的基础上,进行跨模态的训练,得到能够对步骤2.3中可分隔出的各个物体进行名称标识的知识标注模块。
9.根据权利要求6所述的一种基于无监督知识增强的视觉-语言预训练装置,其特征在于:联合训练模块具体包括以下步骤:
步骤3.1:挑选出一些不作为训练集的图片,送入步骤2得到的知识标注模块,检查知识标注模块是否能正确识别物体以及输出物体的名称;
步骤3.2:对视觉常识推理任务进行建模,得到预训练模型;
步骤3.3:对步骤3.2得到的预训练模型与知识标注模块进行联合学习训练,得到最后的基于知识增强的视觉-语言预训练模型;
步骤3.4:输入图片,得到知识标注模块的输出,即:图片中各个分隔物体的名称,和预训练模型的输出,即:关于输入图片的初始回答;
步骤3.5:将知识标注模块输出的词输入到预训练模型中,对解码概率进行调整,由于在解码时,预训练模型会先计算词表中所有词被输出的概率,所以输入的词通过放大k倍原先解码概率的方法来提高这些词被预训练模块输出的概率;
步骤3.6:基于步骤3.5调整后各个词输出的概率,对步骤3.4中得到的初始回答进行再生成,得到改良后的回答。
10.根据权利要求6所述的一种基于无监督知识增强的视觉-语言预训练装置,其特征在于:测试模块具体包括以下步骤:
步骤4.1:对华盛顿大学和艾伦人工智能研究所的研究者联合创建了一个数据集进行获取,得到该数据集;
步骤4.2 对步骤3得到的预训练模型在步骤4.1得到的测试集上进行测试,反复迭代,直至得到拥有最好测试结果的预训练模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310043498.9A CN116049367A (zh) | 2023-01-29 | 2023-01-29 | 一种基于无监督知识增强的视觉-语言预训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310043498.9A CN116049367A (zh) | 2023-01-29 | 2023-01-29 | 一种基于无监督知识增强的视觉-语言预训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116049367A true CN116049367A (zh) | 2023-05-02 |
Family
ID=86127099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310043498.9A Pending CN116049367A (zh) | 2023-01-29 | 2023-01-29 | 一种基于无监督知识增强的视觉-语言预训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049367A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229332A (zh) * | 2023-05-06 | 2023-06-06 | 浪潮电子信息产业股份有限公司 | 一种视频预训练模型的训练方法、装置、设备及存储介质 |
CN117609527A (zh) * | 2024-01-16 | 2024-02-27 | 合肥人工智能与大数据研究院有限公司 | 一种基于向量数据库的跨模态数据检索优化方法 |
-
2023
- 2023-01-29 CN CN202310043498.9A patent/CN116049367A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229332A (zh) * | 2023-05-06 | 2023-06-06 | 浪潮电子信息产业股份有限公司 | 一种视频预训练模型的训练方法、装置、设备及存储介质 |
CN116229332B (zh) * | 2023-05-06 | 2023-08-04 | 浪潮电子信息产业股份有限公司 | 一种视频预训练模型的训练方法、装置、设备及存储介质 |
CN117609527A (zh) * | 2024-01-16 | 2024-02-27 | 合肥人工智能与大数据研究院有限公司 | 一种基于向量数据库的跨模态数据检索优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111554268B (zh) | 基于语言模型的语言识别方法、文本分类方法和装置 | |
CN110119786B (zh) | 文本话题分类方法及装置 | |
CN107526799B (zh) | 一种基于深度学习的知识图谱构建方法 | |
CN107239801B (zh) | 视频属性表示学习方法及视频文字描述自动生成方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN108121702B (zh) | 数学主观题评阅方法及系统 | |
CN116049367A (zh) | 一种基于无监督知识增强的视觉-语言预训练方法及装置 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN112883197B (zh) | 一种用于封闭开关设备的知识图谱构建方法与系统 | |
CN113626589A (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN110807086A (zh) | 文本数据标注方法及装置、存储介质、电子设备 | |
CN106227836B (zh) | 基于图像与文字的无监督联合视觉概念学习系统及方法 | |
Rasyidi et al. | Classification of handwritten Javanese script using random forest algorithm | |
CN113657115A (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN113032601A (zh) | 一种基于判别性提升的零样本草图检索方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
WO2021051502A1 (zh) | 基于长短期记忆的教学方法、装置和计算机设备 | |
CN115391520A (zh) | 一种文本情感分类方法、系统、装置及计算机介质 | |
CN110807517A (zh) | 用于多任务识别的神经网络系统 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN114239730A (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN107992482B (zh) | 数学主观题解答步骤的规约方法及系统 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 | |
CN114757183B (zh) | 一种基于对比对齐网络的跨领域情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |