CN117011686B - 多模态生成式大模型训练方法、装置及计算机设备 - Google Patents

多模态生成式大模型训练方法、装置及计算机设备 Download PDF

Info

Publication number
CN117011686B
CN117011686B CN202311271786.6A CN202311271786A CN117011686B CN 117011686 B CN117011686 B CN 117011686B CN 202311271786 A CN202311271786 A CN 202311271786A CN 117011686 B CN117011686 B CN 117011686B
Authority
CN
China
Prior art keywords
model
description
training
text
supervision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311271786.6A
Other languages
English (en)
Other versions
CN117011686A (zh
Inventor
豆泽阳
甘家旭
庞磊
蒋阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chuanshen Hongan Intelligent Shenzhen Co ltd
Original Assignee
Chuanshen Hongan Intelligent Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuanshen Hongan Intelligent Shenzhen Co ltd filed Critical Chuanshen Hongan Intelligent Shenzhen Co ltd
Priority to CN202311271786.6A priority Critical patent/CN117011686B/zh
Publication of CN117011686A publication Critical patent/CN117011686A/zh
Application granted granted Critical
Publication of CN117011686B publication Critical patent/CN117011686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了多模态生成式大模型训练方法、装置及计算机设备。所述方法包括:使用思维链技术制定标注规范;获取工业设备巡检、环境隐患监控、人员操作状态的正常图像样本和异常图像样本,以得到训练数据;根据所述标注规范对所述训练数据进行标注,以得到标注结果;构建多模态模型;采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型。通过实施本发明实施例的方法可实现让识别模型明确推理过程和结论之间的关系,输出更精确,激发识别模型的逻辑推理能力,提升识别模型的推理准确率。

Description

多模态生成式大模型训练方法、装置及计算机设备
技术领域
本发明涉及多模态模型训练方法,更具体地说是指多模态生成式大模型训练方法、装置及计算机设备。
背景技术
多模态大模型以图像、文本、信号等多模态数据为输入,依据指令和输入数据进行推理,最终输出回答。由于其强悍的推理能力,大模型越来越受到各行业的关注。目前,大模型的基础模型潜力仍未有效激发,垂直领域应用仍需要专业知识深度融合,因此,高质量的指令数据构建成为发挥大模型的能力的关键技术。
在拍摄的森林和山上的图像,通常采用多模态大模型作为识别模型进行山火烟雾的识别,以提前对山火进行预警,目前该识别模型的指令训练数据标注与模型训练过程中,当前对垂直领域数据的标注多为点、线、框、掩码或文字结论的简单描述,没有包含推理过程,这种简单描述不能完全激发大模型的能力,训练出的模型的性能难以满足业务要求,导致识别结果的不准确。
因此,有必要设计一种新的方法,实现让识别模型明确推理过程和结论之间的关系,输出更精确,激发识别模型的逻辑推理能力,提升识别模型的推理准确率。
发明内容
本发明的目的在于克服现有技术的缺陷,提供多模态生成式大模型训练方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:多模态生成式大模型训练方法,包括:
使用思维链技术制定标注规范;
获取工业设备巡检、环境隐患监控、人员操作状态的正常图像样本和异常图像样本,以得到训练数据;
根据所述标注规范对所述训练数据进行标注,以得到标注结果;
构建多模态模型;
采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型。
其进一步技术方案为:所述使用思维链技术制定标注规范,包括:
制定训练数据内的设备缺陷、环境隐患、人员操作违规状态和其他重要目标进行位置以及状态信息的描述内容;
依据业务判定逻辑链条根据所述描述内容形成分析过程的阐述,并给出结论。
其进一步技术方案为:所述制定训练数据内的设备缺陷、环境隐患、人员操作违规状态和其他重要目标进行位置以及状态信息的描述内容,包括:
对所述训练数据中是否存在设备缺陷、环境隐患、人员违规状态,并对设备缺陷的状态和位置信息、环境隐患的状态和位置信息、人员违规状态的详细动作和位置信息进行描述,以构成第一描述内容;
对所述训练数据中是否存在其他重要目标,并描述其他重要目标的状态及位置,以构成第二描述内容;
将第一描述内容与所述第二描述内容组合,以得到描述内容。
其进一步技术方案为:所述依据业务判定逻辑链条根据所述描述内容形成分析过程的阐述,并给出结论,包括:
将所述描述内容与业务判定逻辑链条进行匹配,形成分析过程的阐述,并得到结论。
其进一步技术方案为:所述业务判定逻辑链条包括三条逻辑链条,三条逻辑链条分别为依据行业缺陷判别定级准则,对设备缺陷进行最小逻辑链条描述以及缺陷定级;依据环境隐患判别定级准则,对环境隐患进行最小逻辑链条描述以及隐患定级;依据人员作业违规判别定级准则,对违规作业行为进行最小逻辑链条描述以及违规定级。
其进一步技术方案为:所述采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型,包括:
对所述标注结果进行预处理,以得到向量、非文本类的监督标签、文本结论监督标签以及推理过程监督标签;
将所述向量输入至多模态模型,以得到输出结果;
将输出结果、非文本类的监督标签、文本结论监督标签以及推理过程监督标签构建损失函数,并以损失函数计算损失值,确定对应的多模态生成式大模型。
其进一步技术方案为:所述对所述标注结果进行预处理,以得到向量、非文本类的监督标签、文本结论监督标签以及推理过程监督标签,包括:
对所述标注结果中的图片和指令文本进行预处理,以得到向量;
对所述标注结果中的点、框、掩码进行预处理,形成非文本类的监督标签;
将所述标注结果的文本进行预处理,以得到模型的文本结论监督标签和推理过程监督标签。
本发明还提供了多模态生成式大模型训练装置,包括:
规范制定单元,用于使用思维链技术制定标注规范;
获取单元,用于获取工业设备巡检、环境隐患监控、人员操作状态的正常图像样本和异常图像样本,以得到训练数据;
标注单元,用于根据所述标注规范对所述训练数据进行标注,以得到标注结果;
构建单元,用于构建多模态模型;
训练单元,用于采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过采用思维链技术制定标注规范,在获取相关图像后,采用制定的标注规范进行数据标注,再利用标注的结果训练多模态模型,形成对应的多模态生成式大模型,实现让识别模型明确推理过程和结论之间的关系,输出更精确,激发识别模型的逻辑推理能力,提升识别模型的推理准确率。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的多模态生成式大模型训练方法的应用场景示意图;
图2为本发明实施例提供的多模态生成式大模型训练方法的流程示意图;
图3为本发明实施例提供的多模态生成式大模型训练方法的子流程示意图;
图4为本发明实施例提供的多模态生成式大模型训练方法的子流程示意图;
图5为本发明实施例提供的多模态生成式大模型训练方法的子流程示意图;
图6为本发明实施例提供的多模态生成式大模型训练方法的子流程示意图;
图7为本发明实施例提供的多模态生成式大模型训练装置的示意性框图;
图8为本发明实施例提供的多模态生成式大模型训练装置的规范制定单元的示意性框图;
图9为本发明实施例提供的多模态生成式大模型训练装置的内容制定子单元的示意性框图;
图10为本发明实施例提供的多模态生成式大模型训练装置的训练单元的示意性框图;
图11为本发明实施例提供的多模态生成式大模型训练装置的预处理子单元的示意性框图;
图12为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的多模态生成式大模型训练方法的应用场景示意图。图2为本发明实施例提供的多模态生成式大模型训练方法的示意性流程图。该多模态生成式大模型训练方法应用于服务器中。该服务器与摄像头进行数据交互,实现利用摄像头输入的图像,在标注时引入思维链的方法,不仅写出结论的描述,还写出得到结论的思考过程,为大模型训练提供中间思考过程的监督信号,让大模型具有类似于人思维的能力。大模型在学习时,不仅以结论作为监督信号,还以思维过程为监督信号来指导大模型生成正确的描述。
图2是本发明实施例提供的多模态生成式大模型训练方法的流程示意图。如图2所示,该方法包括以下步骤S110至S150。
S110、使用思维链技术制定标注规范。
在本实施例中,标注规范所对应的标注类型包括两种,第一种为包括但不限于点标注、线标注、目标框标注、掩码标注的非文字类描述,第二种为数据文字描述标注。在真实标注过程中,标注形式可以仅存在第二种或两者同时存在。在进行数据文字描述时,提出使用思维链方法来进行标注描述。基于思维链的描述性标注不仅包含了结论,还包含了推导过程,以文字模版的形式描述出人在看到数据时的推理过程。
在一实施例中,请参阅图3,上述的步骤S110可包括步骤S111~S112。
S111、制定训练数据内的设备缺陷、环境隐患、人员操作违规状态和其他重要目标进行位置以及状态信息的描述内容;
在本实施例中,数据中的要素是客观存在的,它包含了在做推断时,最小逻辑闭环中包含的所有目标信息,并对每一种要素判断它的状态。以判断图中山火烟雾是否会影响到输电线路为例:该例子中的最小逻辑闭环为山火烟雾是否会影响到输电线路,最小逻辑闭环中包括火焰、烟雾、输电线、输电杆塔、其他输电设施五种要素。每一种要素都要描述它的位置与状态信息。
举个例子,在山火烟雾识别模型中,可制定数据内的火焰、烟雾、输电线、输电杆塔、其他输电设施进行位置以及状态信息的描述内容。
在一实施例中,请参阅图4,上述的步骤S111可包括步骤S1111~S1113。
S1111、对所述训练数据中是否存在设备缺陷、环境隐患、人员违规状态,并对设备缺陷的状态和位置信息、环境隐患的状态和位置信息、人员违规状态的详细动作和位置信息进行描述,以构成第一描述内容;
在本实施例中,第一描述内容包括训练数据中是否存在设备缺陷、环境隐患、人员违规状态,并对设备缺陷的状态和位置信息、环境隐患的状态和位置信息、人员违规状态的详细动作和位置信息进行描述所得的结果。
举个例子,对所述数据判断是否存在火焰烟雾,并对山火烟雾的颜色、位置信息进行描述,以构成第一描述内容。对火焰烟雾进行位置与状态描述时,先判断图像中是否存在火焰烟雾,并对山火烟雾的颜色、位置信息进行描述;如果图像中出现了火焰和烟雾,则可以描述为火焰位于图像中左侧的山林中,呈明亮的橘黄色,烟雾位于图像中左侧燃烧的山林上方,呈灰黑色。
S1112、对所述训练数据中是否存在其他重要目标,并描述其他重要目标的状态及位置,以构成第二描述内容。
在本实施例中,第二描述内容是指数据中是否存在其他重要目标,并描述其他重要目标的状态及位置。
举个例子,对所述数据判断是否存在输电线、输电杆塔、其他输电设施,并描述出输电线、输电杆塔、其他输电设施的位置、种类、依附物,以构成第二描述内容。对输电线、输电杆塔、其他输电设施位置与状态的描述时,首先判断图片中是否存在输电线、输电杆塔、其他输电设施,并描述出输电线、输电杆塔、其他输电设施的位置、种类、依附物等。如图中出现了输电线和输电杆塔,输电杆塔位于图中右侧的森林中,输电线路位于森林上空,横向穿过森林。
S1113、将第一描述内容与所述第二描述内容组合,以得到描述内容。
在本实施例中,描述内容包括第一描述内容与第二描述内容。
S112、依据业务判定逻辑链条根据所述描述内容形成分析过程的阐述,并给出结论。
在本实施例中,将所述描述内容与业务判定逻辑链条进行匹配,形成分析过程的阐述,并得到结论。
具体地,对于各行各业的业务来说,都有自己的明确判定标准,业务人员通过该判定标准来对数据进行严格判别,这就是业务判定的逻辑链条,如输电通道山火烟雾的影响有相关的判定标准。依据业务判定逻辑链条,可以将描述的要素与业务判定逻辑链条进行匹配给出结论。匹配方式可以是人工匹配、基于规则的匹配、基于人工智能模型(CNN模型、RNN模型、Transformer模型)的语义匹配等。
在本实施例中,所述业务判定逻辑链条包括三条逻辑链条,三条逻辑链条分别为依据行业缺陷判别定级准则,对设备缺陷进行最小逻辑链条描述以及缺陷定级;依据环境隐患判别定级准则,对环境隐患进行最小逻辑链条描述以及隐患定级;依据人员作业违规判别定级准则,对违规作业行为进行最小逻辑链条描述以及违规定级。
在山火烟雾识别的例子中,所述业务判定逻辑链条包括三条逻辑链条,三条逻辑链条分别为火焰烟雾与输电设施不同时存在、火焰烟雾与输电设施同时存在、火焰烟雾与输电设施的直线距离在安全规定以内。
在进行基于规则的匹配时,具备以下逻辑链条:
逻辑链条1:火焰烟雾、输电设施不同时存在:若满足条件,则在标注中写明火焰烟雾、输电设施不同时存在,并得到不存在隐患的结论;若不满足条件,转到逻辑链条2;
逻辑链条2:火焰烟雾、输电设施同时存在:在标注中写明火焰烟雾、输电设施同时存在,转到逻辑链条3;
逻辑链条3:火焰烟雾与输电设施的直线距离在安全规定以内:若满足条件,则在标注中注明火焰烟雾与输电设施的直线距离在安全规定以内,得到暂时没有影响到输电设施的结论;若不满足条件,则在标注中明确表明火焰烟雾与输电设施的直线距离在安全规定以外,得到已经影响到输电设施的结论;
一个由逻辑链条形成的标注实例如下:火焰烟雾、输电设施同时存在,火焰烟雾与输电设施的直线距离在安全规定以内,暂时没有影响到输电设施。
S120、获取工业设备巡检、环境隐患监控、人员操作状态的正常图像样本和异常图像样本,以得到训练数据。
在本实施例中,训练数据包括正样本数据以及负样本数据,在山火烟雾识别的例子中,正样本数据为有山火烟雾的图像;负样本数据为无山火烟雾的图像。
S130、根据所述标注规范对所述训练数据进行标注,以得到标注结果。
在本实施例中,依据上述的标注规范对训练数据进行逐一标注,以形成最终的结果。
S140、构建多模态模型;
S150、采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型。
在一实施例中,请参阅图5,上述的步骤S150可包括步骤S151~S153。
S151、对所述标注结果进行预处理,以得到向量、非文本类的监督标签、文本结论监督标签以及推理过程监督标签。
在一实施例中,请参阅图6,上述的步骤S151可包括步骤S1511~S1513。
S1511、对所述标注结果中的图片和指令文本进行预处理,以得到向量。
具体地,将标注结果的图片和指令文本等数据进行预处理,形成可以输入模型的形式,预处理具体是将图片进行归一化、分块和嵌入(embedding)操作,将文本进行特殊符号去除、字符切分(tokenize)和嵌入(embedding)的操作,得到可以被模型理解的向量。
S1512、对所述标注结果中的点、框、掩码进行预处理,形成非文本类的监督标签。
在本实施例中,可采用现有技术的处理方式对点、框、掩码进行预处理,此处不再赘述。
S1513、将所述标注结果的文本进行预处理,以得到模型的文本结论监督标签和推理过程监督标签。
在本实施例中,将标注结果的文本进行预处理,预处理包括字符化(tokenize)、向量化两步操作;形成结论和推理过程两部分,并分别进行字符切分、分块和嵌入操作,得到模型的文本结论监督标签和推理过程监督标签。
具体地,文本结论标签是指将文本结论进行两部预处理操作后形成的向量,这个向量作为目标,让模型通过训练来拟合来生成文本贴近这个向量,所以被称为标签。
S152、将所述向量输入至多模态模型,以得到输出结果;
S153、将输出结果、非文本类的监督标签、文本结论监督标签以及推理过程监督标签构建损失函数,并以损失函数计算损失值,确定对应的多模态生成式大模型。
在本实施例中,损失函数Loss = Loss_result(X_pred, Y_result_gt) + ρ*Loss_progress(X_pred, Y_progress_gt);其中,Loss_result、Loss_progress分别是针对结论的损失函数和针对过程的损失函数,包括但不限于MSE、KL divergence等损失类型。Loss_result同时包含了非文本类的监督损失和文本结论的监督损失。X_pred是模型预测,Y_result_gt和Y_progress_gt分别是结论监督标签和推理过程标签。ρ是权重系数。注意传统的模型训练方法仅含有Loss_result这一个损失,不含有Loss_progress损失。
模型训练结束后,使用模型直接进行推理应用,输出结果即可。
本实施例的方法基于思维链的大模型数据标注方法模拟了人的思维过程,生成的标注规范不仅给出结论的描述,还给出得到结论的思维过程,思维过程和观点结论之间紧密关联衔接。基于思维链的大模型数据标注,可以让大模型明确推理过程和结论之间的关系,输出更精确,激发大模型的逻辑推理能力,提升大模型的推理准确率;模型在学习时,不仅以结论作为监督信号,还以思维过程为监督信号来指导模型生成正确的描述。综上所述,本实施例的方法基于思维链的标注方式极大的提高来描述性标注的质量,从而提高了大模型的性能。采用半自动化标注的方式,提高了标注的效率,降低了时间成本。
上述的多模态生成式大模型训练方法,通过采用思维链技术制定标注规范,在获取相关图像后,采用制定的标注规范进行数据标注,再利用标注的结果训练多模态模型,形成对应的多模态生成式大模型,实现让识别模型明确推理过程和结论之间的关系,输出更精确,激发识别模型的逻辑推理能力,提升识别模型的推理准确率。
图7是本发明实施例提供的一种多模态生成式大模型训练装置300的示意性框图。如图7所示,对应于以上多模态生成式大模型训练方法,本发明还提供一种多模态生成式大模型训练装置300。该多模态生成式大模型训练装置300包括用于执行上述多模态生成式大模型训练方法的单元,该装置可以被配置于服务器中。具体地,请参阅图7,该多模态生成式大模型训练装置300包括规范制定单元301、获取单元302、标注单元303、构建单元304以及训练单元305。
规范制定单元301,用于使用思维链技术制定标注规范;获取单元302,用于获取工业设备巡检、环境隐患监控、人员操作状态的正常图像样本和异常图像样本,以得到训练数据;标注单元303,用于根据所述标注规范对所述训练数据进行标注,以得到标注结果;构建单元304,用于构建多模态模型;训练单元305,用于采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型。
在一实施例中,如图8所示,所述规范制定单元301包括内容制定子单元3011以及分析制定子单元3012。
内容制定子单元3011,用于制定训练数据内的设备缺陷、环境隐患、人员操作违规状态和其他重要目标进行位置以及状态信息的描述内容;分析制定子单元3012,用于依据业务判定逻辑链条根据所述描述内容形成分析过程的阐述,并给出结论。
在一实施例中,如图9所示,所述内容制定子单元3011包括第一描述模块30111、第二描述模块30112以及组合模块30113。
第一描述模块30111,用于对所述训练数据中是否存在设备缺陷、环境隐患、人员违规状态,并对设备缺陷的状态和位置信息、环境隐患的状态和位置信息、人员违规状态的详细动作和位置信息进行描述,以构成第一描述内容;第二描述模块30112,用于对所述训练数据中是否存在其他重要目标,并描述其他重要目标的状态及位置,以构成第二描述内容;组合模块30113,用于将第一描述内容与所述第二描述内容组合,以得到描述内容。
在一实施例中,所述分析制定子单元3012,用于将所述描述内容与业务判定逻辑链条进行匹配,形成分析过程的阐述,并得到结论。
在一实施例中,如图10所示,所述训练单元305包括预处理子单元3051、输入子单元3052以及确定子单元3053。
预处理子单元3051,用于对所述标注结果进行预处理,以得到向量、非文本类的监督标签、文本结论监督标签以及推理过程监督标签。输入子单元3052,用于将所述向量输入至多模态模型,以得到输出结果; 确定子单元3053,用于将输出结果、非文本类的监督标签、文本结论监督标签以及推理过程监督标签构建损失函数,并以损失函数计算损失值,确定对应的多模态生成式大模型。
在一实施例中,如图11所示,所述预处理子单元3051包括第一预处理模块30511、第二预处理模块30512以及第三预处理模块30513。
第一预处理模块30511,用于对所述标注结果中的图片和指令文本进行预处理,以得到向量;第二预处理模块30512,用于对所述标注结果中的点、框、掩码进行预处理,形成非文本类的监督标签;第三预处理模块30513,用于将所述标注结果的文本进行预处理,以得到模型的文本结论监督标签和推理过程监督标签。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述多模态生成式大模型训练装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述多模态生成式大模型训练装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图12所示的计算机设备上运行。
请参阅图12,图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图12,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种多模态生成式大模型训练方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种多模态生成式大模型训练方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
使用思维链技术制定标注规范;获取工业设备巡检、环境隐患监控、人员操作状态的正常图像样本和异常图像样本,以得到训练数据;根据所述标注规范对所述训练数据进行标注,以得到标注结果;构建多模态模型;采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型。
在一实施例中,处理器502在实现所述使用思维链技术制定标注规范步骤时,具体实现如下步骤:
制定训练数据内的设备缺陷、环境隐患、人员操作违规状态和其他重要目标进行位置以及状态信息的描述内容;依据业务判定逻辑链条根据所述描述内容形成分析过程的阐述,并给出结论。
在一实施例中,处理器502在实现所述制定数据内的火焰、烟雾、输电线、输电杆塔、输电设施进行位置以及状态信息的描述内容步骤时,具体实现如下步骤:
对所述训练数据中是否存在设备缺陷、环境隐患、人员违规状态,并对设备缺陷的状态和位置信息、环境隐患的状态和位置信息、人员违规状态的详细动作和位置信息进行描述,以构成第一描述内容;对所述训练数据中是否存在其他重要目标,并描述其他重要目标的状态及位置,以构成第二描述内容;将第一描述内容与所述第二描述内容组合,以得到描述内容。
在一实施例中,处理器502在实现所述依据业务判定逻辑链条根据所述描述内容形成分析过程的阐述,并给出结论步骤时,具体实现如下步骤:
将所述描述内容与业务判定逻辑链条进行匹配,形成分析过程的阐述,并得到结论。
其中,所述业务判定逻辑链条包括三条逻辑链条,三条逻辑链条分别为依据行业缺陷判别定级准则,对设备缺陷进行最小逻辑链条描述以及缺陷定级;依据环境隐患判别定级准则,对环境隐患进行最小逻辑链条描述以及隐患定级;依据人员作业违规判别定级准则,对违规作业行为进行最小逻辑链条描述以及违规定级。
在一实施例中,处理器502在实现所述采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型步骤时,具体实现如下步骤:
对所述标注结果进行预处理,以得到向量、非文本类的监督标签、文本结论监督标签以及推理过程监督标签。将所述向量输入至多模态模型,以得到输出结果; 将输出结果、非文本类的监督标签、文本结论监督标签以及推理过程监督标签构建损失函数,并以损失函数计算损失值,确定对应的多模态生成式大模型。
在一实施例中,处理器502在实现所述对所述标注结果进行预处理,以得到向量、非文本类的监督标签、文本结论监督标签以及推理过程监督标签步骤时,具体实现如下步骤:
对所述标注结果中的图片和指令文本进行预处理,以得到向量;对所述标注结果中的点、框、掩码进行预处理,形成非文本类的监督标签;将所述标注结果的文本进行预处理,以得到模型的文本结论监督标签和推理过程监督标签。
应当理解,在本申请实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
使用思维链技术制定标注规范;获取工业设备巡检、环境隐患监控、人员操作状态的正常图像样本和异常图像样本,以得到训练数据;根据所述标注规范对所述训练数据进行标注,以得到标注结果构建多模态模型;采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型。
在一实施例中,所述处理器在执行所述计算机程序而实现所述使用思维链技术制定标注规范步骤时,具体实现如下步骤:
制定训练数据内的设备缺陷、环境隐患、人员操作违规状态和其他重要目标进行位置以及状态信息的描述内容;依据业务判定逻辑链条根据所述描述内容形成分析过程的阐述,并给出结论。
在一实施例中,所述处理器在执行所述计算机程序而实现所述制定数据内的火焰、烟雾、输电线、输电杆塔、输电设施进行位置以及状态信息的描述内容步骤时,具体实现如下步骤:
对所述训练数据中是否存在设备缺陷、环境隐患、人员违规状态,并对设备缺陷的状态和位置信息、环境隐患的状态和位置信息、人员违规状态的详细动作和位置信息进行描述,以构成第一描述内容;对所述训练数据中是否存在其他重要目标,并描述其他重要目标的状态及位置,以构成第二描述内容;将第一描述内容与所述第二描述内容组合,以得到描述内容。
在一实施例中,所述处理器在执行所述计算机程序而实现所述依据业务判定逻辑链条根据所述描述内容形成分析过程的阐述,并给出结论步骤时,具体实现如下步骤:
将所述描述内容与业务判定逻辑链条进行匹配,形成分析过程的阐述,并得到结论。
其中,所述业务判定逻辑链条包括三条逻辑链条,三条逻辑链条分别为依据行业缺陷判别定级准则,对设备缺陷进行最小逻辑链条描述以及缺陷定级;依据环境隐患判别定级准则,对环境隐患进行最小逻辑链条描述以及隐患定级;依据人员作业违规判别定级准则,对违规作业行为进行最小逻辑链条描述以及违规定级。
在一实施例中,所述处理器在执行所述计算机程序而实现所述采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型步骤时,具体实现如下步骤:
对所述标注结果进行预处理,以得到向量、非文本类的监督标签、文本结论监督标签以及推理过程监督标签。将所述向量输入至多模态模型,以得到输出结果; 将输出结果、非文本类的监督标签、文本结论监督标签以及推理过程监督标签构建损失函数,并以损失函数计算损失值,确定对应的多模态生成式大模型。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述标注结果进行预处理,以得到向量、非文本类的监督标签、文本结论监督标签以及推理过程监督标签步骤时,具体实现如下步骤:
对所述标注结果中的图片和指令文本进行预处理,以得到向量;对所述标注结果中的点、框、掩码进行预处理,形成非文本类的监督标签;将所述标注结果的文本进行预处理,以得到模型的文本结论监督标签和推理过程监督标签。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.多模态生成式大模型训练方法,其特征在于,包括:
使用思维链技术制定标注规范;
获取工业设备巡检、环境隐患监控、人员操作状态的正常图像样本和异常图像样本,以得到训练数据;
根据所述标注规范对所述训练数据进行标注,以得到标注结果;
构建多模态模型;
采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型;
所述使用思维链技术制定标注规范,包括:
制定训练数据内的设备缺陷、环境隐患、人员操作违规状态和其他重要目标进行位置以及状态信息的描述内容;
依据业务判定逻辑链条根据所述描述内容形成分析过程的阐述,并给出结论;
所述制定训练数据内的设备缺陷、环境隐患、人员操作违规状态和其他重要目标进行位置以及状态信息的描述内容,包括:
对所述训练数据中是否存在设备缺陷、环境隐患、人员违规状态,并对设备缺陷的状态和位置信息、环境隐患的状态和位置信息、人员违规状态的详细动作和位置信息进行描述,以构成第一描述内容;
对所述训练数据中是否存在其他重要目标,并描述其他重要目标的状态及位置,以构成第二描述内容;
将第一描述内容与所述第二描述内容组合,以得到描述内容;
所述依据业务判定逻辑链条根据所述描述内容形成分析过程的阐述,并给出结论,包括:
将所述描述内容与业务判定逻辑链条进行匹配,形成分析过程的阐述,并得到结论;
所述业务判定逻辑链条包括三条逻辑链条,三条逻辑链条分别为依据行业缺陷判别定级准则,对设备缺陷进行最小逻辑链条描述以及缺陷定级;依据环境隐患判别定级准则,对环境隐患进行最小逻辑链条描述以及隐患定级;依据人员作业违规判别定级准则,对违规作业行为进行最小逻辑链条描述以及违规定级。
2.根据权利要求1所述的多模态生成式大模型训练方法,其特征在于,所述采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型,包括:
对所述标注结果进行预处理,以得到向量、非文本类的监督标签、文本结论监督标签以及推理过程监督标签;
将所述向量输入至多模态模型,以得到输出结果;
将输出结果、非文本类的监督标签、文本结论监督标签以及推理过程监督标签构建损失函数,并以损失函数计算损失值,确定对应的多模态生成式大模型。
3.根据权利要求2所述的多模态生成式大模型训练方法,其特征在于,所述对所述标注结果进行预处理,以得到向量、非文本类的监督标签、文本结论监督标签以及推理过程监督标签,包括:
对所述标注结果中的图片和指令文本进行预处理,以得到向量;
对所述标注结果中的点、框、掩码进行预处理,形成非文本类的监督标签;
将所述标注结果的文本进行预处理,以得到模型的文本结论监督标签和推理过程监督标签。
4.多模态生成式大模型训练装置,其特征在于,包括:
规范制定单元,用于使用思维链技术制定标注规范;
获取单元,用于获取工业设备巡检、环境隐患监控、人员操作状态的正常图像样本和异常图像样本,以得到训练数据;
标注单元,用于根据所述标注规范对所述训练数据进行标注,以得到标注结果;
构建单元,用于构建多模态模型;
训练单元,用于采用所述标注结果对所述多模态模型进行训练,以得到对应的多模态生成式大模型;
所述规范制定单元包括内容制定子单元以及分析制定子单元;
内容制定子单元,用于制定训练数据内的设备缺陷、环境隐患、人员操作违规状态和其他重要目标进行位置以及状态信息的描述内容;分析制定子单元,用于依据业务判定逻辑链条根据所述描述内容形成分析过程的阐述,并给出结论;
所述内容制定子单元包括第一描述模块、第二描述模块以及组合模块;
第一描述模块,用于对所述训练数据中是否存在设备缺陷、环境隐患、人员违规状态,并对设备缺陷的状态和位置信息、环境隐患的状态和位置信息、人员违规状态的详细动作和位置信息进行描述,以构成第一描述内容;第二描述模块,用于对所述训练数据中是否存在其他重要目标,并描述其他重要目标的状态及位置,以构成第二描述内容;组合模块,用于将第一描述内容与所述第二描述内容组合,以得到描述内容;
所述分析制定子单元,用于将所述描述内容与业务判定逻辑链条进行匹配,形成分析过程的阐述,并得到结论。
5.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的方法。
6.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的方法。
CN202311271786.6A 2023-09-28 2023-09-28 多模态生成式大模型训练方法、装置及计算机设备 Active CN117011686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311271786.6A CN117011686B (zh) 2023-09-28 2023-09-28 多模态生成式大模型训练方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311271786.6A CN117011686B (zh) 2023-09-28 2023-09-28 多模态生成式大模型训练方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN117011686A CN117011686A (zh) 2023-11-07
CN117011686B true CN117011686B (zh) 2024-03-15

Family

ID=88565756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311271786.6A Active CN117011686B (zh) 2023-09-28 2023-09-28 多模态生成式大模型训练方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN117011686B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117453898B (zh) * 2023-12-25 2024-03-22 中国科学院自动化研究所 基于思维链的跨模态问答的处理方法和装置
CN118334604B (zh) * 2024-06-12 2024-10-01 海信集团控股股份有限公司 基于多模态大模型的事故检测、数据集构建方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497510A (zh) * 2022-10-10 2022-12-20 网易(杭州)网络有限公司 一种语音情感识别方法、装置、电子设备及存储介质
CN115526259A (zh) * 2022-09-29 2022-12-27 清华大学 一种多模态预训练模型的训练方法和装置
CN116050496A (zh) * 2023-01-28 2023-05-02 Oppo广东移动通信有限公司 图片描述信息生成模型的确定方法及装置、介质、设备
WO2023142532A1 (zh) * 2022-01-26 2023-08-03 华为云计算技术有限公司 一种推理模型训练方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230245485A1 (en) * 2022-01-31 2023-08-03 Intuit Inc. Multimodal multitask machine learning system for document intelligence tasks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023142532A1 (zh) * 2022-01-26 2023-08-03 华为云计算技术有限公司 一种推理模型训练方法及装置
CN115526259A (zh) * 2022-09-29 2022-12-27 清华大学 一种多模态预训练模型的训练方法和装置
CN115497510A (zh) * 2022-10-10 2022-12-20 网易(杭州)网络有限公司 一种语音情感识别方法、装置、电子设备及存储介质
CN116050496A (zh) * 2023-01-28 2023-05-02 Oppo广东移动通信有限公司 图片描述信息生成模型的确定方法及装置、介质、设备

Also Published As

Publication number Publication date
CN117011686A (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN117011686B (zh) 多模态生成式大模型训练方法、装置及计算机设备
Lyu et al. Towards faithful model explanation in nlp: A survey
EP3989104A1 (en) Facial feature extraction model training method and apparatus, facial feature extraction method and apparatus, device, and storage medium
CN110222513B (zh) 一种线上活动的异常监测方法、装置及存储介质
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN117351336A (zh) 图像审核方法和相关设备
CN109298783B (zh) 基于表情识别的标注监控方法、装置及电子设备
CN117909743A (zh) 训练数据集获得方法、装置、电子设备及可读存储介质
CN117768618A (zh) 一种基于视频图像分析人员违章的方法
WO2024001656A1 (zh) 日志异常的检测方法、设备及存储介质
CN117392577A (zh) 用于司法视频场景中行为识别方法、存储介质及电子设备
CN111507850A (zh) 核保方法及相关装置、设备
CN116049371A (zh) 一种基于正则化和对偶学习的视觉问答方法与装置
CN113378826B (zh) 一种数据处理方法、装置、设备及存储介质
CN115294576A (zh) 基于人工智能的数据处理方法、装置、计算机设备及介质
CN107992482A (zh) 数学主观题解答步骤的规约方法及系统
CN114238968A (zh) 应用程序检测方法及装置、存储介质及电子设备
Tang Research on Image Processing and Recognition Algorithms in Software Information Systems Based on Deep Learning
CN117953206B (zh) 一种基于点标注指引的混合监督目标检测方法及装置
CN118314574B (zh) 故障信息标注方法及相关设备
CN116978084A (zh) 表情标签识别方法、装置、电子设备及存储介质
CN117786347A (zh) 一种基于多模态技术的打标方法、系统、设备及介质
Laiti et al. Conditioned Prompt-Optimization for Continual Deepfake Detection
CN117216632A (zh) 译文质量分类方法及装置
CN118170909A (zh) 内容审核方法、平台、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: 518000, 1005A, Tianlong Mobile Headquarters Building, Tongfa South Road, Xili Community, Xili Street, Nanshan District, Shenzhen, Guangdong Province

Applicant after: Chuanshen Hongan Intelligent (Shenzhen) Co.,Ltd.

Address before: 1301, Building F, Tongfang Information Port, No. 11, Langshan Road, Songpingshan Community, Xili Street, Nanshan District, Shenzhen, Guangdong 518000

Applicant before: Zhugao Intelligent Technology (Shenzhen) Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant