CN116383365A - 一种基于智能制造的学习资料生成方法、系统及电子设备 - Google Patents

一种基于智能制造的学习资料生成方法、系统及电子设备 Download PDF

Info

Publication number
CN116383365A
CN116383365A CN202310640500.0A CN202310640500A CN116383365A CN 116383365 A CN116383365 A CN 116383365A CN 202310640500 A CN202310640500 A CN 202310640500A CN 116383365 A CN116383365 A CN 116383365A
Authority
CN
China
Prior art keywords
information
dialogue
text
image
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310640500.0A
Other languages
English (en)
Other versions
CN116383365B (zh
Inventor
彭广德
王睿
李卫燊
李卫铳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ligong Industrial Co ltd
Original Assignee
Guangzhou Ligong Industrial Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ligong Industrial Co ltd filed Critical Guangzhou Ligong Industrial Co ltd
Priority to CN202310640500.0A priority Critical patent/CN116383365B/zh
Publication of CN116383365A publication Critical patent/CN116383365A/zh
Application granted granted Critical
Publication of CN116383365B publication Critical patent/CN116383365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本方案涉及一种基于智能制造的学习资料生成方法、系统、电子设备及存储介质,该方法包括:接收询问信息,根据所述询问信息确定第一对话信息;根据所述第一对话信息进行至少一轮对话得到第二对话信息,生成对话文本;将所述对话文本输入训练好的多模态对话生成模型,生成对话文本对应的学习资料;输出所述学习资料。本发明可以在短时间内获取到具有针对性的、完整的培训和学习资料,减少获取学习资料的时间,可应用于智能制造培训领域。

Description

一种基于智能制造的学习资料生成方法、系统及电子设备
技术领域
本发明涉及人工智能应用领域,尤其涉及一种基于智能制造的学习资料生成方法、系统及电子设备。
背景技术
制造强国对智能制造工厂的发展都很重视,对发展更先进的、更快速的、更高效的、更智能的学习系统投入很大,我国在新制造设备的员工培训这方面的研究还不是很深入。效率、质量是先进制造技术的主体考虑方面。高速、高精密技术的运用可以显著提高效率,提高产品的档次和质量,能显著缩短生产周期和显著提高市场竞争力。工人通过查看新制造工艺说明手册以及培训学习等方法学习,减少非生产时间,提高了机床的使用效率和准确性,降低了生产成本,提高生产的灵活性。为了满足工业自动化的发展,FPGA中间层板卡(FPGA Mezzanine Card,FMC)、柔性制造系统(Flexible Manufacture System,FMS)、计算机集成制造系统(Computer Integrated Manufacturing Systems,CIMS)等提供必要的基础设施,具有联网交流等功能,根据用户不同的要求,数控机床等加工设备可以灵活的设置和集成。
当出现新的制造加工工艺或者更换产品设备时,需要对工厂的工人进行工艺培训,或者在工厂招聘新人之后,需要对新人进行机床操作的培训。现有的工艺培训和机床操作学习方法通常是直接将整个生产环境进行停机实操教学,也没有针对新工艺和产业链上的新增机器设备以及零件的系统性介绍,上述培训或学习没有针对性,存在浪费时间、人工成本和机器成本的问题。
发明内容
有鉴于此,本发明的目的是提供一种基于智能制造的学习资料生成方法、系统及电子设备及存储介质,可以在短时间内获取到具有针对性的、完整的培训和学习资料,减少人工成本和机器成本。
为了解决上述问题之一,第一方面,本发明提供了一种基于智能制造的学习资料生成方法,应用于智能终端,包括以下步骤:
接收询问信息,根据所述询问信息确定第一对话信息;
根据所述第一对话信息进行至少一轮对话得到第二对话信息,生成对话文本;
将所述对话文本输入训练好的多模态对话生成模型,生成对话文本对应的学习资料,输出所述学习资料。
可选地,在本发明第一方面提供的方法中,所述询问信息的形式包括图像和语音,所述根据所述询问信息确定第一对话信息,包括:
确定所述询问信息的形式;
若所述对话信息形式为图像,抠出所述图像的目标区域,根据所述目标区域提取所述图像的标注信息和图像信息,将所述标注信息和所述图像信息确定为第一对话信息;
若所述对话信息形式为语音,将所述语音转化为数字信号,根据所述数字信号提取所述语音的文字信息,根据所述文字信息提取标注信息,将所述标注信息确定为第一对话信息。
可选地,在本发明第一方面提供的方法中,所述根据所述第一对话信息进行至少一轮对话得到第二对话信息,生成对话文本,包括:
将所述第一对话信息输入训练好的多模态对话生成模型,得到与所述第一对话信息对应的应答信息;
判断当前对话任务是否继续,若继续,进行下一轮对话;
否则,根据所述第一对话信息和所述应答信息得到第二对话信息,根据第二对话信息生成对话文本。
可选地,在本发明第一方面提供的方法中,在所述将所述对话文本输入训练好的多模态对话生成模型之前,所述方法还包括:
对所述对话文本进行随机增强;
根据增强后对话文本的语义保留符合需求的所述标注信息和/或所述图像信息。
可选地,在本发明第一方面提供的方法中,在所述输出所述学习资料之后,还包括:
保存对话节点信息,所述对话节点信息包括所述对话文本。
可选择地,在本发明第一方面提供的方法中,所述多模态对话生成模型的训练过程如下:
根据问答信息标注第一图像,得到第一数据集;
从所述第一数据集中选取数量一定的第二图像,抠出所述第二图像的目标区域;对所述目标区域进行增强得到第二数据集;所述目标区域包括图像信息和标注信息;
将所述第一数据集、所述第二数据集和背景数据集合并,得到第三数据集;
使用公开数据集对多模态卷积神经网络模型进行第一阶段预训练得到第一模型,使用所述第三数据集对所述第一模型进行第二阶段训练,得到所述多模态对话生成模型。
可选地,在本发明第一方面提供的方法中,所述对所述目标区域进行增强得到第二数据集包括:
随机改变所述图像信息的特征形状得到增强图像信息;
对所述标注信息进行随机增强得到增强标注信息;
组合所述增强图像信息和增强标注信息得到所述第二数据集。
为了解决上述问题之一,第二方面,本发明提供了一种基于智能制造的学习资料生成系统,所述系统包括:
获取模块,用于接收询问信息,根据所述询问信息确定第一对话信息;
对话模块,用于根据所述第一对话信息进行至少一轮对话得到第二对话信息,生成对话文本;
输出模块,用于将所述对话文本输入训练好的多模态对话生成模型,生成对话文本对应的学习资料;输出所述学习资料。
为了解决上述问题之一,第三方面,本发明提供了一种电子设备,其特征在于,包括:所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的方法。
为了解决上述问题之一,第四方面,本发明提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如第一方面所述的方法。
实施本发明包括以下有益效果:本发明通过利用智能终端识别对话输入的询问信息地到对话信息,根据所述对话信息进行至少一轮对话,根据对话信息生成对话文本,将所述对话文本输入多模态对话生成模型,生成对话文本对应的学习资料,只需要向智能终端输入图像或语音就能生成相关的学习资料,使智能制造工厂在进行职工工艺培训和机床操作培训时不需要将整个生产环境进行停机,减少人工和机器成本的浪费,并且可以在短时间内获取到具有针对性的、完整的培训和学习资料,减少获取学习资料的时间。
附图说明
图1是本发明提供的一种基于智能制造的学习资料生成方法获取学习资料的流程图;
图2是本发明提供的智能终端生成对话文本的流程图;
图3是本发明提供的智能终端进行至少一轮对话生成对话文本的示意图;
图4是根据历史节点和历史对话文本进行对话的流程;
图5是本发明提供的一种基于智能制造的学习资料生成系统的结构示意图;
图6是本发明提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
为了更好的理解本发明,实施例基于MiniGPT-4在智能制造工厂工艺培训的应用对本发明的技术方案进行解释说明,该方法也可以基于其他类型的智能对话机器人实现,同时也可以应用于其他领域的培训教学,现对相关概念进行描述。
MiniGPT-4:是一个具有图像理解能力的开源聊天机器人,可以描述图像或回答有关图像内容的问题,但在返回描述图像或回答有关图像内容的问题之前需要输入目标图片以及在输入目标图片之后输入请求机器人回答的问题,MiniGPT-4只能根据输入的问题的要求来描述图片或生成回答。
智能制造(Intelligent Manufacturing,IM)是一种由智能机器和人类专家共同组成的人机一体化智能系统,它在制造过程中能进行智能活动,诸如分析、推理、判断、构思和决策等。通过人与智能机器的合作共事,去扩大、延伸和部分地取代人类专家在制造过程中的脑力劳动。它把制造自动化的概念更新,扩展到柔性化、智能化和高度集成化。
卷积神经网络:卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。它包括卷积层(convolutional layer)和池化层(pooling layer),是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representationlearning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification),因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks, SIANN)”。
智能终端:本发明所述智能终端包括输入设备和与输入设备通信连接的远端服务器和/或其它服务器,所述输入设备用于获取用户上传的工厂图像或询问语音等询问信息,并提取图像和语音中的对话信息,将对话信息发送给云端服务器,所述云端服务器用于在接收到对话信息后,根据对话信息生成学习资料,将学习资料返回给输入设备,输入设备接收并显示学习资料。
如图1所示,图1是实施例提供的一种基于智能制造的学习资料生成方法获取学习资料的流程图,本发明提供了一种基于智能制造的学习资料生成方法,应用于智能终端,其包括的步骤如下所示:
S100、接收询问信息,根据所述询问信息确定第一对话信息。
智能终端的云端调用接口持续检测对话生成任务,智能终端实时更新状态,当智能终端的对话输入界面被打开、用户上传了图像或用户利用语音唤醒智能终端,即可以认定为检测到对话生成任务。所述询问信息为智能终端获取的图像和语音,所述第一对话信息从所述询问信息中提取得到。
所述智能终端包括但不限于装有实现上述方法的软件的手机、电脑、具有显示器的智能机器人,
S200、根据所述第一对话信息进行至少一轮对话得到第二对话信息,生成对话文本。
智能终端收到任务后开始与用户进行对话,根据用户输入的对话内容生成对应的应答信息,即回复第一对话信息的应答内容。例如用户输入一张智能制造工厂的某一台生产机器A的照片,智能终端生成与该生产机器A有关的文本,包括但不限于询问用户“是否需要获取A的操作资料?”、“需要获取A的操作手册或维修视频?”等相关应答信息。
若应答信息不符合用户需要,则用户会重新拍照上传或者通过语音引导智能终端进行下一轮对话,智能终端将多轮对话的对话信息生成对话文本,所属对话信息包括第一对话信息和智能终端回答的应答信息。
S300、将所述对话文本输入训练好的多模态对话生成模型,生成对话文本对应的学习资料,输出所述学习资料。
生成对话文本之后,智能终端将对话文本输入多模态对话生成模型,生成与对话文本中对话内容相对应的学习资料,并显示所述学习资料。
在本发明的一些实施例中,在步骤S100中所述询问信息的形式包括图像和语音,所述根据所述询问信息确定第一对话信息,包括:
S101、确定所述询问信息的形式;
由于用户可以直接拍照上传也可以通过语音询问两种方式发起对话,因此,在获取对话内容里的信息时,应先判断所述对话信息是图像还是语音。
S102、若所述对话信息形式为图像,抠出所述图像的目标区域,根据所述目标区域提取所述图像的标注信息和图像信息,将所述标注信息和所述图像信息确定为第一对话信息;
当用户是直接拍照上传时,智能终端得到的是图像信息,智能终端会对接收到的原始图像进行处理,从图像中抠出一个目标区域,从图像里获取信息,比如用户在拍照时并不能保证整张照片会被所述机器设备A填满,因此,智能终端将机器设备A从图像中选出来,锁定目标。
所属目标区域包括机器设备A的图像数据,根据图像数据导出对图像数据的标注信息,比如图像中机器设备A的型号、参数等其标注信息。
S103、若所述对话信息形式为语音,将所述语音转化为数字信号,根据所述数字信号提取所述语音的文字信息,根据所述文字信息提取标注信息,将所述标注信息确定为第一对话信息。
当用户通过语音询问时,智能终端中的语音前端模块将语音信号转换为数字信号,并提取有用的特征,如将语音信号转换为梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCC)和线性预测编码(Linear Predictive Coding,LPC)等。
得到数字信号之后,利用声学模型、语言模型、解码器等将数字通过概率分布将数字信号映射到文本序列,文本序列即为语音转化的文字信息。所述声学模型是将数字信号映射到文本序列的概率分布,包括但不限于隐马尔可夫模型(Hidden Markov Model,HMM)或深度神经网络(Machine Learning,DNN);所述语言模型是根据上下文和语言知识,将文本序列映射到下一个单词的概率分布,语言模型通常使用n-gram模型或循环神经网络(Recurrent Neural Network, RNN);所述解码器是根据声学模型和语言模型的输出生成最可能的文本序列,解码器通常使用维特比算法或束搜索算法。
可选地,所述询问信息的形式还可以是文字,若询问信息的形式是文字,则根据所述文字提取标注信息,将所述标注信息确定为第一对话信息。
上述图像信息和标注信息与训练多模态生成对话模型中的图像信息和标注信息具备一致性。
在本发明的一些实施例中,如图2所示,图2是实施例智能终端生成对话文本的流程图,所述步骤S200所述根据所述第一对话信息进行至少一轮对话得到第二对话信息,生成对话文本,具体包括:
S201、将所述第一对话信息输入训练好的多模态对话生成模型,得到与所述第一对话信息对应的应答信息;
每一轮对话,智能终端都会把从对话信息中获取的图像信息、标注信息输入多模态对话生成模型,多模态对话生成模型中存储有与图像信息或者标注信息对应的资料,包括应答信息和图像。
S202、判断当前对话任务是否继续,若继续,进行下一轮对话;
如图3所示,图3是实施例智能终端进行至少一轮对话生成对话文本的示意图,图中T1表示第一轮对话,T2、Tn以此类推,所述判断当前对话任务是否继续的依据可以是但不限于是:通过判断在一段时间S内是否有询问信息的输入,若有,则可以判断为继续对话,若没有,则可以判断为当前对话任务结束,生成对话文本。
S203、否则,根据所述第一对话信息和所述应答信息得到第二对话信息,根据第二对话信息生成对话文本。
根据所述标注信息、所述图像信息得到第二对话信息具体为将每一轮对话获取到的图像信息、标注信息以及智能终端的应答信息即与所述标注信息得到第二对话信息,对所述对话信息进行优化生成对话文本。
在本发明的一些实施例中,在所述将所述对话文本输入训练好的多模态对话生成模型之前,所述方法还包括:
对所述对话文本进行随机增强;
根据增强后对话文本的语义保留符合需求的所述标注信息和/或所述图像信息。
具体地,在步骤S203生成对话文本之后,通过同义词替换、句子重组、模板替换等对所述标注信息进行随机增强,结合对话文本中的上下语义剔除一些与用户所需信息不符的标注信息,比如用户输入一张含有机器设备A的图像,需要机器设备A的操作手册而不是机器设备A的维修视频,这个时候智能终端需要剔除有关机器设备A维修的标注信息,保留机器设备A的操作手册的标注信息。
通过旋转,缩放,平移和变换等方法对图像信息进行增强,使图像信息更为准确,让模型能够更加准确地识别所述图像信息。
如图4所示,图4是实施例根据历史节点和历史对话文本进行对话的流程图,在本发明的一些实施例中,在步骤S100之前,所述方法还包括:确定是否有历史对话节点,若有,则加载历史对话文本,在对话文本上继续进行对话;若无,则开启新的对话。
在本发发明的一些实施例中,在步骤S200生成对话文本之后,所述方法还包括:
判断是否继续对话,若继续对话,则在所述对话文本的基础上继续对话,若结束对话,则根据生成最终的对话文本。
具体的,在结束对话时,将所有的对话文本汇总,得到最终的对话文本。
在本发明的一些实施例中,在所述输出所述学习资料之后,还包括:
保存对话节点信息,所述对话节点信息包括所述对话文本。
所述对话文本包括每一轮对话中的至少一组第一对话信息和至少一组应答信息。
智能终端结束对话输出学习资料之后,返回原始对话节点,将智能终端结束对话节点下的的对话文本进行储存,待客户下次输入时继续根据该节点的对话文本获得上一次对话文本生成的学习资料以及基于上一次对话文本获得新的学习资料,不用再重复与智能终端进行上述对话,获得重复的学习资料。
在本发明的一些实施例中,所述方法S300中涉及的多模态对话生成模型的训练过程如下:
S501、根据问答信息标注第一图像,得到第一数据集。
具体地,所述第一图像包括各加工制造场景拍摄图片,制定图像与应答信息对应的标注标准,标注人员采用所述标注标准对所述第一图像进行标注。
S502、从所述第一数据集中选取数量一定的第二图像,抠出所述第二图像的目标区域;对所述目标区域进行增强得到第二数据集;
所述目标区域包括图像信息和标注信息;所述第二图像的图像数量小于或等有第一图像的图像数量。
S503、将所述第一数据集以及所述第二数据集和背景数据集合并,得到第三数据集。
所述背景数据集包括但不限于加工制造场景的工厂图像、设备图像、维修手册、维修视频、生产工艺视频、机床操作视频等学习资料。
将所述第一数据集以及所述第二数据集和背景数据集合并是指将第一数据集和第二数据集中的图像信息和标注信息与背景数据集中对应的加工制造场景的工厂图像、设备图像、维修手册、维修视频、生产工艺视频、机床操作视频组合,可以使智能终端根据图像信息和标注信息找到对应的学习资料。
S504、使用公开数据集对多模态卷积神经网络模型进行第一阶段预训练得到第一模型,使用所述第三数据集对所述第一模型进行第二阶段得到所述多模态对话生成模型。
具体地,所诉多模态卷积神经网络模型使用多模态卷积神经网络MiniGPT-4;公开数据集包括LAION和CC3M+CC12M+SBU。
在本发明地一些实施例中,多模态卷积神经网络MiniGPT-4包括一个预训练的ViT 、Q-Former 视觉编码器、一个单独的线性投影层和一个先进的 Vicuna 大型语言模型,MiniGPT-4 线性投影层将Q-Former 视觉编码器提取的视觉特征与 Vicuna 对齐。
使用公开数据集对多模态卷积神经网络模型进行一阶段预训练得到第一模型具体过程如下:将公开数据集里的图像,所述图像为不同类型的RGB图像,对图像进行预处理为输入规格大小不同的数据帧,第一图像以数据帧的形式输入多模态卷积神经网络MiniGPT-4,直至网络收敛。
使用所述第三数据集对所述第一模型进行第二阶段训练包括但不限于将所述图像信息、所述标注信息与背景数据集中的工厂图像、设备图像、维修手册、维修视频、生产工艺视频、机床操作视频对齐。
在本发明的一些实施例中,所述S503步骤对所述目标区域进行增强得到第二数据集包括:
随机改变所述图像信息的特征形状得到增强图像信息;
对所述标注信息进行随机增强得到增强标注信息;
组合所述增强图像信息和所述增强标注信息数据得到第二数据集。
随机改变所述图像信息的特征形状得到增强图像信息包括但不限于根据旋转、缩放、平移、变换和色相/饱和度/明度(Hue Saturation Value,HSV)图像处理等常见方法。
实施本发明包括以下有益效果:通过图像数据集对多模态卷积神经网络模型进行训练得到多模态对话生成模型,在智能制造工厂职工培训时,将所需学习操作的设备图像拍照上传给人工智能终端,通过实景图像和语音与智能终端建立对轮对话,智能终端通过多模态对话生成模型完成多轮对话的语义分析获得符合满足教学需求的学习材料。比如:拍下某型号机床,让该智能终端生成该机床的生产学习视频教程,或生成某段加工工艺需要适用什么刀具以及如何换刀等流程,工人还可以按照视频的提示操作机床。使智能制造工厂在进行职工工艺培训和机床操作培训时不需要将整个生产环境进行停机,减少人工和机器成本的浪费,并且可以在短时间内获取到具有针对性的、完整的培训和学习资料,减少获取学习资料的时间,对于提高工厂工人的工艺水平有很大的帮助。
如图5所示,图5是本发明提供的一种基于智能制造的学习资料生成系统的结构示意图,本发明还提供了一种基于智能制造的学习资料生成系统,包括:
获取模块10,用于接收询问信息,根据所述询问信息确定第一对话信息;
对话模块20,用于根据所述第一对话信息进行至少一轮对话得到第二对话信息,生成对话文本;
输出模块30,用于将所述对话文本输入训练好的多模态对话生成模型,生成对话文本对应的学习资料,输出所述学习资料。
在本发明的一些实施例中,所述获取模块10具体用于:
确定所述询问信息的形式。
若所述对话信息形式为图像,抠出所述图像的目标区域,根据所述目标区域提取所述图像的标注信息和图像信息,将所述标注信息和所述图像信息确定为第一对话信息。
若所述对话信息形式为语音,将所述语音转化为数字信号,根据所述数字信号提取所述语音的文字信息,根据所述文字信息提取标注信息,将所述标注信息确定为第一对话信息。
在本发明的一些实施例中,所述对话模块20将所述第一对话信息输入训练好的多模态对话生成模型,得到与所述第一对话信息对应的应答信息;
判断当前对话任务是否继续,若继续,进行下一轮对话。
否则,结束当前对话,根据所述第一对话信息和所述应答信息得到第二对话信息,根据第二对话信息生成对话文本。
在本发明的一些实施例中,所述系统还包括处理模块40,所述处理模块40用于对所述对话文本进行随机增强;根据所述对话文本的语义保留符合需求的所述标注信息和/或所述图像信息。
在本发明的一些实施例中,对话模块20还用于确定是否有历史对话节点,若有,则加载历史对话文本,在对话文本上继续进行对话;若无,则开启新的对话。
在本发明的一些实施例中,对话模块20还用于判断是否继续对话,若继续对话,则在所述对话文本的基础上继续对话,若结束对话,则根据生成最终的对话文本。
在本发明的一些实施例中,所述系统还包括反馈模块60,所述反馈模块60用于保存对话节点信息,所述对话节点信息包括所述对话文本。
所述反馈模块60具体用于在输出模块30输出学习资料之后接收输出模块30返回的任务结束信息以及保存当前节点下的对话文本;所述反馈模块60还用于在所述对话模块20确定有历史对话节点时,将保存的对话文本反馈给对话模块20。
在本发明的一些实施例中,所述系统还包括训练模块50,所述训练模块50用于:
根据应答信息标注第一图像,得到第一数据集。
从所述第一数据集中选取数量一定的第二图像,抠出所述第二图像的目标区域;对所述目标区域进行增强得到第二数据集;所述目标区域包括图像信息和标注信息。
将所述第一数据集以及所述第二数据集合并,得到第三数据集。
使用公开数据集对多模态卷积神经网络模型进行第一阶段预训练得到第一模型,使用所述第三数据集对所述第一模型进行第二阶段训练,得到所述多模态对话生成模型。
在本发明的一些实施例中,所述训练模块50还用于随机改变所述图像信息的特征形状得到增强图像信息;对所述标注信息进行随机增强得到增强标注信息;将所述增强图像信息和所述增强标注信息数据组合得到所述第二数据集。
所述输出模块30、所述反馈模块60和所述训练模块50可以配备在云服务器中也可以配备在智能硬件设备中,当所述输出模块30、所述反馈模块60和所述训练模块50配备在云服务器中,前述方法中的智能终端分为智能终端和云服务器两部分,所述云服务器为所述智能终端提供算法服务接口,以方便配备在智能终端的获取模块10、对话模块20、处理模块40与配备在云服务器上的输出模块30、反馈模块60和训练模块50连接,实现本发明提供的方法。
当所述输出模块30、所述反馈模块60和所述训练模块50配备在智能硬件设备中,即所述系统的所有模块都配备在智能硬件设备中。
可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
如图6所示,图6是本发明提供的一种电子设备的结构示意图,本发明还提供了一种电子设备,所述电子设备包括处理器1000和存储器2000,所述存储器2000存储有计算机程序,所述处理器1000执行所述计算机程序时实现上述方法实施例所述的任何一种方法。
其中,存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的远程存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
可见,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
此外,本申请实施例还公开了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述的方法。同样地,上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本发明还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行上述方法实施例所述的任何一种方法。
可以理解的是,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于智能制造的学习资料生成方法,其特征在于,应用于智能终端,包括:
接收询问信息,根据所述询问信息确定第一对话信息;
根据所述第一对话信息进行至少一轮对话得到第二对话信息,生成对话文本;
将所述对话文本输入训练好的多模态对话生成模型,生成对话文本对应的学习资料,输出所述学习资料。
2.根据权利要求1所述的方法,其特征在于,所述询问信息的形式包括图像和语音,所述根据所述询问信息确定第一对话信息,包括:
确定所述询问信息的形式;
若所述对话信息形式为图像,抠出所述图像的目标区域,根据所述目标区域提取所述图像的标注信息和图像信息,将所述标注信息和所述图像信息确定为第一对话信息;
若所述对话信息形式为语音,将所述语音转化为数字信号,根据所述数字信号提取所述语音的文字信息,根据所述文字信息提取标注信息,将所述标注信息确定为第一对话信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一对话信息进行至少一轮对话得到第二对话信息,生成对话文本,包括:
将所述第一对话信息输入训练好的多模态对话生成模型,得到与所述第一对话信息对应的应答信息;
判断当前对话任务是否继续,若继续,进行下一轮对话;
否则,根据所述第一对话信息和所述应答信息得到第二对话信息,根据第二对话信息生成对话文本。
4.根据权利要求2所述的方法,其特征在于,在所述将所述对话文本输入训练好的多模态对话生成模型之前,所述方法还包括:
对所述对话文本进行随机增强;
根据增强后对话文本的语义保留符合需求的所述标注信息和/或所述图像信息。
5.根据权利要求1所述的方法,其特征在于,在所述输出所述学习资料之后,还包括:
保存对话节点信息,所述对话节点信息包括所述对话文本。
6.根据权利要求1所述的方法,其特征在于,所述多模态对话生成模型的训练过程如下:
根据应答信息标注第一图像,得到第一数据集;
从所述第一数据集中选取数量一定的第二图像,抠出所述第二图像的目标区域;对所述目标区域进行增强得到第二数据集;所述目标区域包括图像信息和标注信息;
将所述第一数据集、所述第二数据集以及背景数据集合并,得到第三数据集;
使用公开数据集对多模态卷积神经网络模型进行第一阶段预训练得到第一模型,使用所述第三数据集对所述第一模型进行第二阶段训练,得到所述多模态对话生成模型。
7.根据权利要求6所述的方法,其特征在于,所述对所述目标区域进行增强得到第二数据集,具体包括:
随机改变所述图像信息的特征形状得到增强图像信息;
对所述标注信息进行随机增强得到增强标注信息;
组合所述增强图像信息和增强标注信息得到所述第二数据集。
8.一种基于智能制造的学习资料生成系统,其特征在于,所述系统包括:
获取模块,用于接收询问信息,根据所述询问信息确定第一对话信息;
对话模块,用于根据所述第一对话信息进行至少一轮对话得到第二对话信息,生成对话文本;
输出模块,用于将所述对话文本输入训练好的多模态对话生成模型,生成对话文本对应的学习资料,输出所述学习资料。
9.一种电子设备,其特征在于,包括:所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述的方法。
CN202310640500.0A 2023-06-01 2023-06-01 一种基于智能制造的学习资料生成方法、系统及电子设备 Active CN116383365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310640500.0A CN116383365B (zh) 2023-06-01 2023-06-01 一种基于智能制造的学习资料生成方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310640500.0A CN116383365B (zh) 2023-06-01 2023-06-01 一种基于智能制造的学习资料生成方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN116383365A true CN116383365A (zh) 2023-07-04
CN116383365B CN116383365B (zh) 2023-09-08

Family

ID=86980994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310640500.0A Active CN116383365B (zh) 2023-06-01 2023-06-01 一种基于智能制造的学习资料生成方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN116383365B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060123358A1 (en) * 2004-12-03 2006-06-08 Lee Hang S Method and system for generating input grammars for multi-modal dialog systems
US20070033526A1 (en) * 2005-08-03 2007-02-08 Thompson William K Method and system for assisting users in interacting with multi-modal dialog systems
CN102236645A (zh) * 2010-05-06 2011-11-09 上海五和际软件信息有限公司 基于语义逻辑的类自然语言人机对话装置
CN108108340A (zh) * 2017-11-28 2018-06-01 北京光年无限科技有限公司 用于智能机器人的对话交互方法及系统
CN109658928A (zh) * 2018-12-06 2019-04-19 山东大学 一种家庭服务机器人云端多模态对话方法、装置及系统
KR20190046062A (ko) * 2017-10-25 2019-05-07 얄리주식회사 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치
CN111899738A (zh) * 2020-07-29 2020-11-06 北京嘀嘀无限科技发展有限公司 对话生成方法、装置及存储介质
CN111897939A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
WO2021068321A1 (zh) * 2019-10-12 2021-04-15 平安科技(深圳)有限公司 基于人机交互的信息推送方法、装置和计算机设备
CN113438515A (zh) * 2021-06-17 2021-09-24 重庆大牛认知科技有限公司 一种基于智能交互的iptv端政务咨询方法和系统
JP2021152957A (ja) * 2020-10-14 2021-09-30 北京百度網訊科技有限公司 対話感情スタイル予測方法、装置、電子機器、記憶媒体及びプログラム
WO2021217935A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
CN113609289A (zh) * 2021-07-06 2021-11-05 河南工业大学 一种基于多模态对话文本的情感识别方法
CN113806508A (zh) * 2021-09-17 2021-12-17 平安普惠企业管理有限公司 基于人工智能的多轮对话方法、装置及存储介质
CN114416934A (zh) * 2021-12-24 2022-04-29 北京百度网讯科技有限公司 多模态的对话生成模型的训练方法、装置及电子设备
JP2022135734A (ja) * 2021-03-05 2022-09-15 Kddi株式会社 マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法
CN115563259A (zh) * 2022-10-10 2023-01-03 航天信息股份有限公司 一种多模态问答数据采集方法及装置
CN115840841A (zh) * 2023-02-01 2023-03-24 阿里巴巴达摩院(杭州)科技有限公司 多模态对话方法、装置、设备及存储介质
US20230153630A1 (en) * 2021-11-12 2023-05-18 Samsung Sds Co., Ltd. Method and apparatus for training language model for multi-modal dialog

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060123358A1 (en) * 2004-12-03 2006-06-08 Lee Hang S Method and system for generating input grammars for multi-modal dialog systems
US20070033526A1 (en) * 2005-08-03 2007-02-08 Thompson William K Method and system for assisting users in interacting with multi-modal dialog systems
CN102236645A (zh) * 2010-05-06 2011-11-09 上海五和际软件信息有限公司 基于语义逻辑的类自然语言人机对话装置
KR20190046062A (ko) * 2017-10-25 2019-05-07 얄리주식회사 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치
CN108108340A (zh) * 2017-11-28 2018-06-01 北京光年无限科技有限公司 用于智能机器人的对话交互方法及系统
CN109658928A (zh) * 2018-12-06 2019-04-19 山东大学 一种家庭服务机器人云端多模态对话方法、装置及系统
WO2021068321A1 (zh) * 2019-10-12 2021-04-15 平安科技(深圳)有限公司 基于人机交互的信息推送方法、装置和计算机设备
WO2021217935A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
CN111899738A (zh) * 2020-07-29 2020-11-06 北京嘀嘀无限科技发展有限公司 对话生成方法、装置及存储介质
CN111897939A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
JP2021152957A (ja) * 2020-10-14 2021-09-30 北京百度網訊科技有限公司 対話感情スタイル予測方法、装置、電子機器、記憶媒体及びプログラム
JP2022135734A (ja) * 2021-03-05 2022-09-15 Kddi株式会社 マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法
CN113438515A (zh) * 2021-06-17 2021-09-24 重庆大牛认知科技有限公司 一种基于智能交互的iptv端政务咨询方法和系统
CN113609289A (zh) * 2021-07-06 2021-11-05 河南工业大学 一种基于多模态对话文本的情感识别方法
CN113806508A (zh) * 2021-09-17 2021-12-17 平安普惠企业管理有限公司 基于人工智能的多轮对话方法、装置及存储介质
US20230153630A1 (en) * 2021-11-12 2023-05-18 Samsung Sds Co., Ltd. Method and apparatus for training language model for multi-modal dialog
CN114416934A (zh) * 2021-12-24 2022-04-29 北京百度网讯科技有限公司 多模态的对话生成模型的训练方法、装置及电子设备
CN115563259A (zh) * 2022-10-10 2023-01-03 航天信息股份有限公司 一种多模态问答数据采集方法及装置
CN115840841A (zh) * 2023-02-01 2023-03-24 阿里巴巴达摩院(杭州)科技有限公司 多模态对话方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PATRICK EHLEN.ET AL: "Multimodal dialogue in mobile local search", ICMI \'12: PROCEEDINGS OF THE 14TH ACM INTERNATIONAL CONFERENCE ON MULTIMODAL INTERACTION, pages 303 *
李晓明等: "基于多模态智能交互的虚拟数字人", 电力大数据, pages 36 - 43 *

Also Published As

Publication number Publication date
CN116383365B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN110377911B (zh) 对话框架下的意图识别方法和装置
CN110555095B (zh) 人机对话方法和装置
CN109543030B (zh) 客服机器人会话文本分类方法及装置、设备、存储介质
US10579921B1 (en) Devices, systems, and methods for learning and using artificially intelligent interactive memories
CN111261162B (zh) 语音识别方法、语音识别装置及存储介质
CN111737432A (zh) 一种基于联合训练模型的自动对话方法和系统
CN116976640B (zh) 自动化业务生成方法、装置、计算机设备及存储介质
CN113569017B (zh) 一种模型处理方法、装置、电子设备及存储介质
CN113255373B (zh) 一种基于Rasa框架的ARM侧离线对话系统、装置及存储介质
CN118246537B (zh) 基于大模型的问答方法、装置、设备及存储介质
CN114373028A (zh) 生成图片的方法及装置、电子设备
CN110517672B (zh) 用户意图识别方法、用户指令执行方法、系统及设备
CN113420111A (zh) 一种用于多跳推理问题的智能问答方法及装置
CN116383365B (zh) 一种基于智能制造的学习资料生成方法、系统及电子设备
CN113177112A (zh) 基于kr积融合多模态信息的神经网络视觉对话模型及方法
CN117592564A (zh) 问答交互方法、装置、设备及介质
CN117112766A (zh) 视觉对话方法、装置、电子设备和计算机可读存储介质
KR20210047047A (ko) 음성 인식을 이용한 자재 창고 관리 시스템 및 방법과, 그를 저장하는 컴퓨터 판독 가능한 기록매체
CN116561270A (zh) 问答方法以及问答模型训练方法
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
CN112328774B (zh) 基于多文档的任务型人机对话任务的实现方法
CN110110048B (zh) 问询指引方法及装置
Kang et al. Prograsp: Pragmatic human-robot communication for object grasping
CN112380332A (zh) 交互式的知识反馈方法、装置及计算机存储介质
CN114663650B (zh) 图像描述生成方法及装置、电子设备、可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant