CN116758591B - 基于图像语义识别的场站特殊旅客识别和交互系统及方法 - Google Patents
基于图像语义识别的场站特殊旅客识别和交互系统及方法 Download PDFInfo
- Publication number
- CN116758591B CN116758591B CN202311044432.8A CN202311044432A CN116758591B CN 116758591 B CN116758591 B CN 116758591B CN 202311044432 A CN202311044432 A CN 202311044432A CN 116758591 B CN116758591 B CN 116758591B
- Authority
- CN
- China
- Prior art keywords
- image
- module
- recognition
- model
- special
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000012790 confirmation Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 20
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 239000013589 supplement Substances 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010191 image analysis Methods 0.000 abstract description 2
- 230000002452 interceptive effect Effects 0.000 abstract 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像语义识别的场站特殊旅客识别和交互系统及方法,系统包括:图像采集终端、图像语义模型训练服务器、图像识别终端及交互终端,图像采集终端设有图像采集模块,图像语义模型训练服务器设有通用图像语义识别大模型及特殊旅客数据集,图像识别终端设有图像语义识别模块,交互终端设有服务人员提示模块、服务人员确认模块及特殊旅客关怀交互模块;本发明采用人工智能辅助服务人员的方式,从“发现”到“确认”到“帮服措施”,形成一整套完整的识别和交互系统,采用语义图像分析识别技术,对通用图像语义识别大模型进行微调训练,可适应复杂的场景和各式各样人的特征,具有较高的鲁棒性和准确性,可提高特殊旅客的发现效率。
Description
技术领域
本发明涉及计算机技术领域,特别是指一种基于图像语义识别的场站特殊旅客识别和交互系统及方法。
背景技术
随着公共交通行业的迅猛发展,人们的出行愈加方便,而在如机场、高铁站、火车站、地铁站等公共场所,往往人流密度会非常大,服务人员需要时刻留意现场环境。在这些公共场所中,有些旅客是需要被特别关注的,比如抱婴儿的人、孕妇、轮椅、婴儿车以及携带大件行李的旅客等,他们可能会遇到各种困难或危险,如走失、摔倒、受伤、被挤压等。如果能及时发现并帮助这些特殊旅客,不仅能保障旅客的安全和服务质量,也能提高公共场所的秩序和效率。
然而,在人流密集的环境中,服务人员很难凭借肉眼和经验来识别和定位这些特殊旅客,尤其是在视线受阻或光线不佳的情况下。此外,由于公共场所的规模和复杂度不断增加,服务人员的数量和分布也难以满足实际需求。因此,如何利用科技手段来提高人群中识别特殊旅客的能力和效率,成为了一个亟待解决的问题。
当前机场、车站等公共交通出行场景,对于孕妇、残疾人以及携带婴儿等特殊需求旅客的关注较少,更多依赖工作人员的及时发现和帮助,容易产生发现不及时、服务不专业等情况;针对特殊旅客识别,传统的图像检测和识别算法,需要对不同的旅客和行李都进行专门的图像标注和算法训练,需要的数据量非常庞大,算法鲁棒性差,对于新的识别需求无法及时满足,难以适应各种各样的场景;针对识别结果,现有技术无法避免会产生误识别情况,从而导致可能会采取错误的帮助措施或可能造成的歧视问题,如把微胖女士误识别成孕妇,采取相应的服务措施后可能会引起旅客的反感;对于特殊需求旅客所采取帮助措施,现有方式依赖工作人员的当前状态和经验,或者机器人提前设定好的程序,前者容易受工作人员的心情和工作经验影响,产生服务质量不稳定、服务措施不专业等情况,后者受限于提前设定好的有限服务程序,容易造成服务冰冷生硬,或服务不完善等情况。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于图像语义识别的场站特殊旅客识别和交互系统,用于检测识别各种场景中的特殊旅客,给出关怀建议和关怀策略,方便服务人员进行服务。
为了实现上述目的,本发明采用的解决方案是:
一种基于图像语义识别的场站特殊旅客识别和交互系统,其包括:图像采集终端、图像语义模型训练服务器、图像识别终端及交互终端,图像采集终端内设有图像采集模块,图像语义模型训练服务器内设有通用图像语义识别大模型及特殊旅客数据集,图像识别终端内设有图像语义识别模块,交互终端内设有服务人员提示模块、服务人员确认模块及特殊旅客关怀交互模块;
图像语义识别大模型与特殊旅客数据集结合经训练微调后形成所述图像语义识别模块,图像语义识别模块连接图像采集模块,图像采集模块采集场站内的视频或图像,并发送给图像语义识别模块,图像语义识别模块接收图像采集模块的视频或图像进行分析后输出特殊旅客的语义信息,并发送给服务人员提示模块,服务人员提示模块接收语义信息,并显示到终端显示界面,服务人员确认模块连接图像语义识别模块及特殊旅客关怀交互模块,服务人员确认模块对检测到的语义信息进行二次确认,特殊旅客关怀交互模块根据确认结果给出对应的关怀建议,同时确认结果也可以反馈或补充到特殊旅客数据集中。
进一步,服务人员确认模块包括“否认结果”和“确认结果”两个选项,选择“否认结果”时,图像与结果直接反馈和补充到特殊旅客数据集中,用于后续优化训练;选择“确认结果”时,特殊旅客关怀交互模块依据确认结果,分别对不同特殊旅客提出对应的关怀建议。
进一步,所述图像语义识别模块包括图像处理模块、转换器及大语言模型,图像处理模块基于ViT的模型,ViT使用Transformer编码器来捕获图像块之间的关系形成Embedding Vectors,转换器是基于Q-Former的自然语言理解模型,用于对EmbeddingVectors进行编码,最终输出VisualEmbeddings,VisualEmbeddings直接输入到大语言模型。
进一步,所述通用图像语义识别大模型进行训练微调的策略具体包括以下步骤:
步骤a.预处理
在进行训练微调操作之前,特殊旅客数据集中的图像都需要预处理到固定分辨率,并使用离散变分自动编码器将图像压缩到离散潜在网格;
步骤b.训练模型
通用图像语义识别大模型使用Transformer解码器架构,通过转换器将信息统一到大语言模型能理解的特征空间,使用与大语言模型相同的超参数,以及大语言模型的预训练参数;
步骤c.微调模型
通过上一阶段的训练,转换器已经学会提取图片的信息,接下来对转换器和大语言模型进行LoRA学习,使通用图像语义识别大模型能识别特殊旅客和给出对应的关怀策略。
本发明的另一目的在于克服现有技术的不足,提供一种基于图像语义识别的场站特殊旅客识别和交互方法,用于检测识别各种场景中的特殊旅客,给出关怀建议和关怀策略,方便服务人员进行服务。
为了解决上述目的,本发明采用的技术方案是:
一种基于图像语义识别的场站特殊旅客识别和交互方法,包括以下步骤:
步骤A:使用特殊旅客数据集对通用图像语义识别大模型进行训练和微调,使其成为符合现场使用要求的图像语义识别模块;
步骤B:图像采集模块获取场站内的图像视频流;
步骤C:图像视频流传入步骤A的图像语义识别模块,以文本+图像的形式输出识别结果;
步骤D:步骤C的识别结果显示到可供服务人员查看的终端显示界面上;
步骤E:服务人员对检测到的语义信息进行二次确认,确定特殊旅客检测结果;
步骤F:根据步骤E的确认结果,特殊旅客关怀交互模块分别对不同特殊旅客提出不同的关怀建议。
进一步,服务人员确认模块包括“否认结果”和“确认结果”两个选项,选择“否认结果”时,图像与结果直接反馈和补充到特殊旅客数据集中,用于后续优化训练;选择“确认结果”时,特殊旅客关怀交互模块依据确认结果,分别对不同特殊旅客提出对应的关怀建议。
进一步,所述图像语义识别模块包括图像处理模块、转换器及大语言模型,图像处理模块基于ViT的模型,ViT使用Transformer编码器来捕获图像块之间的关系形成Embedding Vectors,转换器是基于Q-Former的自然语言理解模型,用于对EmbeddingVectors进行编码,最终输出VisualEmbeddings,VisualEmbeddings直接输入到大语言模型。
进一步,所述图像处理模块处理图像的具体步骤如下:
步骤A1、将输入图像分成固定大小的块,每个块被展平为一个向量,块的数量决定了Transformer编码器的序列长度;
步骤B1、每个向量乘以可学习的嵌入矩阵,并添加可学习的Position Embedding来编码空间信息,同时一个用于分类的标记也被添加到向量里;
步骤C1、向量被传到Transformer编码器,该编码器由多层多头自注意力和前馈网络组成,此编码器学习捕获块之间的全局依赖性并产生相同长度的输出序列;
步骤D1、与分类标记相对应的输出被传递到具有softmax激活的前馈网络,该网络产生类别上的概率分布;选择概率最高的类别作为预测结果,加上向量最终形成EmbeddingVectors。
进一步,转换器的具体转换步骤如下:
步骤A2、自然语言理解模型使用循环神经网络作为编码器,将Embedding Vectors编码为隐藏状态,然后使用解码器从隐藏状态生成Queries,表示为总结输入含义的标记序列;
步骤B2、使用Transformer编码器将Queries编码为Query Embeddings,QueryEmbeddings是捕获Queries信息的向量,然后使用Transformer解码器将Query Embeddings解码为输出tokens,即给定任务的答案或预测;
步骤C2、使用全局注意力来学习Embedding Vectors和输出tokens之间的依赖关系,最终输出Visual Embeddings。
进一步,通用图像语义识别大模型进行训练微调的策略具体包括以下步骤:
步骤a.预处理
在进行训练微调操作之前,特殊旅客数据集中的图像都需要预处理到固定分辨率,并使用离散变分自动编码器将图像压缩到离散潜在网格;
步骤b.训练模型
通用图像语义识别大模型使用Transformer解码器架构,通过转换器将信息统一到大语言模型能理解的特征空间,使用与大语言模型相同的超参数,以及大语言模型的预训练参数;
步骤c.微调模型
通过上一阶段的训练,转换器已经学会提取图片的信息,接下来对转换器和大语言模型进行LoRA学习,使通用图像语义识别大模型能识别特殊旅客和给出对应的关怀策略。
采用上述方案后,本发明基于图像语义识别的场站特殊旅客识别和交互系统及方法相较于现有技术,具有以下优点:
本发明采用人工智能辅助服务人员的方式,从“发现”到“确认”到“帮服措施”,形成一整套完整的识别和交互系统,提高特殊旅客的发现效率,提升工作人员服务质量,减少工作人员的工作量。
本发明采用语义图像分析识别技术,对通用图像语义识别大模型进行微调训练,优点是不需要大量的标注数据来训练模型,只需要预先训练好的大模型即可,同时可以适应复杂的场景和各式各样人的特征,具有较高的鲁棒性和准确性。
本发明增加了二次确认流程模块,在图像语义识别大模型给出识别结果后,把关键词和对应的图像视频中的特殊旅客展示给工作人员,由工作人员进行二次确认,确保准确率和服务质量。
本发明在确认了特殊需求旅客后,会通过语义大模型通过现场情况实时给出专业的关怀建议和关怀策略,工作人员或者服务机器人可以结合给出的建议和策略,进行服务。
本发明通用图像语义识别大模型可以学习执行各种图像任务,例如图像补全、图像生成、图像分类和图像分割,而无需特定任务的架构或监督;可以利用其学习的语言和视觉表示,从文本描述或部分图像生成连贯且逼真的图像。它还可以理解物体外观和类别等二维图像特征,并以合理的方式组合不相关的概念;可以使用与 GPT 文本模型相同的转换器架构,没有任何卷积层或其他特定领域的设计选择,这使得训练和微调变得更加容易。
本发明基于图像语义识别的场站特殊旅客识别和交互系统及方法是基于图像语义识别技术,用于检测识别机场、车站等场景的特殊旅客,并提供特殊关怀建议或策略。本发明系统提高了工作效率和安全性,提升了旅客出行体验;可以适应不同的公共场所和环境条件,具有较强的通用性和鲁棒性;可以根据不同的需求和场景调整参数和标准,具有较高的灵活性和可扩展性。
附图说明
图1 为本发明的流程示意图。
图2为本发明通用图像语义识别大模型的结构示意图。
图3为本发明图像语义大模型识别结果示意图。
具体实施方式
为了进一步解释本发明的技术方案,下面通过具体实施例来对本发明进行详细阐述。
如图1所示,本发明提供了一种基于图像语义识别的场站特殊旅客识别和交互系统,主要针对机场、车站等场景的特殊旅客,并提供特殊关怀,包括:图像采集终端、图像语义模型训练服务器、图像识别终端及交互终端,图像采集终端内设有图像采集模块,图像语义模型训练服务器内设有通用图像语义识别大模型及特殊旅客数据集,图像识别终端内设有图像语义识别模块,交互终端内设有服务人员提示模块、服务人员确认模块及特殊旅客关怀交互模块;图像语义识别大模型与特殊旅客数据集结合经训练微调后形成所述图像语义识别模块,图像语义识别模块连接图像采集模块,图像采集模块采集场站内的视频或图像,并发送给图像语义识别模块,图像语义识别模块接收图像采集模块的视频或图像进行分析后输出特殊旅客的语义信息,并发送给服务人员提示模块,服务人员提示模块接收语义信息,并显示到终端显示界面,服务人员确认模块连接图像语义识别模块及特殊旅客关怀交互模块,服务人员确认模块包括“否认结果”和“确认结果”两个选项,选择“否认结果”时,图像与结果直接反馈和补充到特殊旅客数据集中,用于后续优化训练;选择“确认结果”时,特殊旅客关怀交互模块依据确认结果,分别对不同特殊旅客提出对应的关怀建议。
所述图像采集模块是在机场、车站等场站内部署的各种类型摄像头,如可以是场站内需要关注的特殊点位监控摄像头、安检摄像头,也可以是移动机器人的摄像头,主要做视频、图像采集用,可以通过网络等接口与终端连接,将采集的视频或图像发送给图像语义识别模块。
所述通用图像语义识别大模型结合大量标注后的特殊旅客图像集,经过训练微调后,形成所述图像语义识别模块,语义识别模块能够检测识别旅客通行场景中的抱婴儿、孕妇、轮椅、婴儿车、大件行李等特殊情况,图像语义识别模块接收图像采集模块采集到的图像或视频进行分析,输出图像中是否含有抱婴儿、孕妇、轮椅、婴儿车以及大件行李等语义信息。
所述服务人员提示模块,接收图像语义识别模块输出的语义信息,并显示到可供服务人员查看的终端显示界面上,服务人员可以对检测到的语义信息进行二次确认;终端上预先设置了与微调相同的词汇表和标签,如抱婴儿、孕妇、轮椅、婴儿车以及大件行李等,识别结果会根据这些标签自动筛查信息,用自然语言的形式给出结论,同时在图像上会标出对应的标签,方便服务人员快速理解场景语义,达到提示的效果,如图3所示。
服务人员确认模块可为避免大模型算法的误检事件,显示终端上看到的返回结果仅做提示功能,最终操作需要服务人员二次确认,在显示终端上设置了“否认结果”和“确认结果”两个选项,“否认结果”时会将图像和结果进行记录,并发送到特殊旅客数据集中进行保存;“确认结果”是在返回结果准确时确定结果,系统会记录此结果。
所述特殊旅客关怀交互模块,可以针对检测到的语义信息,分别给出不同旅客的关怀建议,通过服务人员直接使用或者选择机器人给特殊旅客关怀,提供便利。服务人员确认结果后,此结果会返回到系统,随后系统会分别给出不同特别旅客的关怀建议,如抱婴儿的旅客需引导走人工通道,残疾人士需走向前给予帮助,机器人会来到携带大行李箱的旅客身边让旅客将行李箱放置在机器人的“载货区域”,结束服务后服务人员可自行在系统上确认已为对应特殊旅客提供帮助。
本发明还基于上述系统揭示了一种基于图像语义识别的场站特殊旅客识别和交互方法,其包括以下步骤:
步骤A:使用特殊旅客数据集对通用图像语义识别大模型进行训练和微调,使其成为符合现场使用要求的图像语义识别模块;
步骤B:图像采集模块获取场站内的图像视频流;
步骤C:图像视频流传入步骤A的图像语义识别模块,以文本+图像的形式输出识别结果;
步骤D:步骤C的识别结果显示到可供服务人员查看的终端显示界面上;
步骤E:服务人员对检测到的语义信息进行二次确认, 确定特殊旅客检测结果;
步骤F:鉴于步骤E的确认结果,特殊旅客关怀交互模块分别对不同特殊旅客提出不同的关怀建议。
本发明的图像语义识别模块参考并使用网上开源的通用图像语义识别大模型(如OpenAI的Image GPT,清华大学的Visual GLM等)进行训练微调。如图2所示,所述通用图像语义识别大模型由三个模块组成:图像处理模块、转换器及大语言模型。
图像处理模块是基于Vision Transformer(ViT)的模型,用于处理图像识别等视觉处理任务。与使用卷积层从图像中提取特征的卷积神经网络(CNN)不同,ViT使用Transformer编码器来捕获图像块之间的关系。图像处理模块处理图像的具体步骤如下:
步骤A1、将输入图像分成固定大小的块,每个块被展平为一个向量,块的数量决定了Transformer编码器的序列长度;
步骤B1、每个向量乘以可学习的嵌入矩阵,并添加可学习的Position Embedding来编码空间信息,同时一个用于分类的标记也被添加到向量里;
步骤C1、向量被传到Transformer编码器,该编码器由多层多头自注意力和前馈网络组成,此编码器学习捕获块之间的全局依赖性并产生相同长度的输出序列;
步骤D1、与分类标记相对应的输出被传递到具有softmax激活的前馈网络,该网络产生类别上的概率分布;选择概率最高的类别作为预测结果,加上向量最终形成EmbeddingVectors。
转换器是基于Querying Transformer(Q-Former)的自然语言理解模型,它原来被用于使用查询机制对输入文本进行编码,但在本发明的通用图像语义识别大模型里它被用于对Embedding Vectors进行编码。转换器的具体转换步骤如下:
步骤A2、模型使用循环神经网络 (RNN)作为编码器,将Embedding Vectors编码为隐藏状态,然后使用解码器(另一个 RNN)从隐藏状态生成Queries,表示为总结输入含义的标记序列;
步骤B2、使用Transformer编码器将Queries编码为Query Embeddings,QueryEmbeddings是捕获Queries信息的向量,然后使用Transformer解码器将Query Embeddings解码为输出tokens,即给定任务的答案或预测;
步骤C2、使用全局注意力来学习Embedding Vectors和输出tokens之间的依赖关系,最终输出Visual Embeddings。
大语言模型主要使用了注意力机制来处理文本的输入输出,例如GPT-3和ChatGLM-6B,在通用图像语义识别大模型里,由于三个模块都是用Transformer编码器,因此他们之间是可以理解含义,转换器中的Visual Embeddings能直接输入到大语言模型,也就是说大语言模型此时能理解图像语义,用户可通过自然语言与之交流。
本发明基于通用图像语义识别大模型进行训练微调的策略具体包括以下步骤:
步骤a.预处理
训练微调操作可适用于任何数据集,在进行训练微调操作之前,数据集中的图像(图片或视频)都需要预处理到固定分辨率,并使用离散变分自动编码器(discreteVariational Autoencoder,dVAE)将图像压缩到更小的离散潜在网格。
步骤b.训练模型
通用图像语义识别大模型使用Transformer解码器架构,此框架与大语言模型的框架相同,而且通过转换器可以将信息统一到大语言模型能理解的特征空间,无需任何卷积层或其他特定领域的专门设计,因此可以使用与大语言模型相同的超参数,例如学习率、批量大小、优化器等,以及大语言模型的预训练参数。本发明冻结了图像处理模块和大语言模型的参数,目的是防止灾难性遗忘,使用经过预处理的数据集,对图像处理模块和转换器进行LoRA学习。
LoRA是局部重新加权聚合(Local Reweighting Aggregation),在不改变原始参数的情况下,在模型的每一层添加少量可训练参数,从而实现微调模型的效果。LoRA可以使模型的特征(features)或嵌入(embeddings)适应新任务。
步骤c.微调模型
通过上一阶段的训练,转换器已经学会提取图片的信息,接下来对转换器和大语言模型进行LoRA学习,使通用图像语义识别大模型能识别特殊旅客和给出对应的关怀策略。
上述实施例和图式并非限定本发明的产品形态和式样,任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应视为不脱离本发明的专利范畴。
Claims (8)
1.基于图像语义识别的场站特殊旅客识别和交互系统,其特征在于,包括:图像采集终端、图像语义模型训练服务器、图像识别终端及交互终端,图像采集终端内设有图像采集模块,图像语义模型训练服务器内设有通用图像语义识别大模型及特殊旅客数据集,图像识别终端内设有图像语义识别模块,交互终端内设有服务人员提示模块、服务人员确认模块及特殊旅客关怀交互模块;
通用图像语义识别大模型与特殊旅客数据集结合经训练微调后形成所述图像语义识别模块,图像语义识别模块连接图像采集模块,图像采集模块采集场站内的视频或图像,并发送给图像语义识别模块,图像语义识别模块接收图像采集模块的视频或图像进行分析后输出特殊旅客的语义信息,并发送给服务人员提示模块,服务人员提示模块接收语义信息,并显示到终端显示界面,服务人员确认模块连接图像语义识别模块及特殊旅客关怀交互模块,服务人员确认模块对检测到的语义信息进行二次确认,特殊旅客关怀交互模块根据确认结果给出对应的关怀建议,同时确认结果,并反馈或补充到特殊旅客数据集中;
其中,通用图像语义识别大模型进行训练微调的策略具体包括以下步骤:
步骤a.预处理
在进行训练微调操作之前,特殊旅客数据集中的图像都需要预处理到固定分辨率,并使用离散变分自动编码器将图像压缩到离散潜在网格;
步骤b.训练模型
通用图像语义识别大模型使用Transformer解码器架构,通过转换器将信息统一到大语言模型能理解的特征空间,使用与大语言模型相同的超参数,以及大语言模型的预训练参数;
步骤c.微调模型
通过上一阶段的训练,转换器已经学会提取图片的信息,接下来对转换器和大语言模型进行LoRA学习,使通用图像语义识别大模型能识别特殊旅客和给出对应的关怀策略。
2.如权利要求1所述的基于图像语义识别的场站特殊旅客识别和交互系统,其特征在于:服务人员确认模块包括“否认结果”和“确认结果”两个选项,选择“否认结果”时,图像与结果直接反馈和补充到特殊旅客数据集中,用于后续优化训练;选择“确认结果”时,特殊旅客关怀交互模块依据确认结果,分别对不同特殊旅客提出对应的关怀建议。
3. 如权利要求1所述的基于图像语义识别的场站特殊旅客识别和交互系统,其特征在于:所述图像语义识别模块包括图像处理模块、转换器及大语言模型,图像处理模块基于ViT的模型,ViT使用Transformer编码器来捕获图像块之间的关系形成EmbeddingVectors,转换器是基于Q-Former的自然语言理解模型,用于对Embedding Vectors进行编码,最终输出VisualEmbeddings,VisualEmbeddings直接输入到大语言模型。
4.基于图像语义识别的场站特殊旅客识别和交互方法,其特征在于,包括以下步骤:
步骤A:使用特殊旅客数据集对通用图像语义识别大模型进行训练和微调,使其成为符合现场使用要求的图像语义识别模块;
通用图像语义识别大模型进行训练微调的策略具体包括以下步骤:
步骤a.预处理
在进行训练微调操作之前,特殊旅客数据集中的图像都需要预处理到固定分辨率,并使用离散变分自动编码器将图像压缩到离散潜在网格;
步骤b.训练模型
通用图像语义识别大模型使用Transformer解码器架构,通过转换器将信息统一到大语言模型能理解的特征空间,使用与大语言模型相同的超参数,以及大语言模型的预训练参数;
步骤c.微调模型
通过上一阶段的训练,转换器已经学会提取图片的信息,接下来对转换器和大语言模型进行LoRA学习,使通用图像语义识别大模型能识别特殊旅客和给出对应的关怀策略;
步骤B:图像采集模块获取场站内的图像视频流;
步骤C:图像视频流传入步骤A的图像语义识别模块,以文本+图像的形式输出识别结果;
步骤D:步骤C的识别结果显示到可供服务人员查看的终端显示界面上;
步骤E:服务人员对检测到的语义信息进行二次确认,确定特殊旅客检测结果;
步骤F:根据步骤E的确认结果,特殊旅客关怀交互模块分别对不同特殊旅客提出不同的关怀建议。
5.如权利要求4所述的基于图像语义识别的场站特殊旅客识别和交互方法,其特征在于:服务人员确认模块包括“否认结果”和“确认结果”两个选项,选择“否认结果”时,图像与结果直接反馈和补充到特殊旅客数据集中,用于后续优化训练;选择“确认结果”时,特殊旅客关怀交互模块依据确认结果,分别对不同特殊旅客提出对应的关怀建议。
6. 如权利要求4所述的基于图像语义识别的场站特殊旅客识别和交互方法,其特征在于:所述图像语义识别模块包括图像处理模块、转换器及大语言模型,图像处理模块基于ViT的模型,ViT使用Transformer编码器来捕获图像块之间的关系形成EmbeddingVectors,转换器是基于Q-Former的自然语言理解模型,用于对Embedding Vectors进行编码,最终输出VisualEmbeddings,VisualEmbeddings直接输入到大语言模型。
7.如权利要求6所述的基于图像语义识别的场站特殊旅客识别和交互方法,其特征在于,所述图像处理模块处理图像的具体步骤如下:
步骤A1、将输入图像分成固定大小的块,每个块被展平为一个向量,块的数量决定了Transformer编码器的序列长度;
步骤B1、每个向量乘以可学习的嵌入矩阵,并添加可学习的Position Embedding来编码空间信息,同时一个用于分类的标记也被添加到向量里;
步骤C1、向量被传到Transformer编码器,该编码器由多层多头自注意力和前馈网络组成,此编码器学习捕获块之间的全局依赖性并产生相同长度的输出序列;
步骤D1、与分类标记相对应的输出被传递到具有softmax激活的前馈网络,该网络产生类别上的概率分布;选择概率最高的类别作为预测结果,加上向量最终形成EmbeddingVectors。
8.如权利要求6所述的基于图像语义识别的场站特殊旅客识别和交互方法,其特征在于,转换器的具体转换步骤如下:
步骤A2、自然语言理解模型使用循环神经网络作为编码器,将Embedding Vectors编码为隐藏状态,然后使用解码器从隐藏状态生成Queries,表示为总结输入含义的标记序列;
步骤B2、使用Transformer编码器将Queries编码为Query Embeddings,QueryEmbeddings是捕获Queries信息的向量,然后使用Transformer解码器将Query Embeddings解码为输出tokens,即给定任务的答案或预测;
步骤C2、使用全局注意力来学习Embedding Vectors和输出tokens之间的依赖关系,最终输出Visual Embeddings。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311044432.8A CN116758591B (zh) | 2023-08-18 | 2023-08-18 | 基于图像语义识别的场站特殊旅客识别和交互系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311044432.8A CN116758591B (zh) | 2023-08-18 | 2023-08-18 | 基于图像语义识别的场站特殊旅客识别和交互系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116758591A CN116758591A (zh) | 2023-09-15 |
CN116758591B true CN116758591B (zh) | 2023-11-21 |
Family
ID=87961275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311044432.8A Active CN116758591B (zh) | 2023-08-18 | 2023-08-18 | 基于图像语义识别的场站特殊旅客识别和交互系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116758591B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117671918B (zh) * | 2023-11-10 | 2024-08-27 | 深圳市亲邻科技有限公司 | 一种基于边缘服务器的社区特殊区域安全识别方法与系统 |
CN118555552A (zh) * | 2024-07-30 | 2024-08-27 | 宁波数字孪生(东方理工)研究院 | 一种基于WiFi-CSI大模型技术的人体动作识别系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484666A (zh) * | 2014-12-17 | 2015-04-01 | 中山大学 | 一种基于人机交互的图像高级语义解析的方法 |
CN111625641A (zh) * | 2020-07-30 | 2020-09-04 | 浙江大学 | 一种基于多维度语义交互表征模型的对话意图识别方法及系统 |
CN112926699A (zh) * | 2021-04-25 | 2021-06-08 | 恒生电子股份有限公司 | 异常对象识别方法、装置、设备及存储介质 |
KR102291296B1 (ko) * | 2021-05-12 | 2021-08-20 | 방윤 | 시각 장애인 보행 보조 시스템 |
CN113743213A (zh) * | 2021-08-02 | 2021-12-03 | 日立楼宇技术(广州)有限公司 | 一种辅助特殊乘客乘梯的方法、装置及存储介质 |
CN113743211A (zh) * | 2021-08-02 | 2021-12-03 | 日立楼宇技术(广州)有限公司 | 一种扶梯视频监控系统、方法、装置及存储介质 |
CN116259075A (zh) * | 2023-01-16 | 2023-06-13 | 安徽大学 | 基于提示微调预训练大模型的行人属性识别方法 |
CN116418915A (zh) * | 2021-12-28 | 2023-07-11 | 中国联合网络通信集团有限公司 | 非正常号码识别方法、装置、服务器和存储介质 |
CN116485943A (zh) * | 2023-03-22 | 2023-07-25 | 北京迈格威科技有限公司 | 图像生成方法、电子设备及存储介质 |
-
2023
- 2023-08-18 CN CN202311044432.8A patent/CN116758591B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484666A (zh) * | 2014-12-17 | 2015-04-01 | 中山大学 | 一种基于人机交互的图像高级语义解析的方法 |
CN111625641A (zh) * | 2020-07-30 | 2020-09-04 | 浙江大学 | 一种基于多维度语义交互表征模型的对话意图识别方法及系统 |
CN112926699A (zh) * | 2021-04-25 | 2021-06-08 | 恒生电子股份有限公司 | 异常对象识别方法、装置、设备及存储介质 |
KR102291296B1 (ko) * | 2021-05-12 | 2021-08-20 | 방윤 | 시각 장애인 보행 보조 시스템 |
CN113743213A (zh) * | 2021-08-02 | 2021-12-03 | 日立楼宇技术(广州)有限公司 | 一种辅助特殊乘客乘梯的方法、装置及存储介质 |
CN113743211A (zh) * | 2021-08-02 | 2021-12-03 | 日立楼宇技术(广州)有限公司 | 一种扶梯视频监控系统、方法、装置及存储介质 |
CN116418915A (zh) * | 2021-12-28 | 2023-07-11 | 中国联合网络通信集团有限公司 | 非正常号码识别方法、装置、服务器和存储介质 |
CN116259075A (zh) * | 2023-01-16 | 2023-06-13 | 安徽大学 | 基于提示微调预训练大模型的行人属性识别方法 |
CN116485943A (zh) * | 2023-03-22 | 2023-07-25 | 北京迈格威科技有限公司 | 图像生成方法、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
BLIP-2:下一代多模态模型的雏形;Amusi(CVer);《https://blog.csdn.net/amusi1994/article/details/129095966》;第1页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116758591A (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116758591B (zh) | 基于图像语义识别的场站特殊旅客识别和交互系统及方法 | |
CN113792112A (zh) | 视觉语言任务处理系统、训练方法、装置、设备及介质 | |
Hoang et al. | Context-aware emotion recognition based on visual relationship detection | |
WO2023015799A1 (zh) | 基于人工智能导盲的多模态融合障碍物检测方法及装置 | |
Wang et al. | A deep generative approach for rail foreign object detections via semisupervised learning | |
Ezzouhri et al. | Robust deep learning-based driver distraction detection and classification | |
CN112163447B (zh) | 基于Attention和SqueezeNet的多任务实时手势检测和识别方法 | |
Yang et al. | Human-centered emotion recognition in animated gifs | |
CN113516152A (zh) | 一种基于复合图像语义的图像描述方法 | |
Koli et al. | Human action recognition using deep neural networks | |
CN113642630A (zh) | 基于双路特征编码器的图像描述方法及系统 | |
Huang et al. | Posture-based infant action recognition in the wild with very limited data | |
Mocanu et al. | Audio-video fusion with double attention for multimodal emotion recognition | |
CN117011932A (zh) | 一种奔跑行为检测方法、电子设备及存储介质 | |
Koner et al. | Scenes and surroundings: Scene graph generation using relation transformer | |
CN115953832A (zh) | 一种基于语义解耦的自注意力模型的组合动作识别方法 | |
CN115809352A (zh) | 局部监督长视频时序文本检索方法及系统 | |
Zhang et al. | Real-Time Detection of Small Targets for Video Surveillance Based on MS-YOLOv5 | |
Xie et al. | Cross-modal Learning for Event-based Semantic Segmentation via Attention Soft Alignment | |
Xin | Application of Deep learning in computer vision | |
Amutha et al. | Real-Time Sign Language Recognition using a Multimodal Deep Learning Approach | |
CN111666830A (zh) | 一种密集人群计数检测框架 | |
Amma et al. | Real Time Facial Expression Recognition Based On Deep Neural Network | |
Wang et al. | Furnishing Sound Event Detection with Language Model Abilities | |
Chen et al. | Leveraging Multimodal Knowledge for Spatio-Temporal Action Localization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |