CN116758591B

CN116758591B - 基于图像语义识别的场站特殊旅客识别和交互系统及方法

Info

Publication number: CN116758591B
Application number: CN202311044432.8A
Authority: CN
Inventors: 贾宝芝; 卢伟峰; 张选庆; 王汉超
Original assignee: Xiamen Ruiwei Information Technology Co ltd
Current assignee: Xiamen Ruiwei Information Technology Co ltd
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-11-21
Anticipated expiration: 2043-08-18
Also published as: CN116758591A

Abstract

本发明公开了一种基于图像语义识别的场站特殊旅客识别和交互系统及方法，系统包括：图像采集终端、图像语义模型训练服务器、图像识别终端及交互终端，图像采集终端设有图像采集模块，图像语义模型训练服务器设有通用图像语义识别大模型及特殊旅客数据集，图像识别终端设有图像语义识别模块，交互终端设有服务人员提示模块、服务人员确认模块及特殊旅客关怀交互模块；本发明采用人工智能辅助服务人员的方式，从“发现”到“确认”到“帮服措施”，形成一整套完整的识别和交互系统，采用语义图像分析识别技术，对通用图像语义识别大模型进行微调训练，可适应复杂的场景和各式各样人的特征，具有较高的鲁棒性和准确性，可提高特殊旅客的发现效率。

Description

基于图像语义识别的场站特殊旅客识别和交互系统及方法

技术领域

本发明涉及计算机技术领域，特别是指一种基于图像语义识别的场站特殊旅客识别和交互系统及方法。

背景技术

随着公共交通行业的迅猛发展，人们的出行愈加方便，而在如机场、高铁站、火车站、地铁站等公共场所，往往人流密度会非常大，服务人员需要时刻留意现场环境。在这些公共场所中，有些旅客是需要被特别关注的，比如抱婴儿的人、孕妇、轮椅、婴儿车以及携带大件行李的旅客等，他们可能会遇到各种困难或危险，如走失、摔倒、受伤、被挤压等。如果能及时发现并帮助这些特殊旅客，不仅能保障旅客的安全和服务质量，也能提高公共场所的秩序和效率。

然而，在人流密集的环境中，服务人员很难凭借肉眼和经验来识别和定位这些特殊旅客，尤其是在视线受阻或光线不佳的情况下。此外，由于公共场所的规模和复杂度不断增加，服务人员的数量和分布也难以满足实际需求。因此，如何利用科技手段来提高人群中识别特殊旅客的能力和效率，成为了一个亟待解决的问题。

当前机场、车站等公共交通出行场景，对于孕妇、残疾人以及携带婴儿等特殊需求旅客的关注较少，更多依赖工作人员的及时发现和帮助，容易产生发现不及时、服务不专业等情况；针对特殊旅客识别，传统的图像检测和识别算法，需要对不同的旅客和行李都进行专门的图像标注和算法训练，需要的数据量非常庞大，算法鲁棒性差，对于新的识别需求无法及时满足，难以适应各种各样的场景；针对识别结果，现有技术无法避免会产生误识别情况，从而导致可能会采取错误的帮助措施或可能造成的歧视问题，如把微胖女士误识别成孕妇，采取相应的服务措施后可能会引起旅客的反感；对于特殊需求旅客所采取帮助措施，现有方式依赖工作人员的当前状态和经验，或者机器人提前设定好的程序，前者容易受工作人员的心情和工作经验影响，产生服务质量不稳定、服务措施不专业等情况，后者受限于提前设定好的有限服务程序，容易造成服务冰冷生硬，或服务不完善等情况。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于图像语义识别的场站特殊旅客识别和交互系统，用于检测识别各种场景中的特殊旅客，给出关怀建议和关怀策略，方便服务人员进行服务。

为了实现上述目的，本发明采用的解决方案是：

一种基于图像语义识别的场站特殊旅客识别和交互系统，其包括：图像采集终端、图像语义模型训练服务器、图像识别终端及交互终端，图像采集终端内设有图像采集模块，图像语义模型训练服务器内设有通用图像语义识别大模型及特殊旅客数据集，图像识别终端内设有图像语义识别模块，交互终端内设有服务人员提示模块、服务人员确认模块及特殊旅客关怀交互模块；

图像语义识别大模型与特殊旅客数据集结合经训练微调后形成所述图像语义识别模块，图像语义识别模块连接图像采集模块，图像采集模块采集场站内的视频或图像，并发送给图像语义识别模块，图像语义识别模块接收图像采集模块的视频或图像进行分析后输出特殊旅客的语义信息，并发送给服务人员提示模块，服务人员提示模块接收语义信息，并显示到终端显示界面，服务人员确认模块连接图像语义识别模块及特殊旅客关怀交互模块，服务人员确认模块对检测到的语义信息进行二次确认，特殊旅客关怀交互模块根据确认结果给出对应的关怀建议，同时确认结果也可以反馈或补充到特殊旅客数据集中。

进一步，服务人员确认模块包括“否认结果”和“确认结果”两个选项，选择“否认结果”时，图像与结果直接反馈和补充到特殊旅客数据集中，用于后续优化训练；选择“确认结果”时，特殊旅客关怀交互模块依据确认结果，分别对不同特殊旅客提出对应的关怀建议。

进一步，所述图像语义识别模块包括图像处理模块、转换器及大语言模型，图像处理模块基于ViT的模型，ViT使用Transformer编码器来捕获图像块之间的关系形成Embedding Vectors，转换器是基于Q-Former的自然语言理解模型，用于对EmbeddingVectors进行编码，最终输出VisualEmbeddings，VisualEmbeddings直接输入到大语言模型。

进一步，所述通用图像语义识别大模型进行训练微调的策略具体包括以下步骤：

步骤a.预处理

在进行训练微调操作之前，特殊旅客数据集中的图像都需要预处理到固定分辨率，并使用离散变分自动编码器将图像压缩到离散潜在网格；

步骤b.训练模型

通用图像语义识别大模型使用Transformer解码器架构，通过转换器将信息统一到大语言模型能理解的特征空间，使用与大语言模型相同的超参数，以及大语言模型的预训练参数；

步骤c.微调模型

通过上一阶段的训练，转换器已经学会提取图片的信息，接下来对转换器和大语言模型进行LoRA学习，使通用图像语义识别大模型能识别特殊旅客和给出对应的关怀策略。

本发明的另一目的在于克服现有技术的不足，提供一种基于图像语义识别的场站特殊旅客识别和交互方法，用于检测识别各种场景中的特殊旅客，给出关怀建议和关怀策略，方便服务人员进行服务。

为了解决上述目的，本发明采用的技术方案是：

一种基于图像语义识别的场站特殊旅客识别和交互方法，包括以下步骤：

步骤A：使用特殊旅客数据集对通用图像语义识别大模型进行训练和微调，使其成为符合现场使用要求的图像语义识别模块；

步骤B：图像采集模块获取场站内的图像视频流；

步骤C：图像视频流传入步骤A的图像语义识别模块，以文本+图像的形式输出识别结果；

步骤D：步骤C的识别结果显示到可供服务人员查看的终端显示界面上；

步骤E：服务人员对检测到的语义信息进行二次确认，确定特殊旅客检测结果；

步骤F：根据步骤E的确认结果，特殊旅客关怀交互模块分别对不同特殊旅客提出不同的关怀建议。

进一步，所述图像处理模块处理图像的具体步骤如下：

步骤A1、将输入图像分成固定大小的块，每个块被展平为一个向量，块的数量决定了Transformer编码器的序列长度；

步骤B1、每个向量乘以可学习的嵌入矩阵，并添加可学习的Position Embedding来编码空间信息，同时一个用于分类的标记也被添加到向量里；

步骤C1、向量被传到Transformer编码器，该编码器由多层多头自注意力和前馈网络组成，此编码器学习捕获块之间的全局依赖性并产生相同长度的输出序列；

步骤D1、与分类标记相对应的输出被传递到具有softmax激活的前馈网络，该网络产生类别上的概率分布；选择概率最高的类别作为预测结果，加上向量最终形成EmbeddingVectors。

进一步，转换器的具体转换步骤如下：

步骤A2、自然语言理解模型使用循环神经网络作为编码器，将Embedding Vectors编码为隐藏状态，然后使用解码器从隐藏状态生成Queries，表示为总结输入含义的标记序列；

步骤B2、使用Transformer编码器将Queries编码为Query Embeddings，QueryEmbeddings是捕获Queries信息的向量，然后使用Transformer解码器将Query Embeddings解码为输出tokens，即给定任务的答案或预测；

步骤C2、使用全局注意力来学习Embedding Vectors和输出tokens之间的依赖关系，最终输出Visual Embeddings。

进一步，通用图像语义识别大模型进行训练微调的策略具体包括以下步骤：

步骤a.预处理

步骤b.训练模型

步骤c.微调模型

采用上述方案后，本发明基于图像语义识别的场站特殊旅客识别和交互系统及方法相较于现有技术，具有以下优点：

本发明采用人工智能辅助服务人员的方式，从“发现”到“确认”到“帮服措施”，形成一整套完整的识别和交互系统，提高特殊旅客的发现效率，提升工作人员服务质量，减少工作人员的工作量。

本发明采用语义图像分析识别技术，对通用图像语义识别大模型进行微调训练，优点是不需要大量的标注数据来训练模型，只需要预先训练好的大模型即可，同时可以适应复杂的场景和各式各样人的特征，具有较高的鲁棒性和准确性。

本发明增加了二次确认流程模块，在图像语义识别大模型给出识别结果后，把关键词和对应的图像视频中的特殊旅客展示给工作人员，由工作人员进行二次确认，确保准确率和服务质量。

本发明在确认了特殊需求旅客后，会通过语义大模型通过现场情况实时给出专业的关怀建议和关怀策略，工作人员或者服务机器人可以结合给出的建议和策略，进行服务。

本发明通用图像语义识别大模型可以学习执行各种图像任务，例如图像补全、图像生成、图像分类和图像分割，而无需特定任务的架构或监督；可以利用其学习的语言和视觉表示，从文本描述或部分图像生成连贯且逼真的图像。它还可以理解物体外观和类别等二维图像特征，并以合理的方式组合不相关的概念；可以使用与 GPT 文本模型相同的转换器架构，没有任何卷积层或其他特定领域的设计选择，这使得训练和微调变得更加容易。

本发明基于图像语义识别的场站特殊旅客识别和交互系统及方法是基于图像语义识别技术，用于检测识别机场、车站等场景的特殊旅客，并提供特殊关怀建议或策略。本发明系统提高了工作效率和安全性，提升了旅客出行体验；可以适应不同的公共场所和环境条件，具有较强的通用性和鲁棒性；可以根据不同的需求和场景调整参数和标准，具有较高的灵活性和可扩展性。

附图说明

图1 为本发明的流程示意图。

图2为本发明通用图像语义识别大模型的结构示意图。

图3为本发明图像语义大模型识别结果示意图。

具体实施方式

为了进一步解释本发明的技术方案，下面通过具体实施例来对本发明进行详细阐述。

如图1所示，本发明提供了一种基于图像语义识别的场站特殊旅客识别和交互系统，主要针对机场、车站等场景的特殊旅客，并提供特殊关怀，包括：图像采集终端、图像语义模型训练服务器、图像识别终端及交互终端，图像采集终端内设有图像采集模块，图像语义模型训练服务器内设有通用图像语义识别大模型及特殊旅客数据集，图像识别终端内设有图像语义识别模块，交互终端内设有服务人员提示模块、服务人员确认模块及特殊旅客关怀交互模块；图像语义识别大模型与特殊旅客数据集结合经训练微调后形成所述图像语义识别模块，图像语义识别模块连接图像采集模块，图像采集模块采集场站内的视频或图像，并发送给图像语义识别模块，图像语义识别模块接收图像采集模块的视频或图像进行分析后输出特殊旅客的语义信息，并发送给服务人员提示模块，服务人员提示模块接收语义信息，并显示到终端显示界面，服务人员确认模块连接图像语义识别模块及特殊旅客关怀交互模块，服务人员确认模块包括“否认结果”和“确认结果”两个选项，选择“否认结果”时，图像与结果直接反馈和补充到特殊旅客数据集中，用于后续优化训练；选择“确认结果”时，特殊旅客关怀交互模块依据确认结果，分别对不同特殊旅客提出对应的关怀建议。

所述图像采集模块是在机场、车站等场站内部署的各种类型摄像头，如可以是场站内需要关注的特殊点位监控摄像头、安检摄像头，也可以是移动机器人的摄像头，主要做视频、图像采集用，可以通过网络等接口与终端连接，将采集的视频或图像发送给图像语义识别模块。

所述通用图像语义识别大模型结合大量标注后的特殊旅客图像集，经过训练微调后，形成所述图像语义识别模块，语义识别模块能够检测识别旅客通行场景中的抱婴儿、孕妇、轮椅、婴儿车、大件行李等特殊情况，图像语义识别模块接收图像采集模块采集到的图像或视频进行分析，输出图像中是否含有抱婴儿、孕妇、轮椅、婴儿车以及大件行李等语义信息。

所述服务人员提示模块，接收图像语义识别模块输出的语义信息，并显示到可供服务人员查看的终端显示界面上，服务人员可以对检测到的语义信息进行二次确认；终端上预先设置了与微调相同的词汇表和标签，如抱婴儿、孕妇、轮椅、婴儿车以及大件行李等，识别结果会根据这些标签自动筛查信息，用自然语言的形式给出结论，同时在图像上会标出对应的标签，方便服务人员快速理解场景语义，达到提示的效果，如图3所示。

服务人员确认模块可为避免大模型算法的误检事件，显示终端上看到的返回结果仅做提示功能，最终操作需要服务人员二次确认，在显示终端上设置了“否认结果”和“确认结果”两个选项，“否认结果”时会将图像和结果进行记录，并发送到特殊旅客数据集中进行保存；“确认结果”是在返回结果准确时确定结果，系统会记录此结果。

所述特殊旅客关怀交互模块，可以针对检测到的语义信息，分别给出不同旅客的关怀建议，通过服务人员直接使用或者选择机器人给特殊旅客关怀，提供便利。服务人员确认结果后，此结果会返回到系统，随后系统会分别给出不同特别旅客的关怀建议，如抱婴儿的旅客需引导走人工通道，残疾人士需走向前给予帮助，机器人会来到携带大行李箱的旅客身边让旅客将行李箱放置在机器人的“载货区域”，结束服务后服务人员可自行在系统上确认已为对应特殊旅客提供帮助。

本发明还基于上述系统揭示了一种基于图像语义识别的场站特殊旅客识别和交互方法，其包括以下步骤：

步骤B：图像采集模块获取场站内的图像视频流；

步骤F：鉴于步骤E的确认结果，特殊旅客关怀交互模块分别对不同特殊旅客提出不同的关怀建议。

本发明的图像语义识别模块参考并使用网上开源的通用图像语义识别大模型（如OpenAI的Image GPT，清华大学的Visual GLM等）进行训练微调。如图2所示，所述通用图像语义识别大模型由三个模块组成：图像处理模块、转换器及大语言模型。

图像处理模块是基于Vision Transformer（ViT）的模型，用于处理图像识别等视觉处理任务。与使用卷积层从图像中提取特征的卷积神经网络（CNN）不同，ViT使用Transformer编码器来捕获图像块之间的关系。图像处理模块处理图像的具体步骤如下：

转换器是基于Querying Transformer（Q-Former）的自然语言理解模型，它原来被用于使用查询机制对输入文本进行编码，但在本发明的通用图像语义识别大模型里它被用于对Embedding Vectors进行编码。转换器的具体转换步骤如下：

步骤A2、模型使用循环神经网络 (RNN)作为编码器，将Embedding Vectors编码为隐藏状态，然后使用解码器（另一个 RNN）从隐藏状态生成Queries，表示为总结输入含义的标记序列；

大语言模型主要使用了注意力机制来处理文本的输入输出，例如GPT-3和ChatGLM-6B，在通用图像语义识别大模型里，由于三个模块都是用Transformer编码器，因此他们之间是可以理解含义，转换器中的Visual Embeddings能直接输入到大语言模型，也就是说大语言模型此时能理解图像语义，用户可通过自然语言与之交流。

本发明基于通用图像语义识别大模型进行训练微调的策略具体包括以下步骤：

步骤a.预处理

训练微调操作可适用于任何数据集，在进行训练微调操作之前，数据集中的图像（图片或视频）都需要预处理到固定分辨率，并使用离散变分自动编码器（discreteVariational Autoencoder，dVAE）将图像压缩到更小的离散潜在网格。

步骤b.训练模型

通用图像语义识别大模型使用Transformer解码器架构，此框架与大语言模型的框架相同，而且通过转换器可以将信息统一到大语言模型能理解的特征空间，无需任何卷积层或其他特定领域的专门设计，因此可以使用与大语言模型相同的超参数，例如学习率、批量大小、优化器等，以及大语言模型的预训练参数。本发明冻结了图像处理模块和大语言模型的参数，目的是防止灾难性遗忘，使用经过预处理的数据集，对图像处理模块和转换器进行LoRA学习。

LoRA是局部重新加权聚合（Local Reweighting Aggregation），在不改变原始参数的情况下，在模型的每一层添加少量可训练参数，从而实现微调模型的效果。LoRA可以使模型的特征（features）或嵌入（embeddings）适应新任务。

步骤c.微调模型

上述实施例和图式并非限定本发明的产品形态和式样，任何所属技术领域的普通技术人员对其所做的适当变化或修饰，皆应视为不脱离本发明的专利范畴。

Claims

1.基于图像语义识别的场站特殊旅客识别和交互系统，其特征在于，包括：图像采集终端、图像语义模型训练服务器、图像识别终端及交互终端，图像采集终端内设有图像采集模块，图像语义模型训练服务器内设有通用图像语义识别大模型及特殊旅客数据集，图像识别终端内设有图像语义识别模块，交互终端内设有服务人员提示模块、服务人员确认模块及特殊旅客关怀交互模块；

通用图像语义识别大模型与特殊旅客数据集结合经训练微调后形成所述图像语义识别模块，图像语义识别模块连接图像采集模块，图像采集模块采集场站内的视频或图像，并发送给图像语义识别模块，图像语义识别模块接收图像采集模块的视频或图像进行分析后输出特殊旅客的语义信息，并发送给服务人员提示模块，服务人员提示模块接收语义信息，并显示到终端显示界面，服务人员确认模块连接图像语义识别模块及特殊旅客关怀交互模块，服务人员确认模块对检测到的语义信息进行二次确认，特殊旅客关怀交互模块根据确认结果给出对应的关怀建议，同时确认结果，并反馈或补充到特殊旅客数据集中；

其中，通用图像语义识别大模型进行训练微调的策略具体包括以下步骤：

步骤a.预处理

步骤b.训练模型

步骤c.微调模型

2.如权利要求1所述的基于图像语义识别的场站特殊旅客识别和交互系统，其特征在于：服务人员确认模块包括“否认结果”和“确认结果”两个选项，选择“否认结果”时，图像与结果直接反馈和补充到特殊旅客数据集中，用于后续优化训练；选择“确认结果”时，特殊旅客关怀交互模块依据确认结果，分别对不同特殊旅客提出对应的关怀建议。

3. 如权利要求1所述的基于图像语义识别的场站特殊旅客识别和交互系统，其特征在于：所述图像语义识别模块包括图像处理模块、转换器及大语言模型，图像处理模块基于ViT的模型，ViT使用Transformer编码器来捕获图像块之间的关系形成EmbeddingVectors，转换器是基于Q-Former的自然语言理解模型，用于对Embedding Vectors进行编码，最终输出VisualEmbeddings，VisualEmbeddings直接输入到大语言模型。

4.基于图像语义识别的场站特殊旅客识别和交互方法，其特征在于，包括以下步骤：

通用图像语义识别大模型进行训练微调的策略具体包括以下步骤：

步骤a.预处理

步骤b.训练模型

步骤c.微调模型

通过上一阶段的训练，转换器已经学会提取图片的信息，接下来对转换器和大语言模型进行LoRA学习，使通用图像语义识别大模型能识别特殊旅客和给出对应的关怀策略；

步骤B：图像采集模块获取场站内的图像视频流；

5.如权利要求4所述的基于图像语义识别的场站特殊旅客识别和交互方法，其特征在于：服务人员确认模块包括“否认结果”和“确认结果”两个选项，选择“否认结果”时，图像与结果直接反馈和补充到特殊旅客数据集中，用于后续优化训练；选择“确认结果”时，特殊旅客关怀交互模块依据确认结果，分别对不同特殊旅客提出对应的关怀建议。

6. 如权利要求4所述的基于图像语义识别的场站特殊旅客识别和交互方法，其特征在于：所述图像语义识别模块包括图像处理模块、转换器及大语言模型，图像处理模块基于ViT的模型，ViT使用Transformer编码器来捕获图像块之间的关系形成EmbeddingVectors，转换器是基于Q-Former的自然语言理解模型，用于对Embedding Vectors进行编码，最终输出VisualEmbeddings，VisualEmbeddings直接输入到大语言模型。

7.如权利要求6所述的基于图像语义识别的场站特殊旅客识别和交互方法，其特征在于，所述图像处理模块处理图像的具体步骤如下：

8.如权利要求6所述的基于图像语义识别的场站特殊旅客识别和交互方法，其特征在于，转换器的具体转换步骤如下：