CN118551077A

CN118551077A - 一种基于生成式大模型的自然语言交互安防视频检索系统及其装置

Info

Publication number: CN118551077A
Application number: CN202411002019.XA
Authority: CN
Inventors: 龙涛; 吴永杰; 李轩; 李娟�; 杨恒; 余文炫; 王崇杰
Original assignee: Shenzhen Aimo Technology Co ltd
Current assignee: Shenzhen Aimo Technology Co ltd
Priority date: 2024-07-25
Filing date: 2024-07-25
Publication date: 2024-08-27

Abstract

本发明提供了一种基于生成式大模型的自然语言交互安防视频检索系统及其装置，包括视频采集模块、视频处理与分析模块、大语言模型处理模块、大视觉模型处理模块、语义相似度计算模块、人机交互与结果展示模块、数据存储与管理模块；所述视频采集模块，用于实时或定期采集视频数据；所述视频采集模块包括安装在楼宇内部、娱乐场所内部和预设距离范围内的高清摄像头，所述视频采集模块分别与所述视频处理与分析模块、所述数据存储与管理模块连接；采用了大模型理解和语义转换的方法，使得在特定场景下能够处理更大规模的数据，捕捉更复杂的语言模式，能够更好地理解上下文，识别多义词的不同含义，并生成更合理、更准确的语义信息。

Description

一种基于生成式大模型的自然语言交互安防视频检索系统及其装置

技术领域

本发明涉及大模型交互技术领域，特别涉及一种基于生成式大模型的自然语言交互安防视频检索系统及其装置。

背景技术

随着AI技术的不断进步，大语言模型、大视觉模型以及未来不断出现的多模态大模型不仅在增强AI系统的灵活性和应用范围、保护隐私问题和降低成本、提升响应速度和定制化开发等方面起到关键作用，而且在改善用户体验和解决复杂问题方面都有巨大的潜力。

大视觉模型（LVM）相较于传统的计算机视觉算法模型具有显著优势。LVM利用深度学习技术，从大规模数据中自动学习和提取复杂特征，而无需手工设计特征，这提升了图像分类和目标检测的准确性和鲁棒性。此外，LVM 具备多模态处理能力，能同时理解和生成视觉、文本和音频信息，使其在跨模态任务中表现出色。LVM采用端到端学习方法，简化了开发流程，增强了泛化能力。

经检索，公开号CN108052882A，发明名称为：一种智能安防监控系统的操作方法的中国发明，公开了操作便捷，信息分享及时，提高了办案效率，实用性强。

大语言模型（LLM）相较于传统的自然语言处理（NLP）算法模型具有显著优势。

LLM 利用深度学习技术和大规模数据进行训练，能够自动学习复杂的语言模式和长距离依赖关系，这使得它们在理解和生成语言方面表现出色。

在安防场景下，大语言模型和大视觉模型的结合可以实现更高效的语义匹配和信息查询。具体来说，大视觉模型可以对监控画面进行目标检测与识别，并将识别结果转换为文本信息；然后，大语言模型可以对这些文本信息进行深入理解和分析，并与用户查询需求进行语义匹配；最后，根据匹配结果返回相关信息给用户。这种结合方式可以大大提高基于生成式大模型的自然语言交互安防视频检索系统的智能化水平，满足用户在安防场景下的查询需求。

相比之下，传统NLP算法通常依赖于手工设计的特征和规则，这些方法在处理复杂的语义和句法结构时存在局限。除此之外，LLM 的Transformer架构通过自注意力机制捕捉上下文关系，能够生成上下文相关且连贯的文本。在预训练和微调后，可以在多种任务中展示出色表现，包括文本生成、语言翻译、内容总结和代码生成等，为此，提出一种基于生成式大模型的自然语言交互安防视频检索系统及其装置。

发明内容

有鉴于此，本发明提供一种基于生成式大模型的自然语言交互安防视频检索系统及其装置，以解决或缓解现有技术中存在的技术问题，通过大语言模型和大视觉模型对于视频（图像）和文字的准确理解和语义转换，进行储存信息和用户信息的语义匹配，以满足用户在安防场景下的查询需求，至少提供一种有益的选择。

本发明实施例的技术方案是这样实现的：

第一方面，本发明提供了一种基于生成式大模型的自然语言交互安防视频检索系统，包括：

视频采集模块、视频处理与分析模块、大语言模型处理模块、大视觉模型处理模块、语义相似度计算模块、人机交互与结果展示模块、数据存储与管理模块；

所述视频采集模块，用于实时或定期采集视频数据；所述视频采集模块包括安装在楼宇内部、娱乐场所内部和预设距离范围内的高清摄像头，所述视频采集模块分别与所述视频处理与分析模块、所述数据存储与管理模块连接；

所述视频处理与分析模块，用于接收所述视频采集模块传送的视频数据，利用深度学习算法对所述视频数据进行目标检测，识别出所述视频数据中出现的人物对象，并提取出人物对象的属性信息；并将每个所述人物对象对应的所述属性信息进行数据向量化后得到的属性向量化结果存入向量库中；

所述数据存储与管理模块分别与所述语义相似度计算模块、所述人机交互与结果展示模块连接，所述数据存储与管理模块包括所述向量库，所述数据存储与管理模块，用于存储所述视频数据以及与所述视频数据对应的属性向量化结果；

所述大语言模型处理模块与所述人机交互与结果展示模块连接，所述大语言模型处理模块，用于接收输入的查询指令；对所述查询指令进行语义分析，以将其转换为用于检索的格式化数据；将所述查询指令对应的所述格式化数据进行数据向量化；

所述大视觉模型处理模块分别与语义相似度计算模块、所述视频处理与分析模块连接，所述语义相似度计算模块，用于计算所述查询指令对应的数据向量化结果与所述向量库中存储的人物对象对应的所述属性向量化结果之间的语义相似度；根据相似度排序结果，筛选出与所述查询指令匹配的目标视频片段；

所述人机交互与结果展示模块包括用户交互显示界面，用于将所述目标视频片段在所述用户交互显示界面进行展示；并响应在所述用户交互显示界面的用户操作，执行与所述用户操作对应的视频操作动作；其中，所述用户操作包括放大/缩小图像、播放/暂停视频和导出数据。

进一步优选的：所述视频采集模块，用于以预设固定时间间隔t作为步长，从实时或定期采集的所述视频数据中连续截取至少三张瞬时图像，其中，所述瞬时图像包括在t_b时刻的初始图像，在t_m时刻的中间图像,在t_e时刻的节点图像；

所述视频采集模块，用于对所述瞬时图像进行处理，得到像素均值矩阵，并根据所述像素均值矩阵，提取出所述人物对象的所述属性信息。

进一步优选的：所述视频采集模块，用于对所述瞬时图像进行处理，得到像素均值矩阵，并根据所述像素均值矩阵，提取出所述人物对象的所述属性信息，包括：

将所述瞬时图像均匀划分为步长为ε的单元格区域，并按照顺序依次对单元格区域进行编号，分别为A₁、A₂、A₃、... 、A_n；

获取所述瞬时图像中各图像在处理后得到的A₁-A_n所述单元格区域中像素的像素均值P_bn、P_mn、P_en，并根据所述单元格区域中像素的像素均值P_bn、P_mn、P_en生成像素均值矩阵，其中，P_bn、P_mn、P_en分别为初始图像、中间图像、节点图像对应A₁-A_n单元格区域的像素均值；

根据所述像素均值矩阵，计算所述初始图像与所述中间图像的第一像素均值差值矩阵ΔP，及计算所述中间图像与所述节点图像的第二像素均值差值矩阵ΔP’；其中，所述单元格区域的所述步长ε不大于所述瞬时图像尺寸的1/100；

根据所述第一像素均值差值矩阵ΔP和所述第二像素均值差值矩阵ΔP’，生成所述人物对象的运动轨迹，所述属性信息包括所述运动轨迹。

进一步优选的：所述视频处理与分析模块为大视觉模型LVM，所述大视觉模型LVM使用基于Transformer的计算机视觉模型对所述视频数据进行目标检测和特征提取，得到所述属性向量化结果；

所述大语言模型处理模块为大语言模型LLM，所述大语言模型LLM使用基于Transformer的自然语言处理模型对所述查询指令进行编码，得到文本特征向量类型的数据向量化结果。

进一步优选的：所述Transformer包括自注意力机制、多头注意力机制和编码器-解码器结构；

所述自注意力机制，用于在所述视频数据中以视频帧为空间范围，关注所述人物对象所在的具体位置；其中，所述视频帧包括第一视频帧、第二视频帧、第三视频帧和第四视频帧；

所述多头注意力机制，用于根据所述视频帧中所述人物对象所在的具体位置，并行执行多个注意力头分别对所述第一视频帧、所述第二视频帧、所述第三视频帧和所述第四视频帧进行人物对象识别，得到目标检测结果；

所述编码器-解码器结构，用于对所述视频帧对应的所述目标检测结果进行特征提取和编码，并将编码后的信号输入到解码器中进行人物识别，得到所述属性向量化结果。

进一步优选的：所述视频处理与分析模块还用于在24小时内不间断进行所述视频数据采集，利用深度学习算法对所述视频数据进行实时分析，识别出预期发生的危险事件，所述危险事件包括失火事件和烟雾事件，当检测到危险事件时，自动记录事件发生的时间、地点、相关的人物信息，将危险事件的相关属性进行数据向量化，并存入向量库中；

所述大语言模型处理模块还用于接收用户输入的查询指令；对查询指令进行语义分析，提取出关键信息，所述关键信息包括时间、地点和事件类型；

将查询指令的关键信息进行数据向量化，以便与向量库中的数据进行比较；

所述语义相似度计算模块还用于计算用户查询的向量化结果与向量库中存储的危险事件属性向量化结果之间的语义相似度；根据相似度排序结果，筛选出与用户查询最匹配的危险事件记录；

所述人机交互与结果展示模块还用于将筛选出的危险事件记录以可视化的形式展示给用户，提供用户交互界面，允许用户进一步查看事件的详细信息，所述详细信息包括事件发生的完整视频和相关人员的身份信息。

进一步优选的：所述基于生成式大模型的自然语言交互安防视频检索系统还包括预警与通知模块，所述预警与通知模块用于当检测到所述危险事件时，自动触发预警机制，允许用户自定义预警规则。

进一步优选的：所述视频处理与分析模块还连接有隐私保护模块，所述隐私保护模块用于在处理和分析视频数据时，对人物的相关属性隐私保护，对敏感信息脱敏处理，具体包括；

所述隐私保护模块，用于对所述视频数据进行预处理，所述预处理包括帧提取和关键帧识别；

利用面部识别、光学字符识别检测所述视频数据中的敏感信息；

根据识别到的所述敏感信息的类型，使用高斯模糊对检测到的人脸或敏感信息进行模糊处理，得到脱敏后的视频；

对脱敏后的视频进行后处理。

进一步优选的：所述相关属性包括时间戳、地点、性别、年龄和服装颜色，所述格式化数据包括时间、地点、服装特征。

第二方面：一种基于生成式大模型的自然语言交互安防视频检索装置，包括存储器和一个或多个处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时，用于实现上述基于生成式大模型的自然语言交互安防视频检索系统。

本发明实施例由于采用以上技术方案，其具有以下优点：

采用了大模型理解和语义转换的方法，使得在特定场景下能够处理更大规模的数据，捕捉更复杂的语言模式，能够更好地理解上下文，识别多义词的不同含义，并生成更合理、更准确的语义信息。

此外，大模型在处理多语言任务时表现尤为出色，能够有效地进行跨语言的翻译和语义转换，极大地提高了各种自然语言处理应用的效率和效果；

采用了数据向量化实现信息匹配的方法，使得复杂的原始信息能够转换为高维度的向量表示，这种表示捕捉了更多语义信息和细微差异，从而提高了数据的表示能力和匹配精度，显著提升了效果和效率，使得对大规模数据的处理更加精确和高效。

其次，基于生成式大模型的自然语言交互安防视频检索系统结合了视频处理、自然语言处理、语义相似度计算等技术，以实现对特定目标的检索包括以下优点：

高效性：通过大视觉模型LVM实时处理视频数据，能够快速提取出人物的相关属性。

利用大语言模型LLM将用户查询转换为格式化数据，并快速找到与之匹配的视频片段。

智能化：系统能够自动分析视频数据，无需人工干预即可进行目标检索。

通过语义相似度计算，能够更准确地匹配用户查询和视频数据。

可扩展性：系统可以根据需要添加更多的摄像头和属性提取功能，以适应更复杂的场景。

可以集成更多的自然语言处理技术，以支持更丰富的查询方式。

易用性：提供用户交互界面，方便用户输入查询和查看结果。

可以通过系统监控和维护模块方便地管理系统的运行状态。

隐私保护：在设计中考虑了隐私保护模块，能够确保敏感信息的安全性和合规性。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于生成式大模型的自然语言交互安防视频检索系统的整体结构示意图；

图2为本发明一种基于生成式大模型的自然语言交互安防视频检索系统的实现方法的流程图；

图3为本发明实施例六提供的计算机设备的示意性框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

大模型：

大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能，能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用，包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征，具有更强大的泛化能力，可以对未见过的数据做出准确的预测。本发明所用到的大模型包括大语言模型（Large Language Model, LLM）和大视觉模型(Large Vision Model, LVM)。

大语言模型（LLM）：

大语言模型通常是具有大规模参数和计算能力的自然语言处理模型，例如OpenAl的 GPT系列模型。这些模型可以通过大量的数据和参数进行训练，以生成人类类似的文本或回答自然语言的问题。大型语言模型在自然语言处理、文本生成和智能对话等领域有广泛应用。

大视觉模型(LVM)：

大视觉模型是一种基于神经网络的机器学习模型。通过训练，模型能够从大量的图像和视频数据中自动提取出有用的特征，并进行分类、检测、识别等任务。其核心原理是利用神经网络模拟人脑的层次结构，通过逐层处理输入数据，提取出越来越抽象的特征表示。

事件属性：

包括人体属性等其他危险事件（失火，超员等）所具有的属性，比如某一个人的出现时间，性别，衣着，发色等；属性包括：“早上十点，女性,青年,上黄色,下黑色,长发,戴帽，没眼镜,短袖,短裤,不穿鞋,不提袋,不背包,有手包,无肩包”。

用户消息（Query)：

指的是用户想要从视频流中得到的信息，比如查找某一地点某一时间点特定人体属性的人：“在深圳早上十点左右穿白色短袖红色短裤的成年男人”。

语义转换：

指大模型将输入的视频流、输入的图片、输入的文字中的信息转换为所需要的特征（可以理解为时间、地点、人物、事件和事件属性等关键词），以便于后续的查询。

数据向量化（Embedding）和向量库：

数据向量化指的是使用机器学习技术,将各类非结构化数据转化为固定长度的数字向量的过程。向量化后的数据在数学上可以表示为一个定长的数字列表(多维数组)。数据向量化的意义在于它实现了一种可计算的表示方式来表达非结构化数据的语义信息，将非结构化数据映射到固定维度的向量空间中,使得机器可以“理解”这些数据的内在关联,并进行运算。

向量数据库是一种新型的非结构化数据管理系统,专门用于存储和管理向量化的数据,主要应用于机器学习等与人工智能相关的场景。与传统数据库不同,向量数据库中的数据存储并非以表格化的结构化数据形式保存,而是以向量的形式嵌入在一个高维空间中。这种向量化的数据具有捕捉非结构化数据(如文本、图像、音频等)语义特征的能力,使得向量数据库可以从语义的角度理解不同数据间的关联,通过向量间的距离计算实现对非结构化数据的快速搜索和匹配。

下面结合附图对本发明的实施例进行详细说明，如图1-图2所示。

实施例一

一种基于生成式大模型的自然语言交互安防视频检索系统，包括：

所述相关属性包括时间戳、地点、性别、年龄和服装颜色，所述格式化数据包括时间、地点、服装特征。

在大模型的背景和安防的场景下，分别使用大视觉模型（LVM）和大语言模型（LLM）对采集到的视频或图片以及用户信息（Query）进行语义转换，分别得到相关信息的属性。在分别得到的属性中，时间、地点都是精确信息以便于后续在原始视频和图片中查询，人体属性、危险事件相关属性属于模糊信息，便于后续泛化匹配。在分别得到相关信息的属性后，对这些属性进行数据向量化后存入向量数据库中，最后计算二者的语义相似度来匹配到视频或图片中符合用户查询要求的信息，从而映射回视频或图片中找到用户需要查询的原始详细信息。

所述视频采集模块，用于以预设固定时间间隔t作为步长，从实时或定期采集的所述视频数据中连续截取至少三张瞬时图像，其中，所述瞬时图像包括在t_b时刻的初始图像，在t_m时刻的中间图像,在t_e时刻的节点图像；

具体的：所述视频采集模块，用于对所述瞬时图像进行处理，得到像素均值矩阵，并根据所述像素均值矩阵，提取出所述人物对象的所述属性信息，包括：

瞬时图像进行处理，将瞬时图像均匀划分为步长为ε的单元格区域，并按照顺序依次对单元格区域进行编号，其中，图像处理模块对瞬时图像进行处理时，将瞬时图像均匀划分为单元格区域的步长为ε由瞬时图像的尺寸进行确定，且步长ε不大于瞬时图像尺寸的1/100，奔实施例中，瞬时图像目标是摄像头的视频流要抽取图片帧。

而摄像头记录的是每天24h全天的数据，全天的数据提取于关注某一时间（比如有人经过，火灾发生）的数据。除此之外，如果逐帧或等帧抽取对数据的存储需求也是很大的。需要首先对视频进行事件的检测（目标检测等，是否有人经过或者有火灾发生），检测到有事件发生时，再进行事件跟踪（目标跟踪，人从哪儿出现在消失或者火灾发生到结束），在事件跟踪的过程中根据一定条件（比如有人出现，人到画面最中间或有火灾发生，逐帧抽取）去保存对应的图像帧。

本实施例中具体的：所述视频处理与分析模块还连接有隐私保护模块，所述隐私保护模块用于在处理和分析视频数据时，对人物的相关属性隐私保护，对敏感信息脱敏处理，具体包括；

对脱敏后的视频进行后处理。

隐私保护：

严格遵守隐私保护法规，确保用户数据的安全性和合规性。

使用加密技术和访问控制策略保护敏感数据不被未经授权的访问。

在处理和分析视频数据时，确保遵守相关的隐私保护法规和标准。

对敏感信息进行脱敏处理，防止数据泄露。

提供用户隐私设置选项，允许用户控制自己的数据访问和使用权限。

一种基于生成式大模型的自然语言交互安防视频检索系统还包括：

系统监控与维护模块：

实时监控系统的运行状态，包括摄像头的工作状态、数据处理速度、资源利用率等。

提供系统日志和错误报告功能，便于问题排查和修复。

定期对系统进行维护和升级，以确保系统的稳定性和性能。

深度学习技术包括：

循环神经网络（RNNs）：用于处理序列数据，尤其是自然语言文本。

长短期记忆网络（LSTMs）和门控循环单元（GRUs）：作为RNNs的改进版，它们能够更好地处理长期依赖关系。

转换器（Transformers）和自注意力机制：如BERT、GPT等模型都基于Transformer架构，它通过自注意力机制捕捉输入序列中的依赖关系。

预训练模型包括：

语言模型预训练：如BERT、RoBERTa、GPT等，通过在大规模语料库上进行无监督学习，捕捉语言的通用模式。

多任务预训练：一些模型，如T5（Text-to-Text Transfer Transformer），通过多任务学习来增强模型的能力。

多语言处理：

多语言预训练模型：如mBERT（Multilingual BERT）、XLM（Cross-lingualLanguage Model）和XLM-R（XLM-Roberta）等，可以在多种语言上进行预训练，支持跨语言理解和转换。

机器翻译技术：用于将一种语言的文本翻译成另一种语言，通常基于编码器-解码器架构，如Transformer。

实验例二

查询早上十点出现在深圳总部身穿白色短袖蓝色裤子的男性：

在用户查询之前，大视觉模型（LVM）已经对深圳总部采集到的视频进行了语义转换，得到了视频中每一个出现的人的相关属性（出现时间，地点，性别, 年龄, 上衣颜色,裤子颜色, 头发长短, 上衣长短，裤子长短等），并将每一个人的相关属性进行数据向量化后存入向量库中。

当用户输入查询信息（查询早上十点出现在深圳总部大楼身穿白色短袖蓝色裤子的男性）时，大语言模型（LLM）对查询指令进行语义转换，例如转换结果为：“10：00，深圳总部，穿白色短袖蓝色裤子的男性”，接下来对转换结果进行数据向量化后保存入向量库中。通过计算用户查询信息的向量化结果和视频提取属性提取向量化结果的语义相似度，从视频提取属性提取向量化结果中找到语义相近的原始信息，这样就可以从原始视频中找到早上十点出现在深圳总部身穿白色短袖蓝色裤子的男性，进而实现用户查询目标。

比如一用户：

输入：在深圳早上十点左右穿白色短袖红色短裤的成年男人；

经LLM语义转换得到的结果：

[深圳,10:00,男,成年,白,短袖,红,短裤,N/A,N/A,N/A,N/A]；

[深圳,10:00,图中是穿白色短袖红色短裤的男性]；

向量化后计算相似度并由高到低排列：

[深圳, 11:11, (男性, 青年, 上黄色, 下黑色, 长发, 戴帽, 没眼镜, 短袖,短裤, 不穿鞋, 不提袋, 不背包, 有手包, 无肩包)]；

[深圳, 10:10, (男性, 青年, 上白色, 下黑色, 长发, 戴帽, 有眼镜, 长袖,短裤, 不穿鞋, 有提袋, 不背包, 有手包, 无肩包)]；

[深圳, 08:08, (男性, 青年, 上白色, 下黑色, 短发, 戴帽, 没眼镜, 短袖,长裤, 不穿鞋, 不提袋, 不背包, 有手包, 无肩包)]；

[深圳, 09:09, (男性, 青年, 上白色, 下黑色, 短发, 戴帽, 有眼镜, 长袖,短裤, 不穿鞋, 不提袋, 不背包, 有手包, 无肩包)]；

[深圳, 12:12, (男性, 老年, 上白色, 未知, 短发, 戴帽, 有眼镜, 长袖, 长裤, 不穿鞋, 不提袋, 不背包, 有手包, 无肩包)]；

本实施例中具体的：所述视频处理与分析模块为大视觉模型LVM，所述大语言模型处理模块为大语言模型LLM。

数据收集与预处理：

收集安防相关的视频和图片数据。

对用户查询（Query）进行预处理，如文本清洗、分词、词性标注等。

大视觉模型（LVM）的应用：

使用LVM对视频和图片进行特征提取，得到与视觉内容相关的属性，如时间、地点、人体属性（如服装颜色、行为特征等）等。

精确信息（如时间、地点）通过LVM的特定模块或算法进行精确识别。

模糊信息（如人体属性、危险事件相关属性）则通过LVM的泛化能力进行提取，这些属性可能包含一定的不确定性或模糊性。

大语言模型（LLM）的应用：

使用LLM对用户查询（Query）进行语义理解，将其转换为与LVM提取的视觉属性相匹配的表示形式。

LLM的能力可以处理复杂的自然语言查询，并将其转化为可以与LVM属性进行比较的格式。

数据向量化：

将LVM和LLM提取的属性进行向量化，以便在向量数据库中进行存储和检索。

向量化方法可以是基于嵌入向量的（如Word2Vec、BERT等），也可以是基于特征的（如SIFT、HOG等）。

语义相似度计算：

在向量数据库中，计算用户查询（Query）的向量表示与视频/图片属性的向量表示之间的语义相似度。

相似度计算方法可以是余弦相似度、欧氏距离等。

匹配与结果返回：

根据语义相似度排序结果，返回与用户查询最匹配的视频或图片信息。

如果需要，还可以进一步返回原始视频或图片中的详细帧或区域，以满足用户的精确查询需求。

反馈与优化：

根据用户反馈和实际应用效果，对大视觉模型（LVM）和大语言模型（LLM）进行优化和调整，提高匹配准确率和效率。

通过以上模块的协同工作，该系统可以实现对深圳总部视频数据的实时监控和智能分析，帮助用户快速定位并检索出目标人物，从而提高安防工作的效率和准确性。

实施例三

在实施例一的基础上，还包括：

所述视频处理与分析模块为大视觉模型LVM，所述大视觉模型LVM使用基于Transformer的计算机视觉模型对所述视频数据进行目标检测和特征提取，得到所述属性向量化结果；

具体的：所述Transformer包括自注意力机制、多头注意力机制和编码器-解码器结构。

第一视频帧为人物头部视频；第二视频帧为人物躯干视频；第三视频帧为人物双手臂视频；

第三视频帧为人物双腿部视频；

空间注意力：模型能够在视频帧的空间范围内，关注到人物所在的具体位置。通过生成一个空间注意力权重图来实现的，图中高亮的区域对应着人物的位置。

时间注意力：除了空间位置，模型还能够关注到视频序列中哪些帧是包含关键信息的。时间注意力权重能够帮助模型在连续的视频帧中，选择出那些包含人物行为或事件变化的重要帧；

基于模型的注意力机制：在Transformer中，通过添加额外的注意力模块来实现对人物的注意力识别。这些模块可以根据输入数据的特征，动态地生成空间和时间注意力权重。

训练过程：通过大量的带有标注的监控视频数据进行训练，学习如何生成有效的注意力权重。标注数据通常包括人物的位置信息（如边界框）以及行为的类别信息；

所述多头注意力机制，用于根据所述视频帧中所述人物对象所在的具体位置，并行执行多个注意力头分别对所述第一视频帧、所述第二视频帧、所述第三视频帧和所述第四视频帧进行人物对象识别，得到目标检测结果。

所述编码器-解码器结构，用于对所述视频帧对应的所述目标检测结果进行特征提取和编码，并将编码后的信号输入到解码器中进行人物识别，得到所述属性向量化结果，首先，从监控视频中提取视频帧，并进行必要的预处理，如缩放、归一化等，以便于后续的特征提取。

特征提取与编码：使用编码器对预处理后的视频帧进行特征提取和编码。编码器采用Transformer等深度学习模型，以自动学习并提取出对人物识别有用的特征。

编码信号处理：在得到编码信号后，可以对其进行进一步的处理，如降维、特征选择等，以去除冗余信息和噪声，提高识别的准确性。

解码与识别：将处理后的编码信号输入到解码器中，解码器将其解码为原始输入信号或一种近似的表示形式，并进行人物识别。

大模型的基础原理是围绕Transformer展开的，而Transformer是一种基于自注意力机制（Self-attention mechanism）的神经网络架构。Transformer 模型最初被提出用于机器翻译任务。Transformer 的基本组件包括自注意力机制和一些前馈神经网络。

其主要组件介绍如下：

（1）自注意力机制（Self-Attention Mechanism）：是 Transformer 模型的核心部分。它允许模型在处理输入序列时，能够同时关注输入序列中的不同位置，并为每个位置分配不同的权重。

在自注意力机制中，输入序列会经过三个线性变换（通常称为查询（Query），键（Key）和值（Value）变换），以获得查询（Q）、键（K）和值（V）向量。然后，通过计算查询向量和键向量的相似度得到注意力权重。最后，根据这些权重对值向量进行加权求和，得到最终的自注意力表示。通过这种机制，Transformer 在处理输入序列时能够捕捉到序列中的上下文信息，而不仅仅依赖于固定大小的局部窗口。

（2）多头注意力机制（Multi-head Attention）：是Transformer中的一种改进机制。它可以通过对不同的查询、键和值变换进行多次并行计算，从而提高模型的表达能力和表示多样性。在多头注意力中，通过对查询、键和值变换进行线性变换，得到多组查询（Q）、键（K）和值（V）向量。然后，对每组查询和键计算注意力权重，并将权重应用于对应的值向量，最后将每个头部的输出进行拼接和线性变换。多头注意力机制使得模型能够同时关注不同的表示子空间，从而更好地捕捉不同层次的语义信息。

（3）编码器-解码器结构（Encoder-Decoder Architecture）：Transformer 模型通常由编码器和解码器两部分组成。编码器负责将输入序列编码成连续的表示，而解码器则根据编码器的输出逐步生成目标序列。编码器由多个相同的层堆叠而成，每个层都包含自注意力机制和前馈神经网络。在编码器中，输入序列会逐层经过自注意力机制和前馈神经网络，最后得到编码器的输出表示。解码器也由多个相同的层堆叠而成，每个层除了包含自注意力机制和前馈神经网络外，还包括一个额外的注意力机制，用于对编码器的输出进行关注。在解码器中，目标序列会逐层经过自注意力机制、编码器-解码器注意力机制和前馈神经网络，最后生成解码器的输出序列。

Transformer模型的训练阶段包括编码器和解码器的协同工作。源序列经过编码器编码，生成特征表示，然后传递给解码器。解码器的输入序列是目标序列向左偏移一个位置得到的，这使得解码器能够通过注意力机制将注意力集中在已生成部分和源序列的编码表示上。解码器的目标是预测目标序列中的下一个token。在每个时间步，解码器生成一个概率分布，表示下一个token的可能性，通过对解码器的最后一层输出进行线性变换和softmax操作得到。在训练过程中，模型使用目标序列中的真实token作为解码器的输入，并计算生成的概率分布与目标序列中的下一个token的交叉熵损失。通过反向传播和优化算法，模型调整参数以最小化损失。在推断阶段，模型以一个特殊的起始符号作为初始输入，并通过编码器和解码器逐步生成下一个token。解码器根据当前生成的部分序列和源序列的编码表示计算注意力权重，并将其应用于源序列的编码表示上。然后，解码器通过前馈神经网络对注意力加权的编码表示进行处理，并生成下一个token的概率分布。推断过程通常使用贪婪搜索方法，选择概率最高的token作为下一个生成的token。这个过程持续进行，直到生成一个特殊的终止符号或达到预定的最大序列长度。通过这种方式，Transformer模型能够预测和生成序列数据。

所述视频处理与分析模块还用于在24小时内不间断进行所述视频数据采集，利用深度学习算法对所述视频数据进行实时分析，识别出预期发生的危险事件，所述危险事件包括失火事件和烟雾事件，当检测到危险事件时，自动记录事件发生的时间、地点、相关的人物信息，将危险事件的相关属性进行数据向量化，并存入向量库中；

具体的：所述基于生成式大模型的自然语言交互安防视频检索系统还包括预警与通知模块，所述预警与通知模块用于当检测到所述危险事件时，自动触发预警机制，允许用户自定义预警规则；

所述大语言模型处理模块还用于接收用户输入的查询指令，如“查询昨天某娱乐场所晚上失火的原因”；对查询指令进行语义分析，提取出关键信息，所述关键信息包括时间、地点和事件类型；

所述语义相似度计算模块还用于计算用户查询的向量化结果与向量库中存储的危险事件属性向量化结果之间的语义相似度；根据相似度排序结果，筛选出与用户查询最匹配的危险事件记录。

实验例四

查询昨天某娱乐场所晚上失火的原因：

在用户查询之前，大视觉模型（LVM）已经对娱乐场所采集到的视频进行了事件认定和语义转换，得到了每一个危险事件（比如失火）的相关属性（出现时间，地点，相关的人，可能的原因等），并将每一个危险事件的相关属性进行数据向量化后存入向量库中。当用户输入查询信息（查询昨天某娱乐场所晚上失火的原因）时，大语言模型（LLM）对查询指令进行语义转换，例如转换结果为：“昨天晚上，某娱乐场所，失火”，接下来对转换结果进行数据向量化后保存入向量库中。通过计算用户查询信息的向量化结果和视频提取属性提取向量化结果的语义相似度，从视频提取属性提取向量化结果中找到语义相近的原始信息，这样就可以从原始视频中找到昨天某娱乐场所晚上失火的相关信息，进而实现用户查询目标。

实施例五

在实施例三的基础上，还包括：NB 分类器，通过待分类样本的一些特征的先验概率来计算该样本属于某分类的后验概率，从而预测该样本的类别标记。

假设危险事件集样本有m 个类别分别为 C₁，C₂，...,C_m，提取的n个数据特征属性分别为 X₁，X₂，...,X_n。给定一个未知类别的数据样本 X ，当且仅当时，分类器将预测 X 属于具有最高后验概率的类C_i(1≤i≤m)。可知：

；

其中，类先验概率P(C_i)表达了危险事件数据样本中各类样本所占的比例，根据大数定律，P(C_i)可通过各类样本出现的频率进行估计。而对类条件概率P(X｜C_i) 来说，由于它涉及关于 X 所有属性的联合概率，直接根据样本出现的频率来估计将会遇到严重的困难。

为了解决这个问题，NB 分类器采用了属性条件独立性假设，即：对已知类别，假设所有属性相互独立；换言之，就是假设每个属性独立地对分类结果发生影响。

实施例六

上述一种基于生成式大模型的自然语言交互安防视频检索装置可以实现为一种计算机程序的形式，该计算机程序可以在如图3所示的计算机设备上运行。

请参阅图3，图3是本发明实施例提供的一种计算机设备的示意性框图。该计算机设备集成了本发明实施例所提供的任一种基于生成式大模型的自然语言交互安防视频检索系统。

参阅图3，该计算机设备包括通过系统总线401连接的处理器402、存储器和网络接口405，其中，存储器可以包括存储介质403和内存储器404。

该存储介质403可存储操作系统4031和计算机程序4032。该计算机程序4032包括程序指令，该程序指令被执行时，可使得处理器402执行上述一种基于生成式大模型的自然语言交互安防视频检索系统。

该处理器402用于提供计算和控制能力，以支撑整个计算机设备的运行。

该内存储器404为存储介质403中的计算机程序4032的运行提供环境，该计算机程序4032被处理器402执行时，可使得处理器402执行上述的一种基于生成式大模型的自然语言交互安防视频检索系统。

该网络接口405用于与其它设备进行网络通信。本领域技术人员可以理解，图3中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器402用于运行存储在存储器中的计算机程序4032，以实现如上述的一种基于生成式大模型的自然语言交互安防视频检索系统。

应当理解，在本发明实施例中，处理器402可以是中央处理单元（CentralProcessing Unit，CPU），该处理器402还可以是其他通用处理器、数字信号处理器（DigitalSignal Processor，DSP）、专用集成电路（Application Specific IntegratedCircuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的系统中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述系统的实施例的流程步骤。

因此，本发明还提供一种计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如上述的一种基于生成式大模型的自然语言交互安防视频检索系统。

所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同系统来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例系统中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，终端，或者网络设备等）执行本发明各个实施例所述系统的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于生成式大模型的自然语言交互安防视频检索系统，其特征在于，包括：

2.根据权利要求1所述的基于生成式大模型的自然语言交互安防视频检索系统，其特征在于：所述视频采集模块，用于以预设固定时间间隔t作为步长，从实时或定期采集的所述视频数据中连续截取至少三张瞬时图像，其中，所述瞬时图像包括在t_b时刻的初始图像，在t_m时刻的中间图像,在t_e时刻的节点图像；

3.根据权利要求2所述的基于生成式大模型的自然语言交互安防视频检索系统，其特征在于：所述视频采集模块，用于对所述瞬时图像进行处理，得到像素均值矩阵，并根据所述像素均值矩阵，提取出所述人物对象的所述属性信息，包括：

将所述瞬时图像均匀划分为步长为ε的单元格区域，并按照顺序依次对单元格区域进行编号，分别为A₁、A₂、A₃、...、A_n；

4.根据权利要求1所述的基于生成式大模型的自然语言交互安防视频检索系统，其特征在于：所述视频处理与分析模块为大视觉模型LVM，所述大视觉模型LVM使用基于Transformer的计算机视觉模型对所述视频数据进行目标检测和特征提取，得到所述属性向量化结果；

5.根据权利要求4所述的基于生成式大模型的自然语言交互安防视频检索系统，其特征在于：所述Transformer包括自注意力机制、多头注意力机制和编码器-解码器结构；

6.根据权利要求1所述的基于生成式大模型的自然语言交互安防视频检索系统，其特征在于：所述视频处理与分析模块还用于在24小时内不间断进行所述视频数据采集，利用深度学习算法对所述视频数据进行实时分析，识别出预期发生的危险事件，所述危险事件包括失火事件和烟雾事件，当检测到危险事件时，自动记录事件发生的时间、地点、相关的人物信息，将危险事件的相关属性进行数据向量化，并存入向量库中；

7.根据权利要求6所述的基于生成式大模型的自然语言交互安防视频检索系统，其特征在于：所述基于生成式大模型的自然语言交互安防视频检索系统还包括预警与通知模块，所述预警与通知模块用于当检测到所述危险事件时，自动触发预警机制，允许用户自定义预警规则。

8.根据权利要求1-7中任一项所述的基于生成式大模型的自然语言交互安防视频检索系统，其特征在于：所述视频处理与分析模块还连接有隐私保护模块，所述隐私保护模块用于在处理和分析视频数据时，对人物的相关属性隐私保护，对敏感信息脱敏处理，具体包括；

对脱敏后的视频进行后处理。

9.根据权利要求6所述的基于生成式大模型的自然语言交互安防视频检索系统，其特征在于：所述相关属性包括时间戳、地点、性别、年龄和服装颜色，所述格式化数据包括时间、地点、服装特征。

10.一种基于生成式大模型的自然语言交互安防视频检索装置，其特征在于，还包括存储器和一个或多个处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时，用于实现权利要求1-9中任一项所述的基于生成式大模型的自然语言交互安防视频检索系统。