CN117807404A

CN117807404A - 一种基于ai智能去重分析研判事件的方法及装置

Info

Publication number: CN117807404A
Application number: CN202410226060.9A
Authority: CN
Inventors: 王阳; 邢岩; 何静静
Original assignee: Zhiguanghailian Big Data Technology Co ltd; Zhiguang Hailian Tianjin Big Data Technology Co ltd
Current assignee: Zhiguanghailian Big Data Technology Co ltd; Zhiguang Hailian Tianjin Big Data Technology Co ltd
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-04-02

Abstract

本发明公开了一种基于AI智能去重分析研判事件的方法及装置。该发明包括：获取初始事件数据集，初始事件数据集至少包括一条初始事件数据，初始事件数据集只包括一种初始事件数据；分析初始事件数据，得到特征向量，其中，特征向量为文字向量和图片向量中的之一；对特征向量集去重，得到结果事件数据，其中，特征向量集为特征向量的集合；分析结果事件数据，得到结果特征以及结果关键信息，将结果关键信息以图表形式展示。通过本发明，解决了相关技术中大规模数据处理中缺乏自动化处理的问题。

Description

一种基于AI智能去重分析研判事件的方法及装置

技术领域

本发明涉及事件处理技术领域，具体而言，尤其涉及一种基于AI智能去重分析研判事件的方法及装置。

背景技术

相关技术中，在大规模事件处理和数据分析过程中，经常会遇到多个重复的事件数据，这可能导致信息冗余和资源浪费。现有的自动化去重方法存在一些限制，如准确性和效率方面的不足。

数据处理复杂性：现有技术在处理物联网事件数据的重复内容时，面临着大规模数据的处理问题。由于数据量庞大且复杂，现有方法可能无法高效地提取和分析事件数据中的重复内容。

准确性和精度不高：现有技术在重复内容分析与建模过程中，存在准确性和精度方面的问题。一些方法可能存在误判或漏判的情况，导致重复内容无法准确地识别和建模。

处理效率低下：由于现有技术缺乏高效的算法和处理策略，处理物联网事件数据的重复内容可能耗时较长，导致响应时间延迟，限制了实时性和效率。

缺乏自动化能力：现有技术在重复内容分析与建模中，往往需要依赖人工干预和手动操作，导致过程复杂且容易出现人为错误，同时也增加了人力成本和时间成本。

针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种基于AI智能去重分析研判事件的方法及装置，以至少解决相关技术中大规模数据处理中缺乏自动化处理的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种基于AI智能去重分析研判事件的方法。该方法包括：获取初始事件数据集，初始事件数据集至少包括一条初始事件数据，初始事件数据集只包括一种初始事件数据，其中，初始事件数据为初始文字数据和初始图片数据中的之一；分析初始事件数据，得到特征向量，其中，特征向量为文字向量和图片向量中的之一；对特征向量集去重，得到结果事件数据，其中，特征向量集为特征向量的集合；分析结果事件数据，得到结果特征以及结果关键信息，将结果关键信息以图表形式展示，其中，结果特征包括结果事件数据的特征、结果事件数据的分布以及结果事件数据的异常情况。

可选地，删除初始文字数据中的无效字符，纠正初始文字数据中的错误文字以及错误拼写；统一初始文字数据的格式，得到统一文字数据；将统一文字数据分割成短句，短句小于预设字数；对短句中的词汇进行词性标注以及命名分类，得到标注词汇；提取标注词汇中的关键词；对关键词进行向量化处理得到文字向量。

可选地，依据预设词性规则标注词汇的词性；依据词性统计库中词汇的词性出现频率标注词汇的词性。

可选地，依据预设命名规则对词汇进行命名分类；依据命名统计库中词汇的分类出现频率对词汇进行分类。

可选地，通过卷积神经网络对初始图片数据进行特征提取得到图片特征；对图片特征进行向量化处理得到图片向量。

可选地，预设相似度阈值；依据特征向量获取相似度得分；依据去重处理规则处理重复事件得到结果事件数据，其中，当相似度得分高于相似度阈值时，初始事件数据为重复事件，去重处理规则为删除或合并。

可选地，将特征向量集映射到低维空间，得到低维空间向量集，其中，低维空间向量集中包括至少两个哈希签名，哈希签名为降维后的特征向量；对同一特征向量获取多次哈希签名，得到哈希签名集，将哈希签名集转化为哈希向量；计算两个不同的哈希向量中相等值的比例就得到了相似度得分。

根据本申请的另一方面，提供了一种基于AI智能去重分析研判事件的装置。该装置包括：获取单元，用于获取初始事件数据集，初始事件数据集至少包括一条初始事件数据，初始事件数据集只包括一种初始事件数据，其中，初始事件数据为初始文字数据和初始图片数据中的之一；分析单元，用于分析初始事件数据，得到特征向量，其中，特征向量为文字向量和图片向量中的之一；去重单元，用于对特征向量集去重，得到结果事件数据，其中，特征向量集为特征向量的集合；展示单元，用于分析结果事件数据，得到结果特征以及结果关键信息，将结果关键信息以图表形式展示，其中，结果特征包括结果事件数据的特征、结果事件数据的分布以及结果事件数据的异常情况。

为了实现上述目的，根据本申请的另一方面，提供了一种计算机可读存储介质，该计算机可读存储介质包括存储的程序，其中，该程序执行上述任意一项的一种基于AI智能去重分析研判事件的方法。

根据本申请的另一方面，提供了一种电子设备，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，一个或多个程序被存储在存储器中，并且被配置为由一个或多个处理器执行，一个或多个程序包括用于执行任意一项的一种基于AI智能去重分析研判事件的方法。

通过本申请，采用以下步骤：获取初始事件数据集，初始事件数据集至少包括一条初始事件数据，初始事件数据集只包括一种初始事件数据，其中，初始事件数据为初始文字数据和初始图片数据中的之一；分析初始事件数据，得到特征向量，其中，特征向量为文字向量和图片向量中的之一；对特征向量集去重，得到结果事件数据，其中，特征向量集为特征向量的集合；分析结果事件数据，得到结果特征以及结果关键信息，将结果关键信息以图表形式展示，其中，结果特征包括结果事件数据的特征、结果事件数据的分布以及结果事件数据的异常情况。解决了相关技术中大规模数据处理中缺乏自动化处理的问题，进而达到了在大规模数据处理中提高处理效率、准确性和精度，减少人工干预，为后续分析和决策提供可靠的重复内容分析与建模基础的效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请的实施例中提供的一种执行一种基于AI智能去重分析研判事件的方法的移动终端的硬件结构框图；

图2是根据本申请实施例提供的一种基于AI智能去重分析研判事件的方法的流程图；

图3是根据本申请实施例提供的一种基于AI智能去重分析研判事件的装置的结构框图。

其中，上述附图包括以下附图标记：

102、处理器；104、存储器；106、传输设备；108、输入输出设备。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

正如背景技术中所介绍的，现有技术中数据处理较为复杂，处理准确性和精度不高、效率低下且缺乏自动化能力，为解决大规模数据处理中缺乏自动化处理的问题，本申请的实施例提供了一种基于AI智能去重分析研判事件的方法及装置。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种基于AI智能去重分析研判事件的方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中一种基于AI智能去重分析研判事件的方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network InterfaceController，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的一种基于AI智能去重分析研判事件的方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本申请实施例的一种基于AI智能去重分析研判事件的方法的流程图。如图2所示，该方法包括以下步骤：

步骤S201，获取初始事件数据集，初始事件数据集至少包括一条初始事件数据，初始事件数据集只包括一种初始事件数据，其中，初始事件数据为初始文字数据和初始图片数据中的之一；

具体地，从物联网设备中获取事件数据，包括文字内容、设备拍摄图片和采集数据。事件数据形成一个集合，初始事件数据集包括一种初始事件数据，初始事件数据分为文字数据或者图片数据，后续对文字数据和图片数据的分别单独分析的。

步骤S202，分析初始事件数据，得到特征向量，其中，特征向量为文字向量和图片向量中的之一；

具体地，对初始事件进行预处理，一般包括数据清洗、去除噪声和标准化处理。例如，去除无效字符、纠正拼写错误和格式统一化。

步骤S203，对特征向量集去重，得到结果事件数据，其中，特征向量集为特征向量的集合；

具体地，设定相似度阈值，根据相似度得分判断事件是否为重复事件。如果相似度得分高于阈值，则判定为重复事件。通过给定的业务规则选择保留其中一条事件数据，或进行合并、更新处理，实现事件数据的去重。

步骤S204，分析结果事件数据，得到结果特征以及结果关键信息，将结果关键信息以图表形式展示，其中，结果特征包括结果事件数据的特征、结果事件数据的分布以及结果事件数据的异常情况；

具体地，对去重后的事件数据进行进一步的分析、研判和应用。提取关键信息，生成决策报告，支持用户做出准确的决策。分析数据特征：对去重后的事件数据进行初步的探索性数据分析，了解数据的特征、分布、异常情况，为后续分析和应用提供基础。提取关键信息：根据事件数据特征，选择合适的数据挖掘和机器学习算法，提取事件数据中的关键信息，如时间、地点、人物、行为等。数据可视化：利用数据可视化工具，将关键信息以图表等形式展示，帮助用户更直观地理解数据，发现数据之间的关联和规律。

通过本实施例，通过引入基于AI智能分析的方法，实现基于物联网设备产生的事件数据的重复内容分析与建模。该发明利用先进的机器学习、深度学习和数据挖掘技术，能够高效准确地提取和分析物联网事件数据中的重复内容，并建立精确的模型来表示重复内容的特征和关联性。通过自动化处理和智能算法，本发明能够提高处理效率、准确性和精度，减少人工干预，为后续分析和决策提供可靠的重复内容分析与建模基础。

具体实现过程中，上述步骤S201可以通过以下步骤实现：删除初始文字数据中的无效字符，纠正初始文字数据中的错误文字以及错误拼写。该方法包括数据清洗：利用Python中的正则表达式、字符串处理函数，对事件数据进行清洗，去除人为输入的无效字符、纠正拼写错误。使用方法为pandas工具函数：通过pandas.Series来创建Series数据结构，pandas. Series(data,index,dtype,name)，上述参数中，data可以为列表，array或者dict，index表示索引，必须与数据同长度，name代表对象的名称，这样可以有效地初始文字数据进行清洗，删除掉无效字符，纠正字符与语法错误，有效地消除了对错误字符对后续数据分析的影响。

具体实现过程中，上述步骤S201可以通过以下步骤实现：统一初始文字数据的格式，得到统一文字数据。方法为，利用Python中的数据转换函数、数据类型转换函数，对数据进行标准化处理，将不同格式的数据转换为统一格式。对文字数据的格式进行统一，方便后续对文字数据的处理，使得处理数据更加便捷快速，节省了人力以及时间。

具体实现过程中，上述步骤S201可以通过以下步骤实现：将统一文字数据分割成短句，短句小于预设字数；对短句中的词汇进行词性标注以及命名分类，得到标注词汇；提取标注词汇中的关键词；对关键词进行向量化处理得到文字向量。利用自然语言处理（NLP）技术对事件数据中的文字内容进行分析和处理。包括分词、词性标注、命名实体识别和关键词提取处理步骤，以提取事件数据中的关键信息。利用分词算法对文本进行分割，将长文本划分成5个汉字以内的短语句。基于规则的分词算法、基于统计的分词算法和基于深度学习的分词算法等。

为了对词汇的词性进行更准确的标注，本申请的对短句中的词汇进行词性标注以及命名分类，得到标注词汇可以通过以下步骤实现，依据预设词性规则标注词汇的词性；依据词性统计库中词汇的词性出现频率标注词汇的词性，该方法利用词性标注算法对文本中的每个词汇进行标注，标注其词性。基于规则的标注算法、基于统计的标注算法和基于深度学习的标注算法。需要根据具体的任务需求、语言特点和可用资源来选择适合的算法。基于规则的标注算法：适用于简单的语言和语境，可以通过预设的规则来标注词性。这种算法可以快速实现，对于一些特定的词汇或语法结构可以给出准确的标注；基于统计的标注算法：适用于较为复杂的语言和语境，通过统计语料库中不同词性出现的频率来推断每个词汇的词性。这种算法可以根据大量的语料库数据进行训练，能够处理更多的语言变体和语法结构。

为了对词汇的命名更加准确，本申请的对短句中的词汇进行词性标注以及命名分类，得到标注词汇可以通过以下步骤实现，依据预设命名规则对词汇进行命名分类；依据命名统计库中词汇的分类出现频率对词汇进行分类，该方法利用命名实体识别算法对文本中的特定实体进行识别和分类。例如，事件名、地名、物联网设备名等。基于规则的识别算法、基于统计的识别算法和基于深度学习的识别算法。利用关键词提取算法对文本中的关键信息进行提取。提取事件信息中的地址、人名、事件名；对于提取出的关键词进行向量化处理，用于后续的相似度计算、分类、检索任务。

上述步骤S202还可以通过其他方式实现，例如：通过卷积神经网络对初始图片数据进行特征提取得到图片特征；对图片特征进行向量化处理得到图片向量。数据获取与预处理：从物联网设备或其他数据源获取图片数据。对获取的图片数据进行预处理，包括缩放、裁剪、旋转、翻转操作，以提高模型的泛化能力和识别准确性。特征提取：使用卷积神经网络（CNN）对图片进行特征提取。这些模型在大规模数据集上进行了训练，可以有效地提取图片中的关键特征，如人、车、场景等。特征表示：将提取的特征进行向量化表示。用于后续的相似度计算、分类、检索任务。

在一些实施例中，将从文字内容和图片中提取的特征进行向量化表示。将从文字内容和图片中提取的特征进行向量化表示。事件内容使用词嵌入模型（Word2Vec）将词语转化为向量表示，图片使用卷积神经网络（CNN）提取特征，再针对提取特征是使用numpy进行向量化。

在一些实施例上，上述步骤S203具体可以通过以下步骤实现：依据特征向量获取相似度得分，该方法通过文字内容相似度得分和图片特征相似度得分进行加权求和，得到综合相似度得分。根据设定的阈值判断事件是否为重复事件。方法为Levenshtein距离法，是指将一个字符串转为另一个字符串所需的字符编辑次数，包括以下三种操作：插入、删除和替换。另一种方法是使用余弦相似度来计算两个文本之间的相似度。这样可以准确的计算出特征向量的相似度得分，后续通过特征向量的相似度得分与相似度阈值进行对比，得到去重的标准。

在一些实施例上，上述步骤S203具体可以通过以下步骤实现：预设相似度阈值，方法为设定相似度阈值，根据相似度得分判断事件是否为重复事件。如果相似度得分高于阈值，则判定为重复事件。通过给定的业务规则选择保留其中一条事件数据，或进行合并、更新处理，实现事件数据的去重。确定相似度阈值：根据实际需求和数据情况，设定相应的相似度阈值，一般在0.8~0.9之间。

在一些实施例上，上述步骤S203具体可以通过以下步骤实现：依据去重处理规则处理重复事件得到结果事件数据，其中，当相似度得分高于相似度阈值时，初始事件数据为重复事件，去重处理规则为删除或合并，方法为：将根据给定的业务规则选择保留其中一条事件数据，或进行合并、更新等处理，实现事件数据的去重。将去重判断与操作的流程封装成程序或脚本，实现自动化去重，提高数据处理效率和准确性。

为了获得更精确的相似度得分，以及更快的获取相似度得分，本申请对上述地依据特征向量获取相似度得分，通过以下步骤实现，将特征向量集映射到低维空间，得到低维空间向量集，其中，低维空间向量集中包括至少两个哈希签名，哈希签名为降维后的特征向量；对同一特征向量获取多次哈希签名，得到哈希签名集，将哈希签名集转化为哈希向量；计算两个不同的哈希向量中相等值的比例就得到了相似度得分。该方法为：

多维度的特征向量（用于表征一个集合或文档），有可能成上亿级别，对于两个特征向量，需要计算它们之间的相似度（如文档的相似性），计算两个所述特征向量之间的相似度得分，计算公式为：，其中，和为两个不同的所述特征向量，为中的非零特征个数，为中的非零特征个数，为和中共同的非零特征个数。

步骤1.将比较的内容转换为相应的特征行；

步骤2.对文档对应特征的行进行重排列；

步骤3.取排列后每列（对应文档）的第一个非零值；

重复多次上述步骤1-2，得到原特征向量的新表示，称哈希签名，即降维后的新向量。计算两个哈希签名之间相等值的比例，即得到近似相似度。

那么两个向量的最小哈希值相等的概率即为,再看的计算，有,因此，；

但由于前者是概率，在实际计算中，需要计算多次最小哈希值，实现对的估计。实际测试概率需要多次实验计算抛掷结果为正面的比例当计算次最小哈希值后， A，B分别得到由最小哈希值组成的两个向量：

；

接着只需要计算两个向量中相等值的比例就得到了估计的，其中hi表示第i个最小哈希值函数。

另外的，有一种方法避开了复杂的重排列计算：首先需要准备一些hashfunction，例如h1(x)=x%m+1,h2(x)=2*x%m+2（m是行数），对每一行（行号）计算其被每个hashfunctionhash得到的值（这相当于是做了重排列，因为行号通过hash从原始行映射到了一个新行），按照原本最小哈希值的思路，在hash得到的新行中按照新行号(1-m)顺序取最先的非零值，转换到算法中就是第三个for循环做的事情。对每一列（就是每个文档），计算其MinHash,M(i,c)(i指行号)，只关心那些包含非零值的行，然后看这个行的行号和现有的M(i,c)谁小（小说明重排列后的位置靠前），然后用较小值更新M(i,c),避开了复杂的重排列计算。代码为：

for each row r do begin

for each hash function hi do

compute hi(r)

for each column c

if c has 1 in row r

for each hash function hi do

if hi (r)<M(i,c)then

M(i,c):=hi(r)

end

本申请实施例还提供了一种基于AI智能去重分析研判事件的装置，需要说明的是，本申请实施例的一种基于AI智能去重分析研判事件的装置可以用于执行本申请实施例所提供的用于一种基于AI智能去重分析研判事件的方法。该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

以下对本申请实施例提供的一种基于AI智能去重分析研判事件的装置进行介绍。

图3是根据本申请实施例的一种基于AI智能去重分析研判事件的装置的结构框图。如图3所示，该装置包括：获取单元301，用于获取初始事件数据集，所述初始事件数据集至少包括一条初始事件数据，所述初始事件数据集只包括一种初始事件数据，其中，所述初始事件数据为初始文字数据和初始图片数据中的之一；分析单元302，用于分析所述初始事件数据，得到特征向量，其中，所述特征向量为文字向量和图片向量中的之一；去重单元303，用于对特征向量集去重，得到结果事件数据，其中，所述特征向量集为所述特征向量的集合；展示单元304，用于分析所述结果事件数据，得到结果特征以及结果关键信息，将所述结果关键信息以图表形式展示，其中，所述结果特征包括所述结果事件数据的特征、所述结果事件数据的分布以及所述结果事件数据的异常情况。

一种可选地方案中，分析单元302包括，纠正子单元，用于删除所述初始文字数据中的无效字符，纠正所述初始文字数据中的错误文字以及错误拼写；统一子单元，用于统一所述初始文字数据的格式，得到统一文字数据；分割子单元，用于将所述统一文字数据分割成短句，所述短句小于预设字数；分类子单元，用于对所述短句中的词汇进行词性标注以及命名分类，得到标注词汇；第一提取子单元，用于提取所述标注词汇中的关键词；第一处理子单元，用于对所述关键词进行向量化处理得到所述文字向量。

一种可选地方案中，分类子单元，包括第一标注模块，用于依据预设词性规则标注所述词汇的词性；第二标注模块，用于依据词性统计库中词汇的词性出现频率标注所述词汇的词性。

一种可选地方案中，分类子单元，包括第一分类模块，用于依据预设命名规则对所述词汇进行命名分类；第二分类模块，用于依据命名统计库中词汇的分类出现频率对所述词汇进行分类。

一种可选地方案中，分析单元302，包括第二提取子单元，用于通过卷积神经网络对所述初始图片数据进行特征提取得到图片特征；第二处理子单元，用于对所述图片特征进行向量化处理得到所述图片向量。

一种可选地方案中，去重单元303，包括预设子单元，用于预设相似度阈值；获取子单元，用于依据所述特征向量获取相似度得分；第三处理子单元，用于依据去重处理规则处理重复事件得到结果事件数据，其中，当所述相似度得分高于所述相似度阈值时，所述初始事件数据为所述重复事件，所述去重处理规则为删除或合并。

一种可选地方案中，获取子单元，包括映射模块，用于将所述特征向量集映射到低维空间，得到低维空间向量集，其中，所述低维空间向量集中包括至少两个哈希签名，所述哈希签名为降维后的所述特征向量；获取模块，用于对同一所述特征向量获取多次所述哈希签名，得到哈希签名集，将所述哈希签名集转化为哈希向量；计算模块，用于计算两个不同的所述哈希向量中相等值的比例就得到了相似度得分。

所述一种基于AI智能去重分析研判事件的装置包括处理器和存储器，上述获取单元301等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决相关技术中大规模数据处理中缺乏自动化处理的技术问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行所述一种基于AI智能去重分析研判事件的方法。

具体地，一种基于AI智能去重分析研判事件的方法包括：

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述一种基于AI智能去重分析研判事件的方法。

具体地，一种基于AI智能去重分析研判事件的方法包括：

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：获取初始事件数据集，初始事件数据集至少包括一条初始事件数据，初始事件数据集只包括一种初始事件数据，其中，初始事件数据为初始文字数据和初始图片数据中的之一；分析初始事件数据，得到特征向量，其中，特征向量为文字向量和图片向量中的之一；对特征向量集去重，得到结果事件数据，其中，特征向量集为特征向量的集合；分析结果事件数据，得到结果特征以及结果关键信息，将结果关键信息以图表形式展示，其中，结果特征包括结果事件数据的特征、结果事件数据的分布以及结果事件数据的异常情况。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：获取初始事件数据集，初始事件数据集至少包括一条初始事件数据，初始事件数据集只包括一种初始事件数据，其中，初始事件数据为初始文字数据和初始图片数据中的之一；分析初始事件数据，得到特征向量，其中，特征向量为文字向量和图片向量中的之一；对特征向量集去重，得到结果事件数据，其中，特征向量集为特征向量的集合；分析结果事件数据，得到结果特征以及结果关键信息，将结果关键信息以图表形式展示，其中，结果特征包括结果事件数据的特征、结果事件数据的分布以及结果事件数据的异常情况。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1）、通过引入基于AI智能分析的方法，实现基于物联网设备产生的事件数据的重复内容分析与建模。该发明利用先进的机器学习、深度学习和数据挖掘技术，能够高效准确地提取和分析物联网事件数据中的重复内容，并建立精确的模型来表示重复内容的特征和关联性。通过自动化处理和智能算法，本发明能够提高处理效率、准确性和精度，减少人工干预，为后续分析和决策提供可靠的重复内容分析与建模基础。针对事件处理数据的相似度计算，倾向于处理大规模事件数据并进行分析研判的领域，如灾害管理、舆情监测、安全预警等场景。针对物联网设备产生的大量事件数据进行提取和分析，根据相似度算法计算识别重复事件内容。

2）、本申请的在进行对词文字数据以及图片数据的处理中更加严谨，清理掉无效数据，提高了数据分析的准确性。通过将相似度转化为哈希函数计算相似度得分，提高了获取相似度数据的速度，减少了大量的人力与时间，提高了对事件分析研判的效率。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于AI智能去重分析研判事件的方法，其特征在于，包括：

获取初始事件数据集，所述初始事件数据集至少包括一条初始事件数据，所述初始事件数据集只包括一种初始事件数据，其中，所述初始事件数据为初始文字数据和初始图片数据中的之一；

分析所述初始事件数据，得到特征向量，其中，所述特征向量为文字向量和图片向量中的之一；

对特征向量集去重，得到结果事件数据，其中，所述特征向量集为所述特征向量的集合；

分析所述结果事件数据，得到结果特征以及结果关键信息，将所述结果关键信息以图表形式展示，其中，所述结果特征包括所述结果事件数据的特征、所述结果事件数据的分布以及所述结果事件数据的异常情况。

2.根据权利要求1所述的方法，其特征在于，分析所述初始事件数据，得到特征向量，包括：

删除所述初始文字数据中的无效字符，纠正所述初始文字数据中的错误文字以及错误拼写；

统一所述初始文字数据的格式，得到统一文字数据；

将所述统一文字数据分割成短句，所述短句小于预设字数；

对所述短句中的词汇进行词性标注以及命名分类，得到标注词汇；

提取所述标注词汇中的关键词；

对所述关键词进行向量化处理得到所述文字向量。

3.根据权利要求2所述的方法，其特征在于，对所述短句中的词汇进行词性标注以及命名分类，得到标注词汇，包括：

依据预设词性规则标注所述词汇的词性；

依据词性统计库中词汇的词性出现频率标注所述词汇的词性。

4.根据权利要求2所述的方法，其特征在于，对所述短句中的词汇进行词性标注以及命名分类，得到标注词汇，包括：

依据预设命名规则对所述词汇进行命名分类；

依据命名统计库中词汇的分类出现频率对所述词汇进行分类。

5.根据权利要求1所述的方法，其特征在于，分析所述初始事件数据，得到特征向量，包括：

通过卷积神经网络对所述初始图片数据进行特征提取得到图片特征；

对所述图片特征进行向量化处理得到所述图片向量。

6.根据权利要求1所述的方法，其特征在于，对特征向量集去重，得到结果事件数据，包括：

预设相似度阈值；

依据所述特征向量获取相似度得分；

依据去重处理规则处理重复事件得到结果事件数据，其中，当所述相似度得分高于所述相似度阈值时，所述初始事件数据为所述重复事件，所述去重处理规则为删除或合并。

7.根据权利要求5所述的方法，其特征在于，依据所述特征向量获取相似度得分，包括：

将所述特征向量集映射到低维空间，得到低维空间向量集，其中，所述低维空间向量集中包括至少两个哈希签名，所述哈希签名为降维后的所述特征向量；

对同一所述特征向量获取多次所述哈希签名，得到哈希签名集，将所述哈希签名集转化为哈希向量；

计算两个不同的所述哈希向量中相等值的比例就得到了相似度得分。

8.一种基于AI智能去重分析研判事件的装置，其特征在于，包括：

获取单元，用于获取初始事件数据集，所述初始事件数据集至少包括一条初始事件数据，所述初始事件数据集只包括一种初始事件数据，其中，所述初始事件数据为初始文字数据和初始图片数据中的之一；

分析单元，用于分析所述初始事件数据，得到特征向量，其中，所述特征向量为文字向量和图片向量中的之一；

去重单元，用于对特征向量集去重，得到结果事件数据，其中，所述特征向量集为所述特征向量的集合；

展示单元，用于分析所述结果事件数据，得到结果特征以及结果关键信息，将所述结果关键信息以图表形式展示，其中，所述结果特征包括所述结果事件数据的特征、所述结果事件数据的分布以及所述结果事件数据的异常情况。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的一种基于AI智能去重分析研判事件的方法。

10.一种电子设备，其特征在于，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1至7中任意一项所述的一种基于AI智能去重分析研判事件的方法。