CN117520484B

CN117520484B - 基于大数据语义的相似事件检索方法、系统、设备和介质

Info

Publication number: CN117520484B
Application number: CN202410013690.8A
Authority: CN
Inventors: 赵蕊; 王记坤; 罗批; 张岩; 张胤; 裘慧媛; 杨淑卉; 贾坤; 原鑫
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-04-16
Anticipated expiration: 2044-01-04
Also published as: CN117520484A

Abstract

本申请涉及基于大数据语义的相似事件检索方法、系统、设备和介质，该方法利用分布式计算平台对指定业务领域的多源异构数据进行数据汇聚和整编，加快数据计算速度，然后采用伯特模型将事件案例库中事件的文本信息进行向量化处理，实现事件的文本向量化，再采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性，最后根据各事件的事件相关属性和指定的目标事件，进一步利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度，实现较细粒度的指定业务领域的相似事件区分，大幅提高了细分业务领域的相似事件检索准确率。

Description

基于大数据语义的相似事件检索方法、系统、设备和介质

技术领域

本发明属于数据处理技术领域，涉及一种基于大数据语义的相似事件检索方法、系统、设备和介质。

背景技术

随着信息技术的发展和事件数据分析的需求增长，从各种各样的事件数据中快速找出关注的事件并进行分析，对于地区事件管理和事态发展的处理日益重要，其中，快速应对层出不穷的重要事件，可以历史案例中去寻找踪迹，以获取相似事件为决策者制定决策提供数据辅助。在当下，较为常见的相似事件计算方法可以有集合模型法、词向量相似法和深度学习法等，然而这些传统方法在面对日益庞大的事件数据场景时，仍存在着细分业务领域的相似事件检索准确度不高的技术问题。

发明内容

针对上述传统方法中存在的问题，本发明提出了一种基于大数据语义的相似事件检索方法、一种基于大数据语义的相似事件检索系统、一种计算机设备和一种计算机可读存储介质，能够大幅提高细分业务领域的相似事件检索准确度。

为了实现上述目的，本发明实施例采用以下技术方案：

一方面，提供一种基于大数据语义的相似事件检索方法，包括步骤：

获取指定业务领域的多源异构数据；多源异构数据包括结构化数据和半结构化数据；

利用分布式计算平台对多源异构数据进行奇异值剔除和冗余信息合并，构成事件案例库并整编存入分布式计算平台的蜂箱数据仓库；

采用伯特模型将事件案例库中事件的文本信息进行向量化处理，生成各事件对应的高维文本向量；

根据各高维文本向量采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性；

根据各事件的事件相关属性和指定的目标事件，利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度。

在其中一个实施例中，采用伯特模型将所述事件案例库中事件的文本信息进行向量化处理的过程中，根据伯特模型进行文本向量化后，采用向量相似对同一事件的不同表述进行相似判别。

在其中一个实施例中，高维文本向量为768维向量。

在其中一个实施例中，根据各高维文本向量采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性的步骤，包括：

分别对各高维文本向量进行主成分分析降维处理；

采用层次式可导航小世界算法为主成分分析降维处理后的各高维文本向量构建索引；

获取指定的目标事件的各历史相似事件；

根据各历史相似事件的事件标识，应用斯帕克结构化查询技术获取各历史相似事件的事件相关属性。

在其中一个实施例中，采用层次式可导航小世界算法为主成分分析降维处理后的各高维文本向量构建索引之后，还包括：

对各高维文本向量进行乘积量化操作。

在其中一个实施例中，构成事件案例库的过程中，采用斯帕克工具进行资源调度。

另一方面，还提供一种基于大数据语义的相似事件检索系统，包括：

数据获取模块，用于获取指定业务领域的多源异构数据；多源异构数据包括结构化数据和半结构化数据；

数据汇聚模块，用于利用分布式计算平台对多源异构数据进行奇异值剔除和冗余信息合并，构成事件案例库并整编存入分布式计算平台的蜂箱数据仓库；

向量化模块，用于采用伯特模型将事件案例库中事件的文本信息进行向量化处理，生成各事件对应的高维文本向量；

语义搜索模块，用于根据各高维文本向量采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性；

相似计算模块，用于根据各事件的事件相关属性和指定的目标事件，利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度。

又一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述的基于大数据语义的相似事件检索方法的步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的基于大数据语义的相似事件检索方法的步骤。

上述技术方案中的一个技术方案具有如下优点和有益效果：

上述基于大数据语义的相似事件检索方法、系统、设备和介质，通过利用分布式计算平台对指定业务领域的多源异构数据进行数据汇聚和整编，加快数据计算速度，然后采用伯特模型将事件案例库中事件的文本信息进行向量化处理，实现事件的文本向量化，再采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性，最后根据各事件的事件相关属性和指定的目标事件，进一步利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度，实现较细粒度的指定业务领域的相似事件区分。

相比于传统方法，上述技术方案实现了数据汇聚、向量编码、快速语义搜索和结构属性融合计算的相似事件案例推荐的计算输出，实现了对多源异构大数据的充分利用，精准提供相似事件以辅助决策，而且实现了语义信息相似和结构属性信息相似的融合计算，大幅提高了细分业务领域的相似事件检索准确率，在应对新发的重要事件时，可以更高效、精准地提供与新发的重要事件相似的历史案例，据此为决策者提供更准确的辅助信息以更快速构建危机应对方案。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中基于大数据语义的相似事件检索方法的流程示意图；

图2为一个实施例中基于大数据语义的相似事件检索方法的流程阶段划分示意图；

图3为一个实施例中相似语义搜索的流程示意图；

图4为另一个实施例中相似语义搜索的流程示意图；

图5为一个实施例中基于大数据语义的相似事件检索系统的模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

需要说明的是，在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。

本领域技术人员可以理解，本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

集合模型法：该方法将文本看作一组关键词的集合，采用统计方法计算文本间的关键词交集来计算文本事件的相似度。词向量相似法：词向量相似度基于词向量模型，将待计算文本拆分为词，将词映射到高维空间，通过余弦相似度或欧式距离等方法衡量文本间的相似度。深度学习法：深度学习方法在自然语言处理领域发展迅速，基于深度学习的语义文本相似度计算方法往往能获得比传统方法更高的准确度。

在本发明的研究设计中，发明人研究发现在计算事件相似度时，往往包含语义信息和对应的属性信息，集合模型法计算简单并未充分考虑不同关键词重要程度的差别；词向量相似法基于词向量，不能很好的获取同义不同词之间的差别；深度学习法相较传统算法往往能获取更高的准确度，但对于事件相似只能获取语义间的相近程度，但不能很好的利用事件的结构化属性信息在专属领域获得更细粒度的区分。

本发明提出的解决方案是：采用分布式计算平台进行大数据处理，使用自然语言处理模型充分获取事件信息的语义信息，以区分不同含义词语与同义不同词之间的差别，且融合结构、属性相似度计算来更好的区分专属领域的相似程度。

下面将结合本发明实施例图中的附图，对本发明实施方式进行详细说明。

请参阅图1，在一个实施例中，提供了一种基于大数据语义的相似事件检索方法，包括如下处理步骤S12至S20：

S12，获取指定业务领域的多源异构数据；多源异构数据包括结构化数据和半结构化数据。

可以理解，指定业务领域也即当前决策者所关注的细分专属领域，具体可以是某个（或者多个）地区层面、学科层面和事务层面上的细分领域，例如但不限于信息安全领域、半导体领域、医学领域或者组织关系领域等。指定业务领域的多源异构数据是指来自该领域的不同数据源的异构数据，这些数据可以通过爬虫爬取、数据库接入或者其他数据收集手段进行获取。

S14，利用分布式计算平台对多源异构数据进行奇异值剔除和冗余信息合并，构成事件案例库并整编存入分布式计算平台的蜂箱数据仓库。

可以理解，基于业务领域数据，首先整合异构数据，构建事件案例库。具体的，对于图片、文本等结构化数据和半结构化数据的这些不同模态数据，可以根据不同业务需求的逻辑条件和推演知识，对数据进行奇异值剔除和冗余信息合并，构建并生成事件案例库。经前述信息处理后进行整编存入蜂箱数据仓库（也即hive数据仓库）中，以将海量业务领域数据进行分区存储，相较于传统数据库，这大大增加了存储能力并能够利用集群部署并行计算，加快数据计算速度。

其中，分布式计算平台也即Hadoop平台，是一个开源的分布式数据处理框架，用于存储和处理大规模数据集。分布式计算平台的核心组件包括：分布式文件系统（HDFS）：这是分布式计算平台的分布式文件存储系统，用于存储大规模数据集，其上的数据被划分成块并分布存储在多台计算机上，以实现容错和高可用性。映射化简模型（也即MapReduce模型）：这是分布式计算平台的计算框架，用于在分布式数据集上执行并行计算任务；映射化简模型包括两个主要步骤：Map（映射）和Reduce（化简），开发人员可以编写自定义的Map函数和Reduce函数来执行特定的数据处理任务。资源协调者（Yet Another ResourceNegotiator，YARN）：这是分布式计算平台的资源管理器，负责分配计算资源（如CPU、内存等）给运行在集群中的应用程序，提供更灵活的资源管理和作业调度。

分布式计算平台的主要优势是能够处理大规模数据，适用于分布式计算和存储，具有高可扩展性和容错性，它广泛用于各种大数据应用，包括数据分析、数据挖掘、日志处理和机器学习等领域。此外，分布式计算平台的生态系统还包括许多其他项目和工具，如hive仓库、Pig工具、斯帕克（Spark）工具和HBase数据库等工具，用于丰富分布式计算平台的功能，以满足不同数据处理需求。根据本实施例的应用场景的业务领域数据规模大且繁杂的特点，采用分布式计算平台对多源异构数据进行汇聚，并且将事件案例库整编并存入分布式计算平台的蜂箱数据仓库，以方便后续步骤的数据调用并加快数据计算速度。

S16，采用伯特模型将事件案例库中事件的文本信息进行向量化处理，生成各事件对应的高维文本向量。

可以理解，本实施例中采用基于伯特模型（Bidirectional EncoderRepresentation from Transformers，Bert）的自然语言处理模型，其双向编码结构使得模型可以更好的生成深层的双向语义特征，用该模型将事件案例库中事件的文本信息进行编码生成统一的高维文本向量，以便后续处理流程应用，并可根据具体业务领域的应用场景，获取垂直领域语料信息，从而可以进行模型微调以实现模型的精细化，从而得到最优的文本向量化结果。

S18，根据各高维文本向量采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性。

可以理解，费斯向量数据库（也即Facebook AI Similarity Search，Faiss）是一种高性能且高度优化的向量检索库，专用于在大规模向量数据集中执行相似性搜索，例如在上述各事件对应的高维文本向量构成的向量数据集中执行相似语义搜索。费斯向量数据库被设计用来处理包含数百万、数十亿或甚至更多向量的数据集，如图像特征、自然语言处理中的嵌入向量等。

费斯向量数据库的主要特点和功能包括：1、高性能，费斯向量数据库经过高度优化，采用了多种技术，如倒排索引和向量量化等技术，以加速相似性搜索操作，这使得它能够在大规模数据集上执行快速和高效的相似性搜索。2、支持多种相似性度量，费斯向量数据库支持多种常见的相似性度量，包括欧几里得距离、内积相似性和曼哈顿距离等，这使得它适用于不同类型的向量数据。3、多种索引结构，费斯向量数据库提供了多种索引结构，包括平均哈希、倒排列表和乘积量化等，以满足不同数据集的需求。4、可扩展性，费斯向量数据库支持分布式部署，可以轻松扩展到多台机器，以处理更大规模的数据。5、Python和C++接口，费斯向量数据库提供了Python编程语言和C++编程语言的应用程序编程接口（API），方便开发人员在不同环境中使用。6、与深度学习集成，费斯向量数据库通常与深度学习框架（如开源的机器学习框架PyTorch和TensorFlow）结合使用，用于快速检索神经网络的嵌入向量，以支持各种应用，如人脸识别和文本检索。

因此，为了在众多事件对应的高维文本向量中进行相似语义搜索，以获取指定的目标事件的相似事件的事件相关属性，例如事件时间、分析对象代码、事件类别、事件影响和事件地理位置等属性，采用了费斯向量数据库进行相似语义搜索。

S20，根据各事件的事件相关属性和指定的目标事件，利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度。

可以理解，如图2所示，首先采用分布式计算平台进行数据汇聚，将多源异构数据进行整理汇入至hive仓库中，基于斯帕克（spark）平台进行数据处理和清洗，然后采用深度学习中的自然语言处理模型，将事件信息文本统一转换至多维向量空间，并根据费斯向量数据库进行语义相似搜索，进一步根据事件相关属性进行其结构、属性相似度计算，融合了深度学习与传统算法，实现专属领域内的相似事件检索，为决策者应对新发的重要事件提供相似历史案例以辅助决策。

上述基于大数据语义的相似事件检索方法，通过利用分布式计算平台对指定业务领域的多源异构数据进行数据汇聚和整编，加快数据计算速度，然后采用伯特模型将事件案例库中事件的文本信息进行向量化处理，实现事件的文本向量化，再采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性，最后根据各事件的事件相关属性和指定的目标事件，进一步利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度，实现较细粒度的指定业务领域的相似事件区分。

需要说明的是，为解决深度学习算法过度依赖于事件的语义信息而忽略事件本身属性信息的问题，本发明提出结构属性融合算法，在深度学习算法的结果的基础上，进行属性和结构相似度的计算。

对获取的事件相关属性及相关代码含义进行分析，采用以下数据进行相似度计算，如表1所示：

表1

计算事件相似度时，根据现有数据特点，将数据属性分为数值型和分类型属性，并可依据以下事件相似度计算模型对结构相似度和属性相似度进行计算：

；

其中，为结构相似度，/>为属性相似度求和。/>和/>分别为两个不同事件，/>为事件属性数量，/>为第/>个属性的权重。

结构相似度：

；

其中，为/>的非空属性权重之和，/>为/>的非空属性权重之和。/>和/>分别表示两个不同事件的结构集合，此处的结构是指事件的属性集合中是否包含第/>个属性，即第/>个属性是否为空。

属性相似度：

；

其中，为第/>个属性的最大值，/>为第/> 个属性的最小值。

在一个实施例中，根据伯特模型进行文本向量化后，采用向量相似对同一事件的不同表述进行相似判别。

可以理解，对于事件的文本信息，需充分提取这些数据的语义信息，为了能够将同一事件的不同表述判定为相似，而非利用传统的统计方法，本实施例中是根据两个事件对应的文本向量直接的向量相似情况来判别不同表述是否对应为同一事件的，例如都包含“Python”的两个不同的句子1和句子2，使用伯特模型将这两个句子向量化后，这两个句子中“Python”的向量表示会不同，据此即可判别这两个句子是否讲的是同一事件。

在一个实施例中，高维文本向量为768维向量。可以理解，在上述实施例中，伯特模型将事件案例库中事件的文本信息进行向量化处理的过程中，可以将事件的文本信息通过一个固定的嵌入维度，例如768维或者1024维进行向量表示。选择向量维度可以基于具体的任务和资源约束。一般来说，对于大多数中等复杂度的任务，伯特模型默认的768维或1024维向量通常是一个合理的选择。如果需要在资源有限的环境下部署Bert，可以考虑使用低维度表示，但需要注意在性能上可能会有一定的损失。同时，也可以通过微调Bert来调整向量表示以适应特定任务的需求。

在本实施例中，将文本进行编码生成统一的768维向量，可以适中的维度大小来丰富地捕捉文本的语义信息同时避免过多的计算和内存资源消耗，避免引入不必要的过拟合而影响整体的计算处理效率。

在一个实施例中，如图3所示，关于上述的步骤S18，具体可以包括如下处理步骤：

S181，分别对各高维文本向量进行主成分分析（Principal Component Analysis，PCA）降维处理；

S183，采用层次式可导航小世界算法为主成分分析降维处理后的各高维文本向量构建索引；

S185，获取指定的目标事件的各历史相似事件；

S187，根据各历史相似事件的事件标识，应用斯帕克结构化查询技术获取各历史相似事件的事件相关属性。

可以理解，层次式可导航小世界（Hierarchical Navigable Small World，HNSW）算法是一种用于高维度数据的相似性搜索算法，它的设计目的是在大规模数据集中快速查找最相似的数据点，这在许多应用中都是重要的需求，比如推荐系统、语音识别和图像检索等。层次式可导航小世界算法的关键是构建一个分层的数据结构，其中每一层都是一个小世界网络。小世界网络是一种图结构，其中节点之间的距离通常较小，但有一些长距离的边，这些长距离的边允许在不遍历整个图的情况下快速到达远程节点，这使得算法能够在高维空间中快速找到相似的数据点。

层次式可导航小世界算法的工作原理可以如下：首先，创建一个初始层，其中包含数据集中的一些数据点。然后，逐渐构建更多的层，每一层都是前一层的子集，直到构建完整的层次结构。每一层都是一个小世界网络，其中数据点之间的连接被精心设计以支持快速相似性搜索。为了搜索最相似的数据点，从层次结构的顶层开始，通过小世界网络导航到更低级的层，直到找到满足相似性条件的数据点，这个过程允许算法在高维数据集中有效地搜索相似的数据点。

层次式可导航小世界算法能在高维数据空间中表现出色，能够快速找到相似的数据点，适用于大规模数据集。由于其分层结构，可以方便地添加新数据点而不需要重新构建整个索引，且适用于不同的相似性度量和数据类型。

在本实施例中，对向量化的文本信息可以根据语义信息进行相似搜索，主要分为两个步骤：索引构建和信息检索。由于数据量庞大，为了平衡性能与准确率，在进行索引构建前，首先对高维文本向量进行主成分分析降维，将高维空间映射到低维空间。构建索引采用层次式可导航小世界算法，它通过图连接的方式给所有的N个候选元素事先地定义好一个图连接关系，减小前述的算法复杂度，从而优化整体的检索效率。

针对给定事件，获取历史相似事件案例，首先将事件文本信息进行编码，且通过给定参数K（具体取值可以根据实际应用需要进行选择），可获取前K个最相似的历史相似事件。根据获取到的前K个历史相似事件的事件ID，应用既有的斯帕克结构化查询（也即sparkSQL）技术，可进一步获取事件相关属性，具体获取过程可以如下：首先，创建一个斯帕克会议（spark Session）对象，它是与斯帕克结构化查询交互的入口点；使用斯帕克结构化查询从不同的数据源加载事件数据，例如各历史相似事件；将加载的数据注册为一个临时表，以便执行结构化查询，使用斯帕克结构化查询的查询语句从事件数据中获取相关属性，例如事件包含的时间戳、事件类型和其他需要的属性。最后，在完成数据处理后，停止斯帕克会议对象以释放计算资源。

在一个实施例中，如图4所示，关于上述的步骤S183之后，具体还可以包括如下处理步骤：

S184，对各高维文本向量进行乘积量化操作。

可以理解，乘积量化（Product Quantization，PQ）是一种用于高维向量压缩和加速相似性搜索的技术。它通常应用于大规模向量数据集，如图像、音频、文本或其他高维数据，以便有效地执行相似性搜索操作。在本实施例中，由于层次式可导航小世界算法的层数越高，所占内存越大，因此在索引构建之后进行乘积量化操作，可大幅压缩高维向量以减少内存，并提高最近邻搜索速度。

乘积量化的基本思想是将高维向量划分成较小维度的子向量，然后对每个子向量应用标准向量量化方法，将其离散化成一组离散码。这些离散码可以大大减小向量的维度，从而节省存储空间和加速相似性搜索。乘积量化的主要步骤如下：将高维向量分割成几个较小维度的子向量，通常这些子向量的划分是均匀的，例如将一个1024维向量划分为32个32维子向量。对每个子向量应用标准的向量量化方法，如k均值聚类或乘积量化学习，将每个子向量映射到一个固定数量的离散码。将每个子向量的离散码组合成一个编码，从而表示整个高维向量，这些编码通常以二进制或整数形式存储。将编码存储在索引数据结构中，以便后续的相似性搜索。

在一个实施例中，构成事件案例库的过程中，采用斯帕克工具进行资源调度。可以理解，在分布式计算平台上构成事件案例库的过程中，可以采用平台的斯帕克工具进行资源调度，将业务功能作为离线任务进行提交，实现大数据平台与python业务和java业务的接入，从而更高效地完成处理过程中的各业务功能。

一般的，在大数据平台中，可以使用斯帕克工具来进行资源调度和执行离线任务，同时集成Python业务和Java业务功能。其实现的通用步骤例如可以是：

搭建斯帕克集群：首先，需要搭建一个斯帕克集群。可以使用现有工具如另一种资源协调者（Hadoop YARN）、集群管理器（Mesos）或独立集群管理器来管理斯帕克集群，确保集群规模和配置满足当前实际应用场景的计算需求。然后是业务功能编写：开发当前应用场景下所需的业务功能，将它们实现为离线任务，这些任务可以用Python编程语言或Java编程语言编写，代码可以与斯帕克工具集成，以便能够与分布式数据集协同工作。接着是数据准备：准备大数据平台上的数据，例如分布式计算平台上获取到的指定业务领域的多源异构数据，确保这些数据可以被斯帕克工具处理，例如数据清洗、数据转换和数据加载操作。

再者是斯帕克应用开发：开发一个斯帕克应用，这个应用将会负责资源调度和任务执行。斯帕克应用可以使用Scala语言、Python编程语言或Java编程语言编写。在斯帕克应用中，使用斯帕克的API（Application Programming Interface，应用程序接口）加载数据、执行数据转换和调用前述的业务功能，以及将结果存储回大数据平台。进而提交斯帕克应用：使用斯帕克-提交命令将斯帕克应用提交到斯帕克集群并指定应用的主类（entrypoint）、资源配置和依赖项，这将用于触发资源调度器将计算资源分配给斯帕克应用程序。

监控和管理：在运行时，监控斯帕克应用的性能和进度，可以使用斯帕克工具的Web界面或监控工具来实现这一点，并且处理应用程序失败或异常情况，以确保数据处理的稳定性。结果存储：将业务功能的结果存储在大数据平台上的适当位置，以便后续分析和访问。集成Python业务和Java业务功能：在斯帕克应用中调用Python业务和Java业务功能，确保它们被正确执行。日志和错误处理：实现日志记录和错误处理机制，以便在应用运行期间出现问题时能够进行故障排除。最后还可以执行定期维护：定期更新和维护斯帕克应用，以适应不断变化的业务需求和数据。通过以上步骤，可以实现大数据平台与Python业务、Java业务的接入，将业务功能作为离线任务提交到斯帕克集群，并完成数据处理和分析任务。

应该理解的是，虽然图1至图4流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且图1至图4的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图5，在一个实施例中，提供一种基于大数据语义的相似事件检索系统100，包括数据获取模块11、数据汇聚模块13、向量化模块15、语义搜索模块17和相似计算模块19。其中，数据获取模块11用于获取指定业务领域的多源异构数据；多源异构数据包括结构化数据和半结构化数据。数据汇聚模块13用于利用分布式计算平台对多源异构数据进行奇异值剔除和冗余信息合并，构成事件案例库并整编存入分布式计算平台的蜂箱数据仓库。向量化模块15用于采用伯特模型将事件案例库中事件的文本信息进行向量化处理，生成各事件对应的高维文本向量。语义搜索模块17用于根据各高维文本向量采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性。相似计算模块19用于根据各事件的事件相关属性和指定的目标事件，利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度。

上述基于大数据语义的相似事件检索系统100，通过利用分布式计算平台对指定业务领域的多源异构数据进行数据汇聚和整编，加快数据计算速度，然后采用伯特模型将事件案例库中事件的文本信息进行向量化处理，实现事件的文本向量化，再采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性，最后根据各事件的事件相关属性和指定的目标事件，进一步利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度，实现较细粒度的指定业务领域的相似事件区分。

在一个实施例中，采用伯特模型将所述事件案例库中事件的文本信息进行向量化处理的过程中，根据伯特模型进行文本向量化后，采用向量相似对同一事件的不同表述进行相似判别。

在一个实施例中，高维文本向量为768维向量。

在一个实施例中，上述的语义搜索模块17具体可以用于分别对各高维文本向量进行主成分分析降维处理；采用层次式可导航小世界算法为主成分分析降维处理后的各高维文本向量构建索引；获取指定的目标事件的各历史相似事件；根据各历史相似事件的事件标识，应用斯帕克结构化查询技术获取各历史相似事件的事件相关属性。

在一个实施例中，上述的语义搜索模块17具体还可以用于对各高维文本向量进行乘积量化操作。

在一个实施例中，构成事件案例库的过程中，采用斯帕克工具进行资源调度。

关于基于大数据语义的相似事件检索系统100的具体限定，可以参见上文中基于大数据语义的相似事件检索方法的相应限定，在此不再赘述。上述基于大数据语义的相似事件检索系统100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具备数据处理功能的设备中，也可以软件形式存储于前述设备的存储器中，以便于处理器调用执行以上各个模块对应的操作，前述设备可以是但不限于本领域已有的各型数据计算与处理设备。

在一个实施例中，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如下处理步骤：获取指定业务领域的多源异构数据；多源异构数据包括结构化数据和半结构化数据；利用分布式计算平台对多源异构数据进行奇异值剔除和冗余信息合并，构成事件案例库并整编存入分布式计算平台的蜂箱数据仓库；采用伯特模型将事件案例库中事件的文本信息进行向量化处理，生成各事件对应的高维文本向量；根据各高维文本向量采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性；根据各事件的事件相关属性和指定的目标事件，利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度。

可以理解，上述计算机设备除上述述及的存储器和处理器外，还包括其他本说明书未列出的软硬件组成部分，具体可以根据不同应用场景下的具体计算机设备的型号确定，本说明书不再一一列出详述。

在一个实施例中，处理器执行计算机程序时还可以实现上述基于大数据语义的相似事件检索方法各实施例中增加的步骤或者子步骤。

在一个实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如下处理步骤：获取指定业务领域的多源异构数据；多源异构数据包括结构化数据和半结构化数据；利用分布式计算平台对多源异构数据进行奇异值剔除和冗余信息合并，构成事件案例库并整编存入分布式计算平台的蜂箱数据仓库；采用伯特模型将事件案例库中事件的文本信息进行向量化处理，生成各事件对应的高维文本向量；根据各高维文本向量采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性；根据各事件的事件相关属性和指定的目标事件，利用事件相似度计算模型分别计算得到目标事件的相似事件的结构相似度和属性相似度。

在一个实施例中，计算机程序被处理器执行时，还可以实现上述基于大数据语义的相似事件检索方法各实施例中增加的步骤或者子步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线式动态随机存储器（RambusDRAM，简称RDRAM）以及接口动态随机存储器（DRDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可做出若干变形和改进，都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于大数据语义的相似事件检索方法，其特征在于，包括步骤：

获取指定业务领域的多源异构数据；所述多源异构数据包括结构化数据和半结构化数据；

利用分布式计算平台对所述多源异构数据进行奇异值剔除和冗余信息合并，构成事件案例库并整编存入所述分布式计算平台的蜂箱数据仓库；

采用伯特模型将所述事件案例库中事件的文本信息进行向量化处理，生成各事件对应的高维文本向量；

根据各所述高维文本向量采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性；其中，分别对各所述高维文本向量进行主成分分析降维处理；

采用层次式可导航小世界算法为主成分分析降维处理后的各所述高维文本向量构建索引；

获取指定的目标事件的各历史相似事件；其中，获取指定的目标事件的历史相似事件案例，将事件文本信息进行编码且通过给定参数K，获取前K个最相似的历史相似事件；

根据获取到的前K个所述历史相似事件的事件标识，应用斯帕克结构化查询技术获取各所述历史相似事件的所述事件相关属性；其中，所述事件相关属性包括事件时间、分析对象代码、事件类别、事件影响和事件地理位置；

根据各事件的事件相关属性和指定的目标事件，利用事件相似度计算模型分别计算得到所述目标事件的相似事件的结构相似度和属性相似度；其中，属性包括数值型和分类型属性；

所述事件相似度计算模型为：

；

其中，为属性相似度求和，/>和/>分别为两个不同事件，/>为事件属性数量，/>为第/>个属性的权重，/>和/>分别为第i个属性对应的两个不同事件；

所述结构相似度为：

；

其中，为/>的非空属性权重之和，/>为/>的非空属性权重之和，A和B分别表示两个不同事件的结构集合，此处的结构是指事件的属性集合中是否包含第/>个属性；

所述属性相似度为：

；

其中，为第/>个属性的最大值，/>为第/>个属性的最小值；其中，采用伯特模型将所述事件案例库中事件的文本信息进行向量化处理的过程中，根据伯特模型进行文本向量化后，采用向量相似对同一事件的不同表述进行相似判别。

2.根据权利要求1所述的基于大数据语义的相似事件检索方法，其特征在于，所述高维文本向量为768维向量。

3.根据权利要求2所述的基于大数据语义的相似事件检索方法，其特征在于，采用层次式可导航小世界算法为主成分分析降维处理后的各所述高维文本向量构建索引之后，还包括：

对各所述高维文本向量进行乘积量化操作。

4.根据权利要求1所述的基于大数据语义的相似事件检索方法，其特征在于，构成事件案例库的过程中，采用斯帕克工具进行资源调度。

5.一种基于大数据语义的相似事件检索系统，其特征在于，包括：

数据获取模块，用于获取指定业务领域的多源异构数据；所述多源异构数据包括结构化数据和半结构化数据；

数据汇聚模块，用于利用分布式计算平台对所述多源异构数据进行奇异值剔除和冗余信息合并，构成事件案例库并整编存入所述分布式计算平台的蜂箱数据仓库；

向量化模块，用于采用伯特模型将所述事件案例库中事件的文本信息进行向量化处理，生成各事件对应的高维文本向量；

语义搜索模块，用于根据各所述高维文本向量采用费斯向量数据库进行相似语义搜索，得到各事件的事件相关属性；其中，分别对各所述高维文本向量进行主成分分析降维处理；

相似计算模块，用于根据各事件的事件相关属性和指定的目标事件，利用事件相似度计算模型分别计算得到所述目标事件的相似事件的结构相似度和属性相似度；其中，属性包括数值型和分类型属性；

所述事件相似度计算模型为：

；

其中，为属性相似度求和，/>和/>分别为两个不同事件，/>为事件属性数量，/>为第/>个属性的权重，/>和/>分别为第/>个属性对应的两个不同事件；

所述结构相似度为：

；

所述属性相似度为：

；

其中，为第/>个属性的最大值，/>为第/>个属性的最小值；

其中，采用伯特模型将所述事件案例库中事件的文本信息进行向量化处理的过程中，根据伯特模型进行文本向量化后，采用向量相似对同一事件的不同表述进行相似判别。

6.根据权利要求5所述的基于大数据语义的相似事件检索系统，其特征在于，构成事件案例库的过程中，采用斯帕克工具进行资源调度。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的基于大数据语义的相似事件检索方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4任一项所述的基于大数据语义的相似事件检索方法的步骤。