CN118012930A

CN118012930A - 用于人防指挥的事件监测方法

Info

Publication number: CN118012930A
Application number: CN202410428666.0A
Authority: CN
Inventors: 秦磊; 孙继文; 丁绍轩
Original assignee: Shuan Online Beijing Information Technology Co ltd
Current assignee: Shuan Online Beijing Information Technology Co ltd
Priority date: 2024-04-10
Filing date: 2024-04-10
Publication date: 2024-05-10

Abstract

本发明公开了用于人防指挥的事件监测方法，方法包括数据采集、预处理、数据挖掘、基于权重的排序和基于相似矩阵的事件重要性识别。本发明属于数据处理技术领域，具体是指用于人防指挥的事件监测方法，本方案基于预先相似度对频繁模式间距离进行改进，可以更好地理解数据集中的模式；基于检查树的单一路径实现不同状态下频繁模式的合并和存储；通过改进TF‑IDF计算术语重要性和特异性从而得到频繁模式权重，基于评估相似矩阵中元素的分散程度实现对事件划分，从而完成事件监测任务。

Description

用于人防指挥的事件监测方法

技术领域

本发明涉及数据处理技术领域，具体是指用于人防指挥的事件监测方法。

背景技术

人防指挥的事件监测方法可以利用多种技术进行实现，包括但不限于自然语言处理、文本挖掘、数据分析和机器学习等技术，通过搭建一个有效的人防指挥事件监测系统，从而帮助管理人员及时了解事件动态，做出及时的决策和应对措施。但是一般事件监测方法存在输入数据的质量差，适应性低，不同频繁模式间关联程度衡量不当从而导致数据挖掘效果差的问题；一般事件监测方法存在术语特异性解释不当，导致无法识别频繁模式的重要性，对事件的重要性评估准确性差的问题。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供了用于人防指挥的事件监测方法，针对一般事件监测方法存在输入数据的质量差，适应性低，不同频繁模式间关联程度衡量不当从而导致数据挖掘效果差的问题，本方案基于预先相似度对频繁模式间距离进行改进，可以更好地理解数据集中的模式；基于检查树的单一路径实现不同状态下频繁模式的合并和存储；提高数据挖掘结果的质量和可解释性；针对一般事件监测方法存在术语特异性解释不当，导致无法识别频繁模式的重要性，对事件的重要性评估准确性差的问题，本方案通过改进TF-IDF计算术语重要性和特异性从而得到频繁模式权重，基于评估相似矩阵中元素的分散程度实现对事件划分，从而完成事件监测任务。

本发明采取的技术方案如下：本发明提供的用于人防指挥的事件监测方法，该方法包括以下步骤：

步骤S1：数据采集；

步骤S2：预处理；

步骤S3：数据挖掘；

步骤S4：基于权重的排序；

步骤S5：基于相似矩阵的事件重要性识别。

进一步地，在步骤S1中，所述数据采集是采集人防指挥的事件监测数据，包括社交媒体文本数据、新闻媒体文本数据和论坛博客文本数据。

进一步地，在步骤S2中，所述预处理具体包括以下步骤：

步骤S21：数据预处理，包括数据清洗、数据转换和建立增量频繁模式树；所述数据清洗是处理缺失值、异常值和重复值；所述数据转换是将清洗后的数据转化为向量形式；所述建立增量频繁模式树是基于FP-growth算法得到增量频繁模式树，并在增量频繁模式树节点数据结构中添加节点结构，最终的增量频繁模式树节点结构包括：节点的唯一标识符名称，用于标识每个节点的唯一性、子节点列表，存储当前节点的所有子节点、指向当前节点的父节点、指向同一层级中当前节点的下一个节点、记录当前节点对应的频繁模式出现的次数和案例标识集合；案例标识集合用CaseIdSet表示，用于标识每个事件的唯一标识符；

步骤S22：定义频繁模式间距离，频繁模式指文本关键词的组合，所用公式如下：

；

式中，WMD(·)是频繁模式间距离；T_ij表示一个从术语i到术语j的术语权重参数；c (i,j)表示从术语i到术语j的距离；f_i表示第i个术语在频繁模式f中出现的次数；表示第 i个术语在频繁模式中出现的次数；n是术语总数；术语指组成频繁模式的文本关键词；T是术语间权重；

步骤S23：定义频繁模式间相似度，所用公式如下：

；

式中，sim(·)是频繁模式间相似度，f₁和f₂是两个频繁模式；是l2范数。

进一步地，在步骤S3中，所述数据挖掘具体包括以下步骤：

步骤S31：检查树是否包含单一路径P：定义α是增量频繁模式树的后缀模式，初始为空；θ_s是最小支持度阈值；θ_n是频繁项集的项数阈值；θ_w是频繁模式间相似度阈值；

步骤S32：如果树包含单一路径P，则对路径P中节点的所有组合，并将组合定义为β，执行以下步骤：

步骤S321：生成模式β∪α；支持度等于β中节点的最小支持度，支持度是指在数据集中模式出现的频率；

步骤S322：检查模式的长度是否等于θ_n且支持度大于θ_s：

步骤S3221：如果是，则生成频繁模式候选集；

步骤S3222：取路径中所有节点的CaseIdSet节点的交集，其中，CaseIdSet是数据挖掘中频繁模式树的一种节点类型；

步骤S323：对于每个在F中，其中F是存储所有发现的频繁模式的集合；是F中的频繁模式：

步骤S3231：如果和中的每个频繁模式的相似度都低于θ_w，则将合并到F中；

步骤S3232：否则，选择中具有最大频繁模式相似度的，将的术语与 CaseIdSet合并，并将其存储在F中，术语指组成频繁模式的关键词；

步骤S33：如果树不包含单一路径P：对于树顶部的每个频繁模式a_i，执行以下步骤：

步骤S331：生成模式β=a_i∪α：其中生成模式的支持度等于a_i的支持度；

步骤S332：检查模式的长度是否等于θ_n且支持度大于θ_s：

步骤S3321：如果是，则生成频繁模式候选集；

步骤S3322：取路径中所有节点的CaseIdSet节点的交集；

步骤S333：对于每个中的F；

步骤S3331：如果与之间的每个频繁模式相似度都低于θw，则将合并到F中；

步骤S3332：否则，选择具有最大的频繁模式相似度的，将的术语和 CaseIdSet合并，并存储在F中；

步骤S34：输出包含频繁模式的集合F。

进一步地，在步骤S4中，所述基于权重的排序具体包括以下步骤：

步骤S41：计算术语重要性，所用公式如下：

；

式中，是第i个术语在第j个文本中的重要性；n_i,j是第i个术语在第j个文本中的词频；p是第i个术语所在的文本；k是文本中术语的索引，n_k,j是第k个术语在第j个文本中的词频；

步骤S42：计算术语特异性，所用公式如下：

；

式中，ipf_i是第i个术语的特异性；是总文档数量；是包含术语g_i的文档数量，预先设有词阈值，当术语在文档中出现的次数大于词阈值，则被认为是包含术语的文档，否则被认为不包含术语的文档；

步骤S43：计算频繁模式的权重，计算候补权重Weight(·)，归一化处理后作为频繁模式的权重；所用公式如下：

；

式中，Weight(f)是第频繁模式f的候补权重；

步骤S44：排序，基于频繁模式的权重对步骤S3输出的集合F中的频繁模式进行排序。

进一步地，在步骤S5中，所述基于相似矩阵的事件重要性识别具体包括以下步骤：

步骤S51：构建频繁模式的特征向量，基于排序后的频繁模式集合F中的每个频繁模式，构建特征向量；每个特征向量的维度对应频繁模式集合中的术语数，且特征向量中的每个值为术语的权重；

步骤S52：计算余弦相似度，计算任意两个频繁模式特征向量的余弦相似度；

步骤S53：构建相似度矩阵，基于计算得到的频繁模式间的相似度，构建相似度矩阵；

步骤S54：评估相似矩阵中元素的分散程度，所用公式如下：

；

式中，γ是相似矩阵元素的离散程度；Std(S)是矩阵元素的标准差；是矩阵的范数；

步骤S55：事件划分，预先设有评估阈值；当γ大于评估阈值时，步骤S3得到的频繁模式的集合F被视为重要事件的文本集合，对文本涉及事件进行事件监测，及时采取应对措施；否则F被视为非重要事件的文本集合。

采用上述方案本发明取得的有益效果如下：

（1）针对一般事件监测方法存在输入数据的质量差，适应性低，不同频繁模式间关联程度衡量不当从而导致数据挖掘效果差的问题，本方案基于预先相似度对频繁模式间距离进行改进，可以更好地理解数据集中的模式；基于检查树的单一路径实现不同状态下频繁模式的合并和存储；提高数据挖掘结果的质量和可解释性。

（2）针对一般事件监测方法存在术语特异性解释不当，导致无法识别频繁模式的重要性，对事件的重要性评估准确性差的问题，本方案通过改进TF-IDF计算术语重要性和特异性从而得到频繁模式权重，基于评估相似矩阵中元素的分散程度实现对事件划分，从而完成事件监测任务。

附图说明

图1为本发明提供的用于人防指挥的事件监测方法的流程示意图；

图2为步骤S4的流程示意图；

图3为步骤S5的流程示意图。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例一，参阅图1，本发明提供的用于人防指挥的事件监测方法，该方法包括以下步骤：

步骤S1：数据采集，采集人防指挥的事件监测数据；

步骤S2：预处理，对采集的文本数据进行数据清洗、数据转换和建立增量频繁模式树；并定义频繁模式间距离和频繁模式间相似度；

步骤S3：数据挖掘，基于检查树的单一路径实现不同状态下频繁模式的合并和存储；最终输出包含频繁模式的集合；

步骤S4：基于权重的排序，改进TF-IDF计算术语重要性和特异性从而得到频繁模式权重，基于权重实现对频繁模式的排序；

步骤S5：基于相似矩阵的事件重要性识别，基于评估相似矩阵中元素的分散程度实现对事件划分，从而完成事件监测任务。

实施例二，参阅图1，该实施例基于上述实施例，在步骤S1中，事件监测数据包括社交媒体文本数据、新闻媒体文本数据和论坛博客文本数据。

实施例三，参阅图1，该实施例基于上述实施例，在步骤S2中，预处理具体包括以下步骤：

；

步骤S23：定义频繁模式间相似度，所用公式如下：

；

实施例四，参阅图1，该实施例基于上述实施例，在步骤S3中，数据挖掘具体包括以下步骤：

步骤S322：检查模式的长度是否等于θ_n且支持度大于θ_s：

步骤S3221：如果是，则生成频繁模式候选集；

步骤S332：检查模式的长度是否等于θ_n且支持度大于θ_s：

步骤S3321：如果是，则生成频繁模式候选集；

步骤S3322：取路径中所有节点的CaseIdSet节点的交集；

步骤S333：对于每个中的F；

步骤S34：输出包含频繁模式的集合F。

通过执行上述操作，针对一般事件监测方法存在输入数据的质量差，适应性低，不同频繁模式间关联程度衡量不当从而导致数据挖掘效果差的问题，本方案基于预先相似度对频繁模式间距离进行改进，可以更好地理解数据集中的模式；基于检查树的单一路径实现不同状态下频繁模式的合并和存储；提高数据挖掘结果的质量和可解释性。

实施例五，参阅图1和图2，该实施例基于上述实施例，在步骤S4中，基于权重的排序具体包括以下步骤：

步骤S41：计算术语重要性，所用公式如下：

；

步骤S42：计算术语特异性，所用公式如下：

；

式中，Weight(f)是第频繁模式f的候补权重；

实施例六，参阅图1和图3，该实施例基于上述实施例，在步骤S5中，基于相似矩阵的事件重要性识别具体包括以下步骤：

步骤S54：评估相似矩阵中元素的分散程度，所用公式如下：

；

通过执行上述操作，针对一般事件监测方法存在术语特异性解释不当，导致无法识别频繁模式的重要性，对事件的重要性评估准确性差的问题，本方案通过改进TF-IDF计算术语重要性和特异性从而得到频繁模式权重，基于评估相似矩阵中元素的分散程度实现对事件划分，从而完成事件监测任务。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.用于人防指挥的事件监测方法，其特征在于：该方法包括以下步骤：

步骤S1：数据采集；

2.根据权利要求1所述的用于人防指挥的事件监测方法，其特征在于：在步骤S2中，所述预处理具体包括以下步骤：

；

式中，WMD(·)是频繁模式间距离；T_ij表示一个从术语i到术语j的术语权重参数；c(i,j)表示从术语i到术语j的距离；f_i表示第i个术语在频繁模式f中出现的次数；表示第i个术语在频繁模式/>中出现的次数；n是术语总数；术语指组成频繁模式的文本关键词；T是术语间权重；

步骤S23：定义频繁模式间相似度，所用公式如下：

；

3.根据权利要求1所述的用于人防指挥的事件监测方法，其特征在于：在步骤S5中，所述基于相似矩阵的事件重要性识别具体包括以下步骤：

步骤S54：评估相似矩阵中元素的分散程度，所用公式如下：

；

4.根据权利要求1所述的用于人防指挥的事件监测方法，其特征在于：在步骤S3中，所述数据挖掘具体包括以下步骤：

步骤S322：检查模式的长度是否等于θ_n且支持度大于θ_s：

步骤S3221：如果是，则生成频繁模式候选集；

步骤S323：对于每个在F中，其中F是存储所有发现的频繁模式的集合；/>是F中的频繁模式：

步骤S3231：如果和/>中的每个频繁模式的相似度都低于θ_w，则将/>合并到F中；

步骤S3232：否则，选择中具有最大频繁模式相似度的/>，将/>的术语与CaseIdSet合并，并将其存储在F中，术语指组成频繁模式的关键词；

步骤S332：检查模式的长度是否等于θ_n且支持度大于θ_s：

步骤S3321：如果是，则生成频繁模式候选集；

步骤S3322：取路径中所有节点的CaseIdSet节点的交集；

步骤S333：对于每个中的F；

步骤S3331：如果与/>之间的每个频繁模式相似度都低于θw，则将/>合并到F中；

步骤S3332：否则，选择具有最大的频繁模式相似度的/>，将/>的术语和CaseIdSet合并，并存储在F中；

步骤S34：输出包含频繁模式的集合F。

5.根据权利要求1所述的用于人防指挥的事件监测方法，其特征在于：在步骤S4中，所述基于权重的排序具体包括以下步骤：

步骤S41：计算术语重要性，所用公式如下：

；

步骤S42：计算术语特异性，所用公式如下：

；

式中，ipf_i是第i个术语的特异性；是总文档数量；/>是包含术语g_i的文档数量，预先设有词阈值，当术语在文档中出现的次数大于词阈值，则被认为是包含术语的文档，否则被认为不包含术语的文档；

；

式中，Weight(f)是第频繁模式f的候补权重；

6.根据权利要求1所述的用于人防指挥的事件监测方法，其特征在于：在步骤S1中，所述数据采集是采集人防指挥的事件监测数据，包括社交媒体文本数据、新闻媒体文本数据和论坛博客文本数据。