CN109726246A

CN109726246A - 一种基于数据挖掘和可视化的电网事故关联原因回溯方法

Info

Publication number: CN109726246A
Application number: CN201811527424.8A
Authority: CN
Inventors: 田年杰; 王宁; 代江; 赵倩; 李赟; 陈恩黔; 单克; 郑全朝; 王成佐; 李振邦; 张楠; 潘家满; 龙志敏; 缪伟明; 兰俊
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-05-07

Abstract

本发明涉及一种基于数据挖掘和可视化的电网事故关联原因回溯方法，属于智能检索领域。该方法包括以下步骤：S1：数据挖掘；S2：事故事件追溯检索；S3：结合词库关联规则展示追溯过程；本发明在电力系统处于运行状态时，如果系统出现问题，保护装置的动作信息就会把故障的有关信息传送给调度中心，通过将故障信息导入到智能分析系统中，建立故障数据挖掘算法，可以对故障的数据进行分析，提取故障特征，再收集历史事故事件数据，再根据这些元素相关联的其他运行信息，进行网状拓扑展示，辅助调度人员进行事故事件的调查，使之成为系统运行人员对电力系统故障进行快速判断和处理的依据。

Description

一种基于数据挖掘和可视化的电网事故关联原因回溯方法

技术领域

本发明属于智能检索领域，涉及一种基于数据挖掘和可视化的电网事故关联原因回溯方法。

背景技术

目前电网调度运行工作过程中由于缺少具备运行操作指令辅助及对操作结果技术评估等闭环管控功能的支撑工具，不能提前预防故障问题的发生，且在出现设备操作问题，导致设备故障安全事故时，无法直观的对安全事故原因进行追溯，无法对下次同一设备下达指令的操作结果进行技术评估以提供改进措施。另外，在运行操作过程中，系统运行各专业的操作效率及完成的质量，没有量化的考核依据，电网控制和系统运行人员的操作效率不能满足电网快速发展的要求。

发明内容

有鉴于此，本发明的目的在于提供一种基于数据挖掘和可视化的电网事故关联原因回溯方法，通过对事故规律的研究，为事故事件产生的原因进行追踪回溯，为定位问题原因提供辅助，为安全事故定性定级做数据支撑，为安全事故后续处置方案提供参考依据，防止和减少电力事故的发生，不断提高电力安全监督和管理水平，有效持续的降低电网运行安全风险。

为达到上述目的，本发明提供如下技术方案：

一种基于数据挖掘和可视化的电网事故关联原因回溯方法，该方法包括以下步骤：

S1：数据挖掘；

S2：事故事件追溯检索；

S11：对大量的原始数据进行预处理，包括数据的选择和清理，以去除重复或者有冲突的信息；

S12：将对决策有用的数据从数据集中提取出来形成数据样本；

S13：利用数据挖掘的各种方法对数据样本进行挖掘，发现其中隐含的、对决策有用的数据或者数据间的相互关系；

其中，按照电网的业务数据特点和数据挖掘需求，在进行数据分析时采用两种算法模型，即关联和预测；数据挖掘是知识发现中必不可少的一步，知识发现是在这个过程中将原始数据转化为有用信息，由三个部分组成：数据整理、数据挖掘和解释评估；

数据挖掘分为包括六类功能：(1)自动预测趋势和行为；(2)关联分析；(3)分类；(4)聚类；(5)概念描述；(6)偏差检测；

S3：结合词库关联规则展示追溯过程；在电网事故发生后，通过录入相关系统运行设备等信息关键字，经过系统运行词库对相关的系统运行人、物、事，即系统运行操作人员、系统运行设备、系统运行操作动作及其他相关信息进行关联展示；结合图形展示技术以动态图形形式展示电网事故原因追溯过程。

进一步，所述步骤S2具体为：

从系统运行相关系统获取对应的系统运行数据；

从调度信息管理系统DMIS获取设备信息及历史事故信息；

从输配电生产管理系统PMS获取地理位置信息及输配电设备的详细参数；

结合数据挖掘对接收的最新事故信息进行处理、判断故障设备、通过调用典型事故预案并对其进行修正后形成决策方案；

允许调度员通过人机交互的方式干预决策过程，通过排除一些不确定因素来提高事故原因追溯的正确相应。

进一步，所述预处理包括以下步骤：

S111：系统运行内容提取：在得到系统运行文本以后利用基于文本块统计的提取算法获得系统运行文本的文字内容；

S112：分句：句子识别是进行关系抽取的最初步骤，以文本中出现的中英文句号、问号或叹号句子终结符作为句子的分隔符；

S113：分词和词性标注：在这一步中，需要对已分好句的文本进行分词、词性标注与命名实体识别；

S114：系统运行词典构建；在经过上一步的分词标注后，进行词典构建，形成初步的系统运行词典；

S115：语句选择：根据制定的相关规则，筛选出对后续处理可能有价值的句子，过滤掉无关语句，以提高处理效率。

进一步，在所述预处理后，得到标题数据中所有识别为系统运行人、物、事名的词，使用系统运行词典对识别出的系统运行人、物、事进行噪声过滤；对标题数据进行过滤后的系统运行人、物、事两两进行组合得到系统运行人、物、事；

统计所有标题数据中每个系统运行人、物、事的出现频率，系统运行人、物、事的出现频率越高说明在系统运行文本标题中共现的次数越多，两者存在关系的概率越高；通过这种方法过滤掉共现次数较少的无关系统运行人、物、事，减少后续处理的工作量；

对于剩下的共现次数较高的系统运行人、物、事，引人一种关联度计算方法，即上下文式关联；根据两个系统运行人、物、事同时出现在一个系统运行文本标题中作为系统运行人、物、事存在关联的依据，然后基于统计的方法来量化这种关联度，引入两个系统运行实体(pi,pj)的条件概率：

即pi,pj同时出现的标题数目除以pj出现的标题数目；如果系统运行人、物、事间计算出的条件概率较高说明系统运行人、物、事之间的依赖关系较强，将式(2)中的条件概率和系统运行人、物、事共现次数结合来衡量系统运行人、物、事关联度；

asso(P_i,P_j)＝w₁*P(P_i|P_j)+w₂*coor(P_i,P_j) (3)

式(3)计算的系统运行人、物、事的关联度，叫w₁和w₂分别是式(2)中的条件概率和系统运行人、物、事共现次数所占的权重；最终，将系统运行人、物、事按照式(3)计算的关联度进行排序，取关联度最高的500个系统运行人、物、事用于后续系统运行人、物、事关系提取研究；

在得到可能具有关系系统运行人、物、事以后，需要确定系统运行人、物、事之间的具体关系名，需要挖掘与系统运行人、物、事有关的系统运行文本数据进行分析；本文以系统运行人、物、事pair＝(pi,pj)为搜索条件，利用搜索引擎得到系统运行人、物、事的查询结果系统运行文本；将所有词语按照词频排序，词频统计结果表现为长尾特性，即大多数的词出现次数很少，少数的词出现的次数较高，此处过滤掉词频极低的可能是噪声的数据；

利用词频-逆向文档频率(TermFrequency-InverseDocumentFrequency,TF-IDF)算法来评估一个词语对于表征系统运行人、物、事关系的重要度；如果某个特征在某个系统运行人、物、事共现的句子中出现的词频较高，并且在其他系统运行人、物、事共现的句子集中很少出现，则认为这个词较能体现系统运行人、物、事的关系；词语对于系统运行人、物、事关系的重要性为w_ij，如式(4)所示：

w_ij＝tft_j×idf_j＝tfi_j×ln(N/n_j) (4)

其中：tf_ij的指关键词t_j在系统运行人、物、事d_j共现的句子中出现的次数，idf_i与词t_j共现的系统运行人、物、事数量成反比，N表示总的系统运行人、物、事数，n_j指与词t_j共现的人、物、事数；将按词频过滤后的词语重新按式(4)重要性进行排序，每个人、物、事保留重要性最高的50个词语；

一个包含n个关键词的共现矩阵被定义为：

其中n是关键词的个数，式中C(w_i，w_j)表示关键词w_i、w_j的关联度；由式(5)进行计算：

其中：f(w_i)，f(w_j)分别代表词语w_i和w_j的出现频数，f(w_i，w_j)代表w_i和w_j共同出现在一个窗口的次数；参数p是一个可调的参数并且它的值在实数范围内；取p＝50，式(6)显示词语之间的关联度量是由词语的共现频率和单个的出现频率所决定的；

设M是得到的词语共现矩阵，关键词集合是W,W_i表示第i个关键理，M转化成对应的关键词关联网络图G的定义为：

G＝{V,E} (7)

其中：V表示图G的顶点集；V_i表示V中第i个顶点；V与W中元素一一对应，即V_i对应W_i；E表示图G的边集；如果2个顶点的关联度大于一定的阈值，则在这2个顶点之间添加一条无向边，即：

E＝{(V_i,V_j)|V_i,V_j∈V,Sim(V_i,V_j)＞β}＝{(V_i,V_j)|V_i,V_j∈V,Wi,W_j∈W,Sim(V_i,V_j)＞β} (8)

其中，0＜β＜1，β越大，词语之间的关联的要求越严格，则图G越稀疏；设置的β值为所有计算出的关键词关联度的中位数的T倍，将比较T值的选取对最终结果的影响；

关键词关联网络建立完成以后，需要对关联网络进行分析以发现系统运行人、物、事关系；表示系统运行人、物、事关系的关键词与系统运行人、物、事会存在频繁的共现关系，而且在关键词关联网络中处于核心的位置，通过图聚类的方式找到系统运行人、物、事关系；使用基于团clique的图聚类方法，检测出关联网络中所有固定大小的clique；每个clique中包含若干个关键词，这些关键词在关联网络中都有边相连；在关键词关联网络建立以后，使用复杂网络分析工具NetworkX中的find_cliques()函数查找关键词关联网络中的所有clique；

为利用识别出的clique挖掘系统运行人、物、事的关系词，构建clique之间的关联；关联网络中检测出的clique之间往往会存在共同的关键词；clique间的共同出现关键词组成集合V＝{w₁,w₂,……,w_m}，共包含m个关键词；以每个clique作为节点，clique之间的共现关键词为边的来建立clique关联图G；

在clique关联图G建立完成后，在关联图G上进行分析以挖掘在系统运行人、物、事关联上重要性最高的关键词；关键词k在clique关联图G中越多的边中出现，说明该关键词是关联图G很多clique都包含该关键词，则关键词k对于识别系统运行人、物、事关系重要性越高；

为识别系统运行人、物、事(p_i,p_j)之间的关系，对clique关联图G中所有边上的关键词统计每个关键词在图中出现的边数；假设集合V中的某个关键词k在图中边上出现的次数为fq_k，TF-IDF(Term Frequency-lnverse Document Frequency)计算出的关键词权重w_k.最终关键词k对于系统运行人、物、事的重要性为Weight_k：

Weight_k＝w_k×fq_k (9)

对于集合V中的所有关键词按照式(9)计算的结果进行排序，最后取集合V中所有词语中计算结果最高的词语作为系统运行人、物、事的关系词。

本发明的有益效果在于：

(1)事故事件回溯分析方面：电力系统处于运行状态时，如果系统出现问题，保护装置的动作信息就会把故障的有关信息传送给调度中心，通过将故障信息导入到智能分析系统中，建立故障数据挖掘算法，可以对故障的数据进行分析，提取故障特征，再收集历史事故事件数据，结合PMS台帐信息、EMS的设备关联数据、组织人员结构、天气因素、故障信息、操作日志、操作票、工作票等信息，按照一定规则串联起来形成拓扑结构，根据某一个历史事故事件，追溯查找出相关设备、人员、自然因素等元素，再根据这些元素相关联的其他运行信息，进行网状拓扑展示，辅助调度人员进行事故事件的调查，使之成为系统运行人员对电力系统故障进行快速判断和处理的依据。

(2)设备运行状态预测方面：通过对电网设备的运行状态进行监测，收集状态信息进行分析预测，以便及时发现并且解决问题，从而提高设备的可靠性，降低设备维护成本。

(3)市场发展趋势研判方面：通过对电力用户的特征进行合理分析，将市场分为群组，分析用户的用电特征，能够有效预测短期内的市场需求，从而为市场发展趋势决策提供数据依据。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为历史事故故障原因追溯流程图；

图2为电力生产事故分析数据挖掘过程；

图3为横向拓扑图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

1数据挖掘技术

数据挖掘技术是一种新型的信息处理技术，它将数据的使用，由低层次的联机查询，提升到了一个新的高度，即分析预测、决策支持等高等应用。数据挖掘能够对数据进行微观、宏观的统计分析，并且对数据关系进行综合推理，寻找数据之间存在的关联性、发展趋势等。包含以下流程：

1)对大量的原始数据进行预处理，主要包括数据的选择和清理，以去除重复或者有冲突的信息。

2)将对决策有用的数据从数据集中提取出来形成数据样本。

3)利用数据挖掘的各种方法对数据样本进行挖掘，发现其中隐含的、对决策有用的数据或者数据间的相互关系。

1.2电网数据智能分析数据挖掘算法模型

按照电网的业务数据特点和数据挖掘需求，在进行数据分析时主要采用两种算法模型，即关联和预测。

数据挖掘是知识发现中必不可少的一步，知识发现是在这个过程中将原始数据转化为有用信息，由三个主要部分组成：数据整理、数据挖掘和解释评估。

1.3数据挖掘常用的功能

数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要可以分为六类功能：(1)自动预测趋势和行为；(2)关联分析；(3)分类；(4)聚类；(5)概念描述；(6)偏差检测。

2事故事件追溯检索原理解析

2.1电网调度事故追溯流程

事故事件的追溯流程如图1所示。通常，从系统运行相关系统获取对应的系统运行数据；从调度信息管理系统(DMIS)获取设备信息及历史事故信息；从输配电生产管理系统(PMS)获取地理位置信息及输配电设备的详细参数。结合数据挖掘技术对接收的最新事故信息进行处理、判断故障设备、通过调用典型事故预案并对其进行修正后形成决策方案。允许调度员通过人机交互的方式干预决策过程，通过排除一些不确定因素来提高事故原因追溯的正确相应。

2.2数据挖掘技术在事故追溯中的应用

采用数据挖掘技术建立故障模型的第一步，需要对典型故障和历史故障数据进行预处理。采用统计学和人工智能相结合的数据挖掘方法，在对大量的数据进行分析后可以从中找出一些对决策有帮助的数据来纠正错误的数据。此外，对于丢失的信息，我们可以通过调用知识库的相关知识进行回归分析，将遗失的数据挖掘出来。

提取电网故障信息的目的是为了确定当前的故障模型，然后根据特定的故障模型调用相应的专家知识进行分析，生成决策方案。数据挖掘中的归纳法则思想来分析电力生产事故得出的比较直观的规则，整个过程如图2所示。

2.3数据预处理

数据预处理主要包括：

1)系统运行内容提取。在得到系统运行文本以后利用基于文本块统计的提取算法获得系统运行文本的文字内容。

2)分句。句子识别是进行关系抽取的最初步骤，以文本中出现的中英文句号、问号、叹号等句子终结符作为句子的分隔符。

3)分词和词性标注。在这一步中，需要对已分好句的文本进行分词、词性标注与命名实体识别。

4)系统运行词典构建。在经过上一步的分词标注后，进行词典构建，形成初步的系统运行词典。

5)语句选择。根据制定的相关规则，筛选出对后续处理可能有价值的句子，过滤掉无关语句，提高处理效率。

2.4关联对抽取

在对数据进行预处理以后，可以得到标题数据中所有识别为系统运行人、物、事名的词，使用系统运行词典对识别出的系统运行人、物、事进行噪声过滤。对标题数据进行过滤后的系统运行人、物、事两两进行组合得到系统运行人、物、事。

统计所有标题数据中每个系统运行人、物、事的出现频率，系统运行人、物、事的出现频率越高说明在系统运行文本标题中共现的次数越多，两者存在关系的概率越高。通过这种方法过滤掉共现次数较少的无关系统运行人、物、事，减少后续处理的工作量。

对于剩下的共现次数较高的系统运行人、物、事，引人一种关联度计算方法——上下文式关联。根据两个系统运行人、物、事同时出现在一个系统运行文本标题中作为系统运行人、物、事存在关联的依据，然后基于统计的方法来量化这种关联度，这里引入两个系统运行实体(pi,pj)的条件概率：

即pi,pj同时出现的标题数目除以pj出现的标题数目。如果系统运行人、物、事间计算出的条件概率较高说明系统运行人、物、事之间的依赖关系较强，将式(2)中的条件概率和系统运行人、物、事共现次数结合来衡量系统运行人、物、事关联度。

asso(P_i,P_j)＝w₁*P(P_i|P_j)+w₂*coor(P_i,P_j) (3)

式(3)计算的系统运行人、物、事的关联度，叫w₁和w₂分别是式(2)中的条件概率和系统运行人、物、事共现次数所占的权重。在实验中，调整w₁和w₂的取值，使关联系统运行人、物、事的识别效果最佳。最终，将系统运行人、物、事按照式(3)计算的关联度进行排序，取关联度最高的500个系统运行人、物、事用于后续系统运行人、物、事关系提取研究。

2.5关键词提取

在得到可能具有关系系统运行人、物、事以后，需要确定系统运行人、物、事之间的具体关系名，因此，需要挖掘与系统运行人、物、事有关的系统运行文本数据进行分析。本文以系统运行人、物、事pair＝(pi,pj)为搜索条件，利用搜索引擎得到系统运行人、物、事的查询结果系统运行文本。本文将所有词语按照词频排序，词频统计结果表现为长尾特性，即大多数的词出现次数很少，少数的词出现的次数较高，此处过滤掉词频极低的可能是噪声的数据。

词频-逆向文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法在关键词提取中较常使用，它原用于评估一个字词对于一个文件集或者一个语料库其中一份文件的重要程度，本文将用它来评估一个词语对于表征系统运行人、物、事关系的重要度。其一般原理是：如果某个特征在某个系统运行人、物、事共现的句子中出现的词频较高，并且在其他系统运行人、物、事共现的句子集中很少出现，则认为这个词较能体现系统运行人、物、事的关系。本文中，词语对于系统运行人、物、事关系的重要性为w_ij，如式(4)所示：

w_ij＝tft_j×idf_j＝tfi_j×ln(N/n_j) (4)

其中：tf_ij的指关键词t_j在系统运行人、物、事d_j共现的句子中出现的次数，idf_i与词t_j共现的系统运行人、物、事数量成反比，N表示总的系统运行人、物、事数，n_j指与词t_j共现的人、物、事数。将按词频过滤后的词语重新按式(4)重要性进行排序，每个人、物、事保留重要性最高的50个词语。

2.6词语关联度计算与关键词关联网络构建

词共现矩阵是词共现模型的量化，词共现模型是基于统计方法的自然语言处理领域的重要模型之一。它的基本假设的基础是：在大规模语料中，如果两个候选词经常共现在文档的同一窗口单元(如－句话、一个自然段等)，则认为这两个词在意义上是相互关联的，并且共现的概率越高，其相互关联越紧密。

一个包含n个关键词的共现矩阵被定义为：

其中n是关键词的个数，式中C(w_i，w_j)表示关键词w_i、w_j的关联度。由式(5)进行计算：

其中：f(w_i)，f(w_j)分别代表词语w_i和w_j的出现频数，f(w_i，w_j)代表w_i和w_j共同出现在一个窗口的次数。参数p是一个可调的参数并且它的值在实数范围内。取p＝50，式(6)显示词语之间的关联度量是由词语的共现频率和单个的出现频率所决定的。

定义1设M是得到的词语共现矩阵，关键词集合是W,W_i表示第i个关键理，M转化成对应的关键词关联网络图G的定义为：

G＝{V,E} (7)

其中：V表示图G的顶点集；V_i表示V中第i个顶点；V与W中元素一一对应，即V_i对应W_i；E表示图G的边集。如果2个顶点的关联度大于一定的阈值，则在这2个顶点之间添加一条无向边，即：

E＝{(V_i,V_j)|V_i,V_j∈V,Sim(V_i,V_j)＞β}＝{(V_i,V_j)|V_i,V_j∈V,W_i,W_j∈W,Sim(V_i,V_j)＞β} (8)

其中，0＜β＜1，β越大，词语之间的关联的要求越严格，则图G越稀疏。本文设置的β值为所有计算出的关键词关联度的中位数的T倍，实验部分将比较T值的选取对最终结果的影响。

2.7基于图聚类的系统运行人、物、事关系提取

关键词关联网络建立完成以后，需要对关联网络进行分析以发现系统运行人、物、事关系。表示系统运行人、物、事关系的关键词与系统运行人、物、事会存在频繁的共现关系，而且在关键词关联网络中处于核心的位置，可以通过图聚类的方式找到系统运行人、物、事关系。本文使用基于团(clique)的图聚类方法，clique算法是基于密度和网格的一种聚类分析算法，对于大型高维空间数据的聚类分析具有很高的效率，能得到优质的聚类效果。

检测出关联网络中所有固定大小的clique，例如k-clique。每个clique中包含若干个关键词，这些关键词在关联网络中都有边相连，如3-clique和4-clique，分别包含3个关键词和4个关键词。在关键词关联网络建立以后，本文使用复杂网络分析工具NetworkX中的find_cliques()函数查找关键词关联网络中的所有clique。

为了利用识别出的clique挖掘系统运行人、物、事的关系词，本文构建clique之间的关联图。关联网络中检测出的clique之间往往会存在共同的关键词。例如，clique1＝{w₁,w₂,w₃,w₄}，clique2＝{w₁,w₂,w₃,w₅}具有共同的关键词w₁,w₂,w₃，则认为两个clique有关联关系。clique间的共同出现关键词组成集合V＝{w₁,w₂,……,w_m}，共包含m个关键词。以每个clique作为节点，clique之间的共现关键词为边的来建立clique关联图G。

在clique关联图G建立完成后，在关联图G上进行分析以挖掘在系统运行人、物、事关联上重要性最高的关键词。关键词k在clique关联图G中越多的边中出现，说明该关键词是关联图G很多clique都包含该关键词，则关键词k对于识别系统运行人、物、事关系重要性越高。

为了识别系统运行人、物、事(p_i,p_j)之间的关系，对clique关联图G中所有边上的关键词统计每个关键词在图中出现的边数。假设集合V中的某个关键词k在图中边上出现的次数为fq_k，TF-IDF(Term Frequency-lnverse Document Frequency)计算出的关键词权重w_k.最终关键词k对于系统运行人、物、事的重要性为Weight_k：

Weight_k＝w_k×fq_k (9)

2.8结合词库关联规则展示追溯过程

经过上述步骤，在电网事故发生后，通过录入相关系统运行设备等信息关键字，可以经过系统运行词库对相关的系统运行人、物、事，即系统运行操作人员、系统运行设备、系统运行操作动作及其他相关信息进行关联展示。结合先进的图形展示技术以动态图形形式展示，如图3所示，电网事故原因追溯过程。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于数据挖掘和可视化的电网事故关联原因回溯方法，其特征在于：该方法包括以下步骤：

S1：数据挖掘；

S2：事故事件追溯检索；

S3：结合词库关联规则展示追溯过程；在电网事故发生后，通过录入相关系统运行设备信息关键字，经过系统运行词库对相关的系统运行人、物、事，即系统运行操作人员、系统运行设备、系统运行操作动作及其他相关信息进行关联展示；结合图形展示技术以动态图形形式展示电网事故原因追溯过程。

2.根据权利要求1所述的一种基于数据挖掘和可视化的电网事故关联原因回溯方法，其特征在于：所述步骤S2具体为：

从系统运行相关系统获取对应的系统运行数据；

从调度信息管理系统DMIS获取设备信息及历史事故信息；

3.根据权利要求1所述的一种基于数据挖掘和可视化的电网事故关联原因回溯方法，其特征在于：所述预处理包括以下步骤：

4.根据权利要求3所述的一种基于数据挖掘和可视化的电网事故关联原因回溯方法，其特征在于：在所述预处理后，得到标题数据中所有识别为系统运行人、物、事名的词，使用系统运行词典对识别出的系统运行人、物、事进行噪声过滤；对标题数据进行过滤后的系统运行人、物、事两两进行组合得到系统运行人、物、事；

asso(P_i,P_j)＝w₁*P(P_i|P_j)+w₂*coor(P_i,P_j) (3)

利用词频-逆向文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法来评估一个词语对于表征系统运行人、物、事关系的重要度；如果某个特征在某个系统运行人、物、事共现的句子中出现的词频较高，并且在其他系统运行人、物、事共现的句子集中很少出现，则认为这个词较能体现系统运行人、物、事的关系；词语对于系统运行人、物、事关系的重要性为w_ij，如式(4)所示：

w_ij＝tf_tj×idf_j＝tf_ij×ln(N/n_j) (4)

一个包含n个关键词的共现矩阵被定义为：

G＝{V,E} (7)

E＝{(V_i,V_j)|V_i,V_j∈V,Sim(V_i,V_j)＞β}＝{(V_i,V_j)|V_i,V_j∈V,W_i,W_j∈W,Sim(V_i,V_j)＞β}(8)

Weight_k＝w_k×fq_k (9)