CN112434532B

CN112434532B - 一种支持人机双向理解的电网环境模型及建模方法

Info

Publication number: CN112434532B
Application number: CN202011225933.2A
Authority: CN
Inventors: 吕娜; 于志洋; 王臻卓
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2024-05-28
Anticipated expiration: 2040-11-05
Also published as: CN112434532A

Abstract

本发明公开了一种支持人机双向理解的电网环境模型及建模方法，包括：对电网领域的非结构化文本进行类型判断，划分为规则文本和普通文本；针对规则文本，结合TextRank算法和人工筛选提取关键词实体，利用规则文本中的逻辑词和特殊的写作形式进行语法规则分析提取事件实体及其关系；针对普通文本，采用语义角色和依存关系的规则分析提取事件三元组实体，利用原始句子的相关性分析和逻辑词识别提取事件与关键词或事件之间的关系；在已提取好的实体和关系基础上，进行知识融合和加工，通过图数据库进行存储并可视化，构建支持人机双向理解的电网环境模型。

Description

一种支持人机双向理解的电网环境模型及建模方法

技术领域

本发明属于智能电网技术领域，具体涉及一种支持人机双向理解的电网环境模型及建模方法。

背景技术

智能电网是电网技术发展的必然趋势，但由于电网自身结构的日趋复杂化，再加上气象及气候变化的随机性，自然灾害(如雷电等)的不确定性，人类用电的随机性，通信系统延时、丢包等信息不确定性，电力、通信系统设备及网络健康状态的不确定性等众多因素的影响，使电网具有不确定性、不连续性、时变性、控制复杂性等特点，这对电网模型的建立带来了挑战。同时，也影响了电网的智能化进程。

虽然，可以将通信信息网与电网相结合，搜集到海量的电网数据，但是大规模的数据采集并不代表一定可以改善电力系统的各类运行指标和实现控制调度智能化。相反，在某些情况下，纷繁复杂的数据和信息反而会带来负面的效应，例如在电网运行出现紧急的非正常状态时，电网调度人员需要在有限的时间内判断和处理大量的信息，认知障碍就不可避免。在这种环境状态中，不论调度人员的经验有多丰富、应急能力有多强，想要准确及时地处理问题也是不太可能的。并且，从认知学的角度分析得出结论，人的认知和判断能力是会随着事物不断增加的复杂性而下降的。所以，现有的电网模型很难使电力调度人员准确且直观地理解电网的工作运行状态，同时，面对复杂的电网环境，也很难在电网运行出现故障时做出快速合理的判断。

另一方面，如果电网的运行调度全部依靠电网调度人员来处理，然而随着调度人员的退休或转岗，在处理紧急状况时所积累的经验方法也难以形成知识传接下去。而且，当前，仿真计算已经成为电力系统设计、运行与控制中不可缺少的手段，人们对仿真计算的精度要求越来越高，而这是以电力系统模型为基础的。电力系统模型对电力系统的计算结果影响很大。所以，亟待建立一种易于计算机理解的电网知识模型，用以存储知识化的电网调度规程，辅助电网调度人员进行相关决策，这也是电网智能化的必然要求。

基于以上两个方面，势必需要对电网模型进行相关改良，建立一种可人机双向理解的电网模型。

发明内容

为解决现有电网模型建模方法中存在的问题，本发明的目的在于提供一种支持人机双向理解的电网环境模型及建模方法，本发明一方面可以让电网调度人员直观快速地查阅电网结构、运行状态，甚至复杂故障下的相关解决方案。另一方面可以让计算机理解复杂的电网调度规程、电网物理模型，在某些情况下可以代替调度人员进行调度决策。

为了实现上述目的，本发明采用如下技术方案：

一种支持人机双向理解的电网环境模型建模方法，包括以下步骤：

S1：将描述电网环境相关信息的非结构化文本划分为规则文本和普通文本；

S2：针对S1所得到的规则文本，结合人工先验专业词汇筛选与TextRank算法提取规则文本关键词实体；

S3：针对S1所得到的普通文本，结合文本自带关键词与TextRank算法提取普通文本关键词实体，同时利用语义角色和依存关系的相关规则分析获取普通文本事件三元组实体；

S4：针对规则文本及规则文本关键词实体，结合句子组织的语法规则与逻辑词识别，同时获取规则文本的事件实体及事件与事件的包含、逻辑关系、关键词与事件的相关关系；

S5：针对S3所得到的普通文本关键词实体及事件三元组实体，结合事件三元组原始句子的相关性分析与逻辑词识别，获取事件与事件的逻辑、共现关系、关键词与事件的共现关系；

S6：针对S2-S5所提取的实体及关系，进行知识融合与加工；

S7：针对S6所处理后的实体及关系，采用图数据库形式存储并进行图谱可视化，构建出支持人机双向理解的电网环境模型。

优选的，S1中，通过判断文本的写作格式是否规范与统一、不同文本片段之间的写作手法是否发生较大改变，作为划分规则文本与普通文本的标准，根据所述标准，将电网领域与环境建模相关要素有关的文本进行分类；

在收集的电网领域非结构化文本中，使用具有组织结构的文档作为规则文本，使用电网领域发表的相关论文作为普通文本，具有组织结构的文档包括电力系统安全稳定导则和电网故障处置预案。

优选的，S2中，首先对规则文本中所出现的电网专业词汇进行人工筛选，将规则文本中的专业术语、专业设备名称添加到规则文本关键词实体中，同时使用TextRank算法提取出普通关键词实体，将普通关键词实体与人工筛选的关键词实体合并，构成规则文本的关键词实体。

优选的，S3中，首先将普通文本本身所附带的关键词添加到关键词实体中，同时使用TextRank算法提取出普通关键词实体，将普通关键词实体与普通文本自带关键词合并，构成普通文本的关键词实体；

采用语义角色标注和依存句法分析并结合所设计的规则，对普通文本进行主谓宾事件三元组实体提取；

其中，语义角色标注的过程包括：对普通文本中每一句话进行分词、词性标注处理，然后进行语义角色标注，若标注后的句子存在明显的施事者、动作、受事者结构，把施事者、动作、受事者分别作为事件三元组的主语、谓语、宾语进行提取，同时删去三元组中的辅助词、标点和非词素，得到事件三元组；

依存句法分析的过程包括：对普通文本中的每一句话进行依存句法分析，提取主谓宾关系和含有介宾关系的主谓动补关系；对于主谓宾关系的提取，若句子中与动词依存的关系中同时存在SBV主谓关系和VOB动宾关系，将名词分别作为主语和宾语，动词作为谓语，经过扩展后得到事件三元组；对于含有介宾关系的主谓动补关系的提取，若句子中与动词依存的关系中同时存在SBV主谓关系和CMP动补关系，并且CMP动补关系的补语所依存的关系中存在POB介宾关系，将主谓关系的主语、动补关系、介宾关系中的宾语分别作为主语、谓语和宾语，经过扩展后得到事件三元组；

对主语和宾语的扩展按照如下规则进行：

如果要充当主语或者宾语的词汇涉及到了ATT定中关系，那么将这个ATT关系中的定语和主语或者宾语一起纳入三元组之中；

如果要充当主语或者宾语的词汇自身是一个动词，而且其涉及到其他的SBV关系和VOB关系，那么将该词汇涉及到的其他词汇全都扩展到三元组中；

对利用语义角色和依存关系的相关规则分析所得到事件三元组进行人工筛选，构成普通文本的事件三元组实体。

优选的，结合先验电网关键词、语义角色标注和TextRank算法完成关键词实体提取，具体包括如下过程：

对文本中的每一个句子进行分词和词性标注处理；

从分词以及词性标注处理之后的词汇中过滤掉停用词，保留指定词性的单词，作为候选关键词，所述指定词性的单词包括名词、动词和形容词；

构建候选关键词图G＝(V，E)，其中，V为节点，由所述候选关键词组成；E为边；

根据如下公式，迭代计算各个节点的TR值，直至收敛：

式中：TR(V_i)表示节点V_i的TR值，ln(V_i)表示节点V_i的前驱节点集合，Out(V_j)表示节点V_j的后继节点集合，ω表示图节点相连接的边的权重，ω加上下角标的形式表示这两个节点相连接的边的权重，d为衰减系数，用于做平滑，i、j、k为不同节点的标号，ω_ji为连接节点j和i的边的权重，ω_jk为连接节点；

对节点的TR值进行排序，得到最重要的前N个词，作为候选关键词；

由得到的最重要的前N个词，在原始文本中进行标记，如果出现了相邻的词组，则将这两个单词合并成为多词关键词。

优选的，S4中，结合规则文本的书写特点，将规则文本关系分为事件与事件的包含关系、事件与事件的逻辑关系和事件与关键词的相关关系，具体的关系及事件实体提取流程包括如下过程：

提取事件与事件的包含关系及相应的事件实体的过程包括：首先以数字的条目标号为标志，对规则文本进行条目分割，然后按如下两种规则，在分割后的条目中搜寻涉及包含关系的条目；

规则一：第一句话以冒号结尾；

规则二：分点以a为开头；

在筛选出涉及包含关系的相应条目后，提取冒号之前和之后的各条目作为事件实体，同时获取规则文本事件与事件的包含关系；

提取事件与事件的逻辑关系及其相应的事件实体的过程包括：首先对分割后的条目进分句、分词、词性标注处理，然后按照如下三种规则，对句子进行逻辑词识别，并提取出事件实体及事件与事件之间的逻辑关系：

规则三：若句子中存在配套式逻辑词且其词性符合要求，将配套逻辑词后的两个事件描述作为事件实体，所述配套式逻辑词包括因为和所以；

规则四：若句子中存在居中式逻辑词且其词性符合要求，将居中式逻辑词两侧的事件描述作为事件实体，所述居中式逻辑词包括导致；

规则五：若句子中存在前端式逻辑词且其词性符合要求，将前端式逻辑词后面的文本以逗号作切分，将切分后的两个事件作为事件实体，所述前端式逻辑词包括由于；

在提取出涉及逻辑关系的事件实体后，获取相应逻辑词作为规则文本事件与事件之间的逻辑关系；

提取事件与关键词之间的相关关系：若S2所提取的规则文本关键词实体出现在上述所提取的规则文本事件实体中，则获取规则文本相应事件与关键词之间的相关关系。

优选的，S5中，将普通文本关系分为事件与事件的逻辑关系、事件与事件的共现关系和事件与关键词的共现关系，具体的关系提取流程包括如下过程：

提取事件与事件的逻辑关系的过程包括：若S3所得的普通文本两个事件三元组属于同一原始句子，并且句子中存在符合词性要求的逻辑词，同时这两个事件三元组位于逻辑词的正确位置，位于配套式、前端式逻辑词的同侧或居中式逻辑词的异侧，则获取相应逻辑词作为普通文本事件与事件之间的逻辑关系；

提取事件与事件的共现关系的过程包括：若S3所得的普通文本两个事件三元组之间不存在逻辑关系，且一个事件三元组的主谓宾均出现在另一个事件三元组原始句子中，则这两个事件三元组存在强共现关系，如果仅有主语出现在另一个事件三元组原始句子中，则这两个事件三元组存在弱共现关系，由此提取出普通文本事件与事件之间的共现关系；

提取事件与关键词的共现关系的过程包括：若S3所提取的普通文本关键词实体出现在普通文本事件三元组原始句子中，则获取普通文本相应事件与关键词之间的共现关系。

优选的，S6中，知识融合分包括实体链接与知识合并，在实体链接过程中，依靠人工筛选方法将不同文本所提取出的具有相同指代含义的关键词链接到同一实体，在知识合并过程中，对所提取的不同关系形式进行统一化处理；

在知识加工过程中，将电网环境模型中的实体类型划分为关键词本体、母事件本体、子事件本体、条件事件本体和触发事件本体。

优选的，S7中，采用图数据库Neo4j对S6所处理后的实体及其关系进行存储，并且对所构建的电网环境模型进行可视化处理，最终构建起支持人机双向理解的电网环境模型。

本发明还提供了一种支持人机双向理解的电网环境模型，该模型通过本发明上述建模方法得到。

相对于现有技术，本发明具有以下有益效果：

从技术角度讲，本发明将待处理的文本根据其行文特点划分为规则文本和普通文本，在此基础上设计出适合文本特点的后续实体提取方法以及关系提取的方法，具有更高的可行性与实际应用价值。并且，本发明创造性地将语义知识图谱中的相关技术以及自然语言处理中的相关算法，例如依存句法分析应用于电网方面，属于电网建模领域的创新。从发明结果上讲，本发明实现了人机双向理解的电网模型的构建以及电网知识从文本到最终模型建立的一整套自动化的构建过程。一方面，电网调度人员可以直观且清晰地从可视化的图谱中获取电网相关参数、电网调度规程以及电网发生故障情况下的应急处理方案，为电网调度人员理解电网工作状态提供了帮助。另一方面，计算机可以通过电网环境模型中的三元组结构理解电网相关参数、设备之间的内在逻辑关系，实现了电网相关知识、调度规程、应急处理预案的结构化知识存储，使计算机具备了一定的推理能力，在某些情况下可以协助相关调度人员进行决策。

附图说明

图1是本发明实施例中支持人机双向理解的电网环境模型建模方法示意图；

图2是本发明实施例中规则文本所构建的电网环境模型部分展示图；

图3是本发明实施例中普通文本所构建的电网环境模型部分展示图。

具体实施方式

下面结合附图和实例对本发明的具体实施方式作进一步详细描述。以下实施用于解释本发明，但不用来限制本发明的范围。

参照图1，本发明支持人机双向理解的电网环境模型建模方法，包括以下步骤：

步骤1：对电网领域的描述电网环境相关信息的非结构化文本进行类型判断，划分为规则文本和普通文本；

步骤2：针对步骤1所得到的规则文本，所述规则文本包括各种导则以及规范，结合人工先验专业词汇筛选与TextRank算法提取规则文本关键词实体；

步骤3：针对步骤1所得到的普通文本，结合文本自带关键词与TextRank算法提取普通文本关键词实体，同时利用语义角色和依存关系的相关规则分析获取事件三元组实体；

步骤4：针对步骤1和步骤2所得到的电网规则文本及关键词实体，结合句子组织的语法规则与逻辑词识别，同时获取规则文本的事件实体及事件与事件的包含、逻辑关系、关键词与事件的相关关系；

步骤5：针对步骤3所得到的普通文本关键词实体及事件三元组实体，结合事件三元组原始句子的相关性分析与逻辑词识别，获取事件与事件的逻辑、共现关系、关键词与事件的共现关系；

步骤6：针对步骤2-步骤5所提取的实体及关系，进行知识融合与加工；

步骤7：针对步骤6所处理后的实体及关系，采用图数据库形式存储并进行图谱可视化，构建出支持人机双向理解的电网环境模型。

所述步骤1中，通过判断文本的写作格式是否规范与统一、不同文本片段之间的写作手法是否发生较大改变，作为划分规则文本与普通文本的标准。据此标准，将电网领域与环境建模相关要素有关的文本进行分类；

在收集的电网领域非结构化文本中，使用中华人民共和国国家经济贸易委员会发布的《电力系统安全稳定导则》和《电网故障处置预案》这些相对具有一定组织结构的文档作为规则文本，使用电网领域发表的相关论文作为普通文本；

区别于传统电网模型知识建模方法，本发明的建模方法创新性地首先对文本数据进行特点分析与类型判断，以此为基础设计出适合文本特点的后续实体提取方法以及关系提取方法，有更高的可行性与实际应用价值。

所述步骤2中，首先对规则文本(如《电力系统安全稳定导则》)中所出现的电网专业词汇进行人工筛选，将其中的专业术语、专业设备名称添加到关键词实体中，同时使用TextRank算法提取出普通关键词实体，将普通关键词实体与人工筛选的关键词实体合并，构成规则文本的关键词实体。

所述步骤3中，首先将普通文本(如《电网相关论文集》)本身所附带的关键词添加到关键词实体中，同时使用TextRank算法提取出普通关键词实体，将普通关键词实体与文本自带关键词合并，构成普通文本的关键词实体；

其中，语义角色标注的过程包括：对文本中每一句话进行分词、词性标注处理，然后进行语义角色标注，若标注后的句子存在明显的施事者、动作、受事者结构，便把施事者、动作、受事者分别作为事件三元组的主语、谓语、宾语进行提取，同时为了简化表述，删去三元组中特殊词性的词(辅助词、标点、非词素)，得到事件三元组；

依存句法分析的过程包括：对文本中的每一句话进行依存句法分析，提取主谓宾关系和含有介宾关系的主谓动补关系。对于主谓宾关系的提取，若句子中与动词依存的关系中同时存在SBV主谓关系和VOB动宾关系，将其分别作为主语和宾语，动词作为谓语，经过扩展后得到事件三元组。对于含有介宾关系的主谓动补关系的提取，若句子中与动词依存的关系中同时存在SBV主谓关系和CMP动补关系，并且CMP动补关系的补语所依存的关系中存在POB介宾关系，将主谓关系的主语、动补关系、介宾关系中的宾语分别作为主语、谓语和宾语，经过扩展后得到事件三元组；

对主语和宾语的扩展按照如下规则进行：

①如果要充当主语或者宾语的词汇涉及到了ATT定中关系，那么将这个ATT关系中的定语和主语或者宾语一起纳入三元组之中；

②如果要充当主语或者宾语的词汇其自身是一个动词，而且其涉及到其他的SBV关系和VOB关系，那么将其涉及到的其他词汇全都扩展到三元组中；

所述步骤2和步骤3中，结合先验电网关键词、语义角色标注和TextRank算法完成关键词实体提取，具体流程包括如下过程：

对文本中的每一个句子进行分词和词性标注处理；

从分词以及词性标注之后的词汇中过滤掉停用词，保留指定词性的单词，如名词、动词和形容词，作为候选关键词；

构建候选关键词图G＝(V，E)，其中V为节点，由②所筛选出的候选关键词组成，E为边，两个节点之间存在边意味着这两个词语能够在长度为K的窗口中共同出现，本发明的建模方法将K设置为5；

根据如下公式，迭代计算各个节点的TR值，直至收敛：

式中：TR(V_i)表示节点V_i的TR值，ln(V_i)表示节点V_i的前驱节点集合，Out(V_j)表示节点V_j的后继节点集合，ω表示图节点相连接的边的权重，权重越大代表重要程度越高，d衰减系数，用于做平滑，一般设置为0.85，i、j、k为节点的标号，ω_ji为连接节点j和i的边的权重，ω_jk为连接节点j和k的边的权重。

对节点的TR值进行排序，从而得到最重要的前N个词，作为候选关键词；

由所得到最重要的前N个词，在原始文本中进行标记，如果出现了相邻的词组，则将这两个单词合并成为多词关键词，本发明的建模方法可将N设置为10。

所述步骤4中，结合规则文本的书写特点，将规则文本关系分为三类：即事件与事件的包含关系、事件与事件的逻辑关系和事件与关键词的相关关系，具体的关系及事件实体提取流程如下：

提取事件与事件的包含关系及其相应的事件实体的过程包括：首先以数字的条目标号为标志，对规则文本进行条目分割，然后按如下两种规则，在分割后的条目中搜寻涉及包含关系的条目；

规则一：第一句话以“：”结尾；

规则二：分点以“a”为开头；

在筛选出涉及包含关系的相应条目后，提取“：”之前和之后的各条目作为事件实体，同时获取规则文本事件与事件的包含关系；

提取事件与事件的逻辑关系及其相应的事件实体的过程包括：首先对分割后的条目进分句、分词、词性标注处理，然后按照如下三种规则，对句子进行逻辑词识别，并提取出事件实体及事件与事件之间的逻辑关系；

规则三：若句子中存在配套式逻辑词且其词性符合要求，例如“因为”和“所以”，将配套逻辑词后的两个事件描述作为事件实体；

规则四：若句子中存在居中式逻辑词且其词性符合要求，例如“导致”，将居中式逻辑词两侧的事件描述作为事件实体；

规则五：若句子中存在前端式逻辑词且其词性符合要求，例如“由于”，将前端式逻辑词后面的文本以“，”作切分，将切分后的两个事件作为事件实体；

提取事件与关键词之间的相关关系的过程包括：若步骤2所提取的规则文本关键词实体出现在上述所提取的规则文本事件实体中，则可获取规则文本相应事件与关键词之间的相关关系。

所述步骤5中，将普通文本关系分为三类：即事件与事件的逻辑关系、事件与事件的共现关系和事件与关键词的共现关系，具体的关系提取流程包括如下过程：

提取事件与事件的逻辑关系的过程包括：若步骤3所得的普通文本两个事件三元组属于同一原始句子，并且句子中存在符合词性要求的逻辑词，同时这两个事件三元组位于逻辑词的正确位置，即位于配套式、前端式逻辑词的同侧或居中式逻辑词的异侧，则获取相应逻辑词作为普通文本事件与事件之间的逻辑关系；

提取事件与事件的共现关系的过程包括：若步骤3所得的普通文本两个事件三元组之间不存在逻辑关系，且一个事件三元组的主谓宾均出现在另一个事件三元组原始句子中，则这两个事件三元组存在强共现关系；如果仅有主语出现在另一个事件三元组原始句子中，则这两个事件三元组存在弱共现关系，由此可以提取出普通文本事件与事件之间的共现关系；

提取事件与关键词的共现关系的过程包括：若步骤3所提取的普通文本关键词实体出现在普通文本事件三元组原始句子中，则可获取普通文本相应事件与关键词之间的共现关系。

所述步骤6中，知识融合分为两部分：即实体链接与知识合并，在实体链接过程中，依靠人工筛选方法将不同文本所提取出的具有相同指代含义的关键词链接到同一实体，以防止知识构建出现歧义现象；在知识合并过程中，对所提取的不同关系形式进行统一化处理；

在知识加工过程中，将实体类型划分为五类本体：即关键词本体、母事件本体、子事件本体、条件事件本体和触发事件本体，以实现实体的归纳和总结，从而让电网环境模型的逻辑结构更加明确；

通过知识融合与加工后电网环境模型可以支持人类有效地进行语义理解，同时电网环境模型中的三元组结构也便于计算机输入与处理。

所述步骤7中，采用图数据库Neo4j对步骤6所处理后的实体及其关系进行存储，并且对所构建的电网环境模型进行可视化处理，便于人类更加直观地理解所建立的电网环境模型，最终构建起支持人机双向理解的电网环境知识模型。

实施例

如图1所示，本实施例支持人机双向理解的电网模型建模方法，包括以下步骤：

步骤1：对电网领域的非结构化文本进行类型判断，划分为规则文本和普通文本。本实例所使用的电网领域的非结构化文本包括中华人民共和国国家经济贸易委员会发布的《电力系统安全稳定导则》、《电网故障处置预案》和电网领域的相关论文集。通过判断文本的写作格式是否规范与统一、不同文本片段之间的写作手法是否发生较大改变，将《电力系统安全稳定导则》、《电网故障处置预案》划分为规则文本，将电网领域的相关论文集划分为普通文本。

步骤2：针对步骤1所得到的规则文本，结合人工专业词汇筛选与TextRank算法提取规则文本关键词实体。首先对规则文本(《电力系统安全稳定导则》)中所出现的电网专业词汇进行人工筛选，将其中的专业术语、专业设备名称添加到关键词实体中，同时使用TextRank算法提取出普通关键词实体，将其与人工筛选的关键词实体合并，构成规则文本的关键词实体。

结合先验电网关键词、语义角色标注和TextRank算法提取关键词实体的流程包括如下步骤：

①对文本中的每一个句子进行分词和词性标注处理。

②从分词以及词性标注之后的词汇中过滤掉停用词，保留指定词性的单词，如名词、动词、形容词，作为候选关键词。

③构建候选关键词图G＝(V，E)，其中V为节点，由②所筛选出的候选关键词组成，E为边，两个节点之间存在边意味着这两个词语能够在长度为K的窗口中共同出现，本实施例将K设置为5。

④根据如下公式，迭代计算各个节点的TR值，直至收敛：

式中：TR(V_i)表示节点V_i的TR值，ln(V_i)表示节点V_i的前驱节点集合，Out(V_j)表示节点V_j的后继节点集合，ω表示图节点相连接的边的权重，权重越大代表重要程度越高。d衰减系数，用于做平滑，一般设置为0.85，i、j、k为节点的标号，ω_ji为连接节点j和i的边的权重，ω_jk为连接节点j和k的边的权重。

⑤对节点的TR值进行排序，从而得到最重要的前N个词，作为候选关键词。

⑥由⑤得到最重要的前N个词，在原始文本中进行标记，如果出现了相邻的词组，则将这两个单词合并成为多词关键词，本实施例将N设置为10。

步骤3：针对步骤1所得到的普通文本，结合文本自带关键词与TextRank算法提取普通文本关键词实体，同时利用语义角色和依存关系的相关规则分析获取其事件三元组实体。

首先将普通文本(《电网相关论文集》)本身所附带的关键词添加到关键词实体中，同时使用TextRank算法提取出普通关键词实体，将其与文本自带关键词合并，构成普通文本的关键词实体。

采用语义角色标注和依存句法分析并结合所设计的规则，对普通文本进行主谓宾事件三元组实体提取。

对文本中每一句话进行分词、词性标注处理，然后进行语义角色标注，若标注后的句子存在明显的施事者、动作、受事者结构，便把施事者、动作、受事者分别作为事件三元组的主语、谓语、宾语进行提取，同时为了简化表述，删去三元组中特殊词性的词(如辅助词、标点和非词素)，得到事件三元组。

对文本中的每一句话进行依存句法分析，提取主谓宾关系和含有介宾关系的主谓动补关系。对于主谓宾关系的提取，若句子中与动词依存的关系中同时存在SBV主谓关系和VOB动宾关系，将其分别作为主语和宾语，动词作为谓语，经过扩展后得到事件三元组。对于含有介宾关系的主谓动补关系的提取，若句子中与动词依存的关系中同时存在SBV主谓关系和CMP动补关系，并且CMP动补关系的补语所依存的关系中存在POB介宾关系，将主谓关系的主语、动补关系、介宾关系中的宾语分别作为主语、谓语和宾语，经过扩展后得到事件三元组。

对主语和宾语的扩展按照如下规则进行：

①如果要充当主语或者宾语的词汇涉及到了ATT定中关系，那么将这个ATT关系中的定语和主语或者宾语一起纳入三元组之中。

②如果要充当主语或者宾语的词汇其自身是一个动词，而且其涉及到其他的SBV关系和VOB关系，那么将其涉及到的其他词汇全都扩展到三元组中。

步骤4：针对步骤1和步骤2所得到的规则文本及其关键词实体，结合句子组织的语法规则与逻辑词识别，同时获取规则文本的事件实体及事件与事件的包含、逻辑关系、关键词与事件的相关关系。

结合规则文本的书写特点，将规则文本关系分为三类：事件与事件的包含关系、事件与事件的逻辑关系、事件与关键词的相关关系，具体的关系及事件实体提取流程包括如下步骤：

①提取事件与事件的包含关系及其相应的事件实体：首先以数字的条目标号为标志，对规则文本进行条目分割，然后按如下两种规则，在分割后的条目中搜寻涉及包含关系的条目。

规则一：第一句话以“：”结尾。

规则二：分点以“a”为开头。

在筛选出涉及包含关系的相应条目后，提取“：”之前和之后的各条目作为事件实体，同时获取规则文本事件与事件的包含关系。

②提取事件与事件的逻辑关系及其相应的事件实体：首先对分割后的条目进分句、分词、词性标注处理，然后按照如下三种规则，对句子进行逻辑词识别，并提取出事件实体及事件与事件之间的逻辑关系。

规则三：若句子中存在配套式逻辑词且其词性符合要求，例如“因为”和“所以”，将配套逻辑词后的两个事件描述作为事件实体。

规则四：若句子中存在居中式逻辑词且其词性符合要求，例如“导致”，将居中式逻辑词两侧的事件描述作为事件实体。

规则五：若句子中存在前端式逻辑词且其词性符合要求，例如“由于”，将前端式逻辑词后面的文本以“，”作切分，将切分后的两个事件作为事件实体。

在提取出涉及逻辑关系的事件实体后，获取相应逻辑词作为规则文本事件与事件之间的逻辑关系。

③提取事件与关键词之间的相关关系：若步骤2所提取的规则文本关键词实体出现在上述所提取的规则文本事件实体中，则可获取规则文本相应事件与关键词之间的相关关系。

步骤5：针对步骤3所得到的普通文本关键词实体及事件三元组实体，结合事件三元组原始句子的相关性分析与逻辑词识别，获取事件与事件的逻辑、共现关系、关键词与事件的共现关系。

将普通文本关系分为三类：事件与事件的逻辑关系、事件与事件的共现关系、事件与关键词的共现关系，具体的关系提取流程包括如下步骤：

①提取事件与事件的逻辑关系：若步骤3所得的普通文本两个事件三元组属于同一原始句子，并且句子中存在符合词性要求的逻辑词，同时这两个事件三元组位于逻辑词的正确位置，即位于配套式、前端式逻辑词的同侧或居中式逻辑词的异侧，则获取相应逻辑词作为普通文本事件与事件之间的逻辑关系。

②提取事件与事件的共现关系：若步骤3所得的普通文本两个事件三元组之间不存在逻辑关系，且一个事件三元组的主谓宾均出现在另一个事件三元组原始句子中，则这两个事件三元组存在强共现关系。如果仅有主语出现在另一个事件三元组原始句子中，则这两个事件三元组存在弱共现关系，由此可以提取出普通文本事件与事件之间的共现关系。

③提取事件与关键词的共现关系：若步骤3所提取的普通文本关键词实体出现在普通文本事件三元组原始句子中，则可获取普通文本相应事件与关键词之间的共现关系。

步骤6：针对步骤2-步骤5所提取的实体及关系，进行知识融合与加工。

知识融合分为两部分：即实体链接与知识合并。在实体链接过程中，依靠人工筛选方法将不同文本所提取出的具有相同指代含义的关键词链接到同一实体，以防止知识出现歧义现象。在知识合并过程中，对所提取的不同关系形式进行统一化处理。

在知识加工过程中，将电网环境模型中的实体类型划分为五类本体：关键词本体、母事件本体、子事件本体、条件事件本体、触发事件本体，以实现实体的归纳和总结，从而让电网环境模型的逻辑结构更加明确。

步骤7：针对步骤6所处理后的实体及其关系，采用图数据库形式存储并进行图谱可视化，构建支持人机双向理解的电网环境模型。

采用图数据库Neo4j对步骤6所处理后的实体及其关系进行存储，并且对所构建的电网环境模型进行可视化处理，便于人类更加直观地理解所建立的电网模型，最终构建起支持人机双向理解的电网环境模型。

本实例中利用规则文本构建的电网环境模型部分可视化展示参照图2，利用普通文本构建的电网环境模型部分可视化展示参照图3。在实际应用时，电网从业人员可直接在可视化后的图谱中对所关注的专业信息进行检索及语义理解，实现相关领域知识的快速获取与扩充。而图谱中存在的三元组关系可以便捷的输入到计算机中，经由一定的机器逻辑推理可以让计算机理解复杂的电网知识模型，最终实现人机双向理解的目的。

综上，本发明中提出的对非结构化知识性文本进行类型判断，能够便于后续基于文本特点对文本所蕴含的专业知识进行充分挖掘。同时，本发明中针对不同文本特点所设计相适应的实体提取与关系提取方法，能够有效地实现不同类型电网领域专业文本从无结构化到结构化知识数据的转变，经过知识融合与加工，最终构建起电网环境模型，其中逻辑清晰的知识描述及其关系便于从业人员直观地进行语义理解，而模型三元组结构便于机器的检索与推理，实现电网模型的人机双向理解。

本发明首次提出将待处理的电网领域文本根据其行文特点划分为规则文本和普通文本，在此基础上设计与文本特点相适应的后续实体及关系提取方法，可以更加充分地对不同类型文本知识进行充分挖掘，具有可行性高、实际应用价值广特点。本发明还创造性地将自然语言处理技术引入到电网模型的构建过程中，并以语义三元组的形式对电网领域复杂的专业知识进行建模，从而使得所建立的电网模型具有人机双向理解的能力，便于从业人员的使用及计算机的后续处理。

Claims

1.一种支持人机双向理解的电网环境模型建模方法，其特征在于，包括以下步骤：

S6：针对S2-S5所提取的实体及关系，进行知识融合与加工；

S7：针对S6所处理后的实体及关系，采用图数据库形式存储并进行图谱可视化，构建出支持人机双向理解的电网环境模型；

S3中，首先将普通文本本身所附带的关键词添加到关键词实体中，同时使用TextRank算法提取出普通关键词实体，将普通关键词实体与普通文本自带关键词合并，构成普通文本的关键词实体；

对主语和宾语的扩展按照如下规则进行：

对利用语义角色和依存关系的相关规则分析所得到事件三元组进行人工筛选，构成普通文本的事件三元组实体；

结合先验电网关键词、语义角色标注和TextRank算法完成关键词实体提取，具体包括如下过程：

对文本中的每一个句子进行分词和词性标注处理；

构建候选关键词图，其中，/>为节点，由所述候选关键词组成；/>为边；

根据如下公式，迭代计算各个节点的值，直至收敛：

式中：表示节点/>的/>值，/>表示节点/>的前驱节点集合，/>表示节点/>的后继节点集合，/>为衰减系数，用于做平滑，i、j、k为不同节点的标号，/>为连接节点j和i的边的权重， />为连接节点j和k的边的权重；

对节点的值进行排序，得到最重要的前N个词，作为候选关键词；

由得到的最重要的前N个词，在原始文本中进行标记，如果出现了相邻的词组，则将这两个单词合并成为多词关键词

S4中，结合规则文本的书写特点，将规则文本关系分为事件与事件的包含关系、事件与事件的逻辑关系和事件与关键词的相关关系，具体的关系及事件实体提取流程包括如下过程：

规则一：第一句话以冒号结尾；

规则二：分点以 a 为开头；

2.根据权利要求1所述的一种支持人机双向理解的电网环境模型建模方法，其特征在于，S1中，通过判断文本的写作格式是否规范与统一、不同文本片段之间的写作手法是否发生较大改变，作为划分规则文本与普通文本的标准，根据所述标准，将电网领域与环境建模相关要素有关的文本进行分类；

3.根据权利要求1所述的一种支持人机双向理解的电网环境模型建模方法，其特征在于，S2中，首先对规则文本中所出现的电网专业词汇进行人工筛选，将规则文本中的专业术语、专业设备名称添加到规则文本关键词实体中，同时使用TextRank算法提取出普通关键词实体，将普通关键词实体与人工筛选的关键词实体合并，构成规则文本的关键词实体。

4.根据权利要求1所述的一种支持人机双向理解的电网环境模型建模方法，其特征在于，S5中，将普通文本关系分为事件与事件的逻辑关系、事件与事件的共现关系和事件与关键词的共现关系，具体的关系提取流程包括如下过程：

5.根据权利要求1所述的一种支持人机双向理解的电网环境模型建模方法，其特征在于，S6中，知识融合分包括实体链接与知识合并，在实体链接过程中，依靠人工筛选方法将不同文本所提取出的具有相同指代含义的关键词链接到同一实体，在知识合并过程中，对所提取的不同关系形式进行统一化处理；

6.根据权利要求1所述的一种支持人机双向理解的电网环境模型建模方法，其特征在于，S7中，采用图数据库Neo4j对S6所处理后的实体及其关系进行存储，并且对所构建的电网环境模型进行可视化处理，最终构建起支持人机双向理解的电网环境模型。

7.一种支持人机双向理解的电网环境模型，其特征在于，通过权利要求1-6任意一项建模方法得到。