CN110659364A

CN110659364A - 一种调度规程规定本体术语关系抽取方法及系统

Info

Publication number: CN110659364A
Application number: CN201910789412.0A
Authority: CN
Inventors: 林静怀; 李宽宏; 董根源; 余俊宏; 徐志光; 米为民; 王昊
Original assignee: Beijing Kedong Electric Power Control System Co Ltd; State Grid Fujian Electric Power Co Ltd; Fuzhou Power Supply Co of State Grid Fujian Electric Power Co Ltd
Current assignee: Beijing Kedong Electric Power Control System Co Ltd; State Grid Fujian Electric Power Co Ltd; NARI Group Corp; Fuzhou Power Supply Co of State Grid Fujian Electric Power Co Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2020-01-07

Abstract

本发明公开了一种调度规程规定本体术语关系抽取方法及系统，包括以下过程：确定调度规程规定文本，并确定需要从文本中提取的本体术语关系，包括同义关系、并列关系、整体部分关系与属种关系；通过基于模式匹配方法从文本里抽取同义关系和并列关系；基于统计和聚类方法从文本里抽取整体部分关系与属种关系。通过将基于规则的方法、基于聚类的无监督机器学习以及基于统计的过滤方法相结合，准确地得到了术语间的关系。

Description

一种调度规程规定本体术语关系抽取方法及系统

技术领域

本发明属于电力系统本体模型构建技术领域，具体涉及一种调度规程规定本体术语关系抽取方法及系统。

背景技术

随着电网的高速发展和运行规模的不断扩大，传统组织与管理模式的局限性日渐显现。目前，国家电网大力推进调控一体化建设，着力于提升电网的管理运行水平。在调控一体化模式下，面对海量的信息与调控需求，调控人员的工作压力陡增。与调度计划制定、执行相关的资料条目繁多、类型复杂，涉及的单位数量多、范围广，传统的规程规定检索查询方式已经落后，特别是在多种调控需求或故障告警同时产生时，调控人员难以及时、准确地对事件优先级排序、判定故障类型并提出解决方案。

近年来，本体被引入到了电网调度规程规定的知识建模中。在已知事件种类的情况下通过匹配、推理、查询功能输出符合规程规定的操作步骤与方案，使调度人员能够在有参考的情况下准确、快速地判断电网运行状态、做出调度决策。构建领域本体的方法主要有两种，一种是领域专家手工构建，缺点是费时费力；另一种是基于本体学习实现自动或半自动构建。本体学习是多种技术的综合，主要用于概念、概念关系及公理的抽取。目前领域术语抽取的准确率大约80％至90％，但术语关系抽取的准确率较低，根据抽取关系的类型不同，准确率为20％到80％不等。

为此，本发明提出了基于模式匹配、统计和聚类组合方法的本体术语构建，对非结构化中文文本术语关系的自动抽取，应用于电网调度领域本体的构建，有利于该领域的知识共享与重用，并提升了本体术语关系抽取的准确性与自动化程度。

发明内容

本发明的目的在于克服现有技术中的不足，提供了一种调度规程规定本体术语关系抽取方法，解决了现有技术中术语关系抽取的准确率较低的技术问题。

为解决上述技术问题，本发明提供了一种调度规程规定本体术语关系抽取方法，其特征是，包括以下过程：

确定调度规程规定文本，并确定需要从文本中提取的本体术语关系，包括同义关系、并列关系、整体部分关系与属种关系；

通过基于模式匹配方法从文本里抽取同义关系和并列关系；基于统计和聚类方法从文本里抽取整体部分关系与属种关系。

进一步的，通过基于模式匹配方法从文本里抽取同义和并列关系包括：

首先构造出若干模式规则，然后判断文本中的词序列是否与某个模式相匹配，若匹配，即可抽取出相应的关系。

进一步的，基于统计和聚类方法从文本里抽取整体部分关系与属种关系包括：

通过计算术语的共现度或相关度获取文本中术语间的关系，

利用术语之间的语义距离，对术语进行聚类，将属种关系和整体部分关系分开。

进一步的，同义关系、并列关系、整体部分关系与属种关系均用三元组的形式表示。

相应的，本发明还提供了一种调度规程规定本体术语关系抽取系统，其特征是，包括关系分类模块和关系抽取模块；

关系分类模块，用于确定调度规程规定文本，并确定需要从文本中提取的本体术语关系，包括同义关系、并列关系、整体部分关系与属种关系；

关系抽取模块，用于通过基于模式匹配方法从文本里抽取同义关系和并列关系；基于统计和聚类方法从文本里抽取整体部分关系与属种关系。

进一步的，关系抽取模块中，通过基于模式匹配方法从文本里抽取同义和并列关系包括：

进一步的，关系抽取模块中，基于统计和聚类方法从文本里抽取整体部分关系与属种关系包括：

通过计算术语的共现度或相关度获取文本中术语间的关系，

进一步的，关系抽取模块中，同义关系、并列关系、整体部分关系与属种关系均用三元组的形式表示。

与现有技术相比，本发明所达到的有益效果是：通过将基于规则的方法、基于聚类的无监督机器学习以及基于统计的过滤方法相结合，准确地得到了术语间的关系；根据实际应用的需要分析句子的依存结构信息。在此基础上提取了两类有针对性的特征，并进行了基于K-means聚类的无监督机器学习，通过融合自然语言处理技术、统计方法以及基于聚类的机器学习方法，抽取了层级关系。对非结构化中文文本术语关系的自动抽取，应用于电网调度领域本体的构建，有利于该领域的知识共享与重用，并提升了本体术语关系抽取的准确性与自动化程度。

附图说明

图1为本发明提出的关系抽取系统框架；

图2为K-means算法流程图；

图3为实施例中符合某种规则的句子举例；

图4为实施例中句子各成分间的依存关系；

图5为实施例中符合特征选取条件的句子；

图6为实施例中存在关键词句子的统计；

图7为实施例中聚类后的坐标点；

图8为实施例中聚类后的三维坐标图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明的一种调度规程规定本体术语关系抽取方法，包括以下过程：

1、领域本体中术语关系分类

确定调度规程规定文本(即下文中的文本)。术语关系表征术语的组成或术语间的联系。术语有层级和非层级关系。本发明针对层级关系，选取了四个具有代表性的关系类型，即同义关系、并列关系、整体部分关系与属种关系。整体部分关系与属种关系是构建本体的基础，同义关系是构建概念的依据，并列关系是关系过滤和关系扩展的依据。

2、关系抽取系统框架

针对术语关系类型的多样化问题，本发明采用组合方法进行术语关系的抽取。综合术语的词法、语法和语义等特征，对不同的关系类型采用不同的或组合的方法，以提高抽取准确率。系统框架图如附图1所示，具体的抽取方法为：

通过基于模式匹配方法从文本里抽取同义和并列关系，首先构造出若干模式规则，然后判断文本中的词序列是否与某个模式相匹配，若匹配，即可抽取出相应的关系。

基于统计和聚类方法从文本里抽取整体部分关系与属种关系。目前采用的统计方法主要是通过计算术语的共现度或相关度等获取术语间的关系。例如，首先抽取术语的上下文，并将其表示为特征词向量模型，利用向量模型的相似度计算公式来获得术语之间的相关度，从而获得候选关系集合。聚类的方法是利用术语之间的语义距离，对术语进行聚类，这样，同一类中的术语就具有相似语义的关系。此外，还可以按照层次关系进行聚类，也就是抽取术语间的分类关系。

每一种关系可以用三元组的形式表示，即(术语1，关系，术语2)。在要抽取的四类关系中，同义关系将用于同义术语合并进而形成概念，并列关系常常作为实际问题的中间结果，起到关系过滤或扩展的作用，属种关系和整体部分关系确定本体的骨架。

3、基于聚类的方法

有监督的机器学习方法较少用于关系抽取，原因是需要大量的标注语料，导致结果对标注集的依赖性，而且语料标注费时费力。本文采用无监督学习的聚类结合统计的方法，筛选不包含属种关系和整体部分关系的语例。具体过程是对每一个句子进行依存解析，通过提取语例的语法结构特征来完成无监督学习。本文采用LTP平台(语言技术平台)进行依存分析，其依存分析标注体系如表1所示。LTP平台在解析较长的句子和带有省略成分的句子时，表现更为出色。

表1依存分析标注体系及其含义

关系	符号	关系	符号
				定中关系	ATT	“的”字结构	DE
数量关系	QUN	“地”字结构	DI
				并列关系	COO	“得”字结构	DEI
同位关系	APP	“把”字结构	BA
				前附加关系	LAD	“被”字结构	BEI
后附加关系	RAD	状中结构	ADV
				比拟关系	SIM	动宾关系	VOB
语态结构	MT	诸位关系	SBV
				独立结构	IS	联动结构	VV
动补结构	CMP	关联结构	CNJ
				介宾关系	POB	独立分句	IC
核心	HED	依存分句	DC

表2列出了聚类时需要选取的特征：术语名称、术语前词性、句子长度、依存路径长度、特殊符号特征、依存路径长度、词袋特征和中间词特征。

表2选取的特征列表

本文利用依存解析的结果，从依存路径长度和词袋特征两个角度分析句子的依存结构信息。然后采用K-means聚类的无监督学习方法对特征进行规范处理，任意两个词(样本点)间采用欧几里德距离进行衡量。再把特征值数字化以后，如果对特征没有规范处理，则有可能忽略某些特征。

每一个特征取值需要保持在某个范围之内，每一个特征取值按照下列公式规范化：

其中V_i,j表示第i个实例(词)的第j个特征值，MaxV_j，MinV_j分别是第j个特征值中的最大值和最小值，α是一个权重因子。

最后，将每个实例看作是一个样本，对每个实例提取语法结构特征后使用K-means方法聚类，将属种关系和整体部分关系的实例分开。

在整个关系抽取过程中，首先使用规则(人工归纳)提取了同义关系，并将同义关系的术语合并为概念；然后提取了并列关系，被认定为并列关系的术语对不再被列为其他关系，并列关系的提取起到了过滤作用。最终经过K-means聚类，过滤掉了无用的关系对，并得到了整体部分关系和属种关系。

K-means算法的流程图如附图2所示。K-means算法的具体过程是：

1)选取k个对象作为初始的聚类中心；

2)根据聚类中心值，将每个对象(重新)赋给最相似的簇；

3)重新计算每个簇中对象的平均值，用此平均值作为新的聚类中心；

4)重复执行步骤2)、3)，直到聚类的中心不再发生变化为止。

实施例

选取电力系统调度规程规定的文本语料，经过符号标准化，句子切分等预处理之后，总共得到了6238个句子。其中，3267个术语共出现了12380次。经过统计，在3267个术语当中，有1375个术语仅出现过一次，出现次数过少判定为无关，因此舍弃了这部分出现次数稀疏的术语，剩余的1892个为合格术语。有3557个句子包含两个或两个以上的合格术语，最终形成了67283个术语对。本文采用随机抽样的方式，人工分析了67283个术语对中的1500个，提取出同义术语满足的关系规则。在附图3的例句1中和例句2中，“变电站的设备异常信息”、“变电站设备运行状态”和“变电站通信系统状态”等互为并列关系，“国家有关法规”、“行业标准”、“电网运行准则”等也互为并列关系。对于同义关系，例句3中的“自动发电控制”和“AGC”属于同义关系，例句4中的“升压站”和“开关站”也属于同义关系。

实验表明，使用规则的方法能够有效地提取出同义关系和并列关系。规则匹配的高准确率为后续的过滤工作以及本体构建提供了保障。

使用基于统计的方法对术语关系进行筛选，其基本原理为：具有紧密联系的术语对会在同一个句子中出现，反之，不常出现的术语对一般没有紧密联系。基于该假设，按照如下公式对术语对进行过滤：

其中df(t₁,t₂)表示术语t₁，t₂共同出现的句子数，df(t₁)表示术语t₁出现的句子数，df(t₂)表示术语t₂出现的句子数，sim(t₁,t₂)表示术语t₁，t₂之间的相似度。该公式通过基于术语共现的规律得到了两个术语之间的相似度。实验表明，当相似度值小于0.3时，术语对一般没有紧密联系。因此取0.3为阈值，过滤掉相似度低于0.3的术语对。

为进一步提升术语关系对的抽取准确度，结合无监督的机器学习方法与基于统计的方法进行术语关系对的筛选。

首先使用LTP平台对句子进行依存度分析。LTP平台的解析结果以XML文件的形式将句子各个组成部分的依存关系展现出来，如附图4所示，依存解析结果中，各个符号的含义如表1所示，下例中“<word cont＝‘解列操作’id＝‘2’pos＝‘n’parent＝‘5’relate＝“SBV”/>”就表示“解列操作”和“调节”存在主谓关系。其中-1是虚拟节点，另外还有虚拟节点-2，专门作为标点符号的虚拟父节点。

然后进行特征选取。本文选取了词袋特征和依存路径长度两种不同的特征。词袋特征指依存路径上是否包含‘部分’、‘组成’、‘构成’、‘调配’、‘发布’、‘含’、‘中’、‘管理’、‘县调’、‘省公司交易中心’、‘省公司分管部门’、‘各地供电公司’等。然后对术语对依存路径上存在上述关键词且依存路径长度不超过20个的特征句子进行抽取，并且每出现一次自动计数加一。以“省调”和“省公司”为例，附图5是部分调规中符合条件的例句。术语对“省调”和“省公司”在句子中出现了‘报送’，‘汇报’，‘管理’、‘发布’四个关键词，所以自动计数‘4’，下面是Matlab中对体现术语对整体部分关系和属种关系的句子的统计，如附图6所示。聚类后的结果如附图7和8所示。

本发明设置了56组数据，22个聚类点。附图6中，每一列代表一个样本数据，且每列从上至下分别对应图附8中的xyz轴。图附7中，每列代表一个聚类点的坐标，图附8中，星号代表每一个数据样本点，圆号代表K-means聚类点。由附图7中得出1和2、1和3、1和4、1和5、2和4、2和5、3和4、3和5、3和6、3和7、3和8存在整体部分关系及属种关系，与所需要的结果基本相符。并且在一定的范围内增加聚类点的数量会使抽取效果更好。

最后，本文对四种关系类型的进行了抽取，分别是并列关系、同义关系、属种关系和整体部分关系，抽取准确率分别为97.3％、72.3％、70.9％与75.1％，平均准确率为90.8％。

通过计算术语的共现度或相关度获取文本中术语间的关系，

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种调度规程规定本体术语关系抽取方法，其特征是，包括以下过程：

2.根据权利要求1所述的一种调度规程规定本体术语关系抽取方法，其特征是，通过基于模式匹配方法从文本里抽取同义和并列关系包括：

3.根据权利要求1所述的一种调度规程规定本体术语关系抽取方法，其特征是，基于统计和聚类方法从文本里抽取整体部分关系与属种关系包括：

通过计算术语的共现度或相关度获取文本中术语间的关系，

4.根据权利要求1所述的一种调度规程规定本体术语关系抽取方法，其特征是，同义关系、并列关系、整体部分关系与属种关系均用三元组的形式表示。

5.一种调度规程规定本体术语关系抽取系统，其特征是，包括关系分类模块和关系抽取模块；

6.根据权利要求5所述的一种调度规程规定本体术语关系抽取系统，其特征是，关系抽取模块中，通过基于模式匹配方法从文本里抽取同义和并列关系包括：

7.根据权利要求5所述的一种调度规程规定本体术语关系抽取系统，其特征是，关系抽取模块中，基于统计和聚类方法从文本里抽取整体部分关系与属种关系包括：

通过计算术语的共现度或相关度获取文本中术语间的关系，

8.根据权利要求5所述的一种调度规程规定本体术语关系抽取系统，其特征是，关系抽取模块中，同义关系、并列关系、整体部分关系与属种关系均用三元组的形式表示。