CN112632287A - 电力知识图谱构建方法和装置 - Google Patents
电力知识图谱构建方法和装置 Download PDFInfo
- Publication number
- CN112632287A CN112632287A CN202011412940.3A CN202011412940A CN112632287A CN 112632287 A CN112632287 A CN 112632287A CN 202011412940 A CN202011412940 A CN 202011412940A CN 112632287 A CN112632287 A CN 112632287A
- Authority
- CN
- China
- Prior art keywords
- word vector
- candidate
- word
- processed
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 144
- 238000000605 extraction Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 238000012795 verification Methods 0.000 claims abstract description 18
- 230000007787 long-term memory Effects 0.000 claims abstract description 17
- 230000006403 short-term memory Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012550 audit Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种电力知识图谱构建方法和装置,涉及数据处理技术领域,其中,方法包括:获取待处理数据,获取待处理数据中领域文本,对领域文本中进行关键词抽取,获取多个候选词;对多个候选词进行评分,根据评分结果,从多个候选词确定多个领域本体;对待处理数据进行预处理,获取候选术语,对候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;获取待处理数据中每个语句的字向量和词向量,将字向量和词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据多个核心本体、多个实体和多个领域本体构建电力知识图谱。由此,实现准确有效构建电力知识图谱。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种电力知识图谱构建方法和装置。
背景技术
目前,知识图谱作为语义分析的重要支撑近年来在各行业智能分析中得到广泛应用,相关技术中,电力领域知识图谱构建中存在准确率和效率都比较低。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种电力知识图谱构建方法,以准确高效的实现了超大规模高精度电力知识图谱的建立。
本申请的第二个目的在于提出一种电力知识图谱构建装置。
为达上述目的,本申请第一方面实施例提出了一种电力知识图谱构建方法,包括:
获取待处理数据,获取所述待处理数据中领域文本,对所述领域文本中进行关键词抽取,获取多个候选词;
对所述多个候选词进行评分,根据评分结果,从所述多个候选词确定多个领域本体;
对所述待处理数据进行预处理,获取候选术语,对所述候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;
获取所述待处理数据中每个语句的字向量和词向量,将所述字向量和所述词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据所述多个核心本体、所述多个实体和所述多个领域本体构建电力知识图谱。
本申请实施例的电力知识图谱构建方法,通过获取待处理数据,获取待处理数据中领域文本,对领域文本中进行关键词抽取,获取多个候选词;对多个候选词进行评分,根据评分结果,从多个候选词确定多个领域本体;对待处理数据进行预处理,获取候选术语,对候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;获取待处理数据中每个语句的字向量和词向量,将字向量和词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据多个核心本体、多个实体和多个领域本体构建电力知识图谱。由此,实现准确有效构建电力知识图谱。
在本申请的一个实施例中,所述对所述多个候选词进行评分,根据评分结果,从所述多个候选词确定多个领域本体,包括:
计算每个候选词的特征值;
获取所述每个候选的权重值;
根据所述每个候选的特征值和权重值进行加权求和,获取所述每个候选词的评分结果;
从所述多个候选词确定评分结果大于预设分数值的候选词作为所述多个领域本体。
在本申请的一个实施例中,所述对所述待处理数据进行预处理,获取候选术语,对所述候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体,包括:
对所述待处理数据进行分词、词性标注、句法分析,选择名词短语、动词、动词短语作为所述候选术语;
对候选术语进行多个维度的评分,过滤掉得分低于预设评分阈值的候选术语,并对抽取的候选术语进行关系抽取,并将抽取结果提交审核,将通过验证的抽取结果作为多个核心本体。
在本申请的一个实施例中,所述对抽取的候选术语进行关系抽取,获取抽取结果,包括:
选取K个所述候选术语作为聚类中心;
计算每个所述候选术语与所述聚类中心的余弦相似度;
根据所述余弦相似度,对所述候选术语和所述聚类中心进行合并,并计算新聚类中心;
判断所述新聚类中心与所述聚类中心差值,在差值小于预设差值阈值,输出所述抽取结果。
在本申请的一个实施例中,所述获取所述待处理数据中每个语句的字向量和词向量,将所述字向量和所述词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,包括:
获取所述每个语句的词向量,对所述每个语句中的每一个词,获取所述每一个词的字向量;
所述字向量组成词的字向量矩阵,通过卷积神经网络对所述字向量矩阵进行卷积和池化,获取每个词的字向量;
对每个词的字向量和词向量进行拼接,将拼接后的词向量输入到所述长短期记忆网络中进行实体识别,获取多个实体。
在本申请的一个实施例中,所述电力知识图谱构建方法,还包括:提取实体对<e1,e2> 语义关联动词;
其中,获取与实体e1发生直接依存关系的动词V1;
获取与实体e发生直接依存关系的动词V2;
判断动词V1与V2是否相同,若相同,则所述实体对<e1,e2>的关系为动词V1;若不相同,则所述实体对<e1,e2>的关系为空。
为达上述目的,本申请第二方面实施例提出了一种电力知识图谱构建装置,包括:
获取模块,用于获取待处理数据,获取所述待处理数据中领域文本,对所述领域文本中进行关键词抽取,获取多个候选词;
评分模块,用于对所述多个候选词进行评分,根据评分结果,从所述多个候选词确定多个领域本体;
第一处理模块,用于对所述待处理数据进行预处理,获取候选术语,对所述候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;
第二处理模块,用于获取所述待处理数据中每个语句的字向量和词向量,将所述字向量和所述词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据所述多个核心本体、所述多个实体和所述多个领域本体构建电力知识图谱。
本申请实施例的电力知识图谱构建装置,通过获取待处理数据,获取待处理数据中领域文本,对领域文本中进行关键词抽取,获取多个候选词;对多个候选词进行评分,根据评分结果,从多个候选词确定多个领域本体;对待处理数据进行预处理,获取候选术语,对候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;获取待处理数据中每个语句的字向量和词向量,将字向量和词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据多个核心本体、多个实体和多个领域本体构建电力知识图谱。由此,实现准确有效构建电力知识图谱。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种电力知识图谱构建的示例图;
图2为本申请实施例一所提供的一种电力知识图谱构建方法的流程示意图;
图3为本申请实施例所提供的核心实体获取的示例图;
图4为本申请实施例所提供的一种聚类方式的示例图;
图5为本申请实施例所提供的实体获取的示例图;
图6为本申请实施例所提供的一种电力知识图谱构建装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的电力知识图谱构建方法和装置。
本申请针对目前电力领域知识图谱构建中准确率和效率难以协调的问题,提出电力领域知识图谱构建的“三步法”,平衡自动化与人工参与,按照领域电力图谱模式构建、本体学习和实体学习的步骤以半自动化的方式实现电力领域知识图谱的构建,准确高效的实现了超大规模高精度电力知识图谱的建立。
本申请如图1所示,根据电力领域的知识体系及领域资源特征,采用自顶向下和自底向上相结合的方法进行构建,根据自顶向下的方法定义电力领域的本体(模式层),首先由电力领域专家根据领域知识结构和现有相关资源定义核心本体;然后使用自底向上的方法抽取领域概念及关系,并对概念进行组织,形成底层的概念,并逐步向上形成概念层次分类结构,实现本体的学习和扩展;最后抽取实体作为本体实例加入到相应的本体结构中(数据层),实体的获取分为两个阶段,第一阶段使用基于规则的方法从领域中结构化和半结构化数据抽取,第二阶段使用基于机器学习的方法从领域中的非结构化数据中自动抽(也是对领域文本进行实体识别与标注的过程)。构建过程中使用半自动化的方法:从数据源中自动抽取的概念及实体,通过领域专家评估后加入知识图谱,负责对生成的领域本体及实例进行修改和完善,整个过程迭代进行,最终形成相对完整和准确的领域知识图谱。
图2为本申请实施例一所提供的一种电力知识图谱构建方法的流程示意图。
如图2所示,该电力知识图谱构建方法包括以下步骤:
步骤101,获取待处理数据,获取待处理数据中领域文本,对领域文本中进行关键词抽取,获取多个候选词。
步骤102,对多个候选词进行评分,根据评分结果,从多个候选词确定多个领域本体。
在本申请实施例中,待处理数据包括从领域中结构化和半结构化数据、非结构化数据等,具体根据应用场景选择设置。
在本申请实施例中,计算每个候选词的特征值;获取每个候选的权重值;根据每个候选的特征值和权重值进行加权求和,获取每个候选词的评分结果;从多个候选词确定评分结果大于预设分数值的候选词作为多个领域本体。
具体地,采用主成分分析方法,使用关键词抽取算法在领域文本比如电力科技文献中抽取关词信息,根据关键词在同一文献中的共现关系构建关键词共现网络,然后对关键词共现次数矩阵进行分析,并通过斜交转换来简化因子结构。
具体地,候选词选择一元词、二元词、三元词及四元词。根据各候选词子集的特点,为各候选词计算一个用作衡量该词能否成为最终关键词的数值,也就是对候选词进行评分。评分方法是基于特征值合成并加权得出的,因此本步骤也称作特征拟合,计算公式参考了经典的tf/idf公式,并以此为基础加入了其他特征及权重。计算方法如下:
其中,F={inTitle,quo,inFirst,sign}是一组特征,tfi是它们的权重。t1,t2 和t3分别是w.tf,termSum和w.ctf的权重。根据实验,把t1,t2,t3,tinTitle,tquo,tinFirst,tsign的值分别设为0.99,1.0,0.95,2.3,2.3,0.01,0.85。
步骤103,对待处理数据进行预处理,获取候选术语,对候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体。
在本申请实施例中,对待处理数据进行分词、词性标注、句法分析,选择名词短语、动词、动词短语作为候选术语,对候选术语进行多个维度的评分,过滤掉得分低于预设评分阈值的候选术语,并对抽取的候选术语进行关系抽取,并将抽取结果提交审核,将通过验证的抽取结果作为多个核心本体。
在本申请实施例中,选取K个候选术语作为聚类中心;计算每个候选术语与聚类中心的余弦相似度;根据余弦相似度,对候选术语和所述聚类中心进行合并,并计算新聚类中心;判断新聚类中心与聚类中心差值,在差值小于预设差值阈值,输出抽取结果。
具体地,首先对选取法规语料集进行预处理,包括分词、词性标注、句法分析;然后选择名词短语、动词、动词短语作为候选术语,对候选术语进行多个维度的评分,过滤掉得分低于阈值的候选术语,最后对抽取的候选术语进行关系抽取,并将抽取结果交由领域专家审核,专家验证后加入核心本体进行扩展,其中,接收专家审核结果可以理解为接收输入的审核结果或者是目标设备发送的审核结果,如图3所示。
本申请实施例中,一种基于多特征的术语评分方法,综合考虑候选术语的术语度、单元度及重要性,综合评分超过一定阈值的,予以保留。计算方法为:
其中,α,β,γ为调节因子。
C-Value为术语度评分:
其中n(w)为候选术语w的频率,|w|为w的长度,c(w)为包含w的较长的候选术语的总数, xi为嵌套w的候选术语。
MIs(w)为术语的单元度评分:
MIS(w)=min{MI(wi,wi+1)},i=1…(n-1)
其中Wi和Wj为组成候选术语中相邻的连个词,p为出现的概率。
IM(w)为术语的重要性评分:
其中fhead(w)为候选术语在各级标题中出现的次数,g(w)为该术语在语料库中的文档频率。
具体地,多次层次聚类,每一次聚类都选取不同标准的方法进行改进,从而提高层次关系获取的准确率。具体算法如下:
随机选取k个候选术语作为聚类中心,表示为C={c1,...,ci,...,ck};计算每个候选术语与所有聚类中心的相似度,找到与每个类相似度最大的类簇进行合并;根据如下算法计算下一轮的k个聚类中心:a)计算类簇i中每个候选术语的平均相似度,设共有m个概念,计算方法为:b)根据a)计算的类找出与该类中心最近的r个概念,计算方法为:其中max_asim是上式计算得到的最大值;c)计算r个概念的平均值,选取最近的概念作为下一轮聚类集合的中心;d)将上一步结果与上一轮聚类中心进行比较,差值大于给定的阈值则转至b),否则转至e);e)得到最终类别结构,结束。上述聚类方法流程如图4所示。
步骤104,获取待处理数据中每个语句的字向量和词向量,将字向量和词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据多个核心本体、多个实体和多个领域本体构建电力知识图谱。
在本申请实施例中,获取每个语句的词向量,对每个语句中的每一个词,获取每一个词的字向量;字向量组成词的字向量矩阵,通过卷积神经网络对所述字向量矩阵进行卷积和池化,获取每个词的字向量;对每个词的字向量和词向量进行拼接,将拼接后的词向量输入到长短期记忆网络中进行实体识别,获取多个实体。
在本申请实施例中,提取实体对<e1,e2>语义关联动词;其中,获取与实体e1发生直接依存关系的动词V1;获取与实体e发生直接依存关系的动词V2;判断动词V1与V2是否相同,若相同,则实体对<e1,e2>的关系为动词V1;若不相同,则实体对<e1,e2>的关系为空。
具体地,如图5所示,实体识别采用基于字词向量相结合的深度学习方法。模型共有三部分组成:首先获取输入语句的词向量表示,然后对于句中的每一个词,获取词中每个字的向量。字向量再组成词的字向量矩阵,通过卷积神经网络(Convolutional NeuralNetwork,CNN),对字向量矩阵进行卷积和池化,来获取每个词的字特征。接着对每个词的字向量和词向量进行拼接,将拼接后的词向量输入到BLSTM(Bidirectional LSTM,双长短期记忆网络)中进行实体的识别,最后由条件随机场CRF层对BLSTM层的输出进行解码,得出一个最优的标记序列。
其中,CNN中的卷积层对数据的局部特征具有较好的描述能力,通过池化层可以抽取出局部特征中最具代表性的部分[111]。CNN的结构主要包括字向量表,卷积层和池化层。字向量表可以将单词中的每个字符转换为字向量。获取词的字特征方法的具体步骤为:首先,根据字向量表将词中字转化成为对应的字向量:①由组成词的每个字的字向量构成词的字向量矩阵;①以长度最大的词为准,在词的左右两端补充占位符(padding)使所有字向量矩阵的大小一致,从而解决因词长度不同导致的字向量矩阵大小不同的问题;③字向量表在训练模型时通过反向传播算法不断进行更新。然后,在卷积层对词的字向量矩阵进行卷积操作来提取局部特征,卷积核大小为T(可以提取词周围T个词的特征)。最后,通过池化获得词的字向量。
具体地,实体间关系抽取可以通过对句子的分析,可以判断两个实体是否存在语义上存在关联。若存在语义上的关联,则可以通过直接或间接关联两种形式发生语义关联。提取电力实体对<e1,e2>直接语义关联动词的步骤为:(1)找出与实体e1发生直接依存关系的动词V1;(2)找出与实体e发生直接依存关系的动词V2;(3)判断动词V1与V2是否相同,相同则实体对<e1,e2>的关系即为动词V1;若不相同,则实体对<e1,e2>的关系为空,即实体对之间不存在关系。
本申请实施例的电力知识图谱构建方法,通过获取待处理数据,获取待处理数据中领域文本,对领域文本中进行关键词抽取,获取多个候选词;对多个候选词进行评分,根据评分结果,从多个候选词确定多个领域本体;对待处理数据进行预处理,获取候选术语,对候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;获取待处理数据中每个语句的字向量和词向量,将字向量和词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据多个核心本体、多个实体和多个领域本体构建电力知识图谱。由此,实现准确有效构建电力知识图谱。
为了实现上述实施例,本申请还提出一种电力知识图谱构建装置。
图6为本申请实施例提供的一种电力知识图谱构建装置的结构示意图。
如图6所示,该电力知识图谱构建装置包括:获取模块610、评分模块620、第一处理模块630和第二处理模块640。
获取模块610,用于获取待处理数据,获取所述待处理数据中领域文本,对所述领域文本中进行关键词抽取,获取多个候选词。
评分模块620,用于对所述多个候选词进行评分,根据评分结果,从所述多个候选词确定多个领域本体。
第一处理模块630,用于对所述待处理数据进行预处理,获取候选术语,对所述候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体。
第二处理模块640,用于获取所述待处理数据中每个语句的字向量和词向量,将所述字向量和所述词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据所述多个核心本体、所述多个实体和所述多个领域本体构建电力知识图谱。
在本申请的一个实施例中,评分模块620,具体用于:计算每个候选词的特征值;获取所述每个候选的权重值;根据所述每个候选的特征值和权重值进行加权求和,获取所述每个候选词的评分结果;从所述多个候选词确定评分结果大于预设分数值的候选词作为所述多个领域本体。
在本申请的一个实施例中,第一处理模块630,具体用于:对所述待处理数据进行分词、词性标注、句法分析,选择名词短语、动词、动词短语作为所述候选术语;对候选术语进行多个维度的评分,过滤掉得分低于预设评分阈值的候选术语,并对抽取的候选术语进行关系抽取,并将抽取结果提交审核,将通过验证的抽取结果作为多个核心本体。
在本申请的一个实施例中,第二处理模块640,具体用于:获取所述每个语句的词向量,对所述每个语句中的每一个词,获取所述每一个词的字向量;所述字向量组成词的字向量矩阵,通过卷积神经网络对所述字向量矩阵进行卷积和池化,获取每个词的字向量;
对每个词的字向量和词向量进行拼接,将拼接后的词向量输入到所述长短期记忆网络中进行实体识别,获取多个实体。
本申请实施例的电力知识图谱构建装置,通过获取待处理数据,获取待处理数据中领域文本,对领域文本中进行关键词抽取,获取多个候选词;对多个候选词进行评分,根据评分结果,从多个候选词确定多个领域本体;对待处理数据进行预处理,获取候选术语,对候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;获取待处理数据中每个语句的字向量和词向量,将字向量和词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据多个核心本体、多个实体和多个领域本体构建电力知识图谱。由此,实现准确有效构建电力知识图谱。
需要说明的是,前述对电力知识图谱构建方法实施例的解释说明也适用于该实施例的电力知识图谱构建装置,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种电力知识图谱构建方法,其特征在于,包括以下步骤:
获取待处理数据,获取所述待处理数据中领域文本,对所述领域文本中进行关键词抽取,获取多个候选词;
对所述多个候选词进行评分,根据评分结果,从所述多个候选词确定多个领域本体;
对所述待处理数据进行预处理,获取候选术语,对所述候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;
获取所述待处理数据中每个语句的字向量和词向量,将所述字向量和所述词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据所述多个核心本体、所述多个实体和所述多个领域本体构建电力知识图谱。
2.如权利要求1所述电力知识图谱构建方法,其特征在于,所述对所述多个候选词进行评分,根据评分结果,从所述多个候选词确定多个领域本体,包括:
计算每个候选词的特征值;
获取所述每个候选的权重值;
根据所述每个候选的特征值和权重值进行加权求和,获取所述每个候选词的评分结果;
从所述多个候选词确定评分结果大于预设分数值的候选词作为所述多个领域本体。
3.如权利要求1所述电力知识图谱构建方法,其特征在于,所述对所述待处理数据进行预处理,获取候选术语,对所述候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体,包括:
对所述待处理数据进行分词、词性标注、句法分析,选择名词短语、动词、动词短语作为所述候选术语;
对候选术语进行多个维度的评分,过滤掉得分低于预设评分阈值的候选术语,并对抽取的候选术语进行关系抽取,并将抽取结果提交审核,将通过验证的抽取结果作为多个核心本体。
4.如权利要求3所述电力知识图谱构建方法,其特征在于,所述对抽取的候选术语进行关系抽取,获取抽取结果,包括:
选取K个所述候选术语作为聚类中心;
计算每个所述候选术语与所述聚类中心的余弦相似度;
根据所述余弦相似度,对所述候选术语和所述聚类中心进行合并,并计算新聚类中心;
判断所述新聚类中心与所述聚类中心差值,在差值小于预设差值阈值,输出所述抽取结果。
5.如权利要求1所述电力知识图谱构建方法,其特征在于,所述获取所述待处理数据中每个语句的字向量和词向量,将所述字向量和所述词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,包括:
获取所述每个语句的词向量,对所述每个语句中的每一个词,获取所述每一个词的字向量;
所述字向量组成词的字向量矩阵,通过卷积神经网络对所述字向量矩阵进行卷积和池化,获取每个词的字向量;
对每个词的字向量和词向量进行拼接,将拼接后的词向量输入到所述长短期记忆网络中进行实体识别,获取多个实体。
6.如权利要求5所述电力知识图谱构建方法,其特征在于,还包括:提取实体对<e1,e2>语义关联动词;
其中,获取与实体e1发生直接依存关系的动词V1;
获取与实体e发生直接依存关系的动词V2;
判断动词V1与V2是否相同,若相同,则所述实体对<e1,e2>的关系为动词V1;若不相同,则所述实体对<e1,e2>的关系为空。
7.一种电力知识图谱构建装置,其特征在于,包括:
获取模块,用于获取待处理数据,获取所述待处理数据中领域文本,对所述领域文本中进行关键词抽取,获取多个候选词;
评分模块,用于对所述多个候选词进行评分,根据评分结果,从所述多个候选词确定多个领域本体;
第一处理模块,用于对所述待处理数据进行预处理,获取候选术语,对所述候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;
第二处理模块,用于获取所述待处理数据中每个语句的字向量和词向量,将所述字向量和所述词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据所述多个核心本体、所述多个实体和所述多个领域本体构建电力知识图谱。
8.如权利要求7所述电力知识图谱构建装置,其特征在于,所述评分模块,具体用于:
计算每个候选词的特征值;
获取所述每个候选的权重值;
根据所述每个候选的特征值和权重值进行加权求和,获取所述每个候选词的评分结果;
从所述多个候选词确定评分结果大于预设分数值的候选词作为所述多个领域本体。
9.如权利要求7所述电力知识图谱构建装置,其特征在于,所述第一处理模块,具体用于:
对所述待处理数据进行分词、词性标注、句法分析,选择名词短语、动词、动词短语作为所述候选术语;
对候选术语进行多个维度的评分,过滤掉得分低于预设评分阈值的候选术语,并对抽取的候选术语进行关系抽取,并将抽取结果提交审核,将通过验证的抽取结果作为多个核心本体。
10.如权利要求7所述电力知识图谱构建装置,其特征在于,所述第二处理模块,具体用于:
获取所述每个语句的词向量,对所述每个语句中的每一个词,获取所述每一个词的字向量;
所述字向量组成词的字向量矩阵,通过卷积神经网络对所述字向量矩阵进行卷积和池化,获取每个词的字向量;
对每个词的字向量和词向量进行拼接,将拼接后的词向量输入到所述长短期记忆网络中进行实体识别,获取多个实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412940.3A CN112632287B (zh) | 2020-12-03 | 2020-12-03 | 电力知识图谱构建方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412940.3A CN112632287B (zh) | 2020-12-03 | 2020-12-03 | 电力知识图谱构建方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112632287A true CN112632287A (zh) | 2021-04-09 |
CN112632287B CN112632287B (zh) | 2024-01-30 |
Family
ID=75308061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011412940.3A Active CN112632287B (zh) | 2020-12-03 | 2020-12-03 | 电力知识图谱构建方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632287B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360668A (zh) * | 2021-06-03 | 2021-09-07 | 中国电力科学研究院有限公司 | 统一数据模型构建方法、系统、终端设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101469526B1 (ko) * | 2014-08-29 | 2014-12-05 | 한국지질자원연구원 | 상황인식 온톨로지를 이용한 웹기반 시맨틱 정보검색 시스템 |
CN109947950A (zh) * | 2019-03-14 | 2019-06-28 | 长沙沃本智能科技有限公司 | 基于中间层核心本体的领域知识图谱的构建方法和装置 |
CN111625622A (zh) * | 2020-04-28 | 2020-09-04 | 北京中科智加科技有限公司 | 领域本体构建方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-03 CN CN202011412940.3A patent/CN112632287B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101469526B1 (ko) * | 2014-08-29 | 2014-12-05 | 한국지질자원연구원 | 상황인식 온톨로지를 이용한 웹기반 시맨틱 정보검색 시스템 |
CN109947950A (zh) * | 2019-03-14 | 2019-06-28 | 长沙沃本智能科技有限公司 | 基于中间层核心本体的领域知识图谱的构建方法和装置 |
CN111625622A (zh) * | 2020-04-28 | 2020-09-04 | 北京中科智加科技有限公司 | 领域本体构建方法、装置、电子设备及存储介质 |
Non-Patent Citations (6)
Title |
---|
何琳: "基于多策略的领域本体术语抽取研究", 《情报学报》 * |
何琳: "基于多策略的领域本体术语抽取研究", 《情报学报》, vol. 31, no. 8, 31 August 2012 (2012-08-31), pages 798 - 804 * |
刘桐菊 等: "基于TFIDF的专业领域词汇获取的研究", 《第一届学生计算语言学研讨会论文集》 * |
刘桐菊 等: "基于TFIDF的专业领域词汇获取的研究", 《第一届学生计算语言学研讨会论文集》, 31 August 2008 (2008-08-31), pages 287 - 291 * |
张晓斌 等: "基于CNN和双向LSTM融合的实体关系抽取", 《网络与信息安全学报》 * |
张晓斌 等: "基于CNN和双向LSTM融合的实体关系抽取", 《网络与信息安全学报》, vol. 4, no. 9, 30 September 2018 (2018-09-30), pages 44 - 51 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360668A (zh) * | 2021-06-03 | 2021-09-07 | 中国电力科学研究院有限公司 | 统一数据模型构建方法、系统、终端设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112632287B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
US11379668B2 (en) | Topic models with sentiment priors based on distributed representations | |
CN110597961B (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN112347758B (zh) | 文本摘要的生成方法、装置、终端设备及存储介质 | |
CN111611807A (zh) | 一种基于神经网络的关键词提取方法、装置及电子设备 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN115495555A (zh) | 一种基于深度学习的文献检索方法和系统 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN111881264B (zh) | 一种开放领域问答任务中长文本检索的方法和电子设备 | |
CN113761868B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
Hashemzadeh et al. | Improving keyword extraction in multilingual texts. | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN116304020A (zh) | 一种基于义原分析和跨度特征的工业文本实体抽取方法 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN110728135A (zh) | 文本主题标引方法、装置、电子设备及计算机存储介质 | |
CN111125329B (zh) | 一种文本信息筛选方法、装置及设备 | |
CN112632287B (zh) | 电力知识图谱构建方法和装置 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Moradi et al. | Clustering of deep contextualized representations for summarization of biomedical texts | |
CN114742062A (zh) | 文本关键词提取处理方法及系统 | |
Gendron et al. | Natural language processing: a model to predict a sequence of words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |