CN111831792A - 一种电力知识库构建方法及系统 - Google Patents

一种电力知识库构建方法及系统 Download PDF

Info

Publication number
CN111831792A
CN111831792A CN202010630117.3A CN202010630117A CN111831792A CN 111831792 A CN111831792 A CN 111831792A CN 202010630117 A CN202010630117 A CN 202010630117A CN 111831792 A CN111831792 A CN 111831792A
Authority
CN
China
Prior art keywords
named entity
corpus
text
knowledge base
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010630117.3A
Other languages
English (en)
Other versions
CN111831792B (zh
Inventor
田然
苏杨
庞渊源
陈轩
顾彬
王磊
吴子辰
李霁轩
陈鑫
朱晓鸿
王鑫
于广荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd filed Critical Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority to CN202010630117.3A priority Critical patent/CN111831792B/zh
Publication of CN111831792A publication Critical patent/CN111831792A/zh
Application granted granted Critical
Publication of CN111831792B publication Critical patent/CN111831792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种电力知识库构建方法,包括对语料进行预处理,获得语料文本;响应于语料文本为非结构化文本,将语料文本输入预先训练的命名实体识别模型,对语料文本中命名实体进行识别;将命名实体识别后的语料文本输入预先训练的命名实体关系抽取模型,获得命名实体关系数据;将命名实体关系数据进程存储,构建电力知识库。同时公开了相应的系统。本发明增加了非结构化数据,构建的知识库知识更加丰富,同时本发明通过命名实体识别模型和命名实体关系抽取模型抽取命名实体关系数据,知识库构建不需要自顶向下的建模,降低了构建的门槛,大大减少人工成本,无需大量的、长期的人工干预与校正。

Description

一种电力知识库构建方法及系统
技术领域
本发明涉及一种电力知识库构建方法及系统,属于知识库构建领域。
背景技术
领域知识库又叫行业知识库或垂直知识库,电力知识库是基于电力数据构建,而现在电力知识库的构建技术还不成熟。目前结构化数据在知识库的构建中仍然占据较大比重,对于非结构化的数据无法有效利用,同时该知识库目前一般由专家通过自顶向下的方式建模,从中提取知识需要大量的、长期的人工干预与校正。
发明内容
本发明提供了一种电力知识库构建方法及系统,解决了背景技术中披露的问题。
为了解决上述技术问题,本发明所采用的技术方案是:
一种电力知识库构建方法,包括,
对语料进行预处理,获得语料文本;
响应于语料文本为非结构化文本,将语料文本输入预先训练的命名实体识别模型,对语料文本中命名实体进行识别;
将命名实体识别后的语料文本输入预先训练的命名实体关系抽取模型,获得命名实体关系数据;
将命名实体关系数据进程存储,构建电力知识库。
响应于语料文本为非结构化文本,将语料文本输入预先训练的命名实体识别模型,对语料文本中命名实体进行识别;响应于语料文本为结构化文本,根据结构信息,获得语料文本中的命名实体关系数据。
对原始语料进行预处理,获得语料文本的过程为,
对语料进行编码转换;
将编码转换后的语料进行繁简转换;
响应于繁简转换后的语料为结构化数据,繁简转换后的语料为语料文本;
响应于繁简转换后的语料为非结构化数据,对繁简转换后的语料依次进行分句、去重、中文分词,获得语料文本。
命名实体关系数据包括存在关系的命名实体对、命名实体间的关系词。
命名实体关系抽取模型包括第一抽取模型和第二抽取模块,第一抽取模型从语料文本中抽取命名实体间的关系词,第二抽取模块根据命名实体间的关系词抽取存在关系的命名实体对。
将命名实体关系数据进程存储,构建电力知识库的过程为,
将命名实体关系数据存储至图数据库;
基于图的机器学习方法对存储的图谱进行补全,得到电力知识库。
一种电力知识库构建系统,包括,
预处理模块:对语料进行预处理,获得语料文本;
实体识别模块:响应于语料文本为非结构化文本,将语料文本输入预先训练的命名实体识别模型,对语料文本中命名实体进行识别;
实体关系抽取模块:将命名实体识别后的语料文本输入预先训练的命名实体关系抽取模型,获得命名实体关系数据;
存储模块:将命名实体关系数据进程存储,构建电力知识库。
命名实体关系抽取模型包括第一抽取模型和第二抽取模块,第一抽取模型从语料文本中抽取命名实体间的关系词,第二抽取模块根据命名实体间的关系词抽取存在关系的命名实体对。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行电力知识库构建方法。
一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行电力知识库构建方法的指令。
本发明所达到的有益效果:本发明增加了非结构化数据,构建的知识库知识更加丰富,同时本发明通过命名实体识别模型和命名实体关系抽取模型抽取命名实体关系数据,知识库构建不需要自顶向下的建模,降低了构建的门槛,大大减少人工成本,无需大量的、长期的人工干预与校正。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种电力知识库构建方法,包括以下步骤:
步骤1,对语料进行预处理,获得语料文本。
具体过程如下:
S1)对语料进行编码转换;这里主要是将预料统一转换为utf-8编码。
S2)将编码转换后的语料进行繁简转换。
S3)响应于繁简转换后的语料为结构化数据,繁简转换后的语料为语料文本,该语料文本为结构化语料文本;响应于繁简转换后的语料为非结构化数据,对繁简转换后的语料依次进行分句、去重、中文分词,获得语料文本,该语料文本为非结构化语料文本。
步骤2,判断语料文本是否为结构化文本,,若为非结构化文本,则转至步骤3,否则转至步骤5。
步骤3,响应于语料文本为非结构化文本,将语料文本输入预先训练的命名实体识别模型,对语料文本中命名实体进行识别。
采用自动化/人工标注的非结构化文本构建训练集,采用当前成熟的序列标注技术训练命名实体识别模型,对训练的模型进行评估,将效果最好的模型作为最终的命名实体识别模型(即图中的NER模型),用该模型进行命名实体识别。
步骤4,将命名实体识别后的语料文本输入预先训练的命名实体关系抽取模型,获得命名实体关系数据。
命名实体关系数据包括存在关系的命名实体对、命名实体间的关系词,其为三元组数据<s,p,o>,其中,s与o为命名实体对,p为表示命名实体间的关系词,关系路径为s指向o。
借助句法解析工具包,利用句法规则,辅以人工校对得到精标的命名实体关系数据训练集,例如表一所示:
表一关系数据训练集
Figure BDA0002568286760000041
Figure BDA0002568286760000051
命名实体关系抽取模型包括第一抽取模型和第二抽取模块,第一抽取模型从语料文本中抽取命名实体间的关系词,第二抽取模块根据命名实体间的关系词抽取存在关系的命名实体对。相较于传统的关系抽取模型,本模型的最大创新点在于提出了一种反向抽取的方法,即先通过第一抽取模型得到命名实体间的关系词,由关系词再通过第二抽取模型反向搜索文本中对应的命名实体对。两种模型都结合了当前最新的深度学习技术(Bert+CRF),在效果上比传统的基于句法分析的关系抽取提升很多。训练时,首先将关系词进行序列标注先训练第一抽取模型;其次对命名实体进行序列标注,同时融入命名实体间的关系词训练第二抽取模块。
对训练的模型进行评估,将效果最好的模型作为最终的命名实体关系抽取模型(即图中的RE模型),用该模型抽取命名实体关系数据。
步骤5,根据结构信息,获得语料文本中的命名实体关系数据。
步骤6,将命名实体关系数据进程存储,构建电力知识库;具体过程如下:
A1)将命名实体关系数据存储至图数据库;
这里以W3C标准资源描述框架(RDF)组织命名实体关系数据,并将其保存到图数据库Neo4j中。
A2)基于TransE等图的机器学习方法对存储的图谱进行补全,得到电力知识库。
上述方法增加了非结构化数据,构建的知识库知识更加丰富,同时上述方法通过命名实体识别模型和命名实体关系抽取模型抽取命名实体关系数据,知识库构建不需要自顶向下的建模,降低了构建的门槛,大大减少人工成本,无需大量的、长期的人工干预与校正,在无人工干预的情况依旧就可以长期维护知识库。
一种电力知识库构建系统,包括,
预处理模块:对语料进行预处理,获得语料文本;
实体识别模块:响应于语料文本为非结构化文本,将语料文本输入预先训练的命名实体识别模型,对语料文本中命名实体进行识别;
实体关系抽取模块:将命名实体识别后的语料文本输入预先训练的命名实体关系抽取模型,获得命名实体关系数据;
存储模块:将命名实体关系数据进程存储,构建电力知识库。
命名实体关系抽取模型包括第一抽取模型和第二抽取模块,第一抽取模型从语料文本中抽取命名实体间的关系词,第二抽取模块根据命名实体间的关系词抽取存在关系的命名实体对。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行电力知识库构建方法。
一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行电力知识库构建方法的指令。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (10)

1.一种电力知识库构建方法,其特征在于:包括,
对语料进行预处理,获得语料文本;
响应于语料文本为非结构化文本,将语料文本输入预先训练的命名实体识别模型,对语料文本中命名实体进行识别;
将命名实体识别后的语料文本输入预先训练的命名实体关系抽取模型,获得命名实体关系数据;
将命名实体关系数据进程存储,构建电力知识库。
2.根据权利要求1所述的一种电力知识库构建方法,其特征在于:响应于语料文本为非结构化文本,将语料文本输入预先训练的命名实体识别模型,对语料文本中命名实体进行识别;响应于语料文本为结构化文本,根据结构信息,获得语料文本中的命名实体关系数据。
3.根据权利要求1所述的一种电力知识库构建方法,其特征在于:对原始语料进行预处理,获得语料文本的过程为,
对语料进行编码转换;
将编码转换后的语料进行繁简转换;
响应于繁简转换后的语料为结构化数据,繁简转换后的语料为语料文本;
响应于繁简转换后的语料为非结构化数据,对繁简转换后的语料依次进行分句、去重、中文分词,获得语料文本。
4.根据权利要求1或2所述的一种电力知识库构建方法,其特征在于:命名实体关系数据包括存在关系的命名实体对、命名实体间的关系词。
5.根据权利要求4所述的一种电力知识库构建方法,其特征在于:命名实体关系抽取模型包括第一抽取模型和第二抽取模块,第一抽取模型从语料文本中抽取命名实体间的关系词,第二抽取模块根据命名实体间的关系词抽取存在关系的命名实体对。
6.根据权利要求1所述的一种电力知识库构建方法,其特征在于:将命名实体关系数据进程存储,构建电力知识库的过程为,
将命名实体关系数据存储至图数据库;
基于图的机器学习方法对存储的图谱进行补全,得到电力知识库。
7.一种电力知识库构建系统,其特征在于:包括,
预处理模块:对语料进行预处理,获得语料文本;
实体识别模块:响应于语料文本为非结构化文本,将语料文本输入预先训练的命名实体识别模型,对语料文本中命名实体进行识别;
实体关系抽取模块:将命名实体识别后的语料文本输入预先训练的命名实体关系抽取模型,获得命名实体关系数据;
存储模块:将命名实体关系数据进程存储,构建电力知识库。
8.根据权利要求7所述的一种电力知识库构建系统,其特征在于:命名实体关系抽取模型包括第一抽取模型和第二抽取模块,第一抽取模型从语料文本中抽取命名实体间的关系词,第二抽取模块根据命名实体间的关系词抽取存在关系的命名实体对。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于:所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至6所述的方法中的任一方法。
10.一种计算设备,其特征在于:包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至6所述的方法中的任一方法的指令。
CN202010630117.3A 2020-07-03 2020-07-03 一种电力知识库构建方法及系统 Active CN111831792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010630117.3A CN111831792B (zh) 2020-07-03 2020-07-03 一种电力知识库构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010630117.3A CN111831792B (zh) 2020-07-03 2020-07-03 一种电力知识库构建方法及系统

Publications (2)

Publication Number Publication Date
CN111831792A true CN111831792A (zh) 2020-10-27
CN111831792B CN111831792B (zh) 2021-08-27

Family

ID=72899668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010630117.3A Active CN111831792B (zh) 2020-07-03 2020-07-03 一种电力知识库构建方法及系统

Country Status (1)

Country Link
CN (1) CN111831792B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115238A (zh) * 2020-10-29 2020-12-22 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112434129A (zh) * 2020-11-20 2021-03-02 内蒙古电力(集团)有限责任公司电力调度控制分公司 一种电网调度领域专业语料库生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784125A (zh) * 2017-11-24 2018-03-09 中国银行股份有限公司 一种实体关系抽取方法及装置
CN108491378A (zh) * 2018-03-08 2018-09-04 国网福建省电力有限公司 电力信息运维智能应答系统
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784125A (zh) * 2017-11-24 2018-03-09 中国银行股份有限公司 一种实体关系抽取方法及装置
CN108491378A (zh) * 2018-03-08 2018-09-04 国网福建省电力有限公司 电力信息运维智能应答系统
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115238A (zh) * 2020-10-29 2020-12-22 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112115238B (zh) * 2020-10-29 2022-11-15 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112434129A (zh) * 2020-11-20 2021-03-02 内蒙古电力(集团)有限责任公司电力调度控制分公司 一种电网调度领域专业语料库生成方法及系统

Also Published As

Publication number Publication date
CN111831792B (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN107315737B (zh) 一种语义逻辑处理方法及系统
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
CN108710704B (zh) 对话状态的确定方法、装置、电子设备及存储介质
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN111831792B (zh) 一种电力知识库构建方法及系统
CN110188359B (zh) 一种文本实体抽取方法
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN114238629A (zh) 一种基于自动提示推荐的语言处理方法、装置及终端
CN113076133A (zh) 基于深度学习的Java程序内部注释的生成方法及系统
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113326367A (zh) 基于端到端文本生成的任务型对话方法和系统
CN110889274B (zh) 信息质量评估方法、装置、设备及计算机可读存储介质
CN117093260B (zh) 一种基于决策树分类算法的融合模型网站结构解析方法
CN107622047B (zh) 一种设计决策知识的提取和表达方法
CN112967710A (zh) 一种低资源客家方言点识别方法
CN111104520A (zh) 一种基于人物身份的人物实体链接方法
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN112926320B (zh) 一种基于主题词优化的文本关键内容智能抽取方法及系统
CN113486160B (zh) 基于跨语言知识的对话方法及系统
CN116483314A (zh) 一种自动化智能活动图生成方法
CN113010676B (zh) 一种文本知识提取方法、装置及自然语言推断系统
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN112015891A (zh) 基于深度神经网络的网络问政平台留言分类的方法及系统
CN117575026B (zh) 基于外部知识增强的大模型推理分析方法、系统及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant