CN115017885A - 一种从电力领域的文本中抽取实体关系的方法 - Google Patents
一种从电力领域的文本中抽取实体关系的方法 Download PDFInfo
- Publication number
- CN115017885A CN115017885A CN202210794586.8A CN202210794586A CN115017885A CN 115017885 A CN115017885 A CN 115017885A CN 202210794586 A CN202210794586 A CN 202210794586A CN 115017885 A CN115017885 A CN 115017885A
- Authority
- CN
- China
- Prior art keywords
- unstructured
- text
- power field
- target text
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种从电力领域的文本中抽取实体关系的方法。方法包括:获取电力领域对应的目标文本,并基于目标文本进行与电力领域相关的结构化分析,确定电力领域对应的非结构化部分,非结构化部分为目标文本中各标题下的文本内容;对非结构化部分对应的非结构化文本进行标引,并基于标引后的非结构化文本确定目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到电力领域对应的目标文本中的知识三元组;基于知识三元组中的各核心动词进行实体关系的标定,以对知识三元组进行优化,得到优化后的知识三元组对应的电力领域实体关系。采用本方法能够提高了电力领域实体关系的抽取质量和效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种从电力领域的文本中抽取实体关系的方法。
背景技术
随着计算机技术的发展,出现了知识图谱技术,知识图谱技术能够把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
目前,电力领域中的知识图谱构建过程中的实体抽取环节,是整个知识图谱构建的核心处理节点,实体抽取的准确率直接影响着知识图谱构建的准确性。由于文本的语法结构复杂,句子冗长,导致在实体抽取环节中存在数据规模过大以及学习能力较低,导致实体抽取的质量较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高了实体抽取的质量的抽取实体关系方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种抽取实体关系方法。所述方法包括:获取电力领域对应的目标文本,并基于所述目标文本进行与所述电力领域相关的结构化分析,确定所述电力领域对应的非结构化部分,所述非结构化部分为所述目标文本中各标题下的文本内容;对所述非结构化部分对应的非结构化文本进行标引,并基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组;基于所述知识三元组中的各核心动词进行所述实体关系的标定,以对所述知识三元组进行优化,得到优化后的所述知识三元组对应的电力领域实体关系。
在其中一个实施例中,所述基于所述目标文本进行与所述电力领域相关的结构化分析,确定所述电力领域对应的非结构化部分,包括:基于所述目标文本进行中文分词,得到中文分词结果,并对所述中文分词结果按照预设的类簇进行归类,得到中文分词归类结果;基于所述中文分词归类结果,确定所述电力领域对应的非结构化部分;和/或,基于所述中文分词归类结果,确定所述电力领域对应的结构化部分。
在其中一个实施例中,所述对所述中文分词结果按照预设的类簇进行归类,得到中文分词归类结果,包括:对所述中文分词结果使用词频-逆向文件频率加权算法进行计算,得到中文分词计算结果,并根据所述中文分词计算结果建立文档-中文分词矩阵;基于文本聚类算法,对所述文档-中文分词矩阵进行降维处理,得到已聚类中文分词;对所述已聚类中文分词按照所述预设的类簇进行归类,得到所述中文分词归类结果。
在其中一个实施例中,所述基于所述中文分词归类结果,确定所述电力领域对应的结构化部分之后,还包括:对所述电力领域对应的结构化部分中的各级标题进行标题内容之间的逻辑关系提取,并对所述标题内容之间具有逻辑关系对应的标题进行标注。
在其中一个实施例中,所述基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组,包括:对基于标引后的所述非结构化文本中的独立的句子,被单向依赖的句子,具有双向依赖的句子进行分词以及词性分析,得到句子分析结果;基于所述句子分析结果,使用句法分析器构建与所述句子分析结果对应的依存句法分析图;对所述依存句法分析图进行自然语言句法分析和语义角色标注,得到所述电力领域对应的目标文本中的知识三元组。
在其中一个实施例中,所述对所述非结构化部分对应的非结构化文本进行标引,并基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组之后,还包括:对所述非结构化部分对应的非结构化文本的补充内容进行判断;若所述非结构化文本的补充内容为名词或者短语,则将所述名词或者短语作为补充知识填充至所述知识三元组;若所述非结构化文本的补充内容为句子,则将所述句子进行关系抽取后加入至所述知识三元组;若所述非结构化文本的补充内容为标点符号,则不添加所述标点符号至所述知识三元组。
第二方面,本申请还提供了一种抽取实体关系装置。所述装置包括:非结构化部分确定模块,用于获取电力领域对应的目标文本,并基于所述目标文本进行与所述电力领域相关的结构化分析,确定所述电力领域对应的非结构化部分,所述非结构化部分为所述目标文本中各标题下的文本内容;知识三元组得到模块,用于对所述非结构化部分对应的非结构化文本进行标引,并基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组;电力领域实体关系得到模块,用于基于所述知识三元组中的各核心动词进行所述实体关系的标定,以对所述知识三元组进行优化,得到优化后的所述知识三元组对应的电力领域实体关系。
在其中一个实施例中,非结构化部分确定模块,还用于基于所述目标文本进行中文分词,得到中文分词结果,并对所述中文分词结果按照预设的类簇进行归类,得到中文分词归类结果;基于所述中文分词归类结果,确定所述电力领域对应的非结构化部分;和/或,基于所述中文分词归类结果,确定所述电力领域对应的结构化部分。
在其中一个实施例中,非结构化部分确定模块,还用于对所述中文分词结果使用词频-逆向文件频率加权算法进行计算,得到中文分词计算结果,并根据所述中文分词计算结果建立文档-中文分词矩阵;基于文本聚类算法,对所述文档-中文分词矩阵进行降维处理,得到已聚类中文分词;对所述已聚类中文分词按照所述预设的类簇进行归类,得到所述中文分词归类结果。
在其中一个实施例中,结构化部分确定模块,还用于对所述电力领域对应的结构化部分中的各级标题进行标题内容之间的逻辑关系提取,并对所述标题内容之间具有逻辑关系对应的标题进行标注。
在其中一个实施例中,知识三元组得到模块,还用于对基于标引后的所述非结构化文本中的独立的句子,被单向依赖的句子,具有双向依赖的句子进行分词以及词性分析,得到句子分析结果;基于所述句子分析结果,使用句法分析器构建与所述句子分析结果对应的依存句法分析图;对所述依存句法分析图进行自然语言句法分析和语义角色标注,得到所述电力领域对应的目标文本中的知识三元组。
在其中一个实施例中,非结构化文本的补充模块,还用于对所述非结构化部分对应的非结构化文本的补充内容进行判断;若所述非结构化文本的补充内容为名词或者短语,则将所述名词或者短语作为补充知识填充至所述知识三元组;若所述非结构化文本的补充内容为句子,则将所述句子进行关系抽取后加入至所述知识三元组;若所述非结构化文本的补充内容为标点符号,则不添加所述标点符号至所述知识三元组。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取电力领域对应的目标文本,并基于所述目标文本进行与所述电力领域相关的结构化分析,确定所述电力领域对应的非结构化部分,所述非结构化部分为所述目标文本中各标题下的文本内容;对所述非结构化部分对应的非结构化文本进行标引,并基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组;基于所述知识三元组中的各核心动词进行所述实体关系的标定,以对所述知识三元组进行优化,得到优化后的所述知识三元组对应的电力领域实体关系。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取电力领域对应的目标文本,并基于所述目标文本进行与所述电力领域相关的结构化分析,确定所述电力领域对应的非结构化部分,所述非结构化部分为所述目标文本中各标题下的文本内容;对所述非结构化部分对应的非结构化文本进行标引,并基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组;基于所述知识三元组中的各核心动词进行所述实体关系的标定,以对所述知识三元组进行优化,得到优化后的所述知识三元组对应的电力领域实体关系。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取电力领域对应的目标文本,并基于所述目标文本进行与所述电力领域相关的结构化分析,确定所述电力领域对应的非结构化部分,所述非结构化部分为所述目标文本中各标题下的文本内容;对所述非结构化部分对应的非结构化文本进行标引,并基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组;基于所述知识三元组中的各核心动词进行所述实体关系的标定,以对所述知识三元组进行优化,得到优化后的所述知识三元组对应的电力领域实体关系。
上述抽取实体关系方法、装置、计算机设备、存储介质和计算机程序产品,通过获取电力领域对应的目标文本,并基于目标文本进行与电力领域相关的结构化分析,确定电力领域对应的非结构化部分,非结构化部分为目标文本中各标题下的文本内容;对非结构化部分对应的非结构化文本进行标引,并基于标引后的非结构化文本确定目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到电力领域对应的目标文本中的知识三元组;基于知识三元组中的各核心动词进行实体关系的标定,以对知识三元组进行优化,得到优化后的知识三元组对应的电力领域实体关系。
通过对电力领域对应目标文本进行结构分析,确定结构化部分和非结构化部分,对结构化部分进行各级标题内容的上下位逻辑关系提取并对具有上下位逻辑关系的标题进行标注,同时对非结构化部分的文本进行标引以对目标文本进行句法分析得到知识三元组。根据知识三元组,构建实体关系,从而克服了电力领域文本的语法结构复杂,句子冗长,导致的实体抽取的质量较低的影响,提高了电力领域实体关系的抽取质量和效率。
附图说明
图1为一个实施例中抽取实体关系方法的应用环境图;
图2为一个实施例中抽取实体关系方法的流程示意图;
图3为一个实施例中确定非结构化部分方法的流程示意图;
图4为一个实施例中得到中文分词归类结果方法的流程示意图;
图5为一个实施例中得到标题标注方法的流程示意图;
图6为一个实施例中得到知识三元组方法的流程示意图;
图7为一个实施例中补充内容进行判断方法的流程示意图;
图8为一个实施例抽取实体关系装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的抽取实体关系方法,可以应用于如图1所示的应用环境中。终端102获取数据,服务器104响应终端102的指令接收终端102的数据,并且对获取得到的数据进行计算,服务器104将数据的计算结果传输回终端102,并且由终端102进行显示。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104从终端102处获取电力领域对应的目标文本,并基于目标文本进行与电力领域相关的结构化分析,确定电力领域对应的非结构化部分,非结构化部分为目标文本中各标题下的文本内容;对非结构化部分对应的非结构化文本进行标引,并基于标引后的非结构化文本确定目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到电力领域对应的目标文本中的知识三元组;基于知识三元组中的各核心动词进行实体关系的标定,以对知识三元组进行优化,得到优化后的知识三元组对应的电力领域实体关系。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种抽取实体关系方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取电力领域对应的目标文本,并基于目标文本进行与电力领域相关的结构化分析,确定电力领域对应的非结构化部分。
其中,目标文本可以是记载电力领域知识的文件,其中,记载的电力领域知识可以是与电力设施基建、高压电输电、电压转变、发电技术以及电力安全等于电力相关的知识。其中,目标文本可以任意结构或者格式的文档,比如为对纸质文档进行ocr识别得到的文件,或者,为网页文件。
其中,结构化分析可以是对电力领域对应的目标文本中的文本内容按类簇归类的过程。
其中,非结构化部分可以是对电力领域对应的目标文本的文本内容按类簇归类后所得到的分类集合。
具体地,服务器响应终端的指令,从终端处获取电力领域对应的目标文本,并且将获取电力领域对应的目标文本存储到存储单元中,当服务器需要对目标文本进行与电力领域相关的结构化分析时,则将配置请求从存储单元中调取至易失性存储资源以供中央处理器进行计算。
在一个实施例中,对目标文本进行与电力领域相关的结构化分析,可分为以下步骤,如图3所示:
步骤302,基于目标文本进行中文分词,得到中文分词结果,并对中文分词结果按照预设的类簇进行归类,得到中文分词归类结果。
其中,中文分词结果可以是对目标文本使用中文的规则和语义进行分割后所得到的结果。
其中,中文分词归类结果可以是对聚类的中文分词按类簇归类后得到的分类结果,该分类结果至少为一个,同时每一个分类结果中包含至少一个已通过分类的中文分词。
具体地,使用中文分词算法对目标文本进行中文分词,得到基于目标文本所对应的中文分词结果。其中,中文分词算法可以是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
在一个实施例中,对中文分词结果按照预设的类簇进行归类,得到中文分词归类结果,可分为以下步骤,如图4所示:
步骤402,对中文分词结果使用词频-逆向文件频率加权算法进行计算,得到中文分词计算结果,并根据中文分词计算结果建立文档-中文分词矩阵。
其中,词频-逆向文件频率加权算法可以是用于对中文分词结果中的内容进行加权,对影响较大的内容增加权重,而对影响较小的内容减小权重,能够使得中文分词计算结果更为优化。
其中,中文分词计算结果可以是中文分词结果通过加权计算后所得到的计算结果,该计算结果可以用于表示中文分词结果中不同的内容所具有的不同的权重。
其中,文档-中文分词矩阵可以是根据中文分词计算结果按照文档为行以及中文分词为列而建立的矩阵。
具体地,对中文分词后的中文分词结果使用词频-逆向文件频率加权算法进行计算,得到中文分词计算结果,其中,词频-逆向文件频率加权算法可以是TF-IDF(termfrequency–inverse document frequency)算法,该算法是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse DocumentFrequency)。基于中文分词计算结果按照文档为行以及中文分词为列而建立文档-中文分词矩阵,其中,文档-中文分词矩阵为N*M矩阵(N个文档M个中文分词)。
步骤404,基于文本聚类算法,对文档-中文分词矩阵进行降维处理,得到已聚类中文分词。
其中,文本聚类算法可以是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小进行聚类的一种算法。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别。
其中,已聚类中文分词可以是通过文本聚类算法进行降维处理后所得到的已经聚类的中文分词,其中,已聚类中文分词中包含至少一个经过聚类的中文分词。
具体地,对文档-中文分词矩阵使用文本聚类算法(K-means算法)进行中文分词进行降维处理,得到已聚类中文分词。其中,K-means算法的表达式如下:
其中,S为样本的聚类,μi则为Si中所有点的均值向量。
对于文本聚类中,文本数据集中的每一个样本,也就是文档,都可以由一个文档特征向量表示,被划分为同一个集合的文档在K-means中也被称之为属于同一个簇(cluster),而用于规定簇的中心点则本称为质心(centroid),当一个向量到某个质心的距离小于其至其他所有质心的距离时,这个向量对应的文档将本划分入质心所对应的簇中。为了在文本数据分析中达到文本聚类的目标,K-means聚类的算法过程通常分为以下步骤:
(1)文本数据集中随机选取K个文档,作为初始的质心;
(2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心对应的簇;
(3)通过求中心向量的方式重新计算已经得到的各个簇的质心;
(4)迭代2~3步直至新的质心与原质心相等或小于指定阈值(或是迭代次数达到外生给定的最大次数),算法结束。
步骤406,对已聚类中文分词按照预设的类簇进行归类,得到中文分词归类结果。
具体地,获取根据业务需求而预定设置的类族分类规则,对已聚类中文分词按照预设的类簇进行归类,得到中文分词归类结果。
步骤304,基于中文分词归类结果,确定电力领域对应的非结构化部分。
具体地,根据中文分词对应的按类簇归类的结果,进一步确定电力领域对应的非结构化部分。
步骤306,和/或,基于中文分词归类结果,确定电力领域对应的结构化部分。
具体地,根据中文分词对应的按类簇归类的结果,进一步确定电力领域对应的结构化部分。
在一个实施例中,对于基于中文分词归类结果,确定电力领域对应的结构化部分之后,还包括如图5所示的步骤:
步骤502,对电力领域对应的结构化部分中的各级标题进行标题内容之间的逻辑关系提取,并对标题内容之间具有逻辑关系对应的标题进行标注。
具体地,对结构化部分进行各级标题进行标题内容之间的上下位逻辑关系提取并对标题内容之间具有上下位逻辑关系的标题进行标注。其中,各级标题可以包括一级标题、二级标题等,上下位逻辑关系比如包括一级标题和二级标题在内容上的上下位逻辑关系。通过上下位逻辑关系的提取,从而可以将具有明显上下位关系的一级标题和二级标题快速的标注出来。在对具有上下位逻辑关系的标题进行标注时,比如,以成对的方式,标注任意一级标题以及该一级标题下的二级标题为一对。
步骤204,对非结构化部分对应的非结构化文本进行标引,并基于标引后的非结构化文本确定目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到电力领域对应的目标文本中的知识三元组。
其中,非结构化文本可以是目标文本中属于非结构化部分对应的文本内容。
具体地,根据结构分析的结果,对非结构化部分对应的目标文本,也就是非结构化文本进行标引。
在一个实施例中,对基于标引后的非结构化文本确定目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到电力领域对应的目标文本中的知识三元组,可分为以下步骤,如图6所示:
步骤602,对基于标引后的非结构化文本中的独立的句子,被单向依赖的句子,具有双向依赖的句子进行分词以及词性分析,得到句子分析结果。
其中,独立的句子可以是非结构化文本中对于上下文没有依赖性的句子,该句子位于文本中为独立性质的存在。
其中,被单向依赖句子可以是非结构化文本中对于上下文其中一个方向具有依赖性的句子,该句子位于文本中为单个方向具有依赖性质的存在。
其中,具有双向依赖句子可以是非结构化文本中对于上下文两个方向都具有依赖性的句子,该句子位于文本中为两个个方向具有依赖性质的存在。
其中,句子分析结果可以是对非结构化文本中的不同性质的句子进行粉刺以及词性分析后所得到的结果。
具体地,针对标引后的非结构化文本中的三种性质的句子(分别为独立的句子,被单向依赖的句子,具有双向依赖的句子)中的词语进行分词以及词性分析,得到针对每一个句子对应的句子分析结果。
步骤604,基于句子分析结果,使用句法分析器构建与句子分析结果对应的依存句法分析图。
其中,句法分析器可以是按照语言规则分析句子的句法结构的计算机程序,针对不同的语言有着不同的语言规则。
其中,依存句法分析图可以是分析句子的语法结构并将其表示为容易理解的结构(通常是树形结构)的分析图。
具体地,对于句子分析结果,使用句法分析器对句子分析结果进行依存句法分析图的构建,得到句子分析结果所对应的依存句法分析图。其中,依存句法分析图是一个有向图G=(V,A),V代表节点,句子中的每一个词都对于一个节点。而A表示有向边(Arc),表示词之间的有依存关系,边有一个标签表示具体的依存关系(比如prefer与I是nsub的关系)。
步骤606,对依存句法分析图进行自然语言句法分析和语义角色标注,得到电力领域对应的目标文本中的知识三元组。
其中,自然语言句法分析可以是自然语言处理中对句法进行分析的一个任务,其目标就是分析句子的语法结构并将其表示为容易理解的结构。
其中,语义角色标注可以是以句子的谓词为中心,研究句子中各成分与谓词之间的关系,并且用语义角色来描述各成分与谓语之间的关系。
其中,知识三元组可以是知识图谱三元组,使用实体、类型、属性、关系、域、值进行描述。
具体地,对依存句法分析图句法进行分析,使得句子的语法结构能够表示为容易理解的结构,并且用语义角色标注来描述各成分与谓语之间的关系,得到关于电力领域对应的目标文本中的知识三元组。
在一个实施例中,对非结构化部分对应的非结构化文本进行标引,并基于标引后的非结构化文本确定目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到电力领域对应的目标文本中的知识三元组之后,包括以下步骤,如图7所示:
步骤702,对非结构化部分对应的非结构化文本的补充内容进行判断。
具体地,针对非结构化部分对应的非结构化文本对应的补充内容进行判断,判断结果可以为补充内容为名词或者短语,补充内容为句子以及补充内容为标点符号。
步骤704,若非结构化文本的补充内容为名词或者短语,则将名词或者短语作为补充知识填充至知识三元组。
具体地,如果对非结构化部分对应的非结构化文本对应的补充内容进行判断的结果是补充内容为名词或者短语,则将补充内容中的名词或者短语作为补充知识填充到知识三元组中。
步骤706,若非结构化文本的补充内容为句子,则将句子进行关系抽取后加入至知识三元组。
具体地,如果对非结构化部分对应的非结构化文本对应的补充内容进行判断的结果是补充内容为句子,则将补充内容中的句子进行关系抽取后加入到知识三元组中。
步骤708,若非结构化文本的补充内容为标点符号,则不添加标点符号至知识三元组。
具体地,如果对非结构化部分对应的非结构化文本对应的补充内容进行判断的结果是补充内容为标点符号,则将补充内容中的标点符号舍去,不添加标点符号至知识三元组中。
在一个实施例中,具体地,上述实施例中,知识三元组的结构可以为《实体,实体动作,实体描述》。
实体是本体、实例及关系的整合,比如“人”是本体框中的一个概念,概念中也规定了相关属性比如“性别”,小明是一个具体的人,叫做实例,所以小明也有性别,小明以及体现小明的本体概念“人”以及相关属性,叫做一个实体(简单的说就是:本体+实例)。
具体地,在执行加入到知识三元组中时,可以分析该句子与知识三元组中已有句子是否存在定中关系,若存在定中关系,则将句子添加到知识三元组中。
具体地,分析该句子与知识三元组中已有句子是否存在定中关系,可以包括:通过分析该句子与句法分析图中每个分析结果是否存在定中关系,确定该句子与知识三元组中已有句子是否存在定中关系,从而保证方案实施的有序性,提高数据处理的效率。
步骤206,基于知识三元组中的各核心动词进行实体关系的标定,以对知识三元组进行优化,得到优化后的知识三元组对应的电力领域实体关系。
其中,电力领域的实体关系可以是电力领域中的知识三元组里面所表达的各个实体之间的关系。
具体地,根据知识三元组中的各个核心动词之间的关系进一步标定知识三元组中的实体关系,以用作对知识三元组中的各元素进行优化,得到优化后的知识三元组对应的电力领域实体关系。
上述抽取实体关系方法中,通过获取电力领域对应的目标文本,并基于目标文本进行与电力领域相关的结构化分析,确定电力领域对应的非结构化部分,非结构化部分为目标文本中各标题下的文本内容;对非结构化部分对应的非结构化文本进行标引,并基于标引后的非结构化文本确定目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到电力领域对应的目标文本中的知识三元组;基于知识三元组中的各核心动词进行实体关系的标定,以对知识三元组进行优化,得到优化后的知识三元组对应的电力领域实体关系。
通过对电力领域对应目标文本进行结构分析,确定结构化部分和非结构化部分,对结构化部分进行各级标题内容的上下位逻辑关系提取并对具有上下位逻辑关系的标题进行标注,同时对非结构化部分的文本进行标引以对目标文本进行句法分析得到知识三元组。根据知识三元组,构建实体关系,从而克服了电力领域文本的语法结构复杂,句子冗长,导致的实体抽取的质量较低的影响,提高了电力领域实体关系的抽取质量和效率。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的抽取实体关系方法的抽取实体关系装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个抽取实体关系装置实施例中的具体限定可以参见上文中对于抽取实体关系方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种抽取实体关系装置,包括:非结构化部分确定模块、知识三元组得到模块和电力领域实体关系得到模块,其中:
非结构化部分确定模块802,用于获取电力领域对应的目标文本,并基于目标文本进行与电力领域相关的结构化分析,确定电力领域对应的非结构化部分,非结构化部分为目标文本中各标题下的文本内容;
知识三元组得到模块804,用于对非结构化部分对应的非结构化文本进行标引,并基于标引后的非结构化文本确定目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到电力领域对应的目标文本中的知识三元组;
电力领域实体关系得到模块806,用于基于知识三元组中的各核心动词进行实体关系的标定,以对知识三元组进行优化,得到优化后的知识三元组对应的电力领域实体关系。
在其中一个实施例中,非结构化部分确定模块,还用于基于目标文本进行中文分词,得到中文分词结果,并对中文分词结果按照预设的类簇进行归类,得到中文分词归类结果;基于中文分词归类结果,确定电力领域对应的非结构化部分;和/或,基于中文分词归类结果,确定电力领域对应的结构化部分。
在其中一个实施例中,非结构化部分确定模块,还用于对中文分词结果使用词频-逆向文件频率加权算法进行计算,得到中文分词计算结果,并根据中文分词计算结果建立文档-中文分词矩阵;基于文本聚类算法,对文档-中文分词矩阵进行降维处理,得到已聚类中文分词;对已聚类中文分词按照预设的类簇进行归类,得到中文分词归类结果。
在其中一个实施例中,结构化部分确定模块,还用于对电力领域对应的结构化部分中的各级标题进行标题内容之间的逻辑关系提取,并对标题内容之间具有逻辑关系对应的标题进行标注。
在其中一个实施例中,知识三元组得到模块,还用于对基于标引后的非结构化文本中的独立的句子,被单向依赖的句子,具有双向依赖的句子进行分词以及词性分析,得到句子分析结果;基于句子分析结果,使用句法分析器构建与句子分析结果对应的依存句法分析图;对依存句法分析图进行自然语言句法分析和语义角色标注,得到电力领域对应的目标文本中的知识三元组。
在其中一个实施例中,非结构化文本的补充模块,还用于对非结构化部分对应的非结构化文本的补充内容进行判断;若非结构化文本的补充内容为名词或者短语,则将名词或者短语作为补充知识填充至知识三元组;若非结构化文本的补充内容为句子,则将句子进行关系抽取后加入至知识三元组;若非结构化文本的补充内容为标点符号,则不添加标点符号至知识三元组。
上述抽取实体关系装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储服务器数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种抽取实体关系方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本中抽取实体关系方法,其特征在于,所述方法包括:
获取电力领域对应的目标文本,并基于所述目标文本进行与所述电力领域相关的结构化分析,确定所述电力领域对应的非结构化部分,所述非结构化部分为所述目标文本中各标题下的文本内容;
对所述非结构化部分对应的非结构化文本进行标引,并基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组;
基于所述知识三元组中的各核心动词进行所述实体关系的标定,以对所述知识三元组进行优化,得到优化后的所述知识三元组对应的电力领域实体关系。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本进行与所述电力领域相关的结构化分析,确定所述电力领域对应的非结构化部分,包括:
基于所述目标文本进行中文分词,得到中文分词结果,并对所述中文分词结果按照预设的类簇进行归类,得到中文分词归类结果;
基于所述中文分词归类结果,确定所述电力领域对应的非结构化部分;
和/或,
基于所述中文分词归类结果,确定所述电力领域对应的结构化部分。
3.根据权利要求2所述的方法,其特征在于,所述对所述中文分词结果按照预设的类簇进行归类,得到中文分词归类结果,包括:
对所述中文分词结果使用词频-逆向文件频率加权算法进行计算,得到中文分词计算结果,并根据所述中文分词计算结果建立文档-中文分词矩阵;
基于文本聚类算法,对所述文档-中文分词矩阵进行降维处理,得到已聚类中文分词;
对所述已聚类中文分词按照所述预设的类簇进行归类,得到所述中文分词归类结果。
4.根据权利要求2所述的方法,其特征在于,所述基于所述中文分词归类结果,确定所述电力领域对应的结构化部分之后,还包括:
对所述电力领域对应的结构化部分中的各级标题进行标题内容之间的逻辑关系提取,并对所述标题内容之间具有逻辑关系对应的标题进行标注。
5.根据权利要求1所述的方法,其特征在于,所述基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组,包括:
对基于标引后的所述非结构化文本中的独立的句子,被单向依赖的句子,具有双向依赖的句子进行分词以及词性分析,得到句子分析结果;
基于所述句子分析结果,使用句法分析器构建与所述句子分析结果对应的依存句法分析图;
对所述依存句法分析图进行自然语言句法分析和语义角色标注,得到所述电力领域对应的目标文本中的知识三元组。
6.根据权利要求1所述的方法,其特征在于,所述对所述非结构化部分对应的非结构化文本进行标引,并基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组之后,还包括:
对所述非结构化部分对应的非结构化文本的补充内容进行判断;
若所述非结构化文本的补充内容为名词或者短语,则将所述名词或者短语作为补充知识填充至所述知识三元组;
若所述非结构化文本的补充内容为句子,则将所述句子进行关系抽取后加入至所述知识三元组;
若所述非结构化文本的补充内容为标点符号,则不添加所述标点符号至所述知识三元组。
7.一种抽取实体关系装置,其特征在于,所述装置包括:
非结构化部分确定模块,用于获取电力领域对应的目标文本,并基于所述目标文本进行与所述电力领域相关的结构化分析,确定所述电力领域对应的非结构化部分,所述非结构化部分为所述目标文本中各标题下的文本内容;
知识三元组得到模块,用于对所述非结构化部分对应的非结构化文本进行标引,并基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组;
电力领域实体关系得到模块,用于基于所述知识三元组中的各核心动词进行所述实体关系的标定,以对所述知识三元组进行优化,得到优化后的所述知识三元组对应的电力领域实体关系。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210794586.8A CN115017885A (zh) | 2022-07-07 | 2022-07-07 | 一种从电力领域的文本中抽取实体关系的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210794586.8A CN115017885A (zh) | 2022-07-07 | 2022-07-07 | 一种从电力领域的文本中抽取实体关系的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115017885A true CN115017885A (zh) | 2022-09-06 |
Family
ID=83078982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210794586.8A Pending CN115017885A (zh) | 2022-07-07 | 2022-07-07 | 一种从电力领域的文本中抽取实体关系的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017885A (zh) |
-
2022
- 2022-07-07 CN CN202210794586.8A patent/CN115017885A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11675977B2 (en) | Intelligent system that dynamically improves its knowledge and code-base for natural language understanding | |
WO2022022045A1 (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
US9892111B2 (en) | Method and device to estimate similarity between documents having multiple segments | |
US10025819B2 (en) | Generating a query statement based on unstructured input | |
JP5936698B2 (ja) | 単語意味関係抽出装置 | |
US9183274B1 (en) | System, methods, and data structure for representing object and properties associations | |
US9495358B2 (en) | Cross-language text clustering | |
US8224641B2 (en) | Language identification for documents containing multiple languages | |
US9189482B2 (en) | Similar document search | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
Bansal et al. | Hybrid attribute based sentiment classification of online reviews for consumer intelligence | |
US20160188568A1 (en) | System and method for determining the meaning of a document with respect to a concept | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN108319583B (zh) | 从中文语料库提取知识的方法与系统 | |
US9235573B2 (en) | Universal difference measure | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
US8224642B2 (en) | Automated identification of documents as not belonging to any language | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
CN116151258A (zh) | 文本消岐方法、电子设备、存储介质 | |
Mekki et al. | Tokenization of Tunisian Arabic: a comparison between three Machine Learning models | |
CN115048536A (zh) | 知识图谱生成方法、装置、计算机设备和存储介质 | |
CN115017885A (zh) | 一种从电力领域的文本中抽取实体关系的方法 | |
Gayen et al. | Automatic identification of Bengali noun-noun compounds using random forest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |