CN110162792A - 电网数据管理方法及装置 - Google Patents

电网数据管理方法及装置 Download PDF

Info

Publication number
CN110162792A
CN110162792A CN201910441686.0A CN201910441686A CN110162792A CN 110162792 A CN110162792 A CN 110162792A CN 201910441686 A CN201910441686 A CN 201910441686A CN 110162792 A CN110162792 A CN 110162792A
Authority
CN
China
Prior art keywords
sentence
power grid
entity
model
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910441686.0A
Other languages
English (en)
Inventor
华召云
张淑娟
王潇
李周
蔡翔
陈清萍
袁方
王萍
钱光超
王鑫
梅峰
陈政波
褚大可
江樱
张福华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201910441686.0A priority Critical patent/CN110162792A/zh
Publication of CN110162792A publication Critical patent/CN110162792A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种电网数据管理方法及装置,本申请通过对待处理文本数据进行文本预处理,并对预处理后的待处理文本数据进行实体识别,而后基于预先构建的电网实体关系抽取模型对从预处理后的待处理文本数据中识别出的所有实体词进行电网实体关系抽取,从而基于识别出的所有实体词及抽取出的电网实体关系,构建出与待处理文本数据对应的电网数据模型,以通过该电网数据模型提高电网数据管理过程的数据管理质量及数据管理效率。其中,所述电网实体关系抽取模型基于电网语料文本数据以及与预设的电网实体关系种类对应的特征提取模型训练得到,本申请通过电网实体关系抽取模型降低了工作管理人员在数据统筹过程及价值挖掘过程中的人工参与度。

Description

电网数据管理方法及装置
技术领域
本申请涉及信息化建设技术领域,具体而言,涉及一种电网数据管理方法及装置。
背景技术
随着科学技术的不断发展,各行业的信息化建设在逐步加快,各行业在数据管理业务及数据挖掘业务上有了更高的需求,其中尤以电力行业最为突出。
目前,电力行业的信息化建设尚且处于初步阶段,在对电网系统产生的数据进行统筹管理及挖掘数据资源价值时需要工作管理人员对电网数据进行大量的人工操作,从而导致电网数据的数据管理质量及数据管理效率整体不高。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种电网数据管理方法及装置,其能够基于预先构建出的用于抽取电网实体关系的电网实体关系抽取模型,在电网数据管理过程中对待处理文本数据进行电网实体关系抽取,以降低人工参与度,并提高针对电网数据的数据管理质量及数据管理效率。
就方法而言,本申请实施例提供一种电网数据管理生成方法,所述方法包括:
获取待处理文本数据,并对获取到的待处理文本数据进行文本预处理;
对预处理后的待处理文本数据进行实体识别,并根据预先构建的电网实体关系抽取模型对识别出的所有实体词进行电网实体关系抽取,其中所述电网实体关系抽取模型基于电网语料文本数据以及与预设的电网实体关系种类对应的特征提取模型构建形成;
根据识别出的所有实体词及抽取出的电网实体关系,构建出与所述待处理文本数据对应的电网数据模型。
就装置而言,本申请实施例提供一种电网数据管理装置,所述装置包括:
文本预处理模块,用于获取待处理文本数据,并对获取到的待处理文本数据进行文本预处理;
电网关系抽取模块,用于对预处理后的待处理文本数据进行实体识别,并根据预先构建的电网实体关系抽取模型对识别出的所有实体词进行电网实体关系抽取,其中所述电网实体关系抽取模型基于电网语料文本数据以及与预设的电网实体关系种类对应的特征提取模型构建形成;
数据模型构建模块,用于根据识别出的所有实体词及抽取出的电网实体关系,构建出与所述待处理文本数据对应的电网数据模型。
相对于现有技术而言,本申请具有以下有益效果:
本申请通过对待处理文本数据进行文本预处理,并对预处理后的待处理文本数据进行实体识别,而后基于预先构建的电网实体关系抽取模型对从所述预处理后的待处理文本数据中识别出的所有实体词进行电网实体关系抽取,从而基于识别出的所有实体词及抽取出的电网实体关系,构建出与所述待处理文本数据对应的电网数据模型,以通过该电网数据模型提高电网数据管理过程的数据管理质量及数据管理效率。其中,所述电网实体关系抽取模型是基于电网语料文本数据以及与预设的电网实体关系种类对应的特征提取模型训练得到的,本申请通过所述电网实体关系抽取模型降低了工作管理人员在数据统筹过程及价值挖掘过程中的人工参与度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举本申请较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的数据管理设备的方框示意图;
图2为本申请实施例提供的电网数据管理方法的流程示意图;
图3为本申请实施例提供的构建电网关系抽取模型的流程示意图;
图4为图3中的步骤S230包括的子步骤的流程示意图;
图5为图3中的步骤S240包括的子步骤的流程示意图;
图6为图3中的步骤S250包括的子步骤的流程示意图;
图7为本申请实施例提供的电网数据管理装置的方框示意图之一;
图8为本申请实施例提供的电网数据管理装置的方框示意图之二。
图标:10-数据管理设备;11-存储器;12-处理器;13-通信单元;100-电网数据管理装置;160-文本预处理模块;170-电网关系抽取模块;180-数据模型构建模块;110-语料预处理模块;120-实体词识别模块;130-关系标注模块;140-语句向量化模块;150-抽取模型训练模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1是本申请实施例提供的数据管理设备10的方框示意图。在本申请实施例中,所述数据管理设备10可用于针对电网系统进行电网实体关系抽取模型训练,并通过训练好的电网实体关系抽取模型在电网数据管理过程中对待处理的电网文本数据进行实体关系抽取,从而降低电网数据管理过程中的人工参与度,提高数据管理质量及数据管理效率。其中,所述电网实体关系抽取模型用于抽取与电力行业相关的实体关系,所述数据管理设备10可以是,但不限于,服务器、个人电脑(personal computer,PC)、平板电脑、个人数字助理(personal digital assistant,PDA)、移动上网设备(mobile Internetdevice,MID)等。
在本实施例中,所述数据管理设备10包括存储器11、处理器12、通信单元13及电网数据管理装置100。所述存储器11、处理器12及通信单元13各个元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,所述存储器11、处理器12及通信单元13这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
在本实施例中,所述存储器11可用于存储与电力行业相关的电网实体关系种类的相关信息,其中所述电网实体关系种类可以包括地域管理关系、配电管理关系、电网器件搭配关系等。所述存储器11还可用于存储卷积神经网络(Convolutional Neural Networks,CNN)模型及分类器模型,所述数据管理设备10通过所述卷积神经网络及所述分类器模型训练得到对应的电网实体关系抽取模型。所述存储器11还可用于存储程序,所述处理器12在接收到执行指令后,可相应地执行所述程序。
在本实施例中,所述处理器12可以是一种具有信号的处理能力的集成电路芯片。所述处理器12可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)及网络处理器(Network Processor,NP)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。
在本实施例中,所述通信单元13用于通过网络建立所述数据管理设备10与其他终端设备之间的通信连接,并通过所述网络收发数据。例如,所述数据管理设备10通过所述通信单元13接收由其他终端设备发送的用于训练电网实体关系抽取模型的电网语料文本数据,或待处理的电网文本数据。
在本实施例中,所述电网数据管理装置100包括至少一个能够以软件或固件的形式存储于所述存储器11中或固化在所述数据管理设备10的操作系统中的软件功能模块。所述处理器12可用于执行所述存储器11存储的可执行模块,例如所述电网数据管理装置100所包括软件功能模块及计算机程序等。
可以理解的是,图1所示的方框示意图仅为数据管理设备10的一种结构组成示意图,所述数据管理设备10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参照图2,图2是本申请实施例提供的电网数据管理方法的流程示意图。在本申请实施例中,所述电网数据管理方法应用于上述的数据管理设备10,下面对图2所示的电网数据管理方法的具体流程和步骤进行详细阐述。
步骤S207,获取待处理文本数据,并对获取到的待处理文本数据进行文本预处理。
在本实施例中,所述待处理文本数据为需要进行电网数据管理的文本数据。所述数据管理设备10在获得所述待处理文本数据后,可通过依次对所述待处理文本数据进行分句处理及分词处理,得到所述待处理文本数据包括的所有语句及每条语句包括的所有词语,从而完成对所述待处理文本数据的文本预处理操作。
步骤S208,对预处理后的待处理文本数据进行实体识别,并根据预先构建的电网实体关系抽取模型对识别出的所有实体词进行电网实体关系抽取。
在本实施例中,所述电网实体关系模型是由所述数据管理设备10通过对电网语料文本数据进行语料标注,并基于标注结果及预设的电网实体关系种类对应的特征提取模型进行模型训练的方式构建形成的,该电网实体关系模型用于抽取与电网系统相关的电网实体关系。
步骤S209,根据识别出的所有实体词及抽取出的电网实体关系,构建出与所述待处理文本数据对应的电网数据模型。
在本实施例中,所述数据管理设备10在得到与所述待处理文本数据对应的所有实体词及电网实体关系后,将在得到的所有实体词及电网实体关系之间进行数据关联处理,以通过识别出的所有实体词及抽取出的电网实体关系形成对应的电网数据模型,使电网系统的工作管理人员可直接基于该电网数据模型提高整个电网数据管理过程的数据管理质量及数据管理效率,并在数据统筹过程及价值挖掘过程中降低人工参与度。
在本申请实施例中,在所述步骤S207之前,所述电网数据管理方法还可以包括构建电网关系抽取模型的步骤。可选地,请参照图3,图3是本申请实施例提供的构建电网关系抽取模型的流程示意图,其中所述电网关系抽取模型的构建过程可以包括如下步骤:
步骤S210,获取电网语料文本数据,并对获取到的所述电网语料文本数据进行文本预处理。
在本实施例中,所述电网语料文本数据为与电网系统相关的语料文本数据。所述数据管理设备10在获取到所述电网语料文本数据后,将对所述电网语料文本数据进行文本预处理,得到所述电网语料文本数据包括的所有语句,及每条语句包括的所有词语。
进一步地,所述获取到的所述电网语料文本数据进行文本预处理的步骤包括:
依次对所述电网语料文本数据进行去重处理、去噪处理、分句处理及分词处理,得到所述电网语料文本数据包括的所有语句,及每条语句包括的所有词语。
其中,所述去重处理用于去掉所述电网语料文本数据中重复的信息,以精简所述电网语料文本数据的质量;所述去噪处理用于去掉所述电网语料文本数据中存在的表格、连接、图片等干扰信息;所述分句处理用于以句号作为标志对已完成去重处理及去噪处理的所述电网语料文本数据进行分句;所述分词处理用于对分句处理后的所述电网语料文本数据中的每条语句进行分词。在本实施例的一种实施方式中,所述分词处理可采用ICTCLAS((Institute of Computing Technology,Chinese Lexical Analysis System,汉语词法分析系统)分词工具实现。
步骤S220,对预处理后的所述电网语料文本数据中的每条语句进行实体识别,确定出每条语句中的所有实体词,及每个实体词在对应语句中的位置信息。
在本实施例中,所述实体词为具体名词与代词,所述数据管理设备10可基于预先训练好的命名实体识别模型对预处理后的所述电网语料文本数据中的每条语句进行实体识别,从而确定出每条语句中的所有实体词,以及每条语句中各实体词的位置信息。在本实施例的一种实施方式中,所述命名实体识别模型可基于BLTM(Bi-directional Long-shortTerm Memory,双向长短记忆网络)模型及CRF(Conditional Random Field,条件随机场)模型训练得到,其中所述BLTM模型可用于自动提取实体特征,所述CRF模型可基于所述BLTM模型提取到的实体特征逐步调整自身特征函数的权重。
步骤S230,根据预设的电网实体关系种类对所述电网语料文本数据中的所有实体词进行关系标注,得到每条语句对应的关系标注结果。
在本实施例中,所述数据管理设备10在确定出所述电网语料文本数据中的所有实体词后,会根据预设的电网实体关系种类对所述所有实体词进行关系标注,得到所述电网语料文本数据中每条语句对应的关系标注结果。
可选地,请参照图4,图4是图3中的步骤S230包括的子步骤的流程示意图。在本实施例中,所述步骤S230可以包括子步骤S231及子步骤S232。
子步骤S231,针对所述电网语料文本数据中的每条语句,将该语句中的每个实体词与其他实体词依次按照每个电网实体关系种类进行关系匹配。
在本实施例中,所述数据管理设备10通过对得到的每条语句中的每个实体词与对应语句中的其他实体词进行关系匹配,并将匹配结果与预设的每个电网实体关系种类进行比对,以将判断参与关系匹配的两个实体词所对应的关系是属于预设的电网实体关系种类中的哪一个电网实体关系种类。
子步骤S232,若关系匹配成功,则将关系匹配成功的两个实体词按照对应的电网实体关系种类进行关系标注,并基于半监督学习算法将针对所述两个实体词的标注结果同步更新到所述电网语料文本数据中的其他语句处,以得到每条语句对应的关系标注结果。
在本实施例中,当同一语句中的两个实体词之间的关系匹配成功时,所述数据管理设备10将直接按照对应的电网实体关系种类对关系匹配成功的两个实体词进行关系标注,并基于半监督学习算法将针对所述两个实体词的标注结果同步更新到所述电网语料文本数据中的其他语句中,以将所述其他语句中存在的所述两个实体词按照所述标注结果进行关系标注,以得到每条语句对应的关系标注结果。
步骤S240,根据每条语句的关系标注结果及该语句中的每个实体词的位置信息,对该语句进行向量化处理,得到每条语句对应的语句向量矩阵。
在本实施例中,所述语句向量矩阵用于表示对应语句中各实体词的关系标注情况及位置分布情况。
可选地,请参照图5,图5是图3中的步骤S240包括的子步骤的流程示意图。在本实施例中,所述步骤S240可以包括子步骤S241、子步骤S242及子步骤S243。
子步骤S241,针对所述电网语料文本数据中的每条语句,根据该语句的关系标注结果对该语句中的每个实体词进行词向量化处理,得到该语句中每个实体词对应的原始词向量。
子步骤S242,对该语句中每个实体词的位置信息进行向量化处理,得到该语句中每个实体词对应的位置向量。
子步骤S243,将该语句中每个实体词对应的原始词向量及位置向量进行拼接整合,得到该语句对应的语句向量矩阵。
其中,所述语句向量矩阵将对应语句中的各实体词的原始词向量排布成所述语句向量矩阵的第一列,将对应语句中的各实体词的位置向量排布成所述语句向量矩阵的第二列,并确保同一实体词对应的原始词向量及位置向量处于所述语句向量矩阵的同一行。
步骤S250,将所述电网语料文本数据中的每条语句对应的语句向量矩阵依次输入到与预设的所述电网实体关系种类对应的特征提取模型中进行训练,得到对应的电网实体关系抽取模型。
在本实施例中,所述特征提取模型包括卷积神经网络模型及分类器模型,所述数据管理设备10通过对所述卷积神经网络模型及所述分类器模型进行训练,以结合训练后的所述卷积神经网络模型及所述分类器模型形成得到对应的电网实体关系抽取模型。在本实施例的一种实施方式中,所述分类器模型为softmax分类器。
可选地,请参照图6,图6是图3中的步骤S250包括的子步骤的流程示意图。在本实施例中,所述步骤S250可以包括子步骤S251、子步骤S252、子步骤S253及子步骤S254。
子步骤S251,根据所述电网语料文本数据中各语句的排列顺序,依次将每条语句对应的语句向量矩阵输入到卷积神经网络模型中,并训练所述卷积神经网络模型通过卷积层得到与该语句向量矩阵对应的关系卷积向量。
子步骤S252,训练所述卷积神经网络模型通过池化层对该语句对应的关系卷积向量进行三段式划分,并提取出每段关系卷积向量中的最大池化向量。
在本实施例中,所述数据管理设备10通过训练所述卷积神经网络模型,使该卷积神经网络模型按照该语句中各实体词的位置信息将该语句对应的关系卷积向量进行三段式划分,并通过池化层提取出每段关系卷积向量中的最大池化向量。
子步骤S253,将与该语句对应的三段关系卷积向量各自对应的最大池化向量依次输入到分类器模型,训练所述分类器模型按照预设的电网实体关系种类对输入的最大池化向量进行维度转换。
在本实施例中,所述数据管理设备10通过将每条语句的经所述卷积神经网络模型处理得到的三段关系卷积向量各自对应的最大池化向量,依次输入到所述分类器模型中,并训练所述分类器模型按照预设的电网实体关系种类对每个输入的最大池化向量进行维度转换,得到每个输入的最大池化向量所对应的维度转换结果,其中每个维度转换结果包括与输入的最大池化向量对应的数目与所述预设的电网实体关系种类相同的维度分量。而后训练后的所述分类器模型会从每个输入的最大池化向量所对应的维度转换结果中,选取数值最大的维度分量所对应的电网实体关系种类,作为对应语句中的与所述最大池化向量对应的实体词的电网实体关系。
子步骤S254,将训练后的所述卷积神经网络模型与训练后的所述分类器模型进行模型结合,得到所述电网实体关系抽取模型。
在本实施例中,所述数据管理设备10在将所述卷积神经网络模型及所述分类器模型训练完成后,通过将训练后的所述卷积神经网络模型与所述分类器模型进行模型结合,得到用于在电网数据管理过程中进行电网实体关系抽取的电网实体关系抽取模型,从而基于训练好的电网实体关系抽取模型降低电网数据管理过程中的人工参与度,提高数据管理质量及数据管理效率。
请参照图7,图7是本申请实施例提供的电网数据管理装置100的方框示意图之一。在本申请实施例中,所述电网数据管理装置100包括文本预处理模块160、电网关系抽取模块170及数据模型构建模块180。
所述文本预处理模块160,用于获取待处理文本数据,并对获取到的待处理文本数据进行文本预处理。
所述电网关系抽取模块170,用于对预处理后的待处理文本数据进行实体识别,并根据预先构建的电网实体关系抽取模型对识别出的所有实体词进行电网实体关系抽取,其中所述电网实体关系抽取模型基于电网语料文本数据以及与预设的电网实体关系种类对应的特征提取模型构建形成。
所述数据模型构建模块180,用于根据识别出的所有实体词及抽取出的电网实体关系,构建出与所述待处理文本数据对应的电网数据模型。
在本实施例中,所述文本预处理模块160、所述电网关系抽取模块170及所述数据模型构建模块180可以分别执行图2中的步骤S207、步骤S208及步骤S209,具体的执行过程可参照上文中对步骤S207、步骤S208及步骤S209的详细描述。
请参照图8,图8是本申请实施例提供的电网数据管理装置100的方框示意图之二。在本申请实施例中,所述电网数据管理装置100还包括用于构建电网实体关系抽取模型的语料预处理模块110、实体词识别模块120、关系标注模块130、语句向量化模块140及抽取模型训练模块150。
所述语料预处理模块110,用于获取电网语料文本数据,并对获取到的所述电网语料文本数据进行文本预处理。
在本实施例中,所述语料预处理模块110对获取到的所述电网语料文本数据进行文本预处理的方式包括:
依次对所述电网语料文本数据进行去重处理、去噪处理、分句处理及分词处理,得到所述电网语料文本数据包括的所有语句,及每条语句包括的所有词语。
其中,所述语料预处理模块110可以执行图3中的步骤S210,具体的执行过程可参照上文中对步骤S210的详细描述。
所述实体词识别模块120,用于对预处理后的所述电网语料文本数据中的每条语句进行实体识别,确定出每条语句中的所有实体词,及每个实体词在对应语句中的位置信息。
在本实施例中,所述实体词识别模块120可以执行图3中的步骤S220,具体的执行过程可参照上文中对步骤S220的详细描述。
所述关系标注模块130,用于根据预设的电网实体关系种类对所述电网语料文本数据中的所有实体词进行关系标注,得到每条语句对应的关系标注结果。
在本实施例中,所述关系标注模块130根据预设的电网实体关系种类对所述电网语料文本数据中的所有实体词进行关系标注,得到每条语句对应的关系标注结果的方式,包括:
针对所述电网语料文本数据中的每条语句,将该语句中的每个实体词与其他实体词依次按照每个电网实体关系种类进行关系匹配;
若关系匹配成功,则将关系匹配成功的两个实体词按照对应的电网实体关系种类进行关系标注,并基于半监督学习算法将针对所述两个实体词的标注结果同步更新到所述电网语料文本数据中的其他语句处,以得到每条语句对应的关系标注结果。
其中,所述关系标注模块130可以执行图3中的步骤S230以及图4中的子步骤S231和子步骤S232,具体的执行过程可参照上文中对步骤S230、子步骤S231及子步骤S232的详细描述。
所述语句向量化模块140,用于根据每条语句的关系标注结果及该语句中的每个实体词的位置信息,对该语句进行向量化处理,得到每条语句对应的语句向量矩阵。
在本实施例中,所述语句向量化模块140根据每条语句的关系标注结果及该语句中的每个实体词的位置信息,对该语句进行向量化处理,得到每条语句对应的语句向量矩阵的方式,包括:
针对所述电网语料文本数据中的每条语句,根据该语句的关系标注结果对该语句中的每个实体词进行词向量化处理,得到该语句中每个实体词对应的原始词向量;
对该语句中每个实体词的位置信息进行向量化处理,得到该语句中每个实体词对应的位置向量;
将该语句中每个实体词对应的原始词向量及位置向量进行拼接整合,得到该语句对应的语句向量矩阵。
其中,所述语句向量化模块140可以执行图3中的步骤S240以及图5中的子步骤S241、子步骤S242及子步骤S243,具体的执行过程可参照上文中对步骤S240、子步骤S241、子步骤S242及子步骤S243的详细描述。
所述抽取模型训练模块150,用于将所述电网语料文本数据中的每条语句对应的语句向量矩阵依次输入到与预设的所述电网实体关系种类对应的特征提取模型中进行训练,得到对应的电网实体关系抽取模型。
在本实施例中,所述特征提取模型包括卷积神经网络模型及分类器模型,所述抽取模型训练模块150将所述电网语料文本数据中的每条语句对应的语句向量矩阵依次输入到与预设的所述电网实体关系种类对应的特征提取模型中进行训练,得到对应的电网实体关系抽取模型的方式,包括:
根据所述电网语料文本数据中各语句的排列顺序,依次将每条语句对应的语句向量矩阵输入到所述卷积神经网络模型中,并训练所述卷积神经网络模型通过卷积层得到与该语句向量矩阵对应的关系卷积向量;
训练所述卷积神经网络模型通过池化层对该语句对应的关系卷积向量进行三段式划分,并提取出每段关系卷积向量中的最大池化向量;
将与该语句对应的三段关系卷积向量各自对应的最大池化向量依次输入到所述分类器模型,训练所述分类器模型按照预设的电网实体关系种类对输入的最大池化向量进行维度转换,使训练后的所述分类器模型从维度转换结果中选取数值最大的维度分量所对应的电网实体关系种类作为该语句中的与所述最大池化向量对应的实体词的电网实体关系;
将训练后的所述卷积神经网络模型与训练后的所述分类器模型进行模型结合,得到所述电网实体关系抽取模型。
其中,所述抽取模型训练模块150可以执行图3中的步骤S250以及图6中的子步骤S251、子步骤S252、子步骤S253及子步骤S254,具体的执行过程可参照上文中对步骤S250、子步骤S251、子步骤S252、子步骤S253及子步骤S254的详细描述。
综上所述,在本申请实施例提供的电网数据管理方法及装置中,本申请通过对待处理文本数据进行文本预处理,并对预处理后的待处理文本数据进行实体识别,而后基于预设的电网实体关系抽取模型对从所述预处理后的待处理文本数据中识别出的所有实体词进行电网实体关系抽取,从而基于识别出的所有实体词及抽取出的电网实体关系,构建出与所述待处理文本数据对应的电网数据模型,以通过该电网数据模型提高电网数据管理过程的数据管理质量及数据管理效率。
其中,本申请通过对电网语料文本数据进行文本预处理,并对预处理后的电网语料文本数据中的每条语句进行实体识别,接着根据预先构建的电网实体关系种类及实体识别结果对所述电网语料文本数据进行关系标注,得到对应的关系标注结果,然后对电网语料文本数据中的每条语句进行向量化处理,得到每条语句对应的语句向量矩阵,最后将每条语句对应的语句向量矩阵依次输入到与预设的所述电网实体关系种类对应的特征提取模型中进行训练,得到对应的所述电网实体关系抽取模型,从而通过生成的所述电网实体关系抽取模型降低工作管理人员在数据统筹过程及价值挖掘过程中的人工参与度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
其中,本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的,可以理解为由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合,也可以理解为提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器指令,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种电网数据管理方法,其特征在于,所述方法包括:
获取待处理文本数据,并对获取到的待处理文本数据进行文本预处理;
对预处理后的待处理文本数据进行实体识别,并根据预先构建的电网实体关系抽取模型对识别出的所有实体词进行电网实体关系抽取,其中所述电网实体关系抽取模型基于电网语料文本数据以及与预设的电网实体关系种类对应的特征提取模型构建形成;
根据识别出的所有实体词及抽取出的电网实体关系,构建出与所述待处理文本数据对应的电网数据模型。
2.根据权利要求1所述的方法,其特征在于,所述电网实体关系抽取模型的构建过程,包括:
获取电网语料文本数据,并对获取到的所述电网语料文本数据进行文本预处理;
对预处理后的所述电网语料文本数据中的每条语句进行实体识别,确定出每条语句中的所有实体词,及每个实体词在对应语句中的位置信息;
根据预设的电网实体关系种类对所述电网语料文本数据中的所有实体词进行关系标注,得到每条语句对应的关系标注结果;
根据每条语句的关系标注结果及该语句中的每个实体词的位置信息,对该语句进行向量化处理,得到每条语句对应的语句向量矩阵;
将所述电网语料文本数据中的每条语句对应的语句向量矩阵依次输入到与预设的所述电网实体关系种类对应的特征提取模型中进行训练,得到对应的电网实体关系抽取模型。
3.根据权利要求2所述的方法,其特征在于,对获取到的所述电网语料文本数据进行文本预处理,包括:
依次对所述电网语料文本数据进行去重处理、去噪处理、分句处理及分词处理,得到所述电网语料文本数据包括的所有语句,及每条语句包括的所有词语。
4.根据权利要求2所述的方法,其特征在于,所述根据预设的电网实体关系种类在所述电网语料文本数据中的所有实体词进行关系标注,得到每条语句对应的关系标注结果,包括:
针对所述电网语料文本数据中的每条语句,将该语句中的每个实体词与其他实体词依次按照每个电网实体关系种类进行关系匹配;
若关系匹配成功,则将关系匹配成功的两个实体词按照对应的电网实体关系种类进行关系标注,并基于半监督学习算法将针对所述两个实体词的标注结果同步更新到所述电网语料文本数据中的其他语句处,以得到每条语句对应的关系标注结果。
5.根据权利要求2所述的方法,其特征在于,所述根据每条语句的关系标注结果及该语句中每个实体词的位置信息,对该语句进行向量化处理,得到每条语句对应的语句向量矩阵,包括:
针对所述电网语料文本数据中的每条语句,根据该语句的关系标注结果对该语句中的每个实体词进行词向量化处理,得到该语句中每个实体词对应的原始词向量;
对该语句中每个实体词的位置信息进行向量化处理,得到该语句中每个实体词对应的位置向量;
将该语句中每个实体词对应的原始词向量及位置向量进行拼接整合,得到该语句对应的语句向量矩阵。
6.根据权利要求2-5中任意一项所述的方法,其特征在于,所述特征提取模型包括卷积神经网络模型及分类器模型,所述将所述电网语料文本数据中的每条语句对应的语句向量矩阵依次输入到与预设的所述电网实体关系种类对应的特征提取模型中进行训练,得到对应的电网实体关系抽取模型,包括:
根据所述电网语料文本数据中各语句的排列顺序,依次将每条语句对应的语句向量矩阵输入到所述卷积神经网络模型中,并训练所述卷积神经网络模型通过卷积层得到与该语句向量矩阵对应的关系卷积向量;
训练所述卷积神经网络模型通过池化层对该语句对应的关系卷积向量进行三段式划分,并提取出每段关系卷积向量中的最大池化向量;
将与该语句对应的三段关系卷积向量各自对应的最大池化向量依次输入到所述分类器模型,训练所述分类器模型按照预设的电网实体关系种类对输入的最大池化向量进行维度转换,使训练后的所述分类器模型从维度转换结果中选取数值最大的维度分量所对应的电网实体关系种类作为该语句中的与所述最大池化向量对应的实体词的电网实体关系;
将训练后的所述卷积神经网络模型与训练后的所述分类器模型进行模型结合,得到所述电网实体关系抽取模型。
7.一种电网数据管理装置,其特征在于,所述装置包括:
文本预处理模块,用于获取待处理文本数据,并对获取到的待处理文本数据进行文本预处理;
电网关系抽取模块,用于对预处理后的待处理文本数据进行实体识别,并根据预先构建的电网实体关系抽取模型对识别出的所有实体词进行电网实体关系抽取,其中所述电网实体关系抽取模型基于电网语料文本数据以及与预设的电网实体关系种类对应的特征提取模型构建形成;
数据模型构建模块,用于根据识别出的所有实体词及抽取出的电网实体关系,构建出与所述待处理文本数据对应的电网数据模型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
语料预处理模块,用于获取电网语料文本数据,并对获取到的所述电网语料文本数据进行文本预处理;
实体词识别模块,用于对预处理后的所述电网语料文本数据中的每条语句进行实体识别,确定出每条语句中的所有实体词,及每个实体词在对应语句中的位置信息;
关系标注模块,用于根据预设的电网实体关系种类对所述电网语料文本数据中的所有实体词进行关系标注,得到每条语句对应的关系标注结果;
语句向量化模块,用于根据每条语句的关系标注结果及该语句中的每个实体词的位置信息,对该语句进行向量化处理,得到每条语句对应的语句向量矩阵;
抽取模型训练模块,用于将所述电网语料文本数据中的每条语句对应的语句向量矩阵依次输入到与预设的所述电网实体关系种类对应的特征提取模型中进行训练,得到对应的电网实体关系抽取模型。
9.根据权利要求8所述的装置,其特征在于,所述语句向量化模块具体用于:
针对所述电网语料文本数据中的每条语句,根据该语句的关系标注结果对该语句中的每个实体词进行词向量化处理,得到该语句中每个实体词对应的原始词向量;
对该语句中每个实体词的位置信息进行向量化处理,得到该语句中每个实体词对应的位置向量;
将该语句中每个实体词对应的原始词向量及位置向量进行拼接整合,得到该语句对应的语句向量矩阵。
10.根据权利要求8或9所述的装置,其特征在于,所述特征提取模型包括卷积神经网络模型及分类器模型,所述抽取模型训练模块具体用于:
根据所述电网语料文本数据中各语句的排列顺序,依次将每条语句对应的语句向量矩阵输入到所述卷积神经网络模型中,并训练所述卷积神经网络模型通过卷积层得到与该语句向量矩阵对应的关系卷积向量;
训练所述卷积神经网络模型通过池化层对该语句对应的关系卷积向量进行三段式划分,并提取出每段关系卷积向量中的最大池化向量;
将与该语句对应的三段关系卷积向量各自对应的最大池化向量依次输入到所述分类器模型,训练所述分类器模型按照预设的电网实体关系种类对输入的最大池化向量进行维度转换,使训练后的所述分类器模型从维度转换结果中选取数值最大的维度分量所对应的电网实体关系种类作为该语句中的与所述最大池化向量对应的实体词的电网实体关系;
将训练后的所述卷积神经网络模型与训练后的所述分类器模型进行模型结合,得到所述电网实体关系抽取模型。
CN201910441686.0A 2019-05-24 2019-05-24 电网数据管理方法及装置 Pending CN110162792A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910441686.0A CN110162792A (zh) 2019-05-24 2019-05-24 电网数据管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910441686.0A CN110162792A (zh) 2019-05-24 2019-05-24 电网数据管理方法及装置

Publications (1)

Publication Number Publication Date
CN110162792A true CN110162792A (zh) 2019-08-23

Family

ID=67632905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910441686.0A Pending CN110162792A (zh) 2019-05-24 2019-05-24 电网数据管理方法及装置

Country Status (1)

Country Link
CN (1) CN110162792A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324743A (zh) * 2020-02-14 2020-06-23 平安科技(深圳)有限公司 文本关系抽取的方法、装置、计算机设备及存储介质
CN112347779A (zh) * 2020-11-23 2021-02-09 军工保密资格审查认证中心 一种涉密文本密级自动判定的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286629A1 (en) * 2014-04-08 2015-10-08 Microsoft Corporation Named entity recognition
CN106776544A (zh) * 2016-11-24 2017-05-31 四川无声信息技术有限公司 人物关系识别方法及装置和分词方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN109460434A (zh) * 2018-10-25 2019-03-12 北京知道创宇信息技术有限公司 数据提取模型建立方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286629A1 (en) * 2014-04-08 2015-10-08 Microsoft Corporation Named entity recognition
CN106776544A (zh) * 2016-11-24 2017-05-31 四川无声信息技术有限公司 人物关系识别方法及装置和分词方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN109460434A (zh) * 2018-10-25 2019-03-12 北京知道创宇信息技术有限公司 数据提取模型建立方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324743A (zh) * 2020-02-14 2020-06-23 平安科技(深圳)有限公司 文本关系抽取的方法、装置、计算机设备及存储介质
CN112347779A (zh) * 2020-11-23 2021-02-09 军工保密资格审查认证中心 一种涉密文本密级自动判定的方法和装置

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN107273503B (zh) 用于生成同语言平行文本的方法和装置
CN113505244B (zh) 基于深度学习的知识图谱构建方法、系统、设备及介质
US20220350965A1 (en) Method for generating pre-trained language model, electronic device and storage medium
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN112579727B (zh) 文档内容的提取方法、装置、电子设备及存储介质
CN114970522B (zh) 语言模型的预训练方法、装置、设备、存储介质
CN110162766A (zh) 词向量更新方法和装置
WO2024067276A1 (zh) 用于确定视频的标签的方法、装置、设备及介质
CN115422944A (zh) 语义识别方法、装置、设备及存储介质
CN109657056B (zh) 目标样本获取方法、装置、存储介质及电子设备
CN114077841A (zh) 基于人工智能的语义提取方法、装置、电子设备及介质
CN110162792A (zh) 电网数据管理方法及装置
CN114299194A (zh) 图像生成模型的训练方法、图像生成方法及装置
CN109299470A (zh) 文本公告中触发词的抽取方法及系统
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN116701574A (zh) 文本语义相似度计算方法、装置、设备及存储介质
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN111444335B (zh) 中心词的提取方法及装置
CN114357195A (zh) 基于知识图谱的问答对生成方法、装置、设备及介质
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN117556005A (zh) 质量评估模型的训练方法、多轮对话质量评估方法和装置
CN112686053A (zh) 一种数据增强方法、装置、计算机设备及存储介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination