CN109710926A - 电网调度专业语言语义关系抽取方法、装置及电子设备 - Google Patents
电网调度专业语言语义关系抽取方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109710926A CN109710926A CN201811518871.7A CN201811518871A CN109710926A CN 109710926 A CN109710926 A CN 109710926A CN 201811518871 A CN201811518871 A CN 201811518871A CN 109710926 A CN109710926 A CN 109710926A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- vector
- corpus
- semantic
- dispatching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种电网调度专业语言语义关系抽取方法、装置及电子设备,其中,方法包括:采集电网运行过程中生成的调度历史语料库;对所述调度历史语料库中的各个所述语料文本分别进行词汇抽取,得到该语料文本包含的多个词汇,按照多个所述词汇在该语料文本中的排列顺序,构造每个所述词汇对应的词汇向量;基于每个所述词汇对应的词汇向量及预设的神经网络模型,构建每个所述词汇对应的语义向量;根据每个所述词汇对应的语义向量,计算所述词汇间的语义相似度,以确定所述词汇间的语义关系。本发明能够借助神经网络模型进行电网调度专业语义关系的快速、准确提取,避免调度人员的主观性影响及减少调度人员的工作担负。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种电网调度专业语言语义关系抽取方法、装置及电子设备。
背景技术
近年来,随着智能电网调度控制系统的运行,电网调度自动化水平有了明显的提高。电网调度机构积累了大量的电网运行数据和调度管理数据。这些海量的历史数据蕴含了丰富的电网运行知识。如何从这些非结构化的数据中提取电网运行知识,为调度员进行电网调度提供辅助决策支撑,提升电网调度的智能化水平成为亟需解决的问题。专家库、知识库、知识图谱等人工智能相关技术为电网调度的智能化提供了解决思路,但是知识的提取成为构建知识库、知识图谱的关键步骤。
目前主要解决方案是,调度人员基于专业背景,通过学习电网调度规程、年度运行方式、调度日志、事故预案等调度领域相关文档,理解调度领域语义关系,从而总结电网运行知识对电网调度专家库进行维护。这种方式存在以下缺点:电网运行方式复杂多变导致电网调度专家库的维护工作量较大,加大了调度人员的工作负担;由于调度人员的专业背景、工作经验等因人而异,导致专家库中的知识具备较大的主观性。
发明内容
有鉴于此,本发明实施例提供一种电网调度专业语言语义关系抽取方法、装置及电子设备,能够借助神经网络模型进行电网调度专业语义关系的快速、准确提取,避免调度人员的主观性影响及减少调度人员的工作担负。
根据本发明的一个方面,提供一种电网调度专业语言语义关系抽取方法,包括:采集电网运行过程中生成的调度历史语料库;其中,所述调度历史语料库包括运行方式对应的语料文本、调度规程对应的语料文本、调度日志对应的语料文本和事故预案对应的语料文本;对所述调度历史语料库中的各个所述语料文本分别进行词汇抽取,得到该语料文本包含的多个词汇,按照多个所述词汇在该语料文本中的排列顺序,构造每个所述词汇对应的词汇向量;基于每个所述词汇对应的词汇向量及预设的神经网络模型,构建每个所述词汇对应的语义向量;根据每个所述词汇对应的语义向量,计算所述词汇间的语义相似度,以确定所述词汇间的语义关系。
在一些实施例中,对所述调度历史语料库中的各个所述语料文本分别进行词汇抽取,得到该语料文本包含的多个词汇的步骤,包括:对所述调度历史语料库中的各个所述语料文本分别进行正则化操作,去除各个所述语料文本中的标点符号和停用词;对所述正则化操作处理后的各个所述语料文本进行中文分词处理,得到该语料文本包含的多个词汇。
在一些实施例中,按照多个所述词汇在该语料文本中的排列顺序,构造每个所述词汇对应的词汇向量的步骤,包括:按照多个所述词汇在该语料文本中的排列顺序,确定每个所述词汇在多个所述词汇中的排名;以多个所述词汇的数量为向量长度,对每个所述词汇进行0-1编码,得到每个所述词汇对应的词汇向量;其中,所述词汇向量中词汇的排名对应的位置为1,其他位置为0。
在一些实施例中,得到每个所述词汇对应的词汇向量之后,还包括:将每个所述词汇在多个所述词汇中的排名作为所述词汇的索引;基于多个所述词汇、每个所述词汇对应的所述索引及所述词汇向量,生成词汇专业词典。
在一些实施例中,基于每个所述词汇对应的词汇向量及预设的神经网络模型,构建每个所述词汇对应的语义向量的步骤,包括:根据多个所述词汇对应的词汇向量及所述神经网络模型的预设窗口值,确定每个所述词汇对应的训练集;其中,所述神经网络模型包括输入层、隐藏层和输出层,所述隐藏层的大小为所述预设窗口值减一;将每个所述词汇对应的训练集中的样本输入所述神经网络模型的所述输入层,并采用梯度下降法进行训练,得到所述输入层到所述隐藏层的权重矩阵;利用每个所述词汇的词汇向量与所述权重矩阵相乘,得到每个所述词汇对应的语义向量。
在一些实施例中,根据多个所述词汇对应的词汇向量及所述神经网络模型的预设窗口值,确定每个所述词汇对应的训练集的步骤,包括:将每个所述词汇作为目标词,从多个顺序排列的所述词汇中,选取预设个数的与所述目标词相邻的连续词汇;其中,所述预设个数与所述隐藏层大小相同;由所述目标词分别和所述连续词汇中的词汇组成集合;将多个所述集合中词汇对应的词汇向量作为训练样本,生成每个所述词汇对应的训练集。
在一些实施例中,根据每个所述词汇对应的语义向量,计算所述词汇间的语义相似度,以确定所述词汇间的语义关系之后,还包括:根据多个所述词汇间的语义相似度,对多个所述词汇进行聚类;根据所述聚类的结果,建立电网调度专业知识图谱;将所述电网调度专业知识图谱保存至电网调度专家库中。
根据本发明的另一方面,提供一种电网调度专业语言语义关系抽取装置,包括:语料库采集模块,用于采集电网运行过程中生成的调度历史语料库;其中,所述调度历史语料库包括运行方式对应的语料文本、调度规程对应的语料文本、调度日志对应的语料文本和事故预案对应的语料文本;词汇抽取模块,用于对所述调度历史语料库中的各个所述语料文本分别进行词汇抽取,得到该语料文本包含的多个词汇;词汇向量构造模块,用于按照多个所述词汇在该语料文本中的排列顺序,构造每个所述词汇对应的词汇向量;语义向量构建模块,用于基于每个所述词汇对应的词汇向量及预设的神经网络模型,构建每个所述词汇对应的语义向量;语义关系确定模块,用于根据每个所述词汇对应的语义向量,计算所述词汇间的语义相似度,以确定所述词汇间的语义关系。
根据本发明的另一方面,提供一种电子设备,包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行如上述电网调度专业语言语义关系抽取方法中的一个或多个方法的步骤。
根据本发明的另一方面,提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述电网调度专业语言语义关系抽取方法中的一个或多个方法的步骤。
本发明提供的电网调度专业语言语义关系抽取方法和装置中,首先采集电网运行过程中生成的调度历史语料库;其中,调度历史语料库包括运行方式对应的语料文本、调度规程对应的语料文本、调度日志对应的语料文本和事故预案对应的语料文本,然后对调度历史语料库中的各个语料文本分别进行词汇抽取,得到该语料文本包含的多个词汇,并按照多个词汇在该语料文本中的排列顺序,构造每个词汇对应的词汇向量,进一步基于每个词汇对应的词汇向量及预设的神经网络模型,构建每个词汇对应的语义向量,最后根据每个词汇对应的语义向量,计算词汇间的语义相似度,从而确定词汇间的语义关系。本发明能够借助神经网络模型进行电网调度专业语义关系的快速、准确提取,避免调度人员的主观性影响及减少调度人员的工作担负。
为使本发明实施例的上述目的、特征和优点能更明显易懂,下面将结合实施例,并配合所附附图,作详细说明。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种电网调度专业语言语义关系抽取方法的流程图;
图2示出了本发明实施例所提供的一种电网调度专业语言语义关系抽取方法中一种语义向量生成过程示意图;
图3示出了本发明实施例所提供的一种电网调度专业语言语义关系抽取方法中另一种语义向量生成过程示意图;
图4示出了本发明实施例所提供的一种电网调度专业语言语义关系抽取方法中权重矩阵(词汇语义向量矩阵)示意图;
图5示出了本发明实施例所提供的一种电网调度专业语言语义关系抽取方法中语义向量计算示意图;
图6示出了本发明实施例所提供的一种电网调度专业语言语义关系抽取装置的结构示意图;
图7示出了本发明实施例所提供的一种电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前调度人员基于专业背景,通过学习电网调度领域相关文档,理解调度领域语义关系,总结电网运行知识对电网调度专家库进行维护,这种方式加大了调度人员的工作负担,且抽取出的词汇间的语义关系不够准确,基于此,本发明实施例提供的一种电网调度专业语言语义关系抽取方法、装置及电子设备,能够借助神经网络模型进行电网调度专业语义关系的快速、准确提取,避免调度人员的主观性影响及减少调度人员的工作担负。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种电网调度专业语言语义关系抽取方法进行详细介绍。
图1提供了一种电网调度专业语言语义关系抽取方法的流程图,该方法可以应用于服务器中,该服务器可以是诸如电网调度系统中的服务器,其中,对电网调度专业语言语义关系抽取后,可以基于该语义关系进一步生成电网运行知识,为调度员进行电网调度提供辅助决策支撑。参见图1,该图片特征提取方法具体包括以下步骤:
步骤S102,采集电网运行过程中生成的调度历史语料库。
在电网运行过程中,服务器会不断地采集和整理这个过程中的一些电网运行或调度方面的资料,以形成电网运行方式、调度规程、历史调度日志、事故预案、电力通信系统管理规程、电网生成事故调查规程、继电保护和安全自动装置技术规程等调度专业积累的非结构化历史文档,从而形成调度历史语料库。本发明实施例中,调度历史语料库包括运行方式对应的语料文本、调度规程对应的语料文本、调度日志对应的语料文本和事故预案对应的语料文本。
步骤S104,对调度历史语料库中的各个语料文本分别进行词汇抽取,得到该语料文本包含的多个词汇。
在采集到调度历史语料库后,首先对历史语料库进行数据预处理工作,主要包括去除标点符号、去除停用词、中文分词等一系列数据清洗和转换工作。具体的,首先对调度历史语料库中的各个语料文本分别进行正则化操作,去除各个语料文本中的标点符号和停用词;对正则化操作处理后的各个语料文本进行中文分词处理,得到该语料文本包含的多个词汇。其中,中文分词处理可以采集条件随机场方式进行。
以语料库中的以下文本为例:
“日前发电计划应优先满足电网稳定断面和设备运行约束,并综合考虑发电厂计划进度完成情况以及电源特性限制,合理安排电网发电机组组合”。
经过去除标点符号、停用词和中文分词后结果如下:
计划/电网/断面/设备/发电厂/计划/进度/情况/电源/特性/电网发电机组/
步骤S106,按照多个词汇在该语料文本中的排列顺序,构造每个词汇对应的词汇向量。
具体实施中,按照多个词汇在该语料文本中的排列顺序,确定每个词汇在多个词汇中的排名;以多个词汇的数量为向量长度,对每个词汇进行0-1编码,得到每个词汇对应的词汇向量;其中,词汇向量中词汇的排名对应的位置为1,其他位置为0。
比如,上述步骤S104处理后的多个词汇为:计划/电网/断面/设备/发电厂/计划/进度/情况/电源/特性/电网发电机组/,当前排列顺序即它们在语料文本中出现的顺序,根据这个顺序,确定出每个词汇对应的排名,比如:计划的排名为1,电网的排名为2,断面的排名为3,以此类推,而且每个词汇进行0-1编码后生成的向量长度为上述词汇的总数量,即10,且在每个词汇对应的词汇向量中,词汇的排名对应的位置为1,其他位置为0,比如,计划的词汇向量为1000000000,电网的词汇向量为0100000000,断面的词汇向量为0010000000,以此类推,构造出每个词汇对应的词汇向量。
作为一种优选实施方式,在得到每个词汇对应的词汇向量之后,还包括:将每个词汇在多个词汇中的排名作为词汇的索引;基于多个词汇、每个词汇对应的索引及词汇向量,生成词汇专业词典。
还采用上述实例,向量的长度为词典的大小,向量的分量只有一个1,其它全部为0。1的位置对应该词汇在词典中的索引。上述词汇“计划/电网/断面/设备/发电厂/计划/进度/情况/电源/特性/电网发电机组/”构成的词典如表1所示:词典包含10个词汇,因此词典大小为10,索引就是词汇在词典中的位置。用一个长度为10的词汇向量表示每个词汇,词汇向量中索引所在的位置是1,其它位置为0。
表1
词汇 | 索引 | 词汇向量 |
计划 | 1 | 1000000000 |
电网 | 2 | 0100000000 |
断面 | 3 | 0010000000 |
设备 | 4 | 0001000000 |
发电厂 | 5 | 0000100000 |
进度 | 6 | 0000010000 |
情况 | 7 | 0000001000 |
电源 | 8 | 0000000100 |
特性 | 9 | 0000000010 |
电网发电机组 | 10 | 0000000001 |
步骤S108,基于每个词汇对应的词汇向量及预设的神经网络模型,构建每个词汇对应的语义向量。
具体实施中,构建每个词汇对应的语义向量的过程包括以下步骤:
(1)根据多个词汇对应的词汇向量及神经网络模型的预设窗口值,确定每个词汇对应的训练集。
具体的,将每个词汇作为目标词,从多个顺序排列的词汇中,选取预设个数的与目标词相邻的连续词汇;其中,预设个数与隐藏层大小相同;由目标词分别和连续词汇中的词汇组成集合;将多个集合中词汇对应的词汇向量作为训练样本,生成每个词汇对应的训练集。
构建词汇的语义向量需考虑词汇所处的上下文环境,建立一个只有一个隐藏层的神经网络模型,用当前词汇所处的上下文环境去预测当前词汇,上下文环境的大小成为窗口。以表1中所示的词典中的词汇为例,比如,预设的神经网络模型的预设窗口值大小设定为5。以“断面”为目标词,目标词与上下文词汇的集合为{计划,断面}、{电网,断面}、{设备、断面}、{发电厂、断面},那么训练集中的样本为这些词汇对应的词汇向量。
(2)将每个词汇对应的训练集中的样本输入神经网络模型的输入层,并采用梯度下降法进行训练,得到输入层到隐藏层的权重矩阵。
上述神经网络模型包括输入层、隐藏层和输出层,隐藏层的大小为预设窗口值减一,即在本实施例中隐藏层大小为4。将上述训练集中的样本输入如图2所示的神经网络模型中,最终将词汇表达为维度为4的向量(即隐藏层大小为4)。模型的输入输出都为上述的词汇的词汇向量。该模型采用梯度下降法进行训练,训练完成后得到的输入层到隐藏层的权重矩阵WV×N作为词汇语义向量矩阵。
还用上述实例进行说明,如图3所示,训练完成后得到的输入层到隐藏层的权重矩阵W10×4作为词汇语义向量矩阵,该矩阵如图4所示。
(3)利用每个词汇的词汇向量与权重矩阵相乘,得到每个词汇对应的语义向量。
上述权重矩阵即词汇语义向量矩阵中的每一行代表词汇中一个词汇的语义向量。用词汇的词汇向量与权重矩阵W10×4相乘得到该词汇的语义向量,如图5所示,词汇“电网”的词汇向量与矩阵相乘得到该词汇的语义向量。
步骤S110,根据每个词汇对应的语义向量,计算词汇间的语义相似度,以确定词汇间的语义关系。
训练完成后形成调度领域专业多个词汇的语义向量。基于多个词汇对应的语义向量可以实现词汇之间的语义相似度计算,推理计算等计算。以词汇“变电站”和“断面”为例,分别计算与其相似的前5个词汇,结果如表2所示。与“变电站”最相似的词汇有“包北”、“古城”、“张家营”等变电站;与“断面”相似的词汇有“呼包”、“呼丰”等断面。基本计算得到了调度词汇之间的语义关系。
表2
进一步的,还可以根据多个词汇间的语义相似度,对多个词汇进行聚类;根据聚类的结果,建立电网调度专业知识图谱;将电网调度专业知识图谱保存至电网调度专家库中。
本发明实施例所提供的电网调度专业语言语义关系抽取方法,能够以调度历史语料为数据基础,基于词汇的分布假设(出现在相同上下文中的词汇具有相似的语义),采用神经网络模型生成词汇的语义向量,并采用语义相似度衡量词汇之间的语义相似度,并对调度词汇根据语义相似度进行聚类,将语义相近的词汇向量划分为同一类别。根据聚类结果建立知识图谱存入的调度专家库中作为专家库中知识的一部分。
本发明提供的电网调度专业语言语义关系抽取方法中,首先采集电网运行过程中生成的调度历史语料库;其中,调度历史语料库包括运行方式对应的语料文本、调度规程对应的语料文本、调度日志对应的语料文本和事故预案对应的语料文本,然后对调度历史语料库中的各个语料文本分别进行词汇抽取,得到该语料文本包含的多个词汇,并按照多个词汇在该语料文本中的排列顺序,构造每个词汇对应的词汇向量,进一步基于每个词汇对应的词汇向量及预设的神经网络模型,构建每个词汇对应的语义向量,最后根据每个词汇对应的语义向量,计算词汇间的语义相似度,从而确定词汇间的语义关系。本发明能够借助神经网络模型进行电网调度专业语义关系的快速、准确提取,避免调度人员的主观性影响及减少调度人员的工作担负。
图6示出了本发明实施例所提供的一种电网调度专业语言语义关系抽取装置的框图,该电网调度专业语言语义关系抽取装置包括:语料库采集模块602、词汇抽取模块604、词汇向量构造模块606、语义向量构建模块608和语义关系确定模块610。
其中,语料库采集模块602,用于采集电网运行过程中生成的调度历史语料库;其中,调度历史语料库包括运行方式对应的语料文本、调度规程对应的语料文本、调度日志对应的语料文本和事故预案对应的语料文本;词汇抽取模块604,用于对调度历史语料库中的各个语料文本分别进行词汇抽取,得到该语料文本包含的多个词汇;词汇向量构造模块606,用于按照多个词汇在该语料文本中的排列顺序,构造每个词汇对应的词汇向量;语义向量构建模块608,用于基于每个词汇对应的词汇向量及预设的神经网络模型,构建每个词汇对应的语义向量;语义关系确定模块610,用于根据每个词汇对应的语义向量,计算词汇间的语义相似度,以确定词汇间的语义关系。
具体实施中,上述词汇抽取模块604,还用于对调度历史语料库中的各个语料文本分别进行正则化操作,去除各个语料文本中的标点符号和停用词;对正则化操作处理后的各个语料文本进行中文分词处理,得到该语料文本包含的多个词汇。
具体实施中,上述词汇向量构造模块606,还用于按照多个词汇在该语料文本中的排列顺序,确定每个词汇在多个词汇中的排名;以多个词汇的数量为向量长度,对每个词汇进行0-1编码,得到每个词汇对应的词汇向量;其中,词汇向量中词汇的排名对应的位置为1,其他位置为0。
在一些实施例中,上述电网调度专业语言语义关系抽取装置还包括:专业词典生成模块,用于将每个词汇在多个词汇中的排名作为词汇的索引;基于多个词汇、每个词汇对应的索引及词汇向量,生成词汇专业词典。
具体实施中,上述语义向量构建模块608,还用于根据多个词汇对应的词汇向量及神经网络模型的预设窗口值,确定每个词汇对应的训练集;其中,神经网络模型包括输入层、隐藏层和输出层,隐藏层的大小为预设窗口值减一;将每个词汇对应的训练集中的样本输入神经网络模型的输入层,并采用梯度下降法进行训练,得到输入层到隐藏层的权重矩阵;利用每个词汇的词汇向量与权重矩阵相乘,得到每个词汇对应的语义向量。
在一些实施例中,上述语义向量构建模块608,还用于将每个词汇作为目标词,从多个顺序排列的词汇中,选取预设个数的与目标词相邻的连续词汇;其中,预设个数与隐藏层大小相同;由目标词分别和连续词汇中的词汇组成集合;将多个集合中词汇对应的词汇向量作为训练样本,生成每个词汇对应的训练集。
在一些实施例中,上述电网调度专业语言语义关系抽取装置还包括:聚类模块,用于根据多个词汇间的语义相似度,对多个词汇进行聚类;图谱建立模块,用于根据聚类的结果,建立电网调度专业知识图谱;保存模块,用于将电网调度专业知识图谱保存至电网调度专家库中。
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。
参见图7,本发明实施例还提供一种电子设备700,包括:处理器702,存储器704,总线706和通信接口708,所述处理器702、通信接口708和存储器704通过总线706连接;处理器702用于执行存储器704中存储的可执行模块,例如计算机程序。
其中,存储器704可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口708(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线706可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器704用于存储程序,所述处理器702在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器702中,或者由处理器702实现。
处理器702可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器702中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器702可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器704,处理器702读取存储器704中的信息,结合其硬件完成上述方法的步骤。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例所提供的进行电网调度专业语言语义关系抽取方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种电网调度专业语言语义关系抽取方法,其特征在于,包括:
采集电网运行过程中生成的调度历史语料库;其中,所述调度历史语料库包括运行方式对应的语料文本、调度规程对应的语料文本、调度日志对应的语料文本和事故预案对应的语料文本;
对所述调度历史语料库中的各个所述语料文本分别进行词汇抽取,得到该语料文本包含的多个词汇;
按照多个所述词汇在该语料文本中的排列顺序,构造每个所述词汇对应的词汇向量;
基于每个所述词汇对应的词汇向量及预设的神经网络模型,构建每个所述词汇对应的语义向量;
根据每个所述词汇对应的语义向量,计算所述词汇间的语义相似度,以确定所述词汇间的语义关系。
2.根据权利要求1所述的方法,其特征在于,对所述调度历史语料库中的各个所述语料文本分别进行词汇抽取,得到该语料文本包含的多个词汇的步骤,包括:
对所述调度历史语料库中的各个所述语料文本分别进行正则化操作,去除各个所述语料文本中的标点符号和停用词;
对所述正则化操作处理后的各个所述语料文本进行中文分词处理,得到该语料文本包含的多个词汇。
3.根据权利要求1所述的方法,其特征在于,按照多个所述词汇在该语料文本中的排列顺序,构造每个所述词汇对应的词汇向量的步骤,包括:
按照多个所述词汇在该语料文本中的排列顺序,确定每个所述词汇在多个所述词汇中的排名;
以多个所述词汇的数量为向量长度,对每个所述词汇进行0-1编码,得到每个所述词汇对应的词汇向量;其中,所述词汇向量中词汇的排名对应的位置为1,其他位置为0。
4.根据权利要求3所述的方法,其特征在于,得到每个所述词汇对应的词汇向量之后,还包括:
将每个所述词汇在多个所述词汇中的排名作为所述词汇的索引;
基于多个所述词汇、每个所述词汇对应的所述索引及所述词汇向量,生成词汇专业词典。
5.根据权利要求1所述的方法,其特征在于,基于每个所述词汇对应的词汇向量及预设的神经网络模型,构建每个所述词汇对应的语义向量的步骤,包括:
根据多个所述词汇对应的词汇向量及所述神经网络模型的预设窗口值,确定每个所述词汇对应的训练集;其中,所述神经网络模型包括输入层、隐藏层和输出层,所述隐藏层的大小为所述预设窗口值减一;
将每个所述词汇对应的训练集中的样本输入所述神经网络模型的所述输入层,并采用梯度下降法进行训练,得到所述输入层到所述隐藏层的权重矩阵;
利用每个所述词汇的词汇向量与所述权重矩阵相乘,得到每个所述词汇对应的语义向量。
6.根据权利要求5所述的方法,其特征在于,根据多个所述词汇对应的词汇向量及所述神经网络模型的预设窗口值,确定每个所述词汇对应的训练集的步骤,包括:
将每个所述词汇作为目标词,从多个顺序排列的所述词汇中,选取预设个数的与所述目标词相邻的连续词汇;其中,所述预设个数与所述隐藏层大小相同;
由所述目标词分别和所述连续词汇中的词汇组成集合;
将多个所述集合中词汇对应的词汇向量作为训练样本,生成每个所述词汇对应的训练集。
7.根据权利要求1所述的方法,其特征在于,根据每个所述词汇对应的语义向量,计算所述词汇间的语义相似度,以确定所述词汇间的语义关系之后,还包括:
根据多个所述词汇间的语义相似度,对多个所述词汇进行聚类;
根据所述聚类的结果,建立电网调度专业知识图谱;
将所述电网调度专业知识图谱保存至电网调度专家库中。
8.一种电网调度专业语言语义关系抽取装置,其特征在于,包括:
语料库采集模块,用于采集电网运行过程中生成的调度历史语料库;其中,所述调度历史语料库包括运行方式对应的语料文本、调度规程对应的语料文本、调度日志对应的语料文本和事故预案对应的语料文本;
词汇抽取模块,用于对所述调度历史语料库中的各个所述语料文本分别进行词汇抽取,得到该语料文本包含的多个词汇;
词汇向量构造模块,用于按照多个所述词汇在该语料文本中的排列顺序,构造每个所述词汇对应的词汇向量;
语义向量构建模块,用于基于每个所述词汇对应的词汇向量及预设的神经网络模型,构建每个所述词汇对应的语义向量;
语义关系确定模块,用于根据每个所述词汇对应的语义向量,计算所述词汇间的语义相似度,以确定所述词汇间的语义关系。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述权利要求1至7任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811518871.7A CN109710926B (zh) | 2018-12-12 | 2018-12-12 | 电网调度专业语言语义关系抽取方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811518871.7A CN109710926B (zh) | 2018-12-12 | 2018-12-12 | 电网调度专业语言语义关系抽取方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109710926A true CN109710926A (zh) | 2019-05-03 |
CN109710926B CN109710926B (zh) | 2023-08-29 |
Family
ID=66256426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811518871.7A Active CN109710926B (zh) | 2018-12-12 | 2018-12-12 | 电网调度专业语言语义关系抽取方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710926B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287495A (zh) * | 2019-07-01 | 2019-09-27 | 国网江苏省电力有限公司电力科学研究院 | 一种电力营销专业词识别方法及系统 |
CN110362043A (zh) * | 2019-05-29 | 2019-10-22 | 贵州电网有限责任公司 | 一种调度运行信息稀疏编码方法、系统和可读存储介质 |
CN110674243A (zh) * | 2019-07-02 | 2020-01-10 | 厦门耐特源码信息科技有限公司 | 一种基于动态k-均值算法的语料库索引构建方法 |
CN110991812A (zh) * | 2019-11-08 | 2020-04-10 | 云南电网有限责任公司大理供电局 | 一种基于自然语言处理技术的电网数据管理系统 |
CN111475655A (zh) * | 2020-03-05 | 2020-07-31 | 国网浙江省电力有限公司 | 一种基于配电网知识图谱的电力调度文本实体链接方法 |
CN112487789A (zh) * | 2020-11-27 | 2021-03-12 | 贵州电网有限责任公司 | 一种基于知识图谱的操作票调度逻辑合法性验证方法 |
CN113569016A (zh) * | 2021-09-27 | 2021-10-29 | 北京语言大学 | 一种基于Bert模型的专业术语提取方法及装置 |
WO2022036998A1 (zh) * | 2020-08-20 | 2022-02-24 | 广东电网有限责任公司清远供电局 | 电力系统违章管理方法、装置及电力设备 |
CN116701625A (zh) * | 2023-05-29 | 2023-09-05 | 中国南方电网有限责任公司 | 电力调度语句处理方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
CN107526834A (zh) * | 2017-09-05 | 2017-12-29 | 北京工商大学 | 联合词性与词序的相关因子训练的word2vec改进方法 |
US20180052928A1 (en) * | 2016-08-16 | 2018-02-22 | Ebay Inc. | Semantic forward search indexing of publication corpus |
CN108280357A (zh) * | 2018-01-31 | 2018-07-13 | 云易天成(北京)安全科技开发有限公司 | 基于语义特征提取的数据防泄漏方法、系统 |
CN108595706A (zh) * | 2018-05-10 | 2018-09-28 | 中国科学院信息工程研究所 | 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置 |
US20180329982A1 (en) * | 2017-05-09 | 2018-11-15 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
-
2018
- 2018-12-12 CN CN201811518871.7A patent/CN109710926B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180052928A1 (en) * | 2016-08-16 | 2018-02-22 | Ebay Inc. | Semantic forward search indexing of publication corpus |
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
US20180329982A1 (en) * | 2017-05-09 | 2018-11-15 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
CN107526834A (zh) * | 2017-09-05 | 2017-12-29 | 北京工商大学 | 联合词性与词序的相关因子训练的word2vec改进方法 |
CN108280357A (zh) * | 2018-01-31 | 2018-07-13 | 云易天成(北京)安全科技开发有限公司 | 基于语义特征提取的数据防泄漏方法、系统 |
CN108595706A (zh) * | 2018-05-10 | 2018-09-28 | 中国科学院信息工程研究所 | 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置 |
Non-Patent Citations (2)
Title |
---|
XINGYUAN PENG等: "Automated Chinese Essay Scoring using Vector Space Models", 《IEEE》 * |
蔡圆媛等: "基于低维语义向量模型的语义相似度度量", 《中国科学技术大学学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362043A (zh) * | 2019-05-29 | 2019-10-22 | 贵州电网有限责任公司 | 一种调度运行信息稀疏编码方法、系统和可读存储介质 |
CN110287495A (zh) * | 2019-07-01 | 2019-09-27 | 国网江苏省电力有限公司电力科学研究院 | 一种电力营销专业词识别方法及系统 |
CN110674243A (zh) * | 2019-07-02 | 2020-01-10 | 厦门耐特源码信息科技有限公司 | 一种基于动态k-均值算法的语料库索引构建方法 |
CN110991812A (zh) * | 2019-11-08 | 2020-04-10 | 云南电网有限责任公司大理供电局 | 一种基于自然语言处理技术的电网数据管理系统 |
CN111475655A (zh) * | 2020-03-05 | 2020-07-31 | 国网浙江省电力有限公司 | 一种基于配电网知识图谱的电力调度文本实体链接方法 |
WO2022036998A1 (zh) * | 2020-08-20 | 2022-02-24 | 广东电网有限责任公司清远供电局 | 电力系统违章管理方法、装置及电力设备 |
CN112487789A (zh) * | 2020-11-27 | 2021-03-12 | 贵州电网有限责任公司 | 一种基于知识图谱的操作票调度逻辑合法性验证方法 |
CN112487789B (zh) * | 2020-11-27 | 2023-12-01 | 贵州电网有限责任公司 | 一种基于知识图谱的操作票调度逻辑合法性验证方法 |
CN113569016A (zh) * | 2021-09-27 | 2021-10-29 | 北京语言大学 | 一种基于Bert模型的专业术语提取方法及装置 |
CN116701625A (zh) * | 2023-05-29 | 2023-09-05 | 中国南方电网有限责任公司 | 电力调度语句处理方法、装置、设备及介质 |
CN116701625B (zh) * | 2023-05-29 | 2024-05-10 | 中国南方电网有限责任公司 | 电力调度语句处理方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109710926B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710926A (zh) | 电网调度专业语言语义关系抽取方法、装置及电子设备 | |
US20230023101A1 (en) | Data processing method and device | |
US8200454B2 (en) | Method, data processing program and computer program product for time series analysis | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN110458181A (zh) | 一种基于宽度随机森林的句法依存模型、训练方法和分析方法 | |
CN109739978A (zh) | 一种文本聚类方法、文本聚类装置及终端设备 | |
CN106599269A (zh) | 关键词提取方法及装置 | |
CN109829162A (zh) | 一种文本分词方法及装置 | |
CN111625621B (zh) | 一种文档检索方法、装置、电子设备及存储介质 | |
CN108897798A (zh) | 用电客服工单分类方法、装置以及电子设备 | |
CN103678004A (zh) | 一种基于非监督特征学习的主机负载预测方法 | |
CN104035779A (zh) | 一种数据流决策树分类中的缺失值处理方法 | |
JP5291478B2 (ja) | コンデンスドsvm | |
CN109766537A (zh) | 留学文书撰写方法、装置及电子设备 | |
CN113627797A (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN112463989A (zh) | 一种基于知识图谱的信息获取方法及系统 | |
CN106203717A (zh) | 基于数据分析的办税大厅智能导航方法 | |
CN115293794A (zh) | 一种基于智能规模识别的软件费用评估方法及系统 | |
CN115392477A (zh) | 基于深度学习的Skyline查询基数估计方法及装置 | |
CN113298116B (zh) | 基于注意力权重的图嵌入特征提取方法、装置及电子设备 | |
CN112925794B (zh) | 基于桥接填充的复杂多表sql生成方法和装置 | |
CN109543175A (zh) | 一种查找同义词的方法及装置 | |
CN110705279A (zh) | 一种词汇表的选择方法、装置及计算机可读存储介质 | |
CN110413749A (zh) | 确定标准问题的方法及装置 | |
CN110879934B (zh) | 一种基于Wide&Deep深度学习模型的文本预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |