CN114254120A - 一种面向调控云的电网智能搜索系统及方法 - Google Patents

一种面向调控云的电网智能搜索系统及方法 Download PDF

Info

Publication number
CN114254120A
CN114254120A CN202111474862.4A CN202111474862A CN114254120A CN 114254120 A CN114254120 A CN 114254120A CN 202111474862 A CN202111474862 A CN 202111474862A CN 114254120 A CN114254120 A CN 114254120A
Authority
CN
China
Prior art keywords
word
power grid
regulation
word segmentation
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111474862.4A
Other languages
English (en)
Inventor
翟海保
张亮
屈刚
葛敏辉
李慧星
许凌
金皓纯
韩博文
肖林朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Branch Of State Grid Corp ltd
Beijing Kedong Electric Power Control System Co Ltd
Original Assignee
East China Branch Of State Grid Corp ltd
Beijing Kedong Electric Power Control System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Branch Of State Grid Corp ltd, Beijing Kedong Electric Power Control System Co Ltd filed Critical East China Branch Of State Grid Corp ltd
Priority to CN202111474862.4A priority Critical patent/CN114254120A/zh
Publication of CN114254120A publication Critical patent/CN114254120A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J13/00Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network
    • H02J13/00001Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network characterised by the display of information or by user interaction, e.g. supervisory control and data acquisition systems [SCADA] or graphical user interfaces [GUI]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J13/00Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network
    • H02J13/00002Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network characterised by monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Power Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了电力系统调度技术监控技术领域的一种面向调控云的电网智能搜索系统及方法,一种面向调控云的电网智能搜索方法,包括:获取输入词;对输入词进行电力特征分词;对电力特征分词结果进行多因子相关性排序;基于多因子相关性排序结果进行调控数据搜索;基于调控数据搜索结果建立电网调度领域知识图谱;输出电网调度领域知识图谱。本发明通过对输入词进行分词、排序和检索处理后,建立电网调度领域知识图谱并输出,满足了业务人员快速获取数据的需求。

Description

一种面向调控云的电网智能搜索系统及方法
技术领域
本发明涉及一种面向调控云的电网智能搜索系统及方法,属于电力系统调度技术监控技术领域。
背景技术
电网调度监控业务发展对调度系统的数字化和智能性提出了新的要求,结合电网调控数据和业务特征,研究面向电网调度监控的智能搜索框架以及电力领域词库建模、电力特征分词算法、多因子相关性排序算法、电力知识图谱关联建模等关键技术。研发了面向调控云的电网智能搜索应用,实现电网设备模型、设备运行、监控事件、服务等搜索,能够对海量调度设备监控运行数据进行全面、准确、快速、智能的检索,为调度设备监控业务管理及决策提供有力支撑。
调控中心集中监控面临电网规模不断扩大,监控设备增多、监控信息数量倍增、异常故障情况愈加复杂等情况,随着调控云模型、运行、管理等数据不断接入、服务体系逐步完善、业务应用逐步丰富,面临数据量大、种类复杂、服务多样、不易检索的问题,传统的门户网站不能满足业务人员快速获取数据的需求。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种面向调控云的电网智能搜索系统及方法,通过对输入词进行分词、排序和检索处理后,建立电网调度领域知识图谱并输出,满足了业务人员快速获取数据的需求。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种面向调控云的电网智能搜索方法,包括:
获取输入词;
对输入词进行电力特征分词;
对电力特征分词结果进行多因子相关性排序;
基于多因子相关性排序结果进行调控数据搜索;
基于调控数据搜索结果建立电网调度领域知识图谱;
输出电网调度领域知识图谱。
进一步的,对输入词进行电力特征分词,包括:
对输入词进行虚词过滤,所述虚词包括语气词和形容词;
利用电力领域词库和最大正向匹配算法,对虚词过滤后的输入词进行字符串拆分,得到分词结果;
基于分词结果形成分词列表。
进一步的,所述电力领域词库为在通用词库的基础上扩充电力系统专业术语后,按照层次法对词语进行层次建模后得到,所述层次建模包含业务子库、词语标签和词语项目三个层次。
进一步的,所述业务子库由词语经过提取后存储得到,所述提取方法包括调控云模型表提取方法和非结构化文件提取方法,其中:
所述调控云模型表提取方法包括:
获取调控云模型表中的存储对象,所述调控云模型表包括已有的发电厂、变电站、交流线路和直流线路;
对存储对象进行歧义字剔除、去重和分类处理;
将处理后的结果存储到对应的业务子库中;
所述非结构化文件提取方法包括:
获取非结构化文件,所述非结构化文件包括调度规程、稳定限额规程、技术标准和规范;
利用TextRank算法提取非结构化文件中的关键字后,进行分类;
将分类后的结果存储到对应的业务子库中;
将无法分类的数据放到技术标准子库中。
进一步的,对电力特征分词结果进行多因子相关性排序,包括:采用改进的多因子相关性排序算法对电力特征分词结果进行评分后按照得分排序,所述改进的多因子相关性排序算法公式为:
S=(G-I)+gG+mM+eE
式中:S为得分,G为数据类型评分,I为TF-IDF评分,g为系数,m为计算系数,M为时效性评分,e为计算系数,E为用户专业及电网评分。
进一步的,所述TF-IDF评分为:
TF-IDF=TF*IDF
式中:TF为词频,IDF为逆文本频率指数;
所述词频为:
Figure BDA0003393310460000031
式中:wij为词语wi的词频,ni,j为词语wi在文件dj中的出现次数,nk,j为词语wk在文件dj中的出现次数,k为变量,wk表示文件dj不同的词语;
所述逆文本频率指数为:
Figure BDA0003393310460000041
式中:Ii为词语wi的逆文本频率指数,|D|为语料库中所有文件总数,|{j:wi∈dj}|是包含词语wi的所有文件总数。
进一步的,基于调控数据搜索结果建立电网调度领域知识图谱,包括:
对调控搜索数据分类,分类类型包括静态资源维度、计划维度和过程维度;
基于分类后的数据结合知识图谱关联建模,构建电网调度领域知识图谱。
第二方面,本发明提供了一种面向调控云的电网智能搜索系统,包括:
输入模块:用于获取输入词;
分词模块:用于对输入词进行电力特征分词;
排序模块:用于对电力特征分词结果进行多因子相关性排序;
搜索模块:用于基于多因子相关性排序结果进行调控数据搜索;
建模模块:用于基于调控数据搜索结果建立电网调度领域知识图谱;
输出模块:用于输出电网调度领域知识图谱。
第三方面,本发明提供了一种面向调控云的电网智能搜索装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
一、本文结合互联网搜索引擎相关技术,根据设备监控业务和调控云数据、服务自身特点,设计面向设备监控业务的智能搜索框架,实现监控设备模型、设备运行、监控事件、调度规程等各类数据的接入,对数据进行全面、快速、准确、智能的检索,成为调控生产运行管理人员与调度数据的新型交互方式。
二、本发明通过电力领域词库建模、电力特征分词算法、多因子相关性排序、知识图谱关联建模等关键技术,为面向设备监控智能搜索框架的构建提供技术基础;通过知识图谱的搭建,知识图谱在智能搜素、智能问答系统建设方面具有突出的业务优点;基于调控云,根据调控实际需求,根据模型拓扑关系形成的调度知识图谱为数据的智能化检索提供基础,为后续的推理、问答等应用场景提供了技术保障。
附图说明
图1是本发明实施例一提供的电力领域词库建模示意图;
图2是本发明实施例一提供的知识图谱建模及应用示意图图;
图3是本发明实施例一提供的面向调控云的电网智能搜索框架示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
一种面向调控云的电网智能搜索方法,首先构建电力领域词库,基于调控云的调控业务结合知识图谱现行技术研究及其他调控领域具体情况,从数据采集、数据预处理、知识学习、知识模型搭建、知识管理、知识应用等方面进行考虑和开展,进行中英文电力领域词库构建,通过电力特征分词算法、多因子相关性排序算法、知识图谱关联建模,实现智能搜索的框架设计与应用,具体包括:
第一、构建电力领域词库,在通用词库的基础上扩充电力系统专业术语,如“兴化电厂”、“金陵变”、“励磁涌流”、“断路器”、“自动化”等,按照层次法对词语进行建模。利用层次建模法,包含业务子库、词语标签、词语项目3个层次,如图1所示。电力词库构建需要确保词库管理的规范性、扩展性、通用性、可推广性,建模以后可以在各个电网部门,特别是各级调度内部进行重复使用,协同扩展。
词库构建过程中,词语的提取主要采用两种方式:①利用已有的发电厂、变电站、交流线路、直流线路等调控云模型表中存储的对象,进行歧义字剔除、去重、分类,存储到对应的业务子库中。②从调度规程、稳定限额规程、技术标准、规范等非结构化文件中,利用TextRank算法提取关键字,然后进行分类,存储到对应的业务子库中,将无法分类的放到技术标准子库中,构建出初步的电力领域词库。
需要说明的是,将调度规程等文本激据T输入TextRank算法提取关键字,输出电力专业关链词语,TextRank算法提取关键字过程包括:
1、把给定的文本T按照完整句子进行分割;
2、形成句子数组:T=[S1,S2,S3,……Sn];
3、对S分词,过滤停用词,保留名词;
4、得到Si的分词结果关键词:Si=[ti,1,ti,2,ti,3……ti,m];
5、构建结果关键词图G=(V,E),其中V为节点集,由Si产生的候选词组成,E为节点的边,仅当节点间相同词语个数为M,M表示窗口大小;
6、利用TextRank公式,迭代传播计算各节点的权重,直至收敛;
7、根据权重倒序排列节点,获得排序最高的T个单词;
8、将获取的词语进行分类,存储到对应的子库中。
第二、引入电力特征分词算法,基于第一步构建出的电力领域词库通过最大正向匹配算法实现电力特征分词,电力特征分词具体步骤如下:
①先对输入词进行虚词过滤,过滤到无用的语气词、形容词等。
②利用电力词库和最大正向匹配算法,对句子字符串拆分,获取分词结果。
③形成分词列表返回。如:针对“A电厂#6号机组的发电量是多少”这句搜索词,其中“A电厂、机组、发电量”都是电力词库中特殊词汇,最终拆分结果为数组[A电厂,#6号,机组,发电量]。
需要说明的是,将带分词的文本或授索词,电力词库输入最大正向匹配算法后,输出分词结果数组,最大正向匹配算法包括:
1、计算输入字符串字符长度;
2、记录匹配起始位置;
3、直至记录的起始位置小于字符串长度时,记录正向最大长度的单词;
4、当该单诃己经与词库中莱个单词匹配时,输出该单词并将指针向下一位移动;
5、按照单个字切分,输出单个字并将指针指向下一位;
6、返回设备名称分次数组。
第三、在多因子相关性排序处理阶段,基于第二步电力特征分词结果,采用TF(词频)-IDF(逆文本频率指数)。TF-IDF核心有两点:①如果某个电力特征词在文件中出现的频率越高,该词语的越重要,评分越高,即词频,用TF表示;②如果一个词语在很多文件中出现,则该词语区分文件的能力较低,评也分越低,即逆文本频率指数,用IDF表示。
TF-IDF=TF*IDF (1)
其中TF的计算公式如下所示:
对于在一个文件dj里的词语wi来说,词语wi的词频可表示为:
Figure BDA0003393310460000081
式中:wij为词语wi的词频,ni,j为词语wi在文件dj中的出现次数,nk,j为词语wk在文件dj中的出现次数,k为变量,wk表示文件dj不同的词语;
某一特定词语的IDF数值,可以由总文件数除以包含该词语的文件数,用Ii表示,再将得到的商取对数处理后得到:
Figure BDA0003393310460000082
式中:Ii为词语wi的逆文本频率指数,|D|为语料库中所有文件总数,|{j:wi∈dj}|是包含词语wi的所有文件总数,因为文件数可能为0,在分母上加1。
TF-IDF算法得出的排序结果,针对于网页的搜索排序相对准确,网页基本上都是文本长度有限,其中包含的关键词也较为少,用TF-IDF进行网页的区分通常结果较好。可是,针对本文的调控云数据搜索,数据的特征较为不同,主要体现在3个方面:
(1)存在大量的小数据,即包含文本较少的数据,比如一个发电厂的模型参数,其中包含的文本信息主要包括电厂名称、电压等级、所属电网、调管范围等,如果单纯按照TF-IDF算法,就会导致IF的评分较低,模型参数信息本身较为重要,排名就会比较靠后。
(2)存在一部分的大数据,即包含文本较为长、关键词个数多的数据,主要是非结构化的文件,电网的非结构化文件主要是调度规程、技术标准、技术规范等文件,该类文件具有篇幅较长、信息量较大的特征,如调度规程中,会存在检修、计划、故障、机组等等很多电力特征词语,并且这些词语会频繁出现,会导致TF值较高,同时由于调控云搜索引擎的数据量多会导致IDF值较低,会导致很多时候文档资料把其他更专业的信息覆盖掉。
(3)除了TF-IDF得出的匹配度评分,影响电网搜索的因素还有数据类型与搜索词的匹配度、数据的时效性、用户所属专业或电网等因素。
因此,在TF-IDF评分的基础上,本文引入了改进的多因子相关性排序算法,包括TF-IDF评分、数据类型评分G、时效性评分M、所属电网评分E,通过加权系数,形成统一的相关性计算公式,给调度用户返回更关心的信息。
S=(G-I)+gG+mM+eE (4)
式中:S为得分;G为数据类型评分;I为TF-IDF评分;g为系数,比如用户搜索词是一个电厂名称时,模型数据类型的评分较高;M为时效性评分;m为计算系数,当搜索历史数据时,最新的数据评分进行放大;E为用户专业及电网评分;e为计算系数,如用户检索电网故障时,用户所在电网发生的故障优先排名展示。
第四、本文中的关键技术主要解决搜索范围是否全面、搜索结果是否准确、搜索效率是否快速等问题。因此,本文利用调控云结构化设计较为规范,数据质量不断提高的优势,依据静态资源维度、计划维度、过程维度数据的分类原则,将调控搜索数据划分为3类,并引入知识图谱关联建模,构建电网调度领域知识图谱,提供“问答式”的搜索体验。主要建模及使用方式如图2所示,智能搜索基于结构化的电网调控模型,利用本体的建模理论,分析各类电力对象实体(发电厂、发电机等)之间的关联关系,并建立电力实体对象与对象属性、对象事件之间的拓扑关系,构建形成电力本体知识图谱模型。首先确定本体对象(如火电厂),然后以这个本体对象为中心,确定中心本体与其他附属本体(如电厂电量、电厂出力)的关联范围及拓扑关系,逐步形成以中心本体为核心、其他相关本体为枝叶的本体模型,最后对相关底层属性数据(如当日煤耗量、发电量)进行钻取,形成一套完整电力知识图谱,为智能推理及问答搜索提供基础。如:询问“XX地区风电厂总装机容量有多少?”此类问题,可以直接利用知识图谱将结果计算并返回给用户。
第五、本文基于电网领域词库、电力特征分词、多因子相关性排序、调控知识图谱等关键技术的研究成果,结合调控云服务总线,设计了一套满足搜索引擎框架全面、准确、快速、智能、可扩展性的整体框架。图3所示为面向调控云的电网智能搜索框架,可见,面向调控云的电网智能搜索框架主要包括数据来源、基础服务、业务服务3个部分。经过本文验证及设计,基于电网调控领域各类结构化、半结构化、非结构化数据资源,构建电力调控智能搜索引擎“调控百度”,实现电力调控数据的全面、准确、快速、智能搜索。
实施例二:
一种面向调控云的电网智能搜索系统,可实现实施例一中一种面向调控云的电网智能搜索方法,包括:
输入模块:用于获取输入词;
分词模块:用于对输入词进行电力特征分词;
排序模块:用于对电力特征分词结果进行多因子相关性排序;
搜索模块:用于基于多因子相关性排序结果进行调控数据搜索;
建模模块:用于基于调控数据搜索结果建立电网调度领域知识图谱;
输出模块:用于输出电网调度领域知识图谱。
实施例三:
本发明实施例还提供了一种面向调控云的电网智能搜索装置,可实现实施例一中一种面向调控云的电网智能搜索方法,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行下述方法的步骤:
获取输入词;
对输入词进行电力特征分词;
对电力特征分词结果进行多因子相关性排序;
基于多因子相关性排序结果进行调控数据搜索;
基于调控数据搜索结果建立电网调度领域知识图谱;
输出电网调度领域知识图谱。
实施例四:
本发明实施例还提供了一种计算机可读存储介质,可实现实施例一中一种面向调控云的电网智能搜索方法,其上存储有计算机程序,该程序被处理器执行时实现下述方法的步骤:
获取输入词;
对输入词进行电力特征分词;
对电力特征分词结果进行多因子相关性排序;
基于多因子相关性排序结果进行调控数据搜索;
基于调控数据搜索结果建立电网调度领域知识图谱;
输出电网调度领域知识图谱。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种面向调控云的电网智能搜索方法,其特征是,包括:
获取输入词;
对输入词进行电力特征分词;
对电力特征分词结果进行多因子相关性排序;
基于多因子相关性排序结果进行调控数据搜索;
基于调控数据搜索结果建立电网调度领域知识图谱;
输出电网调度领域知识图谱。
2.根据权利要求1所述的面向调控云的电网智能搜索方法,其特征是,对输入词进行电力特征分词,包括:
对输入词进行虚词过滤,所述虚词包括语气词和形容词;
利用电力领域词库和最大正向匹配算法,对虚词过滤后的输入词进行字符串拆分,得到分词结果;
基于分词结果形成分词列表。
3.根据权利要求2所述的面向调控云的电网智能搜索方法,其特征是,所述电力领域词库为在通用词库的基础上扩充电力系统专业术语后,按照层次法对词语进行层次建模后得到,所述层次建模包含业务子库、词语标签和词语项目三个层次。
4.根据权利要求3所述的面向调控云的电网智能搜索方法,其特征是,所述业务子库由词语经过提取后存储得到,所述提取方法包括调控云模型表提取方法和非结构化文件提取方法,其中:
所述调控云模型表提取方法包括:
获取调控云模型表中的存储对象,所述调控云模型表包括已有的发电厂、变电站、交流线路和直流线路;
对存储对象进行歧义字剔除、去重和分类处理;
将处理后的结果存储到对应的业务子库中;
所述非结构化文件提取方法包括:
获取非结构化文件,所述非结构化文件包括调度规程、稳定限额规程、技术标准和规范;
利用TextRank算法提取非结构化文件中的关键字后,进行分类;
将分类后的结果存储到对应的业务子库中;
将无法分类的数据放到技术标准子库中。
5.根据权利要求1所述的面向调控云的电网智能搜索方法,其特征是,对电力特征分词结果进行多因子相关性排序,包括:采用改进的多因子相关性排序算法对电力特征分词结果进行评分后按照得分排序,所述改进的多因子相关性排序算法公式为:
S=(G-I)+gG+mM+eE
式中:S为得分,G为数据类型评分,I为TF-IDF评分,g为系数,m为计算系数,M为时效性评分,e为计算系数,E为用户专业及电网评分。
6.根据权利要求5所述的面向调控云的电网智能搜索方法,其特征是,所述TF-IDF评分为:
TF-IDF=TF*IDF
式中:TF为词频,IDF为逆文本频率指数;
所述词频为:
Figure FDA0003393310450000031
式中:wij为词语wi的词频,ni,j为词语wi在文件dj中的出现次数,nk,j为词语wk在文件dj中的出现次数,k为变量,wk表示文件dj不同的词语;
所述逆文本频率指数为:
Figure FDA0003393310450000032
式中:Ii为词语wi的逆文本频率指数,|D|为语料库中所有文件总数,|{j:wi∈dj}|是包含词语wi的所有文件总数。
7.根据权利要求1所述的面向调控云的电网智能搜索方法,其特征是,基于调控数据搜索结果建立电网调度领域知识图谱,包括:
对调控搜索数据分类,分类类型包括静态资源维度、计划维度和过程维度;
基于分类后的数据结合知识图谱关联建模,构建电网调度领域知识图谱。
8.一种面向调控云的电网智能搜索系统,其特征是,包括:
输入模块:用于获取输入词;
分词模块:用于对输入词进行电力特征分词;
排序模块:用于对电力特征分词结果进行多因子相关性排序;
搜索模块:用于基于多因子相关性排序结果进行调控数据搜索;
建模模块:用于基于调控数据搜索结果建立电网调度领域知识图谱;
输出模块:用于输出电网调度领域知识图谱。
9.一种面向调控云的电网智能搜索装置,其特征是,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~7任一项所述方法的步骤。
10.计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现权利要求1~7任一项所述方法的步骤。
CN202111474862.4A 2021-12-06 2021-12-06 一种面向调控云的电网智能搜索系统及方法 Pending CN114254120A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111474862.4A CN114254120A (zh) 2021-12-06 2021-12-06 一种面向调控云的电网智能搜索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111474862.4A CN114254120A (zh) 2021-12-06 2021-12-06 一种面向调控云的电网智能搜索系统及方法

Publications (1)

Publication Number Publication Date
CN114254120A true CN114254120A (zh) 2022-03-29

Family

ID=80791665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111474862.4A Pending CN114254120A (zh) 2021-12-06 2021-12-06 一种面向调控云的电网智能搜索系统及方法

Country Status (1)

Country Link
CN (1) CN114254120A (zh)

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
Weismayer et al. Identifying emerging research fields: a longitudinal latent semantic keyword analysis
Al-Abdallah et al. Arabic single-document text summarization using particle swarm optimization algorithm
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN110704577A (zh) 一种电网调度数据的搜索方法及系统
AU2020103004A4 (en) Method to build a document semantic and entity relationship model
CN116911312B (zh) 一种任务型对话系统及其实现方法
Lin et al. A simple but effective method for Indonesian automatic text summarisation
CN106874419A (zh) 一种多粒度实时热点聚合方法
Singhal et al. Data extract: Mining context from the web for dataset extraction
Abimbola et al. A noun-centric keyphrase extraction model: Graph-based approach
CN114254120A (zh) 一种面向调控云的电网智能搜索系统及方法
Fatah et al. Sentiment Analysis of Public Opinion Towards Tourism in Bangkalan Regency Using Naïve Bayes Method
Prakash et al. A survey on NLP based automatic extractive text summarization using spacy
Tuhkala et al. Semi-automatic literature mapping of participatory design studies 2006--2016
Fitriasari et al. Indonesian document retrieval using vector space method
Chen et al. Towards application of text mining for enhanced power network data analytics—Part II: Offline analysis of textual data
Bruggmann et al. Spatializing a digital text archive about history
Mallek et al. An Unsupervised Approach for Precise Context Identification from Unstructured Text Documents
Sati et al. Arabic text question answering from an answer retrieval point of view: A survey
Muhammad et al. Comparison of Machine Learning Text Classification for Intent Sentiment Analysis
Ajose-Ismail et al. A systematic review on web page classification
Hazarika et al. A Novel Query Based Summerizer Model Of Product Reviews Using Modified LDA
CN112487160B (zh) 技术文档溯源方法及装置、计算机设备、计算机存储介质
Li Application of natural language processing technology in text classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination