CN105677864A - 电网调度结构化数据的检索方法及装置 - Google Patents
电网调度结构化数据的检索方法及装置 Download PDFInfo
- Publication number
- CN105677864A CN105677864A CN201610011518.4A CN201610011518A CN105677864A CN 105677864 A CN105677864 A CN 105677864A CN 201610011518 A CN201610011518 A CN 201610011518A CN 105677864 A CN105677864 A CN 105677864A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- data
- dispatching
- structural data
- semantic formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000008878 coupling Effects 0.000 claims description 13
- 238000010168 coupling process Methods 0.000 claims description 13
- 238000005859 coupling reaction Methods 0.000 claims description 13
- 230000005611 electricity Effects 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 3
- 238000000547 structure data Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000013011 mating Effects 0.000 claims 1
- 238000012423 maintenance Methods 0.000 description 12
- 238000007726 management method Methods 0.000 description 10
- 230000007547 defect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000002354 daily effect Effects 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013499 data model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电网调度结构化数据的检索方法及装置,该方法包括:接收用户输入的查询词;在预先构建的语义表达式模板中匹配查询词对应的语义表达式;对语义表达式进行解析,结合查询词得到查询表达式;根据查询表达式中的查询条件,在预先构建的结构化数据索引文件中进行检索,得到检索结果,其中,结构化数据索引文件是基于结构化数据与预先构建的电网调度领域知识库的关系构建的,电网调度领域知识库包括:关键词、关键词所属的类别、类别对应的一个或多个特征、类别之间的关系;检索结果包括与查询词关联的数据;按照预设排序指标对检索结果进行排序;输出排序后的检索结果。本发明检索结果准确,检索效率高,能够为用户提供关联数据。
Description
技术领域
本发明涉及电网调度自动化技术领域,尤其涉及一种电网调度结构化数据的检索方法及装置。
背景技术
随着电力工业的不断发展,电网机构每日处理的管理信息快速增长。一方面,是由于电网结构日趋复杂,接入设备无论数量还是类型均明显增加;另一方面,是因为供电质量标准不断提高,要求电网机构对各类生产信息和管理信息处理的及时性增强。
在电力调度控制领域,随着冀北省地两级分布式调度管理系统建设的逐步深入,调度管理工作的信息化程度不断提高。调度管理系统包含的业务越来越丰富,业务关系也逐步清晰,逐步形成了模块清晰、结构庞大的调度管理类应用框架。随着系统的复杂度不断提高,业务数据的数据量也日渐丰富,系统汇集了海量的调度运行和管理数据。海量的数据里蕴含了丰富的电力调度业务的价值,同时也存在着如何开发和利用这些数据的问题,搜索引擎面对这种需求应运而生,搜索引擎能够根据一定的策略和算法,快速的收集和检索信息,为用户提供检索服务,将用户检索相关的信息展示给用户。
从数据存储格式上来说,当前调度运行和管理数据有两种存储格式:结构化数据和非结构化数据。针对非结构化数据的检索,主要对非结构化的文件进行解析和分析,建立索引文件,然后根据搜索词与文件的匹配度实现检索功能和排序功能。但是,针对结构化数据的检索就无法满足了,通用的检索方法只是将模糊的搜索结果返回给用户,而用户对结构化数据的检索需求通常很明确或者具有唯一性,例如查询滦河电厂的今日电量,用户需要的返回结果应该是某个表里的一条数据,而不是一大堆名称匹配但是无关的数据。
导致检索结果不准确,检索效率低的原因如下:电网调度领域积累了大量数据,数据来源多种多样、数据关系复杂,人工梳理数据之间的关系非常困难,无法梳理清楚数据之间的关系就很难提高搜索的全面性和准确性。电网调度领域的数据来源多种多样,比如文件服务器、各类应用服务器、数据库服务器等。同时,数据种类复杂,包括了结构化、非结构化、半结构化等各种类型的数据。面对这些来源复杂、种类繁多的海量数据,需要解决海量数据存储问题。针对海量的存储数据,电网调度领域传统的技术难以实现数据的快速检索。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明提供了一种电网调度结构化数据的检索方法及装置,以至少解决现有的电网调度结构化数据的检索结果与用户需求匹配度不高,检索效率低的问题。
根据本发明的一个方面,提供了一种电网调度结构化数据的检索方法,包括:接收用户输入的查询词;在预先构建的语义表达式模板中匹配所述查询词对应的语义表达式;对匹配的语义表达式进行解析,结合所述查询词得到查询表达式;根据所述查询表达式中的查询条件,在预先构建的结构化数据索引文件中进行检索,得到检索结果,其中,所述结构化数据索引文件是基于结构化数据与预先构建的电网调度领域知识库的关系构建的,所述电网调度领域知识库包括:关键词、关键词所属的类别、类别对应的一个或多个特征、类别之间的关系;所述检索结果包括与所述查询词关联的数据;按照预设排序指标对所述检索结果进行排序;输出排序后的检索结果。
在一个实施例中,在接收用户输入的查询词之前,所述方法还包括:构建所述电网调度领域知识库;从数据库中获取结构化数据,基于所述电网调度领域知识库,建立各个类别与结构化数据之间的关系,得到多个数据表;利用倒排索引技术基于各个关键词与结构化数据之间的关系构建所述结构化数据索引文件;为每个数据表构建语义表达式模板。
在一个实施例中,为每个数据表构建语义表达式模板,包括:针对每个数据表,根据该数据表对应的查询条件以及返回结果建立语义表达式模板,其中所述语义表达式模板包括:该数据表用到的所有查询条件的组合以及所有返回结果的组合。
在一个实施例中,在预先构建的语义表达式模板中匹配所述查询词对应的语义表达式,包括:将所述查询词拆分成一个或多个词汇;根据所述电网调度领域知识库,在所述一个或多个词汇中选取电力词汇,删除无用的词汇;在所述预先构建的语义表达式模板中,匹配所述电力词汇对应的语义表达式;对匹配的语义表达式进行解析,结合所述查询词得到查询表达式,包括:对匹配的语义表达式进行解析,结合所述电力词汇得到所述查询表达式。
在一个实施例中,按照预设排序指标对所述检索结果进行排序,包括:根据所述预设排序指标计算所述检索结果的排序因子,其中,所述预设排序指标包括:权重、时间、查询词与语义表达式的匹配度、检索热度;按照排序因子由大到小的顺序对所述检索结果进行排序。
在一个实施例中,所述排序因子是权重因子值、时间因子值、匹配度因子值和检索热度因子值的和。
在一个实施例中,在输出排序后的检索结果之后,所述方法还包括:结合用户搜索日志,对所述电网调度领域知识库、所述语义表达式模板、所述结构化数据索引文件、所述预设排序指标进行调整和优化。
根据本发明的另一个方面,提供了一种电网调度结构化数据的检索装置,包括:接收单元,用于接收用户输入的查询词;匹配单元,用于在预先构建的语义表达式模板中匹配所述查询词对应的语义表达式;解析单元,用于对匹配的语义表达式进行解析,结合所述查询词得到查询表达式;检索单元,用于根据所述查询表达式中的查询条件,在预先构建的结构化数据索引文件中进行检索,得到检索结果,其中,所述结构化数据索引文件是基于结构化数据与预先构建的电网调度领域知识库的关系构建的,所述电网调度领域知识库包括:关键词、关键词所属的类别、类别对应的一个或多个特征、类别之间的关系;所述检索结果包括与所述查询词关联的数据;排序单元,用于按照预设排序指标对所述检索结果进行排序;输出单元,用于输出排序后的检索结果。
在一个实施例中,所述装置还包括:构建单元,用于构建所述电网调度领域知识库;从数据库中获取结构化数据,基于所述电网调度领域知识库,建立各个类别与结构化数据之间的关系,得到多个数据表;利用倒排索引技术基于各个关键词与结构化数据之间的关系构建所述结构化数据索引文件;为每个数据表构建语义表达式模板。
在一个实施例中,所述构建单元具体用于:针对每个数据表,根据该数据表对应的查询条件以及返回结果建立语义表达式模板,其中所述语义表达式模板包括:该数据表用到的所有查询条件的组合以及所有返回结果的组合。
在一个实施例中,所述匹配单元包括:拆分模块,用于将所述查询词拆分成一个或多个词汇;处理模块,用于根据所述电网调度领域知识库,在所述一个或多个词汇中选取电力词汇,删除无用的词汇;匹配模块,用于在所述预先构建的语义表达式模板中,匹配所述电力词汇对应的语义表达式;所述解析单元具体用于对匹配的语义表达式进行解析,结合所述电力词汇得到所述查询表达式。
在一个实施例中,所述排序单元包括:计算模块,用于根据所述预设排序指标计算所述检索结果的排序因子,其中,所述预设排序指标包括:权重、时间、查询词与语义表达式的匹配度、检索热度;排序模块,用于按照排序因子由大到小的顺序对所述检索结果进行排序。
在一个实施例中,所述排序因子是权重因子值、时间因子值、匹配度因子值和检索热度因子值的和。
在一个实施例中,所述装置还包括:调整单元,用于结合用户搜索日志,对所述电网调度领域知识库、所述语义表达式模板、所述结构化数据索引文件、所述预设排序指标进行调整和优化。
通过本发明的电网调度结构化数据的检索方法及装置,分析用户输入的查询词,根据预先构建的语义表达式模板和结构化数据索引文件,确切地获取用户最想要的信息,找到对应的准确的结构化数据,检索结果准确,检索效率高;同时,能够为用户提供关联数据,从而使用户得到良好的使用体验,给用户的决策提供更好的支持。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的限定。在附图中:
图1是本发明实施例的电网调度结构化数据的检索方法的流程图;
图2是本发明实施例的倒排索引的数据结构示意图;
图3是本发明实施例的检索示意图;
图4是本发明实施例的电网调度结构化数据的检索装置的结构框图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供了一种电网调度结构化数据的检索方法,图1是本发明实施例的电网调度结构化数据的检索方法的流程图,如图1所示,该方法包括以下步骤:
步骤S101,接收用户输入的查询词。
步骤S102,在预先构建的语义表达式模板中匹配查询词对应的语义表达式。
步骤S103,对匹配的语义表达式进行解析,结合查询词得到查询表达式。
步骤S104,根据查询表达式中的查询条件,在预先构建的结构化数据索引文件中进行检索,得到检索结果,其中,结构化数据索引文件是基于结构化数据与预先构建的电网调度领域知识库的关系构建的,电网调度领域知识库包括:关键词、关键词所属的类别、类别对应的一个或多个特征、类别之间的关系;检索结果包括与查询词关联的数据。
步骤S105,按照预设排序指标对检索结果进行排序。
步骤S106,输出排序后的检索结果。
上述方法通过分析用户输入的查询词,根据预先构建的语义表达式模板和结构化数据索引文件,确切地获取用户最想要的信息,找到对应的准确的结构化数据,检索结果准确,检索效率高;同时,能够为用户提供关联数据,从而使用户得到良好的使用体验。例如,用户查询滦河电厂的今日电量,给用户展示滦河电厂今日电量的同时,还可以显示缺陷、故障、检修等电厂相关的数据,从而给用户的决策提供更好的支持。
上述方法通过构建电网调度领域知识库梳理了电网调度数据的关系;通过结构化数据索引文件实现检索与结构化数据的原始数据库脱离,直接对索引文件进行检索,无需考虑数据库中存储的海量数据对检索速度的影响;通过语义表达式模板结合知识库和索引文件,进行检索,提高了电网调度结构化数据检索的准确性和效率。
在步骤S101之前,上述方法还可以包括:构建电网调度领域知识库;从数据库中获取结构化数据,基于电网调度领域知识库,建立各个类别与结构化数据之间的关系,得到多个数据表;利用倒排索引技术基于各个关键词与结构化数据之间的关系构建结构化数据索引文件;为每个数据表构建语义表达式模板。简单来说,即领域知识库构建、结构化数据的建模、结构化数据的索引、语义表达式模板构建。
电网调度领域知识库的构建主要是对电网调度领域的相关词汇(即上述关键词)进行分类、定义每个类别的特征以及确定类别之间的关系。构建电网调度领域知识库,可以先定义四个表:词汇表(或称为关键词表)、词汇类别表、类别特征表、词汇类别关系表,通过这四张表存储词汇、词汇的类别、类别的特征、类别的关系信息。构建电网调度领域知识库主要是对这四张表的内容进行填充,填充方式包括:SQL(StructuredQueryLanguage,结构化查询语言)语句填充、Java分词结果填充、人工补充等方式。电网调度领域知识库可以认为是电网调度领域的通用知识库,在国网省地县各级别调度中心都是通用的。
其中,词汇指的是电力系统内任何一个设备、厂站、业务词汇,例如,滦河、三峡、冀北、调度机构、调度管辖权、检修、故障、缺陷、调度细则、运行方式、自动化、设备、系统等。词汇的类别是对词汇进行的分类,例如,火电厂、水电厂、风电场、检修类别、缺陷大类、缺陷小类、自动化设备类别等。类别的特征指每种类别的设备有哪些通用的特征,例如,火电厂拥有电压等级、发电量、上网电量、检修、故障灯等特征。类别的关系指的是两种或多种类别之间的关系,例如,火电厂与调度结构之间是管理关系,火电厂与母线之间是包含关系,母线与开关之间是拓扑关系,火电厂与线路之间是连接关系。
例如,以“滦河”这个关键词为例,它的类别属于火电厂,火电厂拥有的特征包括调度命名、最高电压等级、地理位置、所属调度管辖权等静态特征,还包括发电量、上网电量、检修、故障、缺陷等动态特征。通过词汇、类别、特征这三者的关系,可以形成一个关联的树形结构。同时,火电厂类别与线路类别存在连接关系,与调度机构类别存在管理关系,与母线类别存在包含关系,火电厂内部的母线、机组、开关、刀闸等类别还拥有拓扑关系。通过上述连接关系、管理关系、包含关系、拓扑关系形成各个类别之间的网状结构。最终将整体的网状结构和类别的树形结构结合,形成电网调度领域知识库。
结构化数据的建模主要是对数据库中具体的结构化数据进行梳理,建立数据模型。电网调度领域知识库中每个关键词都对应多个结构化数据,例如,关键词“检修”对应日检修数据、月检修数据、年检修数据、检修日志等结构化数据。所以结构化数据的建模主要是基于电网调度领域知识库,为每类关键词和结构化数据之间建立关系,实现结构化数据的统一组织和管理。按照电网调度领域知识库中的类别对数据表进行分类,一个表可以属于多个类别,一个类别也可以包含多个表,例如,火电厂这个类别可以包含电厂电量表、检修表、缺陷表、自动化系统表等数据表,电厂检修表可以属于火电厂类别、风电场类别、检修类别等类别。可以采用XML(ExtensibleMarkupLanguage,可扩展标记语言)格式来定义数据模型内部的关系。
结构化数据的索引主要是对结构化数据建立倒排索引,以提高数据的检索速度。将结构化数据从数据库中查询出来,然后通过倒排索引技术,对结构化数据建立倒排索引,进行压缩后存储在索引文件中,从而检索就可以与数据库脱离,直接对索引文件进行检索。具体的,可以采用倒排索引技术,针对结构化数据表中包含中文词汇的列,对这些列的每一行中文进行拼接,然后进行分析,最终形成一个倒排索引,即包含一个词汇库,每个词汇包含一个倒排列表,倒排列表里包含的是数据表中的每一行数据。通过倒排索引实现对数据模型的压缩,提高了数据的检索速度。倒排索引的数据结构如图2所示,将词汇链表组成词典放在内存中,每个词汇与倒排列表对应,倒排列表分块存储在磁盘的倒排文件里。
语义表达式模板的构建主要为每个数据表构建语义表达式模板,在结构化数据建模的基础上,针对每个数据表,根据该数据表对应的查询条件以及返回结果建立多个语义表达式模板,其中语义表达式模板包括:该数据表可能用到的所有查询条件的组合以及所有可能的返回结果的组合。例如,电厂电力电量表可能的查询条件有电厂名称、时间、机组名称、电厂类型,可能的查询结果有上网电量、发电量、积分电量,如果是火电厂还会有剩余燃煤、燃煤可用天数等查询条件,这样就可以根据查询条件和返回结果定义语义表达式模板。例如,对于电厂电量表,构建的语义表达式模板可以为[{查询条件:{电厂:XX,机组:XX,日期:XX},查询结果:{上网电量:XX}},{查询条件:{电厂:XX,机组:XX,日期:XX},查询结果:{发电量:XX}}]。
步骤S102包括:将查询词拆分成一个或多个词汇;根据电网调度领域知识库,在一个或多个词汇中选取电力词汇,删除无用的词汇;在预先构建的语义表达式模板中,匹配该电力词汇对应的语义表达式。相应的,步骤S103中对匹配的语义表达式进行解析,结合该电力词汇得到查询表达式。
例如,对于电厂电量表,构建的语义表达式模板是[{查询条件:{电厂:XX,机组:XX,日期:XX},查询结果:{上网电量:XX}},{查询条件:{电厂:XX,机组:XX,日期:XX},查询结果:{发电量:XX}}]。用户输入的查询词是滦河2#机组今日上网电量,拆分后得到电力词汇:滦河、2#机组、今日上网电量;匹配对应的语义表达式为{查询条件:{电厂:XX,机组:XX,日期:XX}},查询结果:{上网电量:XX};对该表达式进行解析得到查询表达式{查询条件:{电厂:滦河,机组:2#,日期:2015-01-01},查询结果:{上网电量:XX}}。根据查询表达式中的查询条件去索引文件里查找对应的数据表,就可以查询出{查询条件:{电厂:滦河,机组:2#,日期:2013-01-01},查询结果:{上网电量:234}},将检索结果上网电量234反馈给用户。
步骤S105包括:根据预设排序指标计算检索结果的排序因子,其中,预设排序指标包括:权重、时间、查询词与语义表达式的匹配度、检索热度;按照排序因子由大到小的顺序对检索结果进行排序。上述排序因子可以是权重因子值、时间因子值、匹配度因子值和检索热度因子值的和。每个检索结果都有其对应的排序因子,排序因子最大的检索结果排名最靠前。当然,也可以采用其他合理的计算方法根据预设排序指标计算排序因子。上述预设排序指标可以是经过多次的训练和测试得出。
权重是指对结构化数据设定权重,例如,检修、故障这些信息的权重高于设备基本信息的权重。例如,权重可以分为三个等级,对应的权重因子值分为0.3、0.6、0.9,比如检修流程SOP(StandardOperationProcedure,标准操作程序)因为涉及到电网的安全运行以及上级单位的考核,比较重要,其权重值可以为0.9。
时间是指优先时间最近的数据。对于时间最接近查询条件或者最接近当前时间的数据,其时间因子值越大,例如,可以设置最大值为1。
匹配度是指查询词与语义表达式的匹配度,尤其是分词后的查询条件与语义表达式的匹配度,匹配度越高,匹配度因子值越大,例如,可以设置最大值为1。
检索热度指的是根据最近一段时间的检索历史,查询词的检索次数的多少。检索热度越高,检索热度因子值越大,例如,可以设置最大值为1。
在步骤S106之后,上述方法还可以包括:结合用户搜索日志,对电网调度领域知识库、语义表达式模板、结构化数据索引文件、预设排序指标进行调整和优化。及时优化和调整检索相关的信息,使得检索结果比较准确,并可以实现关联信息的检索。
上述电网调度结构化数据的检索方法的示意图如图3所示,基于预先构建的语义表达式模板、数据模型(即数据表)、索引文件、电网调度领域知识库进行检索,得到检索结果,并对检索结果进行排序,展示给用户。
基于同一发明构思,本发明实施例还提供了一种电网调度结构化数据的检索装置,可以用于实现上述实施例所描述的方法。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。如果用硬件来实现,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(ProgrammableGateArray,PGA),现场可编程门阵列(FieldProgrammableGateArray,FPGA)等。
图4是本发明实施例的电网调度结构化数据的检索装置的结构框图,如图4所示,该装置包括:接收单元21、匹配单元22、解析单元23、检索单元24、排序单元25和输出单元26,下面对该结构进行具体说明。
接收单元21,用于接收用户输入的查询词;
匹配单元22,用于在预先构建的语义表达式模板中匹配查询词对应的语义表达式;
解析单元23,用于对匹配的语义表达式进行解析,结合查询词得到查询表达式;
检索单元24,用于根据查询表达式中的查询条件,在预先构建的结构化数据索引文件中进行检索,得到检索结果,其中,结构化数据索引文件是基于结构化数据与预先构建的电网调度领域知识库的关系构建的,电网调度领域知识库包括:关键词、关键词所属的类别、类别对应的一个或多个特征、类别之间的关系;检索结果包括与查询词关联的数据;
排序单元25,用于按照预设排序指标对检索结果进行排序;
输出单元26,用于输出排序后的检索结果。
上述装置通过分析用户输入的查询词,根据预先构建的语义表达式模板和结构化数据索引文件,确切地获取用户最想要的信息,找到对应的准确的结构化数据,检索结果准确,检索效率高;同时,能够为用户提供关联数据,从而使用户得到良好的使用体验。例如,用户查询滦河电厂的今日电量,给用户展示滦河电厂今日电量的同时,还可以显示缺陷、故障、检修等电厂相关的数据,从而给用户的决策提供更好的支持。
上述装置还可以包括:构建单元,用于构建电网调度领域知识库;从数据库中获取结构化数据,基于电网调度领域知识库,建立各个类别与结构化数据之间的关系,得到多个数据表;利用倒排索引技术基于各个关键词与结构化数据之间的关系构建结构化数据索引文件;为每个数据表构建语义表达式模板。
构建单元具体用于:针对每个数据表,根据该数据表对应的查询条件以及返回结果建立语义表达式模板,其中语义表达式模板包括:该数据表用到的所有查询条件的组合以及所有返回结果的组合。
匹配单元22包括:拆分模块,用于将查询词拆分成一个或多个词汇;处理模块,用于根据电网调度领域知识库,在一个或多个词汇中选取电力词汇,删除无用的词汇;匹配模块,用于在预先构建的语义表达式模板中,匹配电力词汇对应的语义表达式。
解析单元23具体用于对匹配的语义表达式进行解析,结合电力词汇得到查询表达式。
排序单元25包括:计算模块,用于根据预设排序指标计算检索结果的排序因子,其中,预设排序指标包括:权重、时间、查询词与语义表达式的匹配度、检索热度;排序模块,用于按照排序因子由大到小的顺序对检索结果进行排序。
上述排序因子可以是权重因子值、时间因子值、匹配度因子值和检索热度因子值的和。
在一个实施例中,上述装置还可以包括:调整单元,用于结合用户搜索日志,对电网调度领域知识库、语义表达式模板、结构化数据索引文件、预设排序指标进行调整和优化。
在实际应用中,可以利用缓存服务器对检索结果进行缓存,利用索引服务器建立索引。
当然,上述模块划分只是一种示意划分,本发明并不局限于此。只要能实现本发明的目的的模块划分,均应属于本发明的保护范围。
综上所述,本发明提供的电网调度结构化数据的检索方法及装置,基于电网调度结构化数据,挖掘电网一、二次设备台帐、发电、检修、故障、缺陷、异常、投退、运行等各类数据之间的关联关系,建立了调度全数据协同搜索引擎系统,实现对省、地、县三级调度业务结构化、非结构化数据准确定位、快速检索,提高各类业务数据应用效率。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种电网调度结构化数据的检索方法,其特征在于,包括:
接收用户输入的查询词;
在预先构建的语义表达式模板中匹配所述查询词对应的语义表达式;
对匹配的语义表达式进行解析,结合所述查询词得到查询表达式;
根据所述查询表达式中的查询条件,在预先构建的结构化数据索引文件中进行检索,得到检索结果,其中,所述结构化数据索引文件是基于结构化数据与预先构建的电网调度领域知识库的关系构建的,所述电网调度领域知识库包括:关键词、关键词所属的类别、类别对应的一个或多个特征、类别之间的关系;所述检索结果包括与所述查询词关联的数据;
按照预设排序指标对所述检索结果进行排序;
输出排序后的检索结果。
2.根据权利要求1所述的方法,其特征在于,在接收用户输入的查询词之前,所述方法还包括:
构建所述电网调度领域知识库;
从数据库中获取结构化数据,基于所述电网调度领域知识库,建立各个类别与结构化数据之间的关系,得到多个数据表;
利用倒排索引技术基于各个关键词与结构化数据之间的关系构建所述结构化数据索引文件;
为每个数据表构建语义表达式模板。
3.根据权利要求2所述的方法,其特征在于,为每个数据表构建语义表达式模板,包括:
针对每个数据表,根据该数据表对应的查询条件以及返回结果建立语义表达式模板,其中所述语义表达式模板包括:该数据表用到的所有查询条件的组合以及所有返回结果的组合。
4.根据权利要求1所述的方法,其特征在于,
在预先构建的语义表达式模板中匹配所述查询词对应的语义表达式,包括:
将所述查询词拆分成一个或多个词汇;
根据所述电网调度领域知识库,在所述一个或多个词汇中选取电力词汇,删除无用的词汇;
在所述预先构建的语义表达式模板中,匹配所述电力词汇对应的语义表达式;
对匹配的语义表达式进行解析,结合所述查询词得到查询表达式,包括:对匹配的语义表达式进行解析,结合所述电力词汇得到所述查询表达式。
5.根据权利要求1所述的方法,其特征在于,按照预设排序指标对所述检索结果进行排序,包括:
根据所述预设排序指标计算所述检索结果的排序因子,其中,所述预设排序指标包括:权重、时间、查询词与语义表达式的匹配度、检索热度;
按照排序因子由大到小的顺序对所述检索结果进行排序。
6.根据权利要求5所述的方法,其特征在于,所述排序因子是权重因子值、时间因子值、匹配度因子值和检索热度因子值的和。
7.根据权利要求1所述的方法,其特征在于,在输出排序后的检索结果之后,所述方法还包括:
结合用户搜索日志,对所述电网调度领域知识库、所述语义表达式模板、所述结构化数据索引文件、所述预设排序指标进行调整和优化。
8.一种电网调度结构化数据的检索装置,其特征在于,包括:
接收单元,用于接收用户输入的查询词;
匹配单元,用于在预先构建的语义表达式模板中匹配所述查询词对应的语义表达式;
解析单元,用于对匹配的语义表达式进行解析,结合所述查询词得到查询表达式;
检索单元,用于根据所述查询表达式中的查询条件,在预先构建的结构化数据索引文件中进行检索,得到检索结果,其中,所述结构化数据索引文件是基于结构化数据与预先构建的电网调度领域知识库的关系构建的,所述电网调度领域知识库包括:关键词、关键词所属的类别、类别对应的一个或多个特征、类别之间的关系;所述检索结果包括与所述查询词关联的数据;
排序单元,用于按照预设排序指标对所述检索结果进行排序;
输出单元,用于输出排序后的检索结果。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
构建单元,用于构建所述电网调度领域知识库;从数据库中获取结构化数据,基于所述电网调度领域知识库,建立各个类别与结构化数据之间的关系,得到多个数据表;利用倒排索引技术基于各个关键词与结构化数据之间的关系构建所述结构化数据索引文件;为每个数据表构建语义表达式模板。
10.根据权利要求9所述的装置,其特征在于,所述构建单元具体用于:针对每个数据表,根据该数据表对应的查询条件以及返回结果建立语义表达式模板,其中所述语义表达式模板包括:该数据表用到的所有查询条件的组合以及所有返回结果的组合。
11.根据权利要求8所述的装置,其特征在于,
所述匹配单元包括:
拆分模块,用于将所述查询词拆分成一个或多个词汇;
处理模块,用于根据所述电网调度领域知识库,在所述一个或多个词汇中选取电力词汇,删除无用的词汇;
匹配模块,用于在所述预先构建的语义表达式模板中,匹配所述电力词汇对应的语义表达式;
所述解析单元具体用于对匹配的语义表达式进行解析,结合所述电力词汇得到所述查询表达式。
12.根据权利要求8所述的装置,其特征在于,所述排序单元包括:
计算模块,用于根据所述预设排序指标计算所述检索结果的排序因子,其中,所述预设排序指标包括:权重、时间、查询词与语义表达式的匹配度、检索热度;
排序模块,用于按照排序因子由大到小的顺序对所述检索结果进行排序。
13.根据权利要求12所述的装置,其特征在于,所述排序因子是权重因子值、时间因子值、匹配度因子值和检索热度因子值的和。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
调整单元,用于结合用户搜索日志,对所述电网调度领域知识库、所述语义表达式模板、所述结构化数据索引文件、所述预设排序指标进行调整和优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610011518.4A CN105677864A (zh) | 2016-01-08 | 2016-01-08 | 电网调度结构化数据的检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610011518.4A CN105677864A (zh) | 2016-01-08 | 2016-01-08 | 电网调度结构化数据的检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105677864A true CN105677864A (zh) | 2016-06-15 |
Family
ID=56299645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610011518.4A Pending CN105677864A (zh) | 2016-01-08 | 2016-01-08 | 电网调度结构化数据的检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105677864A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649661A (zh) * | 2016-12-13 | 2017-05-10 | 税云网络科技服务有限公司 | 知识库构建方法和装置 |
CN106886950A (zh) * | 2017-01-24 | 2017-06-23 | 国家电网公司 | 一种电网调度指令自动生成的方法 |
CN107798123A (zh) * | 2017-11-10 | 2018-03-13 | 上海智臻智能网络科技股份有限公司 | 知识库及其建立、修改、智能问答方法、装置及设备 |
CN109299466A (zh) * | 2018-10-22 | 2019-02-01 | 中国船舶工业综合技术经济研究院 | 一种面向国防科技领域的文献检索方法及系统 |
CN109947908A (zh) * | 2017-11-22 | 2019-06-28 | 上海智臻智能网络科技股份有限公司 | 机器人知识库的建设方法及建设系统 |
CN109949186A (zh) * | 2019-03-26 | 2019-06-28 | 苏州大成有方数据科技有限公司 | 一种知识产权非结构化语义智能处理系统 |
CN110442563A (zh) * | 2019-07-16 | 2019-11-12 | 深圳供电局有限公司 | 一种面向电力行业的知识提取方法及其系统、计算机可读存储介质 |
CN110704577A (zh) * | 2019-10-10 | 2020-01-17 | 国家电网公司华中分部 | 一种电网调度数据的搜索方法及系统 |
CN111309870A (zh) * | 2020-03-04 | 2020-06-19 | 平安养老保险股份有限公司 | 数据快速搜索方法、装置及计算机设备 |
CN112069400A (zh) * | 2020-08-26 | 2020-12-11 | 贵州电网有限责任公司 | 一种基于地区电网信息的全网搜索方法 |
CN112307171A (zh) * | 2020-10-30 | 2021-02-02 | 中国电力科学研究院有限公司 | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 |
CN113515488A (zh) * | 2021-09-13 | 2021-10-19 | 浙江省标准化研究院(金砖国家标准化(浙江)研究中心、浙江省物品编码中心) | 一种标准体系建立方法及系统 |
CN113742558A (zh) * | 2021-08-30 | 2021-12-03 | 武汉海昌信息技术有限公司 | 多种数据库兼容和并存的查询方法、系统、设备及介质 |
CN114860778A (zh) * | 2022-05-30 | 2022-08-05 | 上海博般数据技术有限公司 | 电网计量数据的检索方法 |
CN115357602A (zh) * | 2022-10-19 | 2022-11-18 | 广东电网有限责任公司佛山供电局 | 一种变电站运维工作数据需求获取方法和系统 |
CN116991977A (zh) * | 2023-09-25 | 2023-11-03 | 成都不烦智能科技有限责任公司 | 一种基于大语言模型的领域向量知识精准检索方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6556983B1 (en) * | 2000-01-12 | 2003-04-29 | Microsoft Corporation | Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space |
CN101388026A (zh) * | 2008-10-09 | 2009-03-18 | 浙江大学 | 一种基于领域本体的语义索引方法 |
US7516123B2 (en) * | 2005-04-14 | 2009-04-07 | International Business Machines Corporation | Page rank for the semantic web query |
CN101436186A (zh) * | 2007-11-12 | 2009-05-20 | 北京搜狗科技发展有限公司 | 一种提供相关搜索的方法及系统 |
CN102073725A (zh) * | 2011-01-11 | 2011-05-25 | 百度在线网络技术(北京)有限公司 | 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统 |
CN102073726A (zh) * | 2011-01-11 | 2011-05-25 | 百度在线网络技术(北京)有限公司 | 搜索引擎系统及该搜索引擎系统的结构化数据引入方法 |
CN103412925A (zh) * | 2013-08-13 | 2013-11-27 | 南京烽火星空通信发展有限公司 | 一种结构化数据和非结构化数据综合检索的系统及方法 |
-
2016
- 2016-01-08 CN CN201610011518.4A patent/CN105677864A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6556983B1 (en) * | 2000-01-12 | 2003-04-29 | Microsoft Corporation | Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space |
US7516123B2 (en) * | 2005-04-14 | 2009-04-07 | International Business Machines Corporation | Page rank for the semantic web query |
CN101436186A (zh) * | 2007-11-12 | 2009-05-20 | 北京搜狗科技发展有限公司 | 一种提供相关搜索的方法及系统 |
CN101388026A (zh) * | 2008-10-09 | 2009-03-18 | 浙江大学 | 一种基于领域本体的语义索引方法 |
CN102073725A (zh) * | 2011-01-11 | 2011-05-25 | 百度在线网络技术(北京)有限公司 | 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统 |
CN102073726A (zh) * | 2011-01-11 | 2011-05-25 | 百度在线网络技术(北京)有限公司 | 搜索引擎系统及该搜索引擎系统的结构化数据引入方法 |
CN103412925A (zh) * | 2013-08-13 | 2013-11-27 | 南京烽火星空通信发展有限公司 | 一种结构化数据和非结构化数据综合检索的系统及方法 |
Non-Patent Citations (1)
Title |
---|
基于语义WEB技术的电网运行数据智能检索系统的研究与实现: "阎博等", 《华北电力技术》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649661A (zh) * | 2016-12-13 | 2017-05-10 | 税云网络科技服务有限公司 | 知识库构建方法和装置 |
CN106886950B (zh) * | 2017-01-24 | 2020-06-23 | 国家电网公司 | 一种电网调度指令自动生成的方法 |
CN106886950A (zh) * | 2017-01-24 | 2017-06-23 | 国家电网公司 | 一种电网调度指令自动生成的方法 |
CN107798123A (zh) * | 2017-11-10 | 2018-03-13 | 上海智臻智能网络科技股份有限公司 | 知识库及其建立、修改、智能问答方法、装置及设备 |
CN109947908A (zh) * | 2017-11-22 | 2019-06-28 | 上海智臻智能网络科技股份有限公司 | 机器人知识库的建设方法及建设系统 |
CN109299466B (zh) * | 2018-10-22 | 2023-07-07 | 中国船舶工业综合技术经济研究院 | 一种面向国防科技领域的文献检索方法及系统 |
CN109299466A (zh) * | 2018-10-22 | 2019-02-01 | 中国船舶工业综合技术经济研究院 | 一种面向国防科技领域的文献检索方法及系统 |
CN109949186B (zh) * | 2019-03-26 | 2023-12-08 | 苏州大成有方数据科技有限公司 | 一种知识产权非结构化语义智能处理系统 |
CN109949186A (zh) * | 2019-03-26 | 2019-06-28 | 苏州大成有方数据科技有限公司 | 一种知识产权非结构化语义智能处理系统 |
CN110442563A (zh) * | 2019-07-16 | 2019-11-12 | 深圳供电局有限公司 | 一种面向电力行业的知识提取方法及其系统、计算机可读存储介质 |
CN110704577A (zh) * | 2019-10-10 | 2020-01-17 | 国家电网公司华中分部 | 一种电网调度数据的搜索方法及系统 |
CN111309870A (zh) * | 2020-03-04 | 2020-06-19 | 平安养老保险股份有限公司 | 数据快速搜索方法、装置及计算机设备 |
CN111309870B (zh) * | 2020-03-04 | 2022-11-18 | 平安养老保险股份有限公司 | 数据快速搜索方法、装置及计算机设备 |
CN112069400A (zh) * | 2020-08-26 | 2020-12-11 | 贵州电网有限责任公司 | 一种基于地区电网信息的全网搜索方法 |
CN112069400B (zh) * | 2020-08-26 | 2023-12-01 | 贵州电网有限责任公司 | 一种基于地区电网信息的全网搜索方法 |
CN112307171A (zh) * | 2020-10-30 | 2021-02-02 | 中国电力科学研究院有限公司 | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 |
CN112307171B (zh) * | 2020-10-30 | 2022-02-11 | 中国电力科学研究院有限公司 | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 |
CN113742558A (zh) * | 2021-08-30 | 2021-12-03 | 武汉海昌信息技术有限公司 | 多种数据库兼容和并存的查询方法、系统、设备及介质 |
CN113515488A (zh) * | 2021-09-13 | 2021-10-19 | 浙江省标准化研究院(金砖国家标准化(浙江)研究中心、浙江省物品编码中心) | 一种标准体系建立方法及系统 |
CN114860778A (zh) * | 2022-05-30 | 2022-08-05 | 上海博般数据技术有限公司 | 电网计量数据的检索方法 |
CN115357602B (zh) * | 2022-10-19 | 2023-03-24 | 广东电网有限责任公司佛山供电局 | 一种变电站运维工作数据需求获取方法和系统 |
CN115357602A (zh) * | 2022-10-19 | 2022-11-18 | 广东电网有限责任公司佛山供电局 | 一种变电站运维工作数据需求获取方法和系统 |
CN116991977A (zh) * | 2023-09-25 | 2023-11-03 | 成都不烦智能科技有限责任公司 | 一种基于大语言模型的领域向量知识精准检索方法及装置 |
CN116991977B (zh) * | 2023-09-25 | 2023-12-05 | 成都不烦智能科技有限责任公司 | 一种基于大语言模型的领域向量知识精准检索方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105677864A (zh) | 电网调度结构化数据的检索方法及装置 | |
CN109635127B (zh) | 一种基于大数据技术的电力设备画像知识图谱构建方法 | |
CN104899143B (zh) | 提供数据挖掘的软件同行评审系统实现装置 | |
CN108492134A (zh) | 基于多周期回归树集成的大数据用户用电行为分析系统 | |
CN111241129B (zh) | 一种工业生产企业指标数据采集与计算的系统 | |
CN110704577A (zh) | 一种电网调度数据的搜索方法及系统 | |
CN112183379A (zh) | 一种面向报表的多维度管理分析方法及系统 | |
CN104732322A (zh) | 电力通信网机房移动运维方法 | |
CN109389270A (zh) | 一种物流对象确定方法、装置和机器可读介质 | |
CN112948572A (zh) | 通过知识图谱可视化展示电力系统设备信息与关系的方法 | |
CN109766416A (zh) | 一种新能源政策信息抽取方法及系统 | |
CN110543951A (zh) | 一种铁路桥梁检养修虚拟助理系统 | |
CN115271116A (zh) | 电网二次设备故障追溯、运维服务方法及系统 | |
CN115757810A (zh) | 一种知识图谱标准本体构建方法 | |
CN113204329A (zh) | 统一数据模型驱动业务应用的控制方法及其应用系统 | |
CN116010570A (zh) | 基于知识图谱的电力数据的查询方法、装置及电子设备 | |
CN113421037A (zh) | 一种多源协同建设规划编制方法和装置 | |
CN116303641B (zh) | 一种支持多数据源可视化配置的实验室报告管理方法 | |
CN112395716A (zh) | 一种基于多源异构生产数据的配电网拓扑结构生成方法 | |
CN115937881A (zh) | 一种知识图谱构建标准表格内容自动识别方法 | |
CN110515926A (zh) | 基于分词和语义依存分析的异构数据源海量数据梳理方法 | |
CN107577690B (zh) | 海量信息数据的推荐方法及推荐装置 | |
CN107766452B (zh) | 一种适合电力调度数据高速存取的索引系统及其索引方法 | |
CN115759253A (zh) | 电网运维知识图谱构建方法及系统 | |
CN115688729A (zh) | 一种输变电工程造价数据集成管理系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160615 |
|
RJ01 | Rejection of invention patent application after publication |