CN106156304A - 一种用于电力系统的数据检索和排序方法 - Google Patents
一种用于电力系统的数据检索和排序方法 Download PDFInfo
- Publication number
- CN106156304A CN106156304A CN201610507929.2A CN201610507929A CN106156304A CN 106156304 A CN106156304 A CN 106156304A CN 201610507929 A CN201610507929 A CN 201610507929A CN 106156304 A CN106156304 A CN 106156304A
- Authority
- CN
- China
- Prior art keywords
- data
- retrieval
- power system
- index
- sort method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000005192 partition Methods 0.000 abstract description 3
- 241001269238 Data Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013386 optimize process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是一种用于电力系统的数据检索和排序方法。包括如下步骤:1)利用分布式文件系统存储数据;2)建立专业知识相关的同义语分词库;3)为数据建立全文索引;4)通过并行化的方式进行检索和排序;5)实现检索的多字段模糊匹配。本发明采用并行计算的方式进行数据的存储、检索和排序,可以实现快速检索,且通过定义专业分词系统提高索引效率。本发明通过全文索引和分布式检索,提高非标准化文本的检索速度;通过检索关键词自学习和同义语定义,实现模糊检索;利用同义语词库,以智能识别术语简称、填写不规范等情况,保证检索结果的业务完整性。本发明简单实用,可直接导入关系数据库的数据并自动建立分布式存储和数据索引,实现快速部署和多场景应用。
Description
技术领域
本发明是一种用于电力系统的数据检索和排序方法,属于用于电力系统的数据检索和排序方法的创新技术。
背景技术
当今电力系统的规模不断扩大,区域性的电力系统整合日益增多,系统运行越来越复杂,对数据的处理能力提出了越来越高的要求。1)出于经济性考虑,现在电力系统一般运行于稳定极限附近,这就要求系统运行人员对出现的问题做出及时快速的反应,而传统的人工监控和简单的阈值报警原则,无法满足更高的安全性要求。2)随着EMS高级应用软件的不断完善和计算机计算速度的不断提升,各种分析结果源源不断地产生,现有系统大多采用数字或文本列表的方式展示信息,当数据量激增时,系统运行人员无法快速获得系统运行状态的重要信息。
以电力调度业务为例,一般会通过专门的软件系统记录电网运行状态,例如所有保护设备监测到的模拟信息、状态信息、告警信息等,以高频度和高密度的形式进入系统。而从数据的存储形式上来看,目前电力调度专业的数据仍旧以实时数据库和关系数据库为主。另一方面,现场操作人员通过手工记录的方式,留下了大量的说明性文本文字,例如检修记录、调度日志等,这些信息由于不够结构化,难于进行检索和分析。
电网调度专业面临的系统是一个快速变化、需要密切关注的系统,因此积累了大量的数据,而从这些数据中提取出有用的信息以进行进一步的分析,是一项非常重要的工作。
现有技术中,主要依靠关系数据库进行各类数据的检索和排序。其特点如下:
(1)由于数据都是存储在关系数据库中,为了在可接受的时间内得到数据检索结果,对关系数据库的性能要求较高,包括对硬件、数据库管理系统、存储系统的要求。
(2)同时,也需要对数据进行定向的优化。主要的优化方式一般是对重要字段建立索引,以在该字段上进行快速的检索和排序。即便如此,目前的手段对于大数据量的快速检索也难以在足够快的时间内得到结果。
(3)对于类似于“调度日志”的大文本字段,也需要对其进行索引,尽管传统的关系数据库也提供了相应的手段,但索引的效果和查询效率均不尽如人意,对中文文本的支持有限,也无法根据业务场景进行优化。
数据库索引能够大大提高查询的速度原理如同书籍后面常常附关键词索引表,可以避免检索的时候遍历内容,并且它是排好序的,所以索引效率高。由于数据库索引不是为全文索引设计的,因此,使用like "%keyword%"时,数据库索引是不起作用的,在使用like查询时,搜索过程又变成了遍历过程,所以对于含有模糊查询的数据库服务来说,LIKE对性能的危害是极大的。如果是需要对多个关键词进行模糊匹配:like"%keyword1%" and like"%keyword2%" ...其效率会严重下降。
所以建立一个高效检索系统的关键是建立一个反向索引机制,用专门的结构存储“关键词->文本内容”的映射关系,检索过程就是把模糊查询变成多个可以利用索引的精确查询的逻辑组合的过程,从而提高多关键词查询的效率。
发明内容
本发明的目的在于提供一种用于电力系统的数据检索和排序方法。本发明采用分布式和并行计算的方式进行数据的存储、检索和排序并对大量无规则文本数据的检索进行优化处理,其优势在于快速且可以通过定义专业分词系统提高索引的效率。
本发明采用的技术方案是:本发明的用于电力系统的数据检索和排序方法,包括有如下步骤:
1)利用分布式文件系统存储数据;
2)建立专业知识相关的同义语分词库;
3)为数据建立全文索引;
4)通过并行化的方式进行检索和排序;
5)实现检索的多字段模糊匹配。
本发明主要是采用了并行计算的方式进行数据的存储、检索和排序。其优势在于快速,且可以通过定义专业分词系统提高索引的效率。本发明与现有技术相比,具有如下优点:
1)本发明通过为多字段建立全文索引的方式,实现快速和模糊的检索与排序;
2)本发明通过检索关键词自学习和同义语定义,以智能识别术语简称、填写不规范等情况,保证检索结果的业务完整性;
3)本发明通过全文索引和分布式检索,提高了非标准化文本的检索速度;
本发明是一种可以对大量无规则文本数据的检索进行优化处理,能实现快速检索,提高索引的效率的用于电力系统的数据检索和排序方法。
附图说明
图1为本发明方法的流程图。
具体实施方式
本发明实现了数据的快速检索和排序,具体实施步骤如下:
(1)利用分布式文件系统存储数据
将现有关系数据表数据转换为文本数据,利用分布式文件系统进行存储。即将数据分为若干分块,分别存储在不同的计算节点(物理计算机或者虚拟机),同时用统一的管理软件进行管理。
可以直接将文本形式的数据导入分布式文件系统。同时实现关系数据库专有接口,直接将制定数据库连接的指定表导入分布式文件系统。
(2)建立专业知识相关的同义语分词库
通过自定义分词提高索引效率。例如,对于调度日志数据,常用的专业术语如“临时安措”、“失步解列”、“阀组”等。
定义专业术语同义语词库。以电力专业为例,由于电力专业常用的各类术语有全称、简称和习惯用语等,操作人员手工输入文字的时候,这些属于具有一定的随意性。这会导致检索时无法返回正确和全面的结果。例如“退出运行”与“退运”,“安全措施”与“安措”。此外,还存在一些填写不规范的情况,“500kV”为标准表示法,而常见“50万伏”、“500KV”、“500千伏”等非标准写法。
通过循环自学习功能,对用户的检索词进行统计,不断优化专业分词库和同义语词库。
(3)为数据建立全文索引
利用专业知识相关的同义语分词库,为所有数据建立全文索引。形成如下的索引结构:“关键词=>出现关键词的记录编号、出现次数、位置偏移量”。
当专业术语同义词库更新后,利用优化后的分词库对数据进行重新索引和优化。
(4)通过并行化的方式进行检索和排序
由主控制节点负责处理用户的检索请求。检索请求将分配到多个节点并行进行,并将有序的节点检索结果统一提交到主控制节点,进行汇总和排序。
(5)实现检索的多字段模糊匹配
多字段模糊匹配。基于已建立的索引,对用户请求的检索词进行分词,并进行不区分字段的模糊匹配检索。例如数据包括“设备名称”、“时间”、“事件说明”、“备注”等字段,则用户可以通过“主变 2015 退出运行”的检索命令,检索出所有2015年发生的退运事故。多字段模糊检索则保证,不论检索关键字出现在哪个字段,均可被检出。例如“退运”字段可能出现在“时间说明”或“备注”字段中,均会被正常检出。
Claims (9)
1.一种用于电力系统的数据检索和排序方法,其特征在于包括有如下步骤:
1)利用分布式文件系统存储数据;
2)建立专业知识相关的同义语分词库;
3)为数据建立全文索引;
4)通过并行化的方式进行检索和排序;
5)实现检索的多字段模糊匹配。
2.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于上述步骤1)中,利用分布式文件系统存储数据是将现有关系数据表数据转换为文本数据,利用分布式文件系统进行存储,即将数据分为若干分块,分别存储在不同的计算节点(物理计算机或者虚拟机),同时用统一的管理软件进行管理。
3.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于上述步骤2)中,建立专业知识相关的同义语分词库是通过自定义分词提高索引效率,定义专业术语同义语词库,包括常见的术语、简称、习惯用语、非标准用法、录入不规范。
4.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于上述步骤3)中,为数据建立全文索引是利用专业知识相关的同义语分词库,为所有数据建立关键词对应于数据记录的全文索引。
5.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于上述步骤4)中,通过并行化的方式进行检索和排序是由主控制节点负责处理用户的检索请求;检索请求将分配到多个节点并行进行,并将有序的节点检索结果统一提交到主控制节点,进行汇总和排序。
6.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于上述步骤5)中,检索的多字段模糊匹配是基于已建立的索引,对用户请求的检索词进行分词,并进行不区分字段的模糊匹配检索,保证不论检索关键字出现在哪个字段,均可被检出。
7.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于上述步骤2)中,通过循环自学习功能,对用户的检索词进行统计,不断优化专业分词库和同义语词库,并利用优化后的分词库对数据进行重新索引和优化。
8.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于对数据以记录为对象建立索引,形成如下的索引结构:“关键词=>出现关键词的记录编号、出现次数、位置偏移量”。
9.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于对用户的检索词进行不区分字段的模糊匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610507929.2A CN106156304A (zh) | 2016-07-01 | 2016-07-01 | 一种用于电力系统的数据检索和排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610507929.2A CN106156304A (zh) | 2016-07-01 | 2016-07-01 | 一种用于电力系统的数据检索和排序方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106156304A true CN106156304A (zh) | 2016-11-23 |
Family
ID=57350791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610507929.2A Pending CN106156304A (zh) | 2016-07-01 | 2016-07-01 | 一种用于电力系统的数据检索和排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106156304A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169063A (zh) * | 2017-05-03 | 2017-09-15 | 西安交通大学 | 一种基于社交信息的用户属性预测方法与系统 |
CN107229679A (zh) * | 2017-05-08 | 2017-10-03 | 国网山东省电力公司烟台供电公司 | 一种可即时查找客户所属线路的系统及方法 |
CN110388933A (zh) * | 2019-07-22 | 2019-10-29 | 上海图聚智能科技股份有限公司 | 兴趣点搜索方法、装置、服务器及存储介质 |
CN110765245A (zh) * | 2019-09-19 | 2020-02-07 | 平安科技(深圳)有限公司 | 基于大数据的情感正负判断方法、装置、设备及存储介质 |
CN111090732A (zh) * | 2019-12-23 | 2020-05-01 | 创意信息技术股份有限公司 | 一种电力服务信息热点提取方法、装置和电子设备 |
CN112069400A (zh) * | 2020-08-26 | 2020-12-11 | 贵州电网有限责任公司 | 一种基于地区电网信息的全网搜索方法 |
CN112395866A (zh) * | 2020-11-17 | 2021-02-23 | 中国外运股份有限公司 | 报关单数据匹配方法及装置 |
CN113051898A (zh) * | 2019-12-27 | 2021-06-29 | 北京阿博茨科技有限公司 | 一种面向自然语言搜索结构化数据的词义积累及分词方法、工具和系统 |
CN113239054A (zh) * | 2021-05-11 | 2021-08-10 | 北京百度网讯科技有限公司 | 信息生成方法、相关装置及计算机程序产品 |
CN113268636A (zh) * | 2021-06-22 | 2021-08-17 | 成都科来网络技术有限公司 | 一种基于时序数据的快速检索方法及装置 |
CN113609129A (zh) * | 2021-07-29 | 2021-11-05 | 沈阳蓝天智慧燃气供热有限公司 | 一种基于大数据的热能监控综合检索方法 |
CN117953875A (zh) * | 2024-03-27 | 2024-04-30 | 成都启英泰伦科技有限公司 | 一种基于语义理解的离线语音命令词存储方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441647B (zh) * | 2008-12-25 | 2011-08-17 | 中国烟草总公司郑州烟草研究院 | 企业专利数据库中专利法律状态自动更新方法及系统 |
CN103365880A (zh) * | 2012-03-29 | 2013-10-23 | 百度在线网络技术(北京)有限公司 | 移动终端中应用程序搜索方法及搜索系统以及移动终端 |
CN103412933A (zh) * | 2013-08-20 | 2013-11-27 | 南京物联网应用研究院有限公司 | 一种云搜索平台 |
CN104537101A (zh) * | 2015-01-12 | 2015-04-22 | 杏树林信息技术(北京)有限公司 | 医学信息搜索引擎系统和搜索方法 |
US20150150023A1 (en) * | 2013-11-22 | 2015-05-28 | Decooda International, Inc. | Emotion processing systems and methods |
-
2016
- 2016-07-01 CN CN201610507929.2A patent/CN106156304A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441647B (zh) * | 2008-12-25 | 2011-08-17 | 中国烟草总公司郑州烟草研究院 | 企业专利数据库中专利法律状态自动更新方法及系统 |
CN103365880A (zh) * | 2012-03-29 | 2013-10-23 | 百度在线网络技术(北京)有限公司 | 移动终端中应用程序搜索方法及搜索系统以及移动终端 |
CN103412933A (zh) * | 2013-08-20 | 2013-11-27 | 南京物联网应用研究院有限公司 | 一种云搜索平台 |
US20150150023A1 (en) * | 2013-11-22 | 2015-05-28 | Decooda International, Inc. | Emotion processing systems and methods |
CN104537101A (zh) * | 2015-01-12 | 2015-04-22 | 杏树林信息技术(北京)有限公司 | 医学信息搜索引擎系统和搜索方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169063B (zh) * | 2017-05-03 | 2021-03-02 | 西安交通大学 | 一种基于社交信息的用户属性预测方法与系统 |
CN107169063A (zh) * | 2017-05-03 | 2017-09-15 | 西安交通大学 | 一种基于社交信息的用户属性预测方法与系统 |
CN107229679A (zh) * | 2017-05-08 | 2017-10-03 | 国网山东省电力公司烟台供电公司 | 一种可即时查找客户所属线路的系统及方法 |
CN110388933A (zh) * | 2019-07-22 | 2019-10-29 | 上海图聚智能科技股份有限公司 | 兴趣点搜索方法、装置、服务器及存储介质 |
CN110765245A (zh) * | 2019-09-19 | 2020-02-07 | 平安科技(深圳)有限公司 | 基于大数据的情感正负判断方法、装置、设备及存储介质 |
CN110765245B (zh) * | 2019-09-19 | 2023-08-01 | 平安科技(深圳)有限公司 | 基于大数据的情感正负判断方法、装置、设备及存储介质 |
CN111090732A (zh) * | 2019-12-23 | 2020-05-01 | 创意信息技术股份有限公司 | 一种电力服务信息热点提取方法、装置和电子设备 |
CN113051898A (zh) * | 2019-12-27 | 2021-06-29 | 北京阿博茨科技有限公司 | 一种面向自然语言搜索结构化数据的词义积累及分词方法、工具和系统 |
CN112069400A (zh) * | 2020-08-26 | 2020-12-11 | 贵州电网有限责任公司 | 一种基于地区电网信息的全网搜索方法 |
CN112069400B (zh) * | 2020-08-26 | 2023-12-01 | 贵州电网有限责任公司 | 一种基于地区电网信息的全网搜索方法 |
CN112395866A (zh) * | 2020-11-17 | 2021-02-23 | 中国外运股份有限公司 | 报关单数据匹配方法及装置 |
CN112395866B (zh) * | 2020-11-17 | 2024-02-02 | 中国外运股份有限公司 | 报关单数据匹配方法及装置 |
CN113239054A (zh) * | 2021-05-11 | 2021-08-10 | 北京百度网讯科技有限公司 | 信息生成方法、相关装置及计算机程序产品 |
CN113239054B (zh) * | 2021-05-11 | 2024-05-07 | 北京百度网讯科技有限公司 | 信息生成方法及相关装置 |
CN113268636A (zh) * | 2021-06-22 | 2021-08-17 | 成都科来网络技术有限公司 | 一种基于时序数据的快速检索方法及装置 |
CN113609129A (zh) * | 2021-07-29 | 2021-11-05 | 沈阳蓝天智慧燃气供热有限公司 | 一种基于大数据的热能监控综合检索方法 |
CN117953875A (zh) * | 2024-03-27 | 2024-04-30 | 成都启英泰伦科技有限公司 | 一种基于语义理解的离线语音命令词存储方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156304A (zh) | 一种用于电力系统的数据检索和排序方法 | |
Kotsakis | Structured information retrieval in XML documents | |
CN104281702B (zh) | 基于电力关键词分词的数据检索方法及装置 | |
CN101916263B (zh) | 基于加权编辑距离的模糊关键字查询方法及系统 | |
US20160232211A1 (en) | Keyword expansion method and system, and classified corpus annotation method and system | |
CN108573045A (zh) | 一种基于多阶指纹的比对矩阵相似度检索方法 | |
US10360229B2 (en) | Systems and methods for enterprise data search and analysis | |
Yerra et al. | A sentence-based copy detection approach for web documents | |
US11321336B2 (en) | Systems and methods for enterprise data search and analysis | |
CN104216979B (zh) | 中文工艺专利自动分类系统及利用该系统进行专利分类的方法 | |
CN102004775A (zh) | 一种基于智能搜索的福富企业搜索引擎技术 | |
CN1158460A (zh) | 一种跨语种语料自动分类与检索方法 | |
CN102789452A (zh) | 类似内容提取方法 | |
CN106708814B (zh) | 一种基于关系型数据库的检索方法及装置 | |
CN105335488A (zh) | 一种知识库构建方法 | |
Haddoud et al. | Accurate Keyphrase Extraction from Scientific Papers by Mining Linguistic Information. | |
Kalaivani et al. | The effect of stop word removal and stemming in datapreprocessing | |
CN105868406A (zh) | 基于多数据库的专利检索系统 | |
Niraula et al. | A novel approach to part name discovery in noisy text | |
Zheng et al. | Research on domain term extraction based on conditional random fields | |
Zhao et al. | The application of vector space model in the information retrieval system | |
Al-Ramahi et al. | N-gram-based techniques for arabic text document matching; case study: courses accreditation | |
Yang et al. | Document re-ranking based on global and local terms | |
Suhila et al. | Optimized hybrid approach for topic search using log likelihood and RV coefficient | |
Harige et al. | Generating a large-scale entity linking dictionary from Wikipedia link structure and article text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161123 |
|
RJ01 | Rejection of invention patent application after publication |