CN111274355A - 一种基于lucene的主厂站遥信信号自动对比方法 - Google Patents
一种基于lucene的主厂站遥信信号自动对比方法 Download PDFInfo
- Publication number
- CN111274355A CN111274355A CN202010043147.4A CN202010043147A CN111274355A CN 111274355 A CN111274355 A CN 111274355A CN 202010043147 A CN202010043147 A CN 202010043147A CN 111274355 A CN111274355 A CN 111274355A
- Authority
- CN
- China
- Prior art keywords
- lucene
- alarm signal
- signal data
- word segmentation
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
Abstract
本发明公开了一种基于lucene的主厂站遥信信号自动对比方法,该方法包括将lucene数据库中待对比的主站告警信号数据和厂站告警信号数据分别进行分词处理,得到两个分词集合;对两个所述分词集合分别进行词频统计,并建立每个分词集合的词频向量;根据每个分词集合的词频向量,采用余弦相似度计算主站告警信号数据和厂站告警信号数据的相似度;根据计算得到的相似度和预设对比精度要求,确定对比结果。本发明实现了主厂站遥信信息自动核对验收,对比速度快、数据准确可靠,大幅减轻了主厂站人员的数据对比工作量,同时降低人工核对中的信息遗漏、信息错误的风险,在运行管理及应用方面,进一步促进主厂站业务协同,大大提升了调度自动化运维水平及工作效率。
Description
技术领域
本发明涉及数据信号处理技术领域,尤其涉及一种基于lucene的主厂站遥信信号自动对比方法。
背景技术
电网的正常运行离不开变电站的支撑,变电站的设备状态是运行调度的关键,对调度安全运行起支撑作用。变电站设备远动数据是通过远动终端设备,将变电站电力设备的运行状态实时上传至调度自动化主站系统,电网调度人员根据主站告警平台显示的遥信信息完成对变电站的运行监控。
在远动数据“四遥”当中,遥信信号是电网调度最重要的信号之一,它反映变电站各种电气设备的实际运行状态,对于变电站的设备保护及信息传递有着至关重要的作用。在变电站新投、扩建、改建,又或者运行设备改造、预试、定检等日常工作中,需要主站调度自动化班人员和变电站现场运行维护人员、调试人员对变电站内运行设备遥信信息进行人工对比校验确认,确保调度自动化系统显示的设备状态与变电站现场设备实际状态一致,保证调控员可以正确进行电力调度。
一个变电站有上千个信号需要验收,而这么多的变电站需验收的遥信量成千上万个。当有大量信号需要验收时,采用目前人工对比方法工作量大,任务重,需要耗费自动化人员与变电站继保人员大量的时间及精力。人工核验存在以下几个问题
(1)双方人员验收配合问题
遥信验收需要自动化人员与变电站人员双方相互配合才能开展验收工作。双方人员到达各自工作现场,都需要时间,同时也受到天气、交通等外在因素影响,造成验收工作延误或者取消等情况出现,又或者在验收中途受到其他紧急因素影响,导致验收中断,最终增加双方工作量,延长验收周期,从而影响验收工作和设备投产。
(2)OPEN-3000验收工具限制
主站自动化人员对遥信信号进行验收时,需要锁定OPEN-3000系统实时告警窗口,查找需要验收的设备遥信信号数据,与变电站运维人员进行核对验收。当短时间内有大量遥信信号上送时,自动化人员需要花费大量的时间确认需要验收的遥信信号,且容易受到其他非验收数据干扰,对验收工作造成一定的影响。
(3)信息点表信息不规范
当自动化人员根据变电现场提供的设备信息点表进行逐条验收时,由于设备厂家标准不统一,信息点表命名存在不规范或不完整,有时需要靠经验进行判断告警信号是否一致,这无形当中影响验收的效率,也容易出现判断错误。
发明内容
本发明提供一种基于lucene的主厂站遥信信号自动对比方法,以解决现有技术的不足。
为实现上述目的,本发明提供以下的技术方案:
一种基于lucene的主厂站遥信信号自动对比方法,所述方法包括:
将lucene数据库中待对比的主站告警信号数据和厂站告警信号数据分别进行分词处理,得到两个分词集合;
对两个所述分词集合分别进行词频统计,并建立每个所述分词集合的词频向量;
根据每个所述分词集合的所述词频向量,采用余弦相似度计算主站告警信号数据和厂站告警信号数据的相似度;
根据计算得到的所述相似度和预设对比精度要求,确定对比结果。
进一步地,所述基于lucene的主厂站遥信信号自动对比方法中,在所述将lucene数据库中的主站告警信号数据和厂站告警信号数据分别进行分词处理,得到两个分词集合的步骤之前,所述方法还包括:
收集各厂站的厂站告警信号数据,并存入lucene数据库中。
进一步地,所述基于lucene的主厂站遥信信号自动对比方法中,所述词频向量是由0和1组成的多元向量。
进一步地,所述基于lucene的主厂站遥信信号自动对比方法中,在所述根据每个所述分词集合的所述词频向量,采用余弦相似度计算主站告警信号数据和厂站告警信号数据的相似度的步骤之后,所述方法还包括:
输出所述对比结果。
进一步地,所述基于lucene的主厂站遥信信号自动对比方法中,分词处理采用分词器执行。
进一步地,所述基于lucene的主厂站遥信信号自动对比方法中,所述根据计算得到的所述相似度和预设对比精度要求,确定对比结果的步骤包括:
获取预设对比精度要求;
判断计算得到的所述相似度是否满足预设对比精度要求;
若是,则确定对比结果为匹配,若否,则确定对比结果为不匹配。
本发明实施例提供的一种基于lucene的主厂站遥信信号自动对比方法,实现了主厂站遥信信息自动核对验收,操作便捷、对比速度快,以及数据准确可靠,大幅度减轻了主站自动化人员和厂站端变电人员的数据对比工作量,同时能降低人工核对中的信息遗漏、信息错误的风险,在运行管理及应用方面,进一步促进主厂站业务协同,大大提升了调度自动化运维水平及工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种基于lucene的主厂站遥信信号自动对比方法的流程示意图;
图2是本发明实施例提供的Lucene系统结构图;
图3是本发明实施例提供的余弦相似度计算图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
请参阅附图1,为本发明实施例一提供的一种基于lucene的主厂站遥信信号自动对比方法的流程示意图。该方法具体包括如下步骤:
S101、将lucene数据库中待对比的主站告警信号数据和厂站告警信号数据分别进行分词处理,得到两个分词集合。
优选的,在步骤S101之前,所述方法还包括:
收集各厂站的厂站告警信号数据,并存入lucene数据库中。
优选的,在步骤S101之后,所述方法还包括:
输出所述对比结果。
需要说明的是,Lucene是一个开源的全文检索引擎工具包(类库),在众多开源搜索引擎开发工具中,Apache的Lucene可谓是全世界最优秀的全文搜索引擎架构和开发工具包之一,提供了完整的查询引擎和索引引擎,以及部分文本分析的引擎。Lucene以其优异的索引结构、高性能、可伸缩、跨平台、易使用性和开源等特性,被广泛地用来构建实用的全文搜索应用系统,或被集成于多类软件开发环境之中。
Lucene系统结构图如图2所示,首先Lucene对数据源进行抽取,然后将数据解析后转换成Lucene可以识别的数据结构,然后进行(中文)分词处理,通过索引模块将数据建立索引库文件。
S102、对两个所述分词集合分别进行词频统计,并建立每个所述分词集合的词频向量。
其中,所述词频向量是由0和1组成的多元向量。
分词处理采用分词器执行。
需要说明的是,中文分词就是按照一定规则将连续的汉语文本序列切分为具有独立语义的词组的过程。本发明系统采用目前较为主流的词库分词技术。词库分词是以能表达一定意义的词为基本检索单位,并根据词的出现位置进行索引和检索的中文分词方法。该类分词技术的常见分词器有IK Analyzer。
IK Analyzer是一个基于java语言开发的轻量级的中文分词工具包,以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件,在IK Analyzer2012版本中,该分词器支持中文、英文、数字混合词语的分词,可根据待分词文本进行细粒度切分和智能切分,并已实现了简单的分词歧义排除算法。根据本项目主、厂站告警数据特点,本系统使用IK Analyzer分词器对遥信告警信号相关数据进行分词。
JSP全名为Java Server Pages,中文名叫java服务器页面,其根本是一个简化的Servlet设计。JSP技术为Java语言编写XML的Tags和Scriptlets提供了一种方法,能够封装产生动态网页的处理逻辑。网页还能通过Tags和Scripflets访问存在于服务端的资源的应用逻辑。JSP将网页逻辑与网页设计和显示分离,支持可重用的基于组件的设计,使基于Web的应用程序的开发变得迅速和容易。
Struts2是一个基于MVC设计模式的Web应用框架,它本质上相当于一个servlet,在MVC设计模式中,Struts2作为控制器(Controller)来建立模型与视图的数据交互。Struts2是Struts的下一代产品,是在struts1和WebWork的技术基础上进行了合并的全新的Struts2框架。该技术方便了界面与服务端的交互。Struts2的引入以WebWork为核心,采用拦截器的机制来处理用户的请求,这样的设计也使得业务逻辑控制器能够与ServletAPI完全脱离开。
TF-IDF(term frequency–inverse document frequency,词频-逆文件频率)是一种用于信息检索与数据挖掘的常用加权技术,其中TF代表词频,IDF代表逆文档频率。权重计算方法经常会和余弦相似度(cosine similarity)一同使用于向量空间模型中,用以判断两个文本之间的相似性。
权重计算公式:
TF–IDF=TF*IDF
词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。
S103、根据每个所述分词集合的所述词频向量,采用余弦相似度计算主站告警信号数据和厂站告警信号数据的相似度。
需要说明的是,余弦相似度就是通过一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小。把1设为相同,0设为不同,那么相似度的值就是在0~1之间,所有的事物的相似度范围都应该是0~1。余弦相似度的特点是余弦值接近1,夹角趋于0,表明两个向量越相似。
余弦相似度计算图如图3所示,三角形越扁平,证明两个个体间的距离越小,相似度越大;反之,相似度越小。
通过计算模型公式可以明确的求出余弦相似度的值。那么对于我们写程序实现这个算法,就是把两个个体转换为向量,然后通过这个公式求出最终解。
相似度计算公式:
S104、根据计算得到的所述相似度和预设对比精度要求,确定对比结果。
具体的,所述步骤S104进一步包括:
获取预设对比精度要求;
判断计算得到的所述相似度是否满足预设对比精度要求;
若是,则确定对比结果为匹配,若否,则确定对比结果为不匹配。
为了便于理解,本实施例以一组主站、厂站数据为例做具体说明:
主站告警信号数据(设备名)为A:35kV金坑线313开关控制回路断线;
厂站告警信号数据(设备名)为B:35kV金坑线313开关保护控制回路断线;
相似度对比计算过程为:
(1)利用分词器,得出分词结果
A:35kV金坑线/313开关/控制/回路/断线;
B:35kV金坑线/313开关/保护/控制/回路/断线;
(2)根据分词结果,形成分词集合
35kV金坑线,313开关,控制,回路,断线,保护;
(3)根据分词结果,计算词频,并建立词频向量
词频:
A:35kV金坑线1,313开关1,控制1,回路1,断线1,保护0;
B:35kV金坑线1,313开关1,控制1,回路1,断线1,保护1;
词频向量:
句子A:[1,1,1,1,1,0]
句子B:[1,1,1,1,1,1]
(4)计算相似度
需要说明的是,预设对比精度要求根据实际需要而定,比如要求高的可制定为相似度需达到90%以上才确定为匹配。
本发明实施例提供的一种基于lucene的主厂站遥信信号自动对比方法,实现了主厂站遥信信息自动核对验收,操作便捷、对比速度快,以及数据准确可靠,大幅度减轻了主站自动化人员和厂站端变电人员的数据对比工作量,同时能降低人工核对中的信息遗漏、信息错误的风险,在运行管理及应用方面,进一步促进主厂站业务协同,大大提升了调度自动化运维水平及工作效率。
至此,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种基于lucene的主厂站遥信信号自动对比方法,其特征在于,所述方法包括:
将lucene数据库中待对比的主站告警信号数据和厂站告警信号数据分别进行分词处理,得到两个分词集合;
对两个所述分词集合分别进行词频统计,并建立每个所述分词集合的词频向量;
根据每个所述分词集合的所述词频向量,采用余弦相似度计算主站告警信号数据和厂站告警信号数据的相似度;
根据计算得到的所述相似度和预设对比精度要求,确定对比结果。
2.根据权利要求1所述的基于lucene的主厂站遥信信号自动对比方法,其特征在于,在所述将lucene数据库中的主站告警信号数据和厂站告警信号数据分别进行分词处理,得到两个分词集合的步骤之前,所述方法还包括:
收集各厂站的厂站告警信号数据,并存入lucene数据库中。
3.根据权利要求1所述的基于lucene的主厂站遥信信号自动对比方法,其特征在于,所述词频向量是由0和1组成的多元向量。
4.根据权利要求1所述的基于lucene的主厂站遥信信号自动对比方法,其特征在于,在所述根据每个所述分词集合的所述词频向量,采用余弦相似度计算主站告警信号数据和厂站告警信号数据的相似度的步骤之后,所述方法还包括:
输出所述对比结果。
5.根据权利要求1所述的基于lucene的主厂站遥信信号自动对比方法,其特征在于,分词处理采用分词器执行。
6.根据权利要求1所述的基于lucene的主厂站遥信信号自动对比方法,其特征在于,所述根据计算得到的所述相似度和预设对比精度要求,确定对比结果的步骤包括:
获取预设对比精度要求;
判断计算得到的所述相似度是否满足预设对比精度要求;
若是,则确定对比结果为匹配,若否,则确定对比结果为不匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010043147.4A CN111274355A (zh) | 2020-01-15 | 2020-01-15 | 一种基于lucene的主厂站遥信信号自动对比方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010043147.4A CN111274355A (zh) | 2020-01-15 | 2020-01-15 | 一种基于lucene的主厂站遥信信号自动对比方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111274355A true CN111274355A (zh) | 2020-06-12 |
Family
ID=71003148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010043147.4A Pending CN111274355A (zh) | 2020-01-15 | 2020-01-15 | 一种基于lucene的主厂站遥信信号自动对比方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274355A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508404A (zh) * | 2020-12-07 | 2021-03-16 | 云南电网有限责任公司普洱供电局 | 配电网设备运行的自动验收方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978320A (zh) * | 2014-04-02 | 2015-10-14 | 东华软件股份公司 | 一种基于相似度的知识推荐方法和设备 |
CN105117827A (zh) * | 2015-08-05 | 2015-12-02 | 国网浙江省电力公司 | 一种变电站的监控信息表核对系统及方法 |
CN106329730A (zh) * | 2016-09-14 | 2017-01-11 | 国网江苏省电力公司连云港供电公司 | 基于智能电网调度系统的变站监控信息自动验收系统 |
CN109217470A (zh) * | 2018-09-07 | 2019-01-15 | 国网江苏省电力有限公司连云港供电分公司 | 基于验收卡的主子站监控信息自动验收与校核方法及系统 |
CN110119417A (zh) * | 2019-06-11 | 2019-08-13 | 广东电网有限责任公司 | 一种变电站远动数据智能校核分析系统及校核分析方法 |
-
2020
- 2020-01-15 CN CN202010043147.4A patent/CN111274355A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978320A (zh) * | 2014-04-02 | 2015-10-14 | 东华软件股份公司 | 一种基于相似度的知识推荐方法和设备 |
CN105117827A (zh) * | 2015-08-05 | 2015-12-02 | 国网浙江省电力公司 | 一种变电站的监控信息表核对系统及方法 |
CN106329730A (zh) * | 2016-09-14 | 2017-01-11 | 国网江苏省电力公司连云港供电公司 | 基于智能电网调度系统的变站监控信息自动验收系统 |
CN109217470A (zh) * | 2018-09-07 | 2019-01-15 | 国网江苏省电力有限公司连云港供电分公司 | 基于验收卡的主子站监控信息自动验收与校核方法及系统 |
CN110119417A (zh) * | 2019-06-11 | 2019-08-13 | 广东电网有限责任公司 | 一种变电站远动数据智能校核分析系统及校核分析方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508404A (zh) * | 2020-12-07 | 2021-03-16 | 云南电网有限责任公司普洱供电局 | 配电网设备运行的自动验收方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112527997B (zh) | 一种基于电网领域调度场景知识图谱的智能问答方法及系统 | |
CN110175324B (zh) | 一种基于数据挖掘的电网运行操作指令校验方法及系统 | |
CN102436523A (zh) | 数字化变电站间隔接线图自动成图方法 | |
CN102030111A (zh) | 一种飞机cfds数据分析器及其实现方法 | |
CN112905804A (zh) | 一种电网调度知识图谱的动态更新方法及装置 | |
CN109274178B (zh) | 一种电力调度前置运行信息的自动化分析系统和方法 | |
CN111625964B (zh) | 基于逻辑关系构建变电站图模方法、系统及设备 | |
CN108320073A (zh) | 基于cim-e语言的继电保护装置定值信息的描述方法 | |
CN106296456B (zh) | 智能变电站二次检修安全措施支持系统及构建方法 | |
CN111274355A (zh) | 一种基于lucene的主厂站遥信信号自动对比方法 | |
CN104484271B (zh) | 一种一体化业务平台导出模型的校验方法 | |
CN111340253B (zh) | 一种主网检修申请单的解析方法及系统 | |
CN111611665A (zh) | 一种基于三维模块化设计的智能变电站设计方法 | |
CN116108203A (zh) | 电网全景调度知识图谱构建和电网设备管理的方法、系统、存储介质及设备 | |
Ye et al. | Research on unified information model for big data analysis of power grid equipment monitoring | |
CN108304947A (zh) | 基于scd文件对象模型的二次设备安全优化方法及系统 | |
CN104598628A (zh) | 基于sax的智能变电站scd解析方法 | |
CN117370865A (zh) | 倒闸操作票的生成方法、装置及设备 | |
CN109543852A (zh) | 用于智能变电站的光缆连接信息解析方法和装置 | |
CN109388838B (zh) | 基于语义强度分层的scd二次虚回路检查系统及方法 | |
CN108199338A (zh) | 一种保护装置动作正确性评价系统及方法 | |
CN115545578B (zh) | 一种电力调度操作指令信息抽取方法及系统 | |
CN115712839B (zh) | 一种继电保护装置通讯模型自动匹配系统及方法 | |
Li et al. | The data detection platform based on CIM/XML power grid model standard | |
CN114491012A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |