CN113780121A - 一种基于人工智能的电系操作指令票自动识别应用方法 - Google Patents
一种基于人工智能的电系操作指令票自动识别应用方法 Download PDFInfo
- Publication number
- CN113780121A CN113780121A CN202111001102.1A CN202111001102A CN113780121A CN 113780121 A CN113780121 A CN 113780121A CN 202111001102 A CN202111001102 A CN 202111001102A CN 113780121 A CN113780121 A CN 113780121A
- Authority
- CN
- China
- Prior art keywords
- ticket
- electric system
- operation instruction
- system operation
- instruction ticket
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于人工智能的电系操作指令票自动识别应用方法,属操作票自动生成领域。建立电站名称、操作项目类型、操作项目、操作票文档路径的关系型数据库,在关系型数据库中将供电公司提供的操作票文档保存在本地的路径以及电站名和操作项目进行存储,并且在操作票文档和操作项目之间建立外键连接;拍摄电系操作指令票图片,经过图像识别成为电系操作指令票数字流;获取关键字,再通过目标相似性算法对提取的关键字进行相似度计算并生成正确关键字字段;将提取到的关键字存入关系型数据库;操作数据流对操作票文档中的关键字进行补充替换生成操作票文档。采用数字流定位算法和目标相似性算法与数据库中字段做匹配,减少了人工开具操作票的错误率。
Description
技术领域
本发明属于图像识别领域,尤其涉及一种用于电系操作指令票的自动识别以及应用于操作票的自动生成方法。
背景技术
操作票是指在电力系统中进行电气操作的书面依据,包括调度指令票和变电操作票。操作票是防止误操作(误拉、误合、带负荷拉、合隔离开关、带地线合闸等)的主要措施。
传统的操作票手动填写是工作人员需查看电系操作指令票内容,再去找到相应的电系操作指令票文档去手动填写操作项目的具体内容,,将电站名和操作项目中关键字段填写进操作票文档并保存。其缺点是全程都由人工去核对填写,容易造成疲劳从而填写电系操作指令票内容时出现错误。
目前基于算法的电系操作指令票自动生成的方法问题,现有技术具有以下几种模型:第一种:快速开票,快速的可以调用历史票,调用典型票,调用预存票等。自动生成操作票应该就是基于智能网络拓扑技术的智能成票,也叫一键成票。其原理就是利用拓扑搜素技术,拓扑电气模型,基于当前设备实时状态的基态变化进行的智能推理成票。其缺点在于成票过程中对电气模型和设备状态所推理成票,不能对于操作内容进行智能出票,不能满足实际使用过程中对于操作项目的精确成票。
第二种,基于one-hot和KNN算法的分类识别,该方法能够实现80%的识别分类准确度并自动生成对应票据;其缺点在于算法分类较模糊,若分类类型未查询到,则操作项目分类无法确定,生成电系操作指令票中的操作项目也会出现问题。
操作票为操作人员停复役提供依据,而当需要完成大量的操作任务时,工作人员需要反复填写与电系操作指令票上操作项目核对,并且由于识别的场景不固定,文字布局多样,因此增加了工作人员的工作难度,容易产生疲劳,提高失误率,并且会产生劳动力的浪费。
本申请所述的操作票,是指在电力系统中进行电气操作的书面依据,包括调度指令票和变电操作票。操作票是防止误操作(误拉、误合、带负荷拉、合隔离开关、带地线合闸等)的主要措施。本发明的技术方案主要解决的问题为解决工作人员手动根据电系操作指令票填写操作票的弊端,所面向的问题是对电系操作指令票中的操作项目准确成票,而不是如前述第一种方法对状态的推理出票,且对于整个操作项目需要精确分类,这说明不能在前述第二种方法中查找分类,需要使用提取关键字自建分类的方式,故上述第一种方法和第二种方法均不适用本技术方案所要解决的技术问题。
发明内容
本发明所要解决的技术问题是提供一种基于人工智能的电系操作指令票自动识别应用方法。其通过图像识别电系操作指令票成为计算机可以看懂的数字流,在经过针对于电系操作指令票的数字流定位算法和目标相似性算法与数据库中字段做匹配,从而生成对应的操作票文档,减少了人工录入时频繁开关文档的时间及劳动成本,减少了人工开具操作票的错误率,提升了工作效率。
本发明的技术方案是:提供一种基于人工智能的电系操作指令票自动识别应用方法,其特征是包括以下步骤:
步骤1,建立有关于电站名称、操作项目类型、操作项目、操作票文档路径的关系型数据库,在关系型数据库中将供电公司提供的操作票文档保存在本地的路径以及电站名和操作项目进行存储,并且在操作票文档和操作项目之间建立外键连接;
步骤2,通过高拍仪设备拍摄电系操作指令票图片,经过图像识别成为电系操作指令票数字流;
步骤3,通过电系操作指令票数字流获取关键字,再通过目标相似性算法对提取的关键字进行相似度计算并生成正确关键字字段;
步骤4,将提取到的关键字存入关系型数据库;
步骤5,操作数据流对操作票文档中的关键字进行补充替换生成操作票文档;
其中,在经过图像识别成为电系操作指令票数字流时,将电系操作指令票图片进行图像识别,得到的电系操作指令票图片通过OCR图像识别生成的excel数据流及结构;
然后读取电系操作指令票excel数据流,通过java软件对数据流操作方法获取输入流数据流,作为目标数据流;
在获取电系操作指令票数字流时,若电系操作指令票出现两页的情况,则识别成为电系操作指令票数字流操作中获得的输入流数据流将存入缓存中,使得数据连贯方便处理。
具体的,使用通过电系操作指令票数字流获取“地点”字段关键字,以便在不同电系操作指令票上对“地点”关键字进行定位;其具体包括以下步骤:
数据流输入:
存入缓冲流;
获取每一行数据;
通过关键字来获取“地点”字段的位置坐标;
根据电系操作票属性,“地点”字段坐标分别为[a,b];
根据坐标获取数字流中关键字信息。
具体的,所述的电系操作指令票自动识别应用方法根据字符权重比来衡量所比较字符的权重比;其对于目标相似度算法模型为:
式中,i表示词性,A和B均为关键字的权重,j表示在字符串中文本的权重,k相当于变量,在测试集中一次计算当k=1....10时的分类准确率,取准确率最高的k值作为模型参数;Level为文本相似度数值。
具体的,所述的电系操作指令票自动识别应用方法,利用字段加权算法计算出字符串中字符权重和占总字符串权重。
进一步的,在所述的电系操作指令票中,操作项目包括三类区分:
第一种:包含“从”关键字;
第二种:操作相同但是操作内容不同;
第三种:特殊操作项目,没有分类。
进一步的,所述的电系操作指令票自动识别应用方法,将数据流中字段数据转化为坐标向量。
具体的,所述的电系操作指令票自动识别应用方法,对识别后的数据流,提取电系操作指令票中的操作项目关键字段,再通过目标相似性算法将关键字段和数据库中操作项目数据进行相似性计算,若相似性系数≈0.5则说明数据匹配,在操作票自动识别系统中使用变量stream来存储匹配的关键字段的数据流,再从输入缓冲流中创建一个缓冲读取器br来读取stream中的行,使用while循环读取每一行并将其附加到字符串构建器中生成关键字段字符串;使用poi-tl文档关键字替换技术替换存在本地的标准操作票文档中的操作项目名字段,从而生成电系操作指令票上指定的操作票文档。
具体的,所述的电系操作指令票自动识别应用方法,在OCR图像识别技术中加入目标相似性算法技术,通过构建电系操作指令票数字流定位算法获取电系操作指令票上关键字坐标,从而获得电系操作指令票上关键字字符串,通过目标相似度算法匹配模型和优化,提升电系操作指令票关键字与库中标准关键字的识别匹配准确率。
进一步的,首先将需要识别的任务单放置到高拍仪的指定位置,通过高拍仪将其拍成图片信息保存至本地;然后通过点击上传文件按钮,将本地文件上传至后台;后台获取到图片信息之后,将图片信息转为对应的数据流,使用poi技术分析流数据,拿到总行数、总列数、每个单元格内容和sheet的总数量,若识别准确的话sheet的数量应该始终为1,在使用关键字对比,找到“地点”关键字的位置,并记录该位置坐标为【row,cell】,电站名坐标为【row+1,cell】,操作项目名称坐标为【row+1,cell+2】;
在获取到操作项目数据后,进行关键字匹配,首先匹配“从”字,若存在,则截取“从”字到末尾字符为一分类,第一个字符到“从”字为要提取的关键字;
拿到关键字和分类之后,去数据库匹配该分类对应的文件夹路径以及文件名,使用poi-tl技术来替换对应路径下文件名匹配的文件,其中电站在模板中使用{{title}}进行标识,编号使用{{number}}进行标识,编号一共六位数字,前两位以月份命名,后四位从0001依次递增。
更进一步的,在遇到有多页任务单情况时,第二页开始没有电站名,导入redis模式,使用RedisTemplate功能来存储数据;当第二页开后,找不到“地点”关键字就回去拿去redis中存储的数据,redis中电站名是以覆盖的方式存储的,故第二张任务单中开始没有电站名出现的操作项目就是存储的最新的电站下的操作项目。
与现有技术比较,本发明的优点是:
通过采用针对于电系操作指令票的数字流定位算法和目标相似性算法与数据库中字段做匹配,对电系操作指令票中的操作项目与标准电系指令对比度大大提升,通过目标相似性算法提升了操作项目与标准电系操作票上操作指令的匹配度,减少了错误率,同时也减轻了工作人员的工作强度,提高了工作效率,而且相比于人工核对校验编写来说,将文档数字化处理通过机器算法进行字符串比对,也减少了应人工劳累或疏忽造成的错误几率,提升工作的准确度。
附图说明
图1是本发明电系操作指令票数字流获取关键字方法的流程示意图;
图2是本发明的整体流程示意图。
具体实施方式
下面结合附图例对本发明做进一步说明。
如图2中所示,本发明的技术方案,采用如下模式进行电系操作指令票中操作项目的准确成票:
步骤1,通过高拍仪设备拍摄电系操作指令票图片,经过图像识别成为电系操作指令票数字流;
步骤2,通过电系操作指令票数字流获取关键字,再通过目标相似性算法对提取的关键字进行相似度计算并生成正确关键字字段;
步骤3,将提取到的关键字存入关系型数据库;
步骤4,操作数据流对操作票文档中的关键字进行补充替换生成操作票文档。
本发明的技术方案,通过图像识别电系操作指令票成为计算机可以看懂(亦称识别)的数字流,在经过针对于电系操作指令票研发的电系操作指令票数字流定位算法和目标相似性算法与数据库中字段做匹配,从而生成对应的操作票文档,减少了人工录入时频繁开关文档的时间及劳动成本,减少了人工开具操作票的错误率,提升了工作效率。
在实施本发明的技术方案时,首先建立有关于电站名称、操作项目类型、操作项目、操作票文档路径的关系型数据库,库中将供电公司提供的操作票文档保存在本地的路径以及电站名和操作项目进行了存储并且操作票文档和操作项目之间建立外键连接,使数据互联互通。再通过高拍仪设备获取电系操作指令票图片数据,通过使用FineReaderPortable软件,将获取的电系操作指令票图片数据转换为excel文件,在项目所配套的电系操作票自动生成程序中使用java的poi技术读取该excel文件转换为数据流。电系操作指令票在格式上和普通表格具有特殊性,其特殊性在于电系操作指令票在表格上部分会分列出两个表格,分别列出操作内容、出票、审核、布置厂站、布置人、执行人等信息,所以每一张电系操作指令票都不是一个完整的表格,针对电系操作指令票格式的特殊性,对识别后的数据流通过电系操作指令票数字流获取关键字方法提取电系操作指令票中的操作项目关键字段,在通过目标相似性算法将关键字段和数据库中操作项目数据进行相似性计算,若相似性系数≈0.5则说明数据匹配,在操作票自动识别系统中使用变量stream来存储匹配的关键字段的数据流,再从输入缓冲流中创建一个缓冲读取器br来读取stream中的行,使用while循环读取每一行并将其附加到字符串构建器中生成关键字段字符串。在系统中使用poi-tl文档关键字替换技术替换存在本地的标准操作票文档中的操作项目名字段,从而生成电系操作指令票上指定的操作票文档。
本发明的技术方案,首先后台使用Java语言进行开发,经过图像识别后的电系操作指令票数据流通过java中对文档的数据流方法发送至电系操作票自动生成程序,使用缓存进行保存,数据存储方面使用MySQL关系型数据库,由于MySQL数据库速度快、体积小、源码开放,并且单个服务还能够支持10000+的数据并发量,可以很好的支撑整个项目的稳定运行及数据存储。使用批处理录入目前各电站对应的操作票模板数据,数据库中记录站名称、操作项目类型、操作票文档路径等关键字,为程序提供数据支撑。
S1步骤,对于电系操作指令票数据流的处理,使用电系操作指令票数字流获取关键字方法获取电系操作指令票上指定关键字位置信息,电系操作指令票数字流获取关键字方法是针对电系操作指令票格式而研发的一套特殊的方法,其具体过程如图1中所示,通过获取输入流数据,得到电系操作指令票流数据,再创建缓冲流,通过数据流的读取行数据方法读取每个行数据,通过对比“地点”再获取行、列方法获取“地点”字段的位置坐标,对于“地点”字段是固定的,每一张电系操作指令票的表格上都会有“地点”字段作为表头字段,所以只要读取到电系操作指令票数据流就可以对电系操作指令票上电站地点和操作项目进行位置定位。
S2步骤,获取关键字后要对关键字和库中数据进行目标相似性算法计算,首先对电系操作指令票上提取数据流经过数字流定位算法获得的操作项目关键字数据和库中标准数据进行向量化处理,作为文本相似性分析算法模型的输入。针对电力操作票的特点,将操作项目关键字字符串向量化处理,需要以下步骤:文本分词,即基于字的n-grams对单词进行切分(n一般为3),例如,“10kV”为“数字-英文”词组,可以被切分为“#-1-0、1-0-k、0-k-V、k-V-#”这几种。电力操作票文本中,数字、字母、单位符号的组合有限,并且其前后缀往往具有通用语义和统计规律(如kV、MW等)。通过应用预处理方式能够降低句向量的空间维度、便于挖掘出字符共现的规律,继而增强分词处理的泛化能力。还需经过DNN神经网络将字符串转化为有效的语义向量后,再利用相似性分析算法模型进行相似度计算,便可以得到与库中标准数据匹配的文本,所形成的操作票文本低维语义向量中能够涵盖操作设备、操作票类型情况以及操作票信息的伴随共现特征等重要语义信息,也为接下来生成电系操作指令票上所对应的操作票文档提供充分条件。由于中文文本词与词之间没有空格自然分界,因此需要Java中的基于统计的中文分词算法对中文文本进行分词处理,其原理是选择概率最大的分词路径作为最优结果利用动态规划算法来实现,即最优路径中的第i个词wi的累计概率等于它的左相邻词wi-1的累积概率乘以wi自身的概率。电力设备操作票文本中包含大量电力专有名词与数字字母,例如“主变压器”“从热备用改为冷备用”“打开”“110kV”“合上”“开关”等。在进行算法处理时,上述专有名词需要被准确地切分出来以构造句向量。
目前,常用的中文文本分词算法包括隐马尔科夫模型(Hidden-Markov-Model,HMM)、条件随机场(Conditional-Random-Field,CRF)模型及长短记忆力反馈神经网络(Long-Short-Term-Model-basedRNN,LSTM-RNN)模型等。不过,对于未有充足标注语料的电力操作票文本而言,仅是基于公开互联网语料训练的LSTM-RNN效果并不理想,而CRF由于对词典并不敏感因而效果也同样不佳。因此在本实施例中,首先对专业电力词汇进行了总结编撰,在此基础上基于改进的基于统计的中文分词算法对中文进行分词处理,以获得显著简化的句向量。具体的改进的基于统计的中文分词算法为:
式中,J表示分词分类算法的目标字段函数向量值,N表示分词总个数,i表示词性,表示向量参数,c表示迭代次数,S表示聚类中心,xr表示模糊指数,vk表示聚类自适应参数,Air表示分类因子,r、Ni均表示常数系数,Nr表示聚类系数。
针对本技术方案,将电系操作指令票中操作项目包括三类区分:第一种:包含“从”关键字(例如:“从热备用改为冷备用”);第二种:操作内容相同但操作不同(例如:“停用站用变失压”和“用上站用变失压”);第三种:特殊操作项目,没有分类(例如:“停用10千伏X号电容器X组横差”、“用上X号主变差动”)。对于新输入的电系操作指令票数据流数据,利用加权计算字段权重,根据操作票分类,得到所述s2步骤需向量化的字符串数据,便能够得到对于的字段相似性算法的值,所述对于目标相似度算法模型为:
当A(电系操作指令票上关键字向量值)、B(库中标准值向量值)的level值居中即为0.5时,说明两个字段相似度为1:1,即为相同。
本发明的技术方案,通过构建电系操作指令票数字流定位算法获取电系操作指令票上“地点”字段坐标,从而获得电系操作指令票上操作项目关键字字符串,通过目标相似度算法匹配模型和优化,能够提升电系操作指令票操作项目关键字与库中标准操作项目关键字的识别匹配准确率,同时,本发明也利用分类算法对操作项目进行自定义分类,方便后续生成电系操作指令票上指定操作票文档的操作,提升了运行效率,不必遍历进行一一匹配。
通过目标相似性算法对电系操作指令票数据流中的操作项目字符和数据库中的操作项目数据做相似性比对,通过比对的操作项目字符串即为正确操作项目关键字,对于第三种特殊操作项目(即无规律可循的字符串)做出了针对性处理,在比对操作项目与库中操作项目数据一致后,使用Java中的字符串切割方法,对提取到的字符串进行处理,其参数包括operationItem(需要提取的操作项目字段)以及startstring(关键字开始的字符)和endstring(关键字结束的字符)提取操作项目中特殊字段(不属于“第一种:包含“从”关键字和第二种:操作相同但是操作内容不同”),特殊操作项目需要逐一记录在程序中。
对于数据匹配成功的操作项目,根据操作项目名匹配数据库中存储的操作票文档路径,读取本地操作票文档,并转换为数据流,通过对提取的操作项目字段的读取及替换操作项目字段,其中操作项目字段在模板中使用标题(在文档中体现为“{{title}}”)进行标识,编号使用编号(在文档中体现为“{{number}}”)进行标识,编号一共六位数字,前两位以月份命名,后四位从0001依次递增,并最终得到了操作票文档。
本发明的技术方案,基于目标相似性算法、OCR图像识别软件、JAVA技术、VUE技术,可以用来将用户指定的任务单识别为对应的操作票,并且可以将操作票中固定位置的内容进行替换填写,简化了工作人员的负担,大大提高了工作效率。本技术方案所使用的目标相似性算法的关键在于对图像中的文字提取和文字检测,由于电系操作指令票是有固定格式的文件,所以可以通过JAVA技术和目标相似性算法对识别到的文字信息进行关键字的提取,然后将操作票中指定位置的内容替换为提取出的关键字,减少工作人员的校验成本,提升任务单转化为操作票的工作效率。通过VUE技术实现了该项目的可视化系统页面的构建,增加了用户的可操作性和交互性。
本发明的技术方案,在已有的OCR图像识别技术中加入目标相似性算法技术,该算法通过构建电系操作指令票数字流定位算法获取电系操作指令票上关键字坐标,从而获得电系操作指令票上关键字字符串,通过目标相似度算法匹配模型和优化,能够提升电系操作指令票关键字与库中标准关键字的识别匹配准确率。
通过实际试验,对电系操作指令票识别率在90%以上;使用获取到的不同电系操作指令票数据流来获取“地点”关键字位置准确率在95%以上;使用目标相似性算法对获取到的电系操作指令票中的操作项目和标准操作项目进行数据匹配,其相似性系数普遍处于0.5左右,在通过多种不同的电系操作指令票去进行试验,通过目标相似性算法进行匹配,其操作项目匹配正确率在95%左右。操作项目匹配率同样也关系到生成操作票的正确性,总结而言,使用基于人工智能的电系操作指令票自动生成系统来自动生成操作票的准确率在90%左右。
采用本发明技术方案后,对电系操作指令票中的操作项目与标准电系指令对比度准确度大大提升,通过目标相似性算法提升了操作项目与标准电系操作票上操作指令的匹配度,通过对操作项目和数据库中标准操作指令的匹配来提升电系操作指令票生成操作票的准确度,相比于其他对状态和只看文字匹配度的方法而言,大大提升了生成操作票的正确率,同时也减轻了工作人员的工作强度,提高了工作效率,也减少了应人工劳累或疏忽造成的错误几率,提升了工作的准确度。
本发明可广泛用于电系操作票的识别和自动生成领域。
Claims (10)
1.一种基于人工智能的电系操作指令票自动识别应用方法,其特征是包括以下步骤:
步骤1,建立有关于电站名称、操作项目类型、操作项目、操作票文档路径的关系型数据库,在关系型数据库中将供电公司提供的操作票文档保存在本地的路径以及电站名和操作项目进行存储,并且在操作票文档和操作项目之间建立外键连接;
步骤2,通过高拍仪设备拍摄电系操作指令票图片,经过图像识别成为电系操作指令票数字流;
步骤3,通过电系操作指令票数字流获取关键字,再通过目标相似性算法对提取的关键字进行相似度计算并生成正确关键字字段;
步骤4,将提取到的关键字存入关系型数据库;
步骤5,操作数据流对操作票文档中的关键字进行补充替换生成操作票文档;
其中,在经过图像识别成为电系操作指令票数字流时,将电系操作指令票图片进行图像识别,得到的电系操作指令票图片通过OCR图像识别生成的excel数据流及结构;
然后读取电系操作指令票excel数据流,通过java软件对数据流操作方法获取输入流数据流,作为目标数据流;
在获取电系操作指令票数字流时,若电系操作指令票出现两页的情况,则识别成为电系操作指令票数字流操作中获得的输入流数据流将存入缓存中,使得数据连贯方便处理。
2.按照权利要求1所述的基于人工智能的电系操作指令票自动识别应用方法,其特征是使用通过电系操作指令票数字流获取“地点”字段关键字,以便在不同电系操作指令票上对“地点”关键字进行定位;其具体包括以下步骤:
数据流输入:
存入缓冲流;
获取每一行数据;
通过关键字来获取“地点”字段的位置坐标;
根据电系操作票属性,“地点”字段坐标分别为[a,b];
根据坐标获取数字流中关键字信息。
4.按照权利要求1所述的基于人工智能的电系操作指令票自动识别应用方法,其特征是所述的电系操作指令票自动识别应用方法,利用字段加权算法计算出字符串中字符权重和占总字符串权重。
5.按照权利要求1所述的基于人工智能的电系操作指令票自动识别应用方法,其特征是在所述的电系操作指令票中,操作项目包括三类区分:
第一种:包含“从”关键字;
第二种:操作相同但是操作内容不同;
第三种:特殊操作项目,没有分类。
6.按照权利要求1所述的基于人工智能的电系操作指令票自动识别应用方法,其特征是所述的电系操作指令票自动识别应用方法,将数据流中字段数据转化为坐标向量。
7.按照权利要求1所述的基于人工智能的电系操作指令票自动识别应用方法,其特征是所述的电系操作指令票自动识别应用方法,对识别后的数据流,提取电系操作指令票中的操作项目关键字段,再通过目标相似性算法将关键字段和数据库中操作项目数据进行相似性计算,若相似性系数≈0.5则说明数据匹配,在操作票自动识别系统中使用变量stream来存储匹配的关键字段的数据流,再从输入缓冲流中创建一个缓冲读取器br来读取stream中的行,使用while循环读取每一行并将其附加到字符串构建器中生成关键字段字符串;使用poi-tl文档关键字替换技术替换存在本地的标准操作票文档中的操作项目名字段,从而生成电系操作指令票上指定的操作票文档。
8.按照权利要求1所述的基于人工智能的电系操作指令票自动识别应用方法,其特征是所述的电系操作指令票自动识别应用方法,在OCR图像识别技术中加入目标相似性算法技术,通过构建电系操作指令票数字流定位算法获取电系操作指令票上关键字坐标,从而获得电系操作指令票上关键字字符串,通过目标相似度算法匹配模型和优化,提升电系操作指令票关键字与库中标准关键字的识别匹配准确率。
9.按照权利要求1所述的基于人工智能的电系操作指令票自动识别应用方法,其特征是首先将需要识别的任务单放置到高拍仪的指定位置,通过高拍仪将其拍成图片信息保存至本地;然后通过点击上传文件按钮,将本地文件上传至后台;后台获取到图片信息之后,将图片信息转为对应的数据流,使用poi技术分析流数据,拿到总行数、总列数、每个单元格内容和sheet的总数量,若识别准确的话sheet的数量应该始终为1,在使用关键字对比,找到“地点”关键字的位置,并记录该位置坐标为【row,cell】,电站名坐标为【row+1,cell】,操作项目名称坐标为【row+1,cell+2】;
在获取到操作项目数据后,进行关键字匹配,首先匹配“从”字,若存在,则截取“从”字到末尾字符为一分类,第一个字符到“从”字为要提取的关键字;
拿到关键字和分类之后,去数据库匹配该分类对应的文件夹路径以及文件名,使用poi-tl技术来替换对应路径下文件名匹配的文件,其中电站在模板中使用{{title}}进行标识,编号使用{{number}}进行标识,编号一共六位数字,前两位以月份命名,后四位从0001依次递增。
10.按照权利要求1所述的基于人工智能的电系操作指令票自动识别应用方法,其特征是在遇到有多页任务单情况时,第二页开始没有电站名,导入redis模式,使用RedisTemplate功能来存储数据;当第二页开后,找不到“地点”关键字就回去拿去redis中存储的数据,redis中电站名是以覆盖的方式存储的,故第二张任务单中开始没有电站名出现的操作项目就是存储的最新的电站下的操作项目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111001102.1A CN113780121A (zh) | 2021-08-30 | 2021-08-30 | 一种基于人工智能的电系操作指令票自动识别应用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111001102.1A CN113780121A (zh) | 2021-08-30 | 2021-08-30 | 一种基于人工智能的电系操作指令票自动识别应用方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113780121A true CN113780121A (zh) | 2021-12-10 |
Family
ID=78840154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111001102.1A Pending CN113780121A (zh) | 2021-08-30 | 2021-08-30 | 一种基于人工智能的电系操作指令票自动识别应用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780121A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114466036A (zh) * | 2021-12-17 | 2022-05-10 | 华电电力科学研究院有限公司 | 一种结合鹰眼防误的智能管控平台 |
CN114637845A (zh) * | 2022-03-11 | 2022-06-17 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376614A (zh) * | 2014-11-17 | 2015-02-25 | 国家电网公司 | 变电站操作票一键出票方法 |
CN109685682A (zh) * | 2018-12-10 | 2019-04-26 | 国网天津市电力公司 | 基于关系数据库智能生成调控系统检修操作票的方法 |
CN110059559A (zh) * | 2019-03-15 | 2019-07-26 | 深圳壹账通智能科技有限公司 | Ocr识别文件的处理方法及其电子设备 |
CN110991188A (zh) * | 2019-09-17 | 2020-04-10 | 国网浙江省电力有限公司杭州供电公司 | 应用于配网调度智能成票系统的成票方法 |
CN111199285A (zh) * | 2020-02-25 | 2020-05-26 | 国网冀北电力有限公司唐山供电公司 | 一种基于关系型数据库的两票专家系统 |
CN112036144A (zh) * | 2020-09-03 | 2020-12-04 | 广联达科技股份有限公司 | 数据解析方法、装置、计算机设备和可读存储介质 |
CN112069900A (zh) * | 2020-08-06 | 2020-12-11 | 常熟理工学院 | 基于卷积神经网络的票据文字识别方法及系统 |
CN112860872A (zh) * | 2021-03-17 | 2021-05-28 | 广东电网有限责任公司 | 基于自学习的配电网操作票语义合规性的校验方法及系统 |
CN113094494A (zh) * | 2021-04-19 | 2021-07-09 | 广东电网有限责任公司 | 电力操作票文本智能分类方法、装置、设备及介质 |
-
2021
- 2021-08-30 CN CN202111001102.1A patent/CN113780121A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376614A (zh) * | 2014-11-17 | 2015-02-25 | 国家电网公司 | 变电站操作票一键出票方法 |
CN109685682A (zh) * | 2018-12-10 | 2019-04-26 | 国网天津市电力公司 | 基于关系数据库智能生成调控系统检修操作票的方法 |
CN110059559A (zh) * | 2019-03-15 | 2019-07-26 | 深圳壹账通智能科技有限公司 | Ocr识别文件的处理方法及其电子设备 |
CN110991188A (zh) * | 2019-09-17 | 2020-04-10 | 国网浙江省电力有限公司杭州供电公司 | 应用于配网调度智能成票系统的成票方法 |
CN111199285A (zh) * | 2020-02-25 | 2020-05-26 | 国网冀北电力有限公司唐山供电公司 | 一种基于关系型数据库的两票专家系统 |
CN112069900A (zh) * | 2020-08-06 | 2020-12-11 | 常熟理工学院 | 基于卷积神经网络的票据文字识别方法及系统 |
CN112036144A (zh) * | 2020-09-03 | 2020-12-04 | 广联达科技股份有限公司 | 数据解析方法、装置、计算机设备和可读存储介质 |
CN112860872A (zh) * | 2021-03-17 | 2021-05-28 | 广东电网有限责任公司 | 基于自学习的配电网操作票语义合规性的校验方法及系统 |
CN113094494A (zh) * | 2021-04-19 | 2021-07-09 | 广东电网有限责任公司 | 电力操作票文本智能分类方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
汪晨等: "基于SG-CIM框架的变电操作票分层系统研究", 《电子设计工程》, vol. 29, no. 13, pages 165 - 169 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114466036A (zh) * | 2021-12-17 | 2022-05-10 | 华电电力科学研究院有限公司 | 一种结合鹰眼防误的智能管控平台 |
CN114466036B (zh) * | 2021-12-17 | 2024-02-09 | 华电电力科学研究院有限公司 | 一种结合鹰眼防误的智能管控平台 |
CN114637845A (zh) * | 2022-03-11 | 2022-06-17 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
CN114637845B (zh) * | 2022-03-11 | 2023-04-14 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Van Strien et al. | Assessing the impact of OCR quality on downstream NLP tasks | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN107315738B (zh) | 一种文本信息的创新度评估方法 | |
CN109145260B (zh) | 一种文本信息自动提取方法 | |
CN101539907B (zh) | 词性标注模型训练装置、词性标注系统及其方法 | |
CN110287481A (zh) | 命名实体语料标注训练系统 | |
CN108717433A (zh) | 一种面向程序设计领域问答系统的知识库构建方法及装置 | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN113780121A (zh) | 一种基于人工智能的电系操作指令票自动识别应用方法 | |
CN114970508A (zh) | 基于数据多源融合的电力文本知识发现方法及设备 | |
CN111488466A (zh) | 中文带标记错误语料生成方法、计算装置和存储介质 | |
CN113064999B (zh) | 基于it设备运维的知识图谱构建算法、系统、设备及介质 | |
CN116737967B (zh) | 一种基于自然语言的知识图谱构建和完善系统及方法 | |
CN113918512A (zh) | 电网运行规则知识图谱构建系统及方法 | |
CN115292518A (zh) | 基于知识型信息抽取的配电网故障处理方法及系统 | |
CN111104503A (zh) | 一种建筑工程质量验收规范问答系统及其构建方法 | |
JP3765801B2 (ja) | 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム | |
Sinha et al. | NLP-based automatic answer evaluation | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN113139061B (zh) | 一种基于词向量聚类的案件特征提取方法 | |
CN115617689A (zh) | 一种基于cnn模型和领域特征的软件缺陷定位方法 | |
CN114912460A (zh) | 基于文本挖掘的精细化拟合识别变压器故障方法及设备 | |
Liu | IntelliExtract: An End-to-End Framework for Chinese Resume Information Extraction from Document Images | |
Anitei et al. | Py4mer: A ctc-based mathematical expression recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |