CN113342883A - 一种电力设备检测数据结构化方法、装置、介质及设备 - Google Patents
一种电力设备检测数据结构化方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN113342883A CN113342883A CN202110570262.1A CN202110570262A CN113342883A CN 113342883 A CN113342883 A CN 113342883A CN 202110570262 A CN202110570262 A CN 202110570262A CN 113342883 A CN113342883 A CN 113342883A
- Authority
- CN
- China
- Prior art keywords
- data
- report
- structuring
- metadata
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000005516 engineering process Methods 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2291—User-Defined Types; Storage management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于文字识别的电力设备检测数据结构化方法、装置、介质及设备,所述方法用于对电力设备检测报告进行结构化管理,包括以下步骤:获取待处理检测报告的扫描文件,进行文件预处理,获得基础图像数据;对所述图像数据进行图像识别,基于识别结果形成元数据;基于预先设置的报告核心字段,构建结构数据库,采用文字识别技术从所述元数据中读取与所述报告核心字段对应的核心数据,存储入所述结构数据库中。与现有技术相比,本发明具有效率高、数据完备性佳等优点。
Description
技术领域
本发明涉及非结构型数据的结构化管理技术,尤其是涉及一种基于文字识别的电力设备检测数据结构化方法、装置、介质及设备。
背景技术
数据在当今社会已被看作是一项重要的资产,在高度智能化的环境下,各领域在进行业务工作的过程中都积累了海量的数据信息,由于存储处理技术的不断发展,老旧的使用纸质文档存储这些数据信息,然后依赖人工进行处理的方式已经不再是主流,以电子数据的形式存储在计算机种进行智能化处理的方式已经成为主流。电子数据主要被区分为两种:一种叫做结构化数据,也称行数据,这种数据能够被关系数据库的二维表有效存储;另一种数据与结构化数据截然不同,它无法很好地被关系数据库的二维表存储,没有统一的数据结构,这种数据被称为非结构化数据。
作为典型的非结构化数据,检测报告数据被储存在纸质文档和数字扫描件中,囿于报告格式的复杂性以及在检索、储存等方面的劣势,其数据分析利用效率低。目前大多数的检测报告数据数字结构化方法依赖于人力资源,但由于报告数量多且内容复杂,人工对其进行识别和录入的工作量大、效率低下,造成了人力资源的浪费。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种效率高、数据完备性佳的基于文字识别的电力设备检测数据结构化方法、装置、介质及设备。
本发明的目的可以通过以下技术方案来实现:
第一方面,本发明提供一种基于文字识别的电力设备检测数据结构化方法,该方法用于对电力设备检测报告进行结构化管理,包括以下步骤:
获取待处理检测报告的扫描文件,进行文件预处理,获得基础图像数据;
对所述图像数据进行图像识别,基于识别结果形成元数据;
基于预先设置的报告核心字段,构建结构数据库,采用文字识别技术从所述元数据中读取与所述报告核心字段对应的核心数据,存储入所述结构数据库中。
进一步地,所述文件预处理具体为:
从所述扫描文件中获取报告图片,对所述报告图片进行base64编码,获得所述基础图像数据。
进一步地,所述识别结果包括字块内容、字块位置信息、表格信息和表格单元格信息。
进一步地,所述元数据以JSON文件格式储存。
进一步地,所述文字识别技术包括关键字定位法。
第二方面,本发明提供一种电力设备检测数据结构化装置,用于对电力设备检测报告进行结构化管理,包括:
预处理模块,用于获取待处理检测报告的扫描文件,进行文件预处理,获得基础图像数据;
元数据转化模块,用于对所述图像数据进行图像识别,基于识别结果形成元数据;
结构化存储模块,基于预先设置的报告核心字段,构建结构数据库,采用文字识别技术从所述元数据中读取与所述报告核心字段对应的核心数据,存储入所述结构数据库中。
进一步地,所述预处理模块中,文件预处理具体为:
从所述扫描文件中获取报告图片,对所述报告图片进行base64编码,获得所述基础图像数据。
进一步地,所述元数据转化模块中,元数据以JSON文件格式储存。
第三方面,本发明提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上所述电力设备检测数据结构化方法的指令。
第一方面,本发明提供一种电子设备,包括:
一个或多个处理器;
存储器;和
被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述电力设备检测数据结构化方法的指令。
与现有技术相比,本发明具有以下有益效果:
1、本发明将纸质的非结构化数据转换为数字形式的结构化数据,提高了数据的利用效率,且节约了数据储存、维护的成本,可实现非结构化的报告数据数字化统一管理,提高数据利用效率,且结构化数据具有存储空间小、易于拷贝、检索速度高等多方面特点,在数据分析领域有很大的优势。
2、本方法利用图像识别等计算机技术,实现了非结构化数据的自动识别,节省了大量人工成本。
3、本方法在将非结构化数据转化为结构数据的同时,通过元数据的形式保存了原始数据中的未利用部分,保证了数据的完备性,即使由于原始数据的多样性,一些数据不具备结构化的条件,在后续数据分析中仍可作为信息备份,以免信息的丢失,降低数据复用成本。
4、本方法具有自动性和可推广性,对大部分的非结构化数据都可进行迁移套用,能大幅提高数据的利用和储存效率。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
参考图1所示,本实施例提供一种基于文字识别的电力设备检测数据结构化方法,该方法用于对电力设备检测报告进行结构化管理,包括非结构化数据-元数据转化过程和元数据-结构化数据转化过程,具体包括以下步骤:
S1、获取待处理检测报告的扫描文件,进行文件预处理,获得基础图像数据。
扫描文件可为PDF文件,文件预处理具体为:从所述扫描文件中获取报告图片,对所述报告图片进行base64编码,获得所述基础图像数据。Base64是用于传输8Bit字节码的编码方式之一,可用于传递较长的标识信息。
S2、对所述图像数据进行图像识别,基于识别结果形成元数据。
所述识别结果包括字块内容、字块位置信息、表格信息和表格单元格信息等。本实施例中,元数据以JSON文件格式储存,存储到JSON文件。元文件存在的意义是留有原始数据,即使由于原始数据的多样性,一些数据不具备结构化的条件,在后续数据分析中仍可作为信息备份,以免信息的丢失。
S3、基于预先设置的报告核心字段,构建结构数据库,采用文字识别技术从所述元数据中读取与所述报告核心字段对应的核心数据,存储入所述结构数据库中。
在进行数据结构化之前需要进行结构化数据的结构定义,结构化数据的结构定义通过提取非结构化数据的核心内容,进行结构上的自定义。
在读取了JSON文件中的元数据后,通过关键字定位法,读取核心数据,并将其存入结构化数据库中。结构化数据库具有存储空间小,易于拷贝,检索速度高等多方面特点,在数据分析领域有很大的优势。
在其他实施方式中,还包括步骤S4,对存储至结构数据库中的结构化数据进行管理,包括读取、删除等操作。
在其他实施方式中,还包括步骤S5,基于结构数据库中的结构化数据进行电力设备状态的后续分析。
在其他实施方式中,元数据储存的计算机文件格式可能发生变化,但包括字段内容和字段位置等信息的数据均可纳入元数据范围。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于文字识别的电力设备检测数据结构化方法,其特征在于,该方法用于对电力设备检测报告进行结构化管理,包括以下步骤:
获取待处理检测报告的扫描文件,进行文件预处理,获得基础图像数据;
对所述图像数据进行图像识别,基于识别结果形成元数据;
基于预先设置的报告核心字段,构建结构数据库,采用文字识别技术从所述元数据中读取与所述报告核心字段对应的核心数据,存储入所述结构数据库中。
2.根据权利要求1所述的基于文字识别的电力设备检测数据结构化方法,其特征在于,所述文件预处理具体为:
从所述扫描文件中获取报告图片,对所述报告图片进行base64编码,获得所述基础图像数据。
3.根据权利要求1所述的基于文字识别的电力设备检测数据结构化方法,其特征在于,所述识别结果包括字块内容、字块位置信息、表格信息和表格单元格信息。
4.根据权利要求1所述的基于文字识别的电力设备检测数据结构化方法,其特征在于,所述元数据以JSON文件格式储存。
5.根据权利要求1所述的基于文字识别的电力设备检测数据结构化方法,其特征在于,所述文字识别技术包括关键字定位法。
6.一种电力设备检测数据结构化装置,其特征在于,用于对电力设备检测报告进行结构化管理,包括:
预处理模块,用于获取待处理检测报告的扫描文件,进行文件预处理,获得基础图像数据;
元数据转化模块,用于对所述图像数据进行图像识别,基于识别结果形成元数据;
结构化存储模块,基于预先设置的报告核心字段,构建结构数据库,采用文字识别技术从所述元数据中读取与所述报告核心字段对应的核心数据,存储入所述结构数据库中。
7.根据权利要求6所述的电力设备检测数据结构化装置,其特征在于,所述预处理模块中,文件预处理具体为:
从所述扫描文件中获取报告图片,对所述报告图片进行base64编码,获得所述基础图像数据。
8.根据权利要求6所述的电力设备检测数据结构化装置,其特征在于,其特征在于,所述元数据转化模块中,元数据以JSON文件格式储存。
9.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-5任一所述电力设备检测数据结构化方法的指令。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;和
被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-5任一所述电力设备检测数据结构化方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570262.1A CN113342883A (zh) | 2021-05-25 | 2021-05-25 | 一种电力设备检测数据结构化方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570262.1A CN113342883A (zh) | 2021-05-25 | 2021-05-25 | 一种电力设备检测数据结构化方法、装置、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113342883A true CN113342883A (zh) | 2021-09-03 |
Family
ID=77471244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110570262.1A Pending CN113342883A (zh) | 2021-05-25 | 2021-05-25 | 一种电力设备检测数据结构化方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342883A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570105A (zh) * | 2016-11-01 | 2017-04-19 | 广西电网有限责任公司电力科学研究院 | 一种电力设备试验报告的结构化处理方法 |
CN109800312A (zh) * | 2018-12-11 | 2019-05-24 | 广东电网有限责任公司 | 一种电力营销信息管理资料录入系统及方法 |
CN110705515A (zh) * | 2019-10-18 | 2020-01-17 | 山东健康医疗大数据有限公司 | 一种基于ocr文字识别的医院纸质档案归档方法及系统 |
CN112116968A (zh) * | 2019-06-21 | 2020-12-22 | 上海交通大学医学院附属瑞金医院 | 一种医学检验报告的识别方法、装置、设备及存储介质 |
CN112257613A (zh) * | 2020-10-23 | 2021-01-22 | 中国平安人寿保险股份有限公司 | 体检报告信息结构化提取方法、装置及计算机设备 |
-
2021
- 2021-05-25 CN CN202110570262.1A patent/CN113342883A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570105A (zh) * | 2016-11-01 | 2017-04-19 | 广西电网有限责任公司电力科学研究院 | 一种电力设备试验报告的结构化处理方法 |
CN109800312A (zh) * | 2018-12-11 | 2019-05-24 | 广东电网有限责任公司 | 一种电力营销信息管理资料录入系统及方法 |
CN112116968A (zh) * | 2019-06-21 | 2020-12-22 | 上海交通大学医学院附属瑞金医院 | 一种医学检验报告的识别方法、装置、设备及存储介质 |
CN110705515A (zh) * | 2019-10-18 | 2020-01-17 | 山东健康医疗大数据有限公司 | 一种基于ocr文字识别的医院纸质档案归档方法及系统 |
CN112257613A (zh) * | 2020-10-23 | 2021-01-22 | 中国平安人寿保险股份有限公司 | 体检报告信息结构化提取方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704539B (zh) | 大规模文本信息批量结构化的方法及装置 | |
CN108228664B (zh) | 非结构化数据处理方法及装置 | |
CN111191614B (zh) | 一种单据分类方法和装置 | |
CN106844782B (zh) | 一种面向网络的多通道大数据采集系统及方法 | |
CN115659175A (zh) | 一种面向微服务资源的多模态数据分析方法、装置及介质 | |
CN110096478B (zh) | 文档索引生成方法及设备 | |
CN113342883A (zh) | 一种电力设备检测数据结构化方法、装置、介质及设备 | |
CN115630636A (zh) | 文本识别方法及装置 | |
CN114329190A (zh) | 一种数据标准处理系统 | |
CN115204393A (zh) | 一种基于知识图谱的智慧城市知识本体库构建方法和装置 | |
CN115391567A (zh) | 风机标准作业知识图谱构建方法、装置及作业机械 | |
CN106294292B (zh) | 章节目录筛选方法及装置 | |
TWI793432B (zh) | 工程專案文件管理方法與系統 | |
CN114281761A (zh) | 一种数据文件加载方法、装置、计算机设备及存储介质 | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 | |
CN110765236A (zh) | 一种非结构化海量数据的预处理方法及系统 | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
CN113076254A (zh) | 一种测试用例集的生成方法和装置 | |
CN113704203A (zh) | 一种日志文件的处理方法及装置 | |
Balbi et al. | A two-step strategy for improving categorisation of short texts | |
CN111666378A (zh) | 一种基于词向量的中文年报标题分类方法 | |
CN112445939A (zh) | 一种社交网络群体发现系统、方法及存储介质 | |
CN117150046B (zh) | 基于上下文语义的任务自动分解方法和系统 | |
CN114519163B (zh) | 基于正则匹配和Bloom filter的增量新闻URL提取方法 | |
CN116610531B (zh) | 基于代码探针采集数据埋点及请求图片上传数据的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |