CN116627907A - 一种基于电力交易平台的结算单数据分析方法及系统 - Google Patents
一种基于电力交易平台的结算单数据分析方法及系统 Download PDFInfo
- Publication number
- CN116627907A CN116627907A CN202310375015.5A CN202310375015A CN116627907A CN 116627907 A CN116627907 A CN 116627907A CN 202310375015 A CN202310375015 A CN 202310375015A CN 116627907 A CN116627907 A CN 116627907A
- Authority
- CN
- China
- Prior art keywords
- image
- file
- feature vector
- statement
- settlement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000007405 data analysis Methods 0.000 title claims abstract description 61
- 238000004458 analytical method Methods 0.000 claims abstract description 55
- 239000013598 vector Substances 0.000 claims description 147
- 238000012545 processing Methods 0.000 claims description 30
- 230000000737 periodic effect Effects 0.000 claims description 28
- 238000007781 pre-processing Methods 0.000 claims description 25
- 230000000903 blocking effect Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 20
- 238000009826 distribution Methods 0.000 description 18
- 238000003860 storage Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005094 computer simulation Methods 0.000 description 3
- 238000013075 data extraction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000010248 power generation Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 241000508725 Elymus repens Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/156—Query results presentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
公开了一种基于电力交易平台的结算单数据分析方法及系统。其首先获取结算单文件,接着,对所述结算单文件进行解析,然后,对从所述结算单文件中提取的数据进行计算和分析以得到分析结果,最后,以表格和/或图表的形式来展示所述分析结果。这样,可以获取准确可靠的结算单数据分析结果。
Description
技术领域
本申请涉及数据分析领域,且更为具体地,涉及一种基于电力交易平台的结算单数据分析方法及系统。
背景技术
发电企业每月都要从电务交易中心获取电力交易结算单进行统计分析。结算单是以PDF的形式提供给发电企业的,以往都是营销分析人员通过手工获取、提取结算单数所,用EXCEL进行人工统计分析,结算分析时效性强,工作强度大,经常需要加班处理,结算数据的管理和应用,通过EXCEL进行管理,数据的一致性、标准性无法保证。
因此,期待一种优化的基于电力交易平台的结算单数据分析方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于电力交易平台的结算单数据分析方法及系统。其首先获取结算单文件,接着,对所述结算单文件进行解析,然后,对从所述结算单文件中提取的数据进行计算和分析以得到分析结果,最后,以表格和/或图表的形式来展示所述分析结果。这样,可以获取准确可靠的结算单数据分析结果。
根据本申请的一个方面,提供了一种基于电力交易平台的结算单数据分析方法,其包括:
获取结算单文件;
对所述结算单文件进行解析;
对从所述结算单文件中提取的数据进行计算和分析以得到分析结果;以及
以表格和/或图表的形式来展示所述分析结果。
在上述的基于电力交易平台的结算单数据分析方法中,对所述结算单文件进行解析,包括:
读取一个所述结算单文件;
抽取所述结算单文件中的文字信息;
根据结算单文件格式,对抽取的所述文字信息进行逐行校验;
去除所述结算单文件中的水印;
从所述文字信息中抽取结算单字段;以及
保存所述结算单字段数据。
在上述的基于电力交易平台的结算单数据分析方法中,去除所述结算单文件中的水印,包括:
获取结算单文件的图像;
对所述结算单文件的图像进行图像预处理以得到预处理后结算单文件的图像;
将所述预处理后结算单文件的图像通过目标感兴趣网络以得到感兴趣区域图像;
将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量;
对所述分类特征向量进行耿贝尔正态周期性重参数化以得到优化后分类特征向量;以及
将所述优化后分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印。
在上述的基于电力交易平台的结算单数据分析方法中,所述目标感兴趣网络为CenterNet、ExtremeNet、RepPoints、YOLOv1或FCOS。
在上述的基于电力交易平台的结算单数据分析方法中,将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量,包括:
对所述感兴趣区域图像进行图像分块以得到感兴趣区域图像块的序列;
使用所述嵌入层分别对所述感兴趣区域图像块的序列中各个感兴趣区域图像块进行嵌入化以得到感兴趣区域图像块嵌入向量的序列;以及
将所述感兴趣区域图像块嵌入向量的序列通过所述图像语义编码器以得到所述分类特征向量。
在上述的基于电力交易平台的结算单数据分析方法中,对所述分类特征向量进行耿贝尔正态周期性重参数化以得到优化后分类特征向量,包括:
以如下优化公式对所述分类特征向量进行耿贝尔正态周期性重参数化以得到所述优化后分类特征向量;
其中,所述优化公式为:
其中,vi表示所述分类特征向量的各个位置的特征值,μ和σ分别是所述分类特征向量的各个位置的特征值集合的均值和方差,arcsin(·)表示反正弦函数,log表示以2为底的对数函数,arccos(·)表示反余弦函数,vi′表示所述优化后分类特征向量的各个位置的特征值。
在上述的基于电力交易平台的结算单数据分析方法中,将所述优化后分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印,包括:
使用所述分类器的全连接层对所述优化后分类特征向量进行全连接编码以得到编码分类特征向量;以及
将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
根据本申请的另一个方面,提供了一种基于电力交易平台的结算单数据分析系统,其包括:
结算单文件获取模块,用于获取结算单文件;
结算单文件解析模块,用于对所述结算单文件进行解析;
分析计算模块,用于对从所述结算单文件中提取的数据进行计算和分析以得到分析结果;以及
报表模块,用于以表格和/或图表的形式来展示所述分析结果。
在上述的基于电力交易平台的结算单数据分析系统中,所述结算单文件解析模块,包括:
读取单元,用于读取一个所述结算单文件;
文字抽取单元,用于抽取所述结算单文件中的文字信息;
校验单元,用于根据结算单文件格式,对抽取的所述文字信息进行逐行校验;
去除水印单元,用于去除所述结算单文件中的水印;
字段抽取单元,用于从所述文字信息中抽取结算单字段;以及
结算单数据保存单元,用于保存所述结算单字段数据。
在上述的基于电力交易平台的结算单数据分析系统中,所述去除水印单元,包括:
图像获取子单元,用于获取结算单文件的图像;
图像预处理子单元,用于对所述结算单文件的图像进行图像预处理以得到预处理后结算单文件的图像;
目标感兴趣处理子单元,用于将所述预处理后结算单文件的图像通过目标感兴趣网络以得到感兴趣区域图像;
图像语义编码子单元,用于将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量;
优化子单元,用于对所述分类特征向量进行耿贝尔正态周期性重参数化以得到优化后分类特征向量;以及
分类子单元,用于将所述优化后分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印。
与现有技术相比,本申请提供的基于电力交易平台的结算单数据分析方法及系统,其首先获取结算单文件,接着,对所述结算单文件进行解析,然后,对从所述结算单文件中提取的数据进行计算和分析以得到分析结果,最后,以表格和/或图表的形式来展示所述分析结果。这样,可以获取准确可靠的结算单数据分析结果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在没有做出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本申请的主旨。
图1为根据本申请实施例的基于电力交易平台的结算单数据分析方法的流程图。
图2为根据本申请实施例的基于电力交易平台的结算单数据分析方法的子步骤S120的流程图。
图3为根据本申请实施例的基于电力交易平台的结算单数据分析方法中的子步骤S240的应用场景图。
图4为根据本申请实施例的基于电力交易平台的结算单数据分析方法中的子步骤S240的流程图。
图5为根据本申请实施例的基于电力交易平台的结算单数据分析方法中的子步骤S240的架构示意图。
图6为根据本申请实施例的基于电力交易平台的结算单数据分析方法的子步骤S244的流程图。
图7为根据本申请实施例的基于电力交易平台的结算单数据分析方法的子步骤S246的流程图。
图8为根据本申请实施例的基于电力交易平台的结算单数据分析系统的框图。
图9为根据本申请实施例的几个主要模块的示意图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
本申请提供了一种基于电力交易平台的结算单数据分析方法,如图1所示,其包括步骤:S110:获取结算单文件;S120:对所述结算单文件进行解析;S130:对从所述结算单文件中提取的数据进行计算和分析以得到分析结果;以及,S140:以表格和/或图表的形式来展示所述分析结果。
特别地,在步骤S120中,由于电力交易结算单PDF文件经过特殊处理,数字之间有分隔符进行分隔,采用官方PDF工具也不能正确识别导出,需要人工进行整理才能进行后续的统计分析工作。现有的解析方法,识别准确率达不到实际应用要求,需要人工进行辅助修正,才能进行后续的应用,应用价值不高。为了解决电力交易结算单PDF文件正确解析的问题,针对PDF结算单,在本申请的技术方案中,如图2所示,采取如下操作:S210:读取一个所述结算单文件;S220:抽取所述结算单文件中的文字信息;S230:根据结算单文件格式,对抽取的所述文字信息进行逐行校验;S240:去除所述结算单文件中的水印;S250:从所述文字信息中抽取结算单字段;以及,S260:保存所述结算单字段数据。通过这样的方式来解决电力结算单数据正确识别的问题,实现对电力交易PDF结算单文件的自动化解析、数据提取和保存。
更具体地,在实际进行电力结算单数据正确识别的过程中,如何正确识别结算单文件中的是否存在水印是一个重要的技术问题。如果不能正确识别结算单文件中是否存在水印,那么在进行后续操作时,水印的存在可能会导致提取到的结算单字段出现错误或缺失,从而影响对结算单数据的正确分析和计算;同时,如果对水印的存在问题进行误判,将原本需要分析的数据当作水印去除,也会对结算单数据的正确分析产生极大的不利影响。
基于此,本申请的技术构思为:基于深度学习和人工智能技术,从结算单文件的图像中挖掘关于水印的高维隐含信息,从而解决电力结算单PDF文件解析过程中的水印问题,有效地避免对结算单数据进行误判或错误提取的情况,从而提高了结算单数据分析的准确度和可靠性。
具体地,在本申请的技术方案中,首先,获取结算单文件的图像。这里,采用结算单文件的图像作为输入,具有直观性、实时性、精确性、便捷性等好处。例如,图像输入可以更准确地提取出结算单中的关键信息,避免部分信息无法被正常识别或遗漏的问题,且采用图像作为输入,可以省去繁琐的手工输入和转换步骤,降低人工成本和错误率,同时也方便了对结算单数据的存储和传输。
考虑到在实际应用中,结算单文件图像可能存在一些问题,如图像模糊、光线差异、背景噪声等,这些问题会影响后续操作的准确性和效率,在本申请的技术方案中,对所述结算单文件的图像进行图像预处理以去除一些不必要的信息或者干扰,从而得到预处理后结算单文件的图像。其中,预处理的方法包括但不限于:去除噪声、增强对比度、图像二值化等。
接着,将所述预处理后结算单文件的图像通过目标感兴趣网络以得到感兴趣区域图像。应可以理解,结算单文件图像中可能包含许多不需要的信息,如页眉、页脚等,这些不需要的信息会影响后续的数据分析和计算。通过目标感兴趣网络对所述预处理后结算单文件的图像进行处理以定位并提取感兴趣区域,其中包括结算单的主要内容和字段信息。也就是说,通过目标感兴趣网络可以有效地提高提取结算单字段信息的准确性和效率,在后续的特征提取和分类器训练阶段,减少了对无关信息的干扰,从而最终实现对结算单数据的正确分析和计算。
然后,将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量。这里,分块处理可以将所述感兴趣区域图像切分成均匀大小的小块,在一定程度上来说,这样做的好处是使得计算机模型能够更聚焦于图像局部的关键信息,有利于图像语义编码器更好地捕捉局部的高维隐含特征分布信息。同时,利用嵌入层可以将每个图像块转换为低维嵌入向量表示,再通过图像语义编码器的自注意力机制来刻画各个图像块之间的长程依赖关系,即各个图像块语义特征向量在全局语义背景下的上下文关联信息,从而使得所述分类特征向量具有更出色的特征信息表征能力。
继而,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印。这里,所述分类器可以根据输入的特征向量输出对应于相应的分类标签的分类结果,也就是,在本申请的技术方案中,所述分类器的标签包括结算单文件中存在水印(第一标签),以及,结算单文件中不存在水印(第二标签),其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。在实际应用过程中,响应于所述分类结果为结算单文件中存在水印,再进一步地对其进行去除水印操作。通过这样的方式来解决电力结算单PDF文件解析过程中的水印问题,有效地避免对结算单数据进行误判或错误提取的情况,从而提高了结算单数据分析的准确度和可靠性。
相应地,在本申请的技术方案中,在将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量时,首先将所述感兴趣区域图像划分为图像块的序列,并使用所述嵌入层将所述图像块的序列中的各个图像块映射为低维嵌入向量表示以得到图像块嵌入向量的序列,进而所述图像语义编码器通过自注意力机制对所述图像块嵌入向量的序列进行基于全局特征尺度的上下文关联编码以捕捉各个图像块语义特征向量在以所述图像块嵌入向量的序列的全局语义背景下的上下文关联信息,通过这样的方式,能够充分地保留各个图像块语义特征向量所表达的图像特征之间的长程依赖以得到多个上下文图像块语义特征向量。然而在后续的计算过程中,由于直接以将所述多个上下文图像块语义特征向量进行级联的方式来融合所述多个上下文图像块语义特征向量以得到所述分类特征向量,这会导致所述分类特征向量的内部存在由于向量级联引入的分布间隙(distribution gap),也就是,在所述分类特征向量的高维数据流形中,所述分类特征向量的高维数据流形存在微弱的缝隙型连接缺陷,导致所述分类特征向量的连续性差,影响所述分类特征向量通过所述分类器所得到的分类结果的精准度。
因此,在本申请的技术方案中,对所述分类特征向量,例如记为V进行耿贝尔(Gumbel)正态周期性重参数化,以获得优化后的分类特征向量V′,具体表示为:
μ和σ分别是特征值集合vi∈V的均值和方差,且vi′∈V′。
这里,所述耿贝尔正态周期性重参数化通过将分类特征向量V的各个位置的特征值vi转换为其概率分布的角特征表达,来基于耿贝尔(Gumbel)分布的随机性周期操作方式在特征值集合的正态分布中引入随机性的周期式分布,以获得原特征分布的具有随机性的周期式连续可微近似,从而通过特征的周期性重参数化来提高优化后的分类特征向量V′的特征流形连续性和几何可微性,从而补偿所述分类特征向量的特征分布的连续性差对分类判断造成的不良影响。
图3为根据本申请实施例的基于电力交易平台的结算单数据分析方法中的子步骤S240的应用场景图。如图3所示,在该应用场景中,首先,获取结算单文件的图像(例如,图3中所示意的D),然后,将所述结算单文件的图像输入至部署有基于电力交易平台的结算单数据分析算法的服务器中(例如,图3中所示意的S),其中,所述服务器能够使用所述基于电力交易平台的结算单数据分析算法对所述结算单文件的图像进行处理以得到用于表示结算单文件中是否存在水印的分类结果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
图4为根据本申请实施例的基于电力交易平台的结算单数据分析方法中的子步骤S240的流程图。如图4所示,根据本申请实施例的基于电力交易平台的结算单数据分析方法,去除所述结算单文件中的水印步骤,还包括步骤:S241,获取结算单文件的图像;S242,对所述结算单文件的图像进行图像预处理以得到预处理后结算单文件的图像;S243,将所述预处理后结算单文件的图像通过目标感兴趣网络以得到感兴趣区域图像;S244,将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量;S245,对所述分类特征向量进行耿贝尔正态周期性重参数化以得到优化后分类特征向量;以及,S246,将所述优化后分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印。
图5为根据本申请实施例的基于电力交易平台的结算单数据分析方法中的子步骤S240的架构示意图。如图5所示,在该网络架构中,首先,获取结算单文件的图像;接着,对所述结算单文件的图像进行图像预处理以得到预处理后结算单文件的图像;然后,将所述预处理后结算单文件的图像通过目标感兴趣网络以得到感兴趣区域图像;接着,将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量;然后,对所述分类特征向量进行耿贝尔正态周期性重参数化以得到优化后分类特征向量;最后,将所述优化后分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印。
更具体地,在步骤S241中,获取结算单文件的图像。采用结算单文件的图像作为输入,具有直观性、实时性、精确性、便捷性等好处。例如,图像输入可以更准确地提取出结算单中的关键信息,避免部分信息无法被正常识别或遗漏的问题,且采用图像作为输入,可以省去繁琐的手工输入和转换步骤,降低人工成本和错误率,同时也方便了对结算单数据的存储和传输。
更具体地,在步骤S242中,对所述结算单文件的图像进行图像预处理以得到预处理后结算单文件的图像。在实际应用中,结算单文件图像可能存在如图像模糊、光线差异、背景噪声等的问题,这些问题会影响后续操作的准确性和效率,在本申请的技术方案中,对所述结算单文件的图像进行图像预处理以去除一些不必要的信息或者干扰,从而得到预处理后结算单文件的图像。其中,预处理的方法包括但不限于:去除噪声、增强对比度、图像二值化等。
更具体地,在步骤S243中,将所述预处理后结算单文件的图像通过目标感兴趣网络以得到感兴趣区域图像。应可以理解,结算单文件图像中可能包含许多不需要的信息,如页眉、页脚等,这些不需要的信息会影响后续的数据分析和计算。通过目标感兴趣网络对所述预处理后结算单文件的图像进行处理以定位并提取感兴趣区域,其中包括结算单的主要内容和字段信息。也就是说,通过目标感兴趣网络可以有效地提高提取结算单字段信息的准确性和效率,在后续的特征提取和分类器训练阶段,减少了对无关信息的干扰,从而最终实现对结算单数据的正确分析和计算。
相应地,在一个具体示例中,所述目标感兴趣网络为CenterNet、ExtremeNet、RepPoints、YOLOv1或FCOS。
更具体地,在步骤S244中,将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量。分块处理可以将所述感兴趣区域图像切分成均匀大小的小块,在一定程度上来说,这样做的好处是使得计算机模型能够更聚焦于图像局部的关键信息,有利于图像语义编码器更好地捕捉局部的高维隐含特征分布信息。同时,利用嵌入层可以将每个图像块转换为低维嵌入向量表示,再通过图像语义编码器的自注意力机制来刻画各个图像块之间的长程依赖关系,即各个图像块语义特征向量在全局语义背景下的上下文关联信息,从而使得所述分类特征向量具有更出色的特征信息表征能力。
应可以理解,卷积神经网络(Convolutional Neural Network,CNN)是一种人工神经网络,在图像识别等领域有着广泛的应用。卷积神经网络可以包括输入层、隐藏层和输出层,其中,隐藏层可以包括卷积层、池化(pooling)层、激活层和全连接层等,上一层根据输入的数据进行相应的运算,将运算结果输出给下一层,输入的初始数据经过多层的运算之后得到一个最终的结果。
相应地,在一个具体示例中,如图6所示,将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量,包括:S2441,对所述感兴趣区域图像进行图像分块以得到感兴趣区域图像块的序列;S2442,使用所述嵌入层分别对所述感兴趣区域图像块的序列中各个感兴趣区域图像块进行嵌入化以得到感兴趣区域图像块嵌入向量的序列;以及,S2443,将所述感兴趣区域图像块嵌入向量的序列通过所述图像语义编码器以得到所述分类特征向量。
更具体地,在步骤S245中,对所述分类特征向量进行耿贝尔正态周期性重参数化以得到优化后分类特征向量。
相应地,在本申请的技术方案中,在将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量时,首先将所述感兴趣区域图像划分为图像块的序列,并使用所述嵌入层将所述图像块的序列中的各个图像块映射为低维嵌入向量表示以得到图像块嵌入向量的序列,进而所述图像语义编码器通过自注意力机制对所述图像块嵌入向量的序列进行基于全局特征尺度的上下文关联编码以捕捉各个图像块语义特征向量在以所述图像块嵌入向量的序列的全局语义背景下的上下文关联信息,通过这样的方式,能够充分地保留各个图像块语义特征向量所表达的图像特征之间的长程依赖以得到多个上下文图像块语义特征向量。然而在后续的计算过程中,由于直接以将所述多个上下文图像块语义特征向量进行级联的方式来融合所述多个上下文图像块语义特征向量以得到所述分类特征向量,这会导致所述分类特征向量的内部存在由于向量级联引入的分布间隙,也就是,在所述分类特征向量的高维数据流形中,所述分类特征向量的高维数据流形存在微弱的缝隙型连接缺陷,导致所述分类特征向量的连续性差,影响所述分类特征向量通过所述分类器所得到的分类结果的精准度。因此,在本申请的技术方案中,对所述分类特征向量进行耿贝尔正态周期性重参数化,以获得优化后的分类特征向量。
相应地,在一个具体示例中,对所述分类特征向量进行耿贝尔正态周期性重参数化以得到优化后分类特征向量,包括:以如下优化公式对所述分类特征向量进行耿贝尔正态周期性重参数化以得到所述优化后分类特征向量;其中,所述优化公式为:
其中,vi表示所述分类特征向量的各个位置的特征值,μ和σ分别是所述分类特征向量的各个位置的特征值集合的均值和方差,arcsin(·)表示反正弦函数,log表示以2为底的对数函数,arccos(·)表示反余弦函数,vi′表示所述优化后分类特征向量的各个位置的特征值。
这里,所述耿贝尔正态周期性重参数化通过将分类特征向量的各个位置的特征值转换为其概率分布的角特征表达,来基于耿贝尔分布的随机性周期操作方式在特征值集合的正态分布中引入随机性的周期式分布,以获得原特征分布的具有随机性的周期式连续可微近似,从而通过特征的周期性重参数化来提高优化后的分类特征向量的特征流形连续性和几何可微性,从而补偿所述分类特征向量的特征分布的连续性差对分类判断造成的不良影响。
更具体地,在步骤S246中,将所述优化后分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印。通过这样的方式来解决电力结算单PDF文件解析过程中的水印问题,有效地避免对结算单数据进行误判或错误提取的情况,从而提高了结算单数据分析的准确度和可靠性。
也就是,在本申请的技术方案中,所述分类器的标签包括结算单文件中存在水印(第一标签),以及,结算单文件中不存在水印(第二标签),其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。值得注意的是,这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念,实际上在训练过程当中,计算机模型并没有“结算单文件中是否存在水印”这种概念,其只是有两种分类标签且输出特征在这两个分类标签下的概率,即p1和p2之和为一。因此,结算单文件中是否存在水印的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布,实质上用到的是标签的自然概率分布的物理意义,而不是“结算单文件中是否存在水印”的语言文本意义。应可以理解,在本申请的技术方案中,所述分类器的分类标签为所述结算单文件中是否存在水印的检测判断标签,因此,在得到所述分类结果后,可基于所述分类结果来对于结算单文件中是否存在水印进行判断,从而解决电力结算单PDF文件解析过程中的水印问题,以避免对结算单数据进行误判或错误提取的情况,从而提高结算单数据分析的准确度和可靠性。
应可以理解,分类器的作用是利用给定的类别、已知的训练数据来学习分类规则和分类器,然后对未知数据进行分类(或预测)。逻辑回归(logistics)、SVM等常用于解决二分类问题,对于多分类问题(multi-class classification),同样也可以用逻辑回归或SVM,只是需要多个二分类来组成多分类,但这样容易出错且效率不高,常用的多分类方法有Softmax分类函数。
相应地,在一个具体示例中,如图7所示,将所述优化后分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印,包括:S2461,使用所述分类器的全连接层对所述优化后分类特征向量进行全连接编码以得到编码分类特征向量;以及,S2462,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
综上,基于本申请实施例的基于电力交易平台的结算单数据分析方法中的去除所述结算单文件中的水印步骤,其首先获取结算单文件的图像,接着,对所述结算单文件的图像进行图像预处理以得到预处理后结算单文件的图像,然后,将所述预处理后结算单文件的图像通过目标感兴趣网络以得到感兴趣区域图像,接着,将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量,然后,对所述分类特征向量进行耿贝尔正态周期性重参数化以得到优化后分类特征向量,最后,将所述优化后分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印。这样,可以提高结算单数据分析的准确度和可靠性。
图8为根据本申请实施例的基于电力交易平台的结算单数据分析系统100的框图。如图8所示,根据本申请实施例的基于电力交易平台的结算单数据分析系统100,包括:结算单文件获取模块110,用于获取结算单文件;结算单文件解析模块120,用于对所述结算单文件进行解析;分析计算模块130,用于对从所述结算单文件中提取的数据进行计算和分析以得到分析结果;以及,报表模块140,用于以表格和/或图表的形式来展示所述分析结果。
在一个示例中,在上述基于电力交易平台的结算单数据分析系统100中,所述结算单文件解析模块120,包括:读取单元,用于读取一个所述结算单文件;文字抽取单元,用于抽取所述结算单文件中的文字信息;校验单元,用于根据结算单文件格式,对抽取的所述文字信息进行逐行校验;去除水印单元,用于去除所述结算单文件中的水印;字段抽取单元,用于从所述文字信息中抽取结算单字段;以及,结算单数据保存单元,用于保存所述结算单字段数据。
在一个示例中,在上述基于电力交易平台的结算单数据分析系统100中,所述去除水印单元,包括:图像获取子单元,用于获取结算单文件的图像;图像预处理子单元,用于对所述结算单文件的图像进行图像预处理以得到预处理后结算单文件的图像;目标感兴趣处理子单元,用于将所述预处理后结算单文件的图像通过目标感兴趣网络以得到感兴趣区域图像;图像语义编码子单元,用于将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量;优化子单元,用于对所述分类特征向量进行耿贝尔正态周期性重参数化以得到优化后分类特征向量;以及,分类子单元,用于将所述优化后分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印。
在一个示例中,在上述基于电力交易平台的结算单数据分析系统100中,所述目标感兴趣网络为CenterNet、ExtremeNet、RepPoints、YOLOv1或FCOS。
在一个示例中,在上述基于电力交易平台的结算单数据分析系统100中,所述图像语义编码子单元,用于:对所述感兴趣区域图像进行图像分块以得到感兴趣区域图像块的序列;使用所述嵌入层分别对所述感兴趣区域图像块的序列中各个感兴趣区域图像块进行嵌入化以得到感兴趣区域图像块嵌入向量的序列;以及,将所述感兴趣区域图像块嵌入向量的序列通过所述图像语义编码器以得到所述分类特征向量。
在一个示例中,在上述基于电力交易平台的结算单数据分析系统100中,所述优化子单元,用于:以如下优化公式对所述分类特征向量进行耿贝尔正态周期性重参数化以得到所述优化后分类特征向量;其中,所述优化公式为:
其中,vi表示所述分类特征向量的各个位置的特征值,μ和σ分别是所述分类特征向量的各个位置的特征值集合的均值和方差,arcsin(·)表示反正弦函数,log表示以2为底的对数函数,arccos(·)表示反余弦函数,vi′表示所述优化后分类特征向量的各个位置的特征值。
在一个示例中,在上述基于电力交易平台的结算单数据分析系统100中,所述分类子单元,用于:使用所述分类器的全连接层对所述优化后分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
这里,本领域技术人员可以理解,上述基于电力交易平台的结算单数据分析系统100中的各个模块的具体功能和操作已经在上面参考图1到图7的基于电力交易平台的结算单数据分析方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基于电力交易平台的结算单数据分析系统100可以实现在各种无线终端中,例如具有基于电力交易平台的结算单数据分析算法的服务器等。在一个示例中,根据本申请实施例的基于电力交易平台的结算单数据分析系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于电力交易平台的结算单数据分析系统100可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于电力交易平台的结算单数据分析系统100同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该基于电力交易平台的结算单数据分析系统100与该无线终端也可以是分立的设备,并且该基于电力交易平台的结算单数据分析系统100可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
本申请通过应用计算机文本识别和数据处理等信息技术,实现了一种基于混合编程的电力交易结算单自动识别和分析方法及系统。通过上述方法及系统的实现和使用,解决了发电企业电力交易结算单人工处理废时费力的现状,全程实现了程序自动化处理,极大的提高了结算数据的处理效率,降低了员工工作强度,缩短了结算数据提报时间,简化了各部门结算数据统计汇总流程,大屏的使用优化了决策分析过程,重点指标一目了然,为经营决策提供了强有力的支撑。
进一步地,如图9所示,实现上述的基于电力交易平台的结算单数据分析方法主要包括以下几个主要模块:控制中心、结算单文件获取器、PDF解析器、分析计算模块、报表模块和大屏展示模块。
其中,控制中心主要实现对结算单文件获取器、PDF解析器、分析计算模块三个功能模块的调度、运行监测、反馈等信息的管理。
其中,结算单文件获取器采用RAP数字机器人功能,模拟用户对电力交易平台进行操作,实现无侵入式数据获取,打包管理等功能。具体的,为实现自动化获取电力交易平台结算单文件,采用python开发了RPA结算单文件获取器,模拟用户对电力交易平台进行无侵入式登录、查询、下载等操作,实现结算单数据的查询、下载、打包、上传等功能。在每月15号左右,交易中心发布结算通知,系统控制中心根据定时策略,在15号左右由人工或系统自动发起结算单下载命令,结算单文件获取器,自动登录交易平台,查询结算单,并进行验证,查询到本月的结算单数据后,进行下载。系统控制结算单文件获取器遍历公司所有参与交易的单元,直到全部下载完成。如果其中的某个场站下载失败系统会根据重试策略,再尝试几次,如果尝试失败,系统会通知管理员进行处理。结算单全部下载完成后,结算单获取器会将本月所有结算单文件进行压缩打包,打包成zip格式的文件,然后调用自动上传功能,将打包好的zip文件自动上传到结算单数据处理系统。
其中,关于结算单文件解析器,由于电力交易结算单PDF文件经过特殊处理,数字之间有分隔符进行分隔,采用官方PDF工具也不能正确识别导出,需要人工进行整理,才能进行后续的统计分析工作。现有解析方法,识别准确率达不到实际应用要求,需要人工进行辅助修正,才能进行后续的应用,应用价值不高。为了解决电力交易结算单PDF文件正确解析的问题,我们经过不断的尝试,针对PDF结算单,使用python提取PDF内容,并针对提取的结算单内容和格式,编写了特征文本抽取算法、结算数据分隔处理算法、结算单去水印算法、结算数据多行合并处理算法,结决了电力结算单数据正确识别的问题,经过试用,识别准确率在100%,该方法实现了对电力交易PDF结算单文件的自动化解析、数据提取、保存、核对校验等功能。
具体的,结算单文件上传到系统后,系统会调用结算单文件解析器,对本月结算单文件进行解析、校验和入库操作。交易平台正式的PDF结算单文件是具有特殊格式和盖章的PDF文件,一般常用的PDF提取工具均不能全部正确识别PDF结算单文件,经过分析比对,发现Python平台下的pdf处理工具可以提高PDF结算单文件的识别率,因此本发明引入Python+JAVA混合编程,使用Python开发PDF结算单文件数据抽取和校正功能,JAVA开发数据管理功能。关于PDF结算单文件数据提取过程,首先系统接收到上传的结算单文件包后,按规则进行解压,并释放到指定的目录下。然后,调用解析器逐个进行处理,解析的过程主要包括以下几个步骤:1、读取一个结算单文件;2、抽取结算单文件中的全部文字信息;3、根据结算单文件格式,对抽取的文件进行逐行校验,校验要素有列宽、空格数、数量、价格和费用格式、特征行(包括首行和末行)。如发现异常,系统会自动重试,直到达到重试次数,如果无法校验通过,系统会提示管理员进行处理。4、去除水印信息,根据结算单特征值,如文件名、交易单元名、结算单无名称等进行水印检测,在抽取的文本中如果发现大于3个特征值的文字信息,就会调用去水印算法,进行去水印操作,将水印从文本中去除。5、字段信息抽取,抽取的文本在校验和去水印操作完成后,解析器会根据结算单格式,逐个抽取结算单字段,并保存的数组中,解析完成后,解析器会将结算单字段数据转换成JSON格式,并提交给JAVA程序进行入库操作。6、结算单数据的保存,系统接收到JSON格式的结算单数据后,会自动映射成结算单数据模型对象,调用保存方法,将数据保存到结算单数据库中。7、结算单数据的校验,结算单数据保存完成后,系统会自动进行校验,通过验证结算交易单元、所属月份、结算电量、结算电费以及明细笔数等指标,检验结算单数据是否正确。如果发现异常,系统会提示管理员进行处理。
其中,关于分析计算模块,分析计算模块能够实现对结算数据的查询统计、指标提取、交易分析、结算分析、现货分析、环比同比、考核分析等业务功能。结算单数据入库后,系统自动调起结算单数据分析加工作业,对结算单数据进行科目、交易成分、项目、分公司、同比、环比、区域对标、公司对标等指标维度的加工汇总,生成各项指标数据,方便报表和大屏进行查询。
其中,关于报表模块,根据业务需求,以表格和图表的形式,提取展示业务分析结果数据,用户可以打印或导出报表,为营销分析、企业汇总统计、业务分析提供支持。报表模块为各级分析人员提供相应的结算分析结果查询提报功能。
其中,关于大屏展示模块,根据企业关注的营销重点,把结算指标以图表的形式,在大屏上进行展示,重点指标包括:装机容量、累计上网电量、月上网电量、同比、环比、大客户、省间中长期、省内中长期、省间现货、省内现货、D+3交易、各电场对比、任务考核,大屏简洁美观,重点数据展示一目了然。
进一步地,还设计了统一的权限管理模型,开发了统一的权限认证子系统,统一了API接口,统一采用员工工号作为用户名,并对密码进行了强密码验证,符合等保三级要求。操作中对各处验证环节增加了强制验证,只有有权限的人员才能进行操作,如果多次验证不通过,系统会发出告警。
根据本申请的另一方面,还提供了一种非易失性的计算机可读存储介质,其上存储有计算机可读的指令,当利用计算机执行所述指令时可以执行如前所述的方法。
技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”,通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如,各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。
所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如:从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台,或其他实现系统的计算机环境,或与提供目标检测所需要的信息相关的类似功能的系统。
本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。
Claims (10)
1.一种基于电力交易平台的结算单数据分析方法,其特征在于,包括:
获取结算单文件;
对所述结算单文件进行解析;
对从所述结算单文件中提取的数据进行计算和分析以得到分析结果;以及
以表格和/或图表的形式来展示所述分析结果。
2.根据权利要求1所述的基于电力交易平台的结算单数据分析方法,其特征在于,对所述结算单文件进行解析,包括:
读取一个所述结算单文件;
抽取所述结算单文件中的文字信息;
根据结算单文件格式,对抽取的所述文字信息进行逐行校验;
去除所述结算单文件中的水印;
从所述文字信息中抽取结算单字段;以及
保存所述结算单字段数据。
3.根据权利要求2所述的基于电力交易平台的结算单数据分析方法,其特征在于,去除所述结算单文件中的水印,包括:
获取结算单文件的图像;
对所述结算单文件的图像进行图像预处理以得到预处理后结算单文件的图像;
将所述预处理后结算单文件的图像通过目标感兴趣网络以得到感兴趣区域图像;
将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量;
对所述分类特征向量进行耿贝尔正态周期性重参数化以得到优化后分类特征向量;以及
将所述优化后分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印。
4.根据权利要求3所述的基于电力交易平台的结算单数据分析方法,其特征在于,所述目标感兴趣网络为CenterNet、ExtremeNet、RepPoints、YOLOv1或FCOS。
5.根据权利要求4所述的基于电力交易平台的结算单数据分析方法,其特征在于,将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量,包括:
对所述感兴趣区域图像进行图像分块以得到感兴趣区域图像块的序列;
使用所述嵌入层分别对所述感兴趣区域图像块的序列中各个感兴趣区域图像块进行嵌入化以得到感兴趣区域图像块嵌入向量的序列;以及
将所述感兴趣区域图像块嵌入向量的序列通过所述图像语义编码器以得到所述分类特征向量。
6.根据权利要求5所述的基于电力交易平台的结算单数据分析方法,其特征在于,对所述分类特征向量进行耿贝尔正态周期性重参数化以得到优化后分类特征向量,包括:
以如下优化公式对所述分类特征向量进行耿贝尔正态周期性重参数化以得到所述优化后分类特征向量;
其中,所述优化公式为:
其中,vi表示所述分类特征向量的各个位置的特征值,μ和σ分别是所述分类特征向量的各个位置的特征值集合的均值和方差,arcsin(·)表示反正弦函数,log表示以2为底的对数函数,arccos(·)表示反余弦函数,vi′表示所述优化后分类特征向量的各个位置的特征值。
7.根据权利要求6所述的基于电力交易平台的结算单数据分析方法,其特征在于,将所述优化后分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印,包括:
使用所述分类器的全连接层对所述优化后分类特征向量进行全连接编码以得到编码分类特征向量;以及
将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
8.一种基于电力交易平台的结算单数据分析系统,其特征在于,包括:
结算单文件获取模块,用于获取结算单文件;
结算单文件解析模块,用于对所述结算单文件进行解析;
分析计算模块,用于对从所述结算单文件中提取的数据进行计算和分析以得到分析结果;以及
报表模块,用于以表格和/或图表的形式来展示所述分析结果。
9.根据权利要求8所述的基于电力交易平台的结算单数据分析系统,其特征在于,所述结算单文件解析模块,包括:
读取单元,用于读取一个所述结算单文件;
文字抽取单元,用于抽取所述结算单文件中的文字信息;
校验单元,用于根据结算单文件格式,对抽取的所述文字信息进行逐行校验;
去除水印单元,用于去除所述结算单文件中的水印;
字段抽取单元,用于从所述文字信息中抽取结算单字段;以及
结算单数据保存单元,用于保存所述结算单字段数据。
10.根据权利要求9所述的基于电力交易平台的结算单数据分析系统,其特征在于,所述去除水印单元,包括:
图像获取子单元,用于获取结算单文件的图像;
图像预处理子单元,用于对所述结算单文件的图像进行图像预处理以得到预处理后结算单文件的图像;
目标感兴趣处理子单元,用于将所述预处理后结算单文件的图像通过目标感兴趣网络以得到感兴趣区域图像;
图像语义编码子单元,用于将所述感兴趣区域图像进行图像分块处理后通过包含嵌入层的图像语义编码器以得到分类特征向量;
优化子单元,用于对所述分类特征向量进行耿贝尔正态周期性重参数化以得到优化后分类特征向量;以及
分类子单元,用于将所述优化后分类特征向量通过分类器以得到分类结果,所述分类结果用于表示结算单文件中是否存在水印。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310375015.5A CN116627907A (zh) | 2023-04-10 | 2023-04-10 | 一种基于电力交易平台的结算单数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310375015.5A CN116627907A (zh) | 2023-04-10 | 2023-04-10 | 一种基于电力交易平台的结算单数据分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116627907A true CN116627907A (zh) | 2023-08-22 |
Family
ID=87608837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310375015.5A Pending CN116627907A (zh) | 2023-04-10 | 2023-04-10 | 一种基于电力交易平台的结算单数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116627907A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608065A (zh) * | 2015-12-16 | 2016-05-25 | 北京奇虎科技有限公司 | 一种图表生成方法和装置 |
JP2018031681A (ja) * | 2016-08-25 | 2018-03-01 | 株式会社島津製作所 | 分析データ表示処理装置 |
CN109213909A (zh) * | 2017-09-11 | 2019-01-15 | 南京弹跳力信息技术有限公司 | 一种融合搜索与计算的大数据分析系统及其分析方法 |
CN109684383A (zh) * | 2018-12-25 | 2019-04-26 | 广州天鹏计算机科技有限公司 | 数据分析结果的获取方法、装置、计算机设备和存储介质 |
CN112434690A (zh) * | 2020-12-02 | 2021-03-02 | 上海三稻智能科技有限公司 | 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质 |
US20210081729A1 (en) * | 2019-09-16 | 2021-03-18 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for image text recognition, apparatus, device and storage medium |
US20210349924A1 (en) * | 2020-05-06 | 2021-11-11 | Jpmorgan Chase Bank, N.A. | Method and apparatus for implementing an automatic data ingestion module |
CN113935818A (zh) * | 2021-10-19 | 2022-01-14 | 北京自如信息科技有限公司 | 一种订单结算方法、系统和电子设备 |
CN114090776A (zh) * | 2021-11-26 | 2022-02-25 | 北京金山数字娱乐科技有限公司 | 文档解析方法、系统及装置 |
CN114612921A (zh) * | 2022-05-12 | 2022-06-10 | 中信证券股份有限公司 | 表单识别方法、装置、电子设备和计算机可读介质 |
CN115457580A (zh) * | 2022-09-19 | 2022-12-09 | 郑州大学 | 数字化档案表格转换方法及系统 |
-
2023
- 2023-04-10 CN CN202310375015.5A patent/CN116627907A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608065A (zh) * | 2015-12-16 | 2016-05-25 | 北京奇虎科技有限公司 | 一种图表生成方法和装置 |
JP2018031681A (ja) * | 2016-08-25 | 2018-03-01 | 株式会社島津製作所 | 分析データ表示処理装置 |
CN109213909A (zh) * | 2017-09-11 | 2019-01-15 | 南京弹跳力信息技术有限公司 | 一种融合搜索与计算的大数据分析系统及其分析方法 |
CN109684383A (zh) * | 2018-12-25 | 2019-04-26 | 广州天鹏计算机科技有限公司 | 数据分析结果的获取方法、装置、计算机设备和存储介质 |
US20210081729A1 (en) * | 2019-09-16 | 2021-03-18 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for image text recognition, apparatus, device and storage medium |
US20210349924A1 (en) * | 2020-05-06 | 2021-11-11 | Jpmorgan Chase Bank, N.A. | Method and apparatus for implementing an automatic data ingestion module |
CN112434690A (zh) * | 2020-12-02 | 2021-03-02 | 上海三稻智能科技有限公司 | 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质 |
CN113935818A (zh) * | 2021-10-19 | 2022-01-14 | 北京自如信息科技有限公司 | 一种订单结算方法、系统和电子设备 |
CN114090776A (zh) * | 2021-11-26 | 2022-02-25 | 北京金山数字娱乐科技有限公司 | 文档解析方法、系统及装置 |
CN114612921A (zh) * | 2022-05-12 | 2022-06-10 | 中信证券股份有限公司 | 表单识别方法、装置、电子设备和计算机可读介质 |
CN115457580A (zh) * | 2022-09-19 | 2022-12-09 | 郑州大学 | 数字化档案表格转换方法及系统 |
Non-Patent Citations (1)
Title |
---|
章璐: "人民币跨境结算业务 数据分析系统的设计与实现", 中国金融电脑, pages 75 - 78 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240086944A1 (en) | Auto-encoder enhanced self-diagnostic components for model monitoring | |
CN111178456A (zh) | 异常指标检测方法、装置、计算机设备和存储介质 | |
CN109635110A (zh) | 数据处理方法、装置、设备以及计算机可读存储介质 | |
CN113778894B (zh) | 测试用例的构建方法、装置、设备及存储介质 | |
CN113868498A (zh) | 数据存储方法、电子装置、装置及可读存储介质 | |
CN114625901B (zh) | 一种多算法整合方法及装置 | |
CN113762973A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
Kopčan et al. | Anomaly detection using autoencoders and deep convolution generative adversarial networks | |
CN112948897B (zh) | 一种基于drae与svm相结合的网页防篡改检测方法 | |
CN115658620B (zh) | 一种基于大数据的数据授权共享方法及系统 | |
CN116776157A (zh) | 支持模态增加的模型学习方法及其装置 | |
CN115683504B (zh) | 基于多标签分类的桥梁加速度监测数据异常识别方法及系统 | |
CN116627907A (zh) | 一种基于电力交易平台的结算单数据分析方法及系统 | |
US11775757B2 (en) | Automated machine-learning dataset preparation | |
CN115063143A (zh) | 账户数据处理方法、装置、计算机设备和存储介质 | |
CN112734390A (zh) | 一种信息审核方法及系统 | |
US20230022511A1 (en) | Digital Multi-Channel Data-Transfer And Recognition Platform, and Method Thereof | |
CN106326472B (zh) | 一种侦查信息完整性验证方法 | |
CN117435379A (zh) | 业务故障确定方法、业务故障确定模型的训练方法及装置 | |
CN116977021B (zh) | 基于大数据的系统对接自动推单方法 | |
CN116796723B (zh) | 文本集匹配方法、装置、电子设备及存储介质 | |
CN113256180B (zh) | 一种基于机器学习的客服工单信息智能动态加载方法和系统 | |
US20230140546A1 (en) | Randomizing character corrections in a machine learning classification system | |
Hu et al. | Selection of Outline Descriptors Based on LightGBM with Application to Infrared Image Target Recognition | |
CN118211832A (zh) | 财税数据风险监测方法、系统、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |