CN114912051A - 数据处理方法、设备及计算机可读存储介质 - Google Patents

数据处理方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114912051A
CN114912051A CN202210567020.1A CN202210567020A CN114912051A CN 114912051 A CN114912051 A CN 114912051A CN 202210567020 A CN202210567020 A CN 202210567020A CN 114912051 A CN114912051 A CN 114912051A
Authority
CN
China
Prior art keywords
header
text
key
value pair
html
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210567020.1A
Other languages
English (en)
Inventor
黄勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Bank Co Ltd
Original Assignee
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Bank Co Ltd filed Critical China Merchants Bank Co Ltd
Priority to CN202210567020.1A priority Critical patent/CN114912051A/zh
Publication of CN114912051A publication Critical patent/CN114912051A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种数据处理方法、设备及计算机可读存储介质,其中,方法包括:在HTML文档的HTML元素中,确定银行流水文档中各个表头名称对应的表头HTML元素以及各个表文文本对应的表文HTML元素;基于表头HTML元素以及表文HTML元素,确定各个表头名称和各个表文文本在银行流水文档中的位置信息;基于所述HTML文档中各个所述表文HTML元素的顺序,遍历各个表文HTML元素,并基于位置信息生成各个当前遍历的表文HTML元素对应的键值对;基于所述键值对确定银行流水文档对应的流水记录信息,在各个表文HTML元素遍历完成时,输出流水记录信息。本发明通过对文档的解析将银行流水信息转变为结构化的流水数据,确保了银行流水信息解析结果的准确性、有效性。

Description

数据处理方法、设备及计算机可读存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种数据处理方法、设备及计算机可读存储介质。
背景技术
银行流水,是指银行账户的交易明细。在现代社会中,银行流水的作用越来越大,人们在进行办理住房贷款、车贷、申请信用卡等操作时,都需要提供银行流水。对银行流水的各类收入、支出等进行分类汇算,可以综合分析评估账户所有人的资金实力、偿债能力等。但由于每家银行的系统不一致,所以获取到的不同银行的银行流水PDF文档之间存在较大的差异,为了将不同银行的银行流水信息统合为同一种信息,需要寻求能够对多家主流银行的银行流水文档进行解析的统一方法。
在相关技术中,为了识别与解析银行流水文档,一般是应用OCR技术对流水文档进行快速扫描并获得相关信息,但是由于OCR技术容易受到图像明暗、字体大小、颜色不同等影响,导致解析出来的银行流水信息准确性不高。
发明内容
本发明的主要目的在于提供一种数据处理方法、设备及计算机可读存储介质,旨在解决银行流水信息解析结果的准确性不高的技术问题。
为实现上述目的,本发明提供一种数据处理方法,所述数据处理方法包括以下步骤:
将银行流水文档转换为HTML文档,并在所述HTML文档的HTML元素中,确定所述银行流水文档中各个表头名称对应的表头HTML元素以及各个表文文本对应的表文HTML元素;
基于所述表头HTML元素以及所述表文HTML元素,确定各个所述表头名称和各个所述表文文本在所述银行流水文档中的位置信息;
基于所述HTML文档中各个所述表文HTML元素的顺序,遍历各个所述表文HTML元素,并基于所述位置信息生成各个当前遍历的表文HTML元素对应的键值对,其中,所述键值对的value数据为当前遍历的表文HTML元素对应的当前表文文本,所述键值对的key数据为所述当前表文文本对应的表头名称;
基于所述键值对确定所述银行流水文档对应的流水记录信息,在各个所述表文HTML元素遍历完成时,输出所述流水记录信息。
优选地,所述基于所述HTML文档中各个所述表文HTML元素的顺序,遍历各个所述表文HTML元素,并基于所述位置信息生成各个当前遍历的表文HTML元素对应的键值对的步骤包括:
将当前遍历的表文HTML元素对应的表文文本作为待处理表文文本,基于所述位置信息,获取所述待处理表文文本对应的表文范围,其中,所述表文范围为所述待处理表文文本的横坐标范围,所述位置信息包括各个所述表头名称对应的表头起始坐标、表头像素宽度以及各个所述表文文本对应的表文起始坐标、表文像素宽度;
基于所述位置信息以及第一预设范围系数,获取各个所述表头名称对应的表头范围,其中,所述表头范围为各个所述表头名称对应的横坐标范围;
基于所述表文范围对各个所述表头范围进行对比,在各个所述表头范围中,确定是否存在覆盖所述表文范围的目标表头范围;
若存在,则基于所述待处理表文文本以及所述目标表头范围对应的表头名称,生成所述键值对。
优选地,所述基于所述表文范围对各个所述表头范围进行对比,在各个所述表头范围中,确定是否存在覆盖所述表文范围的目标表头范围的步骤之后,还包括:
若不存在,则更新所述表头范围的获取次数,基于所述获取次数以及预设比例确定第二预设范围系数;
将所述第二预设范围系数作为所述第一预设范围系数,并返回执行基于所述位置信息以及第一预设范围系数,获取各个所述表头名称对应的表头范围的步骤。
优选地,所述将当前遍历的表文HTML元素对应的表文文本作为待处理表文文本,基于所述位置信息,获取所述待处理表文文本对应的表文范围的步骤包括:
基于所述表文HTML元素,获取所述待处理表文文本对应的表文起始坐标以及表文像素宽度;
基于所述所述表文起始坐标以及所述表文像素宽度,确定所述表文范围。
优选地,所述基于所述位置信息以及第一预设范围系数,获取各个所述表头名称对应的表头范围的步骤包括:
基于所述表头HTML元素,获取各个所述表头名称对应的表头起始坐标以及表头像素宽度;
基于所述表头起始坐标以及所述表头像素宽度,确定各个所述表头名称对应的中心位置信息;
基于所述中心位置信息以及所述第一预设范围系数,确定所述表头范围。
优选地,所述基于所述键值对确定所述银行流水文档对应的流水记录信息,在各个所述表文HTML元素遍历完成时,输出所述流水记录信息的步骤包括:
若所述键值对不为第一个生成的键值对,则将所述键值对作为第一键值对,将第一键值对相邻的上一个键值对作为第二键值对,并将所述第一键值对对应的第一表头名称与所述第二键值对对应的第二表头名称进行匹配;
若所述第一表头名称对应的序号为1,且所述第一表头名称与所述第二表头名称不同,则新建第一流水记录并将所述第一键值对存入所述第一流水记录,基于所述第一流水记录更新所述流水记录信息,或者;
若所述第一表头名称对应的序号不为1,且所述第一表头名称与所述第二表头名称不同,则将所述第一键值对存入包含所述第二键值对的第二流水记录,并基于所述第二流水记录更新所述流水记录信息,或者;
若所述第一表头名称与所述第二表头名称相同,则基于所述第一键值对对应的第一表文文本更新所述第二键值对对应的第二表文文本,并基于更新后的第二表文文本更新所述流水记录信息;
在各个所述表文HTML元素遍历完成时,输出所述流水记录信息。
优选地,所述若所述键值对不为第一个生成的键值对,则将所述键值对作为第一键值对,将第一键值对相邻的上一个键值对作为第二键值对,并将所述第一键值对对应的第一表头名称与所述第二键值对对应的第二表头名称进行匹配的步骤之前,还包括:
若所述键值对为第一个生成的键值对,则新建第一流水记录并将所述键值对存入所述第一流水记录;
基于所述第一流水记录更新所述流水记录信息。
优选地,所述将银行流水文档转换为HTML文档,并在所述HTML文档的HTML元素中,确定所述银行流水文档中各个表头名称对应的表头HTML元素以及各个表文文本对应的表文HTML元素的步骤包括:
将所述银行流水文档转换为HTML文档,基于所述HTML文档获取所述HTML元素;
基于所述HTML元素以及各个预设银行的预设特征信息,确定所述银行流水文档对应的银行;
基于所述银行对应的预设特征信息,确定所述表头HTML元素以及所述表文HTML元素。
此外,为实现上述目的,本发明还提供一种数据处理设备,所述数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。
本发明通过将银行流水文档转换为HTML文档,并在所述HTML文档的HTML元素中,确定所述银行流水文档中各个表头名称对应的表头HTML元素以及各个表文文本对应的表文HTML元素;基于所述表头HTML元素以及所述表文HTML元素,确定各个所述表头名称和各个所述表文文本在所述银行流水文档中的位置信息;基于所述HTML文档中各个所述表文HTML元素的顺序,遍历各个所述表文HTML元素,并基于所述位置信息生成各个当前遍历的表文HTML元素对应的键值对,其中,所述键值对的value数据为当前遍历的表文HTML元素对应的当前表文文本,所述键值对的key数据为所述当前表文文本对应的表头名称;基于所述键值对确定所述银行流水文档对应的流水记录信息,在各个所述表文HTML元素遍历完成时,输出所述流水记录信息。首先将银行流水PDF文档转换为HTML文档,而后读取文档的内容并进行解析,最终将银行流水PDF文档中的银行流水信息转变为结构化的流水数据并输出,从而根据不同的银行流水文档可以获得准确、统一的流水数据,并确保了银行流水信息解析结果的准确性、有效性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境中数据处理设备的结构示意图;
图2为本发明数据处理方法第一实施例的流程示意图;
图3为本发明数据处理方法一实施例的流水开始标志和流水结束标志示意图示意图;
图4为本发明数据处理方法一实施例的银行流水信息HTML元素示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境中数据处理设备的结构示意图。
本发明实施例数据处理设备可以是PC,也可以是智能手机、平板电脑、便携计算机等具有显示功能的终端设备。
如图1所示,该数据处理设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,数据处理设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序。
在图1所示的数据处理设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据处理程序。
在本实施例中,数据处理设备包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的数据处理程序,其中,处理器1001调用存储器1005中存储的数据处理程序时,执行以下各个实施例中数据处理方法的步骤。
本发明还提供一种方法,参照图2,图2为本发明数据处理方法第一实施例的流程示意图。
本实施例中,该数据处理方法包括以下步骤:
步骤S101,将银行流水文档转换为HTML文档,并在所述HTML文档的HTML元素中,确定所述银行流水文档中各个表头名称对应的表头HTML元素以及各个表文文本对应的表文HTML元素;
本实施例中,上传银行流水信息对应的银行流水文档后,将银行流水文档转换成HTML(HyperText Mark-up Language,超文本标记语言)文档,而后可以从HTML文档中获取到银行流水信息对应的各个HTML元素,例如,若银行流水文档为PDF文档,将该PDF文档转换为HTML文档,并对HTML文档的各个HTML元素进行内容的识别,根据识别的结果确定该PDF文档所对应的银行,而后从数据库中读取该银行的表头名称、流水开始标志以及流水结束标志,而后,在HTML文档中可以根据表头名称、流水开始标志以及流水结束标志确定HTML元素中各个表头名称对应的表头HTML元素,以及,流水开始标志与流水结束标志之间的各个表文文本对应的表文HTML元素,其中,银行流水文档中的表格分为表头部分与表文部分,表头名称为该银行的表头部分包括的各个表头名称,并且每个表头名称按照顺序对应一个序号,流水开始标志为表文部分的上一条文本信息,一般为最后一个表头名称,流水结束标志为表文部分的下一条文本信息,如图3所示。
在一其他实施例中,银行流水文档不一定为PDF文档,可能为任何包含了银行流水信息的文档,例如,EXCEL文档或者WORD文档。
在另一实施例中,可以提前获取各个银行对应的银行流水信息中的表头名称、流水开始标志以及流水结束标志,并添加对应的银行标记,而后存入数据库中,作为各个银行的预设特征信息,以便进行特征信息识别,从而确定银行流水文档对应的银行,以及确定HTML文档中的表头HTML元素以及表文HTML元素。
步骤S102,基于所述表头HTML元素以及所述表文HTML元素,确定各个所述表头名称和各个所述表文文本在所述银行流水文档中的位置信息;
本实施例中,在银行流水文档转换为的HTML文档中,确定各个HTML元素中的表头HTML元素以及表文HTML元素之后,可以根据表头HTML元素确定各个表头名称对应的位置信息,并根据表文HTML元素确定各个表文文本对应的位置信息,其中,位置信息包括各个表头名称的表头起始坐标与表头像素宽度,以及,各个表文文本的表文起始坐标与表文像素宽度。
具体地,一个HTML元素包括了元素标签以及元素内容,各个表头HTML元素对应的表头名称即为各个表头HTML元素对应的<text></text>标签之间的元素内容,各个表文HTML元素对应的表文文本即为各个表文HTML元素对应的<text></text>标签之间的元素内容,根据HTML元素中的canvas元素以及各个表头HTML元素对应的<text>标签中的font-family属性和font-size属性,可以确定各个表头名称对应的表头像素宽度以及表头起始坐标,作为各个表头名称的位置信息,同理,各个表文HTML元素对应的表文文本即为各个表文HTML元素对应的<text></text>标签之间的元素内容,根据HTML元素中的canvas元素以及各个表文HTML元素对应的<text>标签中的font-family属性和font-size属性,可以确定各个表文文本对应的表文像素宽度以及表文起始坐标,作为各个表文文本的位置信息,如图4所示。
需要说明的是,对于某个文本内容来说,起始坐标为该文本内容在横坐标方向上对应的第一个像素点的坐标,像素宽度为该文本内容包括的所有像素点在横坐标方向上的宽度之和。
步骤S103,基于所述HTML文档中各个所述表文HTML元素的顺序,遍历各个所述表文HTML元素,并基于所述位置信息生成各个当前遍历的表文HTML元素对应的键值对,其中,所述键值对的value数据为当前遍历的表文HTML元素对应的当前表文文本,所述键值对的key数据为所述当前表文文本对应的表头名称;
本实施例中,按照HTML文档中各个表文HTML元素的顺序,对各个表文HTML元素进行遍历,根据当前遍历的表文HTML元素,获取该HTML元素对应的表文文本的位置信息,并获取各个表头名称的位置信息,以生成该表文文本对应的键值对,其中,键值对的value数据为当前遍历的表文HTML元素对应的当前表文文本,键值对的key数据为当前表文文本对应的表头名称,键值对为key数据与value数据形成的字符串。
具体地,将当前遍历的表文HTML元素对应的表文文本作为待处理表文文本,根据待处理表文文本对应的对应的<text>标签,获得待处理表文文本的表文起始坐标以及表文像素宽度,根据表文起始坐标以及表文像素宽度可以确定待处理表文文本的横坐标范围,作为表文范围,同时,根据各个表头名称对应的<text>标签,确定各个表头名称的表头起始坐标以及表头像素宽度,再根据各个表头名称的表头起始坐标以及表头像素宽度确定各个表头名称的中心位置横坐标,而后根据中心位置横坐标以及预设范围系数确定各个表头名称对应的横坐标范围,作为表头范围,根据表文范围以及各个表头范围,生成键值对,例如,当表文范围被某个表头范围覆盖时,即该表文范围的最小边界大于该表头范围的最小边界,该表文范围的最大边界小于该表头范围的最大边界,则根据待处理表文文本以及该表头范围对应的表头名称生成一个键值对,若表文范围不被任何一个表头范围覆盖,则根据预设比例重新确定预设范围系数,并根据新的预设范围系数以及各个表头名称的中心位置横坐标重新确定各个表头名称对应的表头范围,并再次确定表文范围是否被某个表头名称对应的表头范围覆盖,若被覆盖,则生成对应的键值对,若没有被覆盖,则重复上述重新确定预设范围系数的步骤,直到产生一个可以覆盖表文范围的表头范围,并生成待处理表文文本对应的键值对。
在一其他实施例中,可以获取待处理表文文本的中心位置横坐标,并获取各个表头名称的中心位置横坐标,由于实际银行流水中,表头名称与对应的表文文本的中心位置在横坐标方向上最接近,因此,可以在各个表头名称对应的中心位置横坐标中,确定与待处理表文文本的中心位置横坐标差值最小的横坐标,根据该横坐标对应的表头名称与待处理表文文本确定键值对。
在另一实施例中,可以通过缩小预设范围系数,使得表头范围缩小,与表文范围对比,直至在各个表头名称中,确定一个被表文范围覆盖的表头范围,根据该表头范围对应的表头名称以及待处理表文文本生成键值对;也可以根据表头起始坐标以及表头像素宽度确定各个表头名称的表头范围,而后根据表文起始坐标以及表文像素宽度确定待处理表文文本的中心位置横坐标,根据范围系数以及待处理表文文本的中心位置横坐标,确定待处理表文文本的表文范围,再根据范围系数的增大,使得表文范围增加,根据被表文范围覆盖的表头范围确定键值对,或者,根据范围系数的减小,使得表文范围缩小,根据覆盖表文范围的表头范围确定键值对。
在又一实施例中,可以确定表文HTML元素数量相对于表头HTML元素数量的比例,该比例则对应银行流水信息中,表文文本的行数,按照各个表文HTML元素以及各个表头HTML元素的顺序,可以将表文HTML元素依次与表头HTML元素进行一一对应,生成键值对,当对应至最后一个表头HTML元素并生成对应的键值对时,再从第一个表头HTML元素开始对应下一个表文HTML元素,直到最后一个表文HTML元素生成对应的键值对。
步骤S104,基于所述键值对确定所述银行流水文档对应的流水记录信息,在各个所述表文HTML元素遍历完成时,输出所述流水记录信息。
本实施例中,对各个表文HTML元素进行上述遍历过程时,每生成一个键值对,则根据生成的键值对对银行流水文档对应的流水记录信息进行更新,当遍历完成时,即根据最后一个表文HTML元素对应的键值对对流水记录信息进行更新后,输出流水记录信息,例如,当生成待处理表文文本对应的键值对时,若该待处理表文文本为HTML文档中第一个表文HTML元素对应的表文文本,即该键值对为该银行流水文档中第一个生成的键值对,则新建流水记录并将该键值对存入该流水记录中;若生成的键值对不为第一个生成的键值对,则将其和相邻的上一个键值对进行比较,从而根据比较的结果更新流水记录信息,例如,每个表头名称对应一个序号,该序号对应各个表头名称对应的表头HTML元素在HTML文档中的顺序,若生成的键值对对应的表头名称对应的序号为1,并且该表头名称与上一个键值对对应的表头名称不同,则新建一个流水记录并将生成的键值对存入该流水记录中;若生成的键值对对应的表头名称对应的序号不为1,并且该表头名称与上一个键值对对应的表头名称不同,则将生成的键值对存入上一个键值对所在的流水记录中;若生成的键值对对应的表头名称与上一个键值对对应的表头名称相同,则直接将生成的键值对对应的表文文本拼接在上一个键值对对应的表文文本之后,最终,当遍历完成时,即每个生成的键值对都按照上述步骤更新至流水记录信息后,输出流水记录信息。
在一其他实施例中,可以在对各个表文HTML元素进行遍历时,不更新流水记录信息,当遍历完成时,获取生成的所有键值对,并将各个键值对按照对应的表文HTML元素的顺序依次对流水记录信息按照上述步骤进行更新。
本实施例提出的数据处理方法,通过将银行流水文档转换为HTML文档,并在所述HTML文档的HTML元素中,确定所述银行流水文档中各个表头名称对应的表头HTML元素以及各个表文文本对应的表文HTML元素;并基于所述表头HTML元素以及所述表文HTML元素,确定各个所述表头名称和各个所述表文文本在所述银行流水文档中的位置信息;而后基于所述HTML文档中各个所述表文HTML元素的顺序,遍历各个所述表文HTML元素,并基于所述位置信息生成各个当前遍历的表文HTML元素对应的键值对,其中,所述键值对的value数据为当前遍历的表文HTML元素对应的当前表文文本,所述键值对的key数据为所述当前表文文本对应的表头名称;从而基于所述键值对确定所述银行流水文档对应的流水记录信息,在各个所述表文HTML元素遍历完成时,输出所述流水记录信息。通过将银行流水PDF文档转换为HTML文档,而后读取文档的内容并进行解析,根据内容生成相应的键值对并根据键值对确定流水记录信息,最终将银行流水PDF文档中的银行流水信息转变为结构化的流水数据,并作为流水记录信息输出,从而根据不同的银行流水文档可以获得准确、统一的流水数据,并确保了银行流水信息解析结果的准确性、有效性。
基于第一实施例,提出本发明数据处理方法的第二实施例,在本实施例中,步骤S103包括:
步骤S201,将当前遍历的表文HTML元素对应的表文文本作为待处理表文文本,基于所述位置信息,获取所述待处理表文文本对应的表文范围,其中,所述表文范围为所述待处理表文文本的横坐标范围,所述位置信息包括各个所述表头名称对应的表头起始坐标、表头像素宽度以及各个所述表文文本对应的表文起始坐标、表文像素宽度;
步骤S202,基于所述位置信息以及第一预设范围系数,获取各个所述表头名称对应的表头范围,其中,所述表头范围为各个所述表头名称对应的横坐标范围;
步骤S203,基于所述表文范围对各个所述表头范围进行对比,在各个所述表头范围中,确定是否存在覆盖所述表文范围的目标表头范围;
步骤S204,若存在,则基于所述待处理表文文本以及所述目标表头范围对应的表头名称,生成所述键值对。
其中,步骤S203之后,还包括:
步骤S301,若不存在,则更新所述表头范围的获取次数,基于所述获取次数以及预设比例确定第二预设范围系数;
步骤S302,将所述第二预设范围系数作为所述第一预设范围系数,并返回执行基于所述位置信息以及第一预设范围系数,获取各个所述表头名称对应的表头范围的步骤。
本实施例中,当按照HTML文档中各个表文HTML元素的顺序,对各个表文HTML元素进行遍历时,将当前遍历的表文HTML元素对应的表文文本作为待处理表文文本,根据表文HTML元素获取待处理表文文本的位置信息,根据待处理表文文本的位置信息确定待处理表文文本的横坐标范围,作为表文范围,而后获取各个表头名称的位置信息,根据各个表头名称的位置信息以及预设范围系数确定各个表头名称对应的横坐标范围,作为各个表头名称对应的表头范围,将表文范围与各个表头名称对应的表头范围进行对比,从而根据对比的结果确定与待处理表文文本对应的表头名称,并生成键值对,其中,其中,键值对为key数据与value数据形成的字符串,键值对的value数据为待处理表文文本,键值对的key数据为待处理表文文本对应的表头名称,例如,将当前遍历的表文HTML元素对应的表文文本作为待处理表文文本,根据HTML元素中的canvas元素以及待处理表文文本对应的<text>标签中的font-family属性和font-size属性,确定待处理表文文本对应的表文像素宽度以及表文起始坐标,作为待处理表文文本的位置信息,同理,根据HTML元素中的canvas元素以及各个表头HTML元素对应的<text>标签中的font-family属性和font-size属性,确定各个表头名称对应的表头像素宽度以及表头起始坐标,作为各个表头名称的位置信息,设待处理表文文本的表文起始坐标为(x,y),表文像素宽度为w,各个表头名称的表头起始坐标为(xi,yi),表头像素宽度为di,i为各个表头名称的序号,根据表文起始坐标以及表文像素宽度,可以确定待处理表文文本的横坐标范围即表文范围为[x,x+w],根据各个表头名称的表头起始坐标以及表头像素宽度,可以计算各个表头名称的中心位置横坐标xmi,公式为:xmi=xi+di/2,而后设置范围系数λ,λ的值为:λ=0.05k,k=1,2,3,...,k为预设比例,根据范围系数λ以及中心位置横坐标xmi,可以从k=1开始,确定各个表头名称对应的横坐标范围即表头范围为[xmi-λxmi,xmi+λxmi],若表文范围[x,x+w]被表头范围[xmi-λxmi,xmi+λxmi]覆盖,即该表文范围的最小边界大于该表头范围的最小边界,该表文范围的最大边界小于该表头范围的最大边界,则生成键值对key:value,其中,key表示i对应的表头名称,value表示待处理表文文本;若表文范围[x,x+w]不被表头范围[xmi-λxmi,xmi+λxmi]所覆盖,则增大k的值,使得λ增大,从而使得表头范围[xmi-λxmi,xmi+λxmi]增大,直到表文范围[x,x+w]被表头范围[xmi-λxmi,xmi+λxmi]覆盖并生成待处理表文文本对应的键值对key:value,其中,key数据表示i对应的表头名称,value数据表示待处理表文文本。
本实施例提出的数据处理方法,通过将当前遍历的表文HTML元素对应的表文文本作为待处理表文文本,基于所述位置信息,获取所述待处理表文文本对应的表文范围,其中,所述表文范围为所述待处理表文文本的横坐标范围,所述位置信息包括各个所述表头名称对应的表头起始坐标、表头像素宽度以及各个所述表文文本对应的表文起始坐标、表文像素宽度;再基于所述位置信息以及第一预设范围系数,获取各个所述表头名称对应的表头范围,其中,所述表头范围为各个所述表头名称对应的横坐标范围;而后基于所述表文范围对各个所述表头范围进行对比,在各个所述表头范围中,确定是否存在覆盖所述表文范围的目标表头范围;若存在,则基于所述待处理表文文本以及所述目标表头范围对应的表头名称,生成所述键值对;若不存在,则更新所述表头范围的获取次数,基于所述获取次数以及预设比例确定第二预设范围系数;而后将所述第二预设范围系数作为所述第一预设范围系数,并返回执行基于所述位置信息以及第一预设范围系数,获取各个所述表头名称对应的表头范围的步骤。通过按顺序依次对各个表文文本进行处理,根据表头范围是否覆盖表文范围在各个表头名称中确定待处理表文文本对应的表头名称,并生成键值对,若未覆盖,则增大表头范围并重复之前确定表头范围是否覆盖表文范围的步骤,确保了生成的键值对的准确性,有利于后续将银行流水信息转变为统一的结构化的流水数据,并作为流水记录信息输出,从而确保了银行流水信息解析结果的准确性、有效性。
基于第二实施例,提出本发明数据处理方法的第三实施例,在本实施例中,步骤S201包括:
步骤S401,基于所述表文HTML元素,获取所述待处理表文文本对应的表文起始坐标以及表文像素宽度;
步骤S402,基于所述所述表文起始坐标以及所述表文像素宽度,确定所述表文范围。
本实施例中,在各个表文HTML元素中,确定待处理表文文本对应的表文HTML元素,根据待处理表文文本对应的表文HTML元素,确定待处理表文文本的表文起始坐标以及表文像素宽度,作为待处理表文文本的位置信息,并根据待处理表文文本的表文起始坐标以及表文像素宽度,确定待处理表文文本的横坐标范围即表文范围,例如,根据HTML元素中的canvas元素以及待处理表文文本对应的<text>标签中的font-family属性和font-size属性,确定待处理表文文本对应的表文起始坐标(x,y),以及表文像素宽度w,那么,待处理表文文本在横坐标方向上的横坐标范围即可确定为[x,x+w]。
本实施例提出的数据处理方法,通过基于所述表文HTML元素,获取所述待处理表文文本对应的表文起始坐标以及表文像素宽度;从而基于所述所述表文起始坐标以及所述表文像素宽度,确定所述表文范围。准确的获取了待处理表文文本在横坐标方向上第一个像素点与最后一个像素点之间的长度范围,作为表文范围,通过准确的表文范围确保了后续生成的键值对的准确性,从而确保了最终银行流水信息解析结果的准确性、有效性。
基于第二实施例,提出本发明数据处理方法的第四实施例,在本实施例中,步骤S202包括:
步骤S501,基于所述表头HTML元素,获取各个所述表头名称对应的表头起始坐标以及表头像素宽度;
步骤S502,基于所述表头起始坐标以及所述表头像素宽度,确定各个所述表头名称对应的中心位置信息;
步骤S503,基于所述中心位置信息以及所述第一预设范围系数,确定所述表头范围。
本实施例中,根据各个表头HTML元素,确定各个表头名称的表头起始坐标以及表头像素宽度,作为各个表头名称的位置信息,并根据各个表头名称的表头起始坐标以及表头像素宽度,确定各个表头名称对应的横坐标范围即表头范围。
具体地,根据HTML元素中的canvas元素以及各个表头名称对应的<text>标签中的font-family属性和font-size属性,确定各个表头名称对应的表头起始坐标,以及表头像素宽度,例如,银行流水信息包括的表头名称按照顺序分别为序号、交易时间、交易金额、余额、摘要、交易对手信息,其中,每个表头名称对应一个序号,在银行流水信息中,将各个表头名称按照从左到右的顺序进行排序,和/或,在HTML元素中,将各个表头HTML元素从上到下进行排序,即可得到各个表头名称的序号,分别为1,2,3,...,则可以确定序号的序号为1,交易时间的序号为2,交易金额的序号为3,余额的序号为4,摘要的序号为5,交易对手信息的序号为6,设i为各个表头名称的序号,表头起始坐标为(xi,yi),根据各个表头HTML元素中各个表头名称对应的<text>标签,确定该银行流水信息中各个表头名称对应的表头起始坐标分别为:序号:(x1,y1),交易时间:(x2,y2),交易金额:(x3,y3),余额:(x4,y4),摘要:(x5,y5),交易对手信息:(x6,y6);设表头名称对应的像素宽度为di,则各个表头名称对应的表头像素宽度分别为:序号:d1,交易时间:d2,交易金额:d3,余额:d4,摘要:d5,交易对手信息:d6,根据各个表头名称的表头起始坐标以及表头像素宽度,可以计算各个表头名称的中心位置横坐标xmi,公式为:xmi=xi+di/2;此外,设置范围系数λ,λ的值为:λ=0.05k,k=1,2,3,...,k为范围系数λ的预设比例,从而确定各个表头名称对应的横坐标范围即表头范围为[xmi-λxmi,xmi+λxmi]。
本实施例提出的数据处理方法,通过基于所述表头HTML元素,获取各个所述表头名称对应的表头起始坐标以及表头像素宽度;并基于所述表头起始坐标以及所述表头像素宽度,确定各个所述表头名称对应的中心位置信息;从而基于所述中心位置信息以及所述第一预设范围系数,确定所述表头范围。上述过程中,预设范围系数可以根据预设比例的变化而变化,使得表头范围产生变化,通过变化的表头范围确保了每个表文范围有且只有一个对应的表头范围,因此每个表文文本有且只有一个对应的表头名称,确保了后续生成的键值对的准确性,从而确保了最终银行流水信息解析结果的准确性、有效性。
基于第一实施例,提出本发明数据处理方法的第五实施例,在本实施例中,步骤S104包括:
步骤S601,若所述键值对不为第一个生成的键值对,则将所述键值对作为第一键值对,将第一键值对相邻的上一个键值对作为第二键值对,并将所述第一键值对对应的第一表头名称与所述第二键值对对应的第二表头名称进行匹配;
步骤S602,若所述第一表头名称对应的序号为1,且所述第一表头名称与所述第二表头名称不同,则新建第一流水记录并将所述第一键值对存入所述第一流水记录,基于所述第一流水记录更新所述流水记录信息,或者;
步骤S603,若所述第一表头名称对应的序号不为1,且所述第一表头名称与所述第二表头名称不同,则将所述第一键值对存入包含所述第二键值对的第二流水记录,并基于所述第二流水记录更新所述流水记录信息,或者;
步骤S604,若所述第一表头名称与所述第二表头名称相同,则基于所述第一键值对对应的第一表文文本更新所述第二键值对对应的第二表文文本,并基于更新后的第二表文文本更新所述流水记录信息;
步骤S605,在各个所述表文HTML元素遍历完成时,输出所述流水记录信息。
其中,步骤S601之前,还包括:
步骤S701,若所述键值对为第一个生成的键值对,则新建第一流水记录并将所述键值对存入所述第一流水记录;
步骤S702,基于所述第一流水记录更新所述流水记录信息。
本实施例中,对银行流水文档对应的HTML文档中的各个表文HTML元素进行上述遍历过程,并且每遍历一个表文HTML元素,就生成一个该表文HTML元素对应的键值对key:value,其中,key数据表示该表文HTML元素对应的表头名称,该表头名称的序号为i,每个表头名称对应一个序号,在银行流水信息中,将各个表头名称按照从左到右的顺序进行排序,和/或,在HTML元素中,将各个表头HTML元素从上到下进行排序,即可得到各个表头名称的序号,分别为1,2,3,...,value数据表示该表文HTML元素对应的表文文本,每生成一个键值对,获取该键值对,并根据该键值对对银行流水文档对应的流水记录信息进行更新,当遍历完成时,即根据最后一个表文HTML元素对应的键值对对流水记录信息进行更新后,输出流水记录信息,例如,将当前遍历的表文HTML元素对应的表文文本作为待处理表文文本,当生成待处理表文文本对应的键值对时,若该待处理表文文本为HTML文档中第一个表文HTML元素对应的表文文本,即该键值对为该银行流水文档中第一个生成的键值对,则新建流水记录record并按key:value的形式将该键值对存入该流水记录中;若生成的键值对不为第一个生成的键值对,该键值对为key:value,将其相邻的上一个键值对设为keypre:valuepre,并将key:value与keypre:valuepre进行比较,若key:value中key数据对应的表头名称序号i为1,并且key数据对应的表头名称与keypre数据对应的表头名称不同,则新建流水记录并将key:value存入该新建的流水记录中;若key:value中key数据对应的表头名称序号i不为1,并且key数据对应的表头名称与keypre数据对应的表头名称不同,则将key:value存入keypre:valuepre所在的流水记录中;若key数据对应的表头名称与keypre数据对应的表头名称相同,则在keypre:valuepre所在的流水记录中,将valuepre数据更新为valuepre+value,其中,valuepre+value表示将value数据的内容拼接在valuepre数据的内容后,最终,当HTML文档中最后一个表文HTML元素生成的键值对按照上述步骤更新至流水记录信息后,视作遍历已经完成,并输出流水记录信息。
本实施例提出的数据处理方法,通过若所述键值对为第一个生成的键值对,则新建第一流水记录并将所述键值对存入所述第一流水记录;基于所述第一流水记录更新所述流水记录信息;若所述键值对不为第一个生成的键值对,则将所述键值对作为第一键值对,将第一键值对相邻的上一个键值对作为第二键值对,并将所述第一键值对对应的第一表头名称与所述第二键值对对应的第二表头名称进行匹配;若所述第一表头名称对应的序号为1,且所述第一表头名称与所述第二表头名称不同,则新建第一流水记录并将所述第一键值对存入所述第一流水记录,基于所述第一流水记录更新所述流水记录信息,或者;若所述第一表头名称对应的序号不为1,且所述第一表头名称与所述第二表头名称不同,则将所述第一键值对存入包含所述第二键值对的第二流水记录,并基于所述第二流水记录更新所述流水记录信息,或者;若所述第一表头名称与所述第二表头名称相同,则基于所述第一键值对对应的第一表文文本更新所述第二键值对对应的第二表文文本,并基于更新后的第二表文文本更新所述流水记录信息;最终,在各个所述表文HTML元素遍历完成时,输出所述流水记录信息。根据获取到的第一个键值对新建流水记录,确定结构化的流水数据的开端,而后经过对各个表文HTML元素进行遍历,每生成一个键值对,则根据生成的键值对与上一个相邻的键值对进行对比,从而根据对比结果更新流水记录信息,确保了流水记录信息的准确性、统一性,最终将银行流水PDF文档中的银行流水信息转变为结构化的流水数据,并作为流水记录信息输出,从而根据不同的银行流水文档可以获得准确、统一的流水数据,并确保了银行流水信息解析结果的准确性、有效性。
基于第一实施例,提出本发明数据处理方法的第六实施例,在本实施例中,步骤S101包括:
步骤S801,将所述银行流水文档转换为HTML文档,基于所述HTML文档获取所述HTML元素;
步骤S802,基于所述HTML元素以及各个预设银行的预设特征信息,确定所述银行流水文档对应的银行;
步骤S803,基于所述银行对应的预设特征信息,确定所述表头HTML元素以及所述表文HTML元素。
本实施例中,获取银行流水信息对应的银行流水文档后,将该银行流水文档转换成HTML(HyperText Mark-up Language,超文本标记语言)文档,而后可以从HTML文档中获取到银行流水信息对应的各个HTML元素。
具体地,银行流水文档一般为PDF文档,将该PDF文档转换成HTML文档,对HTML文档的内容进行特征信息的识别,根据该银行流水PDF文档的特征信息与数据库中存储的各个预设银行的预设特征信息进行对比,确定该银行流水PDF文档所对应的银行,而后从数据库中读取该银行的预设特征信息,包括该银行的表头名称、流水开始标志以及流水结束标志,银行流水文档中的表格分为表头部分与表文部分,表头名称为该银行的表头部分包括的各个表头名称,流水开始标志为表文部分的上一条文本信息,流水结束标志为表文部分的下一条文本信息,例如,如图3所示,表头部分包括的表头名称为序号、摘要、币别、钞汇、交易日期、交易金额、账户余额、交易地点/附言、对方账号与户名,流水开始标志则为最后一个表头名称“对方账号与户名”对应的文本信息,流水结束标志为“生成时间”对应的文本信息,在原来的银行流水文档中,以左上角为坐标系原点,将各个文本内容按照从上至下的顺序,在同一行中按照从左至右的顺序进行排列,则该顺序对应HTML文档中各个HTML元素的排列顺序,因此,在HTML文档中可以根据表头名称确定各个表头HTML元素,并确定流水开始标志与流水结束标志对应的HTML元素之间的各个HTML元素为表文HTML元素。
本实施例提出的数据处理方法,通过将所述银行流水文档转换为HTML文档,基于所述HTML文档获取所述HTML元素;而后基于所述HTML元素以及各个预设银行的预设特征信息,确定所述银行流水文档对应的银行;从而基于所述银行对应的预设特征信息,确定所述表头HTML元素以及所述表文HTML元素。以便于后续根据表头HTML元素以及表文HTML元素生成相应的键值对,并根据键值对确定流水记录信息,最终将银行流水PDF文档中的银行流水信息转变为结构化的流水数据,并作为流水记录信息输出,以达到根据不同的银行流水文档获得准确、统一的流水数据的目的,并确保了银行流水信息解析结果的准确性、有效性。
此外,本发明实施例还提出一种数据处理设备,该数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
此外,本发明实施例还提出一种计算机可读存储介质,所述可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据处理方法,其特征在于,所述数据处理方法包括以下步骤:
将银行流水文档转换为HTML文档,并在所述HTML文档的HTML元素中,确定所述银行流水文档中各个表头名称对应的表头HTML元素以及各个表文文本对应的表文HTML元素;
基于所述表头HTML元素以及所述表文HTML元素,确定各个所述表头名称和各个所述表文文本在所述银行流水文档中的位置信息;
基于所述HTML文档中各个所述表文HTML元素的顺序,遍历各个所述表文HTML元素,并基于所述位置信息生成各个当前遍历的表文HTML元素对应的键值对,其中,所述键值对的value数据为当前遍历的表文HTML元素对应的当前表文文本,所述键值对的key数据为所述当前表文文本对应的表头名称;
基于所述键值对确定所述银行流水文档对应的流水记录信息,在各个所述表文HTML元素遍历完成时,输出所述流水记录信息。
2.如权利要求1所述的数据处理方法,其特征在于,所述基于所述HTML文档中各个所述表文HTML元素的顺序,遍历各个所述表文HTML元素,并基于所述位置信息生成各个当前遍历的表文HTML元素对应的键值对的步骤包括:
将当前遍历的表文HTML元素对应的表文文本作为待处理表文文本,基于所述位置信息,获取所述待处理表文文本对应的表文范围,其中,所述表文范围为所述待处理表文文本的横坐标范围,所述位置信息包括各个所述表头名称对应的表头起始坐标、表头像素宽度以及各个所述表文文本对应的表文起始坐标、表文像素宽度;
基于所述位置信息以及第一预设范围系数,获取各个所述表头名称对应的表头范围,其中,所述表头范围为各个所述表头名称对应的横坐标范围;
基于所述表文范围对各个所述表头范围进行对比,在各个所述表头范围中,确定是否存在覆盖所述表文范围的目标表头范围;
若存在,则基于所述待处理表文文本以及所述目标表头范围对应的表头名称,生成所述键值对。
3.如权利要求2所述的数据处理方法,其特征在于,所述基于所述表文范围对各个所述表头范围进行对比,在各个所述表头范围中,确定是否存在覆盖所述表文范围的目标表头范围的步骤之后,还包括:
若不存在,则更新所述表头范围的获取次数,基于所述获取次数以及预设比例确定第二预设范围系数;
将所述第二预设范围系数作为所述第一预设范围系数,并返回执行基于所述位置信息以及第一预设范围系数,获取各个所述表头名称对应的表头范围的步骤。
4.如权利要求2所述的数据处理方法,其特征在于,所述将当前遍历的表文HTML元素对应的表文文本作为待处理表文文本,基于所述位置信息,获取所述待处理表文文本对应的表文范围的步骤包括:
基于所述表文HTML元素,获取所述待处理表文文本对应的表文起始坐标以及表文像素宽度;
基于所述所述表文起始坐标以及所述表文像素宽度,确定所述表文范围。
5.如权利要求2所述的数据处理方法,其特征在于,所述基于所述位置信息以及第一预设范围系数,获取各个所述表头名称对应的表头范围的步骤包括:
基于所述表头HTML元素,获取各个所述表头名称对应的表头起始坐标以及表头像素宽度;
基于所述表头起始坐标以及所述表头像素宽度,确定各个所述表头名称对应的中心位置信息;
基于所述中心位置信息以及所述第一预设范围系数,确定所述表头范围。
6.如权利要求1所述的数据处理方法,其特征在于,所述基于所述键值对确定所述银行流水文档对应的流水记录信息,在各个所述表文HTML元素遍历完成时,输出所述流水记录信息的步骤包括:
若所述键值对不为第一个生成的键值对,则将所述键值对作为第一键值对,将第一键值对相邻的上一个键值对作为第二键值对,并将所述第一键值对对应的第一表头名称与所述第二键值对对应的第二表头名称进行匹配;
若所述第一表头名称对应的序号为1,且所述第一表头名称与所述第二表头名称不同,则新建第一流水记录并将所述第一键值对存入所述第一流水记录,基于所述第一流水记录更新所述流水记录信息,或者;
若所述第一表头名称对应的序号不为1,且所述第一表头名称与所述第二表头名称不同,则将所述第一键值对存入包含所述第二键值对的第二流水记录,并基于所述第二流水记录更新所述流水记录信息,或者;
若所述第一表头名称与所述第二表头名称相同,则基于所述第一键值对对应的第一表文文本更新所述第二键值对对应的第二表文文本,并基于更新后的第二表文文本更新所述流水记录信息;
在各个所述表文HTML元素遍历完成时,输出所述流水记录信息。
7.如权利要求6所述的数据处理方法,其特征在于,所述若所述键值对不为第一个生成的键值对,则将所述键值对作为第一键值对,将第一键值对相邻的上一个键值对作为第二键值对,并将所述第一键值对对应的第一表头名称与所述第二键值对对应的第二表头名称进行匹配的步骤之前,还包括:
若所述键值对为第一个生成的键值对,则新建第一流水记录并将所述键值对存入所述第一流水记录;
基于所述第一流水记录更新所述流水记录信息。
8.如权利要求1至7任一项所述的数据处理方法,其特征在于,所述将银行流水文档转换为HTML文档,并在所述HTML文档的HTML元素中,确定所述银行流水文档中各个表头名称对应的表头HTML元素以及各个表文文本对应的表文HTML元素的步骤包括:
将所述银行流水文档转换为HTML文档,基于所述HTML文档获取所述HTML元素;
基于所述HTML元素以及各个预设银行的预设特征信息,确定所述银行流水文档对应的银行;
基于所述银行对应的预设特征信息,确定所述表头HTML元素以及所述表文HTML元素。
9.一种数据处理设备,其特征在于,所述数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1至8任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1至8中任一项所述的数据处理方法的步骤。
CN202210567020.1A 2022-05-23 2022-05-23 数据处理方法、设备及计算机可读存储介质 Pending CN114912051A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210567020.1A CN114912051A (zh) 2022-05-23 2022-05-23 数据处理方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210567020.1A CN114912051A (zh) 2022-05-23 2022-05-23 数据处理方法、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114912051A true CN114912051A (zh) 2022-08-16

Family

ID=82768203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210567020.1A Pending CN114912051A (zh) 2022-05-23 2022-05-23 数据处理方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114912051A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688740A (zh) * 2022-10-27 2023-02-03 杭州袋鼠云科技有限公司 一种银行流水数据自动解析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688740A (zh) * 2022-10-27 2023-02-03 杭州袋鼠云科技有限公司 一种银行流水数据自动解析方法及系统
CN115688740B (zh) * 2022-10-27 2023-09-15 杭州袋鼠云科技有限公司 一种银行流水数据自动解析方法及系统

Similar Documents

Publication Publication Date Title
US9280952B2 (en) Selective display of OCR&#39;ed text and corresponding images from publications on a client device
KR101955732B1 (ko) 캡처된 이미지 데이터를 스프레드시트와 연관시키는 방법
US20230401828A1 (en) Method for training image recognition model, electronic device and storage medium
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
CN108664471B (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
CN112507806A (zh) 智慧课堂信息交互方法、装置及电子设备
CN109726110B (zh) 单证测试方法、设备、装置及计算机可读存储介质
CN109190062B (zh) 目标语料数据的爬取方法、装置及存储介质
CN111208998A (zh) 数据可视化大屏自动布局的方法、装置及存储介质
CN111651552A (zh) 结构化信息确定方法、装置和电子设备
CN114912051A (zh) 数据处理方法、设备及计算机可读存储介质
CN109658485B (zh) 网页动画绘制方法、装置、计算机设备和存储介质
CN107168635A (zh) 信息呈现方法和装置
US20120030557A1 (en) Method and apparatus of accessing and modifying the content of an electronic data form
CN114937270A (zh) 古籍文字处理方法、装置及计算机可读存储介质
CN106611148B (zh) 基于图像的离线公式识别方法和装置
CN112801099B (zh) 一种图像处理方法、装置、终端设备及介质
CN113051235A (zh) 文档加载方法、装置、终端和存储介质
CN112486337A (zh) 笔迹图形分析方法、装置及电子设备
CN111143001A (zh) 终端的语言检测方法、用户设备、存储介质及装置
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
CN107784328B (zh) 德语旧字体识别方法、装置及计算机可读存储介质
CN112365402B (zh) 智能组卷方法、装置、存储介质及电子设备
CN113868411A (zh) 合同比对方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination