CN115050041A - 无线条流水文件的转换方法、装置、设备及存储介质 - Google Patents

无线条流水文件的转换方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115050041A
CN115050041A CN202210535864.8A CN202210535864A CN115050041A CN 115050041 A CN115050041 A CN 115050041A CN 202210535864 A CN202210535864 A CN 202210535864A CN 115050041 A CN115050041 A CN 115050041A
Authority
CN
China
Prior art keywords
target
wireless
file
outline
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210535864.8A
Other languages
English (en)
Inventor
李潇
戴彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Fuli Technology Co ltd
Original Assignee
Shanghai Fuli Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fuli Technology Co ltd filed Critical Shanghai Fuli Technology Co ltd
Priority to CN202210535864.8A priority Critical patent/CN115050041A/zh
Publication of CN115050041A publication Critical patent/CN115050041A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18105Extraction of features or characteristics of the image related to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Character Input (AREA)

Abstract

本发明涉及数据处理技术领域,公开了一种无线条流水文件的转换方法、装置、设备及存储介质,所述方法包括:对待转换的目标格式无线条流水文件进行页面分割;对目标无线流水图片进行结构元素识别,得到连续文字轮廓;根据预设高度系数、预设行系数、预设间隔系数以及连续文字轮廓确定行分组结构文字数据和空白列;根据行分组结构文字数据和空白列生成目标结构文字数据,并按照目标数据写入策略将目标结构数据写入至目标线条文件;通过上述方式,根据预设高度系数、预设行系数、预设间隔系数对连续文字轮廓进行处理,然后对空白列进行标记和列补全,再将目标结构数据进行写入,从而能够有效提高转换无线条流水文件的准确性,且准确定位出单元格。

Description

无线条流水文件的转换方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及无线条流水文件的转换方法、装置、设备及存储介质。
背景技术
银行流水数据是反映小微客户群经营情况的重要依据之一,而流水数据的分析是评估客户是否存在风险的重要手段之一,目前实现流水数据常常以打印方式实现,但是,通过扫描件形成的pdf文件、图片均是非格式化数据,即无线条流水数据,且扫描件中的文字数据通常会存在文字不清晰、表格歪斜或者印章覆盖文字的缺陷,为解决上述缺陷,目前常用方式是通过深度学习网络进行识别,但是深度学习网络在识别过程中的准确性较低,使得最终的文字错误百出,且无法准确定位出文字数据的单元格。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种无线条流水文件的转换方法、装置、设备及存储介质,旨在解决现有技术转换无线条流水文件的准确性较低,且无法准确定位出文字数据的单元格的技术问题。
为实现上述目的,本发明提供了一种无线条流水文件的转换方法,所述无线条流水文件的转换方法包括以下步骤:
对待转换的目标格式无线条流水文件进行页面分割,得到目标无线条流水图片;
对所述目标无线流水图片进行结构元素识别,得到连续文字轮廓;
根据预设高度系数、预设行系数、预设间隔系数以及所述连续文字轮廓确定行分组结构文字数据和空白列;
根据所述行分组结构文字数据和所述空白列生成目标结构文字数据,并按照目标数据写入策略将所述目标结构数据写入至目标线条文件。
可选地,所述对待转换的目标格式无线条流水文件进行页面分割,得到目标无线条流水图片,包括:
对待转换的目标格式无线条流水文件进行页面分割,得到若干页目标格式无线条流水文件;
按照目标倍数对所述若干页目标格式无线条流水文件进行缩放;
对缩放后的若干页目标格式无线条流水文件进行转换,得到目标无线条流水图片。
可选地,所述对待转换的目标格式无线条流水文件进行页面分割,得到若干页目标格式无线条流水文件之前,还包括:
接收终端设备发出的电子版无线条流水文件;
对所述电子版无线条流水文件进行扫描,得到无线条流水扫描文件;
在所述无线条流水扫描文件满足预设文字辨识缺陷时,将所述无线条流水扫描文件作为待转换的目标格式无线条流水文件。
可选地,所述对所述目标无线流水图片进行结构元素识别,得到连续文字轮廓,包括:
对所述目标无线流水图片进行通道拆分,得到目标数量通道;
提取所述目标数量通道的红色通道;
根据所述红色通道对所述目标无线流水图片进行二值化处理,得到黑底白字的二值化无线流水图片;
根据otsu阈值通过opencv图像算法对所述黑底白字的二值化无线流水图片进行结构元素识别,得到连续文字轮廓。
可选地,所述根据预设高度系数、预设行系数、预设间隔系数以及所述连续文字轮廓确定行分组结构文字数据和空白列,包括:
根据所述连续文字轮廓得到对应的连续文字轮廓高度;
对所述连续文字轮廓高度小于所述预设高度系数的连续文字轮廓进行筛选;
按照目标顺序关系对筛选后的连续文字轮廓进行排序;
根据排序后的连续文字轮廓得到对应的当前轮廓纵坐标和上一轮廓纵坐标;
将所述当前轮廓纵坐标和所述上一轮廓纵坐标进行作差计算,得到轮廓纵坐标差值;
在所述轮廓纵坐标差值大于预设行系数时,得到各行连续文字轮廓;
根据所述各行连续文字轮廓得到当前轮廓横坐标和相邻轮廓横坐标;
将所述当前轮廓横坐标和所述相邻轮廓横坐标进行作差计算,得到轮廓横坐标差值;
在所述轮廓横坐标差值小于预设间隔系数时,将所述当前轮廓横坐标对应的文字轮廓和相邻轮廓横坐标对应的轮廓进行合并,得到目标横坐标轮廓;
根据所述各行连续文字轮廓和所述目标横坐标轮廓生成行分组结构文字数据;
根据所述行分组结构文字数据得到对应的空白列。
可选地,所述根据所述行分组结构文字数据得到对应的空白列,包括:
根据所述行分组结构文字数据得到列数次数集合;
提取所述列数次数集合中的最高次数列数;
获取待转换的目标格式无线条流水文件的标题总列数量;
对所述最高次数列数进行迭代,得到目标列的左上横坐标;
根据所述标题总列数量得到标题行的下一列的右上横坐标;
在所述目标列的左上横坐标大于所述标题行的下一列的右上横坐标时,将所述目标列作为空白列。
可选地,所述根据所述行分组结构文字数据和所述空白列生成目标结构文字数据,并按照目标数据写入策略将所述目标结构数据写入至目标线条文件,包括:
按照预设标记策略对所述空白列进行标记;
通过目标约定数值对标记后的空白列进行列补全;
根据列补全后的空白列和所述行分组结构文字数据生成目标结构文字数据;
按照目标数据写入策略将所述目标结构数据写入至目标线条文件。
此外,为实现上述目的,本发明还提出一种无线条流水文件的转换装置,所述无线条流水文件的转换装置包括:
获取模块,用于获取目标终端设备的当前网络信息;
连接模块,用于在所述当前网络信息和目标网络信息不在同一局域网络时,通过对等互联网络策略建立与所述目标终端设备的连接;
接收模块,用于在与目标终端设备连接成功时,接收所述目标终端设备发送的控制指令;
控制模块,用于通过所述控制指令对待投屏内容进行投屏,以实现基于终端设备对投屏的控制。
此外,为实现上述目的,本发明还提出一种无线条流水文件的转换设备,所述无线条流水文件的转换设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的无线条流水文件的转换程序,所述无线条流水文件的转换程序配置为实现如上文所述的无线条流水文件的转换方法。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有无线条流水文件的转换程序,所述无线条流水文件的转换程序被处理器执行时实现如上文所述的无线条流水文件的转换方法。
本发明提出的无线条流水文件的转换方法,通过对待转换的目标格式无线条流水文件进行页面分割,得到目标无线条流水图片;对所述目标无线流水图片进行结构元素识别,得到连续文字轮廓;根据预设高度系数、预设行系数、预设间隔系数以及所述连续文字轮廓确定行分组结构文字数据和空白列;根据所述行分组结构文字数据和所述空白列生成目标结构文字数据,并按照目标数据写入策略将所述目标结构数据写入至目标线条文件;通过上述方式,根据预设高度系数、预设行系数、预设间隔系数对连续文字轮廓进行处理,然后对空白列进行标记和列补全,再将目标结构数据进行写入,从而能够有效提高转换无线条流水文件的准确性,且准确定位出单元格。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的无线条流水文件的转换设备的结构示意图;
图2为本发明无线条流水文件的转换方法第一实施例的流程示意图;
图3为本发明无线条流水文件的转换方法第二实施例的流程示意图;
图4为本发明无线条流水文件的转换方法第三实施例的流程示意图;
图5为本发明无线条流水文件的转换装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的无线条流水文件的转换设备结构示意图。
如图1所示,该无线条流水文件的转换设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对无线条流水文件的转换设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及无线条流水文件的转换程序。
在图1所示的无线条流水文件的转换设备中,网络接口1004主要用于与网络一体化平台工作站进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明无线条流水文件的转换设备中的处理器1001、存储器1005可以设置在无线条流水文件的转换设备中,所述无线条流水文件的转换设备通过处理器1001调用存储器1005中存储的无线条流水文件的转换程序,并执行本发明实施例提供的无线条流水文件的转换方法。
基于上述硬件结构,提出本发明无线条流水文件的转换方法实施例。
参照图2,图2为本发明无线条流水文件的转换方法第一实施例的流程示意图。
在第一实施例中,所述无线条流水文件的转换方法包括以下步骤:
步骤S10,对待转换的目标格式无线条流水文件进行页面分割,得到目标无线条流水图片。
需要说明的是,本实施例的执行主体为无线条流水文件的转换设备,还可为其他可实现相同或相似功能的设备,例如文件转换控制器等,本实施例对此不作限制,在本实施例中,以文件转换控制器为例进行说明。
应当理解的是,待转换的目标格式无线条流水文件指的是无法直接编辑且需要进行转换的无线条流水文件,该目标格式可以为pdf格式,目标无线条流水图片指的是将目标格式无线条流水文件经过页面分割、转换操作得到的图片,该目标无线条流水图片可以为png、jpg等格式。
步骤S20,对所述目标无线流水图片进行结构元素识别,得到连续文字轮廓。
可以理解的是,连续文字轮廓指的是目标无线流水图片中一段连续文字的轮廓,具体是对目标无线流水图片进行结构元素识别,例如,在目标无线流水图片进行结构元素识别中存在连续文字“交易日期”,则将该四个文字识别为单独的连续文字轮廓。
进一步地,步骤S20,包括:对所述目标无线流水图片进行通道拆分,得到目标数量通道;提取所述目标数量通道的红色通道;根据所述红色通道对所述目标无线流水图片进行二值化处理,得到黑底白字的二值化无线流水图片;根据otsu阈值通过opencv图像算法对所述黑底白字的二值化无线流水图片进行结构元素识别,得到连续文字轮廓。
应当理解的是,目标无线流水图片是RGB颜色,而不是灰度、索引颜色、CMYK颜色、Lab颜色等,因此,在得到目标无线流水图片后,对目标无线流水图片进行RGB图像的通道拆分,拆分后的通道包括红色通道、绿色通道以及蓝色通道,由于目标无线流水图片中存在红色印章的干扰,因此,需要采用红色通道进行二值化处理,在处理完成后,得到黑底白字的二值化无线流水图。
可以理解的是,opencv图像算法指的是对图像进行检测和识别的算法,通过大量的实验数据表明,相较于其他图像识别算法,opencv图像算法识别图像的准确性极高,在本实施例中,根据otsu阈值通过opencv图像算法对黑底白字的二值化无线流水图片进行结构元素识别,能够有效提高得到连续文字轮廓的准确性。
步骤S30,根据预设高度系数、预设行系数、预设间隔系数以及所述连续文字轮廓确定行分组结构文字数据和空白列。
应当理解的是,预设高度系数指的是轮廓高度比较系数,预设行系数指的是轮廓行高比较系数,预设间隔系数指的是轮廓与轮廓之间的间隔系数,行分组结构文字数据指的是按行分组的结构文字数据,具体是根据各行连续文字轮廓和目标横坐标轮廓生成得到的,空白列指的是行分组结构文字数据中没有实际数据的列,在设定预设高度系数、预设行系数、预设间隔系数后,将预设高度系数、预设行系数、预设间隔系数分别与联系文字轮廓进行比较,然后根据比较结果确定行分组结构文字数据和空白列。
步骤S40,根据所述行分组结构文字数据和所述空白列生成目标结构文字数据,并按照目标数据写入策略将所述目标结构数据写入至目标线条文件。
可以理解的是,目标结构文字数据指的是已经准确定位出目标格式无线条流水文件的单位格的数据,目标数据写入策略指的是将数据写入至文件的策略,该目标数据写入策略可以为顺序数据写入策略,即按照行列顺序将目标结构数据写入至目标线条文件,该目标线条文件可以为Excel格式的线条文件。
进一步地,步骤S40,包括:按照预设标记策略对所述空白列进行标记;通过目标约定数值对标记后的空白列进行列补全;根据列补全后的空白列和所述行分组结构文字数据生成目标结构文字数据;按照目标数据写入策略将所述目标结构数据写入至目标线条文件。
应当理解的是,预设标记策略指的是特定位置进行标记的策略,在标记完成后,通过目标约定数值对标记后的空白列进行列补全,该目标约定数值可以为空值,即NULL,在列补全后,即生成目标结构文字数据,然后按照目标数据写入策略将目标结构数据写入至目标线条文件。
本实施例通过对待转换的目标格式无线条流水文件进行页面分割,得到目标无线条流水图片;对所述目标无线流水图片进行结构元素识别,得到连续文字轮廓;根据预设高度系数、预设行系数、预设间隔系数以及所述连续文字轮廓确定行分组结构文字数据和空白列;根据所述行分组结构文字数据和所述空白列生成目标结构文字数据,并按照目标数据写入策略将所述目标结构数据写入至目标线条文件;通过上述方式,根据预设高度系数、预设行系数、预设间隔系数对连续文字轮廓进行处理,然后对空白列进行标记和列补全,再将目标结构数据进行写入,从而能够有效提高转换无线条流水文件的准确性,且准确定位出单元格。
在一实施例中,如图3所述,基于第一实施例提出本发明无线条流水文件的转换方法第二实施例,所述步骤S10,包括:
步骤S101,对待转换的目标格式无线条流水文件进行页面分割,得到若干页目标格式无线条流水文件。
应当理解的是,若干页目标格式无线条流水文件指的是经过页面分割后的无线条流水文件,即按照页数对目标格式无线条流水文件进行页面分割,例如,在目标格式无线条流水文件为十页,则若干页目标格式无线条流水文件也是十页。
进一步地,步骤S101之前,还包括:接收终端设备发出的电子版无线条流水文件;对所述电子版无线条流水文件进行扫描,得到无线条流水扫描文件;在所述无线条流水扫描文件满足预设文字辨识缺陷时,将所述无线条流水扫描文件作为待转换的目标格式无线条流水文件。
可以理解的是,电子版无线条流水文件是由用户从终端设备导出的,该终端设备可以为手机银行终端设备,也可以为网银终端设备,无线条流水扫描文件指的是对电子版无线条流水文件进行扫描后的文件,预设文字辨识缺陷指的是无法准确辨识文字所在单元格的缺陷,该预设文字辨识缺陷可以为文字不清晰、斜歪以及印章覆盖文字等。
应当理解的是,在得到无线条流水扫描文件后,判断无线条流水扫描文件是否存在预设文字辨识缺陷,若存在,则需要采用本实施例的方式对目标格式无线条流水文件进行转换,此时将无线条流水扫描文件作为待转换的目标格式无线条流水文件。
步骤S102,按照目标倍数对所述若干页目标格式无线条流水文件进行缩放。
可以理解的是,为了提高文件转换效率,在得到若干页目标格式无线条流水文件,需要以目标倍数缩放若干页目标格式无线条流水文件,该目标倍数可以为5倍,也可以为其他倍数,本实施例对此不作限制。
步骤S103,对缩放后的若干页目标格式无线条流水文件进行转换,得到目标无线条流水图片。
应当理解的是,在得到缩放后的若干页目标格式无线条流水文件后,需要将缩放后的若干页目标格式无线条流水文件分别进行转换,即将缩放后的若干页目标格式无线条流水文件由文件格式转换成图片格式,在转换完成后,得到目标无线条流水图片。
本实施例通过对待转换的目标格式无线条流水文件进行页面分割,得到若干页目标格式无线条流水文件;按照目标倍数对所述若干页目标格式无线条流水文件进行缩放;对缩放后的若干页目标格式无线条流水文件进行转换,得到目标无线条流水图片;通过上述方式,对待转换的目标格式无线条流水文件进行页面分割,然后按照目标倍数将页面分割得到的若干页目标格式无线条流水文件进行缩放,最后将缩放后的若干页目标格式无线条流水文件转换成目标无线条流水图片,从而能够有效提高得到目标无线条流水图片的效率。
在一实施例中,如图4所述,基于第一实施例提出本发明无线条流水文件的转换方法第三实施例,所述步骤S30,包括:
步骤S301,根据所述连续文字轮廓得到对应的连续文字轮廓高度。
可以理解的是,连续文字轮廓高度指的是连续文字轮廓的高度,无论是连续文字是斜歪还是竖直,该连续文字轮廓高度均是由最底端轮廓与最顶端轮廓确定。
步骤S302,对所述连续文字轮廓高度小于所述预设高度系数的连续文字轮廓进行筛选。
应当理解的是,在得到连续文字轮廓高度后,将连续文字轮廓高度与预设高度系数进行比较,即判断连续文字轮廓高度是否小于预设高度系数,若是,则将小于预设高度系数的连续文字轮廓筛选掉,以清除干扰点。
步骤S303,按照目标顺序关系对筛选后的连续文字轮廓进行排序。
可以理解的是,目标顺序关系指的是对连续文字轮廓进行排序的关系,该目标顺序关系可以为从小到大顺序关系,也可以为从大到小顺序关系,本实施例对此不作限制,并以从小到大顺序关系为例进行说明,在确定目标顺序关系后,按照目标顺序关系对筛选后的连续文字轮廓进行排序。
步骤S304,根据排序后的连续文字轮廓得到对应的当前轮廓纵坐标和上一轮廓纵坐标。
应当理解的是,当前轮廓纵坐标指的是当前连续文字轮廓所在行的纵坐标,上一轮廓纵坐标指的是上一连续文字轮廓所在行的纵坐标,该当前轮廓纵坐标和上一轮廓纵坐标是通过循环遍历排序后的连续文字轮廓得到的。
步骤S305,将所述当前轮廓纵坐标和所述上一轮廓纵坐标进行作差计算,得到轮廓纵坐标差值。
可以理解的是,轮廓纵坐标差值指的是轮廓纵坐标之间的差值,具体是将当前轮廓纵坐标和上一轮廓纵坐标进行作差计算,例如,当前轮廓纵坐标为y1,上一轮廓纵坐标为y2,则轮廓纵坐标差值为y2-y1。
步骤S306,在所述轮廓纵坐标差值大于预设行系数时,得到各行连续文字轮廓。
应当理解的是,在得到轮廓纵坐标差值后,将轮廓纵坐标差值与预设行系数进行比较,即判断轮廓纵坐标差值是否大于预设行系数,若是,则判定当前轮廓纵坐标所在的行为一个新行,如此循环判定,以得到各行连续文字轮廓。
步骤S307,根据所述各行连续文字轮廓得到当前轮廓横坐标和相邻轮廓横坐标。
可以理解的是,当前轮廓横坐标指的是当前连续文字轮廓的横坐标,具体为左上横坐标,同样,相邻轮廓横坐标指的是与当前连续文字轮廓相邻的轮廓的横坐标,具体为右上横坐标,该当前轮廓横坐标和相邻轮廓横坐标的坐标结构为[x0:y0,x1+y1]。
步骤S308,将所述当前轮廓横坐标和所述相邻轮廓横坐标进行作差计算,得到轮廓横坐标差值。
应当理解的是,轮廓横坐标差值指的是轮廓横坐标之间的额差值,具体是将当前轮廓横坐标和相邻轮廓横坐标进行作差计算。
步骤S309,在所述轮廓横坐标差值小于预设间隔系数时,将所述当前轮廓横坐标对应的文字轮廓和相邻轮廓横坐标对应的轮廓进行合并,得到目标横坐标轮廓。
可以理解的是,在得到轮廓横坐标差值后,将轮廓横坐标差值与预设间隔系数进行比较,即判断轮廓横坐标差值是否小于预设间隔系数,若是,则将当前轮廓横坐标对应的文字轮廓和相邻轮廓横坐标对应的轮廓进行合并,得到目标横坐标轮廓,若否,则当前轮廓横坐标对应的文字轮廓和相邻轮廓横坐标对应的轮廓均为单独文字轮廓。
步骤S310,根据所述各行连续文字轮廓和所述目标横坐标轮廓生成行分组结构文字数据。
应当理解的是,行分组结构文字数据指的是按行分组的结构文字数据,在得到各行连续文字轮廓和目标横坐标轮廓后,根据目标横坐标轮廓将各行连续文字轮廓按行进行分组,以得到行分组结构文字数据。
步骤S311,根据所述行分组结构文字数据得到对应的空白列。
可以理解的是,空白列指的是行分组结构文字数据中没有实际数据的列,即在得到行分组结构文字数据后,通过横坐标计算出行分组结构文字数据中的空白列。
进一步地,步骤S311,包括:根据所述行分组结构文字数据得到列数次数集合;提取所述列数次数集合中的最高次数列数;获取待转换的目标格式无线条流水文件的标题总列数量;对所述最高次数列数进行迭代,得到目标列的左上横坐标;根据所述标题总列数量得到标题行的下一列的右上横坐标;在所述目标列的左上横坐标大于所述标题行的下一列的右上横坐标时,将所述目标列作为空白列。
应当理解的是,列数次数集合指的是由行分组结构文字数据中的各个列数出现次数构成的集合,然后从列数次数集合中选取出现次数最高的列数,即最高次数列数,标题总列数量指的是待转换的目标格式无线条流水文件中所有列的数量,该标题纵列数量是最全的,具体是将标题行的下一列的右上横坐标与目标列的左上横坐标进行比较,即判断标题行的下一列的右上横坐标是否大于标题行的下一列的右上横坐标,若是,则判定必然出现跳列,即将目标列作为空白列,然后接下来进行列补全。
本实施例根据连续文字轮廓得到对应的连续文字轮廓高度,然后判断连续文字轮廓高度是否小于预设高度系数,若是,则对连续文字轮廓进行筛选,再按照目标顺序关系对筛选后的连续文字轮廓进行排序,再将当前轮廓纵坐标和上一轮廓纵坐标进行作差计算,然后判断轮廓纵坐标差值是否大于预设行系数,若是,则根据各行连续文字轮廓得到当前轮廓横坐标和相邻轮廓横坐标,将当前轮廓横坐标和相邻轮廓横坐标进行作差计算,再判断轮廓横坐标差值是否小于预设间隔系数,若是,则将当前轮廓横坐标对应的文字轮廓和相邻轮廓横坐标对应的轮廓进行合并,然后根据各行连续文字轮廓和目标横坐标轮廓生成行分组结构文字数据,最后根据行分组结构文字数据得到对应的空白列,从而能够有效提高得到空白列的准确性。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有无线条流水文件的转换程序,所述无线条流水文件的转换程序被处理器执行时实现如上文所述的无线条流水文件的转换方法的步骤。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
此外,参照图5,本发明实施例还提出一种无线条流水文件的转换装置,所述无线条流水文件的转换装置包括:
分割模块10,用于对待转换的目标格式无线条流水文件进行页面分割,得到目标无线条流水图片。
识别模块20,用于对所述目标无线流水图片进行结构元素识别,得到连续文字轮廓。
确定模块30,用于根据预设高度系数、预设行系数、预设间隔系数以及所述连续文字轮廓确定行分组结构文字数据和空白列。
生成模块40,用于根据所述行分组结构文字数据和所述空白列生成目标结构文字数据,并按照目标数据写入策略将所述目标结构数据写入至目标线条文件。
本实施例通过对待转换的目标格式无线条流水文件进行页面分割,得到目标无线条流水图片;对所述目标无线流水图片进行结构元素识别,得到连续文字轮廓;根据预设高度系数、预设行系数、预设间隔系数以及所述连续文字轮廓确定行分组结构文字数据和空白列;根据所述行分组结构文字数据和所述空白列生成目标结构文字数据,并按照目标数据写入策略将所述目标结构数据写入至目标线条文件;通过上述方式,根据预设高度系数、预设行系数、预设间隔系数对连续文字轮廓进行处理,然后对空白列进行标记和列补全,再将目标结构数据进行写入,从而能够有效提高转换无线条流水文件的准确性,且准确定位出单元格。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的无线条流水文件的转换方法,此处不再赘述。
在一实施例中,所述分割模块10,还用于对待转换的目标格式无线条流水文件进行页面分割,得到若干页目标格式无线条流水文件;按照目标倍数对所述若干页目标格式无线条流水文件进行缩放;对缩放后的若干页目标格式无线条流水文件进行转换,得到目标无线条流水图片。
在一实施例中,所述分割模块10,还用于接收终端设备发出的电子版无线条流水文件;对所述电子版无线条流水文件进行扫描,得到无线条流水扫描文件;在所述无线条流水扫描文件满足预设文字辨识缺陷时,将所述无线条流水扫描文件作为待转换的目标格式无线条流水文件。
在一实施例中,所述识别模块20,还用于对所述目标无线流水图片进行通道拆分,得到目标数量通道;提取所述目标数量通道的红色通道;根据所述红色通道对所述目标无线流水图片进行二值化处理,得到黑底白字的二值化无线流水图片;根据otsu阈值通过opencv图像算法对所述黑底白字的二值化无线流水图片进行结构元素识别,得到连续文字轮廓。
在一实施例中,所述确定模块30,还用于根据所述连续文字轮廓得到对应的连续文字轮廓高度;对所述连续文字轮廓高度小于所述预设高度系数的连续文字轮廓进行筛选;按照目标顺序关系对筛选后的连续文字轮廓进行排序;根据排序后的连续文字轮廓得到对应的当前轮廓纵坐标和上一轮廓纵坐标;将所述当前轮廓纵坐标和所述上一轮廓纵坐标进行作差计算,得到轮廓纵坐标差值;在所述轮廓纵坐标差值大于预设行系数时,得到各行连续文字轮廓;根据所述各行连续文字轮廓得到当前轮廓横坐标和相邻轮廓横坐标;将所述当前轮廓横坐标和所述相邻轮廓横坐标进行作差计算,得到轮廓横坐标差值;在所述轮廓横坐标差值小于预设间隔系数时,将所述当前轮廓横坐标对应的文字轮廓和相邻轮廓横坐标对应的轮廓进行合并,得到目标横坐标轮廓;根据所述各行连续文字轮廓和所述目标横坐标轮廓生成行分组结构文字数据;根据所述行分组结构文字数据得到对应的空白列。
在一实施例中,所述确定模块30,还用于根据所述行分组结构文字数据得到列数次数集合;提取所述列数次数集合中的最高次数列数;获取待转换的目标格式无线条流水文件的标题总列数量;对所述最高次数列数进行迭代,得到目标列的左上横坐标;根据所述标题总列数量得到标题行的下一列的右上横坐标;在所述目标列的左上横坐标大于所述标题行的下一列的右上横坐标时,将所述目标列作为空白列。
在一实施例中,所述生成模块40,还用于按照预设标记策略对所述空白列进行标记;通过目标约定数值对标记后的空白列进行列补全;根据列补全后的空白列和所述行分组结构文字数据生成目标结构文字数据;按照目标数据写入策略将所述目标结构数据写入至目标线条文件。
本发明所述无线条流水文件的转换装置的其他实施例或具有实现方法可参照上述各方法实施例,此处不在赘余。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,一体化平台工作站,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种无线条流水文件的转换方法,其特征在于,所述无线条流水文件的转换方法包括以下步骤:
对待转换的目标格式无线条流水文件进行页面分割,得到目标无线条流水图片;
对所述目标无线流水图片进行结构元素识别,得到连续文字轮廓;
根据预设高度系数、预设行系数、预设间隔系数以及所述连续文字轮廓确定行分组结构文字数据和空白列;
根据所述行分组结构文字数据和所述空白列生成目标结构文字数据,并按照目标数据写入策略将所述目标结构数据写入至目标线条文件。
2.如权利要求1所述的无线条流水文件的转换方法,其特征在于,所述对待转换的目标格式无线条流水文件进行页面分割,得到目标无线条流水图片,包括:
对待转换的目标格式无线条流水文件进行页面分割,得到若干页目标格式无线条流水文件;
按照目标倍数对所述若干页目标格式无线条流水文件进行缩放;
对缩放后的若干页目标格式无线条流水文件进行转换,得到目标无线条流水图片。
3.如权利要求2所述的无线条流水文件的转换方法,其特征在于,所述对待转换的目标格式无线条流水文件进行页面分割,得到若干页目标格式无线条流水文件之前,还包括:
接收终端设备发出的电子版无线条流水文件;
对所述电子版无线条流水文件进行扫描,得到无线条流水扫描文件;
在所述无线条流水扫描文件满足预设文字辨识缺陷时,将所述无线条流水扫描文件作为待转换的目标格式无线条流水文件。
4.如权利要求1所述的无线条流水文件的转换方法,其特征在于,所述对所述目标无线流水图片进行结构元素识别,得到连续文字轮廓,包括:
对所述目标无线流水图片进行通道拆分,得到目标数量通道;
提取所述目标数量通道的红色通道;
根据所述红色通道对所述目标无线流水图片进行二值化处理,得到黑底白字的二值化无线流水图片;
根据otsu阈值通过opencv图像算法对所述黑底白字的二值化无线流水图片进行结构元素识别,得到连续文字轮廓。
5.如权利要求1所述的无线条流水文件的转换方法,其特征在于,所述根据预设高度系数、预设行系数、预设间隔系数以及所述连续文字轮廓确定行分组结构文字数据和空白列,包括:
根据所述连续文字轮廓得到对应的连续文字轮廓高度;
对所述连续文字轮廓高度小于所述预设高度系数的连续文字轮廓进行筛选;
按照目标顺序关系对筛选后的连续文字轮廓进行排序;
根据排序后的连续文字轮廓得到对应的当前轮廓纵坐标和上一轮廓纵坐标;
将所述当前轮廓纵坐标和所述上一轮廓纵坐标进行作差计算,得到轮廓纵坐标差值;
在所述轮廓纵坐标差值大于预设行系数时,得到各行连续文字轮廓;
根据所述各行连续文字轮廓得到当前轮廓横坐标和相邻轮廓横坐标;
将所述当前轮廓横坐标和所述相邻轮廓横坐标进行作差计算,得到轮廓横坐标差值;
在所述轮廓横坐标差值小于预设间隔系数时,将所述当前轮廓横坐标对应的文字轮廓和相邻轮廓横坐标对应的轮廓进行合并,得到目标横坐标轮廓;
根据所述各行连续文字轮廓和所述目标横坐标轮廓生成行分组结构文字数据;
根据所述行分组结构文字数据得到对应的空白列。
6.如权利要求5所述的无线条流水文件的转换方法,其特征在于,所述根据所述行分组结构文字数据得到对应的空白列,包括:
根据所述行分组结构文字数据得到列数次数集合;
提取所述列数次数集合中的最高次数列数;
获取待转换的目标格式无线条流水文件的标题总列数量;
对所述最高次数列数进行迭代,得到目标列的左上横坐标;
根据所述标题总列数量得到标题行的下一列的右上横坐标;
在所述目标列的左上横坐标大于所述标题行的下一列的右上横坐标时,将所述目标列作为空白列。
7.如权利要求1至6中任一项所述的无线条流水文件的转换方法,其特征在于,所述根据所述行分组结构文字数据和所述空白列生成目标结构文字数据,并按照目标数据写入策略将所述目标结构数据写入至目标线条文件,包括:
按照预设标记策略对所述空白列进行标记;
通过目标约定数值对标记后的空白列进行列补全;
根据列补全后的空白列和所述行分组结构文字数据生成目标结构文字数据;
按照目标数据写入策略将所述目标结构数据写入至目标线条文件。
8.一种无线条流水文件的转换装置,其特征在于,所述无线条流水文件的转换装置包括:
分割模块,用于对待转换的目标格式无线条流水文件进行页面分割,得到目标无线条流水图片;
识别模块,用于对所述目标无线流水图片进行结构元素识别,得到连续文字轮廓;
确定模块,用于根据预设高度系数、预设行系数、预设间隔系数以及所述连续文字轮廓确定行分组结构文字数据和空白列;
生成模块,用于根据所述行分组结构文字数据和所述空白列生成目标结构文字数据,并按照目标数据写入策略将所述目标结构数据写入至目标线条文件。
9.一种无线条流水文件的转换设备,其特征在于,所述无线条流水文件的转换设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的无线条流水文件的转换程序,所述无线条流水文件的转换程序配置有实现如权利要求1至7中任一项所述的无线条流水文件的转换方法。
10.一种存储介质,其特征在于,所述存储介质上存储有无线条流水文件的转换程序,所述无线条流水文件的转换程序被处理器执行时实现如权利要求1至7中任一项所述的无线条流水文件的转换方法。
CN202210535864.8A 2022-05-17 2022-05-17 无线条流水文件的转换方法、装置、设备及存储介质 Pending CN115050041A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210535864.8A CN115050041A (zh) 2022-05-17 2022-05-17 无线条流水文件的转换方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210535864.8A CN115050041A (zh) 2022-05-17 2022-05-17 无线条流水文件的转换方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115050041A true CN115050041A (zh) 2022-09-13

Family

ID=83159552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210535864.8A Pending CN115050041A (zh) 2022-05-17 2022-05-17 无线条流水文件的转换方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115050041A (zh)

Similar Documents

Publication Publication Date Title
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
CN111340037B (zh) 文本版面分析方法、装置、计算机设备和存储介质
CN112069991A (zh) 一种pdf的表格信息提取方法及相关装置
US6701015B2 (en) Character string extraction apparatus and method based on basic component in document image
CN110738030A (zh) 表格重建方法、装置、电子设备及存储介质
CN112507782A (zh) 文本图像的识别方法及装置
CN111626145B (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
US20060290964A1 (en) Image processing system and image processing method, and computer program
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机系统
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN111428446B (zh) 问卷识别方法及问卷识别系统
CN109145916B (zh) 一种图像文字识别切割方法及一种存储设备
CN115050041A (zh) 无线条流水文件的转换方法、装置、设备及存储介质
CN115713775A (zh) 一种从文档中提取表格的方法、系统和计算机设备
CN101819632B (zh) 用于内容识别的系统和方法
JP4390523B2 (ja) 最小領域による合成画像の分割
CN116052195A (zh) 文档解析方法、装置、终端设备和计算机可读存储介质
CN111046096B (zh) 用于生成图文结构化信息的方法和装置
CN111783737B (zh) 一种数学公式的识别方法和识别装置
CN114937279A (zh) 基于rpa和ai实现ia的bom识别方法及装置
Song et al. Raster to vector conversion of construction engineering drawings
CN114202665A (zh) 一种图像相似度确定方法及装置、设备、存储介质
CN117558019B (zh) 从pdf格式元器件手册中自动提取符号图参数的方法
CN116563869B (zh) 页面图像文字处理方法、装置、终端设备和可读存储介质
CN112733857B (zh) 自动分割字符区域的图像文字检测模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination