CN116861865A - Excel数据处理方法、装置、设备及存储介质 - Google Patents
Excel数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116861865A CN116861865A CN202310758114.1A CN202310758114A CN116861865A CN 116861865 A CN116861865 A CN 116861865A CN 202310758114 A CN202310758114 A CN 202310758114A CN 116861865 A CN116861865 A CN 116861865A
- Authority
- CN
- China
- Prior art keywords
- target
- key
- value
- execl
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000011218 segmentation Effects 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 16
- 238000013145 classification model Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 2
- 238000013075 data extraction Methods 0.000 abstract 1
- 238000012549 training Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000007797 corrosion Effects 0.000 description 2
- 238000005260 corrosion Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 101100074105 Kluyveromyces lactis (strain ATCC 8585 / CBS 2359 / DSM 70799 / NBRC 1267 / NRRL Y-1140 / WM37) KYE1 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种EXCEL数据处理方法、装置、设备及存储介质。该方法包括:通过图像识别的方法,从初始EXCEL模板中提取所有KEY以及每个KEY对应的VALUE,以生成EXCEL模板。获取待提取EXECL,根据待提取EXECL中的N个第一KEY,从多个EXCEL模板中获取待提取EXECL对应的目标EXCEL模板。根据该目标EXCEL模板中的目标第二KEY、与该目标第二KEY相邻的第二KEY,确定待提取EXECL中该目标第一KEY对应的目标第一VALUE的区域。根据该目标第一VALUE的区域,提取该目标第一VALUE的内容,并根据该目标第一VALUE的内容的多种文本属性,使用与每种文本属性对应的分类方法对该目标第一VALUE的内容进行分类,并根据该分类结果数据结构化存储该目标第一VALUE的内容。本申请的方法,提高了EXCEL数据表中的字段内容的数据提取效率。
Description
技术领域
本申请涉及数据处理技术,尤其涉及一种EXCEL数据处理方法、装置、设备及存储介质。
背景技术
目前,EXCEL数据广泛应用于各行各业。在用户手动填写EXCEL数据时,通常会遇到EXCEL模板中填写KEY对应的VALUE的区域不足的情况。通常,用户往往会通过插入行、或者插入列的方式,增加该VALUE的区域,以应对VALUE的区域不足的情况。
然而,通过上述手动插入行、或者插入列的方式,会使得该EXCEL模板的版式发生变化(该EXCEL数据表变为与EXCEL模板版式不同的非标EXCEL数据表),即KEY对应的VALUE的区域发生了变化。在用户完成填写后,若要对填写后的EXCEL数据表中的字段内容进行提取和存储,则会由于该KEY对应的VALUE的区域的变化,使得字段内容的提取工作变得复杂。
因此,如何提取非标EXCEL数据表中的字段内容是亟需解决的问题。
发明内容
本申请提供一种EXCEL数据处理方法、装置、设备及存储介质,用以解决如何提取非标EXCEL数据表中的字段内容的问题。
第一方面,本申请提供一种EXCEL数据处理方法,包括:
获取待提取EXECL,所述待提取EXECL中包括N个第一KEY、N个与所述第一KEY的第一VALUE;
根据所述待提取EXECL中的N个所述第一KEY,获取所述待提取EXECL对应的目标EXCEL模板,所述目标EXCEL模板中存在N个与所述第一KEY匹配的第二KEY、N个与所述第二KEY对应的第二VALUE;
根据所述目标EXCEL模板中的目标第二KEY、与所述目标第二KEY相邻的第二KEY,确定所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置;所述目标第一KEY与所述目标第二KEY的内容相同,所述与所述目标第二KEY相邻的第二KEY包括所述目标第二KEY右侧相邻的第二KEY1、所述目标第二KEY下侧相邻的第二KEY2,所述与所述目标第一KEY相邻的第一KEY包括所述目标第一KEY右侧相邻的第一KEY1、所述目标第一KEY下侧相邻的第一KEY2,所述第一KEY1与所述第二KEY1的内容相同,所述第一KEY2与所述第二KEY2的内容相同;
根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域;
根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理。
可选的,所述根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域,包括:
根据所述目标第一KEY的位置,确定所述目标第一VALUE区域的左上顶点的位置;
根据所述第一KEY1的位置,确定所述目标第一VALUE区域的右上顶点的位置;
根据所述第一KEY2的位置,确定所述目标第一VALUE区域的左下顶点的位置;
根据所述目标第一VALUE区域的左上顶点的位置、所述右上顶点的位置、以及所述左下顶点的位置,确定第一VALUE的区域。
可选的,所述根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:
获取所述目标第一KEY的属性,所述目标第一KEY的属性包括长文本属性、短文本属性、图像属性中的至少一项;
根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理。
可选的,所述目标第一KEY为长文本属性,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:
从所述目标第一VALUE的区域中获取所述目标第一VALUE的长文本内容,并对所述长文本内容进行分词处理;
将所述分词处理的结果生成词向量;
根据所述词向量,以及,文本分类神经网络模型,获得分词分类结果;
根据所述分词分类结果对所述目标第一VALUE进行量化存储。
可选的,所述目标第一KEY为短文本属性,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:
从所述目标第一VALUE的区域中获取所述目标第一VALUE的短文本内容;
根据所述短文本内容,以及,预设的匹配算法,确定所述短文本内容的分类结果;
根据所述短文本内容的分类结果对所述目标第一VALUE进行量化存储。
可选的,所述目标第一KEY为图像属性,所述目标第一VALUE包括已选择区域与未选择区域,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:
获取所述目标第一KEY的位置,以及,所述目标第一VALUE的位置;
根据所述目标第一KEY的位置,以及,所述目标第一VALUE的位置,生成包括所述目标第一KEY和所述目标第一VALUE的第一图像;
根据所述第一图像,以及,预设图像分类模型,确定所述目标第一VALUE的已选择区域;
对所述目标第一VALUE的已选择区域进行量化存储。
可选的,在获取待提取EXECL之前,还包括:
获取初始EXCEL模板,所述初始EXCEL模板中存在N个所述第二KEY、N个所述第二VALUE;
将所述初始EXCEL模板转化为目标图像,并获取所述目标图像中的每个单元格的位置;
根据每个单元格的位置,获取N个所述第二KEY、N个所述第二KEY的位置、N个所述第二VALUE、以及、N个所述第二VALUE的位置;
根据所述N个所述第二KEY、N个所述第二KEY的位置、N个所述第二VALUE、以及、N个所述第二VALUE的位置,生成所述目标EXCEL模板。
第二方面,本申请提供一种EXCEL数据处理装置,包括:
获取模块,用于获取待提取EXECL,所述待提取EXECL中包括N个第一KEY、N个与所述第一KEY的第一VALUE;
处理模块,用于根据所述待提取EXECL中的N个所述第一KEY,获取所述待提取EXECL对应的目标EXCEL模板;根据所述目标EXCEL模板中的目标第二KEY、与所述目标第二KEY相邻的第二KEY,确定所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置;根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域;所述目标EXCEL模板中存在N个与所述第一KEY匹配的第二KEY、N个与所述第二KEY对应的第二VALUE;所述目标第一KEY与所述目标第二KEY的内容相同,所述与所述目标第二KEY相邻的第二KEY包括所述目标第二KEY右侧相邻的第二KEY1、所述目标第二KEY下侧相邻的第二KEY2,所述与所述目标第一KEY相邻的第一KEY包括所述目标第一KEY右侧相邻的第一KEY1、所述目标第一KEY下侧相邻的第一KEY2,所述第一KEY1与所述第二KEY1的内容相同,所述第一KEY2与所述第二KEY2的内容相同;
控制模块,用于根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理。
第三方面,本申请提供一种电子设备,包括:处理器,通信接口以及存储器,所述处理器分别与所述通信接口和所述存储器通信连接;
所述存储器存储计算机执行指令;
所述通信接口与外部设备进行通信交互;
所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面中任一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面中任一项所述的EXCEL数据处理方法。
本申请提供的EXCEL数据处理方法、装置、设备及存储介质,通过获取待提取EXECL,根据该待提取EXECL中的N个该第一KEY,获取该待提取EXECL对应的目标EXCEL模板。根据该目标EXCEL模板中的目标第二KEY、与该目标第二KEY相邻的第二KEY,确定该待提取EXECL中目标第一KEY的位置、与该目标第一KEY相邻的第一KEY的位置。根据该待提取EXECL中目标第一KEY的位置、与该目标第一KEY相邻的第一KEY的位置,确定该待提取EXECL中该目标第一KEY对应的目标第一VALUE的区域。根据该目标第一VALUE的区域,对该目标第一VALUE进行数据结构化处理,从而实现了提取非标EXCEL数据表中的字段内容,并对该字段内容进行数据结构化处理,提高了EXCEL数据提取的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种EXCEL数据处理方法的流程示意图;
图2为本申请实施例提供的另一种EXCEL数据处理方法的流程示意图;
图3为本申请实施例提供的又一种EXCEL数据处理方法的流程示意图;
图4为本申请实施例提供的再一种EXCEL数据处理方法的流程示意图;
图5为本申请实施例提供的再一种EXCEL数据处理方法的流程示意图;
图6为本申请实施例提供的再一种EXCEL数据处理方法的流程示意图;
图7为本申请实施例提供的一种EXCEL数据处理装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请提供的EXCEL数据处理方法的执行主体可以是具备数据处理功能的终端设备,或者是该终端设备的处理芯片,还可以是实现该数据处理方法的软件或程序代码。当执行主体为具备数据处理功能的终端设备时,该终端设备例如可以是具备计算功能的电脑、手机等计算设备,该计算设备上可以部署有运行该数据处理方法的软件或程序代码,通过该软件或程序代码对业务系统中的数据结构进行处理。该方法的执行主体还可以是具备数据处理功能云平台,当执行主体为云平台时,可以在云端执行该方法中对数据结构的处理,该云平台可以根据实际需求在逻辑上分成多个部分,每个部分具有不同的功能。数据处理平台中的各部分可以分别部署在电子设备(位于用户侧)、边缘环境和云环境中的任意两个或三个中。边缘环境为包括距离电子设备较近的边缘电子设备集合的环境,边缘电子设备包括:边缘服务器、拥有计算力的边缘小站等。部署在不同环境或设备的数据处理平台的各个部分协同实现数据处理平台的功能。应理解,本申请不对数据处理平台的哪些部分部署具体部署在什么环境进行限制性的划分,实际应用时可根据电子设备的计算能力、边缘环境和云环境的资源占有情况或具体应用需求进行适应性的部署。
下面,以执行主体为实现该方法的具备数据处理功能的终端设备为例,通过具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例提供的一种EXCEL数据处理方法的流程示意图。
如图1所示,该方法可以包括:
S101、获取待提取EXECL。
其中,待提取EXECL中包括N个第一KEY、N个与所述第一KEY的第一VALUE。该第一KEY为数据的分类,该第一VALUE为该第一KEY对应的数据分类下的至少一个值。示例性的,该待提取EXECL可以如下表1所示:
表1
KEY1 | VALUE1-1 | VALUE1-2 | VALUE1-3 |
KEY2 | VALUE2-1 | VALUE2-2 | VALUE2-3 |
KEY3 | VALUE3-1 | VALUE3-2 | VALUE3-3 |
…… | …… | …… | …… |
其中,该第一KEY包括KYE1、KEY2、KEY3,该KEY1对应的第一VALUE1包括VALUE1-1、VALUE1-2、VALUE1-3。例如,该KEY1可以为金额,则VALUE1-1、VALUE1-2、VALUE1-3为金额对应的多个数值。
该待提取EXCEL可以是从该终端设备的存储介质中获取的,也可以是从其他电子设备中获取的。
S102、根据待提取EXECL中的N个第一KEY,获取待提取EXECL对应的目标EXCEL模板,
其中,目标EXCEL模板中存在N个与第一KEY匹配的第二KEY、N个与第二KEY对应的第二VALUE。其中,该N个第二KEY与该N个第一KEY的内容一一对应。该终端设备中预先存储了多个EXCEL模板。
将待提取EXECL中的N个第一KEY与多个EXCEL模板进行匹配,若存在包括了N个与第一KEY的内容匹配的第二KEY的EXCEL模板,则将该EXCEL模板作为目标EXCEL模板。或者,若存在包括了超过预设阈值个与第一KEY的内容匹配的第二KEY的EXCEL模板,则将该EXCEL模板作为目标EXCEL模板,该预设阈值可以根据实际需求确定。
S103、根据目标EXCEL模板中的目标第二KEY、与目标第二KEY相邻的第二KEY,确定待提取EXECL中目标第一KEY的位置、与目标第一KEY相邻的第一KEY的位置。
其中,目标第一KEY与目标第二KEY的内容相同,与目标第二KEY相邻的第二KEY包括目标第二KEY右侧相邻的第二KEY1、目标第二KEY下侧相邻的第二KEY2,与目标第一KEY相邻的第一KEY包括目标第一KEY右侧相邻的第一KEY1、目标第一KEY下侧相邻的第一KEY2,第一KEY1与第二KEY1的内容相同,第一KEY2与第二KEY2的内容相同。
在待提取EXECL中匹配与目标第二KEY对应的目标第一KEY,并确定该目标第一KEY在该待提取EXCEL中的位置,并在待提取EXECL中匹配与目标第二KEY相邻的第二KEY对应的与目标第一KEY相邻的第一KEY,并确定该与目标第一KEY相邻的第一KEY在该待提取EXCEL中的位置。
一种可能的实现方式,在待提取EXECL的整个数据表范围内进行匹配。
另一种可能的实现方式,首先在待提取EXECL中匹配与目标第二KEY对应的目标第一KEY,并在该目标第一KEY附近的预设范围内(例如可以是上下10行,左右10列的范围内)进行相邻的第一KEY的匹配,从而减小运算量,提高运算速度。
示例性的,该目标EXCEL模板可以如下表2所示:
表2
目标第二KEY | 123 | 第二KEY1 | 231 |
第二KEY2 | 321 | ||
…… | …… | …… | …… |
该待提取EXECL可以如下表3所示:
表3
目标第一KEY | 123 | 第一KEY1 | 231 |
456 | |||
789 | |||
第一KEY2 | 321 | ||
…… | …… | …… | …… |
则本步骤可以为,根据目标EXCEL模板中的目标第二KEY到待提取EXECL中匹配,获得待提取EXECL中目标第一KEY的位置,然后根据目标EXCEL模板中的第二KEY1到待提取EXECL中匹配,获得待提取EXECL中第一KEY1的位置,根据目标EXCEL模板中的第二KEY2到待提取EXECL中匹配,获得待提取EXECL中第一KEY2的位置。
S104、根据待提取EXECL中目标第一KEY的位置、与目标第一KEY相邻的第一KEY的位置,确定待提取EXECL中目标第一KEY对应的目标第一VALUE的区域。
一种可能的实现方式,根据目标第一KEY的位置、与目标第一KEY相邻的第一KEY的位置确定目标第一VALUE的区域的三个顶点,根据该三个顶点确定该目标第一VALUE的区域。
另一种可能的实现方式,根据所述目标第一KEY的位置、所述第一KEY1的位置,确定所述目标第一VALUE的宽度;根据所述目标第一KEY的位置、所述第一KEY2的位置,确定所述目标第一VALUE的高度。并根据所述目标第二KEY与所述目标第二VALUE的相对位置关系,所述宽度、所述高度,确定该目标第一VALUE的区域。
S105、根据目标第一VALUE的区域,对目标第一VALUE进行数据结构化处理。
其中,从该目标第一VALUE的区域中提取目标第一VALUE的内容,该目标第一VALUE中可以包括多条数据。根据该目标第一VALUE对应的目标第一KEY的属性,对提取后目标第一VALUE的内容按照该属性确定目标第一VALUE的内容的至少一种类别,并根据该类别对目标第一VALUE的内容进行分类的结构化存储,例如可以将分类后的内容以结构化数据的形式存储到数据库中,以便于后续对目标第一VALUE的内容进行复盘和查看。
本申请实施例提供的方法,通过获取待提取EXECL,根据该待提取EXECL中的N个该第一KEY,获取该待提取EXECL对应的目标EXCEL模板。根据该目标EXCEL模板中的目标第二KEY、与该目标第二KEY相邻的第二KEY,确定该待提取EXECL中目标第一KEY的位置、与该目标第一KEY相邻的第一KEY的位置。根据该待提取EXECL中目标第一KEY的位置、与该目标第一KEY相邻的第一KEY的位置,确定该待提取EXECL中该目标第一KEY对应的目标第一VALUE的区域。根据该目标第一VALUE的区域,对该目标第一VALUE进行数据结构化处理,从而实现了提取非标EXCEL数据表中的字段内容,并对该字段内容进行数据结构化处理,提高了EXCEL数据处理的效率。
下面,对于步骤S103中如何根据目标EXCEL模板中每个所述第二KEY和所述第二VALUE的相对位置关系,以及,所述第一KEY,确定所述待提取EXECL中所述第一KEY对应的第一VALUE的位置进行详细介绍。图2为本申请实施例提供的另一种EXCEL数据处理方法的流程示意图。如图2所示,上述步骤S103可以包括:
S201、在待提取EXECL中,根据目标第一KEY的位置,确定目标第一VALUE区域的左上顶点的位置。
根据目标第二KEY和目标第二VALUE的相对位置关系,确定目标第一KEY和目标第一VALUE的相对位置关系。根据目标第一KEY和目标第一VALUE的相对位置关系,确定目标第一VALUE区域的第一列中第一行的值对应的位置,该位置即为目标第一VALUE区域的左上顶点的位置。
S202、根据第一KEY1的位置,确定目标第一VALUE区域的右上顶点的位置。
由于第一KEY1为该目标第一KEY右侧相邻的第一个第一KEY,因此该第一KEY1所在的位置即为目标第一VALUE区域的第一行中最后一列的值对应的位置的下一列同一行的位置,因此可以根据该第一KEY1的位置反推该目标第一VALUE区域的右上顶点的位置。
S203、根据第一KEY2的位置,确定目标第一VALUE区域的左下顶点的位置。
由于第一KEY2为该目标第一KEY下侧相邻的第一个第一KEY,因此该第一KEY2所在的位置即为目标第一VALUE区域的第一列中最后一行的值对应的位置的下一行同一列的位置,因此可以根据该第一KEY2的位置反推该目标第一VALUE区域的左下顶点的位置。
S204、根据目标第一VALUE区域的左上顶点的位置、右上顶点的位置、以及左下顶点的位置,确定第一VALUE的区域。
由于已经确定该第一VALUE区域的左上顶点的位置、右上顶点的位置、以及左下顶点的位置,且在EXCEL数据表中,第一VALUE区域为矩形区域,因此,可以根据目标第一VALUE区域的左上顶点的位置、右上顶点的位置、以及左下顶点的位置,确定第一VALUE的区域。
在完成第一VALUE的位置的确定后,可以根据该第一VALUE的位置对该第一VALUE中包括的数据进行结构化处理。下面,以第一KEY的属性包括长文本属性、短文本属性、图像属性中的至少一项为例,对如何对该第一VALUE中包括的数据进行结构化处理进行详细说明。
实现方式1:该目标第一KEY的属性包括长文本属性。图3为本申请实施例提供的又一种EXCEL数据处理方法的流程示意图。如图3所示,该方法可以包括:
S301、从所述目标第一VALUE的区域中获取所述目标第一VALUE的长文本内容,并对所述长文本内容进行分词处理。
其中,该长文本内容中可以包括至少两个关键词,该关键词可以表征改长文本内容的属性,通过对该长文本内容的分词处理,可以获取该长文本内容的至少两个属性。该分词处理例如可以是通过现有的任意一种分词工具实现的,该分词工具例如可以是Jieba分词工具、SnowNLP分词工具、HanNLP分词工具等。
示例性的,以该长文本内容为公司名称为例,该长文本内容例如可以是“A公司B地区分公司”,通过对该长文本内容进行分词处理,可以获取分词“A公司”以及“B地区”的分词结果,该A公司例如可以包括该公司的公司类型属性,例如金融公司、法律公司等,该B地区可以表征该公司名称对应的地理位置。
S302、将所述分词处理的结果生成词向量。
通过语料训练模型,对该分词处理的结果的每个分词进行向量转化,获得每个分词对应的1*K维的词向量,K为大于或等于1的整数,即将每个分词映射到一个与该分词对应的向量,根据所述分词结果中包括的M个分词,M为大于或等于1的整数,可以将该长文本内容转化为M*K维的数组。其中,该语料训练模型例如可以是Word2vec模型。
S303、根据所述词向量,以及,文本分类神经网络模型,获得分词分类结果。
其中,该文本分类神经网络模型例如可以是循环神经网络(Recurrent NeuralNetwork,RNN)模型、文本卷积网络(TextConventional Neural Network,TextCNN)模型等。下面以该文本分类神经网络模型为TextCNN模型为例,对如何根据所述M*K维的数组,以及,文本分类神经网络模型,获得分词分类结果进行详细说明。
首先,通过长文本样本,以及,预设的标注类别对TextCNN模型进行训练,获得训练后的TextCNN模型,该长文本样本和该预设的标注类别可以根据用户的实际需求确定,本申请对此不作限制。将该长文本样本中的每个长文本内容转化为M*K维的数组,其中,以xi∈Rk是句子中第i个词的词向量,纬度为k。长文本内容的长度为n为例,该长文本内容可以表示为对于该长文本内容的表示,其中,/>为拼接操作符。xi:i+j表示xi,xi+1,....,xi+j,即从句子下标为i到i+j的分词表征。
其次,将该分词表征对应的特征输入至TextCNN模型的卷积层,根据该卷积层的卷积核,对该特征进行卷积运算,获得该卷积运算的结果。示例性的,该卷积核可以为w∈Rhk,则该卷积层中进行上下滑动的窗口大小为h,对于在xi:i+h-1上进行单次卷积运算的结果可以如下述公式(1)所示:
ci=f(w·xi:i+h-1+b) (1)
其中,b为偏置项,f为非线性运算,例如可以是tanh运算等。根据该卷积层对应的上下滑动的窗口大小h,则可以将该特征在{x1:h,x2:h+1,...,xn-h+1,n}上分别进行单次卷积运算,从而根据该卷积层运算获得的特征图c=[c1,c2,...,cn-h+1]。
完成上述卷积运算后,进入该TextCNN模型的最大池化层,以对卷积层所提取的信息做更一步降维,减少计算量。对于每一个卷积核,可以获得该卷积核对应的标量该标量表征将该长文本内容中长度不相同的分词表征对应的特征同步至相同维度的特征。根据该TextCNN模型中卷积核的数量,可以确定对应的标量。例如,当该TextCNN模型中卷积核的数量为m时,长文本样本经过该最大池化层后,可以获得标量的集合/>应了解,该卷积核的数量m可以根据实际需求确定,例如可以是3个,本申请对此不作限制。
最后,根据卷积层运算获得的特征图c=[c1,c2,...,cn-h+1],通过该TextCNN模型的全连接层,获得长文本样本的特征向量与预设的标注类别的映射关系,该映射关系可以如下公式(2)所示:
其中,该y为每种预设的标注类别的概率分布,w为该长文本样本的特征向量的权重矩阵,为随机失活(dropout)的过程,其中/>为逐元素符,表征对λ和r中对应的元素进行运算,该λ为伯努利随机变量(即0-1变量,该变量的值为0或者为1),b为偏置项。
可选的,还可以对该TextCNN模型的全连接层进行正则化,以避免该长文本内容在训练时出现过拟合的状态,从而降低该TextCNN模型在在训练数据上损失函数较小,预测准确率较高,但在测试数据上损失函数较大,预测准确率较低的情况。该对全连接层进行正则化的过程可以参照现有技术,本申请再次不再赘述。
将上述M*K维的数组输入至该训练好的文本分类神经网络模型中,则可以确定该长文本内容中对应的多种属性类别。
S304、根据所述分词分类结果对所述目标第一VALUE进行量化存储。
根据所述长文本内容中对应的分词分类结果的多种属性类别,将该长文本内容按照该多种属性类别存储至数据库中,以完成该长文本内容的数据结构化处理和存储。
实现方式2:该目标第一KEY的属性为短文本属性。图4为本申请实施例提供的再一种EXCEL数据处理方法的流程示意图。如图4所示,该方法可以包括:
S401、从目标第一VALUE的区域中获取所述目标第一VALUE的短文本内容。
获取目标第一VALUE的区域中的所有VALUE的内容,根据该所有VALUE的内容判断哪些为属于短文本内容的VALUE。提取属于短文本内容的所有VALUE的内容。
S402、根据短文本内容,以及,预设的匹配算法,确定短文本内容的分类结果。
其中,该匹配算法可以是现有的任意一种文本匹配算法,例如可以是精确匹配,模糊匹配。
一种可能的实现方式,例如可以是通过该短文本内容的词频进行匹配,例如可以通过词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)方法,获取该短文本内容在预设的多个字典中出现的频次,并将出现频次最高的字典的所对应的分类结果作为该短文本内容对应的分类结果。
另一种可能的实现方式,可以通过预先分类好的短文本内容集合,该分类结合中包括短文本内容与分类结果的映射关系。将该短文本内容与该短文本内容集合进行精确匹配或模糊匹配,从而确定该短文本内容对应的分类结果。
S403、根据所述短文本内容的分类结果对所述目标第一VALUE进行量化存储。
根据所述短文本内容匹配确定的该短文本内容对应的分类结果,将该短文本内容按照其分类结果进行分类,并将不同分类的短文本内容存储至数据库中对应的不同分类下,以完成该短文本内容的数据结构化处理和存储。
实现方式3:该目标第一KEY的属性包括图像属性,该目标第一VALUE包括已选择区域与未选择区域,该目标第一VALUE中包括多个可选择的值,用户需要通过勾选其中一个可选择的值,来确定该目标第一VALUE对应的值。例如,该目标第一KEY为性别,每个目标第一VALUE包括男性、女性两个可选择的值,用户可以通过画线、或者对勾、或者涂黑可选择的值对应的方框等方式选择其中一个值。为了能够确定该图像属性的目标第一KEY对应的目标第一VALUE的已被选择的单元格,可以通过以下方法对这类数据进行数据结构化处理。
图5为本申请实施例提供的再一种EXCEL数据处理方法的流程示意图。如图5所示,该方法可以包括:
S501、获取所述目标第一KEY的位置,以及,所述目标第一VALUE的位置。
获取所述目标第一KEY的位置,以及,所述目标第一VALUE的位置的方法与前述步骤S103至步骤S104相似,请参照前述步骤S103至步骤S104,本申请在此不再赘述。
S502、根据所述目标第一KEY的位置,以及,所述目标第一VALUE的位置,生成包括所述目标第一KEY和所述目标第一VALUE的第一图像。
根据所述目标第一KEY的位置,以及,所述目标第一VALUE的位置,确定需要生成第一图像的位置和范围。根据该需要生成第一图像的位置和范围,通过能够将EXCEL数据表的部分区域生成图像的工具,将该需要生成第一图像的位置和范围指示的区域转化成图像格式,从而生成包括所述目标第一KEY和所述目标第一VALUE的第一图像。其中,该能够将EXCEL数据表的部分区域生成图像的工具例如可以是EXCEL2IMG工具,例如可以是直接通过EXCEL2IMG工具包作用在该EXCEL数据表上实现的,或者是通过代码程序调用EXCEL2IMG工具实现的等。
S503、根据第一图像,以及,预设图像分类模型,确定目标第一VALUE的已选择区域。
该预设图像分类模型可以是现有的任意一种图像分类模型,例如可以是GoogleNet深度学习模型,或者是其他现有的图像分类模型,本申请对此不作限制,只要能够对该第一图像中的内容进行分类即可。
将该第一图像输入至训练好的该预设图像分类模型中,该预设图像分类模型通过判断该第一图像中是否有选择线条覆盖的单元格(即已选择区域),该选择线条例如可以是上述所述的用户通过画线、或者对勾、或者涂黑可选择的值对应的方框等选择线条中的任意一种。
该预设图像分类模型对于有选择线条覆盖的单元格,确定为已选择区域,对于没有选择线条覆盖的单元格,确定为未选择区域。
其中,该预设图像分类模型的训练样本包括有选择线条覆盖图像的正样本,没有选择线条覆盖的负样本组成。该正样本的数量和负样本的数量可以根据实际需求确定,本申请对此不作限制,例如可以是1000个正样本,3000个负样本。
通过该训练样本,对该图像分类模型进行训练。以预设图像分类模型为GoogleNet深度学习模型为例,将训练样本的图像经过该GoogleNet模型的卷积层、Inception 3a层、Inception 3b层、Inception 4a/c/d/e层、Inception 5a/b层、全连接层、输出层生成1024维特征,并通过softmax激活函数得到正样本的概率和负样本的概率,该Inception a/b/c/d/e表示经过了不同的卷积核。其中,Inception结构输入是并行经过1*1卷积、3*3卷积、5*5卷积、3*3最大池化层后进行通道上的融合。该Inception结构利用不同大小的卷积核实现不同尺寸的感知,从而可以使该GoogleNet深度学习模型得到更好的图像表征。其中,该1*1卷积核的作用为压缩降维,以减少模型参数的数量,提高模型网络地深度、宽度、以及提取特征的效果。
图像分类模型经过该训练样本的多次训练迭代,生成训练后的预设图像分类模型,以判断第一图像中目标第一VALUE的已选择区域。
S504、对目标第一VALUE的已选择区域进行量化存储。
将该目标第一VALUE的已选择区域作为每一个目标第一VALUE对应的内容,并将该目标第一KEY和目标第一VALUE对应的内容存储到数据库中。
本申请实施例提供的结构化处理方法,通过从目标第一VALUE的区域中提取不同属性的KEY对应的长文本内容的目标第一VALUE、短文本内容的目标第一VALUE、图像属性的目标第一VALUE的内容,并对这些内容进行结构化处理,将结构化处理后的目标第一VALUE的结构化数据存储到数据库中,以便于用户对于这些数据后续的回溯和查看。
下面,对在获取目标EXCEL模板之前,如何制作EXCEL模板进行详细说明。图6为本申请实施例提供的再一种EXCEL数据处理方法的流程示意图。如图6所示,该方法还可以包括:
S601、获取初始EXCEL模板。
其中,该初始EXCEL模板中存在N个第二KEY、N个第二VALUE。该初始EXCEL模板为提供给用户进行后续填写所使用的EXCEL数据表。该初始EXCEL模板可以是从该终端设备的存储介质中获取的。
S602、将初始EXCEL模板转化为目标图像,并获取该目标图像中的每个单元格的位置。
将所述初始EXCEL模板保存为图像格式,以获得该目标图像。例如可以通过前述所说的EXCEL2IMG工具将该初始EXCEL模板转化为目标图像。当使用EXCEL2IMG工具将该初始EXCEL模板转化为目标图像时,可选的,还可以将该初始EXCEL模板中的填充有值的单元格的内容清空,并将这些单元格的内容重新赋值为预设字符,例如可以重新赋值为“1”,从而便于使用EXCEL2IMG工具确定该初始EXCEL模板中需要转化为目标图像的区域的边框,以提高将该初始EXCEL模板转化为目标图像的效率。
获取预设的横向结构单元、以及、预设的纵向结构单元,消除该目标图像中划分单元格的线条。例如,可以根据预设的横向结构单元(1,10),通过腐蚀膨胀的方式,消除该目标图像中划分单元格的横向线条,而后通过纵向投影分割出每一列单元格;根据预设的纵向结构单元(10,1),通过腐蚀膨胀的方式,消除该目标图像中划分单元格的纵向线条,而后通过横向投影分割出每一行单元格。根据该每一列单元格对应的列和每一行单元格对应的行之间的关系,将该目标图像分割为由单元格组成的多个区域,并确定每个单元格所在的行和所在的列。根据每个单元格所在的行和所在的列,确定每个单元格的位置。
S603、根据每个单元格的位置,获取N个所述第二KEY的位置、N个所述第二VALUE的位置。
获取每个第二KEY对应的单元格,将该单元格的位置作为该第二KEY的位置;获取每个第二VALUE对应的单元格,将该单元格的位置作为该第二VALUE的位置。根据每个该第二KEY的位置,确定与每个该第二KEY对应的每个第二VALUE的相对位置。
S604、根据所述N个所述第二KEY、N个所述第二KEY的位置、N个所述第二VALUE、以及、N个所述第二VALUE的位置,生成所述目标EXCEL模板。
其中,该目标EXCEL模板中还可以包括每个第二KEY的属性列表,该属性列表表征每个第二KEY对应的第二VALUE的属性,该属性可以包括前述所说的长文本属性、短文本属性、图像属性等属性中的至少一项。
图7为本申请实施例提供的一种EXCEL数据处理装置的结构示意图。如图7所示,该装置可以包括:获取模块11,处理模块12,控制模块13。
获取模块11,用于获取待提取EXECL,所述待提取EXECL中包括N个第一KEY、N个与所述第一KEY的第一VALUE。
处理模块12,用于根据所述待提取EXECL中的N个所述第一KEY,获取所述待提取EXECL对应的目标EXCEL模板。根据所述目标EXCEL模板中的目标第二KEY、与所述目标第二KEY相邻的第二KEY,确定所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置。根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域。所述目标EXCEL模板中存在N个与所述第一KEY匹配的第二KEY、N个与所述第二KEY对应的第二VALUE。所述目标第一KEY与所述目标第二KEY的内容相同,所述与所述目标第二KEY相邻的第二KEY包括所述目标第二KEY右侧相邻的第二KEY1、所述目标第二KEY下侧相邻的第二KEY2,所述与所述目标第一KEY相邻的第一KEY包括所述目标第一KEY右侧相邻的第一KEY1、所述目标第一KEY下侧相邻的第一KEY2,所述第一KEY1与所述第二KEY1的内容相同,所述第一KEY2与所述第二KEY2的内容相同。
控制模块13,用于根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理。
在一种可能的实现方式中,处理模块12,具体用于根据所述目标第一KEY的位置,确定所述目标第一VALUE区域的左上顶点的位置。根据所述第一KEY1的位置,确定所述目标第一VALUE区域的右上顶点的位置。根据所述第一KEY2的位置,确定所述目标第一VALUE区域的左下顶点的位置。根据所述目标第一VALUE区域的左上顶点的位置、所述右上顶点的位置、以及所述左下顶点的位置,确定第一VALUE的区域。
可选的,其中,所述目标第一KEY的属性包括长文本属性、短文本属性、图像属性中的至少一项。获取模块11,具体用于获取所述目标第一KEY的属性。控制模块13,具体用于根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理。
在上述实现方式下,可选的,若所述目标第一KEY为长文本属性,处理模块12,具体用于从所述目标第一VALUE的区域中获取所述目标第一VALUE的长文本内容,并对所述长文本内容进行分词处理。将所述分词处理的结果生成词向量。根据所述词向量,以及,文本分类神经网络模型,获得分词分类结果。控制模块13,具体用于根据所述分词分类结果对所述目标第一VALUE进行量化存储。
在上述实现方式下,可选的,若所述目标第一KEY为短文本属性,处理模块12,具体用于从所述目标第一VALUE的区域中获取所述目标第一VALUE的短文本内容。根据所述短文本内容,以及,预设的匹配算法,确定所述短文本内容的分类结果。控制模块13,具体用于根据所述短文本内容的分类结果对所述目标第一VALUE进行量化存储。
在上述实现方式下,可选的,若所述目标第一KEY为图像属性,所述目标第一VALUE包括已选择区域与未选择区域,处理模块12,具体用于获取所述目标第一KEY的位置,以及,所述目标第一VALUE的位置。根据所述目标第一KEY的位置,以及,所述目标第一VALUE的位置,生成包括所述目标第一KEY和所述目标第一VALUE的第一图像。根据所述第一图像,以及,预设图像分类模型,确定所述目标第一VALUE的已选择区域。控制模块13,具体用于对所述目标第一VALUE的已选择区域进行量化存储。
在前述任意一种实现方式下,获取模块11,在获取待提取EXECL之前,还用于获取初始EXCEL模板,所述初始EXCEL模板中存在N个所述第二KEY、N个所述第二VALUE。处理模块12,还用于将所述初始EXCEL模板转化为目标图像,并获取所述目标图像中的每个单元格的位置。根据每个单元格的位置,获取N个所述第二KEY、N个所述第二KEY的位置、N个所述第二VALUE、以及、N个所述第二VALUE的位置。根据所述N个所述第二KEY、N个所述第二KEY的位置、N个所述第二VALUE、以及、N个所述第二VALUE的位置,生成所述目标EXCEL模板。
本申请实施例提供的EXCEL数据处理装置,本可以执行上述方法实施例中的EXCEL数据处理方法,其实现原理和技术效果类似,在此不再赘述。。
图8为本申请实施例提供的一种电子设备的结构示意图。其中,该电子设备用于执行前述所说的EXCEL数据处理方法,例如可以是前述所说的具备数据处理功能的终端设备等。如图8所示,该电子设备800可以包括:至少一个处理器801、存储器802、通信接口803。
存储器802,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器802可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器801用于执行存储器802存储的计算机执行指令,以实现前述方法实施例所描述的方法。其中,处理器801可能是一个CPU,或者是特定集成电路(ApplicationSpecific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
处理器801通过通信接口803可以与外部设备进行通信交互,外部设备例如可以是前述所说的用户的终端设备等。在具体实现上,如果通信接口803、存储器802以及处理器801独立实现,则通信接口803、存储器802以及处理器801可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口803、存储器802和处理器801集成在一块芯片上实现,则通信接口803、存储器802和处理器801可以通过内部接口完成通信。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述实施例中的方法。
本申请还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。计算设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得计算设备实施上述EXCEL数据处理方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种EXCEL数据处理方法,其特征在于,包括:
获取待提取EXECL,所述待提取EXECL中包括N个第一KEY、N个与所述第一KEY的第一VALUE;
根据所述待提取EXECL中的N个所述第一KEY,获取所述待提取EXECL对应的目标EXCEL模板,所述目标EXCEL模板中存在N个与所述第一KEY匹配的第二KEY、N个与所述第二KEY对应的第二VALUE;
根据所述目标EXCEL模板中的目标第二KEY、与所述目标第二KEY相邻的第二KEY,确定所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置;所述目标第一KEY与所述目标第二KEY的内容相同,所述与所述目标第二KEY相邻的第二KEY包括所述目标第二KEY右侧相邻的第二KEY1、所述目标第二KEY下侧相邻的第二KEY2,所述与所述目标第一KEY相邻的第一KEY包括所述目标第一KEY右侧相邻的第一KEY1、所述目标第一KEY下侧相邻的第一KEY2,所述第一KEY1与所述第二KEY1的内容相同,所述第一KEY2与所述第二KEY2的内容相同;
根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域;
根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域,包括:
根据所述目标第一KEY的位置,确定所述目标第一VALUE区域的左上顶点的位置;
根据所述第一KEY1的位置,确定所述目标第一VALUE区域的右上顶点的位置;
根据所述第一KEY2的位置,确定所述目标第一VALUE区域的左下顶点的位置;
根据所述目标第一VALUE区域的左上顶点的位置、所述右上顶点的位置、以及所述左下顶点的位置,确定第一VALUE的区域。
3.根据权利要求1或2任一项所述的方法,其特征在于,所述根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:
获取所述目标第一KEY的属性,所述目标第一KEY的属性包括长文本属性、短文本属性、图像属性中的至少一项;
根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理。
4.根据权利要求3所述的方法,其特征在于,所述目标第一KEY为长文本属性,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:
从所述目标第一VALUE的区域中获取所述目标第一VALUE的长文本内容,并对所述长文本内容进行分词处理;
将所述分词处理的结果生成词向量;
根据所述词向量,以及,文本分类神经网络模型,获得分词分类结果;
根据所述分词分类结果对所述目标第一VALUE进行量化存储。
5.根据权利要求3所述的方法,其特征在于,所述目标第一KEY为短文本属性,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:
从所述目标第一VALUE的区域中获取所述目标第一VALUE的短文本内容;
根据所述短文本内容,以及,预设的匹配算法,确定所述短文本内容的分类结果;
根据所述短文本内容的分类结果对所述目标第一VALUE进行量化存储。
6.根据权利要求3所述的方法,其特征在于,所述目标第一KEY为图像属性,所述目标第一VALUE包括已选择区域与未选择区域,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:
获取所述目标第一KEY的位置,以及,所述目标第一VALUE的位置;
根据所述目标第一KEY的位置,以及,所述目标第一VALUE的位置,生成包括所述目标第一KEY和所述目标第一VALUE的第一图像;
根据所述第一图像,以及,预设图像分类模型,确定所述目标第一VALUE的已选择区域;
对所述目标第一VALUE的已选择区域进行量化存储。
7.根据权利要求1-6任一项所述的方法,其特征在于,在获取待提取EXECL之前,还包括:
获取初始EXCEL模板,所述初始EXCEL模板中存在N个所述第二KEY、N个所述第二VALUE;
将所述初始EXCEL模板转化为目标图像,并获取所述目标图像中的每个单元格的位置;
根据每个单元格的位置,获取N个所述第二KEY、N个所述第二KEY的位置、N个所述第二VALUE、以及、N个所述第二VALUE的位置;
根据所述N个所述第二KEY、N个所述第二KEY的位置、N个所述第二VALUE、以及、N个所述第二VALUE的位置,生成所述目标EXCEL模板。
8.一种EXCEL数据处理设备,其特征在于,包括:
获取模块,用于获取待提取EXECL,所述待提取EXECL中包括N个第一KEY、N个与所述第一KEY的第一VALUE;
处理模块,用于根据所述待提取EXECL中的N个所述第一KEY,获取所述待提取EXECL对应的目标EXCEL模板;根据所述目标EXCEL模板中的目标第二KEY、与所述目标第二KEY相邻的第二KEY,确定所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置;根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域;所述目标EXCEL模板中存在N个与所述第一KEY匹配的第二KEY、N个与所述第二KEY对应的第二VALUE;所述目标第一KEY与所述目标第二KEY的内容相同,所述与所述目标第二KEY相邻的第二KEY包括所述目标第二KEY右侧相邻的第二KEY1、所述目标第二KEY下侧相邻的第二KEY2,所述与所述目标第一KEY相邻的第一KEY包括所述目标第一KEY右侧相邻的第一KEY1、所述目标第一KEY下侧相邻的第一KEY2,所述第一KEY1与所述第二KEY1的内容相同,所述第一KEY2与所述第二KEY2的内容相同;
控制模块,用于根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理。
9.一种电子设备,其特征在于,包括:处理器,通信接口以及存储器,所述处理器分别与所述通信接口和所述存储器通信连接;
所述存储器存储计算机执行指令;
所述通信接口与外部设备进行通信交互;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的EXCEL数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310758114.1A CN116861865A (zh) | 2023-06-26 | 2023-06-26 | Excel数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310758114.1A CN116861865A (zh) | 2023-06-26 | 2023-06-26 | Excel数据处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116861865A true CN116861865A (zh) | 2023-10-10 |
Family
ID=88227747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310758114.1A Pending CN116861865A (zh) | 2023-06-26 | 2023-06-26 | Excel数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116861865A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344831A (zh) * | 2018-08-22 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 一种数据表识别方法、装置及终端设备 |
CN112182230A (zh) * | 2020-11-27 | 2021-01-05 | 北京健康有益科技有限公司 | 一种基于深度学习的文本数据分类方法和装置 |
CN112597927A (zh) * | 2020-12-28 | 2021-04-02 | 电子科技大学 | 二维表格识别方法、装置、设备及系统 |
CN112632960A (zh) * | 2021-01-06 | 2021-04-09 | 北京启明星辰信息安全技术有限公司 | 基于动态字段模板的日志解析方法及系统 |
CN112633278A (zh) * | 2020-12-31 | 2021-04-09 | 北京市商汤科技开发有限公司 | 表单处理方法、装置和系统、介质及计算机设备 |
CN112699234A (zh) * | 2020-12-08 | 2021-04-23 | 上海深杳智能科技有限公司 | 一种通用文档识别方法、系统、终端及存储介质 |
CN113485618A (zh) * | 2021-07-05 | 2021-10-08 | 上海商汤临港智能科技有限公司 | 自定义识别模板的生成方法、证件的识别方法以及装置 |
CN113723347A (zh) * | 2021-09-09 | 2021-11-30 | 京东科技控股股份有限公司 | 信息提取的方法、装置、电子设备及存储介质 |
CN113963364A (zh) * | 2021-08-19 | 2022-01-21 | 上海哥特网络技术有限公司 | 目标化验单生成方法、装置、电子设备及存储介质 |
CN114416981A (zh) * | 2021-12-31 | 2022-04-29 | 北京金山数字娱乐科技有限公司 | 一种长文本的分类方法、装置、设备及存储介质 |
CN115082941A (zh) * | 2022-08-23 | 2022-09-20 | 平安银行股份有限公司 | 表格文档影像的表格信息获取方法及装置 |
CN115205648A (zh) * | 2022-07-21 | 2022-10-18 | 中国平安人寿保险股份有限公司 | 图像分类方法、图像分类装置、电子设备及存储介质 |
CN116246294A (zh) * | 2022-12-05 | 2023-06-09 | 连连(杭州)信息技术有限公司 | 图像信息识别方法、装置、存储介质和电子设备 |
-
2023
- 2023-06-26 CN CN202310758114.1A patent/CN116861865A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344831A (zh) * | 2018-08-22 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 一种数据表识别方法、装置及终端设备 |
CN112182230A (zh) * | 2020-11-27 | 2021-01-05 | 北京健康有益科技有限公司 | 一种基于深度学习的文本数据分类方法和装置 |
CN112699234A (zh) * | 2020-12-08 | 2021-04-23 | 上海深杳智能科技有限公司 | 一种通用文档识别方法、系统、终端及存储介质 |
CN112597927A (zh) * | 2020-12-28 | 2021-04-02 | 电子科技大学 | 二维表格识别方法、装置、设备及系统 |
CN112633278A (zh) * | 2020-12-31 | 2021-04-09 | 北京市商汤科技开发有限公司 | 表单处理方法、装置和系统、介质及计算机设备 |
CN112632960A (zh) * | 2021-01-06 | 2021-04-09 | 北京启明星辰信息安全技术有限公司 | 基于动态字段模板的日志解析方法及系统 |
CN113485618A (zh) * | 2021-07-05 | 2021-10-08 | 上海商汤临港智能科技有限公司 | 自定义识别模板的生成方法、证件的识别方法以及装置 |
CN113963364A (zh) * | 2021-08-19 | 2022-01-21 | 上海哥特网络技术有限公司 | 目标化验单生成方法、装置、电子设备及存储介质 |
CN113723347A (zh) * | 2021-09-09 | 2021-11-30 | 京东科技控股股份有限公司 | 信息提取的方法、装置、电子设备及存储介质 |
CN114416981A (zh) * | 2021-12-31 | 2022-04-29 | 北京金山数字娱乐科技有限公司 | 一种长文本的分类方法、装置、设备及存储介质 |
CN115205648A (zh) * | 2022-07-21 | 2022-10-18 | 中国平安人寿保险股份有限公司 | 图像分类方法、图像分类装置、电子设备及存储介质 |
CN115082941A (zh) * | 2022-08-23 | 2022-09-20 | 平安银行股份有限公司 | 表格文档影像的表格信息获取方法及装置 |
CN116246294A (zh) * | 2022-12-05 | 2023-06-09 | 连连(杭州)信息技术有限公司 | 图像信息识别方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871532B (zh) | 文本主题提取方法、装置及存储介质 | |
US11416672B2 (en) | Object recognition and tagging based on fusion deep learning models | |
CN111428457B (zh) | 数据表的自动格式化 | |
WO2022042123A1 (zh) | 图像识别模型生成方法、装置、计算机设备和存储介质 | |
US11816138B2 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
CN109886330B (zh) | 文本检测方法、装置、计算机可读存储介质和计算机设备 | |
CN112418278A (zh) | 一种多类物体检测方法、终端设备及存储介质 | |
CN110443357B (zh) | 卷积神经网络计算优化方法、装置、计算机设备及介质 | |
CN110705489B (zh) | 目标识别网络的训练方法、装置、计算机设备和存储介质 | |
CN108154191B (zh) | 文档图像的识别方法和系统 | |
CN111814905A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN112396047B (zh) | 训练样本生成方法、装置、计算机设备和存储介质 | |
CN113902010A (zh) | 分类模型的训练方法和图像分类方法、装置、设备和介质 | |
CN114898357B (zh) | 缺陷识别方法、装置、电子设备及计算机可读存储介质 | |
US20230138491A1 (en) | Continuous learning for document processing and analysis | |
CN110717405A (zh) | 人脸特征点定位方法、装置、介质及电子设备 | |
CN113240090B (zh) | 图像处理模型生成方法、图像处理方法、装置及电子设备 | |
CN113869371A (zh) | 模型训练方法、服装细粒度分割方法及相关装置 | |
CN117351328A (zh) | 一种标注图像生成方法、系统、设备和介质 | |
CN111027551B (zh) | 图像处理方法、设备和介质 | |
CN110264311B (zh) | 一种基于深度学习的商业推广信息精准推荐方法及系统 | |
CN112200216A (zh) | 汉字识别方法、装置、计算机设备和存储介质 | |
CN113849679A (zh) | 图像检索方法、装置、电子设备及存储介质 | |
CN117037201A (zh) | 基于图神经网络的表格结构识别方法、系统、设备及存储介质 | |
CN111552812A (zh) | 确定实体之间关系类别的方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |