CN114897478A - 一种数据处理方法、装置、设备和存储介质 - Google Patents
一种数据处理方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN114897478A CN114897478A CN202210630979.5A CN202210630979A CN114897478A CN 114897478 A CN114897478 A CN 114897478A CN 202210630979 A CN202210630979 A CN 202210630979A CN 114897478 A CN114897478 A CN 114897478A
- Authority
- CN
- China
- Prior art keywords
- worksheet
- original
- freight rate
- target
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 12
- 238000013136 deep learning model Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000013075 data extraction Methods 0.000 claims description 2
- 238000007726 management method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
- G06Q10/0834—Choice of carriers
- G06Q10/08345—Pricing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
Abstract
本申请公开一种数据处理方法、装置、设备和存储介质,通过获取原始运价表,其中原始运价表中包含多个原始工作表,获取每个原始工作表的数据类型,根据每个原始工作表的数据类型,得到每个原始工作表所对应的目标工作表,将每个原始工作表所对应的目标工作表进行合并,得到目标运价表,再根据目标运价表得到最终运价表,从而完成数据处理过程。该申请对原始运价表中的原始工作表进行处理,得到原始工作表对应的目标工作表,在将每个目标工作表进行合并,得到的最终运价表即为统一格式后的运价表,从而方便货运代理公司对原始运价表进行数据处理,得到格式统一的原始运价表,从而方便将运价数据提供给货主,方便货主进行查看。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据处理方法、装置、设备和存储介质。
背景技术
在货运行业领域中,货物的运价往往来源于不同的船公司或者货代公司,若某家货运代理公司想要给客户提供更广泛的运价服务,则需要收集其他同行公司的运价,因此会收集到各种运价表。
而不同的船公司或者货运代理公司的原始运价表的格式有所不同,同时,原始运价表中可能包含多个原始工作表,而同一原始运价表中的多个原始工作表的格式可能也不尽相同。因此,若货运代理公司收集到各种运价表后,需要对收集到的原始运价表进行统一整合,即对原始运价表进行数据处理,得到格式统一的原始运价表,从而方便将运价数据提供给货主,方便货主进行查看。
发明内容
有鉴于此,本申请提供了一种数据处理方法、装置、设备和存储介质,用于解决货运代理公司需要对收集到的原始运价表进行统一整合,即对原始运价表进行数据处理,得到格式统一的原始运价表的问题。
为实现以上目的,现提出的方案如下:
第一方面,一种数据处理方法,包括:
获取原始运价表,所述原始运价表中包含多个原始工作表;
获取每个所述原始工作表的数据类型;
根据每个所述原始工作表的数据类型,得到每个所述原始工作表对应的目标工作表;
将每个所述原始工作表所对应的目标工作表进行合并,得到目标运价表;
根据所述目标运价表,得到最终运价表,以完成数据处理过程。
优选地,所述获取每个所述原始工作表的数据类型,包括:
利用预设的运价分类识别模型,处理每个所述原始工作表,以得到每个所述原始工作表的数据类型;所述运价分类识别模型为,以原始工作表样本作为训练样本,以所述原始工作表样本的真实数据类型作为样本标签训练得到。
优选地,所述利用预设的运价分类识别模型,处理每个所述原始工作表,以得到每个所述原始工作表的数据类型,包括:
针对每一个原始工作表,利用所述运价分类识别模型的关键词提取模块,对该原始工作表进行关键词信息提取,确定该原始工作表的关键词信息;
利用所述运价分类识别模型的关键词分类模块,对该原始工作表的关键词信息进行分类处理,确定该原始工作表的数据类型。
优选地,根据每个所述原始工作表的数据类型,得到每个所述原始工作表对应的目标工作表,包括:
针对每一个原始工作表,判断该原始工作表的数据类型是否属于舱位运价或附加费运价;
若该原始工作表的数据类型属于舱位运价或附加费运价,通过模板指纹匹配算法判断该原始工作表与预先设置的匹配模板是否匹配;
若该原始工作表与所述匹配模板匹配,则对该原始工作表进行第一数据结构化转换,得到该原始工作表对应的第一工作表;同时对该原始工作表进行第二数据结构化转换,得到该原始工作表对应的第二工作表;
将所述第一工作表和所述第二工作表进行比对;
若所述第一工作表和所述第二工作表相同,则将该原始工作表作为该原始工作表对应的目标工作表;
若所述第一工作表和所述第二工作表不同,则对所述第二工作表中的每一个单元格进行置信度计算,得到所述第二工作表中的每一个单元格的置信度值;
根据所述第一工作表和所述第二工作表中的每一个单元格的置信度值,得到该原始工作表对应的目标工作表;
若该原始工作表与所述匹配模板不匹配,则对该原始工作表进行第三数据结构化转换,得到第三工作表,将所述第三工作表作为该原始工作表对应的目标工作表。
若该原始工作表的数据类型不属于舱位运价或附加费运价,则对该原始工作表进行数据提取,得到该原始工作表对应的目标工作表。
优选地,所述对该原始工作表进行第一数据结构化转换,得到该原始工作表对应的第一工作表;同时对该原始工作表进行第二数据结构化转换,得到该原始工作表对应的第二工作表,包括:
利用预设的模板抽取模型,对该原始工作表进行第一数据结构化转换处理,以得到该原始工作表对应的第一工作表;所述模板抽取模型为,以原始工作表样本作为训练样本,以所述原始工作表样本对应的真实第一工作表样本作为样本标签训练得到;
同时利用预设的基于运价数据的深度学习模型,对该原始工作表进行第二数据结构化转换处理,以得到该原始工作表对应的第二工作表;所述基于运价数据的深度学习模型为,以原始工作表样本作为训练样本,以所述原始工作表样本对应的真实第二工作表样本作为样本标签训练得到。
优选地,所述根据所述第一工作表和所述第二工作表中的每一个单元格的置信度值,得到该原始工作表对应的目标工作表,包括:
针对所述第二工作表中的每一个单元格,若该单元格的置信度值大于或等于预设的第一阈值,则将该单元格作为目标单元格;
若该单元格的置信度值小于所述第一阈值,则将所述第一工作表中对应的同一单元格作为目标单元格;
将每个所述目标单元格进行合并,得到该原始工作表所对应的目标工作表。
优选地,所述根据所述目标运价表,得到最终运价表,以完成数据处理过程,包括:
对所述目标运价表进行置信度计算,若所述目标运价表的置信度值大于或等于预设的第二阈值,则将所述目标运价表作为最终运价表,以完成数据处理过程;
若所述目标运价表的置信度值小于所述第二阈值,则对所述目标运价表进行矫正,得到最终运价表,以完成数据处理过程。
第二方面,一种数据处理装置,包括:
原始运价表获取模块,用于获取原始运价表,所述原始运价表中包含多个原始工作表;
数据类型获取模块,用于获取每个所述原始工作表的数据类型;
目标工作表得到模块,用于根据每个所述原始工作表的数据类型,得到每个所述原始工作表对应的目标工作表;
目标运价表获取模块,用于将每个所述原始工作表对应的目标工作表进行合并,得到目标运价表;
最终运价表获取模块,用于根据所述目标运价表,得到最终运价表,以完成数据处理过程。
第三方面,一种数据处理设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如第一方面所述的数据处理方法的各个步骤。
第四方面,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面所述的数据处理方法的各个步骤。
从上述技术方案可以看出,本申请通过获取原始运价表,其中原始运价表中包含多个原始工作表,获取每个原始工作表的数据类型,根据每个原始工作表的数据类型,得到每个原始工作表所对应的目标工作表,将每个原始工作表所对应的目标工作表进行合并,得到目标运价表,再根据目标运价表得到最终运价表,从而完成数据处理过程。该申请对原始运价表中的原始工作表进行处理,得到原始工作表对应的目标工作表,在将每个目标工作表进行合并,得到的最终运价表即为统一格式后的运价表,从而方便货运代理公司对原始运价表进行数据处理,得到格式统一的原始运价表,从而方便将运价数据提供给货主,方便货主进行查看。
附图说明
图1为本申请实施例提供的一种数据处理方法的可选流程图;
图2为本申请实施例提供的一种获取目标工作表的可选流程图;
图3为本申请实施例提供的一种数据处理装置示意图;
图4为本申请实施例提供的一种数据处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
货运代理公司从事货运代理业务,指货运代理公司接受进出货物收货人、发货人或其代理人的委托,签发运输单证,履行运输合同并收取运费和服务费的行为。而普通货代公司只有有限的几条优势航线可以直接和船公司有约,其它航线的货物出运其实都是揽货后再转给同行货代公司进行履约。因此,货运代理公司需要通过收集其它同行的运价来补齐自己没有的运价服务范围,以此来满足客户运往世界各地各种各样的货物出运需求。但是每家货运代理公司的原始原价表都有自己的布局和格式,同时,原始运价表中可能包含多个原始工作表,而同一原始运价表中的多个原始工作表的格式可能也不尽相同。因此,货运代理公司需要对收集到的原始运价表进行统一整合,即对原始运价表进行数据处理,得到格式统一的原始运价表,从而方便将运价数据提供给货主,方便货主进行查看。
不过,在现有技术中,货运代理公司获取原始运价表的方式如下:
货运代理公司从各个渠道获取原始运价表;
登录ERP系统中的运价管理模块下载舱位运价、附加费运价两个excel模板;其中,ERP系统又称企业资源计划,是一种主要面向制造行业进行物质资源、资金资源和信息资源集成一体化管理的企业信息管理系统。该系统还是一个以管理会计为核心,可以提供跨地区、跨部门、甚至跨公司整合实时信息的企业管理软件。针对物资资源管理(物流)、人力资源管理(人流)、财务资源管理(财流)、信息资源管理(信息流)集成一体化的企业管理软件);
按照舱位运价的excel模板要求对获取到的原始运价表中的舱位运价表进行手动转换,同时按照附加费运价的excel模板要求对获取到的附加费运价进行手动转换;
再登陆ERP系统中的运价管理模块,导入手动转换后的舱位运价excel表和附加费运价excel表;
ERP系统的后端服务器对舱位运价excel表或者附加费运价excel表进行格式校验,若校验通过则再数据库对应数据表中插入记录并提示成功导入x条舱位运价数据或者附加费运价数据;
若校验不通过则提示校验未通过的字段名列表,根据提示的字段名列表,对校验不通过的舱位运价excel表或者附加费运价excel表进行手动修正后重试导入,直至导入成功。
但是上述现有技术中,货运代理公司收集的原始运价表中,往往舱位运价表和附加费运价表是在同一个原始运价表中,因此需要将这个原始运价表进行拆分,再分别对拆分出来的舱位运价表和附加费运价表进行数据处理,统一格式,如此这样费时费力,不利于货运代理公司快速整合运价表并及时向货主提供运输服务。
基于上述缺陷,本申请实施例提供了一种数据处理方案,接下来通过图1对本申请的数据处理方法进行说明,如图1所示,该方法包括:
S1:获取原始运价表,原始运价表中包含多个原始工作表。
货运代理公司获取的原始运价表中,可能包含一个或者多个原始工作表,比如sheet1、sheet2、sheet3等等,而不同的原始工作表分别属于不同的数据类型。
S2:获取每个原始工作表的数据类型。
在获取到原始运价表后,可以获取其中每个原始工作表的数据类型,并根据具体的数据类型来进行处理。
S3:根据每个原始工作表的数据类型,得到每个原始工作表对应的目标工作表。
针对不同数据类型的原始工作表,对它们分别进行不同的处理,以得到各自对应的目标工作表。
S4:将每个原始工作表所对应的目标工作表进行合并,得到目标运价表。
因为得到的这各个目标工作表所对应的原始工作表原本都属于一个原始运价表,因此将这各个目标工作表进行合并,可以得到一个新的原始运价表,将这个新的原始运价表作为目标运价表。
S5:根据目标运价表,得到最终运价表,以完成数据处理过程。
从上述技术方案可以看出,本申请通过获取原始运价表,其中原始运价表中包含多个原始工作表,获取每个原始工作表的数据类型,根据每个原始工作表的数据类型,得到每个原始工作表所对应的目标工作表,将每个原始工作表所对应的目标工作表进行合并,得到目标运价表,再根据目标运价表得到最终运价表,从而完成数据处理过程。该申请对原始运价表中的原始工作表进行处理,得到原始工作表对应的目标工作表,在将每个目标工作表进行合并,得到的最终运价表即为统一格式后的运价表,该方案可以方便货运代理公司对原始运价表进行数据处理,得到格式统一的原始运价表,从而方便将运价数据提供给货主,方便货主进行查看。
可选的,在获取到原始运价表后,可以对原始运价表进行数据解析,具体步骤包括:
利用文件解析服务技术对原始运价表进行数据解析,得到以sheet为一级目录的树状结构数据集;
再利用文件解析服务技术对树状结构数据集进行数据解析,得到每一个sheet的mapping数据,mapping数据包括行文本数据和列文本数据,其中,还可以得到每一个sheet的表头和正文。
具体地,在步骤S2中,获取每个原始工作表的数据类型的过程,可以包括:
利用预设的运价分类识别模型,处理每个原始工作表,以得到每个原始工作表的数据类型;运价分类识别模型为,以原始工作表样本作为训练样本,以原始工作表样本的真实数据类型作为样本标签训练得到。
具体地,在步骤S3中,利用预设的运价分类识别模型,处理每个原始工作表,以得到每个原始工作表的数据类型的过程,包括:
需要说明的是,在运价分类识别模型中,可以包括关键词提取模块和关键词分类模块。
则可以针对其中每一个原始工作表,利用运价分类识别模型的关键词提取模块,对该原始工作表进行关键词信息提取,确定该原始工作表的关键词信息。
然后利用运价分类识别模型的关键词分类模块,对该原始工作表的关键词信息进行分类处理,从而确定该原始工作表的数据类型。
优选地,在步骤S4,根据每个原始工作表的数据类型,得到每个原始工作表对应的目标工作表的过程,如图2所示,可以包括:
S41:针对每一个原始工作表,判断该原始工作表的数据类型是否属于舱位运价或附加费运价,若是,则执行步骤S42;若否,则执行步骤S48。
因为舱位运价数据类型和附加费运价数据类型是原始工作表最常见的两种数据类型,因此首先判断该原始工作表是否属于这两类,可以加快数据处理速度。
S42:通过模板指纹匹配算法判断该原始工作表与预先设置的匹配模板是否匹配,若是,则执行步骤S43;若否,则执行步骤S47。
具体地,舱位运价或附加费运价因为属于常规类型,因此可以预先设置这两种类型的匹配模板,利用模板指纹匹配算法判断该原始工作表与预先设置的匹配模板是否匹配。
S43:对该原始工作表进行第一数据结构化转换,得到该原始工作表对应的第一工作表。同时对该原始工作表进行第二数据结构化转换,得到该原始工作表对应的第二工作表。
具体地,可以利用预设的模板抽取模型,对该原始工作表进行第一数据结构化转换处理,以得到该原始工作表对应的第一工作表;模板抽取模型为,以原始工作表样本作为训练样本,以原始工作表样本对应的真实第一工作表样本作为样本标签训练得到。模板抽取模型的训练过程可以包括:首先获取原始工作表样本,将原始工作表样本进行分类,确定原始工作表样本需要匹配的模板类型,将其中一个原始工作表样本进行模板参数配置,配置完成后,将该模板存放至模板抽取模型中,再将原始工作表样本中,属于该模板的样本进行模板匹配(即测评),判断匹配结果是否正确,若正确,则该模板参数配置完成,得到属于该模板类型的原始工作表样本经过模板配置后的第一工作表;若不正确,则返回该模板参数配置的步骤,优化该模板的配置参数,直到测评结果达到预设要求。同时,对所有原始工作表样本所属的模板都进行上述模板参数配置,以完成训练过程。
同时可以利用预设的基于运价数据的深度学习模型,对该原始工作表进行第二数据结构化转换处理,以得到该原始工作表对应的第二工作表;基于运价数据的深度学习模型为,以原始工作表样本作为训练样本,以原始工作表样本对应的真实第二工作表样本作为样本标签训练得到。
在本步骤中,可以对上述获得的mapping数据进行第一数据结构化转换和第二数据结构化转换,得到第一工作表和第二工作表。
S44:将第一工作表和第二工作表进行比对,判断第一工作表和第二工作表是否相同,若是,则执行步骤S45;若否,则执行步骤S46。
S45:将该原始工作表作为该原始工作表对应的目标工作表。
S46:对第二工作表中的每一个单元格进行置信度计算,得到第二工作表中的每一个单元格的置信度值;根据第一工作表和第二工作表中的每一个单元格的置信度值,得到该原始工作表对应的目标工作表。
具体地,根据第一工作表和第二工作表中的每一个单元格的置信度值,得到该原始工作表对应的目标工作表的过程,可以包括:
针对第二工作表中的每一个单元格,若该单元格的置信度值大于或等于预设的第一阈值,则将该单元格作为目标单元格;若该单元格的置信度值小于第一阈值,则将第一工作表中对应的同一单元格作为目标单元格;将每个目标单元格进行合并,得到该原始工作表所对应的目标工作表。
S47:对该原始工作表进行第三数据结构化转换,得到第三工作表,将第三工作表作为该原始工作表对应的目标工作表。
在该步骤中,第三数据结构化转换和第二数据结构化转换是一样的。
S48:对该原始工作表进行数据提取,得到该原始工作表对应的目标工作表。
在本申请的一个实施例中,在步骤S5,根据目标运价表,得到最终运价表的过程,可以包括:
对目标运价表进行置信度计算,若目标运价表的置信度值大于或等于预设的第二阈值,则将目标运价表作为最终运价表,以完成数据处理过程;
若目标运价表的置信度值小于第二阈值,则对目标运价表进行矫正,得到最终运价表,以完成数据处理过程。
具体地,若目标运价表的置信度值小于第二阈值,则可以将目标运价表中的有问题的单元格进行高亮显示,然后通过应用程序编程接口(API)对该单元格进行人工的修改校准,从而得到修改后的目标运价表,修改后的目标运价表即为最后得到的最终运价表。进一步的,可以将修改后的目标运价表作为原始工作表样本训练基于运价数据的深度学习模型,以得到更优的基于运价数据的深度学习模型。
下面对本申请实施例提供的数据处理装置进行描述,下文描述的数据处理装置与上文描述的数据处理方法可相互对应参照。
结合图3,对数据处理装置进行介绍,如图3所示,该装置可以包括:
原始运价表获取模块10,用于获取原始运价表,所述原始运价表中包含多个原始工作表;
数据类型获取模块20,用于获取每个所述原始工作表的数据类型;
目标工作表得到模块30,用于根据每个所述原始工作表的数据类型,得到每个所述原始工作表对应的目标工作表;
目标运价表获取模块40,用于将每个所述原始工作表对应的目标工作表进行合并,得到目标运价表;
最终运价表获取模块50,用于根据所述目标运价表,得到最终运价表,以完成数据处理过程。
更进一步地,本申请实施例提供了一种数据处理设备。可选的,图4示出了数据处理设备的硬件结构框图,参照图4,数据处理设备的硬件结构可以包括:至少一个处理器01,至少一个通信接口02,至少一个存储器03和至少一个通信总线04。
在本申请实施例中,处理器01、通信接口02、存储器03、通信总线04的数量为至少一个,且处理器01、通信接口02、存储器03通过通信总线04完成相互间的通信。
处理器01可以是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等。
存储器03可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器。
其中,存储器存储有程序,处理器可调用存储器存储的程序,程序用于执行方法实施例中描述的数据处理方法。
可选的,程序的细化功能和扩展功能可参照方法实施例中的数据处理方法的描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,程序用于执行方法实施例中描述的数据处理方法。
具体地,该存储介质可以是一种计算机可读存储介质,计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。
可选的,程序的细化功能和扩展功能可参照方法实施例中的数据处理方法的描述。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,直播设备,或者网络设备等)执行本公开各个实施例方法的全部或部分步骤。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取原始运价表,所述原始运价表中包含多个原始工作表;
获取每个所述原始工作表的数据类型;
根据每个所述原始工作表的数据类型,得到每个所述原始工作表对应的目标工作表;
将每个所述原始工作表所对应的目标工作表进行合并,得到目标运价表;
根据所述目标运价表,得到最终运价表,以完成数据处理过程。
2.根据权利要求1所述的方法,其特征在于,所述获取每个所述原始工作表的数据类型,包括:
利用预设的运价分类识别模型,处理每个所述原始工作表,以得到每个所述原始工作表的数据类型;所述运价分类识别模型为,以原始工作表样本作为训练样本,以所述原始工作表样本的真实数据类型作为样本标签训练得到。
3.根据权利要求2所述的方法,其特征在于,所述利用预设的运价分类识别模型,处理每个所述原始工作表,以得到每个所述原始工作表的数据类型,包括:
针对每一个原始工作表,利用所述运价分类识别模型的关键词提取模块,对该原始工作表进行关键词信息提取,确定该原始工作表的关键词信息;
利用所述运价分类识别模型的关键词分类模块,对该原始工作表的关键词信息进行分类处理,确定该原始工作表的数据类型。
4.根据权利要求1所述的方法,其特征在于,根据每个所述原始工作表的数据类型,得到每个所述原始工作表对应的目标工作表,包括:
针对每一个原始工作表,判断该原始工作表的数据类型是否属于舱位运价或附加费运价;
若该原始工作表的数据类型属于舱位运价或附加费运价,通过模板指纹匹配算法判断该原始工作表与预先设置的匹配模板是否匹配;
若该原始工作表与所述匹配模板匹配,则对该原始工作表进行第一数据结构化转换,得到该原始工作表对应的第一工作表;同时对该原始工作表进行第二数据结构化转换,得到该原始工作表对应的第二工作表;
将所述第一工作表和所述第二工作表进行比对;
若所述第一工作表和所述第二工作表相同,则将该原始工作表作为该原始工作表对应的目标工作表;
若所述第一工作表和所述第二工作表不同,则对所述第二工作表中的每一个单元格进行置信度计算,得到所述第二工作表中的每一个单元格的置信度值;
根据所述第一工作表和所述第二工作表中的每一个单元格的置信度值,得到该原始工作表对应的目标工作表;
若该原始工作表与所述匹配模板不匹配,则对该原始工作表进行第三数据结构化转换,得到第三工作表,将所述第三工作表作为该原始工作表对应的目标工作表;
若该原始工作表的数据类型不属于舱位运价或附加费运价,则对该原始工作表进行数据提取,得到该原始工作表对应的目标工作表。
5.根据权利要求4所述的方法,其特征在于,所述对该原始工作表进行第一数据结构化转换,得到该原始工作表对应的第一工作表;同时对该原始工作表进行第二数据结构化转换,得到该原始工作表对应的第二工作表,包括:
利用预设的模板抽取模型,对该原始工作表进行第一数据结构化转换处理,以得到该原始工作表对应的第一工作表;所述模板抽取模型为,以原始工作表样本作为训练样本,以所述原始工作表样本对应的真实第一工作表样本作为样本标签训练得到;
同时利用预设的基于运价数据的深度学习模型,对该原始工作表进行第二数据结构化转换处理,以得到该原始工作表对应的第二工作表;所述基于运价数据的深度学习模型为,以原始工作表样本作为训练样本,以所述原始工作表样本对应的真实第二工作表样本作为样本标签训练得到。
6.根据权利要求4所述的方法,其特征在于,所述根据所述第一工作表和所述第二工作表中的每一个单元格的置信度值,得到该原始工作表对应的目标工作表,包括:
针对所述第二工作表中的每一个单元格,若该单元格的置信度值大于或等于预设的第一阈值,则将该单元格作为目标单元格;
若该单元格的置信度值小于所述第一阈值,则将所述第一工作表中对应的同一单元格作为目标单元格;
将每个所述目标单元格进行合并,得到该原始工作表所对应的目标工作表。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标运价表,得到最终运价表,以完成数据处理过程,包括:
对所述目标运价表进行置信度计算,若所述目标运价表的置信度值大于或等于预设的第二阈值,则将所述目标运价表作为最终运价表,以完成数据处理过程;
若所述目标运价表的置信度值小于所述第二阈值,则对所述目标运价表进行矫正,得到最终运价表,以完成数据处理过程。
8.一种数据处理装置,其特征在于,包括:
原始运价表获取模块,用于获取原始运价表,所述原始运价表中包含多个原始工作表;
数据类型获取模块,用于获取每个所述原始工作表的数据类型;
目标工作表得到模块,用于根据每个所述原始工作表的数据类型,得到每个所述原始工作表对应的目标工作表;
目标运价表获取模块,用于将每个所述原始工作表对应的目标工作表进行合并,得到目标运价表;
最终运价表获取模块,用于根据所述目标运价表,得到最终运价表,以完成数据处理过程。
9.一种数据处理设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1-7任一项的数据处理方法的各个步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-7任一项的数据处理方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210630979.5A CN114897478B (zh) | 2022-06-06 | 2022-06-06 | 一种数据处理方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210630979.5A CN114897478B (zh) | 2022-06-06 | 2022-06-06 | 一种数据处理方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114897478A true CN114897478A (zh) | 2022-08-12 |
CN114897478B CN114897478B (zh) | 2023-12-22 |
Family
ID=82727834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210630979.5A Active CN114897478B (zh) | 2022-06-06 | 2022-06-06 | 一种数据处理方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114897478B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030149934A1 (en) * | 2000-05-11 | 2003-08-07 | Worden Robert Peel | Computer program connecting the structure of a xml document to its underlying meaning |
US7403901B1 (en) * | 2000-04-13 | 2008-07-22 | Accenture Llp | Error and load summary reporting in a health care solution environment |
CN105122727A (zh) * | 2013-01-11 | 2015-12-02 | Db网络公司 | 用于检测并减轻对结构化数据存储系统的威胁的系统和方法 |
CN106257413A (zh) * | 2015-06-17 | 2016-12-28 | 派斡信息技术(上海)有限公司 | 将多个信息源的信息及工具统一化的方法以及产品与装置 |
CN106796591A (zh) * | 2014-07-03 | 2017-05-31 | 阿贝尔环球国际有限公司 | 将来自多个信息源的信息及工具予以统一化的方法以及应用该方法的计算机程序产品与装置 |
CN108875019A (zh) * | 2018-06-20 | 2018-11-23 | 淮阴工学院 | 一种资源结构化链接的信息快速分类方法 |
CN108984683A (zh) * | 2018-06-29 | 2018-12-11 | 北京百度网讯科技有限公司 | 结构化数据的提取方法、系统、设备及存储介质 |
CN110059105A (zh) * | 2019-04-26 | 2019-07-26 | 北京贝斯平云科技有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN111291051A (zh) * | 2020-01-22 | 2020-06-16 | 中国民航信息网络股份有限公司 | 运价数据处理方法及装置、存储介质及电子设备 |
CN112417230A (zh) * | 2020-11-30 | 2021-02-26 | 中国民航信息网络股份有限公司 | 一种运价数据处理方法、装置及电子设备 |
CN112703502A (zh) * | 2018-09-18 | 2021-04-23 | 易享信息技术有限公司 | 使用非结构化输入更新异构数据存储 |
CN113033269A (zh) * | 2019-12-25 | 2021-06-25 | 华为技术服务有限公司 | 一种数据处理方法及装置 |
CN113393088A (zh) * | 2021-05-19 | 2021-09-14 | 悠桦林信息科技(上海)有限公司 | 航空运输控舱方法、装置、设备、介质及收益管理系统 |
CN113673210A (zh) * | 2020-05-13 | 2021-11-19 | 复旦大学 | 文档生成系统 |
CN114120307A (zh) * | 2021-12-02 | 2022-03-01 | 壹沓科技(上海)有限公司 | 显示内容的识别方法、装置、设备和存储介质 |
CN114239013A (zh) * | 2021-12-13 | 2022-03-25 | 壹沓科技(上海)有限公司 | 一种访问请求的验证方法和相关装置 |
CN114372826A (zh) * | 2022-01-10 | 2022-04-19 | 中国民航信息网络股份有限公司 | 一种运价数据的处理方法、系统、设备及存储介质 |
CN114564914A (zh) * | 2022-03-01 | 2022-05-31 | 珠海金山办公软件有限公司 | 表格数据的展示方法、装置、电子设备及介质 |
-
2022
- 2022-06-06 CN CN202210630979.5A patent/CN114897478B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7403901B1 (en) * | 2000-04-13 | 2008-07-22 | Accenture Llp | Error and load summary reporting in a health care solution environment |
US20030149934A1 (en) * | 2000-05-11 | 2003-08-07 | Worden Robert Peel | Computer program connecting the structure of a xml document to its underlying meaning |
CN105122727A (zh) * | 2013-01-11 | 2015-12-02 | Db网络公司 | 用于检测并减轻对结构化数据存储系统的威胁的系统和方法 |
CN106796591A (zh) * | 2014-07-03 | 2017-05-31 | 阿贝尔环球国际有限公司 | 将来自多个信息源的信息及工具予以统一化的方法以及应用该方法的计算机程序产品与装置 |
CN106257413A (zh) * | 2015-06-17 | 2016-12-28 | 派斡信息技术(上海)有限公司 | 将多个信息源的信息及工具统一化的方法以及产品与装置 |
CN108875019A (zh) * | 2018-06-20 | 2018-11-23 | 淮阴工学院 | 一种资源结构化链接的信息快速分类方法 |
CN108984683A (zh) * | 2018-06-29 | 2018-12-11 | 北京百度网讯科技有限公司 | 结构化数据的提取方法、系统、设备及存储介质 |
CN112703502A (zh) * | 2018-09-18 | 2021-04-23 | 易享信息技术有限公司 | 使用非结构化输入更新异构数据存储 |
CN110059105A (zh) * | 2019-04-26 | 2019-07-26 | 北京贝斯平云科技有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN113033269A (zh) * | 2019-12-25 | 2021-06-25 | 华为技术服务有限公司 | 一种数据处理方法及装置 |
CN111291051A (zh) * | 2020-01-22 | 2020-06-16 | 中国民航信息网络股份有限公司 | 运价数据处理方法及装置、存储介质及电子设备 |
CN113673210A (zh) * | 2020-05-13 | 2021-11-19 | 复旦大学 | 文档生成系统 |
CN112417230A (zh) * | 2020-11-30 | 2021-02-26 | 中国民航信息网络股份有限公司 | 一种运价数据处理方法、装置及电子设备 |
CN113393088A (zh) * | 2021-05-19 | 2021-09-14 | 悠桦林信息科技(上海)有限公司 | 航空运输控舱方法、装置、设备、介质及收益管理系统 |
CN114120307A (zh) * | 2021-12-02 | 2022-03-01 | 壹沓科技(上海)有限公司 | 显示内容的识别方法、装置、设备和存储介质 |
CN114239013A (zh) * | 2021-12-13 | 2022-03-25 | 壹沓科技(上海)有限公司 | 一种访问请求的验证方法和相关装置 |
CN114372826A (zh) * | 2022-01-10 | 2022-04-19 | 中国民航信息网络股份有限公司 | 一种运价数据的处理方法、系统、设备及存储介质 |
CN114564914A (zh) * | 2022-03-01 | 2022-05-31 | 珠海金山办公软件有限公司 | 表格数据的展示方法、装置、电子设备及介质 |
Non-Patent Citations (1)
Title |
---|
周俊亭;席彦群;周媛媛;邱涛;翁安栋;: "大数据、人工智能与财税服务创新", 中国软科学, no. 08, pages 74 - 82 * |
Also Published As
Publication number | Publication date |
---|---|
CN114897478B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887153B (zh) | 一种财税处理方法和处理系统 | |
CN107622255B (zh) | 基于位置模板与语义模板的票据图像字段定位方法及系统 | |
CN110414927B (zh) | 一种票据处理自动生成凭证的方法及装置 | |
CN107944011B (zh) | 团体保单数据的处理方法、装置、服务器和存储介质 | |
CN110659318B (zh) | 基于大数据的策略推送方法、系统及计算机设备 | |
CN107423732A (zh) | 基于Android平台的车辆VIN识别方法 | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
CN111177129B (zh) | 标签体系的构建方法、装置、设备及存储介质 | |
CN113963147B (zh) | 一种基于语义分割的关键信息提取方法及系统 | |
CN114202755A (zh) | 基于ocr和nlp技术的交易背景真实性审核方法和系统 | |
US20140207631A1 (en) | Systems and Method for Analyzing and Validating Invoices | |
CN111581193A (zh) | 数据处理方法、设备、计算机系统及存储介质 | |
CN114462556B (zh) | 企业关联产业链分类方法、训练方法、装置、设备和介质 | |
KR20180080408A (ko) | 정형 및 비정형 데이터 추출 시스템 및 방법 | |
CN110879939A (zh) | 一种应标文件生成方法及装置 | |
CN113283984A (zh) | 一种个人贷款信息的录入方法及装置 | |
CN114897478A (zh) | 一种数据处理方法、装置、设备和存储介质 | |
CN110717732A (zh) | 一种信息认证方法及系统 | |
CN111382742A (zh) | 一种云财务平台集成ocr识别软件的方法 | |
CN109993381B (zh) | 基于知识图谱的需求管理应用方法、装置、设备及介质 | |
CN115935231A (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN115293867A (zh) | 财务报销用户画像优化方法、装置、设备及存储介质 | |
CN109919811B (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 | |
KR20200129132A (ko) | 데이터 이활용에 관한 데이터 준비 방법 및 데이터 이활용 시스템 | |
CN116503887B (zh) | 基于图像识别的货代订单处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |