CN109062872A - 一种对不同格式报关文件进行统一处理的算法 - Google Patents

一种对不同格式报关文件进行统一处理的算法 Download PDF

Info

Publication number
CN109062872A
CN109062872A CN201810771128.6A CN201810771128A CN109062872A CN 109062872 A CN109062872 A CN 109062872A CN 201810771128 A CN201810771128 A CN 201810771128A CN 109062872 A CN109062872 A CN 109062872A
Authority
CN
China
Prior art keywords
data
format
rule
different
declaration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810771128.6A
Other languages
English (en)
Other versions
CN109062872B (zh
Inventor
孙进荣
许爱花
陈胜国
余锦中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qinyun Technology Co ltd
Original Assignee
Maha Technology Wuxi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maha Technology Wuxi Co Ltd filed Critical Maha Technology Wuxi Co Ltd
Priority to CN201810771128.6A priority Critical patent/CN109062872B/zh
Publication of CN109062872A publication Critical patent/CN109062872A/zh
Application granted granted Critical
Publication of CN109062872B publication Critical patent/CN109062872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种对不同格式报关文件进行统一处理的算法,包括以下步骤:步骤1、根据用户提供的不同报关模板文件生成对应的解析程序;步骤2、使用解析程序将用户的报关数据模板解析成统一数据格式;步骤3、将统一格式的字符串导入报关数据计算模块中,统一输出海关统一数据格式;步骤4、将符合海关报关系统“单一窗口”要求的数据格式生成统一的.xml格式传递至“单一窗口客户端”。本发明所述的一种对不同格式报关文件进行统一处理的算法可以减少人工录入出错的可能性,以及降低企业报关所消耗的时间。

Description

一种对不同格式报关文件进行统一处理的算法
技术领域
本发明涉及软件工程技术领域,尤其涉及一种对不同格式报关文件进行统一处理的算法。
背景技术
目前每一家企业的货物在进出口保税区时据需要进行报关,主流的报关流程有以下几种:(1)通过企业ERP直接将需要报关的数据直接导出后,生成xml数据,在单一窗口客户端导入;(2)企业通过邮件或者QQ等通讯工具将需报关数据发送给报关行,报关行人员录入到单一窗口或者QP系统进行报关。经过大量研究分析发现,通过上述两种报关方案进行申报,虽然能够进行正常申报,但是上述方法仍有一些缺陷。如果使用方法(1)能够保障报关数据的准确性,但是能通过系统直接获取企业内部申报数据的企业需要满足两个条件,一是企业自己ERP系统,具备数据接口功能;二是企业内部有开发团队。但是根据成都市场的调研显示同时具备上述两个条件的企业十分稀少。如果使用方法(2),该方法也是目前使用最为广泛的一种方法,这种报关方法有以下所述弊端:由于需要录入较多的数字,录入人员容易录入出错;由于录入条目过多会耗费大量的时间。
对于上述情况,如果数字任何一项数据报关时出错,都可能导致退关的情况,每一次退关会对报关企业造成严重的影响,甚至可能导致报关企业被取消报关资质。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种对不同格式报关文件进行统一处理的算法,根据客户提供报关原始文件,通过该算法,达到自动填写海关“单一窗口”所规定的数据报文的效果。
技术方案:为实现上述目的,本发明的一种对不同格式报关文件进行统一处理的算法包括:
步骤1、根据用户提供的不同报关模板文件生成对应的解析程序;
步骤2、使用解析程序将用户的报关数据模板解析成统一数据格式的字符串;
步骤3、将统一格式的字符串导入报关数据计算模块中,统一输出海关统一数据格式,包含表头内容、表体内容、规格型号;
步骤4、将符合海关报关系统“单一窗口”要求的数据格式生成统一的.xml格式传递至“单一窗口客户端”。
进一步的,所述步骤1通过Excel文件分析程序或PDF文件分析程序实现;当原始文件为Excel文件时,Excel文件分析程序主要负责将录入员导入的Excel文件进行分析,通过单元格的匹配知道数据,然后将数据输出为标准数据格式;当原始文件为PDF 文档时,PDF文件分析程序主要负责将录入员导入的PDF文件进行分析,通过单元格的匹配知道数据,然后将数据输出为标准数据格式。
在上述Excel文件分析程序分为两部分:
1、Excel数据特征规则;
2、基于规则的数据转换程序。
其中Excel数据特征规则其作用为描述数据块特征及组织结构,为后面的将输入数据转换为统一的结构化数据服务;
Excel数据特征规则结构为:(1)数据块规则以自嵌套的结构体方式描述表格数据块特征,结构体包函的元素:单元格定位规则、数据块组合规则、数据块聚合规则、数据块内数据值规则、数据块内嵌子块规则;(2)数据特征规则是组合定位规则与数据值规则加上比较运算符,提供Excel工作薄特征识别与工作表识别。
其中基于规则的数据转换程序为:(1)以二进制方式读取Excel文件,并根据头部数据判断是否支持的文件;(2)将支持的Excel文件解析为二维表格结构;(3) 遍历规则库中的数据特征规则匹配当前数据,来确定当前数据对应的转换规则;(4) 执行转换规则,将二维表络数据转换成规则对应的结构化数据。
在上述PDF文件分析程序的具体实现过程为:
1、通过iTextSharp组件,读取PDF文件,读取成二进制流,得到字节数据;
2、取得每一页的字节数组,将每一个字节转换为字符,并将数组转换为字符串;
3、分析字符串的结构,按照特殊规范得到相应的数据格式;
4、得到的数据为16进制,在通过相应的解码方式转换成中文;
5、得到的数据结构在通过相应的归并规则写入数据库中。
进一步的,所述步骤2通过规格型号分析程序实现;主要负责将客户客户提供的数据源中不标准的数据,通过正则表达式进行数据分析,最终将客户导入的数据分析成为符合“单一窗口”规范的标准的统一数据格式。
进一步的,所述步骤3通过账册更新对比程序和其他报关数据对比程序实现;其中所述账册更新对比程序主要收集企业账册信息,一般情况,表体数据中会使用最新账册信息的数据;其中所述其他报关数据对比程序,用来对比例如“目的国”、“报关基础信息库”等基本信息。
进一步的,步骤2中所述的统一数据格式为JSON字符串。
有益效果:本发明的有益效果如下所述:一种对不同格式报关文件进行统一处理的算法,一方面可以有效的减少人工录入出错的可能性,防止报关企业因为录入出错导致企业资质降级处理;另外一方面该方案可以有效减少报关企业进行报关的时间。
附图说明
附图1为本发明的算法流程图;
附图2为本发明所述实施例的处理流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如附图1至2所述的一种对不同格式报关文件进行统一处理的算法,包括包括以下步骤:
步骤1、根据用户提供的不同报关模板文件,包括xls和pdf格式,生成对应的解析程序;
步骤2、使用解析程序将用户的报关数据模板解析成统一数据格式的字符串,所述的统一数据格式为JSON字符串;
步骤3、将统一格式的字符串导入报关数据计算模块中,统一输出海关统一数据格式,包含表头内容、表体内容、规格型号;
步骤4、将符合海关报关系统“单一窗口”要求的数据格式生成统一的.xml格式传递至“单一窗口客户端”。
本实施例中以“甲公司进乙公司”为例,报关的商品名称为“显示器后盖”。
报关企业收单员收到甲公司进乙公司的压缩文件,包含文件“R8630112.pdf”该文件为“补充报货单”。首先会判断收到的文件是否为PDF或者Excel文件,如果不是,则会提示系统暂时不支持该类型的文件。本实施例中“R8630112.pdf”为PDF文件,所以在程序入口判断PDF文件后进入PDF分析程序进行数据分析。
根据录入员选定的模板“甲公司进乙公司”,则分析程序选择为“甲公司进乙公司”的数据分析程序。
分析出的结果先统一存储为JSON,然后将JSON数据串中的表头数据展现到“报关单申报”的界面的表体中,如:毛重:41.88;净重:22.5;备案号:H79226000001;起运国:中国;清单类型:一般备案清单。
处理完表头数据信息后开始处理表体的数据信息,表体数据重点处理三个方面:1、 HScode对应的商品名称、成交单位;2、规格型号(申报要素);3、成交单价、成交总价、币制等数据。
商品名称、成交单位在导入时也会带出该信息,比如本实例中:商品名称:显示器后盖、成交单位:个。
接下来是规格型号(申报要素)的分析,分析过程如下:
1、找到该票数据中对应的HScode商品编码:8473309000(根据产品名称可在相关网站查询)对应的规格型号字段,即商品编码为8473309000时,所必须填写的:
1)商品名称;
2)品牌类型;
3)出口享惠情况;
4)用途(适用机型);
5)品牌;
6)型号;
7)如为内存条需申报容量;
8)GTIN;
9)CAS;
2、将需要上述的字段号与客户提交的文件中的规格信号数据通过正则表达式进行一一对比,每个字段都对应相应的专用表达式,以“商品名称”字段为例,其对应的过滤正则表达式为\d{0,2}[、,\.\::]商品名称\W*[:;:;、]。后面字段一一遍历,正则表达式会发生变化,变化的主要规律是汉字“商品名称”被“品牌类型”替代,依次循环,直至将所有字段处理完毕。
3、通过正则表达式分析出[key]=>[value]键值,key是HScode:8473309000对应的字段,value为客户导入的规格型号的值。例如本实例中“商品名称”为(key)值:“显示器后盖”为(value)值,后续字段一一对应,将该键值对录入到报关对应的表单中。
最后将由解析程序将用户的报关数据模板解析成的统一JSON数据格式,填入表体中,本实施例中填入表体的文件有:成交数量:125;成交单位:个;成交单价:10.859;成交总价:1357.38;币制:美元;法定数量:22.5;法定单位:千克;最终目的国:中国;原产国:中国;征免方式:全免。
但是,有时候会出现甲公司和乙公司针对相同的商品会有不同的名称,为了解决这一问题,本发明建立了“企业账册库”和HScode商品编码库,这两个库实时更新,以保证报关申请单中的商品名称和成交单位为最准确的数据。下面为两个基础数据库的相关解释:
企业账册库,企业账册库每天更新数据,将企业申报给“单一窗口”的账册信息通过API进行获取,获取后将录入员通过本发明实施案例的不同格式报关文件统一处理的装置导入的甲公司进乙公司的数据进行比对,核对其中的“交易单位”、“商品名称”信息是否正确,如果不一致,则以账册信息中的“交易单位”、“商品名称”为准。
HScode商品编码库,主要记录海关每年发布的HScode库,从HScode中获取最新的HScode编码对应的字段名称。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种对不同格式报关文件进行统一处理的算法,其特征在于,包括以下步骤:
步骤1、根据用户提供的不同报关模板文件生成对应的解析程序;
步骤2、使用解析程序将用户的报关数据模板解析成统一数据格式的字符串;
步骤3、将统一格式的字符串导入报关数据计算模块中,统一输出海关统一数据格式,包含表头内容、表体内容、规格型号;
步骤4、将符合海关报关系统“单一窗口”要求的数据格式生成统一的.xml格式传递至“单一窗口客户端”。
2.根据权利要求1所述的一种对不同格式报关文件进行统一处理的算法,其特征在于:所述步骤1通过Excel文件分析程序或PDF文件分析程序实现。
3.根据权利要求2所述的一种对不同格式报关文件进行统一处理的算法,其特征在于:所述Excel文件分析程序包括Excel数据特征规则和基于规则的数据转换程序;
所述Excel数据特征规则结构为:数据块规则以自嵌套的结构体方式描述表格数据块特征,结构体包函的元素:单元格定位规则、数据块组合规则、数据块聚合规则、数据块内数据值规则、数据块内嵌子块规则;数据特征规则是组合定位规则与数据值规则加上比较运算符,提供Excel工作薄特征识别与工作表识别;
所述其中基于规则的数据转换程序为:以二进制方式读取Excel文件,并根据头部数据判断是否支持的文件;将支持的Excel文件解析为二维表格结构;遍历规则库中的数据特征规则匹配当前数据,来确定当前数据对应的转换规则;执行转换规则,将二维表络数据转换成规则对应的结构化数据。
4.根据权利要求2所述的一种对不同格式报关文件进行统一处理的算法,其特征在于,所述PDF文件分析程序实现过程为:
通过iTextSharp组件,读取PDF文件,读取成二进制流,得到字节数据;
取得每一页的字节数组,将每一个字节转换为字符,并将数组转换为字符串;
分析字符串的结构,按照特殊规范得到相应的数据格式;
得到的数据为16进制,在通过相应的解码方式转换成中文;
得到的数据结构在通过相应的归并规则写入数据库中。
5.根据权利要求1所述的一种对不同格式报关文件进行统一处理的算法,其特征在于:所述步骤2通过规格型号分析程序实现。
6.根据权利要求1所述的一种对不同格式报关文件进行统一处理的算法,其特征在于:所述步骤3通过账册更新对比程序和其他报关数据对比程序实现。
7.根据权利要求1所述的一种对不同格式报关文件进行统一处理的算法,其特征在于:步骤2中所述的统一数据格式为JSON字符串。
CN201810771128.6A 2018-07-13 2018-07-13 一种对不同格式报关文件进行统一处理的方法 Active CN109062872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810771128.6A CN109062872B (zh) 2018-07-13 2018-07-13 一种对不同格式报关文件进行统一处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810771128.6A CN109062872B (zh) 2018-07-13 2018-07-13 一种对不同格式报关文件进行统一处理的方法

Publications (2)

Publication Number Publication Date
CN109062872A true CN109062872A (zh) 2018-12-21
CN109062872B CN109062872B (zh) 2023-04-18

Family

ID=64816496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810771128.6A Active CN109062872B (zh) 2018-07-13 2018-07-13 一种对不同格式报关文件进行统一处理的方法

Country Status (1)

Country Link
CN (1) CN109062872B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902998A (zh) * 2019-03-04 2019-06-18 宁波火箭数据科技有限公司 单一窗口输单系统
CN110490701A (zh) * 2019-08-09 2019-11-22 深圳市友创供应链管理有限公司 基于供应链管理平台的报关方法和报关系统
CN111240714A (zh) * 2019-12-29 2020-06-05 南京云帐房网络科技有限公司 一种基于模版智能学习的财务数据初始化方法及系统
CN112783504A (zh) * 2021-01-21 2021-05-11 中科三清科技有限公司 二进制通用表示格式的气象数据的解析方法和装置
CN112905687A (zh) * 2021-03-26 2021-06-04 深圳壹账通智能科技有限公司 数据转换方法、装置、电子设备及存储介质
CN113378518A (zh) * 2021-05-17 2021-09-10 广东广宇科技发展有限公司 基于正则表达式的json数据格式替换方法、系统及存储介质
CN115953130A (zh) * 2023-01-05 2023-04-11 深圳市坂云科技有限公司 一种用于关务申报数据的智能分析处理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1534526A (zh) * 2003-03-29 2004-10-06 鸿富锦精密工业(深圳)有限公司 Edi报关管理申报系统及方法
CN103823838A (zh) * 2013-12-18 2014-05-28 江苏省电力公司常州供电公司 一种多格式文档录入并比对的方法
CN103996112A (zh) * 2014-04-18 2014-08-20 青岛诚业国际物流有限公司 海关报关数据处理系统及方法
CN108170697A (zh) * 2017-07-12 2018-06-15 信号旗智能科技(上海)有限公司 一种国际贸易文件处理方法、系统以及一种服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1534526A (zh) * 2003-03-29 2004-10-06 鸿富锦精密工业(深圳)有限公司 Edi报关管理申报系统及方法
CN103823838A (zh) * 2013-12-18 2014-05-28 江苏省电力公司常州供电公司 一种多格式文档录入并比对的方法
CN103996112A (zh) * 2014-04-18 2014-08-20 青岛诚业国际物流有限公司 海关报关数据处理系统及方法
CN108170697A (zh) * 2017-07-12 2018-06-15 信号旗智能科技(上海)有限公司 一种国际贸易文件处理方法、系统以及一种服务器

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DEREKCHG: "用iTextSharp读取PDF格式文档中的文本内容", 《HTTPS://BLOG.CSDN.NET/DEREKCHG/ARTICLE/DETAILS/4576636》 *
七颗星_2017: "json转xml(附案例)", 《HTTPS://BLOG.CSDN.NET/QQ_35115257/ARTICLE/DETAILS/80611350》 *
杜忠晖: "非结构化文档数据一体化存储检索技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》 *
王伟: "《贸易单窗口对中国出口竞争力的影响研究》", 30 April 2017 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902998A (zh) * 2019-03-04 2019-06-18 宁波火箭数据科技有限公司 单一窗口输单系统
CN109902998B (zh) * 2019-03-04 2023-04-18 宁波火箭数据科技有限公司 单一窗口输单系统
CN110490701A (zh) * 2019-08-09 2019-11-22 深圳市友创供应链管理有限公司 基于供应链管理平台的报关方法和报关系统
CN111240714A (zh) * 2019-12-29 2020-06-05 南京云帐房网络科技有限公司 一种基于模版智能学习的财务数据初始化方法及系统
CN111240714B (zh) * 2019-12-29 2024-01-05 云帐房网络科技有限公司 一种基于模版智能学习的财务数据初始化方法及系统
CN112783504A (zh) * 2021-01-21 2021-05-11 中科三清科技有限公司 二进制通用表示格式的气象数据的解析方法和装置
CN112905687A (zh) * 2021-03-26 2021-06-04 深圳壹账通智能科技有限公司 数据转换方法、装置、电子设备及存储介质
CN113378518A (zh) * 2021-05-17 2021-09-10 广东广宇科技发展有限公司 基于正则表达式的json数据格式替换方法、系统及存储介质
CN115953130A (zh) * 2023-01-05 2023-04-11 深圳市坂云科技有限公司 一种用于关务申报数据的智能分析处理系统
CN115953130B (zh) * 2023-01-05 2023-08-11 深圳市坂云科技有限公司 一种用于关务申报数据的智能分析处理系统

Also Published As

Publication number Publication date
CN109062872B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN109062872A (zh) 一种对不同格式报关文件进行统一处理的算法
KR101889120B1 (ko) 데이터 패턴 정보 생성
CN105260347B (zh) 数据分析表达式
CN108985912B (zh) 数据对账
CN104662535B (zh) 数据模型中的实体映射
Crépon et al. Estimating the innovation function from patent numbers: GMM on count panel data
US6772409B1 (en) Specification to ABAP code converter
US7925658B2 (en) Methods and apparatus for mapping a hierarchical data structure to a flat data structure for use in generating a report
CA2392675C (en) Database system and method
US20090019072A1 (en) Interoperable retrieval and deposit using annotated schema to interface between industrial document specification languages
CN106372044B (zh) 一种基于报表生成类型化维度xbrl报告的方法
US8615526B2 (en) Markup language based query and file generation
US20140279304A1 (en) Method, System and Program Product for Matching of Transaction Records
CN106547841A (zh) 一种Excel XML映射的数据自动转换方法
US7856388B1 (en) Financial reporting and auditing agent with net knowledge for extensible business reporting language
CN107533554A (zh) 文档验证系统
CN107248065A (zh) 线上报表管理方法、系统、装置及存储介质
CN105095436B (zh) 数据源数据自动建模方法
CN111078766A (zh) 一种基于多维理论的数据仓库模型建设系统及方法
Van Den Brink et al. Quality assessment for embedded SQL
EP1745390A2 (en) Data and metadata linking form mechanism and method
CN115374082A (zh) 涉税数据库的分析方法、设备及存储介质
CN116010439A (zh) 一种可视化中文sql系统及构建查询方法
Liu et al. Extraction of attribute dependency graph from database applications
Nyaboga et al. Strategies for gaining competitive advantage in a dynamic environment thru data quality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200108

Address after: Room 209-43, floor 2, building 1, No. 51, Lane 1895, Hutai Road, Jing'an District, Shanghai

Applicant after: Shanghai Qinyun Technology Co.,Ltd.

Address before: 214000 China Sensor Network International Innovation Park G10-801, 200 Linghu Avenue, Xinwu District, Wuxi City, Jiangsu Province

Applicant before: IMOHE TECHNOLOGIES WUXI CO.,LTD.

GR01 Patent grant
GR01 Patent grant