CN108363943A - 基于智能化识别技术的通关机器人 - Google Patents

基于智能化识别技术的通关机器人 Download PDF

Info

Publication number
CN108363943A
CN108363943A CN201711442871.9A CN201711442871A CN108363943A CN 108363943 A CN108363943 A CN 108363943A CN 201711442871 A CN201711442871 A CN 201711442871A CN 108363943 A CN108363943 A CN 108363943A
Authority
CN
China
Prior art keywords
document
customs
text
character
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711442871.9A
Other languages
English (en)
Other versions
CN108363943B (zh
Inventor
龚锦辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU INDUSTRIAL PARK CUSTOMS DECLARATION Co Ltd
Original Assignee
SUZHOU INDUSTRIAL PARK CUSTOMS DECLARATION Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU INDUSTRIAL PARK CUSTOMS DECLARATION Co Ltd filed Critical SUZHOU INDUSTRIAL PARK CUSTOMS DECLARATION Co Ltd
Priority to CN201711442871.9A priority Critical patent/CN108363943B/zh
Publication of CN108363943A publication Critical patent/CN108363943A/zh
Application granted granted Critical
Publication of CN108363943B publication Critical patent/CN108363943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Abstract

本发明公开了一种基于智能化识别技术的通关机器人其包括:原始单证接收模块,负责接受原始报关单证的图片;智能单证生成模块,负责将原始报关单证图片中的内容转换为文本格式,并将识别出来的文本内容生成电子档报关单证;智能单证校验模块,负责进行数据校验;智能交互对接模块,负责将上述智能单证校验模块校验合格的电子档报关单证上传到海关监管系统并接收海关监管系统的反馈。本发明应用文件智能识别,报关智能制单及EDI通信等技术,用以提高制作报关单证的效率及准确率,减少制单出错给后续带来的损失。

Description

基于智能化识别技术的通关机器人
技术领域
本发明涉及一种进出口相关的自动化系统,具体涉及基于智能化识别技术的通关机器人。
背景技术
当前,在货物进出口海关申报领域,准备好通关用的单证是保证进出口货物顺利通关的基础,要形成一份满足海关国检要求的标准格式通关单证,需要人工根据各种相关材料内容来手动完成,这中间需要花费大量的人力、精力及时间,整个过程复杂且繁琐,而且非常容易出现错误,一旦发生错误,对进出口企业及国家造成重大影响及损害。
发明内容
针对目前货物进出口海关申报领域存在的制作报关报检单证繁琐且容易出错的问题,本发明应用文件智能识别,报关报检智能制单及EDI通信等技术,用以提高制作报关报检单证的效率及准确率,减少制单出错给后续带来的损失。
本发明的技术方案是提供一种基于智能化识别技术的通关机器人,其特征在于,其包括:
原始单证接收模块,负责接受原始单证原始单证的扫描件;
智能单证生成模块,负责将原始单证原始单证扫描件中的内容转换为文本格式,并将识别出来的文本内容生成电子档报关报检单证;
智能单证校验模块,负责根据预设的海关规则对上述电子档报关报检单证进行数据校验;
智能交互对接模块,负责将上述智能单证校验模块校验合格的电子档报关报检单证上传到海关国检监管系统并接收海关国检监管系统的反馈。
优选的,所述智能单证生成模块工作流程为:
1)重复进行单证预处理直至完成,单证预处理的内容包括图像的倾斜矫正、优化算法进行图像二值化处理和图像的平滑去噪;
2)重复进行版面分析处理直至完成,版面分析处理的内容包括文本、图像和表格的区域识别,文本部分段落区分、排版顺序;
3)文本区域的字符识别,识别文本区域中的图像,将其转换为文本;
4)单证原型匹配,根据识别出的文本内容和预先设定的单证原型模板进行匹配;
5)存储单证,根据匹配的单证原型模板,将识别的文本填充到对应的区域,获得电子档报关报检单证。
优选的,所述步骤3)文本区域的字符识别包括文本识别和表格识别,并使用字符集特征库进行文本识别。
优选的,所述文本识别的步骤包括:
a)字符切割,将扫描件中的文字进行切割,以获得单个的文字图片;
b)特征提取,提取单个文字图片中的字符特征;
c)将字符特征和字符集特征库进行比较,以获得单个文字图片对应的字符。
优选的,所述步骤c)还包括特殊字符的上下文关联识别,所述特殊字符包括0、o、L、1,上下文关联识别的判别规则为:上下文为英文的,则当其字符判定为英文;如果上下文为数字的,则当其字符判定为数字。
优选的,所述智能单证校验模块校验的标准包括:
1)海关国检监管要求;
2)对历史申报积累的大数据挖掘出的相关性。
优选的,所述智能交互对接模块通过与海关国检监管系统的EDI通信对接技术,将电子档报关报检单证以XML加密报文的形式,实现交互,将原始单证原始单证的扫描件文件一并上传,实现自动化申报。
优选的,所述智能交互对接模块通过与海关国检监管系统通讯时,采用RSA非对称加密传输。
本发明的基于智能化识别技术的通关机器人采用了多种相关技术方案。主要分三步对单证进行智能化处理,第一步,智能生成单证,在日常进出口申报业务过程中,需要将客户委托的包含大量信息的文件通过手动操作输入海关的通关系统,这里通过OCR(光学字符识别)技术,将文件图像内容智能转化为文本,包括对文本图像的整体分析,区分段落、排版顺序,以及表格的区域。根据定制的随附单证模版,智能填充生成模版内容,形成一份满足海关要求的完整单证。这里的关键的识别英文字母,数字,以汉字,技术上应用了微软的MODI(MicrosoftOffice Document Imaging)组件,来实现对图像文本的智能识别,技术处理步骤包含图像预处理,图像版面分析及切分,单字特征提取及分类,最终赋予之别结果,生成多层次的Json(JavaScript Object Notation, JS 对象标记)格式字符串,同时根据预先设定的单证模版格式,将识别文本内容填充到模版中,智能生成单证。此时完成了第一步智能生成单证,第二步,智能验证单证内容有效性,系统根据海关国检监管要求,基于历史申报的累积数据,建立了一套完整的数据有效性验证逻辑,其中应用了多种正则表达式,实现对量词,限定字符等过滤和匹配的目的,通过验证的数据才能进行下一步,避免一些基本的申报错误,完成智能制单。第三步,单证全自动上传,通过与海关国检监管系统的EDI(Electronic Data Interchange)通信对接技术,将申报信息以XML加密报文的形式,实现交互,将随附单证文件一并上传,实现智能申报。
附图说明
图1是本发明最佳实施例的一种基于智能化识别技术的通关机器人的原理图;
图2是智能单证生成模块的工作流程图。
具体实施方式
下面对本发明的具体实施方式作进一步详细的描述。
如图1和图2所示,本发明的一种基于智能化识别技术的通关机器人,其包括:
原始单证接收模块,负责接受原始单证原始单证的扫描件;
智能单证生成模块,负责将原始单证原始单证扫描件中的内容转换为文本格式,并将识别出来的文本内容生成电子档报关报检单证;
智能单证校验模块,负责根据预设的海关规则对上述电子档报关报检单证进行数据校验;
智能交互对接模块,负责将上述智能单证校验模块校验合格的电子档报关报检单证上传到海关国检监管系统并接收海关国检监管系统的反馈。
如图2所示,智能单证生成模块工作流程为:
1)重复进行单证预处理直至完成,单证预处理的内容包括图像的倾斜矫正、优化算法进行图像二值化处理和图像的平滑去噪;
2)重复进行版面分析处理直至完成,版面分析处理的内容包括文本、图像和表格的区域识别,文本部分段落区分、排版顺序;
3)文本区域的字符识别,识别文本区域中的图像,将其转换为文本;其首先将对应的图像进行文本识别和表格识别,即区分为文本部分还是表格部分,然后使用字符集特征库进行文本识别。
文本识别的步骤包括:
a)字符切割,将扫描件中的文字进行切割,以获得单个的文字图片;
b)特征提取,提取单个文字图片中的字符特征;
c)将字符特征和字符集特征库进行比较,以获得单个文字图片对应的字符。
其中,步骤c)还包括特殊字符的上下文关联识别,特殊字符包括0、o、L、1,上下文关联识别的判别规则为:上下文为英文的,则当其字符判定为英文;如果上下文为数字的,则当其字符判定为数字。例如:1205中的0,其上下文为数字,这其判定为数字0;而TOM中的O,因其上下文为英文字母,则判定为字母O。
4)单证原型匹配,根据识别出的文本内容和预先设定的单证原型模板进行匹配;
5)存储单证,根据匹配的单证原型模板,将识别的文本填充到对应的区域,获得电子档报关报检单证。
其中,智能单证校验模块校验的标准包括:
1)海关国检监管要求,即海关国检对进出口贸易中,成份、体积、重量等的基本要求;
2)历史申报积累的大数据挖掘出的相关性,同一客户进出口过程中,体积、重量等数据相互之间具有一定的制约,例如,该客户一直以来体积和重量比为1.2,而当其识别的数据的比值为2000,则显然存在识别的错误,需要提醒人工进行校正。当前识别的数据会进入后台进行保存,形成历史申报数据。
智能交互对接模块通过与海关国检监管系统的EDI通信对接技术,将电子档报关报检单证以XML加密报文的形式,实现交互,将原始单证的扫描件文件一并上传,实现自动化申报。智能交互对接模块通过与海关国检监管系统通讯时,采用RSA非对称加密传输。
以上实施例仅为本发明其中的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于智能化识别技术的通关机器人,其特征在于,其包括:
原始单证接收模块,负责接受原始单证的扫描件;
智能单证生成模块,负责将原始单证扫描件中的内容转换为文本格式,并将识别出来的文本内容生成电子档报关报检单证;
智能单证校验模块,负责根据预设的海关规则对上述电子档报关报检单证进行数据校验;
智能交互对接模块,负责将上述智能单证校验模块校验合格的电子档报关报检单证通过EDI通道自动上传到海关国检监管系统并接收海关国检监管系统的回执反馈,完成通关过程。
2.根据权利要求1所述的基于智能化识别技术的通关机器人,其特征在于:所述智能单证生成模块工作流程为:
1)重复进行单证预处理直至完成,单证预处理的内容包括图像的倾斜矫正、优化算法进行图像二值化处理和图像的平滑去噪;
2)重复进行版面分析处理直至完成,版面分析处理的内容包括文本、图像和表格的区域识别,文本部分段落区分、排版顺序;
3)文本区域的字符识别,识别文本区域中的图像,将其转换为文本;
4)单证原型匹配,根据识别出的文本内容和预先设定的单证原型模板进行匹配;
5)存储单证,根据匹配的单证原型模板,将识别的文本填充到对应的区域,获得电子档报关报检单证。
3.根据权利要求2所述的基于智能化识别技术的通关机器人,其特征在于:所述步骤3)文本区域的字符识别包括文本识别和表格识别,并使用字符集特征库进行文本识别。
4.根据权利要求3所述的基于智能化识别技术的通关机器人,其特征在于:所述文本识别的步骤包括:
a)字符切割,将扫描件中的文字进行切割,以获得单个的文字图片;
b)特征提取,提取单个文字图片中的字符特征;
c)将字符特征和字符集特征库进行比较,以获得单个文字图片对应的字符。
5.根据权利要求4所述的基于智能化识别技术的通关机器人,其特征在于:所述步骤c)还包括特殊字符的上下文关联识别,所述特殊字符包括0、o、L、1,上下文关联识别的判别规则为:上下文为英文的,则当其字符判定为英文;如果上下文为数字的,则当其字符判定为数字。
6.根据权利要求1所述的基于智能化识别技术的通关机器人,其特征在于:所述智能单证校验模块校验的标准包括:
1)海关国检监管要求;
2)对历史申报积累的大数据挖掘出的相关性。
7.根据权利要求1所述的基于智能化识别技术的通关机器人,其特征在于:所述智能交互对接模块通过与海关国检监管系统的EDI通信对接技术,将电子档通关单证以XML加密报文的形式,实现交互,将原始单证的扫描件文件一并上传,实现自动化申报。
8.根据权利要求7所述的基于智能化识别技术的通关机器人,其特征在于:所述智能交互对接模块通过与海关国检监管系统通讯时,采用RSA非对称加密传输。
CN201711442871.9A 2017-12-27 2017-12-27 基于智能化识别技术的通关机器人 Active CN108363943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711442871.9A CN108363943B (zh) 2017-12-27 2017-12-27 基于智能化识别技术的通关机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711442871.9A CN108363943B (zh) 2017-12-27 2017-12-27 基于智能化识别技术的通关机器人

Publications (2)

Publication Number Publication Date
CN108363943A true CN108363943A (zh) 2018-08-03
CN108363943B CN108363943B (zh) 2020-12-01

Family

ID=63010334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711442871.9A Active CN108363943B (zh) 2017-12-27 2017-12-27 基于智能化识别技术的通关机器人

Country Status (1)

Country Link
CN (1) CN108363943B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190629A (zh) * 2018-08-28 2019-01-11 传化智联股份有限公司 一种电子运单生成方法及装置
US20190122171A1 (en) * 2017-10-25 2019-04-25 Klearexpress Corporation, Delivering International Shipped Items
CN109783447A (zh) * 2019-01-23 2019-05-21 北京邮电大学 电子证照存证方法、获取方法、装置、系统及电子设备
CN109919153A (zh) * 2019-02-22 2019-06-21 北京印刷学院 基于手写识别人工智能技术的自动单据录入系统及方法
CN111932366A (zh) * 2020-08-12 2020-11-13 中国银行股份有限公司 单证业务处理装置及方法
CN113298458A (zh) * 2021-02-26 2021-08-24 阿里巴巴集团控股有限公司 报关信息处理方法、装置及电子设备
CN114581055A (zh) * 2022-03-04 2022-06-03 深圳市福流网络信息科技有限公司 一种报关信息管理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1534526A (zh) * 2003-03-29 2004-10-06 鸿富锦精密工业(深圳)有限公司 Edi报关管理申报系统及方法
CN1609863A (zh) * 2003-10-20 2005-04-27 杭州信雅达系统工程股份有限公司 远程电子申报纳税装置及其方法
US20120051645A1 (en) * 2010-08-30 2012-03-01 Alibaba Group Holding Limited Recognition of digital images
CN104077682A (zh) * 2014-06-30 2014-10-01 昆山云景网络科技有限公司 一种基于ocr识别和任务碎片化的单证数据录入方法
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1534526A (zh) * 2003-03-29 2004-10-06 鸿富锦精密工业(深圳)有限公司 Edi报关管理申报系统及方法
CN1609863A (zh) * 2003-10-20 2005-04-27 杭州信雅达系统工程股份有限公司 远程电子申报纳税装置及其方法
US20120051645A1 (en) * 2010-08-30 2012-03-01 Alibaba Group Holding Limited Recognition of digital images
CN104077682A (zh) * 2014-06-30 2014-10-01 昆山云景网络科技有限公司 一种基于ocr识别和任务碎片化的单证数据录入方法
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122171A1 (en) * 2017-10-25 2019-04-25 Klearexpress Corporation, Delivering International Shipped Items
US11687868B2 (en) * 2017-10-25 2023-06-27 KlearNow Corporation Delivering international shipped items
CN109190629A (zh) * 2018-08-28 2019-01-11 传化智联股份有限公司 一种电子运单生成方法及装置
CN109783447A (zh) * 2019-01-23 2019-05-21 北京邮电大学 电子证照存证方法、获取方法、装置、系统及电子设备
CN109919153A (zh) * 2019-02-22 2019-06-21 北京印刷学院 基于手写识别人工智能技术的自动单据录入系统及方法
CN111932366A (zh) * 2020-08-12 2020-11-13 中国银行股份有限公司 单证业务处理装置及方法
CN113298458A (zh) * 2021-02-26 2021-08-24 阿里巴巴集团控股有限公司 报关信息处理方法、装置及电子设备
CN114581055A (zh) * 2022-03-04 2022-06-03 深圳市福流网络信息科技有限公司 一种报关信息管理方法

Also Published As

Publication number Publication date
CN108363943B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN108363943A (zh) 基于智能化识别技术的通关机器人
CN109840519B (zh) 一种自适应的智能单据识别录入装置及其使用方法
CN109543614A (zh) 一种全文本差异比对方法及设备
US20190244046A1 (en) System and method for classifying images of an evidence
CN111652232B (zh) 票据识别方法及装置、电子设备和计算机可读存储介质
CN104636428B (zh) 一种商标推荐方法及装置
US9558295B2 (en) System for data extraction and processing
US20130251211A1 (en) Automated processing of documents
CN105654129A (zh) 一种光学文字序列识别方法
CN110705952A (zh) 一种合同审核方法及装置
IES20020647A2 (en) A data quality system
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN109934242A (zh) 图片识别方法和装置
US20200294187A1 (en) Ground truth generation from scanned documents
CN114202755A (zh) 基于ocr和nlp技术的交易背景真实性审核方法和系统
CN109684957A (zh) 一种自动按照纸质表单展现系统数据的方法及系统
CN104408544B (zh) 公式解析装置和方法
CN101470699B (zh) 信息提取模型训练装置、信息提取装置和信息提取系统及其方法
CN113841156A (zh) 基于图像识别的控制方法与装置
EP2741455A1 (en) Methods and system for classifying, processing, and/or generating automatic responses to mail items
CN107563689A (zh) 使用条形码管理系统及方法
JP2007011656A (ja) 文字認識システム及び文字認識方法
CN113239682B (zh) 一种裁判文书的纠错方法及装置
CN115471148A (zh) 数据处理方法、装置、设备及存储介质
CN105243584A (zh) 一种数据处理的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant