CN111353744B - 基于图像识别的货物签收单数据存储方法及装置 - Google Patents
基于图像识别的货物签收单数据存储方法及装置 Download PDFInfo
- Publication number
- CN111353744B CN111353744B CN202010147293.1A CN202010147293A CN111353744B CN 111353744 B CN111353744 B CN 111353744B CN 202010147293 A CN202010147293 A CN 202010147293A CN 111353744 B CN111353744 B CN 111353744B
- Authority
- CN
- China
- Prior art keywords
- information
- picture
- signature
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013500 data storage Methods 0.000 title claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 97
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 32
- 238000004590 computer program Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012015 optical character recognition Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000013075 data extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Computer Hardware Design (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了基于图像识别的货物签收单数据存储方法、装置、计算机设备及存储介质。该方法包括若接收到邮件信息,获取其对应的发件人邮箱地址;若发件人邮箱地址满足邮件附件提取条件,获取邮件附件;通过图文识别模型对其进行识别以获取对应的签收单信息;根据其中的快递公司名称,得到对应的待识别子图片;通过卷积神经网络模型获取对应的图片分类结果,以作为签收章可信度值;由签收单信息、邮件信息接收日期及签收章可信度值组成与邮件信息对应的邮件提取数据并进行存储。该方法实现了自动提取邮件信息中的邮件附件,对邮件附件进行文本识别和指定区域的图像识别,从而快速得到对应的邮件提取数据进行归档存储,提高了快递单据的归档效率。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于图像识别的货物签收单数据存储方法、装置、计算机设备及存储介质。
背景技术
目前,物流仓储企业在物流行业中扮演越来越重要的角色。物流仓储企业其传统的物流配送归档流程如下:
1)送货员将货物配送至收货客户;
2)收货客户在快递单据上签收;
3)送货员将签收后快递单据送回物流仓库;
4)物流仓库的仓库执行人员扫描快递单据后,将快递单据的图片作为邮件附件发送至系统邮箱;
5)将扫描快递单据得到的信息录入系统;
6)将快递单据的原件进行人工归档。
可见,快递单据的归档、数据核对等工作流程都是人工处理完成,不仅效率低下,而且易出错。
发明内容
本发明实施例提供了一种基于图像识别的货物签收单数据存储方法、装置、计算机设备及存储介质,旨在解决现有技术中快递单据的归档、数据核对等工作流程都是人工处理完成,不仅效率低下,而且易出错的问题。
第一方面,本发明实施例提供了一种基于图像识别的货物签收单数据存储方法,其包括:
判断是否接收到邮件信息;
若接收到邮件信息,获取所述邮件信息对应的发件人邮箱地址;
判断所述发件人邮箱地址是否满足预设的邮件附件提取条件;其中,所述邮件附件提取条件用于限定从若干个目标邮箱后缀和/或若干个目标发件人邮箱地址对应的邮件中提取邮件附件;
若所述发件人邮箱地址满足所述邮件附件提取条件,获取所述邮件信息中的邮件附件;
通过已存储的图文识别模型对所述邮件附件进行识别以获取对应的签收单信息;
根据所述签收单信息中的快递公司名称,定位所述邮件附件对应的签收章待识别区域,以得到待识别子图片;
通过预先训练的卷积神经网络模型获取与所述待识别子图片对应的图片分类结果,以作为签收章可信度值;以及
由所述签收单信息、邮件信息接收日期及所述签收章可信度值组成与所述邮件信息对应的邮件提取数据,将所述邮件提取数据进行存储。
第二方面,本发明实施例提供了一种基于图像识别的货物签收单数据存储装置,其包括:
第一判断单元,用于判断是否接收到邮件信息;
发件人邮箱地址获取单元,用于若接收到邮件信息,获取所述邮件信息对应的发件人邮箱地址;
第二判断单元,用于判断所述发件人邮箱地址是否满足预设的邮件附件提取条件;其中,所述邮件附件提取条件用于限定从若干个目标邮箱后缀和/或若干个目标发件人邮箱地址对应的邮件中提取邮件附件;
邮件附件提取单元,用于若所述发件人邮箱地址满足所述邮件附件提取条件,获取所述邮件信息中的邮件附件;
签收单信息获取单元,用于通过已存储的图文识别模型对所述邮件附件进行识别以获取对应的签收单信息;
待识别子图片获取单元,用于根据所述签收单信息中的快递公司名称,定位所述邮件附件对应的签收章待识别区域,以得到待识别子图片;
可信度值获取单元,用于通过预先训练的卷积神经网络模型获取与所述待识别子图片对应的图片分类结果,以作为签收章可信度值;以及
邮件提取数据获取单元,用于由所述签收单信息、邮件信息接收日期及所述签收章可信度值组成与所述邮件信息对应的邮件提取数据,将所述邮件提取数据进行存储。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于图像识别的货物签收单数据存储方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于图像识别的货物签收单数据存储方法。
本发明实施例提供了一种基于图像识别的货物签收单数据存储方法、装置、计算机设备及存储介质,包括判断是否接收到邮件信息;若接收到邮件信息,获取所述邮件信息对应的发件人邮箱地址;判断所述发件人邮箱地址是否满足预设的邮件附件提取条件;其中,所述邮件附件提取条件用于限定从若干个目标邮箱后缀和/或若干个目标发件人邮箱地址对应的邮件中提取邮件附件;若所述发件人邮箱地址满足所述邮件附件提取条件,获取所述邮件信息中的邮件附件;通过已存储的图文识别模型对所述邮件附件进行识别以获取对应的签收单信息;根据所述签收单信息中的快递公司名称,定位所述邮件附件对应的签收章待识别区域,以得到待识别子图片;通过预先训练的卷积神经网络模型获取与所述待识别子图片对应的图片分类结果,以作为签收章可信度值;以及由所述签收单信息、邮件信息接收日期及所述签收章可信度值组成与所述邮件信息对应的邮件提取数据,将所述邮件提取数据进行存储。该方法实现了自动提取邮件信息中的邮件附件,对邮件附件进行文本识别和指定区域的图像识别,从而快速得到对应的邮件提取数据进行归档存储,提高了快递单据的归档效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于图像识别的货物签收单数据存储方法的应用场景示意图;
图2为本发明实施例提供的基于图像识别的货物签收单数据存储方法的流程示意图;
图3为本发明实施例提供的基于图像识别的货物签收单数据存储方法的子流程示意图;
图4为本发明实施例提供的基于图像识别的货物签收单数据存储方法的另一子流程示意图;
图5为本发明实施例提供的基于图像识别的货物签收单数据存储装置的示意性框图;
图6为本发明实施例提供的基于图像识别的货物签收单数据存储装置的子单元示意性框图;
图7为本发明实施例提供的基于图像识别的货物签收单数据存储装置的另一子单元示意性框图;
图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于图像识别的货物签收单数据存储方法的应用场景示意图;图2为本发明实施例提供的基于图像识别的货物签收单数据存储方法的流程示意图,该基于图像识别的货物签收单数据存储方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S110~S180。
S110、判断是否接收到邮件信息。
在本实施例中,为了更清楚的理解本申请的技术方案,下面对所涉及到的终端进行详细介绍。本申请是在服务器的角度描述技术方案。
一是服务器,用于接收发件人邮箱所发送的所有邮件,并可以对邮件的附件进行提取后,进行签收单信息的提取和签收章可信度值的计算,而且还可以对邮件提取数据进行存储。
二是发件人终端,发件人终端为智能手机、平板电脑等智能终端,发件人可以使用所述发件人终端向服务器发送邮件。
三是接收终端,接收终端为智能手机、平板电脑等智能终端,接收终端用于接收服务器发送的数据。
在本实施例中,可以在服务器中部署使用Python语言编写的邮件监控脚本,以判断服务器是否接收到发件人终端发送的邮件信息。
S120、若接收到邮件信息,获取所述邮件信息对应的发件人邮箱地址。
在本实施例中,若服务器检测接收到发件人终端所发送的邮件信息,此时为了判断该邮件信息是否为指定发件人所发送的,需要先获取所述邮件信息对应的发件人邮箱地址。
S130、判断所述发件人邮箱地址是否满足预设的邮件附件提取条件;其中,所述邮件附件提取条件用于限定从若干个目标邮箱后缀和/或若干个目标发件人邮箱地址对应的邮件中提取邮件附件。
在本实施例中,为了判断该邮件信息是否为指定发件人所发送的,此时可通过判断所述发件人邮箱地址是否满足预设的邮件附件提取条件来实现。例如,在预先设置邮件附件提取条件时具体如下:
1)邮箱后缀为XX1.com、XX2.com、XX3.com等;
2)邮箱地址为YY1@XX1.com、YY2@XX2.com、YY3@XX3.com等。
也即当发件人邮箱地址的邮箱后缀为XX1.com、XX2.com、XX3.com其中一个时,或者是发件人邮箱地址为YY1@XX1.com、YY2@XX2.com、YY3@XX3.com其中一个时,才可判定所述发件人邮箱地址满足所述邮件附件提取条件。
S140、若所述发件人邮箱地址满足所述邮件附件提取条件,获取所述邮件信息中的邮件附件。
在本实施例中,当所述发件人邮箱地址满足所述邮件附件提取条件时,表示服务器需对该邮件信息进行处理后归档存储。在服务器中对所述该邮件信息进行处理时,先是提取所述邮件信息中的邮件附件,以邮件附件为后续各种数据和信息获取的初始数据。具体实施时,所述邮件附件是后缀为.pdf的文件(PDF的全称为Portable Document Format的,意为便携式文档格式)。
若所述发件人邮箱地址不满足所述邮件附件提取条件,则对所述发件人邮箱地址对应的邮件信息不做任何处理。
在一实施例中,步骤S140之后还包括:
将所述邮件信息中的邮件附件发送至云服务器进行存储。
在本实施例中,为了确保服务器中的数据安全,至少可将服务器中所有提取的邮件附件上传至云服务器进行存储,从而实现对邮件附件的备份。若服务器因故障发生数据丢失,可通过云服务器中存储的备份数据进行数据恢复,提高了数据安全性。
在一实施例中,步骤S140之后还包括:
判断所述邮件附件是否为空文件;若所述邮件附件不是空文件,执行步骤S150;若所述邮件附件是空文件,执行将用于提示重发邮件附件的提示信息至所述邮件信息对应的发送终端的步骤;
将用于提示重发邮件附件的提示信息至所述邮件信息对应的发送终端。
在本实施例中,若存在发件人终端所发送的邮件信息中未附加插入邮件附件,此时服务器可向发件人终端(发件人终端即所述邮件信息对应的发送终端)发送用于提示重发邮件附件的提示信息,从而确保对每一邮件信息均插入了邮件附件,有效避免了满足所述邮件附件提取条件中有未插入附件的邮件的问题。通过这一方式,能避免遗漏满足所述邮件附件提取条件对应的邮件附件的存储,从而使得数据存储更完整。
S150、通过已存储的图文识别模型对所述邮件附件进行识别以获取对应的签收单信息。
在本实施例中,当提取了邮件信息中的邮件附件后(该邮件附件一般为PDF文件),此时可以通过服务器中已存储的图文识别模型对所述邮件附件进行识别,从而获取与所述邮件附件对应的签收单信息。具体实施时,所述签收单信息至少包括快递公司名称、客户名称、客户电话号码、收件人名称、收件地址、发件单号、发件人名称、发件人电话号码、货物明细信息。由于获取了签收单信息(签收单信息为),故后续可以根据签收单信息和邮件信息接收日期及所述签收章可信度值组成与所述邮件信息对应的邮件提取数据。
在一实施例中,步骤S150包括:
通过OCR图像识别模型识别所述邮件附件中的快递公司名称、客户名称、客户电话号码、收件人名称、收件地址、发件单号、发件人名称、发件人电话号码、货物明细信息,以组成签收单信息。
在本实施例中,所述图文识别模型为OCR图像识别模型。OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。
由于OCR图像识别模型对所述邮件附件进行识别后,得到的是与所述邮件附件对应的完整文本数据。此时服务器中预先设置了对邮件附件对应的完整文本数据的数据提取策略,也即通过该数据提取策略可获知只需从与所述邮件附件对应的完整文本数据获取哪些关键信息。例如,将数据提取策略设置为提取完整文本数据中快递公司名称、客户名称、客户电话号码、收件人名称、收件地址、发件单号、发件人名称、发件人电话号码、货物明细信息这些关键词之后对应的字符串。当获取了这些关键词对应取值(也即这些关键词之后一定字符范围内的字符串,例如根据大数据统计可分别针对快递公司名称、客户名称、客户电话号码、收件人名称、收件地址、发件单号、发件人名称、发件人电话号码、货物明细信息这些关键词分别设置取其后面的Ni个字符组成的字符串作为该关键词对应取值;其中,i为正整数,且i的最大值为这些关键词的总个数,i的最小值为1)后,即可组成签收单信息。
通过OCR图像识别模型对邮件附件进行自动识别和文本提取,无需人工监督和干预,相对于人工识别方式,提高了文本识别效率。
S160、根据所述签收单信息中的快递公司名称,定位所述邮件附件对应的签收章待识别区域,以得到待识别子图片。
在本实施例中,由于所述签收单信息中时包括快递公司名称的,此时可获取该邮件附件对应是哪一家快递公司的快递单据图片。由于各不同快递公司的快递单据是可能存在差异的,而每一快递公司的快递单据中签收区域又是已知的。故为了快速的通过图像识别来判断快递单据中签收区域是否有收件人签章,此时需先根据快递公司名称,定位所述邮件附件对应的图片中哪一块区域是对应签收章待识别区域。在根据快递公司名称定位所述邮件附件对应的签收章待识别区域后,即可在该邮件附件对应的图片中将签收章待识别区域进行剪切,以提取出待识别子图片。通过这一方式,能精准定位邮件附件对应的签收章待识别区域,缩小了邮件附件的待识别区域,有利于后续更快速的进行小区域的图像识别。
在一实施例中,如图3所示,步骤S160包括:
S161、获取所述签收单信息中的快递公司名称,及与所述快递公司名称对应的快递单签收章分布区域;
S162、根据所述快递单签收章分布区域,对应获取所述邮件附件相应的签收章待识别区域;
S163、获取所述签收章待识别区域对应的邮件附件局部图片,以得到待识别子图片。
在本实施例中,由于发件人终端一般是按照服务器附件上传指引中限定的扫描件尺寸来上传邮件附件,而且在服务器中预先存储了各快递公司的快递单据中签收区域的像素点分布位置。故当服务器获取了该邮件附件对应的快递公司名称后,即可快速获取该邮件附件对应的快递单签收章分布区域。之后定位获取所述邮件附件对应的图片中哪一块区域是对应签收章待识别区域。最后对签收章待识别区域进行图片剪切后即可得到邮件附件局部图片,该邮件附件局部图片及可作为待识别子图片。通过上述对图片的待识别区域进行定位和剪切,有效降低了待识别图片的图片尺寸,降低了后续图片分类的数据处理量。
S170、通过预先训练的卷积神经网络模型获取与所述待识别子图片对应的图片分类结果,以作为签收章可信度值。
在本实施例中,所述卷积神经网络模型用于对待识别子图片中是否有签章进行识别分类。例如所述待识别子图片对应的图片分类结果的取值范围是[0,1],当述待识别子图片对应的图片分类结果的取值为0.6,表示所述待识别子图片对应的签收章可信度值为0.6。
在服务器中还预先设置一个签收章可信度阈值(例如签收章可信度阈值为0.5),若所述待识别子图片对应的签收章可信度值超出所述签收章可信度阈值,表示该待识别子图片对应的分类结果是有签章(也即表示该邮件附件是有效签收快递单据);若所述待识别子图片对应的签收章可信度值未超出所述签收章可信度阈值,表示该待识别子图片对应的分类结果是无签章(也即表示该邮件附件是无效签收快递单据)。服务器还可根据签收章可信度值与签收章可信度阈值的比较结果,对该邮件附件增加一个有效单据标签或无效单据标签。
通过预先训练的卷积神经网络模型,能自动对待识别子图片进行识别和判断,与人工识别相比,提高了识别效率。
在一实施例中,如图4所示,步骤S170包括:
S171、获取所述待识别子图片对应的像素矩阵;
S172、将所述像素矩阵输入至所述卷积神经网络模型的输入层,得到多个特征图;
S173、将多个特征图输入至所述卷积神经网络模型的池化层,得到与多个特征图中每一特征图的最大值所对应一维行向量;
S174、将与多个特征图中每一特征图的最大值所对应一维行向量输入至所述卷积神经网络模型的全连接层,得到与所述待识别子图片对应的图片特征向量;
S175、将所述待识别子图片对应的图片特征向量输入至所述卷积神经网络模型的softmax分类器,得到与所述待识别子图片对应的图片分类结果,以作为签收章可信度值。
在本实施例中,在获取图片的特征向量时,先获取与待识别子图片对应的像素矩阵,然后将待识别子图片对应的像素矩阵作为卷积神经网络模型中输入层的输入,得到多个特征图,之后将特征图输入池化层,得到每一特征图对应的最大值所对应一维行向量,最后将每一特征图对应的最大值所对应一维行向量输入至全连接层,得到与待识别子图片对应的图片特征向量。
之后通过将所述待识别子图片对应的图片特征向量输入至所述卷积神经网络模型的softmax分类器,得到与所述待识别子图片对应的图片分类结果,以作为签收章可信度值。softmax分类器是将图片特征向量中的各取值作为输入而映射为0-1之间的实数。通过卷积神经网络模型,能对待识别子图片中是否存在签章进行快速分析并得出图片分类结果。
S180、由所述签收单信息、邮件信息接收日期及所述签收章可信度值组成与所述邮件信息对应的邮件提取数据,将所述邮件提取数据进行存储。
在本实施例中,当在服务器中获取了该邮件信息对应的签收单信息、邮件信息接收日期及所述签收章可信度值后,即可由上述3类信息封装成与该邮件信息对应的邮件提取数据。此时该条邮件提取数据可以存储在服务器中的指定存储空间中(例如,可以在服务器中划分一块存储空间专用于存储邮件提取数据,这一专用于存储邮件提取数据的存储空间的路径是已知的)。由于对满足邮件附件提取条件的邮件附件均对应获取了邮件提取数据,故这些邮件提取数据可以成为快递单据盘点、抽查及单据问题追溯的数据源。
在一实施例中,步骤S180之后还包括:
判断当前系统日期是否为当前月份的月末日期;
若当前系统日期为当前月份的月末日期,获取邮件信息接收日期属于当前月份的邮件提取数据,与组成目标数据集;
根据预先设置的数据接收终端列表,将所述目标数据集发送至数据接收终端列表中的接收终端;其中,所述数据接收终端列表中包括若干个接收终端名称、及与每一接收终端名称对应的接收终端邮箱地址。
在本实施例中,例如可使用Python脚本判断如果当日是本月最后一天,可以获取邮件信息接收日期属于当前月份的邮件提取数据,与组成目标数据集。在获取了目标数据集之后,将目标数据集导出到excel文件中并发送至对应的接收终端(一般该接收终端是数据审核人员所使用)。通过这一方式,能定期对邮件提取数据进行盘点和抽检。
该方法实现了自动提取邮件信息中的邮件附件,对邮件附件进行文本识别和指定区域的图像识别,从而快速得到对应的邮件提取数据进行归档存储,提高了快递单据的归档效率。
本发明实施例还提供一种基于图像识别的货物签收单数据存储装置,该基于图像识别的货物签收单数据存储装置用于执行前述基于图像识别的货物签收单数据存储方法的任一实施例。具体地,请参阅图5,图5是本发明实施例提供的基于图像识别的货物签收单数据存储装置的示意性框图。该基于图像识别的货物签收单数据存储装置100可以配置于服务器中。
如图5所示,基于图像识别的货物签收单数据存储装置100包括第一判断单元110、发件人邮箱地址获取单元120、第二判断单元130、邮件附件提取单元140、签收单信息获取单元150、待识别子图片获取单元160、可信度值获取单元170、邮件提取数据获取单元180。
第一判断单元110,用于判断是否接收到邮件信息。
在本实施例中,可以在服务器中部署使用Python语言编写的邮件监控脚本,以判断服务器是否接收到发件人终端发送的邮件信息。
发件人邮箱地址获取单元120,用于若接收到邮件信息,获取所述邮件信息对应的发件人邮箱地址。
在本实施例中,若服务器检测接收到发件人终端所发送的邮件信息,此时为了判断该邮件信息是否为指定发件人所发送的,需要先获取所述邮件信息对应的发件人邮箱地址。
第二判断单元130,用于判断所述发件人邮箱地址是否满足预设的邮件附件提取条件;其中,所述邮件附件提取条件用于限定从若干个目标邮箱后缀和/或若干个目标发件人邮箱地址对应的邮件中提取邮件附件。
在本实施例中,为了判断该邮件信息是否为指定发件人所发送的,此时可通过判断所述发件人邮箱地址是否满足预设的邮件附件提取条件来实现。例如,在预先设置邮件附件提取条件时具体如下:
1)邮箱后缀为XX1.com、XX2.com、XX3.com等;
2)邮箱地址为YY1@XX1.com、YY2@XX2.com、YY3@XX3.com等。
也即当发件人邮箱地址的邮箱后缀为XX1.com、XX2.com、XX3.com其中一个时,或者是发件人邮箱地址为YY1@XX1.com、YY2@XX2.com、YY3@XX3.com其中一个时,才可判定所述发件人邮箱地址满足所述邮件附件提取条件。
邮件附件提取单元140,用于若所述发件人邮箱地址满足所述邮件附件提取条件,获取所述邮件信息中的邮件附件。
在本实施例中,当所述发件人邮箱地址满足所述邮件附件提取条件时,表示服务器需对该邮件信息进行处理后归档存储。在服务器中对所述该邮件信息进行处理时,先是提取所述邮件信息中的邮件附件,以邮件附件为后续各种数据和信息获取的初始数据。具体实施时,所述邮件附件是后缀为.pdf的文件(PDF的全称为Portable Document Format的,意为便携式文档格式)。
若所述发件人邮箱地址不满足所述邮件附件提取条件,则对所述发件人邮箱地址对应的邮件信息不做任何处理。
在一实施例中,基于图像识别的货物签收单数据存储装置100还包括:
邮件附件上传单元,用于将所述邮件信息中的邮件附件发送至云服务器进行存储。
在本实施例中,为了确保服务器中的数据安全,至少可将服务器中所有提取的邮件附件上传至云服务器进行存储,从而实现对邮件附件的备份。若服务器因故障发生数据丢失,可通过云服务器中存储的备份数据进行数据恢复,提高了数据安全性。
在一实施例中,基于图像识别的货物签收单数据存储装置100还包括:
第三判断单元,用于判断所述邮件附件是否为空文件;若所述邮件附件不是空文件,执行通过已存储的图文识别模型对所述邮件附件进行识别以获取对应的签收单信息的步骤;若所述邮件附件是空文件,执行将用于提示重发邮件附件的提示信息至所述邮件信息对应的发送终端的步骤;
提示信息发送单元,用于将用于提示重发邮件附件的提示信息至所述邮件信息对应的发送终端。
在本实施例中,若存在发件人终端所发送的邮件信息中未附加插入邮件附件,此时服务器可向发件人终端(发件人终端即所述邮件信息对应的发送终端)发送用于提示重发邮件附件的提示信息,从而确保对每一邮件信息均插入了邮件附件,有效避免了满足所述邮件附件提取条件中有未插入附件的邮件的问题。通过这一方式,能避免遗漏满足所述邮件附件提取条件对应的邮件附件的存储,从而使得数据存储更完整。
签收单信息获取单元150,用于通过已存储的图文识别模型对所述邮件附件进行识别以获取对应的签收单信息。
在本实施例中,当提取了邮件信息中的邮件附件后(该邮件附件一般为PDF文件),此时可以通过服务器中已存储的图文识别模型对所述邮件附件进行识别,从而获取与所述邮件附件对应的签收单信息。具体实施时,所述签收单信息至少包括快递公司名称、客户名称、客户电话号码、收件人名称、收件地址、发件单号、发件人名称、发件人电话号码、货物明细信息。由于获取了签收单信息(签收单信息为),故后续可以根据签收单信息和邮件信息接收日期及所述签收章可信度值组成与所述邮件信息对应的邮件提取数据。
在一实施例中,签收单信息获取单元150还用于:
通过OCR图像识别模型识别所述邮件附件中的快递公司名称、客户名称、客户电话号码、收件人名称、收件地址、发件单号、发件人名称、发件人电话号码、货物明细信息,以组成签收单信息。
在本实施例中,所述图文识别模型为OCR图像识别模型。OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。
由于OCR图像识别模型对所述邮件附件进行识别后,得到的是与所述邮件附件对应的完整文本数据。此时服务器中预先设置了对邮件附件对应的完整文本数据的数据提取策略,也即通过该数据提取策略可获知只需从与所述邮件附件对应的完整文本数据获取哪些关键信息。例如,将数据提取策略设置为提取完整文本数据中快递公司名称、客户名称、客户电话号码、收件人名称、收件地址、发件单号、发件人名称、发件人电话号码、货物明细信息这些关键词之后对应的字符串。当获取了这些关键词对应取值(也即这些关键词之后一定字符范围内的字符串,例如根据大数据统计可分别针对快递公司名称、客户名称、客户电话号码、收件人名称、收件地址、发件单号、发件人名称、发件人电话号码、货物明细信息这些关键词分别设置取其后面的Ni个字符组成的字符串作为该关键词对应取值;其中,i为正整数,且i的最大值为这些关键词的总个数,i的最小值为1)后,即可组成签收单信息。
通过OCR图像识别模型对邮件附件进行自动识别和文本提取,无需人工监督和干预,相对于人工识别方式,提高了文本识别效率。
待识别子图片获取单元160,用于根据所述签收单信息中的快递公司名称,定位所述邮件附件对应的签收章待识别区域,以得到待识别子图片。
在本实施例中,由于所述签收单信息中时包括快递公司名称的,此时可获取该邮件附件对应是哪一家快递公司的快递单据图片。由于各不同快递公司的快递单据是可能存在差异的,而每一快递公司的快递单据中签收区域又是已知的。故为了快速的通过图像识别来判断快递单据中签收区域是否有收件人签章,此时需先根据快递公司名称,定位所述邮件附件对应的图片中哪一块区域是对应签收章待识别区域。在根据快递公司名称定位所述邮件附件对应的签收章待识别区域后,即可在该邮件附件对应的图片中将签收章待识别区域进行剪切,以提取出待识别子图片。通过这一方式,能精准定位邮件附件对应的签收章待识别区域,缩小了邮件附件的待识别区域,有利于后续更快速的进行小区域的图像识别。
在一实施例中,如图6所示,待识别子图片获取单元160包括:
签收章分布区域获取单元161,用于获取所述签收单信息中的快递公司名称,及与所述快递公司名称对应的快递单签收章分布区域;
签收章待识别区域定位单元162,用于根据所述快递单签收章分布区域,对应获取所述邮件附件相应的签收章待识别区域;
邮件附件局部图片获取单元163,用于获取所述签收章待识别区域对应的邮件附件局部图片,以得到待识别子图片。
在本实施例中,由于发件人终端一般是按照服务器附件上传指引中限定的扫描件尺寸来上传邮件附件,而且在服务器中预先存储了各快递公司的快递单据中签收区域的像素点分布位置。故当服务器获取了该邮件附件对应的快递公司名称后,即可快速获取该邮件附件对应的快递单签收章分布区域。之后定位获取所述邮件附件对应的图片中哪一块区域是对应签收章待识别区域。最后对签收章待识别区域进行图片剪切后即可得到邮件附件局部图片,该邮件附件局部图片及可作为待识别子图片。通过上述对图片的待识别区域进行定位和剪切,有效降低了待识别图片的图片尺寸,降低了后续图片分类的数据处理量。
可信度值获取单元170,用于通过预先训练的卷积神经网络模型获取与所述待识别子图片对应的图片分类结果,以作为签收章可信度值。
在本实施例中,所述卷积神经网络模型用于对待识别子图片中是否有签章进行识别分类。例如所述待识别子图片对应的图片分类结果的取值范围是[0,1],当述待识别子图片对应的图片分类结果的取值为0.6,表示所述待识别子图片对应的签收章可信度值为0.6。
在服务器中还预先设置一个签收章可信度阈值(例如签收章可信度阈值为0.5),若所述待识别子图片对应的签收章可信度值超出所述签收章可信度阈值,表示该待识别子图片对应的分类结果是有签章(也即表示该邮件附件是有效签收快递单据);若所述待识别子图片对应的签收章可信度值未超出所述签收章可信度阈值,表示该待识别子图片对应的分类结果是无签章(也即表示该邮件附件是无效签收快递单据)。服务器还可根据签收章可信度值与签收章可信度阈值的比较结果,对该邮件附件增加一个有效单据标签或无效单据标签。
通过预先训练的卷积神经网络模型,能自动对待识别子图片进行识别和判断,与人工识别相比,提高了识别效率。
在一实施例中,如图7所示,可信度值获取单元170包括:
像素矩阵获取单元171,用于获取所述待识别子图片对应的像素矩阵;
卷积层单元172,用于将所述像素矩阵输入至所述卷积神经网络模型的输入层,得到多个特征图;
池化层单元173,用于将多个特征图输入至所述卷积神经网络模型的池化层,得到与多个特征图中每一特征图的最大值所对应一维行向量;
全连接层单元174,用于将与多个特征图中每一特征图的最大值所对应一维行向量输入至所述卷积神经网络模型的全连接层,得到与所述待识别子图片对应的图片特征向量;
分类输出单元175,用于将所述待识别子图片对应的图片特征向量输入至所述卷积神经网络模型的softmax分类器,得到与所述待识别子图片对应的图片分类结果,以作为签收章可信度值。
在本实施例中,在获取图片的特征向量时,先获取与待识别子图片对应的像素矩阵,然后将待识别子图片对应的像素矩阵作为卷积神经网络模型中输入层的输入,得到多个特征图,之后将特征图输入池化层,得到每一特征图对应的最大值所对应一维行向量,最后将每一特征图对应的最大值所对应一维行向量输入至全连接层,得到与待识别子图片对应的图片特征向量。
之后通过将所述待识别子图片对应的图片特征向量输入至所述卷积神经网络模型的softmax分类器,得到与所述待识别子图片对应的图片分类结果,以作为签收章可信度值。softmax分类器是将图片特征向量中的各取值作为输入而映射为0-1之间的实数。通过卷积神经网络模型,能对待识别子图片中是否存在签章进行快速分析并得出图片分类结果。
邮件提取数据获取单元180,用于由所述签收单信息、邮件信息接收日期及所述签收章可信度值组成与所述邮件信息对应的邮件提取数据,将所述邮件提取数据进行存储。
在本实施例中,当在服务器中获取了该邮件信息对应的签收单信息、邮件信息接收日期及所述签收章可信度值后,即可由上述3类信息封装成与该邮件信息对应的邮件提取数据。此时该条邮件提取数据可以存储在服务器中的指定存储空间中(例如,可以在服务器中划分一块存储空间专用于存储邮件提取数据,这一专用于存储邮件提取数据的存储空间的路径是已知的)。由于对满足邮件附件提取条件的邮件附件均对应获取了邮件提取数据,故这些邮件提取数据可以成为快递单据盘点、抽查及单据问题追溯的数据源。
在一实施例中,基于图像识别的货物签收单数据存储装置100还包括:
第三判断单元,用于判断当前系统日期是否为当前月份的月末日期;
目标数据集获取单元,用于若当前系统日期为当前月份的月末日期,获取邮件信息接收日期属于当前月份的邮件提取数据,与组成目标数据集;
目标数据集发送单元,用于根据预先设置的数据接收终端列表,将所述目标数据集发送至数据接收终端列表中的接收终端;其中,所述数据接收终端列表中包括若干个接收终端名称、及与每一接收终端名称对应的接收终端邮箱地址。
在本实施例中,例如可使用Python脚本判断如果当日是本月最后一天,可以获取邮件信息接收日期属于当前月份的邮件提取数据,与组成目标数据集。在获取了目标数据集之后,将目标数据集导出到excel文件中并发送至对应的接收终端(一般该接收终端是数据审核人员所使用)。通过这一方式,能定期对邮件提取数据进行盘点和抽检。
该装置实现了自动提取邮件信息中的邮件附件,对邮件附件进行文本识别和指定区域的图像识别,从而快速得到对应的邮件提取数据进行归档存储,提高了快递单据的归档效率。
上述基于图像识别的货物签收单数据存储装置可以实现为计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图8,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于图像识别的货物签收单数据存储方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于图像识别的货物签收单数据存储方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于图像识别的货物签收单数据存储方法。
本领域技术人员可以理解,图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图8所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于图像识别的货物签收单数据存储方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于图像识别的货物签收单数据存储方法,其特征在于,包括:
判断是否接收到邮件信息;
若接收到邮件信息,获取所述邮件信息对应的发件人邮箱地址;
判断所述发件人邮箱地址是否满足预设的邮件附件提取条件;其中,所述邮件附件提取条件用于限定从若干个目标邮箱后缀和/或若干个目标发件人邮箱地址对应的邮件中提取邮件附件;
若所述发件人邮箱地址满足所述邮件附件提取条件,获取所述邮件信息中的邮件附件;
通过已存储的图文识别模型对所述邮件附件进行识别以获取对应的签收单信息;
根据所述签收单信息中的快递公司名称,定位所述邮件附件对应的签收章待识别区域,以得到待识别子图片;
通过预先训练的卷积神经网络模型获取与所述待识别子图片对应的图片分类结果,以作为签收章可信度值;以及
由所述签收单信息、邮件信息接收日期及所述签收章可信度值组成与所述邮件信息对应的邮件提取数据,将所述邮件提取数据进行存储;
所述通过预先训练的卷积神经网络模型获取与所述待识别子图片对应的图片分类结果,以作为签收章可信度值,包括:
若所述待识别子图片对应的签收章可信度值超出预设签收章可信度阈值,则所述待识别子图片对应的图片分类结果是有签章;
若所述待识别子图片对应的签收章可信度值未超出预设签收章可信度阈值,则所述待识别子图片对应的图片分类结果是无签章;
根据所述签收章可信度值与所述预设签收章可信度阈值的比较结果,对所述邮件附件增加一个有效单据标签或无效单据标签。
2.根据权利要求1所述的基于图像识别的货物签收单数据存储方法,其特征在于,所述通过预先训练的卷积神经网络模型获取与所述待识别子图片对应的图片分类结果,以作为签收章可信度值,包括:
获取所述待识别子图片对应的像素矩阵;
将所述像素矩阵输入至所述卷积神经网络模型的输入层,得到多个特征图;
将多个特征图输入至所述卷积神经网络模型的池化层,得到与多个特征图中每一特征图的最大值所对应一维行向量;
将与多个特征图中每一特征图的最大值所对应一维行向量输入至所述卷积神经网络模型的全连接层,得到与所述待识别子图片对应的图片特征向量;
将所述待识别子图片对应的图片特征向量输入至所述卷积神经网络模型的softmax分类器,得到与所述待识别子图片对应的图片分类结果,以作为签收章可信度值。
3.根据权利要求1所述的基于图像识别的货物签收单数据存储方法,其特征在于,所述若所述发件人邮箱地址满足所述邮件附件提取条件,获取所述邮件信息的中附件之后,还包括:
将所述邮件信息中的邮件附件发送至云服务器进行存储。
4.根据权利要求1所述的基于图像识别的货物签收单数据存储方法,其特征在于,所述若所述发件人邮箱地址满足所述邮件附件提取条件,获取所述邮件信息中的邮件附件之后,还包括:
判断所述邮件附件是否为空文件;若所述邮件附件不是空文件,执行通过已存储的图文识别模型对所述邮件附件进行识别以获取对应的签收单信息的步骤;若所述邮件附件是空文件,执行将用于提示重发邮件附件的提示信息至所述邮件信息对应的发送终端的步骤;
将用于提示重发邮件附件的提示信息至所述邮件信息对应的发送终端。
5.根据权利要求1所述的基于图像识别的货物签收单数据存储方法,其特征在于,所述图文识别模型为OCR图像识别模型;
所述通过已存储的图文识别模型对所述邮件附件进行识别以获取对应的签收单信息,包括:
通过OCR图像识别模型识别所述邮件附件中的快递公司名称、客户名称、客户电话号码、收件人名称、收件地址、发件单号、发件人名称、发件人电话号码、货物明细信息,以组成签收单信息。
6.根据权利要求1所述的基于图像识别的货物签收单数据存储方法,其特征在于,所述根据所述签收单信息中的快递公司名称,定位所述邮件附件对应的签收章待识别区域,以得到待识别子图片,包括:
获取所述签收单信息中的快递公司名称,及与所述快递公司名称对应的快递单签收章分布区域;
根据所述快递单签收章分布区域,对应获取所述邮件附件相应的签收章待识别区域;
获取所述签收章待识别区域对应的邮件附件局部图片,以得到待识别子图片。
7.根据权利要求1所述的基于图像识别的货物签收单数据存储方法,其特征在于,所述由所述签收单信息及所述签收章可信度值组成与所述邮件信息对应的邮件提取数据,将所述邮件提取数据进行存储之后,还包括:
判断当前系统日期是否为当前月份的月末日期;
若当前系统日期为当前月份的月末日期,获取邮件信息接收日期属于当前月份的邮件提取数据,与组成目标数据集;
根据预先设置的数据接收终端列表,将所述目标数据集发送至数据接收终端列表中的接收终端;其中,所述数据接收终端列表中包括若干个接收终端名称、及与每一接收终端名称对应的接收终端邮箱地址。
8.一种基于图像识别的货物签收单数据存储装置,其特征在于,包括:
第一判断单元,用于判断是否接收到邮件信息;
发件人邮箱地址获取单元,用于若接收到邮件信息,获取所述邮件信息对应的发件人邮箱地址;
第二判断单元,用于判断所述发件人邮箱地址是否满足预设的邮件附件提取条件;其中,所述邮件附件提取条件用于限定从若干个目标邮箱后缀和/或若干个目标发件人邮箱地址对应的邮件中提取邮件附件;
邮件附件提取单元,用于若所述发件人邮箱地址满足所述邮件附件提取条件,获取所述邮件信息中的邮件附件;
签收单信息获取单元,用于通过已存储的图文识别模型对所述邮件附件进行识别以获取对应的签收单信息;
待识别子图片获取单元,用于根据所述签收单信息中的快递公司名称,定位所述邮件附件对应的签收章待识别区域,以得到待识别子图片;
可信度值获取单元,用于通过预先训练的卷积神经网络模型获取与所述待识别子图片对应的图片分类结果,以作为签收章可信度值;以及
邮件提取数据获取单元,用于由所述签收单信息、邮件信息接收日期及所述签收章可信度值组成与所述邮件信息对应的邮件提取数据,将所述邮件提取数据进行存储;
所述可信度值获取单元,包括:
第一图片分类结果单元,用于若所述待识别子图片对应的签收章可信度值超出预设签收章可信度阈值,则所述待识别子图片对应的图片分类结果是有签章;
第二图片分类结果单元,用于若所述待识别子图片对应的签收章可信度值未超出预设签收章可信度阈值,则所述待识别子图片对应的图片分类结果是无签章;
单据标签单元,用于根据所述签收章可信度值与所述预设签收章可信度阈值的比较结果,对所述邮件附件增加一个有效单据标签或无效单据标签。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于图像识别的货物签收单数据存储方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于图像识别的货物签收单数据存储方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010147293.1A CN111353744B (zh) | 2020-03-05 | 2020-03-05 | 基于图像识别的货物签收单数据存储方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010147293.1A CN111353744B (zh) | 2020-03-05 | 2020-03-05 | 基于图像识别的货物签收单数据存储方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111353744A CN111353744A (zh) | 2020-06-30 |
CN111353744B true CN111353744B (zh) | 2023-12-08 |
Family
ID=71196033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010147293.1A Active CN111353744B (zh) | 2020-03-05 | 2020-03-05 | 基于图像识别的货物签收单数据存储方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353744B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116957444A (zh) * | 2023-09-20 | 2023-10-27 | 中国邮电器材集团有限公司 | 一种基于签收单的物流管理方法、装置、介质及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103095885A (zh) * | 2013-01-28 | 2013-05-08 | 东莞宇龙通信科技有限公司 | 一种移动终端及其邮箱地址管理方法 |
CN104103004A (zh) * | 2014-07-23 | 2014-10-15 | 陆伶将 | 一种智能自助邮箱交互系统、应用方法及其通讯方法 |
CN104504549A (zh) * | 2014-12-26 | 2015-04-08 | 河南信安通信技术有限公司 | 快递面单快速录入方法 |
CN106713114A (zh) * | 2015-11-17 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种核验信息处理方法及设备 |
CN106845894A (zh) * | 2016-12-29 | 2017-06-13 | 天津中科智能识别产业技术研究院有限公司 | 一种快递包裹分拣方法及其装置 |
CN108476165A (zh) * | 2016-01-28 | 2018-08-31 | 华为技术有限公司 | 一种信息交互方法、客户端和装置 |
CN109151078A (zh) * | 2018-10-31 | 2019-01-04 | 厦门市美亚柏科信息股份有限公司 | 一种分布式智能邮件分析过滤方法、系统及存储介质 |
CN109740133A (zh) * | 2018-12-10 | 2019-05-10 | 平安科技(深圳)有限公司 | 基于人工智能的汇总邮件方法、装置、设备及存储介质 |
CN110443538A (zh) * | 2019-06-20 | 2019-11-12 | 苏州视印智能系统有限公司 | 一种收件自动信息识别系统及方法 |
-
2020
- 2020-03-05 CN CN202010147293.1A patent/CN111353744B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103095885A (zh) * | 2013-01-28 | 2013-05-08 | 东莞宇龙通信科技有限公司 | 一种移动终端及其邮箱地址管理方法 |
CN104103004A (zh) * | 2014-07-23 | 2014-10-15 | 陆伶将 | 一种智能自助邮箱交互系统、应用方法及其通讯方法 |
CN104504549A (zh) * | 2014-12-26 | 2015-04-08 | 河南信安通信技术有限公司 | 快递面单快速录入方法 |
CN106713114A (zh) * | 2015-11-17 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种核验信息处理方法及设备 |
CN108476165A (zh) * | 2016-01-28 | 2018-08-31 | 华为技术有限公司 | 一种信息交互方法、客户端和装置 |
CN106845894A (zh) * | 2016-12-29 | 2017-06-13 | 天津中科智能识别产业技术研究院有限公司 | 一种快递包裹分拣方法及其装置 |
CN109151078A (zh) * | 2018-10-31 | 2019-01-04 | 厦门市美亚柏科信息股份有限公司 | 一种分布式智能邮件分析过滤方法、系统及存储介质 |
CN109740133A (zh) * | 2018-12-10 | 2019-05-10 | 平安科技(深圳)有限公司 | 基于人工智能的汇总邮件方法、装置、设备及存储介质 |
CN110443538A (zh) * | 2019-06-20 | 2019-11-12 | 苏州视印智能系统有限公司 | 一种收件自动信息识别系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111353744A (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7930351B2 (en) | Identifying undesired email messages having attachments | |
US9767379B2 (en) | Systems, methods and computer program products for determining document validity | |
US9253338B2 (en) | Systems and methods for routing facsimiles based on content | |
US9247100B2 (en) | Systems and methods for routing a facsimile confirmation based on content | |
US7949718B2 (en) | Phonetic filtering of undesired email messages | |
US9311531B2 (en) | Systems and methods for classifying objects in digital images captured using mobile devices | |
US9870420B2 (en) | Classification and storage of documents | |
US20080091765A1 (en) | Method and system for detecting undesired email containing image-based messages | |
US9311627B1 (en) | Mail processing and delivery within a controlled-environment facility | |
WO2011064235A1 (en) | Managing electronic messages | |
US11238539B1 (en) | Intelligent routing control | |
WO2006086928A1 (en) | System and method for registered and authenticated electronic messages | |
KR20220051409A (ko) | 블록체인에 기반한 서명 운송장 반환 방법, 장치, 기기와 판독 가능 저장매체 | |
CN111353744B (zh) | 基于图像识别的货物签收单数据存储方法及装置 | |
US11620842B2 (en) | Automated data extraction and document generation | |
US20170078234A1 (en) | Systems and methods for detecting, reporting and cleaning metadata from inbound attachments | |
KR20190020963A (ko) | 인공지능 기반의 홈페이지 개인정보유출차단시스템 | |
US20200387998A1 (en) | System and method for authenticated mail | |
US20210326629A1 (en) | Systems and methods for digitized document image text contouring | |
CN108696422B (zh) | 电子邮件处理装置和电子邮件处理方法 | |
US20190370541A1 (en) | System and method for determining originality of computer-generated images | |
CN113746814B (zh) | 邮件处理方法、装置、电子设备及存储介质 | |
Dhavale | Advanced image-based spam detection and filtering techniques | |
Manek et al. | ReP-ETD: A Repetitive Preprocessing technique for Embedded Text Detection from images in spam emails | |
US8576455B2 (en) | Determining if a received fax is an auto-reply for a transmitted fax |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |