CN106709474A - 一种手写电话号码识别、校验及信息发送系统 - Google Patents
一种手写电话号码识别、校验及信息发送系统 Download PDFInfo
- Publication number
- CN106709474A CN106709474A CN201710048843.2A CN201710048843A CN106709474A CN 106709474 A CN106709474 A CN 106709474A CN 201710048843 A CN201710048843 A CN 201710048843A CN 106709474 A CN106709474 A CN 106709474A
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- identification
- mobile phone
- verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012795 verification Methods 0.000 title claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000003709 image segmentation Methods 0.000 claims abstract description 15
- 238000007726 management method Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 21
- 230000003287 optical effect Effects 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000002093 peripheral effect Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000004260 weight control Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000004075 alteration Effects 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
- G06V30/1423—Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Character Discrimination (AREA)
Abstract
本发明一种手写电话号码识别、校验及信息发送系统涉及神经网络识别领域,尤其是一种适用于快递、物流配送流程中使用的手写电话号码识别。包括图像采集器和系统总机,系统总机里设有依次相联的图像识别模块、信息校验及管理模块和短消息发送模块;图像采集器与图像识别模块通过无线方式相联;手写电话号码识别方法包括1)手机号码数字显著性提取;2)图像分割;3)特征提取;4)神经网络识别。本发明可广泛应用在物流行业中,对于收件人取件信息的发送无需人工手动输入和核对,手机号码通过模糊识别由后台数据库信息管理系统自动校验发送相应的取件信息,无需人工干预,可极大提高工作效率。
Description
技术领域
本发明一种手写电话号码识别、校验及信息发送系统涉及神经网络识别领域,尤其是一种适用于快递、物流配送流程中使用的手写电话号码识别。
背景技术
目前在物流配送领域,货物在经过取件、分拨发货、中转等多个环节后,最终到达目的地区域营业部,该站点负责通知取件人到相应的目的地取件。其发送取件消息多数通过短消息或电话等方式通知用户取件,主要联系方式为取件人的手机号码,其书写构成主要有手写体和印刷体。
当前取件信息的发送主要有以下三类:
1、通过手动输入取件人的手机号和对应单号,通过GSM或语音电话方式将信息发出。这类数据信息的发送主要存在以下缺点,
大批量数据信息全部手动输入,极易造成数据漏输、错输和少输;
整个数据输入全部依赖人工,造成人工成本上升;
对于模糊数据,需要人工肉眼辨别,增加了手机号码数据录入的复杂性,降低了录入效率;
2、二是通过光学字符识别(OCR),主要应用图像识别技术,将采集到的数字图像通过图像识别方法,识别出图像中的数字。这类软件一般集成在手机端,通过手机APP扫描印刷体手机号码获得手机号码,进行取件消息构造。主要存在以下几个方面缺点:
这类软件运行速度慢,延时严重,不及手工录入效率高,不适合实时应用;
这类软件与手机绑定,耗电量大,不能长时间进行持续作业;
主要只针对印刷体手机号码识别,,且识别后的结果需要人工进一步验证正确性,这都极大地降低了快递投递工作效率;
对于手写体手机号码,识别率是主要瓶颈,且识别速度慢,功耗大;
3、三是通过专有装置扫描二维码,通过二维码检索手机号,这类处理方式的主要弊端是不能识别手写体号码,同时通过二维码检索手机号出错率比较高,且人工现场无法核对正确性,是一种模糊的盲处理方式,容易发送误取件消息。
发明内容
本发明的目的是针对上述不足之处提供一种手写电话号码识别、校验及信息发送系统,将用户的手写体手机号码通过神经网络系统识别后,自动发送取件信息给用户,用户无需频繁地对识别后的号码进行校验其正确性,整个号码的正确性由后台数据库信息管理系统自动完成,无需人工干预。同时依据手机号段11位编码规则,在后台数据量稳定的基础上,采用手机号码部分识别策略,提高了整个识别速度和正确率,满足快递投递领域自动发送取件消息,极大提高工作效率。
本发明是采取以下技术方案实现的:
手写电话号码识别、校验及信息发送系统包括图像采集器和系统总机,系统总机里设有依次相联的图像识别模块、信息校验及管理模块和短消息发送模块;图像采集器与图像识别模块通过无线方式相联;
图像采集器完成快递单中手写号码区域的图像采集任务,并通过无线方式上传到系统总机;
图像识别模块采用手写体数字图像分类器,是本系统的核心部分,完成手机号码的识别功能,通过BP神经网络的学习,修正误差,得到期望输出的神经网络,用以识别出手写手机号码;
信息校验及管理模块具有手机号码/收件人信息管理器和无线通信模块;对图像识别模块识别后的结果,通过后动态生成的数据库,对校验结果核对其正确性,减少人工干预,提高识别的准确率;
短消息发送模块采用GSM MODEM方式,完成快递取件消息的发送功能,构建短消息数据包,通过识别后的手机号码将取件信息发送给取件人。
图像采集器包括光学系统、镜头、相机和相机驱动模块;所述光学系统实现光源控制。
光学系统采用紧凑结构、高分辨率、像差校正达到衍射极限的光学系统,实现精确定位,在约束空间中成像系统具有高分辨率和小识别误差;采用短的工作距离和大数值孔径(NA),提高成像对比度;采用高分辨率平场复消色差的衍射极限光学系统对色差、高级像差进行校正。
为了提高识别速度,所述短消息发送模块依据手机号段编码规则,采用部分识别和后台检索双重机制来提高识别的速度。
手写电话号码识别、校验及信息发送系统的手写电话号码识别方法,包括如下步骤:
1)手机号码数字显著性提取,图像的显著性是人类视觉系统选择和当前任务有关联的特定感兴趣区域作为处理对象,而忽略其它无关信息比如背景边界等信息,自动判别有效目标的所在范围,从精度,速度上都会起到至关重要的作用。基于订单中显著性目标是简单背景下的单色数字,采用鲁棒性背景优先的显著性优化方法,将目标号码从背景中分离出来,得到手机号码二值图像,便于后续分割处理;
具体的是将图像划分为N个超像素块,N是不为零的自然数,通过在颜色空间计算块与边界块的颜色距离,在空间上计算块与边界块的绝对距离,通过这两个距离和的加权来判断块的显著性值,从而判断某个块是否属于目标区域;
所述显著性值的定义公式为,
其中为处理的图像基本区域,单个像素或经分割后的像素集合块;pi为第i个处理的图像基本区域;
定义为块间在CIE-Lab空间中的平均颜色距离;
为块间的空间距离,计算公式为,
,
其中表示任意两点间的欧拉距离;
表示区域的权值比重,通过计算两点间在颜色空间中的最短距离确定;源于图像背景具有面积大且同质的特性,利用与背景区域的最短距离来判断显著性目标;
2)图像分割
图像分割是对显著性检测后得到手机号码二值图像进行切分,分别分割出11位手机号码数字;显著图中前景目标数字区域和背景区域的分界线明显,图像灰度直方图具有显著的双峰形态,从双峰间波谷即可判断数字分割位置;图像分割的具体步骤为,
2-1) 将手机号码二值图像垂直投影,生成投影向量以及对应的投影曲线;
2-2)将投影曲线的波谷作为数字分割位置,进行区域分割;
2-3)将步骤2-2)中所述分割图像进行区域图像归一化后,得到标准形式图像;
3)特征提取
采用粗网格提取方法实现特征提取;
所述粗网格提取方法的具体过程为,
3-1)提取经过步骤2)图像分割后的数字的轮廓特征;
3-2)依据周边轮廓特征对经过步骤2)得到的图像边界进行裁剪;
3-3)将经过步骤3-2)裁剪后的每个数字图像按黑像素占总像素的比率提取其特征值,从而形成特征向量库;
4)神经网络识别
4-1)将来自步骤3)的特征向量库作为神经网络的训练输入的特征量,根据神经网络文件中设定的参数对待测图像进行识别,计算每个图像的隐含层和输出层实际值;
4-2)根据输出层与数字的对应关系,将神经网络的测试结果和识别结果的置信度存储到文件,将识别结果反馈到信息校验及管理模块,进行识别结果的校验和取件消息的处理。
步骤4)中所述神经网络采用BP 神经网络,BP神经网络的算法流程如下:
a)准备训练数据集;将来自步骤3)的特征向量库转换为输入层特征向量训练集合,并将样本的标签保存到输入层的类别向量,即为输出层维度;
b)初始化BP神经网络;
c)迭代训练BP神经网络,计算出隐含层的输出结果和输出层的实际输出结果;
d)将步骤c)的输出层的实际输出结果与步骤a)中的类别向量对比,计算每个图像的误差,然后求所有样本的误差平均值;
d-1)当误差平均值小于预定误差,训练结束,将神经网络的参数保存到文件;
d-2)当误差平均值大于预定误差,则需调整神经网络参数;在此基础上,判断迭代次数,如果次数小于预定的最大迭代次数,将继续进行步骤c)的神经网络的训练;否则直接将网络参数保存到文件中,神经网络训练结束。
步骤3-3)中具体的方法是:把每个数字图像定义成一个5*5像素的模板,将每个样品数字图像的长度和宽度5等分,平均有*5个等分,对每一等分进行像素个数统计,除以每一份的面积总数即得特征值,从而形成特征向量库,作为后续神经网络的训练输入的特征量。
步骤3)中的特征提取是从高维的像素空间映射到低维特征向量空间的过程,因手写体数字的笔画相对固定,特征差异较大,系统采用粗网格特征,将数字点阵划分为5*5=25个局部区域,将区域中的点阵密度作为特征描述,统计每个区域中图像像素所占的百分比作为特征数据,如:针对16*16像素的点阵,将划分为5*5像素的小区域,得到十六维粗网格特征;该方法有效抑制图像噪声,提高系统的识别率。
步骤3)中所述的轮廓特征的提取是将数字字形加上外接矩形边框,然后分别从上、下、左、右四个方向依次扫描数字点阵直至碰到第一个黑象素或对面的边框为止,记录下每次扫 描所经过的白象素数,从而得到周边轮廓特征;所得到的周边轮廓特征稳定性强、较易提取、维数较低、减少计算量。
步骤1)的显著性值的定义公式中的表示区域的边界权值比重。具体计算过程如下:
。
其中:
这里表示边界点集合,表示点对点总长的分量长度,使用长度的平方根来实现规模不变性,保证了不同分辨率图像块之间的稳定性。这里关键是给出,位了区别目标区域与背景区域连接度的不同,这里规定当点,同属于一类区域时,则分量长度接近1,反之则为0。由此给出具体实施过程如下:首先在构造像素结点间的无向带权图,权值为相邻超像素点在CIE-Lab空间中的平均颜色距离,任意两点间在无向图上颜色空间最短路径权值之和记为。点对点长度分量记为:
(2)
为权重控控制因子,设置为10,;分量长度值域为(0,1)中。从中可以看出,当与在同一类区域域时,,分量长度,点对点的总长的贡献量为1,反之则接近为0。
本发明的优点:
本发明提供一种快速基于区域手机号码(手写体或印刷体)识别系统,解决了目前市场上存在的单一只针对印刷体手机号码慢速识别的弊端,满足物流、快递等领域需要批量手动手机号码快速识别和应用的需求;提供了一种快速识别手机号码识别的方法,将反向神经网络BP数字识别与后期识别结果自动进行校验相集成,可以快速精确地识别出手写体数字;可以对手机号码的识别结果进行自动校验,无需人工干预;提供一种快速选择确定目标号码识别范围的方法,通过动态设置前导线索,对同一视场下存在的多个手机号码,可以快速识别目标号码所在的位置,避免人工手动矫正识别范围,减少人工干预,提高识别速度;通过建立数据库信息管理系统,集中存储区域手机号码,对二次识别的号码提供校验检测,提高识别的速速和精确性。
附图说明
以下将结合附图对本发明作进一步说明:
图1是本发明系统架构图;
图2是本发明的图像采集器的图像采集原理框图;
图3是本发明的图像识别模块的原理框图;
图4是本发明的图像识别模块的手机号码数字显著性提取流程图;
图5是本发明的图像识别模块的图像分割流程简图;
图6是本发明的图像识别模块的图像分割流程详图;
图7是本发明的图像识别模块的数字特征向量生成流程图;
图8是本发明的图像识别模块的神经网络识别流程图;
图9是本发明的信息校验及管理模块的结构示意图;
图10是本发明的短消息发送模块的结构示意图;
图11是本发明的短消息发送模块的发送流程图。
具体实施方式
参照附图1~11,本发明手写电话号码识别、校验及信息发送系统包括图像采集器和系统总机,系统总机里设有依次相联的图像识别模块、信息校验及管理模块和短消息发送模块;图像采集器与图像识别模块通过无线方式相联;
图像采集器完成快递单中手写号码区域的图像采集任务,并通过无线方式上传到系统总机;
图像识别模块采用手写体数字图像分类器,是本系统的核心部分,完成手机号码的识别功能,通过BP神经网络的学习,修正误差,得到期望输出的神经网络,用以识别出手写手机号码;
信息校验及管理模块具有手机号码/收件人信息管理器和无线通信模块;对图像识别模块识别后的结果,通过后动态生成的数据库,对校验结果核对其正确性,减少人工干预,提高识别的准确率;
短消息发送模块采用GSM MODEM方式,完成快递取件消息的发送功能,构建短消息数据包,通过识别后的手机号码将取件信息发送给取件人(参照附图11)。
图像采集器包括光学系统、镜头、相机和相机驱动模块;所述光学系统实现光源控制(参照附图2)。图像采集器可采用Euresys公司的Picolo2图像采集卡,采集速度快,可以缩短图像识别的整体时间。
光学系统采用紧凑结构、高分辨率、像差校正达到衍射极限的光学系统,实现精确定位,在约束空间中成像系统具有高分辨率和小识别误差;采用短的工作距离和大数值孔径(NA),提高成像对比度;采用高分辨率平场复消色差的衍射极限光学系统对色差、高级像差进行校正;
为了提高识别速度,所述短消息发送模块依据手机号段编码规则,采用部分识别和后台检索双重机制来提高识别的速度。
手写电话号码识别、校验及信息发送系统的手写电话号码识别方法,包括如下步骤:
1)手机号码数字显著性提取,图像的显著性是人类视觉系统选择和当前任务有关联的特定感兴趣区域作为处理对象,而忽略其它无关信息比如背景边界等信息,自动判别有效目标的所在范围,从精度,速度上都会起到至关重要的作用。基于订单中显著性目标是简单背景下的单色数字,采用鲁棒性背景优先的显著性优化方法,将目标号码从背景中分离出来,得到手机号码二值图像,便于后续分割处理;
具体的是将图像划分为N个超像素块,N是不为零的自然数,通过在颜色空间计算块与边界块的颜色距离,在空间上计算块与边界块的绝对距离,通过这两个距离和的加权来判断块的显著性值,从而判断某个块是否属于目标区域;
所述显著性值的定义公式为,
其中为处理的图像基本区域,单个像素或经分割后的像素集合块;pi为第i个处理的图像基本区域;
定义为块间在CIE-Lab空间中的平均颜色距离;
为块间的空间距离,计算公式为,
,
其中表示任意两点间的欧拉距离;
表示区域的权值比重,通过计算两点间在颜色空间中的最短距离确定;源于图像背景具有面积大且同质的特性,利用与背景区域的最短距离来判断显著性目标;
2)图像分割
图像分割是对显著性检测后得到手机号码二值图像进行切分,分别分割出11位手机号码数字;显著图中前景目标数字区域和背景区域的分界线明显,图像灰度直方图具有显著的双峰形态,从双峰间波谷即可判断数字分割位置;图像分割的具体步骤为,
2-1) 将手机号码二值图像垂直投影,生成投影向量以及对应的投影曲线;
2-2)将投影曲线的波谷作为数字分割位置,进行区域分割;
2-3)将步骤2-2)中所述分割图像进行区域图像归一化后,得到标准形式图像;
3)特征提取
采用粗网格提取方法实现特征提取;
所述粗网格提取方法的具体过程为,
3-1)提取经过步骤2)图像分割后的数字的轮廓特征;
3-2)依据周边轮廓特征对经过步骤2)得到的图像边界进行裁剪;
3-3)将经过步骤3-2)裁剪后的每个数字图像按黑像素占总像素的比率提取其特征值,从而形成特征向量库;
4)神经网络识别
4-1)将来自步骤3)的特征向量库作为神经网络的训练输入的特征量,根据神经网络文件中设定的参数对待测图像进行识别,计算每个图像的隐含层和输出层实际值;
4-2)根据输出层与数字的对应关系,将神经网络的测试结果和识别结果的置信度存储到文件,将识别结果反馈到信息校验及管理模块,进行识别结果的校验和取件消息的处理。
步骤4)中所述神经网络采用BP 神经网络,BP神经网络的算法流程如下:
a)准备训练数据集;将来自步骤3)的特征向量库转换为输入层特征向量训练集合,并将样本的标签保存到输入层的类别向量,即为输出层维度;
b)初始化BP神经网络;
c)迭代训练BP神经网络,计算出隐含层的输出结果和输出层的实际输出结果;
d)将步骤c)的输出层的实际输出结果与步骤a)中的类别向量对比,计算每个图像的误差,然后求所有样本的误差平均值;
d-1)当误差平均值小于预定误差,训练结束,将神经网络的参数保存到文件;
d-2)当误差平均值大于预定误差,则需调整神经网络参数;在此基础上,判断迭代次数,如果次数小于预定的最大迭代次数,将继续进行步骤c)的神经网络的训练;否则直接将网络参数保存到文件中,神经网络训练结束。
步骤3-3)中具体的方法是:把每个数字图像定义成一个5*5像素的模板,将每个样品数字图像的长度和宽度5等分,平均有*5个等分,对每一等分进行像素个数统计,除以每一份的面积总数即得特征值,从而形成特征向量库,作为后续神经网络的训练输入的特征量。
步骤3)中的特征提取是从高维的像素空间映射到低维特征向量空间的过程,因手写体数字的笔画相对固定,特征差异较大,系统采用粗网格特征,将数字点阵划分为5*5=25个局部区域,将区域中的点阵密度作为特征描述,统计每个区域中图像像素所占的百分比作为特征数据,如:针对16*16像素的点阵,将划分为5*5像素的小区域,得到十六维粗网格特征;该方法有效抑制图像噪声,提高系统的识别率。
步骤3)中所述的轮廓特征的提取是将数字字形加上外接矩形边框,然后分别从上、下、左、右四个方向依次扫描数字点阵直至碰到第一个黑象素或对面的边框为止,记录下每次扫 描所经过的白象素数,从而得到周边轮廓特征;所得到的周边轮廓特征稳定性强、较易提取、维数较低、减少计算量。
本发明中信息校验及管理模块完成手机号码识别结果的自动校验任务,提高识别的自适应性度,手机号码信息校验管理器将识别出的手机号码在系统数据库中进行检索,如果存在则表示识别正确,无需人工后验;当数据库中不存在该手机号码时,表示该号码是新识别出的数据,需要人工复核该号码的正确性,最后将正确号码存入数据库中,以备该号码下次再识别后,手机号码/收件人信息管理器自动验证其正确性。
目前通过主机向客户手机端发送消息主要有三种方式,一是通过运营商短信网管,适合大型网络通讯公司。二是通过专有网站提供的短消息服务功能直接实现,对第三方依赖性较大,不适合长期应用。三是通过GSM MODEM方式,可扩张性强。本系统使用GSMMODEM方式,其硬件构成如图9所示,首先将SIM卡插入GSM MODEM的通信插卡槽上,其次将GSM MODEM通过红外线与系统所在PC机相连接,提供数据通信的物理链路,构建一个虚拟串口。系统通过串口将命令以PDU模式编译成GSM MODEM可以发送的传输码,发送到客户端。
短消息发送模块在构造消息包的基础上,通过识别后的手机号码将信息发送给取件人。为了提高识别速度,依据手机号段编码规则,采用部分识别和后台检索双重机制来提高识别的速度。依据我国目前使用的手机号码为11位,其中各段的编码构成以及含义为:
前3位—网络识别号;
第4-7位—地区编码;
第8-11位—用户号码;
在人流量集中的某个封闭区域中,用户号段基本是唯一的,即不同用户的用户号段不会出现相同的情况,应用手机号码区域集中的特点,所以在识别过程中,优先检测手机后四位码识别取件号码,同时在线检索后台数据字典,当用户号码在后台数据库中有对应匹配的用户号码,则无需识别后续7位号码,不仅提高识别速度,同时提高准确度。
本发明可广泛应用在物流行业中,对于收件人取件信息的的发送无需人工手动输入和核对,手机号码通过模糊识别后,整个号码的正确性由后台数据库信息管理系统自动完成并发送相应的取件信息,无需人工干预,提高了整个识别速度和正确率,满足快递投递领域需求,可极大提高工作效率。
Claims (10)
1.一种手写电话号码识别、校验及信息发送系统,其特征在于:包括图像采集器和系统总机,系统总机里设有依次相联的图像识别模块、信息校验及管理模块和短消息发送模块;图像采集器与图像识别模块通过无线方式相联;
图像采集器完成快递单中手写号码区域的图像采集任务,并通过无线方式上传到系统总机;
图像识别模块采用手写体数字图像分类器,是本系统的核心部分,完成手机号码的识别功能,通过BP神经网络的学习,修正误差,得到期望输出的神经网络,用以识别出手写手机号码;
信息校验及管理模块具有手机号码/收件人信息管理器和无线通信模块;对图像识别模块识别后的结果,通过后动态生成的数据库,对校验结果核对其正确性,减少人工干预,提高识别的准确率;
短消息发送模块采用GSM MODEM方式,完成快递取件消息的发送功能,构建短消息数据包,通过识别后的手机号码将取件信息发送给取件人。
2.根据权利要求1所述的手写电话号码识别、校验及信息发送系统,其特征在于:图像采集器包括光学系统、镜头、相机和相机驱动模块;所述光学系统实现光源控制。
3.根据权利要求1所述的手写电话号码识别、校验及信息发送系统,其特征在于:所述光学系统采用平场复消色差光学系统。
4.根据权利要求1所述的手写电话号码识别、校验及信息发送系统,其特征在于:所述短消息发送模块依据手机号段编码规则,采用部分识别和后台检索双重机制来提高识别的速度。
5.一种手写电话号码识别、校验及信息发送系统的手写电话号码识别方法,其特征在于,包括如下步骤:
1)手机号码数字显著性提取,采用鲁棒性背景优先的显著性优化方法,将目标号码从背景中分离出来,得到手机号码二值图像,便于后续分割处理;
具体的是将图像划分为N个超像素块,N是不为零的自然数,通过在颜色空间计算块与边界块的颜色距离,在空间上计算块与边界块的绝对距离,通过这两个距离和的加权来判断块的显著性值,从而判断某个块是否属于目标区域;
所述显著性值的定义公式为,
其中为处理的图像基本区域,单个像素或经分割后的像素集合块;pi为第i个处理的图像基本区域;
定义为块间在CIE-Lab空间中的平均颜色距离;
为块间的空间距离,计算公式为,
,
其中表示任意两点间的欧拉距离;
表示区域的权值比重,通过计算两点间在颜色空间中的最短距离确定;源于图像背景具有面积大且同质的特性,利用与背景区域的最短距离来判断显著性目标;
2)图像分割
图像分割是对显著性检测后得到手机号码二值图像进行切分,分别分割出11位手机号码数字;显著图中前景目标数字区域和背景区域的分界线明显,图像灰度直方图具有显著的双峰形态,从双峰间波谷即可判断数字分割位置;图像分割的具体步骤为,
2-1) 将手机号码二值图像垂直投影,生成投影向量以及对应的投影曲线;
2-2)将投影曲线的波谷作为数字分割位置,进行区域分割;
2-3)将步骤2-2)中所述分割图像进行区域图像归一化后,得到标准形式图像;
3)特征提取
采用粗网格提取方法实现特征提取;
所述粗网格提取方法的具体过程为,
3-1)提取经过步骤2)图像分割后的数字的轮廓特征;
3-2)依据周边轮廓特征对经过步骤2)得到的图像边界进行裁剪;
3-3)将经过步骤3-2)裁剪后的每个数字图像按黑像素占总像素的比率提取其特征值,从而形成特征向量库;
4)神经网络识别
4-1)将来自步骤3)的特征向量库作为神经网络的训练输入的特征量,根据神经网络文件中设定的参数对待测图像进行识别,计算每个图像的隐含层和输出层实际值;
4-2)根据输出层与数字的对应关系,将神经网络的测试结果和识别结果的置信度存储到文件,将识别结果反馈到信息校验及管理模块,进行识别结果的校验和取件消息的处理。
6.根据权利要求5所述的手写电话号码识别、校验及信息发送系统的手写电话号码识别方法,其特征在于,所述步骤4)中所述神经网络采用BP 神经网络,BP神经网络的算法流程如下:
a)准备训练数据集;将来自步骤3)的特征向量库转换为输入层特征向量训练集合,并将样本的标签保存到输入层的类别向量,即为输出层维度;
b)初始化BP神经网络;
c)迭代训练BP神经网络,计算出隐含层的输出结果和输出层的实际输出结果;
d)将步骤c)的输出层的实际输出结果与步骤a)中的类别向量对比,计算每个图像的误差,然后求所有样本的误差平均值;
d-1)当误差平均值小于预定误差,训练结束,将神经网络的参数保存到文件;
d-2)当误差平均值大于预定误差,则需调整神经网络参数;在此基础上,判断迭代次数,如果次数小于预定的最大迭代次数,将继续进行步骤c)的神经网络的训练;否则直接将网络参数保存到文件中,神经网络训练结束。
7.根据权利要求5所述的手写电话号码识别、校验及信息发送系统的手写电话号码识别方法,其特征在于,步骤3-3)中具体的方法是:把每个数字图像定义成一个5*5像素的模板,将每个样品数字图像的长度和宽度5等分,平均有*5个等分,对每一等分进行像素个数统计,除以每一份的面积总数即得特征值,从而形成特征向量库,作为后续神经网络的训练输入的特征量。
8.根据权利要求5所述的手写电话号码识别、校验及信息发送系统的手写电话号码识别方法,其特征在于,步骤3)中的特征提取是从高维的像素空间映射到低维特征向量空间的过程,因手写体数字的笔画相对固定,特征差异较大,系统采用粗网格特征,将数字点阵划分为5*5=25个局部区域,将区域中的点阵密度作为特征描述,统计每个区域中图像像素所占的百分比作为特征数据;抑制图像噪声,提高系统的识别率。
9.根据权利要求5所述的手写电话号码识别、校验及信息发送系统的手写电话号码识别方法,其特征在于,步骤3)中所述的轮廓特征的提取是将数字字形加上外接矩形边框,然后分别从上、下、左、右四个方向依次扫描数字点阵直至碰到第一个黑象素或对面的边框为止,记录下每次扫 描所经过的白象素数,从而得到周边轮廓特征;所得到的周边轮廓特征稳定性强、较易提取、维数较低、减少计算量。
10.根据权利要求5所述的手写电话号码识别、校验及信息发送系统的手写电话号码识别方法,其特征在于,步骤1)的显著性值的定义公式中的表示区域的边界权值比重,具体计算过程如下:
,
其中,
这里表示边界点集合,表示点对点总长的分量长度,使用长度的平方根来实现规模不变性,保证了不同分辨率图像块之间的稳定性;这里关键是给出,位了区别目标区域与背景区域连接度的不同,这里规定当点,同属于一类区域时,则分量长度接近1,反之则为0;由此给出具体实施过程如下,首先在构造像素结点间的无向带权图,权值为相邻超像素点在CIE-Lab空间中的平均颜色距离,任意两点间在无向图上颜色空间最短路径权值之和记为;点对点长度分量记为:
,
为权重控控制因子,设置为10;分量长度值域为(0,1)中;从中可以看出,当与在同一类区域域时,,分量长度,点对点的总长的贡献量为1,反之则接近为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710048843.2A CN106709474A (zh) | 2017-01-23 | 2017-01-23 | 一种手写电话号码识别、校验及信息发送系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710048843.2A CN106709474A (zh) | 2017-01-23 | 2017-01-23 | 一种手写电话号码识别、校验及信息发送系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106709474A true CN106709474A (zh) | 2017-05-24 |
Family
ID=58909260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710048843.2A Pending CN106709474A (zh) | 2017-01-23 | 2017-01-23 | 一种手写电话号码识别、校验及信息发送系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106709474A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111674360A (zh) * | 2019-01-31 | 2020-09-18 | 青岛科技大学 | 基于区块链的车辆追踪系统中建立区分样本模型的方法 |
CN111913646A (zh) * | 2020-08-18 | 2020-11-10 | 科大讯飞股份有限公司 | 一种信息发送方法及装置 |
CN112967000A (zh) * | 2021-03-11 | 2021-06-15 | 中工美(北京)供应链物流管理有限责任公司 | 白银仓储自动入库系统的外观和重量识别方法 |
CN113240018A (zh) * | 2021-05-19 | 2021-08-10 | 哈尔滨医科大学 | 一种基于误差反向传播算法的手绘图形分类方法及系统 |
CN113450484A (zh) * | 2021-05-10 | 2021-09-28 | 华翔翔能科技股份有限公司 | 一种小区车辆通行管理方法及系统 |
CN113618790A (zh) * | 2021-07-02 | 2021-11-09 | 湖北工程学院 | 自助理发系统及方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060062462A1 (en) * | 2004-09-21 | 2006-03-23 | Microsoft Corporation | System and method for recognizing handwritten music notations |
US20080304719A1 (en) * | 2007-06-08 | 2008-12-11 | Microsoft Corporation | Bi-directional handwriting insertion and correction |
CN102156865A (zh) * | 2010-12-14 | 2011-08-17 | 上海合合信息科技发展有限公司 | 手写文本行字符切分方法、识别方法 |
CN103853555A (zh) * | 2014-02-27 | 2014-06-11 | 苏州市职业大学 | 一种基于数字识别的短信发送装置 |
CN104517093A (zh) * | 2015-01-12 | 2015-04-15 | 河海大学常州校区 | 基于二维码的快递电子签收系统、工作方法及手机 |
CN104850932A (zh) * | 2015-04-10 | 2015-08-19 | 中科富创(北京)科技有限公司 | 基于手机号自动匹配的投递方法和系统 |
CN105184265A (zh) * | 2015-09-14 | 2015-12-23 | 哈尔滨工业大学 | 一种基于自学习的手写表格数字字符串快速识别的方法 |
CN106022273A (zh) * | 2016-05-24 | 2016-10-12 | 华东理工大学 | 基于动态样本选择策略的bp神经网络手写体识别系统 |
CN106327507A (zh) * | 2016-08-10 | 2017-01-11 | 南京航空航天大学 | 一种基于背景和前景信息的彩色图像显著性检测方法 |
-
2017
- 2017-01-23 CN CN201710048843.2A patent/CN106709474A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060062462A1 (en) * | 2004-09-21 | 2006-03-23 | Microsoft Corporation | System and method for recognizing handwritten music notations |
US20080304719A1 (en) * | 2007-06-08 | 2008-12-11 | Microsoft Corporation | Bi-directional handwriting insertion and correction |
CN102156865A (zh) * | 2010-12-14 | 2011-08-17 | 上海合合信息科技发展有限公司 | 手写文本行字符切分方法、识别方法 |
CN103853555A (zh) * | 2014-02-27 | 2014-06-11 | 苏州市职业大学 | 一种基于数字识别的短信发送装置 |
CN104517093A (zh) * | 2015-01-12 | 2015-04-15 | 河海大学常州校区 | 基于二维码的快递电子签收系统、工作方法及手机 |
CN104850932A (zh) * | 2015-04-10 | 2015-08-19 | 中科富创(北京)科技有限公司 | 基于手机号自动匹配的投递方法和系统 |
CN105184265A (zh) * | 2015-09-14 | 2015-12-23 | 哈尔滨工业大学 | 一种基于自学习的手写表格数字字符串快速识别的方法 |
CN106022273A (zh) * | 2016-05-24 | 2016-10-12 | 华东理工大学 | 基于动态样本选择策略的bp神经网络手写体识别系统 |
CN106327507A (zh) * | 2016-08-10 | 2017-01-11 | 南京航空航天大学 | 一种基于背景和前景信息的彩色图像显著性检测方法 |
Non-Patent Citations (4)
Title |
---|
R. ACHANTA,A. SHAJI,K. SMITH: "SLIC Superpixels Compared to State-of-the-Art Superpixel Methods", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
ZHU, WANGJIANG, LIANG, SHUANG, WEI, YICHEN等: ".Saliency optimization from", 《IEEE CONFERENCE ON COMPUTER VISION & PATTERN RECOGNITION》 * |
孙小虎: "金属雷管编码字符识别方法研究", 《万方学位论文》 * |
王璇等: "基于BP神经网络的手写数字识别的算法", 《控制理论与应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111674360A (zh) * | 2019-01-31 | 2020-09-18 | 青岛科技大学 | 基于区块链的车辆追踪系统中建立区分样本模型的方法 |
CN111913646A (zh) * | 2020-08-18 | 2020-11-10 | 科大讯飞股份有限公司 | 一种信息发送方法及装置 |
CN112967000A (zh) * | 2021-03-11 | 2021-06-15 | 中工美(北京)供应链物流管理有限责任公司 | 白银仓储自动入库系统的外观和重量识别方法 |
CN113450484A (zh) * | 2021-05-10 | 2021-09-28 | 华翔翔能科技股份有限公司 | 一种小区车辆通行管理方法及系统 |
CN113450484B (zh) * | 2021-05-10 | 2022-07-01 | 华翔翔能科技股份有限公司 | 一种小区车辆通行管理方法及系统 |
CN113240018A (zh) * | 2021-05-19 | 2021-08-10 | 哈尔滨医科大学 | 一种基于误差反向传播算法的手绘图形分类方法及系统 |
CN113618790A (zh) * | 2021-07-02 | 2021-11-09 | 湖北工程学院 | 自助理发系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
CN106709474A (zh) | 一种手写电话号码识别、校验及信息发送系统 | |
CN112651289B (zh) | 一种增值税普通发票智能识别与校验系统及其方法 | |
CN108805076B (zh) | 环境影响评估报告书表格文字的提取方法及系统 | |
CN109657665A (zh) | 一种基于深度学习的发票批量自动识别系统 | |
CN106203539B (zh) | 识别集装箱箱号的方法和装置 | |
CN112862024B (zh) | 一种文本识别方法及系统 | |
CN116434266B (zh) | 一种医疗检验单的数据信息自动提取分析方法 | |
CN112883980B (zh) | 一种数据处理方法及系统 | |
CN107784321A (zh) | 数字绘本快速识别方法、系统及计算机可读存储介质 | |
CN105335760A (zh) | 一种图像数字字符识别方法 | |
CN110647956A (zh) | 一种联合二维码识别的发票信息提取方法 | |
CN113657274A (zh) | 表格生成方法、装置、电子设备、存储介质及产品 | |
CN113762269A (zh) | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 | |
CN111881958A (zh) | 车牌分类识别方法、装置、设备及存储介质 | |
CN105184329A (zh) | 一种基于云平台的脱机手写识别方法 | |
CN112418180A (zh) | 表格数据提取方法、装置、设备及计算机存储介质 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
CN113688821A (zh) | 一种基于深度学习的ocr文字识别方法 | |
CN111107107A (zh) | 网络行为的检测方法、装置、计算机设备和存储介质 | |
CN115223166A (zh) | 图片预标注方法、图片标注方法及装置、电子设备 | |
CN113505780A (zh) | 一种基于二维码的智能检测维保的方法和设备 | |
CN115810197A (zh) | 一种多模态电力表单识别方法及装置 | |
CN113657377B (zh) | 一种机打票据图像结构化识别方法 | |
CN111507119A (zh) | 标识码识别方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170524 |
|
RJ01 | Rejection of invention patent application after publication |