CN115481647A

CN115481647A - 一种识别面单图像中电话号码的方法

Info

Publication number: CN115481647A
Application number: CN202211086025.9A
Authority: CN
Inventors: 周韶宁; 张砚冰; 张芒粒; 丁聪; 诸伊娜
Original assignee: Zhejiang Baishi Technology Co Ltd
Current assignee: Zhejiang Baishi Technology Co Ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-12-16

Abstract

本发明公开了一种识别面单图像中电话号码的方法，首先对条码所在区域进行定位，然后根据条码区域与水平位置的夹角对整个面单图像进行翻正，并根据条码区域与整个面单区域的缩放比例关系，对翻正后的面单图像进行裁剪，以过滤掉过多背景信息对电话号码识别的干扰，再通过预先训练的CNN神经网络模型对翻正后的面单图像的朝向进行分类，然后再根据面单朝向与旋转角度及旋转方向的对应关系，将面单图像旋转到朝向为“上向”的位置，最后再使用SSD目标检测模型对变换朝向后的面单图像进行电话号码位置定位，利用CRNN文本识别模型对定位到的电话号码所在区域作最后的电话号码内容识别并展示识别结果，大幅提高了对面单图像中电话号码的识别准确度。

Description

一种识别面单图像中电话号码的方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种识别面单图像中电话号码的方法。

背景技术

巴枪，又称物流PDA或手持终端，在物流快递行业称之为快递扫描巴枪，主要功能是识别面单上的条码信息。目前，市面上有许多具有不同功能的巴枪，部分能在识别条码信息的同时采集面单图像。快递员在收件时需要将包括电话号码在内的客户信息输入到PDA中，现有方案中，通常采用手工输入方式。但快递员一天内可能需要输入较多数量的客户信息，这种手工输入的方式费时费力，并且容易出错。因此，在使用具有面单图像采集功能的巴枪时，希望在扫取条码信息的同时能够自动识别出所采集的面单图像中客户的电话号码，但快递员在使用巴枪扫取条码信息时手握巴枪的角度是比较随意的，导致现场采集的面单图像的可视角度也是随意的，可能是如图1所示的右向，也可能是如图2所示的正向，甚至带有畸变，而巴枪又不具备面单图像采集可视功能，用户无法在巴枪上看到所要采集的面单图像位置是否为图2所示的正向且不带有畸变，这对利用算法准确识别面单图像上的电话号码带来了不利影响。

发明内容

本发明以提高算法自动识别面单图像中电话号码的准确性为目的，提供了一种识别面单图像中电话号码的方法。

为达此目的，本发明采用以下技术方案：

提供一种识别面单图像中电话号码的方法，步骤包括：

S1，对巴枪采集到的面单图像中的条码区域进行定位；

S2，计算定位到所述条码区域的最小外接矩形与水平位置的夹角α；

S3，对所述面单图像旋转α角度以翻正所述面单图像；

S4，识别出翻正后的所述面单图像中的电话号码。

作为优选，步骤S1中，对所述巴枪采集到的所述面单图像中的所述条码区域进行定位的方法具体包括步骤：

S11，对所述巴枪采集到的所述面单图像进行二值化处理并移除图像背景后，得到二值化图像；

S12，以最小外接矩形检测方式框选出所述二值化图像中的连通区域，并计算每个所述连通区域的长宽比；

S13，对框选所述连通区域的每个最小外接矩形，判断其长宽比是否大于预设的长宽比阈值，

若是，则保留所述连通区域作为定位到的疑似条码区域；

若否，则丢弃所述连通区域。

作为优选，对所述巴枪采集到的所述面单图像中的所述条码区域进行定位的方法还包括步骤：

S14，对步骤S13保留的各所述疑似条码区域按照最小外接矩形尺寸大小进行聚类；

S15，对于指定类下的各所述疑似条码区域，利用直线检测算法进行区域扩充后，得到完整的所述条码区域。

作为优选，执行步骤S4之前还包括步骤：

S31，对翻正后的所述面单图像进行裁剪，裁剪方法为：计算所述最小外接矩形框选的所述条码区域的区域面积，并根据预设的条码区域面积与面单区域面积的缩放比例关系，对所述最小外接矩形框选的所述条码区域进行扩充后裁剪，得到裁剪后的所述面单图像。

作为优选，步骤S4中，识别出翻正后的所述面单图像中的电话号码的方法步骤包括：

S41，利用以经步骤S3翻正后的不同朝向的各所述面单图像为样本训练得到的CNN神经网络模型，对输入模型的所述面单图像的朝向进行分类；

S42，根据预设的朝向与旋转角度以及旋转方向的对应关系，获取步骤S41分类得到的朝向对应的旋转方向和旋转角度；

S43，控制所述面单图像以获取的所述旋转方向和所述旋转角度旋转到朝向为“上向”的位置；

S44，利用目标检测模型对朝向为“上向”的所述面单图像中的电话号码的位置区域进行定位；

S45，利用文本识别模型识别出定位到的电话号码位置区域中的电话号码并显示给用户。

作为优选，步骤S44中，利用SSD目标检测模型识别所述面单图像中的电话号码所在的位置区域。

作为优选，所述SSD目标检测模型中的主干网络为MobileNet-V3。

作为优选，步骤S45中，使用CRNN文本识别模型对定位到的电话号码所在的所述位置区域进行电话号码内容的识别，并输出识别结果展示给所述用户。

本发明具有以下有益效果：

本发明通过对比实验发现直接从原始的面单图像中定位并识别出电话号码比较困难，而条码是面单中非常重要的信息，本申请通过更容易定位到的条码信息，首先对条码所在区域进行定位，然后根据条码区域与水平位置的夹角对整个面单图像进行翻正，并根据条码区域与整个面单区域的缩放比例关系，对翻正后的面单图像进行裁剪，以过滤掉过多背景信息对电话号码识别的干扰，再通过预先训练的CNN神经网络模型对翻正后的面单图像的朝向进行分类，然后再根据面单朝向与旋转角度及旋转方向的对应关系，将面单图像旋转到朝向为“上向”的位置，最后再使用SSD目标检测模型对变换朝向后的面单图像进行电话号码位置定位，利用CRNN文本识别模型对定位到的电话号码所在区域作最后的电话号码内容识别并展示识别结果，大幅提高了对面单图像中电话号码的识别准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是巴枪采集的面单图像为右向的示意图；

图2是巴枪采集的面单图像为正向的示意图；

图3是对图1进行二值化后的二值化图像的示意图；

图4是对图3移除背景后的示意图；

图5是对图1进行翻正和裁剪后的示意图；

图6是对图5进行四个方向分类之后正向的示意图；

图7是利用SSD目标检测模型定位到面单图像中的电话号码所在区域的示意图；

图8是利用CRNN文本识别模型识别到图7中所示的电话号码的示意图；

图9是本发明一实施例提供的识别面单图像中电话号码的方法的实现步骤图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

首先需要强调的是，本发明实施例提供的识别面单图像中电话号码的方法适于对巴枪现场采集的面单图像中的电话号码进行识别的场景，该场景下，快递员扫描面单上条码信息时的手握巴枪的角度是比较随意的，导致巴枪采集的面单图像并非如图2所示的视觉上的正向，可能向左、也可能向右等角度倾斜，也可能带有图像畸变，而现有的巴枪并不具备图像采集的可视功能，即巴枪在采集面单图像时，快递员无法实时查看巴枪拟拍摄的面单图像的位置是否摆正，若非要人为拍摄位置相对正的面单图像，需要快递员在扫描条码时主动调整手握巴枪的角度以迎合拍摄需求，但主动迎合不可避免的会降低使用巴枪扫取条码的便捷度，因此，这种“顾此失彼”的方式很少会在上述场景中实际被应用。

而本发明实施例提供的一种识别面单图像中电话号码的方法利用识别到的条码与水平位置的夹角对面单图像整体进行翻正，并经过图像裁剪、面单方向分类识别的方式获取符合电话号码识别要求的面单图像尺寸和方向，然后通过算法识别出面单图像中的电话号码，大幅降低了识别巴枪采集的面单图像中的电话号码的难度。

以下对本实施例提供的识别面单图像中电话号码的方法进行具体阐述：

如图9所示，本实施例提供的识别面单图像中电话号码的方法包括步骤：

S1，对巴枪采集到的面单图像中的条码区域进行定位；

S2，计算定位到条码区域的最小外接矩形与水平位置的夹角α；

S3，对面单图像旋转α角度以翻正面单图像；

S4，识别出翻正后的面单图像中的电话号码。

具体地，步骤S1中，首先对面单图像作二值化处理(对图像进行二值化的现有方法有序多，因此有关本申请具体采用的图像二值化方法在此不做说明)，得到二值化图像，例如对于如图1所示的原始采集的面单图像作二值化处理后得到图3所示的二值化图像。图3中面单区域外的背景信息会对后续识别面单图像中的电话号码产生干扰，因此优选移除掉图3中的图像背景，得到移除背景后的如图4所示的二值化图像。然后筛选出二值化图像中用于框选每个连通区域(识别图像中连通区域的现有方法有许多，因此对如何检测得到图像中的连通区域的方法不做具体说明)的每个最小外接矩形(计算最小外接矩形的现有方法有许多，一般能得到最小外接矩形的长、宽、中心点和角度信息，因此对本申请如何计算最小外接矩形不做说明)的长宽比大于预设长宽比阈值的连通区域作为定位到的疑似条码区域。

定位到的疑似条码区域可能并不完整，不完整的条码区域对于后续翻正面单图像可能产生不良影响，因此需要将这些不完整的疑似条码区域扩充完整，同时为了便于对不同尺寸的疑似条码区域按需进行扩充，本实施例还对各疑似条码区域按照最小外接矩形尺寸大小作了聚类，用户可以预设需要作区域扩充的类，这样区域扩充算法仅对该类下的疑似条码区域进行扩充，而不对其他类下的疑似条码区域进行扩充，可以节省面单中电话号码的识别时间。因此，对筛选出的各疑似条码区域，本实施例还按照最小外接矩形的尺寸大小对各疑似条码区域作了聚类，并且对于指定类下的各疑似条码区域，利用现有的直线检测算法进行区域扩充，得到完整的条码区域。定位到条码区域后，需要对面单图像进行翻正处理，以便于后续算法能够快速识别出面单图像中的电话号码。步骤S1定位到的条码区域的最小外接矩形与水平位置之间具有一夹角，假设该夹角为α，夹角α的示意请参照图1。图1中用于框选条码区域的最小外接矩形与水平位置间的夹角α等同于面单与水平位置的夹角，因此条码区域与水平位置间的夹角跟面单与水平位置的夹角是具有关联关系的。本实施例中，利用这个关联关系，通过首先计算经区域扩充后得到的完整的任意一个条码区域与水平位置间的夹角α，然后对面单图像旋转α角度后以翻正面单图像，这里所指的翻正包括4个方向：右向、左向、上向(正向)和下向，图5为对图1顺时针旋转α角度后得到的下向的面单图像的示意图，图6则为对图5逆时针旋转180度后得到的上向的面单图像的示意图。显然，图6中所示的面单图像更有利于后续算法对面单图像中电话号码的识别。因此需要首先识别出经步骤S3翻正后的面单图像的朝向类别，识别出朝向类别后，比如识别到图5所示的朝向类别为下向后，再逆时针对该面单图像旋转180度，以得到朝向为上向的如图6所示的面单图像。

在对面单图像进行朝向分类前，优选首先对步骤S3翻正后的面单图像进行裁剪。在采集面单图像时，快递员手握巴枪与面单距离通常并不相同，导致面单在面单图像中的主体不够突出，主体信息占比较少，而背景信息过多，会干扰后续对面单中电话号码的识别。因此需要对翻正后的面单图像进行裁剪，本实施例对面单图像裁剪的方式为：计算最小外接矩形框选的条码区域的区域面积，并根据预设的条码区域面积与面单区域面积的缩放比例关系，对最小外接矩形框选的条码区域进行扩充后裁剪，得到裁剪后的面单图像。举例而言，假设最小外接矩形框选的区域面积为8cm×2cm，由于对以不同面单拍摄角度拍摄的同个最小外接矩形进行框选面积计算，得到的区域面积可能并不相同，因此优选设置落入面积与面单区域面积的缩放比例关系来扩充面单区域，比如预设落入面积为10cm×4cm时，扩充后的面单区域面积为30cm×15cm，则最小外接矩形框选的区域面积8cm×2cm落入到10cm×4cm的落入面积内，则根据10cm×4cm与扩充区域面积30cm×15cm的缩放比例关系，可以以最小外接矩形所在区域为扩充区域的中心或左上角位置等将框选区域扩充到30cm×15cm，然后对巴枪采集的面单图像进行裁剪，得到一张扩充后的面积为30cm×15cm的面单图像。

得到裁剪后的面单图像后，需要对面单图像的朝向进行分类，本实施例中，利用以经步骤S3翻正后的不同朝向的各面单图像为样本训练得到的CNN神经网络模型，对输入模型的面单图像的朝向进行分类。这里需要说明的是，作为CNN神经网络模型的训练样本的面单图像的朝向包括了左向、右向、上向、下向4种朝向，可以使用现有的CNN神经网络结构、损失函数、模型参数等模型训练所需的条件，以具有4种不同朝向的若干面单图像为样本训练形成具有左向、右向、上向、下向四分类能力的CNN神经网络模型。由于关于CNN神经网络模型的具体训练方法并非本申请请求保护的范围，因此具体训练过程不做详细说明。

完成对面单图像朝向的分类后，需要将面单图像旋转为朝向向上的如图6所示的“上向”。为了实现这个目的，本实施例预设了不同朝向与旋转角度以及旋转方向的对应关系，比如，面单图像的朝向为如图5所示的下向时，其对应的旋转方向为逆时针旋转，旋转角度为180度，即逆时针旋转180度。

然后利用目标检测模型对经旋转后朝向为“上向”的面单图像中的电话号码的位置区域进行定位。本实施例中，优选采用现有的SSD目标检测模型对电话号码的位置区域进行定位，定位结果如图7所示。更为优选地，本实施例中，将SSD目标检测模型的主干网络由vgg-16替换成了MobileNet-V3，以提高目标检测速度。最后，使用现有的CRNN文本识别模型对定位到的电话号码所在区域进行电话号码的内容识别，输出识别结果并展示给用户，识别结果如图8所示。

利用主干网络分别为vgg-16和MobileNet-V3的SSD检测模型，同时其他步骤和模型都一样的算法，在测试集上进行测试，实验效果对比表a如下：

电话号码提取模型	准确率	平均耗时
			SSD(vgg-16)	98.61％	420毫秒
SSD(MobileNet-V3)	98.56％	203毫秒

表a

由上表a可知，将主干网络由vgg-16替换成MobileNet-V3之后，在准确率几乎不变的情况下，整个算法的平均耗时由420毫秒降低至203毫秒，提升了51.67％。

综上，本发明通过对比实验发现直接从原始的面单图像中定位并识别出电话号码比较困难，而条码是面单中非常重要的信息，本申请通过更容易定位到的条码信息，首先对条码所在区域进行定位，然后根据条码区域与水平位置的夹角对整个面单图像进行翻正，并根据条码区域与整个面单区域的缩放比例关系，对翻正后的面单图像进行裁剪，以过滤掉过多背景信息对电话号码识别的干扰，再通过预先训练的CNN神经网络模型对翻正后的面单图像的朝向进行分类，然后再根据面单朝向与旋转角度及旋转方向的对应关系，将面单图像旋转到朝向为“上向”的位置，最后再使用SSD目标检测模型对变换朝向后的面单图像进行电话号码位置定位，利用CRNN文本识别模型对定位到的电话号码所在区域作最后的电话号码内容识别并展示识别结果，大幅提高了对面单图像中电话号码的识别准确度。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种识别面单图像中电话号码的方法，其特征在于，步骤包括：

S1，对巴枪采集到的面单图像中的条码区域进行定位；

S3，对所述面单图像旋转α角度以翻正所述面单图像；

S4，识别出翻正后的所述面单图像中的电话号码。

2.根据权利要求1所述的识别面单图像中电话号码的方法，其特征在于，步骤S1中，对所述巴枪采集到的所述面单图像中的所述条码区域进行定位的方法具体包括步骤：

S12，以外接矩形检测方式框选出所述二值化图像中的连通区域，并计算每个所述连通区域的长宽比；

若是，则保留所述连通区域作为定位到的疑似条码区域；

若否，则丢弃所述连通区域。

3.根据权利要求2所述的识别面单图像中电话号码的方法，其特征在于，对所述巴枪采集到的所述面单图像中的所述条码区域进行定位的方法还包括步骤：

4.根据权利要求1所述的识别面单图像中电话号码的方法，其特征在于，执行步骤S4之前还包括步骤：

5.根据权利要求1所述的识别面单图像中电话号码的方法，其特征在于，步骤S4中，识别出翻正后的所述面单图像中的电话号码的方法步骤包括：

6.根据权利要求5所述的识别面单图像中电话号码的方法，其特征在于，步骤S44中，利用SSD目标检测模型识别所述面单图像中的电话号码所在的位置区域。

7.根据权利要求6所述的识别面单图像中电话号码的方法，其特征在于，所述SSD目标检测模型中的主干网络为MobileNet-V3。

8.根据权利要求5所述的识别面单图像中电话号码的方法，其特征在于，步骤S45中，使用CRNN文本识别模型对定位到的电话号码所在的所述位置区域进行电话号码内容的识别，并输出识别结果展示给所述用户。