CN111985311A

CN111985311A - 一种识别手机号的方法、装置、设备和介质

Info

Publication number: CN111985311A
Application number: CN202010650503.9A
Authority: CN
Inventors: 黄家昌; 黄民; 杨辉; 邱道椿
Original assignee: Fujian Ecan Information Technology Co ltd
Current assignee: Fujian Ecan Information Technology Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-11-24

Abstract

本发明提供一种识别手机号的方法、装置、设备和介质，方法包括：S1、获取数据源，所述数据源为文件内无固定格式要求的文档文件，所述文档文件为excel文件、word文件或PDF文件；S2、确定文档文件的扫描范围；S3、获取所述扫描范围内的文字和/或图像，所述图像包括由纸件文件经扫描或拍照并插入至文档文件内的图像，若获取到图像，则利用训练库采用Tess4J的Tesseract.doOCR方法将图像转换成对应的文字；S4、根据正则匹配规则对文字进行匹配，识别出手机号码。本发明可以对文件内无固定格式要求的文档文件的手机号码进行识别，包括识别由纸件文件经扫描或拍照并插入至文档文件内的图像上的手机号码。

Description

一种识别手机号的方法、装置、设备和介质

技术领域

本发明涉及计算机技术领域，特别涉及一种手机号进行识别的方法、装置、设备和介质，可以对非标准格式文档上的手机号进行识别。

背景技术

在实践应用中，很多情况会通过Excel来记录批量的手机号，比如通讯运营商面向用户的问卷调查表，目前电脑系统可以直接识别到手机号，进而对手机号进行发送短信等操作。但是存在如下不足：

(1)大多只能识别固定格式Excel文档，若格式发生变化，则需要线下人员先手动整理成标准Excel格式文件才可以进行识别，从而严重降低了工作效率；

(2)无法进行图片识别，比如Excel原始电子数据丢失或者难以获得，只有纸质版的数据，经拍照或扫描后形成图片放入Excel文件中，则无法进行识别；

(3)每次且只能是单页识别，且识别后无法对手机号进行分类统计，既不能实现有效号码与无效号码的分类，也不能实现不同地区号码的分类。

于20190906公开的，公开号为CN110210488A的中国发明揭示了一种快递运单上条形码和手机号的识别方法，包括：获取待处理图片，待处理图片包括快递运单图像；从待处理图片中识别快递运单图像；通过切图矫正从待处理图片中获取快递运单图像；分别基于收件人手机号区域特征和条形码区域特征，对快递运单图像进行切分得到收件人手机号图片和条形码图片；将收件人手机号图片和条形码图片发送到相应的识别器进行识别；若同时识别并获取到收件人手机号和运单号，则显示成功识别出的收件人手机号和运单号。该方法的特点是基于收件人手机号区域特征进行识别，因此若手机号没有区域特征，即针对没有固定格式的纸件上的手机号码则无法识别。

于20140326公开的，公开号为CN103685664A的中国发明公开了一种快速发送快件派送通知的装置，用于解决当前快递派送员在发送快件派送通知时需输入客户联系号码逐个通知取件的技术问题，包括图像扫描模块，号码识别模块，短信发送模块和存储模块。其中，图像扫描模块用于扫描快递单上客户的联系号码并形成规定格式的图片信息保存在存储模块中；手机号码识别模块根据操作码信息调用存储模块中相应的图片信息进行图像处理分析，提取客户的联系手机号码信息；短信发送模块向客户手机号码发送快件派送通知。从而快递派送员只需采用此装置扫描快递单上客户的联系号码便自动向客户发送事先编辑好的快件派送通知，提高快递派送的效率，准确率，降低快递派送员的劳动强度。但由于该方法是扫描快递单时只扫描联系号码，相当于由人为判断号码所在区域，从而省掉判断扫描的图像是否为手机号码的步骤，显然自动化程度较低。

虽然前述之发明都能够对纸件版的快递单上的手机号进行识别，但快递单由于格式比较固定且标准，因此对于格式并不标准，上述方法显然不能适用。

发明内容

本发明要解决的技术问题，在于提供一种识别手机号的方法、装置、设备和介质，可以对文件内无固定格式要求的文档文件的手机号码进行识别，包括识别由纸件文件经扫描或拍照并插入至文档文件内的图像上的手机号码。

第一方面，本发明提供了一种识别手机号的方法，包括下述步骤：

S1、获取数据源，所述数据源为文件内无固定格式要求的文档文件，所述文档文件为excel文件、word文件或PDF文件；

S2、确定文档文件的扫描范围：

S3、获取所述扫描范围内的文字和/或图像，所述图像包括由纸件文件经扫描或拍照并插入至文档文件内的图像，若获取到图像，则利用训练库采用Tess4J的Tesseract.doOCR方法将图像转换成对应的文字；

S4、根据正则匹配规则对文字进行匹配，识别出手机号码。

第二方面，本发明提供了一种识别手机号的装置，其特征在于：还包括：

数据源获取模块，用于获取数据源，所述数据源为文件内无固定格式要求的文档文件，所述文档文件为excel文件、word文件或PDF文件；

扫描范围确定模块，用于确定文档文件的扫描范围；

内容获取模块，用于获取所述扫描范围内的文字和/或图像，所述图像包括由纸件文件经扫描或拍照并插入至文档文件内的图像；

转换模块，用于对获取到的图像，利用训练库采用Tess4J的Tesseract.doOCR方法将图像转换成对应的文字；

手机号码匹配模块，用于根据正则匹配规则对文字进行匹配，识别出手机号码。

第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：可以对文件内无固定格式要求的文档文件的手机号码进行识别，包括识别由纸件文件经扫描或拍照并插入至文档文件内的图像上的手机号码，且可全文识别，如此，文档文件中的手机号码无论的是占用一单独的行列，还是与文字图像混杂后占用单独或多个行列，均能得到识别。另外，对于excel文件而言，可以针对不同的数据来源进行sheet分页，经过循环excel文件的的各sheet页，并可一并识别出各sheet页上的手机号码，识别出的号码也可分页保存，从而利于后期的分块统计，使应用场景多元化，如对识别出的手机号发送短信，并对发送成功的手机号码进行再次统计等，从而使工作变得更为高效。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明系统的框架示意图；

图2为本发明实施例一中方法中的流程图；

图3为本发明批量导入手机号的交互界面示意图；

图4为本发明展示正确的手机号码和无效号码状态的示意图；

图5为本发明待识别手机号码数据分sheet页保存时的状态示意图；

图6为本发明根据Sheet页统计结果通过饼图展示时的示意图；

图7为本发明根据Sheet页统计结果通过柱状展示时的示意图；

图8为本发明设定自动发送短信方式的交互界面示意图；

图9为本发明实施例二中装置的结构示意图；

图10为本发明实施例三中电子设备的结构示意图；

图11为本发明实施例四中介质的结构示意图。

具体实施方式

本申请实施例通过提供一种识别手机号的方法、装置、设备及介质，可以对文件内无固定格式要求的文档文件的手机号码进行识别，包括识别由纸件文件经扫描或拍照并插入至文档文件内的图像上的手机号码，解决了目前只能直接采集手机号码或只能识别固有格式文档的手机号码的缺陷。

本申请实施例中的技术方案，总体思路如下：获取数据源，所述数据源为文件内无固定格式要求的文档文件，如excel文件、word文件或PDF文件；对于纸件文件上的手机号码而言，可以将纸件文件扫描或拍照并插入至文档文件内，从而进行全文识别，如此，文档文件中的手机号码无论的是占用一单独的行列，还是与文字图像混杂后占用单独或多个行列，均能得到识别。另外，对于excel文件而言，可以针对不同的数据来源进行sheet分页，经过循环excel文件的各sheet页，并可一并识别出各sheet页上的手机号码，识别出的号码也可分页保存，从而利于后期的分块统计，使应用场景多元化，如对识别出的手机号发送短信，并对发送成功的手机号码进行再次统计等，从而使工作变得更为高效。

在介绍具体实施例之前，先介绍本申请实施例方法所对应的系统框架，如图1所示，做为较优的系统框架，大概分两个部分：

服务端，用于获取数据源，确定文档文件的扫描范围，将图像识别转换成对应文字，然后根据正则匹配规则识别出手机号码，最后发送短信以及分类统计

MATLAB端，在文档文件内具有图像的情况下，且在图像由于相机运动或对焦不足而可能模糊时，MATLAB端可以通过Lucy-Richardson算法对其进行优化之后，得到清晰的图像再传输回本服务端，再由服务端进行文字的转换。

实施例一

如图2所示，本实施例提供一种识别手机号的方法，包括下述步骤：

S1、获取数据源，所述数据源为文件内无固定格式要求的文档文件，所述文档文件为excel文件、word文件或PDF文件。如图3所示，可以批量导入手机号。

S2、使用ApachePOI技术捕捉文档文件的最小行列和最大行列，从而确定文档文件的扫描范围；本发明中的扫描范围是一页中所有内容占用的行列空间，而非仅有数字或仅为手机号码的内容的占用行列空间，即可达到全文扫描，无需预判手机号的位置。

关于扫描范围的确定，

若是excel文件，通过ApachePOI技术捕捉到每页内容占据的行和列，每个sheet页都有列号和行号，ApachePOI技术可以捕捉到每页内容占据的行和列，调用函数getPhysicalNumberOfCells()可获取一个sheet页的最大列，调用函数getLastRowNum()可获取一个sheet页的最大行，从而确定扫描范围；

若是word文件或PDF文件，所有页面即为扫描范围；

S3、获取所述扫描范围内的文字和/或图像，所述图像包括由纸件文件(比如纸质的调查问卷)经扫描或拍照并插入至文档文件内的图像，若获取到图像，则利用训练库采用Tess4J的Tesseract.doOCR方法将图像转换成对应的文字(本发明中的文字包含了数字)；作为本实施例的一种更优的实现方式，该步骤中，若获取到图像，则同时还获取图像格式，根据图像格式先调用MATLAB端实现的通过Lucy-Richardson算法函数处理图像提高图像的清晰度后返回，消除或减轻因相机运动或对焦不足的影响，然后再将图像转换成对应的文字。

若是excel文件，根据行数进行sheet页文件的行列扫描，获取到每个sheet页中所有文字，对于每个sheet页内容中的图片，则用ApachePOI的XSSFDrawing对象获取到所有图片的图片流进行存储；

若是word文件，则利用ApachePOI的WordExtractor对象进行word文件内容的获取，对于每页内容中的图片，则利用ApachePOI的XWPFDocument对象的getParagraphs()函数进行获取；

若是PDF文件，则通过第三方工具包FreeSpire.PDFforJava调用函数extractText()和extractImages()分别进行文字和图片的获取；

S4、根据正则匹配规则对文字进行匹配，识别出手机号码。具体的，所述正则匹配规则的表达式是：(^1(3|4|5|7|8)\d{9}$)，含义是：以1开头，第二位可能是3/4/5/7/8等的任意一个，在加上后面的\d表示数字[0-9]的9位，总共加起来11位结束；匹配的过程是：截取文字中的连续数字，对扫描出来的连续数字逐个匹配，只要符合所述表达式的，就是判定为正确的手机号码，否则就判定为无效号码。如图4所示，识别完成后，还可以将正确的手机号码和无效号码分别展示出来，供用户查看。

其中作为本实施例的一种更优的实现方式，所述方法中，若所述文档文件为excel文件，并包括一个以上的待识别的sheet页，待识别的手机号码有不同的来源，为了后续统计的方便，则将不同来源的文字或图像分别保存在不同的sheet页，如图5所示，比如对医院平台来说，有的来源于固定资产维修部门，有的来源于移动开发部门，有的来源于BI监控部门，即可将不同部门的手机号码文字或图像分sheet页保存，则：

所述步骤S2具体是：循环excel文件的待识别的sheet页，使用ApachePOI技术捕捉每个待识别的sheet页中的最小行列和最大行列，从而确定文档文件的扫描范围；

所述步骤S4中具体是：根据正则匹配规则对文字进行匹配，分别识别出每个待识别的sheet页中的手机号码和无效号码，将识别出的手机号码存放于一对应的识别结果sheet页中(固定资产维修部门、移动开发部门和BI监控部门分别对应一个识别结果sheet页)，然后还对每个识别结果sheet页中手机号码的数量进行统计。如图6所示，统计结果可通过饼图显示出来。

其中，作为本实施例的一种更优的实现方式，所述方法还包括步骤：

S5、如图4所示，还可以根据预先设置的短信内容，自动发送短信至识别出的手机号码，然后将成功发送短信的手机号码按识别结果sheet页进行统计，且统计后还通过饼图或柱状图进行分类显示。

除了上述可按来源的部门进行统计以外，还可按时间进行统计，如图7所示，根据Sheet页修改按月份的天数进行柱状图统计，sheet页30页，第一页叫1号，第二页叫2号，第三页叫3号……。另外，系统还可根据sheet页的页数进行饼图或者柱状图的自动转换，如果超过8页，则进行柱状图的自动转换，以便于更直观的显示需要的数据信息。

再如图8所示，自动发送短信可以采用立即发送或定时发送，定时发送由后台进行定时器扫描，指定时间发送对应消息。

基于同一发明构思，本申请还提供了与实施例一中的方法对应的装置，详见实施例二。

实施例二

如图9所示，在本实施例中提供了识别手机号的装置，包括：

扫描范围确定模块，用于确定文档文件的扫描范围；若是excel文件，通过ApachePOI技术捕捉到每页内容占据的行和列，每个sheet页都有列号和行号，ApachePOI技术可以捕捉到每页内容占据的行和列，调用函数getPhysicalNumberOfCells()可获取一个sheet页的最大列，调用函数getLastRowNum()可获取一个sheet页的最大行，从而确定扫描范围；若是word文件或PDF文件，所有页面即为扫描范围；

内容获取模块，用于获取所述扫描范围内的文字和/或图像，所述图像包括由纸件文件经扫描或拍照并插入至文档文件内的图像；若是excel文件，根据行数进行sheet页文件的行列扫描，获取到每个sheet页中所有文字，对于每个sheet页内容中的图片，则用ApachePOI的XSSFDrawing对象获取到所有图片的图片流进行存储；若是word文件，则利用ApachePOI的WordExtractor对象进行word文件内容的获取，对于每页内容中的图片，则利用ApachePOI的XWPFDocument对象的getParagraphs()函数进行获取；若是PDF文件，则通过第三方工具包FreeSpire.PDFforJava调用函数extractText()和extractImages()分别进行文字和图片的获取；

其中，作为本实施例的一种更优的实现方式，所述装置中：若所述文档文件为excel文件，并包括一个以上的待识别的sheet页，则：

所述扫描范围确定模块具体用于循环excel文件的待识别的sheet页，使用ApachePOI技术捕捉每个待识别的sheet页中的最小行列和最大行列，从而确定文档文件的扫描范围；

所述手机号码匹配模块具体用于根据正则匹配规则对文字进行匹配，分别识别出每个待识别的sheet页中的手机号码和无效号码，将识别出的手机号码存放于一对应的识别结果sheet页中，然后还对每个识别结果sheet页中的手机号码进行统计。

其中，作为本实施例的一种更优的实现方式，所述装置还包括：

短信模块，发送短信至识别出的手机号码，然后将成功发送短信的手机号码按识别结果sheet页进行统计，且统计后还通过饼图或柱状图进行分类显示。

图像优化模块，用于在获取到图像的同时获取图片格式，根据图片格式先调用MATLAB端实现的通过Lucy-Richardson算法函数处理图像提高图像的清晰度后返回，消除或减轻因相机运动或对焦不足的影响，再转换成对应的文字。

由于本发明实施例二所介绍的装置，为实施本发明实施例一的方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的电子设备实施例，详见实施例三。

实施例三

本实施例提供了一种电子设备，如图10所示，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，可以实现实施例一中任一实施方式。

由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备，故而基于本申请实施例一中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备，都属于本申请所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的存储介质，详见实施例四。

实施例四

本实施例提供一种计算机可读存储介质，如图11所示，其上存储有计算机程序，该计算机程序被处理器执行时，可以实现实施例一中任一实施方式。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：可以对文件内无固定格式要求的文档文件的手机号码进行识别，包括识别由纸件文件经扫描或拍照并插入至文档文件内的图像上的手机号码，且可全文识别，如此，文档文件中的手机号码无论的是占用一单独的行列，还是与文字图像混杂后占用单独或多个行列，均能得到识别。另外，对于excel文件而言，可以针对不同的数据来源进行sheet分页，经过循环excel文件的的各sheet页，并可一并识别出各sheet页上的手机号码，识别出的号码也可分页保存，从而利于后期的分块统计，使应用场景多元化，如对识别出的手机号发送短信，并对发送成功的手机号码进行再次统计等，从而使工作变得更为高效。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置或系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种识别手机号的方法，其特征在于：包括下述步骤：

S2、确定文档文件的扫描范围：

若是excel文件，通过Apache POI技术捕捉到每页内容占据的行和列，从而确定扫描范围；

若是word文件或PDF文件，所有页面即为扫描范围；

S4、根据正则匹配规则对文字进行匹配，识别出手机号码。

2.根据权利要求1所述的一种识别手机号的方法，其特征在于：若所述文档文件为excel文件，并包括一个以上的待识别的sheet页，则：

所述步骤S2具体是：循环excel文件的待识别的sheet页，使用Apache POI技术捕捉每个待识别的sheet页中的最小行列和最大行列，从而确定文档文件的扫描范围；

所述步骤S4中具体是：根据正则匹配规则对文字进行匹配，分别识别出每个待识别的sheet页中的手机号码和无效号码，将识别出的手机号码存放于一对应的识别结果sheet页中，然后还对每个识别结果sheet页中手机号码的数量进行统计。

3.根据权利要求2所述的一种识别手机号的方法方法，其特征在于：还包括步骤：

S5、发送短信至识别出的手机号码，然后将成功发送短信的手机号码按识别结果sheet页进行统计，且统计后还通过饼图或柱状图进行分类显示。

4.根据权利要求1所述的一种识别手机号的方法方法，其特征在于：

所述步骤S2中，确定文档文件的扫描范围具体是：

若是word文件或PDF文件，所有页面即为扫描范围；

所述步骤S3中，获取所述扫描范围内的文字和/或图像具体是：

若是excel文件，根据行数进行sheet页文件的行列扫描，获取到sheet页中所有文字，对于每页内容中的图片，则用Apache POI的XSSFDrawing对象获取到所有图片的图片流进行存储；

若是word文件，则利用Apache POI的WordExtractor对象进行word文件内容的获取，对于每页内容中的图片，则利用Apache POI的XWPFDocument对象的getParagraphs()函数进行获取；

若是PDF文件，则通过第三方工具包Free Spire.PDF for Java调用函数extractText()和extractImages()分别进行文字和图片的获取；

所述步骤S4中，所述正则匹配规则的表达式是：(^1(3|4|5|7|8)\d{9}$)；匹配的过程是：截取文字中的连续数字，对扫描出来的连续数字逐个匹配，只要符合所述表达式的，就是判定为正确的手机号码，否则就判定为无效号码。

5.根据权利要求1所述的一种识别手机号的方法方法，其特征在于：

所述步骤S3中，若获取到图像，则同时还获取图片格式，根据图片格式先调用MATLAB端实现的通过Lucy-Richardson算法函数处理图像提高图像的清晰度后返回，消除或减轻因相机运动或对焦不足的影响，再转换成对应的文字。

6.一种识别手机号的装置，其特征在于：包括：

扫描范围确定模块，用于确定文档文件的扫描范围；

7.根据权利要求6所述的一种识别手机号的装置，其特征在于：若所述文档文件为excel文件，并包括一个以上的待识别的sheet页，则：

所述扫描范围确定模块具体用于循环excel文件的待识别的sheet页，使用Apache POI技术捕捉每个待识别的sheet页中的最小行列和最大行列，从而确定文档文件的扫描范围；

8.根据权利要求6所述的一种识别手机号的装置，其特征在于：还包括：

短信模块，发送短信至识别出的手机号码，然后将成功发送短信的手机号码按识别结果sheet页进行统计，且统计后还通过饼图或柱状图进行分类显示；

图像优化模块，用于在获取到图像的同时获取图像格式，根据图像格式先调用MATLAB端实现的通过Lucy-Richardson算法函数处理图像提高图像的清晰度后返回，消除或减轻因相机运动或对焦不足的影响。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5任一项所述的方法。