CN106202011A - 一种提取手机号码的方法 - Google Patents

一种提取手机号码的方法 Download PDF

Info

Publication number
CN106202011A
CN106202011A CN201610550679.0A CN201610550679A CN106202011A CN 106202011 A CN106202011 A CN 106202011A CN 201610550679 A CN201610550679 A CN 201610550679A CN 106202011 A CN106202011 A CN 106202011A
Authority
CN
China
Prior art keywords
phone number
text
reference format
format
extract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610550679.0A
Other languages
English (en)
Inventor
刘光旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhidaochuangyu Information Technology Co Ltd
Original Assignee
Chengdu Zhidaochuangyu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhidaochuangyu Information Technology Co Ltd filed Critical Chengdu Zhidaochuangyu Information Technology Co Ltd
Priority to CN201610550679.0A priority Critical patent/CN106202011A/zh
Publication of CN106202011A publication Critical patent/CN106202011A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/163Handling of whitespace

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种提取手机号码的方法,包括以下步骤:对文本进行扫描,通过正则表达式提取文本中的标准格式手机号码,将提取的标准格式手机号码从文本中删除;对文本进行再次扫描,对文本再次进行扫描,将非标准格式的手机号码转换为标准格式手机号码;再次提取文本中的标准格式手机号码;对提取出的手机号码进行校验;本发明简化了手机号码的提取方法,可以从文本中提取不同格式的手机号码,减少漏提率。

Description

一种提取手机号码的方法
技术领域
本发明涉及一种提取手机号码的方法,具体涉及一种从任意文本中提取手机号码的方法。
背景技术
目前也有一些从文本中提取手机号码的方法,但是文本中的手机号码往往格式不同,有多种不同的写法;通常采用正则表达式,针对不同格式分别进行处理;但是,考虑的手机号码格式越多,正则表达式会越复杂;而且会容易出错,难以覆盖所有格式;针对不同格式分别进行处理的话,会难以覆盖各种格式的组合,且代码复杂。
发明内容
本发明提供一种能够快速地识别出不同格式的手机号码的提取手机号码的方法。
本发明采用的技术方案是:一种提取手机号码的方法,包括以下步骤:
(一)对文本进行扫描,通过正则表达式提取文本中的标准格式手机号码,将提取的标准格式手机号码从文本中删除;
(二)对文本进行再次扫描,将非标准格式的手机号码转换为标准格式手机号码;
(三)重复步骤(一)提取文本中的标准格式手机号码;
(四)对提取出的手机号码进行校验。
一种提取手机号码的方法,包括如下步骤:
(一)扫描文本,采用计数器,对每一个连续数字分别计数;计数完成后,从文本中提取出计数为11的连续数字作为标准格式手机号码;将提取的标准格式手机号码从文本中删除;
(二)对文本进行再次扫描,将非标准格式的手机号码转换为标准格式手机号码;
(三)重复步骤(一)提取文本中的标准格式手机号码;
(四)对提取出的手机号码进行校验。
进一步的,所述步骤(二)中将非标准格式的手机号码转换为标准格式手机号码的方法为,删除文本中的分隔字符。
进一步的,所述分隔字符包括“-”“、” “,”“,”和空格。
本发明的有益效果是:
(1)本发明简化了手机号码的提取方法,把非标准格式的手机号码转化为标准格式进行提取;
(2)本发明可以提取不同格式的手机号码,有效减少漏提率。
附图说明
图1为本发明流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
一种提取手机号码的方法,包括以下步骤:
(一)对文本进行扫描,通过正则表达式找出文本中的标准格式手机号码,将提取的标准格式手机号码从文本中删除;
(二)对文本进行再次扫描,将非标准格式的手机号码转换为标准格式手机号码;
(三)重复步骤(一)提取文本中的标准格式手机号码;
(四)对提取出的手机号码进行校验。
一种提取手机号码的方法,包括如下步骤:
(一)扫描文本,采用计数器,对每一个连续数字分别计数;计数完成后,从文本中提取出计数为11的连续数字作为标准格式手机号码;将提取的标准格式手机号码从文本中删除;
(二)对文本进行再次扫描,将非标准格式的手机号码转换为标准格式手机号码;
(三)重复步骤(一)提取文本中的标准格式手机号码;
(四)对提取出的手机号码进行校验。
进一步的,所述步骤(二)中将非标准格式的手机号码转换为标准格式手机号码的方法为,删除文本中的分隔字符。
进一步的,所述分隔字符包括“-”“、” “,”“,”和空格等。
本发明中的手机号码指国内手机号码,在不考虑国家码的情况下,由11位数字组成;标准格式手机号码,指如“13812345678”这样连续写在一起中间无分隔符的11位数字手机号码;从任意文本中提取手机号码时,手机号码存在多种写法,例如:
A、13812345678
B、138-1234-5678
C、138,1234,5678
D、1381,234,5678
E、1381-2345-678
F、138 1234 5678
使用时,通过正则表达式找出文本中的标准格式手机号码,将找出的手机号码从文本中提取出来,并从文本中删除;本实施例中只能从文本中提取出A这种格式的手机号码;对文本进行扫描,将非标准格式的手机号码转换为标准格式手机号码;将文本中的“-”、“,”和空格均删除,然后通过正则表达式找出文本中的标准格式手机号码,将找出的手机号码从文本中提取出来;本实施例中将B、C、D、E、F这种格式的手机号码均可以提取出来。
本发明简化了手机号码的提取方法,把不同格式的手机号码转换成一种标准格式进行提取;通过过滤可能的手机号码数字间的分割字符,把文本中各种写法的手机号码转换成标准格式手机号码,然后进行二次提取;可以有效处理各种不同写法的手机号码,减少漏提率。

Claims (4)

1.一种提取手机号码的方法,其特征在于,包括以下步骤:
(一)对文本进行扫描,通过正则表达式提取文本中的标准格式手机号码,将提取的标准格式手机号码从文本中删除;
(二)对文本再次进行扫描,将非标准格式的手机号码转换为标准格式手机号码;
(三)重复步骤(一)提取文本中的标准格式手机号码;
(四)对提取出的手机号码进行校验。
2.一种提取手机号码的方法,其特征在于,包括如下步骤:
(一)扫描文本,采用计数器,对每一个连续数字分别计数;计数完成后,从文本中提取出计数为11的连续数字作为标准格式手机号码;将提取的标准格式手机号码从文本中删除;
(二)对文本再次进行扫描,将非标准格式的手机号码转换为标准格式手机号码;
(三)重复步骤(一)提取文本中的标准格式手机号码;
(四)对提取出的手机号码进行校验。
3.根据权利要求1所述的一种提取手机号码的方法,其特征在于,所述步骤(二)中将非标准格式的手机号码转换为标准格式手机号码的方法为,删除文本中的分隔字符。
4.根据权利要求3所述的一种提取手机号码的方法,其特征在于,所述分隔字符包括“-”、“,”、“,”和空格。
CN201610550679.0A 2016-07-13 2016-07-13 一种提取手机号码的方法 Pending CN106202011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610550679.0A CN106202011A (zh) 2016-07-13 2016-07-13 一种提取手机号码的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610550679.0A CN106202011A (zh) 2016-07-13 2016-07-13 一种提取手机号码的方法

Publications (1)

Publication Number Publication Date
CN106202011A true CN106202011A (zh) 2016-12-07

Family

ID=57477112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610550679.0A Pending CN106202011A (zh) 2016-07-13 2016-07-13 一种提取手机号码的方法

Country Status (1)

Country Link
CN (1) CN106202011A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641731A (zh) * 2021-08-17 2021-11-12 成都知道创宇信息技术有限公司 模糊搜索优化方法、装置、电子设备和可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651938A (zh) * 2009-07-02 2010-02-17 优视动景(北京)技术服务有限公司 一种用于移动终端的电话号码识别系统及其应用方法
US8321434B1 (en) * 2006-08-15 2012-11-27 Trend Micro Incorporated Two tiered architecture of named entity recognition engine
CN103780622A (zh) * 2014-01-24 2014-05-07 华中科技大学 一种面向云存储的数据分类加密方法
CN103945033A (zh) * 2013-01-20 2014-07-23 上海博路信息技术有限公司 一种基于光学字符识别的呼叫方法
CN104462029A (zh) * 2013-09-18 2015-03-25 北京新媒传信科技有限公司 一种智能终端中富文本显示的方法和系统
CN104731977A (zh) * 2015-04-14 2015-06-24 海量云图(北京)数据技术有限公司 电话号码数据的发现与分类方法
CN104731976A (zh) * 2015-04-14 2015-06-24 海量云图(北京)数据技术有限公司 数据表中隐私数据的发现与分类方法
CN105260440A (zh) * 2015-09-30 2016-01-20 北京奇虎科技有限公司 识别电话号码的方法及装置
CN105279191A (zh) * 2014-07-22 2016-01-27 吴晨 基于网络数据分析的潜在用户挖掘方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8321434B1 (en) * 2006-08-15 2012-11-27 Trend Micro Incorporated Two tiered architecture of named entity recognition engine
CN101651938A (zh) * 2009-07-02 2010-02-17 优视动景(北京)技术服务有限公司 一种用于移动终端的电话号码识别系统及其应用方法
CN103945033A (zh) * 2013-01-20 2014-07-23 上海博路信息技术有限公司 一种基于光学字符识别的呼叫方法
CN104462029A (zh) * 2013-09-18 2015-03-25 北京新媒传信科技有限公司 一种智能终端中富文本显示的方法和系统
CN103780622A (zh) * 2014-01-24 2014-05-07 华中科技大学 一种面向云存储的数据分类加密方法
CN105279191A (zh) * 2014-07-22 2016-01-27 吴晨 基于网络数据分析的潜在用户挖掘方法
CN104731977A (zh) * 2015-04-14 2015-06-24 海量云图(北京)数据技术有限公司 电话号码数据的发现与分类方法
CN104731976A (zh) * 2015-04-14 2015-06-24 海量云图(北京)数据技术有限公司 数据表中隐私数据的发现与分类方法
CN105260440A (zh) * 2015-09-30 2016-01-20 北京奇虎科技有限公司 识别电话号码的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641731A (zh) * 2021-08-17 2021-11-12 成都知道创宇信息技术有限公司 模糊搜索优化方法、装置、电子设备和可读存储介质
CN113641731B (zh) * 2021-08-17 2023-05-02 成都知道创宇信息技术有限公司 模糊搜索优化方法、装置、电子设备和可读存储介质

Similar Documents

Publication Publication Date Title
CN103123618B (zh) 文本相似度获取方法和装置
TW200739371A (en) Information processing apparatus and method, and a computer readable storage medium encoded with a computer program
CN105260751B (zh) 一种文字识别方法及其系统
CN106527756A (zh) 一种对输入信息进行智能纠错的方法及装置
WO2008008519A3 (en) Process for separating a fluoroolefin from hf by liquid-liquid extraction
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
JP2004246868A5 (zh)
CN103226576A (zh) 基于语义相似度的垃圾评论过滤方法
CN102637180B (zh) 基于正则表达式的文字后处理方法和装置
CN103955453A (zh) 一种从文档集中自动发现新词的方法及装置
CN101162500A (zh) 分区式人脸识别方法
CN103488998A (zh) 一种基于神经网络和图像处理技术的身份证识别方法
CN104915420A (zh) 知识库数据处理方法及系统
CN106202011A (zh) 一种提取手机号码的方法
CN101673263B (zh) 视频内容的搜索方法
CN103678280A (zh) 翻译任务碎片化的方法
CN101673262B (zh) 音频内容的搜索方法
WO2015024429A1 (zh) 获取网页中影视主体的方法及装置
CN105512109A (zh) 新词汇的发现方法及装置
CN104331348A (zh) 一种还原fat32目录项的起始簇号恢复文件的方法
WO2005048096A3 (en) Intermediate software layer
CN101673267B (zh) 音频、视频内容的搜索方法
CN102200966A (zh) 一种版面信息提取和加工的方法
CN109815473A (zh) 一种文档编辑辅助方法
CN103336806A (zh) 一种基于词出现间距的内在与外在模式熵差的关键词排序方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207

RJ01 Rejection of invention patent application after publication