CN106202011A - 一种提取手机号码的方法 - Google Patents
一种提取手机号码的方法 Download PDFInfo
- Publication number
- CN106202011A CN106202011A CN201610550679.0A CN201610550679A CN106202011A CN 106202011 A CN106202011 A CN 106202011A CN 201610550679 A CN201610550679 A CN 201610550679A CN 106202011 A CN106202011 A CN 106202011A
- Authority
- CN
- China
- Prior art keywords
- phone number
- text
- reference format
- format
- extract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/163—Handling of whitespace
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种提取手机号码的方法,包括以下步骤:对文本进行扫描,通过正则表达式提取文本中的标准格式手机号码,将提取的标准格式手机号码从文本中删除;对文本进行再次扫描,对文本再次进行扫描,将非标准格式的手机号码转换为标准格式手机号码;再次提取文本中的标准格式手机号码;对提取出的手机号码进行校验;本发明简化了手机号码的提取方法,可以从文本中提取不同格式的手机号码,减少漏提率。
Description
技术领域
本发明涉及一种提取手机号码的方法,具体涉及一种从任意文本中提取手机号码的方法。
背景技术
目前也有一些从文本中提取手机号码的方法,但是文本中的手机号码往往格式不同,有多种不同的写法;通常采用正则表达式,针对不同格式分别进行处理;但是,考虑的手机号码格式越多,正则表达式会越复杂;而且会容易出错,难以覆盖所有格式;针对不同格式分别进行处理的话,会难以覆盖各种格式的组合,且代码复杂。
发明内容
本发明提供一种能够快速地识别出不同格式的手机号码的提取手机号码的方法。
本发明采用的技术方案是:一种提取手机号码的方法,包括以下步骤:
(一)对文本进行扫描,通过正则表达式提取文本中的标准格式手机号码,将提取的标准格式手机号码从文本中删除;
(二)对文本进行再次扫描,将非标准格式的手机号码转换为标准格式手机号码;
(三)重复步骤(一)提取文本中的标准格式手机号码;
(四)对提取出的手机号码进行校验。
一种提取手机号码的方法,包括如下步骤:
(一)扫描文本,采用计数器,对每一个连续数字分别计数;计数完成后,从文本中提取出计数为11的连续数字作为标准格式手机号码;将提取的标准格式手机号码从文本中删除;
(二)对文本进行再次扫描,将非标准格式的手机号码转换为标准格式手机号码;
(三)重复步骤(一)提取文本中的标准格式手机号码;
(四)对提取出的手机号码进行校验。
进一步的,所述步骤(二)中将非标准格式的手机号码转换为标准格式手机号码的方法为,删除文本中的分隔字符。
进一步的,所述分隔字符包括“-”“、” “,”“,”和空格。
本发明的有益效果是:
(1)本发明简化了手机号码的提取方法,把非标准格式的手机号码转化为标准格式进行提取;
(2)本发明可以提取不同格式的手机号码,有效减少漏提率。
附图说明
图1为本发明流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
一种提取手机号码的方法,包括以下步骤:
(一)对文本进行扫描,通过正则表达式找出文本中的标准格式手机号码,将提取的标准格式手机号码从文本中删除;
(二)对文本进行再次扫描,将非标准格式的手机号码转换为标准格式手机号码;
(三)重复步骤(一)提取文本中的标准格式手机号码;
(四)对提取出的手机号码进行校验。
一种提取手机号码的方法,包括如下步骤:
(一)扫描文本,采用计数器,对每一个连续数字分别计数;计数完成后,从文本中提取出计数为11的连续数字作为标准格式手机号码;将提取的标准格式手机号码从文本中删除;
(二)对文本进行再次扫描,将非标准格式的手机号码转换为标准格式手机号码;
(三)重复步骤(一)提取文本中的标准格式手机号码;
(四)对提取出的手机号码进行校验。
进一步的,所述步骤(二)中将非标准格式的手机号码转换为标准格式手机号码的方法为,删除文本中的分隔字符。
进一步的,所述分隔字符包括“-”“、” “,”“,”和空格等。
本发明中的手机号码指国内手机号码,在不考虑国家码的情况下,由11位数字组成;标准格式手机号码,指如“13812345678”这样连续写在一起中间无分隔符的11位数字手机号码;从任意文本中提取手机号码时,手机号码存在多种写法,例如:
A、13812345678
B、138-1234-5678
C、138,1234,5678
D、1381,234,5678
E、1381-2345-678
F、138 1234 5678
使用时,通过正则表达式找出文本中的标准格式手机号码,将找出的手机号码从文本中提取出来,并从文本中删除;本实施例中只能从文本中提取出A这种格式的手机号码;对文本进行扫描,将非标准格式的手机号码转换为标准格式手机号码;将文本中的“-”、“,”和空格均删除,然后通过正则表达式找出文本中的标准格式手机号码,将找出的手机号码从文本中提取出来;本实施例中将B、C、D、E、F这种格式的手机号码均可以提取出来。
本发明简化了手机号码的提取方法,把不同格式的手机号码转换成一种标准格式进行提取;通过过滤可能的手机号码数字间的分割字符,把文本中各种写法的手机号码转换成标准格式手机号码,然后进行二次提取;可以有效处理各种不同写法的手机号码,减少漏提率。
Claims (4)
1.一种提取手机号码的方法,其特征在于,包括以下步骤:
(一)对文本进行扫描,通过正则表达式提取文本中的标准格式手机号码,将提取的标准格式手机号码从文本中删除;
(二)对文本再次进行扫描,将非标准格式的手机号码转换为标准格式手机号码;
(三)重复步骤(一)提取文本中的标准格式手机号码;
(四)对提取出的手机号码进行校验。
2.一种提取手机号码的方法,其特征在于,包括如下步骤:
(一)扫描文本,采用计数器,对每一个连续数字分别计数;计数完成后,从文本中提取出计数为11的连续数字作为标准格式手机号码;将提取的标准格式手机号码从文本中删除;
(二)对文本再次进行扫描,将非标准格式的手机号码转换为标准格式手机号码;
(三)重复步骤(一)提取文本中的标准格式手机号码;
(四)对提取出的手机号码进行校验。
3.根据权利要求1所述的一种提取手机号码的方法,其特征在于,所述步骤(二)中将非标准格式的手机号码转换为标准格式手机号码的方法为,删除文本中的分隔字符。
4.根据权利要求3所述的一种提取手机号码的方法,其特征在于,所述分隔字符包括“-”、“,”、“,”和空格。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610550679.0A CN106202011A (zh) | 2016-07-13 | 2016-07-13 | 一种提取手机号码的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610550679.0A CN106202011A (zh) | 2016-07-13 | 2016-07-13 | 一种提取手机号码的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106202011A true CN106202011A (zh) | 2016-12-07 |
Family
ID=57477112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610550679.0A Pending CN106202011A (zh) | 2016-07-13 | 2016-07-13 | 一种提取手机号码的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202011A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641731A (zh) * | 2021-08-17 | 2021-11-12 | 成都知道创宇信息技术有限公司 | 模糊搜索优化方法、装置、电子设备和可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101651938A (zh) * | 2009-07-02 | 2010-02-17 | 优视动景(北京)技术服务有限公司 | 一种用于移动终端的电话号码识别系统及其应用方法 |
US8321434B1 (en) * | 2006-08-15 | 2012-11-27 | Trend Micro Incorporated | Two tiered architecture of named entity recognition engine |
CN103780622A (zh) * | 2014-01-24 | 2014-05-07 | 华中科技大学 | 一种面向云存储的数据分类加密方法 |
CN103945033A (zh) * | 2013-01-20 | 2014-07-23 | 上海博路信息技术有限公司 | 一种基于光学字符识别的呼叫方法 |
CN104462029A (zh) * | 2013-09-18 | 2015-03-25 | 北京新媒传信科技有限公司 | 一种智能终端中富文本显示的方法和系统 |
CN104731977A (zh) * | 2015-04-14 | 2015-06-24 | 海量云图(北京)数据技术有限公司 | 电话号码数据的发现与分类方法 |
CN104731976A (zh) * | 2015-04-14 | 2015-06-24 | 海量云图(北京)数据技术有限公司 | 数据表中隐私数据的发现与分类方法 |
CN105260440A (zh) * | 2015-09-30 | 2016-01-20 | 北京奇虎科技有限公司 | 识别电话号码的方法及装置 |
CN105279191A (zh) * | 2014-07-22 | 2016-01-27 | 吴晨 | 基于网络数据分析的潜在用户挖掘方法 |
-
2016
- 2016-07-13 CN CN201610550679.0A patent/CN106202011A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8321434B1 (en) * | 2006-08-15 | 2012-11-27 | Trend Micro Incorporated | Two tiered architecture of named entity recognition engine |
CN101651938A (zh) * | 2009-07-02 | 2010-02-17 | 优视动景(北京)技术服务有限公司 | 一种用于移动终端的电话号码识别系统及其应用方法 |
CN103945033A (zh) * | 2013-01-20 | 2014-07-23 | 上海博路信息技术有限公司 | 一种基于光学字符识别的呼叫方法 |
CN104462029A (zh) * | 2013-09-18 | 2015-03-25 | 北京新媒传信科技有限公司 | 一种智能终端中富文本显示的方法和系统 |
CN103780622A (zh) * | 2014-01-24 | 2014-05-07 | 华中科技大学 | 一种面向云存储的数据分类加密方法 |
CN105279191A (zh) * | 2014-07-22 | 2016-01-27 | 吴晨 | 基于网络数据分析的潜在用户挖掘方法 |
CN104731977A (zh) * | 2015-04-14 | 2015-06-24 | 海量云图(北京)数据技术有限公司 | 电话号码数据的发现与分类方法 |
CN104731976A (zh) * | 2015-04-14 | 2015-06-24 | 海量云图(北京)数据技术有限公司 | 数据表中隐私数据的发现与分类方法 |
CN105260440A (zh) * | 2015-09-30 | 2016-01-20 | 北京奇虎科技有限公司 | 识别电话号码的方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641731A (zh) * | 2021-08-17 | 2021-11-12 | 成都知道创宇信息技术有限公司 | 模糊搜索优化方法、装置、电子设备和可读存储介质 |
CN113641731B (zh) * | 2021-08-17 | 2023-05-02 | 成都知道创宇信息技术有限公司 | 模糊搜索优化方法、装置、电子设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103123618B (zh) | 文本相似度获取方法和装置 | |
TW200739371A (en) | Information processing apparatus and method, and a computer readable storage medium encoded with a computer program | |
CN105260751B (zh) | 一种文字识别方法及其系统 | |
CN106527756A (zh) | 一种对输入信息进行智能纠错的方法及装置 | |
WO2008008519A3 (en) | Process for separating a fluoroolefin from hf by liquid-liquid extraction | |
CN104281653A (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
JP2004246868A5 (zh) | ||
CN103226576A (zh) | 基于语义相似度的垃圾评论过滤方法 | |
CN102637180B (zh) | 基于正则表达式的文字后处理方法和装置 | |
CN103955453A (zh) | 一种从文档集中自动发现新词的方法及装置 | |
CN101162500A (zh) | 分区式人脸识别方法 | |
CN103488998A (zh) | 一种基于神经网络和图像处理技术的身份证识别方法 | |
CN104915420A (zh) | 知识库数据处理方法及系统 | |
CN106202011A (zh) | 一种提取手机号码的方法 | |
CN101673263B (zh) | 视频内容的搜索方法 | |
CN103678280A (zh) | 翻译任务碎片化的方法 | |
CN101673262B (zh) | 音频内容的搜索方法 | |
WO2015024429A1 (zh) | 获取网页中影视主体的方法及装置 | |
CN105512109A (zh) | 新词汇的发现方法及装置 | |
CN104331348A (zh) | 一种还原fat32目录项的起始簇号恢复文件的方法 | |
WO2005048096A3 (en) | Intermediate software layer | |
CN101673267B (zh) | 音频、视频内容的搜索方法 | |
CN102200966A (zh) | 一种版面信息提取和加工的方法 | |
CN109815473A (zh) | 一种文档编辑辅助方法 | |
CN103336806A (zh) | 一种基于词出现间距的内在与外在模式熵差的关键词排序方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161207 |
|
RJ01 | Rejection of invention patent application after publication |