CN104853329B - 识别号码的方法和装置 - Google Patents

识别号码的方法和装置 Download PDF

Info

Publication number
CN104853329B
CN104853329B CN201510206396.XA CN201510206396A CN104853329B CN 104853329 B CN104853329 B CN 104853329B CN 201510206396 A CN201510206396 A CN 201510206396A CN 104853329 B CN104853329 B CN 104853329B
Authority
CN
China
Prior art keywords
character string
express delivery
character
classification
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510206396.XA
Other languages
English (en)
Other versions
CN104853329A (zh
Inventor
汪平仄
龙飞
秦秋平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201510206396.XA priority Critical patent/CN104853329B/zh
Publication of CN104853329A publication Critical patent/CN104853329A/zh
Application granted granted Critical
Publication of CN104853329B publication Critical patent/CN104853329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于一种识别号码的方法和装置,属于计算机技术领域。所述方法包括:检测目标通信信息中是否包含快递机构名称;若目标通信信息中包含快递机构名称,则从目标通信信息中提取n个字符序列,n≥1;从n个字符序列中识别出属于快递单号的字符序列。本公开通过在检测出目标通信信息中包含快递机构名称的情况下,从目标通信信息中提取至少一个字符序列,并从上述提取的字符序列中识别出属于快递单号的字符序列;解决了需要用户自行从通信信息中获取快递单号的问题;达到了从通信信息中自动识别出快递单号,提高快递单号的识别效率的效果。

Description

识别号码的方法和装置
技术领域
本公开涉及计算机技术领域,特别涉及一种识别号码的方法和装置。
背景技术
商家或者快递机构通常以短信的形式向用户下发快递信息。其中,快递信息通常包括快递机构名称、快递单号、发货时间等信息。
快递单号用于唯一标识一件快递物品。用户通过快递单号,可查询获取该快递单号对应的物品信息、物流信息、配送员信息以及快递机构信息等相关内容。目前,需要用户自行从商家或者快递机构下发至用户终端的快递信息中获取快递单号。
发明内容
本公开实施例提供了一种识别号码的方法和装置。所述技术方案如下:
根据本公开实施例的第一方面,提供了一种识别号码的方法,所述方法包括:
检测目标通信信息中是否包含快递机构名称;
若所述目标通信信息中包含所述快递机构名称,则从所述目标通信信息中提取n个字符序列,n≥1;
从所述n个字符序列中识别出属于快递单号的字符序列。
可选地,所述从所述n个字符序列中识别出快递单号,包括:
采用完成训练的分类模型预测所述n个字符序列中每个字符序列各自所属的分类,得到属于第一分类的p个字符序列,属于第二分类的q个字符序列,p+q=n;其中,所述第一分类是被预测为属于快递单号的字符序列对应的分类,所述第二分类是被预测为不属于快递单号的字符序列对应的分类;
从所述p个字符序列中识别出所述属于快递单号的字符序列。
可选地,所述采用完成训练的分类模型预测所述n个字符序列中每个字符序列各自所属的分类,得到属于第一分类的p个字符序列,属于第二分类的q个字符序列,包括:
对于所述n个字符序列中的第i个字符序列,从所述目标通信信息中提取所述第i个字符序列对应的特征项组合,1≤i≤n;其中,所述特征项组合包含快递机构名称、所述快递机构名称与所述字符序列间的字符间隔距离、所述字符序列的长度、所述字符序列的前缀、用于指示所述字符序列中是否包含英文字符的指示符、所述目标通信信息中包含的字符序列的总数中的至少一个特征项;
将所述第i个字符序列对应的特征项组合中包含的各个特征项以数值进行量化;
采用完成训练的SVM(Support Vector Machine,支持向量机)分类模型依据所述第i个字符序列对应的量化后的特征项组合,计算所述第i个字符序列对应的预测值;
判断所述第i个字符序列对应的预测值是属于所述第一分类对应的预测值区间还是属于所述第二分类对应的预测值区间;
当所述第i个字符序列对应的预测值属于所述第一分类对应的预测值区间时,将所述第i个字符序列分类至所述第一分类;
当所述第i个字符序列对应的预测值属于所述第二分类对应的预测值区间时,将所述第i个字符序列分类至所述第二分类。
可选地,所述方法还包括:
构建所述SVM分类模型;
通过预先获取的a个训练样本对所述SVM分类模型进行训练,a≥1;
其中,每一个训练样本包含一个字符序列对应的特征项组合和期望分类结果。
可选地,所述从所述p个字符序列中识别出所述属于快递单号的字符序列,包括:
当p小于或等于预设阈值时,将所述p个字符序列全部识别为所述属于快递单号的字符序列。
可选地,所述方法还包括:
当p大于所述预设阈值时,从所述p个字符序列中剔除属于非快递单号的字符序列;其中,所述非快递单号包括订单号、电话号码、银行卡号、验证码和日期时间中的至少一种;
当剩余的字符序列的数量小于或等于所述预设阈值时,将所述剩余的字符序列识别为所述属于快递单号的字符序列;
当所述剩余的字符序列的数量大于所述预设阈值时,将所述剩余的字符序列中与所述快递机构名称间的字符间隔距离最小的字符序列识别为所述属于快递单号的字符序列。
可选地,所述从所述p个字符序列中剔除属于非快递单号的字符序列,包括:
当所述p个字符序列中的目标字符序列符合第一预定条件时,将所述目标字符序列识别为属于订单号的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第一预定条件是指所述目标字符序列之前包含订单关键字;
当所述p个字符序列中的目标字符序列符合第二预定条件时,将所述目标字符序列识别为属于电话号码的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第二预定条件包括所述目标字符序列中包含电话区号、所述目标字符序列中包含移动电话号码前缀、所述目标字符序列的长度为预设长度中的至少一项;
当所述p个字符序列中的目标字符序列符合第三预定条件时,将所述目标字符序列识别为属于银行卡号的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第三预定条件是指所述目标字符序列中包含BIN(Bank Identity Number,银行标识代码);
当所述p个字符序列中的目标字符序列符合第四预定条件时,将所述目标字符序列识别为属于验证码的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第四预定条件是指所述字符序列所在分句中包含验证码关键字;
当所述p个字符序列中的目标字符序列符合第五预定条件时,将所述目标字符序列识别为属于日期时间的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第五预定条件是指所述目标字符序列符合日期时间的正则表达式。
可选地,所述预设阈值为1。
可选地,所述从所述目标通信信息中提取n个字符序列,包括:
从所述目标通信信息中提取n个符合预检测条件的字符序列;
其中,所述预检测条件包括字符序列的长度大于长度下限阈值、字符序列的长度小于长度上限阈值、字符序列中包含数字中的至少一项。
可选地,所述方法还包括:
获取所述目标通信信息所对应的发送方号码;
根据所述发送方号码检测所述目标通信信息是否为通知类信息;
当所述目标通信信息为所述通知类信息时,执行所述检测目标通信信息中是否包含快递机构名称的步骤。
根据本公开实施例的第二方面,提供了一种识别号码的装置,所述装置包括:
检测模块,被配置为检测目标通信信息中是否包含快递机构名称;
提取模块,被配置为当所述目标通信信息中包含所述快递机构名称时,从所述目标通信信息中提取n个字符序列,n≥1;
识别模块,被配置为从所述n个字符序列中识别出属于快递单号的字符序列。
可选地,所述识别模块,包括:预测子模块和识别子模块;
所述预测子模块,被配置为采用完成训练的分类模型预测所述n个字符序列中每个字符序列各自所属的分类,得到属于第一分类的p个字符序列,属于第二分类的q个字符序列,p+q=n;其中,所述第一分类是被预测为属于快递单号的字符序列对应的分类,所述第二分类是被预测为不属于快递单号的字符序列对应的分类;
所述识别子模块,被配置为从所述p个字符序列中识别出所述属于快递单号的字符序列。
可选地,所述预测子模块,包括:提取子模块、量化子模块、计算子模块、判断子模块、第一分类子模块和第二分类子模块;
所述提取子模块,被配置为对于所述n个字符序列中的第i个字符序列,从所述目标通信信息中提取所述第i个字符序列对应的特征项组合,1≤i≤n;其中,所述特征项组合包含快递机构名称、所述快递机构名称与所述字符序列间的字符间隔距离、所述字符序列的长度、所述字符序列的前缀、用于指示所述字符序列中是否包含英文字符的指示符、所述目标通信信息中包含的字符序列的总数中的至少一个特征项;
所述量化子模块,被配置为将所述第i个字符序列对应的特征项组合中包含的各个特征项以数值进行量化;
所述计算子模块,被配置为采用完成训练的SVM分类模型依据所述第i个字符序列对应的量化后的特征项组合,计算所述第i个字符序列对应的预测值;
所述判断子模块,被配置为判断所述第i个字符序列对应的预测值是属于所述第一分类对应的预测值区间还是属于所述第二分类对应的预测值区间;
所述第一分类子模块,被配置为当所述第i个字符序列对应的预测值属于所述第一分类对应的预测值区间时,将所述第i个字符序列分类至所述第一分类;
所述第二分类子模块,被配置为当所述第i个字符序列对应的预测值属于所述第二分类对应的预测值区间时,将所述第i个字符序列分类至所述第二分类。
可选地,所述装置还包括:
构建模块,被配置为构建所述SVM分类模型;
训练模块,被配置为通过预先获取的a个训练样本对所述SVM分类模型进行训练,a≥1;
其中,每一个训练样本包含一个字符序列对应的特征项组合和期望分类结果。
可选地,所述识别子模块,包括:第一识别子模块;
所述第一识别子模块,被配置为当p小于或等于预设阈值时,将所述p个字符序列全部识别为所述属于快递单号的字符序列。
可选地,所述识别子模块,还包括:剔除子模块、第二识别子模块和第三识别子模块;
所述剔除子模块,被配置为当p大于所述预设阈值时,从所述p个字符序列中剔除属于非快递单号的字符序列;其中,所述非快递单号包括订单号、电话号码、银行卡号、验证码和日期时间中的至少一种;
所述第二识别子模块,被配置为当剩余的字符序列的数量小于或等于所述预设阈值时,将所述剩余的字符序列识别为所述属于快递单号的字符序列;
所述第三识别子模块,被配置为当所述剩余的字符序列的数量大于所述预设阈值时,将所述剩余的字符序列中与所述快递机构名称间的字符间隔距离最小的字符序列识别为所述属于快递单号的字符序列。
可选地,所述剔除子模块,包括:第一剔除子模块、第二剔除子模块、第三剔除子模块、第四剔除子模块和第五剔除子模块中的至少一种;
所述第一剔除子模块,被配置为当所述p个字符序列中的目标字符序列符合第一预定条件时,将所述目标字符序列识别为属于订单号的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第一预定条件是指所述目标字符序列之前包含订单关键字;
所述第二剔除子模块,被配置为当所述p个字符序列中的目标字符序列符合第二预定条件时,将所述目标字符序列识别为属于电话号码的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第二预定条件包括所述目标字符序列中包含电话区号、所述目标字符序列中包含移动电话号码前缀、所述目标字符序列的长度为预设长度中的至少一项;
所述第三剔除子模块,被配置为当所述p个字符序列中的目标字符序列符合第三预定条件时,将所述目标字符序列识别为属于银行卡号的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第三预定条件是指所述目标字符序列中包含BIN;
所述第四剔除子模块,被配置为当所述p个字符序列中的目标字符序列符合第四预定条件时,将所述目标字符序列识别为属于验证码的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第四预定条件是指所述字符序列所在分句中包含验证码关键字;
所述第五剔除子模块,被配置为当所述p个字符序列中的目标字符序列符合第五预定条件时,将所述目标字符序列识别为属于日期时间的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第五预定条件是指所述目标字符序列符合日期时间的正则表达式。
可选地,所述预设阈值为1。
可选地,所述提取模块,还被配置为从所述目标通信信息中提取n个符合预检测条件的字符序列;
其中,所述预检测条件包括字符序列的长度大于长度下限阈值、字符序列的长度小于长度上限阈值、字符序列中包含数字中的至少一项。
可选地,所述装置还包括:
号码获取模块,被配置为获取所述目标通信信息所对应的发送方号码;
信息检测模块,被配置为根据所述发送方号码检测所述目标通信信息是否为通知类信息;
所述检测模块,还被配置为当所述目标通信信息为所述通知类信息时,检测目标通信信息中是否包含快递机构名称。
根据本公开实施例的第三方面,提供了一种识别号码的装置,所述装置包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
检测目标通信信息中是否包含快递机构名称;
若所述目标通信信息中包含所述快递机构名称,则从所述目标通信信息中提取n个字符序列,n≥1;
从所述n个字符序列中识别出属于快递单号的字符序列。
本公开实施例提供的技术方案可以包括以下有益效果:
通过在检测出目标通信信息中包含快递机构名称的情况下,从目标通信信息中提取至少一个字符序列,并从上述提取的字符序列中识别出属于快递单号的字符序列;解决了需要用户自行从通信信息中获取快递单号的问题;达到了从通信信息中自动识别出快递单号,提高快递单号的识别效率的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种识别号码的方法的流程图;
图2A是根据另一示例性实施例示出的一种识别号码的方法的流程图;
图2B是另一示例性实施例中步骤203所涉及的流程图;
图2C是另一示例性实施例中步骤204所涉及的流程图;
图3是根据一示例性实施例示出的一种识别号码的装置的框图;
图4是根据另一示例性实施例示出的一种识别号码的装置的框图;
图5是根据一示例性实施例示出的一种装置的框图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种识别号码的方法的流程图。该方法可应用于诸如手机、平板电脑、个人数字助理之类的终端中。该方法可以包括如下几个步骤:
在步骤102中,检测目标通信信息中是否包含快递机构名称。
在步骤104中,若目标通信信息中包含快递机构名称,则从目标通信信息中提取n个字符序列,n≥1。
在步骤106中,从n个字符序列中识别出属于快递单号的字符序列。
综上所述,本实施例提供的识别号码的方法,通过在检测出目标通信信息中包含快递机构名称的情况下,从目标通信信息中提取至少一个字符序列,并从上述提取的字符序列中识别出属于快递单号的字符序列;解决了需要用户自行从通信信息中获取快递单号的问题;达到了从通信信息中自动识别出快递单号,提高快递单号的识别效率的效果。
图2A是根据另一示例性实施例示出的一种识别号码的方法的流程图,本实施例以该方法应用于终端中进行举例说明。该方法可以包括如下几个步骤:
在步骤201中,检测目标通信信息中是否包含快递机构名称。
终端检测目标通信信息中是否包含快递机构名称。其中,目标通信信息包括但不限于短信、邮件和即时通信信息中的任意一种。在本实施例中,以目标通信信息为短信进行举例说明。
终端可预先存储快递机构名称集合,该快递机构名称集合中包含至少一个快递机构名称。可选地,终端可从服务器中获取最近更新的快递机构名称集合。终端可通过诸如关键字匹配之类的匹配技术检测目标通信信息中是否存在与快递机构名称集合中的某个快递机构名称相匹配的关键字;若存在,则确定目标通信信息中包含快递机构名称;反之,若不存在,则确定目标通信信息中不包含快递机构名称。
可选地,对于同一快递机构而言,可在快递机构名称集合中存储该快递机构对应的快递机构名称的全称以及快递机构名称的简称(或者别名)。例如,某一快递机构对应的快递机构名称的全称为“X通快递”,该快递机构对应的快递机构名称的简称为“X通”,则在快递机构名称集合中同时存储“X通快递”和“X通”这两个快递机构名称。通过将快递机构名称的全称以及快递机构名称的简称(或者别名)同时存储于快递机构名称集合中,可提高检测结果的准确度,减少漏检的情况发生。
可选地,在步骤201之前,终端可获取目标通信信息所对应的发送方号码,并根据该发送方号码检测目标通信信息是否为通知类信息;当目标通信信息为通知类信息时,执行步骤201。其中,通知类信息是指商户、运营商、企业等机构发送给用户个人的通知信息,通知类信息有别于用户之间的聊天信息。商户或快递机构向用户发送的携带有快递单号的通信信息,通常为通知类信息。在一种可能的实施方式中,当目标通信信息为短信时,终端可获取该目标通信信息所对应的发送方号码,并检测该发送方号码是否为固定电话号码或者手机号码;当该发送方号码既不是固定电话号码也不是手机号码时,判断该目标通信信息为通知类信息。终端通过检测目标通信信息是否为通知类短信,并在检测结果为是的情况下再执行后续的快递单号识别操作,可排除用户之间的聊天信息的干扰,节省终端的处理开销。
在步骤202中,若目标通信信息中包含快递机构名称,则从目标通信信息中提取n个字符序列,n≥1。
当目标通信信息中包含快递机构名称时,终端从目标通信信息中提取n个字符序列。其中,字符序列是指由至少一个字符所构成的序列。字符可以是数字、字母和符号中的至少一种。
在一种可能的实施方式中,终端从目标通信信息中提取全部n个字符序列。
在另一种可能的实施方式中,终端从目标通信信息中提取n个符合预检测条件的字符序列。其中,预检测条件包括字符序列的长度大于长度下限阈值、字符序列的长度小于长度上限阈值、字符序列中包含数字中的至少一项。通过对不同快递机构的快递单号的特征进行分析,发现各个快递单号之间存在一些共性。例如,快递单号的长度通常在某一区间内,快递单号中均包含有数字。因此,通过预检测步骤从目标通信信息中提取符合预检测条件的字符序列,而将一些明显不属于快递单号的字符序列排除,可节省终端后续的处理开销,且有利于提高识别效率。
在步骤203中,采用完成训练的分类模型预测n个字符序列中每个字符序列各自所属的分类,得到属于第一分类的p个字符序列,属于第二分类的q个字符序列,p+q=n。
其中,第一分类是被预测为属于快递单号的字符序列对应的分类,第二分类是被预测为不属于快递单号的字符序列对应的分类。在本实施例中,设定第一分类和第二分类两种不同的分类,采用完成训练的分类模型对提取的各个字符序列进行分类预测,从中筛选出属于快递单号的字符序列。
可选地,如图2B所示,以预测上述n个字符序列中的第i个字符序列所属的分类为例(1≤i≤n),该预测过程可包括如下几个子步骤:
在步骤203a中,从目标通信信息中提取第i个字符序列对应的特征项组合。
其中,特征项组合中包括但不限于下列特征项中的至少一种:快递机构名称、快递机构名称与字符序列间的字符间隔距离、字符序列的长度、字符序列的前缀、用于指示字符序列中是否包含英文字符的指示符、目标通信信息中包含的字符序列的总数。
在步骤203b中,将第i个字符序列对应的特征项组合中包含的各个特征项以数值进行量化。
以对快递机构名称进行量化为例,可以预先设定不同的快递机构名称与不同的量化数值之间的对应关系。如,快递机构名称“X通快递”对应量化数值1,快递机构名称“XX速运”对应量化数值2,快递机构名称“X急送”对应量化数值3,依次类推。假设第i个字符序列对应的特征项组合中包含快递机构名称“X通快递”这一特征项,则将该特征项以数值进行量化后即为1。类似地,其它特征项也可以类似的方式进行量化。
在步骤203c中,采用完成训练的SVM分类模型依据第i个字符序列对应的量化后的特征项组合,计算第i个字符序列对应的预测值。
将第i个字符序列对应的量化后的特征项组合作为完成训练的SVM分类模型的输入参数,采用该SVM分类模型计算该第i个字符序列对应的预测值。
在步骤203d中,判断第i个字符序列对应的预测值是属于第一分类对应的预测值区间还是属于第二分类对应的预测值区间。
在步骤203e中,当第i个字符序列对应的预测值属于第一分类对应的预测值区间时,将第i个字符序列分类至第一分类。
在步骤203f中,当第i个字符序列对应的预测值属于第二分类对应的预测值区间时,将第i个字符序列分类至第二分类。
其中,第一分类和第二分类分别对应于两个不同的预测值区间,该预测值区间是预先进行设定的。例如,预先设定第一分类对应的预测值区间为大于0的区间,第二分类对应的预测值区间为小于0的区间。则当第i个字符序列对应的预测值大于0时,SVM分类模型将该第i个字符序列分类至第一分类,也即分类至被预测为属于快递单号的字符序列对应的分类。当第i个字符序列对应的预测值小于0时,SVM分类模型将该第i个字符序列分类至第二分类,也即分类至被预测为不属于快递单号的字符序列对应的分类。
在本实施例中,采用SVM分类模型对字符序列所属的分类进行预测。SVM分类模型适用于解决二分类问题,模型较小,易于在手机之类的终端中运行。
另外,可通过如下两个步骤构建和训练SVM分类模型:
1、构建SVM分类模型;
2、通过预先获取的a个训练样本对SVM分类模型进行训练,a≥1;
其中,每一个训练样本包含一个字符序列对应的特征项组合和期望分类结果。
训练样本可分为正样本和负样本两种。其中,正样本是指属于快递单号的字符序列所对应的训练样本;负样本是指不属于快递单号的字符序列对应的训练样本。训练样本可由技术人员预先从包含有快递单号的通信信息中提取得到。
另外,SVM分类模型的构建和训练过程可由终端执行;或者,SVM分类模型的构建和训练过程也可由服务器执行,服务器将完成训练的SVM分类模型提供给终端。
需要说明的一点是:在本实施例中,仅以采用SVM分类模型进行举例说明,在其它可能的实施方式中,也可采用决策树、KNN(k-Nearest Neighbor,K最邻近)、神经网络等其它分类模型。对此,本实施例不作限定。
在步骤204中,从p个字符序列中识别出属于快递单号的字符序列。
终端根据上述步骤203的预测结果,从属于第一分类的p个字符序列中识别出属于快递单号的字符序列。
在一种可能的实施方式中,终端将属于第一分类的p个字符序列全部识别为属于快递单号的字符序列。
在另一种可能的实施方式中,如图2C所示,步骤204可包括如下几个子步骤:
在步骤204a中,判断p是否小于或等于预设阈值。
其中,预设阈值是根据实际情况预先设定的经验值。例如,对包含有快递单号的通信信息进行整理和统计,发现在通常情况下每条通信信息中有且仅有1个快递单号,则可设定预设阈值为1。
终端判断第一分类中的字符序列的数量p是否小于或等于预设阈值;若是,则执行下述步骤204b;否则,执行下述步骤204c。
在步骤204b中,将p个字符序列全部识别为属于快递单号的字符序列。
当p小于或等于预设阈值时,终端将属于第一分类的p个字符序列全部识别为属于快递单号的字符序列。
可选地,当预设阈值为1时,则在第一分类中有且只有1个字符序列的情况下,终端将该第一分类中的字符序列识别为属于快递单号的字符序列。
在步骤204c中,从p个字符序列中剔除属于非快递单号的字符序列。
当p大于预设阈值时,终端从属于第一分类的p个字符序列中剔除属于非快递单号的字符序列。其中,非快递单号包括但不限于订单号、电话号码、银行卡号、验证码和日期时间中的至少一种。
可选地,当预设阈值为1时,则在第一分类中有多个字符序列的情况下,终端从该多个字符序列中剔除属于非快递单号的字符序列。
可选地,对于不同种类的非快递单号,可采用如下方式进行辨别:
1、当p个字符序列中的目标字符序列符合第一预定条件时,将目标字符序列识别为属于订单号的字符序列,并从p个字符序列中剔除该目标字符序列。
其中,第一预定条件是指目标字符序列之前包含订单关键字。属于订单号的字符序列之前通常包含有诸如“订单”、“订单号”之类的订单关键字,终端可采用该特征简单判定目标字符序列是否为属于订单号的字符序列。
2、当p个字符序列中的目标字符序列符合第二预定条件时,将目标字符序列识别为属于电话号码的字符序列,并从p个字符序列中剔除该目标字符序列。
其中,第二预定条件包括目标字符序列中包含电话区号、目标字符序列中包含移动电话号码前缀、目标字符序列的长度为预设长度中的至少一项。电话号码通常包括预订电话号码和移动电话号码(也即手机号码)两种。固定电话号码中通常包括电话区号,且长度固定;移动电话号码中通常包括一些固定的前缀,且长度固定。因此,终端可采用上述特征简单判定目标字符序列是否为属于订单号的字符序列。
3、当p个字符序列中的目标字符序列符合第三预定条件时,将目标字符序列识别为属于银行卡号的字符序列,并从p个字符序列中剔除该目标字符序列。
其中,第三预定条件是指目标字符序列中包含BIN码。银行卡号具有固定的格式,以19位的银行卡号为例,该银行卡号的前6位是BIN码,中间12位是个人账号标识,最后1位是校验位。由于银行卡号的前几位必然是BIN码,因此,可通过检测目标字符序列的前几位是否是BIN码来简单判定该目标字符序列是否为属于银行卡号的字符序列。
4、当p个字符序列中的目标字符序列符合第四预定条件时,将目标字符序列识别为属于验证码的字符序列,并从p个字符序列中剔除该目标字符序列。
其中,第四预定条件是指字符序列所在分句中包含验证码关键字。属于验证码的字符序列所在的分句中通常包含有诸如“验证码”、“动态码”、“校验码”之类的验证码关键字,终端可采用该特征简单判定目标字符序列是否为属于验证码的字符序列。
5、当p个字符序列中的目标字符序列符合第五预定条件时,将目标字符序列识别为属于日期时间的字符序列,并从p个字符序列中剔除目标字符序列。
其中,第五预定条件是指目标字符序列符合日期时间的正则表达式。属于日期时间的字符序列具有较强的时间特征,可直接使用正则表达式进行判定。
需要说明的一点是:上述例举的各种非快递单号对应的判定条件进行示例性和解释性的,在实际应用中,可结合实际情况设定各种非快递单号对应的判断条件。对此,本实施例不作限定。
在步骤204d中,判断剩余的字符序列的数量是否小于或等于预设阈值。
终端从p个字符序列中剔除属于非快递单号的字符序列之后,判断剩余的字符序列的数量是否小于或等于预设阈值。若是,则执行下述步骤204e;否则,执行下述步骤204f。
在步骤204e中,将剩余的字符序列识别为属于快递单号的字符序列。
当剩余的字符序列的数量小于或等于预设阈值时,终端将剩余的字符序列全部识别为属于快递单号的字符序列。
可选地,当预设阈值为1时,则在剩余的字符序列有且只有1个的情况下,终端将该剩余的字符序列识别为属于快递单号的字符序列。
在步骤204f中,将剩余的字符序列中与快递机构名称间的字符间隔距离最小的字符序列识别为属于快递单号的字符序列。
当剩余的字符序列的数量大于预设阈值时,终端从剩余的字符序列中选取与快递机构名称间的字符间隔距离最小的字符序列,并将该被选取的字符序列识别为属于快递单号的字符序列。
可选地,终端从目标通信信息中识别出属于快递单号的字符序列后,可将该属于快递单号的字符序列和对应的快递机构名称进行显示或存储。另外,终端也可采用该识别为快递单号的字符序列,进行物流查询等相关操作,将查询到的物流信息提供给用户,从而尽可能地减少用户操作,提高用户体验。
综上所述,本实施例提供的识别号码的方法,通过在检测出目标通信信息中包含快递机构名称的情况下,从目标通信信息中提取至少一个字符序列,并从上述提取的字符序列中识别出属于快递单号的字符序列;解决了需要用户自行从通信信息中获取快递单号的问题;达到了从通信信息中自动识别出快递单号,提高快递单号的识别效率的效果。
另外,本实施例提供的识别号码的方法,对于分类模型预测为属于第一分类的字符序列,通过预设的判定规则从中进一步剔除属于非快递单号的字符序列,充分提高了识别的准确率。同时,非快递单号的判定过程简单高效,易于实施,复杂度较低,实现了在确保识别效率的情况下,尽可能地提高识别的准确率。
在一个例子中,假设终端接收到内容如下的短信“您的订单1234XXXX已于今日(2015-03-31)发货。物流信息为:X通快递,快递单号3480XXXX。如有问题随时与我们联系,联系电话010-8255XXXX。”
终端可通过如下几个步骤从该短信中自动识别出快递单号:
1)终端获取该短信对应的发送方号码,并检测该发送方号码是否为固定电话号码或者手机号码;
2)当该发送方号码既不是固定电话号码也不是手机号码时,终端检测该短信中是否包含快递机构名称;
3)当该短信中包含快递机构名称时,终端从该短信中提取长度在6至10个字符之间且包含数字的字符序列;例如,终端检测出该短信中包含快递机构名称“X通快递”后,从该短信中提取符合上述要求的字符序列,包括“1234XXXX”、“2015-03-31”和“3480XXXX”;
4)终端采用完成训练的SVM分类模型预测提取的各个字符序列各自所属的分类,假设得到属于第一分类的2个字符序列“1234XXXX”和“3480XXXX”,以及属于第二分类的1个字符序列“2015-03-31”;其中,第一分类是被预测为属于快递单号的字符序列对应的分类,第二分类是被预测为不属于快递单号的字符序列对应的分类;
5)当属于第一分类的字符序列的数量为1个时,终端直接将该属于第一分类的字符序列识别为快递单号;
6)当属于第一分类的字符序列的数量为多个时,终端从该多个字符序列中剔除属于非快递单号的字符序列;例如,终端检测出字符序列“1234XXXX”之前包含订单关键字“订单”,终端便将该字符序列“1234XXXX”识别为订单号,并剔除;
7)当剩余的字符序列的数量为1个时,终端将该剩余的字符序列识别为快递单号;例如,终端在剔除订单号“1234XXXX”之后,仅剩余“3480XXXX”一个字符序列,则终端将该字符序列识别为快递单号。
8)当剩余的字符序列的数量为多个时,终端将剩余的字符序列中与快递机构名称间的字符间隔距离最小的字符序列识别快递单号。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是根据一示例性实施例示出的一种识别号码的装置的框图,该装置可应用于终端中。该装置可以包括:检测模块310、提取模块320和识别模块330。
检测模块310,被配置为检测目标通信信息中是否包含快递机构名称。
提取模块320,被配置为当所述检测模块310检测出所述目标通信信息中包含所述快递机构名称时,从所述目标通信信息中提取n个字符序列,n≥1。
识别模块330,被配置为从所述提取模块320提取的所述n个字符序列中识别出属于快递单号的字符序列。
综上所述,本实施例提供的识别号码的装置,通过在检测出目标通信信息中包含快递机构名称的情况下,从目标通信信息中提取至少一个字符序列,并从上述提取的字符序列中识别出属于快递单号的字符序列;解决了需要用户自行从通信信息中获取快递单号的问题;达到了从通信信息中自动识别出快递单号,提高快递单号的识别效率的效果。
图4是根据另一示例性实施例示出的一种识别号码的装置的框图,该装置可应用于终端中。该装置可以包括:检测模块310、提取模块320和识别模块330。
检测模块310,被配置为检测目标通信信息中是否包含快递机构名称。
提取模块320,被配置为当所述检测模块310检测出所述目标通信信息中包含所述快递机构名称时,从所述目标通信信息中提取n个字符序列,n≥1。
识别模块330,被配置为从所述提取模块320提取的所述n个字符序列中识别出属于快递单号的字符序列。
可选地,所述识别模块330,包括:预测子模块331和识别子模块332。
所述预测子模块331,被配置为采用完成训练的分类模型预测所述提取模块320提取的所述n个字符序列中每个字符序列各自所属的分类,得到属于第一分类的p个字符序列,属于第二分类的q个字符序列,p+q=n;其中,所述第一分类是被预测为属于快递单号的字符序列对应的分类,所述第二分类是被预测为不属于快递单号的字符序列对应的分类。
所述识别子模块332,被配置为从所述预测子模块331预测为属于所述第一分类的所述p个字符序列中识别出所述属于快递单号的字符序列。
可选地,所述预测子模块331,包括:提取子模块331a、量化子模块331b、计算子模块331c、判断子模块331d、第一分类子模块331e和第二分类子模块331f。
所述提取子模块331a,被配置为对于所述n个字符序列中的第i个字符序列,从所述目标通信信息中提取所述第i个字符序列对应的特征项组合,1≤i≤n;其中,所述特征项组合包含快递机构名称、所述快递机构名称与所述字符序列间的字符间隔距离、所述字符序列的长度、所述字符序列的前缀、用于指示所述字符序列中是否包含英文字符的指示符、所述目标通信信息中包含的字符序列的总数中的至少一个特征项。
所述量化子模块331b,被配置为将所述第i个字符序列对应的特征项组合中包含的各个特征项以数值进行量化。
所述计算子模块331c,被配置为采用完成训练的SVM分类模型依据所述第i个字符序列对应的量化后的特征项组合,计算所述第i个字符序列对应的预测值。
所述判断子模块331d,被配置为判断所述第i个字符序列对应的预测值是属于所述第一分类对应的预测值区间还是属于所述第二分类对应的预测值区间。
所述第一分类子模块331e,被配置为当所述第i个字符序列对应的预测值属于所述第一分类对应的预测值区间时,将所述第i个字符序列分类至所述第一分类。
所述第二分类子模块331f,被配置为当所述第i个字符序列对应的预测值属于所述第二分类对应的预测值区间时,将所述第i个字符序列分类至所述第二分类。
可选地,所述装置还包括:构建模块340和训练模块350。
构建模块340,被配置为构建所述SVM分类模型。
训练模块350,被配置为通过预先获取的a个训练样本对所述SVM分类模型进行训练,a≥1。
其中,每一个训练样本包含一个字符序列对应的特征项组合和期望分类结果。
可选地,所述识别子模块332,包括:第一识别子模块332a。
所述第一识别子模块332a,被配置为当p小于或等于预设阈值时,将所述p个字符序列全部识别为所述属于快递单号的字符序列。
可选地,所述识别子模块332,还包括:剔除子模块332b、第二识别子模块332c和第三识别子模块332d。
所述剔除子模块332b,被配置为当p大于所述预设阈值时,从所述p个字符序列中剔除属于非快递单号的字符序列;其中,所述非快递单号包括订单号、电话号码、银行卡号、验证码和日期时间中的至少一种。
所述第二识别子模块332c,被配置为当剩余的字符序列的数量小于或等于所述预设阈值时,将所述剩余的字符序列识别为所述属于快递单号的字符序列。
所述第三识别子模块332d,被配置为当所述剩余的字符序列的数量大于所述预设阈值时,将所述剩余的字符序列中与所述快递机构名称间的字符间隔距离最小的字符序列识别为所述属于快递单号的字符序列。
可选地,所述剔除子模块332b,包括:第一剔除子模块332b1、第二剔除子模块332b2、第三剔除子模块332b3、第四剔除子模块332b4和第五剔除子模块332b5中的至少一种。
所述第一剔除子模块332b1,被配置为当所述p个字符序列中的目标字符序列符合第一预定条件时,将所述目标字符序列识别为属于订单号的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第一预定条件是指所述目标字符序列之前包含订单关键字。
所述第二剔除子模块332b2,被配置为当所述p个字符序列中的目标字符序列符合第二预定条件时,将所述目标字符序列识别为属于电话号码的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第二预定条件包括所述目标字符序列中包含电话区号、所述目标字符序列中包含移动电话号码前缀、所述目标字符序列的长度为预设长度中的至少一项。
所述第三剔除子模块332b3,被配置为当所述p个字符序列中的目标字符序列符合第三预定条件时,将所述目标字符序列识别为属于银行卡号的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第三预定条件是指所述目标字符序列中包含银行标识代码BIN。
所述第四剔除子模块332b4,被配置为当所述p个字符序列中的目标字符序列符合第四预定条件时,将所述目标字符序列识别为属于验证码的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第四预定条件是指所述字符序列所在分句中包含验证码关键字。
所述第五剔除子模块332b5,被配置为当所述p个字符序列中的目标字符序列符合第五预定条件时,将所述目标字符序列识别为属于日期时间的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第五预定条件是指所述目标字符序列符合日期时间的正则表达式。
可选地,所述预设阈值为1。
可选地,所述提取模块320,还被配置为从所述目标通信信息中提取n个符合预检测条件的字符序列。
其中,所述预检测条件包括字符序列的长度大于长度下限阈值、字符序列的长度小于长度上限阈值、字符序列中包含数字中的至少一项。
可选地,所述装置还包括:号码获取模块360和信息检测模块370。
号码获取模块360,被配置为获取所述目标通信信息所对应的发送方号码。
信息检测模块370,被配置为根据所述发送方号码检测所述目标通信信息是否为通知类信息。
所述检测模块310,还被配置为当所述目标通信信息为所述通知类信息时,检测目标通信信息中是否包含快递机构名称。
综上所述,本实施例提供的识别号码的装置,通过在检测出目标通信信息中包含快递机构名称的情况下,从目标通信信息中提取至少一个字符序列,并从上述提取的字符序列中识别出属于快递单号的字符序列;解决了需要用户自行从通信信息中获取快递单号的问题;达到了从通信信息中自动识别出快递单号,提高快递单号的识别效率的效果。
另外,本实施例提供的识别号码的装置,对于分类模型预测为属于第一分类的字符序列,通过预设的判定规则从中进一步剔除属于非快递单号的字符序列,充分提高了识别的准确率。同时,非快递单号的判定过程简单高效,易于实施,复杂度较低,实现了在确保识别效率的情况下,尽可能地提高识别的准确率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种装置500的框图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到装置500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置500的处理器执行时,使得装置500能够执行如上述图1或图2A所示实施例提供的识别号码的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (17)

1.一种识别号码的方法,其特征在于,所述方法包括:
检测目标通信信息中是否包含快递机构名称;
若所述目标通信信息中包含所述快递机构名称,则从所述目标通信信息中提取n个字符序列,n≥1;
从所述n个字符序列中识别出属于快递单号的字符序列,
所述从所述n个字符序列中识别出快递单号,包括:
采用完成训练的分类模型预测所述n个字符序列中每个字符序列各自所属的分类,得到属于第一分类的p个字符序列,属于第二分类的q个字符序列,p+q=n;其中,所述第一分类是被预测为属于快递单号的字符序列对应的分类,所述第二分类是被预测为不属于快递单号的字符序列对应的分类;
从所述p个字符序列中识别出所述属于快递单号的字符序列,
所述采用完成训练的分类模型预测所述n个字符序列中每个字符序列各自所属的分类,得到属于第一分类的p个字符序列,属于第二分类的q个字符序列,包括:
对于所述n个字符序列中的第i个字符序列,从所述目标通信信息中提取所述第i个字符序列对应的特征项组合,1≤i≤n;其中,所述特征项组合包含快递机构名称、所述快递机构名称与所述字符序列间的字符间隔距离、所述字符序列的长度、所述字符序列的前缀、用于指示所述字符序列中是否包含英文字符的指示符、所述目标通信信息中包含的字符序列的总数中的至少一个特征项;
将所述第i个字符序列对应的特征项组合中包含的各个特征项以数值进行量化;
采用完成训练的支持向量机SVM分类模型依据所述第i个字符序列对应的量化后的特征项组合,计算所述第i个字符序列对应的预测值;
判断所述第i个字符序列对应的预测值是属于所述第一分类对应的预测值区间还是属于所述第二分类对应的预测值区间;
当所述第i个字符序列对应的预测值属于所述第一分类对应的预测值区间时,将所述第i个字符序列分类至所述第一分类;
当所述第i个字符序列对应的预测值属于所述第二分类对应的预测值区间时,将所述第i个字符序列分类至所述第二分类。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
构建所述SVM分类模型;
通过预先获取的a个训练样本对所述SVM分类模型进行训练,a≥1;
其中,每一个训练样本包含一个字符序列对应的特征项组合和期望分类结果。
3.根据权利要求1所述的方法,其特征在于,所述从所述p个字符序列中识别出所述属于快递单号的字符序列,包括:
当p小于或等于预设阈值时,将所述p个字符序列全部识别为所述属于快递单号的字符序列。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当p大于所述预设阈值时,从所述p个字符序列中剔除属于非快递单号的字符序列;其中,所述非快递单号包括订单号、电话号码、银行卡号、验证码和日期时间中的至少一种;
当剩余的字符序列的数量小于或等于所述预设阈值时,将所述剩余的字符序列识别为所述属于快递单号的字符序列;
当所述剩余的字符序列的数量大于所述预设阈值时,将所述剩余的字符序列中与所述快递机构名称间的字符间隔距离最小的字符序列识别为所述属于快递单号的字符序列。
5.根据权利要求4所述的方法,其特征在于,所述从所述p个字符序列中剔除属于非快递单号的字符序列,包括:
当所述p个字符序列中的目标字符序列符合第一预定条件时,将所述目标字符序列识别为属于订单号的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第一预定条件是指所述目标字符序列之前包含订单关键字;
当所述p个字符序列中的目标字符序列符合第二预定条件时,将所述目标字符序列识别为属于电话号码的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第二预定条件包括所述目标字符序列中包含电话区号、所述目标字符序列中包含移动电话号码前缀、所述目标字符序列的长度为预设长度中的至少一项;
当所述p个字符序列中的目标字符序列符合第三预定条件时,将所述目标字符序列识别为属于银行卡号的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第三预定条件是指所述目标字符序列中包含银行标识代码BIN;
当所述p个字符序列中的目标字符序列符合第四预定条件时,将所述目标字符序列识别为属于验证码的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第四预定条件是指所述字符序列所在分句中包含验证码关键字;
当所述p个字符序列中的目标字符序列符合第五预定条件时,将所述目标字符序列识别为属于日期时间的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第五预定条件是指所述目标字符序列符合日期时间的正则表达式。
6.根据权利要求3所述的方法,其特征在于,所述预设阈值为1。
7.根据权利要求1至6任一所述的方法,其特征在于,所述从所述目标通信信息中提取n个字符序列,包括:
从所述目标通信信息中提取n个符合预检测条件的字符序列;
其中,所述预检测条件包括字符序列的长度大于长度下限阈值、字符序列的长度小于长度上限阈值、字符序列中包含数字中的至少一项。
8.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:
获取所述目标通信信息所对应的发送方号码;
根据所述发送方号码检测所述目标通信信息是否为通知类信息;
当所述目标通信信息为所述通知类信息时,执行所述检测目标通信信息中是否包含快递机构名称的步骤。
9.一种识别号码的装置,其特征在于,所述装置包括:
检测模块,被配置为检测目标通信信息中是否包含快递机构名称;
提取模块,被配置为当所述目标通信信息中包含所述快递机构名称时,从所述目标通信信息中提取n个字符序列,n≥1;
识别模块,被配置为从所述n个字符序列中识别出属于快递单号的字符序列,
所述识别模块,包括:预测子模块和识别子模块;
所述预测子模块,被配置为采用完成训练的分类模型预测所述n个字符序列中每个字符序列各自所属的分类,得到属于第一分类的p个字符序列,属于第二分类的q个字符序列,p+q=n;其中,所述第一分类是被预测为属于快递单号的字符序列对应的分类,所述第二分类是被预测为不属于快递单号的字符序列对应的分类;
所述识别子模块,被配置为从所述p个字符序列中识别出所述属于快递单号的字符序列,
所述预测子模块,包括:提取子模块、量化子模块、计算子模块、判断子模块、第一分类子模块和第二分类子模块;
所述提取子模块,被配置为对于所述n个字符序列中的第i个字符序列,从所述目标通信信息中提取所述第i个字符序列对应的特征项组合,1≤i≤n;其中,所述特征项组合包含快递机构名称、所述快递机构名称与所述字符序列间的字符间隔距离、所述字符序列的长度、所述字符序列的前缀、用于指示所述字符序列中是否包含英文字符的指示符、所述目标通信信息中包含的字符序列的总数中的至少一个特征项;
所述量化子模块,被配置为将所述第i个字符序列对应的特征项组合中包含的各个特征项以数值进行量化;
所述计算子模块,被配置为采用完成训练的支持向量机SVM分类模型依据所述第i个字符序列对应的量化后的特征项组合,计算所述第i个字符序列对应的预测值;
所述判断子模块,被配置为判断所述第i个字符序列对应的预测值是属于所述第一分类对应的预测值区间还是属于所述第二分类对应的预测值区间;
所述第一分类子模块,被配置为当所述第i个字符序列对应的预测值属于所述第一分类对应的预测值区间时,将所述第i个字符序列分类至所述第一分类;
所述第二分类子模块,被配置为当所述第i个字符序列对应的预测值属于所述第二分类对应的预测值区间时,将所述第i个字符序列分类至所述第二分类。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
构建模块,被配置为构建所述SVM分类模型;
训练模块,被配置为通过预先获取的a个训练样本对所述SVM分类模型进行训练,a≥1;
其中,每一个训练样本包含一个字符序列对应的特征项组合和期望分类结果。
11.根据权利要求9所述的装置,其特征在于,所述识别子模块,包括:第一识别子模块;
所述第一识别子模块,被配置为当p小于或等于预设阈值时,将所述p个字符序列全部识别为所述属于快递单号的字符序列。
12.根据权利要求11所述的装置,其特征在于,所述识别子模块,还包括:剔除子模块、第二识别子模块和第三识别子模块;
所述剔除子模块,被配置为当p大于所述预设阈值时,从所述p个字符序列中剔除属于非快递单号的字符序列;其中,所述非快递单号包括订单号、电话号码、银行卡号、验证码和日期时间中的至少一种;
所述第二识别子模块,被配置为当剩余的字符序列的数量小于或等于所述预设阈值时,将所述剩余的字符序列识别为所述属于快递单号的字符序列;
所述第三识别子模块,被配置为当所述剩余的字符序列的数量大于所述预设阈值时,将所述剩余的字符序列中与所述快递机构名称间的字符间隔距离最小的字符序列识别为所述属于快递单号的字符序列。
13.根据权利要求12所述的装置,其特征在于,所述剔除子模块,包括:第一剔除子模块、第二剔除子模块、第三剔除子模块、第四剔除子模块和第五剔除子模块中的至少一种;
所述第一剔除子模块,被配置为当所述p个字符序列中的目标字符序列符合第一预定条件时,将所述目标字符序列识别为属于订单号的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第一预定条件是指所述目标字符序列之前包含订单关键字;
所述第二剔除子模块,被配置为当所述p个字符序列中的目标字符序列符合第二预定条件时,将所述目标字符序列识别为属于电话号码的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第二预定条件包括所述目标字符序列中包含电话区号、所述目标字符序列中包含移动电话号码前缀、所述目标字符序列的长度为预设长度中的至少一项;
所述第三剔除子模块,被配置为当所述p个字符序列中的目标字符序列符合第三预定条件时,将所述目标字符序列识别为属于银行卡号的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第三预定条件是指所述目标字符序列中包含银行标识代码BIN;
所述第四剔除子模块,被配置为当所述p个字符序列中的目标字符序列符合第四预定条件时,将所述目标字符序列识别为属于验证码的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第四预定条件是指所述字符序列所在分句中包含验证码关键字;
所述第五剔除子模块,被配置为当所述p个字符序列中的目标字符序列符合第五预定条件时,将所述目标字符序列识别为属于日期时间的字符序列,并从所述p个字符序列中剔除所述目标字符序列;其中,所述第五预定条件是指所述目标字符序列符合日期时间的正则表达式。
14.根据权利要求11所述的装置,其特征在于,所述预设阈值为1。
15.根据权利要求9至14任一所述的装置,其特征在于,
所述提取模块,还被配置为从所述目标通信信息中提取n个符合预检测条件的字符序列;
其中,所述预检测条件包括字符序列的长度大于长度下限阈值、字符序列的长度小于长度上限阈值、字符序列中包含数字中的至少一项。
16.根据权利要求9至14任一所述的装置,其特征在于,所述装置还包括:
号码获取模块,被配置为获取所述目标通信信息所对应的发送方号码;
信息检测模块,被配置为根据所述发送方号码检测所述目标通信信息是否为通知类信息;
所述检测模块,还被配置为当所述目标通信信息为所述通知类信息时,检测目标通信信息中是否包含快递机构名称。
17.一种识别号码的装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
检测目标通信信息中是否包含快递机构名称;
若所述目标通信信息中包含所述快递机构名称,则从所述目标通信信息中提取n个字符序列,n≥1;
从所述n个字符序列中识别出属于快递单号的字符序列,
所述从所述n个字符序列中识别出快递单号,包括:
采用完成训练的分类模型预测所述n个字符序列中每个字符序列各自所属的分类,得到属于第一分类的p个字符序列,属于第二分类的q个字符序列,p+q=n;其中,所述第一分类是被预测为属于快递单号的字符序列对应的分类,所述第二分类是被预测为不属于快递单号的字符序列对应的分类;
从所述p个字符序列中识别出所述属于快递单号的字符序列,
所述采用完成训练的分类模型预测所述n个字符序列中每个字符序列各自所属的分类,得到属于第一分类的p个字符序列,属于第二分类的q个字符序列,包括:
对于所述n个字符序列中的第i个字符序列,从所述目标通信信息中提取所述第i个字符序列对应的特征项组合,1≤i≤n;其中,所述特征项组合包含快递机构名称、所述快递机构名称与所述字符序列间的字符间隔距离、所述字符序列的长度、所述字符序列的前缀、用于指示所述字符序列中是否包含英文字符的指示符、所述目标通信信息中包含的字符序列的总数中的至少一个特征项;
将所述第i个字符序列对应的特征项组合中包含的各个特征项以数值进行量化;
采用完成训练的支持向量机SVM分类模型依据所述第i个字符序列对应的量化后的特征项组合,计算所述第i个字符序列对应的预测值;
判断所述第i个字符序列对应的预测值是属于所述第一分类对应的预测值区间还是属于所述第二分类对应的预测值区间;
当所述第i个字符序列对应的预测值属于所述第一分类对应的预测值区间时,将所述第i个字符序列分类至所述第一分类;
当所述第i个字符序列对应的预测值属于所述第二分类对应的预测值区间时,将所述第i个字符序列分类至所述第二分类。
CN201510206396.XA 2015-04-27 2015-04-27 识别号码的方法和装置 Active CN104853329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510206396.XA CN104853329B (zh) 2015-04-27 2015-04-27 识别号码的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510206396.XA CN104853329B (zh) 2015-04-27 2015-04-27 识别号码的方法和装置

Publications (2)

Publication Number Publication Date
CN104853329A CN104853329A (zh) 2015-08-19
CN104853329B true CN104853329B (zh) 2018-06-12

Family

ID=53852611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510206396.XA Active CN104853329B (zh) 2015-04-27 2015-04-27 识别号码的方法和装置

Country Status (1)

Country Link
CN (1) CN104853329B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060000B (zh) * 2016-05-06 2020-02-07 青岛海信移动通信技术股份有限公司 一种识别验证信息的方法和设备
CN106407324A (zh) * 2016-08-31 2017-02-15 北京城市网邻信息技术有限公司 联系方式识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629351A (zh) * 2012-03-12 2012-08-08 中兴通讯股份有限公司 一种基于快递运单的自动通信方法及终端
CN103530751A (zh) * 2013-10-09 2014-01-22 北京奇虎科技有限公司 提供运单信息的方法及装置
CN104504553A (zh) * 2014-12-31 2015-04-08 刘训志 一种物流收发件信息录入和处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629351A (zh) * 2012-03-12 2012-08-08 中兴通讯股份有限公司 一种基于快递运单的自动通信方法及终端
CN103530751A (zh) * 2013-10-09 2014-01-22 北京奇虎科技有限公司 提供运单信息的方法及装置
CN104504553A (zh) * 2014-12-31 2015-04-08 刘训志 一种物流收发件信息录入和处理方法

Also Published As

Publication number Publication date
CN104853329A (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
CN105488025B (zh) 模板构建方法和装置、信息识别方法和装置
CN109389162B (zh) 样本图像筛选方法和装置、电子设备及存储介质
CN105094814A (zh) 通知消息展示方法和装置
CN107193983A (zh) 图像搜索方法及装置
CN105447750A (zh) 信息识别方法、装置、终端及服务器
CN104978868A (zh) 到站提醒方法及装置
CN110266879A (zh) 播放界面显示方法、装置、终端及存储介质
CN108256549A (zh) 图像分类方法、装置及终端
CN105404863A (zh) 人物特征识别方法及系统
CN108038102A (zh) 表情图像的推荐方法、装置、终端及存储介质
CN105528403B (zh) 目标数据识别方法及装置
CN109819288A (zh) 广告投放视频的确定方法、装置、电子设备及存储介质
CN107766820A (zh) 图像分类方法及装置
CN107230137A (zh) 商品信息获取方法及装置
CN108875993A (zh) 邀请行为预测方法及装置
CN104615663A (zh) 文件排序方法、装置及终端
CN108960283A (zh) 分类任务增量处理方法及装置、电子设备和存储介质
CN105550231B (zh) 信息交互的方法、装置及设备
CN108062364A (zh) 信息展示方法及装置
CN106921958A (zh) 退订业务的方法和装置
CN109671051A (zh) 图像质量检测模型训练方法及装置、电子设备和存储介质
CN107895041A (zh) 拍摄模式设置方法、装置及存储介质
CN104853329B (zh) 识别号码的方法和装置
CN104715007A (zh) 用户标识方法及装置
CN104850855B (zh) 计算置信度的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant