CN107273531B - 电话号码分类识别方法、装置、设备及存储介质 - Google Patents

电话号码分类识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN107273531B
CN107273531B CN201710508874.1A CN201710508874A CN107273531B CN 107273531 B CN107273531 B CN 107273531B CN 201710508874 A CN201710508874 A CN 201710508874A CN 107273531 B CN107273531 B CN 107273531B
Authority
CN
China
Prior art keywords
data
training
telephone number
historical
behavior data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710508874.1A
Other languages
English (en)
Other versions
CN107273531A (zh
Inventor
彭程
王巍巍
罗雪峰
邵军义
陈春筝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710508874.1A priority Critical patent/CN107273531B/zh
Publication of CN107273531A publication Critical patent/CN107273531A/zh
Application granted granted Critical
Publication of CN107273531B publication Critical patent/CN107273531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud

Abstract

本发明实施例公开了一种电话号码分类识别方法、装置、设备及存储介质。所述电话号码分类识别方法包括:获取待识别电话号码的第一历史通电行为数据;根据所述第一历史通电行为数据确定所述待识别电话号码的类别。本发明实施例通过根据待识别电话号码的历史通电行为数据确定所述待识别电话号码的类别,由于历史通电行为数据在一定程度上能够反应该电话号码的一些分类特征,因此通过历史通电行为数据进行电话号码识别,可以提高陌生电话分类识别的准确率和召回率。

Description

电话号码分类识别方法、装置、设备及存储介质
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种电话号码分类识别方法、装置、设备及存储介质。
背景技术
随着移动终端的应用和普及,诈骗、保险、推销等骚扰电话已经成为困扰用户日常生活的一个严重问题。虽然大多数移动终端通过黑名单可以实现骚扰电话的识别或者拦截,但是准确率和召回率普遍较低。
近年来,随着云技术的不断发展,一些改进的电话标记系统应运而生。其中,通过众包的方式,引导广大用户在移动终端对陌生号码进行标记,同时将标记号码数据传输至云端服务器进行存储计算成为了主导。
但是,目前已有解决方案都依赖用户标记的数据,大量用户没有标记的意愿;同时会有部分用户恶意标记号码,这样就会造成标记的数据不够准确,从而导致陌生电话分类识别的准确率和召回率较低。
发明内容
本发明实施例提供一种电话号码分类识别方法、装置、设备及存储介质,可以提高陌生电话分类识别的准确率和召回率。
第一方面,本发明实施例提供了一种电话号码分类识别方法,该方法包括:
获取待识别电话号码的第一历史通电行为数据;
根据所述第一历史通电行为数据确定所述待识别电话号码的类别。
第二方面,本发明实施例还提供了一种电话号码分类识别装置,该装置包括:
数据获取模块,用于获取待识别电话号码的第一历史通电行为数据;
号码识别模块,用于根据所述第一历史通电行为数据确定所述待识别电话号码的类别。
第三方面,本发明实施例还提供了一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例任一所述的电话号码分类识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例任一所述的电话号码分类识别方法。
本发明实施例通过根据待识别电话号码的历史通电行为数据确定所述待识别电话号码的类别,由于历史通电行为数据在一定程度上能够反应该电话号码的一些分类特征,因此通过历史通电行为数据进行电话号码分类识别,可以提高陌生电话分类识别的准确率和召回率。
附图说明
图1是本发明实施例一提供的一种电话号码分类识别方法的流程图;
图2A是本发明实施例二提供的一种电话号码分类识别方法的流程图;
图2B是本发明实施例二提供的一种电话号码分类识别方法中的号码标记界面示意图;
图2C是本发明实施例二提供的一种电话号码分类识别方法中的号码分类示意图;
图3是本发明实施例三提供的一种电话号码分类识别方法的流程图;
图4是本发明实施例四提供的一种电话号码分类识别装置的结构图;
图5是本发明实施例五提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种电话号码分类识别方法的流程图,本实施例可适用于对陌生电话号码进行分类识别的情况,该方法可以由本发明实施例提供的电话号码分类识别装置来执行,该装置可采用软件和/或硬件的方式实现,该装置可集成在终端设备中或终端设备的应用端中。其中,终端设备可以为但不限于为移动终端(平板电脑或智能手机)、固定终端(台式电脑或笔记本)。
其中,应用端可以为内嵌于终端设备中的某个客户端的插件,或者为所述终端设备的操作系统的插件,与内嵌于终端设备中的电话号码分类识别客户端或者终端设备的操作系统中的电话号码分类识别应用程序配合使用;应用端也可以为所述终端设备中一个独立的可提供电话号码分类识别的客户端,本实施例对此不进行限制。
如图1所述,本实施例的方法具体包括:
S101、获取待识别电话号码的第一历史通电行为数据。
其中,第一历史通电行为数据可包含以下至少一项数据:电话号码、呼出时间、呼入时间、号码归属地、呼出地、呼入地、累计呼出总次数、累计呼入总次数、累计呼出总人数、累计呼入总人数、呼出城市总量、呼入城市总量、城市累计呼出总次数和城市累计呼入总次数。
具体的,可在用户的终端设备中安装号码查询客户端,当有来电或者呼出电话时,通过号码查询客户端统计该电话号码的通电行为数据,包括呼出时间、呼入时间、号码归属地、呼出地、呼入地、累计呼出总次数、累计呼入总次数、累计呼出总人数、累计呼入总人数、呼出城市总量、呼入城市总量、城市累计呼出总次数和城市累计呼入总次数等,并进行上报。
S102、根据所述第一历史通电行为数据确定所述待识别电话号码的类别。
其中,历史通电行为数据在一定程度上能够反映该电话号码的类别信息。例如,快递类别电话的通电行为数据通常表现为累计呼出总次数、累计呼入总次数、呼出城市总量、呼入城市总量均比较大,但是呼出城市相对集中;诈骗和骚扰电话的通电行为数据通常表现为累计呼出总次数、呼出城市总量均比较大,呼出城市分散,时间段比较集中等。
因此,通过统计待识别电话号码的历史通电行为数据就可以判断出该待识别电话号码的类别,其中,能够识别出的电话号码的类别为以下至少一种:广告、中介、快递、咋骗、金融和其它等。
本实施例通过根据待识别电话号码的历史通电行为数据确定所述待识别电话号码的类别,由于历史通电行为数据在一定程度上能够反应该电话号码的一些分类特征,因此通过历史通电行为数据进行电话号码分类识别,可以提高陌生电话分类识别的准确率和召回率。
实施例二
图2A是本发明实施例二提供的一种电话号码分类识别方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,进一步增加如下步骤:获取已知类别电话号码的第二历史通电行为数据;根据所述第二历史通电行为数据训练得到号码分类识别模型;相应的,将所述根据所述第一历史通电行为数据确定所述待识别电话号码的类别优化为:采用所述号码分类识别模型对所述待识别电话号码进行分类识别,根据输出结果确定所述待识别电话号码的类别。
相应的,本实施例的方法具体包括:
S201、获取已知类别电话号码的第二历史通电行为数据。
其中,已知类别包含以下至少一种:广告、中介、快递、咋骗、金融和其它等。
所述第二历史通电行为数据可包含以下至少一项数据:电话号码、用户标记数据、呼出时间、呼入时间、号码归属地、呼出地、呼入地、累计呼出总次数、累计呼入总次数、累计呼出总人数、累计呼入总人数、呼出城市总量、呼入城市总量、城市累计呼出总次数和城市累计呼入总次数。其中,用户标记数据为用户标记的该电话号码的类别信息。
具体的,可预先在用户终端的客户端中添加号码查询模块,当有陌生来电时,调号码查询模块查询陌生来电的号码信息,如图2B所示,包括电话号码、号码类别信息、号码归属地等,并上报至服务器;服务端记录记录该次呼叫行为,包括:呼叫时间、电话号码、当前位置信息(经纬度)、呼叫时长等。或在客户端没有查询到所述号码标记信息时,如图2C所示,通过向客户端发送反馈消息引导客户端用户进行号码类别标记,并反馈给服务端进行日志记录,从服务端的日志记录中获取号码标记信息。
S202、根据所述第二历史通电行为数据训练得到号码分类识别模型。
本步骤可选的一种实施方式是,首先对所述第二历史通电行为数据进行以下至少一种预处理操作:数据清洗、特征提取和类别标记;将预处理后的数据作为训练数据样本,采用机器学习分类算法对所述训练数据样本进行训练得到号码分类识别模型。
其中,数据清洗号主要包括号码规则化,例如去掉+86/86等,或者添加号码的归属地信息等。
特征提取主要为提取类别表征意义的数据,例如,呼入次数、呼出次数、类别标记等信息。可选的,针对每个电话号码,根据训练模型所需要的数据格式,从对应历史通电行为数据中提取各字段对应的数据内容;统计得到每个电话号码对应的字段数据内容,作为训练数据。例如,主要包括以下至少一个字段:号码、呼出时间、呼出时长、呼出城市、呼出星期、呼出日期是否节假日等,根据历史通电行为数据提取各字段包含的内容。
类别标记主要是对对应的电话号码进行类别标记,例如不同类别的电话号码采用不同的符号进行区分。
可采用的机器学习分类算法为贝叶斯Bayes算法、或者支持向量机(SupportVector Machine,SVM)学习算法、或者深度神经网络(Deep Neural Network,DNN)模型。
S203、获取待识别电话号码的第一历史通电行为数据。
S204、采用所述号码分类识别模型对所述待识别电话号码进行分类识别,根据输出结果确定所述待识别电话号码的类别。
此外,还可以在号码分类识别模型训练完成以后,将得到的输出结果即号码类别数据导入线上数据库,并提供号码查询接口,通过号码查询接口对待识别电话号码进行分类识别。
本实施例通过获取已知类别电话号码的历史通电行为数据,训练得到号码分类识别模型,并使用号码分类识别模型对待识别电话号码进行分类识别,有效提高了号码识别的准确率和召回率,为用户提供更准确的号码标记,帮助用户识别来电信息。
实施例三
图3是本发明实施例三提供的一种电话号码分类识别方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将所述将预处理后的数据作为训练数据样本,采用机器学习分类算法对所述训练数据样本进行训练得到号码分类识别模型优化为:将预处理后的数据划分为训练数据样本和验证数据样本;采用机器学习分类算法对训练数据样本进行训练得到初始号码分类识别模型,采用验证数据样本对所述初始号码分类识别模型的分类识别输出结果进行验证;若通过验证,则将所述初始号码分类识别模型作为所述号码分类识别模型。
相应的,本实施例的方法具体包括:
S301、获取已知类别电话号码的第二历史通电行为数据。
S302、对所述第二历史通电行为数据进行以下至少一种预处理操作:数据清洗、特征提取和类别标记。
S303、将预处理后的数据划分为训练数据样本和验证数据样本。
S304、采用机器学习分类算法对训练数据样本进行训练得到初始号码分类识别模型,采用验证数据样本对所述初始号码分类识别模型的分类识别输出结果进行验证。
具体的,为了保证得到的号码分类识别模型更为准确,在本实施例中,将预处理后的数据划分为训练数据样本和验证数据样本两部分,首先使用训练数据样本训练得到初始号码分类识别模型,然后使用初始号码分类识别模型对验证数据样本进行分类识别处理,根据分类识别结果判断分类结果,判断对验证数据样本的分类是否全部准确,或者准确率是否达到预设百分比(例如,98%),如果全部准确,或达到预设百分比,则初始号码分类识别模型验证通过。
S305、若通过验证,则将所述初始号码分类识别模型作为所述号码分类识别模型。
S306、获取待识别电话号码的第一历史通电行为数据。
S307、根据所述第一历史通电行为数据确定所述待识别电话号码的类别。
本实施例通过获取已知类别电话号码的历史通电行为数据,训练得到号码分类识别模型,并使用号码分类识别模型对待识别电话号码进行分类识别,有效提高了号码识别的准确率和召回率,为用户提供更准确的号码标记,帮助用户识别来电信息。
实施例四
图4是本发明实施例四提供的一种电话号码分类识别装置的结构图。本实施例可适用于对陌生电话号码进行分类识别的情况,该装置可采用软件和/或硬件的方式实现,该装置可集成在终端设备中或终端设备的应用端中。其中,终端设备可以为但不限于为移动终端(平板电脑或智能手机)、固定终端(台式电脑或笔记本)。
其中,应用端可以为内嵌于终端设备中的某个客户端的插件,或者为所述终端设备的操作系统的插件,与内嵌于终端设备中的电话号码分类识别客户端或者终端设备的操作系统中的电话号码分类识别应用程序配合使用;应用端也可以为所述终端设备中一个独立的可提供电话号码分类识别的客户端,本实施例对此不进行限制。
如图4所示,所述装置包括:数据获取模块401和号码识别模块402,其中:
数据获取模块401用于获取待识别电话号码的第一历史通电行为数据;
号码识别模块402用于根据所述第一历史通电行为数据确定所述待识别电话号码的类别。
本实施例的电话号码分类识别装置用于执行上述各实施例的电话号码分类识别方法,其技术原理和产生的技术效果类似,这里不再赘述。
在上述各实施例的基础上,所述装置还包括:模型训练模块403;
模型训练模块403用于获取已知类别电话号码的第二历史通电行为数据;根据所述第二历史通电行为数据训练得到号码分类识别模型;
相应的,所述号码识别模块402具体用于:采用所述号码分类识别模型对所述待识别电话号码进行分类识别,根据输出结果确定所述待识别电话号码的类别。
在上述各实施例的基础上,所述模型训练模块403包括:预处理单元4031和模型训练单元4032;
预处理单元4031用于对所述第二历史通电行为数据进行以下至少一种预处理操作:数据清洗、特征提取和类别标记;
模型训练单元4032用于将预处理后的数据作为训练数据样本,采用机器学习分类算法对所述训练数据样本进行训练得到号码分类识别模型。
在上述各实施例的基础上,所述模型训练单元4032具体用于:将预处理后的数据划分为训练数据样本和验证数据样本;采用机器学习分类算法对训练数据样本进行训练得到初始号码分类识别模型,采用验证数据样本对所述初始号码分类识别模型的分类识别输出结果进行验证;若通过验证,则将所述初始号码分类识别模型作为所述号码分类识别模型。
在上述各实施例的基础上,所述预处理单元4031具体用于:针对每个电话号码,根据训练模型所需要的数据格式,从对应历史通电行为数据中提取各字段对应的数据内容;统计得到每个电话号码对应的字段数据内容,作为训练数据。
在上述各实施例的基础上,所述历史通电行为数据包含以下至少一项数据:电话号码、用户标记数据、呼出时间、呼入时间、号码归属地、呼出地、呼入地、累计呼出总次数、累计呼入总次数、累计呼出总人数、累计呼入总人数、呼出城市总量、呼入城市总量、城市累计呼出总次数和城市累计呼入总次数。
上述各实施例所提供的电话号码分类识别装置可执行本发明任意实施例所提供的电话号码分类识别方法,具备执行电话号码分类识别方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的电话号码分类识别方法:
获取待识别电话号码的第一历史通电行为数据;
根据所述第一历史通电行为数据确定所述待识别电话号码的类别。
进一步的,所述方法还包括:
获取已知类别电话号码的第二历史通电行为数据;
根据所述第二历史通电行为数据训练得到号码分类识别模型;
相应的,所述根据所述第一历史通电行为数据确定所述待识别电话号码的类别包括:
采用所述号码分类识别模型对所述待识别电话号码进行分类识别,根据输出结果确定所述待识别电话号码的类别。
进一步的,所述根据所述第二历史通电行为数据训练得到号码分类识别模型包括:
对所述第二历史通电行为数据进行以下至少一种预处理操作:数据清洗、特征提取和类别标记;
将预处理后的数据作为训练数据样本,采用机器学习分类算法对所述训练数据样本进行训练得到号码分类识别模型。
进一步的,所述将预处理后的数据作为训练数据样本,采用机器学习分类算法对所述训练数据样本进行训练得到号码分类识别模型包括:
将预处理后的数据划分为训练数据样本和验证数据样本;
采用机器学习分类算法对训练数据样本进行训练得到初始号码分类识别模型,采用验证数据样本对所述初始号码分类识别模型的分类识别输出结果进行验证;
若通过验证,则将所述初始号码分类识别模型作为所述号码分类识别模型。
进一步的,对所述第二历史通电行为数据进行特征提取包括:
针对每个电话号码,根据训练模型所需要的数据格式,从对应历史通电行为数据中提取各字段对应的数据内容;
统计得到每个电话号码对应的字段数据内容,作为训练数据。
进一步的,所述历史通电行为数据包含以下至少一项数据:电话号码、用户标记数据、呼出时间、呼入时间、号码归属地、呼出地、呼入地、累计呼出总次数、累计呼入总次数、累计呼出总人数、累计呼入总人数、呼出城市总量、呼入城市总量、城市累计呼出总次数和城市累计呼入总次数。
实施例六
本发明实施例6还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的电话号码分类识别方法:
获取待识别电话号码的第一历史通电行为数据;
根据所述第一历史通电行为数据确定所述待识别电话号码的类别。
进一步的,所述方法还包括:
获取已知类别电话号码的第二历史通电行为数据;
根据所述第二历史通电行为数据训练得到号码分类识别模型;
相应的,所述根据所述第一历史通电行为数据确定所述待识别电话号码的类别包括:
采用所述号码分类识别模型对所述待识别电话号码进行分类识别,根据输出结果确定所述待识别电话号码的类别。
进一步的,所述根据所述第二历史通电行为数据训练得到号码分类识别模型包括:
对所述第二历史通电行为数据进行以下至少一种预处理操作:数据清洗、特征提取和类别标记;
将预处理后的数据作为训练数据样本,采用机器学习分类算法对所述训练数据样本进行训练得到号码分类识别模型。
进一步的,所述将预处理后的数据作为训练数据样本,采用机器学习分类算法对所述训练数据样本进行训练得到号码分类识别模型包括:
将预处理后的数据划分为训练数据样本和验证数据样本;
采用机器学习分类算法对训练数据样本进行训练得到初始号码分类识别模型,采用验证数据样本对所述初始号码分类识别模型的分类识别输出结果进行验证;
若通过验证,则将所述初始号码分类识别模型作为所述号码分类识别模型。
进一步的,对所述第二历史通电行为数据进行特征提取包括:
针对每个电话号码,根据训练模型所需要的数据格式,从对应历史通电行为数据中提取各字段对应的数据内容;
统计得到每个电话号码对应的字段数据内容,作为训练数据。
进一步的,所述历史通电行为数据包含以下至少一项数据:电话号码、用户标记数据、呼出时间、呼入时间、号码归属地、呼出地、呼入地、累计呼出总次数、累计呼入总次数、累计呼出总人数、累计呼入总人数、呼出城市总量、呼入城市总量、城市累计呼出总次数和城市累计呼入总次数。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种电话号码分类识别方法,其特征在于,包括:
获取已知类别电话号码的第二历史通电行为数据;根据所述第二历史通电行为数据训练得到号码分类识别模型;所述第二历史通电行为数据包括呼出城市、呼出星期和呼出日期是否节假日;其中,根据所述第二历史通电行为数据训练得到号码分类识别模型,包括:对所述第二历史通电行为数据进行数据清洗的预处理操作;将预处理后的数据作为训练数据样本,采用机器学习分类算法对所述训练数据样本进行训练得到号码分类识别模型;所述数据清洗包括号码规则化;
获取待识别电话号码的第一历史通电行为数据;
根据所述第一历史通电行为数据确定所述待识别电话号码的类别,其中,所述待识别电话号码的类别包括至少一种:广告、中介、快递、诈骗、金融。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一历史通电行为数据确定所述待识别电话号码的类别包括:
采用所述号码分类识别模型对所述待识别电话号码进行分类识别,根据输出结果确定所述待识别电话号码的类别。
3.根据权利要求1所述的方法,其特征在于,所述将预处理后的数据作为训练数据样本,采用机器学习分类算法对所述训练数据样本进行训练得到号码分类识别模型包括:
将预处理后的数据划分为训练数据样本和验证数据样本;
采用机器学习分类算法对训练数据样本进行训练得到初始号码分类识别模型,采用验证数据样本对所述初始号码分类识别模型的分类识别输出结果进行验证;
若通过验证,则将所述初始号码分类识别模型作为所述号码分类识别模型。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述历史通电行为数据包含以下至少一项数据:电话号码、用户标记数据、呼出时间、呼入时间、号码归属地、呼出地、呼入地、累计呼出总次数、累计呼入总次数、累计呼出总人数、累计呼入总人数、呼出城市总量、呼入城市总量、城市累计呼出总次数和城市累计呼入总次数。
5.一种电话号码分类识别装置,其特征在于,包括:
模型训练模块,用于获取已知类别电话号码的第二历史通电行为数据;根据所述第二历史通电行为数据训练得到号码分类识别模型;所述第二历史通电行为数据包括呼出城市、呼出星期和呼出日期是否节假日;其中,所述模型训练模块包括:预处理单元,用于对所述第二历史通电行为数据进行数据清洗的预处理操作;模型训练单元,用于将预处理后的数据作为训练数据样本,采用机器学习分类算法对所述训练数据样本进行训练得到号码分类识别模型;所述数据清洗包括号码规则化;
数据获取模块,用于获取待识别电话号码的第一历史通电行为数据;
号码识别模块,用于根据所述第一历史通电行为数据确定所述待识别电话号码的类别;其中,所述待识别电话号码的类别包括至少一种:广告、中介、快递、诈骗、金融。
6.根据权利要求5所述的装置,其特征在于,所述号码识别模块具体用于:采用所述号码分类识别模型对所述待识别电话号码进行分类识别,根据输出结果确定所述待识别电话号码的类别。
7.根据权利要求5所述的装置,其特征在于,所述模型训练单元具体用于:将预处理后的数据划分为训练数据样本和验证数据样本;采用机器学习分类算法对训练数据样本进行训练得到初始号码分类识别模型,采用验证数据样本对所述初始号码分类识别模型的分类识别输出结果进行验证;若通过验证,则将所述初始号码分类识别模型作为所述号码分类识别模型。
8.根据权利要求5-7任一项所述的装置,其特征在于,所述历史通电行为数据包含以下至少一项数据:电话号码、用户标记数据、呼出时间、呼入时间、号码归属地、呼出地、呼入地、累计呼出总次数、累计呼入总次数、累计呼出总人数、累计呼入总人数、呼出城市总量、呼入城市总量、城市累计呼出总次数和城市累计呼入总次数。
9.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的电话号码分类识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的电话号码分类识别方法。
CN201710508874.1A 2017-06-28 2017-06-28 电话号码分类识别方法、装置、设备及存储介质 Active CN107273531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710508874.1A CN107273531B (zh) 2017-06-28 2017-06-28 电话号码分类识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710508874.1A CN107273531B (zh) 2017-06-28 2017-06-28 电话号码分类识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN107273531A CN107273531A (zh) 2017-10-20
CN107273531B true CN107273531B (zh) 2021-01-08

Family

ID=60071072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710508874.1A Active CN107273531B (zh) 2017-06-28 2017-06-28 电话号码分类识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN107273531B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108366173A (zh) * 2018-01-05 2018-08-03 腾讯科技(深圳)有限公司 一种电话识别方法、相关设备及系统
CN110351731A (zh) * 2018-04-08 2019-10-18 中兴通讯股份有限公司 一种手机号码防欺诈的方法及装置
CN110401779B (zh) * 2018-04-24 2022-02-01 中国移动通信集团有限公司 一种识别电话号码的方法、装置和计算机可读存储介质
CN110414543A (zh) * 2018-04-28 2019-11-05 中国移动通信集团有限公司 一种电话号码危险级别的判别方法、设备以及计算机存储介质
CN108810290B (zh) * 2018-07-17 2021-04-02 中国联合网络通信集团有限公司 一种诈骗电话的识别的方法及系统
CN109587357B (zh) * 2018-11-14 2021-04-06 上海麦图信息科技有限公司 一种骚扰电话的识别方法
CN111325495B (zh) * 2018-12-17 2023-12-01 顺丰科技有限公司 异常件分类方法及系统
CN111432080A (zh) * 2018-12-24 2020-07-17 北京奇虎科技有限公司 话单数据处理方法、电子设备及计算机可读存储介质
CN109743452B (zh) * 2018-12-28 2021-11-12 努比亚技术有限公司 通话记录分类方法、装置和计算机可读存储介质
CN110336925B (zh) * 2019-06-25 2021-06-25 维沃移动通信有限公司 电话呼入处理方法和终端设备
CN111582786A (zh) * 2020-04-29 2020-08-25 上海中通吉网络技术有限公司 基于机器学习的快递单号识别方法、装置和设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6553103B1 (en) * 2000-07-20 2003-04-22 International Business Machines Corporation Communication macro composer
CN103595861A (zh) * 2013-10-23 2014-02-19 南京邮电大学 一种终端识别电话号码自动拨号或发送短信的方法
CN104054103A (zh) * 2012-01-12 2014-09-17 微软公司 基于电子邮件地址和其他帐户信息的用户帐户的基于机器学习的分类
CN104168560A (zh) * 2014-08-25 2014-11-26 北京奇虎科技有限公司 显示陌生号码相关信息的方法、监测装置及云端服务器
CN104199851A (zh) * 2014-08-11 2014-12-10 北京奇虎科技有限公司 通过黄页信息提取电话号码的方法及云端服务器
CN104320525A (zh) * 2014-09-19 2015-01-28 小米科技有限责任公司 电话号码识别方法及装置
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法
CN106713579A (zh) * 2016-05-05 2017-05-24 腾讯科技(深圳)有限公司 一种电话号码识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030224764A1 (en) * 2002-05-31 2003-12-04 Baker Nathan Bryant Technique for providing information assistance with restrictions

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6553103B1 (en) * 2000-07-20 2003-04-22 International Business Machines Corporation Communication macro composer
CN104054103A (zh) * 2012-01-12 2014-09-17 微软公司 基于电子邮件地址和其他帐户信息的用户帐户的基于机器学习的分类
CN103595861A (zh) * 2013-10-23 2014-02-19 南京邮电大学 一种终端识别电话号码自动拨号或发送短信的方法
CN104199851A (zh) * 2014-08-11 2014-12-10 北京奇虎科技有限公司 通过黄页信息提取电话号码的方法及云端服务器
CN104168560A (zh) * 2014-08-25 2014-11-26 北京奇虎科技有限公司 显示陌生号码相关信息的方法、监测装置及云端服务器
CN104320525A (zh) * 2014-09-19 2015-01-28 小米科技有限责任公司 电话号码识别方法及装置
CN106713579A (zh) * 2016-05-05 2017-05-24 腾讯科技(深圳)有限公司 一种电话号码识别方法及装置
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法

Also Published As

Publication number Publication date
CN107273531A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
CN107273531B (zh) 电话号码分类识别方法、装置、设备及存储介质
CN107122866B (zh) 预估乘客取消订单行为的方法、设备及存储介质
CN111210335B (zh) 用户风险识别方法、装置及电子设备
CN111815421B (zh) 税务政策处理方法、装置、终端设备及存储介质
CN112162965B (zh) 一种日志数据处理的方法、装置、计算机设备及存储介质
CN110633991A (zh) 风险识别方法、装置和电子设备
CN110633423B (zh) 目标账号识别方法、装置、设备及存储介质
CN107948437B (zh) 熄屏显示方法和装置
CN107644106B (zh) 自动挖掘业务中间人的方法、终端设备及存储介质
CN111598122B (zh) 数据校验方法、装置、电子设备和存储介质
CN114140947A (zh) 界面展示方法、装置、电子设备、存储介质和程序产品
CN112506981A (zh) 一种线上培训服务推送方法和装置
CN111310065A (zh) 一种社交推荐方法、装置、服务器及存储介质
CN113507419B (zh) 流量分发模型的训练方法、流量分发方法及装置
CN111126071A (zh) 提问文本数据的确定方法、装置和客服群的数据处理方法
CN112669850A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN113032674A (zh) 一种项目发布方法、装置、设备和介质
CN110263135B (zh) 一种数据交换匹配方法、装置、介质和电子设备
CN111127057B (zh) 一种多维用户画像恢复方法
CN110688558A (zh) 网页搜索的方法、装置、电子设备和存储介质
CN115759100A (zh) 数据处理方法、装置、设备及介质
WO2021151354A1 (zh) 一种单词识别方法、装置、计算机设备和存储介质
CN115730591A (zh) 基于知识图谱的用户服务方法、装置、设备和存储介质
CN108280139B (zh) Poi数据的处理方法、装置、设备及计算机可读存储介质
CN110990528A (zh) 一种问答方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant