CN107306306A - 通信号码处理方法及装置 - Google Patents
通信号码处理方法及装置 Download PDFInfo
- Publication number
- CN107306306A CN107306306A CN201610261923.1A CN201610261923A CN107306306A CN 107306306 A CN107306306 A CN 107306306A CN 201610261923 A CN201610261923 A CN 201610261923A CN 107306306 A CN107306306 A CN 107306306A
- Authority
- CN
- China
- Prior art keywords
- communication
- ticket
- pretreatment
- communicating
- initiated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/66—Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
- H04M1/663—Preventing unauthorised calls to a telephone set
Abstract
本发明公开一种通信号码处理方法及装置,方法包括:从通信业务设备获取第一预设时间内预设数量的通信号码的话单;解析所述话单得到所述话单中所包括的通信信息的类型,提取出所述话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单;解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征;从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。采用本发明,能够提高号码识别的速度和准确性。
Description
技术领域
本发明涉及通信技术领域的数据处理技术,尤其涉及一种通信号码处理方法及装置。
背景技术
电信诈骗是指犯罪分子通过电话、网络和短信等方式,编造虚假信息,设置骗局,对受害人实施远程、非接触式诈骗,诱使受害人给犯罪分子打款或转账的犯罪行为,随着移动互联网的兴起,电信诈骗犯罪日益猖獗,数据显示,电信诈骗的涉案金额每年以指数级的速度快速增长,2015年全国公安机关共立电信诈骗案件59万起,同比上升32.5%,共造成经济损失222亿元;而每一个案件背后,都可能是一个个因诈骗而破碎的家庭。
为了遏制电信诈骗,避免用户被诈骗电话诈骗,现有技术通过手机上的应用软件(app),收集用户对号码的标记信息,如果发现某个号码被多个用户同时标记为诈骗号码,则认为该号码为诈骗号码,并提醒与该诈骗号码进行通话的用户提高警惕,以避免被诈骗。
然而,一方面,现有技术需要收集用户标记信息,然而,实际中用户对号码进行标记的概率比较低,很多用户接到一个陌生来电往往不会去标记号码的类型,并且,现有技术需要收集足够多的用户标记后,才能认为该号码是诈骗号码,因此,现有技术的诈骗号码的识别速度慢、效率低;另一方面,现有技术中用户对号码进行标记是主观行为,很多用户在接听到一些骚扰电话,比如广告推销等恶意电话时,往往会将这些骚扰号码也标记为诈骗号码,因此,现有技术的诈骗号码的识别准确率较低。
发明内容
有鉴于此,本发明实施例期望提供一种通信号码处理方法及装置,能够提高号码识别的速度和准确性。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明实施例提供一种通信号码处理方法,所述方法包括:
从通信业务设备获取第一预设时间内预设数量的通信号码的话单;
解析所述话单得到所述话单中所包括的通信信息的类型,提取出所述话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单;
解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征;
从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
可选的,所述解析所述话单得到所述话单中所包括的通信信息的类型,提取出所述话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单,包括:
解析所述话单得到所述话单中所包括的以下类型通信信息至少之一:通信发起号码;对应所述通信发起号码的通信响应号码;通信起始时间;通信时长;
提取出所述话单中各通信发起号码所关联的至少一种类型的通信信息形成各通信发起号码的通信记录;
将所提取的各通信发起号码的通信记录组合形成所述预处理话单。
可选的,所述解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征,包括:
分别计算所述预处理话单中的各通信发起号码与黄页号码的编辑距离;
基于所述编辑距离得到所述预处理话单中各通信发起号码与黄页号码的相似度;
从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,包括:
从所述预处理话单包括的各通信发起号码中提取出与所述黄页号码的相似度大于第一阈值的通信发起号码;
或者,基于所述预处理话单包括的各通信发起号码中与所述黄页号码的相似度的排序,提取出相似度最高的第一比例的通信发起号码。
可选的,所述解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征,包括:
提取所述预处理话单中各通信号码作为通信发起号码的通信起始时间;
计算所述预处理话单中各通信发起号码在单位时间内的通信次数;
从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,包括:
从所述预处理话单包括的各通信发起号码中提取出单位时间内通信次数大于第二阈值的通信发起号码;
或者,基于所述预处理话单包括的各通信发起号码在单位时间内的通信次数的排序,提取出通信次数最高的第二比例的通信发起号码。
可选的,所述解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征,包括:
提取所述预处理话单中各通信号码作为通信发起号码的通信时长;
计算所述预处理话单中各通信发起号码的平均通信时长;
从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,包括:
从所述预处理话单包括的各通信发起号码中提取出平均通信时长大于第三阈值的通信发起号码;
或者,基于所述预处理话单包括的各通信发起号码的平均通信时长的排序,提取出平均通信时长最高的第三比例的通信发起号码。
可选的,所述解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征,包括:
获取所述预处理话单中各通信号码作为通信发起号码时对应的通信响应号码的归属地;
计算所述预处理话单中各通信发起号码所对应的通信响应号码的不同归属地的数量;
从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,包括:
从所述预处理话单包括的各通信发起号码中提取出所对应的通信响应号码的不同归属地的数量大于第四阈值的通信发起号码;
或者,基于所述预处理话单包括的各通信发起号码所对应的通信响应号码的不同归属地的数量的排序,提取出所对应的通信响应号码的不同归属地的数量最高的第四比例的通信发起号码。
可选的,从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,包括:
使用机器学习模型分析所述预处理话单中各通信号码的相应类型通信信息所具有的特征,从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
可选的,所述方法还包括:
接收用户侧针对目标通信号码的反馈信息,确定所述目标通信号码是否为安全号码;
基于所述识别出的目标通信号码中被用户侧反馈为安全号码的目标通信号码的数量,确定所述机器学习模型的错误率;
机器学习模型的错误率大于第五阈值时,基于所述预处理话单中所述安全号码的通信记录,对所述机器学习模型进行重新训练。
可选的,基于所述预处理话单中所述安全号码的通信记录,对所述机器学习模型至进行重新训练,包括:
解析所述预处理话单中所述安全号码的通信记录的至少一种类型的通信信息,得到所述安全号码的至少一种类型的通信信息所具有的特征;
基于所述安全号码的至少一种类型的通信信息所具有的特征更新所述机器学习模型识别所述目标通信号码所使用的阈值。
可选的,所述从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码之后,所述方法还包括:
确定所述目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度;
根据所述目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度,确定所述目标通信号码的危险级别;
基于所述目标通信号码的危险级别对所述目标通信号码的通信行为进行响应处理。
可选的,确定所述目标通信号码的危险级别为低危时,对所述目标通信号码的通信行为进行响应处理,包括:向与目标通信号码存在通信记录的通信响应号码的用户进行危险提醒;其中,所述危险提醒包括语音提醒和/或文字提醒;
或者,确定所述目标通信号码的危险级别为高危时,对所述目标通信号码的通信行为进行响应处理,包括:向与目标通信号码正在进行通信的通信响应号码的用户进行即时的危险提醒;或者,直接拦截与目标通信号码正在进行的通信。
可选的,响应处理的实时程度与危险级别正相关。
第二方面,本发明实施例提供一种通信号码处理装置,所述装置包括:
获取模块,用于从通信业务设备获取第一预设时间内预设数量的通信号码的话单;
预处理模块,用于解析所述话单得到所述话单中所包括的通信信息的类型,提取出所述话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单;
解析模块,用于解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征;
提取模块,用于从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
可选的,所述预处理模块,具体用于:
解析所述话单得到所述话单中所包括的以下类型通信信息至少之一:通信发起号码;对应所述通信发起号码的通信响应号码;通信起始时间;通信时长;
提取出所述话单中各通信发起号码所关联的至少一种类型的通信信息形成各通信发起号码的通信记录;
将所提取的各通信发起号码的通信记录组合形成所述预处理话单。
可选的,所述解析模块,具体用于:分别计算所述预处理话单中的各通信发起号码与黄页号码的编辑距离;基于所述编辑距离得到所述预处理话单中各通信发起号码与黄页号码的相似度;
所述提取模块,具体用于:从所述预处理话单包括的各通信发起号码中提取出与所述黄页号码的相似度大于第一阈值的通信发起号码;或者,基于所述预处理话单包括的各通信发起号码中与所述黄页号码的相似度的排序,提取出相似度最高的第一比例的通信发起号码。
可选的,所述解析模块,具体用于:提取所述预处理话单中各通信号码作为通信发起号码的通信起始时间;计算所述预处理话单中各通信发起号码在单位时间内的通信次数;
所述提取模块,具体用于:从所述预处理话单包括的各通信发起号码中提取出单位时间内通信次数大于第二阈值的通信发起号码;或者,基于所述预处理话单包括的各通信发起号码在单位时间内的通信次数的排序,提取出通信次数最高的第二比例的通信发起号码。
可选的,所述解析模块,具体用于:提取所述预处理话单中各通信号码作为通信发起号码的通信时长;计算所述预处理话单中各通信发起号码的平均通信时长;
所述提取模块,具体用于:从所述预处理话单包括的各通信发起号码中提取出平均通信时长大于第三阈值的通信发起号码;或者,基于所述预处理话单包括的各通信发起号码的平均通信时长的排序,提取出平均通信时长最高的第三比例的通信发起号码。
可选的,所述解析模块,具体用于:获取所述预处理话单中各通信号码作为通信发起号码时对应的通信响应号码的归属地;计算所述预处理话单中各通信发起号码所对应的通信响应号码的不同归属地的数量;
所述提取模块,具体用于:从所述预处理话单包括的各通信发起号码中提取出所对应的通信响应号码的不同归属地的数量大于第四阈值的通信发起号码;或者,基于所述预处理话单包括的各通信发起号码所对应的通信响应号码的不同归属地的数量的排序,提取出所对应的通信响应号码的不同归属地的数量最高的第四比例的通信发起号码。
可选的,所述提取模块,具体用于:使用机器学习模型分析所述预处理话单中各通信号码的相应类型通信信息所具有的特征,从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
可选的,所述装置还包括:
训练模块,用于接收用户侧针对目标通信号码的反馈信息,确定所述目标通信号码是否为安全号码;基于所述识别出的目标通信号码中被用户侧反馈为安全号码的目标通信号码的数量,确定所述机器学习模型的错误率;机器学习模型的错误率大于第五阈值时,基于所述预处理话单中所述安全号码的通信记录,对所述机器学习模型进行重新训练。
可选的,所述训练模块,具体用于:解析所述预处理话单中所述安全号码的通信记录的至少一种类型的通信信息,得到所述安全号码的至少一种类型的通信信息所具有的特征;基于所述安全号码的至少一种类型的通信信息所具有的特征更新所述机器学习模型识别所述目标通信号码所使用的阈值。
可选的,所述装置还包括:
响应模块,用于确定所述目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度;根据所述目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度,确定所述目标通信号码的危险级别;基于所述目标通信号码的危险级别对所述目标通信号码的通信行为进行响应处理。
相比于现有技术需要收集用户的标记信息,本发明实施例通过解析第一预设时间内预设数量的通信号码的话单得到各通信号码的相应类型通信信息所具有的特征,并基于各通信号码的相应类型通信信息所具有的特征从各通信号码中提取出与预设特征匹配的目标通信号码,一方面,通信号码话单是由运营商维护的客观数据,能够真实和完整地反映用户在一定时间间隔内的全部通信记录,本发明实施例以通信号码话单为处理依据,能够提高号码识别的准确性,另一方面,由于话单的生成及维护过程一般并不需要各用户的直接参与,而是由运营商负责,因而通信号码话单的获取速度和效率较高,如此,本发明实施例能够提高号码识别的速度和准确性。
附图说明
图1为本发明实施例中通信号码处理方法的一个可选的应用场景示意图;
图2为本发明实施例一中通信号码处理方法的一个可选的流程示意图;
图3为本发明实施例二中通信号码处理方法的一个可选的流程示意图;
图4为本发明实施例三中通信号码处理方法的一个可选的流程示意图;
图5为本发明实施例四中通信号码处理方法的一个可选的流程示意图;
图6为本发明实施例五中通信号码处理方法的一个可选的流程示意图;
图7为本发明实施例六中通信号码处理方法的一个可选的流程示意图;
图8为本发明实施例七中通信号码处理方法的一个可选的流程示意图;
图9为本发明实施例八中通信号码处理方法的一个可选的流程示意图;
图10为本发明实施例九中通信号码处理方法的一个可选的流程示意图;
图11a为本发明实施例中运行于用户设备上的用户应用处于接收用户指示状态的一个可选的示意图;
图11b为本发明实施例中运行于用户设备上的用户应用处于文字提醒状态的一个可选的示意图;
图12为本发明实施例中通信号码处理装置的一个可选的结构示意图;
图13为本发明实施例中通信号码处理装置的另一个可选的结构示意图;
图14为本发明实施例中通信号码处理装置的又一个可选的结构示意图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例记载一种通信号码处理方法,参见图1示出的本发明实施例中通信号码处理方法的一个可选的应用场景,用户设备11、用户设备12、用户设备13、网络设备14(如运营商网关或企业网关)、通信业务设备15、应用的后台服务器16分别接入通信网络(如无线网络或有线网络),通信业务设备15例如业务支撑系统(BSS,Business Support System)/运营支撑系统(OSS,Operation Support System),或者电信交换机;通信业务设备15用于提供通信号码的话单;网络设备14用于对接入该通信网络的各用户设备提供业务支撑;应用的后台服务器16用于为应用提供业务支撑;这里,与应用的后台服务器16相对应的,安装于用户设备的应用的客户端也用于为应用提供业务支撑;应用具体可以为通信类应用,例如:腾讯手机管家、微信、腾讯邮箱等等,当然,应用不限于通信类应用,本发明实施例中并不对此进行具体限定;在上述场景中,用户设备的数量至少为一个,各用户设备分别关联至少一个不同的通信号码,例如,图1示出的用户设备11关联至少一个通信号码A、用户设备12关联至少一个通信号码B,用户设备13关联至少一个通信号码C,通信号码A、通信号码B与通信号码C两两互不相同;本发明实施例中通信号码处理方法可以应用于上述场景中,实现从多个通信号码中识别出满足预设条件的通信号码。
本发明实施例还记载一种通信号码处理装置,可以用于执行本发明实施例的通信号码处理方法;通信号码处理装置可以采用各种方式来实施,例如在智能手机、固定电话、平板电脑、笔记本电脑、穿戴式设备(如智能眼镜、智能手表等)等用户设备中实施装置的全部组件,或者,在企业网关、运营商网关等网络设备中实施装置的全部组件,或者,在上述的用户设备侧或网络侧以耦合的方式实施装置中的组件,或者,通信号码处理装置还可以是用户应用的客户端或者后台服务器,例如,当用户应用为腾讯手机管家时,相应的通信号码处理装置可以为腾讯手机管家的客户端或者后台服务器。
基于上述记载的应用场景及通信号码处理装置,提出以下各具体实施例。
实施例一
本实施例提供一种通信号码处理方法,可以应用于需要从多个通信号码中识别出满足预设条件的通信号码的场景中,例如针对通信网络中全网号码的识别,或者,针对用户指示的待识别通信号码的识别,或者,针对与当前用户进行通信的通信号码的识别等场景中;通信的业务类型包括但不限于以下任意一种业务类型或组合:语音通话;短信;闪信;数据业务(如微信),本发明并不以此为限。
基于上述通信号码处理装置,参见图2,本实施例提供的通信号码处理方法,包括以下步骤:
步骤201、从通信业务设备获取第一预设时间内预设数量的通信号码的话单。
通信业务设备可以包括电信支撑系统设备,例如BSS/OSS,或者电信交换机;第一预设时间可以由用户或运营商根据实际业务需求等实际情况灵活设定;通信号码并不限于手机号码、固定号码等;通信号码例如可以包括通信网络中的全部通信号码,或者,用户指示的待识别通信号码,或者,与当前用户进行通话的通信号码;其中,上述用户指示的待识别通信号码,例如用户在用户设备上运行的应用(如腾讯手机管家)中指定的待识别通信号码,或者,用户向运营商服务器发送携带待识别通信号码的指示消息。
上述从通信业务设备获取第一预设时间内预设数量的通信号码的话单的实现方式可以为以下方式至少之一:
1)从通信业务设备获取通信网络中的全部通信号码在第一预设时间内的话单;
2)根据当前用户指示的待识别通信号码,从通信业务设备获取待识别通信号码在第一预设时间内的话单;
3)检测到与当前用户进行通话的通信号码时,从通信业务设备获取与当前用户进行通话的通信号码在第一预设时间内的话单;
4)确定与当前用户进行通话的通信号码为陌生通信号码时,从通信业务设备获取陌生通信号码在第一预设时间内的话单。
步骤202、解析话单得到话单中所包括的通信信息的类型,提取出话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单。
上述从通信业务设备获取的第一预设时间内预设数量的通信号码的话单一般是乱序的,本实施例中预处理话单是以各通信号码为维度进行统计形成,预处理话单中包括各通信号码在以下情况至少之一对应的至少一种类型的通信信息:通信号码作为主叫号码(如语音业务中的主叫号码)、通信号码作为被叫号码(如语音业务中的被叫号码)、通信号码作为信息发送号码(如短信发送号码,或者数据业务中的数据发送号码)、通信号码作为信息接收号码(如短信接收号码,或者数据业务中的数据接收号码)。
预处理话单中仅包括从话单中提取的各通信号码的至少一种类型的通信信息,也即预处理话单中并不需要包括话单中的全部信息;预处理话单的数据以各通信号码作为索引,预处理话单的数据结构,例如为:
语音业务中的主叫号码1:通信信息1、通信信息2、…;
语音业务中的主叫号码2:通信信息3 通信信息4、…;
短信发送号码3:通信信息5 通信信息6、…;
数据业务中的数据发送号码4:通信信息7 通信信息8、…;…。
以表1示出的以各通信号码作为主叫号码进行索引的预处理话单为例,参见表1的数据结构示例,此处的主叫号码、被叫号码、通信起始时间、通信时长(秒)为该话单中所包括的通信信息的类型的部分示例。
表1
主叫号码 | 被叫号码 | 通信起始时间 | 通信时长(秒) |
158xxxx0001 | 186xxxx0002 | 2016-01-15 15:32:42 | 134 |
158xxxx0001 | 139xxxx0001 | 2016-01-15 15:39:02 | 15 |
158xxxx0001 | 139xxxx0002 | 2016-01-15 15:48:02 | 123 |
170xxxx0001 | 186xxxx0001 | 2016-01-16 8:30:02 | 77 |
170xxxx0001 | 139xxxx0002 | 2016-01-17 9:26:02 | 256 |
步骤203、解析预处理话单中各通信号码的至少一种类型的通信信息,得到预处理话单中各通信号码的相应类型通信信息所具有的特征。
步骤204、分析预处理话单中各通信号码的相应类型通信信息所具有的特征,判断各通信号码的相应类型通信信息所具有的特征是否与预设特征匹配,若是,转到步骤205,否则流程结束。
步骤205、从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
对解析得到的预处理话单中各通信号码的相应类型通信信息所具有的特征进行分析,从预处理话单包括的通信号码中提取出相应类型通信信息所具有的特征与预设特征匹配的目标通信号码;预设特征例如是预先设置的先验值。
相比于需要在收集用户标记信息的基础上实施识别号码的现有技术,本实施例对通信号码的话单进行解析得到通信号码的相应类型通信信息所具有的特征,并基于通信号码的相应类型通信信息所具有的特征从各通信号码中识别出与预设特征匹配的目标通信号码,一方面,由于通信号码话单的生成及维护过程一般是由运营商负责,并不需要各个用户的参与,通信号码话单的获取速度和效率较高,另一方面,由于通信号码的话单是由运营商维护的客观数据,因而能够真实和完整地反映用户在一定时间间隔内的所有通信记录,如此,本发明实施例提供的技术方案以通信号码的话单为处理基础,能够提高号码识别的速度和准确性。
实施例二
本实施例基于实施例一,针对具体如何解析话单得到话单中所包括的通信信息的类型,及提取出话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单的场景,提出解决的技术方案。
参见图3,本实施例提供的通信号码处理方法,包括以下步骤:
步骤301、从通信业务设备获取第一预设时间内预设数量的通信号码的话单。
步骤302、解析话单得到话单中所包括的以下类型通信信息至少之一:通信发起号码;对应通信发起号码的通信响应号码;通信起始时间;通信时长。
通信发起号码可以包括作为主叫号码的通信号码(如语音业务中的主叫号码),及作为信息发送号码的通信号码(如短信发送号码,或者数据业务中的数据发送号码);对应通信发起号码的通信响应号码可以包括作为被叫号码的通信号码(如语音业务中的被叫号码),及作为信息接收号码的通信号码(如短信接收号码,或者数据业务中的数据接收号码);本领域技术人员可以理解的是,话单中包括的通信信息的类型并不限于上述的通信发起号码、对应通信发起号码的通信响应号码、通信起始时间、通信时长等,通信信息的类型还可以包括数据流量(上行流量和/或下行流量)、通信地点、业务类型、长途类型等;本发明并不以此为限。
步骤303、提取出话单中各通信发起号码所关联的至少一种类型的通信信息形成各通信发起号码的通信记录。
步骤304、将所提取的各通信发起号码的通信记录组合形成预处理话单。
这里,预处理话单只是包括了从话单中提取的各通信号码的至少一种类型的通信信息,预处理话单并未包括话单中的全部信息,可以降低通信号码处理工作量,提高通信号码处理效率。
上述从通信业务设备获取的第一预设时间内预设数量的通信号码的话单一般是乱序的,以表2-1示出的话单为例,此处的通信起始时间、业务类型、通信发起号码、通信响应号码、通信地点、长途类型、通信时长(秒)为该话单中所包括的通信信息的类型的部分示例。
表2-1
通信号码处理装置对表2-1示出的话单进行解析,得到话单中所包括的以下类型通信信息至少之一:通信发起号码;对应通信发起号码的通信响应号码;通信起始时间;通信时长;
通信号码处理装置提取出话单中各通信发起号码所关联的至少一种类型的通信信息形成各通信发起号码的通信记录;这里,每个通信发起号码的通信记录中包括该通信号码在第一预设时间内的至少一种类型的通信信息;
将所提取的各通信发起号码的通信记录组合形成预处理话单;预处理话单是以各通信号码为维度进行统计形成,预处理话单中的数据结构(或显示方式)以各通信号码为索引组织,假设将各通信号码为通信发起号码时对应的至少一种类型的通信信息进行组合形成预处理话单,预处理话单的数据结构可以为:
通信发起号码1:通信信息1、通信信息2、…;
通信发起号码2:通信信息1 通信信息2、…;…。
以表2-2示出的预处理话单为例,表2-2示出的预处理话单是通信号码处理装置在表2-1示出的话单的基础上,通过执行步骤202-步骤204的方法得到的;该预处理话单以各通信发起号码为索引进行组织。
表2-2
通信发起号码 | 通信响应号码 | 通信起始时间 | 通信时长(秒) |
158xxxx0001 | 186xxxx0002 | 2016-01-15 15:32:42 | 134 |
158xxxx0001 | 186xxxx0007 | 2016-01-15 15:42:02 | 97 |
158xxxx0001 | 139xxxx0006 | 2016-01-15 15:48:02 | 123 |
158xxxx0001 | 187xxxx0002 | 2016-01-15 15:52:07 | 256 |
170xxxx0001 | 186xxxx0001 | 2016-01-15 15:39:02 | 15 |
170xxxx0001 | 180xxxx0007 | 2016-01-15 15:51:02 | 77 |
170xxxx0001 | 139xxxx0002 | 2016-01-16 10:26:02 | -- |
步骤305、解析预处理话单中各通信号码的至少一种类型的通信信息,得到预处理话单中各通信号码的相应类型通信信息所具有的特征。
步骤306、分析预处理话单中各通信号码的相应类型通信信息所具有的特征,判断各通信号码的相应类型通信信息所具有的特征是否与预设特征匹配,若是,转到步骤307,否则流程结束。
步骤307、从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
本实施例针对具体如何解析话单得到话单中所包括的通信信息的类型,及提取出话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单的场景,通过解析话单得到话单中所包括的至少一种类型的通信信息,提取出话单中各通信发起号码所关联的至少一种类型的通信信息形成各通信发起号码的通信记录,将所提取的各通信发起号码的通信记录组合形成预处理话单,所形成的预处理话单仅包括了从话单中提取的各通信号码的至少一种类型的通信信息,预处理话单并未包括话单中的全部信息,可以降低号码识别的工作量,提高号码识别的速度和效率。
实施例三
本实施例基于实施例一,以通信发起号码与黄页号码的编辑距离作为通信号码的特征,说明具体如何从多个通信号码中识别出满足预设条件的通信号码的技术方案;本实施例提供的通信号码处理方法,包括以下步骤:
1)从通信业务设备获取第一预设时间内预设数量的通信号码的话单。
2)解析话单得到话单中所包括的通信信息的类型,提取出话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单。
3)分别计算预处理话单中的各通信发起号码与黄页号码的编辑距离。
黄页号码可以为一个或多个;编辑距离是指将黄页号码转成与通信发起号码所需的最少编辑操作次数,也即通过对黄页号码进行增加、减少、修改、移动号码等操作变成通信发起号码的操作次数;在黄页号码为多个的场景中,针对预处理话单中的每一个通信发起号码,需要分别计算该通信发起号码与每一个黄页号码的编辑距离。
4)基于编辑距离得到预处理话单中各通信发起号码与黄页号码的相似度。
可以采用以下方式至少之一,实现基于编辑距离得到预处理话单中各通信发起号码与黄页号码的相似度:
方式1、针对预处理话单中的每一个通信发起号码,将分别计算得到的该通信发起号码与每一个黄页号码的编辑距离进行归一化处理,得到该通信发起号码与每一个黄页号码的相似度;进一步,对该通信发起号码与每一个黄页号码的相似度进行排序。
方式2、针对预处理话单中的每一个通信发起号码,计算该通信发起号码与黄页号码的编辑距离与预设距离的比值,将计算得到的比值通信发起号码与黄页号码的相似度;在黄页号码为多个的场景中,需要分别计算该通信发起号码与每一个黄页号码的编辑距离与预设距离的比值。
5)判断预处理话单包括的各通信发起号码与黄页号码的相似度是否大于第一阈值,若是,则从预处理话单包括的各通信发起号码中提取出与黄页号码的相似度大于第一阈值的通信发起号码,作为目标通信号码;否则流程终止。
第一阈值(即相似度阈值)的初始值可以由人工设定或训练计算得到,例如:根据先验值确定预处理话单包括的各通信发起号码中的目标通信号码的目标数量;将各通信发起号码与黄页号码的相似度进行排序;按照相似度递减的次序,选取目标数量的通信发起号码;将所选取的通信发起号码中与黄页号码的相似度最小的通信发起号码所对应的相似度,确定为第一阈值的初始值。第一阈值可以根据实际需要,通过训练计算进行继续更新。
在一个可行的实施方式中,通信号码处理装置基于预处理话单中各通信发起号码与黄页号码的相似度,对预处理话单包括的各通信发起号码与黄页号码的相似度进行排序;基于预处理话单包括的各通信发起号码与黄页号码的相似度的排序,从预处理话单包括的各通信发起号码中提取出相似度最高的第一比例的通信发起号码,作为目标通信号码。
在另一个可行的实施方式中,针对预处理话单包括的各通信发起号码中的任意一个通信号码,通信号码处理装置根据该通信发起号码中与黄页号码的相似度及第一阈值,分别确定该通信发起号码属于目标通信号码(比如诈骗号码)类的概率、及属于正常号码类的概率,将概率较大值所对应的类作为该通信发起号码所属的类;若概率较大值所对应的类为目标通信号码类,则确定该通信发起号码为目标通信号码,反之则确定该通信发起号码为正常号码。
本实施例的实施依赖于用户设备、服务器及通信业务设备的配合,这里,用户设备例如可以是智能手机、固定电话、平板电脑、笔记本电脑、穿戴式设备(如智能眼镜、智能手表等)等;服务器例如可以是运营商的业务服务器、企业网关、安装于用户设备的应用的后台服务器等;通信业务设备例如可以是BSS/OSS或者电信交换机;应用具体可以为通信类应用,例如:腾讯手机管家、微信、腾讯邮箱等等,当然,应用不限于通信类应用,本发明实施例中并不对此进行具体限定;参见图4示出的用户设备、服务器及通信业务设备相互配合以实施本实施例提供的通信号码处理方法的一个可选的流程图,方法包括:
步骤401、基于用户指示,用户设备向服务器发送携带待识别通信号码的识别指示。
例如,参见图11a,运行于用户设备上的用户应用处于接收用户指示状态,用户在安装于用户设备的应用的显示窗口,按照应用的提示在指定位置输入待识别通信号码;这里,待识别通信号码可以为一个或多个。
步骤402、服务器接收识别指示,基于识别指示向通信业务设备发送携带待识别通信号码的话单请求;话单请求中包括待识别通信号码、及第一预设时间。
步骤403、通信业务设备接收话单请求,基于话单请求获取待识别通信号码在第一预设时间内的话单,并发送给服务器。
步骤404、服务器接收待识别通信号码在第一预设时间内的话单。
步骤405、解析话单得到话单中所包括的通信信息的类型,提取出话单中各待识别通信号码的至少一种类型的通信信息并组合形成预处理话单。
步骤406、分别计算预处理话单中的各待识别通信号码与黄页号码的编辑距离。
步骤407、基于编辑距离得到预处理话单中各待识别通信号码与黄页号码的相似度。
步骤408、判断预处理话单包括的各待识别通信号码与黄页号码的相似度是否大于第一阈值,若是,则转到步骤409,否则流程终止。
步骤409、从预处理话单包括的各待识别通信号码中提取出与黄页号码的相似度大于第一阈值的通信发起号码,作为目标通信号码。
步骤410、服务器基于识别到的目标通信号码向用户设备发送携带目标通信号码的识别响应,识别响应用于对用户进行危险提醒,提醒用户该识别到的目标通信号码可能为诈骗号码;危险提醒的实现方式包括但不限于通过短信、闪信、微信、腾讯手机管家等通信类应用进行提醒;服务器还可以在识别到目标通信号码时,直接通过客服电话向用户设备进行危险提醒。
同时,服务器基于识别到的目标通信号码,还可以向与识别出的目标通信号码存在通信记录、或者正在通信的通信响应号码的用户进行危险提醒,以避免用户受骗。
用户设备接收到服务器发送的携带目标通信号码的识别响应后,基于目标通信号码对用户进行危险提醒;例如,参见图11b,运行于用户设备上的用户应用处于文字提醒状态,用户设备在安装于用户设备的应用的显示窗口显示例如以下文字提醒信息“请提高警惕!目标通信号码是诈骗号码”;这里的用户应用包括但不限于:短信、闪信、微信、腾讯手机管家等通信类应用;当然,应用不限于通信类应用,本发明实施例中并不对此进行具体限定。
本实施例针对具体如何得到预处理话单中各通信号码的相应类型通信信息所具有的特征,并从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码的场景,通过在对话单进行解析的基础上得到预处理话单,分别计算预处理话单中的各通信发起号码与黄页号码的编辑距离,基于编辑距离得到预处理话单中各通信发起号码与黄页号码的相似度(即通信号码作为通信发起号码所具有的特征之一),从预处理话单包括的各通信发起号码中提取出与黄页号码的相似度大于预设第一阈值的通信发起号码作为目标通信号码,或者,基于预处理话单包括的各通信发起号码中与黄页号码的相似度的排序,提取出相似度最高的第一比例的通信发起号码作为目标通信号码;本发明实施例以预处理话单中各通信发起号码与黄页号码的相似度为特征,以第一阈值为预设特征,通过判断预处理话单包括的各通信发起号码与黄页号码的相似度与第一阈值的相对关系,从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,实现了快速和准确的号码识别。
实施例四
本实施例基于实施例一,以通信发起号码在单位时间内的通信次数作为通信号码的特征,说明具体如何从多个通信号码中识别出满足预设条件的通信号码的技术方案;本实施例提供的通信号码处理方法,包括以下步骤:
1)从通信业务设备获取第一预设时间内预设数量的通信号码的话单。
2)解析话单得到话单中所包括的通信信息的类型,提取出话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单。
3)提取预处理话单中各通信号码作为通信发起号码的通信起始时间。
4)计算预处理话单中各通信发起号码在单位时间内的通信次数。
实际中,通信发起号码在单位时间内的通信次数可以包括以下任意一种:
方式1、通信发起号码与相同号码在单位时间内的通信次数;
方式2、通信发起号码与所有与其进行通信的通信号码在单位时间内的通信次数。
5)判断预处理话单包括的各通信发起号码在单位时间内的通信次数是否大于第二阈值,若是,则从预处理话单包括的各通信发起号码中提取出在单位时间内的通信次数大于第二阈值的通信发起号码,作为目标通信号码;否则流程终止。
第二阈值的初始值可以由人工设定或训练计算得到,例如:根据先验值确定预处理话单包括的各通信发起号码中的目标通信号码的目标数量;将各通信发起号码在单位时间内的通信次数进行排序;按照在单位时间内的通信次数递减的次序,选取目标数量的通信发起号码;将所选取的通信发起号码中在单位时间内的通信次数最小的通信发起号码所对应的在单位时间内的通信次数,确定为第二阈值的初始值。第二阈值可以根据实际需要,通过训练计算进行继续更新。
在一个可行的实施方式中,通信号码处理装置基于预处理话单中各通信发起号码在单位时间内的通信次数,对预处理话单包括的各通信发起号码在单位时间内的通信次数进行排序;基于预处理话单包括的各通信发起号码在单位时间内的通信次数的排序,从预处理话单包括的各通信发起号码中提取出通信次数最高的第二比例的通信发起号码,作为目标通信号码。
本实施例的实施依赖于用户设备、服务器及通信业务设备的配合,这里,用户设备例如可以是智能手机、固定电话、平板电脑、笔记本电脑、穿戴式设备(如智能眼镜、智能手表等)等;服务器例如可以是运营商的业务服务器、企业网关、安装于用户设备的应用的后台服务器等;通信业务设备例如可以是BSS/OSS或者电信交换机;应用具体可以为通信类应用,例如:腾讯手机管家、微信、腾讯邮箱等等,当然,应用不限于通信类应用,本发明实施例中并不对此进行具体限定;参见图5示出的用户设备、服务器及通信业务设备相互配合以实施本实施例提供的通信号码处理方法的一个可选的流程图,方法包括:
步骤501、当检测到与当前用户进行通话的对方通信号码时,用户设备(或安装于用户设备的应用)向服务器发送携带对方通信号码的识别指示。
步骤502、服务器接收识别指示,基于识别指示向通信业务设备发送携带对方通信号码的话单请求;话单请求中包括对方通信号码及第一预设时间。
步骤503、通信业务设备接收话单请求,基于话单请求获取对方通信号码在第一预设时间内的话单,并发送给服务器。
步骤504、服务器接收对方通信号码在第一预设时间内的话单。
步骤505、解析话单得到话单中所包括的通信信息的类型,提取出话单中对方通信号码的至少一种类型的通信信息并组合形成预处理话单。
步骤506、提取预处理话单中该对方通信号码作为通信发起号码的通信起始时间。
步骤507、计算预处理话单中该对方通信号码在单位时间内的通信次数。
步骤508、判断预处理话单包括的该对方通信号码在单位时间内的通信次数是否大于第二阈值,若是,则转到步骤509,否则流程终止。
步骤509、从预处理话单包括的该对方通信号码中提取出在单位时间内的通信次数大于第二阈值的通信发起号码,作为目标通信号码。
步骤510、服务器基于识别到的目标通信号码对用户进行危险提醒,提醒用户该识别到的目标通信号码可能为诈骗号码;危险提醒的实现方式包括但不限于通过短信、闪信、微信、腾讯手机管家等通信类应用进行提醒;服务器还可以在识别到目标通信号码时,直接通过客服电话向用户设备进行危险提醒。
同时,服务器基于识别到的目标通信号码,还可以向与识别出的目标通信号码存在通信记录、或者正在通信的通信响应号码的用户进行危险提醒,以避免用户受骗。
用户设备接收到服务器发送的携带目标通信号码的识别响应后,基于目标通信号码对用户进行危险提醒;例如,参见图11b,用户设备在安装于用户设备的应用的显示窗口显示例如以下文字提醒信息“请提高警惕!目标通信号码是诈骗号码”;这里的用户应用包括但不限于:短信、闪信、微信、腾讯手机管家等通信类应用;当然,应用不限于通信类应用,本发明实施例中并不对此进行具体限定。
本实施例针对具体如何得到预处理话单中各通信号码的相应类型通信信息所具有的特征,并从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码的场景,通过在对话单进行解析的基础上得到预处理话单,分别计算预处理话单中的各通信发起号码在单位时间内的通信次数(即通信号码作为通信发起号码所具有的特征之一),从预处理话单包括的各通信发起号码中提取出在单位时间内的通信次数大于预设第二阈值的通信发起号码作为目标通信号码,或者,基于预处理话单包括的各通信发起号码中在单位时间内的通信次数的排序,提取出通信次数最高的第二比例的通信发起号码作为目标通信号码;本发明实施例以预处理话单中各通信发起号码在单位时间内的通信次数为特征,以第二阈值为预设特征,通过判断预处理话单包括的各通信发起号码在单位时间内的通信次数与第二阈值的相对关系,从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,实现了快速和准确的号码识别。
实施例五
本实施例基于实施例一,针对具体如何解析预处理话单中各通信号码的至少一种类型的通信信息,得到预处理话单中各通信号码的相应类型通信信息所具有的特征,并从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码的场景,提出解决的技术方案。
参见图6,本实施例提供的通信号码处理方法,包括以下步骤:
步骤601、从通信业务设备获取第一预设时间内预设数量的通信号码的话单。
步骤602、解析话单得到话单中所包括的通信信息的类型,提取出话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单。
步骤603、提取预处理话单中各通信号码作为通信发起号码的通信时长。
步骤604、计算预处理话单中各通信发起号码的平均通信时长。
实际中,通信发起号码的平均通信时长可以包括以下任意一种:
1)通信发起号码与相同号码的平均通信时长;
2)通信发起号码与所有与其进行通信的通信号码的平均通信时长。
步骤605、判断预处理话单包括的各通信发起号码的平均通信时长是否大于第三阈值,若是,则转到步骤606,否则流程终止。
第三阈值的初始值可以由人工设定或训练计算得到,例如:
根据先验值确定预处理话单包括的各通信发起号码中的目标通信号码的目标数量;
将各通信发起号码的平均通信时长进行排序;
按照平均通信时长递减的次序,选取目标数量的通信发起号码;
将所选取的通信发起号码中平均通信时长最小的通信发起号码所对应的平均通信时长,确定为第三阈值的初始值。
第三阈值可以根据实际需要,通过训练计算进行继续更新。
步骤606、从预处理话单包括的各通信发起号码中提取出平均通信时长大于第三阈值的通信发起号码,作为目标通信号码。
在一个可行的实施方式中,通信号码处理装置基于预处理话单中各通信发起号码的平均通信时长,对预处理话单包括的各通信发起号码的平均通信时长进行排序;基于预处理话单包括的各通信发起号码的平均通信时长的排序,从预处理话单包括的各通信发起号码中提取出平均通信时长最高的第三比例的通信发起号码,作为目标通信号码。
本实施例针对具体如何得到预处理话单中各通信号码的相应类型通信信息所具有的特征,并从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码的场景,通过在对话单进行解析的基础上得到预处理话单,分别计算预处理话单中的各通信发起号码的平均通信时长(即通信号码作为通信发起号码所具有的特征之一),从预处理话单包括的各通信发起号码中提取出平均通信时长大于预设第三阈值的通信发起号码作为目标通信号码,或者,基于预处理话单包括的各通信发起号码的平均通信时长的排序,提取出平均通信时长最高的第三比例的通信发起号码作为目标通信号码;本发明实施例以预处理话单中各通信发起号码的平均通信时长为特征,以第三阈值为预设特征,通过判断预处理话单包括的各通信发起号码的平均通信时长与第三阈值的相对关系,从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,实现了快速和准确的号码识别。
实施例六
本实施例基于实施例一,针对具体如何解析预处理话单中各通信号码的至少一种类型的通信信息,得到预处理话单中各通信号码的相应类型通信信息所具有的特征,并从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码的场景,提出解决的技术方案。
参见图7,本实施例提供的通信号码处理方法,包括以下步骤:
步骤701、从通信业务设备获取第一预设时间内预设数量的通信号码的话单。
步骤702、解析话单得到话单中所包括的通信信息的类型,提取出话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单。
步骤703、提取预处理话单中各通信号码作为通信发起号码时对应的通信响应号码的归属地。
步骤704、计算预处理话单中各通信发起号码所对应的通信响应号码的不同归属地的数量。
步骤705、判断预处理话单包括的各通信发起号码所对应的通信响应号码的不同归属地的数量是否大于第四阈值,若是,则转到步骤706,否则流程终止。
第四阈值的初始值可以由人工设定或训练计算得到,例如:
根据先验值确定预处理话单包括的各通信发起号码中的目标通信号码的目标数量;
将各通信发起号码的平均通信时长进行排序;
按照所对应的通信响应号码的不同归属地的数量递减的次序,选取目标数量的通信发起号码;
将所选取的通信发起号码中所对应的通信响应号码的不同归属地的数量最小的通信发起号码所对应的通信响应号码的不同归属地的数量,确定为第四阈值的初始值。
第四阈值可以根据实际需要,通过训练计算进行继续更新。
步骤706、从预处理话单包括的各通信发起号码中提取出所对应的通信响应号码的不同归属地的数量大于第四阈值的通信发起号码,作为目标通信号码。
在一个可行的实施方式中,通信号码处理装置基于预处理话单中各通信发起号码的平均通信时长,对预处理话单包括的各通信发起号码所对应的通信响应号码的不同归属地的数量进行排序;基于预处理话单包括的各通信发起号码所对应的通信响应号码的不同归属地的数量的排序,从预处理话单包括的各通信发起号码中提取出所对应的通信响应号码的不同归属地的数量最高的第四比例的通信发起号码,作为目标通信号码。
本实施例针对具体如何得到预处理话单中各通信号码的相应类型通信信息所具有的特征,并从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码的场景,通过在对话单进行解析的基础上得到预处理话单,分别计算预处理话单中的各通信发起号码所对应的通信响应号码的不同归属地的数量(即通信号码作为通信发起号码所具有的特征之一),从预处理话单包括的各通信发起号码中提取出所对应的通信响应号码的不同归属地的数量大于预设第三阈值的通信发起号码作为目标通信号码,或者,基于预处理话单包括的各通信发起号码所对应的通信响应号码的不同归属地的数量的排序,提取出所对应的通信响应号码的不同归属地的数量最高的第四比例的通信发起号码作为目标通信号码;本发明实施例以预处理话单中各通信发起号码所对应的通信响应号码的不同归属地的数量为特征,以第四阈值为预设特征,通过判断预处理话单包括的各通信发起号码所对应的通信响应号码的不同归属地的数量与第四阈值的相对关系,从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,实现了快速和准确的号码识别。
实施例七
本实施例基于上述实施例,针对具体如何从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码的场景,提出解决的技术方案。
参见图8,本实施例提供的通信号码处理方法,包括以下步骤:
步骤801、从通信业务设备获取第一预设时间内预设数量的通信号码的话单。
步骤802、解析话单得到话单中所包括的通信信息的类型,提取出话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单。
步骤803、解析预处理话单中各通信号码的至少一种类型的通信信息,得到预处理话单中各通信号码的相应类型通信信息所具有的特征。
步骤804、使用机器学习模型分析预处理话单中各通信号码的相应类型通信信息所具有的特征。
步骤805、判断各通信号码的相应类型通信信息所具有的特征是否与预设特征匹配,若是,转到步骤806,否则流程结束。
步骤806、从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
这里,使用机器学习模型分析预处理话单中各通信号码的相应类型通信信息所具有的特征的实现方式包括:使用上述实施例三至实施例六中任意一个实施例所记载的技术方案或者技术方案的组合识别目标通信号码。
机器学习模型可以采用以下任意一种模型或组合:贝叶斯分类器模型;支持向量机(SVM,Support Vector Machine)分类器模型;深度学习模型;逻辑回归;本领域技术人员可以理解的是,机器学习模型还可以包括此处未列举的其他模型,本发明并不以此为限。
本实施例针对具体如何得到从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码的场景,通过使用机器学习模型分析预处理话单中各通信号码的相应类型通信信息所具有的特征,从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,实现了快速、高效的号码识别。
实施例八
本实施例基于实施例七,针对具体如何基于用户侧针对目标通信号码的反馈信息对机器学习模型进行训练的场景,提出解决的技术方案。
参见图9,本实施例提供的通信号码处理方法,包括以下步骤:
步骤901、从通信业务设备获取第一预设时间内预设数量的通信号码的话单。
步骤902、解析话单得到话单中所包括的通信信息的类型,提取出话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单。
步骤903、解析预处理话单中各通信号码的至少一种类型的通信信息,得到预处理话单中各通信号码的相应类型通信信息所具有的特征。
步骤904、分析预处理话单中各通信号码的相应类型通信信息所具有的特征,判断各通信号码的相应类型通信信息所具有的特征是否与预设特征匹配,若是,转到步骤905,否则流程结束。
步骤905、从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码;以及,向与识别出的目标通信号码存在通信记录、或者正在通信的通信响应号码的用户进行危险提醒。
步骤906、接收用户侧针对目标通信号码的反馈信息。
接收用户侧针对携带识别出的目标通信号码的危险提醒的反馈信息。
步骤907、根据用户侧针对目标通信号码的反馈信息,判断目标通信号码是否为安全号码,若是,则转到步骤908,否则流程结束。
步骤908、基于识别出的目标通信号码中被用户侧反馈为安全号码的目标通信号码的数量,确定机器学习模型的错误率。
步骤909、判断机器学习模型的错误率是否大于第五阈值,若是,则转到步骤910,否则流程结束。
步骤910、基于预处理话单中安全号码的通信记录,对机器学习模型进行重新训练。
这里,基于预处理话单中安全号码的通信记录,对机器学习模型至进行重新训练的一种可行的实现方式包括:
解析预处理话单中安全号码的通信记录的至少一种类型的通信信息,得到安全号码的至少一种类型的通信信息所具有的特征;
基于安全号码的至少一种类型的通信信息所具有的特征更新机器学习模型识别目标通信号码所使用的阈值。
本实施例针对基于用户侧针对目标通信号码的反馈信息对机器学习模型进行训练的场景,根据目标通信号码中被用户侧反馈为安全号码的目标通信号码的数量确定机器学习模型的错误率,并在机器学习模型的错误率大于第五阈值时,基于预处理话单中安全号码的通信记录,对机器学习模型进行重新训练;由于重新训练时依据的是预处理话单中安全号码的通信记录,因而重新训练得到的机器学习模型的准确率较高,如此,使用重新训练得到的机器学习模型进行目标通信号码的识别,能够提高号码识别的速度和准确性。
实施例九
本实施例基于上述任意实施例,针对识别到目标通信号码时的响应处理场景,提出解决的技术方案。
参见图10,本实施例提供的通信号码处理方法,包括以下步骤:
步骤1001、从通信业务设备获取第一预设时间内预设数量的通信号码的话单。
步骤1002、解析话单得到话单中所包括的通信信息的类型,提取出话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单。
步骤1003、解析预处理话单中各通信号码的至少一种类型的通信信息,得到预处理话单中各通信号码的相应类型通信信息所具有的特征。
步骤1004、分析预处理话单中各通信号码的相应类型通信信息所具有的特征,判断各通信号码的相应类型通信信息所具有的特征是否与预设特征匹配,若是,转到步骤1005,否则流程结束。
步骤1005、从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
步骤1006、确定目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度。
目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度也可以理解为是目标通信号码的相应类型通信信息所具有的特征与预设特征的差异程度;以目标通信号码的特征为目标通信号码与黄页号码的相似度为例,目标通信号码与黄页号码的相似度大于第一阈值,这里,匹配程度是指目标通信号码与黄页号码的相似度与第一阈值的差值的大小。
步骤1007、根据目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度,确定目标通信号码的危险级别。
匹配程度与危险级别是正相关的关系;不同的危险级别可以对应不同数据范围内的匹配程度。
步骤1008、基于目标通信号码的危险级别对目标通信号码的通信行为进行响应处理。
响应处理的实时程度与危险级别是正相关的关系;假设定义的危险级别包括:高危、低危;此处的危险级别可以用于表征该目标通信号码是满足特定条件的通信号码的概率,例如危险级别可以用于表征该目标通信号码是诈骗号码的概率。
通信号码处理装置在确定目标通信号码的危险级别为低危时,对目标通信号码的通信行为进行响应处理的方式可以包括:向与目标通信号码存在通信记录的通信响应号码的用户进行危险提醒,提醒该用户该目标通信号码是诈骗号码;这里,危险提醒包括语音提醒和/或文字提醒;语音提醒例如发送语音录音或客服电话提醒;文字提醒例如为短信或闪信。
参见图11b,通信号码处理装置向与目标通信号码存在通信记录的通信响应号码的用户进行事后的危险提醒,在与目标通信号码存在通信记录的通信响应号码的用户设备上,在用户应用的显示窗口显示如下的文字提醒信息“请提高警惕!目标通信号码是诈骗号码”;这里的用户应用包括但不限于:短信、闪信、微信、腾讯手机管家等通信类应用;当然,应用不限于通信类应用,本发明实施例中并不对此进行具体限定。
通信号码处理装置在确定目标通信号码的危险级别为高危时,对目标通信号码的通信行为进行响应处理的方式可以包括:向与目标通信号码正在进行通信的通信响应号码的用户进行即时的危险提醒(包括但不限于短信或闪信等文字提醒方式,或发送语音录音或客服电话提醒等语音提醒方式),即在该用户正在与目标通信号码进行通信的过程中提醒该用户该目标通信号码是诈骗号码;或者,直接拦截与目标通信号码正在进行的通信,且事后对用户进行危险提醒。
本实施例针对识别到目标通信号码时的响应处理场景,基于目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度确定目标通信号码的危险级别,基于目标通信号码的危险级别对目标通信号码的通信行为进行响应处理,提醒与目标通信号码进行通信的用户提高警惕,避免被诈骗。
实施例十
本实施例基于上述任意实施例,可以应用于需要从多个通信号码中识别出满足预设条件的通信号码的场景中,例如针对通信网络中全网号码的识别,或者,针对用户指示的待识别通信号码的识别,或者,针对与当前用户进行通信的通信号码的识别等场景中;通信的业务类型包括但不限于以下任意一种业务类型或组合:语音通话;短信;闪信;数据业务(如微信),本发明并不以此为限。
参见图12,本实施例提供的通信号码处理装置(基于话单分析的诈骗号码识别系统),包括:在线识别系统和离线训练系统。
在线识别系统是根据运营商采集的话单记录,抽取出特征;利用机器学习模型来判断某个电话号码是不是诈骗电话;然后,对被骗用户进行提醒/回访,避免用户上当受骗,将提醒/回访的结果反馈到离线训练系统,据此对机器学习模型进行调整;离线训练系统是利用历史话单数据以及在线识别系统中提醒/回访的反馈结果,抽取出相应的特征;利用这些特征,对机器学习模型重新进行训练、调整;训练好的机器学习模型,同步更新到在线训练系统中的欺诈电话识别引擎。
具体地,在线识别系统根据用户通话话单记录,就可以识别出诈骗号码;在线识别系统又可以分为3个模块:话单采集模块,欺诈电话识别引擎和受骗用户识别系统;其中,
话单采集模块:主要负责用户通话记录的采集,并对采集后的话单进行预处理得到下表4列信息:
主叫号码 | 被叫号码 | 通话时间 | 通话时长(秒) |
158XXXX0001 | 186XXXX0002 | 2016-01-15 15:36:42 | 134 |
001XX86 | 139XXXX0001 | 2016-01-15 15:39:02 | 15 |
138XXXX0001 | 139XXXX0002 | 2016-01-15 15:38:02 | 123 |
欺诈电话识别引擎:这是在线识别系统的核心;对采集后的话单进行清洗,提取出特征,使用训练好的机器学习模型对话单抽取出的特征进行识别,判断该号码是否是诈骗电话;它又可分为3个部分:话单清洗、特征提取和诈骗号码识别;其中,
1)话单清洗就是去除话单中的“脏”数据。所谓的“脏”数据,是一些异常的数据,比如内容缺失,值异常等。
2)特征提取:对清洗后的话单,提取了一些特征,为下一步诈骗号码的识别做准备,特征包括:主叫号码的相似度,平均通话时长,相邻话单被叫号码的距离,通话间隔等。
主叫号码与黄页号码的相似度特征(即上述的通信发起号码与黄页号码的相似度):诈骗号码大都是主叫号码,诈骗分子通过改号软件,将主叫号码改为和黄页上号码相似的号码,比如001XX86、+0109XX88,08XXX10010(中国联通的客服电话为10010)等,计算这些号码的子串与黄页上号码的编辑距离(编辑距离:黄页号码通过增加、减少、修改、移动号码等操作变成主叫号码的操作次数)。
单位时间内拨打次数(即上述的通信发起号码在单位时间内的通信次数):诈骗分子一般每个小时都会打很多通电话,而且这些电话大都是在工作时间,也就是周一至周五的08:00:00--18:00:00,在这个时段,拨打次数是均匀分布;非工作时段,电话的拨打次数一般很少,基本为0。
平均通话时长(即上述的平均通信时长):即诈骗号码平均每个通话的通话时长,一般用户接到诈骗电话,都会很快的挂掉电话,所以诈骗平均通话时长很短,不超过20s。
被叫号码所在的归属地在时间(单位:天)上的分布(即上述的通信发起号码所对应的通信响应号码的不同归属地的数量):诈骗分子通常是逐个城市的进行诈骗,因此,这些话单中的被叫号码通常都是属于某个城市的,将一定时间内被叫号码的归属城市个数作为该特征。
3)诈骗电话的识别:使用上述提取的特征,利用机器学习模型来识别诈骗。
受骗用户提醒系统:告知诈骗通话话单中的受害用户所接收到的某通话是诈骗电话,防止受害用户上当受骗;同时将受害用户反馈的结果,是否是诈骗电话的信息提交到离线训练系统。
2.离线训练系统
当发现受骗用户提醒系统反馈的机器学习模型的错误率高于域值时,离线训练系统会提取出相关的历史话单的特征,重新训练机器学习模型,调整贝叶斯分类器(这里也可以用其他的机器学习算法,比如svm分类器、逻辑回归、深度学习等方法);离线训练系统主要可分为三部分:
a)提取历史话单:提取最近一段时间的历史话单,特别是反馈结果是错误的相关话单。
b)特征提取:从历史话单中提取出特征,为下一步的模型再训练提供数据。
c)模型再训练:利用b)中提取的特征,训练贝叶斯分类器,得到新的参数,并将训练好的机器学习模型更新到在线识别系统。
这样在线识别系统与离线训练系统就形成了一个完整的闭环,离线训练系统会根据语音回访的结果,来决定是否重新训练,更新在线识别系统中诈骗号码识别模型。
本实施例提供的通信号码处理装置所产生的有益效果在于:1)不需要用户的标记信息,只需要话单记录;2)加快诈骗号码的识别速度和准确性;3)可以更加准确的识别诈骗号码;实现运营商在用户通话的过程中识别诈骗电话。
实施例十一
与前述实施例的记载相对应,本实施例还记载一种通信号码处理装置,通信号码处理装置可以用于执行本发明实施例的通信号码处理方法,通信号码处理装置可以采用各种方式来实施,例如在智能手机、固定电话、平板电脑、笔记本电脑、穿戴式设备(如智能眼镜、智能手表等)等用户设备中实施装置的全部组件,或者,在企业网关、运营商网关等网络设备中实施装置的全部组件,或者,在上述的用户设备侧或网络侧以耦合的方式实施装置中的组件,或者,通信号码处理装置还可以是用户应用的客户端或者后台服务器,例如,当用户应用为腾讯手机管家时,相应的通信号码处理装置可以为腾讯手机管家的客户端或者后台服务器;参见图13,通信号码处理装置包括:
获取模块1301,用于从通信业务设备获取第一预设时间内预设数量的通信号码的话单;
预处理模块1302,用于解析话单得到话单中所包括的通信信息的类型,提取出话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单;
解析模块1303,用于解析预处理话单中各通信号码的至少一种类型的通信信息,得到预处理话单中各通信号码的相应类型通信信息所具有的特征;
提取模块1304,用于从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
相比于需要在收集用户标记信息的基础上实施识别号码的现有技术,本实施例对通信号码的话单进行解析得到通信号码的相应类型通信信息所具有的特征,并基于通信号码的相应类型通信信息所具有的特征从各通信号码中识别出与预设特征匹配的目标通信号码,一方面,由于通信号码话单的生成及维护过程一般是由运营商负责,并不需要各个用户的参与,通信号码话单的获取速度和效率较高,另一方面,由于通信号码的话单是由运营商维护的客观数据,因而能够真实和完整地反映用户在一定时间间隔内的所有通信记录,如此,本发明实施例提供的技术方案以通信号码的话单为处理基础,能够提高号码识别的速度和准确性。
在上述实施例的基础上,预处理模块1302,具体用于:
解析话单得到话单中所包括的以下类型通信信息至少之一:通信发起号码;对应通信发起号码的通信响应号码;通信起始时间;通信时长;
提取出话单中各通信发起号码所关联的至少一种类型的通信信息形成各通信发起号码的通信记录;
将所提取的各通信发起号码的通信记录组合形成预处理话单。
在上述实施例的基础上,解析模块1303,具体用于:分别计算预处理话单中的各通信发起号码与黄页号码的编辑距离;基于编辑距离得到预处理话单中各通信发起号码与黄页号码的相似度;
提取模块1304,具体用于:从预处理话单包括的各通信发起号码中提取出与黄页号码的相似度大于第一阈值的通信发起号码;或者,基于预处理话单包括的各通信发起号码中与黄页号码的相似度的排序,提取出相似度最高的第一比例的通信发起号码。
在上述实施例的基础上,解析模块1303,具体用于:提取预处理话单中各通信号码作为通信发起号码的通信起始时间;计算预处理话单中各通信发起号码在单位时间内的通信次数;
提取模块1304,具体用于:从预处理话单包括的各通信发起号码中提取出单位时间内通信次数大于第二阈值的通信发起号码;或者,基于预处理话单包括的各通信发起号码在单位时间内的通信次数的排序,提取出通信次数最高的第二比例的通信发起号码。
在上述实施例的基础上,解析模块1303,具体用于:提取预处理话单中各通信号码作为通信发起号码的通信时长;计算预处理话单中各通信发起号码的平均通信时长;
提取模块1304,具体用于:从预处理话单包括的各通信发起号码中提取出平均通信时长大于第三阈值的通信发起号码;或者,基于预处理话单包括的各通信发起号码的平均通信时长的排序,提取出平均通信时长最高的第三比例的通信发起号码。
在上述实施例的基础上,解析模块1303,具体用于:获取预处理话单中各通信号码作为通信发起号码时对应的通信响应号码的归属地;计算预处理话单中各通信发起号码所对应的通信响应号码的不同归属地的数量;
提取模块1304,具体用于:从预处理话单包括的各通信发起号码中提取出所对应的通信响应号码的不同归属地的数量大于第四阈值的通信发起号码;或者,基于预处理话单包括的各通信发起号码所对应的通信响应号码的不同归属地的数量的排序,提取出所对应的通信响应号码的不同归属地的数量最高的第四比例的通信发起号码。
在上述实施例的基础上,提取模块1304,具体用于:使用机器学习模型分析预处理话单中各通信号码的相应类型通信信息所具有的特征,从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
实施例十二
本实施例基于实施例十一,参见图14,本实施例记载的通信号码处理装置也包括图13中的获取模块1301、预处理模块1302、解析模块1303及提取模块1304,并且该些功能模块也具有实施例十一所记载的相应作用,在此基础上,本实施例记载的通信号码处理装置还包括:
训练模块1305,用于接收用户侧针对目标通信号码的反馈信息,确定目标通信号码是否为安全号码;基于识别出的目标通信号码中被用户侧反馈为安全号码的目标通信号码的数量,确定机器学习模型的错误率;机器学习模型的错误率大于第五阈值时,基于预处理话单中安全号码的通信记录,对机器学习模型进行重新训练。
进一步,训练模块1305,具体用于:解析预处理话单中安全号码的通信记录的至少一种类型的通信信息,得到安全号码的至少一种类型的通信信息所具有的特征;基于安全号码的至少一种类型的通信信息所具有的特征更新机器学习模型识别目标通信号码所使用的阈值。
在上述实施例的基础上,装置还包括:
响应模块1306,用于确定目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度;根据目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度,确定目标通信号码的危险级别;基于目标通信号码的危险级别对目标通信号码的通信行为进行响应处理。
在实际应用中,获取模块1301、预处理模块1302、解析模块1303、提取模块1304、训练模块1305及响应模块1306,均可由位于通信号码处理装置的中央处理器(CPU)、微处理器(MPU)、专用集成电路(ASIC)或现场可编程门阵列(FPGA)等实现。
实施例十三
本实施例记载一种计算机可读介质,可以为ROM(例如,只读存储器、FLASH存储器、转移装置等)、磁存储介质(例如,磁带、磁盘驱动器等)、光学存储介质(例如,CD-ROM、DVD-ROM、纸卡、纸带等)以及其他熟知类型的程序存储器;计算机可读介质中存储有计算机可执行指令(例如腾讯视频等投射应用的二进制可执行指令),当执行指令时,引起至少一个处理器执行包括以下的操作:
从通信业务设备获取第一预设时间内预设数量的通信号码的话单;
解析话单得到话单中所包括的通信信息的类型,提取出话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单;
解析预处理话单中各通信号码的至少一种类型的通信信息,得到预处理话单中各通信号码的相应类型通信信息所具有的特征;
从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
综上,通信号码处理装置对通信号码的话单进行解析得到通信号码的相应类型通信信息所具有的特征,并基于通信号码的相应类型通信信息所具有的特征从各通信号码中识别出与预设特征匹配的目标通信号码,一方面,由于通信号码话单的生成及维护过程一般是由运营商负责,并不需要各个用户的参与,通信号码话单的获取速度和效率较高,另一方面,由于通信号码的话单是由运营商维护的客观数据,因而能够真实和完整地反映用户在一定时间间隔内的所有通信记录,如此,本发明实施例提供的技术方案以通信号码的话单为处理基础,能够提高号码识别的速度和准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (20)
1.一种通信号码处理方法,其特征在于,所述方法包括:
从通信业务设备获取第一预设时间内预设数量的通信号码的话单;
解析所述话单得到所述话单中所包括的通信信息的类型,提取出所述话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单;
解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征;
从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
2.根据权利要求1所述的方法,其特征在于,所述解析所述话单得到所述话单中所包括的通信信息的类型,提取出所述话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单,包括:
解析所述话单得到所述话单中所包括的以下类型通信信息至少之一:通信发起号码;对应所述通信发起号码的通信响应号码;通信起始时间;通信时长;
提取出所述话单中各通信发起号码所关联的至少一种类型的通信信息形成各通信发起号码的通信记录;
将所提取的各通信发起号码的通信记录组合形成所述预处理话单。
3.根据权利要求1所述的方法,其特征在于,所述解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征,包括:
分别计算所述预处理话单中的各通信发起号码与黄页号码的编辑距离;
基于所述编辑距离得到所述预处理话单中各通信发起号码与黄页号码的相似度;
从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,包括:
从所述预处理话单包括的各通信发起号码中提取出与所述黄页号码的相似度大于第一阈值的通信发起号码;
或者,基于所述预处理话单包括的各通信发起号码中与所述黄页号码的相似度的排序,提取出相似度最高的第一比例的通信发起号码。
4.根据权利要求1所述的方法,其特征在于,所述解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征,包括:
提取所述预处理话单中各通信号码作为通信发起号码的通信起始时间;
计算所述预处理话单中各通信发起号码在单位时间内的通信次数;
从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,包括:
从所述预处理话单包括的各通信发起号码中提取出单位时间内通信次数大于第二阈值的通信发起号码;
或者,基于所述预处理话单包括的各通信发起号码在单位时间内的通信次数的排序,提取出通信次数最高的第二比例的通信发起号码。
5.根据权利要求1所述的方法,其特征在于,所述解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征,包括:
提取所述预处理话单中各通信号码作为通信发起号码的通信时长;
计算所述预处理话单中各通信发起号码的平均通信时长;
从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,包括:
从所述预处理话单包括的各通信发起号码中提取出平均通信时长大于第三阈值的通信发起号码;
或者,基于所述预处理话单包括的各通信发起号码的平均通信时长的排序,提取出平均通信时长最高的第三比例的通信发起号码。
6.根据权利要求1所述的方法,其特征在于,所述解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征,包括:
获取所述预处理话单中各通信号码作为通信发起号码时对应的通信响应号码的归属地;
计算所述预处理话单中各通信发起号码所对应的通信响应号码的不同归属地的数量;
从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,包括:
从所述预处理话单包括的各通信发起号码中提取出所对应的通信响应号码的不同归属地的数量大于第四阈值的通信发起号码;
或者,基于所述预处理话单包括的各通信发起号码所对应的通信响应号码的不同归属地的数量的排序,提取出所对应的通信响应号码的不同归属地的数量最高的第四比例的通信发起号码。
7.根据权利要求1所述的方法,其特征在于,从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码,包括:
使用机器学习模型分析所述预处理话单中各通信号码的相应类型通信信息所具有的特征,从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
接收用户侧针对目标通信号码的反馈信息,确定所述目标通信号码是否为安全号码;
基于所述识别出的目标通信号码中被用户侧反馈为安全号码的目标通信号码的数量,确定所述机器学习模型的错误率;
机器学习模型的错误率大于第五阈值时,基于所述预处理话单中所述安全号码的通信记录,对所述机器学习模型进行重新训练。
9.根据权利要求8所述的方法,其特征在于,基于所述预处理话单中所述安全号码的通信记录,对所述机器学习模型至进行重新训练,包括:
解析所述预处理话单中所述安全号码的通信记录的至少一种类型的通信信息,得到所述安全号码的至少一种类型的通信信息所具有的特征;
基于所述安全号码的至少一种类型的通信信息所具有的特征更新所述机器学习模型识别所述目标通信号码所使用的阈值。
10.根据权利要求1所述的方法,其特征在于,所述从预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码之后,所述方法还包括:
确定所述目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度;
根据所述目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度,确定所述目标通信号码的危险级别;
基于所述目标通信号码的危险级别对所述目标通信号码的通信行为进行响应处理。
11.一种通信号码处理装置,其特征在于,所述装置包括:
获取模块,用于从通信业务设备获取第一预设时间内预设数量的通信号码的话单;
预处理模块,用于解析所述话单得到所述话单中所包括的通信信息的类型,提取出所述话单中各通信号码的至少一种类型的通信信息并组合形成预处理话单;
解析模块,用于解析所述预处理话单中各通信号码的至少一种类型的通信信息,得到所述预处理话单中各通信号码的相应类型通信信息所具有的特征;
提取模块,用于从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
12.根据权利要求11所述的装置,其特征在于,所述预处理模块,具体用于:
解析所述话单得到所述话单中所包括的以下类型通信信息至少之一:通信发起号码;对应所述通信发起号码的通信响应号码;通信起始时间;通信时长;
提取出所述话单中各通信发起号码所关联的至少一种类型的通信信息形成各通信发起号码的通信记录;
将所提取的各通信发起号码的通信记录组合形成所述预处理话单。
13.根据权利要求11所述的装置,其特征在于,所述解析模块,具体用于:分别计算所述预处理话单中的各通信发起号码与黄页号码的编辑距离;基于所述编辑距离得到所述预处理话单中各通信发起号码与黄页号码的相似度;
所述提取模块,具体用于:从所述预处理话单包括的各通信发起号码中提取出与所述黄页号码的相似度大于第一阈值的通信发起号码;或者,基于所述预处理话单包括的各通信发起号码中与所述黄页号码的相似度的排序,提取出相似度最高的第一比例的通信发起号码。
14.根据权利要求11所述的装置,其特征在于,所述解析模块,具体用于:提取所述预处理话单中各通信号码作为通信发起号码的通信起始时间;计算所述预处理话单中各通信发起号码在单位时间内的通信次数;
所述提取模块,具体用于:从所述预处理话单包括的各通信发起号码中提取出单位时间内通信次数大于第二阈值的通信发起号码;或者,基于所述预处理话单包括的各通信发起号码在单位时间内的通信次数的排序,提取出通信次数最高的第二比例的通信发起号码。
15.根据权利要求11所述的装置,其特征在于,所述解析模块,具体用于:提取所述预处理话单中各通信号码作为通信发起号码的通信时长;计算所述预处理话单中各通信发起号码的平均通信时长;
所述提取模块,具体用于:从所述预处理话单包括的各通信发起号码中提取出平均通信时长大于第三阈值的通信发起号码;或者,基于所述预处理话单包括的各通信发起号码的平均通信时长的排序,提取出平均通信时长最高的第三比例的通信发起号码。
16.根据权利要求11所述的装置,其特征在于,所述解析模块,具体用于:获取所述预处理话单中各通信号码作为通信发起号码时对应的通信响应号码的归属地;计算所述预处理话单中各通信发起号码所对应的通信响应号码的不同归属地的数量;
所述提取模块,具体用于:从所述预处理话单包括的各通信发起号码中提取出所对应的通信响应号码的不同归属地的数量大于第四阈值的通信发起号码;或者,基于所述预处理话单包括的各通信发起号码所对应的通信响应号码的不同归属地的数量的排序,提取出所对应的通信响应号码的不同归属地的数量最高的第四比例的通信发起号码。
17.根据权利要求11所述的装置,其特征在于,所述提取模块,具体用于:使用机器学习模型分析所述预处理话单中各通信号码的相应类型通信信息所具有的特征,从所述预处理话单包括的通信号码中提取出与预设特征匹配的目标通信号码。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:
训练模块,用于接收用户侧针对目标通信号码的反馈信息,确定所述目标通信号码是否为安全号码;基于所述识别出的目标通信号码中被用户侧反馈为安全号码的目标通信号码的数量,确定所述机器学习模型的错误率;机器学习模型的错误率大于第五阈值时,基于所述预处理话单中所述安全号码的通信记录,对所述机器学习模型进行重新训练。
19.根据权利要求18所述的装置,其特征在于,所述训练模块,具体用于:解析所述预处理话单中所述安全号码的通信记录的至少一种类型的通信信息,得到所述安全号码的至少一种类型的通信信息所具有的特征;基于所述安全号码的至少一种类型的通信信息所具有的特征更新所述机器学习模型识别所述目标通信号码所使用的阈值。
20.根据权利要求11所述的装置,其特征在于,所述装置还包括:
响应模块,用于确定所述目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度;根据所述目标通信号码的相应类型通信信息所具有的特征与预设特征的匹配程度,确定所述目标通信号码的危险级别;基于所述目标通信号码的危险级别对所述目标通信号码的通信行为进行响应处理。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610261923.1A CN107306306B (zh) | 2016-04-25 | 2016-04-25 | 通信号码处理方法及装置 |
PCT/CN2017/081813 WO2017186090A1 (zh) | 2016-04-25 | 2017-04-25 | 通信号码处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610261923.1A CN107306306B (zh) | 2016-04-25 | 2016-04-25 | 通信号码处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107306306A true CN107306306A (zh) | 2017-10-31 |
CN107306306B CN107306306B (zh) | 2020-04-07 |
Family
ID=60150219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610261923.1A Active CN107306306B (zh) | 2016-04-25 | 2016-04-25 | 通信号码处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107306306B (zh) |
WO (1) | WO2017186090A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108124065A (zh) * | 2017-12-05 | 2018-06-05 | 浙江鹏信信息科技股份有限公司 | 一种对垃圾电话内容进行识别与处置的方法 |
CN108391223A (zh) * | 2018-02-12 | 2018-08-10 | 中国联合网络通信集团有限公司 | 一种确定失联用户的方法及装置 |
CN109474755A (zh) * | 2018-10-30 | 2019-03-15 | 济南大学 | 基于排序学习和集成学习的异常电话主动预测方法及系统 |
CN109963276A (zh) * | 2017-12-26 | 2019-07-02 | 恒为科技(上海)股份有限公司 | 一种话单数据处理方法及装置 |
CN110087230A (zh) * | 2019-04-26 | 2019-08-02 | 同盾控股有限公司 | 数据处理方法、装置、存储介质及电子设备 |
CN110401779A (zh) * | 2018-04-24 | 2019-11-01 | 中国移动通信集团有限公司 | 一种识别电话号码的方法、装置和计算机可读存储介质 |
CN111031546A (zh) * | 2019-11-29 | 2020-04-17 | 武汉烽火众智数字技术有限责任公司 | 一种应用于电话号码分析的lr模型训练方法及使用方法 |
CN111131627A (zh) * | 2019-12-20 | 2020-05-08 | 珠海高凌信息科技股份有限公司 | 基于流数据图谱的个人有害呼叫检测方法、装置及可读介质 |
CN111783968A (zh) * | 2020-06-30 | 2020-10-16 | 山东信通电子股份有限公司 | 一种基于云边协同的输电线路监测方法及系统 |
CN113206909A (zh) * | 2021-04-30 | 2021-08-03 | 中国银行股份有限公司 | 骚扰电话拦截方法及装置 |
CN113596260A (zh) * | 2020-04-30 | 2021-11-02 | 中国移动通信集团广东有限公司 | 异常电话号码检测方法和电子设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112887491B (zh) * | 2019-11-29 | 2023-03-21 | 中国电信股份有限公司 | 用户缺失信息获取方法和装置 |
CN114745211A (zh) * | 2022-04-26 | 2022-07-12 | 贵阳朗玛通信科技有限公司 | 一种基于话单数据快速匹配策略的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101217820A (zh) * | 2008-01-15 | 2008-07-09 | 中兴通讯股份有限公司 | 一种骚扰号码的识别系统及识别方法 |
CN101426203A (zh) * | 2007-11-02 | 2009-05-06 | 华为技术有限公司 | 一种识别恶意骚扰电话的方法和设备 |
EP2278783A1 (de) * | 2009-06-26 | 2011-01-26 | Vodafone Holding GmbH | Vorrichtung und Verfahren zum Erkennen von erwünschten und/oder unerwünschten Telefonanrufen in Abhängigkeit des Nutzerverhaltens eines Nutzers eines Telefons |
CN102892117A (zh) * | 2012-09-11 | 2013-01-23 | 北京中创信测科技股份有限公司 | 一种骚扰电话监控系统方法及系统 |
CN105451234A (zh) * | 2015-11-09 | 2016-03-30 | 北京市天元网络技术股份有限公司 | 一种基于信令交互数据的可疑号码分析方法及装置 |
-
2016
- 2016-04-25 CN CN201610261923.1A patent/CN107306306B/zh active Active
-
2017
- 2017-04-25 WO PCT/CN2017/081813 patent/WO2017186090A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101426203A (zh) * | 2007-11-02 | 2009-05-06 | 华为技术有限公司 | 一种识别恶意骚扰电话的方法和设备 |
CN101217820A (zh) * | 2008-01-15 | 2008-07-09 | 中兴通讯股份有限公司 | 一种骚扰号码的识别系统及识别方法 |
EP2278783A1 (de) * | 2009-06-26 | 2011-01-26 | Vodafone Holding GmbH | Vorrichtung und Verfahren zum Erkennen von erwünschten und/oder unerwünschten Telefonanrufen in Abhängigkeit des Nutzerverhaltens eines Nutzers eines Telefons |
CN102892117A (zh) * | 2012-09-11 | 2013-01-23 | 北京中创信测科技股份有限公司 | 一种骚扰电话监控系统方法及系统 |
CN105451234A (zh) * | 2015-11-09 | 2016-03-30 | 北京市天元网络技术股份有限公司 | 一种基于信令交互数据的可疑号码分析方法及装置 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108124065A (zh) * | 2017-12-05 | 2018-06-05 | 浙江鹏信信息科技股份有限公司 | 一种对垃圾电话内容进行识别与处置的方法 |
CN109963276A (zh) * | 2017-12-26 | 2019-07-02 | 恒为科技(上海)股份有限公司 | 一种话单数据处理方法及装置 |
CN108391223A (zh) * | 2018-02-12 | 2018-08-10 | 中国联合网络通信集团有限公司 | 一种确定失联用户的方法及装置 |
CN110401779B (zh) * | 2018-04-24 | 2022-02-01 | 中国移动通信集团有限公司 | 一种识别电话号码的方法、装置和计算机可读存储介质 |
CN110401779A (zh) * | 2018-04-24 | 2019-11-01 | 中国移动通信集团有限公司 | 一种识别电话号码的方法、装置和计算机可读存储介质 |
CN109474755A (zh) * | 2018-10-30 | 2019-03-15 | 济南大学 | 基于排序学习和集成学习的异常电话主动预测方法及系统 |
CN109474755B (zh) * | 2018-10-30 | 2020-10-30 | 济南大学 | 基于排序学习和集成学习的异常电话主动预测方法、系统及计算机可读存储介质 |
CN110087230B (zh) * | 2019-04-26 | 2020-09-15 | 同盾控股有限公司 | 数据处理方法、装置、存储介质及电子设备 |
CN110087230A (zh) * | 2019-04-26 | 2019-08-02 | 同盾控股有限公司 | 数据处理方法、装置、存储介质及电子设备 |
CN111031546A (zh) * | 2019-11-29 | 2020-04-17 | 武汉烽火众智数字技术有限责任公司 | 一种应用于电话号码分析的lr模型训练方法及使用方法 |
CN111031546B (zh) * | 2019-11-29 | 2023-09-19 | 武汉烽火众智数字技术有限责任公司 | 一种应用于电话号码分析的lr模型训练方法及使用方法 |
CN111131627A (zh) * | 2019-12-20 | 2020-05-08 | 珠海高凌信息科技股份有限公司 | 基于流数据图谱的个人有害呼叫检测方法、装置及可读介质 |
CN111131627B (zh) * | 2019-12-20 | 2021-12-07 | 珠海高凌信息科技股份有限公司 | 基于流数据图谱的个人有害呼叫检测方法、装置及可读介质 |
CN113596260A (zh) * | 2020-04-30 | 2021-11-02 | 中国移动通信集团广东有限公司 | 异常电话号码检测方法和电子设备 |
CN113596260B (zh) * | 2020-04-30 | 2022-12-16 | 中国移动通信集团广东有限公司 | 异常电话号码检测方法和电子设备 |
CN111783968A (zh) * | 2020-06-30 | 2020-10-16 | 山东信通电子股份有限公司 | 一种基于云边协同的输电线路监测方法及系统 |
CN113206909A (zh) * | 2021-04-30 | 2021-08-03 | 中国银行股份有限公司 | 骚扰电话拦截方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107306306B (zh) | 2020-04-07 |
WO2017186090A1 (zh) | 2017-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107306306A (zh) | 通信号码处理方法及装置 | |
CN109600752B (zh) | 一种深度聚类诈骗检测的方法和装置 | |
CN106550155B (zh) | 对可疑号码进行诈骗样本甄别归类及拦截的方法及系统 | |
CN104301896B (zh) | 诈骗短信智能监控告警系统和方法 | |
CN108924333A (zh) | 诈骗电话识别方法、装置和系统 | |
CN107222865A (zh) | 基于可疑行为识别的通讯诈骗实时检测方法和系统 | |
CN102802133B (zh) | 垃圾信息的识别方法、装置及系统 | |
CN107517463A (zh) | 一种电话号码的识别方法和装置 | |
CN110248322B (zh) | 一种基于诈骗短信的诈骗团伙识别系统及识别方法 | |
CN109214914A (zh) | 一种基于通信开放平台的借贷信息审核方法及装置 | |
CN104410973B (zh) | 一种播放录音的诈骗电话识别方法和系统 | |
CN111222025A (zh) | 一种基于卷积神经网络的诈骗号码识别方法及系统 | |
CN110493476B (zh) | 一种检测方法、装置、服务器及存储介质 | |
CN110598982B (zh) | 基于智能交互的主动风控方法和系统 | |
CN109118779A (zh) | 交通违章信息识别方法、设备及可读存储介质 | |
CN110267272A (zh) | 一种诈骗短信识别方法及识别系统 | |
CN112818316B (zh) | 基于声纹的身份识别及应用方法、装置与设备 | |
CN110381218A (zh) | 一种识别电话诈骗团伙的方法及装置 | |
CN110335135A (zh) | 一种智能催收机器人及智能催收方法 | |
CN110609908A (zh) | 案件串并方法及装置 | |
CN109474755B (zh) | 基于排序学习和集成学习的异常电话主动预测方法、系统及计算机可读存储介质 | |
CN110475033A (zh) | 智能拨号方法、装置、设备与计算机可读存储介质 | |
CN110139288B (zh) | 一种网络通话方法、装置、系统和记录介质 | |
CN112351429B (zh) | 基于深度学习的有害信息检测方法及系统 | |
CN111131627B (zh) | 基于流数据图谱的个人有害呼叫检测方法、装置及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |