CN109905524B - 电话号码识别方法、装置、计算机设备及计算机存储介质 - Google Patents
电话号码识别方法、装置、计算机设备及计算机存储介质 Download PDFInfo
- Publication number
- CN109905524B CN109905524B CN201711307413.4A CN201711307413A CN109905524B CN 109905524 B CN109905524 B CN 109905524B CN 201711307413 A CN201711307413 A CN 201711307413A CN 109905524 B CN109905524 B CN 109905524B
- Authority
- CN
- China
- Prior art keywords
- telephone
- calling
- call
- feature
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开了一种电话号码识别方法、装置、计算机设备及计算机存储介质。电话号码识别方法包括:获取所有第一类主叫号码的电话标识;提取所有电话标识为垃圾电话的第一类主叫号码并组成号码集合;提取号码集合中所有电话号码的第四位至第七位的频谱;根据频谱判断第二类主叫号码为垃圾电话。根据本发明实施例,能够通过构建垃圾电话的号码的频谱,有效且高效地识别垃圾电话的号码特征,进而提升对于垃圾电话判断的速度和准确性。
Description
技术领域
本发明属于数据分析技术领域,尤其涉及一种电话号码识别方法、装置、计算机设备及计算机存储介质。
背景技术
伴随智能手机的普及、垃圾电话、骚扰电话呈井喷趋势,增速明显,正成为继电脑病毒、钓鱼网站之后移动互联网时代用户信息安全威胁,给公众生活带来巨大困扰,给公众的隐私和经济造成了巨大损失。近期多起通讯信息诈骗悲剧不断曝光。垃圾电话、骚扰电话、诈骗电话的危害已经从财产安全扩展到人身安全。目前月均产生86亿次垃圾电话。工信部从政策和法规层面整顿改号软件,屏蔽搜索结果超亿条,删除下载和链接23392条,下架改号软件APP 657个。但垃圾语音和诈骗电话变种越来越多,手段越来越隐蔽,识别和截获越来越难。
据统计,在众多的骚扰电话中,平均每个骚扰电话号码的“寿命”仅为6.61天。而在此期间,每个骚扰电话号码的平均通话次数为328次,每次通话的平均时长为29秒。每个骚扰电话平均骚扰用户竟多达255个,最牛骚扰电话骚扰了1207534个用户。从骚扰电话类型上看,广告推销已经成为手机用户最主要的骚扰类型,占比30.1%。“响一声”电话比例有所下降,仅占比24.3%。诈骗电话、房产中介电话在骚扰电话中的占比有所增加,其中诈骗电话占比达到15.9%。
近年来,出现了众多识别和拦截垃圾电话的方案,其中拦截方案主要体现在垃圾/诈骗电话的提示和阻断方面,而对于垃圾/诈骗电话的甄别,也提出了丰富的解决方案。
如上所述,对于诈骗电话的结构的处理,大多引入了数据处理、提示通知或截断模块,也提出了利用呼叫特征、垃圾电话模型及呼叫趋势等来进行垃圾电话识别。然而在确定特征后,将其进行简单聚类已经无法适应不断变化的垃圾/诈骗电话场景。据众包标识电话,垃圾/诈骗电话种类达到6种之多,且垃圾/诈骗电话的属性并非简单的凸集,并且聚类算法结果并非稳态,导致垃圾/诈骗电话识别结果存在一定的不确定性,同时对于自学习方案来说,也缺乏具体的算法和流程。
发明内容
本发明实施例提供一种电话号码识别方法、装置、计算机设备及计算机存储介质,能够通过构建垃圾电话的号码的频谱,有效且高效地识别垃圾电话的号码特征,进而提升对于垃圾电话判断的速度和准确性。
一方面,本发明实施例提供一种电话号码识别方法,包括:获取所有第一类主叫号码的电话标识;提取所有电话标识为垃圾电话的第一类主叫号码并组成号码集合;提取号码集合中所有电话号码的第四位至第七位的频谱;根据频谱判断第二类主叫号码为垃圾电话。
根据本发明上述的电话号码识别方法,还可以具有以下技术特征:
在上述技术方案中,优选地,提取号码集合中所有电话号码的第四位至第七位的频谱,具体包括:分别统计号码集合中所有电话号码的第四位、第五位、第六位、第七位上各个数字的频率,并将各位上频率大于第一预设频率的数字记为第一号码特征;统计号码集合中所有电话号码的第四位至第七位的数字组合的频率,并将频率大于第二预设频率的数字组合记为第二号码特征;根据频率判断第二类主叫号码为垃圾电话,具体包括:判断第二类主叫号码是否符合第一号码特征和/或第二号码特征;若第二类主叫号码符合第一号码特征和/或第二号码特征,则判断第二类主叫号码为垃圾电话。
在上述任一技术方案中,优选地,还包括:提取号码集合中每个电话号码在预设时间段内作为主叫的通话记录中的时间特征和空间特征;根据时间特征和空间特征分别构建号码集合中每个电话号码的特征点和特征向量;根据特征点和特征向量构建特征平面,特征平面的两侧分别为垃圾电话侧和非垃圾电话侧;提取与特征平面距离小于第一预设距离的特征点所对应的电话号码的特征向量,并记作垃圾电话特征向量;根据特征平面和垃圾电话特征向量判断第二类主叫号码为垃圾电话。
在上述任一技术方案中,优选地,根据特征平面和垃圾电话特征向量判断第二类主叫号码为垃圾电话,具体包括:构建第二类主叫号码的特征点;判断第二类主叫号码的特征点与特征平面之间的距离是否大于第二预设距离且位于垃圾电话侧;若第二类主叫号码的特征点与特征平面之间的距离大于第二预设距离且位于垃圾电话侧,则判断第二类主叫号码为垃圾电话。
在上述任一技术方案中,优选地,时间特征包括以下一种或其组合:振铃时长、通话时长、通话频率、通话时间点分布、预设时间段内的平均呼叫频度和预设时间段内的通话时长。
在上述任一技术方案中,优选地,空间特征包括以下一种或其组合:第一类主叫号码的归属地、第一类主叫号码的主叫发起地区、通话记录中被叫号码的归属地、第一类主叫号码的归属地与第一类主叫号码的主叫发起地区的距离、第一类主叫号码的主叫发起地区与通话记录中被叫号码的归属地的距离。
在上述任一技术方案中,优选地,还包括:将判断为垃圾电话的第二类主叫号码添加至号码集合中。
另一方面,本发明实施例提供了一种电话号码识别装置,包括:获取单元,用于获取所有第一类主叫号码的电话标识;处理单元,用于提取所有电话标识为垃圾电话的第一类主叫号码并组成号码集合;处理单元还用于提取号码集合中所有电话号码的第四位至第七位的频谱;判断单元,用于根据频谱判断第二类主叫号码为垃圾电话。
再一方面,本发明实施例提供了一种计算机设备,包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如上述任一技术方案中的电话号码识别方法。
再一方面,本发明实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如上述任一技术方案中的电话号码识别方法。
本发明实施例的电话号码识别方法、装置、计算机设备及计算机存储介质,首先构建了一种稳定的算法和流程,通过提取电话号码的第四位至第七位的频谱,初步判断出电话号码是否属于垃圾电话;另外还通过电话号码的时间特征和空间特征构建特征点、特征向量和特征平面,进而进一步地判断出电话号码是否属于垃圾电话,提升对于垃圾电话识别的速度和准确性。其中,具体地,通过判断主叫号码的特征点与特征平面之间的距离及相对位置,可以判断出该号码是否属于垃圾电话,由此提升对于垃圾电话识别的准确性;另外,还通过将已经判断为垃圾电话的电话号码添加至已有的垃圾号码的号码集合中,进一步地学习垃圾电话的特征并提升算法的自学习能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的电话号码识别方法的流程示意图;
图2是本发明另一个实施例提供的电话号码识别方法的流程示意图;
图3是本发明再一个实施例提供的电话号码识别方法的流程示意图;
图4是图3所示的实施例中S2的具体步骤的流程示意图;
图5是图3所示的实施例中S3的具体步骤的流程示意图;
图6是图3所示的实施例中S5的具体步骤的流程示意图;
图7是图3所示的实施例中S6的具体步骤的流程示意图;
图8是本发明一个实施例提供的电话号码识别装置的结构示意图;
图9是本发明一个实施例提供的计算机设备的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了解决现有技术问题,本发明实施例提供了一种电话号码识别方法、装置、计算机设备及计算机存储介质。下面首先对本发明实施例所提供的电话号码识别方法进行介绍。
图1示出了本发明一个实施例提供的电话号码识别方法的流程示意图。如图1所示,包括以下步骤:
步骤S102,获取所有第一类主叫号码的电话标识;
步骤S104提取所有电话标识为垃圾电话的第一类主叫号码并组成号码集合;
步骤S106,提取号码集合中所有电话号码的第四位至第七位的频谱;
步骤S108,根据频谱判断第二类主叫号码为垃圾电话。
本发明提供的电话号码识别方法,构建了一种稳定的算法和流程,通过提取电话号码的第四位至第七位的频谱,判断出电话号码是否属于垃圾电话。其中,一般地,一个电话号码的第四位至第七位反映出了这个电话号码的特征,比如归属地、套餐等信息,通过对于垃圾电话的号码集合中的号码的第四位至第七位号码的分析和学习,能够快速判断出新号码是否属于垃圾电话,提升对于垃圾电话判断的速度和准确性。
具体地,在图1所示的实施例中,提取号码集合中所有电话号码的第四位至第七位的频谱,具体包括以下步骤:
(1)分别统计号码集合中所有电话号码的第四位、第五位、第六位、第七位上各个数字的频率,并将各位上频率大于第一预设频率的数字记为第一号码特征;
(2)统计号码集合中所有电话号码的第四位至第七位的数字组合的频率,并将频率大于第二预设频率的数字组合记为第二号码特征;
根据频率判断第二类主叫号码为垃圾电话,具体包括以下步骤:
(1)判断第二类主叫号码是否符合第一号码特征和/或第二号码特征;
(2)若第二类主叫号码符合第一号码特征和/或第二号码特征,则判断第二类主叫号码为垃圾电话。
在该实施例中,分别统计号码集合中所有电话号码的第四位、第五位、第六位、第七位上各个数字的频率以及第四位至第七位的数字组合的频率,将出现频率较大的各个位上的数字和第四位至第七位的数字组合分别记作第一号码特征和第二号码特征。之后可通过判断新号码是否符合第一号码特征或第二号码特征,进而判断出新号码是否属于垃圾电话,这样的判断方式具有较高的准确性,同时判断速度较快,有利实现对于垃圾电话的快速判断。
图2示出了本发明另一个实施例提供的电话号码识别方法的流程示意图。如图2所示,包括以下步骤:
步骤S202,获取所有第一类主叫号码的电话标识;
步骤S204,提取所有电话标识为垃圾电话的第一类主叫号码并组成号码集合;
步骤S206,提取号码集合中所有电话号码的第四位至第七位的频谱;
步骤S208,根据频谱判断第二类主叫号码为垃圾电话;
步骤S210,提取号码集合中每个电话号码在预设时间段内作为主叫的通话记录中的时间特征和空间特征;
步骤S212,根据时间特征和空间特征分别构建号码集合中每个电话号码的特征点和特征向量;
步骤S214,根据特征点和特征向量构建特征平面,特征平面的两侧分别为垃圾电话侧和非垃圾电话侧;
步骤S216,提取与特征平面距离小于第一预设距离的特征点所对应的电话号码的特征向量,并记作垃圾电话特征向量;
步骤S218,根据特征平面和垃圾电话特征向量判断第二类主叫号码为垃圾电话。
在该实施例中,还通过提取电话号码的时间特征和空间特征并构建特征点、特征向量和特征平面以及垃圾电话的特征向量,进而通过特征平面和垃圾电话特征向量判断第二类主叫号码(新号码)是否为垃圾电话,通过上述方式能够更加准确地判断出电话号码是否为垃圾电话,同时上述的构建和训练方法并非盲目地自学习,而是能够实现根据号码的行为特征和号码本身的特征实现对于垃圾电话的判断,分析学习的对象也可以是非固定的号码库,这样有利于克服号码改号对于垃圾电话识别的影响。
具体地,在图2所示的实施例中,根据特征平面和垃圾电话特征向量判断第二类主叫号码为垃圾电话,具体包括以下步骤:
(1)构建第二类主叫号码的特征点;
(2)判断第二类主叫号码的特征点与特征平面之间的距离是否大于第二预设距离且位于垃圾电话侧;
(3)若第二类主叫号码的特征点与特征平面之间的距离大于第二预设距离且位于垃圾电话侧,则判断第二类主叫号码为垃圾电话。
在该实施例中,构建出的特征平面的两侧分别为垃圾电话侧和非垃圾电话侧,通过构建第一类主叫号码的特征点的方式构建第二类主叫号码的特征点,通过判断第二类主叫号码的特征点与特征平面之间的相对位置和相对距离,进而判断出第二类主叫号码(新号码)是否为垃圾电话,由此通过构建特征点、特征向量和特征平面的方式实现对于新号码的判断,进一步地提升对于垃圾电话判断的准确性。
其中,在图2所示的实施例中,时间特征包括以下一种或其组合:振铃时长、通话时长、通话频率、通话时间点分布、预设时间段内的平均呼叫频度和预设时间段内的通话时长;空间特征包括以下一种或其组合:第一类主叫号码的归属地、第一类主叫号码的主叫发起地区、通话记录中被叫号码的归属地、第一类主叫号码的归属地与第一类主叫号码的主叫发起地区的距离、第一类主叫号码的主叫发起地区与通话记录中被叫号码的归属地的距离。
上述的时间特征和空间特征可以统称为时空特征,时间特征主要能够体现电话号码的通话时间特征,通过振铃时长、通话时长、通话频率、通话时间点分布和预设时间段内的平均呼叫频度和预设时间段内的通话时长反映其主叫电话的时间特点,进而便于后续通过时间特征构建特征点和特征向量;空间特征则主要能够体现电话号码发起主叫时的地点特征,通过第一类主叫号码的归属地、第一类主叫号码的主叫发起地区、通话记录中被叫号码的归属地、第一类主叫号码的归属地与第一类主叫号码的主叫发起地区的距离,以及第一类主叫号码的主叫发起地区与通话记录中被叫号码的归属地的距离反映呼出电话时该号码的空间特点,进而便于后续通过空间特征构建特征点和特征向量。其中,可以首先将时间特征和空间特征中的数据向量转化为多维向量,再通过多维向量构建特征点和特征平面。
在本发明的一个实施例中,电话号码识别方法的步骤还包括:将判断为垃圾电话的第二类主叫号码添加至号码集合中。
在该实施例中,将已经被判断为垃圾电话的电话号码添加到号码集合中,由此增加号码集合中的垃圾电话的数量和特征,进而也能够修正由原号码集合中的电话号码所构建的频谱、特征点、特征向量和特征平面等判断特征,使得识别过程具有了自学习过程,并进一步提升判断的准确性。
图3示出了本发明再一个实施例提供的电话号码识别方法的流程示意图。如图3所示,包括以下步骤:
步骤S1,以某用户号码为索引将其作为主叫的当月所有通话记录合并为一个集合,具体地,可以以月为单位,以主叫号码为索引,将属于同一主叫的通话记录进行合并形成记录集Ri;
步骤S2,提取通话记录中隐含的时间特征,包括通话时长、通话频度、通话时间点分布、忙闲小时和日特征等;
步骤S3,提取通话记录中隐含的地域特征,包括主叫漫游距离、主要地域分布、主被叫地域距离差;
步骤S4,获取该用户号码在众包平台上获取的电话标识分类;
步骤S5,基于电话标识分类和用户时空特征,应用监督学习方法训练特征向量和特征平面;
步骤S6,对确定为垃圾/诈骗电话的主叫用户,提取所有用户中间4位的号码频谱;
步骤S7,对于新主叫号码(以下简称新号码),基于号码频谱确定疑似垃圾/诈骗电话,具体地,若新号码的通话记录主叫不存在,则根据步骤S6确定的概率特征,判断其作为垃圾电话的疑似概率,若疑似概率高则进入步骤S8,否则停止判断,若主叫存在,但众包平台上未识别是否为垃圾电话,则进入步骤S8,判断其是否为垃圾电话;
步骤S8,对疑似号码按照步骤S2、S3提取其时空特征,与步骤S5形成的特征向量和特征平面进行比较匹配,以确定是否为垃圾/诈骗电话,具体地,计算新号码的时空特征与特征平面之间的距离,若距离较大且位于特征平面的垃圾电话侧,则将其判断为垃圾电话停止,否则为非垃圾电话。
在该实施例中,首先通过提取通话记录中的时间特征和空间特征,并获取该用户号码在众包平台上获取的电话标识分类,了解到该号码是否已经被标记为垃圾电话,若已经被标记为垃圾电话,则可以根据时间特征和空间特征训练得到特征向量,以用于判断其他电话号码是否可能是垃圾电话;另外,还可以提取已经被标记为垃圾电话的所有号码的中间4位的号码频谱,并通过频谱确定垃圾电话,由此实现对于号码的判断;之后,若想要提升对于号码判断的准确性,还可以通过将新号码通过步骤S2和步骤S3提取其时空特征,并将得到的新号码的时空特征与记录集Ri所形成的特征向量和特征平面做比较,进而进一步地判断该新号码是否属于垃圾电话。
具体地,如图4所示,步骤S2中包括以下步骤:
步骤S2-1,提取振铃时长特征,包括振铃时长均值和方差,具体地,从Ri提取振铃时长特征,具体包括振铃时长的平均值RRiavg及方差RRierr;计算公式包括:
其中的RRik表示第k个振铃时长,N表示振铃的总次数,i表示第i个主叫号码。
步骤S2-2,提取通话时长特征,包括通话时长均值和方差,具体地,从Ri提取通话时长特征,具体包括通话时长的平均值RCiavg及方差RCierr;
步骤S2-3,提取通话频率,包括5、10、30、60分钟的平均通话频率和方差,具体地,从Ri提取通话频率特征,具体包括5分钟、10分钟、30分钟和1小时平均通话频率及方差,分别为RF5iavg、RF5ierr;RF10iavg、RF10ierr;RF30iavg、RF30ierr;RF60iavg、RF60ierr。
步骤S2-4,获取通话时间点分布,获取忙闲时5小时的平均通话频率及方差,具体地,从Ri提取通话时间点分布,具体包括忙时5小时的平均呼叫频度、通话时长和闲时5小时的平均呼叫频度、通话时长,分别记作RF0i、RF1i、RF2i、RF3i、RF4i、RF5i、RF6i、RF7i、RF8i、RF9i;RC0i、RC1i、RC2i、RC3i、RC4i、RC5i、RC6i、RC7i、RC8i、RC9i,其中的RF为频度,RC为时长,每个数据中分别统计了一个小时的时长的数据,下角标中0i至4i为忙时5小时的数据,5i至9i为闲时5小时的数据。
步骤S2-5,以日为颗粒度,获取平均呼叫频率和通话时长,具体地,从Ri提取以日为颗粒度的平均呼叫频度和通话时长,分别记作RFDi、RCDi。
在步骤S2的具体步骤中,分别统计了包括振铃时长和方差、通话时长和方差、通话频率和方差、通话时间点分布以及平均呼叫频度和通话时长等数据,以便于后续进行维度变换得到特征点、特征向量和特征平面。
具体地,如图5所示,步骤S3中包括以下步骤:
步骤S3-1,获取主叫号码归属地地区及通话发起地区,具体地,根据主叫电话号码,获取其归属地Ai,同时根据通话记录获取通话发起的地区Aij;
步骤S3-2,提取通话发起地区的漫游场景,确定主叫漫游距离,具体地,若Ai与Aij处于同一城市,则主叫的漫游距离记为0;若Ai与Aij处于同省,但非同一城市,主叫的漫游距离记为1;若Ai与Aij处于不同省,主叫的漫游距离记为2;若Aij处于国外,主叫的漫游距离记为3;
步骤S3-3,对S3-2中的漫游距离进行均值加1取整,作为区域特征,具体地,根据S3-2所述的漫游距离,计算主叫所有通话记录的平均漫游距离,并对其平均距离进行加1取整,将平均距离Davgi作为其空间特征;
步骤S3-4,基于S3-3的算法,计算主被叫的距离均值,作为区域特征,具体地,提取主被叫之间的距离,计算主叫通话发起的地区Aij与被叫号码归属地地区A’ij之间的距离,计算的规则类似步骤3-3,以主被叫距离的均值D’avgi也作为其空间特征;
步骤S3-5,对垃圾/诈骗电话的归属地数量进行倒序排列,序号为距离评分,具体地,对已确定的垃圾/诈骗电话的归属地数量进行倒序排列,以序号作为垃圾/诈骗电话归属地的距离分数,例如若归属地为北京的垃圾电话最多,则北京的序号为1,若归属地为上海的垃圾电话数量排名第二,则上海的序号为2,以此类推;
步骤S3-6,根据S3-5确定主叫发起区域的评分,并取其均值,具体地,主叫通话发起的地区Aij与步骤S3-5确定的地区进行比较,其需要作为主叫的嫌疑距离,若主叫发起地区不唯一,则取其平均值Davgi0;
在步骤S3的具体步骤中,分别统计了包括号码的归属地、号码的主叫发起地区、通话记录中被叫号码的归属地、号码的归属地与号码的主叫发起地区的距离、号码的主叫发起地区与通话记录中被叫号码的归属地的距离等数据,以便于后续进行维度变换得到特征点、特征向量和特征平面。
具体地,步骤S4中包括:通过第三方平台获取用户众包的分类标识,具体包括诈骗电话、骚扰电话、推销电话、响一声电话、疑似诈骗电话、其他电话和快递外卖电话等,记作Ci,本实施例中的垃圾电话可以包括上述的各种不受欢迎的电话类型,垃圾电话仅仅是用于本实施例中解释说明的一个类型,仅仅相当于一个统称,具体判断何种电话类型,可以根据实际情况自行选择。
具体地,如图6所示,步骤S5中包括以下步骤:
步骤S5-1,构建时空特征描述集合,具体地,根据步骤S2和S3的时空特征构建主叫的特征向量,其中第i个用户的具体描述向量表述为(RRiavg,RRierr,RCiavg,RCierr,RF5iavg,RF5ierr,RF10iavg,RF10ierr,RF30iavg,RF30ierr,RF60iavg,RF60ierr,RF0i,RF1i……,RF8i,RF9i,RC0i,RC1i……RC8i,RC9i,RFDi,RCDi,Davgi,D’avgi,Davgi0);
步骤S5-2,对特征描述集合向量进行维度变换,具体地,通过以下公式进行维度变换:
以将上述向量转换为(xi,yi,zi,pi,Davgi,D’avgi,Davgi0)等7维向量(相当于特征点);
步骤S5-3,根据分类结果进行样本归并,具体地,根据步骤S4确定的分类,将步骤S5-2的样本分别归入诈骗电话分类C0和非诈骗电话分类C1;
步骤S5-4,确定垃圾电话分类分割的曲平面,具体地,可以假设存在曲平面:
步骤S5-5,获取垃圾电话分类的特征向量,具体地,搜索与Curv距离最近的n个样本点(不同的主叫号码),这n个样本点即分类特征向量;
在步骤S5的具体步骤中,通过相关的公式实现了维度变换和构建特征曲平面和特征向量,以便于后续通过特征向量和特征平面确定新号码是否为垃圾电话。
具体地,如图7所示,步骤S6中包括以下步骤:
步骤S6-1,抽取垃圾电话号码的唯一值形成集合,即相当于提取了所有的垃圾号码;
步骤S6-2,若为电话号码,统计唯一号码中的第4、5、6、7位号码中各数字出现的直方图,具体地,分别获取第4、5、6、7位的号码概率分布直方图,并对其进行排序;
步骤S6-3,若为手机号码,统计唯一号码中4-7位字符出现的直方图,具体地,以4-7位的全部字符为索引,获取相应的概率分布;
步骤S6-4,将概率(频率)高的直方图确定为垃圾电话的号码特征,具体地,对概率较高的全部字符和各位字符确定为垃圾电话的号码特征。
在步骤S6的具体步骤中,通过统计各个电话号码在4-7位上的数字的频率,得到垃圾电话号码的号码特征,进而通过该号码特征判断新的电话号码是否为垃圾电话。
在图3所示出的完整的技术方案中,首先构建了垃圾电话的特征向量和特征平面,之后统计垃圾电话的4-7位的数字特征,通过上述两种方式均可以判断电话号码是否属于垃圾电话,通过结合各种通话特征和号码自身的特征进行训练并实现自学习,同时能够针对行为特征和号码的变化特征以及非固定号码库的数据进行识别,克服改号对于垃圾电话识别的影响,提升识别的速度和准确性。
图8示出了本发明一个实施例提供的电话号码识别装置的结构示意图。
其中,电话号码识别装置8包括:
获取单元802,用于获取所有第一类主叫号码的电话标识;
处理单元804,用于提取所有电话标识为垃圾电话的第一类主叫号码并组成号码集合;
处理单元804还用于提取号码集合中所有电话号码的第四位至第七位的频谱;
判断单元806,用于根据频谱判断第二类主叫号码为垃圾电话。
本发明提供的电话号码识别装置8,构建了一种稳定的算法和流程,通过提取电话号码的第四位至第七位的频谱,判断出电话号码是否属于垃圾电话。其中,一般地,一个电话号码的第四位至第七位反映出了这个电话号码的特征,比如归属地、套餐等信息,通过对于垃圾电话的号码集合中的号码的第四位至第七位号码的分析和学习,能够快速判断出新号码是否属于垃圾电话,提升对于垃圾电话判断的速度和准确性。
在本发明的一个实施例中,优选地,处理单元804具体用于分别统计号码集合中所有电话号码的第四位、第五位、第六位、第七位上各个数字的频率,并将各位上频率大于第一预设频率的数字记为第一号码特征;处理单元804具体还用于统计号码集合中所有电话号码的第四位至第七位的数字组合的频率,并将频率大于第二预设频率的数字组合记为第二号码特征;判断单元806具体用于判断第二类主叫号码是否符合第一号码特征和/或第二号码特征,若第二类主叫号码符合第一号码特征和/或第二号码特征,则判断第二类主叫号码为垃圾电话。
在本发明的一个实施例中,优选地,获取单元802还用于提取号码集合中每个电话号码在预设时间段内作为主叫的通话记录中的时间特征和空间特征;处理单元804还用于根据时间特征和空间特征分别构建号码集合中每个电话号码的特征点和特征向量;处理单元804还用于根据特征点和特征向量构建特征平面,特征平面的两侧分别为垃圾电话侧和非垃圾电话侧;处理单元804还用于提取与特征平面距离小于第一预设距离的特征点所对应的电话号码的特征向量,并记作垃圾电话特征向量;判断单元806还用于根据特征平面和垃圾电话特征向量判断第二类主叫号码为垃圾电话。
在本发明的一个实施例中,优选地,处理单元804具体用于构建第二类主叫号码的特征点;判断单元806具体用于判断第二类主叫号码的特征点与特征平面之间的距离是否大于第二预设距离且位于垃圾电话侧,若第二类主叫号码的特征点与特征平面之间的距离大于第二预设距离且位于垃圾电话侧,则判断第二类主叫号码为垃圾电话。
在本发明的一个实施例中,优选地,时间特征包括以下一种或其组合:振铃时长、通话时长、通话频率、通话时间点分布、预设时间段内的平均呼叫频度和预设时间段内的通话时长。
在本发明的一个实施例中,优选地,空间特征包括以下一种或其组合:第一类主叫号码的归属地、第一类主叫号码的主叫发起地区、通话记录中被叫号码的归属地、第一类主叫号码的归属地与第一类主叫号码的主叫发起地区的距离、第一类主叫号码的主叫发起地区与通话记录中被叫号码的归属地的距离。
在本发明的一个实施例中,优选地,处理单元804还用于将判断为垃圾电话的第二类主叫号码添加至号码集合中。
图9示出了本发明实施例提供的计算机设备的硬件结构示意图。
计算机设备可以包括处理器901以及存储有计算机程序指令的存储器902。
具体地,上述处理器901可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器902可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器902可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器902可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器902可在综合网关容灾设备的内部或外部。在特定实施例中,存储器902是非易失性固态存储器。在特定实施例中,存储器902包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器901通过读取并执行存储器902中存储的计算机程序指令,以实现上述实施例中的任意一种电话号码识别方法。
在一个示例中,计算机设备还可包括通信接口903和总线910。其中,如图9所示,处理器901、存储器902、通信接口903通过总线910连接并完成相互间的通信。
通信接口903,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线910包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线910可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该计算机设备可以基于已有的电话号码的通话记录和电话标识执行本发明实施例中的电话号码识别方法,从而实现结合图1至图8描述的电话号码识别方法和装置。
另外,结合上述实施例中的电话号码识别方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种电话号码识别方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种电话号码识别方法,其特征在于,包括:
获取所有第一类主叫号码的电话标识;
提取所有所述电话标识为垃圾电话的所述第一类主叫号码并组成号码集合;
提取所述号码集合中所有电话号码的第四位至第七位的频谱;所述频谱包括第一号码特征和第二号码特征;
根据所述频谱判断第二类主叫号码为垃圾电话;
其中,所述提取所述号码集合中所有电话号码的第四位至第七位的频谱,包括:
分别统计所述号码集合中所有电话号码的第四位、第五位、第六位、第七位上各个数字的频率,并将各位上频率大于第一预设频率的数字记为所述第一号码特征;
统计所述号码集合中所有电话号码的第四位至第七位的数字组合的频率,并将频率大于第二预设频率的所述数字组合记为所述第二号码特征;
所述根据所述频谱判断第二类主叫号码为垃圾电话,包括:
判断所述第二类主叫号码是否符合所述第一号码特征和/或所述第二号码特征;
若所述第二类主叫号码符合所述第一号码特征和/或所述第二号码特征,则判断所述第二类主叫号码为垃圾电话。
2.根据权利要求1所述的电话号码识别方法,其特征在于,还包括:
提取所述号码集合中每个电话号码在预设时间段内作为主叫的通话记录中的时间特征和空间特征;
根据所述时间特征和所述空间特征分别构建所述号码集合中每个电话号码的特征点和特征向量,所述特征点为特征向量在特征空间中相关联的点;
根据所述特征点和所述特征向量构建特征平面,所述特征平面的两侧分别为垃圾电话侧和非垃圾电话侧;
提取与所述特征平面距离小于第一预设距离的所述特征点所对应的电话号码的特征向量,并记作垃圾电话特征向量;
根据所述特征平面和所述垃圾电话特征向量判断所述第二类主叫号码为垃圾电话。
3.根据权利要求2所述的电话号码识别方法,其特征在于,所述根据所述特征平面和所述垃圾电话特征向量判断所述第二类主叫号码为垃圾电话,具体包括:
构建所述第二类主叫号码的特征点;
判断所述第二类主叫号码的特征点与所述特征平面之间的距离是否大于第二预设距离且位于所述垃圾电话侧;
若所述第二类主叫号码的特征点与所述特征平面之间的距离大于第二预设距离且位于所述垃圾电话侧,则判断所述第二类主叫号码为垃圾电话。
4.根据权利要求2或3所述的电话号码识别方法,其特征在于,
所述时间特征包括以下一种或其组合:振铃时长、通话时长、通话频率、通话时间点分布、所述预设时间段内的平均呼叫频度和所述预设时间段内的通话时长。
5.根据权利要求2或3所述的电话号码识别方法,其特征在于,
所述空间特征包括以下一种或其组合:所述第一类主叫号码的归属地、所述第一类主叫号码的主叫发起地区、所述通话记录中被叫号码的归属地、所述第一类主叫号码的归属地与所述第一类主叫号码的主叫发起地区的距离、所述第一类主叫号码的主叫发起地区与所述通话记录中被叫号码的归属地的距离。
6.根据权利要求1至3中任一项所述的电话号码识别方法,其特征在于,还包括:
将判断为垃圾电话的所述第二类主叫号码添加至所述号码集合中。
7.一种电话号码识别装置,其特征在于,包括:
获取单元,用于获取所有第一类主叫号码的电话标识;
处理单元,用于提取所有所述电话标识为垃圾电话的所述第一类主叫号码并组成号码集合;
所述处理单元还用于提取所述号码集合中所有电话号码的第四位至第七位的频谱;所述频谱包括第一号码特征和第二号码特征;
判断单元,用于根据所述频谱判断第二类主叫号码为垃圾电话
其中,所述处理单元还用于:
分别统计所述号码集合中所有电话号码的第四位、第五位、第六位、第七位上各个数字的频率,并将各位上频率大于第一预设频率的数字记为所述第一号码特征;
统计所述号码集合中所有电话号码的第四位至第七位的数字组合的频率,并将频率大于第二预设频率的所述数字组合记为所述第二号码特征;
所述判断单元,还用于:
判断所述第二类主叫号码是否符合所述第一号码特征和/或所述第二号码特征;
若所述第二类主叫号码符合所述第一号码特征和/或所述第二号码特征,则判断所述第二类主叫号码为垃圾电话。
8.一种计算机设备,其特征在于,包括:
处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1至6任意一项所述的电话号码识别方法。
9.一种计算机存储介质,其特征在于,
所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1至6任意一项所述的电话号码识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711307413.4A CN109905524B (zh) | 2017-12-11 | 2017-12-11 | 电话号码识别方法、装置、计算机设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711307413.4A CN109905524B (zh) | 2017-12-11 | 2017-12-11 | 电话号码识别方法、装置、计算机设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109905524A CN109905524A (zh) | 2019-06-18 |
CN109905524B true CN109905524B (zh) | 2020-11-20 |
Family
ID=66942206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711307413.4A Active CN109905524B (zh) | 2017-12-11 | 2017-12-11 | 电话号码识别方法、装置、计算机设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109905524B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110636164B (zh) * | 2019-09-10 | 2022-07-22 | 广东小天才科技有限公司 | 陌生号码匹配方法、装置、设备及存储介质 |
US11330101B2 (en) * | 2020-05-21 | 2022-05-10 | Micron Technology, Inc. | Managing spoofed calls to mobile devices |
CN111709472B (zh) * | 2020-06-15 | 2022-09-23 | 国家计算机网络与信息安全管理中心 | 一种动态融合规则到诈骗行为识别模型的方法 |
CN111756910A (zh) * | 2020-06-23 | 2020-10-09 | 中国联合网络通信集团有限公司 | 来电免打扰方法、系统、计算机设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61258553A (ja) * | 1985-05-13 | 1986-11-15 | Ricoh Co Ltd | 周波数信号発生装置 |
US7110530B2 (en) * | 2002-02-01 | 2006-09-19 | Iosif Meynekhdrun | System and method for providing universal access to voice response systems |
CN101227685A (zh) * | 2008-01-25 | 2008-07-23 | 深圳凯虹移动通信有限公司 | 一种移动终端的号码归属地获取方法及装置 |
CN101252557A (zh) * | 2007-02-22 | 2008-08-27 | Lg电子株式会社 | 接收广播信号的方法和接收广播信号的装置 |
CN101437255A (zh) * | 2007-11-16 | 2009-05-20 | 中国移动通信集团福建有限公司 | 移动通信基站偷盗嫌疑人手机号码筛选与锁定方法 |
CN102088671A (zh) * | 2009-12-03 | 2011-06-08 | 成都康特电子高新科技公司 | 监控彩信内容的网络终端装置 |
CN102316458A (zh) * | 2011-09-15 | 2012-01-11 | 秦政 | 一种可疑垃圾短信判别的方法 |
CN104967750A (zh) * | 2015-07-30 | 2015-10-07 | 广东欧珀移动通信有限公司 | 筛选通话记录中陌生呼叫号码的方法及移动终端 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050216268A1 (en) * | 2004-03-29 | 2005-09-29 | Plantronics, Inc., A Delaware Corporation | Speech to DTMF conversion |
-
2017
- 2017-12-11 CN CN201711307413.4A patent/CN109905524B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61258553A (ja) * | 1985-05-13 | 1986-11-15 | Ricoh Co Ltd | 周波数信号発生装置 |
US7110530B2 (en) * | 2002-02-01 | 2006-09-19 | Iosif Meynekhdrun | System and method for providing universal access to voice response systems |
CN101252557A (zh) * | 2007-02-22 | 2008-08-27 | Lg电子株式会社 | 接收广播信号的方法和接收广播信号的装置 |
CN101437255A (zh) * | 2007-11-16 | 2009-05-20 | 中国移动通信集团福建有限公司 | 移动通信基站偷盗嫌疑人手机号码筛选与锁定方法 |
CN101227685A (zh) * | 2008-01-25 | 2008-07-23 | 深圳凯虹移动通信有限公司 | 一种移动终端的号码归属地获取方法及装置 |
CN102088671A (zh) * | 2009-12-03 | 2011-06-08 | 成都康特电子高新科技公司 | 监控彩信内容的网络终端装置 |
CN102316458A (zh) * | 2011-09-15 | 2012-01-11 | 秦政 | 一种可疑垃圾短信判别的方法 |
CN104967750A (zh) * | 2015-07-30 | 2015-10-07 | 广东欧珀移动通信有限公司 | 筛选通话记录中陌生呼叫号码的方法及移动终端 |
Also Published As
Publication number | Publication date |
---|---|
CN109905524A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109905524B (zh) | 电话号码识别方法、装置、计算机设备及计算机存储介质 | |
CN109284380B (zh) | 基于大数据分析的非法用户识别方法及装置、电子设备 | |
CN106778876B (zh) | 基于移动用户轨迹相似性的用户分类方法和系统 | |
CN109451182B (zh) | 一种诈骗电话的检测方法和装置 | |
US9130778B2 (en) | Systems and methods for spam detection using frequency spectra of character strings | |
WO2017186090A1 (zh) | 通信号码处理方法及装置 | |
Papadopoulos et al. | A novel graph-based descriptor for the detection of billing-related anomalies in cellular mobile networks | |
CN107092651B (zh) | 一种基于通信网络数据分析的关键人物挖掘方法及系统 | |
US20230209351A1 (en) | Assessing risk of fraud associated with user unique identifier using telecommunications data | |
CN108810290B (zh) | 一种诈骗电话的识别的方法及系统 | |
US11870932B2 (en) | Systems and methods of gateway detection in a telephone network | |
CN111224984B (zh) | 一种基于数据挖掘算法的Snort改进方法 | |
CN112954626A (zh) | 手机信令数据分析方法、装置、电子设备及存储介质 | |
CN109981389A (zh) | 手机号码识别方法、装置、设备及介质 | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
CN110324418B (zh) | 基于用户关系推送业务的方法和装置 | |
CN113554049A (zh) | 异网宽带用户识别的方法、装置、设备及存储介质 | |
CN111148185A (zh) | 建立用户关系的方法及装置 | |
CN108810289B (zh) | 一种互联网标注取消方法及装置 | |
CN111582722A (zh) | 风险识别方法、装置、电子设备及可读存储介质 | |
CN111245815A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111930808B (zh) | 一种利用键值匹配模型提高黑名单准确率的方法及系统 | |
CN109873908B (zh) | 垃圾电话标识识别方法、装置、计算机设备及存储介质 | |
CN112751813A (zh) | 一种网络入侵检测方法及装置 | |
CN114866433B (zh) | 用户业务感知评估方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |