CN104023109B - 来电提示方法和装置及分类方法和装置 - Google Patents

来电提示方法和装置及分类方法和装置 Download PDF

Info

Publication number
CN104023109B
CN104023109B CN201410301320.0A CN201410301320A CN104023109B CN 104023109 B CN104023109 B CN 104023109B CN 201410301320 A CN201410301320 A CN 201410301320A CN 104023109 B CN104023109 B CN 104023109B
Authority
CN
China
Prior art keywords
classification
incoming call
training sample
characteristic attribute
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410301320.0A
Other languages
English (en)
Other versions
CN104023109A (zh
Inventor
杨文峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nubia Technology Co Ltd
Original Assignee
Nubia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nubia Technology Co Ltd filed Critical Nubia Technology Co Ltd
Priority to CN201410301320.0A priority Critical patent/CN104023109B/zh
Publication of CN104023109A publication Critical patent/CN104023109A/zh
Application granted granted Critical
Publication of CN104023109B publication Critical patent/CN104023109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种来电提示方法和装置及分类方法和装置,所述来电提示方法包括:采集来电的特征属性,根据来电的特征属性归属分类数据库的类别,进行来电提示。由于分类数据库根据训练样本集和用户通信数据的更新而动态的更新和完善,因此针对不同的用户具有不同的分类结果,符合用户的使用习惯和人脉关系,具有分类质量高、分类速度快、误判率低的特点。

Description

来电提示方法和装置及分类方法和装置
技术领域
本发明涉及通信技术领域,尤其是涉及一种来电提示方法和装置及分类方法和装置。
背景技术
随着手机的普及,人与人之间的联系和沟通越来越方便,与此同时,广告、诈骗等骚扰电话也越来越多,对人们的生活造成了极大的困扰。传统的防止骚扰电话的方法是在手机上设置电话黑白名单,预先将骚扰电话存入电话黑名单中,或用户接通电话后发现是骚扰电话时将其标记为骚扰电话。当接到电话黑名单中的号码时,手机则自动屏蔽该号码。然而,通过电话黑白名单判断骚扰电话是一个静态的过程,对于不在黑白名单中的陌生电话则不能作出判别或判别的准确率极低。
现有技术中,还有一种防止骚扰电话的方法,通过对来电号码的呼叫时间区间、呼叫持续的时间长度、以及呼入次数的统计,识别出骚扰电话。虽然这种方法实现了对不在黑百名单中的陌生电话的识别,但仅通过来电号码的历史通信记录来判断是否为骚扰电话,判别的准确率较低,容易造成误判。
发明内容
本发明的主要目的在于提供一种来电提示方法和装置,旨在提高判别骚扰电话的准确性,降低误判率。
本发明还提供一种分类方法和装置,旨在提高分类质量,降低误判率。
为达以上目的,本发明提出一种来电提示方法,包括:
采集来电的特征属性,根据来电的特征属性归属分类数据库的类别,进行来电提示。
优选地,所述根据来电的特征属性归属分类数据库的类别进行来电提示包括:
获取训练样本集,所述训练样本集中包括被分成至少两个类别的若干电话;
确定所述电话的特征属性,并划分所述特征属性的取值范围;
计算出所述训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库;
若来电不在所述训练样本集中,根据所述来电的特征属性和分类数据库判断所述来电的类别,并向用户提示所述来电的类别。
优选地,所述根据来电的特征属性和分类数据库判断所述来电的类别包括:
根据所述来电的特征属性从所述分类数据库中查询所述来电对应的第二概率;
根据所述第一概率和第二概率计算出所述来电属于每一类别的概率值;
判定所述来电的类别为最大概率值所对应的类别。
优选地,所述获取训练样本集包括:从外部获取训练样本集或/和获取用户手动分类生成的训练样本集。
优选地,所述方法还包括:若所述来电在所述训练样本集中,则从所述训练样本集中查询所述来电的类别。
本发明同时提出一种来电提示装置,包括采集模块和来电提示模块,其中:
采集模块,用于采集来电的特征属性;
来电提示模块,用于根据来电的特征属性归属分类数据库的类别,进行来电提示。
优选地,所述来电提示模块包括获取单元、训练单元、分类单元和提示单元,其中:
获取单元,用于获取训练样本集,所述训练样本集中包括被分成至少两个类别的若干电话;
训练单元,用于确定所述电话的特征属性,并划分所述特征属性的取值范围;计算出所述训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库;
分类单元,用于对来电进行分类,若所述来电不在所述训练样本集中,根据所述来电的特征属性和分类数据库判断所述来电的类别;
提示单元,用于向用户提示所述来电的类别。
优选地,所述分类单元用于:
根据所述来电的特征属性从所述分类数据库中查询所述来电对应的第二概率;
根据所述第一概率和第二概率计算出所述来电属于每一类别的概率值;
判定所述来电的类别为最大概率值所对应的类别。
优选地,所述获取单元用于:从外部获取训练样本集或/和获取用户手动分类生成的训练样本集。
基于同样的发明构思,本发明还提出一种分类方法,包括步骤:
获取训练样本集,所述训练样本集中包括被分成至少两个类别的若干对象;
确定所述对象的特征属性,并划分所述特征属性的取值范围;
计算出所述训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库;
对分类对象进行分类时,若所述分类对象不在所述训练样本集中,获取所述分类对象的特征属性,并根据所述分类对象的特征属性和分类数据库判断所述分类对象的类别。
优选地,所述根据所述分类对象的特征属性和分类数据库判断所述分类对象的类别包括:
根据所述分类对象的特征属性从所述分类数据库中查询所述分类对象对应的第二概率;
根据所述第一概率和第二概率计算出所述分类对象属于每一类别的概率值;
判定所述分类对象的类别为最大概率值所对应的类别。
优选地,所述获取训练样本集包括:从外部获取训练样本集或/和获取用户手动分类生成的训练样本集。
本发明同时提出一种分类装置,包括获取模块、训练模块和分类模块,其中:
获取模块,用于获取训练样本集,所述训练样本集中包括被分成至少两个类别的若干对象;
训练模块,用于确定所述对象的特征属性,并划分所述特征属性的取值范围;计算出所述训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库;
分类模块,用于对分类对象进行分类,若所述分类对象不在所述训练样本集中,获取所述分类对象的特征属性,并根据所述分类对象的特征属性和分类数据库判断所述分类对象的类别。
优选地,所述分类模块用于:
根据所述分类对象的特征属性从所述分类数据库中查询所述分类对象对应的第二概率;
根据所述第一概率和第二概率计算出所述分类对象属于每一类别的概率值;
判定所述分类对象的类别为最大概率值所对应的类别。
优选地,所述获取模块用于:从外部获取训练样本集或/和获取用户手动分类生成的训练样本集。
本发明所提供的一种来电提示方法,通过动态的获取训练样本集,并对训练样本集进行动态的统计和学习,生成动态的分类数据库,根据分类数据库对来电进行分类,不但可以判别来电是否为骚扰电话,还可以进一步识别出该来电所属类别,如家庭电话、工作电话、房地产电话等。由于分类数据库根据训练样本集和用户通信数据的更新而动态的、持续的更新和完善,因此针对不同的用户具有不同的分类结果,符合用户的使用习惯和人脉关系,具有分类质量高、分类速度快、误判率低的特点。进一步的,通过校准机制,还可以对未知来电的类别进行识别,进一步的还可以对来电类别进行提示。
附图说明
图1是本发明的来电提示方法一实施例的流程图;
图2是图1中步骤S107的具体流程图;
图3是本发明的来电提示装置一实施例的结构框图;
图4是图3中来电提示模块的结构框图;
图5是本发明的分类方法一实施例的流程图;
图6是图5中步骤S207的具体流程图;
图7是本发明的分类装置一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的来电提示方法,通过采集来电的特征属性,根据来电的特征属性归属分类数据库的类别来进行来电提示。具体通过以下实施例进行详细说明。
参见图1,提出本发明的来电提示方法一实施例,所述来电提示方法包括以下步骤:
步骤S101:获取训练样本集,训练样本集中包括被分成至少两个类别的若干电话
可以从外部获取训练样本集,如从网络数据库中获取电话分类集合作为训练样本集;也可以从本地获取训练样本集,如由用户手动标识或分类而生成的电话分类集合,将该分类集合作为训练样本集;或者综合前述两种途径获取训练样本集,并定时或实时的更新,自动更新或用户手动更新。训练样本集中的电话进行了分类,如分为骚扰电话和正常电话两个类别,或者分为工作电话、家庭电话、朋友电话、快递电话、房地产电话等多个类别。
步骤S102:确定电话的特征属性,并划分特征属性的取值范围
特征属性包括:接电话次数、拨电话次数、接电话时长、拨电话时长、接通次数、未接通次数、主动挂断次数、被挂断次数、接电话时间(24h)、打电话时间(24h)等,还可以是接电话次数与接电话时长的比率(接电话次数/接电话时长)、拨电话次数与拨电话时长的比率(拨电话次数/拨电话时长)等,并对各特征属性的取值范围进行划分,至少划分为两个范围。
步骤S103:计算出训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库
其中,第一概率是指某一类别的电话数量占整个训练样本集中所有电话的总量的比值。第二概率是指某一类别中具有某一取值范围的特征属性的电话数量占该类别中具有该特征属性的所有电话的数量的比值。设训练样本集中包括y1~yn共n个类别,电话包括a1~am共m个特征属性,则第一概率包括P(y1)~P(yn)共n个数值,第二概率包括P(a1∣y1)、P(a2∣y1)…P(am∣yn)共m*n个数值。
例如,训练样本集中收集了1000个电话,其中骚扰电话400个,正常电话600个,则骚扰电话的第一概率为400/1000=0.4,正常电话的第一概率为600/1000=0.6。同时,特征属性“接通电话时长”(单位:分钟)a包括三个的取值范围,分别为,a≤0.05,0.05<a<0.2,a≥0.2;骚扰电话中前述各取值范围的电话数量分别为300,70,30;则骚扰电话类别中“接通电话时长”的特征属性下各取值范围所对应的第二概率分别为300/400=3/4,70/400=7/40,30/400=3/40。
存储计算出的第一概率和第二概率,生成分类数据库。分类数据库中电话类别与第一概率一一对应,电话类别和不同取值范围的特征属性与第二概率一一对应。
步骤S101~S103是一个动态过程。来电提示装置根据电话数据的更新进行持续训练和学习,持续更新分类数据库。
步骤S104:接到来电
步骤S105:判断来电是否在训练样本集中
若来电在训练样本集中,则进入步骤S108,否则,进入步骤S106。
步骤S106:采集来电的特征属性
具体的,从历史通话记录中统计出来电各特征属性的数值。设来电为x,其包括a1~am共m个特征属性。
步骤S107:根据来电的特征属性和分类数据库判断来电的类别
本步骤S107具体流程如图2所示,包括以下步骤:
步骤S110:根据来电的特征属性从分类数据库中查询来电对应的第二概率
具体的,根据分类数据库中电话类别及特征属性与第二概率的一一对应关系,查询出陌生电话在每一类别下,每一特征属性所对应的第二概率。查询获得P(a1∣y1)~P(am∣yn)共m*n个第二概率。
例如,来电的特征属性“接通电话时长”a为0.1分钟,其对应的取值范围为0.05<a<0.2,该取值范围在骚扰电话类别下所对应的第二概率为7/40,则该来电在骚扰电话类别下,特征属性“接通电话时长”所对应的第二概率为7/40。
步骤S120:根据第一概率和第二概率计算出来电属于每一类别的概率值
具体的,设来电属于某一类别的概率为P(yi∣x),如果各个特征属性是独立的,则: P ( y i | x ) = P ( x | y i ) P ( y i ) P ( x ) .
由于所有类别的分母P(x)均为常数,因此只需求得分子的值即可:
P ( x | y i ) P ( y i ) = P ( a 1 | y i ) P ( a 2 | y i ) . . . P ( a m | y i ) P ( y i ) = P ( y i ) &Pi; j = 1 m P ( a j | y i )
即,计算来电属于某一类别的概率值时,可以计算出该类别的第一概率和该类别所有特征属性所对应的第二概率的乘积。
步骤S130:判定来电的类别为最大概率值所对应的类别
本步骤S130中,如果P(yk|x)=max{P(y1|x),P(y2|x),...,P(yn|x)},则即,判定来电的类别为最大概率值所对应的类别。
步骤S108:从训练样本集中查询来电的类别
若来电在训练样本集中,则直接从训练样本集中查询获取来电的类别。
步骤S109:向用户提示来电的类别
可通过界面显示的方式提示用户,如在界面上显示文字、图像或符号;也可以通过声音提醒方式提示用户,如进行语音播报告知来电类别。
以下例举一实例进行详细说明:
1、首先获取一训练样本集,该训练样本集中包括1万个电话及其通话记录,并被分类为两个类别,其中C=0表示正常电话,C=1表示骚扰电话,且正常电话数量为8900个,骚扰电话数量为1100个。
2、确定特征属性及划分
主要特征属性包括:接电话次数、拨电话次数、接电话时长、拨电话时长、接通次数、未接通次数、主动挂断次数、被挂断次数、接电话时间(24h)、打电话时间(24h)。
为了简单起见,用少量的特征属性以及较粗的划分进行举例。
确定三个特征属性a1~a3,其中a1代表接电话次数与接电话时长的比率(接电话次数/接电话时长),a2代表拔电话次数与拔电话时长的比率(拔电话次数/拔电话时长),a3代表是否为现有联系人,来电提示装置可以直接或计算得出这三项特征属性值。
划分各特征属性的取值范围,a1:{a1≤0.05,0.05<a1<0.2,a1≥0.2},a2:{a2≤0.1,0.1<a2<0.8,a2≥0.8},a3:{a3=0(不是),a3=1(是)}。
3、计算训练样本集中每个类别的第一概率,以及每个类别中各个特征属性下各取值范围的第二概率,生成分类数据库
用训练样本集中正常电话数量和骚扰电话数量分别除以电话总量,可得:
P(C=0)=8900/10000=0.89
P(C=1)=1100/10000=0.11
假设根据历史通话记录计算获得如下第二概率:
P(a1<=0.05|C=0)=0.3
P(0.05<a1<0.2|C=0)=0.5
P(a1>0.2|C=0)=0.2
P(a1<=0.05|C=1)=0.8
P(0.05<a1<0.2|C=1)=0.1
P(a1>0.2|C=1)=0.1
P(a2<=0.1|C=0)=0.1
P(0.1<a2<0.8|C=0)=0.7
P(a2>0.8|C=0)=0.2
P(a2<=0.1|C=1)=0.7
P(0.1<a2<0.8|C=1)=0.2
P(a2>0.2|C=1)=0.1
P(a3=0|C=0)=0.2
P(a3=1|C=0)=0.8
P(a3=0|C=1)=0.9
P(a3=1|C=1)=0.1
据此生成分类数据库,分类数据库中电话类别与第一概率一一对应,电话类别和不同取值范围的特征属性与第二概率一一对应。
5、利用分类数据库鉴别来电的类别
使用上述训练得到的分类数据库,来鉴别来电号码,若该来电不在通讯录中(a3=0),也不在训练样本集中,且接电话次数/接电话时长的比率a1=0.1,拔电话次数/拔电话时长的比率a2=0.2,则来电号码为正常来电的概率为:
P(C=0)P(x|C=0)=P(C=0)P(0.05<a1<0.2|C=0)P(0.1<a2<0.8|C=0)P(a3=0|C=0)=0.89*0.5*0.7*0.2=0.0623
来电号码为骚扰电话的概率为:
P(C=1)P(x|C=1)=P(C=1)P(0.05<a1<0.2|C=1)P(0.1<a2<0.8|C=1)P(a3=0|C=1)=0.11*0.1*0.2*0.9=0.00198
虽然来电没有在通讯录中,但通过来电提示装置的鉴别,更倾向于将此来电归入正常来电类别,因此通信终端界面可以向用户提示该来电为“正常来电”。
在生成分类数据库初期还可以使用训练数据进一步提高来电提示装置的分类质量。例如:在初期将训练样本集中的训练数据一分为二,用一部分构造分类数据库,然后用另一部分检测分类的准确率。
当收到一个新来电,该新来电没有任何历史通话记录,无法获得其各项特征属性值,其各项特征属性值相当于为0。此时可引入校准机制,对所有的特征属性值加一校准值(如加1),然后根据校准后的特征属性值来识别新来电的类别。当训练样本集数量充分大时,并不会对结果的准确性产生影响,并且实现了对新来电的准确分类。
从而,本实施例的来电提示方法,通过动态的获取训练样本集,并对训练样本集进行动态的统计和学习,生成动态的分类数据库,根据分类数据库对来电进行分类,不但可以判别来电是否为骚扰电话,还可以进一步识别出该来电所属类别,如家庭电话、工作电话、房地产电话等。由于分类数据库根据训练样本集和用户通信数据的更新而动态的、持续的更新和完善,因此针对不同的用户具有不同的分类结果,符合用户的使用习惯和人脉关系,具有分类质量高、分类速度快、误判率低的特点。进一步的,通过校准机制,还可以对未知来电的类别进行识别,进一步的还可以对来电类别进行提示。
参见图3,提出本发明的来电提示装置一实施例,所述来电提示装置可以应用于各种通信终端,其包括采集模块和来电提示模块。其中,采集模块用于采集来电的特征属性,来电提示模块模块用于根据来电的特征属性归属分类数据库的类别来进行来电提示。
具体的,来电提示模块包括获取单元、训练单元、分类单元和提示单元,其中:
获取单元:用于获取训练样本集,训练样本集中包括被分成至少两个类别的若干电话。
获取单元可以从外部获取训练样本集,如从网络数据库中获取电话分类集合作为训练样本集;也可以从本地获取训练样本集,如由用户手动标识或分类而生成的电话分类集合,将该分类集合作为训练样本集;或者综合前述两种途径获取训练样本集,并定时或实时的更新,自动更新或用户手动更新。训练样本集中的电话进行了分类,如分为骚扰电话和正常电话两个类别,或者分为工作电话、家庭电话、朋友电话、快递电话、房地产电话等多个类别。
训练单元:用于确定电话的特征属性,并划分特征属性的取值范围;计算出训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库。
其中,特征属性包括:接电话次数、拨电话次数、接电话时长、拨电话时长、接通次数、未接通次数、主动挂断次数、被挂断次数、接电话时间(24h)、打电话时间(24h)等,还可以是接电话次数与接电话时长的比率(接电话次数/接电话时长)、拨电话次数与拨电话时长的比率(拨电话次数/拨电话时长)等,并对各特征属性的取值范围进行划分,至少划分为两个范围。
第一概率是指某一类别的电话数量占整个训练样本集中所有电话的总量的比值。第二概率是指某一类别中具有某一取值范围的特征属性的电话数量占该类别中具有该特征属性的所有电话的数量的比值。设训练样本集中包括y1~yn共n个类别,电话包括a1~am共m个特征属性,则第一概率包括P(y1)~P(yn)共n个数值,第二概率包括P(a1∣y1)、P(a2∣y1)…P(am∣yn)共m*n个数值。
存储计算出的第一概率和第二概率,生成分类数据库。分类数据库中电话类别与第一概率一一对应,电话类别和不同取值范围的特征属性与第二概率一一对应。
训练单元根据电话数据的更新进行持续训练和学习,持续更新分类数据库。
训练单元在生成分类数据库初期还可以使用训练数据进一步提高来电提示装置的分类质量。例如:在初期将训练样本集中的训练数据一分为二,用一部分构造分类数据库,然后用另一部分检测分类的准确率。
分类单元:用于对来电进行分类。
分类单元首先判断来电是否在训练样本集中,若在训练样本集中,则直接从训练样本集中查询来电的类别。
若不在训练样本集中,则根据来电的特征属性和分类数据库判断来电的类别。具体的,分类单元首先从历史通话记录中统计出来电各特征属性的数值,然后根据来电的特征属性从分类数据库中查询来电对应的第二概率,根据第一概率和第二概率计算出来电属于每一类别的概率值,判定来电的类别为最大概率值所对应的类别。
当收到一个新来电,该新来电没有任何历史通话记录,无法获得其各项特征属性值,其各项特征属性值相当于为0。此时可引入校准机制,分类单元对所有的特征属性值加一校准值(如加1),然后根据校准后的特征属性值来识别新来电的类别。当训练样本集数量充分大时,并不会对结果的准确性产生影响,并且实现了对新来电的准确分类。
提示单元:用于向用户提示来电的类别。
提示单元可通过界面显示的方式提示用户,如在界面上显示文字、图像或符号;也可以通过声音提醒方式提示用户,如进行语音播报告知来电类别。
需要说明的是,上述方法实施例中的技术特征在本装置均对应适用,这里不再重述。
据此,本实施例的来电提示装置,通过动态的获取训练样本集,并对训练样本集进行动态的统计和学习,生成动态的分类数据库,根据分类数据库对来电进行分类,不但可以判别来电是否为骚扰电话,还可以进一步识别出该来电所属类别,如家庭电话、工作电话、房地产电话等。由于分类数据库根据训练样本集和用户通信数据的更新而动态的、持续的更新和完善,因此针对不同的用户具有不同的分类结果,符合用户的使用习惯和人脉关系,具有分类质量高、分类速度快、误判率低的特点。进一步的,通过校准机制,还可以对未知来电的类别进行识别,进一步的还可以对来电类别进行提示。
需要说明的是:前述实施例提供的来电提示装置在进行来电提示时,仅以前述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将前述功能分配由不同的功能模块完成。另外,前述实施例提供的来电提示装置与来电提示方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
参见图5,提出本发明的分类方法一实施例,所述分类方法可以对所有带特征属性的分类对象进行分类,包括电话号码、健康体征信息,天气信息、短信文字等等。所述分类方法包括以下步骤:
步骤S201:获取训练样本集,训练样本集中包括被分成至少两个类别的若干对象
可以从外部获取训练样本集,如从网络数据库中获取某种对象的分类集合作为训练样本集;也可以从本地获取训练样本集,如由用户手动标识或分类而生成的某种对象的分类集合,将该分类集合作为训练样本集;或者综合前述两种途径获取训练样本集,并定时或实时的更新,自动更新或用户手动更新。训练样本集中的对象进行了分类,以训练样本集中的对象为电话为例,可以分为骚扰电话和正常电话两个类别,或者分为工作电话、家庭电话、朋友电话、快递电话、房地产电话等多个类别。
步骤S202:确定对象的特征属性,并划分特征属性的取值范围
当训练样本集中的对象为电话时,其特征属性包括:接电话次数、拨电话次数、接电话时长、拨电话时长、接通次数、未接通次数、主动挂断次数、被挂断次数、接电话时间(24h)、打电话时间(24h)等,还可以是接电话次数与接电话时长的比率(接电话次数/接电话时长)、拨电话次数与拨电话时长的比率(拨电话次数/拨电话时长)等,并对各特征属性的取值范围进行划分,至少划分为两个范围。
步骤S203:计算出训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库
其中,第一概率是指某一类别的对象数量占整个训练样本集中所有对象的总量的比值。第二概率是指某一类别中具有某一取值范围的特征属性的对象数量占该类别中具有该特征属性的所有对象的数量的比值。设训练样本集中包括y1~yn共n个类别,对象包括a1~am共m个特征属性,则第一概率包括P(y1)~P(yn)共n个数值,第二概率包括P(a1∣y1)、P(a2∣y1)…P(am∣yn)共m*n个数值。
例如,以电话为例,训练样本集中收集了1000个电话,其中骚扰电话400个,正常电话600个,则骚扰电话的第一概率为400/1000=0.4,正常电话的第一概率为600/1000=0.6。同时,特征属性“接通电话时长”(单位:分钟)a包括三个的取值范围,分别为,a≤0.05,0.05<a<0.2,a≥0.2;骚扰电话中前述各取值范围的电话数量分别为300,70,30;则骚扰电话类别中“接通电话时长”的特征属性下各取值范围所对应的第二概率分别为300/400=3/4,70/400=7/40,30/400=3/40。
存储计算出的第一概率和第二概率,生成分类数据库。分类数据库中对象类别与第一概率一一对应,对象类别和不同取值范围的特征属性与第二概率一一对应。
步骤S201~S203是一个动态过程。分类装置根据对象数据的更新进行持续训练和学习,持续更新分类数据库。
步骤S204:获取分类对象
步骤S205:判断分类对象是否在训练样本集中
若分类对象在训练样本集中,则进入步骤S108,否则,进入步骤S106。
步骤S206:获取分类对象的特征属性
具体的,从历史记录中统计出分类对象各特征属性的数值。设分类对象为x,其包括a1~am共m个特征属性。
步骤S207:根据分类对象的特征属性和分类数据库判断分类对象的类别
本步骤S207具体流程如图6所示,包括以下步骤:
步骤S210:根据分类对象的特征属性从分类数据库中查询分类对象对应的第二概率
具体的,根据分类数据库中分类对象的类别及特征属性与第二概率的一一对应关系,查询出分类对象在每一类别下,每一特征属性所对应的第二概率。查询获得P(a1∣y1)~P(am∣yn)共m*n个第二概率。
例如,分类对象为来电,来电的特征属性“接通电话时长”a为0.1分钟,其对应的取值范围为0.05<a<0.2,该取值范围在骚扰电话类别下所对应的第二概率为7/40,则该来电在骚扰电话类别下,特征属性“接通电话时长”所对应的第二概率为7/40。
步骤S220:根据第一概率和第二概率计算出分类对象属于每一类别的概率值
具体的,设分类对象属于某一类别的概率为P(yi∣x),如果各个特征属性是独立的,则: P ( y i | x ) = P ( x | y i ) P ( y i ) P ( x ) .
由于所有类别的分母P(x)均为常数,因此只需求得分子的值即可:
P ( x | y i ) P ( y i ) = P ( a 1 | y i ) P ( a 2 | y i ) . . . P ( a m | y i ) P ( y i ) = P ( y i ) &Pi; j = 1 m P ( a j | y i )
即,计算分类对象属于某一类别的概率值时,可以计算出该类别的第一概率和该类别所有特征属性所对应的第二概率的乘积。
步骤S230:判定分类对象的类别为最大概率值所对应的类别
本步骤S230中,如果P(yk|x)=max{P(y1|x),P(y2|x),...,P(yn|x)},则即,判定分类对象的类别为最大概率值所对应的类别。
步骤S208:从训练样本集中查询分类对象的类别
若分类对象在训练样本集中,则直接从训练样本集中查询获取分类对象的类别。
步骤S209:向用户提示分类对象的类别
可通过界面显示的方式提示用户,如在界面上显示文字、图像或符号;也可以通过声音提醒方式提示用户,如进行语音播报告知来电类别。
在生成分类数据库初期还可以使用训练数据进一步提高分类装置的分类质量。例如:在初期将训练样本集中的训练数据一分为二,用一部分构造分类数据库,然后用另一部分检测分类的准确率。
从而,本实施例的分类方法,通过动态的获取训练样本集,并对训练样本集进行动态的统计和学习,生成动态的分类数据库,根据分类数据库对分类对象进行分类,可以识别出该分类对象所属类别。由于分类数据库根据训练样本集和用户通信数据的更新而动态的、持续的更新和完善,因此针对不同的用户具有不同的分类结果,符合用户的使用习惯或者自身属性,具有分类质量高、分类速度快、误判率低的特点。
参见图7,提出本发明的分类装置一实施例,所述分类装置包括获取模块、训练模块、分类模块和提示模块。
获取模块:用于获取训练样本集,训练样本集中包括被分成至少两个类别的若干对象。
获取模块可以从外部获取训练样本集,如从网络数据库中获取某种对象的分类集合作为训练样本集;也可以从本地获取训练样本集,如由用户手动标识或分类而生成的某种对象的分类集合,将该分类集合作为训练样本集;或者综合前述两种途径获取训练样本集,并定时或实时的更新,自动更新或用户手动更新。训练样本集中的对象进行了分类,以训练样本集中的对象为电话为例,可以分为骚扰电话和正常电话两个类别,或者分为工作电话、家庭电话、朋友电话、快递电话、房地产电话等多个类别。
训练模块:用于确定对象的特征属性,并划分特征属性的取值范围;计算出训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库。
当训练样本集中的对象为电话时,其特征属性包括:接电话次数、拨电话次数、接电话时长、拨电话时长、接通次数、未接通次数、主动挂断次数、被挂断次数、接电话时间(24h)、打电话时间(24h)等,还可以是接电话次数与接电话时长的比率(接电话次数/接电话时长)、拨电话次数与拨电话时长的比率(拨电话次数/拨电话时长)等,并对各特征属性的取值范围进行划分,至少划分为两个范围。
第一概率是指某一类别的对象数量占整个训练样本集中所有对象的总量的比值。第二概率是指某一类别中具有某一取值范围的特征属性的对象数量占该类别中具有该特征属性的所有对象的数量的比值。设训练样本集中包括y1~yn共n个类别,对象包括a1~am共m个特征属性,则第一概率包括P(y1)~P(yn)共n个数值,第二概率包括P(a1∣y1)、P(a2∣y1)…P(am∣yn)共m*n个数值。
存储计算出的第一概率和第二概率,生成分类数据库。分类数据库中对象类别与第一概率一一对应,对象类别和不同取值范围的特征属性与第二概率一一对应。
训练模块根据电话数据的更新进行持续训练和学习,持续更新分类数据库。
训练模块在生成分类数据库初期还可以使用训练数据进一步提高分类装置的分类质量。例如:在初期将训练样本集中的训练数据一分为二,用一部分构造分类数据库,然后用另一部分检测分类的准确率。
分类模块:用于对接到来电进行分类。
分类模块首先判断分类对象是否在训练样本集中,若在训练样本集中,则直接从训练样本集中查询分类对象的类别。
若不在训练样本集中,则获取分类对象的特征属性,并根据特征属性和分类数据库判断分类对象的类别。具体的,分类模块首先从历史记录中统计出分类对象各特征属性的数值,然后根据分类对象的特征属性从分类数据库中查询分类对象对应的第二概率,根据第一概率和第二概率计算出分类对象属于每一类别的概率值,判定分类对象的类别为最大概率值所对应的类别。
当收到一个新的分类对象,该分类对象没有任何历史记录,无法获得其各项特征属性值,其各项特征属性值相当于为0。此时可引入校准机制,分类模块对所有的特征属性值加一校准值(如加1),然后根据校准后的特征属性值来识别新的分类对象的类别。当训练样本集数量充分大时,并不会对结果的准确性产生影响,并且实现了对新的分类对象的准确分类。
提示模块:用于向用户提示分类对象的类别。
提示模块可通过界面显示的方式提示用户,如在界面上显示文字、图像或符号;也可以通过声音提醒方式提示用户,如进行语音播报告知分类对象的类别。
分类装置可以对所有带特征属性的分类对象进行分类,包括电话号码、健康体征信息、天气信息、短信文字等等。分类数据库可以通过网络和本地更新,本地分类对象可以自动或手动加入本地分类数据库,以提高分类的准确性。
本实施例的分类装置,通过动态的获取训练样本集,并对训练样本集进行动态的统计和学习,生成动态的分类数据库,根据分类数据库对分类对象进行分类,可以识别出该分类对象所属类别。由于分类数据库根据训练样本集和用户通信数据的更新而动态的、持续的更新和完善,因此针对不同的用户具有不同的分类结果,符合用户的使用习惯或者自身属性,具有分类质量高、分类速度快、误判率低的特点。
需要说明的是:前述实施例提供的分类装置在进行分类时,仅以前述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将前述功能分配由不同的功能模块完成。另外,前述实施例提供的分类装置与分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤可以通过程序来控制相关的硬件完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质可以是ROM/RAM、磁盘、光盘等。
应当理解的是,以上仅为本发明的优选实施例,不能因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (13)

1.一种来电提示方法,其特征在于,包括:
采集来电的特征属性,根据来电的特征属性归属分类数据库的类别,进行来电提示;
所述根据来电的特征属性归属分类数据库的类别进行来电提示包括:
获取训练样本集,所述训练样本集中包括被分成至少两个类别的若干电话;
确定所述电话的特征属性,并划分所述特征属性的取值范围;
计算出所述训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库;
若来电不在所述训练样本集中,根据所述来电的特征属性和分类数据库判断所述来电的类别,并向用户提示所述来电的类别。
2.根据权利要求1所述的来电提示方法,其特征在于,所述根据来电的特征属性和分类数据库判断所述来电的类别包括:
根据所述来电的特征属性从所述分类数据库中查询所述来电对应的第二概率;
根据所述第一概率和第二概率计算出所述来电属于每一类别的概率值;
判定所述来电的类别为最大概率值所对应的类别。
3.根据权利要求1或2所述的来电提示方法,其特征在于,所述获取训练样本集包括:从外部获取训练样本集或/和获取用户手动分类生成的训练样本集。
4.根据权利要求1或2所述的来电提示方法,其特征在于,所述方法还包括:若所述来电在所述训练样本集中,则从所述训练样本集中查询所述来电的类别。
5.一种来电提示装置,其特征在于,包括采集模块和来电提示模块,其中:
采集模块,用于采集来电的特征属性;
来电提示模块,用于根据来电的特征属性归属分类数据库的类别,进行来电提示;
所述来电提示模块包括获取单元、训练单元、分类单元和提示单元,其中:
获取单元,用于获取训练样本集,所述训练样本集中包括被分成至少两个类别的若干电话;
训练单元,用于确定所述电话的特征属性,并划分所述特征属性的取值范围;计算出所述训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库;
分类单元,用于对来电进行分类,若所述来电不在所述训练样本集中,根据所述来电的特征属性和分类数据库判断所述来电的类别;
提示单元,用于向用户提示所述来电的类别。
6.根据权利要求5所述的来电提示装置,其特征在于,所述分类单元用于:
根据所述来电的特征属性从所述分类数据库中查询所述来电对应的第二概率;
根据所述第一概率和第二概率计算出所述来电属于每一类别的概率值;
判定所述来电的类别为最大概率值所对应的类别。
7.根据权利要求5或6所述的来电提示装置,其特征在于,所述获取单元用于:从外部获取训练样本集或/和获取用户手动分类生成的训练样本集。
8.一种分类方法,其特征在于,包括步骤:
获取训练样本集,所述训练样本集中包括被分成至少两个类别的若干对象;
确定所述对象的特征属性,并划分所述特征属性的取值范围;
计算出所述训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库;
对分类对象进行分类时,若所述分类对象不在所述训练样本集中,获取所述分类对象的特征属性,并根据所述分类对象的特征属性和分类数据库判断所述分类对象的类别。
9.根据权利要求8所述的分类方法,其特征在于,所述根据所述分类对象的特征属性和分类数据库判断所述分类对象的类别包括:
根据所述分类对象的特征属性从所述分类数据库中查询所述分类对象对应的第二概率;
根据所述第一概率和第二概率计算出所述分类对象属于每一类别的概率值;
判定所述分类对象的类别为最大概率值所对应的类别。
10.根据权利要求8或9所述的分类方法,其特征在于,所述获取训练样本集包括:从外部获取训练样本集或/和获取用户手动分类生成的训练样本集。
11.一种分类装置,其特征在于,包括获取模块、训练模块和分类模块,其中:
获取模块,用于获取训练样本集,所述训练样本集中包括被分成至少两个类别的若干对象;
训练模块,用于确定所述对象的特征属性,并划分所述特征属性的取值范围;计算出所述训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库;
分类模块,用于对分类对象进行分类,若所述分类对象不在所述训练样本集中,获取所述分类对象的特征属性,并根据所述分类对象的特征属性和分类数据库判断所述分类对象的类别。
12.根据权利要求11所述的分类装置,其特征在于,所述分类模块用于:
根据所述分类对象的特征属性从所述分类数据库中查询所述分类对象对应的第二概率;
根据所述第一概率和第二概率计算出所述分类对象属于每一类别的概率值;
判定所述分类对象的类别为最大概率值所对应的类别。
13.根据权利要求11或12所述的分类装置,其特征在于,所述获取模块用于:从外部获取训练样本集或/和获取用户手动分类生成的训练样本集。
CN201410301320.0A 2014-06-27 2014-06-27 来电提示方法和装置及分类方法和装置 Active CN104023109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410301320.0A CN104023109B (zh) 2014-06-27 2014-06-27 来电提示方法和装置及分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410301320.0A CN104023109B (zh) 2014-06-27 2014-06-27 来电提示方法和装置及分类方法和装置

Publications (2)

Publication Number Publication Date
CN104023109A CN104023109A (zh) 2014-09-03
CN104023109B true CN104023109B (zh) 2015-09-30

Family

ID=51439675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410301320.0A Active CN104023109B (zh) 2014-06-27 2014-06-27 来电提示方法和装置及分类方法和装置

Country Status (1)

Country Link
CN (1) CN104023109B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104717674A (zh) * 2014-12-02 2015-06-17 北京奇虎科技有限公司 号码属性识别方法、装置、终端和服务器
CN104702762A (zh) * 2015-03-13 2015-06-10 小米科技有限责任公司 来电提醒方法和装置
CN105045911B (zh) * 2015-08-12 2020-10-16 北京搜狗科技发展有限公司 一种用于用户进行标记的标签生成方法及设备
CN105516436B (zh) * 2015-11-27 2019-02-15 小米科技有限责任公司 通讯提示方法及装置
CN106060260A (zh) * 2016-06-23 2016-10-26 北京百纳威尔无线通信设备有限公司 通话中异常号码提示方法和设备
CN107770738B (zh) * 2016-08-23 2021-06-04 中国电信股份有限公司 用于实现短信自动分类的方法和用户终端
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法
CN106548343B (zh) * 2016-10-21 2020-11-10 中国银联股份有限公司 一种非法交易检测方法及装置
CN106791220B (zh) * 2016-11-04 2021-06-04 国家计算机网络与信息安全管理中心 防止电话诈骗的方法及系统
CN108256542A (zh) * 2016-12-29 2018-07-06 北京搜狗科技发展有限公司 一种通信标识的特征确定方法、装置及设备
CN107404589A (zh) * 2017-08-10 2017-11-28 北京泰迪熊移动科技有限公司 呼叫号码的类型识别方法、装置及终端设备
CN107635076A (zh) * 2017-10-30 2018-01-26 维沃移动通信有限公司 一种通话记录的查找方法及移动终端
CN110401779B (zh) * 2018-04-24 2022-02-01 中国移动通信集团有限公司 一种识别电话号码的方法、装置和计算机可读存储介质
CN109195151B (zh) * 2018-08-21 2021-07-27 中国联合网络通信集团有限公司 一种基于国漫业务的征信计算方法和平台
CN109377983A (zh) * 2018-10-18 2019-02-22 深圳壹账通智能科技有限公司 一种基于语音交互的骚扰电话拦截方法及相关设备
CN109348038B (zh) * 2018-12-24 2022-02-22 努比亚技术有限公司 来电处理方法、移动终端以及计算机存储介质
CN110493462A (zh) * 2019-08-12 2019-11-22 Oppo(重庆)智能科技有限公司 一种来电管理方法及装置、终端、存储介质
CN111405107B (zh) * 2020-03-26 2021-08-06 中移雄安信息通信科技有限公司 呼叫控制方法、装置、设备及存储介质
CN113869334A (zh) * 2020-06-12 2021-12-31 中国电信股份有限公司 基于大数据挖掘的通信骚扰用户识别方法、介质和装置
CN113572897B (zh) * 2021-06-18 2024-02-20 宇龙计算机通信科技(深圳)有限公司 一种来电显示方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1942007A (zh) * 2005-07-20 2007-04-04 阿瓦雅技术有限公司 电话分机攻击检测、记录和智能防止
CN101461224A (zh) * 2006-03-06 2009-06-17 诺基亚西门子通信有限责任两合公司 用于识别voip的spit或者垃圾信息的方法
JP2013118551A (ja) * 2011-12-05 2013-06-13 Nakayo Telecommun Inc 相手話者別転送先候補表示機能を有する電話装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1942007A (zh) * 2005-07-20 2007-04-04 阿瓦雅技术有限公司 电话分机攻击检测、记录和智能防止
CN101461224A (zh) * 2006-03-06 2009-06-17 诺基亚西门子通信有限责任两合公司 用于识别voip的spit或者垃圾信息的方法
JP2013118551A (ja) * 2011-12-05 2013-06-13 Nakayo Telecommun Inc 相手話者別転送先候補表示機能を有する電話装置

Also Published As

Publication number Publication date
CN104023109A (zh) 2014-09-03

Similar Documents

Publication Publication Date Title
CN104023109B (zh) 来电提示方法和装置及分类方法和装置
CN102456022B (zh) 短信管理方法和系统
WO2016041517A1 (zh) 智能提醒方法、系统和装置
US9014720B2 (en) Methods and devices for prioritizing message threads
CN101784022A (zh) 短信过滤、分类方法及系统
CN104850550A (zh) 一种提示消息的排序方法和装置
CN107613084B (zh) 一种通讯录联系人自动分组的方法、装置和系统
CN104717674A (zh) 号码属性识别方法、装置、终端和服务器
CN105049627A (zh) 卡片生成方法和装置
CN110278329B (zh) 一种通知消息的管理方法及移动终端
CN103533152A (zh) 一种移动终端的短信处理方法及系统
CN104702759A (zh) 通讯录的设置方法及装置
CN105045911A (zh) 一种用于用户进行标记的标签生成方法及设备
CN106911845A (zh) 来电提醒方法及装置
CN101557582A (zh) 一种移动通信用户信息统计方法及装置
CN103501487A (zh) 分类器更新方法、装置、终端、服务器及系统
CN109840183B (zh) 数据中心分级预警方法、装置及存储介质
WO2007000633B1 (en) Quality assessment for telecommunications network
US9185236B2 (en) Method and apparatus for visualizing record data
CN101159943A (zh) 通信移动终端以及服务短信息显示方法
CN109167883B (zh) 一种基于社交内容的智能屏蔽方法、系统及智能终端
CN102917312A (zh) 移动广播电视应用中紧急广播的转发方法及通信终端
CN103079006A (zh) 联系人管理方法和系统
CN110598567A (zh) 基于社区的垃圾管理方法及系统、计算机可读存储介质
CN109660385A (zh) 一种多渠道故障报警方法及装置、电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: A District No. 9018 Han innovation building in Nanshan District high tech Zone in Shenzhen city of Guangdong Province, North Central Avenue, 518000 floor 10

Applicant after: Nubian Technologies Ltd.

Address before: A District No. 9018 Han innovation building in Nanshan District high tech Zone in Shenzhen city of Guangdong Province, North Central Avenue, 518000 floor 10

Applicant before: Shenzhen ZTE Mobile Tech Co., Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: SHENZHEN ZTE MOBILE TECH CO., LTD. TO: NUBIAN TECHNOLOGIES LTD.

C14 Grant of patent or utility model
GR01 Patent grant