发明内容
本发明的主要目的在于提供一种来电提示方法和装置,旨在提高判别骚扰电话的准确性,降低误判率。
本发明还提供一种分类方法和装置,旨在提高分类质量,降低误判率。
为达以上目的,本发明提出一种来电提示方法,包括:
采集来电的特征属性,根据来电的特征属性归属分类数据库的类别,进行来电提示。
优选地,所述根据来电的特征属性归属分类数据库的类别进行来电提示包括:
获取训练样本集,所述训练样本集中包括被分成至少两个类别的若干电话;
确定所述电话的特征属性,并划分所述特征属性的取值范围;
计算出所述训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库;
若来电不在所述训练样本集中,根据所述来电的特征属性和分类数据库判断所述来电的类别,并向用户提示所述来电的类别。
优选地,所述根据来电的特征属性和分类数据库判断所述来电的类别包括:
根据所述来电的特征属性从所述分类数据库中查询所述来电对应的第二概率;
根据所述第一概率和第二概率计算出所述来电属于每一类别的概率值;
判定所述来电的类别为最大概率值所对应的类别。
优选地,所述获取训练样本集包括:从外部获取训练样本集或/和获取用户手动分类生成的训练样本集。
优选地,所述方法还包括:若所述来电在所述训练样本集中,则从所述训练样本集中查询所述来电的类别。
本发明同时提出一种来电提示装置,包括采集模块和来电提示模块,其中:
采集模块,用于采集来电的特征属性;
来电提示模块,用于根据来电的特征属性归属分类数据库的类别,进行来电提示。
优选地,所述来电提示模块包括获取单元、训练单元、分类单元和提示单元,其中:
获取单元,用于获取训练样本集,所述训练样本集中包括被分成至少两个类别的若干电话;
训练单元,用于确定所述电话的特征属性,并划分所述特征属性的取值范围;计算出所述训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库;
分类单元,用于对来电进行分类,若所述来电不在所述训练样本集中,根据所述来电的特征属性和分类数据库判断所述来电的类别;
提示单元,用于向用户提示所述来电的类别。
优选地,所述分类单元用于:
根据所述来电的特征属性从所述分类数据库中查询所述来电对应的第二概率;
根据所述第一概率和第二概率计算出所述来电属于每一类别的概率值;
判定所述来电的类别为最大概率值所对应的类别。
优选地,所述获取单元用于:从外部获取训练样本集或/和获取用户手动分类生成的训练样本集。
基于同样的发明构思,本发明还提出一种分类方法,包括步骤:
获取训练样本集,所述训练样本集中包括被分成至少两个类别的若干对象;
确定所述对象的特征属性,并划分所述特征属性的取值范围;
计算出所述训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库;
对分类对象进行分类时,若所述分类对象不在所述训练样本集中,获取所述分类对象的特征属性,并根据所述分类对象的特征属性和分类数据库判断所述分类对象的类别。
优选地,所述根据所述分类对象的特征属性和分类数据库判断所述分类对象的类别包括:
根据所述分类对象的特征属性从所述分类数据库中查询所述分类对象对应的第二概率;
根据所述第一概率和第二概率计算出所述分类对象属于每一类别的概率值;
判定所述分类对象的类别为最大概率值所对应的类别。
优选地,所述获取训练样本集包括:从外部获取训练样本集或/和获取用户手动分类生成的训练样本集。
本发明同时提出一种分类装置,包括获取模块、训练模块和分类模块,其中:
获取模块,用于获取训练样本集,所述训练样本集中包括被分成至少两个类别的若干对象;
训练模块,用于确定所述对象的特征属性,并划分所述特征属性的取值范围;计算出所述训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库;
分类模块,用于对分类对象进行分类,若所述分类对象不在所述训练样本集中,获取所述分类对象的特征属性,并根据所述分类对象的特征属性和分类数据库判断所述分类对象的类别。
优选地,所述分类模块用于:
根据所述分类对象的特征属性从所述分类数据库中查询所述分类对象对应的第二概率;
根据所述第一概率和第二概率计算出所述分类对象属于每一类别的概率值;
判定所述分类对象的类别为最大概率值所对应的类别。
优选地,所述获取模块用于:从外部获取训练样本集或/和获取用户手动分类生成的训练样本集。
本发明所提供的一种来电提示方法,通过动态的获取训练样本集,并对训练样本集进行动态的统计和学习,生成动态的分类数据库,根据分类数据库对来电进行分类,不但可以判别来电是否为骚扰电话,还可以进一步识别出该来电所属类别,如家庭电话、工作电话、房地产电话等。由于分类数据库根据训练样本集和用户通信数据的更新而动态的、持续的更新和完善,因此针对不同的用户具有不同的分类结果,符合用户的使用习惯和人脉关系,具有分类质量高、分类速度快、误判率低的特点。进一步的,通过校准机制,还可以对未知来电的类别进行识别,进一步的还可以对来电类别进行提示。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的来电提示方法,通过采集来电的特征属性,根据来电的特征属性归属分类数据库的类别来进行来电提示。具体通过以下实施例进行详细说明。
参见图1,提出本发明的来电提示方法一实施例,所述来电提示方法包括以下步骤:
步骤S101:获取训练样本集,训练样本集中包括被分成至少两个类别的若干电话
可以从外部获取训练样本集,如从网络数据库中获取电话分类集合作为训练样本集;也可以从本地获取训练样本集,如由用户手动标识或分类而生成的电话分类集合,将该分类集合作为训练样本集;或者综合前述两种途径获取训练样本集,并定时或实时的更新,自动更新或用户手动更新。训练样本集中的电话进行了分类,如分为骚扰电话和正常电话两个类别,或者分为工作电话、家庭电话、朋友电话、快递电话、房地产电话等多个类别。
步骤S102:确定电话的特征属性,并划分特征属性的取值范围
特征属性包括:接电话次数、拨电话次数、接电话时长、拨电话时长、接通次数、未接通次数、主动挂断次数、被挂断次数、接电话时间(24h)、打电话时间(24h)等,还可以是接电话次数与接电话时长的比率(接电话次数/接电话时长)、拨电话次数与拨电话时长的比率(拨电话次数/拨电话时长)等,并对各特征属性的取值范围进行划分,至少划分为两个范围。
步骤S103:计算出训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库
其中,第一概率是指某一类别的电话数量占整个训练样本集中所有电话的总量的比值。第二概率是指某一类别中具有某一取值范围的特征属性的电话数量占该类别中具有该特征属性的所有电话的数量的比值。设训练样本集中包括y1~yn共n个类别,电话包括a1~am共m个特征属性,则第一概率包括P(y1)~P(yn)共n个数值,第二概率包括P(a1∣y1)、P(a2∣y1)…P(am∣yn)共m*n个数值。
例如,训练样本集中收集了1000个电话,其中骚扰电话400个,正常电话600个,则骚扰电话的第一概率为400/1000=0.4,正常电话的第一概率为600/1000=0.6。同时,特征属性“接通电话时长”(单位:分钟)a包括三个的取值范围,分别为,a≤0.05,0.05<a<0.2,a≥0.2;骚扰电话中前述各取值范围的电话数量分别为300,70,30;则骚扰电话类别中“接通电话时长”的特征属性下各取值范围所对应的第二概率分别为300/400=3/4,70/400=7/40,30/400=3/40。
存储计算出的第一概率和第二概率,生成分类数据库。分类数据库中电话类别与第一概率一一对应,电话类别和不同取值范围的特征属性与第二概率一一对应。
步骤S101~S103是一个动态过程。来电提示装置根据电话数据的更新进行持续训练和学习,持续更新分类数据库。
步骤S104:接到来电
步骤S105:判断来电是否在训练样本集中
若来电在训练样本集中,则进入步骤S108,否则,进入步骤S106。
步骤S106:采集来电的特征属性
具体的,从历史通话记录中统计出来电各特征属性的数值。设来电为x,其包括a1~am共m个特征属性。
步骤S107:根据来电的特征属性和分类数据库判断来电的类别
本步骤S107具体流程如图2所示,包括以下步骤:
步骤S110:根据来电的特征属性从分类数据库中查询来电对应的第二概率
具体的,根据分类数据库中电话类别及特征属性与第二概率的一一对应关系,查询出陌生电话在每一类别下,每一特征属性所对应的第二概率。查询获得P(a1∣y1)~P(am∣yn)共m*n个第二概率。
例如,来电的特征属性“接通电话时长”a为0.1分钟,其对应的取值范围为0.05<a<0.2,该取值范围在骚扰电话类别下所对应的第二概率为7/40,则该来电在骚扰电话类别下,特征属性“接通电话时长”所对应的第二概率为7/40。
步骤S120:根据第一概率和第二概率计算出来电属于每一类别的概率值
具体的,设来电属于某一类别的概率为P(yi∣x),如果各个特征属性是独立的,则:
由于所有类别的分母P(x)均为常数,因此只需求得分子的值即可:
即,计算来电属于某一类别的概率值时,可以计算出该类别的第一概率和该类别所有特征属性所对应的第二概率的乘积。
步骤S130:判定来电的类别为最大概率值所对应的类别
本步骤S130中,如果P(yk|x)=max{P(y1|x),P(y2|x),...,P(yn|x)},则即,判定来电的类别为最大概率值所对应的类别。
步骤S108:从训练样本集中查询来电的类别
若来电在训练样本集中,则直接从训练样本集中查询获取来电的类别。
步骤S109:向用户提示来电的类别
可通过界面显示的方式提示用户,如在界面上显示文字、图像或符号;也可以通过声音提醒方式提示用户,如进行语音播报告知来电类别。
以下例举一实例进行详细说明:
1、首先获取一训练样本集,该训练样本集中包括1万个电话及其通话记录,并被分类为两个类别,其中C=0表示正常电话,C=1表示骚扰电话,且正常电话数量为8900个,骚扰电话数量为1100个。
2、确定特征属性及划分
主要特征属性包括:接电话次数、拨电话次数、接电话时长、拨电话时长、接通次数、未接通次数、主动挂断次数、被挂断次数、接电话时间(24h)、打电话时间(24h)。
为了简单起见,用少量的特征属性以及较粗的划分进行举例。
确定三个特征属性a1~a3,其中a1代表接电话次数与接电话时长的比率(接电话次数/接电话时长),a2代表拔电话次数与拔电话时长的比率(拔电话次数/拔电话时长),a3代表是否为现有联系人,来电提示装置可以直接或计算得出这三项特征属性值。
划分各特征属性的取值范围,a1:{a1≤0.05,0.05<a1<0.2,a1≥0.2},a2:{a2≤0.1,0.1<a2<0.8,a2≥0.8},a3:{a3=0(不是),a3=1(是)}。
3、计算训练样本集中每个类别的第一概率,以及每个类别中各个特征属性下各取值范围的第二概率,生成分类数据库
用训练样本集中正常电话数量和骚扰电话数量分别除以电话总量,可得:
P(C=0)=8900/10000=0.89
P(C=1)=1100/10000=0.11
假设根据历史通话记录计算获得如下第二概率:
P(a1<=0.05|C=0)=0.3
P(0.05<a1<0.2|C=0)=0.5
P(a1>0.2|C=0)=0.2
P(a1<=0.05|C=1)=0.8
P(0.05<a1<0.2|C=1)=0.1
P(a1>0.2|C=1)=0.1
P(a2<=0.1|C=0)=0.1
P(0.1<a2<0.8|C=0)=0.7
P(a2>0.8|C=0)=0.2
P(a2<=0.1|C=1)=0.7
P(0.1<a2<0.8|C=1)=0.2
P(a2>0.2|C=1)=0.1
P(a3=0|C=0)=0.2
P(a3=1|C=0)=0.8
P(a3=0|C=1)=0.9
P(a3=1|C=1)=0.1
据此生成分类数据库,分类数据库中电话类别与第一概率一一对应,电话类别和不同取值范围的特征属性与第二概率一一对应。
5、利用分类数据库鉴别来电的类别
使用上述训练得到的分类数据库,来鉴别来电号码,若该来电不在通讯录中(a3=0),也不在训练样本集中,且接电话次数/接电话时长的比率a1=0.1,拔电话次数/拔电话时长的比率a2=0.2,则来电号码为正常来电的概率为:
P(C=0)P(x|C=0)=P(C=0)P(0.05<a1<0.2|C=0)P(0.1<a2<0.8|C=0)P(a3=0|C=0)=0.89*0.5*0.7*0.2=0.0623
来电号码为骚扰电话的概率为:
P(C=1)P(x|C=1)=P(C=1)P(0.05<a1<0.2|C=1)P(0.1<a2<0.8|C=1)P(a3=0|C=1)=0.11*0.1*0.2*0.9=0.00198
虽然来电没有在通讯录中,但通过来电提示装置的鉴别,更倾向于将此来电归入正常来电类别,因此通信终端界面可以向用户提示该来电为“正常来电”。
在生成分类数据库初期还可以使用训练数据进一步提高来电提示装置的分类质量。例如:在初期将训练样本集中的训练数据一分为二,用一部分构造分类数据库,然后用另一部分检测分类的准确率。
当收到一个新来电,该新来电没有任何历史通话记录,无法获得其各项特征属性值,其各项特征属性值相当于为0。此时可引入校准机制,对所有的特征属性值加一校准值(如加1),然后根据校准后的特征属性值来识别新来电的类别。当训练样本集数量充分大时,并不会对结果的准确性产生影响,并且实现了对新来电的准确分类。
从而,本实施例的来电提示方法,通过动态的获取训练样本集,并对训练样本集进行动态的统计和学习,生成动态的分类数据库,根据分类数据库对来电进行分类,不但可以判别来电是否为骚扰电话,还可以进一步识别出该来电所属类别,如家庭电话、工作电话、房地产电话等。由于分类数据库根据训练样本集和用户通信数据的更新而动态的、持续的更新和完善,因此针对不同的用户具有不同的分类结果,符合用户的使用习惯和人脉关系,具有分类质量高、分类速度快、误判率低的特点。进一步的,通过校准机制,还可以对未知来电的类别进行识别,进一步的还可以对来电类别进行提示。
参见图3,提出本发明的来电提示装置一实施例,所述来电提示装置可以应用于各种通信终端,其包括采集模块和来电提示模块。其中,采集模块用于采集来电的特征属性,来电提示模块模块用于根据来电的特征属性归属分类数据库的类别来进行来电提示。
具体的,来电提示模块包括获取单元、训练单元、分类单元和提示单元,其中:
获取单元:用于获取训练样本集,训练样本集中包括被分成至少两个类别的若干电话。
获取单元可以从外部获取训练样本集,如从网络数据库中获取电话分类集合作为训练样本集;也可以从本地获取训练样本集,如由用户手动标识或分类而生成的电话分类集合,将该分类集合作为训练样本集;或者综合前述两种途径获取训练样本集,并定时或实时的更新,自动更新或用户手动更新。训练样本集中的电话进行了分类,如分为骚扰电话和正常电话两个类别,或者分为工作电话、家庭电话、朋友电话、快递电话、房地产电话等多个类别。
训练单元:用于确定电话的特征属性,并划分特征属性的取值范围;计算出训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库。
其中,特征属性包括:接电话次数、拨电话次数、接电话时长、拨电话时长、接通次数、未接通次数、主动挂断次数、被挂断次数、接电话时间(24h)、打电话时间(24h)等,还可以是接电话次数与接电话时长的比率(接电话次数/接电话时长)、拨电话次数与拨电话时长的比率(拨电话次数/拨电话时长)等,并对各特征属性的取值范围进行划分,至少划分为两个范围。
第一概率是指某一类别的电话数量占整个训练样本集中所有电话的总量的比值。第二概率是指某一类别中具有某一取值范围的特征属性的电话数量占该类别中具有该特征属性的所有电话的数量的比值。设训练样本集中包括y1~yn共n个类别,电话包括a1~am共m个特征属性,则第一概率包括P(y1)~P(yn)共n个数值,第二概率包括P(a1∣y1)、P(a2∣y1)…P(am∣yn)共m*n个数值。
存储计算出的第一概率和第二概率,生成分类数据库。分类数据库中电话类别与第一概率一一对应,电话类别和不同取值范围的特征属性与第二概率一一对应。
训练单元根据电话数据的更新进行持续训练和学习,持续更新分类数据库。
训练单元在生成分类数据库初期还可以使用训练数据进一步提高来电提示装置的分类质量。例如:在初期将训练样本集中的训练数据一分为二,用一部分构造分类数据库,然后用另一部分检测分类的准确率。
分类单元:用于对来电进行分类。
分类单元首先判断来电是否在训练样本集中,若在训练样本集中,则直接从训练样本集中查询来电的类别。
若不在训练样本集中,则根据来电的特征属性和分类数据库判断来电的类别。具体的,分类单元首先从历史通话记录中统计出来电各特征属性的数值,然后根据来电的特征属性从分类数据库中查询来电对应的第二概率,根据第一概率和第二概率计算出来电属于每一类别的概率值,判定来电的类别为最大概率值所对应的类别。
当收到一个新来电,该新来电没有任何历史通话记录,无法获得其各项特征属性值,其各项特征属性值相当于为0。此时可引入校准机制,分类单元对所有的特征属性值加一校准值(如加1),然后根据校准后的特征属性值来识别新来电的类别。当训练样本集数量充分大时,并不会对结果的准确性产生影响,并且实现了对新来电的准确分类。
提示单元:用于向用户提示来电的类别。
提示单元可通过界面显示的方式提示用户,如在界面上显示文字、图像或符号;也可以通过声音提醒方式提示用户,如进行语音播报告知来电类别。
需要说明的是,上述方法实施例中的技术特征在本装置均对应适用,这里不再重述。
据此,本实施例的来电提示装置,通过动态的获取训练样本集,并对训练样本集进行动态的统计和学习,生成动态的分类数据库,根据分类数据库对来电进行分类,不但可以判别来电是否为骚扰电话,还可以进一步识别出该来电所属类别,如家庭电话、工作电话、房地产电话等。由于分类数据库根据训练样本集和用户通信数据的更新而动态的、持续的更新和完善,因此针对不同的用户具有不同的分类结果,符合用户的使用习惯和人脉关系,具有分类质量高、分类速度快、误判率低的特点。进一步的,通过校准机制,还可以对未知来电的类别进行识别,进一步的还可以对来电类别进行提示。
需要说明的是:前述实施例提供的来电提示装置在进行来电提示时,仅以前述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将前述功能分配由不同的功能模块完成。另外,前述实施例提供的来电提示装置与来电提示方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
参见图5,提出本发明的分类方法一实施例,所述分类方法可以对所有带特征属性的分类对象进行分类,包括电话号码、健康体征信息,天气信息、短信文字等等。所述分类方法包括以下步骤:
步骤S201:获取训练样本集,训练样本集中包括被分成至少两个类别的若干对象
可以从外部获取训练样本集,如从网络数据库中获取某种对象的分类集合作为训练样本集;也可以从本地获取训练样本集,如由用户手动标识或分类而生成的某种对象的分类集合,将该分类集合作为训练样本集;或者综合前述两种途径获取训练样本集,并定时或实时的更新,自动更新或用户手动更新。训练样本集中的对象进行了分类,以训练样本集中的对象为电话为例,可以分为骚扰电话和正常电话两个类别,或者分为工作电话、家庭电话、朋友电话、快递电话、房地产电话等多个类别。
步骤S202:确定对象的特征属性,并划分特征属性的取值范围
当训练样本集中的对象为电话时,其特征属性包括:接电话次数、拨电话次数、接电话时长、拨电话时长、接通次数、未接通次数、主动挂断次数、被挂断次数、接电话时间(24h)、打电话时间(24h)等,还可以是接电话次数与接电话时长的比率(接电话次数/接电话时长)、拨电话次数与拨电话时长的比率(拨电话次数/拨电话时长)等,并对各特征属性的取值范围进行划分,至少划分为两个范围。
步骤S203:计算出训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库
其中,第一概率是指某一类别的对象数量占整个训练样本集中所有对象的总量的比值。第二概率是指某一类别中具有某一取值范围的特征属性的对象数量占该类别中具有该特征属性的所有对象的数量的比值。设训练样本集中包括y1~yn共n个类别,对象包括a1~am共m个特征属性,则第一概率包括P(y1)~P(yn)共n个数值,第二概率包括P(a1∣y1)、P(a2∣y1)…P(am∣yn)共m*n个数值。
例如,以电话为例,训练样本集中收集了1000个电话,其中骚扰电话400个,正常电话600个,则骚扰电话的第一概率为400/1000=0.4,正常电话的第一概率为600/1000=0.6。同时,特征属性“接通电话时长”(单位:分钟)a包括三个的取值范围,分别为,a≤0.05,0.05<a<0.2,a≥0.2;骚扰电话中前述各取值范围的电话数量分别为300,70,30;则骚扰电话类别中“接通电话时长”的特征属性下各取值范围所对应的第二概率分别为300/400=3/4,70/400=7/40,30/400=3/40。
存储计算出的第一概率和第二概率,生成分类数据库。分类数据库中对象类别与第一概率一一对应,对象类别和不同取值范围的特征属性与第二概率一一对应。
步骤S201~S203是一个动态过程。分类装置根据对象数据的更新进行持续训练和学习,持续更新分类数据库。
步骤S204:获取分类对象
步骤S205:判断分类对象是否在训练样本集中
若分类对象在训练样本集中,则进入步骤S108,否则,进入步骤S106。
步骤S206:获取分类对象的特征属性
具体的,从历史记录中统计出分类对象各特征属性的数值。设分类对象为x,其包括a1~am共m个特征属性。
步骤S207:根据分类对象的特征属性和分类数据库判断分类对象的类别
本步骤S207具体流程如图6所示,包括以下步骤:
步骤S210:根据分类对象的特征属性从分类数据库中查询分类对象对应的第二概率
具体的,根据分类数据库中分类对象的类别及特征属性与第二概率的一一对应关系,查询出分类对象在每一类别下,每一特征属性所对应的第二概率。查询获得P(a1∣y1)~P(am∣yn)共m*n个第二概率。
例如,分类对象为来电,来电的特征属性“接通电话时长”a为0.1分钟,其对应的取值范围为0.05<a<0.2,该取值范围在骚扰电话类别下所对应的第二概率为7/40,则该来电在骚扰电话类别下,特征属性“接通电话时长”所对应的第二概率为7/40。
步骤S220:根据第一概率和第二概率计算出分类对象属于每一类别的概率值
具体的,设分类对象属于某一类别的概率为P(yi∣x),如果各个特征属性是独立的,则:
由于所有类别的分母P(x)均为常数,因此只需求得分子的值即可:
即,计算分类对象属于某一类别的概率值时,可以计算出该类别的第一概率和该类别所有特征属性所对应的第二概率的乘积。
步骤S230:判定分类对象的类别为最大概率值所对应的类别
本步骤S230中,如果P(yk|x)=max{P(y1|x),P(y2|x),...,P(yn|x)},则即,判定分类对象的类别为最大概率值所对应的类别。
步骤S208:从训练样本集中查询分类对象的类别
若分类对象在训练样本集中,则直接从训练样本集中查询获取分类对象的类别。
步骤S209:向用户提示分类对象的类别
可通过界面显示的方式提示用户,如在界面上显示文字、图像或符号;也可以通过声音提醒方式提示用户,如进行语音播报告知来电类别。
在生成分类数据库初期还可以使用训练数据进一步提高分类装置的分类质量。例如:在初期将训练样本集中的训练数据一分为二,用一部分构造分类数据库,然后用另一部分检测分类的准确率。
从而,本实施例的分类方法,通过动态的获取训练样本集,并对训练样本集进行动态的统计和学习,生成动态的分类数据库,根据分类数据库对分类对象进行分类,可以识别出该分类对象所属类别。由于分类数据库根据训练样本集和用户通信数据的更新而动态的、持续的更新和完善,因此针对不同的用户具有不同的分类结果,符合用户的使用习惯或者自身属性,具有分类质量高、分类速度快、误判率低的特点。
参见图7,提出本发明的分类装置一实施例,所述分类装置包括获取模块、训练模块、分类模块和提示模块。
获取模块:用于获取训练样本集,训练样本集中包括被分成至少两个类别的若干对象。
获取模块可以从外部获取训练样本集,如从网络数据库中获取某种对象的分类集合作为训练样本集;也可以从本地获取训练样本集,如由用户手动标识或分类而生成的某种对象的分类集合,将该分类集合作为训练样本集;或者综合前述两种途径获取训练样本集,并定时或实时的更新,自动更新或用户手动更新。训练样本集中的对象进行了分类,以训练样本集中的对象为电话为例,可以分为骚扰电话和正常电话两个类别,或者分为工作电话、家庭电话、朋友电话、快递电话、房地产电话等多个类别。
训练模块:用于确定对象的特征属性,并划分特征属性的取值范围;计算出训练样本集中每个类别在该训练样本集中的第一概率,以及每一类别中每一特征属性下不同取值范围的第二概率,据此生成分类数据库。
当训练样本集中的对象为电话时,其特征属性包括:接电话次数、拨电话次数、接电话时长、拨电话时长、接通次数、未接通次数、主动挂断次数、被挂断次数、接电话时间(24h)、打电话时间(24h)等,还可以是接电话次数与接电话时长的比率(接电话次数/接电话时长)、拨电话次数与拨电话时长的比率(拨电话次数/拨电话时长)等,并对各特征属性的取值范围进行划分,至少划分为两个范围。
第一概率是指某一类别的对象数量占整个训练样本集中所有对象的总量的比值。第二概率是指某一类别中具有某一取值范围的特征属性的对象数量占该类别中具有该特征属性的所有对象的数量的比值。设训练样本集中包括y1~yn共n个类别,对象包括a1~am共m个特征属性,则第一概率包括P(y1)~P(yn)共n个数值,第二概率包括P(a1∣y1)、P(a2∣y1)…P(am∣yn)共m*n个数值。
存储计算出的第一概率和第二概率,生成分类数据库。分类数据库中对象类别与第一概率一一对应,对象类别和不同取值范围的特征属性与第二概率一一对应。
训练模块根据电话数据的更新进行持续训练和学习,持续更新分类数据库。
训练模块在生成分类数据库初期还可以使用训练数据进一步提高分类装置的分类质量。例如:在初期将训练样本集中的训练数据一分为二,用一部分构造分类数据库,然后用另一部分检测分类的准确率。
分类模块:用于对接到来电进行分类。
分类模块首先判断分类对象是否在训练样本集中,若在训练样本集中,则直接从训练样本集中查询分类对象的类别。
若不在训练样本集中,则获取分类对象的特征属性,并根据特征属性和分类数据库判断分类对象的类别。具体的,分类模块首先从历史记录中统计出分类对象各特征属性的数值,然后根据分类对象的特征属性从分类数据库中查询分类对象对应的第二概率,根据第一概率和第二概率计算出分类对象属于每一类别的概率值,判定分类对象的类别为最大概率值所对应的类别。
当收到一个新的分类对象,该分类对象没有任何历史记录,无法获得其各项特征属性值,其各项特征属性值相当于为0。此时可引入校准机制,分类模块对所有的特征属性值加一校准值(如加1),然后根据校准后的特征属性值来识别新的分类对象的类别。当训练样本集数量充分大时,并不会对结果的准确性产生影响,并且实现了对新的分类对象的准确分类。
提示模块:用于向用户提示分类对象的类别。
提示模块可通过界面显示的方式提示用户,如在界面上显示文字、图像或符号;也可以通过声音提醒方式提示用户,如进行语音播报告知分类对象的类别。
分类装置可以对所有带特征属性的分类对象进行分类,包括电话号码、健康体征信息、天气信息、短信文字等等。分类数据库可以通过网络和本地更新,本地分类对象可以自动或手动加入本地分类数据库,以提高分类的准确性。
本实施例的分类装置,通过动态的获取训练样本集,并对训练样本集进行动态的统计和学习,生成动态的分类数据库,根据分类数据库对分类对象进行分类,可以识别出该分类对象所属类别。由于分类数据库根据训练样本集和用户通信数据的更新而动态的、持续的更新和完善,因此针对不同的用户具有不同的分类结果,符合用户的使用习惯或者自身属性,具有分类质量高、分类速度快、误判率低的特点。
需要说明的是:前述实施例提供的分类装置在进行分类时,仅以前述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将前述功能分配由不同的功能模块完成。另外,前述实施例提供的分类装置与分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤可以通过程序来控制相关的硬件完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质可以是ROM/RAM、磁盘、光盘等。
应当理解的是,以上仅为本发明的优选实施例,不能因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。