CN102646132B - 宽带用户属性识别方法和装置 - Google Patents
宽带用户属性识别方法和装置 Download PDFInfo
- Publication number
- CN102646132B CN102646132B CN201210082337.2A CN201210082337A CN102646132B CN 102646132 B CN102646132 B CN 102646132B CN 201210082337 A CN201210082337 A CN 201210082337A CN 102646132 B CN102646132 B CN 102646132B
- Authority
- CN
- China
- Prior art keywords
- user
- time window
- time
- broadband
- broadband user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title abstract description 15
- 230000002354 daily effect Effects 0.000 claims description 31
- 238000013459 approach Methods 0.000 claims description 25
- 238000013145 classification model Methods 0.000 claims description 11
- 230000003203 everyday effect Effects 0.000 claims description 8
- 230000000052 comparative effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种宽带用户属性识别方法和装置,方法包括:获取宽带用户的网页浏览日志,其中,所述网页浏览日志中的各条网页浏览信息至少包括网页地址和网页浏览时间;按照所述网页地址,将所述网页浏览信息进行分类;将分类后的网页浏览信息按照时间窗进行划分和统计,各所述时间窗为预设的不同网页浏览时间段;根据统计结果产生所述宽带用户对应的各时间窗的兴趣属性。根据本发明的宽带用户属性识别方法和装置,能够向同一宽带账号的不同用户推送相应的信息。
Description
技术领域
本发明涉及一种通信技术,尤其涉及宽带用户属性识别方法和装置。
背景技术
随着网络技术的飞速发展,越来越多的人开始采用固网宽带。运营商通常会根据固网宽带用户的兴趣向其推送一些信息,例如营销信息、打折信息或宣传信息等。
由于大多数固网宽带账户都是以家庭为单位开通的,同一账户的使用者可能是家庭里的多个成员,而目前运营商对固网宽带用户的上网行为的采集和分析,主要是基于BRAS(Broadband Remote Access Server,宽带接入服务器)和RADIUS(Remote Authentication Dial In User Service,远程用户拨号认证系统)数据分析的,因此会将同一宽带账号接入的多个用户识别为同一个用户,从而导致向同一个宽带账号的多个用户推送同一类信息,这会给同一账户的多个用户造成极大的不便。
发明内容
本发明提供一种宽带用户属性识别方法和装置,用于解决向同一宽带账号的不同用户推送相同信息的缺陷。
本发明的第一个方面是提供一种宽带用户属性识别方法,包括:
获取宽带用户的网页浏览日志,其中,所述网页浏览日志中的各条网页浏览信息至少包括网页地址和网页浏览时间;
按照所述网页地址,将所述网页浏览信息进行分类;
将分类后的网页浏览信息按照时间窗进行划分和统计,各所述时间窗为预设的不同网页浏览时间段;
根据统计结果产生所述宽带用户对应的各时间窗的兴趣属性。
本发明的另一个方面是提供一种宽带用户属性识别的装置,包括:
获取模块,用于获取宽带用户的网页浏览日志,其中,所述网页浏览日志中的各条网页浏览信息至少包括网页地址和网页浏览时间;
分类模块,用于按照所述网页地址,将所述网页浏览信息进行分类;
划分模块,用于将分类后的网页浏览信息按照时间窗进行划分和统计,各所述时间窗为预设的不同网页浏览时间段;
统计模块,用于根据统计结果产生所述宽带用户对应的各时间窗的兴趣属性。
本发明提供的宽带用户属性识别的方法和装置,能够向同一宽带账号的不同用户推送相应的信息。
附图说明
图1为根据本发明一实施例的宽带用户属性识别方法的流程示意图;
图2为根据本发明另一实施例的宽带用户属性识别方法的流程示意图;
图3为根据本发明又一实施例的宽带用户属性识别装置的结构示意图;
图4为根据本发明再一实施例的宽带用户属性识别装置的结构示意图;
图5为根据本发明另一实施例的宽带用户属性识别装置的结构示意图。
具体实施方式
实际生活中,经常会出现一个宽带账号对应多个用户的情况。例如,在一个家庭中,一个宽带账号可以被父亲、母亲、孩子所使用。而多个宽带用户在使用同一个账号时,经常是有一定的使用时间规律的。例如,如果父亲为自由工作人员,则会在上午9:00至11:00以及下午14:00至17:00时使用,母亲会在中午下班回来休息时12:00至13:00左右使用,而孩子有可能是在晚上放学回来19:00至21:00时使用。也就是说,多个用户在使用同一个账号时,由于各自的作息时间会导致使用该账号时遵循一定的使用时间规律。
下面,将以各个实施例具体描述如何识别宽带用户属性,以在不同的时间内向使用同一宽带账户的不同用户推送相应的信息。下面各实施例所描述的宽带用户可以理解为采用宽带账号表示的用户。
实施例一
本发明提供一种宽带用户属性识别方法,其适用于宽带用户属性识别装置。该宽带用户属性识别装置通过统计用户的网页浏览日志,获取不同时间窗内用户的兴趣属性,即根据网页浏览的内容获取宽带用户可能感兴趣的信息的类型,继而可以根据相应时间段内的兴趣属性向宽带用户推送相应的信息。该宽带用户属性识别装置可以集成在计算机系统中。
如图1所示,为根据本实施例的宽带用户属性识别方法的流程示意图,该宽带用户属性识别方法包括:
步骤101,获取宽带用户的网页浏览日志,其中,网页浏览日志中的各条网页浏览信息至少包括网页地址和相应的网页浏览时间。
网页浏览时间可以为在该网页的起始时间。能够想象到的是,也许在不同时刻会浏览同一网页,则网页浏览日志就会产生多条网页浏览信息,每条网页浏览信息的网页地址相同,但是网页浏览时间不同。
具体举例来说,如果在2012年3月1日上午9点时该宽带用户浏览了网页A,则产生的网页浏览信息为(网页A地址,2012-03-01-09-00),如果上午11点该宽带用户又浏览了网页A,则又产生了一条网页浏览信息为(网页A地址,2012-03-01-11-00),如果下午15点该宽带用户再次浏览了网页A,则再次产生了一条网页浏览信息为(网页A地址,2012-03-01-15-00)。这些网页浏览信息在后续的划分时间窗步骤中也许会被划分入不同的时间窗中。
步骤102,按照网页地址,将网页浏览信息进行分类。
本步骤中,可以将网页地址中具有相同关键字的网页地址划分为一类,或者将相应网页地址所呈现的内容中具有相同关键字的网页地址划分为一类,还可以由预先设定的文本分类模型将网页地址进行分类,该预先设定的标识器可以集成在宽带用户属性识别装置中。具体分类方式可以根据实际需要自行设定,在此不再赘述。类别可以分为“财经”、“政治”、“体育”以及“娱乐”等,还可以根据实际需要设置其它类别,在此不再赘述。
步骤103,将分类后的网页浏览信息按照时间窗进行划分和统计,各时间窗为设定的不同网页浏览时间段。
时间窗为预设的时间段,例如在自然日的24个小时内,以每个小时为一个时间窗或每两个小时为一个时间窗,具体可以根据实际需要自行设计,本实施例中对时间窗的长短划分不做限定。
步骤104,根据统计结果产生宽带用户对应的各时间窗的兴趣属性。
本步骤可以根据统计结果识别宽带用户的多个兴趣属性,具体来说,不同的兴趣属性可以代表使用同一个宽带账户的不同成员。
本实施例的宽带用户属性识别方法,利用不同的用户会对不同的网页感兴趣,通过对网络浏览日志进行分类,并按照时间窗进行划分和统计,以推测在不同的时间段内使用该宽带账号的用户的兴趣属性。
可选地,在根据统计结果产生宽带用户对应的各时间窗的兴趣属性之后,还包括:
向推送平台发送所述宽带用户对应的各时间窗的兴趣属性,以使推送平台在每个兴趣属性所对应的时间窗内,向宽带用户下发兴趣属性对应的推送信息。
推送平台即网络侧的推送消息的平台,现有技术中已经有很多这样的推送平台,在此不再赘述。推送平台在接收到宽带用户对应的各个时间窗的兴趣属性后,向宽带用户下发兴趣属性对应的推送消息。
这样,通过本实施例的方法,就可以对使用同一个宽带账号的不同用户推送相应的信息。推送信息可以包括学习信息、打折信息、影讯信息等等。
实施例二
本实施例提供一种宽带用户属性识别方法,其适用于宽带用户属性识别装置。该宽带用户属性识别装置通过统计用户的网页浏览日志,获取不同时间窗内用户的兴趣属性,即根据网页浏览的内容获取宽带用户可能感兴趣的信息的类型,继而可以根据相应时间段内的兴趣属性向宽带用户推送相应的信息。该宽带用户属性识别装置可以集成在计算机系统中。
如图2所示,本实施例的宽带用户属性识别方法具体包括:
步骤201,从BSS(Business Supporting System,业务支撑系统)/OSS(Operation Supporting System,运营支撑系统)系统采集电信业务清单、用户身份信息和/或订购业务信息,作为用户信息;
步骤202,从BRAS(Broadband Remote Access Serve,宽带远程接入服务器)和RADIUS(Remote Authentication Dial In User Service,远程用户拨号认证系统)采集宽带用户的网页浏览原始信息,作为浏览行为信息;
步骤203,根据用户信息和浏览行为信息产生宽带用户的网页浏览日志,其中,网页浏览日志中的各条网页浏览信息至少包括网页地址和与该网页地址相对应的网页浏览时间。
步骤201~步骤203即为获取宽带用户的网页浏览日志的具体操作。
步骤204,按照网页地址,将网页浏览信息进行分类。
本步骤中,可以将网页地址中具有相同关键字的网页地址划分为一类,或者将相应网页地址所呈现的内容中具有相同关键字的网页地址划分为一类,还可以根据预先设定的文本分类模型将网页地址进行分类。具体分类方式可以根据实际需要自行设定,在此不再赘述。
步骤205,将分类后的网页浏览信息按照时间窗进行划分和统计,各时间窗为设定的不同网页浏览时间段。
时间窗为预设的时间段,例如在自然日的24个小时内,以每个小时为一个时间窗或每两个小时为一个时间窗,具体可以根据实际需要自行设计,本实施例中对时间窗的划分不做限定。
步骤206,根据统计结果产生宽带用户对应的各时间窗的兴趣属性。
本实施例的宽带用户属性识别方法,利用不同的用户会对不同的网页感兴趣,通过对网络浏览日志进行分类,并按照时间窗进行划分和统计,以推测在不同的时间段内使用该宽带账号的用户的兴趣属性。
可选地,在根据统计结果产生宽带用户对应的各时间窗的兴趣属性之后,还包括:
在每个兴趣属性所对应的时间窗内,向宽带用户下发兴趣属性对应的推送信息。
这样,通过本实施例的方法,就可以对使用同一个宽带账号的不同用户推送相应的信息。推送信息可以包括学习信息、打折信息、影讯信息等等。
实施例三
本实施例提供一种宽带用户属性识别方法,其适用于宽带用户属性识别装置。该宽带用户属性识别装置通过统计用户的网页浏览日志,获取不同时间窗内用户的兴趣属性,即根据网页浏览的内容获取宽带用户可能感兴趣的信息的类型,继而可以根据相应时间段内的兴趣属性向宽带用户推送相应的信息。该宽带用户属性识别装置可以集成在计算机系统中。
具体地,本实施例的宽带用户属性识别方法包括:
步骤301,获取宽带用户的网页浏览日志,其中,网页浏览日志中的各条网页浏览信息至少包括网页对应的网页地址和网页浏览时间。
步骤302,按照网页地址,根据预设的文本分类模型,对网页浏览信息进行分类,产生用户u的属性序列L(u):
L(u)={(p1.cluster,p1.time),...,(pi.cluster,pi.time),...,(pM.cluster,pM.time)};
其中,pi.cluster表示用户u对应的网页浏览信息中用户u访问的第i个网页pi所属的主题类别,pi.time表示用户u访问网页pi的时间,M表示用户u网页浏览日志中用户u访问的网页总数,1≤i≤M。
步骤303,针对每个主题类别序列,基于如下公式按照时间窗进行划分和统计,获取时间窗序列L(u,d,j):
L(u,d,j)={(clusterj1,wj1),...,(clusterjr,wjr),...,(clusterjNr,wjNr)};
其中,clusterjr表示用户u对应的网页浏览信息中用户u在第d天的第j个时间窗内访问的第r个主题类别,wjr表示用户u在第d天的第j个时间窗内访问的第r个主题类别的权重,Nr表示用户u在第d天的第j个时间窗内访问的主题类别的总数,1≤j≤H,H表示每天的最后一个时间窗。能够想象到的是,这里的i、j、r和Nr均为整数。另外,这里的d天可以代表每周的第一天、第二天等等,即周一、周二、周三等。通常情况下,由多个用户使用的同一个账户在工作日(周一至周五)和在休息日(周六和周日)的兴趣属性不一样,这样可以建立两个宽带用户属性识别模型,即一个为在工作日的宽带用户属性识别模型,一个为在休息日的宽带用户属性识别模型。
另外本实施例中的时间窗的长度可以相等,也可以不等。例如,每天中的前H-1个时间窗的长度大小τ相等,且每天第H个时间窗的时间段大小t有0<t≤τ。举例来说,由于时间窗是按照实际需要进行划分的,当每3个小时为一个时间窗时,一天24小时可以划分为8个时间窗。但是当以每5个小时为一个时间窗时,一天24小时中的前20个小时可以划分为4个时间窗,最后一个时间窗H即为4个小时。
此外,主题类别的权重wjr按照如下公式计算,njr表示用户u对应的网页浏览信息中用户u在第d天的第j个时间窗内访问的第r个主题类别的数目:
该权重wjr用于表示在每个时间窗内各主题类别所占的比例,引入该权重的目的是为了监测在当前时间窗内,用户对各主题类别所感兴趣的程度,以便在后续的流程中决定向使用该宽带账户的当前用户主要推送哪种类型的信息。
步骤304,根据统计结果产生宽带用户对应的各时间窗的兴趣属性。
用户在不同的时间窗内所对应的兴趣属性是根据权重来进行判断的,可以选择某一时间窗内权重较大的前几位主题类别作为该宽带用户在该时间窗内的兴趣属性。例如,当同一时间窗内的主题类别有“体育”、“新闻”、“财经”、“动画”以及“娱乐”时,“体育”的权重为60%,“新闻”的权重为20%,“财经”的权重为10%,“动画”和“娱乐”均为5%时,可以选取权重较大的两个主题类别作为该时间窗内的兴趣属性,即该时间窗内的兴趣属性为“体育”和“新闻”,当然也可以仅将权重最大的主题类别作为该时间窗的兴趣属性,即“体育”。
这样,在确定出各时间窗的兴趣属性之后,就可以根据每个时间窗的兴趣属性向用户u推送相应的消息。
根据本实施例的宽带用户属性识别方法,利用不同的用户会对不同的网页感兴趣,通过对网络浏览日志进行分类,并按照时间窗进行划分和统计,以推测在不同的时间段内使用该宽带账号的用户的兴趣属性。
实施例四
本实施例对上实施例三做进一步补充说明。本实施例中仅对文本分类模型的生成做说明,其它步骤均与实施例三一致,在此不再赘述。
本实施例中的文本分类模型的生成方法具体如下:
步骤401,对有类别标注的分类训练文档库的文档进行预处理,得到规范化文本。
例如,首先对有主题类别标注的分类训练文档库的文档进行预处理。其中,分类训练文档库可以由电信业务推荐系统的使用者自行建立,形式可以是一个名为“示例文档库”的大文件夹和一个名为“示例文档主题标引对照表”的文档或数据表。示例文档库内是一些示例文档,示例文档主题标引对照表说明各示例文档的主题标引,如“体育”、“音乐”、“财经”等等。根据电信业务推荐的需要,文档主题的颗粒度可以再细化,如“体育”可以再细分为“足球”、“排球”等等。示例文档的格式不限,可以是txt纯文本、web文本、word文本、ppt文本、pdf文本等等,txt和web类型以外的文档预处理时还需要做文档识别工作,因此建议系统使用者自行建立文档库时最好选择txt和web类型的示例文档。示例文档的语言不限,可以是中文文本、英文文本、中英文混合文本。
在预处理时可以去除示例文本中的噪声,如广告条、导航条、书签等;并使用词法规则对英文文本进行词法分析,把变形后的词恢复原型,包括名词的复数去除、动词的时态转换、动词第三人称转换、词干抽取等,得到规范化的文本。
步骤402、对规范化文本进行中文分词和英文词组辨认,去除非分类信息词,得到带分词标识文本;
例如,可以根据分词词典,对步骤401中得到的规范化文本进行中文分词和英文词组辨认,并根据停用词词典,去掉该规范化文本中的非分类信息词,即不含有分类信息的词,例如介词、带从句的副词、冠词、连词、代词、情态动词或语气助词等虚词,得到带分词标识文本。
其中,分词就是使用划分符号,对文本进行以词或词组为单位的划分。划分符号可以是形如“\w”的标识符号。例如,“云计算(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。”采用“\w”符号分词并去除非分类信息词后可得到:“云计算\wCloud Computing\w分布式处理\wDistributed Computing\w并行处理\w Paralle1 Computing\w网格计算\w Grid Computing\w发展\w计算机\w科学\w概念\w商业\w实现\w”。
步骤403、对带分词标识文本进行词频统计和特征抽取,生成文本向量;
例如,对步骤402得到的带分词标识的文本进行词频统计和特征抽取,得到特征向量空间,由此生成文本的向量空间模型,即生成文本向量。
步骤404、对文本向量进行分类训练,获得文本标识时所需的参数,即生成文本分类模型。
本实施例的宽带用户属性识别方法,通过生成文本分类模型,以便在后续的对网页浏览信息进行主题类别的标识,方便快捷。
实施例五
本实施例对上述实施例的宽带用户属性识别方法做进一步改进。
本实施例中,在向宽带用户下发兴趣属性对应的推送信息之前,还包括:
步骤501,每隔预设周期,获取宽带用户的当前兴趣属性;
这里的预设周期可以根据实际需要自行设定,例如可以在每个时间窗的起始时间的一段时间内。例如,当时间窗的长度为两个小时时,选取在每个时间窗的前半个小时之内,根据实施例一至实施例四的获取宽带用户的兴趣属性的方法,获取宽带用户的当前兴趣属性。
步骤502,将当前兴趣属性与根据统计结果产生的宽带用户对应的兴趣属性进行比较,当比较结果一致时,执行向宽带用户下发兴趣属性对应的推送信息的操作,否则,停止操作。
当宽带用户的当前兴趣属性与预先统计的兴趣属性一致时,则说明当前使用该宽带账号的宽带用户的兴趣未改变,可以按照预先统计的宽带用户的兴趣属性进行信息的推送。
根据本实施例的宽带用户属性识别方法,通过每隔预设周期,检测宽带用户的当前兴趣属性,并与原先统计的宽带用户的兴趣属性进行比较,以随时检测宽带用户的兴趣属性是否发生变化,进而避免向宽带用户推送错误的信息。
可选地,当未执行向宽带用户下发兴趣属性对应的推送信息的操作的时间或次数超过预设阈值时,重新获取宽带用户的兴趣属性。
这个预设阈值可以根据实际需要自行设定,例如按照时间窗来设定,当未进行信息推送的时间超过三个时间窗时,或者是本应该进行三次推送信息却没有进行推送时,该宽带账号的宽带用户的兴趣属性很有可能已经发生变化,此时需要按照上述的获取宽带用户兴趣属性的方法重新获取该宽带账号的宽带用户的兴趣属性。
实施例六
本实施例提供一种宽带用户属性识别的装置,用于执行实施例一的宽带用户属性识别的方法。该宽带用户属性识别装置可以集成在计算机系统中。
如图3所示,为根据本实施例的宽带用户属性识别装置的结构示意图。该宽带用户属性识别装置包括获取模块601、分类模块602、划分模块603和统计模块604。
其中,获取模块601用于获取宽带用户的网页浏览日志,具体地,网页浏览日志中的各条网页浏览信息至少包括网页地址和网页浏览时间;分类模块602与获取模块601连接,用于按照网页地址,将网页浏览信息进行分类;划分模块603与分类模块602连接,用于将分类后的网页浏览信息按照时间窗进行划分和统计,各时间窗为预设的不同网页浏览时间段;统计模块604与划分模块603连接,用于根据统计结果产生宽带用户对应的各时间窗的兴趣属性。
本实施例的宽带用户属性识别装置的具体操作方法与实施例一一致,在此不再赘述。
根据本实施例的宽带用户属性识别装置,利用不同的用户会对不同的网页感兴趣,通过对网络浏览日志进行分类,并按照时间窗进行划分和统计,以推测在不同的时间段内使用该宽带账号的用户的兴趣属性。
实施例七
本实施例对实施例六的宽带用户属性识别装置做进一步补充说明。本实施例的宽带用户属性识别装置用于执行实施例二宽带用户属性识别方法。
如图4所示,为根据本实施例的宽带用户属性识别装置的结构示意图。。
本实施例中的分类模块602具体用于按照网页地址,根据预先设定的文本分类模型,对网页浏览信息进行分类,产生用户u的属性序列L(u):
L(u)={(p1.cluster,p1.time),...,(pi.cluster,pi.time),...,(pM.cluster,pM.time)};
其中,pi.cluster表示用户u对应的网页浏览信息中用户u访问的第i个网页pi所属的主题类别,pi.time表示用户u访问网页pi的时间,M表示用户u网页浏览日志中用户u访问的网页总数,1≤i≤M,(pi.cluster,pi.time)记为每个主题类别序列。
划分模块603具体用于针对每个主题类别序列,基于如下公式按照时间窗进行划分和统计,获取时间窗序列L(u,d,j):
L(u,d,j)={(clusterj1,wj1),...,(clusterjr,wjr),...,(clusterjNr,wjNr)};
其中,clusterjr表示用户u对应的网页浏览信息中用户u在第d天的第j个时间窗内访问的第r个主题类别,wjr表示用户u在第d天的第j个时间窗内访问的第r个主题类别的权重,Nr表示用户u在第d天的第j个时间窗内访问的主题类别的总数,1≤j≤H,H表示每天的最后一个时间窗。其中,每天中的前H-1个时间窗的长度大小τ相等,且每天第H个时间窗的时间段大小t有0<t≤τ。能够想象到的是,这里的i、j、r和Nr均为整数。
主题类别的权重wjr按照如下公式计算,njr表示用户u对应的网页浏览信息中用户u在第d天的第j个时间窗内访问的第r个主题类别的数目:
统计模块604与划分模块603连接,用于根据统计结果产生宽带用户对应的各时间窗的兴趣属性。例如,在周一的第一个时间窗内划分模块603中所统计出的主题类别为“新闻”的权重为70%,“财经”的权重为20%,“动画”的权重为10%,则可以将权重最大的“新闻”作为该时间窗的兴趣属性。
优选地,还包括发送模块702,该发送模块702与统计模块604连接,用于向推送平台发送所述宽带用户对应的各时间窗的兴趣属性,以使所述推送平台在每个兴趣属性所对应的时间窗内,向宽带用户下发兴趣属性对应的推送信息。
本实施例中的预先设定的文本分类模型的生成方法与实施例四一致,在此不再赘述。
根据本实施例的宽带用户属性识别装置,利用不同的用户会对不同的网页感兴趣,通过对网络浏览日志进行分类,并按照时间窗进行划分和统计,以推测在不同的时间段内使用该宽带账号的用户的兴趣属性。
实施例八
本实施例对上述实施例的宽带用户属性识别装置做进一步补充说明,以执行实施例五的宽带用户属性的识别方法。
如图5所示,本实施例的宽带用户属性识别装置还包括周期检测模块801和比较模块802。
其中,周期检测模块801用于每隔预设周期,获取宽带用户的当前兴趣属性;比较模块802分别与周期检测模块801、发送模块702和统计模块604连接,用于将当前兴趣属性与根据统计结果产生的宽带用户对应的兴趣属性进行比较,当比较结果一致时,触发发送模块702执行向宽带用户下发兴趣属性对应的推送信息的操作,否则,停止操作。
优选地,本实施例的宽带用户属性识别装置还包括重新获取兴趣属性模块803,该重新获取兴趣属性模块803与比较模块802连接,用于当未执行向宽带用户下发兴趣属性对应的推送信息的操作的时间或次数超过预设阈值时,重新获取宽带用户的兴趣属性。
根据本实施例的宽带用户属性识别方法,通过每隔预设周期,检测宽带用户的当前兴趣属性,并与原先统计的宽带用户的兴趣属性进行比较,以随时检测宽带用户的兴趣属性是否发生变化,进而避免向宽带用户推送错误的信息,并及时获取更改后的宽带用户的兴趣属性,能够及时向更改了兴趣属性的宽带用户推送相应的信息。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种宽带用户属性识别方法,其特征在于,包括:
获取宽带用户的网页浏览日志,其中,所述网页浏览日志中的各条网页浏览信息至少包括网页地址和网页浏览时间;
按照所述网页地址,将所述网页浏览信息进行分类;
将分类后的网页浏览信息按照时间窗进行划分和统计,各所述时间窗为预设的不同网页浏览时间段;
根据统计结果产生所述宽带用户对应的各时间窗的兴趣属性;
按照所述网页地址,将所述网页浏览信息进行分类包括:
按照所述网页地址,根据预先设定的文本分类模型,对所述网页浏览信息进行分类,产生用户u的属性序列L(u):
L(u)={(p1.cluster,p1.time),…,(pi.cluster,pi.time),…,(pM.cluster,pM.time)};
其中,pi.cluster表示用户u对应的网页浏览信息中用户u访问的第i个网页pi所属的主题类别,pi.time表示用户u访问网页pi的时间,M表示用户u网页浏览日志中用户u访问的网页总数,1≤i≤M,(pi.cluster,pi.time)记为每个主题类别序列;
所述将分类后的网页浏览信息按照时间窗进行划分和统计包括:
针对每个主题类别序列,基于如下公式按照时间窗进行划分和统计,获取时间窗序列L(u,d,j):
L(u,d,j)={(clusterj1,wj1),…,(clusterjr,wjr),…,(clusterjNr,wjNr)};
其中,clusterjr表示用户u对应的网页浏览信息中用户u在第d天的第j个时间窗内访问的第r个主题类别,wjr表示用户u在第d天的第j个时间窗内访问的第r个主题类别的权重,Nr表示用户u在第d天的第j个时间窗内访问的主题类别的总数,1≤j≤H,H表示每天的最后一个时间窗;
所述主题类别的权重wjr按照如下公式计算,njr表示所述用户u对应的网页浏览信息中用户u在第d天的第j个时间窗内访问的第r个主题类别的数目:
2.根据权利要求1所述的宽带用户属性识别方法,其特征在于,在所述根据统计结果产生所述宽带用户对应的至少两个兴趣属性之后,还包括:
向推送平台发送所述宽带用户对应的各时间窗的兴趣属性,以使所述推送平台在每个兴趣属性所对应的时间窗内,向所述宽带用户下发所述兴趣属性对应的推送信息。
3.根据权利要求2所述的宽带用户属性识别方法,其特征在于,在向所述宽带用户下发所述兴趣属性对应的推送信息之前,还包括:
每隔预设周期,获取宽带用户的当前兴趣属性;
将所述当前兴趣属性与根据统计结果产生的宽带用户对应的兴趣属性进行比较,当比较结果一致时,执行向所述宽带用户下发所述兴趣属性对应的推送信息的操作,否则,停止操作。
4.根据权利要求3所述的宽带用户属性识别方法,其特征在于,还包括:
当未执行向所述宽带用户下发所述兴趣属性对应的推送信息的操作的时间或次数超过预设阈值时,重新获取所述宽带用户的兴趣属性。
5.一种宽带用户属性识别的装置,其特征在于,包括:
获取模块,用于获取宽带用户的网页浏览日志,其中,所述网页浏览日志中的各条网页浏览信息至少包括网页地址和网页浏览时间;
分类模块,用于按照所述网页地址,将所述网页浏览信息进行分类;
划分模块,用于将分类后的网页浏览信息按照时间窗进行划分和统计,各所述时间窗为预设的不同网页浏览时间段;
统计模块,用于根据统计结果产生所述宽带用户对应的各时间窗的兴趣属性;
所述分类模块具体用于:
按照所述网页地址,根据预先设定的文本分类模型,对所述网页浏览信息进行分类,产生用户u的属性序列L(u):
L(u)={(p1.cluster,p1.time),…,(pi.cluster,pi.time),…,(pM.cluster,pM.time)};
其中,pi.cluster表示用户u对应的网页浏览信息中用户u访问的第i个网页pi所属的主题类别,pi.time表示用户u访问网页pi的时间,M表示用户u网页浏览日志中用户u访问的网页总数,1≤i≤M,(pi.cluster,pi.time)记为每个主题类别序列;
所述划分模块具体用于:
针对每个主题类别序列,基于如下公式按照时间窗进行划分和统计,获取时间窗序列L(u,d,j):
L(u,d,j)={(clusterj1,wj1),…,(clusterjr,wjr),…,(clusterjNr,wjNr)};
其中,clusterjr表示用户u对应的网页浏览信息中用户u在第d天的第j个时间窗内访问的第r个主题类别,wjr表示用户u在第d天的第j个时间窗内访问的第r个主题类别的权重,Nr表示用户u在第d天的第j个时间窗内访问的主题类别的总数,1≤j≤H,H表示每天的最后一个时间窗;
所述主题类别的权重wjr按照如下公式计算,njr表示所述用户u对应的网页浏览信息中用户u在第d天的第j个时间窗内访问的第r个主题类别的数目:
6.根据权利要求5所述的宽带用户属性识别装置,其特征在于,还包括:
发送模块,用于向推送平台发送所述宽带用户对应的各时间窗的兴趣属性,以使所述推送平台在每个兴趣属性所对应的时间窗内,向所述宽带用户下发所述兴趣属性对应的推送信息。
7.根据权利要求6所述的宽带用户属性识别装置,其特征在于,还包括:
周期检测模块,用于每隔预设周期,获取宽带用户的当前兴趣属性;
比较模块,用于将所述当前兴趣属性与根据统计结果产生的宽带用户对应的兴趣属性进行比较,当比较结果一致时,触发所述发送模块执行向所述宽带用户下发所述兴趣属性对应的推送信息的操作,否则,停止操作。
8.根据权利要求7所述的宽带用户属性识别装置,其特征在于,还包括:
重新获取兴趣属性模块,用于当未执行向所述宽带用户下发所述兴趣属性对应的推送信息的操作的时间或次数超过预设阈值时,重新获取所述宽带用户的兴趣属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210082337.2A CN102646132B (zh) | 2012-03-26 | 2012-03-26 | 宽带用户属性识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210082337.2A CN102646132B (zh) | 2012-03-26 | 2012-03-26 | 宽带用户属性识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102646132A CN102646132A (zh) | 2012-08-22 |
CN102646132B true CN102646132B (zh) | 2014-03-12 |
Family
ID=46658951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210082337.2A Active CN102646132B (zh) | 2012-03-26 | 2012-03-26 | 宽带用户属性识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102646132B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103997507B (zh) * | 2013-02-20 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种信息的推送方法及装置 |
CN104090886B (zh) * | 2013-12-09 | 2015-09-09 | 深圳市腾讯计算机系统有限公司 | 构建用户实时画像的方法及装置 |
CN105634854A (zh) * | 2014-11-07 | 2016-06-01 | 中兴通讯股份有限公司 | 用户属性分析方法及装置 |
CN105099870B (zh) * | 2015-05-28 | 2019-02-15 | 努比亚技术有限公司 | 一种消息推送方法及装置 |
CN110020162B (zh) * | 2017-12-14 | 2021-09-03 | 北京京东尚科信息技术有限公司 | 用户识别方法和装置 |
CN108334588B (zh) * | 2018-01-29 | 2021-03-23 | 北京搜狐新媒体信息技术有限公司 | 一种用户标签构建方法及装置 |
CN110351343A (zh) * | 2019-06-21 | 2019-10-18 | 北京纵横无双科技有限公司 | 一种基于大数据分析的信息精准推送方法及装置 |
CN111222566B (zh) * | 2020-01-02 | 2020-09-01 | 平安科技(深圳)有限公司 | 用户属性识别方法、装置及存储介质 |
CN115134399B (zh) * | 2021-03-24 | 2023-09-19 | 中国移动通信集团河南有限公司 | 一种用户识别的方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7757250B1 (en) * | 2001-04-04 | 2010-07-13 | Microsoft Corporation | Time-centric training, inference and user interface for personalized media program guides |
CN100389605C (zh) * | 2005-03-28 | 2008-05-21 | 联想(北京)有限公司 | 一种基于电子节目指南的节目推荐方法 |
CN101365153A (zh) * | 2007-08-08 | 2009-02-11 | 上海亿动信息技术有限公司 | 一种按时间段分配手机广告发布信息的方法和系统 |
US20090228357A1 (en) * | 2008-03-05 | 2009-09-10 | Bhavin Turakhia | Method and System for Displaying Relevant Commercial Content to a User |
CN101866341A (zh) * | 2009-04-17 | 2010-10-20 | 华为技术有限公司 | 一种信息推送方法、装置及系统 |
CN101917665B (zh) * | 2010-08-23 | 2013-11-13 | 宇龙计算机通信科技(深圳)有限公司 | 一种信息推送方法及系统 |
CN102316166B (zh) * | 2011-09-26 | 2015-07-08 | 中国科学院计算机网络信息中心 | 网站推荐方法和系统以及网络服务器 |
-
2012
- 2012-03-26 CN CN201210082337.2A patent/CN102646132B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN102646132A (zh) | 2012-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102646132B (zh) | 宽带用户属性识别方法和装置 | |
Alberto et al. | Tubespam: Comment spam filtering on youtube | |
Zhu et al. | Mobile app classification with enriched contextual information | |
CN105069102B (zh) | 信息推送方法和装置 | |
CN110209808B (zh) | 一种基于文本信息的事件生成方法以及相关装置 | |
Duan et al. | Twitter topic summarization by ranking tweets using social influence and content quality | |
Vosoughi et al. | Enhanced twitter sentiment classification using contextual information | |
CN102215300B (zh) | 电信业务推荐方法和系统 | |
Kestemont et al. | Cross-genre authorship verification using unmasking | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
CN103870001B (zh) | 一种生成输入法候选项的方法及电子装置 | |
US20100306144A1 (en) | System and method for classifying information | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN105912576A (zh) | 情感分类方法及系统 | |
CN103544321A (zh) | 用于微博情感信息的数据处理方法和装置 | |
Çakir et al. | Text mining analysis in Turkish language using big data tools | |
CN104217038A (zh) | 一种针对财经新闻的知识网络构建方法 | |
WO2014000130A1 (en) | Method or system for automated extraction of hyper-local events from one or more web pages | |
Zhu et al. | Real-time personalized twitter search based on semantic expansion and quality model | |
CN103869999A (zh) | 对输入法所产生的候选项进行排序的方法及装置 | |
Wijaya et al. | Automatic mood classification of Indonesian tweets using linguistic approach | |
CN106682206A (zh) | 一种大数据处理方法及系统 | |
EP3001327A1 (en) | Method and system of enhancing online contents value | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
Di Castro et al. | Automated extractions for machine generated mail |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |