CN106383857A - 一种信息处理方法及电子设备 - Google Patents
一种信息处理方法及电子设备 Download PDFInfo
- Publication number
- CN106383857A CN106383857A CN201610795766.2A CN201610795766A CN106383857A CN 106383857 A CN106383857 A CN 106383857A CN 201610795766 A CN201610795766 A CN 201610795766A CN 106383857 A CN106383857 A CN 106383857A
- Authority
- CN
- China
- Prior art keywords
- record
- label
- user
- webpage
- application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 11
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 10
- 230000009193 crawling Effects 0.000 description 6
- 238000007635 classification algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000238557 Decapoda Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 244000089409 Erythrina poeppigiana Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供一种信息处理方法及电子设备,用以提高获取的用户数据的准确性。其中,该信息处理方法包括:从网关设备中获取用户的网络访问记录;其中所述网络访问记录包括所述用户访问网页的记录和/或所述用户使用应用的记录;为所述网络访问记录中的每条记录分配权重;根据网页和标签之间的对应规则,为所述用户访问网页的记录分配标签;和/或,根据应用和标签之间的对应规则,为所述用户使用应用的记录分配标签;根据为所述每条记录分配的标签和权重,生成所述用户的网络使用信息;其中,所述网络使用信息用于指示所述用户的兴趣。
Description
技术领域
本发明实施例涉及网络技术领域,尤其涉及一种信息处理方法及电子设备。
背景技术
企业通过发掘用户的兴趣爱好,能够有效地勾画目标用户、联系用户诉求与企业产品设计方向。例如:通过发掘用户的兴趣爱好,广告行业可以对不同用户进行精准广告推送,交易类平台可以对不同用户进行个性化推荐,内容类网站可以对不同用户进行内容优化和内容推荐。也就是说,通过发掘用户的兴趣爱好,明确用户的特征和需求后,企业的产品设计和营销策略将具有针对性,有助于提高服务的质量和产品的投资回报率。
传统的发掘用户的兴趣爱好的方法主要是线下会员管理、问卷调查等,这些方法所获取的数据的可靠程度受到用户填写的信息的真实性的影响,准确性不高,且获取数据的方式也比较麻烦。
发明内容
本发明实施例提供一种信息处理方法及电子设备,用于提高获取的用户数据的准确性。
第一方面,本发明实施例提供一种信息处理方法,包括:
从网关设备中获取用户的网络访问记录;其中所述网络访问记录包括所述用户访问网页的记录和/或所述用户使用应用的记录;
为所述网络访问记录中的每条记录分配权重;
根据网页和标签之间的对应规则,为所述用户访问网页的记录分配标签;和/或,根据应用和标签之间的对应规则,为所述用户使用应用的记录分配标签;
根据为所述每条记录分配的标签和权重,生成所述用户的网络使用信息;其中,所述网络使用信息用于指示所述用户的兴趣。
可选的,为所述网络访问记录中的每条记录分配权重,包括:根据第一分配原则、第二分配原则、第三分配原则和第四分配原则中的至少一种分配原则为所述网络访问记录中的每条记录分配权重;其中,
所述第一分配原则为:根据所述每条记录的类型为所述每条记录分配权重;其中,记录的类型用于指示所述记录为访问网页的记录或使用应用的记录;
所述第二分配原则为:根据所述每条记录的发生时间为所述每条记录分配权重;
所述第三分配原则为:根据所述每条记录的持续时长为所述每条记录分配权重;
所述第四分配原则为:根据所述每条记录所指示的网页或应用被所述用户访问的频率为所述每条记录分配权重。
可选的,根据为所述每条记录分配的标签和权重,生成所述网络使用信息,包括:
确定每种标签对应的记录;
针对每种标签,将所述标签对应的记录的权重相加,得到所述标签的总权重;
根据每种标签以及每种标签的总权重,生成所述网络使用信息。
可选的,所述方法还包括:
提取至少一个网页的关键内容;
对提取的至少一个关键内容分别进行分词,生成所述至少一个关键内容的至少一个分词向量;其中,关键内容的分词向量包括所述关键内容中出现的关键词和所述关键词出现的次数;
根据所述至少一个分词向量和每种标签的分词向量的相似度为所述至少一个网页分配标签;其中,标签的分词向量包括所述标签对应的网页的内容中出现的关键词和所述关键词在其中每个网页中出现的平均次数;
根据为所述至少一个网页分配的标签,建立网页和标签之间的所述对应规则。
可选的,所述方法还包括:
获取至少一个应用的内容;
根据获取的至少一个应用的内容为所述至少一个应用分配标签;
根据为所述至少一个应用分配的所述标签,建立应用和标签之间的所述对应规则。
第二方面,本发明实施例提供一种电子设备,包括:
获取模块,用于从网关设备中获取用户的网络访问记录;其中所述网络访问记录包括所述用户访问网页的记录和/或所述用户使用应用的记录;
分配模块,用于为所述网络访问记录中的每条记录分配权重;及,根据网页和标签之间的对应规则,为所述用户访问网页的记录分配标签,和/或,根据应用和标签之间的对应规则,为所述用户使用应用的记录分配标签;
生成模块,用于根据为所述每条记录分配的标签和权重,生成所述用户的网络使用信息;其中,所述网络使用信息用于指示所述用户的兴趣。
可选的,所述分配模块用于为所述网络访问记录中的每条记录分配权重,包括:根据第一分配原则、第二分配原则、第三分配原则和第四分配原则中的至少一种分配原则为所述网络访问记录中的每条记录分配权重;其中,
所述第一分配原则为:根据所述每条记录的类型为所述每条记录分配权重;其中,记录的类型用于指示所述记录为访问网页的记录或使用应用的记录;
所述第二分配原则为:根据所述每条记录的发生时间为所述每条记录分配权重;
所述第三分配原则为:根据所述每条记录的持续时长为所述每条记录分配权重;
所述第四分配原则为:根据所述每条记录所指示的网页或应用被所述用户访问的频率为所述每条记录分配权重。
可选的,所述生成模块用于根据为所述每条记录分配的标签和权重,生成所述网络使用信息,包括:
确定每种标签对应的记录;
针对每种标签,将所述标签对应的记录的权重相加,得到所述标签的总权重;
根据每种标签以及每种标签的总权重,生成所述网络使用信息。
可选的,所述电子设备还包括建立模块,用于:
提取至少一个网页的关键内容;
对提取的至少一个关键内容分别进行分词,生成所述至少一个关键内容的至少一个分词向量;其中,关键内容的分词向量包括所述关键内容中出现的关键词和所述关键词出现的次数;
根据所述至少一个分词向量和每种标签的分词向量的相似度为所述至少一个网页分配标签;其中,标签的分词向量包括所述标签对应的网页的内容中出现的关键词和所述关键词在其中每个网页中出现的平均次数;
根据为所述至少一个网页分配的标签,建立网页和标签之间的所述对应规则。
可选的,所述设备还包括建立模块,用于:
获取至少一个应用的内容;
根据获取的至少一个应用的内容为所述至少一个应用分配标签;
根据为所述至少一个应用分配的所述标签,建立应用和标签之间的所述对应规则。
本发明实施例中,由于用户在访问网络时一般会按照自己的兴趣选择感兴趣的网页或应用,一般来说是能够比较客观真实地反应用户的意愿,因此通过获取网络访问记录的方式可以较为准确地获知用户的兴趣爱好,提高了获取的网络使用信息的准确性。通过本发明实施例提供的方法,可以帮助企业获取不同的用户的兴趣爱好,以更好地为不同的用户提供个性化的增值服务。且,只要企业设置了可以收集用户的网络访问记录的网关设备,就可以直接从网关设备中获取这些数据,无需从电商网站或运营商处获取,更无需在线下进行数据收集或通过问卷调查的方式进行数据收集,获取数据的方式较为简单,也减少获取数据所需的各种费用,实施成本和实施门槛都较低。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的信息处理方法的流程图;
图2为本发明实施例提供的电子设备的一种结构框图;
图3为本发明实施例提供的电子设备的一种结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
另外,本文中的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中的术语“多个”,表示两个或两个以上。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
本发明实施例中提到的网关设备可以通过路由器实现。
本发明实施例中,电子设备可以是由企业设置的、与网关设备相连的设备,例如为服务器或个人计算机(PC)等,本发明实施例对于电子设备的类型不作限制。该电子设备一般不通过普通用户使用的终端设备实现,也可以不与普通用户使用的终端设备建立连接。本发明实施例中提到的企业,主要是指提供互联网接入服务的企业,但并非指电信运营商,而是指普通的例如提供通过无线局域网接入互联网的服务的企业。
以下介绍一种可能的本发明实施例的应用场景:以企业为银行、网关设备为路由器、电子设备为服务器、用户使用的终端设备是手机为例,其中,该银行在服务大厅内提供无线网络。路由器与服务器连接,服务大厅内的用户的手机可通过无线网络与路由器通信,服务器与服务大厅内的用户的手机之间不能通信。当然这里只是介绍一种应用场景,本发明实施例提供的技术方案的应用场景不限于此。
为了更好地理解,下面将结合说明书附图介绍本发明实施例提供的技术方案。
请参见图1,本发明实施例提供一种信息处理方法。该方法可以通过电子设备执行。
该方法的流程描述如下。
S101:从网关设备中获取用户的网络访问记录;其中网络访问记录包括用户访问网页的记录和/或用户使用应用的记录;
S102:为网络访问记录中的每条记录分配权重;
S103:根据网页和标签之间的对应规则,为用户访问网页的记录分配标签,和/或,根据应用和标签之间的对应规则,为用户使用应用的记录分配标签;
S104:根据为每条记录分配的标签和权重,生成该用户的网络使用信息;其中,网络使用信息用于指示该用户的兴趣。
在本发明实施例中,网络访问记录来源于提供互联网接入服务的企业所设置的网关设备,可以由电子设备主动请求网关设备以获得用户的网络访问记录,或者也可以对网关进行设置,使得网关设备主动将用户的网络访问记录发送给电子设备。例如,网关设备可以每收集一条用户的网络访问记录就将该网络访问记录发送给电子设备,或者也可以周期性的将收集的用户的网络访问记录发送给电子设备。其中,一个网关设备可以连接一个或多个电子设备,当连接多个电子设备时,网关可以将不同的用户分组,然后将用户组与电子设备对应,例如一个用户组唯一对应一个电子设备,则网关可以分别向该多个电子设备发送对应的组内的全部用户或部分用户的网络访问记录。
在本发明实施例中,用户可以是指一个上网账户的使用者,对于电子设备来说,用户就是一个上网账户,或者称为登录信息。上网账户可以是用户的手机号码,也可以是用户名或用户名和密码的组合,或者是其它类型的信息。其中,如果实现了实名制联网,即每个上网账户都被设置为与用户的实名信息相关,那么就有助于确定每个用户的真实身份,更有利于企业将获取的网络使用信息与真实用户对应,从而能够为不同用户提供个性化的增值服务。
在本发明实施例中,网关设备收集的一条用户访问网页的记录中可以包括该用户访问的网页地址、该条记录的发生时间、以及该用户使用的终端设备的标识等信息中的至少一种,一条用户使用应用的记录中可以包括该用户的实名制信息、该用户使用的应用的名称、该条记录的发生时间、该用户使用该应用的持续时长、以及该用户使用的终端设备的标识等信息中的至少一种。其中,终端设备的标识,可以包括终端设备的通信标识和/或终端设备的身份标识,例如终端设备是手机,则手机的通信标识可以是手机号,手机的身份标识可以是国际移动设备标识(International Mobile Equipment Identity,IMEI),终端设备的标识还可以包括该终端设备的品牌和/或型号。
在从网关设备中获取了用户的网络访问记录之后,由于网络访问记录中的每条记录在反映用户当前的真实兴趣上的重要性可能不同,所以可以根据该重要性为每条记录分配权重。例如,在用户的网络访问记录中,由于访问的网页有可能是页面自动跳转进入的广告页面(即非用户主动的选择)或者是嵌入的广告页面,而使用应用的记录中一般不会包括使用应用时弹出的广告网页的记录,即使用应用的记录大多是用户自主的行为,因此使用应用的记录应该比访问网页的记录更能反映用户的真实兴趣。另外,每个人的兴趣可能会随时间发生变化,例如用户上一小时内对某一事物感兴趣而点击打开了某个广告,在下一小时内看到同样的广告却选择了忽略,因此可以认为相比起最近一次获取的网络访问记录,之前获取的网络访问记录对反映用户当前兴趣的重要性降低了。由以上两点可以看出,用户的不同的网络访问记录在生成该用户的网络使用信息的过程中所占的比重应该是不同的,这样才能更准确地反应用户当前的真实兴趣。
本发明实施例中,可以根据不同的分配原则为网络访问记录中的每条记录分配权重。
可能的实施方式中,一种分配原则可以是根据每条记录的类型为每条记录分配权重,其中记录的类型用于指示该记录为访问网页的记录或使用应用的记录。该分配原则可以称为第一分配原则。如前面所讨论的,由于使用应用的记录应该比访问网页的记录更能反映用户的真实兴趣,所以为访问网页的记录分配的权重可以小于为使用应用的记录分配的权重;例如可以将每条访问网页的记录的权重设为1,及将每条使用应用的记录的权重设为2。
可能的实施方式中,一种分配原则可以是根据每条记录的发生时间为每条记录分配权重。该分配原则可以称为第二分配原则。由于如前面所讨论的,相比起最近一次获取的网络访问记录,之前获取的网络访问记录对反映用户当前兴趣的重要性降低了,所以可以令每条网络访问记录的权重随发生时间进行衰减,例如最近一小时内发生的每条记录的权重不变,之前的每条记录根据其发生时间与最近一小时之间的时间差,每小时衰减50%,不足一小时的按一小时计。
因为用户一般会在感兴趣的网页或应用上停留更长的时间,所以在可能的实施方式中,一种分配原则可以是根据每条网络访问记录的持续时长为该条记录分配权重。该分配原则可以称为第三分配原则。每条网络访问记录的持续时长即是指用户在某个网页或应用上停留的时间。其中,如果一个网页中还包括URL,那么也就是说该网页下还有二级网页,在这种情况下,一条记录可以针对一个层级的网页,如果用户通过一个网页又进入了二级网页,那么又会生成新的记录。例如当用户通过一个网站的主页进入一个二级网页时,此时用户在该网站上的访问记录会有两条,分别是访问主页的记录和访问该二级网页的记录,这两条访问记录的持续时长分别是指用户在主页上的停留时间和用户在该二级网页上的停留时间。
因为一般情况下,用户对感兴趣的网页或应用的访问频率会比不感兴趣的网页或应用的访问频率要高,所以在可能的实施方式中,一种分配原则还可以是根据每条记录所指示的网页或应用被用户访问的频率为所述每条记录分配权重。该分配原则可以称为第四分配原则。每条记录所指示的网页或应用被用户访问的频率可以等于单位时间内用户对该网页或应用的访问次数。例如,用户在半小时内访问了某一明星的新浪微博网页版的主页十次,而仅访问了百度百科中的“路由器”页面一次,若单位时间为分钟,那么用户访问该明星微博主页的频率为10÷30=1/3,高于用户访问该百度百科页面的频率(1÷30=1/30),表明用户在该半小时内对该明星微博主页更感兴趣,因此可以为该用户在该半小时内访问该明星微博主页的每条记录分配比访问百度百科中的“路由器”页面的记录更高的权重。
以上的分配权重的几种分配原则可以单独使用,也可以结合其中的任意几种一起使用。即,可以根据以上第一分配原则、第二分配原则、第三分配原则和第四分配原则中的至少一种分配原则为网络访问记录中的每条记录分配权重。当然为网络访问记录中的记录分配权重的分配原则不限于此,还可以包括其它的能够合理地体现用户当前的真实兴趣的分配原则,本发明实施例对此不做限制。
在为网络访问记录中的每条记录分配权重之后,还可以根据网页和标签之间的对应规则,为用户访问网页的记录的分配标签;和/或,根据应用和标签之间的对应规则,为用户使用应用的记录分配标签。
本发明实施例中,电子设备中可以预先存储标签规则库,标签规则库中可以包括网页和标签之间的对应规则,和/或,包括应用(APP)和标签之间的对应规则。其中,这里的应用主要包括电子设备中安装的通过联网实现功能的客户端软件。标签可以用于指示该网页或应用提供的内容所属的类别。例如,标签的类型可以包括网购、电影、音乐、房产、女性、游戏、旅游、交友、保健、小说、亲子、美食、数码产品、汽车、科学、信息技术(InformationTechnology,IT)、体育、招聘、宗教、公益、教育、艺术、或军事等。标签规则库中的部分网页和标签之间的对应规则可以参见表1,部分应用和标签之间的对应规则可以参见表1。在标签规则库中,一个网页或应用可以对应一个标签,也可以对应多个标签。在表1、表2以及后续的介绍过程中,以一个网页或应用对应一个标签为例。
表1
URL | 标签 |
blueeden.mocasting.com | 娱乐 |
bluefire.t.chinago.cn | 体育 |
blueflashteam.com | 体育 |
bluefriend.joy.pps.tv | 娱乐 |
bluehai.com | 汽车 |
bluehdtv.cn | 娱乐 |
bluehi.net | 旅游 |
bluehn.com/chaoliu | 娱乐 |
bluehn.com/qiche | 汽车 |
bluehn.com/shixian | 体育 |
bluehn.com/yulepindao | 娱乐 |
bluehorizonihotel.com | 旅游 |
bluehost.uuhost.org | 汽车 |
bluehostcn.info | 汽车 |
bluehostcn.info/bluehost-sign-up | 娱乐 |
表2
应用 | 标签 |
MediaPlayer | 电影 |
QVOD | 电影 |
暴风影音 | 电影 |
风行网络电影 | 电影 |
SOPCAST | 电影 |
VGOLIVE | 电影 |
QQ音乐 | 音乐 |
多米音乐 | 音乐 |
千千静听|百度音乐 | 音乐 |
百度影音 | 电影 |
奇艺影音 | 电影 |
FLV | 电影 |
乐视网络电视 | 电影 |
芒果TV | 电影 |
小飞虾|虾米音乐网 | 音乐 |
九天灌歌王|九天音乐网 | 音乐 |
下面介绍一种电子设备建立网页和标签之间的对应规则的过程,在下面的介绍过程中,以建立统一资源定位符(Uniform Resoure Locator,URL)为http://finance.sina.com.cn/forex/的网页和标签之间的对应规则为例,下文中为了方便引用,将该网页称为第一网页。
1、首先可以使用网络爬虫软件,例如JCrawler等,爬取并保存超文本标记语言(HyperText Markup Language,html)格式的第一网页所包含的内容。
网络爬虫软件是一种自动爬取并保存网页上的内容的应用程序。传统的网络爬虫软件从一个或若干个初始网页的URL开始,获得初始网页上的URL,在爬取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统设置的停止条件为止,一种停止条件例如为爬取深度,其中,当网络爬虫软件爬取的是初始网页时,爬取深度可以为0,当网络爬虫软件爬取的是初始网页上的所有URL对应的网页时,爬取深度为1,以此类推。爬取深度不宜太浅,导致网络爬虫软件每次处理的数据量太小;也不宜太深,导致网络爬虫软件每次工作的时间太长。例如在具体实施过程中,根据实际测试,可以将爬取深度设置为6,这样每次网络爬虫软件工作的时间在一个小时左右,无论是网络爬虫软件每次处理的数据量还是每次的工作时长都在可以接受的范围。在本发明实施例中,还可以将门户网站和导航网站的首页作为初始网页,如果爬取停止了,则手动换一批初始网页再重新开始。还可以通过人工整理一些不能反映用户真实兴趣爱好的网页,例如纯图像内容的网页(后缀通常为图像互换格式(Graphics Interchange Format,GIF)、联合图像专家小组(Joint PhotographicExperts Group,JPG)等),广告内容的网页(后缀通常为屏幕保护程序(After Dark,AD)等),使这些网页不会被爬取,而其它网页则会被爬取并被保存下来以供查看。
2、使用网络爬虫软件对第一网页进行爬取之后,可以再使用可读性(readability)算法对爬取的html网页的内容进行解析,从中提取关键内容。readability算法内置了一些正则规则,可以对网页进行正则匹配,将匹配成功的网页元素,即非正文内容的元素,都排除掉,从而提取出正文文本,即关键内容。当然除了该算法之外,还可以使用其他算法对html网页的内容进行解析,例如基于改进文档对象模型(Document ObjectModel,DOM)树的网页去噪声方法、基于标签属性的网页去噪方法、基于K平均值(K-MEANS)聚类算法的去噪方法等,本发明实施例对使用何种算法对网页内容进行解析不做限制。
3、对提取的关键内容进行中文分词,生成分词向量。例如使用mmseg4j分词算法来对提取的关键内容进行中文分词,生成分词向量。mmseg4j是基于正向最大匹配算法的分词算法,使用该算法进行中文分词的过程简单说明如下:从左到右将待分词文本中的几个连续字符分别与词表匹配,如果匹配上,则从待分词文本中切分出一个关键词。然后根据使用分词算法切分出来的关键词和每个关键词在待分词文本中出现的次数生成分词向量。例如待分词文本为一段文章,对该段文章进行分词之后统计得到,“我们”这个关键词出现了3次,“中国”这个关键词出现了5次,则生成的分词向量可以是{我们:3;中国:5}。当然除了该分词算法之外,还可以使用其他分词算法对提取的关键内容进行中文分词,例如基于词库的最大匹配(libmmseg)算法、中文分词的超文本预处理器扩展(Hypertext PreprocessorExtension for Chinese Word Segmentation,PHPCWS)算法、或IK分词器(IK Analyzer)算法等,本发明实施例不做限制。
4、使用贝叶斯文本分类算法,根据得到的分词向量为第一网页分配标签。本发明实施例中,为第一网页分配的标签为“金融”。使用贝叶斯文本分类算法为第一网页分配标签的过程简单介绍如下:先为每种标签提取一个分词向量,再使用贝叶斯公式计算第一网页的分词向量与每种标签的分词向量的相似度,选择相似度最高的标签作为第一网页的标签。其中,为每种标签提取分词向量的过程简单介绍如下:先为每种标签选取至少一个对应的网页,将这些网页作为训练集,再按照如前的步骤1、2、和3的方法为每个训练集中的每个网页提取一个分词向量,最后得到每种标签的分词向量。一种标签的分词向量包括该标签对应的训练集中的网页的分词向量中所包括的关键词,以及每个关键词在训练集中的网页中出现的平均次数。其中,一个标签对应的网页数量越多,为该标签提取的分词向量中包含的关键词可能就越多,并且每个关键词对应的出现次数也就越接近于该关键词在所有该类网页中出现的平均次数,因此该分词向量就越准确。所以在具体实施过程中,可以为每种标签选取20个以上的网页。当然除了贝叶斯文本分类算法之外,还可以使用其他算法为第一网页分配标签,例如支持向量机(Support Vector Machine,SVM)、K最近邻(k-NearestNeighbor,KNN)分类算法、或基于关键词的分类算法等,本发明实施例不做限制。
5、根据为第一网页分配的标签,在标签规则库生成第一网页和标签之间的对应规则,参见表3:
表3
URL | 标签 |
http://finance.sina.com.cn/forex/ | 金融 |
以上介绍了建立网页和标签之间的对应规则的过程,对于应用来说,可以先获取至少一个应用的内容,然后根据获取的内容为至少一个应用分配标签,如果不方便对应用使用网络爬虫软件,则可以通过手动方式为应用设置标签,从而建立应用和标签之间的对应规则。
电子设备在为预设时长内获取的全部网络访问记录中的每条记录分配了标签和权重之后,可以生成用户的网络使用信息。本发明实施例中,用户的网络使用信息可以周期性进行更新,例如每一个小时更新一次,以便企业能够获取用户的兴趣爱好的变化情况。
预设时长可以根据用户的需要设置,例如一年、三个月内或者是其它任意时长都可以。用户的网络使用信息至少可以反映用户在预设时长内访问网络时所访问的内容都属于哪些类别,从而可以用于指示该用户在预设时长内的兴趣,通过阅读一个用户的网络使用信息,企业能够了解到该用户感兴趣的领域主要在哪些方面,方便企业向该用户提供个性化的定制服务。
用户的网络使用信息可以主要由标签和每种标签对应的总权重组成,具体来说,可以首先确定每种标签对应的记录,再将每种标签对应的记录的权重相加,得到每种标签的总权重,最后根据每种标签以及每种标签的总权重,生成网络使用信息。例如权重分配原则为:若一条访问网页的记录的发生时间与当前时刻之间的时间差为N小时M分钟L秒(N、M、L为不小于0的整数),则为该条记录分配的权重为0.5N。那么例如用户3小时前访问了3次健身网站,在第3次访问之后的3小时内没有再访问健身网站,那么现在的标签“健身”对应三条网页访问记录,其中每条网页访问记录的权重为0.53,则标签“健身”的总权重为0.53*3。
在生成的网络使用信息中,可以首先列出该用户的账户信息,如果该用户的账户信息与该用户的实名信息绑定,那么还可以列出该用户的实名信息,再按每种标签的总权重列出为用户的网络访问记录分配的部分或全部标签,总权重越高的标签的排位越靠前,并相应列出该部分或全部标签中每种标签对应的总权重,然后根据以上标签和每种标签对应的总权重对用户的兴趣进行分析或归类。其中,每种标签代表用户感兴趣的一个方面,每种标签对应的总权重与该用户感兴趣的程度呈正相关关系。在网络使用信息中,还可以列出在网络访问记录中出现过的该用户使用过的终端设备及使用每个终端设备的频率,并对此进行分析或归类,得出该用户对终端设备的消费习惯。如果电子设备中还存储了企业获取的该用户的更多个人信息,如年龄、性别、职业等,电子设备还可以将这些个人信息与前述网络使用信息综合起来,抽象出该用户的信息全貌。
通过对用户的兴趣进行分析,甚至是抽象出用户的信息全貌,对于企业来说,能够通过分析产品潜在用户,针对特定群体进行精准营销,还可以对服务或产品进行私人定制、进行业务经营分析以及竞争分析等。
本发明实施例中,由于用户在访问网络时一般会按照自己的兴趣选择感兴趣的网页或应用,一般来说是能够比较客观真实地反应用户的意愿,因此通过获取网络访问记录的方式可以较为准确地获知用户的兴趣爱好,提高了获取的网络使用信息的准确性。通过本发明实施例提供的方法,可以帮助企业获取不同的用户的兴趣爱好,以更好地为不同的用户提供个性化的增值服务。且,只要企业设置了可以收集用户的网络访问记录的网关设备,就可以直接从网关设备中获取这些数据,无需从电商网站或运营商处获取,更无需在线下进行数据收集或通过问卷调查的方式进行数据收集,获取数据的方式较为简单,也减少获取数据所需的各种费用,实施成本和实施门槛都较低。
请参见图2,基于同一发明构思,本发明实施例还提供一种电子设备,包括:
获取模块201,用于从网关设备中获取用户的网络访问记录;其中网络访问记录包括用户访问网页的记录和/或用户使用应用的记录;
分配模块202,用于为网络访问记录中的每条记录分配权重;及,根据网页和标签之间的对应规则,为用户访问网页的记录分配标签;和/或,根据应用和标签之间的对应规则,为用户使用应用的记录分配标签;
生成模块203,用于根据为每条记录分配的标签和权重,生成用户的网络使用信息;其中,网络使用信息用于指示用户的兴趣。
可选的,分配模块202用于为网络访问记录中的每条记录分配权重,可以通过以下方式实现:根据第一分配原则、第二分配原则、第三分配原则和第四分配原则中的至少一种分配原则为网络访问记录中的每条记录分配权重;其中,第一分配原则为:根据每条记录的类型为每条记录分配权重;其中,记录的类型用于指示记录为访问网页的记录或使用应用的记录;第二分配原则为:根据每条记录的发生时间为每条记录分配权重;第三分配原则为:根据每条记录的持续时长为每条记录分配权重;第四分配原则为:根据每条记录所指示的网页或应用被用户访问的频率为每条记录分配权重。
可选的,生成模块203用于根据为每条记录分配的标签和权重,生成网络使用信息,可以通过以下方式实现:确定每种标签对应的记录,针对每种标签,将该标签对应的记录的权重相加,得到该标签的总权重。根据每种标签以及每种标签的总权重,生成网络使用信息。
可选的,请参见图3,该电子设备还可以包括建立模块204。建立模块204可以用于建立网页和标签之间的对应规则。
其中,建立模块204用于建立网页和标签之间的对应规则,包括:提取至少一个网页的关键内容。对提取的至少一个关键内容分别进行分词,生成至少一个关键内容的至少一个分词向量。其中,关键内容的分词向量包括关键内容中出现的关键词和关键词出现的次数。根据至少一个分词向量和每种标签的分词向量的相似度为至少一个网页分配标签。其中,标签的分词向量包括标签对应的网页的内容中出现的关键词和关键词在其中每个网页中出现的平均次数。再根据为至少一个网页分配的标签,建立网页和标签之间的对应规则。
可选的,建立模块204还可以用于建立应用和标签之间的对应规则。
其中建立模块204用于建立应用和标签之间的对应规则,包括:获取至少一个应用的内容,根据获取的至少一个应用的内容为至少一个应用分配标签。根据为至少一个应用分配的标签,建立应用和标签之间的对应规则。
由于本发明实施例提供的电子设备用于执行图1所示的实施例所提供的信息处理方法,因此对于电子设备包括的各功能模块所能够实现的功能及一些实现过程可参考图1所示的实施例的描述,在此不再赘述。
本发明实施例中,由于用户在访问网络时一般会按照自己的兴趣选择感兴趣的网页或应用,一般来说是能够比较客观真实地反应用户的意愿,因此通过获取网络访问记录的方式可以较为准确地获知用户的兴趣爱好,提高了获取的网络使用信息的准确性。通过本发明实施例提供的方法,可以帮助企业获取不同的用户的兴趣爱好,以更好地为不同的用户提供个性化的增值服务。且,只要企业设置了可以收集用户的网络访问记录的网关设备,就可以直接从网关设备中获取这些数据,无需从电商网站或运营商处获取,更无需在线下进行数据收集或通过问卷调查的方式进行数据收集,获取数据的方式较为简单,也减少获取数据所需的各种费用,实施成本和实施门槛都较低。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将装置的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus flash disk)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以对本发明的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,不应理解为对本发明的限制。本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种信息处理方法,包括:
从网关设备中获取用户的网络访问记录;其中所述网络访问记录包括所述用户访问网页的记录和/或所述用户使用应用的记录;
为所述网络访问记录中的每条记录分配权重;
根据网页和标签之间的对应规则,为所述用户访问网页的记录分配标签;和/或,根据应用和标签之间的对应规则,为所述用户使用应用的记录分配标签;
根据为所述每条记录分配的标签和权重,生成所述用户的网络使用信息;其中,所述网络使用信息用于指示所述用户的兴趣。
2.如权利要求1所述的方法,其特征在于,为所述网络访问记录中的每条记录分配权重,包括:根据第一分配原则、第二分配原则、第三分配原则和第四分配原则中的至少一种分配原则为所述网络访问记录中的每条记录分配权重;其中,
所述第一分配原则为:根据所述每条记录的类型为所述每条记录分配权重;其中,记录的类型用于指示所述记录为访问网页的记录或使用应用的记录;
所述第二分配原则为:根据所述每条记录的发生时间为所述每条记录分配权重;
所述第三分配原则为:根据所述每条记录的持续时长为所述每条记录分配权重;
所述第四分配原则为:根据所述每条记录所指示的网页或应用被所述用户访问的频率为所述每条记录分配权重。
3.如权利要求1或2所述的方法,其特征在于,根据为所述每条记录分配的标签和权重,生成所述网络使用信息,包括:
确定每种标签对应的记录;
针对每种标签,将所述标签对应的记录的权重相加,得到所述标签的总权重;
根据每种标签以及每种标签的总权重,生成所述网络使用信息。
4.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
提取至少一个网页的关键内容;
对提取的至少一个关键内容分别进行分词,生成所述至少一个关键内容的至少一个分词向量;其中,关键内容的分词向量包括所述关键内容中出现的关键词和所述关键词出现的次数;
根据所述至少一个分词向量和每种标签的分词向量的相似度为所述至少一个网页分配标签;其中,标签的分词向量包括所述标签对应的网页的内容中出现的关键词和所述关键词在其中每个网页中出现的平均次数;
根据为所述至少一个网页分配的标签,建立网页和标签之间的所述对应规则。
5.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取至少一个应用的内容;
根据获取的至少一个应用的内容为所述至少一个应用分配标签;
根据为所述至少一个应用分配的所述标签,建立应用和标签之间的所述对应规则。
6.一种电子设备,包括:
获取模块,用于从网关设备中获取用户的网络访问记录;其中所述网络访问记录包括所述用户访问网页的记录和/或所述用户使用应用的记录;
分配模块,用于为所述网络访问记录中的每条记录分配权重;及,根据网页和标签之间的对应规则,为所述用户访问网页的记录分配标签,和/或,根据应用和标签之间的对应规则,为所述用户使用应用的记录分配标签;
生成模块,用于根据为所述每条记录分配的标签和权重,生成所述用户的网络使用信息;其中,所述网络使用信息用于指示所述用户的兴趣。
7.如权利要求6所述的电子设备,所述分配模块用于为所述网络访问记录中的每条记录分配权重,包括:根据第一分配原则、第二分配原则、第三分配原则和第四分配原则中的至少一种分配原则为所述网络访问记录中的每条记录分配权重;其中,
所述第一分配原则为:根据所述每条记录的类型为所述每条记录分配权重;其中,记录的类型用于指示所述记录为访问网页的记录或使用应用的记录;
所述第二分配原则为:根据所述每条记录的发生时间为所述每条记录分配权重;
所述第三分配原则为:根据所述每条记录的持续时长为所述每条记录分配权重;
所述第四分配原则为:根据所述每条记录所指示的网页或应用被所述用户访问的频率为所述每条记录分配权重。
8.如权利要求6或7所述的电子设备,其特征在于,所述生成模块用于根据为所述每条记录分配的标签和权重,生成所述网络使用信息,包括:
确定每种标签对应的记录;
针对每种标签,将所述标签对应的记录的权重相加,得到所述标签的总权重;
根据每种标签以及每种标签的总权重,生成所述网络使用信息。
9.如权利要求6或7所述的电子设备,其特征在于,所述设备还包括建立模块,用于:
提取至少一个网页的关键内容;
对提取的至少一个关键内容分别进行分词,生成所述至少一个关键内容的至少一个分词向量;其中,关键内容的分词向量包括所述关键内容中出现的关键词和所述关键词出现的次数;
根据所述至少一个分词向量和每种标签的分词向量的相似度为所述至少一个网页分配标签;其中,标签的分词向量包括所述标签对应的网页的内容中出现的关键词和所述关键词在其中每个网页中出现的平均次数;
根据为所述至少一个网页分配的标签,建立网页和标签之间的所述对应规则。
10.如权利要求6或7所述的电子设备,其特征在于,所述设备还包括建立模块,用于:
获取至少一个应用的内容;
根据获取的至少一个应用的内容为所述至少一个应用分配标签;
根据为所述至少一个应用分配的所述标签,建立应用和标签之间的所述对应规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610795766.2A CN106383857A (zh) | 2016-08-31 | 2016-08-31 | 一种信息处理方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610795766.2A CN106383857A (zh) | 2016-08-31 | 2016-08-31 | 一种信息处理方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106383857A true CN106383857A (zh) | 2017-02-08 |
Family
ID=57939594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610795766.2A Pending CN106383857A (zh) | 2016-08-31 | 2016-08-31 | 一种信息处理方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106383857A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874507A (zh) * | 2017-02-28 | 2017-06-20 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法、装置及服务器 |
CN108063974A (zh) * | 2017-12-12 | 2018-05-22 | 深圳市雷鸟信息科技有限公司 | 电视活动页面数据传输方法、电视设备、系统及存储介质 |
CN108681941A (zh) * | 2018-05-15 | 2018-10-19 | 佛山市衣香蒂丝服装设计有限公司 | 一种电商的业务定制系统及其方法 |
CN111026967A (zh) * | 2019-12-09 | 2020-04-17 | 腾讯科技(深圳)有限公司 | 一种获得用户兴趣标签的方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714120A (zh) * | 2013-12-03 | 2014-04-09 | 上海河广信息科技有限公司 | 一种从用户url访问记录中提取用户兴趣话题的系统 |
CN103870512A (zh) * | 2012-12-18 | 2014-06-18 | 腾讯科技(深圳)有限公司 | 一种生成用户兴趣标签的方法及装置 |
CN104216965A (zh) * | 2014-08-21 | 2014-12-17 | 北京金山安全软件有限公司 | 信息推荐方法和装置 |
CN104991917A (zh) * | 2015-06-23 | 2015-10-21 | 上海斐讯数据通信技术有限公司 | 广告个性化推送系统及方法 |
CN105718184A (zh) * | 2014-12-05 | 2016-06-29 | 北京搜狗科技发展有限公司 | 一种数据处理方法和装置 |
-
2016
- 2016-08-31 CN CN201610795766.2A patent/CN106383857A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870512A (zh) * | 2012-12-18 | 2014-06-18 | 腾讯科技(深圳)有限公司 | 一种生成用户兴趣标签的方法及装置 |
CN103714120A (zh) * | 2013-12-03 | 2014-04-09 | 上海河广信息科技有限公司 | 一种从用户url访问记录中提取用户兴趣话题的系统 |
CN104216965A (zh) * | 2014-08-21 | 2014-12-17 | 北京金山安全软件有限公司 | 信息推荐方法和装置 |
CN105718184A (zh) * | 2014-12-05 | 2016-06-29 | 北京搜狗科技发展有限公司 | 一种数据处理方法和装置 |
CN104991917A (zh) * | 2015-06-23 | 2015-10-21 | 上海斐讯数据通信技术有限公司 | 广告个性化推送系统及方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874507A (zh) * | 2017-02-28 | 2017-06-20 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法、装置及服务器 |
CN106874507B (zh) * | 2017-02-28 | 2020-12-25 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法、装置及服务器 |
CN108063974A (zh) * | 2017-12-12 | 2018-05-22 | 深圳市雷鸟信息科技有限公司 | 电视活动页面数据传输方法、电视设备、系统及存储介质 |
CN108063974B (zh) * | 2017-12-12 | 2021-08-06 | 深圳市雷鸟网络传媒有限公司 | 电视活动页面数据传输方法、电视设备、系统及存储介质 |
CN108681941A (zh) * | 2018-05-15 | 2018-10-19 | 佛山市衣香蒂丝服装设计有限公司 | 一种电商的业务定制系统及其方法 |
CN111026967A (zh) * | 2019-12-09 | 2020-04-17 | 腾讯科技(深圳)有限公司 | 一种获得用户兴趣标签的方法、装置、设备和介质 |
CN111026967B (zh) * | 2019-12-09 | 2023-08-04 | 腾讯科技(深圳)有限公司 | 一种获得用户兴趣标签的方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107862553B (zh) | 广告实时推荐方法、装置、终端设备及存储介质 | |
US20170286539A1 (en) | User profile stitching | |
WO2020200199A1 (zh) | 个性化推荐的方法、终端设备和系统 | |
US20180144367A1 (en) | Method and system for creating user based summaries for content distribution | |
US8676875B1 (en) | Social media measurement | |
JP5238074B2 (ja) | オンラインリファレンスの収集および採点 | |
US20120173338A1 (en) | Method and apparatus for data traffic analysis and clustering | |
US20140095308A1 (en) | Advertisement distribution apparatus and advertisement distribution method | |
US20180068028A1 (en) | Methods and systems for identifying same users across multiple social networks | |
EP2891995A1 (en) | Systems and methods for search results targeting | |
US20180307733A1 (en) | User characteristic extraction method and apparatus, and storage medium | |
US8838435B2 (en) | Communication processing | |
JP6872258B2 (ja) | インターネットコンテンツ提供サーバ及びその方法が具現化されたコンピュータで判読できる記録媒体 | |
US10922722B2 (en) | System and method for contextual video advertisement serving in guaranteed display advertising | |
CN107103028A (zh) | 一种信息处理方法及装置 | |
CN111415183B (zh) | 用于处理访问请求的方法和装置 | |
CN106383857A (zh) | 一种信息处理方法及电子设备 | |
CN107977678A (zh) | 用于输出信息的方法和装置 | |
Piccardi et al. | On the Value of Wikipedia as a Gateway to the Web | |
CN105808642B (zh) | 推荐方法及装置 | |
US8977948B1 (en) | System, method, and computer program for determining information associated with an extracted portion of content | |
KR20220007459A (ko) | 소셜 미디어 활동 분석을 통한 관계형성 서비스 제공방법 및 그 시스템 | |
US20160189204A1 (en) | Systems and methods for building keyword searchable audience based on performance ranking | |
US20200073925A1 (en) | Method and system for generating a website from collected content | |
CN110955855B (zh) | 一种信息拦截的方法、装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170208 |