CN116089732A

CN116089732A - 基于广告点击数据的用户偏好识别方法及系统

Info

Publication number: CN116089732A
Application number: CN202310376699.0A
Authority: CN
Inventors: 姚尧之; 黄亚雄; 廖常训
Original assignee: Jiangxi Moment Interactive Technology Co ltd
Current assignee: Jiangxi Moment Interactive Technology Co ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-05-09
Anticipated expiration: 2043-04-11
Also published as: CN116089732B

Abstract

本发明提供了一种基于广告点击数据的用户偏好识别方法及系统，所述方法包括通过应用程序编程接口采集不同类别的点击流数据；针对应用类数据进行数据预处理得到预处理文本；采用自然语言处理技术针对预处理文本进行分词以构建动名词词表；根据动名词词表，并采用加权算法从预处理文本中获取资讯标签集；采用相关度关联法从注册类数据获取兴趣标签集；通过标签关系模型及基于图的排序算法分别对资讯标签集及兴趣标签集进行提取得到两组兴趣向量；采用协调关系算法针对两组兴趣向量进行融合得到点击流数据所反馈的用户偏好集合。本申请基于人机互动过程中产生的大量数据进行用户偏好识别，可以提高用户偏好识别的精确度。

Description

基于广告点击数据的用户偏好识别方法及系统

技术领域

本发明属于数据处理的技术领域，具体地涉及一种基于广告点击数据的用户偏好识别方法及系统。

背景技术

伴随着移动互联网技术的不断进步和发展，使用智能手机等移动终端设备连接到网络中的用户日益增多，随之而来的是在移动网络上出现了许多社交类的网站和应用。移动互联网时代，从用户的角度出发，越来越多的碎片化时间都消耗在移动终端上，移动终端己经参与到用户生活的方方面面，越是用户感兴趣的产品或服务，用户的留存度才越高，才越愿意花时间来了解。对移动用户偏好识别的研究已经成为企业发展的必备能力，准确识别用户的喜好，可以帮助解决信息过载问题以及完成高质量的广告定向投放业务，为企业带来更大的收益。

用户兴趣表现了用户在主题需求和内容形式上的偏好，精准的定位用户的喜好，可以为企业实现定向广告的投放提供参考的依据。目前常用的用户偏好识别一般是基于对用户的个人信息、用户的操作日志记录等的研究，这些数据虽然可以获取用户喜好的一部分兴趣特征，但从实际的效果来看，获取的数据信息还是过于粗糙及易丢失，导致兴趣识别的精确度并不高。随着移动互联网的发展，人机互动过程中产生了大量的数据，这些交互数据的背后隐藏着用户大量的兴趣信息，具有重大的研究价值。如何从如此庞大的交互数据中精准的定位每一位用户的兴趣，这对企业所研究的用户偏好识别的准确率产生了巨大的考验。

因此，如何基于人机互动过程中的互动数据进行用户偏好的识别，弥补现有技术的用户偏好识别方法存在的精确度低的不足，以提高用户偏好识别的精确度，一直是本领域技术人员亟待解决的研究课题。

发明内容

为了解决上述技术问题，本发明提供了一种基于广告点击数据的用户偏好识别方法及系统，基于人机互动过程中产生的大量数据进行用户偏好识别，可以提高用户偏好识别的精确度。

第一方面，该发明提供一种基于广告点击数据的用户偏好识别方法，包括：

通过应用程序编程接口采集不同类别的点击流数据；其中，所述点击流数据包括注册类数据和应用类数据；

针对所述应用类数据进行数据预处理得到预处理文本；其中，所述数据预处理包括时间戳预处理和文本预处理；

采用自然语言处理技术针对所述预处理文本进行分词以构建动名词词表；

根据所述动名词词表，并采用加权算法从所述预处理文本中获取资讯标签集；

采用相关度关联法从所述注册类数据获取兴趣标签集；

通过标签关系模型及基于图的排序算法分别对所述资讯标签集及所述兴趣标签集进行提取得到两组兴趣向量；

采用协调关系算法针对所述两组兴趣向量进行融合得到所述点击流数据所反馈的用户偏好集合。

较佳地，所述通过应用程序编程接口采集不同类别的点击流数据的步骤具体包括：

配置具有目标地址信息的调研指令；

根据所述目标地址信息向应用程序编程接口所属设备发送对应的抓取程序，以使所述应用程序编程接口所属设备装载对应的所述抓取程序；

所述抓取程序基于所述调研指令选择性采集应用程序编程接口数据流；

将所述应用程序编程接口数据流进行滤重处理，得到不同类别的点击流数据。

较佳地，所述针对所述应用类数据进行数据预处理得到预处理文本的步骤具体包括：

通过设置预设字段标识操作所述应用类数据的时间戳，以使过滤所述应用类数据的无效数据；

将过滤后的所述应用类数据采用文本预处理得到预处理文本；其中，所述文本预处理包括格式标记清理、停用词清理、定位符链接清理中的一种或多种组合。

较佳地，所述采用自然语言处理技术针对所述预处理文本进行分词以构建动名词词表的步骤具体包括：

通过分词平台从所述预处理文本中抽取包括谓语和/或宾语的核心词；

从所述预处理文本中搜集方位动词以绘制方位动词表；

通过所述方位动词表对所述核心词进行修正；

从修正后的所述核心词中提取目标词构建动名词词表。

较佳地，所述根据所述动名词词表，并采用加权算法从所述预处理文本中获取资讯标签集的步骤具体包括：

基于词语出现概率关系构造加权算法；

通过所述加权算法迭代计算所述预处理文本中所有词语的加权值得到迭代结果；

根据迭代结果针对所述所有词语中未出现在所述动名词词表中的词语进行过滤；

根据所述加权值的大小提取符合要求的词语作为资讯标签集。

较佳地，所述采用相关度关联法从所述注册类数据获取兴趣标签集的步骤具体包括：

通过所述注册类数据获取对应关注用户的兴趣标签；

将所述兴趣标签通过相关度关联法得到评价关注用户与用户之间的关联度；

将所述关联度超过阈值的用户标记为被关注用户，并获取被关注用户对应的兴趣标签；

将所述兴趣标签进行组合得到兴趣标签集。

较佳地，所述标签关系模型的构建步骤具体包括：

定义研究对象存在互动关系的对象集合，以及所述对象集合中所有兴趣标签的兴趣集合；

基于所述对象集合及所述兴趣集合通过共显次数形成次数矩阵；

根据所述次数矩阵构建标签关系模型。

较佳地，所述基于图的排序算法具体如下：

；

式中， V _i表示某个网页， S( V _i)表示网页 V _i的PR值， WS( V _i)表示节点 i的权重值；

ｄ表示一个随机概率，指代从一个节点到达另一个节点的概率，定义为0.8；

V _j表示链接到 V _i网页、即 V _i的入链， S( V _j)表示网页 V _j的PR值， WS( V _j)表示节点 j的权重值；

In( V _i)表示网页 V _i的所有入链的集合；

W _ji表示节点 i和节点 j链接的权重值；

Out( V _j)表示网页；

表示所有节点与节点 j链接的权重值之和。

较佳地，所述协调关系算法具体如下：

；

式中：表示加权算法获取的兴趣向量，表示相关度关联法获取的兴趣向量，γ表示协调因子，取值范围为0到1。

第二方面，该发明提供一种基于广告点击数据的用户偏好识别系统，包括：

采集模块，用于通过应用程序编程接口采集不同类别的点击流数据；其中，所述点击流数据包括注册类数据和应用类数据；

预处理模块，用于针对所述应用类数据进行数据预处理得到预处理文本；其中，所述数据预处理包括时间戳预处理和文本预处理；

构建模块，用于采用自然语言处理技术针对所述预处理文本进行分词以构建动名词词表；

第一获取模块，用于根据所述动名词词表，并采用加权算法从所述预处理文本中获取资讯标签集；

第二获取模块，用于采用相关度关联法从所述注册类数据获取兴趣标签集；

提取模块，用于通过标签关系模型及基于图的排序算法分别对所述资讯标签集及所述兴趣标签集进行提取得到两组兴趣向量；

融合模块，用于采用协调关系算法针对所述两组兴趣向量进行融合得到所述点击流数据所反馈的用户偏好集合。

较佳地，所述采集模块包括：

配置单元，用于配置具有目标地址信息的调研指令；

发送单元，用于根据所述目标地址信息向应用程序编程接口所属设备发送对应的抓取程序，以使所述应用程序编程接口所属设备装载对应的所述抓取程序；

采集单元，用于所述抓取程序基于所述调研指令选择性采集应用程序编程接口数据流；

滤重单元，用于将所述应用程序编程接口数据流进行滤重处理，得到不同类别的点击流数据。

较佳地，所述预处理模块包括：

过滤单元，用于通过设置预设字段标识操作所述应用类数据的时间戳，以使过滤所述应用类数据的无效数据；

清理单元，用于将过滤后的所述应用类数据采用文本预处理得到预处理文本；其中，所述文本预处理包括格式标记清理、停用词清理、定位符链接清理中的一种或多种组合。

较佳地，所述构建模块包括：

抽取单元，用于通过分词平台从所述预处理文本中抽取包括谓语和/或宾语的核心词；

绘制单元，用于从所述预处理文本中搜集方位动词以绘制方位动词表；

修正单元，用于通过所述方位动词表对所述核心词进行修正；

构建单元，用于从修正后的所述核心词中提取目标词构建动名词词表。

较佳地，所述第一获取模块包括：

构造单元，用于基于词语出现概率关系构造加权算法；

迭代单元，用于通过所述加权算法迭代计算所述预处理文本中所有词语的加权值得到迭代结果；

滤除单元，用于根据迭代结果针对所述所有词语中未出现在所述动名词词表中的词语进行过滤；

提取单元，用于根据所述加权值的大小提取符合要求的词语作为资讯标签集。

较佳地，所述第二获取模块包括：

意向单元，用于通过所述注册类数据获取对应关注用户的兴趣标签；

关联单元，用于将所述兴趣标签通过相关度关联法得到评价关注用户与用户之间的关联度；

标记单元，用于将所述关联度超过阈值的用户标记为被关注用户，并获取被关注用户对应的兴趣标签；

组合单元，用于将所述兴趣标签进行组合得到兴趣标签集。

相比于现有技术，本申请提供的一种基于广告点击数据的用户偏好识别方法及系统：首先，确定用户偏好识别所使用的相关数据，并对其进行预处理，包括时间戳的预处理和文本预处理：时间戳的预处理实现对用户阅读操作的细分以使过滤掉无用数据，文本预处理对用户交互日志中的各种无效标签等进行清理，并构建动名词词表为后续关键词提取做准备；其次，对于应用类数据采用加权算法获取资讯标签集，对注册类数据因用户与被关注用户之间不存在文字类型的互动，采用相关度关联法来获取关注用户的兴趣标签集；再次，对两种方式获取的标签集分别通过标签关系图模型，及采用基于图的排序算法获取两种方式下的兴趣向量；最后，对获取的兴趣向量采用协调关系算法进行处理，从而获取点击流数据所反馈的用户偏好集合。通过本申请，可以基于人机互动过程中产生的大量数据进行用户偏好识别，提高识别算法处理的速率的同时，也提高用户偏好识别的精确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的基于广告点击数据的用户偏好识别方法的流程图；

图2为本发明实施例1提供的标签关系模型示意图；

图3为本发明实施例2提供的与实施例1方法对应的基于广告点击数据的用户偏好识别系统结构框图；

图4为本发明实施例3提供的电子设备的硬件结构示意图。

附图标记说明：

10-采集模块、11-配置单元、12-发送单元、13-采集单元、14-滤重单元；

20-预处理模块、21-过滤单元、22-清理单元；

30-构建模块、31-抽取单元、32-绘制单元、33-修正单元、34-构建单元；

40-第一获取模块、41-构造单元、42-迭代单元、43-滤除单元、44-提取单元；

50-第二获取模块、51-意向单元、52-关联单元、53-标记单元、54-组合单元；

60-提取模块；

70-融合模块；

80-总线、81-处理器、82-存储器、83-通信接口。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

实施例1

具体而言，图1所示为本实施例所提供的一种基于广告点击数据的用户偏好识别方法的流程示意图。

如图1所示，本实施例的基于广告点击数据的用户偏好识别方法包括以下步骤：

S101，通过应用程序编程接口采集不同类别的点击流数据；其中，所述点击流数据包括注册类数据和应用类数据。

具体地，传统数据采集一般只简单的记录用户的注册信息，但随着用户喜好判定需求的不断提高，具备准确、全面的数据源是用户喜好定位的基础，也成为用户喜欢定位准确性的关键。在终端用户喜好发现的过程中，可以从服务器日志、代理服务器日志等来获取需要分析的数据。当技术人员需要针对某个商家的应用程序编程接口开发相应的对接程序时，可通过对应的应用程序编程接口获取应用程序编程接口相关的数据流，诸如应用程序编程接口服务端的注册类信息，以及应用程序编程接口客户端发送至应用程序编程接口服务端的业务请求消息、应用程序编程接口服务端反馈回应用程序编程接口客户端的业务应答消息等应用类信息。

进一步地，本实施例的步骤S101的具体步骤包括：

S1011，配置具有目标地址信息的调研指令。

具体地，当技术人员需要获取某个应用程序编程接口的接口信息时，可以打开服务器中已安装的应用程序编程接口调研程序，服务器上可以显示有应用程序编程接口调研管理界面，从而技术人员可以在该界面内配置应用程序编程接口调研任务。并且，技术人员可以对调研的规则进行具体的配置，可设置需要调研的应用程序编程接口对应的协议类型、地址信息等，这样服务器则可以接收到相应的接口调研指令。

S1012，根据所述目标地址信息向应用程序编程接口所属设备发送对应的抓取程序，以使所述应用程序编程接口所属设备装载对应的所述抓取程序。

具体地，服务器可以支持多个调研任务同时在后台执行，每个调研指令对应一个应用程序编程接口，从而服务器可以根据配置的应用程序编程接口的目标地址信息，采用并行分发的方式将抓取程序推送到指定的应用程序编程接口所属设备并安装抓取程序。

S1013，所述抓取程序基于所述调研指令选择性采集应用程序编程接口数据流。

具体地，本实施例可同时进行多个应用程序编程接口的接口信息的获取处理，而针对每个调研任务，均有相应的抓取程序进行数据流的抓取处理。需要说明的是，一个应用程序编程接口所属设备上可以存在多个应用程序编程接口，安装在该设备上的抓取程序可以获取到该设备上应用程序编程接口特定传输的数据流。之后服务器可以汇总多个数据流，然后按照数据流中包含的目标地址信息对数据流进行分类。

S1014，将所述应用程序编程接口数据流进行滤重处理，得到不同类别的点击流数据。

具体地，在筛选出所需的应用程序编程接口数据流后，服务器还需对应用程序编程接口数据流进行剔重处理，即去除掉其中重复的数据流。其中，重复的数据流可以是格式、标题相同的数据流，例如不同用户对同一应用程序编程接口中同一功能的请求消息，即可以认为是重复的数据流。

S102，针对所述应用类数据进行数据预处理得到预处理文本。

具体地，所述数据预处理包括时间戳预处理和文本预处理。

进一步地，本实施例的步骤S102的具体步骤包括：

S1021，通过设置预设字段标识操作所述应用类数据的时间戳，以使过滤所述应用类数据的无效数据。

具体地，时间戳是通过埋点技术来获取，主要针对的是阅读；传统在用户信号判定中，只要用户点击了就认为用户对这一内容感兴趣，但在真实的产品使用场景中，存在用户误点或用户打开内容页后，发现自己并不感兴趣，直接跳回上一级页面的情况，需要对这一交互过程做进一步的细分，以获取用户更精确的喜好趋向。本实施例中，在埋点过程中，设置formatOriginTime字段来标识用户操作的时间戳，设置tag字段来标识页面操作类型，不同的tag值标识不同的操作类型。

S1022，将过滤后的所述应用类数据采用文本预处理得到预处理文本。

具体地，所述文本预处理包括格式标记清理、停用词清理、定位符链接清理中的一种或多种组合。其中，各资讯内容会存在各种符号或表情等特殊字符，这些字符对于计算机来说无法识别，对喜好判定也没有任何意义，需要采用格式标记对这些特殊符号进行清理；搜索引擎在处理一般的搜索请求时，采用停用词清理方法屏蔽过滤掉一部分字词，这样可以节省一部分的存储空间并提高搜索效率；在各条资讯文本中，有时候会引入一些定位符链接，这些链接文本本身并没有实际的含义，只会被当做一串非法字符来对待，通常采用定位符链接清理法清理掉这些定位符链接。

S103，采用自然语言处理技术针对所述预处理文本进行分词以构建动名词词表。

具体地，兴趣关键词常常以名词和动词的形态出现，如果句子中不存在动宾结构时，以核心谓语和动宾结构下的宾语来作为用户的兴趣。当句子中存在表示用户的趋向动词时，会对用户提取核心谓语产生干扰。

进一步地，本实施例步骤S103的具体步骤包括：

S1031，通过分词平台从所述预处理文本中抽取包括谓语和/或宾语的核心词；

S1032，从所述预处理文本中搜集方位动词以绘制方位动词表；

S1033，通过所述方位动词表对所述核心词进行修正；

S1034，从修正后的所述核心词中提取目标词构建动名词词表。

S104，根据所述动名词词表，并采用加权算法从所述预处理文本中获取资讯标签集。

具体地，加权算法采用改进后的统计算法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度；本实施例具体为TF-IDF算法。由于以上所列举的动名词词表与实际情况不符的场景是由于该词语出现的频率较低，所以，在进行标签提取时，去掉出现频率很低的词语的干扰很有必要。

进一步地，本实施例的步骤S104的具体步骤包括：

S1041，基于词语出现概率关系构造加权算法；

具体地，加权算法具体如下：

；

式中，m表示一个词语出现次数的阈值，通过设定阈值ｍ，如果 tf＜ｍ则 tf=0；如果 tf≥ｍ， tf的值不变。

S1042，通过所述加权算法迭代计算所述预处理文本中所有词语的加权值得到迭代结果；

具体地，计算词语t_i的总词频 tf _i和包含这个词的资讯数 n _i以及收录的总资讯数N_i；根据上述加权算法计算 idf _i的值，结合 tf _i、 n _i以及N_i得出t_i的 tf值，循环执行以计算出所有词语的 tf值。

S1043，根据迭代结果针对所述所有词语中未出现在所述动名词词表中的词语进行过滤。

S1044，根据所述加权值的大小提取符合要求的词语作为资讯标签集；

具体地，本实施例通过提取 tf值最高的Ｋ个的词作为资讯标签集。

S105，采用相关度关联法从所述注册类数据获取兴趣标签集。

具体地，考虑到用户对关注用户的关注行为是基于用户与关注用户之间有相同或相似的兴趣，用户与关注用户之间不一定存在交流，无法通过TF-IDF算法来获取关注用户的兴趣标签，因此本实施例可将关注用户在注册账户时选择的兴趣标签作为用户兴趣的参考。

进一步地，本实施例的步骤S105的具体步骤包括：

S1051，通过所述注册类数据获取对应关注用户的兴趣标签。

具体地，注册类数据具体指用户在注册中输入的数据信息；具体指注册用户的个人信息，包括年龄、性别、兴趣标签等。

S1052，将所述兴趣标签通过相关度关联法得到评价关注用户与用户之间的关联度。

具体地，用户与关注用户之间的相关度主要取决于年龄、性别以及活跃度。其中，活跃度只针对用户与关注用户之间的交流，因此采用亲密度来衡量用户与关注用户之间的互动频率。本实施例中用户与某关注用户之间相关度的权值=年龄权值+性别权值+亲密度权值。

S1053，将所述关联度超过阈值的用户标记为被关注用户，并获取被关注用户对应的兴趣标签。

具体地，本实施例设定0.2作为阈值来评价关注用户与用户之间的相关度，将相关度超过0.2的用户按序组成与当前用户相关的用户列表，获取他们的兴趣标签。

S1054，将所述兴趣标签进行组合得到兴趣标签集。

S106，通过标签关系模型及基于图的排序算法分别对所述资讯标签集及所述兴趣标签集进行提取得到两组兴趣向量。

具体地，通过改进的TF-IDF算法获取与用户存在点赞、转发、阅读、评论关系的资讯标签集，通过相关度关联法获取被关注用户的兴趣标签集，由于获取标签集的对象不同，直接将标签集进行融合，会对算法的执行产生影响。其中，所述标签关系模型的构建步骤具体包括：

步骤一：定义研究对象存在互动关系的对象集合，以及所述对象集合中所有兴趣标签的兴趣集合。

具体地，假设与研究对象i存在交互关系的用户集合为：M(i)={a,b,c,d,e,f}，其中，a、b、c、d、e、f分别代表与对象i存在交互关系的用户。M(i)中全部用户的兴趣集合T(i)={O,P,Q,T}，其中，O、P、Q、T为用户的兴趣标签。M(i)中每个用户的兴趣集为：用户a的兴趣集为：O,Q,T；用户b的兴趣集为：P,T；用于c的兴趣集为：Q,T；用户d的兴趣集为：O,P,Q；用户e的兴趣集为：P,Q,T；用户f的兴趣集为：O,T。

步骤二：基于所述对象集合及所述兴趣集合通过共显次数形成次数矩阵。

具体地，次数矩阵如下所示：

。

步骤三：根据所述次数矩阵构建标签关系模型。

具体地，标签关系模型具体如图2所示，图中的标识O,P,Q,T表示用户的兴趣标签，数字0、1、2、3表示共显次数。进一步地，所述基于图的排序算法具体如下：

；

In( V _i)表示网页 V _i的所有入链的集合；

W _ji表示节点 i和节点 j链接的权重值；

Out( V _j)表示网页；

表示所有节点与节点 j链接的权重值之和。

S107，采用协调关系算法针对所述两组兴趣向量进行融合得到所述点击流数据所反馈的用户偏好集合。

具体地，由于加权算法通过对交互对象文本的分析来获取兴趣集，相关度关联法是从关注对象的角度研究用户的兴趣倾向，两种方式获取的兴趣集各有侧重，为了得到用户最终的兴趣发现结果，需要对这两种算法得到的结果进行融合，提高兴趣识别的精确度。

具体地，所述协调关系算法具体如下：

；

综上所述，首先，确定用户偏好识别所使用的相关数据，并对其进行预处理，包括时间戳的预处理和文本预处理：时间戳的预处理实现对用户阅读操作的细分以使过滤掉无用数据，文本预处理对用户交互日志中的各种无效标签等进行清理，并构建动名词词表为后续关键词提取做准备；其次，对于应用类数据采用加权算法获取资讯标签集，对注册类数据因用户与被关注用户之间不存在文字类型的互动，采用相关度关联法来获取关注用户的兴趣标签集；再次，对两种方式获取的标签集分别通过标签关系图模型，及采用基于图的排序算法获取两种方式下的兴趣向量；最后，对获取的兴趣向量采用协调关系算法进行处理，从而获取所述点击流数据所反馈的用户偏好集合。

实施例2

本实施例提供了与实施例1所述方法相对应的系统的结构框图。图3是根据本申请实施例的基于广告点击数据的用户偏好识别系统的结构框图，如图3所示，该系统包括：

采集模块10，用于通过应用程序编程接口采集不同类别的点击流数据；其中，所述点击流数据包括注册类数据和应用类数据。

预处理模块20，用于针对所述应用类数据进行数据预处理得到预处理文本；其中，所述数据预处理包括时间戳预处理和文本预处理。

构建模块30，用于采用自然语言处理技术针对所述预处理文本进行分词以构建动名词词表。

第一获取模块40，用于根据所述动名词词表，并采用加权算法从所述预处理文本中获取资讯标签集。

第二获取模块50，用于采用相关度关联法从所述注册类数据获取兴趣标签集。

提取模块60，用于通过标签关系模型及基于图的排序算法分别对所述资讯标签集及所述兴趣标签集进行提取得到两组兴趣向量。

其中，所述标签关系模型的构建步骤具体包括：

根据所述次数矩阵构建标签关系模型。

其中，所述基于图的排序算法具体如下：

；

In( V _i)表示网页 V _i的所有入链的集合；

W _ji表示节点 i和节点 j链接的权重值；

Out( V _j)表示网页；

表示所有节点与节点 j链接的权重值之和。

融合模块70，用于采用协调关系算法针对所述两组兴趣向量进行融合得到所述点击流数据所反馈的用户偏好集合。

其中，所述协调关系算法具体如下：

；

进一步地，所述采集模块10包括：

配置单元11，用于配置具有目标地址信息的调研指令；

发送单元12，用于根据所述目标地址信息向应用程序编程接口所属设备发送对应的抓取程序，以使所述应用程序编程接口所属设备装载对应的所述抓取程序；

采集单元13，用于所述抓取程序基于所述调研指令选择性采集应用程序编程接口数据流；

滤重单元14，用于将所述应用程序编程接口数据流进行滤重处理，得到不同类别的点击流数据。

进一步地，所述预处理模块20包括：

过滤单元21，用于通过设置预设字段标识操作所述应用类数据的时间戳，以使过滤所述应用类数据的无效数据；

清理单元22，用于将过滤后的所述应用类数据采用文本预处理得到预处理文本；其中，所述文本预处理包括格式标记清理、停用词清理、定位符链接清理中的一种或多种组合。

进一步地，所述构建模块30包括：

抽取单元31，用于通过分词平台从所述预处理文本中抽取包括谓语和/或宾语的核心词；

绘制单元32，用于从所述预处理文本中搜集方位动词以绘制方位动词表；

修正单元33，用于通过所述方位动词表对所述核心词进行修正；

构建单元34，用于从修正后的所述核心词中提取目标词构建动名词词表。

进一步地，所述第一获取模块40包括：

构造单元41，用于基于词语出现概率关系构造加权算法；

迭代单元42，用于通过所述加权算法迭代计算所述预处理文本中所有词语的加权值得到迭代结果；

滤除单元43，用于根据迭代结果针对所述所有词语中未出现在所述动名词词表中的词语进行过滤；

提取单元44，用于根据所述加权值的大小提取符合要求的词语作为资讯标签集。

进一步地，所述第二获取模块50包括：

意向单元51，用于通过所述注册类数据获取对应关注用户的兴趣标签；

关联单元52，用于将所述兴趣标签通过相关度关联法得到评价关注用户与用户之间的关联度；

标记单元53，用于将所述关联度超过阈值的用户标记为被关注用户，并获取被关注用户对应的兴趣标签；

组合单元54，用于将所述兴趣标签进行组合得到兴趣标签集。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

实施例3

结合图1所描述的基于广告点击数据的用户偏好识别方法可以由电子设备来实现。图4为根据本实施例的电子设备的硬件结构示意图。

电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（SolidState Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（Universal SerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性（Non-Volatile）存储器。在特定实施例中，存储器82包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（RandomAccess Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-Only Memory，简称为PROM）、可擦除PROM（Erasable ProgrammableRead-Only Memory，简称为EPROM）、电可擦除PROM（Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM）、电可改写ROM（Electrically Alterable Read-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（Static Random-Access Memory，简称为SRAM）或动态随机存取存储器（Dynamic Random Access Memory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器（Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous Dynamic Random-Access Memory，简称SDRAM）等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例1的基于广告点击数据的用户偏好识别方法。

在其中一些实施例中，电子设备还可包括通信接口83和总线80。其中，如图4所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线（Data Bus）、地址总线（Address Bus）、控制总线（ControlBus）、扩展总线（Expansion Bus）、局部总线（Local Bus）。举例来说而非限制，总线80可包括图形加速接口（Accelerated Graphics Port，简称为AGP）或其他图形总线、增强工业标准架构（Extended Industry Standard Architecture，简称为EISA）总线、前端总线（FrontSide Bus，简称为FSB）、超传输（Hyper Transport，简称为HT）互连、工业标准架构（Industry Standard Architecture，简称为ISA）总线、无线带宽（InfiniBand）互连、低引脚数（Low Pin Count，简称为LPC）总线、存储器总线、微信道架构（Micro ChannelArchitecture，简称为MCA）总线、外围组件互连（Peripheral Component Interconnect，简称为PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（Serial AdvancedTechnology Attachment，简称为SATA）总线、视频电子标准协会局部（Video ElectronicsStandards Association Local Bus，简称为VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该电子设备可以基于获取到基于广告点击数据的用户偏好识别系统，执行本申请实施例1的基于广告点击数据的用户偏好识别方法。

另外，结合上述实施例1的基于广告点击数据的用户偏好识别方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例1的基于广告点击数据的用户偏好识别方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于广告点击数据的用户偏好识别方法，其特征在于，包括：

采用相关度关联法从所述注册类数据获取兴趣标签集；

2.根据权利要求1所述的基于广告点击数据的用户偏好识别方法，其特征在于，所述通过应用程序编程接口采集不同类别的点击流数据的步骤具体包括：

配置具有目标地址信息的调研指令；

3.根据权利要求1所述的基于广告点击数据的用户偏好识别方法，其特征在于，所述针对所述应用类数据进行数据预处理得到预处理文本的步骤具体包括：

4.根据权利要求1所述的基于广告点击数据的用户偏好识别方法，其特征在于，所述采用自然语言处理技术针对所述预处理文本进行分词以构建动名词词表的步骤具体包括：

从所述预处理文本中搜集方位动词以绘制方位动词表；

通过所述方位动词表对所述核心词进行修正；

从修正后的所述核心词中提取目标词构建动名词词表。

5.根据权利要求1所述的基于广告点击数据的用户偏好识别方法，其特征在于，所述根据所述动名词词表，并采用加权算法从所述预处理文本中获取资讯标签集的步骤具体包括：

基于词语出现概率关系构造加权算法；

6.根据权利要求1所述的基于广告点击数据的用户偏好识别方法，其特征在于，所述采用相关度关联法从所述注册类数据获取兴趣标签集的步骤具体包括：

通过所述注册类数据获取对应关注用户的兴趣标签；

将所述兴趣标签进行组合得到兴趣标签集。

7.根据权利要求1所述的基于广告点击数据的用户偏好识别方法，其特征在于，所述标签关系模型的构建步骤具体包括：

根据所述次数矩阵构建标签关系模型。

8.根据权利要求1所述的基于广告点击数据的用户偏好识别方法，其特征在于，所述基于图的排序算法具体如下：

；

式中，V _i表示某个网页，S(V _i) 表示网页V _i的PR值，WS(V _i)表示节点i的权重值；

V _j表示链接到V _i网页、即V _i的入链，S(V _j)表示网页V _j的PR值，WS(V _j)表示节点j的权重值；

In(V _i)表示网页V _i的所有入链的集合；

W _ji表示节点i和节点j链接的权重值；

Out(V _j)表示网页；

表示所有节点与节点j链接的权重值之和。

9.根据权利要求1所述的基于广告点击数据的用户偏好识别方法，其特征在于，所述协调关系算法具体如下：

；

10.一种基于广告点击数据的用户偏好识别系统，其特征在于，包括：