CN103838885A

CN103838885A - 一种面向广告投放的潜在用户检索及用户模型排序方法

Info

Publication number: CN103838885A
Application number: CN201410126542.3A
Authority: CN
Inventors: 洪宇; 朱巧明; 康杨杨; 王剑
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2014-06-04
Anticipated expiration: 2034-03-31
Also published as: CN103838885B

Abstract

本发明提供一种面向广告投放的潜在用户检索及用户模型排序方法，包括以下步骤。S1、根据用户在浏览信息过程中的条件反射，对用户进行紧张线索的自动跟踪。S2、识别用户的阅读习惯，并完成面向用户阅读习惯的时序特征挖掘。S3、利用紧张跟踪原理，完成层次用户模型的构建，并进行用户模型排序。S4、将广告推送给进行用户模型排序后排名靠前的用户。

Description

一种面向广告投放的潜在用户检索及用户模型排序方法

技术领域

本发明属于搜索广告领域，具体涉及一种面向广告投放的潜在用户检索及用户模型排序方法。

背景技术

搜索广告，是区别于传统广告投放平台（如报刊、杂志、媒体和电视）的新型广告投放平台。广告主可以根据所经营产品或服务的特点，撰写广告内容，自主定价购买关键词，将广告投放到相关搜索引擎系统中。当用户使用搜索引擎查询信息时，搜索引擎系统会根据用户输入的关键词自动触发相应的广告，当某一关键词被多个广告主购买时，根据广告主的竞价排名展示广告。如果搜索引擎用户点击了某条广告链接，且实际有效，广告主将依据竞价向搜索引擎平台支付广告费用。因此，在不损失收入及不流失潜在用户的前提下，如何减少广告商的预算正成为一个热门议题。

目前已有许多这方面的工作，主要分为两大类：一类是优化广告查询的匹配，该方法考虑投标预算与查询频率、价格及排序机制的结合，给高质量的查询频率预测带来了系统整体较好的结果，但在个别方面还没有达到很好的效果。或者说，分析点击日志中的数据以获取相关广告，构建二分图，采用协同过滤的算法，也可以取得一定的效果。另一类是将用户对于产品的态度或喜好加入到系统分析中，但当前很少有专门处理这一问题的研究。某些初步理论根据某网站的点击数据分析用户对于横幅广告的反应并进行建模，发现了用户在点击倾向上的异质性。然而，相比于点击数据，用户在点击之后的行为更加有分析意义。分析用户对不同类型的广告（包括品牌宣传，定向广告）在不同媒体（包括传统媒体，网络媒体）中的反应，发现网络媒体对目标导向用户更有吸引力。通过构造回归问题的方式来计算相似度，并将其用于协同过滤中以预测用户对于产品的兴趣。然而，由于存在跨网站的障碍，并不适用于广告搜索。

目前，常见的广告搜索（Sponsored Search）主要针对用户检索相关广告，通过度量查询和各个广告的语义相似度来挖掘出最相关的广告，并将它显示在目标用户（即搜索了这一查询的用户）的检索结果页面上。只要用户输入的关键词能够触发广告，就将其推送给用户，对所有用户一视同仁，不区分用户之间的差异化，也不考虑用户是否是最佳的潜在消费人群，不能做到定点投放广告。

上述已有的广告搜索存在一定的不足：对广告主而言，不能取得广告投放的最大效益；对消费者而言，杂乱无关的广告影响了搜索体验；对应搜索平台而言，一方面会因无关广告降低用户的体验，损失流量，另一方面，由于广告主投放的转化率不高，降低平台的营收。因此，从整个广告系统的生态来看，目前的广告搜索模式存在很大的缺陷。

为解决上述问题，本发明提供一种面向广告投放的潜在用户检索及用户模型排序方法。

发明内容

本发明提供一种面向广告投放的潜在用户检索及用户模型排序方法，包括以下步骤：

S1、根据用户在浏览信息过程中的条件反射，对用户进行紧张线索的自动跟踪；

S2、识别用户的阅读习惯，并完成面向用户阅读习惯的时序特征挖掘；

S3、利用紧张跟踪原理，完成层次用户模型的构建，并进行用户模型排序；

S4、将广告推送给进行用户模型排序后排名靠前的用户。

优选的，步骤S1还包括以下步骤：

S11、记录光标在交互式接口中的位置、位移、驻停和对应的时间，并经过几何计算，描述成以时间为横坐标，以抖动波幅为纵坐标的紧张波纹，完成紧张元数据采样；

S12、识别光标的不同滑行状态，并通过SVM分类器进行用户紧张线索检测；

S13、采用规则分类法，利用检索过程的点击、滑鼠速度和加速度三项行为进行紧张线索分类。

优选的，步骤S11的实现过程为：紧张线索跟踪插件实时采集光标轨迹及时间形成紧张波纹坐标图，且交互式接口打开时触发采样插件并记录系统时间；采样插件实时监控光标在交互式接口中的状态，光标移动时触发采样插件进行光标位置的记录，同时记录系统时间，建立采样点与时间的一一对应关系。

优选的，步骤S13还包括：用弱指导分类方法，以规则法为基础，结合弱指导机器学习和在线学习方法，通过迭代修正，实现紧张线索分类的优化。

优选的，步骤S1中的紧张线索包括视觉紧张线索及抖动紧张线索，其中抖动紧张线索是指：用户与PC通用设备鼠标直接接触的手部，在大脑接收到外界刺激的时产生的无意识的抖动。

优选的，步骤S2中所述的面向用户阅读习惯的时序特征挖掘包括以下步骤：

S21、以文字信息为主体内容的检索结果呈现页面为信息采集平台，以用户滑鼠行为触发的交互式接口滑动窗口中的内容为计量环境，计算单位时间内的文字读取量。

S22、根据鼠标点击位置和滑鼠产生的窗口，进行用户阅读位置定位。

优选的，步骤S3还包括以下步骤：

S31、挖掘电子商务网站的商品分类体系，构建基本的商品层次属性树；

S32、根据所述电子商务网站的用户交易日志，计算不同注册用户之间的相似度，提取偏好相同的用户类；

S33、对偏好相同的用户类，利用电子商务网站提供的用户评论及评论星级，计算所述偏好相同用户类的偏好概率；

S34、利用紧张线索跟踪和用户浏览时序特征识别方法，对层次用户模型进行反向修正。

优选的，步骤S4中还包括：结合广告搜索，将最相关的广告传送给用户。

根据本发明提供的面向广告投放的潜在用户检索及用户模型排序方法，对用户进行紧张线索的自动跟踪，并识别用户的阅读习惯，可通过分析用户对特定产品的喜好差异来挖掘最有可能的潜在用户，选择地将广告推送给最可能的潜在用户以提高赞助商的收益率。同时，借助用户偏好和体验的挖掘，建立了一种新的层次结构的用户偏好描述模型，对用户模型进行排序，从而辅助提高了广告搜索中广告投放的精准性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的赞助搜索与潜在用户检索的区别示意图；

图2是本发明提供的紧张线索词抽取及强度度量样例示意图；

图3是本发明提供的视觉跟踪样例示意图；

图4是本发明提供的时序文字流演示图；

图5是本发明提供的紧张波纹样例示意图；

图6是本发明提供的紧张线索采样样例示意图；

图7是本发明提供的采样点划分样例示意图；

图8是本发明较佳实施例提供的层次商品属性树的局部片段样例示意图；

图9是本发明较佳实施例提供的层次用户模型的局部片段样例示意图；

图10是本发明较佳实施例提供的面向广告投放的潜在用户检索及用户模型排序方法流程图；

图11是本发明较佳实施例提供的滑动窗口演示图示意图。

具体实施方式

为更好地理解本发明，首先对相关内容作出详细介绍。

如前所述，潜在用户检索（Prospective Customer Search，简称PCS）旨在针对一个广告（简称ad）查找并排序潜在用户，其输入是查询及相关的用户集合，输出是根据用户对目标广告的偏好排序序列，排序越靠前的用户越有可能购买该产品。PCS通过分析用户对特定产品的喜好差异来挖掘最有可能的潜在用户，并将广告推送给这一类人群。因此，PCS和广告搜索就像硬币的正反面，通过有选择地将广告推送给最可能的潜在用户以提高赞助商的收益率，而广告搜索通过将最相关的广告准确全面地传送给用户来提高用户体验。虽然两者的出发点不同，但目标都是提高广告的点击率。

如上所述，赞助检索和PCS都有相关性度量部分，但是两者要度量的目标是不同的：前者是广告的度量，而后者是用户的度量。在赞助检索中，广告排序分析广告的内容（包括产品属性、价格以及材质等），并通过预测用户对此广告的满意度来进行广告的排序，这一过程也称作用户满意度排序。相反，用户排序主要学习用户的偏好，并据此对相关用户进行排序以获取最有可能的潜在用户群，这一过程称作购买力排序。

广告搜索的相关工作中也借助了用户偏好学习来辅助广告排序。实际上，广告搜索中的用户偏好学习仅仅用于描述目标用户的固有需求，对于广告的排序没有直接作用。相比较而言，PCS中的用户偏好学习进行了更深一层的挖掘，并将其结果，如用户对于特定广告的观点或情感的度量，作为用户排序的比较依据。为了更清晰地展示出PCS与广告搜索的差别，表1进行了两者的处理机制对比。

表1

通过表1可以看出，PCS中的用户偏好学习、广告内容学习的目的以及应用完全不同于广告搜索。

图1是本发明提供的赞助搜索与潜在用户检索的区别示意图。如图1所示，PCS任务包含两个子任务，其中：任务一为，查询和广告间的相关性度量，通过研究查询(即用户用于表述其需求的语句或词语)与广告（即广告商投标的产品关键词或描述）中的语言特征（如，用词、时态、上下文、语义等），来度量查询与广告之间的语义相似度，在此基础上，PCS探测并挖掘与特定广告相关的候选潜在用户；任务二为，基于偏好的用户排序，通过分析查询日志、相关反馈、浏览历史、个人喜好和行为来学习每个候选潜在用户对特定广告的偏好（如，兴趣、关注点、观点、情感），该子任务主要依赖于偏好学习来预测候选用户购买该产品的可能性，并据此进行排序，该任务是PCS的核心任务。

用户偏好学习的目的是挖掘用户的个性化需求。显而易见，该模块并非研究用户的宽泛的兴趣，如吸引人眼球的海报或者华丽的宣传词等，它关注的更多的是用户对于广告的喜好中细微的差别，并借此来判断广告推送的目标用户。

除上述现有技术外，以下还将对紧张线索定义，紧张数据采集等基本原理进行介绍，并据此给出方法的详细步骤。

一、紧张跟踪的原理。基于紧张跟踪（Nervousness Tracking，以下简称NT）的用户偏好学习方法是一种集生物行为仿真与统计机器学习相结合的自然语言理解与处理方法，其核心思想是：以鼠标及其产生的滑行轨迹特征为媒介，监控用户浏览信息流时出现的无意识条件反射行为，并借此探测用户体验的“紧张”特性及其分布规律，形成一套自动且直接的挖掘和描述用户偏好特点及强度的语言处理方法。

图2是本发明提供的紧张线索词抽取及强度度量样例示意图。如图2所示，NT方法首先利用交互式接口（如IE浏览器主内容框体）收集光标滑行轨迹，形成以时序为主轴的光标抖动波纹（如图2上部二维坐标系所示），识别并分割表征用户“紧张”的波纹片断（下文称“紧张线索”），判断紧张线索对应的用户偏好类型（如“喜欢”、“不喜欢”和“忽视”等）；其次，学习用户的阅读过程，探测用户浏览文字流的习惯和速度等特性，借此建立以时许为轴的用户浏览信息流（如图2下部一维坐标系所示）；再次，以紧张线索的首末边界为切分点，按时序切割和抽取对应于紧张线索的信息流，从而抽取直接反应（而非统计估计）的用户偏好的文字描述（如图2中的文字片断Si…Sj以及Sp..Sq）；最后，利用获得的偏好描述，解决面向广告搜索的相关用户排序问题，包括用户偏好的层次模型构建、用户的广告投放价值估测与比较。

二、紧张线索的定义。紧张线索来源于用户对敏感事物的一种条件反射，即“紧张”，如人的“喜悦”、“愤怒”和“惊恐”等等。作为一种直观的生理表现，“紧张”能够清晰地反映人的体验、体验和直觉等等，尤其对于反映人关注事物的焦点，具有更为直接的表现力。由此，紧张线索指一种能够反映人对事物产生“紧张”的外在表现。相应地，本发明中的紧张线索特指：搜索引擎用户在浏览检索结果列表过程中产生“紧张”的外在表现。

目前，SEO（Search Engine Optimization）已经成功发现并使用了一种紧张线索，即视觉紧张。其核心原理是：用户在浏览信息的过程中，其眼球瞳孔的缩放能够反映用户是否对视觉触及到的信息产生“紧张”，比如，瞳孔“扩张”表征“紧张”（包括“惊恐”、“惊喜”、“震惊”等等），而瞳孔“缩小”则表征“忽视”与“浅记忆”等等。利用这一原理，SEO开发了头戴式视觉监控系统（Eye Tracker）。

图3是本发明提供的视觉跟踪样例示意图。如图3所示，头戴式视觉监控系统能够在用户浏览信息的过程中，同时捕捉用户的视觉焦点、“紧张”点以及强度（也称视觉热力度），对于面向用户的个性化信息处理技术有着跨越式的推动作用。然而，这类视觉监控系统造价昂贵，且便携能力差，难以真正投入实际应用和推广。此外，视觉系统反馈的信息不够精细且泛化，往往无法精准的定位用户的“紧张”焦点。

三、时序浏览流的定义。时序浏览流是辅助紧张线索识别和抽取用户浏览偏好的重要信息，其定义为：依据用户浏览时序排列的一组文字信息流。时序浏览流描述了用户从特定信息起点和特定时间开始，以某种阅读速度，附以“跳转”（忽略特定文字段）的行为，摄取到的有序文字信息。由此，时序浏览流不仅刻画了用户阅读信息的文字顺序，也在有序文字和时间点之间建立了对应关系。

图4是本发明提供的时序文字流演示图。如图4所示，利用视觉监视系统进行分时采集，是获取时序浏览流的一种有效手段，但仍然面临造价和通用性的问题。为此，本发明采用用户大规模click-through数据反映的行为特征为切入点，进行时序浏览流的分析与挖掘。

四、用户紧张元数据采样。紧张元数据采样的基本样本为：光标在交互式接口中的位置以及对应的采样时间。两两采样点之间的距离为一次位移。采样时间的基本单位为毫秒，触发采样的基本条件是光标位置产生移动。根据位移是否采用标量和向量，可以获取无向“紧张波纹”和有向“紧张波纹”两种。图5是本发明提供的紧张波纹样例示意图。如图5所示，其显示了一项无向“紧张波纹”的真实样例。

但是，监控插件的监控点与采样点（光标移动才采样）并不能在时间维上完全吻合，因此会带来抖动采样的误差。详述如下：采样插件涉及一种监控光标的频率，即插件向交互接口发出的每两个监控消息之间的时间间隔，简称监控频率。监控频率恒定但不可控，从而监控消息发出（即监控点）的时间并非连续，而是以恒定时间间隔离散出现。图6是本发明提供的紧张线索采样样例示意图。产生的两种采样误差：多个监控点采集的光标位置位于同一滑行轨迹，两两采样点之间的位移并非独立的一次光标移动（即一次抖动），而是一次抖动中的局部位移（如图6中轨迹A上三个有效监控点触发的位移采样）；某些监控点上，光标并不移动，从而不触发采样过程（如图6中轨迹A与轨迹B之间的无效监控点），由此，采样数据中的时间维上，采样时间间隔并不一致。上述两个问题将对识别每一次“抖动”并形成整体抖动波纹产生误导。

因此，本发明采用一种基于频率分布和位移夹角近似的划分方法，在原始采样的基础上，进一步划分和识别抖动波纹。

首先，频率划分法利用了采样频率在时间维上的分布规律，对采样数据是否隶属于同一条抖动波纹进行判定，实现波纹的整体切割。其切割过程遵循如下两项规则：

规则一、连续采样点（数量大于等于3）两两之间的时间间隔相等，如图7中a-c采样序列和e-g采样序列，则将此类采样序列抽选，并作为一条“抖动波纹”。注：操作系统采用的监控频率相同，但插件程序运行环境及内部处理会对这一频率的周期产生干扰，因此频率划分法仅鉴定连续采样点两两间隔（一个监控周期）是否在一段小时间片断内一致，而非全部等于一项特定的值，比如，图7中a-c采样序列的间隔为5毫秒，而e-g采样序列的时间间隔为8毫秒；

规则二、孤立采样点，即与前后采样点之间的时间间隔不一致的采样点，比如，图7中a中的采样点d和h，作为一次孤立抖动予以记录。

其次，位移夹角近似划分法。孤立采样点直接对应一次单向抖动位移（即孤立的抖动向量），连续且间隔相等的采样点序列对应一次完整的“抖动波纹”（即一系列关联的抖动向量）。对于频率划分法获得的一次“抖动波纹”，按采样点进行切割，两两采样点之间的距离为一次抖动位移，由前点和后点形成的有向位移为一个抖动向量，两两向量计算夹角相似度，高于特定参数（即夹角过大），则判定“抖动波纹”发生转向（即逆向），否则，判定“抖动波纹”方向未发生偏转（即同向）。将“抖动波纹”中连续同向的向量作为一个完整波幅，对于“抖动波纹”无向图，一个“波纹”的所有波幅沿时间轴同向表示（取正值），对于“抖动波纹”有向图，一个“波纹”的第一个波幅取正向（二维坐标系纵轴正值），后续所有与第一个波幅同向的波幅皆取正向，与第一个波幅逆向的波幅皆取逆向。由此完成光标轨迹在二维坐标系中的映射，并专门反映光标抖动的频率、波幅、波长和分布，用于后续“紧张”线索的检测和分类。

五、用户紧张线索的检测。用户紧张线索检测的主要目的是识别光标的不同滑行状态，并将刻画“紧张”的抖动状态与其它状态区分开，实现抖动线索的抽取。其中，其它状态指的是光标正常滑行、驻停以及异常“抖动”（比如，触发鼠标滑轮时产生的抖动）。检测过程通过SVM分类器予以实现。

六、紧张线索分类方法。用户紧张线索分类的核心目标是确定某一“紧张波纹”对应于哪类用户体验（本发明仅考虑“喜欢”、“讨厌”和“一般”，也可表示为褒、贬和中性）及其强度，这类体验可以作为挖掘用户偏好的重要特征，而其强度的度量则有助于分析层次性的用户偏好体系，从而辅助后续基于层次用户偏好的广告受众排序学习。此处主要讨论规则分类法和弱指导分类法。

规则分类法利用检索过程的点击、滑鼠速度和加速度三项行为强制地指定紧张线索类别。其中，对检索结果进行的一次点击对应用户“喜欢”这一体验（rule_1）；在浏览检索结果时，鼠标滑轮的匀速旋转，对应用户“一般”这一体验（rule_2）；在浏览检索结果时，鼠标滑轮的加速旋转，对应用户“讨厌”这一体验（rule_3）。分类过程中，紧张线索跟踪插件实时跟踪用户浏览检索结果时的行为特征，记录点击和滑鼠时间及速度。

这一规则方法的优点在于无需训练数据，属于无指导的分类方法，算法简单且容易实现。缺点是规则限制过于严格，用户体验的强度无法度量，扩充用户体验类别后难以对聚类进行调整（该方法测试结果如下文）。

弱指导分类法以规则法为基础，结合Boostrapping弱指导机器学习和在线学习方法，通过迭代修正，实现紧张线索分类的优化。弱指导分类法对于新出现的用户体验或原有用户体验的变化，具有较高的适应能力；但是，因其初始训练数据较少，在初期阶段无法达到最优值，此外，弱指导分类法仍然无法挖掘紧张波纹与用户体验强度之间的关系（如非常“喜欢”和比较“喜欢”）。

七、时序特征的识别方法。该方法的核心目标是识别特定用户的阅读习惯（阅读速度和浏览位置），形成以时序为轴的用户摄入的文字信息流，以此配合以时序为轴的用户紧张线索流，实现用户偏好信息的精确定位。

其中，用户阅读信息的速度指的是用户单位时间（100ms）内通过视觉摄入的文字信息量。其中个体之间的速度并不一致，且期间往往还包含加速和跳转等行为。下述阅读速度的识别方法为可针对个体实时采集的个性化阅读速度识别方法，且假设阅读期间无加速和跳转。该计量方法忽略了用户阅读习惯的影响，比如，某些用户习惯只阅读检索结果的标题，某些用户习惯只阅读着色的关键字及其周边文字，某些用户只习惯阅读快照的内容等。如何进行精细的区分，是阅读速度识别得以优化的关键。

用户浏览信息的位置定位是指识别网页中用户已读的文字片段，最易于定位的文字片段为用户点击的检索结果标题。

八、面向广告搜索的用户偏好学习。用户紧张线索跟踪，以及用户浏览信息的时序特征识别方法，都是面向深度挖掘用户偏好和检索体验的重要基础信息处理方法。本发明将这两种方法应用于广告搜索，借助用户偏好和体验的挖掘，建立具有层次结构的用户偏好描述模型，并对用户模型进行排序，辅助提高广告搜索中广告投放的精确性。

用户排序问题的核心并非探索广告文本是否相关于系列用户（从而实现将广告向相关用户投放），而是如何在相关用户中进行深度学习，判定哪类用户会对广告的产品进行实际的购买。尤其，对不同类别的相关用户，根据购买意图强弱进行排序。这样一种用户排序，对于广告商能够做到实际的有的放矢（提高回报率），对于用户而言，能够避免接触“尽管可能相关但完全没有诱惑力”的广告，提升单位页面承载有效信息的能力，提高用户体验。

用户排序问题实际上是一种用户模型的排序问题，而非在线检索过程中出现的系列用户个体的排序，每一个用户模型代表一类用户的信息需求、偏好和共同体验。在实际应用中，用户模型需要在静态的大规模数据中构造并排序，形成先验的用户模型排序结果；检索过程中，个体的在线用户需与先验用户模型进行匹配，并借此指定其所属的用户模型；最后，根据其用户模型排序给出个体用户是否符合广告投放的要求。因此，关键问题是如何在大规模静态数据集中，生成用户模型的排序结果，并引入用户紧张线索跟踪和用户浏览信息时序特征识别，借以利用隐式相关反馈构造用户模型，优化用户排序性能。这里用户排序是用户模型的排序，其根本是用户实际购买产品的概率估计，而非简单的相关性的估计。

用户排序的一个技术难度是层次用户模型的构建。层次用户模型是一种由商品属性和功能词组成的树形结构，自根节点至叶节点表述了由宏观到具体的商品属性和功能，其体现用户偏好和体验的部分是：各个层次上商品属性和功能在满足用户需求时的不同能力（使用概率指标刻画这一能力）。

层次用户模型构建方法包含两个主要内容：商品属性层次树的自动构建；层次树上用户偏好的概率分布计算。其中，层次树构建将建立统一的模型结构，树中每个节点对应一项可重复出现的商品属性或功能，通过大规模数据处理将各种已知商品的属性按层次进行划分，并将树中每个节点的用户偏好概率值以统一指标进行设置，如图8所示，图8仅为商品属性层次树的局部片段样例。相对地，用户偏好概率分布计算则借助对一类用户的偏好学习，修正上述层次树中相关节点的偏好概率指标，形成表征一类用户偏好的概率分布。如图9所示，图9是对图8进行概率修正后的结果，其中，边线加粗加大的节点表征用户偏好取向“喜欢”，偏好概率指标相应增大；边线为虚线且缩小的戒掉表征用户偏好取向“讨厌”，偏好概率指标相应减少。

利用上述层次用户模型，针对特定广告（关键字和描述），可对不同类型的用户模型进行排序，越符合广告内容及特征分布的用户模型排序越靠前，形成用户模型排序列表。由此，在实际检索过程中，当特定相关用户出现时，是否向该用户投放广告，可根据该用户特征与用户模型的近似性，以及相似用户模型的排序，联合进行判定。

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图10是本发明较佳实施例提供的面向广告投放的潜在用户检索及用户模型排序方法流程图。如图10所示，本发明较佳实施例提供的面向广告投放的潜在用户检索及用户模型排序方法包括步骤S1～S4。

步骤S1：根据用户在浏览信息过程中的条件反射，对用户进行紧张线索的自动跟踪。

具体而言，步骤S1还包括步骤S11～S13。

步骤S11：记录光标在交互式接口中的位置、位移、驻停和对应的时间，并经过几何计算，描述成以时间为横坐标，以抖动波幅为纵坐标的紧张波纹，完成紧张元数据采样。

其中，步骤S11的实现过程为：紧张线索跟踪插件实时采集光标轨迹及时间形成紧张波纹坐标图，且交互式接口打开时触发采样插件并记录系统时间；采样插件实时监控光标在交互式接口中的状态，光标移动时触发采样插件进行光标位置的记录，同时记录系统时间，建立采样点与时间的一一对应关系。于此，连续采样点之间的位移表征一次“抖动”的局部片断，连续采样点之间的时间间隔表征抖动的时间维，由此产生的“时序-位移”坐标系，形成了包含“抖动波纹”的标量（无向）或向量（有向）空间。

步骤S12：识别光标的不同滑行状态，并通过SVM分类器进行用户紧张线索检测。

具体而言，用户紧张线索检测的主要目的是识别光标的不同滑行状态，并将刻画“紧张”的抖动状态与其它状态区分开，实现抖动线索的抽取。其中，其它状态指的是光标正常滑行、驻停以及异常“抖动”（比如，触发鼠标滑轮时产生的抖动）。检测过程通过SVM分类器予以实现，表2为分类器使用的特征维。表3为紧张线索分类器的特征维。

表2

在表2中，特征维S、TC和HC已在实验中得以验证，能够有效识别和划分趋向点击目标的光标滑行状态；特征维WT、XV、IV和VV在识别和划分触发鼠标滑轮时产生的光标状态，具有较好效果；而特征维D、W、P、DN和DL对于识别手部抖动产生的光标状态具有较好效果；驻停只需考虑无波幅时间维即可判定。

表3

步骤S13：采用规则分类法，利用检索过程的点击、滑鼠速度和加速度三项行为进行紧张线索分类。

具体而言，对检索结果进行的一次点击对应用户“喜欢”这一体验（rule_1）；在浏览检索结果时，鼠标滑轮的匀速旋转，对应用户“一般”这一体验（rule_2）；在浏览检索结果时，鼠标滑轮的加速旋转，对应用户“讨厌”这一体验（rule_3）。

上述分类过程中，紧张线索跟踪插件实时跟踪用户浏览检索结果时的行为特征，记录点击和滑鼠时间及速度。在此基础上：首先过滤掉对应鼠标滑行、驻停以及异常“抖动”的紧张波纹片段；其次，采集触发点击和滑鼠的时间ti（注：触发点击时间非实际点击时间，而是趋向点击点的光标滑行开始的时间），经验选取时间窗口w，在时间区间[ti-w，ti]中抽取紧张波纹；再次，根据上述规则{rule1，rule2，rule3}，标注波纹对应的用户体验（“喜欢”、“讨厌”和“一般”），形成具有标注数据的波纹集合；最后，对波纹进行聚类（KNN聚类算法），近邻之间的关系用波纹相似度进行计算（VSM），向量空间的各个维度如表2所示，检测每个波纹聚类中用户体验类别的分布情况，根据公式P=C·Max(TF·IDF)u判定紧张线索类别。

上述公式中：P表示某一个紧张波纹聚类对应于某一种用户体验的概率；C表示聚类宽度（即波纹个数）；(TF·IDF)u表示某一个聚类中，一种用户体验的分布量化指标；TF表示用户体验在当前聚类中的频率；IDF表示用户体验在当前聚类集合中的反文档频率；Max表示取TFIDF最大的用户体验作为当前聚类中所有紧张波纹对应的用户体验。

步骤S13还包括：用弱指导分类方法，以规则法为基础，结合弱指导机器学习和在线学习方法，通过迭代修正，实现紧张线索分类的优化。

具体实现过程如下：

首先，建立紧张线索分类器，其特征维度在表2的基础上，增加了点击及其触发的间隔、滑鼠机器触发的间隔等特征维，其维度表述如表3所示；

其次，利用规测法对初期获得的紧张波纹进行分类，形成初始的紧张波纹类（“喜欢”、“讨厌”和“一般”三类波纹），利用这类波纹训练上述分类器；

再次，利用分类器对后续检索过程进行用户体验判断，给出每一个紧张波纹出现后，对点击、匀速滑鼠和加速滑鼠的预测（预测的时间范围为紧张波纹出现后窗口w以内的用户行为）。在此基础上，利用实际用户行为（点击、匀速滑鼠和加速度）计算分类器判断能力的误差，包括前期的紧张波纹分类误差、本期的紧张波纹分类误差和截至目前紧张波纹分类误差的方差。进行在线学习，重新训练分类器参数，使当前误差与前期误差间距达到最大，同时兼顾误差方差衰减至极值；

最后，迭代执行上一步骤，直至误差间距及误差方差不再发生明显变化。

本实施例中，所述紧张线索包括视觉紧张线索及抖动紧张线索，其中抖动紧张线索是指：用户与PC通用设备鼠标直接接触的手部，在大脑接收到外界刺激的时产生的无意识的抖动。于此，手部的“抖动”行为与瞳孔“缩放”一样，构成一种“紧张”的外在表现，即为“抖动”式紧张线索。这一紧张线索可直接借助现有的通用设备鼠标，以及特定交互式接口（比如，搜索引擎的交互界面）直接采集，而无须设置额外的硬件设备。因此，无附加造价且便携，可有效地直接投入实际应用并快速推广。

步骤S2：识别用户的阅读习惯，并完成面向用户阅读习惯的时序特征挖掘。

步骤S2中所述的面向用户阅读习惯的时序特征挖掘包括步骤S21及S22。

步骤S21：以文字信息为主体内容的检索结果呈现页面为信息采集平台，以用户滑鼠行为触发的交互式接口滑动窗口中的内容为计量环境，计算单位时间内的文字读取量。

举例而言，阅读速度识别方法以搜索引擎“百度”的网页类搜索接口（主要以文字信息为主体内容的检索结果呈现页面）为信息采集平台，以用户滑鼠行为触发的交互式接口滑动窗口中的内容为计量环境，计算单位时间内的文字读取量。中国人阅读中文的平均阅读速度，以15人参加测试为8.125字/秒（0.8125字/100ms），个体之间的速度并不一致，且期间往往还包含加速和跳转等行为。

基本识别方法如下：阅读速度识别插件实时监控“百度”的交互式接口，如检索结果页面中包含图片信息，则忽略这一页面（图片影响文字阅读速度的侦测）；否则，进行速度识别。监控过程中，一旦用户触发滑鼠，使交互式接口（即检索结果页面）向下产生滑动，则触发速度识别模块。此时，网页向下滑行产生的窗口W中包含的文字内容，默认为用户“已读”（注：非全部文字都被用户读取），如图11所示。通过统计窗口W中的文字量，并除以监控插件记录的时间片断，则可以获取基本的阅读速度均值。

上述基本的阅读速度计量方法忽略了用户阅读习惯的影响，比如，某些用户习惯只阅读检索结果的标题，某些用户习惯只阅读着色的关键字及其周边文字，某些用户只习惯阅读快照的内容等。如何进行精细的区分，是阅读速度识别得以优化的关键。

本实施例采用一种基于规则的优化算法，这一算法首先基于少量用户获得用户群的平均阅读速度（前文所示8.125字/秒）；其次，给定某一窗口w，统计其中包含的检索结果标题、着色文字串和快照各自的文字量，并使用平均阅读速度，估算阅读标题类、着色文字串类和快照类各自的用时（称为各文字类的估测用时）；再次，将测试用户实际阅读消耗的时间与上述三类估测用时进行比对，选择与用户实际用时最为接近的估测用时对应的文字类（标题、着色文字串、快照和全部文字）作为用户实际阅读的文字内容；最后，使用实际阅读文字内容除以实际用时，获得用户阅读速度。在此基础上，对特定用户实施长期监控，将获取到的大量阅读速度样本进行均值计算，得到优化的阅读速度指标。

S22：根据鼠标点击位置和滑鼠产生的窗口，进行用户阅读位置定位。

具体而言，所述用户阅读位置定位具体过程如下：

首先，将点击位置和滑鼠产生的窗口W边界作为划分点（注：普通网页正文只考虑滑鼠产生的划分点，检索结果页面则两者皆考虑），两两划分点之间的文字内容作为阅读位置定位的目标窗口w’（点击的检索结果标题不在w’内，直接作为已读文字片段输出）；

其次，由于自然语言中，一个子句往往是构成语义描述的基本文字单位（词语或短语仅构成词义或论元的描述），而用户在理解文字内容并给出某种判断（如用户体验和偏好）时，需要至少理解基本的语义，由此，本方法假设子句是用户基本的信息摄入单位，将窗口w’内的所有文字按子句进行切分，并按序排列，形成待检子句序列：{(s1:length1)…(si:lengthi)…(sn:lengthn)}。该序列中，每个子句标定其长度，即包含的字数；

再次，利用Boolean模型表征所有可能的已读子句序列（下文称候选序列），比如候选序列{(s1=0)，s2=1)，(s3=1)}表示子句s1未被读取，其它两个子句都被读取；针对每一个候选序列，计算阅读用时，计算过程利用了上一节的用户阅读速度，将序列中每个Boolean值为1的子句长度除以阅读速度，获得其阅读用时，并对所有Boolean值为1的子句的阅读用时取和，获得一个候选序列的总用时；

最后，从所有候选序列中，选择前N个阅读用时最接近实际用时的候选序列，并将各个序列中Boolean值为1（即假设已读）的子句提取，然后取交集，形成用户已读文字片段的强集H，交集外的子句形成已读文字片段的弱集H’，窗口w’内不在强集H和弱集H’内的子句作为未读文字片段集合U。

步骤S3：利用紧张跟踪原理，完成层次用户模型的构建，并进行用户模型排序。

步骤S3还包括步骤S31～S34。

步骤S31：挖掘电子商务网站的商品分类体系，构建基本的商品层次属性树。

具体而言，本实施例以亚马逊中文电子商务网站为数据源，挖掘并获取其商品分类体系，形成商品层次树，树中的中间节点为分类体系的特征词标签，叶节点为商品描述的关键词。

步骤S32：根据所述电子商务网站的用户交易日志，计算不同注册用户之间的相似度，提取偏好相同的用户类。

本步骤中，对亚马逊注册用户（非注册用户的偏好信息无法获得）进行聚类，聚类过程利用了亚马逊网站提供的用户交易日志，从中抽取用户已购买的商品描述（商品名、所属类别以及商品关键词），形成代表用户“喜欢”这一体验的描述模型（多维向量模式）；同时，从交易日志中，挖掘用户访问但未购买的商品描述，形成代表用户“讨厌”这一体验的描述模型（多维向量模式）。用户之间的相似度通过“喜欢”类商品的近似度和“讨厌”类商品的近似度加权和进行计算，聚类采用KNN（即K近邻）算法予以实现。

步骤S33：对偏好相同的用户类，利用电子商务网站提供的用户评论及评论星级，计算所述偏好相同用户类的偏好概率。

具体而言，对于一类偏好相同的用户，利用亚马逊提供的用户评论项及其星级评分（未提供评论的用户在下述过程中予以忽略），挖掘这一类用户评论中频繁出现的关键词，这类关键词在上述商品属性层次树中对应的节点将成为用户偏好概率修正的目标节点，针对每个关键词，抽取出现这一关键词的所有评论，利用这些评论的星级（注：亚马逊中，每条评论对应的星级表征评论人对商品某些关键属性的满意度评分）计算用户的偏好概率，计算方式为以星级（1-5级）为底的对数值取平均（注：星级为1和2往往代表用户不够满意产品的特定属性，取对数获得的指标虽然大于1但提高并不明显；相对地，星级为4和5往往代表用户满意产品的特定属性，去对数获得的指标提高明显），利用这一指标，对相应关键词在层次树中的节点进行偏好概率的修正（初始为1，修正后为关键词对应的系列星级取对数的平均值），这一修正过程为正向修正，即提高使用户满意的商品属性的偏好概率指标。

步骤S34：利用紧张线索跟踪和用户浏览时序特征识别方法，对层次用户模型进行反向修正。

具体而言，本步骤利用了前文所述的紧张线索跟踪和用户浏览时序特征识别方法。对一类偏好相同的用户，修正过程跟踪并记录了用户访问商品但未购买商品过程中的用户行为，通过用户浏览商品评论时的已读字符串识别，建立以时序为轴的已读评论字符串序列；同时，利用紧张线索跟踪，形成以时序为轴的紧张波纹，提取反映“讨厌”体验的紧张波纹及其时间段，利用紧张波纹的覆盖面积及波幅频率计算紧张强度，并利用相应的时间区间，在时序已读字符串上挖掘对应于这类紧张波纹的文字串，从而形成“文字串-紧张强度”元组集合；在此基础上，对层次用户模型的节点进行遍历，与元组集合中文字串一致或近似（如文字串包含节点文字）的节点将成为反向修正的目标，修正过程用匹配成功的文字串对应的紧张强度进行偏好概率计算，计算过程用对应节点的原始偏好概率除以“以紧张强度为底的对数”。

上述过程对每一个偏好相同的用户类进行层次用户模型的初始化、正向修正和反向修正，得到每个用户类的用户模型。在此基础上，给定特定商品的广告及描述，进行用户模型排序，以及待检用户的用户模型划分，最终进行广告投放与否的判定。

步骤S4：将广告推送给进行用户模型排序后排名靠前的用户。

具体地，将广告推送给最有可能的潜在用户（即排名靠前的用户），以提高赞助商的收益率。本步骤还包括：结合广告搜索，将最相关的广告传送给用户，以此提高用户体验。上述二者的有机融合，可共同提高广告搜索中广告的投放精准性。

综上所述，根据本发明较佳实施例提供的面向广告投放的潜在用户检索及用户模型排序方法，以鼠标及其产生的滑行轨迹特征为媒介，监控用户浏览信息流时出现的无意识条件反射行为，并借此探测用户体验的“紧张”特性及其分布规律，形成一套自动且直接的挖掘和描述用户偏好特点及强度的语言处理方法。同时，广告搜索通过将最相关的广告准确全面地传送给用户来提高用户体验，二者的有机融合，有效地平衡了广告平台、广告主及消费者三方的利益。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种面向广告投放的潜在用户检索及用户模型排序方法，其特征在于，包括以下步骤：

S4、将广告推送给进行用户模型排序后排名靠前的用户。

2.根据权利要求1所述的方法，其特征在于，步骤S1还包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，步骤S11的实现过程为：紧张线索跟踪插件实时采集光标轨迹及时间形成紧张波纹坐标图，且交互式接口打开时触发采样插件并记录系统时间；采样插件实时监控光标在交互式接口中的状态，光标移动时触发采样插件进行光标位置的记录，同时记录系统时间，建立采样点与时间的一一对应关系。

4.根据权利要求2所述的方法，其特征在于，步骤S13还包括：用弱指导分类方法，以规则法为基础，结合弱指导机器学习和在线学习方法，通过迭代修正，实现紧张线索分类的优化。

5.根据权利要求1所述的方法，其特征在于，步骤S1中的紧张线索包括视觉紧张线索及抖动紧张线索，其中抖动紧张线索是指：用户与PC通用设备鼠标直接接触的手部，在大脑接收到外界刺激的时产生的无意识的抖动。

6.根据权利要求1所述的方法，其特征在于，步骤S2中所述的面向用户阅读习惯的时序特征挖掘包括以下步骤：

7.根据权利要求1所述的方法，其特征在于，步骤S3还包括以下步骤：

8.根据权利要求1所述的方法，其特征在于，步骤S4中还包括：结合广告搜索，将最相关的广告传送给用户。