CN103678711B - 一种页面特征表示方法、装置及设备 - Google Patents

一种页面特征表示方法、装置及设备 Download PDF

Info

Publication number
CN103678711B
CN103678711B CN201310749816.XA CN201310749816A CN103678711B CN 103678711 B CN103678711 B CN 103678711B CN 201310749816 A CN201310749816 A CN 201310749816A CN 103678711 B CN103678711 B CN 103678711B
Authority
CN
China
Prior art keywords
page
coordinate
user
attention rate
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310749816.XA
Other languages
English (en)
Other versions
CN103678711A (zh
Inventor
刘存伟
刘刚毅
吴国军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310749816.XA priority Critical patent/CN103678711B/zh
Publication of CN103678711A publication Critical patent/CN103678711A/zh
Application granted granted Critical
Publication of CN103678711B publication Critical patent/CN103678711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements

Abstract

本发明实施例提供了一种页面特征表示方法、装置及设备,确定页面中包含的一个或多个元素,以及各个元素在页面中所处的区域;并检测用户在浏览页面时眼球的转动轨迹,并确定转动轨迹在页面上映射的浏览轨迹;根据各个元素所处的区域,以及各个区域与浏览轨迹之间的位置关系,确定用户对各个元素的关注度;基于各个元素以及各个元素的关注度对所述页面进行页面特征表示。本发明实施例提高了页面特征表示的准确性,从而进一步提高了对用户兴趣挖掘的准确性。本发明涉及移动终端互联网领域。

Description

一种页面特征表示方法、装置及设备
技术领域
本发明涉及移动终端互联网领域,尤其涉及一种页面特征表示方法、装置及设备。
背景技术
随着信息技术的不断发展,网络上的资源越来越丰富,用户对网络资源的需求也越来越大。目前,搜索引擎是进行网络资源搜索的主要工具。如何根据用户输入的搜索条件,从丰富的信息资源中搜索到真正符合用户需求的资源,对搜索引擎来说无疑是个挑战。搜索引擎目前仍然存在很大的局限性,存在的问题主要包括:信息丢失、返回无用信息、信息无关等。
现有技术中提出了“个性化搜索引擎”的概念,为用户提供个性化服务。通过收集和分析用户信息来学习用户的兴趣和行为,从而根据用户的兴趣和行为主动向用户推荐符合用户需求的网络资源,提高用户的访问效率。而实现个性化服务的关键问题包括:分析用户浏览信息、描述用户兴趣、以及跟踪用户兴趣的变化。现有技术中,一般通过用户兴趣的建模和挖掘来解决上述个性化服务的关键问题。
图1为现有技术中用户兴趣的建模和挖掘过程示意图,如图1所示,用户兴趣的建模和挖掘的过程,具体过程如下:
图1中的Web页面表征静态的Web页面,针对用户浏览的web页面进行页面特征表示,并根据得到的web页面的页面特征表示,采用分类和聚类方式,对文本数据集合进行聚类分析,得到web页面从属的一个或多个类别(例如,体育、娱乐等),并将该类别作为用户的兴趣;
图1中的浏览信息表征用户在浏览web页面过程中的动作,针对用户在浏 览的web页面过程中的动作、事件(例如:前进、后退、保存、书签等浏览行为)等用户事务,确定用户对该web页面的兴趣度;
针对用户访问过的多个web页面中的每个web页面,将确定的该web页面的聚类/分类结果作为用户的初始兴趣,再与确定的用户对该web页面的兴趣度相结合,通过特定的计算模式确定出用户的兴趣度序列。根据用户在预设时间段内的兴趣度序列,应用特定算法确定用户兴趣度序列迁移模型。
因此,可以根据用户兴趣度序列迁移模型,主动向用户推荐符合用户兴趣和需求的网络资源,提高用户的访问效率。上述用户兴趣的建模和挖掘的过程中,每个步骤对用户兴趣的建模和挖掘的准确性都起着非常重要的作用,其中,对web页面进行页面特征表示的精准度,是上述各步骤中的关键环节。
进一步地,针对用户浏览的web页面进行页面特征表示,通常包括页面去噪和元素表示。页面去噪主要用于过滤web页面中的噪声,例如:导航栏、链接等与用户浏览的信息无关的信息,最终保留web页面中的用户浏览的文本信息。
但是,现有技术中的页面特征表示存在如下问题:在页面去噪的过程中,由于web页面本身的构成的特殊性,例如:web页面中除了用户关心的代表性强的文本信息之外,还可以包含图片、导航条、超链接等内容,使得从web页面中抽取代表性强的文本信息比较困难。并且,即使抽取出了web页面中代表性强的文本信息,也并不能说明这些文本信息就是浏览该web页面的用户所关注、并感兴趣的文本信息,因为用户可能只是浏览了其中一句话或一段话而已。
进一步地,在根据得到的页面特征表示,对web页面进行特征表示的过程中,用户可能只是浏览了web页面中代表性强的文本信息中的一句话或者一段话,而将web页面中代表性强的整个文本信息都进行特征表示,并用于后续步骤中对用户兴趣的建模和挖掘,是不准确的。
发明内容
本发明实施例提供了一种页面特征表示方法、装置及设备,用以解决现有技术中,由于页面特征表示不准确,导致对用户兴趣的建模和挖掘不准确的问题。
第一方面,提供一种页面特征表示方法,包括:
确定页面中包含的一个或多个元素,以及各个元素在所述页面中所处的区域;并
检测用户在浏览所述页面时眼球的转动轨迹,并确定所述转动轨迹在所述页面上映射的浏览轨迹;
根据所述各个元素所处的区域,以及各个区域与所述浏览轨迹之间的位置关系,确定用户对所述各个元素的关注度;
基于所述各个元素以及所述各个元素的关注度对所述页面进行页面特征表示。
结合第一方面,在第一种可能的实现方式中,根据所述各个元素所处的区域,以及各个区域与所述浏览轨迹之间的位置关系,确定用户对所述各个元素的关注度,包括:根据预设筛选条件,从所述浏览轨迹在所述页面对应的坐标中筛选出坐标序列;确定所述各个元素中,每个元素所在的区域分别包含所述坐标序列中的坐标的个数;将所处区域不同,而内容相同的元素合并作为一个元素,并将合并前各自区域所包含的坐标个数叠加,叠加后的坐标个数作为合并后的元素所在区域包含的坐标个数;将每个元素所在区域所包含的所述坐标序列中的坐标个数确定为用户对该元素的关注度。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,根据预设筛选条件,从所述浏览轨迹在所述页面对应的坐标中筛选出坐标序列,具体包括:按照预设频率对所述浏览轨迹进行采样,并从采样得到的坐标中,去除满足第一预设条件的坐标,得到所述页面对应的坐标序列;或者按照预设距离间隔对所述浏览轨迹进行采样,并从采样得到的坐标中,去除满足第二预设条件的坐标,得到所述页面对应的坐标序列。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,从采样得到的坐标中,去除满足第一预设去除条件的坐标,具体包括:针对所述采样得到的坐标序列中除获取的第一个坐标之外的每个坐标,根据该坐标的坐标值、该坐标的相邻坐标的坐标值、以及所述预设频率,确定眼球在该坐标及所述相邻坐标之间的移动速度;将该移动速度与预设速度范围阈值作比对;当该移动速度超出所述预设速度范围阈值时,将该坐标去除。
结合第一方面的第二种可能的实现方式,在第四种可能的实现方式中,从采样得到的坐标中,去除满足第二预设去除条件的坐标,具体包括:针对所述采样得到的坐标序列中除获取的第一个坐标之外的每个坐标,根据用户浏览到该坐标与用户浏览到该坐标相邻坐标之间的时间间隔、以及所述预设距离间隔,确定眼球在该坐标及所述相邻坐标之间的移动速度;将该移动速度与预设速度范围阈值作比对;当该移动速度超出所述预设速度范围阈值时,将该坐标去除。
结合第一方面、或者第一方面的第一种可能的实现方式、或者第一方面的第二种可能的实现方式、或者第一方面的第三种可能的实现方式、或者第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述方法还包括:基于用户浏览所述页面的速度,确定用户对所述页面的第一兴趣度度量值;基于所述第一兴趣度度量值,以及基于用户兴趣事件确定的用户对所述页面的第二兴趣度度量值,确定用户对所述页面的兴趣度,其中,所述用户兴趣事件为用户在浏览所述页面的过程中对所述页面进行的操作。
结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,所述确定用户对所述页面的第一兴趣度度量值,具体包括:根据公式 确定用户对所述页面的第一兴趣度度量值;其中,words_nums表征所述当前页面中包含的所述各元素的个数;total_times表征用户浏览所述当前页面的时间;β为用于将inteyes限定在预设兴趣度范围内的第一 预设系数或者第一预设函数;基于所述第一兴趣度度量值,以及基于用户兴趣事件确定的用户对所述当前页面的第二兴趣度度量值,采用下式确定用户对所述当前页面的兴趣度int:int=a+inteyes+intevents其中,a表征兴趣度初始值,intevents表征所述第二兴趣度度量值。
结合第一方面、或者第一方面的第一种可能的实现方式、或者第一方面的第二种可能的实现方式、或者第一方面的第三种可能的实现方式、或者第一方面的第四种可能的实现方式,在第七种可能的实现方式中,基于所述各个元素以及所述各个元素的关注度对所述页面进行页面特征表示,具体包括:基于用户对所述各个元素的关注度,确定所述各个元素对应的权值;基于所述各个元素以及所述各个元素对应的权值对所述页面进行页面特征表示。
结合第一方面的第七种可能的实现方式,在第八种可能的实现方式中,基于用户对所述各个元素的关注度,确定所述各个元素对应的权值,具体包括:针对所述各个元素中的每个元素,将用户对该元素的关注度进行归一化处理,得到该元素的归一化处理后的关注度;基于该元素在所述当前页面中出现的频度,确定该元素对应的初始权值;根据公式W(i)=wi×at(i)×δ,确定该元素对应的调整后的权值;其中,i表征第i个元素,wi表征第i个元素的初始权值,δ表征第二预设系数或者第二预设函数,at(i)表征对第i个元素归一化处理后的关注度,W(i)表征则第i个元素调整后的权值。
结合第一方面的第八种可能的实现方式,在第九种可能的实现方式中,将用户对元素的关注度进行归一化处理,具体包括:根据公式:
将用户对元素的关注度进行归一化处理;其中,at(i)表征归一化处理之后的第i个元素的关注度,Δti表征用户对第i个元素的关注度,b为关注度初始值,且b大于0,n为所述当前页面中内容不同的元素的个数,为第三预设系数或者第三预设函数。
第二方面,提供一种页面特征表示装置,包括:
元素确定模块,用于确定页面中包含的一个或多个元素,以及各个元素在所述页面中所处的区域;并
检测模块,用于检测用户在浏览所述页面时眼球的转动轨迹,并确定所述转动轨迹在所述页面上映射的浏览轨迹;
关注度确定模块,用于根据所述元素确定模块确定的所述各个元素所处的区域,以及所述检测模块确定的各个区域与所述浏览轨迹之间的位置关系,确定用户对所述各个元素的关注度;
页面表示模块,用于基于所述各个元素以及所述关注度确定模块确定的所述各个元素的关注度对所述页面进行页面特征表示。
结合第二方面,在第一种可能的实现方式中,所述关注度确定模块,具体用于根据预设筛选条件,从所述浏览轨迹在所述页面对应的坐标中筛选出坐标序列;确定所述各个元素中,每个元素所在的区域分别包含所述坐标序列中的坐标的个数;将所处区域不同,而内容相同的元素合并作为一个元素,并将合并前各自区域所包含的坐标个数叠加,叠加后的坐标个数作为合并后的元素所在区域包含的坐标个数;将每个元素所在区域所包含的所述坐标序列中的坐标个数确定为用户对该元素的关注度。
结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述关注度确定模块,具体用于按照预设频率对所述浏览轨迹进行采样,并从采样得到的坐标中,去除满足第一预设条件的坐标,得到所述页面对应的坐标序列;或者按照预设距离间隔对所述浏览轨迹进行采样,并从采样得到的坐标中,去除满足第二预设条件的坐标,得到所述页面对应的坐标序列。
结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述关注度确定模块,具体用于针对所述采样得到的坐标序列中除获取的第一个坐标之外的每个坐标,根据该坐标的坐标值、该坐标的相邻坐标的坐标值、以及所述预设频率,确定眼球在该坐标及所述相邻坐标之间的移动速度;将该移动速度与预设速度范围阈值作比对;当该移动速度超出所述预设速度范围阈值 时,将该坐标去除;
结合第二方面的第二种可能的实现方式,在第四种可能的实现方式中,所述关注度确定模块,具体用于针对所述采样得到的坐标序列中除获取的第一个坐标之外的每个坐标,根据用户浏览到该坐标与用户浏览到该坐标相邻坐标之间的时间间隔、以及所述预设距离间隔,确定眼球在该坐标及所述相邻坐标之间的移动速度;将该移动速度与预设速度范围阈值作比对;当该移动速度超出所述预设速度范围阈值时,将该坐标去除。
结合第二方面、或者第二方面的第一种可能的实现方式、或者第二方面的第二种可能的实现方式、或者第二方面的第三种可能的实现方式、或者第二方面的第四种可能的实现方式,在第五种可能的实现方式中,所述装置还包括:兴趣度度量模块;所述兴趣度度量模块,用于基于用户浏览所述页面的速度,确定用户对所述页面的第一兴趣度度量值;基于所述第一兴趣度度量值,以及基于用户兴趣事件确定的用户对所述页面的第二兴趣度度量值,确定用户对所述页面的兴趣度,其中,所述用户兴趣事件为用户在浏览所述页面的过程中对所述页面进行的操作。
结合第二方面的第五种可能的实现方式,在第六种可能的实现方式中,所述兴趣度度量模块,具体用于根据公式确定用户对所述页面的第一兴趣度度量值;其中,words_nums表征所述当前页面中包含的所述各元素的个数;total_times表征用户浏览所述当前页面的时间;β为用于将inteyes限定在预设兴趣度范围内的第一预设系数或者第一预设函数;基于所述第一兴趣度度量值,以及基于用户兴趣事件确定的用户对所述当前页面的第二兴趣度度量值,采用下式确定用户对所述当前页面的兴趣度int:int=a+inteyes+intevents其中,a表征兴趣度初始值,intevents表征所述第二兴趣度度量值。
结合第二方面、或者第二方面的第一种可能的实现方式、或者第二方面的 第二种可能的实现方式、或者第二方面的第三种可能的实现方式、或者第二方面的第四种可能的实现方式,在第七种可能的实现方式中,所述页面表示模块,具体用于基于用户对所述各个元素的关注度,确定所述各个元素对应的权值;基于所述各个元素以及所述各个元素对应的权值对所述页面进行页面特征表示。
结合第二方面的第七种可能的实现方式,在第八种可能的实现方式中,所述页面表示模块,具体用于针对所述各个元素中的每个元素,将用户对该元素的关注度进行归一化处理,得到该元素的归一化处理后的关注度;基于该元素在所述当前页面中出现的频度,确定该元素对应的初始权值;根据公式W(i)=wi×at(i)×δ,确定该元素对应的调整后的权值;其中,i表征第i个元素,wi表征第i个元素的初始权值,δ表征第二预设系数或者第二预设函数,at(i)表征对第i个元素归一化处理后的关注度,W(i)表征则第i个元素调整后的权值。
结合第二方面的第八种可能的实现方式,在第九种可能的实现方式中,所述页面表示模块,具体用于根据公式将用户对元素的关注度进行归一化处理;其中,at(i)表征归一化处理之后的第i个元素的关注度,Δti表征用户对第i个元素的关注度,b为关注度初始值,且b大于0,n为所述当前页面中内容不同的元素的个数,为第三预设系数或者第三预设函数。
第三方面,提供一种页面特征表示设备,包括:上述的一种页面特征表示装置。
本发明实施例的有益效果包括:
本发明实施例提供的一种页面特征表示方法、装置及设备,检测用户在浏览页面时,眼球的转动轨迹在页面上映射的浏览轨迹,并将该浏览轨迹与确定的页面中包含的元素的位置相结合,确定用户对页面中不同元素的关注度,基于用户对不同元素的关注度,确定对页面进行页面表示时元素对应的权值,并基于元素以及元素分别对应的权值确定用户兴趣的迁移模型,也就是说,将用 户在当前页面中浏览到的元素,作为对用户兴趣挖掘的输入,而现有技术中,对当前web页面进行页面去噪之后,将得到的全部元素均作为对用户兴趣挖掘的输入,而并不管用户是否真正浏览了该全部元素,本发明实施例与现有技术相比,在进行页面特征表示时提高了页面特征表示的准确性,从而进一步提高了对用户兴趣挖掘的准确性。
附图说明
图1为本发明现有技术中用户兴趣的建模和挖掘过程示意图;
图2为本发明实施例提供的一种页面特征表示方法的流程图;
图3为本发明实施例1提供的一种页面特征表示方法的流程图;
图4为本发明实施例2提供的一种页面特征表示方法的流程图之一;
图5为本发明实施例2提供的一种页面特征表示方法的流程图之二;
图6为本发明实施例3提供的一种页面特征表示方法的流程图之一;
图7为本发明实施例3提供的一种页面特征表示方法的流程图之二;
图8a-图8d为本发明实施例例1提供的对web网页进行页面特征表示过程示意图;
图9为本发明实施例4提供的确定用户对当前页面的兴趣度的方法流程图;
图10为本发明实施例提供的一种页面特征表示装置的结构示意图之一;
图11为本发明实施例提供的一种页面特征表示装置的结构示意图之二。
具体实施方式
本发明实施例提供了一种页面特征表示方法、装置及设备,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的元素可以相互组合。
本发明实施例提供的一种页面特征表示方法、装置及设备,可以应用在智能终端领域(例如:手机、平板、智能电视等),即用户使用智能终端浏览并使用互联网的相关应用(例如:网页、微博、微信、咨询、团购等)时,根据本发明提供的方法,可以提高对用户浏览的网页进行元素表示的准确度,使得基于网页的元素表示对用户兴趣建模和挖掘时更加准确。
较佳地,本发明实施例提供的方法适用于设有摄像头(更佳地,设有前置摄像头)的智能终端设备。
本发明实施例提供的方法可以按照应用场景的不同采取灵活的部署方式。例如:方式1;客户端部署模式:所有的软件全部部署在客户端侧,包括眼球转动轨迹采集、网元元素关注度确定,兴趣计算等;方式2:服务器/客户端部署模式:客户端用于收集用户浏览信息以及眼球转动轨迹,服务器用于根据客户端收集的眼球转动轨迹确定用户浏览轨迹,并结合浏览轨迹和页面元素确定用户对页面元素的关注度,根据客户端收集的浏览信息确定用户对页面的兴趣度等。具体部署方式本发明在此不作限制。
本发明实施例提供一种页面特征表示方法,如图2所示,包括:
S201、确定页面中包含的一个或多个元素,以及各个元素在该页面中所处的区域。
S202、检测用户在浏览页面时眼球的转动轨迹,并确定转动轨迹在页面上映射的浏览轨迹。
S203、根据S201中确定的各个元素所处的区域,以及各个区域与S202中确定的浏览轨迹之间的位置关系,确定用户对各个元素的关注度;其中,元素的关注度用于表示用户对该元素感兴趣的程度;可以理解的是,元素的关注度越高,表明用户对该元素越感兴趣。
S204、基于各个元素以及各个元素的关注度对页面进行页面特征表示。
进一步地,页面特征表示可以为提取页面包含的元素,并确定提取的元素的权值,利用元素和对应权值对页面进行表示,以通过该页面的特征表示对元 素数据集合进行聚类分析,得到页面从属的一个或多个类别。元素可以为词或者图片。
进一步地,本发明实施例提供了针对一个页面的页面特征表示方法,当需要进行兴趣挖掘时,可以针对用户浏览的多个页面分别实施本发明提供的页面特征表示方法,对多个页面分别进行页面特征表示。
进一步地,本发明实施例中,页面可以为用户当前正在浏览的任何页面,例如:web页面、pdf页面、word页面等。
进一步地,步骤S201与步骤S202的执行没有严格地先后顺序。
下面结合附图,用具体实施例对本发明提供的方法及相关设备进行详细描述。
实施例1:
本发明实施例1中,提供了一种页面特征表示方法,如图3所示,具体包括如下步骤:
S301、确定页面中包含的一个或多个元素,以及各个元素在该页面中所处的区域。
进一步地,当元素为词时,步骤S301可以实施为将页面进行分词,确定每个词在当前页面中所处的区域;当元素为图片时,步骤S301可以实施为确定页面包含的各图片,以及每个图片在页面中所处的区域。
进一步地,元素在页面中所处的区域可以为元素在页面中占有的所有位置点坐标的集合。
S302、检测用户在浏览页面时眼球的转动轨迹,并确定该转动轨迹在页面上映射的浏览轨迹。
进一步地,本步骤的实现方式可以为现有技术,本发明不对本步骤的实施方式进行限定。
S303、根据预设筛选条件,从S302确定的浏览轨迹在页面对应的坐标中筛选出坐标序列。
进一步地,眼球浏览轨迹可以为由多个连续坐标点组成的连线,本步骤中,根据预设筛选条件,从连线中确定满足预设筛选条件的多个坐标点,得到坐标序列。
进一步地,预设筛选条件可以根据实际需要进行设置,例如,可以设置预设距离间隔,将按照预设距离间隔对浏览轨迹进行采样得到的坐标点筛选出来,或者可以设置预设频率,将按照预设频率对浏览轨迹进行采样得到的坐标点筛选出来等。
S304、确定各个元素中,每个元素所在的区域分别包含S303中确定的坐标序列中的坐标的个数。
进一步地,元素所在的区域可以为该元素在页面覆盖的坐标集合,本步骤可以为确定各元素对应的坐标集合与S303中确定的坐标序列之间的交集。
S305、将所处区域不同,而内容相同的元素合并作为一个元素,并将合并前各自区域所包含的坐标个数叠加,叠加后的坐标个数作为合并后的元素所在区域包含的坐标个数。
进一步地,若元素为词,同一个词可以出现在页面的多个位置,也就是说,词的内容相同而所处区域不同,本步骤中,可以将页面中,内容相同而所处区域不同的词分别合并作为同一个词,则可以得到页面中所有内容不同的词。若元素为图片,同一个图片可以出现在页面的多个位置,也就是说,图片的内容相同而所处区域不同,本步骤中,可以将页面中,内容相同而所处区域不同的图片分别合并作为同一个图片,则可以得到页面中所有内容不同的图片。
进一步地,若元素为词,针对页面中内容不同的词中,在页面中出现过一次的词,将该词所处区域包含的坐标个数确定为用户对该词的关注度;若元素为图片,针对页面中内容不同的图片中,在页面中出现过一次的图片,将该图片所处区域包含的坐标个数确定为用户对该图片的关注度。
进一步地,若元素为词,针对页面中内容不同的词中,在页面中出现过至少两次的词,将该词所处的多个区域分别包含的坐标个数相加,并将得到的和 确定为用户对该词的关注度;若元素为图片,针对页面中内容不同的图片中,在页面中出现过至少两次的图片,将该图片所处的多个区域分别包含的坐标个数相加,并将得到的和确定为用户对该图片的关注度。
S306、将每个元素所在区域所包含的坐标序列中的坐标个数确定为用户对该元素的关注度。
实施例2:
本发明实施例2中,提供了一种页面特征表示方法,并针对实施例1中提供的一种页面特征表示方法的步骤S303以及步骤S306,提供了具体的实施方式,如图4所示,具体包括如下步骤:
S401、确定页面中包含的一个或多个元素,以及各个元素在页面中所处的区域。
S402、检测用户在浏览页面时眼球的转动轨迹,并确定转动轨迹在页面上映射的浏览轨迹。
S403、按照预设频率对浏览轨迹进行采样,并从采样得到的坐标中,去除满足第一预设条件的坐标,得到页面对应的坐标序列。
本步骤中,在生成眼球转动轨迹时,会按照一定的频率对眼球图像进行采集,例如,1秒30帧图像并通过其中的2帧图像生成眼球转动轨迹,本实施例中可以预先设置预设频率,按照预设频率采集眼球图像,并将采集的眼球图像对应的、位于浏览轨迹上的页面坐标作为采样得到的坐标。
本步骤中,采样得到的坐标不一定能够准确地反映出用户对元素的兴趣,因此,对于采样得到的坐标,可以进行进一步处理,即去除满足第一预设去除条件的坐标。
进一步地,预设去除条件根据实际需要进行设置。例如,针对采样得到的某些坐标,用户可能只是快速的扫过,而没有在该坐标对应的元素上停留,可以认为用户对快速扫过的坐标对应的元素不存在兴趣,可以将用户快速扫过的坐标去除,或者,根据当前页面中元素的排列方式(一般情况下,可以将元素 横向排列也可以纵向排列),如果采样得到的某些坐标形成的浏览轨迹与元素的排列方式所成的角度不合理,可以将该某些坐标去除。
进一步地,针对步骤S403,本发明实施例提供了具体的实施方式,如图5所示,步骤S403可以具体实施为如下步骤:
S4031、针对采样得到的坐标序列中,除获取的第一个坐标之外的每个坐标,根据该坐标的坐标值、该坐标的相邻坐标的坐标值、以及预设频率,确定眼球在该坐标及该相邻坐标之间的移动速度。
S4032、将该移动速度与预设速度范围阈值作比对。
S4033、当该移动速度超出预设速度范围阈值时,将该坐标去除。
在本实施方式中,根据眼球在各坐标之间的移动速度,对采样获取的坐标进行进一步地筛选。针对采样得到的坐标根据坐标序列中,每两个相邻坐标的坐标值,以及预设频率,确定眼球在该两个相邻坐标之间的移动速度;针对每两个相邻坐标对应的移动速度,将该移动速度与预设速度范围阈值作比对;当该移动速度超出预设速度范围阈值时,将该移动速度对应的两个相邻坐标中,在后获取到的坐标去除。
S404、确定各个元素中,每个元素所在的区域分别包含坐标序列中的坐标的个数。
S405、将所处区域不同,而内容相同的元素合并作为一个元素,并将合并前各自区域所包含的坐标个数叠加,叠加后的坐标个数作为合并后的元素所在区域包含的坐标个数。
S406、将每个元素所在区域所包含的坐标序列中的坐标个数确定为用户对该元素的关注度。
S407、基于用户对各个元素的关注度,确定各个元素对应的权值。
S408、基于各个元素以及各个元素对应的权值对页面进行页面特征表示。
实施例3:
本发明实施例3中,提供了一种页面特征表示方法,并针对实施例1中提 供的一种页面特征表示方法的步骤S303提供了与实施例2中不同的实施方式,如图6所示,具体包括如下步骤:
S601、确定页面中包含的一个或多个元素,以及各个元素在页面中所处的区域。
S602、检测用户在浏览页面时眼球的转动轨迹,并确定转动轨迹在页面上映射的浏览轨迹。
S603、按照预设距离间隔对浏览轨迹进行采样,并从采样得到的坐标中,去除满足第二预设条件的坐标,得到页面对应的坐标序列。
本步骤中,在浏览轨迹上,每隔预设距离间隔对浏览轨迹上的坐标点进行采样,但是采样得到的坐标不一定能够准确地反映出用户对元素的兴趣,因此,对于采样得到的坐标点,可以进行进一步处理,即去除满足第二预设去除条件的坐标点。
进一步地,针对步骤S603,本发明实施例提供了具体的实施方式,如图7所示,步骤S603可以具体实施为如下步骤:
S6031、针对采样得到的坐标序列中,除获取的第一个坐标之外的每个坐标,根据用户浏览到该坐标与用户浏览到该坐标相邻坐标之间的时间间隔、以及预设距离间隔,确定眼球在该坐标及相邻坐标之间的移动速度。
S6032、将该移动速度与预设速度范围阈值作比对。
S6033、当该移动速度超出预设速度范围阈值时,将该坐标去除。
S604、确定各个元素中,每个元素所在的区域分别包含S603确定的坐标序列中的坐标的个数。
S605、将所处区域不同,而内容相同的元素合并作为一个元素,并将合并前各自区域所包含的坐标个数叠加,叠加后的坐标个数作为合并后的元素所在区域包含的坐标个数。
S606、将每个元素所在区域所包含的所述坐标序列中的坐标个数确定为用户对该元素的关注度。
S607、针对各个元素中的每个元素,将用户对该元素的关注度进行归一化处理。
进一步地,为了便于后续权值计算,可以对步骤S606得到的关注度进行归一化处理。
进一步地,可以采用下式对元素的关注度进行归一化处理:
式(1)中,at(i)表征归一化处理之后的第i个元素的关注度,Δti表征用户对第i个元素的关注度,b为关注度初始值,且b大于0,通过b保证Δti+b大于0,n为当前页面中内容不同的元素的个数,为第三预设系数或者第三预设函数。
S608、基于该元素在当前页面中出现的频度,确定该元素对应的初始权值。
进一步地,现有技术中可以有多种方法确定元素对应的初始权值,本步骤中,也可以采用现有技术提供的除基于该元素在当前页面中出现的频度之外的方法,确定该元素对应的初始权值。
本步骤中,基于该元素在当前页面中出现的频度确定该元素对应的初始权值,可以具体实施为:
式2中,ni,j为该元素在当前页面中出现的次数;∑knk,j为当前页面中各个元素出现次数总和;tfij为该元素在当前页面中出现的频度。因此,可以将该元素的tfij确定为该元素对应的初始权值。
进一步地,逆向文件频率(IDF,inverse document frequency)可以作为元素的重要性度量。该元素的IDF可以由下式确定:
式(3)中,|D|为语料库中的总文件数;|{j:ti∈dj}|为包含该元素的文件数目;idfi为元素的IDF。
进一步地,可以将该元素的idfi确定为该元素对应的初始权值,或者将该元素的idfi和tfij的乘积确定为该元素对应的初始权值。
S609、根据公式W(i)=wi×at(i)×δ,确定该元素对应的调整后的权值;
其中,i表征第i个元素,wi表征第i个元素的初始权值,δ表征第二预设系数或者第二预设函数,at(i)表征对第i个元素归一化处理后的关注度,W(i)表征则第i个元素调整后的权值。
本步骤可以为对使用现有技术中计算元素对应的权值的方法计算的初始权值进行进一步调整。将S607中对该元素进行归一化处理后的关注度与预设系数的乘积,作为调整系数,与初始权值相乘,并将得到的乘积确定为调整后的该元素的权值。本步骤中,将用户对元素的关注度作为调整系数,对现有技术中确定的该元素对应的初始权值进行调整,能够使调整后的权值更准确地反应出用户的兴趣,进一步使得后续根据元素的权值确定用户兴趣模型时更加准确。
S610、基于各个元素以及各个元素对应的权值对页面进行页面特征表示。
下面以举例说明:
例1:假设当前页面为web网页,元素为词,下面应用本发明实施例提供的页面特征表示方法,将该web网页进行页面特征表示。图8a-图8d为对该web网页进行页面特征表示过程示意图。
步骤1、利用浏览器引擎根据文本节点信息,计算每个文本节点的分布。
步骤2、对每个文本节点的文本进行分词处理。
步骤3、根据文本节点的分布信息和分词结果,确定每个词所处的区域,如图8a所示,在图8a中,801为确定的词所处的区域。
步骤4、利用眼球跟踪系统检测用户在浏览web网页时眼球的转动轨迹,并确定该转动轨迹在web网页上映射的浏览轨迹,如图8b所示,在图8b中, 802为浏览轨迹。
步骤5、按照预设频率f对浏览轨迹进行采样,得到采样得到的坐标,如图8c所示,在图8c中采样得到的坐标点在该web网页对应的坐标为:
eyesMotion={(x0,y0),(x1,y1),......(x10,y10)}。
步骤6、针对步骤5中得到的坐标中第i个坐标(xi,yi),根据第i个坐标、第i-1个坐标、以及预设频率f,确定眼球在该两个相邻坐标之间的移动速度Fun1(eyesMotion):
步骤7、将眼球在第i个坐标与第i-1个坐标之间的移动速度与预设速度范围阈值v1和v2作比对,得到眼球频度参数evi
如图8c所示,假设在坐标(x4,y4)和坐标(x5,y5)之间,眼球移动速度超过了预设速度范围阈值,即ev5=0;在坐标(x5,y5)和坐标(x6,y6)之间,眼球移动速度超过了预设速度范围阈值,即ev6=0;在坐标(x8,y8)和坐标(x9,y9)之间,眼球移动速度超过了预设速度范围阈值,即ev9=0;在坐标(x9,y9)和坐标(x10,y10)之间,眼球移动速度超过了预设速度范围阈值,即ev10=0。
步骤8、使用步骤7中得到的眼球频度参数evi对步骤5中得到的坐标序列进行修正,修正后的坐标序列为:
eyesMotion={(x0,y0,1),(x1,y1,1),(x2,y2,1),(x3,y3,1),(x4,y4,1),(x5,y5,0),(x6,y6,0),
(x7,y7,1),(x8,y8,1),(x9,y9,0),(x10,y10,0)}
将evi=0的坐标去除,即移动速度超出预设速度范围阈值时,将该移动速度对应的两个相邻坐标中,在后获取到的坐标去除,得到的坐标序列为:
eyesMotion={(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x7,y7),(x8,y8)}
经过步骤8之后,得到的坐标序列与各词所在区域的位置关系如图8d所 示。
步骤9、针对如图8a所示各词所在的区域,确定每个词所在的区域中,包含步骤8中得到的坐标序列中的坐标的个数。
如图8d所示,第一行词中每个词对应的位置矩阵包含一个坐标;第二行词中每个词对应的位置矩阵及第三行词中每个词对应的位置矩阵均不包含坐标;第四行词中第三个第四个词对应的位置矩阵分别包含一个坐标;第五行词中每个词对应的位置矩阵均不包含坐标。
步骤10、将所处区域不同,而内容相同的词合并作为一个词,得到内容不同的词。
本步骤中,假设第一行中五个词内容各不相同,第二行至第五行,每行中的五个词内容均相同,则图8a所示的各词中一共包含九个内容不同的词,即word0,word1......word8
步骤11、针对word0,word1......word8中,对应一个区域的词,即第一行中的五个词word0,word1......word4,将该五个词分别所处的区域包含的坐标个数确定为用户分别对该五个词的关注度,即用户对该五个词的关注度分别为1。
步骤12、针对word0,word1......word8中,对应不同区域的词,即第二行至第五行,每行中的词word5,word6......word8,用户对word5,word6,word8关注度分别为0,对word7关注度为2。
步骤13、将用户对word0,word1......word8的关注度分别进行归一化处理。
进一步地,经过步骤13的归一化处理,得到word0,word1......word8的归一化之后的关注度分别为:at(0)......at(8)
步骤14、基于 word0,word1......word8在web网页中出现的频度,确定word0,word1......word8对应的初始权值w0,w1,......,w8
即现有技术中,将web网页进行页面特征表示为:
document={(word0,w0),(word1,w1),......(word8,w8),}
步骤15、将word0,word1......word8的归一化处理后的关注度at(0)......at(8)、初始权值w0,w1,......,w8、以及第二预设系数δ的乘积确定为word0,word1......word8对应的调整后的权值w0×at(0),w1×at(1),......,w8×at(8),最终将web页面特征表示为:
document={(word0,w0×at(0)×δ),(word1,w1×at(1)×δ),......(word8,w8×at(8)×δ),}
实施例4:
本发明实施例4中,提供了一种确定用户对当前页面的兴趣度的方法,本发明实施例4提供的确定用户对当前页面的兴趣度的方法,与本发明实施例提供的对当前页面的页面特征表示方法的执行没有严格的先后顺序,如图9所示,具体包括如下步骤:
S901、基于用户浏览所述页面的速度,确定用户对页面的第一兴趣度度量值。
本步骤中,可以采用下式确定用户对页面的第一兴趣度度量值inteyes
式(4)中,words_nums表征当前页面中包含的各元素的个数;total_times表征用户浏览当前页面的时长;β为用于将inteyes限定在预设兴趣度范围内的第一预设系数或者第一预设函数。
进一步地,实施例1、实施例2及实施例3提供的页面特征表示方法中,用户对元素的关注度,反映了用户对该元素的兴趣度,而用户浏览页面时的浏览速度则可以反映用户对该页面的兴趣度,也就是说,用户可以对自己感兴趣的页面慢速浏览,对自己不感兴趣的页面快速浏览。
因此,可以通过式(4)中表征的用户浏览当前页面的速度,表征用户对当前页面的兴趣度,并且为了便于后续使用该兴趣度值进行计算,可以通过log计算以及第一预设参数或函数β将第一兴趣度度量值inteyes限制在自定义兴趣度范围内,该自定义兴趣度范围可以根据实际情况设置,例如(0, 0.5),即0<inteyes<0.5。
S902、基于S901中确定的第一兴趣度度量值,以及基于用户兴趣事件确定的用户对页面的第二兴趣度度量值,采用下式确定用户对页面的兴趣度int:
int=a+inteyes+intevents (6)
式(6)中,a表征兴趣度初始值,intevents表征所述第二兴趣度度量值。
进一步地,用户在浏览当前页面时触发的兴趣事件也可以反映用户对该当前页面的兴趣度,用户兴趣事件可以为用户在浏览页面的过程中对页面进行的操作。与传统PC不同,针对终端可以定义如下兴趣事件:评论/赞(comment)、转发(forwarding)、双指缩放(zoom)、复制(copy)、其他(others)。当用户针对页面执行上述任一种或多种操作时,可以认为用户对该页面兴趣度较大。
现有技术中,可以通过获取上述用户兴趣事件的响应时间、响应位置、操作等信息,作为对用户兴趣事件的获取,然后对获取的用户兴趣事件进行过滤,将不合理的兴趣事件去除,得到真实有效的兴趣事件,作为兴趣计算的事件输入,得到第二兴趣度度量值intevents
intevents=log(ε×comment+χ×forwarding+ζ×zoom+η×copy+θ×others)×γ(5)
式(5)中,comment,forwarding,zoom,copy,others,分别为对应的兴趣事件的发生、发生次数、响应时间等多维度的综合度量结果,ε,χ,ζ,η,θ,γ,分别为对应的经验参数或函数;并且为了便于后续使用该兴趣度值进行计算,可以将第二兴趣度度量值intevents限制在自定义兴趣度范围内,该自定义兴趣度范围可以根据实际情况设置,例如(0,0.5),即0<intevents<0.5。
进一步地,将用户对当前页面的浏览速度加入用户对该当前页面的兴趣度计算中,使得后续基于该对当前页面的兴趣度进行用户兴趣的建模和挖掘,使结果更加准确。
基于同一发明构思,本发明实施例还提供了一种页面特征表示装置及设备,由于这些装置和设备所解决问题的原理与前述一种页面特征表示方法相 似,因此该装置和设备的实施可以参见前述方法的实施,重复之处不再赘述。
本发明实施例提供了一种页面特征表示装置,如图10所示,包括如下模块:
元素确定模块1001,用于确定页面中包含的一个或多个元素,以及各个元素在所述页面中所处的区域;并
检测模块1002,用于检测用户在浏览所述页面时眼球的转动轨迹,并确定所述转动轨迹在所述页面上映射的浏览轨迹;
关注度确定模块1003,用于根据所述元素确定模块1001确定的所述各个元素所处的区域,以及所述检测模块1002确定的各个区域与所述浏览轨迹之间的位置关系,确定用户对所述各个元素的关注度;
页面表示模块1004,用于基于所述各个元素以及所述关注度确定模块1003确定的所述各个元素的关注度对所述页面进行页面特征表示。
进一步地,所述关注度确定模块1003,具体用于根据预设筛选条件,从所述浏览轨迹在所述页面对应的坐标中筛选出坐标序列;确定所述各个元素中,每个元素所在的区域分别包含所述坐标序列中的坐标的个数;将所处区域不同,而内容相同的元素合并作为一个元素,并将合并前各自区域所包含的坐标个数叠加,叠加后的坐标个数作为合并后的元素所在区域包含的坐标个数;将每个元素所在区域所包含的所述坐标序列中的坐标个数确定为用户对该元素的关注度。
进一步地,所述关注度确定模块1003,具体用于按照预设频率对所述浏览轨迹进行采样,并从采样得到的坐标中,去除满足第一预设条件的坐标,得到所述页面对应的坐标序列;或者按照预设距离间隔对所述浏览轨迹进行采样,并从采样得到的坐标中,去除满足第二预设条件的坐标,得到所述页面对应的坐标序列。
进一步地,所述关注度确定模块1003,具体用于针对所述采样得到的坐标序列中除获取的第一个坐标之外的每个坐标,根据该坐标的坐标值、该坐标的 相邻坐标的坐标值、以及所述预设频率,确定眼球在该坐标及所述相邻坐标之间的移动速度;将该移动速度与预设速度范围阈值作比对;当该移动速度超出所述预设速度范围阈值时,将该坐标去除;
进一步地,所述关注度确定模块1003,具体用于针对所述采样得到的坐标序列中除获取的第一个坐标之外的每个坐标,根据用户浏览到该坐标与用户浏览到该坐标相邻坐标之间的时间间隔、以及所述预设距离间隔,确定眼球在该坐标及所述相邻坐标之间的移动速度;将该移动速度与预设速度范围阈值作比对;当该移动速度超出所述预设速度范围阈值时,将该坐标去除。
进一步地,所述装置还包括:兴趣度度量模块1005;
所述兴趣度度量模块1005,用于基于用户浏览所述页面的速度,确定用户对所述页面的第一兴趣度度量值;基于所述第一兴趣度度量值,以及基于用户兴趣事件确定的用户对所述页面的第二兴趣度度量值,确定用户对所述页面的兴趣度,其中,所述用户兴趣事件为用户在浏览所述页面的过程中对所述页面进行的操作。
进一步地,所述兴趣度度量模块1005,具体用于根据公式:
确定用户对所述页面的第一兴趣度度量值;其中,words_nums表征所述当前页面中包含的所述各元素的个数;total_times表征用户浏览所述当前页面的时间;β为用于将inteyes限定在预设兴趣度范围内的第一预设系数或者第一预设函数;基于所述第一兴趣度度量值,以及基于用户兴趣事件确定的用户对所述当前页面的第二兴趣度度量值,采用下式确定用户对所述当前页面的兴趣度int:int=a+inteyes+intevents其中,a表征兴趣度初始值,intevents表征所述第二兴趣度度量值。
进一步地,所述页面表示模块1004,具体用于基于用户对所述各个元素的关注度,确定所述各个元素对应的权值;基于所述各个元素以及所述各个元素 对应的权值对所述页面进行页面特征表示。
进一步地,所述页面表示模块1004,具体用于针对所述各个元素中的每个元素,将用户对该元素的关注度进行归一化处理,得到该元素的归一化处理后的关注度;基于该元素在所述当前页面中出现的频度,确定该元素对应的初始权值;根据公式W(i)=wi×at(i)×δ,确定该元素对应的调整后的权值;其中,i表征第i个元素,wi表征第i个元素的初始权值,δ表征第二预设系数或者第二预设函数,at(i)表征对第i个元素归一化处理后的关注度,W(i)表征则第i个元素调整后的权值。
进一步地,所述页面表示模块1004,具体用于根据公式:
将用户对元素的关注度进行归一化处理;其中,at(i)表征归一化处理之后的第i个元素的关注度,Δti表征用户对第i个元素的关注度,b为关注度初始值,且b大于0,n为所述当前页面中内容不同的元素的个数,为第三预设系数或者第三预设函数。
本发明实施例提供了一种页面特征表示设备,包括:上述的一种页面特征表示装置。
基于同一发明构思,本发明实施例还提供了一种页面特征表示装置及设备,由于这些装置和设备所解决问题的原理与前述一种页面特征表示方法相似,因此该装置和设备的实施可以参见前述方法的实施,重复之处不再赘述。
本发明实施例提供了一种页面特征表示装置,如图11所示,包括:
图像处理器1101,用于检测用户在浏览所述页面时眼球的转动轨迹,并确定所述转动轨迹在所述页面上映射的浏览轨迹;
中央处理器1102,用于确定页面中包含的一个或多个元素,以及各个元素在所述页面中所处的区域;并根据所述各个元素所处的区域,以及所述图像处理器1102确定的各个区域与所述浏览轨迹之间的位置关系,确定用户对所述 各个元素的关注度;基于所述各个元素以及所述各个元素的关注度对所述页面进行页面特征表示。
进一步地,所述中央处理器1102,具体用于根据预设筛选条件,从所述浏览轨迹在所述页面对应的坐标中筛选出坐标序列;确定所述各个元素中,每个元素所在的区域分别包含所述坐标序列中的坐标的个数;将所处区域不同,而内容相同的元素合并作为一个元素,并将合并前各自区域所包含的坐标个数叠加,叠加后的坐标个数作为合并后的元素所在区域包含的坐标个数;将每个元素所在区域所包含的所述坐标序列中的坐标个数确定为用户对该元素的关注度。
进一步地,所述中央处理器1102,具体用于按照预设频率对所述浏览轨迹进行采样,并从采样得到的坐标中,去除满足第一预设条件的坐标,得到所述页面对应的坐标序列;或者按照预设距离间隔对所述浏览轨迹进行采样,并从采样得到的坐标中,去除满足第二预设条件的坐标,得到所述页面对应的坐标序列。
进一步地,所述中央处理器1102,具体用于针对所述采样得到的坐标序列中除获取的第一个坐标之外的每个坐标,根据该坐标的坐标值、该坐标的相邻坐标的坐标值、以及所述预设频率,确定眼球在该坐标及所述相邻坐标之间的移动速度;将该移动速度与预设速度范围阈值作比对;当该移动速度超出所述预设速度范围阈值时,将该坐标去除;
进一步地,所述中央处理器1102,具体用于针对所述采样得到的坐标序列中除获取的第一个坐标之外的每个坐标,根据用户浏览到该坐标与用户浏览到该坐标相邻坐标之间的时间间隔、以及所述预设距离间隔,确定眼球在该坐标及所述相邻坐标之间的移动速度;将该移动速度与预设速度范围阈值作比对;当该移动速度超出所述预设速度范围阈值时,将该坐标去除。
进一步地,所述中央处理器1102,还用于基于用户浏览所述页面的速度,确定用户对所述页面的第一兴趣度度量值;基于所述第一兴趣度度量值,以及 基于用户兴趣事件确定的用户对所述页面的第二兴趣度度量值,确定用户对所述页面的兴趣度,其中,所述用户兴趣事件为用户在浏览所述页面的过程中对所述页面进行的操作。
进一步地,所述中央处理器1102,具体用于根据公式:
确定用户对所述页面的第一兴趣度度量值;其中,words_nums表征所述当前页面中包含的所述各元素的个数;total_times表征用户浏览所述当前页面的时间;β为用于将inteyes限定在预设兴趣度范围内的第一预设系数或者第一预设函数;基于所述第一兴趣度度量值,以及基于用户兴趣事件确定的用户对所述当前页面的第二兴趣度度量值,采用下式确定用户对所述当前页面的兴趣度int:int=a+inteyes+intevents其中,a表征兴趣度初始值,intevents表征所述第二兴趣度度量值。
进一步地,所述中央处理器1102,具体用于基于用户对所述各个元素的关注度,确定所述各个元素对应的权值;基于所述各个元素以及所述各个元素对应的权值对所述页面进行页面特征表示。
进一步地,所述中央处理器1102,具体用于针对所述各个元素中的每个元素,将用户对该元素的关注度进行归一化处理,得到该元素的归一化处理后的关注度;基于该元素在所述当前页面中出现的频度,确定该元素对应的初始权值;根据公式W(i)=wi×at(i)×δ,确定该元素对应的调整后的权值;其中,i表征第i个元素,wi表征第i个元素的初始权值,δ表征第二预设系数或者第二预设函数,at(i)表征对第i个元素归一化处理后的关注度,W(i)表征则第i个元素调整后的权值。
进一步地,所述中央处理器1102,具体用于根据公式:
将用户对元素的关注度进行归一化处理;其中,at(i)表征归一化处理之后的第i个元素的关注度,Δti表征用户对第i个元素的关注度,b为关注度初始值,且b大于0,n为所述当前页面中内容不同的元素的个数,为第三预设系数或者第三预设函数。
本发明实施例提供了一种页面特征表示设备,包括:上述的一种页面特征表示装置。
上述各单元的功能可对应于图2至图7、图9所示流程中的相应处理步骤,在此不再赘述。
本发明实施例提供的一种页面特征表示方法、装置及设备,检测用户在浏览页面时,眼球的转动轨迹在页面上映射的浏览轨迹,并将该浏览轨迹与确定的页面中包含的元素的位置相结合,确定用户对页面中不同元素的关注度,基于用户对不同元素的关注度,确定对页面进行页面表示时元素对应的权值,并基于元素以及元素分别对应的权值确定用户兴趣的迁移模型,也就是说,将用户在当前页面中浏览到的元素,作为对用户兴趣挖掘的输入,而现有技术中,对当前web页面进行页面去噪之后,将得到的全部元素均作为对用户兴趣挖掘的输入,而并不管用户是否真正浏览了该全部元素,本发明实施例与现有技术相比,在进行页面特征表示时提高了页面特征表示的准确性,从而进一步提高了对用户兴趣挖掘的准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (19)

1.一种页面特征表示方法,其特征在于,包括:
确定页面中包含的一个或多个元素,以及各个元素在所述页面中所处的区域;并
检测用户在浏览所述页面时眼球的转动轨迹,并确定所述转动轨迹在所述页面上映射的浏览轨迹;
根据预设筛选条件,从所述浏览轨迹在所述页面对应的坐标中筛选出坐标序列;
确定所述各个元素中,每个元素所在的区域分别包含所述坐标序列中的坐标的个数;
将所处区域不同,而内容相同的元素合并作为一个元素,并将合并前各自区域所包含的坐标个数叠加,叠加后的坐标个数作为合并后的元素所在区域包含的坐标个数;
将每个元素所在区域所包含的所述坐标序列中的坐标个数确定为用户对该元素的关注度;
基于所述各个元素以及所述各个元素的关注度对所述页面进行页面特征表示。
2.如权利要求1所述的方法,其特征在于,根据预设筛选条件,从所述浏览轨迹在所述页面对应的坐标中筛选出坐标序列,具体包括:
按照预设频率对所述浏览轨迹进行采样,并从采样得到的坐标中,去除满足第一预设条件的坐标,得到所述页面对应的坐标序列;或者
按照预设距离间隔对所述浏览轨迹进行采样,并从采样得到的坐标中,去除满足第二预设条件的坐标,得到所述页面对应的坐标序列。
3.如权利要求2所述的方法,其特征在于,从采样得到的坐标中,去除满足第一预设去除条件的坐标,具体包括:
针对所述采样得到的坐标序列中除获取的第一个坐标之外的每个坐标,根据该坐标的坐标值、该坐标的相邻坐标的坐标值、以及所述预设频率,确定眼球在该坐标及所述相邻坐标之间的移动速度;
将该移动速度与预设速度范围阈值作比对;
当该移动速度超出所述预设速度范围阈值时,将该坐标去除。
4.如权利要求2所述的方法,其特征在于,从采样得到的坐标中,去除满足第二预设去除条件的坐标,具体包括:
针对所述采样得到的坐标序列中除获取的第一个坐标之外的每个坐标,根据用户浏览到该坐标与用户浏览到该坐标相邻坐标之间的时间间隔、以及所述预设距离间隔,确定眼球在该坐标及所述相邻坐标之间的移动速度;
将该移动速度与预设速度范围阈值作比对;
当该移动速度超出所述预设速度范围阈值时,将该坐标去除。
5.如权利要求1-4任一项所述的方法,其特征在于,还包括:
基于用户浏览所述页面的速度,确定用户对所述页面的第一兴趣度度量值;
基于所述第一兴趣度度量值,以及基于用户兴趣事件确定的用户对所述页面的第二兴趣度度量值,确定用户对所述页面的兴趣度,其中,所述用户兴趣事件为用户在浏览所述页面的过程中对所述页面进行的操作。
6.如权利要求5所述的方法,其特征在于,所述确定用户对所述页面的第一兴趣度度量值,具体包括:
根据公式确定用户对所述页面的第一兴趣度度量值;
其中,words_nums表征所述页面中包含的所述各元素的个数;total_times表征用户浏览所述页面的时间;β为用于将inteyes限定在预设兴趣度范围内的第一预设系数或者第一预设函数;
基于所述第一兴趣度度量值,以及基于用户兴趣事件确定的用户对所述页面的第二兴趣度度量值,采用下式确定用户对所述页面的兴趣度int:
int=a+inteyes+intevents
其中,a表征兴趣度初始值,intevents表征所述第二兴趣度度量值。
7.如权利要求1-4任一项所述的方法,其特征在于,基于所述各个元素以及所述各个元素的关注度对所述页面进行页面特征表示,具体包括:
基于用户对所述各个元素的关注度,确定所述各个元素对应的权值;
基于所述各个元素以及所述各个元素对应的权值对所述页面进行页面特征表示。
8.如权利要求7所述的方法,其特征在于,基于用户对所述各个元素的关注度,确定所述各个元素对应的权值,具体包括:
针对所述各个元素中的每个元素,将用户对该元素的关注度进行归一化处理,得到该元素的归一化处理后的关注度;
基于该元素在所述页面中出现的频度,确定该元素对应的初始权值;
根据公式W(i)=wi×at(i)×δ,确定该元素对应的调整后的权值;
其中,i表征第i个元素,wi表征第i个元素的初始权值,δ表征第二预设系数或者第二预设函数,at(i)表征对第i个元素归一化处理后的关注度,W(i)表征则第i个元素调整后的权值。
9.如权利要求8所述的方法,其特征在于,将用户对元素的关注度进行归一化处理,具体包括:
根据公式将用户对元素的关注度进行归一化处理;
其中,at(i)表征归一化处理之后的第i个元素的关注度,Δti表征用户对第i个元素的关注度,b为关注度初始值,且b大于0,n为所述页面中内容不同的元素的个数,为第三预设系数或者第三预设函数。
10.一种页面特征表示装置,其特征在于,包括:
元素确定模块,用于确定页面中包含的一个或多个元素,以及各个元素在所述页面中所处的区域;并
检测模块,用于检测用户在浏览所述页面时眼球的转动轨迹,并确定所述转动轨迹在所述页面上映射的浏览轨迹;
关注度确定模块,用于根据预设筛选条件,从所述浏览轨迹在所述页面对应的坐标中筛选出坐标序列;确定所述各个元素中,每个元素所在的区域分别包含所述坐标序列中的坐标的个数;将所处区域不同,而内容相同的元素合并作为一个元素,并将合并前各自区域所包含的坐标个数叠加,叠加后的坐标个数作为合并后的元素所在区域包含的坐标个数;将每个元素所在区域所包含的所述坐标序列中的坐标个数确定为用户对该元素的关注度;
页面表示模块,用于基于所述各个元素以及所述关注度确定模块确定的所述各个元素的关注度对所述页面进行页面特征表示。
11.如权利要求10所述的装置,其特征在于,所述关注度确定模块,具体用于按照预设频率对所述浏览轨迹进行采样,并从采样得到的坐标中,去除满足第一预设条件的坐标,得到所述页面对应的坐标序列;或者按照预设距离间隔对所述浏览轨迹进行采样,并从采样得到的坐标中,去除满足第二预设条件的坐标,得到所述页面对应的坐标序列。
12.如权利要求11所述的装置,其特征在于,所述关注度确定模块,具体用于针对所述采样得到的坐标序列中除获取的第一个坐标之外的每个坐标,根据该坐标的坐标值、该坐标的相邻坐标的坐标值、以及所述预设频率,确定眼球在该坐标及所述相邻坐标之间的移动速度;将该移动速度与预设速度范围阈值作比对;当该移动速度超出所述预设速度范围阈值时,将该坐标去除。
13.如权利要求11所述的装置,其特征在于,所述关注度确定模块,具体用于针对所述采样得到的坐标序列中除获取的第一个坐标之外的每个坐标,根据用户浏览到该坐标与用户浏览到该坐标相邻坐标之间的时间间隔、以及所述预设距离间隔,确定眼球在该坐标及所述相邻坐标之间的移动速度;将该移动速度与预设速度范围阈值作比对;当该移动速度超出所述预设速度范围阈值时,将该坐标去除。
14.如权利要求10-13任一项所述的装置,其特征在于,还包括:兴趣度度量模块;
所述兴趣度度量模块,用于基于用户浏览所述页面的速度,确定用户对所述页面的第一兴趣度度量值;基于所述第一兴趣度度量值,以及基于用户兴趣事件确定的用户对所述页面的第二兴趣度度量值,确定用户对所述页面的兴趣度,其中,所述用户兴趣事件为用户在浏览所述页面的过程中对所述页面进行的操作。
15.如权利要求14所述的装置,其特征在于,所述兴趣度度量模块,具体用于根据公式确定用户对所述页面的第一兴趣度度量值;其中,words_nums表征所述页面中包含的所述各元素的个数;total_times表征用户浏览所述页面的时间;β为用于将inteyes限定在预设兴趣度范围内的第一预设系数或者第一预设函数;基于所述第一兴趣度度量值,以及基于用户兴趣事件确定的用户对所述页面的第二兴趣度度量值,采用下式确定用户对所述页面的兴趣度int:int=a+inteyes+intevents其中,a表征兴趣度初始值,intevents表征所述第二兴趣度度量值。
16.如权利要求10-13任一项所述的装置,其特征在于,所述页面表示模块,具体用于基于用户对所述各个元素的关注度,确定所述各个元素对应的权值;基于所述各个元素以及所述各个元素对应的权值对所述页面进行页面特征表示。
17.如权利要求16所述的装置,其特征在于,所述页面表示模块,具体用于针对所述各个元素中的每个元素,将用户对该元素的关注度进行归一化处理,得到该元素的归一化处理后的关注度;基于该元素在所述页面中出现的频度,确定该元素对应的初始权值;根据公式W(i)=wi×at(i)×δ,确定该元素对应的调整后的权值;其中,i表征第i个元素,wi表征第i个元素的初始权值,δ表征第二预设系数或者第二预设函数,at(i)表征对第i个元素归一化处理后的关注度,W(i)表征则第i个元素调整后的权值。
18.如权利要求17所述的装置,其特征在于,所述页面表示模块,具体用于根据公式将用户对元素的关注度进行归一化处理;其中,at(i)表征归一化处理之后的第i个元素的关注度,Δti表征用户对第i个元素的关注度,b为关注度初始值,且b大于0,n为所述页面中内容不同的元素的个数,为第三预设系数或者第三预设函数。
19.一种页面特征表示设备,其特征在于,包括:如权利要求10-18任一项所述的一种页面特征表示装置。
CN201310749816.XA 2013-12-30 2013-12-30 一种页面特征表示方法、装置及设备 Active CN103678711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310749816.XA CN103678711B (zh) 2013-12-30 2013-12-30 一种页面特征表示方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310749816.XA CN103678711B (zh) 2013-12-30 2013-12-30 一种页面特征表示方法、装置及设备

Publications (2)

Publication Number Publication Date
CN103678711A CN103678711A (zh) 2014-03-26
CN103678711B true CN103678711B (zh) 2017-06-27

Family

ID=50316255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310749816.XA Active CN103678711B (zh) 2013-12-30 2013-12-30 一种页面特征表示方法、装置及设备

Country Status (1)

Country Link
CN (1) CN103678711B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101376B (zh) * 2016-05-26 2021-01-05 努比亚技术有限公司 一种消息推送装置、方法及移动终端
CN108710688B (zh) * 2018-05-21 2021-12-21 创新先进技术有限公司 一种页面中动画的生成方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102981620A (zh) * 2012-11-27 2013-03-20 中兴通讯股份有限公司 一种终端操作方法及终端
CN103177170A (zh) * 2011-12-21 2013-06-26 中国移动通信集团四川有限公司 一种采集用户眼动的热点分析方法和系统
CN103336576A (zh) * 2013-06-28 2013-10-02 优视科技有限公司 一种基于眼动追踪进行浏览器操作的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008245065A (ja) * 2007-03-28 2008-10-09 Nec Corp 探索システム、管理サーバ、移動体通信装置、探索方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177170A (zh) * 2011-12-21 2013-06-26 中国移动通信集团四川有限公司 一种采集用户眼动的热点分析方法和系统
CN102981620A (zh) * 2012-11-27 2013-03-20 中兴通讯股份有限公司 一种终端操作方法及终端
CN103336576A (zh) * 2013-06-28 2013-10-02 优视科技有限公司 一种基于眼动追踪进行浏览器操作的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Web页面视觉搜索与浏览策略的眼动研究;栗觅 等;《北京工业大学学报》;20110531;第37卷(第5期);773-779 *

Also Published As

Publication number Publication date
CN103678711A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
Leung et al. CLR: a collaborative location recommendation framework based on co-clustering
JinHuaXu et al. Web user clustering analysis based on KMeans algorithm
Wang et al. Semantic-based location recommendation with multimodal venue semantics
Backstrom et al. Spatial variation in search engine queries
CN107133277B (zh) 一种基于动态主题模型和矩阵分解的旅游景点推荐方法
CN104376058B (zh) 用户兴趣模型更新方法及相关装置
CN103608826B (zh) 利用网络信息挖掘的视频内产品注释
CN109033200A (zh) 事件抽取的方法、装置、设备及计算机可读介质
US20100205176A1 (en) Discovering City Landmarks from Online Journals
CN105224593B (zh) 一种短暂上网事务中频繁共现账号挖掘方法
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN107408115B (zh) web站点过滤器、控制对内容的访问的方法和介质
CN109815386B (zh) 一种基于用户画像的构建方法、装置及存储介质
CN104268140B (zh) 基于权重自学习超图和多元信息融合的图像检索方法
CN105912684B (zh) 基于视觉特征和语义特征的跨媒体检索方法
CN104156356B (zh) 个性化导航页面生成方法及装置
CN106776928A (zh) 基于内存计算框架、融合社交环境及时空数据的位置推荐方法
CN103713894A (zh) 一种用于确定用户的访问需求信息的方法与设备
CN103678711B (zh) 一种页面特征表示方法、装置及设备
Zhang et al. Learning to build accurate service representations and visualization
Huang et al. Eiffel: Evolutionary flow map for influence graph visualization
JP2010277462A (ja) 行動推薦装置及び方法及びプログラム
Pandey Density based clustering for Cricket World Cup tweets using Cosine similarity and time parameter
CN103761289B (zh) 一种基于历史记录的知识推送方法
CN103383697A (zh) 确定对象标题的对象表征信息的方法与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant