CN105574095A - 上下文敏感的用户行为智能预测方法 - Google Patents

上下文敏感的用户行为智能预测方法 Download PDF

Info

Publication number
CN105574095A
CN105574095A CN201510919488.2A CN201510919488A CN105574095A CN 105574095 A CN105574095 A CN 105574095A CN 201510919488 A CN201510919488 A CN 201510919488A CN 105574095 A CN105574095 A CN 105574095A
Authority
CN
China
Prior art keywords
word
interest
intersted
retrieval
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510919488.2A
Other languages
English (en)
Inventor
董政
吴文杰
陈露
李学生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Mo Yun Science And Technology Ltd
Original Assignee
Chengdu Mo Yun Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Mo Yun Science And Technology Ltd filed Critical Chengdu Mo Yun Science And Technology Ltd
Priority to CN201510919488.2A priority Critical patent/CN105574095A/zh
Publication of CN105574095A publication Critical patent/CN105574095A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种上下文敏感的用户行为智能预测方法,该方法包括:通过用户行为信息建立兴趣向量,调整检索词的权值,向用户返回检索结果列表。本发明提出了一种上下文敏感的用户行为智能预测方法,有效提高互联网用户特征的识别准确率和时效性。

Description

上下文敏感的用户行为智能预测方法
技术领域
本发明涉及大数据,特别涉及一种上下文敏感的用户行为智能预测方法。
背景技术
随着移动互联网的发展,网络内容给用户提供了丰富的信息资源和服务然而网络上信息质量却是参差不齐,大量的信息被复制、转载,各种推广信息广告检索结果,已经影响了用户体验;如果对于所有用户相同的检索词输入返回一样的检索结果恐怕已经不是用户希望的。只采用检索词匹配的方式,而忽略独立用户的真正需求,也就是不结合用户行为(包括用户兴趣、用户偏好、用户查询记录)和检索词而对用户本次查询意图做出准确的判断,将无法给出符合用户需求的结果。现有的技术方案是通过用户的注视历史或个人描述信息为用户建立兴趣特征向量,再利用该向量对检索返回的检索结果进行相似度的计算,这往往将一些用户真正需要的却没有在向量内的信息排除在外。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种上下文敏感的用户行为智能预测方法,包括:
通过用户行为信息建立兴趣向量,调整检索词的权值,向用户返回检索结果列表。
优选地,所述通过用户行为信息建立兴趣向量,进一步包括:
基于ODP分类构建兴趣树结构,树结构的每个节点对应一个兴趣检索词,具有兴趣节点类型标识符,根据兴趣节点在兴趣树结构中的不同层次具有不同的权值,对树结构特征词进行别名和近义词扩充;
所述兴趣向量中的元素是一个键值对,分别是兴趣树结构中的标识符和具有的权值;在兴趣确定过程中设定阈值,只有达到该阈值的特征词才能被判别为兴趣,并在之后的兴趣更新阶段进行权值增加,或者权值减少;在检索结果特征词的提取上进行过滤,检索结果进行分词并取消停用词之后,采用低频阈值来筛选检索结果特征词;在原检索结果特征词提取规则上设置高频上限,即词条频率超过了高频阈值的词条不能被判别为检索结果特征词,在特征词确定的同时记录该词的词频和出现的位置信息,用于确定为兴趣特征词之后的权值计算;
兴趣特征词的确定在检索结果特征词汇判别之后,根据检索结果特征词所有页面出现的次数来确定,兴趣特征词的判别公式表示如下:
Iterm=(1/n)(Tpage+Tsearch-d)+Tsubmit
其中,Iterm是判别兴趣特征词时的兴趣度值,如果值大于1则判别为兴趣词;Tpage是指包含兴趣特征词的兴趣对象数量;Tsearch是用户手动输入的检索词出现的次数;Tpage和Tsearch是累加计算的;n是满足兴趣特征词条件的计数阈值,只有Tpage+Tsearch-d的值大于等于n才能被判别为兴趣词;Tsubmit则是用户提交的兴趣词,该值只能为0或者1;
用户兴趣的更新包括,根据兴趣特征词使用频率计算兴趣词的权值的变化,在特征词判别为兴趣特征词后,设置其初始化权值为1,该值是兴趣词的最小权值,如果权值小于1那么该词则从兴趣向量中取消;在确定为兴趣特征词之后进行权值分配计算,该权值计算根据词频以及词条在页面中出现的位置;将权值计算公式表示为:
w i = w 0 + ( 1 / n ) Σ i = 1 k w p i
其中wi,表示兴趣特征词的权值,w0是权值初始值,即判别为兴趣特征词后设置的初值为1,是包含兴趣特征词检索结果的平均权值,n为包含该兴趣特征词的检索结果数,k为兴趣特征词在所有检索结果中出现的总数;wpi是相应检索结果中检索词的权值。
本发明相比现有技术,具有以下优点:
本发明提出了一种上下文敏感的用户行为智能预测方法,有效提高互联网用户特征的识别准确率,充分考虑到检索结果与用户查询内容的相关度,应用广泛,实现方便。
附图说明
图1是根据本发明实施例的上下文敏感的用户行为智能预测方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种上下文敏感的用户行为智能预测方法。图1是根据本发明实施例的上下文敏感的用户行为智能预测方法流程图。本发明的方案在原通用检索架构基础上增加用户兴趣模块,采用查询改进与权值设置结合方式。用户输入检索词后由兴趣向量调整查询信息,并根据用户兴趣设定不同的权值初始值,在返回结果列表中调整排列顺序。
在检索架构中,信息采集模块负责收集用户数据,包括用户检索词,注视行为,网页注视时间等能够反映用户特征的信息,为构建用户兴趣模型作准备。然后兴趣模块根据本次查询内容结合用户兴趣,优化调整用户检索检索词,同时将兴趣向量和调整后的查询词作为参数传递到排序公式中,最后把经过优化过滤的检索结果列表返回给用户端浏览器。
信息采集模块包括检索词提取和用户相关操作两部分:1)检索词提取,是对用户在检索界面输入的内容进行检索词分析提取,通过分词器对用户查询内容进行分词处理。每个词对应一个Term,最后得到一个查询向量V(q)=(term1,term2,term3…termn)其中n>1,其中查询向量的每个维度都带有一个数值,表示检索词对应的权值,用来标识检索词的重要程度。2)获取用户相关操作信息。用户在注视结果列表的过程中,可能只是因为标题吸引而点击了排名靠前的检索结果,但是检索结果内容并不符合用户需求。所以首先要根据用户注视行为判别兴趣对象,再通过兴趣对象进行分析构建兴趣模型。
注视时间长度、在注视检索结果的时候是否进行内容复制,收藏等交互操作均表征兴趣对象的关系。综上考虑对用户注视检索结果进行估计从而得出检索结果是否为用户的兴趣对象,用作构建兴趣模型的参考内容。具体估计公式如:
Ip=α×Tb+β×Uo
其中:
T b = 1 2 π δ exp ( - ( Δ t - t ) 2 2 δ 2 )
Uo=a×Ccopy+b×Ssave+G×Rreply
Ip表示检索结果兴趣度分值,α和β是调整系数,通过不同的值反映检索结果注视时间和检索结果交互操作在估计公式中占的比重,其中α+β=1。Tb是用户在检索结果停留的时间维度,通过正态分布来计算,反映出用户的注视检索结果时间。注视时间△t与参考时间t的接近程度反映兴趣度,注视时间过长或者过短都会降低兴趣在检索结果注视时间上的分值,t是根据文档长度决定的,t和检索结果长度成正比关系。U0是用户在检索结果上的交互操作,Ccopy表示用户是否在检索结果进行复制操作,是则值为1,否值为0;Ssave表示用户是否进行检索结果保存操作,是则值为1,否值为0;Rreply表示对于检索结果是否进行反馈相关操作,是则值为1,否值为0。a、b和c是U0的调整系数,根据不同的操作对是否是兴趣对象评判的重要程度,分别对系数设置不同的值。
本发明将用户兴趣分成普遍兴趣和特定兴趣,这里的普遍兴趣不属于任何一个用户,它是脱离用户独立存在的,可以看作特征词构成的树结构。而特定兴趣则是上述树结构的节点集合,具有普遍兴趣的兴趣节点类型标识符,根据兴趣节点在兴趣树结构中的不同层次具有不同的权值。使得兴趣模型是脱离用户依赖,在索引阶段或者是离线阶段兴趣模型不受到限制的使用。本发明兴趣模型基于ODP分类构建的,树结构的每个节点对应一个兴趣检索词,为扩展兴趣模型的覆盖面以及在实际中的应用,还需要对树结构特征词进行别名和近义词扩充。
特定兴趣将兴趣特征词改成了特征词在兴趣树结构里的标识符,利用兴趣特征词扩展成兴趣词汇的集合,具体体现在用户兴趣模型的标识符,在还原用户兴趣和应用过程中,对树结构进行解析和扩展。一方面是近义词扩展,另一方面对有歧义或者是包含关系的特征词进行语义分析和兴趣特征词判别。用户兴趣是通过向量表示,向量中的元素是一个键值对,分别是兴趣模型中的标识符和具有权值。
一般用户兴趣模型的构建需要先经过检索结果预处理和检索结果分类再来实现。所使用的检索结果先经过兴趣对象判别。在兴趣确定上设定一个阈值,只有达到阈值的特征词才能被判别为兴趣,并在之后的兴趣更新阶段进行权值增加,或者权值减少到取消该兴趣。在检索结果特征词的提取上进行一定的过滤,检索结果进行分词并取消停用词等相应处理之后,采用低频阈值来筛选检索结果特征词。
为防止对特征词的提取造成误导的影响,在原检索结果特征词提取规则上设置了高频上限,在一定程度上遏制检索词堆砌的对用户兴趣判别的影响。词条频率超过了高频阈值的词条同样不能被判别为检索结果特征词,在特征词确定的同时记录该词的词频和出现的位置信息,用于确定为兴趣特征词之后的权值计算。兴趣特征词的确定在检索结果特征词汇判别之后,根据检索结果特征词所有页面出现的次数来确定,兴趣特征词的判别公式表示如下:
Iterm=(1/n)(Tpage+Tsearch-d)+Tsubmit
其中,Iterm是判别兴趣特征词时的兴趣度值,如果值大于1则判别为兴趣词。Tpage是指包含兴趣特征词的兴趣对象数量;Tsearch是用户手动输入的检索检索词出现的次数;Tpage和Tsearch是累加计算的。n是满足兴趣特征词条件的计数阈值,只有Tpage+Tsearch-d的值大于等于n才能被判别为兴趣词。Tsubmit则是用户提交的兴趣词,该值只能为0或者1。
用户兴趣模型的更新策略依据是兴趣特征词使用频率的变化,具体计算体现兴趣词的权值变化。在特征词判别为兴趣特征词后,需要设置其初始化权值为1,该值是兴趣词的最小权值,如果权值小于1那么该词应该从兴趣向量中取消。在确定为兴趣特征词之后还需要根据词的重要性进行一次权值分配计算,除了词频还有根据词条在页面中出现的位置,位置关系的重要性通过检索结果中源文件标记来识别。
将权值计算公式表示为:
w i = w 0 + ( 1 / n ) Σ i = 1 k w p i
其中wi,表示兴趣特征词的权值,w0是权值初始值,即判别为兴趣特征词后设置的初值为1,是包含兴趣特征词检索结果的平均权值,n为包含该兴趣特征词的检索结果数,k为兴趣特征词在所有检索结果中出现的总数。wpi是相应检索结果中检索词的权值,同样如果文档中检索词出现的频率越高最后计算的也越大。
兴趣检索词不被用户使用,相当于用户在忽略该兴趣词,因此将兴趣忽略过程描述为:
F(t)=e-log2/(hSt)
其中,St是时间间隔,表示检索词最后一次更新到现在的时间,即当前时间减去最后一次更新时候的天数。h是预设周期,经过h天后F(t)的值为原值一半。
最后得到的权值更新计算公式为:
wi=wi×F(t)+yN
其中,N为兴趣特征词被更新的次数,y为每次兴趣词被使用后权值增加系数。
在用户兴趣形成时默认都是短期兴趣,随着N的增加,表示该词经常被使用,当其值超过阈值就将该兴趣判别为长期兴趣,本发明使用的N阈值为100。
综上所述,本发明提出了一种上下文敏感的用户行为智能预测方法,有效提高互联网用户特征的识别准确率和时效性。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (2)

1.一种上下文敏感的用户行为智能预测方法,其特征在于,包括:
通过用户行为信息建立兴趣向量,调整检索词的权值,向用户返回检索结果列表。
2.根据权利要求1所述的方法,其特征在于,所述通过用户行为信息建立兴趣向量,进一步包括:
基于ODP分类构建兴趣树结构,树结构的每个节点对应一个兴趣检索词,具有兴趣节点类型标识符,根据兴趣节点在兴趣树结构中的不同层次具有不同的权值,对树结构特征词进行别名和近义词扩充;
所述兴趣向量中的元素是一个键值对,分别是兴趣树结构中的标识符和具有的权值;在兴趣确定过程中设定阈值,只有达到该阈值的特征词才能被判别为兴趣,并在之后的兴趣更新阶段进行权值增加,或者权值减少;在检索结果特征词的提取上进行过滤,检索结果进行分词并取消停用词之后,采用低频阈值来筛选检索结果特征词;在原检索结果特征词提取规则上设置高频上限,即词条频率超过了高频阈值的词条不能被判别为检索结果特征词,在特征词确定的同时记录该词的词频和出现的位置信息,用于确定为兴趣特征词之后的权值计算;
兴趣特征词的确定在检索结果特征词汇判别之后,根据检索结果特征词所有页面出现的次数来确定,兴趣特征词的判别公式表示如下:
Iterm=(1/n)(Tpage+Tsearch-d)+Tsubmit
其中,Iterm是判别兴趣特征词时的兴趣度值,如果值大于1则判别为兴趣词;Tpage是指包含兴趣特征词的兴趣对象数量;Tsearch是用户手动输入的检索词出现的次数;Tpage和Tsearch是累加计算的;n是满足兴趣特征词条件的计数阈值,只有Tpage+Tsearch-d的值大于等于n才能被判别为兴趣词;Tsubmit则是用户提交的兴趣词,该值只能为0或者1;
用户兴趣的更新包括,根据兴趣特征词使用频率计算兴趣词的权值的变化,在特征词判别为兴趣特征词后,设置其初始化权值为1,该值是兴趣词的最小权值,如果权值小于1那么该词则从兴趣向量中取消;在确定为兴趣特征词之后进行权值分配计算,该权值计算根据词频以及词条在页面中出现的位置;将权值计算公式表示为:
w i = w 0 + ( 1 / n ) Σ i = 1 k w p i
其中wi,表示兴趣特征词的权值,w0是权值初始值,即判别为兴趣特征词后设置的初值为1,是包含兴趣特征词检索结果的平均权值,n为包含该兴趣特征词的检索结果数,k为兴趣特征词在所有检索结果中出现的总数;wpi是相应检索结果中检索词的权值。
CN201510919488.2A 2015-12-10 2015-12-10 上下文敏感的用户行为智能预测方法 Pending CN105574095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510919488.2A CN105574095A (zh) 2015-12-10 2015-12-10 上下文敏感的用户行为智能预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510919488.2A CN105574095A (zh) 2015-12-10 2015-12-10 上下文敏感的用户行为智能预测方法

Publications (1)

Publication Number Publication Date
CN105574095A true CN105574095A (zh) 2016-05-11

Family

ID=55884226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510919488.2A Pending CN105574095A (zh) 2015-12-10 2015-12-10 上下文敏感的用户行为智能预测方法

Country Status (1)

Country Link
CN (1) CN105574095A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487313A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 兴趣点识别方法、装置、电子设备和存储介质
CN115827715A (zh) * 2023-02-08 2023-03-21 上海合见工业软件集团有限公司 基于用户行为和设计层次树的搜索推荐列表生成系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169797A (zh) * 2007-11-30 2008-04-30 朱廷劭 一种对搜索结果优化的方法
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169797A (zh) * 2007-11-30 2008-04-30 朱廷劭 一种对搜索结果优化的方法
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐康: "基于用户兴趣模型的个性化搜索排序研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487313A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 兴趣点识别方法、装置、电子设备和存储介质
CN115827715A (zh) * 2023-02-08 2023-03-21 上海合见工业软件集团有限公司 基于用户行为和设计层次树的搜索推荐列表生成系统

Similar Documents

Publication Publication Date Title
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
CN103207899B (zh) 文本文件推荐方法及系统
CN102279851B (zh) 一种智能导航方法、装置和系统
US20190012392A1 (en) Method and device for pushing information
US9934293B2 (en) Generating search results
US20150186938A1 (en) Search service advertisement selection
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN106504011A (zh) 一种业务对象的展示方法和装置
CN103729359A (zh) 一种推荐搜索词的方法及系统
EP2941724A1 (en) Method and apparatus for generating webpage content
CN102902691A (zh) 推荐方法及系统
CN103514181B (zh) 一种搜索方法和装置
CN102541971A (zh) 将登广告者目标映射到关键字
CN104239338A (zh) 信息推荐方法及装置
CN104268292A (zh) 画像系统的标签词库更新方法
CN103838756A (zh) 一种确定推送信息的方法及装置
CN104376058A (zh) 用户兴趣模型更新方法及相关装置
CN103699603A (zh) 一种基于用户行为的信息推荐方法和系统
US20120197732A1 (en) Action-aware intent-based behavior targeting
US20150339700A1 (en) Method, apparatus and system for processing promotion information
CN105512298A (zh) 基于机器学习的感兴趣内容预测方法
CN105550282A (zh) 利用多维数据预测用户兴趣的方法
CN103729365A (zh) 一种搜索方法和系统
CN103984705A (zh) 一种搜索结果的展示方法、装置和系统
Kacem et al. Time-sensitive user profile for optimizing search personlization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160511

RJ01 Rejection of invention patent application after publication