CN103761286A - 一种基于用户兴趣的服务资源检索方法 - Google Patents
一种基于用户兴趣的服务资源检索方法 Download PDFInfo
- Publication number
- CN103761286A CN103761286A CN201410015693.1A CN201410015693A CN103761286A CN 103761286 A CN103761286 A CN 103761286A CN 201410015693 A CN201410015693 A CN 201410015693A CN 103761286 A CN103761286 A CN 103761286A
- Authority
- CN
- China
- Prior art keywords
- interest
- user
- document
- node
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于用户兴趣的服务资源检索方法,具体步骤为:获取用户的兴趣信息并生成用户兴趣剖像、用二元组兴趣向量表征用户兴趣剖像、计算相关文档的兴趣相关因子、提取用户检索请求中的提问向量、分析提问向量和文档向量之间的相似度、计算文档与提问向量的兴趣相似度、根据兴趣相似度的大小对相关文档进行排序。本发明在对服务资源进行检索时,通过对用户兴趣的提取并分析,使得检索更加符合用户的实际需要,实现了基于用户兴趣的个性化服务资源检索,明显改善了检索效果,降低了对海量的网络服务资源检索的时间,效率有明显的提高。
Description
技术领域
本发明涉及到互联网服务资源的提供领域,具体的说是一种基于用户兴趣的服务资源检索方法。
背景技术
服务资源分类是指对网络中各种已存在的服务和资源按照其各自的属性和特点进行分析,并划分使其归属于特定的类别。随着互联网技术的高速发展以及计算机技术的不断普及,促使人们对网络服务资源的依赖愈加强烈,而服务资源的分类是一个复杂的加工处理过程,其涉及到服务资源的预处理、特征向量集合的提取和分类等技术环节,服务资源分类则可理解为采用一定的方法与模式,按照一定的规则将网络上的各种资源进行全面的分析、优选、加工、排列组合、整理、分类等加工处理,使其形成一个有序的、便于用户高效获取并利用的服务资源体的系统过程。服务资源的分类使得繁杂零散的资源集合形成了有序化的结构,使之转化为一个有意义的整体,便于服务资源能依据某一特定形式的规则进行更高层次的存取和利用。目前网络上的服务和资源十分丰富,如何将海量的服务资源准确的分类,这已成为资源分类技术要处理的一个关键问题。
当前服务资源分类方法基本是用户依据一定规则自行手动进行人工分类。在资源量过大的时候,使用这种方法必定将消耗大量人力,并且效率相当低下。当用户定义新类别时,又要对原先未定义种类的服务资源进行再次分类,若再进行人工分类,代价过大。近年来,一些学者使用智能学习的方法来进行分类,取得了一定的成果。现在一些常用的智能分类方法有聚类算法、决策树算法等。聚类算法由于具有无监督的学习能力,但在高维数据空间中,聚类往往只存在于某些子空间中,并且不同的聚类所关联的子空间也存在差异。受“维度效应”的影响,传统的聚类算法一般无法直接对高维数据进行有效的聚类,需要通过一些特殊的处理。决策树分类的直观表示方法较容易转化为标准的数据库查询,其归纳的方法行之有效,尤其适合大型数据集。但其算法的伸缩性太差,随着数据量的增大其运行时间大大增加。
目前,个性化检索是服务资源检索领域的热点和难点。这一领域的研究范围很广,涉及到的问题也很多。许多学者从不同的角度,提出多种技术方法,主要有:①网络数据库技术(web Database),构建用户等相关数据库;②过程跟踪技术(Process Tracking),如Cookies技术等;③代理技术(Agent),代理指在分布式系统中持续自主的发挥作用的计算实体,他有独立性、自主性和交互性等特性,,借助代理,可以很好地完成用户与系统的交互;④数据挖掘技术(Data Mining),从海量数据中采掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,并根据这些规则,预测用户即将发生的行为;⑤推送技术(Push),根据用户定义的准则,自动搜索用户感兴趣的服务资源,并主动传递至用户指定“地点”;⑥信息过滤技术(Information Filtering),信息过滤是一种用来过滤大量信息流,为用户提供相关信息子集的技术。信息过滤可以分为:基于规则的过滤、基于协作的过滤、基于内容的过滤,它们的目标都是根据用户兴趣需要将最有价值的服务资源信息自动推荐给用户,并最大限度地节省用户的阅读时间。
传统的服务资源检索技术满足了人们一定的检索需要,但受通用性限制,无法满足用户一些复杂的查询需求。随着信息爆炸出现,人们对检索系统的功能、智能化程度以及检索效果有了更高的要求,希望能提供更准确、更精炼和更符合个人需要的检索结果。
发明内容
为解决传统的检索技术难以满足人们对检索系统功能、智能化程度以及检索效果的要求的问题,本发明提供了一种基于用户兴趣的服务资源检索方法,来满足用户多样化的实时需求,更加快捷的为用户提供更优质的服务。
本发明为解决上述技术问题采用的技术方案为:一种基于用户兴趣的服务资源检索方法,首先,定义文档集合D中的文档总数为N,任一属于集合D的文档都可以表示为t维向量的形式: 其中,t是索引词的个数,向量分量代表第i个索引词在文档中所具有的权重,然后再根据用户的兴趣进行检索,其特征在于,所述根据用户的兴趣进行检索的具体步骤如下:
步骤一、获取用户兴趣信息,然后用向量或图形的方法将兴趣信息进行形式化的表示,即形成用户兴趣剖像;
步骤二、借助分类目录表征用户兴趣,并将分类目录映射为树状结构形成用户兴趣树,用户兴趣树中的节点表示类目,该节点的权值表示用户对该节点表示的类目的感兴趣程度;
步骤三、使用二元组兴趣向量来表征用户兴趣剖像,则用户i的兴趣剖像构成的兴趣剖像库表征如下:
步骤四、由公式
步骤七、根据步骤六得出的兴趣相似度SCOREi的大小对这m篇文档进行排序并在界面上显示,优先推荐这m篇文章中与用户兴趣相关的文档;
步骤八、跟踪并记录用户对检索结果的访问情况,以此来更新该用户的兴趣剖像库。
所述步骤八中更新该用户的兴趣剖像库,其具体步骤如下:
所述叶子节点是指用户兴趣树中最小的分类类目,非叶子节点是指用户兴趣树中具有子分类的分类类目;
③若用户访问某些节点中的文档,则重复以上两个步骤;
④根据步骤②中更新后的非叶子节点的权值来更新用户兴趣剖像
有益效果:本发明在对服务资源进行检索时,通过对用户兴趣的提取并分析,并使用兴趣路径上各节点权值的和作为兴趣相关因子,准确建立用户兴趣模型,随着时间推移,用户兴趣也在不断变化,及时对该用户兴趣模型进行更新,保证了用户兴趣模型的时间可靠性,使得检索更加符合用户的实际需要,实现了基于用户兴趣的个性化服务资源检索,明显改善了检索效果,降低了对海量的网络服务资源检索的时间,效率有明显的提高。
附图说明
图1为本发明所述的用户兴趣树的示意图;
图2为本发明对分类服务资源进行检索时的检索流程图。
具体实施方式
一种基于用户兴趣的服务资源检索方法,首先,定义文档集合D中的文档总数为N,任一属于集合D的文档都可以表示为t维向量的形式:其中,t是索引词的个数,向量分量代表第i个索引词在文档中所具有的权重,然后再根据用户的兴趣进行检索,所述根据用户的兴趣进行检索的具体步骤如下:
步骤一、获取用户兴趣信息,然后用向量或图形的方法将兴趣信息进行形式化的表示,即形成用户兴趣剖像;
步骤二、借助分类目录表征用户兴趣,并将分类目录映射为树状结构形成用户兴趣树,用户兴趣树中的节点表示类目,该节点的权值表示用户对该节点表示的类目的感兴趣程度;
步骤三、使用二元组兴趣向量来表征用户兴趣剖像,则用户i的兴趣剖像构成的兴趣剖像库表征如下:
步骤四、由公式
步骤七、根据步骤六得出的兴趣相似度SCOREi的大小对这m篇文档进行排序并在界面上显示,优先推荐这m篇文章中与用户兴趣相关的文档;
步骤八、跟踪并记录用户对检索结果的访问情况,以此来更新该用户的兴趣剖像库。
所述步骤八中更新该用户的兴趣剖像库,其具体步骤如下:
所述叶子节点是指用户兴趣树中最小的分类类目,非叶子节点是指用户兴趣树中具有子分类的分类类目;
③若用户访问某些节点中的文档,则重复以上两个步骤;
④根据步骤②中更新后的非叶子节点的权值来更新用户兴趣剖像
本发明上述步骤一中,所述的获取用户兴趣信息是指采用特定的方法获取能够反映用户兴趣的信息,以生成能表示用户兴趣的特征文件,即用户兴趣剖像。如果用户经常访问某一页面或文档,或者用户在某一页面或文档上停留较长的时间,则说明用户对该页面或该文档感兴趣。这表明,用户对检索结果的访问情况等用户行为能够反映用户的兴趣。为了学习用户的兴趣,可以使用计算机对这些访问信息进行跟踪和记录并进行挖掘,从中抽取出能反映用户兴趣的信息,进而生成用户兴趣剖像;
将获取到的用户兴趣信息用向量或图形的方法进行形式化的表示,即形成用户兴趣剖像。它存储在计算机上,是高度结构化的,并且能够自动生成和动态更新。本文提到的用户兴趣剖像或兴趣剖像均指用户个人兴趣剖像。建立用户兴趣剖像是实现个性化检索的基础和关键。
本发明上述步骤二中,所述的用户兴趣树的具体含义如下:
在多数检索中,用户其实是对某一主题感兴趣。如果用户对检出的某篇文档感兴趣,则他对同一主题的其它文档应当有相同的兴趣。而分类法中同一类目下的文档拥有相同的主题,因此借助分类目录来表示用户兴趣,并将其映射为树状结构,即用户兴趣树(如附图1所示)。用户兴趣树中的节点表示类目。在实际检索中,用户对每个分类的兴趣并不相同,因此在兴趣树中,代表用户兴趣度的节点权值也不同。对语料库中的文档进行分类,则每篇文档均包含在兴趣树的某一节点中;相应地,兴趣树中每篇文档都有其“兴趣路径”。如附图1的兴趣树中,文档《姚明伤愈复出重返火箭》的兴趣路径是:体育~篮球~NBA。文档的兴趣相关因子表示用户对这篇文档的偏好程度,它等于文档所在的兴趣路径上的所有节点的权值的和。上例中,((姚明伤愈复出重返火箭》的兴趣相关因子为:J=w[体育]+w[篮球]+w[NBA]。
Claims (2)
1.一种基于用户兴趣的服务资源检索方法,首先,定义文档集合D中的文档总数为N,任一属于集合D的文档都可以表示为t维向量的形式: 其中,t是索引词的个数,向量分量代表第i个索引词在文档中所具有的权重,然后再根据用户的兴趣进行检索,其特征在于,所述根据用户的兴趣进行检索的具体步骤如下:
步骤一、获取用户兴趣信息,然后用向量或图形的方法将兴趣信息进行形式化的表示,即形成用户兴趣剖像;
步骤二、借助分类目录表征用户兴趣,并将分类目录映射为树状结构形成用户兴趣树,用户兴趣树中的节点表示类目,该节点的权值表示用户对该节点表示的类目的感兴趣程度;
步骤四、由公式
步骤七、根据步骤六得出的兴趣相似度SCOREi的大小对这m篇文档进行排序并在界面上显示,优先推荐这m篇文章中与用户兴趣相关的文档;
步骤八、跟踪并记录用户对检索结果的访问情况,以此来更新该用户的兴趣剖像库。
2.根据权利要求1所述的一种基于用户兴趣的服务资源检索方法,其特征在于:所述步骤八中更新该用户的兴趣剖像库,其具体步骤如下:
所述叶子节点是指用户兴趣树中最小的分类类目,非叶子节点是指用户兴趣树中具有子分类的分类类目;
③若用户访问某些节点中的文档,则重复以上两个步骤;
④根据步骤②中更新后的非叶子节点的权值来更新用户兴趣剖像
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410015693.1A CN103761286B (zh) | 2014-01-14 | 2014-01-14 | 一种基于用户兴趣的服务资源检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410015693.1A CN103761286B (zh) | 2014-01-14 | 2014-01-14 | 一种基于用户兴趣的服务资源检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103761286A true CN103761286A (zh) | 2014-04-30 |
CN103761286B CN103761286B (zh) | 2017-03-08 |
Family
ID=50528523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410015693.1A Active CN103761286B (zh) | 2014-01-14 | 2014-01-14 | 一种基于用户兴趣的服务资源检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103761286B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015176652A1 (en) * | 2014-05-20 | 2015-11-26 | Tencent Technology (Shenzhen) Company Limited | Network service recommendation method and apparatus |
CN106663131A (zh) * | 2016-06-29 | 2017-05-10 | 深圳狗尾草智能科技有限公司 | 一种基于用户画像的个性化回答生成方法及系统 |
CN107895045A (zh) * | 2017-12-02 | 2018-04-10 | 天津大行道动漫文化发展有限公司 | 一种基于用户喜爱度的动漫素材检索系统 |
CN108476259A (zh) * | 2015-12-29 | 2018-08-31 | 华为技术有限公司 | 基于用户行为的内容推荐的系统和方法 |
CN108573337A (zh) * | 2017-03-10 | 2018-09-25 | 埃森哲环球解决方案有限公司 | 作业分配 |
CN109492687A (zh) * | 2018-10-31 | 2019-03-19 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
-
2014
- 2014-01-14 CN CN201410015693.1A patent/CN103761286B/zh active Active
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015176652A1 (en) * | 2014-05-20 | 2015-11-26 | Tencent Technology (Shenzhen) Company Limited | Network service recommendation method and apparatus |
US20170068900A1 (en) * | 2014-05-20 | 2017-03-09 | Tencent Technology (Shenzhen) Company Limited | Network service recommendation method and apparatus |
US9659256B2 (en) | 2014-05-20 | 2017-05-23 | Tencent Technology (Shenzhen) Company Limited | Network service recommendation method and apparatus |
CN108476259A (zh) * | 2015-12-29 | 2018-08-31 | 华为技术有限公司 | 基于用户行为的内容推荐的系统和方法 |
US10664500B2 (en) | 2015-12-29 | 2020-05-26 | Futurewei Technologies, Inc. | System and method for user-behavior based content recommendations |
CN108476259B (zh) * | 2015-12-29 | 2021-10-01 | 华为技术有限公司 | 基于用户行为的内容推荐的系统和方法 |
US11500907B2 (en) | 2015-12-29 | 2022-11-15 | Futurewei Technologies, Inc. | System and method for user-behavior based content recommendations |
CN106663131A (zh) * | 2016-06-29 | 2017-05-10 | 深圳狗尾草智能科技有限公司 | 一种基于用户画像的个性化回答生成方法及系统 |
CN108573337A (zh) * | 2017-03-10 | 2018-09-25 | 埃森哲环球解决方案有限公司 | 作业分配 |
CN108573337B (zh) * | 2017-03-10 | 2021-12-21 | 埃森哲环球解决方案有限公司 | 作业分配 |
CN107895045A (zh) * | 2017-12-02 | 2018-04-10 | 天津大行道动漫文化发展有限公司 | 一种基于用户喜爱度的动漫素材检索系统 |
CN109492687A (zh) * | 2018-10-31 | 2019-03-19 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103761286B (zh) | 2017-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209808B (zh) | 一种基于文本信息的事件生成方法以及相关装置 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
US10482146B2 (en) | Systems and methods for automatic customization of content filtering | |
CN104376406A (zh) | 一种基于大数据的企业创新资源管理与分析系统和方法 | |
CN103761286A (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN104834693A (zh) | 基于深度搜索的视觉图像检索方法及系统 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
US11010411B2 (en) | System and method automatically sorting ranked items and generating a visual representation of ranked results | |
KR101976081B1 (ko) | 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램 | |
WO2018176913A1 (zh) | 搜索方法、装置及非临时性计算机可读存储介质 | |
Papadopoulos et al. | Image clustering through community detection on hybrid image similarity graphs | |
JP4937395B2 (ja) | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム | |
De Boom et al. | Semantics-driven event clustering in Twitter feeds | |
Zubiaga et al. | Content-based clustering for tag cloud visualization | |
Manne et al. | Text categorization with K-nearest neighbor approach | |
Xiao | A Survey of Document Clustering Techniques & Comparison of LDA and moVMF | |
CN110399493A (zh) | 一种基于增量学习的作者消歧方法 | |
CN106372123B (zh) | 一种基于标签的相关内容推荐方法和系统 | |
Costache et al. | Categorization based relevance feedback search engine for earth observation images repositories | |
Huang et al. | Tag refinement of micro-videos by learning from multiple data sources | |
Inbarani et al. | Hybrid tolerance rough set based intelligent approaches for social tagging systems | |
Wang et al. | High-level semantic image annotation based on hot Internet topics | |
Sundari et al. | A study of various text mining techniques | |
Ionescu et al. | Benchmarking result diversification in social image retrieval | |
CN111753861B (zh) | 主动学习自动图像标注系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |