CN103678710A - 一种基于用户行为的信息推荐方法 - Google Patents
一种基于用户行为的信息推荐方法 Download PDFInfo
- Publication number
- CN103678710A CN103678710A CN201310747338.9A CN201310747338A CN103678710A CN 103678710 A CN103678710 A CN 103678710A CN 201310747338 A CN201310747338 A CN 201310747338A CN 103678710 A CN103678710 A CN 103678710A
- Authority
- CN
- China
- Prior art keywords
- user
- class
- search
- word
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于用户行为的信息推荐方法,方法步骤为:步骤(1)数据来源;通过网络爬虫爬取了网络上的网页信息,并使用最大块密度算法抽取了网页中的正文,使用IKAnalyzer进行分词,使用聚类算法将词进行聚类,最终通过多个类形成了一个索引网;步骤(2)用户行为处理:系统会自动为用户分配一个唯一的用户号;会自动记录用户的搜索内容和与搜索结果的交互情况下来并存入;步骤(3)进行推荐:以现有数据为基础,用基于内容推荐的算法为用户推荐。本发明添加相应的推荐算法,为用户推荐感兴趣的信息供用户进行选择,并在一定程度上影响搜索结果的排名,使得排名更符合不同用户的兴趣。
Description
技术领域
本发明涉及为使用搜索引擎的用户进行相关内容的推荐,具体涉及推荐用户感兴趣的内容并在一定程度上通过用户的上网行为影响搜索结果的排序。
背景技术
随着互联网的快速发展,人们正处于一个信息爆炸的时代。相对于过去的信息匮乏,面对现阶段海量的信息数据,对信息的筛选和过滤成为了衡量一个系统好坏的重要指标。同时,一个具有良好用户体验的系统,会将海量信息进行筛选和过滤,并将用户最感兴趣的信息展现在用户面前。在一定程度上,这大大增加了系统工作的效率,另一方面也节省了用户筛选信息的时间。搜索引擎的出现在一定程度上解决了信息筛选问题,但仅仅是搜索引擎是不够的。虽然搜索引擎可以帮助用户在输入关键词之后对海量信息进行筛选,从而在搜索结果中找寻所需的内容。以Google、Baidu为代表的搜索引擎已为人们熟知 ,它们都具有基于关键字、通用性较强等特点。但当用户无法准确描述自己的需求时,搜索引擎的搜索效果将受到很大影响,而用户将自己的需求和意图转化成关键词的过程本身就是一个并不轻松的过程。因此,推荐系统在一定程度上具有良好的引导和帮助用户找到所需内容的作用,使得用户在使用搜索系统的过程中具有良好的体验。
同时,记录不同用户的搜索行为,并根据不同用户的行为进行推荐将在一定程度上使得推荐内容更能满足不同用户的需求。不同的用户行为不仅仅影响了推荐内容,也会影响搜索结果的排名。例如两个不同的用户都输入“旅游”一词进行搜索,但一位是想搜索探险类的旅游,而另一位是想搜索休闲类的旅游,根据这两位不同的用户搜索引擎会根据用户的行为进行不同的推荐,否则会返回相同的结果让用户自行选择需要的内容,在一定程度上使得用户的体验感下降。
发明内容
本发明针对以上存在的问题,在已有的搜索引擎中添加相应的推荐算法,为用户推荐感兴趣的信息供用户进行选择,并在一定程度上影响搜索结果的排名,使得排名更符合不同用户的兴趣。
本发明给出的技术技术方案:
一种基于用户行为的信息推荐方法,其特征在于,方法步骤为:
步骤(1)数据来源,具体为:
通过网络爬虫爬取了网络上的网页信息,并使用最大块密度算法抽取了网页中的正文,使用IKAnalyzer进行分词,使用聚类算法将词进行聚类,最终通过形成了多个类,同时在每个类中都有一个中心词用于较好地刻画这个类,如此网络中的海量词语就形成了一个索引网。
步骤(2)用户行为处理,具体为:
当用户使用搜索引擎进行搜索时,系统会自动为该用户分配一个唯一的用户号。当用户登录后,系统会自动把用户的搜索内容和与搜索结果的交互情况记录下来,并存入数据库中。所述数据库使用了一维向量来刻画用户的搜索行为。当用户登录系统之后,输入关键字进行搜索,那么就使用向量<ID,word,num,class>(ID表示用户ID,word表示关键词,num表示搜索该关键词的次数,class表示该关键词所属的类)来记录用户的搜索行为。当呈现了搜索结果之后,如果用户点击了相应的搜索内容,则同样记录用户点击行为,即使用向量<ID, class, count>(ID表示用户ID,class表示点击内容所属的类,count表示点击该类的次数)来表示。
步骤(3)进行推荐,具体为:
推荐算法是以现有数据为基础,采用基于内容推荐的算法为用户进行推荐。在每个搜索结果的呈现中都会展示这个结果属于哪个类,那么就可以在此基础上推荐这个类中的相应内容和与这个类有关的类。在已构建的词关联网上,根据用户行为建立的数据表,按照某个类中num(用户点击次数)的大小选取前K个进行推荐。而类之间的推荐则根据count(这个类被某个用户所选择的次数)的大小取前M个进行推荐。
与现有的搜索引擎相比,添加了推荐算法在很大程度上满足了不同用户的不同搜索需求,同时也为用户呈现了更多的适应于用户兴趣的信息供用户选择,为用户的不确定搜索和搜索更多所需内容提供了方便。本发明技术方案创新点体现在:
1) 记录用户的行为将相应的数据存入数据库中,并将用户行为与推荐内容进行结合,根据用户行为提供给用户偏爱的某一类的相关推荐词。
2) 根据用户行为和已记录的数据,影响搜索结果的排序,将用户偏爱的结果排在搜索结果的前面,在一定程度上为用户使用搜索引擎带来便利也根据个性化。
附图说明
图1 词关联网;
图2 推荐系统流程图。
具体实施方式
数据来源:通过网络爬虫爬取了网络上的网页信息,并使用最大块密度算法抽取了网页中的正文,使用IKAnalyzer进行分词,使用聚类算法将词进行聚类,最终通过形成了多个类,同时在每个类中都有一个中心词用于较好地刻画这个类。这样网络中的海量词语就形成了一个索引网,从而词与词、类与类之间就存在一定的关系(如图1所示)。在图1中,黑点表示词,多个词通过聚类算法形成了一个个类,例如图1中的ABCD就是形成的类。而类与类之间的关系通过连线进行表示,当类与类之间的连线距离越短则表示两个类之间的关系越紧密。
通过图2所示可以看到用户在整个搜索过程中的具体行为,以及对于推荐系统的影响。在用户进行搜索之前,所有的数据通过网络爬虫爬取了网络上的网页信息,并使用最大块密度算法抽取了网页中的正文,使用IKAnalyzer进行分词,使用聚类算法将词进行聚类,最终通过形成了多个类,同时在每个类中都有一个中心词用于较好地刻画这个类。当用户与搜索引擎进行交互之后就形成了用户行为,当达到一定的使用次数之后就会对搜索引擎的推荐形成影响,下面就具体的步骤进行阐述:
1获取用户行为信息:获取的用户行为的信息主要来自于用户登录系统之后与系统的一系列交互的过程,通过交互过程中的用户行为将相应的内容存入数据库中用于之后的推荐。当每次用户打开搜索引擎开始搜索时,通过每个用户的不同的ID号记录用户的搜索内容,即搜索词和查看网页的类,以方便之后的使用。
2将用户信息存入数据库:当用户登录后,系统会自动把用户的搜索内容和与搜索结果的交互情况记录下来,并存入数据库中。在这里使用了一维向量来刻画用户的搜索行为。当用户登录系统之后,输入关键字进行搜索,那么就使用向量<ID,word,num,class>(ID表示用户ID,word表示关键词,num表示搜索该关键词的次数,class表示该关键词所属的类)来记录用户的搜索行为。同时,当某个class被使用之后,相对应的另一个记录class的表中的一维向量<ID, class, count>中的count值也有所增加。当呈现了搜索结果之后,如果用户点击了相应的搜索内容,则同样记录用户点击行为,即改变记录某个类的信息的表,使用向量<ID, class, count>(ID表示用户ID,class表示点击内容所属的类,count表示点击该类的次数)来表示。
3形成推荐:推荐算法是以现有数据为基础,在已有的词关联网络的基础之上,采用基于内容推荐的算法为用户进行推荐。也就是说在这里不是基于用户间的信息进行推荐,而是只是基于单个用户进行的特定推荐,根据每个用户的搜索行为进行相应的推荐,使得推荐更加个性化。根据某个用户在开启搜索引擎之后的用户行为,将以保存的用户行为中的常用搜索词和常用搜索类进行排序,并将这些内容排在所有搜索结果的最前面或者是作为主要推荐内容呈现。
4产生结果:在每个搜索结果的呈现中都会展示这个结果属于哪个类,那么就可以在此基础上推荐这个类中的相应词和与这个类有关的类。在已构建的关联词网的基础上,根据用户行为建立的数据表,即用于记录搜索词的表格(<ID,word,num,class>)和用于记录类的表格(<ID, class, count>),进行推荐。简单的说,就是推荐词的推荐按照某个类中num的大小选取前K个进行推荐。而类之间的推荐则根据count的大小取前M个进行推荐(K,M的大小根据实际情况具体限定)。
Claims (2)
1.一种基于用户行为的信息推荐方法,其特征在于,方法步骤为:
步骤(1)数据来源,具体为:
通过网络爬虫爬取了网络上的网页信息,并使用最大块密度算法抽取了网页中的正文,使用IKAnalyzer进行分词,使用聚类算法将词进行聚类,最终通过形成了多个类,同时在每个类中都有一个中心词用于较好地刻画这个类,如此网络中的海量词语就形成了一个索引网;
步骤(2)用户行为处理,具体为:
当用户使用搜索引擎进行搜索时,系统会自动为该用户分配一个唯一的用户号;当用户登录后,系统会自动把用户的搜索内容和与搜索结果的交互情况记录下来,并存入数据库中;所述数据库使用了一维向量来刻画用户的搜索行为;当用户登录系统之后,输入关键字进行搜索,那么就使用向量<ID,word,num,class>(ID表示用户ID,word表示关键词,num表示搜索该关键词的次数,class表示该关键词所属的类)来记录用户的搜索行为;当呈现了搜索结果之后,如果用户点击了相应的搜索内容,则同样记录用户点击行为,即使用向量<ID, class, count>(ID表示用户ID,class表示点击内容所属的类,count表示点击该类的次数)来表示;
步骤(3)进行推荐,具体为:
推荐算法是以现有数据为基础,采用基于内容推荐的算法为用户进行推荐。
2.在每个搜索结果的呈现中都会展示这个结果属于哪个类,那么就可以在此基础上推荐这个类中的相应内容和与这个类有关的类;在已构建的词关联网上,根据用户行为建立的数据表,按照某个类中num(用户点击次数)的大小选取前K个进行推荐;而类之间的推荐则根据count(这个类被某个用户所选择的次数)的大小取前M个进行推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310747338.9A CN103678710A (zh) | 2013-12-31 | 2013-12-31 | 一种基于用户行为的信息推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310747338.9A CN103678710A (zh) | 2013-12-31 | 2013-12-31 | 一种基于用户行为的信息推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103678710A true CN103678710A (zh) | 2014-03-26 |
Family
ID=50316254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310747338.9A Pending CN103678710A (zh) | 2013-12-31 | 2013-12-31 | 一种基于用户行为的信息推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678710A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199874A (zh) * | 2014-08-20 | 2014-12-10 | 哈尔滨工程大学 | 一种基于用户浏览行为的网页推荐方法 |
CN104881484A (zh) * | 2015-06-04 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 信息推荐方法和装置 |
CN104899302A (zh) * | 2015-06-10 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 向用户推荐音乐的方法和装置 |
CN105634860A (zh) * | 2015-12-21 | 2016-06-01 | 中国电子科技集团公司第十五研究所 | 一种上网行为轨迹还原的方法和装置 |
CN105809464A (zh) * | 2014-12-31 | 2016-07-27 | 中国电信股份有限公司 | 信息投放方法和装置 |
CN106339502A (zh) * | 2016-09-18 | 2017-01-18 | 电子科技大学 | 一种基于用户行为数据分片聚类的建模推荐方法 |
CN106484795A (zh) * | 2016-09-22 | 2017-03-08 | 天津大学 | 一种基于非结构化网页数据的兴趣推荐方法 |
CN107146100A (zh) * | 2017-04-18 | 2017-09-08 | 北京思特奇信息技术股份有限公司 | 一种基于JavaScript的用户行为数据采集分析方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495872A (zh) * | 2011-11-30 | 2012-06-13 | 中国科学技术大学 | 对移动设备用户进行个性化新闻推荐的方法和装置 |
US20130191455A1 (en) * | 2011-07-20 | 2013-07-25 | Srinivas Penumaka | System and method for brand management using social networks |
CN103324645A (zh) * | 2012-03-23 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种网页推荐方法和装置 |
-
2013
- 2013-12-31 CN CN201310747338.9A patent/CN103678710A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130191455A1 (en) * | 2011-07-20 | 2013-07-25 | Srinivas Penumaka | System and method for brand management using social networks |
CN102495872A (zh) * | 2011-11-30 | 2012-06-13 | 中国科学技术大学 | 对移动设备用户进行个性化新闻推荐的方法和装置 |
CN103324645A (zh) * | 2012-03-23 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种网页推荐方法和装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199874A (zh) * | 2014-08-20 | 2014-12-10 | 哈尔滨工程大学 | 一种基于用户浏览行为的网页推荐方法 |
CN104199874B (zh) * | 2014-08-20 | 2018-07-31 | 哈尔滨工程大学 | 一种基于用户浏览行为的网页推荐方法 |
CN105809464A (zh) * | 2014-12-31 | 2016-07-27 | 中国电信股份有限公司 | 信息投放方法和装置 |
CN104881484A (zh) * | 2015-06-04 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 信息推荐方法和装置 |
CN104899302A (zh) * | 2015-06-10 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 向用户推荐音乐的方法和装置 |
CN104899302B (zh) * | 2015-06-10 | 2018-07-17 | 百度在线网络技术(北京)有限公司 | 向用户推荐音乐的方法和装置 |
CN105634860A (zh) * | 2015-12-21 | 2016-06-01 | 中国电子科技集团公司第十五研究所 | 一种上网行为轨迹还原的方法和装置 |
CN105634860B (zh) * | 2015-12-21 | 2019-09-24 | 中国电子科技集团公司第十五研究所 | 一种上网行为轨迹还原的方法和装置 |
CN106339502A (zh) * | 2016-09-18 | 2017-01-18 | 电子科技大学 | 一种基于用户行为数据分片聚类的建模推荐方法 |
CN106484795A (zh) * | 2016-09-22 | 2017-03-08 | 天津大学 | 一种基于非结构化网页数据的兴趣推荐方法 |
CN107146100A (zh) * | 2017-04-18 | 2017-09-08 | 北京思特奇信息技术股份有限公司 | 一种基于JavaScript的用户行为数据采集分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678710A (zh) | 一种基于用户行为的信息推荐方法 | |
CN106339502A (zh) | 一种基于用户行为数据分片聚类的建模推荐方法 | |
CN101055585B (zh) | 文档聚类系统和方法 | |
Zarezadeh et al. | Reviewing the past to inform the future: A literature review of social media in tourism | |
Liao et al. | Evaluating the effectiveness of search task trails | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN107577759A (zh) | 用户评论自动推荐方法 | |
US9031944B2 (en) | System and method for providing multi-core and multi-level topical organization in social indexes | |
CN105843850B (zh) | 搜索优化方法和装置 | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN107180093A (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
CN105404699A (zh) | 一种搜索财经文章的方法、装置及服务器 | |
JP2013504118A (ja) | クエリのセマンティックパターンに基づく情報検索 | |
CN102880624A (zh) | 网站导航工具系统 | |
CN109033200A (zh) | 事件抽取的方法、装置、设备及计算机可读介质 | |
EP2798536A2 (en) | Providing information recommendations based on determined user groups | |
CN105426514A (zh) | 个性化的移动应用app推荐方法 | |
CN104462553A (zh) | 问答页面相关问题推荐方法及装置 | |
Baralis et al. | Analysis of twitter data using a multiple-level clustering strategy | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
CN103399855B (zh) | 基于多数据源的行为意图确定方法及装置 | |
CN107341199A (zh) | 一种基于文献信息共性模式的推荐方法 | |
Widayat et al. | Bibliometric analysis and visualization articles on presidential election in social media indexed in Scopus by Indonesian authors | |
Du et al. | Pcard: Personalized restaurants recommendation from card payment transaction records | |
CN105786810B (zh) | 类目映射关系的建立方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140326 |