CN106484795A - 一种基于非结构化网页数据的兴趣推荐方法 - Google Patents
一种基于非结构化网页数据的兴趣推荐方法 Download PDFInfo
- Publication number
- CN106484795A CN106484795A CN201610841525.7A CN201610841525A CN106484795A CN 106484795 A CN106484795 A CN 106484795A CN 201610841525 A CN201610841525 A CN 201610841525A CN 106484795 A CN106484795 A CN 106484795A
- Authority
- CN
- China
- Prior art keywords
- word
- user
- interest
- target group
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于非结构化网页数据的兴趣推荐算法,包括:定位目标群体;获取目标人群搜索浏览数据;非结构数据结构化;兴趣建模;挖掘潜在用户,挖掘潜在用户的思路通常是根据一部分已知消费过的用户样本,通过统计学或机器学习方法找到在这一部分样本当中存在的规律,找到文本当中词与词之间存在的某种关系,然后通过词与词之间的关系,找到有价值的信息,从而实现推荐。本发明提高了最终推荐结果的准确率。
Description
技术领域
本发明涉及一种基于网页数据的兴趣推荐方法。
背景技术
大数据应用处理方面:
近些年来,大数据一词被越来越多的提及和应用,人们通常用它来描述和定义信息爆炸时代产生的海量数据,并且随着互联网的普及应用,人们基本实现了可以不受时间和地点的约束,随时随地从互联网获取自己想要的信息并同时产生着新的信息。可见数据量爆炸式的增长离不开互联网的飞速发展,网络中产生的信息成为新信息的主要来源。单从互联网来看,每天产生的数据量级就早已远远超出了普通计算机可以处理的范围,在这些数据中蕴含大量的有用的和无用的信息,这些数据大部分还没有被人们所利用,是有待研究和挖掘的数据。
在众多的网络信息当中,数以亿计的网页是承载这些信息的主要载体。它们大部分由文本、图片或视频这类非结构化的数据组成,这种非结构化数据既不容易被存储和分析,还包含了大量的无用信息。于是,如何处理这些信息并且有效的加以利用成为了很多专家学者和企业所关注的问题。
推荐系统方面:
互联网营销的迅速发展,使得企业间的竞争变得日益激烈。这种营销方式彻底颠覆了传统的让客户被动接受广告的局面,而是使企业的营销理念转变为,谁最有可能对我的产品有需求,我再推荐给谁的方式,也就是个性化推荐服务。这种营销模式既可以节约企业投放广告的成本,又能大大提高投放广告的精度。其最成功的经典案例就是亚马逊的图书推荐系统,成为了各大电商效仿的对象。那么如何寻找最有可能对产品有需求的用户就成为了企业在营销中最关心的问题。正所谓知已知彼才能百战百胜,哪个企业能够深入了解用户的上网习惯、兴趣特征和近期关注点,然后“投其所好”,哪个企业才在市场竞争中占据更加有利的地位。而用户兴趣建模就可以帮助企业找到最有可能对产品有需求的用户。
兴趣推荐方面:
在传统购物环境下,鉴于消费者的消费偏好具有一定的动态转移性,优秀的售货员通常根据消费者的购买历史及当前的购买兴趣为其推荐商品。网络环境下,以推荐功能为核心的购物助手一定程度上降低了网络消费者的搜索成本,但所采用的推荐算法一般仅以用户对商品的历史评分为推荐依据,或根据用户在网页的浏览记录和频率进行推荐,往往忽略了消费者消费偏好动态转移的特征和搜索相关关键词的变动,导致了推荐精度的下降。因此,预提高推荐的精度,必须关注消费者消费偏好的动态转变,或关注搜索相关关键词的变动。
发明内容
本发明的目的是提供一种基于非结构化网页数据的兴趣推荐算法,通过对用户上网时搜索和浏览的网页进行研究,针对一个具体的行业,通话优化切词方法,提高切词准确率完善词库,从而准确地分析用户兴趣喜好特征。本发明的技术方案如下:
一种基于非结构化网页数据的兴趣推荐算法,包括下列步骤
1)定位目标群体
通过对搜索引擎后台数据中网民的搜索词和浏览过的网页信息进行分析,推测某类人群的表象的兴趣和潜在兴趣,确定目标人群;
2)获取目标人群搜索浏览数据
在确定了目标人群之后,从搜索引擎后台数据中心可以获得目标人群在任何时间段内在搜索引擎上所有的检索词数据和浏览过的URL,抓取URL的页面标题,页面描述和页面关键词的方法,获得网页中最能代表和体现目标人群意愿的信息;
3)非结构数据结构化
加载相关词包,词包为根据用户常用的搜索词建立的标签体系;
通过文本挖掘技术将所有目标群体搜索的query和浏览网址的标题文本进行分词;
为减少由于词包不全导致的分词错误,用词包对文本进行分词后,选出频率较高的词,完善词包,进行再次分词,在分词阶段只留取名词、动词和形容词;
4)兴趣建模
在分词之后,需要从中提取和非目标人群相比区分度大的词,提取搜索和网页数据文本中的关键词;再通过k-means聚类算法实现对用户兴趣的细分,用户兴趣细分是用户行为分析的重要内容,通过对用户兴趣的细分对用户贴上不同的标签;
挖掘潜在用户,挖掘潜在用户的思路通常是根据一部分已知消费过的用户样本,通过统计学或机器学习方法找到在这一部分样本当中存在的规律,通过apriori算法,找到文本当中词与词之间存在的某种关系,然后通过词与词之间的关系,找到有价值的信息,从而实现推荐。
本发明的有益效果如下:
1.本专利提出了一种通过完善词库来提高切词准确率的方法,降低了切词出现错误的几率,从而提高了最终推荐结果的准确率。
2.本专利提出了基于行业具体分析特定人群的兴趣喜好特征,并作出精确推荐
3.本专利的算法简单常用,非常方便进行编写和并行化处理。
附图说明
图1本发明的技术方案的总流程图。
图2分词的标签体系。
具体实施方式
下面结合附图和实施例对本发明进行说明。
本发明提出的方法的基本思想是:通过对用户上网时搜索和浏览的网页进行研究,针对一个具体的行业,通话优化切词方法,提高切词准确率完善词库,从而准确地分析用户兴趣喜好特征,并进行兴趣推荐。方案整体示意图如图(1),具体步骤如下:
1定位目标群体
以旅游行业为例,研究说明如何搭建以旅游为兴趣核心的用户兴趣模型。首先需要明确研究的目的,是希望通过对搜索引擎后台数据中网民的搜索词和浏览过的网页信息进行分析,推测某类人群的表象的兴趣和潜在兴趣,根据得到的用户兴趣,再反过来对电子商务和搜索引擎的广告投放进行指导。
那么如何确定所研究的用户是否喜欢旅游,是确定目标群体的关键。在搜索引擎上的搜索和浏览行为,体现的是用户主动的需求,用户不感兴趣的东西是不会搜索或是浏览的,所以每个用户搜索的词和浏览的网页,都是符合自己的兴趣和需要的,和自己无关或是不感兴趣的网页,基本是不会浏览的。通常访问旅游网站的人通常是对旅游有需求的,而在旅游网站里消费过的就更能够说明对旅游是有兴趣的,所以选取访问过旅游网站订单页的用户作为目标群体进行研究。
2获取目标人群搜索浏览的数据
在确定了目标人群之后,需要找到这些人并获得他们在一段时间内的搜索和浏览数据。从搜索引擎后台数据中心可以获得目标人群在任何时间段内在搜索引擎上所有的检索词数据和浏览过的URL,由于用户是以id形式存在的,不会涉及个人信息泄露,也不存在侵犯隐私的问题。但由于URL网址并不直接包含信息,需要对每个记录的URL的内容进行爬取。如果用爬虫技术爬取网页的所有内容,有可能会获得很多无用的信息,因为网民在点击网页的时候通常只是被网页的标题和描述所吸引,有可能在点入后对网页的内容并不感兴趣,所以本发明使用Python中的Beautiful Soup包抓取URL的页面标题,页面描述和页面关键词的方法,获得网页中最能代表和体现目标人群意愿的信息。
3非结构数据结构化
通过上述的文本挖掘技术将所有目标群体搜索的query和浏览网址的标题文本进行分词,在分词之前需要加载旅游相关词包。首先从搜狗细胞词库中下载了旅游词汇大全、全国旅行社名录和全国机场名称的一系列旅游相关词库,将它们加载到分词的词库中;其次是人群标签体系,该标签体系包含三个级别,一级标签有14个,二级标签79个,三级标签354个。如图(2)所示。
在加载了相关词包后还需要考虑到这批文本的特殊性,故为了减少由于词库中词包不全导致的分词错误,需要用现有词包对文本进行分词后,选出频率较高的词,查看是否有单字过多、分词不准的情况发生,然后再完善词包,进行再次分词。由于例如助词、连词和语气词等词性的词并没有重要的含义,需要去掉一些常见的无意义词,如“的”、“是”等,这些词会成为兴趣建模的噪音,所以在分词阶段只留取了名词、动词和形容词,因为只有这类词中才有可能保留有关用户兴趣的信息。
4兴趣建模
在分词之后,需要从中提取和非目标人群相比区分度大的词。利用TF-IDF算法提取搜索和网页数据文本中的关键词。再通过k-means聚类算法实现对用户兴趣的细分,用户兴趣细分是用户行为分析的重要内容,可以通过对用户兴趣的细分对用户贴上不同的标签。最后则是挖掘潜在用户,挖掘潜在用户的思路通常是根据一部分已知消费过的用户样本,通过统计学或机器学习方法找到在这一部分样本当中存在的规律。对于本专利来说,在通过对目标群体搜索和浏览的文本进行权重设定和聚类分析之后,可以通过apriori算法,找到文本当中词与词之间存在的某种关系,然后通过词与词之间的关系,就能够找到有价值的信息,从而实现推荐。
Claims (1)
1.一种基于非结构化网页数据的兴趣推荐算法,包括下列步骤
1)定位目标群体
通过对搜索引擎后台数据中网民的搜索词和浏览过的网页信息进行分析,推测某类人群的表象的兴趣和潜在兴趣,确定目标人群;
2)获取目标人群搜索浏览数据
在确定了目标人群之后,从搜索引擎后台数据中心可以获得目标人群在任何时间段内在搜索引擎上所有的检索词数据和浏览过的URL,抓取URL的页面标题,页面描述和页面关键词的方法,获得网页中最能代表和体现目标人群意愿的信息;
3)非结构数据结构化
加载相关词包,词包为根据用户常用的搜索词建立的标签体系;
通过文本挖掘技术将所有目标群体搜索的query和浏览网址的标题文本进行分词;
为减少由于词包不全导致的分词错误,用词包对文本进行分词后,选出频率较高的词,完善词包,进行再次分词,在分词阶段只留取名词、动词和形容词;
4)兴趣建模
在分词之后,需要从中提取和非目标人群相比区分度大的词,提取搜索和网页数据文本中的关键词;再通过k-means聚类算法实现对用户兴趣的细分,用户兴趣细分是用户行为分析的重要内容,通过对用户兴趣的细分对用户贴上不同的标签;
挖掘潜在用户,挖掘潜在用户的思路通常是根据一部分已知消费过的用户样本,通过统计学或机器学习方法找到在这一部分样本当中存在的规律,通过apriori算法,找到文本当中词与词之间存在的某种关系,然后通过词与词之间的关系,找到有价值的信息,从而实现推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610841525.7A CN106484795A (zh) | 2016-09-22 | 2016-09-22 | 一种基于非结构化网页数据的兴趣推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610841525.7A CN106484795A (zh) | 2016-09-22 | 2016-09-22 | 一种基于非结构化网页数据的兴趣推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106484795A true CN106484795A (zh) | 2017-03-08 |
Family
ID=58268704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610841525.7A Pending CN106484795A (zh) | 2016-09-22 | 2016-09-22 | 一种基于非结构化网页数据的兴趣推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106484795A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992563A (zh) * | 2017-11-29 | 2018-05-04 | 江苏神州信源系统工程有限公司 | 一种用户浏览内容的推荐方法及系统 |
CN112700271A (zh) * | 2020-12-29 | 2021-04-23 | 长威信息科技发展股份有限公司 | 一种基于标签模型的大数据画像方法及系统 |
CN112818009A (zh) * | 2021-02-25 | 2021-05-18 | 华侨大学 | 一种在线展会的用户画像建模方法与系统 |
CN112825076A (zh) * | 2019-11-20 | 2021-05-21 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678710A (zh) * | 2013-12-31 | 2014-03-26 | 同济大学 | 一种基于用户行为的信息推荐方法 |
CN104142960A (zh) * | 2013-05-10 | 2014-11-12 | 上海普华诚信信息技术有限公司 | 互联网数据分析系统 |
CN104268290A (zh) * | 2014-10-22 | 2015-01-07 | 武汉科技大学 | 一种基于用户聚类的推荐方法 |
CN105512300A (zh) * | 2015-12-11 | 2016-04-20 | 宁波中青华云新媒体科技有限公司 | 信息过滤方法及系统 |
CN105677825A (zh) * | 2016-01-04 | 2016-06-15 | 成都陌云科技有限公司 | 客户端浏览操作的分析方法 |
-
2016
- 2016-09-22 CN CN201610841525.7A patent/CN106484795A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142960A (zh) * | 2013-05-10 | 2014-11-12 | 上海普华诚信信息技术有限公司 | 互联网数据分析系统 |
CN103678710A (zh) * | 2013-12-31 | 2014-03-26 | 同济大学 | 一种基于用户行为的信息推荐方法 |
CN104268290A (zh) * | 2014-10-22 | 2015-01-07 | 武汉科技大学 | 一种基于用户聚类的推荐方法 |
CN105512300A (zh) * | 2015-12-11 | 2016-04-20 | 宁波中青华云新媒体科技有限公司 | 信息过滤方法及系统 |
CN105677825A (zh) * | 2016-01-04 | 2016-06-15 | 成都陌云科技有限公司 | 客户端浏览操作的分析方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992563A (zh) * | 2017-11-29 | 2018-05-04 | 江苏神州信源系统工程有限公司 | 一种用户浏览内容的推荐方法及系统 |
CN112825076A (zh) * | 2019-11-20 | 2021-05-21 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和电子设备 |
CN112825076B (zh) * | 2019-11-20 | 2024-03-01 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和电子设备 |
CN112700271A (zh) * | 2020-12-29 | 2021-04-23 | 长威信息科技发展股份有限公司 | 一种基于标签模型的大数据画像方法及系统 |
CN112818009A (zh) * | 2021-02-25 | 2021-05-18 | 华侨大学 | 一种在线展会的用户画像建模方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nitu et al. | Improvising personalized travel recommendation system with recency effects | |
CN103886054B (zh) | 一种网络教学资源的个性化推荐系统和推荐方法 | |
Zhang et al. | Web service discovery based on goal-oriented query expansion | |
Binali et al. | A state of the art opinion mining and its application domains | |
TWI570583B (zh) | 於搜尋結果頁內提供已標定應用程式之系統與方法 | |
Baldoni et al. | From tags to emotions: Ontology-driven sentiment analysis in the social semantic web | |
CN105930469A (zh) | 基于Hadoop的个性化旅游推荐系统及方法 | |
CN103917968A (zh) | 用于管理具有交互式评论流的评论网络的系统和方法 | |
Fazzolari et al. | A study on online travel reviews through intelligent data analysis | |
CN106663117A (zh) | 构造支持提供探索性建议的图 | |
CN106484795A (zh) | 一种基于非结构化网页数据的兴趣推荐方法 | |
Iorio et al. | Mining big data in tourism | |
WO2020123262A1 (en) | Personalized search result rankings | |
Xiong et al. | Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs | |
Namahoot et al. | Context-aware tourism recommender system using temporal ontology and naïve bayes | |
Branch | The influence of traveler reviews on mobile applications on travel decision-making to Dubai | |
Luo et al. | Exploring destination image through online reviews: an augmented mining model using latent Dirichlet allocation combined with probabilistic hesitant fuzzy algorithm | |
KR20220091948A (ko) | 소셜 미디어 활동 분석을 통한 추천 서비스 제공 장치 및 방법 | |
Tang et al. | Research on post occupancy evaluation of Oze National Park in Japan based on online reviews | |
Liang et al. | Enhancing scenic recommendation and tour route personalization in tourism using UGC text mining | |
CN116521937A (zh) | 视频表单的生成方法、装置、设备及存储介质、程序产品 | |
Utama et al. | SCIENTIFIC ARTICLES RECOMMENDATION SYSTEM BASED ON USER’S RELATEDNESS USING ITEM-BASED COLLABORATIVE FILTERING METHOD | |
CN109885766A (zh) | 一种基于书评的书籍推荐方法及系统 | |
Wan et al. | Personalized professional recommendation system based on undergraduate questionnaires | |
Yu | Research on key technologies of analysis of user emotion fluctuation characteristics in wireless network based on social information processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170308 |
|
RJ01 | Rejection of invention patent application after publication |