CN114218473A - 一种电子书内容推荐系统 - Google Patents
一种电子书内容推荐系统 Download PDFInfo
- Publication number
- CN114218473A CN114218473A CN202111277878.6A CN202111277878A CN114218473A CN 114218473 A CN114218473 A CN 114218473A CN 202111277878 A CN202111277878 A CN 202111277878A CN 114218473 A CN114218473 A CN 114218473A
- Authority
- CN
- China
- Prior art keywords
- module
- user
- book
- electronic book
- electronic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 4
- 238000001914 filtration Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及电子书阅读软件技术领域,特别涉及一种电子书内容推荐系统。一种电子书内容推荐系统,包括:日志解析模块、文本表示模型构建模块、数据预处理模块、所述近似筛选模块、评分预测模块和结果输出模块。本发明的技术方案利用网络电子书网站中用户群体产生的海量数据以及电子书文本信息等,采用有效的推荐系统,为每本电子书提供相似电子书集合以及为每个用户提供个性化的电子书推荐列表。
Description
技术领域
本发明涉及电子书阅读软件技术领域,特别涉及一种电子书内容推荐系统。
背景技术
在此互联网时代,电子书也顺时而生,以低成本、携带方便、可携带量大等特点进入人们的日常生活,在很多方面替代了传统书籍。而电子书中的网络电子书作为人们工作闲暇之余的一种消遣工具,近年来一直处于高速发展的状态。目前网络电子书种类繁多,电子书总量也非常庞大,对于一个电子书网站而言,电子书书本数量一般从几千到几万甚至更多,而用户一般难以从大量的电子书中挑选到自己喜欢的电子书。为解决此类信息过载问题,传统的方法是将电子书进行分类、分榜单,然后用户根据类别或者榜单自己去寻找该类下的电子书。但这类方法存在两个问题,第一是尽管已经对电子书进行分类,但是每个类别下的电子书数量依旧非常多,用户仍然难以发现自己喜欢的电子书;第二是不同的用户兴趣爱好显然是不同的,因此喜欢的电子书也不可能都是一样的,然而上述方法中对于每个用户展示的电子书列表都是一样的,不具备个性化的功能。因此对于一个电子书网站而言,快速有效的为每个用户提供个性化的推荐列表是提高用户粘性的一个关键点。然而目前在网络电子书推荐领域相关研究很少,而且随着数据量的不断增大以及用户标准的不断提高,传统的推荐方法存在指标低、运算效率不高等问题,因此改善推荐算法,提升算法指标和运行效率具有非常重要的意义。
发明内容
本发明提供一种网络电子书内容推荐系统,为实现上述目的,本发明采用以下技术方案:一种电子书内容推荐系统,包括:日志解析模块、文本表示模型构建模块、数据预处理模块、所述近似筛选模块、评分预测模块和结果输出模块。
日志解析模块:用户行为数据来自用户每次访问电子书网站时发出的请求日志,每一条请求日志表明用户的每次点击操作,日志内容主要记录了访问用户的ip地址、发出请求的时间,请求的url地址,原地址,用户所用的设备信息等。而url地址中包含了访问链接、用户ID、书本ID、模块访问入口、具体章节等信息。日志处理模块采用正则表达式匹配的方式,从每条日志记录中提取出用户ID、书本ID、模块访问入口、访问的章节以及时间信息,其中模块访问入口是指用户在网站发出请求时所在的模块,由此得到记录【用户ID,书本ID,模块访问入口,访问的章节,访问时间】。该模块采集用户的搜索行为和点击行为,以获取用户兴趣偏好特征并储存;
文本表示模型构建模块:将电子书简介、正文等非结构化数据转化为可计算的文本表示模型,首先采用分词工具将电子书文本进行分词,同时过滤掉内容相关性差的词语,得到每本电子书对应的关键词集合。再使用LDA算法进行训练,将电子书用主题分布来进行描述,并将结果存于文件中,作为近似筛选模块的输入。
数据预处理模块:主要包含数据过滤单元、数据合并单元、评分计算单元以及特征扩充单元,数据过滤单元根据模块访问入口信息对日志处理模块得到的记录进行过滤,只保留用户阅读电子书的日志,去除掉用户访问首页、访问广告、下载APP等请求。数据合并单元分为两个部分,第一个是以【用户-书本】为key对过滤后的记录进行合并,得到一个用户对一本电子书的最大阅读章节数;第二个合并是指依据书本id将用户行为记录和电子书书本信息中的类别信息进行融合,得到向量(用户id,书本id,类别id);评分计算部分根据用户行为计算出用户对电子书的评分,再和上述向量进行合并得到(用户id,书本id,类别id,评分,)作为近似筛选模块的输入。特征扩充单元得到的电子书主题分布向量上扩充电子书热度特征。特征扩充单元采用的中文分词工具——ansj,同时通过网络资源等途径丰富停用词库,初步过滤掉无用的词语,输出去掉停用词之后的文本词汇。进一步的,由于后续文本表示模型构建单元所需要的时间与词语数量呈正相关关系,因此需要把与电子书主题相关性不大的部分去掉。过滤单元的过滤操作主要分为三个部分,前两个部分是发生在分词之前。首先是对章节数进行过滤,绝大部分网络电子书的章节数都非常多,所以不可能对整本书进行处理,一般情况下,电子书作者通过前几个章节来塑造电子书的世界观,因此每篇电子书只需要取一部分章节来代表整体即可;第二部分是将文本中的对话进行过滤,因为在电子书正文中的对话基本都是口语化表述且一般不包含关键信息,而且占比比较大,因此采用正则的方式将所有对话都过滤掉;第三部分是词性过滤,有一些词性是没有特别含义的,例如人名、动词、介词等,因此需要根据词性进行过滤。该模块用于分析用户兴趣偏好特征,将观测的用户信息提取特征向量,获取用户属性特征并对用户属性特征进行预处理,生成用户属性特征;
所述近似筛选模块用于得到每本电子书相似度较高的邻居集合。基于内容推荐存在的一个问题是无法保证推荐物品的质量相关性,因为算法本身只考虑内容上的相关性,因此本文在电子书主题分布向量的基础上,加入了每本电子书的热度,即这本书被阅读次数并进行归一化,这样在用余弦相似度进行计算时会提升邻居中热度相似的电子书排行。在加入电子书热度之后,利用LSH算法计算电子书之间的相似度,由此得到每本电子书相似度较高的邻居集合。
评分预测模块依据用户的历史评分信息和电子书的相似邻居集合计算出用户对未看过电子书的预测评分,根据评分大小生成推荐候选集,将不同算法的候选集进行有机混合得到混合推荐候选集,最后过滤掉候选集中用户历史阅读过的电子书并依据前端展示数量选取前TopN个作为每个用户的个性化推荐列表。
结果输出模块将电子书的相似邻居集合以及每个用户的个性化推荐列表以文件的形式保存到HDFS上,作为系统的输出结果。
附图说明
图1为本发明的一种具体实施例结构示意图。
图2为本发明的一种具体实施例LDA算法构建文章流程图。
具体实施方式
下面结合具体实施例对本发明的技术方案做进一步解释说明。本发明提供一种网络电子书内容推荐系统,为实现上述目的,本发明采用以下技术方案:一种电子书内容推荐系统,包括:日志解析模块、文本表示模型构建模块、数据预处理模块、所述近似筛选模块、评分预测模块和结果输出模块。
日志解析模块:用户行为数据来自用户每次访问电子书网站时发出的请求日志,每一条请求日志表明用户的每次点击操作,日志内容主要记录了访问用户的ip地址、发出请求的时间,请求的url地址,原地址,用户所用的设备信息等。而url地址中包含了访问链接、用户ID、书本ID、模块访问入口、具体章节等信息。日志处理模块采用正则表达式匹配的方式,从每条日志记录中提取出用户ID、书本ID、模块访问入口、访问的章节以及时间信息,其中模块访问入口是指用户在网站发出请求时所在的模块,由此得到记录【用户ID,书本ID,模块访问入口,访问的章节,访问时间】。该模块采集用户的搜索行为和点击行为,以获取用户兴趣偏好特征并储存;
文本表示模型构建模块:将电子书简介、正文等非结构化数据转化为可计算的文本表示模型,首先采用分词工具将电子书文本进行分词,同时过滤掉内容相关性差的词语,得到每本电子书对应的关键词集合。再使用LDA算法进行训练,将电子书用主题分布来进行描述,并将结果存于文件中,作为近似筛选模块的输入。LDA算法是一种能够考虑语义的文本表示模型,LDA算法能够挖掘出文本的潜在语义,通过把词语转换为主题的方式,将文本用主题信息来进行表示,以此从字面比较上升到内在抽象比较,从而避免了因不同表述带来的词语匹配不相等问题。一篇文档是由多个主题组成,而每个主题是描述某个方面的词语集合。LDA算法通过概率模型来生成一篇文章,设电子书i的主题分布为Θi,主题k的词分布为Zk,而Θ和Z是由狄利克雷分布得到的,对应的超参数为α和β,则电子书的生成过程如图2所示。
具体流程如下:
1.依据狄利克雷分布得到Θ,并从中选出一个主题分布作为Θi;
2.设电子书i一共包含N个位置(每个位置放一个词),每个位置放置的词语都是通过步骤3和4得到的,不断循环直到所有位置都有对应的词语,则电子书生成完毕;
3.从主题分布Θi中选择一个主题,作为当前位置词语的主题k。
4.从主题k的词分布为Zk中选择一个词语并放置在当前位置。
上述步骤用如下公式表述:p(w|d)=p(w|z)*p(z|d),主题分布Θ和词分布Z是两个需要推导的参数,基本思路是先人为设定两个超参数α和β的取值,从而得到初始的Θ和Z,继而按照上述步骤进行迭代,每次迭代都会更新Θ和Z,在经过n次迭代之后更新幅度会收敛到一个比较小的范围,此时的Θ和Z为算法输出。
数据预处理模块:主要包含数据过滤单元、数据合并单元、评分计算单元以及特征扩充单元,数据过滤单元根据模块访问入口信息对日志处理模块得到的记录进行过滤,只保留用户阅读电子书的日志,去除掉用户访问首页、访问广告、下载APP等请求。数据合并单元分为两个部分,第一个是以【用户-书本】为key对过滤后的记录进行合并,得到一个用户对一本电子书的最大阅读章节数;第二个合并是指依据书本id将用户行为记录和电子书书本信息中的类别信息进行融合,得到向量(用户id,书本id,类别id);评分计算部分根据用户行为计算出用户对电子书的评分,再和上述向量进行合并得到(用户id,书本id,类别id,评分,)作为近似筛选模块的输入。特征扩充单元得到的电子书主题分布向量上扩充电子书热度特征。特征扩充单元采用的中文分词工具——ansj,同时通过网络资源等途径丰富停用词库,初步过滤掉无用的词语,输出去掉停用词之后的文本词汇。进一步的,由于后续文本表示模型构建单元所需要的时间与词语数量呈正相关关系,因此需要把与电子书主题相关性不大的部分去掉。过滤单元的过滤操作主要分为三个部分,前两个部分是发生在分词之前。首先是对章节数进行过滤,绝大部分网络电子书的章节数都非常多,所以不可能对整本书进行处理,一般情况下,电子书作者通过前几个章节来塑造电子书的世界观,因此每篇电子书只需要取一部分章节来代表整体即可;第二部分是将文本中的对话进行过滤,因为在电子书正文中的对话基本都是口语化表述且一般不包含关键信息,而且占比比较大,因此采用正则的方式将所有对话都过滤掉;第三部分是词性过滤,有一些词性是没有特别含义的,例如人名、动词、介词等,因此需要根据词性进行过滤。该模块用于分析用户兴趣偏好特征,将观测的用户信息提取特征向量,获取用户属性特征并对用户属性特征进行预处理,生成用户属性特征;
所述近似筛选模块用于得到每本电子书相似度较高的邻居集合。基于内容推荐存在的一个问题是无法保证推荐物品的质量相关性,因为算法本身只考虑内容上的相关性,因此本文在电子书主题分布向量的基础上,加入了每本电子书的热度,即这本书被阅读次数并进行归一化,这样在用余弦相似度进行计算时会提升邻居中热度相似的电子书排行。在加入电子书热度之后,利用LSH算法计算电子书之间的相似度,由此得到每本电子书相似度较高的邻居集合。
评分预测模块依据用户的历史评分信息和电子书的相似邻居集合计算出用户对未看过电子书的预测评分,根据评分大小生成推荐候选集,将不同算法的候选集进行有机混合得到混合推荐候选集,最后过滤掉候选集中用户历史阅读过的电子书并依据前端展示数量选取前TopN个作为每个用户的个性化推荐列表。
结果输出模块将电子书的相似邻居集合以及每个用户的个性化推荐列表以文件的形式保存到HDFS上,作为系统的输出结果。
Claims (6)
1.一种电子书内容推荐系统,其特征在于:包括日志解析模块、文本表示模型构建模块、数据预处理模块、所述近似筛选模块、评分预测模块和结果输出模块。
2.如权利要求1所述的一种电子书内容推荐系统,其特征在于:所述日志解析模块采集用户的搜索行为和点击行为,以获取用户兴趣偏好特征并储存。
3.如权利要求1所述的一种电子书内容推荐系统,其特征在于:文本表示模型构建模块将非结构化数据转化为可计算的文本表示模型,采用分词工具将电子书文本进行分词,同时过滤掉内容相关性差的词语,得到每本电子书对应的关键词集合,再使用LDA算法进行训练,将电子书用主题分布来进行描述,并将结果存于文件中,作为近似筛选模块的输入。
4.如权利要求1所述的一种电子书内容推荐系统,其特征在于:数据预处理模块:主要包含数据过滤单元、数据合并单元、评分计算单元以及特征扩充单元。
5.如权利要求1所述的一种电子书内容推荐系统,其特征在于:所述近似筛选模块用于得到得到每本电子书相似度较高的邻居集合。
6.如权利要求1所述的一种电子书内容推荐系统,其特征在于:评分预测模块依据用户的历史评分信息和电子书的相似邻居集合计算出用户对未看过电子书的预测评分,根据评分大小生成推荐候选集,将不同算法的候选集进行有机混合得到混合推荐候选集,最后过滤掉候选集中用户历史阅读过的电子书并依据前端展示数量选取前TopN个作为每个用户的个性化推荐列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111277878.6A CN114218473A (zh) | 2021-10-30 | 2021-10-30 | 一种电子书内容推荐系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111277878.6A CN114218473A (zh) | 2021-10-30 | 2021-10-30 | 一种电子书内容推荐系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114218473A true CN114218473A (zh) | 2022-03-22 |
Family
ID=80696321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111277878.6A Pending CN114218473A (zh) | 2021-10-30 | 2021-10-30 | 一种电子书内容推荐系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114218473A (zh) |
-
2021
- 2021-10-30 CN CN202111277878.6A patent/CN114218473A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220261427A1 (en) | Methods and system for semantic search in large databases | |
US9589208B2 (en) | Retrieval of similar images to a query image | |
Li et al. | Tag-based social interest discovery | |
Noll et al. | Web search personalization via social bookmarking and tagging | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
US9720979B2 (en) | Method and system of identifying relevant content snippets that include additional information | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
Kumar et al. | Hashtag recommendation for short social media texts using word-embeddings and external knowledge | |
CN111259220B (zh) | 一种基于大数据的数据采集方法和系统 | |
KR100954842B1 (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN111125297B (zh) | 一种基于搜索引擎的海量离线文本实时推荐方法 | |
Cao et al. | Searching for truth in a database of statistics | |
JP2013168177A (ja) | 情報提供プログラム、情報提供装置および検索サービスの提供方法 | |
JP5315726B2 (ja) | 情報提供方法、情報提供装置、および情報提供プログラム | |
Khan | Addressing big data problems using semantics and natural language understanding | |
Zhao et al. | A search result ranking algorithm based on web pages and tags clustering | |
Li et al. | Research on hot news discovery model based on user interest and topic discovery | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 | |
CN114218473A (zh) | 一种电子书内容推荐系统 | |
Bogers et al. | Expertise classification: Collaborative classification vs. automatic extraction | |
JP2010282403A (ja) | 文書検索方法 | |
Singh et al. | User specific context construction for personalized multimedia retrieval | |
CN105912584B (zh) | 一种基于网页信息数据的数据索引系统 | |
Sajeev | A community based web summarization in near linear time |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220322 |
|
WD01 | Invention patent application deemed withdrawn after publication |