CN109189913B - 一种基于内容的小说推荐方法 - Google Patents
一种基于内容的小说推荐方法 Download PDFInfo
- Publication number
- CN109189913B CN109189913B CN201810859935.3A CN201810859935A CN109189913B CN 109189913 B CN109189913 B CN 109189913B CN 201810859935 A CN201810859935 A CN 201810859935A CN 109189913 B CN109189913 B CN 109189913B
- Authority
- CN
- China
- Prior art keywords
- novel
- text
- database
- recommendation
- simhash
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于内容的小说推荐方法,属于推荐方法技术领域。首先对小说文本进行初始化并提取对应的SinHash指纹,建立动态小说数据库;接着输入参考小说,通过小说的出版时间及小说文本之间基于SinHash指纹的相关度确定待推荐小说;最后对待推荐小说进行相关度排序,输出一定条目的推荐小说。本发明与现有技术相比,主要解决了现有技术在进行小说推荐时存在的推荐准确率低、类区分能力弱、效率差等现象,增加了目前依靠计算机对小说进行推荐的准确性和灵活性。
Description
技术领域
本发明涉及一种基于内容的小说推荐方法,属于推荐方法技术领域。
背景技术
推荐算法充斥在互联网系统中的各个角落,通常是根据用户的需求,系统为其推荐相关的内容。在小说、书籍等文本推荐方法中,通常使用关键词推荐算法,即根据小说的关键词为其推荐其他关键词相同的小说。
但基于关键词的推荐算法所推荐的内容有时并不符合人们的需求,人们更乐意找到与已看小说风格相同、类型较为接近的其他小说。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于内容的小说推荐方法,以解决现有技术在进行小说推荐时存在的推荐准确率低、类区分能力弱、效率差等现象,致力于增加目前依靠计算机对小说进行推荐的准确性和灵活性。
本发明的技术方案是:一种基于内容的小说推荐方法,具体步骤为:
Step0:获取小说文本集合{X1,X2…Xp},对小说文本X,X∈{X1,X2…Xp}进行预处理,并建立动态小说数据库,具体如Step0.1~Step0.5所示;
Step0.1:从小说文本X中提取出小说名称x和该小说的出版时间tx;
Step1:输入小说名称h;
Step3:遍历小说数据库,求小说文本H与数据库中其他小说文本X,X∈{X1,X2…Xp}的相关度Si(H,X),i∈[1,p],具体如Step3.1~Step3.4所示;
Step3.2:若小说的出版时间th和tx相差10年以内,则执行Step3.3操作,否则执行Step3.4操作;
Step3.4:记小说H与小说X的相关度Si(H,X)=0;
Step4:将Si(H,X),i∈[1,p]按照从大至小的规则排序,提取出前n个所对应的小说名称x,并作出推荐。
进一步地,所述步骤Step0.2中,对小说文本X进行分词、去停用词、同义词替换等操作,可以采用分词包、停用词库、同义词库等。
进一步地,所述步骤Step0.4中,SimHash指纹的长度L是可变的,取值范围为128/256/512/1024等,具体取值方法是根据数据库中小说的数量p决定的,由公式(2)计算得到。
进一步地,所述步骤Step0(包括Step0.1~Step0.5)属初始化步骤,在常规计算时只需进行Step1~Step4即可;若有新增小说,需对新增小说进行步骤Step0操作,也可设置为自动学习方式进行,用以更新数据库。
进一步地,所述步骤Step2中,若存在名称相同的小说,则提取出所有该名称所对应的小说信息,由用户选择具体是哪一本小说。
进一步地,所述步骤Step4中,n为要推荐的个数,可以由用户选择。
本发明的有益效果是:解决了现有技术在进行小说推荐时存在的推荐准确率低、类区分能力弱、效率差等现象,增加了目前依靠计算机对小说进行推荐的准确性和灵活性。
附图说明
图1是本发明流程示意图;
图2是本发明Step0步骤流程示意图;
图3是本发明Step3步骤流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于内容的小说推荐方法,首先对小说文本进行初始化并提取对应的SinHash指纹,建立动态小说数据库;接着输入参考小说,通过小说的出版时间及小说文本之间基于SinHash指纹的相关度确定待推荐小说;最后对待推荐小说进行相关度排序,输出一定条目的推荐小说。
具体包括以下步骤:
Step0:获取小说文本集合{X1,X2…Xp},对小说文本X,X∈{X1,X2…Xp}进行预处理,并建立动态小说数据库,具体如Step0.1~Step0.5所示;
Step0.1:从小说文本X中提取出小说名称x和该小说的出版时间tx;
Step1:输入小说名称h;
Step3:遍历小说数据库,求小说文本H与数据库中其他小说文本X,X∈{X1,X2…Xp}的相关度Si(H,X),i∈[1,p],具体如Step3.1~Step3.4所示;
Step3.2:若小说的出版时间th和tx相差10年以内,则执行Step3.3操作,否则执行Step3.4操作;
Step3.4:记小说H与小说X的相关度Si(H,X)=0;
Step4:将Si(H,X),i∈[1,p]按照从大至小的规则排序,提取出前n个所对应的小说名称x,并作出推荐。
进一步地,所述步骤Step0.2中,对小说文本X进行分词、去停用词、同义词替换等操作,可以采用分词包、停用词库、同义词库等。
进一步地,所述步骤Step0.4中,SimHash指纹的长度L是可变的,取值范围为128/256/512/1024等,具体取值方法是根据数据库中小说的数量p决定的,由公式(2)计算得到。
进一步地,所述步骤Step0(包括Step0.1~Step0.5)属初始化步骤,在常规计算时只需进行Step1~Step4即可;若有新增小说,需对新增小说进行步骤Step0操作,也可设置为自动学习方式进行,用以更新数据库。
进一步地,所述步骤Step2中,若存在名称相同的小说,则提取出所有该名称所对应的小说信息,由用户选择具体是哪一本小说。
进一步地,所述步骤Step4中,n为要推荐的个数,可以由用户选择。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
1.一种基于内容的小说推荐方法,其特征在于:
Step0:获取小说文本集合{X1,X2…Xp},对小说文本X,X∈{X1,X2…Xp}进行预处理,并建立动态小说数据库,具体如Step0.1~Step0.5所示;
Step0.1:从小说文本X中提取出小说名称x和该小说的出版时间tx;
所述步骤Step0.4中,SimHash指纹的长度L是可变的,具体取值方法是根据数据库中小说的数量p决定的,由公式(2)计算得到
其中,n为要推荐的个数,可以由用户选择;
Step1:输入小说名称h;
Step3:遍历小说数据库,求小说文本H与数据库中其他小说文本X,X∈{X1,X2…Xp}的相关度Si(H,X),i∈[1,p],具体如Step3.1~Step3.4所示;
Step3.2:若小说的出版时间th和tx相差10年以内,则执行Step3.3操作,否则执行Step3.4操作;
Step3.4:记小说H与小说X的相关度Si(H,X)=0;
Step4:将Si(H,X),i∈[1,p]按照从大至小的规则排序,提取出前n个所对应的小说名称x,并作出推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810859935.3A CN109189913B (zh) | 2018-08-01 | 2018-08-01 | 一种基于内容的小说推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810859935.3A CN109189913B (zh) | 2018-08-01 | 2018-08-01 | 一种基于内容的小说推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109189913A CN109189913A (zh) | 2019-01-11 |
CN109189913B true CN109189913B (zh) | 2021-10-22 |
Family
ID=64937599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810859935.3A Active CN109189913B (zh) | 2018-08-01 | 2018-08-01 | 一种基于内容的小说推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189913B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9098570B2 (en) * | 2011-03-31 | 2015-08-04 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for paragraph-based document searching |
CN102855282B (zh) * | 2012-08-01 | 2018-10-16 | 北京百度网讯科技有限公司 | 一种文档推荐方法及装置 |
CN105138647A (zh) * | 2015-08-26 | 2015-12-09 | 陕西师范大学 | 一种基于Simhash算法的旅游网络社区划分方法 |
CN107273391A (zh) * | 2016-04-08 | 2017-10-20 | 北京国双科技有限公司 | 文书推荐方法和装置 |
CN107562824B (zh) * | 2017-08-21 | 2020-10-27 | 昆明理工大学 | 一种文本相似度检测方法 |
-
2018
- 2018-08-01 CN CN201810859935.3A patent/CN109189913B/zh active Active
Non-Patent Citations (2)
Title |
---|
Locality-sensitive hashing scheme based on p-stable distributions;M Datar;《Twentieth Symposium on Computational Geometry》;20041231;全文 * |
基于SimHash指纹的近似文本检测;董博;《小型微型计算机系统》;20111115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109189913A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
CN108009228B (zh) | 一种内容标签的设置方法、装置及存储介质 | |
US10216766B2 (en) | Large-scale image tagging using image-to-topic embedding | |
CN110427563B (zh) | 一种基于知识图谱的专业领域系统冷启动推荐方法 | |
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
CN106202256B (zh) | 基于语义传播及混合多示例学习的Web图像检索方法 | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
CN111324752B (zh) | 基于图神经网络结构建模的图像与文本检索方法 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
Zhou et al. | Resolving surface forms to wikipedia topics | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN107066589B (zh) | 一种基于综合知识的实体语义和词频的排序方法及装置 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN111221968B (zh) | 基于学科树聚类的作者消歧方法及装置 | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN111737997A (zh) | 一种文本相似度确定方法、设备及储存介质 | |
CN112131341A (zh) | 文本相似度计算方法、装置、电子设备和存储介质 | |
CN112989208A (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
CN116680363A (zh) | 一种基于多模态评论数据的情感分析方法 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |