CN109189913B - 一种基于内容的小说推荐方法 - Google Patents

一种基于内容的小说推荐方法 Download PDF

Info

Publication number
CN109189913B
CN109189913B CN201810859935.3A CN201810859935A CN109189913B CN 109189913 B CN109189913 B CN 109189913B CN 201810859935 A CN201810859935 A CN 201810859935A CN 109189913 B CN109189913 B CN 109189913B
Authority
CN
China
Prior art keywords
novel
text
database
recommendation
simhash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810859935.3A
Other languages
English (en)
Other versions
CN109189913A (zh
Inventor
吴晟
韩林峄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810859935.3A priority Critical patent/CN109189913B/zh
Publication of CN109189913A publication Critical patent/CN109189913A/zh
Application granted granted Critical
Publication of CN109189913B publication Critical patent/CN109189913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于内容的小说推荐方法,属于推荐方法技术领域。首先对小说文本进行初始化并提取对应的SinHash指纹,建立动态小说数据库;接着输入参考小说,通过小说的出版时间及小说文本之间基于SinHash指纹的相关度确定待推荐小说;最后对待推荐小说进行相关度排序,输出一定条目的推荐小说。本发明与现有技术相比,主要解决了现有技术在进行小说推荐时存在的推荐准确率低、类区分能力弱、效率差等现象,增加了目前依靠计算机对小说进行推荐的准确性和灵活性。

Description

一种基于内容的小说推荐方法
技术领域
本发明涉及一种基于内容的小说推荐方法,属于推荐方法技术领域。
背景技术
推荐算法充斥在互联网系统中的各个角落,通常是根据用户的需求,系统为其推荐相关的内容。在小说、书籍等文本推荐方法中,通常使用关键词推荐算法,即根据小说的关键词为其推荐其他关键词相同的小说。
但基于关键词的推荐算法所推荐的内容有时并不符合人们的需求,人们更乐意找到与已看小说风格相同、类型较为接近的其他小说。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于内容的小说推荐方法,以解决现有技术在进行小说推荐时存在的推荐准确率低、类区分能力弱、效率差等现象,致力于增加目前依靠计算机对小说进行推荐的准确性和灵活性。
本发明的技术方案是:一种基于内容的小说推荐方法,具体步骤为:
Step0:获取小说文本集合{X1,X2…Xp},对小说文本X,X∈{X1,X2…Xp}进行预处理,并建立动态小说数据库,具体如Step0.1~Step0.5所示;
Step0.1:从小说文本X中提取出小说名称x和该小说的出版时间tx;
Step0.2:对小说文本X进行分词、去停用词、同义词替换等操作,生成小说文本X的实意词集合
Figure BDA0001749394060000011
Step0.3:对实意词集合
Figure BDA0001749394060000012
中的每个元素
Figure BDA0001749394060000013
求其权重x i,并生成实意词集合
Figure BDA0001749394060000014
所对应的权重集合X:{x 1,x 2x m};
Step0.4:由小说文本X的实意词集合
Figure BDA0001749394060000015
和所对应的权重集合X,根据SimHash算法生成小说文本X的长度为L的SimHash指纹
Figure BDA0001749394060000016
Step0.5:将小说名称x、小说的出版时间tx、小说文本X、实意词集合
Figure BDA0001749394060000017
权重集合X及SimHash指纹
Figure BDA0001749394060000018
作为元组加入小说数据库;
Step1:输入小说名称h;
Step2:查找小说数据库,从数据库中提取出小说名称h所对应的小说的出版时间th、小说文本H和SimHash指纹
Figure BDA0001749394060000019
Step3:遍历小说数据库,求小说文本H与数据库中其他小说文本X,X∈{X1,X2…Xp}的相关度Si(H,X),i∈[1,p],具体如Step3.1~Step3.4所示;
Step3.1:从小说数据库中获取其他小说文本X及所对应的小说名称x、小说的出版时间tx和SimHash指纹
Figure BDA0001749394060000021
Step3.2:若小说的出版时间th和tx相差10年以内,则执行Step3.3操作,否则执行Step3.4操作;
Step3.3:计算SimHash指纹
Figure BDA0001749394060000022
Figure BDA0001749394060000023
的海明距离
Figure BDA0001749394060000024
由公式(1)计算小说H与小说X的相关度Si(H,X),i∈[1,p];
Figure BDA0001749394060000025
Step3.4:记小说H与小说X的相关度Si(H,X)=0;
Step4:将Si(H,X),i∈[1,p]按照从大至小的规则排序,提取出前n个所对应的小说名称x,并作出推荐。
进一步地,所述步骤Step0.2中,对小说文本X进行分词、去停用词、同义词替换等操作,可以采用分词包、停用词库、同义词库等。
进一步地,所述步骤Step0.3中,可以采用实意词集合
Figure BDA0001749394060000026
中的每个元素
Figure BDA0001749394060000027
的TF-IDF值作为权重x i
进一步地,所述步骤Step0.4中,SimHash指纹的长度L是可变的,取值范围为128/256/512/1024等,具体取值方法是根据数据库中小说的数量p决定的,由公式(2)计算得到。
Figure BDA0001749394060000028
进一步地,所述步骤Step0(包括Step0.1~Step0.5)属初始化步骤,在常规计算时只需进行Step1~Step4即可;若有新增小说,需对新增小说进行步骤Step0操作,也可设置为自动学习方式进行,用以更新数据库。
进一步地,所述步骤Step2中,若存在名称相同的小说,则提取出所有该名称所对应的小说信息,由用户选择具体是哪一本小说。
进一步地,所述步骤Step4中,n为要推荐的个数,可以由用户选择。
本发明的有益效果是:解决了现有技术在进行小说推荐时存在的推荐准确率低、类区分能力弱、效率差等现象,增加了目前依靠计算机对小说进行推荐的准确性和灵活性。
附图说明
图1是本发明流程示意图;
图2是本发明Step0步骤流程示意图;
图3是本发明Step3步骤流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于内容的小说推荐方法,首先对小说文本进行初始化并提取对应的SinHash指纹,建立动态小说数据库;接着输入参考小说,通过小说的出版时间及小说文本之间基于SinHash指纹的相关度确定待推荐小说;最后对待推荐小说进行相关度排序,输出一定条目的推荐小说。
具体包括以下步骤:
Step0:获取小说文本集合{X1,X2…Xp},对小说文本X,X∈{X1,X2…Xp}进行预处理,并建立动态小说数据库,具体如Step0.1~Step0.5所示;
Step0.1:从小说文本X中提取出小说名称x和该小说的出版时间tx;
Step0.2:对小说文本X进行分词、去停用词、同义词替换等操作,生成小说文本X的实意词集合
Figure BDA0001749394060000031
Step0.3:对实意词集合
Figure BDA0001749394060000032
中的每个元素
Figure BDA0001749394060000033
求其权重x i,并生成实意词集合
Figure BDA0001749394060000034
所对应的权重集合X:{x 1,x 2x m};
Step0.4:由小说文本X的实意词集合
Figure BDA0001749394060000035
和所对应的权重集合X,根据SimHash算法生成小说文本X的长度为L的SimHash指纹
Figure BDA0001749394060000036
Step0.5:将小说名称x、小说的出版时间tx、小说文本X、实意词集合
Figure BDA0001749394060000037
权重集合X及SimHash指纹
Figure BDA0001749394060000038
作为元组加入小说数据库;
Step1:输入小说名称h;
Step2:查找小说数据库,从数据库中提取出小说名称h所对应的小说的出版时间th、小说文本H和SimHash指纹
Figure BDA0001749394060000039
Step3:遍历小说数据库,求小说文本H与数据库中其他小说文本X,X∈{X1,X2…Xp}的相关度Si(H,X),i∈[1,p],具体如Step3.1~Step3.4所示;
Step3.1:从小说数据库中获取其他小说文本X及所对应的小说名称x、小说的出版时间tx和SimHash指纹
Figure BDA0001749394060000041
Step3.2:若小说的出版时间th和tx相差10年以内,则执行Step3.3操作,否则执行Step3.4操作;
Step3.3:计算SimHash指纹
Figure BDA0001749394060000042
Figure BDA0001749394060000043
的海明距离
Figure BDA0001749394060000044
由公式(1)计算小说H与小说X的相关度Si(H,X),i∈[1,p];
Figure BDA0001749394060000045
Step3.4:记小说H与小说X的相关度Si(H,X)=0;
Step4:将Si(H,X),i∈[1,p]按照从大至小的规则排序,提取出前n个所对应的小说名称x,并作出推荐。
进一步地,所述步骤Step0.2中,对小说文本X进行分词、去停用词、同义词替换等操作,可以采用分词包、停用词库、同义词库等。
进一步地,所述步骤Step0.3中,可以采用实意词集合
Figure BDA0001749394060000046
中的每个元素
Figure BDA0001749394060000047
的TF-IDF值作为权重x i
进一步地,所述步骤Step0.4中,SimHash指纹的长度L是可变的,取值范围为128/256/512/1024等,具体取值方法是根据数据库中小说的数量p决定的,由公式(2)计算得到。
Figure BDA0001749394060000048
进一步地,所述步骤Step0(包括Step0.1~Step0.5)属初始化步骤,在常规计算时只需进行Step1~Step4即可;若有新增小说,需对新增小说进行步骤Step0操作,也可设置为自动学习方式进行,用以更新数据库。
进一步地,所述步骤Step2中,若存在名称相同的小说,则提取出所有该名称所对应的小说信息,由用户选择具体是哪一本小说。
进一步地,所述步骤Step4中,n为要推荐的个数,可以由用户选择。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种基于内容的小说推荐方法,其特征在于:
Step0:获取小说文本集合{X1,X2…Xp},对小说文本X,X∈{X1,X2…Xp}进行预处理,并建立动态小说数据库,具体如Step0.1~Step0.5所示;
Step0.1:从小说文本X中提取出小说名称x和该小说的出版时间tx;
Step0.2:对小说文本X进行分词、去停用词、同义词替换操作,生成小说文本X的实意词集合
Figure FDA0003176428880000011
Step0.3:对实意词集合
Figure FDA0003176428880000012
中的每个元素
Figure FDA0003176428880000013
求其权重x i,并生成实意词集合
Figure FDA0003176428880000014
所对应的权重集合X:{x 1,x 2x m};
Step0.4:由小说文本X的实意词集合
Figure FDA0003176428880000015
和所对应的权重集合X,根据SimHash算法生成小说文本X的长度为L的SimHash指纹
Figure FDA0003176428880000016
所述步骤Step0.4中,SimHash指纹的长度L是可变的,具体取值方法是根据数据库中小说的数量p决定的,由公式(2)计算得到
Figure FDA0003176428880000017
其中,n为要推荐的个数,可以由用户选择;
Step0.5:将小说名称x、小说的出版时间tx、小说文本X、实意词集合
Figure FDA0003176428880000018
权重集合X及SimHash指纹
Figure FDA0003176428880000019
作为元组加入小说数据库;
Step1:输入小说名称h;
Step2:查找小说数据库,从数据库中提取出小说名称h所对应的小说的出版时间th、小说文本H和SimHash指纹
Figure FDA00031764288800000110
Step3:遍历小说数据库,求小说文本H与数据库中其他小说文本X,X∈{X1,X2…Xp}的相关度Si(H,X),i∈[1,p],具体如Step3.1~Step3.4所示;
Step3.1:从小说数据库中获取其他小说文本X及所对应的小说名称x、小说的出版时间tx和SimHash指纹
Figure FDA00031764288800000111
Step3.2:若小说的出版时间th和tx相差10年以内,则执行Step3.3操作,否则执行Step3.4操作;
Step3.3:计算SimHash指纹
Figure FDA0003176428880000021
Figure FDA0003176428880000022
的海明距离
Figure FDA0003176428880000023
由公式(1)计算小说H与小说X的相关度Si(H,X),i∈[1,p];
Figure FDA0003176428880000024
Step3.4:记小说H与小说X的相关度Si(H,X)=0;
Step4:将Si(H,X),i∈[1,p]按照从大至小的规则排序,提取出前n个所对应的小说名称x,并作出推荐。
2.根据权利要求1所述的基于内容的小说推荐方法,其特征在于:所述步骤Step0.3中,可以采用实意词集合
Figure FDA0003176428880000025
中的每个元素
Figure FDA0003176428880000026
的TF-IDF值作为权重x i
CN201810859935.3A 2018-08-01 2018-08-01 一种基于内容的小说推荐方法 Active CN109189913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810859935.3A CN109189913B (zh) 2018-08-01 2018-08-01 一种基于内容的小说推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810859935.3A CN109189913B (zh) 2018-08-01 2018-08-01 一种基于内容的小说推荐方法

Publications (2)

Publication Number Publication Date
CN109189913A CN109189913A (zh) 2019-01-11
CN109189913B true CN109189913B (zh) 2021-10-22

Family

ID=64937599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810859935.3A Active CN109189913B (zh) 2018-08-01 2018-08-01 一种基于内容的小说推荐方法

Country Status (1)

Country Link
CN (1) CN109189913B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9098570B2 (en) * 2011-03-31 2015-08-04 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for paragraph-based document searching
CN102855282B (zh) * 2012-08-01 2018-10-16 北京百度网讯科技有限公司 一种文档推荐方法及装置
CN105138647A (zh) * 2015-08-26 2015-12-09 陕西师范大学 一种基于Simhash算法的旅游网络社区划分方法
CN107273391A (zh) * 2016-04-08 2017-10-20 北京国双科技有限公司 文书推荐方法和装置
CN107562824B (zh) * 2017-08-21 2020-10-27 昆明理工大学 一种文本相似度检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Locality-sensitive hashing scheme based on p-stable distributions;M Datar;《Twentieth Symposium on Computational Geometry》;20041231;全文 *
基于SimHash指纹的近似文本检测;董博;《小型微型计算机系统》;20111115;全文 *

Also Published As

Publication number Publication date
CN109189913A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
US10216766B2 (en) Large-scale image tagging using image-to-topic embedding
CN110427563B (zh) 一种基于知识图谱的专业领域系统冷启动推荐方法
CN109508414B (zh) 一种同义词挖掘方法及装置
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
US9483460B2 (en) Automated formation of specialized dictionaries
CN111324752B (zh) 基于图神经网络结构建模的图像与文本检索方法
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
Zhou et al. Resolving surface forms to wikipedia topics
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN103838756A (zh) 一种确定推送信息的方法及装置
CN107066589B (zh) 一种基于综合知识的实体语义和词频的排序方法及装置
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN106708929B (zh) 视频节目的搜索方法和装置
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
CN116680363A (zh) 一种基于多模态评论数据的情感分析方法
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant