CN108280114A - 一种基于深度学习的用户文献阅读兴趣分析方法 - Google Patents

一种基于深度学习的用户文献阅读兴趣分析方法 Download PDF

Info

Publication number
CN108280114A
CN108280114A CN201710627545.9A CN201710627545A CN108280114A CN 108280114 A CN108280114 A CN 108280114A CN 201710627545 A CN201710627545 A CN 201710627545A CN 108280114 A CN108280114 A CN 108280114A
Authority
CN
China
Prior art keywords
document
user
word
sets
reading interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710627545.9A
Other languages
English (en)
Other versions
CN108280114B (zh
Inventor
朱全银
唐海波
严云洋
李翔
胡荣林
瞿学新
邵武杰
许康
赵阳
钱凯
高阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qichuang Technology Co.,Ltd.
Dragon Totem Technology Hefei Co ltd
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201710627545.9A priority Critical patent/CN108280114B/zh
Publication of CN108280114A publication Critical patent/CN108280114A/zh
Application granted granted Critical
Publication of CN108280114B publication Critical patent/CN108280114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种基于深度学习的用户文献阅读兴趣挖掘方法,其中,采用了一种基于深度学习的用户阅读兴趣挖掘方法,收集用户历史文献浏览日志,计算用户浏览每篇文献的时长与最后一次阅读文献的时刻距离当前标准时刻的时长距离来对每篇文献赋予不同的权值,其次,通过基于深度学习的词向量模型对用户历史浏览过的文献标题的分词结果进行拓展。本发明用于挖掘用户潜在的阅读兴趣,提高文档推荐的准确率,提高用户信息检索的效率。

Description

一种基于深度学习的用户文献阅读兴趣分析方法
技术领域
本发明属于数据分析领域,特别涉及一种基于深度学习的用户文献阅读兴趣分析方法。
背景技术
目前,随着互联网上文献资料的日益增多,越来越多的用户感觉获取大量真正对自己有帮助的文献资料是一件非常困难的事情。相比较于电子商务领域,用户个人兴趣分析已经运用到大多数的电子商务网站中,如淘宝网、亚马逊、YouTube等都在自己的推荐服务中嵌入了用户偏好分析模块并取得了很好的业绩。
但是,在文献检索领域,都采用一种基于信息匹配的信息检索方式,根据用户每次输入的检索关键词,将数据库中与其最匹配的文献推送给用户。这种文献检索方式产生的推荐文献内容单一,不能满足用户潜在的阅读偏好,同时用户会拥有较低的惊喜度。因此需要找到一种简单、高效的用户阅读兴趣分析方法。
2009年到2017年,发明人给出了Web文本处理与推送的的办法(李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐.计算机科学与探索.2014.Vol.8(6):751-759;SuqunCao,Quanyin Zhu,Zhiwei Hou.Customer Segmentation Based on a NovelHierarchicalClustering Algorithm.2009,p:1-5(EI:20100412657161);QuanyinZhu,Sunqun Cao.ANovel Classifier-independent Feature Selection Algorithmfor ImbalancedDatasets.2009,p:77-82(EI:20095012543848);Suqun Cao,Zhiweiyang Wang,QuanyinZhu.Kernelized Fuzzy Fisher Criterion based Clustering Algorithm.DCABES 2010,p:87-91(EI:20104413349424);Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The CaseStudy for Price Extracting of Mobile Phone Sell Online.2011,p:282-285(EI:20113714318072);Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,HongZhou.Integrated Price Forecast based on Dichotomy Backfilling and DisturbanceFactor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093.(EI:20121814977597);Suqun Cao,Gelan Yang,Quanyin Zhu,HaiheiZhai.A novel feature extraction method for mechanical partrecognition.Applied Mechanics and Materials,2011,p:116-121(EI:20113814354316);Pei Zhou,Quanyin Zhu.Multi-factor Matching Method for BasicInformation of Science and Technology Experts Based on Web Mining.2012,P:718-720(EI:20123915469307);Jianping Deng,Fengwen Cao,Quanyin Zhu,Yu Zhang.The WebData Extracting and Application for Shop Online Based on CommoditiesClassified.Communications in Computer and Information Science,Vol.234(4):120-128(EI:20113814340383);Hui Zong,Quanyin Zhu,Ming Sun,Yahong Zhang.The casestudy for human resource management research based on web mining and semanticanalysis.Applied Mechanics and Materials,Vol.488,2014p:1336-1339(EI:20140517249044));Expert Achievements Model for Scientific and TechnologicalBased on Association Mining.DCABES 2015,272-275(EI:20162902607720);AnIdentification Method of News Scientific Intelligence Based on TF-IDF.DCABES2015,501-504(EI:20162902607645)。
深度学习:
深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。同样,深度学习是机器学习中一种基于对数据进行表征学习的方法。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
余弦相似度:
余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。在计算之前,需要先将文献进行向量化,之后求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。
词向量模型:
词向量模型是自然语言处理领域的一个概念,它旨在将一个词语拓展到n维的向量空间中,它是一种基于深度学习的计算模型,得到词语的词向量后,通过余弦相似度计算词语与词语之间在语义上的相似度。常用的词向量计算工具是Google提出的word2vec。
信息检索:
信息检索是指按一定的方式组织信息,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是信息查寻。信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来,脱机批量情报检索系统、联机实时情报检索系统。
自上世纪90年代开始,互联网上的数据量进入了爆炸式增长阶段。据2014年美国易安信(EMC)公司发布的一份数字宇宙(Digital Universe)报告得知,至2020年,全球的互联网上的数据总量将达到约44ZB,海量的数据造成的“信息过载”问题让信息检索人员耗费大量时间和精力用于在寻找对自己有价值的信息上。个性化推荐服务系统是解决“信息过载”问题的有效途径。其中的科技文献个性化服务技术关键是精确抓取用户使用系统的使用行为,分析用户阅读兴趣,根据其中用户浏览记录的或标记的项目进行抽取,为每一个用户建立文献偏好模型用于预测可能喜欢的文献,同时能够让偏好模型具有自适应性,研究科技文献的个性化服务技术能够提高科研人员检索文献的效率,更好的让科研任务取得突破性的进展,为了一个有着研究和实用意义的问题。
在现有的信息获取和推送方法中,往往都只解决了上述几个问题中的部分问题。
如中国专利文献号CN 103559262 A,授权日2016-10-05,公开了一种基于社区的作者及其学术论文的推荐系统和推荐方法,该系统先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络,然后,根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型,最后根据得到的双层引用网络和用户兴趣模型,分析用户需求,向用户推荐作者及其论文。尽管基于论文的引用网络来进行兴趣分析,但是相比从用户历史检索关键词出发,由于论文引用存在局限性并且不能从语义上分析用户阅读兴趣,导致推荐准确率较低。
如中国专利文献号CN 101408897A,授权日2011-03-30,公开了一种基于协作过滤的个性化查询扩展方法,属于个性化服务领域,其特征是利用用户群组对搜索结果的种种行为作为对词与词之间关系分析的依据,而不是依据文档中词语的相关性。根据同一个用户聚类内所有用户提交过的查询词以及用户对Web搜索引擎给出的结果的隐式反馈信息而进行查询扩展。该算法不需要用户人为地填写或修改个人兴趣,而是基于用户以往对搜索结果的种种动作,保证了用户兴趣的持久更新。该方法只能在一定程度上对用户兴趣进行持续更新,但是没有通过深度学习的方式从语义层面上拓展用户阅读兴趣,不能满足精准分析用户阅读兴趣的需求。
如中国专利文献号CN 102622445 A,授权日2014-05-07,公开了一种基于用户兴趣感知的网页推送方法及系统。通过对用户在网页内执行的各种操作如是否保存标签、是否拷贝、是否曾经访问对用户兴趣进行评判等行为进行记录,并赋予不同的权值来综合分析用户阅读兴趣,这种方法由于采用只是采用了传统基于统计学习的方法来为分析用户兴趣,不能再语义层面上分析,不能满足精准分析用户阅读兴趣的需求。
综上所述,研究发明一种基于深度学习能够在语义层面上分析用户的浏览日志,精确掌握用户的阅读兴趣对于解决信息过载问题是十分重要的。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于深度学习的用户文献阅读兴趣分析方法,包括如下步骤:
步骤一:收集用户所有历史浏览的文档集以及浏览行为记录,根据每篇文档的浏览时长计算文献权重;
步骤二:计算每篇文档浏览时刻距离当前时刻的时间距离,将时间距离大于所设定的阈值的文档删除,得到待分析文档集;
步骤三:对待分析文档集的标题内容进行预处理得到备选词语集合,使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语;
步骤四:将从备选词语集合中过滤出反应用户阅读兴趣的词语与文档关键词集合合并得到用户阅读兴趣集合。
进一步的,所述步骤一中计算文献权重的具体步骤如下:
步骤1.1:定义用户历史浏览文档集,文档关键词集;
步骤1.2:收集用户历史浏览文档集并获取文档集中每篇文档的关键词;
步骤1.3:收集用户的历史记录信息,将其浏览每篇文献的时间长度进行最小-最大归一化处理,并将归一化处理后的值作为每篇文献的权重值。
进一步的,所述步骤二中对文献进行过滤最终得到待分析文档集的具体步骤如下:
步骤2.1:定义每篇文献开始阅读时刻距离目前的时间距离集,待分析文档集;
步骤2.2:从用户的历史记录信息中计算用户最后一次阅读每篇文献结束距离当前时刻的时长,对于时间长度低于所设定阈值的文献进行剔除,获得待分析文档集。
进一步的,所述步骤三中使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语的具体步骤如下:
步骤3.1:定义文档标题预处理集,文档临时关键词集,文档词语权值集,用户临时阅读偏好集;
步骤3.2:对待分析文档集中文档的关键词进行分词、取除停用词等预处理工作,将得到的词语集合存入文档标题预处理集;
步骤3.3:根据词向量模型计算每篇文档关键词语义上相近的5个词语,分别将每篇文档得到的5个词语与文档原关键词合并作为每篇文档的临时关键词;
步骤3.4:利用词向量计算每篇文档的标题预处理集中的每个词语与文档的临时关键词集中的词语相似度,将标题预处理集中每个词语与文档的临时关键词集中的词语计算出的最大相似度作为得分,同时,将每个词语的得分与所在文献的权重相乘,将结果作为每个词语的权值,最后得到标题预处理集中每个词语的权值集;
步骤3.5:对标题预处理集中每个词语的权值集中得分低于所设阈值的词语进行剔除,得到用户临时阅读偏好集合PR,若偏好集合PR中出现分别来自不同的文献重复的词语,则将词语得分进行相加作为权值。
进一步的,所述步骤四中得出用户阅读兴趣集合的具体步骤如下:
步骤4.1:定义用户临时阅读偏好集合FPR;
步骤4.2:保留PR中权值排名前50%的词语;
步骤4.3:将KW中的词语加入到PR中,得到用户临时阅读偏好集合FPR。
优选的,所述步骤2.2中时长阈值设置为10天;步骤3.5中有效词语阈值设置为0.581。
优选的,所述步骤一中计算文献权重的具体步骤如下:
步骤11:收集用户历史浏览文献集D={d1,d2,...,dG},其中,G为全局变量且为整数,表示文档集D中的文档总数;
步骤12:获取文档集D={d1,d2,...,dG}中所有文档的关键词并存入关键词集合KW={数据挖掘,信息检索,个性化,个性化推荐,粗糙集,文本分类,SVM,个性化系统,推荐系统,信息抽取,信息增益},其中,p为KW中关键词总数;
步骤13:收集用户的文献浏览行为记录,将用户对每篇文档的浏览时间进行归一化处理,所采用的归一化方法为最大-最小标准化,其公式为:norvalue=(value-minA)/(maxA-minA),其中,minA与maxA分别是用户阅读所有文献时长中的最小值与最大值,value是浏览某篇文献时长的一个原始值,norvalue为value归一化后得到的值,得到的每篇文档归一化后的值作为每篇文档关键词权重WE={r1,r2,...,rG}。
优选的,所述步骤二中对文献进行过滤最终得到待分析文档集的具体步骤如下:
步骤21:定义用户最后一次阅读每篇文献的结束时刻集合LRT={lt1,lt2,...,ltG},定义NT为相同时区下的标准网络时刻,分别计算NT与LRT集合中每个时刻的时间距离,得到用户最后一次阅读每篇文献结束距离当前时刻的时长集合WET={t1,t2,...,tG};
步骤22:定义局部变量k,k赋初值为1,用于遍历WET,TP为时长阈值;
步骤23:如果k<=G,则执行步骤24,否则执行步骤27;
步骤24:如果tk<TP则执行步骤25,否则执行步骤26;
步骤25:将文献dk加入到待分析文档集RF中;
步骤26:k=k+1,执行步骤23;
步骤27:得到待分析文献集RF={d1,d2,...,dY},其中,Y为全局变量且为整数,表示文档集RF中的文档总数。
优选的,所述步骤三中使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语的具体步骤如下:
步骤31:对文档集RF中的每篇文档的标题文字进行分词处理并且去除停用词,获得由每篇文档标题得到的词语集合KC={c1,c2,...,cY},其中,cY={w1,w2,...,ws},并且,设S为全局变量且为整数,表示每篇文档的标题经过分词处理与去除停用词后得到的词语总数;
步骤32:根据词向量模型计算每篇文档关键词语义上相近的5个词语,分别将每篇文档得到的5个词语与文档原关键词合并作为每篇文档的临时关键词,得到每篇文档的临时关键词集TKW={q1,q2,...,qY},其中,qY={wu1,wu2,...,wux},x为每篇文档的临时关键词总数;
步骤33:定义局部变量h,h赋初值为1,用于遍历KC;
步骤34:如果h<=Y,则执行步骤35,否则执行步骤37;
步骤35:利用词向量计算ch中词语与qh中每个词语的相似度,将ch每个词语计算得到的最大相似度作为得分,将该得分与rh相乘作为每个词语的权值,其中,ch∈KC,qh∈TKW,rh∈WE;
步骤36:h=h+1,执行步骤34;
步骤37:得到TKW中所有词语的权值SKC={sk1,sk2,...,skY},其中,skY={wk1,wk2,...,wks};
步骤38:定义局部变量a,b,a与b均赋初值为1,用于遍历SKC,有效词语阈值PVA;
步骤39:如果a<=Y,则执行步骤310,否则执行步骤315;
步骤310:如果b<=S,则执行步骤312,否则执行步骤311;
步骤311:a=a+1,执行步骤39;
步骤312:如果wkb>PVA,则执行步骤314,否则执行步骤313;
步骤313:b=b+1,执行步骤310;
步骤314:将词语wkb加入到用户临时阅读偏好集合PR中,其中,wkb∈ska
步骤315:得到用户临时阅读偏好集合PR。
优选的,所述步骤四中得出用户阅读兴趣集合的具体步骤如下:
步骤41:若偏好集合PR中出现分别来自不同的文献重复的词语,则将词语得分进行相加作为权值;
步骤42:保留PR中权值排名前50%的词语;
步骤43:将KW中的词语加入到PR中,得到用户临时阅读偏好集合FPR={数据挖掘,文献检索,深度学习,LIBSVM,文本分类,SVM,个性化系统,推荐系统,大数据分析,自动摘要,信息抽取,信息增益,感知机,前馈,信息检索,个性化,个性化推荐,神经网络,词向量模型,粗糙集}。
与现有技术相比,本发明的优点在于:
本发明创造性地将用户兴趣分析功能运用在文献推荐领域,用于替代传统的基于匹配的信息检索方式,其中创造性地提出了一种基于深度学习的用户文献阅读兴趣分析方法,首先收集用户的历史浏览信息,根据历史浏览记录对文献进行加权,对于权值过低的文献进行剔除,接着,使用基于深度学习的词向量模型对已有用户偏好模型进行拓展,将得分排名前50%的词语加入到用户偏好模型中。该方法能够挖掘用户文献阅读兴趣,提高文献推荐准确率,具有很高的实用价值。
附图说明
图1为本发明的总体流程图;
图2为实施例中用户阅读文献预处理流程图;
图3为实施例中文献过滤流程图;
图4为实施例中用户阅读偏好分析流程图;
图5为实施例中确定用户阅读偏好流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1-5所示,本发明包括如下步骤:
步骤1:收集用户所有历史浏览的文档集以及浏览行为记录,根据每篇文档的浏览时长计算文献权重,具体的如图2所示:
步骤1.1:收集用户历史浏览文献集D={d1,d2,...,dG},其中,G为全局变量且为整数,表示文档集D中的文档总数;
步骤1.2:获取文档集D={d1,d2,...,dG}中所有文档的关键词并存入关键词集合KW={数据挖掘,信息检索,个性化,个性化推荐,粗糙集,文本分类,SVM,个性化系统,推荐系统,信息抽取,信息增益},其中,p为KW中关键词总数;
步骤1.3:收集用户的文献浏览行为记录,将用户对每篇文档的浏览时间进行归一化处理,所采用的归一化方法为最大-最小标准化,其公式为:norvalue=(value-minA)/(maxA-minA),其中,minA与maxA分别是用户阅读所有文献时长中的最小值与最大值,value是浏览某篇文献时长的一个原始值,norvalue为value归一化后得到的值,得到的每篇文档归一化后的值作为每篇文档关键词权重WE={r1,r2,...,rG}。
步骤2:计算每篇文档浏览时刻距离当前时刻的时间距离,将时间距离大于所设定的阈值的文档删除,得到待分析文档集,具体如图3所示:
步骤2.1:定义用户最后一次阅读每篇文献的结束时刻集合LRT={lt1,lt2,...,ltG},定义NT为
相同时区下的标准网络时刻,分别计算NT与LRT集合中每个时刻的时间距离,得到用户最后一次阅读每篇文献结束距离当前时刻的时长集合WET={t1,t2,...,tG};
步骤2.2:定义局部变量k,k赋初值为1,用于遍历WET,TP为时长阈值;
步骤2.3:如果k<=G,则执行步骤2.4,否则执行步骤2.7;
步骤2.4:如果tk<TP则执行步骤2.5,否则执行步骤2.6;
步骤2.5:将文献dk加入到待分析文档集RF中;
步骤2.6:k=k+1,执行步骤2.3;
步骤2.7:得到待分析文献集RF={d1,d2,...,dY},其中,Y为全局变量且为整数,表示文档集RF中的文档总数。
步骤3:对待分析文档集的标题内容进行预处理得到备选词语集合,使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语,具体如图4所示:
步骤3.1:对文档集RF中的每篇文档的标题文字进行分词处理并且去除停用词,获得由每篇文档标题得到的词语集合KC={c1,c2,...,cY},其中,cY={w1,w2,...,ws},并且,设S为全局变量且为整数,表示每篇文档的标题经过分词处理与去除停用词后得到的词语总数;
步骤3.2:根据词向量模型计算每篇文档关键词语义上相近的5个词语,分别将每篇文档得到的5个词语与文档原关键词合并作为每篇文档的临时关键词,得到每篇文档的临时关键词集TKW={q1,q2,...,qY},其中,qY={wu1,wu2,...,wux},x为每篇文档的临时关键词总数;
步骤3.3:定义局部变量h,h赋初值为1,用于遍历KC;
步骤3.4:如果h<=Y,则执行步骤3.5,否则执行步骤3.7;
步骤3.5:利用词向量计算ch中词语与qh中每个词语的相似度,将ch每个词语计算得到的最大相似度作为得分,将该得分与rh相乘作为每个词语的权值,其中,ch∈KC,qh∈TKW,rh∈WE;
步骤3.6:h=h+1,执行步骤3.4;
步骤3.7:得到TKW中所有词语的权值SKC={sk1,sk2,...,skY},其中,skY={wk1,wk2,...,wks};
步骤3.8:定义局部变量a,b,a与b均赋初值为1,用于遍历SKC,有效词语阈值PVA;
步骤3.9:如果a<=Y,则执行步骤3.10,否则执行步骤3.15;
步骤3.10:如果b<=S,则执行步骤3.12,否则执行步骤3.11;
步骤3.11:a=a+1,执行步骤3.9;
步骤3.12:如果wkb>PVA,则执行步骤3.14,否则执行步骤3.13;
步骤3.13:b=b+1,执行步骤3.10;
步骤3.14:将词语wkb加入到用户临时阅读偏好集合PR中,其中,wkb∈ska
步骤3.15:得到用户临时阅读偏好集合PR。
步骤4:将从备选词语集合中过滤出反应用户阅读兴趣的词语与文档关键词集合合并得到用户阅读兴趣集合,具体的如图5所示:
步骤4.1:若偏好集合PR中出现分别来自不同的文献重复的词语,则将词语得分进行相加作为权值;
步骤4.2:保留PR中权值排名前50%的词语;
步骤4.3:将KW中的词语加入到PR中,得到用户临时阅读偏好集合FPR={数据挖掘,文献检索,深度学习,LIBSVM,文本分类,SVM,个性化系统,推荐系统,大数据分析,自动摘要,信息抽取,信息增益,感知机,前馈,信息检索,个性化,个性化推荐,神经网络,词向量模型,粗糙集}。
为了更好的说明本方法的有效性,随机选取系统数据库中10位用户进行文献推荐测试,用户对推荐的文献满意度达92%,提高了文献推送的准确率,提高了信息检索的效率。
本发明可与计算机系统结合,从而更高效率完成文献推荐。
本发明创造性的提出了一种基于深度学习的用户文献阅读兴趣分析方法,进一步挖掘用户阅读兴趣,解决数据稀疏性问题,提高了文献推荐的准确率。
本发明提出的基于深度学习的用户文献阅读兴趣分析方法不但适用文献推荐,也可以适用于博客推荐、网站推荐等应用领域。
以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims (10)

1.一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,包括如下步骤:
步骤一:收集用户所有历史浏览的文档集以及浏览行为记录,根据每篇文档的浏览时长计算文献权重;
步骤二:计算每篇文档浏览时刻距离当前时刻的时间距离,将时间距离大于所设定的阈值的文档删除,得到待分析文档集;
步骤三:对待分析文档集的标题内容进行预处理得到备选词语集合,使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语;
步骤四:将从备选词语集合中过滤出反应用户阅读兴趣的词语与文档关键词集合合并得到用户阅读兴趣集合。
2.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤一中计算文献权重的具体步骤如下:
步骤1.1:定义用户历史浏览文档集,文档关键词集;
步骤1.2:收集用户历史浏览文档集并获取文档集中每篇文档的关键词;
步骤1.3:收集用户的历史记录信息,将其浏览每篇文献的时间长度进行最小-最大归一化处理,并将归一化处理后的值作为每篇文献的权重值。
3.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤二中对文献进行过滤最终得到待分析文档集的具体步骤如下:
步骤2.1:定义每篇文献开始阅读时刻距离目前的时间距离集,待分析文档集;
步骤2.2:从用户的历史记录信息中计算用户最后一次阅读每篇文献结束距离当前时刻的时长,对于时间长度低于所设定阈值的文献进行剔除,获得待分析文档集。
4.根据权利要求3所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤三中使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语的具体步骤如下:
步骤3.1:定义文档标题预处理集,文档临时关键词集,文档词语权值集,用户临时阅读偏好集;
步骤3.2:对待分析文档集中文档的关键词进行分词、取除停用词等预处理工作,将得到的词语集合存入文档标题预处理集;
步骤3.3:根据词向量模型计算每篇文档关键词语义上相近的5个词语,分别将每篇文档得到的5个词语与文档原关键词合并作为每篇文档的临时关键词;
步骤3.4:利用词向量计算每篇文档的标题预处理集中的每个词语与文档的临时关键词集中的词语相似度,将标题预处理集中每个词语与文档的临时关键词集中的词语计算出的最大相似度作为得分,同时,将每个词语的得分与所在文献的权重相乘,将结果作为每个词语的权值,最后得到标题预处理集中每个词语的权值集;
步骤3.5:对标题预处理集中每个词语的权值集中得分低于所设阈值的词语进行剔除,得到用户临时阅读偏好集合PR,若偏好集合PR中出现分别来自不同的文献重复的词语,则将词语得分进行相加作为权值。
5.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤四中得出用户阅读兴趣集合的具体步骤如下:
步骤4.1:定义用户临时阅读偏好集合FPR;
步骤4.2:保留PR中权值排名前50%的词语;
步骤4.3:将KW中的词语加入到PR中,得到用户临时阅读偏好集合FPR。
6.根据权利要求4所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤2.2中时长阈值设置为10天;步骤3.5中有效词语阈值设置为0.581。
7.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤一中计算文献权重的具体步骤如下:
步骤11:收集用户历史浏览文献集D={d1,d2,...,dG},其中,G为全局变量且为整数,表示文档集D中的文档总数;
步骤12:获取文档集D={d1,d2,...,dG}中所有文档的关键词并存入关键词集合KW={数据挖掘,信息检索,个性化,个性化推荐,粗糙集,文本分类,SVM,个性化系统,推荐系统,信息抽取,信息增益},其中,p为KW中关键词总数;
步骤13:收集用户的文献浏览行为记录,将用户对每篇文档的浏览时间进行归一化处理,所采用的归一化方法为最大-最小标准化,其公式为:norvalue=(value-minA)/(maxA-minA),其中,minA与maxA分别是用户阅读所有文献时长中的最小值与最大值,value是浏览某篇文献时长的一个原始值,norvalue为value归一化后得到的值,得到的每篇文档归一化后的值作为每篇文档关键词权重WE={r1,r2,...,rG}。
8.根据权利要求7所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤二中对文献进行过滤最终得到待分析文档集的具体步骤如下:
步骤21:定义用户最后一次阅读每篇文献的结束时刻集合LRT={lt1,lt2,...,ltG},定义NT为相同时区下的标准网络时刻,分别计算NT与LRT集合中每个时刻的时间距离,得到用户最后一次阅读每篇文献结束距离当前时刻的时长集合WET={t1,t2,...,tG};
步骤22:定义局部变量k,k赋初值为1,用于遍历WET,TP为时长阈值;
步骤23:如果k<=G,则执行步骤24,否则执行步骤27;
步骤24:如果tk<TP则执行步骤25,否则执行步骤26;
步骤25:将文献dk加入到待分析文档集RF中;
步骤26:k=k+1,执行步骤23;
步骤27:得到待分析文献集RF={d1,d2,...,dY},其中,Y为全局变量且为整数,表示文档集RF中的文档总数。
9.根据权利要求8所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤三中使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语的具体步骤如下:
步骤31:对文档集RF中的每篇文档的标题文字进行分词处理并且去除停用词,获得由每篇文档标题得到的词语集合KC={c1,c2,...,cY},其中,cY={w1,w2,...,ws},并且,设S为全局变量且为整数,表示每篇文档的标题经过分词处理与去除停用词后得到的词语总数;
步骤32:根据词向量模型计算每篇文档关键词语义上相近的5个词语,分别将每篇文档得到的5个词语与文档原关键词合并作为每篇文档的临时关键词,得到每篇文档的临时关键词集TKW={q1,q2,...,qY},其中,qY={wu1,wu2,...,wux},x为每篇文档的临时关键词总数;
步骤33:定义局部变量h,h赋初值为1,用于遍历KC;
步骤34:如果h<=Y,则执行步骤35,否则执行步骤37;
步骤35:利用词向量计算ch中词语与qh中每个词语的相似度,将ch每个词语计算得到的最大相似度作为得分,将该得分与rh相乘作为每个词语的权值,其中,ch∈KC,qh∈TKW,rh∈WE;
步骤36:h=h+1,执行步骤34;
步骤37:得到TKW中所有词语的权值SKC={sk1,sk2,...,skY},其中,skY={wk1,wk2,...,wks};
步骤38:定义局部变量a,b,a与b均赋初值为1,用于遍历SKC,有效词语阈值PVA;
步骤39:如果a<=Y,则执行步骤310,否则执行步骤315;
步骤310:如果b<=S,则执行步骤312,否则执行步骤311;
步骤311:a=a+1,执行步骤39;
步骤312:如果wkb>PVA,则执行步骤314,否则执行步骤313;
步骤313:b=b+1,执行步骤310;
步骤314:将词语wkb加入到用户临时阅读偏好集合PR中,其中,wkb∈ska
步骤315:得到用户临时阅读偏好集合PR。
10.根据权利要求9所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤四中得出用户阅读兴趣集合的具体步骤如下:
步骤41:若偏好集合PR中出现分别来自不同的文献重复的词语,则将词语得分进行相加作为权值;
步骤42:保留PR中权值排名前50%的词语;
步骤43:将KW中的词语加入到PR中,得到用户临时阅读偏好集合FPR={数据挖掘,文献检索,深度学习,LIBSVM,文本分类,SVM,个性化系统,推荐系统,大数据分析,自动摘要,信息抽取,信息增益,感知机,前馈,信息检索,个性化,个性化推荐,神经网络,词向量模型,粗糙集}。
CN201710627545.9A 2017-07-28 2017-07-28 一种基于深度学习的用户文献阅读兴趣分析方法 Active CN108280114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710627545.9A CN108280114B (zh) 2017-07-28 2017-07-28 一种基于深度学习的用户文献阅读兴趣分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710627545.9A CN108280114B (zh) 2017-07-28 2017-07-28 一种基于深度学习的用户文献阅读兴趣分析方法

Publications (2)

Publication Number Publication Date
CN108280114A true CN108280114A (zh) 2018-07-13
CN108280114B CN108280114B (zh) 2022-01-28

Family

ID=62801214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710627545.9A Active CN108280114B (zh) 2017-07-28 2017-07-28 一种基于深度学习的用户文献阅读兴趣分析方法

Country Status (1)

Country Link
CN (1) CN108280114B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190024A (zh) * 2018-08-20 2019-01-11 平安科技(深圳)有限公司 信息推荐方法、装置、计算机设备及存储介质
CN109255646A (zh) * 2018-07-27 2019-01-22 国政通科技有限公司 利用大数据进行深度学习以提供增值服务的方法、系统
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN109800434A (zh) * 2019-01-25 2019-05-24 陕西师范大学 基于眼动注意力的抽象文本标题生成方法
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN110266745A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 基于深度网络的信息流推荐方法、装置、设备及存储介质
CN110674410A (zh) * 2019-10-08 2020-01-10 北京物灵科技有限公司 用户画像构建、内容推荐方法、装置及设备
CN110990711A (zh) * 2019-05-13 2020-04-10 国家计算机网络与信息安全管理中心 基于机器学习的微信公众号推荐算法及系统
CN111046222A (zh) * 2019-04-29 2020-04-21 广东小天才科技有限公司 一种听写列表的生成方法及电子设备
CN113268683A (zh) * 2021-04-15 2021-08-17 南京邮电大学 一种基于多维度的学术文献推荐方法
CN116401309A (zh) * 2023-04-18 2023-07-07 淮阴工学院 基于局部影响力与深层偏好传播的学生个性化学习推荐方法及装置
CN116561605A (zh) * 2023-06-01 2023-08-08 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质
CN116595256A (zh) * 2023-05-22 2023-08-15 毕加展览有限公司 一种数字化展览的数据筛选与沉浸式交互的方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN106802915A (zh) * 2016-12-09 2017-06-06 宁波大学 一种基于用户行为的学术资源推荐方法
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务系统与方法
CN106886577A (zh) * 2017-01-24 2017-06-23 淮阴工学院 一种多维度网页浏览行为评估方法
CN106960025A (zh) * 2017-03-19 2017-07-18 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN106802915A (zh) * 2016-12-09 2017-06-06 宁波大学 一种基于用户行为的学术资源推荐方法
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务系统与方法
CN106886577A (zh) * 2017-01-24 2017-06-23 淮阴工学院 一种多维度网页浏览行为评估方法
CN106960025A (zh) * 2017-03-19 2017-07-18 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255646A (zh) * 2018-07-27 2019-01-22 国政通科技有限公司 利用大数据进行深度学习以提供增值服务的方法、系统
CN109190024A (zh) * 2018-08-20 2019-01-11 平安科技(深圳)有限公司 信息推荐方法、装置、计算机设备及存储介质
CN109190024B (zh) * 2018-08-20 2023-04-07 平安科技(深圳)有限公司 信息推荐方法、装置、计算机设备及存储介质
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN109800434A (zh) * 2019-01-25 2019-05-24 陕西师范大学 基于眼动注意力的抽象文本标题生成方法
CN109800434B (zh) * 2019-01-25 2023-07-18 陕西师范大学 基于眼动注意力的抽象文本标题生成方法
CN110266745B (zh) * 2019-03-08 2022-02-25 腾讯科技(深圳)有限公司 基于深度网络的信息流推荐方法、装置、设备及存储介质
CN110266745A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 基于深度网络的信息流推荐方法、装置、设备及存储介质
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN111046222A (zh) * 2019-04-29 2020-04-21 广东小天才科技有限公司 一种听写列表的生成方法及电子设备
CN110990711B (zh) * 2019-05-13 2023-05-12 国家计算机网络与信息安全管理中心 基于机器学习的微信公众号推荐方法及系统
CN110990711A (zh) * 2019-05-13 2020-04-10 国家计算机网络与信息安全管理中心 基于机器学习的微信公众号推荐算法及系统
CN110674410B (zh) * 2019-10-08 2022-05-24 北京物灵科技有限公司 用户画像构建、内容推荐方法、装置及设备
CN110674410A (zh) * 2019-10-08 2020-01-10 北京物灵科技有限公司 用户画像构建、内容推荐方法、装置及设备
CN113268683B (zh) * 2021-04-15 2023-05-16 南京邮电大学 一种基于多维度的学术文献推荐方法
CN113268683A (zh) * 2021-04-15 2021-08-17 南京邮电大学 一种基于多维度的学术文献推荐方法
CN116401309A (zh) * 2023-04-18 2023-07-07 淮阴工学院 基于局部影响力与深层偏好传播的学生个性化学习推荐方法及装置
CN116401309B (zh) * 2023-04-18 2023-09-26 淮阴工学院 基于局部影响力与深层偏好传播的学生个性化学习推荐方法及装置
CN116595256A (zh) * 2023-05-22 2023-08-15 毕加展览有限公司 一种数字化展览的数据筛选与沉浸式交互的方法与系统
CN116595256B (zh) * 2023-05-22 2023-11-03 毕加展览有限公司 一种数字化展览的数据筛选与沉浸式交互的方法与系统
CN116561605A (zh) * 2023-06-01 2023-08-08 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质
CN116561605B (zh) * 2023-06-01 2023-10-24 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质

Also Published As

Publication number Publication date
CN108280114B (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
CN108280114A (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN105005564B (zh) 一种基于问答平台的数据处理方法和装置
AU2020101885A4 (en) A Novel Tensor Factorization Using Trust and Rating for Recommendation, system and method thereof
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
US10387805B2 (en) System and method for ranking news feeds
CN110532480B (zh) 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
Ouhbi et al. Deep learning based recommender systems
CN107506472A (zh) 一种学生浏览网页分类方法
KR102091633B1 (ko) 연관법령 제공 방법
Chai et al. User-aware multi-interest learning for candidate matching in recommenders
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
Duan et al. A hybrid intelligent service recommendation by latent semantics and explicit ratings
Sharma et al. Intelligent data analysis using optimized support vector machine based data mining approach for tourism industry
Hoang et al. Academic event recommendation based on research similarity and exploring interaction between authors
Park et al. Automatic extraction of user’s search intention from web search logs
Clarizia et al. A sentiment analysis approach for evaluation of events in field of cultural heritage
CN113407729A (zh) 一种面向司法的个性化案例推荐方法及系统
CN110162580A (zh) 基于分布式预警平台的数据挖掘与深度分析方法及应用
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
Nguyen et al. Pagerank-based approach on ranking social events: a case study with flickr
Han et al. An extracting method of movie genre similarity using aspect-based approach in social media
Narwal et al. Entropy based content filtering for mobile web page adaptation
Liu Convolutional Neural Network based Matchmaking for Service Oriented System Construction
Vigneshwari et al. An ontological approach for effective knowledge engineering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230412

Address after: 1209-41, 12th Floor, Building 3, Yard 20, Guogongzhuang Middle Street, Fengtai District, Beijing, 100000

Patentee after: Beijing Qichuang Technology Co.,Ltd.

Address before: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee before: Dragon totem Technology (Hefei) Co.,Ltd.

Effective date of registration: 20230412

Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Dragon totem Technology (Hefei) Co.,Ltd.

Address before: 223005 Jiangsu Huaian economic and Technological Development Zone, 1 East Road.

Patentee before: HUAIYIN INSTITUTE OF TECHNOLOGY