CN108897843A - 一种基于中心法的文本自适应推荐方法 - Google Patents

一种基于中心法的文本自适应推荐方法 Download PDF

Info

Publication number
CN108897843A
CN108897843A CN201810680522.9A CN201810680522A CN108897843A CN 108897843 A CN108897843 A CN 108897843A CN 201810680522 A CN201810680522 A CN 201810680522A CN 108897843 A CN108897843 A CN 108897843A
Authority
CN
China
Prior art keywords
text
high frequency
frequency words
retrieval
analogy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810680522.9A
Other languages
English (en)
Other versions
CN108897843B (zh
Inventor
尹积栋
彭崧
汪文俊
谢茶花
邬慰娟
刘红
曾昭虎
肖小春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jian College
Original Assignee
Jian College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jian College filed Critical Jian College
Priority to CN201810680522.9A priority Critical patent/CN108897843B/zh
Publication of CN108897843A publication Critical patent/CN108897843A/zh
Application granted granted Critical
Publication of CN108897843B publication Critical patent/CN108897843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于中心法的文本自适应推荐方法,以中心法检索为基础,对文本进行高频词自适归集和再次检索,归集后的高频词进行精准性推荐和相关性推荐。解决了现有技术中检索反馈信号过度集中或针对性差的技术问题。

Description

一种基于中心法的文本自适应推荐方法
技术领域
本发明涉及基于关键词的自适应推荐方法,特别是指一种基于中心法的文本自适应推荐方法。
背景技术
在文本阅读中,根据需求词汇进行检索是一种常见的检索方式。然而检索实际是对信息理解或知晓不足而导致的信息需求,基于信息量的不足的情况下,需要对基于本信息的内容进行随大流地知晓相同的声音,了解信息市场及周边信息的响应情况;又或者我们对信息需求知之而又需要了解到一些不清楚又要对信息量进行深挖的技术。
有鉴于些,提供一种适于人们检索习性,而又能精确挖掘检索信息和分散覆盖周边信息的文本检索方式成为必要。
发明内容
本发明提出一种基于中心法的文本自适应推荐方法,解决了现有技术中检索反馈信号过度集中或针对性差的技术问题。
本发明的技术方案是这样实现的:一种基于中心法的文本自适应推荐方法,本以中心法检索为基础,对文本进行高频词自适归集和再次检索,归集后的高频词进行精准性推荐和相关性推荐。
将获取到的关键词进行首次检索,从首次检索得到文件中随机抽取N项文本,将N项文本进行文本类比得到第一类比高频词。
将第一类比出高频词与关键词组合进行第二次检索,从检索得到文件中随机抽取N项文本类比出第二次高频词,
第二高频词与关键词组合进行检索类比出第三高频词,
第一高频词、第二高频词、第三高频词同时进行检索得到高频检索文本,从高频文本中进行二次关键词检索,将检索得到文本进行推荐,将高频文本中不含关键词的文本进行相关性推荐。
文本类比为将文本内容进行使用次数加权,其中加权方式包括单文本加权和多文本加权。
单文本加权有多个文本视为高频词时,将其定义为高频词。
单文本加权有多文本多词为高频词时,结合多文本加权定义高频词。
当文本检索量少于预定义N值时,进行多文本加权定义高频词。
多文本加权为将单文本中高频词的权重相叠加,最高权重词定义为高频词。
根据权利要求1所述的推荐方法,其特征在于:
当高频词有重合或不足时,第二次获取高频词。
类比出的高频词为一项及其以上。
与现有技术相比,本发明提供的一种基于中心法的文本自适应推荐方法,以中心法检索为基础,对文本进行高频词自适归集和再次检索,归集后的高频词进行精准性推荐和相关性推荐。
具体实施方式
下面将结合本发明实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的一种基于中心法的文本自适应推荐方法,本以中心法检索为基础,对文本进行高频词自适归集和再次检索,归集后的高频词进行精准性推荐和相关性推荐。
将获取到的关键词进行首次检索,从首次检索得到文件中随机抽取N项文本,将N项文本进行文本类比得到第一类比高频词。
将第一类比出高频词与关键词组合进行第二次检索,从检索得到文件中随机抽取N项文本类比出第二次高频词,
第二高频词与关键词组合进行检索类比出第三高频词,
第一高频词、第二高频词、第三高频词同时进行检索得到高频检索文本,从高频文本中进行二次关键词检索,将检索得到文本进行推荐,将高频文本中不含关键词的文本进行相关性推荐。
文本类比为将文本内容进行使用次数加权,其中加权方式包括单文本加权和多文本加权。
单文本加权有多个文本视为高频词时,将其定义为高频词。
单文本加权有多文本多词为高频词时,结合多文本加权定义高频词。
当文本检索量少于预定义N值时,进行多文本加权定义高频词。
多文本加权为将单文本中高频词的权重相叠加,最高权重词定义为高频词。
根据权利要求1所述的推荐方法,其特征在于:
当高频词有重合或不足时,第二次获取高频词。
类比出的高频词为一项及其以上。
将首次检索文本及第二次检索文本进行第二次类比,类比出第二高频词,当取非第一高频词为第三次检索,将第一次检索文本、第二次检索文本和第三次检索文本分别随机Z项推荐至前端。多高频词使用频率较为相近时,进行单文本加权,
首次检索、第二次检索和第三次检索及高频检索基于中心法计算检索。
相关性推荐以随机性抽选方式推荐。
具有多词在多文本中为高频词时,以多文本加权确定多文本高频词
对文本进行常规检索,并对检索信息进行分析,对文本中高频词即高权次词随机抽取方法进行抽取。对任一文本中内容进行拆解和归权,剔除习惯用词和单一文本中出现的高频词。经过多次训练高频词,使得高频词更有广度和深度,从而推荐的信息具有密切性。多次训练的深挖掘词,进行检索,使得信息不局限于当前关键词。从相关性文本中进行关键词的检索,使得文本具有相关领域内的广泛性和具化性,易于找到想到的文本,同时通过非关键词文本进行推荐,可为检索带来未知识思维或文本体系内容,二者相相辅相成,具有重要意义。
文本类比为将文本内容进行使用次数加权,其中加权方式包括单文本加权和多文本加权。加权即为常见词进行权重化,尤其为名词权重进行起始值权利量优化或叠加权重质的基数阶梯化,使得检索结果的有效性更优化。
单文本加权有多个文本视为高频词时,将其定义为高频词。单文本加权有多文本多词为高频词时,结合多文本加权定义高频词。当文本检索量少于预定义N值时,进行多文本加权定义高频词。多文本加权为将单文本中高频词的权重相叠加,最高权重词定义为高频词。当高频词有重合或不足时,第二次获取高频词。类比出的高频词为一项及其以上。对文本加权进行具象化。
与现有技术相比,本发明提供的一种基于中心法的文本自适应推荐方法,以中心法检索为基础,对文本进行高频词自适归集和再次检索,归集后的高频词进行精准性推荐和相关性推荐。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于中心法的文本自适应推荐方法,所述推荐方法基于存储设备,其特征在于:
将获取到的关键词进行自动首次检索,从首次检索得到文件中随机抽取N项文本,将N项文本进行文本类比得到第一类比高频词;
将第一类比出高频词与关键词组合进行第二次检索,从检索得到文件中随机抽取N项文本类比出第二类比高频词;
将第二类比出高频词与关键词组合进行第三次检索,从检索得到文件中随机抽取N项文本类比出第三类比高频词;
第一类比高频词、第二类比高频词、第三类比高频词同时进行检索得到高频检索文本,从高频文本中进行二次关键词检索,将检索得到文本进行推荐,将高频文本中不含关键词的文本进行相关性推荐。
2.根据权利要求1所述的一种基于中心法的文本自适应推荐方法,其特征在于:
文本类比为将文本内容进行使用次数加权,其中加权方式包括单文本加权和多文本加权。
3.根据权利要求2所述的一种基于中心法的文本自适应推荐方法,其特征在于:
单文本加权有多个文本视为高频词时,将其定义为高频词。
4.根据权利要求2所述的一种基于中心法的文本自适应推荐方法,其特征在于:
单文本加权有多文本多词为高频词时,结合多文本加权定义高频词。
5.根据权利要求2所述的一种基于中心法的文本自适应推荐方法,其特征在于:
当文本检索量少于预定义N值时,进行多文本加权定义高频词。
6.根据权利要求4或5所述的一种基于中心法的文本自适应推荐方法,其特征在于:
多文本加权为将单文本中高频词的权重相叠加,最高权重词定义为高频词。
7.根据权利要求1所述的一种基于中心法的文本自适应推荐方法,其特征在于:
当高频词有重合或不足时,第二次获取高频词。
8.根据权利要求1所述的一种基于中心法的文本自适应推荐方法,其特征在于:
类比出的高频词为一项及其以上。
CN201810680522.9A 2018-06-27 2018-06-27 一种基于中心法的文本自适应推荐方法 Active CN108897843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810680522.9A CN108897843B (zh) 2018-06-27 2018-06-27 一种基于中心法的文本自适应推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810680522.9A CN108897843B (zh) 2018-06-27 2018-06-27 一种基于中心法的文本自适应推荐方法

Publications (2)

Publication Number Publication Date
CN108897843A true CN108897843A (zh) 2018-11-27
CN108897843B CN108897843B (zh) 2021-12-24

Family

ID=64346714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810680522.9A Active CN108897843B (zh) 2018-06-27 2018-06-27 一种基于中心法的文本自适应推荐方法

Country Status (1)

Country Link
CN (1) CN108897843B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6154737A (en) * 1996-05-29 2000-11-28 Matsushita Electric Industrial Co., Ltd. Document retrieval system
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
FR2949033A1 (fr) * 2009-08-07 2011-02-11 Sagem Securite Procede de recherche d'une entite a l'aide d'un dispositif verificateur et dispositifs associes
US20120117082A1 (en) * 2010-11-05 2012-05-10 Koperda Frank R Method and system for document classification or search using discrete words
CN102663123A (zh) * 2012-04-20 2012-09-12 哈尔滨工业大学 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统
CN103002051A (zh) * 2012-12-24 2013-03-27 百度在线网络技术(北京)有限公司 移动终端的信息推送方法、系统及云端服务器
CN103744866A (zh) * 2013-12-18 2014-04-23 北京百度网讯科技有限公司 一种搜索方法与装置
CN106599082A (zh) * 2016-11-21 2017-04-26 北京金山安全软件有限公司 一种检索方法、相关装置及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6154737A (en) * 1996-05-29 2000-11-28 Matsushita Electric Industrial Co., Ltd. Document retrieval system
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
FR2949033A1 (fr) * 2009-08-07 2011-02-11 Sagem Securite Procede de recherche d'une entite a l'aide d'un dispositif verificateur et dispositifs associes
US20120117082A1 (en) * 2010-11-05 2012-05-10 Koperda Frank R Method and system for document classification or search using discrete words
CN102663123A (zh) * 2012-04-20 2012-09-12 哈尔滨工业大学 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统
CN103002051A (zh) * 2012-12-24 2013-03-27 百度在线网络技术(北京)有限公司 移动终端的信息推送方法、系统及云端服务器
CN103744866A (zh) * 2013-12-18 2014-04-23 北京百度网讯科技有限公司 一种搜索方法与装置
CN106599082A (zh) * 2016-11-21 2017-04-26 北京金山安全软件有限公司 一种检索方法、相关装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
岑咏华等: "关联推荐及其在学术资源检索网站中的应用研究", 《图书情报工作》 *
张晗等: "中文临床治疗学文献的检索方法学探讨", 《中国循证医学杂志》 *
黄震华等: "基于排序学习的推荐算法研究综述", 《软件学报》 *

Also Published As

Publication number Publication date
CN108897843B (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
West et al. Human wayfinding in information networks
Leung et al. Personalized web search with location preferences
Halteren Author verification by linguistic profiling: An exploration of the parameter space
Llewellyn et al. Summarizing newspaper comments
CN102929873A (zh) 一种基于情境搜索提取搜索价值词的方法及装置
Baumel et al. Topic concentration in query focused summarization datasets
Dong et al. A natural language question answering system as a participant in human Q&A portals
CN102662987B (zh) 一种基于百度百科的网络文本语义的分类方法
Cuadros et al. Quality assessment of large scale knowledge resources
Zhang et al. Double retrieval and ranking for accurate question answering
Kane et al. Do the communities we choose shape our political beliefs? A study of the politicization of topics in online social groups
Haribhakta et al. Unsupervised topic detection model and its application in text categorization
Rao et al. Taxonomy based personalized news recommendation: Novelty and diversity
CN108897843A (zh) 一种基于中心法的文本自适应推荐方法
Glauber et al. A mixed hybrid recommender system for given names
Pavlović-Lažetić et al. Ontology-driven conceptual document classification
Hu et al. Error analysis of difficult TREC topics
Tamang et al. Adding smarter systems instead of human annotators: re-ranking for system combination
Ganesh et al. Exploiting structure and content of wikipedia for query expansion in the context
Gómez et al. Concept indexing for automated text categorization
Balbi et al. Visualization techniques for non symmetrical relations
Kim et al. Evaluating an associative browsing model for personal information
Kopparapu et al. Automatic ranking of essays using structural and semantic features
Zheng et al. Research on domain term extraction based on conditional random fields
Cheng et al. Eliciting answers on stackoverflow

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant