CN103530344A - 一种基于改进的tf-idf方法的检索词实时修正方法 - Google Patents

一种基于改进的tf-idf方法的检索词实时修正方法 Download PDF

Info

Publication number
CN103530344A
CN103530344A CN201310464625.9A CN201310464625A CN103530344A CN 103530344 A CN103530344 A CN 103530344A CN 201310464625 A CN201310464625 A CN 201310464625A CN 103530344 A CN103530344 A CN 103530344A
Authority
CN
China
Prior art keywords
keyword
text
user
idf
text collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310464625.9A
Other languages
English (en)
Inventor
陈雪
汤文清
王鹏
高英虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201310464625.9A priority Critical patent/CN103530344A/zh
Publication of CN103530344A publication Critical patent/CN103530344A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于改进的TF-IDF方法的检索词实时修正方法,该方法步骤为:(1)用户输入检索词,计算机系统对所有的检索资源搜索,返回给用户检索结果,将当前页面结果中包含检索词的文本组成文本集合;(2)下载用户想要的文本;(3)由下载的文本集合生成关键词集合W;(4)采用改进后的TF-IDF方法计算关键词集合W中各关键词的TF-IDF值;(5)选出TF-IDF值最大的关键词,记为r;(6)使用关键词r修正用户输入的检索词,在用户点击下一个网页时,使用新的检索词进行检索,并返回检索结果。本发明能在检索过程中逐步的帮助用户检索到所要的文本,从而使用户检索的过程更加高效和准确,提高用户检索效率和质量。

Description

一种基于改进的TF-IDF方法的检索词实时修正方法
技术领域
本发明涉及一种计算机实时修正用户的检索词的方法,更具体地说,涉及一种基于改进的TF-IDF方法的检索词实时修正方法,该方法是利用改进的TF-IDF方法从下载的文档中选出合适的关键词对用户输入的检索词进行实时修正的方法。 
背景技术
在中国专利说明书中公开了一种“文本关键词的提取方法”(专利申请号:200710041150. 7),该方法指出“在利用TF-IDF方法提取文本关键词的基础上,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词”,该方法能避免一个关键词在一篇文档中频繁出现,而导致绝对词频很高被错误地计入领域关键词。此外,该方法也可以有效地提高单篇文本的关键词提取精度,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。然而,上述方法在提取领域关键词时,需要搜索大量的领域文本才能保证提取关键词的准确度。因而,当用户搜索大量的领域文本时,就会造成其搜索效率低;但当用户搜索较少的领域文本时,又会影响提取关键词的准确度。 
发明内容
本发明的目的在于,针对现有技术的不足,提出一种基于改进的TF-IDF方法的检索词实时修正方法,该方法采用改进的TF-IDF方法选出最能表达用户需求的关键词,然后对用户的输入检索词进行修正,再进行检索,从而提高用户的搜索效率。 
为达到上述目的,本发明采用下述技术方案:                                      
一种基于改进的TF-IDF方法的检索词实时修正方法,该方法通过对一次检索中,用户已下载的文本所组成的关键词集合,利用改进的TF-IDF方法对上述关键词集合进行处理,得到最靠近用户检索目标的关键词,然后使用最靠近用户检索目标的关键词对用户的输入检索词进行修改,再进行检索,其具体步骤如下:
(1)、用户输入检索词,计算机系统对所有的检索资源搜索,系统返回给用户首个网页的搜索结果,将当前页面结果中包含检索词的文本组成文本集合,该文本集合记为A;
(2)、用户判断文本集合A中是否存在用户想要的文本,如果存在,则下载用户想要的文本,转步骤(3);如果不存在,则跳转到步骤(1);
(3)、提取步骤(2)中所有用户想要下载的文本组成想要的文本集合,根据上述想要的文本集合生成关键词集合,该关键词集合记为W;
(4)、采用改进后的TF-IDF方法计算上述关键词的集合W中各关键词的TF-IDF值;
(5)、从关键词集合W中,选出TF-IDF值中最大的关键词,记为关键词r;
(6)、利用关键词r修正用户的输入检索词,生成新的检索词,当用户点击下一页时,返回由新的检索词检索到的结果。
上述步骤(3)所述的提取步骤(2)中所有用户想要下载的文本,组成想要的文本集合,该想要的文本集合中所生成关键词集合W,其步骤如下: 
 (3-1)、将步骤(2)中用户下载的文本组成想要的文本集合,该想要的文本集合记为D;
(3-2)、根据想要的文本集合D提取关键词集合,该关键词集合记为WD;
(3-3)、统计出关键词集合WD中每个关键词在文本集合A和文本集合D中的篇频;
(3-4)、去掉在文本集合A中篇频为1的关键词,剩余的关键词组成新的关键词集合,该新的关键词集合记为W。
上述步骤(4)中所述的采用改进后的TF-IDF方法计算关键词集合W中各关键词的TFi和TF-IDF值,其步骤如下: 
(4-1)、采用改进后的TF-IDF公式,计算关键词                                                   
Figure 2013104646259100002DEST_PATH_IMAGE001
的TFi值,TFi的计算公式为:   
                              (1)
其中,TFi为文本集合D中,文本出现关键词   
Figure 875385DEST_PATH_IMAGE002
的频率,    
Figure 612397DEST_PATH_IMAGE002
为关键词集合W中第i个关键词,是指文本集合D中的第j篇文本,   
Figure 2013104646259100002DEST_PATH_IMAGE003
表示在文本集合D中出现关键词   
Figure 135782DEST_PATH_IMAGE002
的文件数,|D|表示下载文本集合D中的文件数;
(4-2)、采用改进后的TF-IDF公式,计算关键词   
Figure 893523DEST_PATH_IMAGE002
的IDF值,IDFi的计算公式为:
          
Figure 135148DEST_PATH_IMAGE004
                   (2)
其中,|A|表示当前网页中包含检索词的所组成的文本集合A的文本数,
Figure 284365DEST_PATH_IMAGE007
是指文本集合A中的第j篇文本,   
Figure 2013104646259100002DEST_PATH_IMAGE005
 表示文本集合A中包含关键词   
Figure 410272DEST_PATH_IMAGE002
的文本数,IDFi为文本集合A包含关键词
Figure 644120DEST_PATH_IMAGE003
的逆文本频率。
(4-3)、采用改进后的   
Figure 53743DEST_PATH_IMAGE006
公式,计算关键词集合W中各个关键词的TF-IDF值,   
Figure 2013104646259100002DEST_PATH_IMAGE007
 的计算公式为: 
Figure 451226DEST_PATH_IMAGE008
=   
Figure 2013104646259100002DEST_PATH_IMAGE009
*   
Figure 180147DEST_PATH_IMAGE010
                        (3)
本发明的所提出的一种基于改进的TF-IDF方法的检索词实时修正方法与现有技术相比校,具有如下特点:本发明是利用用户当前网页搜索下载的文本,采用基于改进的TF-IDF方法选出TF-IDF值最大的关键词,而TF-IDF值最大的关键词也就是最靠近用户检索目标的关键词,即根据用户已下载的文本集合和返回结果的全部文本集中进行判断,选出TF-IDF值最大的关键词,该关键词就是最靠近用户检索目标的关键词,或者说是最能表达用户检索目标的关键词,然后对用户的检索词进行修正,当用户翻页时使用新的检索词进行检索,并返回给用户新的更准确的修正结果。该方法选取的所有关键词文本集合是前一网页搜索结果,而非全部领域文本集合,即能准确地反映出用户实时的需求。以往的搜索引擎一旦返回给用户搜索结果后,就不再与用户有交互修正检索词,因此,难以准确地捕抓用户的检索目标。而本发明的检索词实时修正方法,利用用户的在当前页面上的下载行为,再采用改进的TF-IDF方法分析,提取出合适的关键词进行修正,如此循环,与用户的一次次交互后,返回的结果将越来越靠近用户的检索目标,极大地提高了检索效率。
附图说明
图1是本发明的一种基于改进的TF-IDF方法的检索词实时修正方法的流程图。 
具体实施方式
以下结合附图对本发明的实施例做详述的说明: 
本发明的一种基于改进的TF-IDF方法的检索词实时修正方法,如图1所示,其具体步骤如下:
(1)、假设当前用户输入检索词为“云计算”,搜索引擎给出的首个网页内包含关键词的文本
Figure DEST_PATH_IMAGE016
Figure 640392DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
Figure 2013104646259100002DEST_PATH_IMAGE019
组成文本集合,记为A,例如,该文本集合A为20篇文本的集合;
(2)、用户根据自己的意图,判断文本集合A中是否存在用户想要下载的文本。最终,用户共下载了3篇用户想要的文本; (3)、提取步骤(2)中所有用户想要下载的文本,组成想要的文本集合,并由该文本集合提取出关键词集合,该关键词集合记为W,其具体过程如下:
(3-1)、根据上述3篇用户想要下载的文本组成想要的文本集合D;
(3-2)、根据想要的文本集合D得到三个关键词集合WD,该集合中关键词分别为:云计算、云服务、云安全;
(3-3)、统计出关键词集合WD中每个关键词在文本集合A和文本集合D中的篇频。例如,统计关键词集合WD在文本集合A和文本集合D中出现的次数,如表1所示:
表1:关键词“云计算”、“云服务”、“云安全”在不同文本范围内出现的参数
关键词 在下载的3篇文本中包含关键词的篇数 在该页20篇文本中包含关键词的篇数
云计算 3 20
云服务 3 5
云安全 1 6
(3-4)去掉关键词WD中关键词在文本集合A中篇频为1的关键词,剩余的关键词构成新的关键词集合,记为关键词集合W,如表1所示,在文本集合A中,包含三个关键词的篇频均大于1,不需要删去关键词,关键词“云计算”、“云服务”、“云安全”构成关键词集合W。
(4)、使用改进后的TF-IDF方法分别计算关键词集合W中“云计算” 、“云服务” 、“云安全”关键词的TF-IDF值,其计算过程如下: 
(4-1)、采用改进后的TF-IDF公式,计算关键词   的TFi值,TFi的计算公式为:   
      
Figure 258962DEST_PATH_IMAGE012
                  (1)
如表1所示参数,按公式(1)分别计算关键词“云计算”、“云服务”、“云安全”的TF值,分别如下:
Figure 2013104646259100002DEST_PATH_IMAGE013
Figure 317791DEST_PATH_IMAGE014
Figure 2013104646259100002DEST_PATH_IMAGE015
(4-2)、采用改进后的TF-IDF公式,计算关键词   
Figure 89438DEST_PATH_IMAGE002
的IDF值,IDFi的计算公式为:
                
Figure 40077DEST_PATH_IMAGE004
                 (2)
如表1所示参数,按公式(2)分别计算关键词“云计算”、“云服务”、“云安全”的IDF值:
Figure 190507DEST_PATH_IMAGE027
 
Figure 2013104646259100002DEST_PATH_IMAGE017
(4-3)、采用改进后的   
Figure 337383DEST_PATH_IMAGE018
公式,计算关键词集合W中各个关键词的TF-IDF值,   
Figure 279931DEST_PATH_IMAGE019
 的计算公式为:
Figure DEST_PATH_IMAGE020
=   
Figure 717866DEST_PATH_IMAGE009
*   
Figure 200800DEST_PATH_IMAGE010
                     (3)
如表1所示参数,按公式(3).分别计算出关键词“云计算”、“云服务”、“云安全”的TF-IDF值,“云计算”、“云服务”、“云安全”的TF-IDF值分别为1、4、1.1;
(5)、从关键词集合W中,选出TF-IDF值最大的关键词,记为r, 其中 “云服务”的TF-IDF值最大,因此,选出的关键词r为“云服务”;
(6)、利用关键词“云服务”,修正用户的 检索词“云计算”,生成新的检索词“云计算 云服务”,在用户点击下一页时,返回由新检索词检索到的结果。 

Claims (3)

1.一种基于改进的TF-IDF方法的检索词实时修正方法,该方法通过对一次检索中,用户已下载的文本所组成的关键词集合,利用改进的TF-IDF方法对上述关键词集合进行处理,得到最靠近用户检索目标的关键词,然后使用最靠近用户检索目标的关键词对用户的输入检索词进行修改,再进行检索,其具体步骤如下:
(1)、用户输入检索词,计算机系统对所有的检索资源搜索,系统返回给用户首个网页的搜索结果,将当前页面结果中包含检索词的文本组成文本集合,该文本集合记为A;
(2)、用户判断文本集合A中是否存在用户想要的文本,如果存在,则下载用户想要的文本,转步骤(3);如果不存在,则跳转到步骤(1);
(3)、提取步骤(2)中所有用户想要下载的文本组成想要的文本集合,根据上述想要的文本集合生成关键词集合,该关键词集合记为W;
(4)、采用改进后的TF-IDF方法计算上述关键词的集合W中各关键词的TF-IDF值;
(5)、从关键词集合W中,选出TF-IDF值中最大的关键词,记为关键词r;
(6)、利用关键词r修正用户的输入检索词,生成新的检索词,当用户点击下一页时,返回由新的检索词检索到的结果。
2.根据权利要求1所述的一种基于改进的TF-IDF方法的检索词实时修正方法,其特征在于上述步骤(3)所述的提取步骤(2)中所有用户想要下载的文本,组成想要的文本集合,该想要的文本集合中所生成关键词集合W,其步骤如下:
 (3-1)、将步骤(2)中用户下载的文本组成想要的文本集合,该想要的文本集合记为D;
(3-2)、根据想要的文本集合D提取关键词集合,该关键词集合记为WD;
(3-3)、统计出关键词集合WD中每个关键词在文本集合A和文本集合D中的篇频;
(3-4)、去掉在文本集合A中篇频为1的关键词,剩余的关键词组成新的关键词集合,该新的关键词集合记为W。
3.根据权利要求2所述的一种基于改进的TF-IDF方法的检索词实时修正方法,其特征在于上述步骤(4)所述的采用改进后的TF-IDF方法计算关键词集合W中各关键词的TFi和TF-IDF值,其步骤如下:
(4-1)、采用改进后的TF-IDF公式,计算关键词                                                   
Figure 2013104646259100001DEST_PATH_IMAGE001
的TFi值,TFi的计算公式为:   
                              (1)
其中,TFi为文本集合D中,文本出现关键词   
Figure 49679DEST_PATH_IMAGE002
的频率,    为关键词集合W中第i个关键词,   
Figure 2013104646259100001DEST_PATH_IMAGE003
是指文本集合D中的第j篇文本,   
Figure 307409DEST_PATH_IMAGE004
表示在文本集合D中出现关键词   
Figure 702618DEST_PATH_IMAGE002
的文件数,|D|表示下载文本集合D中的文件数;
(4-2)、采用改进后的TF-IDF公式,计算关键词   的IDF值,IDFi的计算公式为:
                             (2)
其中,|A|表示当前网页中包含检索词的所组成的文本集合A的文本数,
Figure DEST_PATH_IMAGE014
是指文本集合A中的第j篇文本,    表示文本集合A中包含关键词   的文本数,IDFi为文本集合A包含关键词   
Figure 668803DEST_PATH_IMAGE002
的逆文本频率。
(4-3)、采用改进后的   
Figure 867703DEST_PATH_IMAGE008
公式,计算关键词集合W中各个关键词的TF-IDF值,   
Figure 2013104646259100001DEST_PATH_IMAGE009
 的计算公式为:
Figure 536582DEST_PATH_IMAGE010
=   
Figure 2013104646259100001DEST_PATH_IMAGE011
*   
Figure 592262DEST_PATH_IMAGE012
                        (3)。
CN201310464625.9A 2013-10-09 2013-10-09 一种基于改进的tf-idf方法的检索词实时修正方法 Pending CN103530344A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310464625.9A CN103530344A (zh) 2013-10-09 2013-10-09 一种基于改进的tf-idf方法的检索词实时修正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310464625.9A CN103530344A (zh) 2013-10-09 2013-10-09 一种基于改进的tf-idf方法的检索词实时修正方法

Publications (1)

Publication Number Publication Date
CN103530344A true CN103530344A (zh) 2014-01-22

Family

ID=49932353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310464625.9A Pending CN103530344A (zh) 2013-10-09 2013-10-09 一种基于改进的tf-idf方法的检索词实时修正方法

Country Status (1)

Country Link
CN (1) CN103530344A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760549A (zh) * 2016-03-22 2016-07-13 南京邮电大学 基于属性图模型的近邻查询方法
WO2017193865A1 (zh) * 2016-05-09 2017-11-16 广州神马移动信息科技有限公司 一种信息搜索方法及装置
WO2019091026A1 (zh) * 2017-11-10 2019-05-16 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器及计算机可读存储介质
CN113192584A (zh) * 2021-03-30 2021-07-30 深圳市圣格灵科技有限公司 一种远程病案查阅系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
US20110264655A1 (en) * 2010-04-22 2011-10-27 Microsoft Corporation Location context mining
CN103336765A (zh) * 2013-06-20 2013-10-02 上海大学 一种文本关键词的马尔可夫矩阵离线修正方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
US20110264655A1 (en) * 2010-04-22 2011-10-27 Microsoft Corporation Location context mining
CN103336765A (zh) * 2013-06-20 2013-10-02 上海大学 一种文本关键词的马尔可夫矩阵离线修正方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
华山大师兄: "TF-IDF及其算法", 《博客园,HTTP://WWW.CNBLOGS.COM/BIYEYMYHJOB/ARCHIVE/2012/07/17/2595249.HTML》 *
薛征: "基于改进TF-IDF的文本信息热点话题发现", 《中国优秀硕士学位论文全文数据库信息科技辑 》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760549A (zh) * 2016-03-22 2016-07-13 南京邮电大学 基于属性图模型的近邻查询方法
CN105760549B (zh) * 2016-03-22 2019-01-18 南京邮电大学 基于属性图模型的近邻查询方法
WO2017193865A1 (zh) * 2016-05-09 2017-11-16 广州神马移动信息科技有限公司 一种信息搜索方法及装置
WO2019091026A1 (zh) * 2017-11-10 2019-05-16 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器及计算机可读存储介质
CN113192584A (zh) * 2021-03-30 2021-07-30 深圳市圣格灵科技有限公司 一种远程病案查阅系统

Similar Documents

Publication Publication Date Title
KR102080362B1 (ko) 쿼리 확장
CN102426610B (zh) 微博搜索排名方法及微博搜索引擎
US20150356072A1 (en) Method and Apparatus of Matching Text Information and Pushing a Business Object
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN102521321B (zh) 基于检索词歧义性和用户偏好的视频搜索方法
CN103778251B (zh) 面向大规模rdf图数据的sparql并行查询方法
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN103838785A (zh) 一种专利领域的垂直搜索引擎
CN104050235A (zh) 基于集合选择的分布式信息检索方法
CN103123653A (zh) 基于贝叶斯分类学习的搜索引擎检索排序方法
CN103365910A (zh) 一种信息检索的方法和系统
CN103150663A (zh) 一种网络投放数据投放的方法和装置
CN104281565B (zh) 语义词典构建方法和装置
CN111522905A (zh) 一种基于数据库的文档搜索方法和装置
CN103530344A (zh) 一种基于改进的tf-idf方法的检索词实时修正方法
CN104915405A (zh) 一种基于多层次的微博查询扩展方法
CN104376115A (zh) 一种基于全局搜索的模糊词确定方法及装置
CN103744954A (zh) 一种词关联网模型的构建方法及其构建器
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN102999521B (zh) 一种识别搜索需求的方法和装置
CN103336765B (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
CN107229714B (zh) 一种基于分布式数据库的全文搜索引擎
CN103853771B (zh) 一种搜索结果的推送方法及系统
CN102799686A (zh) 基于云平台的水利信息垂直搜索方法
CN106649883B (zh) 一种跨语言的主题网站自动发现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140122