CN103530344A - 一种基于改进的tf-idf方法的检索词实时修正方法 - Google Patents
一种基于改进的tf-idf方法的检索词实时修正方法 Download PDFInfo
- Publication number
- CN103530344A CN103530344A CN201310464625.9A CN201310464625A CN103530344A CN 103530344 A CN103530344 A CN 103530344A CN 201310464625 A CN201310464625 A CN 201310464625A CN 103530344 A CN103530344 A CN 103530344A
- Authority
- CN
- China
- Prior art keywords
- keyword
- text
- user
- idf
- text collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进的TF-IDF方法的检索词实时修正方法,该方法步骤为:(1)用户输入检索词,计算机系统对所有的检索资源搜索,返回给用户检索结果,将当前页面结果中包含检索词的文本组成文本集合;(2)下载用户想要的文本;(3)由下载的文本集合生成关键词集合W;(4)采用改进后的TF-IDF方法计算关键词集合W中各关键词的TF-IDF值;(5)选出TF-IDF值最大的关键词,记为r;(6)使用关键词r修正用户输入的检索词,在用户点击下一个网页时,使用新的检索词进行检索,并返回检索结果。本发明能在检索过程中逐步的帮助用户检索到所要的文本,从而使用户检索的过程更加高效和准确,提高用户检索效率和质量。
Description
技术领域
本发明涉及一种计算机实时修正用户的检索词的方法,更具体地说,涉及一种基于改进的TF-IDF方法的检索词实时修正方法,该方法是利用改进的TF-IDF方法从下载的文档中选出合适的关键词对用户输入的检索词进行实时修正的方法。
背景技术
在中国专利说明书中公开了一种“文本关键词的提取方法”(专利申请号:200710041150. 7),该方法指出“在利用TF-IDF方法提取文本关键词的基础上,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词”,该方法能避免一个关键词在一篇文档中频繁出现,而导致绝对词频很高被错误地计入领域关键词。此外,该方法也可以有效地提高单篇文本的关键词提取精度,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。然而,上述方法在提取领域关键词时,需要搜索大量的领域文本才能保证提取关键词的准确度。因而,当用户搜索大量的领域文本时,就会造成其搜索效率低;但当用户搜索较少的领域文本时,又会影响提取关键词的准确度。
发明内容
本发明的目的在于,针对现有技术的不足,提出一种基于改进的TF-IDF方法的检索词实时修正方法,该方法采用改进的TF-IDF方法选出最能表达用户需求的关键词,然后对用户的输入检索词进行修正,再进行检索,从而提高用户的搜索效率。
为达到上述目的,本发明采用下述技术方案:
一种基于改进的TF-IDF方法的检索词实时修正方法,该方法通过对一次检索中,用户已下载的文本所组成的关键词集合,利用改进的TF-IDF方法对上述关键词集合进行处理,得到最靠近用户检索目标的关键词,然后使用最靠近用户检索目标的关键词对用户的输入检索词进行修改,再进行检索,其具体步骤如下:
(1)、用户输入检索词,计算机系统对所有的检索资源搜索,系统返回给用户首个网页的搜索结果,将当前页面结果中包含检索词的文本组成文本集合,该文本集合记为A;
(2)、用户判断文本集合A中是否存在用户想要的文本,如果存在,则下载用户想要的文本,转步骤(3);如果不存在,则跳转到步骤(1);
(3)、提取步骤(2)中所有用户想要下载的文本组成想要的文本集合,根据上述想要的文本集合生成关键词集合,该关键词集合记为W;
(4)、采用改进后的TF-IDF方法计算上述关键词的集合W中各关键词的TF-IDF值;
(5)、从关键词集合W中,选出TF-IDF值中最大的关键词,记为关键词r;
(6)、利用关键词r修正用户的输入检索词,生成新的检索词,当用户点击下一页时,返回由新的检索词检索到的结果。
上述步骤(3)所述的提取步骤(2)中所有用户想要下载的文本,组成想要的文本集合,该想要的文本集合中所生成关键词集合W,其步骤如下:
(3-1)、将步骤(2)中用户下载的文本组成想要的文本集合,该想要的文本集合记为D;
(3-2)、根据想要的文本集合D提取关键词集合,该关键词集合记为WD;
(3-3)、统计出关键词集合WD中每个关键词在文本集合A和文本集合D中的篇频;
(3-4)、去掉在文本集合A中篇频为1的关键词,剩余的关键词组成新的关键词集合,该新的关键词集合记为W。
上述步骤(4)中所述的采用改进后的TF-IDF方法计算关键词集合W中各关键词的TFi和TF-IDF值,其步骤如下:
(1)
本发明的所提出的一种基于改进的TF-IDF方法的检索词实时修正方法与现有技术相比校,具有如下特点:本发明是利用用户当前网页搜索下载的文本,采用基于改进的TF-IDF方法选出TF-IDF值最大的关键词,而TF-IDF值最大的关键词也就是最靠近用户检索目标的关键词,即根据用户已下载的文本集合和返回结果的全部文本集中进行判断,选出TF-IDF值最大的关键词,该关键词就是最靠近用户检索目标的关键词,或者说是最能表达用户检索目标的关键词,然后对用户的检索词进行修正,当用户翻页时使用新的检索词进行检索,并返回给用户新的更准确的修正结果。该方法选取的所有关键词文本集合是前一网页搜索结果,而非全部领域文本集合,即能准确地反映出用户实时的需求。以往的搜索引擎一旦返回给用户搜索结果后,就不再与用户有交互修正检索词,因此,难以准确地捕抓用户的检索目标。而本发明的检索词实时修正方法,利用用户的在当前页面上的下载行为,再采用改进的TF-IDF方法分析,提取出合适的关键词进行修正,如此循环,与用户的一次次交互后,返回的结果将越来越靠近用户的检索目标,极大地提高了检索效率。
附图说明
图1是本发明的一种基于改进的TF-IDF方法的检索词实时修正方法的流程图。
具体实施方式
以下结合附图对本发明的实施例做详述的说明:
本发明的一种基于改进的TF-IDF方法的检索词实时修正方法,如图1所示,其具体步骤如下:
(2)、用户根据自己的意图,判断文本集合A中是否存在用户想要下载的文本。最终,用户共下载了3篇用户想要的文本; (3)、提取步骤(2)中所有用户想要下载的文本,组成想要的文本集合,并由该文本集合提取出关键词集合,该关键词集合记为W,其具体过程如下:
(3-1)、根据上述3篇用户想要下载的文本组成想要的文本集合D;
(3-2)、根据想要的文本集合D得到三个关键词集合WD,该集合中关键词分别为:云计算、云服务、云安全;
(3-3)、统计出关键词集合WD中每个关键词在文本集合A和文本集合D中的篇频。例如,统计关键词集合WD在文本集合A和文本集合D中出现的次数,如表1所示:
表1:关键词“云计算”、“云服务”、“云安全”在不同文本范围内出现的参数
关键词 | 在下载的3篇文本中包含关键词的篇数 | 在该页20篇文本中包含关键词的篇数 |
云计算 | 3 | 20 |
云服务 | 3 | 5 |
云安全 | 1 | 6 |
(3-4)去掉关键词WD中关键词在文本集合A中篇频为1的关键词,剩余的关键词构成新的关键词集合,记为关键词集合W,如表1所示,在文本集合A中,包含三个关键词的篇频均大于1,不需要删去关键词,关键词“云计算”、“云服务”、“云安全”构成关键词集合W。
(4)、使用改进后的TF-IDF方法分别计算关键词集合W中“云计算” 、“云服务” 、“云安全”关键词的TF-IDF值,其计算过程如下:
(4-1)、采用改进后的TF-IDF公式,计算关键词 的TFi值,TFi的计算公式为:
如表1所示参数,按公式(1)分别计算关键词“云计算”、“云服务”、“云安全”的TF值,分别如下:
如表1所示参数,按公式(2)分别计算关键词“云计算”、“云服务”、“云安全”的IDF值:
如表1所示参数,按公式(3).分别计算出关键词“云计算”、“云服务”、“云安全”的TF-IDF值,“云计算”、“云服务”、“云安全”的TF-IDF值分别为1、4、1.1;
(5)、从关键词集合W中,选出TF-IDF值最大的关键词,记为r, 其中 “云服务”的TF-IDF值最大,因此,选出的关键词r为“云服务”;
(6)、利用关键词“云服务”,修正用户的 检索词“云计算”,生成新的检索词“云计算 云服务”,在用户点击下一页时,返回由新检索词检索到的结果。
Claims (3)
1.一种基于改进的TF-IDF方法的检索词实时修正方法,该方法通过对一次检索中,用户已下载的文本所组成的关键词集合,利用改进的TF-IDF方法对上述关键词集合进行处理,得到最靠近用户检索目标的关键词,然后使用最靠近用户检索目标的关键词对用户的输入检索词进行修改,再进行检索,其具体步骤如下:
(1)、用户输入检索词,计算机系统对所有的检索资源搜索,系统返回给用户首个网页的搜索结果,将当前页面结果中包含检索词的文本组成文本集合,该文本集合记为A;
(2)、用户判断文本集合A中是否存在用户想要的文本,如果存在,则下载用户想要的文本,转步骤(3);如果不存在,则跳转到步骤(1);
(3)、提取步骤(2)中所有用户想要下载的文本组成想要的文本集合,根据上述想要的文本集合生成关键词集合,该关键词集合记为W;
(4)、采用改进后的TF-IDF方法计算上述关键词的集合W中各关键词的TF-IDF值;
(5)、从关键词集合W中,选出TF-IDF值中最大的关键词,记为关键词r;
(6)、利用关键词r修正用户的输入检索词,生成新的检索词,当用户点击下一页时,返回由新的检索词检索到的结果。
2.根据权利要求1所述的一种基于改进的TF-IDF方法的检索词实时修正方法,其特征在于上述步骤(3)所述的提取步骤(2)中所有用户想要下载的文本,组成想要的文本集合,该想要的文本集合中所生成关键词集合W,其步骤如下:
(3-1)、将步骤(2)中用户下载的文本组成想要的文本集合,该想要的文本集合记为D;
(3-2)、根据想要的文本集合D提取关键词集合,该关键词集合记为WD;
(3-3)、统计出关键词集合WD中每个关键词在文本集合A和文本集合D中的篇频;
(3-4)、去掉在文本集合A中篇频为1的关键词,剩余的关键词组成新的关键词集合,该新的关键词集合记为W。
3.根据权利要求2所述的一种基于改进的TF-IDF方法的检索词实时修正方法,其特征在于上述步骤(4)所述的采用改进后的TF-IDF方法计算关键词集合W中各关键词的TFi和TF-IDF值,其步骤如下:
(1)
(4-2)、采用改进后的TF-IDF公式,计算关键词 的IDF值,IDFi的计算公式为:
(2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310464625.9A CN103530344A (zh) | 2013-10-09 | 2013-10-09 | 一种基于改进的tf-idf方法的检索词实时修正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310464625.9A CN103530344A (zh) | 2013-10-09 | 2013-10-09 | 一种基于改进的tf-idf方法的检索词实时修正方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103530344A true CN103530344A (zh) | 2014-01-22 |
Family
ID=49932353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310464625.9A Pending CN103530344A (zh) | 2013-10-09 | 2013-10-09 | 一种基于改进的tf-idf方法的检索词实时修正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103530344A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760549A (zh) * | 2016-03-22 | 2016-07-13 | 南京邮电大学 | 基于属性图模型的近邻查询方法 |
WO2017193865A1 (zh) * | 2016-05-09 | 2017-11-16 | 广州神马移动信息科技有限公司 | 一种信息搜索方法及装置 |
WO2019091026A1 (zh) * | 2017-11-10 | 2019-05-16 | 平安科技(深圳)有限公司 | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 |
CN113192584A (zh) * | 2021-03-30 | 2021-07-30 | 深圳市圣格灵科技有限公司 | 一种远程病案查阅系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
US20110264655A1 (en) * | 2010-04-22 | 2011-10-27 | Microsoft Corporation | Location context mining |
CN103336765A (zh) * | 2013-06-20 | 2013-10-02 | 上海大学 | 一种文本关键词的马尔可夫矩阵离线修正方法 |
-
2013
- 2013-10-09 CN CN201310464625.9A patent/CN103530344A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
US20110264655A1 (en) * | 2010-04-22 | 2011-10-27 | Microsoft Corporation | Location context mining |
CN103336765A (zh) * | 2013-06-20 | 2013-10-02 | 上海大学 | 一种文本关键词的马尔可夫矩阵离线修正方法 |
Non-Patent Citations (2)
Title |
---|
华山大师兄: "TF-IDF及其算法", 《博客园,HTTP://WWW.CNBLOGS.COM/BIYEYMYHJOB/ARCHIVE/2012/07/17/2595249.HTML》 * |
薛征: "基于改进TF-IDF的文本信息热点话题发现", 《中国优秀硕士学位论文全文数据库信息科技辑 》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760549A (zh) * | 2016-03-22 | 2016-07-13 | 南京邮电大学 | 基于属性图模型的近邻查询方法 |
CN105760549B (zh) * | 2016-03-22 | 2019-01-18 | 南京邮电大学 | 基于属性图模型的近邻查询方法 |
WO2017193865A1 (zh) * | 2016-05-09 | 2017-11-16 | 广州神马移动信息科技有限公司 | 一种信息搜索方法及装置 |
WO2019091026A1 (zh) * | 2017-11-10 | 2019-05-16 | 平安科技(深圳)有限公司 | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 |
CN113192584A (zh) * | 2021-03-30 | 2021-07-30 | 深圳市圣格灵科技有限公司 | 一种远程病案查阅系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102080362B1 (ko) | 쿼리 확장 | |
CN102426610B (zh) | 微博搜索排名方法及微博搜索引擎 | |
US20150356072A1 (en) | Method and Apparatus of Matching Text Information and Pushing a Business Object | |
CN103294681B (zh) | 一种搜索结果的生成方法和装置 | |
CN102521321B (zh) | 基于检索词歧义性和用户偏好的视频搜索方法 | |
CN103778251B (zh) | 面向大规模rdf图数据的sparql并行查询方法 | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
CN103838785A (zh) | 一种专利领域的垂直搜索引擎 | |
CN104050235A (zh) | 基于集合选择的分布式信息检索方法 | |
CN103123653A (zh) | 基于贝叶斯分类学习的搜索引擎检索排序方法 | |
CN103365910A (zh) | 一种信息检索的方法和系统 | |
CN103150663A (zh) | 一种网络投放数据投放的方法和装置 | |
CN104281565B (zh) | 语义词典构建方法和装置 | |
CN111522905A (zh) | 一种基于数据库的文档搜索方法和装置 | |
CN103530344A (zh) | 一种基于改进的tf-idf方法的检索词实时修正方法 | |
CN104915405A (zh) | 一种基于多层次的微博查询扩展方法 | |
CN104376115A (zh) | 一种基于全局搜索的模糊词确定方法及装置 | |
CN103744954A (zh) | 一种词关联网模型的构建方法及其构建器 | |
CN104268230A (zh) | 一种基于异质图随机游走的中文微博客观点探测方法 | |
CN102999521B (zh) | 一种识别搜索需求的方法和装置 | |
CN103336765B (zh) | 一种文本关键词的马尔可夫矩阵离线修正方法 | |
CN107229714B (zh) | 一种基于分布式数据库的全文搜索引擎 | |
CN103853771B (zh) | 一种搜索结果的推送方法及系统 | |
CN102799686A (zh) | 基于云平台的水利信息垂直搜索方法 | |
CN106649883B (zh) | 一种跨语言的主题网站自动发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140122 |