CN111368022A - 一种使用反向索引实现书籍筛选的方法及工具 - Google Patents
一种使用反向索引实现书籍筛选的方法及工具 Download PDFInfo
- Publication number
- CN111368022A CN111368022A CN202010127339.3A CN202010127339A CN111368022A CN 111368022 A CN111368022 A CN 111368022A CN 202010127339 A CN202010127339 A CN 202010127339A CN 111368022 A CN111368022 A CN 111368022A
- Authority
- CN
- China
- Prior art keywords
- book
- keywords
- mapping
- module
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012216 screening Methods 0.000 title claims abstract description 28
- 238000013507 mapping Methods 0.000 claims abstract description 70
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 3
- 230000004044 response Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种使用反向索引实现书籍筛选的方法,涉及数据处理技术领域,该方法基于Python反向索引,实现过程包括:步骤1、根据书籍名称进行映射,并将映射得到的关键词存储于第一集合;步骤2、结合书籍名称和第一集合包含的关键词,再次映射得到关键词并存储于第二集合,第二集合的个数等于第一集合所包含的关键词;步骤3、用户查找书籍时,输入查找书籍的名称,通过执行步骤1、2得到指定书籍的多个第二集合,通过求取多个第二集合的交集,筛选得到所要查找书籍的详细信息。本发明还公开一种使用反向索引实现书籍筛选的工具,其通过采集模块、映射模块一、映射模块二、输入模块、合并输出模块完成书籍筛选。本方法及工具具有高效快捷的优点。
Description
技术领域
本发明涉及数据处理,具体的说是一种使用反向索引实现书籍筛选的方法及工具。
背景技术
正常的索引一般是指关系型数据库里的索引。把不同的数据存放到不同的字段中。如果要实现google那种搜索,就需要与一条记录的多个字段进行比对,需要全表扫描,如果数据量比较大的话,性能就很低。
现有的索引技术有正向索引和反向索引两种。
所谓正向索引就是在一个文件里存储着一个文件ID,文件的内容是一个集合,里面存着关于这个ID含义的所有关键词,每个关键词中记录着属于它的一些属性,比如像出现次数等等。当用户在搜索的时候输入“数据库”,系统就会根据这个词遍历所有文件中的关键词。然后根据打分模型,排列出用户想看到的数据。
在存储的数据量很大的情况下,如果去遍历所有的文件,所耗费的效率无疑是巨大的。这时候就需要使用反向索引。反向索引的原理是把文件ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件,这些文件中都出现这个关键词。简单来说就是每个关键词构建一个集合,存储所有它相关的关键词和文件ID。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种使用反向索引实现书籍筛选的方法及工具,主要目的是为书店进行高效率的书籍检索。技术上来说,比起正向索引检索速度更快,可以更好的保证响应阈值。
首先,本发明提供一种使用反向索引实现书籍筛选的方法,解决上述技术问题采用的技术方案如下:
一种使用反向索引实现书籍筛选的方法,该方法基于Python反向索引,实现过程包括:
步骤1、根据书籍名称进行映射,并将映射得到的关键词存储于第一集合;
步骤2、结合书籍名称和第一集合包含的关键词,再次映射得到关键词并存储于第二集合,第二集合的个数等于第一集合所包含的关键词;
步骤3、用户查找书籍时,输入查找书籍的名称,通过执行步骤1、2得到指定书籍的多个第二集合,通过求取多个第二集合的交集,筛选得到所要查找书籍的详细信息。
执行步骤1时,根据书籍名称映射得到的关键词依次为书籍作者、书籍出版社、书籍译者。
步骤2的具体实现步骤包括:
步骤2.1、将书籍名称拆分为至少一个词语;
步骤2.2、将书籍名称拆分得到的至少一个词语与第一集合的关键词“书籍作者”进行映射,得到第二集合a;
步骤2.3、将书籍名称拆分得到的至少一个词语与第一集合的关键词“书籍出版社”进行映射,得到第二集合b;
步骤2.4、将书籍名称拆分得到的至少一个词语与第一集合的关键词“书籍译者”进行映射,得到第二集合c。
执行步骤2.2-2.4的过程中,可以将籍名称拆分得到的至少一个词语与第一集合的一个关键词组合为新集合,然后根据新集合包含的内容进行映射,分别得到第二集合a、b、c。
执行步骤2时,再次映射得到的关键词以无序的方式存储于第二集合。
执行步骤2时,使用SADD命令将映射得到的关键词添加到第二集合中;添加过程中,如果第二集合中已包含将要添加的关键词,则将要添加的关键词被自动忽略。
其次,本发明还提供一种使用反向索引实现书籍筛选的工具,解决上述技术问题采用的技术方案如下:
一种使用反向索引实现书籍筛选的工具,其基于Python反向索引,包括:
采集模块,用于采集书籍信息,书籍信息包括且不限于包括书籍名称;
映射模块一,用于根据书籍名称进行映射,得到的关键词并存储于第一集合;
映射模块二,用于根据书籍名称和第一集合包含的关键词进行再次映射,得到关键词并存储于第二集合,第二集合的个数等于第一集合所包含的关键词;
输入模块,用于人工输入将要查找书籍的名称,输入信息经过映射模块一、映射模块二后传递至合并输出模块;
合并输出模块,用于合并映射模块二所得到的第二集合,通过求取交集的方式筛选得到所要查找书籍的详细信息。
进一步的,所涉及映射模块一根据书籍名称映射得到的关键词依次为书籍作者、书籍出版社、书籍译者。
进一步的,所涉及映射模块二还包括:
拆分子模块,用于拆分书籍名称,并在拆分后获得至少一个词语;
映射子模块,用于将拆分子模块获得的至少一个词语与第一集合的一个关键词进行映射,得到与第一集合所包含关键词同等个数的第二集合。
进一步的,所涉及映射模块二使用SADD命令将映射得到的关键词添加到第二集合中;添加过程中,如果第二集合中已包含将要添加的关键词,映射模块二会把将要添加的关键词自动忽略。
本发明的一种使用反向索引实现书籍筛选的方法及工具,与现有技术相比具有的有益效果是:
本发明使用反向索引,通过每本书籍添加多个关键词,然后根据关键词反向的去获取相应的书籍,比起正向索引检索速度更快,可以更好的保证响应阈值,具有高效快捷的优点。
附图说明
附图1是本发明实施例一的流程框图;
附图2是本发明实施例二的连接框图。
附图中各标号信息表示:
1、采集模块,2、映射模块一,3、映射模块二,
4、输入模块,5、合并输出模块;
31、拆分子模块,32、映射子模块。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
结合附图1,本实施例提出一种使用反向索引实现书籍筛选的方法,该方法基于Python反向索引,实现过程包括:
S1、根据书籍名称进行映射,并将映射得到的关键词存储于第一集合;
S2、结合书籍名称和第一集合包含的关键词,再次映射得到关键词并存储于第二集合,第二集合的个数等于第一集合所包含的关键词;
S3、用户查找书籍时,输入查找书籍的名称,通过执行S1、S2得到指定书籍的多个第二集合,通过求取多个第二集合的交集,筛选得到所要查找书籍的详细信息。
本实施例执行S1时,根据书籍名称映射得到的关键词依次为书籍作者、书籍出版社、书籍译者。
本实施例中,S2的具体实现步骤包括:
S2.1、将书籍名称拆分为至少一个词语;
S2.2、将书籍名称拆分得到的至少一个词语与第一集合的关键词“书籍作者”进行映射,得到第二集合a;
S2.3、将书籍名称拆分得到的至少一个词语与第一集合的关键词“书籍出版社”进行映射,得到第二集合b;
S2.4、将书籍名称拆分得到的至少一个词语与第一集合的关键词“书籍译者”进行映射,得到第二集合c。
本实施例执行S2.2-S2.4的过程中,可以将籍名称拆分得到的至少一个词语与第一集合的一个关键词组合为新集合,然后根据新集合包含的内容进行映射,分别得到第二集合a、b、c。
本实施例执行S2时,再次映射得到的关键词以无序的方式存储于第二集合。
本实施例执行S2时,使用SADD命令将映射得到的关键词添加到第二集合中;添加过程中,如果第二集合中已包含将要添加的关键词,则将要添加的关键词被自动忽略。
实施例二:
结合附图2,本实施例提出一种使用反向索引实现书籍筛选的工具,其基于Python反向索引,包括:
采集模块1,用于采集书籍信息,书籍信息包括且不限于包括书籍名称;
映射模块一2,用于根据书籍名称进行映射,得到的关键词并存储于第一集合;
映射模块二3,用于根据书籍名称和第一集合包含的关键词进行再次映射,得到关键词并存储于第二集合,第二集合的个数等于第一集合所包含的关键词;
输入模块4,用于人工输入将要查找书籍的名称,输入信息经过映射模块一2、映射模块二3后传递至合并输出模块5;
合并输出模块5,用于合并映射模块二3所得到的第二集合,通过求取交集的方式筛选得到所要查找书籍的详细信息。
本实施例具体实施过程中,书籍信息还包括书籍本身所显示的信息,以及书籍所处位置和剩余数量等外在信息。
本实施例所涉及映射模块一2根据书籍名称映射得到的关键词依次为书籍作者、书籍出版社、书籍译者。
本实施例所涉及映射模块二3还包括:
拆分子模块31,用于拆分书籍名称,并在拆分后获得至少一个词语;
映射子模块32,用于将拆分子模块31获得的至少一个词语与第一集合的一个关键词进行映射,得到与第一集合所包含关键词同等个数的第二集合。
本实施例所涉及映射模块二3使用SADD命令将映射得到的关键词添加到第二集合中;添加过程中,如果第二集合中已包含将要添加的关键词,映射模块二3会把将要添加的关键词自动忽略。
综上可知,采用本发明的一种使用反向索引实现书籍筛选的方法及工具,使用反向索引,通过每本书籍添加多个关键词,然后根据关键词反向的去获取相应的书籍,比起正向索引检索速度更快,可以更好的保证响应阈值。具有高效快捷的优点。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。
Claims (10)
1.一种使用反向索引实现书籍筛选的方法,其特征在于,该方法基于Python反向索引,实现过程包括:
步骤1、根据书籍名称进行映射,并将映射得到的关键词存储于第一集合;
步骤2、结合书籍名称和第一集合包含的关键词,再次映射得到关键词并存储于第二集合,第二集合的个数等于第一集合所包含的关键词;
步骤3、用户查找书籍时,输入查找书籍的名称,通过执行步骤1、2得到指定书籍的多个第二集合,通过求取多个第二集合的交集,筛选得到所要查找书籍的详细信息。
2.根据权利要求1所述的一种使用反向索引实现书籍筛选的方法,其特征在于,执行步骤1时,根据书籍名称映射得到的关键词依次为书籍作者、书籍出版社、书籍译者。
3.根据权利要求2所述的一种使用反向索引实现书籍筛选的方法,其特征在于,步骤2的具体实现步骤包括:
步骤2.1、将书籍名称拆分为至少一个词语;
步骤2.2、将书籍名称拆分得到的至少一个词语与第一集合的关键词“书籍作者”进行映射,得到第二集合a;
步骤2.3、将书籍名称拆分得到的至少一个词语与第一集合的关键词“书籍出版社”进行映射,得到第二集合b;
步骤2.4、将书籍名称拆分得到的至少一个词语与第一集合的关键词“书籍译者”进行映射,得到第二集合c。
4.根据权利要求3所述的一种使用反向索引实现书籍筛选的方法,其特征在于,执行步骤2.2-2.4的过程中,可以将籍名称拆分得到的至少一个词语与第一集合的一个关键词组合为新集合,然后根据新集合包含的内容进行映射,分别得到第二集合a、b、c。
5.根据权利要求3所述的一种使用反向索引实现书籍筛选的方法,其特征在于,执行步骤2时,再次映射得到的关键词以无序的方式存储于第二集合。
6.根据权利要求1所述的一种使用反向索引实现书籍筛选的方法,其特征在于,执行步骤2时,使用SADD命令将映射得到的关键词添加到第二集合中;添加过程中,如果第二集合中已包含将要添加的关键词,则将要添加的关键词被自动忽略。
7.一种使用反向索引实现书籍筛选的工具,其特征在于,其基于Python反向索引,包括:
采集模块,用于采集书籍信息,所述书籍信息包括且不限于包括书籍名称;
映射模块一,用于根据书籍名称进行映射,得到的关键词并存储于第一集合;
映射模块二,用于根据书籍名称和第一集合包含的关键词进行再次映射,得到关键词并存储于第二集合,第二集合的个数等于第一集合所包含的关键词;
输入模块,用于人工输入将要查找书籍的名称,输入信息经过映射模块一、映射模块二后传递至合并输出模块;
合并输出模块,用于合并映射模块二所得到的第二集合,通过求取交集的方式筛选得到所要查找书籍的详细信息。
8.根据权利要求7所述的一种使用反向索引实现书籍筛选的工具,其特征在于,所述映射模块一根据书籍名称映射得到的关键词依次为书籍作者、书籍出版社、书籍译者。
9.根据权利要求7所述的一种使用反向索引实现书籍筛选的工具,其特征在于,所述映射模块二还包括:
拆分子模块,用于拆分书籍名称,并在拆分后获得至少一个词语;
映射子模块,用于将拆分子模块获得的至少一个词语与第一集合的一个关键词进行映射,得到与第一集合所包含关键词同等个数的第二集合。
10.根据权利要求7所述的一种使用反向索引实现书籍筛选的工具,其特征在于,所述映射模块二使用SADD命令将映射得到的关键词添加到第二集合中;添加过程中,如果第二集合中已包含将要添加的关键词,所述映射模块二会把将要添加的关键词自动忽略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010127339.3A CN111368022A (zh) | 2020-02-28 | 2020-02-28 | 一种使用反向索引实现书籍筛选的方法及工具 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010127339.3A CN111368022A (zh) | 2020-02-28 | 2020-02-28 | 一种使用反向索引实现书籍筛选的方法及工具 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111368022A true CN111368022A (zh) | 2020-07-03 |
Family
ID=71206406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010127339.3A Pending CN111368022A (zh) | 2020-02-28 | 2020-02-28 | 一种使用反向索引实现书籍筛选的方法及工具 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368022A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6018733A (en) * | 1997-09-12 | 2000-01-25 | Infoseek Corporation | Methods for iteratively and interactively performing collection selection in full text searches |
CN1809829A (zh) * | 2003-04-25 | 2006-07-26 | 惠普开发有限公司 | 数据库装置和作成方法、数据库检索装置及检索方法 |
WO2008098502A1 (fr) * | 2007-02-06 | 2008-08-21 | Tencent Technology (Shenzhen) Company Limited | Procédé et dispositif destinés à créer un index et procédé et système de récupération |
US20080275859A1 (en) * | 2007-05-02 | 2008-11-06 | Thomson Corporation | Method and system for disambiguating informational objects |
CN102063446A (zh) * | 2009-11-13 | 2011-05-18 | 中国移动通信集团四川有限公司 | 一种建立倒排索引的方法及倒排索引装置 |
WO2017080320A1 (zh) * | 2015-11-09 | 2017-05-18 | 北京奇虎科技有限公司 | 书籍库中相似书的挖掘、净化方法和装置 |
CN108804443A (zh) * | 2017-04-27 | 2018-11-13 | 安徽富驰信息技术有限公司 | 一种基于多特征融合的司法类案搜索方法 |
-
2020
- 2020-02-28 CN CN202010127339.3A patent/CN111368022A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6018733A (en) * | 1997-09-12 | 2000-01-25 | Infoseek Corporation | Methods for iteratively and interactively performing collection selection in full text searches |
CN1809829A (zh) * | 2003-04-25 | 2006-07-26 | 惠普开发有限公司 | 数据库装置和作成方法、数据库检索装置及检索方法 |
WO2008098502A1 (fr) * | 2007-02-06 | 2008-08-21 | Tencent Technology (Shenzhen) Company Limited | Procédé et dispositif destinés à créer un index et procédé et système de récupération |
US20080275859A1 (en) * | 2007-05-02 | 2008-11-06 | Thomson Corporation | Method and system for disambiguating informational objects |
CN102063446A (zh) * | 2009-11-13 | 2011-05-18 | 中国移动通信集团四川有限公司 | 一种建立倒排索引的方法及倒排索引装置 |
WO2017080320A1 (zh) * | 2015-11-09 | 2017-05-18 | 北京奇虎科技有限公司 | 书籍库中相似书的挖掘、净化方法和装置 |
CN108804443A (zh) * | 2017-04-27 | 2018-11-13 | 安徽富驰信息技术有限公司 | 一种基于多特征融合的司法类案搜索方法 |
Non-Patent Citations (1)
Title |
---|
王莉;: "基于图形数据库技术的文献资源关联网络构建", no. 05, pages 61 - 67 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100458779C (zh) | 扩展索引的方法 | |
US11210334B2 (en) | Method, apparatus, server and storage medium for image retrieval | |
US20120162244A1 (en) | Image search color sketch filtering | |
US9275155B1 (en) | Querying across a composite join of multiple database tables using a search engine index | |
US20080294620A1 (en) | User-defined relevance ranking for search | |
US10437824B2 (en) | Querying across a composite join of multiple database tables using a search engine index | |
CN105183884A (zh) | 一种基于大数据技术的搜索引擎系统及搜索引擎方法 | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
CN111061828B (zh) | 一种数字图书馆知识检索方法及装置 | |
CN102760165B (zh) | 一种使用位图索引的全文检索方法和装置 | |
CN111522905A (zh) | 一种基于数据库的文档搜索方法和装置 | |
CN113407785B (zh) | 一种基于分布式储存系统的数据处理方法和系统 | |
CN113626464B (zh) | 基于ClickHouse数据库内存数据的查询支持方法及系统 | |
CN102819601A (zh) | 信息检索方法和信息检索设备 | |
CN111400323A (zh) | 数据检索方法、系统、设备及存储介质 | |
CN105095091A (zh) | 一种基于倒排索引技术的软件缺陷代码文件定位方法 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN108491543A (zh) | 图像检索方法、图像存储方法及图像检索系统 | |
CN102385597B (zh) | 一种poi的容错搜索方法 | |
CN101493824A (zh) | 数据库的数据检索方法和装置 | |
CN115080684B (zh) | 网盘文档索引方法、装置、网盘及存储介质 | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
CN111368022A (zh) | 一种使用反向索引实现书籍筛选的方法及工具 | |
US7991756B2 (en) | Adding low-latency updateable metadata to a text index | |
CN114218347A (zh) | 多个文件内容的快速索引查找方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200703 |