CN104537116B - 一种基于标签的图书搜索方法 - Google Patents
一种基于标签的图书搜索方法 Download PDFInfo
- Publication number
- CN104537116B CN104537116B CN201510035855.2A CN201510035855A CN104537116B CN 104537116 B CN104537116 B CN 104537116B CN 201510035855 A CN201510035855 A CN 201510035855A CN 104537116 B CN104537116 B CN 104537116B
- Authority
- CN
- China
- Prior art keywords
- books
- search
- label
- text
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 3
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims 1
- 238000004064 recycling Methods 0.000 claims 1
- 230000003993 interaction Effects 0.000 abstract description 4
- 238000012797 qualification Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于标签的图书搜索方法。采用标签来描述图书的主题内容,并将标签加入图书搜索系统的索引文件中。用户可以将标签作为搜索关键词从而利用传统的文本搜索技术获得相对广泛的搜索结果,或者利用标签作为搜索限定条件进行搜索结果过滤,从而可以方便用户更快、更准的找到所需图书。此外,本系统还依据标签与搜索语句的相关程度向用户进行搜索意图推荐,并且支持多维度、搜索语句模糊/精确匹配等功能。本发明可以较好的满足图书搜索这一场景,提供了更友好的人机交互方式,大幅提高系统的可用性。
Description
技术领域
本发明涉及数字图书馆的数字资源搜索领域,尤其涉及一种基于标签的图书搜索方法。
背景技术
近年来互联网上涌入了海量的信息内容,为了方便管理和检索信息,业界提出了许多高效的基于文本的信息检索技术。
与此同时,随着数字图书馆的兴起,它在数字资源检索领域呈现出与文本检索不同的特点,例如搜索限制条件更加严格、元数据文本信息少等。
在图书搜索这一场景中,用户在搜索图书时,往往处于以下几种状态之一:
(1)知道自己需要的书是哪一类书,但是不知道这个类别的书下面具体有哪些图书,也不知道哪一本所述能容更适合自己;
(2)知道自己想要某一本书,但是记不清完整的书名、出版社等信息;
(3)明确知道自己需要的图书书名、出版社、版次等信息。
传统的图书搜索系统往往更关注场景2和3,提供了完整的搜索限制条件,包括书名、作者、出版社、出版时间、馆藏位置等多维度条件。但是这种搜索方式在面对场景1时,无法对用户提供有效的搜索指引,并且由于过多的查询限制条件,使得人机交互界面趋于复杂,因此难以使用,用户体验较差。
而在传统的文本搜索领域,则更关注场景1和2。因为在全文搜索领域,文本没有统一的结构,因此搜索的维度只限于关键词匹配、限制条件较少,导致搜素结果往往很宽泛,难以支持场景3。
为了提高对数字资源的检索、管理能力,我们需要在通用文本检索技术上做出改进,提出一种新的图书搜索模式,能够有效支持数字资源的特点,并支持上述图书搜索场景下的3种需求。
发明内容
本发明的目的是为了在通用文本检索技术上做出改进,提出一种适用于数字图书检索特点的搜索方法,该方法具有更友好的人机交互方式,提供更完善的搜索功能,能够满足数字资源搜索限制条件更加严格、元数据文本信息少等特点。
基于标签的图书搜索方法包括以下步骤:
1)获取图书的元数据文本信息,包括由都柏林核心规范(Dublin Core Metadata)指定的15项数字资源元数据条目以及图书的章节目录,采用关键词提取算法生成图书的标签;
2)将图书的元数据和标签一起写入搜索系统的索引文件系统中,其中索引文件的生成和检索功能采用Lucene全文检索引擎工具包实现,索引文件的具体结构包括5个域:图书名称、图书作者、图书主题、出版社名称、图书标签,用户在进行图书检索时,会在上述五个域中进行文本匹配以获取搜索结果;
3)构建图书搜索的前端系统,提供用户使用本系统的图形界面。本系统采用B/S模式构建,前台系统采用基于WEB浏览器的图形用户界面,主要功能是提供图书搜索的界面以及搜索结果展示界面;为了支撑数字图书搜索场景的需求,前端系统的用户交互途径分为2个部分:第一步是统一搜索,通过键入关键词进行搜索,获得相对广泛的搜索结果;第二步是添加标签、类型、出版社等约束条件进行更精确的查询。
4)构建图书搜索的后台系统,并以Web Service的形式对外暴露服务接口。后台系统的核心功能是提供图书搜索服务,图书搜索功能采用Lucene全文检索引擎工具包实现,并且采用RestLet框架以REST的方式暴露服务接口,前端系统的搜索请求会调用图书搜索接口。
5)进行搜索意图推荐,利用图书和搜索语句的关联度、标签与图书的关联度信息计算出标签与搜索语句的关联度,获得关联度排名较高的标签,并随着搜索结果一起返回给用户;
本发明与现有技术相比具有的有益效果:
1.该系统针对图书搜索的特点进行了人机交互方式优化,提供更友好的用户使用方式;
2.该系统除了能够支持关键词搜索功能,还提供基于标签形式的搜索意图推荐功能;
3.该系统支持多维度、多限制条件、搜索语句精确/模糊匹配等功能,更满足图书搜索的特点;
4.在搜索系统中引入了标签,以标签来描述数字资源的主题内容,能够更好的向用户展示数字资源,帮助用户更好的了解搜索结果。
附图说明
图1是基于标签的搜索系统中前端系统的统一搜索界面;
图2是基于标签的搜索系统中前端系统的基于标签的二次搜索界面;
图3是基于标签的多维度限制条件搜索;
图4是基于标签的搜索系统整体架构图。
具体实施方式
首先需要获取图书的元数据文本信息,图书的元数据信息往往存储在分布式文件系统或者数据库中,因此我们需要从文件系统或者数据库中读入元数据文件。本系统应该获取的元数据包括由都柏林核心规范(Dublin Core Metadata)指定的15项数字资源元数据条目以及图书的章节目录文本信息,都柏林核心规范以XML的形式存储,因此需要解析XML文件,从中提取出相应的文本字段。此外,本系统还采用了图书的章节目录文本信息,应尽可能包括:全文内容摘要、章节内容摘要、章节小结、目录中一级、二级、三级章节标题。
之后需要对上述文本字段进行分词、去停用词、词干化处理,接着采用TextRank关键词提取算法计算出词与图书之间的关联度,选取关联度较高的词作为图书的标签;
在获取到图书的标签之后,将图书的元数据和标签一起写入图书搜索系统的索引文件中,其中索引文件的生成和检索功能采用Lucene全文检索引擎工具包实现。
索引文件的具体结构包括5个域:图书名称(Title)、图书作者(Creator)、图书主题(Subject)、出版社名称(Publisher)、图书标签,前4项在都柏林核心规范中有定义,第5项由本系统生成。前4项在索引文件中应该存储两部分,第一部分是将域中文本分词后的单词集合,第二部分是域中文本未分词的一整段文本;第5项则只需要存储图书的标签集合。上述5个域在索引文件中均以压缩的方式存储。用户在进行图书检索时,本系统满足会在上述五个域中进行文本匹配以获取搜索结果。
为了让用户方便的使用本系统,需要构建图书搜索的前端系统,系统采用B/S模式构建,前台系统采用基于WEB浏览器的图形用户界面,主要功能是提供图书搜索的界面以及搜索结果展示界面,本系统的用户交互途径分为2个部分:
(1)统一搜索,通过键入关键词进行搜索,获得相对广泛的搜索结果;
(2)基于标签的搜索,通过添加标签、类型、出版社等约束条件进行更精确的查询。
之后构建图书搜索的后台系统,后台系统的核心功能是提供图书搜索服务,图书搜索功能采用Lucene全文检索引擎工具包实现,并且采用RestLet框架以REST WebService的方式暴露服务接口,前端系统的搜索请求会调用图书搜索接口,经过后台图书搜索系统的计算处理之后,再将搜索结果返回给前台系统并展示。
后台系统提供了多种方式来具体化用户的搜索意图,列举如下:
(1)用户通过点击类型、标签、出版社等信息可以缩小查询的范围,具体实现方式为在索引文件的图书标签域中进行基于布尔逻辑的搜索结果过滤,布尔逻辑规则可以根据具体的场景进行制定,不同的功能点可能具有不同的布尔逻辑;
(2)通过限制仅搜书名、作者可以限制查询维度,具体实现方式为在索引文件中选择只在图书名称或图书作者域中搜索;
(3)通过选择搜索词完全匹配可以实现精确搜索,具体实现方式为在索引文件的图书名称或者图书作者域中选择未分词的文本段进行搜索。
最后,为了帮助用户了解搜索结果的主题内容,系统需要进行搜索意图推荐。当用户进行搜索操作时,得到Top N条搜索结果,每条结果都有多个标签。为了找出与搜索语句最相关的标签,需要对每个标签计算它与搜索语句的相关度评分,计算公式如下:
公式(1)的计算主要包括2个部分:计算图书与搜索语句之间的关联度Si和计算标签与图书之间的关联度Relation(Tag,Si),并且需要对这两个值进行归一化处理,使得分值分布于区间[0,1]之间。归一化的目的是让文档与查询语句的相似度与标签与文档的相似度拥有用相同的量纲。其中Si的计算方式可以采用Lucene全文检索引擎工具包中的查询语句和文档的相似度评分公式。Relation(Tag,Si)的值在生成图书的标签时由TextRank方法计算得出,也可以使用CBTR算法计算。
在根据公式(1)算出标签与搜索语句的关联度之后,按关联度的数值大小降序排序,获得关联度排名Top N的标签,并随着搜索结果一起返回给用户界面并展示。N的取值范围需要结合前台界面的展示空间大小以及标签的数量决定,在本系统中的推荐值为20,如果标签数量不够20则全部返回。
Claims (6)
1.一种基于标签的图书搜索方法,其特征在于包括以下步骤:
1) 获取图书的元数据文本信息,包括都柏林核心规范定义的15项数字资源元数据段以及图书的章节目录文本信息,再针对元数据文本信息采用关键词提取算法生成图书的标签;
2)将图书的元数据文本信息和步骤1)生成的标签一起写入搜索系统的索引文件系统中,索引文件的具体结构包括5个域:图书名称、图书作者、图书主题、出版社名称、图书标签,用户在进行图书检索时,会在上述五个域中进行文本匹配以获取搜索结果;
3)构建图书搜索的前端系统,采用B/S模式,前端系统是基于WEB浏览器的图形用户界面,功能是提供图书搜索的界面以及搜索结果展示界面;
4)构建图书搜索的后台系统,并以Restful Web Service的形式对外暴露服务接口,后台系统的功能是提供图书搜索服务,包括基于关键词的图书检索、多维度搜索条件约束、搜索语句精确/模糊匹配、搜索意图推荐功能,前端系统的搜索请求会调用后台系统的图书搜索接口;
5)进行搜索意图推荐,利用图书和搜索语句的关联度、标签与图书的关联度信息计算出标签与搜索语句的关联度,获得标签与搜索语句的关联度排名较高的标签,并随着搜索结果一起返回给用户。
2.根据权利要求1所述的基于标签的图书搜索方法,其特征在于:所述的步骤1)为:获取图书的元数据文本信息,图书的元数据文本信息存储在分布式文件系统或者数据库中,图书搜索系统获取的元数据文本信息包括由都柏林核心规范指定的15项数字资源元数据条目以及图书的章节文本信息,之后需要对元数据文本信息进行分词、去停用词、词干化处理,之后采用TextRank关键词提取算法计算出词与图书之间的关联度,选取关联度较高的词作为图书的标签。
3.根据权利要求1所述的基于标签的图书搜索方法,其特征在于:所述的步骤2)为:将图书的元数据文本信息和步骤1)生成的标签一起写入搜索系统的索引文件系统中,其中索引文件的生成和检索功能采用Lucene全文检索引擎工具包实现,索引文件的具体结构包括5个域:图书名称、图书作者、图书主题、出版社名称、图书标签,前4项在都柏林核心规范中有定义,第5项由步骤1)生成,前4项在索引文件中存储两部分,第一部分是将域中文本分词后的单词集合,第二部分是域中文本未分词的一整段文本;第5项则只需要存储图书的标签集合,上述5个域在索引文件中均以压缩的方式存储,用户在进行图书检索时,图书搜索系统会在上述五个域中进行文本匹配以获取搜索结果。
4.根据权利要求1所述的基于标签的图书搜索方法,其特征在于:所述的步骤3)为:构建图书搜索的前端系统,系统采用B/S模式构建,前端系统采用基于WEB浏览器的图形用户界面,功能是提供图书搜索的界面以及搜索结果展示界面,图书搜索系统的用户交互途径分为2个部分:第一步是统一搜索,通过键入关键词进行搜索,获得相对广泛的搜索结果;第二步是添加标签、类型、出版社约束条件进行更精确的查询。
5.根据权利要求1所述的基于标签的图书搜索方法,其特征在于:所述的步骤4)为:构建图书搜索的后台系统,后台系统的功能是提供图书搜索服务,图书搜索功能采用Lucene全文检索引擎工具包实现,并且采用RestLet框架以Restful Web Service的方式暴露服务接口,前端系统的搜索请求会调用图书搜索接口,后台系统提供了三种方式来具体化用户的搜索意图:
(1)用户通过点击类型、标签、出版社信息缩小查询的范围,具体实现方式为在索引文件的图书标签域中进行基于布尔逻辑的搜索结果过滤;
(2)通过限制仅搜书名、作者限制查询维度,具体实现方式为在索引文件中选择只在图书名称或图书作者域中搜索;
(3)通过选择搜索词完全匹配实现精确搜索,具体实现方式为在索引文件的图书名称或者图书作者域中选择未分词的文本段进行搜索。
6.根据权利要求1所述的基于标签的图书搜索方法,其特征在于:所述的步骤5)为:进行搜索意图推荐,利用Lucene全文检索引擎工具包获取图书和搜索语句的关联度、再利用CBTR标签排序算法算出标签与图书的关联度,之后将两者相乘并累加,计算出标签与搜索语句的关联度,获得标签与搜索语句的关联度排名较高的标签,并随着搜索结果一起返回给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510035855.2A CN104537116B (zh) | 2015-01-23 | 2015-01-23 | 一种基于标签的图书搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510035855.2A CN104537116B (zh) | 2015-01-23 | 2015-01-23 | 一种基于标签的图书搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104537116A CN104537116A (zh) | 2015-04-22 |
CN104537116B true CN104537116B (zh) | 2017-10-31 |
Family
ID=52852644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510035855.2A Active CN104537116B (zh) | 2015-01-23 | 2015-01-23 | 一种基于标签的图书搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104537116B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915449B (zh) * | 2015-06-30 | 2018-11-09 | 河海大学 | 一种基于水利对象分类标签的分面检索系统及方法 |
CN105740406A (zh) * | 2016-01-28 | 2016-07-06 | 北京致远协创软件有限公司 | 一种信息标引和检索方法 |
CN105787015A (zh) * | 2016-02-23 | 2016-07-20 | 浪潮软件集团有限公司 | 一种基于标签查询数据资源的方法 |
CN106156327A (zh) * | 2016-07-06 | 2016-11-23 | 佛山市恒南微科技有限公司 | 一种个性化的标签搜索方法 |
CN107798004B (zh) * | 2016-08-29 | 2022-09-30 | 中兴通讯股份有限公司 | 关键词查找方法、装置及终端 |
CN106445923A (zh) * | 2016-10-18 | 2017-02-22 | 上海众恒信息产业股份有限公司 | 基于层叠架构的查询系统及查询方法 |
CN106844788B (zh) * | 2017-03-17 | 2020-02-18 | 重庆文理学院 | 一种图书馆智能搜索排序方法及系统 |
CN107291929A (zh) * | 2017-06-29 | 2017-10-24 | 环球智达科技(北京)有限公司 | 基于标签的检索方法 |
CN107862069A (zh) * | 2017-11-21 | 2018-03-30 | 广州星耀悦教育科技有限公司 | 一种分类数据库的构建方法以及图书分类的方法 |
CN109213408B (zh) * | 2018-09-20 | 2019-09-24 | 掌阅科技股份有限公司 | 书籍显示方法、电子设备及计算机存储介质 |
CN109766353A (zh) * | 2018-11-30 | 2019-05-17 | 成都四方伟业软件股份有限公司 | 一种基于大数据多维属性动态生成标签的系统及工作方法 |
CN113330431A (zh) * | 2019-01-25 | 2021-08-31 | 株式会社东芝 | 事件管理装置、事件管理程序以及事件管理方法 |
CN112016024B (zh) * | 2019-05-31 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 一种数据推荐方法、装置以及计算机可读存储介质 |
CN110532451B (zh) * | 2019-06-26 | 2023-08-29 | 平安科技(深圳)有限公司 | 针对政策文本的检索方法和装置、存储介质、电子装置 |
CN113360459A (zh) * | 2021-07-08 | 2021-09-07 | 国网能源研究院有限公司 | 文件半自动标注与存储的方法、系统及装置 |
CN114911782B (zh) * | 2022-04-15 | 2022-12-16 | 广东柯内特环境科技有限公司 | 一种适用于环境执法的数据分析方法 |
CN116756325B (zh) * | 2023-08-17 | 2023-11-10 | 北京睿企信息科技有限公司 | 一种获取标签的数据处理系统 |
CN117763109B (zh) * | 2023-12-21 | 2024-06-11 | 湖南领众档案管理有限公司 | 一种用于档案全文检索的数据核查方法 |
CN117493641B (zh) * | 2024-01-02 | 2024-03-22 | 中国电子科技集团公司第二十八研究所 | 一种基于语义元数据的二次模糊搜索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7246134B1 (en) * | 2004-03-04 | 2007-07-17 | Sun Microsystems, Inc. | System and methods for tag library generation |
CN101145164A (zh) * | 2007-10-30 | 2008-03-19 | 金蝶软件(中国)有限公司 | 一种序时簿的查询方法及一种序时簿的查询装置 |
CN103714188A (zh) * | 2012-09-28 | 2014-04-09 | 飞思卡尔半导体公司 | 用于优化在晶片上制造的管芯数目的系统 |
-
2015
- 2015-01-23 CN CN201510035855.2A patent/CN104537116B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7246134B1 (en) * | 2004-03-04 | 2007-07-17 | Sun Microsystems, Inc. | System and methods for tag library generation |
CN101145164A (zh) * | 2007-10-30 | 2008-03-19 | 金蝶软件(中国)有限公司 | 一种序时簿的查询方法及一种序时簿的查询装置 |
CN103714188A (zh) * | 2012-09-28 | 2014-04-09 | 飞思卡尔半导体公司 | 用于优化在晶片上制造的管芯数目的系统 |
Non-Patent Citations (2)
Title |
---|
A Probabilistic Method for Tag Ranking in Tagging System;Peng Zhang et al.;《Knowledge Engineering and Management.Advances in Intelligent Systems and Computing》;20140611;全文 * |
基于标签主题建模的图书推荐系统研究;高成;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104537116A (zh) | 2015-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104537116B (zh) | 一种基于标签的图书搜索方法 | |
CN101364239B (zh) | 一种分类目录自动构建方法及相关系统 | |
Clinchant et al. | Xrce’s participation in wikipedia retrieval, medical image modality classification and ad-hoc retrieval tasks of imageclef 2010 | |
Lin et al. | An integrated approach to extracting ontological structures from folksonomies | |
CN103455487B (zh) | 一种搜索词的提取方法及装置 | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
CN102262670A (zh) | 一种基于移动可视设备的跨媒体信息检索系统及方法 | |
CN101393565A (zh) | 基于本体的面向虚拟博物馆的搜索方法 | |
CN102156711A (zh) | 一种基于云存储的电力全文检索方法及系统 | |
Moncla et al. | Automated geoparsing of paris street names in 19th century novels | |
CN106372122A (zh) | 一种基于维基语义匹配的文档分类方法及系统 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
Chaves et al. | Towards a multilingual ontology for ontology-driven content mining in social web sites | |
CN103853797B (zh) | 一种基于n元图片索引结构的图片检索方法与系统 | |
CN103838792A (zh) | 一种网页主题确定的方法 | |
CN101639840A (zh) | 网络信息语义结构识别方法和装置 | |
KR20110133909A (ko) | 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치 | |
Kambau et al. | Concept-based multimedia information retrieval system using ontology search in cultural heritage | |
JP2001184358A (ja) | カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体 | |
Li et al. | Ontology of general concept for semantic searching | |
Gardner | The changing landscape of contemporary cataloging | |
Chi et al. | Web image retrieval reranking with multi-view clustering | |
Rocha et al. | LODifying personal content sharing | |
Chantrapornchai et al. | Semantic image search: case study for western region tourism in Thailand | |
Meng | A sentence-based image search engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |