CN112015853A - 图书搜索方法、图书搜索系统、电子装置及介质 - Google Patents
图书搜索方法、图书搜索系统、电子装置及介质 Download PDFInfo
- Publication number
- CN112015853A CN112015853A CN202010441872.7A CN202010441872A CN112015853A CN 112015853 A CN112015853 A CN 112015853A CN 202010441872 A CN202010441872 A CN 202010441872A CN 112015853 A CN112015853 A CN 112015853A
- Authority
- CN
- China
- Prior art keywords
- index
- word
- full
- search
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000011218 segmentation Effects 0.000 claims abstract description 65
- 238000004364 calculation method Methods 0.000 claims abstract description 47
- 230000015654 memory Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种图书搜索方法、图书搜索系统、电子装置及介质,包括:定义分词索引项和全字索引项;对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;按所述字符串的相关性评分从高到低输出搜索结果。解决了有技术中只能做到全字匹配,而无法实现模糊搜索,因而难搜索到想要的图书,增加了用户搜索图书的成本,降低了用户搜索图书的成功率的问题,使得用户可以进行图书的模糊搜索,减少图书搜索的成本,使得搜索成功率提高。
Description
技术领域
本申请涉及一种搜索引擎领域,特别是涉及一种图书搜索方法、图书搜索系统、电子装置及介质。
背景技术
图书馆搜索工具是读者获取图书馆藏信息和查找图书的主要途径,让读者能更准确地找到所需的图书,是图书馆搜索技术的发展方向。
在现有图书馆搜索技术中,用户只能选择其中一个搜索类别(如“题名”、“责任者”等)进行搜索;或虽然可以全文搜索,但只能做到全字匹配,而无法实现模糊搜索。即便用户要搜索的图书真实存在,若用户无法准确提供“题名”、“责任者”等某一个搜索类别的关键词,即输入一个和多个模糊的关键词中包含了目标图书指定的搜索类别中不存在的字符时,则很难搜索到想要的图书。这增加了用户搜索图书的成本,降低了用户搜索图书的成功率。
申请内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种图书搜索方法、图书搜索系统、电子装置及介质,用于解决现有技术中只能做到全字匹配,而无法实现模糊搜索,因而难搜索到想要的图书,增加了用户搜索图书的成本,降低了用户搜索图书的成功率的问题。
为实现上述目的及其他相关目的,本申请提供一种图书搜索方法,包括:定义分词索引项和全字索引项;对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;按所述字符串的相关性评分从高到低输出搜索结果。
于本申请的一实施例中,所述分词索引项包括:题名、出版发行项、丛编、以及附注中的一种或多种。
于本申请的一实施例中,所述全字索引项包括:责任者、主题词、ISBN/ISSN号及价格等、分类号、副本、以及载体形态项中的一种或多种。
于本申请的一实施例中,所述匹配为全字匹配和/或分词匹配。
于本申请的一实施例中,所述相关性计算运用TF/IDF算法。
于本申请的一实施例中,将输入关键词的字符串与所述分词索引词和/或全字索引词分别进行匹配并进行相关性计算得到相关性评分,包括:将输入关键词的字符串与所述分词索引词和/或全字索引词分别进行匹配并进行相关性计算得到相关性计算结果,根据相关性计算结果进行加权值计算得到相关性评分。
于本申请的一实施例中,根据相关性计算结果进行加权计算得到相关性评分,包括:将所述相关性计算结果与所述索引项的权重值结合得到所述相关性评分。
为实现上述目的及其他相关目的,本申请提供一种图书搜索系统,包括:定义模块,用于定义分词索引项和全字索引项;索引模块,耦接所述定义模块,用于对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;相关性模块,耦接所述索引模块,用于将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;搜索结果模块,耦接所述相关性模块,用于按所述字符串的相关性评分从高到低输出搜索结果。
为实现上述目的及其他相关目的,本申请提供一种电子装置,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述图书搜索方法。
为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述图书搜索方法。
如上所述,本申请的图书搜索方法、图书搜索系统、电子装置及介质,具有以下有益效果:解决了现有技术中只能做到全字匹配,而无法实现模糊搜索,因而难搜索到想要的图书,增加了用户搜索图书的成本,降低了用户搜索图书的成功率的问题,使得用户可以进行图书的模糊搜索,减少图书搜索的成本,使得搜索成功率提高。
附图说明
图1显示为本申请一实施例中的图书搜索方法的流程示意图。
图2显示为本申请一实施例中的图书搜索系统的结构示意图。
图3显示为本申请一实施例中的电子装置的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
在通篇说明书中,当说某部分与另一部分“耦接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部分“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素,排除在外,而是意味着可以还包括其它构成要素。
其中提到的第一、第二及第三等术语是为了说明多样的部分、成份、区域、层及/或段而使用的,但并非限定于此。这些术语只用于把某部分、成份、区域、层或段区别于其它部分、成份、区域、层或段。因此,以下叙述的第一部分、成份、区域、层或段在不超出本申请范围的范围内,可以言及到第二部分、成份、区域、层或段。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
在现有图书馆搜索技术中,用户只能选择其中一个搜索类别(如“题名”、“责任者”等)进行搜索;或虽然可以全文搜索,但只能做到全字匹配,而无法实现模糊搜索。即便用户要搜索的图书真实存在,若用户无法准确提供“题名”、“责任者”等某一个搜索类别的关键词,即输入一个和多个模糊的关键词中包含了目标图书指定的搜索类别中不存在的字符时,则很难搜索到想要的图书。这增加了用户搜索图书的成本,降低了用户搜索图书的成功率。
因此,本申请提供一种图书搜索方法,用于解决现有技术中只能做到全字匹配,而无法实现模糊搜索,因而难搜索到想要的图书,增加了用户搜索图书的成本,降低了用户搜索图书的成功率的问题,使得用户可以进行图书的模糊搜索,减少图书搜索的成本,使得搜索成功率提高
所述方法包括:
定义分词索引项和全字索引项;
对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;
将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;按所述字符串的相关性评分从高到低输出搜索结果。
下面以附图1为参考,针对本申请得实施例进行详细说明,以便本申请所述技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限于此处说明的实施例。
如图1所示,为本申请实施例中的一种图书搜索方法的流程示意图。
步骤S11:定义分词索引项和全字索引项。
可选的,定义索引项,其中索引项分为采用分词索引的分词索引项,以及采用全字索引的全字索引项;
步骤S12:对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词。
可选的,对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;具体的,所述馆藏数据包括多条馆藏信息,所述馆藏数据经过每种馆藏信息的机读编号作为区分标准;每条馆藏信息具有的索引项与该书内容直接关联;每种馆藏信息对应的一个索引项为该馆藏信息下的一个假设“文档”,举例来说,某条馆藏信息的“题名”为该馆藏信息的一个“文档”。对经过区分的每种馆藏信息分别根据索引项进行索引,需要对每种馆藏信息的“文档”建立索引,若为分词索引项,则将该馆藏信息中的“文档”进行分词索引得到分词后的所有分词索引词;或若为全字索引项,则将该馆藏信息中的“文档”进行全字索引得到索引后的所有全字索引词。
步骤S13:将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分。
可选的,将输入的关键词的字符串与索引词进行匹配,所述索引词包括:分词索引词和全字索引词,当输入关键字字符串需要与分词索引词进行匹配时,首先将所述输入关键字的字符串进行与分词索引词对应的索引项的分词形式与精度完全一致的分词动作之后得到多个分词结果,再将每个分词结果分别作为一个独立的关键词进行分词索引词匹配,将匹配结果经过相关性计算得到所述关键字经过分词索引后的各索引项经过综合评分得到最终的相关性评分;当输入关键字字符串不需要与分词索引词进行匹配时,将所述输入关键字的字符串进行与全字索引词进行匹配,再进过相关性计算得到相关性评分。
步骤S14:按所述字符串的相关性评分从高到低输出搜索结果。
可选的,将所述字符串的进行综合后的相关性评分进行排列并按照从高到低的顺序输出搜索结果。
可选的,所述分词索引项包括:题名、出版发行项、丛编、以及附注中的一种或多种。
可选的,所述全字索引项包括:责任者、主题词、ISBN/ISSN号及价格等、分类号、副本、以及载体形态项中的一种或多种。
可选的,将输入的关键词的字符串与索引词进行匹配,所述索引词包括:分词索引词和全字索引词,当输入关键字字符串需要与分词索引词进行匹配时,首先将所述输入关键字的字符串进行与分词索引词对应的索引项的分词形式与精度完全一致的分词动作之后得到多个分词结果,再将每个分词结果分别作为一个独立的关键词进行分词索引词匹配,当输入关键字字符串不需要与分词索引词进行匹配时,将所述输入关键字的字符串进行与全字索引词进行匹配。
可选的,所述相关性计算运用TF/IDF算法,所述TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频(TF)是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率(IDF)的方法是文件集里包含的文件总数除以测定有多少份文件出现过“母牛”一词。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是lg(10,000,000/1,000)=4。最后的TF-IDF的分数为0.03*4=0.12。
可选的,将输入关键词的字符串与所述分词索引词和/或全字索引词分别进行匹配并进行相关性计算得到相关性评分,包括:将输入关键词的字符串与所述分词索引词和/或全字索引词分别进行匹配并进行相关性计算得到相关性计算结果,根据相关性计算结果进行加权计算得到相关性评分。具体的,当输入关键词的字符串需要全字匹配时,进行匹配并进行相关性计算得到相关性计算结果,根据相关性计算结果进行加权计算得到相关性评分;当某个索引项在定义时要求输入关键词需要分词时,要先将所述输入关键词按照所涉及分词索引项定义的分词精度进行分词后,再将所述输入关键经过分词后的每一部分作为独立的关键词,再对所述分词索引词及全字索引项进行匹配,再将每个独立的关键词与所述分词索引词或全字索引词的匹配结果经过相关性计算得到相关性结果,将所述相关性结果乘以对应索引项的权重值进行加权计算得到相关性评分。
举例来说,题名权重为5、出版发行项权重为5、丛编权重为5、以及附注权重为2,主题词权重为2、ISBN/ISSN号权重为1、分类号权重为5、副本权重为1.2、以及载体形态权重为1。
可选的,根据相关性计算结果进行加权计算得到相关性评分,包括:将所述相关性计算结果与所述索引项的权重值结合得到所述相关性评分。具体的,将所述相关性计算结果与所述索引项的权重值相加得到所述相关性评分。
与上述实施例原理相似的是,本申请提供一种图书搜索系统,包括:定义模块,用于定义分词索引项和全字索引项;索引模块,用于对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;相关性模块,用于将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;搜索结果模块,用于按所述字符串的相关性评分从高到低输出搜索结果。
以下结合附图提供具体实施例:
如图2所示,展示本申请实施例中的一种图书搜索系统的结构示意图。
定义模块21,用于定义分词索引项和全字索引项;具体的,用于定义索引项,其中索引项分为采用分词索引的分词索引项,以及采用全字索引的全字索引项。
索引模块22,用于对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;具体的,所述馆藏数据包括多条馆藏信息,所述馆藏数据经过每种馆藏信息的机读编号作为区分标准;每条馆藏信息具有的索引项与该书内容直接关联;每种馆藏信息对应的一个索引项为该馆藏信息下的一个假设“文档”,举例来说,某条馆藏信息的“题名”为该馆藏信息的一个“文档”。对经过区分的每种馆藏信息分别根据索引项进行索引,需要对每种馆藏信息的“文档”建立索引,若为分词索引项,则将该馆藏信息中的“文档”进行分词索引得到分词后的所有分词索引词;或若为全字索引项,则将该馆藏信息中的“文档”进行全字索引得到索引后的所有全字索引词。
相关性模块23,用于将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分,具体的,所述相关性模块23用于将输入的关键词的字符串与索引词进行匹配,所述索引词包括:分词索引词和全字索引词,当输入关键字字符串需要与分词索引词进行匹配时,首先将所述输入关键字的字符串进行与分词索引词对应的索引项的分词形式与精度完全一致的分词动作之后得到多个分词结果,再将每个分词结果分别作为一个独立的关键词进行分词索引词匹配,将匹配结果经过相关性计算得到所述关键字经过分词索引后的各索引项经过综合评分得到最终的相关性评分;当输入关键字字符串不需要与分词索引词进行匹配时,将所述输入关键字的字符串进行与全字索引词进行匹配,再进过相关性计算得到相关性评分。
搜索结果模块24,用于按所述字符串的相关性评分从高到低输出搜索结果。
如图3所示,展示本申请实施例中的电子装置30的结构示意图。
所述电子装置30包括:存储器31及处理器32所述存储器31用于存储计算机程序;所述处理器32运行计算机程序实现如图1所述的图书搜索方法。
可选的,所述存储器31的数量均可以是一或多个,所述处理器32的数量均可以是一或多个,而图3中均以一个为例。
可选的,所述电子装置30中的处理器32会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器31中,并由处理器32来运行存储在存储器31中的应用程序,从而实现如图1所述图书搜索方法中的各种功能。
可选的,所述存储器31,可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备;所述处理器32,可能包括但不限于中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选的,所述处理器32可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请还提供计算机可读存储介质,存储有计算机程序,所述计算机程序运行时实现如图1所示的图书搜索方法。所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
综上所述,本申请一种图书搜索方法、图书搜索系统、电子装置及介质,包括:定义分词索引项和全字索引项;对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;按所述字符串的相关性评分从高到低输出搜索结果。解决了现有技术中只能做到全字匹配,而无法实现模糊搜索,因而难搜索到想要的图书,增加了用户搜索图书的成本,降低了用户搜索图书的成功率的问题,使得用户可以进行图书的模糊搜索,减少图书搜索的成本,使得搜索成功率提高。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (10)
1.一种图书搜索方法,其特征在于,包括:
定义分词索引项和全字索引项;
对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;
将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;
按所述字符串的相关性评分从高到低输出搜索结果。
2.根据权利要求1所述的图书搜索方法,其特征在于,所述分词索引项包括:题名、出版发行项、丛编、以及附注中的一种或多种。
3.根据权利要求1所述的图书搜索方法,其特征在于,所述全字索引项包括:责任者、主题词、ISBN/ISSN号及价格等、分类号、副本、以及载体形态项中的一种或多种。
4.根据权利要求1所述的图书搜索方法,其特征在于,所述匹配为全字匹配和/或分词匹配。
5.根据权利要求1所述的图书搜索方法,其特征在于,所述相关性计算运用TF/IDF算法。
6.根据权利要求1所述的图书搜索方法,其特征在于,将输入关键词的字符串与所述分词索引词和/或全字索引词分别进行匹配并进行相关性计算得到相关性评分,包括:将输入关键词的字符串与所述分词索引词和/或全字索引词分别进行匹配并进行相关性计算得到相关性计算结果,根据相关性计算结果进行加权值计算得到相关性评分。
7.根据权利要求7所述的图书搜索方法,其特征在于,根据相关性计算结果进行加权计算得到相关性评分,包括:将所述相关性计算结果与所述索引项的权重值结合得到所述相关性评分。
8.一种图书搜索系统,其特征在于,包括:
定义模块,用于定义分词索引项和全字索引项;
索引模块,耦接所述定义模块,用于对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;
相关性模块,耦接所述索引模块,用于将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;
搜索结果模块,耦接所述相关性模块,用于按所述字符串的相关性评分从高到低输出搜索结果。
9.一种电子装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于运行所述计算机程序,以执行如权利要求1至8中任一项所述的图书搜索方法。
10.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序运行时实现如权利要求1至8中任一项所述的图书搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010441872.7A CN112015853B (zh) | 2020-05-22 | 2020-05-22 | 图书搜索方法、图书搜索系统、电子装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010441872.7A CN112015853B (zh) | 2020-05-22 | 2020-05-22 | 图书搜索方法、图书搜索系统、电子装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112015853A true CN112015853A (zh) | 2020-12-01 |
CN112015853B CN112015853B (zh) | 2024-04-09 |
Family
ID=73506883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010441872.7A Active CN112015853B (zh) | 2020-05-22 | 2020-05-22 | 图书搜索方法、图书搜索系统、电子装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112015853B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925817A (zh) * | 2021-03-11 | 2021-06-08 | 卢燕 | 图书馆书籍检索方法及检索系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0990998A2 (en) * | 1998-09-30 | 2000-04-05 | Canon Kabushiki Kaisha | Information search apparatus and method |
US6493705B1 (en) * | 1998-09-30 | 2002-12-10 | Canon Kabushiki Kaisha | Information search apparatus and method, and computer readable memory |
CN1432943A (zh) * | 2002-01-17 | 2003-07-30 | 北京标杆网络技术有限公司 | 标杆智能搜索引擎系统 |
US20100332502A1 (en) * | 2009-06-30 | 2010-12-30 | International Business Machines Corporation | Method and system for searching numerical terms |
CN101944086A (zh) * | 2009-07-10 | 2011-01-12 | 华中科技大学 | 全字索引词典 |
KR101489876B1 (ko) * | 2013-08-30 | 2015-02-06 | 고려대학교 산학협력단 | 암호화 문서 검색 시스템 및 방법 |
KR20170050680A (ko) * | 2015-10-30 | 2017-05-11 | 안홍범 | 키워드 검색 서비스 제공 서버 및 키워드 검색 서비스 제공 방법 |
-
2020
- 2020-05-22 CN CN202010441872.7A patent/CN112015853B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0990998A2 (en) * | 1998-09-30 | 2000-04-05 | Canon Kabushiki Kaisha | Information search apparatus and method |
US6493705B1 (en) * | 1998-09-30 | 2002-12-10 | Canon Kabushiki Kaisha | Information search apparatus and method, and computer readable memory |
CN1432943A (zh) * | 2002-01-17 | 2003-07-30 | 北京标杆网络技术有限公司 | 标杆智能搜索引擎系统 |
US20100332502A1 (en) * | 2009-06-30 | 2010-12-30 | International Business Machines Corporation | Method and system for searching numerical terms |
CN101944086A (zh) * | 2009-07-10 | 2011-01-12 | 华中科技大学 | 全字索引词典 |
KR101489876B1 (ko) * | 2013-08-30 | 2015-02-06 | 고려대학교 산학협력단 | 암호화 문서 검색 시스템 및 방법 |
KR20170050680A (ko) * | 2015-10-30 | 2017-05-11 | 안홍범 | 키워드 검색 서비스 제공 서버 및 키워드 검색 서비스 제공 방법 |
Non-Patent Citations (1)
Title |
---|
张启宇;于辉辉;陈英义;王磊;: "基于农业垂直搜索引擎中文分词词典的构建研究", 广东农业科学, no. 03 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925817A (zh) * | 2021-03-11 | 2021-06-08 | 卢燕 | 图书馆书籍检索方法及检索系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112015853B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162695B (zh) | 一种信息推送的方法及设备 | |
US8356035B1 (en) | Association of terms with images using image similarity | |
JP5616444B2 (ja) | 文書インデックス化およびデータクエリングのための方法およびシステム | |
US7630945B2 (en) | Building support vector machines with reduced classifier complexity | |
US10747759B2 (en) | System and method for conducting a textual data search | |
CN110807138B (zh) | 一种搜索对象类别的确定方法及装置 | |
KR102069341B1 (ko) | 전자 문서 검색 방법 및 그 서버 | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
EP2192503A1 (en) | Optimised tag based searching | |
US20220261429A1 (en) | System and method for improved similarity search for search engines | |
Jeong et al. | i-TagRanker: an efficient tag ranking system for image sharing and retrieval using the semantic relationships between tags | |
Sanyal et al. | Enhancing access to scholarly publications with surrogate resources | |
CN115630144A (zh) | 一种文档搜索方法、装置及相关设备 | |
US20150127657A1 (en) | Method and Computer for Indexing and Searching Structures | |
CN112015853B (zh) | 图书搜索方法、图书搜索系统、电子装置及介质 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
CN116226515B (zh) | 一种搜索结果排序方法、装置、电子设备和存储介质 | |
Desai et al. | A comparative study of information retrieval models for short document summaries | |
CN111985217B (zh) | 一种关键词提取方法、计算设备及可读存储介质 | |
CN111859066B (zh) | 一种运维工单的查询推荐方法及装置 | |
CN114020867A (zh) | 一种搜索词的扩展方法、装置、设备及介质 | |
Alshareef et al. | Article impact value for nearby citation network analysis | |
Dingare et al. | Abstractive Text Summarization using Machine Learning | |
CN115114505B (zh) | 在线教育内容分发系统 | |
US20160314125A1 (en) | Predictive Coding System and Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |