CN112015853B - 图书搜索方法、图书搜索系统、电子装置及介质 - Google Patents

图书搜索方法、图书搜索系统、电子装置及介质 Download PDF

Info

Publication number
CN112015853B
CN112015853B CN202010441872.7A CN202010441872A CN112015853B CN 112015853 B CN112015853 B CN 112015853B CN 202010441872 A CN202010441872 A CN 202010441872A CN 112015853 B CN112015853 B CN 112015853B
Authority
CN
China
Prior art keywords
word
index
word segmentation
full
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010441872.7A
Other languages
English (en)
Other versions
CN112015853A (zh
Inventor
赵安铭
卫刚
王志成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010441872.7A priority Critical patent/CN112015853B/zh
Publication of CN112015853A publication Critical patent/CN112015853A/zh
Application granted granted Critical
Publication of CN112015853B publication Critical patent/CN112015853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种图书搜索方法、图书搜索系统、电子装置及介质,包括:定义分词索引项和全字索引项;对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;按所述字符串的相关性评分从高到低输出搜索结果。解决了有技术中只能做到全字匹配,而无法实现模糊搜索,因而难搜索到想要的图书,增加了用户搜索图书的成本,降低了用户搜索图书的成功率的问题,使得用户可以进行图书的模糊搜索,减少图书搜索的成本,使得搜索成功率提高。

Description

图书搜索方法、图书搜索系统、电子装置及介质
技术领域
本申请涉及一种搜索引擎领域,特别是涉及一种图书搜索方法、图书搜索系统、电子装置及介质。
背景技术
图书馆搜索工具是读者获取图书馆藏信息和查找图书的主要途径,让读者能更准确地找到所需的图书,是图书馆搜索技术的发展方向。
在现有图书馆搜索技术中,用户只能选择其中一个搜索类别(如“题名”、“责任者”等)进行搜索;或虽然可以全文搜索,但只能做到全字匹配,而无法实现模糊搜索。即便用户要搜索的图书真实存在,若用户无法准确提供“题名”、“责任者”等某一个搜索类别的关键词,即输入一个和多个模糊的关键词中包含了目标图书指定的搜索类别中不存在的字符时,则很难搜索到想要的图书。这增加了用户搜索图书的成本,降低了用户搜索图书的成功率。
申请内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种图书搜索方法、图书搜索系统、电子装置及介质,用于解决现有技术中只能做到全字匹配,而无法实现模糊搜索,因而难搜索到想要的图书,增加了用户搜索图书的成本,降低了用户搜索图书的成功率的问题。
为实现上述目的及其他相关目的,本申请提供一种图书搜索方法,包括:定义分词索引项和全字索引项;对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;按所述字符串的相关性评分从高到低输出搜索结果。
于本申请的一实施例中,所述分词索引项包括:题名、出版发行项、丛编、以及附注中的一种或多种。
于本申请的一实施例中,所述全字索引项包括:责任者、主题词、ISBN/ISSN号及价格等、分类号、副本、以及载体形态项中的一种或多种。
于本申请的一实施例中,所述匹配为全字匹配和/或分词匹配。
于本申请的一实施例中,所述相关性计算运用TF/IDF算法。
于本申请的一实施例中,将输入关键词的字符串与所述分词索引词和/或全字索引词分别进行匹配并进行相关性计算得到相关性评分,包括:将输入关键词的字符串与所述分词索引词和/或全字索引词分别进行匹配并进行相关性计算得到相关性计算结果,根据相关性计算结果进行加权值计算得到相关性评分。
于本申请的一实施例中,根据相关性计算结果进行加权计算得到相关性评分,包括:将所述相关性计算结果与所述索引项的权重值结合得到所述相关性评分。
为实现上述目的及其他相关目的,本申请提供一种图书搜索系统,包括:定义模块,用于定义分词索引项和全字索引项;索引模块,耦接所述定义模块,用于对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;相关性模块,耦接所述索引模块,用于将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;搜索结果模块,耦接所述相关性模块,用于按所述字符串的相关性评分从高到低输出搜索结果。
为实现上述目的及其他相关目的,本申请提供一种电子装置,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述图书搜索方法。
为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述图书搜索方法。
如上所述,本申请的图书搜索方法、图书搜索系统、电子装置及介质,具有以下有益效果:解决了现有技术中只能做到全字匹配,而无法实现模糊搜索,因而难搜索到想要的图书,增加了用户搜索图书的成本,降低了用户搜索图书的成功率的问题,使得用户可以进行图书的模糊搜索,减少图书搜索的成本,使得搜索成功率提高。
附图说明
图1显示为本申请一实施例中的图书搜索方法的流程示意图。
图2显示为本申请一实施例中的图书搜索系统的结构示意图。
图3显示为本申请一实施例中的电子装置的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
在通篇说明书中,当说某部分与另一部分“耦接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部分“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素,排除在外,而是意味着可以还包括其它构成要素。
其中提到的第一、第二及第三等术语是为了说明多样的部分、成份、区域、层及/或段而使用的,但并非限定于此。这些术语只用于把某部分、成份、区域、层或段区别于其它部分、成份、区域、层或段。因此,以下叙述的第一部分、成份、区域、层或段在不超出本申请范围的范围内,可以言及到第二部分、成份、区域、层或段。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
在现有图书馆搜索技术中,用户只能选择其中一个搜索类别(如“题名”、“责任者”等)进行搜索;或虽然可以全文搜索,但只能做到全字匹配,而无法实现模糊搜索。即便用户要搜索的图书真实存在,若用户无法准确提供“题名”、“责任者”等某一个搜索类别的关键词,即输入一个和多个模糊的关键词中包含了目标图书指定的搜索类别中不存在的字符时,则很难搜索到想要的图书。这增加了用户搜索图书的成本,降低了用户搜索图书的成功率。
因此,本申请提供一种图书搜索方法,用于解决现有技术中只能做到全字匹配,而无法实现模糊搜索,因而难搜索到想要的图书,增加了用户搜索图书的成本,降低了用户搜索图书的成功率的问题,使得用户可以进行图书的模糊搜索,减少图书搜索的成本,使得搜索成功率提高
所述方法包括:
定义分词索引项和全字索引项;
对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;
将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;按所述字符串的相关性评分从高到低输出搜索结果。
下面以附图1为参考,针对本申请得实施例进行详细说明,以便本申请所述技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限于此处说明的实施例。
如图1所示,为本申请实施例中的一种图书搜索方法的流程示意图。
步骤S11:定义分词索引项和全字索引项。
可选的,定义索引项,其中索引项分为采用分词索引的分词索引项,以及采用全字索引的全字索引项;
步骤S12:对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词。
可选的,对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;具体的,所述馆藏数据包括多条馆藏信息,所述馆藏数据经过每种馆藏信息的机读编号作为区分标准;每条馆藏信息具有的索引项与该书内容直接关联;每种馆藏信息对应的一个索引项为该馆藏信息下的一个假设“文档”,举例来说,某条馆藏信息的“题名”为该馆藏信息的一个“文档”。对经过区分的每种馆藏信息分别根据索引项进行索引,需要对每种馆藏信息的“文档”建立索引,若为分词索引项,则将该馆藏信息中的“文档”进行分词索引得到分词后的所有分词索引词;或若为全字索引项,则将该馆藏信息中的“文档”进行全字索引得到索引后的所有全字索引词。
步骤S13:将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分。
可选的,将输入的关键词的字符串与索引词进行匹配,所述索引词包括:分词索引词和全字索引词,当输入关键字字符串需要与分词索引词进行匹配时,首先将所述输入关键字的字符串进行与分词索引词对应的索引项的分词形式与精度完全一致的分词动作之后得到多个分词结果,再将每个分词结果分别作为一个独立的关键词进行分词索引词匹配,将匹配结果经过相关性计算得到所述关键字经过分词索引后的各索引项经过综合评分得到最终的相关性评分;当输入关键字字符串不需要与分词索引词进行匹配时,将所述输入关键字的字符串进行与全字索引词进行匹配,再进过相关性计算得到相关性评分。
步骤S14:按所述字符串的相关性评分从高到低输出搜索结果。
可选的,将所述字符串的进行综合后的相关性评分进行排列并按照从高到低的顺序输出搜索结果。
可选的,所述分词索引项包括:题名、出版发行项、丛编、以及附注中的一种或多种。
可选的,所述全字索引项包括:责任者、主题词、ISBN/ISSN号及价格等、分类号、副本、以及载体形态项中的一种或多种。
可选的,将输入的关键词的字符串与索引词进行匹配,所述索引词包括:分词索引词和全字索引词,当输入关键字字符串需要与分词索引词进行匹配时,首先将所述输入关键字的字符串进行与分词索引词对应的索引项的分词形式与精度完全一致的分词动作之后得到多个分词结果,再将每个分词结果分别作为一个独立的关键词进行分词索引词匹配,当输入关键字字符串不需要与分词索引词进行匹配时,将所述输入关键字的字符串进行与全字索引词进行匹配。
可选的,所述相关性计算运用TF/IDF算法,所述TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频(TF)是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率(IDF)的方法是文件集里包含的文件总数除以测定有多少份文件出现过“母牛”一词。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是lg(10,000,000/1,000)=4。最后的TF-IDF的分数为0.03*4=0.12。
可选的,将输入关键词的字符串与所述分词索引词和/或全字索引词分别进行匹配并进行相关性计算得到相关性评分,包括:将输入关键词的字符串与所述分词索引词和/或全字索引词分别进行匹配并进行相关性计算得到相关性计算结果,根据相关性计算结果进行加权计算得到相关性评分。具体的,当输入关键词的字符串需要全字匹配时,进行匹配并进行相关性计算得到相关性计算结果,根据相关性计算结果进行加权计算得到相关性评分;当某个索引项在定义时要求输入关键词需要分词时,要先将所述输入关键词按照所涉及分词索引项定义的分词精度进行分词后,再将所述输入关键经过分词后的每一部分作为独立的关键词,再对所述分词索引词及全字索引项进行匹配,再将每个独立的关键词与所述分词索引词或全字索引词的匹配结果经过相关性计算得到相关性结果,将所述相关性结果乘以对应索引项的权重值进行加权计算得到相关性评分。
举例来说,题名权重为5、出版发行项权重为5、丛编权重为5、以及附注权重为2,主题词权重为2、ISBN/ISSN号权重为1、分类号权重为5、副本权重为1.2、以及载体形态权重为1。
可选的,根据相关性计算结果进行加权计算得到相关性评分,包括:将所述相关性计算结果与所述索引项的权重值结合得到所述相关性评分。具体的,将所述相关性计算结果与所述索引项的权重值相加得到所述相关性评分。
与上述实施例原理相似的是,本申请提供一种图书搜索系统,包括:定义模块,用于定义分词索引项和全字索引项;索引模块,用于对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;相关性模块,用于将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;搜索结果模块,用于按所述字符串的相关性评分从高到低输出搜索结果。
以下结合附图提供具体实施例:
如图2所示,展示本申请实施例中的一种图书搜索系统的结构示意图。
定义模块21,用于定义分词索引项和全字索引项;具体的,用于定义索引项,其中索引项分为采用分词索引的分词索引项,以及采用全字索引的全字索引项。
索引模块22,用于对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;具体的,所述馆藏数据包括多条馆藏信息,所述馆藏数据经过每种馆藏信息的机读编号作为区分标准;每条馆藏信息具有的索引项与该书内容直接关联;每种馆藏信息对应的一个索引项为该馆藏信息下的一个假设“文档”,举例来说,某条馆藏信息的“题名”为该馆藏信息的一个“文档”。对经过区分的每种馆藏信息分别根据索引项进行索引,需要对每种馆藏信息的“文档”建立索引,若为分词索引项,则将该馆藏信息中的“文档”进行分词索引得到分词后的所有分词索引词;或若为全字索引项,则将该馆藏信息中的“文档”进行全字索引得到索引后的所有全字索引词。
相关性模块23,用于将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分,具体的,所述相关性模块23用于将输入的关键词的字符串与索引词进行匹配,所述索引词包括:分词索引词和全字索引词,当输入关键字字符串需要与分词索引词进行匹配时,首先将所述输入关键字的字符串进行与分词索引词对应的索引项的分词形式与精度完全一致的分词动作之后得到多个分词结果,再将每个分词结果分别作为一个独立的关键词进行分词索引词匹配,将匹配结果经过相关性计算得到所述关键字经过分词索引后的各索引项经过综合评分得到最终的相关性评分;当输入关键字字符串不需要与分词索引词进行匹配时,将所述输入关键字的字符串进行与全字索引词进行匹配,再进过相关性计算得到相关性评分。
搜索结果模块24,用于按所述字符串的相关性评分从高到低输出搜索结果。
如图3所示,展示本申请实施例中的电子装置30的结构示意图。
所述电子装置30包括:存储器31及处理器32所述存储器31用于存储计算机程序;所述处理器32运行计算机程序实现如图1所述的图书搜索方法。
可选的,所述存储器31的数量均可以是一或多个,所述处理器32的数量均可以是一或多个,而图3中均以一个为例。
可选的,所述电子装置30中的处理器32会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器31中,并由处理器32来运行存储在存储器31中的应用程序,从而实现如图1所述图书搜索方法中的各种功能。
可选的,所述存储器31,可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备;所述处理器32,可能包括但不限于中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选的,所述处理器32可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请还提供计算机可读存储介质,存储有计算机程序,所述计算机程序运行时实现如图1所示的图书搜索方法。所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
综上所述,本申请一种图书搜索方法、图书搜索系统、电子装置及介质,包括:定义分词索引项和全字索引项;对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;按所述字符串的相关性评分从高到低输出搜索结果。解决了现有技术中只能做到全字匹配,而无法实现模糊搜索,因而难搜索到想要的图书,增加了用户搜索图书的成本,降低了用户搜索图书的成功率的问题,使得用户可以进行图书的模糊搜索,减少图书搜索的成本,使得搜索成功率提高。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种图书搜索方法,其特征在于,包括:
定义分词索引项和全字索引项;
对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;
将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;
按所述字符串的相关性评分从高到低输出搜索结果;
其中,将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分包括:
当输入关键词的字符串需要与分词索引词进行匹配时,将所述输入关键词的字符串进行与分词索引词对应的索引项的分词形式与精度完全一致的分词动作之后得到多个分词结果,再将每个分词结果分别作为一个独立的关键词进行分词索引词匹配,将匹配结果经过相关性计算得到所述关键词经过分词索引后的各索引项经过综合评分得到最终的相关性评分;
当输入关键字字符串不需要与分词索引词进行匹配时,将所述输入关键字的字符串进行与全字索引词进行匹配,再经过相关性计算得到相关性评分;
并且其中,相关性评分计算运用TF/IDF算法。
2.根据权利要求1所述的图书搜索方法,其特征在于,所述分词索引项包括:题名、出版发行项、丛编、以及附注中的一种或多种。
3.根据权利要求1所述的图书搜索方法,其特征在于,所述全字索引项包括:责任者、主题词、ISBN/ISSN号及价格等、分类号、副本、以及载体形态项中的一种或多种。
4.根据权利要求1所述的图书搜索方法,其特征在于,所述匹配为全字匹配和/或分词匹配。
5.根据权利要求1所述的图书搜索方法,其特征在于,所述相关性计算运用TF/IDF算法。
6.根据权利要求1所述的图书搜索方法,其特征在于,将输入关键词的字符串与所述分词索引词和/或全字索引词分别进行匹配并进行相关性计算得到相关性评分,包括:将输入关键词的字符串与所述分词索引词和/或全字索引词分别进行匹配并进行相关性计算得到相关性计算结果,根据相关性计算结果进行加权值计算得到相关性评分。
7.根据权利要求6所述的图书搜索方法,其特征在于,根据相关性计算结果进行加权计算得到相关性评分,包括:将所述相关性计算结果与所述索引项的权重值结合得到所述相关性评分。
8.一种图书搜索系统,其特征在于,包括:
定义模块,用于定义分词索引项和全字索引项;
索引模块,耦接所述定义模块,用于对馆藏数据根据所述分词索引项进行分词索引得到分词索引词,或根据所述全字索引项进行全字索引得到全字索引词;
相关性模块,耦接所述索引模块,用于将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分;
搜索结果模块,耦接所述相关性模块,用于按所述字符串的相关性评分从高到低输出搜索结果;
其中,将输入关键词的字符串与所述分词索引词或全字索引词分别进行匹配并进行相关性计算得到相关性评分包括:
当输入关键词的字符串需要与分词索引词进行匹配时,将所述输入关键词的字符串进行与分词索引词对应的索引项的分词形式与精度完全一致的分词动作之后得到多个分词结果,再将每个分词结果分别作为一个独立的关键词进行分词索引词匹配,将匹配结果经过相关性计算得到所述关键词经过分词索引后的各索引项经过综合评分得到最终的相关性评分;
当输入关键字字符串不需要与分词索引词进行匹配时,将所述输入关键字的字符串进行与全字索引词进行匹配,再经过相关性计算得到相关性评分;
并且其中,相关性评分计算运用TF/IDF算法。
9.一种电子装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于运行所述计算机程序,以执行如权利要求1至8中任一项所述的图书搜索方法。
10.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序运行时实现如权利要求1至8中任一项所述的图书搜索方法。
CN202010441872.7A 2020-05-22 2020-05-22 图书搜索方法、图书搜索系统、电子装置及介质 Active CN112015853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010441872.7A CN112015853B (zh) 2020-05-22 2020-05-22 图书搜索方法、图书搜索系统、电子装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010441872.7A CN112015853B (zh) 2020-05-22 2020-05-22 图书搜索方法、图书搜索系统、电子装置及介质

Publications (2)

Publication Number Publication Date
CN112015853A CN112015853A (zh) 2020-12-01
CN112015853B true CN112015853B (zh) 2024-04-09

Family

ID=73506883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010441872.7A Active CN112015853B (zh) 2020-05-22 2020-05-22 图书搜索方法、图书搜索系统、电子装置及介质

Country Status (1)

Country Link
CN (1) CN112015853B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925817A (zh) * 2021-03-11 2021-06-08 卢燕 图书馆书籍检索方法及检索系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0990998A2 (en) * 1998-09-30 2000-04-05 Canon Kabushiki Kaisha Information search apparatus and method
US6493705B1 (en) * 1998-09-30 2002-12-10 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
CN1432943A (zh) * 2002-01-17 2003-07-30 北京标杆网络技术有限公司 标杆智能搜索引擎系统
CN101944086A (zh) * 2009-07-10 2011-01-12 华中科技大学 全字索引词典
KR101489876B1 (ko) * 2013-08-30 2015-02-06 고려대학교 산학협력단 암호화 문서 검색 시스템 및 방법
KR20170050680A (ko) * 2015-10-30 2017-05-11 안홍범 키워드 검색 서비스 제공 서버 및 키워드 검색 서비스 제공 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8180785B2 (en) * 2009-06-30 2012-05-15 International Business Machines Corporation Method and system for searching numerical terms

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0990998A2 (en) * 1998-09-30 2000-04-05 Canon Kabushiki Kaisha Information search apparatus and method
US6493705B1 (en) * 1998-09-30 2002-12-10 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
CN1432943A (zh) * 2002-01-17 2003-07-30 北京标杆网络技术有限公司 标杆智能搜索引擎系统
CN101944086A (zh) * 2009-07-10 2011-01-12 华中科技大学 全字索引词典
KR101489876B1 (ko) * 2013-08-30 2015-02-06 고려대학교 산학협력단 암호화 문서 검색 시스템 및 방법
KR20170050680A (ko) * 2015-10-30 2017-05-11 안홍범 키워드 검색 서비스 제공 서버 및 키워드 검색 서비스 제공 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于农业垂直搜索引擎中文分词词典的构建研究;张启宇;于辉辉;陈英义;王磊;;广东农业科学(03);全文 *

Also Published As

Publication number Publication date
CN112015853A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
Bennani-Smires et al. Simple unsupervised keyphrase extraction using sentence embeddings
US9418144B2 (en) Similar document detection and electronic discovery
US8533203B2 (en) Identifying synonyms of entities using a document collection
Bhagavatula et al. Methods for exploring and mining tables on wikipedia
Roshdi et al. Information retrieval techniques and applications
WO2008106667A1 (en) Searching heterogeneous interrelated entities
CN107844493B (zh) 一种文件关联方法及系统
CN110807138B (zh) 一种搜索对象类别的确定方法及装置
EP2631815A1 (en) Method and device for ordering search results, method and device for providing information
CN110019669B (zh) 一种文本检索方法及装置
CN111797239A (zh) 应用程序的分类方法、装置及终端设备
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
CN109885813A (zh) 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
CN114090762B (zh) 一种期货领域的自动问答方法和系统
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN115905489A (zh) 一种提供招投标信息搜索服务的方法
US20150127657A1 (en) Method and Computer for Indexing and Searching Structures
CN109522275B (zh) 基于用户生产内容的标签挖掘方法、电子设备及存储介质
CN112015853B (zh) 图书搜索方法、图书搜索系统、电子装置及介质
Park et al. A vector space approach to tag cloud similarity ranking
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
CN116226515A (zh) 一种搜索结果排序方法、装置、电子设备和存储介质
Foley et al. Smith at TREC2019: Learning to Rank Background Articles with Poetry Categories and Keyphrase Extraction.
Arkok et al. Classification of Quranic topics based on imbalanced classification
CN111859066B (zh) 一种运维工单的查询推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant