CN113157869A - 一种文档精准定位检索方法及系统 - Google Patents

一种文档精准定位检索方法及系统 Download PDF

Info

Publication number
CN113157869A
CN113157869A CN202110489413.0A CN202110489413A CN113157869A CN 113157869 A CN113157869 A CN 113157869A CN 202110489413 A CN202110489413 A CN 202110489413A CN 113157869 A CN113157869 A CN 113157869A
Authority
CN
China
Prior art keywords
retrieval
keyword
keywords
paragraph
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110489413.0A
Other languages
English (en)
Inventor
张国豹
孙艳芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rizhao Lanou Information Technology Co ltd
Original Assignee
Rizhao Lanou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rizhao Lanou Information Technology Co ltd filed Critical Rizhao Lanou Information Technology Co ltd
Priority to CN202110489413.0A priority Critical patent/CN113157869A/zh
Publication of CN113157869A publication Critical patent/CN113157869A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于数据处理技术领域,尤其涉及一种文档精准定位检索方法及系统,所述方法包括:获取用户键入的初始检索条件信息以及待检索文档;检索类型标志符为模糊检索时,对待处理关键词组进行纠偏处理,得到纠偏关键词组;对待检索文档进行关键词提取处理,得到段落关键词对应信息表;根据纠偏关键词组检索段落关键词对应信息表,生成检索结果。本发明对用户键入的关键词进行分析,从而判断其为精准检索还是模糊检索,通过模糊检索按照用户键入的关键词进行主动纠偏,得到模糊检索关键词,然后对文档进行关键词提取,通过关键词之间的匹配情况进行文档的精准定位,提高了检索的精确度,避免了因关键词偏差导致的时间浪费,提升了检索效率。

Description

一种文档精准定位检索方法及系统
技术领域
本发明属于数据处理技术领域,尤其涉及一种文档精准定位检索方法及系统。
背景技术
数据检索即把数据库中存储的数据根据用户的需求提取出来。数据检索的结果会生成一个数据表,既可以放回数据库,也可以作为进一步处理的对象。在当前的生活中,数据检索非常常见,例如在生活中需要检索某一个东西的用途时,会在搜索引擎上搜索相应的信息。
现有技术中的数据检索,有的应用于数据处理,有的应用于信息的检索。在信息检索方面,用户在键入需要检索的关键词之后,搜索引擎会根据关键词进行检索,其检索方式为按照关键词进行比对,从而根据检索的结果,生成相关的推荐信息,而推荐信息的排序方式则是按照其与关键词之间的匹配程度排列得到的。
但是,当前的文档检索技术中,其利用关键词进行检索,关键词必须完全与文档中的文字精确匹配才能够定位到,因此,如果用户键入的关键词并不完全正确,将会无法精确的检索到相关内容,用户只能够调整关键词,最终才能检索成功,总得来说,存在检索效率低的问题。
发明内容
本发明实施例的目的在于提供一种文档精准定位检索方法,旨在解决背景技术中提出的问题。
本发明实施例是这样实现的,一种文档精准定位检索方法,所述方法包括:
获取用户键入的初始检索条件信息以及待检索文档,所述初始检索条件信息至少包含检索类型标志符和待处理关键词组,检索类型标志符包括精准检索和模糊检索;
检索类型标志符为模糊检索时,对待处理关键词组进行纠偏处理,得到纠偏关键词组;
对待检索文档进行关键词提取处理,得到段落关键词对应信息表;
根据纠偏关键词组检索段落关键词对应信息表,生成检索结果。
优选的,所述检索类型标志符为模糊检索时,对待处理关键词组进行纠偏处理的步骤,具体包括:
根据检索类型标志符判断检索类型;
若检索类型为模糊检索,则拆分待处理关键词组为至少一个主要关键词,并根据每一个主要关键词匹配多个辅助关键词,所述辅助关键词为与主要关键词同义或者近义的词语或者字,主要关键词与辅助关键词共同构成临时关键词组;
将所有主要关键词对应的临时关键词组求交集,得到纠偏关键词组。
优选的,所述拆分待处理关键词组为至少一个主要关键词的步骤,具体包括:
按照拆分待处理关键词组的输入顺序对其进行节选,得到多个文字组,所述文字组包含两个文字,且被节选出的文字均相邻;
逐个增加被节选的文字数量,并重复上述步骤,直至被节选的文字数量等同于拆分待处理关键词组中文字的数量;
将所有文字组进行联网筛选,剔除其中无法组成网络词典中的已有词语,得到多个主要关键词。
优选的,所述对待检索文档进行关键词提取处理,得到段落关键词对应信息表的步骤,具体包括:
对待检索文档进行段落编号;
为每一个经编号的段落进行分割,得到多个原文长句;
分析原文长句,提取段落关键词;
根据段落关键词与段落之间的包含关系,生成段落关键词对应信息表。
优选的,所述根据纠偏关键词组检索段落关键词对应信息表,生成检索结果的步骤,具体包括:
逐个读取纠偏关键词组;
将各个纠偏关键词组与段落关键词对应信息表中的段落关键词进行匹配,得到匹配结果;
统计匹配结果中每一个段落对应纠偏关键词组的数量;
按照段落对应纠偏关键词组的数量对匹配结果进行排序,得到检索结果。
优选的,所述根据检索类型标志符判断检索类型的步骤之后,还包括:
若检索类型为精准检索,则根据待处理关键词组生成纠偏关键词组。
优选的,所述对匹配结果进行排序的方法为冒泡排序法。
本发明实施例的另一目的在于提供一种文档精准定位检索系统,所述文档精准定位检索系统包括:
信息获取模块,用于获取用户键入的初始检索条件信息以及待检索文档,所述初始检索条件信息至少包含检索类型标志符和待处理关键词组,检索类型标志符包括精准检索和模糊检索;
关键词纠偏模块,用于检索类型标志符为模糊检索时,对待处理关键词组进行纠偏处理,得到纠偏关键词组;
文档关键词提取模块,用于对待检索文档进行关键词提取处理,得到段落关键词对应信息表;
检索模块,用于根据纠偏关键词组检索段落关键词对应信息表,生成检索结果。
优选的,所述关键词纠偏模块包括:
检索类型判断单元,用于根据检索类型标志符判断检索类型;
关键词纠偏单元,用于若检索类型为模糊检索,则拆分待处理关键词组为至少一个主要关键词,并根据每一个主要关键词匹配多个辅助关键词,所述辅助关键词为与主要关键词同义或者近义的词语或者字,主要关键词与辅助关键词共同构成临时关键词组;
关键词生成单元,用于将所有主要关键词对应的临时关键词组求交集,得到纠偏关键词组。
优选的,所述关键词纠偏单元包括:
关键词初选子单元,用于按照拆分待处理关键词组的输入顺序对其进行节选,得到多个文字组,所述文字组包含两个文字,且被节选出的文字均相邻;
关键词复选子单元,用于逐个增加被节选的文字数量,并重复上述步骤,直至被节选的文字数量等同于拆分待处理关键词组中文字的数量;
关键词剔除子单元,用于将所有文字组进行联网筛选,剔除其中无法组成网络词典中的已有词语,得到多个主要关键词。
本发明实施例提供的一种文档精准定位检索方法,首先对用户键入的关键词进行分析,从而判断其为精准检索还是模糊检索,然后通过模糊检索按照用户键入的关键词进行主动纠偏,从而得到模糊检索关键词,然后对文档进行关键词提取,从而通过两组关键词之间的匹配情况进行文档的精准定位,提高了检索的精确度,避免了因关键词偏差导致的时间浪费,提升了检索效率。
附图说明
图1为本发明实施例提供的一种文档精准定位检索方法的流程图;
图2为本发明实施例提供的检索类型标志符为模糊检索时,对待处理关键词组进行纠偏处理的步骤的流程图;
图3为本发明实施例提供的拆分待处理关键词组为至少一个主要关键词的流程图;
图4为本发明实施例提供的进行关键词提取处理并得到段落关键词对应信息表步骤的流程图;
图5为本发明实施例提供的检索段落关键词对应信息表并生成检索结果的步骤的流程图;
图6为本发明实施例提供的文档精准定位检索系统的架构图;
图7为本发明实施例提供的关键词纠偏模块的架构图;
图8为本发明实施例提供的关键词纠偏单元的架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
当前的文档检索技术中,其利用关键词进行检索,关键词必须完全与文档中的文字精确匹配才能够定位到,因此,如果用户键入的关键词并不完全正确,将会无法精确的检索到相关内容,用户只能够调整关键词,最终才能检索成功,总得来说,存在检索效率低的问题。
在本发明中,首先对用户键入的关键词进行分析,从而判断其为精准检索还是模糊检索,然后通过模糊检索按照用户键入的关键词进行主动纠偏,从而得到模糊检索关键词,然后对文档进行关键词提取,从而通过两组关键词之间的匹配情况进行文档的精准定位,提高了检索的精确度,避免了因关键词偏差导致的时间浪费,提升了检索效率。
图1为本发明实施例提供的一种文档精准定位检索方法的流程图,包括以下步骤:
S100,获取用户键入的初始检索条件信息以及待检索文档。
在当前的文档检索方法中,用户在键入需要检索的关键词之后,搜索引擎会根据关键词进行检索,其检索方式为按照关键词进行比对,从而根据检索的结果,生成相关的推荐信息,而推荐信息的排序方式则是按照其与关键词之间的匹配程度排列得到的。
在本步骤中,首先获取初始检索条件信息以及待检索文档,所述初始检索条件信息至少包含检索类型标志符和待处理关键词组,检索类型标志符包括精准检索和模糊检索,初始检索条件是用户直接输入的,也可以是从文字文档中提取的,而待检索文档则是用户提供的,或者直接可以从网络上下载的,检索类型标志符至少应该包含两种,两种检索类型标志符分别代表精准检索和模糊检索,所谓精准检索,代表用户确定当前键入的初始检索条件是精准的,只需要按照初始检索条件进行检索,文档中必须存在与其完全相同的内容才会产生相应的检索结果,但是由于用户在检索时,有时并不能保证其键入的信息是完全精准的,比如,用户想要检索的信息为“购买”,但是用户无法确定具体的关键词,因此其键入的信息只能是与之相关的词语,诸如“买卖”、“交易”和“获取”等,这些词语与用于预想的需要检索的信息相关。
S200,检索类型标志符为模糊检索时,对待处理关键词组进行纠偏处理,得到纠偏关键词组。
在本步骤中,在得到用户输入的检索类型标志符和待处理关键词组之后,首先根据检索类型标志符确定此次检索的类型,当其为精准检索时,直接以待处理关键词组为基础进行精准检索即可,但是当需要进行模糊检索时,首先就需要根据用户输入的待处理关键词组进行纠偏处理,通过对待处理关键词组的分析,生成相应的纠偏关键词,纠偏关键词是根据待处理关键词组中各文字或者词句的含义,共同确定的。
S300,对待检索文档进行关键词提取处理,得到段落关键词对应信息表。
在本步骤中,首先对待检索文档进行关键词提取处理,从而实现对待检索文档进行简化的目的,比如,对于一篇上万字的文档而言,其实际上会被划分为多个段落,每个段落所涵盖的内容相近,也就是每个段落描述的内容是单独的,因此根据上述规律,可以对每一个段落进行段落关键词的提取,通过少数的段落关键词将整个文档的内容涵盖,而段落关键词对应信息表则是用于记载每一个段落所对应的段落关键词,两者存在映射关系。
S400,根据纠偏关键词组检索段落关键词对应信息表,生成检索结果。
在本步骤中,在上述步骤中,通过对段落进行段落关键词的提取,从而得到了段落关键词对应信息表,因此段落关键词对应信息表中的段落关键词能够表征待检索文档中的各个段落,实际检索时则不需要对待检索文档的原文进行检索,只需要对段落关键词进行检索即可,因此答复缩短了检索的工作量,提高了检索速度,在检索之后,将会确定几个段落关键词,这几个段落关键词是与纠偏关键词重合的,因此直接可以锁定待检索文档中被检索到的位置,以实现精准定位。
如图2所示,作为本发明一个优选的实施例,所述检索类型标志符为模糊检索时,对待处理关键词组进行纠偏处理的步骤,具体包括:
S201,根据检索类型标志符判断检索类型。
在本步骤中,首先对检索类型进行分析,以判断此次检索是精准检索还是模糊检索,当然,可以设置三种检索类型标志符,三种检索类型标志符分别可以代表精准检索、模糊检索和复合检索,所述复合检索为先进行精准检索,当精准检索没有结果时,再采取模糊检索。
S202,若检索类型为模糊检索,则拆分待处理关键词组为至少一个主要关键词,并根据每一个主要关键词匹配多个辅助关键词,所述辅助关键词为与主要关键词同义或者近义的词语或者字,主要关键词与辅助关键词共同构成临时关键词组。
在本步骤中,在判断结束之后,若检索类型为模糊检索,那么首先将初始检索条件信息中包含的待处理关键词组进行拆分,用户键入的待处理关键词可以为长句,因此此处首先对其进行简化处理,直接去除其中不影响文意的辅助词,连接词等,然后就得到了多个主要关键词,主要关键词是构成整个语句的核心,然后利用主要关键词进行辅助关键词的匹配,上述匹配方式可以为网络检索,通俗来讲,就是在网络上搜索与主要关键词词义相近或者相同的词语,这些词语则作为辅助关键词,由于一个主要关键词将会对应多个辅助关键词,因此将主要关键词与辅助关键词共同构成临时关键词组,即一个主要关键词对应一个临时关键词组。
若检索类型为精准检索,直接跳转至下一步S400,即将待处理关键词组直接视为纠偏关键词组,执行步骤S400。
S203,将所有主要关键词对应的临时关键词组求交集,得到纠偏关键词组。
在本步骤中,由于一个主要关键词可能会对应多个辅助关键词,并且主要关键词都是用户用于描述其想要检索的目标的,因此通过这些主要关键词的范围能够对检索目标进行确认,实际操作时,每一个主要关键词都对应多个与之相关的辅助关键词,相当于以主要关键词为圆形,以辅助关键词为半径进行范围的划分,在绘制的多个圆中,将会存在交集,交集中的辅助关键词为检索目标的可能性最大,因此可以将位于交集中的辅助关键词进行排序,将其定义为纠偏关键词组即可。
如图3所示,作为本发明一个优选的实施例,所述拆分待处理关键词组为至少一个主要关键词的步骤,具体包括:
S2021,按照拆分待处理关键词组的输入顺序对其进行节选,得到多个文字组,所述文字组包含两个文字,且被节选出的文字均相邻。
S2022,逐个增加被节选的文字数量,并重复上述步骤,直至被节选的文字数量等同于拆分待处理关键词组中文字的数量。
在本步骤中,在进行待处理关键词组的拆分时,首先对待处理关键词组进行文字节选,具体的,首先从待处理关键词组的前两个字开始,每次节选两个文字,以下举例说明,待处理关键词组为“ABC……H”,那么先截取“AB”、“BC”,直至“GH”,此处筛选的为长度为两个字的关键词,然后增加节选文字的数量,每次增加一个文字,即在第二次进行文字节选的时候,节选得到的关键词为“ABC”、“BCD”、直至“FGH”,按照上述顺序,最长的截取长度等于待处理关键词组包含的字数,即最长的关键词为“ABC……H”。
S2023,将所有文字组进行联网筛选,剔除其中无法组成网络词典中的已有词语,得到多个主要关键词。
在本步骤中,对于上述节选的得到的关键词,有的无法组成词语,因此通过在互联网中进行检索,将无法组成词语的关键词删除,因此在此步骤中,对所有的文字组进行检索即可,最终剩下的为主要关键词。
如图4所示,作为本发明一个优选的实施例,所述对待检索文档进行关键词提取处理,得到段落关键词对应信息表的步骤,具体包括:
S401,对待检索文档进行段落编号。
在本步骤中,为了便于后续的关键词提取,首先对文档的段落进行编号,对于没有分段的文档,先对其进行分段,然后进行编号即可。
S402,为每一个经编号的段落进行分割,得到多个原文长句。
在本步骤中,由于部分段落较长,难以用少数的关键词进行表征,因此先对其进行细分,将其分割为多个原文长句,原文长句为完整的句子,语义连续,方便提取关键词。
S403,分析原文长句,提取段落关键词。
在本步骤中,对每一个原文长句进行分析,分析其具体含义,最终以段落关键词表征,在分析时,首先剔除原文长句中的修饰词和连接词,比如“与此同时”、“然后”等,通过简化之后,以便于提取段落关键词。
S404,根据段落关键词与段落之间的包含关系,生成段落关键词对应信息表。
在本步骤中,经过段落关键词提取之后,在同一个段落内将会产生多个关键词,因此在检索时,根据任意一个关键词都能过定位到具体的段落和句子,此处将段落关键词与段落形成映射关系,以便于后续的查找。
如图5所示,作为本发明一个优选的实施例,所述根据纠偏关键词组检索段落关键词对应信息表,生成检索结果的步骤,具体包括:
S501,逐个读取纠偏关键词组。
S502,将各个纠偏关键词组与段落关键词对应信息表中的段落关键词进行匹配,得到匹配结果。
在本步骤中,在进行实际检索的时候,首先读取每一个纠偏关键词组,然后以此为基础进行检索,即每次将一个纠偏关键词组与所有的段落关键词进行匹配,分别得到每一个纠偏关键词组对应的匹配结果,直至将所有的纠偏关键词组都经过匹配。
S503,统计匹配结果中每一个段落对应纠偏关键词组的数量。
在本步骤中,对于每一个匹配结果而言,可能会存在多个段落关键词能够与纠偏关键词组对应上,当两者的相关性越大,两者对应的数量也就越多,因此此处需要根据匹配结果进行数量统计,以进一步确认定位位置。
S504,按照段落对应纠偏关键词组的数量对匹配结果进行排序,得到检索结果。
在本步骤中,在数量统计之后,段落关键词与纠偏关键词组对应的数量最大,其排名越靠前,因此在检索结果中,其排名也就更加靠前,检索结果中的排名越往后,段落关键词与纠偏关键词组对应的数量越小;排序方法采用冒泡排序法。
如图6所示,为本发明提供的一种文档精准定位检索系统,所述文档精准定位检索系统包括:
信息获取模块100,用于获取用户键入的初始检索条件信息以及待检索文档,所述初始检索条件信息至少包含检索类型标志符和待处理关键词组,检索类型标志符包括精准检索和模糊检索。
在本系统中,信息获取模块100首先获取初始检索条件信息以及待检索文档,所述初始检索条件信息至少包含检索类型标志符和待处理关键词组,检索类型标志符包括精准检索和模糊检索,初始检索条件是用户直接输入的,也可以是从文字文档中提取的,而待检索文档则是用户提供的,或者直接可以从网络上下载的,检索类型标志符至少应该包含两种,两种检索类型标志符分别代表精准检索和模糊检索。
关键词纠偏模块200,用于检索类型标志符为模糊检索时,对待处理关键词组进行纠偏处理,得到纠偏关键词组。
在本系统中,关键词纠偏模块200根据检索类型标志符确定此次检索的类型,当其为精准检索时,直接以待处理关键词组为基础进行精准检索即可,但是当需要进行模糊检索时,首先就需要根据用户输入的待处理关键词组进行纠偏处理,通过对待处理关键词组的分析,生成相应的纠偏关键词,纠偏关键词是根据待处理关键词组中各文字或者词句的含义,共同确定的。
文档关键词提取模块300,用于对待检索文档进行关键词提取处理,得到段落关键词对应信息表。
在本系统中,文档关键词提取模块300首先对待检索文档进行关键词提取处理,从而实现对待检索文档进行简化的目的,比如,对于一篇上万字的文档而言,其实际上会被划分为多个段落,每个段落所涵盖的内容相近,也就是每个段落描述的内容是单独的,因此根据上述规律,可以对每一个段落进行段落关键词的提取,通过少数的段落关键词将整个文档的内容涵盖,而段落关键词对应信息表则是用于记载每一个段落所对应的段落关键词,两者存在映射关系。
检索模块400,用于根据纠偏关键词组检索段落关键词对应信息表,生成检索结果。
在本系统中,检索模块400在实际检索时则不需要对待检索文档的原文进行检索,只需要对段落关键词进行检索即可,因此答复缩短了检索的工作量,提高了检索速度,在检索之后,将会确定几个段落关键词,这几个段落关键词是与纠偏关键词重合的,因此直接可以锁定待检索文档中被检索到的位置,以实现精准定位。
如图7所示,为本发明提供的关键词纠偏模块,包括:
检索类型判断单元201,用于根据检索类型标志符判断检索类型。
在本模块中,检索类型判断单元201首先对检索类型进行分析,以判断此次检索是精准检索还是模糊检索。
关键词纠偏单元202,用于若检索类型为模糊检索,则拆分待处理关键词组为至少一个主要关键词,并根据每一个主要关键词匹配多个辅助关键词。
在本模块中,关键词纠偏单元202在判断结束之后,若检索类型为模糊检索,那么首先将初始检索条件信息中包含的待处理关键词组进行拆分,用户键入的待处理关键词可以为长句,因此此处首先对其进行简化处理,直接去除其中不影响文意的辅助词,连接词等,然后就得到了多个主要关键词。
关键词生成单元203,用于将所有主要关键词对应的临时关键词组求交集,得到纠偏关键词组。
在本模块中,关键词生成单元203通过这些主要关键词的范围能够对检索目标进行确认,实际操作时,每一个主要关键词都对应多个与之相关的辅助关键词。
如图8所示,为本发明提供的关键词纠偏单元,包括:
关键词初选子单元2021,用于按照拆分待处理关键词组的输入顺序对其进行节选,得到多个文字组。
在本单元中,关键词初选子单元2021用于按照拆分待处理关键词组的输入顺序对其进行节选,得到多个文字组,所述文字组包含两个文字,且被节选出的文字均相邻。
关键词复选子单元2022,用于逐个增加被节选的文字数量,并重复上述步骤,直至被节选的文字数量等同于拆分待处理关键词组中文字的数量。
在本单元中,关键词复选子单元2022重复上述步骤,直至将所有的文字组合都经过节选。
关键词剔除子单元2023,用于将所有文字组进行联网筛选,剔除其中无法组成网络词典中的已有词语,得到多个主要关键词。
在本单元中,关键词剔除子单元2023对于上述节选的得到的关键词,有的无法组成词语,因此通过在互联网中进行检索,将无法组成词语的关键词删除,因此在此步骤中,对所有的文字组进行检索即可,最终剩下的为主要关键词。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文档精准定位检索方法,其特征在于,所述方法包括:
获取用户键入的初始检索条件信息以及待检索文档,所述初始检索条件信息至少包含检索类型标志符和待处理关键词组,检索类型标志符包括精准检索和模糊检索;
检索类型标志符为模糊检索时,对待处理关键词组进行纠偏处理,得到纠偏关键词组;
对待检索文档进行关键词提取处理,得到段落关键词对应信息表;
根据纠偏关键词组检索段落关键词对应信息表,生成检索结果。
2.根据权利要求1所述的文档精准定位检索方法,其特征在于,所述检索类型标志符为模糊检索时,对待处理关键词组进行纠偏处理的步骤,具体包括:
根据检索类型标志符判断检索类型;
若检索类型为模糊检索,则拆分待处理关键词组为至少一个主要关键词,并根据每一个主要关键词匹配多个辅助关键词,所述辅助关键词为与主要关键词同义或者近义的词语或者字,主要关键词与辅助关键词共同构成临时关键词组;
将所有主要关键词对应的临时关键词组求交集,得到纠偏关键词组。
3.根据权利要求2所述的文档精准定位检索方法,其特征在于,所述拆分待处理关键词组为至少一个主要关键词的步骤,具体包括:
按照拆分待处理关键词组的输入顺序对其进行节选,得到多个文字组,所述文字组包含两个文字,且被节选出的文字均相邻;
逐个增加被节选的文字数量,并重复上述步骤,直至被节选的文字数量等同于拆分待处理关键词组中文字的数量;
将所有文字组进行联网筛选,剔除其中无法组成网络词典中的已有词语,得到多个主要关键词。
4.根据权利要求1所述的文档精准定位检索方法,其特征在于,所述对待检索文档进行关键词提取处理,得到段落关键词对应信息表的步骤,具体包括:
对待检索文档进行段落编号;
为每一个经编号的段落进行分割,得到多个原文长句;
分析原文长句,提取段落关键词;
根据段落关键词与段落之间的包含关系,生成段落关键词对应信息表。
5.根据权利要求1所述的文档精准定位检索方法,其特征在于,所述根据纠偏关键词组检索段落关键词对应信息表,生成检索结果的步骤,具体包括:
逐个读取纠偏关键词组;
将各个纠偏关键词组与段落关键词对应信息表中的段落关键词进行匹配,得到匹配结果;
统计匹配结果中每一个段落对应纠偏关键词组的数量;
按照段落对应纠偏关键词组的数量对匹配结果进行排序,得到检索结果。
6.根据权利要求2所述的文档精准定位检索方法,其特征在于,所述根据检索类型标志符判断检索类型的步骤之后,还包括:
若检索类型为精准检索,则根据待处理关键词组生成纠偏关键词组。
7.根据权利要求5所述的文档精准定位检索方法,其特征在于,所述对匹配结果进行排序的方法为冒泡排序法。
8.一种文档精准定位检索系统,其特征在于,所述文档精准定位检索系统包括:
信息获取模块,用于获取用户键入的初始检索条件信息以及待检索文档,所述初始检索条件信息至少包含检索类型标志符和待处理关键词组,检索类型标志符包括精准检索和模糊检索;
关键词纠偏模块,用于检索类型标志符为模糊检索时,对待处理关键词组进行纠偏处理,得到纠偏关键词组;
文档关键词提取模块,用于对待检索文档进行关键词提取处理,得到段落关键词对应信息表;
检索模块,用于根据纠偏关键词组检索段落关键词对应信息表,生成检索结果。
9.根据权利要求8所述的文档精准定位检索系统,其特征在于,所述关键词纠偏模块包括:
检索类型判断单元,用于根据检索类型标志符判断检索类型;
关键词纠偏单元,用于若检索类型为模糊检索,则拆分待处理关键词组为至少一个主要关键词,并根据每一个主要关键词匹配多个辅助关键词,所述辅助关键词为与主要关键词同义或者近义的词语或者字,主要关键词与辅助关键词共同构成临时关键词组;
关键词生成单元,用于将所有主要关键词对应的临时关键词组求交集,得到纠偏关键词组。
10.根据权利要求8所述的文档精准定位检索系统,其特征在于,所述关键词纠偏单元包括:
关键词初选子单元,用于按照拆分待处理关键词组的输入顺序对其进行节选,得到多个文字组,所述文字组包含两个文字,且被节选出的文字均相邻;
关键词复选子单元,用于逐个增加被节选的文字数量,并重复上述步骤,直至被节选的文字数量等同于拆分待处理关键词组中文字的数量;
关键词剔除子单元,用于将所有文字组进行联网筛选,剔除其中无法组成网络词典中的已有词语,得到多个主要关键词。
CN202110489413.0A 2021-05-06 2021-05-06 一种文档精准定位检索方法及系统 Pending CN113157869A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110489413.0A CN113157869A (zh) 2021-05-06 2021-05-06 一种文档精准定位检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110489413.0A CN113157869A (zh) 2021-05-06 2021-05-06 一种文档精准定位检索方法及系统

Publications (1)

Publication Number Publication Date
CN113157869A true CN113157869A (zh) 2021-07-23

Family

ID=76873301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110489413.0A Pending CN113157869A (zh) 2021-05-06 2021-05-06 一种文档精准定位检索方法及系统

Country Status (1)

Country Link
CN (1) CN113157869A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114412A (zh) * 2022-08-31 2022-09-27 北京弘玑信息技术有限公司 文档中的信息检索方法及电子设备、存储介质
CN115129899A (zh) * 2022-08-31 2022-09-30 北京国电通网络技术有限公司 文档标签信息生成方法、装置、设备、介质和程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089841A (zh) * 2006-06-14 2007-12-19 联想(北京)有限公司 基于知识编码的精确搜索方法和系统
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
CN101650742A (zh) * 2009-08-27 2010-02-17 中兴通讯股份有限公司 一种对英文检索的检索条件进行提示的系统及方法
CN101751420A (zh) * 2008-12-10 2010-06-23 华中科技大学 语义脉络文档查询方法
CN105005562A (zh) * 2014-04-15 2015-10-28 索意互动(北京)信息技术有限公司 检索结果的显示处理方法及装置
CN107273529A (zh) * 2017-06-28 2017-10-20 武汉图信科技有限公司 基于哈希函数的高效层级索引构建及检索方法
CN107679241A (zh) * 2017-10-27 2018-02-09 周燕红 一种相似文档搜索方法和装置
CN111611356A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 信息查找方法、装置、电子设备及可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089841A (zh) * 2006-06-14 2007-12-19 联想(北京)有限公司 基于知识编码的精确搜索方法和系统
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
CN101751420A (zh) * 2008-12-10 2010-06-23 华中科技大学 语义脉络文档查询方法
CN101650742A (zh) * 2009-08-27 2010-02-17 中兴通讯股份有限公司 一种对英文检索的检索条件进行提示的系统及方法
CN105005562A (zh) * 2014-04-15 2015-10-28 索意互动(北京)信息技术有限公司 检索结果的显示处理方法及装置
CN107273529A (zh) * 2017-06-28 2017-10-20 武汉图信科技有限公司 基于哈希函数的高效层级索引构建及检索方法
CN107679241A (zh) * 2017-10-27 2018-02-09 周燕红 一种相似文档搜索方法和装置
CN111611356A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 信息查找方法、装置、电子设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114412A (zh) * 2022-08-31 2022-09-27 北京弘玑信息技术有限公司 文档中的信息检索方法及电子设备、存储介质
CN115129899A (zh) * 2022-08-31 2022-09-30 北京国电通网络技术有限公司 文档标签信息生成方法、装置、设备、介质和程序产品
CN115114412B (zh) * 2022-08-31 2022-11-08 北京弘玑信息技术有限公司 文档中的信息检索方法及电子设备、存储介质
CN115129899B (zh) * 2022-08-31 2022-12-23 北京国电通网络技术有限公司 文档标签信息生成方法、装置、设备、介质和程序产品

Similar Documents

Publication Publication Date Title
US8391614B2 (en) Determining near duplicate “noisy” data objects
CN110390006B (zh) 问答语料生成方法、装置和计算机可读存储介质
US6473754B1 (en) Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program
US5745745A (en) Text search method and apparatus for structured documents
US9710547B2 (en) Natural language semantic search system and method using weighted global semantic representations
US20020107683A1 (en) Extracting sentence translations from translated documents
US20080033714A1 (en) Acronym Extraction System and Method of Identifying Acronyms and Extracting Corresponding Expansions from Text
US20110231411A1 (en) Topic Word Generation Method and System
EP1481335B1 (en) New computer-assisted memory translation scheme based on template automaton and latent semantic index principle
US20060047732A1 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
WO2005041063A1 (en) Information retrieval
JPH06131398A (ja) 複数の文書検索方法
US9798776B2 (en) Systems and methods for parsing search queries
CN113157869A (zh) 一种文档精准定位检索方法及系统
Afzal et al. Rule based Autonomous Citation Mining with TIERL.
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其系统
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
CN114266256A (zh) 一种领域新词的提取方法及系统
Soleh et al. A non word error spell checker for Indonesian using morphologically analyzer and HMM
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
JPH11328317A (ja) 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
CN116821395B (zh) 基于全文检索的贸易数据疑似命中检索方法及系统
CN117407515A (zh) 一种基于人工智能的答题系统
CN106407332B (zh) 基于人工智能的搜索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723

RJ01 Rejection of invention patent application after publication