CN107679241A - 一种相似文档搜索方法和装置 - Google Patents

一种相似文档搜索方法和装置 Download PDF

Info

Publication number
CN107679241A
CN107679241A CN201711027638.4A CN201711027638A CN107679241A CN 107679241 A CN107679241 A CN 107679241A CN 201711027638 A CN201711027638 A CN 201711027638A CN 107679241 A CN107679241 A CN 107679241A
Authority
CN
China
Prior art keywords
keyword
crucial phrase
retrieval
relation
documentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711027638.4A
Other languages
English (en)
Inventor
周燕红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201711027638.4A priority Critical patent/CN107679241A/zh
Publication of CN107679241A publication Critical patent/CN107679241A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本发明公开了一种相似文档搜索方法和装置。通过获取第一文档组;从第一文档组提取第一预设数量的关键词,组成第一关键词组,并生成第一检索串;基于第一检索串,检索输出与所述第一检索串相关的第二文档组。解决现有技术需要用户提交关键词的繁琐问题,实现关键字自动提取,自动生成检索串,从而自动搜索得到相似文档的,达到以文搜文的效果。

Description

一种相似文档搜索方法和装置
技术领域
本发明实施例涉及一种计算机搜索技术,尤其涉及一种相似文档搜索方法和装置。
背景技术
文档检索是基于数据的匹配从文档库中获得相关文档并输出的一种技术。例如,利用文档检索技术可以基于申请号、申请日或关键词的匹配从专利文献库中检索一份或多份专利文献,也可以是根据关键词、作者或标题的匹配从论文库中检索一篇或多篇学术论文文档,等等。
当前基于关键词匹配的文档检索技术中,通常需要用户自行提取关键词,特别对于多文档类似文档的搜索,关键词的提取更加复杂。
发明内容
本发明提供一种相似文档搜索方法和装置,以实现以文搜文的效果。
第一方面,本发明实施例提出一种相似文档搜索方法,通过获取第一文档组;从第一文档组提取第一预设数量的关键词,组成第一关键词组,并生成第一检索串;基于第一检索串,检索输出与所述第一检索串相关的第二文档组。
可选的,所述生成第一检索串,包括:
确定第一关键词组中各关键词为与关系;
获取第二预设数量的各关键词的同义词和反义词,作为第二关键词组,与各自对应的原关键词为或关系;
根据第一和第二关键词组中各关键词的与或关系,组合生成第一检索串。
可选的,在获得第二文档组之后,还包括:
确定第二文档组的数量,作为第一数量;
若第一数量超出预设的第一预设数量范围,确定生成第二检索串;
基于第二检索串,检索输出与所述第二检索串相关的第三文档组。
可选的,其中,所述生成第二检索串可以包括:
统计第二文档组中的关键词出现频率,其中关键词包含第一关键词组和第二关键词组;
根据关键词的出现频率,选取第三预设数量的高频率关键词,作为第三关键词组;
根据第一关键词组和第二关键词组中各关键词的关系确定第三关键词组的关键词与或关系;
根据第三关键词组的关键词与或关系生成第二检索串。
可选的,其中,所述生成第二检索串还可以是包括:
提取第二文档组中第四预设数量的关键词,作为第四关键词组;
获取第五预设数量的各关键词的同义词和反义词,作为第五关键词组,与各自对应的原关键词为或关系;
去除第一、第二、第四和第五关键词组中相同的关键词,得到第六关键词组;
根据第一、第二、第四和第五关键词组中各关键词的与或关系获得第六关键词组的中各关键词的与或关系,组合生成第二检索串。
第二方面,本发明实施例还提供了一种相似文档搜索装置,该装置包括:
第一文档组获取模块,用于获取第一文档组;
第一关键词组提取模块,用于从第一文档组提取第一预设数量的关键词,组成第一关键词组;
第一检索串生成模块,用于将第一关键词组生成第一检索串;
第一检索模块,用于根据第一检索串,检索输出与所述第一检索串相关的第二文档组。
可选的,所述第一检索串生成模块,包括:
第一关键词组提取单元,获取第一关键词组中关键词的同义词和反义词,作为第二关键词组,组中关键词数量限定为第二预设数量;
第一关键词关系确定单元,用于确定第一关键词组中各关键词为与关系,并与各自对应的同/反义词为或关系;
第一检索串生成单元,根据第一和第二关键词组中各关键词的与或关系,组合生成第一检索串。
可选的,所述第一检索模块之后,还包括:
第二检索串生成模块,用于判断第二文档组的数量是否超出预设的第一预设数量范围,如是,则生成第二检索串;
第二检索模块,用于检索输出与所述第二检索串相关的第三文档组。
可选的,其中,所述第二检索串生成模块,还包括:
关键词频率统计单元,统计第二文档组中的关键词出现频率,其中关键词包含第一关键词组和第二关键词组;
第二关键词组提取单元,根据关键词的出现频率,选取第三预设数量的高频率关键词,作为第三关键词组;
第二关键词关系确定单元,用于根据第一关键词组和第二关键词组中各关键词的关系确定第三关键词组的关键词与或关系;
第二检索串生成单元,用于根据第三关键词组的关键词与或关系生成第二检索串。
可选的,其中,所述第二检索串生成模块,还包括:
第三关键词组提取单元,用于提取第二文档组中第四预设数量的关键词,作为第四关键词组;
第四关键词组提取单元,用于获取第五预设数量的各关键词的同义词和反义词,作为第五关键词组,与各自对应的原关键词为或关系;
第五关键词组提取单元,用于去除第一、第二、第四和第五关键词组中相同的关键词,得到第六关键词组;
第三关键词关系确定单元,用于根据第一、第二、第四和第五关键词组中各关键词的与或关系获得第六关键词组的中各关键词的与或关系;
第三检索串生成单元,用于根据第六关键词组的中各关键词的与或关系,组合生成第二检索串。
本发明通过获取第一文档组;从第一文档组提取第一预设数量的关键词,组成第一关键词组,并生成第一检索串;基于第一检索串,检索输出与所述第一检索串相关的第二文档组,解决现有技术需要用户提交关键词的繁琐问题,实现关键字自动提取,自动生成检索串,从而自动搜索得到相似文档的,达到以文搜文的效果。
附图说明
图1是本发明实施例一提供的一种相似文档搜索方法的流程图。
图2是本发明实施例一提供的一种相似文档搜索方法中生成检索串的流程图。
图3是本发明实施例二提供的一种相似文档搜索方法中的流程图。
图4是本发明实施例二提供的一种相似文档搜索方法中生成第二检索串的第一流程图。
图5是本发明实施例二提供的一种相似文档搜索装置中生成第二检索串的第二流程图。
图6是本发明实施例三提供的一种相似文档搜索装置的结构示意图。
图7是本发明实施例三提供的一种相似文档搜索装置中第一检索串生成模块的结构示意图。
图8是本发明实施例四提供的一种相似文档搜索装置中的结构示意图。
图9是本发明实施例四提供的一种相似文档搜索装置中第二检索串生成模块的第一结构示意图。
图10是本发明实施例四提供的一种相似文档搜索装置中第二检索串生成模块的第二结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种相似文档搜索方法的流程图,本实施例可适用于计算机搜索情况,该方法可以由浏览器或相关软件来执行,具体包括如下步骤:
步骤S110、获取第一文档组;
其中,第一文档组是要被搜索的原文档,数量至少为1。可以由用户上传提交本地文档,也可以是网络文档地址。
步骤S120、从第一文档组提取第一预设数量的关键词,组成第一关键词组,并生成第一检索串;
其中,关键词的提取采用关键词匹配算法,可以是TextRank算法。检索串是用逻辑与或将关键词进行组合而成。
步骤S130、基于第一检索串,检索输出与所述第一检索串相关的第二文档组。
本实施例的技术方案,通过获取第一文档组;从第一文档组提取第一预设数量的关键词,组成第一关键词组,并生成第一检索串;基于第一检索串,检索输出与所述第一检索串相关的第二文档组。解决现有技术需要用户提交关键词的繁琐问题,实现关键字自动提取,自动生成检索串,从而自动搜索得到相似文档的,达到以文搜文的效果。
图2是本发明实施例一提供的一种相似文档搜索方法中生成检索串的流程图。在上述技术方案的基础上,生成第一检索串优选可以采用以下步骤:
步骤S121、确定第一关键词组中各关键词为与关系;
步骤S122、获取第二预设数量的各关键词的同义词和反义词,作为第二关键词组,与各自对应的原关键词为或关系;
其中,同/反义词可以通过检索预设的数据库进行查询。
步骤S123、根据第一和第二关键词组中各关键词的与或关系,组合生成第一检索串。
采用同/反义词可以对关键词进行扩展,可以防止漏检的情况。
实施例二
图3是本发明实施例二提供的一种相似文档搜索方法中的流程图。本实施例在上述实施例一的基础上,优选是在获得第二文档组之后,进一步增加以下步骤:
步骤S140、确定第二文档组的数量,作为第一数量;
步骤S150、若第一数量超出预设的第一预设数量范围,确定生成第二检索串;
其中,根据第一预设数量范围来判断搜索结果过多或者过少的情况,符合情况的将进行第二词搜索,需要确定生成第二检索串。
步骤S160、基于第二检索串,检索输出与所述第二检索串相关的第三文档组。
本实施例的技术方案,通过判断第一数量是否超出预设的第一预设数量范围,确定生成第二检索串;基于第二检索串,检索输出与所述第二检索串相关的第三文档组,解决了搜索结果过多或过少的问题,达到了自动调整关键词数量,并自动生成对应检索串的效果。
图4是本发明实施例二提供的一种相似文档搜索方法中生成第二检索串的第一流程图。
在上述各个实施例的基础上,所述生成第二检索串可以采取包括以下步骤:
步骤S151、统计第二文档组中的关键词出现频率,其中关键词包含第一关键词组和第二关键词组;
其中关键词的出现频率可以采用关键词出现次数除以第二文档组中所有词语数量来计算。
步骤S152、根据关键词的出现频率,选取第三预设数量的高频率关键词,作为第三关键词组;
其中,关键词的出现频率越高,说明该关键词越重要。
步骤S153、根据第一关键词组和第二关键词组中各关键词的关系确定第三关键词组的关键词与或关系;
其中,第一关键词组中所有关键词之间为与关系,每个关键词对应的同/反义词为或关系。
步骤S154、根据第三关键词组的关键词与或关系生成第二检索串。
图5是本发明实施例二提供的一种相似文档搜索装置中生成第二检索串的第二流程图。
所述生成第二检索串也还可以采取包括以下步骤:
步骤S155、提取第二文档组中第四预设数量的关键词,作为第四关键词组;
步骤S156、获取第五预设数量的各关键词的同义词和反义词,作为第五关键词组,与各自对应的原关键词为或关系;
其中同义词和反义词都可以从预设的数据库查询得到。
步骤S157、去除第一、第二、第四和第五关键词组中相同的关键词,得到第六关键词组;
此步骤,用于去除重复的关键词。
步骤S158、根据第一、第二、第四和第五关键词组中各关键词的与或关系获得第六关键词组的中各关键词的与或关系,组合生成第二检索串。
实施例三
图6是本发明实施例三提供的一种相似文档搜索装置的结构示意图。本实施例可适用于计算机搜索领域,该装置的具体结构包括:第一文档组获取模块S210、第一关键词组提取模块S220、第一检索串生成模块S230和第一检索模块S240。其中,
第一文档组获取模块S210,用于获取第一文档组;
第一关键词组提取模块S220,用于从第一文档组提取第一预设数量的关键词,组成第一关键词组;
第一检索串生成模块S230,用于将第一关键词组生成第一检索串;
第一检索模块S240,用于根据第一检索串,检索输出与所述第一检索串相关的第二文档组。
图7是本发明实施例三提供的一种相似文档搜索装置中第一检索串生成模块的结构示意图。本实施例在上述各实施例的基础上,优选的是,所述第一检索串生成模块S230,可以包括:第一关键词组提取单元S231、第一关键词关系确定单元S232和第一检索串生成单元S233。其中,
第一关键词组提取单元S231,获取第一关键词组中关键词的同义词和反义词,作为第二关键词组,组中关键词数量限定为第二预设数量;
第一关键词关系确定单元S232,用于确定第一关键词组中各关键词为与关系,并与各自对应的同/反义词为或关系;
第一检索串生成单元S233,根据第一和第二关键词组中各关键词的与或关系,组合生成第一检索串。
实施例四
图8是本发明实施例四提供的一种相似文档搜索装置中的结构示意图。本实施例在上述各实施例的基础上,优选是在第一检索模块S240之后,还可以包括:第二检索串生成模块S250和第二检索模块S260。其中,
第二检索串生成模块S250,用于判断第二文档组的数量是否超出预设的第一预设数量范围,如是,则生成第二检索串;
第二检索模块S260,用于检索输出与所述第二检索串相关的第三文档组。
图9是本发明实施例四提供的一种相似文档搜索装置中第二检索串生成模块的第一结构示意图。本实施例在上述各实施例的基础上,优选的,所述第二检索串生成模块S250,还可以包括:关键词频率统计单元S251、第二关键词组提取单元S252、第二关键词关系确定单元S253和第二检索串生成单元S254。其中,
关键词频率统计单元S251,统计第二文档组中的关键词出现频率,其中关键词包含第一关键词组和第二关键词组;
第二关键词组提取单元S252,根据关键词的出现频率,选取第三预设数量的高频率关键词,作为第三关键词组;
第二关键词关系确定单元S253,用于根据第一关键词组和第二关键词组中各关键词的关系确定第三关键词组的关键词与或关系;
第二检索串生成单元S254,用于根据第三关键词组的关键词与或关系生成第二检索串。
图10是本发明实施例四提供的一种相似文档搜索装置中第二检索串生成模块的第二结构示意图。本实施例在上述各实施例的基础上,优选的,所述第二检索串生成模块S250,还可以包括:第三关键词组提取单元S255、第四关键词组提取单元S256、第五关键词组提取单元S257、第三关键词关系确定单元S258和第三检索串生成单元S259。其中,
第三关键词组提取单元S255,用于提取第二文档组中第四预设数量的关键词,作为第四关键词组;
第四关键词组提取单元S256,用于获取第五预设数量的各关键词的同义词和反义词,作为第五关键词组,与各自对应的原关键词为或关系;
第五关键词组提取单元S257,用于去除第一、第二、第四和第五关键词组中相同的关键词,得到第六关键词组;
第三关键词关系确定单元S258,用于根据第一、第二、第四和第五关键词组中各关键词的与或关系获得第六关键词组的中各关键词的与或关系;
第三检索串生成单元S259,用于根据第六关键词组的中各关键词的与或关系,组合生成第二检索串。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种相似文档搜索方法,其特征在于,包括以下步骤:
获取第一文档组;
从第一文档组提取第一预设数量的关键词,组成第一关键词组,并生成第一检索串;
基于第一检索串,检索输出与所述第一检索串相关的第二文档组。
2.根据权利要求1所述的相似文档搜索方法,其特征在于,所述生成第一检索串,包括:
确定第一关键词组中各关键词为与关系;
获取第二预设数量的各关键词的同义词和反义词,作为第二关键词组,与各自对应的原关键词为或关系;
根据第一和第二关键词组中各关键词的与或关系,组合生成第一检索串。
3.根据权利要求1所述的相似文档搜索方法,其特征在于,在获得第二文档组之后,还包括:
确定第二文档组的数量,作为第一数量;
若第一数量超出预设的第一预设数量范围,确定生成第二检索串;
基于第二检索串,检索输出与所述第二检索串相关的第三文档组。
4.根据权利要求3所述的相似文档搜索方法,其特征在于,所述生成第二检索串包括:
统计第二文档组中的关键词出现频率,其中关键词包含第一关键词组和第二关键词组;
根据关键词的出现频率,选取第三预设数量的高频率关键词,作为第三关键词组;
根据第一关键词组和第二关键词组中各关键词的关系确定第三关键词组的关键词与或关系;
根据第三关键词组的关键词与或关系生成第二检索串。
5.根据权利要求3所述的相似文档搜索方法,其特征在于,所述生成第二检索串包括:
提取第二文档组中第四预设数量的关键词,作为第四关键词组;
获取第五预设数量的各关键词的同义词和反义词,作为第五关键词组,与各自对应的原关键词为或关系;
去除第一、第二、第四和第五关键词组中相同的关键词,得到第六关键词组;
根据第一、第二、第四和第五关键词组中各关键词的与或关系获得第六关键词组的中各关键词的与或关系,组合生成第二检索串。
6.一种相似文档搜索装置,其特征在于,包括:
第一文档组获取模块,用于获取第一文档组;
第一关键词组提取模块,用于从第一文档组提取第一预设数量的关键词,组成第一关键词组;
第一检索串生成模块,用于将第一关键词组生成第一检索串;
第一检索模块,用于根据第一检索串,检索输出与所述第一检索串相关的第二文档组。
7.根据权利要求6所述的相似文档搜索装置,其特征在于,所述第一检索串生成模块,包括:
第一关键词组提取单元,获取第一关键词组中关键词的同义词和反义词,作为第二关键词组,组中关键词数量限定为第二预设数量;
第一关键词关系确定单元,用于确定第一关键词组中各关键词为与关系,并与各自对应的同/反义词为或关系;
第一检索串生成单元,根据第一和第二关键词组中各关键词的与或关系,组合生成第一检索串。
8.根据权利要求6所述的相似文档搜索装置,其特征在于,所述第一检索模块之后,还包括:
第二检索串生成模块,用于判断第二文档组的数量是否超出预设的第一预设数量范围,如是,则生成第二检索串;
第二检索模块,用于检索输出与所述第二检索串相关的第三文档组。
9.根据权利要求8所述的相似文档搜索装置,其特征在于,所述第二检索串生成模块,还包括:
关键词频率统计单元,统计第二文档组中的关键词出现频率,其中关键词包含第一关键词组和第二关键词组;
第二关键词组提取单元,根据关键词的出现频率,选取第三预设数量的高频率关键词,作为第三关键词组;
第二关键词关系确定单元,用于根据第一关键词组和第二关键词组中各关键词的关系确定第三关键词组的关键词与或关系;
第二检索串生成单元,用于根据第三关键词组的关键词与或关系生成第二检索串。
10.根据权利要求8所述的相似文档搜索装置,其特征在于,所述第二检索串生成模块,还包括:
第三关键词组提取单元,用于提取第二文档组中第四预设数量的关键词,作为第四关键词组;
第四关键词组提取单元,用于获取第五预设数量的各关键词的同义词和反义词,作为第五关键词组,与各自对应的原关键词为或关系;
第五关键词组提取单元,用于去除第一、第二、第四和第五关键词组中相同的关键词,得到第六关键词组;
第三关键词关系确定单元,用于根据第一、第二、第四和第五关键词组中各关键词的与或关系获得第六关键词组的中各关键词的与或关系;
第三检索串生成单元,用于根据第六关键词组的中各关键词的与或关系,组合生成第二检索串。
CN201711027638.4A 2017-10-27 2017-10-27 一种相似文档搜索方法和装置 Withdrawn CN107679241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711027638.4A CN107679241A (zh) 2017-10-27 2017-10-27 一种相似文档搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711027638.4A CN107679241A (zh) 2017-10-27 2017-10-27 一种相似文档搜索方法和装置

Publications (1)

Publication Number Publication Date
CN107679241A true CN107679241A (zh) 2018-02-09

Family

ID=61143244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711027638.4A Withdrawn CN107679241A (zh) 2017-10-27 2017-10-27 一种相似文档搜索方法和装置

Country Status (1)

Country Link
CN (1) CN107679241A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157869A (zh) * 2021-05-06 2021-07-23 日照蓝鸥信息科技有限公司 一种文档精准定位检索方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015048987A1 (en) * 2013-10-01 2015-04-09 Zapitano Gmbh Computer-implemented method, computer-readable medium and computing device for event-related keyword advertising
US9014512B2 (en) * 2000-11-06 2015-04-21 Nant Holdings Ip, Llc Object information derived from object images
CN105389344A (zh) * 2015-10-21 2016-03-09 南方电网科学研究院有限责任公司 一种自助式查新方法及系统
CN105630822A (zh) * 2014-11-04 2016-06-01 上海兵飞软件有限公司 一种专利检索相似内容标红法
CN106372063A (zh) * 2016-11-01 2017-02-01 上海智臻智能网络科技股份有限公司 信息处理方法、装置及终端
CN106407316A (zh) * 2016-08-30 2017-02-15 北京航空航天大学 基于主题模型的软件问答推荐方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9014512B2 (en) * 2000-11-06 2015-04-21 Nant Holdings Ip, Llc Object information derived from object images
WO2015048987A1 (en) * 2013-10-01 2015-04-09 Zapitano Gmbh Computer-implemented method, computer-readable medium and computing device for event-related keyword advertising
CN105630822A (zh) * 2014-11-04 2016-06-01 上海兵飞软件有限公司 一种专利检索相似内容标红法
CN105389344A (zh) * 2015-10-21 2016-03-09 南方电网科学研究院有限责任公司 一种自助式查新方法及系统
CN106407316A (zh) * 2016-08-30 2017-02-15 北京航空航天大学 基于主题模型的软件问答推荐方法和装置
CN106372063A (zh) * 2016-11-01 2017-02-01 上海智臻智能网络科技股份有限公司 信息处理方法、装置及终端

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157869A (zh) * 2021-05-06 2021-07-23 日照蓝鸥信息科技有限公司 一种文档精准定位检索方法及系统

Similar Documents

Publication Publication Date Title
US9430559B2 (en) Document retrieval using internal dictionary-hierarchies to adjust per-subject match results
US7409404B2 (en) Creating taxonomies and training data for document categorization
CN110019658B (zh) 检索项的生成方法及相关装置
US8554854B2 (en) Systems and methods for identifying terms relevant to web pages using social network messages
JP5332477B2 (ja) ターム階層の自動生成
CN103699700B (zh) 一种搜索引导的生成方法、系统及相关服务器
US20100131563A1 (en) System and methods for automatic clustering of ranked and categorized search objects
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
CN102110126A (zh) 信息检索方法及装置
JP2009110513A (ja) ワードの類似性を用いたオントロジーの自動生成
CN106682012A (zh) 商品对象信息搜索方法及装置
Cartright et al. Fast query expansion using approximations of relevance models
CN103377224B (zh) 识别问题类型的方法及装置、建立识别模型的方法及装置
Kato et al. Query by analogical example: relational search using web search engine indices
US20120317141A1 (en) System and method for ordering of semantic sub-keys
CN107239554A (zh) 一种基于匹配度检索英文文本的方法
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
US9875298B2 (en) Automatic generation of a search query
CN103186650B (zh) 一种搜索方法和装置
CN107679241A (zh) 一种相似文档搜索方法和装置
Osanyin et al. A review on web page classification
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
CN105930358A (zh) 基于关联度的案例检索方法及其系统
Rinaldi Document summarization using semantic clouds
TWI471739B (zh) A method for identifying a synonym, a device, and a method and apparatus for searching it

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180209

WW01 Invention patent application withdrawn after publication