CN102067124A - 文档搜索系统 - Google Patents

文档搜索系统 Download PDF

Info

Publication number
CN102067124A
CN102067124A CN2009801232751A CN200980123275A CN102067124A CN 102067124 A CN102067124 A CN 102067124A CN 2009801232751 A CN2009801232751 A CN 2009801232751A CN 200980123275 A CN200980123275 A CN 200980123275A CN 102067124 A CN102067124 A CN 102067124A
Authority
CN
China
Prior art keywords
inquiry
search
search results
document
returns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009801232751A
Other languages
English (en)
Inventor
野崎康行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Publication of CN102067124A publication Critical patent/CN102067124A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种用于在使用搜索系统收集想要的文档时有效和直观地收集期望文档的文档搜索系统。与新搜索准则候选和由该搜索准则获得的命中数目一起显示搜索结果列表。具体地,该文档搜索系统包括:有关字词字典,用于收集搜索关键词的有关字词;有关字词搜索准则生成部分,用于从有关字词字典中提取在已输入的第一搜索准则中包含的搜索关键词的有关字词并使用有关字词生成第二搜索准则;搜索执行部分,用于计算由第一搜索准则获得的搜索结果的命中数目与由第二搜索准则获得的搜索结果的命中数目之间的差异;以及搜索结果显示部分,用于同时显示第一搜索准则、由第一搜索准则获得的搜索结果、搜索结果的命中数目、第二搜索准则、由第二搜索准则获得的搜索结果的命中数目以及差异。

Description

文档搜索系统
技术领域
本发明涉及文档搜索系统,并且例如涉及用于辅助从海量文档DB中检索感兴趣的文档的文档搜索系统。
背景技术
搜索技术是经常运用的强大手段,在这些搜索技术中,通过输入搜索关键词来进行搜索以试图从因特网、内部网或者文件服务器上积累的海量文档DB中找到感兴趣的文档。经常进行因特网搜索以收集关于某个主题的以往发现和有关信息,针对该主题尚未预先确定感兴趣的特别文档。因此,用户猜测可能返回她/他想要的文档的搜索关键词,并且在安排输入它们的方式时重复地进行搜索以找到有用信息。另一方面,对于内部网、文件服务器上或者客户端PC内的搜索,经常预先知道存在目标文档,并且用户通过给出用于找到它的关键词来执行搜索。例如,如果希望查阅一年前向公司A发送的提案文档,则给出“公司A”、提案内容、文档的发送者等作为关键词来进行搜索。
如今,在公司的审计处理中经常进行公司服务器中的文档搜索。在这种情况下,诸如审计员、内部审计部门等被审计部门以外的人员或者由这样的外部人员指示或表明的内部人员针对相关文档执行搜索。换句话说,实际执行搜索的人经常并非相关文档的创建者,因此不会立即知道什么种类的文档在文件服务器上位于何处。另外,如果有多个相关文档,则鉴于审计的性质将要求无遗漏地找到它们。
附带提一点,在常用的搜索系统中,可能输入一个搜索关键词或者多个搜索关键词并且可能包括逻辑运算,比如文档包含所有这样的关键词(逻辑乘积或者AND搜索)、包含它们中的任一个(逻辑和或者OR搜索)、不含它们中的任一个(取非或者NOT搜索)等。因而可能使其更接近用户希望得到的目标文档组。此外,许多搜索系统支持基于逻辑运算组合(例如包含关键词C和A或B)的高级搜索。另外,关于显示返回的搜索结果的列表,也有除了文件名称(或者网页标题)之外并且在两至三行中还显示如下文字的搜索系统,该文字包括先于和跟随搜索关键词的内容。
然而,当使用这样的搜索技术来实际检索有关文档时出现若干问题。例如,假设审计员试图检索预算文档,则考虑如下情况,其中在搜索系统上指定关键词“预算”来进行搜索。这里,如果在审计员希望查阅的文档中未使用关键词“预算”,而代之以在其中使用比如“预算/运作图表(budg./act.figures)”或者“商业计划”这样的字词,则搜索不会返回它/它们。换句话说,在搜索时,有可能不能提出这样用于“预算”的同义词或者涵盖“预算”概念的字词,则将遗漏一些信息。另一方面,假设确实考虑了关键词“预算/运作图表”和“商业计划”并且拓宽搜索目标范围以包含“预算”、“预算/运作图表”和“商业计划”中的任一个,如果呈现数以千计或者数以万计的搜索结果作为结果,则可能包括许多用户并不感兴趣的文档,并且让他/她遍历所有结果并不实际。也有如下可能性:审计员希望查阅的文档未使用关键词“预算”、“预算/运作图表”和“商业计划”中的任何一个。换句话说,即使对于有关文档的检索无(或者很少)遗漏,如果在搜索中返回太多文档,则通过在某种程度上缩减搜索来将它控制至合理数目也是现实的。反言之,如果在搜索中未返回文档或者返回太少文档,则有必要通过建议可能与用户输入的搜索关键词关联的关键词来拓宽搜索可能性。
关于这样选择搜索关键词的方法,迄今已经研究各种技术和方法,这些搜索关键词可获得主要包括感兴趣的内容的合理搜索命中计数。例如,在专利文献1中,为了包括更多感兴趣的内容,通过向搜索关键词分配属性来克服当如在“气候”和“天气”中那样具有相同含义的关键词不同时不能搜索的传统问题。此外,在专利文献2中,提供如下装置,该装置查阅与操作者输入的搜索关键词有关的词典、考虑关键词的对象和更广义概念或者更狭义概念并且自动生成操作者隐含地打算的查询。对于生成会获得合理命中计数的查询,专利文献3和专利文献4提出如下方案:重复搜索关键词的添加、删除、同义词扩展等,由此相继地显示由相应的查询获得的命中计数。这些方案不仅显示查询,而且针对查询中包含的每个搜索关键词显示搜索结果中有多少命中。此外,专利文献5提出如下方案:当选择将针对其搜索有关文档的文档时,自动生成在被动态更改时会获得与预定义参考命中数目最接近的命中计数的查询。
专利文献1:日本专利公开(Kokai)号6-187374A(1994)
专利文献2:日本专利公开(Kokai)号5-250411A(1993)
专利文献3:日本专利公开(Kokai)号5-314182A(1993)
专利文献4:日本专利公开(Kokai)号11-15841A(1999)
专利文献5:日本专利公开(Kokai)号2005-100136A
专利文献6:日本专利公开(Kokai)号2006-12078A
发明内容
本发明所要解决的问题
然而,就专利文献1至专利文献4的技术而言,由于在查阅搜索命中计数时以及基于用户输入的搜索关键词和逻辑运算生成了适当查询,所以尽管它们在用户具有清楚的搜索意图以及关于将通过查询而获得的搜索结果预先具有立体影像的情况下有效,但是它们不能解决未清楚定义待搜索的目标的情况或者她/他不能提出表示她/他希望搜索的内容的适当关键词的情况。例如,在审计中,如果需要关于人力资源开发的活动报告,则将难以猜测应当用什么种类的搜索关键词进行搜索。在这一情况下,将难以使用搜索关键词“人力资源开发”来找到寻求的内容,而代之以“教育”或者“在岗培训”可能更可取。对于这样的模糊目标,由于具体关键词未知,所以难以用传统技术来检索有关文档。
此外,就专利文献3和4而言,虽然在创建查询的过程中产生针对搜索关键词的建议(比如替换为同义词等)以让用户更容易缩减目标,但是仍然不可能具体知道这样的候选关键词之间的关系。例如,在专利文献3中示出在包含关键词“信息”(在专利文献3中记为“joho”)的20,568篇文档中有包含“搜索”的9,321篇文档和包含“介质”的7,566篇文档。然而,在使用这一方案时,在执行搜索之前不能知道例如在包含“搜索”的文档集合与包含“介质”的文档集合之间有多少重叠。为了知道这一点,必须通过针对“信息”、“搜索”和“介质”进行AND搜索来发现命中计数。
图1示出使用专利文献3来检查这些关键词之间的关系的情况的例子。如果在针对“信息AND搜索”和“介质”的AND搜索中有针对“介质”的7,566个命中,则能够断定当使用“介质”时总是使用“信息”和“搜索”。换句话说,能够断定“介质”和“信息或搜索”是具有类似印象的概念。反言之,如果有0个命中,则能够断定“介质”和“搜索”是用于冲突概念的关键词。由于不知道这样的相互关系,所以通常有必要在缩减搜索目标时重复地添加或者删除搜索关键词。利用传统技术无法预先知道这样的定量发现(有多少命中)和定性发现(存在什么种类的关键词的文档组和有什么种类的趋势)。
此外,就专利文献5而言,虽然可以用接近预定义的命中计数的方式自动构造查询,但是用户无法一开始就知道什么可以视为从命中总计数缩减至的合理数目。例如,可以指定100作为待查阅的有关文档的数目,但是那些文档中的仅10篇文档在一些情况下对于用户而言可能就足够了,而在其他情况下有关文档中除非有300篇才可能视为被完全覆盖。
本发明是鉴于上述问题而作出的,并且提供一种能够在使用搜索系统来检索有关文档时有效和直观地检索想要的文档的文档搜索系统。
用于解决问题的手段
本发明的一种文档搜索系统与搜索结果列表的显示一起呈现新查询候选和用该查询返回的命中计数。
换句话说,本发明的一种文档搜索系统基于搜索关键词从其中积累待搜索的文档的文档DB之中找到包含搜索关键词的文档,该文档搜索系统包括:有关字词字典,其中收集搜索关键词的有关字词;有关字词查询生成处理部分,被配置成从有关字词字典中提取在已经输入的第一查询中包含的搜索关键词的有关字词并使用有关字词生成作为新查询的第二查询;搜索执行部分,被配置成计算针对用第一查询返回的搜索结果的命中计数与针对用第二查询返回的搜索结果的命中计数之间的增加/减少;以及搜索结果显示处理部分,被配置成在显示部分上同时显示第一查询、用第一查询返回的搜索结果、针对所述搜索结果的命中计数、第二查询、针对用第二查询返回的搜索结果的命中计数、以及所述增加/减少。
在上述情况下,该文档搜索系统还可以包括:维恩图绘制处理部分,被配置成在显示部分上以及在维恩图中显示用第一查询返回的搜索结果与用第二查询返回的搜索结果之间的相互关系。
此外,根据本发明的一种文档搜索系统基于搜索关键词从其中积累将作为搜索目标的文档的文档DB之中找到包含搜索关键词的文档,该文档搜索系统包括:关联关键词查询生成处理部分,被配置成使用在针对已经输入的第一查询的搜索结果中频繁出现的频繁出现关键词来生成作为新查询的第二查询;搜索执行部分,被配置成计算针对用第一查询返回的搜索结果的命中计数与针对用第二查询返回的搜索结果的命中计数之间的增加/减少;以及搜索结果显示处理部分,被配置成在显示部分上同时显示:第一查询;用第一查询返回的搜索结果;针对所述搜索结果的命中计数;第二查询;针对用第二查询返回的搜索结果的命中计数;以及所述增加/减少。
在上述情况下,该文档搜索系统还可以包括:维恩图绘制处理部分,被配置成在显示部分上以及在维恩图中显示用第一查询返回的搜索结果与用第二查询返回的搜索结果之间的相互关系。
此外,本发明的一种文档搜索系统基于搜索关键词从其中积累将作为搜索目标的文档的文档DB之中找到包含搜索关键词的文档,该文档搜索系统包括:部分查询生成处理部分,被配置成通过省略在已经输入的第一查询中包含的多个搜索关键词的部分来生成作为新查询的第二查询;搜索执行部分,被配置成计算针对用第一查询返回的搜索结果的命中计数与针对用第二查询返回的搜索结果的命中计数之间的增加/减少;以及搜索结果显示处理部分,被配置成在显示部分上同时显示:第一查询;用第一查询返回的搜索结果;针对所述搜索结果的命中计数;第二查询;针对用第二查询返回的搜索结果的命中计数;以及所述增加/减少。
在上述情况下,该文档搜索系统还可以包括:维恩图绘制处理部分,被配置成在显示部分上以及在维恩图中显示用第一查询返回的搜索结果与用第二查询返回的搜索结果之间的相互关系。
另外,在上述文档搜索系统中,如果搜索执行部分确定在用第二查询返回的搜索结果中包含与用第一查询返回的搜索结果不同的新搜索结果,则搜索结果显示处理部分在显示用第二查询返回的搜索结果时在显示部分上着重显示新搜索结果。
本发明的效果
根据本发明的一种搜索系统,在检索有关文档时,通过与显示搜索结果列表一起呈现用于下一查询的候选和用该查询返回的命中计数,用户能够有效和直观地检索想要的文档。
附图说明
图1是示出搜索关键词之间关系的图;
图2是根据本发明实施例的搜索系统的示意图;
图3是有关字词字典的数据结构的一个例子;
图4是示出本发明的处理流程的流程图;
图5是本发明的搜索系统的初始屏幕的例子;
图6是呈现搜索结果列表和使用有关字词的查询候选列表的显示的屏幕的例子。
图7是呈现搜索结果列表和使用搜索结果中的频繁出现关键词的查询候选列表的显示的屏幕的例子;
图8是呈现搜索结果列表和通过省略搜索关键词而创建的查询候选列表的显示的屏幕的例子。
具体实施方式
下文参照附图描述根据本发明实施例的一种文档搜索系统。应注意本实施例仅为用于实现本发明的例子而不以任何方式限制本发明的技术范围。
<文档搜索系统配置>
图2是示意性地示出作为本发明实施例而构建的文档搜索系统的内部结构的配置图。这一系统包括:文档DB 201,其中积累待搜索的文档;文档索引202,其中积累文档的索引信息;有关字词字典203,其中收集有关字词之间的关系;显示设备204,用于显示搜索结果、查询候选等;键盘205和诸如鼠标等指示设备206,用于输入搜索关键词以及进行诸如从菜单中选择等操作;中央处理单元207,被配置成进行必要算法处理、控制处理等;以及存储器214,用于暂时存储搜索结果。这里,如在因特网上的网络文档全集中一样,文档DB 201也覆盖其实例位于网络上的文档。另外,文档DB 201还覆盖其作为DB的实例并非物理上为单数而代之以复数的情况。文档索引202用于根据输入的查询来快速找到想要的文档,并且其具体形式包括词素与文档DB 201内的实际文档之间的关联(在基于词素分析的搜索算法的情况下)和N个字符的字符串与文档DB 201内的实际文档之间的关联(在基于N-gram的搜索算法的情况下)。在执行搜索时,使用文档索引202来找到与查询匹配的文档,并且针对搜索结果在显示屏幕上进行与实际文档的关联。文档DB 201、文档索引202和有关字词字典203可以存在于本地PC内以及网络上。
<中央处理单元配置>
中央处理单元207包括:搜索执行部分208,被配置成根据输入的查询使用文档索引202来执行搜索;搜索结果显示处理部分209,被配置成显示搜索结果立标和用于调节搜索目标的查询候选;有关字词查询生成处理部分210,被配置成使用查询中包含的关键词的有关字词来生成查询;关联关键词查询生成处理部分211,被配置成使用搜索结果中的文档组中频繁包含的字词来生成查询;部分查询生成处理部分212,被配置成如果查询包括多个关键词则通过省略一个或者多个关键词来重新生成查询;以及维恩图绘制处理部分213,被配置成在维恩图中显示搜索结果之间的关系。另外,可以通过存储于诸如CD-ROM、DVD-ROM、MO、软盘(注册商标)、USB存储器等记录介质上来提供上述处理部分和执行部分以及在上述处理部分和执行部分中使用的程序、数据等。
<有关字词字典配置>
图3是有关字词字典203中包含的数据的例子。所述数据包括成对的关键词301和有关字词302,有关字词302中聚集与关键词有关的术语。假设根据搜索系统的目标来定义有关字词。通常,这些有关字词可包括同义词(比如用于在303所示的关键词“文章”的“文档”)以及全称或者缩略词(比如用于在304所示的关键词“第1设计分部”的“ABC商业部第1设计分部”或者“分部1”)。其他有关字词包括年份的不同符号表示(比如用于在305所示的关键词“2007年”的“Heisei 19”或者“H19”)、符号表示变化(比如在306所示的打字错误或拼写错误,用于关键词“中心(center)”的“中心(centre)”)等等。另外,还包括并非同义、但是强有关的字词(比如用于在307所示的关键词“人力资源开发”的“教育”、“在岗培训”和“离岗培训”)以及具有相互包括关系的字词(更广义/更狭义概念的字词)(比如用于在308所示的关键词“东京”的“Kanto地区”,以及用于在309所示的关键词“肉类”的“牛肉”、“猪肉”、“鸡肉”等)。使用因特网上的词典作为这一有关字词字典的实施例也是可能的。
<文档搜索过程>
接下来,参照图4描述在以上述方式配置的本实施例的文档搜索系统中进行的处理。图4是示意性地示出文档搜索系统的处理流程的流程图。
在步骤401中,搜索执行部分208接受用户选择的查询生成方法。查询生成方法是指本搜索系统用以生成“用于根据搜索结果进一步缩减(或者更改)搜索目标的查询候选”的方法,并且根据基于什么种类的信息来生成它,有以下三种方法。第一种是使用关于有关字词的信息来生成查询的方法;第二种是使用在搜索结果中的文档组之中频繁出现的关键词来生成查询的方法;而第三种是通过省略查询中的部分关键词来重新生成查询的方法。后文将参照图5提供对在用户选择查询生成方法时用作接口的屏幕显示的描述。
在步骤402中,搜索执行部分208根据用户输入到本系统中的查询S使用文档索引202来执行搜索。在这一点,如果必要则可以在执行搜索之前进行预处理,比如分词、删除虚词等,在分词过程中,使用词素分析在查询S中包含的字词之间插入空格。另外,如果用英文编写查询S,则进行诸如删除介词和连词等预处理。在下面的步骤403-407中,针对上文讨论的三种查询生成方法的每种情况说明如何生成用于缩减(或者更改)搜索目标的新查询R的候选。
在步骤403和404中,如果搜索执行部分208在步骤401中接受使用有关字词来生成查询的方法,则有关字词查询生成处理部分210通过查阅有关字词字典203针对在步骤402中输入的查询S中包含的每个搜索关键词检查是否有有关字词。如果有有关字词,则通过用逻辑运算符(AND或者OR)级联关键词及其有关字词来重新生成查询R。例如,如果查询S为“X AND Y”,并且有作为关键词X的有关字词的Z,则查询R可为“(X AND Z)AND Y”、“(X OR Z)AND Y”和“Z AND Y”。可替选地,如果在查询S中包含的关键词仅为“X”,并且有作为关键词X的有关字词的Z,则查询R可为“Z”、“X AND Z”和“X OR Z”。通过这样合并逻辑运算来列举用于所有情况的查询R。如果无有关字词,或者如果有有关字词、但是在查询中包含该有关字词(例如,如果查询S为“X AND Y”,而Y为关键词X的有关字词),则不进行任何操作,因为不能生成基于有关字词的查询R。
在步骤405和406中,如果搜索执行部分208在步骤401中接受用于使用在搜索结果中的文档组之中出现的频繁出现关键词来生成查询的方法,则关联关键词查询生成处理部分211提取在步骤402中执行的搜索的结果中的文档组之中频繁出现的关键词。如果在这一点提取的频繁出现关键词之中有在查询S中包含的关键词,则将其省略。使用从搜索结果中的文档组之中提取的特征关键词的搜索称为“关联搜索”并且也运用于本实施例中。例如,正如在专利文献6中运用的关联搜索技术一样,在本发明中,使用文档索引202来提取在搜索结果中的文档之中使用的特征关键词,并且用它进行搜索。关联关键词查询生成处理部分211通过使用逻辑运算符级联通过关联搜索提取的关键词与查询S来重新生成查询R。如果有许多频繁出现关键词,则也可想到将根据其出现频率而选择的特定数目的靠前关键词与查询S级联的使用。
在步骤407中,如果搜索执行部分208在步骤401中接受用于通过省略关键词来生成查询的方法,则部分查询生成处理部分212生成如下形式的查询R,其中省略查询S中包含的多个关键词中的一些关键词。这里,作为待省略的关键词,覆盖出现于查询S中的所有关键词之间的所有组合。以使得由于省略了省略关键词,所以查询R的搜索条件会获得比用查询S的搜索条件更广的搜索范围(搜索命中计数增加)的方式配置查询R。具体而言,如果用AND和OR连接关键词,则省略AND和关键词,而如果仅用AND(或者仅用OR)连接关键词,则省略AND(或者OR)和关键词。例如,如果查询S为“X AND Y OR Z”,则查询R可为“Y OR Z”(其中省略了X)、“X OR Z”(其中省略了Y)、“X ANDY”(其中省略了Z)、“X”(其中省略了Y和Z)、“Y”(其中省略了X和Z)和“Z”(其中省略了X和Y)。如果查询S仅包含一个关键词,则不进行任何操作,因为不能生成查询R。
如果搜索执行部分208在上文提到的步骤404、406或者407中确定不能生成查询R,则处理从步骤408继续步骤409。在步骤409中,搜索结果显示处理部分209显示在步骤402中执行的搜索的结果。随后,处理继续将在后文描述的步骤416。
另一方面,如果有关字词查询生成处理部分210、关联关键词查询生成处理部分211或者部分查询生成处理部分212在上文提到的步骤404、406或者407中生成查询R,则处理从步骤408继续步骤410。在步骤410中,搜索执行部分208根据该查询R来执行搜索。
在步骤411中,搜索执行部分208计算针对查询R的命中计数以及在比较针对查询R的命中计数与针对查询S的命中计数时的增加/减少。
在步骤412中,基于上述信息,搜索结果显示处理部分209显示针对查询S的搜索结果、查询R以及用该查询返回的命中计数、和在比较针对查询R的命中计数与针对查询S的命中计数时的增加/减少。在以列表显示针对查询S的搜索结果时,以文档的重要性为序来显示它们。对于用于确定这一显示顺序的算法,已知有:TF-IDF,该算法以文档和查询作为包括术语全集的矢量并基于矢量之间的相似度来进行确定;页面排行(PageRank),该算法使用网页的链接结构来测量流行度;主题特有流行度和命中(Subject-Specific Popularity and HITS),这些算法是上述页面排行的改进;块级链接分析(Block-level Link Analysis),该算法基于页面内的有意义块之间的链接而不是页面之间的链接结构来计算重要性;基于视觉的分页算法(Vision-based Page Segmentation Algorithm),该算法考虑重要内容在页面内的位置;等等。
在步骤413中,维恩图绘制处理部分213借助于维恩图来示出用查询R返回的搜索结果之间的关系。在维恩图中,示出反映命中计数的分区区域,并且在每个分区中显示搜索结果的数目。显示维恩图的方法可以根据搜索执行部分208在步骤401中接受哪种查询生成方法来分类成以下三种。(1)如果接受使用有关字词来生成查询的查询生成方法,则以使得可以理解每个有关字词的搜索结果的差异的方式进行绘制。具体而言,如果查询S包含具有有关字词的搜索关键词,则在图中示出针对其中已经从查询S中省略搜索关键词的查询的搜索结果集合、针对搜索关键词的搜索结果集合和针对搜索关键词的有关字词的搜索结果集合之间的相互关系。例如,如果查询S为“K AND X AND Y”、具有有关字词的搜索关键词为“K”,有关字词为“K′”,则通过维恩图示出针对查询“X
AND Y”、“K”和“K′”的搜索结果之间的关系。另外,如果查询S包括单个关键词“K”且有用于关键词“K”的有关字词“K′”,则{针对在从查询S中省略搜索关键词时的搜索结果}将是不可定义的。在这一情况下,在维恩图中示出在关键词“K”与“K′”之间的关系。
(2)如果接受使用在搜索结果中的文档组中出现的频繁出现关键词来生成查询的查询生成方法,则以使得可以理解使用频繁出现关键词的搜索会如何影响搜索结果(可以如何缩减搜索目标)的方式进行绘制。具体而言,示出针对查询S的搜索结果集合与针对在用频繁出现关键词进行搜索时的搜索结果集合之间的关系。
(3)如果接受通过省略查询中的部分关键词来生成查询的查询生成方法,则示出原查询S与其中已经省略查询S中的部分关键词的查询R之间的关系。
此外,当A1、...、An为有限集时,通过组合以下容斥原理:
[等式1]
| &cup; i = 1 n A i | = &Sigma; i = 1 n | A i | - &Sigma; i < j | A i &cap; A j | + &Sigma; i < j < k | A i &cap; A j &cap; A k | - &CenterDot; &CenterDot; &CenterDot; &PlusMinus; | A 1 &cap; A 2 &CenterDot; &CenterDot; &CenterDot; &cap; A n |
与德摩根定律:
[等式2]
| &cap; i = 1 N A i | = | &cup; i = 1 N A i &OverBar; | &OverBar;
有可能递归地计算每个分区中的搜索结果的数目。
这里,令|A|表示集合A的元素数目(基数),A∪B表示“A OR B”,A∩B表示“AAND B”,并且
[等式3]
A &OverBar;
表示“NOT A”。
此外,一般而言,维恩图经常表示三个类别之间的关系。然而,无论该关系涉及到的类别数目如何,维恩图都能够表示(参阅:Frank Ruskey,Carla D.Savage,and Stan Wagon,“The Search for Simple Symmetric Venn Diagrams,”Notices of the AMS 53(11):1304-1311)。然而,由于该图在表示大量类别之间的关系时变得复杂,所以也可想到如下使用模式,其中例如如后文描述的图6中所示,根据用户对显示项目的选择来表示类别之间的关系等等。
在步骤414和415中,如果已经看见在步骤412中显示的查询R的用户请求显示使用该查询R的搜索结果,则搜索执行部分208将查询S替换为用户选择的查询R,并且从步骤403继续处理。在这一点,针对新查询S的搜索结果可为在步骤410中返回的搜索结果。此外,也可想到如下使用模式,其中在第二次或者随后执行的步骤412中显示搜索结果列表时,着重显示新添加的搜索结果的文档以突出差异。
在步骤416和417中,如果用户编辑查询S以便用新查询重新执行,则搜索执行部分208根据编辑的查询来执行搜索。当编辑的查询重新取为S时,在回到步骤403时继续处理。另外,如果用户未编辑查询S以便重新执行搜索,则终止处理。
<文档搜索系统的初始屏幕显示例子>
图5是示出本系统的初始屏幕显示例子的图。在初始屏幕上,有用于输入查询的查询输入文本框501和用于针对搜索结果缩减(或者更改)搜索目标的查询生成方法选择菜单502。利用查询生成方法选择菜单502使得有可能使用单选按钮从以下三种方法中选择(图4中的步骤401):基于有关字词的生成方法;使用在搜索结果中的文档组中出现的频繁出现关键词的生成方法;以及通过省略查询中的部分关键词的生成方法。一旦用户输入这些项目或者设置并且按下搜索执行按钮503,就开始搜索(图4中的步骤402)。下文以如下例子提供描述,其中针对关于人力资源开发的活动报告从文档DB 201中检索文档。
<使用有关字词的搜索结果的屏幕显示例子>
图6示出由于按下图5中的搜索执行按钮503而出现的搜索结果列表和使用有关字词的查询候选列表的屏幕显示例子。
在搜索结果列表窗格601中显示查询和命中计数,并且在其下面显示搜索结果列表。在搜索返回的每个文档的标题附近显示包含搜索关键词的文档中的文字。用户查看这些标题和文字以确定搜索结果是否是用户所希望的。
在查询候选显示窗格602中显示用于调节搜索目标的查询列表。在这一窗格602的上部中的查询生成方法菜单603中显示根据哪个标准生成查询。对于根据图6中的有关字词标准的查询生成,在菜单603下面显示与输入的查询有关的术语列表。换句话说,如果在有关字词字典203中登记输入的查询中包含的搜索关键词作为关键词301,则显示对应的有关字词302。另外,显示使用这样的有关字词的新查询列表、针对用新查询返回的搜索结果的命中计数和通过比较针对每个新查询的搜索结果的命中计数与针对原查询的搜索结果的命中计数而计算的增加/减少。一旦用户按下位于每个查询附近的搜索执行按钮604,就基于对应的查询来执行搜索。
在维恩图显示窗格605中的维恩图中显示针对用户输入的查询的搜索结果的命中计数与针对在查询候选显示窗格602中呈现的有关字词的搜索结果的命中计数之间的相互关系。在维恩图中的文档集合是针对用户在有关字词选择菜单606中选择的关键词的搜索结果。在这一菜单606中显示根据用户输入的查询而获得的有关字词列表、它们的相应命中计数和复选框。针对与用户选中其复选框的关键词对应的搜索结果进行维恩图显示。如维恩图显示窗格605所示,在每个分区中显示命中计数。例如,由于针对“人力资源开发AND教育”有2个命中、针对“教育”有2,142个命中以及针对“人力资源开发”有12个命中,所以显示在“教育”与“人力资源开发”之间的重叠分区中有2个命中。另外,仅针对与用虚线或者实线包围的每个分区有关的部分显示命中计数。例如,在针对“人力资源开发”的所有12个命中之中显示在与“教育”重叠的分区中有2个命中而在其余分区中有10个命中。
在查询输入窗格607中有查询输入文本框608和用于执行文本框608中的查询的搜索执行按钮609。也可想到如下使用模式,其中一旦用户在维恩图显示窗格605中选择维恩图显示中的给定分区,就在查询输入文本框608中自动输入可提取该所选分区的部分的查询。此外,如果用户确定关于搜索目标的搜索关键词并不恰当,并且希望改写查询或者输入新查询,则在查询输入文本框608中重新输入不同的查询并执行该不同的查询。
通过这样的发明,由于即使用户并不知道与搜索关键词有关的有关字词(或者即使她/他不能想到任何有关字词),也自动呈现使用有关字词的查询(第二查询),所以用户能够检索她/他希望的文档组而遗漏甚少。
另外,由于同时显示针对用第二查询进行的搜索的命中计数以及在比较第二查询与原查询(第一查询)时的命中计数的增加/减少,所以用户能够作出以适当数目检索文档的决定。例如,假设用户实际能够查看的搜索结果的数目为数十个命中至一百个命中,则用户能够作出诸如“由于添加这一搜索关键词导致一千个或者更多命中,所以需要考虑不同的关键词”、“由于添加这一搜索关键词仅将命中计数增加三个,所以可以承受添加它”等决定。
另外,当向该查询添加第一查询中包含的搜索关键词的有关字词时,可以在执行搜索之前确认搜索结果的趋势和特征。换句话说,可以容易地确定接着应当用什么种类的有关字词执行搜索。例如,在图6的情况下,可以看出针对“人力资源开发”的关键词搜索返回很少结果、关于人力资源开发活动可能在针对“教育”的搜索结果中有许多有关文档、在针对“教育”的搜索结果中包括大量文档等等。
另外,通过维恩图显示,有可能掌握搜索关键词之间和搜索关键词与有关字词之间的关系,并且可视地理解适当的关键词组合以及这样组合的查询所返回的命中计数。
<使用频繁出现关键词的搜索结果的屏幕显示例子>
图7示出搜索结果列表和基于搜索结果中的频繁出现关键词的查询候选列表的屏幕显示例子。其示出如下屏幕,其中在图6中的查询生成方法菜单603中选择了“使用在搜索结果中的文档组中出现的频繁出现关键词生成”,并且已经针对查询用“人力资源开发OR教育”执行了搜索。
如图6中那样,在搜索结果列表窗格701中显示查询和命中计数,并且在其下面显示针对新查询“人力资源开发OR教育”的搜索结果列表。着重显示了新添加到先前搜索结果中的文档(在图7中用星形标示的部分)。通过这样的发明,用户能够直接理解添加了什么种类的文档,并且能够容易看见第二查询的效果。
在查询候选显示窗格702中显示用于调节搜索目标的查询候选列表。这里,已经在查询生成方法菜单703中选择了将使用在搜索结果中的文档组中出现的频繁出现关键词来进行生成。另外,在查询生成方法菜单703下面呈现在实际搜索结果中出现的频繁出现关键词。
如图6中那样,在维恩图显示窗格704中通过维恩图表示针对用户输入的查询的搜索结果的命中计数与针对在搜索结果中出现的频繁出现关键词的搜索结果的命中计数之间的相互关系。
通过这样的发明,由于自动呈现使用搜索结果中的频繁出现关键词的查询(第二查询),所以用户能够有效地检索想要的文档组。
此外,对于使用频繁出现关键词的查询,由于同时显示搜索命中计数和命中计数的增加/减少,所以用户能够以适当数目检索文档。
此外,用户能够容易地理解什么种类的关键词在针对输入的查询的搜索结果之中频繁地出现。例如,在图7的情况下,能够获得如下概况:在针对查询“人力资源开发OR教育”的搜索结果中大量地包含“课程指导”的通知、“课程完成报告”的通知和与“新员工”教育有关的文档。
另外,通过维恩图显示,有可能掌握针对原查询(第一查询)的搜索结果与针对频繁出现关键词的搜索结果之间的关系,并且有可能可视地理解适当的关键词组合以及针对这样制定的查询的命中计数。例如,在图7的情况下,可以看出包含关键词“课程完成报告”的文档总是包括关键词“人力资源开发”或者“教育”、无文档同时包含“课程指导”和“课程完成通知”等。因此,如果用户在检索关于人力资源开发的活动报告,则她/他能够作出从检索目标中排除课程指导文档的决定,因为它们看来无关。另一方面,她/他能够作出在检索目标中包括诸如“课程完成报告”、“新员工”等关键词的决定,因为它们看来与人力资源开发活动有关。
<基于省略部分关键词的搜索结果的屏幕显示例子>
图8示出搜索结果列表和基于省略查询中的部分关键词的查询候选列表的屏幕显示例子。其示出如下屏幕,其中在图7中的查询生成方法菜单703中已经选择“通过省略查询中的部分关键词生成”,并且已经针对查询用“(人力资源开发OR教育)AND(课程完成通知OR新员工)AND财政年度2007”执行了搜索。
如图6中那样,在搜索结果列表窗格801中显示查询和命中计数,并且显示针对查询“(人力资源开发OR教育)AND(课程完成通知OR新员工)AND财政年度2007”的搜索结果列表。在查询候选显示窗格802中显示用于调节搜索目标的查询候选列表。这里,已经在查询生成方法菜单803中选择了将通过省略查询中的部分关键词来进行生成。例如,图7中的查询(1)为“(人力资源开发OR教育)AND(课程完成通知OR新员工)”,这是通过从原查询中省略关键词“财政年度2007”而生成的查询。
如图6中那样,在维恩图显示窗格804中用维恩图表示针对用户输入的查询的搜索结果的命中计数与针对通过省略部分搜索关键词而生成的查询的搜索结果的命中计数之间的相互关系。在维恩图中的文档集合是针对用户在查询候选选择菜单805中选择的查询的搜索结果。在查询候选选择菜单805中显示在查询候选显示窗格802中呈现的查询候选列表、它们的相应命中计数和复选框。针对与用户选中其复选框的关键词对应的搜索结果进行维恩图显示。
通过这样的发明,用户能够看出原查询(第一查询)中的条件就她/他希望检索的目标而言是否太严格/太宽泛。例如,当用户输入的第一查询为具有特定搜索关键词和通用搜索关键词的AND搜索时,如果由于使用该第一查询进行搜索而在省略该通用关键词时几乎没有观察到命中计数的变化,则可以确定应当省略该关键词。反言之,当第一查询为具有特定搜索关键词和特殊搜索关键词的AND搜索时,如果由于使用该第一查询进行搜索而仅返回两至三个命中,则可以确定应当省略该特殊搜索关键词。例如,在图8的情况下,即使当使用其中从查询(1)、即原查询中省略“财政年度2007”的查询来进行搜索时,差异也仅为两个命中。换句话说,有如下可能性:这两篇文档仅偶然地未包括关键词“财政年度2007”。此外,由于增加两个命中相对于原搜索结果中的169个命中仅为略微增加,所以也可以确定保持包括这两个命中作为人力资源开发活动的记录会允许更少遗漏和更彻底覆盖。
另外,通过维恩图显示,有可能在执行搜索之前可视地确认针对原查询(第一查询)的搜索结果和从原查询中省略搜索关键词的效果。
<结论>
如上文所述,根据本实施例,由于在显示搜索结果列表时呈现用于调节搜索目标的查询,所以用户能够有效和直接地理解什么种类的搜索关键词会适合作为后续的搜索关键词。此外,如果搜索结果未如用户所愿(当指定错误的搜索关键词时),她/他能够容易地看见它。另外,由于有可能在重复搜索过程中发现更合适的其它关键词,则可以执行更好地适应用户意图的搜索。
标号说明
201文档DB
202文档索引
203有关字词字典
204显示设备
205键盘
206鼠标
207中央处理单元
208搜索执行部分
209搜索结果显示处理部分
210有关字词查询生成处理部分
211关联关键词查询生成处理部分
212部分查询生成处理部分
213维恩图绘制处理部分
214存储器
501查询输入文本框
502查询生成方法选择菜单
503搜索执行按钮
601搜索结果列表窗格
602查询候选显示窗格
603查询生成方法菜单
604搜索执行按钮
605维恩图显示窗格
606有关字词选择菜单
607查询输入窗格
608查询输入文本框
609搜索执行按钮
701搜索结果列表窗格
702查询候选显示窗格
703查询生成方法菜单
704维恩图显示窗格
801搜索结果列表窗格
802查询候选显示窗格
803查询生成方法菜单
804维恩图显示窗格
805查询候选选择菜单

Claims (9)

1.一种文档搜索系统,用于基于搜索关键词从其中积累待作为搜索目标的文档的文档DB之中找到包含所述搜索关键词的文档,所述文档搜索系统包括:
有关字词字典,该有关字词字典中聚集搜索关键词的有关字词;
有关字词查询生成处理部分,该有关字词查询生成处理部分被配置成从所述有关字词字典中提取已经输入的第一查询中包含的搜索关键词的有关字词并使用所述有关字词生成作为新查询的第二查询;
搜索执行部分,该搜索执行部分被配置成计算针对用所述第一查询返回的搜索结果的命中计数与针对用所述第二查询返回的搜索结果的命中计数之间的增加/减少;以及
搜索结果显示处理部分,该搜索结果显示处理部分被配置成在显示部分上同时显示:所述第一查询;用所述第一查询返回的搜索结果;针对所述搜索结果的命中计数;所述第二查询;针对用所述第二查询返回的搜索结果的命中计数;以及所述增加/减少。
2.根据权利要求1所述的文档搜索系统,还包括:维恩图绘制处理部分,该维恩图绘制处理部分被配置成在所述显示部分上以及在维恩图中显示用所述第一查询返回的搜索结果与用所述第二查询返回的搜索结果之间的相互关系。
3.一种文档搜索系统,用于基于搜索关键词从其中积累待作为搜索目标的文档的文档DB之中找到包含所述搜索关键词的文档,所述文档搜索系统包括:
关联关键词查询生成处理部分,该关联关键词查询生成处理部分被配置成使用在针对已经输入的第一查询的搜索结果中频繁出现的频繁出现关键词来生成作为新查询的第二查询;
搜索执行部分,该搜索执行部分被配置成计算针对用所述第一查询返回的搜索结果的命中计数与针对用所述第二查询返回的搜索结果的命中计数之间的增加/减少;以及
搜索结果显示处理部分,该搜索结果显示处理部分被配置成在显示部分上同时显示:所述第一查询;用所述第一查询返回的搜索结果;针对所述搜索结果的命中计数;所述第二查询;针对用所述第二查询返回的搜索结果的命中计数;以及所述增加/减少。
4.根据权利要求3所述的文档搜索系统,还包括:维恩图绘制处理部分,该维恩图绘制处理部分被配置成在所述显示部分上以及在维恩图中显示用所述第一查询返回的搜索结果与用所述第二查询返回的搜索结果之间的相互关系。
5.一种文档搜索系统,用于基于搜索关键词从其中积累待作为搜索目标的文档的文档DB之中找到包含所述搜索关键词的文档,所述文档搜索系统包括:
部分查询生成处理部分,该部分查询生成处理部分被配置成通过省略在已经输入的第一查询中包含的多个搜索关键词的部分来生成作为新查询的第二查询;
搜索执行部分,该搜索执行部分被配置成计算针对用所述第一查询返回的搜索结果的命中计数与针对用所述第二查询返回的搜索结果的命中计数之间的增加/减少;以及
搜索结果显示处理部分,该搜索结果显示处理部分被配置成在显示部分上同时显示:所述第一查询;用所述第一查询返回的搜索结果;针对所述搜索结果的命中计数;所述第二查询;针对用所述第二查询返回的搜索结果的命中计数;以及所述增加/减少。
6.根据权利要求5所述的文档搜索系统,还包括:维恩图绘制处理部分,该维恩图绘制处理部分被配置成在所述显示部分上以及在维恩图中显示用所述第一查询返回的搜索结果与用所述第二查询返回的搜索结果之间的相互关系。
7.根据权利要求1所述的文档搜索系统,其中:
如果所述搜索执行部分确定在用所述第二查询返回的搜索结果中包含与用所述第一查询返回的搜索结果不同的新搜索结果,
则所述搜索结果显示处理部分在显示用所述第二查询返回的搜索结果时在所述显示部分上着重显示所述新搜索结果。
8.根据权利要求3所述的文档搜索系统,其中:
如果所述搜索执行部分确定在用所述第二查询返回的搜索结果中包含与用所述第一查询返回的搜索结果不同的新搜索结果,
则所述搜索结果显示处理部分在显示用所述第二查询返回的搜索结果时在所述显示部分上着重显示所述新搜索结果。
9.根据权利要求5所述的文档搜索系统,其中:
如果所述搜索执行部分确定在用所述第二查询返回的搜索结果中包含与用所述第一查询返回的搜索结果不同的新搜索结果,
则所述搜索结果显示处理部分在显示用所述第二查询返回的搜索结果时在所述显示部分上着重显示所述新搜索结果。
CN2009801232751A 2008-06-18 2009-06-12 文档搜索系统 Pending CN102067124A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008159621A JP2010003015A (ja) 2008-06-18 2008-06-18 文書検索システム
JP2008-159621 2008-06-18
PCT/JP2009/060784 WO2009154153A1 (ja) 2008-06-18 2009-06-12 文書検索システム

Publications (1)

Publication Number Publication Date
CN102067124A true CN102067124A (zh) 2011-05-18

Family

ID=41434068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801232751A Pending CN102067124A (zh) 2008-06-18 2009-06-12 文档搜索系统

Country Status (5)

Country Link
US (1) US8407232B2 (zh)
EP (1) EP2315135B1 (zh)
JP (1) JP2010003015A (zh)
CN (1) CN102067124A (zh)
WO (1) WO2009154153A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324646A (zh) * 2012-03-19 2013-09-25 株式会社东芝 检索支援装置及检索支援方法
CN107562753A (zh) * 2016-06-30 2018-01-09 索意互动(北京)信息技术有限公司 一种基于索引词的分析方法与装置
CN112236768A (zh) * 2018-06-04 2021-01-15 环球娱乐株式会社 搜索文本生成系统和搜索文本生成方法

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8621376B2 (en) * 2009-10-28 2013-12-31 Yahoo! Inc. Developer interface and associated methods for system for querying and consuming web-based data
JP2011197863A (ja) * 2010-03-18 2011-10-06 Konica Minolta Business Technologies Inc コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム
JP5565033B2 (ja) * 2010-03-29 2014-08-06 ソニー株式会社 情報処理装置、コンテンツ表示方法及びコンピュータプログラム
CN101840420B (zh) * 2010-04-02 2011-12-28 清华大学 搜索辅助系统与搜索辅助方法
CA2805872C (en) * 2010-08-20 2014-04-15 Rakuten, Inc. Information provisioning device, information provisioning method, program, and information recording medium
JP5567440B2 (ja) * 2010-09-29 2014-08-06 株式会社日立ソリューションズ 監査準備支援装置、監査準備支援システム、監査準備支援方法
US9519714B2 (en) * 2010-12-22 2016-12-13 Microsoft Technology Licensing, Llc Presenting list previews among search results
JP5585489B2 (ja) * 2011-02-17 2014-09-10 富士通株式会社 検索支援装置、プログラム及び方法
KR101950529B1 (ko) * 2011-02-24 2019-02-20 렉시스넥시스, 어 디비젼 오브 리드 엘서비어 인크. 전자 문서를 검색하는 방법 및 전자 문서 검색을 그래픽적으로 나타내는 방법
JP5338835B2 (ja) * 2011-03-24 2013-11-13 カシオ計算機株式会社 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム
JP2013073404A (ja) * 2011-09-27 2013-04-22 Gourmet Navigator Inc 店舗情報検索システム
US9990420B2 (en) 2011-11-02 2018-06-05 Entit Software Llc Method of searching and generating a relevant search string
JP5739844B2 (ja) * 2012-06-25 2015-06-24 ヤフー株式会社 情報提示装置、情報提示方法及び情報提示プログラム
US8843495B2 (en) 2012-07-12 2014-09-23 International Business Machines Corporation High-efficiency selection of runtime rules for programmable search
US9542492B2 (en) * 2013-02-07 2017-01-10 Fuji Xerox Co., Ltd. Method and system for generating interactive query results previews
US10152538B2 (en) * 2013-05-06 2018-12-11 Dropbox, Inc. Suggested search based on a content item
EP2827260A1 (en) * 2013-07-16 2015-01-21 Thomson Licensing Apparatus and method enabling interactive searches
KR101541306B1 (ko) * 2013-11-11 2015-08-04 주식회사 엘지씨엔에스 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
KR20150120123A (ko) * 2014-04-17 2015-10-27 삼성전자주식회사 정보 제공 방법 및 장치
JP6598291B2 (ja) * 2015-05-21 2019-10-30 日本電気株式会社 検索式可視化装置、検索システム、検索式可視化方法および検索式可視化プログラム
JP6615514B2 (ja) * 2015-07-07 2019-12-04 一般社団法人日本みらい研 政策会議情報提供システム
US10332123B2 (en) * 2015-08-27 2019-06-25 Oracle International Corporation Knowledge base search and retrieval based on document similarity
JP6565628B2 (ja) * 2015-11-19 2019-08-28 富士通株式会社 検索プログラム、検索装置および検索方法
CN108563713B (zh) * 2018-03-29 2021-08-10 创新先进技术有限公司 关键词规则生成方法及装置和电子设备
US11134090B1 (en) * 2018-06-04 2021-09-28 Target Brands, Inc. Network security analysis and malware detection using multiple types of malware information
US10956470B2 (en) * 2018-06-26 2021-03-23 International Business Machines Corporation Facet-based query refinement based on multiple query interpretations
GB2586002A (en) * 2019-02-08 2021-02-03 All Street Res Limited Improved method and system for text based searching
JPWO2020217140A1 (zh) 2019-04-26 2020-10-29
US11501067B1 (en) 2020-04-23 2022-11-15 Wells Fargo Bank, N.A. Systems and methods for screening data instances based on a target text of a target corpus
US11429879B2 (en) 2020-05-12 2022-08-30 Ubs Business Solutions Ag Methods and systems for identifying dynamic thematic relationships as a function of time
CN115017257A (zh) * 2022-04-21 2022-09-06 南京坤爵信息技术有限公司 一种基于KTree算法的智能超级检索的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181520A1 (en) * 2003-03-13 2004-09-16 Hitachi, Ltd. Document search system using a meaning-ralation network
US20040249804A1 (en) * 2003-05-14 2004-12-09 International Business Machines Corporation Search supporting apparatus, search supporting method and searching program
WO2006121702A1 (en) * 2005-05-04 2006-11-16 Google, Inc. Suggesting and refining user input based on original user input
CN101164067A (zh) * 2005-02-28 2008-04-16 温克科技公司 通过合并用户输入信息来进行搜索的方法和系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05250411A (ja) 1992-03-09 1993-09-28 Nippon Telegr & Teleph Corp <Ntt> 検索条件式作成装置
JP3219840B2 (ja) 1992-05-13 2001-10-15 富士通株式会社 情報検索装置
JPH06187374A (ja) 1992-12-15 1994-07-08 Hokkaido Nippon Denki Software Kk 検索方式
JP3385913B2 (ja) * 1997-05-27 2003-03-10 富士ゼロックス株式会社 関連語提示装置及び関連語提示用プログラムを記録した媒体
JPH1115841A (ja) * 1997-06-24 1999-01-22 Fuji Xerox Co Ltd 情報検索装置及び情報検索プログラムを記録した媒体
US20030050927A1 (en) * 2001-09-07 2003-03-13 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
US6772150B1 (en) * 1999-12-10 2004-08-03 Amazon.Com, Inc. Search query refinement using related search phrases
US6897867B2 (en) 1999-12-17 2005-05-24 Fujitsu Limited Information comparison display apparatus using colors and a method thereof
JP2001175668A (ja) * 1999-12-17 2001-06-29 Fujitsu Ltd 色彩を用いた情報比較表示装置および比較表示方法
US20020143860A1 (en) * 2001-03-31 2002-10-03 Koninklijke Philips Electronics N. V. Machine readable label reader system with versatile default mode
US7536413B1 (en) * 2001-05-07 2009-05-19 Ixreveal, Inc. Concept-based categorization of unstructured objects
US7194483B1 (en) * 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
JP2004295797A (ja) * 2003-03-28 2004-10-21 Oki Electric Ind Co Ltd 情報検索装置
JP2005100136A (ja) 2003-09-25 2005-04-14 Sekai Nipposha:Kk 電子記事のヒット件数最適化検索システム
JP2006012078A (ja) 2004-06-29 2006-01-12 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
JP2006185020A (ja) * 2004-12-27 2006-07-13 Fuji Xerox Co Ltd 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US9092523B2 (en) * 2005-02-28 2015-07-28 Search Engine Technologies, Llc Methods of and systems for searching by incorporating user-entered information
US20070255702A1 (en) * 2005-11-29 2007-11-01 Orme Gregory M Search Engine

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181520A1 (en) * 2003-03-13 2004-09-16 Hitachi, Ltd. Document search system using a meaning-ralation network
US20040249804A1 (en) * 2003-05-14 2004-12-09 International Business Machines Corporation Search supporting apparatus, search supporting method and searching program
CN101164067A (zh) * 2005-02-28 2008-04-16 温克科技公司 通过合并用户输入信息来进行搜索的方法和系统
WO2006121702A1 (en) * 2005-05-04 2006-11-16 Google, Inc. Suggesting and refining user input based on original user input

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324646A (zh) * 2012-03-19 2013-09-25 株式会社东芝 检索支援装置及检索支援方法
CN107562753A (zh) * 2016-06-30 2018-01-09 索意互动(北京)信息技术有限公司 一种基于索引词的分析方法与装置
CN107562753B (zh) * 2016-06-30 2020-04-17 索意互动(北京)信息技术有限公司 一种基于索引词的分析方法与装置
CN112236768A (zh) * 2018-06-04 2021-01-15 环球娱乐株式会社 搜索文本生成系统和搜索文本生成方法

Also Published As

Publication number Publication date
US20110082878A1 (en) 2011-04-07
EP2315135B1 (en) 2015-08-26
EP2315135A4 (en) 2013-07-17
US8407232B2 (en) 2013-03-26
JP2010003015A (ja) 2010-01-07
WO2009154153A1 (ja) 2009-12-23
EP2315135A1 (en) 2011-04-27

Similar Documents

Publication Publication Date Title
CN102067124A (zh) 文档搜索系统
CN111008265B (zh) 企业信息搜索方法及装置
US20060212446A1 (en) Method and system for assessing relevant properties of work contexts for use by information services
CN103488465B (zh) 功能配置推荐方法及系统
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
US20030004941A1 (en) Method, terminal and computer program for keyword searching
US8443008B2 (en) Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
CN101566997A (zh) 确定与给定的词集相关的词
CN103064956A (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
CN102737021B (zh) 搜索引擎及其实现方法
US20100228714A1 (en) Analysing search results in a data retrieval system
JP5156047B2 (ja) キーワード提示装置、方法及びプログラム
JP2007072646A (ja) 検索装置、検索方法およびプログラム
US8234584B2 (en) Computer system, information collection support device, and method for supporting information collection
JP4631795B2 (ja) 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
CN102902705A (zh) 定位数据中的歧义
Nanba et al. Bilingual PRESRI-Integration of Multiple Research Paper Databases.
Hong et al. Automatic extraction of new words based on Google News corpora for supporting lexicon-based Chinese word segmentation systems
KR20050078655A (ko) 동적 키워드 추출과 처리 시스템
Wormell Informetrics and webometrics for measuring impact, visibility, and connectivity in science, politics, and business
Lama Clustering system based on text mining using the k-means algorithm
KR20100068964A (ko) 연관 질의어 추천 장치 및 방법
Roche et al. AcroDef: A quality measure for discriminating expansions of ambiguous acronyms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110518