CN102622389B - 检索式生成装置、检索系统、检索式生成方法 - Google Patents

检索式生成装置、检索系统、检索式生成方法 Download PDF

Info

Publication number
CN102622389B
CN102622389B CN201110240983.2A CN201110240983A CN102622389B CN 102622389 B CN102622389 B CN 102622389B CN 201110240983 A CN201110240983 A CN 201110240983A CN 102622389 B CN102622389 B CN 102622389B
Authority
CN
China
Prior art keywords
retrieval
mentioned
result
retrieval type
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110240983.2A
Other languages
English (en)
Other versions
CN102622389A (zh
Inventor
岩山真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN102622389A publication Critical patent/CN102622389A/zh
Application granted granted Critical
Publication of CN102622389B publication Critical patent/CN102622389B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及检索式生成装置、检索系统、检索式生成方法,用于提供一种准确且高效地生成成为概念检索的依据的检索式的技术。本发明涉及的检索式生成装置构建以将检索术语的逻辑积通过逻辑和结合的积和标准形式来表示的检索条件式,将再现率和精度作为基准,对该检索条件式进行评价。接着,反复地将检索术语的逻辑积中评价值为最大的逻辑积以逻辑和结合,由此来构建检索条件式。

Description

检索式生成装置、检索系统、检索式生成方法
技术领域
本发明涉及一种生成用于检索文件的检索条件式(searchformula)的技术。
背景技术
文件检索主要有两种方法。第1种方法是输入将关键字(任意的字符串)的有无进行了组合的逻辑式,只将该逻辑式为真的文件作为检索结果输出的方法。该方法一般被称为全文检索(fulltextsearch)。将组合了关键字的有无的逻辑式的方式称为检索(条件)式。第2种方法是输入文章,输出使与该文章类似的文件按类似度顺序排序(ランク付け)的检索结果的方法。该方法一般被称为概念检索(similaritysearch)。
由于概念检索只要以文章形式原样输入想要检索的主题(topic)即可,所以即便不是文件检索专家的人也能够容易地使用。由于检索结果被带顺位地显示,所以用户能够从排序靠前(上位)的重要文件开始优先查阅。另一方面,对于文件为何被靠前排序,难以确认其理由。
成为概念检索中的类似度的重要因素是输入的文章与检索结果的文件之间的词语(単語)分布的重复、作为检索结果而得到的文件的文件长度等。因此,难以简洁地表现类似度的依据。另外,概念检索的构造成为黑箱(blackbox),类似度的依据大多为非公开。
如果不知道文件作为检索结果而得到的依据,则用户不知晓对该检索结果查阅到什么程度才是足够的。另外,也无法确认是否完全检索了所希望的主题。
概念检索如Web页的检索那样,适合于在靠前少数的文件中有一个所希望的文件即可的状况,但针对在专利文献、学术论文的检索中希望对某个主题进行网罗性(exhaustive)调查的状况,其效率反而差。
另一方面,全文检索必须利用由关键字的逻辑式(Booleanformula)构成的检索式来表现想要检索的主题,需要用于构建检索式的经验和专业知识。但是,由于检索文件的基准是检索式自身,所以对用户而言,基准明确且容易理解。如果对被检索出的文件全部进行调查,则可以说调查了全部由检索式表现的主题的文件。
为了减轻概念检索的课题,提出了几种方法。在下述专利文献1中,抽出在通过概念检索而检索出的靠前数十件文件中特征性地出现的词语,将其与检索结果一同输出。通过观看抽出的特征性词语的集合,可以理解检索结果的大致情况。
在下述非专利文献1中,基于文件间的类似度,将检索结果总结显示为几个组。由于通过总结成组,检索结果中包含的主题被自动地汇集,所以与专利文献1的方法相比更容易掌握检索结果的特征。
在下述非专利文献2中,根据检索结果生成了成为其依据的关键字的逻辑式。通过该文献,找到尽可能宽范围覆盖检索结果的关键字。在找到的关键字的覆盖范围不充分的情况下,重新找出覆盖剩余的文件集合的关键字。通过该反复寻找,找出能够充分覆盖检索结果的关键字,通过逻辑积(product/conjunction)和逻辑和(sum/disjunction)将这些关键字连接,生成检索式。另外,将生成的检索式作为树形结构的图而提示给用户。
专利文献1:日本特开平10-74210号公报
非专利文献1:“Scatter/Gather:acluster-basedapproachtobrowsinglargedocumentcollections”,Cutting,D.,Karger,D.,Pedersen,J.,Tukey,J.pp.318-329,ACMSIGIR’92,199
非专利文献2:“検索結果の概要を表すキ一ワ一ド式生成による質問修正支援”,松生泰典,是津耕司,小山聡,田中克己,デ一タ工学ワ一クシヨツプ(DEWS2005),1Ci9,2005。
通过专利文献1和非专利文献1所记载的技术,可以抽出概念检索的结果中包含的特征性词语,将其作为概念检索的依据进行提示。但是,特征性词语并不一定准确地表示概念检索的依据。
通过非专利文献2所记载的技术,仅将漏检少的程度作为评价基准来抽出词语。因此,抽出的词语有可能大多是概念检索的结果以外的文件(噪声:noise)中的内容。这些词语作为概念检索的依据是不恰当的。
发明内容
本发明为了解决上述那样的课题而提出,其目的在于,提供一种能够准确且高效地生成成为概念检索的依据的检索式的技术。
本发明涉及的检索式生成装置构筑以通过逻辑和将检索术语(term)的逻辑积结合而成的积和标准形式(standardsumofproductsform)来表示的检索条件式,将再现率(遗漏少的程度,recall)与精度(噪声少的程度,precision)作为基准,对该检索条件式进行评价。接着,通过反复地将检索术语的逻辑积中评价值成为最大的逻辑积以逻辑和来结合,来构建检索条件式。
根据本发明涉及的检索式生成装置,通过用积和标准形式来表示检索条件式,能够防止搜索空间(searchspace)变得庞大。而且,由于按检索术语的每个逻辑积搜索评价值为最大的逻辑积,将其以逻辑和结合,所以能够以逻辑积的每一项高效地搜索用积和标准形式表示的检索条件式的搜索空间。并且,由于以再现率和精度为基准,按每个检索术语的逻辑积评价了检索条件式,所以能够按每个逻辑积使检索条件式最佳化,提高检索条件式的准确性。
附图说明
图1是实施方式1涉及的检索系统1000的构成图。
图2是表示检索式生成装置10的显示器104进行画面显示的检索接口画面20的画面印象例的图。
图3是表示成为生成检索式的对象的母集合即文件集合D(301)、与能够由生成的检索式L检索的文件集合H(L)(302)的关系的图。
图4是概念性地表示检索式生成部105搜索检索式L的处理的图。
图5是对图4中说明的搜索顺序进行说明的流程图。
图6是表示图5的步骤S505的详细处理的流程图。
图7是说明检索式生成部105对H(L)进行近似计算的方法的图。
图8是检索服务器12所具备的检索索引123的构成图。
图9是表示实施方式3中的检索索引123的构成例的图。
图10是说明在对文件集合D的一部分进行了取样的基础上求取F值(F-measure)的方法的图。
图11是实施方式7中的检索接口画面20的画面印象例。
图12是表示自动生成的分类规则的例子的图。
附图标记说明:
10:检索式生成装置,101:CPU,102:存储器,103:键盘及鼠标,104:显示器,105:检索式生成部,106:显示控制部,107:数据通信部,11:网络,12:检索服务器,121:CPU,122:存储器,123:检索索引,124:检索部,125:数据通信部,201:文本输入区域,202:文本输入区域,203:显示区域,204:检索按钮,205:再检索按钮,206:依据按钮,207:全选择按钮,208:全解除按钮,209:复选框,1101:文本输入区域,1102:检索按钮,1103:文本输入区域,1104:显示区域,1105:再检索按钮,1106:依据按钮,1000:检索系统。
具体实施方式
<实施方式1>
图1是本发明的实施方式1涉及的检索系统1000的构成图。检索系统1000具有检索式生成装置10和检索服务器12。它们通过网络11连接。
检索式生成装置10是根据作为对文件进行检索的结果而得到的检索结果,生成用于得到该检索结果的检索式的装置。检索式生成装置10具备:CPU(CentralProcessingUnit)101、存储器102、键盘及鼠标103、显示器104、检索式生成部105、显示控制部106、数据通信部107。
CPU101执行对检索式生成装置10的动作进行控制的处理。而且,执行后述的各程序。存储器102是对CPU101所执行的程序、为了执行程序而必要的数据等进行存储的存储装置。键盘及鼠标103受理来自用户的操作输入,将其输出给CPU101。显示器104按照显示控制部106的指示对检索结果等进行画面显示。数据通信部107是通过网络11进行数据通信用的通信接口,例如可以使用利用TCP/IP协议进行通信的LAN(LocalAreaNetwork)接口等来构成。
检索式生成部105根据作为对文件进行检索的结果而得到的检索结果,生成用于获得该检索结果的检索式。检索式生成部105根据需要与检索服务器12通信,收集为了生成检索式而必要的数据。
显示控制部106使显示器104对后述的图2中说明的检索接口画面20进行画面显示。显示控制部106根据需要与检索服务器12通信,收集用于画面显示所必要的数据。
检索式生成部105与显示控制部106既可以利用实现这些功能的电路器件等硬件来构成,也可以构成为安装了同样功能的程序。在将检索式生成部105与显示控制部106作为程序进行安装的情况下,CPU101通过执行这些程序,来实现这些功能部的动作。
数据通信部107相当于本发明中的“检索结果取得部”。显示器104相当于“显示部”。
检索服务器12是实施文件检索并将检索结果发送给检索式生成装置10的装置。检索服务器12具备:CPU121、存储器122、检索索引123、检索部124、数据通信部125。
CPU121执行对检索服务器12的动作进行控制的处理。而且,执行后述的各程序。存储器122是对CPU121所执行的程序、为了执行程序而必要的数据等进行存储的存储装置。检索索引123是将检索对象的数据调整(整形)成适合于检索的数据结构(索引)的数据。检索索引123例如可以保存到磁存储介质等存储介质中。数据通信部125是通过网络11进行数据通信的通信接口,例如可以使用利用TCP/IP协议进行通信的LAN接口等来构成。
检索部124从检索式生成装置10接受要求检索文件的请求(request),利用检索索引123检索出与检索式相符的文件,并将检索结果发送给检索式生成装置10。
检索部124既可以利用实现其功能的电路器件等硬件构成,也可以构成为安装了同样功能的程序。在将检索部124作为程序安装的情况下,CPU121通过执行该程序,来实施检索部124的动作。
图2是表示检索式生成装置10的显示器104进行画面显示的检索接口画面20的画面印象例的图。检索接口画面20受理来自用户的操作输入,对检索结果以及检索式生成部105生成的检索式进行画面显示。以下,对与检索接口画面20的操作相关的动作顺序进行说明。
(图2:动作顺序步骤1)
用户向文本输入区域201输入检索请求。在实施概念检索的情况下输入文章,在实施全文检索的情况下输入检索式。这里,表示了实施概念检索的例子。作为检索请求,输入了“特征为含有1,8-桉叶油素(cineole)作为有效成分的尘螨(ヒヨウヒダニ)的驱虫剂。”这一文章。
(图2:动作顺序步骤2)
如果用户点击了检索按钮204,则显示控制部106取得文本输入区域201被输入的字符串,通过数据通信部107向检索服务器12发送将该字符串作为检索条件的检索请求。
(图2:动作顺序步骤3)
检索服务器12接受检索式生成装置10发送的检索请求。检索部124利用检索索引123检索与检索请求相符的文件。检索部124取得与检索相符的文件的识别符、标题等,并作为检索结果发送给检索式生成装置10。
(图2:动作顺序步骤4)
显示控制部106通过数据通信部107接受检索结果,将其以列表形式显示到显示区域203。显示区域203对检索结果中包含的文件的标题等进行显示。在各标题的旁边配置有对选择/非选择进行切换的复选框209。复选框处于选择状态的文件成为生成检索式的对象。默认下显示区域203中显示的所有文件都被选择。如果点击了全选择按钮207,则可以统一选择所有文件。如果点击了全解除按钮208,则可以统一选择解除所有文件。
(图2:动作顺序步骤5)
如果用户点击了依据按钮206,则显示控制部106将被选择的文件的识别符交给检索式生成部105。检索式生成部105利用后述的图3~图6中说明的方法,生成能够准确地检索出在检索接口画面20上被选择的文件的检索式。
(图2:动作顺序步骤6)
显示控制部106将检索式生成部105生成的检索式显示到文本输入区域202。这里显示了“剂*驱虫+害虫*驱虫*成分”这一检索式。启示了如果利用该检索式实施全文检索,则能够准确地检索目前所选择的文件。用户可以将实施概念检索而得到的检索结果的依据作为与检索结果等效的检索式来进行确认。
(图2:动作顺序步骤6:补充)
在图2所示的例子的情况下,虽然在原来的概念检索中向文本输入区域201输入了“尘螨”这一术语,但在文本输入区域202所显示的检索式中使用了更普遍的“害虫”这一关键字。即,可以说使用了文本输入区域201被输入的文章的概念检索的结果,与使用“害虫”这一普通的关键字进行了全文检索的结果等效。用户通过比较文本输入区域201与202的显示内容,可以确认是否实施了网罗性检索。并且,如果查阅被选择的文件的内容,则可以完全查遍与包含尘螨的“害虫”相关的文件。
(图2:动作顺序步骤7)
用户还可以在文本输入区域202上修正由检索式生成部105生成的检索式。如果在修正了检索式之后点击再检索按钮205,则显示控制部106取得文本输入区域202被输入的检索式,通过数据通信部107向检索服务器12发送将该检索式作为检索条件的检索请求。检索服务器12利用该检索式实施检索,显示控制部106将其检索结果显示到显示区域203。
(图2:动作顺序步骤7:补充)
例如,有可能在目前的检索结果中还包含与尘螨以外的害虫相关的文件。如果只想要与尘螨有关的文件,则只要将文本输入区域202中显示的“害虫”修正为“尘螨”,使用“剂*驱虫+尘螨*驱虫*成分”这一检索式实施再度检索即可。
以上,对检索系统1000的构成进行了说明。接下来,对检索式生成部105生成检索式的方法进行说明。
图3是表示了成为生成检索式的对象的母集合即文件集合D(301)、与可以通过生成的检索式L来检索的文件集合H(L)(302)的关系的图。如果是能够只不漏掉D地进行检索的检索式,则D(301)与H(L)(302)一致,所以优选找出满足这样的条件的检索式L。但是,由于文件集合D的选择方法的不同,也有时不存在这样的检索式。鉴于此,实际上搜索D与H(L)的交集、即D∧H(L)(303)尽可能宽泛那样的检索式L。在本实施方式1中,使用F值作为用于该搜索的目标函数值。
F值是再现率R(recall)(304)与精度P(precision)(305)的调和平均(307)。再现率R表示通过检索式L能够不漏掉D地进行检索的程度,相当于检索结果H(L)中的包含在文件集合D的文件相对文件集合D所占的比例。精度P表示通过检索式L只检索D的程度,相当于检索结果H(L)中的包含在文件集合D的文件相对于检索结果H(L)所占的比例。
如果将式304与式305代入到式307,则F值的式由式308表示。式308的分母为D(301)的面积与H(L)(302)的面积之和,式308的分子为D(301)的面积与H(L)(302)的面积的交集即D∧H(L)(303)的面积的2倍。当D与H(L)相等时,F值成为最大值1。当D与H(L)完全不重合时,F值成为最小值0。
另外,在本实施方式1中,采用F值作为评价检索式L的基准,将再现率R与精度P对等地调和平均,但也可以进行加权,来重视其中一方。由于按照应用,存在希望牺牲精度与再现率的任意一方而重视另一方的情况,所以在这样的情况下,只要对任意一方施加比另一方重视的权重即可。
另外,在本实施方式1中使用了式308所示的F值作为评价检索式L的基准,但只要是使用再现率R与精度P的评价式,也可以使用式308以外的评价式。
以上,说明了检索式生成部105生成检索式L的原理。检索式生成部105只要搜索使式308所示的F值为最大的检索式L即可。但是,如果设为能够使用任意形式的检索式,则有可能导致搜索空间变庞大。该课题被称为搜索问题。在本发明中,为了解决搜索问题,将检索式的形式限定为积和标准形式,按构成检索式的逻辑积的每一项,通过贪婪算法(greedyalgorithm)搜索D。该搜索法与F值的最大化相适合。详细内容将在后面叙述。
积和标准形式是如(a*b*c)+(d*e)+(f*g)那样,由检索术语的逻辑积(*)构成的项以逻辑和(+)结合的形式。在本发明中,通过反复处理,逐项生成构成积和标准形式的各逻辑积。在上述例子的情况下,由于逻辑积有三个,所以反复处理执行3次。
在各反复处理中,搜索能够以目前被提供的文件集合尽可能宽泛、且噪声的混入变少的方式进行检索的逻辑积。这里的目标函数使用前述的F值。
接下来,将通过生成的逻辑积能够检索的文件从被提供的文件集合中去掉,对剩余的文件集合反复进行相同的处理。如果剩余的文件集合没了、或能够新检索的文件的数量为规定阈值以下,则停止反复处理。
图4是概念性地表示检索式生成部105搜索检索式L的处理的图。检索式生成部105搜索能够从文件集合D(301)得到所希望的检索结果的检索式L。以下,对图4所示的处理顺序进行说明。
(图4:处理顺序步骤1)
检索式生成部105生成由检索术语的一个逻辑积构成的检索式L1。检索式生成部105搜索F值为最大的L1。在检索式生成部105在搜索L1的过程中,将构成逻辑积的检索术语以及检索术语的个数最佳化。例如,得到L1=a*b*c等结果。检索式L1覆盖的文件集合是图4的H(L1)(302a)。D与H(L1)重合的部分D∧H(L1)是图4的斜线区域303a。
(图4:处理顺序步骤2)
检索式生成部105针对从文件集合D除去了H(L1)的部分实施与步骤1同样的处理,生成F值为最大的检索式L2。检索式L2由检索术语的一个逻辑积构成。这里得到的检索式L2不限于和步骤1相同。例如,得到L2=d*e等结果。L2所覆盖的文件集合是图4的H(L2)(302b)。
(图4:处理顺序步骤3)
检索式生成部105对从文件集合D除去了H(L1)和H(L2)的部分实施与步骤1同样的处理,生成F值为最大的检索式L3。检索式L3由检索术语的一个逻辑积构成。这里得到的检索式L3不限于和步骤1~步骤2相同。例如,得到L3=f*g等结果。L3所覆盖的文件集合是图4的H(L3)(302c)。
(图4:处理顺序步骤4)
检索式生成部105将与以上同样的处理反复进行规定次数或者直到文件集合D中无法覆盖的范围成为规定范围以下。这里,将反复次数假定为3次。检索式搜索部105将在各步骤中得到的检索式通过逻辑和来结合,作为最终的检索式L。这里为L=L1+L2+L3=(a*b*c)+(d*e)+(f*g)。
(图4:处理顺序步骤4:补充)
图4的用虚线包围的部分成为检索式L能够覆盖的文件集合。由于在各步骤1~步骤3中,局部地生成了F值为最大的逻辑积L1~L3,所以将它们结合后的积和标准形式的F值也相应地成为大的值。由于利用反复取得局部最佳解的贪婪算法来生成检索式L,所以并不一定限于得到大范围(大域)的最大值,可以避免搜索空间变得庞大。
图5是对图4中说明的搜索顺序进行说明的流程图。以下,对图5的各步骤进行说明。
(图5:步骤S501)
检索式生成部105取得构成文件集合D的各文件。D的要素d_i是各文件的识别符。检索式生成部105可以向检索服务器12询问文件集合D的各构成要素,也可以由用户输入各构成要素。
(图5:步骤S502)
检索式生成部105将用于输出最终检索式L的逻辑交集设为O,将O以空集合进行初始化。
(图5:步骤S503)
检索式生成部105设定用于对是否结束本处理进行判定的剩余文件数阈值c_min。对于c_min将在步骤S509中另外说明。c_min的值可以预先保存到存储器102等中,也可以由用户输入。
(图5:步骤S504)
检索式生成部105反复进行以下的步骤S505~S508,直到满足在步骤S509中说明的条件为止。
(图5:步骤S505)
检索式生成部105搜索F值为最大的检索式L。检索式L由检索术语的一个逻辑积构成。本步骤与在图4中说明的步骤1~步骤3中分别搜索L1~L3的处理对应。本步骤的详细内容将在图6中另外说明。
(图5:步骤S506)
检索式生成部105作为集合O的构成要素而追加在步骤S505中得到的检索式L。
(图5:步骤S507~S508)
检索式生成部105将利用在步骤S505中得到的检索式L能够检索的文件集合设为DL(S507)。检索式生成部105从文件集合D中将DL减去,作为新的文件集合D(S508)。
(图5:步骤S509)
检索式生成部105在文件集合D为空,或者在步骤S505中新检索到的文件数(DL的要素数)比阈值c_min小的情况下,结束步骤S505~S508的反复处理。在任一的条件都不满足的情况下,返回到步骤S505,反复进行同样的处理。
(图5:步骤S509:补充)
在本步骤中,当能够新检索的文件数小于c_min时,结束反复搜索。该结束条件为了不生成只能够检索极少数量的文件那样的特殊逻辑积是必要的。在本实施方式1中,由于利用贪婪算法搜索了检索式L,所以随着反复处理不断进行,能够新覆盖的文件数有减少的趋势。因此,由于能够覆盖的文件数转变成增加的可能性少,所以可以在DL的要素数小于c_min的时刻,立即结束反复搜索。
(图5:步骤S510)
检索式生成部105将生成的检索式所保存的O输出给显示控制部106。例如在最终生成了L=(a*b*c)+(d*e)+(f*g)这一检索式的情况下,O={a*b*c,d*e,f*g}。
图6是表示图5的步骤S505的详细处理的流程图。以下,对图6的各步骤进行说明。
(图6:步骤S601)
检索式生成部105取得构成文件集合D的各文件。本步骤中的文件集合D等于在步骤S501以及S508中得到的D。
(图6:步骤S602)
检索式生成部105收集构成在步骤S505中生成的检索式的逻辑积的候补的检索术语(关键字),将其作为检索术语集合T。可以将D内的文件中出现的所有术语放入到T中,也可以仅将D内权重高的规定个数术语放入到T中。
(图6:步骤S602:补充1)
作为对在本步骤中放入到检索术语集合T中的术语进行选择的基准的权重,例如可以使用IDF(InverseDocumentFrequency:逆向文件频率)值等。权重的值可以向检索服务器12询问,也可以由检索式生成部105计算。为了计算权重而需要的数据、权重的计算方法可以使用任意的公知方法。
(图6:步骤S602:补充2)
在本实施方式1中,假设使用词语(词素(partofspeech))作为检索术语,但除此之外例如也可以使用N元字符(characterN-gram)等。
(图6:步骤S603)
检索式生成部105设定搜索的深度的上限1_max。搜索的深度相当于构成检索式L中包含的各逻辑积的要素数。例如,当在步骤S505中最大将3个检索术语的逻辑积设为搜索范围的情况下,1_max=3。该情况下,能够通过逻辑积将检索术语结合的最大个数为3个。
(图6:步骤S604)
检索式生成部105对用于保持正在搜索的地点的集合B进行初始化,设定搜索开起点。例如作为开起点,将T中包含的全部术语不进行逻辑结合地登记到集合B中。该情况下,例如B={a,b,c,···}。作为将集合B初始化的其他方法,例如可考虑从F值大的检索术语仅抽出规定个数,将其登记到B中。
(图6:步骤S605)
检索式生成部105将集合B中登记的检索术语中F值最大的术语设为B_max。以后,每当得到比F值大的检索术语的逻辑积,便更新B_max。
(图6:步骤S606~S607)
检索式生成部105对表示搜索的深度的变量i进行初始化(S606)。检索式生成部105反复进行以下的步骤S607~S613,直到搜索深度i超过上限1_max。步骤S607~S613是针对搜索深度i的搜索处理。即,在步骤S607~S613中,进行幅度优先搜索。
(图6:步骤S608~S609)
检索式生成部105对表示集合B的构成要素的索引的变量j进行初始化(S608)。检索式生成部105反复进行以下的步骤S610~S612,直到到达集合B的最终要素编号m为止(S609)。
(图6:步骤S610)
检索式生成部105将集合T内的一个检索术语通过逻辑积与集合B的第j个要素B_j结合。以逻辑积结合的检索术语选择F值通过结合增加最多的检索术语。即,在本步骤中,通过爬山算法(hill-climbingalgorithm)搜索了检索术语。
(图6:步骤S610:补充)
在上述说明中,结合了F值最大的逻辑积,但也可以预备采用F值比最大值小的检索术语,宽泛地确保搜索范围。该情况下,随着搜索的进行,导致保持目前的搜索地点的集合B也变大,也可以使用预先决定集合B的要素数的上限值,从F值大的开始优先向集合B登记等方法。
(图6:步骤S611)
如果在步骤S610中新结合了检索术语的要素B_j的F值比目前的B_max的F值大,则检索式生成部105用B_j将B_max更新。
(图6:步骤S612)
检索式生成部105使变量j加1(increment)。如果j没有到达集合B的最终要素编号m,则返回到步骤S609,重复同样的处理,如果达到了,则结束步骤S609~S612的反复处理。
(图6:步骤S613)
检索式生成部105使变量i加1。如果i没有达到搜索深度上限1_max,则返回到步骤S607,重复同样的处理,如果达到了,则结束步骤S607~S613的反复处理。
(图6:步骤S614)
检索式生成部105输出目前的B_max作为本处理的结果。
<实施方式1:总结>
以上,对本实施方式1涉及的检索式生成装置10生成检索式的方法进行了说明。检索式生成装置10可以自动生成与概念检索的检索结果等效的检索式。
本实施方式1涉及的检索式生成装置10以积和标准形式生成用于获得所希望的检索结果的检索式L。由此,能够防止搜索最佳的检索式L时的搜索空间变得庞大。
另外,本实施方式1涉及的检索式生成装置10通过反复进行对检索术语的每个逻辑积按规定的评价式进行评价,将评价值最大的逻辑积以逻辑和结合的步骤,生成可以获得所希望的检索结果的检索式L。由此,能够按逻辑积的每一项高效地搜索检索式L的搜索空间。由于该方法按构成检索式L的逻辑和的每一项实施最佳化,所以非常适合采用积和标准形式的方法,能够高效地生成检索式L。
另外,本实施方式1涉及的检索式生成装置10以再现率R和精度P为基准,按检索术语的每个逻辑积评价检索式L。由此,能够按每个逻辑积将检索式L最佳化,提高检索式L的准确性。
<实施方式2>
在实施方式1中,说明了使用再现率R和精度P对检索式L进行评价的方法。由于在求取精度P时,需要取得与检索式L相符合的文件数、即符合(hit)件数|H(L)|,所以检索式生成部105可以根据需要向检索服务器12询问|H(L)|。
不过,如果不实际使用检索式L来尝试实施检索,则不知道|H(L)|值的准确值。在实施方式1中,由于在搜索过程中多次评价检索式L,所以导致检索服务器12实施检索时的处理负荷变大。将该课题称为大范围符合件数取得问题。
鉴于此,在本发明的实施方式2中,取代实际实施检索,而使用构成检索式L的每个关键字的符合件数,对|H(L)|进行近似。由此,试着降低检索负荷,来解决大范围符合件数取得问题。
其中,由于检索系统1000的构成与实施方式1相同,所以下面以用于解决大范围符合件数取得问题的方法为中心进行说明。
图7是说明检索式生成部105近似计算H(L)的方法的图。以下对图7所示的顺序按每个式进行说明。
(图7:式701)
检索式生成部105在实施图6的各步骤中计算出F值的步骤(S605和S610)时,取得作为取得符合件数|H(L)|的对象的检索式L。由于检索式生成部105按构成检索式L的每个逻辑积求取|H(L)|,所以本步骤中的L称为检索术语的逻辑积。这里,假设为L=t1*t2*···*t_k。t_i是各检索术语。
(图7:式702)
检索式生成部105取得成为检索对象的所有文件数N。N的值可以向检索服务器12询问,也可以由用户输入。
(图7:式703)
在将通过检索式(逻辑积)L能够检索某个文件的概率定义为P(L)时,能够用L检索的文件数H(L)可以通过P(L)*N推定。
(图7:式704)
如果构成检索式(逻辑积)L的各检索术语t_1~t_k近似成在文件内独立出现的检索术语,则P(L)≈P(t_1)*P(t_2)*···*P(t_k)。
(图7:式705)
P(t_i)是用检索术语t_i能够检索某个文件的概率,能够以t_i的符合件数H(t_i)相对于所有文件数N的比来推定。
(图7:式706)
根据以上的式701~式705,可知求取的H(L)能够通过使用了每个检索术语的符合件数H(t_i)之积的式706近似计算。检索式生成部105最终能够使用式706,近似计算H(L)。
以上,说明了近似计算|H(L)|的原理。接下来,对用于近似计算|H(L)|的具体安装方案进行说明。
图8是检索服务器12所具备的检索索引123的构成图。为了检索式生成部105高速取得各术语t_i中每一个的符合件数H(t_i),使用检索索引123所保持的数据是有效的。
检索索引123具有检索术语t_i(801)、包含有检索术语t_i的文件的列表(802)。该列表802的长度与使用检索术语t_i实施检索时的符合件数H(t_i)相等。检索服务器12也可以预先计算并保持H(t_i)(803)。在任意一种的情况下,检索式生成部105都能够通过使用检索索引123所保持的数据,来高速取得H(t_i)。即,可以高速地近似计算|H(L)|。
<实施方式2:总结>
综上所述,本实施方式2涉及的检索式生成装置10取得由检索索引123保持的每个检索术语t_i的符合件数,利用该值近似计算检索式L的符合件数|H(L)|。由此,不需要每次取得符合件数|H(L)|再实施检索,不仅可以降低检索负荷,而且能够使生成检索式L的处理高速化。
<实施方式3>
在实施方式1中,检索式生成部105在计算再现率R和精度P时需要求出|D∧H(L)|。由于|D∧H(L)|是文件集合D中的与检索式L符合的文件数,所以如果不实际进行检索,则无法知晓准确的值。将该课题称为局部符合件数取得问题。
局部符合件数|D∧H(L)|与大范围符合件数|H(L)|相比,对生成的逻辑积的精度有大幅影响。因此,只要处理时间允许,优选实际实施检索来取得。当在现实的时间内无法取得|D∧H(L)|时,也可以使用检索索引123来辅助检索式生成部105。
鉴于此,在本发明的实施方式3中,对将各文件中包含的检索术语的列表预先保存到检索索引123内并用其来取得|D∧H(L)|的方法进行说明。
图9是表示本实施方式3中的检索索引123的构成例的图。在本实施方式3中,检索索引123除了图8中说明的构成之外,还保持图9所示的数据。其他的构成与实施方式1~2相同。
检索索引123针对文件集合D中包含的各文件d_i(901),保持该文件包含的检索术语的列表(902)。检索式生成部105在求取局部符合件数|D∧H(L)|时,向检索服务器12询问检索式L中包含的全部检索术语是否包含在针对文件d_i的检索术语列表902中。由此,可以高速得到|D∧H(L)|。
在检索索引123没有保持图9所示的数据而只保持有图8所示的数据时,需要在对各文件d_i中所包含的检索术语进行解析的基础上实施同样的处理。当然,在集合D中包含的文件数少、能够在现实的时间内取得|D∧H(L)|的情况下,不必一定预先准备图9所示的数据。
<实施方式3:总结>
综上所述,本实施方式3涉及的检索式生成装置100利用检索索引123所保持的、文件d_i(901)中包含的检索术语的列表(902),求出局部符合件数|D∧H(L)|。由此,与在对各文件di中包含的检索术语进行了解析的基础上求出|D∧H(L)|的情况相比,可以减轻处理负荷、高速地生成检索式L。
<实施方式4>
在本发明的实施方式4中,对取代实施方式3中说明的高速求出局部符合件数|D∧H(L)|的方法,而通过使用了取样的近似方法,推定|D∧H(L)|的步骤进行说明。其他的构成与实施方式3相同。
图10是说明在对文件集合D的一部分进行了取样的基础上求出F值的方法的图。优选取样方法采用随机取样。图10的集合S(3011)是从文件集合D(301)中对一部分取样而得到的文件集合。
由于通过随机取样抽出集合S,所以与集合D相关的统计量可以通过对与集合S相关的统计量乘以系数|D|/|S|来推定。因此,局部符合件数|D∧H(L)|可以通过对集合S的局部符合件数|S∧H(L)|乘以系数|D|/|S|来推定。
综上所述,用于计算文件集合D的F值的计算式1001可以通过图10的计算式1002来近似。检索式生成部105只要使用计算式1002近似计算F值即可。由于通过使用计算式1002,在文件数比集合D少的集合S的范围内取得局部符合件数,所以可降低求取F值的处理负荷、能够更高速地生成检索式L。
<实施方式5>
实施方式4中说明的计算式1002也可以用于设定逻辑积L的目标符合件数X。这里,被预先提供了将构成要素不明的要素数为X的文件集合D中一部分提取后的集合S,以生成检索文件集合D的逻辑积L为目的进行设定。假设提供的文件集合S是从要素数为X的假想文件集合D通过随机取样而抽出的集合。
该情况下,如果生成只能准确地检索文件集合D的检索式L,则结果可以得到符合件数为X的检索式L。因此,检索式生成部105只要以带入了F值=1、|D|=X、|H(L)|=X的计算式1001成立那样的检索式L为目标进行搜索即可。在被提供文件集合S的情况下,只要在对计算式1002的|S|带入了S的要素数的基础上,搜索该式成立那样的检索式L即可。
由于这里设定的|D|=X为目标值,所以并不限于检索式生成部105一定能够准确地生成符合X件的检索式L,但如果搜索是网罗式搜索,则认为更能接近目标符合件数X。
<实施方式6>
在本发明的实施方式6中,说明对构成文件集合D的文件的权重(检索分数(score))进行了考虑的动作例。检索系统1000的构成与实施方式1~5相同。
在概念检索中,检索结果一般在基于相对于作为检索条件而输入的文章的类似度被排序的状态下得到。例如,考虑从概念检索的结果选择靠前100件来作为集合D,生成与集合D等效的检索式L的情况。即便是同样地能够检索99件的检索式,与无法检索出检索排序第1位的文件的检索式相比,可以说无法检索出检索排序第100位的文件的检索式更准确地表示了集合D。即,即便是覆盖相同文件数的检索式,也优选更多地覆盖靠前文件的检索式。
在本实施方式6中,检索式生成部105按照能够生成更多地检索出检索排序为靠前的文件的检索式L的方式,在计算F值时,加上检索分数。检索分数是用于对检索结果赋予排序时使用的评价值,分数值越高,越被赋予靠前排序。
检索式生成部105为了生成如能够优先检索出检索分数高的文件那样的检索式L,取代计算式304的|D|(集合D内的文件数)而使用集合D内的文件的检索分数总和。同样,取代|D∧H(L)|而使用通过检索式L而符合的集合D内的文件的检索分数总和。由此,通过计算式304计算出的再现率R成为将能够检索式L覆盖的文件的检索分数的值也考虑在内。
同样,检索式生成部105取代计算式305的|H(L)|而使用在利用检索式L进行检索时符合的文件的检索分数总和。不过,由于难以取得集合D中不包含的文件的检索分数,所以将集合D内的文件的最小检索分数作为这些文件的检索分数。对于计算式305的|D∧H(L)|而言,与计算式304同样。
另外,各文件的检索分数只要在数据通信部107从检索服务器12取得检索结果时与其一并取得即可。
<实施方式6:总结>
综上所述,本实施方式6涉及的检索式生成装置10在评价检索式L时,使用将检索分数考虑在内的评价式。由此,由于能够得到可优先检索出检索排序为靠前的文件的检索式L,所以可生成适合检索需求的检索式。
<实施方式7>
在本发明的实施方式7中,说明将检索结果群集化(clustering),针对各自的群集(cluster)生成检索式并加以显示的构成。由于和群集化相关的处理以及画面显示以外与实施方式1~6相同,所以下面以不同点为中心进行说明。
在本实施方式7中,检索式生成部105将作为检索结果而得到的文件集合群集化。群集化是将文件集合分割成部分集合(群集)的处理。各部分集合中汇集了相互类似的文件。检索式生成部105可以使用任意公知的群集化方法。
由于如果通过群集化将检索结果分割成部分集合,则检索结果被按相关联的每个主题整理,所以检索结果的预料性变好、易于缩小范围。另一方面,难以确认各群集中包含的文件具有什么样的主题。在如非专利文献1那样的现有技术中,将各群集中包含的特征性语句与检索结果一同显示,但难以只通过特征性语句充分表示该群集中包含的主题。鉴于此,在本实施方式7中,生成能够检索各群集中包含的文件集合的检索式,将其与群集一并显示。
图11是本实施方式7中的检索接口画面20的画面印象例。以下,对与图11的检索接口画面20的操作相关的动作顺序进行说明。
(图11:动作顺序步骤1)
用户向文本输入区域1101输入检索请求。在实施概念检索的情况下输入文章,在实施全文检索的情况下输入检索式。这里表示了实施概念检索的例子。作为检索请求,输入了“用于拍摄照片或者用于投影或直视照片的装置”这一文章。
(图11:动作顺序步骤2~步骤3)
如果用户点击了检索按钮1102,则实施与在图2的步骤2~步骤3中说明的处理相同的处理。
(图11:动作顺序步骤4)
显示控制部106通过数据通信部107接受检索结果。检索式生成部105将检索结果中包含的文件集合群集化,分割成部分集合。显示控制部106按每个群集设置显示区域1104,在各显示区域1104中显示群集内的文件列表。显示区域1104的显示内容与图2相同。
(图11:动作顺序步骤5)
显示控制部106按每个群集设置依据按钮1106。如果用户点击了依据按钮1106,则显示控制部106将在显示区域1104内选择的文件的识别符交给检索式生成部105。检索式生成部105生成能够检索群集内被选择的文件集合的检索式。用户通过从群集的文件中只选择必要的文件,能够按照自己的喜好对群集中包含的文件列表进行修正。
(图11:动作顺序步骤6)
显示控制部106按每个群集设置文本输入区域1103。显示控制部106将检索式生成部105生成的每个群集的检索式显示到文本输入区域1103。
(图11:动作顺序步骤7)
用户也可以直接修正文本输入区域1103中显示的检索式。如果用户点击了再检索按钮1105,则显示控制部106取得文本输入区域1103被输入的检索式,通过数据通信部107向检索服务器12发送将该检索式作为检索条件的检索请求。检索服务器12使用该检索式实施检索,显示控制部106将该检索结果显示到显示区域1104。
<实施方式7:总结>
综上所述,本实施方式7涉及的检索式生成装置10将检索结果群集化,按每个群集显示检索结果。而且,按每个群集生成能够检索各群集中包含的文件的检索式。由此,用户能够容易地掌握每个群集的特征。
另外,本实施方式7涉及的检索式生成装置10可以按每个群集修正检索式并进行再检索。由此,用户能够按每个群集获得与实施方式1同样的效果。
<实施方式8>
在本发明的实施方式8中,说明使用实施方式1~7中说明的检索式生成装置10,生成自动赋予文件分类码的规则的方法。
文件分类码(controlledcategory)是在将文件按各文件内容的特征分类的基础上,对各分类赋予的识别码。由于各分类中包含的文件大多具有同样的关键字,所以如果能够按每个分类码生成恰当的检索式,则可以使用相同的检索式进行检索的文件属于相同分类的可能性高。在本实施方式8中,利用该情况,将检索式用作分类规则。
检索式生成部105将已被赋予分类码C的文件集合(正确答案训练数据)D作为对象,生成检索式L。接着,判定通过生成的检索式L能够检索未被赋予分类码的文件d(测试数据)。如果能够通过检索式L检索出文件d,则可以预测为文件d具有分类码C。这样,利用根据正确答案训练数据生成的检索式L,能够对测试数据自动赋予分类码。
对文件自动分类的方法有很多,但本实施方式8的优点在于:能够自由设定分类规则(生成的检索式)的精度(precision)。而且,由于分类规则是逻辑式自身,所以用户易于理解。如果必要,则用户也能够对自动生成的分类规则进行修正。由于分类规则是逻辑式的形式、容易判断,所以修正也容易。
图12是表示自动生成的分类规则的例子的图。在该例子中,将具有国际专利分类A61B3“眼睛的检查装置;眼睛的诊察装置”这一IPC码的1993年公开的专利公开公报的集合作为正确答案训练数据,根据其自动生成了检索式。
如果使用实施方式1中说明的方法,则生成了“(检眼)+(检*者)+(眼科*装置)+(光学*拍摄*系统)”这一检索式。可以将该检索式作为分类规则直接使用,例如对1994年公开的专利公开公报自动赋予分类码。或者,用户也可以修正分类规则。
接下来,对根据暂时生成的分类规则,重新构建精度(precision)为某一值以上的分类规则的方法进行说明。
文件分类中具有精度(precision)和再现率(recall)等评价基准。例如,在图12所说明的例子中考虑“眼科*装置”这一分类规则。
再现率是在正确答案数据(被分类为A61B3的文件)中,符合“眼科*装置”的文件的比例。即,表示在“眼科*装置”下正确答案能够覆盖怎样的程度。精度是正确答案数据占符合“眼科*装置”的所有文件的比例。即,表示“眼科*装置”是何种程度准确的分类规则。
如果是精度接近于100%的分类规则,则符合该分类规则的文件可以几乎无误地被赋予目标分类码。由于只要对于不符合分类规则的文件,由用户通过手动作业赋予分类码即可,所以能够削减与分类码赋予相关的作业成本。以下,根据图12对生成具有规定以上精度的分类规则的步骤进行说明。
(图12:分类规则生成顺序步骤1)
检索式生成部105利用在实施方式1~7中说明的步骤,对构成检索式L的各逻辑积,计算出训练数据中的精度与再现率。这里,设得到了图12的上半部分所示的4个逻辑积“检眼”“检*者”“眼科*装置”“光学*拍摄*系统”。
(图12:分类规则生成顺序步骤2)
用户将所希望的精度值输入给检索式生成装置10。这里,指定了精度≥0.8。
(图12:分类规则生成顺序步骤3)
检索式生成部105仅抽出精度为0.8以上的逻辑积,并以逻辑和加以结合。由此,关于训练数据,可以生成具有0.8以上的精度的检索式“(检眼)+(眼科*装置)”。其中,精度的值使用正确答案训练数据计算。
(图12:分类规则生成顺序步骤4)
检索式生成装置10将在步骤3中得到的检索式作为分类规则提示给用户。由此,可以指定成为目标的精度,自动生成分类规则。如果使用将目标精度设为足够高而生成的分类规则,则能够以足够的精度自动赋予分类码。
<实施方式8:总结>
综上所述,本实施方式8涉及的检索式生成装置10生成具有被指定以上的精度的检索式,将其作为文件分类规则进行提示。由此,能够自动地以高精度对文件赋予分类码。
<实施方式9>
也可以在以上的实施方式1~8中,将检索式生成部105配置于检索服务器12。另外,在如实施方式7那样将检索结果群集化的情况下,也可以将实施群集化处理的功能部与检索式生成部105独立地重新设置。
实施群集化的功能部可以配置于检索式生成装置10,也可以配置于检索服务器12。在检索服务器12具备群集化功能部的情况下,检索服务器12将检索结果群集化,将群集(文件集合)的列表发送给检索式生成装置10。
以上,基于实施方式对本发明者研究的发明具体进行了说明,但本发明并不限定于上述实施方式,在不脱离其主旨的范围当然能够进行各种变更。
另外,上述各构成、功能、处理部等可以通过将它们的全部或者一部分例如以集成电路进行设计,由此作为硬件来实现,也可以通过处理器执行用于实现各自的功能的程序,由此作为软件来实现。实现各功能的程序、表等信息可以保存到存储器或硬盘等存储装置、IC卡、DVD等存储介质中。
【实施例】
[实施例1]
在本发明的实施例1中,说明针对实施方式1中说明的检索式的精度进行了评价的结果。为了评价精度,使用某个检索式L来实际检索文件,并根据检索出的文件集合生成检索式,确认是否能够复原原来的检索式L。其中,在使用了检索式L的检索结果超过300件的情况下,对300个文件取样实施了评价。
首先,以将2个检索术语通过逻辑积或逻辑和结合的单纯的检索式进行了实验。该情况下,58个检索式中无法再现的检索式仅有一个。
对于由三个以上检索术语构成的复杂的检索式,52个检索式中完全复原的有19个。例如,“(放热+(热*传导)+(传*热))*片材”、“(电缆*(广播+TV))+CATV”等检索式完全复原。对于此外的33个检索式,几乎在所有的情况下都部分复原成功。例如,针对原来的检索式L“LED+(发光*(二极管+元件))”,生成了“LED+发光”。
在部分复原成功的例子中,绝大多数是如此以逻辑和结合的部分不能完全复原的情况。该主要理由是取样数的不足。在先前的例子的情况下,“LED+(发光*(二极管+元件))”的符合件数超过了5万件,但复原所使用的文件只是其中的300件。部分也无法复原的检索式是符合件数为数件以下的检索式。
[实施例2]
在本发明的实施例2中,说明使用图12中生成的精度为0.8以上的分类规则“(检眼)+(眼科*装置)”,对1994年(训练数据的下一年)公开的专利公开公报赋予了国际专利分类A61B3的结果。
在本实施例2中,以精度94%的高精度赋予了分类码。但是,由于再现率为59%,所以只对应该赋予分类码的文件的59%进行了赋予。
剩余的41%的文件通过手动或其他方法进行分类,但与不使用分类规则的情况相比,用于实施赋予作业的文件数减少到一半以下。
在想要进一步提高自动赋予分类码的精度的情况下,例如只要仅将精度为98%的“检眼”作为分类规则而使用即可。另外,也可以根据自动生成的分类规则,由人施加修正。

Claims (13)

1.一种检索式生成装置,其特征在于,具备:
检索式生成部,生成1个以上的检索条件式,该检索条件式用于从检索对象的文件集合中检索由1个以上的文件构成的母集合,该母集合是根据检索请求生成的第一检索结果中成为生成检索条件式的对象的文件集合,每个检索条件式是由1个以上的检索术语构成的逻辑积;和
检索结果取得部,取得使用每个检索条件式对上述检索对象进行检索后得到的第二检索结果,并输出给上述检索式生成部;
上述检索式生成部,
从上述检索结果取得部取得上述第二检索结果,针对每个检索条件式计算出再现率和精度,所述再现率表示上述第二检索结果中包含于上述母集合的文件相对于上述母集合所占的比例,所述精度表示上述第二检索结果中包含于上述母集合的文件相对于上述第二检索结果所占的比例,
通过使用上述再现率和上述精度而构建的评价式,对每个检索条件式进行评价,
通过反复地将基于上述评价式而得到的评价值成为最大的上述逻辑积以逻辑和来结合,生成以积和标准形式表示的结合后的检索条件式,
在上述检索式生成部计算上述精度时,使用由上述检索结果取得部根据上述检索对象的检索索引中记录的每个检索术语的符合件数取得的上述逻辑积中的各检索术语的符合件数相对于上述检索对象中的所有文件数的比,推定每个检索术语的符合概率,使每个检索术语的推定出的上述符合概率相乘,来推定将上述逻辑积作为检索条件对上述检索对象进行了检索时的符合件数,并使用该符合件数来近似上述精度。
2.根据权利要求1所述的检索式生成装置,其特征在于,
上述检索式生成部在计算上述再现率或者上述精度中的至少一个时,通过查询在属于上述母集合的各文件的检索索引中记录的、包含在上述各文件内的检索术语的列表,取得上述第二检索结果中的包含于上述母集合的文件的数量。
3.根据权利要求1所述的检索式生成装置,其特征在于,
上述检索式生成部,
对从上述母集合取样后得到的文件集合计算出上述再现率或者上述精度中的至少一个,
通过使用该计算结果和上述取样的取样率而构建的评价式,对上述逻辑积进行评价。
4.根据权利要求1所述的检索式生成装置,其特征在于,
上述检索结果取得部取得将上述逻辑积作为检索条件对上述检索对象进行了检索的情况下得到的第二检索结果中所包含的各文件的权重系数,
上述检索式生成部使用上述权重系数计算出上述再现率或者上述精度中的至少一个。
5.根据权利要求4所述的检索式生成装置,其特征在于,
上述检索式生成部将包含于上述母集合中的文件的权重系数中最小的权重系数,近似作为不包含于上述母集合中的文件的权重系数。
6.根据权利要求1所述的检索式生成装置,其特征在于,
具备对上述检索结果取得部所取得的第二检索结果进行显示的显示部,
上述检索式生成部生成用于获得上述第二检索结果的上述检索条件式,使该检索条件式与上述第二检索结果一起显示在上述显示部上。
7.根据权利要求6所述的检索式生成装置,其特征在于,
上述显示部具有用于对上述检索式生成部所生成的上述检索条件式进行修正的输入栏,
上述检索结果取得部取得使用上述输入栏中被输入的修正后的检索条件式对上述文件进行检索后得到的结果,并显示在上述显示部上。
8.根据权利要求6所述的检索式生成装置,其特征在于,
上述检索式生成部将上述检索结果取得部所取得的第二检索结果群集化,
上述显示部按通过上述群集化而得到的每个群集来显示上述第二检索结果。
9.根据权利要求8所述的检索式生成装置,其特征在于,
上述显示部按通过上述群集化而得到的每个群集具有用于对上述检索式生成部所生成的上述检索条件式进行修正的输入栏,
上述检索结果取得部取得使用上述输入栏中被输入的修正后的检索条件式对上述文件进行检索后得到的结果,并按通过上述群集化而得到的每个群集使上述显示部显示该结果。
10.根据权利要求1所述的检索式生成装置,其特征在于,
上述检索式生成部接受上述精度的指定值作为输入,生成具有上述指定值以上的上述精度的上述检索条件式。
11.一种检索系统,其特征在于,
具有:权利要求1所述的检索式生成装置;和
根据任意的检索条件式对上述检索对象进行检索的检索服务器,
上述检索结果取得部从上述检索服务器取得使用上述检索条件式对上述检索对象进行检索后得到的结果。
12.一种检索式生成方法,其特征在于,具有:
检索式生成步骤,生成1个以上的检索条件式,该检索条件式用于从检索对象的文件集合中检索出由1个以上的文件构成的母集合,该母集合是根据检索请求生成的第一检索结果中成为生成检索条件式的对象的文件集合,每个检索条件式是由1个以上的检索术语构成的逻辑积;和
检索结果取得步骤,取得使用每个检索条件式对上述检索对象进行检索后得到的第二检索结果;
在上述检索式生成步骤中,
通过上述检索结果取得步骤取得上述第二检索结果,针对每个检索条件式计算出再现率和精度,所述再现率表示上述第二检索结果中包含于上述母集合的文件相对于上述母集合所占的比例,所述精度表示上述第二检索结果中包含于上述母集合的文件相对于上述第二检索结果所占的比例,
通过使用上述再现率和上述精度而构建的评价式,对每个检索条件式进行评价,
通过反复地将基于上述评价式而得到的评价值成为最大的上述逻辑积以逻辑和来结合,生成以积和标准形式表示的结合后的检索条件式,
在上述检索式生成步骤计算上述精度时,使用由上述检索结果取得步骤根据上述检索对象的检索索引中记录的每个检索术语的符合件数取得的上述逻辑积中的各检索术语的符合件数相对于上述检索对象中的所有文件数的比,推定每个检索术语的符合概率,使每个检索术语的推定出的上述符合概率相乘,来推定将上述逻辑积作为检索条件对上述检索对象进行了检索时的符合件数,并使用该符合件数来近似上述精度。
13.根据权利要求12所述的检索式生成方法,其特征在于,
具有接受上述精度的指定值作为输入的步骤,
在上述检索式生成步骤中,生成具有上述指定值以上的上述精度的上述检索条件式。
CN201110240983.2A 2011-01-28 2011-08-22 检索式生成装置、检索系统、检索式生成方法 Expired - Fee Related CN102622389B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP016661/2011 2011-01-28
JP2011016661A JP5552448B2 (ja) 2011-01-28 2011-01-28 検索式生成装置、検索システム、検索式生成方法

Publications (2)

Publication Number Publication Date
CN102622389A CN102622389A (zh) 2012-08-01
CN102622389B true CN102622389B (zh) 2015-11-25

Family

ID=46562312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110240983.2A Expired - Fee Related CN102622389B (zh) 2011-01-28 2011-08-22 检索式生成装置、检索系统、检索式生成方法

Country Status (3)

Country Link
US (1) US8566351B2 (zh)
JP (1) JP5552448B2 (zh)
CN (1) CN102622389B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117297A1 (en) * 2013-01-31 2014-08-07 Hewlett-Packard Development Company, L.P. Approximate query processing
JP6132671B2 (ja) * 2013-06-13 2017-05-24 株式会社日立製作所 クエリ処理システム、及び、クエリ処理方法
JP6194760B2 (ja) * 2013-11-06 2017-09-13 富士通株式会社 キーワード生成方法、プログラム及び情報処理装置
CN103699574B (zh) * 2013-11-28 2017-01-11 科大讯飞股份有限公司 一种对复杂检索式进行检索优化的方法及系统
RU2587429C2 (ru) 2013-12-05 2016-06-20 Закрытое акционерное общество "Лаборатория Касперского" Система и способ оценки надежности правила категоризации
US11106740B2 (en) * 2017-04-25 2021-08-31 Mitsubishi Electric Corporation Search device, search system, search method, and computer readable medium
US10698936B2 (en) 2017-12-19 2020-06-30 Hireteammate, Inc. Generating and using multiple representations of data objects in computing systems and environments
CN110209663B (zh) * 2018-02-14 2023-06-20 阿里巴巴集团控股有限公司 搜索范围确定的方法、装置和存储介质
JP7369594B2 (ja) * 2019-11-01 2023-10-26 株式会社日立製作所 文書検索支援装置、文書検索支援方法及び文書検索支援プログラム
CN111581349A (zh) * 2020-04-30 2020-08-25 沃杰(北京)科技有限公司 专利文献的语义检索方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110083A (zh) * 2006-07-19 2008-01-23 株式会社理光 文档检索装置、文档检索方法、文档检索程序及记录介质
CN101567011A (zh) * 2008-04-22 2009-10-28 株式会社Ntt都科摩 文档处理装置和文档处理方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3383961B2 (ja) * 1994-03-30 2003-03-10 日本電信電話株式会社 情報検索手法評価方法及びその装置
JP3614618B2 (ja) 1996-07-05 2005-01-26 株式会社日立製作所 文献検索支援方法及び装置およびこれを用いた文献検索サービス
US6457004B1 (en) * 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
JPH10320403A (ja) * 1997-05-14 1998-12-04 N T T Data:Kk 検索式作成方法、検索式作成装置、及び記録媒体
JP2000293529A (ja) * 1999-04-02 2000-10-20 Mitsubishi Gas Chem Co Inc 情報の機械的検索法およびその装置
WO2001037134A1 (en) * 1999-11-16 2001-05-25 Searchcraft Corporation Method for searching from a plurality of data sources
JP2002108900A (ja) * 2000-09-29 2002-04-12 Ricoh Co Ltd 文書集合間分析装置、文書集合間分析方法及び文書集合間分析プログラムを記録した記録媒体
JP2002183194A (ja) * 2000-12-15 2002-06-28 Ricoh Co Ltd 検索式生成装置およびその方法
SE0101127D0 (sv) * 2001-03-30 2001-03-30 Hapax Information Systems Ab Method of finding answers to questions
WO2003019320A2 (en) * 2001-08-27 2003-03-06 E-Base, Ltd. Method for defining and optimizing criteria used to detect a contextualy specific concept within a paragraph
US20040024756A1 (en) * 2002-08-05 2004-02-05 John Terrell Rickard Search engine for non-textual data
US20050086209A1 (en) * 2003-10-16 2005-04-21 Peilin Chou Conceptual article collector
US7827125B1 (en) * 2006-06-01 2010-11-02 Trovix, Inc. Learning based on feedback for contextual personalized information retrieval
US20100198802A1 (en) * 2006-06-07 2010-08-05 Renew Data Corp. System and method for optimizing search objects submitted to a data resource
US20080189273A1 (en) * 2006-06-07 2008-08-07 Digital Mandate, Llc System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data
US8150827B2 (en) * 2006-06-07 2012-04-03 Renew Data Corp. Methods for enhancing efficiency and cost effectiveness of first pass review of documents
JP2008165303A (ja) * 2006-12-27 2008-07-17 Fujifilm Corp コンテンツ登録装置、及びコンテンツ登録方法、及びコンテンツ登録プログラム
US7836060B1 (en) * 2007-04-13 2010-11-16 Monster Worldwide, Inc. Multi-way nested searching
JP5295605B2 (ja) * 2008-03-27 2013-09-18 株式会社東芝 検索キーワード改良装置、サーバ装置、および方法
JP5155001B2 (ja) * 2008-04-01 2013-02-27 株式会社日立製作所 文書検索装置
US7930306B2 (en) * 2008-04-30 2011-04-19 Msc Intellectual Properties B.V. System and method for near and exact de-duplication of documents
US7882143B2 (en) * 2008-08-15 2011-02-01 Athena Ann Smyros Systems and methods for indexing information for a search engine
JP5247336B2 (ja) * 2008-09-30 2013-07-24 キヤノン株式会社 検索方法及び検索装置
CN101887436B (zh) * 2009-05-12 2013-08-21 阿里巴巴集团控股有限公司 一种检索方法和装置
JPWO2011013234A1 (ja) * 2009-07-30 2013-01-07 株式会社東芝 受信装置
CN102023995B (zh) * 2009-09-22 2013-01-30 株式会社理光 语音检索设备和语音检索方法
US20110113357A1 (en) * 2009-11-12 2011-05-12 International Business Machines Corporation Manipulating results of a media archive search
US20110145269A1 (en) * 2009-12-09 2011-06-16 Renew Data Corp. System and method for quickly determining a subset of irrelevant data from large data content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110083A (zh) * 2006-07-19 2008-01-23 株式会社理光 文档检索装置、文档检索方法、文档检索程序及记录介质
CN101567011A (zh) * 2008-04-22 2009-10-28 株式会社Ntt都科摩 文档处理装置和文档处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Christopher D. Manning el at..《Evaluation in information》.《Introduction to Information Retrieval》.2008,第151-164页. *

Also Published As

Publication number Publication date
US20120197940A1 (en) 2012-08-02
JP2012155673A (ja) 2012-08-16
JP5552448B2 (ja) 2014-07-16
US8566351B2 (en) 2013-10-22
CN102622389A (zh) 2012-08-01

Similar Documents

Publication Publication Date Title
CN102622389B (zh) 检索式生成装置、检索系统、检索式生成方法
US10958748B2 (en) Resource push method and apparatus
US11645345B2 (en) Systems and methods for issue tracking systems
CN108733713A (zh) 数据仓库中的数据查询方法及装置
CN109558395A (zh) 数据处理系统及数据挖掘方法
CN108920577A (zh) 电视智能推荐方法
Santhi et al. Smart India Agricultural Information Retrieval System.
Zhang et al. Accurate cotton diseases and pests detection in complex background based on an improved YOLOX model
CN106326462B (zh) 一种视频索引分级方法及装置
Benda et al. A machine learning approach for flow shop scheduling problems with alternative resources, sequence-dependent setup times, and blocking
CN104239421A (zh) 一种推送应用到终端的方法和系统
CN114817746A (zh) 保险产品推荐方法、装置、设备及存储介质
WO2014034383A1 (ja) 情報処理装置、レコード位置情報特定方法および情報処理プログラム
Molina et al. Toolkit for the automatic comparison of optimizers: comparing large-scale global optimizers made easy
US20130304547A1 (en) Investment valuation projections in an on-demand system
US8204900B2 (en) Metrics library
US20150206220A1 (en) Recommendation Strategy Portfolios
CN105956168A (zh) 一种信息检索方法及信息检索装置
US20160217216A1 (en) Systems, methods, and devices for implementing a referral search
CN113592589B (zh) 纺织原料推荐方法、装置及处理器
CN103077218B (zh) 一种用于确定查询请求中查询序列的需求信息的方法与设备
JP2014096086A (ja) 文書分類システムおよび方法
CN113539457A (zh) 医疗资源的推荐方法及装置、电子设备、存储介质
US9338294B2 (en) Automated task definitions
KR20180024675A (ko) 모듈을 기반으로 위젯을 생성하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151125

Termination date: 20210822