CN111699485A - 使用索引的信息检索系统和信息检索方法 - Google Patents
使用索引的信息检索系统和信息检索方法 Download PDFInfo
- Publication number
- CN111699485A CN111699485A CN201980012723.4A CN201980012723A CN111699485A CN 111699485 A CN111699485 A CN 111699485A CN 201980012723 A CN201980012723 A CN 201980012723A CN 111699485 A CN111699485 A CN 111699485A
- Authority
- CN
- China
- Prior art keywords
- directed graph
- search
- phrase
- resource
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 72
- 238000012545 processing Methods 0.000 claims abstract description 50
- 239000000284 extract Substances 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 25
- HMFHBZSHGGEWLO-SOOFDHNKSA-N D-ribofuranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H]1O HMFHBZSHGGEWLO-SOOFDHNKSA-N 0.000 description 13
- PYMYPHUHKUWMLA-LMVFSUKVSA-N Ribose Natural products OC[C@@H](O)[C@@H](O)[C@@H](O)C=O PYMYPHUHKUWMLA-LMVFSUKVSA-N 0.000 description 13
- HMFHBZSHGGEWLO-UHFFFAOYSA-N alpha-D-Furanose-Ribose Natural products OCC1OC(O)C(O)C1O HMFHBZSHGGEWLO-UHFFFAOYSA-N 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 101100462870 Drosophila melanogaster Parp gene Proteins 0.000 description 11
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 239000012661 PARP inhibitor Substances 0.000 description 8
- 229940121906 Poly ADP ribose polymerase inhibitor Drugs 0.000 description 8
- 238000003780 insertion Methods 0.000 description 7
- 230000037431 insertion Effects 0.000 description 7
- 239000003112 inhibitor Substances 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 229910052697 platinum Inorganic materials 0.000 description 5
- 239000001177 diphosphate Substances 0.000 description 4
- XPPKVPWEQAFLFU-UHFFFAOYSA-J diphosphate(4-) Chemical compound [O-]P([O-])(=O)OP([O-])([O-])=O XPPKVPWEQAFLFU-UHFFFAOYSA-J 0.000 description 4
- 235000011180 diphosphates Nutrition 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 235000016709 nutrition Nutrition 0.000 description 3
- 230000035764 nutrition Effects 0.000 description 3
- 238000002560 therapeutic procedure Methods 0.000 description 3
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 241000219098 Parthenocissus Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 229960005305 adenosine Drugs 0.000 description 1
- 150000003838 adenosines Chemical class 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 229940000406 drug candidate Drugs 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000011272 standard treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是基于收集到的信息生成用于检索数据库的索引的装置。所述装置具备:辞典,其按每个特定的概念包含相互关联的多个短语;输入接口部,其接收文本的输入;文本处理部,其从所述文本切分出多个词语作为标记;有向图生成部,其生成表现了所述切分出的多个标记彼此的连接关系的有向图;有向图搜索部,其参照所述辞典在所述有向图内进行搜索,且在所述辞典中发现了搜索对象短语的情况下,展开所述有向图;以及索引生成部,其基于所述有向图内的多个标记生成索引。
Description
技术领域
本发明涉及信息检索技术,尤其涉及用于基于所收集的信息生成用于对数据库进行检索的索引的装置和方法、以及用于执行该方法的程序。
背景技术
当前,提供有使用计算机系统的各种信息检索服务。例如,所谓的因特网检索是用于检索散布在因特网上的庞大信息(资源)的Web站点上的信息检索服务,典型地,服务提供者的被称为检索引擎的服务器程序基于用户给出的检索查询来进行索引检索,并向用户提供该检索的结果。在这样的信息检索服务中,典型地,检索引擎预先通过被称为爬行器(Crawler)的机器人代理巡回访问因特网上的Web页,并收集、分析所访问的Web页的信息,由此生成用于检索数据库的索引。当用户通过Web浏览器访问检索站点并输入希望检索的文本(检索查询)时,检索引擎分析检索查询而检索索引,并对基于预定的排名算法而提取出的结果进行评分,将按得分对这些提取出的结果进行排序所得的结果作为检索结果提供给用户。
由于这样的以往的索引型检索引擎预先根据由爬行器收集的信息直接生成索引,所以用户会得到仅基于被索引化的信息的检索结果。因此,例如,下述专利文献1提出了如下技术:根据索引基准对一个或一个以上的横断检索赋予索引,将查询与索引基准中的一个或一个以上的索引基准进行比较,使查询与索引基准匹配,并提供来自一个或一个以上的带索引横断检索的结果,该一个或一个以上的带索引横断检索与关于查询的索引基准相关联。
另一方面,下述专利文献2公开了一种机器翻译装置,该机器翻译装置为了得到高精度的译文,将原文划分成短语,并基于释义(paraphrase)信息获得与1个以上的各短语成对的释义,且使用1个以上的短语和1个以上的释义来获得包含短语集合的释义网格(Paraphrase Lattice)。
现有技术文献
专利文献
专利文献1:日本特开2015-133151号公报
专利文献2:日本特开2011-180823号公报
发明内容
技术问题
上述那样的信息检索服务深入地渗透到人们的一切社会活动之中,例如,在医疗领域也不例外。
例如,为了使新的治疗方法、药物的候选作为标准治疗被认可,需要实施临床试验,确认这样的治疗方法、药物的有效性和安全性等。典型地,医生等医疗工作者基于自身的专业知识,考虑治疗的内容、意义、副作用等所能设想的一切事项来制定临床试验计划。因此,医疗工作者在制定临床试验计划时,需要收集与被试验者的疾病相关联的各种信息(例如,病名、药名等),以免遗漏。例如,医疗工作者以关联信息为线索,从数据库系统提取其他临床试验的信息、学术论文等,并以此为基础确定实施步骤。
然而,作为实际问题,对于一个特定的概念,并不是唯一地被规定有一个特定的词语或表达(短语),通常,对于一个特定的概念,存在多个短语。特别是,在医疗领域这样的专业领域中,对于一个特定的概念,存在多个短语,特别是存在很多这些短语的近义词、同义词、关联词、缩略语以及外语、进而基于这些词语派生的派生词等(以下,分别称为“关联短语”,并将这些短语统称为“关联短语组”)。
因此,假设在医疗工作者基于偏颇的关联信息(本人通常未认识到该信息是偏颇的)检索数据库系统的情况下,有可能漏失合适的信息,由此,也有可能对临床试验计划的制定产生影响。
但是,因为现有的索引型检索引擎如上所述仅基于从所收集的信息直接地获得的词条来制成索引,所以只能够获得仅基于这样的词条的检索结果,或者在作为检索查询而给出的特定词语未作为词条而存在于索引中的情况下,仅选择被认为与该特定词语相近的替代词语(例如,对于错误表述的正确表述)来基于其执行检索,从而基于检索查询而给出的词语的范围是受限的。
此外,专利文献1所示的信息检索技术基于所给出的检索词来横断地检索与索引基准相关联的索引,并提供其结果,但只不过是将仅与所给出的检索查询相关联的词语索引化,基于检索查询而给出的词语的范围仍然是受限的。
进而,虽然专利文献2所示的机器翻译装置通过对原文的短语进行释义来得到短语的集合,但是该得到的短语的集合仅使用了与原文的短语直接对应的释义。另外,专利文献2面向机器翻译技术,无法原样应用于检索引擎所使用的索引的生成技术。
因此,在医疗领域这样的专业领域中,期望基于特定的短语来广泛且有效地检索关联短语组的技术,上述以往的信息检索技术是不够的。
进而,用户在获得检索结果时,如果能够认识到提取出该检索结果时的依据,则能够在下一次的检索中使用,从而是方便的。特别是,在检索结果不是直接根据检索查询的短语命中的,而是通过其关联短语命中的情况下,用户需要获知是以怎样的关联短语命中的。
因此,本发明的目的在于提供一种在索引型检索引擎中生成索引的技术,该索引能够有效地对所收集的信息进行检索。
具体地,本发明的目的之一在于提供一种用于生成如下所述的索引的技术,该索引不仅以所收集的资源中包含的特定短语作为词条,而且还以扩展到其近义词、同义词、关联词、缩略语和外语、进而基于这些词语派生的派生词等而得的短语作为词条。
此外,本发明的目的之一在于提供一种如下所述的技术,该技术使得即使来自用户的检索查询包括作为生成该索引的基础的所收集的信息中包含的短语以外的短语,也能够使该信息有效地被检索、提取。
进而,本发明的目的之一在于提供一种使该用户能够认识到提取出该结果的依据的技术。
技术方案
用于解决上述问题的本发明构成为包含以下所示的发明特定事项或技术特征。
根据某个观点的本发明是一种装置,其基于包含文本的资源来生成用于检索数据库的索引。所述装置例如可具备:辞典,其按每个特定的概念包含相互关联的多个短语;输入接口部,其接收所述资源的输入;文本处理部,其进行用于从所述接收的资源的文本切分出多个短语而作为标记的处理;有向图生成部,其根据所述文本生成表现了所述切分出的多个标记彼此的连接关系的有向图(网格);有向图搜索部,其基于搜索对象短语在所述有向图内进行搜索,且在所述辞典中发现所述搜索对象短语的情况下,确定所述搜索对象短语在所述有向图内出现的位置;以及索引生成部,其基于所述有向图内的多个标记生成表示与所述资源的关联性的索引。所述有向图搜索部可构成为将所述有向图内的至少一个标记设定为所述搜索对象短语,并基于所述设定的搜索对象短语参照所述辞典。此外,所述有向图生成部可构成为通过基于所述辞典,向所述有向图添加基于与所述搜索对象短语相关联的至少一个短语的新标记,从而更新所述有向图。
由此,所述装置能够生成如下索引,即该索引不仅以资源的文本中包含的短语作为该资源的词条,而且还以包含针对该短语的释义的关联短语组的每一个作为该资源的词条。此外,由于所述装置边更新基于文本生成的有向图边推进搜索,因此能够不仅将针对该文本中包含的短语的直接释义作为关联短语组,而且还将针对更新后的时刻的有向图中包含的短语的间接或者派生的释义作为关联短语组。
所述文本处理部可构成为基于所述文本而进行预定的句子结构分析来切分出所述多个词语作为所述标记。由此,能够生成基于所述文本的有向图。
所述有向图生成部可构成为生成通过节点将所述多个标记中的相邻的标记彼此连接而成的所述有向图。所述有向图可以是通过将所述标记定义为边的标签并通过所述节点连接所述边来表示的数据结构。
所述有向图生成部可构成为将在所述辞典中发现的与所述搜索对象短语相关联的所述至少一个短语连接于所述有向图内的所述出现的位置的前后节点。
所述有向图搜索部可构成为在由所述有向图生成部更新了的有向图中进行搜索。由此,由于被搜索的有向图动态地变化,所以不仅对所述文本中包含的短语进行释义化,而且还对被释义化了的新短语,进一步进行释义化。
此外,所述有向图搜索部可以以避免对所述更新了的有向图中已经结束了搜索的标记进行重新搜索的方式在所述更新了的有向图内进行搜索。
所述有向图可包含将所述多个标记中的相邻的标记彼此连接的多个节点。并且,所述有向图搜索部可将与结束了所述搜索的标记相关联的节点存储为搜索完毕节点,并对与所述搜索完毕节点以外的节点连接的标记进行重新搜索。
此外,所述装置可以还具备数据阵列,所述数据阵列表示基于所述辞典中包含的所述多个短语而构成的树结构。所述树结构可以是包含与所述多个短语分别对应的有序节点的字典树或前缀树。并且,所述有向图搜索部可以参照所述树结构在所述有向图内进行搜索。
此外,在所述搜索对象短语与所述树结构中的至少一个所述有序节点所对应的至少一个短语一致的情况下,所述有向图搜索部可判断为在所述有向图内出现了所述搜索对象短语。
此外,所述有向图生成部可向所述有向图添加新标记,由此更新所述有向图,所述新标记是基于所述辞典中的与所述一致的搜索对象短语相关联的至少一个短语的标记。
所述索引生成部可构成为基于更新了的所述有向图内的多个标记来提取N-gram,并且基于所述提取出的N-gram生成所述索引。由此,生成以资源的文本中包含的短语以外的短语作为N-gram的索引。
此外,所述索引生成部可构成为提取基于单词的N-gram(单词N-gram)作为所述N-gram。由于该单词N-gram基于所述有向图内的标记,因此生成适合于基于关联短语组的检索的索引。
此外,另一观点的本发明是一种检索装置或检索引擎,其包括:由上述的装置生成的索引;资源信息文件,其是关于与所述索引相关联的所述资源的信息文件;以及查询服务器,其基于检索查询检索所述索引,并基于该检索的结果从所述资源信息文件确定预定的资源,且输出表示所述确定的预定的资源的检索结果。所述查询服务器基于从所述确定的预定的资源得到的包含与所述预定的资源中的短语相关联的预定的关联短语的有向图,确定成为所述预定的资源被确定的依据的依据短语以及与所述短语相关联的所述预定的资源中的原始短语。此外,所述检索结果包含所述依据短语及所述原始短语。由此,作为针对检索查询的检索结果,用户除了能够认识到所检索出的资源以外,还能够认识到成为该资源被检索出的依据的依据短语和与之相关联的原始短语。
此外,另一观点的本发明是一种装置的工作方法,该装置基于包含文本的资源来生成用于检索数据库的索引。所述方法例如可包括如下步骤:将按每个特定的概念包含相互关联的多个短语的辞典展开到由所述装置的处理器访问的存储器;通过输入接口部接收所述资源的输入;进行用于从所述接收的资源的文本切分出多个词语而作为标记的文本处理;根据所述文本生成表现了所述切分出的多个标记彼此的连接关系的有向图;基于搜索对象短语在所述有向图内进行搜索;以及基于所述有向图内的多个标记,生成表示与所述资源的关联性的索引。在所述有向图内进行搜索的步骤可包括将所述有向图内的至少一个标记设定为所述搜索对象短语,并基于所述设定的搜索对象短语参照所述辞典,在所述辞典中发现所述搜索对象短语的情况下,确定所述搜索对象短语在所述有向图内出现的位置。此外,生成所述有向图的步骤可包括基于所述辞典,向所述有向图添加基于与所述搜索对象短语相关联的至少一个短语的新标记,由此更新所述有向图。
进而,另一观点的本发明是一种检索装置的工作方法,所述检索装置基于检索查询而检索索引,并基于该检索的结果从资源信息文件确定至少一个资源。所述工作方法可包括如下步骤:基于从所述确定的至少一个资源得到的包含与所述至少一个资源中的短语相关联的预定的关联短语的有向图,确定成为所述至少一个资源被确定的依据的依据短语以及与所述短语相关联的所述至少一个资源中的原始短语;以及将所述预定的资源以及表示所述依据短语以及所述原始短语的信息作为检索结果输出。
进一步地,另一观点的本发明可以是用于使计算设备实现各前述方法的计算机程序或非暂时地存储有该计算机程序的计算机可读记录介质。
应予说明,在本说明书等中,所谓手段不仅指物理手段,还包括通过软件实现该手段所具有的功能的情况。此外,既可以由2个以上的物理手段来实现一个手段所具有的功能,也可以由一个物理手段来实现2个以上的手段的功能。
技术效果
根据本发明,在索引型检索引擎中,生成能够有效地对所收集的信息进行检索的索引。因此,通过作为生成索引的基础的所收集的信息中包含的短语以外的短语也能够对该信息进行检索。
此外,根据本发明,使得用户能够认识到检索结果的依据。特别是,即使在针对检索查询命中的资源不是根据检索查询的短语直接命中的资源,而是通过其关联短语而命中的资源的情况下,用户也能够认识到作为通过检索而命中的依据的关联短语。
本发明的其他技术特征、目的、作用效果及优点将通过参照附图说明的以下实施方式来明确。
附图说明
图1是示出本发明的一实施方式的信息检索系统的概略构成的框图。
图2是用于说明本发明的一实施方式的检索引擎中的数据库的一例的图。
图3是用于说明本发明的一实施方式的检索引擎中的辞典的一例的图。
图4是示出本发明的一实施方式的检索引擎的索引器的概略构成的框图。
图5是表示输入到本发明的一实施方式的检索引擎的文本处理部的文本的一例的图。
图6是用于说明由本发明的一实施方式的检索引擎进行的索引生成处理的流程图。
图7示出由本发明的一实施方式的检索引擎生成的初始有向图的一部分的例子。
图8是用于说明由本发明的一实施方式的检索引擎进行的有向图的搜索、更新处理的流程图。
图9是示出由本发明的一实施方式的检索引擎将有向图的一部分展开的处理过程的一例的图。
图10是用于说明由本发明的一实施方式的检索引擎展开有向图的处理过程的一例的图。
图11是用于说明由本发明的一实施方式的检索引擎进行的检索处理的流程图。
图12A是用于说明用于根据由本发明的一实施方式的检索引擎检索到的资源的有向图来确定检索依据的处理过程的一例的图。
图12B是用于说明用于根据由本发明的一实施方式的检索引擎检索到的资源的有向图来确定检索依据的处理过程的一例的图。
图13A是示出在本发明的一实施方式的信息检索系统中的客户端上显示的检索结果画面的一例的图。
图13B是示出在本发明的一实施方式的信息检索系统中的客户端上显示的检索结果画面的一例的图。
图13C是示出在本发明的一实施方式的信息检索系统中的客户端上显示的检索结果画面的一例的图。
图14是用于说明本发明的一实施方式的检索引擎中的辞典的另一例的图。
图15是用于说明本发明的一实施方式的检索引擎中的字典树的一例的图。
图16A是用于说明由本发明的一实施方式的检索引擎进行的有向图的搜索、更新处理的另一例的流程图。
图16B是用于说明由本发明的一实施方式的检索引擎进行的有向图的搜索、更新处理的另一例的流程图。
图17是示出由本发明的一实施方式的检索引擎将有向图的一部分展开的处理过程的另一例的图。
图18是示出本发明的一实施方式的检索引擎的硬件结构的一例的框图。
符号说明
1…信息检索系统
10…计算机网络
20…检索引擎
21…爬行器
22…辞典
23…索引器
231…输入接口部
232…文本处理部
233…有向图生成部
234…有向图搜索部
235…索引生成部
24…数据库
241…索引
25…查询服务器
30…客户端
具体实施方式
以下,参照附图说明本发明的实施方式。但是,以下说明的实施方式仅是例示,并无意排除以下未明示的各种变形、技术的应用。本发明能够在不脱离其主旨的范围内进行各种变形(例如将各实施方式进行组合等)来实施。此外,在以下的附图的记载中,对相同或者类似的部分标注相同或者类似的符号而进行表示。附图是示意性的,不一定与实际的尺寸、比例等一致。附图彼此之间有时也包含尺寸的关系、比例彼此不同的部分。
图1是示出本发明的一实施方式的信息检索系统的概略构成的框图。如该图所示,本实施方式的信息检索系统1构成为包含以能够经由计算机网络10通信的方式连接的、至少一个检索引擎20和至少一个客户端30。
计算机网络10典型地包括基于IP的计算机网络,但不限于此。例如,计算机网络10能够应用可以进行节点间通信的任何协议的网络。
检索引擎20是向客户端30提供信息检索服务的计算机系统,例如可以由一个以上的通用计算设备来实现。即,检索引擎20是虚拟机,其是通过计算设备上的一个或多个CPU(处理器)例如在预定的操作系统(OS)上执行本实施方式的检索引擎程序,从而与其他硬件要素相互作用而实现。检索引擎20可以通过虚拟化技术来实现。实现检索引擎20的计算设备的硬件结构例示于图18,但由于是已知,所以在此省略其详情。在本实施方式中,检索引擎20是索引型检索引擎,并且例如具有索引的生成和更新的功能以及基于该索引的数据库检索功能。如图1所示,检索引擎20构成为包含例如爬行器21、辞典22、索引器23、数据库24和查询服务器25。应予说明,若从想要进行信息检索的用户来看,则检索引擎20是实现基于索引的数据库检索功能的虚拟机(检索装置或者狭义的检索引擎)。
爬行器21是用于自动地收集Web上的各种资源(例如,Web页、文件、图像、程序等)的自动巡回代理程序。具体地,爬行器21遍历Web页内的链接并周期性地访问Web上的站点来收集存在于站点内的资源。作为示例,爬行器21可以收集属于特定的专业领域的站点内的资源。爬行器21例如可以使收集到的资源暂时地存储于存储器(未示出)。在本实施方式的信息检索系统1中,能够应用已知的爬行器21,因而在此省略其详情。
辞典22是将关于某特定的概念的多个短语相互关联而存储的一个或多个文件或表,但并不限于此。例如,辞典22可以动态地构成为按照预定的算法构建短语组的关系的辞典模型(例如神经网络模型等),而非构成为静态的文件或表且始终存储于存储器上。在本公开中,短语是指由1个单词和2个以上的单词的排列组成的词语或表达。此外,将相互关联的多个短语称为关联短语组,作为一例,包含近义词、同义词、关联词、缩略语和对应的外语、进而基于这些词语派生的派生词等。辞典22例如是基于可获得的信息源手动地、半自动地或全自动地构建。例如,如果是医疗领域,则将美国国立癌症研究所(National CancerInstitute:NCI)提供的各种辞典用于构建辞典22。辞典22在后述的索引器23生成索引241时被参照。
索引器23将由爬行器21收集到的资源(例如,与资源相关的信息)登记于数据库24,并且分析该资源的内容(典型地是文本),根据该分析的结果生成并更新索引241。本实施方式的索引器23大致地将包含在资源中的文本分解为若干个标记(token),并基于这些标记生成有向图(网格),按照预定的短语边参照辞典22边在有向图内进行搜索,在预定的条件下展开并更新有向图。更新后的有向图成为新的搜索对象的有向图。此后,索引器23基于展开后的有向图,以预定的方法(例如N-gram方法等)切分出词条,并将其与所收集的资源相关联(添加索引)而生成和/或更新索引241。此外,索引器23将所收集的资源与生成的有向图相关联而登记于数据库24。
数据库24构成为存储与由爬行器21收集到的资源相关的信息,并包含其索引241。此外,数据库24存储用于生成索引241的有向图。图2是用于说明本发明的一实施方式的检索引擎中的数据库的一例的图。图2的(a)表示与资源相关的信息的一例。与资源相关的信息例如是包含识别资源的资源ID、资源名称、URL以及用于识别有向图的有向图ID等的结构文件。在本公开中,将存储有与资源相关的信息的结构文件称为资源信息文件。索引241是包含由索引器23生成且更新的索引信息的结构文件。图2的(b)示出索引241的一例。典型地,索引241具有称为转置索引的数据结构。索引信息例如是根据N-gram方法从有向图中的词语的排列切分出的词条。索引241内的词条被与资源(即,资源ID)相关联,由此被与数据库24的资源信息文件的各个数据集相关联。应予说明,在本公开中,索引241构成为数据库24的一部分,但不限于此,也可以各自分开构成。
返回到图1,查询服务器25接受从客户端30给出的检索查询,而检索索引241,并基于该检索结果从数据库24提取符合的与资源关联的信息,并将其作为检索结果提供给客户端30。查询服务器25例如可以利用预定的方法计算检索查询与提取出的资源之间的适合度,并提供根据该计算结果对提取出的资源进行排序后的检索结果。在本实施方式中,查询服务器25直接向客户端30返回针对来自客户端30的检索查询的检索结果,但是不限于此。例如,查询服务器25可以经由预定的API(Application Program Interface,应用程序接口)将检索结果传输给其他的应用程序,并将通过其他的应用程序对该检索结果进行了预定的信息处理而得的结果返回给客户端30。在本实施方式的信息检索系统1中,能够应用已知的查询服务器25。
客户端30典型地可以是用户所拥有的计算设备,例如个人计算机。客户端30包含例如用于经由计算机网络10访问检索引擎20的作为用户接口而起作用的查看器。查看器例如可以是Web浏览器,但不限于此。客户端30例如可以通过利用SSL等安全的通信技术,经由计算机网络10构建与检索引擎20的通信会话。客户端30构成为包含一个或多个CPU(处理器)和存储器等,但由于其硬件结构是已知的,所以在此省略其详情。
图3是用于说明本发明的一实施方式的检索引擎中的辞典的一例的图。如图3所示,辞典22构成为按每个特定的概念将包括一个或多个词语的多个短语分别相互关联地存储的表。示例性地,在图3中,短语“parp”、短语“poly|adp|ribose|poly|merase”和短语“多|adp|核糖|聚合酶”分别相互关联地进行登记。符号“|”是为了隔开短语中的各个单词而添加的分隔符。这样,通过用分隔符隔开构成短语的单词,从而如后所述,能够将构成短语的各个单词作为有向图中的各个标记来处理。应予说明,在此,三个短语表示为彼此相关联的一个数据集,但并不限于此,对其数量没有限制。
图4是示出本发明的一实施方式的检索引擎的索引器的概略构成的框图。如该图所示,本实施方式的索引器23例如构成为包含输入接口部231、文本处理部232、有向图生成部233、有向图搜索部234和索引生成部235。
输入接口部231例如作为爬行器21与文本处理部232之间的接口而发挥作用。输入接口部231与爬行器21通信,将爬行器21收集到的资源中包含的例如图5所示那样的文本输入到文本处理部232。
文本处理部232对于所输入的文本进行例如词素分析来切分出多个标记。文本处理部232典型地可以包含与日语、英语等各国语言对应的语言分析引擎(未示出)。语言分析引擎能够使用已知的语言分析引擎。
有向图生成部233基于由文本处理部232切分出的多个标记生成有向图。具体地,有向图生成部233对于由文本处理部232切分出的多个标记中的每一个,通过节点连接相邻的标记,由此生成表现了多个标记彼此的连接关系的有向图(例如图7的(a))。即,通常,有向图通过边和节点来表现,本实施方式的有向图可以说是将各个标记定义为边的标签,并通过该带标签的边和节点来表现的。这样,由有向图生成部233从文本直接生成的有向图从开头节点到最后节点仅包含一条路径。应予说明,本公开中图示的有向图是为了便于理解而描绘的,实际上,在计算设备内部,典型地被作为可以由处理器解释的某种数据结构而进行处理。有向图生成部233根据由后述的有向图搜索部234进行搜索的结果,动态地改变有向图的连接关系,从而展开且更新有向图。
有向图搜索部234设定成为搜索的对象的短语(以下称为“搜索对象短语”),并基于此边参照辞典22边在有向图内进行搜索。搜索对象短语是有向图中的任意一个或多个标记,并且例如从开头的标记起依次被选择、设定。更具体地,在本实施方式中,有向图搜索部234基于所设定的搜索对象短语,一边在有向图内按照边和节点依次进行遍历,一边判定该搜索对象短语是否登记于辞典22中。在有向图搜索部234判断为该搜索对象短语登记于辞典22中的情况下,即在辞典22中发现了该搜索对象短语的情况下,有向图搜索部234确定该搜索对象短语在有向图内出现的位置,并将所确定的位置通知给有向图生成部233。接收到该通知,有向图生成部233通过在有向图内的所确定的位置的前后节点添加地连接辞典22中的与该搜索对象短语相关联的短语,从而更新有向图。因此,新添加了短语且进行了更新的有向图例如如图9的(b)等所示,在文本的开头节点到最后节点之间,能够存在多个路径。
索引生成部235基于通过有向图搜索部234结束搜索而获得的最终的有向图来生成表示与所收集的资源的关联的索引。具体地,索引生成部235按照更新后的最终的有向图,从其中提取基于单词(标记)的N-gram(以下称为“单词N-gram”)(即,单词的排列),并将该提取出的单词N-gram作为词条与资源相关联,由此生成索引241。在本实施方式中,N≤3(其中N为正数),即1~3个单词的排列(即1-gram、2-gram以及3-gram)被用作索引241的词条。此外,本实施方式虽然使用单词N-gram,但并不限于此,不排除像以前的N-gram那样使用以文字为单位的排列(即1个文字、2个文字、…)的方式。
图6是用于说明由本发明的一实施方式的检索引擎进行的索引生成处理的流程图。该处理例如通过计算设备上的处理器执行本实施方式的预定的检索引擎程序来实现。
如图6所示,检索引擎20接收由爬行器21收集的资源中包含的文本(S601)。例如,输入接口部231若接收到由爬行器21收集的资源,则将包含于资源的文本输入到文本处理部232。检索引擎20若接收到文本,则对文本进行词素分析而将文本标记化,即从文本切分出多个标记(S602)。例如,文本处理部232判定文本的语言,并通过与该语言相应的词素分析处理,从文本切分出多个标记。
接下来,检索引擎20基于所切分出的多个标记生成有向图(S603)。例如,有向图生成部233对于由文本处理部232切分出的多个标记中的每一个,将该标记作为边的标签,通过节点连接相邻的边,由此生成表现了多个标记彼此的连接关系的有向图。在此,将根据文本最初生成的有向图称为初始有向图。图7表示根据图5所示的被输入的文本生成的初始有向图的一部分。即,如图7的(a)所示,本实施方式的有向图将各个标记定义为边的标签,并通过该带标签的边和节点来表现。如图7所示,初始有向图从最前节点起连续的路径仅有一条。
应予说明,在本实施方式中,如上所述,示出了将各个标记定义为有向图中的边的标签的有向图,但并不限于此。例如,也可以如图7的(b)所示,是将标记也定义为节点(即,存在2种节点),并仅用边连接这2种节点而成的有向图。应予说明,这样的图在自然语言处理的领域中也有时被称为网格,在本公开中,并不对其进行区分。
返回到图6,检索引擎20一边参照辞典22一边搜索有向图,根据搜索的结果展开并更新该有向图(S604)。即,检索引擎20从有向图中将预定的词语依次设定为作为搜索对象的搜索对象短语,并以此为基础,在有向图内按照边和节点进行搜索,并且每次在辞典22中发现该搜索对象短语时,基于与该发现的搜索对象短语相关联的短语来展开并更新有向图。应予说明,有向图的搜索和更新处理的详情将使用图8来进行说明。
在上述的有向图的搜索和更新处理之后,检索引擎20基于更新后的有向图生成表示与所收集的资源的关联性的索引241(S605)。例如,索引生成部235按照更新后的最终的有向图,分别从其中提取从1-gram到3-gram的单词的排列,并将该提取出的单词的排列作为词条,通过与收集到的资源相关联,从而生成例如图2的(b)所示那样的索引241。索引生成部235还将例如图2的(a)所示那样的资源信息文件以与所生成的索引241相对应的方式登记于数据库24。由此,使得对于以后的检索查询,会从扩展到了检索查询的关联短语的范围的词条中检索资源。进而,在本实施方式中,索引生成部235在生成索引241时,将更新后的最终的有向图与所收集的资源相关联,并将与资源相关联后的有向图存储于数据库24。与资源相关联的有向图用于在基于检索查询执行检索,并命中且提取该资源的情况下,显示通过该检索而命中的依据(例如,关联短语)。
图8是用于说明由本发明的一实施方式的检索引擎进行的索引的生成处理的流程图,更具体地,是用于说明图6所示的有向图的搜索和更新处理的详情的流程图。
即,如图8所示,例如,有向图搜索部234首先将当前的有向图设定为搜索对象的有向图(S801),接着将有向图中的处于当前时刻的搜索位置处的预定的标记设定为搜索对象短语(S802)。在搜索的开始时刻,初始有向图是搜索对象的有向图,将初始有向图的与开头节点连接的标记设定为搜索对象短语。此外,伴随着有向图的搜索,依次设定有向图中的预定的标记。搜索对象短语是一个或一个以上的标记。
有向图搜索部234接着基于所设定的搜索对象短语,一边参照辞典22一边在有向图内进行搜索(S803)。例如,有向图搜索部234基于所设定的搜索对象短语,在有向图内按照边和节点依次遍历,同时判定该搜索对象短语是否登记于辞典22中(S804)。有向图内的搜索可以根据例如KMP(Knuth-Morris-Pratt)方法进行,但并不限于此。
在有向图搜索部234判定为该搜索对象短语登记于辞典22中的情况下(S804的“是”),即在辞典22中发现了该搜索对象短语的情况下,有向图搜索部234确定该搜索对象短语在该有向图中出现的位置,并将该确定的位置通知给有向图生成部233(S805)。有向图生成部233接收该通知,通过在该有向图内的该确定的位置的前后节点添加地连接辞典22中的与该搜索对象短语相关联的短语,来更新该有向图(S806)。典型地,短语被切分为一个以上的标记而连接于有向图。此后,有向图搜索部234为了继续进行搜索而返回到步骤S801的处理。即,有向图搜索部234将当前的有向图作为搜索对象的有向图(S801),使其搜索位置前进到下一个,并将此处的标记设定为新的搜索对象短语而进行搜索处理(S802)。
另一方面,有向图搜索部234在未在辞典22中发现该搜索对象短语的情况下(S804的“否”),判定是否到达了有向图的终端节点(S807)。有向图搜索部234在判定为未到达有向图的终端节点的情况下(S807的“否”),为了继续进行有向图内的搜索,返回到S802的处理。另一方面,有向图搜索部234在判定为到达了有向图的最终节点的情况下(S807的“是”),结束搜索处理。
通过以上这样的处理,检索引擎20在基于所输入的文本而生成用于检索的索引时,使用登记有相互关联的多个短语的辞典22,能够不仅基于原始文本中包含的短语,还基于扩展到关联短语组而得的各个短语来生成索引。
接着,说明由检索引擎20进行的有向图的展开处理的一例。图9是用于说明由本发明的一实施方式的检索引擎展开有向图的处理过程的一例的图。在本例中,示出检索引擎20基于图4所示的辞典22,针对包含图5所示的文本的资源生成索引241时的有向图的展开的情形。
首先,如上所述,检索引擎20基于所输入的文本生成例如图7的(a)所示那样的初始有向图。接着,检索引擎20开始有向图的搜索,在该过程中,假设在辞典22中发现了所设定的搜索对象短语“poly|adp|ribose|polymerase”。检索引擎20通过将辞典22中的与短语“poly|adp|ribose|polymerase”相关联的短语“parp”和短语“多|adp|核糖|聚合酶”分别并列地连接于有向图内的处于该搜索对象短语“poly|adp|ribose|polymerase”的位置前后的始端节点和终端节点,由此更新有向图(图9的(a))。
进一步地,检索引擎20推进有向图的搜索,在有向图内的“adp|核糖”被设定为搜索对象短语时,在辞典22中发现该短语。搜索对象短语“adp|核糖”是在上述的搜索过程中由检索引擎20添加到有向图的词语。检索引擎20同样地通过将辞典22中的与短语“adp|核糖”相关联的短语“adenosine|diphosphate|ribose”并列地连接于有向图内的处于该搜索对象短语“adp|核糖”的位置前后的始端节点和终端节点,由此更新有向图(图9的(b))。这样,对于包含所添加的短语的路径,可进一步添加释义。
进一步地,检索引擎20推进有向图的搜索,在有向图内的“parp|inhibitor”被设定为搜索对象短语时,在辞典22中发现该短语。搜索对象短语“parp|inhibitor”是在搜索的过程中,由检索引擎20将“parp”追加到有向图,从而通过与相邻的词语“inhibitor”的结合而得到的词语。检索引擎20同样地通过将辞典22中的与短语“parp|inhibitor”相关联的短语“parp|阻碍|剂”并列地连接于有向图内的处于该搜索对象短语“parp|inhibitor”的位置前后的始端节点以及终端节点,由此更新有向图(图9的(c))。即,短语“parp|阻碍|剂”与初始有向图中的原始路径(poly→adp→ribose→polymerase→inhibitor)并列地连接。
检索引擎20通过进行以上那样的对有向图的搜索动作来展开且更新有向图。其结果,更新后的有向图对于初始有向图中的原始路径形成若干个并列的路径。因此,通过基于这样的有向图提取词条,从而能够不仅基于原始文本中包含的短语,还基于扩展到关联短语组而得的各个短语(释义)来生成索引。
图10是用于说明由本发明的一实施方式的检索引擎进行的检索处理的流程图。该处理例如通过计算设备上的处理器执行预定的检索引擎程序来实现。
如图10所示,检索引擎20从客户端30接收检索查询(S1001)。例如,客户端30通过例如用户在显示于Web浏览器(未示出)上的检索画面输入检索查询,从而向检索引擎20发送检索查询。检索引擎对接收到的检索查询进行预定的分析处理(S1002)。例如,查询服务器25针对从客户端30接收到的检索查询生成N-gram检索式。在本实施方式中,设N=3是最大值,但并不限于此。因此,在检索查询包含4个以上的单词时,查询服务器25提取3-gram的单词而进行它们的AND检索。例如,在检索查询是“platinum and parp inhibitor”的情况下,检索式为“(platinum and parp)AND(and parp inhibitor)”。
接着,检索引擎20基于所生成的检索式检索索引241(S1003)。例如,查询服务器25基于所生成的检索式检索索引241,并检查是否命中索引241内的词条。在命中词条的情况下,查询服务器25根据该词条参照数据库24,提取与词条相关联的资源的名称及其位置信息等信息,并将该提取出的结果返回给客户端30。例如,查询服务器25基于检索式“(platinum and parp)AND(and parp inhibitor)”来检索索引241,由此命中并提取包含图5所示那样的文本的资源。在提取的结果有多个的情况下,查询服务器25可以根据基于预定的评分计算的其得分对这些结果进行排名。此外,在本实施方式中,查询服务器25在提取与词条相关联的资源时,基于与该资源相关联的有向图来确定成为命中该资源的依据的关联短语和该资源的文本的短语(S1004)。关于检索依据的确定处理的详情,将参照图11来说明。
然后,检索引擎20在确定了成为检索依据的短语之后,将包含该成为检索依据的短语的检索结果发送给客户端(S1005)。客户端30接收该结果,并在输入了检索查询的检索画面上显示检索结果。
以往的检索引擎由于将仅基于所收集的资源的文本中包含的短语的词条登记于索引,因此为了通过检索来提取该资源,检索查询需要包含该资源中所含的词条。例如,以往的检索引擎不会针对包含图5所示那样的文本的资源生成以短语“parp inhibitor”为词条的索引。因此,在来自客户端30的检索查询是“platinum and parp inhibitor”的情况下,或者将不包含“parp inhibitor”的资源不作为检索结果而进行显示,或者假设即使在因其它原因而被显示的情况下,也只是作为排名靠后的结果进行显示。与此相对,本实施方式的检索引擎20能够将不仅基于文本所含的短语,还基于扩展到关联短语组的各个短语的词条登记于索引241。因此,即使在来自客户端30的检索查询是“platinum and parpinhibitor”的情况下,也将不包含“parp inhibitor”的资源作为检索结果而进行显示。
图11是用于说明由本发明的一实施方式的检索引擎进行的检索处理的流程图,更具体地,是用于说明图10所示的检索依据的确定处理的详情的流程图。
如图11所示,首先,检索引擎20确定通过检索而命中的资源的有向图(S1101)。例如,查询服务器25参照图2所示那样的数据库24的资源信息文件,确定与命中的资源的文本相关联的有向图ID,并基于该确定的有向图ID读取存储在数据库24的有向图。应予说明,在本实施方式中,检索引擎20使用与命中的资源相关联地存储的有向图ID,但并不限于此,也可以根据图8所示的搜索及更新处理,对命中的资源再次生成有向图。
接着,检索引擎20基于检索查询在所确定的有向图内进行搜索(S1102),确定有向图中的检索查询所出现的位置(S1103)。例如,查询服务器25一边按照边和节点依次遍历有向图中的各路径,一边确定与检索查询一致的位置。所确定的位置是一条路径的全部或部分,因此可包含多个边和节点。搜索是根据例如KMP方法进行。或者,使用字典树T进行。
检索引擎20接着确定有向图中的原始路径上的与所确定的位置的路径连接的分支节点(S1104),并且确定有向图中的原始路径上的与所确定的位置的路径连接的汇合节点(S1105)。原始路径是从资源的文本直接得到的有向图的路径,等于上述的初始有向图(参照图7的(a))的路径。例如,查询服务器25从所确定的位置的前端节点起向后(即,与边的朝向相反的方向)遍历所确定的位置的路径,直至到达基于文本的原始路径的节点为止,并且将所到达的节点确定为分支节点。此外,查询服务器25从所确定的位置的后端节点起向前(即,边的朝向的方向)遍历所确定的位置的路径,直至到达原始路径的节点为止,并且将所到达的节点确定为汇合节点。应予说明,在本例中,查询服务器25在确定了分支节点之后确定汇合节点,但也可以在确定了汇合节点之后确定分支节点,或者可以同时并行地确定分支节点和汇合节点。
若确定分支节点和汇合节点,则检索引擎20在所确定的位置的路径上确定从分支节点到汇合节点的短语(S1106)。例如,查询服务器25在步骤S1104中向后遍历路径的过程和在步骤S1105中向前遍历路径的过程中,提取边的标签并将其存储于缓冲器,根据该提取并存储的标签来确定短语。在步骤S1106中确定的短语是成为通过检索而命中的依据的关联短语。
接着,检索引擎20同样地在原始路径上提取从分支节点到汇合节点的短语(S1106)。例如,查询服务器25从分支节点起按照边的朝向提取边的标签直到汇合节点为止,并将边的标签存储于缓冲器,且根据该提取并存储的标签来确定短语。在该步骤S1107中确定的短语是成为生成关联短语的基础的文本的短语。
应予说明,检索引擎20可以按检索查询在有向图中出现的每个位置进行上述的检索依据的确定处理。
通过以上那样的处理,即使在针对检索查询而命中的资源不是根据检索查询的短语直接命中的资源,而是通过其关联短语而命中的资源的情况下,检索引擎20也能够向用户提供成为通过检索而命中的依据的关联短语。
此外,即使在例如基于包含多个短语的OR检索的检索查询而对本实施方式的索引241进行了检索的情况下,通过向用户显示检索依据,用户也能够从多个短语中容易地掌握对命中资源有用的短语。此外,即使在根据检索查询而命中了用户预料之外的资源的情况下,也由于显示检索依据,所以使得用户能够认识到检索引擎20在正常发挥功能。
接着,说明由检索引擎20进行的检索依据的确定处理的一例。图12A和图12B是用于说明用于根据由本发明的一实施方式的检索引擎检索到的资源的有向图来确定检索依据的处理过程的一例的图。在本例中,示出了检索引擎20基于图9所示的有向图来确定检索依据的情形。
首先,检索引擎20如上所述地确定从数据库24的资源信息文件命中的资源的有向图ID,并从数据库24读取例如图12A的(a)所示那样的有向图,且基于检索查询中包含的短语“diphosphate ribose”开始有向图内的搜索。在该搜索过程中,检索引擎20若在有向图中的某一条路径发现与检索查询的短语一致的短语,则确定该短语在有向图中出现的位置(图12A的(b))。以下,将所确定的位置的前端的节点设为前端节点A,将所确定的位置的后端的节点设为后端节点B。
接着,检索引擎20从前端节点A起沿反方向遍历所确定的位置的路径,直至到达基于文本的原始路径的节点为止,且将所到达的节点确定为分支节点A’,并且从后端节点B起沿正方向遍历所确定的位置的路径,直至到达原始路径的节点为止,且将所到达的节点确定为汇合节点B’(图12B的(c))。
然后,检索引擎20遍历从分支节点A’起经过包含所确定的位置的路径的到汇合节点B’为止的路径,从而确定短语“多|adenosine|diphosphate|ribose|聚合酶”。该确定的位置的短语作为与检索查询相关联的短语,而是成为查到命中资源的依据的关联短语。此外,检索引擎20遍历基于资源的文本的从分支节点A’起到汇合节点B’为止的原始路径,从而确定短语“poly|adp|ribose|polymerase”(图12B(d))。原始路径的该确定的短语是成为生成关联短语的基础的文本的短语。
如上所述,检索引擎20在确定了成为检索依据的短语之后,将包含该成为检索依据的短语的检索结果发送到客户端。客户端30接收该结果,并在例如Web浏览器上显示检索结果。
图13A~13C是示出在本发明的一实施方式的信息检索系统中的客户端上显示的检索结果画面的例子的图。
在图13A所示的例子中,检索结果画面1300A包含例如基于输入到检索查询输入字段1301的检索查询而由检索引擎20检索到的资源名称1302及其链接1303。在图13A所示的例子中,显示了“癌症治疗药物”及其URL作为针对检索查询““diphosphate ribose”OR“parp抑制剂””而命中的资源。在本实施方式中,检索结果画面包含正文显示区域1304和检索依据显示区域1305。正文显示区域1304和检索依据显示区域1305例如是左右并排配置。正文显示区域1304是显示针对检索查询而命中的资源中的文本的至少一部分的区域。所显示的文本可以是例如与检索查询的短语相关联的文本的至少一部分。检索依据显示区域1305是显示成为针对检索查询而查到资源的依据的关联短语的区域。为了提高用户的辨识性,例如通过颜色区分、斜线、粗体、斜体、带边框等方法来突出显示关联短语等。在图13A所示的例子中,示出了针对检索查询的短语而命中的资源中的短语与哪个关联短语相关联。换言之,示出了资源中的文本的哪个短语被替换为怎样的关联短语而命中。
此外,在图13B中,示出检索结果画面1300B的例子,该检索结果画面1300B在正文显示区域1304’显示针对检索查询而命中的资源中的文本的至少一部分和成为针对检索查询而命中资源的依据的关联短语。为了提高用户的辨识性,例如,将关联短语等突出显示。此外,本例的检索结果画面1300B包括复选框1306,以便用户能够任意地选择是否显示检索依据。在选中了复选框1306的情况下,在检索结果画面1300B显示检索依据。例如,在用户输入检索查询,并且接受检索结果的显示之后,认为想要确认检索依据的情况下,能够选中复选框1306以使得显示检索依据。通过这样做,用户能够在使检索结果画面1300B简略显示之后,选择性地仅使需要的部分的检索依据显示。
此外,在图13C中,示出检索结果画面1300C的例子,该检索结果画面1300C在正文显示区域1304显示针对检索查询而命中的资源中的文本的至少一部分,若用户操作指针光标1307并且将指针光标1307重叠在关联短语上,则检索依据显示区域1305’被弹出。例如,为了用户能够掌握关联短语与哪个短语相关联,将该短语例如突出显示。
以上,本实施方式的检索结果画面由于将针对检索查询而命中的资源中的文本与成为命中该资源的依据的关联短语相关联地显示,所以用户能够容易地认识到成为检索依据的关联短语。
接着,说明图8所示的有向图的搜索和更新处理的其他例子。在本例中,仅针对有向图中尚未进行搜索的边(标记)进行搜索,即以避免对已经搜索过的标记再次搜索的方式进行搜索。因此,在本例中,使用由有序节点构成的树结构。这样的树结构已知为字典(trie)树或前缀树。即,在字典树中,某节点的下属的所有节点具有与其自身所对应的字符串(在此为标记)相同的前缀。在本例中,对字典树中的节点与节点之间的边分配构成登记于辞典22的短语的各个词语。以下,为了容易理解,假设在辞典22的一部分登记有图14所示那样的短语来进行说明。
本例的检索引擎20具备基于辞典22而生成的字典树。图15是用于说明基于在图14所示的辞典22中登记的短语而生成的字典树的一例的图。字典树T典型地是可以由计算设备的处理器解释的某种数据结构或数据阵列,例如被构成为一个或多个文件或者表,但是并不限于此。此外,例如,字典树T可以在处理的执行过程中根据预定的算法动态地构成,而非构成为静态的文件或表,且其一部分或全部始终存储于存储器上。
如图15所示,字典树T以节点n0为根,依次对节点间的边分配有在辞典22中登记的短语的各个单词。对各节点分配例如唯一的编号。根节点n0被分配例如“0”号。在该图中,为了方便起见,假设对其余的各节点分配1~10号。此外,图中用黑色表示的节点是短语终端节点,作为用于标识在辞典22中登记的短语的标志而发挥作用。换言之,由从根节点n0到短语终端节点的路径所示的短语是登记在辞典22中的短语。例如,如图14所示,“营养”和“营养|疗法”分别登记在辞典22中,因此在图15所示的字典树中,节点n3和n9分别成为短语终端节点。
图16A和图16B是用于说明由本发明的一实施方式的检索引擎进行的索引生成处理的其他例子的流程图,更具体地,示出了有向图的搜索和更新处理的流程图。
如图16A所示,首先,有向图生成部233例如对初始有向图的各节点分配表示字典树T的根节点n0的编号(根编号)“0”(S1601)。应予说明,可选地,也可以在初始有向图的生成时对初始有向图的各节点分配根编号(参照图6的S603)。
接着,有向图搜索部234将初始有向图设定为搜索对象的有向图(S1602),接着选择一个有向图的开头节点,将其设定为当前的搜索节点(S1603)。所选择的搜索节点被作为搜索完毕的节点而存储。此时,有向图搜索部234将搜索节点的位置以及应该插入短语的始端位置(以下称为“短语插入始端位置”)缓存于未图示的高速缓存区域(S1604)。由此,有向图搜索部234能够根据缓存的内容来确定未搜索的节点的位置和应该添加关联短语的位置。
有向图搜索部234接着判断与搜索节点相关联的标记(短语)是否根据字典树T的对应节点而被检索(retrieve)(S1605)。更具体地,有向图搜索部234确定与搜索节点连接的边的标记,并且判断该确定的标记是否与字典树T的连接到如下所述节点的边的标记一致,该节点是字典树T的与分配给该搜索节点的编号相对应的节点。在有向图搜索部234在字典树T中检索到了该确定的标记的情况下(S1605的“是”),对有向图中的该确定的标记的下游节点添加地分配如下编号,即该编号是分配给字典树T中的标记的下游节点的编号(图16B的S1606)。
例如,假设有向图中的与搜索节点连接的标记是“tpn”。在此情况下,有向图搜索部234在字典树T中找出与根节点n0连接的边的标记“tpn”,并将与该边连接的下游节点的编号“2”添加地分配给有向图中的与标记“tpn”连接的下游节点(参照图17的(b))。
接着,有向图搜索部234判断字典树T的该下游节点是否是短语终端节点(S1607)。有向图搜索部234在判断为该下游节点是终端的情况下(S1607的“是”),判断该下游节点是否还有下游节点(S1608)。在有向图搜索部234判断为不再有下游节点的情况下(S1608的“否”),接受该判断结果,有向图生成部233参照辞典22提取该标记(短语)的关联短语(S1609),并且将该提取出的关联短语添加地连接于有向图的对应节点之间,由此来更新有向图(S1610)。即,有向图生成部233将包含关联短语的路径并列地连接于被缓存的短语插入始端位置的节点和有向图中的标记的下游节点(插入后端位置的节点)。在由有向图生成部233进行有向图的更新之后,有向图搜索部234对有向图中与新添加的关联短语连接的节点分配根节点n0的编号“0”(S1611),并且返回到S1603(图16A)的处理。
另一方面,有向图搜索部234在判断为字典树T的该下游节点不是短语终端节点的情况下(S1607的“否”),为了设定下一个搜索节点,返回到S1603的处理。加之,有向图搜索部234在判断为在字典树T的该下游节点还有下游节点的情况下(S1608的“是”),也为了设定下一个搜索节点,返回到S1603的处理。
此外,在S1605中,有向图搜索部234在该确定的标记在字典树T中无法检索到的情况下(S1605的“否”),判断是否搜索了有向图内的所有节点(S1612)。有向图搜索部234在判断为未搜索有向图内的所有节点的情况下(S1612的“否”),为了继续有向图内的搜索,返回到S1603的处理。另一方面,有向图搜索部234在判断为搜索了有向图内的所有节点的情况下(S1612的“是”),结束搜索处理。
接着,说明使用了上述的字典树T的、由检索引擎20进行的有向图的展开处理的一例。图17是用于说明由本发明的一实施方式的检索引擎展开有向图的处理过程的其他例子的图。应予说明,在该图中,由白色表示的节点表示成为搜索对象的节点(未搜索节点),由黑色表示的节点表示搜索完毕的节点。
如上所述,假设基于输入的文本生成了初始有向图。该图的(a)表示初始有向图的一部分。对初始有向图的各节点分配了根编号“0”。有向图搜索部234在有向图的搜索过程中,将由空心箭头表示的节点设定为搜索节点。此外,有向图搜索部234如上所述,将搜索节点位置以及短语插入始端位置缓存到高速缓存区域。
接着,有向图搜索部234判断与搜索节点连接的边的标记“tpn”是否与字典树T的连接于如下所述节点的边的标记一致,该节点是字典树T的与分配给该搜索节点的编号“0”对应的节点。在本例中,由于在字典树T中在与根节点n0连接的边中的一个边上有标记“tpn”,所以有向图搜索部234对有向图的该标记的下游节点添加地分配如下编号,即该编号是分配给字典树T的该标记的下游节点的编号“2”(该图的(b))。
接着,有向图搜索部234判断为字典树T中的该标记的下游节点是短语终端节点,接受该判断结果,有向图生成部233参照辞典22(图14)将该标记(短语)的关联短语“total|parenteral|nutrition”按照被缓存的短语插入始端位置添加到有向图,并且对新添加的节点分配根节点n0的编号“0”(该图的(c))。
此后,有向图搜索部234同样地推进搜索的处理,并假设如该图的(d)所示,结束对由黑色表示的节点的搜索,将由空心箭头表示的节点设定为搜索节点。在此,有向图搜索部234在字典树T内的搜索中,根据从节点n6起的边的标记“nutrition”,将下级节点的节点编号“9”分配给有向图的下级节点。应予说明,由于节点n6是短语终端节点,所以有向图搜索部234参照辞典22来连接“total|parenteral|nutrition”的关联短语(标记)“tpn”的路径,因为关联短语“tpn”已经存在于短语插入位置,所以有向图搜索部234不进行该路径的连接处理。由此,在有向图的展开处理中可抑制冗余路径的添加。
接着,有向图搜索部234同样地推进搜索的处理,因为字典树T的节点n4是短语终端节点,所以参照辞典22,在有向图中将标记“营养”的路径连接于短语插入位置(该图的(e))。
如上所述,由有向图搜索部234进行的有向图搜索的结果是,有向图生成部233最终生成该图的(f)所示那样的有向图。
应予说明,在上述的处理中,也可以构成为由有向图搜索部234进行有向图生成部233进行的处理的一部分,还可以构成为由有向图生成部233进行有向图搜索部234进行的处理的一部分。
如上,根据本实施方式,在索引型检索引擎中,生成能够有效地检索所收集的资源的索引241。由此,使得用户通过成为生成索引241的基础的所收集的资源中包含的短语以外的短语也能够访问该资源。因此,在例如医疗领域这样的专业领域中,能够基于特定的短语来广泛且有效地检索包含近义词等关联短语组的资源。
此外,即使在例如基于包含OR检索的检索查询而对本实施方式的索引241进行了检索的情况下,通过向用户显示检索的依据,用户也能够容易地从多个短语中掌握有助于资源的命中的短语。此外,即使在根据检索查询命中了用户预料以外的资源的情况下,也由于显示检索的依据,所以使得用户能够认识到检索引擎20在正常发挥功能。
上述各实施方式是用于说明本发明的例示,而并非要将本发明仅限于这些实施方式。只要不脱离其主旨,本发明就能够以各种方式实施。
例如,在本说明书公开的方法中,只要其结果不发生冲突,就可以并行地或以不同的顺序实施步骤、动作或功能。所说明的步骤、动作和功能仅作为例子而提供,并且在不脱离发明的主旨的范围内,可以将步骤、动作和功能中的几个省略,此外可以通过将它们彼此结合而设为一个步骤、动作或功能,此外还可以添加其它的步骤、动作或功能。
此外,在本说明书中,虽然公开了各种实施方式,但是可以适当地改进一个实施方式中的特定特征(技术事项),并将其添加到其他实施方式中,或将其与其他实施方式中的特定特征进行替换,这样的方式也包含在本发明的主旨内。
Claims (20)
1.一种装置,其特征在于,基于包含文本的资源来生成用于检索数据库的索引,所述装置具备:
辞典,其按每个特定的概念包含相互关联的多个短语;
输入接口部,其接收所述资源的输入;
文本处理部,其进行用于从所述接收的资源的文本切分出多个词语而作为标记的处理;
有向图生成部,其根据所述文本生成表现了所述切分出的多个标记彼此的连接关系的有向图;
有向图搜索部,其基于搜索对象短语在所述有向图内进行搜索,且在所述辞典中发现所述搜索对象短语的情况下,确定所述搜索对象短语在所述有向图内出现的位置;以及
索引生成部,其基于所述有向图内的多个标记生成表示与所述资源的关联性的索引,
所述有向图搜索部将所述有向图内的至少一个标记设定为所述搜索对象短语,并基于所述设定的搜索对象短语参照所述辞典,
所述有向图生成部通过基于所述辞典,向所述有向图添加基于与所述搜索对象短语相关联的至少一个短语的新标记,从而更新所述有向图。
2.根据权利要求1所述的装置,其特征在于,
所述有向图生成部生成通过节点将所述多个标记中的相邻的标记彼此连接而成的所述有向图。
3.根据权利要求2所述的装置,其特征在于,
所述有向图生成部将在所述辞典中发现的与所述搜索对象短语相关联的所述至少一个短语连接于所述有向图内的所述出现的位置的前后节点。
4.根据权利要求1所述的装置,其特征在于,
所述有向图搜索部在由所述有向图生成部更新了的有向图内进行搜索。
5.根据权利要求4所述的装置,其特征在于,
所述有向图搜索部以避免对所述更新了的有向图中已经结束了搜索的标记进行重新搜索的方式在所述更新了的有向图内进行搜索。
6.根据权利要求5所述的装置,其特征在于,
所述有向图包含将所述多个标记中的相邻的标记彼此连接的多个节点,
所述有向图搜索部将与结束了所述搜索的标记相关联的节点存储为搜索完毕节点,并对与所述搜索完毕节点以外的节点连接的标记进行重新搜索。
7.根据权利要求1所述的装置,其特征在于,
所述装置还具备数据阵列,所述数据阵列表示基于所述辞典中包含的所述多个短语而构成的树结构,所述树结构包含与所述多个短语分别对应的有序节点,
所述有向图搜索部参照所述树结构在所述有向图内进行搜索。
8.根据权利要求7所述的装置,其特征在于,
在所述搜索对象短语与所述树结构中的至少一个所述有序节点所对应的至少一个短语一致的情况下,所述有向图搜索部判断为在所述有向图内出现了所述搜索对象短语。
9.根据权利要求8所述的装置,其特征在于,
所述有向图生成部向所述有向图添加新标记,由此更新所述有向图,所述新标记是基于所述辞典中的与所述一致的搜索对象短语相关联的至少一个短语的标记。
10.根据权利要求1所述的装置,其特征在于,
所述索引生成部基于更新了的所述有向图内的多个标记来提取N-gram,并且基于所述提取出的N-gram生成所述索引。
11.根据权利要求10所述的装置,其特征在于,
所述索引生成部提取基于单词的N-gram作为所述N-gram。
12.一种检索装置,其特征在于,包括:
由权利要求1所述的装置生成的索引;
资源信息文件,其是关于与所述索引相关联的所述资源的信息文件;以及
查询服务器,其基于检索查询来检索所述索引,并基于该检索的结果从所述资源信息文件确定至少一个资源,且输出表示所述确定的至少一个资源的检索结果,
所述查询服务器基于从所述确定的至少一个资源得到的包含与所述至少一个资源中的短语相关联的预定的关联短语的有向图,确定成为所述至少一个资源被确定的依据的依据短语以及与所述短语相关联的所述至少一个资源中的原始短语,
所述检索结果包含所述依据短语及所述原始短语。
13.一种方法,其特征在于,由计算设备来执行,并用于基于包含文本的资源生成用于检索数据库的索引,该方法包括:
在所述计算设备的处理器的控制下,所述计算设备执行如下步骤:
将按每个特定的概念包含相互关联的多个短语的辞典展开到由所述处理器访问的存储器;
通过输入接口部接收所述资源的输入;
进行用于从所述接收的资源的文本切分出多个词语而作为标记的文本处理;
根据所述文本生成表现了所述切分出的多个标记彼此的连接关系的有向图,并展开到由所述处理器访问的存储器;
基于搜索对象短语,参照所述辞典在所述有向图内进行搜索;以及
基于所述有向图内的多个标记,生成表示与所述资源的关联的索引并登记于所述数据库,
在所述有向图内进行搜索的步骤包括将所述有向图内的至少一个标记设定为所述搜索对象短语,并基于所述设定的搜索对象短语参照所述辞典,在所述辞典中发现了所述搜索对象短语的情况下,确定所述搜索对象短语在所述有向图内出现的位置,
生成所述有向图的步骤包括向所述有向图添加基于在所述辞典中发现的与所述搜索对象短语相关联的至少一个短语的新标记,由此更新所述有向图。
14.根据权利要求13所述的方法,其特征在于,
生成所述有向图的步骤包括生成通过节点将所述多个标记中的相邻的标记彼此连接而成的所述有向图。
15.根据权利要求14所述的方法,其特征在于,
生成所述有向图的步骤包括将在所述辞典中发现的与所述搜索对象短语相关联的所述至少一个短语连接于所述有向图内的所述出现的位置的前后节点。
16.根据权利要求13所述的方法,其特征在于,
在所述有向图内进行搜索的步骤包括将所述更新了的有向图作为新搜索对象的有向图进行搜索。
17.根据权利要求13所述的方法,其特征在于,
生成所述索引的步骤包括基于更新了的所述有向图内的多个词语来提取N-gram,并且基于所述提取出的N-gram生成所述索引。
18.根据权利要求17所述的方法,其特征在于,
生成所述索引的步骤包括提取基于单词的N-gram作为所述N-gram。
19.一种信息检索方法,其特征在于,由包含检索引擎的检索装置执行,该方法包括:
在所述检索装置的处理器的控制下,所述检索引擎执行如下步骤:
基于从客户端计算机接收到的检索查询,检索所述检索装置的数据库上的索引,并基于该检索的结果从资源信息文件确定至少一个资源;
将从所述确定的至少一个资源得到的包含与所述至少一个资源中的短语相关联的预定的关联短语的有向图展开到由所述处理器访问的存储器,并基于展开到了所述存储器的所述有向图,确定成为所述至少一个资源被确定的依据的依据短语以及与所述短语相关联的所述预定的资源中的原始短语;以及
将所述至少一个资源以及表示所述依据短语以及所述原始短语的信息作为检索结果而输出,并发送给所述客户端计算机。
20.一种记录介质,其特征在于,非暂时地存储有计算机可读程序,该程序用于使计算设备实现基于包含文本的资源来生成用于检索数据库的索引的方法,所述方法包括如下步骤:
将按每个特定的概念包含相互关联的多个短语的辞典展开到由所述装置的处理器访问的存储器;
通过输入接口部接收所述资源的输入;
进行用于从所述接收的资源的文本切分出多个词语而作为标记的文本处理;
根据所述文本生成表现了所述切分出的多个标记彼此的连接关系的有向图;
基于搜索对象短语,参照所述辞典在所述有向图内进行搜索;以及
基于所述有向图内的多个标记,生成表示与所述资源的关联性的索引,
在所述有向图内进行搜索的步骤包括将所述有向图内的至少一个标记设定为所述搜索对象短语,并基于所述设定的搜索对象短语参照所述辞典,在所述辞典中发现了所述搜索对象短语的情况下,确定所述搜索对象短语在所述有向图内出现的位置,
生成所述有向图的步骤包括向所述有向图添加基于在所述辞典中发现的与所述搜索对象短语相关联的至少一个短语的新标记,由此更新所述有向图。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-039167 | 2018-03-05 | ||
JP2018039167 | 2018-03-05 | ||
JP2018-133752 | 2018-07-13 | ||
JP2018133752A JP6435467B1 (ja) | 2018-03-05 | 2018-07-13 | 検索システム及び検索システムの動作方法 |
PCT/JP2019/008254 WO2019172153A1 (ja) | 2018-03-05 | 2019-03-04 | インデックスを用いた情報検索システム及び情報検索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111699485A true CN111699485A (zh) | 2020-09-22 |
Family
ID=64655859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980012723.4A Pending CN111699485A (zh) | 2018-03-05 | 2019-03-04 | 使用索引的信息检索系统和信息检索方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US11755833B2 (zh) |
EP (1) | EP3764240B1 (zh) |
JP (2) | JP6435467B1 (zh) |
KR (1) | KR102453183B1 (zh) |
CN (1) | CN111699485A (zh) |
SG (1) | SG11202008506RA (zh) |
WO (1) | WO2019172153A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559926B (zh) * | 2020-12-22 | 2023-10-03 | 北京百度网讯科技有限公司 | 搜索展示条目的上线处理方法、装置、设备、介质及产品 |
JP2022128934A (ja) * | 2021-02-24 | 2022-09-05 | 富士通株式会社 | データ特定プログラム、装置、及び方法 |
WO2022226548A1 (en) * | 2021-04-23 | 2022-10-27 | Iqvia Inc. | Automation-enhanced translation workflow |
US11636110B1 (en) * | 2021-10-29 | 2023-04-25 | Snowflake Inc. | Metadata search via N-Gram index |
WO2024157438A1 (ja) * | 2023-01-27 | 2024-08-02 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
JP2004295301A (ja) * | 2003-03-26 | 2004-10-21 | Oki Electric Ind Co Ltd | 文書検索装置 |
US20040220905A1 (en) * | 2003-05-01 | 2004-11-04 | Microsoft Corporation | Concept network |
JP2007025788A (ja) * | 2005-07-12 | 2007-02-01 | National Institute Of Information & Communication Technology | 単語用法差異情報取得プログラム及び同装置 |
US20090319518A1 (en) * | 2007-01-10 | 2009-12-24 | Nick Koudas | Method and system for information discovery and text analysis |
WO2010106642A1 (ja) * | 2009-03-17 | 2010-09-23 | 富士通株式会社 | 検索処理方法及び装置 |
US20110314006A1 (en) * | 2008-05-01 | 2011-12-22 | Primal Fusion Inc. | Methods and apparatus for searching of content using semantic synthesis |
US20140278362A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Entity Recognition in Natural Language Processing Systems |
US20160179945A1 (en) * | 2014-12-19 | 2016-06-23 | Universidad Nacional De Educación A Distancia (Uned) | System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model |
RU2015126477A (ru) * | 2015-07-02 | 2017-01-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Расширение возможностей информационного поиска |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL107482A (en) * | 1992-11-04 | 1998-10-30 | Conquest Software Inc | A method for solving questions in natural language from databases of full texts |
JP2001290843A (ja) * | 2000-02-04 | 2001-10-19 | Fujitsu Ltd | 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体 |
US7165058B2 (en) * | 2001-12-27 | 2007-01-16 | The Boeing Company | Database analysis tool |
US20040186705A1 (en) * | 2003-03-18 | 2004-09-23 | Morgan Alexander P. | Concept word management |
US8014997B2 (en) * | 2003-09-20 | 2011-09-06 | International Business Machines Corporation | Method of search content enhancement |
US20050283473A1 (en) * | 2004-06-17 | 2005-12-22 | Armand Rousso | Apparatus, method and system of artificial intelligence for data searching applications |
US7584175B2 (en) * | 2004-07-26 | 2009-09-01 | Google Inc. | Phrase-based generation of document descriptions |
JP2008537225A (ja) * | 2005-04-11 | 2008-09-11 | テキストディガー,インコーポレイテッド | クエリについての検索システムおよび方法 |
US20070106499A1 (en) | 2005-08-09 | 2007-05-10 | Kathleen Dahlgren | Natural language search system |
US7805392B1 (en) * | 2005-11-29 | 2010-09-28 | Tilera Corporation | Pattern matching in a multiprocessor environment with finite state automaton transitions based on an order of vectors in a state transition table |
US20070162481A1 (en) * | 2006-01-10 | 2007-07-12 | Millett Ronald P | Pattern index |
JP2009223781A (ja) * | 2008-03-18 | 2009-10-01 | Nec Corp | 情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体 |
US10025855B2 (en) | 2008-07-28 | 2018-07-17 | Excalibur Ip, Llc | Federated community search |
JP2011180823A (ja) | 2010-03-01 | 2011-09-15 | National Institute Of Information & Communication Technology | 機械翻訳装置、機械翻訳方法、およびプログラム |
US9379971B2 (en) * | 2012-05-11 | 2016-06-28 | Simula Inovation AS | Method and apparatus for determining paths between source/destination pairs |
US9594872B2 (en) * | 2012-10-25 | 2017-03-14 | Intelligent Medical Objects, Inc. | Method and system for concept-based terminology management |
US20160203130A1 (en) * | 2013-08-30 | 2016-07-14 | Unsilo A/S | Method and system for identifying and evaluating semantic patterns in written language |
CN104462084B (zh) * | 2013-09-13 | 2019-08-16 | Sap欧洲公司 | 基于多个查询提供搜索细化建议 |
JP6176017B2 (ja) | 2013-09-17 | 2017-08-09 | 富士通株式会社 | 検索装置、検索方法、およびプログラム |
US9390196B2 (en) * | 2014-06-03 | 2016-07-12 | International Business Machines Corporation | Adjusting ranges of directed graph ontologies across multiple dimensions |
US9864741B2 (en) * | 2014-09-23 | 2018-01-09 | Prysm, Inc. | Automated collective term and phrase index |
US11030402B2 (en) * | 2019-05-03 | 2021-06-08 | International Business Machines Corporation | Dictionary expansion using neural language models |
-
2018
- 2018-07-13 JP JP2018133752A patent/JP6435467B1/ja active Active
- 2018-09-05 JP JP2018166457A patent/JP7240662B2/ja active Active
-
2019
- 2019-03-04 WO PCT/JP2019/008254 patent/WO2019172153A1/ja unknown
- 2019-03-04 EP EP19763530.3A patent/EP3764240B1/en active Active
- 2019-03-04 SG SG11202008506RA patent/SG11202008506RA/en unknown
- 2019-03-04 CN CN201980012723.4A patent/CN111699485A/zh active Pending
- 2019-03-04 KR KR1020207028264A patent/KR102453183B1/ko active IP Right Grant
- 2019-03-04 US US16/970,916 patent/US11755833B2/en active Active
-
2023
- 2023-07-27 US US18/360,504 patent/US20230376682A1/en active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
US6609091B1 (en) * | 1994-09-30 | 2003-08-19 | Robert L. Budzinski | Memory system for storing and retrieving experience and knowledge with natural language utilizing state representation data, word sense numbers, function codes and/or directed graphs |
US20040107088A1 (en) * | 1994-09-30 | 2004-06-03 | Budzinski Robert L. | Memory system for storing and retrieving experience and knowledge with natural language utilizing state representation data, word sense numbers, function codes, directed graphs and/or context memory |
JP2004295301A (ja) * | 2003-03-26 | 2004-10-21 | Oki Electric Ind Co Ltd | 文書検索装置 |
US20040220905A1 (en) * | 2003-05-01 | 2004-11-04 | Microsoft Corporation | Concept network |
US20090089046A1 (en) * | 2005-07-12 | 2009-04-02 | National Institute Of Information And Communications Technology | Word Use Difference Information Acquisition Program and Device |
JP2007025788A (ja) * | 2005-07-12 | 2007-02-01 | National Institute Of Information & Communication Technology | 単語用法差異情報取得プログラム及び同装置 |
US20090319518A1 (en) * | 2007-01-10 | 2009-12-24 | Nick Koudas | Method and system for information discovery and text analysis |
US20110314006A1 (en) * | 2008-05-01 | 2011-12-22 | Primal Fusion Inc. | Methods and apparatus for searching of content using semantic synthesis |
WO2010106642A1 (ja) * | 2009-03-17 | 2010-09-23 | 富士通株式会社 | 検索処理方法及び装置 |
US20140278362A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Entity Recognition in Natural Language Processing Systems |
US20160179945A1 (en) * | 2014-12-19 | 2016-06-23 | Universidad Nacional De Educación A Distancia (Uned) | System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model |
RU2015126477A (ru) * | 2015-07-02 | 2017-01-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Расширение возможностей информационного поиска |
Also Published As
Publication number | Publication date |
---|---|
SG11202008506RA (en) | 2020-10-29 |
EP3764240A4 (en) | 2021-12-08 |
US20230376682A1 (en) | 2023-11-23 |
EP3764240B1 (en) | 2022-10-19 |
JP2019153271A (ja) | 2019-09-12 |
KR102453183B1 (ko) | 2022-10-07 |
KR20200125697A (ko) | 2020-11-04 |
EP3764240A1 (en) | 2021-01-13 |
WO2019172153A1 (ja) | 2019-09-12 |
US20200394223A1 (en) | 2020-12-17 |
US11755833B2 (en) | 2023-09-12 |
JP7240662B2 (ja) | 2023-03-16 |
JP2019153267A (ja) | 2019-09-12 |
JP6435467B1 (ja) | 2018-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102453183B1 (ko) | 인덱스를 이용한 정보 검색 시스템 및 정보 검색 방법 | |
KR101683324B1 (ko) | 구조화되지 않은 자원으로부터의 문구 쌍의 마이닝 | |
KR102408082B1 (ko) | 질문문 생성 장치 및 컴퓨터 프로그램 | |
US6381593B1 (en) | Document information management system | |
CN100511215C (zh) | 多语种翻译存储器和翻译方法 | |
US7937395B2 (en) | Systems and methods of displaying and re-using document chunks in a document development application | |
CN107870915B (zh) | 对搜索结果的指示 | |
Tang et al. | Overview of the NTCIR-9 Crosslink Task: Cross-lingual Link Discovery. | |
Steinberger et al. | Cross-lingual named entity recognition | |
CN111460095A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
Yates et al. | Extracting adverse drug reactions from forum posts and linking them to drugs | |
KR20230051364A (ko) | 인덱스를 이용한 정보 검색 시스템 및 정보 검색 방법 | |
JP6098725B2 (ja) | 情報検索処理プログラム、装置、および方法 | |
Paul et al. | An affix removal stemmer for natural language text in nepali | |
JP2006155556A (ja) | テキストマイニング方法及びテキストマイニングサーバ | |
JP2017220179A (ja) | コンテンツ処理装置、コンテンツ処理方法及びプログラム | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
KR101037091B1 (ko) | 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법 | |
US8001162B2 (en) | Systems and methods of pipelining multiple document node streams through a query processor | |
Paramita et al. | Collecting comparable corpora | |
JP4034503B2 (ja) | 文書検索システムおよび文書検索方法 | |
JPH0793345A (ja) | 文書検索装置 | |
dos Santos | HealthSuggestions: moving beyond the beta version | |
JP2006172029A (ja) | 検索結果提示方法 | |
JP2000011003A (ja) | 公開文書要約装置およびそのためのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |