CN103257995A - 文本检索装置以及文本检索方法 - Google Patents
文本检索装置以及文本检索方法 Download PDFInfo
- Publication number
- CN103257995A CN103257995A CN2013100490222A CN201310049022A CN103257995A CN 103257995 A CN103257995 A CN 103257995A CN 2013100490222 A CN2013100490222 A CN 2013100490222A CN 201310049022 A CN201310049022 A CN 201310049022A CN 103257995 A CN103257995 A CN 103257995A
- Authority
- CN
- China
- Prior art keywords
- text
- character string
- search key
- consistent
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Automation & Control Theory (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本检索装置以及文本检索方法。文本检索装置(100)具备存储多个转置索引的信息存储部(110),转置索引使成为检索对象的文档中记载的字符等和该字符等的出现位置相应。转置索引是针对在文档中的成为前方一致检索对象的文本的开头插入了开头标记的文档而生成的。文本检索装置(100)的增加检索部(1410)在检索关键字的开头插入开头标记,使用转置索引执行前方一致检索。此外,主检索部(1420)使用相同的转置索引,执行部分一致检索。
Description
技术领域
本发明涉及文本检索装置以及文本检索方法。
背景技术
已知检索包含多个项目(字段)的文档(字典等)的装置。在检索装置中,为了提高用户的便利性,不仅确定在检索对象文档中是否存在字符串,还着眼于其出现的频度对检索结果的文档进行排序(例如特开平10-049549号公报(文献1))。在该文献1中记载的现有技术中,使用索引进行检索。
在电子字典中,具有在每次将检索关键字进行一个字符输入时,显示词条一览的增加检索功能、在输入完检索关键字后检索全文的全文检索功能(主检索)这两个检索功能,由此能够提高用户的便利性。在这样的电子字典中,一般通过前方一致检索进行增加检索,通过部分一致检索进行全文检索。
但是,为了使用文献1的技术,使一个装置具有使用前方一致检索的功能和使用部分一致检索的功能,需要分别存储与各个功能对应的索引信息。因此,有需要的存储容量增大的问题。
发明内容
本发明是鉴于这样的问题而提出的,其目的在于提供一种对于用户来说能够实现便利性高的检索,并且需要的存储容量小的文本检索装置以及文本检索方法。
为了达成上述目的,本发明的文本检索装置具有:
存储部,其存储索引信息,该索引信息使包含多个类别的成为检索对象的文档中包含的字符或字符串与该字符或字符串在所述文档中的出现位置相对应;
取得部,其取得检索关键字;
前方一致检索部,其从所述文档中的属于成为前方一致检索的对象的类别的字符或字符串中,使用所述索引信息检索从所述检索关键字开始的字符或字符串;
部分一致检索部,其使用所述索引信息,从所述文档中检索包含所述检索关键字的字符或字符串;以及
输出部,其输出所述前方一致检索部检索的结果和所述部分一致检索部检索的结果。
根据本发明,可以提供一种对于用户来说能够实现高便利性的检索功能,并且需要的存储容量小的文本检索装置以及文本检索方法。
附图说明
图1表示本发明实施方式1的文本检索装置的一例的立体图。
图2是表示实施方式1的文本检索装置的一结构例的硬件结构图。
图3是表示实施方式1的文本检索装置执行的数据等生成处理的一例的流程图。
图4是表示实施方式1的文本检索装置具有的功能的一例的功能框图。
图5A表示文本检索装置存储的字典数据的一例。
图5B表示文本检索装置存储的再配置内容文本数据的一例。
图6表示实施方式1的文本检索装置显示的增增加检索的结果显示画面的一例。
图7表示实施方式1的文本检索装置显示的主检索的结果显示画面的一例。
图8表示实施方式1的文本检索装置存储的字典表的一例。
图9表示实施方式1的文本检索装置存储的包含转置索引的电子文件的一例。
图10表示实施方式1的文本检索装置执行的文本检索处理的一例。
图11是表示实施方式1的文本检索装置执行的前方一致检索处理的一例的流程图。
图12是表示实施方式1的文本检索装置执行的主检索处理的一例的流程图。
图13表示实施方式1的文本检索装置存储的决定方法表的一例。
图14是表示实施方式1的文本检索装置执行的单一字符串检索处理的一例的流程图。
图15是表示实施方式1的文本检索装置执行的出现位置取得处理的一例的流程图。
图16是表示实施方式1的文本检索装置执行的多个字符串检索处理的一例的流程图。
图17A表示验证字符串的特定出现位置在基准字符串的特定出现位置以后的情况下的验证字符串与基准字符串的距离的一例。
图17B表示验证字符串的特定出现位置在基准字符串的特定出现位置前的情况下的验证字符串与基准字符串的距离的一例。
图18表示检索关键字的最小包含范围的上限值和下限值的一例。
具体实施方式
以下参照附图对本发明的实施方式的文本检索装置100进行说明。
本发明实施方式的文本检索装置100由图1所示的电子字典构成,具备根据用户的操作输入检索关键字的键盘100i和显示根据检索关键字检索字典得到的检索结果的LCD(Liquid Crystal Display)100h。
在文本检索装置100内部内置有图2所示的CPU(Central Processing Unit)100a、ROM(Read Only Memory)100b、RAM(Random Access Memory)100c、硬盘100d、介质控制器100e、显示卡100g以及扬声器100j,经由总线与图1所示的LCD100h以及键盘100j连接。
为了以下所述的检索处理,CPU100a通过在ROM100b或硬盘100d中保存的程序,控制文本检索装置100的各部,或者执行内部处理。RAM100c在CPU100a执行程序时,用作临时存储成为处理对象的数据等的作业区域。
硬盘100d存储保存有各种数据的表和英日字典等字典数据。此外,文本检索装置100还可以具备闪速存储器来取代硬盘100d。
介质控制器100e从包含闪速存储器、CD(Compact Disc)、DVD(DigitalVersatile Disc)以及蓝光光盘(Blu-ray Disc)(注册商标)的记录介质中读出各种数据以及程序。
显示卡100g根据从CPU100a输出的数字信号描绘图像(即、呈现(rendering)),并且输出表示描绘出的图像的图像信号。LCD100h按照从显示卡100g输出的图像信号,显示图像。此外,文本检索装置100还可以代替LCD100h而具备PDP(Plasma Display Panel)或EL(Electroluminescecne)显示器。扬声器100j根据从CPU100a输出的信号输出声音。
当用户将记录有字典数据的记录介质插入图2所示的介质控制器100e时,CPU100a从介质控制器100e接收字典数据的信号。CPU100a当从介质控制器100e取得字典数据时,将字典数据保存在硬盘100d中。然后,CPU100a执行图3所示的数据等生成出来,即生成用于根据检索关键字检索由字典数据表示的字典的数据以及电子文件。由此,CPU100a与文本检索装置100的其他的构成要素进行协作,而发挥图4所示的生成部120的功能。图4是表示CPU100a执行的功能的功能框图。然后,CPU100a通过与文本检索装置100的其他的构成要素特别是硬盘100d进行协作,而具有信息存储部110的功能。
信息存储部110存储在本实施方式中成为检索对象的字典数据。该字典数据如图5A所示,由表示词条的文本(以下称为词条文本)、表示词条的解说的文本(以下称为解说文本)、例如表示成语或复合词(以下称为惯用语)这样的词条的用例的文本(以下称为用例文本)构成。换句话说,在字典数据中包含的文本可以分类为表示词条的文本(词条文本)和用于说明词条的文本(正文文本)这两个种类(词条种类、正文种类)。属于正文种类的文本还可以进一步分为词条的解说及其用例这两个(解说种类、用例种类)。
此外,把字典数据中的词条文本所占的部分称为词条部CE,将正文文本所占的部分称为正文部CB。
解说文本被用于表示该文本所表示的内容为解说的解说标签所包围,用例文本被用于表示该文本所表示的内容为用例的用例标签所包围。
字典数据将词条部CE和正文部CB的组合作为一个构成单位,连读地构成该构成单位。各构成单位按照在词条部CE中配置的词条文本的字母顺序进行排列。在各构成单位中,紧接着包含词条文本的词条部CE之后配置包含用于说明该词条的正文文本的正文部CB。
此外,对各词条部CE预先分配了识别词条部CE的词条编号。在字典数据中,包含词条数量的信息,该信息使表示该词条编号的信息、表示存储有通过该词条编号识别的词条部CE的信息存储部110中的存储区域的开头地址的信息、表示在紧靠该词条部CE之后存储的正文部CB的开头地址的信息相对应。
正文部CB中,按照电子字典的编辑者规定的排列顺序,配置多个解说文本。作为具体的例子,在通过词条解说特殊意义内容的解说文本之前的位置存储通过词条解说一般意义内容的解说文本。或者,还可以在解说使用频度较低的意义内容的解说文本之前的位置存储解说使用频度较高的意义内容的解说文本。
本实施方式的文本检索装置100使用以下两种方法从信息存储部110中存储的字典数据中检索检索关键字,并向用户提示检索结果。
第一、文本检索装置100在每次用户使用键盘100i将检索关键字进行一个字符输入时,对该时刻的关键字进行前方一致检索,显示开头包含关键字的词条。将该检索称为增加检索。此外,将文本检索装置100正在执行增加检索的状态称为增加检索模式。在图6中表示增加检索的执行例。
当用户输入了检索关键字的开头的一个字符(在图6中为w)时,文本检索装置100在成为检索对象的多个字典数据(在此、英英字典、英日字典、百科事典)中,检索开头从w开始的词条。然后,如图6的左侧所示,在用户能够选择的方式下提示词条一览。
当输入下一个字符(在此为h)时,同样检索在开头具有wh的词条,然后进行显示(图6的中央)。以下,关于输入了三个字符以上的情况,同样地进行检索并显示(例如图6的右方)。当作为候补显示了希望的词条(在此为while)时,用户可以随时选择希望的词条,并显示其正文文件。
在图6中介绍了分为各字典数据(英英字典、英日字典、百科事典)中的每个字典数据显示增加检索的结果的例子。但是,本发明不限于该例子,可以采用按照字符顺序对全部的检索结果进行分类汇总并进行显示的结构。此时,关于重复的单词,可以仅显示一个。
第二、本实施方式的文本检索装置100当用户使用键盘100i输入了检索关键字并执行了确定操作时,对包含检索关键字的词条文本、解说文本、用例文本进行部分一致检索并进行显示(图7)。将该检索称为主检索。此外,将文本检索装置100执行主检索的状态称为主检索模式。
在本实施方式中,使用一个索引信息(转置索引)执行增加检索和主检索。
在此,参照图3说明关于增加检索和主检索使用一个索引(转置索引)进行检索的准备处理即数据等生成处理。生成部120当取得字典数据时开始图3所示的数据等生成处理。
在数据等生成处理中,首先生成部120读出在信息存储部110中存储的表示字典内容的字典数据(步骤S101)。
然后,从读出的字典数据中提取词条文本和正文文本(解说文本和用例文本)(步骤S102)。具体地说明。在正文部CB中解说文本和用例文本共存,所以首先生成部120根据内容对这些文本进行分类。因此,生成部120使用在字典数据中包含的表示词条编号的信息、表示词条部CE的开头地址的信息、表示正文部CB的开头地址的信息,从字典数据中提取多个词条文本和正文文本。
并且,生成部120在步骤S102中,针对每个提取出的词条文本,根据解说标签从正文文本中提取多个对词条文本表示的词条进行解说的解说文本,并且根据用例标签从正文文本中提取多个表示词条的用例的用例文本。
然后,在成为增加检索的对象的分类的文本(在此为词条文本)的开头插入表示为开头的标记(开头标记、在此为空白)(步骤S103)。
然后,生成部120生成并存储图5B所示的再配置内容文本数据(CTD)(步骤S104)。具体地说,在词条文本中插入开头标记后(在此用“·”代替表示),对于针对每个构成单位提取出的解说文本的排列顺序不进行变更地汇总配置,由此生成配置提取出的多个解说文本的部位(以下称为解说部CC)。
同样地,生成部120针对每个构成单位,对于提取出的多个用例文本的排列顺序不进行变更地汇总配置,由此生成配置提取出的多个用例文本的部位(以下称为用例部CX)。
生成部120如此生成使词条部CE、解说部CC、用例部CX相对应的多个数据(再配置内容文本数据或再配置CTD)。然后,生成部120向信息存储部110保存生成的再配置内容文本数据(步骤S104)。
然后,生成部120生成用于识别通过再配置内容文本数据表示的字典的字典编号。然后,生成部120向图8所示的字典表存储将所生成的表示字典编号的信息、表示字典的名称的信息、表示存储有再配置内容文本数据的信息存储部110的存储区域的开头地址的信息相互对应的多个信息,并且保存在信息存储部110中(步骤S105)。
然后,生成部120对于通过再配置内容文本数据表示的各个文本(即、在词条部CE、解说部CC以及用例部CX中配置的文本),从开头开始每次挪动一个字符来裁剪一个字符,由此提取一元字符串图形。此外,同样,生成部120从通过再配置内容文本数据表示的文本的开头开始每次挪动一个字符来裁剪两个字符,由此提取二元字符串图形。以下,将一元字符串图形、二元字符串图形等通过从由再配置内容文本数据表示的文本的开头开始每次挪动一个字符,同时裁剪预定字符数(以下称为N)而提取出的字符串图形总称为N元字符串图形。此外。在本实施方式中,设字符包含在字符串中,除了特别需要进行区别的情况,不区别字符和字符串。
然后,生成部120关于各个N元字符串图形,确定1个或多个N元字符串图形在通过再配置内容文本数据表示的文本(以下称为再配置文本)中出现的位置(以下称为出现位置)。然后,生成部120针对每个N元字符串图形,计算N元字符串图形在再配置文本中的出现频度。在此,例如将出现频度说明为N元字符串图形在再配置文本中出现的总次数,当然并不限于此。
然后,生成部120针对每个N元字符串图形,生成出现位置信息,该出现位置信息将表示N元字符串图形出现的出现位置的地址(以下称为出现位置地址)的一个或多个信息以及表示该N元字符串图形的出现频度的信息对应起来。
然后,生成部120生成包含一个或多个出现位置信息的电子文件(以下称为出现位置信息文件或AP文件),保存到信息存储部110(图3的步骤S106)。
在图9中,出现位置信息文件(AP文件)由“position.idx”这样的名称(文件名)来表示。此外,在出现位置信息文件中保存的出现位置信息在从开头地址到出现频度用预定字节数的区域中存储表示出现频度的信息,并且从该区域之后开始按照每个出现位置用预定字节数存储表示出现位置地址的信息。
然后,生成部120生成电子文件(以下称为N元字符串图形文件或S文件),该电子文件包含多个将表示N元字符串图形的信息(以下称为N元字符串图形信息)和表示存储该N元字符串图形的出现位置信息的信息存储部110的存储区域的开头地址(以下称为出现位置信息存储地址)的信息相对应的信息。然后,生成部120向信息存储部110保存S文件(步骤S107)。
在图9中,S文件由“pattern.idx”这样的名称(文件名)来表示。
然后,生成部120针对每个词条,按照被分类为用例部CX的用例文本的个数(以下称为用例个数),计算将表示词条的用例的用例文本进行了分类后的用例部CX的开头地址与该用例文本的开头地址的差分(以下称为从用例部开始位置的差分)。然后,生成部120针对每个词条,生成表示一个或多个从用例部开始位置的差分的信息所构成的用例开始位置信息,生成包含多个所生成的用例开始位置信息的电子文件(以下称为用例开始位置信息文件或EP文件)。
在图9中,EP文件由称为“example.idx”的名称(文件名)来表示。
然后,生成部120向信息存储部110保存用例开始位置信息文件(图3所示的步骤S108)。此外,在EP文件中保存的用例开始位置信息把表示从用例部开始位置的差分的信息存储在从开头地址开始到该差分用预定字节数的区域中,并从该区域之后开始按照每个预定字节数存储表示其他差分的信息。
然后,生成部120生成电子文件(以下称为词条等文件或T文件),该电子文件包含多个使以下信息相对应的信息:用于识别包含词条文本的词条部CE的词条编号、表示存储该词条部CE的信息存储部110的存储区域的开头地址(以下称为表示词条部CE的开始位置的地址)的信息、表示配置了对该词条文本表示的词条进行解说的解说文本的解说部CC的开头地址(以下称为表示解说部CC的开始位置的地址)的信息、表示配置了用于表示该词条的用例的用例文本的用例部CX的开头地址(以下称为表示用例部CX的开始位置的信息)的信息、表示该用例部CX的用例个数的信息、表示用于表示在信息存储部110中存储有该用例部CX的用例开始位置信息(EP文件、图9的example.idx)的区域的开头地址的地址(以下称为用例开始位置信息存储地址)的信息、以及表示记载了该词条的字典的字典编号的信息。
在图9中,T文件由“number.idx”这样的名称(文件名)来表示。
生成部120在向信息存储部110保存T文件后(图3所示的步骤S109),结束数据等生成处理的执行。
把图9(特别是“pattern.idx”和“position.idx”)所示的、将字符串(在此为N元字符串图形)和成为字符串的检索对象在文档中的出现位置相对应地进行记录的索引结构称为转置索引。在本实施方式中,通过数据等生成处理,关于成为增加检索的对象的类别的文本,生成在开头附加了开头标记的再配置CTD的转置索引。
当把转置索引存储在信息存储部110中时,文本检索装置100做好使用该转置索引执行检索处理的准备。在该状态下,当用户使用键盘100i执行输入在字典的检索中使用的检索关键字的操作时,CPU100a取得该信息,执行图10所示的文本检索处理。
通过执行该文本检索处理,CPU100a具有图4所示的取得部130、包含增加检索部1410和主检索部1420的检索部140、计算部150、决定部160以及输出部170的功能。此外,CPU100a与图2所示的显示卡100g以及LCD100h进行协作具有显示部180的功能。
当用户使用键盘100i开始输入检索关键字时,文本检索装置100从待机模式转移到增加检索模式,CPU100a开始进行图10所示的文本检索处理。在文本检索处理中,首先取得部130取得直到目前为止输入的关键字(输入关键字)(步骤S201)。
然后,增加检索部1410使用上述多个转置索引,对包含输入关键字的词条进行通过前方一致检索提取的前方一致检索处理(步骤S202)。
参照图11说明在步骤S202中执行的前方一致检索处理。在前方一致检索处理中,首先在取得的输入关键字的开头插入开头标记(在此为半角空白)(S步骤S301)。例如,当在步骤S201中取得的输入关键字是“whi”时,把在开头插入了半角空白(由记号·表示)后的“·whi”作为在以下的处理中使用的输入关键字。以下,按照该例子进行说明。
然后,检索部140(增加检索部1410)根据取得的检索关键字生成N元字符串图形,将生成的N元字符串图形作为检索图形(步骤S302)。
N的值通过设定值(与转置索引对应的N的值)以及输入关键字的字符数进行变化。例如,在输入关键字为“·whi”,设定值N=2时,增加检索部1410生成二元字符串图形“·w”、“wh”,“hi”来作为检索图形。在N=3时,增加检索部1410生成“·wh”、“whi”。在(插入开头标记后的)输入关键字的字符数为设定值以下时(例如设定值N=3,输入关键字为“·w”时),将输入关键字的字符数(在此为2)设为N的值。然后,生成仅由一个N元(二元“·w”)构成的N元字符串图形。在此,设N=2。生成“·w”、“wh”、“hi”。
然后,判别在步骤S302中生成的检索图形是一个还是多个(步骤S303)。
在生成了多个检索图形时(步骤S303为否),增加检索部1410确定检索图形的各出现位置,其中确定注目出现位置(步骤S304)。
在此,将生成的多个检索图形中的出现频度最少的检索图形的出现位置设为注目出现位置。具体地说,首先,增加检索部1410从AP文件(即,出现位置信息文件)以及S文件(即,N元字符串图形文件)取得检索图形的出现频度。即,增加检索部1410从N元字符串图形文件(图9的“pattern.idx”)中检索与表示生成的检索图形的信息对应的表示出现位置信息存储地址的信息。然后,增加检索部1410将从出现位置信息文件(图9的“position.idx”)中检索到的信息所表示的出现位置信息存储地址所指示的位置作为开始位置,取得在信息存储部110中存储的出现位置信息。然后,增加检索部1410提取从所取得的出现位置信息的开头地址到上述出现频度用的预定字节数的区域中存储的表示出现频度的信息。
然后,增加检索部1410在生成的多个检索图形内,将与最小的出现频度对应的检索图形确定为注目检索图形。在此,将“wh”作为注目检索图形。根据出现频度最小的检索图形从字典中检索检索关键字,由此以下述的循环(从图11的步骤S304到步骤S316的循环)少的次数结束,因此能够高速地执行增加检索处理。
在S304中增加检索部1410还从存储了注目检索图形的出现位置信息中的表示出现频度的信息的区域紧后面读入上述出现位置用的预定字节数,选择注目检索图形的最初的出现位置来作为注目出现位置(步骤S304)。
然后,增加检索部1410确定注目检索图形以外的检索图形(其他的检索图形)的出现位置(特定出现位置)(步骤S305)。
具体地说,首先,信息存储部110取得预先存储的表示预定范围的信息。并且,增加检索部1410在注目检索图形“wh”以外的检索图形“·w”、“hi”的出现位置内,把从注目出现位置到预定范围的出现位置分别作为特定出现位置(步骤S305)。
然后,增加检索部1410评价注目出现位置和其他的检索图形的特定出现位置的连续性(步骤S306),判别有无连续性(步骤S307),判别在包含注目出现位置的位置是否存在输入关键字。
具体地说,增加检索部1410在步骤S306对于注目检索图形和其他的检索图形,取得输入关键字中的相对位置(距离以及前后关系)。例如,注目检索图形“wh”在输入关键字(插入标记后)“·whi”中,处于其他的检索图形“·w”的一字符之后,处于“hi”的一字符之前。相对位置是这样的“位于n字符后(前)”的位置信息。
同样地,在步骤S304中比较参照S文件和AP文件取得的注目出现位置和特定出现位置,取得再配置内容文本数据上的注目检索图形和其他的检索图形的相对位置。然后,在全部其他的检索图形与注目检索图形的相对位置在输入关键字和再配置内容文本数据中一致时,评价为具有连续性。另一方面,在任何一个其他的检索图形与注目检索图形的相对位置在输入关键字和再配置内容文本数据中不同时,评价为无连续性。如此,评价注目出现位置中的连续性(步骤S306)。
增加检索部1410判别在步骤S306中是否评价为具有连续性(步骤S307)。在判定为没有连续性时(步骤S307为否),关于该注目出现位置不设为检索命中部位,并结束处理。然后,判别对于注目检索图形的全部出现位置是否执行了上述处理(步骤S308)。
当判别为对于注目检索图形的全部出现位置上述处理未完成时(步骤S308为否),返回步骤S304,选择下一个出现位置重复上述的处理。
另一方面,当判别为对于全部出现位置上述处理已完成时(步骤S308为是),跳到步骤S318。
另一方面,当在步骤S307中评价为具有连续性时(步骤S307为是),关于当前的注目出现位置,确定在步骤S302中生成的全部检索图形中的位于开头的检索图形(在本例子中为“·w”)的特定出现位置为输出关键字(在本例中为“·whi”)在再配置文本中的出现位置(检索命中部位)(步骤S309)。
另一方面,当在步骤S303中判别为检索图形为一个时(步骤S303为是),将该一个检索图形作为注目检索图形与步骤S304一样求出出现位置,选择求出的出现位置中的未处理的出现位置来作为注目出现位置(步骤S310)。然后,确定注目出现位置来作为输入关键字在再配置文本中的出现位置(步骤S311)。
当在步骤S309或步骤S311中确定了输入关键字的出现位置时,增加检索部1410参照T文件(图9的“number.idx”)以及用例开始位置信息文件(EP文件,图9的“example.idx”),确定在哪个构成单位的哪个部位(词条部CE、解说部CC以及用例部CX中的某一个)中包含出现位置(步骤S312)。
具体地说,增加检索部1410确定从表示针对输入关键字(在本例中为“·whi”)确定的出现位置的地址以前的地址所指示的位置开始的词条部CE,即指示开始位置的地址最大的词条部CE。将该确定的词条部CE称为特定词条部。即,所谓特定词条部是出现位置所属的构成单位的词条部CE。
然后,增加检索部1410参照T文件(词条等文件,图9的“number.idx”),取得如下内容:表示用于指示特定词条部的开始位置的地址的信息;表示用于指示解说部(以下称为与该特定词条部对应的解说部)CC的开始位置的地址的信息,所述解说部CC对用于解说被分类为该特定词条部的词条文本所表示的词条进行解说的解说文本进行了分类;表示用于指示与该特定词条部对应的用例部CX的开始位置的地址的信息;表示与该特定词条部对应的用例开始位置信息存储地址的信息;表示用于识别记载了该词条的字典的字典编号的信息;以及表示用于识别该特定词条部的词条编号的信息。根据这些信息,生成表示特定出现部的识别符(词条编号)和能够确定各部位的位置的信息。把包含特定词条部的构成单位称为特定构成单位。此外,可以根据各部位的位置决定针对输入关键字所确定的出现位置位于特定构成单元的哪个部位。将该部位设为特定部位。
在步骤S312中,在特定部位还为词条部CE时,计算部150使用下式(1)计算出现位置的评价值(Estidxid,cgy)。
Estidxid,cgy=Estidxid,0=Posstdstr,0-PosStidxid,headline,hdlib···(1)
其中,idxid是得到的词条编号,cgy是特定部位的识别符。在cgy中,对于词条部CE分配了0,对于解说部CC分配了1,对于用例部CX分配了2。在此,在特定部位是词条部CE以外时不计算评价值,所以cgy只取0。Posstdstr,0,表示输入关键字的确定的出现位置,PosStidxid、headline、hdlid表示词条编号idxid的词条部CE的开始位置。即,评价值(Estidxid,cgy)是表示确定的出现位置从词条的开头离开几个字符的值。评价值(Estidxid,cgy)具有当在词条中包含开头标记(半角空格)时不成为0的情况。
然后,判别决定部160判别所确定的出现位置是否在词条部CE的开头(步骤S313)。即,在特定部位是词条部CE,并且评价值为0时(步骤S313为是),因为所确定的出现位置是词条部CE的开头,所以将该词条部CE看做前方一致检索的命中部位。因此决定部160把该词条部CE反应在检索结果中(S314)。另一方面,在特定部位不是词条部CE,或者评价值不是0时(步骤S313否),从检索结果中除去特定的出现位置(步骤S315),不成为以下处理的对象。
然后,增加检索部1410对于在步骤S304中求出的注目检索图形的全部出现位置,判别是否作为注目出现位置执行了上述处理(步骤S316)。在留有未处理的出现位置时(步骤S316:否),针对下一出现位置重复处理。此时,首先在步骤S303中判别检索图形是否为一个(步骤S317)。在为多个时(步骤S317为否),返回步骤S304。另一方面,在为一个时(步骤S317为是),返回步骤S310。
另一方面,在关于全部的出现位置上述处理已完成时(步骤S316为是),按照词条编号顺序对在步骤S314中反映在检索结果中的词条部CE进行排序(步骤S318)。针对图8所示的字典表中登录的各字典数据,执行该处理。
返回图10,当在步骤S202中进行前方一致检索提取词条时,输出部170向显示部180输出表示该结果的信息,显示部180如图6所示那样显示检索结果(步骤S203)。
然后,文本检索装置100判别检索关键字是否已确定(步骤S204)。具体地说,在检测到将当前的输入关键字确定为检索关键字的操作(例如按下执行键)时,将当前的输入关键字作为检索关键字。在不进行该操作时(步骤S204为否),等待新追加一个字符的操作。然后,在通过接受新的操作,得到了新的输入关键字时,对于该输入关键字从步骤S201开始重复处理。
另一方面,当检测上述的确定操作确定了检索关键字时(步骤S204为是),文本检索装置100转移到主检索模式,执行使用检索关键字的主检索处理(步骤S205)。
在主检索处理中,关于在再配置内容文本数据中包含的全部文本,执行部分一致检索(全文检索),按照优先顺序显示命中的部位(图7)。在图7的例子中,针对每个类别附加优先度来显示检索结果。该处理可以使用对成为检索对象的文档进行全文检索,对于部分一致的结果附加优先度来显示的已知的任意的方法来执行。在此,通过以下的处理来执行主检索。不一定需要对全文进行检索,例如可以由用户选择成为检索对象的文档的范围(字典的种类、类别、部位等)。
参照图12说明在步骤S205中执行的主检索处理。
在图12所示的文本检索处理中,首先取得部130取得已确定的检索关键字(1个或多个检索关键字)(步骤S11)。在此,在确定的检索关键字包含划分字符(空白等)时,通过该划分字符对输入的关键字进行划分,取得多个检索关键字。以后,以取得一个检索关键字“while”的情况为例来进行说明。
在步骤S11后,主检索部1420与图11的步骤S302一样,根据取得的检索关键字(在本例中为“while”)生成N元字符串图形(“wh”、“hi”、“il”、“le”),将所生成的N元字符串图形作为检索图形(步骤S12)。在取得的检索关键字为多个时,针对各关键字生成N元字符串图形。
然后,主检索部1420针对每个检索图形,通过在图11的步骤S304中说明的方法取得出现频度(步骤S13)。然后,确定出现频度最少的检索图形(S14)。如果根据这样的检索图形从字典中检索字典关键字,则与根据出现频度较多的检索图形检索字典相比,文本检索处理在短时间内结束。在此,设“il”的出现频度最少来进行说明。
然后,主检索部1420判别在步骤S11中取得的检索关键字是一个还是多个(步骤S15)。在检索关键字是一个时(步骤S15,是),将该检索关键字作为基准字符串(在确定优先度时成为基准的检索关键字)(步骤S16)。然后,执行单一字符串检索处理(步骤S17)。
另一方面,在检索关键字是多个时(步骤S15为否),把包含步骤S12中生成的检索图形中的最少出现频度的检索图形的检索关键字作为基准字符串,将基准字符串以外的关键字作为验证字符串(步骤S18)。这是为了削减检索需要的计算量。然后,执行检索多个检索关键字的处理(多个字符串检索处理)(步骤S19)。当步骤S17到步骤S19的检索处理结束时,图12的主检索处理结束。
参照图14说明在步骤S17中执行的单一字符串检索处理。在单一字符串检索处理中,首先,主检索部1420取得在图12的步骤S12中生成的基准字符串的N元字符串图形来作为检索图形(步骤S21)。
然后,执行取得基准字符串的再配置CTD中的全部出现位置的处理(出现位置取得处理)(步骤S22)。
关于出现位置取得处理,参照图15进行说明。首先,判别关于成为应该取得出现位置的对象的字符串(对象字符串、在此为基准字符串)所生成的检索图形是否为一个(步骤S31)。在生成了多个检索图形时(步骤S31为否),主检索部1420与图11的步骤S304至步骤S307同样地执行步骤S32至步骤S35。即,求出注目检索图形的出现位置来选择注目出现位置(步骤S32),求出其他的检索图形的出现位置(特定出现位置)(步骤S33),对其连续性进行评价(步骤S34),判定是否连续(步骤S35)。
然后,当在步骤S35中判别在注目出现位置与特定出现位置之间没有连续性时(步骤S35为否),处理转移到步骤S36,判别在全部的出现位置处理是否已完成(步骤S36)。然后,如果有未处理的出现位置(步骤S36为否),关于下一出现位置从步骤S32重复处理。此外,如果关于全部的出现位置处理已结束(步骤S36为是),结束出现位置取得处理。
另一方面,当判别为具有连续性时(步骤S35为是),与图11的S309相同,将对象字符串的全部检索图形中的位于开头的检索图形的特点出现位置确定为对象字符串在再配置文本中的出现位置(步骤S37)。
另一方面,当在步骤S31中判别为检索图形为一个时(步骤S31为是),将该一个检索图形作为注目检索图形与步骤S32同样地求出出现位置,选择注目出现位置(步骤S38)。然后,将注目出现位置确定为输入关键字在再配置文本中的出现位置(步骤S39)。
然后,主检索部1420判别是否将注目检索图形的全部出现位置作为注目出现位置执行了上述处理(步骤S40)。在留有未处理的出现位置时(步骤S40为否),关于下一出现位置重复处理。此时,首先判别在步骤S31中检索图形是否为一个(步骤S41)。在检索图形为一个时(步骤S1为是),返回步骤S38。另一方面,在检索图形为多个时(步骤S41为否),返回步骤S32。
另一方面,在针对全部的出现位置上述处理已完成时(步骤S40为是),因为确定了对象字符串的全部的出现位置,所以出现位置取得处理结束。
返回图14,当在步骤S22中取得全部的基准字符串在再配置CTD中的出现位置时,接着主检索部1420确定各出现位置包含在哪个构成单位的哪个部位(词条部CE、解说部CC以及用例部CX中的某一个)(步骤S23)。具体的确定方法与图11的步骤S312相同。
在步骤S23中,计算部150还参照图13所示的决定方法表,取得针对当前的检索条件、各出现位置的评价值的决定方法(序位决定方法)。
例如,关于检索关键字为“单一”(即一个),词条部CE是特定部位的情况,取得使用数学式(2)计算评价值的信息。此时,把该词条部CE中包含的文本称为特定文本。
并且,计算部150当取得计算评价值的方法的信息时,通过该信息表示的方法计算各出现位置的评价值(步骤S23)。该评价值的值越小,输出优先度越高。
在本实施方式中,检索关键字为一个,特定部位是词条部CE时的评价值(Estidxid,0)使用以下的式(2)进行计算。
NumStrindex是特定部位(词条部)的字符串的长度,NumStrstdstr是基准字符串的长度。
通过式(2)计算的评价值是在基准字符串与特定部位(词条部)的字符串(即,词条文本)完全一致时成为最小的值,在特定词条部的词条文本中包含越多的基准字符串“while”以外的字符越成为大的值。这是因为通常,用户很多时候希望显示与作为检索关键字的基准字符串完全一致的词条文本。此外,因为通常用户很多时候希望显示与包含较多的检索关键字以外的字符的词条文本相比包含较少的检索关键字以外的字符的词条文本。
此外,检索关键字为一个,特定部位为解说部CC时的评价值(Estidxid,1)使用以下式(3)来计算。
Estidxid,1=Posstdstr-PosStidxid,comentary···(3)
PosStidxid,comentary是与特定词条部对应的解说部CC的开始位置。通过式(3)计算的评价值是基准字符串的特定出现位置越接近解说部CC的开始位置越小的值。例如,在把分别包含基准字符串的多个解说文本分类为相同的解说部CC时,越是在解说部CC中在前面的位置存储的解说文本的评价值,越成为小的值。被分类为再配置内容文本数据的解说部CC的解说文本,例如越是用于解说词条的一般的意义内容或词条的使用频度高的意义内容的解说文本,越是存储在前面的位置中,这是因为通常用户很多时候希望显示进行一般的解说或使用频度高的文本。即,是因为考虑了越是在解说部中在前面的位置存储的解说文本,越是用户希望的文本的可能性高。此时,将该解说部CC中的、包含有包含了特定部位的解说文本的特定部位的预定的字符数的字符串称为特定文本。
此外,在检索关键字为一个,特定部位为用例部CX时的输出优先级(Estidxid,2)使用以下的式(4)继续计算。
Estidxid,2=Posstdstr-PosStidxid,example,expid…(4)
PosStidxid,example,expid是与特定词条部idxid对应的用例部CX中的包含基准字符串的用例文本(设为用例编号expid)的开始位置。
检索部140通过以下的过程取得PosStidxid,example,expid。
首先,根据在步骤S23中取得的用例开始位置信息存储地址,从图9所示的字符名为“example.idx”的EP文件(即,用例开始位置信息文件),参照用例开始位置信息来求出。并且,求出在用例开始位置信息中包含的表示与用例部开始位置的差分的信息内,计算出的用例部CX的开始位置与成为处理对象的特定出现位置的差分以下,并且最大的差分。
然后,检索部140根据上述差分用预定字节数来确定表示检索到的差分的信息在用例开始位置信息中为第几信息,并将确定的编号作为用例编号。
然后,对于与特定词条部对应的用例部CX的开始位置相加求出的差分,由此计算所确定的用例编号的用例文本的开始位置(PosStidxid,example,expid)。
通过式(4)计算的评价值是基准字符串的特定出现位置越接近用例文本的开始位置越小的值。例如,在把分别包含基准字符串的多个用例文本分类为相同的用例部CX时,成为与在用例部CX中的存储位置在前还是在后无关,而是在用例文本中使用基准字符串“while”的位置越在前,评价值越小的值。这是因为通常例如,很多时候越是表示作为检索关键字的基准字符串“while”的一般的使用例或使用频度高的使用例的用例文本,越是在前面的位置使用基准字符串“while”。此外,是因为通常用户很多时候希望显示表示一般使用例的文本或使用频度高的文本。即,是因为考虑了越是在前面的位置存储基准字符串“while”的用例文本,越是用户希望的文本的可能性高。此时,将该用例文本中的包含检索命中部位的预定长度的字符串称为特定文本。即,所谓特定文本是包含检索命中部位,作为检索结果应该显示的文本。特定文本不限于以上的说明,可以根据自由设定的设定信息从包含检索结果的文本中提取。
然后,当在步骤S23中根据全部的出现位置计算评价值时,决定部160针对特定文本的每个类别,根据计算出的特定文本的评价值,决定一个或多个特定文本的显示顺序(步骤S24)。在本实施方式中,决定部160决定越是特定文本的评价值小的特定文本的显示顺序,越是在前面显示的顺序。
然后,输出部170针对每个类别向显示部180输出按照决定的显示顺序显示一个或多个特定文本的、表示图7所示的检索结果显示画面的信号(步骤S25)。然后,结束单一字符串检索处理的执行。此外,显示部180根据输出的信号显示检索结果显示画面。
然后,参照图16说明在步骤S19中执行的多个字符串检索处理。
在多个字符串检索处理中,首先,检索部1420取得在图12的步骤S12中生存的基准字符串的N元字符串图形(步骤S51)。
然后,执行取得基准字符串在再配置CTD中的全部出现位置的处理(出现位置取得处理,图15)(步骤S52)。
并且,关于在图12的S18中决定的验证字符串的一个,取得在图12的步骤S12中生成的基准字符串的N元(步骤S53)。
然后,执行取得验证字符串在再配置CTD中的全部出现位置的处理(出现位置取得处理,图15)(步骤S54)。
当取得某个验证字符串的全部出现位置时,判别全部的验证字符串是否已完成处理(步骤S55)。在具有未处理的验证字符串时(步骤S55为否),关于下一个未处理的验证字符串,重复从步骤S53的处理。
另一方面,在关于全部的验证字符串取得了出现位置时(步骤S55为是),然后选择在步骤S52中取得的基准字符串的出现位置之一作为注目出现位置(步骤S56)。
然后,根据在步骤S54中取得的验证字符串的出现位置,判别从注目出现位置开始在预定范围内是否存在全部的验证字符串(步骤S57)。在此,所谓预定的范围,在某个词条编号的词条部CE中具有注目出现位置时,是指该词条部CE全体。此外,在解说部CC中具有注目出现位置时,是指在该解说部CC全体中的预定的字符数的范围。此外,在用例部CX中具有注目出现位置时,是指该注目出现位置所属的用例文本(图5B的用例文本11、用例文本12等)所占的范围。
另外,该“预定的范围”不限于此,可以自由地设定。此外,可以通过用户操作等设定变更。
当从注目出现位置开始在预定范围内不存在全部的验证字符串时(步骤S57为否),根据该不是针对多个检索关键字的检索(AND检索)的命中部位的判断,从检索结果中排除注目出现部位(步骤S58)。
另一方面,当从注目开始位置在预定范围内存在全部的验证字符串时(步骤S57为是),将注目出现位置作为检索命中部位(步骤S59)。然后,关于该注目出现位置计算评价值(步骤S60)。
在此,说明本处理的评价值的计算方法。首先,计算部150参照图13所示的决定方法表,取得与有注目出现位置的部位的类别和检索关键字的单词数一致的顺序决定方法(计算方法)。
当注目出现部位位于词条部CE时,计算部150从图13所示的决定方法表中取得表示使表示检索关键字为“多个”的信息与表示特定类别为“词条部”的信息相对应的顺序决定方法“式5”的信息。
然后,计算部150取得基准字符串和各验证字符串的字符数。然后,将各数值代入以下的式(5),计算包含注目出现部位的特定文本的评价值。
Estidxid,cgr=Estidxid,0=EstDistWithoutOrder…(5)
EstDistWithoutOrder=EstDist=max Pos-misPos
maxPos:包含全部的Diststdstr,vfystrk为最小时的全部检索字符串的范围的上限值
minPos:包含全部的Diststdstr,vfystrk为最小时的全部检索字符串的范围的下限值
EstDist:检索关键字间距离
EstDistwithoutorder:检索关键字间距离(不考虑输入顺序时)
Diststdstr,vfystrk:基准字符串与第k验证字符串的距离
NumStrvfystrk:第k验证字符串的字符数
NumStrstdstr:基准字符串的字符数
Posvfystrk:第k验证字符串的特定出现位置
Posstdstr:基准字符串的特定出现位置
在此,关于通过式(5)计算的基准字符串与第k验证字符串的距离,使用将基准字符串设为“while”,将第一验证字符串设为“for”的例子来说明。如图17A所示,当基准字符串“while”的特定出现位置在第一验证字符串“for”的特定出现位置之前时,基准字符串“while”与第一验证字符串“for”的距离表示从基准字符串“while”的开头到第一验证字符串“for”的末尾的距离。与此相对,如图17B所示,当基准字符串“while”的特定出现位置在第一验证字符串“for”的特定出现位置之后时,基准字符串“while”与第一验证字符串“for”的距离表示从第一验证字符串“for”的开头到基准字符串“while”的末尾的距离。
然后,关于通过式(5)计算的上限值maxPos以及下限值minPos以及使用它们计算的检索关键字间距离(不考虑输入顺序时),以基准字符串“while”、第一验证字符串“for”和第二验证字符串“a”作为具体例子来进行说明。如图18所示,上限值maxPos以及下限值minPos是包含基准字符串“while”、与基准字符串“while”的距离为最小的第一验证字符串“for”、以及与基准字符串“while”的距离为最小的第二验证字符串“a”的最小的范围(以下称为最小包含范围)的上限值以及下限值。此外,检索关键字间距离(不考虑输入顺序时)为该下限值minPos与上限值maxPos的差异。
因此,通过式(5)计算的评价值当在最小包含范围中包含的字符串仅是输入的检索关键字时成为最小值。此外,全部的检索关键字越是包含在较狭小的最小包含范围内(即,开始使用检索关键字中的任意一个检索关键字的位置距离结束使用全部的检索关键字的位置越近),计算的评价值越小。例如,在输入的多个检索关键字是“for”、“a”以及“while”时,包含“for a while”的用例文本的评价值成为比包含“for a brief while”的用例文本的评价值小的值。此外,包含“for a brief while”的用例文本的评价值成为比包含“for a jobwhile”的“This will allow you to look“for a job while”you are working at apart-time job”的文本的评价值小的值。即,这是因为通常很多时候用户希望显示表示仅由检索关键字构成的惯用语的使用例的用例文本,并且还因为希望显示与包含较多检索关键字以外的字符串的用例文本相比包含少的检索关键字以外的字符的用例文本。此外,因为越是在输入的多个检索关键字之间使用较多字符的用例文本,越多地表示与由输入的多个检索关键字构成的惯用语不同的惯用语的使用例子。
此外,在特定文本的特定类别为解说部CC时,计算部150从决定方法表中取得表示使表示检索关键字为“多个”的信息与表示特定类别“解说部”的信息相对应的序位决定方法(式6)的信息。
然后,计算部150与使用式(5)计算评价值时一样,计算检索关键字间距离以及下限值minPos。此外,计算部150与使用式(3)计算评价值时一样,计算与特定词条部对应的解说部CC的开始位置。然后,计算部150将检索关键字间距离以及下限值minPos以及解说部CC的开始位置Posidxid,comentary用于下式(6)计算特定文本的评价值。
Estidxid,cgy=Estidxid,1
=EstDistWithoutOrder+(minPos-Posidxid,comentary)…(6)
关于在式(6)中计算的评价值,如果是检索关键字间距离(不考虑输入顺序时)相同的解说文本,则包含检索关键字的最小包含范围的下限值minPos越接近解说部CC的开始位置越为小的值。此外,关于通过式(6)计算的评价值,如果是下限值minPos与解说部CC的开始位置的距离为相同的解说文本,则检索关键字间距离(不考虑输入顺序时)越短越为小的值。
然后,在特定文本的特定类别为用例部CX时,从决定方法表中取得表示使表示检索关键字为“多个”的信息与表示特定类别“用例部”的信息相对应的顺序决定方法(式7)的信息。
此时,与使用式(5)计算评价值时一样,计算检索关键字间距离以及下限值minPos,并且与使用式(6)计算评价值时相同,计算用例文本的开始位置。然后,计算部150将检索关键字间距离以及下限值minPos以及用例文本的开始位置Posidxid、example、expid,用于下式(7)来计算特定文本的评价值。
Estidxid,cgy=Estidxid,2
=EstDistWithoutOrder+(minPos-Posidxid,exaple,expid)…(7)
关于在式7中计算的评价值,如果相同的排列顺序的多个检索关键字的检索关键字间距离(不考虑输入顺序时)相同,则下限值minPos越接近用例文本的开始位置越成为小的值,如果是下限值minPos与用例文本的开始位置的距离相同的用例文本,则检索关键字间距离(不考虑输入顺序时)越短越成为小的值。
当如上那样对于包含注目出现部位的特定文本计算评价值时,然后主检索部1420判别是否将S52中求出的基准字符串的出现位置的全部出现位置作为注目出现位置执行了上述处理(步骤S61)。在留有未处理的出现位置时(步骤S61为否),关于下一个未处理的出现位置,重复从步骤S56开始的处理。
另一方面,当针对全部的出现位置上述处理完成时(步骤S61为是),决定部160针对每个类别,根据在步骤S60中计算出的评价值,决定一个或多个特定文本的显示顺序(步骤S62)。在本实施方式中,决定部160将越是特定文本的评价值小的特定文本的显示顺序决定为,越在前面显示的顺序。
然后,输出部170针对每个类别,向显示部180输出表示按照决定的显示顺序显示一个或多个特定文本的检索结果显示画面的信号(步骤S63)。然后,结束多个字符串检索处理的执行。显示部180根据输出的信号显示检索结果显示画面。
如上所述,根据本实施方式的文本检索装置,能够使用一个索引(转置索引)执行前方一致检索以及其他的检索(部分一致检索)。因此,能够以较少的存储容量实现能够对用户提示前方一致检索和部分一致检索的结果的用户使用方便的文本检索功能。
此外,本实施方式的文本检索装置实现了通过包含式(1)的评价值或开头标记的检索,使用部分一致检索用索引信息,在成为前方一致检索对象的文本中,确定检索关键字位于开头的字符串的单元(确定单元)。因此,用于实现使用方便的文本检索功能所需要的计算量的增加少。
例如,通过包含开头标记的检索,确定检索关键字位于开头的字符串,由此本实施方式的文本检索装置与不包含开头标记的情况相比能够抑制检索命中候补,计算量较少即可。
此外,本实施方式的文本检索装置在用户逐字输入关键字的情况下,执行前方一致检索(增加检索),当确定检索关键字时执行更加详细并且显示的检索结果多的部分一致检索。如此,能够与正在输入关键字和确定关键字的状态相匹配地提示用户需要的检索结果。
(变形例)
以上说明了本发明的实施方式1,但是本发明的实施方式不限于此。
例如,在上述实施方式1中,设开头标记为空白,但是开头标记不限于此可以自由地设定。例如,开头标记可以是在系统中登录的唯一的标记(除此之外是成为前方一致检索的对象的文本中没有出现的标记)。此时,如果使用插入了唯一的开头标记的转置索引,检索插入了开头标记的检索关键字,则检索命中部位必定为成为对象的字符串的开头。因此,此时不需要将表示开头的地址与检索命中部位(特定部位)进行比较来评价检索命中部位(特定部位)是否为成为前方一致检索的对象的文本的开头。具体地说,不需要在图11的步骤S312中计算评价值,并反映在步骤S313的判别处理中。根据这样的结构,可以使用少的计算量实现前方一致检索和部分一致检索。
另一方面,在前方一致检索中,在比较表示开头的地址和检索命中部位(特定部位)来进行评价时,在转置索引中不包含开头标记,文本检索装置即使不在检索关键字的开头插入开头标记,也能够使用转置索引执行前方一致检索。此时,即使是在转置索引位于外部服务器,不包含开头标记的一般的转置索引时,也能够使用该转置索引执行前方一致检索和部分一致检索。
此外,在实施方式1中,假设文本检索装置100执行生成再配置CTD以及转置索引的处理(数据等生成处理),但是不限于此,预先将外部装置生成的再配置CTD以及转置索引存储在存储部中即可。例如,可以在工厂出货时,存储与各字典对应的再配置CTD和转置索引。
此外,在实施方式1及其变形例中,电子字典还包含电子辞典。即,电子字典可以是国语辞典、英日辞典、日英词典以及百科事典。此外,在实施方式1中,说明了文本检索装置100根据检索关键字检索字典,但是作为检索对象的文档并非限于字典,如果是由分类为多个类别的文本构成的文档,则可以是任何的文档。此外,增加检索(前方一致检索)和全文检索(部分一致检索)中的具体的方法,特别是对于附加顺序的方法,可以任意设定。
作为检索对象的文档例如可以是由分别被分类为“发明的名称”以及“权利要求的范围”等类别的文本构成的专利说明书。此时,考虑将增加检索的对象设为发明的名称,将全文作为主检索的对象。
此外,作为检索对象的文档例如可以是具有对表示某个产品具有的功能的名称的文本进行分类的类别(以下称为功能名类别)和对表示用于利用该功能的操作方法的文本进行分类的类别(以下称为操作方法类别)的说明书。此时,考虑将产品名、类别作为增加检索的对象,将全文作为主检索的对象。
在实施方式1中,使用N元检索来说明检索关键字的检索方法,但是检索关键字的检索方法不限于此。
本发明通过提供实施方式1或其变形例的文本检索装置100,通过应用程序,能够使既有的文本检索装置具有文本检索装置100的功能。即,通过用于控制既有的文本检索装置的计算机(CPU等)能够执行的方式,应用用于实现文本检索装置100的各功能结构的文本检索程序,由此具有实施方式1或变形例的文本检索装置100的功能。
这样的程序的分发方法是任意的,例如除了能够存储在存储器卡、CD-ROM、或DVD-ROM等存储介质中进行分发以外,还可以经由因特网等通信介质进行分发。此外,可以把再配置CTD以及转置索引等上述处理需要的数据的一部分或全部存储在外部服务器中,通过通信功能取得这些数据来执行上述处理。
此外,本发明在不超出本发明的广义的精神和范围的情况下,可以实施各种实施方式以及变形。即,虽然说明了本发明的实施方式,但是上述实施方式是用于说明本发明,并不限定本发明的范围。本发明的范围包含不是在实施方式中记载而是在权利要求书中记载的发明及其均等的范围。
Claims (10)
1.一种文本检索装置,其特征在于,具有:
存储部,其存储索引信息,该索引信息使包含多个类别的成为检索对象的文档中包含的字符或字符串与该字符或字符串在所述文档中的出现位置相对应;
取得部,其取得检索关键字;
前方一致检索部,其从所述文档中的属于成为前方一致检索的对象的类别的字符或字符串中,使用所述索引信息检索从所述检索关键字开始的字符或字符串;
部分一致检索部,其使用所述索引信息,从所述文档中检索包含所述检索关键字的字符或字符串;以及
输出部,其输出所述前方一致检索部检索的结果和所述部分一致检索部检索的结果。
2.根据权利要求1所述的文本检索装置,其特征在于,
所述前方一致检索部使用所述索引信息,确定属于成为所述前方一致检索的对象的类别的字符或字符串中的、所述检索关键字处于前头的字符或字符串,检索从所述检索关键字开始的字符或字符串。
3.根据权利要求2所述的文本检索装置,其特征在于,
在属于成为所述前方一致检索的对象的类别的字符串的前头插入表示前头的前头标记后,所述存储部将该字符串作为所述索引信息进行存储,
所述前方一致检索部在所述取得部取得的检索关键字的前头插入所述前头标记,使用包含该前头标记的检索关键字检索所述文档。
4.根据权利要求3所述的文本检索装置,其特征在于,
所述索引信息还包含表示属于成为所述前方一致检索的对象的类别的各字符串的前头位置的前头信息,
所述前方一致检索部使用所述索引信息确定所述检索关键字的位置,将该确定的位置与所述索引信息的前头信息表示的位置进行比较来确定所述检索关键字位于前头的字符串。
5.根据权利要求4所述的文本检索装置,其特征在于,
还具有操作接受部,其接受逐字输入检索关键字的用户操作和确定检索关键字的用户操作,
所述取得部在所述操作接受部每次接受输入检索关键字的操作时,除了到此为止接受的操作所表示的字符或字符串以外,还取得该操作表示的字符作为所述前方一致检索部进行检索的检索关键字,
当所述操作接受部接受用于确定检索关键字的用户操作时,取得该确定的检索关键字来作为所述部分一致检索部进行检索的检索关键字。
6.一种文本检索装置中的文本检索方法,该文本检索装置具有存储了索引信息的存储部,该索引信息使包含多个类别的成为检索对象的文档中包含的字符或字符串与该字符或字符串在所述文档中的出现位置相对应,所述文本检索方法的特征在于,具有以下步骤:
取得检索关键字;
从所述文档中的属于成为前方一致检索的对象的类别的字符或字符串中,使用所述索引信息对从所述检索关键字开始的字符或字符串进行前方一致检索;
使用所述索引信息,从所述文档中对包含所述检索关键字的字符或字符串进行部分一致检索;以及
输出通过所述前方一致检索检索的结果和通过所述部分一致检索检索的结果。
7.根据权利要求6所述的文本检索方法,其特征在于,
所述前方一致检索步骤使用所述索引信息,确定属于成为所述前方一致检索的对象的类别的字符或字符串中的、所述检索关键字处于前头的字符或字符串,检索从所述检索关键字开始的字符或字符串。
8.根据权利要求7所述的文本检索方法,其特征在于,
在属于成为所述前方一致检索的对象的类别的字符串的前头插入表示前头的前头标记后,在所述存储部中将该字符串作为所述索引信息进行存储,
所述前方一致检索步骤,在所述取得步骤取得的检索关键字的前头插入所述前头标记,使用包含该前头标记的检索关键字检索所述文档。
9.根据权利要求8所述的文本检索方法,其特征在于,
所述索引信息还包含表示属于成为所述前方一致检索的对象的类别的各字符串的前头位置的前头信息,
所述前方一致检索步骤使用所述索引信息确定所述检索关键字的位置,将该确定的位置与所述索引信息的前头信息表示的位置进行比较来确定所述检索关键字位于前头的字符串。
10.根据权利要求9所述的文本检索方法,其特征在于,
还具有操作接受步骤,接受逐字输入检索关键字的用户操作和确定检索关键字的用户操作,
所述取得步骤在所述操作接受步骤每次接受输入检索关键字的操作时,除了到此为止接受的操作所表示的字符或字符串以外,还取得该操作表示的字符来作为所述前方一致检索步骤进行检索的检索关键字,
当所述操作接受步骤接受用于确定所述检索关键字的用户操作时,取得该确定的检索关键字来作为所述部分一致检索步骤进行检索的检索关键字。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012-024491 | 2012-02-07 | ||
JP2012024491A JP5910134B2 (ja) | 2012-02-07 | 2012-02-07 | テキスト検索装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103257995A true CN103257995A (zh) | 2013-08-21 |
CN103257995B CN103257995B (zh) | 2016-08-03 |
Family
ID=48903842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310049022.2A Active CN103257995B (zh) | 2012-02-07 | 2013-02-07 | 文本检索装置以及文本检索方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8996571B2 (zh) |
JP (1) | JP5910134B2 (zh) |
CN (1) | CN103257995B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104424255A (zh) * | 2013-08-28 | 2015-03-18 | 阿尔派株式会社 | 检索装置及检索方法 |
CN110471888A (zh) * | 2018-05-09 | 2019-11-19 | 株式会社日立制作所 | 一种自动收集数据的方法、装置、介质、设备及系统 |
CN110674249A (zh) * | 2019-09-29 | 2020-01-10 | 北京幻想纵横网络技术有限公司 | 一种信息处理方法及装置 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6135331B2 (ja) * | 2013-06-27 | 2017-05-31 | カシオ計算機株式会社 | 電子機器、プログラム、および、検索システム、検索方法 |
WO2016082094A1 (en) | 2014-11-25 | 2016-06-02 | Yahoo! Inc. | Method and system for providing a user agent string database |
WO2016082092A1 (en) * | 2014-11-25 | 2016-06-02 | Yahoo! Inc. | Method and system for analyzing user agent string |
JP6448426B2 (ja) * | 2015-03-19 | 2019-01-09 | アイシン・エィ・ダブリュ株式会社 | 文字入力システム、方法およびプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6772150B1 (en) * | 1999-12-10 | 2004-08-03 | Amazon.Com, Inc. | Search query refinement using related search phrases |
US20050021508A1 (en) * | 2003-07-23 | 2005-01-27 | Tadataka Matsubayashi | Method and apparatus for calculating similarity among documents |
US20110047120A1 (en) * | 2004-06-22 | 2011-02-24 | Kamvar Sepandar D | Anticipated Query Generation and Processing in a Search Engine |
CN102073639A (zh) * | 2009-11-20 | 2011-05-25 | 英业达股份有限公司 | 使用者输入与查询的辅助系统及其方法 |
CN102156724A (zh) * | 2011-03-31 | 2011-08-17 | 北京百度网讯科技有限公司 | 一种用于对查询片段进行后缀匹配的方法与设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2896634B2 (ja) * | 1995-03-02 | 1999-05-31 | 富士ゼロックス株式会社 | 全文登録語検索装置および全文登録語検索方法 |
JP3046221B2 (ja) * | 1995-05-23 | 2000-05-29 | 松下電器産業株式会社 | 情報検索装置 |
JP3160201B2 (ja) * | 1996-03-25 | 2001-04-25 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法、情報検索装置 |
JPH1049549A (ja) | 1996-05-29 | 1998-02-20 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
JP2002269139A (ja) * | 2001-03-08 | 2002-09-20 | Ricoh Co Ltd | 文書検索方法 |
JP2003006216A (ja) * | 2001-06-26 | 2003-01-10 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、プログラム、並びに電子出版用データ提供システム |
US7370035B2 (en) * | 2002-09-03 | 2008-05-06 | Idealab | Methods and systems for search indexing |
CN1300718C (zh) * | 2002-10-31 | 2007-02-14 | 卡西欧计算机株式会社 | 信息显示装置和信息显示处理程序 |
US7487145B1 (en) * | 2004-06-22 | 2009-02-03 | Google Inc. | Method and system for autocompletion using ranked results |
US7516125B2 (en) * | 2005-08-01 | 2009-04-07 | Business Objects Americas | Processor for fast contextual searching |
JP2007272872A (ja) * | 2006-03-08 | 2007-10-18 | Ricoh Co Ltd | 情報検索方法、情報検索装置、情報検索システム、及び情報検索プログラム |
JP4861078B2 (ja) * | 2006-06-30 | 2012-01-25 | 富士通株式会社 | 索引作成プログラム、索引作成装置および索引作成方法 |
US8504553B2 (en) * | 2007-04-19 | 2013-08-06 | Barnesandnoble.Com Llc | Unstructured and semistructured document processing and searching |
JP5487898B2 (ja) * | 2009-11-17 | 2014-05-14 | カシオ計算機株式会社 | 辞書機能を備えた電子機器およびプログラム |
-
2012
- 2012-02-07 JP JP2012024491A patent/JP5910134B2/ja active Active
-
2013
- 2013-01-04 US US13/734,174 patent/US8996571B2/en active Active
- 2013-02-07 CN CN201310049022.2A patent/CN103257995B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6772150B1 (en) * | 1999-12-10 | 2004-08-03 | Amazon.Com, Inc. | Search query refinement using related search phrases |
US20050021508A1 (en) * | 2003-07-23 | 2005-01-27 | Tadataka Matsubayashi | Method and apparatus for calculating similarity among documents |
US20110047120A1 (en) * | 2004-06-22 | 2011-02-24 | Kamvar Sepandar D | Anticipated Query Generation and Processing in a Search Engine |
CN102073639A (zh) * | 2009-11-20 | 2011-05-25 | 英业达股份有限公司 | 使用者输入与查询的辅助系统及其方法 |
CN102156724A (zh) * | 2011-03-31 | 2011-08-17 | 北京百度网讯科技有限公司 | 一种用于对查询片段进行后缀匹配的方法与设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104424255A (zh) * | 2013-08-28 | 2015-03-18 | 阿尔派株式会社 | 检索装置及检索方法 |
CN104424255B (zh) * | 2013-08-28 | 2019-02-01 | 阿尔派株式会社 | 检索装置及检索方法 |
CN110471888A (zh) * | 2018-05-09 | 2019-11-19 | 株式会社日立制作所 | 一种自动收集数据的方法、装置、介质、设备及系统 |
CN110674249A (zh) * | 2019-09-29 | 2020-01-10 | 北京幻想纵横网络技术有限公司 | 一种信息处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US8996571B2 (en) | 2015-03-31 |
JP2013161371A (ja) | 2013-08-19 |
JP5910134B2 (ja) | 2016-04-27 |
US20130204898A1 (en) | 2013-08-08 |
CN103257995B (zh) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103257995A (zh) | 文本检索装置以及文本检索方法 | |
Shen et al. | Multi-document summarization via the minimum dominating set | |
KR100295354B1 (ko) | 문서 정보 검색 시스템 | |
US8983977B2 (en) | Question answering device, question answering method, and question answering program | |
KR100721406B1 (ko) | 카테고리별 검색 로직을 이용한 상품 검색 시스템 및 방법 | |
CN103425687A (zh) | 一种基于关键词的检索方法和系统 | |
CN103970826B (zh) | 检索装置及检索方法 | |
CN102023989A (zh) | 一种信息检索方法及其系统 | |
CN107704102A (zh) | 一种文本输入方法及装置 | |
TW200805095A (en) | Data product search using related concepts | |
CN110297880A (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
CN101526938A (zh) | 文档处理装置 | |
JP2669601B2 (ja) | 情報検索方法及びシステム | |
CN102968429A (zh) | 文本检索装置以及文本检索方法 | |
JP5324677B2 (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
JP2013029891A (ja) | 抽出プログラム、抽出方法及び抽出装置 | |
CN109508390B (zh) | 基于知识图谱的输入预测方法、装置和电子设备 | |
EP2711854B1 (en) | Search system, method and program based on n-grams | |
JP4813312B2 (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
JP2004220456A (ja) | 技術マップ作成方法、技術マップ作成プログラム及びそのプログラムを記録した記録媒体 | |
CN102880632B (zh) | 一种语用关键词检索方法与装置 | |
RU2409849C2 (ru) | Способ поиска информации в политематических массивах неструктурированных текстов | |
JP3848014B2 (ja) | 文書検索方法および文書検索装置 | |
JP2005158044A (ja) | 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置 | |
JP5633552B2 (ja) | 文書検索方法、文書検索装置、文書検索プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |