CN102918524A - 信息生成程序、装置、方法以及信息检索程序、装置、方法 - Google Patents

信息生成程序、装置、方法以及信息检索程序、装置、方法 Download PDF

Info

Publication number
CN102918524A
CN102918524A CN2010800670944A CN201080067094A CN102918524A CN 102918524 A CN102918524 A CN 102918524A CN 2010800670944 A CN2010800670944 A CN 2010800670944A CN 201080067094 A CN201080067094 A CN 201080067094A CN 102918524 A CN102918524 A CN 102918524A
Authority
CN
China
Prior art keywords
mentioned
character
obj ect
ect file
single character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800670944A
Other languages
English (en)
Other versions
CN102918524B (zh
Inventor
片冈正弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN102918524A publication Critical patent/CN102918524A/zh
Application granted granted Critical
Publication of CN102918524B publication Critical patent/CN102918524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices

Abstract

本发明涉及信息生成程序、装置、方法以及信息检索程序、装置、方法,执行(A)从对象文件组(F)的合计,(B)以出现频率的降序的排序,(C)到目标出现率的次序为止的提取,(D)映射生成,这样的4个阶段。(A1)首先,信息生成装置读取对象文件组(F),对基础单词的出现频率进行计数。(B1)若在对象文件组F中基础单词的合计结束,则信息生成装置将基础单词出现频率表(101)以出现频率的降序排序。即,按出现频率从高到低的顺序排列,从出现频率最高的基础单词开始定序。(C1)接下来,信息生成装置参照(B1)排序后的基础单词出现频率表(101),提取到目标出现率Pw为止的次序的基础单词。(D1)最后,信息生成装置对于特定基础单词群生成特定基础单词出现映射(M1)。

Description

信息生成程序、装置、方法以及信息检索程序、装置、方法
技术领域
本发明涉及生成表示字符或基础单词的有无的索引信息,使用索引信息进行检索的信息生成程序、信息检索程序、信息生成装置、信息检索装置、信息生成方法,以及信息检索方法。
背景技术
已知一种高速生成所谓字符成分表的全文检索索引的位图型的全文检索技术(例如,参照下述专利文献1~3。)。以往的位图型的全文检索技术中,由于不进行词素解析,所以能够高速生成,能够压缩位图。
一般的国语词典中,有约24万项目的记录,以约6000~8000字符记述,单一字符的位图也有约6000~8000。
专利文献1:日本特开平1-181329号公报
专利文献2:日本特开平3-174652号公报
专利文献3:日本特开平5-174064号公报
发明内容
然而,在上述的以往技术中,存在如下问题:包含于各项目(记录)的假名、片假名和英文字符的出现频率高,在单一字符的位图中,锁定对象项目的效率低。
另外,若追加2连接字符串的位图,则尺寸变大而使存储器不够用。若通过哈希(hash)处理进行尺寸缩小则产生检索噪声。因此,位图的锁定效率降低,检索速度变得缓慢。
另一方面,由英文字符、假名、片假名等的单词构成的字符串中产生因字符的连接所引起的检索噪声。例如,不能检索包含英文单词的be动词“is”或不定冠词“a”的例文“that is a pen”。特别是,字母a的出现频率非常高,以不定冠词“a”检索也检索出几乎全部的例文和单词作为候补。
与此相对,也想到按每个“结婚”,“活动”这样的成为词典的词条的基础单词生成位图。然而,存在若以不是基础单词的字符串检索则无法检索到这样的问题。例如,若以“婚活”这样的字符串检索,则即使存在包含“结婚”、“活动”、“结婚活动”这样的字符串的文件,也由于没有以“结婚”或“活动”检索,所以不能确定该文件。像这样,在基础单词“结婚”的末尾字符“婚”和基础单词“活动”的前端字符“活”之间产生所谓的分离。
此外,虽然能够检索以“婚”结束的基础单词和以“活”开始的基础单词,并且收罗其相互的位图的组合,与各位图的读取进行AND运算而确定出候补文件,但不仅关键字内的检索等的一系列的处理花费时间,还由于位图的哈希处理所产生的检索噪声,无法期待候补文件的锁定性能。
本发明为了消除上述的以往技术中的问题点,其目的在于提供能够实现表示基础单词或字符的有无的索引信息的生成的高速化以及索引信息的大小的最佳化的信息生成程序、信息生成装置,以及信息生成方法。而且,目的在于提供能够使用这样的索引信息来实现检索噪声的减少化的信息检索程序、信息检索装置,以及信息检索方法。
为了解决上述的课题,实现目的,本发明的信息生成程序、信息生成装置以及信息生成方法的特征在于,从记述有字符串的对象文件组中合计每个指定单词的出现频率,基于合计的每个指定单词的出现频率,确定到与上述指定单词有关的目标出现率为止的降序的次序,从在上述对象文件组中选择的对象文件中检测到确定的降序的次序为止的特定的指定单词,生成针对检测出的每个特定的指定单词,将该特定的指定单词的有无按每个上述对象文件表示的索引信息。
另外,本发明的信息检索程序、信息检索装置以及信息检索方法的特征在于,接受检索字符串的输入;通过参照如下索引信息、即、将记述有字符串的对象文件组中存在的指定单词中对应于与该指定单词有关的目标出现率的降序的次序以内的特定的指定单词的有无按每个上述对象文件表示的索引信息,确定上述检索字符串存在的对象文件,从确定的对象文件中检索与上述检索字符串有关的信息,输出检索到的检索结果。
根据本信息生成程序、信息生成装置以及信息生成方法,起到能够实现表示基础单词、字符的有无的索引信息的生成的高速化以及索引信息的大小的最佳化的效果。另外,根据本信息检索程序、信息检索装置以及信息检索方法,起到能够实现检索噪声的减少化的效果。
附图说明
图1是表示信息生成装置的信息生成的一个例子(其1)的说明图。
图2是表示非特定单一字符的分割例的说明图。
图3是表示信息生成装置的信息生成的一个例子(其2)的说明图。
图4是表示实施方式的信息生成装置的硬件构成例的框图。
图5是表示信息生成装置的功能的构成例的框图。
图6是表示映射生成例(其1)的说明图。
图7是表示映射生成例(其2)的说明图。
图8-1是表示映射生成例(其3)的说明图(前一半)。
图8-2是表示映射生成例(其3)的说明图(后一半)。
图9是表示映射生成例(其4)的说明图。
图10是表示信息生成装置500的信息生成处理顺序的流程图。
图11是表示图10所示的合计处理(步骤S1001)的详细的处理顺序的流程图。
图12是表示图11所示的对象文件Fi的合计处理(步骤S1103)的详细的处理顺序的流程图。
图13是表示图12所示的基础单词合计处理(步骤S1202)的详细的处理顺序的流程图。
图14是表示图13所示的最长一致检索处理(步骤S1301)的详细的处理顺序的流程图。
图15是表示图10所示的映射分配数决定处理(步骤S1002)的详细的处理顺序的流程图。
图16是表示图10所示的映射生成处理(步骤S1003)的详细的处理顺序的流程图。
图17是表示图16所示的对象文件Fi的映射生成处理(步骤S1603)的详细的处理顺序的流程图。
图18是表示图17所示的特定基础单词出现映射生成处理(步骤S1702)的详细的处理顺序的流程图。
图19是表示图17所示的特定单一字符出现映射生成处理(步骤S1703)的详细的处理顺序的流程图。
图20是表示图19所示的分割字符码出现映射生成处理(步骤S1903)的详细的处理顺序的流程图。
图21是表示图17所示的连接字符串出现映射生成处理(步骤S1704)的详细的处理顺序的流程图。
图22是表示图21所示的连接字符串确定处理(步骤S2101)的详细的处理顺序的流程图。
图23是表示信息检索装置的功能的构成例的框图。
图24是表示信息检索处理的具体例(其1)的说明图。
图25是表示信息检索处理的具体例(其2)的说明图。
图26是表示信息检索处理的具体例(其3)的说明图。
图27是表示信息检索处理的具体例(其4)的说明图。
图28是表示信息检索处理的具体例(其5)的说明图。
图29是表示信息检索处理的具体例(其6)的说明图。
图30是表示信息检索处理的具体例(其7)的说明图。
图31是表示信息检索装置2300的信息检索处理顺序的流程图。
图32-1是表示图31所示的文件确定处理(步骤S3104)的详细的处理顺序的流程图(其1)。
图32-2是表示图31所示的文件确定处理(步骤S3104)的详细的处理顺序的流程图(其2)。
图33是表示图32-2所示的最长一致检索处理(步骤S3202)的详细的处理顺序的流程图。
图34是表示图32-2所示的利用连接字符串出现映射M5进行的文件确定处理(步骤S3216)的详细的处理顺序的流程图。
图35是表示映射引出的说明图。
图36是表示使用通过对象文件的追加而被分段化为多个的出现映射组的情况的信息检索处理顺序的流程图。
图37是表示图36所示的信息检索处理(步骤S3602)中的文件确定处理(步骤S3104)的一部分的流程图。
具体实施方式
以下参照附图,对本发明的信息生成程序、信息检索程序、信息生成装置、信息检索装置、信息生成方法以及信息检索方法的实施方式详细地进行说明。
[信息生成程序/装置/方法]
首先,对信息生成程序、信息生成装置以及信息生成方法进行说明。
<信息生成的一个例子(其1)>
图1是表示信息生成装置的信息生成的一个例子(其1)的说明图。图1中,对象文件组F是对象文件的集合。各对象文件是记述有字符串的电子数据。对象文件是例如,词典或辞典、电子书籍,网页等的电子数据,以文本、HTML(HyperText Markup Language)、XML(Extensible Markup Language)形式记述。
信息生成装置执行(A)从对象文件组F的合计,(B)出现频率的降序下的排序,(C)到目标出现率的次序为止的提取,(D)映射生成,这样的4个阶段。以下,分为基础单词和单一字符进行说明。
(A1)首先,信息生成装置读取对象文件组F,对基础单词的出现频率进行计数。这里,基础单词是指单词群中预先指定的单词。例如,词典的情况下,词条相当于基础单词。信息生成装置参照汇聚了基础单词的基础单词构造体,在对象文件中存在与基础单词构造体内的基础单词一致的字符串的情况下,对该基础单词的出现频率(初始值为0)加1。基础单词构造体是记述有基础单词的数据构造体。
(B1)若对象文件组F中基础单词的合计结束,则信息生成装置将基础单词出现频率表101以出现频率的降序排序。即,以出现频率从高到低的顺序排序,从出现频率最高的基础单词开始定序。
(C1)接下来,信息生成装置参照(B1)排序后的基础单词出现频率表101,提取到目标出现率Pw为止的次序的基础单词。具体而言,信息生成装置将全基础单词的出现频率的总和(总出现频率)为分母,从次序为第1位的基础单词开始以降序累计出现频率而作为分子,计算到各次序为止的出现率。
例如,若总出现频率为50000,从第1位至第x位的基础单词群的累计出现频率为45000,则到x位为止的出现频率是(45000/50000)×100=90[%]。这里,目标出现率Pw为90[%]的情况下,提取到高位x位为止的基础单词。此外,为了将(C1)中提取的基础单词与原来的基础单词群区别,称为“特定基础单词(群)”。
(D1)最后,信息生成装置针对特定基础单词群,生成特定基础单词出现映射M1。特定基础单词出现映射M1指按每个特定基础单词,对每个对象文件表示特定基础单词的有无的位图形式的索引信息。各对象文件中,至少出现1次的情况下将相应的对象文件的位设为ON,1次也没出现的情况下将相应的对象文件的位依然设为OFF。
此外,本说明书中,说明为“将位设为ON”的情况下将该位的值设为“1”,“将位设为OFF”的情况下将该位的值设为“0”。此外,也可以在“将位设为ON”的情况下,将该位的值设为“0”,“将位设为OFF”的情况下,将该位的值设为“1”。接下来,对单一字符进行说明。
(A2)首先,信息生成装置读取对象文件组F,对单一字符的出现频率进行计数。这里,单一字符指以规定位长的字符码表现的字符。例如,UTF(UCS/Unicode Transformation Format)16位字符码的字符等。信息生成装置参照汇集了单一字符的单一字符构造体,在对象文件中存在与单一字符构造体内的单一字符一致的单一字符的情况下,对该单一字符的出现频率(初始值为0)加1。单一字符构造体是记述有单一字符的数据构造体。
(B2)若对象文件组F中单一字符的合计结束,则信息生成装置将单一字符出现频率表102以出现频率的降序排序。即,以出现频率从高到低的顺序排序,从出现频率最高的单一字符开始定序。
(C21)接下来,信息生成装置参照(B2)排序后的单一字符出现频率表102,提取到目标出现率Pc为止的次序的单一字符。具体而言,信息生成装置将全单一字符的出现频率的总和(总出现频率)作为分母,将从次序为第1位的单一字符开始以降序累计出现频率作为分子,计算到各次序为止的出现率。
例如,若总出现频率为50000,从第1位至第y位的单一字符群的累计出现频率为40000,则到第y位为止的出现频率为,(50000/40000)×100=80[%]。这里,目标出现率Pc为80[%]的情况下,提取到高位y位为止的单一字符。此外,为了将(C21)中提取的单一字符与原来的单一字符群区别,称为“特定单一字符(群)”。
(C22)另外,单一字符群中的从特定单一字符群排除的单一字符(以下,“非特定单一字符(群)”)的出现频率比各特定单一字符低,所以分割其字符码。具体而言,将非特定单一字符的字符码分割为高位的字符码和低位的字符码。
例如,单一字符以UTF16位字符码表现的情况下,分割为高位8位的字符码和低位8位的字符码。该情况下,被分割的任何字符码都以0x00~0xFF的编码表现。这样,高位的字符码称为“高位分割字符码(群)”,低位的字符码称为“低位分割字符码(群)”。
(D2)而且,信息生成装置对于(C21)中提取的特定单一字符群,生成特定单一字符出现映射M2。特定单一字符出现映射M2指按每个特定单一字符,将特定单一字符的有无按每个对象文件表示的位图形式的索引信息。各对象文件中,至少出现1次的情况下将相应的对象文件的位设为ON,1次也没出现的情况下将相应的对象文件的位依然设为OFF。
(D3)而且,信息生成装置对于(C22)中分割的高位分割字符码群,生成高位分割字符码出现映射M3。高位分割字符码出现映射M3指按每个高位分割字符码,将高位分割字符码的有无按每个对象文件表示的位图形式的索引信息。高位分割字符码以及低位分割字符码都以0x00~0xFF的范围表现,在高位分割字符码出现映射M3中,在不是作为低位分割字符码出现,而是作为高位分割字符码出现的情况下,相应的对象文件的位设为ON。
(D4)相同地,信息生成装置对于(C22)中分割的低位分割字符码群,生成低位分割字符码出现映射M4。低位分割字符码出现映射M4指按每个低位分割字符码,将低位分割字符码的有无按每个对象文件表示的位图形式的索引信息。高位分割字符码以及低位分割字符码都以0x00~0xFF的范围表现,在低位分割字符码出现映射M4中,在不是作为高位分割字符码出现,而是作为低位分割字符码出现的情况下,相应的对象文件的位设为ON。
这样,由于利用目标出现率Pw,Pc来限制特定基础单词以及特定单一字符,所以能够通过根据目的或用途设定目标出现率Pw,Pc,以必要的最低限度的映射大小生成各种出现映射。换言之,若针对全部的基础单词或单一字符在映射上分配记录(record),则对于出现频率低的基础单词或单一字符,“0”的位列变长,在映射内产生浪费。
因此,通过根据目的或用途设定目标出现率Pw,Pc,并将对应于该目标出现率Pw,Pc的部分作为特定基础单词、特定单一字符来登记而生成映射,从而能够实现映射大小的缩小化。另外,即使是从特定基础单词排除的基础单词,由于构成基础单词的单一字符的各个设定在特定单一字符出现映射M2,所以也没有问题。另外,由于非特定单一字符也被分割而设定在高位分割字符码出现映射M3和低位分割字符码出现映射M4,所以没有问题。
另外,关于字符的连接性,由于能够在后述的连接字符串出现映射M5中设定,所以没有问题。像这样,关于非特定基础单词,能够在特定单一字符出现映射M2、高位分割字符码出现映射M3、低位分割字符码出现映射M4以及连接字符串出现映射M5中设定。因此,通过取得这些出现映射的AND,能够判断非特定基础单词的有无。
此外,(A)~(D)的阶段可以分为基础单词和单一字符而执行,通过各移位1字符,能够确定基础单词和单一字符,并通过同时并行执行来实现映射生成的高速化。
<非特定单一字符的分割例>
图2是表示非特定单一字符的分割例的说明图。图2中,以(A)非特定单一字符“芝”和(B)非特定单一字符“兆”为例进行说明。“芝”的字符码为“9D82”,所以被分割为高位的“0x9D”和低位的“0x82”。相同地,“兆”的字符码为“5146”,所以被分割为高位的“0x51”和低位的“0x46”。
<信息生成的一个例子(其2)>
图3是表示信息生成装置的信息生成的一个例子(其2)的说明图。(D5)如图3所示,信息生成装置在图1的(D)阶段,还生成连接字符串出现映射M5。连接字符串指两个以上的字符连接而成的字符串。例如,“結婚(结婚)”是特定单一字符“結”和特定单一字符“婚”的2连接字符串。另外,单一字符“芝”是非特定单一字符,所以被分割为高位分割字符码“0x9D”和低位分割字符码“0x82”。像这样,在高位分割字符码和低位分割字符码连接的情况下也是2连接字符串。
另外,字符串“芝居”是高位分割字符码“0x9D”、低位分割字符码“0x82”和特定单一字符“居”的3连接字符串。若着眼于“芝”和“居”的字符边界,则成为低位分割字符码“0x82”和特定单一字符“居”的2连接字符串。相同地,关于字符串“人工芝”,是特定单一字符“人”、“工”和高位分割字符码“0x9D”和低位分割字符码“0x82”的4连接字符串。若着眼于“工”和“芝”的字符边界,成为特定单一字符“工”和高位分割字符码“0x9D”的2连接字符串。此外,本说明书中,为了说明的简单化,使用2连接字符串进行说明。
<信息生成装置的硬件构成>
图4是表示实施方式的信息生成装置的硬件构成例的框图。图4中,信息生成装置具备CPU(Central Processing Unit)401、ROM(ReadOnly Memory)402、RAM(Random Access Memory)403、磁盘驱动器404、磁盘405、光盘驱动器406、光盘407、显示器408、I/F(Interface)409、键盘410、鼠标411、扫描仪412、打印机413。而且,各构成部通过总线400分别连接。
这里,CPU401掌管信息生成装置整体的控制。ROM402存储启动程序等的程序。RAM403作为CPU401的工作区域使用。磁盘驱动器404按照CPU401的控制,对针对磁盘405的数据的读取/写入进行控制。磁盘405存储在磁盘驱动器404的控制下写入的数据。
光盘驱动器406按照CPU401的控制,对针对光盘407的数据的读取/写入进行控制。光盘407存储在光盘驱动器406的控制下写入的数据,或者使计算机读取存储于光盘407的数据。
显示器408显示光标、图标或者工具箱以及文档、图像、功能信息等的数据。该显示器408可以采用例如CRT、TFT液晶显示器、等离子显示器等。
接口(以下,简称为“I/F”。)409通过通信线路与LAN(LocalArea Network)、WAN(Wide Area Network)、因特网等的网络414连接,经由该网络414与其他的装置连接。而且,I/F409掌管网络414和内部的接口,控制来自外部装置的数据的输入输出。I/F409能够采用例如调制解调器或LAN适配器等。
键盘410具备用于字符、数字、各种指示等的输入的键,进行数据的输入。另外,也可以是触摸面板式的输入板或数字键等。鼠标411进行光标的移动、范围选择或窗口的移动、尺寸的变更等。只要是作为指示器(pointing device)具有同样功能的装置,也可以是轨迹球或手柄等。
扫描仪412光学读取图像,在信息生成装置内导入图像数据。其中,可以使扫描仪412具备OCR(Optical Character Reader)功能。另外,打印机413打印图像数据或文档数据。打印机413能够采用例如,激光打印机或喷墨打印机。
<信息生成装置的功能的构成>
图5是表示信息生成装置的功能的构成例的框图。信息生成装置500具备设定部501、合计部502、次序确定部503、检测部504、分割部505、生成部506。设定部501~生成部506具体而言,例如通过使CPU401执行存储在图4所示的ROM402、RAM403、磁盘405、光盘407等的存储装置中的程序,或者通过I/F409,实现其功能。
设定部501具有设定目标出现率Pw、Pc的功能。具体而言,例如,将通过键盘410或鼠标411的操作而输入的目标出现率Pw、Pc保存在存储装置。
合计部502从记述有字符串的对象文件组F中合计每个指定单词的出现频率。具体而言,例如,如图1所示,合计部502参照基础单词构造体,通过根据关注的单一字符的最长一致检索来检索将关注的单一字符作为前端字符的基础单词。而且,将被最长一致检索到的基础单词的记录追加登记到基础单词出现频率表101。已经完成追加登记的情况下,不需要追加登记。而且,在被最长一致检索到的基础单词的记录中对出现频率加1。
另外,合计部502从记述有字符串的对象文件组F中合计每个单一字符的出现频率。具体而言,例如,如图1所示,合计部502参照单一字符构造体,将关注的单一字符的记录追加登记到基础单词出现频率表101。已经完成追加登记的情况下,不需要追加登记。而且,在关注的单一字符的记录中对出现频率加1。
次序确定部503基于通过合计部502合计的每个指定单词的出现频率,确定到与指定单词有关的目标出现率为止的降序的次序。具体而言,例如,次序确定部503确定到通过设定部501设定的与基础单词有关的目标出现率Pw为止的降序的次序。即,如图1中说明,将基础单词出现频率表101以出现频率的降序排序。
而且,将关注的次序设为第x位,使x从x=1递增,同时将从第1位至第x位的基础单词群的累积出现频率除以全基础单词的总出现频率,从而计算到第x位为止的出现率。若计算的出现率为目标出现率Pw以内,则x递增,再次计算到第x位为止的出现率。
而且,在超过目标出现率Pw的情况下,使x减1来确定到目标出现率Pw为止的次序(减后的x的值)。由此,在出现频率的降序下,从第1位的基础单词至成为目标出现率Pw的次序的基础单词为止的基础单词群成为特定基础单词群。
另外,次序确定部503基于通过合计部502合计的每个单一字符的出现频率,确定到与单一字符有关的目标出现率为止的降序的次序。具体而言,例如,次序确定部503确定到通过设定部501设定的与单一字符有关的目标出现率Pc为止的降序的次序。即,如图1中说明,将单一字符出现频率表102以出现频率的降序排序。
而且,将关注的次序设为第y位,使y从y=1递增,同时将从第1位至第y位为止的单一字符群的累积出现频率除以全单一字符的总出现频率,从而计算到第y位为止的出现率。若计算的出现率为目标出现率Pc以内,则使y递增,再次计算到第y位为止的出现率。
而且,超过目标出现率Pc的情况下,使y减1,确定到目标出现率Pc为止的次序(减后的y的值)。由此,在出现频率的降序下,从第1位的单一字符至成为目标出现率Pc的次序的单一字符为止的单一字符群成为特定单一字符群。
检测部504从在对象文件组F中选择的对象文件中检测出到通过次序确定部503确定的降序的次序为止的特定的指定单词。具体而言,例如,将对象文件内的关注单一字符从前端每次移位1字符。此时,在通过次序确定部503确定的特定基础单词群中,通过最长一致检索来检测将关注的单一字符为前端字符的特定基础单词。
另外,检测部504从在对象文件组F中选择的对象文件中检测到通过次序确定部503确定的降序的次序为止的特定的单一字符。具体而言,例如,将对象文件内的关注单一字符从前端每次移位1字符。此时,检测出与通过次序确定部503确定的特定单一字符一致的关注单一字符。
分割部505将比通过次序确定部503确定的降序的次序低的次序的单一字符的字符码分割为高位的分割字符码和低位的分割字符码。具体而言,例如,如图2所示,将非特定单一字符分割为高位8位的高位分割字符码和低位8位的低位分割字符码。
生成部506生成针对通过检测部504检测的每个特定的指定单词,将该特定的指定单词的有无按每个对象文件表示的索引信息。具体而言,例如,生成部506生成针对通过检测部504检测的每个特定基础单词,将特定基础单词的有无按每个对象文件表示的特定基础单词出现映射M1。
而且,生成部506生成针对通过检测部504检测的每个特定的单一字符,将该特定的单一字符的有无按每个对象文件表示的索引信息。具体而言,例如,生成部506生成针对通过检测部504检测的每个特定单一字符,将特定单一字符的有无按每个对象文件表示的特定单一字符出现映射M2。
另外,生成部506生成针对通过分割部505分割的每个高位的分割字符码,将该分割字符码的有无按每个对象文件表示的索引信息(高位分割字符码出现映射M3)。而且,生成部506生成针对通过分割部505分割的每个低位的分割字符码,将该分割字符码的有无按每个对象文件表示的索引信息(低位分割字符码出现映射M4)。
另外,生成部506生成针对每个连接字符串,将该连接字符串的有无按每个对象文件表示的索引信息(连接字符串出现映射M5)。作为连接字符串,具体而言,例如有到通过次序确定部503确定的降序的次序为止的多个特定单一字符构成的连接字符串、特定单一字符和分割字符码混在一起的连接字符串。例如,2连接字符串中有特定单一字符的2连接字符串。
另外,2连接字符串中有以特定单一字符、高位分割字符码的顺序连接而成的连接字符串。而且,2连接字符串中有以低位分割字符码、特定单一字符的顺序连接而成的连接字符串。而且,2连接字符串中有以高位分割字符码、低位分割字符码的顺序连接而成的连接字符串(即,被分割的非特定字符)。而且,2连接字符串中有以低位分割字符码、高位分割字符码的顺序连接而成的连接字符串(即,被分割的2连接非特定字符的边界)。连接字符串出现映射M5中,对于出现这样的连接字符串的对象文件,将位设为ON。
<映射生成的具体例>
接下来,对映射生成的具体例进行说明。其中,本例中,将连接字符串的连接数设为2。而且,映射生成中,单一字符、2连接字符串、基础单词一次也没出现的情况下,生成其映射(文件编号1~n为止的n个的位列(值为“0”),将成为这次对象的对象文件Fi的位设为ON。另一方面,在已经生成对象文件F1~F(i-1)的情况下,将对象文件Fi的位设为ON。
图6是表示映射生成例(其1)的说明图。图6中,对象文件Fi内记述有“私の結婚活動の記録(我的结婚活动的记录)”这样的字符串。映射生成中,将前端字符作为对象字符,向末尾方向每次移位1字符。图中,以箭头指出的字符为对象字符。
(A)首先,前端字符“私”为对象字符。对象字符“私”是特定单一字符,所以指定特定单一字符“私”的特定单一字符出现映射M2。而且,对于特定单一字符“私”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,由于是前端字符,所以不生成2连接字符串出现映射M5。并且,从将对象字符“私”作为前端字符的“私の結婚活動の記録”中执行将对象字符“私”作为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(B)接下来,将对象字符移位1字符,对象字符成为“の”。首先,对象字符“の”是特定单一字符,所以指定特定单一字符“の”的特定单一字符出现映射M2。而且,对于特定单一字符“の”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,对象字符被移位到“の”的情况下,得到“私の”这样的2连接字符串,所以指定2连接字符串“私の”的2连接字符串出现映射M5。
而且,2连接字符串“私の”的2连接字符串出现映射M5中,将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“の”作为前端字符的“の結婚活動の記録”中执行将对象字符“の”为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(C)接下来,将对象字符移位1字符,对象字符成为“結”。首先,对象字符“結”为特定单一字符,所以指定特定单一字符“結”的特定单一字符出现映射M2。而且,对于特定单一字符“結”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,对象字符被移位到“結”的情况下,得到“の結”这样的2连接字符串,所以指定2连接字符串“の結”的2连接字符串出现映射M5。
而且,2连接字符串“の結”的2连接字符串出现映射M5中,将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“結”作为前端字符的“結婚活動の記録”中执行将对象字符“結”作为前端字符的特定基础单词的最长一致检索。此时,“結婚”最长一致,所以指定特定基础单词“結婚”的特定基础单词出现映射M1。而且,对于特定基础单词“結婚”的特定基础单词出现映射M1,将对象文件Fi的位设为ON(“0”→“1”)。
(D)接下来,将对象字符移位1字符,对象字符成为“婚”。首先,对象字符“婚”为特定单一字符,所以指定特定单一字符“婚”的特定单一字符出现映射M2。而且,对于特定单一字符“婚”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。而且,在对象字符被移位到“婚”的情况下,得到“結婚”这样的2连接字符串,所以指定2连接字符串“結婚”的2连接字符串出现映射M5。
而且,在2连接字符串“結婚”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“婚”为前端字符的“婚活動の記録”中执行将对象字符“婚”作为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(E)接下来,将对象字符移位1字符,对象字符成为“活”。首先,对象字符“活”为特定单一字符,所以指定单一字符“活”的单一字符出现映射。而且,对于特定单一字符“活”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到“活”的情况下,得到“婚活”这样的2连接字符串,所以指定2连接字符串“婚活”的2连接字符串出现映射M5。
而且,在2连接字符串“結活”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“活”作为前端字符的“活動の記録”中执行将对象字符“活”作为前端字符的特定基础单词的最长一致检索。此时,“活動”最长一致,所以指定特定基础单词“活動”的特定基础单词出现映射M1。而且,对于特定基础单词“活動”的特定基础单词出现映射M1,将对象文件Fi的位设为ON(“0”→“1”)。
(F)接下来,将对象字符移位1字符,对象字符成为“動”。首先,对象字符“動”为特定单一字符,所以指定特定单一字符“動”的特定单一字符出现映射M2。而且,对于特定单一字符“動”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到“動”的情况下,得到“活動”这样的2连接字符串,所以指定2连接字符串“活動”的2连接字符串出现映射M5。
而且,在2连接字符串“活動”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“動”作为前端字符的“動の記録”中执行将对象字符“動”为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(G)接下来,将对象字符移位1字符,对象字符成为“の”。首先,对象字符“の”为特定单一字符,所以指定特定单一字符“の”的特定单一字符出现映射M2。而且,对于对象字符“の”的特定单一字符出现映射M2,由于对象文件Fi的位已经在(B)中成为ON,所以什么也不做。而且,在对象字符被移位到“の”的情况下,得到“動の”这样的2连接字符串,所以指定2连接字符串“動の”的2连接字符串出现映射M5。
而且,在2连接字符串“動の”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“の”作为前端字符的“の記録”中执行将对象字符“の”作为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(H)接下来,将对象字符移位1字符,对象字符成为“記”。首先,对象字符“記”为特定单一字符,所以指定单一字符“記”的单一字符出现映射。而且,对于特定单一字符“記”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到“記”的情况下,得到“の記”这样的2连接字符串,所以指定2连接字符串“の記”的2连接字符串出现映射M5。
而且,在2连接字符串“の記”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“記”作为前端字符的“記録”中执行将对象字符“記”为前端字符的基础单词的最长一致检索。此时,“記録”最长一致,所以指定特定基础单词“記録”的特定基础单词出现映射M1。而且,对于特定基础单词“記録”的特定基础单词出现映射M1,将对象文件Fi的位设为ON(“0”→“1”)。
(I)接下来,将对象字符移位1字符,对象字符成为“録”。首先,对象字符“録”为特定单一字符,所以指定特定单一字符“録”的特定单一字符出现映射M2。而且,对于特定单一字符“録”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,对象字符被移位到“録”的情况下,得到“記録”这样的2连接字符串,所以指定2连接字符串“記録”的2连接字符串出现映射M5。
而且,在2连接字符串“記録”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“録”作为前端字符的“録”中执行将对象字符“録”作为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
图7是表示映射生成例(其2)的说明图。图7中表示包含分割字符码的情况的映射生成例。在分割了单一字符的情况下,将分割字符码作为1字符处理来进行移位。图7中,在对象文件Fi内记述有“竜馬は脱藩した”这样的字符串。
(A)首先,前端字符“竜”为对象字符。对象字符“竜”是特定单一字符,所以指定特定单一字符“竜”的特定单一字符出现映射M2。而且,对于特定单一字符“竜”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,由于是前端字符,所以不生成2连接字符串出现映射M5。并且,从将对象字符“竜”作为前端字符的“竜馬は脱藩した”中执行将对象字符“竜”作为前端字符的特定基础单词的最长一致检索。此时,由于没有最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(B)接下来,将对象字符移位1字符,对象字符成为“馬”。首先,对象字符“馬”是特定单一字符,所以指定特定单一字符“馬”的特定单一字符出现映射M2。而且,对于特定单一字符“馬”,将特定单一字符出现映射M2的对象文件Fi的位设为ON(“0”→“1”)。另外,对象字符被移位到“馬”的情况下,得到“竜馬”这样的2连接字符串,所以指定2连接字符串“竜馬”的2连接字符串出现映射M5。
而且,在2连接字符串“竜馬”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“馬”作为前端字符的“馬は脱藩した”中执行将对象字符“馬”作为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(C)接下来,将对象字符移位1字符,对象字符成为“は”。首先,对象字符“は”为特定单一字符,所以指定特定单一字符“は”的特定单一字符出现映射M2。而且,对于特定单一字符“は”,将特定单一字符出现映射M2的对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到“は”的情况下,得到“馬は”这样的2连接字符串,所以指定2连接字符串“馬は”的2连接字符串出现映射M5。
而且,在2连接字符串“馬は”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“は”作为前端字符的“は脱藩した”中执行将对象字符“は”为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(D)接下来,将对象字符移位1字符,对象字符成为“脱”。首先,对象字符“脱”不是特定单一字符,所以将对象字符“脱”的字符码“0x8131”分割为高位分割字符码“0x81”和低位分割字符码“0x31”。而且,将对象字符设为高位分割字符码“0x81”,指定高位分割字符码“0x81”的高位分割字符码出现映射M3。接下来,对于高位分割字符码“0x81”的高位分割字符码出现映射M3,将对象文件Fi的位设为ON(“0”→“1”)。另外,对象字符被移位到高位分割字符码“0x81”的情况下,得到“は0x81”这样的2连接字符串,所以指定2连接字符串“は0x81”的2连接字符串出现映射M5。
而且,在2连接字符串“は0x81”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“0x81”作为前端字符的“0x810x31藩した”中执行将对象字符“0x81”作为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(E)接下来,将对象字符移位1字符,对象字符成为低位分割字符码“0x31”。首先,指定低位分割字符码“0x31”的低位分割字符码出现映射M4。然后,对于低位分割字符码“0x31”的低位分割字符码出现映射M4,将对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到低位分割字符码“0x31”的情况下,得到“0x810x31”这样的2连接字符串,所以指定2连接字符串“0x810x31”的2连接字符串出现映射M5。
而且,在2连接字符串“0x810x31”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“0x31”作为前端字符的“0x31藩した”中执行将对象字符“0x31”作为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(F)接下来,将对象字符移位1字符,对象字符成为“藩”。首先,对象字符“藩”不是特定单一字符,所以将对象字符“藩”的字符码“0xE985”分割为高位分割字符码“0xE9”和低位分割字符码“0x85”。而且,将对象字符设为高位分割字符码“0xE9”,指定高位分割字符码“0xE9”的高位分割字符码出现映射M3。
接下来,对于高位分割字符码“0xE9”的高位分割字符码出现映射M3,将对象文件Fi的位设为ON(“0”→“1”)。另外,对象字符被移位到高位分割字符码“0xE9”的情况下,得到“0x310xE9”这样的2连接字符串,所以指定2连接字符串“0x310xE9”的2连接字符串出现映射M5。
而且,在2连接字符串“0x310xE9”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“0xE9”作为前端字符的“0xE90x85した”中执行将对象字符“0xE9”作为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(G)接下来,将对象字符移位1字符,对象字符成为低位分割字符码“0x85”。首先,指定低位分割字符码“0x85”的低位分割字符码出现映射M4。接下来,对于低位分割字符码“0x85”的低位分割字符码出现映射M4,将对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到低位分割字符码“0x85”的情况下,得到“0xE90x85”这样的2连接字符串,所以指定2连接字符串“0xE90x85”的2连接字符串出现映射M5。
然后,在2连接字符串“0xE90x85”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“0x85”作为前端字符的“0x85した”中执行将对象字符“0x85”作为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(H)接下来,将对象字符移位1字符,对象字符成为“し”。首先,对象字符“し”是特定单一字符,所以指定特定单一字符“し”的特定单一字符出现映射M2。而且,对于特定单一字符“し”,将特定单一字符出现映射M2的对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到“し”的情况下,得到“0x85し”这样的2连接字符串,所以指定2连接字符串“0x85し”的2连接字符串出现映射M5。
而且,在2连接字符串“0x85し”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“し”作为前端字符的“した”中执行将对象字符“し”作为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
(I)接下来,将对象字符移位1字符,对象字符成为“た”。首先,对象字符“た”是特定单一字符,所以指定特定单一字符“た”的特定单一字符出现映射M2。然后,对于特定单一字符“た”,将特定单一字符出现映射M2的对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到“た”的情况下,得到“した”这样的2连接字符串,所以指定2连接字符串“した”的2连接字符串出现映射M5。
然后,在2连接字符串“した”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“た”作为前端字符的“た”中执行将对象字符“た”作为前端字符的特定基础单词的最长一致检索。此时,由于不存在最长一致的特定基础单词,所以不生成特定基础单词出现映射M1。
图8-1以及图8-2是表示映射生成例(其3)的说明图。图8-1以及图8-2中,对象文件Fi内记述有英文字符串“that□is□a□pen”。此外,“□”是空格。空格也作为1字符处理。
(A)首先,前端字符“t”为对象字符。对象字符“t”为特定单一字符,所以指定特定单一字符“t”的特定单一字符出现映射M2。然后,对于特定单一字符“t”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,由于是前端字符,不生成2连接字符串出现映射M5。
并且,从将对象字符“t”作为前端字符的“that□is□a□pen”中执行将对象字符“t”作为前端字符的特定基础单词的最长一致检索。此时,“that”(代名词)最长一致,所以指定特定基础单词“that”的特定基础单词出现映射M1。然后,对于特定基础单词“that”的特定基础单词出现映射M1,将对象文件Fi的位设为ON(“0”→“1”)。
(B)接下来,将对象字符移位1字符,对象字符成为“h”。首先,对象字符“h”是特定单一字符,所以指定特定单一字符“h”的特定单一字符出现映射M2。然后,对于特定单一字符“h”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。而且,在对象字符被移位到“h”的情况下,得到“th”这样的2连接字符串,所以指定2连接字符串“th”的2连接字符串出现映射M5。
而且,在2连接字符串“th”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。其中,英文单词中重视前方一致的检索,所以英文单词的字符串的中途不进行特定基础单词的最长一致检索。
(C)接下来,将对象字符移位1字符,对象字符成为“a”。首先,对象字符“a”是特定单一字符,所以指定特定单一字符“a”的特定单一字符出现映射M2。然后,对于特定单一字符“a”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到“a”的情况下,得到“ha”这样的2连接字符串,所以指定2连接字符串“ha”的2连接字符串出现映射M5。
而且,在2连接字符串“ha”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(D)接下来,将对象字符移位1字符,对象字符成为“t”。首先,对象字符“t”为特定单一字符,所以指定特定单一字符“t”的特定单一字符出现映射M2。然后,对于对象字符“t”的特定单一字符出现映射M2,对象文件Fi的位已经在(A)中成为ON,所以什么也不变。而且,对象字符被移位到“t”的情况下,得到“at”这样的2连接字符串,所以指定2连接字符串“at”的2连接字符串出现映射M5。
而且,在2连接字符串“at”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(E)接下来,将对象字符移位1字符,对象字符成为“□”。首先,对象字符“□”为特定单一字符,所以指定特定单一字符“□”的特定单一字符出现映射M2。然后,对于特定单一字符“□”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到“□”的情况下,得到“t□”这样的2连接字符串,所以指定2连接字符串“t□”的2连接字符串出现映射M5。
而且,在2连接字符串“t□”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(F)接下来,将对象字符移位1字符,对象字符成为“i”。对象字符“i”为特定单一字符,所以指定特定单一字符“i”的特定单一字符出现映射M2。然后,对于特定单一字符“i”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到“i”的情况下,得到“□i”这样的2连接字符串,所以指定2连接字符串“□i”的2连接字符串出现映射M5。
而且,在2连接字符串“□i”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“i”作为前端字符的“is□a□pen”中执行将对象字符“i”作为前端字符的特定基础单词的最长一致检索。此时,“is”(be动词)最长一致,所以指定特定基础单词“is”的特定基础单词出现映射M1。而且,对于特定基础单词“is”的特定基础单词出现映射M1,将对象文件Fi的位设为ON(“0”→“1”)。
(G)接下来,将对象字符移位1字符,对象字符成为“s”。对象字符“s”为特定单一字符,所以指定特定单一字符“s”的特定单一字符出现映射M2。然后,对于特定单一字符“s”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到“s”的情况下,得到“is”这样的2连接字符串,所以指定2连接字符串“is”的2连接字符串出现映射M5。
而且,在2连接字符串“is”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(H)接下来,将对象字符移位1字符,对象字符成为“□”。首先,对象字符“□”为特定单一字符,所以指定特定单一字符“□”的特定单一字符出现映射M2。而且,对于对象字符“□”的特定单一字符出现映射M2,对象文件Fi的位已经在(E)中成为ON,所以什么也不变。另外,对象字符被移位到“□”的情况下,得到“s□”这样的2连接字符串,所以指定2连接字符串“s□”的2连接字符串出现映射M5。
而且,在2连接字符串“s□”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(I)接下来,将对象字符移位1字符,对象字符成为“a”。首先,对象字符“a”为特定单一字符,所以指定特定单一字符“a”的特定单一字符出现映射M2。而且,对于对象字符“a”的特定单一字符出现映射M2,对象文件Fi的位已经在(C)中成为ON,所以什么也不变。而且,对象字符被移位到“a”的情况下,得到“□a”这样的2连接字符串,所以指定2连接字符串“□a”的2连接字符串出现映射M5。
而且,在2连接字符串“□a”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“a”作为前端字符的“a□pen”中执行将对象字符“a”作为前端字符的特定基础单词的最长一致检索。此时,“a”(不定冠词)最长一致,所以指定特定基础单词“a”的特定基础单词出现映射M1。而且,对于特定基础单词“a”的特定基础单词出现映射M1,将对象文件Fi的位设为ON(“0”→“1”)。
(J)接下来,将对象字符移位1字符,对象字符成为“□”。首先,对象字符“□”为特定单一字符,所以指定特定单一字符“□”的特定单一字符出现映射M2。而且,对于对象字符“□”的特定单一字符出现映射M2,对象文件Fi的位已经在(E)中成为ON,所以什么也不做。另外,对象字符被移位到“□”的情况下,得到“a□”这样的2连接字符串,所以指定2连接字符串“a□”的2连接字符串出现映射M5。
而且,在2连接字符串“a□”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(K)接下来,将对象字符移位1字符,对象字符成为“p”。首先,对象字符“p”为特定单一字符,所以指定特定单一字符“p”的特定单一字符出现映射M2。而且,对于特定单一字符“p”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到“p”的情况下,得到“□p”这样的2连接字符串,所以指定2连接字符串“□p”的2连接字符串出现映射M5。
而且,在2连接字符串“□p”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。并且,从将对象字符“p”作为前端字符的“pen”中执行将对象字符“p”作为前端字符的特定基础单词的最长一致检索。此时,“pen”(笔)最长一致,所以指定特定基础单词“pen”的特定基础单词出现映射M1。而且,对于特定基础单词“pen”的特定基础单词出现映射M1,将对象文件Fi的位设为ON(“0”→“1”)。
(L)接下来,将对象字符移位1字符,对象字符成为“e”。首先,对象字符“e”为特定单一字符,所以指定特定单一字符“e”的特定单一字符出现映射M2。而且,对于特定单一字符“e”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。而且,对象字符被移位到“e”的情况下,得到“pe”这样的2连接字符串,所以指定2连接字符串“pe”的2连接字符串出现映射M5。
而且,在2连接字符串“pe”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(M)接下来,将对象字符移位1字符,对象字符成为“n”。首先,对象字符“n”为特定单一字符,所以指定特定单一字符“n”的特定单一字符出现映射M2。而且,对于特定单一字符“n”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,对象字符被移位到“n”的情况下,得到“en”这样的2连接字符串,所以指定2连接字符串“en”的2连接字符串出现映射M5。
而且,在2连接字符串“en”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
图9是表示映射生成例(其4)的说明图。图9中,对象文件Fi内记述有英文单词“internal”。
(A)首先,前端字符“i”为对象字符。对象字符“i”为特定单一字符,所以指定特定单一字符“i”的特定单一字符出现映射M2。而且,对于特定单一字符“i”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,由于是前端字符,所以不生成2连接字符串出现映射M5。并且,从将对象字符“i”作为前端字符的“internal”中执行将对象字符“i”作为前端字符的特定基础单词的最长一致检索。
此时,“internal”不是特定基础单词所以不是最长一致,但“inter”(内)最长一致,所以指定特定基础单词“inter”的特定基础单词出现映射M1。而且,对于特定基础单词“inter”的特定基础单词出现映射M1,将对象文件Fi的位设为ON(“0”→“1”)。
(B)接下来,将对象字符移位1字符,对象字符成为“n”。首先,对象字符“n”为特定单一字符,所以指定特定单一字符“n”的特定单一字符出现映射M2。而且,对于特定单一字符“n”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,对象字符被移位到“n”的情况下,得到“in”这样的2连接字符串,所以指定2连接字符串“in”的2连接字符串出现映射M5。
而且,在2连接字符串“in”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(C)接下来,将对象字符移位1字符,对象字符成为“t”。首先,对象字符“t”为特定单一字符,所以指定特定单一字符“t”的特定单一字符出现映射M2。而且,对于特定单一字符“n”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,对象字符被移位到“t”的情况下,得到“nt”这样的2连接字符串,所以指定2连接字符串“nt”的2连接字符串出现映射M5。
而且,在2连接字符串“nt”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(D)接下来,将对象字符移位1字符,对象字符成为“e”。首先,对象字符“e”为特定单一字符,所以指定特定单一字符“e”的特定单一字符出现映射M2。另外,对象字符被移位到“e”的情况下,得到“te”这样的2连接字符串,所以指定2连接字符串“te”的2连接字符串出现映射M5。
而且,在2连接字符串“te”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(E)接下来,将对象字符移位1字符,对象字符成为“r”。首先,对象字符“r”为特定单一字符,所以指定特定单一字符“r”的特定单一字符出现映射M2。而且,对于特定单一字符“r”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,对象字符被移位到“n”的情况下,得到“er”这样的2连接字符串,所以指定2连接字符串“er”的2连接字符串出现映射M5。
而且,在2连接字符串“er”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(F)接下来,将对象字符移位1字符,对象字符成为“n”。首先,对象字符“n”为特定单一字符,所以指定特定单一字符“n”的特定单一字符出现映射M2。而且,对于对象字符“n”的特定单一字符出现映射M2,对象文件Fi的位已经在(B)中成为ON,所以什么也不变。另外,对象字符被移位到“n”的情况下,得到“rn”这样的2连接字符串,所以指定2连接字符串“rn”的2连接字符串出现映射M5。
而且,在2连接字符串“rn”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(G)接下来,将对象字符移位1字符,对象字符成为“a”。对象字符“a”为特定单一字符,所以指定特定单一字符“a”的特定单一字符出现映射M2。而且,对于特定单一字符“a”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,对象字符被移位到“a”的情况下,得到“na”这样的2连接字符串,所以指定2连接字符串“na”的2连接字符串出现映射M5。
而且,在2连接字符串“na”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
(H)最后,将对象字符移位1字符,对象字符成为“l”。对象字符“l”为特定单一字符,所以指定特定单一字符“l”的特定单一字符出现映射M2。而且,对于特定单一字符“l”的特定单一字符出现映射M2,将对象文件Fi的位设为ON(“0”→“1”)。另外,对象字符被移位到“l”的情况下,得到“al”这样的2连接字符串,所以指定2连接字符串“al”的2连接字符串出现映射M5。
而且,在2连接字符串“al”的2连接字符串出现映射M5中将对象文件Fi的位设为ON(“0”→“1”)。
<信息生成处理顺序>
图10是表示信息生成装置500的信息生成处理顺序的流程图。信息生成装置500执行合计处理(步骤S1001)、映射分配数决定处理(步骤S1002)、映射生成处理(步骤S1003)。合计处理(步骤S1001)、映射分配数决定处理(步骤S1002)、映射生成处理(步骤S1003)的详细内容后述。
图11是表示图10所示的合计处理(步骤S1001)的详细的处理顺序的流程图。首先,信息生成装置500将文件编号i设定为i=1(步骤S1101),读取对象文件Fi(步骤S1102)。而且,信息生成装置500执行对象文件Fi的合计处理(步骤S1103)。之后,信息生成装置500判断文件编号i是否为i>n(n是对象文件F1~Fn的总数)(步骤S1104)。
在不是i>n的情况下(步骤S1104:“否”),信息生成装置500将i递增(步骤S1105),返回步骤S1102。另一方面,在i>n的情况下(步骤S1104:“是”),信息生成装置500移至映射分配数决定处理(步骤S1002),结束合计处理(步骤S1001)。根据该合计处理(步骤S1001),能够按每个对象文件Fi执行对象文件Fi的合计处理(步骤S1103)。
图12是表示图11所示的对象文件Fi的合计处理(步骤S1103)的详细的处理顺序的流程图。首先,信息生成装置500将对象字符作为对象文件Fi的前端字符(步骤S1201),执行基础单词合计处理(步骤S1202)。之后,信息生成装置500在单一字符出现频率表102中对对象字符的出现次数加1(步骤S1203)。而且,信息生成装置500判断对象字符是否为对象文件Fi的末尾字符(步骤S1204)。
对象字符不是对象文件Fi的末尾字符的情况下(步骤S1204:“否”),信息生成装置500将对象字符向末尾方向移位1字符(步骤S1205),返回步骤S1202。另一方面,对象字符为对象文件Fi的末尾字符的情况下(步骤S1204:“是”),信息生成装置500移至步骤S1104,结束对象文件Fi的合计处理(步骤S1103)。根据该对象文件Fi的合计处理(步骤S1103),能够合计存在于对象文件组F的基础单词以及单一字符的出现频率。
图13是表示图12所示的基础单词合计处理(步骤S1202)的详细的处理顺序的流程图。首先,信息生成装置500执行最长一致检索处理(步骤S1301),判断是否有最长一致的基础单词(步骤S1302)。有最长一致的基础单词的情况下(步骤S1302:“是”),信息生成装置500在基础单词出现频率表101中对最长一致的基础单词的出现次数加1(步骤S1303),移至步骤S1203。
另一方面,没有最长一致的基础单词的情况下(步骤S1302:“否”),移至步骤S1203。由此,结束基础单词合计处理(步骤S1202)。根据该基础单词合计处理(步骤S1202),能够通过最长一致检索处理(步骤S1301)对基础单词进行计数,所以能够对字符串长的基础单词优先进行计数。
图14是表示图13所示的最长一致检索处理(步骤S1301)的详细的处理顺序的流程图。首先,信息生成装置500设定c=1(步骤S1401)。c是从对象字符起的字符数(包含对象字符)。c=1的情况下,只是对象字符。接下来,信息生成装置500在基础单词构造体检索与从对象字符至第c字符为止的对象字符串前方一致的基础单词(步骤S1402)。而且,信息生成装置500通过检索判断是否有基础单词(步骤S1403)。通过二分查找没有找出基础单词的情况下(步骤S1403:“否”),移至步骤S1406。
另一方面,通过二分查找找出了基础单词的情况下(步骤S1403:“是”),信息生成装置500判断找出的基础单词与对象字符串是否完全一致(步骤S1404)。而且,在不是完全一致的情况下(步骤S1404:“否”),移至步骤S1406。另一方面,完全一致的情况下(步骤S1404:“是”),信息生成装置500作为最长一致候补保存至存储装置(步骤S1405),移至步骤S1406。
在步骤S1406中,信息生成装置500判断对于对象字符串二分查找是否结束(步骤S1406)。具体而言,信息生成装置500判断二分查找是否进行至末尾的基础单词。二分查找没有结束的情况下(步骤S1406:“否”),信息生成装置500移至步骤S1402,继续直至二分查找结束。
另一方面,对于对象字符串,二分查找结束的情况下(步骤S1406:“是”),信息生成装置500判断第c字符的字符是否为对象文件Fi的末尾字符(步骤S1407)。在第c字符的字符为对象文件Fi的末尾字符的情况下(步骤S1407:“是”),移至步骤S1410。另一方面,在第c字符的字符不是对象文件Fi的末尾字符的情况下(步骤S1407:“否”),信息生成装置500判断是否为c>cmax(步骤S1408)。cmax是预先设定的值,由此设定对象字符串的上限字符数。
在不是c>cmax的情况下(步骤S1408:“否”),信息生成装置500将c递增(步骤S1409),返回步骤S1402。另一方面,c>cmax的情况下(步骤S1408:“是”),信息生成装置500判断是否有最长一致候补(步骤S1410)。具体而言,信息生成装置500判断是否在步骤S1405中至少有一个最长一致候补保存在存储器。
在有最长一致候补的情况下(步骤S1410:“是”),信息生成装置500将最长一致候补中最长字符串决定为最长一致的基础单词(步骤S1411)。而且,移至步骤S1302。另一方面,在步骤S1410中,没有一个最长一致候补的情况下(步骤S1410:“否”),移至步骤S1302。由此,结束最长一致检索处理(步骤S1301)。根据该最长一致检索处理(步骤S1301),能够从基础单词构造体中的基础单词中,检索完全一致的字符串中的最长的字符串作为基础单词。
图15是表示图10所示的映射分配数决定处理(步骤S1002)的详细的处理顺序的流程图。首先,信息生成装置500将通过合计处理(步骤S1001)得到的表示每个基础单词的出现频率的基础单词出现频率表101和表示每个单一字符的出现频率的单一字符出现频率表102按出现频率从高到低的顺序排序(步骤S1501)。而且,信息生成装置500参照排序后的基础单词出现频率表101,将基础单词的出现次序Rw设为Rw=1(步骤S1502),对到出现次序Rw为止的累积出现次数Arw进行计数(步骤S1503)。而且,信息生成装置500判断是否满足下述式(1)(步骤S1504)。
Arw>Pw×Aw···(1)
Aw是合计的基础单词的总出现次数。
不满足上述(1)式的情况下(步骤S1504:“否”),信息生成装置500将出现次序Rw递增(步骤S1505),返回步骤S1503。即,直到满足上述式(1),持续降低出现次序Rw。
而且,满足上述式(1)的情况下(步骤S1504:“是”),信息生成装置500将基础单词的映射分配数Nw设为Nw=Rw-1(步骤S1506)。这里,映射分配数Nw意味着特定基础单词出现映射M1的记录数(行数)。
另外,信息生成装置500将单一字符的出现次序Rc设为Rc=1(步骤S1507),对到出现次序Rc为止的累积出现次数Arc进行计数(步骤S1508)。而且,信息生成装置500判断是否满足下述式(2)(步骤S1509)。
Arc>Pc×Ac···(2)
Ac是合计的单一字符的总出现次数。
不满足上述(2)式的情况下(步骤S1509:“否”),信息生成装置500将出现次序Rc递增(步骤S1510),返回步骤S1508。即,直至满足上述式(2)持续降低出现次序Rc。
而且,满足上述式(2)的情况下(步骤S1509:“是”),信息生成装置500将单一字符的映射分配数Nc设为Nc=Rc-1(步骤S1511)。这里,映射分配数Nc意味着特定单一字符出现映射M2的记录数(行数)。之后,移至映射生成处理(步骤S1003),结束映射分配数决定处理(步骤S1002)。
根据该映射分配数决定处理(步骤S1002),能够对于与目标出现率Pw对应的数的基础单词生成特定基础单词出现映射M1。因此,不用对于全部的基础单词进行映射分配,根据目标出现率Pw来决定,所以能够实现映射大小的最佳化。
另外,针对单一字符,也能够对于与目标出现率Pc对应的数的单一字符生成特定单一字符出现映射M2。因此,不用对全部的单一字符进行映射分配,根据目标出现率Pc来决定,所以能够实现映射大小的最佳化。
图16是表示图10所示的映射生成处理(步骤S1003)的详细的处理顺序的流程图。首先,信息生成装置500将文件编号i设为i=1(步骤S1601),读取对象文件Fi(步骤S1602)。而且,信息生成装置500执行对象文件Fi的映射生成处理(步骤S1603)。之后,信息生成装置500判断文件编号i是否为i>n(n是对象文件F1~Fn的总数)(步骤S1604)。
在不是i>n的情况下(步骤S1604:“否”),信息生成装置500将i递增(步骤S1605),返回步骤S1602。另一方面,在i>n的情况下(步骤S1604:“是”),映射生成处理(步骤S1003)结束。根据该映射生成处理(步骤S1003),能够按每个对象文件Fi执行对象文件Fi的映射生成处理(步骤S1603)。
图17是表示图16所示的对象文件Fi的映射生成处理(步骤S1603)的详细的处理顺序的流程图。首先,信息生成装置500将对象字符作为对象文件Fi的前端字符(步骤S1701),执行特定基础单词出现映射生成处理(步骤S1702)、特定单一字符出现映射生成处理(步骤S1703)、连接字符串出现映射生成处理(步骤S1704)。之后,信息生成装置500判断对象字符是否为对象文件Fi的末尾字符(步骤S1705)。
对象字符不是对象文件Fi的末尾字符的情况下(步骤S1705:“否”),信息生成装置500将对象字符向末尾方向移位1字符(步骤S1706),返回步骤S1702。另一方面,在对象字符为对象文件Fi的末尾字符的情况下(步骤S1705:“是”),移至步骤S1604,结束对象文件Fi的映射生成处理(步骤S1603)。
根据该对象文件Fi的映射生成处理(步骤S1603),能够一边将对象字符每次移位1字符,一边同时并行生成特定基础单词出现映射M1、特定单一字符出现映射M2以及连接字符串出现映射M5。
图18是表示图17所示的特定基础单词出现映射生成处理(步骤S1702)的详细的处理顺序的流程图。首先,信息生成装置500对于对象字符执行最长一致检索处理(步骤S1801)。最长一致检索处理(步骤S1801)的详细的处理顺序为与图14所示的最长一致检索处理(步骤S1301)相同处理内容。
而且,信息生成装置500判断是否有最长一致的基础单词,即,特定基础单词(步骤S1802)。没有最长一致的基础单词的情况下(步骤S1802:“否”),移至特定单一字符出现映射生成处理(步骤S1703)。另一方面,有最长一致的基础单词的情况下(步骤S1802:“是”),信息生成装置500判断对于该最长一致的基础单词是否设定完特定基础单词出现映射M1(步骤S1803)。
设定完的情况下(步骤S1803:“是”),移至步骤S1805。另一方面,没有设定完的情况下(步骤S1803:“否”),信息生成装置500对于最长一致的基础单词设定特定基础单词出现映射M1(步骤S1804),移至步骤S1805。
具体而言,信息生成装置500将最长一致的基础单词作为特定基础单词登记至特定基础单词出现映射M1的特定基础单词项目,将与其文件编号对应的位列全部设为0。之后,在步骤S1805中,将最长一致的基础单词的特定基础单词出现映射M1的对象文件Fi的位设为ON(步骤S1805)。
由此,特定基础单词出现映射生成处理(步骤S1702)结束,移至特定单一字符出现映射生成处理(步骤S1703)。根据该特定基础单词出现映射生成处理(步骤S1702),能够按每个对象字符将最长一致的基础单词作为特定基础单词进行映射生成。
图19是表示图17所示的特定单一字符出现映射生成处理(步骤S1703)的详细的处理顺序的流程图。首先,信息生成装置500对于单一字符构造体进行对象字符的二分查找(步骤S1901),判断是否一致(步骤S1902)。在没有一致的单一字符的情况下(步骤S1902:“否”),信息生成装置500执行分割字符码出现映射生成处理(步骤S1903),移至连接字符串出现映射生成处理(步骤S1704)。分割字符码出现映射生成处理(步骤S1903)的详细内容后述。
另一方面,在步骤S1902中,通过二分查找有与对象字符一致的单一字符的情况下(步骤S1902:“是”),信息生成装置500判断对于该二分查找得到的对象字符,是否设定完特定单一字符出现映射M2(步骤S1904)。在设定完的情况下(步骤S1904:“是”),移至步骤S1906。另一方面,没有设定完的情况下(步骤S1904:“否”),信息生成装置500对于二分查找得到的单一字符,设定特定单一字符出现映射M2(步骤S1905),移至步骤S1906。
具体而言,信息生成装置500将二分查找得到的单一字符作为特定单一字符登记至特定单一字符出现映射M2的特定单一字符项目,将与其文件编号对应的位列全部设为0。之后,在步骤S1906中,信息生成装置500将二分查找得到的单一字符的特定单一字符出现映射M2的对象文件Fi的位设为ON(步骤S1906)。
由此,特定单一字符出现映射生成处理(步骤S1703)结束,移至连接字符串出现映射生成处理(步骤S1704)。根据该特定单一字符出现映射生成处理(步骤S1703),能够将二分查找得到的对象字符作为特定单一字符进行映射生成。
图20是表示图19所示的分割字符码出现映射生成处理(步骤S1903)的详细的处理顺序的流程图。首先,信息生成装置500分割对象字符(步骤S2001),判断对于从对象字符分割的高位分割字符码,是否设定完高位分割字符码出现映射M3(步骤S2002)。在设定完的情况下(步骤S2002:“是”),移至步骤S2004。另一方面,在没有设定完的情况下(步骤S2002:“否”),信息生成装置500对于从对象字符分割的高位分割字符码设定高位分割字符码出现映射M3(步骤S2003),移至步骤S2004。
具体而言,信息生成装置500将从对象字符分割的高位分割字符码登记至高位分割字符码出现映射M3的高位分割字符码项目,将与其文件编号对应的位列全部设为0。之后,在步骤S2004中,信息生成装置500将从对象字符分割的高位分割字符码的高位分割字符码出现映射M3的对象文件Fi的位设为ON(步骤S2004)。
另外,信息生成装置500判断对于从对象字符分割的低位分割字符码,是否设定完低位分割字符码出现映射M4(步骤S2005)。在设定完的情况下(步骤S2005:“是”),移至步骤S2007。另一方面,没有设定完的情况下(步骤S2005:“否”),信息生成装置500对于从对象字符分割的低位分割字符码设定低位分割字符码出现映射M4(步骤S2006),移至步骤S2007。
具体而言,信息生成装置500将从对象字符分割的低位分割字符码登记至低位分割字符码出现映射M4的低位分割字符码项目,将与其文件编号对应的位列全部设为0。之后,在步骤S2007中,信息生成装置500将从对象字符分割的低位分割字符码的低位分割字符码出现映射M4的对象文件Fi的位设为ON(步骤S2007)。
由此,分割字符码出现映射生成处理(步骤S1903)结束,移至连接字符串出现映射生成处理(步骤S1704)。根据该分割字符码出现映射生成处理(步骤S1903),对于比与目标出现率Pc对应的次序低的单一字符,出现频率低,所以出现较多OFF的位。
然而,通过设为特定单一字符出现映射M2的生成对象外,能够实现特定单一字符出现映射M2的映射大小的最佳化。另外,通过分割,对于比与目标出现率Pc对应的次序低的单一字符设定在高位分割字符码出现映射M3以及低位分割字符码出现映射M4这样的映射大小固定化的映射。因此,不管目标出现率Pc设定为怎样的出现率,高位分割字符码出现映射M3以及低位分割字符码出现映射M4不变,所以能够防止映射大小的增大化,能够实现省存储器化。
图21是表示图17所示的连接字符串出现映射生成处理(步骤S1704)的详细的处理顺序的流程图。首先,信息生成装置500对于对象字符,执行连接字符串确定处理(步骤S2101)。连接字符串确定处理(步骤S2101)的详细内容后述。信息生成装置500在连接字符串确定处理(步骤S2101)之后,在没有与对象字符有关的连接字符串的情况下(步骤S2102:“否”),移至步骤S1705。
另一方面,有与对象字符有关的连接字符串的情况下(步骤S2102:“是”),信息生成装置500判断对于与对象字符有关的连接字符串,是否设定完连接字符串出现映射M5(步骤S2103)。在设定完的情况下(步骤S2103:“是”),移至步骤S2105。另一方面,没有设定完的情况下(步骤S2103:“否”),信息生成装置500对于与对象字符有关的连接字符串,设定连接字符串出现映射M5(步骤S2104),移至步骤S2105。
具体而言,信息生成装置500将与对象字符有关的连接字符串登记至连接字符串出现映射M5的连接字符串项目,将与其文件编号对应的位列全部设为0。之后,在步骤S2105中,信息生成装置500将与对象字符有关的连接字符串的连接字符串出现映射M5的对象文件Fi的位设为ON(步骤S2105)。由此,连接字符串出现映射生成处理(步骤S1704)结束,移至步骤S1705。根据该连接字符串出现映射生成处理(步骤S1704),能够按每个与对象字符有关的连接字符串来进行映射生成。
图22是表示图21所示的连接字符串确定处理(步骤S2101)的详细的处理顺序的流程图。首先,信息生成装置500对于对象字符,判断对象字符是否被分割(步骤S2201)。即,信息生成装置500判断对象字符是否为分割字符码。在没有被分割的情况下(步骤S2201:“否”),即,单一字符的情况下,信息生成装置500判断是否有前一个字符(步骤S2202)。
有前一个字符的情况下(步骤S2202:“是”),信息生成装置500判断前一个字符是否被分割(步骤S2203)。即,信息生成装置500判断前一个字符是否为分割字符码。在没有被分割的情况下(步骤S2203:“否”),即,单一字符的情况下,信息生成装置500将由对象字符的前一个单一字符和对象字符(单一字符)构成的字符串决定为连接字符串(步骤S2204)。而且,移至步骤S2102。
另一方面,在步骤S2203中,在前一个字符被分割的情况下(步骤S2203:“是”),即,为分割字符码的情况下,作为其前一个字符的分割字符码成为低位分割字符码。因此,信息生成装置500将由作为前一个字符的低位分割字符码和对象字符构成的字符串决定为连接字符串(步骤S2205)。而且,移至步骤S2102。
另外,在步骤S2202中,没有前一个字符的情况下(步骤S2202:“否”),由于只有对象字符,所以不决定连接字符串,移至步骤S2102。
另外,在步骤S2201中,对象字符被分割的情况下(步骤S2201:“是”),即,为分割字符码的情况下,信息生成装置500判断该分割字符码是高位分割字符码还是低位分割字符码(步骤S2206)。
在高位分割字符码的情况下(步骤S2206:高位),信息生成装置500判断前一个字符是否被分割(步骤S2207)。即,判断前一个字符是否为分割字符码。在没有被分割的情况下(步骤S2207:“否”),即,单一字符的情况下,信息生成装置500将由对象字符的前一个单一字符和从对象字符分割的高位分割字符码构成的字符串决定为连接字符串(步骤S2208)。而且,移至步骤S2102。
另一方面,在步骤S2207中,前一个字符被分割的情况下(步骤S2207:“是”),即,为分割字符码的情况下,作为其前一个字符的分割字符码成为低位分割字符码。因此,信息生成装置500将由作为前一个字符的低位分割字符码和从对象字符分割的高位分割字符码构成的字符串决定为连接字符串(步骤S2209)。而且,移至步骤S2102。
另外,在步骤S2206中,为低位分割字符码的情况下(步骤S2206:低位),信息生成装置500将从对象字符分割的高位分割字符码以及低位分割字符码构成的字符串决定为连接字符串(步骤S2210)。而且,移至步骤S2102。
根据该连接字符串确定处理(步骤S2101),即使在对象字符被分割的情况下也能够确定连接字符串。另外,由于基于1字符移位确定连接字符串,所以能够同时并行生成特定基础单词出现映射M1以及特定单一字符出现映射M2。
这样,根据上述的信息生成,由于利用目标出现率Pw,Pc来限制映射生成的基础单词数以及单一字符数,所以无需不必要的映射生成,能够同时实现映射生成的高速化以及映射大小的最佳化。另外,通过1字符移位能够同时并行执行多种类的映射生成,能够实现用于高精度的检索的多种类的映射生成的效率化。
[信息检索程序/装置/方法]
接下来,对于信息检索程序、信息检索装置以及信息检索方法进行说明。信息检索程序、信息检索装置以及信息检索方法中,利用通过信息生成程序、信息生成装置以及信息生成方法生成的各种映射执行检索。此外,信息检索装置的硬件构成例与图4所示的硬件构成例相同。另外,信息检索装置可以是与信息生成装置500一体型的计算机,也可以是分别独立的计算机。
<信息检索装置的功能构成>
图23是表示信息检索装置的功能构成例的框图。信息检索装置2300具备输入部2301、分割部2302、文件确定部2303、锁定部2304、检索部2305、输出部2306。输入部2301~输出部2306具体而言,例如,通过使CPU401执行图4所示的ROM402、RAM403、磁盘405、光盘407等的存储装置中存储的程序,或者,通过I/F409,实现其功能。
输入部2301接受检索字符串的输入。具体而言,例如,通过键盘410或鼠标411等的输入装置的操作输入,而接受检索字符串的输入。
分割部2302将构成检索字符串的单一字符中不符合特定的单一字符的单一字符的字符码分割为高位的分割字符码和低位的分割字符码。具体而言,例如,将不符合登记在上述的特定单一字符出现映射M2的特定单一字符项目的特定单一字符的单一字符的字符码分割为高位分割字符码和低位分割字符码。
文件确定部2303通过参照按照每个对象文件表示在记述有字符串的对象文件组F中存在的指定单词中是否有对应于与该指定单词有关的目标出现率的降序的次序以内的特定的指定单词的索引信息,确定检索字符串存在的对象文件。具体而言,例如,通过参照上述的特定基础单词出现映射M1,确定检索字符串存在的对象文件。
另外,文件确定部2303通过参照按照每个对象文件表示在记述有字符串的对象文件组F中存在的单一字符中是否有对应于与该单一字符有关的目标出现率的降序的次序以内的特定的单一字符的索引信息,确定构成检索字符串的各单一字符存在的对象文件。具体而言,例如,通过参照上述的特定单一字符出现映射M2,确定检索字符串存在的对象文件。
另外,文件确定部2303通过参照按照每个对象文件表示是否有被分割部2302分割的高位的分割字符码的索引信息,确定高位的分割字符码存在的对象文件。具体而言,例如,文件确定部2303通过参照上述的高位分割字符码出现映射M3,确定被分割部2302分割的高位分割字符码存在的对象文件。
相同地,文件确定部2303通过参照按照每个对象文件表示是否有被分割部2302分割的低位的分割字符码的索引信息,确定低位的分割字符码存在的对象文件。具体而言,例如,文件确定部2303通过参照上述的低位分割字符码出现映射M4,确定被分割部2302分割的低位分割字符码存在的对象文件。
另外,文件确定部2303通过参照针对在对象文件组F中存在的单一字符中到对应于与该单一字符有关的目标出现率的降序的次序为止的单一字符连接而成的每个连接字符串,将该连接字符串的有无按每个对象文件表示的索引信息,确定构成检索字符串的各连接字符串存在的对象文件。具体而言,例如,文件确定部2303通过参照上述的连接字符串出现映射M5,确定构成检索字符串的各连接字符串存在的对象文件。
另外,文件确定部2303通过参照针对在对象文件组F中存在的单一字符中到对应于与单一字符有关的目标出现率的降序的次序为止的特定的单一字符和高位的分割字符码连接而成的每个连接字符串,将该连接字符串的有无按每个对象文件表示的索引信息,确定构成检索字符串的、特定的单一字符和高位的分割字符码连接而成的连接字符串存在的对象文件。具体而言,例如,文件确定部2303通过参照上述的连接字符串出现映射M5,确定构成检索字符串的各连接字符串存在的对象文件。
另外,文件确定部2303通过参照针对低位的分割字符码和在文件组中存在的单一字符中到对应于与该单一字符有关的目标出现率的降序的次序为止的特定的单一字符连接而成的每个连接字符串,将该连接字符串的有无按每个对象文件表示的索引信息,确定构成检索字符串的、低位的分割字符码和特定的单一字符连接而成的连接字符串存在的对象文件。具体而言,例如,文件确定部2303通过参照上述的连接字符串出现映射M5,确定构成检索字符串的各连接字符串存在的对象文件。
另外,文件确定部2303通过参照针对高位的分割字符码和低位的分割字符码连接而成的每个连接字符串,将该连接字符串的有无按每个对象文件表示的索引信息,确定构成检索字符串的、高位的分割字符码和低位的分割字符码连接而成的连接字符串存在的对象文件。具体而言,例如,文件确定部2303通过参照上述的连接字符串出现映射M5,确定构成检索字符串的各连接字符串存在的对象文件。
锁定部2304从通过文件确定部2303确定的对象文件组F中,锁定构成检索字符串的各单一字符全部存在的对象文件。具体而言,例如,锁定部2304从通过文件确定部2303确定的对象文件中锁定在特定单一字符出现映射M2中,构成检索字符串的全部的单一字符的位成为ON的对象文件。
另外,锁定部2304从通过文件确定部2303确定的对象文件组F中锁定构成检索字符串的各单一字符以及各连接字符串全部存在的对象文件。具体而言,例如,锁定部2304从通过文件确定部2303确定的对象文件中锁定在特定单一字符出现映射M2中,构成检索字符串的全部的特定单一字符的位成为ON,并且,在连接字符串出现映射M5中,构成检索字符串的全部的连接字符串的位成为ON的对象文件。
另外,锁定部2304从通过文件确定部2303确定的对象文件组F中锁定构成检索字符串的各单一字符、各高位的分割字符码、各低位的分割字符码以及各连接字符串全部存在的对象文件。
具体而言,例如,锁定部2304从通过文件确定部2303确定的对象文件中锁定在特定单一字符出现映射M2中,构成检索字符串的全部的特定单一字符的位成为ON,并且,在高位分割字符码出现映射M3中,构成检索字符串的全部的高位分割字符码的位成为ON,并且,在低位分割字符码出现映射M4中,构成检索字符串的全部的低位分割字符码的位成为ON,并且,在连接字符串出现映射M5中,构成检索字符串的全部的连接字符串的位成为ON的对象文件。
检索部2305从通过文件确定部2303确定的对象文件中检索与检索字符串有关的信息。具体而言,例如,检索部2305在检索字符串符合特定基础单词的情况下,从由文件确定部2303参照特定基础单词出现映射M1而确定的对象文件中,检索与检索字符串一致的字符串。另外,检索部2305在检索字符串不符合特定基础单词的情况下,从通过锁定部2304锁定的对象文件中,检索与检索字符串一致的字符串。
输出部2306输出通过检索部2305检索到的检索结果。具体而言,例如,输出部2306将检索结果显示输出在显示器,或将检索结果打印输出,或将检索结果以语音读出,或将检索结果保存在存储装置,或将检索结果发送到外部。
另外,检索结果输出与检索字符串一致的字符串,或输出和与检索字符串一致的字符串相关的信息。作为相关的信息,例如,在与检索字符串一致的字符串为词典的词条的情况下,输出解说文。相反,与检索字符串一致的字符串为词典的解说文内的字符串的情况下,可以输出其解说文的词条。
<信息检索处理的具体例>
接下来,对信息检索处理的具体例进行说明。
图24是表示信息检索处理的具体例(其1)的说明图。图24中,将检索字符串设为“結婚活動(结婚活动)”。其中,检索字符串“結婚活動”中,包含有特定基础单词“結婚(结婚)”,“活動(活动)”。因此,进行图24所示的特定基础单词“結婚”,“活動”的特定基础单词出现映射M1的AND运算。利用该AND运算的AND结果确定成为ON(1)的文件编号的对象文件。图24的情况下,在对象文件F3、Fn内存在检索字符串“結婚活動”的可能性高。
图25是表示信息检索处理的具体例(其2)的说明图。图25中,将检索字符串设为“婚活”。其中,检索字符串“婚活”中,包含有特定单一字符“婚”,“活”。并且,包含有2连接字符串“婚活”。不包含特定基础单词。
因此,进行图25所示的特定单一字符出现映射M2、连接字符串出现映射M5的AND运算。利用该AND运算的AND结果确定成为ON(1)的文件编号的对象文件。图25的情况下,在对象文件Fn内存在检索字符串“婚活”。另外,在对象文件Fn内存在包含“婚活”的字符串(例如,“結婚活動”)的可能性高,能够防止因所谓的分离引起的检索性能的恶化。
图26是表示信息检索处理的具体例(其3)的说明图。图26中,检索字符串设为“脱藩”。其中,检索字符串“脱藩”的单一字符“脱”、“藩”不是特定单一字符,所以包含单一字符“脱”的高位分割字符码“0x81”、低位分割字符码“0x31”、单一字符“藩”的高位分割字符码“0xE9”、低位分割字符码“0x85”。另外,包含2连接字符串“0x810x31”、“0x310xE9”、“0xE90x85”。此外,检索字符串“脱藩”不包含特定基础单词。
因此,进行图26所示的高位分割字符码出现映射M3、低位分割字符码出现映射M4、连接字符串出现映射M5的AND运算。利用该AND运算的AND结果确定成为ON(1)的文件编号的对象文件。图26的情况下,对象文件Fn内存在检索字符串“脱藩”的可能性高。
图27是表示信息检索处理的具体例(其4)的说明图。图27中,检索字符串设为“離脱”。其中,检索字符串“離脱”的单一字符“離”为特定单一字符,但“脱”不是特定单一字符。因此,检索字符串“離脱”包含特定单一字符“離”、单一字符“脱”的高位分割字符码“0x81”、低位分割字符码“0x31”。另外,包含2连接字符串“離0x81”、“0x810x31”。此外,检索字符串“離脱”不包含特定基础单词。
因此,进行图27所示的特定单一字符出现映射M2、高位分割字符码出现映射M3、低位分割字符码出现映射M4、连接字符串出现映射M5的AND运算。利用该AND运算的AND结果确定成为ON(1)的文件编号的对象文件。图27的情况下,在对象文件Fn内,存在检索字符串“離脱”的可能性高。
图28是表示信息检索处理的具体例(其5)的说明图。图28中,检索字符串设为“脱出”。另外,检索字符串“脱出”的单一字符“出”为特定单一字符,但“脱”不是特定单一字符。因此,检索字符串“脱出”包含特定单一字符“出”、单一字符“脱”的高位分割字符码“0x81”、低位分割字符码“0x31”。另外,包含2连接字符串“0x810x31”、“0x31出”。此外,检索字符串“脱出”不包含特定基础单词。
因此,进行图28所示的特定单一字符出现映射M2、高位分割字符码出现映射M3、低位分割字符码出现映射M4、连接字符串出现映射M5的AND运算。利用该AND运算的AND结果确定成为ON(1)的文件编号的对象文件。图28的情况下,对象文件Fn内存在检索字符串“脱出”的可能性高。
图29是表示信息检索处理的具体例(其6)的说明图。图29中,检索字符串设为“is”和“a”,检索条件设为AND。其中,检索字符串“is”包含特定基础单词“is”(be动词),检索字符串“a”包含特定基础单词“a”(不定冠词)。该检索字符串中,能够检索所谓的is a构文的文章。因此,进行图29所示的“is”和“a”的特定基础单词出现映射M1的AND运算。利用该AND运算的AND结果确定成为ON(1)的文件编号的对象文件。图29的情况下,对象文件F3、Fn内存在检索字符串“is”以及“a”。
图30是表示信息检索处理的具体例(其7)的说明图。图30中,检索字符串设为“tern”。其中,检索字符串“tern”中包含2连接字符串“te”“er”“rn”。因此,确定图30所示的2连接字符串映射M5中成为ON(1)的文件编号的对象文件。图30的情况下,对象文件Fn内存在检索字符串“tern”。
<信息检索处理顺序>
图31是表示信息检索装置2300的信息检索处理顺序的流程图。首先,信息检索装置2300等待通过输入部2301输入检索字符串群(也包含一个检索字符串)(步骤S3101:“否”),在输入了检索字符串群的情况下(步骤S3101:“是”),信息检索装置2300判断是否有未选择的检索字符串(步骤S3102)。有未选择的检索字符串的情况下(步骤S3102:“是”),信息检索装置2300选择一个未选择的检索字符串(步骤S3103),执行文件确定处理(步骤S3104),返回步骤S3102。
另一方面,在步骤S3102中,没有未选择的检索字符串的情况下(步骤S3102:“否”),信息检索装置2300判断检索条件(步骤S3105)。检索条件为AND的情况下(步骤S3105:AND),信息检索装置2300通过AND运算锁定按每个检索字符串确定的对象文件,设定为检索对象文件(步骤S3106),移至步骤S3108。另一方面,在检索条件为OR的情况下(步骤S3105:OR),信息检索装置2300通过OR运算锁定按每个检索字符串确定的对象文件,设定为检索对象文件(步骤S3107),移至步骤S3108。
在步骤S3108中,针对每个检索对象文件根据检索条件进行检索(步骤S3108)。而且,执行输出检索结果的输出处理(步骤S3109),结束信息检索处理。
图32-1是表示图31所示的文件确定处理(步骤S3104)的详细的处理顺序的流程图(其1)。首先,信息检索装置2300将对象字符设为检索字符串的前端字符(步骤S3201),执行检索字符串的最长一致检索处理(步骤S3202)。检索字符串的最长一致检索处理(步骤S3202)的详细内容后述。
接下来,信息检索装置2300通过检索字符串的最长一致检索处理(步骤S3202),判断是否有最长一致的基础单词(步骤S3203)。没有最长一致的基础单词的情况下(步骤S3203:“否”),移至图32-2的步骤S3211。另一方面,有最长一致的基础单词的情况下(步骤S3203:“是”),信息检索装置2300根据特定基础单词出现映射M1确定包含最长一致的基础单词的对象文件(步骤S3204)。具体而言,信息检索装置2300确定针对最长一致的基础单词,即特定基础单词,位成为ON的对象文件。
之后,信息检索装置2300将对象字符移位与最长一致的基础单词的字符串相应的量(步骤S3205)。而且,信息检索装置2300判断是否存在移位后的对象字符(步骤S3206)。在有对象字符的情况下(步骤S3206:“是”),返回步骤S3202。另一方面,没有对象字符的情况下(步骤S3206:“否”),信息检索装置2300由锁定部2304通过到步骤S3206为止确定的对象文件的AND运算进行锁定(步骤S3207)。之后,返回步骤S3102。
图32-2是表示图31所示的文件确定处理(步骤S3104)的详细的处理顺序的流程图(其2)。图32-1的步骤S3203中,没有最长一致的基础单词的情况下(步骤S3203:“否”),在图32-2中,信息检索装置2300判断对象字符是否为特定单一字符(步骤S3211)。具体而言,信息检索装置2300判断是否登记在特定单一字符出现映射M2中的特定单一字符项目。
是特定单一字符的情况下(步骤S3211:“是”),信息检索装置2300根据特定单一字符出现映射M2确定包含对象字符的对象文件(步骤S3212)。即,信息检索装置2300确定对于对象字符,位成为ON的对象文件,移至步骤S3216。
另一方面,在步骤S3211中,对象字符不是特定单一字符的情况下(步骤S3211:“否”),信息检索装置2300将对象字符串分割为高位分割字符码和低位分割字符码(步骤S3213)。而且,信息检索装置2300根据高位分割字符码出现映射M3确定包含特定单一字符的高位分割字符码的对象文件(步骤S3214)。具体而言,信息检索装置2300确定对于高位分割字符码,位成为ON的对象文件。相同地,信息检索装置2300根据低位分割字符码出现映射M4确定包含特定单一字符的低位分割字符码的对象文件(步骤S3215)。具体而言,信息检索装置2300确定对于低位分割字符码,位成为ON的对象文件。而且,移至步骤S3216。
步骤S3216中,信息检索装置2300执行利用连接字符串出现映射M5的文件确定处理(步骤S3216)。利用连接字符串出现映射M5的文件确定处理(步骤S3216)的详细内容后述。之后,信息检索装置2300将对象字符移位1字符(步骤S3217),移至图32-1的步骤S3206。
根据该文件确定处理(步骤S3104),若检索字符串包含特定基础单词,则能够通过特定基础单词出现映射M1锁定对象文件,反之,则能够利用特定单一字符出现映射M2、高位分割字符码出现映射M3、低位分割字符码出现映射M4、连接字符串出现映射M5的AND运算进行锁定来确定对象文件。
图33是表示图32-2所示的最长一致检索处理(步骤S3202)的详细的处理顺序的流程图。首先,信息检索装置2300设为c=1(步骤S3301)。c是从对象字符起的字符数(包含对象字符)。c=1的情况下只有对象字符。接下来,信息检索装置2300对与从对象字符至第c字符的对象字符串前方一致的基础单词进行二分查找(步骤S3302)。这里成为查找对象的是,登记在特定基础单词出现映射M1的特定基础单词项目的特定基础单词群。
而且,信息检索装置2300通过二分查找判断是否有特定基础单词(步骤S3303)。通过二分探索没有找出特定基础单词的情况下(步骤S3303:“否”),移至步骤S3306。
另一方面,通过二分查找找出特定基础单词的情况下(步骤S3303:“是”),信息检索装置2300判断找出的特定基础单词和对象字符串是否完全一致(步骤S3304)。而且,不是完全一致的情况下(步骤S3304:“否”),移至步骤S3306。另一方面,在完全一致的情况下(步骤S3304:“是”),信息检索装置2300将其作为最长一致候补保存在存储装置(步骤S3305),移至步骤S3306。
在步骤S3306中,信息检索装置2300判断对于对象字符串,二分查找是否结束(步骤S3306)。具体而言,信息检索装置2300判断是否至末尾的特定基础单词为止进行了二分查找。二分查找没有结束的情况下(步骤S3306:“否”),移至步骤S3302,继续进行直至二分查找结束。
另一方面,对于对象字符串,二分查找结束了的情况下(步骤S3306:“是”),信息检索装置2300判断第c字符的字符是否为检索字符串的末尾字符(步骤S3307)。在第c字符的字符为检索字符串的末尾字符的情况下(步骤S3307:“是”),移至步骤S3310。另一方面,在第c字符的字符不是检索字符串的末尾字符的情况下(步骤S3307:“否”),信息检索装置2300判断是否为c>cmax(步骤S3308)。cmax是预先设定的值,由此设定对象字符串的上限字符数。
不是c>cmax的情况下(步骤S3308:“否”),将c递增(步骤S3309),返回步骤S3302。另一方面,在c>cmax的情况下(步骤S3308:“是”),信息检索装置2300判断是否有最长一致候补(步骤S3310)。具体而言,信息检索装置2300判断在步骤S3305中是否有至少一个最长一致候补保存在存储装置。
有最长一致候补的情况下(步骤S3310:“是”),信息检索装置2300将最长一致候补中最长字符串决定为最长一致的基础单词(步骤S3311)。而且,移至步骤S3203。另一方面,在步骤S3310中,没有一个最长一致候补的情况下(步骤S3310:“否”),移至步骤S3203。
由此,结束最长一致检索处理(步骤S3202)。根据该最长一致检索处理(步骤S3202),能够从登记在特定基础单词出现映射M1的特定基础单词群中,检索出完全一致的字符串中最长的字符串作为特定基础单词。
图34是表示图32-2所示的利用连接字符串出现映射M5的文件确定处理(步骤S3216)的详细的处理顺序的流程图。首先,信息检索装置2300将对象字符作为检索字符串的前端字符(步骤S3401)。这里的检索字符串若被分割为分割字符码,则将分割字符码也作为1字符处理。
接下来,信息检索装置2300判断对象字符是否为分割字符码(步骤S3402)。不是分割字符码的情况下(步骤S3402:“否”),判断是否有对象字符的前一个字符(步骤S3403)。例如,对象字符为低位分割字符码的情况下,前一个字符成为高位分割字符码。另外,对象字符为特定单一字符或者高位分割字符码的情况下,若在前一个被分割,则前一个字符成为低位分割字符码。
有前一个字符的情况下(步骤S3403:“是”),信息检索装置2300判断前一个字符是否为分割字符码(步骤S3404)。不是分割字符码的情况下(步骤S3404:“否”),根据二元(bi-gram)的特定单一字符串的连接字符串出现映射M5确定对象文件(步骤S3405)。具体而言,信息检索装置2300确定对于二元的特定单一字符串,位成为ON的对象文件,并移至步骤S3217。
另一方面,在步骤S3404中,前一个字符为分割字符码的情况下(步骤S3404:“是”),信息检索装置2300根据分割字符码和特定单一字符构成的连接字符串的连接字符串出现映射M5确定对象文件(步骤S3406)。具体而言,确定对于由分割字符码和特定单一字符构成的连接字符串,位成为ON的对象文件,移至步骤S3217。
另一方面,在步骤S3403中,没有对象字符的前一个的字符的情况下(步骤S3403:“否”),不确定对象文件,移至步骤S3217。
另一方面,在步骤S3402中,对象字符为分割字符码的情况下(步骤S3402:“是”),信息检索装置2300判断是否有对象字符的前一个字符的字符(步骤S3407)。
在有前一个字符的情况下(步骤S3407:“是”),信息检索装置2300判断前一个字符是否为分割字符码(步骤S3408)。不是分割字符码的情况下(步骤S3408:“否”),信息检索装置2300根据特定单一字符和高位分割字符码构成的连接字符串的连接字符串出现映射M5确定对象文件(步骤S3409)。具体而言,信息检索装置2300确定对于由特定单一字符和高位分割字符码构成的连接字符串,位成为ON的对象文件,移至步骤S3217。
另一方面,在步骤S3408中,前一个字符为分割字符码的情况下(步骤S3408:“是”),信息检索装置2300根据2连接的分割字符码构成的连接字符串的连接字符串出现映射M5确定对象文件(步骤S3410)。具体而言,信息检索装置2300确定对于2连接的分割字符码构成的连接字符串,位成为ON的对象文件,移至步骤S3217。
另一方面,在步骤S3407中,没有对象字符的前一个字符的情况下(步骤S3407:“否”),不确定对象文件,移至步骤S3217。
根据该利用连接字符串出现映射M5的文件确定处理(步骤S3216),能够确定出仅由特定单一字符构成的连接字符串、仅由分割字符码构成的连接字符串、特定单一字符和分割字符码混在的连接字符串存在于检索字符串的对象文件。
像这样,根据上述的信息检索,如果检索字符串中有特定基础单词,则能够根据特定基础单词出现映射M1确定对象文件,所以能够实现高速的检索处理。另外,即使在检索字符串中没有特定基础单词的情况下,通过使用特定单一字符出现映射M2、高位分割字符码出现映射M3、低位分割字符码出现映射M4、连接字符串出现映射M5,也能够进行对象文件的高效锁定。例如,“婚活”这样的新的缩短语没有作为特定基础单词登记,所以这样的情况下,能够进行对象文件的锁定。
<映射引出>
接下来,对映射引出进行说明。对于映射引出而言,存在对于对象文件组F,新追加对象文件的情况。这样的情况下,对于追加的对象文件也如图1~图3所示进行(A)~(D)的阶段。由此,在特定基础单词出现映射M1、特定单一字符出现映射M2、高位分割字符码出现映射M3、低位分割字符码出现映射M4、连接字符串出现映射M5中,对追加的对象文件,生成位行的处理称为映射引出。
图35是表示映射引出的说明图。图35中,以特定基础单词出现映射M1为例进行说明。(A)中,将特定基础单词群以及作为初始的对象文件组F的对象文件F1~Fn构成的位图作为段S1。
在被追加的对象文件的数量积累了规定量的情况下,设定新的段。图35中,作为一个例子,在追加了与段S1数目相同的n个对象文件的情况下,作为新的段设为段S2。此外,不用必须与段S1数目相同。(B)中,表示设定了段S2的状态。
(C)表示在段S2的设定后,新追加对象文件,对该追加的对象文件生成位行的状态。(D)这样,特定基础单词出现映射M1能够生成由特定基础单词群以及段S1~SN构成的位图。
图36表示利用通过对象文件的追加而被分段为多个的出现映射组的情况下的信息检索处理顺序的流程图。首先,信息检索装置2300将段编号j设为j=1(步骤S3601),执行使用段Sj的信息检索处理(步骤S3602)。该信息检索处理(步骤S3602)中,执行图31所示的步骤S3101~步骤S3108。即,还执行图32-1以及图32-2所示的文件确定处理(步骤S3104),图33所示的最长一致检索处理(步骤S3202)。但是,对于图32-2有一部分不同的处理,所以在图37中进行说明。
而且,信息检索装置2300判断是否为j>N(步骤S3603)。不是j>N的情况下(步骤S3603:“否”),信息检索装置2300递增j而指定下一个段Sj(步骤S3604),返回步骤S3602。另一方面,在步骤S3603中,在j>N的情况下(步骤S3603:“是”),信息检索装置2300执行利用输出部2306的输出处理(步骤S3605)。这里输出使用段S1~SN的各检索结果。
图37是表示图36所示的信息检索处理(步骤S3602)中的、文件确定处理(步骤S3104)的一部分的流程图。其中,图37中,对于与图32-2相同步骤赋予相同步骤编号,省略其说明。图37中,通过步骤S3212,判断是否有能够确定文件的段Sj内的对象文件(步骤S3700)。
在有能够确定文件的段Sj内的对象文件的情况下(步骤S3700:“是”),移至步骤S3216。另一方面,没有能够确定文件的段Sj内的对象文件的情况下(步骤S3700:“否”),移至步骤S3603。即,在段Sj中不存在包含作为对象字符的特定单一字符的对象文件的情况下,即使将后续的单一字符作为对象字符能够确定文件、即使进行步骤S3207的文件锁定,也不能得到对象文件。
因此,只要有一个字符不能确定对象文件,信息检索装置2300就移至步骤S3603,指定下一个段Sj,从而能够省略不必要的检索,能够实现检索速度的高速化。
如以上说明,根据本信息生成程序、信息生成装置以及信息生成方法,能够实现表示基础单词、字符的有无的索引信息的生成的高速化以及索引信息的大小的最佳化。而且,根据本信息检索程序、信息检索装置以及信息检索方法,能够实现检索噪声的减少化。
此外,本实施方式中说明的方法能够通过使个人计算机或工作站等计算机执行预先准备的程序而实现。本信息生成程序记录在硬盘、软盘、CD-ROM、MO、DVD等的计算机可读取的记录介质,由计算机从记录介质读取而执行。而且本信息生成程序也能够经由因特网等的网络来分发。
符号说明
101…基础单词出现频率表;102…单一字符出现频率表;500…信息生成装置;501…设定部;502…合计部;503…次序确定部;504…检测部;505…分割部;506…生成部;2301…输入部;2302…分割部;2303…文件确定部;2304…锁定部;2305…检索部;2306…输出部;2300…信息检索装置;F…对象文件组;M1…特定基础单词出现映射;M2…特定单一字符出现映射;M3…高位分割字符码出现映射;M4…低位分割字符码出现映射;M5…连接字符串出现映射。

Claims (19)

1.一种信息生成程序,其特征在于,使计算机执行:
合计步骤,从记述有字符串的对象文件组中合计每个指定单词的出现频率;
次序确定步骤,基于通过上述合计步骤合计出的每个指定单词的出现频率,来确定到与上述指定单词有关的目标出现率为止的降序的次序;
检测步骤,从在上述对象文件组中选择的对象文件中,检测到通过上述次序确定步骤确定出的降序的次序为止的特定的指定单词;和
生成步骤,生成针对通过上述检测步骤检测出的每个特定的指定单词,按每个上述对象文件表示该特定的指定单词的有无的索引信息。
2.根据权利要求1所述的信息生成程序,其特征在于,
上述检测步骤利用将上述对象文件内的对象字符作为前端字符的最长一致检索来检测上述特定的指定单词。
3.一种信息生成程序,其特征在于,使计算机执行:
合计步骤,从记述有字符串的对象文件组中合计每个单一字符的出现频率;
次序确定步骤,基于通过上述合计步骤合计出的单一字符的出现频率,来确定到与上述单一字符有关的目标出现率为止的降序的次序;
检测步骤,从在上述对象文件组中选择的对象文件中,检测到通过上述次序确定步骤确定出的降序的次序为止的特定的单一字符;和
生成步骤,生成针对通过上述检测步骤检测出的每个特定的单一字符,按每个上述对象文件表示该特定的单一字符的有无的索引信息。
4.根据权利要求1或2所述的信息生成程序,其特征在于,
上述合计步骤从上述对象文件组中合计单一字符的出现频率,
上述次序确定步骤根据通过上述合计步骤合计出的单一字符的出现频率,来确定到与上述单一字符有关的目标出现率为止的降序的次序,
上述检测步骤从在上述文件组中选择的对象文件中,检测到通过上述次序确定步骤确定出的降序的次序为止的特定的单一字符,
上述生成步骤生成针对到通过上述次序确定步骤确定出的降序的次序为止的每个特定的单一字符,按每个上述对象文件表示该特定的单一字符的有无的索引信息。
5.根据权利要求3或4所述的信息生成程序,其特征在于,
使计算机执行分割步骤,该分割步骤将比通过上述次序确定步骤确定出的降序的次序低的次序的单一字符的字符码分割为高位的分割字符码和低位的分割字符码,
上述生成步骤生成针对通过上述分割步骤分割出的每个高位的分割字符码,按每个上述对象文件表示该分割字符码的有无的索引信息、和针对通过上述分割步骤分割出的每个低位的分割字符码,按每个上述对象文件表示该分割字符码的有无的索引信息。
6.根据权利要求3或4所述的信息生成程序,其特征在于,
上述生成步骤生成针对到通过上述次序确定步骤确定出的降序的次序为止的特定的单一字符连接而成的每个连接字符串,按每个上述对象文件表示该连接字符串的有无的索引信息。
7.根据权利要求5或6所述的信息生成程序,其特征在于,
上述生成步骤生成针对到通过上述次序确定步骤确定出的降序的次序为止的特定的单一字符和上述高位的分割字符码连接而成的每个连接字符串,按每个上述对象文件表示该连接字符串的有无的索引信息。
8.根据权利要求5~7中任意一项所述的信息生成程序,其特征在于,
上述生成步骤生成针对上述低位的分割字符码和到通过上述次序确定步骤确定出的降序的次序为止的特定的单一字符连接而成的每个连接字符串,按每个上述对象文件表示该连接字符串的有无的索引信息。
9.根据权利要求5~8中任意一项所述的信息生成程序,其特征在于,
上述生成步骤生成针对上述高位的分割字符码和上述低位的分割字符码连接而成的每个连接字符串,按每个上述对象文件表示该连接字符串的有无的索引信息。
10.一种信息检索程序,其特征在于,使计算机执行:
输入步骤,接受检索字符串的输入;
文件确定步骤,通过参照如下索引信息、即、将记述有字符串的对象文件组中存在的指定单词中的、对应于与该指定单词有关的目标出现率的降序的次序以内的特定的指定单词的有无按每个上述对象文件表示的索引信息,来确定上述检索字符串存在的对象文件;
检索步骤,从通过上述文件确定步骤确定出的对象文件中检索与上述检索字符串有关的信息;和
输出步骤,输出通过上述检索步骤检索出的检索结果。
11.一种信息检索程序,其特征在于,使计算机执行:
输入步骤,接受检索字符串的输入;
文件确定步骤,通过参照如下索引信息、即、将记述有字符串的对象文件组中存在的单一字符中的、对应于与该单一字符有关的目标出现率的降序的次序以内的特定的单一字符的有无按每个上述对象文件表示的索引信息,来确定构成上述检索字符串的各单一字符存在的对象文件;
锁定步骤,从通过上述文件确定步骤确定出的对象文件组中锁定构成上述检索字符串的各单一字符全部存在的对象文件;
检索步骤,从通过上述锁定步骤锁定出的对象文件中检索与上述检索字符串有关的信息;和
输出步骤,输出通过上述检索步骤检索出的检索结果。
12.根据权利要求10所述的信息检索程序,其特征在于,
在存在有上述特定的指定单词的对象文件不存在的情况下,上述文件确定步骤通过参照如下索引信息、即、将上述对象文件组中存在的单一字符中的、对应于与该单一字符有关的目标出现率的降序的次序以内的特定的单一字符的有无按每个上述对象文件表示的索引信息,来确定构成上述检索字符串的各单一字符存在的对象文件。
13.根据权利要求12所述的信息检索程序,其特征在于,
使上述计算机执行分割步骤,该分割步骤将构成上述检索字符串的单一字符中与上述特定的单一字符不符合的单一字符的字符码分割为高位的分割字符码和低位的分割字符码,
上述文件确定步骤通过参照按每个上述对象文件表示通过上述分割步骤分割的高位的分割字符码的有无的索引信息,来确定上述高位的分割字符码存在的对象文件,并通过参照按每个上述对象文件表示通过上述分割步骤分割的低位的分割字符码的有无的索引信息,来确定上述低位的分割字符码存在的对象文件。
14.根据权利要求12所述的信息检索程序,其特征在于,
上述文件确定步骤通过参照如下索引信息、即、针对上述对象文件组中存在的单一字符中的、到对应于与该单一字符有关的目标出现率的降序的次序为止的单一字符连接而成的每个连接字符串,按每个上述对象文件表示该连接字符串的有无的索引信息,来确定构成上述检索字符串的各连接字符串存在的对象文件,
上述锁定步骤从通过上述文件确定步骤确定出的对象文件组中锁定构成上述检索字符串的上述各单一字符以及上述各连接字符串全部存在的对象文件。
15.根据权利要求13所述的信息检索程序,其特征在于,
上述文件确定步骤通过参照如下索引信息、即、针对上述对象文件组中存在的单一字符中的、到对应于与该单一字符有关的目标出现率的降序的次序为止的特定的单一字符和上述高位的分割字符码连接而成的每个连接字符串,按每个上述对象文件表示该连接字符串的有无的索引信息,来确定构成上述检索字符串的、由上述特定的单一字符和上述高位的分割字符码连接而成的连接字符串存在的对象文件,
上述文件确定步骤通过参照如下索引信息、即、针对上述低位的分割字符码、和上述对象文件组中存在的单一字符中的、到对应于与该单一字符有关的目标出现率的降序的次序为止的特定的单一字符连接而成的每个连接字符串,按每个上述对象文件表示该连接字符串的有无的索引信息,来确定构成上述检索字符串的、由上述低位的分割字符码和上述特定的单一字符连接而成的连接字符串存在的对象文件,
上述文件确定步骤通过参照如下索引信息、即、针对上述高位的分割字符码和上述低位的分割字符码连接而成的每个连接字符串,按每个上述对象文件表示该连接字符串的有无的索引信息,来确定构成上述检索字符串的、由上述高位的分割字符码和上述低位的分割字符码连接而成的连接字符串存在的对象文件,
上述锁定步骤从通过上述文件确定步骤确定出的对象文件组中锁定构成上述检索字符串的上述各单一字符、上述各高位的分割字符码、上述各低位的分割字符码以及上述各连接字符串全部存在的对象文件。
16.一种信息生成装置,其特征在于,具备:
合计单元,其从记述有字符串的对象文件组中合计每个指定单词的出现频率;
次序确定单元,其根据通过上述合计单元合计出的每个指定单词的出现频率,来确定到与上述指定单词有关的目标出现率为止的降序的次序;
检测单元,其从在上述对象文件组中选择出的对象文件中,检索到通过上述次序确定单元确定出的降序的次序为止的特定的指定单词;和
生成单元,其生成针对通过上述检测单元检测出的每个特定的指定单词,按每个上述对象文件表示该特定的指定单词的有无的索引信息。
17.一种信息检索装置,其特征在于,具备:
输入单元,其接受检索字符串的输入;
文件确定单元,其通过参照如下索引信息、即、将记述有字符串的对象文件组中存在的指定单词中的、对应于与该指定单词有关的目标出现率的降序的次序以内的特定的指定单词的有无按每个上述对象文件表示的索引信息,来确定上述检索字符串存在的对象文件;
检索单元,其从通过上述文件确定单元确定出的对象文件中检索与上述检索字符串有关的信息;和
输出单元,其输出通过上述检索单元检索出的检索结果。
18.一种信息生成方法,其特征在于,由计算机执行:
合计步骤,从记述有字符串的对象文件组中合计每个指定单词的出现频率;
次序确定步骤,基于通过上述合计步骤合计出的每个指定单词的出现频率,来确定到与上述指定单词有关的目标出现率为止的降序的次序;
检测步骤,从在上述对象文件组中选择出的对象文件中,检测到通过上述次序确定步骤确定出的降序的次序为止的特定的指定单词;和
生成步骤,生成针对通过上述检测步骤检测出的每个特定的指定单词,按每个上述对象文件表示该特定的指定单词的有无的索引信息。
19.一种信息检索方法,其特征在于,由计算机执行:
输入步骤,接受检索字符串的输入;
文件确定步骤,通过参照如下索引信息、即、将记述有字符串的对象文件组中存在的指定单词中的、对应于与该指定单词有关的目标出现率的降序的次序以内的特定的指定单词的有无按每个上述对象文件表示的索引信息,来确定上述检索字符串存在的对象文件;
检索步骤,从通过上述文件确定步骤确定出的对象文件中检索与上述检索字符串有关的信息;和
输出步骤,输出通过上述检索步骤检索出的检索结果。
CN201080067094.4A 2010-05-28 2010-05-28 信息生成程序、装置、方法以及信息检索程序、装置、方法 Active CN102918524B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/059150 WO2011148511A1 (ja) 2010-05-28 2010-05-28 情報生成プログラム/装置/方法、情報検索プログラム/装置/方法

Publications (2)

Publication Number Publication Date
CN102918524A true CN102918524A (zh) 2013-02-06
CN102918524B CN102918524B (zh) 2016-06-01

Family

ID=45003517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080067094.4A Active CN102918524B (zh) 2010-05-28 2010-05-28 信息生成程序、装置、方法以及信息检索程序、装置、方法

Country Status (5)

Country Link
US (1) US9501557B2 (zh)
EP (1) EP2579165B1 (zh)
JP (1) JP5741577B2 (zh)
CN (1) CN102918524B (zh)
WO (1) WO2011148511A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677381A (zh) * 2015-05-29 2016-06-15 深圳Tcl数字技术有限公司 预加载媒体文件的方法及装置
CN106354699A (zh) * 2015-07-13 2017-01-25 富士通株式会社 编码方法、编码装置、解码方法以及解码装置
CN108027781A (zh) * 2015-08-24 2018-05-11 株式会社Lac 管理单位存在判定装置和管理单位存在判定程序
CN115391495A (zh) * 2022-10-28 2022-11-25 强企宝典(山东)信息科技有限公司 在中文语境中检索关键词的方法、装置及设备

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6163854B2 (ja) * 2013-04-30 2017-07-19 富士通株式会社 検索制御装置、検索制御方法、生成装置および生成方法
JP6447161B2 (ja) * 2015-01-20 2019-01-09 富士通株式会社 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
JP6467937B2 (ja) 2015-01-21 2019-02-13 富士通株式会社 文書処理プログラム、情報処理装置および文書処理方法
JP6180470B2 (ja) * 2015-07-13 2017-08-16 株式会社ワイズ・リーディング 文章候補提示端末、文章候補提示システム、文章候補提示方法、及びプログラム
CN107102998A (zh) * 2016-02-22 2017-08-29 阿里巴巴集团控股有限公司 一种字符串距离计算方法和装置
JP6737025B2 (ja) 2016-07-19 2020-08-05 富士通株式会社 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法
JP7059516B2 (ja) * 2017-03-29 2022-04-26 富士通株式会社 符号化プログラム、符号化装置および符号化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05135102A (ja) * 1991-11-11 1993-06-01 Ricoh Co Ltd 文書検索方式
JPH10149367A (ja) * 1996-11-19 1998-06-02 Nec Corp テキスト蓄積検索装置
JP2004178614A (ja) * 1994-06-02 2004-06-24 Ricoh Co Ltd 文書管理方法および文書管理装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01181329A (ja) 1988-01-14 1989-07-19 Nec Corp Cpu周辺回路用フレキシブルアドレスデコーダ
JP3263963B2 (ja) 1991-12-25 2002-03-11 株式会社日立製作所 文書検索方法及び装置
DE69032712T2 (de) 1989-06-14 1999-07-01 Hitachi Ltd Hierarchischer vorsuch-typ dokument suchverfahren, vorrichtung dazu, sowie eine magnetische plattenanordnung für diese vorrichtung
US5469354A (en) 1989-06-14 1995-11-21 Hitachi, Ltd. Document data processing method and apparatus for document retrieval
JP2986865B2 (ja) 1989-07-24 1999-12-06 株式会社日立製作所 データ検索方法および装置
JPH08314966A (ja) * 1995-05-19 1996-11-29 Toshiba Corp 文書検索装置のインデックス作成方法及び文書検索装置
JP2001337969A (ja) * 2000-05-29 2001-12-07 Nippon Telegr & Teleph Corp <Ntt> 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体
CN1191540C (zh) * 2000-12-29 2005-03-02 国际商业机器公司 为文本文档语料库建立索引的方法和装置
CA2340531C (en) * 2001-03-12 2006-10-10 Ibm Canada Limited-Ibm Canada Limitee Document retrieval system and search method using word set and character look-up tables
JP2003281159A (ja) * 2002-03-19 2003-10-03 Fuji Xerox Co Ltd 文書処理装置及び文書処理方法、文書処理プログラム
US7149748B1 (en) * 2003-05-06 2006-12-12 Sap Ag Expanded inverted index
US20050165750A1 (en) * 2004-01-20 2005-07-28 Microsoft Corporation Infrequent word index for document indexes
WO2006123429A1 (ja) * 2005-05-20 2006-11-23 Fujitsu Limited 情報検索方法、装置、プログラム、該プログラムを記録した記録媒体
JP4707198B2 (ja) 2006-10-19 2011-06-22 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05135102A (ja) * 1991-11-11 1993-06-01 Ricoh Co Ltd 文書検索方式
JP2004178614A (ja) * 1994-06-02 2004-06-24 Ricoh Co Ltd 文書管理方法および文書管理装置
JPH10149367A (ja) * 1996-11-19 1998-06-02 Nec Corp テキスト蓄積検索装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677381A (zh) * 2015-05-29 2016-06-15 深圳Tcl数字技术有限公司 预加载媒体文件的方法及装置
CN105677381B (zh) * 2015-05-29 2019-07-12 深圳Tcl数字技术有限公司 预加载媒体文件的方法及装置
CN106354699A (zh) * 2015-07-13 2017-01-25 富士通株式会社 编码方法、编码装置、解码方法以及解码装置
CN106354699B (zh) * 2015-07-13 2021-05-18 富士通株式会社 编码方法、编码装置、解码方法以及解码装置
CN108027781A (zh) * 2015-08-24 2018-05-11 株式会社Lac 管理单位存在判定装置和管理单位存在判定程序
CN115391495A (zh) * 2022-10-28 2022-11-25 强企宝典(山东)信息科技有限公司 在中文语境中检索关键词的方法、装置及设备

Also Published As

Publication number Publication date
JPWO2011148511A1 (ja) 2013-07-25
CN102918524B (zh) 2016-06-01
EP2579165A1 (en) 2013-04-10
US20130086086A1 (en) 2013-04-04
JP5741577B2 (ja) 2015-07-01
US9501557B2 (en) 2016-11-22
WO2011148511A1 (ja) 2011-12-01
EP2579165A4 (en) 2016-10-26
EP2579165B1 (en) 2018-08-29

Similar Documents

Publication Publication Date Title
CN102918524B (zh) 信息生成程序、装置、方法以及信息检索程序、装置、方法
Mi et al. PANTHER version 16: a revised family classification, tree-based classification tool, enhancer regions and extensive API
Wong PIES, a protein interaction extraction system
CN100476827C (zh) 信息处理设备和信息处理方法
KR20110009098A (ko) 편집 거리 및 문서 정보를 이용한 검색 결과 랭킹
CN101398841A (zh) 用于支持信息搜索的设备和方法
CN113096723A (zh) 小分子药物筛选通用分子库构建平台
EP1367508A1 (en) System and methods for extracting pre-existing data from multiple formats
Paramonov et al. Tacle: Learning constraints in tabular data
CN100345116C (zh) 程序自动变换方法及程序自动变换装置
CN103678111B (zh) 源代码类似度评价方法以及源代码类似度评价装置
CN112163017A (zh) 一种知识挖掘系统及方法
KR101578119B1 (ko) 구조 해석 장치 및 프로그램
JP5155710B2 (ja) 文書群分析支援装置
CN115691702A (zh) 一种化合物可视化分类方法及系统
Duval et al. Musicology of early music with europeana tools and services
JP7056127B2 (ja) 分析方法、分析装置および分析プログラム
KR20220095654A (ko) 소셜 데이터 수집 분석 시스템
US20080086450A1 (en) Interface for on-line database and patent searching
Díaz et al. Comparative quality assessment of metadata: two regional SDI case studies
JP2015062146A (ja) 情報生成プログラム、情報生成装置、および情報生成方法
JP4585768B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム
CN113268425B (zh) 一种基于规则的微服务源文件预处理方法
US8745069B2 (en) Creation of a category tree with respect to the contents of a data stock
Arimatsu et al. Enriching API Documentation by Relevant API Methods Recommendation Based on Version History

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant