CN1120438C - 文件信息存储、处理装置和方法 - Google Patents

文件信息存储、处理装置和方法 Download PDF

Info

Publication number
CN1120438C
CN1120438C CN 98106010 CN98106010A CN1120438C CN 1120438 C CN1120438 C CN 1120438C CN 98106010 CN98106010 CN 98106010 CN 98106010 A CN98106010 A CN 98106010A CN 1120438 C CN1120438 C CN 1120438C
Authority
CN
China
Prior art keywords
morpheme
coding
index
fileinfo
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 98106010
Other languages
English (en)
Other versions
CN1211013A (zh
Inventor
飒飒野学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN1211013A publication Critical patent/CN1211013A/zh
Application granted granted Critical
Publication of CN1120438C publication Critical patent/CN1120438C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

在存储/检索文件信息的装置中,减小存储大容量的文件数据等信息所需要的区域,同时缩短生成索引并进行存储时的处理时间和缩短检索时间。具有通过进行词素分析处理而从输入的文件信息中抽出作为文件信息结构要素的词素的词素分析部1、将由该词素分析部抽出的词素进行编码的编码部2、对由该编码部2进行了编码的词素进行压缩处理的压缩部3和存储由压缩部3所压缩的编码词素的存储部4。

Description

文件信息存储、处理装置和方法
技术领域
本发明涉及适用于大容量文件信息的存储及检索的文件信息存储装置和文件信息存储方法、文件信息检索装置和文件信息检索方法、记录文件信息存储程序的记录媒体和记录文件信息检索程序的记录媒体。
背景技术
以往,在检索数据库中存储的信息的装置中,存储大容量的文件数据时,有直接存储文件数据的方法和将文件数据压缩后进行存储的方法。
另外,在进行检索时,是直接检索数据库存储的数据或者使用不是直接存储的数据而是另外生成的索引进行文件的检索。
但是,在这种先有的将文件数据直接存储到数据库中的方式中,存在数据的存储所需要的容量大的问题。
另外,在不生成索引而将文件数据压缩后进行存储的方式中,检索速度慢。
其中,在压缩后进行存储的方式中,在文件数据的存储之外另外生成用于检索的索引时,数据的存储所需要的容量少、检索速度也不慢。但是,在存储文件数据等信息时,由于分别进行数据的压缩和索引的生成,需要一定的处理时间。
另外,在将文件数据压缩后进行存储时,由于未充分使用文件数据中的统计的信息,所以,有时压缩不充分。
这样,在存储大容量的文件数据等信息的装置中,就存在减小存储所需要的区域和缩短生成索引并进行存储时的处理时间的课题。
发明内容
本发明就是针对这样的课题而提案的,目的旨在提供减小存储大容量的文件数据等信息所需要的区域的同时生成索引并存储文件数据的、处理时间短的文件信息存储装置和文件信息存储方法、文件信息检索装置和文件信息检索方法、记录文件信息存储程序的记录媒体和记录文件信息检索程序的记录媒体。
为了达到上述目的,本发明的文件信息存储装置的特征在于:具有通过对输入的文件信息,根据语言特征进行词素分析处理从该文件信息中抽出作为结构要素的词素的词素分析部;将由该词素分析部抽出的词素编码为数值,从而将相同的数值分配给相同的词素的编码部;对由该编码部进行了编码的词素进行压缩处理的压缩部,从而将用于压缩出现频度高的词素的代码设定为比用于压缩出现频度低的词素的代码短;和存储由该压缩部进行了压缩的编码词素的存储部。
或者,本发明的文件信息存储装置也可以具有根据由词素分析部抽出的词素和由编码部进行了编码的词素中的至少一方的信息生成索引的索引生成部和存储由索引生成部生成的索引的索引存储部。
此外,本发明的文件信息存储装置可以具有同义词辞典、同义词词汇、对译辞典中的至少一种,编码部使用同义词辞典、同义词词汇、对译辞典中的至少一种将词素进行编码。
这里,可以具有根据由词素分析部抽出的词素和由编码部进行了编码的词素中的至少一方的信息生成索引的索引生成部和存储由索引生成部生成的索引的索引存储部,同时,可以具有同义词辞典、同义词词汇、对译辞典中的至少一种,编码部使用同义词辞典、同义词词汇、对译辞典中的至少一种将词素进行编码。
另一方面,本发明的文件信息存储方法的特征在于:包括在存储文件信息时通过输入文件信息并对该文件信息进行词素分析处理、从该文件信息中抽出作为文件信息结构要素的词素的词素分析步骤;对由该词素分析步骤抽出的词素进行编码的编码步骤;对由该编码步骤进行了编码的词素执行压缩处理的压缩步骤和存储由该压缩步骤进行了压缩的编码词素的存储步骤。
这里,也可以包括根据由词素分析步骤抽出的词素和由编码步骤进行了编码的词素中的至少一方的信息生成索引的索引生成步骤和存储由索引生成步骤生成的索引的索引存储步骤,或者,编码步骤也可以使用同义词辞典、同义词词汇、对译辞典中的某一个的信息将词素进行编码。
此外,也可以包括根据由词素分析步骤抽出的词素和由编码步骤进行了编码的词素中的至少一方的信息生成索引的索引生成步骤和存储由索引生成步骤生成的索引的索引存储步骤,而编码步骤也可以使用同义词辞典、同义词词汇、对译辞典中的某一个的信息将词素进行编码。
本发明的文件信息检索装置的特征在于:具有通过对输入的文件信息,根据语言特征进行词素分析处理从该文件信息中抽出作为结构要素的词素的词素分析部;将由该词素分析部抽出的词素编码为数值,从而将相同的数值分配给相同的词素的编码部;对由该编码部进行了编码的词素进行压缩处理的压缩部,从而将用于压缩出现频度高的词素的代码设定为比用于压缩出现频度低的词素的代码短;和存储由该压缩部进行了压缩的编码词素的存储部;该词素分析部,对于输入的检索询问,根据其语言特征,进行词素分析处理,抽出作为结构要素的词素;该编码部,将该词素分析部抽出的检索询问的词素编码为数值,使相同的数值分配给相同的词素,把该存储部所存储的压缩编码词素复原为原来的编码词素数据的复原部;将该编码部所编码的词素形式的检索询问及由该复原部所复原的编码词素数据进行核对,判断适合于检索询问的编码词素数据是否已复原的核对部,和根据该核对部的核对结果将由该复原部已复原的编码词素数据恢复为词素的译码部。
其中,核对部也可以具有将编码词素形式的检索询问与由复原部所复原的编码词素数据进行对照来判断适合于检索询问的编码词素数据是否已复原的结构。
此外,也可以将根据由词素分析部抽出的词素和由编码部进行了编码的词素中的至少一方的信息生成索引的索引生成部,和存储由索引生成部生成的索引的索引存储部加到文件信息存储装置中。核对部从根据词素形式的检索询问和编码词素形式的检索询问中的至少一方的信息而得到的索引中进行由索引存储部存储的索引的检索,根据由该检索结果而得到的索引的信息由复原部将存储部存储的压缩编码词素复原为原来的编码词素数据。
也可以具有同义词辞典、同义词词汇、对译辞典中的至少一种;编码部使用同义词辞典、同义词词汇、对译辞典中的某一个的信息将词素进行编码而构成文件信息存储装置,核对部将使用同义词辞典、同义词词汇、对译辞典中的某一个的信息生成的编码词素形式的检索询问与由复原部所复原的编码词素数据进行对照,判断适合于检索询问的编码词素数据是否已复原。
此外,也可以将根据由词素分析部抽出的词素和由编码部进行了编码的词素中的至少一方的信息生成索引的索引生成部,和存储由索引生成部生成的索引的索引存储部加到文件信息存储装置中,进而也可以具有同义词辞典、同义词词汇、对译辞典中的至少一种,编码部使用同义词辞典、同义词词汇、对译辞典中的某一个的信息将词素进行编码而构成文件信息存储装置,核对部从根据词素形式的检索询问和编码词素形式的检索询问中的至少一方的信息而得到的索引中进行由索引存储部存储的索引的检索,根据由该检索结果而得到的索引的信息由复原部将存储部存储的压缩编码词素复原为原来的编码词素数据。
本发明的文件信息存储方法,包括在存储文件信息时通过对输入的文件信息,根据语言特征进行词素分析处理从该文件信息中抽出作为结构要素的词素的词素分析步骤;将由该词素分析步骤抽出的词素编码为数值,从而将相同的数值分配给相同的词素的编码步骤;对由该编码步骤进行了编码的词素进行压缩处理,从而将用于压缩出现频度高的词素的代码设定为比用于压缩出现频度低的词素的代码短的压缩步骤;和存储由该压缩步骤进行了压缩的编码词素的存储步骤。
这里,文件信息存储装置可以使用同义词辞典、同义词词汇、对译辞典中的某一个的信息将词素进行编码,核对步骤将使用同义词辞典、同义词词汇、对译辞典中的某一个的信息而生成的编码词素形式的检索询问与由复原部所复原的编码词素数据进行对照,判断适合于检索询问的编码词素数据是否已复原。
本发明的文件信息处理方法的特征在于:对于这样一种文件信息存储装置,即通过输入文件信息并对文件信息基于语言特征进行词素分析处理,从文件信息中抽出作为文件信息结构要素的词素,将该抽出的词素编码为数值,使相同的数值分配给相同的词素,进而对该进行了编码的词素执行压缩处理,从而将用于压缩出现频度高的词素的代码设定为比用于压缩出现频度低的词素的代码短,将该进行了压缩的编码词素存储到存储单元中的同时,根据由词素分析处理抽出的词素和由词素编码处理进行了编码的词素中的至少一方的信息生成索引,并将该索引存储到索引存储单元中的文件信息存储装置,检索适合于检索询问时,包括通过输入检索询问并对该检索询问基于其语言特征进行词素分析处理而从检索询问信息中抽出词素的词素分析步骤;将由词素分析步骤抽出的词素编码为数值,使相同的数值分配给相同的词素的编码步骤;从根据由词素分析步骤抽出的词素和由编码步骤进行了编码的词素中的至少一方的信息而得到的索引中进行索引存储单元存储的索引的检索的索引检索步骤;根据由索引检索步骤得到的索引信息将由存储单元存储的压缩编码词素复原为原来的编码词素数据的复原步骤和将由复原步骤所复原的编码词素数据恢复为词素的译码步骤。
附图说明
图1是表示本发明实施例1的文件信息存储检索装置的框图。
图2是表示本发明实施例1的同义词辞典、同义词词汇的一例的图。
图3是表示本发明实施例1的对译辞典的一例的图。
图4是用于说明本发明实施例1的文件信息存储检索装置存储文件信息时的处理的流程的图。
图5是用于说明本发明实施例1的文件信息存储检索装置检索文件信息时的处理的流程的图。
图6是用于说明本发明实施例1的文件信息存储检索装置检索文件信息时的处理的流程的图。
图7是表示本发明实施例2的文件信息存储检索装置的框图。
图8是表示本发明实施例2的人名辞典的一例的图。
图9是表示本发明实施例2的邮政编码辞典的一例的图。
图10是表示本发明实施例2的输入的文件信息的一例的图。
图11是用于说明本发明实施例2的文件信息存储检索装置存储文件信息时的处理的流程的图。
图12是用于说明本发明实施例2的文件信息存储检索装置检索文件信息时的处理的流程的图。
图13是表示本发明实施例3的文件信息存储检索装置的框图。
图14(a)~(c)分别是表示本发明实施例3的存储的文件信息的一例的图。
图15是表示本发明实施例3的文件信息索引的一例的图。
图16是用于说明本发明实施例3的文件信息存储检索装置检索文件信息时的处理的流程的图。
图17是表示本发明的其他实施例的图。
图18是表示本发明的其他实施例的图。
图19是表示本发明的其他实施例的图。
具体实施方式
下面,参照附图说明本发明的实施例。
图1是表示本发明实施例1的框图,图1所示的文件信息存储检索装置100包括文件信息词素分析部1、词素分析数据编码部2、编码数据压缩部3、数据库4、文件信息索引生成部5、文件信息索引存储部6、压缩编码数据复原部7、核对判断部8、编码词素译码部9、结果输出部10、同义词辞典11、同义词词汇12和对译辞典13。
文件信息词素分析部1对输入的文件信息进行词素分析,抽出单词(包括词素)。
这里,输入文件信息词素分析部1的文件信息数据本身已进行了编码,从键盘、文件、网络等输入该文件信息。
换言之,文件信息词素分析部1将以电信号或光信号输入到文件信息词素分析部1的文件的各文字考虑语言的特征,分析词素。
词素分析数据编码部2将通过文件信息分析部1的分析而抽出的单词(包括词素)编码为数值。这里,为了将由词素分析数据编码部2所编码的数值进行唯一地译码变换,将相同的数值分配给相同的单词(包括词素)。利用词素分析数据编码部2所进行的编码的长度,可以是固定长或可变长。
编码数据压缩部3将由词素分析数据编码部2进行了编码的词素数据(词素分析数据编码部2将由文件信息词素分析部1抽出的单词(包括词素)编码为数值,以下相同)进而编码为不同的数值后进行压缩。
这里,编码数据压缩部3考虑单词(包括词素)的频度情况,进行已编码的词素数据的压缩处理。例如,英语文件中的「This is」,在「This」之后,接续「is」进行表述的频度高,所以,就归纳为「This is」,编码为1个数值,此外,在英文中,在字母「q」之后,接续「u」的频度高,所以,就将「qu」压缩为1个代码,设定出现频度越高的字符串,压缩所需要的代码越短。
这样,编码数据压缩部3将对已编码的词素数据进行单词(包括词素)的出现频度及包含多个单词的短语的出现频度等的考察。这里,编码数据压缩部3不限于将在词素分析数据编码部2中进行了编码的数据一对一对地进行压缩的情况,也可以进行将编码词素压缩为多个或者将多个编码词素压缩为1个压缩数据等的处理。
数据库4用于存储在编码数据压缩部3中进行了压缩处理的压缩结果,设置在二次存储装置等中。另外,在进行文件信息的检索时,在与检索询问对应时,读出数据库4存储的信息。
文件信息索引生成部5根据在词素分析数据编码部2中进行了编码的编码词素,生成对于存放在信息存储检索装置100中的文件信息的文件信息索引。这里,关于文件信息索引的生成,文件信息索引生成部5也可以不使用由词素分析数据编码部2进行了编码的编码词素数据而使用文件信息词素分析部1通过分析而抽出的单词(包括词素)来生成文件信息索引。
文件信息索引是文件信息索引生成部5生成的,在检索文件信息等时使用,记录在文件信息索引存储部6中。
另外,文件信息索引在文件信息的检索中,在判断从数据库4中复原的编码词素数据是否适合于检索询问时也可以作为参考使用。例如,可以将在检索文件信息时使用的文件信息索引来判断从数据库4中所复原的文件信息是否适合。
压缩编码数据复原部7用于将数据库4存储的压缩过的字符串恢复为原来的字符串。压缩编码数据复原部7在进行复原为不同的数值的编码处理时,对已压缩的代码不限于一定进行向1个数值的编码处理,可以进行向2个以上的数值的编码处理。另外,压缩编码数据复原部7也可以对多个压缩的代码进行向1个数值的编码处理。
换言之,在进行文件信息的检索时,与检索询问相应的文件信息存储到数据库4中时,将数据库4中存储并压缩的文件信息复原为编码词素数据。
核对判断部8判断词素分析数据编码部2的编码词素数据与压缩编码数据复原部7的编码词素数据是否一致。
这里,词素分析数据编码部2的编码词素数据就是词素分析数据编码部2将由文件信息词素分析部1根据检索询问抽出的单词(包括词素)执行了编码为数值的处理后的数据。另一方面,压缩编码数据复原部7的编码词素数据就是由压缩编码数据复原部7将数据库4存储的文件信息(进行了压缩处理的编码词素数据)进行复原为实施压缩处理前的编码词素数据的复原处理的数据。
这里,核对判断部8在进行完全一致检索时,进行将检索询问进行了编码的数值与由压缩编码数据复原部7将数据库4存储的文件信息进行了复原的编码词素数据的数值是否完全一致的处理。另外,在进行模糊检索时,核对判断部8不进行数值的完全一致的检索,而进行部分一致的检索。
编码词素译码部9用于将已编码的编码词素数据恢复为原来的单词(包括词素)。
结果输出部10根据从核对判断部8接受的信息输出检索结果。根据需要,输出将字符串编码为原来的单词(包括词素)的文件信息。
同义词辞典11保存着大量的词形不同而意义基本上相同的单词,同义词词汇(thesaurus)12是分类辞典,对译辞典13是将原文与译文对照排列的辞典,这些辞典11、12、13在进行索引生成的处理时及进行检索时使用。另外,同义词辞典等(11、12、13)在由文件信息词素分析部1抽出单词进行分析时,用于进行参考使用。
图2是表示同义词辞典、同义词词汇的一例的图,如图2所示的同义词辞典、同义词词汇的一例表所示的那样,作为看做同义、近义的单词(包括词素)的编码数值,成为具有相同的(或相似的)代码形式的结构。
例如,看做同义、近义的「书」、「书籍」和「书本」等的编码数值,如图2所示,除了低位1字节的编码,数值规定为相同的。
图3是表示对译辞典的一例的图,如图3所示的对译辞典的一例的表所示的那样,在表示相同的概念的单词中,都包含相同的形式(0x73a52100)而进行区别。语言(在图3所示的例中,是日语、英语、法语)的不同,则进一步用高位的符号进行区别。例如,若是日语,则在高位配上数值0x,若是英语,则在高位配上数值0x20,若是法语,则在高位配上数值0x30,同义、近义的「书」和「书籍」的编码数值,低位1字节不同,其他的数值相同,另一方面,「本」和「book」及「livre」分别可以解释为同义、近义,只是语言不同,所以,进行编码处理使编码数值的上位字节不同。
这里,上述词素分析数据编码部2在将由文件信息词素分析部1通过分析而抽出的单词(包括词素)编码为数值时参考了图3及图4所示的同义词辞典等(11、12、13)。
例如,文件信息词素分析部1进行词素分析处理的结果,抽出的是单词「书」时,该单词「书」就由词素分析数据编码部2编码为0x73a52100的数值。使用对译辞典时也一样,参照图4所示的对译辞典的表的编码数值进行编码处理。
由词素分析数据编码部2参照同义词辞典等(11、12、13)已数值化的符号,和不参照同义词辞典等(11、12、13)已数值化的编码词素数据一样,用于文件信息索引的生成。
为了由文件信息索引生成部5生成文件信息索引,词素分析数据编码部2传输进行了编码处理的词素数据和文件ID(identifier;标识符)。
下面,分为不同情况说明本发明实施例1的信息存储检索装置100的主要结构的功能等。
(1a)文件信息向数据库的存储
文件信息词素分析部1将从键盘或网络等输入的文件信息从各已编码的文件串中进行词素分析,并将通过分析而抽出的单词(包括词素)向词素分析数据编码部2输出,在进行词素的分析时,进行考虑了该语言的特征的词素分析。
这样,文件信息词素分析部1通过执行词素分析处理,就发挥着从输入的文件信息中抽出作为文件结构要素的词素的词素分析部的功能。
在文件信息词素分析部1中作为文件结构要素而抽出的单词(包括词素)由词素分析数据编码部2进行编码处理为指定的数值,例如,将单词等编码为指定的数值时,参照同义词辞典等(11、12、13),如图2及图3所示的那样,对看做同义、近义的单词等形成相同的代码形式,数值编码处理由词素分析数据编码部2进行。
这样,词素分析数据编码部2就发挥着将由词素分析部抽出的词素进行编码的编码部的功能。
编码数据压缩部3将在词素分析数据编码部2中已编码的文件串中的词素根据出现频度进一步进行指定的编码处理。即,对于文件信息,通过使出现率高的单词(包括词素)成为短的代码而进行压缩。
这样,编码数据压缩部3就发挥着对由编码部进行了编码的词素进行压缩处理的压缩部的功能。
并且,在编码数据压缩部3中进而将编码词素数据编码为不同的数值的文件信息存储到数据库4中,这样,数据库4就发挥着作为存储由压缩部所压缩的编码词素的存储部的功能。
通过词素分析数据编码部2的编码处理而编码为指定的数值的编码词素数据也可以在生成文件信息索引时使用,该文件信息索引的生成,由文件信息索引生成部5进行。
这样,文件信息索引生成部5就发挥着作为根据由编码部进行了编码的词素的信息生成索引的索引生成部的作用。
由文件信息索引生成部5所生成的文件信息索引存储到文件信息索引存储部6中,在进行数据库4存储的文件信息的检索时使用。这里,在文件信息索引存储部6中使用由词素分析数据编码部2进行了编码的词素数据和文件ID存储文件信息索引,文件信息索引存储部6发挥着作为存储由索引生成部所生成的索引的索引存储部的功能。
下面,使用图4等说明具有上述结构的实施例1的信息存储检索装置100的文件信息的存储的动作。
在存储文件信息时,文件信息词素分析部1对通过键盘或网络等输入(S010)的文件信息进行词素的分析。
该分析的执行,是在将文件信息向数据库4中存储时,通过输入文件信息并对文件信息进行词素分析处理,从通过键盘或网络等而输入的文件信息中抽出作为文件结构要素的词素(词素分析步骤S020)。
词素分析数据编码部2参照图2及图3所示的同义词辞典等(11、12、13)将在词素分析步骤中文件信息词素分析部1分析后抽出的单词(包括词素),对于同义、近义的单词(包括词素)编码为相同的代码形式的数值(编码步骤S030)。
编码数据压缩部3将在编码步骤中词素分析数据编码部2已编码为指定的数值的编码词素数据考虑单词(包括词素)的出现频度等后进一步进行编码处理,例如,对于出现频度高的单词等就编码为简单的代码,或者代码为可变长时,就缩短出现率高的单词及短语等编码的代码长度,并且增加出现率低的单词及短语等编码的代码长度(压缩步骤S040)。
作为压缩步骤,将由编码数据压缩部3所压缩的编码词素数据记录到二次存储装置等的数据库4中,数据库4存储在压缩步骤所压缩的编码词素(记录步骤S050)。
文件信息索引生成部5根据作为编码步骤由词素分析数据编码部2进行了编码的词素的信息生成文件信息索引,并存储到文件信息索引存储部6中(索引生成步骤、索引存储步骤S031)。
在进行文件信息索引的生成时,也可以使用在词素分析步骤文件信息词素分析部1抽出的单词(包括词素)生成文件信息索引(索引生成步骤、索引存储步骤S021)。
这里,使用单词(包括词素)或编码词素分析数据生成文件信息索引,与装置的设计情况有关。
这样,实施例1的信息检索装置100通过具有文件信息词素分析部1、词素分析数据编码部2、编码数据压缩部3和数据库4,由词素分析数据编码部2将文件信息词素分析部1分析后抽出的词素进行编码,并通过编码数据压缩部3进一步将编码数据进行压缩,减小最初的文件信息的数据容量,便可减小存储大容量数据的文件信息所需要的区域。
此外,由于该信息存储检索装置100同时进行文件信息索引的生成时所使用的编码词素数据和用于进行压缩的编码词素数据的生成的处理,所以,与另外独立地生成文件信息索引的情况相比,文件信息索引的生成可以不需要时间。
通过在文件信息词素分析部1中一次进行词素分析数据编码部2中进行编码使用的单词(包括词素)和文件信息索引生成部5使用的单词的抽出(分割)处理效率,非常高,与由文件信息词素分析部1和词素分析数据编码部2独立地进行单词的抽出处理的情况相比,可以缩短时间。
另外,实施例1的信息检索存储装置100还具有同义词辞典11、同义词词汇12及对译辞典13,所以,词素分析数据编码部2通过使用同义词辞典11、同义词词汇12及对译辞典13的信息将与文件的领域及内容一致的词素(或者单词)进行编码,就不是单纯的符号串的压缩,而是使用词素的分析,抽出词素(或者单词),与文件内容一致地进行编码,并进而对该符号串进行压缩,所以,可望获得高的压缩率。
(1b)数据库存储的文件信息的检索
文件信息词素分析部1用于分析检索询问并抽出单词(包括词素)。换言之,就是文件信息词素分析部1对作为已编码而输入的字符串的检索询问进行词素分析处理。
这里,检索询问和数据库4存储的文件信息一样,通过键盘、文件、网络等输入文件信息词素分析部1。例如,作为输入的检索询问,相应的是单词或句子等。
词素分析数据编码部2用于将由文件信息词素分析部1分析检索询问后抽出的单词(包括词素)进行编码为指定的数值的编码处理,这里,将检索询问中的词素等数值化时的数值,使用和将存储的文件信息的单词(包括词素)进行编码时使用的数值相同的数值。即,该词素分析数据编码部2对文件信息词素分析部1抽出的单词(包括词素)进行唯一的数值编码处理。
这里,将由文件信息词素分析部1通过分析而抽出的单词(包括词素)编码为数值时,词素分析数据编码部2参照图2及图3所示的同义词辞典等(11、12、13)对检索询问的单词(包括词素)进行编码处理。
核对判断部8使用由词素分析数据编码部2将检索询问的单词(包括词素)编码为数值的编码词素数据,检索文件信息索引存储部6存储的文件信息索引,在进行检索时,索引中有与检索询问的编码词素数据一致的数据时,控制数据库将与该文件ID对应的文件信息传输给压缩编码数据复原部7。
此外,核对判断部8还进行从数据库4复原的编码词素数据与检索询问的编码词素数据是否一致的判断处理。
这里,进行已复原的编码词素数据与检索询问完全一致的检索处理时,核对判断部8判断编码数值是否完全一致,另一方面,在进行模糊的检索处理时,除了对编码数值进行某种处理外,还判断是否一致。例如,在对检索对照进行允许近义词的检索中,如图2所示,像「书」和「书籍」那样,由于近义的关系,编码数值只是低位1字节不同,所以,核对判断部8就将低位1字节掩蔽进行检索,通过判断除了该低位1字节的编码数值是否一致,进行模糊的检索。
另外,核对判断部8不仅可以单纯地判断单词的一致,而且可以判断与各种检索时的条件(单词的出现位置等)是否一致,在检索询问中有必要确认出现位置等原来的文件信息时,就通过压缩编码数据复原部7部分地复原原来的文件。
这样,核对判断部8就发挥着作为判断编码词素数据是否已复原的核对部的功能。
并且,由压缩编码数据复原部7将数据库4的已压缩的文件信息数据编码为指定的数值,这位于作为与编码数据压缩部3中的压缩相反的处理的位置。
这样,压缩编码数据复原部7就发挥着作为将具有存储由压缩部所压缩的编码词素的存储部的、文件信息存储装置的存储部、存储的压缩编码词素复原为原来的编码词素数据的复原部的功能。
编码词素译码部9在有必要复原时用于将由核对判断部8判定适合于检索询问的词素数据复原为单词(包括词素)。
即,该编码词素译码部9将由词素分析数据编码部2进行了编码为指定的数值的单词(包括词素)执行从数值复原为单词(包括词素)的处理。这里,由于与指定的单词(包括词素)对应的编码数值是唯一地决定的,所以,编码词素译码部9将指定的编码词素数据进行向词素唯一地译码的处理,相当于词素分析数据编码部2的编码处理的逆处理。
这样,编码词素译码部9就发挥着作为根据核对结果将由复原部所复原的编码词素数据恢复为词素的译码部的功能。
下面,使用图5等说明具有上述结构的实施例1的信息存储检索装置100的文件信息的检索的动作。
文件信息词素分析部1将通过键盘或网络等而输入(S110)的检索询问(单词或句子等)通过分析而抽出单词(包括词素)(词素分析步骤S120)。
词素分析数据编码部2参照例如图2及图3所示的同义词辞典等(11、12、13)将文件信息词素分析部1在词素分析步骤中分析检索询问后抽出的单词(包括词素),对同义、近义的单词(包括词素)进行相同的代码形式的数值化(编码步骤S130)。
核对判断部8使用词素分析数据编码部2在编码步骤中编码为指定的数值的检索询问,进行具有相同的数值的符号是否位于文件信息索引中的检索(S140)。
并且,核对判断部8在检索文件信息索引的结果是有相应的索引时,控制数据库4将其存储的压缩词素数据向压缩编码数据复原部7输出。这里,在检索的结果匹配的文件有多个时,就将该数量的文件向压缩编码数据复原部7输出。
这里,核对判断部8通过检索考虑是否有必要确认出现位置等原来的文件(S150),在有必要进行确认时,就控制将数据库4存储的原来的文件的内容进行部分地复原。这里,压缩编码数据复原部7将数据库4的已压缩的文件信息复原为指定的符号(复原步骤S151)。
此外,核对判断部8根据文件信息索引的检索,在检测到与所检索的符号的数值相同的符号时,就确认是否适合于检索询问(核对步骤S160)。
核对判断部8将检索的结果向结果输出部10传输,结果输出部10在有必要作为原来的文件的内容进行译码时(S170),例如就由核对判断部8确认适合于检索询问的文件信息,在有必要将作为原来的文件的内容而输出时,就将编码词素数据向编码词素译码部9传输,作为原来的文件的内容进行译码(译码步骤S171)。
并且,结果输出部10输出由编码词素译码部9所复原的原来的文件的内容等检索结果(S180)。
这样,由于实施例1的信息存储检索装置100具有文件信息词素分析部1、词素分析数据编码部2、编码数据压缩部3、数据库4、压缩编码数据复原部7、核对判断部8和编码词素译码部9,所以,可以节省空间来存储大容量的文件信息数据,并且可以检索所需要的文件信息。
此外,由于核对判断部8将编码词素形式的询问与由压缩编码数据复原部7所复原的编码词素数据进行对照,判断适合于检索询问的编码词素数据是否已复原,所以,该信息存储检索装置100根据大容量的压缩的文件信息就可以检索所需要的事项。
(1c)文件信息的检索
下面,使用图6等说明文件信息索引生成部5使用文件信息词素分析部1通过分析而抽出的单词(包括词素)生成文件信息索引时实施例1的信息存储检索装置100的文件信息的检索的动作。
首先,从键盘或文件、网络等输入检索询问(单词或句子等)(S210)。
其次,词素分析部1将该检索询问进行词素分析后抽出单词(包括词素)(词素分析步骤S220)。
核对判断部8使用该单词在文件信息索引6内进行检索(S230)。
对于检索询问确认出现位置等原来的文件时,就通过压缩编码数据复原部7和编码词素译码部9部分地复原原来的文件(S240、复原步骤S241),核对判断部8确认所复原的文件的内容是否适合于检索询问的条件(核对步骤S250)。
并且,根据检索结果,输出原来的文件的内容时,就通过压缩编码数据复原部7和编码词素译码部9将数据库4所存储的压缩数据进行译码(S260、译码步骤S261)。
最后,输出检索的结果(S270)。
利用这种使用由词素分析部1通过分析而抽出的单词(包括词素)生成的文件信息索引进行的文件信息的检索,也和(1b)的文件信息的检索一样,文件信息存储检索装置可以节省空间来存储大容量的文件信息数据,并且可以检索所需要的文件信息,同时,还可以非常顺利地从大容量的压缩的文件信息中检索所需要的事项。
(2)实施例2的说明
图7是表示作为本发明的实施例2的信息存储检索装置200的图,图7所示的信息存储检索装置200与上述实施例1相比,不同点在于将同义词辞典等(11、12、13)代之以人名辞典14及邮政编码辞典15,其他(参见符号1、2、3、4、5、6、7、8、9、10)结构相同。
对于和在(1)中使用的相同的部分,省略其说明。
这里,图8是表示人名辞典的一例的图,如图8所示,人名辞典存储着人名、姓名、与人名的索引对应的符号(数值),邮政编码辞典15存储着与场所(地域、地名)对应的符号(数值),这些辞典(14、15)和同义词辞典等(11、12、13)一样,在编码部的词素分析数据编码部2将由词素分析部1抽出的单词(包括词素)进行编码为指定的数值的编码处理时作为参考使用。此外,人名辞典等(14、15)在作为词素分析部的文件信息词素分析部1分析数据库4存储的文件信息和检索询问并抽出单词(包括词素)时也进行参考使用。在上述实施例1的文件信息存储检索装置100中,也可以采用参考同义词辞典等(11、12、13)由文件信息词素分析部1通过分析而抽出单词(包括词素)的结构。
这里,人名辞典14为了对相同发音的称呼等进行相同的编码处理,对相同发音的称呼等分配给类似的编码数值,图8所示的人名辞典列出了与人名(索引)对应的编码数值,人名「仲田」的编码数值为0x7350,而对人名「中田」则分配给0x7351的编码数值,编码为低位1字节不同的近似的数值。
另外,和人名辞典14相同,邮政编码辞典15对于邻近的地域,分配给相似的编码数值。这里,图9是表示邮政编码辞典的一例的表的图,如图9所示,邮政编码辞典列出了与地名(地域名)〔索引〕对应的编码数值,地名「神奈川县川崎市幸区」的编码数值分配给210,相反,对于地名「神奈川县川崎市中原区」则分配给211,对于地名「神奈川县川崎市高津区」,分配给213等编码数值,编码为低位1字节不同的相似的数值。
下面,分别从文件信息的存储和文件信息的检索说明实施例2的信息存储检索装置200的动作等。
(2a)文件信息的存储
由于上述结构,本发明实施例2的信息存储检索装置200除了将同义词辞典等(11、12、13)代之以人名辞典等(14、15)外,和上述实施例1一样地动作。
这里,对于本发明的实施例2,下面,使用图11说明图10所示的文件信息怎样处理后存储到数据库4中。
图10是表示用于说明将文件信息向数据库4中存储的动作的文件信息的一例的图,如图10所示,在文件序号13的文件信息中除了姓氏外,还包括住所。
另外,图11是表示在文件信息的存储处理中文件信息的流程图,文件信息(文件序号(ID)13)被从键盘或网络等向信息存储检索装置200传送。例如,文件信息(文件ID13)中的「中田守神奈川县川崎市中原区下小田中...」作为已编码的字符串的信息而输入(S310)。
从网络等输入的字符串的文件信息,通过文件信息词素分析部1的分析,抽出单词(包括词素)(词素分析步骤S320),分割为每个单词(包括词素)。即,文件信息词素分析部1将从网络等输入的单词(包括词素)以人名辞典等(14、15)为基准进行单词(包括词素)的分割(抽出)处理。
词素分析数据编码部2参照图8和图9所示的人名辞典和邮政编码辞典将在词素分析步骤中分割的单词(包括词素)进行编码为指定的数值的编码处理。
即,通过词素分析数据编码部2的处理,各分割的单词(包括词素)参照图8,人名「中田」成为「0x7351」,而人名「守」则成为「0xa120」,参照图9,住所「神奈川县川崎市中原区」成为「211」,而住所「下小田中」则成为「0xff23」(编码步骤S330)。
作为编码步骤,由词素分析数据编码部2编码为指定的数值的编码词素数据向编码数据压缩部3和文件信息索引生成部5传送。索引生成部5根据由词素分析数据编码部2进行编码的词素数据和文件ID生成文件信息索引。例如,作为编码步骤,在词素分析数据编码部2中,将已编码的人名「中田」、「守」等的编码数值「0x7351」、「0xa120」等作为索引,生成包含与其对应的文件ID的内容的文件信息索引(索引生成步骤S340)。
另一方面,编码数据压缩部3对由词素分析数据编码部2执行的编码的数值「0x7351 0xa120 211 0xff23...」等进一步进行编码为不同的数值的压缩的处理(压缩步骤),并将所压缩的编码词素数据存储到作为存储部的数据库4中(存储步骤)。
这样,按照信息存储检索装置200,不是直接压缩文件信息(例如,文件ID13中的「中田守......」),而是一度通过作为词素分析部的文件信息词素分析部1分析词素,参照人名辞典等(14、15),由作为编码部的词素分析数据编码部2进行编码为指定的数值的编码处理,进而由编码数据压缩部3将已编码的词素数据进行压缩,并且随着考虑原来的文件(从网络等输入的文件信息)的性质进行编码(例如,是花名册时,就根据人名和住所进行编码),可以期望高的压缩率。
此外,通过作为词素分析部的文件信息词素分析部1的一次的处理抽出(分割)编码步骤中的编码所使用的单词(包括词素)和文件信息索引生成部5使用的单词,非常有效,与词素分析数据编码部2和文件信息索引生成部5独立地进行单词的抽出处理的情况相比,可以缩短时间。
(2b)文件信息的检索
下面,使用图12说明本发明的实施例2如何检索数据库4存储的文件信息。
图12是表示文件信息的检索处理中文件信息的流程的图,检索询问通过键盘或网络等输入信息存储检索装置200。例如,以检索询问「中田」并且检索条件「用相同的称呼、包括文字不同的情况」作为已编码的字符串的信息而输入(S410)。
从网络等输入的检索询问和数据库4存储的文件信息一样,在词素分析步骤中通过文件信息词素分析部1的分析,抽出单词(包括词素),各分割的单词(包括词素)在词素分析数据编码部2中进行编码为指定的数值的编码处理(编码步骤S420)。
这里,由词素分析部1和词素分析数据编码部2以索引共同的人名辞典等(14、15)为基准进行各种处理。
即,文件信息词素分析部1通过参照人名辞典14分析检索询问「中田」,抽出单词「中田」,词素分析数据编码部2同样参照人名辞典14将单词「中田」进行编码为指定的数值「0x7351」的编码处理。
作为检索条件,由于已指定「表示姓名的文字可以不同」,所以,核对判断部8按照检索条件对检索询问的编码数值「0x7351」掩蔽低位1字节后,检索文件信息索引存储部6存储的文件信息索引6-1(S430)。这里,之所以掩蔽低位1字节,是由于对于在人名辞典中所包含的相同发音的人名分配的符号是低位1字节的数值不同。
核对判断部8使用将低位1字节掩蔽后的编码数值对图12所示的文件信息索引6-1进行检索时,将检测到高位字节为「0x735」的文件ID是文件ID(13、29、97、152、113)(S440)。
然后,结果输出部10输出结果。这时,不仅输出文件ID,而且在实际显示内容时,还显示在译码步骤中词素译码部9译码的结果。
这样,按照本发明实施例2的信息存储检索装置200,对于存储大容量的文件信息的数据库4,可以顺利地进行信息检索,从而可以进行检索时间不延迟的处理。
(3)实施例3的说明
图13是表示作为本发明实施例3的信息存储检索装置300的图,图13所示的信息存储检索装置300存储并检索用各种语言书写的文件信息,和上述实施例1的结构相同(参见符号2、3、4、5、6、7、8、9、10、11、13)。
对于和在(1)中使用的相同的部分,省略其说明。
下面,说明信息存储检索装置300在各种语言内与日语、英语和法语对应的情况。
作为词素分析部的文件信息词素分析部1-1与上述文件信息词素分析部1略有不同,是在分析日语、英语和法语这三国语的词素后抽出单词(包括词素)。
下面,分为文件信息的存储和文件信息的检索说明实施例3的信息存储检索装置300的动作等。
(3a)文件信息的存储
由于具有上述结构,本发明实施例3的信息存储检索装置300和上述实施例1一样地动作。
这里,图14是表示文件信息的一例的图,作为词素分析部的文件信息词素分析部1参照图2所示的同义词辞典等通过分析图14(a)~(c)所示的文件信息而抽出单词(包括词素)。
并且,作为编码部的词素分析数据编码部2参照图2所示的同义词辞典等将该抽出而分割的单词(包括词素)进行编码为指定的数值的编码处理。文件信息索引生成部5根据编码为数值的编码词素数据生成图15所示的文件信息索引6-2。另一方面,由编码数据压缩部3将由词素分析数据编码部2编码为数值的词素数据进一步进行编码为不同的数值的压缩处理,并存储到数据库4中。
这样,即使用多个不同的语言表述的文件信息是大量的,实施例3的信息存储检索装置300也不直接压缩文件信息,而是暂时通过作为词素分析部的文件信息词素分析部1分析词素,作为编码部的词素分析数据编码部2参照对译辞典13等进行编码为指定的数值的编码处理,进而编码数据压缩部3将已编码的词素数据进行压缩,并且随着考虑原来的文件(从网络等输入的文件信息)的性质而进行编码(例如,是花名册时,就根据人名及住所进行编码),可以期望高的压缩率。
此外,通过作为词素分析部的文件信息词素分析部1的一次的处理而进行在编码步骤中的编码所使用的单词(包括词素)和文件信息索引生成部5使用的单词的抽出(分割),非常有效,与词素分析数据编码部2和文件信息索引生成部5独立地进行单词的抽出处理的情况相比,可以缩短时间。
(3b)文件信息的检索
下面,使用图16说明本发明的实施例3是如何检索数据库4存储的文件信息的。
图16是表示文件信息的检索处理中文件信息的流程的图,检索询问通过键盘或网络等输入信息存储检索装置300。例如,检索询问「书籍」及检索条件「翻译语、同义词均可」作为已编码的字符串的信息而输入(S510)。
从网络等输入的检索询问和数据库4存储的文件信息一样,通过文件信息词素分析部1的分析而抽出单词(包括词素)(词素分析步骤),各分割的单词(包括词素)在词素分析数据编码部2中进行编码为指定的数值的编码处理(编码步骤S520)。
即,文件信息词素分析部1参照图2所示的同义词辞典,通过分析检索询问「书籍」,分割出单词「书籍」,词素分析数据编码部2同样参照图2所示的同义词辞典将单词「书籍」进行编码为指定的数值「0x73a52101」的编码处理。
在核对步骤,核对判断部8作为检索条件考虑「翻译语、同义词均可」,将检索询问的编码数值「0x73a52101」掩蔽低位1字节和高位第5字节以上后,检索文件信息索引(S530)。
核对判断部8进行图15所示的文件信息索引6-2的检索时,作为适合于检索条件的文件序号,可以得到21、34、119(S540)。
然后,结果输出部10输出结果。输出结果时,不仅是文件序号,而且在实际显示内容时,在译码步骤编码词素译码部9进行译码,结果输出部10输出其结果。
这样,按照本发明实施例3的信息存储检索装置300,使用多个不同的语言,不仅可以对存储大量的文件信息的数据库4进行一定的语言的检索询问,也可以用不同的语言进行检索,并且可以顺利地进行信息检索,从而可望进行检索时间不延迟的处理。
(4)记录媒体
(4a)记录文件信息存储程序的记录媒体
下面,使用具有图1所示的装置而构成的文件信息存储检索装置100说明记录本发明的实施例的文件信息存储程序的记录媒体(以下,为了便于说明,附上符号「A」)。
此外,对于和在(1)中使用的相同的部分,省略其说明。
文件信息存储程序就是用于使计算机执行以下步骤的程序:即通过对输入的文件信息进行词素分析处理,从文件信息中抽出作为文件信息结构要素的词素的词素分析步骤;将由词素分析步骤抽出的词素进行编码的编码步骤;对由编码步骤进行了编码的词素进行压缩处理的压缩步骤和存储由压缩步骤所压缩的编码词素的存储步骤。下面,说明计算机读入记录媒体A记录的文件信息存储程序后,计算机的中央处理装置(CPU)对各硬件进行处理的控制。
这里,计算机从记录了程序的媒体A中以电、磁或光等读入程序。
电信号或光信号等通过网络等输入文件信息存储检索装置100时,在词素分析步骤,计算机控制文件信息词素分析部1分析输入的文件信息并抽出单词(包括词素),并将分离出的单词(包括词素)向执行编码步骤的词素分析数据编码部2输出。
作为编码步骤,词素分析数据编码部2在计算机的执行控制下,将由文件信息词素分析部1所分离出的单词(包括词素)进行编码为指定的数值的编码处理。
作为压缩步骤,计算机控制编码数据压缩部3将已编码为数值的词素分析数据进一步进行编码为不同的数值的压缩处理。
作为存储步骤,计算机控制数据库4记录由编码数据压缩部3所压缩的压缩编码词素数据。
这样,按照本发明实施例的记录文件信息存储程序的记录媒体,在计算机的控制下,存储文件信息时,不是直接压缩文件信息,而是一度通过作为词素分析部的文件信息词素分析部1分析词素,由作为编码部的词素分析数据编码部2进行编码为指定的数值的编码处理,进而由编码数据压缩部3将已编码的词素数据进行压缩,所以,可以期望高的压缩率。
相对于上述记录媒体A,具有记录附加了使计算机执行以下步骤的文件信息存储程序的记录媒体:根据由词素分析步骤抽出的词素,和由编码步骤进行了编码的词素中的至少一方的信息,生成索引的索引生成步骤,和将由索引生成步骤生成的索引,存储到索引存储单元中的索引存储步骤的程序(以下,为了便于说明,附上符号「B」)。也可以期望和上述记录媒体A具有同样高的压缩率。
作为索引生成步骤,计算机控制索引生成部5使用在文件信息词素分析部1中抽出的单词(包括词素)或在词素分析数据编码部2中编码为指定的数值的编码词素数据生成文件信息索引。作为索引存储步骤,计算机控制存储由文件信息索引生成部5生成的文件信息索引。
这样,记录媒体B进而通过在作为词素分析部的文件信息词素分析部1中进行一次处理抽出(分割)在编码步骤中的使用的单词(包括词素)和文件信息索引生成部5使用的单词,非常有效,与词素分析部1和词素分析数据编码部2独立地进行单词的抽出处理的情况相比,可以缩短时间。
(4b)记录文件信息检索程序的记录媒体
下面,使用具有图1所示的装置而构成的文件信息存储检索装置100说明本发明实施例的记录文件信息检索程序的记录媒体(以下,为了便于说明,附上符号「C」)。
此外,对于和在(1)等中使用的相同的部分,省略其说明。
文件信息检索程序就是用于使计算机执行以下步骤的程序:即通过对输入的检索询问进行词素分析处理,从检索询问信息中抽出词素的词素分析步骤;将由词素分析步骤抽出的词素进行编码的编码步骤;将存储单元存储的压缩编码词素复原为原来的编码词素数据的复原步骤;将由编码步骤得到的编码词素形式的检索询问,与由复原步骤所复原的编码词素数据进行对照,从而判断适合于检索询问的编码词素数据是否已复原的核对步骤和根据核对步骤的核对结果将由复原步骤所复原的编码词素数据恢复为词素的词素译码步骤。下面,说明计算机读入记录媒体C记录的文件信息检索程序后计算机的中央处理装置(CPU)对各硬件进行处理的控制。
电信号或光信号等通过网络等输入文件信息存储检索装置100时,作为词素分析步骤,计算机控制文件信息词素分析部1分析输入的检索询问并抽出单词(包括词素)。
作为编码步骤,词素分析数据编码部2在计算机的控制下将由文件信息词素分析部1所分离出的单词(包括词素)进行编码为指定的数值的编码处理。
作为复原步骤,计算机控制压缩编码数据复原部7将数据库4存储的压缩编码词素数据复原为指定的数值。
作为核对步骤,计算机控制核对判断部8将由编码步骤得到的编码词素形式的检索询问,与由复原步骤所复原的编码词素数据进行对照,从而判断适合于检索询问的编码词素数据是否已复原。
作为词素复原步骤,计算机控制编码词素译码部9在需要时根据核对结果将编码数值译码为词素。
这样,按照本发明实施例的记录文件信息检索程序的记录媒体C,在计算机的控制下,对存储大量的文件信息的装置进行文件信息的检索时,可以顺利地进行检索处理。
相对于上述记录媒体C,记录附加了使计算机执行以下步骤的文件信息检索程序的记录媒体:即根据由词素分析步骤抽出的词素和由编码步骤进行了编码的词素中的至少一方的信息而得到的索引中对索引存储单元存储的索引进行检索的索引检索步骤。(以下,为了便于说明,附上符号「D」)。也可以和上述记录媒体C同样地进行顺利的检索处理。
这里,作为索引检索步骤,计算机控制核对判断部8在存储文件信息时检索文件信息索引生成部5生成的文件信息索引,作为复原步骤,计算机控制压缩编码数据复原部7根据检索将通过存储步骤数据库4存储的压缩编码词素数据进行复原。
这样,记录媒体D通过进而使用文件信息索引,对存储大容量的文件信息的数据库4就可以顺利地进行信息检索,从而可望进行检索时间不延迟的处理。
(5)其他说明
(5a)其他实施例
图17~图19是表示其他实施例的信息存储检索装置(400、500、600)的图,首先,图17所示的信息存储检索装置400与上述实施例1相比,不同点是不具有文件信息索引生成部5和同义词辞典等(11、12、13),其他(参见符号1、2、3、4、7、8、9、10)的结构相同。此外,对于和在(1)中使用的相同的部分,省略其说明。
根据上述结构,在词素分析步骤,文件信息词素分析部1分析输入的文件信息并抽出单词(包括词素),词素分析数据编码部2进行编码为数值的编码处理(编码步骤),在编码数据压缩部3进而进行编码为不同的数值的压缩处理(压缩步骤)后,压缩后的编码词素数据存储到数据库4中(存储步骤)。
这样,按照图17所示的信息存储检索装置400,不是直接压缩文件信息,而是暂时通过作为词素分析部的文件信息词素分析部1分析词素,作为编码部的词素分析数据编码部2进行编码为指定的数值的编码处理,编码数据压缩部3进而将已编码的词素数据进行压缩,所以,可以期望高的压缩率。
如图18所示,信息存储检索装置500与上述实施例1相比,不同点是不具有同义词辞典等(11、12、13),其他(参见符号1、2、3、4、5、6、7、8、9、10)的结构相同。此外,对于和在(1)中使用的相同的部分,省略其说明。
根据上述结构,图18所示的信息存储检索装置500不是直接压缩文件信息,而是暂时通过作为词素分析部的文件信息词素分析部1分析词素,作为编码部的词素分析数据编码部2进行编码为指定的数值的编码处理,编码数据压缩部3进而将已编码的词素数据进行压缩。
这样,按照图18所示的信息存储检索装置500,可以期望高的压缩率,从而可以将大容量的文件信息存储到数据库4中。
此外,通过在作为词素分析部的文件信息词素分析部1的一次的处理中进行在编码步骤中的编码使用的单词(包括词素)和文件信息索引生成部5使用的单词的抽出,非常有效,与词素分析数据编码部2和文件信息索引生成部5独立地进行单词的抽出的情况相比,可以缩短时间。
在进行检索时,通过使用存储时生成的文件信息索引,检索就很容易,从而复原作业的时间也可以不需要长时间。
另一方面,如图19所示,信息存储检索装置600与上述实施例1相比,不同点是不具有文件信息索引生成部5,其他(参见符号1、2、3、4、7、8、9、10、11、12、13)的结构相同。此外,对于和在(1)中使用的相同的部分,省略其说明。
根据上述结构,信息存储检索装置600不是直接压缩文件信息(例如,文件ID13中的「中田守......」),而是一度通过作为词素分析部的文件信息词素分析部1分析词素,作为编码部的词素分析数据编码部2参照人名辞典等(14、15)进行编码为指定的数值的编码处理,编码数据压缩部3进而将已编码的词素数据进行压缩,并且考虑原来的文件(从网络等输入的文件信息)的性质进行编码(例如,是花名册时,就根据人名及住所进行编码)。此外,信息存储检索装置600在作为词素分析部的文件信息词素分析部1的一次的处理中进行在编码步骤中的编码使用的单词(包括词素)和文件信息索引生成部5使用的单词的抽出(分割)。
这样,按照信息存储检索装置600,可以期望高的压缩率,同时,在生成文件信息索引时,非常有效,与词素分析部1和词素分析数据编码部2独立地进行单词的抽出处理的情况相比,可以缩短时间。
(5b)检索装置和存储装置的其他的实施例
为了便于说明,如前所述,在说明存储文件信息的装置和检索文件信息的装置时,使用了具有两种装置的功能的信息存储检索装置,但是,通过分离为存储文件信息的装置和检索文件信息的装置,也可以解决先有技术上的问题。
(5c)索引生成部
本发明实施例的文件信息索引生成部5也可以生成关于检索询问的文件信息索引。
下面,使用上述(1)的实施例1的信息存储检索装置100进行说明。对于和在(1)中使用的相同的部分,省略其说明。
这时,文件信息索引生成部5对于输入的检索询问,使用由文件信息词素分析部1通过分析而抽出的单词(包括词素)或由词素分析数据编码部2进行了编码处理的编码词素数据生成文件信息。
核对判断部8使用由文件信息索引生成部5生成的检索询问的文件信息索引,和数据库4存储的文件信息的文件信息索引进行文件信息的检索。
按照这样的,使用检索询问的文件信息索引,进行文件信息的检索的文件信息存储检索装置,在进行大容量的文件信息数据的检索时,通过检索所存储的文件信息的文件信息索引,与检索通常的文件信息相比可以在短时间内进行处理。
这里,关于检索询问,在文件信息词素分析部1的分析处理或词素分析数据编码部2的编码处理时,在核对判断部8根据参照同义词辞典11等而得到的信息,并利用文件信息索引生成部5生成的文件信息索引检索数据库4存储的文件的文件信息索引6,也可以在短时间内从数据库4内存储的大容量的文件信息数据中读出适合于检索事项的文件信息。
(5d)译码的其他实施例
在上述情况中,在将数据库4存储的文件信息复原的过程中,由压缩编码数据复原部7将压缩的文件信息复原后,由核对判断部8进行适合于检索询问的判断。这里,核对判断部8也可以根据在编码词素译码部9中所译码的词素数据判断是否为适合于检索询问的文件信息。
(5e)编码数据压缩部的其他实施例
作为压缩处理的过程的一例,在上述情况中,叙述了出现频度越高的字符串设定所使用的代码越短的情况等,但是,在不超出本发明的主旨的范围内,压缩处理过程可以采用各种变形而进行。
如上所述,按照本发明的文件信息存储装置,通过词素分析部进行词素分析处理,从输入的文件信息中抽出作为文件信息结构要素的词素,由编码部将由词素分析部抽出的词素进行编码,由压缩部对由编码部进行了编码的词素进行压缩处理,由存储部存储由压缩部所压缩的编码词素,所以,不直接存储输入的文件信息,通过分为单词(包括词素),将它们进行数值编码并进而进行压缩的编码处理,可以获得高的压缩率,从而可以存储大容量的数据。
这里,本发明第2方面所述的本发明的文件信息存储装置,索引生成部根据由词素分析部抽出的词素和由编码部进行了编码的词素中的至少一方的信息生成索引,由索引存储部存储由索引生成部生成的索引,所以,通过在词素分析部的一次的处理中进行在编码部的编码中使用的单词(包括词素)和索引生成部使用的单词的抽出(分割),非常有效,与由索引生成部和编码部独立地进行单词的抽出处理的情况相比,可以缩短时间。
或者,本发明第3方面所述的本发明的文件信息存储装置,具有同义词辞典、同义词词汇、对译辞典中的至少一种,编码部使用同义词辞典、同义词词汇、对译辞典中的至少一种信息将词素进行编码,所以,不是直接压缩文件信息,而是编码部参照人名辞典等进行编码为指定的数值的编码处理,压缩部3进而将已编码的词素数据进行压缩,并且随着考虑原来的文件(从网络等输入的文件信息)的性质而进行编码(例如,是花名册时,就根据人名和住所进行编码),可以期望更高的压缩率。
此外,本发明第4方面所述的文件信息存储装置,具有索引生成部,索引存储部,同义词辞典、同义词词汇、对译辞典中的至少一种,编码部使用同义词辞典、同义词词汇、对译辞典中的至少一方的信息对词素进行编码,所以,非常有效地存储文件信息,同时可以生成索引,并且在进行文件信息的存储时可以获得高的压缩率。
另一方面,按照本发明第5方面所述的本发明的文件信息存储方法。在词素分析步骤进行词素分析处理,从文件信息中抽出作为文件信息结构要素的词素,由编码步骤将在词素分析步骤抽出的词素进行编码,在压缩步骤对在编码步骤进行了编码的词素进行压缩处理,在存储步骤存储由压缩步骤所压缩的编码词素,所以,不直接存储输入的文件信息,通过分为单词(包括词素)将它们进行数值编码,并进而进行压缩的编码处理,可以获得高的压缩率,从而可以存储大容量的数据。
这里,本发明第6方面所述的本发明的文件信息存储方法,索引生成步骤根据在词素分析步骤抽出的词素和在编码步骤进行了编码的词素中的至少一方的信息生成索引,索引存储步骤存储在索引生成步骤生成的索引,所以,通过在词素分析步骤的一次的处理中进行在编码步骤中的编码使用的单词(包括词素)和在索引生成步骤使用的单词的抽出(分割),非常有效,与由索引生成步骤和编码步骤独立地进行单词的抽出处理的情况相比,可以缩短时间。
另外,本发明第7方面所述的本发明的文件信息存储方法,编码步骤使用同义词辞典、同义词词汇、对译辞典中的某一种信息将词素进行编码,所以,不是直接压缩文件信息,而是一度通过词素分析步骤分析词素,编码步骤参照人名辞典等进行编码为指定的数值的编码处理,压缩步骤进而将已编码的词素数据进行压缩,并且随着考虑原来的文件(从网络等输入的文件信息)的性质而进行编码,可以获得更高的压缩率。
此外,本发明第8方面所述的本发明的文件信息存储方法,具有根据在词素分析步骤抽出的词素和在编码步骤进行了编码的词素中的至少一方的信息生成索引的索引生成步骤,和存储在索引生成步骤生成的索引的索引存储步骤,编码步骤使用同义词辞典、同义词词汇、对译辞典中的某一种信息将词素进行编码,所以,非常有效地存储文件信息,同时可以生成索引,并且在进行文件信息的存储时可以获得高的压缩率。
另一方面,本发明第9方面的文件信息检索装置,复原部将具有词素分析部、编码部、压缩部和存储部的文件信息存储装置的存储部存储的压缩编码词素复原为原来的编码词素数据,由核对部进行适合于检索询问的编码词素数据是否已复原的判断,由译码部根据核对部的核对结果将由复原部所复原的编码词素数据恢复为词素,所以,可以进行大容量的文件信息的数据的检索。
这里,本发明第10方面所述的本发明的文件信息检索装置,核对部将编码词素形式的检索询问与由复原部所复原的编码词素数据进行对照,判断适合于检索询问的编码词素数据是否已复原,所以,可以正确地进行大容量的文件信息的数据的检索。
另外,本发明第11方面所述的本发明的文件信息检索装置,将索引生成部和索引存储部附加到文件信息存储装置中,核对部从根据词素形式的检索询问和编码词素形式的检索询问中至少一方的信息而得到的索引进行索引存储部存储的索引的检索,由复原部根据该检索结果得到的索引的信息将存储部存储的压缩编码词素复原为原来的编码词素数据,所以,通过使用索引可以非常顺利地进行文件信息存储装置存储的大容量的文件信息的文件信息检索。
此外,本发明第12方面所述的本发明的文件信息检索装置,具有同义词辞典、同义词词汇、对译辞典中的至少一种,编码部使用同义词辞典、同义词词汇、对译辞典中的某一种信息将词素进行编码,构成文件信息存储装置的核对部将使用同义词辞典、同义词词汇、对译辞典中的某一种信息生成的编码词素形式的检索询问与由复原部所复原的编码词素数据进行对照,判断适合于检索询问的编码词素数据是否已复原,所以,可以从文件信息存储装置存储的大容量的文件信息中进行具有自由度的检索(例如,作为模糊检索的同义词检索)。
本发明第13方面所述的本发明的文件信息检索装置,将索引生成部和索引存储部附加到文件信息存储装置中,进而具有同义词辞典、同义词词汇、对译辞典中的至少一种,编码部使用同义词辞典、同义词词汇、对译辞典中的某一种信息将词素进行编码,所以,构成文件信息存储装置的核对部从根据使用同义词辞典、同义词词汇、对译辞典中的某一种信息生成的词素形式的检索询问和编码词素形式的检索询问中的至少一方的信息得到的索引中进行索引存储部存储的索引的检索,复原部根据该检索结果得到的索引的信息将存储部存储的压缩编码词素复原为原来的编码词素数据,所以,对于文件信息存储装置存储的大容量的文件信息,可以进行具有自由度的检索(例如,作为模糊检索的同义词检索),同时,通过使用索引可以非常顺利地进行文件信息存储装置存储的大容量的文件信息的文件信息检索。
另一方面,本发明第14方面所述的本发明的文件信息检索方法,对于通过输入文件信息并对文件信息进行词素分析处理、从文件信息中抽出作为文件信息结构要素的词素、并将该抽出的词素进行编码、进而对该已编码的词素进行压缩处理、和将该压缩的编码词素存储到存储单元中的文件信息存储装置,通过在词素分析步骤进行词素分析处理,从检索询问信息中抽出词素,编码步骤进行将在词素分析步骤中抽出的词素编码的处理,在复原步骤将文件信息存储装置的存储单元存储的压缩编码词素复原为原来的编码词素数据,核对步骤将在编码步骤得到的编码词素形式的检索询问与在复原步骤所复原的编码词素数据进行对照,进行适合于检索询问的编码词素数据是否已复原的判断,并且在译码步骤根据核对步骤的核对结果将由复原步骤所复原的编码词素数据防护为词素,所以,可以从文件信息存储装置存储的大容量的文件信息中正确地进行文件信息的检索。
这里,本发明第15方面所述的本发明的文件信息检索方法,核对步骤将使用同义词辞典、同义词词汇、对译辞典中的某一种信息生成的编码词素形式的检索询问与由复原部所复原的编码词素数据进行对照,判断适合于检索询问的编码词素数据是否已复原,所以,可以从文件信息存储装置存储的大容量的文件信息中进行具有自由度的检索。
本发明第16方面所述的文件信息检索方法,对于存储单元存储将文件信息进行了压缩的编码词素同时索引存储单元存储文件信息的索引的文件信息存储装置,通过在词素分析步骤对检索询问进行词素分析处理,从检索询问信息中抽出词素,在编码步骤进行词素分析步骤抽出的词素的编码,在索引检索步骤从根据词素分析步骤抽出的词素、和由编码步骤进行了编码的词素中的至少一方的信息而得到的索引中、进行索引存储单元存储的索引的检索,复原步骤根据由索引检索步骤得到的索引信息将存储单元存储的压缩编码词素复原为原来的编码词素数据,在译码步骤将由复原步骤所复原的编码词素数据恢复为词素,所以,从文件信息存储装置存储的大容量的文件信息中进行文件信息的检索处理时,通过使用索引,就可以非常顺利地进行。
这里,本发明第17方面所述的文件信息检索方法,文件信息存储装置使用同义词辞典、同义词词汇、对译辞典中的某一种信息就词素进行编码,并且索引检索步骤使用同义词辞典、同义词词汇、对译辞典中的某一种信息进行索引检索,所以,指定的单词(包括词素)根据同义词辞典等编码为指定的数值,流与其对应的符号进行文件信息的检索,所以,可以非常顺利地进行检索处理。
本发明第18方面所述的记录媒体,记录用于使计算机执行通过对输入的文件信息进行词素分析处理而从文件信息中抽出作为文件信息结构要素的词素的词素分析步骤、将由词素分析步骤抽出的词素进行编码的编码步骤、对由编码步骤进行了编码的词素进行压缩处理的压缩步骤和存储由压缩步骤所压缩的编码词素的存储步骤的文件信息存储程序,所以,不直接存储文件信息,而是分为单词(包括词素)将它们进行数值编码并进而进行压缩的编码处理,所以,可望获得高的压缩率,从而可以存储大容量的数据。
这里,本发明第19方面所述的记录媒体,记录用于使计算机对输入的文件信息执行词素分析步骤、编码步骤、压缩步骤、存储步骤、根据由词素分析步骤抽出的词素、和由编码步骤进行了编码的词素中的至少一方的信息、生成索引的索引生成步骤,和将由索引生成步骤生成的索引存储到索引存储单元中的索引存储步骤的文件信息存储程序。所以,通过在词素分析步骤的一次的处理中进行在编码步骤的编码中使用的单词(包括词素)和索引生成步骤使用的单词的抽出(分割),非常有效,与由索引生成步骤和编码步骤独立地进行单词的抽出处理的情况相比,可以缩短时间。
另一方面,本发明第20方面所述的本发明的记录媒体,对于通过输入文件信息并对文件信息进行词素分析处理、从文件信息中抽出作为文件信息结构要素的词素、将该抽出的词素进行编码、进而对该进行了编码的词素进行压缩处理并将该进行了压缩的编码词素存储到存储单元中的文件信息存储装置,在检索适合于检索询问的信息时,记录用于使计算机执行以下步骤的文件信息检索程序:通过对输入的检索询问进行词素分析处理并从检索询问信息中抽出词素的词素分析步骤;将由词素分析步骤抽出的词素进行编码的编码步骤;将存储单元存储的压缩编码词素复原为原来的编码词素数据的复原步骤;将由编码步骤得到的编码词素形式的检索询问、与复原步骤所复原的编码词素数据进行对照、并判断适合于检索询问的编码词素数据是否已复原的核对步骤和根据核对步骤的核对结果将由复原步骤所复原的编码词素数据恢复为词素的词素译码步骤。所以,在计算机的控制下从存储大量的文件信息的装置中检索文件信息时,可以顺利地进行检索处理。
这里,本发明第21方面所述的本发明的记录媒体,对于通过输入文件信息并对文件信息进行词素分析处理、从文件信息中抽出作为文件信息结构要素的词素、将该抽出的词素进行编码、进而对该进行了编码的词素进行压缩处理、并将该进行了压缩的编码词素存储到存储单元中、同时根据由词素分析处理抽出的词素和由词素编码处理进行了编码的词素中的至少一方的信息生成索引、并将该索引存储到索引存储单元中的文件信息存储装置,在检索适合于检索询问的信息时,记录用于使计算机执行以及步骤的文件信息检索程序:通过对输入的检索询问进行词素分析处理而从检索询问信息中抽出词素的词素分析步骤;将由词素分析步骤抽出的词素进行编码的编码步骤;从根据由词素分析步骤抽出的词素和由编码步骤进行了编码的词素中的至少一方的信息而得到的索引中进行索引存储单元存储的索引的检索的索引检索步骤;根据由索引检索步骤得到的索引信息将由存储单元存储的压缩编码词素复原为原来的编码词素数据的复原步骤和将由复原步骤所复原的编码词素数据恢复为词素的译码步骤。所以,通过使用索引,可以从文件信息存储装置存储的大容量的文件信息中顺利地进行信息检索,并且可以进行检索时间不延迟的处理。

Claims (16)

1.一种文件信息存储装置,其特征在于:具有
通过对输入的文件信息,根据语言特征进行词素分析处理从该文件信息中抽出作为结构要素的词素的词素分析部;
将由该词素分析部抽出的词素编码为数值,从而将相同的数值分配给相同的词素的编码部;
对由该编码部进行了编码的词素进行压缩处理,从而将用于压缩出现频度高的词素的代码设定为比用于压缩出现频度低的词素的代码短的压缩部;和
存储由该压缩部进行了压缩的编码词素的存储部。
2.按权利要求1所述的文件信息存储装置,其特征在于:具有根据由该词素分析部抽出的该词素和由该编码部进行了编码的词素中的至少一方的信息、生成索引的索引生成部,和存储由索引生成部生成的索引的索引存储部。
3.按权利要求1所述的文件信息存储装置,其特征在于:具有同义词辞典、同义词词汇、对译辞典中的至少一种,该编码部使用同义词辞典、同义词词汇、对译辞典中的至少一种将该词素进行编码。
4.按权利要求1所述的文件信息存储装置,其特征在于:具有根据由该词素分析部抽出的该词素和由该编码部进行了编码的词素中的至少一方的信息、生成索引的索引生成部,和存储由该索引生成部生成的该索引的索引存储部,同时具有同义词辞典、同义词词汇、对译辞典中的至少一种,该编码部使用同义词辞典、同义词词汇、对译辞典中的至少一种将该词素进行编码。
5.一种文件信息存储方法,其特征在于:包括
在存储文件信息时通过对输入的文件信息,根据语言特征进行词素分析处理从该文件信息中抽出作为结构要素的词素的词素分析步骤;
将由该词素分析步骤抽出的词素编码为数值,从而将相同的数值分配给相同的词素的编码步骤;
对由该编码步骤进行了编码的词素进行压缩处理,从而将用于压缩出现频度高的词素的代码设定为比用于压缩出现频度低的词素的代码短的压缩步骤;和
存储由该压缩步骤进行了压缩的编码词素的存储步骤。
6.按权利要求5所述的文件信息存储方法,其特征在于:包括根据由该词素分析步骤抽出的该词素和由该编码步骤进行了编码的词素中的至少一方的信息、生成索引的索引生成步骤,和存储由该索引生成步骤生成的该索引的索引存储步骤。
7.按权利要求5所述的文件信息存储方法,其特征在于:该编码步骤使用同义词辞典、同义词词汇、对译辞典中的某一个的信息将该词素进行编码。
8.按权利要求5所述的文件信息存储方法,其特征在于:包括根据由该词素分析步骤抽出的该词素、和由该编码步骤进行了编码的该词素中的至少一方的信息、生成索引的索引生成步骤,和存储由该索引生成步骤生成的该索引的索引存储步骤,而该编码步骤也可以使用同义词辞典、同义词词汇、对该译辞典中的某一个的信息将该词素进行编码。
9.一种文件信息处理装置,其特征在于:具有
通过对输入的文件信息,根据语言特征进行词素分析处理从该文件信息中抽出作为结构要素的词素的词素分析部;
将由该词素分析部抽出的词素编码为数值,从而将相同的数值分配给相同的词素的编码部;
对由该编码部进行了编码的词素进行压缩处理,从而将用于压缩出现频度高的词素的代码设定为比用于压缩出现频度低的词素的代码短的压缩部;和
存储由该压缩部进行了压缩的编码词素的存储部;
该词素分析部,对于输入的检索询问,根据其语言特征,进行词素分析处理,抽出作为结构要素的词素;
该编码部,将该词素分析部抽出的检索询问的词素编码为数值,使相同的数值分配给相同的词素,
该装置还包括把该存储部所存储的压缩编码词素复原为原来的编码词素数据的复原部;
将该编码部所编码的词素形式的检索询问及由该复原部所复原的编码词素数据进行核对,判断适合于检索询问的编码词素数据是否已复原的核对部,和
根据该核对部的核对结果将由该复原部已复原的编码词素数据恢复为词素的译码部。
10.按权利要求9所述的文件信息处理装置,其特征在于:将根据由词素分析部抽出的词素和由编码部进行了编码的词素中的至少一方的信息、生成索引的索引生成部和存储由索引生成部生成的索引的索引存储部加到文件信息存储装置中,该核对部根据词素形式的检索询问和编码词素形式的检索询问中的至少一方的信息而得到的索引进行由索引存储部存储的索引的检索,根据由该检索结果而得到的该索引的信息,由复原部将存储部存储的压缩编码词素复原为原来的编码词素数据。
11.按权利要求9所述的文件信息处理装置,其特征在于:所构成的该文件信息存储装置具有同义词辞典、同义词词汇、对译辞典中的至少一种,该编码部使用同义词辞典、同义词词汇、对译辞典中的某一个的信息将词素进行编码,该核对部将使用同义词辞典、同义词词汇、对译辞典中的某一个的信息生成的编码词素形式的检索询问与由该复原部所复原的编码词素数据进行对照,判断适合于该检索询问的编码词素数据是否已复原。
12.按权利要求9所述的文件信息处理装置,其特征在于:将根据由该词素分析部抽出的词素和由编码部进行了编码的词素中的至少一方的信息、生成索引的索引生成部,和存储由该索引生成部生成的索引的该索引存储部加到文件信息存储装置中,进而也可以具有同义词辞典、同义词词汇、对译辞典中的至少一种,该编码部使用同义词辞典、同义词词汇、对译辞典中的某一个的信息将词素进行编码而构成文件信息存储装置;
使用上述同义词辞典、同义词词汇、对译辞典的某一个信息而生成的该核对部从根据词素形式的检索询问和编码词素形式的检索询问中的至少一方的信息、而得到的索引中进行由索引存储部存储的索引的检索,根据由该检索结果而得到的索引的信息由该复原部将存储部存储的压缩编码词素复原为原来的编码词素数据。
13.一种文件信息处理方法,其特征在于:对于通过输入文件信息并对文件信息基于语言特征进行词素分析处理,从文件信息中抽出作为文件信息结构要素的词素,将该抽出的词素编码为数值,使相同的数值分配给相同的词素,进而对该进行了编码的词素执行压缩处理,从而将用于压缩出现频度高的词素的代码设定为比用于压缩出现频度低的词素的代码短,将该进行了压缩的编码词素存储到存储单元中的文件信息存储装置,检索适合于检索询问的信息时,包括
通过输入检索询问并对该检索询问基于其语言特征进行词素分析处理而从检索询问信息中抽出词素的词素分析步骤;
对由词素分析步骤抽出的词素编码为数值,使相同的数值分配给相同的词素,的编码步骤;
将该文件信息存储装置的该存储单元存储的压缩编码词素复原为原来的编码词素数据的复原步骤;
将由编码步骤得到的编码词素形式的检索询问与复原步骤所复原的编码词素数据进行对照并判断适合于检索询问的编码词素数据是否已复原的核对步骤和
根据核对步骤的核对结果将由复原步骤所复原的编码词素数据恢复为词素的译码步骤。
14.按权利要求13所述的文件信息处理方法,其特征在于:该文件信息存储装置使用同义词辞典、同义词词汇、对译辞典中的某一个的信息将词素进行编码;
该核对步骤将使用上述同义词辞典、同义词词汇、对译辞典中的某一个的信息而生成的编码词素形式的检索询问与由复原部所复原的编码词素数据进行对照,判断适合于检索询问的编码词素数据是否已复原。
15.一种文件信息处理方法,其特征在于:对于这样一种文件信息存储装置,即通过输入文件信息并对文件信息基于语言特征进行词素分析处理,从文件信息中抽出作为文件信息结构要素的词素,将该抽出的词素编码为数值,使相同的数值分配给相同的词素,进而对该进行了编码的词素执行压缩处理,从而将用于压缩出现频度高的词素的代码设定为比用于压缩出现频度低的词素的代码短,将该进行了压缩的编码词素存储到存储单元中的同时,根据由词素分析处理抽出的词素和由词素编码处理进行了编码的词素中的至少一方的信息生成索引,并将该索引存储到索引存储单元中的文件信息存储装置,检索适合于检索询问时,包括
通过输入检索询问并对该检索询问基于其语言特征进行词素分析处理而从检索询问信息中抽出词素的词素分析步骤;
将由词素分析步骤抽出的词素编码为数值,使相同的数值分配给相同的词素的编码步骤;
从根据由词素分析步骤抽出的词素和由编码步骤进行了编码的词素中的至少一方的信息而得到的索引中进行索引存储单元存储的索引的检索的索引检索步骤;
根据由索引检索步骤得到的索引信息将由存储单元存储的压缩编码词素复原为原来的编码词素数据的复原步骤和将由复原步骤所复原的编码词素数据恢复为词素的译码步骤。
16.按权利要求15所述的文件信息处理方法,其特征在于:该文件信息存储装置使用同义词辞典、同义词词汇、对译辞典中的某一个的信息将词素进行编码,并且,索引检索步骤使用同义词辞典、同义词词汇、对译辞典中的某一个的信息进行索引检索。
CN 98106010 1997-09-10 1998-03-04 文件信息存储、处理装置和方法 Expired - Fee Related CN1120438C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP245837/97 1997-09-10
JP245837/1997 1997-09-10
JP24583797A JP4057681B2 (ja) 1997-09-10 1997-09-10 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
CN1211013A CN1211013A (zh) 1999-03-17
CN1120438C true CN1120438C (zh) 2003-09-03

Family

ID=17139596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 98106010 Expired - Fee Related CN1120438C (zh) 1997-09-10 1998-03-04 文件信息存储、处理装置和方法

Country Status (3)

Country Link
JP (1) JP4057681B2 (zh)
KR (1) KR100326634B1 (zh)
CN (1) CN1120438C (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125908A (ja) * 1999-10-26 2001-05-11 Sony Corp 入力装置および方法
CN101853287B (zh) * 2010-05-24 2012-09-05 南京高普科技有限公司 数据压缩快速检索文件系统及其方法
JP6447161B2 (ja) 2015-01-20 2019-01-09 富士通株式会社 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
JP6467937B2 (ja) 2015-01-21 2019-02-13 富士通株式会社 文書処理プログラム、情報処理装置および文書処理方法
WO2017017738A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
JP6679874B2 (ja) 2015-10-09 2020-04-15 富士通株式会社 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法
JP6737025B2 (ja) * 2016-07-19 2020-08-05 富士通株式会社 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法
JP6737117B2 (ja) * 2016-10-07 2020-08-05 富士通株式会社 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置
JP7180132B2 (ja) * 2018-06-12 2022-11-30 富士通株式会社 処理プログラム、処理方法および情報処理装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5323316A (en) * 1991-02-01 1994-06-21 Wang Laboratories, Inc. Morphological analyzer

Also Published As

Publication number Publication date
KR19990029119A (ko) 1999-04-26
JPH1185790A (ja) 1999-03-30
JP4057681B2 (ja) 2008-03-05
KR100326634B1 (ko) 2002-04-17
CN1211013A (zh) 1999-03-17

Similar Documents

Publication Publication Date Title
CN1171162C (zh) 基于字符分类检索字符串的装置和方法
CN1110757C (zh) 处理两种文字对照的数据库的方法与装置
CN1109994C (zh) 文件处理装置与记录媒体
CN1215433C (zh) 联机文字识别装置及方法
CN1309173C (zh) 压缩/解压缩结构化文档的方法
CN1174332C (zh) 转换表达方式的方法和装置
CN1194319C (zh) 对表格式数据进行查找、列表及分类的方法和装置
CN1101032C (zh) 相关词抽取设备和方法
CN1215457C (zh) 语句识别装置和方法
CN1168031C (zh) 基于文本内容特征相似度和主题相关程度比较的内容过滤器
CN1608259A (zh) 机器翻译
CN1578954A (zh) 机器翻译
CN1855103A (zh) 特定元素、字符串向量生成及相似性计算的装置、方法
CN1126053C (zh) 文件检索方法、文件检索发送方法及装置
CN1120438C (zh) 文件信息存储、处理装置和方法
CN1281191A (zh) 信息检索方法和信息检索装置
CN101034414A (zh) 信息处理设备和方法以及程序
CN1625206A (zh) 图像处理装置及其控制方法
CN1314208C (zh) 可扩展标记语言数据流压缩器及其压缩方法
CN1151558A (zh) 信息检索方法和系统
CN1277398A (zh) 文献检索的方法和装置
CN1949225A (zh) Xml文件预处理方法、装置、文件结构、读取方法和装置
CN1929461A (zh) 通信系统消息的编解码方法及编、解码器
CN1768480A (zh) 编码装置和方法、编码装置和方法、计算机程序以及记录介质
CN1296231A (zh) 地名表示词典生成方法和地名表示词典生成装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030903

Termination date: 20150304

EXPY Termination of patent right or utility model