JPH1185790A - 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 - Google Patents

文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体

Info

Publication number
JPH1185790A
JPH1185790A JP9245837A JP24583797A JPH1185790A JP H1185790 A JPH1185790 A JP H1185790A JP 9245837 A JP9245837 A JP 9245837A JP 24583797 A JP24583797 A JP 24583797A JP H1185790 A JPH1185790 A JP H1185790A
Authority
JP
Japan
Prior art keywords
morpheme
document information
encoded
index
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9245837A
Other languages
English (en)
Other versions
JP4057681B2 (ja
Inventor
Manabu Satsusano
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP24583797A priority Critical patent/JP4057681B2/ja
Priority to KR1019980006876A priority patent/KR100326634B1/ko
Priority to CN 98106010 priority patent/CN1120438C/zh
Publication of JPH1185790A publication Critical patent/JPH1185790A/ja
Application granted granted Critical
Publication of JP4057681B2 publication Critical patent/JP4057681B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 文書情報を格納/検索する装置において、大
容量の文書データなどの情報を格納するのに必要な領域
を小さくするとともに、インデクスを作成しつつ格納す
るときの処理時間を短縮し、検索時間をも短縮する。 【解決手段】 形態素解析処理を施すことにより、入力
された文書情報から文書情報構成要素としての形態素を
抽出する形態素解析部1と、この形態素解析部1で抽出
された形態素を符号化する符号化部2と、この符号化部
2で符号化された形態素に圧縮処理を施す圧縮部3と、
圧縮部3で圧縮された符号化形態素を格納する記憶部4
とをそなえるように構成する。

Description

【発明の詳細な説明】
【0001】(目次) 発明の属する技術分野 従来の技術 発明が解決しようとする課題 課題を解決するための手段 発明の実施の形態(図1〜図19) ・第1実施形態(図1〜図5) ・第2実施形態(図7〜図12) ・第3実施形態(図13〜図16) ・記録媒体 ・その他(図17〜図19) 発明の効果
【0002】
【発明の属する技術分野】本発明は、大容量文書情報の
格納や検索に用いて好適な文書情報格納装置及び文書情
報格納方法並びに文書情報検索装置及び文書情報検索方
法並びに文書情報格納プログラムを記録した記録媒体及
び文書情報検索プログラムを記録した記録媒体に関す
る。
【0003】
【従来の技術】従来、データベースに蓄積する情報を検
索する装置では、大容量の文書データを格納(stor
e)する場合、そのまま文書データを格納するか、文書
データを圧縮してから格納する方法がある。また、検索
に際しては、データベースに格納されているデータを直
に検索するか、格納とは別途作成されたインデクスを用
いて文書の検索が行なわれていた。
【0004】
【発明が解決しようとする課題】しかし、このような従
来の文書データをそのままデータベースに格納する方式
では、データの格納に必要な容量が大きくなる問題があ
る。また、インデクスを作成せずに、文書データを圧縮
して格納する方式では、検索速度が遅く成りうる。
【0005】ここで、圧縮して格納する方式において、
文書データの格納とは別途、検索に用いるインデクスを
作成する場合、データの格納に必要な容量も少なく、検
索速度も遅くない。しかし、文書データなどの情報を格
納する際に、データの圧縮とインデクスの作成の二つを
別々に行なうため処理時間が掛かる。また、文書データ
を圧縮して格納する場合に、文書データの中の統計的な
情報を十分に用いていないため、圧縮が十分でない場合
がある。
【0006】このように、大容量の文書データ等の情報
を格納する装置において、格納するに必要な領域を小さ
くすることと、インデクスを作成しつつ格納するときの
処理時間を短くするという、課題がある。本発明は、こ
のような課題に鑑み創案されたもので、大容量の文書デ
ータなどの情報を格納するのに必要な領域を小さくする
とともに、インデクスを作成しつつ文書データを格納す
るときの処理時間が短い文書情報格納装置及び文書情報
格納方法並びに文書情報検索装置及び文書情報検索方法
並びに文書情報格納プログラムを記録した記録媒体及び
文書情報検索プログラムを記録した記録媒体を提供する
ことを目的とする。
【0007】
【課題を解決するための手段】上述の目的を達成するた
めに、本発明の文書情報格納装置は、形態素解析処理を
施すことにより、入力された文書情報から文書情報構成
要素としての形態素を抽出する形態素解析部と、形態素
解析部で抽出された形態素を符号化する符号化部と、符
号化部で符号化された形態素に圧縮処理を施す圧縮部
と、圧縮部で圧縮された符号化形態素を格納する記憶部
とをそなえて構成されたことを特徴としている(請求項
1)。
【0008】または、本発明の文書情報格納装置は、形
態素解析部で抽出された形態素及び符号化部で符号化さ
れた形態素のうちの少なくとも一方の情報に基づいてイ
ンデクスを作成するインデクス作成部と、インデクス作
成部で作成されたインデクスを格納するインデクス記憶
部とをそなえるようにしてもよい(請求項2)。さら
に、本発明の文書情報格納装置は、同義語辞書,シソー
ラス,対訳辞書のうちの少なくとも一つをそなえ、符号
化部が、同義語辞書,シソーラス,対訳辞書のうちの少
なくとも1つの情報を用いて、形態素を符号化するよう
に構成してもよい(請求項3)。
【0009】ここで、形態素解析部で抽出された形態素
及び符号化部で符号化された形態素のうちの少なくとも
一方の情報に基づいてインデクスを作成するインデクス
作成部と、インデクス作成部で作成されたインデクスを
格納するインデクス記憶部とをそなえるとともに、同義
語辞書,シソーラス,対訳辞書のうちの少なくとも一つ
をそなえ、符号化部が、同義語辞書,シソーラス,対訳
辞書のうちの少なくとも1つの情報を用いて、形態素を
符号化するような構成でもよい(請求項4)。
【0010】他方、本発明の文書情報格納方法は、文書
情報を格納するに際し、文書情報を入力することによ
り、文書情報に対し、形態素解析処理を施して、文書情
報から文書情報構成要素としての形態素を抽出する形態
素解析ステップと、形態素解析ステップで抽出された形
態素を符号化する符号化ステップと、符号化ステップで
符号化された形態素に圧縮処理を施す圧縮ステップと、
圧縮ステップで圧縮された符号化形態素を格納する記憶
ステップとをそなえて構成されたことを特徴としている
(請求項5)。
【0011】ここで、形態素解析ステップで抽出された
形態素及び符号化ステップで符号化された形態素のうち
の少なくとも一方の情報に基づいてインデクスを作成す
るインデクス作成ステップと、インデクス作成ステップ
で作成されたインデクスを格納するインデクス記憶ステ
ップとをそなえるようにしてもよく(請求項6)、若し
くは、符号化ステップが、同義語辞書,シソーラス,対
訳辞書のうちのいずれかからの情報を用いて、形態素を
符号化するように構成してもよい(請求項7)。
【0012】さらに、形態素解析ステップで抽出された
形態素及び符号化ステップで符号化された形態素のうち
の少なくとも一方の情報に基づいてインデクスを作成す
るインデクス作成ステップと、インデクス作成ステップ
で作成されたインデクスを格納するインデクス記憶ステ
ップとをそなえ、符号化ステップが、同義語辞書,シソ
ーラス,対訳辞書のうちのいずれかからの情報を用い
て、形態素を符号化するように構成が設けられるように
することもできる(請求項8)。
【0013】並びに、本発明の文書情報検索装置は、形
態素解析処理を施すことにより、入力された文書情報か
ら文書情報構成要素としての形態素を抽出する形態素解
析部と、形態素解析部で抽出された形態素を符号化する
符号化部と、符号化部で符号化された形態素に圧縮処理
を施す圧縮部と、圧縮部で圧縮された符号化形態素を格
納する記憶部とを有する文書情報格納装置における記憶
部に格納されている圧縮符号化形態素を元の符号化形態
素データに復元する復元部と、検索質問に適合した、符
号化形態素データが復元されているかどうかを判定する
照合部と、照合部での照合結果に基づいて、復元部で復
元された符号化形態素データを形態素に戻す復号化部と
をそなえて構成されたことを特徴としている(請求項
9)。
【0014】ここで、照合部が、符号化形態素形式の検
索質問と、復元部で復元された符号化形態素データとを
照合して、検索質問に適合した、符号化形態素データが
復元されているかどうかを判定するような構成を備える
こともよい(請求項10)。さらに、形態素解析部で抽
出された形態素及び符号化部で符号化された形態素のう
ちの少なくとも一方の情報に基づいてインデクスを作成
するインデクス作成部と、インデクス作成部で作成され
たインデクスを格納するインデクス記憶部とを文書情報
格納装置に付加し、照合部が、形態素形式の検索質問及
び符号化形態素形式の検索質問のうちの少なくとも一方
の情報に基づいて得られるインデクスからインデクス記
憶部で記憶されているインデクスの検索を行ない、この
検索の結果得られたインデクスの情報に基づいて、記憶
部に格納されている圧縮符号化形態素を復元部で元の符
号化形態素データに復元させるように構成してもよい
(請求項11)。
【0015】同義語辞書,シソーラス,対訳辞書のうち
の少なくとも一つをそなえ、符号化部が、同義語辞書,
シソーラス,対訳辞書のうちのいずれかからの情報を用
いて、形態素を符号化するように、文書情報格納装置を
構成し、照合部が、同義語辞書,シソーラス,対訳辞書
のうちのいずれかからの情報を用いて作成された符号化
形態素形式の検索質問と、復元部で復元された符号化形
態素データとを照合して、検索質問に適合した、符号化
形態素データが復元されているかどうかを判定するよう
に構成してもよい(請求項12)。
【0016】さらに、形態素解析部で抽出された形態素
及び符号化部で符号化された形態素のうちの少なくとも
一方の情報に基づいてインデクスを作成するインデクス
作成部と、インデクス作成部で作成されたインデクスを
格納するインデクス記憶部とを文書情報格納装置に付加
し、更に同義語辞書,シソーラス,対訳辞書のうちの少
なくとも一つをそなえ、符号化部が、同義語辞書,シソ
ーラス,対訳辞書のうちのいずれかからの情報を用い
て、形態素を符号化するように、文書情報格納装置を構
成し、照合部が、同義語辞書,シソーラス,対訳辞書の
うちのいずれかからの情報を用いて作成された形態素形
式の検索質問及び符号化形態素形式の検索質問のうちの
少なくとも一方の情報に基づいて得られるインデクスか
らインデクス記憶部で記憶されているインデクスの検索
を行ない、この検索の結果得られたインデクスの情報に
基づいて、記憶部に格納されている圧縮符号化形態素を
復元部で元の符号化形態素データに復元させるように構
成を備えても実施に際して好適である(請求項13)。
【0017】並びに、本発明の文書情報検索方法は、文
書情報を入力することにより、文書情報に対して、形態
素解析処理を施すことにより、文書情報から文書情報構
成要素としての形態素を抽出し、この抽出された形態素
を符号化し、更にこの符号化された形態素に圧縮処理を
施して、この圧縮された符号化形態素を記憶手段に記憶
した文書情報格納装置に対して、検索質問に適合した情
報を検索するに際しては、検索質問を入力して、この検
索質問について、形態素解析処理を施すことにより、検
索質問情報から形態素を抽出する形態素解析ステップ
と、形態素解析ステップで抽出された形態素を符号化す
る符号化ステップと、文書情報格納装置における記憶手
段に格納されている圧縮符号化形態素を元の符号化形態
素データに復元する復元ステップと、符号化ステップで
得られた符号化形態素形式の検索質問と、復元ステップ
で復元された符号化形態素データとを照合して、検索質
問に適合した、符号化形態素データが復元されているか
どうかを判定する照合ステップと、照合ステップでの照
合結果に基づいて、復元ステップで復元された符号化形
態素データを形態素に戻す復号化ステップとをそなえて
構成されたことを特徴としている(請求項14)。
【0018】ここで、文書情報格納装置が、同義語辞
書,シソーラス,対訳辞書のうちのいずれかからの情報
を用いて、形態素を符号化するように構成され、照合ス
テップが、同義語辞書,シソーラス,対訳辞書のうちの
いずれかからの情報を用いて作成された符号化形態素形
式の検索質問と、復元部で復元された符号化形態素デー
タとを照合して、検索質問に適合した、符号化形態素デ
ータが復元されているかどうかを判定するように構成し
てもよい(請求項15)。
【0019】並びに、本発明の文書情報検索方法は、文
書情報を入力することにより、文書情報に対して、形態
素解析処理を施すことにより、文書情報から文書情報構
成要素としての形態素を抽出し、この抽出された形態素
を符号化し、更にこの符号化された形態素に圧縮処理を
施して、この圧縮された符号化形態素を記憶手段に記憶
するとともに、形態素解析処理で抽出された形態素及び
形態素符号化処理で符号化された形態素のうちの少なく
とも一方の情報に基づいてインデクスを作成し、このイ
ンデクスをインデクス記憶手段に格納する文書情報格納
装置に対して、検索質問に適合した情報を検索するに際
しては、検索質問を入力して、この検索質問について、
形態素解析処理を施すことにより、検索質問情報から形
態素を抽出する形態素解析ステップと、形態素解析ステ
ップで抽出された形態素を符号化する符号化ステップ
と、形態素解析ステップで抽出された形態素及び符号化
ステップで符号化された形態素のうちの少なくとも一方
の情報に基づいて得られるインデクスからインデクス記
憶手段に記憶されているインデクスの検索を行なうイン
デクス検索ステップと、インデクス検索ステップで得ら
れたインデクス情報に基づいて、記憶手段で格納されて
いる圧縮符号化形態素を元の符号化形態素データに復元
する復元ステップと、復元ステップで復元された符号化
形態素データを形態素に戻す復号化ステップとをそなえ
て構成されたことを特徴としてもよい(請求項16)。
【0020】ここで、文書情報格納装置が、同義語辞
書,シソーラス,対訳辞書のうちのいずれかからの情報
を用いて、形態素を符号化するように構成され、且つ、
インデクス検索ステップが、同義語辞書,シソーラス,
対訳辞書のうちのいずれかからの情報を用いて、インデ
クス検索を行なうように構成しても好適に実施を確報す
ることができる(請求項17)。
【0021】並びに、本発明の文書情報格納プログラム
を記録した記録媒体は、コンピュータに、入力された文
書情報に対して、形態素解析処理を施すことにより、文
書情報から文書情報構成要素としての形態素を抽出する
形態素解析手順と、形態素解析手順で抽出された形態素
を符号化する符号化手順と、符号化手順で符号化された
形態素に圧縮処理を施す圧縮手順と、圧縮手順で圧縮さ
れた符号化形態素を格納する記憶手順とを実行させるプ
ログラムが記録されている(請求項18)。
【0022】一方、本発明の記録媒体は、コンピュータ
に、入力された文書情報に対して、形態素解析処理を施
すことにより、文書情報から文書情報構成要素としての
形態素を抽出する形態素解析手順と、形態素解析手順で
抽出された形態素を符号化する符号化手順と、符号化手
順で符号化された形態素に圧縮処理を施す圧縮手順と、
圧縮手順で圧縮された符号化形態素を記憶手段に格納さ
せる記憶手順と、形態素解析手順で抽出された形態素及
び符号化手順で符号化された形態素のうちの少なくとも
一方の情報に基づいてインデクスを作成するインデクス
作成手順と、インデクス作成手順で作成されたインデク
スをインデクス記憶手段に格納させるインデクス記憶手
順とを実行させるための文書情報格納プログラムが記録
されている(請求項19)。
【0023】他方、本発明の記録媒体は、文書情報を入
力することにより、文書情報に対して、形態素解析処理
を施すことにより、文書情報から文書情報構成要素とし
ての形態素を抽出し、この抽出された形態素を符号化
し、更にこの符号化された形態素に圧縮処理を施して、
この圧縮された符号化形態素を記憶手段に記憶した文書
情報格納装置に対して、検索質問に適合した情報を検索
するに際して、入力された検索質問について、形態素解
析処理を施すことにより、検索質問情報から形態素を抽
出する形態素解析手順と、形態素解析手順で抽出された
形態素を符号化する符号化手順と、記憶手段に格納され
ている圧縮符号化形態素を元の符号化形態素データに復
元する復元手順と、符号化手順で得られた符号化形態素
形式の検索質問と、復元手順で復元された符号化形態素
データとを照合して、検索質問に適合した、符号化形態
素データが復元されているかどうかを判定する照合手順
と、照合手順での照合結果に基づいて、復元手順で復元
された符号化形態素データを形態素に戻す形態素復号化
手順とをコンピュータに実行させるための文書情報検索
プログラムが記録されている(請求項20)。
【0024】さらに、本発明の記録媒体は、文書情報を
入力することにより、文書情報に対して、形態素解析処
理を施すことにより、文書情報から文書情報構成要素と
しての形態素を抽出し、この抽出された形態素を符号化
し、更にこの符号化された形態素に圧縮処理を施して、
この圧縮された符号化形態素を記憶手段に記憶するとと
もに、形態素解析処理で抽出された形態素及び形態素符
号化処理で符号化された形態素のうちの少なくとも一方
の情報に基づいてインデクスを作成し、このインデクス
をインデクス記憶手段に格納する文書情報格納装置に対
して、検索質問に適合した情報を検索するに際して、入
力された検索質問について、形態素解析処理を施すこと
により、検索質問情報から形態素を抽出する形態素解析
手順と、形態素解析手順で抽出された形態素を符号化す
る符号化手順と、形態素解析手順で抽出された形態素及
び符号化手順で符号化された形態素のうちの少なくとも
一方の情報に基づいて得られるインデクスからインデク
ス記憶手段に記憶されているインデクスの検索を行なう
インデクス検索手順と、インデクス検索手順で得られた
インデクス情報に基づいて、記憶手順で格納されている
圧縮符号化形態素を元の符号化形態素データに復元する
復元手順と、復元手順で復元された符号化形態素データ
を形態素に戻す復号化手順とをコンピュータに実行させ
るための文書情報検索プログラムが記録されている(請
求項21)。
【0025】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1は、本発明の第一実施形態を
示すブロック図で、この図1に示す文書情報格納検索装
置100は、文書情報形態素解析部1,形態素解析デー
タ符号化部2,符号化データ圧縮部3,データベース
4,文書情報インデクス作成部5,文書情報インデクス
記憶部6,圧縮符号化データ復元部7,照合判定部8,
符号化形態素復号化部9,結果出力部10,同義語辞書
11,シソーラス12及び対訳辞書13を備えて構成さ
れている。
【0026】文書情報形態素解析部1は、入力された文
書情報に対して、形態素解析を行ない、単語(形態素を
含む)を抽出するものである。ここで、文書情報形態素
解析部1に入力されるてくる文書情報データは、それ自
体コード化されており、キーボード,ファイル,ネット
ワーク等からこの文書情報データが入力されるようにな
っている。
【0027】換言すると、電気信号或いは光信号として
文書情報形態素解析部1に入力される文書(docum
ent)を構成する各文字を、文書情報形態素解析部1
は、言語の特徴を考慮して、形態素を解析するものであ
る。形態素解析データ符号化部2は、文書情報解析部1
での解析により抽出された単語(形態素を含む)を数値
に符号化するものである。ここで、形態素解析データ符
号化部2にて符号化した数値は、一義に復号変換するた
めに、同一の数値は、同一の単語(形態素を含む)に割
り当てられるようになっている。尚、形態素解析データ
符号化部2による符号化の長さは、固定長、或いは、可
変長としてもよい。
【0028】符号化データ圧縮部3は、形態素解析デー
タ符号化部2で符号化された形態素データ(文書情報形
態素解析部1で抽出された単語(形態素を含む)を、形
態素解析データ符号化部2が数値に符号化したもの。以
下同じ)を、更に、異なる数値に符号化して圧縮するも
のである。ここで、符号化データ圧縮部3は、単語(形
態素を含む)の頻出度合いを考慮して、符号化した形態
素データの圧縮処理を施すようになっている。例えば、
英語文書中の「This is」は、「This」の後
に「is」が続いて表記される頻度が高いことから、
「This is」とまとめて一つの数値へ符号化さ
れ、更に、英文中において、文字「q」の後には、
「u」が続く頻度が高いので、「qu」を一つのコード
として圧縮され、出現頻度が高い文字列ほど、圧縮する
のに用いるコードが短く設定されるようになっている。
【0029】このように、符号化された形態素データ中
から単語(形態素を含む)の出現頻度や複数の単語を含
んだ文節の出現頻度等の考察を、符号化データ圧縮部3
が行なうようになっている。ここで、符号化データ圧縮
部3は、形態素解析データ符号化部2において符号化さ
れたデータを一対一対に圧縮する場合に限らず、符号化
形態素を複数に圧縮する或いは、複数の符号化形態素を
一つの圧縮データ等の圧縮する処理を施すこともでき
る。
【0030】データベース4は、符号化データ圧縮部3
において圧縮処理を施した圧縮結果を格納するためのも
ので、二次記憶装置などに設けられている。また、文書
情報の検索時において、検索質問に該当する場合に、デ
ータベース4に格納されている情報が読み出されるよう
になっている。文書情報インデクス作成部5は、形態素
解析データ符号化部2において、符号化された符号化形
態素に基づいて、情報格納検索装置100に蓄積される
文書情報に対する文書情報インデクスを作成するもので
ある。尚、ここで、文書情報インデクスの作成を、形態
素解析データ符号化部2で符号化された符号化形態素デ
ータを用いずに、文書情報形態素解析部1が解析により
抽出した単語(形態素を含む)を用いて、文書情報イン
デクス作成部5が、文書情報インデクスを作成するよう
に構成してもよい。
【0031】文書情報インデクスは、文書情報インデク
ス作成部5が作成するもので、文書情報等を検索する際
に用いられるものであり、文書情報インデクス記憶部6
に記録されるようになっている。また、文書情報インデ
クスは、文書情報の検索において、データベース4から
復元した符号化形態素データが検索質問に適合するもの
であるかの判定を行なうに際して、参照するのに用いる
こととしてもよい。例えば、文書情報を検索するに際し
て用いた文書情報インデクスをデータベース4から復元
した文書情報が適合するものであるかを判定するに用い
ることとしてもよい。
【0032】圧縮符号化データ復元部7は、データベー
ス4に格納された圧縮済の符号列を元の符号列に戻すも
のである。なお、圧縮符号化データ復元部7は、異なる
数値へ復元する符号化処理を施す際に、圧縮されたコー
ドに対して、必ず一つの数値へ符号化処理を施すものに
限らず、2以上の数値への符号化処理を施すことができ
る。また、圧縮符号化データ復元部7は、複数の圧縮さ
れたコードに対して、一つの数値へ符号化処理を施すこ
ともできる。換言すると、文書情報の検索時において、
検索質問に相応な文書情報がデータベース4に蓄積され
ているときに、データベース4に格納されて圧縮されて
いる文書情報を符号化形態素データに復元するものであ
る。
【0033】照合判定部8は、形態素解析データ符号化
部2からの符号化形態素データと圧縮符号化データ復元
部7からの符号化形態素データとが、一致するか否かを
判定するものである。ここで、形態素データ符号化部2
からの符号化形態素データは、文書情報形態素解析部1
により検索質問から抽出した単語(形態素を含む)を形
態素解析データ符号化部2が数値に符号化する処理を施
したものである。一方、圧縮符号化データ復元部7から
の符号化形態素データは、データベース4に格納されて
いる文書情報(圧縮処理を施された符号化形態素デー
タ)を圧縮する処理を施す前の符号化形態素データに圧
縮符号化データ復元部7により復元処理を施されたもの
である。
【0034】ここで、照合判定部8は、完全一致検索を
行なう場合には、検索質問を符号化した数値と、データ
ベース4に蓄積されていた文書情報を圧縮符号化データ
復元部7により復元された符号化形態素データの数値が
完全に一致するかの処理が行なわれるようになってい
る。また、曖昧な検索等を実行する場合には、照合判定
部8は、数値の完全一致検索を行なわず、一部一致検索
を行なうようになっている。
【0035】符号化形態素復号化部9は、符号化されて
いる符号化形態素データを元の単語(形態素を含む)へ
伸長する処理を施すものである。結果出力部10は、照
合判定部8から受け取った情報を元に検索結果を出力す
るものである。必要に応じて、符号列を元の単語(形態
素を含む)へと符号化した文書情報を出力するものであ
る。
【0036】同義語辞書11は、語形が異なるが、意味
がほぼ同じである語を多数保有するものであり、シソー
ラス(thesaurus)12は、分類体の辞書であ
り、対訳辞書13は、原文に訳文をならべて記した辞書
であり、これらの辞書11,12,13は、インデクス
作成の処理を行なう際や、検索を行なう際に用いられる
ものである。また、同義語辞書等(11,12,13)
は、文書情報形態素解析部1での単語(形態素を含む)
を抽出する解析に際して、参照するものである。
【0037】ここで、図2は、同義語辞書,シソーラス
の一例を示す図であり、この図2に示す同義語辞書,シ
ソーラスの一例の表にように、同義,類義と見做される
単語(形態素を含む)の符号化数値として、同一の(或
いは似通った)コードパターンを持つような仕組みにな
っている。例えば、同義,類義と見做される「本」,
「書物」及び「ブック」等の符号化数値は、図2に示す
ように、下位1バイトを除く符号化数値は同一に決めら
れている。
【0038】図3は、対訳辞書の一例を示す図であり、
この図3に示す対訳辞書の一例の表のように、同一の概
念を表す語には、いずれも同一のパターン(0x73a
52100)を含んで区別されている。言語(図3に示
す例では、日本語,英語,フランス語である)の違い
は、更に上位の符号で区別されている。例えば、日本語
であるならば0x、英語でならば0x20、フランス語
ならば0x30を符号の上位に数値を配するようになっ
ており、同義、類義である「本」と「書物」の符号化数
値は下位1バイトが異なり、他の数値は同じになってお
り、一方で、「本」と「book」と「livre」と
は、それぞれ同義・類義と解釈でき、言語のみが相違す
ることから、符号化数値は上位バイトが異なるように符
号化処理が施されるようになっている。
【0039】ここで、先述した形態素解析データ符号化
部2が、文書情報形態素解析部1により解析して抽出し
た単語(形態素を含む)を、数値へ符号化する際に、図
3や図4に示す同義語辞書等(11,12,13)を参
照するようになっている。例えば、文書情報形態素解析
部1が、形態素解析処理を施した結果、抽出したものが
単語「本」であった場合は、その単語「本」は0x73
a52100との数値に符号化処理が、形態素解析デー
タ符号化部2により行なわれるようになっている。対訳
辞書を利用する場合も同様で、図4に示す対訳辞書の表
の符号化数値を参照して符号化処理が施されるようにな
っている。
【0040】尚、同義語辞書等(11,12,13)を
参照して形態素解析データ符号化部2で数値化された符
号は、同義語辞書等(11,12,13)を参照せずに
数値化された符号化形態素データと同様に、文書情報イ
ンデクスの作成に用いられる。形態素解析データ符号化
部2は、文書情報インデクス作成部5が文書情報インデ
クスを作成するために、符号化処理を施した形態素デー
タと文書ID(identifier;識別子)を渡す
ようになっている。
【0041】以下、本発明の一実施形態にかかる情報格
納検索装置100の要部構成の機能等を、場合を分けて
説明する。 (1a)文書情報のデータベースへの格納 キーボード或いはネットワーク等から入力される文書情
報を文書情報形態素解析部1は、各コード化された文書
列の中から形態素の解析を行ない、解析により抽出した
単語(形態素を含む)を形態素解析データ符号化部2に
出力するようになっており、形態素の解析に際しては、
その言語の特徴を考慮した形態素の解析を行なう。
【0042】このように、文書情報形態素解析部1は、
形態素解析処理を施すことにより、入力された文書情報
から文書構成要素としての形態素を抽出する形態素解析
部として機能を発揮する。文書情報形態素解析部1にお
いて文書構成要素として抽出された単語(形態素を含
む)は、形態素解析データ符号化部2によって、所定の
数値に符号化処理を施され、例えば、単語等を所定の数
値に符号化する際には、同義語辞書等(11,12,1
3)を参照して、図2や図3に示す表のように、同義・
類義と見做される単語等に対して、同じ様なコードパタ
ーンを形成するようにして、数値符号化処理が形態素解
析データ符号化部2にて行なわれるようになっている。
【0043】このように、形態素解析データ符号化部2
は、形態素解析部で抽出された形態素を符号化する符号
化部としての機能を発揮するようになっている。符号化
データ圧縮部3は、形態素解析データ符号化部2におい
て、コード化された文書列中の形態素を、出現頻度に応
じて更に所定のコード化を行なうものである。即ち、文
書情報として、出現率の高い単語(形態素を含む)を、
短いコードにすることで、圧縮するのである。
【0044】このように、符号化データ圧縮部3は、符
号化部で符号化された形態素に圧縮処理を施す圧縮部と
しての機能を発揮するものである。そしてデータベース
4へは、符号化データ圧縮部3において、符号化形態素
データを更に異なる数値へ符号化した文書情報が格納さ
れるようになっており、これによりデータベース4は、
圧縮部で圧縮された符号化形態素を格納する記憶部とし
て機能を果たすものである。
【0045】形態素解析データ符号化部2による符号化
処理により所定の数値へ符号化されている符号化形態素
データは、文書情報インデクスを作成する際にも用いら
れ、この文書情報インデクスの作成は、文書情報インデ
クス作成部5が行なうようになっている。このように、
文書情報インデクス作成部5は、符号化部で符号化され
た形態素の情報に基づいてインデクスを作成するインデ
クス作成部としての役割を果たすものである。
【0046】文書情報インデクス作成部5により作成さ
れた文書情報インデクスは、文書情報インデクス記憶部
6に格納されて、データベース4に格納されている文書
情報の検索に際して用いられるようになっている。ここ
で、文書情報インデクス記憶部6では、形態素解析デー
タ符号化部2により符号化された形態素データと文書I
Dを用いて文書情報インデクスを記憶するようになって
おり、文書情報インデクス記憶部6は、インデクス作成
部で作成されたインデクスを格納するインデク記憶部と
しての機能を発揮するものである。
【0047】上述の構成を備えた第一実施形態にかかる
情報格納検索装置100の文書情報の格納の動作を、図
4等を用いて以下に説明する。文書情報を格納の際に
は、キーボードやネットワーク等を介して入力(ステッ
プS010)される文書情報を、文書情報形態素解析部
1が形態素の解析を行なう。
【0048】この解析の実行は、文書情報をデータベー
ス4に格納するに際して、文書情報を入力することによ
り、文書情報に対し、形態素解析処理を施して、キーボ
ードやネットワーク等を介して入力された文書情報から
文書構成要素としての形態素を抽出する。(形態素解析
ステップS020)。形態素解析ステップで文書情報形
態素解析部1が解析して抽出した単語(形態素を含む)
を、形態素解析データ符号化部2は、図2や図3に示す
ような同義語辞書等(11,12,13)を参照して、
同義・類義の単語(形態素を含む)に同じ様なコードパ
ターンの数値へ符号化する(符号化ステップS03
0)。
【0049】符号化データ圧縮部3は、符号化ステップ
で形態素解析データ符号化部2が所定の数値に符号化し
た符号化形態素データを、単語(形態素を含む)の出現
頻度等を考慮して、例えば、出現頻度の高い単語等に
は、簡単なコードを符号化する或いは、コードが可変長
である場合に、出現率の高い単語や文節程、符号化した
コード長を短くするものであり且つ、逆に、出現率の低
い単語や文節程、符号化したコード長が長くする等の更
に符号化処理を施す(圧縮ステップS040)。
【0050】圧縮ステップとして符号化データ圧縮部3
で圧縮された符号化形態素データを、二次記憶装置など
のデータベース4に記録し、データベース4は、圧縮ス
テップで圧縮された符号化形態素を格納する(記録ステ
ップS050)。文書情報インデクス作成部5は、符号
化ステップとして形態素解析データ符号化部2で符号化
された形態素の情報に基づいて、文書情報インデクスを
作成し、文書情報インデクス記憶部6に記憶する(イン
デクス作成ステップ,インデクス記憶ステップS03
1)。
【0051】尚、文書情報インデクスの作成に際して、
形態素解析ステップで文書情報形態素解析部1が抽出し
た単語(形態素を含む)を用いて文書情報インデクスを
作成するようにしてもよい(インデクス作成ステップ,
インデクス記憶ステップS021)。ここで、単語(形
態素を含む)或いは符号化形態素解析データのいずれか
を用いて文書情報インデクスを作成するかは、装置の設
計事項に依存するようになっている。
【0052】このように、第一実施形態に係る情報検索
装置100は、文書情報形態素解析部1と、形態素解析
データ符号化部2と、符号化データ圧縮部3と、データ
ベース4とを備えて構成されることで、文書情報形態素
解析部1が解析して抽出した形態素を形態素解析データ
符号化部2が符号化し、符号化データ圧縮部3が符号化
データを更に圧縮をすることで、当初の文書情報のデー
タ容量を小さくすることで、大容量データの文書情報を
格納するに必要な領域を小さくすることができる。
【0053】更に、この情報格納検索装置100は、文
書情報インデクスの作成に用いる符号化形態素データと
圧縮するための符号化形態素データとを同時に作成する
処理を施すので、別途独立に文書情報インデクスを作成
する場合に比して、文書情報インデクスの作成に時間を
要しないとすることができる。形態素解析データ符号化
部2での符号化に用いる単語(形態素を含む)と文書情
報インデクス作成部5で用いる単語の抽出(分割)を、
文書情報形態素解析部1における一度の処理で行なうこ
とにより、非常に効率的で、文書情報形態素解析部1と
形態素解析データ符号化部2とで独自に単語の抽出処理
を施す場合より、時間を短縮することができるまた、第
一実施形態に係る情報検索格納装置100は、同義語辞
書11,シソーラス12及び対訳辞書13を備えて構成
されているので、形態素解析データ符号化部2が、同義
語辞書11,シソーラス12及び対訳辞書13の情報を
用いて、文書の分野や内容に合わせた形態素(若しくは
単語)を符号化することで、単なる記号列の圧縮ではな
く、形態素の解析を用いて形態素(若しくは単語)を抽
出して、文書内容に合わせて符号化を行ない、更に、そ
の符号列を圧縮することから、高い圧縮率が望めること
をもできる。
【0054】(1b)データベースに格納されている文
書情報の検索 文書情報形態素解析部1は、検索質問を解析して単語
(形態素を含む)を抽出するものである、これを言い換
えると、コード化されて入力された文字列としての検索
質問を、文書情報形態素解析部1は、形態素解析処理を
行なうようになっている。
【0055】ここで、検索質問は、データベース4に格
納する文書情報と同様に、キーボード,ファイル,ネッ
トワーク等を介して、文書情報形態素解析部1に入力さ
れるようになっている。ここで、例えば、入力される検
索質問としては、単語或いは句などが該当する。形態素
解析データ符号化部2は、文書情報形態素解析部1で検
索質問を解析して抽出した単語(形態素を含む)を、所
定の数値に符号化処理を施すものであるが、ここで、検
索質問中の形態素等を数値化する際の数値は、格納する
文書情報の単語(形態素を含む)を符号化する際に用い
られる数値と同じ数値が使用されるようになっている。
即ち、この形態素解析データ符号化部2は、一義的な数
値符号化処理を文書情報形態素解析部1が抽出した単語
(形態素を含む)に施すようになっている。
【0056】ここで、文書情報形態素解析部1で解析に
より抽出した単語(形態素を含む)を数値に符号化する
際しては、図2や図3に示す同義語辞書等(11,1
2,13)を参照して、検索質問の単語(形態素を含
む)に対する符号化処理を形態素解析データ符号化部2
が行なうようにもなっている。照合判定部8は、形態素
解析データ符号化部2が検索質問の単語(形態素を含
む)を数値に符号化した符号化形態素データを用いて、
文書情報インデクス記憶部6に格納されている文書情報
インデクスを検索するもので、この検索に際して、イン
デクス中に、検索質問の符号化形態素データと一致する
ものがある場合には、その文書IDに対応する文書情報
を、圧縮符号化データ復元部7へ伝えるように、データ
ベースを制御するようになっている。
【0057】更に、照合判定部8は、データベース4か
らの復元した符号化形態素データと検索質問の符号化形
態素データが一致するか否かについての判定処理を施す
ようにもなっている。ここで、復元した符号化形態素デ
ータが検索質問に完全に一致する検索処理を施す際に
は、照合判定部8は、符号化数値が完全に一致するもの
であるか否かを判定し、他方、曖昧な検索処理を実行す
る際には、符号化数値に何らかの処理を加えた上で、一
致するか否かを判定するようになっている。例えば、検
索対照に類義語を許容する検索においては、図2に示す
ように「本」と「書物」のように類義の関係で符号化数
値は下位1バイトが異なるのみであることから、照合判
定部8は、下位1バイトをマスクして検索を行ない、こ
の下位1バイトを除いた符号化数値が一致するか否かを
判定することで、曖昧な検索を行なうものである。
【0058】尚、照合判定部8は、単に単語の一致だけ
でなく、様々な検索時の条件(単語の出現位置など)に
あっているかを判断することができるようになってお
り、検索質問に出現位置など元の文書情報を確認する必
要がある場合には、圧縮符号化データ復元部7を通じて
元の文書を部分的に復元するようになっている。このよ
うに、照合判定部8は、検索質問に適合した、符号化形
態素データが復元されているかどうかを判定する照合部
としての機能を発揮する。
【0059】そして、圧縮符号化データ復元部7では、
データベース4からの圧縮された文書情報データを所定
の数値に符号化するようになっており、これは、符号化
データ圧縮部3での、圧縮とは逆の処理として位置づけ
られる。このように、圧縮符号化データ復元部7は、圧
縮部で圧縮された符号化形態素を格納する記憶部とを有
する文書情報格納装置における記憶部に格納されている
圧縮符号化形態素を元の符号化形態素データに復元する
復元部としての機能を発揮するのである。
【0060】符号化形態素復号化部9は、照合判定部8
にて検索質問に適合した形態素データを、復元の必要が
ある場合に、単語(形態素を含む)に復元するものであ
る。即ち、この符号化形態素復号化部9は、形態素解析
データ符号化部2で所定の数値に符号化処理が施された
単語(形態素を含む)を、数値から単語(形態素を含
む)への処理を施すもようになっている。ここで、所定
の単語(形態素を含む)に対する符号化数値は、一義的
に決まっているので、所定の符号化形態素データを形態
素へ一義に復号化の処理を、符号化形態素復号化部9
は、施すものであり、形態素解析データ符号化部2での
符号化処理とは逆処理に該当するものである。
【0061】このように、符号化形態素復号化部9は、
照合結果に基づいて復元部での復元された符号化形態素
データを形態素に戻す復号化部として機能を発揮する。
上述の構成を備えた第一実施形態にかかる情報格納検索
装置100の文書情報の検索の動作を、図5等を用いて
以下に説明する。キーボードやネットワーク等を介して
入力(ステップS110)される検索質問(単語や句な
ど)を、文書情報形態素解析部1が解析により単語(形
態素を含む)を抽出する(形態素解析ステップS12
0)。
【0062】形態素解析ステップにおいて文書情報形態
素解析部1が検索質問を解析して抽出した単語(形態素
を含む)を、形態素解析データ符号化部2は、例えば、
図2や図3に示すような同義語辞書等(11,12,1
3)を参照して、同義・類義の単語(形態素を含む)に
同じ様なコードパターンの数値化を施す(符号化ステッ
プS130)。
【0063】符号化ステップで形態素解析データ符号化
部2が所定の数値に符号化した検索質問を用いて、照合
判定部8は、同じ数値を持つ符号が文書情報インデクス
にあるかの検索を行なう(ステップS140)。そし
て、照合判定部8は、文書情報インデクスを検索した結
果、該当するものがある場合には、データベース4にそ
の蓄積されている圧縮形態素データを圧縮符号化データ
復元部7へ出力するように制御する。ここで、検索した
結果、該当する文書が複数ある場合には、その数ぶんだ
けの文書を圧縮符号化データ復元部7へ出力するように
なっている。
【0064】ここで、照合判定部8は、検索により出現
位置など元の文書の確認が必要か否かを考慮し(ステッ
プS150)、確認が必要である時は、データベース4
に蓄積されている元の文書の内容を部分的に復元するよ
うに制御する。ここで、圧縮符号化データ復元部7は、
データベース4からの圧縮されている文書情報を所定の
符号に復元する(復元ステップS151)。
【0065】更に、照合判定部8は、文書情報インデク
スの検索により、検索する符号の数値と同じ符号を検出
した場合には、検索質問に適合しているか否かを確認す
る(照合ステップS160)。照合判定部8は、検索の
結果を結果出力部10へ渡し、結果出力部10は、元の
文書の内容として復号化する必要があるとき(ステップ
S170)、例えば、照合判定部8で検索質問に適合し
た文書情報を確認し、その元の文書の内容として出力す
る必要がある場合、符号化形態素復号化部9へ符号化形
態素データを渡し、元の文書の内容として復号する(復
号化ステップS171)。
【0066】そして、結果出力部10は、符号化形態素
復号化部9で復元された元の文書の内容等、検索結果を
出力する(ステップS180)。このように、第1実施
形態にかかる情報格納検索装置100は、文書情報形態
素解析部1と、形態素解析データ符号化部2と、符号化
データ圧縮部3と、データベース4と、圧縮符号化デー
タ復元部7と、照合判定部8と、符号化形態素復号化部
9とを備えて構成されるので、大容量の文書情報データ
を、省スペースで格納しつつ、必要な文書情報を検索す
ることができる。
【0067】さらに、この情報格納検索装置100は、
照合判定部8が、符号化形態素形式の質問と、圧縮符号
化データ復元部7で復元された符号化形態素データとを
照合して、検索質問に適合した、符号化形態素データが
復元されているかどうかを判定することから、大容量の
圧縮した文書情報から必要な事項を検索することができ
る。 (1c)文書情報の検索 ところで、文書情報インデクス作成部5が、文書情報形
態素解析部1での解析により抽出された単語(形態素を
含む)を用いて文書情報インデクスを作成した場合にお
ける、第1実施形態にかかる情報格納検索装置100の
文書情報の検索の動作を、図6等を用いて以下に説明す
る。
【0068】先ず、キーボードやファイル,ネットワー
ク等から検索質問(単語或いは句など)を入力する(ス
テップS210)。次に、その検索質問を形態素解析部
1が形態素を解析して単語(形態素を含む)を切り出す
(形態素解析ステップS220)。その単語を使って、
照合判定部8は、文書情報インデクス6内を検索する
(ステップS230)。
【0069】検索質問に出現位置など元の文書を確認す
る必要がある場合には、圧縮符号化データ復元部7及び
符号化形態素復号化部9を通じて元の文書を部分的に復
元し(ステップS240,復元ステップS241)、照
合判定部8は、復元した文書の内容が検索質問の条件に
適合するものであるか、確認する(照合ステップS25
0)。
【0070】そして、検索結果について、元の文書の内
容を出力する必要がある場合には、データベース4に格
納されている圧縮データを圧縮符号化データ復元部7及
び符号化形態素復号化部9を通じて復号化する(ステッ
プS260,復号化ステップS261)。最後に、検索
の結果を出力する(ステップS270)。
【0071】このような形態素解析部1で解析により抽
出された単語(形態素を含む)を用いて作成された文書
情報インデクスを利用した文書情報の検索によっても、
前記(1b)の文書情報の検索と同様に、文書情報格納
検索装置は、大容量の文書情報データを、省スペースで
格納しつつ、必要な文書情報を検索することができると
ともに、大容量の圧縮した文書情報から必要な事項を非
常にスムースに検索することができる。 (2)第2実施形態の説明 図7は、本発明の第2実施形態として情報格納検索装置
200を示す図であり、この図7に示す情報格納検索装
置200は、前述の第1実施形態におけるものに比し
て、同義語辞書等(11,12,13)に代えて人名辞
書14及び郵便番号辞書15を備えて構成されている点
が異なり、その他(符号1,2,3,4,5,6,7,
8,9,10参照)の構成は同様である。
【0072】尚、(1)で用いたものと同じものについ
ては、その説明を省略する。ここで、図8は、人名辞書
の一例の表を示す図であり、この図8に示すように人名
辞書は、人の名、姓名、person’s nameの
見出しに対応した符号(数値)を蓄積するものであり、
他方、郵便番号辞書15は、場所(地域,土地)に対応
した符号(数値)を蓄積するものであり、これらの辞書
(14,15)は、同義語辞書等(11,12,13)
と同じ様に、形態素解析部1で分割(抽出)された単語
(形態素を含む)を、符号化部としての形態素解析デー
タ符号化部2が所定の数値に符号化処理を施す際に参照
するものである。更に、人名辞書等(14,15)は、
形態素解析部として文書情報形態素解析部1がデータベ
ース4に格納する文書情報及び検索質問を解析して単語
(形態素を含む)を抽出する際に、参照するものであ
る。尚、前記の第1実施形態にかかる文書情報格納検索
装置100においても、同義語辞書等(11,12,1
3)を参照して文書情報形態素解析部1が解析により単
語(形態素を含む)を抽出するような構成をとることが
できる。
【0073】ここで、人名辞書14は、同音の称呼等に
は、同じような符号化処理を施すために、同音の称呼等
には類似の符号化数値を割り当てることになっており、
図8に示す人名辞書も、人名「仲田」の符号化数値は0
x7350であり、一方、人名「中田」には0x735
1の符号化数値が割り当てられており、下位1バイトが
異なる近似の数値に符号化されるようになっており、人
名(見出し)に対応した符号化数値を示している。
【0074】また、人名辞書14と同じように、郵便番
号辞書15は、近隣の地域には、似通った符号化数値が
割り当てられている。ここで、図9は、郵便番号辞書の
一例の表を示す図であり、この図9に示すように郵便番
号辞書は、土地名「神奈川県川崎市幸区」の符号化数値
が210を割り当てられているのに対して、土地名「神
奈川県川崎市中原区」には211,土地名「神奈川県川
崎市高津区」には213等との符号化数値が割り当てら
れており、下位1バイトが異なる似通った数値に符号化
されるようになっており、土地名(地域名)〔見出し〕
に対応した符号化数値(郵便番号)を示している。
【0075】以下、文書情報の格納と文書情報の検索と
に分けて、第2実施形態にかかる情報格納検索装置20
0の動作等を説明する。 (2a)文書情報の格納 上述の構成により、本発明の第2実施形態にかかる情報
格納検索装置200は、前述の第1実施形態と同義語辞
書等(11,12,13)を人名辞書等(14,15)
に代えて同じ様に動作する。
【0076】ここで、本発明の第2実施形態について、
図10に示す文書情報がどのように処理されてデータベ
ース4に格納されるかを、図11を用いて以下説明す
る。図10は、データベース4に文書情報を格納する動
作を説明するための文書情報の一例を示す図であり、こ
の図10に示すように文書番号13の文書情報には、氏
名の他、住所が包含されている。
【0077】また、図11は、文書情報の格納処理にお
ける文書情報の流れを示す図であり、文書情報(文書番
号(ID)13)は、キーボードやネットワーク等から
情報格納検索装置200へ送られてくる。例えば、文書
情報(文書ID13)中の「中田 守 神奈川県川崎市
中原区下小田中・・・」は、コード化された文字列の情
報として入力されてくる(ステップS310)。
【0078】ネットワーク等から入力されてきた符号列
の文書情報は、文書情報形態素解析部1における解析に
より、単語(形態素を含む)を抽出され(形態素解析ス
テップS320)、単語(形態素を含む)毎に分割され
る。即ち、文書情報形態素解析部1は、ネットワーク等
から入力された単語(形態素を含む)を人名辞書等(1
4,15)を基準として、単語(形態素を含む)の分割
(抽出)処理を施す。
【0079】形態素解析データ符号化部2は、形態素解
析ステップで分割された単語(形態素を含む)を、図8
及び図9に示す人名辞書や郵便番号辞書を参照して、所
定の数値に符号化処理を施す。即ち、形態素解析データ
符号化部2での処理により、各分割された単語(形態素
を含む)は、図8を参照して人名「中田」は「0x73
51」に、一方、人名「守」は「0xa120」に、図
9を参照して住所「神奈川県川崎市中原区」は「21
1」に、一方で、住所「下小田中」は「0xff23」
となる(符号化ステップS330)。
【0080】符号化ステップとして形態素解析データ符
号化部2で、所定の数値に符号化処理を施された符号化
形態素データは、符号化データ圧縮部3及び文書情報イ
ンデクス作成部5へ送られる。インデクス作成部5で
は、形態素解析データ符号化部2で符号化された形態素
データと文書IDを基に、文書情報インデクスを作成す
る。例えば、符号化ステップとして形態素解析データ符
号化部2において、符号化された人名「中田」,「守」
等の符号化数値「0x7351」,「0xa120」等
を見出しとして、それに対応する文書IDの内容を包含
した文書情報インデクスが作成される(インデクス作成
ステップS340)。
【0081】一方、符号化データ圧縮部3は、形態素解
析データ符号化部2にて符号化された数値「0x735
1 0xa120 211 0xff23・・・」等
に、更に異なる数値へ符号化する圧縮の処理を施し(圧
縮ステップ)、記憶部としてのデータベース4に圧縮し
た符号化形態素データを格納する(記憶ステップ)。こ
のように情報格納検索装置200によれば、文書情報
(例えば、文書ID13中の「中田 守・・・・・」)
を直接圧縮するのではなく、一度、形態素解析部として
の文書情報形態素解析部1を通して、形態素を解析し、
人名辞書等(14,15)を参照して符号化部としての
形態素解析データ符号化部2が所定の数値に符号化処理
を施し、更に、符号化した形態素データを符号化データ
圧縮部3が圧縮を行ないつつ、且つ、元の文書(ネット
ワーク等から入力されてくる文書情報)の性質を考慮し
て符号化を行なう(例えば、名簿である場合は、人名や
住所を基に符号化する)ことと相まって、高い圧縮率を
期待できる。
【0082】更に、符号化ステップでの符号化に用いる
単語(形態素を含む)と文書情報インデクス作成部5で
用いる単語の抽出(分割)を、形態素解析部としての文
書情報形態素解析部1における一度の処理で行なうこと
により、非常に効率的で、形態素解析データ符号化部2
と文書情報インデクス作成部5とで独自に単語の抽出処
理を施す場合より、時間を短縮することができる。
【0083】(2b)文書情報の検索 ところで、本発明の第2実施形態について、データベー
ス4に格納されている文書情報をどのように検索される
かを、図12を用いて以下説明する。図12は、文書情
報の検索処理における文書情報の流れを示す図であり、
検索質問は、キーボードやネットワーク等を介して情報
格納検索装置200へ入力される。例えば、検索質問
「中田」で且つ検索条件「同じ称呼で、文字が異なる場
合を含む」は、コード化された文字列の情報として入力
されてくる(ステップS410)。
【0084】ネットワーク等から入力されてくる検索質
問は、データベース4に格納する文書情報と同様に、形
態素解析ステップで文書情報形態素解析部1における解
析により、単語(形態素を含む)を抽出され、各分割さ
れた単語(形態素を含む)は、形態素解析データ符号化
部2において所定の数値に符号化処理が施される(符号
化ステップS420)。
【0085】ここで、形態素解析部1及び形態素解析デ
ータ符号化処理部2では、見出しを共通する人名辞書等
(14,15)を基準に、各処理が実行される。即ち、
検索質問「中田」を、文書情報形態素解析部1が人名辞
書14を参照して、解析により単語「中田」を抽出し、
単語「中田」を形態素解析データ符号化部2が、同様に
人名辞書14を参照して所定の数値「0x7351」に
符号化処理を施す。
【0086】検索条件として「名前を表す文字が異なっ
ていてもよい」を指定しているので、照合判定部8は、
検索条件に従い、検索質問の符号化数値「0x735
1」に対して下位1バイトにマスクを掛けて、文書情報
インデクス記憶部6に記憶されている文書情報インデク
ス6−1を検索する(ステップS430)。尚、ここ
で、下位1バイトにマスクを掛けるとしたのは、人名辞
書に含まれている同音の人名に対しては、下位1バイト
の数値が異なるように符号が割り当てられているからで
ある。
【0087】図12に示す文書情報インデクス6−1を
照合判定部8が、下位1バイトにマスクを掛けた符号化
数値を用いて検索を行なうと、上位バイトが「0x73
5」である文書IDは文書ID(13,29,97,1
52,113)であることを検出する(ステップS44
0)。その後、結果出力部10が結果を出力する。その
際に、文書IDを出力するだけでなく、実際に内容を表
示する場合には、復号化ステップで形態素形態素復号化
部9が復号化した結果を表示する。
【0088】このように、本発明の第2実施形態にかか
る情報格納検索装置200によれば、大容量の文書情報
を格納するデータベース4に対して、情報検索をスムー
スに行なうことが可能で、検索時間も遅くない処理の実
行を望むことができる。 (3)第3実施形態の説明 図13は、本発明の第3実施形態として情報格納検索装
置300を示す図であり、この図13に示す情報格納検
索装置300は、様々な言語で書かれた文書情報を格納
するとともに、検索するものであり、前述の第1実施形
態におけるものと同様の構成である(符号2,3,4,
5,6,7,8,9,10,11,13参照)。
【0089】尚、(1)で用いたものと同じものについ
ては、その説明を省略する。ここで、情報格納検索装置
300が、様々な言語の内で日本語,英語及び仏語に対
応する場合について、以下説明する。形態素解析部とし
ての文書情報形態素解析部1−1は、前述の文書情報形
態素解析部1とは多少異なり、日本語,英語及び仏語の
三ヵ国語の形態素を解析して単語(形態素を含む)を抽
出するものである。
【0090】以下、文書情報の格納と文書情報の検索と
を分けて、第3実施形態にかかる情報格納検索装置30
0の動作等を説明する。 (3a)文書情報の格納 上述の構成により、本発明の第3実施形態にかかる情報
格納検索装置300は、前述の第1実施形態と同じ様に
動作する。
【0091】ここで、図14は、文書情報の一例を示す
図であり、この図14(a)〜(c)に示す文書情報
を、形態素解析ステップとしての文書情報形態素解析部
1が、図2に示す同義語辞書等を参照して、解析により
単語(形態素を含む)を抽出する。そして、その抽出し
て分割された単語(形態素を含む)を、符号化部として
の形態素解析データ符号化部2が、図2に示すような同
義語辞書等を参照して所定の数値に符号化処理を施す。
数値に符号化された符号化形態素データを基に、文書情
報インデクス作成部5は、図15に示すような文書情報
インデクス6−2を作成する。一方で、形態素解析デー
タ符号化部2で、数値に符号化された形態素データは、
符号化データ圧縮部3で、更に異なる数値に符号化する
圧縮処理を施されて、データベース4に格納される。
【0092】このように、第3実施形態にかかる情報検
索装置300は、複数の異なる言語で表記される文書情
報が大量であっても、文書情報を直接圧縮するのではな
く、一度、形態素解析部としての文書情報形態素解析部
1を通して、形態素を解析し、対訳辞書13等を参照し
て符号化部としての形態素解析データ符号化部2が所定
の数値に符号化処理を施し、更に、符号化した形態素デ
ータを符号化データ圧縮部3が圧縮を行ないつつ、且
つ、元の文書(ネットワーク等から入力されてくる文書
情報)の性質を考慮して符号化を行なう(例えば、名簿
である場合は、人名や住所を基に符号化する)ことと相
まって、高い圧縮率を期待できる。
【0093】更に、符号化ステップでの符号化に用いる
単語(形態素を含む)と文書情報インデクス作成部5で
用いる単語の抽出(分割)を、形態素解析部としての文
書情報形態素解析部1における一度の処理で行なうこと
により、非常に効率的で、形態素解析データ符号化部2
と文書情報インデクス作成部5とで独自に単語の抽出処
理を施す場合より、時間を短縮することができる。
【0094】(3b)文書情報の検索 本発明の第3実施形態について、データベース4に格納
されている文書情報をどのように検索されるかを、図1
6を用いて説明する。図16は、文書情報の検索処理に
おける文書情報の流れを示す図であり、検索質問は、キ
ーボードやネットワーク等を介して情報格納検索装置3
00へ入力される。例えば、検索質問「書物」で且つ検
索条件「訳語、同義語も可」は、コード化された文字列
の情報として入力されてくる(ステップS510)。
【0095】ネットワーク等から入力されてくる検索質
問は、データベース4に格納する文書情報と同様に、文
書情報形態素解析部1における解析により、単語(形態
素を含む)を抽出され(形態素解析ステップ)、各分割
された単語(形態素を含む)は、形態素解析データ符号
化部2において所定の数値に符号化処理が施される(符
号化ステップS520)。
【0096】即ち、文書情報形態素解析部1は、検索質
問「書物」を、図2に示す同義語辞書を参照して、解析
により単語「書物」を分割し、形態素解析データ符号化
部2が、同様に図2に示す同義語辞書を参照して、単語
「書物」を所定の数値「0x73a52101」に符号
化処理を施す。照合ステップで照合判定部8は、検索条
件として「訳語、同義語も可」を考慮して、検索質問の
符号化数値「0x73a52101」を、下位1バイト
と上位5バイト目以上をマスクして、文書情報インデク
スを検索する(ステップS530)。
【0097】照合判定部8が、図15に示す文書情報イ
ンデクス6−2の検索を行なうと、検索条件に適合する
文書番号として21,34,119が得られる(ステッ
プS540)。その後、結果出力部10が、結果を出力
する。結果を出力する際に、文書番号だけでなく、実際
に内容を表示する場合は、復号化ステップで符号化形態
素復号化部9が復号して、その結果を結果出力部10が
出力する。
【0098】このように、本発明の第3実施形態にかか
る情報格納検索装置300によれば、複数の異なる言語
を用いて、大量の文書情報を格納するデータベース4に
対して、一定の言語による検索質問だけでなく、異なる
言語で検索することもでき、且つ、情報検索をスムース
に行なうことが可能で、検索時間も遅くない処理の実行
を望むことができる。 (4)記録媒体 (4a)文書情報格納プログラムを記録した記録媒体 本発明の実施形態に係る文書情報格納プログラムを記録
した記録媒体(以下、説明の便宜上、符号「A」を付
す)に関して、図1に示すような手段を備えて構成され
る文書情報格納検索装置100を用いて説明する。
【0099】尚、(1)で用いたものと同じものついて
は、その説明を省略する。ところで、文書情報格納プロ
グラムは、コンピュータに、入力された文書情報に対し
て、形態素解析処理を施すことにより、文書情報から文
書情報構成要素としての形態素を抽出する形態素解析手
順と、形態素解析手順で抽出された形態素を符号化する
符号化手順と、符号化手順で符号化された形態素に圧縮
処理を施す圧縮手順と、圧縮手順で圧縮された符号化形
態素を格納する記憶手順とを実行させるためのプログラ
ムであるが、コンピュータは、記録媒体Aに記録されて
いる文書情報格納プログラムを読み込んで、コンピュー
タの中央処理装置(CPU)が、各ハードウェアに処理
の制御を以下に説明するように、施すようになってい
る。
【0100】ここで、コンピュータは、プログラムが記
録されている媒体Aから電気,磁気或いは光的等にプロ
グラムを読み込むようになっている。文書情報格納検索
装置100に、ネットワーク等を介して電気信号や光信
号等が入力されると、コンピュータは、形態素解析手順
として、文書情報形態素解析部1に、入力された文書情
報を解析して単語(形態素を含む)を抽出するように制
御し、分離した単語(形態素を含む)を符号化手順とし
ての形態素解析データ解析部2に出力するように制御す
る。
【0101】符号化手順として、形態素解析データ符号
化部2は、コンピュータの実行制御の下、文書情報形態
素解析部1で分離された単語(形態素を含む)を所定の
数値に符号化処理を施す。数値に符号化された形態素解
析データを、コンピュータは、圧縮手順として、符号化
データ圧縮部3に、更に、異なる数値に符号化の圧縮処
理を施すように制御する。
【0102】コンピュータは、記憶手順として、データ
ベース4に対して、符号化データ圧縮部3で圧縮された
圧縮符号化形態素データを記録するように制御する。こ
のように、本発明の実施形態に係る文書情報格納プログ
ラムを記録した記録媒体によれば、コンピュータの制御
の下で、文書情報を格納するに際し、文書情報を直接圧
縮するのではなく、一度、形態素解析部としての文書情
報形態素解析部1を通して、形態素を解析し、符号化部
としての形態素解析データ符号化部2が所定の数値に符
号化処理を施し、更に、符号化した形態素データを符号
化データ圧縮部3が圧縮を行なうので高い圧縮率を期待
できる。
【0103】ところで、前記の記憶媒体Aに対し、コン
ピュータに、形態素解析手順で抽出された形態素及び符
号化手順で符号化された形態素のうちの少なくとも一方
の情報に基づいてインデクスを作成するインデクス作成
手順とインデクス作成手順で作成されたインデクスをイ
ンデクス記憶手段に格納させるインデクス記憶手順を実
行させるプログラムを付加した文書情報格納プログラム
を記録した記録媒体(以下、説明の便宜上、符号「B」
を付す)に関しても、上述の記憶媒体Aと同様に高い圧
縮率を望むことができる。
【0104】ここで、インデクス作成手順として、コン
ピュータは、インデクス作成部5に文書情報形態素解析
部1において抽出された単語(形態素を含む)或いは形
態素解析データ符号化部2において所定の数値に符号化
された符号化形態素データを用いて文書情報インデクス
を作成するように制御し、インデクス記憶手順として、
コンピュータは、文書情報インデクス作成部5に作成し
た文書情報インデクスを記憶するように制御する。
【0105】このようにして、記録媒体Bは、更に、符
号化ステップでの符号化に用いる単語(形態素を含む)
と文書情報インデクス作成部5で用いる単語の抽出(分
割)を、形態素解析部としての文書情報形態素解析部1
における一度の処理で行なうことにより、非常に効率的
で、形態素解析部1と形態素解析データ符号化部2とで
独自に単語の抽出処理を施す場合より、時間を短縮する
ことができる。
【0106】(4b)文書情報検索プログラムを記録し
た記録媒体 本発明の実施形態に係る文書情報検索プログラムを記録
した記録媒体(以下、説明の便宜上、符号「C」を付
す)に関して、図1に示すような手段を備えて構成され
る文書情報格納検索装置100を用いて説明する。尚、
(1)等で用いたものと同じものについては、その説明
を省略する。
【0107】ところで、文書情報検索プログラムは、入
力された検索質問について、形態素解析処理を施すこと
により、検索質問情報から形態素を抽出する形態素解析
手順と、形態素解析手順で抽出された形態素を符号化す
る符号化手順と、記憶手段に格納されている圧縮符号化
形態素を元の符号化形態素データに復元する復元手順
と、符号化手順で得られた符号化形態素形式の検索質問
と、復元手順で復元された符号化形態素データとを照合
して、検索質問に適合した、符号化形態素データが復元
されているかどうかを判定する照合手順と、照合手順で
の照合結果に基づいて、復元手順で復元された符号化形
態素データを形態素に戻す形態素復号化手順とをコンピ
ュータに実行させるためのプログラムであるが、コンピ
ュータは、記録媒体Cに記録されている文書情報検索プ
ログラムを読み込んで、コンピュータの中央処理装置
(CPU)が、各ハードウェアに処理の制御を以下に説
明するように、施すようになっている。
【0108】文書情報格納検索装置100にネットワー
ク等を介して電気的信号や光信号等が入力されると、コ
ンピュータは、形態素解析手順として、文書情報形態素
解析部1に、入力された検索質問を解析して(形態素を
含む)を抽出するように制御する。符号化手順として、
形態素解析データ符号化部2は、コンピュータの実行制
御の下、文書情報形態素解析部1により、分離された単
語(形態素を含む)を所定の数値に符号化処理を施す。
【0109】コンピュータは、記憶手順により、データ
ベース4に格納されている圧縮符号化形態素データを、
復元手順として、圧縮符号化データ復元部7に、所定の
数値に復元するように制御する。コンピュータは、照合
手順として、照合判定部8に、符号手順で得られた符号
化形態素形式の検索質問と、復元手順で復元された符号
化形態素データとを照合して、検索質問に適合した、符
号化形態素データが復元されているかいなかを判定する
ように制御する。
【0110】コンピュータは、形態素復元手順として、
照合結果に基づいて必要な場合に、符号化形態素復号化
部9に、符号化数値を形態素に復号化するように制御す
る。このように、本発明の実施形態に係る文書情報検索
プログラムを記録した記録媒体Cによれば、コンピュー
タの制御の下、大量の文書情報を格納する装置に対する
文書情報の検索に際し、検索処理をスムースに行なうこ
とができる。
【0111】ところで、前記の記録媒体Cに対し、コン
ピュータに、形態素解析手順で抽出された形態素及び符
号化手順で符号化された形態素のうちの少なくとも一方
の情報に基づいて得られるインデクスからインデクス記
憶手段に記憶されているインデクスの検索を行なうイン
デクス検索手順を実行させるプログラムを付加した文書
情報検索プログラムを記録した記録媒体(以下、説明の
便宜上、符号「D」を付す)に関しても、前記の記録媒
体Cと同様にスムースな検索処理を行なうことができ
る。
【0112】ここで、インデクス検索手順として、コン
ピュータは、照合判定部8に、文書情報を格納する際に
文章情報インデクス作成部5が作成した文書情報インデ
クスを検索するように制御し、復元手順として、コンピ
ュータは、圧縮符号化データ復元部7に、記憶手順によ
りデータベース4に記憶されている圧縮符号化形態素デ
ータを検索に基づき、復元するように制御する。
【0113】このように、記録媒体Dは、更に、文書情
報インデクスを用いることで、大容量の文書情報を格納
するデータベース4に対して、情報検索をスムースに行
なうことが可能で、検索時間も遅くない処理の実行を望
むことができる。 (5)その他の説明 (5a)他の実施形態 図17〜図19は、その他の実施形態にかかる情報格納
検索装置(400,500,600)を示す図であり、
先ず、図17に示すように情報格納検索装置400は、
前述の第1実施形態におけるものに比して、文書情報イ
ンデクス作成部5や同義語辞書等(11,12,13)
を備えて構成されていない点が異なり、その他(符号
1,2,3,4,7,8,9,10参照)の構成は同様
である。尚、(1)で用いたものと同じものついては、
その説明を省略する。
【0114】上述の構成により、形態素解析ステップで
文書情報形態素解析部1が入力されてくる文書情報を解
析して単語(形態素を含む)を抽出し、形態素解析デー
タ符号化部2が数値に符号化処理を施し(符号化ステッ
プ)、更に、符号化データ圧縮部3が異なる数値に符号
化する圧縮処理(圧縮ステップ)を施した後に、圧縮さ
れた符号化形態素データがデータベース4に格納される
(記憶ステップ)。
【0115】このように、図17に示す情報格納検索装
置400によれば、文書情報を直接圧縮するのではな
く、一度、形態素解析部としての文書情報形態素解析部
1を通して、形態素を解析し、符号化部としての形態素
解析データ符号化部2が所定の数値に符号化処理を施
し、更に、符号化した形態素データを符号化データ圧縮
部3が圧縮を行なうので高い圧縮率を期待できる。
【0116】図18に示すように情報格納検索装置50
0は、前述の第1実施形態におけるものに比して、同義
語辞書等(11,12,13)を備えて構成されていな
い点が異なり、その他(符号1,2,3,4,5,6,
7,8,9,10参照)の構成は同様である。尚、
(1)で用いたものと同じものついては、その説明を省
略する。
【0117】上述の構成により、図18に示す情報格納
検索装置500は、文書情報を直接圧縮するのではな
く、一度、形態素解析部としての文書情報形態素解析部
1を通して、形態素を解析し、符号化部としての形態素
解析データ符号化部2が所定の数値に符号化処理を施
し、更に、符号化した形態素データを符号化データ圧縮
部3が圧縮を行なう。
【0118】このように、図18に示す情報格納検索装
置500によれば、高い圧縮率を期待することができ、
大容量の文書情報をデータベース4に蓄積することが可
能である。更に、符号化ステップでの符号化に用いる単
語(形態素を含む)と文書情報インデクス作成部5で用
いる単語の抽出(分割)を、形態素解析部としての文書
情報形態素解析部1における一度の処理で行なうことに
より、非常に効率的で、形態素解析データ符号化部2と
文書情報インデクス作成部5とで独自に単語の抽出処理
を施す場合より、時間を短縮することができる。
【0119】検索の際には、格納時に作成した文書情報
インデクスを用いることで、検索が容易であり、その復
元作業の時間も長時間を要しないことが望むことができ
る。他方、図19に示すように情報格納検索装置600
は、前述の第1実施形態におけるものに比して、文書情
報インデクス作成部5を備えて構成されていない点が異
なり、その他(符号1,2,3,4,7,8,9,1
0,11,12,13参照)の構成は同様である。尚、
(1)で用いたものと同じものについては、その説明を
省略する。
【0120】上述の構成により、情報格納検索装置60
0は、文書情報(例えば、文書ID13中の「中田 守
・・・・・」)を直接圧縮するのではなく、一度、形態
素解析部としての文書情報形態素解析部1を通して、形
態素を解析し、人名辞書等(14,15)を参照して符
号化部としての形態素解析データ符号化部2が所定の数
値に符号化処理を施し、更に、符号化した形態素データ
を符号化データ圧縮部3が圧縮を行ないつつ、且つ、元
の文書(ネットワーク等から入力されてくる文書情報)
の性質を考慮して符号化を行なう(例えば、名簿である
場合は、人名や住所を基に符号化する)。更に、情報格
納検索装置600は、符号化ステップでの符号化に用い
る単語(形態素を含む)と文書情報インデクス作成部5
で用いる単語の抽出(分割)を、形態素解析部としての
文書情報形態素解析部1における一度の処理で行なう。
【0121】このように、情報格納検索装置600によ
れば高い圧縮率を期待できるとともに、文書情報インデ
クスを作成するに際し、非常に効率的で、形態素解析部
1と形態素解析データ符号化部2とで独自に単語の抽出
処理を施す場合より、時間を短縮することができる。
(5b)検索装置と格納装置についての他の実施形態
尚、説明の便宜を図り、前述の如く、文書情報を格納す
る装置と文書情報を検索する装置を説明する上で、両装
置の機能を具備する情報格納検索装置を用いたが、文書
情報を格納する装置と、文書情報を検索する装置とが、
分離することでも、従来の技術上の課題を解決すること
ができる。
【0122】(5c)インデクス作成部 本発明の実施形態に係る文書情報インデクス作成部5
は、検索質問に関する文書情報インデクスをも作成する
ことができる。以下、前記の(1)の第一実施形態にか
かる情報格納検索装置100を用いて説明する。尚、
(1)で用いたものと同じものについては、その説明を
省略する。
【0123】この場合、文書情報インデクス作成部5
は、入力された検索質問に対して、文書情報形態素解析
部1で解析により抽出された単語(形態素を含む)或い
は、形態素解析データ符号化部2で符号化処理が施され
た符号化形態素データを用いて文書情報を作成する。照
合判定部8は、文書情報インデクス作成部5にて作成さ
れた検索質問の文書情報インデクスと、データベース4
に格納されている文書情報の文書情報インデクスを用い
て文書情報の検索を行なう。
【0124】このような検索質問の文書情報インデクス
を利用する文書情報の検索を実行する文書情報格納検索
装置によれば、大容量の文書情報データの検索に際し、
格納されている文書情報の文書情報インデクスを検索す
ることで、通常の文書情報を検索するより、短時間に処
理を実行することが望める。ここで、検索質問に関し
て、文書情報形態素解析部1における解析処理或いは、
形態素解析データ符号化部2における符号化処理に際し
て、同義語辞書11等を参照して得られた情報を基に、
文書情報インデクス作成部5が作成した文書情報インデ
クスを利用して、照合判定部8が、データベース4に格
納されている文書の文書情報インデクス6を検索するこ
とにおいても、データベース4内に蓄積されている大容
量の文章情報データから検索事項に適合した文書情報の
読み出しを短時間に処理することができる。
【0125】(5d)復号についての他の実施形態 尚、前述では、データベース4に格納されている文書情
報を伸長する過程で、圧縮されている文書情報を圧縮符
号化データ復元部7で復元して照合判定部8で検索質問
に適合するか判定が行なわれるようになっている。ここ
で、符号化形態素復号化部9において復号された形態素
データを基に、照合判定部8が、検索質問に適合する文
書情報であるか否かを判定するようにしてもよい。
【0126】(5e)符号化データ圧縮部についての他
の実施形態 圧縮処理の過程の一例として、前述では、出現頻度が高
い文字列ほど、圧縮するのに用いるコードが短く設定さ
れている等を述べたが、圧縮処理過程は、本発明の趣旨
を逸脱しない範囲で種々変形して実施することができ
る。
【0127】
【発明の効果】以上詳述したように、本発明の文書情報
格納装置によれば、形態素解析部が形態素解析処理を施
すことにより、入力された文書情報から文書情報構成要
素としての形態素を抽出し、符号化部により形態素解析
部で抽出された形態素が符号化され、圧縮部で符号化部
により符号化された形態素に圧縮処理を施し、記憶部に
おいて圧縮部で圧縮された符号化形態素を格納するよう
に構成されているので、入力された文書情報を直接格納
ぜずに、単語(形態素を含む)に分け、それらを数値符
号化し、更に、圧縮する符号化処理を施すことで、高い
圧縮率を望め、大容量のデータを格納することができる
利点がある。
【0128】ここで、請求項2記載の本発明の文書情報
格納装置は、インデクス作成部が形態素解析部で抽出さ
れた形態素及び符号化部で符号化された形態素のうちの
少なくとも一方の情報に基づいてインデクスを作成し、
インデクス記憶部でインデクス作成部により作成された
インデクスを格納するように構成されるので、符号化部
での符号化に用いる単語(形態素を含む)とインデクス
作成部で用いる単語の抽出(分割)を、形態素解析部に
おける一度の処理で行なうことにより、非常に効率的
で、インデクス作成部と符号化部とで独自に単語の抽出
処理を施す場合より、時間を短縮することができる利点
がある。
【0129】または、請求項3記載の本発明の文書情報
格納装置は、同義語辞書,シソーラス,対訳辞書のうち
の少なくとも一つをそなえ、符号化部が、同義語辞書,
シソーラス,対訳辞書のうちの少なくとも1つの情報を
用いて、形態素を符号化するように構成されているの
で、文書情報を直接圧縮するのではなく、人名辞書等を
参照して符号化部が所定の数値に符号化処理を施し、更
に、符号化した形態素データを圧縮部3が圧縮を行ない
つつ、且つ、元の文書(ネットワーク等から入力されて
くる文書情報)の性質を考慮して符号化を行なう(例え
ば、名簿である場合は、人名や住所を基に符号化する)
ことと相まって、更に高い圧縮率を期待できる利点があ
る。
【0130】更に、請求項4記載の本発明の文書情報格
納装置は、インデクス作成部と、インデクス記憶部と、
同義語辞書,シソーラス,対訳辞書のうちの少なくとも
一つをそなえ、符号化部が、同義語辞書,シソーラス,
対訳辞書のうちの少なくとも1つの情報を用いて、形態
素を符号化するように構成されているので、非常に効率
的に文書情報を格納するとともに、インデクスを作成す
ることができ、且つ、文書情報の格納に際して高い圧縮
率を望むことができる利点がある。
【0131】一方、請求項5記載の本発明の文書情報格
納方法によれば、形態素解析ステップで形態素解析処理
を施して、文書情報から文書情報構成要素としての形態
素を抽出し、符号化ステップにより形態素解析ステップ
で抽出された形態素を符号化して、圧縮ステップで符号
化ステップにおいて符号化された形態素に圧縮処理を施
し、記憶ステップで圧縮ステップにより圧縮された符号
化形態素を格納するように構成されているので、入力さ
れた文書情報を直接格納ぜずに、単語(形態素を含む)
に分け、それらを数値符号化し、更に、圧縮する符号化
処理を施すことで、高い圧縮率を望め、大容量のデータ
を格納することができる利点がある。
【0132】ここで、請求項6記載の本発明の文書情報
格納方法は、インデクス作成ステップが形態素解析ステ
ップで抽出された形態素及び符号化ステップで符号化さ
れた形態素のうちの少なくとも一方の情報に基づいてイ
ンデクスを作成し、インデクス記憶ステップがインデク
ス作成ステップで作成されたインデクスを格納するよう
に備えられるので、符号化ステップでの符号化に用いる
単語(形態素を含む)とインデクス作成ステップで用い
る単語の抽出(分割)を、形態素解析ステップにおける
一度の処理で行なうことにより、非常に効率的で、イン
デクス作成ステップと符号化ステップとで独自に単語の
抽出処理を施す場合より、時間を短縮することができる
利点がある。
【0133】また、請求項7記載の本発明の文書情報格
納方法は、符号化ステップが、同義語辞書,シソーラ
ス,対訳辞書のうちのいずれかからの情報を用いて、形
態素を符号化するように構成されているので、文書情報
を直接圧縮するのではなく、一度、形態素解析ステップ
を通して、形態素を解析し、人名辞書等を参照して符号
化ステップが所定の数値に符号化処理を施し、更に、符
号化した形態素データを圧縮ステップ3が圧縮を行ない
つつ、且つ、元の文書(ネットワーク等から入力されて
くる文書情報)の性質を考慮して符号化を行なう(例え
ば、名簿である場合は、人名や住所を基に符号化する)
ことと相まって、更に高い圧縮率を期待できる利点があ
る。
【0134】更に、請求項8記載の本発明の文書情報格
納方法は、形態素解析ステップで抽出された形態素及び
符号化ステップで符号化された形態素のうちの少なくと
も一方の情報に基づいてインデクスを作成するインデク
ス作成ステップと、インデクス作成ステップで作成され
たインデクスを格納するインデクス記憶ステップとをそ
なえ、符号化ステップが、同義語辞書,シソーラス,対
訳辞書のうちのいずれかからの情報を用いて、形態素を
符号化するように構成されるので、非常に効率的に文書
情報を格納するとともに、インデクスを作成することが
でき、且つ、文書情報の格納に際して高い圧縮率を望む
ことができる利点がある。
【0135】他方、請求項9記載の文書情報検索装置
は、形態素解析部と、符号化部と、圧縮部と、記憶部と
を有する文書情報格納装置における記憶部に格納されて
いる圧縮符号化形態素を復元部が元の符号化形態素デー
タに復元し、照合部で検索質問に適合した、符号化形態
素データが復元されているかどうかの判定を行ない、復
号化部で、照合部での照合結果に基づいて復元部で復元
された符号化形態素データを形態素に戻すように構成さ
れるので、大容量の文書情報からのデータの検索を行な
うことができる利点がある。
【0136】ここで、請求項10記載の本発明の文書情
報検索装置は、照合部が、符号化形態素形式の検索質問
と、復元部で復元された符号化形態素データとを照合し
て、検索質問に適合した、符号化形態素データが復元さ
れているかどうかを判定するように構成されていること
から、大容量の文書情報からのデータの検索を正確に行
なうことができる利点がある。
【0137】また、請求項11記載の本発明の文書情報
検索装置は、インデクス作成部と、インデクス記憶部と
を文書情報格納装置に付加し、照合部が、形態素形式の
検索質問及び符号化形態素形式の検索質問のうちの少な
くとも一方の情報に基づいて得られるインデクスからイ
ンデクス記憶部で記憶されているインデクスの検索を行
ない、復元部でこの検索の結果得られたインデクスの情
報に基づいて、記憶部に格納されている圧縮符号化形態
素を元の符号化形態素データに復元させるように構成さ
れているので、文書情報格納装置が格納する大容量の文
書情報からの文書情報の検索にインデクスを用いること
で、非常にスムースに行なうことができる利点がある。
【0138】更に、請求項12記載の本発明の文書情報
検索装置は、同義語辞書,シソーラス,対訳辞書のうち
の少なくとも一つをそなえ、符号化部が、同義語辞書,
シソーラス,対訳辞書のうちのいずれかからの情報を用
いて、形態素を符号化するように、文書情報格納装置を
構成し、照合部が、同義語辞書,シソーラス,対訳辞書
のうちのいずれかからの情報を用いて作成された符号化
形態素形式の検索質問と、復元部で復元された符号化形
態素データとを照合して、検索質問に適合する符号化形
態素データが復元されているかどうかを判定するように
構成されているので、文書情報格納装置が蓄積する大容
量の文書情報から自由度のある検索(例えば、曖昧検索
としての同義語検索)を行なうことができる利点があ
る。
【0139】並びに、請求項13記載の本発明の文書情
報検索装置は、インデクス作成部とインデクス記憶部と
を文書情報格納装置に付加し、更に同義語辞書,シソー
ラス,対訳辞書のうちの少なくとも一つをそなえ、符号
化部が、同義語辞書,シソーラス,対訳辞書のうちのい
ずれかからの情報を用いて、形態素を符号化するよう
に、文書情報格納装置を構成し、照合部が、同義語辞
書,シソーラス,対訳辞書のうちのいずれかからの情報
を用いて作成された形態素形式の検索質問及び符号化形
態素形式の検索質問のうちの少なくとも一方の情報に基
づいて得られるインデクスからインデクス記憶部で記憶
されているインデクスの検索を行ない、復元部が、この
検索の結果得られたインデクスの情報に基づいて記憶部
に格納されている圧縮符号化形態素を元の符号化形態素
データに復元させるように構成されてることで、文書情
報格納装置が蓄積する大容量の文書情報に対して、自由
度のある検索(例えば、曖昧検索としての同義語検索)
を行なうことができる利点があるとともに、文書情報格
納装置が格納する大容量の文書情報からの文書情報の検
索にインデクスを用いることで、非常にスムースに行な
うことができる利点がある。
【0140】他方、請求項14記載の本発明の文書情報
検索方法は、文書情報を入力することにより、文書情報
に対して、形態素解析処理を施すことにより、文書情報
から文書情報構成要素としての形態素を抽出し、この抽
出された形態素を符号化し、更にこの符号化された形態
素に圧縮処理を施して、この圧縮された符号化形態素を
記憶手段に記憶した文書情報格納装置に対して、形態素
解析ステップで形態素解析処理を施すことにより、検索
質問情報から形態素を抽出し、符号化ステップが形態素
解析ステップで抽出された形態素を符号化する処理を行
ない、復元ステップで文書情報格納装置における記憶手
段に格納されている圧縮符号化形態素を元の符号化形態
素データに復元し、照合ステップが符号化ステップで得
られた符号化形態素形式の検索質問と、復元ステップで
復元された符号化形態素データとを照合して、検索質問
に適合した、符号化形態素データが復元されているかど
うかの判定を行ない、そして復号化ステップにおいて照
合ステップでの照合結果に基づいて、復元ステップで復
元された符号化形態素データを形態素に戻すように構成
されるので、文書情報格納装置に蓄積される大容量の文
書情報から文書情報の検索を正確に行なうことができる
利点がある。
【0141】ここで、請求項15記載の本発明の文書情
報検索方法は、照合ステップが、同義語辞書,シソーラ
ス,対訳辞書のうちのいずれかからの情報を用いて作成
された符号化形態素形式の検索質問と、復元部で復元さ
れた符号化形態素データとを照合して、検索質問に適合
した、符号化形態素データが復元されているかどうかを
判定するように構成されているので、文書情報格納装置
が蓄積する大容量の文書情報から自由度のある検索(例
えば、曖昧検索としての同義語検索)を行なうことがで
きる利点がある。
【0142】並びに、請求項16記載の文章情報検索方
法は、文書情報を記憶手段が圧縮された符号化形態素を
記憶するとともに、インデクス記憶手段が文書情報のイ
ンデクスを格納する文書情報格納装置に対して、形態素
解析ステップで、検索質問について、形態素解析処理を
施すことにより、検索質問情報から形態素を抽出し、符
号化ステップで形態素解析ステップが抽出する形態素の
符号化を行ない、インデクス検索ステップで形態素解析
ステップが抽出する形態素及び符号化ステップで符号化
された形態素のうちの少なくとも一方の情報に基づいて
得られるインデクスからインデクス記憶手段に記憶され
ているインデクスの検索を行ない、復元ステップがイン
デクス検索ステップで得られたインデクス情報に基づい
て、記憶手段で格納されている圧縮符号化形態素を元の
符号化形態素データへ復元し、復号化ステップにおいて
復元ステップで復元された符号化形態素データを形態素
に戻すように構成されるので、文書情報格納装置が格納
する大容量の文書情報からの文書情報の検索処理に際し
て、インデクスを用いることで、非常にスムースに行な
うことができる利点がある。
【0143】ここで、請求項17記載の文書情報検索方
法は、文書情報格納装置が、同義語辞書,シソーラス,
対訳辞書のうちのいずれかからの情報を用いて、形態素
を符号化するように構成され、且つ、インデクス検索ス
テップが、同義語辞書,シソーラス,対訳辞書のうちの
いずれかからの情報を用いて、インデクス検索を行なう
ように構成されていることで、所定の単語(形態素を含
む)は、同義語辞書等により所定の数値に符号化され
て、それに対応する符号で文書情報の検索が行なわれる
ので、検索処理を非常にスムースに行なうことができ
る。
【0144】並びに、請求項18記載の記録媒体は、コ
ンピュータに、入力された文書情報に対して、形態素解
析処理を施すことにより、文書情報から文書情報構成要
素としての形態素を抽出する形態素解析手順と、形態素
解析手順で抽出された形態素を符号化する符号化手順
と、符号化手順で符号化された形態素に圧縮処理を施す
圧縮手順と、圧縮手順で圧縮された符号化形態素を格納
する記憶手順とを実行させるための文書情報格納プログ
ラムを記録しているので、入力された文書情報を直接格
納ぜずに、単語(形態素を含む)に分け、それらを数値
符号化し、更に、圧縮する符号化処理を施すことで、高
い圧縮率を望め、大容量のデータを格納することができ
る利点がある。
【0145】ここで、請求項19記載の記録媒体は、コ
ンピュータに、入力された文書情報に対して、形態素解
析手順と、符号化手順と、圧縮手順と、記憶手順と、形
態素解析手順で抽出された形態素及び符号化手順で符号
化された形態素のうちの少なくとも一方の情報に基づい
てインデクスを作成するインデクス作成手順と、インデ
クス作成手順で作成されたインデクスをインデクス記憶
手段に格納させるインデクス記憶手順とを実行させるた
めの文書情報格納プログラムを記録しているので、符号
化手順での符号化に用いる単語(形態素を含む)とイン
デクス作成手順で用いる単語の抽出(分割)を、形態素
解析手順における一度の処理で行なうことにより、非常
に効率的で、インデクス作成手順と符号化手順とで独自
に単語の抽出処理を施す場合より、時間を短縮すること
ができる利点がある。
【0146】一方、請求項20記載の本発明の記録媒体
は、文書情報を入力することにより、文書情報に対し
て、形態素解析処理を施すことにより、文書情報から文
書情報構成要素としての形態素を抽出し、この抽出され
た形態素を符号化し、更にこの符号化された形態素に圧
縮処理を施して、この圧縮された符号化形態素を記憶手
段に記憶した文書情報格納装置に対して、検索質問に適
合した情報を検索するに際して、入力された検索質問に
ついて、形態素解析処理を施すことにより、検索質問情
報から形態素を抽出する形態素解析手順と、形態素解析
手順で抽出された形態素を符号化する符号化手順と、記
憶手段に格納されている圧縮符号化形態素を元の符号化
形態素データに復元する復元手順と、符号化手順で得ら
れた符号化形態素形式の検索質問と、復元手順で復元さ
れた符号化形態素データとを照合して、検索質問に適合
した、符号化形態素データが復元されているかどうかを
判定する照合手順と、照合手順での照合結果に基づい
て、復元手順で復元された符号化形態素データを形態素
に戻す形態素復号化手順とをコンピュータに実行させる
ための文書情報検索プログラムを記録しているので、コ
ンピュータの制御の下、大量の文書情報を格納する装置
から文書情報を検索するに際し、検索処理をスムースに
行なうことができる。
【0147】ここで、請求項21記載の本発明の記録媒
体は、文書情報を入力することにより、文書情報に対し
て、形態素解析処理を施すことにより、文書情報から文
書情報構成要素としての形態素を抽出し、この抽出され
た形態素を符号化し、更にこの符号化された形態素に圧
縮処理を施して、この圧縮された符号化形態素を記憶手
段に記憶するとともに、形態素解析処理で抽出された形
態素及び形態素符号化処理で符号化された形態素のうち
の少なくとも一方の情報に基づいてインデクスを作成
し、このインデクスをインデクス記憶手段に格納する文
書情報格納装置に対して、検索質問に適合した情報を検
索するに際して、入力された検索質問について、形態素
解析処理を施すことにより、検索質問情報から形態素を
抽出する形態素解析手順と、形態素解析手順で抽出され
た形態素を符号化する符号化手順と、形態素解析手順で
抽出された形態素及び符号化手順で符号化された形態素
のうちの少なくとも一方の情報に基づいて得られるイン
デクスからインデクス記憶手段に記憶されているインデ
クスの検索を行なうインデクス検索手順と、インデクス
検索手順で得られたインデクス情報に基づいて、記憶手
順で格納されている圧縮符号化形態素を元の符号化形態
素データに復元する復元手順と、復元手順で復元された
符号化形態素データを形態素に戻す復号化手順とをコン
ピュータに実行させるための文書情報検索プログラムを
記録しているので、インデクスを用いることで、文書情
報格納装置に格納されている大容量の文書情報から情報
検索をスムースに行なうことが可能で、検索時間も遅く
ない処理の実行を望むことができる利点がある。
【図面の簡単な説明】
【図1】本発明の第1実施形態にかかる文書情報格納検
索装置を示すブロック図である。
【図2】本発明の第1実施形態にかかる同義語辞書,シ
ソーラスの一例を示す図である。
【図3】本発明の第1実施形態にかかる対訳辞書の一例
を示す図である。
【図4】本発明の第1実施形態にかかる文書情報格納検
索装置が、文書情報を格納する際の処理の流れを説明す
るための図である。
【図5】本発明の第1実施形態にかかる文書情報格納検
索装置が、文書情報を検索する際の処理の流れを説明す
るための図である。
【図6】本発明の第1実施形態にかかる文書情報格納検
索装置が、文書情報を検索する際の処理の流れを説明す
るための図である。
【図7】本発明の第2実施形態にかかる文書情報格納検
索装置を示すブロック図である。
【図8】本発明の第2実施形態にかかる人名辞書の一例
を示す図である。
【図9】本発明の第2実施形態にかかる郵便番号辞書の
一例を示す図である。
【図10】本発明の第2実施形態にかかる入力する文書
情報の一例を示す図である。
【図11】本発明の第2実施形態にかかる文書情報格納
検索装置が、文書情報を格納する際の処理の流れを説明
するための図である。
【図12】本発明の第2実施形態にかかる文書情報格納
検索装置が、文書情報を検索する際の処理の流れを説明
するための図である。
【図13】本発明の第3実施形態にかかる文書情報格納
検索装置を示すブロック図である。
【図14】(a)〜(c)はそれぞれ本発明の第3実施
形態にかかる格納する文書情報の一例を示す図である。
【図15】本発明の第3実施形態にかかる文書情報イン
デクスの一例を示す図である。
【図16】本発明の第3実施形態にかかる文書情報格納
検索装置が、文書情報を検索する際の処理の流れを説明
するための図である。
【図17】本発明の他の実施形態を示す図である。
【図18】本発明の他の実施形態を示す図である。
【図19】本発明の他の実施形態を示す図である。
【符号の説明】
1,1−1 文書情報形態素解析部(形態素解析部) 2 形態素解析データ符号化部(符号化部) 3 符号化データ圧縮部(圧縮部) 4 データベース(記憶部) 5 文書情報インデクス作成部(インデクス作成部) 6 文書情報インデクス記憶部(インデクス記憶部) 6−1,6−2 文書情報インデクス 7 圧縮符号化データ復元部(復元部) 8 照合判定部(照合部) 9 符号化形態素復号化部(復号化部) 10 結果出力部 11 同義語辞書 12 シソーラス 13 対訳辞書 14 人名辞書 15 郵便番号辞書 100,200,300,400,500,600 文
書情報格納検索装置

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 形態素解析処理を施すことにより、入力
    された文書情報から文書情報構成要素としての形態素を
    抽出する形態素解析部と、 該形態素解析部で抽出された形態素を符号化する符号化
    部と、 該符号化部で符号化された形態素に圧縮処理を施す圧縮
    部と、 該圧縮部で圧縮された符号化形態素を格納する記憶部と
    をそなえて構成されたことを特徴とする、文書情報格納
    装置。
  2. 【請求項2】 該形態素解析部で抽出された該形態素及
    び該符号化部で符号化された形態素のうちの少なくとも
    一方の情報に基づいてインデクスを作成するインデクス
    作成部と、 該インデクス作成部で作成された該インデクスを格納す
    るインデクス記憶部とをそなえていることを特徴とす
    る、請求項1記載の文書情報格納装置。
  3. 【請求項3】 同義語辞書,シソーラス,対訳辞書のう
    ちの少なくとも一つをそなえ、 該符号化部が、上記の同義語辞書,シソーラス,対訳辞
    書のうちの少なくとも1つの情報を用いて、該形態素を
    符号化するように構成されていることを特徴とする、請
    求項1記載の文書情報格納装置。
  4. 【請求項4】 該形態素解析部で抽出された該形態素及
    び該符号化部で符号化された形態素のうちの少なくとも
    一方の情報に基づいてインデクスを作成するインデクス
    作成部と、 該インデクス作成部で作成された該インデクスを格納す
    るインデクス記憶部とをそなえるとともに、 同義語辞書,シソーラス,対訳辞書のうちの少なくとも
    一つをそなえ、 該符号化部が、上記の同義語辞書,シソーラス,対訳辞
    書のうちの少なくとも1つの情報を用いて、該形態素を
    符号化するように構成されていることを特徴とする、請
    求項1記載の文書情報格納装置。
  5. 【請求項5】 文書情報を格納するに際し、 文書情報を入力することにより、該文書情報に対し、形
    態素解析処理を施して、該文書情報から文書情報構成要
    素としての形態素を抽出する形態素解析ステップと、 該形態素解析ステップで抽出された形態素を符号化する
    符号化ステップと、 該符号化ステップで符号化された形態素に圧縮処理を施
    す圧縮ステップと、 該圧縮ステップで圧縮された符号化形態素を格納する記
    憶ステップとをそなえて構成されたことを特徴とする、
    文書情報格納方法。
  6. 【請求項6】 該形態素解析ステップで抽出された該形
    態素及び該符号化ステップで符号化された形態素のうち
    の少なくとも一方の情報に基づいてインデクスを作成す
    るインデクス作成ステップと、 該インデクス作成ステップで作成された該インデクスを
    格納するインデクス記憶ステップとをそなえていること
    を特徴とする、請求項5記載の文書情報格納方法。
  7. 【請求項7】 該符号化ステップが、同義語辞書,シソ
    ーラス,対訳辞書のうちのいずれかからの情報を用い
    て、該形態素を符号化するように構成されていることを
    特徴とする、請求項5記載の文書情報格納方法。
  8. 【請求項8】 該形態素解析ステップで抽出された該形
    態素及び該符号化ステップで符号化された形態素のうち
    の少なくとも一方の情報に基づいてインデクスを作成す
    るインデクス作成ステップと、 該インデクス作成ステップで作成された該インデクスを
    格納するインデクス記憶ステップとをそなえ、 該符号化ステップが、同義語辞書,シソーラス,対訳辞
    書のうちのいずれかからの情報を用いて、該形態素を符
    号化するように構成されていることを特徴とする、請求
    項5記載の文書情報格納方法。
  9. 【請求項9】 形態素解析処理を施すことにより、入力
    された文書情報から文書情報構成要素としての形態素を
    抽出する形態素解析部と、該形態素解析部で抽出された
    形態素を符号化する符号化部と、該符号化部で符号化さ
    れた形態素に圧縮処理を施す圧縮部と、該圧縮部で圧縮
    された符号化形態素を格納する記憶部とを有する文書情
    報格納装置における該記憶部に格納されている圧縮符号
    化形態素を元の符号化形態素データに復元する復元部
    と、 検索質問に適合した、符号化形態素データが復元されて
    いるかどうかを判定する照合部と、 該照合部での照合結果に基づいて、該復元部で復元され
    た符号化形態素データを形態素に戻す復号化部とをそな
    えて構成されたことを特徴とする、文書情報検索装置。
  10. 【請求項10】 該照合部が、符号化形態素形式の検索
    質問と、該復元部で復元された符号化形態素データとを
    照合して、該検索質問に適合した、符号化形態素データ
    が復元されているかどうかを判定するように構成されて
    いることを特徴とする、請求項9記載の文書情報検索装
    置。
  11. 【請求項11】 該形態素解析部で抽出された該形態素
    及び該符号化部で符号化された形態素のうちの少なくと
    も一方の情報に基づいてインデクスを作成するインデク
    ス作成部と、該インデクス作成部で作成された該インデ
    クスを格納するインデクス記憶部とを該文書情報格納装
    置に付加し、 該照合部が、形態素形式の検索質問及び符号化形態素形
    式の検索質問のうちの少なくとも一方の情報に基づいて
    得られるインデクスから該インデクス記憶部で記憶され
    ているインデクスの検索を行ない、この検索の結果得ら
    れた該インデクスの情報に基づいて、該記憶部に格納さ
    れている圧縮符号化形態素を該復元部で元の符号化形態
    素データに復元させるように構成されていることを特徴
    とする、請求項9記載の文書情報検索装置。
  12. 【請求項12】 同義語辞書,シソーラス,対訳辞書の
    うちの少なくとも一つをそなえ、該符号化部が、上記の
    同義語辞書,シソーラス,対訳辞書のうちのいずれかか
    らの情報を用いて、該形態素を符号化するように、該文
    書情報格納装置を構成し、 該照合部が、上記の同義語辞書,シソーラス,対訳辞書
    のうちのいずれかからの情報を用いて作成された符号化
    形態素形式の検索質問と、該復元部で復元された符号化
    形態素データとを照合して、該検索質問に適合した、符
    号化形態素データが復元されているかどうかを判定する
    ように構成されていることを特徴とする、請求項9記載
    の文書情報格納装置。
  13. 【請求項13】 該形態素解析部で抽出された該形態素
    及び該符号化部で符号化された形態素のうちの少なくと
    も一方の情報に基づいてインデクスを作成するインデク
    ス作成部と、該インデクス作成部で作成された該インデ
    クスを格納するインデクス記憶部とを該文書情報格納装
    置に付加し、更に同義語辞書,シソーラス,対訳辞書の
    うちの少なくとも一つをそなえ、該符号化部が、上記の
    同義語辞書,シソーラス,対訳辞書のうちのいずれかか
    らの情報を用いて、該形態素を符号化するように、該文
    書情報格納装置を構成し、 該照合部が、上記の同義語辞書,シソーラス,対訳辞書
    のうちのいずれかからの情報を用いて作成された形態素
    形式の検索質問及び符号化形態素形式の検索質問のうち
    の少なくとも一方の情報に基づいて得られるインデクス
    から該インデクス記憶部で記憶されているインデクスの
    検索を行ない、この検索の結果得られた該インデクスの
    情報に基づいて、該記憶部に格納されている圧縮符号化
    形態素を該復元部で元の符号化形態素データに復元させ
    るように構成されていることを特徴とする、請求項9記
    載の文書情報検索装置。
  14. 【請求項14】 文書情報を入力することにより、該文
    書情報に対して、形態素解析処理を施すことにより、該
    文書情報から文書情報構成要素としての形態素を抽出
    し、この抽出された該形態素を符号化し、更にこの符号
    化された形態素に圧縮処理を施して、この圧縮された符
    号化形態素を記憶手段に記憶した文書情報格納装置に対
    して、検索質問に適合した情報を検索するに際しては、 該検索質問を入力して、この検索質問について、形態素
    解析処理を施すことにより、該検索質問情報から形態素
    を抽出する形態素解析ステップと、 該形態素解析ステップで抽出された該形態素を符号化す
    る符号化ステップと、該文書情報格納装置における該記
    憶手段に格納されている圧縮符号化形態素を元の符号化
    形態素データに復元する復元ステップと、 該符号化ステップで得られた符号化形態素形式の検索質
    問と、該復元ステップで復元された符号化形態素データ
    とを照合して、該検索質問に適合した、符号化形態素デ
    ータが復元されているかどうかを判定する照合ステップ
    と、該照合ステップでの照合結果に基づいて、該復元ス
    テップで復元された符号化形態素データを形態素に戻す
    復号化ステップとをそなえて構成されたことを特徴とす
    る、文書情報検索方法。
  15. 【請求項15】 該文書情報格納装置が、同義語辞書,
    シソーラス,対訳辞書のうちのいずれかからの情報を用
    いて、該形態素を符号化するように構成され、 該照合ステップが、上記の同義語辞書,シソーラス,対
    訳辞書のうちのいずれかからの情報を用いて作成された
    符号化形態素形式の検索質問と、該復元部で復元された
    符号化形態素データとを照合して、該検索質問に適合し
    た、符号化形態素データが復元されているかどうかを判
    定するように構成されていることを特徴とする、請求項
    14記載の文書情報検索方法。
  16. 【請求項16】 文書情報を入力することにより、該文
    書情報に対して、形態素解析処理を施すことにより、該
    文書情報から文書情報構成要素としての形態素を抽出
    し、この抽出された該形態素を符号化し、更にこの符号
    化された形態素に圧縮処理を施して、この圧縮された符
    号化形態素を記憶手段に記憶するとともに、形態素解析
    処理で抽出された形態素及び形態素符号化処理で符号化
    された形態素のうちの少なくとも一方の情報に基づいて
    インデクスを作成し、このインデクスをインデクス記憶
    手段に格納する文書情報格納装置に対して、検索質問に
    適合した情報を検索するに際しては、 該検索質問を入力して、この検索質問について、形態素
    解析処理を施すことにより、該検索質問情報から形態素
    を抽出する形態素解析ステップと、 該形態素解析ステップで抽出された該形態素を符号化す
    る符号化ステップと、 該形態素解析ステップで抽出された該形態素及び該符号
    化ステップで符号化された形態素のうちの少なくとも一
    方の情報に基づいて得られるインデクスから該インデク
    ス記憶手段に記憶されているインデクスの検索を行なう
    インデクス検索ステップと、 該インデクス検索ステップで得られたインデクス情報に
    基づいて、該記憶手段で格納されている圧縮符号化形態
    素を元の符号化形態素データに復元する復元ステップ
    と、 該復元ステップで復元された符号化形態素データを形態
    素に戻す復号化ステップとをそなえて構成されたことを
    特徴とする、文書情報検索方法。
  17. 【請求項17】 該文書情報格納装置が、同義語辞書,
    シソーラス,対訳辞書のうちのいずれかからの情報を用
    いて、該形態素を符号化するように構成され、 且つ、該インデクス検索ステップが、同義語辞書,シソ
    ーラス,対訳辞書のうちのいずれかからの情報を用い
    て、インデクス検索を行なうように構成されていること
    を特徴とする、請求項16記載の文書情報検索方法。
  18. 【請求項18】 コンピュータに、 入力された文書情報に対して、形態素解析処理を施すこ
    とにより、該文書情報から文書情報構成要素としての形
    態素を抽出する形態素解析手順と、 該形態素解析手順で抽出された形態素を符号化する符号
    化手順と、 該符号化手順で符号化された形態素に圧縮処理を施す圧
    縮手順と、 該圧縮手順で圧縮された符号化形態素を格納する記憶手
    順とを実行させるための文書情報格納プログラムを記録
    した記録媒体。
  19. 【請求項19】 コンピュータに、 入力された文書情報に対して、形態素解析処理を施すこ
    とにより、該文書情報から文書情報構成要素としての形
    態素を抽出する形態素解析手順と、 該形態素解析手順で抽出された形態素を符号化する符号
    化手順と、 該符号化手順で符号化された形態素に圧縮処理を施す圧
    縮手順と、 該圧縮手順で圧縮された符号化形態素を記憶手段に格納
    させる記憶手順と、該形態素解析手順で抽出された該形
    態素及び該符号化手順で符号化された形態素のうちの少
    なくとも一方の情報に基づいてインデクスを作成するイ
    ンデクス作成手順と、 該インデクス作成手順で作成された該インデクスをイン
    デクス記憶手段に格納させるインデクス記憶手順とを実
    行させるための文書情報格納プログラムを記録した記録
    媒体。
  20. 【請求項20】 文書情報を入力することにより、該文
    書情報に対して、形態素解析処理を施すことにより、該
    文書情報から文書情報構成要素としての形態素を抽出
    し、この抽出された該形態素を符号化し、更にこの符号
    化された形態素に圧縮処理を施して、この圧縮された符
    号化形態素を記憶手段に記憶した文書情報格納装置に対
    して、検索質問に適合した情報を検索するに際して、 入力された検索質問について、形態素解析処理を施すこ
    とにより、該検索質問情報から形態素を抽出する形態素
    解析手順と、 該形態素解析手順で抽出された該形態素を符号化する符
    号化手順と、 該記憶手段に格納されている圧縮符号化形態素を元の符
    号化形態素データに復元する復元手順と、 該符号化手順で得られた符号化形態素形式の検索質問
    と、該復元手順で復元された符号化形態素データとを照
    合して、該検索質問に適合した、符号化形態素データが
    復元されているかどうかを判定する照合手順と、 該照合手順での照合結果に基づいて、該復元手順で復元
    された符号化形態素データを形態素に戻す形態素復号化
    手順とをコンピュータに実行させるための文書情報検索
    プログラムを記録した記録媒体。
  21. 【請求項21】 文書情報を入力することにより、該文
    書情報に対して、形態素解析処理を施すことにより、該
    文書情報から文書情報構成要素としての形態素を抽出
    し、この抽出された該形態素を符号化し、更にこの符号
    化された形態素に圧縮処理を施して、この圧縮された符
    号化形態素を記憶手段に記憶するとともに、形態素解析
    処理で抽出された形態素及び形態素符号化処理で符号化
    された形態素のうちの少なくとも一方の情報に基づいて
    インデクスを作成し、このインデクスをインデクス記憶
    手段に格納する文書情報格納装置に対して、検索質問に
    適合した情報を検索するに際して、 入力された検索質問について、形態素解析処理を施すこ
    とにより、該検索質問情報から形態素を抽出する形態素
    解析手順と、 該形態素解析手順で抽出された該形態素を符号化する符
    号化手順と、 該形態素解析手順で抽出された該形態素及び該符号化手
    順で符号化された形態素のうちの少なくとも一方の情報
    に基づいて得られるインデクスから該インデクス記憶手
    段に記憶されているインデクスの検索を行なうインデク
    ス検索手順と、 該インデクス検索手順で得られたインデクス情報に基づ
    き、該記憶手順で格納されている圧縮符号化形態素を元
    の符号化形態素データに復元する復元手順と、 該復元手順で復元された符号化形態素データを形態素に
    戻す復号化手順とを該コンピュータに実行させるための
    文書情報検索プログラムを記録した記録媒体。
JP24583797A 1997-09-10 1997-09-10 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 Expired - Fee Related JP4057681B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP24583797A JP4057681B2 (ja) 1997-09-10 1997-09-10 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体
KR1019980006876A KR100326634B1 (ko) 1997-09-10 1998-03-03 문서정보격납장치,문서정보격납방법,문서정보검색장치및문서정보검색방법
CN 98106010 CN1120438C (zh) 1997-09-10 1998-03-04 文件信息存储、处理装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24583797A JP4057681B2 (ja) 1997-09-10 1997-09-10 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JPH1185790A true JPH1185790A (ja) 1999-03-30
JP4057681B2 JP4057681B2 (ja) 2008-03-05

Family

ID=17139596

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24583797A Expired - Fee Related JP4057681B2 (ja) 1997-09-10 1997-09-10 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体

Country Status (3)

Country Link
JP (1) JP4057681B2 (ja)
KR (1) KR100326634B1 (ja)
CN (1) CN1120438C (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016134100A (ja) * 2015-01-21 2016-07-25 富士通株式会社 文書処理プログラム、情報処理装置および文書処理方法
WO2017017738A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
JP2018013863A (ja) * 2016-07-19 2018-01-25 富士通株式会社 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法
US10360183B2 (en) 2015-10-09 2019-07-23 Fujitsu Limited Encoding device, encoding method, decoding device, decoding method, and computer-readable recording medium
US11334609B2 (en) 2015-01-20 2022-05-17 Fujitsu Limited Semantic structure search device and semantic structure search method

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125908A (ja) * 1999-10-26 2001-05-11 Sony Corp 入力装置および方法
CN101853287B (zh) * 2010-05-24 2012-09-05 南京高普科技有限公司 数据压缩快速检索文件系统及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5323316A (en) * 1991-02-01 1994-06-21 Wang Laboratories, Inc. Morphological analyzer

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11334609B2 (en) 2015-01-20 2022-05-17 Fujitsu Limited Semantic structure search device and semantic structure search method
JP2016134100A (ja) * 2015-01-21 2016-07-25 富士通株式会社 文書処理プログラム、情報処理装置および文書処理方法
US11394956B2 (en) 2015-01-21 2022-07-19 Fujitsu Limited Encoding apparatus and encoding method
WO2017017738A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
JPWO2017017738A1 (ja) * 2015-07-24 2018-05-31 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
US10747946B2 (en) 2015-07-24 2020-08-18 Fujitsu Limited Non-transitory computer-readable storage medium, encoding apparatus, and encoding method
US10360183B2 (en) 2015-10-09 2019-07-23 Fujitsu Limited Encoding device, encoding method, decoding device, decoding method, and computer-readable recording medium
JP2018013863A (ja) * 2016-07-19 2018-01-25 富士通株式会社 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法
US10740562B2 (en) 2016-07-19 2020-08-11 Fujitsu Limited Search apparatus, encoding method, and search method based on morpheme position in a target document

Also Published As

Publication number Publication date
CN1211013A (zh) 1999-03-17
JP4057681B2 (ja) 2008-03-05
KR100326634B1 (ko) 2002-04-17
CN1120438C (zh) 2003-09-03
KR19990029119A (ko) 1999-04-26

Similar Documents

Publication Publication Date Title
US4862408A (en) Paradigm-based morphological text analysis for natural languages
KR101157693B1 (ko) 토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법
US6401061B1 (en) Combinatorial computational technique for transformation phrase text-phrase meaning
US5845238A (en) System and method for using a correspondence table to compress a pronunciation guide
JPS6211932A (ja) 情報検索方法
JP6680126B2 (ja) 符号化プログラム、符号化装置、符号化方法、及び検索方法
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
US20100185438A1 (en) Method of creating a dictionary
JPH1185790A (ja) 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体
JPH05324730A (ja) 文書情報検索装置
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
Awajan et al. Hybrid technique for Arabic text compression
JP3825645B2 (ja) 表現変換方法及び表現変換装置
JP3253657B2 (ja) 文書検索方法
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
KR100463376B1 (ko) 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법
JPS61248160A (ja) 文書情報登録方式
JPS63263561A (ja) 日本語文の圧縮方法
CN112800722B (zh) 基于语义理解的文字组织编码方法
Aslanyürek et al. A New Method for Short Text Compression
KR19990084950A (ko) 역화일을 이용한 데이터 부분검색 장치 및 그 방법
JPH0827803B2 (ja) テキストベース検索方法
JPS6389976A (ja) 言語解析装置
JP2780726B2 (ja) 翻訳システムの翻訳対象文の認識方法
Tran Intelligent document format: A text encoding scheme.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050301

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050330

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050404

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050520

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071214

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101221

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111221

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111221

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121221

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121221

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131221

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees