JPH07182354A - 電子文書の作成方法 - Google Patents

電子文書の作成方法

Info

Publication number
JPH07182354A
JPH07182354A JP5327420A JP32742093A JPH07182354A JP H07182354 A JPH07182354 A JP H07182354A JP 5327420 A JP5327420 A JP 5327420A JP 32742093 A JP32742093 A JP 32742093A JP H07182354 A JPH07182354 A JP H07182354A
Authority
JP
Japan
Prior art keywords
text
word
index
character
headline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP5327420A
Other languages
English (en)
Inventor
Toshihiro Kakimoto
俊博 柿元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP5327420A priority Critical patent/JPH07182354A/ja
Publication of JPH07182354A publication Critical patent/JPH07182354A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】フルテキスト検索の高速化と記憶容量の節約と
を図った電子文書を効率的に作成することを目的とす
る。 【構成】テキスト10から特定の語をインデックス20
の見出しとして抽出し、抽出した見出し31のそれぞれ
に対して出現頻度順に圧縮コード70を付与して見出し
と圧縮コードとの対応表60を作成し、対応表に基づい
て見出しとして抽出した語を圧縮コードに置き換えるこ
とによりテキスト10を圧縮し、見出し31について圧
縮後のテキスト10における出現位置を示すリンクデー
タを対応づけてインデックス20を作成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、フルテキスト検索用の
インデックスを有した電子文書の作成方法に関する。
【0002】近年、ハードディスクや光磁気ディスクな
どの大容量記憶媒体の低価格化が進み、個人レベルで大
量のテキストデータの一括管理を手軽に行うことができ
るようになった。また、各種の辞書や百科辞典などをC
D−ROMに代表される記憶媒体に納めた電子出版物が
商品化されており、パーソナルコンピュータや検索専用
装置などによるテキスト検索が日常化しつつある。
【0003】このため、検索が容易であり且つ記憶容量
の節約に適した電子文書(テキストファイル)を効率的
に作成する手法が望まれている。
【0004】
【従来の技術】テキストの中から指定されたキーワード
を含む部分(段落、文など)を抜き出す検索処理に際し
ては、予めテキスト内の語句や文字のそれぞれとそれら
の位置情報(リンクデータ)とを対応づけたインデック
スを作成しておくことにより、インデックスによらずに
テキストの先頭から順にキーワードとテキストとのマッ
チングを行う場合に比べて処理の高速化を図ることがで
きる。
【0005】従来において、インデックスとしては、品
詞情報(単語辞書)に基づいてテキストを区切った単語
のそれぞれを見出し(エントリー語)とする単語レベル
のインデックス、及びテキストの各文字(1文字単位)
を見出しとする文字レベルのインデックスなどが知られ
ている。
【0006】単語レベルのインデックスは、文字レベル
のインデックスに比べて見出し数が少なく、インデック
ス自体の小容量化の面で有利である。文字レベルのイン
デックスは、キーワードが文法上の単語に限定されない
という利点を有する。
【0007】一方、各種のデータ処理システムにおい
て、記憶媒体の有効利用及びデータ通信の効率化などを
図るために、テキストデータの圧縮が行われている。圧
縮手法の内、伸長により完全に復元可能なロスレス型の
手法としては、文字列を圧縮コードに置き換える方法
(ランレングス符号化、ハフマン符号化など)、同一文
字又は文字列の繰り返し部分を文字と繰り返し回数とで
表現する方法、及び、基本の文字列との一致部分を文字
数で表現し且つ不一致部分をその文字で表現する方法な
どが知られている。
【0008】
【発明が解決しようとする課題】ところで、インデック
スを用いてフルテキスト検索を行う場合、すなわち見出
しと完全に一致する文字列だけでなく見出しを含む任意
の文字列(一部が見出しと一致する文字列)をキーワー
ドとして有効とする場合には、通常は、インデックスの
リンクデータとして、文書単位や段落単位といった概略
の位置情報ではなく、例えば1文字単位の細かな位置情
報が設けられる。そうすることにより、キーワードとテ
キストとのマッチングを迅速化し、いわゆるクイックサ
ーチを実現することができる。
【0009】しかし、このようなフルテキスト検索用の
インデックスを作成した後に、情報の本体であるテキス
トの圧縮を行うと、圧縮の前後で語句の位置が変わるの
で、インデックスが無意味になってしまう。また、逆に
テキストを圧縮した後にインデックスの作成を行うと、
見出しを抽出するために圧縮データを伸長しなければな
らず、処理系の負担が大きくなるとともにインデックス
の作成に長時間を要する。
【0010】つまり、従来においては、フルテキスト検
索用のインデックスを有し、且つ圧縮処理を施した電子
文書の作成は困難であった。本発明は、このような問題
に鑑みてなされたもので、各種のコンピュータやワード
プロセッサなどを中心に構成されるデータ処理システム
において、インデックスの付与によるフルテキスト検索
の高速化とデータ圧縮による記憶容量の節約とを図った
電子文書を効率的に作成することを目的としている。
【0011】
【課題を解決するための手段】請求項1の発明に係る方
法は、上述の課題を解決するため、図1に示すように、
テキスト圧縮データ11とフルテキスト検索用のインデ
ックス20とから構成される電子文書1の作成方法であ
って、テキスト10から特定の語を前記インデックス2
0の見出し31として抽出し、抽出した前記見出し31
のそれぞれに対して出現頻度順に圧縮コード70を付与
して見出しと圧縮コードとの対応表60を作成するステ
ップ#3と、前記対応表60に基づいて、前記見出し3
1として抽出した語を前記圧縮コード70に置き換える
ことにより、前記テキスト圧縮データ11を作成するス
テップ#4と、前記見出し31について、前記テキスト
圧縮データ11における出現位置を示すリンクデータ3
2を対応づけて前記インデックス20を作成するステッ
プ#5とを有する。
【0012】請求項2の発明に係る方法は、前記インデ
ックス20が、前記見出し31と前記出現位置との対応
関係を示す単語インデックス30と、前記テキスト10
に含まれる文字41と前記見出し31との対応関係を示
す文字インデックス40とからなる階層構造を有するも
のである。
【0013】請求項3の発明に係る方法は、前記圧縮コ
ード70を、前記出現頻度が少なくなるにつれて段階的
に長くなる可変長データとしたものである。請求項4の
発明に係る方法は、前記単語インデックス30における
前記見出し31の配置位置を前記出現頻度順に示す伸長
用アドレスリスト50を作成するステップ#5を有する
ものである。
【0014】請求項5の発明に係る方法は、前記テキス
ト10の圧縮に際して、前記見出し31以外の文字列の
内、一定数以上の同一文字のみからなる文字列について
は、前記同一文字の識別コード76と固定長の文字数デ
ータ77とからなる繰り返し文字列圧縮コード75に置
き換えるものである。
【0015】
【作用】テキスト10の中から、文法上の単語、又は漢
字やカナなどの同一種類の文字のみからなる文字列(1
文字を含む)などの特定の語が、インデックス20の見
出し31として抽出される。
【0016】抽出された各見出し31には、その出現頻
度順に固有の圧縮コード70が付与され、これにより見
出しと圧縮コードとの対応表60が生成される。その
際、各見出し31の内、データ長が圧縮コード70より
短いものは対応表60の見出し73からは除外される。
【0017】そして、テキスト10の内の見出し31と
一致する部分(語)が圧縮コード70に置き換えられ、
テキスト10を圧縮したテキスト圧縮データ11が生成
される。つまりインデックス20の見出し31を符号化
単位とする圧縮が行われる。
【0018】その後、各見出し31について、テキスト
圧縮データ11における出現位置を示すリンクデータ3
2が対応づけられ、インデックス20が生成される。
【0019】
【実施例】図1は本発明を適用した電子文書作成の概要
を示すフローチャートである。ここでは、ハードディス
クなどの所定容量の記憶媒体に、キャラクタコード系の
統一されたテキストデータ10と、形態素解析のための
単語辞書80とが格納されているものとする。テキスト
データ10は、例えば日本語や外国語の文書情報(画像
を含む場合もある)であり、文書作成ソフトウェアによ
って作成され、又はデータ通信により入力されたレコー
ドの集合である。
【0020】まず、テキストデータ10の内の改行コー
ドなどの制御コードを識別し、1バイト(英数字など)
又は2バイト(漢字やカナなど)のキャラクタコードか
らなるテキスト(キャラクタコード列)を文毎に分割す
る前処理を行う(#1)。
【0021】続いて、文単位のテキストを単語辞書80
の品詞情報に基づいて単語に分割し、単語辞書80にお
ける未登録の文字列について、漢字とカナとの境目で区
切るというように同一文字種の語に分割する語分割処理
を行う(#2)。このとき、文字種情報のみによって分
割を行うようにすれば、処理の所要時間を短縮すること
ができるとともに、単語辞書80の省略により生じる記
憶媒体の空容量を他に活用することができる。
【0022】次に、語分割によって得られた多数の語の
内、所定の条件を満足する語を単語インデックス30の
見出し(以下、「単語見出し」という)として抽出し、
後述のように多数の単語見出しのそれぞれと圧縮コード
とを対応づける対応表60を作成する(#3)。
【0023】そして、対応表60に基づいて、テキスト
データ10の内の単語見出しと一致する部分(上述の語
分割で得られた語)を圧縮コードに置き換えることによ
り、テキストデータ10を圧縮する(#4)。つまり、
単語見出しを符号化単位とする圧縮によってテキスト圧
縮データ11を作成する。
【0024】このような圧縮と並行して、又は圧縮の終
了後に、単語インデックス30及び1文字インデックス
40からなる階層構造(図10参照)を有したフルテキ
スト検索用のインデックス20と、圧縮データを伸長す
るためのアドレスリスト50を作成する(#5)。
【0025】なお、単語インデックス30は、図7に示
すように、多数の単語見出し31(圧縮対象以外の語を
含む場合もある)と、それらのテキスト圧縮データ11
内での出現位置(格納アドレス)をバイト単位で示すリ
ンクデータ32とから構成されている。単語見出し31
は、マッチングの高速化を図るために、キャラクタコー
ド値順に配置されている。
【0026】アドレスリスト50は、対応表60におけ
る各単語見出し73について、それらの格納アドレス
(単語インデックス30を格納したメモリ空間内のアド
レス)を単語見出しの出現頻度順に並べたリストであ
り、出現頻度順の圧縮コード70とキャラクタコード値
順の単語見出し31とを対応づける役割を担う。図7の
例では、出現頻度が最も多い単語見出し31は「情報」
であり、その格納アドレスがアドレスリスト50の先頭
に格納されている。
【0027】また、1文字インデックス40は、図10
に示すように、単語見出し31から1文字単位で抽出し
た見出し(以下、「文字見出し」という)41と、文字
見出し41を含む単語見出し31の単語インデックス3
0内での位置を示すリンクデータ41とから構成されて
いる。
【0028】上述の各処理によって作成された電子文書
1、すなわちテキスト圧縮データ11とインデックス2
0とアドレスリスト50とを構成する一群のビットデー
タは、テキスト情報のデータベースとして管理される。
また、電子出版を行う場合には、CD−ROMやメモリ
カードなどに納める情報の原本として用いられる。
【0029】図2は図1の対応表の作成処理のフローチ
ャート、図3は図1のテキストの圧縮処理のフローチャ
ート、図4は圧縮コード70の構成を示す図、図5は対
応表60の構成を示す図である。
【0030】図2において、対応表60の作成に際して
は、まず、上述のように分割されたテキストの各語の
内、データ長が3バイト以上である語を単語見出し73
として重複のないように抽出する(#31)。つまり、
圧縮コード70は1バイト(8ビット)の識別部71と
可変長(1〜5バイト)の符号部72とから構成され、
その最短データ長が2バイトであるので、圧縮コード7
0への置換えが無意味である2バイト以下の語を圧縮対
象から除外する。なお、圧縮コード70の識別部71
は、テキスト圧縮データ11における圧縮部(圧縮コー
ド70)と非圧縮部(キャラクタコード)とを判別する
ために設けられている。
【0031】次に、抽出した単語見出し73を出現頻度
順に並べ、各単語見出し73に対して、圧縮率を高める
ための手法である統計的エンコード法による数値コード
を付与して対応表60を作成する(#32)。数値コー
ドは、圧縮コード70の符号部72に対応するビット列
であり、値が大きくなるにつれてバイト単位で段階的に
データ長が増大する。そして、そのデータ長は、表1の
ように先頭部のビットで示される。
【0032】
【表1】
【0033】続いて、少なくとも2文字(英数字のみの
場合は3文字)以上の文字列である単語見出し73のそ
れぞれについて、それらに対応づけられた圧縮コード7
0よりもデータ長が長いか否かをチェックする(#3
3)。
【0034】全ての単語見出し73が圧縮コード70よ
りも長い場合は、そのまま処理を終える。なお、この場
合には対応表60の単語見出し73の語及び総数は、単
語インデックス30の単語見出し31と一致することに
なる。
【0035】また、圧縮コード70より長いという条件
を満たさない単語見出し73があれば、図6(a)及び
(b)に示すように、その単語見出し73を対応表60
から削除し、それよりも出現頻度の少ない単語見出し7
3を繰り上げて対応表60を修正する(#34)。図6
の例では、圧縮コード70と同一の3バイトであること
から、出現頻度順位が129位の単語見出し73である
英字列「OFF」が削除されている。 図3において、
テキストの圧縮に際しては、通常の検索ではキーワード
として指定されることがないという理由で、予めインデ
ックスの対象外の語として定められている特定文字(例
えば句読点や括弧などの記述記号)以外の文字からなる
語について、単語見出し73であるか否かのチェック、
すなわち圧縮コード70が付与されているか否かのチェ
ックを行う(#41,#42)。そして、圧縮コード7
0が付与されている場合は、その語を圧縮コード70に
置き換えて、テキスト圧縮データ11の一部として所定
の記憶媒体に格納し、圧縮コード70が付与されていな
い場合は、その語をキャラクタコードの状態で格納する
(#43,#44)。
【0036】一方、上述の特定文字からなる語について
は、同一文字からなる3文字以上の文字列であれば、そ
れを繰り返し文字列圧縮コード75に置き換える(#4
5,#46)。繰り返し文字列圧縮コード75は、図8
に示すように、1バイトの識別部76と、同一文字の繰
り返し回数(3〜256)を示す1バイトの数値データ
77とから構成されている。数値データ77のデータ長
は固定であるので、257文字以上の文字列について
は、256文字毎に区切られて繰り返し文字列圧縮コー
ド75に置き換えられる。なお、同一文字からなる連続
した長い文字列としては、例えば記号「−」の羅列によ
る疑似罫線、及び空白などがある。
【0037】次に、電子文書1によるフルテキスト検索
について説明する。図9は電子文書1を備えた検索シス
テム100の機能上の構成を示すブロック図、図10は
フルテキスト検索の一例を示す図である。
【0038】これらの図において、検索者がキーボード
101を用いてキーワードKWを指定して検索開始を指
示すると、キー入力処理を担うキーワード入力部102
から文字見出しマッチング部103へキーワードKWが
送られる。ここでは、キーワードKWを「情報の」とい
う3文字の文字列とし、この文字列の内の「情報」とい
う語は単語見出し31として抽出されているものとす
る。
【0039】文字見出しマッチング部103は、例えば
キーワードKWを品詞分解して最も長い単語に注目し、
その単語を構成する文字を対象として1文字インデック
ス40をサーチする。このとき、文字見出し41も単語
見出し31と同様にキャラクタコード値順に配置されて
おり、迅速に検索対象文字と文字見出し41とのマッチ
ングが行われる。
【0040】図10の例では、「情」及び「報」の各文
字を順に対象としてマッチングが行われ、これらの各文
字と一致する2つの文字見出し41のリンクデータ42
における互いの共通部分、すなわち「情報」という単語
見出し31の格納位置情報が単語見出しマッチング部1
04へ送られる。
【0041】単語見出しマッチング部104は、単語イ
ンデックス30から「情報」という単語見出し31のリ
ンクデータ32を読み出し、それをテキスト伸長部10
5へ送る。なお、キーワードKWが単語見出し31と完
全に一致する場合には、単語見出しマッチング部104
は、リンクデータ32を後述のテキスト出力部107へ
送る。
【0042】テキスト伸長部105は、リンクデータ3
2に基づいてテキスト圧縮データ11の所定部分を読み
出し、アドレスリスト50を用いて圧縮コード70をキ
ャラクタコードに変換(伸長)し、「情報」とその直後
の1文字とを合わせた3文字分(キーワード相当分)の
キャラクタコードを位置情報と合わせてテキストマッチ
ング部106へ送る。例えば、図10のように「情報
は」及び「情報の」を送る。
【0043】テキストマッチング部106は、テキスト
伸長部105からのキャラクタコード列とキーワードK
Wとのマッチングを行い、その結果をテキスト出力部1
07に通知する。
【0044】テキスト出力部107は、キーワードKW
と一致する文字列がある場合には、必要に応じて圧縮コ
ードを伸長して、キーワードKWを含む所定範囲(ペー
ジ単位、段落単位、文単位など)をディスプレイ装置1
08の画面上に表示する。また、キーワードKWと一致
する文字列がない場合には、その旨を示すメッセージを
表示する。
【0045】上述の実施例によれば、1文字インデック
ス40を設けてインデックス20を階層構造としたの
で、検索に際して単語見出し31に含まれる任意の1文
字をキーワードKWとして指定することができる。ま
た、検索の高速化を図ることができる。
【0046】上述の実施例によれば、テキストを語に分
割する際に、品詞情報による分割手法と文字種情報によ
る分割手法とを併用したので、キーワードKWとして使
用される確率の高い自立語を単語見出し31として抽出
することができるとともに、単語辞書80に未登録の固
有名詞なども確実に単語見出し31として抽出すること
ができるので、単語辞書80の語彙数が少ない場合であ
っても、単語インデックス30の充実を図ることができ
る。
【0047】
【発明の効果】本発明によれば、各種のデータ処理シス
テムにおいて、インデックスの付与によるフルテキスト
検索の高速化とデータ圧縮による記憶容量の節約とを図
った電子文書を効率的に作成することができる。
【0048】請求項2の発明によれば、検索の利便性を
高めることができる。請求項3の発明によれば、データ
圧縮率を高めることができる。請求項4の発明によれ
ば、検索の高速化を図ることができる。
【図面の簡単な説明】
【図1】本発明を適用した電子文書作成の概要を示すフ
ローチャートである。
【図2】図1の対応表の作成処理のフローチャートであ
る。
【図3】図1のテキストの圧縮処理のフローチャートで
ある。
【図4】圧縮コードの構成を示す図である。
【図5】対応表の構成を示す図である。
【図6】対応表の修正の一例を示す図である。
【図7】単語インデックスとアドレスリストとの対応関
係を示す図である。
【図8】繰り返し文字列圧縮コードの構成を示す図であ
る。
【図9】本発明に係る電子文書を備えた検索システムの
機能上の構成を示すブロック図である。
【図10】図9の検索システムにおけるフルテキスト検
索の一例を示す図である。
【符号の説明】 1 電子文書 10 テキストデータ(テキスト) 11 テキスト圧縮データ 20 インデックス 31 単語見出し(見出し) 32 リンクデータ 40 1文字インデックス(文字インデックス) 41 文字見出し(文字) 50 アドレスリスト 60 対応表 70 圧縮コード 75 繰り返し文字列圧縮コード 76 識別部(識別コード) 77 数値データ(文字数データ)

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】テキスト圧縮データ(11)とフルテキス
    ト検索用のインデックス(20)とから構成される電子
    文書(1)の作成方法であって、 テキスト(10)から特定の語を前記インデックス(2
    0)の見出し(31)として抽出し、抽出した前記見出
    し(31)のそれぞれに対して出現頻度順に圧縮コード
    (70)を付与して見出しと圧縮コードとの対応表(6
    0)を作成するステップ(#3)と、 前記対応表(60)に基づいて、前記見出し(31)と
    して抽出した語を前記圧縮コード(70)に置き換える
    ことにより、前記テキスト圧縮データ(11)を作成す
    るステップ(#4)と、 前記見出し(31)について、前記テキスト圧縮データ
    (11)における出現位置を示すリンクデータ(32)
    を対応づけて前記インデックス(20)を作成するステ
    ップ(#5)とを有することを特徴とする電子文書の作
    成方法。
  2. 【請求項2】前記インデックス(20)は、前記見出し
    (31)と前記出現位置との対応関係を示す単語インデ
    ックス(30)と、前記テキスト(10)に含まれる文
    字(41)と前記見出し(31)との対応関係を示す文
    字インデックス(40)とからなる階層構造を有するこ
    とを特徴とする請求項1記載の電子文書の作成方法。
  3. 【請求項3】前記圧縮コード(70)は、前記出現頻度
    が少なくなるにつれて段階的に長くなる可変長データか
    らなることを特徴とする請求項1又は請求項2記載の電
    子文書の作成方法。
  4. 【請求項4】前記単語インデックス(30)における前
    記見出し(31)の配置位置を前記出現頻度順に示す伸
    長用アドレスリスト(50)を作成するステップ(#
    5)を設けたことを特徴とする請求項1乃至請求項3の
    いずれかに記載の電子文書の作成方法。
  5. 【請求項5】前記テキスト(10)の圧縮に際して、前
    記見出し(31)以外の文字列の内、一定数以上の同一
    文字のみからなる文字列については、前記同一文字の識
    別コード(76)と固定長の文字数データ(77)とか
    らなる繰り返し文字列圧縮コード(75)に置き換える
    ことを特徴とする請求項1乃至請求項4のいずれかに記
    載の電子文書の作成方法。
JP5327420A 1993-12-24 1993-12-24 電子文書の作成方法 Withdrawn JPH07182354A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5327420A JPH07182354A (ja) 1993-12-24 1993-12-24 電子文書の作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5327420A JPH07182354A (ja) 1993-12-24 1993-12-24 電子文書の作成方法

Publications (1)

Publication Number Publication Date
JPH07182354A true JPH07182354A (ja) 1995-07-21

Family

ID=18198970

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5327420A Withdrawn JPH07182354A (ja) 1993-12-24 1993-12-24 電子文書の作成方法

Country Status (1)

Country Link
JP (1) JPH07182354A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002335181A (ja) * 2001-05-08 2002-11-22 Unico System Kk 携帯電話機及び携帯電話機を用いた通信方法
WO2006123429A1 (ja) * 2005-05-20 2006-11-23 Fujitsu Limited 情報検索方法、装置、プログラム、該プログラムを記録した記録媒体
JP2016110587A (ja) * 2014-12-10 2016-06-20 富士通株式会社 圧縮プログラムおよび検索プログラム
US9471548B2 (en) 2012-08-10 2016-10-18 International Business Machines Corporation Text processing method, system and computer program
JP2019159699A (ja) * 2018-03-12 2019-09-19 富士通株式会社 生成プログラム、生成方法、情報処理装置および情報処理システム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002335181A (ja) * 2001-05-08 2002-11-22 Unico System Kk 携帯電話機及び携帯電話機を用いた通信方法
WO2006123429A1 (ja) * 2005-05-20 2006-11-23 Fujitsu Limited 情報検索方法、装置、プログラム、該プログラムを記録した記録媒体
WO2006123448A1 (ja) * 2005-05-20 2006-11-23 Fujitsu Limited 情報検索プログラム
US7882083B2 (en) 2005-05-20 2011-02-01 Fujitsu Limited Information retrieval apparatus, information retrieval method and computer product
US9471548B2 (en) 2012-08-10 2016-10-18 International Business Machines Corporation Text processing method, system and computer program
US9652526B2 (en) 2012-08-10 2017-05-16 International Business Machines Corporation Text processing method, system and computer program
JP2016110587A (ja) * 2014-12-10 2016-06-20 富士通株式会社 圧縮プログラムおよび検索プログラム
JP2019159699A (ja) * 2018-03-12 2019-09-19 富士通株式会社 生成プログラム、生成方法、情報処理装置および情報処理システム

Similar Documents

Publication Publication Date Title
US9619565B1 (en) Generating content snippets using a tokenspace repository
US9146967B2 (en) Multi-stage query processing system and method for use with tokenspace repository
US7031910B2 (en) Method and system for encoding and accessing linguistic frequency data
US6047298A (en) Text compression dictionary generation apparatus
US5333313A (en) Method and apparatus for compressing a dictionary database by partitioning a master dictionary database into a plurality of functional parts and applying an optimum compression technique to each part
EP0282721A2 (en) Paradigm-based morphological text analysis for natural languages
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
WO2018226221A1 (en) Context-dependent shared dictionaries
JPH07182354A (ja) 電子文書の作成方法
JP2729416B2 (ja) テキストデータの復元方法
JP4057681B2 (ja) 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体
JPH07287716A (ja) 辞書検索装置
JPH0546358A (ja) テキストデータの圧縮方法
JPH056398A (ja) 文書登録装置及び文書検索装置
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JPS63263561A (ja) 日本語文の圧縮方法
JPH0140372B2 (ja)
JPS6057421A (ja) 文書作成装置
JPS6389976A (ja) 言語解析装置
JPH0338772A (ja) 文字コードデータの圧縮方式
JPH0721212A (ja) 文書処理装置
JPS61286966A (ja) 言語処理装置
JPH07319895A (ja) 文書検索装置及び文書検索方法
JPH11191107A (ja) 文書処理方法とその装置
JPH04223556A (ja) 文字コードデータの圧縮方式

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010306