JPH0554077A - 単語辞書検索装置 - Google Patents

単語辞書検索装置

Info

Publication number
JPH0554077A
JPH0554077A JP3218769A JP21876991A JPH0554077A JP H0554077 A JPH0554077 A JP H0554077A JP 3218769 A JP3218769 A JP 3218769A JP 21876991 A JP21876991 A JP 21876991A JP H0554077 A JPH0554077 A JP H0554077A
Authority
JP
Japan
Prior art keywords
character string
word
word dictionary
characters
pointer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3218769A
Other languages
English (en)
Inventor
Shunichi Fukushima
俊一 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3218769A priority Critical patent/JPH0554077A/ja
Publication of JPH0554077A publication Critical patent/JPH0554077A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 より辞書容量を削減した単語辞書検索装置を
提供する。 【構成】 単語辞書20は非圧縮領域200と圧縮領域
201とから成る。圧縮領域201は、見出し文字列の
先頭からN文字が同一の単語群ごとに、各単語の見出し
文字列の先頭N文字を除去した残見出し文字列と属性情
報とを、データ圧縮したブロックの集まりである。非圧
縮領域200は、ブロックを指すポインタを長さNの文
字列と対応させて格納する。第1の検索回路2は、入力
文字列の先頭N文字に一致する文字列を、単語辞書非圧
縮領域200から検索し、対応するブロックへのポイン
タを得る。復元回路4は、単語辞書圧縮領域201から
ポインタの指すブロックの内容を読み出してデータ復元
する。第2の検索回路6は、入力文字列から先頭N文字
を除去した文字列に一致する残見出し文字列を、復元結
果バッファ5内から検索して、対応する属性情報を読み
出す。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力文字列に一致する
見出しをもつ単語を単語辞書から検索し、その単語に関
する属性情報を取り出す単語辞書検索装置に関するもの
である。
【0002】従来、単語辞書検索装置は、かな漢字変換
装置、機械翻訳装置、文音声変換装置、電子辞書検索装
置、文字認識装置、音声認識装置、などの一部として組
み込まれている。
【0003】
【従来の技術】図2に従来の単語辞書検索装置の構成を
示した。従来の単語辞書検索装置は、単語辞書21、入
力文字列バッファ1、検索回路8、出力バッファ7から
構成される。単語辞書21は、単語辞書見出し部210
と単語辞書属性情報部211に分かれる。例えば、かな
漢字変換装置に用いられる単語辞書検索装置の場合は、
単語辞書見出し部210には各単語の読みがなが対応
し、単語辞書属性情報部211には各単語の表記・品詞
などが対応する。機械翻訳装置に組み込まれる単語辞書
検索装置の場合は、単語辞書見出し部210には各単語
の表記が対応し、単語辞書属性情報部211には各単語
の品詞・意味素性・訳語などが対応する。検索回路8
は、入力文字列バッファ1に格納された文字列に一致す
る見出しをもつ単語を、単語辞書21から検索し、検索
された単語の属性情報を読み出して出力内容バッファ7
へ格納する。検索回路8の一般的な実現方法は、「So
rting and Searching(The A
rt of ComputerProgrammin
g:Volume 3)」(D.E.Knuth、Ad
dison−Wesley、1973)、「アルゴリズ
ムとデータ構造(岩波ソフトウェア科学:第3巻)」
(石畑、岩波書店、1989)などに記載されている。
【0004】単語辞書の語数は数万〜数十万語になるた
め、従来、単語辞書の容量を小さくする工夫が加えられ
てきた。
【0005】その工夫の1つは、まず単語を見出しが同
一なグループに分け、さらにそのグループ内で品詞が同
一なものをまとめて、というように階層化するというも
のである。この手法は、特開昭61−80449号公報
「カナ漢字変換装置」などに記載されている。
【0006】別の工夫としては、直前の見出しと共通部
分を省略し、差分のみを格納するというものがある。こ
れは見出し部分に限らず、属性情報の部分でも表記など
を収めていれば、同様な手法が適用できる。この手法
は、特開昭57−150070号公報「カナ漢字変換用
辞書」、特開昭61−80450号公報「カナ漢字変換
装置」、特開昭61−285573号公報「仮名漢字変
換装置」、特開平1−233659号公報「仮名漢字変
換用辞書」などに記載されている。
【0007】さらに、かな漢字変換用辞書の場合、属性
情報のなかの表記がひらがなやカタカナであるときに
は、見出し(読み)から機械的に表記が生成できるの
で、ひらがな/カタカナの識別さえ与えれば省略でき
る。このような工夫は、特開平2−68656号公報
「仮名漢字変換用単語辞書における見出し語圧縮方法お
よび圧縮見出し語伸張方法」などに記載されている。
【0008】また、特開昭62−9464号公報「日本
語処理装置」では、省略可能な送りがなに識別コードを
付加することで、送りがなのゆれにより単語が複数登録
されることを抑制している。
【0009】特開昭62−93746号公報「カナ漢字
変換用辞書」には、単語辞書において名詞が最も多い品
詞であることから、名詞の場合は品詞項目を省略すると
いう工夫が記載されている。
【0010】
【発明が解決しようとする課題】近年、情報処理機器は
パーソナル市場の発展などにより、ますます小型化して
きており、従来手法を組み合わせによる単語辞書容量の
削減だけでなく、より一層の容量削減手法が必要になっ
てきた。
【0011】本発明の目的は、より辞書容量を削減した
単語辞書検索装置を提供することである。
【0012】
【課題を解決するための手段】第一の発明は、入力文字
列を格納する入力文字列バッファと、見出し文字列の先
頭N文字が同一の単語群ごとに各単語の前記見出し文字
列の先頭N文字を除去した残見出し文字列と該単語の属
性情報とをデータ圧縮したブロックの集まりである単語
辞書圧縮領域と、前記ブロックを指すポインタを前記見
出し文字列の先頭N文字と対応させて格納した単語辞書
非圧縮領域と、前記入力文字列の先頭N文字に一致する
文字列を前記単語辞書非圧縮領域から検索し対応する前
記ポインタを得る第1の検索回路と、前記第1の検索回
路によって得られた前記ポインタを格納するポインタレ
ジスタと、前記単語辞書圧縮領域から前記ポインタレジ
スタに格納された前記ポインタの指す前記ブロックの内
容を読み出してデータ復元する復元回路と、前記復元回
路によってデータ復元された結果を格納する復元結果バ
ッファと、前記入力文字列から先頭N文字を除去した文
字列に一致する前記残見出し文字列を前記復元結果バッ
ファ内から検索して対応する前記属性情報を読み出す第
2の検索回路と、前記第2の検索回路の読み出した属性
情報を格納する出力内容バッファとを備えることを特徴
とする。
【0013】第二の発明は、入力文字列を格納する入力
文字列バッファと、各単語の見出し文字列の先頭N文字
を除去した残見出し文字列と該単語の属性情報とを全単
語に関する統計的性質にもとづいて定めた可変長コード
で表現した単語辞書圧縮領域と、前記可変長コードと元
来の固定長コードとの対応を示すコードテーブルと、前
記見出し文字列の先頭N文字と前記単語辞書圧縮領域に
おける該N文字を除去された前記残見出し文字列をもつ
単語群を指すポインタとを対応させて格納した単語辞書
非圧縮領域と、前記入力文字列の先頭N文字に一致する
文字列を前記単語辞書非圧縮領域から検索し対応する前
記ポインタを得る第1の検索回路と、前記第1の検索回
路によって得られた前記ポインタを格納するポインタレ
ジスタと、前記単語辞書圧縮領域から前記ポインタレジ
スタに格納された前記ポインタの指す単語群を読み出し
て前記コードテーブルにもとづいて固定長コードに変換
する復元回路と、前記復元回路によって変換された結果
を格納する復元結果バッファと、前記入力文字列から先
頭N文字を除去した文字列に一致する前記残見出し文字
列を前記復元結果バッファ内から検索して対応する前記
属性情報を読み出す第2の検索回路と、前記第2の検索
回路の読み出した属性情報を格納する出力内容バッファ
とを備えることを特徴とする。
【0014】
【実施例】図面を用いて、第一の発明の構成・作用・動
作を説明する。
【0015】図1は第一の発明の単語辞書検索装置の一
実施例の構成を示すブロック図である。
【0016】まず、単語辞書20について説明する。
【0017】単語辞書20は、単語辞書非圧縮領域20
0と単語辞書圧縮領域201とに分かれる。単語辞書2
0は、ICメモリ、磁気ディスク装置、光ディスク装置
などで実現できる。単語辞書圧縮領域200は、見出し
文字列の先頭N文字が同一の単語群ごとに、各単語の見
出し文字列の先頭N文字を除去した残見出し文字列と該
単語の属性情報とを、データ圧縮したブロックの集まり
である。単語辞書非圧縮領域201には、単語辞書圧縮
領域200のブロックを指すポインタを、見出し文字列
の先頭N文字と対応させて格納する。
【0018】図3は従来の単語辞書21の内容の例を示
す図である。この内容の例をもとにして、本発明で用い
る単語辞書20の構成を説明する。
【0019】図3において、各行が1つの単語に対応す
る。図3では9個の単語しか格納されていないが、一般
に、単語辞書には、数万〜数十万語の単語が格納され
る。図3の例では、以下の説明を簡単にするため、単語
数を少なくした。単語辞書21は、図3に示すように、
単語辞書見出し部210と単語辞書属性情報部211に
分かれる。この例は、かな漢字変換用の単語辞書を想定
したもので、単語辞書見出し部210には単語の読みが
なを格納し、単語辞書属性情報部211には単語の品詞
2110と表記2111とを格納している。この単語辞
書21内の単語は、単語辞書見出し部210の文字コー
ドの順に並べられている。
【0020】さて、図3に示した従来の単語辞書21と
本発明で用いる単語辞書20との関係を説明する。図3
において、単語辞書見出し部210を、先頭N文字21
00と残見出し文字列2101とに分ける。図3ではN
=1とした。ここで、残見出し文字列2101と単語辞
書属性情報部211とを合わせた部分を、対応する先頭
N文字2100が同一なものごとに分けたものが図4で
ある。図4では、データの内容を4ビットずつ16進値
で表現している。また、残見出し文字列2101と表記
2111に対応する文字列には、JISで定められた1
6ビットの文字コードを用い、その末尾には16ビット
のNULLコードを1個だけ付与した。図4では、対応
する先頭N文字2100が同一なものごとに、第1のデ
ータ圧縮単位212、第2のデータ圧縮単位213、第
3のデータ圧縮単位214の3つに分かれている。そし
て、各々のデータ圧縮単位に対して、レンペル・ジブ・
コーディングというデータ圧縮手法を適用した結果が図
5である。レンペル・ジブ・コーディングは、文献“D
ata Compression”(D.A.Lele
wer & D.S.Hirschberg著、ACM
Computing Surveys、第19巻第3
号)などに説明されており、よく知られたデータ圧縮手
法である。図5では、12ビットのデータごとに、1ビ
ット・4ビット・3ビット・4ビットという単位で16
進値表現している。この例では、第1のデータ圧縮単位
212の224ビットが第1のブロック2010の20
4ビットになり、第2のデータ圧縮単位212の256
ビットが第2のブロック2011の252ビットにな
り、第3のデータ圧縮単位212の432ビットが第3
のブロック2012の348ビットになり、全体で91
2ビットが804ビットにデータ圧縮されている(レン
ペル・ジブ・コーディングでは一般に、圧縮対象のデー
タ量がある程度大きくならないと良い圧縮率が得られな
いので、この単純化した例での圧縮率は実際の単語辞書
に適用した場合よりも悪いものになっている)。図5の
第1のブロック2010、第2のブロック2011、第
3のブロック2012を合わせたものが、本発明におけ
る単語辞書圧縮領域201の例である。
【0021】図6には、図5にその具体的な内容を示し
た単語辞書圧縮領域201に対応する単語辞書非圧縮領
域200の内容を示した。単語辞書非圧縮領域200
は、先頭N文字2000とブロックを指すポインタ20
01とに分かれる。この例では、ブロックを指すポイン
タ2001は、ブロック先頭位置2002とブロック長
2003との組で表現している。図6において、先頭N
文字2000のコードは16進値で表現され、ブロック
先頭位置2002とブロック長2003とは、図5の1
2ビットデータを1単位として数えた値が10進表現さ
れている。ブロックを指すポインタ2001の形式は、
図6における形式に限定されるものではない。例えば、
ブロック先頭位置2002やブロック長2003は、ビ
ット単位に数えた値をセットしてもよい。また、ブロッ
クのサイズをある一定サイズに固定して、その単位で数
えるならば、ブロック長2003は不要になる。また、
ブロック長2003はブロック先頭位置2002の差分
として得ることもできるので、そのように計算するなら
ば、ブロック長2003が不要になる代わりに、先頭N
文字2000の種類の最後に1つダミーを設ければよ
い。
【0022】以上では単語辞書20の説明を行なったの
で、以下では、図1の他の構成要素の説明を行なう。
【0023】図1において、入力文字列バッファ1は、
入力文字列を格納するバッファであり、ICメモリなど
を用いて実現できる。
【0024】第1の検索回路2は、入力文字列バッファ
1内の先頭N文字に一致する文字列を、単語辞書非圧縮
領域200から検索し、対応するポインタ(ブロックを
指すポインタ2001)を得る回路である。前述の文献
「SortingandSearching(The
Art of Computer Programmi
ng:Volume 3)」(D.E.Knuth、A
ddison−Wesley、1973)、「アルゴリ
ズムとデータ構造(岩波ソフトウェア科学:第3巻)」
(石畑、岩波書店、1989)などに記載されている方
法で実現できる。例えば、図6のような単語辞書非圧縮
領域200(N=1)に対して、「どうもう」という入
力文字列が与えられたとすると、「ど」(コードは24
49)と一致する値を、二分探索法などで単語辞書非圧
縮領域200のなかの先頭N文字2000から捜して、
それに対応するポインタの値として(17、21)をポ
インタレジスタ3へ出力する。
【0025】ポインタレジスタ3は、第1の検索回路2
によって得られたポインタを格納するレジスタであり、
ICメモリなどを用いて実現できる。
【0026】復元回路4は、単語辞書圧縮領域201か
ら、ポインタレジスタ3に格納されたポインタの指すブ
ロックの内容を読み出してデータ復元する回路である。
復元回路4の実現方法は、単語辞書圧縮領域201に用
いたデータ圧縮手法によって異なる。復元回路4では、
単語辞書圧縮領域201に用いたデータ圧縮手法に対応
するデータ復元処理を実行する。図5の例で用いたレン
ペル・ジブ・コーディングに関するデータ復元処理は、
前述の文献“Data Compression”
(D.A.Lelewer & D.S.Hirsch
berg著、ACMComputing Survey
s、第19巻第3号)などに記載されている。例えば、
ポインタレジスタ3にポインタの値として(17、2
1)が格納されていたとすると、図5の第2のブロック
2011が読み出され、データ復元されることになる。
ブロック2011をデータ復元した結果は、図4のデー
タ圧縮単位213のようになる。
【0027】復元結果バッファ5は、復元回路4によっ
てデータ復元された結果を格納するバッファであり、I
Cメモリなどを用いて実現できる。
【0028】第2の検索回路6は、入力文字列バッファ
1から先頭N文字を除去した文字列に一致する残見出し
文字列を、復元結果バッファ5内から検索して、対応す
る属性情報を読み出す回路である。例えば、復元結果バ
ッファ5にデータ復元された内容が、図4のような形式
であるならば、2j番目のNULLと(2j+1)番目
のNULLとに挟まれた文字列が残見出し文字列であ
り、それに対応する属性情報は、(2j+1)番目のN
ULLと(2j+2)番目のNULLに挟まれた部分で
ある(jは0以上の整数)。したがって、その場合、第
2の復元回路6は、jの値を0から1ずつ増やすように
して、復元結果バッファ5内の2j番目のNULLと
(2j+1)番目のNULLとに挟まれた文字列を捜し
てゆき、一致するものがあったら、(2j+1)番目の
NULLと(2j+2)番目のNULLとに挟まれた部
分の内容を、出力内容バッファ7へ書き出すようにすれ
ばよい。例えば、N=1で、入力文字列バッファ1に
「どうもう」という文字列が与えられたとすると、「う
もう」(コードは16進値で 2426 2462 2
426)に一致する残見出し文字列を、復元結果バッフ
ァ5から捜すことになる。復元結果バッファ5の内容
が、図4における第2のデータ圧縮単位213の通りだ
とすると、出力内容バッファ7へは「k獰猛」(コード
は16進値で 236B 6058 4C54)が書き
込まれる。
【0029】出力内容バッファ7は、第2の検索回路6
の読み出した属性情報を格納するバッファであり、IC
メモリなどを用いて実現できる。
【0030】以上、図面を用いて、第一の発明の構成・
作用・動作を説明した。
【0031】続いて、図面を用いて、第二の発明の構成
・作用・動作を説明する。
【0032】図7は第二の発明の単語辞書検索装置の一
実施例の構成を示すブロック図である。
【0033】まず、単語辞書22について説明する。
【0034】単語辞書22は、単語辞書非圧縮領域22
0と単語辞書圧縮領域221とに分かれる。単語辞書2
2は、ICメモリ、磁気ディスク装置、光ディスク装置
などで実現できる。単語辞書圧縮領域220は、各単語
の見出し文字列の先頭N文字を除去した残見出し文字列
と該単語の属性情報とを、全単語に関する統計的性質に
もとづいて定めた可変長コードで表現したものである。
単語辞書非圧縮領域221には、見出し文字列の先頭N
文字と、単語辞書圧縮領域220におけるその見出し文
字列の先頭N文字を除去された残見出し文字列をもつ単
語群を指すポインタとを対応させて格納する。
【0035】第一の発明の実施例の場合と同様に、図3
に示した従来の単語辞書21と本発明で用いる単語辞書
22との関係を説明する。図3において、単語辞書見出
し部210を、先頭N文字2100と残見出し文字列2
101とに分ける。図3ではN=1とした。ここで、残
見出し文字列2101と単語辞書属性情報部211とを
合わせた部分を図8に示す。これが圧縮対象部分にな
る。図8では、データの内容を4ビットずつ16進値で
表現している。また、残見出し文字列2101と表記2
111に対応する文字列には、JISで定められた16
ビットの文字コードを用い、その末尾には16ビットの
NULLコードを1個だけ付与した。
【0036】図9は、図8に示した圧縮対象部分につい
て、1バイト単位の固定長コードの出現確率を求めて、
ハフマンコード木を作成したものである。図9におい
て、点線の左側の2桁の数字が1バイトコードであり、
点線の右側の分数値がその出現確率を表わす。ハフマン
コード木は、出現確率の最も小さいものから順に2つず
つ統合してゆくことで作成されるフル二分木で、2つに
分かれる枝には0/1の1ビットが割り当てられる。そ
の0/1をハフマンコード木の根から順にたどって得ら
れるハフマンコードは、図10に示すとおりである。図
10は、点線の左側が元来の1バイトコードを示し、点
線の右側がそれに対応するハフマンコードを示してい
る。圧縮対象についての出現確率をあらかじめ求めてお
いて、それにもとづいたハフマンコード木によるコード
変換を行なう手法は、静的ハフマンコーディングと呼ば
れ、よく知られたデータ圧縮アルゴリズムである。その
アルゴリズムの詳細は、文献“Data Compre
ssion”(D.A.Lelewer & D.S.
Hirschberg著、ACM Computing
Surveys、第19巻第3号)などに記載されてい
る。
【0037】本実施例では、全単語に関する統計的性質
にもとづいて定めた固定長コードとして、上記のハフマ
ンコードを用いて、単語辞書圧縮領域221を表現す
る。図8に示した単語辞書の圧縮対象部分を、図10に
示した1バイトコードとハフマンコードとの対応関係に
したがって変換した結果が図11である。図11では、
1ビットずつ値が0か1かを表現している。図8のよう
なもともとの表現では912ビット(=114バイト)
が、図11では490ビットにデータ圧縮されている。
【0038】図11では、見出し文字列の削った先頭N
文字が同じ単語群ごとに、第1の単語群2210、第2
の単語群2211、第3の単語群2212と分けること
ができる。第1の単語群2210は先頭N文字が
「い」、第2の単語群2211先頭N文字が「ど」、第
3の単語群2212は先頭N文字が「ね」に対応してい
る。それらは、図8に示した第1の単語群215、第2
の単語群216、第3の単語群217をハフマンコード
化したものである。
【0039】図12には、図11にその具体的な内容を
示した単語辞書圧縮領域221に対応する単語辞書非圧
縮領域220の内容を示した。単語辞書非圧縮領域22
0は、先頭N文字2200と単語群を指すポインタ22
01とに分かれる。この例では、単語群を指すポインタ
2201は、単語群の先頭位置2202と単語群の長さ
2203との組で表現している。図12において、先頭
N文字2200のコードは16進値で表現され、単語群
の先頭位置2202と単語群の長さ2203とは、ビッ
ト数で数えた値が10進表現されている。単語群を指す
ポインタ2201の形式は、図12における形式に限定
されるものではない。例えば、単語群の長さ2203は
単語群の先頭位置2202の差分として得ることもでき
るので、そのように計算するならば、単語群の長さ22
03が不要になる代わりに、先頭N文字2200の種類
の最後に1つダミーを設けることになる。
【0040】以上では単語辞書22の説明を行なったの
で、以下では、図7の他の構成要素の説明を行なう。
【0041】入力文字列バッファ1、第1の検索回路
2、ポインタレジスタ3、復元結果バッファ5、第2の
検索回路6、出力内容バッファ7は、第一の発明の構成
要素と同じである。
【0042】コードテーブル30は、可変長コードと元
来の固定長コードとの対応を示すテーブルであり、IC
メモリなどを用いて実現できる。前述の単語辞書圧縮領
域221の例では、図10がコードテーブル30に該当
する。コードテーブル30の形式としては、図10のよ
うに2つのコードを1対1に対応付けたものに限らず、
図9のような木構造(あるいはtrieと呼ばれるデー
タ構造)で実現してもよい。
【0043】復元回路40は、単語辞書圧縮領域221
から、ポインタレジスタ3に格納されたポインタの指す
単語群を読み出して、コードテーブル30にもとづいて
固定長コードに変換する回路である。復元対象のデータ
の先頭から順に、コードテーブル30内の可変長コード
に一致するものを捜し、一致したものに対する固定長コ
ードへの置き換えを繰り返してゆけばよい。
【0044】例えば、図12のような単語辞書非圧縮領
域220(N=1)に対して、「どうもう」という入力
文字列が与えられたとすると、第1の検索回路2は、
「ど」(コードは2449)と一致する値を、二分探索
法などで単語辞書非圧縮領域220のなかの先頭N文字
2200から捜して、それに対応するポインタの値とし
て(97、189)をポインタレジスタ3へ出力する。
すると、復元回路40は、図11の第2の単語群221
1のビット列を読み出し、図10のコードテーブル30
にしたがって1バイトコード列に変換する。復元回路4
0による単語群2211の変換結果は、図8の第2の単
語群216のようになる。ここで、第2の検索回路6
は、入力文字列から先頭N文字(ここではN=1)を除
去した「うもう」(コードは16進値で 2426 2
462 2426)に一致する残見出し文字列を、復元
結果バッファ5から捜すことになる。復元結果バッファ
5の内容が、図8における第2の単語群216の通りだ
とすると、出力内容バッファ7へは「k獰猛」(コード
は16進値で 236B 6058 4C54)が書き
込まれる。
【0045】以上の第一の発明および第二の発明の説明
では、入力文字列の文字コード/圧縮していない段階で
の文字コード/データ復元結果の文字コードとして、J
ISで定められた16ビットコードを用いたが、本発明
では(第一の発明、第二の発明ともに)それに限定しな
い。シフトJISコード、EUCコード、ASCIIコ
ードなど一般的なコード系、さらには特殊なコード系で
も各文字が固定ビット長で表現されていればよい。ま
た、そのようなコード系のいくつかが混在したものでも
よい。
【0046】また、第一の発明の実施例では、データ圧
縮/復元手法として、レンペル・ジブ・コーディングを
用いて説明したが、第一の発明はデータ圧縮/復元手法
を限定していない。文献“Data Compress
ion”(D.A.Lelewer & D.S.Hi
rschberg著、ACM ComputingSu
rveys、第19巻第3号)などに示されているシャ
ノン・ファノ・コーディング、静的ハフマン・コーディ
ング、算術コーディング、適応型ハフマン・コーディン
グ、BSTWコーディングなど、他のデータ圧縮/復元
手法を用いてもよい。
【0047】一方、第二の発明の実施例では、可変長コ
ード化の手法として、静的ハフマンコーディングを用い
て説明したが、本発明は可変長コード系を限定していな
い。文献“Data Compression”(D.
A.Lelewer & D.S.Hirschber
g著、ACM Computing Surveys、
第19巻第3号)などに示されているシャノン・ファノ
・コーディングをはじめとする他の可変長コード化手法
を用いてもよい。
【0048】なお、第一の発明では、単語辞書を先頭N
文字ごとの細かい単位に分けて、データ圧縮を行なって
いるのに対して、第二の発明では、細かい単位に分けず
に全体でデータ圧縮を行なっている。その際に適用でき
るデータ圧縮/復元手法は、第一の発明に比べて第二の
発明の場合の方が限定される。静的ハフマンコーディン
グやシャノン・ファノ・コーディングなどは、第一の発
明・第二の発明ともに適用できるが、レンペル・ジブ・
コーディング、算術コーディング、適応型ハフマン・コ
ーディングなどは、第一の発明には適用できるが、第二
の発明には適用できない。
【0049】
【発明の効果】以上説明したように、本発明によれば、
大語彙の単語辞書でも辞書容量を抑えた単語辞書検索装
置が得られる。また、従来の単語辞書の容量削減手法と
組み合わせることも可能で、それによって、従来に比べ
てさらに辞書容量の小さい単語辞書検索装置の実現が可
能となる。
【0050】また、従来のデータ圧縮手法を、単語辞書
全体に適用したのでは、単語辞書全体をデータ復元しな
いと検索できないため、実用的な検索速度は得られな
い。それに対して、本発明では、単語辞書に設けた非圧
縮領域によって、データ復元をするブロックを小さく限
定しているため、検索速度の面でも十分実用的である。
【図面の簡単な説明】
【図1】第一の発明の実施例の構成を示す図である。
【図2】従来の単語辞書検索装置の構成を示す図であ
る。
【図3】従来の単語辞書の内容の例を示す図である。
【図4】第一の発明の実施例におけるデータ圧縮単位の
内容の例を示す図である。
【図5】第一の発明の実施例における単語辞書圧縮領域
のブロックの内容の例を示す図である。
【図6】第一の発明の実施例における単語辞書の構成を
示す図である。
【図7】第二の発明の実施例の構成を示す図である。
【図8】第二の発明の実施例における圧縮対象部分の内
容の例を示す図である。
【図9】ハフマンコード木の例を示す図である。
【図10】固定長コードとハフマンコード(可変長コー
ドの1種)との対応を示す図である。
【図11】第二の発明の実施例における単語辞書圧縮領
域の内容の例を示す図である。
【図12】第二の発明における単語辞書の構成を示す図
である。
【符号の説明】
1 入力文字列バッファ 2 第1の検索回路 3 ポインタレジスタ 4 復元回路 5 復元結果バッファ 6 第2の検索回路 7 出力内容バッファ 8 検索回路 20 単語辞書 21 単語辞書 22 単語辞書 30 コードテーブル 40 復元回路 200 単語辞書非圧縮領域 201 単語辞書圧縮領域 210 単語辞書見出し部 211 単語辞書属性情報部 212 第1のデータ圧縮単位 213 第2のデータ圧縮単位 214 第3のデータ圧縮単位 215 第1の単語群 216 第2の単語群 217 第3の単語群 220 単語辞書非圧縮領域 221 単語辞書圧縮領域 2000 先頭N文字 2001 ブロックを指すポインタ 2002 ブロック先頭位置 2003 ブロック長 2010 第1のブロック 2011 第2のブロック 2012 第3のブロック 2100 先頭N文字 2101 残見出し文字列 2110 品詞 2111 表記 2200 先頭N文字 2201 単語群を指すポインタ 2202 単語群の先頭位置 2203 単語群の長さ 2210 第1の単語群 2211 第2の単語群 2212 第3の単語群

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力文字列を格納する入力文字列バッフ
    ァと、見出し文字列の先頭N文字が同一の単語群ごとに
    各単語の前記見出し文字列の先頭N文字を除去した残見
    出し文字列と該単語の属性情報とをデータ圧縮したブロ
    ックの集まりである単語辞書圧縮領域と、前記ブロック
    を指すポインタを前記見出し文字列の先頭N文字と対応
    させて格納した単語辞書非圧縮領域と、前記入力文字列
    の先頭N文字に一致する文字列を前記単語辞書非圧縮領
    域から検索し対応する前記ポインタを得る第1の検索回
    路と、前記第1の検索回路によって得られた前記ポイン
    タを格納するポインタレジスタと、前記単語辞書圧縮領
    域から前記ポインタレジスタに格納された前記ポインタ
    の指す前記ブロックの内容を読み出してデータ復元する
    復元回路と、前記復元回路によってデータ復元された結
    果を格納する復元結果バッファと、前記入力文字列から
    先頭N文字を除去した文字列に一致する前記残見出し文
    字列を前記復元結果バッファ内から検索して対応する前
    記属性情報を読み出す第2の検索回路と、前記第2の検
    索回路の読み出した属性情報を格納する出力内容バッフ
    ァとを備えることを特徴とする単語辞書検索装置。
  2. 【請求項2】 入力文字列を格納する入力文字列バッフ
    ァと、各単語の見出し文字列の先頭N文字を除去した残
    見出し文字列と該単語の属性情報とを全単語に関する統
    計的性質にもとづいて定めた可変長コードで表現した単
    語辞書圧縮領域と、前記可変長コードと元来の固定長コ
    ードとの対応を示すコードテーブルと、前記見出し文字
    列の先頭N文字と前記単語辞書圧縮領域における該N文
    字を除去された前記残見出し文字列をもつ単語群を指す
    ポインタとを対応させて格納した単語辞書非圧縮領域
    と、前記入力文字列の先頭N文字に一致する文字列を前
    記単語辞書非圧縮領域から検索し対応する前記ポインタ
    を得る第1の検索回路と、前記第1の検索回路によって
    得られた前記ポインタを格納するポインタレジスタと、
    前記単語辞書圧縮領域から前記ポインタレジスタに格納
    された前記ポインタの指す単語群を読み出して前記コー
    ドテーブルにもとづいて固定長コードに変換する復元回
    路と、前記復元回路によって変換された結果を格納する
    復元結果バッファと、前記入力文字列から先頭N文字を
    除去した文字列に一致する前記残見出し文字列を前記復
    元結果バッファ内から検索して対応する前記属性情報を
    読み出す第2の検索回路と、前記第2の検索回路の読み
    出した属性情報を格納する出力内容バッファとを備える
    ことを特徴とする単語辞書検索装置。
JP3218769A 1991-08-29 1991-08-29 単語辞書検索装置 Pending JPH0554077A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3218769A JPH0554077A (ja) 1991-08-29 1991-08-29 単語辞書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3218769A JPH0554077A (ja) 1991-08-29 1991-08-29 単語辞書検索装置

Publications (1)

Publication Number Publication Date
JPH0554077A true JPH0554077A (ja) 1993-03-05

Family

ID=16725109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3218769A Pending JPH0554077A (ja) 1991-08-29 1991-08-29 単語辞書検索装置

Country Status (1)

Country Link
JP (1) JPH0554077A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0720107A1 (en) * 1994-12-26 1996-07-03 Sharp Kabushiki Kaisha Dictionary retrieval apparatus
US5854597A (en) * 1996-03-19 1998-12-29 Fujitsu Limited Document managing apparatus, data compressing method, and data decompressing method
US7310055B2 (en) * 2005-10-31 2007-12-18 Fujitsu Limited Data compression method and compressed data transmitting method
JP2008217596A (ja) * 2007-03-06 2008-09-18 Toshiba Corp 文書検索システム及びプログラム
WO2013136418A1 (ja) * 2012-03-12 2013-09-19 株式会社日立製作所 ログ管理計算機、及びログ管理方法
US10614035B2 (en) 2013-07-29 2020-04-07 Fujitsu Limited Information processing system, information processing method, and computer product

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60225273A (ja) * 1984-04-24 1985-11-09 Agency Of Ind Science & Technol 単語検索方式
JPS63292365A (ja) * 1987-05-26 1988-11-29 Sharp Corp 文字処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60225273A (ja) * 1984-04-24 1985-11-09 Agency Of Ind Science & Technol 単語検索方式
JPS63292365A (ja) * 1987-05-26 1988-11-29 Sharp Corp 文字処理装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0720107A1 (en) * 1994-12-26 1996-07-03 Sharp Kabushiki Kaisha Dictionary retrieval apparatus
US5761688A (en) * 1994-12-26 1998-06-02 Sharp Kabushiki Kaisha Dictionary retrieval apparatus
US5854597A (en) * 1996-03-19 1998-12-29 Fujitsu Limited Document managing apparatus, data compressing method, and data decompressing method
US7310055B2 (en) * 2005-10-31 2007-12-18 Fujitsu Limited Data compression method and compressed data transmitting method
JP2008217596A (ja) * 2007-03-06 2008-09-18 Toshiba Corp 文書検索システム及びプログラム
WO2013136418A1 (ja) * 2012-03-12 2013-09-19 株式会社日立製作所 ログ管理計算機、及びログ管理方法
US10614035B2 (en) 2013-07-29 2020-04-07 Fujitsu Limited Information processing system, information processing method, and computer product

Similar Documents

Publication Publication Date Title
US4814746A (en) Data compression method
EP0293161B1 (en) Character processing system with spelling check function
JP3152868B2 (ja) 検索装置および辞書/テキスト検索方法
US5229768A (en) Adaptive data compression system
JP3421700B2 (ja) データ圧縮装置及び復元装置並びにその方法
US20160321282A1 (en) Extracting method, information processing method, computer product, extracting apparatus, and information processing apparatus
US20020033762A1 (en) Systems and methods for multiple-file data compression
JPH05500741A (ja) 改良形データ圧縮装置
JP4003854B2 (ja) データ圧縮装置及び復元装置並びにその方法
EP0127815B1 (en) Data compression method
US8947272B2 (en) Decoding encoded data
US5815096A (en) Method for compressing sequential data into compression symbols using double-indirect indexing into a dictionary data structure
JP3241788B2 (ja) データ圧縮方式
US6834283B1 (en) Data compression/decompression apparatus using additional code and method thereof
JPH0554077A (ja) 単語辞書検索装置
JP2729416B2 (ja) テキストデータの復元方法
Anto et al. A Compression System for Unicode Files Using an Enhanced Lzw Method.
JPH0546358A (ja) テキストデータの圧縮方法
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JP2590287B2 (ja) データ圧縮方法およびデータ圧縮装置
JP3130324B2 (ja) データ圧縮方式
JPH05152971A (ja) データ圧縮・復元方法
JP2774350B2 (ja) データ圧縮方法および圧縮データのデータ復元方法
JP3384844B2 (ja) データ圧縮方法および装置並びにデータ復元方法および装置
JPH07182354A (ja) 電子文書の作成方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19980602