JPH11143877A

JPH11143877A - 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム

Info

Publication number: JPH11143877A
Application number: JP9289845A
Authority: JP
Inventors: Tomohiro Miyahira; 平知博宮; Hidekazu Tazoe; 添英一田
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-10-22
Filing date: 1997-10-22
Publication date: 1999-05-28
Also published as: US6502064B1

Abstract

(57)【要約】【課題】圧縮後も伸長処理なしに検索可能な圧縮方
法、該圧縮方法により生成された辞書の見出し語インデ
ックス、及び圧縮された見出し語インデックスに基づい
て単語を検索する方法を提供する。【解決手段】ｎ−ｇｒａｍ統計を用いて出現頻度の高
い文字数ｎ以上の文字列を求め、各ｎ文字以上の文字列
を１バイトの文字変換コードに置き換えることによって
圧縮を行なう。元の文字数ｎの文字列と文字変換コード
との対応関係は文字変換コード表に登録される。例えば
３バイトの文字列"ｓｔａ"が文字変換コード"ｅ５"とし
て登録され、４バイトの文字列"ｔｉｏｎ"が文字変換コ
ード"ｆ１"として対応表に登録されたとすると、７バイ
トの文字列からなる単語"ｓｔａｔｉｏｎ"が２バイト文
字列"ｅ５ｆ１"で表現され、５バイトだけ圧縮への寄
与がある。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータ・シ
ステムを利用して第１言語（外国語。例えば英語）から
なる原文テキストを第２言語（母国語。例えば日本語）
からなる訳文テキストに翻訳又は変換するための機械翻
訳に係り、特に、電子的に格納された辞書に基づいてコ
ンピュータ・システムが翻訳処理を行なうタイプの機械
翻訳に関する。更に詳しくは、辞書の見出し語インデッ
クス・データを圧縮するための方法、圧縮された辞書の
見出し語インデックス、及び圧縮された見出し語インデ
ックスに基づいて単語を検索する方法に関する。

【０００２】

【従来の技術】コンピュータ・システムのハードウェア
資源を用いてある言語テキストを他の言語テキストに翻
訳処理する技術、すなわち所謂「機械翻訳」（若しくは
「自動翻訳」）については、古くから研究開発がなされ
ていた。

【０００３】例えば、第２次世界大戦直後の１９４６年
に世界初の汎用コンピュータＥＮＩＡＣが完成した頃、
当時の研究者の間では「機械で翻訳を」という機運があ
った。以来、大学や研究機関において莫大な予算を投じ
た本格的な研究がなされたが、１０年以上にわたる研究
の成果はあまり芳しくはなかった。

【０００４】ところが、最近、インターネットの普及と
ともに、機械翻訳は再び脚光を浴び始め、機械翻訳ソフ
トの開発・普及が再燃している。何故ならば、Ｗｅｂペ
ージ中のテキストの多くは英語で記述されており、英語
圏以外のインターネット・ユーザにとっては解読が困難
でＷＷＷ（World Wide Web）という折角の広域情報シス
テムを充分に活用することができない、という事態が発
生したからである。汎用コンピュータの開発当初は数千
万円もした翻訳ソフトも、パーソナル・コンピュータが
普及した現在では数千円〜数万円程度で市販されるよう
になり、一般ユーザへの浸透に拍車がかかっている。機
械翻訳ソフトの中には、インターネット上のテキスト、
すなわちＷｅｂページの翻訳に特化した製品もある。そ
の一例は、日本アイ・ビー・エム（株）が市販する「翻
訳の王様（ＫｉｎｇｏｆＴｒａｎｓｌａｔｉｏ
ｎ）」である。

【０００５】機械翻訳とは、要するに、コンピュータ・
システムの処理能力を活用して、例えば英語などの外国
語テキストを日本語などの母国語テキストに翻訳する
（又はその逆方向の変換処理を行なう）技術である。機
械翻訳は、人間が有する（若しくは有すると推定され
る）言語に関する莫大な知識をモデル化してデータベー
スを構築し、処理部本体としての翻訳エンジンがこのデ
ータベースを参照することによって行なわれる。

【０００６】機械翻訳システムのデータベースの一例は
辞書である。最近の機械翻訳システムは、基本辞書とし
てのシステム辞書の他に、アート辞書、スポーツ辞書な
どジャンル別に専用の辞書を用意し、翻訳対象が属する
ジャンル等に応じて複数の辞書を使い分けることによっ
て、翻訳精度をさらに向上させるという努力がなされて
いる（例えば、本出願人に譲渡されている特願平８−２
７２７５５号（当社整理番号：ＪＡ９−９６−０７７）
の明細書参照）。１つの機械翻訳辞書は、一般には、見
出し語インデックス部分と、各見出し語の翻訳情報
（「形態素解析情報」も含む）を記述した本体部分とで
構成される。翻訳エンジンは、見出し語インデックスを
検索することによって該当する翻訳情報を取得するよう
になっている。

【０００７】機械翻訳システムすなわち機械翻訳ソフト
ウェアは、一般には、ＣＤやＦＤなどの記憶媒体に格納
された形で配布される。ＣＤ（コンパクト・ディスク）
やＦＤ（フロッピー・ディスク）を購入したエンド・ユ
ーザは、自身のコンピュータ・システムのドライブ・ユ
ニットに記録媒体を装填し、システムにプログラムをイ
ンストールすることによって利用可能となる。

【０００８】ところで、機械翻訳システムのうち、見出
し語インデックス部分は、一般に、そのままのテキスト
の形態では格納されなることはなく、圧縮又は暗号化処
理がなされている。これは、容易に読める形式のままで
は、第三者（特に競合者）に転用され、あるいは製品の
技術を判断される可能性があるからである。また、見出
し語インデックス・データに圧縮をかけることによって
サイズが小さくなり、メモリ上に常駐させることが可能
となるからである。見出し語インデックスは単語を検索
する度に頻繁にアクセスされるので、メモリ常駐による
検索速度向上への寄与は大きい。特に、複数の辞書を用
意するタイプの機械翻訳ソフトの場合、見出し語インデ
ックス・データをメモリ常駐させるためには、圧縮して
小サイズ化することが必須である。

【０００９】従来は、汎用パーソナル・コンピュータ
（ＰＣ）上で普及している"ＬＨＡ"やＵＮＩＸ上の圧縮
コマンド"ｃｏｍｐｒｅｓｓ"のような一般の圧縮アルゴ
リズムを用いて見出し語インデックス・データを圧縮す
るか、又は、圧縮せずに単に暗号化処理のみを行なって
いた。しかしながら、これらの従来技術には、以下のよ
うな欠点が伴っていた。

【００１０】まず第１に、圧縮や復元のための処理時間
を要してしまう。特に、見出し語インデックス・データ
については、圧縮されるとそのままでは検索できないの
で、一旦見出し語インデッスク・データ全体を伸長処理
してから検索するという２ステップを経るため、検索能
率を劣化させてしまう。

【００１１】また、個々の見出し語は短い文字列（せい
ぜい２〜３０バイト）なので、圧縮率がよくない。

【００１２】また、単に暗号化するだけでは、データ・
サイズを小さくすることにはならない。

【００１３】

【発明が解決しようとする課題】本発明の目的は、機械
翻訳等に用いられる辞書の見出し語インデックス・デー
タを圧縮するための方法、圧縮された辞書の見出し語イ
ンデックス、及び圧縮された見出し語インデックスに基
づいて単語を検索する方法を提供することにある。

【００１４】本発明の更なる目的は、圧縮後も伸長処理
なしに検索可能な圧縮方法、該圧縮方法により生成され
た辞書の見出し語インデックス、及び圧縮された見出し
語インデックスに基づいて単語を検索する方法を提供す
ることにある。

【００１５】

【課題を解決するための手段】本発明は、上記課題を参
酌してなされたものであり、その第１の側面は、（ａ）
複数の単語からなる圧縮対象の中で、出現頻度の高いｎ
文字以上の文字列を抽出する段階と（但し、ｎは２以上
の整数）、（ｂ）抽出された各文字列について圧縮した
ときの貢献度を計算する段階と、（ｃ）圧縮への貢献度
の高い上位文字列を所定の文字変換コード表の空き欄に
割り当てる段階と、（ｄ）前記圧縮対象中の文字列のう
ち前記文字変換コード表に登録されているものを、対応
する文字変換コードに置き換える段階と、を含むことを
特徴とする圧縮方法である。

【００１６】本発明の第１の側面に係る圧縮方法におい
て、前記圧縮対象は機械翻訳用の辞書の見出し語インデ
ックス・データであってもよい。

【００１７】また、前記貢献度を計算する段階（ｂ）で
は、文字数ｎの文字列Ｓを文字数ｋ（但し、ｎ＞ｋ）の
文字列に置き換えることによる圧縮量（ｎ−ｋ）と、前
記圧縮対象中の文字列Ｓの出現回数ｃｏｕｎｔとの積
（ｎ−ｋ）×ｃｏｕｎｔによって貢献度を表してもよ
い。

【００１８】また、前記文字変換コード表として、ＡＮ
ＳＩ（American National Standards Institute）規格
に基づくＡＳＣＩＩ（American Standard Code for Inf
ormation Interchange）コード表を用いてもよい。

【００１９】また、本発明の第２の側面は、機械翻訳で
用いられる辞書の見出し語インデックス・データを圧縮
するための方法であって、（ａ）見出し語インデックス
・データの中で、出現頻度の高いｎ文字以上の文字列を
抽出する段階と（但し、ｎは２以上の整数）、（ｂ）抽
出された各文字列について圧縮したときの貢献度を計算
する段階と、（ｃ）圧縮への貢献度の高い上位文字列を
所定の文字変換コード表の空き欄に割り当てる段階と、
（ｄ）前記見出し語インデックス・データ中の文字列の
うち前記文字変換コード表に登録されているものを、対
応する文字変換コードに置き換える段階と、を含むこと
を特徴とする辞書の見出し語インデックス・データを圧
縮するための方法である。

【００２０】本発明の第２の側面に係る圧縮方法におい
て、前記貢献度を計算する段階（ｂ）では、文字数ｎの
文字列Ｓを文字数ｋ（但し、ｎ＞ｋ）の文字列に置き換
えることによる圧縮量（ｎ−ｋ）と、前記見出し語イン
デックス・データ中の文字列Ｓの出現回数ｃｏｕｎｔと
の積（ｎ−ｋ）×ｃｏｕｎｔによって貢献度を表しても
よい。

【００２１】また、前記文字変換コード表として、ＡＮ
ＳＩ（American National Standards Institute）規格
に基づくＡＳＣＩＩ（American Standard Code for Inf
ormation Interchange）コード表を用いてもよい。

【００２２】また、本発明の第３の側面は、コンピュー
タ・システムの処理能力を活用して第１言語テキストを
第２言語テキストに翻訳する機械翻訳システムにおい
て、第２の側面に係る圧縮方法によって圧縮された見出
し語インデックス・データと、各見出し語についての翻
訳情報を記述した辞書本体とからなる辞書と、前記辞書
を参照しながら第１言語テキストを第２言語テキストに
翻訳する翻訳エンジンと、を具備することを特徴とする
機械翻訳システムである。

【００２３】本発明の第３の側面に係る機械翻訳システ
ムにおいて、前記翻訳エンジンは、第１言語テキスト中
に含まれる単語を見出し語インデックス中から検索する
ときには、まず単語中で前記文字変換コード表に登録さ
れている文字列を対応する文字変換コードに置き換えた
後に、見出し語インデックス中を検索してもよい。

【００２４】また、本発明の第４の側面は、ソフトウェ
ア・プログラムを実行するためのプロセッサと、処理中
のプログラム・コードやデータを一時格納するためのメ
モリと、外部記憶装置と、ユーザがデータ等を入力する
ための入力手段と、処理内容を表示するディスプレイと
を含むコンピュータ・システム上で稼働する機械翻訳プ
ログラムを有形的に格納したコンピュータ可読記憶媒体
であって、前記機械翻訳プログラムは、（ａ）第２の側
面に係る圧縮方法によって圧縮された見出し語インデッ
クス・データ・モジュールと、（ｂ）各見出し語につい
ての翻訳情報を記述した辞書本体モジュールと、（ｃ）
前記モジュール（ａ）及び（ｂ）からなる辞書を参照し
ながら第１言語テキストを第２言語テキストに翻訳する
翻訳エンジン・モジュールと、を含むことを特徴とする
コンピュータ可読記憶媒体である。

【００２５】本発明の第４の側面に係るコンピュータ可
読記憶媒体において、前記翻訳エンジン・モジュール
は、第１言語テキスト中に含まれる単語を見出し語イン
デックス中から検索するときには、まず単語中で前記文
字変換コード表に登録されている文字列を対応する文字
変換コードに置き換えた後に、見出し語インデックス中
を検索してもよい。

【００２６】また、本発明の第５の側面は、機械翻訳で
用いられる辞書の見出し語インデックス・データを圧縮
するための方法であって、（ａ）原見出し語インデック
ス・データを、各見出し語文字列を直近上位の見出し語
文字列との差分で表した第１の見出し語インデックス・
データに変換する段階と、（ｂ）前記段階（ａ）におい
て、直近上位の見出し語文字列との差分が大きな見出し
語文字列を、原見出し語文字列のまま前記第１の見出し
語インデックス・データ中に記述する基準見出し語文字
列として選択する段階と、（ｃ）第１の見出し語インデ
ックス・データの中で、出現頻度の高いｎ文字以上の文
字列を抽出する段階と（但し、ｎは２以上の整数）、
（ｄ）抽出された各文字列を圧縮したときの貢献度を計
算する段階と、（ｅ）圧縮への貢献度の高い上位文字列
を所定の文字変換コード表の空き欄に割り当てる段階
と、（ｆ）前記第１の見出し語インデックス・データ中
の文字列のうち前記文字変換コード表に登録されている
ものを対応する文字変換コードに置き換えて、第２の見
出し語インデックス・データを生成する段階と、を含む
ことを特徴とする辞書の見出し語インデックス・データ
を圧縮するための方法である。

【００２７】本発明の第５の側面に係る圧縮方法におい
て、前記貢献度を計算する段階（ｄ）では、文字数ｎの
文字列Ｓを文字数ｋ（但し、ｎ＞ｋ）の文字列に置き換
えることによる圧縮量（ｎ−ｋ）と、前記見出し語イン
デックス・データ中の文字列Ｓの出現回数ｃｏｕｎｔと
の積（ｎ−ｋ）×ｃｏｕｎｔによって貢献度を表しても
よい。

【００２８】また、前記文字変換コード表としてＡＮＳ
Ｉ（American National StandardsInstitute）規格に基
づくＡＳＣＩＩ（American Standard Code for Informa
tion Interchange）コード表を用いてもよい。

【００２９】また、本発明の第６の側面は、コンピュー
タ・システムの処理能力を活用して第１言語テキストを
第２言語テキストに翻訳する機械翻訳システムにおい
て、第５の側面に係る圧縮方法によって圧縮された第２
の見出し語インデックス・データと、各見出し語につい
ての翻訳情報を記述した辞書本体とからなる辞書と、前
記辞書を参照しながら第１言語テキストを第２言語テキ
ストに翻訳する翻訳エンジンと、を具備することを特徴
とする機械翻訳システムである。

【００３０】本発明の第６の側面に係る機械翻訳システ
ムにおいて、前記翻訳エンジンは、第１言語テキスト中
に含まれる単語を見出し語インデックス中から検索する
ときには、まず前記第２の見出し語インデックス中の候
補見出し語を前記文字変換コード表に従って元の見出し
語文字列に復元した後に、単語と復元された見出し語文
字列とを比較照合してもよい。

【００３１】また、本発明の第７の側面は、ソフトウェ
ア・プログラムを実行するためのプロセッサと、処理中
のプログラム・コードやデータを一時格納するためのメ
モリと、外部記憶装置と、ユーザがデータ等を入力する
ための入力手段と、処理内容を表示するディスプレイと
を含むコンピュータ・システム上で稼働する機械翻訳プ
ログラムを有形的に格納したコンピュータ可読記憶媒体
であって、前記機械翻訳プログラムは、（ａ）第５の側
面に係る圧縮方法によって圧縮された第２の見出し語イ
ンデックス・データ・モジュールと、（ｂ）各見出し語
についての翻訳情報を記述した辞書本体モジュールと、
（ｃ）前記モジュール（ａ）及び（ｂ）からなる辞書を
参照しながら第１言語テキストを第２言語テキストに翻
訳する翻訳エンジン・モジュールと、を含むことを特徴
とするコンピュータ可読記憶媒体である。

【００３２】本発明の第７の側面に係るコンピュータ可
読記憶媒体において、前記翻訳エンジン・モジュール
は、第１言語テキスト中に含まれる単語を見出し語イン
デックス中から検索するときには、まず前記第２の見出
し語インデックス中の候補見出し語を前記文字変換コー
ド表に従って元の見出し語文字列に復元した後に、単語
と復元された見出し語文字列とを比較照合してもよい。

【００３３】

【作用】自然言語処理の分野では、言語の基本的性質と
して統計的な性質があることが古くから指摘され、且つ
調査・研究がなされてきた。言語の統計的性質として最
も着目されてきたものの１つが文字の出現頻度である。
特に、インド・ヨーロッパ系の言語は２６文字という少
数のアルファベットで構成されるため、各アルファベッ
トについての使用頻度はかなり詳しく調べられている。

【００３４】また、英語の文字列の特徴を表すものとし
て、単独の文字についての出現頻度だけでなく、２文
字、３文字が隣接して生じる文字の共起関係の頻度を調
べることも併せて行なわれてきた。これを２−ｇｒａ
ｍ、３−ｇｒａｍ、一般に"ｎ−ｇｒａｍ"と呼んでい
る。出現頻度の順位は統計の対象としたテキストの種類
に影響される。２−ｇｒａｍ統計では、ｔｈ，ｈｅ，ｉ
ｎ，ａｎ，ｅｒ，ｒｅ，ｏｎなどの文字列がよく現れ
る。また、３−ｇｒａｍ統計では単語の綴りの断片と思
われる文字列が抽出される。ｎ−ｇｒａｍに拡張すれ
ば、英語の性質に依拠した高頻度の文字列が抽出される
ことが期待される。

【００３５】本発明に係る圧縮方法は、言語の統計的性
質を利用したものであり、より具体的には、ｎ−ｇｒａ
ｍ統計を用いて出現頻度の高い文字数ｎ以上の文字列を
求め、各ｎ文字以上の文字列をｎ文字未満の文字列（す
なわち１バイトの文字変換コード）に置き換えることに
よって圧縮を図る、というものである。元の文字数ｎの
文字列と文字変換コードとの対応関係は、対応表（すな
わち文字変換コード表）に登録される。

【００３６】例えば、文字数３すなわち３バイトの文字
列"ｓｔａ"が１バイトのコード"ｅ５"として登録され、
文字数４すなわち４バイトの文字列"ｔｉｏｎ"が１バイ
トのコード"ｆ１"として対応表に登録されたとすると、
文字数７すなわち７バイトの文字列からなる単語"ｓｔ
ａｔｉｏｎ"が２バイト・コード"ｅ５ｆ１"で表現さ
れるので、５バイトだけ圧縮への寄与がある。また、圧
縮後のテキスト・データ中で"ｅ５ｆ１"なる文字列を
見つけたときには、予め作成された対応表から"ｅ５"及
び"ｆ１"の各々の欄を参照することによって、容易に元
の単語"ｓｔａｔｉｏｎ"に逆変換することができる。す
なわち、圧縮したテキスト自体を伸長処理しなくても、
元の単語を検索することができる。

【００３７】本発明の第１の側面によれば、まず、複数
の単語からなる圧縮対象の中で、出現頻度の高いｎ文字
以上の文字列を抽出し（但し、ｎは２以上の整数）、こ
れら抽出された各文字列について圧縮したときの貢献度
を計算する。ここで、圧縮の貢献度は、ｎバイトの文字
列Ｓをｋバイトの文字列に置き換えることによる圧縮量
（ｎ−ｋ）と、前記圧縮対象中の文字列Ｓの出現回数ｃ
ｏｕｎｔとの積（ｎ−ｋ）×ｃｏｕｎｔによって表され
る。

【００３８】次いで、圧縮への貢献度の高い上位文字列
が所定の文字変換コード表の空き欄に割り当てられる。
例えば文字列"ｓｔａ"と"ｔｉｏｎ"がｎ−ｇｒａｍ統計
の結果圧縮への貢献度が高いと推定され、且つ、対応表
中の欄"ｅ５"及び"ｆ１"が未使用であったとすると、各
欄に文字列"ｓｔａ"と"ｔｉｏｎ"が登録される。

【００３９】さらに、前記圧縮対象中の文字列のうち前
記文字変換コード表に登録されているものは、対応する
文字変換コードに置き換えられる。例えば、圧縮対象中
の７文字の文字列"ｓｔａｔｉｏｎ"は、対応表に基づい
て、"ｅ５ｆ１"なる文字コードに圧縮されることにな
る。

【００４０】本発明の第２の側面に係る圧縮方法は、第
１の側面に係る圧縮方法を、機械翻訳で用いられる辞書
の見出し語インデックス・データの圧縮に適用した例と
言える。該側面によれば、まず、見出し語インデックス
・データの中で、出現頻度の高いｎ文字以上の文字列を
抽出し（但し、ｎは２以上の整数）、これら抽出された
各文字列について圧縮したときの貢献度を計算する。こ
こで、圧縮の貢献度は、ｎバイトの文字列Ｓをｋバイト
の文字列に置き換えることによる圧縮量（ｎ−ｋ）と、
前記圧縮対象中の文字列Ｓの出現回数ｃｏｕｎｔとの積
（ｎ−ｋ）×ｃｏｕｎｔによって表される。

【００４１】次いで、圧縮への貢献度の高い上位文字列
が所定の文字変換コード表の空き欄に割り当てられる。
ここで言う文字変換コード表として、ＡＮＳＩ（Americ
an National Standards Institute）規格に基づくＡＳ
ＣＩＩ（American Standard Code for Information Int
erchange）コード表を用いてもよい。ＡＳＣＩＩコード
表は、英数字をコードに割り当てて扱うテーブルとして
当業界において広く知られている。例えば文字列"ｓｔ
ａ"と"ｔｉｏｎ"がｎ−ｇｒａｍ統計の結果圧縮への貢
献度が高いと推定された場合には、例えばＡＳＣＩＩコ
ード表中の各空き欄"ｅ５"及び"ｆ１"にこれら文字列"
ｓｔａ"と"ｔｉｏｎ"が割り当てられるであろう。

【００４２】さらに、前記見出し語インデックス・デー
タ中の文字列のうち前記文字変換コード表に登録されて
いるものは、対応する文字変換コードに置き換えられ
る。例えば、見出し語インデックス・データ中の見出し
語"ｓｔａｔｉｏｎ"は、新しく生成されたＡＳＣＩＩコ
ード表に基づいて、"ｅ５ｆ１"なる文字列に圧縮され
ることになる。この場合、文字数７すなわち７バイトの
文字列からなる単語"ｓｔａｔｉｏｎ"が２バイトのコー
ド"ｅ５ｆ１"で表現されるので、５バイトだけ圧縮へ
の寄与がある。かかる圧縮処理を見出し語インデックス
・データ全体について施す。この結果、見出し語インデ
ックス・データを相当量だけ圧縮することができる点に
充分留意されたい。また、このようにして圧縮された見
出し語インデックス・データは、記憶容量に限りのある
メイン・メモリ中から退避（スワップ・アウト）される
ことなく常駐することが可能となるであろう。

【００４３】また、本発明の第３の側面は、第２の側面
に係る圧縮された見出し語インデックス・データを適用
した機械翻訳システムである。該機械翻訳システムは、
コンピュータ・システムの処理能力を活用して第１言語
テキストを第２言語テキストに翻訳する機械翻訳システ
ムにおいて、第２の側面に係る圧縮方法によって圧縮さ
れた見出し語インデックス・データと、各見出し語につ
いての翻訳情報を記述した辞書本体とからなる辞書と、
前記辞書を参照しながら第１言語テキストを第２言語テ
キストに翻訳する翻訳エンジンと、を具備するものであ
る。

【００４４】本発明の第３の側面に係る機械翻訳システ
ムでは、前記翻訳エンジンは、第１言語テキスト中に含
まれる単語を見出し語インデックス・データ中から検索
するときには、まず単語中で前記文字変換コード表（第
２の側面に係る圧縮方法により生成されたＡＳＣＩＩコ
ード表）に登録されている文字列を対応する文字変換コ
ードに置き換えた後に、見出し語インデックス中を検索
する。例えば第１言語テキストとしての英文中から"ｓ
ｔａｔｉｏｎ"なる単語が見いだされたときには、ま
ず、ＡＳＣＩＩコード表（但し、"ｓｔａ"と"ｔｉｏｎ"
は夫々"ｅ５"及び"ｆ１"なる文字コードが割り当てられ
ているとする）に従って、"ｅ５ｆ１"なる文字コード
に変換する。次いで、見出し語インデックス中から文字
コード"ｅ５ｆ１"を検索することによって、原文字
列"ｓｔａｔｉｏｎ"に該当する翻訳情報を取得すること
ができる。

【００４５】圧縮された見出し語インデックス・データ
は、例えば文字数７すなわち７バイトの文字列"ｓｔａ
ｔｉｏｎ"を２バイトのコード"ｅ５ｆ１"に圧縮して
保持している。しかしながら、見出し語インデックス中
から単語"ｓｔａｔｉｏｎ"を検索するためには、単語を
対応する文字コード"ｅ５ｆ１"に変換すれば足り、見
出し語インデックス・データ全体を復元処理する必要は
ない。すなわち、圧縮された見出し語インデックスの検
索のためにインデックス・データ全体を伸長処理を含ま
ないので、検索速度を低下させずに済む訳である。

【００４６】本発明の第５の側面に係る圧縮方法は、第
２の側面と同様、第１の側面に係る圧縮方法を、機械翻
訳で用いられる辞書の見出し語インデックス・データの
圧縮に適用した例と言える。但し、第５の側面では、ｎ
−ｇｒａｍ統計により見出し語インデックス・データを
圧縮する前に、直近の見出し語文字列間で差分をとるこ
とによって、さらに圧縮率を高めている点で、第２の側
面に係る圧縮方法とは相違する。

【００４７】第５の側面に係る圧縮方法では、まず、元
の見出し語インデックスを各見出し語文字列を直近上位
の見出し語文字列との差分で表した第１の見出し語イン
デックスに変換する。但し、直近上位の見出し語文字列
との差分が大きな見出し語文字列については、基準見出
し語文字列として、原見出し語文字列のまま前記第１の
見出し語インデックス中に残しておく。例えば、原見出
し語インデックス中に"ａｂａｔａｂｌｅ"、"ａｂａｔ
ｅ"、"ａｂａｔｅｍｅｎｔ"という具合に正順に並んで
いる場合には、見出し語"ａｂａｔｅ"は、直近上位の見
出し語"ａｂａｔａｂｌｅ"と一致する文字数４と差分"
ｅ"に置き換わり、また、見出し語"ａｂａｔｅｍｅｎ
ｔ"は、直近上位の見出し語"ａｂａｔｅ"と一致する文
字数５と差分"ｍｅｎｔ"に置き換わって、第１の見出し
語インデックスに書き込まれる。さらに、見出し語"ａ
ｂａｔａｂｌｅ"がその直近上位の見出し語との一致文
字数が極めて少ない場合には、基準見出し語文字列とし
て定義され、元の見出し語文字列がそのまま第１の見出
し語インデックスに残るとともに、一致文字数は０にリ
セットされる。

【００４８】次いで、第１の見出し語インデックスのう
ち差分文字列に対してｎ−ｇｒａｍ統計をとる。出現頻
度の高いｎ文字以上の文字列を抽出し（但し、ｎは２以
上の整数）、抽出された各文字列を圧縮したときの貢献
度を計算する。ここで、圧縮の貢献度は、ｎバイトの文
字列Ｓをｋバイトの文字列に置き換えることによる圧縮
量（ｎ−ｋ）と、前記圧縮対象中の文字列Ｓの出現回数
ｃｏｕｎｔとの積（ｎ−ｋ）×ｃｏｕｎｔによって表さ
れる。

【００４９】次いで、圧縮への貢献度の高い上位の文字
列が所定の文字変換コード表の空き欄に割り当てられ
る。ここで言う文字変換コード表として、ＡＮＳＩ（Am
ericanNational Standards Institute）規格に基づくＡ
ＳＣＩＩ（American StandardCode for Information In
terchange）コード表を用いてもよい。ＡＳＣＩＩコー
ド表は、英数字をコードに割り当てて扱うテーブルとし
て当業界において広く知られている。例えば文字列"ａ
ｂｌｅ"と"ｌｉｔｙ"がｎ−ｇｒａｍ統計の結果圧縮へ
の貢献度が高いと推定された場合には、ＡＳＣＩＩコー
ド表中の各空き欄"０３"及び"ａｄ"にこれら文字列"ａ
ｂｌｅ"と"ｌｉｔｙ"が割り当てられるであろう。

【００５０】さらに、第１の見出し語インデックス中の
文字列のうち前記文字変換コード表に登録されているも
のは、対応する文字変換コードに置き換えられる。例え
ば、第１の見出し語インデックスの見出し語"０６（一
致文字数）ｉｏｎ（差分文字列）"（元の見出し語は"
ａｂｊｅｃｔｉｏｎ"）は、新しく生成されたＡＳＣＩ
Ｉコード表に基づいて、"０６９９"なる見出し語に圧
縮されることになる。この場合、文字数９すなわち９バ
イトの文字列からなる単語"ａｂｊｅｃｔｉｏｎ"が２バ
イト・コード"０６９９"で表現されるので、７バイト
だけ圧縮への寄与がある。かかる圧縮処理を見出し語イ
ンデックス・データ全体について施す。このようにして
対応する文字変換コードに置き換えられた見出し語イン
デックスが第２の見出し語インデックスであり、機械翻
訳処理中においては単語の辞書検索に用いられる。

【００５１】本発明の第５の側面では、上述したよう
に、見出し語文字列間の差分文字列についてｎ−ｇｒａ
ｍ統計をとり、圧縮貢献度を比較している。差分をとる
結果として、各見出し語の末尾の文字列を効果的に取り
出すことができる。例えば、"ｉｏｎ"、"ｎｅｓｓ"、"
ｌｙ"のような、英語という言語に特有で且つ頻出され
る接尾辞が差分文字列として抽出される。したがって、
単に見出し語のｎ−ｇｒａｍ統計をとるという第２の側
面に係る圧縮方法に比し、長い文字列が圧縮貢献度ラン
キングの上位に出現する可能性が高く、さらに圧縮率を
向上させることができよう。また、このようにして圧縮
された見出し語インデックス・データは、記憶容量に限
りのあるメイン・メモリ中から退避（スワップ・アウ
ト）されることなく常駐することが可能となるであろ
う。特に、複数の辞書を用意するタイプの機械翻訳ソフ
トの場合、各見出し語インデックス・データをメモリ常
駐させるためには、圧縮して小サイズ化することは有効
である。

【００５２】また、本発明の第６の側面は、第５の側面
に係る圧縮された見出し語インデックスを適用した機械
翻訳システムである。該機械翻訳システムは、コンピュ
ータ・システムの処理能力を活用して第１言語テキスト
を第２言語テキストに翻訳する機械翻訳システムにおい
て、第２の側面に係る圧縮方法によって圧縮された見出
し語インデックス・データと、各見出し語についての翻
訳情報を記述した辞書本体とからなる辞書と、前記辞書
を参照しながら第１言語テキストを第２言語テキストに
翻訳する翻訳エンジンと、を具備するものである。

【００５３】本発明の第６の側面に係る機械翻訳システ
ムでは、前記翻訳エンジンは、第１言語テキスト中に含
まれる単語を見出し語インデックス中から検索するとき
には、まず前記第２の見出し語インデックス中の候補見
出し語を前記文字変換コード表に従って元の見出し語文
字列に復元した後に、単語と復元された見出し語文字列
とを比較照合する。

【００５４】第２の見出し語インデックス中では基準見
出し語文字列は元の見出し語文字列のまま残っている。
したがって、まず、単語に最も類似する基準文字列を第
２の見出し語インデックス中で探索する。例えば第１言
語テキストとしての英文中から"ａｂｊｅｃｔｉｏｎｉ
ｄａｎｃｅ"なる単語が見いだされたときには、第２の
見出し語インデックス中の基準見出し語"ａｂｉｄａｎ
ｃｅ"が候補文字列として取り出される。もし検索中の
単語が候補文字列と完全一致すれば辞書検索は終了す
る。他方、単語が候補文字列と一致しなければ、その候
補文字列のインデックス中の下位の見出し語について照
合処理が試行される。下位の見出し語が圧縮処理されて
いれば元の見出し語文字列に復元しなければならない。
例えば候補文字列として最初に取り出された基準見出し
語"ａｂｉｄａｎｃｅ"の次の見出し語が"０４（一致文
字数）６５（差分文字列のコード）"であれば、直近
上位の見出し語文字列"ａｂｉｄａｎｃｅ"の先頭から４
文字を取り出すとともに、ＡＳＣＩＩコード表中の欄"
６５"に割り当てられている文字列"ｅ"を取り出して、
両文字列を接続することにより、元の文字列"ａｂｉｄ
ｅ"が復元される。復元された候補文字列が検索中の単
語と一致すれば辞書検索は終了するが、一致しなければ
さらにインデックス中の下位の見出し語について復元・
照合処理が繰り返される。このように復元・照合処理を
繰り返した結果として、単語"ａｂｊｅｃｔｉｏｎ"が見
出し語インデックス中から検索され、且つこれに該当す
る翻訳情報を取得することができる。

【００５５】第２の見出し語インデックス・データは、
例えば文字数９すなわち９バイト文字列"ａｂｊｅｃｔ
ｉｏｎ"を２バイトのコード"０６９９"に圧縮して保
持している。しかしながら、見出し語インデックス中か
ら単語"ａｂｊｅｃｔｉｏｎ"を検索するために、第２の
見出し語インデックス・データ全体を復元処理する必要
はない。すなわち、圧縮された見出し語インデックスの
検索のために伸長処理を含まないので、検索速度を低下
させずに済む訳である。

【００５６】本発明の第４又は第７の側面に係るコンピ
ュータ可読記憶媒体は、コンピュータ・システム上でコ
ンピュータ・プログラムの機能を実現するための、コン
ピュータ・プログラムと記憶媒体との構造上又は機能上
の協働的関係を定義したものである。換言すれば、該コ
ンピュータ記憶媒体をコンピュータ・システムに装着す
る（若しくはコンピュータ・プログラムをコンピュータ
・システムにインストールする）ことによって、コンピ
ュータ・システム上では協働的作用が発揮され、本発明
の第３又は第６の側面に係る機械翻訳システムと同様の
作用効果を得ることができる。

【００５７】本発明のさらに他の目的、特徴や利点は、
後述する本発明の実施例や添付する図面に基づくより詳
細な説明によって明らかになるであろう。

【００５８】

【発明の実施の形態】以下、図面を参照しながら本発明
の実施例を詳解する。

【００５９】Ａ．機械翻訳を実現するハードウェア環境本発明に係る圧縮方法により圧縮された見出し語インデ
ックス・データは、機械翻訳処理に特化された専用の機
械翻訳装置、あるいは機械翻訳プログラムを実行する汎
用のパーソナル・コンピュータによっても利用に供され
る。

【００６０】図１には、本発明を実現するのに適した典
型的なパーソナル・コンピュータ（ＰＣ）１００のハー
ドウェア構成を模式的に示している。本発明を実現する
ＰＣの一例は、ＯＡＤＧ（PC Open Architecture Devel
oper's Group）仕様に準拠し、オペレーティング・シス
テム（ＯＳ）として米マイクロソフト社の"Ｗｉｎｄｏ
ｗｓ９５"又は米ＩＢＭ社の"ＯＳ／２"を搭載してい
る。以下、各部について説明する。

【００６１】メイン・コントローラであるＣＰＵ１１
は、ＯＳの制御下で、各種プログラムを実行するように
なっている。ＣＰＵ１１は、例えば米インテル社製のＣ
ＰＵチップ"Ｐｅｎｔｉｕｍ"、あるいは同社の"ＭＭＸ
テクノロジＰｅｎｔｉｕｍ"でよい。

【００６２】ＣＰＵ１１は、自身の外部ピンに直結した
プロセッサ・バス１２、ローカル・バスとしてのＰＣＩ
（Peripheral Component Interconnect）バス１６、及
び、システム・バスとしてのＩＳＡ（Industry Standar
d Architecture）バス１９という３階層のバスを介し
て、後述の各ハードウェア・ブロックと相互接続してい
る。

【００６３】プロセッサ・バス１２とＰＣＩバス１６と
は、ブリッジ回路（ホスト−ＰＣＩブリッジ）１３によ
って連絡されている。本実施例のブリッジ回路１３は、
メイン・メモリ１４へのアクセス動作を制御するための
メモリ・コントローラや、両バス１３，１６間のデータ
転送速度の差を吸収するためのデータ・バッファなどを
含んだ構成となっている。

【００６４】メイン・メモリ１４は、ＣＰＵ１１の実行
プログラムの読み込み領域として、あるいは実行プログ
ラムの処理データを書き込む作業領域として利用され
る、書き込み可能メモリである。メイン・メモリ１４
は、一般には複数個のＤＲＡＭ（ダイナミックＲＡＭ）
チップで構成され、例えば３２ＭＢが標準装備され、２
５６ＭＢまで増設可能である。なお、ここで言う実行プ
ログラムには、Ｗｉｎｄｏｗｓ９５などのＯＳ、周辺機
器類をハードウェア操作するための各種デバイス・ドラ
イバ、及び「機械翻訳プログラム」などの各種アプリケ
ーション・プログラムが含まれる。

【００６５】Ｌ２−キャッシュ１５は、ＣＰＵ１１がメ
イン・メモリ１４にアクセスする時間を吸収するための
高速動作メモリである。ＣＰＵ１１が頻繁にアクセスす
るごく限られたコードやデータがＬ２−キャッシュ１５
に一時格納される。Ｌ２−キャッシュ１５は、一般には
ＳＲＡＭ（スタティックＲＡＭ）チップで構成され、そ
の記憶容量は例えば５１２ＫＢである。

【００６６】ＰＣＩバス１６は、比較的高速なデータ転
送が可能なタイプのバス（バス幅３２／６４ビット、最
大動作周波数３３／６６ＭＨｚ、最大データ転送速度１
３２／２６４ＭＢｐｓ）であり、ビデオ・コントローラ
２０やカードバス・コントローラ２３のような比較的高
速で駆動するＰＣＩデバイス類がこれに接続される。な
お、ＰＣＩアーキテクチャは、米インテル社の提唱に端
を発したものであり、いわゆるＰｎＰ（プラグ・アンド
・プレイ）機能を実現している。

【００６７】ビデオ・コントローラ２０は、ＣＰＵ１１
からの描画命令を実際に処理するための専用コントロー
ラであり、処理した描画情報を画面バッファ（ＶＲＡ
Ｍ）２１に一旦書き込むとともに、ＶＲＡＭ２１から描
画情報を読み出してディスプレイ（液晶表示ディスプレ
イ（ＬＣＤ）又はＣＲＴ（Cathod Ray Tube）ディスプ
入れ）２２に描画データとして出力するようになってい
る。

【００６８】カードバス・コントローラ２３は、ＰＣＩ
バス１６のバス信号をＰＣカード・スロット２４Ａのイ
ンターフェース・コネクタ（カードバス）に直結させる
ための専用コントローラである。カード・スロット２４
Ａには、ＰＣＭＣＩＡ（Personal Computer Memory Car
d International Association）／ＪＥＩＤＡ（JapanEl
ectronic Industry Development Association）が策定
した仕様（例えば"ＰＣＣａｒｄＳｔａｎｄａｒｄ
９５"）に準拠したＰＣカード２４Ｂを挿入すること
ができる。ＰＣカード２４Ｂとしては、ネットワーク接
続するためのＬＡＮカードや、外部記憶装置としてのＨ
ＤＤ内蔵カード、ＳＣＳＩ（Small Computer System In
terface）機器を外部接続するためのＳＣＳＩカード等
が挙げられる。

【００６９】ＰＣＩバス１６とＩＳＡバス１８とは、ブ
リッジ回路（ＰＣＩ−ＩＳＡブリッジ）１９によって相
互接続されている。本実施例のブリッジ回路１９は、Ｄ
ＭＡコントローラや、プログラマブル割り込みコントロ
ーラ（ＰＩＣ）、及びプログラマブル・インターバル・
タイマ（ＰＩＴ）を含んだ構成となっている。ここで、
ＤＭＡコントローラは、周辺機器（例えばＦＤＤ）とメ
イン・メモリ１４間のデータ転送をＣＰＵ１１の介在な
しに実行するための専用コントローラである。また、Ｐ
ＩＣは、周辺機器からの割り込み要求（ＩＲＱ）に応答
して所定の処理プログラム（割り込みハンドラ）を実行
させるための専用コントローラである。また、ＰＩＴ
は、タイマ信号を所定周期で発生させるための装置であ
り、その発生周期はプログラマブルである。

【００７０】本実施例のブリッジ回路１９は、さらに、
ＩＤＥ（Integrated Drive Electronics）に準拠した外
部記憶装置を接続するためのＩＤＥインターフェースも
備えている。ＩＤＥインターフェースには、ＩＤＥハー
ド・ディスク・ドライブ（ＨＤＤ）２５が接続される
他、ＩＤＥＣＤ−ＲＯＭドライブ２６がＡＴＡＰＩ
（AT Attachment Packet Interface）接続される。ま
た、ＩＤＥＣＤ−ＲＯＭドライブの代わりにＤＶＤ
（Digital Versatile Disc）ドライブのような他のタイ
プのＩＤＥ機器が接続されてもよい。これら外部記憶装
置は、システム１００本体内の「メディア・ベイ」又は
「デバイス・ベイ」と呼ばれる収容場所に交換可能に格
納される。

【００７１】ＨＤＤ２５は、データ転送速度の点で他の
外部記憶装置よりも優れている。ＨＤＤ２５のディスク
上にコピーされたソフトウェア・プログラム（ＯＳやア
プリケーションなど）は、システム１００上での使用が
準備された（すなわちインストールされた）状態とな
る。また、ＣＤ−ＲＯＭドライブ２６やＤＶＤドライブ
は、夫々、ＣＤやＤＶＤなどの記憶媒体を扱う装置であ
る。インストールされるプログラムは、例えばＣＤやＤ
ＶＤの形態で配布され、システム１００に供給される。

【００７２】また、本実施例のブリッジ回路１９は、汎
用バスであるＵＳＢ（Universal Serial Bus）を接続す
るためのＵＳＢルート・コントローラを内蔵するとと
も、ＵＳＢポート２７を備えている。ＵＳＢは、電源投
入のまま周辺機器（ＵＳＢデバイス）を着脱可能にする
機能（ホット・プラギング機能）や、新たに接続された
周辺機器を自動認識してシステム構成を再設定する機能
（プラグ・アンド・プレイ機能）をサポートしている。
１つのＵＳＢポートには最大６３個のＵＳＢデバイスを
デイジー・チェーン接続することができる。ＵＳＢデバ
イスの例は、キーボードやマウス、ディスプレイ、プリ
ンタなどである（図示しない）。

【００７３】ＩＳＡバス１８は、ＰＣＩバス１９に比し
データ転送速度が低いバスであり（バス幅１６ビット、
最大データ転送速度４ＭＢｐｓ）、ＲＯＭ１７やモデム
・カード２８、リアル・タイム・クロック（ＲＴＣ）２
９、Ｉ／Ｏコントローラ３０、キーボード／マウス・コ
ントローラ３４、オーディオ・コントローラ３７のよう
な比較的低速で駆動する周辺機器類を接続するのに用い
られる。

【００７４】ＲＯＭ１７は、キーボード３５やフロッピ
ー・ディスク・ドライブ（ＦＤＤ）３１などの各ハード
ウェアの入出力操作を制御するためのコード群（ＢＩＯ
Ｓ：Basic Input/Output System）や、電源投入時の自
己診断テスト・プログラム（ＰＯＳＴ：Power On Self
Test）などを恒久的に格納するための不揮発性メモリで
ある。

【００７５】モデム・カード２８は、デジタル的なコン
ピュータ・データをアナログ的な公衆回線（ＰＳＴＮ：
Public Switched Telephone Network）経由で伝送する
ための装置である。モデム・カード２８は、送信データ
を変調したり受信データを復調したりするための信号処
理回路（モデム・チップ）や、各国語毎の回線交換規格
に応じてモデムと公衆回線を接続せしめるためのデータ
・アクセス・アレンジメント機能回路（ＤＡＡ）などの
回路コンポーネントを含んでいる。

【００７６】リアル・タイム・クロック（ＲＴＣ）２９
は、現在時刻を計測するための装置である。ＲＴＣ２９
は、一般には、ＣＭＯＳメモリ（図示しない）とともに
１チップ上に実装されている。このＣＭＯＳメモリは、
例えばシステム構成情報（ＢＩＯＳの設定値）やパワー
・オン・パスワードのような、システムのセーフティや
セキュリティに不可欠な情報を保管するために用いられ
る。ＲＴＣ／ＣＭＯＳ２９は、リザーブ・バッテリ（通
常はコイン・バッテリ：図示しない）によってバックア
ップされており、システム１００がパワー・オフの間も
計測内容や記憶内容を失わないようになっている。

【００７７】Ｉ／Ｏコントローラ３０は、フロッピー・
ディスク・ドライブ（ＦＤＤ）３１の駆動制御や、パラ
レル・ポート３２を介したパラレル・データの入出力
（ＰＩＯ）、シリアル・ポート３３を介したシリアル・
データの入出力（ＳＩＯ）を制御するための周辺コント
ローラである。例えば、パラレル・ポート３２にはプリ
ンタが、シリアル・ポートにはジョイスティックなど
が、夫々接続される。

【００７８】キーボード／マウス・コントローラ（ＫＭ
Ｃ）３４は、キーボード３５からの入力スキャン・コー
ドや、マウスなどのポインティング・デバイス３６によ
る指示座標値をコンピュータ・データとして取り込むた
めの周辺コントローラである。

【００７９】オーディオ・コントローラ３７は、オーデ
ィオ信号の入出力を行なうための専用コントローラであ
り、オーディオ信号をデジタル録音・再生するためのＣ
ＯＤＥＣ回路（Coder-DECoder：すなわちミキシング機
能を備えたＡＤ／ＤＡ変換器）を含んでいる。オーディ
オ信号の入力は、例えばマイク３９や外部オーディオ機
器（図示しない）からのライン入力により行なわれる。
また、生成されたオーディオ信号は、オーディオ・アン
プで増幅してスピーカ３８により出力されるか、ライン
出力端子経由で外部オーディオ機器（図示しない）に出
力される。

【００８０】各バス１６，１８の一端には、夫々１以上
のＰＣＩバス・スロット１６Ａ、ＩＳＡバス・スロット
１８Ａが装備されている場合もある。バス・スロット１
６Ａ及び１８Ａには、夫々、ＰＣＩ対応アダプタ・カー
ド１６Ｂ及びＩＳＡ対応アダプタ・カード１８Ｂを装着
することができる。アダプタ・カードの一例は、コンピ
ュータ１００をネットワーク接続するためのＬＡＮカー
ドであり、他の例はＨＤＤやＣＤ−ＲＯＭドライブ、プ
リンタなどの各種ＳＣＳＩ機器を外部接続するためのＳ
ＣＳＩカードである。

【００８１】パーソナル・コンピュータ１００の典型的
なユーザは、キーボード又はマウスを介してシステムを
操作して、ワープロ、表計算、通信などのような各種ア
プリケーション・プログラムを実行し、ディスプレイ・
スクリーン上で自らの業務遂行に役立てることができ
る。例えばユーザは、ＣＤ又はＦＤの形態で入手した機
械翻訳プログラムを、ＣＤ−ＲＯＭドライブ２６又はＦ
ＤＤ３１からＨＤＤ２５にコピーすることによってシス
テムにインストールすることができる。あるいは、ネッ
トワーク経由で接続された遠隔のサーバ装置（Ｗｅｂサ
ーバ）からＨＤＤ２５にファイル転送することによって
も、所望のソフトウェア・プログラムをコンピュータ・
システム１００にインストールすることができる。機械
翻訳プログラムをインストールしこれを実行するコンピ
ュータ・システム１００は、機械翻訳システムとして稼
働する。

【００８２】現在市販されているいわゆるパーソナル・
コンピュータは、図１に示したコンピュータ・システム
１００として充分機能を発揮するであろう。なお、コン
ピュータ・システム１００を構成するためには、図１に
示した以外にも多くの電気回路等が必要である。但し、
これらは当業者には周知であり、また、本発明の要旨を
構成するものではないので、本明細書中では省略してい
る。また、図面の錯綜を回避するため、図中の各ハード
ウェア・ブロック間の接続も一部しか図示していない点
を了承されたい。

【００８３】Ｂ．機械翻訳システム機械翻訳に特化された専用のハードウェアを具備した機
械翻訳システム、あるいは、機械翻訳プログラムを実行
する汎用のパーソナル・コンピュータは、概念的には図
２に示すようなシステム構成を備えている。

【００８４】図２（ａ）は、一般の機械翻訳システム２
００を模式的に示している。該システム２００は、デー
タ処理部２１０と、入力部２２０と、表示部２３０と、
出力部２４０とで構成される。データ処理部２１０は、
例えばＣＰＵ１１とメモリ１４などマザーボード上の各
コンポーネントで構成される。入力部２２０は、例えば
キーボード３５とマウス３６で構成される。表示部２３
０はディスプレイ２２と等価である。出力部２４０は、
処理結果を印刷するプリンタや、データを保管するため
のＨＤＤ２５やＦＤＤ３１などの外部記憶装置で構成さ
れる。

【００８５】データ処理部２１０は、編集部と翻訳エン
ジンと辞書とで構成される。編集部は、翻訳対象となる
テキストをＨＤＤ２５などの外部記憶装置から読み出し
たり、入力部２２０との連係により表示部２３０上でテ
キスト編集する環境を提供する。

【００８６】翻訳エンジンは、システム２００の中心部
であり、編集部から供給された第１言語（英語）の原文
テキストを、辞書を参照しながら第２言語（日本語）か
らなる訳文テキストに変換する。

【００８７】辞書は、一般に見出し語インデックス・デ
ータ部分と、各見出し語の翻訳情報を格納した部分とで
構成される。翻訳エンジンは見出し語インデックスを検
索することによって翻訳情報を取得するようになってい
る。最近の機械翻訳システムでは、基本辞書としてのシ
ステム辞書の他に、アート辞書、スポーツ辞書などジャ
ンル別に専用の辞書を用意することが主流となってい
る。

【００８８】また、図２（ｂ）には、インターネット上
のテキスト、すなわちＷｅｂページの翻訳に特化した機
械翻訳システム２００を模式的に示している。該システ
ム２００は、データ処理部２１０と、ネットワーク・サ
ブシステム２５０とで構成される。

【００８９】ネットワーク・サブシステム２５０は、例
えばコンピュータ・システム１００をインターネットに
接続せしめるための装置で構成され、具体的には、公衆
回線経由への接続を行なうモデム・カード２８や、ＬＡ
Ｎへの接続を行なうＬＡＮアダプタ・カード１６Ｂなど
がこれに該当する。前者であればサービス・プロバイダ
によるインターネットへのダイヤルアップＩＰ接続が果
たされ、後者であればルータ経由でインターネットにゲ
ートウェイ接続される。

【００９０】データ処理部２１０は、物理的にはＣＰＵ
１１とメモリ１４を含むマザーボード上の各コンポーネ
ントで構成され、論理的には、翻訳プロキシと、翻訳エ
ンジンと、ＷＷＷブラウザとの協働的動作で構成され
る。

【００９１】ＷＷＷブラウザは、所謂「インターネット
・ツアー・ガイド」として作用するコンピュータ・プロ
グラムであり、例えば米ネットスケープ社の"Netscape
Navigator"などの閲覧プログラムがこれに該当する。Ｗ
ＷＷブラウザは、ＵＲＬ（Universal Resource Locato
r）の入力などのためのユーザ・インターフェースを提
供するとともに、ＵＲＬで指定されたＷＷＷサーバから
ファイル（通常はＨＴＭＬ（HyperText Markup Lauguag
e）ファイル）を取得しその内容を解釈してディスプレ
イ２２上に表示するようになっている。

【００９２】本実施例の機械翻訳システムはプロキシ機
能を有しており、ＷＷＷブラウザからの要求に従って、
ＷＷＷサーバとの間に介在してファイル・ダウンロード
処理を行なうようになっている。翻訳プロキシは、ダウ
ンロードしたＨＴＭＬファイル中のテキスト部分を翻訳
エンジンに渡して、翻訳作業を委ねる。翻訳エンジン
は、供給された第１言語（英語）の原文テキストを、辞
書を参照しながら第２言語（日本語）からなる訳文テキ
ストに変換する。ＷＷＷブラウザは、翻訳プロキシから
翻訳結果を受け取ると、ＨＴＭＬファイルで記述された
画像ファイル（ＧＩＦファイル又はＪＰＥＧファイル）
とともにディスプレイ２２上に表示する。

【００９３】辞書は、一般に見出し語インデックス・デ
ータ部分と、各見出し語の翻訳情報を格納した部分とで
構成される。翻訳エンジンは見出し語インデックスを検
索することによって翻訳情報を取得するようになってい
る。なお、機械翻訳システム２００は、基本辞書として
のシステム辞書の他に、アート辞書、スポーツ辞書な
ど、ジャンル別に複数の辞書を用意している。

【００９４】Ｃ．辞書の見出し語インデックス・データ
の圧縮処理次いで、見出し語インデックス・データの圧縮処理につ
いて詳解する。

【００９５】［表１］には、見出し語インデックスの一
例を示してある。これは、日本アイ・ビー・エム（株）
が市販する機械翻訳ソフト「翻訳の王様」に含まれるシ
ステム辞書の見出し語インデックスの上位から一部を抜
き取ったものである。なお、以下の説明では、１文字が
１バイトで表現されることを前提とする。

【００９６】

【表１】

【００９７】圧縮された見出し語インデックス・データ
は、例えば翻訳システムとして機能するコンピュータ１
００本体のメモリ１４にロードされ、あるいはメモリ１
４上に常駐する。機械翻訳プログラムをシステム１００
が起動する度に、見出し語インデックス・データの圧縮
処理を行ない、その成果物としての圧縮見出し語インデ
ックスをメモリ１４にロードしてもよい。しかしなが
ら、毎回同じ圧縮見出し語インデックスを利用すること
を勘案すれば、機械翻訳プログラムの製造業者が予め圧
縮処理を行ない、圧縮された見出し語インデックス・デ
ータそのものを機械翻訳プログラム本体とともに記憶媒
体（例えばコンパクト・ディスク）上に格納して販売・
配布するようにしてもよい。なお、製造業者が予め見出
し語インデックス・データの圧縮処理を行なう場合であ
っても、機械翻訳プログラムのユーザが使用する汎用コ
ンピュータ・システム１００と等価なハードウェア環境
（図１参照）により圧縮処理を実現可能である。

【００９８】Ｃ−１．第１の実施例まず、見出し語インデックス・データを圧縮処理するた
めの第１の実施例について、図３〜図６を用いて説明す
る。

【００９９】ｎ−ｇｒａｍ統計処理：図３は、各見出し
語の圧縮貢献度の計算を行なう処理の手順をフローチャ
ートで示している。該処理は、見出し語インデックス・
データの圧縮処理に対する前処理として位置付けられ
る。

【０１００】ここで言う圧縮貢献度とは、文字数ｎ（す
なわちｎバイト）以上の文字列をｎ文字未満（この例で
は１バイト）の文字列で置き換えたときに見出し語イン
デックス・データに及ぼす圧縮の効果のことを意味す
る。見出し語インデックス中で出現頻度の高い文字列や
文字数の多い（すなわち多バイトの）文字列を１文字
（すなわち１バイト・コード）で置き換えれば圧縮貢献
度が高いことは容易に想到されよう。文字数ｎ（但し、
ｎ＝２，３，…）の各文字列が見出し語インデックス中
で出現する頻度は、所謂ｎ−ｇｒａｍ統計を用いて算出
される。ある文字数ｎすなわちｎバイトの文字列を１バ
イト・コードに置き換えたときの圧縮貢献度は、見出し
語インデックス中の出現回数ｃｏｕｎｔとバイト数の減
分（ｎ−１）を掛け合わせることによって求まる。以
下、フローチャートの各ステップについて詳解する。

【０１０１】「未処理の見出し語があるか」という条件
文（ステップＳ１００）で形成される第１のＩＦループ
によって、見出し語インデックス全体についてのｎ−ｇ
ｒａｍ統計が調査される。

【０１０２】第１のＩＦループ内では、まず、元の見出
し語インデックス中から残余の先頭の見出し語を読み出
して、これを変数ＲＥＳＴに代入する（ステップＳ１０
２）。次いで、Ｎに数値２を代入して（ステップＳ１０
４）、２−ｇｒａｍ統計から処理を開始する。

【０１０３】「ＮがＲＥＳＴの文字列長以下か」という
条件文（ステップＳ１０６）で形成される第２のＩＦル
ープ内では、文字列ＲＥＳＴについてのｎ−ｇｒａｍ統
計処理が実行される（ステップＳ１０８。詳細は後
述）。Ｎ＝２についてのｎ−ｇｒａｍ統計、すなわち２
−ｇｒａｍ統計処理が終了すると、次いで、Ｎを１だけ
増分して（ステップＳ１１０）、同様のＩＦループ処理
（すなわち（Ｎ＋１）−ｇｒａｍ統計処理）を繰り返
す。

【０１０４】他方、ＮがＲＥＳＴの文字列長を越えたこ
とは文字列ＲＥＳＴについてのｎ−ｇｒａｍ統計処理が
終了したことを意味するので、判断ブロックＳ１０６の
分岐"Ｎｏ"より第２のＩＦループから抜け出し、ステッ
プＳ１００に復帰する。

【０１０５】ステップＳ１００に戻ると、再度、見出し
語インデックス中の次の見出し語の取得が試みられる。
もし、見出し語インデックス中の全ての見出し語につい
てｎ−ｇｒａｍ統計処理が終了していれば、判断ブロッ
クＳ１００の分岐"Ｎｏ"より、第１のＩＦループを抜け
出す。第１のＩＦループの終了は、ｎ−ｇｒａｍ統計デ
ータの収集完了を意味する。この時点では暫定的なｎ−
ｇｒａｍ統計テーブルが生成されている。

【０１０６】［表２］には、暫定的なｎ−ｇｒａｍ統計
テーブルの一例を示してある。これは、日本アイ・ビー
・エム（株）が市販する機械翻訳ソフト「翻訳の王様」
に含まれるシステム辞書の見出し語インデックス・デー
タに対して、図３中の第１のＩＦループ終了時における
統計処理の結果である。この統計テーブルの各エントリ
は、抽出された文字数ｎすなわちｎバイトの各文字列
と、その文字列の見出し語インデックス中の出現回数を
格納するフィールドを有している。例えば、［表２］の
第２５番目のエントリは、文字列"ｅｓｓ"が見出し語イ
ンデックス中で出現する回数が４３２１回であることを
示している。

【０１０７】

【表２】

【０１０８】次いで、統計データ中の文字数ｎすなわち
ｎバイトの各文字列を１バイト・コードに置き換えたと
きの圧縮貢献度を計算し（ステップＳ１２０）、さら
に、圧縮貢献度が高い順に統計テーブルのエントリをソ
ートする（ステップＳ１２２）。圧縮貢献度は、上述し
たように、出現回数ｃｏｕｎｔとバイト数の減分（ｎ−
１）との掛け算で表される。

【０１０９】さらに、ステップＳ１２４では、統計の重
複を除去する。ここで言う統計の重複とは、例えば長い
文字列"ＡＢＣＤ"については、これに含まれる短い文字
列"ＡＢＣ"、"ＢＣＤ"、"ＡＢ"、"ＢＣ"、及び"ＣＤ"
は"ＡＢＣＤ"の出現回数を重複してカウントしているこ
とを言う。長い文字列の方が圧縮貢献度が高いので、長
い文字列を統計テーブルに残すべきである。このため、
短い文字列"ＡＢＣ"、"ＢＣＤ"、"ＡＢ"、"ＢＣ"、及
び"ＣＤ"の各エントリの出現回数から文字列"ＡＢＣＤ"
の出現回数を減算する必要がある。例えば、第１のＩＦ
ループを終了した当初の統計テーブルで"ａｔｉｏｎ"及
び"ｔｉｏｎ"の出現回数が夫々１６２２と２３９８であ
ったならば、"ｔｉｏｎ"の出現回数２３９８のうち"ａ
ｃｔｉｏｎ"によってダブル・カウントされた１６２２
を引いた値７７６（＝２３９８−１６２２）が真の出現
回数ということになる。

【０１１０】ステップＳ１２４で統計の重複を除去した
後の統計テーブルのエントリを再び圧縮貢献度の高い順
に再ソートする（ステップＳ１２６）。

【０１１１】［表３］には、圧縮貢献度に従ってソート
した統計テーブルを示している。これは、「翻訳の王
様」に含まれるシステム辞書の見出し語インデックス・
データ（前述）に対して処理を施した結果である。

【０１１２】

【表３】

【０１１３】［表３］によれば、第１のエントリである
文字列"ｎｅｓｓ"の圧縮貢献度９３１５が最も高く、次
いで、文字列"ａｔｉｏｎ"の貢献度６４８８が高いこと
が判る。

【０１１４】図４には、ステップＳ１０８におけるｎ−
ｇｒａｍ統計処理ルーチンを詳細に図解している。以
下、各ステップについて説明する。

【０１１５】まず、ステップＳ２００では、処理中（す
なわち変数ＲＥＳＴに代入された）の見出し語の文字列
長を変数ＬＥＮに代入する。次いで、ステップＳ２０２
では、ＮがＬＥＮ以下かどうかを判断する。Ｎが既にＬ
ＥＮを越えていればｎ−ｇｒａｍ統計をとる必要がない
ので（例えば文字数（Ｎ−１）の文字列についてのＮ−
ｇｒａｍ統計はない）、判断ブロックＳ２０２の分岐Ｎ
ｏより抜けて該処理ルーチンを終了する。他方、ＮがＬ
ＥＮ以下であれば分岐Ｙｅｓに進んで、後続のステップ
を実行する。

【０１１６】ステップＳ２０４では変数Ｊに１を代入す
る。この変数Ｊは、文字列ＲＥＳＴのＪ文字目以降の部
分文字列を指定するための変数である。

【０１１７】「ＪがＬＥＮ−Ｎ＋１以下か」という条件
文（Ｓ２０６）で形成されるＩＦループでは、処理中の
文字列ＲＥＳＴのＪ文字目以降の部分文字列に含まれる
文字数Ｎの文字列についてのｎ−ｇｒａｍ統計がとられ
る。ＪがＬＥＮ−Ｎ＋１を既に越えているときには、文
字列ＲＥＳＴのＪ文字目以降にはＮ文字以上の文字列が
残っていないことを意味するので、判断ブロックＳ２０
６の分岐Ｎｏより抜けて、該処理ルーチンを終了する。
他方、ＪがＬＥＮ−Ｎ＋１以下であれば後続のステップ
を実行する。

【０１１８】ステップＳ２０８では、文字列ＲＥＳＴの
Ｊ文字目から始まる文字数Ｎの文字列が既に統計テーブ
ル上に存在するかどうかを判断する。例えばＲＥＳＴ
＝"ＡＢＣＤ"、Ｊ＝２、Ｎ＝２であれば、文字列ＡＢＣ
Ｄの２文字目からの２文字の文字列ＢＣが統計テーブル
上に存在するかどうかが判断される。統計テーブル上に
該当するエントリが既にあれば、該エントリの出現回数
ｃｏｕｎｔを１だけ増分する（ステップＳ２１０）。逆
に、該当するエントリが統計テーブル中から見つからな
ければ、新たなエントリを追加するとともに、その出現
回数ｃｏｕｎｔを１にする（ステップＳ２１２）。

【０１１９】このようにして文字列ＲＥＳＴのＪ文字目
から始まる文字数Ｎの文字列についてＮ−ｇｒａｍ統計
をとった後、Ｊを１だけ増分して（ステップＳ２１
４）、ステップＳ２０６に復帰して、（Ｊ＋１）文字列
目から始まる文字数Ｎの文字列についてのＮ−ｇｒａｍ
統計処理を繰り返し行なう。

【０１２０】文字変換コード表の作成：図３及び図４に
示す処理ルーチンによって圧縮貢献度の高い順にエント
リを整列させた統計テーブルを作成した後には、次に、
文字列をコードに置き換えるための文字コード変換テー
ブルを作成する。本発明を具現するために、文字をコー
ドに変換するためのテーブルを全く新しくデザインして
もよい。しかしながら、本実施例では、英数字をコード
に割り当てて扱うテーブルとして当業界で広く知られ且
つ広範に利用されているＡＳＣＩＩ（American Standar
d Code for Information Interchange）コード表を用
い、このコード表の未使用欄を圧縮貢献度の高い文字列
に新たに割り当てるようにしている。ＡＳＣＩＩコード
表を用いる利点は、ａ，ｂ，ｃ…や０，１，２…のよう
な一般の英数字については既存のコードをそのまま使用
できる点にある。なお、ＡＳＣＩＩコード表はＡＮＳＩ
（American National Standards Institute）規格に基
づくものである。

【０１２１】図５には、ｎ−ｇｒａｍ統計処理に基づく
圧縮貢献度に従って新しい文字変換コード表を作成する
ための処理ルーチンをフローチャートにして示してい
る。以下、各ステップについて説明する。

【０１２２】まず、統計テーブルの上位から、文字変換
コード表の未使用領域の個数分だけ、文字列を取ってく
る（Ｓ３００）。文字変換コード表がＡＳＣＩＩコード
表であれば、未使用欄が１８５個あるので（但し、英大
文字を使用しない場合）、統計テーブルの上位１８５個
までのエントリを取得すればよい。

【０１２３】次いで、取得した文字列をアルファベット
順にソートする（ステップＳ３０２）。そして、文字変
換コード表の未使用領域の先頭から順に、ソートした文
字列を１つずつ割り当てる（ステップＳ３０４）。アル
ファベット順に割り当てるのは、後の辞書検索の便宜を
図るためである（後述）。

【０１２４】［表４］には、図５に示す処理ルーチンに
より作成された文字変換コード表を示している。該テー
ブルはＡＳＣＩＩコード表を基にしており、ａ，ｂ，ｃ
…や０，１，２…のような一般の英数字については既存
のコードがそのまま割り当てられている（表４中ではＡ
ＳＣＩＩコード表に既存の欄は枠付けして表示してい
る）。他方、例えばＡＳＣＩＩコード表の未使用欄０ｘ
０１には圧縮貢献度の高い文字列"ａｂ"が、同テーブル
の他の未使用欄０ｘｃ９には文字列"ｏｔ"が、夫々割り
当てられている。

【０１２５】

【表４】

【０１２６】なお、［表４］は、「翻訳の王様」に含ま
れるシステム辞書の見出し語インデックス（前述）に対
して処理を施した結果である。

【０１２７】辞書見出し語インデックスの作成：新しい
文字変換コード表が作成されると、次いで、この文字変
換コード表を用いて辞書見出し語インデックスを新たに
作成する。［表４］に示す文字変換コード表は、文字数
ｎすなわちｎバイト（但し、ｎは２以上の整数）の文字
列を１バイトのコードに置き換える作用を有している
（前述）。見出し語中で圧縮貢献度の高いｎバイトの文
字列は、文字変換コード表に従って１バイト・コードに
置き換えられるので、新たな見出し語インデックスの作
成により（ｎ−１）バイトの圧縮効果があげられる。

【０１２８】図６には、辞書見出し語インデックスを作
成（すなわち圧縮）するための処理ルーチンをフローチ
ャートで示している。以下、各ステップについて説明す
る。

【０１２９】「未処理の見出し語があるか」という条件
文（ステップＳ４００）で形成される第１のＩＦループ
によって、見出し語インデックス全体についての圧縮処
理が実行される。

【０１３０】第１のＩＦループ内では、まず、元の見出
し語インデックスの中から残余の先頭の見出し語を取得
し、変数ＳＴＲに代入する（ステップＳ４０２）。ま
た、変数Ｉ及びＪには夫々初期値１を代入するととも
に、変数ＬＥＮには文字列ＳＴＲの文字列長を代入する
（ステップＳ４０４）。変数Ｉは元の文字列ＳＴＲのＩ
文字目を指定するために用いられ、変数Ｊは新しい文字
列ＮＥＷのＪ文字目を指定するために用いられる。

【０１３１】「ＩがＬＥＮ以下か」という条件文（ステ
ップＳ４０６）で形成される第２のＩＦループ内では、
文字列ＳＴＲについての圧縮処理が実行される。この圧
縮処理は、文字列ＳＴＲ中の各部分文字列を文字変換コ
ード表のコードで置き換えることによって行なわれる。

【０１３２】まず、文字列ＳＴＲのＩ文字目以降の部分
文字列を、［表４］で示した文字変換コード表中の各文
字列と比較照合する（ステップＳ４０８）。この比較照
合は、文字変換コード表の最後尾より逆順に行なわれ
る。文字変換コード表には、アルファベット順に文字列
が割り当てられているので（［表４］参照）、テーブル
を逆順に検索することにより、より文字数の多い文字列
と先に照合させることができる。例えば文字列ＳＴＲの
Ｉ文字以降に"ｌｉｔｙ"という部分文字列が存在する場
合、［表４］中で一致する候補としては"ｌｉｔ"と"ｌ
ｉｔｙ"の２つが挙げられるが、アルファベット順の遅
い（すなわち文字数が長い）"ｌｉｔｙ"と先に照合する
ことができる。

【０１３３】文字列ＳＴＲのＩ文字目以降の部分文字列
と一致する文字列がコード表中にあれば、新しい文字列
ＮＥＷのＪ文字目にこの一致する文字列を代入して（ス
テップＳ４１０）、Ｉをこの一致する文字列の文字数分
だけ増分する（ステップＳ４１２）。例えば、ＳＴＲ
［Ｉ］以降が４バイトの文字列"ｎｅｓｓ"を含んでいれ
ば、その部分文字列は、文字変換コード表に従って"ｂ
９"という１バイト文字に置き換わることになる。ま
た、このときはＩは４だけ増分される。

【０１３４】他方、文字列ＳＴＲのＩ文字目以降の部分
文字列と一致する文字列がコード表中に存在しなけれ
ば、新しい文字列ＮＥＷのＪ文字目に元の文字列ＳＴＲ
のＩ文字目を代入して（ステップＳ４１４）、Ｉを１だ
け増分する（ステップＳ４１６）。

【０１３５】このようにして新しいＮＥＷのＪ文字目に
該当する文字列又は元の１文字を代入した後、Ｊを１だ
け増分して（ステップＳ４１８）、ステップＳ４０６に
復帰して同様のＩＦループ処理を繰り返す。Ｉが文字列
長ＬＥＮを越えたことは、元の文字列ＳＴＲが新しい文
字列ＮＥＷに変換する処理が終了したことを意味するの
で、判断ブロックＳ４０６の分岐Ｎｏより第２のＩＦル
ープを抜け出して、見出し語インデックス中の元のエン
トリＳＴＲを変換されたコードＮＥＷに置き換えてから
（ステップＳ４２０）、ステップＳ４００に復帰する。

【０１３６】ステップＳ４００では、未処理の見出し語
が見出し語インデックス中の残っているかどうかが判断
される。未だ残っていれば、残余の見出し語について上
述と同様の処理が繰り返し行なわれる。他方、未処理の
見出し語がなければ、見出し語インデックス全体につい
て処理が終了したことを意味する。このときは、判断ブ
ロックＳ４００の分岐Ｎｏより抜けて、該処理ルーチン
を終了する。

【０１３７】［表５］には、新たに生成された見出し語
インデックスの一部を元の見出し語と対比させて例示し
ている。但し、新見出し語インデックスは、１バイトを
１６進表現している。

【０１３８】

【表５】

【０１３９】［表５］によれば、例えば"ａ−ｂｏｍｂ"
という見出し語は、"６１２ｄ１９６ｄ６２"とい
う５バイトのコードに圧縮されていることが判る。"ａ
ｂａｎｄｏｎ"という文字数７すなわち７バイトの見出
し語は"０１０ｃｃ３"という３バイトのコードに置
き換わっているので、４バイト分の圧縮効果がある。ま
た、"ａｂｌｅ"という文字数４すなわち４バイトの見出
し語は"０２"という１バイトのコードに置き換わってい
るので、３バイト分の圧縮効果がある。

【０１４０】本実施例に係る圧縮手法を「翻訳の王様」
のシステム辞書の見出し語インデックスに適用した場
合、６２５Ｋバイトからなる元の見出し語インデックス
を３８８Ｋバイトに圧縮できたという実験結果もある。
サイズの小さい見出し語インデックス・データは、コン
ピュータ・システム１００のメイン・メモリ１４上から
退避（スワップ・アウト）することなく常駐することが
可能となる。メモリ常駐データへのアクセスが高速であ
るという性質により、辞書検索速度が向上するという効
果が招来される。特に、複数の辞書を用意するタイプの
機械翻訳システムの場合、各見出し語インデックス・デ
ータをメモリ常駐させるためには、圧縮して小サイズ化
することは有効である。

【０１４１】Ｃ−２．第２の実施例次いで、見出し語インデックス・データを圧縮処理する
ための第２の実施例について、図７〜図１１を用いて説
明する。第２の実施例は、ｎ−ｇｒａｍ統計に基づく圧
縮処理を行なう前に、予め直近の見出し語文字列同士で
差分をとっておく点で第１の実施例とは相違する。

【０１４２】見出し語インデックス・データの差分処
理：図７には、予め直近の見出し語文字列同士で差分をとっ
ておく処理ルーチンをフローチャートで示している。以
下、各ステップについて説明する。

【０１４３】まず、直前文字列ＰＲＥＶとして空の文字
を代入する（ステップＳ５００）。

【０１４４】「未処理の見出し語があるか」という条件
文（ステップＳ５０２）で形成されるＩＦループによっ
て、見出し語全体について差分処理が展開される。

【０１４５】ＩＦループ内では、まず、元の見出し語イ
ンデックスの中から残余の先頭の見出し語文字列を取得
して、これを現文字列ＣＵＲＲに代入する（ステップＳ
５０４）。

【０１４６】次いで、直前文字列ＰＲＥＶと現文字列Ｃ
ＵＲＲが先頭から何文字一致するかを調べ（ステップＳ
５０６）、一致した文字数と、ＰＲＥＶとＣＵＲＲとの
差分文字列とを出力する（ステップＳ５０８）。

【０１４７】次いで、現文字列ＣＵＲＲを直前文字列Ｐ
ＲＥＶに代入して（ステップＳ５１０）、ステップＳ５
０２に復帰する。

【０１４８】ステップＳ５０２では、再度、元の見出し
語インデックス中から残余の見出し語文字列の取得が試
みられる。もし、未処理の見出し語が残っていれば、判
断ブロックＳ５０２の分岐Ｙｅｓに進み、次に取得した
見出し語文字列について上述と同様の差分処理を繰り返
す。他方、全ての見出し語について差分処理が終了して
いれば、判断ブロックＳ５０２の分岐Ｎｏより抜けて、
該処理ルーチンを終了する。

【０１４９】［表６］には、差分処理が施された見出し
語インデックスの一部を、元の見出し語インデックスと
対比させて示している。但し、文字列"ａ−ｂｏｍｂ"を
見出し語インデックスの先頭とする。なお、元の見出し
語インデックスは、「翻訳の王様」のシステム辞書の見
出し語インデックスである。

【０１５０】

【表６】

【０１５１】［表６］に示すように"ａｂｊｅｃｔ"の直
近下位の見出し語"ａｂｊｅｃｔｉｏｎ"は先頭から６文
字目までが"ａｂｊｅｃｔ"と一致することから、一致文
字数０６と差分文字列"ｉｏｎ"が新しい見出し語とな
る。また、次の見出し語"ａｂｊｅｃｔｌｙ"は先頭から
６文字目までが直近上位の見出し語"ａｂｊｅｃｔｉｏ
ｎ"と一致することから、一致文字数０６と差分文字列"
ｌｙ"が新しい見出し語となる。このように差分処理が
施された見出し語インデックスのことを、以下、「暫定
的見出し語インデックス」と言うことにする。

【０１５２】ｎ−ｇｒａｍ統計処理：図８は、各見出し
語の圧縮貢献度の計算を行なう処理の手順をフローチャ
ートで示している。該処理は、暫定的見出し語インデッ
クス・データを圧縮するための前処理として位置づけら
れる。

【０１５３】ここで言う圧縮貢献度とは、文字数ｎ（す
なわちｎバイト）以上の文字列をｎ文字未満（この例で
は１バイト）の文字列で置き換えたときに暫定的見出し
語インデックス・データに及ぼす圧縮の効果のことを意
味する。暫定的見出し語インデックス中で出現頻度の高
い文字列や文字数の多い（すなわち多バイトの）文字列
を１文字（すなわち１バイト・コード）で置き換えれば
圧縮貢献度が高いことは容易に想到されよう。文字数ｎ
（但し、ｎ＝２，３，…）の各文字列が暫定的見出し語
インデックス中で出現する頻度は、所謂ｎ−ｇｒａｍ統
計を用いて算出される。あるｎバイト文字列を１バイト
・コードに置き換えたときの圧縮貢献度は、見出し語イ
ンデックス中の出現回数ｃｏｕｎｔとバイト数の減分
（ｎ−１）を掛け合わせることによって求まる。以下、
フローチャートの各ステップについて詳解する。

【０１５４】「未処理の見出し語があるか」という条件
文（ステップＳ６００）で形成される第１のＩＦループ
によって、暫定的見出し語インデックス全体についての
ｎ−ｇｒａｍ統計が調査される。

【０１５５】第１のＩＦループ内では、まず、暫定的見
出し語インデックス中から残余の先頭の見出し語の差分
文字列を読み出して、これを変数ＲＥＳＴに代入する
（ステップＳ６０２）。次いで、Ｎに数値２を代入して
（ステップＳ６０４）、２−ｇｒａｍ統計から処理を開
始する。

【０１５６】「ＮがＲＥＳＴの文字列長以下か」という
条件文（ステップＳ６０６）で形成される第２のＩＦル
ープ内では、文字列ＲＥＳＴについてのｎ−ｇｒａｍ統
計処理が実行される（ステップＳ６０８。詳細は後
述）。Ｎ＝２についてのｎ−ｇｒａｍ統計、すなわち２
−ｇｒａｍ統計処理が終了すると、次いで、Ｎを１だけ
増分して（ステップＳ６１０）、同様のＩＦループ処理
（すなわち（Ｎ＋１）−ｇｒａｍ統計処理）を繰り返
す。

【０１５７】他方、ＮがＲＥＳＴの文字列長を越えたこ
とは文字列ＲＥＳＴについてのｎ−ｇｒａｍ統計処理が
終了したことを意味するので、判断ブロックＳ６０６の
分岐"Ｎｏ"より第２のＩＦループから抜け出し、ステッ
プＳ６００に復帰する。

【０１５８】ステップＳ６００に戻ると、再度、暫定的
見出し語インデックス中の次の見出し語の差分文字列取
得が試みられる。もし、暫定的見出し語インデックス中
の全ての見出し語についてｎ−ｇｒａｍ統計処理が終了
していれば、判断ブロックＳ６００の分岐"Ｎｏ"より、
第１のＩＦループを抜け出す。第１のＩＦループの終了
は、ｎ−ｇｒａｍ統計データの収集完了を意味する。こ
の時点では暫定的なｎ−ｇｒａｍ統計テーブルが生成さ
れている。

【０１５９】次いで、統計データ中の各ｎバイト文字列
を１バイト・コードに置き換えたときの圧縮貢献度を計
算し（ステップＳ６２０）、さらに、圧縮貢献度が高い
順に統計テーブルのエントリをソートする（ステップＳ
６２２）。圧縮貢献度は、上述したように、出現回数ｃ
ｏｕｎｔとバイト数の減分（ｎ−１）との掛け算で表さ
れる。

【０１６０】さらに、ステップＳ６２４では、統計の重
複を除去する。ここで言う統計の重複とは、例えば長い
文字列"ＡＢＣＤ"については、これに含まれる短い文字
列"ＡＢＣ"、"ＢＣＤ"、"ＡＢ"、"ＢＣ"、及び"ＣＤ"
は"ＡＢＣＤ"の出現回数を重複してカウントしているこ
とを言う。長い文字列の方が圧縮貢献度が高いので、長
い文字列を統計テーブルに残すべきである。このため、
短い文字列"ＡＢＣ"、"ＢＣＤ"、"ＡＢ"、"ＢＣ"、及
び"ＣＤ"の各エントリの出現回数から文字列"ＡＢＣＤ"
の出現回数を減算する必要がある。

【０１６１】ステップＳ６２４で統計の重複を除去した
後の統計テーブルのエントリを再び圧縮貢献度の高い順
に再ソートする（ステップＳ６２６）。

【０１６２】［表７］には、圧縮貢献度に従ってソート
した統計テーブルを示している。これは、「翻訳の王
様」に含まれるシステム辞書の見出し語インデックス・
データ（前述）に対して処理を施した結果である。

【０１６３】

【表７】

【０１６４】［表７］によれば、第１のエントリである
文字列"ｎｅｓｓ"の圧縮貢献度９１６２が最も高く、次
いで、文字列"ｌｙ"の圧縮貢献度３７４５が高いことが
判る。

【０１６５】図９には、ステップＳ６０８におけるｎ−
ｇｒａｍ統計処理ルーチンを詳細に図解している。以
下、各ステップについて説明する。

【０１６６】まず、ステップＳ７００では、処理中（す
なわち変数ＲＥＳＴに代入された）の差分文字列の文字
列長を変数ＬＥＮに代入する。次いで、ステップＳ７０
２では、ＮがＬＥＮ以下かどうかを判断する。Ｎが既に
ＬＥＮを越えていればｎ−ｇｒａｍ統計をとる必要がな
いので（例えば文字数（Ｎ−１）の文字列についてのＮ
−ｇｒａｍ統計はない）、判断ブロックＳ７０２の分岐
Ｎｏより抜けて該処理ルーチンを終了する。他方、Ｎが
ＬＥＮ以下であれば分岐Ｙｅｓに進んで、後続のステッ
プを実行する。

【０１６７】ステップＳ７０４では変数Ｊに１を代入す
る。この変数Ｊは、文字列ＲＥＳＴのＪ文字目以降の部
分文字列を指定するための変数である。

【０１６８】「ＪがＬＥＮ−Ｎ＋１以下か」という条件
文（Ｓ７０６）で形成されるＩＦループでは、処理中の
文字列ＲＥＳＴのＪ文字目以降の部分文字列に含まれる
文字数Ｎの文字列についてのｎ−ｇｒａｍ統計がとられ
る。ＪがＬＥＮ−Ｎ＋１を既に越えているときには、文
字列ＲＥＳＴのＪ文字目以降にはＮ文字以上の文字列が
残っていないことを意味するので、判断ブロックＳ７０
６の分岐Ｎｏより抜けて、該処理ルーチンを終了する。
他方、ＪがＬＥＮ−Ｎ＋１以下であれば後続のステップ
を実行する。

【０１６９】ステップＳ７０８では、文字列ＲＥＳＴの
Ｊ文字目から始まる文字数Ｎの文字列が既に統計テーブ
ル上に存在するかどうかを判断する。例えばＲＥＳＴ
＝"ＡＢＣＤ"、Ｊ＝２、Ｎ＝２であれば、文字列ＡＢＣ
Ｄの２文字目からの２文字の文字列ＢＣが統計テーブル
上に存在するかどうかが判断される。統計テーブル上に
該当するエントリが既にあれば、該エントリの出現回数
ｃｏｕｎｔを１だけ増分する（ステップＳ７１０）。逆
に、該当するエントリが統計テーブル中から見つからな
ければ、新たなエントリを追加するとともに、その出現
回数ｃｏｕｎｔを１にする（ステップＳ７１２）。

【０１７０】このようにして文字列ＲＥＳＴのＪ文字目
から始まる文字数Ｎの文字列についてＮ−ｇｒａｍ統計
をとった後、Ｊを１だけ増分して（ステップＳ７１
４）、ステップＳ７０６に復帰して、（Ｊ＋１）文字列
目から始まるＮバイトの文字列についてのＮ−ｇｒａｍ
統計処理を繰り返し行なう。

【０１７１】文字変換コード表の作成：図８及び図９に
示す処理ルーチンによって圧縮貢献度の高い順にエント
リを整列させた統計テーブルを作成した後には、次に、
文字列をコードに置き換えるための文字コード変換テー
ブルを作成する。本発明を具現するために、文字をコー
ドに変換するためのテーブルを全く新しくデザインして
もよい。しかしながら、本実施例では、英数字をコード
に割り当てて扱うテーブルとして当業界で広く知られ且
つ広範に利用されているＡＳＣＩＩ（American Standar
d Code for Information Interchange）コード表を用
い、このコード表の未使用欄を圧縮貢献度の高い文字列
に新たに割り当てるようにしている。ＡＳＣＩＩコード
表を用いる利点は、ａ，ｂ，ｃ…や０，１，２…のよう
な一般の英数字については既存のコードをそのまま使用
できる点にある。なお、ＡＳＣＩＩコード表はＡＮＳＩ
（American National Standards Institute）規格に基
づくものである。

【０１７２】図１０には、ｎ−ｇｒａｍ統計処理に基づ
く圧縮貢献度に従って新しい文字変換コード表を作成す
るための処理ルーチンをフローチャートにして示してい
る。以下、各ステップについて説明する。

【０１７３】まず、統計テーブルの上位から、文字変換
コード表の未使用領域の個数分だけ、文字列を取ってく
る（Ｓ８００）。文字変換コード表がＡＳＣＩＩコード
表であれば、未使用欄が１８５個あるので（但し、英大
文字を使用しない場合）、統計テーブルの上位１８５個
までのエントリを取得すればよい。

【０１７４】次いで、取得した文字列をアルファベット
順にソートする（ステップＳ８０２）。そして、文字変
換コード表の未使用領域の先頭から順に、ソートした文
字列を１つずつ割り当てる（ステップＳ８０４）。アル
ファベット順に割り当てるのは、後の辞書検索の便宜を
図るためである（後述）。

【０１７５】［表８］には、図１０に示す処理ルーチン
により作成された文字変換コード表を示している。該テ
ーブルはＡＳＣＩＩコード表を基にしており、ａ，ｂ，
ｃ…や０，１，２…のような一般の英数字については既
存のコードがそのまま割り当てられている（表４中では
ＡＳＣＩＩコード表に既存の欄には枠付けして表示して
いる）。他方、例えばＡＳＣＩＩコード表の未使用欄０
ｘ０１には圧縮貢献度の高い文字列"ａｂｉｌ"が、同テ
ーブルの他の未使用欄０ｘｃ９には文字列"ｏｕｓｅ"
が、夫々割り当てられている。

【０１７６】

【表８】

【０１７７】なお、［表８］は、「翻訳の王様」に含ま
れるシステム辞書の見出し語インデックス（前述）に対
して処理を施した結果である。

【０１７８】辞書見出し語インデックスの作成：新しい
文字変換コード表が作成されると、次いで、この文字変
換コード表を用いて辞書見出し語インデックスを新たに
作成する。［表８］に示す文字変換コード表は、文字数
ｎすなわちｎバイト（但し、ｎは２以上の整数）の文字
列を１バイトに置き換える作用を有している（前述）。
見出し語中で圧縮貢献度の高いｎバイト文字列は、文字
変換コード表に従って１バイト・コードに置き換えられ
るので、新たな見出し語インデックスの作成により（ｎ
−１）バイトの圧縮効果があげられる。

【０１７９】図１１には、暫定的見出し語インデックス
から辞書見出し語インデックスを作成するための処理ル
ーチンをフローチャートで示している。以下、各ステッ
プについて説明する。

【０１８０】まず、ステップＳ９００では、上述の暫定
的見出し語インデックス（［表６］参照）中の全てのコ
ンテンツ、すなわちインデックス中の各エントリの元の
見出し語文字列、一致文字数、差分文字列を読み込む。

【０１８１】次いで、読み込んだデータを１０エントリ
を１組として区切り、各組の中で最小の一致文字数を持
つ見出し語を基準見出し語として定義する（ステップＳ
９０２）。「基準見出し語」は、差分文字列の圧縮処理
は行なわず、原文字列のまま辞書見出し語インデックス
に登録する見出し語のことであり、その見出し語エント
リの一致文字数が０にリセットされる。なお、ここで定
義された「基準見出し語」は、単語を辞書検索する際に
利用されるが、詳細は後述のＤ−２項を参照されたい。

【０１８２】次いで、暫定的見出し語インデックスから
最初のエントリの元の見出し語文字列を取り出し、変数
ＳＴＲに代入する（ステップＳ９０４）。そして、「変
数ＳＴＲが空か」という条件文で形成される第１のＩＦ
ループによって、暫定的見出し語インデックス全体につ
いての圧縮処理が実行される。

【０１８３】まず、ステップＳ９０８では、取得した見
出し語が基準見出し語かどうかを判断する。基準見出し
語か否かは、エントリ中の一致文字数Ｍが０かどうかで
判別される。基準見出し語であれば、圧縮処理せず元の
文字列をそのまま登録するので、該判断ブロックＳ９０
８の分岐Ｙｅｓに進んで、辞書見出し語インデックスの
見出し語として文字列ＳＴＲをそのまま出力する。そし
て、暫定的見出し語インデックスから次のエントリの元
の見出し語を取り出して新たに変数ＳＴＲに代入してか
ら（ステップＳ９５０）、ステップＳ９０６に復帰す
る。

【０１８４】他方、取得した見出し語が基準見出し語で
なければ、その差分文字列についての圧縮処理を行な
う。この場合、まず、見出し語のうち差分文字列を新た
に変数ＳＴＲに代入する（ステップＳ９２０）。例え
ば、取得した見出し語が"ａｂｈｏｒｒｅｎｃｅ"であれ
ば、差分文字列"ｒｅｎｃｅ"がＳＴＲに代入されること
になる（［表６］参照）。また、変数Ｉ及びＪには夫々
初期値１を代入するとともに、変数ＬＥＮには、差分文
字列ＳＴＲの文字列長を代入する（ステップＳ９２
２）。

【０１８５】「ＩがＬＥＮ以下か」という条件文（ステ
ップＳ９２４）で形成される第２のＩＦループ内では、
差分文字列ＳＴＲについての圧縮処理が実行される。こ
の圧縮処理は、差分文字列ＳＴＲ中の各部分文字列を文
字変換コード表のコードで置き換えることによって行な
われる。

【０１８６】まず、差分文字列ＳＴＲのＩ文字目以降の
部分文字列を、［表８］で示した文字変換コード表中の
各文字列と比較照合する（ステップＳ９２６）。この比
較照合は、文字変換コード表の最後尾より逆順に行なわ
れる。文字変換コード表には、アルファベット順に文字
列が割り当てられているので（［表８］参照）、テーブ
ルを逆順に検索することにより、より長い文字列と先に
照合させることができる。例えば差分文字列ＳＴＲのＩ
文字以降に"ｌｉｔｙ"という部分文字列が存在する場
合、［表８］中で一致する候補としては"ｌｉｔ"と"ｌ
ｉｔｙ"の２つが挙げられるが、アルファベット順の遅
い（すなわち文字数が長い）"ｌｉｔｙ"と先に照合する
ことができる。

【０１８７】差分文字列ＳＴＲのＩ文字目以降の部分文
字列と一致する文字列がコード表中にあれば、新しい文
字列ＮＥＷのＪ文字目にこの一致する文字列を代入して
（ステップＳ９２８）、Ｉをこの一致する文字列の文字
数分だけ増分する（ステップＳ９３０）。例えば、ＳＴ
Ｒ［Ｉ］以降が４バイトの文字列"ｎｅｓｓ"を含んでい
れば、その部分文字列は、文字変換コード表に従って"
ｂ９"という１バイト文字に置き換わることになる。ま
た、このときはＩは４だけ増分される。

【０１８８】他方、差分文字列ＳＴＲのＩ文字目以降の
部分文字列と一致する文字列がコード表中に存在しなけ
れば、新しい文字列ＮＥＷのＪ文字目に元の差分文字列
ＳＴＲのＩ文字目を代入して（ステップＳ９３２）、Ｉ
を１だけ増分する（ステップＳ９３４）。

【０１８９】このようにして新しいＮＥＷのＪ文字目に
該当する文字列又は元の１文字を代入した後、Ｊを１だ
け増分して（ステップＳ９３６）、ステップＳ９２４に
復帰して同様のＩＦループ処理を繰り返す。Ｉが文字列
長ＬＥＮを越えたことは、元の差分文字列ＳＴＲが新し
い文字列ＮＥＷに変換する処理が終了したことを意味す
るので、判断ブロックＳ９２４の分岐Ｎｏより第２のＩ
Ｆループを抜け出して、コード化されたＮＥＷを辞書見
出し語インデックスの見出し語として出力する（ステッ
プＳ９４０）。そして、暫定的見出し語インデックスか
ら次のエントリの元の見出し語を取り出して新たに変数
ＳＴＲに代入してから（ステップＳ９５０）、ステップ
Ｓ９０６に復帰する。

【０１９０】ステップＳ９０６では、未処理の見出し語
が暫定的見出し語インデックス中の残っているかどうか
が判断される。未だ残っていれば、残余の見出し語につ
いて上述と同様の処理が繰り返し行なわれる。他方、未
処理の見出し語がなければ、見出し語インデックス全体
について処理が終了したことを意味する。このときは、
判断ブロックＳ９０６の分岐Ｎｏより抜けて、該処理ル
ーチンを終了する。

【０１９１】［表９］には、図１１に示した処理ルーチ
ンによって生成された辞書見出し語インデックスの一部
を、元の見出し語に関するデータとともに示している。
但し、辞書見出し語インデックスの各エントリは、一致
文字数とコード化された差分文字列の各々を格納するた
めの２つのフィールド（表中の左から第２欄まで）だけ
持っていればよく、一致文字列や差分文字列、元の文字
列を含む必要は全くない。

【０１９２】

【表９】

【０１９３】［表９］によれば、例えば"ａｂｈｏｒｒ
ｅｎｃｅ"という１０文字すなわち１０バイトからなる
元の見出し語は、"０５ｄ３ｂ７"という３バイトの
コードに置き換わっていることが判る。すなわち、この
見出し語については７（＝１０−３）バイトの圧縮効果
がある訳である。

【０１９４】本実施例に係る圧縮手法を「翻訳の王様」
のシステム辞書の見出し語インデックスに適用した場
合、６２５Ｋバイトからなる元の見出し語インデックス
を３１５Ｋバイトに圧縮できたという実験結果もある。
サイズの小さい見出し語インデックス・データは、コン
ピュータ・システム１００のメイン・メモリ１４上から
退避（スワップ・アウト）することなく常駐することが
可能となる。メモリ常駐データへのアクセスが高速であ
るという性質により、辞書検索速度が向上するという効
果が招来される。特に、複数の辞書を用意するタイプの
機械翻訳システムの場合、各見出し語インデックス・デ
ータをメモリ常駐させるためには、圧縮して小サイズ化
することは有効である。

【０１９５】なお、Ｃ項で詳解した第１及び第２の実施
例に係る辞書の見出し語インデックス・データの圧縮処
理は、各例に係る圧縮処理ルーチンを実装したコンピュ
ータ・プログラムを、例えば図１に示したコンピュータ
・システム１００上で実行することによって実現される
であろう。

【０１９６】Ｄ．圧縮された見出し語インデックスを用
いた機械翻訳この項では、圧縮された見出し語インデックスを用いた
機械翻訳処理について説明する。機械翻訳処理は、例え
ばＡ項で説明したコンピュータ・システム１００上で機
械翻訳プログラムを実行することによって実現される。
なお、以下の説明では１文字は１バイトであることを前
提とする。

【０１９７】機械翻訳処理は、一般に、１センテンス毎
に原文（ここでは英文）テキストを読み込み、センテン
ス中の単語を１個ずつ切り出して形態素解析を行なうこ
とによってなされる。図１２には、形態素解析オペレー
ションをフローチャートの形式で示している。以下、各
ステップについて説明する。

【０１９８】まず、ステップＳ１０００では、翻訳対象
となっている原文テキストから１センテンス分だけ読み
込む。

【０１９９】次いで、ステップＳ１００２では、スペー
スを区切りとして、先頭の１単語を切り出す。そして、
「単語を切り出せたか」という条件文（ステップＳ１０
０４）で形成されるＩＦループによって、読み込んだ１
センテンスに含まれる各単語について形態素解析を順次
実行するようになっている。

【０２００】ＩＦループ内では、まず、ステップＳ１０
０６で、単語の語尾変化をチェックして原形に戻す。こ
こで言う語尾変化には例えば以下の項目が含まれる。１）名詞複数形あるいは動詞３人称単数現在形の"
（ｅ）ｓ" ２）動詞過去形／過去分詞形の"ｅｄ" ３）動詞現在進行形の"ｉｎｇ" ４）形容詞比較級の"ｅｒ" ５）形容詞最上級の"ｅｓｔ" （※但し、不規則変化の場合は何もしない。）

【０２０１】次いで、ステップＳ１００８では、辞書を
原形（但し、不規則変化の場合は変化形のまま）で検索
し、品詞及び意味などの形態素解析情報を取得する。な
お、辞書の検索は、辞書見出し語インデックス中で原形
の単語に該当する見出し語を検索して、見出し語に対応
する形態素解析情報を取得する、という手順でなされ
る。

【０２０２】辞書の見出し語インデックスはＣ項で述べ
たように、圧縮処理が施されており、好ましくは機械翻
訳処理実行中はコンピュータ・システム１００のメイン
・メモリ１４内に常駐している。ステップＳ１００８で
行なわれる辞書の検索ルーチンは、見出し語インデック
スが第１又は第２の実施例のいずれの手法によって圧縮
処理されたかによって異なるが、詳細は後述する。

【０２０３】単語について形態素解析情報を取得する
と、次いで、１センテンスから次の単語を切り出し（ス
テップＳ１０１０）、ステップＳ１００４に復帰する。

【０２０４】読み込んだセンテンス全体について該処理
ルーチンが終了すると、判断ブロックＳ１００４の分岐
ＮｏからＩＦループを抜け出す。この時点では、センテ
ンス内の各単語の品詞及び意味情報が得られているので
（ステップＳ１０１２）、センテンスについての形態素
解析処理を終了する。

【０２０５】Ｄ−１．第１の実施例ここで言う第１の実施例は、Ｃ−１項で詳解した圧縮方
法により圧縮された見出し語インデックスを用いて行な
われる辞書検索処理のことを意味する。

【０２０６】図１３には、辞書検索処理のオペレーショ
ンをフローチャートの形式で図解している。以下、各ス
テップについて説明する。

【０２０７】まず、ステップＳ１１００では検索すべき
文字列を変数ＳＴＲに代入する。ここで言う検索文字列
とは、ステップＳ１００２又はＳ１０１０で切り出さ
れ、ステップＳ１００６で原形に戻された単語に該当す
る。

【０２０８】次いで、変数Ｉ及びＪに夫々初期値値１を
代入するとともに、変数ＬＥＮには文字列ＳＴＲの文字
列長を代入する（ステップＳ１１０２）。変数Ｉは元の
文字列ＳＴＲのＩ文字目を指定するために用いられ、変
数Ｊは新しい文字列ＮＥＷのＪ文字目を指定するために
用いられる。

【０２０９】「ＩがＬＥＮ以下か」という条件文（ステ
ップＳ１１０４）で形成されるＩＦループ内では、［表
４］に示す文字変換コードに従って文字列ＳＴＲを圧縮
する処理が実行される。

【０２１０】まず、文字列ＳＴＲのＩ文字目以降の部分
文字列を、［表４］で示した文字変換コード表中の各文
字列と比較照合する（ステップＳ１１０６）。この比較
照合は、文字変換コード表の最後尾より逆順に行なわれ
る。文字変換コード表には、アルファベット順に文字列
が割り当てられているので、テーブルを逆順に検索する
ことにより、より長い文字列と先に照合させることがで
きる。例えば文字列ＳＴＲのＩ文字以降に"ｌｉｔｙ"と
いう部分文字列が存在する場合、［表４］中で一致する
候補としては"ｌｉｔ"と"ｌｉｔｙ"の２つが挙げられる
が、アルファベット順の遅い（すなわち文字数が長
い）"ｌｉｔｙ"と先に照合することができる。

【０２１１】文字列ＳＴＲのＩ文字目以降の部分文字列
と一致する文字列が文字変換コード表中にあれば、新し
い文字列ＮＥＷのＪ文字目にこの一致する文字列を代入
して（ステップＳ１１０８）、Ｉをこの一致する文字列
の文字数分だけ増分する（ステップＳ１１１０）。例え
ば、ＳＴＲ［Ｉ］以降が４バイトの文字列"ｎｅｓｓ"を
含んでいれば、その部分文字列は、文字変換コード表に
従って"ｂ９"という１バイト文字に置き換わることにな
る。また、このときはＩは４だけ増分される。

【０２１２】他方、文字列ＳＴＲのＩ文字目以降の部分
文字列と一致する文字列がコード表中に存在しなけれ
ば、新しい文字列ＮＥＷのＪ文字目に元の文字列ＳＴＲ
のＩ文字目を代入して（ステップＳ１１１２）、Ｉを１
だけ増分する（ステップＳ１１１４）。

【０２１３】このようにして新しいＮＥＷのＪ文字目に
該当する文字列又は元の１文字を代入した後、Ｊを１だ
け増分して（ステップＳ１１１６）、ステップＳ１１０
４に復帰して同様のＩＦループ処理を繰り返す。Ｉが文
字列長ＬＥＮを越えたことは、元の文字列ＳＴＲを対応
するコードＮＥＷに変換する処理が終了したことを意味
するので、判断ブロックＳ１１０４の分岐ＮｏよりＩＦ
ループを抜け出す。

【０２１４】次いで、ステップＳ１１１８では、生成さ
れたコードＮＥＷを［表５］の見出し語インデックス中
で検索する。例えば原形単語が"ａｂａｎｄｏｎｍｅｎ
ｔ"であれば、コードＮＥＷは"０１０ｃｃ３ａ
ｆ"であり、このコードに一致する見出し語を見出し語
インデックス中で探索すればよい。探索には、例えば２
分探索法を用いてもよい。見出し語インデックス中で見
出し語が存在すれば、これに対応する形態素解析情報を
出力して、この処理ルーチンを終了する。

【０２１５】この辞書検索方法によれば、元の見出し語
を探し出すために、見出し語インデックス・データを復
元する必要は全くない。したがって、圧縮された見出し
語インデックスを検索するために伸長処理を含まないの
で、検索速度を低下させずに済む。

【０２１６】Ｄ−２．第２の実施例ここで言う第２の実施例は、Ｃ−２項で詳解した圧縮方
法により圧縮された見出し語インデックスを用いて行な
われる辞書検索処理のことを意味する。

【０２１７】図１４には、辞書検索処理のオペレーショ
ンをフローチャートの形式で図解している。以下、各ス
テップについて説明する。

【０２１８】まず、ステップＳ１２００では検索すべき
文字列を変数ＳＴＲに代入する。ここで言う検索文字列
とは、ステップＳ１００２又はＳ１０１０で切り出さ
れ、ステップＳ１００６で原形に戻された単語に該当す
る。

【０２１９】次いで、ステップＳ１２０２では、［表
９］の辞書見出し語インデックスの中で、文字列ＳＴＲ
に一致するか又は基準見出し語の中から、文字列ＳＴＲ
と一致するか、又は、一致文字数が最も大きい基準見出
し語を探索する。探索には、例えば２分探索などの手法
を用いればよい。探し出された基準見出し語は候補文字
列として変数ＣＡＮに代入される。一致文字数が同じ基
準見出し語が複数ある場合には、アルファベットの順が
早い見出し語の方を選択する。例えば、検索中の文字列
ＳＴＲが"ａｂｄｉｃａｔｉｏｎ"であれば、最も類似す
る基準見出し語"ａｂｄｉｃａｂｌｅ"が候補文字列とし
て変数ＣＡＮに代入される。

【０２２０】次いで、ステップＳ１２０４では、検索文
字列ＳＴＲが候補文字列ＣＡＮと一致するかどうかが判
別される。ＳＴＲがＣＡＮに等しければ辞書検索が成功
裡に終わったことを意味するので、判断ブロックＳ１２
０４の分岐Ｙｅｓよりループを抜けて、この処理ルーチ
ンを終了する。

【０２２１】次いで、見出し語インデックス上で候補文
字列ＣＡＮの次の見出し語を取り出して、基準文字列か
どうかが判別される。図１４に示す処理ルーチンでは、
検索文字列ＳＴＲが基準文字列ではない場合には、一致
文字数が最も大きい基準見出し語から正順に下位の見出
し語と比較照合を行なうようになっている。例えば検索
文字列ＳＴＲが"ａｂｄｉｃａｔｉｏｎ"であれば、一致
する見出し語が見つかるまでは、最も類似する基準見出
し語"ａｂｄｉｃａｂｌｅ"から正順に、下位の見出し
語"０６ｔｅ"、"０７ｉｏｎ"を取り出して比較照合
する。候補文字列ＣＡＮが検索文字列ＳＴＲに一致する
ことなく次の基準見出し語に到達したということは、見
出し語インデックス中には検索文字列ＳＴＲに該当する
見出し語が存在しないことを意味するので、この場合に
は、判断ブロックＳ１２０６の分岐Ｎｏよりループを抜
けて、辞書検索処理を異常終了させる。

【０２２２】候補文字列ＣＡＮの次の見出し語が基準文
字列ではない場合には、この見出し語を元の文字列に復
元処理して（後述）、候補文字列ＣＡＮに代入する（ス
テップＳ１２０８）。そして、ステップＳ１２０４に戻
って、検索文字列ＳＴＲとの照合処理を繰り返し実行す
る。

【０２２３】図１５には、［表９］に示した見出し語イ
ンデックス中の基準見出し語でない文字列、すなわち圧
縮処理された見出し語を元の見出し語文字列に復元する
ための処理（ステップＳ１２０８）をフローチャートの
形式で図解している。以下、各ステップについて説明す
る。

【０２２４】まず、ステップＳ１３００では、復元しよ
うとする見出し語文字列のうち、一致文字数を変数Ｍ
に、差分文字列をＤＩＦＦに、差分文字列の長さ（文字
数）をＬＥＮに、夫々代入する。ここで言う「復元しよ
うとする見出し語文字列」とは、見出し語インデックス
上で候補文字列ＣＡＮの次の見出し語に該当する（図１
４のステップＳ１２０６参照）。例えば、候補文字列Ｃ
ＡＮが基準見出し語"ａｂｈｏｒ"であれば、その次の見
出し語は"０５ｄ３ｂ７"であり（［表９］参照）、
Ｍ＝５、ＤＩＦＦ＝"ｄ３ｂ７"、及び、ＬＥＮ＝２が
代入される。

【０２２５】次いで、ステップＳ１３０２では、候補文
字列ＣＡＮのうち先頭から文字数Ｍだけ残して、（Ｍ＋
１）文字目以降を切り捨てる。例えば、ＣＡＮ＝"ａｂ
ｈｏｒ"でＭ＝５であれば、ＣＡＮ＝"ａｂｈｏｒ"とな
る。

【０２２６】次いで、ステップＳ１３０４では、Ｉに初
期値１が代入される。

【０２２７】「ＩがＬＥＮ以下か」という条件文で形成
されるＩＦループ内では、変数ＤＩＦＦ内の各コード
を、［表８］の文字変換コード表を参照しながら元の文
字列に復元する処理が繰り返される。ステップＳ１３０
８では、ＤＩＦＦのＩ番目の文字変換コードを元の文字
列に復元する。例えば、ＤＩＦＦ＝"ｄ３ｂ７"でＩ＝
１であれば、［表８］中の欄"ｄ３"に該当する文字列"
ｒｅ"が検索され、候補文字列ＣＡＮの末尾に追加され
る（ＣＡＮ＝"ａｂｈｏｒｒｅ"）。

【０２２８】次いで、ステップＳ１３１０ではＩが１だ
け増分されて、ステップＳ１３０６に復帰し、上述同様
の文字コードを文字列に変換する処理が繰り返される。

【０２２９】Ｉが文字列長ＬＥＮを越えたことは、変数
ＤＩＦＦ内の全ての文字変換コードを元の文字列に置換
して、候補文字列ＣＡＮを復元し終えたことを意味す
る。この場合には、判断ブロックＳ１３０６の分岐Ｎｏ
よりＩＦループを抜けて、このルーチンの要求元に復元
された候補文字列ＣＡＮを返して（ステップＳ１３１
２）、該処理ルーチンを終了する。

【０２３０】この辞書検索方法によれば、元の見出し語
を探し出すために、高々１０個程度の見出し語の復元を
行なうだけでよく、見出し語インデックス・データ全体
を復元する必要はない。したがって、圧縮された見出し
語インデックスを検索するために伸長処理を含まないの
で、検索速度を低下させずに済む。

【０２３１】Ｅ．追補以上、特定の実施例を参照しながら、本発明について詳
解してきた。しかしながら、本発明の要旨を逸脱しない
範囲で当業者が該実施例の修正や代用を成し得ることは
自明である。

【０２３２】本実施例では、機械翻訳を行なう装置（及
び辞書の見出し語インデックス・データを圧縮する装
置）として、ＯＡＤＧ仕様に準拠したいわゆるＰＣ／Ａ
Ｔ互換機（"ＰＣ／ＡＴ"は米ＩＢＭ社の商標）をベース
に説明したが、他のタイプのマシン（例えばＮＥＣのＰ
Ｃ９８シリーズや米アップル社のＭａｃｉｎｔｏｓｈ、
及びこれらの互換機、あるいは用途が機械翻訳に特定さ
れた専用装置であっても、本発明が同様に実現可能であ
ることは言うまでもない。

【０２３３】また、本明細書中では、ｎ−ｇｒａｍ統計
を利用した圧縮方法の適用例として辞書の見出し語イン
デックス・データを採り上げたが、他の圧縮対象（例え
ば通常のテキスト文）に対しても効果があることを充分
理解されたい。

【０２３４】要するに、例示という形態で本発明を開示
してきたのであり、限定的に解釈されるべきではない。
本発明の要旨を判断するためには、冒頭に記載した特許
請求の範囲の欄を参酌すべきである。

【０２３５】

【発明の効果】以上詳記したように、本発明によれば、
機械翻訳等に用いられる辞書の見出し語インデックス・
データを圧縮するための方法、圧縮された辞書の見出し
語インデックス、及び圧縮された見出し語インデックス
に基づいて単語を検索する方法を提供することができ
る。

【０２３６】また、本発明によれば、圧縮後も伸長処理
なしに検索可能な圧縮方法、該圧縮方法により生成され
た辞書の見出し語インデックス・データ、及び圧縮され
た見出し語インデックスに基づいて単語を検索する方法
を提供することができる。

【図面の簡単な説明】

【図１】図１は、本発明を実現するのに適した典型的な
パーソナル・コンピュータ（ＰＣ）１００のハードウェ
ア構成を模式的に示した図である。

【図２】図２は、機械翻訳システムの概念図である。

【図３】図３は、各見出し語の圧縮貢献度の計算を行な
う処理の手順をフローチャートで示した図である（第１
の実施例）。

【図４】図４は、ステップＳ１０８におけるｎ−ｇｒａ
ｍ統計処理ルーチンを詳解した図である（第１の実施
例）。

【図５】図５は、ｎ−ｇｒａｍ統計処理に基づく圧縮貢
献度に従って新しい文字変換コード表を作成するための
処理ルーチンを示したフローチャートである（第１の実
施例）。

【図６】図６は、辞書見出し語インデックスを作成する
ための処理ルーチンを示したフローチャートである（第
１の実施例）。

【図７】図７は、予め直近の見出し語同士で差分をとっ
ておく処理ルーチンを示したフローチャートである（第
２の実施例）。

【図８】図８は、各差分文字列の圧縮貢献度の計算を行
なう処理の手順をフローチャートで示した図である（第
２の実施例）。

【図９】図９は、ステップＳ６０８におけるｎ−ｇｒａ
ｍ統計処理ルーチンを詳解した図である（第２の実施
例）。

【図１０】図１０は、ｎ−ｇｒａｍ統計処理に基づく圧
縮貢献度に従って新しい文字変換コード表を作成するた
めの処理ルーチンを示したフローチャートである（第２
の実施例）。

【図１１】図１１は、辞書見出し語インデックスを作成
するための処理ルーチンを示したフローチャートである
（第２の実施例）。

【図１２】図１２は、機械翻訳の形態素解析のオペレー
ションを示したフローチャートである。

【図１３】図１３は、辞書検索のためのフローチャート
（第１の実施例）である。

【図１４】図１４は、辞書検索のためのフローチャート
（第２の実施例）である。

【図１５】図１５は、文字列復元のオペレーションを示
したフローチャートである（第２の実施例）。

【符号の説明】

１１…ＣＰＵ、１２…プロセッサ・バス、１３…ホスト
−ＰＣＩブリッジ、１４…メイン・メモリ、１５…Ｌ２
−キャッシュ、１６…ＰＣＩバス、１６Ａ…ＰＣＩバス
・スロット、１６Ｂ…ＰＣＩ対応アダプタ・カード、１
７…ＲＯＭ、１８…ＩＳＡバス、１８Ａ…ＩＳＡバス・
スロット、１８Ｂ…ＩＳＡ対応アダプタ・カード、１９
…ＰＣＩ−ＩＳＡブリッジ、２０…ビデオ・コントロー
ラ、２１…ＶＲＡＭ、２２…ディスプレイ、２３…カー
ドバス・コントローラ、２４Ａ…カード・スロット、２
４Ｂ…ＰＣカード、２５…ＨＤＤ、２６…ＣＤ−ＲＯＭ
ドライブ、２７…ＵＳＢポート、２８…モデム、２９…
ＲＴＣ、３０…Ｉ／Ｏコントローラ、３１…ＦＤＤ、３
２…パラレル・ポート、３３…シリアル・ポート、３４
…ＫＭＣ、３５…キーボード、３６…マウス、３７…オ
ーディオ・コントローラ、３８…スピーカ、３９…マイ
ク、１００…パーソナル・コンピュータ、２００…機械
翻訳システム、２１０…データ処理部、２２０…入力
部、２３０…表示部、２４０…出力部、２５０…ネット
ワーク・サブシステム。

───────────────────────────────────────────────────── フロントページの続き (72)発明者田添英一神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社大和事業所内

Claims

【特許請求の範囲】

【請求項１】（ａ）複数の単語からなる圧縮対象の中
で、出現頻度の高いｎ文字以上の文字列を抽出する段階
と（但し、ｎは２以上の整数）、（ｂ）抽出された各文
字列について圧縮したときの貢献度を計算する段階と、
（ｃ）圧縮への貢献度の高い上位文字列を所定の文字変
換コード表の空き欄に割り当てる段階と、（ｄ）前記圧
縮対象中の文字列のうち前記文字変換コード表に登録さ
れているものを、対応する文字変換コードに置き換える
段階と、を含むことを特徴とする圧縮方法。
【請求項２】前記圧縮対象は機械翻訳用の辞書の見出し
語インデックス・データであることを特徴とする請求項
１に記載の圧縮方法。
【請求項３】前記貢献度を計算する段階（ｂ）では、文
字数ｎの文字列Ｓを文字数ｋ（但し、ｎ＞ｋ）の文字列
に置き換えることによる圧縮量（ｎ−ｋ）と、前記圧縮
対象中の文字列Ｓの出現回数ｃｏｕｎｔとの積（ｎ−
ｋ）×ｃｏｕｎｔによって貢献度を表すことを特徴とす
る請求項１に記載の圧縮方法。
【請求項４】前記文字変換コード表としてＡＮＳＩ（Am
erican National Standards Institute）規格に基づく
ＡＳＣＩＩ（American Standard Code for Information
Interchange）コード表を用いたことを特徴とする請求
項１に記載の圧縮方法。
【請求項５】請求項１の段階（ｃ）によって生成された
文字変換コード表を格納した記憶媒体。
【請求項６】機械翻訳で用いられる辞書の見出し語イン
デックス・データを圧縮するための方法であって、
（ａ）見出し語インデックス・データの中で、出現頻度
の高いｎ文字以上の文字列を抽出する段階と（但し、ｎ
は２以上の整数）、（ｂ）抽出された各文字列について
圧縮したときの貢献度を計算する段階と、（ｃ）圧縮へ
の貢献度の高い上位文字列を所定の文字変換コード表の
空き欄に割り当てる段階と、（ｄ）前記見出し語インデ
ックス・データ中の文字列のうち前記文字変換コード表
に登録されているものを、対応する文字変換コードに置
き換える段階と、を含むことを特徴とする辞書の見出し
語インデックス・データを圧縮するための方法。
【請求項７】前記貢献度を計算する段階（ｂ）では、文
字数ｎの文字列Ｓを文字数ｋ（但し、ｎ＞ｋ）の文字列
に置き換えることによる圧縮量（ｎ−ｋ）と、前記見出
し語インデックス・データ中の文字列Ｓの出現回数ｃｏ
ｕｎｔとの積（ｎ−ｋ）×ｃｏｕｎｔによって貢献度を
表すことを特徴とする請求項６に記載の圧縮方法。
【請求項８】前記文字変換コード表としてＡＮＳＩ（Am
erican National Standards Institute）規格に基づく
ＡＳＣＩＩ（American Standard Code for Information
Interchange）コード表を用いたことを特徴とする請求
項６に記載の圧縮方法。
【請求項９】請求項６の段階（ｃ）によって生成された
文字変換コード表を格納した記憶媒体。
【請求項１０】請求項９に係る記憶媒体を含んだ機械翻
訳システム。
【請求項１１】請求項６の段階（ｄ）によって生成され
た見出し語インデックス・データを格納した記憶媒体。
【請求項１２】請求項１１に係る記憶媒体を含んだ機械
翻訳システム。
【請求項１３】コンピュータ・システムの処理能力を活
用して第１言語テキストを第２言語テキストに翻訳する
機械翻訳システムにおいて、請求項６に記載の圧縮方法によって圧縮された見出し語
インデックス・データと、各見出し語についての翻訳情
報を記述した辞書本体とからなる辞書と、前記辞書を参照しながら第１言語テキストを第２言語テ
キストに翻訳する翻訳エンジンと、を具備することを特
徴とする機械翻訳システム。
【請求項１４】前記翻訳エンジンは、第１言語テキスト
中に含まれる単語を見出し語インデックス・データ中か
ら検索するときには、まず単語中で前記文字変換コード
表に登録されている文字列を対応する文字変換コードに
置き換えた後に、見出し語インデックス・データ中で該
単語と一致する見出し語を検索することを特徴とする請
求項１３に記載の機械翻訳システム。
【請求項１５】ソフトウェア・プログラムを実行するた
めのプロセッサと、処理中のプログラム・コードやデー
タを一時格納するためのメモリと、外部記憶装置と、ユ
ーザがデータ等を入力するための入力手段と、処理内容
を表示するディスプレイとを含むコンピュータ・システ
ム上で稼働する機械翻訳プログラムを有形的に格納した
コンピュータ可読記憶媒体であって、前記機械翻訳プロ
グラムは、（ａ）請求項６に記載の圧縮方法によって圧
縮された見出し語インデックス・データ・モジュール
と、（ｂ）各見出し語についての翻訳情報を記述した辞
書本体モジュールと、（ｃ）前記モジュール（ａ）及び
（ｂ）からなる辞書を参照しながら第１言語テキストを
第２言語テキストに翻訳する翻訳エンジン・モジュール
と、を含むことを特徴とするコンピュータ可読記憶媒
体。
【請求項１６】前記翻訳エンジン・モジュールは、第１
言語テキスト中に含まれる単語を見出し語インデックス
中から検索するときには、まず単語中で前記文字変換コ
ード表に登録されている文字列を対応する文字変換コー
ドに置き換えた後に、見出し語インデックス中で該単語
と一致する見出し語を検索することを特徴とする請求項
１５に記載のコンピュータ可読記憶媒体。
【請求項１７】機械翻訳で用いられる辞書の見出し語イ
ンデックス・データを圧縮するための方法であって、
（ａ）原見出し語インデックス・データを、各見出し語
文字列を直近上位の見出し語文字列との差分で表した第
１の見出し語インデックス・データに変換する段階と、
（ｂ）前記段階（ａ）において、直近上位の見出し語文
字列との差分が大きな見出し語文字列を、原見出し語文
字列のまま前記第１の見出し語インデックス・データ中
に記述する基準見出し語文字列として選択する段階と、
（ｃ）第１の見出し語インデックス・データの中で、出
現頻度の高いｎ文字以上の文字列を抽出する段階と（但
し、ｎは２以上の整数）、（ｄ）抽出された各文字列を
圧縮したときの貢献度を計算する段階と、（ｅ）圧縮へ
の貢献度の高い上位文字列を所定の文字変換コード表の
空き欄に割り当てる段階と、（ｆ）前記第１の見出し語
インデックス・データ中の文字列のうち前記文字変換コ
ード表に登録されているものを対応する文字変換コード
に置き換えて、第２の見出し語インデックス・データを
生成する段階と、を含むことを特徴とする辞書の見出し
語インデックス・データを圧縮するための方法。
【請求項１８】前記貢献度を計算する段階（ｄ）では、
文字数ｎの文字列Ｓを文字数ｋの文字列に置き換えるこ
とによる圧縮量（ｎ−ｋ）と、前記見出し語インデック
ス・データ中の文字列Ｓの出現回数ｃｏｕｎｔとの積
（ｎ−ｋ）×ｃｏｕｎｔによって貢献度を表すことを特
徴とする請求項１７に記載の圧縮方法。
【請求項１９】前記文字変換コード表としてＡＮＳＩ
（American National Standards Institute）規格に基
づくＡＳＣＩＩ（American Standard Code for Informa
tion Interchange）コード表を用いたことを特徴とする
請求項１７に記載の圧縮方法。
【請求項２０】請求項１７の段階（ｅ）によって生成さ
れた文字変換コード表を格納した記憶媒体。
【請求項２１】請求項２０に係る記憶媒体を含んだ機械
翻訳システム。
【請求項２２】請求項１７の段階（ｆ）によって生成さ
れた前記第２の見出し語インデックス・データを格納し
た記憶媒体。
【請求項２３】請求項２２に係る記憶媒体を含んだ機械
翻訳システム。
【請求項２４】コンピュータ・システムの処理能力を活
用して第１言語テキストを第２言語テキストに翻訳する
機械翻訳システムにおいて、請求項１７に記載の圧縮方法によって圧縮された第２の
見出し語インデックス・データと、各見出し語について
の翻訳情報を記述した辞書本体とからなる辞書と、前記辞書を参照しながら第１言語テキストを第２言語テ
キストに翻訳する翻訳エンジンと、を具備することを特
徴とする機械翻訳システム。
【請求項２５】前記翻訳エンジンは、第１言語テキスト
中に含まれる単語を見出し語インデックス中から検索す
るときには、まず前記第２の見出し語インデックス中の
候補見出し語を前記文字変換コード表に従って元の見出
し語文字列に復元した後に、単語と復元された見出し語
文字列とを比較照合することを特徴とする請求項２４に
記載の機械翻訳システム。
【請求項２６】ソフトウェア・プログラムを実行するた
めのプロセッサと、処理中のプログラム・コードやデー
タを一時格納するためのメモリと、外部記憶装置と、ユ
ーザがデータ等を入力するための入力手段と、処理内容
を表示するディスプレイとを含むコンピュータ・システ
ム上で稼働する機械翻訳プログラムを有形的に格納した
コンピュータ可読記憶媒体であって、前記機械翻訳プロ
グラムは、（ａ）請求項１７に記載の圧縮方法によって
圧縮された第２の見出し語インデックス・データ・モジ
ュールと、（ｂ）各見出し語についての翻訳情報を記述
した辞書本体モジュールと、（ｃ）前記モジュール
（ａ）及び（ｂ）からなる辞書を参照しながら第１言語
テキストを第２言語テキストに翻訳する翻訳エンジン・
モジュールと、を含むことを特徴とするコンピュータ可
読記憶媒体。
【請求項２７】前記翻訳エンジン・モジュールは、第１
言語テキスト中に含まれる単語を見出し語インデックス
中から検索するときには、まず前記第２の見出し語イン
デックス中の候補見出し語を前記文字変換コード表に従
って元の見出し語文字列に復元した後に、単語と復元さ
れた見出し語文字列とを比較照合することを特徴とする
請求項２６に記載のコンピュータ可読記憶媒体。