JPH0140371B2

JPH0140371B2 -

Info

Publication number: JPH0140371B2
Application number: JP56070288A
Authority: JP
Inventors: Hitoshi Suzuki
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1981-05-08
Filing date: 1981-05-08
Publication date: 1989-08-28
Also published as: JPS57185573A

Description

【発明の詳細な説明】本発明は文字の発音に従つて仮名キーボードか
ら仮名文字を入力し、漢字または漢字仮名混り文
を出力するような日本語ワードプロセツサ等の仮
名漢字変換処理装置に関するものであり、更に詳
細には特に仮名・漢字変換を行なう場合に用いら
れる仮名漢字変換用音訓辞書に関するものであ
る。

一般に仮名漢字変換処理装置は、日本語ワード
プロセツサ、日本語オフイスコンピユータ等の日
本語の入力処理に必要な機器に用いられるもので
あり、漢字を直接採字することなく、仮名を入力
することによつて漢字または漢字仮名混り文の出
力を得るようにしたもので最近商品化されつつあ
る。このような装置は膨大な漢字数を持つ日本語
をわずかな数の仮名キーによつて入力することが
出来るため装置の小型化の可能性を有しているに
もかかわらず、変換処理のための変換用辞書及び
文法テーブルを収容するメモリの容量が膨大なも
のになるためフロツピ・デイスク等の外部記憶装
置を必要とし、また正しい変換率を高めるために
複雑な処理と大容量の処理用バツフアメモリを必
要とし、装置全体が大きくなり、また価格も高い
ものになつていた。

本発明は上記の点に鑑みて成されたものであ
り、変換用辞書のデータ構造を工夫することによ
り、辞書収容メモリの必要な容量を少なくし、半
導体メモリの使用を可能とした仮名漢字変換処理
装置を提供することを目的とするものである。

一般に音訓辞書は漢字とその読みとの対照テー
ブルであり、仮名漢字変換に用いる場合には第１
図に示す如く、読みａを与えて漢字ｂが得られる
ようになつている。

JIS第１水準漢字2965字についてこのような音
訓辞書を作成すると仮名見出し数が約2000、仮名
見出しの平均文字数が約３文字となる。また漢字
部は一つの漢字で複数の読みを持つものがあるた
め、漢字部に含まれる延べ漢字数は約6000字とな
る。

このような音訓辞書をメモリに収納する方法と
して従来より単純可変長方式により圧縮を計つた
ものがある。このような単純可変長方式は第２図
に示す如く、仮名見出しと漢字表記の長さに夫々
合わせてメモリ領域をとるものであり、一語は語
長部分２１と仮名見出し部２２と漢字表記部２
３，２３…（仮名見出し部の読みに対応した漢字
の数だけ存在する）から構成され、上記した語長
部分２１は仮名見出し部２２と漢字表記部２３，
２３…の総バイト数を記憶している。上記仮名見
出し部２２は音訓の読みを一文字一バイトで収容
し、仮名コードはJIS6226に定められている第２
バイトを用い、仮名見出しに続く漢字表記部２３
には２バイト構成のJIS6226漢字コードを用いて
いる。

JIS6226の漢字コードは第３図に示すようなコ
ード表になつており、Ａの部分が仮名、英数、記
号の領域、Ｂの部分が第１水準漢字（2956字）の
領域、Ｃの部分が第２水準漢字の領域となつてお
り、この領域Ａ及びＢの一部を省略した内容を第
４図及び第５図に示している。また漢字コードの
２バイト構成を第６図に示す。この第６図から分
るように漢字コードは上位（第１バイト）部分７
１と下位（第２バイト）部分７２とから構成さ
れ、それぞれのバイトの最上位ビツトは空きビツ
トになつている。

上記第２図において仮名見出し部２２と漢字表
記部３３との区切りは各バイトの最上位ビツトが
“１”か“０”かによつて区別し、仮名見出し部
２２の最上位ビツトは“０”に設定し、漢字表記
部２３の最上位ビツトは“１”に設定している。
また第１バイト目の語長部２１には可変長の長さ
（仮名見出し部２２と漢字表記部２３の総バイト
数）を１バイトで収容する。

以上の如き単純可変長方式によつて音訓辞書を
メモリに記憶させた場合、見出し数2000、仮名見
出しの平均３文字、漢字延べ数6000字とするとメ
モリ容量は約20Kバイトとなり、固定長方式で記
憶する場合に比べてメモリ容量が縮少されるが、
しかしこれでもまだ大容量のメモリを必要とし、
音訓辞書の大型化を避けることができない。

本発明は従来の固定長方式あるいは上記した単
純可変長方式に比して音訓辞書のメモリ容量を小
さくすることが出来る圧縮技法を用いた仮名漢字
変換処理装置を提供するものである。

以下本発明について説明するが、まず最初に本
発明の仮名漢字変換処理装置の用いられる日本語
ワードプロセツサについて説明する。

第７図は日本語ワードプロセツサの構成の一例
を示すブロツク図である。第７図に於て、７１は
キーボードであり、第８図に更に詳細に示してい
るように50音のカナキー群７１Ａ、漢字変換指示
を行う変換キー７１Ｂ，７１Ｃ及び漢字変換され
た時に同音語の漢字が複数存在する場合にその中
から特定のものを選択する呼し出しキー７１Ｄ，
７１Ｅを備えている。上記キーボードより入力さ
れた仮名文字列は中央処理装置（CPU）７２に
入力され、該CPU７２は処理プログラム装置７
３のプログラムに従つて入力された仮名文字列を
仮名漢字変換処理装置７４に送り、その変換結果
を得る。この変換結果は表示装置７５により表示
され、また同音語が存在する場合にはキーボード
７１上の次候補呼び出しキー７１Ｄまたは前候補
呼び出しキー７１Ｅの指示により、次候補呼び出
しまたは前候補呼び出しのフアンクシヨン情報を
仮名漢字変換処理装置７４に送り、次候補または
前候補の漢字を出力として得る。これらの出力は
表示装置７５に順次表示され、正しい候補が選択
されるとキーボード７１からの指示により文章バ
ツフア７６に入れられ、該文章バツフア７６の内
容が印字装置７７により印字される。

第９図は上記した仮名漢字変換処理装置部分の
内部構成例を示し、入力バツフア９１は変換すべ
き仮名文字列を入力する入力文バツフア９１―１
及び文節変換、音訓変換、次候補呼び出し、前候
補呼び出しの各変換モードを指定するフアンクシ
ヨンレジスタ９１―２を有している。出力バツフ
ア９２は変換結果の入力される出力文バツフア９
２―１及び同音語の残り語数が入る同音語数カウ
ンタ９２―２から成る。処理バツフア９３は変換
処理の途中で必要な辞書検索該当データを記憶す
る検索該当バツフア９３―１、文法解析を行うた
めの文法解析バツフア９３―２、最終的に得られ
た候補データを記憶する最終候補バツフア９３―
３、同音語の候補総数を記憶する同音語総数レジ
スタ９３―４及びその他の一時バツフア９３―５
から成つている。また辞書フアイル群９４は単語
辞書９４―１及びそのインデツクス９４―２、音
訓辞書９４―３、活字語尾表フアイル９４―４、
付属語表フアイル９４―５、及び接続行列フアイ
ル９４―６から成る。演算処理装置（CPU）７
２はスタート端子７２―１よりのスタート信号に
よつて処理プログラム装置７３のプログラムに従
つて変換処理を開始する。また解除端子７２―２
は処理の途中で中断するときに用いる。

今入力文バツフア９１―１に「あい」が入力さ
れ、音訓変換キー７１Ｃが操作されると、CPU
７２は処理プログラム装置７３の処理プログラム
に従つて音訓辞書９４―３を検索し、該辞書９４
―３の仮名見出し部の「あい」と同じ仮名見出し
部を見つけた後、その漢字表記部の内容を検索該
当バツフア９３―１へ取り出し、同音語総数を同
音語総数レジスタ９３―５に取り出す。この時検
索該当バツフア９３―１には「哀、愛、挨、姶、
相、藍」が取り出されている。またバツフア９３
―１の最初の情報及びレジスタ９３―５の内容は
それぞれ出力文バツフア９２―１及び同音語数カ
ウンタ９２―２に入力され、その内容が表示さ
れ、所望の漢字でない場合には次候補呼び出しキ
ー７１Ｄを操作して、次の同音語「愛」を出力文
バツフア９２―１に呼び出し、同様の操作を繰返
して所望の変換漢字を得ることになる。

以上の様な動作で仮名・漢字変換が行なわれる
が、本発明は上記した音訓辞書９４―３のメモリ
容量を圧縮することにある。

(1) 仮名見出し部の圧縮音訓辞書の仮名見出部は例えば第１図ａの如
くなり、大半の見出しが前見出しの一部と重複
していることがわかる。例えば、「あい」は前
見出しの「あ」と１文字重複しており、また
「あいだ」は前見出しの「あい」と２文字重複
している。このことを利用して仮名見出し部を
差分構造としてメモリ圧縮を図ることが出来
る。

この差分構造辞書の各語のフオーマツトは第
１０図に示す如く、先頭に前見出し語との重複
文字数を示す重複文字数領域１０１を２ビツト
構成で設けている。また、前記重複文字数領域
１０１に続く６ビツトを仮名見出し部と漢字表
記部の総バイト数を表わす語長領域１０２と
し、該領域１０２の内容により次の仮名見出し
語の先頭アドレスが演算される。次に上記語長
領域１０２に続いて差分仮名見出し部１０３が
設けられる。この仮名見出し部１０３は前の仮
名見出し部の語との重複部を除いた残りの文字
を仮名コード（JIS6226の第２バイト）で収容
する。この時コードの最上位ビツトは“０”と
し、漢字部のコードと区別する。（漢字部は最
上位ビツトを“１”とする）また上記仮名見出
し部１０３に続いて漢字表記部１０４，１０４
…が設けられる。

第１１図に差分構造辞書の一部分が示されて
おり、例えば、第４語の「あいだ」の場合、前
見出し（第３語）が「あい」であるから、重複
文字数領域１０１に“２”が保持され、重複し
ていない残りの「だ」が差分仮名見出し部１０
３に仮名コードで収容される。

なお重複文字数領域１０１は２ビツト構成で
あり、最大“３”までしか表わせないため、４
文字以降は差分仮名見出し部１０３に仮名コー
ドで収容する。

以上の圧縮により差分仮名見出し部は平均約
1.2バイトとなり、2000見出しでは2.4Kバイト
となる。

(2) 漢字表記部の圧縮漢字表記部の圧縮において、漢字コードとし
てここではJIS6226コードをデモイフアイした
ものを用いる。JIS6226バツフアは前記した６
図に示すように（７ビツト×２）の２バイト構
成になつており、第３図に示すコード表に示す
斜線の部分だけに実際のコードが割り当てられ
ており、空白の部分は未使用である。Ａ領域の
仮名・英数・記号部が約650種、Ｂ領域の第１
水準漢字が2965字、Ｃ領域の第２水準漢字が
3384字の計約7000種であり、詰めて収容すれば
13ビツトに収まる。以降漢字コードは13ビツト
に詰めたJIS6226並びのコードで説明する。

第５図はJIS6226コード表の第１水準漢字部
Ｂの一部を抜き書きしたものであるが、漢字の
配列は代表音訓の五十音順に並んでいる。この
ことを利用して漢字表記部の圧縮を図ることが
できる。

すなわち、例えば第１図の仮名見出し「あ」
に対応した漢字は「亜」「唖」「阿」「娃」「窪」
であり、これをJIS6226コードで表わすと、
3021、3022、3023、3024、2726となり、前の４
字については漢字コードが連続している。「い」
の場合では30字も連続している。従つて本発明
では漢字表記部２４に各漢字のコードを入れる
のではなく、最初の漢字コードと連続漢字数を
入れるようにしてメモリの圧縮を行なうように
成されている。

第１２図に圧縮漢字コードのデータ構成を示
し、同図ａは単独の漢字コードのデータ構成
（２バイトコード）を示し、同図ｂは連続漢字
数を附加した漢字コードのデータ構成（３バイ
トコード）を示す。同図において第１バイト目
の最上位ビツトＤ７は仮名コードと区別するた
めのビツトであり“１”に設定される（仮名コ
ードの場合は“０”）。また７ビツト目Ｄ６は２
バイトコードと３バイトコードを区別するため
のビツトであり、２バイトコードの場合には
“０”、３バイトコードの場合は“１”に設定さ
れている。（逆でもよい）またＤ５は空きとな
つている。第１バイトのビツトＤ４〜Ｄ０と第
２バイトのビツトＤ７〜Ｄ０の計13ビツトに先
に説明したJIS6226並びの13ビツトの漢字コー
ドが収容される。また３バイトコードの第３バ
イト部分には連続コードの漢字数Ａが収容され
る。

以上のようにして、第１図に示す音訓辞書を
第１１図に示すように圧縮すると、漢字表記部
の総バイト数が約7.5Kバイトとなり重複文字
数と語長部の2Kバイト及び差分仮名見出し部
の2.4Kバイトを加えて11.9Kバイトとなり、第
２図に示した単純可変長構造にした場合の約
20Kバイトに比べて大幅な圧縮が成されたこと
になる。

なおこの音訓辞書は漢字単位の仮名漢字変換
である音訓変換時に用いられるだけでなく、文
節変換時に使われる単語辞書のメモリ容量圧縮
にも用いることができる。

(3) 圧縮辞書の検索今キーボード７１の操作により、入力文バツ
フア９１―１に「あい」を入力して仮名・漢字
変換する場合について説明すると、まず音訓変
換キー７１Ｃの操作に応答して、CPU７２に
変換の指示が与えられ、まず入力文１文字目と
音訓辞書９４―３第１語の仮名見出し１文字目
が比較される（第１１図参照）。この場合には、
いずれも「あ」で等しいため、続いて２文字目
を比較するが、第１語の仮名見出し２文字目は
存在しないため、音訓辞書の選択アドレスを第
２語目に進める。音訓辞書第２語目は重複文字
数１であるため仮名見出しは２文字目から始ま
る。これを入力文２文字目と比較すると「あ」
と「い」で異なつているため、音訓辞書の選択
アドレスが第３語目に進める。第３語目の重複
文字数が１であるため、仮名見出しは２文字目
から始まる。これを入力文２文字目と比較する
と一致し、また３文字目は入力文、音訓辞書共
に存在しないので、第３語目の漢字表記部の内
容が検索されて検索該当バツフア９３―１に移
される。この時最初の漢字「哀」に対応した漢
字コード（3025）と共に連続漢字数２が読み出
され、漢字コード（3025）に数値１を２回加算
して、「哀」に続く「愛」及び「埃」の漢字コ
ード（3026）、（3027）を再現してバツフア９３
―１に記憶される。また、「あい」に対応する
残りの漢字「相」「藍」「姶」についても、その
漢字コード（416A）、（4D75）、（3028）がバツ
フア９３―１に記憶される。この後操作者は次
候補呼び出しキー７１Ｄ等を操作して「あい」
に対する所望の漢字を出力させることになる。

以上の如く本発明によれば音訓辞書のメモリ容
量を大幅に縮少させることが出来ると共に、従来
よりも検索時間が短縮できるのみならず、辞書の
フアイル容量が小さくなれば半導体メモリの使用
も可能になり、入力装置の小型化・低価格化を一
層増進させることが出来る。

【図面の簡単な説明】

第１図は一般的な音訓辞書の構成を示す図、第
２図は単純可変長構造の辞書のメモリ構成を示す
図、第３図はJIS―6226のコード表を概略的に示
す図、第４図は仮名・英数・記号領域の部分拡大
図、第５図は第１水準漢字領域の部分拡大図、第
６図はJIS―6226漢字コードの構成を示す図、第
７図は日本語ワードプロセツサの構成を示す図、
第８図はキーボードの構成例を示す平面図、第９
図は仮名漢字変換処理装置の内部構成を示す図、
第１０図は本発明に係る差分構造辞書のメモリフ
オーマツトを示す図、第１１図は本発明に係る差
分構造辞書の構成を示す図、第１２図は本発明に
係る漢字表示部のメモリ構成を示す図である。７１…キーボード、７２…CPU、７３…処理
プログラム装置、７４…仮名漢字変換処理装置、
７６…文章バツフア、９４…辞書フアイル群、９
４―３…音訓辞書、１０１…重複文字数領域、１
０２…語長領域、１０３…仮名見出し部、１０４
…漢字表記部、Ａ…連続漢字個数。

Claims

【特許請求の範囲】１仮名で入力された文字列を漢字または漢字交
じり文に変換する仮名漢字変換処理において、仮名見出し部を可変長差分構造とするととも
に、漢字コード部の最初の漢字を漢字コードで収
容し、以降の連続コード値の漢字をその連続漢字
個数で表わして収容させる構成とした漢字変換用
音訓辞書を備えたことを特徴とする仮名漢字変換
処理装置。