JPH0140371B2 - - Google Patents

Info

Publication number
JPH0140371B2
JPH0140371B2 JP56070288A JP7028881A JPH0140371B2 JP H0140371 B2 JPH0140371 B2 JP H0140371B2 JP 56070288 A JP56070288 A JP 56070288A JP 7028881 A JP7028881 A JP 7028881A JP H0140371 B2 JPH0140371 B2 JP H0140371B2
Authority
JP
Japan
Prior art keywords
kanji
kana
code
dictionary
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56070288A
Other languages
English (en)
Other versions
JPS57185573A (en
Inventor
Hitoshi Suzuki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP56070288A priority Critical patent/JPS57185573A/ja
Publication of JPS57185573A publication Critical patent/JPS57185573A/ja
Publication of JPH0140371B2 publication Critical patent/JPH0140371B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 本発明は文字の発音に従つて仮名キーボードか
ら仮名文字を入力し、漢字または漢字仮名混り文
を出力するような日本語ワードプロセツサ等の仮
名漢字変換処理装置に関するものであり、更に詳
細には特に仮名・漢字変換を行なう場合に用いら
れる仮名漢字変換用音訓辞書に関するものであ
る。
一般に仮名漢字変換処理装置は、日本語ワード
プロセツサ、日本語オフイスコンピユータ等の日
本語の入力処理に必要な機器に用いられるもので
あり、漢字を直接採字することなく、仮名を入力
することによつて漢字または漢字仮名混り文の出
力を得るようにしたもので最近商品化されつつあ
る。このような装置は膨大な漢字数を持つ日本語
をわずかな数の仮名キーによつて入力することが
出来るため装置の小型化の可能性を有しているに
もかかわらず、変換処理のための変換用辞書及び
文法テーブルを収容するメモリの容量が膨大なも
のになるためフロツピ・デイスク等の外部記憶装
置を必要とし、また正しい変換率を高めるために
複雑な処理と大容量の処理用バツフアメモリを必
要とし、装置全体が大きくなり、また価格も高い
ものになつていた。
本発明は上記の点に鑑みて成されたものであ
り、変換用辞書のデータ構造を工夫することによ
り、辞書収容メモリの必要な容量を少なくし、半
導体メモリの使用を可能とした仮名漢字変換処理
装置を提供することを目的とするものである。
一般に音訓辞書は漢字とその読みとの対照テー
ブルであり、仮名漢字変換に用いる場合には第1
図に示す如く、読みaを与えて漢字bが得られる
ようになつている。
JIS第1水準漢字2965字についてこのような音
訓辞書を作成すると仮名見出し数が約2000、仮名
見出しの平均文字数が約3文字となる。また漢字
部は一つの漢字で複数の読みを持つものがあるた
め、漢字部に含まれる延べ漢字数は約6000字とな
る。
このような音訓辞書をメモリに収納する方法と
して従来より単純可変長方式により圧縮を計つた
ものがある。このような単純可変長方式は第2図
に示す如く、仮名見出しと漢字表記の長さに夫々
合わせてメモリ領域をとるものであり、一語は語
長部分21と仮名見出し部22と漢字表記部2
3,23…(仮名見出し部の読みに対応した漢字
の数だけ存在する)から構成され、上記した語長
部分21は仮名見出し部22と漢字表記部23,
23…の総バイト数を記憶している。上記仮名見
出し部22は音訓の読みを一文字一バイトで収容
し、仮名コードはJIS6226に定められている第2
バイトを用い、仮名見出しに続く漢字表記部23
には2バイト構成のJIS6226漢字コードを用いて
いる。
JIS6226の漢字コードは第3図に示すようなコ
ード表になつており、Aの部分が仮名、英数、記
号の領域、Bの部分が第1水準漢字(2956字)の
領域、Cの部分が第2水準漢字の領域となつてお
り、この領域A及びBの一部を省略した内容を第
4図及び第5図に示している。また漢字コードの
2バイト構成を第6図に示す。この第6図から分
るように漢字コードは上位(第1バイト)部分7
1と下位(第2バイト)部分72とから構成さ
れ、それぞれのバイトの最上位ビツトは空きビツ
トになつている。
上記第2図において仮名見出し部22と漢字表
記部33との区切りは各バイトの最上位ビツトが
“1”か“0”かによつて区別し、仮名見出し部
22の最上位ビツトは“0”に設定し、漢字表記
部23の最上位ビツトは“1”に設定している。
また第1バイト目の語長部21には可変長の長さ
(仮名見出し部22と漢字表記部23の総バイト
数)を1バイトで収容する。
以上の如き単純可変長方式によつて音訓辞書を
メモリに記憶させた場合、見出し数2000、仮名見
出しの平均3文字、漢字延べ数6000字とするとメ
モリ容量は約20Kバイトとなり、固定長方式で記
憶する場合に比べてメモリ容量が縮少されるが、
しかしこれでもまだ大容量のメモリを必要とし、
音訓辞書の大型化を避けることができない。
本発明は従来の固定長方式あるいは上記した単
純可変長方式に比して音訓辞書のメモリ容量を小
さくすることが出来る圧縮技法を用いた仮名漢字
変換処理装置を提供するものである。
以下本発明について説明するが、まず最初に本
発明の仮名漢字変換処理装置の用いられる日本語
ワードプロセツサについて説明する。
第7図は日本語ワードプロセツサの構成の一例
を示すブロツク図である。第7図に於て、71は
キーボードであり、第8図に更に詳細に示してい
るように50音のカナキー群71A、漢字変換指示
を行う変換キー71B,71C及び漢字変換され
た時に同音語の漢字が複数存在する場合にその中
から特定のものを選択する呼し出しキー71D,
71Eを備えている。上記キーボードより入力さ
れた仮名文字列は中央処理装置(CPU)72に
入力され、該CPU72は処理プログラム装置7
3のプログラムに従つて入力された仮名文字列を
仮名漢字変換処理装置74に送り、その変換結果
を得る。この変換結果は表示装置75により表示
され、また同音語が存在する場合にはキーボード
71上の次候補呼び出しキー71Dまたは前候補
呼び出しキー71Eの指示により、次候補呼び出
しまたは前候補呼び出しのフアンクシヨン情報を
仮名漢字変換処理装置74に送り、次候補または
前候補の漢字を出力として得る。これらの出力は
表示装置75に順次表示され、正しい候補が選択
されるとキーボード71からの指示により文章バ
ツフア76に入れられ、該文章バツフア76の内
容が印字装置77により印字される。
第9図は上記した仮名漢字変換処理装置部分の
内部構成例を示し、入力バツフア91は変換すべ
き仮名文字列を入力する入力文バツフア91―1
及び文節変換、音訓変換、次候補呼び出し、前候
補呼び出しの各変換モードを指定するフアンクシ
ヨンレジスタ91―2を有している。出力バツフ
ア92は変換結果の入力される出力文バツフア9
2―1及び同音語の残り語数が入る同音語数カウ
ンタ92―2から成る。処理バツフア93は変換
処理の途中で必要な辞書検索該当データを記憶す
る検索該当バツフア93―1、文法解析を行うた
めの文法解析バツフア93―2、最終的に得られ
た候補データを記憶する最終候補バツフア93―
3、同音語の候補総数を記憶する同音語総数レジ
スタ93―4及びその他の一時バツフア93―5
から成つている。また辞書フアイル群94は単語
辞書94―1及びそのインデツクス94―2、音
訓辞書94―3、活字語尾表フアイル94―4、
付属語表フアイル94―5、及び接続行列フアイ
ル94―6から成る。演算処理装置(CPU)7
2はスタート端子72―1よりのスタート信号に
よつて処理プログラム装置73のプログラムに従
つて変換処理を開始する。また解除端子72―2
は処理の途中で中断するときに用いる。
今入力文バツフア91―1に「あい」が入力さ
れ、音訓変換キー71Cが操作されると、CPU
72は処理プログラム装置73の処理プログラム
に従つて音訓辞書94―3を検索し、該辞書94
―3の仮名見出し部の「あい」と同じ仮名見出し
部を見つけた後、その漢字表記部の内容を検索該
当バツフア93―1へ取り出し、同音語総数を同
音語総数レジスタ93―5に取り出す。この時検
索該当バツフア93―1には「哀、愛、挨、姶、
相、藍」が取り出されている。またバツフア93
―1の最初の情報及びレジスタ93―5の内容は
それぞれ出力文バツフア92―1及び同音語数カ
ウンタ92―2に入力され、その内容が表示さ
れ、所望の漢字でない場合には次候補呼び出しキ
ー71Dを操作して、次の同音語「愛」を出力文
バツフア92―1に呼び出し、同様の操作を繰返
して所望の変換漢字を得ることになる。
以上の様な動作で仮名・漢字変換が行なわれる
が、本発明は上記した音訓辞書94―3のメモリ
容量を圧縮することにある。
(1) 仮名見出し部の圧縮 音訓辞書の仮名見出部は例えば第1図aの如
くなり、大半の見出しが前見出しの一部と重複
していることがわかる。例えば、「あい」は前
見出しの「あ」と1文字重複しており、また
「あいだ」は前見出しの「あい」と2文字重複
している。このことを利用して仮名見出し部を
差分構造としてメモリ圧縮を図ることが出来
る。
この差分構造辞書の各語のフオーマツトは第
10図に示す如く、先頭に前見出し語との重複
文字数を示す重複文字数領域101を2ビツト
構成で設けている。また、前記重複文字数領域
101に続く6ビツトを仮名見出し部と漢字表
記部の総バイト数を表わす語長領域102と
し、該領域102の内容により次の仮名見出し
語の先頭アドレスが演算される。次に上記語長
領域102に続いて差分仮名見出し部103が
設けられる。この仮名見出し部103は前の仮
名見出し部の語との重複部を除いた残りの文字
を仮名コード(JIS6226の第2バイト)で収容
する。この時コードの最上位ビツトは“0”と
し、漢字部のコードと区別する。(漢字部は最
上位ビツトを“1”とする)また上記仮名見出
し部103に続いて漢字表記部104,104
…が設けられる。
第11図に差分構造辞書の一部分が示されて
おり、例えば、第4語の「あいだ」の場合、前
見出し(第3語)が「あい」であるから、重複
文字数領域101に“2”が保持され、重複し
ていない残りの「だ」が差分仮名見出し部10
3に仮名コードで収容される。
なお重複文字数領域101は2ビツト構成で
あり、最大“3”までしか表わせないため、4
文字以降は差分仮名見出し部103に仮名コー
ドで収容する。
以上の圧縮により差分仮名見出し部は平均約
1.2バイトとなり、2000見出しでは2.4Kバイト
となる。
(2) 漢字表記部の圧縮 漢字表記部の圧縮において、漢字コードとし
てここではJIS6226コードをデモイフアイした
ものを用いる。JIS6226バツフアは前記した6
図に示すように(7ビツト×2)の2バイト構
成になつており、第3図に示すコード表に示す
斜線の部分だけに実際のコードが割り当てられ
ており、空白の部分は未使用である。A領域の
仮名・英数・記号部が約650種、B領域の第1
水準漢字が2965字、C領域の第2水準漢字が
3384字の計約7000種であり、詰めて収容すれば
13ビツトに収まる。以降漢字コードは13ビツト
に詰めたJIS6226並びのコードで説明する。
第5図はJIS6226コード表の第1水準漢字部
Bの一部を抜き書きしたものであるが、漢字の
配列は代表音訓の五十音順に並んでいる。この
ことを利用して漢字表記部の圧縮を図ることが
できる。
すなわち、例えば第1図の仮名見出し「あ」
に対応した漢字は「亜」「唖」「阿」「娃」「窪」
であり、これをJIS6226コードで表わすと、
3021、3022、3023、3024、2726となり、前の4
字については漢字コードが連続している。「い」
の場合では30字も連続している。従つて本発明
では漢字表記部24に各漢字のコードを入れる
のではなく、最初の漢字コードと連続漢字数を
入れるようにしてメモリの圧縮を行なうように
成されている。
第12図に圧縮漢字コードのデータ構成を示
し、同図aは単独の漢字コードのデータ構成
(2バイトコード)を示し、同図bは連続漢字
数を附加した漢字コードのデータ構成(3バイ
トコード)を示す。同図において第1バイト目
の最上位ビツトD7は仮名コードと区別するた
めのビツトであり“1”に設定される(仮名コ
ードの場合は“0”)。また7ビツト目D6は2
バイトコードと3バイトコードを区別するため
のビツトであり、2バイトコードの場合には
“0”、3バイトコードの場合は“1”に設定さ
れている。(逆でもよい)またD5は空きとな
つている。第1バイトのビツトD4〜D0と第
2バイトのビツトD7〜D0の計13ビツトに先
に説明したJIS6226並びの13ビツトの漢字コー
ドが収容される。また3バイトコードの第3バ
イト部分には連続コードの漢字数Aが収容され
る。
以上のようにして、第1図に示す音訓辞書を
第11図に示すように圧縮すると、漢字表記部
の総バイト数が約7.5Kバイトとなり重複文字
数と語長部の2Kバイト及び差分仮名見出し部
の2.4Kバイトを加えて11.9Kバイトとなり、第
2図に示した単純可変長構造にした場合の約
20Kバイトに比べて大幅な圧縮が成されたこと
になる。
なおこの音訓辞書は漢字単位の仮名漢字変換
である音訓変換時に用いられるだけでなく、文
節変換時に使われる単語辞書のメモリ容量圧縮
にも用いることができる。
(3) 圧縮辞書の検索 今キーボード71の操作により、入力文バツ
フア91―1に「あい」を入力して仮名・漢字
変換する場合について説明すると、まず音訓変
換キー71Cの操作に応答して、CPU72に
変換の指示が与えられ、まず入力文1文字目と
音訓辞書94―3第1語の仮名見出し1文字目
が比較される(第11図参照)。この場合には、
いずれも「あ」で等しいため、続いて2文字目
を比較するが、第1語の仮名見出し2文字目は
存在しないため、音訓辞書の選択アドレスを第
2語目に進める。音訓辞書第2語目は重複文字
数1であるため仮名見出しは2文字目から始ま
る。これを入力文2文字目と比較すると「あ」
と「い」で異なつているため、音訓辞書の選択
アドレスが第3語目に進める。第3語目の重複
文字数が1であるため、仮名見出しは2文字目
から始まる。これを入力文2文字目と比較する
と一致し、また3文字目は入力文、音訓辞書共
に存在しないので、第3語目の漢字表記部の内
容が検索されて検索該当バツフア93―1に移
される。この時最初の漢字「哀」に対応した漢
字コード(3025)と共に連続漢字数2が読み出
され、漢字コード(3025)に数値1を2回加算
して、「哀」に続く「愛」及び「埃」の漢字コ
ード(3026)、(3027)を再現してバツフア93
―1に記憶される。また、「あい」に対応する
残りの漢字「相」「藍」「姶」についても、その
漢字コード(416A)、(4D75)、(3028)がバツ
フア93―1に記憶される。この後操作者は次
候補呼び出しキー71D等を操作して「あい」
に対する所望の漢字を出力させることになる。
以上の如く本発明によれば音訓辞書のメモリ容
量を大幅に縮少させることが出来ると共に、従来
よりも検索時間が短縮できるのみならず、辞書の
フアイル容量が小さくなれば半導体メモリの使用
も可能になり、入力装置の小型化・低価格化を一
層増進させることが出来る。
【図面の簡単な説明】
第1図は一般的な音訓辞書の構成を示す図、第
2図は単純可変長構造の辞書のメモリ構成を示す
図、第3図はJIS―6226のコード表を概略的に示
す図、第4図は仮名・英数・記号領域の部分拡大
図、第5図は第1水準漢字領域の部分拡大図、第
6図はJIS―6226漢字コードの構成を示す図、第
7図は日本語ワードプロセツサの構成を示す図、
第8図はキーボードの構成例を示す平面図、第9
図は仮名漢字変換処理装置の内部構成を示す図、
第10図は本発明に係る差分構造辞書のメモリフ
オーマツトを示す図、第11図は本発明に係る差
分構造辞書の構成を示す図、第12図は本発明に
係る漢字表示部のメモリ構成を示す図である。 71…キーボード、72…CPU、73…処理
プログラム装置、74…仮名漢字変換処理装置、
76…文章バツフア、94…辞書フアイル群、9
4―3…音訓辞書、101…重複文字数領域、1
02…語長領域、103…仮名見出し部、104
…漢字表記部、A…連続漢字個数。

Claims (1)

  1. 【特許請求の範囲】 1 仮名で入力された文字列を漢字または漢字交
    じり文に変換する仮名漢字変換処理において、 仮名見出し部を可変長差分構造とするととも
    に、漢字コード部の最初の漢字を漢字コードで収
    容し、以降の連続コード値の漢字をその連続漢字
    個数で表わして収容させる構成とした漢字変換用
    音訓辞書を備えたことを特徴とする仮名漢字変換
    処理装置。
JP56070288A 1981-05-08 1981-05-08 Kana(japanese syllable)-kanji(japanese character) converting processor Granted JPS57185573A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56070288A JPS57185573A (en) 1981-05-08 1981-05-08 Kana(japanese syllable)-kanji(japanese character) converting processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56070288A JPS57185573A (en) 1981-05-08 1981-05-08 Kana(japanese syllable)-kanji(japanese character) converting processor

Publications (2)

Publication Number Publication Date
JPS57185573A JPS57185573A (en) 1982-11-15
JPH0140371B2 true JPH0140371B2 (ja) 1989-08-28

Family

ID=13427139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56070288A Granted JPS57185573A (en) 1981-05-08 1981-05-08 Kana(japanese syllable)-kanji(japanese character) converting processor

Country Status (1)

Country Link
JP (1) JPS57185573A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0642872Y2 (ja) * 1987-12-28 1994-11-09 凸版印刷株式会社 カード
JP4742463B2 (ja) * 2001-07-30 2011-08-10 大日本印刷株式会社 偽造防止カード

Also Published As

Publication number Publication date
JPS57185573A (en) 1982-11-15

Similar Documents

Publication Publication Date Title
CA2051135C (en) Compressed language dictionary
JPH026252B2 (ja)
US4843589A (en) Word storage device for use in language interpreter
JPH0140371B2 (ja)
JPH0140372B2 (ja)
JPH0140370B2 (ja)
JPS6057421A (ja) 文書作成装置
JPH0612548B2 (ja) 文書処理装置
JPH0410104B2 (ja)
JPH06187371A (ja) 圧縮地名データの格納方法及び読み出し方法
JPH0752450B2 (ja) 辞書デ−タ検索装置
JPS60207948A (ja) カナ漢字変換処理装置
JPH0260022B2 (ja)
JPH0638254B2 (ja) 仮名漢字変換装置
JPS62214468A (ja) かな漢字変換装置
JPS62119665A (ja) ワ−ドプロセツサ
JPS6180449A (ja) カナ漢字変換装置
JPH10171797A (ja) 辞書見出し語検索装置とそれを用いた仮名漢字変換装置並びに辞書見出し語検索装置制御プログラムを記憶した媒体
JPS62123559A (ja) 仮名漢字変換装置
CN1037602A (zh) 中文文书作成装置
JPS6293746A (ja) カナ漢字変換用辞書
JPS58103025A (ja) かな漢字変換装置
JPS61180360A (ja) 文書編集装置
JPS61169961A (ja) ユ−ザ辞書を備えた文字処理装置
JPH0352059A (ja) 情報処理装置