JPS6072014A

JPS6072014A - 仮名漢字変換装置

Info

Publication number: JPS6072014A
Application number: JP58179562A
Authority: JP
Inventors: Hiromi Saito; 裕美斎藤; Kimito Takeda; 武田　公人; Tsutomu Kawada; 河田　勉
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1983-09-28
Filing date: 1983-09-28
Publication date: 1985-04-24
Also published as: JPH0547859B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕この発明は例えば文単位として入力されるような長さの
長い連続仮名文字系列を適宜文節単位に区切りながら仮
名漢字変換を行って仮名漢字混じりの日本語文章を効果
的に作成することのできる仮名漢字変換装置に関する。

〔発明の技術的背景とその問題点〕

従来、日本語ワードプロセッサ等の仮名漢字変換装置に
おける文字入力の単位は、一般に単一文節に限られてお
り、また名詞の複合語の入力においても、せいぜい数単
位程度に制限されているものが殆んどである。従って、
この種の装置を用いて日本語文章を入力作成する場合、
単語あるいは文節の単位を常に意識しな【プればならず
、オペレータにとって大きな負担となった。そこで最近
では文章入力の単位を制限せず、文単位の読み仮名列、
所謂ベタ文を入力し、このベタ文に対して仮名漢字変換
処理を行う研究が種々試みられている。

それらは、例えば文節解析処理を再帰的に行うことで、
実験的には可能である。然し乍ら、この為には相当の処
理時間を必要とし、またバッファメモリを大量に消費せ
ざるを得ないという欠点があった。また処理時間および
メモリ量を制限して文節解析処理のアルゴリズムを簡単
化することが考えられているが、その変換処理ｍ度が劣
化することが否めなかった。

例えば、「ざんだかをもとめる」として仮名文字列が与
えられた場合、「さんだかを／もとめる」と機械的に文
節分割することができるが、一方、「さんだかをも／と
める」という文節分割も文法的にありうる。この時、経
験的にみて、所謂最長一致するものが正しいと考えられ
るが、このような経験則だけに基いて、常に入力文字列
の前側から文節解析処理を行って、例えば「残高をも／
止める」と云う変換結果だけを抽出したのではその変換
精度が著しく悪くなる。従って、結局「残高をも／止め
る」、及び「残高を請求める」等の複数の変換候補を抽
出し、その選択をオペレータの支持に委ねるべく上記複
数の変換候補をそれぞれ表示出力するような工夫が行わ
れている。

一方、「けいさんしき」なる入力文字列に対して、装置
内の辞書に「計算式」という単語が登録されていないと
すると、その解析結果は同様にして文節の区分位置によ
って「計算／式」、「計算し／木」と云うように複数種
牛じる。更に「毛／遺産／式」のような変換結果も生じ
る。従って、例えば［さんだかをもとめるけいざんしき
」として連続的に仮名文字列が与えられた場合、少なく
とも２×３通りの変換候補が生じる。更には、上記入力
文字列中の「とめる」に対して「止める」「泊める」、
また「しき」に対しても「式」　「敷き」等の同音の単
語が存在するので、より長い単位の入力文字列を受け入
れて精度よく仮名漢字変換するためには、相当のメモリ
容量が必要となった。また上述した例にあって、「るけ
い＝゛流刑″」という単語が辞書に存在すると、「残高
を請求め／流刑／算式」と云う候補も出現する。このよ
うに入力仮名文字列の長さが長くなるに従い、およそべ
き乗のオーダーに比例した大容量のメモリを必要とする
ことが予想される。

ところで、このような入力仮名文字列に対する多様な変
換候補の中で、最も確からしいものを第１候補としてめ
るための評価処理として、例えば入力文字列の全体を構
成する文節数あるいは単語数の少ない順に優先度を決定
することが考えられている。具体的には例えば「こうが
くしよとく」なる入力文字列に対して、「高額／所得」
を「項が／旬／所得」や「項が／区処と／旬」より確か
らしい変換結果として判定するものである。尚、同音語
については使用頻度の多い単語から正しい変換結果どし
て優先的に出力することは云うまでもない。然し乍ら、
このような評価処理は、文節解析処理によってめられた
各々の文節系列に対して、その始めから終りまでの文節
系列の全体の構成に大きく依存する。この為、当然入力
仮名文字列の長さが長くなるほど、複数の文節系列に対
するソーティング処理等に多くの計算時間を要する等の
新たな問題が生じた。

〔発明の目的〕

本発明はこのような事情を考應してなされたもので、そ
の目的とするところは、例えば所謂ベタ文のように長さ
の長い入力文字列に対しても、処理時間およびメモリ容
量の増大を招くことなしに精度の良い仮名漢字変換処理
を効果的に行ないうる仮名漢字変換装置を提供すること
にある。

〔発明の概要〕本発明は、複数の単語を辞書登録した辞書検索部を備え
、文節抽出部により前記入力装置を介して入力された一
連の入力文字列中の指定された文字位置より始まる部分
文字列の中で、前記辞書検索部に登録された単語と一致
する部分文字列をそれぞれ文節単位として抽出すると共
に、総文節系列抽出部により前記入力文字列内の指定さ
れたブロック区間に対して、１つの抽出された文節単位
の次の文字位置を新たに指定された文字位置として上記
文節抽出部による文節単位抽出処理を繰返し行わしめ、
この処理によって順にめられる文節単位の列からなる文
節系列を前記ブロック区間の文節分割可能な全ての組合
わせについてそれぞれめ、ブロック抽出部により前記入
力文字列に対して上記総文節系列抽出部が作用する前記
ブロックの単位を制御するようにした仮名漢字変換装置
であり、特にブロック抽出部では、予め定めた数値Ｎに
基いて、前記文節抽出部が繰返し処理を実行してめた前
記指定された始点より連続する全てのＮ文節系列の中で
最長の長さをもつ系列の全てにおいて第（Ｎ−１）番目
以内で、且つその文節終端位置が同一である文字位置を
前記ブロックの終点として決定して上述した仮名漢字変
換処理を制御するようにしたものである。

〔発明の効果〕

かくして本発明によれば、例えば上述した例の「ざんだ
かをもとめるけいさんしき」という入力仮名文字列に対
して、「ざん〜もとめる１１けいさ〜しき」のように２
つのブロックの単位に予め分割することができる。そし
てこれらの２つのブロック内についてそれぞれ「残高を
も／止める」や「残高を請求める」のような文節系列の
候補を作成して、その優先度を評価して確からしい仮名
漢字変換候補をめるので、メモリ容量の増大を招くこと
がなく、また処理時間の短縮化を図ることが可能となる
。一般的には、例えば従来２×２×２通りの文節系列に
ついて内部処理を行っていたものが、本発明によれば２
通りの文節系列に分けて処理することができる。また本
発明によれば、長い入力仮名文字列に対して、その文頭
より分割されるブロック区間毎に仮名漢字変換結果が得
られるので、ブロック単位で順次その変換結果の表示出
力を行うことができる。従ってオペレータは、その変換
結果を早く確認できることになり、総合的にオペレータ
の負担を大幅に軽減することが可能となる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例装置につき説明
する。

第１図は実施例装置の概略構成図である。入力装置１は
鍵盤装置や音声認識装置、仮名文字読取り装置等からな
る。この入力装置１を介して入力される碑みを表わづ文
字列（第１の文字列）は、例えば仮名文字コードに変換
された後、仮名漢字変換部２に与えられる。尚、上記読
みを表わす第１の文字列は、例えば平仮名、片仮名、ロ
ーマ字等として示されるものである。

仮名漢字変換部２は、例えばブロック抽出部２ａ、総文
節系列抽出部２ｂ、文節抽出部２０、および変換辞書３
によりより構成されるもので、入力装置１より転送され
た第１の文字列に対して、それに該当する漢字混じりの
表示文字列からなる第２の文字列をめている。上記ブロ
ック抽出部２ａは、上記第１の文字夕１１に対して予め
設定されている数値Ｎ１例えばＮ＝４として、Ｎ文節以
内の文節系列として対応づける文節解析結果をめるもの
で、対応した文節解析結果がない時には、上記第１の入
力文字列をいくつかのブロック区間に分割している。そ
して、このようにして分割した各ブロックの読み仮名列
を前記総文節系列抽出部２ｂに送り、またこの総文節系
列抽出部２ｂでそれぞれのブロックについてめられた仮
名漢字変換結果、即ち第２の文字列を順次出力制御部４
に送っている。

上記総文節系列抽出部２ｂは、前記文節抽出部２ｃを用
いて前記第１の文字列を分割可能な文節系列に分割し、
これらの文節系列についてそれぞれめた仮名漢字混り表
記の変換結果を上記ブロック抽出部２ａに出力するもの
である。文節系列は入力仮名文字列の文節分割可能な全
ての組合わせについてめられ、例えば優先度の評価によ
って、その確からしい候補の順に順位付けられたのち、
その第１順位のものから順に出力される。尚、上記優先
度の評価としては、一般に文節個数が少ないもののほう
が入力目的とする漢字混り文に対応している傾向が高い
ことから、例えば文節個数の少ない文節系列を優先する
等として行われる。

文節抽出部２Ｇは、入力された文字コード列と変換辞書
３内に予め登録された文字列（単語）と照合検索して、
上記第１の文字列に該当する漢字混りの表記文字からな
る第２の文字列をめるものである。変換辞書３は、例え
ば第２図にそのメモリ構成を示すように、入力見出し表
領域３ａ、出力見出し表領域３ｂ、品詞領域３ｃとを備
え、上記入力見出し表領域３ａａに読みを表わす第１の
文字列を格納し、またこの第１の文字列に対応する漢字
混りの表記文字からなる第２の文字列（単語）を上記出
力見出し表領域３ｂに格納したものとなっている。そし
て品詞領１＠ｉ３Ｃには、上記第１および第２の文字列
に対する品詞の情報を格納している。

しかして文節抽出部２Ｇは、与えられた入力文字列に対
して、例えば公知の前方最長一致法により、変換辞書３
の入力見出し表領域３ａに予め登録されている文字列（
単語）を検索し、その活用語尾および付属語の解析を行
って、入力文字列の類字から最も長く一致する入力文字
列部分を文節抽出結果としてめている。この時、上記活
用語尾の解析は品詞領域３Ｃに格納された品詞情報に基
いて行われる。そして、この解析によって見出された文
節抽出結果に対応する漢字混りの表記文字からなる第２
の文字列を前記出力見出し表領域３ｂから読出し、これ
を出力している。また前記総文節系列抽出部２ｂは、前
記文節抽出部２Ｃへの入力単位（文節抽出結果）を、与
えられた入力文字列に対して定められたブロック区間に
おける文節分割可能な組合わせについて様々に変化させ
て、その最も確からしい文節系列をめている。このよう
な文節系列（文節抽出結果の列）に対して、前記ブロッ
ク抽出部２ａは各ブロック毎にそれらの漢字混り表記か
らなる第２文字列を上記総文節系列抽出部２ｂより得て
、これを出力データメモリ５および出力制御部４を介し
て表示装置６に出力している。

ところで前記出力データメモリ５は、例えば第３図（ａ
）に示すように、前記辞書検索部２によって変換された
見出し詔を、前記ブロック区間にお【プる文節の組合ゼ
の構造と共に記憶するものである。第４図は上記出力デ
ータメモリ５の構成例を示すものである。この出力デー
タメモリ５の上記組合せの構造を格納する組合せテーブ
ル５ａは、前記入力・文字列の文部構造に対応して、各
文節の並びを例えば番号付【プして記述するもので、そ
の行は文節構造の解釈上の種類を示しており、またその
列は個々の文節構造における文節の繋がりを順に記述し
たものとなっている。また組合せテーブル５ａに示され
た数値は文「、即ち対応する読み仮名が同一の見出し語
群をまとめたブロックに付した番号であって、そのマツ
ピングテーブル５ｂにおける同じ番号の領域を指してい
る。また組合せテーブル５ａに示された数値は文節、即
ち対応する読み仮名が同一の見出し語群をそれぞれまと
めたブロックに付した番号であって、そのマツピングテ
ーブル５ｂにお【ノる同じ番号の領域を指している。

さらに前記マツピングテーブル５ｂには、見出し語テー
ブル５Ｃの、対応する各文節ブロックを示すポインタが
記述されている。このようにして前記第３図（ｂ）（ｃ
）に示？ｌ−Ｊ：うに文節解析された各文節系列は、そ
れぞれその見出し語群を同−文節毎にブロック化されて
出力データメモリ５に記憶される。

次に第３図（ａ）に示す具体的な入力例を用いて、前記
仮名漢字変換部２の動作例につき説明する。

ブロック抽出部２ａは入力された文字系列の先頭文字位
置から、最大Ｎ文節の系列を可能な限りめる。ここでＮ
を例えば４とすると、第３図（ａ）の例では先づ入力系
列全体を文節抽出部２Ｃに入力し、最長一致法により「
そして」を第１の文節結果として得る。次にこの文節切
目以降を始点（次の文節開始文字位置）として同様に最
長一致結果をめ、「こんどのと」なる文節を得る。この
ような処理を順に繰返して第１の文節系列候補「そして
／こんごのと／うしは／かいていし」を第３図（ｂ）の
項目「ア］の如くめる。次に上記項目「ア」で得られた
ものと別の文節系列を得るために、例えばその第３番目
の文節結果「うしは」の最後の１文字を削除してこれを
文節抽出部２Ｃに送り、同様にして最長一致結果「うし
」なる文節を得、続く「は」で始まる文節として「はＪ
をめる。以下、同様にして上記第３．第２．および第１
の文節より短い文節が得られる都度、更にこれらに続く
別の文節系列を順次求める。このようにして入力文字列
に対して文節分離可能な全ての４文節系列を第３図（ｂ
）に示す如くめる。尚この時、対応する漢字混じりの見
出し語候補（第２の文字列）も同時にめておく。

次にこれらの系列のうちで、その全体の長さが最長とな
る候補（文節系列）だけに着目する。このことは先に示
したように入力による文節数が最小のとなる系列が、入
力目的とする変換結果に合っている傾向が高いという事
実に立脚している。

このことは一つのブロックの文節構成数が最小であれば
よく、また文節の構成数が同じであれば、そのブロック
はより長い長さをもつことを意味している。

しかして前記第３図（ｂ）の如くめられた結果の中で、
最長の文節系列は項目「ア」および「つ」である。そこ
で次にこれらの文節系列が共通に文節の切れ目をもって
いる個所を見つける。

この例では「そして／〜」と「〜は／〜」とが各文節系
列の共通した文節の切れ目の位置としてめられる。ブロ
ック抽出部２ａはこのような２つの位置をブロックの区
切りと判定するもので、第１ブロック区間を「そして」
、第２ブロック区間を「こんどのとうしは」とする。そ
して順次これらの区間の文字列を総文節列解析部２ｂに
解析させ、それらの変換結果を出力制御部４へ送ってい
る。

この結果、−上記第１ブロック区間は「そして」のみの
候補となり、この情報が先ず出力制御部４へ送られる。

しかる後、第２ブロック区間の解析が行われる。

ここで、前記総文節列解析部２ｂは、与えられたブロッ
ク区間の読みに対応した文字系列を、所謂総当りでめる
ものであるが、実際は第３図（ｂ）に示すように既に文
節系列がめられているので、その指定区間の範囲に対応
するものだけを選べば十分である。そして優先度の評価
として、例えば文節数最小の構成の候補だけを選べばそ
の解析結果は第３図（ｄ）の項目「■」のようになる。

勿論、その他の文節候補列も出力データメモリ５に与え
ておくようにしてもよい。例えば［今後の／問う７誌は
］をも、その出力結果に加えることも可能である。

さて、ブロック抽出部２ａは、次に前記入力文字系列の
うちで未だにブロックが決定していない残りの部分、つ
まり「かいていしげ・・・・・・」なる文字列について
、同様の方法でブロックの単位をめ、第３図（（１）の
項目「■」に示す如き変換結果をめている。続いて変換
結果「限って」を第３図（ｄ）の項目ｒ　ＩＶ　Ｊの如
くめ、その入力系列全体に対する変換を終了することに
なる。

ここで、Ｎ＝４とした時、最大３文節までの長さをブロ
ック区間としたのは次の理由による。仮にここでＮを３
として、最大３文節を、即ちＮ文節をブロック区間とす
ると、上述した「かいていし・・・」の例のような場合
、［かいていし／げんかい／はつにか／」が最長の文節
数としてめられる。ところがこれを［はつにか（−初荷
か）」と区切ってしまうと次の文字列「ぎっ〜」のよう
な文節が検索辞書に存在しないので、この先についての
解析が不能となり、結果的には文節の誤分割が生じる。

つまり、第４文節目の「かぎって」が存在してこそ、第
３文節目までの成立性が高く評価されることになる。ち
なみにこの例のように、Ｎを４とすると、第４文節目の
後端はブロックの切れ目として不確実となるが、第４文
節の終端がより後方にあれば、その直前迄は文節の切れ
目としては確かであると看做すことができる。上述した
ブロック区間の設定はこのような性質を利用したもので
ある。しかる後、以上の如くしてめられた変換結果は、
各ブロック毎に出力制御部４へ送られ、出力制御部４で
はこれらのデータを出力データメモリ５に順次スタック
し、表示装置６に出力して表示している。

この結果表示装置６では、上述した変換処理結果を受け
て、「（そして）」、「（今後のと）（牛は）」、［（
改定し）（限界）（発に）」、「（限って）」と順に変
換結果を表示することになる。ここで前記入力装置１に
は、目的とする見出し語選択のための選択キー１ａ、１
ｂが設けられている。これらの選択キー１ａ、１ｂの選
択操作により、例えば、「（今後のと）」の部分にカー
ソルを合わせて、前記第１の選択キー１ａが入力操作さ
れたとき、第３図（ｄ）中の第１候補の構造に変えて、
第２候補の文節列構造、即ち［（今後の）（投資は）」
が出力表示される。また第２の選択キー１ｂは、例えば
［（改定）（資源）（開発）」のブロック部分のく改定
）のところで、その同一文節候補の中の（海底）に変更
するために用いられるものである。

しかして表示装置６は第１選択キー１ａが入力操作され
たとき、現在表示中の文節構造に変えて前記組合せテー
ブル５ａに示された次の候補の文節構造について表示を
行う。その後第１の選択キー１ａが次々に入力操作され
れば、その表示する文節の構造を順に次の候補に切換え
、全ての候補を表示した後には、再び第１候補の構造を
表示するというように表示制御している。また第２の選
択キー１ｂが入力操作された時は、その時の画面上のカ
ーソル位置にある文節の見出し語に変えて、その見出し
語と同一文節ブロックに存在する他の同音語を見出し語
テーブル５Ｃから読み出し、これを表示出力する。この
表示の切換えはマツピングテーブル５ｂにおけるポイン
タの値を進めることにより行われる。そして表示すべき
見出し語が前記見出し語テーブル５Ｃにおける文節ブロ
ックの終り位置まできたとき、上記表示すべき見出し詔
を再びそのブロックの先頭に戻すように制御される。

第５図はこの装置における仮名漢字変換処理の概略的な
制御の流れを示すものである。この図に示されるように
、入力装置１の各種キーを介して入力される入力コード
は常時調べられており、その入力コードが日本語文の「
よみ」に対応する仮名文字コードであれば、順次スタッ
クに蓄えられる。またその入力コードが変換要求を示す
ものであれば、上記スタックに蓄えられた入力文字コー
ド列について、例えば第６図に示すような処理の流れに
沿って仮名漢字変換処理が行われる。尚、この第６図は
前）ホした処理を図示したものである。

この変換要求は、前記入力装置１が変換要求キーを有し
ている場合、オペレータが適当な長さの文字列を入力し
た後、上記変換要求キーを打鍵することにより発生され
る。また入力装置１が前記変換要求キーを有するか否か
にかかわらず、予め定められた艮ざの文字列が前記スタ
ックに蓄えられたことを検出して、或いは入力コードが
句読点を示すコードであることを検出して、自動的に前
記変換要求を発生さゼるようにすることが望ましい。

また入力コードが前記第１または第２の選択キー１ａ１
１ｂに対応したものであるときには、例えば第７図に示
す処理の流れに沿って同音語選択処理を行ない、その他
のコードの場合（例えば訂正、挿入、削除等）には、既
に変換処理が行われて表示された文章についての編集処
理が行なわれる。

ところで一般に日本語ワードプロセッサでは、同音語の
選択を各変換結果毎に逐次実行するものと、例えば１頁
分の文字列の入力後に一括して選択するものがあるが、
上述した本発明に係る処理はそのいずれにも適用できる
ことは云うまでもない。

以上説明したように本装置によれば、入力仮名文字列が
比較的長くても、これを解析して漢字混り文字列に変換
して日本語文章を作成していく際、その結果として生ず
る多数の文節系列の候補を、膨大なメモリ量および多大
な処理時間を費やすことなく、能率的にめることができ
る。従って、処理速度の向上および装置コストの低減を
図り、またオペレータに与える負担を大幅に軽減できる
等、実用上絶大なる効果が奏せられる。

尚、本発明は上記実施例に限定されるものではない。例
えば、ブロック抽出部２ａは、入力文字列に対して、そ
の文節の始まり位置が共通となる全ての文節を同時にめ
るものであってもよい。例えば、前述した「そしてこん
・・・・・・」なる入力文字列に対して、［そして（そ
して）、そしく阻止）」、「シて（仕手）」、「て（手
）」、［こんこのと（今後のと）、こんこの（今後の）
、こんごく今＠）、こん（今）ｊ、・・・・・・と云う
ように変換結果をめるようにしてもよい。そしてこれら
のうち、「今後のと、今後の、今後」なる文節は自立語
単語が共通であり、付属語列のとり方だけが異なるので
、このような場合には「今後」なる単語については１回
だけ辞書検索すればよいことになる。そして、順次得ら
れる各文節候補の中から、その都度文節系列をつくり、
Ｎ文節まで（ｑられた時にブロックの分割の評価処理を
行うようにすることも可能である。その他、本発明はそ
の要旨を逸脱しない範囲で種々変形して実施することが
できる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す装置概略構成図、第２
図は変換辞書のメモリの構成を示す図、第３図は入力文
字列とその文節分割した文節系列の例を示す図、第４図
は出力データメモリの構成例を示す図、第５図乃至第７
図は実施例装置における変換処理の流れを示す図である
。１・・・入力装置、２・・・仮名漢字変換部、３・・・
変換辞書、４・・・出力制御部、５・・・出力データメ
モリ、６・・・表示制御部、１ａ・・・第１の選択キー
、１ｂ・・・第２の選択キー、２ａ・・・ブロック抽出
部、２ｂ・・・総文節系列抽出部、２Ｃ・・・文節抽出
部、３ａ・・・入力見出し表領域、３ｂ・・・出力見出
し表領域。出願人代理人　弁理士　鈴江武彦第２図第３図第３図（ｄ）第　５　図第６図

Claims

【特許請求の範囲】

一連の入力文字列を得るための入力装置と、複数の単語
を辞書登録した辞書検索部と、前記入力装置を介して入
力された入力文字列中の指定された文字位置より始まる
部分文字列の中で、前記辞書検索部に登録された単語と
一致する部分文字列をそれぞれ文節単位として抽出する
文節抽出部と、前記入力文字列内の指定されたブロック
区間に対して、１つの抽出された文節単位の次の文字位
置を新たに指定された文字位置として上記文節抽出部に
よる文節単位抽出処理を繰返し行わしめ、この処理によ
って順にめられる文ｄ単位の列からなる文節系列を前記
ブロック区間の文節分割可能な全ての組合わせについて
それぞれめる総文節系列抽出部と、前記入力文字列に対
して上記総文節系列抽出部が作用する前記ブロックの単
位をめるブロック抽出部とを具備し、該ブロック抽出部
は、予め定めた数値Ｎに対し、前記文節抽出部が繰返し
処理を実行してめた前記指定された文字位置より連続し
た全てのＮ文節系列の中で最長の長さをもつ系列の全て
において第（Ｎ−１）番目以内で、且つ文節終端位置が
同一である文字位置を前記ブロックの終点として決定す
ることを特徴とする仮名漢字変換装置。