JPH01217551A

JPH01217551A - 文書作成装置及び文書作成方法

Info

Publication number: JPH01217551A
Application number: JP63042512A
Authority: JP
Inventors: Akiyoshi Kuromori; 黒森　明美
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1988-02-25
Filing date: 1988-02-25
Publication date: 1989-08-31
Anticipated expiration: 2013-05-28
Also published as: JP2758164B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的コ（産業上の利用分野）本発明は、複数の文節を含む文字列を文節に切断して一
括かな漢字変換する機能を備えた日本語文書処理装置に
関する。

（従来の技術）複数の文節を含む文字列を一括してかな漢字変換する場
合、例えば「ここではきものをぬぐ」という文字列の場
合には、（ａ）［ここではコ　［きものをコ　［ぬぐ］（ｂ）［
ここでコ　［はきものをコ　［ぬぐ］の文節切断例が考
えられる。

文書作成装置は、内部に辞書として記憶している単語情
報、助詞などの付属語の情報、用言の活用の情報などの
情報に従って、例えば最長一致法として知られた方法で
（ａ）か（ｂ）のいずれかの文節切断を行う。従って、
例えば、（ｂ）の文節切断を期待して文字列の入力を行
ったにも拘らず、（ａ）の切断が行われてしまうた場合
がある。

この対策として、文書作成装置は、入力文字列の文節を
やり直し、最初の文節切断とは異なる文節切断の候補を
再出力する「文節切り直し」の機能を持っている。

（発明が解決しようとする課＠）従来の文書作成装置は、切り直された文節の切断点を覚
えていないため、同じ文字列の入力があるたびに間違っ
た文節切断が行われ、文節切り直しの作業を行わなけれ
ばならなかった。

本発明はこの問題を解決するために、入力された文字列
について切り直された文節の切断点を覚えておき、再度
同様な文字列の入力があったときには、学習した切断点
によって文節の切断を行い、オペレータの所望する変換
結果を得易（した文書作成装置を提供することを目的と
する。

［発明の構成］（課題を解決するための手段及び作用）本発明の文書作
成装置は、複数の文節を含む読みの文字列を切断可能な
文節の候補に切って漢字混じり文に変換する変換手段と
、この変換手段によって文節が誤って切られて漢字混じ
り文に変換されたとき、分節の切り直しを行って、新た
な漢字混じり文の候補に文節切り直し手段と、この切り
直された文節について、第１の文節の読み、並びに、こ
の第１の文節の次に続く第２の文節の語幹の読みとこの
語幹の品詞とからなる文節切断情報を記憶する記憶手段
とを具備する。そして、前記変換手段は、新たに読みの
文字列が入力されたときに、この文字列によって前記記
憶手段を検索し、この文字列の読みに対応した文節切断
情報が登録されているときに、登録されている文節切断
情報に従って文字列の文節切断を行い、漢字混じり文へ
の変換を行う。

この結果、−度文節切り直しによって、所望の文節切断
を行ったら、それ以降、第２文節の語幹にあたる部分ま
での文字列と第２文節にあだ部分の語幹の品詞とが同じ
文字列が入力された場合には同じ文節切断を行うように
なるので、オペレータは所望する変換結果を得易くなる
。

（実施例）以下図面を参照して本発明の一実施例を説明する。

第１図は、この実施例の文書作成装置のブロック図であ
る。

この文書作成装置の機能を司るマイクロプロセッサ（Ｃ
ＰＵ）１１の管理のもとに、オペレータとのインタフェ
ースとなるキーボード（ＫＢ）１４、ＬＣＤ表示器１６
、プリンタ（ＰＲＴ）１９が設けられる。更に、ＣＰＵ
Ｉ　１が実行する機能の各種プログラム、前述した変換
用の辞書が記憶されたＲＯＭ１１、文書保存のためのフ
ロッピーディスク（Ｆ　Ｄ）が装着され、このＦＤから
文書の読みだし、書込みを行うフロッピーディスクドラ
イブ（ＦＤＤ）２１、作成中の文書、ＣＰＵＩＩによる
前記プログラムの実行に必要なデータを記憶するランダ
ムアクセスメモリ（ＲＡＭ）１３が設けられる。前記Ｋ
Ｂ１４、ＬＣＤ１６、ＰＲＴ１９、ＦＤＤ２１はＣＰＵ
１１との間のデータの授受を制御する各々のインタフェ
ース（ＫＢ−ＩＦ１５、表示ＣＮＴ１７、ＰＲＴ−Ｉ　
Ｆ２０、ＦＤＤ−Ｉ　Ｆ２２）を介して、ＣＰＵＩＩの
バスに接続されている。ＣＮＴ１７は、ＣＰＵ１１から
送られた文字パターンデータをＬＣＤ表示器１６に表示
するための表示用ドツトメモリ１８が接続されており、
表示ＣＮＴ１７は表示用ドツトメモリ１８からドツトパ
ターンを読み出してＬＣＤ表示器１６に送っている。以
上の構成は従来の文書作成装置の構成と同じなので詳細
な説明は省略する。また、かな漢字変換の手法、文節切
断の手法については、様々な文献で紹介されているので
説明を省く。

本実施例の文書作成装置の特徴は、ＲＡＭ１３の中に、
切り直された文節の文節切断情報が登録されるテーブル
として、検索テーブル１３１と文節テーブル１３２とを
設けることにある。そして、ＣＰＵＩ　１の実行する機
能として、文節の切り直しの時点で文節の切断点の情報
を前記テーブルに登録する機能と、文字列が入力された
ときに前記テーブルを参照して、入力された文字列が前
に切り直された文字列と同様な文字列（同様としたのは
、第２文節の活用が変化したり、助詞が変わっていたり
しても同じ文字列どして扱うことによる）であるときに
同じ文節切断を行う機能を付与したことにある。

第２図は、検索テーブル１３１と文節テーブル１３２と
のデータ記憶形態を示す図である。

検索テーブル１３１は、入力文字列の文節切断情報が登
録されているか否かの検索を高速化するために設けられ
たテーブルであり、第１文節の読みの先頭から２文字が
５０音順に見出しとして記憶され、さらに各々に対応し
て、前記２文字に続く文字列が記憶されている文節テー
ブル１３２ののエントリを示す情報（Ｐａｉｎｔ）が記
憶されている。入力文字列全体を登録された読みと比較
しなくても、その先頭の２文字だけ比較して登録されて
いる可能性があるか否かを確認できる。

Ｐａ１ｎｔで示された文節テーブル１３２のエントリに
は、第１文節の残りの読みと第２文節の語幹までの読み
の文字列と、第１文節の読みの長さ、第２文節の語幹の
読みの長さ、及び、第２文節の語幹の品詞を示す情報が
記憶されている。

第２文節までを登録の対象としたのは、文節の切断は後
の文節との絡みで決定されるのが一般的であり、第１文
節の読みだけの登録では、第２文節がどんな場合にも画
一的な切断となってしまう不具合が生じるからである。

例えば、第２文節によらず、［ここで］を文節のくぎり
として覚えてしまうと、［ここではきれいにしよう］という文節が入力されても、［ここでコ　［はきれいに］［シよう］と切断してしま
い、変換が無意味なものなってしまう。

また、第２文節の語幹のみを覚えるのは、入力文字列の
第２文節では、語幹に続く助詞、又は、活用語尾が様々
に変化するので、第２文節の全体を覚えてしまうと極め
て狭い学習となってしまうからである。

更に、第２文節の語幹の品詞を覚えるのは、全く同じ文
字列でも、意味の異なる場合が生じるからである。

例えば、［ここではねを］という文字列に対して、［こ
こでは］　［根を］という変換結果から［ここで］　［
はねをコという文節切り直しを行って［ここで］　［は
ね］という、［はね］の品詞情報のない文節切断情報を
覚えたとする。

この場合、 ■［ここではねる］（「はね」は動詞）■［ここではね
をコ（「はね」は名詞）は両方とも「ここで」で切断さ
れ、 ■［ここで］　［跳ねる］ ■［ここで］　［羽を］と変換される。

しかし、オペレータは、■の変換はＯＫでも、■の文字
列に対しては、［ここでは］　［哀る］という文節切断、変換を望んでいる可能性もある。

［はね］の品詞情報を名詞と覚えておけば、上記■の場
合のみが登録の対象となって、■のような誤変換がおこ
る可能性がなくなり変換効率が上がる。

更に、例えば、［１１３４ｋｍでは］　［やめる］から、［１１３４ｋｍで］　［はや（速）メル］のような文節
切り直しが行われた場合、数字の部分、英字の部分の内
容は様々に変わる可能性が高い。従って、文字列そのも
のを覚えてしまうと、［２６３９ｋｍではやめるコというような文字列が入力されると、切断情報未登録と
して処理されてしまい、学習機能として効率が悪い。

このため本実施例では、かな文字列以外の漢字への変換
の対象とならない字種、例えば、数字文字列、英字文字
列、記号文字列、カタカナ文字列は、文字列を覚えるの
ではなく、字種を示すコードで記憶しておく。

例えば、上の例では、［数字コードコ　［英字コードコ
が（実際に数字文字列、英字文字列が何文字あろうとも
）２文字分として検索テーブル１３１に記憶され、残り
の文字列［ではやめ］がＰａ１ｎｔで示された文節テー
ブル１３２のエントリに記憶される。

第３図は、変換結果を得るまてのＣＰＵＩ　１の処理の
流れを示している。変換の対象となる文字列の入力があ
り、変換を行った結果所望する文節が得られなかったと
きに、ＫＢ１４から文節切り直し指示（特定のキーの押
下）がなされる。このとき、ＣＰＵＩＩは文節切断の機
能を再度実行して、新たに文節切断された文字列をＬＣ
Ｄ表示器１６に表示する。最初の変換では、例えば［で
はコが助詞として認識され切断されたが、［で］単独で
も助詞となりうるので、文節切り直しによって［でコを
第１文節の切断点として、以降の文字列の文節切断を実
行していく。この切り直しの時点で、前述した文節切断
情報がテーブル１３１．１３２に登録される。尚、文節
切断の実行の際に、文字列で辞書を検索し単語の抽出と
品詞のチエツク、接続関係のチエツク等の文法チエツク
が行われる事は周知であるが、この過程で第２文節の語
幹の抽出と品詞の情報が得られる。

第４図は、文節切断情報がテーブル１３１．１３２に文
節切断情報を登録する際の、ＣＰＵ１１の処理の流れを
示している。

ただし、文節切り直しの過程で、 ■［で］で切断。

■「ここコ　：辞書に単語として登録あり。

■「はきものをぬぐ」で辞書検索。

■「はきもの」　：辞書に名詞の単語としてあり。

■「を」　；辞書に助詞として登録あり、かつ、「はき
もの」　（名詞）との接続ＯＫ０■「ぬぐ」　：動詞と
して辞書に登録あり。

という動作が行われており、この過程で得られた第１文
節の先頭２文字の読みが検索テーブル１３１に記憶され
（Ｓ７）、第１文節の残りの文字列と第１文節の読みの
長さ、及び、第２文節の語幹の読み、長さ、品詞の情報
が文節テーブルに記憶される（Ｓ９）。

第５図は、変換対象となる文字列が入力され、変換がＣ
ＰＵＩＩに指示され、文節の切断、変換という機能が実
行されるとき、この機能の中で前記テーブル１３１．１
３２が参照されるという処理の流れを示した図である。

［発明の効果］以上詳記したように本発明によれば、文節の切り直しが
行われた場合、第１文節の読みと第２文節の語幹の読み
と品詞の情報を文節切断情報として学習するようにした
ので、学習した以降の文字列で登録したと同様な文字列
が存在した場合には同じ文節切断を行うことができる。

しかも第２文節の語幹の読みと品詞の情報を文節切断情
報として学習しているので、学習の結果が無意味な文節
切断に利用される可能性が少なくなり、変換効率の一層
の向上をもたらす。

【図面の簡単な説明】

第１図は実施例の文書作成装置のブロック図、第２図は
文節切断情報登録テーブルの構成を示す図、第３図は入
力文字列の変換と文節切り直しの処理の流れを示す図、
第４図は文節切り直しの処理グにおける文節切断情報の
登録処理の流れを示す図、第５図は登録された文節切断
情報を利用した入力文字列の変換処理における文節切断
の処理の流れを示す図である。１３１・・・・・・検索テーブル、１３２・・・・・・
文節テーブル。出願人代理人　　弁理士　鈴江武彦第１＠第４第５図手続補正書昭和６３年５月ノア日特許庁長官　　小　川　邦　夫　殿１、事件の表示特願昭６３−４２５１２号２、発明の名称文書作成装置３、補正をする者事件との関係　　特許出願人（３０７）　　株式会社　東芝４、代理人東京都千代田区霞ケ関３丁目７番２号　ＵＢＥビル７、
補正の内容（１）、特許請求の範囲を別紙の通り訂正する。（２）、明細書第３頁第２行目乃至同頁第３行目に「日
本語文書処理装置」とあるを「文書作成装置」と訂正す
る。（３）、明細書第３頁第１７行目に「しまうた場合があ
る。」とあるを「しまう場合がある。」と訂正する。（４）、明細書第４頁第１９行目に「分節」とあるを「
文節」と訂正する。　。（５）、明細書第５頁第１３行目に「あた部分」とある
を「あたる部分」と訂正する。（６）８図面、第１図、及び第２図をそれぞれ別紙の通
り訂正する。２、特許請求の範囲（１）、複数の文節を含む読みの文字列を切断可能な文
節の候補に切って漢字混じり文に変換する変換手段と、
この変換手段によって文節が誤って切られて漢字混じり
文に変換されたとき、文節の切り直しを行って、新たな
漢字混じり文の候補に文節切り直し手段と、この切り直
された文節について、第１の文節の読み、並びに、この
第１の文節の次に続く第２の文節の語幹の読みとこの語
幹の品詞とからなる文節切断情報を記憶する記憶手段と
を具備し、前記変換手段は、新たに読みの文字列が入力
されたときに、この文字列によって前記記憶手段を検索
し、この文字列の読みに対応した文節切断情報が登録さ
れているときに、登録されている文節切断情報に従って
文字列の文節切断を行い、漢字混じり文への変換を行う
ことを特徴とした文書作成装置。（２）、前記記憶手段は、前記確定された文節の読みの
内、先頭から少なくとも２文字のみが記憶されたテーブ
ルを持ち、前記変換手段は入力された読みの文字列の内
の先頭から少なくとも２文字により前記テーブルを検索
し、文節切断情報の登録の有無の判断を行うことを特徴
とする特許請求の請求の範囲第１項記載の文書作成装置
。（３）、前記文節切り直し手段によって切られた第１の
文節が変換の対象となるかな以外の字種の文字列と付属
語との組合わせであった場合、前記記憶手段はその文字
列の字種のみを記憶し、前記変換手段は、入力された文
字列の第１文節にあたる部分の文字列の字種が前記かな
以外の字種であった場合には、その字種の文字列につい
ては字種が一致を文節切断情報の登録有無の判断として
行うことを特徴とする特許請求の請求の範囲第１項記載
の文書作成装置。出願人代理人　　弁理士　鈴江武彦第１図

Claims

【特許請求の範囲】

（１）、複数の文節を含む読みの文字列を切断可能な文
節の候補に切って漢字混じり文に変換する変換手段と、
この変換手段によって文節が誤って切られて漢字混じり
文に変換されたとき、分節の切り直しを行って、新たな
漢字混じり文の候補に文節切り直し手段と、この切り直
された文節について、第１の文節の読み、並びに、この
第１の文節の次に続く第２の文節の語幹の読みとこの語
幹の品詞とからなる文節切断情報を記憶する記憶手段と
を具備し、前記変換手段は、新たに読みの文字列が入力
されたときに、この文字列によって前記記憶手段を検索
し、この文字列の読みに対応した文節切断情報が登録さ
れているときに、登録されている文節切断情報に従って
文字列の文節切断を行い、漢字混じり文への変換を行う
ことを特徴とした日本語文書処理装置。
（２）、前記記憶手段は、前記確定された文節の読みの
内、先頭から少なくとも２文字のみが記憶されたテーブ
ルを持ち、前記変換手段は入力された読みの文字列の内
の先頭から少なくとも２文字により前記テーブルを検索
し、文節切断情報の登録の有無の判断を行うことを特徴
とする特許請求の請求の範囲第１項記載の日本語文書処
理装置。
（３）、前記文節切り直し手段によって切られた第１の
文節が変換の対象となるかな以外の字種の文字列と付属
語との組合わせであった場合、前記記憶手段はその文字
列の字種のみを記憶し、前記変換手段は、入力された文
字列の第１文節にあたる部分の文字列の字種が前記かな
以外の字種であった場合には、その字種の文字列につい
ては字種が一致を文節切断情報の登録有無の判断として
行うことを特徴とした特許請求の請求の範囲第１項記載
の日本語文書処理装置。