JPH01217551A - 文書作成装置及び文書作成方法 - Google Patents

文書作成装置及び文書作成方法

Info

Publication number
JPH01217551A
JPH01217551A JP63042512A JP4251288A JPH01217551A JP H01217551 A JPH01217551 A JP H01217551A JP 63042512 A JP63042512 A JP 63042512A JP 4251288 A JP4251288 A JP 4251288A JP H01217551 A JPH01217551 A JP H01217551A
Authority
JP
Japan
Prior art keywords
clause
character string
phrase
reading
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63042512A
Other languages
English (en)
Other versions
JP2758164B2 (ja
Inventor
Akiyoshi Kuromori
黒森 明美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63042512A priority Critical patent/JP2758164B2/ja
Publication of JPH01217551A publication Critical patent/JPH01217551A/ja
Application granted granted Critical
Publication of JP2758164B2 publication Critical patent/JP2758164B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的コ (産業上の利用分野) 本発明は、複数の文節を含む文字列を文節に切断して一
括かな漢字変換する機能を備えた日本語文書処理装置に
関する。
(従来の技術) 複数の文節を含む文字列を一括してかな漢字変換する場
合、例えば「ここではきものをぬぐ」という文字列の場
合には、 (a)[ここではコ [きものをコ [ぬぐ](b)[
ここでコ [はきものをコ [ぬぐ]の文節切断例が考
えられる。
文書作成装置は、内部に辞書として記憶している単語情
報、助詞などの付属語の情報、用言の活用の情報などの
情報に従って、例えば最長一致法として知られた方法で
(a)か(b)のいずれかの文節切断を行う。従って、
例えば、(b)の文節切断を期待して文字列の入力を行
ったにも拘らず、(a)の切断が行われてしまうた場合
がある。
この対策として、文書作成装置は、入力文字列の文節を
やり直し、最初の文節切断とは異なる文節切断の候補を
再出力する「文節切り直し」の機能を持っている。
(発明が解決しようとする課@) 従来の文書作成装置は、切り直された文節の切断点を覚
えていないため、同じ文字列の入力があるたびに間違っ
た文節切断が行われ、文節切り直しの作業を行わなけれ
ばならなかった。
本発明はこの問題を解決するために、入力された文字列
について切り直された文節の切断点を覚えておき、再度
同様な文字列の入力があったときには、学習した切断点
によって文節の切断を行い、オペレータの所望する変換
結果を得易(した文書作成装置を提供することを目的と
する。
[発明の構成] (課題を解決するための手段及び作用)本発明の文書作
成装置は、複数の文節を含む読みの文字列を切断可能な
文節の候補に切って漢字混じり文に変換する変換手段と
、この変換手段によって文節が誤って切られて漢字混じ
り文に変換されたとき、分節の切り直しを行って、新た
な漢字混じり文の候補に文節切り直し手段と、この切り
直された文節について、第1の文節の読み、並びに、こ
の第1の文節の次に続く第2の文節の語幹の読みとこの
語幹の品詞とからなる文節切断情報を記憶する記憶手段
とを具備する。そして、前記変換手段は、新たに読みの
文字列が入力されたときに、この文字列によって前記記
憶手段を検索し、この文字列の読みに対応した文節切断
情報が登録されているときに、登録されている文節切断
情報に従って文字列の文節切断を行い、漢字混じり文へ
の変換を行う。
この結果、−度文節切り直しによって、所望の文節切断
を行ったら、それ以降、第2文節の語幹にあたる部分ま
での文字列と第2文節にあだ部分の語幹の品詞とが同じ
文字列が入力された場合には同じ文節切断を行うように
なるので、オペレータは所望する変換結果を得易くなる
(実施例) 以下図面を参照して本発明の一実施例を説明する。
第1図は、この実施例の文書作成装置のブロック図であ
る。
この文書作成装置の機能を司るマイクロプロセッサ(C
PU)11の管理のもとに、オペレータとのインタフェ
ースとなるキーボード(KB)14、LCD表示器16
、プリンタ(PRT)19が設けられる。更に、CPU
I 1が実行する機能の各種プログラム、前述した変換
用の辞書が記憶されたROM11、文書保存のためのフ
ロッピーディスク(F D)が装着され、このFDから
文書の読みだし、書込みを行うフロッピーディスクドラ
イブ(FDD)21、作成中の文書、CPUIIによる
前記プログラムの実行に必要なデータを記憶するランダ
ムアクセスメモリ(RAM)13が設けられる。前記K
B14、LCD16、PRT19、FDD21はCPU
11との間のデータの授受を制御する各々のインタフェ
ース(KB−IF15、表示CNT17、PRT−I 
F20、FDD−I F22)を介して、CPUIIの
バスに接続されている。CNT17は、CPU11から
送られた文字パターンデータをLCD表示器16に表示
するための表示用ドツトメモリ18が接続されており、
表示CNT17は表示用ドツトメモリ18からドツトパ
ターンを読み出してLCD表示器16に送っている。以
上の構成は従来の文書作成装置の構成と同じなので詳細
な説明は省略する。また、かな漢字変換の手法、文節切
断の手法については、様々な文献で紹介されているので
説明を省く。
本実施例の文書作成装置の特徴は、RAM13の中に、
切り直された文節の文節切断情報が登録されるテーブル
として、検索テーブル131と文節テーブル132とを
設けることにある。そして、CPUI 1の実行する機
能として、文節の切り直しの時点で文節の切断点の情報
を前記テーブルに登録する機能と、文字列が入力された
ときに前記テーブルを参照して、入力された文字列が前
に切り直された文字列と同様な文字列(同様としたのは
、第2文節の活用が変化したり、助詞が変わっていたり
しても同じ文字列どして扱うことによる)であるときに
同じ文節切断を行う機能を付与したことにある。
第2図は、検索テーブル131と文節テーブル132と
のデータ記憶形態を示す図である。
検索テーブル131は、入力文字列の文節切断情報が登
録されているか否かの検索を高速化するために設けられ
たテーブルであり、第1文節の読みの先頭から2文字が
50音順に見出しとして記憶され、さらに各々に対応し
て、前記2文字に続く文字列が記憶されている文節テー
ブル132ののエントリを示す情報(Paint)が記
憶されている。入力文字列全体を登録された読みと比較
しなくても、その先頭の2文字だけ比較して登録されて
いる可能性があるか否かを確認できる。
Pa1ntで示された文節テーブル132のエントリに
は、第1文節の残りの読みと第2文節の語幹までの読み
の文字列と、第1文節の読みの長さ、第2文節の語幹の
読みの長さ、及び、第2文節の語幹の品詞を示す情報が
記憶されている。
第2文節までを登録の対象としたのは、文節の切断は後
の文節との絡みで決定されるのが一般的であり、第1文
節の読みだけの登録では、第2文節がどんな場合にも画
一的な切断となってしまう不具合が生じるからである。
例えば、第2文節によらず、[ここで]を文節のくぎり
として覚えてしまうと、 [ここではきれいにしよう] という文節が入力されても、 [ここでコ [はきれいに][シよう]と切断してしま
い、変換が無意味なものなってしまう。
また、第2文節の語幹のみを覚えるのは、入力文字列の
第2文節では、語幹に続く助詞、又は、活用語尾が様々
に変化するので、第2文節の全体を覚えてしまうと極め
て狭い学習となってしまうからである。
更に、第2文節の語幹の品詞を覚えるのは、全く同じ文
字列でも、意味の異なる場合が生じるからである。
例えば、[ここではねを]という文字列に対して、[こ
こでは] [根を]という変換結果から[ここで] [
はねをコという文節切り直しを行って[ここで] [は
ね]という、[はね]の品詞情報のない文節切断情報を
覚えたとする。
この場合、 ■[ここではねる](「はね」は動詞)■[ここではね
をコ(「はね」は名詞)は両方とも「ここで」で切断さ
れ、 ■[ここで] [跳ねる] ■[ここで] [羽を] と変換される。
しかし、オペレータは、■の変換はOKでも、■の文字
列に対しては、 [ここでは] [哀る] という文節切断、変換を望んでいる可能性もある。
[はね]の品詞情報を名詞と覚えておけば、上記■の場
合のみが登録の対象となって、■のような誤変換がおこ
る可能性がなくなり変換効率が上がる。
更に、例えば、 [1134kmでは] [やめる] から、 [1134kmで] [はや(速)メル]のような文節
切り直しが行われた場合、数字の部分、英字の部分の内
容は様々に変わる可能性が高い。従って、文字列そのも
のを覚えてしまうと、[2639kmではやめるコ というような文字列が入力されると、切断情報未登録と
して処理されてしまい、学習機能として効率が悪い。
このため本実施例では、かな文字列以外の漢字への変換
の対象とならない字種、例えば、数字文字列、英字文字
列、記号文字列、カタカナ文字列は、文字列を覚えるの
ではなく、字種を示すコードで記憶しておく。
例えば、上の例では、[数字コードコ [英字コードコ
が(実際に数字文字列、英字文字列が何文字あろうとも
)2文字分として検索テーブル131に記憶され、残り
の文字列[ではやめ]がPa1ntで示された文節テー
ブル132のエントリに記憶される。
第3図は、変換結果を得るまてのCPUI 1の処理の
流れを示している。変換の対象となる文字列の入力があ
り、変換を行った結果所望する文節が得られなかったと
きに、KB14から文節切り直し指示(特定のキーの押
下)がなされる。このとき、CPUIIは文節切断の機
能を再度実行して、新たに文節切断された文字列をLC
D表示器16に表示する。最初の変換では、例えば[で
はコが助詞として認識され切断されたが、[で]単独で
も助詞となりうるので、文節切り直しによって[でコを
第1文節の切断点として、以降の文字列の文節切断を実
行していく。この切り直しの時点で、前述した文節切断
情報がテーブル131.132に登録される。尚、文節
切断の実行の際に、文字列で辞書を検索し単語の抽出と
品詞のチエツク、接続関係のチエツク等の文法チエツク
が行われる事は周知であるが、この過程で第2文節の語
幹の抽出と品詞の情報が得られる。
第4図は、文節切断情報がテーブル131.132に文
節切断情報を登録する際の、CPU11の処理の流れを
示している。
ただし、文節切り直しの過程で、 ■[で]で切断。
■「ここコ :辞書に単語として登録あり。
■「はきものをぬぐ」で辞書検索。
■「はきもの」 :辞書に名詞の単語としてあり。
■「を」 ;辞書に助詞として登録あり、かつ、「はき
もの」 (名詞)との接続OK0■「ぬぐ」 :動詞と
して辞書に登録あり。
という動作が行われており、この過程で得られた第1文
節の先頭2文字の読みが検索テーブル131に記憶され
(S7)、第1文節の残りの文字列と第1文節の読みの
長さ、及び、第2文節の語幹の読み、長さ、品詞の情報
が文節テーブルに記憶される(S9)。
第5図は、変換対象となる文字列が入力され、変換がC
PUIIに指示され、文節の切断、変換という機能が実
行されるとき、この機能の中で前記テーブル131.1
32が参照されるという処理の流れを示した図である。
[発明の効果] 以上詳記したように本発明によれば、文節の切り直しが
行われた場合、第1文節の読みと第2文節の語幹の読み
と品詞の情報を文節切断情報として学習するようにした
ので、学習した以降の文字列で登録したと同様な文字列
が存在した場合には同じ文節切断を行うことができる。
しかも第2文節の語幹の読みと品詞の情報を文節切断情
報として学習しているので、学習の結果が無意味な文節
切断に利用される可能性が少なくなり、変換効率の一層
の向上をもたらす。
【図面の簡単な説明】
第1図は実施例の文書作成装置のブロック図、第2図は
文節切断情報登録テーブルの構成を示す図、第3図は入
力文字列の変換と文節切り直しの処理の流れを示す図、
第4図は文節切り直しの処理グにおける文節切断情報の
登録処理の流れを示す図、第5図は登録された文節切断
情報を利用した入力文字列の変換処理における文節切断
の処理の流れを示す図である。 131・・・・・・検索テーブル、132・・・・・・
文節テーブル。 出願人代理人  弁理士 鈴江武彦 第1@ 第4 第5図 手続補正書 昭和63年5月ノア日 特許庁長官  小 川 邦 夫 殿 1、事件の表示 特願昭63−42512号 2、発明の名称 文書作成装置 3、補正をする者 事件との関係  特許出願人 (307)  株式会社 東芝 4、代理人 東京都千代田区霞ケ関3丁目7番2号 UBEビル7、
補正の内容 (1)、特許請求の範囲を別紙の通り訂正する。 (2)、明細書第3頁第2行目乃至同頁第3行目に「日
本語文書処理装置」とあるを「文書作成装置」と訂正す
る。 (3)、明細書第3頁第17行目に「しまうた場合があ
る。」とあるを「しまう場合がある。」と訂正する。 (4)、明細書第4頁第19行目に「分節」とあるを「
文節」と訂正する。 。 (5)、明細書第5頁第13行目に「あた部分」とある
を「あたる部分」と訂正する。 (6)8図面、第1図、及び第2図をそれぞれ別紙の通
り訂正する。 2、特許請求の範囲 (1)、複数の文節を含む読みの文字列を切断可能な文
節の候補に切って漢字混じり文に変換する変換手段と、
この変換手段によって文節が誤って切られて漢字混じり
文に変換されたとき、文節の切り直しを行って、新たな
漢字混じり文の候補に文節切り直し手段と、この切り直
された文節について、第1の文節の読み、並びに、この
第1の文節の次に続く第2の文節の語幹の読みとこの語
幹の品詞とからなる文節切断情報を記憶する記憶手段と
を具備し、前記変換手段は、新たに読みの文字列が入力
されたときに、この文字列によって前記記憶手段を検索
し、この文字列の読みに対応した文節切断情報が登録さ
れているときに、登録されている文節切断情報に従って
文字列の文節切断を行い、漢字混じり文への変換を行う
ことを特徴とした文書作成装置。 (2)、前記記憶手段は、前記確定された文節の読みの
内、先頭から少なくとも2文字のみが記憶されたテーブ
ルを持ち、前記変換手段は入力された読みの文字列の内
の先頭から少なくとも2文字により前記テーブルを検索
し、文節切断情報の登録の有無の判断を行うことを特徴
とする特許請求の請求の範囲第1項記載の文書作成装置
。 (3)、前記文節切り直し手段によって切られた第1の
文節が変換の対象となるかな以外の字種の文字列と付属
語との組合わせであった場合、前記記憶手段はその文字
列の字種のみを記憶し、前記変換手段は、入力された文
字列の第1文節にあたる部分の文字列の字種が前記かな
以外の字種であった場合には、その字種の文字列につい
ては字種が一致を文節切断情報の登録有無の判断として
行うことを特徴とする特許請求の請求の範囲第1項記載
の文書作成装置。 出願人代理人  弁理士 鈴江武彦 第1図

Claims (3)

    【特許請求の範囲】
  1. (1)、複数の文節を含む読みの文字列を切断可能な文
    節の候補に切って漢字混じり文に変換する変換手段と、
    この変換手段によって文節が誤って切られて漢字混じり
    文に変換されたとき、分節の切り直しを行って、新たな
    漢字混じり文の候補に文節切り直し手段と、この切り直
    された文節について、第1の文節の読み、並びに、この
    第1の文節の次に続く第2の文節の語幹の読みとこの語
    幹の品詞とからなる文節切断情報を記憶する記憶手段と
    を具備し、前記変換手段は、新たに読みの文字列が入力
    されたときに、この文字列によって前記記憶手段を検索
    し、この文字列の読みに対応した文節切断情報が登録さ
    れているときに、登録されている文節切断情報に従って
    文字列の文節切断を行い、漢字混じり文への変換を行う
    ことを特徴とした日本語文書処理装置。
  2. (2)、前記記憶手段は、前記確定された文節の読みの
    内、先頭から少なくとも2文字のみが記憶されたテーブ
    ルを持ち、前記変換手段は入力された読みの文字列の内
    の先頭から少なくとも2文字により前記テーブルを検索
    し、文節切断情報の登録の有無の判断を行うことを特徴
    とする特許請求の請求の範囲第1項記載の日本語文書処
    理装置。
  3. (3)、前記文節切り直し手段によって切られた第1の
    文節が変換の対象となるかな以外の字種の文字列と付属
    語との組合わせであった場合、前記記憶手段はその文字
    列の字種のみを記憶し、前記変換手段は、入力された文
    字列の第1文節にあたる部分の文字列の字種が前記かな
    以外の字種であった場合には、その字種の文字列につい
    ては字種が一致を文節切断情報の登録有無の判断として
    行うことを特徴とした特許請求の請求の範囲第1項記載
    の日本語文書処理装置。
JP63042512A 1988-02-25 1988-02-25 文書作成装置及び文書作成方法 Expired - Lifetime JP2758164B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63042512A JP2758164B2 (ja) 1988-02-25 1988-02-25 文書作成装置及び文書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63042512A JP2758164B2 (ja) 1988-02-25 1988-02-25 文書作成装置及び文書作成方法

Publications (2)

Publication Number Publication Date
JPH01217551A true JPH01217551A (ja) 1989-08-31
JP2758164B2 JP2758164B2 (ja) 1998-05-28

Family

ID=12638121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63042512A Expired - Lifetime JP2758164B2 (ja) 1988-02-25 1988-02-25 文書作成装置及び文書作成方法

Country Status (1)

Country Link
JP (1) JP2758164B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272792A (ja) * 1995-03-31 1996-10-18 Canon Inc 文字処理装置及びその方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61173377A (ja) * 1985-01-29 1986-08-05 Matsushita Electric Ind Co Ltd 日本語文作成装置
JPS6210763A (ja) * 1985-07-08 1987-01-19 Ricoh Co Ltd 仮名漢字変換処理装置
JPS62145463A (ja) * 1985-12-20 1987-06-29 Ricoh Co Ltd 仮名漢字変換方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61173377A (ja) * 1985-01-29 1986-08-05 Matsushita Electric Ind Co Ltd 日本語文作成装置
JPS6210763A (ja) * 1985-07-08 1987-01-19 Ricoh Co Ltd 仮名漢字変換処理装置
JPS62145463A (ja) * 1985-12-20 1987-06-29 Ricoh Co Ltd 仮名漢字変換方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272792A (ja) * 1995-03-31 1996-10-18 Canon Inc 文字処理装置及びその方法

Also Published As

Publication number Publication date
JP2758164B2 (ja) 1998-05-28

Similar Documents

Publication Publication Date Title
US7302640B2 (en) Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
EP0370774B1 (en) Machine translation system
WO2001035249A2 (en) Language input architecture for converting one text form to another text form with modeless entry
Chang A new approach for automatic Chinese spelling correction
US5079701A (en) System for registering new words by using linguistically comparable reference words
JPH01217551A (ja) 文書作成装置及び文書作成方法
JP2621999B2 (ja) 文書処理装置
JPH0130173B2 (ja)
JPS62267872A (ja) 言語解析装置
JPS63118868A (ja) 日本語文章校正装置
JP2894064B2 (ja) 機械翻訳装置
JPH0724054B2 (ja) デ−タ処理装置
JP2592993B2 (ja) 文節切り出し装置
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH0340063A (ja) ワードプロセッサ
JPS62143178A (ja) 自然言語翻訳方式
JPS61114366A (ja) 日本語テキストデ−タの校正処理方式
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
Kawada Inputting Japanese from the keyboard
JPH10269221A (ja) 未登録語処理方式
JPH08241315A (ja) 文書処理装置の単語登録機構
JPH03136161A (ja) 文書作成装置
Luper-Foy E/G Word, Japanese word processor for the Macintosh
JPH11232268A (ja) 文書処理装置、ルビ割り付け方法、及び記録媒体