JP2981237B2 - 文書作成装置及び文書作成方法 - Google Patents

文書作成装置及び文書作成方法

Info

Publication number
JP2981237B2
JP2981237B2 JP1178015A JP17801589A JP2981237B2 JP 2981237 B2 JP2981237 B2 JP 2981237B2 JP 1178015 A JP1178015 A JP 1178015A JP 17801589 A JP17801589 A JP 17801589A JP 2981237 B2 JP2981237 B2 JP 2981237B2
Authority
JP
Japan
Prior art keywords
word
dictionary
connection relationship
document creation
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1178015A
Other languages
English (en)
Other versions
JPH0343858A (ja
Inventor
福美 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1178015A priority Critical patent/JP2981237B2/ja
Publication of JPH0343858A publication Critical patent/JPH0343858A/ja
Application granted granted Critical
Publication of JP2981237B2 publication Critical patent/JP2981237B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、入力された読み情報を文書文字列に変換す
る文書作成装置及び文書作成方法に関する。
(従来技術) 日本語文書作成装置には、文字列の「読み情報」を入
力し、この読み情報に対応した漢字/平仮名/片仮名/
英数字混じりの日本語文書への変換機能が備わってい
る。このような文書作成装置には、「単語の読み」と
「単語の表記(漢字/片仮名/平仮名)」との対が登録
された単語辞書といわれる記憶部が設けられ、入力され
た「読み情報」で当該辞書を検索し、対応する単語を出
力する機能が備わっている。この機能は「カナ漢字変
換」として古くから知られている。例えば、1973年に発
行された「NHK技術研究」第25巻第5号の23頁乃至60頁
に詳述されている。ここには、「読み情報」を前述した
単語辞書、及び、付属語が登録された付属語辞書、文法
的に可能な接続が登録された文法辞書(接続行列)を用
いて変換単位に分かち、対応する単語を出力することが
書かれている。ここで、日本語の特性として、同じ読み
でも意味の異なる単語(同音異義語)の発生は避けられ
ない。
この対策として、前記文献には、 作成される文書の分野や主題によって発生頻度の少
ない同音異義語が存在することに注目し、同音異義語の
発生を押さえること、 単語辞書に登録された単語の出現率の多いほうから
優先して同音異義語を出力すること、 文法処理によって分法的に正しくない単語のつなが
りを排除すること、 単語を意味的なカテゴリーに分け、各カテゴリー間
のつながりを登録しておき、つながりの薄いものを排除
する[誤:記者(人間活動の主体)に(手段の助詞)乗
る(動作)/正:汽車(生産物及び用具)に(手段の助
手)乗る(動作)]。
の様な手法が書かれている。
(発明が解決しようとする課題) しかし、いずれも次のような変換に対しては効果が薄
い。
「かがくりょうほう」という読みが入力されたとす
る。まず、単語辞書に登録された単語とのマッチングで
「かがく」「りょうほう」という単語に分けられる。こ
こで、「かがく」には[化学、科学、価額]という同音
異義語が存在し、「りょうほう」には[両方、療法]と
いう同音異義語が存在する。この中で「化学療法」とい
う組み合わせが最も一般的である。
しかし、 (a) 学術分野に絞っても[化学、科学]は等価に出
現するであろうから、上記の手法を用いても[科学療
法]の出現は避けられない。
(b) 単純な出現率からすれば、「両方」より「両
方」の方が多いのであろうから、上記の手法ではかえ
って「化学(科学)両方」の出現を引き起こす。
(c) 「科学両方」「化学両方」「価額両方」等全て
の組合わせで文法的エラーは起こっていないから上記
の手法は効果が薄い。
(d) [化学、科学]は意味的にも同一カテゴリーで
あり、上記の手法によっても「科学療法」より「化学
療法」を優先させる処理は困難である。
という問題がある。従って、従来の日本語文書処理装置
では、「読み情報」からの変換で即「化学療法」という
結果が得られる可能性は少なく、「科学療法」、「科学
両方」、「化学両方」、「価額両方」等の変換結果か
ら、オペレータに他の同音異義語を表示させ選択する機
能(同音異義語の選択機能)を起動させ、所望の「化学
療法」を出力しなければならなかった。
本発明は、互いに引合いのある単語の組合せを記憶し
ておき、組合せのある単語の対を他の同音語の対よりも
優先させて出力させ、所望の変換結果を得やすくした文
書作成装置及び文書作成方法の提供を目的とする。
[発明の構成] (課題を解決するための手段) 上記目的を達成するため、本発明の文書作成装置は、
読み情報を入力する手段と、当該読み情報をこの読みを
持った単語列に変換する処理手段とを具備した文書作成
装置において、各単語について、当該単語とつながりの
ある他の単語を示す情報を記憶すると共に、前記単語と
前記他の単語との接続関係が助詞を伴わない接続関係で
あるものについては助詞を伴わない接続関係であること
を示す情報を併せて記憶する記憶手段を具備し、前記処
理手段は、前記単語列の各単語に同音異義語が存在し、
且つ、前記単語列中の前側に存在する第1の単語が前記
記憶手段中に記憶されている場合、前記辞書に記憶され
た接続関係を以って前記単語列中の前側に存在する第1
の単語とつながりのある前記他の単語が前記第1の単語
以降の単語の同音異義語として存在するか否かを調べ、
前記第1の単語とつながりがあると判断された前記他の
単語を変換候補として出力することを特徴とする。
また、本発明の文書作成方法は、入力された読み情報
をこの読みを持った単語列に変換する文書作成装置にお
ける文書作成方法において、各単語について、当該単語
とつながりのある他の単語を示す情報を記憶する共に、
前記単語と前記他の単語との接続関係が助詞を伴わない
接続関係であるものについては助詞を伴わない接続関係
であることを示す情報を併せて記憶した辞書を参照し、
前記辞書に記憶された接続関係を以って前記単語列中の
前側に存在する第1の単語とつながりのある前記他の単
語が前記第1の単語以降の単語の同音異義語として存在
するか否かを調べ、前記第1の単語とつながりがあると
判断された前記他の単語を変換候補として出力すること
を特徴とする。
(作用) 上記構成により、不適切な変換結果が候補として表示
されることを防ぎ、変換時のオペレータの操作効率の向
上が得られる。
(実施例) 以下、本発明を実施した日本語文書作成装置を説明す
る。尚、ハードウェア構成については従来の日本語文書
作成装置と変わらないので説明を省略し、本発明のポイ
ントである辞書の構成とかな漢字変換のアルゴリズムに
つき詳述する。
図は、本実施例で使用される辞書の内部構成を示す図
である。この辞書はCPUによってアクセス可能なROMに格
納されている。図では、「かがく」の読みに対応して
[価額、化学、価額]の単語が、「じっけん」の読みに
対して[実験、実権]の単語が、「てき」の読みに対し
て[的、敵]の単語が、「りょうほう」の読みに対して
[両方、療法]の各単語の表記(漢字でも片仮名でも平
仮名でもかまわない)が登録されている。付加情報と
は、品詞、用言の場合の活用等の文法情報、頻度情報、
意味情報等、従来のかな漢字変換(例えば1973年に発行
された「NHK技術研究」第25巻第5号の23頁乃至60頁に
開示)で使用された辞書において、変換効率の向上のた
め単語の表記の他に付加的に記憶された情報である。本
実施例では、前記辞書に、これらの情報の他に、ある単
語と非常につながりの深い単語(このつながりのことを
共起関係という)、及び、これら前後の単語を含む前後
の文節がどういった規則で接続されるかを示す情報(共
起情報という)が登録される。
例えば、「かがく(の)じっけん」という読みに対し
ては「科学(価額)(の)実験」よりも「化学(の)実
験」が正しく、「かがくりょうほう」の読みに対しては
「科学(価額)療法」よりも「化学療法」が正しい。こ
の組合わせが辞書中に登録されるわけである。尚、辞書
の各単語には研索用に辞書番号がアサインされており、
この辞書番号で当該単語の情報をROMから読み出すこと
ができるようになっているので、共起関係にある単語の
登録にはこの辞書番号を利用、メモリ使用効率を上げて
いる。
また、共起情報は、登録された単語をつなぐ助詞の種
類(を、の、が、に、で、は、と、も、から、へ、な、
まで、より、なく等)、連接(体言同志の助詞を伴なわ
ない共起:例えば「化学−療法」という接続関係)、修
飾(前の用言からの助詞を伴なわない共起:例えば「離
れた−位置」という接続関係)の情報である。例えば
「かがくとかがくのりょうほうは」というような読みか
ら「科学と化学の両方は」という文字列を得たい場合、
下線を付した「化学」に引き摺られて「科学と化学の療
法は」という不要な変換を起こさないようにしなければ
ならない。従って、「化学」と「療法」の共起関係に
は、「連接」という共起情報を登録しておき、「かがく
りょうほう」という読み以外の、例えば「かがくの……
……りょうほう」(………には他の文節が入ってもかま
わない)というような読みには共起関係が働かないよう
にする。「化学」と「実験」の共起関係には、「の」と
「連接」の共起情報が登録されている。
次に、かな漢字変換における本実施例の辞書を活用し
たカナ漢字変換プログラムの動作を説明する。「きょう
はかがくのあぶないじっけんをやります。」という読み
が入力され、変換される場合を考える。例えばキーボー
ドから入力された読み情報は、プログラムによりRAM中
のバッファに蓄積される。プログラムは、変換の起動を
チェックし、変換の開始を認識するとバッファ中の読み
情報の分析を行い、文節にへの分かち書きを進めてい
く。変換の起動は、キーボードからの[変換]キー押下
の通知、変換の単位が明確に切れる部分(句読点の入
力、改行、タブ等の制御コードの入力)によって行われ
る。文節の分かち書きには、単語辞書、助詞等の付属語
が記憶された付属語辞書、日本語の文法規則が記憶され
た文法辞書が利用される。この変換の手法には、電子通
信学会技術研究報告EC78−23、第33頁乃至第41頁、「計
算機への日本語情報入力」や、日経エレクトロニクス
誌、1983.8.29号の第180頁乃至第215頁の日本語処理特
集に記載された方式が適用できる。この文節分かち書き
により、入力されている前記文字列から、[(名詞)き
ょう(助詞)は][(名詞)かがく(助詞)の][(形
容詞)あぶない][(名詞)じっけん(助詞)を]
[(動詞−や(る)の連用形)やり(助動詞)ます。]
との文節解析候補が得られる。ここで候補と称したの
は、他の文節切断も考えられ、それも別の候補としてRA
Mに記憶されるか、又は、オペレータによる文節切り直
しの指示(オペレータが表示画面上に表示されたカーソ
ルで文節の切断点を指定し、変換プログラムに教えて文
節分析をやり直させる機能)で変更される可能性がある
からである。前記文節解析候補の各単語の読みに対応し
て、その読みを持つ同音異義語が辞書から読み出されRA
M中にスタックされる。
例えば、[きょう]に対応し[今日、京、凶、強、
経]が、[かがく]に対応して[科学、化学、価額]
が、[あぶない]に対応して[危ない]、[危い]が、
[じっけん]に対応して[実験、実権]がスタックされ
る(実際にスタックされる情報は単語の辞書番号)。各
同音異義語には、使用頻度の高いものを優先させる、前
に選択されたものを優先させる等の規則で優先順位が付
けられ、優先度の高いものが変換結果候補として選ばれ
ていく。そして、単語に対し変換結果候補が選ばれる度
に、前記単語辞書から、この単語と共起関係にある単語
とその共起情報が読み出され、それ以降の文節に共起関
係にある単語候補が存在するかチェックされる。文節の
チェックは離れいてる文節にも行われる。これは共起関
係にある単語の間に修飾文節がいくつかはいっても共起
関係を適用するためである。本実施例では、処理の関係
から後ろの4文節までがチェック範囲とされる。以下例
を述べる。
[かがく]の単語に対しては、前記単語辞書には共起
関係にある単語(化学−実験、化学−療法)が登録され
ている。ここで、同音異義語の優先度により、[かが
く]に対して[化学]が第一候補になったとすると、 まず、[化学]に付随する付属語(の)と、共起関
係にある単語との接続関係(共起情報)とのマッチング
がとられる。こと例では、[療法]には助詞「の」の接
続関係は共起情報として登録されていないので無視さ
れ、助詞「の」が共起情報として登録されている[実
験]のみマッチングが成立し、以降の処理の対象とな
る。
次に、[実験]の辞書番号が以降の文節に対する同
音異義語のスタック中に存在しているか否かがチェック
される。この例では、2つ後ろの文節に対応したスタッ
ク中に[実験]がスタックされている。そこで、[実
験]を候補として表示するように現在の同音異義語表示
順を変更する。
今日化学危ない実験をやります。](下線は
その単語に同音異義語が存在し、同音異義語の選択が終
了していないことを示す。)の変換候補が得られ、これ
が表示装置に表示される。
という処理が行われる。
一方、例えば、[今日科学危ない実権をしま
す。](下線はその単語に同音異義語が存在することを
示す。)のように[かがく]に対して[化学]以外の同
音異義語が候補として選ばれた場合には、同音異義語の
選択/確定処理の中で共起関係の利用が行われる。即
ち、いずれかの同音異義語が選択/確定されたとき、変
換プログラムは、選択/確定された単語の辞書番号によ
って前記単語辞書を再度アクセスし、共起単語/共起情
報を調べ、以降の文節に対してスタックされている同音
異義語の中に共起関係にある単語が存在しているか否か
チェックする。
尚、同音異義語の選択/確定処理は従来の日本語文書
作成装置に存在するもので、オペレータがキーボードに
備えられた[選択]キーを押して先頭の未選択の単語か
ら選択対象にする、又は、カーソルを選択したい単語の
位置に移動させてその単語の選択対象にし、[次候補]
キーを押して他にスタックされている同音異義語を表示
していき、所望の同音異義語が表示されたところで[選
択]キーを押してその同音異義語に変換結果を確定させ
る機能である。確定された語は、各構成文字のコードの
形で、文書文字列としてRAM中(文書バッファ)に記憶
されていく。また、同音異義語の表示は1つづつ順番に
表示していくもののほかに、複数個をまとめて表示し、
番号やカーソルによって所望の同音語を選択する形式の
ものもある。
以下に、[今日科学危ない実権をします。]と変
換結果候補が表示されている場合の例を示す。
科学]の単語が選択対象となり、[化学]が選択
/確定されたとする。
プログラムは、[かがく]に対する同音異義語のス
タックから[化学]の辞書番号を読み出して、単語辞書
の[化学]のところをアクセスする。
この文節の付属語[の]と[化学]に登録された共
起情報との一致をチェックし、同じ接続関係にある共起
単語が存在しているかいか否かを調べる。この例では、
[療法]には助詞「の」の接続関係は共起情報として登
録されていないので無視され、助詞「の」が登録されて
いる[実験]が以降の処理の対象となる。
以降の文節に対応する同音異義語群のスタック中
に、[実験]の辞書番号が存在するか否か調べる。この
例では、[実験]が2つ後ろの文節にスタックされてい
るため、[じっけん]に対する同音異義語群の中で[実
験]を変換候補に変更する。この結果、[今日は化学の
危ない実験をします。]に変換結果の表示が変更され
る。
この手法によれば、以降の文節の[じっけん]のとこ
ろで、オペレータが次候補表示の動作を行う必要がなく
なり、操作性が向上することになる。尚、上記実施例で
は、確定処理の際に共起の参照を行わせているが、同音
異義語の次候補表示の度に共起の参照(単語辞書の参
照)を行わせても良い。
本実施例では、共起関係を単語辞書に登録している。
この他に単語辞書は従来の構成として、テーブルに共起
関係(前の単語と後ろの単語との対と共起情報)を登録
してもよい。ただし、共起関係をテーブルに持った場合
には前側の単語を単語辞書と重複して登録しなければな
らず、共起関係を単語辞書に登録したほうが容量の削減
を行うことができる。
[発明の効果] 本発明によれば、各単語について、当該単語とつなが
りのある他の単語を示す情報と共に、前記単語と前記他
の単語との接続関係が助詞を伴わない接続関係であるも
のについては助詞を伴わない接続関係であることを示す
情報を記憶しておき、これらの情報に基づいて変換候補
の決定を行うようにした。従って、不適切な接続関係に
ある単語対の変換候補の出力を防くことができ、変換時
のオペレータの操作効率の向上が可能となる。
【図面の簡単な説明】
図は、本実施例で使用される単語辞書の内部構成を示す
図である。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】読み情報を入力する手段と、当該読み情報
    をこの読みを持った単語列に変換する処理手段とを具備
    した文書作成装置において、 各単語について、当該単語とつながりのある他の単語を
    示す情報を記憶すると共に、前記単語と前記他の単語と
    の接続関係が助詞を伴わない接続関係であるものについ
    ては助詞を伴わない接続関係であることを示す情報を併
    せて記憶する記憶手段を具備し、 前記処理手段は、前記単語列の各単語に同音異義語が存
    在し、且つ、前記単語列中の前側に存在する第1の単語
    が前記記憶手段中に記憶されている場合、前記辞書に記
    憶された接続関係を以って前記単語列中の前側に存在す
    る第1の単語とつながりのある前記他の単語が前記第1
    の単語以降の単語の同音異義語として存在するか否かを
    調べ、 前記第1の単語とつながりがあると判断された前記他の
    単語を変換候補として出力する ことを特徴とした文書作成装置。
  2. 【請求項2】入力された読み情報をこの読みを持った単
    語列に変換する文書作成装置における文書作成方法にお
    いて、 各単語について、当該単語とつながりのある他の単語を
    示す情報を記憶する共に、前記単語と前記他の単語との
    接続関係が助詞を伴わない接続関係であるものについて
    は助詞を伴わない接続関係であることを示す情報を併せ
    て記憶した辞書を参照し、 前記辞書に記憶された接続関係を以って前記単語列中の
    前側に存在する第1の単語とつながりのある前記他の単
    語が前記第1の単語以降の単語の同音異義語として存在
    するか否かを調べ、 前記第1の単語とつながりがあると判断された前記他の
    単語を変換候補として出力する ことを特徴とした文書作成方法。
JP1178015A 1989-07-12 1989-07-12 文書作成装置及び文書作成方法 Expired - Fee Related JP2981237B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1178015A JP2981237B2 (ja) 1989-07-12 1989-07-12 文書作成装置及び文書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1178015A JP2981237B2 (ja) 1989-07-12 1989-07-12 文書作成装置及び文書作成方法

Publications (2)

Publication Number Publication Date
JPH0343858A JPH0343858A (ja) 1991-02-25
JP2981237B2 true JP2981237B2 (ja) 1999-11-22

Family

ID=16041076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1178015A Expired - Fee Related JP2981237B2 (ja) 1989-07-12 1989-07-12 文書作成装置及び文書作成方法

Country Status (1)

Country Link
JP (1) JP2981237B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100554565B1 (ko) * 1999-09-02 2006-03-03 노명기 이어폰이 수납된 핸즈프리장치

Also Published As

Publication number Publication date
JPH0343858A (ja) 1991-02-25

Similar Documents

Publication Publication Date Title
US6246976B1 (en) Apparatus, method and storage medium for identifying a combination of a language and its character code system
JP3277123B2 (ja) 中国語テキストを処理するためのシステムおよび方法
Chang A new approach for automatic Chinese spelling correction
JPH07114558A (ja) 漢字変換訂正処理方式
JP2981237B2 (ja) 文書作成装置及び文書作成方法
KR960038586A (ko) 컴플렉스 언어 전사용 데이타 처리시스템 및 문자생성 데이타 처리방법
Saharia et al. LuitPad: a fully unicode compatible Assamese writing software
JPH05233600A (ja) ワードプロセッサ
JPH0578058B2 (ja)
JPH10320399A (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JPS63101967A (ja) 電子辞書検索利用装置
JPS6154559A (ja) 日本語処理装置
JP2915225B2 (ja) 文書作成装置
JPS62295177A (ja) 翻訳支援ワ−ドプロセツサ
JPS5899828A (ja) カナ漢字変換処理装置
JPS63316162A (ja) 文書作成装置
JPS6395565A (ja) 仮名漢字変換手法
JPH0652152A (ja) 文書処理装置
JPS59153232A (ja) 文字変換装置
JPS59153231A (ja) 文字変換装置
JPH0414168A (ja) 文書作成装置
JPH04372047A (ja) 仮名漢字変換装置
Luper-Foy E/G Word, Japanese word processor for the Macintosh
JPS6327966A (ja) ワ−ドプロセツサにおけるカタカナ変換方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees