JP3118880B2 - 日本語文章処理装置 - Google Patents

日本語文章処理装置

Info

Publication number
JP3118880B2
JP3118880B2 JP03188915A JP18891591A JP3118880B2 JP 3118880 B2 JP3118880 B2 JP 3118880B2 JP 03188915 A JP03188915 A JP 03188915A JP 18891591 A JP18891591 A JP 18891591A JP 3118880 B2 JP3118880 B2 JP 3118880B2
Authority
JP
Japan
Prior art keywords
word
notation
kanji
sentence
katakana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03188915A
Other languages
English (en)
Other versions
JPH0535729A (ja
Inventor
浩 山口
寿平 中垣
明男 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP03188915A priority Critical patent/JP3118880B2/ja
Publication of JPH0535729A publication Critical patent/JPH0535729A/ja
Application granted granted Critical
Publication of JP3118880B2 publication Critical patent/JP3118880B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、日本語文章から校正
・推敲すべき文字列を検出する装置に関し、特に、漢字
表記又はカタカナ表記することが望ましいかな書きの語
を検出して、その表記を自動的に修正する装置に関す
る。
【0002】
【従来の技術】近年、ワードプロセッサなどの普及によ
り、日本語文章を作成する機会が多くなっているが、適
切な文章を作成することは難しい。そこで、日本語文章
のための校正・推敲システムが開発されている。日本語
文章では、特に漢字の誤りが発生しやすいという特徴が
あるため、従来の校正・推敲システムでは、主に漢字表
記に着目し、作成された文章を解析して誤字などを自動
的に修正するようにしたものが多い。例えば、特開平1
−207868号公報には、常用漢字表以外の漢字はひ
らがなに修正し、常用漢字表外の音訓は正しい用法に修
正するようにした日本語文章処理方式が開示されてい
る。
【0003】
【発明が解決しようとする課題】ところで、日本語文章
では漢字表記の誤りだけでなく、漢字表記することが望
ましい語やカタカナ表記することが望ましい語がかな書
きのままになっている場合も少なくない。しかし、従来
の校正・推敲システムは、上述したように、主に漢字の
誤りを修正するものであるため、かな書きされている語
の修正には対処することができず、利用者は手作業で校
正・推敲を行う必要があった。これは、上記特開平1−
207868号公報に記載された日本語文章処理方式で
も同様であり、利用者にとって大きな負担となってい
た。
【0004】この発明は、漢字表記又はカタカナ表記す
ることが望ましいかな書きの語を検出し、これを自動的
に修正するようにした日本語文章処理装置を提供するこ
とを目的とする。
【0005】
【課題を解決するための手段】上記課題を解決するた
め、この発明に係る日本語文章処理装置では、ひらがな
表記の単語を含む種々の単語から成る日本語文章から校
正・推敲すべきひらがな文字列を検出して修正を行った
日本語文章を出力する日本語文章処理装置において、推
敲を行ないたい日本語文章を格納する記憶手段と、ひら
がな、カタカナ、漢字表記の多数の単語を記憶し、ひら
がな表記の語について漢字表記またはカタカナ表記する
ことが望ましいかを示す第1の情報と、その漢字表記ま
たはカタカナ表記を示す第2の情報とを記憶した単語記
憶手段と、単語間の接続関係を記憶した接続関係記憶手
段と、前記単語記憶手段と前記接続関係記憶手段とを用
いて前記記憶手段に格納された日本語文章を単語単位に
文章解析し、該文章解析された日本語文章のひらがな表
記の単語に対して前記第1の情報および前記第2の情報
を付加する文章解析手段と、前記文章解析手段によって
前記第1の情報および前記第2の情報を付加された日本
語文章のひらがな表記の単語を該第1の情報および該第
2の情報に基づいて漢字表記またはカタカナ表記に修正
して出力する表記修正手段とを具えている。
【0006】
【作用】文章解析手段は、読み込んだ入力文を単語記憶
手段を参照しながら単語検索すると共に、接続関係記憶
手段の接続情報に基づいて単語間の接続の可否をチェッ
クし、文章解析した各単語にかな書きで漢字表記又はカ
タカナ表記することが望ましい語であるかどうかの情報
を付加して出力する。表記修正手段は、各単語に付加さ
れた情報に基づいて文章中のかな書きの語で漢字表記が
望ましい語、又はカタカナ表記が望ましい語を検出し、
かな書きの語を漢字又はカタカナに修正する。このよう
に、各単語に付加された情報に基づいて文章中のかな書
きの語で漢字表記が望ましい語を漢字表記に修正し、ま
たかな書きの語でカタカナ表記が望ましい語をカタカナ
表記に修正することにより、校正・推敲時の利用者の負
担を軽減することができる。
【0007】
【実施例】以下、この発明に係わる日本語文章処理装置
の一実施例を添付図面に基づいて説明する。
【0008】図1は、この発明に係わる日本語文章処理
装置の概略構成を示す機能ブロック図である。この日本
語文章処理装置は、文章記憶手段1、単語記憶手段2、
接続関係記憶手段3、文章解析手段4、解析結果記憶手
段5、漢字書き及びカタカナ書き推奨語修正手段6、表
示手段7から構成されている。
【0009】文章記憶手段1には、推敲を行いたい日本
語文章が格納されている。この文章記憶手段1は、磁気
ディスクやフロッピーディスクなどの日本語文章を格納
できる媒体であればどのような構成でもよい。また、日
本語文章はキーボードから入力されたものや、音声認識
や文字認識の結果入力されたものでもよいし、ネットワ
ークやフロッピ−ディスクなどによって他の装置から転
送されたものでもよい。 単語記憶手段2は、単語とそ
の属性情報を登録した日本語辞書である。各単語の属性
情報には、品詞情報などのほか、漢字表記が望ましいか
どうかの情報とその漢字表記、及びカタカナ表記が望ま
しいかどうかの情報とそのカタカナ表記が含まれてい
る。
【0010】接続関係記憶手段3には、単語間の接続の
可否を示す接続情報が格納されている。
【0011】文章解析手段4は、単語記憶手段2と接続
関係記憶手段3を検索して入力文を単語単位に文章解析
し、解析した各単語にかな書きで漢字表記することが望
ましい語であるかどうかの情報、又はかな書きでカタカ
ナ表記することが望ましい語であるかどうかの情報と、
前記単語の漢字表記又はカタカナ表記を付加して出力す
る。
【0012】解析結果記憶手段5は、前記文章解析手段
4で単語単位に解析された結果を記憶する。
【0013】漢字書き及びカタカナ書き推奨語修正手段
6は、前記解析結果記憶手段5に記憶された単語に付け
られている、かな書きで漢字表記することが望ましい語
であるかどうかの情報、及びかな書きでカタカナ表記す
ることが望ましい語であるかどうかの情報を参照し、か
な書きで漢字表記することが望ましい語(漢字書き推奨
語)又はかな書きでカタカナ表記することが望ましい語
(カタカナ書き推奨語)を検出して、その単語の位置情
報を記憶する。この位置情報は、例えば文章中の単語の
開始位置と終了位置の文字数などで表すことができる。
【0014】表示手段7は、漢字書き及びカタカナ書き
推奨語修正手段6によって検出されたかな書きで漢字表
記することが望ましい語、及びかな書きでカタカナ表記
することが望ましい語を他の単語と区別して表示する。
他の単語と区別して表示する方法としては、例えば、反
転する、アンダ−ラインを付ける、色を変える、文字の
大きさを変える、文字の字体を変える、KWIC(Ke
yWordIn Context)表示するなどがある
が、この実施例ではアンダ−ラインを付けて表示してい
る。
【0015】次に、上記日本語文章処理装置において、
かな書きで漢字表記が望ましい語及びかな書きでカタカ
ナ表記が望ましい語を検出して修正する場合の処理手順
を図2及び図3のフローチャート、並びに図4〜図7に
基づいて説明する。
【0016】図2において、文章解析手段4は文章記憶
手段1に記憶されている日本語文章を取り出す操作を行
い(ステップ101)、文章があるかどうかを判断する
(ステップ102)。ここで、文章がないときは処理を
終了し、文章があるときは、その中から1文を読み込む
(ステップ103)。以下の処理では、この1文全体が
処理の単位となる。ここでは、具体例として「明日は晴
れだとおもうので、はいきんぐにいきましょう。」とい
う文が読み込まれたものとする。文章解析手段4は、単
語記憶手段2の日本語辞書を用いて入力文を文頭から文
末まで単語検索する(ステップ104)。
【0017】単語記憶手段2の内容の一例を図4に示
す。図4において、漢字表記又はカタカナ表記が望まし
い語であるかどうかの情報は、“漢字書き及びカタカナ
書き推奨フラグ”として表されている。この実施例で
は、カタカナ表記が望ましい語については「2」、漢字
表記が望ましい語については「1」という値が付けら
れ、そうでない語については「0」という値が付けられ
ている。また、漢字書き及びカタカナ書き推奨フラグに
「1」又は「2」が付けられた語については“推奨漢字
又はカタカナ表記”の欄にその漢字表記又はカタカナ表
記が記述されている。文章解析手段4は、上記単語検索
によって入力文の各単語に対応する語の情報を読み取
り、検索された単語が持つ品詞情報と接続関係記憶手段
3の接続情報とに基づいて単語間の接続関係をチェック
する(ステップ105)。接続関係記憶手段3の内容の
一例を図5に示す。図5において、単語間の接続の可否
を示す接続情報としては、接続が可能である組み合わせ
には1という値が付けられ、接続できない組み合わせに
は0という値が付けられている。文章解析手段4は、こ
れらの情報を用いて、接続可能であった単語の内文節数
が最小のものを結果として出力する文節数最小法により
文章解析を行う(ステップ106)。なお、文章解析に
は最長一致法やコスト最小法を用いてもよい。
【0018】この結果、明日/は/晴れ/だ/と/おも
/う/ので/、/はいきんぐ/に/行/き/ましょ/う
/。という単語列が切り出される。文章解析手段4は、
各単語に漢字又はカタカナ表記が望ましい語であるかど
うかの情報とその表記を付加し(ステップ107)、解
析結果記憶手段5に格納する(ステップ108)。
【0019】解析結果記憶手段5に格納された解析結果
を図6に示す。図6において、各単語にはその品詞、位
置情報に加えて、漢字表記することが望ましい語である
かどうかの情報として、漢字書き及びカタカナ書き推奨
表記フラグが付加されている。漢字書き及びカタカナ書
き推奨表記フラグは、図4の漢字書き及びカタカナ書き
推奨フラグと同様に、カタカナ表記が望ましい語につい
ては「2」、漢字表記が望ましい語については「1」と
いう値が付けられ、その他の語については「0」という
値が付けられる。この例では、「おも」という語につい
て「1」という値が付けられ、「はいきんぐ」という語
について「2」という値が付けられている。また、推奨
漢字又はカタカナ表記として、「おも」という語には
「思」が記述され、「はいきんぐ」という語には「「ハ
イキング」が記述されている。
【0020】次に、図3において、漢字書き及びカタカ
ナ書き推奨語修正手段6は解析結果記憶手段5に格納さ
れた1文の単語を一つ取り出し(ステップ109)、そ
の単語に付加されている漢字書き及びカタカナ書き推奨
表記フラグを参照して、かな書きで漢字表記又はカタカ
ナ表記が望ましい語であるかどうかを判断する(ステッ
プ110)。ここで、その単語が漢字表記又はカタカナ
表記が望ましい語であるときは、その単語の位置情報を
記憶する(ステップ111)。そして、全ての単語をチ
ェックしたかどうかを判断し(ステップ112)、チェ
ックしていない単語が残っているときは、解析結果記憶
手段5から次の単語を取り出し(ステップ113)、全
ての単語のチェックが終了するまで上記処理を繰り返
す。また、ステップ112で全ての単語をチェックした
と判断したときは、全ての単語の情報を表示手段7に送
る(ステップ114)。表示手段7は、漢字書き及びカ
タカナ書き推奨表記フラグに「1」又は「2」の値が付
けられた語の位置情報と推奨漢字又はカタカナ表記を参
照し、その語を推奨漢字又はカタカナ表記に修正する。
そして、その単語にアンダーラインをつけて表示する
(ステップ115)。上述した例文について、漢字表記
及びカタカナ表記に修正された語にアンダーラインをつ
けて表示したときの例を図7に示す。図7では、「お
も」が「思」に、「はいきんぐ」が「ハイキング」にそ
れぞれ修正されている。
【0021】次に、上記日本語文章処理装置の応用例
(1)〜(3)について説明する。なお、以下の例は漢
字表記のみを対象としており、カタカナ表記については
取り扱わないものとする。
【0022】応用例(1) この例では、かな書きで漢字表記が望ましい語の漢字表
記候補が複数あるときは、その候補を全て表示する。具
体例として、「私は犬をかった。」という文が読み込ま
れたとする。この文の解析結果は図8のようになる。こ
こでは、かな書きで漢字表記が望ましい語で複数の漢字
表記を持つものを推奨漢字表記のフィールドにまとめて
格納しているが、図9のように1対1に対応させて同じ
かな書きの語について漢字の数だけレコードを割り付け
てもよい。さて、図8の解析結果に基づいて、かな書き
で漢字表記が望ましい語を漢字表記に修正し表示する
が、複数の漢字候補がある場合は、図10に示すように
候補の全てを表示する。利用者はこの表示された複数の
候補の中から、例えばマウスやカーソルで修正したい語
を選択して修正キー(図示せず)を押せば、選択した語
に修正されることになる。図10の「飼」が選択された
後の表示例を図11に示す。
【0023】応用例(2) この例は、図12に示すように漢字表記することが望ま
しい語に対してレベル付けを行い、そのレベルに応じて
検出/修正を行う。具体例として、教育漢字でその音訓
が常用漢字表にあるものについては「4」、教育漢字で
その音訓が常用漢字表にないものには「3」、それ以外
の常用漢字でその音訓が常用漢字表にあるものには
「2」、その音訓が常用漢字表にないものには「1」、
漢字表記が不要なものには「0」の値を漢字書き推奨表
記フラグに付けている。今、教育漢字で表せる語を漢字
書き推奨するとした場合、図12の漢字書き推奨表記フ
ラグのフィールドに「3」又は「4」の値を持つ語を漢
字書き推奨する。具体例として、「このまわりは静か
だ。」という文が読み込まれたとする。この文章の解析
結果は図13のようになる。この解析結果をもとにかな
書きで漢字表記が望ましい語を漢字表記に修正して表示
する。修正された後の表示例を図14に示す。図14で
は、漢字書き推奨表記フラグのフィールドに「4」の値
を持つ語の「まわり」が「回り」に修正されている。
【0024】応用例(3) この例は、かな書きで漢字表記が望ましい語の漢字表記
候補が複数あるときは、その候補の漢字のレベルに応じ
て修正/表示を行う。具体例として、教育漢字でその音
訓が常用漢字表にあるものについては「4」、教育漢字
でその音訓が常用漢字表にないものには「3」、それ以
外の常用漢字でその音訓が常用漢字表にあるものには
「2」、その音訓が常用漢字表にないものには「1」、
漢字表記が不要なものには「0」の値を直接漢字にレベ
ル付けしている。今、教育漢字で表せる語を漢字書き推
奨するとした場合、「4」の値を持つ語を漢字書き推奨
する。具体例として、「彼にあった」という文が読み込
まれたとする。この文章の解析結果は図15のようにな
る。この解析結果をもとにかな書きで漢字表記が望まし
い語を漢字表記に修正して表示するが、複数の漢字候補
がある場合は、候補の全てを表示する。ここでは、教育
漢字で表せる語を漢字表記するので、「4」の値を持つ
(合、会)が推奨され、図16のように表示される。利
用者は表示されている複数の候補の中から、例えばマウ
スやカーソルで修正したい語を選択して修正キー(図示
せず)を押せば、選択された語が修正されることにな
る。図16の「会」が選択された後の表示例を図17に
示す。なお、この例では推奨漢字表記の語に(4合)、
(4会)、(2遭)のようにレベルの値を付けている
が、漢字書き推奨表記フラグのほうにレベルを付けても
よい。
【0025】
【発明の効果】以上説明したように、この発明に係わる
日本語文章処理装置においては、かな書きで漢字表記又
はカタカナ表記することが望ましい語であるかどうかの
情報とその表記を単語に付加し、前記情報と表記に基づ
いてかな書きの表記を修正して表示するようにしたた
め、漢字表記又はカタカナ表記することが望ましい語で
あるにもかかわらず、かな書きされている語を自動的に
修正することができる。したがって、校正・推敲の作業
をスムーズに行うことが可能となり、利用者の負担を大
幅に軽減することができる。
【図面の簡単な説明】
【図1】この発明に係わる日本語文章処理装置の概略構
成を示す機能ブロック図。
【図2】かな書きで漢字表記が望ましい語及びかな書き
でカタカナ表記が望ましい語を修正して表示する場合の
処理手順を示すフローチャート。
【図3】かな書きで漢字表記が望ましい語及びかな書き
でカタカナ表記が望ましい語を修正して表示する場合の
処理手順を示すフローチャート。
【図4】単語記憶手段の内容の一例を示す説明図。
【図5】接続関係記憶手段の内容を示す説明図。
【図6】解析結果記憶手段に格納された解析結果を示す
説明図。
【図7】修正された語にアンダーラインをつけて表示し
たときの例を示す説明図。
【図8】応用例(1)の例文の解析結果を示す説明図。
【図9】応用例(1)の例文の解析結果を示す説明図。
【図10】複数の漢字候補がある場合の表示例を示す説
明図。
【図11】複数の漢字候補の1つが選択された後の表示
例を示す説明図。
【図12】漢字表記することが望ましい語に対してレベ
ル付けがなされた単語記憶手段の内容の一例を示す説明
図。
【図13】応用例(2)の例文の解析結果を示す説明
図。
【図14】漢字表記が望ましい語を修正した後の表示例
を示す説明図。
【図15】応用例(3)の例文の解析結果を示す説明
図。
【図16】例文中に複数の漢字候補を表示したときの表
示例を示す説明図。
【図17】複数の漢字候補の1つが選択された後の表示
例を示す説明図。
【符号の説明】
1…文章記憶手段、2…単語記憶手段、3…接続関係記
憶手段、4…文章解析手段、5…解析結果記憶手段、6
…漢字書き及びカタカナ書き推奨語修正手段、7…表示
手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山下 明男 神奈川県横浜市保土ケ谷区神戸町134番 地 横浜ビジネスパーク イーストタワ ー 富士ゼロックス株式会社内 (56)参考文献 特開 昭62−266659(JP,A) 特開 昭63−163571(JP,A) 特開 平4−120656(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/22,17/24

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 ひらがな表記の単語を含む種々の単語か
    ら成る日本語文章から校正・推敲すべきひらがな文字列
    を検出して修正を行った日本語文章を出力する日本語文
    章処理装置において、 推敲を行ないたい日本語文章を格納する記憶手段と、 ひらがな、カタカナ、漢字表記の多数の単語を記憶し、
    ひらがな表記の語について漢字表記またはカタカナ表記
    することが望ましいかを示す第1の情報と、その漢字表
    記またはカタカナ表記を示す第2の情報とを記憶した単
    語記憶手段と、 単語間の接続関係を記憶した接続関係記憶手段と、 前記単語記憶手段と前記接続関係記憶手段とを用いて前
    記記憶手段に格納された日本語文章を単語単位に文章解
    析し、該文章解析された日本語文章のひらがな表記の単
    語に対して前記第1の情報および前記第2の情報を付加
    する文章解析手段と、 前記文章解析手段によって前記第1の情報および前記第
    2の情報を付加された日本語文章のひらがな表記の単語
    を該第1の情報および該第2の情報に基づいて漢字表記
    またはカタカナ表記に修正して出力する表記修正手段
    と、 を具えたことを特徴とする日本語文章処理装置。
JP03188915A 1991-07-29 1991-07-29 日本語文章処理装置 Expired - Fee Related JP3118880B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03188915A JP3118880B2 (ja) 1991-07-29 1991-07-29 日本語文章処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03188915A JP3118880B2 (ja) 1991-07-29 1991-07-29 日本語文章処理装置

Publications (2)

Publication Number Publication Date
JPH0535729A JPH0535729A (ja) 1993-02-12
JP3118880B2 true JP3118880B2 (ja) 2000-12-18

Family

ID=16232114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03188915A Expired - Fee Related JP3118880B2 (ja) 1991-07-29 1991-07-29 日本語文章処理装置

Country Status (1)

Country Link
JP (1) JP3118880B2 (ja)

Also Published As

Publication number Publication date
JPH0535729A (ja) 1993-02-12

Similar Documents

Publication Publication Date Title
US5873055A (en) Sentence translation system showing translated word and original word
US7243305B2 (en) Spelling and grammar checking system
JP3118880B2 (ja) 日本語文章処理装置
JP2958811B2 (ja) 日本語文章処理装置
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JP2002073656A (ja) 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
JPS63118868A (ja) 日本語文章校正装置
JP2719453B2 (ja) 機械翻訳装置
JP3278889B2 (ja) 機械翻訳装置
JPH0635954A (ja) 機械翻訳機
JP3241854B2 (ja) 単語スペル自動補正装置
JPH03129568A (ja) 文書処理装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JPH01185766A (ja) かな漢字変換装置
JPS62209663A (ja) 日本語文章校正装置
JPH06266765A (ja) 文章検索装置
JP2580060B2 (ja) かな漢字変換方法及び装置
Trushkina Automatic error detection in second language learners' writing
JPH07200592A (ja) 文章処理装置
JPH0546612A (ja) 文章誤り検出装置
JPH08287058A (ja) かな漢字変換装置
JPH0267676A (ja) 漢数字変換処理装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071013

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081013

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091013

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees