JPH07219954A - 日本語文校正装置 - Google Patents

日本語文校正装置

Info

Publication number
JPH07219954A
JPH07219954A JP6024835A JP2483594A JPH07219954A JP H07219954 A JPH07219954 A JP H07219954A JP 6024835 A JP6024835 A JP 6024835A JP 2483594 A JP2483594 A JP 2483594A JP H07219954 A JPH07219954 A JP H07219954A
Authority
JP
Japan
Prior art keywords
sentence
kanji
character
rewriting
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6024835A
Other languages
English (en)
Inventor
Takeshi Mizunashi
豪 水梨
Osamu Yasui
治 安井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP6024835A priority Critical patent/JPH07219954A/ja
Publication of JPH07219954A publication Critical patent/JPH07219954A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 文中の文節の切れ目をまたいで同じ文字種が
連続している箇所を指摘し、読みにくさの原因の1つを
減少または回避することのできる日本語文校正装置を提
供する。 【構成】 文節間同字種探索装置3は、形態素解析結果
保持装置2に保持されている文の形態素解析結果から、
文節の切れ目をまたいで同じ字種が使用されいる箇所を
探索する。書き換え候補生成装置6は、探索された箇所
について、その単語の読みにより字種情報辞書4を引
き、その単語のさまざまな字種による表記に対する可能
性の度合いを調べる。そして、表記に対する可能性の度
合に基づき、適宜、かな漢字変換装置5を用いて、書き
換え候補を生成する。書き換え候補は書き換え候補提示
装置7でオペレータに提示され、選択装置8による選択
により、文変換装置9で文を修正する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、不適切な日本語文の校
正作業を支援する日本語文校正装置に関するものであ
る。
【0002】
【従来の技術】文字種の変換に関する従来の技術として
は、かな漢字変換がある。中でも読みやすさを考慮した
ものとしては、例えば、特開平4−21063号公報に
記載されている「自然言語処理装置」等が挙げられる。
この装置では、かな漢字変換の際に変換後の漢字または
ひらがなの含有率を尺度として、ひらがなのままにする
か漢字に変換するかを決定する。そして、漢字からひら
がなに変換するのは、他の文字を漢字に変換すると含有
率がある決められた値から外れてしまうときに限られ
る。
【0003】しかしながら、文章が読みにくくなるの
は、ただ単に含有率の問題だけではない。例えば、ひら
がなや漢字ばかりが続くと読みにくくなるように、文節
の切れ目をまたいで同じ文字種が連続する箇所が読みに
くさの原因となっている場合がある。したがって、たと
え漢字の含有率が低くても、漢字をかなに変換した方が
よい場合がある。同様に、たとえ漢字の含有率が高くて
も、かなを漢字に変換した方がよい場合もある。従来の
技術では、文節間で隣接する文字種を考慮したものがな
かったため、この種の問題までは解決できなかった。
【0004】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、文節の切れ目をまたいで同
じ文字種が連続している箇所を指摘し、読みにくさの原
因の1つを減少または回避することのできる日本語文校
正装置を提供することを目的とするものである。
【0005】
【課題を解決するための手段】本発明は、日本語文の校
正作業を支援する日本語文校正装置において、文を解析
する文解析手段と、該文解析手段による解析結果から文
節の切れ目をまたいで同じ字種が使用されている箇所を
探索する文節間同字種探索手段を有することを特徴とす
るものである。文解析手段としては、例えば、形態素解
析手段などを用いることができる。
【0006】また、これらの構成に加え、単語の読みを
見出し語として該単語の各字種による表記に対する可能
性の度合いを保持する字種情報辞書と、かな書きの語句
を漢字あるいは漢字かな交じりの語句に変換するかな漢
字変換手段と、前記字種情報辞書に保持されている情報
に基づき前記かな漢字変換手段を用いて前記文節間同字
種探索手段により探索された文節の切れ目をまたいで同
じ字種が使用されている箇所を修正した文を生成する書
き換え候補生成手段を有することを特徴とするものであ
る。
【0007】
【作用】本発明によれば、文節間同字種探索手段によっ
て文節の切れ目をまたいで同じ字種が使用されて、読み
にくくなっている箇所を検出することができ、また、書
き換え候補生成手段により、その箇所を修正することが
できるので、読みにくい文を読みやすく書き換えること
ができる。
【0008】
【実施例】図1は、本発明の日本語文校正装置の一実施
例を示す構成図である。図中、1は形態素解析装置、2
は形態素解析結果保持装置、3は文節間同字種探索装
置、4は字種情報辞書、5はかな漢字変換装置、6は書
き換え候補生成装置、7は書き換え候補提示装置、8は
選択装置、9は文変換装置、10は文書エディタであ
る。この例では、校正を行なう文は文書エディタ10か
ら入力され、校正結果を文書エディタ10に出力するよ
うに構成されている。
【0009】形態素解析装置1は、入力される文を形態
素解析し、解析結果を形態素解析結果保持装置2に保持
させる。文節間同字種探索装置3は、形態素解析結果保
持装置2に保持されている形態素解析結果を参照し、文
節を認識し、文節間で同字種が続く箇所、例えば、ひら
がなが続く箇所や、漢字が続く箇所を探索する。
【0010】字種情報辞書4には、読みを見出し語とし
て、漢字、ひらがな、カタカナ等、各字種による表記に
対する可能性の度合いが保持されている。かな漢字変換
装置5は、従来より用いられている装置であり、読みを
漢字あるいは漢字かな交じりの表記に変換する。書き換
え候補生成装置6は、文節間同字種探索装置3で探索さ
れた文節間で同字種が続く箇所について、各単語の読み
から字種情報辞書4を引き、各字種による表記に対する
可能性の度合を調べる。そして、他の字種による表記の
可能性のある場合に、他の表記へ書き換えを行なった場
合の候補を生成する。候補の生成の際に、適宜、かな漢
字変換装置5を用いる。
【0011】書き換え候補提示装置7は、書き換え候補
生成装置6で生成された書き換え候補をユーザに提示す
る。ユーザは、提示された書き換え候補を参照し、所望
の表記を選択装置8により選択する。文変換装置9は、
選択装置8で選択された書き換え候補の表記に文を書き
換え、文書エディタ10へ出力する。
【0012】上述の構成では、文書エディタ10からの
文を変換し、文書エディタ10に替えしているが、これ
に限らず、ファイル内の文や、ユーザが直接入力した
文、あるいは、他のシステムから送られて来た文等を入
力とすることができる。また、出力についても同様であ
る。
【0013】上述の構成中、形態素解析装置1による解
析結果を直接文節間同字種探索装置3に入力する構成と
した場合には、形態素解析結果保持装置2は不要であ
る。また、文節間同字種探索装置3による探索結果をユ
ーザに提示する構成とすれば、同字種が並ぶ読みにくい
表現が存在する可能性を、ユーザに喚起することができ
る。
【0014】上述の構成では、形態素解析装置1により
文を形態素に分解したが、これに限らず、他の解析手法
を用いてもよい。例えば、構文解析を行なった結果を用
いてもよい。あるいは、かな漢字変換により作成された
文が入力される場合に、変換時の文節情報を保持し、そ
のまま用いてもよい。
【0015】以下、本発明の日本語文構成装置の一実施
例について、例文をもとに、具体的に説明する。いま、
文書エディタ10において、「今日集会所へ行く。」と
いう第1の例文を校正する場面を考える。
【0016】図2は、第1の例文の形態素解析結果の説
明図である。形態素解析装置1は、記憶装置に記憶され
ている文を形態素解析し、解析結果を形態素解析結果保
持装置2に保持する。形態素解析結果には、形態素、読
み、品詞、活用型、活用形等の情報が含まれている。
【0017】文節間同字種探索装置3は、図2に示した
形態素解析結果から、文節の切れ目をまたいで同じ字種
が連続している部分を検出する。文節の切れ目は、助詞
と動詞の連続や、助詞と名詞の連続など、付属語と自立
語の並びの間として検出する。「今日集会所へ行く。」
という第1の例文においては、1番目の語「今日」と2
番目の語「集会所」の間、3番目の語「へ」と4番目の
語「行く」の間が文節の切れ目となる。図3に、第1の
例文における文節の切れ目を示している。
【0018】引き続き、文節間同字種探索装置3は、各
文節の切れ目において同じ字種が連続しているかどうか
を調べる。形態素解析結果中の各形態素の文字コードか
ら、漢字、ひらがな、カタカナ、記号などの字種を判断
すると、「今日集会所へ行く。」では、「今日」と「集
会所」の間において漢字が連続していることがわかる。
文節間同字種探索装置3は、漢字が連続している箇所の
語「今日」と語「集会所」の形態素解析結果へのポイン
タと、連続している字種のデータを書き換え候補生成装
置6に渡す。字種のデータとしては、例えば、漢字は
1、ひらがなは2、カタカナは3、記号は4というよう
に、数値により示すことができる。
【0019】図4は、字種情報辞書4の一例の説明図で
ある。字種情報辞書4には、図4に示すように、読みを
見出し語として、品詞、漢字表記指標、ひらがな表記指
標、カタカナ表記指標が記述してある。各指標は、その
見出し語がその字種で表記される度合を表わしている。
例えば、見出し語「きょう」は、漢字表記される割合が
8で、ひらがな表記される割合が2であり、カタカナ表
記されることはないことを示している。見出し語「しゅ
うかいじょ」は、常に漢字表記されることを示してい
る。
【0020】図5は、第1の文例における書き換え候補
の一例の説明図である。書き換え候補生成装置6は、文
節間同字種探索装置3から、同じ字種が連続している箇
所の語へのポインタと、連続している字種のデータを受
け取り、書き換え候補として、 候補1.文節の切れ目に読点を挿入したもの 候補2.どちらかの形態素を他字種に書き換えたもの 候補3.あとの形態素に傍点をつけて書き換えたもの を生成する。
【0021】候補1.においては、例えば、第1の文例
における書き換え候補は、図5(A)に示すように、語
「今日」と語「集会所」の間に「、」を挿入した文とな
る。また、読点以外にも、スペースを挿入するなどの方
法も考えられる。
【0022】候補2.においては、書き換え候補生成装
置6は、まず各形態素(この場合「今日」と「集会
所」)に関して字種情報辞書4を参照する。語「今日」
を例に取ると、形態素解析結果から読みが「きょう」だ
とわかるので、「きょう」で字種情報辞書4を検索す
る。字種情報辞書4に、図4に示したような内容が保持
されているとき、読み「きょう」という語が漢字、ひら
がな、カタカナで表記されるべき度合いは、それぞれ、
8,2,0であることがわかる。すなわち、「きょう」
という語は一般には漢字で表記されるが、ひらがなで
「きょう」と書いても全く不適切というわけではない。
一方、語「集会所」では、読み「しゅうかいじょ」か
ら、各表記の指標が10,0,0であり、ひらがなやカ
タカナで表記すべきではないということがわかる。この
情報から、語「今日」と語「集会所」では、漢字で表記
される度合いとしては、語「今日」の方が低い、すなわ
ち、漢字以外の字種で書かれる可能性がより認められる
ことがわかる。よって、書き換え候補生成装置6は、図
5(B)に示すように、「今日」をひらがなで表記した
書き換え候補を生成する。
【0023】候補3.においては、図5(C)に示すよ
うに、語「集会所」の上に傍点を付けた書き換え候補が
生成される。
【0024】書き換え候補生成装置6は、これらの書き
換え候補を書き換え候補提示装置7へ渡す。
【0025】図6は、第1の例文における書き換え候補
提示ウィンドウの一例の説明図である。書き換え候補提
示装置7は、文書エディタ10とは別に、図6に示すよ
うな書き換え候補提示ウィンドウを開き、書き換え候補
をオペレーターに提示する。図6では、一例として、上
述の3つの書き換え候補とともに、書き換えない選択肢
を加え、表示している。それとともに、選択装置8が
「選択してください(1−4)」というプロンプトを表
示し、書き換え候補の選択を促す。オペレータは、候補
の番号を入力して書き換えの選択をすることになる。選
択方法としては、番号を入力する以外に、マウスで選択
する方法や、音声で選択する方法など、一般の入力方法
が考えられる。
【0026】図7は、第1の例文における文書エディタ
上での校正場面の一例の説明図である。書き換え候補提
示ウィンドウにおいて、オペレータが書き換え候補の番
号を入力すると、文変換装置9は、文を書き換える。例
えば、オペレータが1を選んだとすると、第1の例文
「今日集会所へ行く。」を「今日、集会所へ行く。」に
変換し、文書エディタ10に出力する。これにより、文
書エディタ10の表示画面に表示されている文が修正さ
れ、図7(A)に示す画面から図7(B)に示す画面の
ようになる。
【0027】次に、別の例文の場合について説明する。
第2の例文として「ここでくつを脱いで下さい。」とい
う文が文書エディタ10で編集されている場合を考え
る。図8は、第2の例文の形態素解析結果の説明図、図
9は、第2の例文における文節の切れ目の説明図、図1
0は、字種情報辞書4の別の例の説明図、図11は、第
2の文例における書き換え候補の一例の説明図、図12
は、第2の例文における書き換え候補提示ウィンドウの
一例の説明図、図13は、第2の例文における文書エデ
ィタ上での構成場面の一例の説明図である。
【0028】上述の第1の例文の場合と同様に、形態素
解析装置1は、記憶装置に記憶されている文を形態素解
析し、解析結果を形態素解析結果保持装置2に保持す
る。第2の例文の形態素解析結果は図8に示すようにな
る。
【0029】文節間同字種探索装置3は、図8に示した
形態素解析結果から、文節の切れ目をまたいで同じ字種
が連続している部分を検出する。この第2の例文におい
ては、図9に示すように、2番目の語「で」と3番目の
語「くつ」の間、4番目の語「を」と5番目の語「脱い
で」の間が文節の切れ目となる。
【0030】引き続き、文節間同字種探索装置3は、各
文節の切れ目において同じ字種が連続しているかどうか
を調べる。形態素解析結果中の各形態素の文字コードか
ら、漢字、ひらがな、カタカナ、記号などの字種を判断
すると、第2の例文「ここでくつを脱いで下さい。」で
は、「で」と「くつ」の間においてはひらがなが連続し
ていることがわかる。文節間同字種探索装置3は、ひら
がなが連続している箇所の語「で」と語「くつ」の形態
素解析結果へのポインタと、連続している字種のデー
タ、例えば、ひらがなを示す「2」を書き換え候補生成
装置6に渡す。
【0031】書き換え候補生成装置6は、文節間同字種
探索装置3から、同じ字種が連続している箇所の語への
ポインタと、連続している字種のデータを受け取り、書
き換え候補として、上述の候補1ないし候補3に対応す
る文を生成する。
【0032】候補1.においては、図11(A)に示す
ように、文節の切れ目に読点を挿入した書き換え候補を
生成する。候補2.においては、書き換え候補生成装置
6は、図10に示した字種情報辞書4を参照する。字種
情報辞書4から、語「で」の各指標は0,10,0であ
り、ひらがな以外の表記はないことがわかる。また、語
「くつ」の各指標は6,3,1であり、他の表記がなさ
れる場合があることがわかる。第2の例文では、語
「で」よりも語「くつ」の方がひらがなで表記される度
合いが低い、すなわち、ひらがな以外の字種で書かれる
可能性がより認められていることをがわかる。そこで、
書き換え候補生成装置6は、かな漢字変換装置5を起動
して「くつ」を「靴」に変換し、図11(B)に示すよ
うな書き換え候補を生成する。なお、ひらがな表記を漢
字に変換する際に、漢字表記が複数考えられる場合は、
それぞれの漢字を用いた書き換え候補が生成される。候
補3.においては、図11(C)に示すように、語「く
つ」の上に傍点を付けた書き換え候補が生成される。
【0033】書き換え候補生成装置6は、これらの書き
換え候補を書き換え候補提示装置7へ渡す。書き換え候
補提示装置7は、文書エディタ10とは別に、図12に
示すような書き換え候補提示ウィンドウを開き、書き換
え候補をオペレーターに提示する。図12において、上
述の3つの書き換え候補および書き換えない選択肢を加
え、表示している。それとともに、選択装置8が「選択
してください(1−4)」というプロンプトを表示し、
書き換え候補の選択を促す。オペレータは、候補の番号
を入力して書き換えの選択をすることになる。
【0034】図13において、文書エディタ10上で第
2の例文「ここでくつを脱いで下さい。」を校正する際
には、図13(A)に示すように、文書エディタ10の
ウィンドウに表示されている、修正すべき文にアンダー
ラインなどの装飾を施して示すことができる。書き換え
候補提示ウィンドウにおいて、例えば、2を選択するこ
とにより、文変換装置9により文が書き換えられ、文書
エディタ10に送られて、図13(B)に示すように、
文書エディタ10のウィンドウ上の文が修正される。そ
れとともに、校正中の文に付与されていたアンダーライ
ンなどの装飾は解除される。
【0035】上述の説明では、ひらがなと漢字の間の書
き換えを示したが、ひらがな、カタカナ、漢字の3つの
表記間での書き換えを行なうことができる。また、書き
換え候補として、3種類の形式を示したが、これに限ら
ず、他の書き換え候補を生成するように構成することも
できる。例えば、傍点の代わりに、アンダーラインなど
の文字修飾を行なうことも可能である。
【0036】
【発明の効果】以上の説明から明らかなように、本発明
によれば、文節の切れ目をまたいで同じ文字種が連続し
ていることが原因で、読みにくくなっている文を検出
し、書き換え候補により修正することができるので、文
の読みにくさを回避または減少させることができるとい
う効果がある。
【図面の簡単な説明】
【図1】 本発明の日本語文校正装置の一実施例を示す
構成図である
【図2】 第1の例文の形態素解析結果の説明図であ
る。
【図3】 第1の例文における文節の切れ目の説明図で
ある。
【図4】 字種情報辞書4の一例の説明図である。
【図5】 第1の文例における書き換え候補の一例の説
明図である。
【図6】 第1の例文における書き換え候補提示ウィン
ドウの一例の説明図である。
【図7】 第1の例文における文書エディタ上での構成
場面の一例の説明図である。
【図8】 第2の例文の形態素解析結果の説明図であ
る。
【図9】 第2の例文における文節の切れ目の説明図で
ある。
【図10】 字種情報辞書4の別の例の説明図である。
【図11】 第2の文例における書き換え候補の一例の
説明図である。
【図12】 第2の例文における書き換え候補提示ウィ
ンドウの一例の説明図である。
【図13】 第2の例文における文書エディタ上での構
成場面の一例の説明図である。
【符号の説明】
1…形態素解析装置、2…形態素解析結果保持装置、3
…文節間同字種探索装置、4…字種情報辞書、5…かな
漢字変換装置、6…書き換え候補生成装置、7…書き換
え候補提示装置、8…選択装置、9…文変換装置、10
…文書エディタ。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 日本語文の校正作業を支援する日本語文
    校正装置において、文を解析する文解析手段と、該文解
    析手段による解析結果から文節の切れ目をまたいで同じ
    字種が使用されている箇所を探索する文節間同字種探索
    手段を有することを特徴とする日本語文校正装置。
  2. 【請求項2】 単語の読みを見出し語として該単語の各
    字種による表記に対する可能性の度合いを保持する字種
    情報辞書と、かな書きの語句を漢字あるいは漢字かな交
    じりの語句に変換するかな漢字変換手段と、前記字種情
    報辞書に保持されている情報に基づき前記かな漢字変換
    手段を用いて前記文節間同字種探索手段により探索され
    た文節の切れ目をまたいで同じ字種が使用されている箇
    所を修正した文を生成する書き換え候補生成手段をさら
    に有することを特徴とする請求項1に記載の日本語文校
    正装置。
JP6024835A 1994-01-27 1994-01-27 日本語文校正装置 Pending JPH07219954A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6024835A JPH07219954A (ja) 1994-01-27 1994-01-27 日本語文校正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6024835A JPH07219954A (ja) 1994-01-27 1994-01-27 日本語文校正装置

Publications (1)

Publication Number Publication Date
JPH07219954A true JPH07219954A (ja) 1995-08-18

Family

ID=12149269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6024835A Pending JPH07219954A (ja) 1994-01-27 1994-01-27 日本語文校正装置

Country Status (1)

Country Link
JP (1) JPH07219954A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157619A1 (ja) * 2015-03-31 2016-10-06 Necソリューションイノベータ株式会社 情報表示装置、情報表示方法、および情報表示システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157619A1 (ja) * 2015-03-31 2016-10-06 Necソリューションイノベータ株式会社 情報表示装置、情報表示方法、および情報表示システム
JP2016194754A (ja) * 2015-03-31 2016-11-17 Necソリューションイノベータ株式会社 情報表示装置、情報表示方法、および情報表示システム

Similar Documents

Publication Publication Date Title
US5678051A (en) Translating apparatus with special display mode for supplemented words
US6490563B2 (en) Proofreading with text to speech feedback
US7328404B2 (en) Method for predicting the readings of japanese ideographs
JPH07219954A (ja) 日本語文校正装置
JP2003178087A (ja) 外国語電子辞書検索装置および方法
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JP2966473B2 (ja) 文書作成装置
KR0164405B1 (ko) 한/영 혼용문 자동구분방법
JPH05290030A (ja) 文書処理装置
JP2719453B2 (ja) 機械翻訳装置
JPH0350668A (ja) 文字処理装置
JP2915225B2 (ja) 文書作成装置
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JP3253311B2 (ja) 言語処理装置および言語処理方法
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
JPH06236399A (ja) 翻訳機能付きワードプロセッサ
JPH07200592A (ja) 文章処理装置
JPH07121542A (ja) 機械翻訳装置
JPH06332938A (ja) 自然言語解析装置および機械翻訳装置
JPH0340060A (ja) かな漢字変換装置
JPS6365566A (ja) カナ漢字変換装置
JPS63316157A (ja) 文章の類義表現変換装置
JPH0736885A (ja) 文書作成装置の文字情報変換制御方法及び同装置
JP2001167093A (ja) 外国語電子辞書の生成、検索のための方法および装置
JPH05151194A (ja) 文書作成支援装置