JP3132058B2

JP3132058B2 - 文章検査装置

Info

Publication number: JP3132058B2
Application number: JP03178233A
Authority: JP
Inventors: 義美竹元
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1991-07-18
Filing date: 1991-07-18
Publication date: 2001-02-05
Anticipated expiration: 2016-02-05
Also published as: JPH0528142A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は日本語の文章の表記など
の誤りを検出する文章検査装置に関する。

【０００２】

【従来の技術】入力された文章を単語辞書を用いて文法
解析し、解析に失敗した箇所を誤りとして検出する従来
の文章検査装置は、特開昭６１−２０８１６４号公報な
どに記載されている。

【０００３】図２は、従来の文章検査装置の一実施例の
構成を示すブロック図である。

【０００４】図２において、文章入力手段１は、文章を
入力する手段であり、キーボード、文字認識装置、かな
漢字変換入力装置などが用いられる。文章入力手段１
は、文章が入力されると文章記憶手段２に書き込む。

【０００５】文章記憶手段２は、文章入力手段１によっ
て入力された文章を記憶する手段であり、ＩＣメモリ、
磁気ディスク装置、磁気テープ装置などが用いられる。

【０００６】文法解析手段３は、文章記憶手段２に記憶
された文章を、単語辞書８と照合し、形態素解析などの
文法解析を行う。文法解析手段３は、公知の手段であ
り、例えば、『国語辞書の記憶と日本語文の自動分割』
（長尾・他、「情報処理」第１９巻第６号、１９７８）
のようにして実現できる。文法解析手段３は、文法解析
を行った結果を解析結果記憶手段４に書き込む。文法解
析手段３は、コンピューターのＣＰＵなどが用いられ
る。

【０００７】解析結果記憶手段４は、文法解析手段３に
よる解析の結果を記憶する手段であり、ＩＣメモリなど
が用いられる。

【０００８】誤り箇所検出手段５は、解析結果記憶手段
４において誤りとなった箇所を検出する手段である。つ
まり、未登録語となった箇所を検出するようにすること
で容易に実現できる。誤り箇所検出手段５は、誤りを検
出した結果を誤り箇所記憶手段６に書き込む。誤り検出
手段５は、コンピューターのＣＰＵなどが用いられる。

【０００９】誤り箇所記憶手段６は、誤り箇所検出手段
５によって入力された誤り検出結果を記憶する手段であ
り、ＩＣメモリ、磁気ディスク装置、磁気テープ装置な
どが用いられる。

【００１０】文章表示手段７は、文章を表示する手段
で、ＣＲＴディスプレイなどが用いられる。文章表示手
段７は、文章記憶手段２に記憶された文章と誤り箇所記
憶手段６に記憶された誤り箇所のいずれか一方、また
は、両方を表示することができる。

【００１１】次に動作の流れを説明する。文章入力手段
１によって文が入力されると、文章記憶手段２は、その
文を記憶する。文法解析手段３は、文章記憶手段に２に
記憶された文を入力として、単語辞書８と照合し、形態
素解析などの文法解析を行い、解析結果は解析結果記憶
手段４に書き込まれる。誤り箇所検出手段５は、解析結
果記憶手段４から解析に失敗した箇所を検出し、検出結
果を誤り箇所記憶手段６に書き込み、文章表示手段７に
よって誤り箇所を表示することができる。

【００１２】次に動作例を示す。

【００１３】例文「彼は骨析していた。」という入力に
対して、「彼（代名詞）は（助詞）骨（名詞）析（未登
録語）し（サ変動詞）て（接続助詞）い（補助動詞）た
（助動詞）。（句点）」などと解析され、

【００１４】

【００１５】などのように表示される。

【００１６】

【発明が解決しようとする課題】上記従来技術では、辞
書に未登録であると、正解語であっても解析に失敗し、
誤りとして認定される。

【００１７】ところが通常平仮名書きされる単語が、著
者の好みなどによってカタカナ書きされることがある。
例えば、「あいつ」を「アイツ」、「いらいら」を「イ
ライラ」というふうに書くことがある。このような単語
は、ふつう平仮名表記で辞書に登録されており、文章中
にカタカナとして表記されて出現した場合、辞書に未登
録なため正解語であっても誤りとして検出されてしま
う。

【００１８】辞書にないカタカナ列をすべて誤りとみな
すと検出過剰となり、逆に辞書にないカタカナ表記の単
語をすべて登録するとなると辞書が大きくなりすぎると
いった不具合が生じる。

【００１９】また、任意のカタカナ列や英文字列を正解
の単語とみなして解析する方式がとられることもある
が、その場合にはカタカナ列や英文字列の誤りを検出す
ることができない。例えば、「コンピュタ」や「コンビ
ュータ」などのカタカナ列の誤りは検出できない。

【００２０】本発明は、カタカナで表記された単語の検
査精度を高めた文章検査装置を提供することを目的とす
る。

【００２１】

【課題を解決するための手段】本発明は、上記の目的を
達成するために、入力された文章を単語辞書と照合して
文法解析を行う文法解析手段と、前記文法解析手段で誤
りとなった箇所を検出する誤り箇所検出手段とを備える
文章検査装置において、前記文法解析に失敗した箇所の
内カタカナ列のみを探し出す解析失敗カタカナ列抽出手
段と、前記解析失敗カタカナ列抽出手段で抽出したカタ
カナ列を平仮名列に変換する平仮名列変換手段と、前記
平仮名列変換手段で得られた平仮名列について前記文法
解析をやり直す再解析手段と、前記再解析手段で前記文
法解析に成功する箇所が生じた場合に前記文法解析の結
果を更新する解析結果更新手段とを備えることを特徴と
している。

【００２２】

【作用】本発明の文章検査装置においては、通常の単語
辞書を用いた文法解析の結果から、解析失敗カタカナ列
抽出手段が解析に失敗したカタカナ列のみを抽出し、平
仮名列変換手段が抽出したカタカナ列を平仮名列に変換
し、得られた平仮名列を再解析手段が単語辞書を用いて
文法解析をやり直し、文法解析に成功する箇所が生じた
場合に解析結果更新手段が解析結果を更新する。

【００２３】

【実施例】図１は、本発明装置の一実施例の構成を示す
ブロック図である。

【００２４】文章入力手段１、文章記憶手段２、文章解
析手段３、解析結果記憶手段４、誤り箇所検出手段５、
誤り箇所記憶手段６、文章表示手段７、単語辞書８につ
いては、従来技術の項で既に説明した通りであり、新規
に、解析失敗カタカナ列抽出手段２１、平仮名列変換手
段２２、再解析手段２３、解析結果更新手段２４が構成
要素に加わっている。

【００２５】解析失敗カタカナ列抽出手段２１は、解析
結果記憶手段４に記憶された解析結果から解析に失敗し
た箇所のうち、カタカナ列を抽出し、そのアドレスを計
算して記憶する手段である。解析結果記憶手段４に記憶
された解析結果から、解析に失敗した（未登録語となっ
た）箇所を探し出し、カタカナ列の文字コードだけを選
定して抽出し、同時にそのアドレスを計算するようにす
れば容易に実現できる。解析失敗カタカナ列抽出手段２
１は、コンピューターのＣＰＵなどが用いられる。

【００２６】平仮名列変換手段２２は、解析失敗カタカ
ナ列抽出手段２１によって抽出されたカタカナ列を読み
込んで平仮名列に変換する手段である。日本語の文字コ
ードは、一般に１文字２バイトで表現され、カタカナ列
と平仮名列の文字コードは、上位１バイトが異なるだけ
で対応がとれている。そこで解析失敗カタカナ列抽出手
段２１によって抽出されたカタカナ列を入力として、文
字コードの上位１バイトを変換するようにすれば容易に
実現できる。例えば、ＪＩＳ漢字コードでは、カタカナ
の「ア」（２５２２（１６進））を平仮名の「あ」（２
４２２（１６進））に変換するには、上位の１バイトを
変更すればよい。平仮名列変換手段２２は、コンピュー
ターのＣＰＵなどが使われる。

【００２７】再解析手段２３は、平仮名列変換手段２２
によって得られた平仮名列を単語辞書８と照合し、文法
解析手段３で行ったのと同様の文法解析を行う手段であ
り、コンピューターのＣＰＵなどが用いられる。

【００２８】解析結果更新手段２４では、再解析手段２
３において更新された箇所のアドレスを基に解析結果記
憶手段４の更新を行う手段であり、コンピュータのＣＰ
Ｕなどが用いられる。再解析手段２３において文法解析
を行う前は、すべて未登録語となっているので、再解析
手段２３によって文法解析を行った後に、未登録語では
なくなったもののアドレスに対応する解析結果記憶手段
４の箇所の品詞情報を書き換える。

【００２９】次に動作例を説明する。「私はアイツを見
た。彼は骨析していた。」という２つの例文を入力する
場合、第２の例文の解析は従来技術の項で記述した通り
である。第１の例文の「アイツ」という単語は、一般に
平仮名表記で単語辞書８に登録されており、カタカナ表
記としては未登録であるとする。すると「アイツ」の部
分が文法解析手段３において解析に失敗し、次のような
解析結果が解析結果記憶手段４に書き込まれる。

【００３０】「私（代名詞）は（助詞）アイツ（未登録
語）を（助詞）見（動詞）た（助動詞）。（句点）」解析失敗カタカナ列抽出手段２１は、解析結果記憶手段
４から「アイツ」を検出すると、平仮名列変換手段２２
は、「アイツ」を読み込んで「あいつ」に変換し、再解
析手段２３によって「あいつ」を単語辞書８と照合して
文法解析を行う。「あいつ」が解析に成功すると、解析
結果更新手段２４は、「アイツ」のアドレスに対応する
解析結果記憶手段４の箇所の品詞情報を書き換える。第
１の例文に対して、次のような解析結果を得る。

【００３１】「私（代名詞）は（助詞）アイツ（あいつ
・代名詞）を（助詞）見（動詞）た（助動詞）。（句
点）」上記の第１及び２の例文の解析結果の表示は例え
ば次のようになる。

【００３２】

【００３３】一方、従来方式では、

【００３４】のように表示されるので、本発明では通常
平仮名表記される単語をカタカナ表記した部分の過剰検
出が抑えられている。

【００３５】また、解析結果更新手段２４で、品詞情報
の書き換えのあったことを示すフラグなどの情報を付加
すると、文章表示手段７において書き換えあった箇所を
誤り箇所と区別して表示することも可能になる。つま
り、上記の第１及び第２の例文の解析結果の表示は例え
ば次のようになる。

【００３６】

【００３７】

【発明の効果】以上説明した通り、本発明によれば、平
仮名表記で辞書に登録されている単語が、書き手の好み
などによりカタカナで表記されて未登録語となる場合
に、辞書にないカタカナ列をすべて誤りとみなすことに
よって検出過剰となることを抑え、また、辞書にないカ
タカナ表記の単語をすべて登録することによって辞書が
大きくなりすぎることを防ぐ、といった効果をもたら
す。

【図面の簡単な説明】

【図１】本発明装置の一実施例の構成を示すブロック図

【図２】従来の文章検査装置の一実施例の構成を示すブ
ロック図

【符号の説明】

１文章入力手段２文章記憶手段３文法解析手段４解析結果記憶手段５誤り箇所検出手段６誤り箇所記憶手段７表示装置８単語辞書２１解析失敗カタカナ列抽出手段２２平仮名列変換手段２３再解析手段２４解析結果更新手段

Claims

(57)【特許請求の範囲】

【請求項１】入力された文章を単語辞書と照合して文
法解析を行う文法解析手段と、前記文法解析手段で誤り
となった箇所を検出する誤り箇所検出手段と備える文章
検査装置において、前記文法解析に失敗した箇所の内カタカナ列のみを探し
出す解析失敗カタカナ列抽出手段と、前記解析失敗カタ
カナ列抽出手段で抽出したカタカナ列を平仮名列に変換
する平仮名列変換手段と、前記平仮名列変換手段で得ら
れた平仮名列について前記文法解析をやり直す再解析手
段と、前記再解析手段で前記文法解析に成功する箇所が
生じた場合に前記文法解析の結果を更新する解析結果更
新手段とを備えることを特徴とする文章検査装置。