JP3132058B2 - 文章検査装置 - Google Patents
文章検査装置Info
- Publication number
- JP3132058B2 JP3132058B2 JP03178233A JP17823391A JP3132058B2 JP 3132058 B2 JP3132058 B2 JP 3132058B2 JP 03178233 A JP03178233 A JP 03178233A JP 17823391 A JP17823391 A JP 17823391A JP 3132058 B2 JP3132058 B2 JP 3132058B2
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- katakana
- sentence
- hiragana
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【0001】
【産業上の利用分野】本発明は日本語の文章の表記など
の誤りを検出する文章検査装置に関する。
の誤りを検出する文章検査装置に関する。
【0002】
【従来の技術】入力された文章を単語辞書を用いて文法
解析し、解析に失敗した箇所を誤りとして検出する従来
の文章検査装置は、特開昭61−208164号公報な
どに記載されている。
解析し、解析に失敗した箇所を誤りとして検出する従来
の文章検査装置は、特開昭61−208164号公報な
どに記載されている。
【0003】図2は、従来の文章検査装置の一実施例の
構成を示すブロック図である。
構成を示すブロック図である。
【0004】図2において、文章入力手段1は、文章を
入力する手段であり、キーボード、文字認識装置、かな
漢字変換入力装置などが用いられる。文章入力手段1
は、文章が入力されると文章記憶手段2に書き込む。
入力する手段であり、キーボード、文字認識装置、かな
漢字変換入力装置などが用いられる。文章入力手段1
は、文章が入力されると文章記憶手段2に書き込む。
【0005】文章記憶手段2は、文章入力手段1によっ
て入力された文章を記憶する手段であり、ICメモリ、
磁気ディスク装置、磁気テープ装置などが用いられる。
て入力された文章を記憶する手段であり、ICメモリ、
磁気ディスク装置、磁気テープ装置などが用いられる。
【0006】文法解析手段3は、文章記憶手段2に記憶
された文章を、単語辞書8と照合し、形態素解析などの
文法解析を行う。文法解析手段3は、公知の手段であ
り、例えば、『国語辞書の記憶と日本語文の自動分割』
(長尾・他、「情報処理」第19巻第6号、1978)
のようにして実現できる。文法解析手段3は、文法解析
を行った結果を解析結果記憶手段4に書き込む。文法解
析手段3は、コンピューターのCPUなどが用いられ
る。
された文章を、単語辞書8と照合し、形態素解析などの
文法解析を行う。文法解析手段3は、公知の手段であ
り、例えば、『国語辞書の記憶と日本語文の自動分割』
(長尾・他、「情報処理」第19巻第6号、1978)
のようにして実現できる。文法解析手段3は、文法解析
を行った結果を解析結果記憶手段4に書き込む。文法解
析手段3は、コンピューターのCPUなどが用いられ
る。
【0007】解析結果記憶手段4は、文法解析手段3に
よる解析の結果を記憶する手段であり、ICメモリなど
が用いられる。
よる解析の結果を記憶する手段であり、ICメモリなど
が用いられる。
【0008】誤り箇所検出手段5は、解析結果記憶手段
4において誤りとなった箇所を検出する手段である。つ
まり、未登録語となった箇所を検出するようにすること
で容易に実現できる。誤り箇所検出手段5は、誤りを検
出した結果を誤り箇所記憶手段6に書き込む。誤り検出
手段5は、コンピューターのCPUなどが用いられる。
4において誤りとなった箇所を検出する手段である。つ
まり、未登録語となった箇所を検出するようにすること
で容易に実現できる。誤り箇所検出手段5は、誤りを検
出した結果を誤り箇所記憶手段6に書き込む。誤り検出
手段5は、コンピューターのCPUなどが用いられる。
【0009】誤り箇所記憶手段6は、誤り箇所検出手段
5によって入力された誤り検出結果を記憶する手段であ
り、ICメモリ、磁気ディスク装置、磁気テープ装置な
どが用いられる。
5によって入力された誤り検出結果を記憶する手段であ
り、ICメモリ、磁気ディスク装置、磁気テープ装置な
どが用いられる。
【0010】文章表示手段7は、文章を表示する手段
で、CRTディスプレイなどが用いられる。文章表示手
段7は、文章記憶手段2に記憶された文章と誤り箇所記
憶手段6に記憶された誤り箇所のいずれか一方、また
は、両方を表示することができる。
で、CRTディスプレイなどが用いられる。文章表示手
段7は、文章記憶手段2に記憶された文章と誤り箇所記
憶手段6に記憶された誤り箇所のいずれか一方、また
は、両方を表示することができる。
【0011】次に動作の流れを説明する。文章入力手段
1によって文が入力されると、文章記憶手段2は、その
文を記憶する。文法解析手段3は、文章記憶手段に2に
記憶された文を入力として、単語辞書8と照合し、形態
素解析などの文法解析を行い、解析結果は解析結果記憶
手段4に書き込まれる。誤り箇所検出手段5は、解析結
果記憶手段4から解析に失敗した箇所を検出し、検出結
果を誤り箇所記憶手段6に書き込み、文章表示手段7に
よって誤り箇所を表示することができる。
1によって文が入力されると、文章記憶手段2は、その
文を記憶する。文法解析手段3は、文章記憶手段に2に
記憶された文を入力として、単語辞書8と照合し、形態
素解析などの文法解析を行い、解析結果は解析結果記憶
手段4に書き込まれる。誤り箇所検出手段5は、解析結
果記憶手段4から解析に失敗した箇所を検出し、検出結
果を誤り箇所記憶手段6に書き込み、文章表示手段7に
よって誤り箇所を表示することができる。
【0012】次に動作例を示す。
【0013】例文「彼は骨析していた。」という入力に
対して、「彼(代名詞)は(助詞)骨(名詞)析(未登
録語)し(サ変動詞)て(接続助詞)い(補助動詞)た
(助動詞)。(句点)」などと解析され、
対して、「彼(代名詞)は(助詞)骨(名詞)析(未登
録語)し(サ変動詞)て(接続助詞)い(補助動詞)た
(助動詞)。(句点)」などと解析され、
【0014】
【0015】などのように表示される。
【0016】
【発明が解決しようとする課題】上記従来技術では、辞
書に未登録であると、正解語であっても解析に失敗し、
誤りとして認定される。
書に未登録であると、正解語であっても解析に失敗し、
誤りとして認定される。
【0017】ところが通常平仮名書きされる単語が、著
者の好みなどによってカタカナ書きされることがある。
例えば、「あいつ」を「アイツ」、「いらいら」を「イ
ライラ」というふうに書くことがある。このような単語
は、ふつう平仮名表記で辞書に登録されており、文章中
にカタカナとして表記されて出現した場合、辞書に未登
録なため正解語であっても誤りとして検出されてしま
う。
者の好みなどによってカタカナ書きされることがある。
例えば、「あいつ」を「アイツ」、「いらいら」を「イ
ライラ」というふうに書くことがある。このような単語
は、ふつう平仮名表記で辞書に登録されており、文章中
にカタカナとして表記されて出現した場合、辞書に未登
録なため正解語であっても誤りとして検出されてしま
う。
【0018】辞書にないカタカナ列をすべて誤りとみな
すと検出過剰となり、逆に辞書にないカタカナ表記の単
語をすべて登録するとなると辞書が大きくなりすぎると
いった不具合が生じる。
すと検出過剰となり、逆に辞書にないカタカナ表記の単
語をすべて登録するとなると辞書が大きくなりすぎると
いった不具合が生じる。
【0019】また、任意のカタカナ列や英文字列を正解
の単語とみなして解析する方式がとられることもある
が、その場合にはカタカナ列や英文字列の誤りを検出す
ることができない。例えば、「コンピュタ」や「コンビ
ュータ」などのカタカナ列の誤りは検出できない。
の単語とみなして解析する方式がとられることもある
が、その場合にはカタカナ列や英文字列の誤りを検出す
ることができない。例えば、「コンピュタ」や「コンビ
ュータ」などのカタカナ列の誤りは検出できない。
【0020】本発明は、カタカナで表記された単語の検
査精度を高めた文章検査装置を提供することを目的とす
る。
査精度を高めた文章検査装置を提供することを目的とす
る。
【0021】
【課題を解決するための手段】本発明は、上記の目的を
達成するために、入力された文章を単語辞書と照合して
文法解析を行う文法解析手段と、前記文法解析手段で誤
りとなった箇所を検出する誤り箇所検出手段とを備える
文章検査装置において、前記文法解析に失敗した箇所の
内カタカナ列のみを探し出す解析失敗カタカナ列抽出手
段と、前記解析失敗カタカナ列抽出手段で抽出したカタ
カナ列を平仮名列に変換する平仮名列変換手段と、前記
平仮名列変換手段で得られた平仮名列について前記文法
解析をやり直す再解析手段と、前記再解析手段で前記文
法解析に成功する箇所が生じた場合に前記文法解析の結
果を更新する解析結果更新手段とを備えることを特徴と
している。
達成するために、入力された文章を単語辞書と照合して
文法解析を行う文法解析手段と、前記文法解析手段で誤
りとなった箇所を検出する誤り箇所検出手段とを備える
文章検査装置において、前記文法解析に失敗した箇所の
内カタカナ列のみを探し出す解析失敗カタカナ列抽出手
段と、前記解析失敗カタカナ列抽出手段で抽出したカタ
カナ列を平仮名列に変換する平仮名列変換手段と、前記
平仮名列変換手段で得られた平仮名列について前記文法
解析をやり直す再解析手段と、前記再解析手段で前記文
法解析に成功する箇所が生じた場合に前記文法解析の結
果を更新する解析結果更新手段とを備えることを特徴と
している。
【0022】
【作用】本発明の文章検査装置においては、通常の単語
辞書を用いた文法解析の結果から、解析失敗カタカナ列
抽出手段が解析に失敗したカタカナ列のみを抽出し、平
仮名列変換手段が抽出したカタカナ列を平仮名列に変換
し、得られた平仮名列を再解析手段が単語辞書を用いて
文法解析をやり直し、文法解析に成功する箇所が生じた
場合に解析結果更新手段が解析結果を更新する。
辞書を用いた文法解析の結果から、解析失敗カタカナ列
抽出手段が解析に失敗したカタカナ列のみを抽出し、平
仮名列変換手段が抽出したカタカナ列を平仮名列に変換
し、得られた平仮名列を再解析手段が単語辞書を用いて
文法解析をやり直し、文法解析に成功する箇所が生じた
場合に解析結果更新手段が解析結果を更新する。
【0023】
【実施例】図1は、本発明装置の一実施例の構成を示す
ブロック図である。
ブロック図である。
【0024】文章入力手段1、文章記憶手段2、文章解
析手段3、解析結果記憶手段4、誤り箇所検出手段5、
誤り箇所記憶手段6、文章表示手段7、単語辞書8につ
いては、従来技術の項で既に説明した通りであり、新規
に、解析失敗カタカナ列抽出手段21、平仮名列変換手
段22、再解析手段23、解析結果更新手段24が構成
要素に加わっている。
析手段3、解析結果記憶手段4、誤り箇所検出手段5、
誤り箇所記憶手段6、文章表示手段7、単語辞書8につ
いては、従来技術の項で既に説明した通りであり、新規
に、解析失敗カタカナ列抽出手段21、平仮名列変換手
段22、再解析手段23、解析結果更新手段24が構成
要素に加わっている。
【0025】解析失敗カタカナ列抽出手段21は、解析
結果記憶手段4に記憶された解析結果から解析に失敗し
た箇所のうち、カタカナ列を抽出し、そのアドレスを計
算して記憶する手段である。解析結果記憶手段4に記憶
された解析結果から、解析に失敗した(未登録語となっ
た)箇所を探し出し、カタカナ列の文字コードだけを選
定して抽出し、同時にそのアドレスを計算するようにす
れば容易に実現できる。解析失敗カタカナ列抽出手段2
1は、コンピューターのCPUなどが用いられる。
結果記憶手段4に記憶された解析結果から解析に失敗し
た箇所のうち、カタカナ列を抽出し、そのアドレスを計
算して記憶する手段である。解析結果記憶手段4に記憶
された解析結果から、解析に失敗した(未登録語となっ
た)箇所を探し出し、カタカナ列の文字コードだけを選
定して抽出し、同時にそのアドレスを計算するようにす
れば容易に実現できる。解析失敗カタカナ列抽出手段2
1は、コンピューターのCPUなどが用いられる。
【0026】平仮名列変換手段22は、解析失敗カタカ
ナ列抽出手段21によって抽出されたカタカナ列を読み
込んで平仮名列に変換する手段である。日本語の文字コ
ードは、一般に1文字2バイトで表現され、カタカナ列
と平仮名列の文字コードは、上位1バイトが異なるだけ
で対応がとれている。そこで解析失敗カタカナ列抽出手
段21によって抽出されたカタカナ列を入力として、文
字コードの上位1バイトを変換するようにすれば容易に
実現できる。例えば、JIS漢字コードでは、カタカナ
の「ア」(2522(16進))を平仮名の「あ」(2
422(16進))に変換するには、上位の1バイトを
変更すればよい。平仮名列変換手段22は、コンピュー
ターのCPUなどが使われる。
ナ列抽出手段21によって抽出されたカタカナ列を読み
込んで平仮名列に変換する手段である。日本語の文字コ
ードは、一般に1文字2バイトで表現され、カタカナ列
と平仮名列の文字コードは、上位1バイトが異なるだけ
で対応がとれている。そこで解析失敗カタカナ列抽出手
段21によって抽出されたカタカナ列を入力として、文
字コードの上位1バイトを変換するようにすれば容易に
実現できる。例えば、JIS漢字コードでは、カタカナ
の「ア」(2522(16進))を平仮名の「あ」(2
422(16進))に変換するには、上位の1バイトを
変更すればよい。平仮名列変換手段22は、コンピュー
ターのCPUなどが使われる。
【0027】再解析手段23は、平仮名列変換手段22
によって得られた平仮名列を単語辞書8と照合し、文法
解析手段3で行ったのと同様の文法解析を行う手段であ
り、コンピューターのCPUなどが用いられる。
によって得られた平仮名列を単語辞書8と照合し、文法
解析手段3で行ったのと同様の文法解析を行う手段であ
り、コンピューターのCPUなどが用いられる。
【0028】解析結果更新手段24では、再解析手段2
3において更新された箇所のアドレスを基に解析結果記
憶手段4の更新を行う手段であり、コンピュータのCP
Uなどが用いられる。再解析手段23において文法解析
を行う前は、すべて未登録語となっているので、再解析
手段23によって文法解析を行った後に、未登録語では
なくなったもののアドレスに対応する解析結果記憶手段
4の箇所の品詞情報を書き換える。
3において更新された箇所のアドレスを基に解析結果記
憶手段4の更新を行う手段であり、コンピュータのCP
Uなどが用いられる。再解析手段23において文法解析
を行う前は、すべて未登録語となっているので、再解析
手段23によって文法解析を行った後に、未登録語では
なくなったもののアドレスに対応する解析結果記憶手段
4の箇所の品詞情報を書き換える。
【0029】次に動作例を説明する。「私はアイツを見
た。彼は骨析していた。」という2つの例文を入力する
場合、第2の例文の解析は従来技術の項で記述した通り
である。第1の例文の「アイツ」という単語は、一般に
平仮名表記で単語辞書8に登録されており、カタカナ表
記としては未登録であるとする。すると「アイツ」の部
分が文法解析手段3において解析に失敗し、次のような
解析結果が解析結果記憶手段4に書き込まれる。
た。彼は骨析していた。」という2つの例文を入力する
場合、第2の例文の解析は従来技術の項で記述した通り
である。第1の例文の「アイツ」という単語は、一般に
平仮名表記で単語辞書8に登録されており、カタカナ表
記としては未登録であるとする。すると「アイツ」の部
分が文法解析手段3において解析に失敗し、次のような
解析結果が解析結果記憶手段4に書き込まれる。
【0030】「私(代名詞)は(助詞)アイツ(未登録
語)を(助詞)見(動詞)た(助動詞)。(句点)」 解析失敗カタカナ列抽出手段21は、解析結果記憶手段
4から「アイツ」を検出すると、平仮名列変換手段22
は、「アイツ」を読み込んで「あいつ」に変換し、再解
析手段23によって「あいつ」を単語辞書8と照合して
文法解析を行う。「あいつ」が解析に成功すると、解析
結果更新手段24は、「アイツ」のアドレスに対応する
解析結果記憶手段4の箇所の品詞情報を書き換える。第
1の例文に対して、次のような解析結果を得る。
語)を(助詞)見(動詞)た(助動詞)。(句点)」 解析失敗カタカナ列抽出手段21は、解析結果記憶手段
4から「アイツ」を検出すると、平仮名列変換手段22
は、「アイツ」を読み込んで「あいつ」に変換し、再解
析手段23によって「あいつ」を単語辞書8と照合して
文法解析を行う。「あいつ」が解析に成功すると、解析
結果更新手段24は、「アイツ」のアドレスに対応する
解析結果記憶手段4の箇所の品詞情報を書き換える。第
1の例文に対して、次のような解析結果を得る。
【0031】「私(代名詞)は(助詞)アイツ(あいつ
・代名詞)を(助詞)見(動詞)た(助動詞)。(句
点)」上記の第1及び2の例文の解析結果の表示は例え
ば次のようになる。
・代名詞)を(助詞)見(動詞)た(助動詞)。(句
点)」上記の第1及び2の例文の解析結果の表示は例え
ば次のようになる。
【0032】
【0033】一方、従来方式では、
【0034】のように表示されるので、本発明では通常
平仮名表記される単語をカタカナ表記した部分の過剰検
出が抑えられている。
平仮名表記される単語をカタカナ表記した部分の過剰検
出が抑えられている。
【0035】また、解析結果更新手段24で、品詞情報
の書き換えのあったことを示すフラグなどの情報を付加
すると、文章表示手段7において書き換えあった箇所を
誤り箇所と区別して表示することも可能になる。つま
り、上記の第1及び第2の例文の解析結果の表示は例え
ば次のようになる。
の書き換えのあったことを示すフラグなどの情報を付加
すると、文章表示手段7において書き換えあった箇所を
誤り箇所と区別して表示することも可能になる。つま
り、上記の第1及び第2の例文の解析結果の表示は例え
ば次のようになる。
【0036】
【0037】
【発明の効果】以上説明した通り、本発明によれば、平
仮名表記で辞書に登録されている単語が、書き手の好み
などによりカタカナで表記されて未登録語となる場合
に、辞書にないカタカナ列をすべて誤りとみなすことに
よって検出過剰となることを抑え、また、辞書にないカ
タカナ表記の単語をすべて登録することによって辞書が
大きくなりすぎることを防ぐ、といった効果をもたら
す。
仮名表記で辞書に登録されている単語が、書き手の好み
などによりカタカナで表記されて未登録語となる場合
に、辞書にないカタカナ列をすべて誤りとみなすことに
よって検出過剰となることを抑え、また、辞書にないカ
タカナ表記の単語をすべて登録することによって辞書が
大きくなりすぎることを防ぐ、といった効果をもたら
す。
【図1】本発明装置の一実施例の構成を示すブロック図
【図2】従来の文章検査装置の一実施例の構成を示すブ
ロック図
ロック図
1 文章入力手段 2 文章記憶手段 3 文法解析手段 4 解析結果記憶手段 5 誤り箇所検出手段 6 誤り箇所記憶手段 7 表示装置 8 単語辞書 21 解析失敗カタカナ列抽出手段 22 平仮名列変換手段 23 再解析手段 24 解析結果更新手段
Claims (1)
- 【請求項1】 入力された文章を単語辞書と照合して文
法解析を行う文法解析手段と、前記文法解析手段で誤り
となった箇所を検出する誤り箇所検出手段と備える文章
検査装置において、 前記文法解析に失敗した箇所の内カタカナ列のみを探し
出す解析失敗カタカナ列抽出手段と、前記解析失敗カタ
カナ列抽出手段で抽出したカタカナ列を平仮名列に変換
する平仮名列変換手段と、前記平仮名列変換手段で得ら
れた平仮名列について前記文法解析をやり直す再解析手
段と、前記再解析手段で前記文法解析に成功する箇所が
生じた場合に前記文法解析の結果を更新する解析結果更
新手段とを備えることを特徴とする文章検査装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03178233A JP3132058B2 (ja) | 1991-07-18 | 1991-07-18 | 文章検査装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03178233A JP3132058B2 (ja) | 1991-07-18 | 1991-07-18 | 文章検査装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0528142A JPH0528142A (ja) | 1993-02-05 |
JP3132058B2 true JP3132058B2 (ja) | 2001-02-05 |
Family
ID=16044925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03178233A Expired - Fee Related JP3132058B2 (ja) | 1991-07-18 | 1991-07-18 | 文章検査装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3132058B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0882432A1 (en) * | 1997-06-03 | 1998-12-09 | S.L.T. Japan Co., Ltd. | Dental handpiece |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6282466A (ja) * | 1985-10-07 | 1987-04-15 | Toshiba Corp | 辞書検索装置 |
JPH0258161A (ja) * | 1988-08-24 | 1990-02-27 | Sanyo Electric Co Ltd | 文字コード化方式及び辞書検索装置 |
-
1991
- 1991-07-18 JP JP03178233A patent/JP3132058B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0528142A (ja) | 1993-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8041557B2 (en) | Word translation device, translation method, and computer readable medium | |
US7092871B2 (en) | Tokenizer for a natural language processing system | |
US8126698B2 (en) | Technique for improving accuracy of machine translation | |
JPH07325828A (ja) | 文法チェックシステム | |
Liyanapathirana et al. | Sinspell: A comprehensive spelling checker for sinhala | |
US20040193399A1 (en) | System and method for word analysis | |
JPH0211934B2 (ja) | ||
JP3132058B2 (ja) | 文章検査装置 | |
JP6952371B2 (ja) | 文書検査装置及び文書検査方法 | |
WO2007041328A1 (en) | Detecting segmentation errors in an annotated corpus | |
JP3935374B2 (ja) | 辞書構築支援方法、装置及びプログラム | |
JP2592993B2 (ja) | 文節切り出し装置 | |
JP3696765B2 (ja) | 辞書作成装置、辞書作成方法、辞書作成プログラムを記録したコンピュータで読取可能な記録媒体および翻訳装置 | |
JP2002297585A (ja) | 英文名詞句の区分方法,英文構文情報生成方法および装置 | |
JPH07200592A (ja) | 文章処理装置 | |
JPH087046A (ja) | 文書認識装置 | |
JP2994539B2 (ja) | 機械翻訳装置 | |
JPH11203281A (ja) | 電子辞書検索装置及び電子辞書検索装置制御プログラムを記憶した媒体 | |
JP2575947B2 (ja) | 文節切出し装置 | |
JP2592995B2 (ja) | 文節切出し装置 | |
JPH0432958A (ja) | 日本文誤り語検出装置 | |
JPH10240736A (ja) | 形態素解析装置 | |
JPH0836575A (ja) | 統語解析装置 | |
JPH0546612A (ja) | 文章誤り検出装置 | |
JPH07129577A (ja) | 文書校正支援装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20001024 |
|
LAPS | Cancellation because of no payment of annual fees |