JPH0528142A - 文章検査装置 - Google Patents

文章検査装置

Info

Publication number
JPH0528142A
JPH0528142A JP3178233A JP17823391A JPH0528142A JP H0528142 A JPH0528142 A JP H0528142A JP 3178233 A JP3178233 A JP 3178233A JP 17823391 A JP17823391 A JP 17823391A JP H0528142 A JPH0528142 A JP H0528142A
Authority
JP
Japan
Prior art keywords
analysis
katakana
string
hiragana
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3178233A
Other languages
English (en)
Other versions
JP3132058B2 (ja
Inventor
Yoshimi Takemoto
義美 竹元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP03178233A priority Critical patent/JP3132058B2/ja
Publication of JPH0528142A publication Critical patent/JPH0528142A/ja
Application granted granted Critical
Publication of JP3132058B2 publication Critical patent/JP3132058B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 カタカナ表記の単語の検査精度を高めた文章
検査装置を提供する。 【構成】 入力された文章の文法解析の結果である解析
結果記憶手段4から解析失敗カタカナ列抽出手段21が
解析に失敗したカタカナ列を抽出し、平仮名列変換手段
23が抽出したカタカナ列を平仮名列に変換し、得られ
た平仮名列を再解析手段23が単語辞書8を用いて文法
解析をやり直し、文法解析に成功する箇所が生じた場合
に解析結果更新手段24が解析結果を更新する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は日本語の文章の表記など
の誤りを検出する文章検査装置に関する。
【0002】
【従来の技術】入力された文章を単語辞書を用いて文法
解析し、解析に失敗した箇所を誤りとして検出する従来
の文章検査装置は、特開昭61−208164号公報な
どに記載されている。
【0003】図2は、従来の文章検査装置の一実施例の
構成を示すブロック図である。
【0004】図2において、文章入力手段1は、文章を
入力する手段であり、キーボード、文字認識装置、かな
漢字変換入力装置などが用いられる。文章入力手段1
は、文章が入力されると文章記憶手段2に書き込む。
【0005】文章記憶手段2は、文章入力手段1によっ
て入力された文章を記憶する手段であり、ICメモリ、
磁気ディスク装置、磁気テープ装置などが用いられる。
【0006】文法解析手段3は、文章記憶手段2に記憶
された文章を、単語辞書8と照合し、形態素解析などの
文法解析を行う。文法解析手段3は、公知の手段であ
り、例えば、『国語辞書の記憶と日本語文の自動分割』
(長尾・他、「情報処理」第19巻第6号、1978)
のようにして実現できる。文法解析手段3は、文法解析
を行った結果を解析結果記憶手段4に書き込む。文法解
析手段3は、コンピューターのCPUなどが用いられ
る。
【0007】解析結果記憶手段4は、文法解析手段3に
よる解析の結果を記憶する手段であり、ICメモリなど
が用いられる。
【0008】誤り箇所検出手段5は、解析結果記憶手段
4において誤りとなった箇所を検出する手段である。つ
まり、未登録語となった箇所を検出するようにすること
で容易に実現できる。誤り箇所検出手段5は、誤りを検
出した結果を誤り箇所記憶手段6に書き込む。誤り検出
手段5は、コンピューターのCPUなどが用いられる。
【0009】誤り箇所記憶手段6は、誤り箇所検出手段
5によって入力された誤り検出結果を記憶する手段であ
り、ICメモリ、磁気ディスク装置、磁気テープ装置な
どが用いられる。
【0010】文章表示手段7は、文章を表示する手段
で、CRTディスプレイなどが用いられる。文章表示手
段7は、文章記憶手段2に記憶された文章と誤り箇所記
憶手段6に記憶された誤り箇所のいずれか一方、また
は、両方を表示することができる。
【0011】次に動作の流れを説明する。文章入力手段
1によって文が入力されると、文章記憶手段2は、その
文を記憶する。文法解析手段3は、文章記憶手段に2に
記憶された文を入力として、単語辞書8と照合し、形態
素解析などの文法解析を行い、解析結果は解析結果記憶
手段4に書き込まれる。誤り箇所検出手段5は、解析結
果記憶手段4から解析に失敗した箇所を検出し、検出結
果を誤り箇所記憶手段6に書き込み、文章表示手段7に
よって誤り箇所を表示することができる。
【0012】次に動作例を示す。
【0013】例文「彼は骨析していた。」という入力に
対して、「彼(代名詞)は(助詞)骨(名詞)析(未登
録語)し(サ変動詞)て(接続助詞)い(補助動詞)た
(助動詞)。(句点)」などと解析され、
【0014】
【0015】などのように表示される。
【0016】
【発明が解決しようとする課題】上記従来技術では、辞
書に未登録であると、正解語であっても解析に失敗し、
誤りとして認定される。
【0017】ところが通常平仮名書きされる単語が、著
者の好みなどによってカタカナ書きされることがある。
例えば、「あいつ」を「アイツ」、「いらいら」を「イ
ライラ」というふうに書くことがある。このような単語
は、ふつう平仮名表記で辞書に登録されており、文章中
にカタカナとして表記されて出現した場合、辞書に未登
録なため正解語であっても誤りとして検出されてしま
う。
【0018】辞書にないカタカナ列をすべて誤りとみな
すと検出過剰となり、逆に辞書にないカタカナ表記の単
語をすべて登録するとなると辞書が大きくなりすぎると
いった不具合が生じる。
【0019】また、任意のカタカナ列や英文字列を正解
の単語とみなして解析する方式がとられることもある
が、その場合にはカタカナ列や英文字列の誤りを検出す
ることができない。例えば、「コンピュタ」や「コンビ
ュータ」などのカタカナ列の誤りは検出できない。
【0020】本発明は、カタカナで表記された単語の検
査精度を高めた文章検査装置を提供することを目的とす
る。
【0021】
【課題を解決するための手段】本発明は、上記の目的を
達成するために、入力された文章を単語辞書と照合して
文法解析を行う文法解析手段と、前記文法解析手段で誤
りとなった箇所を検出する誤り箇所検出手段とを備える
文章検査装置において、前記文法解析に失敗した箇所の
内カタカナ列のみを探し出す解析失敗カタカナ列抽出手
段と、前記解析失敗カタカナ列抽出手段で抽出したカタ
カナ列を平仮名列に変換する平仮名列変換手段と、前記
平仮名列変換手段で得られた平仮名列について前記文法
解析をやり直す再解析手段と、前記再解析手段で前記文
法解析に成功する箇所が生じた場合に前記文法解析の結
果を更新する解析結果更新手段とを備えることを特徴と
している。
【0022】
【作用】本発明の文章検査装置においては、通常の単語
辞書を用いた文法解析の結果から、解析失敗カタカナ列
抽出手段が解析に失敗したカタカナ列のみを抽出し、平
仮名列変換手段が抽出したカタカナ列を平仮名列に変換
し、得られた平仮名列を再解析手段が単語辞書を用いて
文法解析をやり直し、文法解析に成功する箇所が生じた
場合に解析結果更新手段が解析結果を更新する。
【0023】
【実施例】図1は、本発明装置の一実施例の構成を示す
ブロック図である。
【0024】文章入力手段1、文章記憶手段2、文章解
析手段3、解析結果記憶手段4、誤り箇所検出手段5、
誤り箇所記憶手段6、文章表示手段7、単語辞書8につ
いては、従来技術の項で既に説明した通りであり、新規
に、解析失敗カタカナ列抽出手段21、平仮名列変換手
段22、再解析手段23、解析結果更新手段24が構成
要素に加わっている。
【0025】解析失敗カタカナ列抽出手段21は、解析
結果記憶手段4に記憶された解析結果から解析に失敗し
た箇所のうち、カタカナ列を抽出し、そのアドレスを計
算して記憶する手段である。解析結果記憶手段4に記憶
された解析結果から、解析に失敗した(未登録誤となっ
た)箇所を探し出し、カタカナ列の文字コードだけを選
定して抽出し、同時にそのアドレスを計算するようにす
れば容易に実現できる。解析失敗カタカナ列抽出手段2
1は、コンピューターのCPUなどが用いられる。
【0026】平仮名列変換手段22は、解析失敗カタカ
ナ列抽出手段21によって抽出されたカタカナ列を読み
込んで平仮名列に変換する手段である。日本語の文字コ
ードは、一般に1文字2バイトで表現され、カタカナ列
と平仮名列の文字コードは、上位1バイトが異なるだけ
で対応がとれている。そこで解析失敗カタカナ列抽出手
段21によって抽出されたカタカナ列を入力として、文
字コードの上位1バイトを変換するようにすれば容易に
実現できる。例えば、JIS漢字コードでは、カタカナ
の「ア」(2522(16進))を平仮名の「あ」(2
422(16進))に変換するには、上位の1バイトを
変更すればよい。平仮名列変換手段22は、コンピュー
ターのCPUなどが使われる。
【0027】再解析手段23は、平仮名列変換手段22
によって得られた平仮名列を単語辞書8と照合し、文法
解析手段3で行ったのと同様の文法解析を行う手段であ
り、コンピューターのCPUなどが用いられる。
【0028】解析結果更新手段24では、再解析手段2
3において更新された箇所のアドレスを基に解析結果記
憶手段4の更新を行う手段であり、コンピュータのCP
Uなどが用いらる。再解析手段23において文法解析を
行う前は、すべて未登録語となっているので、再解析手
段23によって文法解析を行った後に、未登録語ではな
くなったもののアドレスに対応する解析結果記憶手段4
の箇所の品詞情報を書き換える。
【0029】次に動作例を説明する。「私はアイツを見
た。彼は骨折していた。」という2つの例文を入力する
場合、第2の例文の解析は従来技術の項で記述した通り
である。第1の例文の「アイツ」という単語は、一般に
平仮名表記で単語辞書8に登録されており、カタカナ表
記としては未登録であるとする。すると「アイツ」の部
分が文法解析手段3において解析に失敗し、次のような
解析結果が解析結果記憶手段4に書き込まれる。
【0030】「私(代名詞)は(助詞)アイツ(未登録
語)を(助詞)見(動詞)た(助動詞)。(句点)」 解析失敗カタカナ列抽出手段21は、解析結果記憶手段
4から「アイツ」を検出すると、平仮名列変換手段22
は、「アイツ」を読み込んで「あいつ」に変換し、再解
析手段23によって「あいつ」を単語辞書8と照合して
文法解析を行う。「あいつ」が解析に成功すると、解析
結果更新手段24は、「アイツ」のアドレスに対応する
解析結果記憶手段4の箇所の品詞情報を書き換える。第
1の例文に対して、次のような解析結果を得る。
【0031】「私(代名詞)は(助詞)アイツ(あいつ
・代名詞)を(助詞)見(動詞)た(助動詞)。(句
点)」従来方式では、上記の第1及び2の例文の解析結
果の表示は例えば次のようになる。
【0032】
【0033】
【0034】のように表示されるので、本発明では通常
平仮名表記される単語をカタカナ表記した部分の過剰検
出が抑えられている。
【0035】また、解析結果更新手段24で、品詞情報
の書き換えのあったことを示すフラグなどの情報を付加
すると、文章表示手段7において書き換えあった箇所を
誤り箇所と区別して表示することも可能になる。つま
り、上記の第1及び第2の例文の解析結果の表示は例え
ば次のようになる。
【0036】
【0037】
【発明の効果】以上説明した通り、本発明によれば、平
仮名表記で辞書に登録されている単語が、書き手の好み
などによりカタカナで表記されて未登録語となる場合
に、辞書にないカタカナ列をすべて誤りとみなすことに
よって検出過剰となることを抑え、また、辞書にないカ
タカナ表記の単語をすべて登録することによって辞書が
大きくなりすぎることを防ぐ、といった効果をもたら
す。
【図面の簡単な説明】
【図1】本発明装置の一実施例の構成を示すブロック図
【図2】従来の文章検査装置の一実施例の構成を示すブ
ロック図
【符号の説明】
1 文章入力手段 2 文章記憶手段 3 文法解析手段 4 解析結果記憶手段 5 誤り箇所検出手段 6 誤り箇所記憶手段 7 表示装置 8 単語辞書 21 解析失敗カタカナ列抽出手段 22 平仮名列変換手段 23 再解析手段 24 解析結果更新手段

Claims (1)

  1. 【特許請求の範囲】 【請求項1】 入力された文章を単語辞書と照合して文
    法解析を行う文法解析手段と、前記文法解析手段で誤り
    となった箇所を検出する誤り箇所検出手段と備える文章
    検査装置において、 前記文法解析に失敗した箇所の内カタカナ列のみを探し
    出す解析失敗カタカナ列抽出手段と、前記解析失敗カタ
    カナ列抽出手段で抽出したカタカナ列を平仮名列に変換
    する平仮名列変換手段と、前記平仮名列変換手段で得ら
    れた平仮名列について前記文法解析をやり直す再解析手
    段と、前記再解析手段で前記文法解析に成功する箇所が
    生じた場合に前記文法解析の結果を更新する解析結果更
    新手段とを備えることを特徴とする文章検査装置。
JP03178233A 1991-07-18 1991-07-18 文章検査装置 Expired - Fee Related JP3132058B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03178233A JP3132058B2 (ja) 1991-07-18 1991-07-18 文章検査装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03178233A JP3132058B2 (ja) 1991-07-18 1991-07-18 文章検査装置

Publications (2)

Publication Number Publication Date
JPH0528142A true JPH0528142A (ja) 1993-02-05
JP3132058B2 JP3132058B2 (ja) 2001-02-05

Family

ID=16044925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03178233A Expired - Fee Related JP3132058B2 (ja) 1991-07-18 1991-07-18 文章検査装置

Country Status (1)

Country Link
JP (1) JP3132058B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5851112A (en) * 1997-06-03 1998-12-22 S.L.T. Japan Co., Ltd. Dental handpiece

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6282466A (ja) * 1985-10-07 1987-04-15 Toshiba Corp 辞書検索装置
JPH0258161A (ja) * 1988-08-24 1990-02-27 Sanyo Electric Co Ltd 文字コード化方式及び辞書検索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6282466A (ja) * 1985-10-07 1987-04-15 Toshiba Corp 辞書検索装置
JPH0258161A (ja) * 1988-08-24 1990-02-27 Sanyo Electric Co Ltd 文字コード化方式及び辞書検索装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5851112A (en) * 1997-06-03 1998-12-22 S.L.T. Japan Co., Ltd. Dental handpiece

Also Published As

Publication number Publication date
JP3132058B2 (ja) 2001-02-05

Similar Documents

Publication Publication Date Title
US7092871B2 (en) Tokenizer for a natural language processing system
US20090106018A1 (en) Word translation device, translation method, and computer readable medium
JP3476008B2 (ja) 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
JPH08314910A (ja) 異種コード文字列転記装置および電子辞書
JP3132058B2 (ja) 文章検査装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
KR20080049764A (ko) 주석화된 코퍼스의 분할화 오류를 탐지하는 방법
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
JPH087046A (ja) 文書認識装置
JP3390567B2 (ja) 誤字訂正装置
JP2902138B2 (ja) 誤読文字修正方法
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPH0531186B2 (ja)
JPH1078953A (ja) 住所表記変換方法および住所表記チェック方法
JPH10198664A (ja) 日本語入力システム及び日本語入力プログラムを記録した媒体
JP2002297585A (ja) 英文名詞句の区分方法,英文構文情報生成方法および装置
JPH07110844A (ja) 日本語文書処理装置
JPH10207889A (ja) 文書校正装置
JPH07200592A (ja) 文章処理装置
JP2575947B2 (ja) 文節切出し装置
JP2592993B2 (ja) 文節切り出し装置
JPH10240736A (ja) 形態素解析装置
JPH0546612A (ja) 文章誤り検出装置
JPS5899829A (ja) 誤り文字検出・修正支援装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20001024

LAPS Cancellation because of no payment of annual fees