JPH0658667B2 - 文章検査装置 - Google Patents

文章検査装置

Info

Publication number
JPH0658667B2
JPH0658667B2 JP63016197A JP1619788A JPH0658667B2 JP H0658667 B2 JPH0658667 B2 JP H0658667B2 JP 63016197 A JP63016197 A JP 63016197A JP 1619788 A JP1619788 A JP 1619788A JP H0658667 B2 JPH0658667 B2 JP H0658667B2
Authority
JP
Japan
Prior art keywords
expression
sentence
style
condition
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63016197A
Other languages
English (en)
Other versions
JPH01191260A (ja
Inventor
俊一 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP63016197A priority Critical patent/JPH0658667B2/ja
Publication of JPH01191260A publication Critical patent/JPH01191260A/ja
Publication of JPH0658667B2 publication Critical patent/JPH0658667B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力された文章から誤り箇所または不適切箇
所を検出する文章検査装置に関する。
(従来の技術) 日本語文章の文体は、常体(だ・である体)と敬体(で
ず・ます体、であります体、ございます体)とに分ける
ことができる。例えば、次の(1),(2)の文は常体
の文であり、(3),(4)の文は敬体の文である。
次の通りだ。 …(1) 次の通りである。 …(2) 次の通りです。 …(3) 次の通りでございます。 …(4) 一般に、ひとつの文章中で、常体の文と敬体の文とが混
在することは好ましくない。
そのような混在の検査は、従来、『日本語文章作成支援
システムCOMET』(福島・他、電子通信学会技術研
究報告OS86-21、1986年)、特開昭61-229155号公報
『日本語ワード・プロセッシング方式』などで述べられ
ている。その方式は、文体(常体/敬体)を特徴付ける
表現を記憶する文体表現記憶手段を用意し、文章中から
この文体表現記憶手段に記憶された表現を検出すると同
時に、検出された表現の数を常体と敬体とに分けてカウ
ントするというものである。常体と敬体の数がともに1
以上であれば、常体と敬体とが混在していることにな
る。
(発明が解決しようとする課題) 文体に関する検査としては、従来の常体と敬体との混在
に関する検査だけでなく、敬体や常体が使用されている
位置に関する検査が必要である。
この敬体や常体が使用されている位置に関する検査を、
例をあげて説明する。
次の(5)は常体の文であり、(6),(7),(8)
はともに(5)に対する敬体の文である。しかし、同じ
敬体の文であっても、(6),(7),(8)では、文
の途中の敬体の使用されている位置・回数が異なる(下
線部分が敬体を特徴付ける表現である)。その結果、
(5)<(6)<(7)<(8)の順に丁寧さが増して
いる。
データは次に示した通りだが、安易に結論は 出せない。 …(5) データは次に示した通りだが、安易に結論は 出せません。 …(6) データは次に示した通りですが、安易に結論 は出せません。 …(7) データは次に示しました通りですが、安易に 結論は出せません。 …(8) 常体の文と敬体の文という区別だけでなく、敬体の文に
関する様々な形が日本語では許されるが、作成する文章
の種類によっては、好ましくない形が存在する。例え
ば、社内文書を考えた場合、(8)は過度に丁寧であ
り、避けたい形である。
また、ひとつの文章中では、常体の文または敬体の文に
統一されているだけでなく、敬体の文の場合の敬体の使
用法も統一されているべきである。例えば、次の(9)
のような文章は、敬体の使用法が不規則で、日本語とし
て不自然である(下線部分が敬体を特徴付ける表現であ
る)。
超新星から届いたと考えられます素粒子のデータを収集
しました。そのデータは、次に示した通りだが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …
(9) 上記のような問題は、敬体や常体を使用する位置に関す
る検査を行えば解決することができる。例えば、文末
(句点の直前)と接続助詞「が」の直前では敬体を使用
し、他の位置では常体を使用するという条件を定めて検
査するならば、(5)〜(8)については(5),
(6),(8)は不適切で(7)が適切であると判定さ
れる。同様に、(9)は不適切であり、それに対して、
次の(10)のような文章は適切であると判定されること
になる(下線部分が敬体を特徴付ける表現である)。
超新星から届いたと考えられる素粒子のデータを収集し
ました。そのデータは、次に示した通りですが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …(10) 従来、このような敬体や常体の使用されている位置に関
する検査は、人間が行うしか方法がなかった。
本発明の目的は、文末のみならず途中も含めて敬体や常
体の使用されている位置に関する検査を行うことのでき
る文章検査装置を提供することである。
(課題を解決するための手段) 本発明は、入力された日本語文章から誤り箇所あるいは
不適切箇所を検出する文章検査装置であって、文末また
は文中で使用されている文体を特徴付ける表現を記憶す
る文体表現記憶手段と、前記入力された日本語文章から
前記文体表現記憶手段に記憶された表現を検出する文体
表現検出手段と、前記文体を特徴付ける表現を使用する
文末および文中の位置条件を記憶する位置条件記憶手段
と、前記文体表現検出手段によって検出された表現の文
末または文中の位置が前記位置条件記憶手段に記憶され
た条件を満たすか否かを判定する位置条件判定手段とを
備えることを特徴とする文章検査装置である。
(実施例) 図面を参照して、本発明の構成・作用を説明する。
第1図は、本発明の文章検査装置の第一の実施例の構成
を示すブロック図である。
第1図において、文章入力手段1は、日本語文章を入力
する手段である。かな漢字変換入力装置、ペンタッチ・
キーボード、文字認識装置などが用いられる。
文章記憶手段2は、文章入力手段1によって入力された
入力文章を、文字コード列として記憶する手段である。
ICメモリ、磁気ディスク装置、磁気テープ装置、光デ
ィスク装置などが用いられる。
文体表現記憶手段3は、文末または文中で使用される文
体(常体/敬体)を特徴付ける表現を記憶する手段であ
る。ICメモリ、磁気ディスク装置、磁気テープ装置、
光ディスク装置などが用いられる。第2図および第3図
は、文体表現記憶手段3の内容の例である。第2図で
は、常体を特徴付ける表現の文字列と、敬体を特徴付け
る文字列の両方が、文体表現30の文字コード順に並べて
記憶されている。そして、各表現には、常体と敬体のい
ずれかを識別する情報である文章識別31が付加されてい
る。第3図では、常体を特徴付ける表現が(a)、敬体
を特徴付ける表現が(b)に、分けて登録される。従っ
て、第3図では、文体識別、は各々の表現には付与され
ていない。
文体表現検出手段4は、文章記憶手段2に記憶された日
本語文章から、文体表現記憶手段3に記憶された表現を
検出する手段である。コンピュータのCPUなどが用い
られる。この文体表現検出手段4では、文章記憶手段2
に記憶された日本語文章と、文体表現記憶手段3に記憶
された表現とを比較・照合する処理を行えばよく、文体
表現検出手段4は、当業者には容易に実現可能な手段で
ある。なお、文体表現検出手段4は、検出された表現の
文章中の位置と文体識別とを、位置条件判定手段6へ送
る。
位置条件記憶手段5は、文体(常体/敬体)を特徴付け
る表現を使用する文末および文中の位置に関する条件を
記憶する手段である。ICメモリ、磁気ディスク装置、
磁気テープ装置、光ディスク装置などが用いられる。第
4図および第5図は、位置条件記憶手段5の内容の例で
ある。第4図の位置条件記憶手段5は、敬体を特徴付け
る表現の直後に接続する表現の文字列を登録する形で、
条件を表している。すなわち、第4図の位置条件記憶手
段5では、敬体を特徴付ける表現の直後は、「。」
「が、」「ので、」のいずれかであり、常体を特徴付け
る表現の直後は、「。」「が、」「ので、」以外である
という条件を表している。第5図の位置条件記憶手段5
は、文体識別50と条件種別51と接続表現52から成ってい
る。文体識別50は、常体を特徴付ける表現の位置に関す
る条件なのか、敬体を特徴付ける表現の位置に関する条
件なのかを示す。条件種別51が「+」の場合は、その文
体表現の直後に接続する表現として、接続表現52の部分
の文字列を許すということを表し、条件種別51が「−」
の場合は、その文体表現の直後に接続する表現として、
接続表現52の部分の文字列を禁止するということを表
す。この第5図は、第4図と同様の条件を表したもので
ある。
位置条件判定手段6は、文体表現検出手段4によって検
出された表現の文末または文中の位置が、位置条件記憶
手段5に記憶された条件を満たすか否かを判定する手段
である。コンピュータのCPUなどが用いられる。この
位置条件判定手段6は、まず、文体表現検出手段4よ
り、文体(常体/敬体)を特徴付ける表現の検出された
位置を受け取る。そして、次に、その文体に関する条件
を、位置条件記憶手段5から読み込み、検出された表現
の位置が、その条件を満たすか否かを、文章記憶手段2
に記憶された日本語文章を検索して判定する。この判定
処理の内容は、位置条件記憶手段5における条件の記述
方法によって異なるものになるが、第4図に示したよう
な位置条件記憶手段5の場合は、第6図のフローチャー
トのような判定処理となる。なお、位置条件判定手段6
は、検出された表現の位置と、判定結果とを出力する。
また、文体表現検出手段4と位置条件判定手段6の動作
タイミングの制御方法としては、文体表現検出手段4が
文体を特徴付ける表現をひとつ検出するごとに、それに
対する位置条件判定手段6の判定処理を行う方法と、文
体表現検出手段4が文体を特徴付ける表現を全て検出し
た後で、位置条件判定手段6の判定処理をまとめて行う
方法がある。
次にこの実施例の動作を例を用いて説明する。
この例では、文章入力手段1から前に示した(9)の例
文が入力され、文章記憶手段2に記憶されているものと
する。また、文体表現記憶手段3の内容は第2図の例を
用い、位置条件記憶手段5の内容は、第4図の内容を用
いる。動作タイミングについては、文体表現検出手段4
が文体を特徴付ける表現を全て検出した後で、位置条件
判定手段6の判定処理をまとめて行う形で説明を行う。
まず、文体表現検出手段4は、文章記憶手段2に記憶さ
れた(9)の文章と、文体表現記憶手段3に記憶された
文字列とを照合し、次のような文字列を、文体を特徴付
ける表現として検出する。[ ]内は検出された表現の
位置(文章の先頭からの文字数)と、文体識別である。
いた [7〜8,常体] られます [12〜15,敬体] しました [26〜29,敬体] した [41〜42,常体] だ [45〜45,常体] せません [55〜58,敬体] います [75〜77,敬体] です [92〜93,敬体] そして、[ ]内の情報が、文体表現検出手段4から位
置条件判定手段6へ送られる。次に、位置条件判定手段
6は、文体表現検出手段4によって検出された表現の直
後の文字列と、位置条件記憶手段5に記憶された文字列
との比較を行い、第6図のフローチャートに従った判定
を行う。
具体的に説明すると、[7〜8,常体]に対しては、文
章の9文字目からの文字列「と考え…」は、位置条件記
憶手段5に記憶された「。」「が、」「ので、」とは一
致しない。そして、文体識別は常体なので、条件を満た
すと判定される。[12〜15,敬体]に対しては、文章の
16文字目からの文字列「素粒子の…」は、位置条件記憶
手段5に記憶された「。」「が、」「ので、」とは一致
しない。そして、文体識別は敬体なので、条件を満たさ
ないと判定される。[26〜29,敬体]に対しては、文章
の30文字目からの文字列「。その…」は、位置条件記憶
手段5に記憶された「。」とは一致する。そして、文体
識別は敬体なので、条件を満たすと判定される。以下同
様である。
その結果、位置条件判定手段6からは、次のような情報
が出力される。
[7〜8,条件を満たす] [12〜15,条件を満たさない] [26〜29,条件を満たす] [41〜42,条件を満たす] [45〜45,条件を満たさない] [55〜58,条件を満たす] [75〜77,条件を満たす] [92〜93,条件を満たす] すなわち、(9)の文章に対して、次に(11)の下線で
示した部分の文体がおかしいという結果が得られ、常体
や敬体の使用されている文末および文中の位置に関する
検査が行われた。
超新星から届いたと考えられます素粒子のデータを収集
しました。そのデータは、次に示した通りだが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。
…(11) 第1の下線の部分は「られる」となるべきであり、敬体
が過剰な箇所が検出されている。第2の下線の部分は
「です」となるべきであり、敬体が不足している部分が
検出されている。
ここで、上記の第一の実施例において、文体表現記憶手
段3に記憶しておく内容を制限しておくことも考えられ
る。
例えば、文体表現記憶手段3に記憶しておく内容を、第
3図(a)のように、常体を特徴付ける表現のみとする
こともできる。その場合には、(11)の第2の下線部分
のような、敬体が不足している箇所のみが検出される
(敬体が過剰な箇所は検出されない)。逆に、文体表現
記憶手段3に記憶しておく内容を、第3図(b)のよう
に、敬体を特徴付ける表現のみとした場合には、(11)
の第1の下線部分のような、敬体が過剰な箇所のみが検
出される(敬体が不足している箇所は検出されない)。
また、文体表現記憶手段3に記憶しておく表現の文体識
別について、常体/敬体の2分類だけでなく、3つ以上
の分類を用いることも可能である。第7図は常体/敬体
1/敬体2の3種類の文体識別を用いた文体表現記憶手
段3の内容の例である。第7図における文体識別が敬体
2のものは「ございます体」といわれるものである。そ
して、文体識別の種類に応じて、条件を細分化すること
も可能である。第8図は、第7図のような文体識別の種
類に対応した、位置条件記憶手段5の内容の例である。
第9図は、本発明の文章検査装置の第二の実施例の構成
を示すブロック図である。
この第二の実施例は、第一の実施例に対して、単語辞書
記憶手段7と文章解析手段8を加えたものである。
第9図における単語辞書検索手段7は、日本語の単語に
ついて少なくとも表記と品詞とを登録した単語辞書を記
憶する手段である。ICメモリ、磁気ディスク装置、磁
気テープ装置、光ディスク装置などが用いられる。文章
解析手段8は、文章記憶手段2に記憶された文章の解析
を行う手段である。コンピュータのCPUなどが用いら
れる。文章の解析は、単語辞書記憶手段7に記憶された
単語辞書を参照して行い、その結果としては、文節・単
語の単位や単語の品詞などが得られる。この文章解析手
段8と単語辞書記憶手段7は、公知の手段であり、例え
ば、『国語辞書の記憶と日本語文の自動分割』(長尾・
他、「情報処理」第19巻第6号、1978)のように
して実現できる。文章解析手段8は、文章記憶手段2に
記憶された文章の解析結果を、再び文章記憶手段2に書
き込むので、文章記憶手段2には、文章の文字コード列
だけでなく、文節・単語の単位や単語の品詞の情報も記
憶されることになる。例えば、文章解析の結果として、
(6)に対しては、次の(12)のような内容が記憶され
ることになる。[ ]内は単語の品詞、/は文節の境界
を表す。
データ[名詞]は[格助詞]/次[名詞]に[格助詞]
/示[動詞語幹]し[五段語尾連用形]した[助動詞
「た」連用形]/通り[名詞]だ[助動詞「だ」終止
形]が[接続助詞「が」]、[読点]/安易[形容動詞
語幹]に[形容動詞語尾連用形]/結論[名詞]は[格
助詞]/出[動詞語幹]せ[下一段語尾連用形]ませ
[助動詞]「まず」未然形]ん[助動詞「ん」終止
形]。[句点] …(12) この第二の実施例では、文体表現記憶手段3や位置条件
記憶手段5に記憶されている表現について、その表現の
文字列だけでなく、その表現を構成する単語の品詞情報
もあわせて持つ。第10図は、第二の実施例における文体
表現記憶手段3の内容の例を示す図であり、第11図は、
第二の実施例における位置条件記憶手段5の内容の例を
示す図である。
文体表現検出手段4や、位置条件判定手段6について
は、第一の実施例で説明した処理において、文字列の照
合を行う際に、文字列の照合だけでなく、単語の品詞の
照合も行うようにする。その結果、第二の実施例では、
第一の実施例に比べて、文体表現検出手段4の文体を特
徴付ける表現の検出誤りや、位置条件判定手段6の条件
の判定誤りがなくなり、文章検査装置の性能が向上す
る。
(発明の効果) 以上に説明したように、本発明によれば、敬体や常体の
使用されている文末および文中の位置に関する検査を行
うことが可能となる。すなわち、日本語文章の文体につ
いて、従来のように、常体と敬体の混在を検査するだけ
でなく、敬体の使い方も検査することができるので、よ
り自然な日本語文章を作成することに役立つ。
【図面の簡単な説明】
第1図および第9図は本発明の第一および第二の実施例
の構成をそれぞれ示すブロック図であり、第2図、第3
図、第7図および第10図は文体表現記憶手段3の内容の
例を示す図であり、第4図、第5図、第8図および第11
図は位置条件記憶手段5の内容の例を示す図であり、第
6図は位置条件判定手段6における判定処理のフローチ
ャートである。 1……文章入力手段、2……文章記憶手段、3……文体
表現記憶手段、4……文体表現検出手段、5……位置条
件記憶手段、6……位置条件判定手段、7……単語辞書
記憶手段、8……文章解析手段。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力された日本語文章から誤り箇所または
    不適切箇所を検出する文章検査装置において、文末また
    は文中で使用される文体を特徴付ける表現を記憶する文
    体表現記憶手段と、前記入力された日本語文章から前記
    文体表現記憶手段に記憶された表現を検出する文体表現
    検出手段と、前記文体を特徴付ける表現を使用する文末
    および文中の位置の条件を記憶する位置条件記憶手段
    と、前記文体表現検出手段によって検出された表現の文
    末または文中の位置が前記位置条件記憶手段に記憶され
    た条件を満たすか否かを判定する位置条件判定手段とを
    備えることを特徴とする文章検査装置。
JP63016197A 1988-01-26 1988-01-26 文章検査装置 Expired - Lifetime JPH0658667B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63016197A JPH0658667B2 (ja) 1988-01-26 1988-01-26 文章検査装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63016197A JPH0658667B2 (ja) 1988-01-26 1988-01-26 文章検査装置

Publications (2)

Publication Number Publication Date
JPH01191260A JPH01191260A (ja) 1989-08-01
JPH0658667B2 true JPH0658667B2 (ja) 1994-08-03

Family

ID=11909785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63016197A Expired - Lifetime JPH0658667B2 (ja) 1988-01-26 1988-01-26 文章検査装置

Country Status (1)

Country Link
JP (1) JPH0658667B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04280364A (ja) * 1991-03-08 1992-10-06 Nec Corp 文章検査装置
JPH07234873A (ja) * 1994-02-23 1995-09-05 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 言語翻訳システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0754517B2 (ja) * 1986-06-28 1995-06-07 富士通株式会社 日本語文書の文体チェック処理装置

Also Published As

Publication number Publication date
JPH01191260A (ja) 1989-08-01

Similar Documents

Publication Publication Date Title
US6424983B1 (en) Spelling and grammar checking system
US5784489A (en) Apparatus and method for syntactic signal analysis
EP1178408A2 (en) Segmenter for a natural language processing system
JP2002215617A (ja) 品詞タグ付けをする方法
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
US6125377A (en) Method and apparatus for proofreading a document using a computer system which detects inconsistencies in style
EP1471440A2 (en) System and method for word analysis
JP2019212115A (ja) 検査装置、検査方法、プログラム及び学習装置
JP2002132791A (ja) 地名情報抽出装置、その抽出方法及び抽出プログラムを記録した記録媒体、地図情報検索装置
US6731802B1 (en) Lattice and method for identifying and normalizing orthographic variations in Japanese text
JPH0658667B2 (ja) 文章検査装置
JP2007122660A (ja) 文書データ処理装置および文書データ処理プログラム
JPH0585057B2 (ja)
JPH077417B2 (ja) 文章検査装置
Lopresti et al. Cross-domain approximate string matching
JPH04280364A (ja) 文章検査装置
JP3856515B2 (ja) 文書校正装置
JP2894736B2 (ja) 文章検査方法
JP4119979B2 (ja) 個人環境言語変換装置及び個人環境差分強調装置及びプログラム
JP2796140B2 (ja) 自然言語処理用データ編集支援装置
Sornlertlamvanich Probabilistic language modeling for generalized LR parsing
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
JP4653375B2 (ja) 構造化文書生成装置及び構造化文書生成プログラム
JP3061855B2 (ja) かな漢字変換装置及びかな漢字変換方法
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法