JP3856515B2 - 文書校正装置 - Google Patents

文書校正装置 Download PDF

Info

Publication number
JP3856515B2
JP3856515B2 JP00658897A JP658897A JP3856515B2 JP 3856515 B2 JP3856515 B2 JP 3856515B2 JP 00658897 A JP00658897 A JP 00658897A JP 658897 A JP658897 A JP 658897A JP 3856515 B2 JP3856515 B2 JP 3856515B2
Authority
JP
Japan
Prior art keywords
error
correct
unit
candidate
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP00658897A
Other languages
English (en)
Other versions
JPH10207889A (ja
Inventor
潤 伊吹
くにお 松井
顕 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP00658897A priority Critical patent/JP3856515B2/ja
Publication of JPH10207889A publication Critical patent/JPH10207889A/ja
Application granted granted Critical
Publication of JP3856515B2 publication Critical patent/JP3856515B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文章処理装置においてユーザが入力した又は電子的な媒体として獲得した文書データに対して、ユーザが文書を校正する作業を軽減し、文書校正の効率を大幅に向上させる文書校正装置に関するものである。
【0002】
【従来の技術】
従来の誤り指摘技術としては、
▲1▼ 形態素解析をして結果中の未登録語部分を指摘するもの。
▲2▼ 同音異義語のある単語を指摘するもの。
などが先ず挙げられる。
【0003】
未登録語を指摘する機能の場合、誤った綴の単語があれば、未登録語となる確率が高いため、未登録語部分の周辺に誤った綴の単語がある可能性がある。
同様に、同音異義語の存在する単語箇所は、仮名漢字変換のときに操作誤りをし易い箇所として指摘される。ユーザは、その中で自分で正誤の判断を一つ一つのケースに対して下すことになる。
【0004】
他の手段としては、形態素解析の後に、特定の単語列が検出された場合に誤りと認定して指摘するものがある。例えば、名詞+動詞と言う品詞列をチェックする又は一文字の漢字単語があった場合に誤りとする等である。他にも片仮名/漢字文字列を発音順に並べ、同じ単語の僅かな表記の揺れのある単語が隣に来るようにして、表記の揺れを検出し易くしたものがある。
【0005】
更に、新たに誤りの候補を検出した後で、誤りの内容を推定した仮説を複数作り出し、複合語等とのマッチング等の手段で仮説の検定を行い、生き残った尤もらしい仮説のみを提示するシステムも存在する。
【0006】
【発明が解決しようとする課題】
未登録語,同音異義語の存在する単語の指摘機能等は誤りと断定できないが、誤りが存在する可能性がある所を指摘するわけである。しかし、未登録語の指摘に関して言うと、未登録語の生まれる原因としては、綴誤り以外にも固有名詞などが辞書中に存在しないと言った本来の未登録語の存在も挙げられる。同音異義語の存在する単語の指摘についても、誤りが多いと言うだけでは必ず誤っている箇所と言うわけではない。このため、上記の方法については、指摘されたものが全て本当の誤りではない(過剰指摘が多い)ということが一番問題になる。
【0007】
特定の品詞列によって誤りを発見する方法では、扱う誤りの対象が非常に限定されたものとなり、文章中の誤りの多くは検出されないと言う問題を持つ。
また、片仮名語句や漢字語句をソートしてユーザに示す方法は、ユーザ自身でするべき作業が大きく、校正作業の能率が余り改善されないと言う問題点があった。
【0008】
さらに、仮説を生成して検定によって確からしいものだけを残す方法においては、生成された各々の仮説に対して正しい評価を与えることが重要になる。この場合は、本来の未登録語が辞書に載っていないと言うだけで指摘されると言う問題はないが、評価の揺れが問題になる。例えば、テキスト中の原表記に対応する単語が辞書中に無かった場合は他の仮説に比べて相対的な評価が低くなり、対象部分が正しい場合にも指摘してしまう可能性がある。
【0009】
一般の文書校正支援システムでは、誤り指摘の精度を高くしようとすれば対象とする誤りの種類を絞らざるを得ず、また可能な限り多くの誤りを指摘しようとすれば指摘中に本来の誤りでない部分に対する指摘(過剰指摘)が多く混じってしまう。これに対応するために、入力テキストに存在する表記誤りの可能性を広く考慮して多くのもとの正しい綴りの候補を生成する部分(正解候補展開)と,それを辞書の内容とのマッチングによって検証する部分(正解語探索)を独立させた文書校正支援システムを本出願人は既に提案したが、検証能力が弱く、未だに多くの過剰指摘が残っている。
本発明は、これらの点に鑑みて創作されたものであって、統計的なデータや辞書情報を利用して、正解候補の展開時に生成される正解候補の誤り確率(正解候補が誤って誤り部分の単語または単語列になる確率)を求めるようになった文書校正装置を提供することを目的としている。
【0010】
【課題を解決するための手段】
請求項1の文書校正装置は、
入力されたテキストを単語列に変換する形態素解析部と、
形態素解析の結果得られた単語列の中から誤り可能性部分を抽出する誤り部分検出部と、
誤り部分抽出部によって抽出された誤り可能性部分に対して正解候補を生成する正解候補展開部と、
正解候補展開部の展開の結果得られた1個または複数個の正解候補のそれぞれに対して検証を行って確からしい正解候補のみに絞り込む正解候補検証部と
を具備する文書校正装置であって、
正解候補検証部が、
単語又は単語列の生起確率に関するデータベースと、
上記データベースを参照して、正解候補の誤り確率を計算するために必要とされる単語又は単語列の生起確率を出力する生起確率付与部と、
テキスト中に存在する誤り可能性部分の生起確率と正解候補の生起確率との比によって誤り確率を計算する誤り確率計算部と、
誤り確率計算部によって各正解候補に付与された誤り確率を参照して、所定の閾値以上の正解候補を選択する誤り候補選択部と
を具備することを特徴とするものである。
【0012】
請求項の文書校正装置は、請求項1の文書校正装置において、誤り確率計算部が、各正解候補の単語が単独に生起する生起確率とテキスト中の文脈における単語列としての生起確率との比を参照して、各正解候補に対する誤り確率を計算することを特徴とするものである。
【0013】
請求項3の文書校正装置は、請求項1の文書校正装置において、誤り確率計算部が、各正解候補がテスト対象となる助詞と共起する共起パターンと、テキスト中の誤り部分のが、上記テスト対象の助詞と共起する共起パターンとを比較し、比較結果に基づき誤り確率を計算することを特徴とするものである。
【0014】
請求項の文書校正装置は、請求項1,請求項2,または請求項3の文書校正装置において、生起確率付与部が、展開される群内での優先度情報を持つ展開群内優先度情報付き単語辞書と、入力される単語又は単語列に対応する上記単語辞書の群内における優先度情報に基づいて、上記単語又は単語列に対する生起確率を計算する相対生起確率計算部とを具備することを特徴とするものである。
【0015】
請求項の文書校正装置は、請求項1,請求項2,請求項3,または請求項4の文書校正装置において、正解候補展開部が、読み付き単語辞書と、読み付き単語辞書を参照して、誤り可能性部分の単語の読みを抽出する読み抽出部と、読み抽出部によって抽出された単語の読みと同一の読みを持つ他の単語を読み付き単語辞書から抽出し、抽出した単語を正解候補として出力する同音語抽出部とを具備することを特徴とするものである。
【0016】
請求項の文書校正装置は、請求項1,請求項2,請求項3,または請求項4の文書校正装置において、正解候補展開部が、誤り表記、これに対応する正解候補および制約条件を持つ展開データが複数個記述された展開データベースと、誤り可能性部分に適合する展開データベース中の展開データを用いて、誤り可能性部分を正解候補に展開する展開部と、
展開部から出力される正解候補が当該正解候補に対する制約条件を満たしているか否かを調査し、制約条件に合致する正解候補だけを残す条件検査部と
を具備することを特徴とするものである。
【0017】
請求項の文書校正装置は、請求項1,請求項2,請求項3,または請求項4の文書校正装置において、正解候補展開部が、複数の日本語入力手段のそれぞれに対応する,誤り可能性部分を正解候補に展開するための展開データベースの複数個と、テキストを作成した際の日本語入力手段を特定する情報に基づいて、参照先の展開データベースを選択する参照先制御部と、選択された参照先の展開データベースを参照して、誤り可能性部分を正解候補に展開する展開処理部とを具備することを特徴とするものである。
【0019】
請求項1ないし請求項7の文書校正装置によれば、正解候補を過剰に指摘すると言うことを無くすことが出来る。
【0020】
【発明の実施の形態】
図1は本発明の文書校正装置の構成例を示す図である。同図においては、100は形態素解析部、200は誤り検出部、300は正解候補展開部、400は正解候補検証部、410は生起確率付与部、420は誤り確率計算部、430は誤り候補選択部をそれぞれ示している。
【0021】
図1(a) は本発明の文書校正装置の概要を示す図である。形態素解析部100は、入力テキストを単語列に分解し、得られた単語列を誤り部分検出部200に渡す。誤り部分検出部200は、受け取った単語列から誤り部分(誤りの可能性のある部分)を検出し、誤り部分を正解候補展開部300に渡す。正解候補展開部300では、誤りの種類を推定して、誤り部分に対応する正しい単語又は単語列の候補(正解候補)を生成する。正解候補検証部400は、各正解候補を検証して、正解度の高い正解候補を選択する。なお、本発明の文書校正装置は、実際には計算機とソフトウェアによって実現されている。
【0022】
図1(b) は正解候補検証部の構成例を示す図である。正解候補検証部400は、生起確率付与部410,誤り確率計算部420,誤り候補選択部430,単語生起確率データベース440を有している。生起確率付与部410は、単語単体や単語列の生起確率に関するデータベース440(単語生起確率データベース)を参照して、正解候補の誤り確率を計算するために必要となる単語または単語列(正解候補や誤り部分の単語等)の生起確率を出力する。単語や単語列の生起確率とは、テキストやコーパス(文例集)の中で、単語または単語列を任意に選択した場合に、それが指定された単語又は単語列である確率を意味している。単語生起確率データベースとは、
単語 生起確率
安全 0.001
保証 0.002
保障 0.001
歩しょう 0.0005
アーク 0.001
のように、単語又は単語列と生起確率の対を複数個記憶するものである。
【0023】
誤り確率計算部420は、生起確率付与部410から出力される単語または単語列の生起確率をもとにして、正解候補の誤り確率を計算する。誤り確率とは、正解候補の単語又は単語列が誤って誤り部分の単語又は単語列になる確率を意味している。誤り候補選択部430は、誤り確率計算部420から渡された誤り確率に基づいて、正解候補展開部300から出力される正解候補群の中から正解候補に相応しいものを選び出す。
【0024】
図2は誤り確率計算部における誤り確率計算の第1の例を説明するための図である。図示の例では、原テキストが「松本斎藤両名の努力が実を結ぶ」となっている。誤り検出部200によって、誤り部分として「松本」と「斎藤」が検出されたと仮定する。正解候補展開部300は、同音異義語誤りと推定して、誤り部分「松本」に対応して正解候補「松元」を生成し、誤り部分「斎藤」に対応して正解候補「斉藤」を生成する。生起確率付与部410は、単語生起確率データベース440を参照して、誤り部分「松本」に対して同音グループ内での生起確率=0.1を付与し、正解候補「松元」に対して同音グループ内での生起確率=0.02を付与すると共に、誤り部分「斎藤」に対して同音グループ内での生起確率=0.2を付与し、正解候補「斉藤」に対して同音グループ内での生起確率=0.2を付与する。
【0025】
誤り確率計算部420は、例えば
誤り確率=0.01×誤り先の生起確率/誤り元生起確率 …… (1)
なる式によって正解候補の誤り確率を計算する。(1) 式に誤り部分「松本」の生起確率=0.1,正解候補「松元」の生起確率=0.02を代入すると、「松元」の誤り確率=0.5となる。同様に、上式に誤り部分「斎藤」の生起確率=0.2,正解候補「斉藤」の生起確率=0.2を代入すると、「斉藤」の誤り確率=0.1となる。
【0026】
図3は誤り確率計算部における誤り確率計算の第2の例を説明するための図である。図示の例では、原テキストが「安全保障に関する話題」となっている。誤り検出部200によって、誤り部分として「保証」が検出されたと仮定する。正解候補展開部300は、同音異義語誤りと推定して、誤り部分「保証」に対応して正解候補「保障」,「補償」を生成する。生起確率付与部410は、単語生起確率データベース440を参照して、誤り部分「保証」に対して同音グループ内での生起確率=0.2を付与し、正解候補「保障」に対して同音グループ内での生起確率=0.1を付与し、正解候補「補償」に対して同音グループ内での生起確率=0.1を付与する。また、生起確率付与部410は、文脈における単語列「安全保障」に対して生起確率=0.02を付与し、「安全保証」に対して生起確率=0.001を付与し、「安全補償」に対して生起確率=0.001を付与する。
【0027】
誤り確率計算部420は、
正解候補の誤り確率=文脈内生起確率/単独生起確率 …… (2)
なる式によって、正解候補の誤り確率を計算する。(2) 式に「保証」,「保障」,「補償」,「安全保障」,「安全保証」,「安全補償」の生起確率を代入すると、
「保障」の誤り確率=0.02/0.1=0.2
「保証」の誤り確率=0.001/0.2=0.005
「補償」の誤り確率=0.001/0.1=0.01
誤り候補選択部430は、誤り確率が最も大きい「保障」を検証済み正解候補として出力する。
【0028】
図4は誤り確率計算部における誤り確率計算の第3の例を説明するための図である。図示の例では、原テキストが「服を換える」となっている。誤り検出部200によって、誤り部分として「換える」が検出されたと仮定する。正解候補展開部300は、同音異義語誤りと推定して、誤り部分「換える」に対応して正解候補「替える」,「買える」を生成する。
【0029】
生起確率付与部410は、単語生起確率データベース440から誤り部分「換える」と助詞「に」,「が」の共起パターンを取出し、正解候補「替える」と助詞「に」,「が」の共起パターンを取出し、正解候補「買える」と助詞「に」,「が」の共起パターンを取り出す。図示の例では、共起パターンは、
共起パターン に が
換える ○ ○
替える ○ ○
買える × ○
となっている。
【0030】
誤り確率計算部420は、誤り部分の単語の共起パターンと,正解候補の単語の共起パターンとを比較し、比較結果に基づいて正解候補の誤り確率を算出する。図示の例においては、誤り部分の単語「換える」の共起パターンと正解候補の単語「替える」の共起パターンは同じであるので、「替える」の誤り確率は高くされる。また、誤り部分の単語「換える」の共起パターンと正解候補の単語「買える」の共起パターンは異なるので、「買える」の誤り確率は低くされる。
【0031】
図5は本発明の生起確率付与部の構成例を示す図である。同図において、411は相対生起確率計算部、412は生起確率書込み部、441は展開群内優先度情報付き単語辞書をそれぞれ示している。
【0032】
展開群内優先度情報付き単語辞書441とは、ワープロの仮名漢字辞書のように、同音の群(これを展開群とする)の中で変換キーを押した時に最初に選択される単語から単語が順に並べてあるものである。例えば、「ほしょう」と言う展開群には、「保証」,「保障」,「補償」,「歩しょう」と言う単語が記述されている。この例であると、「保証」の生起確率>「保障」の生起確率>「補償」の生起確率>「歩しょう」の生起確率となる。例えば、展開群内の第n番目の単語と第n−1番目の単語との間に0.001の生起確率の差があると仮定すれば、相対的な生起確率が判る。
【0033】
相対生起確率計算部411には正解候補や正解候補の誤り確率に関係する単語(又は単語列)が入力される。相対生起確率計算部411は、展開群内優先度情報付き単語辞書441を参照しながら、入力された単語又は単語列の相対的な生起確率を計算する。生起確率書込み部412は、相対生起確率計算部411に入力された単語又は単語列に対して、相対的な生起確率を付加するものである。
【0034】
図6は本発明の正解候補展開部の第1の構成例を示す図である。同図において、311は読み抽出部、312は同音語抽出部、313は読み付き単語表記辞書をそれぞれ示している。
【0035】
読み付き単語表記辞書313には、
安全 あんぜん
保証 ほしょう
候補 こうほ
というように、単語(又は単語列)と読みの対が複数個格納されている。
【0036】
読み抽出部311には、誤り部分が入力される。読み抽出部311は、入力された誤り部分の表記をキーとして読み付き単語表記辞書313を検索し、誤り部分の読みを抽出する。抽出された読みは、同音語抽出部312に渡される。同音語抽出部312は、渡された読みをキーとして読み付き単語表記辞書313を検索し、同音異義語を抽出する。抽出された同音異義語は正解候補として出力される。
【0037】
図7は本発明の正解候補展開部の第2の構成例を示す図である。同図において、321は展開部、322は条件検査部、323は展開データベースをそれぞれ示している。
【0038】
展開データベースとは、或る表記があり、それが誤りだと仮定したときに元の正しい表記の候補(正解候補)が書かれたものである。展開データベースは
おう→おお
ず→づ
づ→ず
保証→保障,補償
エイ→ エー
というような展開データを格納している。例えば、「おう→おお」という展開データの中で左側が誤り部分に対応し、右側が正解候補に対応する。その他の展開データについても同じである。例えば、「むづかしい」という単語があれば、「づ→ず」と言う展開データを利用して、「むずかしい」という正解候補を生成することが出来る。
【0039】
展開データ中の正解候補は、自分自身,前後の品詞,表記に関する制約条件を記述できるフォーマットを持っている。例えば、展開データが
生→性(単語列の最後に来たときのみ有効)
と言うものであれば、誤り部分「有効生」に対応して「有効性」と言う正解候補を生成することが出来る。
【0040】
展開部321には、誤り部分が入力される。展開部321は、展開データベース323を参照して、入力された誤り部分に対応する正解候補群を生成し、この正解候補群を第1の正解候補群として出力する。第1の正解候補群は、条件検査部322に入力される。条件検査部322は、第1の正解候補群に属する正解候補のそれぞれに付加されている制約条件を検査し、制約条件に合致した正解候補の集まりのみを第2の正解候補群として出力する。
【0041】
図8は本発明の正解候補展開部の第3の構成例を示す図である。同図において、331は展開処理部、332は参照先制御部、333ないし335は展開データベースをそれぞれ示している。
【0042】
日本語入力手段としては、例えばOAKとか,ATOKとか,MS−IMEとかが知られている。例えば、展開データベース333はOAKに対応しており、展開データベース334はATOKに対応しており、展開データベース335はMS−IMEに対応している。
【0043】
参照先制御部332は、日本語入力手段に関する設定情報を計算機のオペレーティング・システム又は文書の付加情報から収集して、それに最も適切な展開データベースを選択する。展開処理部331は、選択した展開データベースを参照して、入力された誤り部分に対応する正解候補を生成する。
【0044】
図9は本発明の文書校正装置の他の構成例を示す図である。同図において、501ないし503は誤り訂正部、504は訂正性能比較評価部、505は選択部、506はテキスト全体に対する訂正処理部をそれぞれ示している。
【0045】
誤り訂正部501〜503のそれぞれは、図1(a) に示すような構成を有している。しかし、各誤り訂正部で使用される展開データや制約条件などは、互いに相違している。第1の誤り訂正部501,第2の誤り訂正部502,第3の誤り訂正部503には、テキストの一部が入力される。訂正性能比較評価部504は、自動的に又はユーザとの対話によって、各誤り訂正部による訂正結果の相違部分を検出し、何が正しいかを評価する。選択部505は、訂正性能比較評価部504の評価結果に基づいて、最も訂正性能の良好な誤り訂正部を選択する。選択された誤り訂正部を使用して、テキスト全体に対する訂正処理が行われる。
【0046】
【発明の効果】
以上説明したように、本発明によれば、正解候補をユーザに提示する又は次の検証のための仮説として利用する際にも、全てを提示するのではなく、誤り確率の高いものだけを示す又は誤り確率の高いものから低いものへソートして順に提示する等の手段によって、訂正率の改善やユーザの行う校正作業をより効率化することが可能である。また、入力手段やユーザの癖などによる生起確率のバリエーションに対して、仮名漢字変換辞書からのデータ抽出,展開種別の調整によって常に最適な誤りの適合率と再現率を実現することが可能となる。
【図面の簡単な説明】
【図1】本発明の文書校正装置の構成例を示す図である。
【図2】誤り確率計算部における誤り確率計算の第1の例を示す図である。
【図3】誤り確率計算部における誤り確率計算の第2の例を示す図である。
【図4】誤り確率計算部における誤り確率計算の第3の例を示す図である。
【図5】本発明の生起確率付与部の構成例を示す図である。
【図6】本発明の正解候補展開部の第1の構成例を示す図である。
【図7】本発明の正解候補展開部の第2の構成例を示す図である。
【図8】本発明の正解候補展開部の第3の構成例を示す図である。
【図9】本発明の文書構成装置の他の構成例を示す図である。
【符号の説明】
100 形態素解析部
200 誤り部分検出部
300 正解候補展開部
311 読み抽出部
312 同音語抽出部
313 読み付き単語表記辞書
321 展開部
322 条件検査部
323 展開データベース
331 展開処理部
332 参照先制御部
333 展開データベース
334 展開データベース
335 展開データベース
400 正解候補検証部
410 生起確率付与部
420 誤り確率計算部
430 誤り候補選択部
440 単語生起確率データベース
411 相対生起確率計算部
412 生起確率書込み部
441 展開群内優先度情報付き単語辞書
501 第1の誤り訂正部
502 第2の誤り訂正部
503 第3の誤り訂正部
504 訂正性能比較評価部
505 選択部
506 テキスト全体に対する訂正処理部

Claims (7)

  1. 入力されたテキストを単語列に変換する形態素解析部と、
    形態素解析の結果得られた単語列の中から誤り可能性部分を抽出する誤り部分検出部と、
    誤り部分抽出部によって抽出された誤り可能性部分に対して正解候補を生成する正解候補展開部と、
    正解候補展開部の展開の結果得られた1個または複数個の正解候補のそれぞれに対して検証を行って確からしい正解候補のみに絞り込む正解候補検証部と
    を具備する文書校正装置であって、
    正解候補検証部が、
    単語又は単語列の生起確率に関するデータベースと、
    上記データベースを参照して、正解候補の誤り確率を計算するために必要とされる単語又は単語列の生起確率を出力する生起確率付与部と、
    テキスト中に存在する誤り可能性部分の生起確率と正解候補の生起確率との比によって誤り確率を計算する誤り確率計算部と、
    誤り確率計算部によって各正解候補に付与された誤り確率を参照して、所定の閾値以上の正解候補を選択する誤り候補選択部と
    を具備することを特徴とする文書校正装置。
  2. 入力されたテキストを単語列に変換する形態素解析部と、
    形態素解析の結果得られた単語列の中から誤り可能性部分を抽出する誤り部分検出部と、
    誤り部分抽出部によって抽出された誤り可能性部分に対して正解候補を生成する正解候補展開部と、
    正解候補展開部の展開の結果得られた1個または複数個の正解候補のそれぞれに対して検証を行って確からしい正解候補のみに絞り込む正解候補検証部と
    を具備する文書校正装置であって、
    正解候補検証部が、
    単語又は単語列の生起確率に関するデータベースと、
    上記データベースを参照して、正解候補の誤り確率を計算するために必要とされる単語又は単語列の生起確率を出力する生起確率付与部と、
    生起確率付与部から出力される単語又は単語列の生起確率と、テキスト中の文脈における単語列としての生起確率との比を参照して、各正解候補に対する誤り確率を計算する誤り確率計算部と、
    誤り確率計算部によって各正解候補に付与された誤り確率を参照して、所定の閾値以上の正解候補を選択する誤り候補選択部と
    を具備することを特徴とする文書校正装置。
  3. 入力されたテキストを単語列に変換する形態素解析部と、
    形態素解析の結果得られた単語列の中から誤り可能性部分を抽出する誤り部分検出部と、
    誤り部分抽出部によって抽出された誤り可能性部分に対して正解候補を生成する正解候補展開部と、
    正解候補展開部の展開の結果得られた1個または複数個の正解候補のそれぞれに対して検証を行って確からしい正解候補のみに絞り込む正解候補検証部と
    を具備する文書校正装置であって、
    正解候補検証部が、
    単語又は単語列の生起確率に関するデータベースと、
    上記データベースを参照して、正解候補の誤り確率を計算するために必要とされる単語又は単語列の生起確率を出力する生起確率付与部と、
    各正解候補がテスト対象の助詞と共起する共起パターンと、テキスト中の誤り部分が上記テスト対象の助詞と共起する共起パターンとを比較し、比較結果に基づき誤り確率を計 算する誤り確率計算部と、
    誤り確率計算部によって各正解候補に付与された誤り確率を参照して、所定の閾値以上の正解候補を選択する誤り候補選択部と
    を具備することを特徴とする文書校正装置。
  4. 生起確率付与部が、
    展開される群内での優先度情報を持つ展開群内優先度情報付き単語辞書と、
    入力される単語又は単語列に対応する上記単語辞書の群内における優先度情報に基づいて、上記単語又は単語列に対する生起確率を計算する相対生起確率計算部と
    を具備することを特徴とする請求項1,請求項2,または請求項3の文書校正装置。
  5. 正解候補展開部が、
    読み付き単語辞書と、
    読み付き単語辞書を参照して、誤り可能性部分の単語の読みを抽出する読み抽出部と、 読み抽出部によって抽出された単語の読みと同一の読みを持つ他の単語を読み付き単語辞書から抽出し、抽出した単語を正解候補として出力する同音語抽出部と
    を具備することを特徴とする請求項1,請求項2,請求項3,または請求項4の文書校正装置。
  6. 正解候補展開部が、
    誤り表記,これに対応する正解候補および制約条件を持つ展開データが複数個記述された展開データベースと、
    誤り可能性部分に適合する展開データベース中の展開データを用いて、誤り可能性部分を正解候補に展開する展開部と、
    展開部から出力される正解候補が当該正解候補に対する制約条件を満たしているか否かを調査し、制約条件に合致する正解候補だけを残す条件検査部と
    を具備することを特徴とする請求項1,請求項2,請求項3,または請求項4の文書校正装置。
  7. 正解候補展開部が、
    複数の日本語入力手段のそれぞれに対応する,誤り可能性部分を正解候補に展開するための展開データベースの複数個と、
    テキストを作成した際の日本語入力手段を特定する情報に基づいて、参照先の展開データベースを選択する参照先制御部と、
    選択された参照先の展開データベースを参照して、誤り可能性部分を正解候補に展開する展開処理部と
    を具備することを特徴とする請求項1,請求項2,請求項3,または請求項4の文書校正装置。
JP00658897A 1997-01-17 1997-01-17 文書校正装置 Expired - Fee Related JP3856515B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00658897A JP3856515B2 (ja) 1997-01-17 1997-01-17 文書校正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00658897A JP3856515B2 (ja) 1997-01-17 1997-01-17 文書校正装置

Publications (2)

Publication Number Publication Date
JPH10207889A JPH10207889A (ja) 1998-08-07
JP3856515B2 true JP3856515B2 (ja) 2006-12-13

Family

ID=11642499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00658897A Expired - Fee Related JP3856515B2 (ja) 1997-01-17 1997-01-17 文書校正装置

Country Status (1)

Country Link
JP (1) JP3856515B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5526900B2 (ja) 2010-03-19 2014-06-18 富士通株式会社 管理装置、修正候補出力方法および修正候補出力プログラム
JP6979294B2 (ja) * 2017-07-06 2021-12-08 株式会社朝日新聞社 校正支援装置、校正支援方法及び校正支援プログラム
CN114677694A (zh) * 2022-03-30 2022-06-28 深圳市福流网络信息科技有限公司 一种智能化识别技术的通关方法

Also Published As

Publication number Publication date
JPH10207889A (ja) 1998-08-07

Similar Documents

Publication Publication Date Title
US5485372A (en) System for underlying spelling recovery
US5537317A (en) System for correcting grammer based parts on speech probability
US5535121A (en) System for correcting auxiliary verb sequences
US5521816A (en) Word inflection correction system
US5477448A (en) System for correcting improper determiners
US5845306A (en) Context based system for accessing dictionary entries
JP2693780B2 (ja) テキストプロセシングシステム、及び単位又は化学式が正確且つ一貫して使用されているかどうかをテキストプロセシングシステムでチェックするための方法
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Tufiş et al. DIAC+: A professional diacritics recovering system
JP3856515B2 (ja) 文書校正装置
JP4278011B2 (ja) 文書校正装置およびプログラム記憶媒体
JP4283898B2 (ja) 文章校正装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3907106B2 (ja) 翻訳ルール作成装置およびプログラム
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
JPH07325825A (ja) 英文法チェックシステム装置
JP2776069B2 (ja) 文章検査装置
JPH0531186B2 (ja)
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JPH07105215A (ja) 句構造抽出装置および構文チェック装置
JPH09223143A (ja) 文書情報処理装置
JPH01316863A (ja) 日本文誤り自動検定・訂正装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051004

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060912

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110922

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120922

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120922

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130922

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees