JP3856515B2

JP3856515B2 - 文書校正装置

Info

Publication number: JP3856515B2
Application number: JP00658897A
Authority: JP
Inventors: 潤伊吹; くにお松井; 顕足立
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-01-17
Filing date: 1997-01-17
Publication date: 2006-12-13
Anticipated expiration: 2017-01-17
Also published as: JPH10207889A

Description

【０００１】
【発明の属する技術分野】
本発明は、文章処理装置においてユーザが入力した又は電子的な媒体として獲得した文書データに対して、ユーザが文書を校正する作業を軽減し、文書校正の効率を大幅に向上させる文書校正装置に関するものである。
【０００２】
【従来の技術】
従来の誤り指摘技術としては、
▲１▼ 形態素解析をして結果中の未登録語部分を指摘するもの。
▲２▼ 同音異義語のある単語を指摘するもの。
などが先ず挙げられる。
【０００３】
未登録語を指摘する機能の場合、誤った綴の単語があれば、未登録語となる確率が高いため、未登録語部分の周辺に誤った綴の単語がある可能性がある。
同様に、同音異義語の存在する単語箇所は、仮名漢字変換のときに操作誤りをし易い箇所として指摘される。ユーザは、その中で自分で正誤の判断を一つ一つのケースに対して下すことになる。
【０００４】
他の手段としては、形態素解析の後に、特定の単語列が検出された場合に誤りと認定して指摘するものがある。例えば、名詞＋動詞と言う品詞列をチェックする又は一文字の漢字単語があった場合に誤りとする等である。他にも片仮名／漢字文字列を発音順に並べ、同じ単語の僅かな表記の揺れのある単語が隣に来るようにして、表記の揺れを検出し易くしたものがある。
【０００５】
更に、新たに誤りの候補を検出した後で、誤りの内容を推定した仮説を複数作り出し、複合語等とのマッチング等の手段で仮説の検定を行い、生き残った尤もらしい仮説のみを提示するシステムも存在する。
【０００６】
【発明が解決しようとする課題】
未登録語，同音異義語の存在する単語の指摘機能等は誤りと断定できないが、誤りが存在する可能性がある所を指摘するわけである。しかし、未登録語の指摘に関して言うと、未登録語の生まれる原因としては、綴誤り以外にも固有名詞などが辞書中に存在しないと言った本来の未登録語の存在も挙げられる。同音異義語の存在する単語の指摘についても、誤りが多いと言うだけでは必ず誤っている箇所と言うわけではない。このため、上記の方法については、指摘されたものが全て本当の誤りではない（過剰指摘が多い）ということが一番問題になる。
【０００７】
特定の品詞列によって誤りを発見する方法では、扱う誤りの対象が非常に限定されたものとなり、文章中の誤りの多くは検出されないと言う問題を持つ。
また、片仮名語句や漢字語句をソートしてユーザに示す方法は、ユーザ自身でするべき作業が大きく、校正作業の能率が余り改善されないと言う問題点があった。
【０００８】
さらに、仮説を生成して検定によって確からしいものだけを残す方法においては、生成された各々の仮説に対して正しい評価を与えることが重要になる。この場合は、本来の未登録語が辞書に載っていないと言うだけで指摘されると言う問題はないが、評価の揺れが問題になる。例えば、テキスト中の原表記に対応する単語が辞書中に無かった場合は他の仮説に比べて相対的な評価が低くなり、対象部分が正しい場合にも指摘してしまう可能性がある。
【０００９】
一般の文書校正支援システムでは、誤り指摘の精度を高くしようとすれば対象とする誤りの種類を絞らざるを得ず、また可能な限り多くの誤りを指摘しようとすれば指摘中に本来の誤りでない部分に対する指摘（過剰指摘）が多く混じってしまう。これに対応するために、入力テキストに存在する表記誤りの可能性を広く考慮して多くのもとの正しい綴りの候補を生成する部分（正解候補展開）と，それを辞書の内容とのマッチングによって検証する部分（正解語探索）を独立させた文書校正支援システムを本出願人は既に提案したが、検証能力が弱く、未だに多くの過剰指摘が残っている。
本発明は、これらの点に鑑みて創作されたものであって、統計的なデータや辞書情報を利用して、正解候補の展開時に生成される正解候補の誤り確率（正解候補が誤って誤り部分の単語または単語列になる確率）を求めるようになった文書校正装置を提供することを目的としている。
【００１０】
【課題を解決するための手段】
請求項１の文書校正装置は、
入力されたテキストを単語列に変換する形態素解析部と、
形態素解析の結果得られた単語列の中から誤り可能性部分を抽出する誤り部分検出部と、
誤り部分抽出部によって抽出された誤り可能性部分に対して正解候補を生成する正解候補展開部と、
正解候補展開部の展開の結果得られた１個または複数個の正解候補のそれぞれに対して検証を行って確からしい正解候補のみに絞り込む正解候補検証部と
を具備する文書校正装置であって、
正解候補検証部が、
単語又は単語列の生起確率に関するデータベースと、
上記データベースを参照して、正解候補の誤り確率を計算するために必要とされる単語又は単語列の生起確率を出力する生起確率付与部と、
テキスト中に存在する誤り可能性部分の生起確率と正解候補の生起確率との比によって誤り確率を計算する誤り確率計算部と、
誤り確率計算部によって各正解候補に付与された誤り確率を参照して、所定の閾値以上の正解候補を選択する誤り候補選択部と
を具備することを特徴とするものである。
【００１２】
請求項２の文書校正装置は、請求項１の文書校正装置において、誤り確率計算部が、各正解候補の単語が単独に生起する生起確率とテキスト中の文脈における単語列としての生起確率との比を参照して、各正解候補に対する誤り確率を計算することを特徴とするものである。
【００１３】
請求項３の文書校正装置は、請求項１の文書校正装置において、誤り確率計算部が、各正解候補がテスト対象となる助詞と共起する共起パターンと、テキスト中の誤り部分のが、上記テスト対象の助詞と共起する共起パターンとを比較し、比較結果に基づき誤り確率を計算することを特徴とするものである。
【００１４】
請求項４の文書校正装置は、請求項１，請求項２，または請求項３の文書校正装置において、生起確率付与部が、展開される群内での優先度情報を持つ展開群内優先度情報付き単語辞書と、入力される単語又は単語列に対応する上記単語辞書の群内における優先度情報に基づいて、上記単語又は単語列に対する生起確率を計算する相対生起確率計算部とを具備することを特徴とするものである。
【００１５】
請求項５の文書校正装置は、請求項１，請求項２，請求項３，または請求項４の文書校正装置において、正解候補展開部が、読み付き単語辞書と、読み付き単語辞書を参照して、誤り可能性部分の単語の読みを抽出する読み抽出部と、読み抽出部によって抽出された単語の読みと同一の読みを持つ他の単語を読み付き単語辞書から抽出し、抽出した単語を正解候補として出力する同音語抽出部とを具備することを特徴とするものである。
【００１６】
請求項６の文書校正装置は、請求項１，請求項２，請求項３，または請求項４の文書校正装置において、正解候補展開部が、誤り表記、これに対応する正解候補および制約条件を持つ展開データが複数個記述された展開データベースと、誤り可能性部分に適合する展開データベース中の展開データを用いて、誤り可能性部分を正解候補に展開する展開部と、
展開部から出力される正解候補が当該正解候補に対する制約条件を満たしているか否かを調査し、制約条件に合致する正解候補だけを残す条件検査部と
を具備することを特徴とするものである。
【００１７】
請求項７の文書校正装置は、請求項１，請求項２，請求項３，または請求項４の文書校正装置において、正解候補展開部が、複数の日本語入力手段のそれぞれに対応する，誤り可能性部分を正解候補に展開するための展開データベースの複数個と、テキストを作成した際の日本語入力手段を特定する情報に基づいて、参照先の展開データベースを選択する参照先制御部と、選択された参照先の展開データベースを参照して、誤り可能性部分を正解候補に展開する展開処理部とを具備することを特徴とするものである。
【００１９】
請求項１ないし請求項７の文書校正装置によれば、正解候補を過剰に指摘すると言うことを無くすことが出来る。
【００２０】
【発明の実施の形態】
図１は本発明の文書校正装置の構成例を示す図である。同図においては、１００は形態素解析部、２００は誤り検出部、３００は正解候補展開部、４００は正解候補検証部、４１０は生起確率付与部、４２０は誤り確率計算部、４３０は誤り候補選択部をそれぞれ示している。
【００２１】
図１(a) は本発明の文書校正装置の概要を示す図である。形態素解析部１００は、入力テキストを単語列に分解し、得られた単語列を誤り部分検出部２００に渡す。誤り部分検出部２００は、受け取った単語列から誤り部分（誤りの可能性のある部分）を検出し、誤り部分を正解候補展開部３００に渡す。正解候補展開部３００では、誤りの種類を推定して、誤り部分に対応する正しい単語又は単語列の候補（正解候補）を生成する。正解候補検証部４００は、各正解候補を検証して、正解度の高い正解候補を選択する。なお、本発明の文書校正装置は、実際には計算機とソフトウェアによって実現されている。
【００２２】
図１(b) は正解候補検証部の構成例を示す図である。正解候補検証部４００は、生起確率付与部４１０，誤り確率計算部４２０，誤り候補選択部４３０，単語生起確率データベース４４０を有している。生起確率付与部４１０は、単語単体や単語列の生起確率に関するデータベース４４０（単語生起確率データベース）を参照して、正解候補の誤り確率を計算するために必要となる単語または単語列（正解候補や誤り部分の単語等）の生起確率を出力する。単語や単語列の生起確率とは、テキストやコーパス（文例集）の中で、単語または単語列を任意に選択した場合に、それが指定された単語又は単語列である確率を意味している。単語生起確率データベースとは、
単語生起確率
安全０．００１
保証０．００２
保障０．００１
歩しょう０．０００５
アーク０．００１
のように、単語又は単語列と生起確率の対を複数個記憶するものである。
【００２３】
誤り確率計算部４２０は、生起確率付与部４１０から出力される単語または単語列の生起確率をもとにして、正解候補の誤り確率を計算する。誤り確率とは、正解候補の単語又は単語列が誤って誤り部分の単語又は単語列になる確率を意味している。誤り候補選択部４３０は、誤り確率計算部４２０から渡された誤り確率に基づいて、正解候補展開部３００から出力される正解候補群の中から正解候補に相応しいものを選び出す。
【００２４】
図２は誤り確率計算部における誤り確率計算の第１の例を説明するための図である。図示の例では、原テキストが「松本斎藤両名の努力が実を結ぶ」となっている。誤り検出部２００によって、誤り部分として「松本」と「斎藤」が検出されたと仮定する。正解候補展開部３００は、同音異義語誤りと推定して、誤り部分「松本」に対応して正解候補「松元」を生成し、誤り部分「斎藤」に対応して正解候補「斉藤」を生成する。生起確率付与部４１０は、単語生起確率データベース４４０を参照して、誤り部分「松本」に対して同音グループ内での生起確率＝０．１を付与し、正解候補「松元」に対して同音グループ内での生起確率＝０．０２を付与すると共に、誤り部分「斎藤」に対して同音グループ内での生起確率＝０．２を付与し、正解候補「斉藤」に対して同音グループ内での生起確率＝０．２を付与する。
【００２５】
誤り確率計算部４２０は、例えば
誤り確率＝０．０１×誤り先の生起確率／誤り元生起確率 …… (1)
なる式によって正解候補の誤り確率を計算する。(1) 式に誤り部分「松本」の生起確率＝０．１，正解候補「松元」の生起確率＝０．０２を代入すると、「松元」の誤り確率＝０．５となる。同様に、上式に誤り部分「斎藤」の生起確率＝０．２，正解候補「斉藤」の生起確率＝０．２を代入すると、「斉藤」の誤り確率＝０．１となる。
【００２６】
図３は誤り確率計算部における誤り確率計算の第２の例を説明するための図である。図示の例では、原テキストが「安全保障に関する話題」となっている。誤り検出部２００によって、誤り部分として「保証」が検出されたと仮定する。正解候補展開部３００は、同音異義語誤りと推定して、誤り部分「保証」に対応して正解候補「保障」，「補償」を生成する。生起確率付与部４１０は、単語生起確率データベース４４０を参照して、誤り部分「保証」に対して同音グループ内での生起確率＝０．２を付与し、正解候補「保障」に対して同音グループ内での生起確率＝０．１を付与し、正解候補「補償」に対して同音グループ内での生起確率＝０．１を付与する。また、生起確率付与部４１０は、文脈における単語列「安全保障」に対して生起確率＝０．０２を付与し、「安全保証」に対して生起確率＝０．００１を付与し、「安全補償」に対して生起確率＝０．００１を付与する。
【００２７】
誤り確率計算部４２０は、
正解候補の誤り確率＝文脈内生起確率／単独生起確率 …… (2)
なる式によって、正解候補の誤り確率を計算する。(2) 式に「保証」，「保障」，「補償」，「安全保障」，「安全保証」，「安全補償」の生起確率を代入すると、
「保障」の誤り確率＝０．０２／０．１＝０．２
「保証」の誤り確率＝０．００１／０．２＝０．００５
「補償」の誤り確率＝０．００１／０．１＝０．０１
誤り候補選択部４３０は、誤り確率が最も大きい「保障」を検証済み正解候補として出力する。
【００２８】
図４は誤り確率計算部における誤り確率計算の第３の例を説明するための図である。図示の例では、原テキストが「服を換える」となっている。誤り検出部２００によって、誤り部分として「換える」が検出されたと仮定する。正解候補展開部３００は、同音異義語誤りと推定して、誤り部分「換える」に対応して正解候補「替える」，「買える」を生成する。
【００２９】
生起確率付与部４１０は、単語生起確率データベース４４０から誤り部分「換える」と助詞「に」，「が」の共起パターンを取出し、正解候補「替える」と助詞「に」，「が」の共起パターンを取出し、正解候補「買える」と助詞「に」，「が」の共起パターンを取り出す。図示の例では、共起パターンは、
共起パターンにが
換える ○ ○
替える ○ ○
買える × ○
となっている。
【００３０】
誤り確率計算部４２０は、誤り部分の単語の共起パターンと，正解候補の単語の共起パターンとを比較し、比較結果に基づいて正解候補の誤り確率を算出する。図示の例においては、誤り部分の単語「換える」の共起パターンと正解候補の単語「替える」の共起パターンは同じであるので、「替える」の誤り確率は高くされる。また、誤り部分の単語「換える」の共起パターンと正解候補の単語「買える」の共起パターンは異なるので、「買える」の誤り確率は低くされる。
【００３１】
図５は本発明の生起確率付与部の構成例を示す図である。同図において、４１１は相対生起確率計算部、４１２は生起確率書込み部、４４１は展開群内優先度情報付き単語辞書をそれぞれ示している。
【００３２】
展開群内優先度情報付き単語辞書４４１とは、ワープロの仮名漢字辞書のように、同音の群（これを展開群とする）の中で変換キーを押した時に最初に選択される単語から単語が順に並べてあるものである。例えば、「ほしょう」と言う展開群には、「保証」，「保障」，「補償」，「歩しょう」と言う単語が記述されている。この例であると、「保証」の生起確率＞「保障」の生起確率＞「補償」の生起確率＞「歩しょう」の生起確率となる。例えば、展開群内の第ｎ番目の単語と第ｎ−１番目の単語との間に０．００１の生起確率の差があると仮定すれば、相対的な生起確率が判る。
【００３３】
相対生起確率計算部４１１には正解候補や正解候補の誤り確率に関係する単語（又は単語列）が入力される。相対生起確率計算部４１１は、展開群内優先度情報付き単語辞書４４１を参照しながら、入力された単語又は単語列の相対的な生起確率を計算する。生起確率書込み部４１２は、相対生起確率計算部４１１に入力された単語又は単語列に対して、相対的な生起確率を付加するものである。
【００３４】
図６は本発明の正解候補展開部の第１の構成例を示す図である。同図において、３１１は読み抽出部、３１２は同音語抽出部、３１３は読み付き単語表記辞書をそれぞれ示している。
【００３５】
読み付き単語表記辞書３１３には、
安全あんぜん
保証ほしょう
候補こうほ
というように、単語（又は単語列）と読みの対が複数個格納されている。
【００３６】
読み抽出部３１１には、誤り部分が入力される。読み抽出部３１１は、入力された誤り部分の表記をキーとして読み付き単語表記辞書３１３を検索し、誤り部分の読みを抽出する。抽出された読みは、同音語抽出部３１２に渡される。同音語抽出部３１２は、渡された読みをキーとして読み付き単語表記辞書３１３を検索し、同音異義語を抽出する。抽出された同音異義語は正解候補として出力される。
【００３７】
図７は本発明の正解候補展開部の第２の構成例を示す図である。同図において、３２１は展開部、３２２は条件検査部、３２３は展開データベースをそれぞれ示している。
【００３８】
展開データベースとは、或る表記があり、それが誤りだと仮定したときに元の正しい表記の候補（正解候補）が書かれたものである。展開データベースは
おう→おお
ず→づ
づ→ず
保証→保障，補償
エイ→ エー
というような展開データを格納している。例えば、「おう→おお」という展開データの中で左側が誤り部分に対応し、右側が正解候補に対応する。その他の展開データについても同じである。例えば、「むづかしい」という単語があれば、「づ→ず」と言う展開データを利用して、「むずかしい」という正解候補を生成することが出来る。
【００３９】
展開データ中の正解候補は、自分自身，前後の品詞，表記に関する制約条件を記述できるフォーマットを持っている。例えば、展開データが
生→性（単語列の最後に来たときのみ有効）
と言うものであれば、誤り部分「有効生」に対応して「有効性」と言う正解候補を生成することが出来る。
【００４０】
展開部３２１には、誤り部分が入力される。展開部３２１は、展開データベース３２３を参照して、入力された誤り部分に対応する正解候補群を生成し、この正解候補群を第１の正解候補群として出力する。第１の正解候補群は、条件検査部３２２に入力される。条件検査部３２２は、第１の正解候補群に属する正解候補のそれぞれに付加されている制約条件を検査し、制約条件に合致した正解候補の集まりのみを第２の正解候補群として出力する。
【００４１】
図８は本発明の正解候補展開部の第３の構成例を示す図である。同図において、３３１は展開処理部、３３２は参照先制御部、３３３ないし３３５は展開データベースをそれぞれ示している。
【００４２】
日本語入力手段としては、例えばＯＡＫとか，ＡＴＯＫとか，ＭＳ−ＩＭＥとかが知られている。例えば、展開データベース３３３はＯＡＫに対応しており、展開データベース３３４はＡＴＯＫに対応しており、展開データベース３３５はＭＳ−ＩＭＥに対応している。
【００４３】
参照先制御部３３２は、日本語入力手段に関する設定情報を計算機のオペレーティング・システム又は文書の付加情報から収集して、それに最も適切な展開データベースを選択する。展開処理部３３１は、選択した展開データベースを参照して、入力された誤り部分に対応する正解候補を生成する。
【００４４】
図９は本発明の文書校正装置の他の構成例を示す図である。同図において、５０１ないし５０３は誤り訂正部、５０４は訂正性能比較評価部、５０５は選択部、５０６はテキスト全体に対する訂正処理部をそれぞれ示している。
【００４５】
誤り訂正部５０１〜５０３のそれぞれは、図１(a) に示すような構成を有している。しかし、各誤り訂正部で使用される展開データや制約条件などは、互いに相違している。第１の誤り訂正部５０１，第２の誤り訂正部５０２，第３の誤り訂正部５０３には、テキストの一部が入力される。訂正性能比較評価部５０４は、自動的に又はユーザとの対話によって、各誤り訂正部による訂正結果の相違部分を検出し、何が正しいかを評価する。選択部５０５は、訂正性能比較評価部５０４の評価結果に基づいて、最も訂正性能の良好な誤り訂正部を選択する。選択された誤り訂正部を使用して、テキスト全体に対する訂正処理が行われる。
【００４６】
【発明の効果】
以上説明したように、本発明によれば、正解候補をユーザに提示する又は次の検証のための仮説として利用する際にも、全てを提示するのではなく、誤り確率の高いものだけを示す又は誤り確率の高いものから低いものへソートして順に提示する等の手段によって、訂正率の改善やユーザの行う校正作業をより効率化することが可能である。また、入力手段やユーザの癖などによる生起確率のバリエーションに対して、仮名漢字変換辞書からのデータ抽出，展開種別の調整によって常に最適な誤りの適合率と再現率を実現することが可能となる。
【図面の簡単な説明】
【図１】本発明の文書校正装置の構成例を示す図である。
【図２】誤り確率計算部における誤り確率計算の第１の例を示す図である。
【図３】誤り確率計算部における誤り確率計算の第２の例を示す図である。
【図４】誤り確率計算部における誤り確率計算の第３の例を示す図である。
【図５】本発明の生起確率付与部の構成例を示す図である。
【図６】本発明の正解候補展開部の第１の構成例を示す図である。
【図７】本発明の正解候補展開部の第２の構成例を示す図である。
【図８】本発明の正解候補展開部の第３の構成例を示す図である。
【図９】本発明の文書構成装置の他の構成例を示す図である。
【符号の説明】
１００形態素解析部
２００誤り部分検出部
３００正解候補展開部
３１１読み抽出部
３１２同音語抽出部
３１３読み付き単語表記辞書
３２１展開部
３２２条件検査部
３２３展開データベース
３３１展開処理部
３３２参照先制御部
３３３展開データベース
３３４展開データベース
３３５展開データベース
４００正解候補検証部
４１０生起確率付与部
４２０誤り確率計算部
４３０誤り候補選択部
４４０単語生起確率データベース
４１１相対生起確率計算部
４１２生起確率書込み部
４４１展開群内優先度情報付き単語辞書
５０１第１の誤り訂正部
５０２第２の誤り訂正部
５０３第３の誤り訂正部
５０４訂正性能比較評価部
５０５選択部
５０６テキスト全体に対する訂正処理部

Claims

入力されたテキストを単語列に変換する形態素解析部と、
形態素解析の結果得られた単語列の中から誤り可能性部分を抽出する誤り部分検出部と、
誤り部分抽出部によって抽出された誤り可能性部分に対して正解候補を生成する正解候補展開部と、
正解候補展開部の展開の結果得られた１個または複数個の正解候補のそれぞれに対して検証を行って確からしい正解候補のみに絞り込む正解候補検証部と
を具備する文書校正装置であって、
正解候補検証部が、
単語又は単語列の生起確率に関するデータベースと、
上記データベースを参照して、正解候補の誤り確率を計算するために必要とされる単語又は単語列の生起確率を出力する生起確率付与部と、
テキスト中に存在する誤り可能性部分の生起確率と正解候補の生起確率との比によって誤り確率を計算する誤り確率計算部と、
誤り確率計算部によって各正解候補に付与された誤り確率を参照して、所定の閾値以上の正解候補を選択する誤り候補選択部と
を具備することを特徴とする文書校正装置。
入力されたテキストを単語列に変換する形態素解析部と、
形態素解析の結果得られた単語列の中から誤り可能性部分を抽出する誤り部分検出部と、
誤り部分抽出部によって抽出された誤り可能性部分に対して正解候補を生成する正解候補展開部と、
正解候補展開部の展開の結果得られた１個または複数個の正解候補のそれぞれに対して検証を行って確からしい正解候補のみに絞り込む正解候補検証部と
を具備する文書校正装置であって、
正解候補検証部が、
単語又は単語列の生起確率に関するデータベースと、
上記データベースを参照して、正解候補の誤り確率を計算するために必要とされる単語又は単語列の生起確率を出力する生起確率付与部と、
生起確率付与部から出力される単語又は単語列の生起確率と、テキスト中の文脈における単語列としての生起確率との比を参照して、各正解候補に対する誤り確率を計算する誤り確率計算部と、
誤り確率計算部によって各正解候補に付与された誤り確率を参照して、所定の閾値以上の正解候補を選択する誤り候補選択部と
を具備することを特徴とする文書校正装置。
入力されたテキストを単語列に変換する形態素解析部と、
形態素解析の結果得られた単語列の中から誤り可能性部分を抽出する誤り部分検出部と、
誤り部分抽出部によって抽出された誤り可能性部分に対して正解候補を生成する正解候補展開部と、
正解候補展開部の展開の結果得られた１個または複数個の正解候補のそれぞれに対して検証を行って確からしい正解候補のみに絞り込む正解候補検証部と
を具備する文書校正装置であって、
正解候補検証部が、
単語又は単語列の生起確率に関するデータベースと、
上記データベースを参照して、正解候補の誤り確率を計算するために必要とされる単語又は単語列の生起確率を出力する生起確率付与部と、
各正解候補がテスト対象の助詞と共起する共起パターンと、テキスト中の誤り部分が上記テスト対象の助詞と共起する共起パターンとを比較し、比較結果に基づき誤り確率を計算する誤り確率計算部と、
誤り確率計算部によって各正解候補に付与された誤り確率を参照して、所定の閾値以上の正解候補を選択する誤り候補選択部と
を具備することを特徴とする文書校正装置。
生起確率付与部が、
展開される群内での優先度情報を持つ展開群内優先度情報付き単語辞書と、
入力される単語又は単語列に対応する上記単語辞書の群内における優先度情報に基づいて、上記単語又は単語列に対する生起確率を計算する相対生起確率計算部と
を具備することを特徴とする請求項１，請求項２，または請求項３の文書校正装置。
正解候補展開部が、
読み付き単語辞書と、
読み付き単語辞書を参照して、誤り可能性部分の単語の読みを抽出する読み抽出部と、読み抽出部によって抽出された単語の読みと同一の読みを持つ他の単語を読み付き単語辞書から抽出し、抽出した単語を正解候補として出力する同音語抽出部と
を具備することを特徴とする請求項１，請求項２，請求項３，または請求項４の文書校正装置。
正解候補展開部が、
誤り表記，これに対応する正解候補および制約条件を持つ展開データが複数個記述された展開データベースと、
誤り可能性部分に適合する展開データベース中の展開データを用いて、誤り可能性部分を正解候補に展開する展開部と、
展開部から出力される正解候補が当該正解候補に対する制約条件を満たしているか否かを調査し、制約条件に合致する正解候補だけを残す条件検査部と
を具備することを特徴とする請求項１，請求項２，請求項３，または請求項４の文書校正装置。
正解候補展開部が、
複数の日本語入力手段のそれぞれに対応する，誤り可能性部分を正解候補に展開するための展開データベースの複数個と、
テキストを作成した際の日本語入力手段を特定する情報に基づいて、参照先の展開データベースを選択する参照先制御部と、
選択された参照先の展開データベースを参照して、誤り可能性部分を正解候補に展開する展開処理部と
を具備することを特徴とする請求項１，請求項２，請求項３，または請求項４の文書校正装置。