JP2006338682A - 文書校正装置およびプログラム記憶媒体 - Google Patents

文書校正装置およびプログラム記憶媒体 Download PDF

Info

Publication number
JP2006338682A
JP2006338682A JP2006207617A JP2006207617A JP2006338682A JP 2006338682 A JP2006338682 A JP 2006338682A JP 2006207617 A JP2006207617 A JP 2006207617A JP 2006207617 A JP2006207617 A JP 2006207617A JP 2006338682 A JP2006338682 A JP 2006338682A
Authority
JP
Japan
Prior art keywords
error probability
error
word
text
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006207617A
Other languages
English (en)
Other versions
JP4047894B2 (ja
Inventor
Jun Ibuki
潤 伊吹
Akira Adachi
顕 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006207617A priority Critical patent/JP4047894B2/ja
Publication of JP2006338682A publication Critical patent/JP2006338682A/ja
Application granted granted Critical
Publication of JP4047894B2 publication Critical patent/JP4047894B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】日本語文書等における誤りを指摘する文書校正装置およびプログラム記憶媒体に関し,文書中の誤り箇所の過剰指摘を防止し,ユーザの判断を軽減させて,校正作業効率を向上させることを目的とする。
【解決手段】複数の誤り確率計算部2a,2b,…は,それぞれ異なる誤り確率計算手法により誤り確率値を計算する。誤り確率保存部3はこれらの誤り確率値を集計し,原テキストの各文字または文字列に対して,集計した誤り確率値を付与する。誤り候補抽出部5は所定の誤り確率閾値4を超える誤り確率値を持つ文字または文字列を誤り候補として抽出する。誤り表示処理部6は,抽出された誤り候補を校正用のテキスト中に下線付き表示または色違い表示等により表示する。
【選択図】図1

Description

本発明は,文書処理装置においてユーザが入力もしくは電子的な媒体として獲得した文書データに対して,誤った部分を自動的に指摘することにより,ユーザが文書を校正する作業を軽減し,文書校正に係る作業効率を大幅に向上させることができるようにした文書校正装置およびその文書校正装置を実現するためのプログラム記憶媒体に関する。
従来の文書処理装置において,誤り候補を指摘する方法として,形態素解析を行い,(1)その結果から未登録語部分を指摘するもの,(2)同音異義語のある単語を指摘するものがある。また,(3)特定の単語列が検出された場合に誤りと認定して指摘するものがある。これは,例えば現在では使用されない仮名遣いや表記等を予め登録した誤り検出用辞書を用いて,一致するものを誤りとするとか,名詞+動詞という普通にはあり得ない品詞列を検出するとか,あるいは,一文字の漢字単語があった場合に誤りとするなどの方法である。他の方法として,(4)テキスト中の片仮名または漢字文字列を辞書順に並べ,同じ単語であって僅かな表記の揺れのある単語が連続して並ぶようにして,表記の揺れを検出しやすくしたものがある。例えば,「ウィンドウ」と「ウインドゥ」と「ウインドウ」などの場合に,表記を統一するために用いる方法である。
上記(1)の未登録語部分を指摘する方法は,未登録語部分の周辺に誤った綴りの単語がある可能性が高いため,その部分を指摘する方法である。しかし,未登録語の生まれる原因としては,綴りの誤り以外にも,例えば固有名詞などのように,間違いではないが辞書に登録されていないというような本来の未登録語の存在も挙げられる。したがって,指摘された部分が誤りと断定できるわけではなく,ユーザが一つ一つ正誤を判断しなければならない。
上記(2)の同音異義語の存在する単語箇所を指摘する方法は,仮名漢字変換のときに操作を誤りやすい箇所であるために確認を目的として指摘する方法である。この場合,一つでも同音異義語が存在すれば,本来は誤りでない単語であっても指摘されるため,ユーザが自ら正誤の判断を下す必要がある部分が非常に多くなってしまうという問題がある。
一方,上記(3)の特定の単語列が検出された場合に誤りとして指摘する方法では,予め誤りとして検出しておくべき品詞列などを登録する必要があり,誤りの対象が非常に限定されたものとなるため,実際には,文章中の誤りの多くは検出することができないという問題がある。
また,上記(4)の片仮名語句や漢字語句をソートしてユーザに示す方法では,校正時にユーザ自身でするべき作業量が多い割りには作業能率があまり改善されないという問題がある。
以上のように,従来の方法を用いると,誤り候補の指摘箇所が本来の誤りではないことが多くあり,過剰指摘の傾向になるという問題点があった。結果としてユーザが再チェックしなければならない量が多くなるため,校正作業の効率を低下させることがあった。また,誤り箇所の適切な選択が不十分なことが多いという問題点があった。
上記問題点を解決するため,本発明は,例えば図1ないし図5に示す各手段を備える。
図1は,本発明のブロック構成例を示す。図1において,1は誤り候補検出部,2a,2b,…は誤り確率計算部,3は誤り確率保存部,4は誤り確率閾値,5は誤り候補抽出部,6は誤り表示処理部を表す。
誤り確率計算部2a,2b,…は,それぞれ異なる方法によりテキストの各構成文字または文字列に対して誤り確率値を計算し付与する手段である。各誤り確率計算部2a,2b,…は,後述する図2〜図4に示すような手段を単独でまたは組み合わせて用いてもよく,また従来技術として説明したような誤り候補を検出する手段を組み合わせて用いることにより,それぞれ所定の誤り確率を付与するようにしてもよい。
誤り確率保存部3は,誤り確率計算部2a,2b,…から得た誤り確率値を集計し,各構成文字等に対する最終的な誤り確率値を定める手段である。
誤り候補抽出部5は,所定の誤り確率閾値4をもとに,これより高い誤り確率値を持つ文字または文字列を誤り候補として抽出する手段である。誤り確率閾値4は,外部入力としてまたは予め記憶された電子的データとして与えられる。
誤り表示処理部6は,誤り候補抽出部5により抽出された誤り箇所を表示する手段である。
以上のような構成によって,誤り確率保存部3は,各誤り確率計算部2a,2b,…から得た複数の誤り確率値を集計し,各文字または文字列ごとに,それぞれの誤り確率値を定めるため,誤っている確率の大きい候補を従来より正確に抽出することができる。
また,誤り表示処理部6は,誤り候補抽出部5によって所定の誤り確率閾値4を超えたものだけを抽出して表示するため,過剰な誤り指摘を防止することができる。
さらに,誤り確率閾値4を変化させることにより,誤り候補として抽出し表示する単語等の量を調節できるため,校正作業の目的等により,また原テキストの種類や内容により,誤り指摘の精度を保持するか,または作業効率を向上させるかを選択することができる。
図2は,誤り確率計算部の一構成例を示す。
誤り確率計算部20は,形態素解析部21,未登録語検出部22,固有名詞パターン検出部23を備える。
形態素解析部21は,テキストを形態素解析し単語列に分割し,単語群を未登録語検出部22および固有名詞パターン検出部23へ渡す手段である。形態素解析についての具体的方法については,従来からよく知られているので,ここでの詳細な説明は省略する。
未登録語検出部22は,単語群から未登録語とされた単語領域を検出してその単語領域に所定の誤り確率値を付与し,図1の誤り確率保存部3へ渡す。
また,固有名詞パターン検出部23は,形態素解析結果の単語列を受けて,統語的な特徴を利用することにより固有名詞が出現しやすい領域を認識し,その固有名詞が出現しやすい領域に対して負の誤り確率値を付与し,図1の誤り確率保存部3へ渡す。統語的な特徴とは,前後の既知の単語の意味や品詞などから類推できる特徴であり,「社長」や「部長」というような肩書の前は人名であることが多いとか,「市」や「州」という字の前にくる漢字列または片仮名は地名であることが多いという単語が並ぶパターンの特徴である。固有名詞に対して負の誤り確率値を与えるのは,固有名詞は未登録語であっても誤りではないことが多いからである。したがって,未登録語でない固有名詞には,負の誤り確率値を付与する必要はない。
このような固有名詞の検出では,例えば「未登録語+肩書」のように,予め固有名詞と特定の品詞または単語の組み合わせを解析用データとして登録しておき,固有名詞パターン検出部23で,形態素解析の結果をこれらの固有名詞パターンと照合すればよい。
これにより,従来の方法では必ず誤り候補として指摘されるような固有名詞に関する単語領域を,誤り指摘箇所から除くことが可能となる。
図3は,誤り確率計算部の他の一構成例を示す。
誤り確率計算部30は,語彙抽出部31,カテゴリ化部32,確率付与部33を備える。語彙抽出部31は,対象テキストから単語を抽出し,カテゴリ化部32へ送る手段である。カテゴリ化部32は,語彙抽出部31から得た単語群について,単語間の文字構成の類似度を計算し,計算した類似度に基づきカテゴリ化を行う手段である。確率付与部33は,カテゴリ化部32によりカテゴリ化された単語相互の類似度および単語の出現頻度等に基づいて誤り確率値を付与する手段である。
図3に示す誤り確率計算部30によれば,例えば表記の揺れを生じている単語のように,単語相互の類似度の高い単語を同一カテゴリに分類し,その単語の類似度および出現頻度により,どの表記の単語を正当または誤りとするかを誤り確率値として付与することができるため,最終的に表示する誤り候補に表記の揺れによる誤りの傾向を反映することができる。
図4は,誤り確率計算部の他の一構成例を示す。
誤り確率計算部40は,形態素解析部41,領域分割処理部42,確率付与部43を備える。形態素解析部41は,対象テキストを形態素解析し単語列に分割する手段である。領域分割処理部42は,対象テキストを,例えば漢字,平仮名,片仮名,英字,…というような同種の文字で構成される領域に分割する手段である。
確率付与部43は,記憶している各文字種ごとの平均単語長を用いて,同一文字種からなる単語領域ごとに算出したその領域内での予測単語数と,形態素解析による単語群から求めた実際の単語数とを比べ,その差に基づいた誤り確率値を各文字または文字列ごとに付与する手段である。すなわち,確率付与部43は,予測単語数と実際の単語数との差が大きい領域には,綴り誤り等により1単語として認識されなかった単語が含まれている確率が高いとみなし,この領域に相対的に高い誤り確率値を付与する。
以上の図1〜図4に示す各手段は,計算機を動作させるプログラムを用いて実現される。そのプログラムは適当な記憶媒体に格納することができる。
図5は,本発明に関連する技術のブロック構成例を示す図である。図5において,51は誤り候補検出部,52は拡張形態素解析部,53は単語比較部,54は単語辞書,55は誤り表示処理部を表す。
誤り候補検出部51は,例えば図1に示す誤り候補検出部1と同様な手段によって,入力テキストから誤り確率の大きい文字列を検出する手段である。誤り確率の計算では,例えば図4などに示すような手段を用いる。単語比較部53は,誤り候補検出部51から得た誤り候補とされた文字列と,単語辞書54に登録されている単語との類似度を比較して,所定値以上の類似度を持つ場合に一致と判断する手段である。拡張形態素解析部52は,誤り候補検出部51から得た誤り候補とされた文字列に対して拡張形態素解析を行い,拡張形態素解析の結果,その単語領域の評価値が誤り候補検出部51から得た評価値よりよい場合,すなわち全体としての誤り確率が小さくなるような場合には,拡張形態素解析により得た単語(単語群)を正解単語(正解単語群)と認定する。
ここで拡張形態素解析とは,厳密に単語辞書54に登録されている単語と一致する場合の情報だけを用いて形態素解析を行うのではなく,厳密には一致しないがかなり似ている単語の情報も用いて形態素解析を行うことを意味する。
誤り表示処理部55は,元の対象テキストとともに拡張形態素解析部52から得た正解単語群を表示する。
以上の図5に示す各手段は,計算機を動作させるプログラムを用いて実現される。そのプログラムは適当な記憶媒体に格納することができる。
本発明によれば,ユーザに対し誤りであるかどうかの手掛かりを一つ一つ直接提示するのではなく,複数の手掛かりをもとに総合的に判断した結果により誤りの可能性が高い部分のみを提示することが可能となる。
また,それぞれの手掛かりの確からしさを誤り確率値によって定量化するので,ユーザは,個々の手掛かりごとの調整に煩わされることなく,誤り確率閾値の調整のみによって,誤り候補を広く抽出して誤り指摘箇所の洩れをなくすか,明白な誤り箇所のみを抽出して校正作業の能率を向上させるかについてのバランスの調整を任意にできるようになる。
以下,本発明の実施の形態を図を用いて説明する。
図6は,図2に示す誤り確率計算部20による誤り確率計算の例を説明する図である。
校正対象の原テキストが「ジュペ外相はその意見にうなづいた」であるとき,図2に示す形態素解析部21は,形態素解析を行い,その結果として「/ジュペ/外相/は/その/意見/に/うなづ/いた/」の単語列を,未登録語検出部22へ渡すとともに,固有名詞パターン検出部23へ品詞等の属性情報を含めて渡す。
未登録語検出部22では,「ジュペ」,「うなづ」が未登録語として検出される。検出された未登録語の文字列に対して,それぞれ誤り確率[1]として0.5を付与する。この0.5という値は,予め統計的なデータによって決められた値である。
また,固有名詞パターン検出部23では,予め登録されている固有名詞パターンの一つである「未登録語+肩書」に一致するものとして,「/ジュペ/外相/」が検出される。ここで,「肩書」の前は固有名詞であることが一般的であり,通常,固有名詞は未登録語であるから,「/ジュペ/外相/」の単語列は,誤りである確率は低くなる。しがたって,「/ジュペ/外相/」の「ジュペ」に,負の誤り確率[2]として−0.4を付与する。
誤り確率計算部20からの誤り確率値により,誤り確率保存部3は,文字列「ジュペ」の誤り確率値を0.1(=0.5−0.4)とし,文字列「うなづ」の誤り確率値を0.5とする。
以上の結果から,図1に示す誤り候補抽出部5と同様な誤り候補の抽出を行う。ここで,誤り確率閾値4が例えば0.2に設定されているとすると,「ジュペ」の部分は,『0.1≦誤り確率閾値(0.2)』であるため誤り候補から外され,「うなづ」の部分が,『0.5>誤り確率閾値(0.2)』であるため誤り候補として抽出される。抽出された誤り候補は,誤り表示処理部55へ送られる。誤り表示処理部55は,誤り指摘箇所として「うなづ」の部分を,下線付き表示または色違い表示等により他の部分と区別して,校正用のテキストとして表示装置等に出力する。
このように,本来は誤りではない固有名詞である未登録語の誤り確率値を低く抑えることで,誤り候補として「ジュペ」が表示されることを防止している。なお,図5の拡張形態素解析部52の結果を,図1に示す誤り確率保存部3に渡すような構成にしてもよい。
図7は,図3に示す誤り確率計算部30による誤り確率計算の例を説明する図である。
校正対象の原テキスト中に,同一の意味を示す単語が「インバーテッド」,「インヴァーテッド」,「インバーテット」の3種の異なる表記で表されているとする。語彙抽出部31は,原テキストの単語ごとの出現頻度を計算し,単語と出現頻度の情報をカテゴリ化部32へ渡す。
カテゴリ化部32は,単語群の中で文字構成の類似度の高いもの同士を同一のカテゴリに分類する。このカテゴリ化の処理では,例えば「バ」と「ヴァ」は類似度が非常に大きい,「ズ」と「ヅ」も類似度が非常に大きい,長音記号「ー」がある場合とない場合の類似度は大きい,濁点付きと濁点なしの同字は類似度がやや大きい,というような情報に基づいて,特定の文字の関係に対して予め定められた類似度の値を用いて,単語の類似度が算出される。これにより,「インバーテッド」,「インヴァーテッド」,「インバーテット」の3つの単語は同一カテゴリに分類される。
次に,同一カテゴリ内の単語間で,最高頻度の単語を基準に,文字構成の類似度により誤り確率を計算する。この例では,最高頻度の「インバーテッド」を正解単語と認定し,「バ」と「ヴァ」の表記の類似度が高いことから「インバーテッド」に対する「インヴァーテッド」の類似度が10,また,語尾の「ド」と「ト」の表記の類似度はそれほど高くはなく,「インバーテッド」に対する「インバーテット」の類似度が2となっている。続いて,この類似度に基づき誤り確率値を定める。「インバーテッド」は,正解単語と認定しているので誤り確率を0とし,正解単語に対する類似度の高い「インヴァーテッド」は誤り確率が0.2,類似度の低い「インバーテット」は,誤り確率が0.8となっている。
ここで,図1に示す誤り確率閾値4を0.7と高く設定すると,誤り候補抽出部5は,文字列「インバーテット」のみを誤り候補として抽出する。一方,誤り確率閾値4を0.1と低くすれば,誤り候補抽出部5は,文字列「インヴァーテッド」,「インバーテット」の両方を抽出し,元の単語と別表記と認められる多くの単語が,誤り候補として校正テキストに表示される。なお,この誤り確率値は一例であり,テキストの種類によっては,同一カテゴリ内で類似度の低い単語の誤り確率を小さくしたほうがよい場合もある。
図8は,図4に示す誤り確率計算部40による誤り確率計算と図5に示す拡張形態素解析部52等の処理の例を説明する図である。
原テキストが「キイワードファイルの指定」であるとき,図4に示す形態素解析部41は,形態素解析の結果として「/キイ/ワード/ファイル/の/指定/」を出力する。ここでは,単語辞書中に「キイ」,「ワード」,「ファイル」という単語があったため,未登録語は検出されていない。
また,領域分割処理部42は,同一文字種ごとに領域分割処理を行い,片仮名部分の「キイワードファイル」,平仮名部分の「の」,漢字部分の「指定」の3つの部分に分割する。
確率付与部43は,「/キイ/ワード/ファイル/」について,形態素解析で求めた実際の単語数と,領域分割処理による予測単語数とを比較する。予測単語数は,文字種によって統計的に定められた平均単語長から計算される。例えば片仮名文字列の平均単語長が4であるとすると,「キイワードファイル」の予測単語数は,2(≒9÷2)となる。
この部分の形態素解析から得られた単語数は3であり,「キイワードファイル」について,実際の単語数と予測した単語数に不一致が生じることになる。確率付与部43は,この不一致の生じた単語領域「キイワードファイル」に誤りが存在する可能性があると判断して,各文字に不一致の度合に応じた誤り確率(例えば0.1)を付与する。
本実施の形態では,例えば誤り確率計算部40からの誤り確率値と,他の誤り確率計算部からの誤り確率値とを,図1に示す誤り確率保存部3で集計し,誤り候補抽出部5で誤り候補を抽出し,誤り表示処理部6で誤り候補を指摘した校正テキストを表示する。
本発明に関連する技術では,さらに次のように拡張形態素解析の利用により正解単語列を求める処理を行う。
拡張形態素解析部52は,誤り候補検出部51が検出した,ある一定値以上の誤り確率値を持つ文字列「キイワードファイル」を拡張形態素解析の対象とする。単語比較部53は,「キイワードファイル」と類似度が大きい単語列として,単語辞書54に登録された単語から「キーワード」,「ファイル」を検出し,拡張形態素解析部52では,拡張形態素解析の結果として,「/キーワード/ファイル/」が抽出される。
拡張形態素解析の結果として得られた「/キーワード/ファイル/」を正解単語列とみなしてよいかどうかを評価するために,ある評価値を計算する。ここでは,例えば誤り候補とされた領域内の平均単語長を評価値とする。形態素解析の結果による「/キイ/ワード/ファイル/」の平均単語長は3である。一方,拡張形態素解析の結果による「/キーワード/ファイル/」の平均単語長は4.5である。
これらの結果を比較すると,拡張形態素解析の結果の単語列「/キーワード/ファイル/(平均単語長=4.5)」の方が,通常の形態素解析の結果の単語列「/キイ/ワード/ファイル/(平均単語長=3)」よりも,片仮名文字列の平均単語長=4に近いため,評価値(平均単語長)が改善されることが分かる。このため,原テキストの文字列と相違する部分を持つ「キーワード」を,元のテキストの「キイワード」の正解単語と認定して,誤り表示処理部55により,校正テキスト中に誤り候補と正解単語部分とを対比させて表示する。
この拡張形態素解析を用いた方式によれば,例えば原テキストの「キイワードファイル」の部分について,「キイ」,「ワード」,「ファイル」のそれぞれの単語が未登録語ではないため,誤りを指摘できないような場合や,「キイワードファイル」の部分に付与される誤り確率値が所定の誤り確率閾値よりも小さいため,実際の誤り候補として抽出されないような場合にも,誤り候補とその正解単語の選出が可能になるという効果がある。
本発明のブロック構成例を示す図である。 誤り確率計算部の一構成例を示す図である。 誤り確率計算部の他の一構成例を示す図である。 誤り確率計算部の他の一構成例を示す図である。 本発明に関連する技術のブロック構成例を示す図である。 誤り確率計算の例を説明する図である。 誤り確率計算の例を説明する図である。 誤り確率計算と拡張形態素解析の例を説明する図である。
符号の説明
1 誤り候補検出部
2a,2b,… 誤り確率計算部
3 誤り確率保存部
4 誤り確率閾値
5 誤り候補抽出部
6 誤り表示処理部
20 誤り確率計算部
21 形態素解析部
22 未登録語検出部
23 固有名詞パターン検出部
30 誤り確率計算部
31 語彙抽出部
32 カテゴリ化部
33 確率付与部
40 誤り確率計算部
41 形態素解析部
42 領域分割処理部
43 確率付与部
51 誤り候補検出部
52 拡張形態素解析部
53 単語比較部
54 単語辞書
55 誤り表示処理部

Claims (4)

  1. テキスト文書における誤りを指摘する文書校正装置において,
    テキストの各構成文字または文字列に対して所定の異なる誤り確率計算手法により誤り確率値を計算し,それぞれ計算された誤り確率値を付与する複数の誤り確率計算手段と,
    前記複数の誤り確率計算手段から各々得た誤り確率値を集計し,各構成文字または文字列に対する最終的な誤り確率値を定める誤り確率保存手段と,
    前記テキストの各構成文字または文字列に対して付与された誤り確率値と,外部から設定された誤り確率閾値または予め定められた誤り確率閾値との大小の比較により,誤り候補を抽出する誤り候補抽出手段と,
    抽出された誤り候補を出力する誤り表示処理手段とを備え,
    かつ,前記複数の誤り確率計算手段の中に,
    テキストを形態素解析して単語列に分割する形態素解析手段と,
    分割された単語列のうち,所定の単語辞書に未登録の部分に対して所定の誤り確率値を付与する未登録語検出手段と,
    分割された単語列に対して,その単語列が,未登録語と特定の品詞または特定の単語が並ぶパターンであって,予め解析用データとして登録されたパターンと一致するか否かを判定し,一致する場合に,前記未登録語検出手段が未登録語に対して付与した誤り確率値を低くするような負の誤り確率値を付与する特定パターン検出手段とを持つ誤り確率計算手段を有する
    ことを特徴とする文書校正装置。
  2. テキスト文書における誤りを指摘する文書校正装置において,
    テキストの各構成文字または文字列に対して所定の異なる誤り確率計算手法により誤り確率値を計算し,それぞれ計算された誤り確率値を付与する複数の誤り確率計算手段と,
    前記複数の誤り確率計算手段から各々得た誤り確率値を集計し,各構成文字または文字列に対する最終的な誤り確率値を定める誤り確率保存手段と,
    前記テキストの各構成文字または文字列に対して付与された誤り確率値と,外部から設定された誤り確率閾値または予め定められた誤り確率閾値との大小の比較により,誤り候補を抽出する誤り候補抽出手段と,
    抽出された誤り候補を出力する誤り表示処理手段とを備え,
    かつ,前記複数の誤り確率計算手段の中に,
    テキストの形態素解析によってテキストを分割することにより得られた単語列のうち,所定の単語辞書に未登録の部分に対して所定の誤り確率値を付与する未登録語検出手段と,分割された前記単語列に対して,その単語列が,未登録語と特定の品詞または特定の単語が並ぶパターンであって,予め解析用データとして登録されたパターンと一致するか否かを判定し,一致する場合に,前記未登録語検出手段が未登録語に対して付与した誤り確率値を低くするような負の誤り確率値を付与する特定パターン検出手段とを有する第1の誤り確率計算手段,
    または,テキストから構成単語を抽出する語彙抽出手段と,抽出された単語群について単語間の類似度に基づき,単語相互の類似度の高い単語を同一カテゴリに分類することによりカテゴリ化を行うカテゴリ化手段と,同一カテゴリ内の各単語間の類似度および単語の出現回数に基づいて誤り確率値を付与する確率付与手段とを有する第2の誤り確率計算手段,
    または,テキストを形態素解析して単語列に分割した結果に基づき,テキストを同種の文字で構成される領域に分割する領域分割処理手段と,各文字種に対する単語長の予想値を持ち,同種の文字で構成される各領域内での平均単語長と前記予想値との差に基づいてその領域に対する誤り確率を付与する確率付与手段とを有する第3の誤り確率計算手段,
    の少なくともいずれか複数を含むことを特徴とする文書校正装置。
  3. テキスト文書における誤りを指摘する文書校正装置を計算機によって実現するためのプログラムが記憶される計算機読み取り可能なプログラム記憶媒体であって,
    テキストの各構成文字または文字列に対して所定の異なる誤り確率計算手法により誤り確率値を計算し,それぞれ計算された誤り確率値を付与する複数の誤り確率計算手段と,
    前記複数の誤り確率計算手段から各々得た誤り確率値を集計し,各構成文字または文字列に対する最終的な誤り確率値を定める誤り確率保存手段と,
    前記テキストの各構成文字または文字列に対して付与された誤り確率値と,外部から設定された誤り確率閾値または予め定められた誤り確率閾値との大小の比較により,誤り候補を抽出する誤り候補抽出手段と,
    抽出された誤り候補を出力する誤り表示処理手段として,
    前記計算機を機能させ,
    かつ,前記複数の誤り確率計算手段の中に,
    テキストを形態素解析して単語列に分割する形態素解析手段と,
    分割された単語列のうち,所定の単語辞書に未登録の部分に対して所定の誤り確率値を付与する未登録語検出手段と,
    分割された単語列に対して,その単語列が,未登録語と特定の品詞または特定の単語が並ぶパターンであって,予め解析用データとして登録されたパターンと一致するか否かを判定し,一致する場合に,前記未登録語検出手段が未登録語に対して付与した誤り確率値を低くするような負の誤り確率値を付与する特定パターン検出手段とを持つ誤り確率計算手段を有するものとして,
    前記計算機を機能させるための文書校正プログラムを格納したプログラム記憶媒体。
  4. テキスト文書における誤りを指摘する文書校正装置を計算機によって実現するためのプログラムが記憶される計算機読み取り可能なプログラム記憶媒体であって,
    テキストの各構成文字または文字列に対して所定の異なる誤り確率計算手法により誤り確率値を計算し,それぞれ計算された誤り確率値を付与する複数の誤り確率計算手段と,
    前記複数の誤り確率計算手段から各々得た誤り確率値を集計し,各構成文字または文字列に対する最終的な誤り確率値を定める誤り確率保存手段と,
    前記テキストの各構成文字または文字列に対して付与された誤り確率値と,外部から設定された誤り確率閾値または予め定められた誤り確率閾値との大小の比較により,誤り候補を抽出する誤り候補抽出手段と,
    抽出された誤り候補を出力する誤り表示処理手段として,
    前記計算機を機能させ,
    かつ,前記複数の誤り確率計算手段の中に,
    テキストの形態素解析によってテキストを分割することにより得られた単語列のうち,所定の単語辞書に未登録の部分に対して所定の誤り確率値を付与する未登録語検出手段と,分割された前記単語列に対して,その単語列が,未登録語と特定の品詞または特定の単語が並ぶパターンであって,予め解析用データとして登録されたパターンと一致するか否かを判定し,一致する場合に,前記未登録語検出手段が未登録語に対して付与した誤り確率値を低くするような負の誤り確率値を付与する特定パターン検出手段とを有する第1の誤り確率計算手段,
    または,テキストから構成単語を抽出する語彙抽出手段と,抽出された単語群について単語間の類似度に基づき,単語相互の類似度の高い単語を同一カテゴリに分類することによりカテゴリ化を行うカテゴリ化手段と,同一カテゴリ内の各単語間の類似度および単語の出現回数に基づいて誤り確率値を付与する確率付与手段とを有する第2の誤り確率計算手段,
    または,テキストを形態素解析して単語列に分割した結果に基づき,テキストを同種の文字で構成される領域に分割する領域分割処理手段と,各文字種に対する単語長の予想値を持ち,同種の文字で構成される各領域内での平均単語長と前記予想値との差に基づいてその領域に対する誤り確率を付与する確率付与手段とを有する第3の誤り確率計算手段,の少なくともいずれか複数を含むものとして,
    前記計算機を機能させるための文書校正プログラムを格納したプログラム記憶媒体。
JP2006207617A 1996-04-05 2006-07-31 文書校正装置およびプログラム記憶媒体 Expired - Fee Related JP4047894B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006207617A JP4047894B2 (ja) 1996-04-05 2006-07-31 文書校正装置およびプログラム記憶媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP8344996 1996-04-05
JP2006207617A JP4047894B2 (ja) 1996-04-05 2006-07-31 文書校正装置およびプログラム記憶媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP08495197A Division JP4278011B2 (ja) 1996-04-05 1997-04-03 文書校正装置およびプログラム記憶媒体

Publications (2)

Publication Number Publication Date
JP2006338682A true JP2006338682A (ja) 2006-12-14
JP4047894B2 JP4047894B2 (ja) 2008-02-13

Family

ID=37559125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006207617A Expired - Fee Related JP4047894B2 (ja) 1996-04-05 2006-07-31 文書校正装置およびプログラム記憶媒体

Country Status (1)

Country Link
JP (1) JP4047894B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015056154A (ja) * 2013-09-13 2015-03-23 独立行政法人情報通信研究機構 テキスト編集装置及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015056154A (ja) * 2013-09-13 2015-03-23 独立行政法人情報通信研究機構 テキスト編集装置及びプログラム

Also Published As

Publication number Publication date
JP4047894B2 (ja) 2008-02-13

Similar Documents

Publication Publication Date Title
US7584093B2 (en) Method and system for generating spelling suggestions
US8744833B2 (en) Method and apparatus for creating a language model and kana-kanji conversion
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US5940532A (en) Apparatus for and method of recognizing hand-written characters
JPH09198409A (ja) 酷似文書抽出方法
Tufiş et al. DIAC+: A professional diacritics recovering system
JP3361563B2 (ja) 形態素解析装置及びキーワード抽出装置
JP4278011B2 (ja) 文書校正装置およびプログラム記憶媒体
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2000089786A (ja) 音声認識結果の修正方法および装置
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2007122660A (ja) 文書データ処理装置および文書データ処理プログラム
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JP3856515B2 (ja) 文書校正装置
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JPS62249269A (ja) 文書処理装置
JP3241854B2 (ja) 単語スペル自動補正装置
JPH10240736A (ja) 形態素解析装置
JPH0869467A (ja) 日本語文書処理装置
JP2592993B2 (ja) 文節切り出し装置
JPH0757059A (ja) 文字認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070612

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071025

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees