JPH09325962A - Document corrector and program storage medium - Google Patents

Document corrector and program storage medium

Info

Publication number
JPH09325962A
JPH09325962A JP9084951A JP8495197A JPH09325962A JP H09325962 A JPH09325962 A JP H09325962A JP 9084951 A JP9084951 A JP 9084951A JP 8495197 A JP8495197 A JP 8495197A JP H09325962 A JPH09325962 A JP H09325962A
Authority
JP
Japan
Prior art keywords
error
word
error probability
candidate
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9084951A
Other languages
Japanese (ja)
Other versions
JP4278011B2 (en
Inventor
Jun Ibuki
潤 伊吹
Akira Adachi
顕 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP08495197A priority Critical patent/JP4278011B2/en
Publication of JPH09325962A publication Critical patent/JPH09325962A/en
Application granted granted Critical
Publication of JP4278011B2 publication Critical patent/JP4278011B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve the efficiency of correction work by reducing the judgement of a user by preventing erroneous parts in a document from being excessively pointed out concerning a document corrector, with which errors in a document in Japanese, etc., are pointed out, and a program storage medium. SOLUTION: Plural error probability calculation parts 2a, 2b... respectively calculate error probability values through different error probability calculating methods. An error probability preserving part 3 sums up these error probability values and applies the summed-up error probability value to the respective characters or character strings of a source text. An error candidate extracting part 5 extracts the character or character string having the error probability value exceeding a prescribed error probability threshold as a candidate. An error display processing part 6 displays the extracted error candidate in the text for correction with an underline or in a different color.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は,文書処理装置にお
いてユーザが入力もしくは電子的な媒体として獲得した
文書データに対して,誤った部分を自動的に指摘するこ
とにより,ユーザが文書を校正する作業を軽減し,文書
校正に係る作業効率を大幅に向上させることができるよ
うにした文書校正装置およびその文書校正装置を実現す
るためのプログラム記憶媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention proofreads a document by automatically pointing out an erroneous portion in document data input by a user in a document processing apparatus or acquired as an electronic medium. The present invention relates to a document proofreading device capable of reducing work and significantly improving work efficiency related to document proofreading, and a program storage medium for realizing the document proofreading device.

【0002】[0002]

【従来の技術】従来の文書処理装置において,誤り候補
を指摘する方法として,形態素解析を行い,その結果
から未登録語部分を指摘するもの,同音異義語のある
単語を指摘するものがある。また,特定の単語列が検
出された場合に誤りと認定して指摘するものがある。こ
れは,例えば現在では使用されない仮名遣いや表記等を
予め登録した誤り検出用辞書を用いて,一致するものを
誤りとするとか,名詞+動詞という普通にはあり得ない
品詞列を検出するとか,あるいは,一文字の漢字単語が
あった場合に誤りとするなどの方法である。他の方法と
して,テキスト中の片仮名または漢字文字列を辞書順
に並べ,同じ単語であって僅かな表記の揺れのある単語
が連続して並ぶようにして,表記の揺れを検出しやすく
したものがある。例えば,「ウィンドウ」と「ウインド
ゥ」と「ウインドウ」などの場合に,表記を統一するた
めに用いる方法である。
2. Description of the Related Art In a conventional document processing apparatus, as a method of pointing out an error candidate, there is a method of pointing out an unregistered word part from the result of morphological analysis and pointing out a word having a homonym. In addition, there is a method in which when a specific word string is detected, it is recognized as an error and pointed out. This is because, for example, using a dictionary for error detection that pre-registers kana usages and notations that are not currently used, it is assumed that the matching one is an error, or that a noun + verb, which is an unusual part of speech, is detected. Alternatively, it is a method such as making an error when there is a single Kanji word. Another method is to arrange Katakana or Kanji character strings in the text in a dictionary order so that words with the same slight fluctuations in the notation are arranged consecutively to make it easier to detect fluctuations in the notation. is there. For example, in the case of "window", "window", and "window", this is a method used to unify the notation.

【0003】[0003]

【発明が解決しようとする課題】上記の未登録語部分
を指摘する方法は,未登録語部分の周辺に誤った綴りの
単語がある可能性が高いため,その部分を指摘する方法
である。しかし,未登録語の生まれる原因としては,綴
りの誤り以外にも,例えば固有名詞などのように,間違
いではないが辞書に登録されていないというような本来
の未登録語の存在も挙げられる。したがって,指摘され
た部分が誤りと断定できるわけではなく,ユーザが一つ
一つ正誤を判断しなければならない。
The above-mentioned method of pointing out the unregistered word portion is a method of pointing out that portion because there is a high possibility that there is a misspelled word around the unregistered word portion. However, as the cause of the unregistered word, besides the spelling error, the existence of the original unregistered word, such as a proper noun, which is not mistaken but is not registered in the dictionary, can be mentioned. Therefore, the pointed-out portion cannot be determined to be an error, and the user must judge the correctness one by one.

【0004】上記の同音異義語の存在する単語箇所を
指摘する方法は,仮名漢字変換のときに操作を誤りやす
い箇所であるために確認を目的として指摘する方法であ
る。この場合,一つでも同音異義語が存在すれば,本来
は誤りでない単語であっても指摘されるため,ユーザが
自ら正誤の判断を下す必要がある部分が非常に多くなっ
てしまうという問題がある。
The above-mentioned method of pointing out a word portion in which a homonym is present is a method of pointing out for confirmation purposes because it is a portion where an operation is likely to be erroneous during kana-kanji conversion. In this case, if there is at least one homonym, it is pointed out even if it is not originally an error word, so there is a problem that the number of parts in which the user has to make a correct judgment becomes very large. is there.

【0005】一方,上記の特定の単語列が検出された
場合に誤りとして指摘する方法では,予め誤りとして検
出しておくべき品詞列などを登録する必要があり,誤り
の対象が非常に限定されたものとなるため,実際には,
文章中の誤りの多くは検出することができないという問
題がある。
On the other hand, in the method of pointing out as an error when the above-mentioned specific word string is detected, it is necessary to register a part-of-speech string or the like that should be detected as an error in advance, and the object of the error is very limited. In reality,
There is a problem that many errors in sentences cannot be detected.

【0006】また,上記の片仮名語句や漢字語句をソ
ートしてユーザに示す方法では,校正時にユーザ自身で
するべき作業量が多い割りには作業能率があまり改善さ
れないという問題がある。
Further, the method of sorting the katakana words and kanji words and presenting them to the user has a problem that the work efficiency is not improved so much even though the user has to do much work at the time of proofreading.

【0007】以上のように,従来の方法を用いると,誤
り候補の指摘箇所が本来の誤りではないことが多くあ
り,過剰指摘の傾向になるという問題点があった。結果
としてユーザが再チェックしなければならない量が多く
なるため,校正作業の効率を低下させることがあった。
また,誤り箇所の適切な選択が不十分なことが多いとい
う問題点があった。
As described above, when the conventional method is used, the point where the error candidate is pointed out is often not the original error, and there is a problem that there is a tendency for excessive pointing out. As a result, the amount of re-checking by the user becomes large, which may reduce the efficiency of the calibration work.
In addition, there is a problem that proper selection of error locations is often insufficient.

【0008】[0008]

【課題を解決するための手段】上記問題点を解決するた
め,本発明は,例えば図1ないし図5に示す各手段を備
える。
In order to solve the above problems, the present invention is provided with each means shown in FIGS. 1 to 5, for example.

【0009】図1は,請求項1記載の発明のブロック構
成例を示す。図1において,1は誤り候補検出部,2
a,2b,…は誤り確率計算部,3は誤り確率保存部,
4は誤り確率閾値,5は誤り候補抽出部,6は誤り表示
処理部を表す。
FIG. 1 shows a block configuration example of the invention according to claim 1. In FIG. 1, 1 is an error candidate detection unit, 2
a, 2b, ... Are error probability calculation units, 3 is an error probability storage unit,
4 is an error probability threshold value, 5 is an error candidate extraction unit, and 6 is an error display processing unit.

【0010】誤り確率計算部2a,2b,…は,それぞ
れ異なる方法によりテキストの各構成文字または文字列
に対して誤り確率値を計算し付与する手段である。各誤
り確率計算部2a,2b,…は,後述する図2〜図4に
示すような手段を単独でまたは組み合わせて用いてもよ
く,また従来技術として説明したような誤り候補を検出
する手段を組み合わせて用いることにより,それぞれ所
定の誤り確率を付与するようにしてもよい。
The error probability calculators 2a, 2b, ... Are means for calculating and giving an error probability value to each constituent character or character string of text by different methods. Each of the error probability calculation units 2a, 2b, ... May use the means shown in FIGS. 2 to 4 to be described later singly or in combination. Moreover, the means for detecting an error candidate as described in the prior art may be used. A predetermined error probability may be given to each by using them in combination.

【0011】誤り確率保存部3は,誤り確率計算部2
a,2b,…から得た誤り確率値を集計し,各構成文字
等に対する最終的な誤り確率値を定める手段である。誤
り候補抽出部5は,所定の誤り確率閾値4をもとに,こ
れより高い誤り確率値を持つ文字または文字列を誤り候
補として抽出する手段である。誤り確率閾値4は,外部
入力としてまたは予め記憶された電子的データとして与
えられる。
The error probability storage unit 3 includes an error probability calculation unit 2
It is a means for totaling the error probability values obtained from a, 2b, ... And determining the final error probability value for each constituent character. The error candidate extraction unit 5 is a means for extracting a character or a character string having an error probability value higher than this as an error candidate based on a predetermined error probability threshold 4. The error probability threshold 4 is given as an external input or as electronic data stored in advance.

【0012】誤り表示処理部6は,誤り候補抽出部5に
より抽出された誤り箇所を表示する手段である。以上の
ような構成によって,誤り確率保存部3は,各誤り確率
計算部2a,2b,…から得た複数の誤り確率値を集計
し,各文字または文字列ごとに,それぞれの誤り確率値
を定めるため,誤っている確率の大きい候補を従来より
正確に抽出することができる。
The error display processing unit 6 is means for displaying the error location extracted by the error candidate extraction unit 5. With the above-described configuration, the error probability storage unit 3 aggregates a plurality of error probability values obtained from the respective error probability calculation units 2a, 2b, ... And calculates the respective error probability values for each character or character string. Therefore, it is possible to more accurately extract a candidate with a higher probability of error than before.

【0013】また,誤り表示処理部6は,誤り候補抽出
部5によって所定の誤り確率閾値4を超えたものだけを
抽出して表示するため,過剰な誤り指摘を防止すること
ができる。
Further, since the error display processing unit 6 extracts and displays only those exceeding the predetermined error probability threshold value 4 by the error candidate extraction unit 5, it is possible to prevent excessive error indication.

【0014】さらに,誤り確率閾値4を変化させること
により,誤り候補として抽出し表示する単語等の量を調
節できるため,校正作業の目的等により,また原テキス
トの種類や内容により,誤り指摘の精度を保持するか,
または作業効率を向上させるかを選択することができ
る。
Furthermore, by changing the error probability threshold value 4, the amount of words and the like extracted and displayed as error candidates can be adjusted, so that the error indication can be made depending on the purpose of the proofreading work and the type and content of the original text. Keep the precision,
Alternatively, it is possible to select whether to improve work efficiency.

【0015】図2は,請求項2記載の発明に係る誤り確
率計算部の構成例を示す。誤り確率計算部20は,形態
素解析部21,未登録語検出部22,固有名詞パターン
検出部23を備える。
FIG. 2 shows an example of the configuration of the error probability calculation unit according to the second aspect of the invention. The error probability calculation unit 20 includes a morpheme analysis unit 21, an unregistered word detection unit 22, and a proper noun pattern detection unit 23.

【0016】形態素解析部21は,テキストを形態素解
析し単語列に分割し,単語群を未登録語検出部22およ
び固有名詞パターン検出部23へ渡す手段である。形態
素解析についての具体的方法については,従来からよく
知られているので,ここでの詳細な説明は省略する。
The morphological analysis unit 21 is a means for performing morphological analysis on text, dividing the text into word strings, and passing the word group to the unregistered word detection unit 22 and proper noun pattern detection unit 23. Since a specific method for morphological analysis has been well known in the related art, detailed description thereof will be omitted here.

【0017】未登録語検出部22は,単語群から未登録
語とされた単語領域を検出してその単語領域に所定の誤
り確率値を付与し,図1の誤り確率保存部3へ渡す。ま
た,固有名詞パターン検出部23は,形態素解析結果の
単語列を受けて,統語的な特徴を利用することにより固
有名詞が出現しやすい領域を認識し,その固有名詞が出
現しやすい領域に対して負の誤り確率値を付与し,図1
の誤り確率保存部3へ渡す。統語的な特徴とは,前後の
既知の単語の意味や品詞などから類推できる特徴であ
り,「社長」や「部長」というような肩書の前は人名で
あることが多いとか,「市」や「州」という字の前にく
る漢字列または片仮名は地名であることが多いという単
語が並ぶパターンの特徴である。固有名詞に対して負の
誤り確率値を与えるのは,固有名詞は未登録語であって
も誤りではないことが多いからである。したがって,未
登録語でない固有名詞には,負の誤り確率値を付与する
必要はない。
The unregistered word detection unit 22 detects a word region that is regarded as an unregistered word from the word group, adds a predetermined error probability value to the word region, and passes it to the error probability storage unit 3 in FIG. Further, the proper noun pattern detection unit 23 receives the word string of the morphological analysis result, recognizes the area where the proper noun is likely to appear by using syntactic features, and recognizes the area where the proper noun is likely to appear. Negative error probability value is added to
To the error probability storage unit 3. Syntactic features are those that can be inferred from the meaning and part-of-speech of known words before and after, and titles such as "President" and "Manager" are often personal names, "city" and This is a characteristic of the pattern in which the words that the kanji string or katakana that precedes the character "state" are often place names are arranged. The reason why a negative error probability value is given to a proper noun is that a proper noun is not an error even if it is an unregistered word. Therefore, it is not necessary to give a negative error probability value to proper nouns that are not unregistered words.

【0018】このような固有名詞の検出では,例えば
「未登録語+肩書」のように,予め固有名詞と特定の品
詞または単語の組み合わせを解析用データとして登録し
ておき,固有名詞パターン検出部23で,形態素解析の
結果をこれらの固有名詞パターンと照合すればよい。
In such a proper noun detection, a proper noun and a specific part-of-speech or word combination is registered in advance as analysis data such as "unregistered word + title", and the proper noun pattern detection unit At 23, the result of the morphological analysis may be matched with these proper noun patterns.

【0019】これにより,従来の方法では必ず誤り候補
として指摘されるような固有名詞に関する単語領域を,
誤り指摘箇所から除くことが可能となる。図3は,請求
項3記載の発明に係る誤り確率計算部の構成例を示す。
As a result, a word area related to a proper noun that is always pointed out as an error candidate in the conventional method,
It is possible to remove from the point of error. FIG. 3 shows a configuration example of an error probability calculation unit according to the invention of claim 3.

【0020】誤り確率計算部30は,語彙抽出部31,
カテゴリ化部32,確率付与部33を備える。語彙抽出
部31は,対象テキストから単語を抽出し,カテゴリ化
部32へ送る手段である。カテゴリ化部32は,語彙抽
出部31から得た単語群について,単語間の文字構成の
類似度を計算し,計算した類似度に基づきカテゴリ化を
行う手段である。確率付与部33は,カテゴリ化部32
によりカテゴリ化された単語相互の類似度および単語の
出現頻度等に基づいて誤り確率値を付与する手段であ
る。
The error probability calculation unit 30 includes a vocabulary extraction unit 31,
A categorization unit 32 and a probability assignment unit 33 are provided. The vocabulary extraction unit 31 is a unit that extracts words from the target text and sends them to the categorization unit 32. The categorization unit 32 is a unit that calculates the degree of similarity in character composition between words for the word group obtained from the vocabulary extraction unit 31 and performs categorization based on the calculated degree of similarity. The probability assignment unit 33 includes the categorization unit 32.
It is a means for giving an error probability value based on the degree of similarity between words and the frequency of appearance of words categorized by.

【0021】図3に示す誤り確率計算部30によれば,
例えば表記の揺れを生じている単語のように,単語相互
の類似度の高い単語を同一カテゴリに分類し,その単語
の類似度および出現頻度により,どの表記の単語を正当
または誤りとするかを誤り確率値として付与することが
できるため,最終的に表示する誤り候補に表記の揺れに
よる誤りの傾向を反映することができる。
According to the error probability calculator 30 shown in FIG.
For example, words with a high degree of similarity to each other, such as words that have fluctuations in the notation, are classified into the same category, and which of the notations is legal or incorrect is determined based on the similarity and appearance frequency of the words. Since it can be given as an error probability value, it is possible to reflect the error tendency due to the fluctuation of the notation in the finally displayed error candidate.

【0022】図4は,請求項4記載の発明に係る誤り確
率計算部の構成例を示す。誤り確率計算部40は,形態
素解析部41,領域分割処理部42,確率付与部43を
備える。形態素解析部41は,対象テキストを形態素解
析し単語列に分割する手段である。領域分割処理部42
は,対象テキストを,例えば漢字,平仮名,片仮名,英
字,…というような同種の文字で構成される領域に分割
する手段である。
FIG. 4 shows an example of the configuration of the error probability calculator according to the invention of claim 4. The error probability calculation unit 40 includes a morpheme analysis unit 41, a region division processing unit 42, and a probability assignment unit 43. The morpheme analysis unit 41 is means for performing morpheme analysis on the target text and dividing it into word strings. Area division processing unit 42
Is a means for dividing the target text into areas composed of the same kind of characters such as Kanji, Hiragana, Katakana, English letters, ....

【0023】確率付与部43は,記憶している各文字種
ごとの平均単語長を用いて,同一文字種からなる単語領
域ごとに算出したその領域内での予測単語数と,形態素
解析による単語群から求めた実際の単語数とを比べ,そ
の差に基づいた誤り確率値を各文字または文字列ごとに
付与する手段である。すなわち,確率付与部43は,予
測単語数と実際の単語数との差が大きい領域には,綴り
誤り等により1単語として認識されなかった単語が含ま
れている確率が高いとみなし,この領域に相対的に高い
誤り確率値を付与する。
The probability assigning unit 43 uses the stored average word length for each character type to calculate the predicted number of words in each word region of the same character type in that region and the word group by morphological analysis. It is a means of comparing the calculated actual number of words and giving an error probability value based on the difference for each character or character string. That is, the probability assignment unit 43 considers that there is a high probability that a region that has a large difference between the predicted number of words and the actual number of words includes a word that is not recognized as one word due to a spelling error or the like. To a relatively high error probability value.

【0024】以上の図1〜図4に示す各手段は,計算機
を動作させるプログラムを用いて実現される。そのプロ
グラムは適当な記憶媒体に格納することができる。図5
は,請求項6記載の発明のブロック構成例を示す図であ
る。図5において,51は誤り候補検出部,52は拡張
形態素解析部,53は単語比較部,54は単語辞書,5
5は誤り表示処理部を表す。
Each of the above-mentioned means shown in FIGS. 1 to 4 is realized by using a program for operating a computer. The program can be stored in an appropriate storage medium. FIG.
[Fig. 6] is a diagram showing an example of the block configuration of the invention according to claim 6. In FIG. 5, 51 is an error candidate detection unit, 52 is an extended morphological analysis unit, 53 is a word comparison unit, 54 is a word dictionary, 5
Reference numeral 5 represents an error display processing unit.

【0025】誤り候補検出部51は,例えば図1に示す
誤り候補検出部1と同様な手段によって,入力テキスト
から誤り確率の大きい文字列を検出する手段である。誤
り確率の計算では,例えば図4などに示すような手段を
用いる。単語比較部53は,誤り候補検出部51から得
た誤り候補とされた文字列と,単語辞書54に登録され
ている単語との類似度を比較して,所定値以上の類似度
を持つ場合に一致と判断する手段である。拡張形態素解
析部52は,誤り候補検出部51から得た誤り候補とさ
れた文字列に対して拡張形態素解析を行い,拡張形態素
解析の結果,その単語領域の評価値が誤り候補検出部5
1から得た評価値よりよい場合,すなわち全体としての
誤り確率が小さくなるような場合には,拡張形態素解析
により得た単語(単語群)を正解単語(正解単語群)と
認定する。
The error candidate detecting section 51 is means for detecting a character string having a high error probability from the input text by means similar to the error candidate detecting section 1 shown in FIG. 1, for example. In calculating the error probability, for example, the means shown in FIG. 4 is used. The word comparison unit 53 compares the similarity between the character string obtained as an error candidate from the error candidate detection unit 51 and the word registered in the word dictionary 54, and has a similarity of a predetermined value or more. It is a means to determine that the two match. The extended morpheme analysis unit 52 performs extended morpheme analysis on the character string which is the error candidate obtained from the error candidate detection unit 51, and as a result of the extended morpheme analysis, the evaluation value of the word region is the error candidate detection unit 5
If it is better than the evaluation value obtained from 1, that is, if the overall error probability is small, the word (word group) obtained by the extended morpheme analysis is recognized as the correct word (correct word group).

【0026】ここで拡張形態素解析とは,厳密に単語辞
書54に登録されている単語と一致する場合の情報だけ
を用いて形態素解析を行うのではなく,厳密には一致し
ないがかなり似ている単語の情報も用いて形態素解析を
行うことを意味する。
Here, the extended morphological analysis is not similar to the morphological analysis using only the information in the case of exactly matching the word registered in the word dictionary 54. This means that morphological analysis is also performed using word information.

【0027】誤り表示処理部55は,元の対象テキスト
とともに拡張形態素解析部52から得た正解単語群を表
示する。以上の図5に示す各手段は,計算機を動作させ
るプログラムを用いて実現される。そのプログラムは適
当な記憶媒体に格納することができる。
The error display processing unit 55 displays the correct answer word group obtained from the extended morpheme analysis unit 52 together with the original target text. Each of the above means shown in FIG. 5 is realized by using a program for operating a computer. The program can be stored in an appropriate storage medium.

【0028】[0028]

【発明の実施の形態】以下,本発明の実施の形態を図を
用いて説明する。図6は,図2に示す誤り確率計算部2
0による誤り確率計算の例を説明する図である。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 6 shows the error probability calculator 2 shown in FIG.
It is a figure explaining the example of error probability calculation by 0.

【0029】校正対象の原テキストが「ジュペ外相はそ
の意見にうなづいた」であるとき,図2に示す形態素解
析部21は,形態素解析を行い,その結果として「/ジ
ュペ/外相/は/その/意見/に/うなづ/いた/」の
単語列を,未登録語検出部22へ渡すとともに,固有名
詞パターン検出部23へ品詞等の属性情報を含めて渡
す。
When the original text to be proofread is "Jupe Foreign Minister nodded his opinion", the morphological analysis unit 21 shown in FIG. 2 performs morphological analysis, and as a result, "/ Jupe / Foreign Minister / ha / that The word string "/ opinion / ni / nodazu / ita /" is passed to the unregistered word detection unit 22 and is also passed to the proper noun pattern detection unit 23 including attribute information such as a part of speech.

【0030】未登録語検出部22では,「ジュペ」,
「うなづ」が未登録語として検出される。検出された未
登録語の文字列に対して,それぞれ誤り確率として
0.5を付与する。この0.5という値は,予め統計的
なデータによって決められた値である。
In the unregistered word detection unit 22, "Jupe",
"Unazu" is detected as an unregistered word. An error probability of 0.5 is given to each of the detected unregistered character strings. This value of 0.5 is a value determined in advance by statistical data.

【0031】また,固有名詞パターン検出部23では,
予め登録されている固有名詞パターンの一つである「未
登録語+肩書」に一致するものとして,「/ジュペ/外
相/」が検出される。ここで,「肩書」の前は固有名詞
であることが一般的であり,通常,固有名詞は未登録語
であるから,「/ジュペ/外相/」の単語列は,誤りで
ある確率は低くなる。しがたって,「/ジュペ/外相
/」の「ジュペ」に,負の誤り確率として−0.4を
付与する。
Further, in the proper noun pattern detecting section 23,
“/ Jupe / foreign minister /” is detected as a match with “unregistered word + title”, which is one of the proper noun patterns registered in advance. Here, in general, the proper title is a proper noun, and the proper noun is usually an unregistered word. Therefore, the word string "/ Jupe / Foreign Minister /" is unlikely to be an error. Become. Therefore, a negative error probability of −0.4 is added to “Jupe” of “/ Jupe / Foreign Minister /”.

【0032】誤り確率計算部20からの誤り確率値によ
り,誤り確率保存部3は,文字列「ジュペ」の誤り確率
値を0.1(=0.5−0.4)とし,文字列「うな
づ」の誤り確率値を0.5とする。
From the error probability value from the error probability calculation unit 20, the error probability storage unit 3 sets the error probability value of the character string "Jupe" to 0.1 (= 0.5-0.4), and the character string " The error probability value of "Unazu" is set to 0.5.

【0033】以上の結果から,図1に示す誤り候補抽出
部5と同様な誤り候補の抽出を行う。ここで,誤り確率
閾値4が例えば0.2に設定されているとすると,「ジ
ュペ」の部分は,『0.1≦誤り確率閾値(0.2)』
であるため誤り候補から外され,「うなづ」の部分が,
『0.5>誤り確率閾値(0.2)』であるため誤り候
補として抽出される。抽出された誤り候補は,誤り表示
処理部55へ送られる。誤り表示処理部55は,誤り指
摘箇所として「うなづ」の部分を,下線付き表示または
色違い表示等により他の部分と区別して,校正用のテキ
ストとして表示装置等に出力する。
From the above results, the same error candidate extraction as the error candidate extraction unit 5 shown in FIG. 1 is performed. If the error probability threshold 4 is set to 0.2, for example, the "Jupe" part is "0.1≤error probability threshold (0.2)".
Therefore, it is excluded from the error candidates, and the part of "unadzu" is
Since “0.5> error probability threshold (0.2)”, it is extracted as an error candidate. The extracted error candidates are sent to the error display processing unit 55. The error display processing unit 55 distinguishes the "nodule" portion as an error indication portion from other portions by underlined display or different color display, and outputs it as proofreading text to a display device or the like.

【0034】このように,本来は誤りではない固有名詞
である未登録語の誤り確率値を低く抑えることで,誤り
候補として「ジュペ」が表示されることを防止してい
る。なお,図5の拡張形態素解析部52の結果を,図1
に示す誤り確率保存部3に渡すような構成にしてもよ
い。
As described above, by suppressing the error probability value of the unregistered word, which is a proper noun that is not originally an error, "Jupe" is prevented from being displayed as an error candidate. The result of the extended morpheme analysis unit 52 of FIG.
The configuration may be such that it is passed to the error probability storage unit 3 shown in FIG.

【0035】図7は,図3に示す誤り確率計算部30に
よる誤り確率計算の例を説明する図である。校正対象の
原テキスト中に,同一の意味を示す単語が「インバーテ
ッド」,「インヴァーテッド」,「インバーテット」の
3種の異なる表記で表されているとする。語彙抽出部3
1は,原テキストの単語ごとの出現頻度を計算し,単語
と出現頻度の情報をカテゴリ化部32へ渡す。
FIG. 7 is a diagram for explaining an example of error probability calculation by the error probability calculator 30 shown in FIG. It is assumed that words having the same meaning are represented in three different notations of "inverted", "inverted", and "inverted" in the original text to be proofread. Vocabulary extractor 3
1 calculates the appearance frequency of each word of the original text and passes the information of the word and the appearance frequency to the categorization unit 32.

【0036】カテゴリ化部32は,単語群の中で文字構
成の類似度の高いもの同士を同一のカテゴリに分類す
る。このカテゴリ化の処理では,例えば「バ」と「ヴ
ァ」は類似度が非常に大きい,「ズ」と「ヅ」も類似度
が非常に大きい,長音記号「ー」がある場合とない場合
の類似度は大きい,濁点付きと濁点なしの同字は類似度
がやや大きい,というような情報に基づいて,特定の文
字の関係に対して予め定められた類似度の値を用いて,
単語の類似度が算出される。これにより,「インバーテ
ッド」,「インヴァーテッド」,「インバーテット」の
3つの単語は同一カテゴリに分類される。
The categorization unit 32 classifies words having a high degree of similarity in character configuration into the same category. In this categorization process, for example, "ba" and "va" have a very high degree of similarity, "zu" and "zu" have a very high degree of similarity, and there are cases where there is a long-sound "-" Based on the information that the degree of similarity is high, and that the same character with and without the dakuten has a slightly higher degree of similarity, using the value of the degree of similarity determined in advance for the relationship of specific characters,
The word similarity is calculated. As a result, the three words "inverted", "inverted", and "inverted" are classified into the same category.

【0037】次に,同一カテゴリ内の単語間で,最高頻
度の単語を基準に,文字構成の類似度により誤り確率を
計算する。この例では,最高頻度の「インバーテッド」
を正解単語と認定し,「バ」と「ヴァ」の表記の類似度
が高いことから「インバーテッド」に対する「インヴァ
ーテッド」の類似度が10,また,語尾の「ド」と
「ト」の表記の類似度はそれほど高くはなく,「インバ
ーテッド」に対する「インバーテット」の類似度が2と
なっている。続いて,この類似度に基づき誤り確率値を
定める。「インバーテッド」は,正解単語と認定してい
るので誤り確率を0とし,正解単語に対する類似度の高
い「インヴァーテッド」は誤り確率が0.2,類似度の
低い「インバーテット」は,誤り確率が0.8となって
いる。
Next, between the words in the same category, the error probability is calculated based on the highest frequency word and the similarity of the character structure. In this example, the highest frequency of "inverted"
Is recognized as the correct word, and the similarity between the notations "ba" and "va" is high, so the similarity of "inverted" to "inverted" is 10, and the endings of "do" and "to" The similarity of the notation is not so high, and the similarity of "inverted" to "inverted" is 2. Then, the error probability value is determined based on this similarity. Since "Inverted" is recognized as a correct answer word, the error probability is set to 0. "Inverted" having a high similarity to the correct answer word has an error probability of 0.2, and "Inverted" having a low similarity is The error probability is 0.8.

【0038】ここで,図1に示す誤り確率閾値4を0.
7と高く設定すると,誤り候補抽出部5は,文字列「イ
ンバーテット」のみを誤り候補として抽出する。一方,
誤り確率閾値4を0.1と低くすれば,誤り候補抽出部
5は,文字列「インヴァーテッド」,「インバーテッ
ト」の両方を抽出し,元の単語と別表記と認められる多
くの単語が,誤り候補として校正テキストに表示され
る。なお,この誤り確率値は一例であり,テキストの種
類によっては,同一カテゴリ内で類似度の低い単語の誤
り確率を小さくしたほうがよい場合もある。
Here, the error probability threshold value 4 shown in FIG.
When set to a high value of 7, the error candidate extraction unit 5 extracts only the character string "inverted" as an error candidate. on the other hand,
If the error probability threshold value 4 is set to a low value of 0.1, the error candidate extraction unit 5 extracts both the character strings “inverted” and “inverted” and recognizes many words that are different from the original word. Is displayed in the proofreading text as an error candidate. Note that this error probability value is an example, and depending on the type of text, it may be better to reduce the error probability of words with a low degree of similarity within the same category.

【0039】図8は,図4に示す誤り確率計算部40に
よる誤り確率計算と図5に示す拡張形態素解析部52等
の処理の例を説明する図である。原テキストが「キイワ
ードファイルの指定」であるとき,図4に示す形態素解
析部41は,形態素解析の結果として「/キイ/ワード
/ファイル/の/指定/」を出力する。ここでは,単語
辞書中に「キイ」,「ワード」,「ファイル」という単
語があったため,未登録語は検出されていない。
FIG. 8 is a diagram for explaining an example of the error probability calculation by the error probability calculation unit 40 shown in FIG. 4 and the processing of the extended morpheme analysis unit 52 shown in FIG. When the original text is “keyword file designation”, the morphological analysis unit 41 shown in FIG. 4 outputs “/ key / word / file / of / designation /” as a result of the morphological analysis. Here, since the words "key", "word", and "file" were found in the word dictionary, unregistered words were not detected.

【0040】また,領域分割処理部42は,同一文字種
ごとに領域分割処理を行い,片仮名部分の「キイワード
ファイル」,平仮名部分の「の」,漢字部分の「指定」
の3つの部分に分割する。
Further, the area division processing unit 42 performs area division processing for each same character type, so that the "keyword file" for the katakana part, the "no" for the hiragana part, and the "designation" for the kanji part.
It is divided into three parts.

【0041】確率付与部43は,「/キイ/ワード/フ
ァイル/」について,形態素解析で求めた実際の単語数
と,領域分割処理による予測単語数とを比較する。予測
単語数は,文字種によって統計的に定められた平均単語
長から計算される。例えば片仮名文字列の平均単語長が
4であるとすると,「キイワードファイル」の予測単語
数は,2(≒9÷2)となる。
The probability assigning unit 43 compares the actual number of words obtained by morphological analysis with respect to "/ key / word / file /" and the number of words predicted by the area division processing. The number of predicted words is calculated from the average word length statistically determined by the character type. For example, if the average word length of the katakana character string is 4, the predicted number of words in the “keyword file” is 2 (≈9 / 2).

【0042】この部分の形態素解析から得られた単語数
は3であり,「キイワードファイル」について,実際の
単語数と予測した単語数に不一致が生じることになる。
確率付与部43は,この不一致の生じた単語領域「キイ
ワードファイル」に誤りが存在する可能性があると判断
して,各文字に不一致の度合に応じた誤り確率(例えば
0.1)を付与する。
The number of words obtained from the morphological analysis of this portion is 3, and thus the actual number of words and the predicted number of words in the "keyword file" will not match.
The probability assignment unit 43 determines that an error may exist in the word area “keyword file” in which the mismatch occurs, and assigns an error probability (eg, 0.1) to each character according to the degree of mismatch. To do.

【0043】請求項1記載の発明では,誤り確率計算部
40からの誤り確率値と,他の誤り確率計算部からの誤
り確率値とを,図1に示す誤り確率保存部3で集計し,
誤り候補抽出部5で誤り候補を抽出し,誤り表示処理部
6で誤り候補を指摘した校正テキストを表示する。
According to the first aspect of the invention, the error probability value from the error probability calculation unit 40 and the error probability value from another error probability calculation unit are totaled by the error probability storage unit 3 shown in FIG.
The error candidate extraction unit 5 extracts the error candidate, and the error display processing unit 6 displays the proofreading text indicating the error candidate.

【0044】請求項6記載の発明では,さらに次のよう
に拡張形態素解析の利用により正解単語列を求める処理
を行う。拡張形態素解析部52は,誤り候補検出部51
が検出した,ある一定値以上の誤り確率値を持つ文字列
「キイワードファイル」を拡張形態素解析の対象とす
る。単語比較部53は,「キイワードファイル」と類似
度が大きい単語列として,単語辞書54に登録された単
語から「キーワード」,「ファイル」を検出し,拡張形
態素解析部52では,拡張形態素解析の結果として,
「/キーワード/ファイル/」が抽出される。
According to the sixth aspect of the present invention, the processing for obtaining the correct word string is further performed by using the extended morphological analysis as follows. The extended morpheme analysis unit 52 uses the error candidate detection unit 51.
The character string “keyword file” that is detected by and has an error probability value above a certain value is the target of the extended morpheme analysis. The word comparison unit 53 detects “keyword” and “file” from the words registered in the word dictionary 54 as a word string having a high similarity to the “keyword file”, and the extended morpheme analysis unit 52 detects the extended morpheme analysis. as a result,
“/ Keyword / file /” is extracted.

【0045】拡張形態素解析の結果として得られた「/
キーワード/ファイル/」を正解単語列とみなしてよい
かどうかを評価するために,ある評価値を計算する。こ
こでは,例えば誤り候補とされた領域内の平均単語長を
評価値とする。形態素解析の結果による「/キイ/ワー
ド/ファイル/」の平均単語長は3である。一方,拡張
形態素解析の結果による「/キーワード/ファイル/」
の平均単語長は4.5である。
"/" Obtained as a result of the extended morphological analysis
A certain evaluation value is calculated in order to evaluate whether or not the keyword / file / ”can be regarded as a correct word string. Here, for example, the average word length in the area that is an error candidate is used as the evaluation value. The average word length of “/ key / word / file /” is 3 as a result of the morphological analysis. On the other hand, "/ keyword / file /" according to the result of extended morphological analysis
Has an average word length of 4.5.

【0046】これらの結果を比較すると,拡張形態素解
析の結果の単語列「/キーワード/ファイル/(平均単
語長=4.5)」の方が,通常の形態素解析の結果の単
語列「/キイ/ワード/ファイル/(平均単語長=
3)」よりも,片仮名文字列の平均単語長=4に近いた
め,評価値(平均単語長)が改善されることが分かる。
このため,原テキストの文字列と相違する部分を持つ
「キーワード」を,元のテキストの「キイワード」の正
解単語と認定して,誤り表示処理部55により,校正テ
キスト中に誤り候補と正解単語部分とを対比させて表示
する。
Comparing these results, the word string “/ keyword / file / (average word length = 4.5)” of the result of the extended morpheme analysis is more likely to be the word string “/ key” of the result of the normal morpheme analysis. / Word / File / (Average word length =
3) ”, the evaluation value (average word length) is improved because the average word length of the katakana character string is closer to 4.
Therefore, the “keyword” having a portion different from the character string of the original text is recognized as the correct word of the “keyword” of the original text, and the error display processing unit 55 causes the error candidate and the correct word in the proof text. It is displayed in contrast with the part.

【0047】この拡張形態素解析を用いた方式によれ
ば,例えば原テキストの「キイワードファイル」の部分
について,「キイ」,「ワード」,「ファイル」のそれ
ぞれの単語が未登録語ではないため,誤りを指摘できな
いような場合や,「キイワードファイル」の部分に付与
される誤り確率値が所定の誤り確率閾値よりも小さいた
め,実際の誤り候補として抽出されないような場合に
も,誤り候補とその正解単語の選出が可能になるという
効果がある。
According to this method using the extended morphological analysis, for example, in the "keyword file" portion of the original text, the words "key", "word", and "file" are not unregistered words. Even if an error cannot be pointed out, or if the error probability value assigned to the “keyword file” is smaller than the predetermined error probability threshold value, it is not extracted as an actual error candidate and the error candidate and its The effect is that the correct word can be selected.

【0048】[0048]

【発明の効果】以上説明したように,本発明によれば,
ユーザに対し誤りであるかどうかの手掛かりを一つ一つ
直接提示するのではなく,複数の手掛かりをもとに総合
的に判断した結果により誤りの可能性が高い部分のみを
提示することが可能となる。
As described above, according to the present invention,
Instead of directly presenting to each user a clue as to whether or not there is an error, it is possible to present only the part with a high possibility of error based on the result of comprehensive judgment based on multiple clues. Becomes

【0049】また,それぞれの手掛かりの確からしさを
誤り確率値によって定量化するので,ユーザは,個々の
手掛かりごとの調整に煩わされることなく,誤り確率閾
値の調整のみによって,誤り候補を広く抽出して誤り指
摘箇所の洩れをなくすか,明白な誤り箇所のみを抽出し
て校正作業の能率を向上させるかについてのバランスの
調整を任意にできるようになる。
Further, since the probability of each clue is quantified by the error probability value, the user does not have to worry about the adjustment for each clue and widely extracts the error candidates only by adjusting the error probability threshold value. Therefore, it becomes possible to arbitrarily adjust the balance of whether to eliminate the omission of the error indication point or to extract only the obvious error point to improve the efficiency of the calibration work.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明のブロック構成例を示す図である。FIG. 1 is a diagram illustrating an example of a block configuration according to the present invention.

【図2】請求項2記載の発明に係る誤り確率計算部の構
成例を示す図である。
FIG. 2 is a diagram showing a configuration example of an error probability calculation unit according to the invention described in claim 2;

【図3】請求項3記載の発明に係る誤り確率計算部の構
成例を示す図である。
FIG. 3 is a diagram showing a configuration example of an error probability calculation unit according to the invention of claim 3;

【図4】請求項4記載の発明に係る誤り確率計算部の構
成例を示す図である。
FIG. 4 is a diagram showing a configuration example of an error probability calculation unit according to the invention of claim 4;

【図5】請求項6記載の発明のブロック構成例を示す図
である。
FIG. 5 is a diagram showing a block configuration example of the invention according to claim 6;

【図6】誤り確率計算の例を説明する図である。FIG. 6 is a diagram illustrating an example of error probability calculation.

【図7】誤り確率計算の例を説明する図である。FIG. 7 is a diagram illustrating an example of error probability calculation.

【図8】誤り確率計算と拡張形態素解析の例を説明する
図である。
FIG. 8 is a diagram illustrating an example of error probability calculation and extended morphological analysis.

【符号の説明】[Explanation of symbols]

1 誤り候補検出部 2a,2b,… 誤り確率計算部 3 誤り確率保存部 4 誤り確率閾値 5 誤り候補抽出部 6 誤り表示処理部 20 誤り確率計算部 21 形態素解析部 22 未登録語検出部 23 固有名詞パターン検出部 30 誤り確率計算部 31 語彙抽出部 32 カテゴリ化部 33 確率付与部 40 誤り確率計算部 41 形態素解析部 42 領域分割処理部 43 確率付与部 51 誤り候補検出部 52 拡張形態素解析部 53 単語比較部 54 単語辞書 55 誤り表示処理部 1 error candidate detection unit 2a, 2b, ... Error probability calculation unit 3 error probability storage unit 4 error probability threshold 5 error candidate extraction unit 6 error display processing unit 20 error probability calculation unit 21 morphological analysis unit 22 unregistered word detection unit 23 unique Noun pattern detection unit 30 Error probability calculation unit 31 Vocabulary extraction unit 32 Categorization unit 33 Probability assignment unit 40 Error probability calculation unit 41 Morphological analysis unit 42 Region division processing unit 43 Probability assignment unit 51 Error candidate detection unit 52 Extended morpheme analysis unit 53 Word comparison unit 54 Word dictionary 55 Error display processing unit

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 テキスト文書における誤りを指摘する文
書校正装置において,テキストの各構成文字または文字
列に対して所定の誤り確率計算手法により誤り確率値を
計算し,それぞれ計算された誤り確率値を付与する複数
の誤り確率計算手段と,前記複数の誤り確率計算手段か
ら得た誤り確率値を集計し,各構成文字または文字列に
対する最終的な誤り確率値を定める誤り確率保存手段
と,前記テキストの各構成文字または文字列に対して付
与された誤り確率値と,外部から設定された誤り確率閾
値または予め定められた誤り確率閾値との大小の比較に
より,誤り候補を抽出する誤り候補抽出手段と,抽出さ
れた誤り候補を出力する誤り表示処理手段とを備えるこ
とを特徴とする文書校正装置。
1. A document proofreading device which points out an error in a text document, calculates an error probability value by a predetermined error probability calculation method for each constituent character or character string of the text, and calculates the respective error probability values. A plurality of error probability calculation means to be provided, an error probability storage means for totaling error probability values obtained from the plurality of error probability calculation means, and determining a final error probability value for each constituent character or character string; and the text Error candidate extraction means for extracting an error candidate by comparing the error probability value given to each of the constituent characters or character strings of 1 above with the error probability threshold value set externally or a predetermined error probability threshold value. And an error display processing means for outputting the extracted error candidates.
【請求項2】 前記誤り確率計算手段の中に,テキスト
を形態素解析して単語列に分割する形態素解析手段と,
分割された単語列のうち,所定の単語辞書に未登録の部
分に対して所定の誤り確率値を付与する未登録語検出手
段と,分割された単語列に対して統語的な特徴を利用し
て未登録語の出現する確率が高い部分を推定し,前記未
登録語検出手段が付与した誤り確率値を低くするような
負の誤り確率値を付与する特定パターン検出手段とを有
することを特徴とする請求項1記載の文書校正装置。
2. A morpheme analyzing means for morpheme analyzing text to divide it into word strings in the error probability calculating means,
Among undivided word strings, unregistered word detection means that gives a predetermined error probability value to unregistered parts in a prescribed word dictionary, and syntactic features of the divided word strings are used. Specific pattern detecting means for estimating a portion having a high probability of appearance of an unregistered word, and giving a negative error probability value that lowers the error probability value given by the unregistered word detecting means. The document proofreading apparatus according to claim 1.
【請求項3】 前記誤り確率計算手段の中に,テキスト
から構成単語を抽出する語彙抽出手段と,抽出された単
語群について単語間の類似度に基づきカテゴリ化を行う
カテゴリ化手段と,同一カテゴリ内の各単語間の類似度
および単語の出現回数に基づいて誤り確率値を付与する
確率付与手段とを有することを特徴とする請求項1記載
の文書校正装置。
3. The error probability calculating means includes a vocabulary extracting means for extracting constituent words from text, a categorizing means for categorizing the extracted word groups based on the similarity between words, and the same category. 2. The document proofreading apparatus according to claim 1, further comprising a probability assigning unit that assigns an error probability value based on the similarity between each word in the word and the number of appearances of the word.
【請求項4】 前記誤り確率計算手段の中に,テキスト
を形態素解析して単語列に分割する形態素解析手段と,
テキストを同種の文字で構成される領域に分割する領域
分割処理手段と,各文字種に対する単語長の予想値を持
ち,同種の文字で構成される各領域内での平均単語長と
前記予想値との差に基づいてその領域に対する誤り確率
を付与する確率付与手段とを有することを特徴とする請
求項1記載の文書校正装置。
4. A morpheme analyzing means for morphologically analyzing text to divide it into word strings in the error probability calculating means,
Area dividing processing means for dividing text into areas composed of characters of the same kind, and an expected value of word length for each character type, and an average word length in each area composed of characters of the same kind and the expected value. 2. The document proofreading apparatus according to claim 1, further comprising a probability assigning unit that assigns an error probability to the area based on the difference between the two.
【請求項5】 テキスト文書における誤りを指摘する文
書校正装置を実現するプログラムが記憶されるプログラ
ム記憶媒体であって,テキストの各構成文字または文字
列に対して所定の誤り確率計算手法により誤り確率値を
計算し,それぞれ計算された誤り確率値を付与する複数
の誤り確率計算手段と,前記複数の誤り確率計算手段か
ら得た誤り確率値を集計し,各構成文字または文字列に
対する最終的な誤り確率値を定める誤り確率保存手段
と,前記テキストの各構成文字または文字列に対して付
与された誤り確率値と,外部から設定された誤り確率閾
値または予め定められた誤り確率閾値との大小の比較に
より,誤り候補を抽出する誤り候補抽出手段と,抽出さ
れた誤り候補を出力する誤り表示処理手段とを実現する
プログラムが記憶されることを特徴とするプログラム記
憶媒体。
5. A program storage medium for storing a program for realizing a document proofreading device for pointing out an error in a text document, wherein the error probability is calculated by a predetermined error probability calculation method for each constituent character or character string of the text. A plurality of error probability calculating means for calculating a value and giving each calculated error probability value, and error probability values obtained from the plurality of error probability calculating means are totaled to obtain a final error for each constituent character or character string. An error probability storage unit that determines an error probability value, an error probability value assigned to each constituent character or character string of the text, an error probability threshold value set from the outside, or a predetermined error probability threshold value. A program that realizes an error candidate extraction unit that extracts an error candidate and an error display processing unit that outputs the extracted error candidate is stored. A program storage medium characterized by the following.
【請求項6】 テキスト文書を校正する文書校正装置に
おいて,テキストの各構成文字または文字列に対して所
定の誤り確率計算手法により計算した誤り確率値によっ
て誤り候補を検出する誤り候補検出手段と,前記誤り候
補検出手段により誤り候補とされた文字列について,所
定の単語辞書に登録されている単語との類似度を計算
し,所定値以上の類似度を持つ場合に一致と判断する単
語比較手段と,前記単語比較手段により誤り候補の文字
列と一致するとされた単語が,誤り候補としての評価を
改善させるものである場合に,その単語を誤り候補の文
字列に対する正解単語と認定する拡張形態素解析手段
と,誤り候補の文字列を含むテキストとともに前記拡張
形態素解析手段が認定した正解単語を表示する誤り表示
処理手段とを備えることを特徴とする文書校正装置。
6. A document proofreading device for proofreading a text document, error candidate detecting means for detecting an error candidate by an error probability value calculated by a predetermined error probability calculation method for each constituent character or character string of text, A word comparison unit that calculates the similarity between a character string that has been determined as an error candidate by the error candidate detection unit and a word registered in a predetermined word dictionary, and determines a match when the similarity is greater than or equal to a predetermined value. And an extended morpheme that recognizes the word as a correct word for the character string of the error candidate when the word that is determined to match the character string of the error candidate by the word comparison means improves the evaluation as the error candidate. And an error display processing unit for displaying the correct word recognized by the extended morpheme analysis unit together with the text including the character string of the error candidate. Document proofreading device characterized by.
【請求項7】 テキスト文書を校正する文書校正装置を
実現するプログラムが記憶されるプログラム記憶媒体で
あって,テキストの各構成文字または文字列に対して所
定の誤り確率計算手法により計算した誤り確率値によっ
て誤り候補を検出する誤り候補検出手段と,前記誤り候
補検出手段により誤り候補とされた文字列について,所
定の単語辞書に登録されている単語との類似度を計算
し,所定値以上の類似度を持つ場合に一致と判断する単
語比較手段と,前記単語比較手段により誤り候補の文字
列と一致するとされた単語が,誤り候補としての評価を
改善させるものである場合に,その単語を誤り候補の文
字列に対する正解単語と認定する拡張形態素解析手段
と,誤り候補の文字列を含むテキストとともに前記拡張
形態素解析手段が認定した正解単語を表示する誤り表示
処理手段とを実現するプログラムが記憶されることを特
徴とするプログラム記憶媒体。
7. A program storage medium for storing a program for realizing a document proofreading device for proofreading a text document, the error probability being calculated by a predetermined error probability calculation method for each constituent character or character string of the text. The error candidate detecting means for detecting an error candidate based on the value and the character string which is the error candidate by the error candidate detecting means are calculated for the degree of similarity with a word registered in a predetermined word dictionary to obtain a value not less than a predetermined value. If the word comparison means that determines that they are similar when they have similarity and the word that is determined to match the character string of the error candidate by the word comparison means improves the evaluation as an error candidate, then that word is selected. The extended morpheme analysis means for recognizing the correct word for the error candidate character string and the extended morpheme analysis means for recognizing the text including the error candidate character string. A program storage medium for storing a program for realizing an error display processing means for displaying a correct answer word.
JP08495197A 1996-04-05 1997-04-03 Document proofing apparatus and program storage medium Expired - Fee Related JP4278011B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08495197A JP4278011B2 (en) 1996-04-05 1997-04-03 Document proofing apparatus and program storage medium

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP8344996 1996-04-05
JP8-83449 1996-04-05
JP08495197A JP4278011B2 (en) 1996-04-05 1997-04-03 Document proofing apparatus and program storage medium

Related Child Applications (3)

Application Number Title Priority Date Filing Date
JP2005357442A Division JP4318223B2 (en) 1996-04-05 2005-12-12 Document proofing apparatus and program storage medium
JP2006207618A Division JP4047895B2 (en) 1996-04-05 2006-07-31 Document proofing apparatus and program storage medium
JP2006207617A Division JP4047894B2 (en) 1996-04-05 2006-07-31 Document proofing apparatus and program storage medium

Publications (2)

Publication Number Publication Date
JPH09325962A true JPH09325962A (en) 1997-12-16
JP4278011B2 JP4278011B2 (en) 2009-06-10

Family

ID=26424468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08495197A Expired - Fee Related JP4278011B2 (en) 1996-04-05 1997-04-03 Document proofing apparatus and program storage medium

Country Status (1)

Country Link
JP (1) JP4278011B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898464B2 (en) 2014-11-19 2018-02-20 Kabushiki Kaisha Toshiba Information extraction supporting apparatus and method
JP2019159814A (en) * 2018-03-13 2019-09-19 大日本印刷株式会社 Information processing device, information processing method, and program
US10444742B2 (en) 2016-02-09 2019-10-15 Kabushiki Kaisha Toshiba Material recommendation apparatus
US10936806B2 (en) 2015-11-04 2021-03-02 Kabushiki Kaisha Toshiba Document processing apparatus, method, and program
US11037062B2 (en) 2016-03-16 2021-06-15 Kabushiki Kaisha Toshiba Learning apparatus, learning method, and learning program
US11481663B2 (en) 2016-11-17 2022-10-25 Kabushiki Kaisha Toshiba Information extraction support device, information extraction support method and computer program product

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898464B2 (en) 2014-11-19 2018-02-20 Kabushiki Kaisha Toshiba Information extraction supporting apparatus and method
US10936806B2 (en) 2015-11-04 2021-03-02 Kabushiki Kaisha Toshiba Document processing apparatus, method, and program
US10444742B2 (en) 2016-02-09 2019-10-15 Kabushiki Kaisha Toshiba Material recommendation apparatus
US11037062B2 (en) 2016-03-16 2021-06-15 Kabushiki Kaisha Toshiba Learning apparatus, learning method, and learning program
US11481663B2 (en) 2016-11-17 2022-10-25 Kabushiki Kaisha Toshiba Information extraction support device, information extraction support method and computer program product
JP2019159814A (en) * 2018-03-13 2019-09-19 大日本印刷株式会社 Information processing device, information processing method, and program

Also Published As

Publication number Publication date
JP4278011B2 (en) 2009-06-10

Similar Documents

Publication Publication Date Title
US6704698B1 (en) Word counting natural language determination
US5913185A (en) Determining a natural language shift in a computer document
US5745602A (en) Automatic method of selecting multi-word key phrases from a document
JP3121568B2 (en) Language identification method and system
US20060229865A1 (en) Method and system for language identification
US8744833B2 (en) Method and apparatus for creating a language model and kana-kanji conversion
JPH10232866A (en) Method and device for processing data
JPH05242138A (en) Word disambiguation device and its method
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US5940532A (en) Apparatus for and method of recognizing hand-written characters
JPH09198409A (en) Extremely similar docuemtn extraction method
JPH10326275A (en) Method and device for morpheme analysis and method and device for japanese morpheme analysis
Tufiş et al. DIAC+: A professional diacritics recovering system
JP3361563B2 (en) Morphological analysis device and keyword extraction device
JP4278011B2 (en) Document proofing apparatus and program storage medium
JP4047895B2 (en) Document proofing apparatus and program storage medium
JP4047894B2 (en) Document proofing apparatus and program storage medium
JP4318223B2 (en) Document proofing apparatus and program storage medium
JP3369127B2 (en) Morphological analyzer
JP6303508B2 (en) Document analysis apparatus, document analysis system, document analysis method, and program
JP3856515B2 (en) Document proofing device
JP3924899B2 (en) Text search apparatus and text search method
JPS62249269A (en) Document processor
JP3241854B2 (en) Automatic word spelling correction device
JP2575947B2 (en) Phrase extraction device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051011

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060530

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060731

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060803

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060825

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080828

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090305

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120319

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140319

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees