JPH079654B2 - Katakana word error detection and correction device - Google Patents

Katakana word error detection and correction device

Info

Publication number
JPH079654B2
JPH079654B2 JP1198692A JP19869289A JPH079654B2 JP H079654 B2 JPH079654 B2 JP H079654B2 JP 1198692 A JP1198692 A JP 1198692A JP 19869289 A JP19869289 A JP 19869289A JP H079654 B2 JPH079654 B2 JP H079654B2
Authority
JP
Japan
Prior art keywords
katakana
word
character
character string
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1198692A
Other languages
Japanese (ja)
Other versions
JPH0362260A (en
Inventor
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1198692A priority Critical patent/JPH079654B2/en
Publication of JPH0362260A publication Critical patent/JPH0362260A/en
Publication of JPH079654B2 publication Critical patent/JPH079654B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、日本文の文書データベース等を作成するにあ
たり、入力された日本文文字列に含まれる片仮名の誤字
や表記の不統一を自動的に検出し、さらに誤字の場合に
は、訂正のための候補文字列を自動的に抽出する片仮名
単語誤り検出訂正装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Industrial field of application] The present invention automatically creates typographical errors and inconsistencies in katakana contained in an input Japanese character string when creating a Japanese document database or the like. The present invention relates to a katakana word error detection and correction device that automatically detects candidate character strings for correction in the case of typographical error.

〔従来の技術〕[Conventional technology]

各種技術や情報の国際化、さらには日本語の変遷などに
伴って、日本語の文書内に片仮名表記の単語が多用され
るようになった。このため、各種マニュアルや科学技術
論文、出版用原稿、事務文書などの日本文の文書を電子
ファイル化する場合に、専門用語や固有名詞あるいは一
部の一般語について片仮名語が頻出し、これに伴って、
作成者の思い違い(誤:インターフェイス/正:インタ
フェース)や日本語ワードプロセッサに代表される文書
入力装置の入力誤り(誤:コンピュター/正:コンピュ
ーター)や漢字OCRに代表される文字認識誤り(誤差:
ピツチ/正:ピッチ)など種々の誤りが発生する。ま
た、誤字ばかりではなく、片仮名単語には文書作成者に
応じた表記のゆらぎも頻発する。たとえば、ファックス
/ファクス/ファクシミリなどはどれも個々の用語とし
ては必ずしも誤りといえないが、同一の意味を示す用語
なので、表記は統一すべきである。
With the internationalization of various technologies and information, as well as the transition of Japanese language, words in katakana notation have been frequently used in Japanese documents. For this reason, when converting Japanese documents such as various manuals, scientific papers, manuscripts for publication, and office documents into electronic files, katakana words frequently appear for technical terms, proper nouns, or some common words. Accompanied by,
Misunderstanding of the creator (wrong: interface / correct: interface), input error of document input device represented by Japanese word processor (erroneous: computer / correct: computer), character recognition error represented by Kanji OCR (error:
Various errors such as pitch / correct: pitch) occur. Moreover, not only typographical errors but also fluctuations in the notation according to the document creator frequently occur in katakana words. For example, fax / fax / facsimile are not necessarily erroneous as individual terms, but since they have the same meaning, the notation should be unified.

従来、こうした状況に対して、人手で行う校正におい
て、片仮名用語の誤りや表記のゆらぎを検出する作業
は、片仮名用語が外来語に由来するものの数が多く、ま
た発音をそのまま片仮名表記する傾向もあるために、漢
字用語や平仮名用語に比べて、 (1)用語の正しい表記をすべて覚えきれない 例:正シミュレート/シュミレート(疑似すること) (2)文字の類似性により誤りが見過ごされやすい 例:正デバグ/デバッグ(プログラムの誤りを検出する
こと) (3)文書中に点在した表記のゆらぎがある用語の抽出
が難しい (4)表記のゆらぎのある用語についてそのゆらぎ表記
と統一表記とをすべて覚えきれないなどの要因により、
片仮名文字の誤りや不統一表記の検出処理や、検出され
た場合での正解の候補単語の抽出処理が困難であり、校
正の精度の低下や処理時間の増大という問題があった。
Conventionally, in such a situation, in the proofreading performed manually, the work of detecting errors in katakana terms and fluctuations in the notation is often due to foreign words in the katakana term, and there is also a tendency to pronounce the katakana as it is. Therefore, compared with kanji terms and hiragana terms, (1) I can't remember all the correct notations of the example. Example: Positive simulation / simulation (mocking) (2) Errors are easily overlooked due to the similarity of the characters. Example: Correct debugging / debugging (to detect program errors) (3) Difficult to extract terms with scattered fluctuations in the document (4) Concerning terms with fluctuations in the notation and unified notation Due to factors such as not being able to remember all
It is difficult to detect errors in katakana characters and unification notation, and to extract correct candidate words when they are detected, and there is a problem that the accuracy of proofreading decreases and the processing time increases.

一方、単語認識の精度向上のために、認識装置の読み取
り結果と正しい用語で構成される認識用辞書とを高速に
照合し、その照合値の度合によって認識誤りを排除する
方式が考案されている(例えば、特願昭61−248415
号)。この方式の文字照合法による訂正手段の処理の流
れを第6図に示す。ここで、101は検出された片仮名の
誤り文字列、102は誤字、103は正字、104は予め作成さ
れた片仮名単語候補列(認識用辞書の一部)、105は照
合値1.0が与えられる文字とその位置、106は照合値0.8
が与えられる文字とその位置で、106を1文字後方に移
動したもの、107は照合値0.8が与えられる文字とその位
置で、105を1文字前方に移動したもの、108は各単語候
補との照合結果、109は評価値、110は評価値が最も高い
単語候補である。
On the other hand, in order to improve the accuracy of word recognition, a method has been devised in which a reading result of a recognition device is collated at high speed with a recognition dictionary composed of correct terms and a recognition error is eliminated based on the degree of the collation value. (For example, Japanese Patent Application No. 61-248415
issue). FIG. 6 shows the flow of processing of the correction means by the character matching method of this system. Here, 101 is an error character string of the detected katakana, 102 is a typographical error, 103 is a normal character, 104 is a previously created katakana word candidate sequence (a part of the recognition dictionary), and 105 is a character to which a matching value of 1.0 is given. And its position, 106 is the matching value 0.8
Is a character and its position where 106 is moved backward by one character, 107 is a character and a position where a matching value is 0.8 and 105 is moved forward by one character, and 108 is each word candidate As a result of the collation, 109 is an evaluation value, and 110 is a word candidate having the highest evaluation value.

この例では、認識結果が101で示す片仮名の誤り文字列
「デコタル」(正解は「デジタル」)であった場合にお
いて、該片仮名文字列を認識結果から抽出して、各文字
の位置に応じた照合値105,106,107をそれぞれ設定す
る。ここで、106,107のように、前後に1文字移動した
文字に対して照合値を付与するのは、誤字のほかに脱字
や誤挿を想定しているからである。この際には、脱字や
誤挿の発生頻度が一般に誤字より低いため、照合値も0.
8と下げてある。こうして照合値を設定した後、認識用
辞書の一部である片仮名単語候補列104のそれぞれの候
補に対して、105,106,107で設定した照合値を一致した
文字位置に応じて付与する。ここで、該当する文字がな
い場合には0を付与する。この後で各候補に対して評価
値(照合値の合計値)109を算出し、評価値が最も高い
単語候補110として「デジタル」を抽出する。
In this example, when the recognition result is a katakana error character string “decoral” (correct answer is “digital”) indicated by 101, the katakana character string is extracted from the recognition result and the position of each character is determined according to the position. Collation values 105, 106, 107 are set respectively. Here, the reason why a collation value is given to a character that is moved forward or backward by one character, such as 106 and 107, is because it is assumed that a missing character or an incorrect character is inserted in addition to the incorrect character. In this case, the collation value is 0 because the occurrence frequency of missing characters and insertion errors is generally lower than that of typographical errors.
It's lowered to 8. After setting the matching value in this way, the matching value set in 105, 106, 107 is given to each candidate of the katakana word candidate sequence 104 which is a part of the recognition dictionary according to the matched character position. Here, 0 is given when there is no corresponding character. After that, an evaluation value (total value of matching values) 109 is calculated for each candidate, and “digital” is extracted as the word candidate 110 having the highest evaluation value.

このように、片仮名文字とその位置に応じた照合値を設
定し、単語候補との照合によって、誤った片仮名単語
「デコタル」に対する訂正候補「デジタル」を抽出する
ことができる。しかし、この方式では、実際の文書に出
現する片仮名単語を対象とする場合には、単語候補が膨
大となり、したがって、照合対象が多数となり、単語候
補の検索時間や照合時間が増大する問題がある。また、
片仮名単語での拗音などに誤りが発生した場合には、文
字の形が異なるため、誤った単語候補を抽出することが
あるという問題がある。
As described above, the correction value “digital” for the incorrect katakana word “decoral” can be extracted by setting the matching value according to the katakana character and its position and matching with the word candidate. However, with this method, when targeting katakana words that appear in an actual document, the number of word candidates becomes enormous, so that the number of matching targets becomes large and the search time and matching time of word candidates increase. . Also,
When an error occurs in the sound of a katakana word, there is a problem that the wrong word candidate may be extracted because the characters have different shapes.

拗音の誤り発生による誤った訂正候補抽出の事例を第7
図に示す。ここで、「×」印の111は誤って抽出された
単語候補である。この例は、日本語ワードプロセッサの
ローマ字入力の片仮名漢字変換で頻繁に発生する拗音へ
の誤りの場合である。すなわち、「ソ(SO)」と「ショ
(SYO)」は入力時の1つのキー操作の誤りで発生し、
かつ文字の形が全く異なるために、「ショ」を含む片仮
名単語候補の方が「ソ」を含む片仮名単語候補より高い
評価値が与えられ、正解語の「ソリッド」が上位で抽出
されず誤った単語候補を抽出することとなる。
The 7th case of incorrect correction candidate extraction due to the generation of goose
Shown in the figure. Here, 111 of "x" mark is a word candidate extracted by mistake. This example is for the case of an error in the sound of chorus, which occurs frequently in Katakana-to-Kanji conversion of Roman alphabet input in a Japanese word processor. In other words, “SO” and “SYO” are caused by one key operation error during input,
Moreover, because the character shape is completely different, the Katakana word candidate containing "SHO" is given a higher evaluation value than the Katakana word candidate containing "SO", and the correct word "Solid" is not extracted at the top and is incorrect. The word candidates that have been extracted will be extracted.

さらに、文書中には、同一の片仮名単語を何度も使用す
る場合が多いが、この際には同一の意味の片仮名単語で
も、その表記にゆらぎがあるものを適当に使用してしま
うことがある。たとえば、ファックス/ファクス/ファ
クシミリなどは同一の意味を示す用語なので、表記は統
一するべきである。しかし、どの片仮名単語表記も個々
には正しい表記であり、誤りとしては検出されないこと
から、従来は表記のゆらぎによる片仮名単語の誤りの検
出ができず、これに伴って訂正候補を抽出することがで
きなかった。
In addition, the same katakana word is often used in a document many times, but in this case, even if the katakana word with the same meaning has fluctuation in its notation, it may be properly used. is there. For example, fax / fax / facsimile etc. have the same meaning, so the notation should be unified. However, any katakana word notation is a correct notation, and since it is not detected as an error, conventionally it is not possible to detect the error of the katakana word due to the fluctuation of the notation, and it is possible to extract the correction candidate accordingly. could not.

〔発明が解決しようとする課題〕[Problems to be Solved by the Invention]

以上のように、従来は片仮名単語の候補の増大に伴い、
人手での誤りの検出精度や訂正候補の抽出精度の低下や
処理時間の増大、という校正作業の負荷となる問題があ
った。また、片仮名文字列を正しい片仮名単語の候補辞
書と高速に照合することにより訂正候補を抽出する方式
では、実際の文書に出現する片仮名単語を対象とする場
合に単語候補が膨大となり単語候補の検索時間や照合時
間などの処理時間が増大するという問題、あるいは拗音
などに誤りが発生した場合の訂正候補の抽出精度が低下
するという問題があった。さらに、表記にゆらぎがある
片仮名単語に対する訂正候補の抽出ができないという問
題があった。
As described above, conventionally, with the increase in the number of katakana word candidates,
There has been a problem that the accuracy of manual error detection and the accuracy of extraction of correction candidates are reduced and the processing time is increased, which is a burden on the calibration work. In addition, in the method of extracting correction candidates by collating the katakana character string with a candidate dictionary of correct katakana words at high speed, when the katakana words that appear in the actual document are targeted, the number of word candidates becomes enormous and the word candidates are searched. There has been a problem that the processing time such as time and matching time increases, or that the accuracy of extraction of correction candidates decreases when an error occurs in jumble. Furthermore, there is a problem that correction candidates cannot be extracted for katakana words that have fluctuations in the notation.

本発明の目的は、上記従来の問題点を解決し、処理速度
の向上および訂正精度の向上を図った片仮名単語誤り検
出訂正装置を提供することにある。
It is an object of the present invention to provide a Katakana word error detection and correction device which solves the above-mentioned conventional problems and improves processing speed and correction accuracy.

〔課題を解決するための手段〕[Means for Solving the Problems]

上記の目的を実現するために、本発明の片仮名単語誤り
検出訂正装置においては、入力された日本文文字列に対
して日本語単語辞書および文法辞書を用いて単語分割お
よび品詞認定を行う形態素解析手段と、上記単語分割お
よび品詞認定により認識された片仮名文字列からなる片
仮名単語を、その分割情報と認定情報とともに抽出する
片仮名単語抽出手段と、日本語単語辞書に該当の片仮名
単語がない場合や文法的な接続関係がない場合を認識し
て、片仮名単語の誤りを検出する片仮名単語誤り検出手
段と、訂正候補となる片仮名単語について文字列を構成
する連続の2文字とその位置をキーとする片仮名単語候
補辞書を予め作成する手段と、誤り検出された片仮名文
字列とこの文字列を前後に1文字ずらした文字列とで隣
合う全ての組み合せの片仮名2文字とその位置をキーと
して、片仮名単語候補辞書を検索して、正解の片仮名単
語を含む第1次の訂正候補群を抽出する片仮名単語訂正
候補群抽出手段と、誤り検出された片仮名文字列と前記
抽出した片仮名単語訂正候補群について、それぞれ片仮
名の文字列をローマ字に変換し、さらに子音列と母音列
の記号列に分離する片仮名単語子音母音分離手段と、誤
り検出された片仮名文字列と前記抽出した片仮名単語訂
正候補群について、子音列と母音列とに分離された記号
列を別々に前方および後方から照合し照合値を求める片
仮名単語照合手段と、照合値が予め設定した値より高い
場合に、抽出した片仮名単語訂正候補を正解候補として
選択する片仮名単語候補選択手段とを備えることを特徴
とする。
In order to achieve the above-mentioned object, in a katakana word error detection and correction device of the present invention, a morphological analysis for performing word division and part-of-speech recognition on an input Japanese sentence character string using a Japanese word dictionary and a grammar dictionary. A means, a katakana word extracting means for extracting a katakana word consisting of a katakana character string recognized by the word division and part-of-speech recognition together with the division information and the certification information, and when there is no corresponding katakana word in the Japanese word dictionary, Katakana word error detection means for recognizing an error in a katakana word by recognizing the case where there is no grammatical connection, and two consecutive characters forming the character string of the katakana word as a correction candidate and its position are used as keys. All combinations of a Katakana word candidate dictionary created in advance, a Katakana character string in which an error is detected, and a character string obtained by shifting this character string by one character before and after Katakana word correction candidate group extracting means for extracting the primary correction candidate group including the correct katakana word by using the two katakana characters and their positions as keys, and the katakana word in which the error is detected. For the character string and the extracted Katakana word correction candidate group, the Katakana word consonant vowel separating means for converting the Katakana character string into Roman letters and further separating it into the consonant string and the vowel string symbol string, and the Katakana character in which the error is detected. With respect to the column and the extracted katakana word correction candidate group, a katakana word collating means for collating a symbol string separated into a consonant sequence and a vowel sequence separately from the front and the back to obtain a collation value, and a collation value set in advance. And a katakana word candidate selecting unit that selects the extracted katakana word correction candidate as a correct answer candidate when the value is higher.

さらに、文書中で表記のゆらぎがある片仮名単語にし
て、文書入力装置により入力された日本文文字列から、
片仮名文字列を抽出する片仮名文字列抽出手段と、抽出
された片仮名文字列をローマ字に変換し、さらに子音列
と母音列の記号列を分離する片仮名文字列子音母音分離
手段と、抽出された相互の片仮名文字列について、それ
ぞれ片仮名文字列の子音列と母音列とに分離された記号
列を別々に前方および後方から照合し照合値を求める手
段と、照合する相互の文字列が同一ではない場合で、か
つ照合値が予め設定した値より高い場合に、抽出した片
仮名文字列の間に片仮名単語の表記の不統一があると検
出する手段とを備えることを特徴とする。
Furthermore, from the Japanese sentence character string input by the document input device to a katakana word with fluctuations in the document,
Katakana character string extraction means for extracting the katakana character string, katakana character string consonant vowel separation means for converting the extracted katakana character string into Roman letters, and further separating the consonant string and the vowel string symbol string, and the extracted mutual For the Katakana character string of No., if the concatenation string and the vowel string of the Katakana character string are separately collated from the front and the back to obtain the collation value, and the collated character strings are not the same In addition, when the matching value is higher than a preset value, there is provided means for detecting that the katakana word notation is inconsistent between the extracted katakana character strings.

〔作用〕[Action]

本発明においては、片仮名単語に混入する入力誤りや文
字認識誤りを訂正するために、訂正候補となる片仮名単
語について文字列を校正する連続の2文字とその位置を
キーとする片仮名単語候補辞書を予め作成し、認定結果
が未知語であることにより検出された片仮名文字列とこ
の文字列を前後に1文字ずらした文字列とで隣合う全て
の組み合わせの片仮名2文字とその位置をキーとして、
片仮名単語候補辞書を検索して、該当の正解の片仮名単
語を含む第1次の訂正候補群を抽出し、さらに検出され
た片仮名文字列と前記抽出した片仮名単語候補群につい
て、それぞれ片仮名の文字列をローマ字に変換し、さら
に子音列と母音列の記号列に分離して、分離された記号
列を別々に前方および後方から照合し照合値を算出し
て、照合値が予め設定した値より高い場合に、抽出した
片仮名単語訂正候補が正解候補として選択する。
In the present invention, in order to correct an input error and a character recognition error mixed in a katakana word, a katakana word candidate dictionary having two consecutive characters and its position as a key for correcting a character string of a katakana word that is a correction candidate is used. Created in advance, the katakana character string detected by the fact that the recognition result is an unknown word and the character string obtained by shifting this character string by one character before and after are all two combinations of katakana characters and their positions as keys,
The Katakana word candidate dictionary is searched to extract a first-order correction candidate group including the correct correct Katakana word, and the detected Katakana character string and the extracted Katakana word candidate group are each a Katakana character string. Is converted to Roman letters and is further separated into consonant and vowel symbol strings, and the separated symbol strings are collated separately from the front and the back to calculate the collation value, and the collation value is higher than the preset value. In this case, the extracted katakana word correction candidate is selected as the correct answer candidate.

さらに、文書中で表記のゆらぎがある片仮名単語に対し
て、文書中の片仮名文字列を抽出し、抽出されたそれぞ
れの片仮名文字列をローマ字に変換し、さらに子音列と
母音列の記号列に分離し、それぞれの子音列と母音列と
に分離された記号列を別々に前方および後方から照合し
照合値を算出して、照合する相互の文字列が同一ではな
い場合で、かつ照合値が予め設定した値より高い場合
に、抽出した片仮名文字列の間に片仮名単語の表記の不
統一があることを検出する。
Furthermore, for katakana words that have fluctuations in the document, extract the katakana character strings in the document, convert each of the extracted katakana character strings to romaji, and then convert them into consonant and vowel string symbols. Separate the symbol strings separated into consonant strings and vowel strings separately from the front and back to calculate the matching value, and if the matching character strings are not the same, and the matching value is When the value is higher than a preset value, it is detected that the katakana word notation is inconsistent between the extracted katakana character strings.

これにより、日本語ワードプロセッサなどの文書入力装
置の入力誤りや文字認識誤りや作成者の思い違いなどに
よって混入する誤りのうち、人手では校正が困難である
片仮名単語の誤りを検出し、拗音などを含む場合でも訂
正精度が高い訂正候補の抽出が可能となり、しかも少な
くとも1箇所以上の2文字部分が一致する訂正候補を照
合すべき第1次の訂正候補群として絞り込むので、処理
速度を大幅に向上させることができる。さらに、入力さ
れた文書に含まれる片仮名単語の表記の不統一を検出
し、訂正候補の抽出を行うので、人手による表記の不統
一の校正作業の負荷の軽減と訂正精度の向上を図ること
ができる。
As a result, it detects errors in Katakana words that are difficult to proofread manually, including errors, among input errors in document input devices such as Japanese word processors, character recognition errors, and mistakes made by the creator. Even in this case, it is possible to extract correction candidates with high correction accuracy, and moreover, correction candidates in which at least one or more two character parts match are narrowed down as a primary correction candidate group to be collated, so that the processing speed is greatly improved. be able to. Furthermore, it detects the inconsistency in the notation of katakana words contained in the input document and extracts correction candidates, so it is possible to reduce the load of the proofreading work of the inconsistency in the notation and improve the correction accuracy. it can.

〔実施例〕〔Example〕

以下、本発明の一実施例について図面により説明する。 An embodiment of the present invention will be described below with reference to the drawings.

第1図は、本発明の一実施例を示す片仮名単語誤り検出
訂正装置のブロック図である。第1図において、10は文
書入力装置、20はCPUおよびメモリからなる処理装置、3
0は日本語単語辞書、40は文法辞書、50は片仮名2文字
とその位置をキーとする片仮名単語候補辞書、60は誤り
訂正済み文書である。CPU/メモリからなる処理装置20
は、処理機能上、入力処理部21と、辞書30および40を用
いて単語分割および品詞認定を行う形態素解析処理部22
と、該形態素解析処理部22の単語分割および品詞認定を
用いた片仮名単語抽出処理部23と、片仮名単語の誤りを
検出する片仮名単語誤り検出処理部24と、片仮名単語候
補辞書50を検索して第1次の訂正候補群を抽出する片仮
名単語訂正候補群抽出処理部25と、片仮名の文字列をロ
ーマ字に変換し、さらに子音列と母音列の記号列に分離
する片仮名単語子音母音分離処理部26と、子音列と母音
列とに分離された記号列を照合して照合値を抽出する片
仮名単語照合処理部27と、正解候補として選択する片仮
名単語候補選択処理部28とに分けられる。
FIG. 1 is a block diagram of a katakana word error detection / correction apparatus showing an embodiment of the present invention. In FIG. 1, 10 is a document input device, 20 is a processing device composed of a CPU and a memory, and 3
0 is a Japanese word dictionary, 40 is a grammar dictionary, 50 is a Katakana word candidate dictionary with two katakana characters and their positions as keys, and 60 is an error-corrected document. CPU / memory processor 20
In terms of processing function, is a morphological analysis processing unit 22 that performs word division and part-of-speech recognition using the input processing unit 21 and dictionaries 30 and 40.
And a Katakana word extraction processing unit 23 using word division and part-of-speech recognition of the morpheme analysis processing unit 22, a Katakana word error detection processing unit 24 for detecting an error in a Katakana word, and a Katakana word candidate dictionary 50. A Katakana word correction candidate group extraction processing unit 25 for extracting the first correction candidate group, and a Katakana word consonant vowel separation processing unit for converting a Katakana character string into Roman characters and further separating it into a consonant string and a vowel string symbol string. 26, a katakana word matching processing unit 27 that matches a symbol string separated into a consonant string and a vowel string to extract a matching value, and a Katakana word candidate selection processing unit 28 that selects a correct answer candidate.

処理装置20では、入力処理部21において、文書入力装置
10より、入力された文字コードを処理可能な日本文文字
列に変換した後、日本語単語辞書30および文法辞書40を
用いて形態素解析部22により単語分割および品詞認定を
行う。この単語分割および品詞認定結果について、片仮
名単語抽出処理部23において、片仮名文字列からなる片
仮名単語を該分割情報と認定情報とともに抽出し、片仮
名単語誤り検出処理部24で、日本語単語辞書30に該当の
片仮名単語がない場合や文法的な接続関係がない場合に
発生する未知語認定結果を用いて片仮名単語の誤りを検
出する。
In the processing device 20, in the input processing unit 21, the document input device
After converting the input character code into a processable Japanese character string from 10, the morphological analysis unit 22 uses the Japanese word dictionary 30 and the grammar dictionary 40 to perform word division and part-of-speech recognition. With respect to this word division and part-of-speech recognition result, in the katakana word extraction processing unit 23, a Katakana word consisting of a Katakana character string is extracted together with the division information and the certification information, and in the Katakana word error detection processing unit 24, the Japanese word dictionary 30 An error in a katakana word is detected using the unknown word recognition result that occurs when there is no corresponding katakana word or when there is no grammatical connection relationship.

一方、訂正候補となる片仮名単語について文字列を構成
する連続の2文字とその位置をキーとする片仮名単語候
補辞書50を予め作成しておく。
On the other hand, a Katakana word candidate dictionary 50 is prepared in advance using two consecutive characters that form a character string and the position of the Katakana word that is a correction candidate as a key.

片仮名単語訂正候補群抽出処理部25において、片仮名単
語誤り検出処理部24で誤りの検出された片仮名文字列と
この文字列を前後に1文字ずらした文字列とで隣合う全
ての組み合わせの片仮名2文字とその位置をキーとし
て、片仮名単語候補辞書50を検索して正解の片仮名単語
を含む第1次の訂正候補群を抽出する。次に、片仮名単
語誤り検出処理部24で検出された片仮名文字列と片仮名
単語訂正候補群抽出処理部25で抽出した第1次の片仮名
単語の訂正候補群について、片仮名単語子音母音分離処
理部26において、それぞれ片仮名の文字列をローマ字に
変換し、さらに子音列と母音列の記号列に分離し、さら
に片仮名単語照合処理部27において、分離された子音お
よび母音の各記号列を別々に前方および後方から照合し
照合値を算出する。そして、片仮名単語候補選択処理部
28において、照合値が予め設定した値より高い場合に、
抽出した片仮名単語訂正候補を正解候補として選択し
て、誤り訂正済み文書60を作成する。
In the Katakana word correction candidate group extraction processing unit 25, the Katakana character string in which an error is detected by the Katakana word error detection processing unit 24 and the character string obtained by shifting the character string by one character before and after the character string are all adjacent to each other. The katakana word candidate dictionary 50 is searched using the characters and their positions as keys to extract a first-order correction candidate group including correct katakana words. Next, regarding the katakana character string detected by the katakana word error detection processing section 24 and the correction candidate group of the primary katakana word extracted by the katakana word correction candidate group extraction processing section 25, the katakana word consonant vowel separation processing section 26. In, each Katakana character string is converted to Roman letters, further separated into consonant strings and vowel string symbol string, further, in the Katakana word matching processing unit 27, each separated consonant and vowel symbol string separately forward and. The collation value is calculated by collating from the back. And a katakana word candidate selection processing unit
In 28, if the matching value is higher than the preset value,
The extracted katakana word correction candidate is selected as the correct answer candidate, and the error-corrected document 60 is created.

第2図は、第1図における第1次の片仮名単語訂正候補
群を抽出する片仮名単語候補群抽出処理部25の処理の具
体例を示す説明図である。
FIG. 2 is an explanatory diagram showing a specific example of the processing of the katakana word candidate group extraction processing unit 25 for extracting the primary katakana word correction candidate group in FIG.

第2図において、101は検出された片仮名の誤り文字
列、102は誤字、103は正字である。121は第1次の訂正
候補群の抽出用文字列、121−1は誤り文字列101からそ
のまま抽出した文字列、121−2は121−1を前方に1文
字移動した文字列、121−3は121−1を後方に1文字移
動した文字列である。122は121−1と121−2と121−3
の各文字について隣合う全ての2文字の組み合せから抽
出した片仮名2文字とその位置とからなり、片仮名単語
候補辞書50を検索するキーとなる訂正候補検索用データ
である。123は122の片仮名2文字部分、124は123の先頭
の文字の文字位置、123−1〜123−3と124−1〜124−
3はそれぞれの訂正候補検索用データの一部である。13
0は片仮名単語候補辞書50のキー部、131は片仮名単語の
見出し部、131−1は本例で抽出された第1次の訂正候
補群、131−2は抽出されなかった片仮名単語候補、132
は片仮名単語候補辞書のキー部130の片仮名2文字部
分、133はキー部130の文字位置、134はキー部130で示す
片仮名単語の見出し部131へのポインタである。135は抽
出された第1次の片仮名単語訂正候補群である。
In FIG. 2, 101 is an error character string of the detected katakana, 102 is a typographical error, and 103 is an orthographic character. 121 is a character string for extraction of the primary correction candidate group, 121-1 is a character string directly extracted from the error character string 101, 121-2 is a character string obtained by moving 121-1 forward by one character, 121-3 Is a character string obtained by moving 121-1 backward by one character. 122 is 121-1, 121-2 and 121-3
It is correction candidate search data which is a key for searching the Katakana word candidate dictionary 50, which is composed of two Katakana characters extracted from a combination of all two adjacent characters and their positions. 123 is the two-character part of the katakana of 122, 124 is the character position of the first character of 123, 123-1 to 123-3 and 124-1 to 124-
Reference numeral 3 is a part of each correction candidate search data. 13
0 is the key part of the katakana word candidate dictionary 50, 131 is the heading part of the katakana word, 131-1 is the primary correction candidate group extracted in this example, 131-2 is the katakana word candidate not extracted, 132
Is a two-character katakana character portion of the key portion 130 of the katakana word candidate dictionary, 133 is a character position of the key portion 130, and 134 is a pointer to the heading portion 131 of the katakana word indicated by the key portion 130. Reference numeral 135 denotes the extracted primary katakana word correction candidate group.

ここでは、検出された片仮名文字列について照合処理の
対象となる少数の第1次の片仮名単語訂正候補群を片仮
名単語候補辞書50より抽出する処理を説明する。
Here, a process of extracting from the katakana word candidate dictionary 50 a small number of first-order katakana word correction candidate groups that are targets of the collation process for the detected katakana character string will be described.

まず、検出された片仮名文字列101の「モダニブヌ」か
ら片仮名単語候補辞書50を検出するためのキーとして訂
正候補検索用データ122を作成する。このために、片仮
名文字列121−1の「モダニブヌ」と該文字列121−1を
前方に1文字移動した文字列121−2の「ダニブヌ」と
文字列121−1を後方に1文字移動した文字列121−3の
「△モダニブヌ」(△は空白文字)を訂正候補抽出用デ
ータ121として作成し、隣合う全ての組み合せの片仮名
2文字とその先頭の文字位置からなる訂正候補検索用デ
ータ122を抽出する。
First, the correction candidate search data 122 is created as a key for detecting the katakana word candidate dictionary 50 from the “modanibunu” of the detected katakana character string 101. For this reason, "modanibunu" of the katakana character string 121-1 and the character string 121-1 were moved forward by one character, and "danibnu" of the character string 121-2 and the character string 121-1 were moved backward by one character. “Δmodanibunu” (Δ is a blank character) of the character string 121-3 is created as the correction candidate extraction data 121, and the correction candidate search data 122 consisting of two adjacent katakana characters and the position of the leading character 122 of all combinations. To extract.

たとえば、121−2の第1文字目「ダ」はその2文字の
組み合せとして「ダニ」、「ダダ」、「ダモ」があり、
この中の123−1の「ダニ」はその先頭の文字の文字位
置が第1文字なので、124−1は「1」となる。同様
に、121−1の第1文字目「モ」はその2文字の組み合
わせとして「モニ」、「モダ」、「モモ」があり、この
中の123−2の「モダ」はその先頭の文字の文字位置が
第1文字なので、124−2は「1」となる。また同様
に、121−2の第2文字目「ニ」はその2文字の組み合
せとして「ニブ」、「ニニ」、「ニダ」があり、この中
の123−3の「ニブ」はその先頭の文字の文字位置は第
2文字なので、124−3は「2」となる。
For example, the first character "Da" in 121-2 has "Dani", "Dada", and "Damo" as the combination of the two characters.
The character position of the leading character of 123-1 "Dani" is the first character, so 124-1 becomes "1". Similarly, the first character “MO” of 121-1 is “MONI”, “MODA”, and “MOMO” as the combination of the two characters, and the “MODA” of 123-2 in this is the first character. Since the character position of is the first character, 124-2 becomes "1". Similarly, the second character “ni” of 121-2 has “nib”, “nii”, and “nida” as the combination of the two characters, and the “nib” of 123-3 in this is the beginning of that. Since the character position of the character is the second character, 124-3 is “2”.

第2図では、訂正候補検索用データ122において、文字
位置の違いに応じて123,124をずらして表示している。
ここで、訂正候補抽出用文字列121を作成するために、
検出された文字列101を前後に1文字ずらしているの
は、検出された文字列が誤字ばかりではなく、脱字や誤
挿や文字置換を含んでいる可能性があり、これを考慮し
て訂正候補群を網羅的に検索する必要があるからであ
る。
In FIG. 2, correction candidate search data 122 is displayed with 123 and 124 shifted according to the difference in character position.
Here, in order to create the correction candidate extraction character string 121,
Shifting the detected character string 101 by 1 character before and after is because the detected character string may not only contain typographical errors but may also include missing characters, erroneous insertions, and character replacements. This is because it is necessary to comprehensively search the candidate group.

次に、抽出された訂正候補検索用データ122を使用して
片仮名単語候補辞書50を検索する。たとえば、123−2
の「モダ」と124−2の「1」の場合、1文字目からの
2文字「モダ」をキーとして片仮名単語候補辞書50を検
索するので、本例では、「モダニスト」、「モダニズ
ム」、「モダニティー」、「モダンマダム」の4個の訂
正候補131−1を抽出できる。同様に、訂正候補検索用
データ122の全ての2文字およびその文字位置情報をキ
ーとして片仮名単語候補辞書50を検索することにより、
第1次の訂正候補群135を抽出できる。ここで、131−2
の「モーメント」は訂正候補検索用データと全く関連し
ないので抽出されない。
Next, the katakana word candidate dictionary 50 is searched using the extracted correction candidate search data 122. For example, 123-2
In the case of “moda” and “1” of 124-2, since the katakana word candidate dictionary 50 is searched using the two characters “moda” from the first character as a key, in this example, “modernist”, “modernism”, The four correction candidates 131-1 of "modality" and "modern madam" can be extracted. Similarly, by searching the katakana word candidate dictionary 50 using all two characters of the correction candidate search data 122 and the character position information thereof as keys,
The primary correction candidate group 135 can be extracted. Where 131-2
The “moment” is not related to the correction candidate search data and is not extracted.

このように、照合処理の対象となる片仮名単語候補を少
なくとも1箇所以上の2文字部分が一致することに限定
して検索し、絞り込むことができるので、従来の人手に
よる処理や計算機による全ての片仮名単語候補の検索を
前提とした照合に比べて、検索時間を大幅に削減するこ
とができ、また、処理精度を向上させることができる。
In this way, since it is possible to search for and narrow down at least one or more two-letter parts of the katakana word candidates that are the target of the matching process, it is possible to perform conventional manual processing and computer-based all katakana The search time can be significantly reduced, and the processing accuracy can be improved, as compared with the collation based on the search of word candidates.

第3図は、第1図における片仮名単語訂正候補を照合し
正解候補を選択するための片仮名単語子音母音分離処理
部26、片仮名単語照合処理部27及び片仮名候補選択処理
部28の処理の具体例を示す説明図である。
FIG. 3 is a specific example of the processing of the Katakana word consonant vowel separation processing unit 26, the Katakana word matching processing unit 27, and the Katakana candidate selection processing unit 28 for matching the Katakana word correction candidates and selecting the correct answer candidate in FIG. FIG.

第3図において、101は検出された片仮名の誤り文字
列、102は誤字、103は正字である。141は片仮名文字か
ら子音と母音の記号列を分離するための変換テーブルで
ある。142は検出された片仮名文字列01の分離対象文
字、143は子音記号列、144は母音記号列である。145は
片仮名単語候補である。146は各候補との前方からの照
合、147は各候補との後方からの照合、148は子音記号列
の照合、149は母音記号列の照合を示している。150は記
号列の一致の結果であり、150−1は一致した箇所、150
−2は先頭から全く一致しない箇所、151は子音記号列
の一致した文字列による照合値、152は前方からの照合
における照合値の合計、153は照合対象の記号列数、154
は総合照合値である。155は総合照合値により選択され
た訂正候補である。
In FIG. 3, 101 is an error character string of the detected katakana, 102 is a typographical error, and 103 is an orthographic character. 141 is a conversion table for separating consonant and vowel symbol strings from Katakana characters. 142 is a character to be separated of the detected katakana character string 01, 143 is a consonant symbol string, and 144 is a vowel symbol string. 145 is a katakana word candidate. Reference numeral 146 indicates matching with each candidate from the front side, 147 indicates matching with each candidate from the rear, 148 indicates matching of consonant symbol strings, and 149 indicates matching of vowel symbol strings. 150 is the result of matching the symbol strings, 150-1 is the matching part, 150
-2 is a portion that does not match at all from the beginning, 151 is a matching value by the matched character string of the consonant symbol string, 152 is the total matching value in the matching from the front, 153 is the number of matching target symbol strings, 154
Is the total matching value. Reference numeral 155 is a correction candidate selected by the total matching value.

ここで、検出された片仮名文字列101の「ショリッド」
と抽出した第1の片仮名単語候補群(本例では、「ショ
ッピング」と「ソリッド」)について、それぞれ片仮名
の文字列をローマ字に変換し、さらに子音列と母音列の
記号列に分離して、分離された子音記号列と母音記号列
について前方および後方から別々に照合し、照合値を算
出して、候補ごとの総合照合値154を求める。たとえ
ば、子音列と母音列として、それぞれ「ソリッド」から
「SYRD」「OIO」、訂正候補の「ショッピング」から「S
YPNG」「OIU」、「ソリッド」から「SYD」「OIO」が変
換分離される。さらに、146で前方からの照合、147で後
方からの照合を行い、一致した数を照合値として算出す
る。全く一致しない場合には0.0となる。次に、照合の
度合を示す総合評価値154を次式で求める。
Here, "Shorid" of the detected katakana character string 101
With respect to the extracted first katakana word candidate group (in this example, “shopping” and “solid”), the katakana character strings are converted into roman letters, and further separated into consonant strings and vowel string symbols, The consonant symbol sequence and the vowel symbol sequence that have been separated are collated separately from the front and the rear, and a collation value is calculated to obtain a total collation value 154 for each candidate. For example, as a consonant sequence and a vowel sequence, “Solid” to “SYRD” “OIO”, and correction candidates “Shopping” to “S”, respectively.
"SYD" and "OIO" are converted and separated from "YPNG", "OIU", and "solid". Furthermore, the collation from the front is performed in 146, and the collation from the rear is performed in 147, and the number of coincidences is calculated as a collation value. If there is no match, it will be 0.0. Next, a comprehensive evaluation value 154 indicating the degree of matching is obtained by the following formula.

この結果、総合照合値が予め設定した値より高い場合
(本例では、1.0)に、片仮名単語訂正候補として選択
する。本例では、「ソリッド」が総合照合値1.5である
ので、155として選択される。
As a result, when the total matching value is higher than the preset value (1.0 in this example), it is selected as a katakana word correction candidate. In this example, since “solid” has a total collation value of 1.5, it is selected as 155.

このように、従来の文字の形による単語照合の方法で対
処できなかった拗音を含む片仮名単語の誤りについて
も、訂正候補ときめ細かく照合することによって正解の
訂正候補を選択することができ、訂正精度を向上させる
ことができる。
In this way, even for errors in katakana words that include a syllabary that could not be dealt with by the conventional word matching method using character shapes, correct candidates can be selected by finely matching the correction candidates, and the correction accuracy can be selected. Can be improved.

第4図は本発明の他の実施例を示すブロック図で、片仮
名単語の表記の不統一検出の機能を有する片仮名単語誤
り検出訂正装置を示したものである。第4図において、
10は文書入力装置、20はCPUおよびメモリからなる処理
装置である。ここで、処理装置20は、処理機能上、入力
処理部21と、入力された文書の文字列の中から片仮名文
字列を抽出する片仮名文字列抽出処理部23′と、片仮名
の文字列をローマ字に変換しさらに子音列と母音列の記
号列に分離する片仮名単語子音母音分離処理部26と、子
音列と母音列とに分離された記号列を照合して照合値を
算出する片仮名単語照合処理部27と、片仮名単語の表記
の不統一を検出する片仮名単語表記不統一検出処理部29
とに分けられる。
FIG. 4 is a block diagram showing another embodiment of the present invention, showing a katakana word error detection / correction device having a function of detecting inconsistency of notation of katakana words. In FIG.
Reference numeral 10 is a document input device, and 20 is a processing device including a CPU and a memory. Here, in terms of processing functions, the processing device 20 includes an input processing unit 21, a Katakana character string extraction processing unit 23 ′ for extracting a Katakana character string from a character string of an input document, and a Roman character for the Katakana character string. Katakana word concatenation processing that calculates the matching value by matching the katakana word consonant vowel separation processing unit 26 that is converted to and further separated into the consonant string and the vowel string symbol string and the symbol string separated into the consonant string and the vowel string. Section 27 and katakana word notation inconsistency detection processing section 29 for detecting inconsistency in notation of katakana words
Can be divided into

処理装置20では、入力処理部21において、文書入力装置
10より入力された文字コードを処理可能な日本文文字列
に変換した後、片仮名文字列を片仮名文字列抽出処理部
23′において抽出する。この抽出された片仮名文字列の
すべてについて、まず、片仮名単語子音母音分離処理部
26において、それぞれ片仮名の文字列をローマ字に変換
し、さらに子音列と母音列の記号列に分離し、次に、片
仮名単語照合処理部27において、この分離された子音お
よび母音の各記号列を前方および後方から照合して照合
値を算出する。そして、片仮名単語表記不統一検出処理
部29において、照合する相互の文字列が同一でない場合
で、かつ照合値が予め設定した値より高い場合に、抽出
した片仮名文字列の間に表記の不統一の可能性があるこ
とを検出する。
In the processing device 20, in the input processing unit 21, the document input device
After converting the character code input from 10 into a Japanese character string that can be processed, the Katakana character string extraction unit
Extract at 23 '. For all of the extracted Katakana character strings, first, the Katakana word consonant vowel separation processing unit
In 26, each of the katakana character strings is converted into Roman letters, and further separated into consonant and vowel character symbol strings, and then in the katakana word matching processing section 27, the separated consonant and vowel symbol strings are separated. The collation value is calculated by collating from the front and the rear. Then, in the katakana word notation inconsistency detection processing unit 29, when the mutual character strings to be collated are not the same and when the collation value is higher than a preset value, the notation is not uniform between the extracted katakana character strings. To detect the possibility of

第5図は、第4図における片仮名単語の表記の不統一を
検出する処理の具体例を示す説明図である。
FIG. 5 is an explanatory diagram showing a specific example of the processing for detecting the inconsistency of the notation of the katakana word in FIG.

第5図において、161は入力された日本文文字列から抽
出された片仮名文字列、162は表記の不統一に対する正
字、163は各片仮名文字列から変換分離された子音の記
号列、164は変換分離された母音の記号列、165は処理例
である。
In FIG. 5, 161 is a katakana character string extracted from the input Japanese sentence character string, 162 is an orthography for unification of notations, 163 is a consonant symbol string converted from each katakana character string, and 164 is converted A symbol string 165 of the separated vowels is a processing example.

この例は、入力された文書中に片仮名文字列として「ホ
トグラフ」や「カットグラス」などの正しい表記の片仮
名単語と「フォトグラク」のように表記のゆらぎ「フォ
ト」「ホト」(正解:ホト)や誤字「グラク」(正解:
グラフ)を含む単語が存在している場合である。この場
合でも、入力された片仮名単語を子音と母音の記号列に
分離して照合することによって、「フォトグラフ」は
「ホトグラク」とは、総合照合値が1.0(実施例では、
表記のゆらぎとみなう照合値の設定値を1.0とする)な
ので、片仮名単語の表記のゆらぎによる表記不統一であ
ることがわかる。しかし、「カットグラス」と「フォト
グラク」あるいは「ホトグラフ」とは総合照合値がそれ
ぞれ0.4なので、類似の度合は低く全く異なる単語であ
ることがわかる。このように、入力された文書に含まれ
る点在する片仮名単語の表記の不統一を、たとえそれが
誤りでなくても片仮名単語候補辞書を検索する処理を行
わず、その文書中から抽出された片仮名文字列同士の照
合によって検出するとができるので、片仮名単語の不統
一表記の検出精度、処理効率を向上させることができ
る。
In this example, katakana words such as "photograph" and "cut glass" are written as correct katakana characters in the input document, and fluctuations "photo" and "hot" (correct answer: hot) Or the typographical error "Grak" (correct answer:
This is the case when a word including (graph) exists. Even in this case, by separating the input katakana word into consonant and vowel symbol strings and collating them, the “photograph” is “photograph” and the total collation value is 1.0 (in the embodiment,
Since the set value of the collation value that is regarded as the fluctuation of the notation is 1.0), it is understood that the notation is inconsistent due to the fluctuation of the notation of the katakana word. However, since the total matching values of "cut glass" and "photograph" or "photograph" are 0.4, respectively, the degree of similarity is low and it can be seen that they are completely different words. In this way, the inconsistency in the notation of scattered Katakana words contained in the input document is extracted from the document without performing the process of searching the Katakana word candidate dictionary even if it is not an error. Since it can be detected by collating the Katakana character strings with each other, it is possible to improve the detection accuracy and processing efficiency of the unification notation of the Katakana word.

このように、本発明の片仮名単語誤り検出訂正装置で
は、訂正候補となる片仮名単語について文字列を構成す
る連続の2文字とその文字位置をキーとする片仮名単語
候補辞書を予め作成しておき、文書入力装置から入力さ
れた文字コードを処理可能な日本文文字列に変換して、
変換された日本文文字列に対する形態素解析の認定結果
が未知語であることにより片仮名単語の誤りを検出され
た場合に、検出された片仮名文字列の片仮名2文字とそ
の文字位置をキーとして、予め作成した該当の片仮名単
語候補辞書を検索して第1次の訂正候補群を抽出し、検
出された片仮名単語と抽出した第1次の訂正候補群につ
いて、それぞれ片仮名の文字列をローマ字に変換し、さ
らに子音列と母音列の記号列に分離し、分離された記号
列を別々に前方および後方から照合して照合値を抽出
し、照合値が予め設定した値より高い場合に、抽出した
片仮名単語訂正候補を正解候補として選択する。
As described above, in the katakana word error detection / correction device of the present invention, a katakana word candidate dictionary in which two consecutive characters that form a character string and a character position thereof are used as keys for a correction candidate katakana word is created in advance, Convert the character code input from the document input device into a processable Japanese character string,
If an error in a Katakana word is detected due to an unknown result of the morphological analysis of the converted Japanese sentence character string, two Katakana characters and the character position of the detected Katakana character string are used as keys in advance. The created corresponding Katakana word candidate dictionary is searched to extract the primary correction candidate group, and the detected Katakana word and the extracted primary correction candidate group are converted into Katakana character strings, respectively. , Further, it is separated into consonant strings and vowel character strings, and the separated symbol strings are collated separately from the front and the back to extract the matching value. When the matching value is higher than a preset value, the extracted katakana A word correction candidate is selected as a correct answer candidate.

さらに、文書中で表記のゆらぎがある片仮名単語に対し
て、文書中の片仮名文字列を抽出し、抽出されたそれぞ
れの片仮名文字列をローマ字に変換し、さらに子音列と
母音列の記号列に分離し、それぞれの子音列と母音列と
に分離された記号列を別々に前方および後方から照合し
て照合値を算出し、照合する相互の文字列が同一ではな
い場合で、かつ照合値が予め設定した値より高い場合
に、抽出した片仮名文字列の間に片仮名単語の表記の不
統一があることを検出する。
Furthermore, for katakana words that have fluctuations in the document, extract the katakana character strings in the document, convert each of the extracted katakana character strings to romaji, and then convert them into consonant and vowel string symbols. Separate the symbol strings separated into the consonant sequence and the vowel sequence separately from the front and back to calculate the matching value, and if the matching character strings are not the same, and the matching value is When the value is higher than a preset value, it is detected that the katakana word notation is inconsistent between the extracted katakana character strings.

これにより、人手では校正が困難である片仮名単語の誤
りを検出し、拗音などを含む場合でも訂正精度が高い訂
正候補の抽出が可能となり、しかも少なくとも1箇所以
上の2文字部分が一致する訂正候補を照合すべき第1次
の訂正候補群として絞り込むので、処理速度を大幅に向
上させることができる。さらに、入力された文書に含ま
れる片仮名単語の表記の不統一を検出し、訂正候補の抽
出を行うので、人手による表記の不統一の校正作業の負
荷の軽減と訂正精度の向上を図ることができる。
As a result, it is possible to detect an error in a katakana word that is difficult to proofread manually, and to extract a correction candidate with high correction accuracy even if it contains a syllabary, and moreover, a correction candidate in which at least one two-character part matches Is narrowed down as the primary correction candidate group to be collated, so that the processing speed can be greatly improved. Furthermore, it detects the inconsistency in the notation of katakana words contained in the input document and extracts correction candidates, so it is possible to reduce the load of the proofreading work of the inconsistency in the notation and improve the correction accuracy. it can.

〔発明の効果〕〔The invention's effect〕

請求項(1)の発明によれば、日本語ワードプロセッサ
などの文書入力装置の入力誤りや文字認識誤りや作成者
の思い違いなどによって混入する人手では校正が困難で
ある片仮名単語の誤りを検出し、拗音などを含む場合で
も訂正精度が高い訂正候補の抽出が可能となり、しかも
少なくとも1箇所以上の2文字部分が一致する訂正候補
を照合すべき第1次の訂正候補群として絞り込むので、
処理速度を大幅に向上させることができる。
According to the invention of claim (1), an error in a katakana word which is difficult to proofread manually by an input error or a character recognition error in a document input device such as a Japanese word processor or a misunderstanding of a creator is detected, It is possible to extract correction candidates with high correction accuracy even when they include syllabary, and moreover, the correction candidates in which at least one two-character portion matches are narrowed down as the primary correction candidate group to be collated,
The processing speed can be greatly improved.

さらに、請求項(2)の発明によれば、入力された文書
に含まれる片仮名単語の表記の不統一を検出し、訂正候
補の抽出を行うので、人手による表記の不統一の校正作
業の負荷と訂正精度の向上を図ることができる。
Further, according to the invention of claim (2), since the inconsistency of the notation of the katakana word included in the input document is detected and the correction candidate is extracted, the load of the proofreading work of the inconsistency of the notation manually is performed. And the correction accuracy can be improved.

【図面の簡単な説明】[Brief description of drawings]

第1図は本発明の一実施例を示す片仮名単語誤り検出訂
正装置ブロック図、第2図は本発明において第1次の片
仮名単語訂正候補群を抽出する処理の具体例を示す説明
図、第3図は本発明において片仮名単語訂正候補を照合
し正解候補を選択する処理の具体例を示す説明図、第4
図は本発明の他の実施例を示す片仮名単語の表記の不統
一検出の機能を有する片仮名単語誤り検出訂正装置のブ
ロック図、第5図は本発明における片仮名単語の表記の
不統一を検出する処理の具体例を示す説明図、第6図は
従来の方法における訂正候補抽出の処理の流れを示す説
明図、第7図は従来の方法における誤った訂正候補抽出
の事例を示す説明図である。 10…文書入力装置、20…処理装置、21…入力処理部、22
…形態素解析処理部、23…片仮名単語抽出処理部、23′
…片仮名文字列抽出処理部、24…片仮名単語誤り検出処
理部、25…片仮名単語訂正候補群抽出処理部、26…片仮
名単語子音母音分離処理部、27…片仮名単語照合処理
部、28…片仮名単語候補選択処理部、29…片仮名単語表
記不統一検出処理部、30…日本語単語辞書、40…文法辞
書、50…片仮名単語候補辞書、60…誤り訂正済み文書。
FIG. 1 is a block diagram of a Katakana word error detection / correction device showing an embodiment of the present invention, and FIG. 2 is an explanatory view showing a concrete example of a process of extracting a primary katakana word correction candidate group in the present invention. FIG. 3 is an explanatory diagram showing a specific example of a process of collating katakana word correction candidates and selecting a correct answer candidate according to the present invention;
FIG. 5 is a block diagram of a katakana word error detection and correction apparatus having a function of detecting inconsistency of katakana word notation according to another embodiment of the present invention. FIG. 5 detects inconsistency of notation of katakana words in the present invention. FIG. 6 is an explanatory diagram showing a concrete example of the process, FIG. 6 is an explanatory diagram showing a flow of a process of extracting a correction candidate in the conventional method, and FIG. 7 is an explanatory diagram showing an example of erroneous correction candidate extraction in the conventional method. . 10 ... Document input device, 20 ... Processing device, 21 ... Input processing unit, 22
... Morphological analysis processing unit, 23 ... Katakana word extraction processing unit, 23 '
... Katakana character string extraction processing unit, 24 ... Katakana word error detection processing unit, 25 ... Katakana word correction candidate group extraction processing unit, 26 ... Katakana word consonant vowel separation processing unit, 27 ... Katakana word matching processing unit, 28 ... Katakana word Candidate selection processing unit, 29 ... Katakana word notation inconsistency detection processing unit, 30 ... Japanese word dictionary, 40 ... Grammar dictionary, 50 ... Katakana word candidate dictionary, 60 ... Error corrected document.

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】片仮名単語に混入する入力誤りや文字認識
誤りを検出し、その訂正候補を抽出する片仮名単語誤り
検出訂正装置において、 入力された日本文文字列に対して日本語単語辞書および
文法辞書を用いて単語分割および品詞認定を行う形態素
解析手段と、 上記単語分割および品詞認定により認識された片仮名文
字列からなる片仮名単語を、その分割情報と認定情報と
ともに抽出する片仮名単語抽出手段と、 日本語単語辞書に該当の片仮名単語がない場合や文法的
な接続関係がない場合を認識して、片仮名単語の誤りを
検出する片仮名単語誤り検出手段と、 訂正候補となる片仮名単語について文字列を構成する連
続の2文字とその位置をキーとする片仮名単語候補辞書
を予め作成する手段と、 上記誤り検出された片仮名文字列とこの文字列を前後に
1文字ずらした文字列とで隣合う全ての組み合せの片仮
名2文字とその位置をキーとして、片仮名単語候補辞書
を検索して、正解の片仮名単語を含む第1次の訂正候補
群を抽出する片仮名単語訂正候補群抽出手段と、 上記誤り検出された片仮名文字列と前記抽出した片仮名
単語訂正候補群について、それぞれ片仮名の文字列をロ
ーマ字に変換し、さらに子音列と母音列の記号列に分離
する片仮名単語子音母音分離手段と、 上記誤り検出された片仮名文字列と前記抽出した片仮名
単語訂正候補群について、子音列と母音列とに分離され
た記号列を別々に前方および後方から照合し照合値を求
める片仮名単語照合手段と、 上記照合値が予め設定した値より高い場合に、抽出した
片仮名単語訂正候補を正解候補として選択する片仮名単
語候補選択手段とを備えることを特徴とする片仮名単語
誤り検出訂正装置。
1. A Katakana word error detection and correction device for detecting an input error or character recognition error mixed in a Katakana word and extracting a correction candidate for the error, a Japanese word dictionary and a grammar for an input Japanese sentence character string. Morphological analysis means for word division and part-of-speech recognition using a dictionary, katakana words consisting of katakana character strings recognized by the word division and part-of-speech recognition, and katakana word extraction means for extracting together with the division information and the certification information, A Katakana word error detection unit that detects an error in a Katakana word by recognizing that there is no corresponding Katakana word in the Japanese word dictionary or that there is no grammatical connection, and a character string for the Katakana word that is a correction candidate. A means for creating in advance a katakana word candidate dictionary having two consecutive characters and its position as keys, and the above-mentioned error-detected katakana character string. The first correction candidate that includes the correct katakana word by searching the katakana word candidate dictionary using two adjacent katakana characters of the combination and their position as the key Katakana word correction candidate group extraction means for extracting the group, the error detected Katakana character string and the extracted Katakana word correction candidate group, respectively, to convert the Katakana character string to Roman letters, further consonant strings and vowel strings Katakana word consonant vowel separating means for separating into a symbol string, the error-detected Katakana character string and the extracted Katakana word correction candidate group, the symbol string separated into consonant strings and vowel strings separately forward and backward Katakana word matching means for finding a matching value by matching from, and Katakana selecting the extracted Katakana word correction candidate as a correct answer candidate when the matching value is higher than a preset value. A katakana word error detection / correction device comprising: a word candidate selection means.
【請求項2】入力された日本文文字列から、片仮名文字
列を抽出する片仮名文字列抽出手段と、 上記抽出された片仮名文字列をローマ字に変換し、さら
に子音列と母音列の記号列に分離する片仮名文字列子音
母音分離手段と、 上記抽出された相互の片仮名文字列について、それぞれ
片仮名文字列の子音列と母音列とに分離された記号列を
別々に前方および後方から照合し照合値を求める手段
と、 上記照合する相互の文字列が同一ではない場合で、かつ
照合値が予め設定した値より高い場合に、抽出した片仮
名文字列の間に片仮名単語の表記の不統一があると検出
する手段とを備えることを特徴とする請求項(1)記載
の片仮名単語誤り検出訂正装置。
2. A Katakana character string extracting means for extracting a Katakana character string from an input Japanese sentence character string, converting the extracted Katakana character string into Roman characters, and further converting it into a consonant string and a vowel string. Katakana character string consonant vowel separation means to be separated, and for each of the above extracted mutual katakana character strings, the concatenation string of the katakana character string and the symbol string separated into the vowel string are collated separately from the front and back, and the collation value If the mutual character strings to be collated are not the same and the collation value is higher than a preset value, there is an inconsistency in the katakana word notation between the extracted katakana character strings. The katakana word error detection and correction device according to claim 1, further comprising: a detecting unit.
JP1198692A 1989-07-31 1989-07-31 Katakana word error detection and correction device Expired - Lifetime JPH079654B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1198692A JPH079654B2 (en) 1989-07-31 1989-07-31 Katakana word error detection and correction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1198692A JPH079654B2 (en) 1989-07-31 1989-07-31 Katakana word error detection and correction device

Publications (2)

Publication Number Publication Date
JPH0362260A JPH0362260A (en) 1991-03-18
JPH079654B2 true JPH079654B2 (en) 1995-02-01

Family

ID=16395449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1198692A Expired - Lifetime JPH079654B2 (en) 1989-07-31 1989-07-31 Katakana word error detection and correction device

Country Status (1)

Country Link
JP (1) JPH079654B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059389A (en) * 2006-08-31 2008-03-13 Mizuho Information & Research Institute Inc Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program
JP5203324B2 (en) * 2009-09-16 2013-06-05 日本電信電話株式会社 Text analysis apparatus, method and program for typographical error
JP6277655B2 (en) * 2013-10-03 2018-02-14 富士通株式会社 Character string search program, character string search method, and character string search device

Also Published As

Publication number Publication date
JPH0362260A (en) 1991-03-18

Similar Documents

Publication Publication Date Title
Kissos et al. OCR error correction using character correction and feature-based word classification
EP0686286B1 (en) Text input transliteration system
Volk et al. Strategies for reducing and correcting OCR errors
JP2001505330A (en) Method and apparatus for providing word breaks in a text stream
Carrasco An open-source OCR evaluation tool
Bhatti et al. Word segmentation model for Sindhi text
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
Al Azawi et al. WFST-based ground truth alignment for difficult historical documents with text modification and layout variations
Chaudhuri Reversed word dictionary and phonetically similar word grouping based spell-checker to Bangla text
Kashefi et al. A novel string distance metric for ranking Persian respelling suggestions
Volk et al. Reducing OCR errors by combining two OCR systems
EP0271664B1 (en) A morphological/phonetic method for ranking word similarities
Maxwell et al. Endangered data for endangered languages: Digitizing print dictionaries
JPH079654B2 (en) Katakana word error detection and correction device
Baird et al. A family of European page readers
Prinsloo et al. Optical Character Recognition and text cleaning in the indigenous South African languages
Kaur et al. Improving the accuracy of tesseract OCR engine for machine printed Hindi documents
JP3274014B2 (en) Character recognition device and character recognition method
Ciubotaru et al. Regeneration of cultural heritage: Problems related to Moldavian Cyrillic alphabet
JP2575947B2 (en) Phrase extraction device
JPH077414B2 (en) Japanese typographical error correction device
Dhanju et al. Design and implementation of Shahmukhi spell checker
JP2592993B2 (en) Phrase extraction device
JPS62249269A (en) Document processor
Jauhiainen et al. Transliteration Model for Egyptian Words

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090201

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090201

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100201

Year of fee payment: 15

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100201

Year of fee payment: 15