JPH02105968A - Automatic test and correction system for japanese sentence error - Google Patents

Automatic test and correction system for japanese sentence error

Info

Publication number
JPH02105968A
JPH02105968A JP63258747A JP25874788A JPH02105968A JP H02105968 A JPH02105968 A JP H02105968A JP 63258747 A JP63258747 A JP 63258747A JP 25874788 A JP25874788 A JP 25874788A JP H02105968 A JPH02105968 A JP H02105968A
Authority
JP
Japan
Prior art keywords
homophone
word
homonym
concatenation
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63258747A
Other languages
Japanese (ja)
Inventor
Masahiro Oku
雅博 奥
Koji Matsuoka
浩司 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63258747A priority Critical patent/JPH02105968A/en
Publication of JPH02105968A publication Critical patent/JPH02105968A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To speed up processing by extracting only homonyms which are judged to be wrong as a result of decision making, extracting correction candidates for homonym errors automatically by using a homonym table, and outputting only a certain candidate as a correct answer candidate by using information in a homonym concatenation decision table. CONSTITUTION:A table retrieval part 6 tests an error of a homonym included in a noun continuous compound word automatically by using concatenation possible/impossible state information (held in the form of a homonym concatena tion decision table 10) on nouns constituting the noun concatenation compound word to accurately extract only a homonym which is used erroneously. Correc tion candidates are also tested by using the homonym concatenation decision table 10 to output only correction candidates which can be concatenated, so only certain correction candidates can be displayed. Only the candidates which are judged to be wrong as a result of the test and the correction candidates are displayed, so that man-hours are smaller than those by a manual test. Conse quently, only the really homonym error is detected and the correction candidates are displayed.

Description

【発明の詳細な説明】 (1)発明の属する技術分野 本発明は1日本語文書中から同音異義語の使用誤りを自
動的に検出し、その正解候補を提示する日本文誤り自動
検定・訂正方式に関するものである。
Detailed Description of the Invention (1) Technical field to which the invention pertains The present invention provides automatic Japanese sentence error verification and correction that automatically detects homonym usage errors in Japanese documents and presents correct answer candidates. It is related to the method.

(2)従来の技術 従来の方式では、誤りやすい同音異義語を辞書にマーク
しておき、入力文書において、辞書中の該同音異義語の
文字列と一致する個所すべてを同音異義語誤りの候補と
して抽出していた。しかし。
(2) Conventional technology In the conventional method, homophones that are prone to errors are marked in a dictionary, and all locations in the input document that match the character string of the homophone in the dictionary are candidates for homophone errors. It was extracted as but.

この方式では以下の問題点があった。This method had the following problems.

■ 正しく使用されている語も、すべて、誤り候補とし
て抽出してしまう。
■ All words that are used correctly are also extracted as error candidates.

■ 人手による検定とほぼ同じ工数がかかる。■ It takes almost the same number of man-hours as manual verification.

■ 訂正候補を出力することが困難である。■ It is difficult to output correction candidates.

また、特願昭63−149448号(日本文誤り自動検
定・訂正装置)では、単語の持つ意味カテゴリを用いて
同音異義語の使用誤りを検定し、その候補を抽出できる
が、この方式においても以下の問題点があった。
Furthermore, in Japanese Patent Application No. 149448/1983 (Japanese Sentence Error Automatic Verification/Correction Device), errors in the use of homophones can be detected using the meaning categories of words, and candidates can be extracted. There were the following problems.

■ 検定に不可欠な意味カテゴリ連接判定テーブルの作
成にあたっては、1つ1つの元データに対して人手によ
って意味カテゴリを付与しなければならず、多大な工数
が必要である。
■ In creating the semantic category linkage determination table that is essential for testing, it is necessary to manually assign a semantic category to each piece of original data, which requires a large amount of man-hours.

■ ■のため、対象とできる同音異義語の範囲が限定さ
れてしまう。
■ Because of this, the range of homophones that can be targeted is limited.

■ 検定対象の拡張が容易でない。■ It is not easy to expand the scope of testing.

(3)発明の目的 本発明の目的は、上記の問題点を解決した。真に同音異
義語誤りであるものを検出し、その訂正候補を提示する
日本文誤り自動検定・訂正方式を提供することにある。
(3) Purpose of the invention The purpose of the present invention is to solve the above problems. The object of the present invention is to provide an automatic Japanese sentence error verification/correction method that detects true homophone errors and presents correction candidates.

(4)発明の構成 (4−1)発明の特徴と従来の技術との差異本発明は。(4) Structure of the invention (4-1) Features of the invention and differences from the conventional technology The present invention.

入力装置から入力された日本文文書中の誤りにより生じ
る名詞連続複合語内の同音異義語誤りについて。
Regarding homophone errors in noun continuous compounds caused by errors in Japanese documents input from input devices.

日本語単語辞書と文法辞書とを用いた形態素解析によっ
て1名詞連続複合語を単語列に分割し。
One-noun continuous compound words are divided into word strings by morphological analysis using a Japanese word dictionary and a grammar dictionary.

各単語の読みや品詞などの形態素情報を得る第1の手段
と。
A first means for obtaining morphological information such as the pronunciation and part of speech of each word.

同一の読みを有する単語である同音異義語群をその読み
をキーとして収録した同音異義語テーブルと。
A homophone table containing a group of homophones, which are words with the same pronunciation, using the pronunciation as a key.

該同音異義語テーブルに収録された各同音異義語につい
て、該同音異義語字面と前後の文字列との連接可能性を
、該同音異義語字面をキーとして保持する同音異義語連
接判定テーブルと。
For each homophone recorded in the homophone table, a homophone concatenation determination table holds the possibility of concatenation between the homophone letter and preceding and succeeding character strings using the homophone letter as a key.

第1の手段において単語列に分割された名詞連続複合語
を構成する各単語をキーとして前記の同音異義語テーブ
ルを検索し、検定すべき同音異義語が存在する場合に検
定を開始する第2の手段と。
The second means searches the homophone table using each word constituting the noun continuous compound divided into word strings as a key, and starts the test when there is a homophone to be tested. With the means of.

該検定すべき同音異義語の字面をキーとして。Using the font of the homophone to be tested as the key.

前記の同音異義語連接判定テーブルを検索し、その結果
、該同音異義語と前後の文字列との連接可能性がない、
もしくは、同音異義語連接判定テーブル中に該連接可能
性が登録されていない場合に。
The above-mentioned homophone concatenation determination table is searched, and as a result, there is no possibility of concatenation between the homophone and the preceding and following character strings,
Or, when the possibility of this conjunction is not registered in the homophone conjunction determination table.

該同音異義語を誤りであると検定する第3の手段と。and a third means for testing the homophone as an error.

第3の手段において誤りであると検定された同音異義語
の読みをキーとして前記の同音異義語テーブルを検索す
ることによって、該同音異義語の訂正候補を取得する第
4の手段と。
A fourth means for obtaining correction candidates for the homophone by searching the homophone table using the pronunciation of the homophone that was determined to be incorrect in the third means as a key.

第4の手段において取得された訂正候補の字面をキーと
して前記の同音異義語連接判定テーブルを検索し、その
結果1前後の文字列との連接可能性がある訂正候補のみ
を該同音異義語誤りの正解候補として出力する第5の手
段と から構成されることを最も主要な特徴とする。
The above-mentioned homophone concatenation determination table is searched using the font of the correction candidate acquired in the fourth means as a key, and as a result, only correction candidates that have a possibility of concatenation with the character strings before and after 1 are selected for the homophone error. and a fifth means for outputting as a correct answer candidate.

従来の技術とは。What is conventional technology?

■ 決定の結果、誤っていると判定された同音異義語の
みを抽出する。
■ Extract only the homonyms determined to be incorrect as a result of the determination.

■ 同音異義語テーブルを用いて同音異義語誤りの訂正
候補を自動的に抽出し、同音異義語連接判定テーブル中
の情報を用いてより確からしい候補のみを正解候補とし
て出力する。
■ Automatically extract correction candidates for homophone errors using the homophone table, and output only more likely candidates as correct candidates using the information in the homophone conjunction determination table.

の各点が異なる。Each point is different.

(4−2)実施例 第1図は本発明をハードウェアによって構成する際の基
本構成図であって、1は1本装置の入力である名詞連続
複合語を2日本倍型語辞書7および文法辞書8を用いて
単語分割し、各単語に品詞や読みなどの形態素情報を付
与する形態素解析部。
(4-2) Embodiment FIG. 1 is a basic configuration diagram when configuring the present invention by hardware. A morphological analysis unit that divides words using the grammar dictionary 8 and adds morphological information such as part of speech and pronunciation to each word.

2は、該名詞連続複合語中に同音異義語が存在するか否
かを、同音異義語テーブル9を検索することによって判
定し、存在する場合には該同音異義語を抽出する同音異
義語抽出部、3は、同音異義語連接判定テーブルIOを
該同音異義語字面で検索することによって得られる情報
を用いて、該同音異義語がその前方または後方の文字列
と連接しうるかどうかを判定することによって、該同音
異義語の使用誤りを検定する同音異義語検定部、4は、
同音異義語テーブル9を該同音異義語の読みをキーとし
て検索し、訂正候補を抽出する同音異義語候補抽出部、
5は、同音異義語候補抽出部4で抽出された訂正候補に
対して、同音異義語連接判定テーブル10を用いて、訂
正候補と前方または後方に位置する単語との連接可否を
検定し、連接可の訂正候補をすべて出力ファイル11に
出力する同音異義語候補検定部、6は、同音異義語抽出
部2.同音異義語候補抽出部4の要求に従って同音異義
語テーブル9を、同音異義語検定部3゜同音異義語候補
検定部5の要求に従って同音異義語連接判定テーブル1
0をそれぞれ検索し、必要な情報を要求もとに送るテー
ブル検索部、7は。
2 determines whether or not a homophone exists in the noun continuous compound word by searching the homophone table 9, and if it exists, extracts the homophone. Part 3 uses information obtained by searching the homophone concatenation determination table IO with the homophone character plane to determine whether the homophone can be concatenated with the character string before or after it. Accordingly, the homophone testing unit 4, which tests the usage error of the homophone,
a homophone candidate extraction unit that searches the homophone table 9 using the pronunciation of the homophone as a key and extracts correction candidates;
5, for the correction candidates extracted by the homophone candidate extraction unit 4, using the homophone connection determination table 10, it is tested whether or not the correction candidates can be connected with a word located before or after the correction candidate, and the connection is determined. Homophone candidate testing unit 6 outputs all acceptable correction candidates to output file 11, and 6 is homophone extraction unit 2. According to the request of the homophone candidate extracting section 4, the homophone table 9 is generated;
Table search unit 7 searches for each 0 and sends necessary information to the request source.

日本語単語の品詞情報や読みなどの形態素情報を記述し
た日本語単語辞書、8は1日本倍型語の持つ品詞間の接
続関係や係り受は関係などの文法情報を記述した文法辞
書、9は、同一の読みを有する単語である同音異義語群
をその読みをキーとして収録した同音異義語テーブル、
10は、同音異義語テーブル9に収録された各同音異義
語字面を含む文字列の出現頻度を、既存文書中から求め
該出現頻度に基づいて該同音異義語字面と前後の文字列
との連接可能性を、該同音異義語字面をキーとして保持
する同音異義語連接判定テーブル。
8 is a Japanese word dictionary that describes morphological information such as part-of-speech information and pronunciation of Japanese words; 8 is a grammar dictionary that describes grammatical information such as connections and dependencies between parts of speech of Japanese double-type words; 9 is a homophone table containing a group of homophones, which are words with the same pronunciation, using the pronunciation as a key,
Step 10 calculates the frequency of occurrence of a character string including each homophone face recorded in the homophone table 9 from the existing document, and concatenates the homonym face and the preceding and succeeding character strings based on the frequency of appearance. A homophone conjunctive determination table that holds possibilities using the homophone font as a key.

11は、出力ファイル、12は、演算装置およびメモリ
からなる日本文誤り自動検定・訂正装置である。
11 is an output file, and 12 is an automatic Japanese sentence error verification/correction device consisting of an arithmetic unit and memory.

第2図は、同音異義語テーブル9のフィールド構成図で
あって、13は、同音異義語テーブル9を検索する際の
キーである同音異義語の読み、14は、そのレコードの
読みを持つ複数の同音異義語字面である。
FIG. 2 is a field configuration diagram of the homophone table 9, where 13 is the reading of the homophone which is the key when searching the homophone table 9, and 14 is the plurality of readings of the record. This is the homophone grammatical face of .

第3図は、同音異義語連接判定テーブル10のフィール
ド構成図であって、15は、同音異義語連接判定テーブ
ル10を検索する際のキーである同音異義語字面、16
は、同音異義語の前方または後方に来うる文字列に関す
る文字列情報(詳細は第4図)である、第4図は9文字
列情報16の構成図であって、17は1文字列字面、1
8は。
FIG. 3 is a field configuration diagram of the homophone conjunctive determination table 10, in which 15 is a homophone character face, which is a key for searching the homophone concatenation determination table 10, and 16 is a field configuration diagram of the homophone concatenation determination table 10.
is character string information regarding character strings that can come before or after a homophone (details are shown in Figure 4). Figure 4 is a configuration diagram of 9 character string information 16, and 17 is a 1 character string face. ,1
8 is.

前方に該文字列が来ることができるかどうかを記述した
前方連接可否、19は、後方に該文字列が来ることがで
きるかどうかを記述した後方連接可否、である。
The forward concatenation possibility 19 describes whether the character string can come before or not, and the backward concatenation possibility 19 describes whether the character string can come after.

第5図は9日本文誤り自動検定・訂正装置12の動作の
概略フローである。
FIG. 5 is a schematic flowchart of the operation of the 9-Japanese sentence error automatic verification/correction device 12.

次に、第5図の概略フローに従って動作の説明を行う。Next, the operation will be explained according to the schematic flow shown in FIG.

(ステップSl) 日本文誤り自動検定・訂正装置12の入力である名詞連
続複合語に対して、形態素解析部1では。
(Step Sl) The morphological analysis unit 1 processes a noun continuous compound word that is input to the Japanese sentence error automatic test/correction device 12.

日本語単語辞書7および文法辞書8を用いた単語候補抽
出1品詞接Vt検定などの形態素解析を行い。
Word candidate extraction using Japanese word dictionary 7 and grammar dictionary 8. Morphological analysis such as part-of-speech contact Vt test was performed.

該名詞連続複合語を単語分割し、各単語に品詞情報、読
みなどを付与した後、解析結果を同音異義語抽出部2へ
送る。
After dividing the noun continuous compound word into words and adding part-of-speech information, pronunciation, etc. to each word, the analysis result is sent to the homophone extractor 2.

(ステップ32) 同音異義語抽出部2では2名詞連続複合語を構成する各
単語の読みをキーとして同音異義語テープル9を検索す
ることをテーブル検索部6に要求する。テーブル検索部
6は、同音異義語テーブル9を検索し、検索に成功した
際にはそのレコードを同音異義語抽出部2に送り、失敗
した際にはその旨、同音異義語抽出部2に送る。
(Step 32) The homophone extraction unit 2 requests the table search unit 6 to search the homophone table 9 using the pronunciation of each word constituting the two-noun continuous compound word as a key. The table search unit 6 searches the homophone table 9, and when the search is successful, sends the record to the homophone extraction unit 2, and when the search is unsuccessful, sends a record to that effect to the homophone extraction unit 2. .

(ステップS3) 同音異義語抽出部2では、テーブル検索部6からの情報
に従って、検索に成功したかどうかを判定し、成功した
場合には、ステップS4に進み。
(Step S3) The homophone extraction unit 2 determines whether the search was successful according to the information from the table search unit 6, and if it is successful, the process proceeds to step S4.

失敗した場合には本処理を終了する6 (ステップS4) 同音異義語抽出部2では、さらに、検索に成功した単語
を検定対象単語とし、同音異義語検定部3に送る。
If the search fails, this process ends 6 (Step S4) The homophone extraction unit 2 further sets the words that have been successfully retrieved as test target words and sends them to the homophone testing unit 3.

(ステップS5) 同音異義語検定部3では、まず1次のような場合分けを
行い、検定対象単語との連接を調べるべき文字列(以下
、連接文字列という)を決定する。
(Step S5) The homophone testing unit 3 first performs the following case classification and determines a character string (hereinafter referred to as a connected character string) to be checked for connection with the test target word.

[1]検検定対象語が名詞連続複合語の最終単語である
場合 連接文字列を該検定対象単語の前方文字列とする。
[1] When the test target word is the final word of a noun continuous compound word, the concatenated character string is the prefix character string of the test target word.

[2]検検定対象語が名詞連続複合語の最初の単語であ
る場合 連接文字列を該検定対象単語の後方文字列とする。
[2] When the test target word is the first word of a noun continuous compound word, the concatenated character string is the subsequent character string of the test target word.

[3]検検定対象語が名詞連続複合語の中間に位置する
単語である場合 連接文字列を該検定対象単語の前方文字列および後方文
字列の両方とする。
[3] When the test target word is a word located in the middle of a noun continuous compound word, the concatenated character string is both the front character string and the rear character string of the test target word.

(ステップS6) つぎに同音異義語検定部3では、該検定対象単語の字面
をキーとして同音異義語連接判定テーブル10を検索す
ることをテーブル検索部6に要求する。テーブル検索部
6は、同音異義語連接判定テーブル10を検索し、その
レコードを同音異義語検定部3に送る。
(Step S6) Next, the homophone testing section 3 requests the table search section 6 to search the homophone conjunction determination table 10 using the font of the word to be tested as a key. The table search section 6 searches the homonym conjunction determination table 10 and sends the record to the homonym test section 3.

(ステップS7) さらに同音異義語検定部3は、テーブル検索部6′より
送られてきたレコード中の文字列情報16に、以下の条
件を満たすものが存在した場合には処理をステップS8
へ導め、存在しない場合にはステップS9へ処理を進め
る。
(Step S7) Furthermore, if the character string information 16 in the record sent from the table search unit 6' satisfies the following conditions, the homophone testing unit 3 executes the process in step S8.
If it does not exist, the process advances to step S9.

[11の場合 連接文字列の最終文字を含む該連接文字列の部分文字列
に関する文字列情報16が存在する。
[In the case of 11, character string information 16 regarding a partial string of the concatenated character string including the final character of the concatenated character string exists.

[2]の場合 連接文字列の最初の文字を含む該連接文字列の部分文字
列に関する文字列情報16が存在する。
In the case of [2], there is character string information 16 regarding a partial string of the concatenated character string that includes the first character of the concatenated character string.

[3コの場合 前方連接文字列の最終文字を含む該連接文字列の部分文
字列に関する文字列情報16が存在するかまたは、後方
連接文字列の最初の文字を含む該連接文字列の部分文字
列に関する文字列情報16が存在する。
[In the case of 3 characters, there is character string information 16 regarding a substring of the concatenated string that includes the last character of the forward concatenated string, or a partial character of the concatenated string that includes the first character of the backward concatenated string There is character string information 16 regarding the column.

(ステップS8) 該部分文字列に関する文字列情報16中の連接可否([
l]の場合には、前方連接可否1日。
(Step S8) Concatenation possibility ([
l], the forward connection is possible or not for 1 day.

[2]の場合には、後方連接可否19.[3]の場合に
は、それぞれの連接可否)が不可である場合にはステッ
プS9へ進み、連接可である場合には処理を終了する。
In the case of [2], whether or not the rear connection is possible 19. In the case of [3], if the respective connection possibilities) are not possible, the process advances to step S9, and if the connection is possible, the process ends.

(ステップS9) 同音異義語検定部3において、該検定対象単語は誤りで
あると判定し、同音異義語候補抽出部4に該検定対象単
語を送る。
(Step S9) The homophone testing section 3 determines that the test target word is incorrect, and sends the test target word to the homophone candidate extraction section 4.

(ステップ5IO) 同音異義語候補抽出部4では、該検定対象単語の読みを
キーとして同音異義語テーブル9をテーブル検索部6を
通じて検索し、該検定対象単語に対する訂正候補を取得
し、該訂正候補を同音異義語候補検定部5に送る。
(Step 5IO) The homophone candidate extraction unit 4 searches the homophone table 9 through the table search unit 6 using the pronunciation of the test target word as a key, obtains correction candidates for the test target word, and obtains correction candidates for the test target word. is sent to the homophone candidate testing section 5.

同音異義語候補検定部5では、該訂正候補の1つ1つの
字面をキーとして同音異義語連接判定テーブル10をテ
ーブル検索部6を通じて検索し。
The homophone candidate testing unit 5 searches the homophone conjunction determination table 10 through the table search unit 6 using each character face of the correction candidate as a key.

各訂正候補と連接文字列との連接可否を調べる。Check whether each correction candidate can be concatenated with a concatenated character string.

(ステップ5ll) 訂正候補の中に1つでも連接文字列との連接可否が連接
可であるものが存在するならば、ステップS12へ進み
、1つも存在しなければステップS13へ進む。
(Step 511) If there is even one correction candidate that can be connected with the concatenated character string, the process advances to step S12, and if there is none, the process advances to step S13.

(ステップ512) 連接可である訂正候補すべてを該検定単語の正解候補と
して出力ファイル11に出力する。
(Step 512) All correction candidates that can be connected are output to the output file 11 as correct answer candidates for the test word.

(ステップ513) ステップS10で取得された訂正候補をすべて出力ファ
イル11に出力する。
(Step 513) All correction candidates acquired in step S10 are output to the output file 11.

なお上記の説明では、ステップSIOにおいて同音異義
語テーブル9.同音異義語連接判定テーブル10をもう
1度検索したが、ステップS3の検索結果、ステップS
6の検索結果をすべて持ち回るようにすれば、ステップ
SIOでの検索は不要となり、処理の高速化を図ること
ができる。
Note that in the above explanation, the homophone table 9. The homophone conjunction determination table 10 was searched again, but the search results in step S3, step S
If all the search results in step 6 are carried around, the search in step SIO becomes unnecessary, and the processing speed can be increased.

次に1例を用いて動作を説明する。第6図に例で用いる
名詞連続複合語の形態素解析結果を示す。
Next, the operation will be explained using an example. FIG. 6 shows the results of morphological analysis of the noun continuous compound word used in the example.

なお、これらの情報を得る形態素解析の手法については
ここでは特に限定しない。第7図に同音異義語テーブル
9の内容例を、第8図に、同音異義語とその前方または
後方1文字との連接可否情報を集めた同音異義語連接判
定テーブル1oの内容例をそれぞれ示す。
Note that the morphological analysis method for obtaining this information is not particularly limited here. Fig. 7 shows an example of the contents of the homophone table 9, and Fig. 8 shows an example of the contents of the homophone concatenation determination table 1o, which collects information on whether or not a homophone can be concatenated with one character before or after it. .

[1]同音異義語の前方に文字列が存在する場合日本文
誤り自動検定・訂正装置12の入力として”自然化学”
を考える。この名詞連続複合語は。
[1] When a character string exists before a homophone, “Natural Chemistry” is used as input for the automatic Japanese sentence error verification/correction device 12.
think of. This noun continuous compound is.

誤りを含んでおり、正解は“自然科学”である。It contains an error, and the correct answer is "natural science."

形態素解析部1では、′°自然化学”を日本語単語辞書
71文法辞書8を用いて形態素解析する。
The morphological analysis unit 1 performs morphological analysis of ``Natural Chemistry'' using the Japanese word dictionary 71 and the grammar dictionary 8.

この形態素解析結果(第6図(1))は同音異義語抽出
部2に送られる。
This morphological analysis result (FIG. 6 (1)) is sent to the homophone extraction section 2.

同音異義語抽出部2では、“°自然化学°゛を構成する
名詞の読み“しぜん”と゛かがく”をキーとしてテーブ
ル検索部6に同音異義語テーブル9を検索するように要
求する。
The homophone extraction unit 2 requests the table search unit 6 to search the homophone table 9 using the pronunciations of the nouns ``Shizen'' and ``Kagaku'' constituting "°Natural Chemistry°" as keys.

要求を受けたテーブル検索部6では、まず“自然”につ
いて処理を行う。“自然”の読み“しぜん”をキーとし
て同音異義語テーブル9を検索すると、同音異義語テー
ブル9の内容は、第7図のご・とくであるので、°゛自
然に対してはテーブル上に存在せず検索が失敗する0次
に”化学”について処理を行う。°°化学”の読みパか
がく”をキーとして同音異義語テーブル9を検索する。
Upon receiving the request, the table search unit 6 first processes "natural". If you search the homonym table 9 using the reading ``shizen'' for ``nature'' as a key, the contents of the homonym table 9 will be as shown in Figure 7, so ゛ nature is on the table. Processing is performed for the 0th order "Chemistry" which does not exist in , and the search fails. Homophone table 9 is searched using ``pronunciation of ``°°chemistry'' as a key.

同音異義語テーブル9の内容は、第7図のごとくである
ので、“化学”に対する検索は成功rる。これらの情報
は、テーブル検索部6から同音異義語抽出部2へ送られ
る。同音異義語抽出部2では、送られてきた情報に従っ
て、検定対象単語=“化学”とする。さらに、“化学”
はパ自然化学”の最終単語であるので、前方文字列であ
る“自然°“を連接文字列とする。そして、これらの結
果は、同音異義語検定部3に送られる。
Since the contents of the homophone table 9 are as shown in FIG. 7, the search for "chemistry" is successful. These pieces of information are sent from the table search section 6 to the homophone extraction section 2. The homophone extraction unit 2 sets the word to be tested = "chemistry" according to the sent information. Furthermore, “chemistry”
Since this is the final word of ``Natural Chemistry'', the preceding character string ``Natural °'' is used as a concatenated character string.These results are then sent to the homophone testing section 3.

同音異義語検定部3では、検定対象単語=“化学”をキ
ーとしてテーブル検索部6に同音異義語連接判定テーブ
ル10を検索するように要求する。
The homophone test unit 3 requests the table search unit 6 to search the homophone connection determination table 10 using the test target word=“chemistry” as a key.

要求を受けたテーブル検索部6では、検定対象単語“化
学”をキーとして同音異義語連接判定テーブルIOを検
索すると、同音異義語連接判定テーブル10は第8図の
ごとくであるので、第8図の(1)のレコードが得られ
、このレコードの情報が同音異義語検定部3に送られる
Upon receiving the request, the table search unit 6 searches the homophone conjunction determination table IO using the test target word "chemistry" as a key, and the homophone conjunction determination table 10 is as shown in FIG. 8. The record of (1) is obtained, and the information of this record is sent to the homophone testing section 3.

同音異義語検定部3では、連接文字列−“自然”の最終
文字を含む部分文字列(今の例では、第8図が同音異義
語の前方または後方1文字との連接可否を表しているた
め、1文字列“然”である)に関する情報がレコード中
に含まれているがどうかを判定する。第8図の(1)の
レコードには“然”に関する文字列情報が存在し、その
前方連接可否情報は、×である。従って、検定対象単語
“化学”は誤りであると判定され、同音異義語候補抽出
部4に送られる。
The homophone test unit 3 uses the concatenated character string - a partial character string that includes the last character of "natural" (in this example, Figure 8 shows whether or not the homophone can be concatenated with the first or second character). Therefore, it is determined whether the record contains information regarding the single character string "ZEN"). In the record (1) of FIG. 8, there is character string information related to "zen", and its forward concatenation permission/inhibition information is x. Therefore, the test target word "chemistry" is determined to be incorrect and is sent to the homophone candidate extraction unit 4.

同音異義語候補抽出部4では、「誤りである」と判定さ
れた語“化学”の読み”がかく”をキーとして同音異義
語テーブル9を検索し、訂正候補を取得する。第7図よ
り明らかなように訂正候補としては゛科学”が得られる
。そして、この訂正候補“科学”が同音異義語候補検定
部5に送られる。
The homophone candidate extraction unit 4 searches the homophone table 9 using as a key the pronunciation of the word "chemistry" determined to be "incorrect" and obtains correction candidates. As is clear from FIG. 7, "Science" is obtained as the correction candidate.Then, this correction candidate "Science" is sent to the homophone candidate testing section 5.

同音異義語候補検定部5では、「誤りである」と判定さ
れた語“化学”を訂正候補“科学”に置き換え、“科学
”と連接文字列“自然”との連接を検定する。すなわち
The homophone candidate testing unit 5 replaces the word "chemistry" determined to be "incorrect" with the correction candidate "science" and tests the connection between "science" and the connected character string "nature". Namely.

・検定対象単語 −“科学” ・連接文字列  = “自然” とする、まず、検定対象単語“科学”をキーとして同音
異義語連接判定テーブル10をテーブル検索部6を通し
て検索すると、同音異義語連接判定テーブル10は第8
図のごとくであるので、第8図の(2)のレコードが取
得される1、このレコード中には、連接文字列の最終文
字を含む“然”に関する文字列情報が存在し、その前方
連接可否情報は、○である。従って、訂正候補“科学”
は。
・Test word - “science” ・Concatenated character string = “nature” First, when the homonym conjunctive determination table 10 is searched through the table search unit 6 using the test target word “science” as a key, homophone concatenation is found. The judgment table 10 is the eighth
As shown in the figure, the record (2) in Figure 8 is obtained. 1. In this record, there is character string information related to "zen" that includes the final character of the concatenated character string, and its forward concatenation The availability information is ○. Therefore, the correction candidate “science”
teeth.

連接可と判定され、正解候補として出力ファイル11に
出力される。
It is determined that connection is possible and output to the output file 11 as a correct answer candidate.

以上説明したように、正解である°“科学”を訂正候補
として出力ファイルに出力することができる。
As explained above, the correct answer "Science" can be output to the output file as a correction candidate.

[2]同音異義語の後方に文字列が存在する場合日本文
誤り自動検定・訂正装置12の入力として“科学実験2
を考える。この名詞連続複合語は。
[2] When a character string exists after a homophone
think of. This noun continuous compound is.

誤りを含んでおり、正解は“化学実験”である。It contains an error, and the correct answer is "chemical experiment."

形態素解析部lでは、“科学実験”を日本語単語辞書7
1文法辞書8を用いて形態素解析する。
In the morphological analysis department, “scientific experiment” is translated into Japanese word dictionary 7.
1. Morphological analysis is performed using the grammar dictionary 8.

この形態素解析結果(第6図(2))は同音異義語抽出
部2に送られる。
This morphological analysis result (FIG. 6 (2)) is sent to the homophone extraction section 2.

同音異義語抽出部2では、“科学実験”を構成する名詞
の読み“かがく”と“しつけん”をキーとしてテーブル
検索部6に同音異義語テーブル9を検索するように要求
する。
The homophone extraction unit 2 requests the table search unit 6 to search the homophone table 9 using the pronunciations of the nouns ``scientific experiment'' as ``kagaku'' and ``shitsuken'' as keys.

要求を受けたテーブル検索部6では、まず“科学”につ
いて処理を行う。“科学”の読み“かがく1をキーとし
て同音異義語テーブル9を検索すると、同音異義語テー
ブル9の内容は、第7図のごとくであるので、“科学”
に対する検索は成功する0次に“実験”について処理を
行う、“実験“の読み゛じっけん″をキーとして同音異
義語テーブル9を検索する。同音異義語テーブル9の内
容は、第7図のごとくであるので“実験”に対する検索
は失敗する。これらの情報は、テーブル検索部6から同
音異義語抽出部2へ送られる。同音異義語抽出部2では
、送られてきた情報に従って。
Upon receiving the request, the table search unit 6 first processes "science". If you search the homonym table 9 using the reading ``Science'' as the key, the contents of the homonym table 9 will be as shown in Figure 7, so it will be ``Science''.
The search for ``experiment'' is successful.The homonym table 9 is searched using the ``pronouncement'' of ``experiment'' as the key.The contents of the homonym table 9 are as shown in Figure 7. Therefore, the search for "experiment" fails. These pieces of information are sent from the table search section 6 to the homophone extraction section 2. The homophone extraction section 2 follows the sent information.

検定対象単語=“科学”とする、さらに、“科学”は“
科学実験”の最初の単語であるので、後方文字列である
“実験”を連接文字列とする。そして。
Test target word = “Science”, and “Science” is “
Since it is the first word of ``scientific experiment,'' the backward character string ``experiment'' is used as a concatenated string.And.

これらの結果は、同音異義語検定部3に送られる。These results are sent to the homophone testing section 3.

同音異義語検定部3では、検定対象単語=“科学”をキ
ーとしてテーブル検索部6に同音異義語連接判定テーブ
ル10を検索するように要求する。
The homophone test unit 3 requests the table search unit 6 to search the homophone concatenation determination table 10 using the test target word=“science” as a key.

要求を受けたテーブル検索部6では、検定対象単語“科
学”をキーとして同音異義語連接判定テーブルlOを検
索すると、同音異義語連接判定テーブル10は第8図の
ごとくであるので、第8図の(2)のレコードが得られ
、このレコードの情報が同音異義語検定部3に送られる
Upon receiving the request, the table search unit 6 searches the homophone conjunctive determination table 10 using the test word "science" as a key, and the homophone conjunctive determination table 10 is as shown in FIG. 8. The record of (2) is obtained, and the information of this record is sent to the homophone testing section 3.

同音異義語検定部3では、連接文字列=“実験”の最初
の文字を含む部分文字列(今の例では、第8図が同音異
義語の前方または後方1文字との連接可否を表している
ため、1文字列゛°実”である)に関する情報がレコー
ド中に含まれているかどうかを判定する。第8図の(2
)のレコードには。
In the homophone test section 3, the concatenated character string = partial character string that includes the first character of "experiment" (in the current example, Figure 8 shows whether or not it can be concatenated with the first or last character of the homophone). Therefore, it is determined whether the record contains information regarding one character string ``actual''.
) records.

“実”に関する文字列情報が存在し、その後方連接可否
情報は、×である。従って、検定対象単語“科学”は誤
りであると判定され、同音異義語候補抽出部4に送られ
る。
There is character string information related to “actual”, and its backward linkability information is ×. Therefore, the test target word "science" is determined to be incorrect and is sent to the homophone candidate extraction unit 4.

同音異義語候補抽出部4では、「誤りである」と判定さ
れた語“科学”の読み°“かがく”をキーとして同音異
義語テーブル9を検索し、訂正候補を取得する。第7図
より明らかなように訂正候補としては“化学”が得られ
る。そして、この訂正候補“化学”が同音異義語候補検
定部5に送られる。
The homophone candidate extraction unit 4 searches the homophone table 9 using the pronunciation of the word "Science" determined to be "incorrect", "kagaku", as a key, and obtains correction candidates. As is clear from FIG. 7, "chemistry" is obtained as a correction candidate. Then, this correction candidate "chemistry" is sent to the homophone candidate testing section 5.

同音異義語候補検定部5では、「誤りである」と判定さ
れた語“科学”を訂正候補゛化学”に置き換え、“化学
”と連接文字列“実験”との連接を検定する。すなわち
The homophone candidate testing unit 5 replaces the word "science" determined to be "incorrect" with the correction candidate "chemistry" and tests the concatenation of "chemistry" and the connected character string "experiment." That is.

・検定対象単語 = ゛化学” ・連接文字列  −“実験” とする、まず、検定対象単語“化学”をキーとして同音
異義語連接判定テーブル10をテーブル検索部6を通し
て検索すると、同音異義語連接判定テーブル10は第8
図のごとくであるので、第8図の(1)のレコードが取
得される。このレコード中には、連接文字列の最初の文
字を含む“実”に関する文字列情報が存在し、その後方
連接可否情報は、Oである。従って、訂正候補“化学”
は。
・Test target word = ``chemistry'' ・Concatenated character string - ``experiment'' First, when the homonym conjunctive determination table 10 is searched through the table search unit 6 using the test target word ``chemistry'' as a key, homophone concatenation is found. The judgment table 10 is the eighth
As shown in the figure, the record (1) in FIG. 8 is obtained. In this record, there is character string information regarding "actual" including the first character of the concatenated character string, and the backward concatenation possibility information is O. Therefore, the correction candidate “chemistry”
teeth.

連接可と判定され、正解候補として出力ファイル11に
出力される。
It is determined that connection is possible and output to the output file 11 as a correct answer candidate.

以上説明したように、正解である“化学“を訂正候補と
して出力ファイルに出力することができる。
As explained above, the correct answer "Chemistry" can be output to the output file as a correction candidate.

[3]同音異義語の前方、後方の両方に文字列が存在す
る場合 日本文誤り自動検定・訂正装置12の入力として“全面
帰省撤廃”を考える。この名詞連続複合語は、誤りを含
んでおり、正解は“全面規制撤廃”である。
[3] When character strings exist both before and after a homophone, consider "complete elimination of homecoming" as input to the automatic Japanese sentence error verification/correction device 12. This noun continuous compound word contains an error, and the correct answer is "total abolition of regulations."

形態素解析部1では、′全面帰省撤廃”を日本語単語辞
書79文法辞書8を用いて形態素解析する。この形態素
解析結果(第6図(3))は同音異義語抽出部2に送ら
れる。
The morphological analysis section 1 performs morphological analysis of ``total abolition of homecoming'' using the Japanese word dictionary 79 and the grammar dictionary 8. This morphological analysis result (FIG. 6 (3)) is sent to the homophone extraction section 2.

同音異義語抽出部2では、°°全面帰省撤廃”を構成す
る名詞の読み“ぜんめん”と“きせい”と“てっぽい”
をキーとしてテーブル検索部6に同音異義語テーブル9
を検索するように要求する。
Homophone extraction unit 2 uses the pronunciations of the nouns that make up the phrase ``°°Comprehensive abolition of homecoming'' as ``zenmen'', ``kisei'', and ``tepishi''.
Homophone table 9 is created in table search section 6 using ``key'' as key.
request to search for.

要求を受けたテーブル検索部6では、まず。In the table search unit 6 that received the request, first.

゛全面”について処理を行う。゛′全面゛′の読み“ゼ
んめん°”をキーとして同音異義語テーブル9を検索す
ると、同音異義語テーブル9の内容は。
Processing is performed for ``Full surface.'' When the homonym table 9 is searched using the reading ``Zenmen°'' of ``Full surface'' as a key, the contents of the homonym table 9 are as follows.

第7図のごとくであるので、”全面”に対する検索は失
敗する0次に“′帰省”について処理を行うや“帰省”
の読み゛き甘い”をキーとして同音異義語テーブル9を
検索すると、同音異義語テーブル9の内容は、第7図の
ごとくであるので、゛°帰省”に対する検索は成功する
。最後に、“°撤廃”について処理を行う、“°撤廃”
の続み“てっぽい”をキーとして同音異義語テーブル9
を検索すると。
As shown in Figure 7, the search for “full page” fails.
If the homonym table 9 is searched using ``pronounced ``sweet'' as a key, the contents of the homonym table 9 are as shown in FIG. 7, so the search for ``homecoming'' is successful. Finally, process “°abolition”, “°abolition”
Homophone table 9 with “tekishi” as the key
When you search for.

同音異義語テーブル9の内容は、第7図のごとくである
ので、°“撤廃”に対する検索は失敗する。
Since the contents of the homophone table 9 are as shown in FIG. 7, the search for "abolition" will fail.

これらの情報は、テーブル検索部6から同音異義語抽出
部2へ送られる。同音異義語抽出部2では、送られてき
た情報に従って、検定対象単語=“帰省”とする、さら
に、“帰省”は“全面帰省撤廃”の中間の単語であるの
で、前方文字列である“全面”と後方文字列である゛撤
廃”をそれぞれ前方連接文字列、後方連接文字列とする
。そして、これらの結果は、同音異義語検定部3に送ら
れる。
These pieces of information are sent from the table search section 6 to the homophone extraction section 2. In the homophone extraction unit 2, according to the sent information, the word to be tested is set as ``homecoming''.Furthermore, since ``homecoming'' is an intermediate word in ``total elimination of homecoming'', it is a prefix character string. ``Full surface'' and the backward character string ``elimination'' are respectively assumed to be forward concatenated character strings and backward concatenated character strings.Then, these results are sent to the homophone testing unit 3.

同音異義語検定部3では、検定対象単語−°“帰省°゛
をキーとしてテーブル検索部6に同音異義語連接判定テ
ーブル10を検索するように要求する。
The homophone test unit 3 requests the table search unit 6 to search the homophone concatenation determination table 10 using the test target word −°“homecoming°” as a key.

要求を受けたテーブル検索部6では、検定対象単語°“
帰省”をキーとして同音異義語連接判定テーブル10を
検索すると、同音異義語連接判定テーブル10は第8図
のごとくであるので、第8図の(3)のレコードが得ら
れ、このレコードの情報が同音異義語検定部3に送られ
る。
Upon receiving the request, the table search unit 6 searches the test target word °“
When the homonym conjunctive determination table 10 is searched using "homecoming" as the key, the homonym conjunctive determination table 10 is as shown in FIG. 8, so the record (3) in FIG. 8 is obtained, and the information of this record is is sent to the homophone testing section 3.

同音異義語検定部3では、連接文字列=“全面”の最終
文字を含む部分文字列(今の例では、第8図が同音異義
語の前方または後方1文字との連接可否を表しているた
め、1文字列“面”である)に関する情報がレコード中
に含まれているかどうかおよび、連接文字列=°“撤廃
゛°の最初の文字を含む部分文字列(今の例では、第8
図が同音異義語の前方または後方1文字との連接可否を
表しているため、1文字列“徹”である)に関する情報
がレコード中に含まれているかどうかを判定する。
In the homophone test section 3, the partial character string containing the final character of the concatenated character string = "full face" (in this example, Figure 8 shows whether or not it can be concatenated with one character before or after the homophone). Therefore, it is important to check whether the record contains information about the single character string “face”) and whether the substring containing the first character of the concatenated string = °“elimination゛° (in this example, the 8th
Since the figure shows whether or not a homophone can be concatenated with one character before or after one character, it is determined whether the record contains information regarding one character string "Toru".

第8図の(3)のレコードには1面”に関する文字列情
報が存在し、その前方連接可否情報は、×であり、“徹
”に関する文字列情報も存在し、その後方連接可否情報
も、×である。従って、検定対象単語“帰省”は誤りで
あると判定され、同音異義語候補抽出部4に送られる。
In the record (3) in Figure 8, there is character string information related to "Side 1", and its forward linkability information is ×, and character string information related to "Toru" is also present, as well as its backward linkability information. , ×.Therefore, the word to be tested, “homecoming,” is determined to be incorrect, and is sent to the homophone candidate extraction unit 4.

この例では、前方、後方ともに連接可否情報が×であっ
たが。
In this example, the connection availability information for both the front and rear is ×.

方が0の場合も誤りであると判定する。It is also determined that there is an error if the value is 0.

同音異義語候補抽出部4では、「誤りである」と判定さ
れた語°°婦省゛′の読み“きせい”をキーとして同音
異義語テーブル9を検索し、訂正候補を取得する。第7
図より明らかなように訂正候補としては“規制”、“°
規整”、°“既成”の3Qi語が得られる。そして、こ
れらの訂正候補が同音異義語候補検定部5に送られる。
The homophone candidate extracting unit 4 searches the homophone table 9 using as a key the pronunciation "kisei" of the word °°women' that has been determined to be "incorrect" and obtains correction candidates. 7th
As is clear from the figure, correction candidates include “regulation” and “°
The 3Qi words of "regular" and "existing" are obtained. Then, these correction candidates are sent to the homophone candidate testing section 5.

同音異義語候補検定部5では、まず、「誤りである」と
判定された語″帰省”を訂正候補“規制”に置き換え、
“規制”と連接文字列“全面” (前方)、“撤廃” 
(後方)との連接を検定する。すなわち。
The homophone candidate testing unit 5 first replaces the word “homecoming” determined to be “incorrect” with the correction candidate “regulation”.
“Regulation” and concatenated string “Full” (forward), “Abolition”
Test the connection with (backward). Namely.

・検定対象単語 −“規制” ・連接文字列  = “全面” (前方)。・Words to be tested: “regulation” ・Concatenated string = “Full surface” (front).

“撤廃″(後方) とする、まず、検定対象単語“規制”をキーとして同音
異義語連接判定テーブル10をテーブル検索部6を通し
て検索すると、同音異義語連接判定テーブル10は第8
図のごとくであるので、第8図の(4)のレコードが取
得される。このレコード中には、前方の連接文字列の最
終文字を含む“面”に関する文字列情報が存在し、その
前方連接可否情報は、Oである。また、後方の連接文字
列の最初の文字を含む“徹”に関する文字列情報も存在
し、その後方連接可否情報は、−Oである。
"Abolition" (backwards). First, when the homophone conjunctive determination table 10 is searched through the table search unit 6 using the test target word "regulation" as a key, the homophone conjunctive determination table 10 is found in the eighth
As shown in the figure, the record (4) in FIG. 8 is obtained. In this record, there is character string information regarding the "face" that includes the last character of the forward concatenated character string, and the forward concatenation possibility information is O. Furthermore, there is also character string information regarding "Toru" that includes the first character of the backward concatenated character string, and the backward concatenation possibility information is -O.

従って、訂正候補“規制”は、連接可であると判定され
る。
Therefore, the correction candidate "regulation" is determined to be connectable.

つぎに、訂正候補゛°規整”との連接を調べると。Next, let's check the connection with the correction candidate "Regulation".

第8図の(5)のレコードより、前方の連接文字列の最
終文字を含む”面”に関する文字列情報が存在し、その
前方連接可否情報は、×である。また、後方の連接文字
列の最初の文字を含む“撤”に関する文字列情報は存在
しない、従って、訂正候補は、連接不可と判定される。
From the record (5) in FIG. 8, there is character string information regarding the "face" that includes the final character of the forward concatenated character string, and the forward concatenation permission/inhibition information is x. Further, there is no character string information related to "removal" that includes the first character of the subsequent concatenated character string, and therefore, the correction candidate is determined to be unconcatenable.

最後に、訂正候補“既成”との連接を調べると。Finally, if we check the connection with the correction candidate "existing".

第8図の(6)のレコードより、前方の連接文字列の最
終文字を含む“面”に関する文字列情報が存在しない、
また、後方の連接文字列の最初の文字を含む“撤”に関
する文字列情報も存在しない。
From the record (6) in Figure 8, there is no character string information regarding the "face" that includes the final character of the preceding concatenated character string.
Furthermore, there is no character string information regarding "removal" that includes the first character of the concatenated character string at the end.

従って、訂正候補は、連接不可と判定される。Therefore, it is determined that the correction candidate cannot be connected.

以上のことから、連接可と判定される訂正候補は、“規
制”だけであるので、この“°規制”だけが正解候補と
して出力ファイル11に出力される。
From the above, since the only correction candidate that is determined to be concatenable is "Regulation," only "°Regulation" is output to the output file 11 as a correct answer candidate.

以上説明したように、正解である“規制”を訂正候補と
して出力ファイルに出力することができる。
As explained above, the correct answer "Regulation" can be output to the output file as a correction candidate.

このような構造および作用となっていることから、従来
の方法に比べて。
Because of this structure and operation, compared to conventional methods.

・誤って使用されている同音異義語を的確に抽出するこ
とができる。
・It is possible to accurately extract homonyms that are incorrectly used.

・「誤りである」と判定された語を訂正候補に置き換え
て、同音異義語連接判定テーブルを用いた検定を行い、
訂正候補を選択するので、正しい候補を出力することが
できる。
・Replace the word determined to be "incorrect" with a correction candidate and perform a test using a homophone conjunction determination table,
Since correction candidates are selected, correct candidates can be output.

・人手による検定よりも工数が小さい。・Less man-hours than manual verification.

の各点で改善された。improved in each respect.

以上の例では、連接可否をQ、Xの2値で表したが、他
に、同音異義語の前方または後方の各文字列に対する出
現頻度を、同音異義語全体の出現頻度で正規化した出現
割合を用いて5これがあるしきい値を越えたときに連接
可としてもよい。
In the above example, the possibility of concatenation is expressed as a binary value of Q and Using a ratio, it may be possible to connect when 5 exceeds a certain threshold.

また、上記の例では、同音異義語連接判定テーブルlO
の文字列は1文字であるが、これを2文字以上に拡張す
ることは容易である。
In addition, in the above example, the homophone conjunctive determination table lO
The character string is one character, but it is easy to expand it to two or more characters.

(5)発明の詳細 な説明したように1本発明によれば、入力装置から入力
された日本文文書中の入力誤り2文字認識不良による読
み取り誤り、あるいは、カナ漢字変換における単語の選
択誤りにより生じる名詞連続複合語内の同音異義語酸り
について。
(5) As described in detail of the invention, (1) according to the present invention, input errors in Japanese documents input from an input device; (2) reading errors due to poor character recognition; or incorrect word selection in kana-kanji conversion; On homophone acidification within noun-sequential compounds that occur.

■ 名詞連続複合語に含まれる同音異義語の誤りを該名
詞連続複合語を構成する名詞の連接可否情報(同音異義
語連接判定テーブルの形で保持)を用いて自動的に検定
することにより、誤って使用されているもののみを的確
に抽出することができる。
■ By automatically checking for errors in homophones included in continuous noun compounds using conjunctive information (maintained in the form of a homophone concatenation determination table) of the nouns constituting the continuous noun compound, Only incorrectly used items can be accurately extracted.

■ 訂正候補に対しても、同音異義語連接判定テーブル
を用いた検定を行い、連接可の訂正候補のみを出力する
ので、 isからしい訂正候補のみを提示できる。
■ Since correction candidates are also tested using the homophone conjunction determination table and only correction candidates that can be connected are output, only correction candidates that are likely to be from is can be presented.

■ 検定の結果、誤っていると判定されたもののみを抽
出し、訂正候補を提示するのであるから。
■ As a result of the test, only those determined to be incorrect are extracted and correction candidates are presented.

人手による検定よりも工数が小さい。It requires less man-hours than manual verification.

■ 同音異義語の誤りを検出した場合に、その訂正候補
を出力するので、訂正作業を容易に行うことができる。
■ When a homophone error is detected, correction candidates are output, making correction work easier.

■ 同音異義語連接判定テーブルは1文書データから容
易にかつ機械的に作成することが可能である。
■ A homophone conjunction determination table can be easily and mechanically created from one document data.

■ 検定対象を拡張する際には、同音異義語テーブルと
同音異義語連接判定テーブルとに、該拡張部分のみのデ
ータを追加すればよく、検定対象の拡張性に優れている
(2) When expanding the test target, it is sufficient to add data only for the expanded portion to the homophone table and the homophone concatenation determination table, resulting in excellent expandability of the test target.

の利点がある。There are advantages.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明をハードウェアによって構成した基本構
成図、第2図は同音異義語テーブルのフィールド構成図
、第3図は同音異義語連接判定テーブルのフィールド構
成図、第4図は同音異義語連接判定テーブル中の文字列
情報の構成図、第5図は本発明の動作の概略フロー、第
6図は実施例の説明に用いた名詞連続複合語の形態素解
析結果。 第7図は同音異義語テーブルの内容例、第8図は同音異
義語連接判定テーブルの内容例である。 1・・・形態素解析部、2・・・同音異義語抽出部、3
・・・同音異義語検定部、4・・・同音異義語候補抽出
部。 訃・・同音異義語候補検定部、6・・・テーブル検索部
。 7・・・日本語単語辞書、8・・・文法辞書、9・・・
同音異義語テーブル、10・・・同音異義語連接判定テ
ーブル 11・・・出力ファイル、12・・・日本文誤
り自動検定・訂正装置、13・・・同音異義語の読み、
14・・・同音異義語字面、15・・・同音異義語字面
、16・・・文字列情報、17・・・文字列字面、1日
・・・前方連接可否、19・・・後方連接可否。 特許出願人 日本電信電話株式会社
Figure 1 is a basic configuration diagram of the present invention configured by hardware, Figure 2 is a field configuration diagram of a homophone table, Figure 3 is a field configuration diagram of a homophone conjunction determination table, and Figure 4 is a homophone A configuration diagram of character string information in a word concatenation determination table, FIG. 5 is a schematic flow of the operation of the present invention, and FIG. 6 is a morphological analysis result of a noun continuous compound word used to explain the embodiment. FIG. 7 shows an example of the contents of the homophone table, and FIG. 8 shows an example of the contents of the homophone conjunction determination table. 1... Morphological analysis section, 2... Homophone extraction section, 3
... Homonym test unit, 4... Homophone candidate extraction unit. Death: homophone candidate test section, 6: table search section. 7... Japanese word dictionary, 8... Grammar dictionary, 9...
Homophone table, 10... Homophone conjunction judgment table 11... Output file, 12... Automatic Japanese sentence error verification/correction device, 13... Homophone reading,
14... Homophone character surface, 15... Homophone character surface, 16... Character string information, 17... Character string character surface, 1st... Possibility of forward concatenation, 19... Possibility of backward concatenation. . Patent applicant Nippon Telegraph and Telephone Corporation

Claims (1)

【特許請求の範囲】 入力装置から入力された日本文文書中の誤りにより生じ
る名詞連続複合語内の同音異義語誤りについて、 日本語単語辞書と文法辞書とを用いた形態素解析によっ
て、名詞連続複合語を単語列に分割し、各単語の読みや
品詞などの形態素情報を得る第1の手段と、 同一の読みを有する単語である同音異義語群をその読み
をキーとして収録した同音異義語テーブルと、 該同音異義語テーブルに収録された各同音異義語につい
て、該同音異義語字面と前後の文字列との連接可能性を
、該同音異義語字面をキーとして保持する同音異義語連
接判定テーブルと、 第1の手段において単語列に分割された名詞連続複合語
を構成する各単語をキーとして前記の同音異義語テーブ
ルを検索し、検定すべき同音異義語が存在する場合に検
定を開始する第2の手段と、該検定すべき同音異義語の
字面をキーとして、前記の同音異義語連接判定テーブル
を検索し、その結果、該同音異義語と前後の文字列との
連接可能性がない、もしくは、同音異義語連接判定テー
ブル中に該連接可能性が登録されていない場合に、該同
音異義語を誤りであると検定する第3の手段と、 第3の手段において誤りであると検定された同音異義語
の読みをキーとして前記の同音異義語テーブルを検索す
ることによって、該同音異義語の訂正候補を取得する第
4の手段と、 第4の手段において取得された訂正候補の字面をキーと
して前記の同音異義語連接判定テーブルを検索し、その
結果、前後の文字列との連接可能性がある訂正候補のみ
を該同音異義語誤りの正解候補として出力する第5の手
段と から構成されることを特徴とする日本文誤り自動検定・
訂正方式。
[Scope of Claims] Homophone errors in noun continuous compounds caused by errors in Japanese documents input from an input device can be solved by morphological analysis using a Japanese word dictionary and a grammar dictionary. The first method is to divide words into word strings and obtain morphological information such as the pronunciation and part of speech of each word, and a homophone table that stores homophone groups, which are words with the same pronunciation, using the pronunciation as a key. and, for each homophone recorded in the homophone table, a homophone conjunctive determination table that stores the possibility of concatenation between the homophone font and the preceding and succeeding character strings, using the homonym font as a key. and searching the homophone table using each word constituting the noun continuous compound word divided into word strings in the first means as a key, and starting the test if there is a homophone to be tested. Using the second means and the font of the homophone to be tested as a key, the above-mentioned homophone concatenation determination table is searched, and as a result, there is no possibility of concatenation between the homophone and the preceding and succeeding character strings. or a third means for testing the homophone as an error when the possibility of conjunction is not registered in the homophone conjunction determination table; and a third means for testing the homophone as an error in the third means a fourth means for obtaining correction candidates for the homophone by searching the homophone table using the pronunciation of the homophone as a key; and a font of the correction candidate obtained in the fourth means. a fifth means for searching the above-mentioned homophone concatenation determination table using as a key, and outputting only correction candidates that are likely to be concatenated with preceding and succeeding character strings as correct answer candidates for the homophone error; Japanese sentence error automatic test, which is characterized by
Correction method.
JP63258747A 1988-10-14 1988-10-14 Automatic test and correction system for japanese sentence error Pending JPH02105968A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63258747A JPH02105968A (en) 1988-10-14 1988-10-14 Automatic test and correction system for japanese sentence error

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63258747A JPH02105968A (en) 1988-10-14 1988-10-14 Automatic test and correction system for japanese sentence error

Publications (1)

Publication Number Publication Date
JPH02105968A true JPH02105968A (en) 1990-04-18

Family

ID=17324521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63258747A Pending JPH02105968A (en) 1988-10-14 1988-10-14 Automatic test and correction system for japanese sentence error

Country Status (1)

Country Link
JP (1) JPH02105968A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019057095A (en) * 2017-09-20 2019-04-11 大日本印刷株式会社 Document generation device, model generation device, calibration device and computer program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019057095A (en) * 2017-09-20 2019-04-11 大日本印刷株式会社 Document generation device, model generation device, calibration device and computer program

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
EP0415000B1 (en) Method and apparatus for spelling error detection and correction
TW448381B (en) Automatic segmentation of a text
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPS63254559A (en) Spelling aid for compound word
JP2000298667A (en) Kanji converting device by syntax information
Ganfure et al. Design and implementation of morphology based spell checker
JPH02105968A (en) Automatic test and correction system for japanese sentence error
KR100420474B1 (en) Apparatus and method of long sentence translation using partial sentence frame
KR100452024B1 (en) Searching engine and searching method
Angkawattanawit et al. Thai q-cor: Integrating word approximation and soundex for thai query correction
JPS6394365A (en) Qualifying device for wrong document in japanese sentence
JPH11338863A (en) Automatic collection and qualification device for unknown noun and flickering katakana word and storage medium recording processing procedure of the device
JP2595047B2 (en) Japanese sentence automatic verification and correction device
KR20000039406A (en) Method for indexing compound noun with complement-predicate relation through part sentence structure analysis
KR100422809B1 (en) Long sentence partition method for machine translation
JP2595043B2 (en) Automatic Japanese text error verification device
JPH04330565A (en) Natural language processing system using universal file
JPH0630098B2 (en) Kana-Kanji converter
JP2895137B2 (en) Japanese sentence error automatic detection and correction device
JPH06149872A (en) Text input device
HASANPOUR et al. Design and implementation of a software system for detecting orthographical or morphological errors in persian words
JP2001125907A (en) Method and device for retrieving dictionary and recording medium recording dictionary retrieving program
JPH01281561A (en) Method for extracting japanese sentence correcting candidate character
JPS63187299A (en) Word spelling-pronunciation sign conversion system