JP2001229162A - Method and device for automatically proofreading chinese document - Google Patents
Method and device for automatically proofreading chinese documentInfo
- Publication number
- JP2001229162A JP2001229162A JP2000036725A JP2000036725A JP2001229162A JP 2001229162 A JP2001229162 A JP 2001229162A JP 2000036725 A JP2000036725 A JP 2000036725A JP 2000036725 A JP2000036725 A JP 2000036725A JP 2001229162 A JP2001229162 A JP 2001229162A
- Authority
- JP
- Japan
- Prior art keywords
- character
- candidate
- unit
- dictionary
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は文書自動校正方法及
びその装置に関し、特に、中国語文書中の誤字、脱字、
余り字を自動的に検出、修正する中国語文書自動校正方
法及びその装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an automatic document proofreading method and an apparatus therefor, and more particularly, to erroneous or missing characters in a Chinese document.
The present invention relates to an automatic proofreading method and apparatus for automatically detecting and correcting surplus characters.
【0002】[0002]
【従来の技術】近年以来、電子計算機の進歩と普及に伴
い、中国語入力スピードを高める必要が生じてきた。こ
のため、中国語入力法が種々提案されている。コードに
よる方式の中国語の入力法には大別すると、一般のキー
ボードと専用入力装置などがある。一般のキーボードを
利用する入力方式は次に示されている。(一)漢字の読
みによる入力方式、(二)漢字の字形による入力方式、
(三)字形と読みの組み合わせによる入力方式、(四)
文字コードによる入力方式、(五)部首もしくは字画数
による入力方式等である。専用入力装置は例えば、専門
の大きいキーボードやOCR(光学的文字認識装置)や
音声入力等である。2. Description of the Related Art In recent years, with the progress and spread of electronic computers, it has become necessary to increase the Chinese input speed. For this reason, various Chinese input methods have been proposed. Code-based Chinese input methods can be broadly classified into general keyboards and dedicated input devices. An input method using a general keyboard is shown below. (1) Kanji reading input method, (2) Kanji character form input method,
(3) Input method by combination of character shape and reading, (4)
There are an input method using character codes, and (5) an input method using radicals or the number of strokes. The dedicated input device is, for example, a specialized keyboard, OCR (optical character recognition device), voice input, or the like.
【0003】中国語入力法は漢字を書くときの困難さを
解消できる方法を提供している。しかし、コンピュータ
より入力された中国語の文書ファイルにおいて、従来か
らよく間違えられるもの、例えば、字画の書き間違い、
当て字などの問題を解消できるが、ほかの誤り、例え
ば、同音異義字、類似字、脱字を避けることはやはりで
きない。一般的に言えば、中国語文書ファイルにおける
誤りになる原因は以下に示すように分けられる。[0003] The Chinese input method provides a method that can eliminate the difficulty in writing Chinese characters. However, in a Chinese document file input from a computer, those that are often mistaken in the past, for example,
Although it is possible to solve the problem of guessing characters and the like, it is still impossible to avoid other errors such as homonyms, similar characters, and missed characters. Generally speaking, the causes of errors in a Chinese document file can be divided as follows.
【0004】(1)読み記号を正しく入力できないこと 一般的に、中国語の読み記号は声母、韻母、介音、声調
に区分することができる。 声母: b,p,m,… 介音: i,u,yu,iu, … 韻母: a,o,e … 声調: 1(一声)、2(二声)、3(三声)、4(四声)、0
(軽声) 例えば、[形]の読み記号は[xing2]である。そのうち、
[x]は声母で、[i]は介音で、[ng]は韻母で、[2]は声調
である。(1) Inability to correctly input phonetic symbols In general, Chinese phonetic symbols can be classified into initials, finals, vowels, and tones. Vowel: b, p, m,… Intermediate: i, u, yu, iu,… Rhyme: a, o, e… Tone: 1 (one voice), 2 (two voices), 3 (three voices), 4 ( 4 voices), 0
(Light voice) For example, the reading symbol of [shape] is [xing2]. Of which
[x] is the initial, [i] is the vowel, [ng] is the final, and [2] is the tone.
【0005】ここで、中国人にとってよく間違えられる
読み記号の組を以下に示す。 声母部分: [sh]と[s]または[q]と[x]等 介音部分: [i]と[yu] 韻母部分: [eng]と[en]または[an]と[ang]等 声調部分: 頻繁に間違えられる。特に中国人以外の外
国人にとって正しい声調を発音するのは難しいことであ
る。例えば、[興趣](xing4qyu4)がよく(xing4qi4)
と発音されるところ、入力すると「性器」になる。[0005] Here, a set of reading symbols that are often mistaken by Chinese is shown below. Initial part: [sh] and [s] or [q] and [x] etc. Intermediate part: [i] and [yu] Final part: [eng] and [en] or [an] and [ang] etc. Part: Frequently mistaken. It is especially difficult for non-Chinese foreigners to pronounce the correct tone. For example, [interest] (xing4qyu4) is often (xing4qi4)
When it is pronounced, it becomes "genital" when input.
【0006】(2)字形の組合せを正しく入力できない
こと 字形入力の場合、間違った組合せを入力すると、正しい
結果が得られない。台湾でよく使われている倉頡入力法
を例として説明する。例えば、[受]の字形の組合せ記号
列は[月月水]である。但し、[月月心水]という字形の組
合せ記号列を入力すると、[愛]という文字になる。[受]
と[愛]の字形組合せ記号列がよく類似しているので、入
力する場合、よく間違えられる。OCR(光学的文字認
識装置)による文字入力の場合、正しい結果が得られな
い原因は字形の組合せを正しく認識できないことにあ
る。(2) Inability to correctly input a combination of character shapes In the case of character shape input, if a wrong combination is input, a correct result cannot be obtained. The following is an example of the Cangjie input method commonly used in Taiwan. For example, the combination symbol string of the shape of [U] is [Tsuki]. However, if you enter a combination symbol string in the shape of [moon moon Shinsui], the character will become [love]. [Receive]
And [Love] are similar, so they are often mistaken when inputting. In the case of character input by an OCR (Optical Character Recognition Apparatus), the reason why a correct result cannot be obtained is that character combinations cannot be recognized correctly.
【0007】(3)同音異義字 中国語の文字の読み記号は1,345個あり、コンピュータ
システムでよく使われている漢字数は13,053字(例え
ば、BIGコード)がある。したがってある部分の中国
語文字にとって同じ読み記号でもいくつかの漢字候補が
ある。このため、読み記号を入力する場合、同音字候補
から正しい漢字を選択する必要である。例えば、[按部
就班]がよく[按歩就班]と誤入力される。(3) Homonymous characters There are 1,345 reading symbols for Chinese characters, and the number of Chinese characters often used in computer systems is 13,053 (for example, BIG code). Therefore, there are several kanji candidates for the same reading symbol for a certain part of Chinese characters. Therefore, when inputting a reading symbol, it is necessary to select a correct kanji from the same phonetic character candidates. For example, [approve group] is erroneously input as [approve group].
【0008】(4)参照辞書の誤り いずれの入力法においても参照辞書を利用して変換を行
う。例えば、読み記号を主とする入力法はその参照辞書
が音字辞書であり、字形の組み合わせを主とする入力法
はその参照辞書が字形辞書である。この参照辞書の内容
に誤りがあった場合、入力結果はもちろん誤りになる。(4) Error in reference dictionary In any input method, conversion is performed using a reference dictionary. For example, in the input method mainly using the reading symbols, the reference dictionary is a phonetic dictionary, and in the input method mainly using the combination of character forms, the reference dictionary is the character dictionary. If there is an error in the contents of the reference dictionary, the input result will of course be incorrect.
【0009】(5)入力操作の誤り 普通、文書を作成するには各種の文書編集ソフトウェア
を利用する。しかし、[挿入]または[削除]などの編集機
能を使用する場合、注意深く操作しないと、文書におけ
る余り字または脱字を惹起する可能性が高い。(5) Error in input operation Generally, various document editing software is used to create a document. However, when using editing functions such as [insert] or [delete], if not carefully operated, there is a high possibility that surplus or missing characters in the document will be caused.
【0010】中国語文書ファイルにおいて、誤字は、文
書の品質に大きな影響を及ぼす。それで、如何に効率的
に中国語文書ファイル内の誤りを検出して自動的に訂正
するかは重要な課題である。In Chinese document files, typographical errors have a significant effect on document quality. Thus, how to efficiently detect and automatically correct errors in a Chinese document file is an important issue.
【0011】従来の中国語文書自動校正方法及びその装
置は、例えば、中華民国専利公報第260772号に示
されるようなものがある。図16は、この従来例の構成
図である。同図において、100は処理しようとする中
国語文書を入力する入力装置である。110は、処理し
ようとする中国語文書を格納している中国語文書ファイ
ルである。120は、総合類似字集を参照して入力され
た中国語文書における文字毎に類似文字に変換し、変換
された類似文字から複数の候補文字列を組み合わせる総
合類似字形置換装置である。130は、中国語文字の字
形、字音、意味、入力コードに類似する文字等を記憶し
ている総合類似字集である。以下はその例である(S:
字形類似、P:字音類似、M:意味類似、I:入力コー
ド類似)。[0011] A conventional Chinese document automatic proofing method and apparatus are disclosed in, for example, US Patent Publication No. 260772. FIG. 16 is a configuration diagram of this conventional example. In FIG. 1, reference numeral 100 denotes an input device for inputting a Chinese document to be processed. Reference numeral 110 denotes a Chinese document file storing a Chinese document to be processed. Reference numeral 120 denotes a comprehensive similar character replacement device that converts each character in a Chinese document input with reference to the comprehensive similar character collection into similar characters, and combines a plurality of candidate character strings from the converted similar characters. Reference numeral 130 denotes a comprehensive similar character collection that stores characters similar to the character shape, character sound, meaning, input code, and the like of Chinese characters. The following is an example (S:
Character shape similar, P: character sound similar, M: semantic similar, I: input code similar).
【0012】人:入SPerson: Enter S
【外1】 己:已S、乙S、巳S 干:甘P、乾P、千S 弋:戈S 冶:治S 140は各候補文字列に評価を与えて評価された各候補
文字列から一番評価が高い候補文字列を検出する言語パ
ターン評価装置である。150は評価装置であり、
(a)言語パターン統計データベースと(b)評価装置
からなる。(a)言語パターン統計データベースは各言
語単位の使用頻度、言語単位間の接続使用頻度を記録
し、且つ、各語の頻度を記録する中国語知識データベー
スを含む。(b)評価装置は一文字列に対してその言語
単位及び言語パターン統計データベースにより、該文字
列に点数を付ける。そのうえ、該原始文文書ファイルに
ない文字に対して点数を減ずる。160は動的計画法に
より、一番評価が高い候補文字列を検出する最高評価候
補文字列検出装置である。170は逐字マッチング方式
により、該最高評価候補文字列と該文書ファイルにおけ
る文字列を照合して相異の文字を誤字としてマークする
誤字判定装置である。180はマーク終了の文字列を標
示後文書ファイルに出力する標示結果出力装置である。
190はマークされた文字列を格納している標示後文書
ファイルである。[Outside 1] Self: Already-S, Otsu-S, Mi-S D: Ama-P, Inui-P, Sen-Si: Go-S-ji: Osamu S 140 gives the best evaluation to each candidate character string evaluated from each candidate character string. Is a language pattern evaluation device that detects a candidate character string with a high score. 150 is an evaluation device,
It comprises (a) a language pattern statistical database and (b) an evaluation device. (A) The language pattern statistics database includes a Chinese knowledge database that records the usage frequency of each language unit, the connection usage frequency between language units, and records the frequency of each word. (B) The evaluation device attaches a score to one character string based on the language unit and the language pattern statistical database. In addition, the points for characters not in the source sentence document file are reduced. Reference numeral 160 denotes a highest-evaluation candidate character string detection device that detects a candidate character string having the highest evaluation by dynamic programming. Reference numeral 170 denotes an erroneous character judging device that matches the highest evaluation candidate character string with a character string in the document file and marks a different character as an erroneous character by a character matching method. Reference numeral 180 denotes a labeling result output device that outputs a character string indicating the end of the mark to a document file after labeling.
Reference numeral 190 denotes a post-marking document file storing a marked character string.
【0013】以下、この従来例の動作を説明する。The operation of this conventional example will be described below.
【0014】入力装置100により、中国語文書ファイ
ル110から処理しようとする中国語文書が入力され
る。区切りの位置により、入力された中国語文書はいく
つかの処理単位に分けられ総合類似字形置換装置120
に入力される。総合類似字形置換装置120では、各処
理単位によって総合類似字集130を参照して字形類
似、或は字音類似、或は意味類似、或は入力コード類似
の全ての類似文字を取り出して複数の候補文字列を組み
合わせてから、その候補文字列を言語パターン評価装置
140に入力する。言語パターン評価装置140では、
評価装置150における統計的言語パターンにより、各
候補文字列に評価を与え、言語パターン評価により、原
始文書ファイルにない文字に対して点数を減ずる。最高
評価候補文字列検出装置160では、動的計画法によ
り、最高評価候補文字列を検出し、誤字判定装置170
に入力する。誤字判定装置170では、最高評価の候補
文字列と入力された原始文書ファイルとを逐字に照合
(マッチング)して相異文字があったところを誤字とし
てマークし、標示結果出力装置180に入力する。標示
結果出力装置180はマークされた文字列を標示後文書
ファイル190へ出力する。The input device 100 receives a Chinese document to be processed from the Chinese document file 110. The input Chinese document is divided into several processing units according to the position of the delimiter, and the integrated similar character replacement device 120 is used.
Is input to The overall similar character replacement unit 120 extracts all similar characters having similar character shapes, similar character sounds, similar meanings, or similar input codes by referring to the comprehensive similar character collection 130 for each processing unit, and extracting a plurality of candidate characters. After combining the character strings, the candidate character strings are input to the language pattern evaluation device 140. In the language pattern evaluation device 140,
Each candidate character string is evaluated by the statistical language pattern in the evaluation device 150, and the score is reduced by a language pattern evaluation for characters that are not in the source document file. The highest evaluation candidate character string detection device 160 detects the highest evaluation candidate character string by dynamic programming, and
To enter. The typographical error determination device 170 matches the highest-rated candidate character string with the input source document file one by one to mark a mismatched character as an erroneous character. I do. The labeling result output device 180 outputs the marked character string to the document file 190 after labeling.
【0015】[0015]
【発明が解決しようとする課題】しかしながら、前記従
来の技術に係る方法及びその装置においては、以下のよ
うな問題点がある。However, the method and apparatus according to the above-mentioned prior art have the following problems.
【0016】(1)総合類似字集に登録されていない文
字を検出、訂正することはできない。そのために、知識
ベースを作成し保守すると、多くの工数と資源や経費が
必要になる。よりよい校正率を得るために、詳しい字集
を作ることはできるが、候補字の増加により運算効率は
大幅に減少する。(1) Characters that are not registered in the comprehensive similar character collection cannot be detected and corrected. Therefore, creating and maintaining a knowledge base requires many man-hours, resources, and expenses. To get a better proofreading rate, it is possible to create a detailed lexicon, but the increase in the number of candidate characters greatly reduces the operational efficiency.
【0017】(2)言語パターン評価装置では、各語の
使用頻度と言語単位間の接続使用頻度のみを考え、意味
情報や品詞属性情報などを利用していないため、検出率
と訂正率は高くならない。(2) The language pattern evaluation device considers only the frequency of use of each word and the frequency of connection between language units and does not use semantic information or part-of-speech attribute information, so that the detection rate and the correction rate are high. No.
【0018】(3)中国語文書における脱字、余り字、
文字順序エラーなどの問題を効率的に解消できない。(3) Omissions, surplus characters in Chinese documents,
Problems such as character order errors cannot be solved efficiently.
【0019】(4)現有の知識ベース、例えば、入力法
用の参照字典、辞書などを利用できないので、開発資源
を費やすということになり、効率的とは言えない。(4) Since the existing knowledge base, for example, reference lexicons and dictionaries for the input method cannot be used, development resources are consumed, which is not efficient.
【0020】[0020]
【課題を解決するための手段】本発明による中国語自動
文書校正方法は、入力部と、記憶部と、出力部とを備え
た装置上での中国語自動文書校正方法であって、中国語
破音字とそれに対応する読み記号とを、前記読み記号に
対応する全ての候補字及びその読み記号とともに格納し
た破音字典部と、中国語の文字とそれに対応するデフォ
ルトの読み記号とその考えられる読み記号を格納した字
音辞書部と、中国語の読み記号、それに対応する全ての
同音異義字、語、そのすべての同音異義字、語の使用頻
度重み、品詞属性記号および意味コードを格納した音字
辞書部と、中国語文字とそれに対応する字形組合せ記号
列とを格納した字形辞書部と、学習された品詞接続情報
を格納した品詞情報部と、学習された相隣接する後続語
の意味コードと先行語の意味コードとの組み合わせを格
納した意味情報部とを作成する作成ステップと、前記入
力部から文字列を含む原始文書を入力するステップと、
前記破音字典部及び前記字音辞書部を参照して前記原始
文書の前記文字列を、読み記号列に変換する文字対読み
変換ステップと、前記読み記号列に対して音節を切り出
し、切り出された前記音節を検索キーとして前記音字辞
書部を参照し、全ての考えられる候補語及びその関連情
報を検出し、削除手段により使用頻度がしきい値より低
い候補字を削除して、連続した単漢字候補列に対応する
読み記号列とその字形組合せ記号列とに対して類似音マ
スク手段と、読み音マスク手段と、字形マスク手段とを
使って、前記字音辞書部と、前記字形辞書部と、前記音
字辞書部とを参照して、前記考えられる候補語とその関
連情報を検出する候補語生成ステップと、類似音マスク
手段と字形マスク手段とにより得られた全ての候補字の
組み合わせに対して前記字音辞書部を参照してその対応
する読み記号列を検出し、検出された前記読み記号列を
検索キーとして前記音字辞書部を参照し、全ての考えら
れる候補語とその関連情報とを検出する候補語決定ステ
ップと、前記原始文書の前記文字列に対応する各候補語
の開始位置、終了位置をインデックスとして各候補語を
連接して有向ネットを形成し、計算手段により、品詞情
報部と意味情報部とを参照して、各候補語の品詞重みと
意味類似度重みとを計算し、前記品詞重みと前記意味類
似度重みと前記使用頻度重みと語長重みと原始文書類似
度重みとの累計最大値を評価関数として、動的計画法に
より、最適な経路を取り出す最適候補文字列決定ステッ
プと、取り出された前記最適な経路における文字列と前
記原始文書の前記文字列とをマッチングして相異字を検
出し、マークするマッチングステップとを含む中国語文
書自動校正方法である。SUMMARY OF THE INVENTION An automatic Chinese document proofing method according to the present invention is an automatic Chinese document proofing method on an apparatus provided with an input unit, a storage unit, and an output unit. A broken phonetic character section that stores a break character and its corresponding phonetic symbol together with all candidate characters corresponding to the phonetic symbol and the phonetic symbol, a Chinese character and a default phonetic symbol corresponding to the Chinese character A phonetic dictionary containing pronunciation symbols, Chinese pronunciation symbols, all homonyms, words, all homonyms, usage frequency weights, part of speech attribute symbols and meaning codes A dictionary part, a character-shaped dictionary part storing Chinese characters and a corresponding character-shaped combination symbol string, a part-of-speech information part storing learned part-of-speech connection information, and a learned semantic code of an adjacent succeeding word. Destination A creation step of creating a semantic information unit that stores a combination of the meanings code word, comprising the steps of inputting a source document containing a character string from the input unit,
A character-to-reading conversion step of converting the character string of the source document to a reading symbol string with reference to the broken character dictionary section and the syllabary dictionary section, and cutting out a syllable for the reading symbol string, Referring to the syllabic dictionary section using the syllable as a search key, all possible candidate words and related information are detected, and candidate characters whose use frequency is lower than a threshold are deleted by deletion means, and continuous single kanji characters are deleted. Using a similar sound masking means, a reading sound masking means, and a character shape masking means for the reading symbol string corresponding to the candidate string and its character combination symbol string, the character sound dictionary unit, the character shape dictionary unit, With reference to the phonetic dictionary section, a candidate word generating step of detecting the possible candidate words and their related information, and a combination of all the candidate characters obtained by the similar sound masking means and the character shape masking means. Referring to the syllabic dictionary part, the corresponding reading symbol string is detected, and the detected reading symbol string is used as a search key to refer to the phonetic dictionary part, and all possible candidate words and related information are detected. Candidate word determination step, and forming a directed net by connecting each candidate word using the start position and the end position of each candidate word corresponding to the character string of the source document as an index, And the semantic information section, calculate the part of speech weight and the semantic similarity weight of each candidate word, and calculate the part of speech weight, the semantic similarity weight, the use frequency weight, the word length weight, and the source document similarity weight. Using the cumulative maximum value of the evaluation function as an evaluation function and determining the optimal candidate character string to extract the optimal path by dynamic programming, and matching the extracted character string in the optimal path with the character string of the source document Detecting a grayed to phase Idi, a Chinese document automatic calibration method comprising the matching step marking.
【0021】本発明による中国語自動文書校正装置は、
文字列を含む原始文書を入力する入力部と、記憶部と、
出力部とを備えた装置上での中国語自動文書校正装置で
あって、中国語破音字とそれに対応する読み記号とを、
前記読み記号に対応する全ての候補字及びその読み記号
とともに格納する破音字典部と、中国語の文字とそれに
対応するデフォルトの読み記号と、その考えられる読み
記号とを格納する字音辞書部と、中国語の読み記号、そ
れに対応する全ての同音異義字、語、そのすべての同音
異義字、語の使用頻度重み、品詞属性記号および意味コ
ードを格納する音字辞書部と、中国語文字とそれに対応
する字形組合せ記号列とを格納する字形辞書部と、
「1」または「0」から構成する二次元マトリクスによ
って中国語の品詞接続情報を格納する品詞情報部と、学
習された相隣接する後続語の意味コードと先行語の意味
コードとの組み合わせを格納する意味情報部と、前記破
音字典部及び前記字音辞書部を参照して前記原始文書の
前記文字列を、読み記号列に変換する文字対読み変換部
と、前記読み記号列に対して音節を切り出し、切り出さ
れた前記音節を検索キーとして前記音字辞書部を参照
し、全ての考えられる候補語及びその関連情報を検出
し、削除手段により使用頻度がしきい値より低い候補字
を削除して、連続した単漢字候補列に対応する読み記号
列とその字形組合せ記号列とに対して類似音マスク手段
と、読み音マスク手段と、字形マスク手段とを使って、
前記字音辞書部と、前記字形辞書部と、前記音字辞書部
とを参照して、前記考えられる候補語とその関連情報を
検出する候補語生成部と、類似音マスク手段と字形マス
ク手段とにより得られた全ての候補語の組み合わせに対
して前記字音辞書部を参照してその対応する読み記号列
を検出し、検出された前記読み記号列を検索キーとして
前記音字辞書部を参照し、全ての考えられる候補語とそ
の関連情報とを検出する候補語決定部と、前記原始文書
の前記文字列に対応する各候補語の開始位置、終了位置
をインデックスとして各候補語を連接して有向ネットを
形成し、計算手段により、品詞情報部と意味情報部とを
参照して、各候補語の品詞重みと意味類似度重みとを計
算し、前記品詞重みと前記意味類似度重みと前記使用頻
度重みと語長重みと原始文書類似度重みとの累計最大値
を評価関数として、動的計画法により、最適な経路を取
り出す最適候補文字列決定部と、取り出された前記最適
な経路における文字列と原始文書文字列とをマッチング
して相異字を検出し、マークするマッチング部とを備え
た中国語文書自動校正装置である。The Chinese automatic document proofreading apparatus according to the present invention comprises:
An input unit for inputting a source document including a character string, a storage unit,
An automatic Chinese document proofreading device on a device having an output unit, the method comprising:
A broken character section that stores all the candidate characters corresponding to the reading symbols and their reading symbols, a Chinese character and a default reading symbol corresponding thereto, and a character dictionary section that stores the possible reading symbols. , A phonetic dictionary that stores Chinese phonetic symbols, all corresponding homonyms, words, all homonyms, word usage frequency, part-of-speech attribute symbols and semantic codes, and Chinese characters and A glyph dictionary for storing a corresponding glyph combination symbol string;
A part-of-speech information section that stores Chinese part-of-speech connection information by a two-dimensional matrix composed of “1” or “0”, and stores a combination of the learned semantic code of the adjacent succeeding word and the preceding word that have been learned. A character-to-reading conversion unit that converts the character string of the source document into a reading symbol string with reference to the broken character dictionary unit and the phonetic dictionary unit, and a syllable for the reading symbol string. And referencing the syllabic dictionary as a search key using the cut-off syllables, detecting all conceivable candidate words and their related information, and deleting candidate characters whose use frequency is lower than a threshold value by deletion means. By using a similar sound masking means, a reading sound masking means, and a character shape masking means for a reading symbol string corresponding to a continuous single Kanji candidate string and its character combination symbol string,
By referring to the character dictionary, the character dictionary, and the phonetic dictionary, a candidate word generator for detecting the conceivable candidate word and its related information, a similar sound mask unit and a character mask unit For the combination of all the obtained candidate words, refer to the phonetic dictionary to detect the corresponding phonetic symbol string, and refer to the phonetic dictionary as the search key using the detected phonetic symbol string as a search key. A candidate word determination unit that detects possible candidate words and related information of the candidate words, and connects and directs each candidate word using the start position and the end position of each candidate word corresponding to the character string of the source document as an index. A net is formed, and the calculating means refers to the part-of-speech information section and the semantic information section to calculate the part-of-speech weight and the semantic similarity weight of each candidate word. Frequency weight and word length weight Using a cumulative maximum value of the source document similarity weights as an evaluation function, an optimal candidate character string determining unit that extracts an optimal path by dynamic programming, and a character string and an original document character string in the extracted optimal path. And a matching unit for detecting and marking a different character by matching characters.
【0022】[0022]
【発明の実施の形態】「意味」は形態素自身の意味(或
は意味コードという)である。以下に説明する本発明の
実施の形態では、角川書店から出版された類語辞典(1
985年)に示されている意味分類方法を採用した。こ
の意味分類方法では、一つの形態素のすべての分類情報
を大分類(一桁目)、中分類(二桁目)、小分類(三桁
目)、細分類(四桁目)の16進の4桁の数字により示
すものである。なお、ここに16進の数字を採用したの
は、計算機で16進(2バイト)の数字が広く採用され
ていることと、16進なら1桁で各分類に充分対応可能
なことによる。この類語辞典はすべての漢字、単語など
を「自然」、「性状」、「変動」、「行動」、「心情」、
「人物」、「性向」、「社会」、「学芸」、「物品」の十個
の大分類に分け、また各大分類を十個の中分類とし、各
中分類、小分類も同様の方法により、より細く分類され
る。以下はその表現方法である。DESCRIPTION OF THE PREFERRED EMBODIMENTS "Meaning" is the meaning of a morpheme itself (or a meaning code). In the embodiment of the present invention described below, a thesaurus (1) published by Kadokawa Shoten
985) was adopted. In this semantic classification method, all classification information of one morpheme is classified into hexadecimal of a large classification (first digit), a middle classification (second digit), a small classification (third digit), and a fine classification (fourth digit). This is indicated by a four-digit number. The reason why hexadecimal numbers are used here is that hexadecimal (2 bytes) numbers are widely used in computers, and that hexadecimal numbers can sufficiently correspond to each classification with one digit. This thesaurus describes all kanji, words, etc. in "natural", "character", "fluctuation", "action", "heart",
Divide into 10 major categories of "person", "propensity", "society", "gakugei", and "articles". , It is classified more finely. The following is the expression method.
【0023】 意味コード 説明 0 (「自然」類に属する) 02 (「自然」類の「気象」に属する) 028 (「自然」類の「気象」内の「風」に属する) 028a (「自然」類の「気象」内の「風」における「強弱」に属す る) このような階層的分類コードにおいて、上位の意味コー
ドの意味範囲は下位より広い。つまり、より下位の意味
コードの意味範囲は狭い。従って、実際の必要に合わせ
て意味コードを利用すればよいこととなり、あらかじめ
必要もないのに一々登録する必要性がなく、メモリを節
約できる。例えば、気象を表すには、「02」のみを使
ってよい。「021」、「0222」……などを一々登
録する必要はない。また、この意味コードは数字で表す
ので、数学の演算、例えば集合論理積により、意味コー
ドを処理する場合、意味コードから生じるより価値のあ
る情報を獲得することが可能となる。なお、意味コード
に関する詳しい説明は、中華民国専利公報N0.161
238号「機械翻訳装置」に掲載されているため、省略
する。Meaning Code Description 0 (belongs to “natural”) 02 (belongs to “weather” of “natural”) 028 (belongs to “wind” in “weather” of “natural”) 028a (“belongs to“ natural ”) (It belongs to “Strength” in “Wind” in “Meteorology” of “type.”) In such a hierarchical classification code, the meaning range of the upper meaning code is wider than that of the lower meaning code. In other words, the meaning range of the lower-order meaning code is narrow. Therefore, it is only necessary to use the semantic code according to the actual necessity, and there is no necessity of registering each one even though it is not necessary in advance, and the memory can be saved. For example, to represent weather, only “02” may be used. It is not necessary to register “021,” “0222”... In addition, since the meaning code is represented by a number, when the meaning code is processed by a mathematical operation, for example, a set logical product, it is possible to acquire more valuable information generated from the meaning code. For a detailed description of the meaning codes, refer to the Republic of China Patent Publication N0.161.
Since it is described in No. 238, “Machine Translation Apparatus”, its description is omitted.
【0024】中国語の漢字の読みの種類は約1300が
あり、それを符号化すれば、せいぜい2バイト(バイト
を単位化する場合)で済むが、そのうち、声母(子音)
は22個、介音は3個、韻母(母音)は14個、声調は
5個存在する。2バイトの中国語の漢字の読みの構造を
図1に示す。第1バイトは声母(ビット2〜ビット6)
と介音(ビット0〜1)を、第2バイトは声調(ビット
4〜6)と韻母(ビット0〜3)を含む。それで、例え
ば、第1バイトの介音領域をマスクして論理積演算手段
を使って、同じ声母、韻母、声調を持っている文字が検
出される。There are about 1300 types of Chinese kanji readings, and if they are encoded, they can be completed in at most two bytes (in the case of uniting bytes).
There are 22 vowels, 3 vowels, 14 vowels (vowels), and 5 tones. FIG. 1 shows the structure of 2-byte Chinese kanji reading. The first byte is the initial (bit 2 to bit 6)
And the second byte contains the tone (bits 4-6) and the final (bits 0-3). Thus, for example, a character having the same initial, final, and tone is detected by using the AND operation means while masking the first-byte intervening area.
【0025】マスク手段によって、各領域における類似
音を処理するために、各領域における類似した音韻要素
同士のビットパターン間の距離は1となっている。その
例を図2に示す。In order to process similar sounds in each area by the masking means, the distance between bit patterns of similar phoneme elements in each area is 1. An example is shown in FIG.
【0026】中国語の読みコンパクコードと類似ビット
配置の詳しい説明については、中華民国専利公報第08
9477号の漢字変換装置(一)を参照されたい。編集
上のミスからの余り字、脱字等の問題を処理したい場
合、本実施の形態におけるマスク手段は前述のビットの
マスクを行えるほか、文字(バイト)マスク手段として
も機能する。例えば、「ting2 ting2 * li4」もしくは
「ting2 * yu4 li4」(*:マスクされた文字を表す。
即ち、何れの文字でもよい。)を検索キーとして音字辞
書を参照することにより、「亭亭玉立」(ting2 ting2 y
u4 li4)を検出できる。For a detailed description of Chinese read compact codes and similar bit arrangements, refer to the Republic of China Patent Publication No. 08
See No. 9477, Kanji conversion device (1). When it is desired to deal with the problem of surplus or missing characters due to editing mistakes, the masking means in the present embodiment can mask the above-mentioned bits and also functions as character (byte) masking means. For example, “ting2 ting2 * li4” or “ting2 * yu4 li4” (*: represents a masked character.
That is, any character may be used. ) As a search key to refer to the phonetic dictionary, so that "teitei tamadate" (ting2 ting2 y
u4 li4) can be detected.
【0027】本実施の形態では類似字もしくは当て字等
の字形問題を処理するため、字形マスク手段を導入す
る。そのマスク記号は「$」である。例えば、 「E$
I」という字形の組合せ記号列を検索キーとして字形辞
書を参照して、字形類似した文字「法」及び「浅」を検
出できる。なお、「YJ$$J」を検索キーとして字形辞
書を参照して、字形類似した文字「辧」、「辨」、
「辯」、「辮」を検出できる。本実施の形態における中
国語文字の字形組合せは中華民国で常用されている倉頡
入力法に用いる字形組合せ方法を採用している。In this embodiment, a character masking means is introduced in order to deal with a character problem such as a similar character or a hit character. The mask symbol is “$”. For example, "E $
By referring to the glyph dictionary using the combination symbol string of the glyph "I" as a search key, it is possible to detect characters "" and "" which are similar in glyph. In addition, referring to the glyph dictionary using "YJ $$ J" as a search key, characters with similar glyphs such as "style", "ben",
"Ben" and "Ben" can be detected. The character combination of Chinese characters in the present embodiment employs a character combination method used in the Cangjie input method commonly used in the Republic of China.
【0028】なお、中華民国専利公報第0894766
号の漢字変換装置(二)を参照すると、読み記号列(表
音記号列)を文字列(漢字列)に変換する場合、語長
(単語における文字数)は一つの重要な評価要因とされ
ている。本実施の形態においても、語長重みは評価関数
の一つとされる。その計算式を以下に示す。It should be noted that the Republic of China Patent Publication No. 0894766
Referring to the Kanji conversion device (2), when converting a phonetic symbol string (phonetic symbol string) to a character string (kanji string), the word length (the number of characters in a word) is one of the important evaluation factors. I have. Also in the present embodiment, the word length weight is one of the evaluation functions. The calculation formula is shown below.
【0029】語長重み=(候補語の文字数―1)*2 例えば、候補語が「日月潭」である場合、その語長重み
が(3−1)*2=4となる。Word length weight = (number of characters of candidate word−1) * 2 For example, when the candidate word is “Sun Moon Lake”, the word length weight is (3-1) * 2 = 4.
【0030】また、原始文書における文字情報を利用し
て最適な経路を効率的に取り出すために、本実施の形態
において、原始文書類似度重みを評価関数の一つとす
る。その計算式を以下に示す。In addition, in order to efficiently extract an optimal path using character information in the source document, in the present embodiment, the source document similarity weight is used as one of the evaluation functions. The calculation formula is shown below.
【0031】原始文書類似度重み=(原始文書の文字と
それに対応する候補語をマッチングして同じ文字を持つ
数)/候補語の字数 なお、本実施の形態は品詞属性情報も導入している。例
えば、図8に示すように、この単語の品詞属性情報はマ
ークした後の大型コパスから相隣接する単語の品詞属性
種類、例えば名詞、形容詞、動詞等の品詞属性情報を参
照して自動的に学習して獲得する二次元マトリクスであ
る。「0」はこのような2種類の品詞属性は隣接する可
能性はないことを示す。「1」はこのような2種類の品
詞属性は隣接する可能性があることを示す。評価関数に
おける品詞重みの計算式を以下に示す。Source document similarity weight = (the number of matching characters in the source document and the corresponding candidate word and having the same character) / the number of characters in the candidate word This embodiment also introduces part of speech attribute information. . For example, as shown in FIG. 8, the part-of-speech attribute information of this word is automatically referred to from the large copas after marking, by referring to the part-of-speech attribute type of adjacent words, for example, part-of-speech attribute information such as nouns, adjectives, and verbs. It is a two-dimensional matrix obtained by learning. “0” indicates that there is no possibility that these two types of part of speech attributes are adjacent. "1" indicates that these two types of part of speech attributes may be adjacent. The formula for calculating the part of speech weight in the evaluation function is shown below.
【0032】品詞重み=(先行語の品詞属性,自身の品
詞属性)の品詞属性情報値*0.5本実施の形態では、
先行語、後続語の意味情報も導入されている。例えば、
図9に示すように、この単語の意味はマークした後の大
型コパスから単語の先行語、後続語の意味を参照して自
動的に学習して獲得するものである。若しくは、領域別
にマークされた後の文書の集まりから学習して獲得する
ものである。意味コードは階層的定義方式を採用するた
めに、先行語、後続語の意味類似度計算は集合論理積の
演算を行うことにより得られる。例えば、意味コード
[7140]と[714a]との集合論理積の演算結果は
[714]となる。この場合、三つのコードが一致してい
るので、意味コード類似度は3/4となる。なお、全部
のコードが一致している場合、意味類似度は1、二つの
コードが一致している場合には、意味類似度は2/4、
一つのコードが一致している場合には、意味類似度は1
/4、全然一致しない場合には、0とする。Part of speech weight = part of speech attribute information value of (part of speech attribute of preceding word, own part of speech attribute) * 0.5 In the present embodiment,
The semantic information of the preceding and succeeding words is also introduced. For example,
As shown in FIG. 9, the meaning of this word is obtained by automatically learning from the large-sized copath after marking and referring to the meanings of the preceding and succeeding words of the word. Alternatively, it is obtained by learning from a collection of documents that have been marked for each area. Since the semantic code adopts a hierarchical definition method, the calculation of the semantic similarity between the preceding word and the following word can be obtained by performing a set AND operation. For example, semantic code
The result of the set AND operation of [7140] and [714a] is
[714]. In this case, since the three codes match, the similarity code similarity is 3/4. When all codes match, the semantic similarity is 1; when two codes match, the semantic similarity is 2/4;
If one code matches, the semantic similarity is 1
/ 4, and 0 when there is no match at all.
【0033】図3は、本実施の形態における中国語文書
自動校正装置の構成を示す一例である。同図において、
250は、中国語破音字(意味によって字を読み分け、
二つ以上の発音をもつ字)とそれに対応する読み記号と
を、その読み記号に対応する全ての候補字及びその読み
記号とともに格納した破音字典部である。破音字典部2
50の概念図は、例えば図4に示される。再び図3を参
照して、260は、中国語の文字とそれに対応するデフ
ォルトの読み記号及びその考えられる読み記号を格納し
た字音辞書部である。字音辞書部260のデータ構造の
概念図は、例えば図5に示される。再び図3を参照し
て、350は、中国語の読み記号とそれに対応する全て
の同音異義字、語及びそのすべての同音異義字、語の使
用頻度重み、品詞属性記号、意味コードを格納した音字
辞書部である。音字辞書部350のデータ構造の概念図
は、例えば図6に示される。再び図3を参照して、45
0は、中国語文字及びそれに対応する字形組合せ記号列
を格納した字形辞書部である。字形辞書部450のデー
タ構造の概念図、例えば図7に示される。再び図3を参
照して、540は、「1」または「0」から構成する二
次元マトリクスによって中国語の品詞接続情報を格納し
た品詞情報部である。品詞情報部540のデータ構造の
概念図は、例えば図8に示される。再び図3を参照し
て、550は、学習された相隣接する後続語の意味コー
ドと先行語の意味コードとの組み合わせを格納した意味
情報部である。意味情報部550のデータ構造の概念図
は、例えば図9に示される。再び図3を参照して、10
0は、例えば、ハードディスク、キーボードなどの入力
装置により、原始文書を入力する入力部である。200
は、前記の破音字典部250及び字音辞書部260を参
照して入力部100より入力された原始文書における文
字列を読み記号列に変換する文字対読み変換部である。
300は候補語生成部である。候補語生成部300は、
前記文字対読み変換部200で得られた読み記号列に対
して音節を切り出し、切り出された音節を検索キーとし
て音字辞書部350を参照して全ての考えられる候補語
及びその関連情報を検出し、使用頻度がしきい値より低
い候補字を削除して連続した単漢字候補列に対応する読
み記号列とその字形組合せ記号列とに対して類似音マス
ク手段と、読み音マスク手段と、字形マスク手段とを使
い、また前記字音辞書部260と、前記字形辞書部45
0と、音字辞書部350とを参照して、考えられる候補
語及びその関連情報を検出する候補語生成部と、400
は、前記候補語生成部300で類似音マスク手段と字形
マスク手段によって得られた全ての候補字の組み合わせ
に対して字音辞書部260を参照してその対応する読み
記号列を検出し、検出された読み記号列を検索キーとし
て前音字辞書部350を参照し、全ての考えられる候補
語及びその関連情報を検出する候補語決定部である。5
00は、原始文書の文字列に対応する各候補語の開始位
置、終了位置をインデックスとして各候補語を連接して
有向ネットを形成したうえで、計算手段により、品詞情
報部540と意味情報部550を参照して各候補語の品
詞重み、意味類似度重みを計算し、品詞重みと意味類似
度重みと使用頻度重みと語長重みと原始文書類似度重み
との累計最大値を評価関数として動的計画法により、最
適な経路を取り出す最適候補文字列決定部である。60
0は、前記取り出された最適な経路における文字列と原
始文書文字列とをマッチングして相異字を検出してから
マークするマッチング部である。700は、前記最適文
字列とマークされた後の原始文書の文字列を出力する出
力部である。800は、入力された文字列及びその中間
処理結果を一時的に記録したバッファである。FIG. 3 is an example showing the structure of the automatic Chinese document proofreading apparatus according to the present embodiment. In the figure,
250 is a Chinese broken character (separate the character according to its meaning,
This is a broken character section in which a character having two or more pronunciations and a corresponding reading symbol are stored together with all candidate characters and the reading symbol corresponding to the reading symbol. Breaking sound dictionary 2
A conceptual diagram of 50 is shown, for example, in FIG. Referring to FIG. 3 again, reference numeral 260 denotes a phonetic dictionary that stores Chinese characters, their corresponding default phonetic symbols, and their possible phonetic symbols. A conceptual diagram of the data structure of the character dictionary unit 260 is shown in FIG. 5, for example. Referring again to FIG. 3, reference numeral 350 stores Chinese phonetic symbols and all corresponding homonyms, words and all homonyms thereof, word usage frequency weights, part of speech attribute symbols, and meaning codes. This is a phonetic dictionary section. A conceptual diagram of the data structure of the phonetic dictionary unit 350 is shown in, for example, FIG. Referring again to FIG.
Numeral 0 is a character dictionary storing Chinese characters and corresponding character combination symbol strings. A conceptual diagram of the data structure of the character dictionary 450 is shown in, for example, FIG. Referring to FIG. 3 again, reference numeral 540 denotes a part-of-speech information unit that stores the part-of-speech connection information in Chinese using a two-dimensional matrix including “1” or “0”. A conceptual diagram of the data structure of the part-of-speech information unit 540 is shown in, for example, FIG. Referring to FIG. 3 again, reference numeral 550 denotes a semantic information section storing a combination of the learned semantic code of the succeeding word and the semantic code of the preceding word that have been learned. A conceptual diagram of the data structure of the semantic information unit 550 is shown in, for example, FIG. Referring again to FIG.
Reference numeral 0 denotes an input unit for inputting a source document by using an input device such as a hard disk and a keyboard. 200
Is a character-to-reading conversion unit that converts a character string in a source document input from the input unit 100 into a reading symbol string with reference to the above-mentioned broken character dictionary unit 250 and character dictionary unit 260.
Reference numeral 300 denotes a candidate word generation unit. The candidate word generation unit 300
A syllable is cut out from the reading symbol string obtained by the character-to-reading conversion unit 200, and all possible candidate words and related information are detected by referring to the syllable dictionary unit 350 using the cut-out syllable as a search key. A similar sound masking means, a reading sound masking means, a reading sound masking means, Using a mask means, and further comprising the character dictionary 260 and the character dictionary 45.
0, a candidate word generation unit for detecting a possible candidate word and its related information by referring to the phonetic dictionary unit 350;
The candidate word generation unit 300 refers to the character dictionary unit 260 for all combinations of candidate characters obtained by the similar sound masking unit and the character shape masking unit, and detects the corresponding reading symbol string. A candidate word determining unit that detects all possible candidate words and their related information by referring to the preceding phonetic dictionary unit 350 using the read symbol string as a search key. 5
00 is formed by connecting the candidate words using the start position and the end position of each candidate word corresponding to the character string of the source document as an index to form a directed net, and then calculating the part-of-speech information unit 540 and the semantic information A part-of-speech weight and a semantic similarity weight of each candidate word are calculated with reference to the unit 550, and an evaluation function is obtained by calculating the maximum sum of the part-of-speech weight, the semantic similarity weight, the use frequency weight, the word length weight, and the source document similarity weight. Is an optimal candidate character string determination unit for extracting an optimal path by dynamic programming. 60
Reference numeral 0 denotes a matching unit that matches the extracted character string in the optimum path with the original document character string, detects a different character, and then marks the character. Reference numeral 700 denotes an output unit that outputs a character string of the source document after being marked as the optimum character string. A buffer 800 temporarily stores the input character string and the intermediate processing result.
【0034】本実施の形態における文字対読み変換部2
00の動作フローを図10に示す。Character-to-reading conversion unit 2 in the present embodiment
FIG. 10 shows the operation flow of 00.
【0035】以下、同図を参照しつつその動作を説明す
る。Hereinafter, the operation will be described with reference to FIG.
【0036】(S201) 入力部100により原始文
書の文字列を入力してからバッファ800に記録する。(S 201) A character string of a source document is input by the input unit 100 and then recorded in the buffer 800.
【0037】(S205) 字音辞書部260を参照し
て入力された原始文書の文字列を音節毎に切り出してか
ら、 (S210)の処理に入る。(S205) The character string of the source document input with reference to the syllabic dictionary unit 260 is cut out for each syllable, and then the process proceeds to (S210).
【0038】(S210) バッファ800に記録され
ている各音節を各々取り出して、字音辞書部260を参
照して非破音字の文字を読み記号に変換する。(S 210) Each syllable recorded in the buffer 800 is taken out, and the non-breaking character is converted into a reading symbol by referring to the syllabic dictionary 260.
【0039】(S215) バッファ800に記録され
ている破音字がある文字を破音字典部250を参照し
て、破音字を該当する読み記号に変換する。(S 215) The character having the broken character recorded in the buffer 800 is converted into the corresponding phonetic symbol by referring to the broken character section 250.
【0040】(S220) 中国語の語法に基づき、各
読み記号を修正する。例えば、「媽」の読みは「ma
1」であるが、「媽媽」の二番目の「媽」の声調は1声
(四声の中で最も高い)で読むのではなく、軽声(音節
が連続するため固有の声調を失って、弱く軽く発音され
る)で読むべき「ma0」)なので二番目の「媽」の読
み記号を修正する。(S220) Each pronunciation symbol is corrected based on the Chinese wording. For example, the reading of “Ma” is “ma”
The tone of the second "Ma" in "Ma Ma" is not read in one voice (the highest of four voices), but is read in a light voice (the unique tone is lost due to the continuous syllables). , Pronounced weakly and lightly), and should be read as “ma0”), so the second “ma” reading symbol is corrected.
【0041】以上により、文字対読み変換部200の処
理が終了する。Thus, the processing of the character-to-reading conversion unit 200 is completed.
【0042】本実施の形態における候補語生成部300
の動作フローを図11に示す。[0042] Candidate word generation section 300 in the present embodiment
11 is shown in FIG.
【0043】以下、同図を参照しつつその動作を説明す
る。Hereinafter, the operation will be described with reference to FIG.
【0044】(S301) 文字対読み変換部200よ
り得られた原始文字列及びその対応する読み記号列に対
して音字辞書部350を参照して読み記号について音節
になれる可能性のあるすべての音節を切り出してから、
(S305)の処理に入る。(S 301) All syllables that are likely to become syllables for the reading symbol with reference to the phonetic dictionary unit 350 with respect to the original character string obtained by the character-to-reading conversion unit 200 and the corresponding reading symbol string. After cutting out
The process enters (S305).
【0045】(S305) 切り出された音節を検索キ
ーとして音字辞書部350を参照してすべての候補語と
その使用頻度重み、品詞接続情報及、意味情報を取り出
す。前記取り出されたすべての候補語のcflagを0に設
定する。(S305) Using the cut-out syllables as search keys, the syllable dictionary section 350 is referenced to extract all candidate words, their use frequency weights, part-of-speech connection information, and semantic information. The cflags of all the extracted candidate words are set to 0.
【0046】(S310) 変数i、j、nの開始値をそ
れぞれ1、1、原始文字列の文字数を設定する。(S310) The start values of the variables i, j, and n are set to 1, 1, respectively, and the number of characters in the source character string is set.
【0047】(S315) i番目の音節が単漢字候補
の音節(即ち、何れの候補語に含まれていない)である
かを判断する。単漢字候補ではない場合、(S320)
の処理に入る。さもなければ、(S380)へ行く。(S315) It is determined whether the i-th syllable is a syllable of a single Kanji candidate (that is, not included in any candidate word). If not a single kanji candidate (S320)
Process. Otherwise, go to (S380).
【0048】(S320) 変数iの値が変数jと同じで
あるかを判断する。同じではない場合、(S330)へ
行く。同じであれば、(S325)へ行く。(S320) It is determined whether the value of the variable i is the same as the variable j. If they are not the same, go to (S330). If they are the same, go to (S325).
【0049】(S330) j番目の音節からi番目の
音節までの読み記号列を検索キーとして類似音マスク手
段により類似候補語及びその関連情報を検出する。前記
すべての検出された候補語のcflagを1に設定する。(S330) The similar candidate word and its related information are detected by the similar sound mask means using the reading symbol string from the j-th syllable to the i-th syllable as a search key. The cflag of all the detected candidate words is set to 1.
【0050】(S335) 使用頻度重みがしきい値
0.01より小さいもの、且つ、cflagが1に設定され
たものを削除してから(S340)の処理に入る。 (S340) j番目の音節からi番目の音節までの読
み記号列を検索キーとして読み音マスク手段により考え
られる候補語及びその関連情報を検出する。前記すべて
の検出された候補語のcflagを2に設定する。(S335) The process of (S340) is started after deleting those whose usage frequency weight is smaller than the threshold value 0.01 and whose cflag is set to 1. (S340) Using the reading symbol string from the j-th syllable to the i-th syllable as a search key, a candidate word and its related information that can be considered by the reading-sound masking means are detected. The cflag of all the detected candidate words is set to 2.
【0051】(S350) 字形辞書部400を参照し
てj番目の音節からi番目の音節までの読み記号列に対
応する原始文字列における単漢字の字形組合せ記号列を
取り出してから、字形マスク手段により類似字形候補語
を検出し、字音辞書部260と音字辞書350を参照し
てその関連情報を取り出す。前記すべての検出された候
補語のcflagを3に設定する。(S350) With reference to the glyph dictionary section 400, a character combination symbol string of a single Kanji in a source character string corresponding to a reading symbol string from the jth syllable to the ith syllable is extracted, and then the character mask means , The similar word candidate word is detected, and the related information is extracted with reference to the character dictionary 260 and the character dictionary 350. Set the cflag of all the detected candidate words to 3.
【0052】(S360) 各候補語の開始の読み及び
終了の読み、或は開始文字及び終了文字に対して原始文
書の読み或は文字を参照して各候補語の開始位置及び終
了位置を決定する。(S360) The start position and the end position of each candidate word are determined by referring to the reading of the start and end of each candidate word, or by referring to the reading or character of the source document for the start character and the end character. I do.
【0053】(S370) 変数iの値に1を加えてか
ら得られた値は変数jの値に設定される。(S370) The value obtained by adding 1 to the value of the variable i is set to the value of the variable j.
【0054】(S380) 上記の(S315)でi番
目の音節が単漢字候補の音節であると判定されると、変
数iの値はnと同じであるかを判断する。同じではない場
合、(S390)の処理に入る。さもなければ、(S3
20)の処理に戻る。(S380) When it is determined in the above (S315) that the ith syllable is a syllable of a single Kanji candidate, it is determined whether the value of the variable i is the same as n. If they are not the same, the process proceeds to (S390). Otherwise, (S3
It returns to the process of 20).
【0055】(S390) 変数iの値を1に加えてか
ら、上記の(S315)に戻る。(S390) After adding the value of the variable i to 1, the process returns to (S315).
【0056】また、上記の(S320) で、変数iの
値が変数jと同じであれば、(S325)へ行く。If the value of the variable i is the same as the variable j in the above (S320), the process goes to (S325).
【0057】(S325) 変数iが変数nと同じ値であ
るかを判断する。もし、nと同じ値ではない場合、(S
337)へ行く。さもなければ、処理を終了する。(S325) It is determined whether the variable i has the same value as the variable n. If not the same value as n, (S
337). Otherwise, the process ends.
【0058】(S337) 変数jの値を変数iに設定し
てから、上記の(S315)に戻る。(S337) After setting the value of the variable j to the variable i, the process returns to (S315).
【0059】本実施の形態における候補語決定部400
の動作フローを図12に示す。[0059] Candidate word determination section 400 in the present embodiment
12 is shown in FIG.
【0060】以下、同図を参照しつつその動作を説明す
る。Hereinafter, the operation will be described with reference to FIG.
【0061】(S401) 変数iとnの値をそれぞれ
1、処理しようとする文字列の文字数に設定する。(S401) The value of each of the variables i and n is set to 1 and the number of characters of the character string to be processed.
【0062】(S405) 開始位置がi、且つ、cflag
の値は1または3である候補語を取り出してから、A[i,
j],j=0,…,kに記憶する。(S405) The start position is i and cflag
After extracting candidate words whose value is 1 or 3, A [i,
j], j = 0,..., k.
【0063】(S410) 変数mを1に設定してか
ら、(S415)に入る。(S410) After the variable m is set to 1, the process proceeds to (S415).
【0064】(S415) 開始位置がm+1、且つcflag
の値は0、1または3である候補語を取り出してから、
B[m,p],p=0,…,qに記憶する。(S415) Start position is m + 1 and cflag
After extracting candidate words whose value is 0, 1, or 3,
B [m, p], p = 0, ..., q.
【0065】(S420) B[m]が空集合であるかを判
断する。空集合ではない場合、(S440)の処理に入
る。さもなければ、(S425)へ行く。(S420) It is determined whether B [m] is an empty set. If it is not an empty set, the process proceeds to (S440). Otherwise, go to (S425).
【0066】(S440) 変数mの値を1に加えてか
ら、上記の(S415)へ戻る。(S440) After adding the value of the variable m to 1, the process returns to (S415).
【0067】(S425) A[i]、B[m]におけるすべて
の連接可能な組み合わせの文字列及びその読み記号列を
検索キーとして音字辞書部350を参照して同じ文字列
をもつ候補語及びその関連情報を取り出してから、原始
文書列を参照して前記取り出された候補語の開始位置及
び終了位置を計算する。そして、(S430)の処理に
入る。(S425) The candidate words having the same character string are referred to by referring to the phonetic dictionary section 350 using the character strings of all the connectable combinations in A [i] and B [m] and their reading symbol strings as search keys. After extracting the relevant information, the start position and the end position of the extracted candidate word are calculated with reference to the source document sequence. Then, the process enters (S430).
【0068】(S430) 変数iの値を1に加える。(S430) The value of the variable i is added to 1.
【0069】(S435) 変数iの値がnより大きいか
を判断する。nより小さければ、上記の(S405)へ
戻る。さもなければ、処理を終了する。(S435) It is determined whether the value of the variable i is larger than n. If it is smaller than n, the process returns to (S405). Otherwise, the process ends.
【0070】本実施の形態における最適候補文字列決定
部500の動作フローを図13に示す。FIG. 13 shows an operation flow of the optimum candidate character string determining section 500 in the present embodiment.
【0071】以下、同図を参照しつつその動作を説明す
る。Hereinafter, the operation will be described with reference to FIG.
【0072】(S501) 候補語決定部400よりす
べての候補語とその関連情報及び開始位置、終了位置を
入力してから、(S505)へ行く。(S501) After inputting all the candidate words, their related information, the start position, and the end position from the candidate word determination unit 400, the process goes to (S505).
【0073】(S505) 各候補語の開始、終了位置
をインデックスとして候補語の有向ネットを作成する。(S505) A directed net of the candidate word is created using the start and end positions of each candidate word as an index.
【0074】(S510) バッファから原始文書の文
字列を取り出して、各候補語の開始位置、終了位置をイ
ンデックスとして原始文書の類似度重み、語長重みを計
算してから、(S515)へ行く。(S510) The character string of the source document is extracted from the buffer, and the similarity weight and word length weight of the source document are calculated using the start position and end position of each candidate word as an index, and then go to (S515). .
【0075】(S515) 左から右への順序により、
ネットにおける相隣接続の候補語の品詞属性記号と意味
コードをインデックスとして品詞情報部540及び意味
情報部550を参照してその品詞重みと意味類似度重み
を計算する。(S515) According to the order from left to right,
The part-of-speech weight and the semantic similarity weight are calculated by referring to the part-of-speech information part 540 and the semantic information part 550 using the part-of-speech attribute symbol and the meaning code of the candidate word of the adjacent connection in the net as an index.
【0076】(S520) 品詞重みと意味類似度重み
と使用頻度重みと語長重みと原始文書類似度重みとの累
計最大値を評価関数として動的計画法により、最適な経
路を取り出す。(S520) An optimal path is extracted by dynamic programming using the cumulative maximum value of the part of speech weight, the meaning similarity weight, the use frequency weight, the word length weight, and the source document similarity weight as an evaluation function.
【0077】(S525) 最適な経路における候補語
を取り出してから、バッファ800に記録してから、処
理を終了する。(S525) After the candidate words on the optimal route are extracted and recorded in the buffer 800, the process ends.
【0078】本実施の形態におけるマッチング部600
の動作フローを図14に示す。Matching section 600 in the present embodiment
14 is shown in FIG.
【0079】以下、同図を参照しつつその動作を説明す
る。Hereinafter, the operation will be described with reference to FIG.
【0080】(S601) バッファ800より最適な
経路における文字列Aを取り出す。(S 601) The character string A on the optimum route is extracted from the buffer 800.
【0081】(S605) バッファ800に記録され
ている原始文字列Bを取り出してから、(S610)へ
行く。(S605) After fetching the original character string B recorded in the buffer 800, the process proceeds to (S610).
【0082】(S610) マッチング手段により、文
字列Aと文字列Bとをマッチしてから、原始文書における
誤りがあった字、語をマークしてから、(S615)の
処理に入る。(S610) The character string A and the character string B are matched by the matching means, the erroneous characters and words in the source document are marked, and then the process of (S615) is started.
【0083】(S615) 前記マークされた後の原始
文書の文字列と最適経路における文字列Aは出力部70
0へ送り出される。(S615) The character string of the source document after the marking and the character string A in the optimum path are output to the output unit 70.
Sent to 0.
【0084】以上のように構成された本実施の形態につ
いて、以下、具体的に「不遵守者以法究辨」が入力され
た場合を例にとってその動作を説明する。入力部100
から「不遵守者以法究辨」という原始文書が入力される
と、文字対読み変換部200は字音辞書部260を参照
して、前記入力された原始文書における非破音字の部分
を以下のような読み記号「不zuen1shou3zhe3i3法jiou4b
ian4」に変換し、続いて、後から前への順序により破音
字典部250を参照することにより、「不遵」、「以
法」、「法究」に対応する破音字はないことから、
「不」と「法」をそれぞれデフォルトの読み音「bu4」
と「fa3」に変換する。このため、上記の文字列におけ
る読み記号列は以下のように変換される。The operation of the present embodiment configured as described above will be specifically described below by taking as an example a case where "non-compliant person" is input. Input unit 100
When a source document “non-compliant person” is input, the character-to-speech conversion unit 200 refers to the syllabic dictionary unit 260 and converts the non-breaking character part in the input source document into Like reading sign "fuzuen1shou3zhe3i3 law jiou4b
ian4 ", and then referencing the broken character dictionary 250 in the order from the rear to the front, because there is no broken character corresponding to" disobey "," lesser law "," legal " ,
Default reading sound "bu4" for "un" and "law" respectively
And "fa3". Therefore, the reading symbol string in the above character string is converted as follows.
【0085】「bu4 zuen1 shou3 zhe3 i3 fa3 jiou4 bi
an4」 そのうえ、原始文字列をバッファ800に記録する。次
に候補語生成部300に入る。候補語生成部300は図
11に示されている動作フローによって以上の読み記号
について音節になる可能性のあるすべての音節を切り出
す。下記表1に示すように、前記切り出された音節を検
索キーとして音字辞書部350を参照して全ての考えら
れる候補語とその関連情報を検出する。"Bu4 zuen1 shou3 zhe3 i3 fa3 jiou4 bi
an4 "In addition, the source character string is recorded in the buffer 800. Next, the process enters the candidate word generation unit 300. The candidate word generation unit 300 cuts out all syllables that are likely to be syllables for the above reading symbols according to the operation flow shown in FIG. As shown in Table 1 below, all possible candidate words and their related information are detected by referring to the phonetic dictionary unit 350 using the cut-out syllable as a search key.
【表1】 [Table 1]
【0086】続いて、全ての候補語に対して類似音マス
ク手段によって、下記表2に示されているような候補語
が得られる(使用頻度0.1より小さい候補字は既に削除
されている)。Subsequently, candidate words as shown in Table 2 below are obtained for all the candidate words by the similar sound masking means (candidate characters having a usage frequency of less than 0.1 have already been deleted).
【表2】 [Table 2]
【0087】また、表1に示されている全ての候補語に
対して読み音マスク手段により、下記表3に示されてい
るような候補語が得られる(使用頻度0.1より小さい候
補字は既に削除されている)。For all the candidate words shown in Table 1, candidate words as shown in Table 3 below are obtained by the reading sound masking means (candidate characters less than 0.1 in use frequency are already used). Has been removed).
【表3】 [Table 3]
【0088】同じく、表1に示されている全ての候補語
に対して字形マスク手段により、下記表4に示されてい
るような候補語が得られる(使用頻度0.1より小さい候
補字は既に削除されている)。Similarly, candidate words as shown in Table 4 below are obtained by the character shape masking means for all the candidate words shown in Table 1 (candidate characters less than 0.1 in use frequency are already deleted). Has been).
【表4】 [Table 4]
【0089】次に候補語決定部400は、cflagが0、
1、3である候補語の組み合わせの読み記号列を検索キ
ーとして音字辞書部350を参照して、下記表5に示さ
れている候補語が得られる。Next, the candidate word determination unit 400 determines that cflag is 0,
The candidate words shown in Table 5 below are obtained by referring to the phonetic dictionary unit 350 using the reading symbol string of the combination of the candidate words of 1, 3 as a search key.
【表5】 [Table 5]
【0090】そして、最適候補文字列決定部500の処
理に入る。最適候補文字列決定部500は、まず、上記
の各候補語の開始位置、終了位置をインデックスとして
各候補語を連接して図15に示すような有向ネットを作
る。そして、使用頻度重み+原始文書類似度重み+語長
重み+品詞重み+意味類似度重の累計最大値を評価関数
として動的計画法により、図15に示すような最適な経
路「不―遵守―者―依法究辧」を検出できる。それか
ら、マッチング部600の処理に入る。マッチング部6
00は、バッファ800に記録されている原始文書の文
字列と前記最適な経路における文字列とをマッチングす
る。下記表6に示すように、マーク記号(*:当て字ま
たは誤字)で前記マッチングで見出された相異個所をマ
ークする。Then, the process of the optimum candidate character string determining section 500 is started. First, the optimal candidate character string determination unit 500 creates a directed net as shown in FIG. 15 by connecting each candidate word using the start position and the end position of each candidate word as an index. Then, using a dynamic programming method with the cumulative maximum value of usage frequency weight + primary document similarity weight + word length weight + part of speech weight + semantic similarity weight as an evaluation function, an optimal path “non-observance” as shown in FIG. ―Person-Dependent Character Model 'can be detected. Then, the process of the matching unit 600 is started. Matching unit 6
00 matches the character string of the source document recorded in the buffer 800 with the character string in the optimal path. As shown in Table 6 below, different parts found in the matching are marked with a mark symbol (*: guess letter or erroneous letter).
【表6】 [Table 6]
【0091】そして最後に、下記表7に示すように、出
力部700により前記の最適な経路文字列とマークされ
た後の文字列が出力される。Finally, as shown in Table 7 below, the output unit 700 outputs the character string that has been marked as the optimal path character string.
【表7】 [Table 7]
【0092】以上、本発明を実施の形態に基づいて説明
してきたが、本発明は本実施の形態に限定されず、その
要旨を変更しない範囲で、適宜変形して実施してよいの
は勿論である。即ち、例えば、他の字形組み合せの方式
によって字形辞書を構築してもよい。また、他の読み記
号構造を使ってもよい。Although the present invention has been described based on the embodiments, the present invention is not limited to the embodiments, and may be modified as appropriate without departing from the scope of the invention. It is. That is, for example, a character dictionary may be constructed by another character combination method. Also, other reading symbol structures may be used.
【0093】[0093]
【発明の効果】以上説明したように、本発明の中国語文
書自動校正方法及びその装置によれば、従来の問題点を
解決し、以下に示すような効果が得られる。As described above, according to the method and the apparatus for automatically correcting a Chinese document of the present invention, the conventional problems can be solved and the following effects can be obtained.
【0094】(1)中国語の文書に対して効率的にミス
検出や訂正などが行える。本発明によれば、ミス検出率
及び訂正率は少なくとも89%以上である。(1) Error detection and correction can be efficiently performed on Chinese documents. According to the present invention, the miss detection rate and the correction rate are at least 89% or more.
【0095】(2)言語パターンと特別な知識データベ
ースを設ける必要がない。ひいては、知識データベース
の集め及び保守に対して、多くの工数の削除等を図れ、
経費を削除できる。(2) There is no need to provide a language pattern and a special knowledge database. As a result, many man-hours can be deleted for collection and maintenance of the knowledge database,
Expenses can be deleted.
【0096】(3)中国語入力法、文字認識装置、機械
翻訳装置等における前処理、後処理に応用できる。本発
明によれば、前記のシステムや装置等に対して使用上の
正確率を高めることができる。(3) Applicable to pre-processing and post-processing in the Chinese input method, character recognition device, machine translation device, etc. According to the present invention, it is possible to increase the accuracy of use of the above-described system and apparatus.
【0097】以上のことから明らかなように、本発明の
実用性は非常に高いものである。As is clear from the above, the utility of the present invention is very high.
【図1】 2バイトの中国語の漢字の読みの構造を示す
構造図である。FIG. 1 is a structural diagram showing the structure of reading two-byte Chinese kanji.
【図2】 類似した音韻要素同士のビットパターン間の
距離を例示する説明図である。FIG. 2 is an explanatory diagram illustrating a distance between bit patterns of similar phonemic elements.
【図3】 本発明による中国語文書自動校正装置の構成
を示すブロック図である。FIG. 3 is a block diagram illustrating a configuration of a Chinese document automatic proofreading device according to the present invention.
【図4】 本発明による中国語文書自動校正装置の破音
字典部の概念図である。FIG. 4 is a conceptual diagram of a broken character dictionary of a Chinese document automatic proofreading device according to the present invention.
【図5】 本発明による中国語文書自動校正装置の字音
辞書部のデータ構造の概念図である。FIG. 5 is a conceptual diagram of a data structure of a character dictionary section of the automatic Chinese document proofreading device according to the present invention.
【図6】 本発明による中国語文書自動校正装置の音字
辞書部のデータ構造の概念図である。FIG. 6 is a conceptual diagram of a data structure of a phonetic dictionary part of the automatic Chinese document proofreading device according to the present invention.
【図7】 本発明による中国語文書自動校正装置の字形
辞書部のデータ構造の概念図である。FIG. 7 is a conceptual diagram of a data structure of a character dictionary part of the automatic Chinese document proofreading apparatus according to the present invention.
【図8】 本発明による中国語文書自動校正装置の品詞
情報部のデータ構造の概念図である。FIG. 8 is a conceptual diagram of a data structure of a part-of-speech information unit of the automatic Chinese-document proofreading device according to the present invention.
【図9】 本発明による中国語文書自動校正装置の意味
情報部のデータ構造の概念図である。FIG. 9 is a conceptual diagram of a data structure of a semantic information section of the automatic Chinese document proofreading apparatus according to the present invention.
【図10】 本発明による中国語文書自動校正装置の文
字対読み変換部の動作フローである。FIG. 10 is an operation flow of a character-to-reading conversion unit of the Chinese document automatic proofreading device according to the present invention.
【図11】 本発明による中国語文書自動校正装置の候
補語生成部の動作フローである。FIG. 11 is an operation flow of a candidate word generation unit of the Chinese document automatic proofreading device according to the present invention.
【図12】 本発明による中国語文書自動校正装置の候
補語決定部の動作フローである。FIG. 12 is an operation flow of a candidate word determination unit of the automatic Chinese document proofreading apparatus according to the present invention.
【図13】 本発明による中国語文書自動校正装置の最
適候補文字列決定部の動作フローである。FIG. 13 is an operation flow of an optimal candidate character string determination unit of the Chinese document automatic proofreading device according to the present invention.
【図14】 本発明による中国語文書自動校正装置のマ
ッチング部の動作フローである。FIG. 14 is an operation flow of a matching unit of the automatic Chinese document proofreading apparatus according to the present invention.
【図15】 最適候補文字列決定部の処理により検出さ
れた最適な経を示す図である。FIG. 15 is a diagram illustrating an optimal sutra detected by a process of an optimal candidate character string determining unit.
【図16】 従来の中国語文書自動校正方法及び装置の
構成を示すブロック図である。FIG. 16 is a block diagram showing a configuration of a conventional Chinese document automatic proofing method and apparatus.
100 入力部 200 文字対読み変換部 250 破音字典部 260 字音辞書部 300 候補語生成部 350 音字辞書部 400 候補語決定部 450 字形辞書部 500 最適候補文字列決定部 540 品詞情報部 550 意味情報部 600 マッチング部 700 出力部 800 バッファ Reference Signs List 100 Input unit 200 Character-to-reading conversion unit 250 Breaking character dictionary unit 260 Character dictionary unit 300 Candidate word generation unit 350 Phonetic dictionary unit 400 Candidate word determination unit 450 Character shape dictionary unit 500 Optimal candidate character string determination unit 540 Part-of-speech information unit 550 Meaning information Unit 600 matching unit 700 output unit 800 buffer
Claims (2)
装置上での中国語自動文書校正方法であって、 中国語破音字とそれに対応する読み記号とを、前記読み
記号に対応する全ての候補字及びその読み記号とともに
格納した破音字典部と、中国語の文字とそれに対応する
デフォルトの読み記号とその考えられる読み記号を格納
した字音辞書部と、中国語の読み記号、それに対応する
全ての同音異義字、語、そのすべての同音異義字、語の
使用頻度重み、品詞属性記号および意味コードを格納し
た音字辞書部と、中国語文字とそれに対応する字形組合
せ記号列とを格納した字形辞書部と、学習された品詞接
続情報を格納した品詞情報部と、学習された相隣接する
後続語の意味コードと先行語の意味コードとの組み合わ
せを格納した意味情報部とを作成する作成ステップと、 前記入力部から文字列を含む原始文書を入力するステッ
プと、 前記破音字典部及び前記字音辞書部を参照して前記原始
文書の前記文字列を、読み記号列に変換する文字対読み
変換ステップと、 前記読み記号列に対して音節を切り出し、切り出された
前記音節を検索キーとして前記音字辞書部を参照し、全
ての考えられる候補語及びその関連情報を検出し、削除
手段により使用頻度がしきい値より低い候補字を削除し
て、連続した単漢字候補列に対応する読み記号列とその
字形組合せ記号列とに対して類似音マスク手段と、読み
音マスク手段と、字形マスク手段とを使って、前記字音
辞書部と、前記字形辞書部と、前記音字辞書部とを参照
して、前記考えられる候補語とその関連情報を検出する
候補語生成ステップと、 類似音マスク手段と字形マスク手段とにより得られた全
ての候補字の組み合わせに対して前記字音辞書部を参照
してその対応する読み記号列を検出し、検出された前記
読み記号列を検索キーとして前記音字辞書部を参照し、
全ての考えられる候補語とその関連情報とを検出する候
補語決定ステップと、 前記原始文書の前記文字列に対応する各候補語の開始位
置、終了位置をインデックスとして各候補語を連接して
有向ネットを形成し、計算手段により、品詞情報部と意
味情報部とを参照して、各候補語の品詞重みと意味類似
度重みとを計算し、前記品詞重みと前記意味類似度重み
と前記使用頻度重みと語長重みと原始文書類似度重みと
の累計最大値を評価関数として、動的計画法により、最
適な経路を取り出す最適候補文字列決定ステップと、 取り出された前記最適な経路における文字列と前記原始
文書の前記文字列とをマッチングして相異字を検出し、
マークするマッチングステップとを含む中国語文書自動
校正方法。1. A method for automatically proofreading a Chinese language on an apparatus including an input unit, a storage unit, and an output unit, wherein a Chinese abbreviation and a corresponding reading symbol are included in the reading symbol. A broken phonetic dictionary containing all the corresponding candidate characters and their pronunciations, a phonetic dictionary containing Chinese characters and their corresponding default and possible pronunciations, and a Chinese pronunciation symbol , All corresponding homonyms, words, all homonyms, usage frequency weights of words, part-of-speech attribute symbols and semantic codes, and Chinese character strings and corresponding glyph combinations And a part-of-speech information part storing learned part-of-speech connection information, and a semantic information part storing a combination of a semantic code of a learned adjacent succeeding word and a semantic code of a preceding word. A creating step of creating; a step of inputting a source document including a character string from the input unit; and converting the character string of the source document into a reading symbol string with reference to the broken sound dictionary and the phonetic dictionary. Character-to-reading conversion step, and cut out a syllable for the reading symbol string, refer to the syllable dictionary section as a search key using the cut-out syllable, detect all possible candidate words and related information thereof, A candidate character whose use frequency is lower than a threshold value is deleted by a deletion unit, and a similar sound masking unit and a reading sound masking unit for a reading symbol sequence corresponding to a continuous single Kanji candidate sequence and a character combination symbol sequence thereof. A candidate word generating step of detecting the possible candidate word and its related information by referring to the character dictionary, the character dictionary, and the phonetic dictionary using a character mask unit. For all combinations of candidate characters obtained by the similar sound masking means and the character shape masking means, refer to the character sound dictionary section to detect a corresponding reading symbol string, and detect the detected reading symbol string. Referring to the phonetic dictionary section as a search key,
A candidate word determining step of detecting all possible candidate words and their related information; and connecting each candidate word by using the start position and the end position of each candidate word corresponding to the character string of the source document as an index. A directional net is formed, and the calculating unit refers to the part-of-speech information part and the semantic information part to calculate the part-of-speech weight and the semantic similarity weight of each candidate word. An optimal candidate character string determining step of extracting an optimal path by dynamic programming using a cumulative maximum value of a use frequency weight, a word length weight, and a source document similarity weight as an evaluation function; Matching a character string with the character string of the source document to detect a different character,
And a matching step of marking.
と、記憶部と、出力部とを備えた装置上での中国語自動
文書校正装置であって、 中国語破音字とそれに対応する読み記号とを、前記読み
記号に対応する全ての候補字及びその読み記号とともに
格納する破音字典部と、 中国語の文字とそれに対応するデフォルトの読み記号
と、その考えられる読み記号とを格納する字音辞書部
と、 中国語の読み記号、それに対応する全ての同音異義字、
語、そのすべての同音異義字、語の使用頻度重み、品詞
属性記号および意味コードを格納する音字辞書部と、 中国語文字とそれに対応する字形組合せ記号列とを格納
する字形辞書部と、 「1」または「0」から構成する二次元マトリクスによ
って中国語の品詞接続情報を格納する品詞情報部と、 学習された相隣接する後続語の意味コードと先行語の意
味コードとの組み合わせを格納する意味情報部と、 前記破音字典部及び前記字音辞書部を参照して前記原始
文書の前記文字列を、読み記号列に変換する文字対読み
変換部と、 前記読み記号列に対して音節を切り出し、切り出された
前記音節を検索キーとして前記音字辞書部を参照し、全
ての考えられる候補語及びその関連情報を検出し、削除
手段により使用頻度がしきい値より低い候補字を削除し
て、連続した単漢字候補列に対応する読み記号列とその
字形組合せ記号列とに対して類似音マスク手段と、読み
音マスク手段と、字形マスク手段とを使って、前記字音
辞書部と、前記字形辞書部と、前記音字辞書部とを参照
して、前記考えられる候補語とその関連情報を検出する
候補語生成部と、 類似音マスク手段と字形マスク手段とにより得られた全
ての候補語の組み合わせに対して前記字音辞書部を参照
してその対応する読み記号列を検出し、検出された前記
読み記号列を検索キーとして前記音字辞書部を参照し、
全ての考えられる候補語とその関連情報とを検出する候
補語決定部と、 前記原始文書の前記文字列に対応する各候補語の開始位
置、終了位置をインデックスとして各候補語を連接して
有向ネットを形成し、計算手段により、品詞情報部と意
味情報部とを参照して、各候補語の品詞重みと意味類似
度重みとを計算し、前記品詞重みと前記意味類似度重み
と前記使用頻度重みと語長重みと原始文書類似度重みと
の累計最大値を評価関数として、動的計画法により、最
適な経路を取り出す最適候補文字列決定部と、 取り出された前記最適な経路における文字列と原始文書
文字列とをマッチングして相異字を検出し、マークする
マッチング部とを備えた中国語文書自動校正装置。2. An automatic Chinese document proofreading apparatus on an apparatus having an input unit for inputting a source document including a character string, a storage unit, and an output unit, the method comprising: A phonetic alphabet that stores the reading symbols together with all the candidate characters and the reading symbols corresponding to the reading symbols, a Chinese character, a default reading symbol corresponding thereto, and its possible reading symbols. Character dictionary, and Chinese phonetic symbols, all corresponding homonyms,
A phonetic dictionary section that stores words, all homonyms thereof, frequency of use of words, part-of-speech attribute symbols, and semantic codes; a character shape dictionary section that stores Chinese characters and corresponding character combination symbol strings; A part-of-speech information unit that stores Chinese part-of-speech connection information in a two-dimensional matrix composed of "1" or "0", and stores a combination of the learned semantic code of the adjacent succeeding word and the semantic code of the preceding word. A semantic information unit, a character-to-reading conversion unit that converts the character string of the source document into a reading symbol string with reference to the broken character dictionary unit and the phonetic dictionary unit, and a syllable for the reading symbol string. With reference to the syllabic dictionary section as a search key using the cut-out syllable as a search key, all possible candidate words and related information are detected, and candidate characters whose use frequency is lower than a threshold value are deleted by a deletion unit. The similar character masking means, the reading sound masking means and the character shape masking means are used for the reading symbol string corresponding to the continuous single Kanji candidate string and its character combination symbol string, and the character dictionary section is deleted. A candidate word generation unit that detects the possible candidate words and related information with reference to the glyph dictionary unit and the phonetic dictionary unit; With respect to the combination of candidate words, the corresponding phonetic dictionary portion is detected by referring to the phonetic dictionary portion, and the detected phonetic dictionary portion is referred to as the search key using the detected phonetic symbol sequence,
A candidate word determining unit that detects all possible candidate words and their related information; and a concatenation of each candidate word using the start position and the end position of each candidate word corresponding to the character string of the source document as an index. A directional net is formed, and the calculating unit refers to the part-of-speech information part and the semantic information part to calculate the part-of-speech weight and the semantic similarity weight of each candidate word. An optimal candidate character string determining unit for extracting an optimal path by dynamic programming using a cumulative maximum value of the usage frequency weight, the word length weight, and the source document similarity weight as an evaluation function; An automatic Chinese document proofreading apparatus comprising: a matching unit that matches a character string with a source document character string to detect and mark a different character.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000036725A JP2001229162A (en) | 2000-02-15 | 2000-02-15 | Method and device for automatically proofreading chinese document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000036725A JP2001229162A (en) | 2000-02-15 | 2000-02-15 | Method and device for automatically proofreading chinese document |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001229162A true JP2001229162A (en) | 2001-08-24 |
Family
ID=18560734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000036725A Pending JP2001229162A (en) | 2000-02-15 | 2000-02-15 | Method and device for automatically proofreading chinese document |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001229162A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010525415A (en) * | 2007-04-26 | 2010-07-22 | マイクロソフト コーポレーション | Recognition architecture for generating Asian characters |
CN109800408A (en) * | 2017-11-16 | 2019-05-24 | 腾讯科技(深圳)有限公司 | Dictionary data storage method and device, segmenting method and device based on dictionary |
CN111611792A (en) * | 2020-05-21 | 2020-09-01 | 全球能源互联网研究院有限公司 | Entity error correction method and system for voice transcription text |
CN111666759A (en) * | 2020-04-17 | 2020-09-15 | 北京百度网讯科技有限公司 | Method and device for extracting key information of text, electronic equipment and storage medium |
US11132505B2 (en) * | 2019-08-22 | 2021-09-28 | Culture Com Technology (Macau), Limited | Chinese composition reviewing system |
CN113553832A (en) * | 2020-04-23 | 2021-10-26 | 阿里巴巴集团控股有限公司 | Word processing method and device, electronic equipment and computer readable storage medium |
CN113743093A (en) * | 2020-06-17 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | Text correction method and device |
-
2000
- 2000-02-15 JP JP2000036725A patent/JP2001229162A/en active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010525415A (en) * | 2007-04-26 | 2010-07-22 | マイクロソフト コーポレーション | Recognition architecture for generating Asian characters |
CN109800408A (en) * | 2017-11-16 | 2019-05-24 | 腾讯科技(深圳)有限公司 | Dictionary data storage method and device, segmenting method and device based on dictionary |
CN109800408B (en) * | 2017-11-16 | 2023-05-26 | 腾讯科技(深圳)有限公司 | Dictionary data storage method and device, and dictionary-based word segmentation method and device |
US11132505B2 (en) * | 2019-08-22 | 2021-09-28 | Culture Com Technology (Macau), Limited | Chinese composition reviewing system |
CN111666759A (en) * | 2020-04-17 | 2020-09-15 | 北京百度网讯科技有限公司 | Method and device for extracting key information of text, electronic equipment and storage medium |
CN111666759B (en) * | 2020-04-17 | 2024-03-26 | 北京百度网讯科技有限公司 | Extraction method and device of text key information, electronic equipment and storage medium |
CN113553832A (en) * | 2020-04-23 | 2021-10-26 | 阿里巴巴集团控股有限公司 | Word processing method and device, electronic equipment and computer readable storage medium |
CN111611792A (en) * | 2020-05-21 | 2020-09-01 | 全球能源互联网研究院有限公司 | Entity error correction method and system for voice transcription text |
CN111611792B (en) * | 2020-05-21 | 2023-05-23 | 全球能源互联网研究院有限公司 | Entity error correction method and system for voice transcription text |
CN113743093A (en) * | 2020-06-17 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | Text correction method and device |
CN113743093B (en) * | 2020-06-17 | 2024-05-17 | 北京沃东天骏信息技术有限公司 | Text correction method and device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3277123B2 (en) | System and method for processing Chinese text | |
JP4568774B2 (en) | How to generate templates used in handwriting recognition | |
US8185376B2 (en) | Identifying language origin of words | |
CN105404621B (en) | A kind of method and system that Chinese character is read for blind person | |
EP1675019A2 (en) | System and method for disambiguating non diacritized arabic words in a text | |
WO2010044123A1 (en) | Search device, search index creating device, and search system | |
JP5231698B2 (en) | How to predict how to read Japanese ideograms | |
CN101667099B (en) | A kind of method and apparatus of stroke connection keyboard text event detection | |
de Silva et al. | Singlish to sinhala transliteration using rule-based approach | |
JP2001229162A (en) | Method and device for automatically proofreading chinese document | |
JP3309174B2 (en) | Character recognition method and device | |
TW420774B (en) | Method and apparatus for automatically correcting documents in chinese language | |
JPH11238051A (en) | Chinese input conversion processor, chinese input conversion processing method and recording medium stored with chinese input conversion processing program | |
CN105511636B (en) | Improved whole Chinese character Chinese word simply unifies input method without repeated code | |
CN111429886B (en) | Voice recognition method and system | |
JP3975825B2 (en) | Character recognition error correction method, apparatus and program | |
KR100650393B1 (en) | A system for generating technique for generating korean phonetic alphabet | |
JP3369127B2 (en) | Morphological analyzer | |
Asahiah | Development of a Standard Yorùbá digital text automatic diacritic restoration system | |
Saychum et al. | Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling. | |
Minghu et al. | Segmentation of Mandarin Braille word and Braille translation based on multi-knowledge | |
KR101777141B1 (en) | Apparatus and method for inputting chinese and foreign languages based on hun min jeong eum using korean input keyboard | |
Namboodiri et al. | On using classical poetry structure for Indian language post-processing | |
JPH11338498A (en) | Voice synthesizer | |
JP2008249761A (en) | Statistical language model generation device and method, and voice recognition device using the same |