JPH08263478A - Single/linked chinese character document converting device - Google Patents

Single/linked chinese character document converting device

Info

Publication number
JPH08263478A
JPH08263478A JP7066117A JP6611795A JPH08263478A JP H08263478 A JPH08263478 A JP H08263478A JP 7066117 A JP7066117 A JP 7066117A JP 6611795 A JP6611795 A JP 6611795A JP H08263478 A JPH08263478 A JP H08263478A
Authority
JP
Japan
Prior art keywords
character
characters
simplified
conversion
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7066117A
Other languages
Japanese (ja)
Inventor
Toshitake Kaku
俊桔 郭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP7066117A priority Critical patent/JPH08263478A/en
Priority to CN96103701A priority patent/CN1102779C/en
Publication of JPH08263478A publication Critical patent/JPH08263478A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE: To provide the device for exactly converting a document written in characters with reduced number of strokes (simplified characters) and a written in characters with full numbers of stroked (unabridged characters) document in Chinese. CONSTITUTION: In addition to information showing the character and reading of Chinese characters (KANJI), a word conversion dictionary is referred to. Specifically, a word converting part 30 records a source document and a language flag inputted from an input part 10 into a buffer 40 and refers to the language flag and a word conversion dictionary 20 and when there is any KANJI or word matched with the retrieved word of the word conversion dictionary 20, this KANJI or word is reloaded into a correspondent word. A character/reading converting part 60 refers to the language flag recorded in the buffer 40 and a system dictionary 50 (including plosive character dictionary) and converts the character of the source document to a reading symbol. A reading/ character converting part 70 refers to the language flag, system dictionary 50 and a simplified/unabridged character correspondence dictionary 80 and converts the reading symbol of the source document to the character of a target document according to the algorithm of conversion from reading to character, and the result is outputted from an output part 90.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、中国語の簡体字文書と
繁体字文書の変換装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a device for converting a simplified Chinese document and a traditional Chinese document.

【0002】[0002]

【従来の技術】近年、中国大陸と台湾との交流が頻繁に
なりつつあるが、これにともなって、両者間の文書のや
りとりも増加してきた。しかしながら、40年間も交流
がなかったので、両者が使用している漢字の字体だけで
はなく、単語や用語(日常よく使用する単一又は複数の
単語やその使用方法)等もかなり大きく相違してきてい
る。このため、互いに、他方で使用されている文書は相
互に理解が困難となっている。例えば、台湾では日本で
いうレーザプリンタは「雷射印表機」と言う(という用
語となる)が、大陸では「激光打印機」と称する。この
ため、大陸で使用される簡体字文書と台湾で使用される
繁体字文書との相互変換の需要が急増している。だが、
簡体字文書と繁体字文書との相互変換には、以下の技術
的、言語学的な困難性を解決する必要がある。
2. Description of the Related Art In recent years, exchanges between the Chinese mainland and Taiwan have become frequent, and along with this, the exchange of documents between them has also increased. However, since there has been no interaction for 40 years, not only the fonts of the Kanji used by both parties, but also the words and terms (single or multiple words that are often used in everyday life and their usages) have become quite different. There is. This makes it difficult to understand each other and the documents used on the other. For example, in Taiwan, a laser printer in Japan is called (a term used for) a "lightning machine," but in the continent it is called a "glow light stamping machine." Therefore, the demand for mutual conversion between simplified Chinese documents used in the continent and traditional Chinese documents used in Taiwan is rapidly increasing. However,
The following technical and linguistic difficulties must be solved for the mutual conversion between simplified and traditional documents.

【0003】(1)簡体字の常用文字数は約8,000
個であるが、常用される繁体字は常用簡体字よりずっと
多い。例えば、コンピュータ上の常用繁体字でも13,
053個がある。このため、一つの簡体字にいくつかの
繁体字が対応することが生じる。一例をあげれば、簡体
字の「后」は繁体字の「后」と「後」に対応する。従っ
て、簡体字文書から繁体字文書へ変換する場合には、適
切な繁体字を選択する必要がある。
(1) The number of common characters of simplified characters is about 8,000
However, the number of traditional Chinese characters used is much more than that of Simplified Chinese characters. For example, even in traditional Chinese on a computer 13,
There are 053 pieces. Therefore, some simplified characters may correspond to one simplified character. As an example, the simplified Chinese character “after” corresponds to the traditional Chinese characters “after” and “after”. Therefore, when converting a simplified document into a traditional document, it is necessary to select an appropriate traditional character.

【0004】(2)社会や、文化の差異のため、単語や
その用い方も相違している。例えば、日本でいう質の程
度を表現するのに使用する「水準(技術水準等)」は、
中国大陸では「水平」と言うが、台湾では「水準」と言
う。このため、簡体字で記載された文書と繁体字で記載
された文書の変換装置が研究、開発されている。
(2) Due to differences in society and culture, words and their usages are also different. For example, the "level (technical level)" used to express the degree of quality in Japan is
It is called "horizontal" in mainland China, but "level" in Taiwan. For this reason, a conversion device for documents written in simplified characters and documents written in traditional characters has been studied and developed.

【0005】さて、従来の中国語簡繁体字文書変換装置
としては、例えば、中華民国1994年度第7回の計算
機言語学研究会の論文集の第187ページから第201
ページまでの"A Text Conversion System Between Simp
lified and Complex ChineseCharacters Based on OCR
Approaches"に示されているようなものがある。この論
文には簡体字文書から繁体字文書への変換装置の一例が
記載されている。図1は、この構成を示すものである。
本図において、100は、簡体字文書、繁体字文書のい
ずれでも原始文書として入力できる原始文書入力手段で
ある。300は、各文字の使用頻度を記憶する文字の使
用頻度表である。350は、各文字の特徴値を記憶する
特徴データベースである。200は、イメージデータか
ら文字を切り出す文字切り出し部である。210は、イ
メージデータから切り出された文字の特徴値を抽出し計
算する特徴抽出部である。220は、文字の使用頻度表
300及び特徴データベース350を参照し、文字の照
合を行う照合部である。500は単語を記憶する単語変
換辞書である。510は、一般の文字の情報を記憶する
基本辞書である。520は簡体字及び繁体字の文字コー
ドを記憶するコード対応表である。530は、あらかじ
め統計等により求められた隣接する文字同士の連結頻度
を記憶しているBIGRAM表である。400は、候補の漢字
か単語をワードラチス(Word lattice ,処理されている
各候補の漢字、単語等が形成した格子を指す)に変換す
る中国語の言語モジュールであり、単語等の変換モジュ
ールと文字修正モジュールを有している。420は、最
適な変換の経路を見つける漢字や単語の変換部である。
410は、誤認識された文字を人手等により修正する文
字修正部である。600は、変換を行い、得られた目的
文書を出力する出力部である。
An example of a conventional Simplified Chinese document conversion device is, for example, pages 187 to 201 of a collection of papers by the 7th computer linguistics study group of the 1994 Republic of China.
Page to "A Text Conversion System Between Simp
lified and Complex Chinese Characters Based on OCR
Approaches ". This paper describes an example of a device for converting a simplified document into a traditional document. Fig. 1 shows this configuration.
In the figure, reference numeral 100 denotes a source document input means capable of inputting a simplified document or a traditional document as a source document. Reference numeral 300 is a character usage frequency table that stores the usage frequency of each character. Reference numeral 350 is a feature database that stores the feature value of each character. Reference numeral 200 denotes a character cutout unit that cuts out a character from the image data. Reference numeral 210 denotes a feature extraction unit that extracts and calculates the feature value of the character cut out from the image data. Reference numeral 220 is a collation unit that collates characters by referring to the character usage frequency table 300 and the feature database 350. Reference numeral 500 is a word conversion dictionary that stores words. Reference numeral 510 is a basic dictionary that stores general character information. Reference numeral 520 is a code correspondence table that stores character codes of simplified characters and traditional characters. Reference numeral 530 is a BIGRAM table that stores the connection frequencies of adjacent characters, which are obtained in advance by statistics or the like. Reference numeral 400 denotes a Chinese language module for converting candidate kanji or words into word lattices (word lattice, which refers to a lattice formed by each candidate kanji, word, etc. being processed). It has a modification module. Reference numeral 420 is a kanji or word conversion unit that finds an optimum conversion path.
Reference numeral 410 is a character correction unit that manually corrects the erroneously recognized character. An output unit 600 performs conversion and outputs the obtained target document.

【0006】次に、図2の(a)に示す簡体字文書を例
として、以上の中国語簡繁体字文書変換装置における簡
体字から繁体字への変換の手順について説明する。原始
文書入力部100から図2の(a)に示す簡体字文書が
入力されると、OCR(光学式文字読み取り装置)によ
り図形としてのイメージをOCRモジュールに読み込
む。そして、文字切り出し部200により各文字のイメ
ージを切り出してから、特徴抽出手段210により各文
字の特徴値を算出する。照合部220を利用して文字の
使用頻度表300及び特徴データベース350を参照し
て候補の簡体字を検出する。しかる後、文字変換及び後
処理モジュールの動作に入る。まず、中国語の言語モジ
ュール400でコード対応表520を参照して、図2の
(b)に示すような対応する各候補字を取り出す。取り
出された各候補の目的漢字の組み合わせを検索キーとし
て、単語変換辞書500及び基本辞書510を検索し、
図2の(c)に示すような候補単語を取り出す。この取
り出された候補単語を図2の(d)に示すワードラチス
のように配置する。単語の変換部420によりBIGRAM表
530(コパスに基づき隣接する二つの文字か単語の使
用頻度)を参照して、Statistical bigram Markov Lang
uage Model(統計的なBIGRAMによるマルコフ言語モデ
ル)によりワードラチスから、図2の(e)に示すよう
な最適な、すなわち可能性の最も高い変換の経路を取り
出してから、出力部600により出力する。
Next, the procedure for converting simplified Chinese characters to traditional Chinese characters in the above-mentioned Chinese simplified Chinese character document conversion device will be described by taking the simplified Chinese character document shown in FIG. 2A as an example. When the simplified document shown in FIG. 2A is input from the source document input unit 100, an image as a figure is read into the OCR module by an OCR (optical character reading device). Then, after the image of each character is cut out by the character cutting unit 200, the characteristic extraction unit 210 calculates the characteristic value of each character. The collation unit 220 is used to refer to the character usage frequency table 300 and the feature database 350 to detect candidate simplified characters. Then, the operation of the character conversion and post-processing module is started. First, with reference to the code correspondence table 520 in the Chinese language module 400, each corresponding candidate character as shown in FIG. The word conversion dictionary 500 and the basic dictionary 510 are searched using the combination of the target Kanji of each extracted candidate as a search key,
Candidate words as shown in FIG. 2C are extracted. The extracted candidate words are arranged like the word lattice shown in FIG. The word conversion unit 420 refers to the BIGRAM table 530 (the frequency of use of two adjacent characters or words based on the corpus), and statistically bigram Markov Lang
An optimal or most probable conversion path as shown in FIG. 2E is extracted from the word lattice by the uage Model (Markov language model based on statistical BIGRAM), and then output by the output unit 600.

【0007】次に、最適な変換の経路の取り出し方法に
ついて簡単に説明する。BIGRAMの統計データ(P
(Ci |Ci-1 )とP(Ci 用|Si ))を利して、下
記のような関数の値を最大にすることができる経路を見
つける。 MaxP(C|S)=P(C1,C2 ....Cn |S1,
2 ....Sn )→Sum.P(Ci |Ci-1 )(Ci
i )(i=1,…,N) S:候補漢字の集合、例えば、一番目の読みの候補集合
をS1とする。
Next, a method of extracting the optimum conversion path will be briefly described. BIGRAM statistical data (P
(C i | C i−1 ) and P (for C i | S i )) are used to find a path that can maximize the value of the function as follows. MaxP (C | S) = P (C 1, C 2 .... C n | S 1,
S 2 .... S n ) → Sum. P (C i | C i-1 ) (C i |
S i ) (i = 1, ..., N) S: A candidate kanji set, for example, the first reading candidate set is S1.

【0008】C:候補集合Sの元素の集合、例えばC1
はS1 の一番目の候補漢字を表す。 P(Ci |Ci-1 ):ある字がCi である上に、この字
の前の字がCi-1 であるときのBIGRAMの出現確率
を表す。同じ方法で、上記の式を下記のような式に応用
する。 →Sum.P(Wi |Wi-1 )P(Ci |Si )(i=
1,…,N) P(Wi |Wi-1 ):ある単語がWi である上に、この
単語の前の字がWi-1である時のBIGRAMの出現確
率を表す。
C: Set of elements of candidate set S, eg C 1
Represents the first candidate kanji for S 1 . P (C i | C i- 1): on certain letter is C i, representing the probability of occurrence of BIGRAM when the previous character of the character is a C i-1. In the same way, apply the above equation to the following equation. → Sum. P (W i | W i-1 ) P (C i | S i ) (i =
1, ..., N) P (W i | W i-1 ): represents the appearance probability of BIGRAM when a word is W i and the preceding character of this word is W i-1 .

【0009】ただし、以上の内容は、(E.J.Yannakouda
kis and P.J.Hutton,"n-Gramsand their impliment to
natural language understanding",Pattern Recognitio
n,Vol.23.no.5,pp.509〜528,1990の第6節に述べられて
おり、またMarkov Processのアルゴリズ
ムは、例えば、現代数学社 1981年刊 「入門O|
Rセミナー」の第96ページに掲載されているがごとく
いずれも周知の技術である。このため、これ以上の説明
は省略する。
However, the above contents are (EJYannakouda
kis and PJ Hutton, "n-Gramsand their impliment to
natural language understanding ", Pattern Recognitio
n, Vol.23.no.5, pp.509 to 528, 1990, and the algorithm of Markov Process is described in, for example, Hyundai Mathematics Co., Ltd., 1981, "Introduction O |
All of them are well-known techniques as described on page 96 of "R seminar". Therefore, further explanation is omitted.

【0010】以上の手順の流れを図3に示す。The flow of the above procedure is shown in FIG.

【0011】[0011]

【発明が解決しようとする課題】しかしながら、上記従
来の技術では以下のような問題点がある。 (1)例えば、簡体字の「于」はよく「干」に誤認識さ
れるが、OCRにより誤認識した文字は、後処理による
修正が困難である。 (2)ただ文字の情報のみを利用し、中国語の破音字に
ついて有効な処理をしないため、変換の正確性に一定の
限界がある。なお、ここに「破音字」とは、複数の読み
がある漢字を指す。具体例を挙げるならば、簡体字文書
の「他干干淨的工作」を例として、「干」は、「gan
1」と「gan4」の読みがあり、このため繁体字の
「乾」と「干」(「gan1」)及び「幹」(「gan
4」)に対応し得るため、従来の技術のままでは、「干
干」は「(gan1)(gan1)」であるので、一般
的に「他乾乾淨的工作」と変換してしまい、正しい「他
幹乾淨的工作」が得られない。
However, the above conventional techniques have the following problems. (1) For example, a simplified Chinese character "us" is often mistakenly recognized as "dry", but a character that is incorrectly recognized by OCR is difficult to correct by post-processing. (2) There is a certain limit to the accuracy of conversion because only the character information is used and effective processing is not performed for Chinese phonetic characters. It should be noted that the word "Hyakuto" refers to a Kanji that has multiple readings. To give a specific example, taking "another dry and dry type work" of a simplified document as an example, "dry" is "gan".
There are readings of "1" and "gan4", and therefore the traditional characters "dry" and "dry"("gan1") and "stem"("gan")
4)), the conventional technique remains as "drying" is "(gan1) (gan1)", so it is generally converted to "other dry and dry work", which is correct. I can't get the "other trunk dry work".

【0012】(3)著作権や作成対象文章の内容による
相違等のため大きくて、且つバランスがよい中国語のコ
パスが容易に得られないので、BIGRAMの抽出には
多数の工数、多額の経費を必要とする。また、中国語の
コパスが不均衡であれば、抽出されたBIGRAM表
は、単語の変換の正確性に影響を及ぼす。なお、ここに
コパス(CORPUS)とは、相隣接する文字、単語の
出現確率についてのデータベースのことを指す。
(3) Since a large and well-balanced Chinese compass cannot be easily obtained due to differences in copyright and the contents of the text to be created, it takes a lot of man-hours and a large amount of cost to extract BIGRAM. Need. Also, if the Chinese copas are imbalanced, the extracted BIGRAM table affects the accuracy of word conversion. The term "CORPUS" as used herein refers to a database of occurrence probabilities of adjacent characters and words.

【0013】このため、安価かつ正確な中国語の簡体字
と繁体字の文書の相互変換装置の出現が望まれている。
本発明は、かかる課題を解決する目的でなされたもので
ある。
Therefore, the advent of an inexpensive and accurate mutual conversion device for Simplified Chinese characters and Traditional Chinese characters is desired.
The present invention has been made for the purpose of solving such problems.

【0014】[0014]

【課題を解決するための手段】上記の目的を達成するた
めに、請求項1の発明においては、文字及び読みの情報
を利用し中国語の簡体字若しくは繁体字で記載された原
始文書を他方の文字で記載された目的文書に変換する中
国語簡繁体字文書変換装置において、簡体字用語(含む
単一若しくは複数の漢字、熟語、句等)及びそれに対応
する繁体字用語を組にして(含む、実質的な組)記憶す
る用語変換辞書と、簡体字若しくは繁体字で記載された
原始文書の用語で前記用語変換辞書を検索し該当する対
応語を見出して原始文書の用語を書き直す用語変換部
と、読み記号(含む、注音記号、へい音記号、また含
む、複数)とそれに対応する簡体及び繁体の漢字(単
一、複数を問わない)或いは単語(含む、連語、慣用句
等)を記憶するシステム辞書と、前記システム辞書を参
照して原始文書の文字を読み記号(含む、各種の字音記
号)に変換する文字対読み変換部と、簡体字及びそれに
対応する繁体字を組にして記憶する簡繁体字対応辞書
と、前記システム辞書と前記、簡繁体字対応辞書を参照
して読み記号から文字への所定の変換アルゴリズムによ
り上記の読み記号を他の書体字の目的文書の文字に変換
する読み対文字変換部とを備えることを特徴としてい
る。
In order to achieve the above object, in the invention of claim 1, the source document written in Simplified Chinese or Traditional Chinese in Chinese is used for the other by utilizing the information of characters and reading. In a device for converting a simplified Chinese character document into a target document described in characters, a simplified Chinese term (including single or plural Chinese characters, idioms, phrases, etc.) and a corresponding traditional Chinese term are combined (including: (Substantial set) a term conversion dictionary to be stored, a term conversion unit that searches the term conversion dictionary for terms in the source document written in simplified or traditional characters, finds a corresponding word, and rewrites the term in the source document, A system for storing phonetic symbols (including, phonetic symbols, syllables, and also plural) and corresponding Simplified and traditional Chinese characters (single or plural) or words (including, collocations, idioms, etc.) Calligraphy, a character-to-reading conversion unit for converting characters of a source document into reading symbols (including various glyph symbols) by referring to the system dictionary, and a simplified unit for storing Simplified characters and corresponding Traditional characters as a set. A character pair dictionary, the system dictionary, and a reading pair that converts the above-mentioned reading symbols into the characters of the target document of other typeface characters by a predetermined conversion algorithm from reading symbols to characters by referring to the simplified character corresponding dictionary. It is characterized by including a character conversion unit.

【0015】請求項2の発明においては、前記中国語の
簡体字と繁体字は、例えば前者は「00」、後者は「0
1」等のその旨を示すあらかじめ定められた印(言語フ
ラグ)で区別され、前記システム辞書は中国語の漢字や
単語を簡、繁体字にかかわらず非破音字を非破音字区に
格納する非破音字区手段と、破音字を破音字区に格納す
る破音字区手段を有し(含む、同一のメモリ内での両者
のフラグによる区別)、前記読み対文字変換部は変換ア
ルゴリズムとして、第1に構成する音節(漢字)数を優
先し、第2に先に存在する音節を優先する最長一致法を
採用している(含む、これに併せて、いわゆる形態素解
析等他の方法を採用する)最長一致法反映変換手段を有
していることを特徴としている。
In the invention of claim 2, the simplified Chinese characters and the traditional Chinese characters are, for example, "00" for the former and "0" for the latter.
It is distinguished by a predetermined mark (language flag) indicating that, such as "1", and the system dictionary stores Chinese characters and words in non-breaking letters in non-breaking letters, regardless of whether they are simplified or traditional Chinese. There is a non-transliterated character section means and a transliterated character section means for storing a transliterated character in the transliterated character section (including distinction by both flags in the same memory), and the reading-to-character conversion section as a conversion algorithm, First, the longest match method that prioritizes the number of syllables (Chinese characters) to be configured and secondly prioritizes the syllable that exists first (including, in addition to this, other methods such as so-called morphological analysis is adopted. It has a longest matching method reflection conversion means.

【0016】請求項3の発明においては、前記読み対文
字変換部は、変換アルゴリズムとして使用頻度が高い文
字、単語を優先して変換する使用頻度反映変換手段を有
している(含む、他の手段を有する)ことを特徴として
いる。請求項4の発明においては、前記使用頻度反映変
換手段は、原始文書が技術文書、文学書等その分野の内
容に応じて上記変換アルゴリズム若しくはそのアルゴリ
ズムが変換に使用する頻度表を、例えば分野毎に取り換
える等により切り換え可能とする文書内容反映使用頻度
切換制御手段を有していることを特徴としている。
In the invention of claim 3, the reading-to-character conversion unit has a frequency-of-use reflection conversion means for converting a character or a word that is frequently used as a conversion algorithm by giving priority to it (including other words). It has a means). In the invention of claim 4, the use frequency reflection conversion means may use, for example, for each field, the conversion algorithm or the frequency table used by the algorithm for conversion according to the content of the field such as a technical document or a literary book. It is characterized in that it has a document content reflection use frequency switching control means which can be switched by exchanging it with the above.

【0017】[0017]

【作用】上記構成により、請求項1の発明においては、
使用者がOCR、ディスクドライバなどにより原始文書
及び簡体、繁体のいずれかを示す言語フラグ(含む、実
質同一の指示や入力)を入力した後、用語変換部は簡
(繁)体字原始文書の用語で、簡体字用語及びそれに対
応する繁体字用語をあらかじめ記憶している用語変換辞
書を検索し該当する対応語を見つけて原始文書の用語を
書き直す。システム辞書は読み記号とそれに対応する簡
体及び繁体の漢字或いは単語をあらかじめ記憶してい
る。文字対読み変換部は上記システム辞書を参照して原
始文書の文字を読み記号に変換する。簡繁体字対応辞書
は簡体字及びそれに対応する繁体字をあらかじめ組にし
て記憶している。読み対文字変換部はシステム辞書、簡
繁体字対応辞書を参照して読み記号から文字への所定の
変換アルゴリズムにより上記の読み記号を繁(簡)体字
の目的文書の文字に変換する。
With the above structure, in the invention of claim 1,
After the user inputs a source document and a language flag (including substantially the same instruction or input) indicating the simplified document or the traditional document by the OCR, the disk driver, etc., the term conversion unit determines whether the source document is the simplified (traditional) source document. In terms of terms, the term conversion dictionary that stores in advance the simplified Chinese terms and the corresponding Traditional Chinese terms is searched, the corresponding corresponding terms are found, and the terms of the source document are rewritten. The system dictionary pre-stores phonetic symbols and their corresponding simplified and traditional Chinese characters or words. The character-to-reading conversion unit converts the characters of the source document into reading symbols by referring to the system dictionary. The simplified-traditional dictionary stores sets of simplified characters and corresponding traditional characters in advance. The phonetic-to-character conversion unit converts the phonetic symbols into characters of the target document of traditional (simplified) characters by a predetermined conversion algorithm from the phonetic symbols to characters by referring to the system dictionary and the simplified character dictionary.

【0018】請求項2の発明においては、前記中国語簡
繁体字文書変換装置の簡体字と繁体字は言語フラグで区
別する。システム辞書は中国語の漢字や単語を簡、繁体
字にかかわらず非破音字と破音字をそれぞれ非破音字区
と破音字区に区分けして格納している(含む、文字コー
ド順に配列して、別途のフラグによる区分け)。読み対
文字変換部は、変換アルゴリズムとして最長一致法を採
用して変換する。
According to the second aspect of the present invention, the simplified and traditional Chinese characters of the Chinese traditional Chinese document converter are distinguished by the language flag. The system dictionary stores Chinese kanji and words, regardless of whether they are simple or traditional, by dividing non-breaking characters and breaks into non-breaking and breaks, respectively (including, arranging in alphabetical order , Separated by a separate flag). The phonetic-to-character conversion unit adopts the longest matching method as a conversion algorithm for conversion.

【0019】請求項3の発明においては、前記中国語簡
繁体字文書変換装置の読み対文字変換部は使用頻度が高
い漢字、単語を優先して変換する。請求項4の発明にお
いては、前記使用頻度反映変換手段内の文書内容反映使
用頻度切換制御手段が、原始文書の内容に応じて上記変
換アルゴリズム若しくはそれが変換に使用する頻度表を
切り換え可能とする。
In the third aspect of the invention, the reading-to-character conversion section of the Chinese simplified Chinese document conversion device preferentially converts Kanji and words that are frequently used. In the invention of claim 4, the document content reflection use frequency switching control means in the use frequency reflection conversion means can switch the conversion algorithm or the frequency table used for the conversion according to the content of the source document. .

【0020】[0020]

【実施例】以下、本発明を実施例に基づいて説明する。
図4は本発明に係る中国語簡繁体字文書変換装置の一実
施例の構成図である。本図において、10は、外部と接
続する通信回線OCR、ディスクドライバなどにより原
始文書及び言語フラグを入力する入力部である。20
は、図5に示すような中国大陸と台湾との用語の差異の
対応表を記憶する用語変換辞書である。30は、言語フ
ラグ及び用語変換辞書を参照して検索語と一致する原始
文書の該当用語を対応語に書き直す用語変換部である。
用語変換部30の処理流れを図6に示す。なお、本図に
ついては後に詳しく説明する。50は、各読み記号及び
それに対応する簡体の漢字や単語及び繁体の漢字や単語
(破音字も含む)を記憶するシステム辞書である。シス
テム辞書50は、図7に示すように簡体と繁体に分けて
漢字や単語を記憶している。60は、言語フラグ及びシ
ステム辞書50を参照して、原始文書の文字を読み記号
に変換する文字対読み変換部である。変換部60の処理
流れを図8に示す。本図についても、後に詳しく説明す
る。80は、簡体字と繁体字との対応を記憶する簡繁体
字対応辞書である。図9に、簡繁体字対応辞書80の構
成を示す。70は、言語フラグ、システム辞書50及び
簡繁体字対応辞書80を参照して、原始文書の読み記号
を目的文書の文字に変換する読み対文字変換部である。
読み対文字変換部70の処理流れを図10に示す。本図
についても、後に詳しく説明する。90は、変換処理の
結果得られた目的文書を出力する出力部である。40
は、処理結果を一時記録するバッファである。
EXAMPLES The present invention will be described below based on examples.
FIG. 4 is a block diagram of an embodiment of a Simplified Chinese character document conversion device according to the present invention. In the figure, reference numeral 10 is an input unit for inputting a source document and a language flag by a communication line OCR connected to the outside, a disk driver or the like. 20
Is a term conversion dictionary storing a correspondence table of term differences between mainland China and Taiwan as shown in FIG. Reference numeral 30 is a term conversion unit that refers to the language flag and the term conversion dictionary and rewrites the corresponding term of the source document that matches the search term into the corresponding term.
The processing flow of the term conversion unit 30 is shown in FIG. Note that this figure will be described later in detail. Reference numeral 50 is a system dictionary that stores each phonetic symbol and its corresponding simplified Chinese characters and words and traditional Chinese characters and words (including deaf letters). As shown in FIG. 7, the system dictionary 50 stores Chinese characters and words in simplified and traditional forms. Reference numeral 60 is a character-to-reading conversion unit that converts the characters of the source document into reading symbols by referring to the language flag and the system dictionary 50. The processing flow of the conversion unit 60 is shown in FIG. This figure will also be described in detail later. Reference numeral 80 denotes a simplified-traditional character dictionary that stores the correspondence between simplified characters and traditional characters. FIG. 9 shows a configuration of the simplified Chinese character dictionary 80. Reference numeral 70 is a reading-to-character conversion unit that converts the reading symbol of the source document into the character of the target document by referring to the language flag, the system dictionary 50, and the simplified Chinese character dictionary 80.
FIG. 10 shows a processing flow of the reading-to-character conversion unit 70. This figure will also be described in detail later. An output unit 90 outputs the target document obtained as a result of the conversion process. 40
Is a buffer for temporarily recording the processing result.

【0021】以上の他、最終的に翻訳者がチェックする
文字修正部等を有しているが、これらは、自明かつ周知
技術であるため、図示や説明は省略する。以下、本実施
例の動作を流れ図を参照しつつ説明する。最初に、図6
に示す用語変換部30の動作を説明する。 (a1)入力部10により言語フラグ及び原始文書を入
力すると共に、バッファ40に記録する。
In addition to the above, a character correction unit and the like to be finally checked by the translator are provided, but since these are obvious and well-known techniques, illustration and description thereof will be omitted. The operation of this embodiment will be described below with reference to the flow chart. First, Fig. 6
The operation of the term conversion unit 30 shown in will be described. (A1) A language flag and a source document are input by the input unit 10 and recorded in the buffer 40.

【0022】(a2)バッファ40に記録されている言
語フラグを参照して、用語変換辞書20から順序に検索
語及びそれに対応する置換語を取り出す。 (a3)検索語を全部取り出したか否かを判断する。検
索語がまだある場合には(a4)の処理に入り、検索語
を検索キーとして原始文書の文字とをマッチングしてか
ら、(a2)の処理に戻る。
(A2) With reference to the language flag recorded in the buffer 40, the search word and the replacement word corresponding thereto are taken out in order from the term conversion dictionary 20. (A3) It is determined whether all the search terms have been extracted. If the search word still exists, the process of (a4) is started, the characters of the source document are matched with the search word as a search key, and the process returns to (a2).

【0023】検索語がない場合には、用語変換部30の
処理を終えて、文字対読み変換部60の処理に入る。次
に、図8に示す文字対読み変換部60の動作を説明す
る。 (b1)用語変換部30から変換された原始文書の文字
を入力する。 (b2)区切り記号(例えば、文内の読点、句点)によ
り、原始文書の文字を音節毎に切り出してから、バッフ
ァ40に記録する。
When there is no search word, the processing of the term conversion unit 30 is finished and the processing of the character-to-reading conversion unit 60 is started. Next, the operation of the character-to-phonetic conversion unit 60 shown in FIG. 8 will be described. (B1) Input the characters of the source document converted from the term conversion unit 30. (B2) Characters of the source document are cut out for each syllable by a delimiter (for example, a reading point or a punctuation mark in a sentence) and then recorded in the buffer 40.

【0024】(b3)バッファ40に記録されている各
音節を各々に取り出して、システム辞書50を参照して
非破音字(曖昧性がない字を優先)の文字を読み記号に
変換した後、バッファ40に記録する。 (b4)バッファ40に記録されている破音字がある文
字をシステム辞書50の破音字区を参照して、破音字を
該当する読み記号に変換する。
(B3) Each syllable recorded in the buffer 40 is extracted into each syllable, and after referring to the system dictionary 50, non-fictional characters (characters without ambiguity take precedence) are converted into reading symbols. Record in buffer 40. (B4) The character with the diacritical character recorded in the buffer 40 is converted into the corresponding phonetic symbol by referring to the diacritical character section of the system dictionary 50.

【0025】(b5)バッファ40の原始文書の文字を
参照して、中国語の語法に基づき、バッファ40の各文
字の読み記号を修正する。例えば、「媽」の読みは「m
a1」であるが、「媽媽」の二番目の「媽」の声調は1
声(4声の中で最も高い)で読まなくて軽声(音節が連
続するため固有の声調を失って、弱く軽く発音される)
で読むべき「ma0」なので二番目の「媽」の読み記号
を修正する。
(B5) With reference to the characters of the source document in the buffer 40, the reading symbol of each character in the buffer 40 is corrected based on the Chinese idiom. For example, the reading of "Ma" is "m
"a1", but the tone of the second "Ma" is 1
Light voice (the highest among the four voices) without reading (sounds are weak and light pronunciation because the syllable is continuous and loses its specific tone)
Since it is "ma0" that should be read in, correct the reading mark of the second "ma".

【0026】なお、文字対読みの変換については、例え
ば、特開平4−238397号、1992年8月26日
にて開示している周知技術であるため、これ以上の説明
は省略する。以上で、文字対読み変換部60の処理が終
り、図10に示す読み対文字変換部70の処理に入るこ
とになる。以下、その内容を説明する。
The conversion of character-to-reading is a well-known technique disclosed in, for example, Japanese Unexamined Patent Publication No. 4-238397, August 26, 1992, and therefore further description will be omitted. With the above, the processing of the character-to-reading conversion unit 60 ends, and the processing of the reading-to-character conversion unit 70 shown in FIG. 10 is started. The contents will be described below.

【0027】(c1)文字対読み変換部60により得ら
れた原始文書の読み記号を入力する。 (c2)システム辞書50を参照して、読み記号につい
て音節になれる可能性のあるすべての音節を切り出す。
そして、各音節に対応する候補の漢字や単語をバッファ
40に記録する。
(C1) The phonetic symbol of the source document obtained by the character-to-phonetic conversion unit 60 is input. (C2) With reference to the system dictionary 50, all syllables that can possibly become syllables of the reading symbol are cut out.
Then, candidate kanji and words corresponding to each syllable are recorded in the buffer 40.

【0028】(c3)バッファ40に記録されている原
始文書の文字を参照して、各文字を検索キーとして簡繁
体字対応辞書80から各文字に対応できる文字を取り出
し、バッファ40に記録する。 (c4)バッファ40から音節になれる可能性のある各
音節の候補の漢字や単語を取り出し、バッファ40内の
各読み記号に対応する文字を参照して、不適切な候補、
すなわち可能性の低い漢字や単語を削除する。
(C3) By referring to the characters of the source document recorded in the buffer 40, a character corresponding to each character is extracted from the simplified Chinese character dictionary 80 by using each character as a search key and recorded in the buffer 40. (C4) The kanji or word of each syllable candidate having a possibility of becoming a syllable is taken out from the buffer 40, the character corresponding to each reading symbol in the buffer 40 is referred to, and an unsuitable candidate,
In other words, delete Kanji and words that are unlikely to occur.

【0029】(c5)最長一致法を利用して、候補の漢
字や単語から適当な文字を選択する。以上により、読み
対文字変換部70の処理が終了する。次に、中国語簡体
字文書を原始文書として、これから目的文書たる繁体字
文書への変換を例にとって、本実施例の動作をより具体
的に説明する。
(C5) Using the longest match method, an appropriate character is selected from candidate kanji and words. With the above, the process of the reading-to-character conversion unit 70 ends. Next, the operation of the present embodiment will be described more specifically by taking a simplified Chinese document as a source document and converting it into a traditional document as a target document.

【0030】入力部10から「他尚未使用ruan3(外
1)件」という原始文書及び「簡体」という言語フラグ
が入力されると、用語変換部30は図5の(a)に示す
ような用語変換辞書20を参照する。「ruan3(外1)
件」という検索語があるので、原始文書の「ruan3(外
1)件」を対応語の「ruan3(外1)体」に置換して、
原始文書を「他尚未使用体」に書き直してから、置換さ
れた原始文書及び言語フラグをバッファ40に記録す
る。次に、文字対読み変換部60はバッファ40に記録
されている言語フラグ及び図7に示すシステム辞書50
を参照して、この書き直された文字を下記のような読み
記号「talshang4uei4sh3yueng4ruan3ti3」に変換する。
そして、図10のような読み対文字変換部70の処理に
入る。上述の(c1)にて、以上の読み記号を入力する
と、(c2)にて音節を切り出し、変換で一つの漢字、
単語、用語に該当することとなる可能性のある音節を取
り出す。取り出された音節及びそれに対応する候補の漢
字や単語は図11に示すようになる。
When a source document "another unused ruan3 (external 1) case" and a language flag "simplified" are input from the input unit 10, the term conversion unit 30 causes a term as shown in FIG. Refer to the conversion dictionary 20. "Ruan3 (1 outside)
Since there is a search word "case", replace "ruan3 (outer 1) case" in the source document with the corresponding word "ruan3 (outer 1) body",
The source document is rewritten into the “other unused body”, and the replaced source document and language flag are recorded in the buffer 40. Next, the character-to-phonetic conversion unit 60 uses the language flag recorded in the buffer 40 and the system dictionary 50 shown in FIG.
Convert this rewritten character into the reading symbol "talshang4uei4sh3yueng4ruan3ti3" as shown below.
Then, the processing of the reading-to-character conversion unit 70 as shown in FIG. 10 is started. In (c1) above, if you input the above phonetic symbols, (c2) cuts out the syllable and converts it into one kanji,
Extract syllables that may correspond to words or terms. The extracted syllables and candidate Chinese characters and words corresponding to them are as shown in FIG.

【0031】[0031]

【外1】 [Outside 1]

【0032】図10の(c3)では、図7に示している
簡繁体字対応辞書80及びバッファ40の原始文書の各
文字を参照して、図12に示すような各漢字の読みに対
応する文字を取り出す。ついで、(c4)では簡繁体字
対応辞書80から取り出された上記の対応する漢字や単
語を参照しながら、不適切な候補の単漢字や単語を削除
することにより、図13に示すような可能性の高い候補
の漢字や単語が得られる。
In FIG. 10 (c3), referring to each character in the source document in the simplified character dictionary 80 and the buffer 40 shown in FIG. 7, it corresponds to reading each kanji as shown in FIG. Take out a character. Then, in (c4), by referring to the corresponding Chinese character or word extracted from the simplified Chinese character dictionary 80, by deleting an inappropriate candidate single Chinese character or word, the possibility as shown in FIG. 13 is obtained. You can get the kanji and words that are highly likely candidates.

【0033】(c5)で、最長一致法を利用して、「他
尚未使用軟體」に変換する。最後に、出力部90はこの
変換された文字列を出力する。以上、本発明を実施例に
基づいて説明してきたが、本発明は上記実施例に限定さ
れず、その要旨を変更しない範囲で、適宜変形して実施
してよいのは勿論である。すなわち、例えば、 (1)システム辞書は簡体、繁体に分けて漢字や単語を
記憶するのでなく、その旨の記号で簡体と繁体とを区分
けして、読み記号の順序に記憶している。
In step (c5), the longest matching method is used to convert to "other unused soft shavings". Finally, the output unit 90 outputs the converted character string. Although the present invention has been described above based on the embodiments, the present invention is not limited to the above embodiments, and it is needless to say that the invention may be appropriately modified and implemented without departing from the scope of the invention. That is, for example, (1) the system dictionary does not store kanji and words in simplified and traditional forms, but stores them in the order of reading symbols by distinguishing simplified and traditional forms according to the symbol to that effect.

【0034】(2)読み対文字変換部の変換に用いられ
るアルゴリズムは最長一致法に限らず、未確認の文字数
の個数を考察する等の形態素解析を採用し、その他文
法、使用頻度などの情報を利用して変換結果の正確性を
判断するようにしている。具体的には、使用頻度やOC
Rの認識確率から候補文字を絞り込んだり(特定した
り)、あるいは排除したりするようにしている。
(2) The algorithm used for the conversion of the reading-to-character conversion section is not limited to the longest match method, but morphological analysis such as considering the number of unconfirmed characters is adopted, and other information such as grammar and frequency of use is also acquired. It is used to judge the accuracy of the conversion result. Specifically, frequency of use and OC
The candidate characters are narrowed down (specified) or excluded from the recognition probability of R.

【0035】(3)製造等の都合で、本発明の一の必要
不可欠の構成要素(構成要件、事項、部)を複数とした
り、逆に複数のそれを一としたり、あるいは適宜これら
を組み合わせたりしている。 (4)既存のワードプロセッサーや変換装置に必要なプ
ログラムを読み込ませたり、辞書を記憶したディスク等
を付加したりして本発明と同様の構成をしている。
(3) For the convenience of manufacturing or the like, a plurality of essential constituent elements (constituent elements, matters, parts) of the present invention may be provided in a plural number, or conversely, a plurality of them may be provided in a single element, or a combination thereof may be appropriately used. I am. (4) The same configuration as that of the present invention is obtained by loading a necessary program into an existing word processor or conversion device or adding a disk storing a dictionary.

【0036】(5)使用頻度の高い文字は高価だがより
高速の記憶手段に記憶させる等、実施例の改良を図って
いる。 (6)入力部は、変換装置本体とは別体のL/E型の読
み取り機で読み込んで、ビット情報として記憶している
ディスクから入力される(読み込む)ものである。ま
た、出力手段は、ディスクにコード化した文書として出
力するようにしている。
(5) Characters that are frequently used are expensive, but are stored in a faster storage means to improve the embodiment. (6) The input unit is a unit that is read by an L / E type reader that is separate from the conversion device main body and is input (read) from a disc that stores bit information. Further, the output means outputs the document coded on the disc.

【0037】(7)単語、文字の使用される頻度は、文
書の分野により相当異なる。例えば、動物関係の文書で
は、「動」、「貝」、「馬」、「猫(簡)」、「鳥」等
の文字の使用頻度が高く、特許関係では「開發」等の単
語の使用頻度が高い。従って、読み対文字1換部の変換
アルゴリズムとして使用頻度を採用若しくは反映させる
場合には、本装置の利用者から入力された文書の用途、
内容分野に応じて作成された頻度表を使うようにしてい
る。あるいは、「開發」等特定の単語の使用頻度で判断
し、以降自動的に参照する頻度表を変更するようにして
いる。
(7) The frequency with which words and characters are used varies considerably depending on the field of the document. For example, in documents related to animals, letters such as “moving”, “shellfish”, “horse”, “cat (simplified)”, and “bird” are frequently used, and in patent relations, words such as “kairan” are used. Frequent. Therefore, when the frequency of use is adopted or reflected as the conversion algorithm of the reading-to-character conversion unit, the purpose of the document input by the user of this device,
I try to use the frequency table created according to the content area. Alternatively, the frequency of use is determined based on the frequency of use of a specific word such as "kairei", and the frequency table automatically referred to thereafter is changed.

【0038】(8)OCRで入力された文を変更対象と
する際に、そもそも辞書に掲載されていない漢字等につ
いてはOCRの読み取り誤りと判断し、その旨を出力す
る機能を付加している。 (9)似た形状の文字が多い、字画が多い、その他経験
からOCRによる読み取りの精度が低いとあらかじめ判
明している文字については、該文字を含む単語、前後の
文字との相関に対するウェートを上げる、翻訳者にその
旨注意を促す等の機能を付加している。
(8) When a sentence input by OCR is to be changed, it is judged that a Kanji character or the like not originally listed in the dictionary is an OCR reading error, and a function to output that effect is added. . (9) For characters that are known to have many similar characters, many strokes, and other low OCR reading accuracy based on experience, weight the word containing the character and the correlation with the preceding and following characters. Functions such as raising and alerting the translator to that effect are added.

【0039】[0039]

【発明の効果】以上説明したように、本発明の中国語簡
繁体字文書互換装置によれば、従来の問題点を解決し、
以下に示すような効果が得られる。 (1)文字と読みの情報を利用するので、読みを文字に
変換する際に、単語が辞書に載っていない場合や、相隣
接する二つの単語の変換の問題(例えば、「有一天」に
相応する読み記号列に「有益」、「一天」の前後単語が
あるので、「有益天」という誤変換が生じる)や、同音
異義語の選択の問題(例えば、「上位」、「尚未」、
「上尉」の三つの同音異義語)等により引き起こされた
問題点を有効に解決することができる。
As described above, according to the Chinese Simplified Chinese document compatible device of the present invention, the conventional problems can be solved,
The following effects can be obtained. (1) Since the information of characters and readings is used, when converting the readings into characters, if the word is not in the dictionary, or there is a problem of conversion between two adjacent words (for example, "Yuichiten" The corresponding phonetic string has the words "beneficial" and "one heaven" before and after, so there is an erroneous conversion of "beneficial heaven") and the problem of the selection of homonyms (for example, "upper", "still"),
It is possible to effectively solve the problems caused by the "three homonyms" of "Captain".

【0040】また、破音字の誤変換も語法、文法たる読
みの情報を利用することにより減少させることが可能と
なり、簡体字文書と繁体字文書との変換の正確率が向上
する。また、辞書のサイズを小さくすることも可能とな
る。 (2)BIGRAM情報を使用しないので、コパスの内
容に影響されず、変換の正確性が向上する。また、コパ
スの収集の困難性による変換の不正確性もない。なお、
正確かつ分野毎に応じたものが得られるならば、これら
を用いるようにして、更に精度向上を図ってもよいのは
勿論である。
Further, it is possible to reduce erroneous conversions of phonetic characters by using the reading information such as the grammar and grammar, and the accuracy rate of conversion between simplified and traditional characters is improved. Also, the size of the dictionary can be reduced. (2) Since the BIGRAM information is not used, the accuracy of conversion is improved without being affected by the contents of the copass. Also, there is no inaccuracy of the conversion due to the difficulty of collecting the corpus. In addition,
It is needless to say that if an accurate one suitable for each field can be obtained, the accuracy can be further improved by using these.

【0041】(3)中国語ワードプロセッサー等とし
て、中国語文書を入力するときの字音記号から漢字への
変換と、簡体字と繁体字相互間の変換とに、同じシステ
ム辞書を使用しえる。このため、中国語ワードプロセッ
サー等と兼用する場合に、他の辞書を設ける必要がな
い。ひいては、辞書作成の工数の削減等を図れ、経費削
減ともなる。
(3) As a Chinese word processor or the like, the same system dictionary can be used for converting syllabary symbols into Chinese characters when inputting Chinese documents and for converting between simplified and traditional characters. Therefore, it is not necessary to provide another dictionary when it is also used as a Chinese word processor. As a result, it is possible to reduce the number of man-hours required to create a dictionary, which leads to cost reduction.

【0042】(4)用語変換辞書は一つの言語で記述し
ているので、この辞書を使用する限り、大陸、台湾での
使用にあたり簡体システム、あるいは繁体システムを煩
雑に切り替える必要がなく、経済的かつ省力的である。
このため、本発明の実用性が非常に高い。
(4) Since the term conversion dictionary is described in one language, as long as this dictionary is used, there is no need to switch the simplified system or the traditional system intricately for use in the continent and Taiwan, and it is economical. And labor-saving.
Therefore, the practicability of the present invention is very high.

【図面の簡単な説明】[Brief description of drawings]

【図1】従来の中国語簡繁体字文書変換装置の構成の一
例を示す図である。
FIG. 1 is a diagram showing an example of a configuration of a conventional Chinese simplified Chinese document conversion device.

【図2】従来の中国語簡繁体字文書変換装置の処理の流
れをハード面から示した図である。
FIG. 2 is a diagram showing a hardware flow of a process of a conventional Chinese simplified document conversion device.

【図3】従来の中国語簡繁体字文書変換装置の処理の流
れ図である。
FIG. 3 is a flow chart of processing of a conventional Chinese simplified character document conversion device.

【図4】本発明に係る中国語簡繁体字文書変換装置の一
実施例の構成図である。
FIG. 4 is a block diagram of an embodiment of a simplified Chinese character document conversion device according to the present invention.

【図5】上記実施例における用語変換辞書のデータ構造
の概念図である。本図において、(a)は簡体字文書か
ら繁体字文書への変換に用いられるものである。(b)
は、繁体字文書から簡体字文書への変換に用いられるも
のである。
FIG. 5 is a conceptual diagram of a data structure of a term conversion dictionary in the above embodiment. In the figure, (a) is used for conversion from a simplified character document to a traditional character document. (B)
Is used to convert a traditional document into a simplified document.

【図6】上記実施例における用語変換部の動作を中心に
示した流れ図である。
FIG. 6 is a flowchart mainly showing the operation of the term conversion unit in the above embodiment.

【図7】上記実施例におけるシステム辞書のデータ構造
の概念図である。
FIG. 7 is a conceptual diagram of a data structure of a system dictionary in the above embodiment.

【図8】上記実施例における文字対読み変換部の動作を
中心に示した流れ図である。
FIG. 8 is a flowchart mainly showing the operation of the character-to-reading conversion unit in the above embodiment.

【図9】上記実施例における簡繁体字対応辞書のデータ
構造を概念的に示した図である。
FIG. 9 is a diagram conceptually showing a data structure of a simplified Chinese character dictionary in the above embodiment.

【図10】上記実施例における読み対文字変換部の動作
を中心に示した流れ図である。
FIG. 10 is a flowchart mainly showing the operation of the reading-to-character conversion unit in the above embodiment.

【図11】上記実施例における簡体字文書から繁体字文
書への変換の具体例において、読み対文字変換部図10
の(c2)のステップの処理の結果取り出された漢字や
単語を示した図である。
FIG. 11 is a reading-to-character conversion unit in a specific example of conversion from a simplified character document to a traditional character document in the above embodiment.
It is the figure which showed the Chinese character and the word extracted as a result of the process of the step (c2) of.

【図12】同じく、図10の(c3)のステップの結果
取り出された各漢字の読みに対応する文字を示した図で
ある。
FIG. 12 is a diagram showing characters corresponding to the reading of each Chinese character extracted as a result of the step (c3) of FIG.

【図13】同じく、図10の(c4)のステップの結果
取り出された各漢字の読みに対応する文字を示した図で
ある。
FIG. 13 is a diagram showing characters corresponding to the reading of each Chinese character extracted as a result of the step (c4) of FIG. 10;

【符号の説明】[Explanation of symbols]

10 入力部 20 用語変換辞書 30 用語変換部 40 バッファ 50 システム辞書 60 文字対読み変換部 70 読み対文字変換部 80 簡繁体字対応辞書 90 出力部 10 input unit 20 term conversion dictionary 30 term conversion unit 40 buffer 50 system dictionary 60 character-to-reading conversion unit 70 reading-to-character conversion unit 80 simplified Chinese character dictionary 90 output unit

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 文字及び読みの情報を利用し中国語の簡
体字若しくは繁体字で記載された原始文書を他方の文字
で記載された目的文書に変換する中国語簡繁体字文書変
換装置において、 簡体字用語及びそれに対応する繁体字用語を組にして記
憶する用語変換辞書と、 簡体字若しくは繁体字で記載された原始文書の用語で前
記用語変換辞書を検索し該当する対応語を見出して原始
文書の用語を書き直す用語変換部と、 読み記号とそれに対応する簡体及び繁体の漢字或いは単
語を記憶するシステム辞書と、 前記システム辞書を参照して原始文書の文字を読み記号
に変換する文字対読み変換部と、 簡体字及びそれに対応する繁体字を記憶する簡繁体字対
応辞書と、 前記システム辞書、前記簡繁体字対応辞書を参照して読
み記号から文字への所定の変換アルゴリズムにより上記
の読み記号を他の書体字の目的文書の文字に変換する読
み対文字変換部とを備えることを特徴とする中国語簡繁
体字文書変換装置。
1. A simplified Chinese character document conversion device for converting a source document written in Simplified Chinese or traditional Chinese into a target document written in the other character using information on characters and readings. A term conversion dictionary that stores terms and their corresponding traditional Chinese words as a set, and a term in the original document that is written in Simplified or Traditional Chinese, searches the term conversion dictionary to find the corresponding word, and finds the corresponding original word A term conversion unit that rewrites, a system dictionary that stores reading symbols and corresponding Simplified and Traditional Chinese characters or words, and a character-to-reading conversion unit that refers to the system dictionary and converts the characters of the source document into reading symbols. , A simplified dictionary corresponding to the simplified Chinese characters and the traditional Chinese characters corresponding to the simplified Chinese characters, and the system dictionary, referring to the simplified Chinese characters corresponding dictionary, a predetermined symbol from the reading symbol to the character. A Chinese-Simplified Chinese character document conversion device, comprising: a reading-to-character conversion unit for converting the above-mentioned reading symbol into a character of a target document of another typeface character by a conversion algorithm.
【請求項2】 上記中国語の簡体字と繁体字はその旨の
印で区別され、 前記システム辞書は、 中国語の漢字や単語を簡体字、繁体字にかかわらず非破
音字を非破音字区に格納する非破音字区手段と、 破音字を非破音字区に格納する破音字区手段とを有し、 前記読み対文字変換部は、 変換アルゴリズムとして最長一致法を採用している最長
一致法反映変換手段を有していることを特徴とする請求
項1記載の中国語簡繁体字文書変換装置。
2. Simplified Chinese characters and traditional Chinese characters are distinguished by a mark to that effect, and the system dictionary defines Chinese characters or words in Simplified or Traditional Chinese characters as non-breaking characters. The longest-matching method adopts the longest-matching method as the conversion algorithm. The Chinese simplified Chinese document conversion device according to claim 1, further comprising reflection conversion means.
【請求項3】 前記読み対文字変換部は、 変換アルゴリズムとして使用頻度が高い文字、単語を優
先して変換する使用頻度反映変換手段を有していること
を特徴とする請求項1若しくは請求項2記載の中国語簡
繁体字文書変換装置。
3. The reading-to-character conversion unit has a usage frequency reflection conversion unit for converting a character or a word that is frequently used as a conversion algorithm with priority. 2. A simplified Chinese document conversion device according to 2.
【請求項4】 前記使用頻度反映変換手段は、原始文書
の内容に応じて上記変換アルゴリズム若しくはそれが変
換に使用する頻度表を切り換え可能とする文書内容反映
使用頻度切換制御手段を有していることを特徴とする請
求項3記載の中国語簡繁体字文書変換装置。
4. The use frequency reflection conversion means has a document content reflection use frequency switching control means capable of switching the conversion algorithm or the frequency table used for the conversion according to the content of the source document. The Chinese-Simplified Chinese character document conversion device according to claim 3.
JP7066117A 1995-03-24 1995-03-24 Single/linked chinese character document converting device Pending JPH08263478A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7066117A JPH08263478A (en) 1995-03-24 1995-03-24 Single/linked chinese character document converting device
CN96103701A CN1102779C (en) 1995-03-24 1996-03-21 Simplified Chinese character-the original complex form changingover apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7066117A JPH08263478A (en) 1995-03-24 1995-03-24 Single/linked chinese character document converting device

Publications (1)

Publication Number Publication Date
JPH08263478A true JPH08263478A (en) 1996-10-11

Family

ID=13306625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7066117A Pending JPH08263478A (en) 1995-03-24 1995-03-24 Single/linked chinese character document converting device

Country Status (2)

Country Link
JP (1) JPH08263478A (en)
CN (1) CN1102779C (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006236315A (en) * 2005-01-03 2006-09-07 Microsoft Corp Method and apparatus for enabling foreign language text display when encoding is not available
JP2006252164A (en) * 2005-03-10 2006-09-21 Fuji Xerox Co Ltd Chinese document processing device
JP2008052720A (en) * 2006-08-21 2008-03-06 Fuji Xerox Co Ltd Method of mutual conversion between simplified characters and traditional characters, and its conversion apparatus
KR101384139B1 (en) * 2012-11-23 2014-04-10 박선정 Transformation method for chinese simplified character, study method using the same, recoding medium, storage medium and mobile communication device including storage medium
JP2014123379A (en) * 2012-12-24 2014-07-03 Kofukin Seimitsu Kogyo (Shenzhen) Yugenkoshi Chinese patent application file conversion system and method

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1786956B (en) * 2005-12-09 2010-08-25 王绯 Method for processing converting abnormal word containing unicode four byte code East Asia ideograph in searching engine
CN102929852B (en) * 2012-10-15 2016-05-04 福建榕基软件股份有限公司 A kind ofly in RichText Edition device, realize the method and system that the simple complex form of Chinese characters turns mutually
CN103870442A (en) * 2012-12-17 2014-06-18 鸿富锦精密工业(深圳)有限公司 Converting system and method for simplified Chinese and traditional Chinese
CN110874527A (en) * 2018-08-28 2020-03-10 游险峰 Cloud-based intelligent paraphrasing and phonetic notation system
CN112036121A (en) * 2020-08-31 2020-12-04 浪潮商用机器有限公司 Simplified Chinese character and traditional Chinese character conversion method and related device
CN117252154B (en) * 2023-11-20 2024-01-23 北京语言大学 Chinese simplified and complex character conversion method and system based on pre-training language model

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1038364A (en) * 1988-06-03 1989-12-27 李毅民 Letter complex form of Chinese characters compatible automatic conversion system for Chinese-character information processing
CN1018205B (en) * 1989-03-22 1992-09-09 唐懋宽 Chinese voice-digit coding input technique for computer
JPH04238397A (en) * 1991-01-23 1992-08-26 Matsushita Electric Ind Co Ltd Chinese pronunciation symbol generation device and its polyphone dictionary

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006236315A (en) * 2005-01-03 2006-09-07 Microsoft Corp Method and apparatus for enabling foreign language text display when encoding is not available
JP2006252164A (en) * 2005-03-10 2006-09-21 Fuji Xerox Co Ltd Chinese document processing device
JP2008052720A (en) * 2006-08-21 2008-03-06 Fuji Xerox Co Ltd Method of mutual conversion between simplified characters and traditional characters, and its conversion apparatus
KR101384139B1 (en) * 2012-11-23 2014-04-10 박선정 Transformation method for chinese simplified character, study method using the same, recoding medium, storage medium and mobile communication device including storage medium
WO2014081238A1 (en) * 2012-11-23 2014-05-30 Park Sun-Jung Conversion method for learning simplified chinese characters, learning method using same, recording medium, storage medium, and mobile communication terminal including said storage medium
JP2014123379A (en) * 2012-12-24 2014-07-03 Kofukin Seimitsu Kogyo (Shenzhen) Yugenkoshi Chinese patent application file conversion system and method

Also Published As

Publication number Publication date
CN1134568A (en) 1996-10-30
CN1102779C (en) 2003-03-05

Similar Documents

Publication Publication Date Title
TW448381B (en) Automatic segmentation of a text
US7149970B1 (en) Method and system for filtering and selecting from a candidate list generated by a stochastic input method
EP0844583B1 (en) Method and apparatus for character recognition
CN1205572C (en) Language input architecture for converting one text form to another text form with minimized typographical errors and conversion errors
JP2013117978A (en) Generating method for typing candidate for improvement in typing efficiency
KR19990078364A (en) Sentence processing apparatus and method thereof
JPH03224055A (en) Method and device for input of translation text
US7328404B2 (en) Method for predicting the readings of japanese ideographs
JPH08263478A (en) Single/linked chinese character document converting device
JP2011008784A (en) System and method for automatically recommending japanese word by using roman alphabet conversion
JP3975825B2 (en) Character recognition error correction method, apparatus and program
JP4054453B2 (en) Character recognition device and program recording medium
JPS62165267A (en) Voice word processor device
JPS61248160A (en) Document information registering system
JP3865149B2 (en) Speech recognition apparatus and method, dictionary creation apparatus, and information storage medium
KR20040050394A (en) A Translation Engine Apparatus for Translating from Source Language to Target Language and Translation Method thereof
JP2004206659A (en) Reading information determination method, device, and program
JP2939945B2 (en) Roman character address recognition device
JPH08305698A (en) Method and device for natural language analysis
JPS62145463A (en) Kana/kanji (japanese syllabary/chinese character) conversion system
JPH01281561A (en) Method for extracting japanese sentence correcting candidate character
JPS62224859A (en) Japanese language processing system
JPH10293811A (en) Document recognition device and method, and program storage medium
JP2575947B2 (en) Phrase extraction device
JPH04253262A (en) Reading kana addition system