JP2014120178A

JP2014120178A - 中国語の繁体字と簡体字との変換システム及び中国語の繁体字と簡体字との変換方法

Info

Publication number: JP2014120178A
Application number: JP2013259986A
Authority: JP
Inventors: Chung-Il Yi; 忠一李; De Yi Xie; 徳意謝; Hai-Yun Chen; 海雲陳; zhi-qiang Yi; 志強易
Original assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2012-12-17
Filing date: 2013-12-17
Publication date: 2014-06-30
Also published as: CN103870442A; US9208148B2; TW201430592A; US20140172410A1

Abstract

【課題】本発明は、自動的に、素早く、且つ正確に簡体字を繁体字に、或いは繁体字を簡体字に変換できる中国語の繁体字と簡体字との変換システム及び中国語の繁体字と簡体字との変換方法を提供することを目的とする。
【解決手段】本発明の中国語の繁体字と簡体字の変換システムは、単語表において、長い単語から短い単語の順で１つの単語を取得する取得モジュールと、文書における単語の位置番号を検索する検索モジュールと、取得された前記単語の位置番号が、該単語より長さが長い別の単語の位置番号と重なるかどうかを判断する判断モジュールと、単語が獲得した位置番号において、重なっている番号を削除する削除モジュールと、該単語の重なっている位置番号を削除した後の位置番号を単語表に保存する保存モジュールと、位置番号が保存された単語表によって、文書を変換する変換モジュールと、を備える。
【選択図】図３

Description

本発明は、中国語の文書の変換システム及び変換方法に関し、特に中国語の繁体字と簡体字との変換システム及び繁体字と簡体字との変換方法に関するものである。

中国語には、繁体字と簡体字があり、大部分の繁体字と簡体字の単語の書き方、意味は同じであるが、書き方、意味が全く違う単語もある。例えば、書き方において、特許文献を記載する際に使用する漢字において、パソコン等の電子装置を使用して、簡体字

の簡体字を繁体字に変換した場合

であり、簡体字「屏蔽」を繁体字に変換した場合「遮罩」である。意味においては、単語の意味を考えずに、文字を簡体字から繁体字に変換すると、意味が全く異なってしまう場合があるため、文書全体も全く違う意味になってしまう。このような場合、特に正式な文書或いは専門文書において、文書の繁体字或いは簡体字を一つ一つ調査しなければならならず、変換の正確性が低いため実に不便である。

以上の問題点に鑑みて、本発明は、自動的に文書の簡体字と繁体字とを変換して、素早く、且つ正確に簡体字を繁体字に、或いは繁体字を簡体字に変換できる中国語の繁体字と簡体字との変換システム及び中国語の繁体字と簡体字との変換方法を提供することを目的とする。

上記の課題を解決するために、本発明の中国語の繁体字と簡体字との変換システムは、単語表において、長い単語から短い単語の順で１つの単語を取得する取得モジュールと、文書における単語の位置番号を検索する検索モジュールと、取得された前記単語の位置番号が、該単語より長さが長い別の単語の位置番号と重なっているかどうかを判断する判断モジュールと、単語が獲得した位置番号において、重なっている番号を削除する削除モジュールと、該単語の重なっている位置番号を削除した後の位置番号を単語表に保存する保存モジュールと、位置番号が保存された単語表によって、文書を変換する変換モジュールと、を備える。

上記の課題を解決するために、本発明の中国語の繁体字と簡体字との変換方法は、単語表において、長い単語から短い単語の順で１つの単語を取得するステップと、文書において単語の位置番号を検索するステップと、取得された前記単語の位置番号が、該単語より長さが長い別の単語の位置番号と重なっているかどうかを判断するステップと、単語が獲得した位置番号において、重なっている番号を削除するステップと、該単語の重なっている位置番号を削除した後の位置番号を単語表に保存するステップと、全ての単語が取得された際、位置番号が保存された単語表によって、文書を変換するステップと、を備える。

本発明の中国語の繁体字と簡体字との変換システム及び中国語の繁体字と簡体字との変換方法は、自動的に文書の簡体字と繁体字とを変換して、素早く、且つ正確に簡体字を繁体字に、或いは繁体字を簡体字に変換できるので、文書の繁体字或いは簡体字を一つ一つ調査する必要がなく、便利である。

本発明に係る中国語の繁体字と簡体字との変換システムを応用する環境を示す図である。図１に示した中国語の繁体字と簡体字との変換システムの機能モジュールを示す図である。本発明に係る中国語の繁体字と簡体字との変換方法の流れ図である。図３に示した中国語の繁体字と簡体字との変換方法の単語表を示す図である。図３に示した中国語の繁体字と簡体字との変換方法の位置番号が保存された単語表を示す図である。

以下、図面に基づいて、本発明に係る中国語の繁体字と簡体字との変換システム及び繁体字と簡体字との変換方法について詳細に説明する。本発明の中国語の繁体字と簡体字との変換システム２０は、パソコン２内で実行される。パソコン２は、データベース５と接続される。パソコン２は、ディスプレイ１、キーボード３、及びマウス４と接続されて、パソコンを具体的に操作する際、入力／出力装置となる。

データベース５は、パソコン２に設置される或いは外部に設置されても良い。データベース５には、変換するための文書及び単語表６００が保存されている（図４を参照）。単語表６００は、中国語の簡体字と繁体字との間に互いに変換するための対応する単語を備える。例えば、図４に示したように、中国語の簡体字

に対応する繁体字は

であり、簡体字

に対応する繁体字は

であり、簡体字「数」に対応する繁体字は

であり、簡体字「数据」に対応する繁体字は「資料」である。単語表６００は、変換を必要とする文書中の全ての中国語の文字（簡体字及び繁体字）を備え、単語表６００によって、文書の簡体字を繁体字に変換する或いは繁体字を簡体字に変換する。本実施形態において、パソコン２は、文書の簡体字を繁体字に変換する。文書の様式は、ＷＯＲＤ、ＥＸＣＥＬ、ＰＤＦ、ＸＭＬ、ＨＴＭＬ等である。

図２に示したように、本発明のパソコン２は、更にデータ線、信号線と接続されたメモリ２７０及びプロセッサ２８０を備える。中国語の繁体字と簡体字との変換システム２０は、取得モジュール２１０、検索モジュール２２０、判断モジュール２３０、削除モジュール２４０、保存モジュール２５０、変換モジュール２６０を備える。取得モジュール２１０、検索モジュール２２０、判断モジュール２３０、削除モジュール２４０、保存モジュール２５０、変換モジュール２６０は、それぞれプログラムコード化された後、メモリ２７０に保存され、中国語の繁体字と簡体字との変換システム２０にそれぞれ対応する機能を提供する。

取得モジュール２１０は、単語表６００中、長い単語から短い単語の順で１つの単語を取得する。取得モジュール２１０は、先ず、単語表６００の中から、最も長い単語を取得する。例えば、図４に示したように、４つの単語において、単語

の長さが最も長いので、取得モジュール２１０は、先ず、単語

を取得し、次に単語「資料」を取得する。取得モジュール２１０は長さが同じ単語については、ランダムに取得する。また、ユーザは、予め各単語に優先番号を付けることができ、取得モジュール２１０はこの優先番号に基づいて単語を取得する。例えば、単語

の優先番号はＡであり、単語「数据」の優先番号はＢであり、漢字

の優先番号はＣであり、漢字「数」の優先番号はＤであり、優先順が最も高い順からＡ、Ｂ、Ｃ、Ｄ、とする。取得モジュール２１０は、先ず、優先番号Ａの単語

を取得し、次に優先番号Ｂの単語「数据」を取得し、次に優先番号Ｃの漢字

を取得し、最後に優先番号Ｄの漢字「数」を取得する。本実施形態において、取得モジュール２１０は各単語を一度しか取得しない。具体的には、各単語には、１つの状態信号が備えられ、ある１つの単語が取得モジュール２１０に取得されると、この単語の状態信号が変更され、取得モジュール２１０は単語の状態信号によって、単語が取得されたかどうかを判断する。例えば、漢字

が取得される前の状態信号が０１であり、漢字

が取得された後、状態信号は００に変更され、取得モジュール２１０が漢字

の状態信号００を読み取った際、漢字

は既に読み取られていると判断し、漢字

を取得しない。

検索モジュール２２０は、文書における単語の位置番号を検索する。具体的には、各様式の文書に記載された文字全てに番号がつけられており、この番号の順に並べられている。文書の各文字には、それぞれ１つずつ対応する位置番号がつけられている。この位置番号は数字であり、小さい数字から大きい数字の順に番号がつけられており、位置番号によって文書中における文字の具体的な位置を検索することができる。一般文書において、位置番号を検索する関数が提供されることによって、ユーザが書いた文字の位置番号を検索することができる。例えば、ＷＯＲＤ文書中で、位置番号を検索する際の関数は、ｍＡｐｐＮＯ．Ｉｎｄｅｘ（）であり、検索モジュール２２０は、該関数を利用して、文書における各単語の位置番号を検索する。単語は、複数の文字が組み合わさって形成され、文書中において、各文字に一つ一つ対応する位置番号がある。従って、各単語は、１つ或いは複数の位置番号を備える。例えば、単語

は、４つの文字を備える。これにより、単語

は４つの位置番号を備える。各単語の文字の数は決まっているので、単語中の１つの位置番号がわかれば、他の文字の位置番号も計算することができる。従って、ユーザは、単語中の１つの位置番号を該単語の位置番号と設定する。これによりメモリ２７０の記憶容量を減らすことができ、且つ計算効率を向上させることができる。本実施形態において、選択された単語の第一文字の番号を該単語の番号と設定する。例えば、単語

の４つの文字の位置番号がそれぞれ「６７」、「６８」、「６９」、「７０」である場合、位置番号「６７」を選択して、該単語の位置番号と設定する。文書中において、単語が対応する位置番号を有さない場合、文書において該単語は記載されていないことを意味する。単語が文書中に、１回或いは複数回記載された際、単語は、１つ或いは複数の位置番号を備える。図５に示したように、単語表６００中において、各単語は複数の位置番号を備え、各単語の位置番号は、単語の第一文字に基づく。

判断モジュール２３０は、取得された前記単語の位置番号が、この取得された単語より長さが長い別の単語の位置番号と重なるかどうかを判断する。取得された単語の位置番号が、該取得された単語より長さが長い別の単語の位置番号と重なった場合、取得された単語の位置番号と、長さが長い別の単語の位置番号には、同じ位置番号が存在することを意味する。具体的には、単語

が文書中に３回記載されており、位置番号がそれぞれ「６７」、「７５」、「８６」であり、並びに単語

は、その文書中で長さが最も長いので、判断モジュール２３０は、該単語の位置番号は、該単語より長さが長い別の単語の位置番号と重ならないと判断する。漢字

の場合、文書中に７回記載されており、その位置番号はそれぞれ、「１」、「５」、「２２」、「５５」、「６７」、「７５」、「８６」であり、漢字

より長さが長い別の単語は、単語

、単語「数据」であり、単語

の位置番号は、漢字

の位置番号と重なり、その重なった位置番号は「６７」、「７５」、「８６」であり、単語「数据」の位置番号と漢字

の位置番号は重ならない。各単語は、いずれか１つの文字の位置番号を該単語の位置番号に設定するので、取得した単語の位置番号と、該単語より長さが長い別の単語の位置番号が重なるかどうかを判断する際、各単語の位置番号のみを比べるのではなく、各単語の長さも考慮しなければならない。具体的には、単語

の位置番号は３つであり、それぞれ「６７」、「７５」、「８６」であり、単語は４つの文字を備える。該単語の実際の位置番号は、「６７」、「６８」、「６９」、「７０」、「７５」、「７６」、「７７」、「７８」、「８６」、「８７」、「８８」、「８９」であり、単語

より長さが短い単語の位置番号を上述の位置番号と比べて、単語

の位置番号と重なるかどうかを判断する。

削除モジュール２４０は、単語が獲得した全ての位置番号において、重なった番号を削除する。具体的には、漢字

は文書中に７回記載され、位置番号はそれぞれ「１」、「５」、「２２」、「５５」、「６７」、「７５」、「８６」である。この中で、重なった位置番号は、「６７」、「７５」、「８６」であり、削除モジュール２４０はこれら重なった位置番号を削除するので、漢字

の位置番号は「１」、「５」、「２２」、「５５」である。

保存モジュール２５０は、前記単語の重なった位置番号を削除した後の位置番号を単語表６００に保存する。具体的には、漢字

の位置番号は「１」、「５」、「２２」、「５５」であり、該４つの位置番号が単語表６００に保存される（図５を参照）。図５に示したように、単語表６００の単語間において位置番号は重ならない。

判断モジュール２３０は、全ての単語が取得されたかどうかを判断する。つまり、各単語の状態信号が変更されると、単語は取得されたことを意味する。

変換モジュール２６０は、位置番号が保存された単語表６００によって、文書を変換する。具体的には、変換モジュール２６０は、文書中における各単語の位置番号を検索し、文書中の単語を単語表６００から該単語と対応する変換単語に変換して、文書の簡単字を対応する繁体字に変換する。漢字

を例に挙げて説明すると、変換モジュール２６０は、位置番号が保存された単語表６００から単語

の４つの位置番号、つまり、簡体字の漢字

に対応する繁体字の漢字

を探し出し、文書の４つ位置番号にある漢字

を漢字

に変換する。

図３に示したように、繁体字と簡体字との変換方法は、以下のステップ（Ｓ１０〜Ｓ７０）を備える。ステップＳ１０において、取得モジュール２１０は、単語表６００中、長い単語から短い単語の順で１つの単語を取得する。取得モジュール２１０は、先ず、単語表６００から、最も長い単語を取得する。例えば、図４に示したように、４つの単語において、単語

を取得し、次に単語

を取得し、取得モジュール２１０は、長さが同じ単語については、ランダムに取得する。また、ユーザは、予め各単語に優先番号を付けることができる。この際、取得モジュール２１０はこの優先番号に基づいて単語を取得する。例えば、単語

を取得し、最後に優先番号Ｄの漢字「数」を取得する。本実施形態において、取得モジュール２１０は各単語を一度しか取得しない。具体的には、各単語には、１つの状態信号を有し、ある１つの単語が取得モジュール２１０に取得された際、その単語の状態信号は変更され、取得モジュール２１０は単語の状態信号によって、その単語が取得されたかどうかを判断する。例えば、漢字

が取得される前の状態信号が０１である場合、漢字

が取得された後、状態信号は００に変更される。取得モジュール２１０が漢字

の状態信号００を読み取ると、漢字

は既に読み取られたと判断し、漢字

は取得しない。

ステップＳ２０において、検索モジュール２２０は、各様式の文書に記載された文字全てに番号がつけられており、この番号の順に並べられている。文書の各文字には、それぞれ１つずつ対応する位置番号がつけられている。この位置番号は数字であり、小さい数字から大きい数字の順に番号がつけられており、位置番号によって文書中における文字の具体的な位置を検索することができる。一般文書において、位置番号を検索する関数が提供されることによって、ユーザが書いた文字の位置番号を検索することができる。例えば、ＷＯＲＤ文書中で、位置番号を検索する際の関数は、ｍＡｐｐＮＯ．Ｉｎｄｅｘ（）であり、検索モジュール２２０は、該関数を利用して、文書における各単語の位置番号を検索する。単語は、複数の文字が組み合わさって形成され、文書中において、各文字に一つ一つ対応する位置番号がある。従って、各単語は、１つ或いは複数の位置番号を備える。例えば、単語

は、４つの文字を備える。これにより、単語

は４つの位置番号を備える。各単語の文字の数は決まっているので、単語中の１つの位置番号がわかれば、他の文字の位置番号も計算することができる。従って、ユーザは、単語中の１つの位置番号を該単語の位置番号と設定する。これによりメモリの記憶容量を減らすことができ、且つ計算の効率を向上することができる。本実施形態において、選択された単語の第一文字の番号を該単語の番号と設定する。例えば、単語

の４つの文字の位置番号がそれぞれ「６７」、「６８」、「６９」、「７０」である場合、位置番号「６７」を選択して、該単語の位置番号と設定する。文書中における単語が対応する位置番号を有さない場合、文書にこの単語は記載されていないことを意味する。単語が文書中において、１回或いは複数回記載された際、この単語は、１つ或いは複数の位置番号を備える。図５に示したように、単語表６００中において、各単語は複数の位置番号を備え、各単語の位置番号は、単語の第一文字が文書における位置番号である。

ステップＳ３０において、判断モジュール２３０は、取得された前記単語の位置番号が、この取得された単語より長さが長い別の単語の位置番号と重なるかどうかを判断する。取得された単語の位置番号が、該取得された単語より長さが長い別の単語の位置番号と重なった場合、取得された単語の位置番号と、長さが長い別の単語の位置番号には、同じ位置番号が存在することを意味する。具体的には、単語

が文書中に３回記載されており、位置番号はそれぞれ「６７」、「７５」、「８６」であり、単語

は文書中で長さが最も長いので、判断モジュール２３０は、該単語の位置番号は、該単語より長さが長い別の単語の位置番号と重ならないと判断する。漢字

より長さが長い別の単語は、単語

、単語「数据」であり、単語

の位置番号は、漢字

の位置番号と重なり、その重なった位置番号は「６７」、「７５」、「８６」である。この場合、ステップＳ４０に進む。

ステップＳ４０において、削除モジュール２４０は、単語が獲得した位置番号中において重なっている番号を削除する。具体的には、漢字

は文書中において７回記載されており、位置番号はそれぞれ「１」、「５」、「２２」、「５５」、「６７」、「７５」、「８６」である。この中で、重なっている位置番号は、「６７」、「７５」、「８６」である。この際、削除モジュール２４０は重なった位置番号を削除するので、漢字

ステップＳ５０において、保存モジュール２５０は、前記単語の重なっている位置番号を削除した後の位置番号を単語表６００に保存する。具体的には、漢字

の位置番号は「１」、「５」、「２２」、「５５」であり、該４つの位置番号が単語表６００に保存される。図５に示しているように、単語表６００の単語間において、位置番号は重なっていない。

ステップＳ６０において、判断モジュール２３０は、全ての単語が取得されたかどうかを判断する。単語が取得されたと判断された場合、ステップＳ７０に進む、単語が取得されていないと判断された場合、ステップＳ１０に戻る。

ステップＳ７０において、変換モジュール２６０は、位置番号が保存された単語表６００によって、文書を変換する。具体的には、変換モジュール２６０は、文書中における各単語の位置番号を検索し、文書中の該単語を単語表６００からこの単語と対応する変換単語に変換して、文書の簡単字を対応する繁体字に変換する。漢字

を例に挙げて説明すると、変換モジュール２６０は、位置番号が保存された単語表６００から漢字

の４つの位置番号、つまり、簡体字の漢字

に対応する繁体字の漢字

を探し出し、文書の４つ位置番号にある漢字

を漢字

に変換する。

１ディスプレイ
２パソコン
３キーボード
４マウス
５データベース
２０中国語の繁体字と簡体字との変換システム
２１０取得モジュール
２２０検索モジュール
２３０判断モジュール
２４０削除モジュール
２５０保存モジュール
２６０変換モジュール
２７０メモリ
２８０プロセッサ
６００単語表

Claims

中国語の繁体字と簡体字との変換システムにおいて、
単語表において、長い単語から短い単語の順で１つの単語を取得する取得モジュールと、
文書における単語の位置番号を検索する検索モジュールと、
取得された該単語の位置番号が、該単語より長さが長い別の単語の位置番号と重なるかどうかを判断する判断モジュールと、単語が獲得した位置番号において重なっている番号を削除する削除モジュールと、
前記単語の重なった位置番号を削除した後の位置番号を単語表に保存する保存モジュールと、
位置番号が保存された単語表によって、文書を変換する変換モジュールと、
を備えることを特徴とする中国語の繁体字と簡体字との変換システム。
前記単語表は、中国語の簡体字と繁体字との間に互いに変換するための対応する単語を備えることを特徴とする請求項１に記載の中国語の繁体字と簡体字との変換システム。
前記位置番号はであり、小さい数字から大きい数字の順に番号がつけられており、位置番号によって文書中における文字の具体的な位置を検索することを特徴とする請求項１に記載の中国語の繁体字と簡体字との変換システム。
前記単語は、いずれか１つの文字の位置番号を該単語の位置番号に設定することを特徴とする請求項１から３のいずれか１項に記載の中国語の繁体字と簡体字との変換システム。
取得された単語の位置番号が、該取得された単語より長さが長い別の単語の位置番号と重なった場合、取得された単語の位置番号と、長さが長い別の単語の位置番号には、同じ位置番号が存在することを意味することを特徴とする請求項１から３のいずれか１項に記載の中国語の繁体字と簡体字との変換システム。
中国語の繁体字と簡体字との変換方法において、
単語表において、長い単語から短い単語の順で１つの単語を取得するステップと、
文書において単語の位置番号を検索するステップと、
取得された前記単語の位置番号が、該単語より長さが長い別の単語の位置番号と重なるかどうかを判断するステップと、
単語が獲得した位置番号において重なっている番号を削除するステップと、
該単語の重なっている位置番号を削除した後の位置番号を単語表に保存するステップと、
全ての単語が取得された際、位置番号が保存された単語表によって、文書を変換するステップと、
を備えることを特徴とする中国語の繁体字と簡体字との変換方法。
前記単語表は、中国語の簡体字と繁体字との間に互いに変換するための対応する単語を備えることを特徴とする請求項６に記載の中国語の繁体字と簡体字との変換方法。
前記位置番号は数字によって、小さい数字から大きい数字の順に番号がつけられ、位置番号によって文書中における文字の具体的な位置を検索することを特徴とする請求項６に記載の中国語の繁体字と簡体字との変換方法。
前記単語は、いずれか１つの文字の位置番号を該単語の位置番号に設定することを特徴とする請求項６から８のいずれか１項に記載の中国語の繁体字と簡体字との変換方法。
取出された該単語の位置番号が、該単語より長さが長い別の単語の位置番号と重なり、取得した単語の位置番号と、該単語より長さが長い別の単語の位置番号とには、同じ位置番号が存在することを特徴とする請求項６から８のいずれか１項に記載の中国語の繁体字と簡体字との変換方法。