JP2008052720A - 簡体字と繁体字とを相互変換する方法及びその変換装置 - Google Patents

簡体字と繁体字とを相互変換する方法及びその変換装置 Download PDF

Info

Publication number
JP2008052720A
JP2008052720A JP2007187850A JP2007187850A JP2008052720A JP 2008052720 A JP2008052720 A JP 2008052720A JP 2007187850 A JP2007187850 A JP 2007187850A JP 2007187850 A JP2007187850 A JP 2007187850A JP 2008052720 A JP2008052720 A JP 2008052720A
Authority
JP
Japan
Prior art keywords
simplified
traditional
word
term
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007187850A
Other languages
English (en)
Other versions
JP5167711B2 (ja
Inventor
Tsuguaki Ryu
紹明 劉
Tonrei Sen
トンレイ セン
Shunfa En
シュンファ エン
Tokuhou Sou
トクホウ ソウ
Sei Rin
セイ リン
Yao Un
ヤオ ウン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2008052720A publication Critical patent/JP2008052720A/ja
Application granted granted Critical
Publication of JP5167711B2 publication Critical patent/JP5167711B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】マッピングテーブルにより漢字の簡体と繁体との相互または一方向変換を図ると共に、十分な変換精度を保証する。
【解決手段】変換される簡体/繁体漢字の文字列を単語/用語に分割する。各単語/用語を、漢字表記が繁体/簡体漢字の単語/用語と同じ、または同じではないが所定の対応関係を有する、第1種類の単語/用語と、漢字表記が繁体/簡体漢字の単語/用語と異なり、かつ所定の対応関係を有しない、第2種類の単語/用語に、それぞれ鑑別・定義する。マッピングテーブルを用いて、第1種類の単語/用語を入力された簡体/繁体漢字の単語/用語と唯一対応する繁体/簡体漢字の単語/用語に直接マッピングする。統計分類法により、第2種類の単語/用語を入力された簡体/繁体漢字の単語/用語と適正に対応する繁体/簡体漢字の単語/用語に変換する。変換された繁体/簡体漢字の単語/用語を結合して出力する。
【選択図】図1

Description

本発明は、中国語文字の変換方法及びその変換装置に関し、特に簡体字と繁体字とを相互または一方向に変換する方法及びその装置に関する。さらに具体的には、本発明は、データテーブルマッピング技術とデータ統計処理技術とを融合することで簡体字と繁体字との相互または一方向の変換を図る方法及びその装置に関する。
中国政府が施行している漢字の簡略化に伴って、従来の漢字(以下は繁体字と称する)を簡略化させることにより、漢字の普及及び教育/教学の進歩を得られたが、同時に、漢字に簡体と繁体という2つの漢字表記が存在することとなったのも現状である。例えば、中国内陸とシンガポールでは、偶に繁体字が用いられる場合もあるが、一般的には簡体字が用いられている。一方、中国の台湾、香港、マカオで教育を受けながら成長してきた華人の多くは、簡略化された漢字を完全に読めず、まだ従来の繁体字を完全に使用している。
従って、上記のように簡体字を使用する地域と繁体字を使用する地域の人々に互いに相手の書いた中国語を完全に読めるようにするためには、その書かれた中国語に用いられた、簡体字と繁体字で漢字表記に相違がある漢字を正確に変換しなければならない。この相違には下記の2つの面がある。
1つ目は、簡体から繁体へ(又は繁体から簡体へ)変換するときに現れる、一つの字が複数の字に対応する(以下は「一対多」と略称する)という問題である。例えば、簡体字の
Figure 2008052720
は繁体字の「髪」と「發」という2つの選択に対応しているので、語彙によって繁体字の「髪」と「發」を使い分けなければならない。例えば、簡体字の
Figure 2008052720
は繁体字の「頭髪」に変換され、簡体字の
Figure 2008052720
は繁体字の「發展」に変換されなければならない。
2つ目は、簡体から繁体へ(又は繁体から簡体へ)変換するときに現れる、同じ事物について表す字/単語の呼び方が異なるという問題である。例えば、簡体字の
Figure 2008052720
は繁体字の「電腦軟體」に変換され、簡体字の「星期」は繁体字の「禮拜」に変換されなければならない。
従来の技術では既に簡体字と繁体字との変換を行う技術がある。例えば、特許文献1および特許文献2では共に簡体字と繁体字とを相互変換する技術が開示されている。ここでこれら特許文献全文を参考とする。
一般的に、簡体字と繁体字との相互変換はGBKコードによる簡体字とBIG5コードによる繁体字との間で行われる変換である。上記の従来技術で行われた簡体字と繁体字との相互変換の手段をまとめると、次の3つがある。
1.ISN(internalstatement number)変換によって、ISNマッピングテーブルに基づく字から字への変換方法が提案された。字から字へとは、字を単位として変換を行うことを言い、ISNマッピングテーブルに基づくとは、繁体→簡体(簡体→繁体)の漢字マッピングテーブルを検索して、繁体字(簡体字)をそれに対応する簡体字(繁体字)に変換することを言う。
例えば、BIG5コードによる繁体字の「國」をGBKコードによる簡体字の「国」に変換する場合の処理は、繁体→簡体の漢字マッピングテーブルを検索して、当該漢字のISN B0EAをB9FAに変換するのに対して、簡体字を繁体字に変換する場合の処理は、簡体→繁体の漢字マッピングテーブルを検索して、当該漢字のISN B9FAをB0EAに変換する。
ISN変換の長所は、(1)繁体→簡体(簡体→繁体)の漢字マッピングテーブルさえあれば、簡単に実現でき(2)ISN変換という1つの処理のみで済むので、変換効率が高いという点である。
ISN変換の短所は変換の正確率が低いという点である。マッピングテーブルは各繁体字(簡体字)を唯一の簡体字(繁体字)の漢字表記に変換するものであるので、このような変換は一字が一字に対応する(以下は「一対一」と略称する)マッピングしか正確に処理できない。一対多でマッピングされる字については、マッピングテーブルに収められた変換字を除き、その他の変換の可能性のある字が無視されるため、変換の正確性を保証できない。例えば、正確な変換では、簡体字の
Figure 2008052720
は繁体字の「頭髪」に対応するが、ISNによる簡体→繁体の漢字マッピングテーブルを用いて簡体から繁体への変換を行うと、簡体字の
Figure 2008052720
は全て繁体字の「發」に変換さるので、
Figure 2008052720
は「頭發」と間違って変換される。したがって、変換の正確率が低いという問題が発生している。
2.単語レベルの変換により単語レベルマッピングテーブルに基づく単語から単語への変換方法が提案された。単語から単語への変換とは単語を単位として変換を行うことを言い、単語レベルマッピングテーブルに基づくとは、簡体→繁体(繁体→簡体)の単語レベルマッピングテーブルを検索して変換を完成することを言う。このマッピングテーブルの欄は全ての中国語の単語を含み、2つの漢字からなる単語だけでなく、1つの漢字からなる単語及び3つ以上の漢字からなる単語を含むものとしている。
変換の際に、まず、変換される漢字列をいくつかの単語に分割して、次に簡体→繁体(繁体→簡体)の単語レベルマッピングテーブルを検索して、単語を単位として変換を完成する。例えば、簡体字の文字列である
Figure 2008052720
を変換する場合、まずそれを一字の単語「梳」と二字の単語
Figure 2008052720
に分割して、次に簡体→繁体の単語レベルマッピングテーブルからこの2つの単語をそれぞれ検索して、それぞれを繁体の単語「梳」と「頭髪」に変換した結果、「梳頭髪」が得られる。繁体→簡体の変換処理もそれと類似する。
単語レベルによる変換の長所は、(1)一対多でマッピングされる漢字の変換を正確に処理できる、(2)1つのマッピングテーブルだけで簡体→繁体の変換及び繁体→簡体の変換を同時に処理できる、(3)単語の変換という1つの処理だけで済むので、変換効率が高いという点である。
単語レベルによる変換の短所は、(1)システムに高い単語分割性が要求されるので、一旦単語の分割ミスが発生すると、最終の変換結果のミスを招き易くなる、(2)簡体→繁体及び繁体→簡体の単語レベルマッピングテーブルの構成が難しくなる。中国語の単語は数十万個からあるので、こういった規模の単語テーブルを作成するには相当なコストがかかる。更に、単語集はオープンなものであり、毎日新しい単語が生まれると共に、あらゆる人名、地名及び機関名称を全て単語テーブルに含まれていることを保証することはできない、(3)一対多でマッピングされる一部の簡体→繁体及び繁体→簡体の漢字に関して、変換の正確性はまだ保証できない。例えば、一対多でマッピングされる氏名等がある。
3.用語変換によって用語マッピングテーブルに基づく用語から用語への変換方法が提案された。ここで言う「用語」は「単語」に関する広義的な解釈であり、実質的にはやはり単語を単位として変換を行う。然し、簡体及び繁体の漢字体系において互いに対応している用語は、その発音及び形体が同一性を有しなくてもよい場合がある、言い換えれば、字に基づく対応関係がなくてもよい。例を挙げると、簡体字の
Figure 2008052720
という用語は繁体字の「電腦」に対応し、簡体字の「星期」は繁体字の「禮拜」に変換される等。その表す用語は概念上では全く同じにもかかわらず、単語マッピングテーブルに基づいて、簡体→繁体(繁体→簡体)の単語マッピングテーブルを検索することにより変換を完成することもできる。
用語の変換処理は単語レベルの変換と類似するだけでなく、簡体→繁体の用語マッピングテーブルと簡体→繁体の単語レベルマッピングテーブルとは形式上でもよく似ている。異なるのは、単語レベルによるマッピングでは、簡体と繁体の単語は字に基づいて対応し、簡体字の単語における各字は繁体字の単語の相応した位置にある字に対応しており、一方用語によるマッピングでは、簡体と繁体の単語はその語意により対応しており、単語同士には必ずしも字に基づく対応関係があるとは限らない。
用語変換の長所は、(1)語彙レベルで漢字の簡体と繁体の相互変換を行える、(2)1つのマッピングテーブルだけで簡体→繁体の変換及び繁体→簡体の変換を同時に処理できる。
用語変換の短所は、(1)システムに高い「単語分割性」(文における「単語」の切り分け)が要求されて、一旦単語の分割ミスが発生すると、最終の変換結果のミスを招き易くなる、(2)簡体→繁体の用語マッピングテーブルの構成が難しくなる。まず、簡体→繁体の用語マッピングテーブルは繁体→簡体の用語マッピングテーブルのように全ての中国語の単語を含まなければならない。この他、このテーブルでは、中国語と外国語の固有名詞を処理しなければならず、そうしなければ、変換ミスを招くことがある。固有名詞には氏名、地名及び機関名等が含まれる。
したがって、上記の簡体と繁体の相互変換では、特別な用語を除き、基本的な問題はどのように一対多に基づく変換における字のマッピングを解決するかということである。この問題はある程度では単語の形式、例えば単語レベルに基づく変換で解決することができるが、そのマッピングテーブルの膨大化及び繁雑化によって、この手段をより一層完璧にするには困難がある。一方、ISN変換によれば、明らかに膨大で繁雑なマッピングテーブルの問題を解決したものの、その変換精度は低下している。
従って、十分な変換精度を保証すると共に、マッピングテーブルを過大化することなく、漢字の繁体と簡体との相互変換を図る新しい方法及び装置が要求されている。
なお、上述の従来技術やその問題点は、この発明の背景の一部を説明するためにのみ説明されている。この発明は上述の従来技術や問題点に限定されるものではない点に留意されたい。
中国特許公開CN1369833 中国特許公開CN1462966
本発明は、最も簡単なマッピングテーブルにより漢字の簡体と繁体との相互または一方向変換を図ると共に、十分な変換精度を保証することを目的とする。特に、簡体と繁体との相互変換において、漢字の一(字/単語)対多(字/単語)でマッピングする漢字に存在する課題を解決することを目的とする。
本発明の第1の側面によれば、簡体字と繁体字との相互変換を行う変換装置を提供し、当該変換装置は、変換対象である簡体/繁体漢字の文字列を入力する入力部と、
入力された簡体/繁体漢字の文字列をいくつかの単語/用語に分割する単語/用語分割部と、
前記入力された簡体/繁体漢字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表現が簡体/繁体漢字の単語/用語と同じ、または同じではないが所定の対応関係を有する簡体/繁体漢字の単語/用語を第1種類の単語/用語に定義すると共に、漢字表記が簡体/繁体漢字の単語/用語と異なり、かつ所定の対応関係を有しない簡体/繁体漢字の単語/用語を第2種類の単語/用語に定義する鑑別・定義部と、
マッピングテーブルを用いて、前記第1種類の単語/用語を入力された簡体/繁体漢字の単語/用語と唯一対応する繁体/簡体漢字の単語/用語に直接マッピングするマッピング変換部と、
統計分類法により、第2種類の単語/用語を入力された簡体/繁体漢字の単語/用語と適正に対応する繁体/簡体漢字の単語/用語に変換する統計変換部と、
マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された簡体/繁体漢字の単語/用語と唯一対応する繁体/簡体漢字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された簡体/繁体漢字の単語/用語と適正に対応する繁体/簡体漢字の単語/用語とを結合することで、入力された簡体/繁体漢字の文字列に対応する繁体/簡体漢字の文字列を形成して出力する結合出力部と、を含む。
本発明の変換装置の各部は、機能ブロックであり、典型的には、コンピュータのハードウェア資源とソフトウェアが協働して実現する具体的な手段である。
本発明の第1の側面では、典型的には、そのうちの単語/用語は一つの漢字又は複数の漢字からなる単語/用語を含む。
本発明の第1の側面では、典型的には、そのうち使用されるマッピングテーブルは、ユーザ用の簡体/繁体漢字→繁体/簡体漢字の単語/用語マッピングテーブルと、システム用の簡体/繁体漢字→繁体/簡体漢字の単語/用語マッピングテーブルと、簡体/繁体漢字→繁体/簡体漢字の一対一マッピングテーブルと、簡体/繁体漢字→繁体/簡体漢字の一対多マッピングテーブルとを含む。
本発明の第1の側面では、典型的には、そのうち採用される統計方法は特に限定はなく、例えば簡易ベイズ(SimpleBayes)統計法であってもよい。
本発明の第2の側面によれば、簡体字と繁体字との相互変換を行う変換方法を提供し、当該変換方法は、
入力部が、変換対象である簡体/繁体漢字の文字列を入力するステップと、
単語/用語分割部が、入力された簡体/繁体漢字の文字列をいくつかの単語/用語に分割するステップと、
鑑別・定義部が、前記入力された簡体/繁体漢字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が簡体/繁体漢字の単語/用語と同じ、または同じではないが所定の対応関係を有する簡体/繁体漢字の単語/用語を第1種類の単語/用語に定義すると共に、漢字表記が簡体/繁体漢字の単語/用語と異なり、かつ所定の対応関係を有しない簡体/繁体漢字の単語/用語を第2種類の単語/用語に定義するステップと、
マッピング変換部が、マッピングテーブルを用いて、前記第1種類の単語/用語を入力された簡体/繁体漢字の単語/用語と唯一対応する繁体/簡体漢字の単語/用語に直接マッピングするステップと、
統計変換部が、統計分類法により、第2種類の単語/用語を入力された簡体/繁体漢字の単語/用語と適正に対応する繁体/簡体漢字の単語/用語に変換するステップと、
結合出力部が、マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された簡体/繁体漢字の単語/用語と唯一対応する繁体/簡体漢字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された簡体/繁体漢字の単語/用語と適正に対応する繁体/簡体漢字の単語/用語とを結合することで、入力された簡体/繁体漢字の文字列に対応する繁体/簡体漢字の文字列を形成して出力するステップと、を含む。
本発明の第2の側面では、典型的には、そのうちの単語/用語は単一の漢字又は複数の漢字からなる単語/用語を含む。
本発明の第2の側面において、典型的には、そのうち使用されるマッピングテーブルは、ユーザ用の単語/用語マッピングテーブルと、システム用の単語/用語マッピングテーブルと、簡体/繁体漢字→繁体/簡体漢字の一対一マッピングテーブルと、簡体/繁体漢字→繁体/簡体漢字の一対多マッピングテーブルとを含む。
本発明の第2の側面において、そのうち採用された統計方法は特に限定はなく、例えば簡易ベイズ統計法であってもよい。
本発明の第3の側面によれば、簡体字を繁体字に変換する変換装置を提供し、当該変換装置は、
変換対象である簡体字の文字列を入力する入力部と、
入力された簡体字の文字列をいくつかの単語/用語に分割する単語/用語分割部と、
前記入力された簡体字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が繁体字の単語/用語と同じ、または同じではないが所定の対応関係を有する簡体字の単語/用語を第1種類の単語/用語に定義すると共に、漢字表記が繁体字の単語/用語と異なり、かつ所定の対応関係を有しない簡体字の単語/用語を第2種類の単語/用語に定義する鑑別・定義部と、
マッピングテーブルを用いて、前記第1種類の単語/用語を入力された簡体字の単語/用語と唯一対応する繁体字の単語/用語に直接マッピングするマッピング変換部と、
統計分類法により、第2種類の単語/用語を入力された簡体字の単語/用語と適正に対応する繁体字の単語/用語に変換する統計変換部と、
マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された簡体字の単語/用語と唯一対応する繁体字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された簡体字の単語/用語と適正に対応する繁体字の単語/用語とを結合することで、入力された簡体字の文字列に対応する繁体字の文字列を形成して出力する結合出力部と、を含む。
本発明の第3の側面では、典型的には、そのうちの単語/用語は単一の漢字又は複数の漢字からなる単語/用語を含む。
本発明の第3の側面において、典型的には、そのうち使用されるマッピングテーブルは、ユーザ用の簡体→繁体の単語/用語マッピングテーブルと、システム用の簡体→繁体の単語/用語マッピングテーブルと、簡体→繁体漢字のマッピングテーブルと、簡体→繁体漢字の一対多マッピングテーブルと、を含む。
本発明の第3の側面において、典型的には、そのうち採用される統計方法は特に限定はなく、例えば簡易ベイズ統計法であってもよい。
本発明の第4の側面によれば、簡体字を繁体字に変換する変換方法を提供し、当該変換方法は、
入力部が、変換対象である簡体字の文字列を入力するステップと、
単語/用語分割が、入力された簡体字の文字列をいくつかの単語/用語に分割するステップと、
鑑別・定義部が、前記入力された簡体字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が繁体字の単語/用語と同じ、または同じではないが所定の対応関係を有する簡体字の単語/用語を第1種類の単語/用語に定義すると共に、漢字表記が繁体字の単語/用語と異なり、かつ所定の対応関係を有しない簡体字の単語/用語を第2種類の単語/用語に定義するステップと、
マッピング変換部が、マッピングテーブルを用いて、前記第1種類の単語/用語を入力された簡体字の単語/用語と唯一対応する繁体字の単語/用語に直接マッピングするステップと、
統計変換部が、統計分類法により、第2種類の単語/用語を入力された簡体字の単語/用語と適正に対応する繁体字の単語/用語に変換するステップと、
結合出力部が、マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された簡体字の単語/用語と唯一対応する繁体字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された簡体字の単語/用語と適正に対応する繁体字の単語/用語とを結合することで、入力された簡体字の文字列に対応する繁体字の文字列を形成して出力するステップと、を含む。
本発明の第4の側面において、典型的には、そのうちの単語/用語は単一の漢字又は複数の漢字からなる単語/用語を含む。
本発明の第4の側面において、典型的には、そのうち使用されたマッピングテーブルは、ユーザ用の簡体→繁体の単語/用語マッピングテーブルと、システム用の簡体→繁体の単語/用語マッピングテーブルと、簡体→繁体漢字のマッピングテーブルと、簡体→繁体漢字の一対多マッピングテーブルとを含む。
本発明の第4の側面において、典型的には、そのうち採用された統計方法は特に限定はなく、例えば簡易ベイズ統計法であってもよい。
本発明の第5の側面によれば、繁体字を簡体字に変換する変換装置を提供し、当該変換装置は、
変換対象である繁体字の文字列を入力する、
単語/用語分割部は、入力された繁体字の文字列をいくつかの単語/用語に分割する入力部と、
前記入力された繁体字の文字列における各単語/用語を鑑別・定義し、そのうちの、書き方が簡体字の単語/用語と共通、または共通ではないが所定の対応関係を有する繁体字の単語/用語を第1種類の単語/用語に定義すると共に、書き方が簡体字の単語/用語と共通ではなく、かつ所定の対応関係を有しない繁体字の単語/用語を第2種類の単語/用語に定義する鑑別・定義部と、
マッピングテーブルを用いて、前記第1種類の単語/用語を入力された繁体字の単語/用語と唯一対応する簡体字の単語/用語に直接マッピングするマッピング変換部と、
統計分類法により、第2種類の単語/用語を入力された繁体字の単語/用語と適正に対応する簡体字の単語/用語に変換する統計変換部と、
マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された繁体字の単語/用語と唯一対応する簡体字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された繁体字の単語/用語と適正に対応する簡体字の単語/用語とを結合することで、変換される繁体字の文字列に対応する簡体字の文字列を形成して出力する結合出力部と、を含む。
本発明の第5の側面において、典型的には、そのうちの単語/用語は単一の漢字又は複数の漢字からなる単語/用語を含む。
本発明の第5の側面において、典型的には、そのうち使用されるマッピングテーブルは、ユーザ用の繁体→簡体の単語/用語マッピングテーブルと、システム用の繁体→簡体の単語/用語マッピングテーブルと、繁体→簡体漢字のマッピングテーブルと、繁体→簡体漢字の一対多マッピングテーブル及び異体字マッピングテーブルとを含む。
本発明の第5の側面において、典型的には、そのうち採用される統計方法は特に限定はなく、例えば簡易ベイズ統計法であってもよい。
本発明の第6の側面によれば、繁体字を簡体字に変換する変換方法を提供し、当該変換方法は、
入力部が、変換対象である繁体字の文字列を入力するステップと、
単語/用語分割部が、入力された繁体字の文字列をいくつかの単語/用語に分割するステップと、
鑑別・定義部が、前記入力された繁体字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が簡体字の単語/用語と同じ、または同じではないが所定の対応関係を有する繁体字の単語/用語を第1種類の単語/用語に定義すると共に、漢字表記が簡体字の単語/用語と異なり、かつ所定の対応関係を有しない繁体字の単語/用語を第2種類の単語/用語に定義するステップと、
マッピング変換部が、マッピングテーブルを用いて、前記第1種類の単語/用語を入力された繁体字の単語/用語と唯一対応する簡体字の単語/用語に直接マッピングするステップと、
統計変換部が、統計分類法により、第2種類の単語/用語を入力された繁体字の単語/用語と適正に対応する簡体字の単語/用語に変換するステップと、
結合出力部が、マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された繁体字の単語/用語と唯一対応する簡体字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された繁体字の単語/用語と適正に対応する簡体字の単語/用語とを結合することで、入力された繁体字の文字列に対応する簡体字の文字列を形成して出力するステップと、を含む。
本発明の第6の側面において、典型的には、そのうちの単語/用語は単一の漢字又は複数の漢字からなる単語/用語を含む。
本発明の第6の側面において、典型的には、そのうち使用されるマッピングテーブルは、ユーザ用の繁体→簡体の単語/用語マッピングテーブルと、システム用の繁体→簡体の単語/用語マッピングテーブルと、繁体→簡体漢字のマッピングテーブルと、繁体→簡体漢字の一対多マッピングテーブル及び異体字マッピングテーブルとを含む。
本発明の第6の側面において、典型的には、そのうち採用される統計方法は特に限定はなく、例えば簡易ベイズ統計法であってもよい。
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
本発明によれば、最も簡単なマッピングテーブルにより漢字の簡体と繁体との相互または一方向変換を図ると共に、十分な変換精度を保証することができる。
以下、図面を参照して本発明を詳しく説明する。
なお、これら図面及びフローチャートは本発明の実施例のアプローチを説明するものであり、本発明を具体的な形態に限定するものではない。実際には、図面を参照して以下の実施例の具体的な記載を理解した上で、当業者は、本発明の上記変換装置の各構成の機能を新たに割り当てる、或いは、異なる構成の機能に対して順序の入替えや分解や合併を行い、コンピュータのハードウェア及びソフトウェアの個別の操作又は連携の操作を行うことにより、本発明のアプローチの一部または全部を実現することができる。これらの変形はいずれも本発明の本質及び範囲を脱離しないものである。
図1は本発明の一実施例による簡体字と繁体字との相互変換を行う変換装置を説明するブロック図である。同図は本発明の総合的なアプローチ及び実際に適用される場合を合わせた状況を示す。なお、実施例の変換装置の各部は典型的には、パーソナルコンピュータ、情報端末その他の情報機器を含むコンピュータのハードウェア資源とソフトウェアとを協働させて実現される具体的な手段として構成される。
図に示すように、本発明による簡体字と繁体字との相互変換を行う変換装置100は、変換装置の核心となる変換処理器101と、入力装置102と出力装置103とを備える。
入力装置の例として、図1では、複写機1021、ファクシミリ1022、カメラ1023、外部メモリ1024、ネットワーク装置1025及び入力キーボード102n等を示した。実際には、最終的にテキスト様式の中国語の簡体または繁体文字列を変換処理器101のいずれかの装置に入力できるものであれば、いずれも入力装置として用いられる。同一のタイミングで、これら装置のいずれか1つから多重化器(図示せず)を介して変換処理器101に最初の信号を送る。
明らかなように、例えば、複写機1021の一部の入力手段が動作(例えば光学走査)後に生成した信号は文字列のテキスト信号ではない。この場合、必要な処理(例えばOCR識別処理)により、非文字列のテキスト信号を文字列のテキスト信号に変換してから変換処理器101に供給しなければならない。これらの内容は本発明の主旨ではなく、当業者の公知の常識であるので、ここでは省略する。
出力装置の例として、図1では、プリンタ1031、ファクシミリ1032、外部メモリ1024、ネットワーク装置1034及び表示装置103n等を示した。多重化器(図示せず)を介して、変換処理器101は変換された文字列のテキストをこれら出力装置の1つ以上に出力する。
図1に示すように、変換処理器は中国語を簡体から繁体に変換するサブ装置200と、中国語を繁体から簡体に変換するサブ装置400と、内部メモリ104とを備える。そのうち、中国語を簡体から繁体に変換するサブ装置200と中国語を繁体から簡体に変換するサブ装置400とがいずれも独立に存在することができ、それによって、図1に示す変換装置は、中国語を簡体から繁体に変換するまたは中国語を繁体から簡体に変換する一方向の変換装置に構成される。内部メモリ104に組み込まれる制御プログラムの制御下で、中国語を簡体から繁体に変換するサブ装置200または中国語を繁体から簡体に変換するサブ装置400は、入力装置102からの文字列を変換するように操作する。実際に、変換装置100はどんな場合に中国語を簡体から繁体に変換するサブ装置200とし、又はどんな場合に中国語を繁体から簡体に変換するサブ装置400として操作するかについては、ユーザの指令に基づいて決定してもよく、入力装置102から変換処理器に入力された漢字文字列の性質により自動に決定してもいい。内部メモリ104は更に生成された中間データ及び必要なデータベースファイルを記憶している。
変換される中国語の文字列は、入力装置102からインターフェス/マルチスイッチ(図示せず)を介して、中国語を簡体から繁体に変換するサブ装置200または中国語を繁体から簡体に変換するサブ装置400に入力される。また、変換結果である文字列を出力装置に伝送する。以下、図2と図3における簡体字を繁体字に変換する変換装置及びその操作フローに関する説明、並びに図4と図5における繁体字を簡体字に変換する変換装置及びその操作フローに関する説明を参照することにより、最終的に図1に示す簡体字と繁体字との相互変換を行う変換装置100を明瞭に理解できる。
以下、図2を参照して、本発明の一実施例である簡体字を繁体字に変換する変換装置200を説明する。
図2に示すように、簡体字を繁体字に変換する変換装置200は、変換部201と、データ入力部202と、出力部203と、単語/用語分割部204と、鑑別・定義部205とを備える。そのうち、変換部201は、簡体→繁体の単語/用語変換部206と、GBK簡体コード→GBK繁体コード変換部207と、GBKコード→BIG5コード変換部208とを備える。動作上では、鑑別・定義部205と簡体→繁体の単語/用語変換部206は、ユーザ用の簡体→繁体の単語/用語マッピングテーブル209とシステム用の簡体→繁体の単語/用語マッピングテーブル210と関連付けられている。GBK簡体コード→GBK繁体コード変換部207は、簡体→繁体の一対多の単字マッピングテーブル211と、統計データ212と、簡体→繁体_GBK漢字マッピングテーブル213と、簡体→繁体の一対多の単語マッピングテーブル214とに関連付けられている。更に、GBKコード→BIG5コード変換部208はBIG5→GBKコードの変換テーブル215と関連付けられている。
入力部202は変換される簡体字の文字列、例えばSCコードの簡体字データストリームを単語/用語分割部204に入力する。
単語/用語の分割を制御するルールに従って、単語/用語分割部204は入力された簡体字の文字列を1つまたはいくつかの単語/用語に分割する、即ち、簡体字の文字列のデータストリームを構成する各単語(用語)を「抽出」する。分割形成された単語/用語は1つまたはいくつかの簡体字の文字で構成されることができる。これらを単語/用語の分割結果として、発生した全ての単語/用語は鑑別・定義部205に入力される。
簡体/繁体漢字を繁体/簡体漢字に変換する従来技術では、変換される対象として入力された文字列を分割する(或いは、「単語を分割する」と言う)方法がいろいろ提案されているが、これら方法は共に本発明における入力装置から供給される簡体/繁体漢字の文字列の方法を採用できる。これらの方法については、例えば、台湾の蔡佳麟博士著の論文『Report to BMM-based ChineseWord Segmentor with Context-based UnknownWord Identifier for the SecondInternational Chinese Word Segmentation Bakeoff』(http://acl.ldc.upenn.edu/1/105/105-3020.pdf)と、香港の掲春雨博士著の論文『An Example-Based ChineseWord Segmentation System for CWSB-2』(http://personal.cityu.edu.hk/~ctckit/papers/bakeoff2.pdf)を参照することができる。ここでは、これら内容を従来技術として参照する。
鑑別・定義部205は入力され全ての分割を経た単語/用語について鑑別・定義し、そのうちの鑑別操作は所定のプログラムの制御下で入力された単語/用語の適正性を鑑別し、また制御プログラムの制御下で、システムのユーザが新規の単語/用語を作成するのに必要とする手段(例えば表示画面)を提供すると共に、それを鑑別・定義部205に関連付けられているユーザ用の簡体→繁体の単語/用語マッピングテーブル209に入力し記憶する。その後、鑑別・定義部205は鑑別された全ての単語/用語を2つの種類に定義する。
第1種類の単語/用語は、当該簡体字の単語/用語で漢字表記が繁体字の単語/用語と同じ、または当該簡体字の単語/用語は漢字表記が繁体字の単語/用語と同じではないが、この変換される簡体字の単語/用語はそれと所定の対応関係である繁体字の単語/用語を有するもの。例を挙げて言うと、「北京」という単語は、簡体字及び繁体字としての漢字表記が全く同じであるので、第1種類の単語/用語に属する。一方、簡体字の
Figure 2008052720
という単語は、繁体字の「電腦軟體」とは漢字表記が異なるものの、両者には所定の対応関係があるので、第1種類の単語/用語にも属する。
第2種類の単語/用語は、当該簡体字の単語/用語で漢字表記が繁体字の単語/用語と異なり、かつ所定の対応関係を有しない簡体字の単語/用語である。例えば、簡体字の
Figure 2008052720
という単語は、繁体字においては「擺」及び
Figure 2008052720
という2つの対応した漢字表記があるので、それらは漢字表記が異なるだけでなく、所定の対応関係を有しないものである。簡体字の単語
Figure 2008052720
を繁体字に変換する場合に、具体的な使用状況に応じて「擺」と
Figure 2008052720
のいずれを選択し決定しなければならない。従って、それらは第2種類の単語/用語に属する。
以上の分析でわかるように、このような第2種類の単語/用語は、変換時の一対多の問題に特徴がある。即ち、1つの簡体字が複数の繁体字に対応しているので、簡体字を繁体字に変換する際に選択ミスが発生してしまう。これも本発明が解決しようとする課題である。
分割形成された簡体字の単語/用語を2つの種類に定義するのは、異なる種類の簡体字の単語/用語に関して本発明の特徴を有する処理を実施することは、簡体字から繁体字への変換を高精度で且つ効果的に図るという本発明の目的を実現するためであり、これについては下記の記載により理解することができる。
次に、変換部201は入力され定義された2種類の簡体の単語/用語について簡体から繁体への変換を実施する。そのうち、当該簡体→繁体の単語/用語変換部206は、第1種類の単語/用語に対して、ユーザ用の簡体→繁体の単語/用語マッピングテーブル209とシステム用の簡体→繁体の単語/用語マッピングテーブル210とを用いてマッピング変換を行う。当該GBK簡体コード→GBK繁体コード変換部207は、第2種類の単語/用語に対して、簡体→繁体の一対多の単字マッピングテーブル211と、統計データ212と、簡体→繁体_GBK漢字マッピングテーブル213と、簡体→繁体の一対多の単語マッピングテーブル214とを用いて、マッピングと統計分類法の融合による変換を行う。当該GBKコード→BIG5コード変換部208は、BIG5→GBKコードの変換テーブルを用いて、BIG5の簡体字をGBKの繁体字に変換する。簡体→繁体の単語/用語変換部206から出力された変換結果である繁体字と、GBKコード→BIG5コード変換部208から出力された変換結果である繁体字とを結合することにより、所望の繁体字のデータストリームを形成し、出力部203に出力する。
次に、変換部201で実行される各変換をより詳しく説明し、主に本発明の中心となる統計変換技術の原理を説明する。
簡体→繁体の単語/用語変換部206は、第1種類の簡体の単語/用語に対して、ユーザ用の簡体→繁体の単語/用語マッピングテーブル209とシステム用の簡体→繁体の単語/用語マッピングテーブル210とを用いてマッピング変換を行う時に、テーブルを直接検索してマッピングする方法でSCコードの簡体字をBIG5コードの繁体字に変換し、簡体の単語/用語から繁体の単語/用語に直接対応する一対一の変換である。具体的に言えば、簡体の単語/用語から繁体の単語/用語へとは、単語を単位とする変換であり、即ち、「ユーザ用の簡体→繁体の単語/用語マッピングテーブル」と「システム用の簡体→繁体の単語/用語マッピングテーブル」とを検索することにより、入力された簡体字のデータストリームからなる第1種類の単語/用語から対応した繁体字のデータストリームへの変換を完成する。この変換は二方向性を有し、即ち、「システム用の簡体→繁体の単語/用語マッピングテーブル」及び「ユーザ用の簡体→繁体の単語/用語マッピングテーブル」は繁体から簡体への変換にも適用される(以降で図4を参照して説明する)。言い換えれば、「システム用の簡体→繁体の単語/用語マッピングテーブル」は「システム用の繁体→簡体の単語/用語マッピングテーブル」と同じ構成であり、「ユーザ用の簡体→繁体の単語/用語マッピングテーブル」は「ユーザ用の繁体→簡体の単語/用語マッピングテーブル」と同じ構成であり、共用することができる。
上記ユーザ用の簡体→繁体の単語/用語マッピングテーブル及びシステム用の簡体→繁体の単語/用語マッピングテーブルには、簡体の単語のうち、字毎に繁体の単語における相応した位置にある字に対応できない単語と用語が記憶されている。
表1は当該ユーザ用の簡体→繁体の単語/用語マッピングテーブル及びシステム用の簡体→繁体の単語/用語マッピングテーブルの構成の例を表す。
Figure 2008052720
上記例示された表1はただ説明のためのものであり、ユーザ用の簡体→繁体の単語/用語マッピングテーブル及びシステム用の簡体→繁体の単語/用語マッピングテーブルの構成を限定するものではない。このように最も直観的な構成からなるマッピングテーブルを利用して簡体→繁体の単語/用語の変換を行うときに、入力された変換対象となる簡体の各「単語/用語」を、全ての記録の「簡体字の単語/用語」の欄と比較して、この変換される簡体の「単語/用語」がこの表の中に存在すれば、それに対応した当該記録の「繁体字の単語/用語」の欄の内容を取り出し、上記簡体の単語/用語の変換結果(繁体のBIG5コード)として出力する。
当然、当業者は、表1と異なる構成の他のマッピングテーブル及び相応するマッピング方法、例えば、ハッシュ検索マッピング法、二分検索マッピング法、木検索マッピング法などを用いながら、検索法により単語/用語マッピングテーブルを生成することができる。この他、本例では「システム用の簡体→繁体の単語/用語マッピングテーブル」と「ユーザ用の簡体→繁体の単語/用語マッピングテーブル」とは同じ構成としが、それぞれ異なる構成を採用してもよく、本例の「システム用の簡体→繁体の単語/用語マッピングテーブル」及び「ユーザ用の簡体→繁体の単語/用語マッピングテーブル」は、以降で図4を参照して説明する例の「システム用の繁体→簡体の単語/用語マッピングテーブル」及び「ユーザ用の繁体→簡体の単語/用語マッピングテーブル」の構成と異なってもよい。
例えば、「システム用の簡体→繁体の単語/用語マッピングテーブル」と「ユーザ用の簡体→繁体の単語/用語マッピングテーブル」のうち一方は、表1に示す構成及び直観的にマッピングする方法を採用するのに対して、他方は下記のような簡体→繁体の単語/用語のマッピング変換処理を採用することができ、ここで、各簡体の単語/用語それぞれを1つの文字列とする:
1)簡体字の文字列≧簡体字の子文字列Si=c1c2c3…cnを入力する
2)簡体字の子文字列Siをマッピングテーブルにおける全記録の「簡体字の単語/用語」の欄と比較して、簡体字の子文字列Siの接頭語(c1c2…cs、s≦n)はこのマッピングテーブルに存在すれば、この記録の「繁体字の単語/用語」の欄の内容を取り出して、上記簡体c1c2…cs(s≦n)の子文字列の変換結果(簡体のSCコード)として出力する。3)に移る。存在しなければ、この処理を終了する。
3)S=S−c1c2…cs
4)上記の2)に移る。
上述のように、図2の簡体→繁体の単語/用語変換部206は、ユーザ用の簡体→繁体の単語/用語マッピングテーブル209とシステム用の簡体→繁体の単語/用語マッピングテーブル210とを用いて、第1種類の単語/用語のマッピング変換を完成する、即ち、簡体字コードの簡体字をBIG5コードの繁体字に変換する。そのうちのユーザ用の簡体→繁体の単語/用語マッピングテーブル209はユーザにオープンしており、変換を実行する時に、検索順序から言えば、このユーザ用の簡体→繁体の単語/用語マッピングテーブル209はシステム用の簡体→繁体の単語/用語マッピングテーブル210より優先される。
次に、図2に示した簡体字を繁体字に変換する変換装置の実施例における第2種類の単語/用語の変換を説明する、即ち、当該簡体字の単語/用語は漢字表記が繁体字の単語/用語と異なり、かつ所定の対応関係を有しない簡体字の単語/用語の変換を説明する。本発明は、統計分類による変換方法でこのような変換を実現することで、簡体字の文字列から繁体字の文字列への一対多のマッピングによる正確な変換を図ることを特徴とする。
操作において、このような簡体字の単語/用語は漢字表記が繁体字の単語/用語と共通ではなく、かつ所定の対応関係を有しない簡体字の単語/用語の変換は、主にGBK簡体コード→GBK繁体コード変換部207で完成される。
図に示すように、簡体→繁体の一対多の単字マッピングテーブル211と、統計データ212と、簡体→繁体_GBK漢字マッピングテーブル213と、簡体→繁体の一対多の単語マッピングテーブル214はGBK簡体コード→GBK繁体コード変換部207と接続されている。
そのうち、簡体→繁体の一対多の単字マッピングテーブル211は次の表2に例示した構成を有してもよい:
Figure 2008052720
表2には合計133個の記録列の記録を示しており、各記録は5文字からなる。例えば、1行目の記録の1の文字は簡体字の
Figure 2008052720
である。簡体字の
Figure 2008052720
は繁体字にないものであるので、第2の文字の位置に文字はない。第3と第4の文字の位置にはそれぞれ簡体字の
Figure 2008052720
に対応する2つの選択可能な繁体字の「擺」と
Figure 2008052720
がある。
簡体→繁体の一対多の単語マッピングテーブル214は下記に例示したルールで形成する構成を有してもよい:
1.記号‘#’:1組の「一対多の単語表データ」の開始を表し、記号‘#’の後にある漢字は1つの簡体字であり、この簡体字は複数の繁体字に対応している。
2.記号‘$’:対応する1つの繁体字の情報を表す。記号‘$’の後にある漢字は対応する1つのTC繁体字である。記号‘$’の記録の次続く記録は記号‘$’の後にある繁体字の単語を含む情報である。この記録は複数個であってもよい。
3.記号‘$’によるデータ記録グループは複数個である。
4.記号‘@’:1組の「一対多の単語表データ」の終了を表す。
例えば、簡体字の「辟」の場合、一対多の単語表マッピングデータグループは下記の通りとする:
Figure 2008052720
1つの簡体字/単語はテーブルを検索してマッピングする方法により所定の繁体字への変換結果を直接取得できれば、簡体字から繁体字への変換を迅速に正確に実現できる。しかしながら、前述のように、簡体字から繁体字への変換における一対多の問題によって、従来技術の変換手段には変換が不正確であるという問題が存在する。本発明では、統計分析技術である簡易ベイズ分類器により簡体字から繁体字への一対多マッピングによる変換を正確に実現することが可能である。なお、空間ベクトルの統計分類を実現する他の方法も適用可能であり、ここでは簡易ベイズ分類器をもって本発明の思想を説明するが、本発明を限定するものではない。
次に、まずベイズ統計分類の原理を簡単に説明してから、本発明に用いられた簡易ベイズ分類器を説明する。
ベイズ分類については次のように説明することができる。以下では、便宜上、例えばn次元のベクトル表記
Figure 2008052720
をx→であらわすこともある。1つのオブジェクト1つのn次元ベクトル、例えばx→=(x1,x2,・・・,xn)で表し、x→をオブジェクトの特徴ベクトルと称し、且つk個のクラスC=(c1,c2,・・・,ck)に分けられると仮定すると、類条件確率密度(classconditionalprobability density function)p(x→|ci)と類事前確率(class priorprobability)p(ci)とが分かれば、事後確率(posteriorprobability)p(ci|x→)を求める。ただし、i=1,2,・・・, k。これはベイズ数式で算出できる:
Figure 2008052720
分類のルールは、1つの特徴ベクトルの値がx→であるオブジェクトについては、そのカテゴリがcmと指定されて、且つ
Figure 2008052720
の場合のみに限られると記述することができる。
オブジェクトの分類は次の数式で決定できる:
Figure 2008052720
簡易ベイズ分類器は、カテゴリ変数Cの値が設定されると、全ての属性変数は互いに独立するという簡単な仮説に基づくものであり、即ち、
Figure 2008052720
数式2を数式1に代入すると、簡易ベイズ分類器の分類アルゴリズムを得られる:
Figure 2008052720

数式3による簡易ベイズ分類器のアルゴリズムを用いて、簡体字から繁体字への変換処理における一対多の問題を解決する際に、簡体字のコーパスCorpus_SC及びそれに対応する繁体字のコーパスCorpus_TCという2つのコーパスを必要とする。この2つのコーパスは、本発明を実施するコンピュータの所定の記憶エリアの位置に格納されている。具体的に実施する場合には下記の2つの方式が適用される。
第1の方式は、簡体字のコーパスCorpus_SC及びそれに対応する繁体字のコーパスCorpus_TCを図2の統計データ212とする。簡体字のコーパスCorpus_SC及びそれに対応する繁体字のコーパスCorpus_TCは既にある程度完備されたと仮定すると、簡体字から繁体字の文字への一対多による変換を行うときに、GBK簡体コード→GBK繁体コード変換部207はベイズ分類統計処理の制御プログラムを呼び出して、統計データ212における簡体字のコーパスCorpus_SC及びそれに対応する繁体字のコーパスCorpus_TCを操作し、後述する原理に基づいて正確な変換結果を得る。これによりわかるように、この第1の方式では、同図2の統計データ212は広義的には簡体字のコーパスCorpus_SC及びそれに対応する繁体字のコーパスCorpus_TCと理解されるべきであり、真の統計データは、GBK簡体コード→GBK繁体コード変換部207において、ベイズ分類統計処理の制御プログラムを呼び出してこの2つのコーパスを操作して得たデータである。そこで、簡体字のコーパスCorpus_SC及びそれに対応する繁体字のコーパスCorpus_TCの完備の度合いは、GBK簡体コード→GBK繁体コード変換部207がベイズ分類統計処理の制御プログラムを呼び出して操作した結果の正確度に直接影響していることがわかる。
第2の方式は、簡体字のコーパスCorpus_SC及びそれに対応する繁体字のコーパスCorpus_TCを図2の統計データ212に直接格納するのではなく、前記第2種類の簡体字から繁体字への全ての変換、即ち一対多の変換に対して、簡体字のコーパスCorpus_SC及びそれに対応する繁体字のコーパスCorpus_TCを予め統計処理し、統計で計算された結果を図2の統計データ212に格納するのである。GBK簡体コード→GBK繁体コード変換部207は入力された第2種類の1つの簡体字に対してベイズ分類統計処理による変換を行う場合、予め計算された結果を呼び出すだけで済む。これによって、システムがソースへの占用をより低下させ、変換の速度が向上する。
本発明は、ユーザに自身が使用する簡体字のコーパスCorpus_SC及びそれに対応する繁体字のコーパスCorpus_TCを、自身の実用に更に適合させるように、所定の条件で絶えず充実させ完備させることを許可する。
実際には、上記第1の方式と第2の方式とが共通の発明思想による2つの具体的な実施形態であり、それらの適用の結果としては実質的な相違はない。
次に、第2種類の1つの簡体字に対してベイズ分類処理を行う過程を説明する。変換される簡体字をSとすると、それに対応するk個の繁体字の字形の集合をT={t1,t2,…,tk}と表記する。
簡体字のコーパスCorpus_SCでは、Sとその左右にある字とからなる文字列をs-1Ss1と表記し、ここでs-1、s1はそれぞれ変数である。簡易ベイズ分類器により簡体字のSについて漢字の簡体→繁体の変換を行うアルゴリズムは下記の通りとする。
学習アルゴリズム(統計特徴を演算する)
1.Corpus_SCにおける全ての簡体字を収集する Vocaculary← Corpus_SCにおける全ての簡体字の集合
2.所要の確率項目P(Tj)とP(Si|Tj)を計算する
Tの各目標値Tjに対して、j∈{1,2,…,k}
nj←Corpus_SCにおいてTjが出現した回数、
nT←Corpus_SCにおいてT1,T2,…,Tkが出現した合計回数、
P(Tj) = nj/nT
Vocaculary中のSiについて、i= {−1,1}
nj←簡体字SがTjに変換された場合、Corpus_SCにおいてSiが出現した回数、
P(Si|Tj) = (ni + m/|Vocaculary| ) / (nj+m)、ここでm−で見積もる、ただしm=1
以上の統計特徴を演算した後、次のベイズ分類アルゴリズムの数式によりどの繁体字に変換するかを決定する。
Figure 2008052720
簡体字から繁体字への変換処理及びこの変換処理におけるベイズ分類法の作用を理解させるように、次にいくつかの簡単な例を挙げて説明する。
Figure 2008052720
Figure 2008052720
Figure 2008052720
Figure 2008052720
次に、1つの簡体字の文字列から繁体字の文字列への変換により、本発明の核心である統計変換マッピング技術を更に説明する。
例えば、繁体字に変換賍される簡体字の文字列が
Figure 2008052720
の場合、その正確な変換結果は「心臟是循環系統的動力中心」である。
図2の簡体字を繁体字に変換する変換装置の操作により、
Figure 2008052720
と「系」を除く10の簡体字と繁体字とが共に一対一にマッピングされる関係である。そこで、この10の一対一にマッピングされる簡体字から繁体字への変換は、マッピングテーブルにより直接変換すればよい。
一方、一対多でマッピングされる漢字については、この文字列(簡体字の文)における
Figure 2008052720
と「系」という2つの簡体字に対する変換操作の実際の状況は次の通りとする:
Figure 2008052720
についての変換は簡体→繁体の一対多の単語表を用い、「系」に対する変換は簡易ベイズ分類を用いた。具体的には次のように説明する。本発明者が特に説明するのは、ここで言う「実際の状況」とは、本発明者が設定した下記の仮説を前提として行われた操作であり、即ち、簡体字のコーパスCorpus_SC及びそれに対応する繁体字のコーパスCorpus_TCは医学分野において不備がある一方、簡体→繁体の一対多の単語マッピングテーブル214は相対的に完備されたものである。
まず、簡体→繁体の一対多の字マッピングテーブル211から、簡体字の
Figure 2008052720
に対応する繁体字のフォントは
Figure 2008052720
と「臟」という2つがあるとわかる。
本発明の設計思想に基づき、まず、GBK簡体コード→GBK繁体コード変換部207で簡易ベイズ分類法による変換を実行可能か否かを判断する。統計データの表示により、統計データ212によるトレーニンググループでは、
Figure 2008052720
は合計180回出現して、そのうち、
Figure 2008052720
に変換されたのが180回であり、「臟」に変換されたのが0回である。どんな変換状況においても、
Figure 2008052720
の直前に「心」が出現した回数は0回であり、その直後に「是」が出現した回数も0回である。統計データが少ない場合(コーパスには医学関係の文章が非常に少ないことを表す)では、システムは簡易ベイズ分類法の使用を停止し、簡体→繁体の一対多の単語マッピングテーブル214を検索して変換を行うようにする。
Figure 2008052720
とその前後の2文字とをそれぞれ結合して、
Figure 2008052720
という組合せを得られ、このマッピングテーブルから
Figure 2008052720
に関する単語を検索して、「臟」に変換された場合、単語
Figure 2008052720
を見つけたので、この文では、簡体字の
Figure 2008052720
は繁体字の「臟」に変換されるべきである。
その後、再度簡易ベイズ分類法により簡体字の「系」を適正な繁体字に変換することをみる。
簡体→繁体の一対多の単字マッピングテーブル211から、簡体字の「系」に対応する3つの繁体字「系」、「係」及び
Figure 2008052720
が得られる。
簡易ベイズ分類法によりそれに関する変換処理を行い、そのうち、確率を計算する際、ラプラスの法則を用いて平滑処理を行った。分類アルゴリズムの数式は次の通りとする:
Figure 2008052720
統計データの表示により、トレーニンググループでは、「系」は合計47691回出現している。
Figure 2008052720
分類アルゴリズムの数式により、この文では、簡体字の「系」は繁体字の「系」に変換されるべきである。
GBKコード→BIG5コード変換部208はGBK→BIG5コード変換マッピングテーブルにより所要のBIG5による繁体字を得られ、この繁体字を、簡体→繁体単語/用語変換部206からの繁体字と組合わせてから、変換の結果として出力部203から出力される。
次に、図3を参照して、図2の簡体字を繁体字に変換する変換装置の操作過程を説明する。
図3のフローチャートを参照。まず変換される簡体字の文字列を入力する(ステップS310)。
次に、単語/用語分割部204は所定の分割規則に従って入力された簡体字の文字列を分割し、この文字列を構成する全ての簡体の単語/用語を「抽出」すると共に(ステップS320)、これら単語/用語を鑑別・定義部205に出力する。
簡体の各単語/用語を受け取ると、鑑別・定義部205はそれらを鑑別・定義することで、第1種類の単語/用語、即ち漢字表記が繁体字の単語/用語と同じ、または同じではないが所定の対応関係を有する簡体の単語/用語であるか否かを判断する(ステップS330)。「YES」であれば、この簡体の単語/用語を変換部201における簡体→繁体の単語/用語変換部206に入力し、簡体→繁体の単語/用語変換部206で当該ユーザ用の簡体→繁体の単語/用語マッピングテーブル209とシステム用の簡体→繁体の単語/用語マッピングテーブル210を用いて、この第1種類の簡体字の文字を対応した繁体字の文字に変換する(ステップS340)。
ステップS330では定義の結果が「NO」であれば、この簡体の単語/用語を第2種類の単語/用語、即ち漢字表記が繁体字の単語/用語と異なり、且つ所定の対応関係を有しない簡体字の単語/用語に定義すると共に、それを変換部201におけるGBK簡体コード→GBK繁体コード変換部207に入力し、簡体→繁体の一対多の単字マッピングテーブル211と、統計データ212と、簡体→繁体_GBK漢字マッピングテーブル213と、簡体→繁体の一対多の単語マッピングテーブル214とを用いて、GBK簡体コード→GBK繁体コード変換部207により統計分類とマッピングを組合わせた方法を採用して、この簡体字の単語/用語を適正に対応した繁体字の単語/用語に変換する(ステップS350)。
GBKコード→BIG5コード変換部208で変換処理された後、ステップS340とステップS350で得られた繁体字の単語/用語を組合わせてから、入力された簡体字の文字列に対応した繁体字の文字列を得られると共に、出力部203から出力される(ステップS360)。
よって、上記図2の本発明の一実施例による簡体字の文字列を繁体字の文字列に変換する装置により、図3に示す方法を実行することにより、簡体字を繁体字に変換する際に発生した字の一対多によるマッピング問題を解決することができる。具体的に言うと、本発明は、一対一にマッピングされる簡体字の単語/用語と、一対一にマッピングされない簡体字の単語/用語、即ち一対多にマッピングされる漢字とを分けて処理することにより、統計特徴を利用可能な技術については、簡易ベイズ分類法で簡体字から繁体字への一対多によるマッピング処理を実現するようになり、簡体字から繁体字への一対多によるマッピング処理の正確度を大幅に向上する。
次に、図4を参照して、本発明の他の実施例による繁体字を簡体字に変換する変換装置400を説明する。図4の変換装置が実行する変換は図2の変換装置が実行する変換と逆になるにもかかわらず、原理上では共通または類似している。従って、図2と共通の記載または数式の推定は簡略または省略される。
図4に示すように、繁体字を簡体字に変換する変換装置400は、変換部401と、データ入力部402と、出力部403と、単語/用語分割部404と、鑑別・定義部405とを備える。そのうち、変換部401は、繁体→簡体の単語/用語変換部406と、BIG5繁体コード→GBK繁体コード変換部407と、GBK繁体コード→GBK簡体コード変換部408とを備える。操作上では、鑑別・定義部405と繁体→簡体の単語/用語変換部406は、ユーザ用の繁体→簡体の単語/用語マッピングテーブル409とシステム用の繁体→簡体の単語/用語マッピングテーブル410に関連付けられている。BIG5繁体コード→GBK繁体コード変換部407はBIG5→ GBKコードの変換テーブル411に関連付けられている。更に、GBK繁体コード→ GBK簡体コード変換部408は統計データ412と、繁体→簡体の一対多の単字マッピングテーブル413と、異体字マッピングテーブル414と、繁体→簡体の一対多の単語マッピングテーブル415と、繁体→簡体_GBK漢字マッピングテーブル416とに関連付けられている。
入力部402は変換される繁体字の文字列、例えばBIG5コードの繁体字のデータストリームを単語/用語分割部404に入力する。
単語/用語の分割を制御するルールに従って、単語/用語分割部404は入力された繁体字の文字列を1つまたはいくつかの単語/用語に分割する、即ち、繁体字の文字列のデータストリームを構成する各単語(用語)を「抽出」する。分割形成された単語/用語は1つまたはいくつかの繁体字の文字列で構成されることができる。これらを繁体の単語/用語の分割結果として生成した全ての繁体の単語/用語は鑑別・定義部405に入力される。
鑑別・定義部405は入力されて且つ分割された全ての繁体の単語/用語を鑑別・定義し、そのうちの鑑別動作は所定のプログラムの制御下で入力された繁体の単語/用語の適正性を鑑別し、また制御プログラムの制御下で、システムの利用者が新規の単語/用語を作成するには必要とする手段(例えば表示画面)を提供すると共に、それを鑑別・定義部405に関連付けているユーザ用の繁体→簡体の単語/用語マッピングテーブル409に入力し記憶する。その後、鑑別・定義部405は鑑別された全ての単語/用語を2つの種類に定義する。
第1種類の単語/用語は、当該繁体字の単語/用語は漢字表記が簡体字の単語/用語と同じ、または当該繁体字の単語/用語は漢字表記が簡体字の単語/用語と同じではないが、この変換される繁体字の単語/用語はそれと所定の対応関係である簡体字の単語/用語を有するものである。例を挙げて言うと、「北京」という単語は、繁体字及び簡体字としての漢字表記が全く同じであるので、第1種類の単語/用語に属する。一方、繁体字の「電腦軟體」という単語は、簡体字の
Figure 2008052720
とは漢字表記が異なるものの、両者には所定の対応関係があるので、第1種類の単語/用語に属する。
第2種類の単語/用語は、当該繁体字の単語/用語は漢字表記が簡体字の単語/用語と異なり、かつ所定の対応関係を有しない繁体字の単語/用語である。例えば、繁体字の「餘」という単語は、簡体字においては「余」と
Figure 2008052720
という2つの対応した漢字表記があるので、それらは漢字表記が異なるだけでなく、所定の対応関係を有しないものである。繁体字の単語「餘」を簡体字に変換する場合に、具体的な使用状況に応じて「余」と
Figure 2008052720
のいずれかを選択し決定しなければならない。従って、それは第2種類の単語/用語に属する。
以上の分析でわかるように、このような第2種類の単語/用語は、変換時の一対多の問題に特徴がある。即ち、1つの繁体字が複数の簡体字に対応しているので、繁体字を簡体字に変換する際に選択ミスを発生してしまう。これも本発明が解決しようとする課題である。
分割形成された繁体字の単語/用語を2つの種類に定義するのは、異なる種類の繁体字の単語/用語に関して本発明の特徴を有する処理を実施することは、繁体字から簡体字への変換を高精度且つ効果的に図るという本発明の目的を実現するためであり、これについては下記の記載により理解することができる。
次に、変換部401は入力され定義された2種類の繁体の単語/用語について繁体から簡体への変換を実施する。そのうち、当該繁体→簡体の単語/用語変換部406は、第1種類の単語/用語に対して、ユーザ用の繁体→簡体の単語/用語マッピングテーブル409とシステム用の繁体→簡体の単語/用語マッピングテーブル410とを用いてマッピング変換を行う。当該GBK繁体コード→GBK簡体コード変換部408は、第2種類の単語/用語に対して、統計データ412と、繁体→簡体の一対多の単字マッピングテーブル413と、異体字マッピングテーブル414と、繁体→簡体の一対多の単語マッピングテーブル415と、繁体→簡体_GBK漢字マッピングテーブル416とを用いて、マッピングと統計分類法との組合わせによる変換を行う。繁体→簡体の単語/用語変換部406から出力された変換結果である簡体字と、GBK繁体コード→GBK簡体コード変換部408から出力された変換結果である簡体字とを結合することにより、所望の簡体字のデータストリームを形成し、出力部403に出力する。
次に、変換部401で実行される各変換をより詳しく説明し、主に本発明の核心となる統計変換技術の原理を説明する。
繁体→簡体の単語/用語変換部406は、第1種類の簡体の単語/用語に対して、ユーザ用の繁体→簡体の単語/用語マッピングテーブル409とシステム用の繁体→簡体の単語/用語マッピングテーブル410とを用いてマッピング変換を行う時に、テーブルを直接検索してマッピングする方法でBIG5コードの繁体字をGBKコードの簡体字に変換し、繁体の単語/用語から簡体の単語/用語に直接対応する一対一の変換である。具体的に言えば、繁体の単語/用語から簡体の単語/用語へとは単語を単位とする変換であり、即ち、「システム用の繁体→簡体の単語/用語マッピングテーブル」と「ユーザ用の繁体→簡体の単語/用語マッピングテーブル」とを検索することにより、入力された繁体字のデータストリームからなる第1種類の単語/用語から対応した簡体字のデータストリームへの変換を完成する。以上で図2を参照して説明したように、この変換は二方向性を有し、即ち、「システム用の繁体→簡体の単語/用語マッピングテーブル」は「システム用の簡体→繁体の単語/用語マッピングテーブル」と同じ構成であり、「ユーザ用の繁体→簡体の単語/用語マッピングテーブル」は「ユーザ用の簡体→繁体の単語/用語マッピングテーブル」と同じ構成であり、共用することができる。
上記ユーザ用の繁体→簡体の単語/用語マッピングテーブル及びシステム用の繁体→簡体の単語/用語マッピングテーブルには、繁体の単語のうち、字毎に簡体の単語における相応した位置にある字に対応できない単語と用語が記憶されている。それに関する例は上記表1を参照する。
同様に、表1に例示した構成はただ説明のためのものであり、ユーザ用の繁体→簡体の単語/用語マッピングテーブル及びシステム用の繁体→簡体の単語/用語マッピングテーブルの構成を限定するものではない。このように最も直観的な構成からなるマッピングテーブルを利用して繁体→簡体の単語/用語の変換を行うときに、入力された変換対象となる繁体の各「単語/用語」を、全ての記録の「繁体の単語/用語」の欄と比較して、この変換される繁体の「単語/用語」がこの表の中に存在すれば、それに対応したこの記録の「簡体字の単語/用語」の欄の内容を取り出して、上記繁体の単語/用語の変換結果(簡体のGBKコード)として出力する。
当然、当業者は、表1と異なる構成の他のマッピングテーブル及び相応するマッピング方法、例えば、ハッシュ検索マッピング法、二分検索マッピング法、木検索マッピング法などを用いながら、検索法により単語/用語マッピングテーブルを生成することができる。この他、本例では「システム用の繁体→簡体の単語/用語マッピングテーブル」と「ユーザ用の繁体→簡体の単語/用語マッピングテーブル」とは同じ構成であるが、それぞれ異なる構成を採用してもよく、本例の「システム用の繁体→簡体の単語/用語マッピングテーブル」及び「ユーザ用の繁体→簡体の単語/用語マッピングテーブル」は、前記図2を参照して説明した例の「システム用の簡体→繁体の単語/用語マッピングテーブル」及び「ユーザ用の簡体→繁体の単語/用語マッピングテーブル」の構成と異なってもよい。
例えば、「システム用の簡体→繁体の単語/用語マッピングテーブル」と「ユーザ用の簡体→繁体の単語/用語マッピングテーブル」のうち一方は、表1に示す構成及び直観的にマッピングする方法を採用するのに対して、他方は下記のような繁体→簡体の単語/用語マッピング変換処理を採用することができ、そのうち、繁体の各単語/用語それぞれを1つの文字列とする:
1)繁体字の文字列≧繁体字の子文字列Si=c1c2c3…cnを入力する
2)繁体字の子文字列Siをマッピングテーブルにおける全ての記録の「繁体字の単語/用語」の欄と比較して、繁体字の子文字列Siの接頭語(c1c2…cs、s≦n)はこのマッピングテーブルに存在すれば、この記録の「簡体字の単語/用語」の欄の内容を取り出して、上記繁体c1c2…cs(s≦n)の子文字列の変換結果(繁体のSCコード)として出力する。3)に移る。存在しなければ、この処理を終了する。
3)S=S−c1c2…cs
4)上記の2)に移る。
上述のように、図4の繁体→簡体の単語/用語変換部406は、ユーザ用の繁体→簡体の単語/用語マッピングテーブル409とシステム用の繁体→簡体の単語/用語マッピングテーブル410とを用いて、第1種類の簡体の単語/用語のマッピング変換を完成する、即ち、繁体字コードのBIG5繁体字をGBKコードの簡体字に変換する。そのうち、ユーザ用の繁体→簡体の単語/用語マッピングテーブル409はユーザにオープンしており、変換を実行する時に、検索順序から言えば、このユーザ用の繁体→簡体の単語/用語マッピングテーブル409は繁体→簡体の単語/用語マッピングテーブル410より優先される。
次に、図4に示した繁体字を簡体字に変換する変換装置の実施例における第2種類の単語/用語の変換を説明する、即ち、当該繁体字の単語/用語は漢字表記が簡体字の単語/用語と異なり、かつ所定の対応関係を有しない繁体字の単語/用語の変換を説明する。本発明は、統計分類による変換方法でこの変換を実現することで、繁体字の文字列から簡体字の文字列への一対多のマッピングによる正確な変換を図ることを特徴とする。
操作時において、このような繁体字の単語/用語が漢字表記が簡体字の単語/用語と異なり、かつ所定の対応関係を有しない繁体字の単語/用語の変換は、主にGBK繁体コード→GBK簡体コード変換部408で完成される。
上記の繁体字の単語/用語の文字列をGBK繁体コード→GBK簡体コード変換部408に入力することに先立ち、BIG5繁体コード→GBK繁体コード変換部407により、BIG5→GBKコード変換テーブル411を用いてそれをBIG5繁体字からGBK繁体字に変換する。
図に示すように、統計データ412と、繁体→簡体の一対多の単字マッピングテーブル413と、異体字マッピングテーブル414と、繁体→簡体の一対多の単語マッピングテーブル415と、繁体→簡体_GBK漢字マッピングテーブル416は、GBK繁体コード→GBK簡体コード変換部408と関連付けられている。
そのうち、繁体→簡体の一対多の単字マッピングテーブル413は次の表3に例示した構成を有してもよい:
Figure 2008052720

表3には7つの記録が示されており、各記録は4文字からなる。例えば、6行目記録の第1の文字は繁体字の「餘」である。繁体字の「餘」は簡体字にないものであるので、第2の文字の位置に文字はない。第3と第4の文字の位置にはそれぞれ簡体字における繁体字の「餘」に対応する2つの選択可能な簡体字の「余」と
Figure 2008052720
がある。
繁体→簡体の一対多の単語マッピングテーブル415は下記に例示したルールで形成する構成を有してもよい:
1.記号‘#’:1組の「一対多の単語表データ」の開始を表し、記号‘#’の後にある漢字は1つの繁体字であり、この繁体字は複数の簡体字に対応している。
2.記号‘$’:対応する1つの簡体字の情報を表す。記号‘$’の後にある漢字は対応する1つのTC簡体字である。記号‘$’の記録の次に続く記録は記号‘$’の後にある簡体字の単語を含む情報である。この記録は複数個であってもよい。
3.記号‘$’によるデータ記録グループは複数個である。
4.記号‘@’: 1組の「一対多の単語表データ」の終了を表す。
例えば、繁体字の「乾」の場合、一対多の単語表マッピングデータグループは下記の通りとする:
#乾 繁体字の「乾」の「一対多の単語表データ」の開始
$干 繁体字の「乾」は簡体字の「干」に対応している
乾杯 上記のように対応する場合の単語表
$乾 繁体字の「乾」は簡体字の「乾」に対応している
乾坤 上記のように対応する場合の単語表
乾造
乾宅
@ 繁体字の「乾」の「一対多の単語表データ」の終了
繁体字には多くの異体字があるので、図4の繁体字を簡体字に変換する装置は、繁体字を簡体字に変換する時に異体字を対応した簡体字にマッピングするように、1つの異体字マッピングテーブルをGBK繁体コード→GBK簡体コード変換部408に関連付けさせている。
一例である異体字マッピングテーブルは次のように示す:
Figure 2008052720
異体字マッピングテーブルの構造は、「漢字1(SCコード)」+「$」+「漢字2(SCコード)」から構成される。「漢字1(SCコード)」は「漢字2(SCコード)」の異体字である。繁体字を簡体字に変換する場合には、このテーブルにより漢字(SCコード)の異体字を標準なSC簡体字にマッピングして変換する。
1つの繁体の字/単語はテーブルを検索してマッピングする方法により所定の簡体字への変換結果を直接取得できれば、繁体字から簡体字への変換を迅速に正確に実現することができる。しかしながら、上述のように、繁体字から簡体字への変換における一対多の問題によって、従来技術の変換手段では変換が不正確になるという欠陥がある。本発明は、統計分析技術である簡易ベイズ分類器により繁体字から簡体字への一対多マッピングによる変換を正確に実現することが可能である。なお、空間ベクトルの統計分類を実現する他の方法も適用可能であり、ここでは簡易ベイズ分類器をもって本発明の思想を説明するが、本発明を限定するものではない。
ベイズ統計分類法の原理及びベイズ統計分類器の内容については、以上で図2に関する記載及び数式1、数式2、数式3、数式4を参考すればいい。
数式3及び数式4による簡易ベイズ分類器のアルゴリズムを用いて、繁体字から簡体字への変換における一対多の問題を解決する際にも、繁体字のコーパスCorpus_SC及びそれに対応する簡体字のコーパスCorpus_TCという2つのコーパスが必要する。この2つのコーパスは、本発明を実施するコンピュータの所定の記憶エリアの位置に格納されている。具体的に実施する場合には下記の2つの方式が適用される。
第1の方式は、繁体字のコーパスCorpus_SC及びそれに対応する簡体字のコーパスCorpus_TCを図4の統計データ412とする。繁体字のコーパスCorpus_SC及びそれに対応する簡体字のコーパスCorpus_TCは既にある程度完備されたと仮定すると、一対多の繁体字から簡体字の文字列への変換を行うときに、GBK繁体コード→GBK簡体コード変換部408はベイズ分類統計処理の制御プログラムを呼び出して、統計データ412における繁体字のコーパスCorpus_SC及びそれに対応する簡体字のコーパスCorpus_TCを取り扱い、前述で図2を参照して説明して得られた数式3に基づいて正確な変換結果を得られる。これによりわかるように、この第1の方式では、同図4の統計データ412は広義的には繁体字のコーパスCorpus_SC及びそれに対応する簡体字のコーパスCorpus_TCと理解されるべきであり、真の統計データは、GBK繁体コード→GBK簡体コード変換部408はベイズ分類統計処理の制御プログラムを呼び出してこの2つのコーパスを取り扱って得たデータである。そこで、繁体字のコーパスCorpus_SC及びそれに対応する簡体字のコーパスCorpus_TCの完備度合いは、GBK繁体コード→GBK簡体コード変換部408がベイズ分類統計処理の制御プログラムを呼び出して操作した結果の正確度に直接影響していることがわかる。
第2の方式は、繁体字のコーパスCorpus_SC及びそれに対応する簡体字のコーパスCorpus_TCを図4の統計データ412に直接格納することではなく、前記第2種類の繁体字から簡体字の全ての変換、即ち一対多の変換に対して、繁体字のコーパスCorpus_SC及びそれに対応する簡体字のコーパスCorpus_TCを予め統計処理し、統計で計算された結果を図4の統計データ412に格納するのである。GBK繁体コード→GBK簡体コード変換部408は入力された第2種類の1つの繁体字に対してベイズ分類統計処理による変換を行う場合、予め計算された結果を呼び出すだけで済む。これによって、システムがソースへの占用をより低下させて、変換の速度が向上する。
本発明は、ユーザ自身が使用する繁体字コーパスCorpus_SC及びそれに対応する簡体字コーパスCorpus_TCを、自身の実用に更に適合させるように、所定の条件で絶えず充実させ完備させることを許可する。
実際には、上記第1の方式と第2の方式とが共通の発明思想による2つの具体的な実施形態であり、それらの適用の結果としては実質的な相違はない。
次に、いくつかの簡単な例により、繁体字から簡体字への変換処理を説明しながら、この変換処理におけるベイズ分類法の作用を理解できる。
1)BIG5漢字の“乾”→GBK漢字の“干”(乾杯)
第1ステップ:BIG5繁体コード→GBK簡体コード変換部407はBIG5→GBKコード変換テーブル411を用いて、繁体字の「乾」をBIG5コードからGBKコードに変換する。(ISN:B0AE→C7AC)
第2ステップ:GBK繁体コード→ GBK簡体コード変換部408は繁体→簡体の一対多の単字マッピングテーブル413を検索することで、「乾」が一対多の漢字であるとわかる。簡易ベイズ分類法により、単語たる「乾杯」のうちの「乾」が簡体字の「干」に対応することがわかる。(ISN:C7AC→B8C9)
2)BIG5乾→GBK乾(乾坤)
第1ステップ:BIG5繁体コード→GBK簡体コード変換部407はBIG5→GBKコード変換テーブル411を用いて、繁体字の「乾」をBIG5コードからGBKコードに変換する。(ISN:B0AE→C7AC)
第2ステップ:GBK繁体コード→ GBK簡体コード変換部408は繁体→簡体の一対多の単字マッピングテーブル413を検索することで、「乾」が一対多の漢字であるとわかる。簡易ベイズ分類法により、単語たる「乾坤」のうちの「乾」が簡体字の「乾」に対応することがわかる。(ISN:C7AC→ C7AC)
3)BIG5乾→GBK干(衣服干了)
第1ステップ:BIG5繁体コード→GBK簡体コード変換部407はBIG5→GBKコード変換テーブル411を用いて、繁体字の「乾」をBIG5コードからGBKコードに変換する。(ISN:B0AE→C7AC)
第2ステップ:GBK繁体コード→ GBK簡体コード変換部408は繁体→簡体の一対多の漢字マッピングテーブル413を検索することで、「乾」が一対多の漢字であるとわかる。「服」と「了」が「乾」の左右にあるケースがいずれもコーパスから統計で見付けられなかったため、簡易ベイズ分類法を適用することができない。
「乾」がその前の「服」と混合型単語「服乾」を構成すると同時に、その後の「了」と混合型単語「乾了」を構成する。繁体→簡体の一対多の単語マッピングテーブル415を検索した結果、「服乾」と「乾了」が何れも単語表にない。この場合、本発明の変換装置は「乾」をデフォルトの簡体字「干」に変換する。(ISN:C7AC→ B8C9)
4)BIG5荳→GBK豆
第1ステップ:BIG5繁体コード→GBK繁体コード変換部407はBIG5→GBKコード変換テーブル411を用いて、繁体字の「荳」をBIG5コードからGBKコードに変換する。(ISN:D75E→C757)
第2ステップ:GBK繁体コード→ GBK簡体コード変換部408は繁体→簡体の一対多の単字マッピングテーブル413を検索することで、「荳」が一対多の漢字ではないとわかる。そして、異体字マッピングテーブル414を検索することで、「荳」が異体字であり、簡体字の「豆」に対応しているとわかる。(ISN:C757→B6B9)
5)BIG5國→GBK国
第1ステップ:BIG5繁体コード→GBK簡体コード変換部407はBIG5→GBKコード変換テーブル411を用いて、繁体字の「國」をBIG5コードからGBKコードに変換する(ISN:B0EA→87F8)。
第2ステップ:GBK繁体コード→ GBK簡体コード変換部408は繁体→簡体の一対多の単字マッピングテーブル413を検索することで、「國」が一対多の漢字ではないとわかる。そして、異体字マッピングテーブル414を検索することで、「國」が異体字でもないとわかる。更に、繁体→簡体_ GBK漢字マッピングテーブル416を検索することで、「國」が簡体字の「国」に対応しているとわかる。(ISN:87F8→B9FA)
GBK繁体コード→ GBK簡体コード変換部408から出力された簡体字と、繁体→簡体の単語/用語変換部406から出力された簡体字とを組合わせてから、変換結果として出力部403から出力する。
次に、図5を参照して、図4の繁体字を簡体字に変換する変換装置の操作過程を説明する。
図5のフローチャートを参照して、まず変換される繁体字の文字列を入力する(ステップS510)。
次に、単語/用語分割部404は所定の分割規則に従って入力された繁体字の文字列を分割し、この文字列を構成する全ての繁体の単語/用語を「抽出」すると共に(ステップS520)、これら単語/用語を鑑別・定義部405に入力する。
繁体の各単語/用語を受け取ると、鑑別・定義部405はそれらを鑑別・定義することで、第1種類の単語/用語、即ち漢字表記が簡体字の単語/用語と同じ、または同じではないが所定の対応関係を有する繁体の単語/用語であるか否かを判断する(ステップS530)。「YES」であれば、この繁体の単語/用語を変換部401における繁体→簡体の単語/用語変換部406に入力し、繁体→簡体の単語/用語変換部406は当該ユーザ用の繁体→簡体の単語/用語マッピングテーブル409とシステム用の繁体→簡体の単語/用語マッピングテーブル410を用いて、この第1種類の繁体字の文字列を対応した簡体字の文字列に変換する(ステップS540)。
ステップS530では定義の結果が「NO」であれば、この繁体の単語/用語を第2種類の単語/用語、即ち漢字表記が簡体字の単語/用語と異なり、且つ所定の対応関係を有しない繁体字の単語/用語に定義すると共に、それを変換部401におけるBIG5繁体コード→GBK繁体コード変換部407に入力し、BIG5→GBKコードマッピングテーブル411を用いて、BIG5繁体字をGBK繁体字に変換してから、GBK繁体コード→ GBK簡体コード変換部408に出力する。統計データ412と、繁体→簡体の一対多の単字マッピングテーブル413と、異体字マッピングテーブル414と、繁体→簡体の一対多の単語マッピングテーブル415と、繁体→簡体_GBK漢字マッピングテーブル416とを用いて、GBK繁体コード→GBK簡体コード変換部408で統計分類とマッピングを融合する方法により、この繁体字の単語/用語を適正に対応した簡体字の単語/用語に変換する(ステップS550)。
ステップS540とステップS550で得られた簡体字の単語/用語を組合わせてから、入力された繁体字の文字列に対応した簡体字の文字列を得られると共に、出力部403から出力される(ステップS560)。
そこで、上記図4の本発明の一実施例による繁体字の文字列を簡体字の文字列に変換する装置により、図5に示す方法を実行することにより、繁体字を簡体字に変換する際に発生した字の一対多のマッピング問題を解決することができる。具体的に言うと、本発明は、一対一にマッピングされる繁体字の単語/用語と、一対一にマッピングされない繁体字の単語/用語、即ち一対多にマッピングされる漢字とを分けて処理することにより、統計特徴を利用可能な技術については、簡易ベイズ分類法で繁体字から簡体字への一対多によるマッピング処理を実現するようになり、繁体字から簡体字への一対多によるマッピング処理の正確度を大幅に向上させる。
本発明の上記実施例により、簡体字と繁体字との相互変換における一対多の問題がある単語/用語について、マッピング変換を組合わせた統計分類処理を行うことにより、膨大な単語/用語マッピングテーブルを作成することなく、正確度の高いマッピングを実現できる。且つ、単語用語の分割精度に完全に依頼しなくてもよい。更に、ユーザによる単語/用語マッピングテーブル及び統計データへの修正と変更を許可するので、本発明の変換装置は人を本位とする個性化を図れると共に、より一層に個人的な特徴に適応し、専門分野の要望に対応できるようになる。
ここで、上記の本発明の実施例により行われた本発明に関する記載は、本発明を上記開示した具体的な形態に拘束又は限定するものではない。当然、開示された実施例の具体的な記載に基づいて、当業者は、本発明の精神本質の範囲内で本発明を各種変形することができる。例えば、本発明の上記変換装置の各構成の機能を新たに割り当てる、或いは、異なる構成の機能に対して順序の入替えや分割や合併を行うことができる。例えば、コンピュータのハードウェア及びソフトウェアの個別の動作又は連携の動作を行うことにより、本発明の技術思想の一部または全部を実現することができ、マッピングテーブルの構造またはその内容を変更することにより、特定の要望に対応すること及び回路の集積度の異なりに従って異なる回路の構成形式を選択することでができる。これら修正及び変更はいずれも本発明の添付特許請求の範囲の本質及び範囲を脱離しないものである。
本発明の一実施例による簡体字と繁体字との相互変換を行う変換装置を説明するブロック図である。 本発明の他の実施例による簡体字を繁体字に変換する変換装置を説明する図であり、図1の実施例による変換装置のサブ装置と考えてもよい。 図2の実施例の操作フローチャートである。 本発明のさらに他の実施例による繁体字を簡体字に変換する変換装置を説明する図であり、図1の実施例による変換装置のサブ装置と考えてもよい。 図4の実施例の操作フローチャートである。
符号の説明
102入力装置;1021複写機;1022ファクシミリ;1023カメラ;1024外部メモリ;1025ネットワーク装置;102n入力キーボード;101変換処理器;400中国語を繁体から簡体に変換するサブ装置;200中国語を簡体から繁体に変換するサブ装置;104内部メモリ装置;103出力装置;1031プリンタ;1032ファクシミリ;1033外部メモリ;1034ネットワーク装置;103n表示装置

Claims (27)

  1. 簡体字と繁体字との相互変換を行う変換装置であって、当該変換装置は、
    変換対象である簡体/繁体漢字の文字列を入力する入力部と、
    入力された簡体/繁体漢字の文字列をいくつかの単語/用語に分割する単語/用語分割部と、
    当該入力された簡体/繁体漢字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が繁体/簡体漢字の単語/用語と同じ、または同じではないが所定の対応関係を有する簡体/繁体漢字の単語/用語を第1種類の単語/用語に定義すると共に、漢字表記が繁体/簡体漢字の単語/用語と異なり、かつ所定の対応関係を有しない簡体/繁体漢字の単語/用語を第2種類の単語/用語に定義する鑑別・定義部と、
    マッピングテーブルを用いて、当該第1種類の単語/用語を入力された簡体/繁体漢字の単語/用語と唯一対応する繁体/簡体漢字の単語/用語に直接マッピングするマッピング変換部と、
    統計分類法により、第2種類の単語/用語を入力された簡体/繁体漢字の単語/用語と適正に対応する繁体/簡体漢字の単語/用語に変換する統計変換部と、
    マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された簡体/繁体漢字の単語/用語と唯一対応する繁体/簡体漢字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された簡体/繁体漢字の単語/用語と適正に対応する繁体/簡体漢字の単語/用語とを結合することで、変換される簡体/繁体漢字の文字列に対応する繁体/簡体漢字の文字列を形成して出力する結合出力部と、を含むことを特徴とする上記変換装置。
  2. 前記単語/用語は一つの漢字又は複数の漢字からなる単語/用語を含む請求項1に記載の変換装置。
  3. 前記使用されるマッピングテーブルは、ユーザ用の簡体/繁体漢字→繁体/簡体漢字の単語/用語マッピングテーブルと、システム用の簡体/繁体漢字→繁体/簡体漢字の単語/用語マッピングテーブルと、簡体/繁体漢字→繁体/簡体漢字の一対一マッピングテーブルと、簡体/繁体漢字→繁体/簡体漢字の一対多マッピングテーブルとを含む請求項1に記載の変換装置。
  4. 前記採用される統計方法は簡易ベイズ統計法である請求項1に記載の変換装置。
  5. 簡体字と繁体字との相互変換を行う変換方法であって、当該変換方法は、
    入力部が、変換対象である簡体/繁体漢字の文字列を入力するステップと、
    単語/用語分割部が、入力された簡体/繁体漢字の文字列をいくつかの単語/用語に分割するステップと、
    鑑別・定義部が、前記入力された簡体/繁体漢字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が繁体/簡体漢字の単語/用語と同じ、または同じではないが所定の対応関係を有する簡体/繁体漢字の単語/用語を第1種類の単語/用語に定義すると共に、漢字表記が繁体/簡体漢字の単語/用語と異なり、かつ所定の対応関係を有しない簡体/繁体漢字の単語/用語を第2種類の単語/用語に定義するステップと、
    マッピング変換部が、マッピングテーブルを用いて、前記第1種類の単語/用語を入力された簡体/繁体漢字の単語/用語と唯一対応する繁体/簡体漢字の単語/用語に直接マッピングするステップと、
    統計変換部が、統計分類法により、第2種類の単語/用語を入力された簡体/繁体漢字の単語/用語と適正に対応する繁体/簡体漢字の単語/用語に変換するステップと、
    結合出力部が、マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された簡体/繁体漢字の単語/用語と唯一対応する繁体/簡体漢字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された簡体/繁体漢字の単語/用語と適正に対応する繁体/簡体漢字の単語/用語とを結合することで、入力された簡体/繁体漢字の文字列に対応する繁体/簡体漢字の文字列を形成して出力するステップと、を含むことを特徴とする上記変換方法。
  6. 前記単語/用語は単一の漢字又は複数の漢字からなる単語/用語を含む請求項5に記載の変換方法。
  7. 前記使用されるマッピングテーブルは、ユーザ用の単語/用語マッピングテーブルと、システム用の単語/用語マッピングテーブルと、簡体/繁体漢字→繁体/簡体漢字の一対一マッピングテーブルと、簡体/繁体漢字→繁体/簡体漢字の一対多マッピングテーブルとを含む請求項5に記載の変換方法。
  8. 前記採用される統計方法は簡易ベイズ統計法である請求項5に記載の変換方法。
  9. 簡体字を繁体字に変換する変換装置であって、当該変換装置は、
    変換対象である簡体字の文字列を入力する入力部と、
    入力された簡体字の文字列をいくつかの単語/用語に分割する単語/用語分割部と、
    前記入力された簡体字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が繁体字の単語/用語と同じ、または同じではないが所定の対応関係を有する簡体字の単語/用語を第1種類の単語/用語に定義すると共に、漢字表記が繁体字の単語/用語と異なり、かつ所定の対応関係を有しない簡体漢字の単語/用語を第2種類の単語/用語に定義する鑑別・定義部と、
    マッピングテーブルを用いて、前記第1種類の単語/用語を入力された簡体字の単語/用語と唯一対応する繁体字の単語/用語に直接マッピングするマッピング変換部と、
    統計分類法により、第2種類の単語/用語を入力された簡体字の単語/用語と適正に対応する繁体字の単語/用語に変換する統計変換部と、
    マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された簡体字の単語/用語と唯一対応する繁体字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された簡体字の単語/用語と適正に対応する繁体字の単語/用語とを結合することで、変換される簡体字の文字列に対応する繁体字の文字列を形成して出力する結合出力部と、を含むことを特徴とする上記変換装置。
  10. 前記単語/用語は単一の漢字又は複数の漢字からなる単語/用語を含む請求項9に記載の変換装置。
  11. 前記使用されるマッピングテーブルは、ユーザ用の簡体→繁体の単語/用語マッピングテーブルと、システム用の簡体→繁体の単語/用語マッピングテーブルと、簡体→繁体漢字の一対一マッピングテーブルと、簡体→繁体漢字の一対多マッピングテーブルとを含む請求項9に記載の変換装置。
  12. 前記採用される統計方法は簡易ベイズ統計法である請求項9に記載の変換装置。
  13. 簡体字を繁体字に変換する変換方法であって、当該変換方法は、
    入力部が、変換対象である簡体字の文字列を入力するステップと、
    単語/用語分割部が、入力された簡体字の文字列をいくつかの単語/用語に分割するステップと、
    鑑別・定義部が、前記入力された簡体字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が繁体字の単語/用語と同じ、または同じではないが所定の対応関係を有する簡体字の単語/用語を第1種類の単語/用語に定義すると共に、漢字表記が繁体字の単語/用語と異なり、かつ所定の対応関係を有しない簡体字の単語/用語を第2種類の単語/用語に定義するステップと、
    マッピング変換部が、マッピングテーブルを用いて、前記第1種類の単語/用語を入力された簡体字の単語/用語と唯一対応する繁体字の単語/用語に直接マッピングするステップと、
    統計変換部が、統計分類法により、第2種類の単語/用語を入力された簡体字の単語/用語と適正に対応する繁体字の単語/用語に変換するステップと、
    結合出力部が、マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された簡体字の単語/用語と唯一対応する繁体字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された簡体字の単語/用語と適正に対応する繁体字の単語/用語とを結合することで、入力された簡体字の文字列に対応する繁体字の文字列を形成して出力するステップと、を含むことを特徴とする上記変換方法。
  14. 前記単語/用語は単一の漢字又は複数の漢字からなる単語/用語を含む請求項13に記載の変換方法。
  15. 前記使用されたマッピングテーブルは、ユーザ用の簡体→繁体の単語/用語マッピングテーブルと、システム用の簡体→繁体の単語/用語マッピングテーブルと、簡体→繁体漢字の一対一マッピングテーブルと、簡体→繁体漢字の一対多マッピングテーブルとを含む請求項13に記載の変換方法。
  16. 前記採用された統計方法は簡易ベイズ統計法である請求項13に記載の変換方法。
  17. 繁体字を簡体字に変換する変換装置であって、当該変換装置は、
    変換対象である繁体字の文字列を入力する入力部と、
    入力された繁体字の文字列をいくつかの単語/用語に分割する単語/用語分割部と、
    前記入力された繁体字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が簡体字の単語/用語と同じ、または同じではないが所定の対応関係を有する繁体字の単語/用語を第1種類の単語/用語に定義すると共に、書き方が簡体字の単語/用語と異なり、かつ所定の対応関係を有しない繁体字の単語/用語を第2種類の単語/用語に定義する鑑別・定義部と、
    マッピングテーブルを用いて、前記第1種類の単語/用語を入力された繁体字の単語/用語と唯一対応する簡体字の単語/用語に直接マッピングするマッピング変換部と、
    統計分類法により、第2種類の単語/用語を入力された繁体字の単語/用語と適正に対応する簡体字の単語/用語に変換する統計変換部と、
    マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された繁体字の単語/用語と唯一対応する簡体字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された繁体字の単語/用語と適正に対応する簡体字の単語/用語とを結合することで、入力された繁体字の文字列に対応する簡体字の文字列を形成して出力する結合出力部と、を含むことを特徴とする上記変換装置。
  18. 前記単語/用語は単一の漢字又は複数の漢字からなる単語/用語を含む請求項17に記載の変換装置。
  19. 前記使用されたマッピングテーブルは、ユーザ用の繁体→簡体の単語/用語マッピングテーブルと、システム用の繁体→簡体の単語/用語マッピングテーブルと、繁体→簡体漢字の一対一マッピングテーブルと、繁体→簡体漢字の一対多マッピングテーブル及び異体字マッピングテーブルとを含む請求項17に記載の変換装置。
  20. 前記採用された統計方法は簡易ベイズ統計法である請求項17に記載の変換装置。
  21. 繁体字を簡体字に変換する変換方法であって、当該変換方法は、
    入力部が、変換対象である繁体字の文字列を入力するステップと、
    単語/用語分割部が、入力された繁体字の文字列をいくつかの単語/用語に分割するステップと、
    鑑別・定義部が、前記入力された繁体字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が簡体字の単語/用語と同じ、または同じではないが所定の対応関係を有する繁体字の単語/用語を第1種類の単語/用語に定義すると共に、漢字表記が簡体字の単語/用語と異なり、かつ所定の対応関係を有しない繁体字の単語/用語を第2種類の単語/用語に定義するステップと、
    マッピング変換部が、マッピングテーブルを用いて、前記第1種類の単語/用語を入力された繁体字の単語/用語と唯一対応する簡体字の単語/用語に直接マッピングするステップと、
    統計変換部が、統計分類法により、第2種類の単語/用語を入力された繁体字の単語/用語と適正に対応する簡体字の単語/用語に変換するステップと、
    結合出力部が、マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された繁体字の単語/用語と唯一対応する簡体字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された繁体字の単語/用語と適正に対応する簡体字の単語/用語とを結合することで、入力された繁体字の文字列に対応する簡体字の文字列を形成して出力するステップと、を含むことを特徴とする上記変換方法。
  22. 前記単語/用語は単一の漢字又は複数の漢字からなる単語/用語を含む請求項21に記載の変換方法。
  23. 前記使用されたマッピングテーブルは、ユーザ用の繁体→簡体の単語/用語マッピングテーブルと、システム用の繁体→簡体の単語/用語マッピングテーブルと、繁体→簡体漢字の一対一マッピングテーブルと、繁体→簡体漢字の一対多マッピングテーブル及び異体字マッピングテーブルとを含む請求項21に記載の変換方法。
  24. 前記採用された統計方法は簡易ベイズ統計法である請求項21に記載の変換方法。
  25. 簡体字と繁体字との相互変換を行うためのコンピュータプラグラムであって、
    コンピュータを、
    変換対象である簡体/繁体漢字の文字列を入力する入力部、
    入力された簡体/繁体漢字の文字列をいくつかの単語/用語に分割する単語/用語分割部、
    当該入力された簡体/繁体漢字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が繁体/簡体漢字の単語/用語と同じ、または同じではないが所定の対応関係を有する簡体/繁体漢字の単語/用語を第1種類の単語/用語に定義すると共に、漢字表記が繁体/簡体漢字の単語/用語と異なり、かつ所定の対応関係を有しない簡体/繁体漢字の単語/用語を第2種類の単語/用語に定義する鑑別・定義部、
    マッピングテーブルを用いて、当該第1種類の単語/用語を入力された簡体/繁体漢字の単語/用語と唯一対応する繁体/簡体漢字の単語/用語に直接マッピングするマッピング変換部、
    統計分類法により、第2種類の単語/用語を入力された簡体/繁体漢字の単語/用語と適正に対応する繁体/簡体漢字の単語/用語に変換する統計変換部、
    マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された簡体/繁体漢字の単語/用語と唯一対応する繁体/簡体漢字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された簡体/繁体漢字の単語/用語と適正に対応する繁体/簡体漢字の単語/用語とを結合することで、変換される簡体/繁体漢字の文字列に対応する繁体/簡体漢字の文字列を形成して出力する結合出力部、
    として機能させることを特徴とする上記コンピュータプログラム。
  26. 簡体字を繁体字に変換するためのコンピュータプログラムであって、
    コンピュータを、
    変換対象である簡体字の文字列を入力する入力部、
    入力された簡体字の文字列をいくつかの単語/用語に分割する単語/用語分割部、
    前記入力された簡体字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が繁体字の単語/用語と同じ、または同じではないが所定の対応関係を有する簡体字の単語/用語を第1種類の単語/用語に定義すると共に、書き方が繁体字の単語/用語と異なり、かつ所定の対応関係を有しない簡体漢字の単語/用語を第2種類の単語/用語に定義する鑑別・定義部、
    マッピングテーブルを用いて、前記第1種類の単語/用語を入力された簡体字の単語/用語と唯一対応する繁体字の単語/用語に直接マッピングするマッピング変換部、
    統計分類法により、第2種類の単語/用語を入力された簡体字の単語/用語と適正に対応する繁体字の単語/用語に変換する統計変換部、
    マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された簡体字の単語/用語と唯一対応する繁体字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された簡体字の単語/用語と適正に対応する繁体字の単語/用語とを結合することで、入力された簡体字の文字列に対応する繁体字の文字列を形成して出力する結合出力部、
    として機能させることを特徴とする上記コンピュータプログラム。
  27. 繁体字を簡体字に変換するためのコンピュータプログラムであって、
    コンピュータを、
    変換対象である繁体字の文字列を入力する入力部、
    入力された繁体字の文字列をいくつかの単語/用語に分割する単語/用語分割部、
    前記入力された繁体字の文字列における各単語/用語を鑑別・定義し、そのうちの、漢字表記が簡体字の単語/用語と同じ、または同じではないが所定の対応関係を有する繁体字の単語/用語を第1種類の単語/用語に定義すると共に、書き方が簡体字の単語/用語と異なり、かつ所定の対応関係を有しない繁体字の単語/用語を第2種類の単語/用語に定義する鑑別・定義部、
    マッピングテーブルを用いて、前記第1種類の単語/用語を入力された繁体字の単語/用語と唯一対応する簡体字の単語/用語に直接マッピングするマッピング変換部、
    統計分類法により、第2種類の単語/用語を入力された繁体字の単語/用語と適正に対応する簡体字の単語/用語に変換する統計変換部、
    マッピングテーブルを用いて前記第1種類の単語/用語を直接マッピングして得られた、入力された繁体字の単語/用語と唯一対応する簡体字の単語/用語と、統計分類法により第2種類の単語/用語を変換して得られた、入力された繁体字の単語/用語と適正に対応する簡体字の単語/用語とを結合することで、変換される繁体字の文字列に対応する簡体字の文字列を形成して出力する結合出力部、
    として機能させることを特徴とする上記コンピュータプログラム。
JP2007187850A 2006-08-21 2007-07-19 簡体字と繁体字とを相互変換する方法及びその変換装置 Expired - Fee Related JP5167711B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2006101115101A CN101131690B (zh) 2006-08-21 2006-08-21 简体汉字和繁体汉字相互转换方法及其系统
CN200610111510.1 2006-08-21

Publications (2)

Publication Number Publication Date
JP2008052720A true JP2008052720A (ja) 2008-03-06
JP5167711B2 JP5167711B2 (ja) 2013-03-21

Family

ID=39128960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007187850A Expired - Fee Related JP5167711B2 (ja) 2006-08-21 2007-07-19 簡体字と繁体字とを相互変換する方法及びその変換装置

Country Status (3)

Country Link
JP (1) JP5167711B2 (ja)
CN (1) CN101131690B (ja)
TW (1) TW200811673A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010065226A1 (en) * 2008-12-03 2010-06-10 Microsoft Corporation Viewing messages and message attachments in different languages
KR101384139B1 (ko) 2012-11-23 2014-04-10 박선정 간체자 학습을 위한 변환 방법, 그를 이용한 학습 방법, 기록매체, 저장매체 및 저장매체를 포함하는 이동통신 단말기
JP2014120178A (ja) * 2012-12-17 2014-06-30 Kofukin Seimitsu Kogyo (Shenzhen) Yugenkoshi 中国語の繁体字と簡体字との変換システム及び中国語の繁体字と簡体字との変換方法
JP2014123379A (ja) * 2012-12-24 2014-07-03 Kofukin Seimitsu Kogyo (Shenzhen) Yugenkoshi 中国語の特許出願のファイル変換システム及びその変換方法
CN112199576A (zh) * 2020-10-20 2021-01-08 山东浪潮商用系统有限公司 一种中文拼音搜索的实现方法和系统
CN117252154A (zh) * 2023-11-20 2023-12-19 北京语言大学 一种基于预训练语言模型的中文简繁字符转换方法及系统
CN112949283B (zh) * 2021-04-26 2024-01-23 合肥工业大学 文本处理方法、装置、非易失性存储介质及处理器

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222419A (zh) * 2011-06-27 2011-10-19 陈宇慧 一种电子文本的显示方法
CN103514152B (zh) * 2012-06-21 2017-01-18 香港城市大学 简繁中文转换中的标识追踪方法及装置
CN102929852B (zh) * 2012-10-15 2016-05-04 福建榕基软件股份有限公司 一种在富文本编辑器内实现简繁体字互转的方法及系统
CN103778110B (zh) * 2012-10-25 2016-08-31 三星电子(中国)研发中心 简繁体汉字的转换方法及系统
CN103853706B (zh) * 2012-12-06 2017-04-12 富士通株式会社 用于将简体汉语句子转换为繁体汉语句子的方法和设备
CN103559178A (zh) * 2013-05-31 2014-02-05 武汉中文百科网络有限公司 互联网中文简繁字转换系统及方法
CN108108337A (zh) * 2016-11-25 2018-06-01 北大方正集团有限公司 简繁互转方法及装置
CN107145244A (zh) * 2017-04-26 2017-09-08 北京汉王数字科技有限公司 一种异形字符输入方法、装置及电子设备
CN108427671B (zh) * 2018-01-25 2021-06-25 腾讯科技(深圳)有限公司 信息转换方法和装置、存储介质及电子装置
CN109145297B (zh) * 2018-08-13 2022-06-10 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于hash存储的网络词汇语义分析方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59172032A (ja) * 1983-03-18 1984-09-28 Photo Composing Mach Mfg Co Ltd 文字入力装置
JPH08263478A (ja) * 1995-03-24 1996-10-11 Matsushita Electric Ind Co Ltd 中国語簡繁体字文書変換装置
JPH08287046A (ja) * 1995-04-14 1996-11-01 Sharp Corp 情報処理装置
CN1369833A (zh) * 2001-02-16 2002-09-18 意蓝科技股份有限公司 词汇式繁体中文与简体中文的转换系统及转换方法
JP2003527676A (ja) * 1999-11-05 2003-09-16 マイクロソフト コーポレイション モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ
CN1462966A (zh) * 2002-05-29 2003-12-24 明日工作室股份有限公司 简繁体中文内码转换方法以及系统
JP2005004626A (ja) * 2003-06-13 2005-01-06 Ricoh Co Ltd 異表記正規化処理装置、異表記正規化処理プログラム、これを記憶する記憶媒体、文書検索装置、文書検索プログラム及びこれを記憶する記憶媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1192302C (zh) * 1999-09-22 2005-03-09 微软公司 简繁体汉字输入系统及其方法
US6393445B1 (en) * 2001-01-04 2002-05-21 Institute For Information Industry System for transforming Chinese character forms in real-time between a traditional character form and a simplified character form

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59172032A (ja) * 1983-03-18 1984-09-28 Photo Composing Mach Mfg Co Ltd 文字入力装置
JPH08263478A (ja) * 1995-03-24 1996-10-11 Matsushita Electric Ind Co Ltd 中国語簡繁体字文書変換装置
JPH08287046A (ja) * 1995-04-14 1996-11-01 Sharp Corp 情報処理装置
JP2003527676A (ja) * 1999-11-05 2003-09-16 マイクロソフト コーポレイション モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ
CN1369833A (zh) * 2001-02-16 2002-09-18 意蓝科技股份有限公司 词汇式繁体中文与简体中文的转换系统及转换方法
CN1462966A (zh) * 2002-05-29 2003-12-24 明日工作室股份有限公司 简繁体中文内码转换方法以及系统
JP2005004626A (ja) * 2003-06-13 2005-01-06 Ricoh Co Ltd 異表記正規化処理装置、異表記正規化処理プログラム、これを記憶する記憶媒体、文書検索装置、文書検索プログラム及びこれを記憶する記憶媒体

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010065226A1 (en) * 2008-12-03 2010-06-10 Microsoft Corporation Viewing messages and message attachments in different languages
JP2012510680A (ja) * 2008-12-03 2012-05-10 マイクロソフト コーポレーション 異なる言語によるメッセージおよび添付ファイルの表示
US9824071B2 (en) 2008-12-03 2017-11-21 Microsoft Technology Licensing, Llc Viewing messages and message attachments in different languages
KR101384139B1 (ko) 2012-11-23 2014-04-10 박선정 간체자 학습을 위한 변환 방법, 그를 이용한 학습 방법, 기록매체, 저장매체 및 저장매체를 포함하는 이동통신 단말기
WO2014081238A1 (ko) * 2012-11-23 2014-05-30 Park Sun-Jung 간체자 학습을 위한 변환 방법, 그를 이용한 학습 방법, 기록매체, 저장매체 및 저장매체를 포함하는 이동통신 단말기
JP2014120178A (ja) * 2012-12-17 2014-06-30 Kofukin Seimitsu Kogyo (Shenzhen) Yugenkoshi 中国語の繁体字と簡体字との変換システム及び中国語の繁体字と簡体字との変換方法
JP2014123379A (ja) * 2012-12-24 2014-07-03 Kofukin Seimitsu Kogyo (Shenzhen) Yugenkoshi 中国語の特許出願のファイル変換システム及びその変換方法
CN112199576A (zh) * 2020-10-20 2021-01-08 山东浪潮商用系统有限公司 一种中文拼音搜索的实现方法和系统
CN112949283B (zh) * 2021-04-26 2024-01-23 合肥工业大学 文本处理方法、装置、非易失性存储介质及处理器
CN117252154A (zh) * 2023-11-20 2023-12-19 北京语言大学 一种基于预训练语言模型的中文简繁字符转换方法及系统
CN117252154B (zh) * 2023-11-20 2024-01-23 北京语言大学 一种基于预训练语言模型的中文简繁字符转换方法及系统

Also Published As

Publication number Publication date
TWI328174B (ja) 2010-08-01
CN101131690B (zh) 2012-07-25
CN101131690A (zh) 2008-02-27
JP5167711B2 (ja) 2013-03-21
TW200811673A (en) 2008-03-01

Similar Documents

Publication Publication Date Title
JP5167711B2 (ja) 簡体字と繁体字とを相互変換する方法及びその変換装置
US11150875B2 (en) Automated content editor
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
KR102199835B1 (ko) 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
CN110770735B (zh) 具有嵌入式数学表达式的文档的编码转换
JP2020035019A (ja) 情報処理装置、情報処理方法及びプログラム
JP2009140466A (ja) 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム
Baró et al. Towards a generic unsupervised method for transcription of encoded manuscripts
US20220284185A1 (en) Storage medium, information processing method, and information processing device
Jain et al. “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning
US20230123328A1 (en) Generating cascaded text formatting for electronic documents and displays
Udayana et al. Balinese Latin Text Becomes Aksara Bali Using Rule Base Method
JP2021101375A (ja) 辞書構築装置、辞書の生産方法、およびプログラム
Reiter et al. Exploring text recombination for automatic narrative level detection
Stokes Modelling Multigraphism: the digital representation of multiple scripts and alphabets
Hossain et al. Bangla braille adaptation
Wang et al. Transition-based chinese semantic dependency graph parsing
Sapargali et al. Determining the Relationship Between the Letters in the Voynich Manuscript Splitting the Text into Parts
US20230205910A1 (en) Information processing device, confidentiality level determination program, and method
WO2021065058A1 (ja) 概念構造抽出装置、記憶媒体及び方法
US11170182B2 (en) Braille editing method using error output function, recording medium storing program for executing same, and computer program stored in recording medium for executing same
US10970583B2 (en) Information processing apparatus, and non-transitory computer readable medium
Balbudhe et al. DESIGN APPROCH OF IMAGE RETRIEVAL MECHANISM BASED ON REGIONAL NLP
JP2006031198A (ja) テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム
Singh et al. Hybrid CNN-LSTM Architecture for Bilingual Next-Word Prediction in Punjabi-English Social Media Texts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121210

R150 Certificate of patent or registration of utility model

Ref document number: 5167711

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees