JP2005250525A - 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム - Google Patents

漢文解析支援装置及び異言語文処理装置及び翻訳プログラム Download PDF

Info

Publication number
JP2005250525A
JP2005250525A JP2004055737A JP2004055737A JP2005250525A JP 2005250525 A JP2005250525 A JP 2005250525A JP 2004055737 A JP2004055737 A JP 2004055737A JP 2004055737 A JP2004055737 A JP 2004055737A JP 2005250525 A JP2005250525 A JP 2005250525A
Authority
JP
Japan
Prior art keywords
sentence
language
chinese
symbol
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004055737A
Other languages
English (en)
Inventor
Toshiro Ito
利朗 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004055737A priority Critical patent/JP2005250525A/ja
Publication of JP2005250525A publication Critical patent/JP2005250525A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 本発明は、漢文及び漢詩の学習を助け、ひいては、漢文及び漢詩を世界に広めるための仕組みを提供するものである。
【解決手段】 この発明の漢文解析支援装置は、漢文を入力する漢文入力部201と、声調情報を含む漢文の構文情報を記憶するルールベース111と、漢字とその漢字に対応するひとつ以上のピンイン(PINYIN)とを記憶する漢字辞書ファイル113と、上記ルールベース111の構文情報を参照して漢字に声調情報を付与するとともに上記漢字辞書ファイル113を参照して漢字にピンインを付与した漢情報文を生成する漢情報文生成部203と、上記漢情報文生成部203が生成した漢情報文153を記憶する漢情報文ファイル209と、漢情報文ファイル209に記憶された漢情報文153を表示画面219に出力する漢情報文出力部211とを備えたことを特徴とする。
【選択図】 図18

Description

本発明は、例えば、漢文及び漢詩の学習を助け、ひいては、漢文及び漢詩を世界に広めるための仕組みを提供するものである。また、漢文及び漢字を記述言語として、主として記述で情報伝達を行うインターネットで、国際的な通信・文通を可能に仕組みを構築してビジネスを展開するビジネス特許に関するものである。
周知のように、中国を中心として、日本、韓国、東南アジアを中心として全世界にわたる華僑の間には、それぞれ用いる言語が違っても、漢字を使って書けば「なんとかほぼ」意思が通じるということがある。しかし、これはあくまで、「なんとかほぼ」の範囲に留まるものであって、完全な意思疎通を可能にするものではない。完全な意思疎通を可能にするためには、少なくとも、長時間をかけて大部の漢字辞書を引き、複雑な漢字の意味を知ることが必要である。従って、このような手間と時間を要するハードコピーの従来型辞書を使うようでは、日常の文通という即時性が必要なものには、「なんとかほぼ」の範囲を超えて正確に意思を伝達することは不可能である。
更に、問題になることは、日常漢文を使っていない日本人や欧米人など、或いは、中国人(現代)でさえも、中学・高校で学んだとしても、漢文の構造を完全に理解することは不可能に近いことである。即ち、例えば、日本語の場合、「てにをは」を使って単語の格が表され、構造が明示されている。欧米言語の場合には、多数の前置詞や冠詞によって、単語の品詞を明示することによって、構造が明らかにされている。これに対して、「てにをは」や冠詞を使わず、ごく少数の前置詞を使うに過ぎない漢文の場合は、漢字の平面的な羅列の中から文の構造を読み取らねばならないが、これは、これに慣れていない現代の人には、極めて困難なことである。
漢文を読みやすくするため、読む語順を変えるための記号を返り点という。返り点はレ点で示されることが多い。また、読みを書き入れた仮名を送り仮名という。平仮名及び片仮名の送り仮名が付されることもある。
前述したように、漢文は、日本語と語順を異にしている。また、助詞、助動詞、用言の活用語尾に当たる要素がほとんどない。このため、返り点や送り仮名を付することにより、漢文の訓読ができるようにしている。
漢字の意味を完全に理解するためには、漢文の構造を完全に理解することが必要である。なぜなら、一般に、特に単漢字の場合、その意味は、それがいかなる品詞であるか、即ち、名詞か動詞か副詞か、またこれらによって構成される句が主題を示す句(Subject)か述語(Predicate)かを示す句・・・によって、多義的である。
しかしながら、幸いにして、この例も示すように、単語の品詞が決まれば、単語の意味はほぼ定まり、それによって構成される句の品詞も決まる。このことは、単語の意味を辞書から引き出すにも、漢文の構造を理解することが必要なことを意味するのである。
返り点を付すのは、漢文と日本語との語順が異なっているからであり、日本語の語順に合わせるためである。また、送り仮名を振っているのも日本語の訓読を可能にするためである。従って、漢文と文法が非常に似ている英語を使う人々や日本以外の国の人々にとってみれば、返り点や送り仮名は意味を持たないものである。
特開2001−357034号公報
漢文を理解するために、ある漢字のために記述された辞書の内容を全て表示しても、単語や句がいかなる品詞で用いられているかをユーザが知らなければ、どのような意味なのかが分かりにくく、使いにくいという課題がある。
また、漢文や漢詩を学習する上で大切な発音や声調(単語の発音の「平」、「仄」の配列が作る調子)については理解することができないという課題が有る。
また、複数の言語を同時に学習するための工夫と配慮をしたいという課題が有る。
また、他国の言語を知らなければ、文書交換やメール交換や文通ができないという課題が有る。
本発明は、例えば、漢文及び漢詩の学習を助け、ひいては、漢文及び漢詩を世界に広めるための仕組みを提供するものである。特に、漢文及び漢詩の発音と声調の規則が学習できるようにするものである。
また、本発明は、例えば、漢文及び漢字を記述言語として、この記述言語と他国言語とを併記して複数言語の学習が容易にできるようにするものである。
また、さらに、本発明は、例えば、情報伝達を行うインターネットで、国際的な通信・文通を可能にする仕組みを構築してビジネスを展開できるようにするものである。
この発明の漢文解析支援装置は、
漢文を入力する漢文入力部と、
声調情報を含む漢文の構文情報を記憶するルールベースと、
漢字とその漢字に対応するひとつ以上のピンイン(PINYIN)とを記憶する漢字辞書ファイルと、
上記ルールベースの構文情報を参照して漢字に声調情報を付与するとともに上記漢字辞書ファイルを参照して漢字に「平」、「仄」に対応して色付けされたピンインを付与した漢情報文を生成する漢情報文生成部と、
上記漢情報文生成部が生成した漢情報文を出力する漢情報文出力部と
を備えたことを特徴とする。
また、この発明の異言語文処理装置は、
第1言語の単語を所定の構造で配置した文と、上記文の構造を示す構文記号とを備えた第1言語記号文を表示画面の第1表示領域に表示する第1表示部と、
上記第1表示部が表示する第1言語記号文の第1言語の単語を第2言語の単語に変換した第2言語記号文を、第1言語記号文を表示した第1表示領域と並んだ上記表示画面の第2表示領域に表示する第2表示部と
を備えたことを特徴とする。
また、この発明の翻訳プログラムは、
第1言語の単語を所定の構造で配置した文と、上記文の構造を示す構文記号とを備えた第1言語記号文を第1記憶部から入力する入力処理と、
上記入力処理により入力した第1言語記号文の第1言語の単語を第2言語の単語に変換して、第2言語の単語を所定の構造で配置した文と、上記文の構造を示す構文記号とを備えた第2言語記号文を生成する翻訳処理と、
生成した第2言語記号文を第2記憶部に記憶する出力処理と
をコンピュータに実行させることを特徴とする。
この発明によれば、漢文や漢詩を学習する上で大切な発音や声調について理解することができるという効果がある。
また、この発明によれば、複数の言語を同時に学習することができるという効果がある。
またこの発明によれば、単語を翻訳するだけで、国際的な通信・文通が可能になるという効果がある。
実施の形態1.
5000年の歴史を持ち莫大な中国古典蔵書に関して、本仕組みに基づいて容易に解読できるようになることを以下に説明する。
例として、漢詩を考えてみよう。周知のように、中国古典蔵書の中でも漢詩は、歴史が古く、約2500年前に孔子が編纂した『詩経』305篇に始まる。その後、約5万の詩が作られた唐時代を最盛期として宋代の極盛期を経て現在に至っている。日本でも平安朝以降盛んに製作されてきただけではなく、現在でも新しく作りだされている。
詩の総数は、全体で10万篇以上存在する。詩はすばらしいものが多く、東洋の宝、世界の宝と評価されている。しかしながら、次のような短所があるために、漢詩の愛好者が官僚を中心とした知識階級に限定されてきたのも事実である。
(1)ITの活用なしでは漢字の辞書からの単語検索が困難で、特定権威者の解釈・解説に頼らなければならなかった。
(2)漢詩の具体的表現が歴史地理の知識なしには理解困難である。
これに対して、後述する実施の形態の仕組み、即ち、構造を明示する記号の挿入と高効率辞書に基づいて漢詩に手を加えると、母国語が何であろうと、直接解読が可能となる。
まず、実施の形態1で、漢記号文について説明する。
1.データ構造とIT技術
世界各地の人々と漢字を介してコミュニケーションする仕組み、即ち、ソリューションは、最近のIT技術が可能にした次のものを活用するものである。
(1)構造を明示する記号の挿入の仕組み
(2)電子辞書
(3)漢字の手書き入力/スキャナ入力
(4)インターネット
(5)ハイパーリンク
2.構造を明示する記号の定義とその挿入法
2−1.記号の定義
現在使われている自然言語は、大きく分けて、以下の3つに分類される。
(1)屈折語
(2)膠着語
(3)孤立語
屈折語は、英語などのように単語自身が変化する言語である。膠着語は、日本語などの助詞、助動詞などを用いて意味を表す言語である。孤立語は、中国語などの語の位置関係で文意が決まる言語である。漢文は、孤立語に当たるため、語と語の位置関係のみが文の意味を決定するものである。従って、漢文を理解するためには、語と語の位置関係を正しく把握することが重要となる。この実施の形態は、語と語の位置関係に頼らずに、語と語の関係を正しく把握するため、語と語(又は、節と語、節と節、句と語、句と句)の間や前や後に構文記号(記号)を付与するものである。
実際の漢詩、漢文においては例外的な解釈を多く必要とする場合もあると考えられるが、ここでは、基本的な漢文文法の原則に則って、以下の説明をする。
言語構造としては、以下のように取り扱うものとする。
・文の構造を主語(第1主題(アジア系言語に特有なものでは助詞の「は」が付いたもので文章の主題となるもの)と第2主題(英語ではsubject、日本語では主語と訳されている述語の主題となるもの)がある。)、述語(目的語を含む)の基本要素の組み合わせで考え、これらを分離/明確化するために各種の「構文記号」を挿入する。
なお、以下に説明する各実施の形態では、主語のことを第2主題と呼ぶことがある。また、逆に、第2主題のことを主語と呼ぶことがある。
・体言を修飾する「連体修飾」と、用言を修飾する「連用修飾」の2つの修飾パターンを用いる。
一般的に認知されている“漢文文法”を反映した言語構造をバッカスの正規表現で定義すると、以下のようになる。
1.漢記号文の品詞
○<単語>::=<用言>|<体言>|<副詞>
|<前置詞>*1|<助動詞>*2
|<助辞詞>*3
<前置詞>*1::=於|于|自|為・・・
<助動詞>*2::=非|無|可|能|得|足|使|令|見|被|為・・・
<助辞詞>*3::=也|焉|矣|兮|而|已|乎|哉|耶|邪|与|是|之|其・・・
2.漢記号文の構造
<漢記号文>::=<文>* *:1個以上の繰り返し
(1)<文>::=<単文>.|<重文>.|<第1主題>!<重文>.
○<単文>::=<節>|<第1主題>|<節>
◇<第1主題>::=<体言>|<節>
○<重文>::=<節>|<節>,<重文>|<節>;<重文>
|<節>&<重文>|<節>(<副詞>)<重文>
3.漢記号文の節の構成
<節>::=<第2主題>:<述語>|<述語><<第2主題>
|<副詞句>_<節>
|<名詞>%<節>
(1)<主語>::=<空>|<体言>|<主語句>|<主語節>
○<主語句>::=<体言列挙>|<連体修飾>
◇<体言列挙>::=<体言>
|<体言>/<体言列挙>
|<体言>(与)<体言列挙>
◇<連体修飾>::=<用言>^<体言>
|<体言>^<体言>
|<連体修飾節>^<体言>
|<体言>(之)<体言>
☆<連体修飾節>::=[<節>]
○<第2主題節>::=[<節>]
(2)<述語>::=<用言句>><第1目的語>
|<用言句>≫<前置詞>〜<第2目的語>
|<用言句>><第1目的語>≫<前置詞>〜<第2目的語>
|<用言句>≫<第2目的語>><第1目的語>
|<用言句>≫<第2目的語>≫<前置詞>〜<第2目的語>
|<主要句法>
○<用言句>::=<用言>|<連用修飾>
◇<連用修飾>::=<用言>_<用言>
|<副詞>_<用言>
|<連用修飾節>_<用言>
|<副詞句>_<用言>
☆<連用修飾節>::=[<節>]
○<第1目的語>::=<体言>|<第1目的句>
|<第1目的節>
◇<第1目的句>::=<体言列挙>|<連体修飾>
◇<第1目的節>::=[<節>]
○<第2目的語>::=<体言>|<第2目的句>
◇<第2目的句>::=<体言列挙>|<連体修飾>
○<主要句法>::=<特定>|<接続>|<関係>|<質問>
|<助動詞>|<特殊用言>|<否定>
(3)<副詞句>::=<副詞>
|<前置詞>〜<体言>
|<前置詞>〜<節>
|<節>
4.特殊構成
<命令文>::=<第2主題のない単文>!
<強調倒置文>::=‘<強調すべき語>’<強調すべき語を抜いた文>
以上
平面的に一様に並べられた漢文に挿入して、文の構造を明示するための記号(構文記号)の一例を日本語を参照して説明する。
日本語では、品詞を普通、図1のように分類する。漢文は、図1に示した品詞に日本語にない前置詞と助辞詞と指示詞を加え、助詞を使わずに表現する言語である。
なお、前置詞とは、名詞や代名詞の前について、その語の他の語に対する関係を示すもので、「於」、「于」「自」などである。また、助辞詞とは、所謂“置き字”で「也」、「焉」、「矣」:断定・言い切り、「兮」:語調を整える、「巳」「而」:限定などである。また、日本語の指示代名詞に近い「是」、「之」、「其」などの指示詞は、助辞詞的に使われるので、助辞詞的名詞に分類する。
また、図2に、漢文品詞の日本語文法による説明図を示す。
この仕組みは、漢詩中の語の前後に、以下に説明するコンピュータで常用される記号をつけ、品種及び語の格を下記のように必要最小限に明らかにすることによって、漢文の構造を明らかにしようとするものである。こうして得られる文を通常の漢文と区別して「漢記号文」と呼ぶ。
(1)副詞の場合には、品詞そのもの。
(2)体言の場合には、主語、目的語、補語、修飾語などの区別。
(3)用言については、必要に応じて終止、連体、連用の区別。
(4)使役形、受身形、否定形、疑問形、反語形などの句法の種類。
ここで、品詞及び述語を簡潔に表す新たな記号を、図3に示すように導入する。
図3中に使われている用語の定義を、図4に示す。
挿入される記号の一例として、この実施の形態で用いているものは、図5に示すものがある。
挿入される記号は、入力を容易にするために、キーボードのキートップにある記号が望ましく、キーボードから1回のキーの押下で(即ち、変換なしで)入力できる記号を用いることが望ましい。また、挿入される記号は、記録容量を少なくするため、情報管理サーバ1バイトコードの文字を用いることが望ましい。また、挿入される記号は、混乱を避けるため、漢文に用いない文字を用いることが望ましい。
2−2.漢文への記号の挿入
一般的に言って、漢文というのは、表意文字の漢字からなる単語ないし熟語が簡潔に厳密な規則をもって順序正しく記述された表意的な文章である。単語の記述順序に厳密な規則性が要求されるという点では、コンピュータのプログラミング言語と同様である。例えば、
(1)副詞は必ずそれを修飾する動詞の前に置かれる(例外はある)。
(2)第1主題は文の前に、第2主題は修飾された動詞の前に置かれ、動詞の目的語は後置される。但し、状態を示す用言(美しい、無い、・・・)は第1主題に前置される。
(3)動詞の第2目的語は第1目的語の前に置かれる。
(4)前置詞で指示された第2目的語は、第1目的語の後に置かれる。
(5)体言を修飾する用言、体言は前置される。
(6)動詞の目的語が節の場合がある。
(7)未、將、当などの特殊な助動詞的単語のあとには用言が設置される。
などである。従って、最後に人手による最終調整を前提とすれば、これらの法則を利用して、記号を漢文に自動的に挿入するS/W(ソフトウエア)プログラムを作ることが可能である。
記号は、手動挿入も考えられる。挿入は、文通の場合の漢文では、作文を行った発信者による挿入、古典の場合には専門家による。この場合は、利用の便を図って、例えば、記号表をコンピュータの画面の一部に、利用者(ユーザ)の要請に応じて表示することも容易に実現できる。
以上が、漢記号文の説明である。
次に、漢記号文を作成する装置及び漢記号文を他言語に翻訳する装置について説明する。
図8は、前述した漢記号文を用いたE(電子)メールシステムを示す図である。
図8においては、送信端末装置72において、漢記号文を作成し、Eメールを受信端末装置82に送信し、受信端末装置82において、そのEメールを読む場合を示している。送信端末装置72において、漢記号文を作成する場合は、送信端末装置72は、漢記号文作成支援装置71として機能する。
また、受信端末装置82は、漢記号文を受信して、その漢記号文を他の言語に変換する場合は、言語変換サービス装置81として機能する。送信端末装置72には、通信装置91と計算機92とメモリ93とスキャナ97と表示装置98とキーボード99が備えられている。メモリ93には、データ94と辞書95と漢記号文作成支援プログラム96が記憶されている。
受信端末装置82には、通信装置51と計算機52とメモリ53と表示装置58とキーボード59が備えられている。メモリ53には、データ54と辞書ファイル55と言語変換サービスプログラム56が記憶されている。通信ネットワーク3は、インターネット、或いは、ローカルエリアネットワーク、或いは、その他の有線又は無線による電話回線や通信回線である。メモリ93及びメモリ53は、固定ディスク、光ディスク、フレキシブルディスク、或いは、ランダムアクセスメモリ等の記録媒体である。メモリ93、メモリ53には、図示していないが、オペレーティングシステムやウィンドウズ(登録商標)システムやブラウザプログラムや辞書検索プログラムやファイル管理プログラムやEメールプログラムやファイル転送プログラム等が記憶されているものとする。
図9は、送信端末装置72が漢記号文作成支援装置71として動作する場合の論理構成図である。
漢記号文作成支援装置71は、漢記号文作成支援プログラム96が計算機92において動作することにより実現できるものである。漢記号文作成支援装置71には、構文選択部73、構造提示部74、漢字入力部75、表示部76、記録部77が存在している。
図10は、漢記号文作成支援装置71が表示装置98に対して表示する漢記号文作成支援画面の一例である。
図10を用いて図9に示した漢記号文作成支援装置71の動作、即ち、漢記号文作成支援プログラム96の動作について説明する。
以下に述べる動作は、漢記号文を情報管理サーバ1文字ずつ全てユーザが入力する必要がなく、漢記号文を効率よく作成できるようにしたものである。まず、図10に示すような画面が表示されると、構文選択部73は、画面の選択欄に表示された漢文の複数の構文の中から特定の構文をユーザに選択させる。例えば、ここでは、2番目の構文をユーザがキーボード99(又は、図示していないマウス。以下、キーボードという場合には、マウスやジョイスティックやその他の入力機器の場合を含む。)により選択されたものとする。
次に、構造提示部74は、画面の入力欄に選択された2番目の構文に一致した入力欄を表示する。このとき、既に構文が分かっているので、構文記号、この場合には、「:」と「>」を予め表示し、主語と述語と目的語の3つの語を入力させる漢字入力欄を表示する。
なお、入力欄には、常に自由入力ができる入力欄を設けておく。ユーザが自由入力をするときは、図5,図6,図7に示したような記号表をコンピュータの画面の一部に、利用者(ユーザ)の要請に応じて表示することも容易に実現できる。
次に、漢字入力部75は、ユーザがキーボード99から漢字を入力するのを待つ。ユーザは、必要に応じて辞書95を用いることができる。例えば、画面の辞書欄にあるように、読みを入力したり、部首を入力したり、画数を入力することにより、漢字を検索することができる。また、手書き入力を選択することにより、図示していない手書き入力パッドを画面に表示し、マウスやジョイスティックにより入力したい漢字のイメージを入力することができる。また、スキャナ97から漢字のイメージを入力するようにしても構わない。イメージ入力された漢字は、漢字コードに変換され、認識された漢字が入力欄に表示される。
このようにして、入力欄への漢字の入力が完了すると、表示部76は、画面の表示欄に対して、今入力された漢文1行を追加表示する。また、記録部77は、入力欄に入力された漢記号分をメモリ93にデータ94として記録する。
図11は、図10を改良した例であり、選択欄と入力欄を一緒にしたものである。
ユーザは、複数の構文の中から自分が使う構文を選択し、その選択した構文の入力欄に漢字を入力していけばよい。
図10及び図11において、情報量が多い場合には、スクロールバーを用いてスクロールさせることにより、画面に表示されていない選択情報や入力情報や表示情報をみることができる。漢記号文作成支援装置71が動作することにより作成された漢記号文は、Eメールプログラムにより、Eメールの文書として、或いは、添付ファイルとして受信端末装置82へ送信される。
次に、受信端末装置82がEメールを受信した場合の動作について説明する。
受信端末装置82がEメールを受信すると、通常のEメールプログラムが動作し、Eメールの内容を表示装置58に表示する。この時点で、表示装置58に漢記号文が表示されることになる。もし、漢記号文を直接理解できるユーザであれば、その漢記号文を読むことができる。しかし、受信したユーザが欧米人である場合には、漢字そのものの意味が分からないため、漢字を自国語に変換する必要がある。
図12は、漢記号文を英語(又は日本語)に変換する言語変換サービス装置81の動作、即ち、言語変換サービスプログラム56の動作を示す図である。
入力部83は、漢記号文を入力する。変換部88は、この漢記号文を英語に変換するものである。まず、構文記号解析部84において、漢記号文の構文記号を用いて漢記号文の構文を解析する。構文記号は、予め構文を解析した結果付与されているものであるから、この解析結果、構文及び各単語の品詞を容易に知ることができる。
次に、単語翻訳部85は、単語とその品詞に基づいて中英辞書ファイル55を参照しながら、漢字を英語の原形に変換する。
次に、文章生成部86は、漢文にはない冠詞(「a」又は「the」)及び前置詞を付加するとともに、動詞の主語に対応する変形やテンス(時制)を加えて英語の文章として完成度を高める。
次に、出力部87は、完成した英語の文章をメモリ53に記録する。
このようにして、英語が表示装置58に表示される。
前述した例は英語に変換する場合を示したが、日本語に変換する場合もほぼ同じ動作で行うことができる。違う点は、用いる辞書の種類が中日辞書である点及び文章生成部86において、日本語の場合は、助詞を付加する点及び語順が異なっているため、その配置換えを行う点である。
このようにして、漢記号文から日本語を生成することができる。また、図示していないが、フランス語、ドイツ語等の他の言語に変換することも可能である。
このようにして、漢記号文を受け取ったユーザは、自国語の自然言語に翻訳された文章を読むことができる。
なお、図12に破線で示したように、単語翻訳部85が漢記号文をメモリ53から入力し漢記号文の漢字を、例えば、英語単語に変換したものをそのまま英記号文としてメモリ53に記録するようにしてもよい。例えば、以下のようになる。
漢記号文「我:読>本」は、英記号文「I:read>book」となる。
このようにして、英記号文を受け取ったユーザは、構文記号を付された単語で(自国語で)意味を理解することができる。
図12においては、漢記号文から英語の自然言語への変換を行う場合を示したが、図13に示すように、英語、日本語等の自然言語から漢記号文への変換も行うことができる。
例えば、図13において、入力部44は、英語の文を入力する。変換部49は、英語の文を漢記号文に変換するものである。構文解析部45は、英語の構文を解析を行う。単語翻訳部46は、辞書を用いて英語を漢字に翻訳する。構文記号付与部47は、構文解析部45が解析した結果を用いて構文記号を付与する。出力部48は、変換された漢記号文をメモリ53に記録する。
また、日本語や他の言語の変換も可能である。
なお、図13に破線で示したように、単語翻訳部46が英記号文をメモリ53から入力し、英記号文の英単語を漢字に変換したものをそのまま漢記号文メモリ53に記録するようにしてもよい。例えば、以下のようになる。
英記号文「I:read>book」は、漢記号文「我:読>本」となる。
このようにして、生成された漢記号文、英記号文、その他の言語の記号文或いは自然言語の文はEメールとして、或いは、添付ファイルとして他の端末へ送信することができる。
図12の単語翻訳部85と図13の単語翻訳部46との片方または両方は、単独の翻訳ソフトウエアプログラムとしても構成することができる。すなわち単語翻訳部85と単語翻訳部46とからなる翻訳ソフトウエアプログラムは、第1言語の記号文を入力して構文記号の位置を変えずにそのまま残し単語を辞書にある原形のまま、その位置も変えずに第1言語の単語を第2言語の単語に翻訳して第2言語の記号文を出力するものである。
従来の翻訳ソフトウエアプログラムは、ある自然言語から他の自然言語に完璧に翻訳することを目指しているため、かえって、誤訳、迷訳が多くなるという課題がある。また、完璧な翻訳文にするためには、最終的に人手による修正が必要である。一方、単語翻訳部85または単語翻訳部46からなる翻訳ソフトウエアプログラムは、単語と構文記号を対にして辞書を参照することにより、文法や、主語、述語、およびこれらの構成要素等の品詞を解釈したうえでの辞書ファイルから単語を選択し単語翻訳により翻訳文(記号文)を作成するものであるから、誤訳、迷訳がない上に、人手による修正が不要である。
このように記号文は、単語を記号で結合することにより単語のルースカップリングを読み手に対して提供するものであり、この単語が多言語の単語に翻訳されても、単語のルースカップリングはそのまま維持されて読み手に対して提供されるものである。自然言語の翻訳はこの単語のルースカップリングが維持されずに翻訳されてしまうから、誤訳、迷訳が多くなるものと考えられる。
なお、テンスが不明なのは問題とする人もあるが、テンスは、テンスを示す副詞や背景からほとんどの場合理解できる。
以上のように、漢文(現代中国語は漢文ではない)で文章を作れば自動変換機能により他国言語の記号文が作成できるため、漢記号文を用いて他の国々の人々とコミュニケーションを図ることができる。また、漢字を知らないユーザであっても、自国語で文章を作れば自動変換機能により漢記号文が作成できるため、漢記号文を用いて漢字を理解する他の国々の人々とコミュニケーションを図ることができる。
次に、漢字の入力について説明する。
漢字の入力法としては、入力したい漢字の字形が明らかな場合、最近発達が目覚しい手書き文字認識システムとペン書き入力用のタブレットとの組み合わせを利用するのが最も効率的である。手書き文字認識システムについては、上述のIME2000(マイクロソフト社提供)に装備されているものが機能も高く手軽である。
更に、古典を入力する場合には、高性能手書き文字認識システムとスキャナとOCRの組み合わせが有効である。
漢字の発音を利用したキーからの入力、漢字の部品の検索と発音を組み合わせる入力法については、手書き入力やスキャナ入力よりもはるかに手間がかかるので、その活用は、手書き入力が使えない特殊な場合に限られることになろう。
次に、漢字翻訳辞書について説明する。
漢文の解読において重要なものは、漢字の辞書である。通信、即ち、文通の効率や使い勝手のよさが、辞書活用の能率にもっぱら依存するからである。
さて、辞書としては、依然として最もポピュラーなものは、従来の本形のものであり、現在でも書店で数多く販売されている。しかしながら、上述のように、これを活用して一漢字を引くだけでも数分以上の時間がかかるので、漢文中にある多種類を引くとなると、日常の文通としては耐えられないものがあり、とても実用的なものではない。
次に考えられるものは、CD(コンパクトディスク)に収納された漢字翻訳辞書であり、最近多種類のものが販売されている。これを使うと、通信文中の漢字のフォントが辞書のフォントと同一であれば、インプットが通信文中にある漢字のコピーアンドペーストで行えるので、従来の本形の辞書の比べてはるかに効率的である。問題は、フォントが通信文と辞書とで一致することは比較的少ないことである。この場合には、漢字を部品や読みから検索する必要があるので、かなり時間を要し問題である。
しかしながら、上記いずれの場合も、コピーアンドペーストを可能にするCD辞書の場合ですら、次の電子辞書には索引の効率がはるかに劣るので、本仕組(ソリューション)では、最近開発された次の辞書を活用する。
その一つは、訳を求める英単語を「マウス右クリック」するだけで英語を計算機12ヶ国語に翻訳する辞書“Babylon”(登録商標)と同様の機能を持つものである。この辞書を使えば、翻訳したい語にローカルを置き、マウスで右クリックするだけで、語の品詞毎に分類された翻訳文がコンピュータの画面上に現れるのである。漢記号文には、構造を明示する記号が挿入されていて、漢字の品詞が分かるので、これを検知する仕掛けを辞書又は辞書検索プログラムへ入れておけば、所望の意味だけが表示されることになる。
図14は、辞書検索プログラム31に所望の意味だけが表示される仕掛けを設けた場合を示している。
辞書は、通常の辞書を用いることができる。図14において、辞書検索プログラム31が起動されると、ユーザが指定した漢字が辞書内にあるかどうかをS31において検索する。
次に、S32において、ユーザが指定した漢字に付された構文記号を参照し、その構文記号と一致する品詞の記述を辞書内の記述から選択して表示する。
図15は、「下」という漢字と構文記号との組み合わせにより辞書検索プログラム31が辞書を検索してその結果を画面に表示した場合を示している。
(1)の場合は、「>下」として用いられており、「下」が目的語であるため、名詞のみを表示した場合を示している。(2)の場合は、「:下」として用いられており、「下」が動詞であるため、動詞の記述のみを表示した場合を示している。(3)の場合は、「下^」として用いられており、「下」が形容詞として使われているため、形容詞のみの記述を表示した場合を示している。
もし、ユーザが表示された品詞以外の意味を知りたい場合には、右側にあるスクロールボタンを押すことにより、S33,S34に示すように、他の品詞を記述をスクロール表示させることができる。
図16は、辞書に所望の意味だけが表示される仕掛けを持たせた場合を示している。図16は、辞書ファイル55の検索キーとして漢字と構文記号とを組み合わせて用いる場合を示している。
図17は、図16に示した辞書ファイル55を検索した結果、表示された画面を示している。図17は、図16のAの部分全てを表示するのではなく、図15に示す場合と同様に、構文記号で示された品詞のみの意味が表示されている。もし、他の記述もみたい場合には、スクロールボタンを押すことによりみることができる。
次善の辞書は、例えば、マイクロソフトのかな“漢字変換IME2000の辞書”に品種にかかわらず、全てを名詞として品種別に漢語を日本語の漢音で登録し、このユーザコメント欄に、品種名と品種毎の単語の意味を併記するものである。これを利用すれば、意味を知りたい漢字ないし熟語をハイライト(反転表示)後、マウスを右クリックしたときに現れてくるダイヤログボックスの中にある再変換の項を選択し、マウスを左クリックすれば、漢字ないし熟語に対応するユーザコメントがコンピュータの画面に出現する。上述のように、ユーザには、単語の意味が品詞別に記載されているので、単語の意味が一目にして把握できることになる。更に、ここで単語の意味を各国語で記述しておけば、まさに多言語で漢文が理解できることになる。
IME2000を利用した辞書では、IME2000という最寄の仕組みが利用できるので手軽である。しかし、“Babylon”方式の辞書に比較すると、IME2000を利用した辞書では、ハイライトとマウスのクリックが二段階になるので、効率が低下することはいなめない。
実施の形態2.
この実施の形態2では、実施の形態1で説明した漢記号文や記号文や辞書ファイルや各装置や各装置の部品・要素を用いた漢文解析支援装置について説明する。すなわち、この実施の形態2では、実施の形態1の説明を前提にして説明する。
図18は、この発明の漢文解析支援装置の実施の形態を示す図である。図18に示す漢文解析支援装置100は、中央処理装置やオペレーティングシステムを有する計算機101で実現可能なものである。以後説明する漢文解析支援装置の各部は、計算機のハードウエアでも実現できるし、ソフトウエアでも実現できるし、これらの組み合わせでも実現できる。
図18に示す漢文解析支援装置100は、漢文ファイル117から漢文を入力する漢文入力部201を備えている。ここで、漢文ファイル117に記憶されている漢文とは、漢文でもよいし、漢詩137でもよいし、漢記号文139でもよい。また、漢文ファイル117ではなく、電子メール119やネットワークのホームページ121から漢文を入力してもよい。さらに、ユーザが表示装置999のキーボード223やマウス221を用いて入力してもよい。
漢文解析支援装置100は、さらに、声調情報131を含む漢文の構文情報を記憶するルールベース111を備えている。
ここで、声調(聲調)とは、中国語の音韻学の用語であり、音節が担う高低昇降あるいは長短の音調をいう。特に、四声は、中国の六朝時代及び唐・宋時代の中国語に存在した4種の声調をいう。すなわち、平声(ひょうしょう)、上声(じょうしょう)、去声(きょしょう)、入声(にっしょう)がある。上声と去声と入声とは、まとめて仄声(そくせい)と呼ばれる。漢詩の韻律は、平声と仄声とにより定められている。また、現代中国語(北京語)にも、一声から四声までの4種の声調がある。詳細については、後述する。
漢文解析支援装置100は、漢字とその漢字に対応するひとつ以上のピンイン(PINYIN)133とを記憶する漢字辞書ファイル113を備えている。
ここで、ピンインとは、中国語・漢字の発音を表記するためのローマ字のことであり、例えば、子音と母音とを表わす26個のローマ字と4種の数字(例えば、1,2,3,4)により表現されるものである。漢字の読みを知らなくても、ローマ字表記されたピンインを見れば、ローマ字を読める者であれば、発音することができる。また、ピンインは、ローマ字漢字変換処理により、漢字入力処理にも用いることができる。
漢文解析支援装置100は、さらに、上記ルールベース111の構文情報を参照して漢字に声調情報131を付与するとともに上記漢字辞書ファイル113を参照して漢字にピンイン133を付与した漢情報文153を生成する漢情報文生成部203と、上記漢情報文生成部203が生成した漢情報文153を記憶する漢情報文ファイル209と、漢情報文ファイル209に記憶された漢情報文153を漢情報文表示領域109に出力する漢情報文出力部211とを備えている。
また、上記漢情報文生成部203は、上記ルールベース111の構文情報を参照して上記漢文入力部201が入力した漢文の構文を解析し構文解析結果に基づいて漢字に声調情報を付与する声調情報付与部205と、漢文の漢字の上記構文解析結果に合致したピンイン133を上記漢字辞書ファイル113から検索して漢字に付与するピンイン付与部207とを備えている。
また、上記漢情報文出力部211は、漢字と声調情報とピンインとの表示形式を変えて表示装置999の表示画面219に表示する。例えば、色分け表示、サイズ換え表示、フォント換え表示をする。上記漢情報文出力部211は、漢文ファイル117に記憶されている漢詩137や漢記号文139を漢情報文表示領域109に出力する。あるいは、上記漢情報文出力部211は、漢文入力部201が入力した漢詩137や漢記号文139を漢情報文表示領域109に出力する。
また、上記漢文解析支援装置100は、音声合成に必要な音声データを記憶した音声データベース115を備え、上記漢情報文表示領域109に表示された漢文や漢記号文の所定の範囲(発音させたい漢字)がキーボード223やマウス221を用いてユーザから指定された場合にあるいは他の方法により指定された場合に、その所定の範囲にある漢字に付与された声調情報とピンインとを用いてその所定の範囲にある漢字をスピーカ215から発音させ放送する発音部213を備えている。
また、上記漢文解析支援装置100は、上記発音部213が漢字を発音している間、発音している漢字をリアルタイムに他の漢字と異なる表示形式で表示する表示形式変更部217を備えている。たとえば、発音されている漢字を、色換え表示、反転表示をする。
漢文ファイル117、ルールベース111、漢字辞書ファイル113、音声データベース115、漢情報文ファイル209は、磁気ディスク、光ディスク、フレキシブルディスク、ランダムアクセスメモリ等のいずれかの記録媒体に記録されているものとする。
また、図示していないが、記録媒体には、オペレーティングシステムやウィンドウズ(登録商標)システムやブラウザプログラムや辞書検索プログラムやファイル管理プログラムやEメールプログラムやファイル転送プログラム等が記憶されているものとする。これらのプログラムは、計算機101の中央処理装置(CPU)により読み出されて実行される。
次に、ルールベース111について説明する。
ルールベース111には、漢文文法や漢詩規則が記憶される。また、声調情報131が記憶される。
ここでは、ルールベース111に記憶される漢詩規則(Rules of Poetry)について、以下の目次に従って説明する。
目次
1.基本共通事項
2.絶句
2.1 五言絶句
2.2 七言絶句
3.律詩
3.1 五言律詩
3.2 七言律詩
3.3 五言排律詩
1.基本共通事項
漢詩には、古詩、新体詩があり、この同類ともいうべき詩も加えると、大きく3つに分類される。ここでは、このうち厳格な韻律を持つ新体詩(近体)について論じる。新体詩は、絶句、律詩、排律詩に分類されると同時に、五言、七言、稀に六言の形式がある。さて、唐を含む漢字の発音は、次のように分類される。
(1)平声:平らかな発音
(2)上声:上がる発音
(3)去声:下がって上がる発音
(4)入声:下がる発音
上記の発音について、「平」、「仄」と称して、詩中の平と仄漢字をかなり厳格な規則で並べる。これを聲律という。かつ、必ず適宜韻を踏んで、詩にリズムを与えている。これを押韻という。それぞれの詩についての聲律と押韻の規則は、図20以下にまとめて説明するが、説明は全ての詩形式について図19に示すような記号を用いて行う。
図20は中古時代の発音と現代語の発音の比較図である。
図20において、注意すべきことは、中古時代(唐を含む)の発音と現代語の発音とでは、発音が異なることである。中古語では平声は1種類であったが、現代語では平声が2種類あり、1つを陰平、もう1つを陽平という。唐の後、平声の濁音が清音に変化したが、それらは陽平になった。また、入声がなくなった。
以上を踏まえて、中古語で平仄に留意することは、「高く平らかな平声」と「変化のある仄声」の対比に留意することである。つまり、抑揚・高低差からくる美しさを味わうことである。
これに対して現代語で平仄に留意することは、平声は長く、仄声は短く読むことのように聞こえる。つまり、平仄とは長短律であり、平は長く、仄は短くと、長短が2音毎に交互に並ぶ美しさを味わっているといえる。
2.絶句
絶句は、句を4つ持ち、それぞれ句は、五言ないし七言から構成されている。前者を五言絶句、後者を七言絶句という。六言絶句もあるが、稀であるので説明は省略する。
2.1 五言絶句
句はいずれも五言からなり、これらの句は次のように命名されている。
(1)起句:詩を起こす最初の句
(2)承句:起句を受ける句
(3)転句:論旨の転換をもたらす句
(4)結句:結びの句
そして、絶句では、起句と承句の一組、及び、転句と結句の一組という2つの構成単位からなっている。従って、聲律も句単位ではなく、この組単位で考慮する。
更に、五言絶句に関わらず、全ての近体詩は、他の国の詩にも見られる押韻の他に、聲律という独特の聲調(声調)の律則を持っている。この聲律と押韻の規則は次の通りである。
(1)「二四不同」であること、即ち、
(a)句の第二字と第四字の平仄が同じでないこと。
(b)対となる句の第二字と第四字の平仄が逆であること。
(2)韻字は一般に平。仄は極めて稀で考慮する必要はない。
(3)次の2つはタブーがある。
(a)弧平を忌む:仄で平を挟んで平を孤立させること。記号で書けば、「●○●」。
(b)下三連を忌む:下の三字が「平平平」又は「仄仄仄」となること。
(4)粘法を守る。即ち、平起、仄起を繰り返さないこと。
(5)第五字については、上記のように平聲韻が通常であるので、韻を踏む句では平、踏まない句では仄となる。
以上を遵守した形式を先に示した記号で書くと、図21のようになる。これ以外の形式も考えられるが、極めて稀なので省略する。
加えて、図21の図記号では表現できない次の禁忌事項がある。
(1)冒韻を忌む:韻文字、即ち、調子を取る文字をせっかく句末に用いても、句の途中に類似の発音の文字があると、韻文字の効力が阻害されるからである。
(2)同字重出を禁止する:同字に限らず、同義語の重出をも避けること。同じ文字を重ねて使用すると、詩句の中に同じ発音を重ねる結果となり、リズムに影響を及ぼすからである。
なお、この禁忌事項は、全ての近体詩に適用される。
2.2 七言絶句
五言絶句と七言絶句とは、平仄の組み合わせが共通で、五言絶句に上二字を追加したものが七言絶句であるといえる。但し、五言絶句の「二四不同」は、「二四不同二六対」となる。
七言絶句の場合は、起句に押韻することが基本で、押韻しない形式を殊に「踏み落とし」という。この場合は、起句と承句を対句にすることを条件とする。
起句に押韻することが一般であるのを除いては、五言絶句の規約はほぼそのまま七言絶句にも適用される。起句が韻を踏まない場合には、これに続く承句とを対句(後述)にする。
五言絶句と同様に構成を図示すると、図22のようになる。
図22に示したものは、一般に多く用いられている四形式であるが、この他に仄韻の詩もあるが作例は極めて少ない。
3.律詩
律詩にもやはり句が五言からなる五言律詩と七言からなる七言律詩の2種がある。六言律詩も作品はあるが極めて稀である。律詩は、通常八句からなり、五言の句からなるものを五言律詩、七言のものを七言律詩という。この2つが律詩の標準であるが、五言に限って十句以上の複数句を含む長編の律詩があって、これを五言排律詩という。これらの律詩は共通の説明が適用できるので、標準の八句の律詩を例にとってその構造を説明する。
さて、律詩には絶句における一句毎の命名はなく、奇数句と偶数句を一組として聯といい、これが律詩の構成単位となっている。聯は次のように命名されている。
(1)首聯:最初の二句からなる聯で起聯ともいう。
(2)頷聯:第三、第四の二句からなる第二番目の聯。前聯ともいう。
(3)頸聯:第五、第六の二句からなる第三番目の聯。後聯ともいう。
(4)尾聯:最後の二句からなる最後の聯。
律詩の重要な約束として、頷聯と頸聯とが必ず「対句」になっているということがある。対句とは、対杖、対偶などともいい、一組の二句が文法的構造を同じくし、内容的にもいろいろな対応関係を持つものをいう。
五言律詩と七言律詩の違いは、頭の二文字の違いと、五言は出句に押印しないのが「正格」で、七言律詩は首聯の出句に押印するのが「正格」である。
3.1 五言律詩
図23に、五言律詩の聲律と押韻を図示する。
3.2 七言律詩
七言律詩は、五言律詩の五文字に二文字を付け加えて、二文字+二文字+三文字の詩形である。また、上述のように、首聯出句に押韻するのが正格で、韻を踏むべき箇所に踏まない場合は、互いに対句にすることが行われる。これらを除いては、五言律詩の規約はほぼそのまま七言律詩にも適用される。
図24に、七言律詩の聲律と押韻を図示する。
3.3 五言排律詩
排律新体詩の中、絶句と律詩に属さない六句と十句以上の偶数句の詩をいう。但し、前二句と後二句は散句で、間に挟まれた句は全て対句でなければならない。即ち、六句ならば間の二句が対句、十二句ならば間の八句が対句である。
図25に、排律詩の聲律と押韻を図示する。
以下同様な旋律で増加し、詩のリズムは四句一纏まりで連続しており、二句ずつの単位、即ち、出句と落句で増えていく。
以上のように、ルールベース111には、図21から図25に示す文法規則が記憶されている。また、文法解釈、構文解釈、記号解釈に必要なデータが記憶されている。
また、図示していないが、ルールベース111には、他の漢詩や漢文のルールも記憶されているものとする。
また、ルールベース111には、実施の形態1で示した図5の文法記号とは異なるが、図26に示すようなこの実施の形態2における文法記号が記憶されている。ユーザは、この文法記号を表示画面からハイパーリンクによりいつでも参照することができる。
また、ルールベース111には、図27に示すように文法記号の英語翻訳が記憶されている。或いは、図示していないが、日本語(漢字)、韓国語、フランス語、ドイツ語等の他の国の言語に翻訳された文法記号もルールベース111に記憶されている。
次に、図18の漢文解析支援装置100の動作について説明する。
漢文ファイル117には、たとえば、漢詩137、或いは、漢記号文139が記録されている。漢詩137は、漢記号文作成部151により読み出され、漢記号文139に変換される。漢記号文作成部151は、実施の形態1で説明した漢記号文作成支援装置71又は漢記号文作成支援プログラム96により漢詩137を漢記号文139に変換する。漢記号文作成部151が変換した漢記号文139は、再び漢文ファイル117に記憶される。或いは、漢記号文139は、漢記号文作成部151から漢文入力部201に出力される。
漢文入力部201は、漢文ファイル117から漢記号文139を入力する。或いは、漢記号文作成部151から漢記号文139を入力する。又は、漢記号文139は、インターネット123を介して電子メール119として入力されても構わない。或いは、インターネット123を介して、ホームページ121からダウンロードしても構わない。
図28は、漢文ファイル117が記憶する漢詩137の一例である。
また、図29は、漢記号文139の一例である。
図29に示す漢記号文139は、図28に示す漢詩137に構文記号をつけた漢記号文である。漢文入力部201は、図29に示す漢記号文139を入力する。
次に、漢情報文生成部203は、漢記号文139に対して声調情報131を付与し、また、ピンイン133を付与する。漢情報文生成部203には、声調情報付与部205とピンイン付与部207がある。
声調情報付与部205は、ルールベース111を参照し、漢記号文139に対して漢詩の文法規則に則り、声調情報131を付与するものである。声調情報131には、一声から四声まであり、これを数字の1〜4として漢記号文139に付与する。
図30に示すピンインの右側にある1〜4の番号は、各漢字の声調情報である。番号「1」は、一声、番号「2」は、二声、番号「3」は、三声、番号「4」は、四声を示す。
次に、ピンイン付与部207は、漢字辞書ファイル113を参照し、漢字の読み(発音)が分かるピンイン133を各漢字に付与する。図30におけるローマ字で書かれた文字がピンイン133である。このピンイン133を付与することにより、日本人、或いは、外人が漢詩の発音をすることができる。また、声調情報131が付与されていることにより、発音時の抑揚を知ることができる。1つの漢字に対して複数のピンイン133が存在する場合には、ピンイン付与部207は、漢記号文139に付与されている構文記号を用いて、その漢字の品詞、或いは、漢詩規則等から判断し、漢字辞書ファイル113の中からその漢字の品詞にあったピンイン133を選択して付与する。
このようにして、漢情報文生成部203は、漢情報文153を生成して、漢情報文ファイル209に出力する。漢情報文ファイル209は、数多くの漢情報文153を蓄積することができる。
なお、声調情報付与部205とピンイン付与部207の処理はどちらが先に実行されてもかまわない。声調情報付与部205とピンイン付与部207の処理は、片方だけ実行されてもかまわない。
漢情報文ファイル209には、漢文ファイル117から漢記号文139を入力して蓄積してもよい。或いは、漢記号文作成部151から漢記号文139を入力して蓄積してもよい。又は、電子メール119として入力した漢記号文139やインターネット123を介してホームページ121からダウンロードした漢記号文139を蓄積しても構わない。
漢情報文出力部211は、漢情報文ファイル209に蓄積された漢情報文153をユーザに提供するものである。また、漢情報文出力部211は、漢情報文ファイル209に蓄積された漢記号文139をユーザに提供するものである。漢情報文出力部211は、漢文ファイル117から漢記号文139を入力して表示してもよい。或いは、漢記号文作成部151から漢記号文139を入力して表示してもよい。又は、電子メール119として入力した漢記号文139やインターネット123を介してホームページ121からダウンロードした漢記号文139を表示しても構わない。
図31は、漢情報文出力部211が表示画面219に対して漢情報文153を提供するメニュー画面を示している。
ここで、漢情報文出力部211の動作について説明する。
ここでは、漢情報文ファイル209が中日小中高校教科書に見られる漢詩の漢情報文153を多数記憶しているものとする。
図31は、ITで漢詩を楽しむため、漢情報文出力部211が中日小中高校教科書に見られる漢詩を表示装置の表示画面219の漢情報文表示領域109にメニュー表示した場合を示している。
この詩集の活用に当たっては、まず、メニューの詩の冒頭にある番号をキーボード223やマウス221でクリックすることにより、図32に示すような表示装置999の表示画面219が表示される。ここでは、漢情報文表示領域109に所望の詩の分析枠(図32の二重枠)が現れる。詩の分析は、この分析枠の中で行われている。分析枠の中には小枠があり、このうち黄色に塗りつぶされた部分(図では上部の横長枠)で表題、左下枠の第1枠の部分で漢記号文、右下枠の第2枠の部分で本文の分析が行われている。それぞれの枠は次のような内容になっている。
(1)第1枠には、漢詩を分かりやすくするために、漢詩に文法記号をつけた漢詩が置かれている(文法記号の意味については図26の文法記号を参照のこと)。
(2)第2枠には、漢詩のピンイン(Pinyin)と声調が記述されている。
(3)更に、図示していないが、第3枠を設けて実施の形態3において説明する図38のように漢詩の英訳を付してもよい。
(4)枠の外側上部に接して、漢詩の背景に関する短いコメントを付してもよい。
(5)枠の外側下部に接して存在するボタンには、漢詩中の地名や要解説単語(例えば、「夭夭」、「灼灼」など)が取り出され、これをクリックすれば、地名や要解説単語の解説がハイパーリンクにより現れるようになっている。
なお、詩人「詩経周南」のボタンをクリックすれば、詩人の解説が現れる。上記の解説の中でインターネットを使えるものには、インターネットにリンクされたボタンが対応しており、これをクリックすれば所望の解説がマルチメディアで得られる。詩の朗読については、「朗読」と記されたボタンをクリックすれば、音声データベース115のデータを用いて発音部213が動作して音声合成をして現在北京語あるいは古語による朗読がスピーカ215から聴取できる。発音中の漢字は、表示形式変更部217により表示がリアルタイムに変更されるので、ユーザは、どの漢字が発音されているかを知ることができる。また、ユーザがキーボード223やマウス221を用いて一文字以上の漢字や所定の範囲を指定した場合は、その漢字を発音部213はその指定された漢字のみを発音する。
また、分析枠の第2枠には、現在中国語の発音をPinyinで記述している。そして、新体詩については、ルールベース111の1つに記述された新体詩の規則を表現するため、例えば、規則を厳密に適用すべきPinyinは太字として表示する。平聲韻は黒字、仄聲韻は赤字として表示する。そして、原則に違反しているものはイタリックとして表示する。
中古語と現在語では、例えば、図33のように、若干の字で、主として、中古語(古)の「仄」から現在語(現)では「平」へ移ったものがあるが、概して規則違反の個所は少なく、現在中国語の発音でも近体詩の規則をよく守れることが分かる。
図34は、漢字のすぐ後にピンイン133と声調情報131を付与した場合の例を示している。
このように、漢字の直後にピンイン133が付与され、かつ、その直後に声調情報131が付与されることにより、その漢字の発音の状態を即座に知ることが可能になる。
なお、漢字とピンイン133と声調情報131の配置は、どのような順でもよいし、離れていてもよいし、まとめていてもよい。
この実施の形態2においては、漢記号文139に対して声調情報131とピンイン133を付与する場合を説明したが、漢詩137に対して声調情報131とピンイン133を付与するようにしても構わない。また、この実施の形態では、漢詩137と漢記号文139を用いる場合を説明したが、日本語、英語、韓国語、その他の言語に対して、その言語の単語の発音記号やアクセント記号等を付与するようにしても構わない。
図35は、図18に示した装置をクライアント・サーバタイプのシステムに変更したものである。
図35が図18と異なる点は、漢文解析支援装置100がサーバとして機能する点、及び、インターネット123を介して漢文解析支援装置100(サーバ)に対してユーザ端末装置800がアクセスすることによりユーザ端末装置800の表示装置の表示画面219に対して漢情報文153やその他の言語の情報文が表示されるようになることである。
このように、インターネットを介してサービスを提供することにより、不特定多数のユーザに対して、すなわち、外国人に対しても漢詩137、或いは、漢記号文139やその他の言語の情報文を自由に提供することができる。
以上のように、この実施の形態2によれば、漢文や漢詩にピンインと声調情報を付加して表示したので、表示された漢文や漢詩が規則に従って作成されたか否かの確認ができるという効果がある。さらに、色分け表示等により表示形式を変更しているので、さらに、表示された漢文や漢詩が規則が確認しやすいという効果がある。
また、漢文や漢詩に声調情報を付加してからピンインを付加すれば、声調情報に一致したピンインを付加することができ、正しい発音が学べるという効果がある。
また、漢文や漢詩にピンインと声調情報を付加して表示したので、一見して読みがわかるという効果がある。また、発音部により発音させることができるので、読みを確認することができ発音練習に役立てることができる。
また、漢字に対応したピンインを表示しているので、ピンインを用いて漢字検索や漢字入力が可能になるという効果がある。
また、漢文や漢詩を漢記号文で表示したので、構文がわかるとともに、主語、述語、目的語等単語の品詞がわかるという効果がある。
実施の形態3.
この実施の形態3においては、複数言語の記号文や自然文をサイドバイサイドに表示する場合について説明する。
この実施の形態3では、実施の形態1と2で説明した漢記号文や記号文や情報文や辞書やファイルや各装置や各装置の部品・要素を用いた異言語文処理装置について説明する。すなわち、この実施の形態2では、実施の形態1と2の説明を前提にして説明する。
図36は、この発明の異言語文処理装置の実施の形態を示す図である。
図36に示す異言語文処理装置500は、中央処理装置やオペレーティングシステムを有する計算機501で実現可能なものである。以後説明する各部は、計算機のハードウエアでも実現できるし、ソフトウエアでも実現できるし、これらの組み合わせでも実現できる。
図36に示す異言語文処理装置500は、第1言語(漢文)による第1言語文(第1言語記号文551(或いは、第1言語自然文553)、第1言語情報文561の少なくともいずれか1つ)を記憶する第1記憶部511と、上記第1記憶部511が記憶する第1言語文の翻訳文を第2言語文(第2言語記号文555、第2言語自然文557、第2言語情報文565の少なくともいずれか1つ)として記憶する第2記憶部513とを備えている。
例えば、異言語文処理装置500は、漢情報文を記憶する第1記憶部551と、上記第1記憶部が記憶する漢情報文に含まれる漢文を翻訳した第1言語文(漢文)の翻訳文を第2言語記号文(英記号文)として記憶する第2記憶部513とを備えている。
また、図36に示す異言語文処理装置500は、第1言語の単語を所定の構造で配置した文と、上記文の構造を示す構文記号とを備えた第1言語記号文551を表示画面219の第1表示領域621に表示する第1表示部601を備えている。
また、図36に示す異言語文処理装置500は、上記第1表示部601が表示する第1言語記号文551を第2言語の自然言語文に変換した第2言語自然文557を、第1言語記号文551と並べて上記表示画面に表示する第2表示部603を備えている。
また、上記異言語文処理装置500は、第1表示部601が表示する第1記憶部511に記憶された第1言語記号文551を入力し、入力した第1言語記号文551の第1言語の単語を第2言語の単語に変換して、第1言語記号文551を第2言語記号文555に変換し、変換した第2言語記号文555を第2表示部603に出力する記号文変換部605を備えている。記号文変換部605は、第1言語自然文553を入力してもよい。記号文変換部605は、第1言語記号文551又は第1言語情報文561を入力して第2言語情報文565を出力してもよい。
また、上記異言語文処理装置500は、第1表示部601が表示する第1記憶部511に記憶された第1言語記号文551を入力し、入力した第1言語記号文551を第2言語自然文557に変換して、変換した第2言語自然文557を第2表示部603に出力する自然文変換部607を備えている。自然文変換部607は、第1言語自然文553や第1言語情報文561を入力してもよい。
また、上記異言語文処理装置500は、上記第1表示部601が表示した記号文の所定の箇所が指定された場合に、上記第2表示部603が表示した文の上記所定の箇所に対応する箇所を他の箇所と異なる表示形式で表示する対応表示部613を備えている。
また、上記異言語文処理装置500は、音声合成に必要な音声データを蓄積した音声データベース115を備え、上記第1表示部601と第2表示部603とのいずれかが表示した文の所定の範囲が指定された場合に、その所定の範囲にある単語をスピーカ215から発音する発音部213を備えている。
また、上記異言語文処理装置500は、上記発音部が単語を発音している間、発音している単語を他の単語と異なる表示形式でリアルタイムに表示する表示形式変更部217を備えている。
また、上記異言語文処理装置500は、上記第1記憶部511に記憶された第1言語文の単語から第2記憶部に記憶された第2言語文の対応する単語へのポインタを記憶する単語対応ポインタ記憶部515を備えている。
上記表示形式変更部217は、上記第1記憶部511に記憶された第1言語文と第2記憶部513に記憶された第2言語文とを画面に表示中、第1言語文の単語が指定された場合に、上記単語対応ポインタ記憶部515に記憶されたポインタを用いて、指定された第1言語文の単語に対応する第2言語文の単語を判定し、判定した第2言語文の単語を他の単語と異なる表示形式で表示する。
第1記憶部511、第2記憶部513、単語対応ポインタ記憶部515、音声データベース115は、磁気ディスク、光ディスク、フレキシブルディスク、ランダムアクセスメモリ等のいずれかの記録媒体に記録されているものとする。
また、図示していないが、記録媒体には、オペレーティングシステムやウィンドウズ(登録商標)システムやブラウザプログラムや辞書検索プログラムやファイル管理プログラムやEメールプログラムやファイル転送プログラム等が記憶されているものとする。
次に、図36を用いて異言語文処理装置500の動作について説明する。
第1記憶部511には、第1言語記号文551及び第1言語自然文553が記憶されている。第2記憶部513には、第2言語記号文555及び第2言語自然文557が記憶される。記号文変換部605は、第1言語記号文551を入力し、第2言語記号文555に変換するものである。また、自然文変換部607は、第1言語自然文553を入力し、第2言語自然文557に変換するものである。単語対応ポインタ記憶部515は、記号文変換部605と自然文変換部607が変換を行う際に、変換された単語の対応関係を覚えている単語対応ポインタを記憶するものである。
図37は、第1記憶部511と第2記憶部513と単語対応ポインタ記憶部515の詳細を示す図である。
図37に示すように、第1記憶部511には、第1言語記号文551と第1言語自然文553が記憶されている。また、第2記憶部513には、第2言語記号文555と第2言語自然文557が記憶されている。図37においては、第2記憶部513に英語と日本語の翻訳文が記憶されている場合を示している。第2記憶部513には、第1言語記号文551と第2言語記号文555の各単語の対応関係が分かるように、各記憶部のアドレスが記憶されている。このアドレスは、各単語に対するアドレスである。第1言語自然文553と第2言語自然文557に対しても、各単語のアドレスが第2記憶部513に対応付けられて記憶されている。第2記憶部513には、漢記号文、或いは、漢文に対してそれぞれ英語と日本語の単語に対する対応付けがそれぞれなされている。
このように、第2記憶部513には、各単語毎に対応関係がアドレスというポインタにより記憶されているため、いずれか1個の単語を指定された場合には、それに対応する他の国の言語の単語が即座に分かるようになっている。
例えば、「我」に対しては、「I」と「私」が対応することがポインタでわかるようになっている。
第1表示部601は、第1言語記号文551の代わりに、実施の形態2で説明した漢情報文153を用いても構わない。図36において、実施の形態2で説明した漢情報文153は、第1言語情報文561として示されている。第1言語情報文561は、記号文変換部605により第2言語情報文565に変換される。なお、自然文変換部607は、第1言語記号文551や第1言語情報文561を入力して、第2言語自然文557を生成しても構わない。或いは、記号文変換部605は、第1言語記号文551を入力して、第2言語情報文565を生成しても構わない。その際、記号文変換部605には、実施の形態2で説明した漢情報文生成部203の機能が備わっているものとする。
第1表示部601は、第1記憶部511に記憶された文を表示画面219の第1表示領域621に表示するものである。一方、第2表示部603は、第2記憶部513に記憶された文を表示画面219の第2表示領域623に表示するものである。第1表示領域621と第2表示領域623は、左右隣同士、或いは、上下隣同士に表示されるものとする。
図38は、表示画面219に表示された第1表示領域621と第2表示領域623の一例を示す図である。
この例では、第1表示領域621に漢情報文153が表示され、第2表示領域623に英語の自然文が表示された場合を示している。また、この場合は、第1表示部601が第1記憶部511から第1言語自然文553を第1表示領域621の上部に表示した場合を示している。
ユーザは、マウス221、或いは、キーボード223を用いて第1表示領域621又は第2表示領域623に表示された文全体、或いは、一部分、或いは、一文字を任意に指定することができる。その後、「朗読」と記されたボタンをクリックすると、音声データベース115のデータを用いて発音部213が動作して音声合成が行われ、指定された範囲の文又は単語の音声がスピーカ215から放送される。その際、表示形式変更部217によりその発音されている漢字がハイライトされると同時に、対応表示部613によりそれに対応する他の国の言語の単語も同期してハイライトされる。ユーザは、発音を聞きながら、かつ、視覚的にどの単語が発音されているかを追うことができる。更に、他の国の言語における単語も同時に同期してハイライトされるために、どの文字とどの文字、どの単語とどの単語が対応しているかを容易に知ることができる。どの単語が対応しているかは、単語対応ポインタ記憶部515に記憶された単語対応ポインタを対応表示部613が検索することにより知ることができ、この検索した結果を対応表示部613が表示画面219に表示することにより、対応する部分がハイライトされることになる。
図39は、図38に対して更に他の国の言語の第2言語自然文557を併せて上下左右に表示した場合を示している。
図39の場合は、日本語、フランス語を併せて表示した場合を示している。これらの2カ国語の言語の表示は、第2表示部603により行われる。これらの他の国の言語が表示された場合も単語対応ポインタ記憶部515により単語の対応関係を記憶しているため、前述したように、ある単語の発音が行われる場合には、他の国の言語の対応する単語も同期してハイライト表示される。
図40は、第1表示部601が第1言語自然文553と第1言語情報文561を表示した場合を示している。また、第2表示部603が第2言語記号文555と2カ国語の第2言語自然文557を表示した場合を示している。
以上のように、表示画面219には、第1言語記号文551と第1言語自然文553と第1言語情報文561が任意に表示でき、かつ、第2言語記号文555と第2言語自然文557と第2言語情報文565が任意に表示でき、これらを選択的に組み合わせ表示することができる。どのように組み合わせられた場合においても、発音部213が指定された部分を発音する場合に、表示形式変更部217と対応表示部613と単語対応ポインタ記憶部515により対応する単語がハイライト表示される。なお、表示形式変更部217と対応表示部613は、対応する単語をハイライト表示するばかりでなく、色を変えたり、サイズを変えたり、反転表示にしたり、その他いろいろの表示形式を用いて視覚的に他の単語と差があるような表示を動的に行うようにすることができる。
図41は、図36に示した装置をサーバ・クライアント型タイプのシステムに変更したものである。
図41が図36と異なる点は、インターネット123を介して、ユーザ端末装置800が異言語文処理装置500に対して接続される点である。このように、不特定多数のユーザ端末装置800がインターネット123を介して異言語文処理装置500に接続されるような環境を作成することにより、多くのユーザ及び外国人がこのシステムを利用することができる。
図41に示したサーバ・クライアント型タイプのシステムによれば、ユーザが漢字を直接理解できない場合には、英語や日本語やフランス語への言語変換を行い、自国語で内容を理解することができるようになる。
また、各装置が国境を越えて設置されていても、このシステムにおいては、漢記号文という人為的に考えられた言語が共通の言語として用いられており、母国語が異なっていても互いにコミュニケーションを図ることができる。
このように、漢記号文は、ハブ言語として用いることができることになる。
以上のように、この実施の形態3によれば、第1言語文と第2言語文とを並べて表示するので、同時に複数言語の学習ができるという効果がある。
また、漢文や漢詩を記号文で表示したので、各言語の構文がわかるとともに、主語、述語、目的語等単語の品詞がわかるという効果がある。
さらに、第1言語記号文から第2言語記号文へ、あるいは、第1言語情報文から第2言語情報文へ、あるいは、第1言語記号文から第2言語自然文へ自動変換するので、人手の翻訳作業なく複数言語の学習ができるという効果がある。
また、第1言語文と第2言語文との間の対応語がわかるように、色分け表示等表示形式を変更しているので、さらに、複数言語の学習ができるという効果がある。
表示された漢文や漢詩の規則が確認しやすいという効果がある。
また、漢文や漢詩にピンインと声調情報を付加して表示したので、一見して読みがわかるという効果がある。また、発音部により発音させることができるので、読みを確認することができ発音練習に役立てることができる。
また、漢字に対応したピンインを表示しているので、ピンインを用いて漢字検索や漢字入力が可能になるという効果がある。
実施の形態4.
この実施の形態4では、実施の形態1と2で説明した漢記号文(記号文)や漢情報文(情報文)を翻訳する翻訳プログラムについて説明する。
この実施の形態4で説明する翻訳プログラムは、例えば、実施の形態1で説明した単語翻訳部85と単語翻訳部46と実施の形態3で説明した記号文変換部605に用いることができる。或いは、単独の翻訳プログラムとして市販することができる。
この実施の形態4で説明する翻訳プログラムは、磁気ディスクや光ディスクやフレキシブルディスク等の記録媒体に記録されて計算機の中央処理装置やオペレーティングシステムにより読み出され実行されるものである。
また、中央処理装置やオペレーティングシステムを有する翻訳専用機や携帯電話や計算機で実現することもできる。すなわち、翻訳ソフトウエアプログラムは、プログラムに限らず、ハードウエアのみでも実現できるし、ソフトウエアのみでも実現できるし、これらの組み合わせでも実現できる。
図42は、翻訳プログラム900のフローチャートである。
翻訳プログラム900は、第1言語の単語を所定の構造で配置した文と、上記文の構造を示す構文記号とを備えた第1言語記号文551を第1記憶部511から入力する入力処理901をコンピュータに実行させるものである。
また、入力処理901は、第1言語記号文551を表示装置999に表示する。
また、翻訳プログラム900は、第1言語記号文551の第1言語の単語を第2言語の単語に変換して、第2言語の単語を所定の構造で配置した文と、上記文の構造を示す構文記号とを備えた第2言語記号文555を生成する翻訳処理903をコンピュータに実行させるものである。
さらに、生成した第2言語記号文555を第2記憶部513に記憶する出力処理905をコンピュータに実行させるものである。
上記翻訳処理903は、第1言語記号文551の構文記号を参照して、構文記号の示す構文に合った単語を辞書ファイル55から選択して翻訳をする辞書検索処理911をコンピュータに実行させる。
辞書ファイル55には、第1言語から第2言語への翻訳辞書が記憶されている。辞書ファイル55としては、例えば、図16に示したような、辞書の検索キーとして漢字と構文記号とを組み合わせて用いる辞書を用いることが望ましいが、通常の中日辞書、中英辞書等を用いてもかまわない。
また、上記翻訳処理903は、構文記号の位置と単語の位置とを変えずに第1言語の単語を辞書検索処理911により検索された第2言語の単語に置き換えて第2言語記号文555を出力する単語置換処理913をコンピュータに実行させる。
さらに、翻訳処理903は、言語文法に応じて、単語の配置を変更する単語配置変更処理915を実行するようにしてもよい。たとえば、単語置換処理913で、漢記号文「我:読>本」は、日記号文「私:読む>本」となるが、単語配置変更処理915により、「本」と「読む」の配置を入れ替えて、日記号文「私:本>読む」を生成する。すなわち、単語配置変更処理915は、日本語の文法である「主語、述語、目的語」の配置順番と一致させる処理をする。
また、翻訳処理903は、言語文法に応じて、構文記号の配置を変更する構文記号変更処理917を実行するようにしてもよい。たとえば、単語置換処理913で、漢記号文「我:読>本」は、日記号文「私:読む>本」となるが、構文記号変更処理917により、「:」の位置を替えて、日記号文「:私読む>本」を生成する。この場合、構文記号変更処理917は、各単語の前に構文記号を置き、次にある単語の品詞を先に知らせる処理をする。
なお、入力する記号文の構文記号の位置は、単語の前でも後でもかまわない。翻訳ソフトウエアプログラムにより変更してもかなわない。特に、翻訳ソフトウエアプログラムが解析するのに、楽な順に配置されることが望ましい。或いは、構文記号の位置は当該言語の文法から判りやすい順であることが望ましい。
また、構文記号の記号自体を、変更できるようにしておくのが望ましい。翻訳ソフトウエアプログラムが特殊な記号を使用する場合があり、これらの特殊な記号と構文記号が重なることを防ぐためである。
また、漢記号の位置は品詞により変えてもよい。例えば、主語を示す漢記号の位置は名詞の前でも後でもよい。また、形容詞を示す漢記号の位置は形容詞と形容される名詞の間がよい。
出力処理905は、第2言語記号文555を第2記憶部513に記憶する。また、第1言語記号文551と第2言語記号文555を表示装置999に表示してもよい。
次に、翻訳プログラム900の特徴について説明する。
人間は、生まれてから2〜3年で言葉を話し始めるが、それは生まれてから2〜3年で簡単な文法をマスターしてしまうことを意味する。この実施の形態で用いる漢記号文や漢情報文に用いられている構文記号は、これら生まれてから2〜3年でマスターできる文法を記号化したものである。むしろ、複雑な文法を積極的に排除し簡単な文法にとどめているといえる。翻訳プログラム900が、このような漢記号文や漢情報文の単語を他の言語の単語にそのまま翻訳するということは、文章の意味を踏まえた厳密な翻訳をしないことを意味する。すなわち、厳密な翻訳をしようとして作成した翻訳文がかえって自然な文からかけ離れて不自然な文になることを防いでいる。例えば、ある単語を「において」と訳すか、又は、「について」と訳すかを厳密に判断して、間違うよりは、「において」と訳すか、又は、「について」と訳すかについては、読み手が単語と文法から主観的に判断すればよいことである。すなわち、読み手に単語と文法がわかれば、後は、読み手の解釈に任せたほうがよい翻訳になるのである。
この実施の形態の翻訳プログラム900は、従来の翻訳機や翻訳プログラムと比べて、構文記号を用いて記号文の単語のみを置換する翻訳をしている点で従来と異なるものである。
実施の形態5.
図43は、この実施の形態5の翻訳プログラム900を示すフローチャートである。
この実施の形態では、特に、翻訳に向いている言語記号文について翻訳プログラム900が翻訳する場合について説明する。
図43において、図42と異なる点は、逆翻訳入力処理906と逆翻訳処理907と逆翻訳出力処理909を設けた点である。また、辞書ファイル55には、第2言語から第1言語への翻訳辞書が記憶されている点である。
逆翻訳入力処理906は、出力処理905が出力した第2言語記号文555を入力する。逆翻訳処理907は、辞書検索処理911と単語置換処理913により辞書ファイル55を用いて第2言語記号文555を逆変換する。即ち、第2言語記号文555の単語を第1言語の単語に翻訳するトランスレーションバックの処理を行う。逆翻訳出力処理909は、逆翻訳処理された記号文を逆翻訳記号文599として第3記憶部591に出力する。
なお、翻訳処理903と逆翻訳処理907とは、図43に示すように、同じ処理をするものであり、同一ルーチンを用いることができる。
出力処理905は、第2言語記号文555を表示装置999に出力するとともに、逆翻訳出力処理909は、逆翻訳記号文599を表示装置999に出力する。また、入力処理901は、第1言語記号文551を表示装置999に表示する。なお、これらの表示処理は、出力処理905や逆翻訳出力処理909がまとめて行ってもよい。
このようにして、第1言語記号文551と第2言語記号文555と逆翻訳記号文599と並んで左右、或いは、上下に表示して互いに比較することができる。第1言語記号文551と逆翻訳記号文599は、同一の言語による表示であるので、ユーザは、第1言語記号文551と逆翻訳記号文599を比較して第2言語記号文555の翻訳文が正しい翻訳であるかを想像することができる。もし、ここで、正しい翻訳でないと想像される場合には、ユーザは、人手により単語の修正を行うことができる。この修正は、表示装置999及びキーボードやマウス及び表示装置999の単語修正ルーチン、或いは、辞書の持つ類似単語検索処理によって行われる。
図44は、この実施の形態5が用いる文法記号を示す図である。
図44において、丸1は動詞を示すが、動詞句又は形容詞をとることもある。また、図44において、丸2は名詞を示すが、名詞句又は名詞節をとることもある。また、丸3は接続詞を示し、丸4は関係詞を示す。
この文法記号で特に特徴となる点は、世界の多くの言語が用いている共通文法のみの文法規則を記号化した点である。即ち、世界に共通する文法のみを取り出し、単純化したものである。複雑な構文や複雑な文法や長文を表すものではなく、単純明快な文法のみを記号化したものである。すなわち、文法が完全にわかる構文記号を用いている。換言すれば、翻訳しやすい記号を用いている。
この実施の形態5では、図44に示した文法記号を用いたものを、情報文と呼んでも構わないが、以下、記号文と呼ぶことにする。特に区別する必要がないときは、前述した情報文を、或いは、後述する情報文を記号文と呼ぶことにする。
実施の形態5の記号文と図44に示す文法記号の特徴は以下のとおりである。
1.複数言語に共通の文法のみを記号にしている。
2.記号の種類が少ない。複雑な文法を排除して翻訳しやすくするためである。
3.記号を単語の前に置くことが多い。記号が先におくことにより翻訳しやすくするためである。
4.記号に優先度がある。記号の優先度により翻訳しやすくするためである。
5.単語には、原形、現在形を使う。翻訳しやすくするためである。
例えば、この文法記号のいくつかの例として以下の述べる。
「高^山」は、「高い山」を示す。
「*鳴」は、「鳴く」を示す。
「$鳥*鳴」は、「鳥が鳴く」を示す。
「〔文〕」は、節を示す。
「聞>〔*鳴<$鳥〕」は、「鳥が鳴くのを聞く」を示す。この場合、主語$鳥が後置されているが、記号が付いているので問題はない。特に、「*鳴<」は、主語の状態を示す。
「@〔文〕」は、〔文〕が副詞節であることを示す。
「¥〔文〕」は、〔文〕が第1主題であることを示す。
「〔文〕^山」は、「〔文〕」が「山」を修飾することを示す。
「|若〔文〕山」は、「もし、〔文〕の山ならば」を示す。
この文法記号は、結合の優先度を持っている。その優先度の順位は、以下に示す通りである。
第1優先度:スペース
第2優先度:〔〕
第3優先度:&
第4優先度:^
第5優先度:その他のマーク
この優先度も翻訳がしやすいように付けられた優先度である。
翻訳プログラム900は、図44に示した文法記号を翻訳プログラムの内部に保持する。或いは、文法記号は、メモリにファイルとして記憶される。翻訳プログラム900は、文法記号を用いて翻訳処理903を行う。ここで、辞書検索処理911は、単語を用いて辞書辞書ファイル55を検索するが、辞書ファイル55の中に複数の翻訳候補があった場合には、単語と文法記号をセットにして辞書ファイル55を検索し、単語が一意になるようにする。単語置換処理913は、単語を置換するが、その場合には現在形、即ち、原形で置換する。過去形、未来形は用いない。従って、置換された後の翻訳文は、全て原形、現在形でできたものである。
もし、翻訳処理903で一意に単語が決まらない場合には、何らかの単語を選択して置換することになる。逆翻訳処理907は、このようにして置換された単語を再び元の母国語に戻す処理をする。このように、元の母国語に戻して表示することにより、トランスレーションバックされる前と後の母国語の記号文を比較することができ、翻訳が正しかったかどうかを判定することが可能になる。
このように、逆翻訳処理907があるので、翻訳ミス、或いは、意味不明の翻訳が生じた場合でも修正が可能になる。
なお、図43においては、中国語から英語に翻訳し、英語から中国語に逆翻訳する場合を示しているが、中国語から英語へ、英語から仏語へ翻訳し、仏語から中国語に翻訳する等、他の言語を複数、間に挟んで数段階の翻訳を順にしてから母国語にトランスレーションバックを行うようにしても構わない。大事なことは、トランスレーションバックしたものが元の第1言語記号文551と同じ母国語にトランスレーションバックされることである。
この実施の形態5においては、文法記号を幼児、或いは、ホモサピエンスが子供の頃から人種に拘わらず共通に理解する程度の数少ない基本的な文法に限っており、かつ、単語を全て原形、或いは、現在形に限っているため、翻訳プログラム900の翻訳が非常に正確になるという効果がある。翻訳プログラム900は、文法を解析したり、単語の意味や文の意味を解析する必要はないので、誤訳をしてしまうことが少なくなる。表示された翻訳記号文は、その国の言語の現在形と原形の単語及び文法記号から構成されており、非常に分かりやすいものである。また、文法記号があるおかげで、修飾語や主語や目的語が分かるため、どのような意味を持っている文章かは容易に想像することが可能である。
入力される第1言語記号文551を準備するためには、予め自然言語文から第1言語記号文551へ人間が変換しても構わないし、或いは、ある規則を持って自動的に自然言語文を第1言語記号文551へ変換するようにしても構わない。この場合、単語の配置位置や配置順を変えてもよい。
翻訳プログラム900に、実施の形態1で説明した単語翻訳部85と単語翻訳部46と実施の形態3で説明した記号文変換部605と実施の形態4で説明した翻訳プログラム900の機能を持たせてもよい。また、第1言語記号文551、第2言語記号文555、逆翻訳記号文599とともに、自然言語文の翻訳文を作成して併せて表示するようにしても構わない。
図45は、この実施の形態の表示装置999に表示される画面表示例である。
中国語記号文705は、この実施の形態の第1言語記号文551の一例である。中国語記号文705は、漢情報文153の漢字の配置順を変えている。配置を換えているのは、翻訳プログラム900が翻訳しやすいようにするためである。このように配置換えがあっても記号が付与されているために、人間には理解することができる。配置換えの規則として、例えば、以下のようなものが、考えられる。
1.動詞を主語の後に配置する。
2.目的語を動詞の後に配置する。
3.記号の結合優先度にしたがうように漢字を配置換えする。
これらの配置換えは、人手で行えるし、翻訳プログラム900が漢詩・漢文を入力し自動で行ってもよい。
図46,図47,図48に示す英語記号文711、仏語記号文721、独語記号文731は、それぞれ第2言語記号文555の例である。
図45から図48は、別々に図示しているが、図45から図48に示す中国語記号文705、英語記号文711、仏語記号文721、独語記号文731は、全て表示装置999に上下に表示されるものである。また、図45から図48には、翻訳プログラム900による日本語自然文709、英語自然文713、仏語自然文723、独語自然文733が自然言語の翻訳例として示されている。これらも全て表示装置999に上下に表示されるものである。
図49から図52は、この実施の形態5の他の画面表示例である。
図49から図52に示す中国語記号文705、英語記号文711、仏語記号文721、独語記号文731は、表示装置999の1つの画面に上下に表示されるものである。また、翻訳プログラム900による日本語自然文709、英語自然文713、仏語自然文723、独語自然文733が自然言語の翻訳例として示されている。
なお、中国語記号文705から英語記号文711、仏語記号文721、独語記号文731を翻訳して出力しても構わないし、中国語記号文705から英語記号文711を出力し、英語記号文711を翻訳して仏語記号文721にし、仏語記号文721を翻訳して独語記号文731にしても構わない。これらの翻訳順序は自由である。
なお、図示していないが、逆翻訳処理907により英語記号文711、仏語記号文721、独語記号文731のいずれかから再び中国語の逆翻訳記号文599を作成して同一画面に表示することにより、英語記号文711、仏語記号文721、独語記号文731への翻訳精度が高いものかどうかを判定することができる。翻訳精度が低い場合には、中国語記号文705の単語を変えてみたり、或いは、英語記号文711、仏語記号文721、独語記号文731の単語を自らエディタを使って修正すればよい。
実施の形態4、5の翻訳プログラム900のように、単語のみの翻訳をしても、人間は、単語と記号を知っていれば、その意味を理解することができる。すなわち、翻訳プログラム900は人間の想像力、理解力を前提にして、翻訳プログラム900は単に機械的に単語翻訳すればよいことになる。しかし、翻訳プログラム900は、単なる単語置換プログラムではない。構文記号を用いて、単語の品詞を知ることにより、正しい単語翻訳ができる点が特徴である。例えば、「美」を、名詞ととるか、形容詞ととるかは、記号により分かるのである。「美^」のように修飾記号「^」があるので「BEAUTY」という名詞ではなく、「BEAUTIFUL」という形容詞の単語に翻訳することができる。
このように、翻訳プログラム900の特徴は、従来の翻訳プログラムが厳密なかつ完璧な翻訳をめざすことにより生じるミスを完全に取り除いた点にある。従来の翻訳プログラムは翻訳する文章の背景や行間の意味をわからないまま翻訳するから間違った翻訳になるのである。この実施の形態4、5の翻訳プログラム900のように、単語のみ正確に翻訳すれば、人間は単語と記号からその文の意味とその文章の背景や行間の意味を頭の中で考えることができ、人間の主観に依存している点はあるが、結果として、全体として意味のあるかつ矛盾していない非常に柔軟性にとんだ翻訳を得ることができるのである。
実施の形態4、5の翻訳プログラム900は、ネットワークを介したシステムで実行されるの場合でもよい。また、ネットワークが存在しない情報管理サーバ1台のパーソナルコンピュータにおいて実行される場合であっても構わない。
また、前述した例において、サーバにある機能を、1台のサーバで実現するのではなく、複数のサーバに分けて行っても構わない。
図53は、サービスプロバイダサーバコンピュータ751に翻訳プログラム900を配置するとともに、パーソナルコンピュータ765に翻訳プログラム900を配置した図である。
パーソナルコンピュータ761が中国語記号文705をサービスプロバイダサーバコンピュータ751に送る場合に、翻訳フラグ769を付して電子メール電送を行う。翻訳フラグ769は、この中国語記号文705を英語に翻訳することを指示する情報が記されている。サービスプロバイダサーバコンピュータ751の翻訳プログラム900は、中国語記号文705を受け取ると、翻訳フラグ769に示された言語に翻訳する。この場合は、英語に翻訳し、その結果作られた英語記号文711を中国語記号文705の電子メールの宛先であるパーソナルコンピュータ763に電子電送する。
このようにして、パーソナルコンピュータ763のユーザは、英語による英語記号文711を取得し内容を理解することができる。
一方、パーソナルコンピュータ765においては、翻訳プログラム900が備えられているので、仏語記号文721を独語記号文731に翻訳し、独語記号文731を電子メールで転送する。パーソナルコンピュータ767は、独語記号文731を受け取る。この場合は、仏語に翻訳された独語記号文731を受け取り、内容を理解することができる。
このように、翻訳プログラム900をサービスプロバイダサーバコンピュータ751に配置したり、パーソナルコンピュータ765に配置することにより、異なる言語を用いる者同士が互いに相手の言語を理解しなくても文通をしたり、電子メールの転送をしたりすることが可能になる。
なお、翻訳プログラム900のアルゴリズムは、言語が変わっても同一であり、言語が異なる場合には唯一辞書ファイル55を他の国の言語の辞書に変えればよい。辞書ファイル55は、サーバからいつでもダウンロードできるようにしておけばよい。このように、翻訳プログラム900は汎用性があり、言語に依存することがなく、世界中に同一のプログラムを配布することが可能である。
このように、実施の形態4、5の翻訳プログラム900を用いれば、各国語の単語に記号を付与することにより、その記号文は、世界中に理解されることになる。従って、記号文は、世界共通言語として使用される。記号文や情報文は、HTML(ハイパーテキストマークアップランゲージ)が世界共通のウェブ言語になっているのと同じように、世界共通仕様言語になることを意味する。
次に、実施の形態4と5とを組み合わせた上記異言語文処理装置の応用例を説明する。
図54と図55は、表示部999に表示された応用例を示している。
この特徴は以下のとおりである。
1.表示部999に表示する表計算ソフトウェアのセルに一つの漢字とこれまで説明した文法記号を前置(]は後置)したものを入れる。
2.図54と図55の上段に示すように、上記のセルの真上に、漢字のピンインのセルを置く。
3.図54と図55の中段に示すように、上記のセルの真上に、漢字の英訳のセルを置く。
すなわち、図54と図55の中段では、第1言語の漢字(複数一組になる場合がある)と、第1言語の漢字を翻訳した第2言語(英語を代表とする屈折語)の単語の原型を、漢情報文のピンインの代わりに配備した漢―第2言語情報文を表示している。「葡萄」のように漢字が複数で一組になる場合は、「grape」のように英単語一語にして、「葡萄」の上に表示する。
図54と図55の効果は、配列がきれいになること、及び、ピンインの行だけが見られるので朗読とピンインが対比しやすいこと、などである。また、第2言語(英語を代表とする屈折語)の行だけが見られることである。
なお、文法記号は“^”を“^”と“_”に分割し、前者は前述した意味同じだが、後者を直前の漢字と一単語を形成するほどの修飾関係とした。
以上のように、図54と図55では、異言語間文処理装置において、第1言語の漢字(複数一組になる場合がある)の第2言語(英語を代表とする屈折語)の単語の原型への翻訳を漢情報文のピンインの代わりに配備した漢―第2言語情報文を表示する表示部を備えたことを特徴とする。
なお、漢情報文を中国語の自然言語文に変換した中国語自然文を画面に表示する表示部を備えるようにしてもよい。
また、上記異言語文処理装置は、さらに、上記漢−第2言語情報文の第2言語を抽出し、これに若干の第2言語の単語を付加して、漢文と同数同行の単語を有する第2言語記号文を出力し、画面に表示するようにしてもよい。
また、上記異言語文処理装置は、さらに、第2言語記号文を入力し、入力した第2言語の記号文をまず第2言語の代表である英語の自然文に、続いて、世界各国の屈折語の自然文に変換して、変換した自然文を特定表示部に出力する自然文変換部を備えるようにしてもよい。
また、上記異言語文処理装置は、さらに、漢記号文の所定の箇所が指定された場合に、上記表示部が表示した文の上記所定の箇所に対応する箇所を他の箇所と異なる表示形式で表示する対応表示部を備えるようにしてもよい。
また、上記異言語文処理装置は、さらに、漢記号文を入力し、入力した漢記号文に基づいて漢字(複数一組の場合がある)に助詞と語尾変化などを付けて語順を変えることのよって日本語の自然文に変換して、変換した自然文を特定の表示部に表示する自然文変換部を備えるようにしてもよい。
また、上記翻訳プログラムは、さらに、上記異言語文処理装置により出力された第2言語(英語)の自然文と中国語の自然文と日本語の自然文を入力する自然文入力処理と、
上記自然文入力処理により入力した第2言語(英語)の自然文を中国語及び/又は日本語に直接翻訳する自然語翻訳処理により生成した中国語自然文と日本語自然文を第3記憶部に記憶する翻訳出力処理と、
上記第1記憶部から入力した第1言語記号文と第2言語自然文から翻訳され第3記憶部に記憶した中国語自然文と日本語自然文の各種自然文と第1言語記号文と同じ画面上に表示する処理とをコンピュータに実行させるようにしてもよい。
また、上記翻訳プログラムは、さらに、第2言語(英語)の自然文を入力する自然文入力処理と、
上記自然文入力処理により入力した第2言語(英語)の自然文を中国語及び/又は日本語に翻訳し、生成した中国語自然文と日本語自然文を第3記憶部に記憶する翻訳出力処理と、
上記第1記憶部から入力した第1言語記号文と第2言語の自然文から翻訳され第3記憶部に記憶された中国語及び/又は日本語の自然文とを第1言語記号文と同じ画面上に表示する処理とをコンピュータに実行させるようにしてもよい。
以上のように、前述した各実施の形態において、主として、漢文、漢詩を用いる場合について説明したが、英語、日本語、韓国語等の他の言語に対して、構文を示す構文記号を付与するようにして、ハブ言語として用いるようにしても構わない。漢文を用いる利点は、漢字を理解する人口が多いこと、及び多くの人が知っている英語と漢文の文法が似ていることである。英語よりも、むしろ漢字を理解する人口の方が多いことを考えると、漢文をハブ言語として用いた方が望ましいし、また、仮に世界共通言語とならなくても、少なくとも、アジア地域の人々に対しても地域的ハブ言語として用いることが可能になる。
また、前述した各実施の形態において、漢文、漢記号文、漢情報文は、第1言語自然文、第1言語記号文、第1言語情報文の一例であり、日本語、韓国語、英語等の他の言語であっても構わない。
また、前述した各実施の形態において、構文記号は、漢字と漢字の間に挿入されるものであった。或いは、漢字に付加されて、その漢字の品詞を示すものであった。また、キーボードから入力できる1文字の記号を用いていた。
このように、キーボードから入力できる情報管理サーバ1文字の記号を用いているのは、構文記号を自ら入力する場合に、入力しやすいためである。しかし、構文記号は、前述したように、キーボードの漢字に使われない記号以外にも、例えば、下線、上線を用いてもよい。また、、反転文字を用いてもよい。また、文字の色を変えてもよい。また、文字のフォントを変えてもよい。また、文字の高さや幅を変えてもよい。
このように、構文記号とは、情報管理サーバ1文字として表されるものばかりではなく、視覚的にみて他の文字と差がでるような表示が行える制御記号であっても構わない。制御記号自身は、表示画面には視覚的に表示されない。構文記号とは、その制御記号があるおかげで表示される文字が他の文字と区別されて表示できるものであれば、どのような記号であっても構わない。
また、前述した各実施の形態において、「〜装置」、「〜部」として説明したものは、ハードウエアで実現することもできるし、ソフトウエア(プログラム)で実現することもできるし、ハードウエアとソフトウエア(プログラム)との組み合わせで実現することもできる。ソフトウエア(プログラム)で実現される場合は、これらのソフトウエア(プログラム)は、コンピュータで読み取り可能な記録媒体に記録されて保持される。
以上の説明では、次の内容を含んでいる。
(1)繁体字で書かれた漢文と簡体字で書かれた漢文との併記
(2)漢文の自動発音装置
(3)上記漢文内にある固有名詞や漢字の漢字辞書への各種のリンク
(4)上記漢文の背景の説明
(5)漢文の漢字に構文構造を示す記号とピンインを付与した漢情報文の記述
(6)上記漢情報文のピンインの代わりに漢字の英語訳を辞書にある原型のままで付与した漢英情報文
(7)上記漢情報文から英単語を取り出し、これに若干の英単語を付加し、上記構文記号をつけた英記号文の作成と記述
(8)漢情報文から中国語自然文への変換処理と処理結果の記述
(9)漢英情報文から日本語自然文への変換処理と処理結果の記述
(10)英記号文から英語自然文への変換処理と処理結果の記述
(11)英語自然文から日本語自然文への変換による両自然文のチェック
(12)日本語自然から中国語自然文への翻訳と両自然文のチェック
(13)チェックされた英自然文からフランス語、ドイツ語への自動翻訳
なお、漢文と現在の中国語は、漢文と日本語との相違と同程度に相違する。また英語は国際標準言語と考えている。
なお、米国のインターネット上に漢詩の紹介があるが、文法記号がついたもの、漢字とピンインを対にしたもの、詩集上で詩にまつわる地理や百科を紹介したもの、新体漢詩の規則を紹介したもの、この規則を色で漢詩中に示したもの、各国語を付したもの、英語の5 words poemsへ変換したものは見当たらない。
以上の各実施の形態で説明したように、「漢詩」について、漢記号文への変換及びコンピュータによる対応を進めることにより、以下のような効果をもたらし、一部の専門家的愛好者から一般人へと愛好者の数を急激に増加させることが可能となる。
1.「漢詩」を漢記号文へ変換すれば、文法・構文が分かりやすく、読みやすくなる。
2.「漢詩」をコンピュータコード化すれば、ハイパーリンクの活用で「漢詩」の意味の検索が極めて容易となり主体的解釈が可能となる。
3.マルチメディアの活用で「漢詩」の理解に必要な具体的背景が実感をもって理解可能となる。
4.ハイパーリンクの活用で歴史・地理の知識の検索が容易になる。
5.リレーショナルデータベースに収納すれば多次元的観点からの検索や分類が可能である。
要するに、コンピュータの活用で「漢詩」がわれわれに親しみのあるものに変身する。
また、各実施の形態によれば、漢文中に文法や構造を表す構文記号を付して漢記号文としたので、漢文を容易に理解することができる。
また、漢記号文から他の記号文や自然言語への翻訳変換を容易に行うことができる。
また、自然言語によるコミュニケーションには限界があり、また、自動翻訳にも限界があるのに対し、漢記号文を用いることにより自動翻訳、或いは、機械翻訳が容易になるという効果がある。
また、漢字は表意文字であり、表音文字(アルファベット)で作られる単語よりも理解しやすいという効果がある。
また、表意文字である漢字を用いる方が表音文字であるアルファベットを使用するときよりも、データの通信量及びデータの格納量が少なくて済むという効果がある。
また、漢記号文を用いる場合には、漢文という文語的自然言語を基礎にして作った人為言語である漢記号文を用いているので、コミュニケーション言語として充分に機能するという効果がある。
また、ピンインまたは声調を付したので、発音することができるという効果がある。
また、記号文、情報文を翻訳することにより、世界中で文通ができるという効果がある。
漢文では、一語一語が正確に発音されておれば、全体として正確な朗読となるので、コンピュータによる自動朗読が可能である。
また、漢字1つに対して英単語が1つ対応することが多く、五言絶句や七言絶句の5つの漢字や7つの漢字を他言語の5単語や7単語に訳すようにすることにより、言葉の数の統一(単語数の統一)を楽しむことができ漢詩の本質や美しさを外国人に伝えることができる。
なお、2つの漢字が1英単語になる場合もあるが、その場合は、英語の訳文に主語や形容詞や副詞を補充して言葉の数の統一(単語数の統一)を図るようにしてもよい。この補充は、プログラムが自動的にやってもよいし、プログラムから人間に補充を促すようにしてもよい。特に、漢詩では、主語がないことが多いので、「I」や「YOU」などの主語を、述語の前に置くことが効果的である。また、東洋系の文、例えば、「私はあなたが好きです」のような文には、第1主題「私は」と第2主題「あなたが」とがあるが、第2主題「YOU」の前に「AS TO」や「REGARDING」を付けることにより、主題が1つしかない欧米系言語に対応した翻訳をすることができる。
品詞の日本語での分類図。 漢文品詞の日本語文法による説明図。 漢文品詞の記号化を示す図。 用語の説明図。 構文記号の一例を示す図。 主要な句法の説明図(前半部分)。 主要な句法の説明図(後半部分)。 実施の形態1のEメールシステム図。 送信端末装置72の構成図。 漢記号文作成支援画面を示す図。 漢記号文作成画面を示す図。 受信端末装置82の構成図。 言語変換サービス装置81の構成図。 辞書検索プログラム31のフローチャート図。 辞書検索結果の表示画面を示す図。 辞書のデータ構成図。 辞書検索結果の表示画面を示す図。 実施の形態2の漢文解析支援装置100を示す図。 漢詩規則の記号を説明する図。 声調情報131を説明する図。 ルールベース111の漢詩規則の図。 ルールベース111の漢詩規則の図。 ルールベース111の漢詩規則の図。 ルールベース111の漢詩規則の図。 ルールベース111の漢詩規則の図。 ルールベース111に記憶される文法記号を示す図。 ルールベース111に記憶される英語版の文法記号を示す図。 漢詩137を示す図。 漢記号文139を示す図。 漢情報文153を示す図。 表示画面219に表示されるメニュー表示例を示す図。 表示画面219の漢情報文表示領域109に表示される漢情報文の表示例を示す図。 中古語と現代語の規則変化を示す図。 表示画面219の漢情報文表示領域109に表示される他の例を示す図。 漢文解析支援装置100とユーザ端末装置800を示す図。 実施の形態3の異言語文処理装置500を示す図。 第1記憶部511と第2記憶部513と単語対応ポインタ記憶部515を示す図。 表示画面219に示される第1表示領域621と第2表示領域623と第1言語自然文553を示す図。 表示画面219に示される他の表示例を示す図。 表示画面219に示される他の表示例を示す図。 異言語文処理装置500とユーザ端末装置800を示す図。 実施の形態4の翻訳プログラム900のフローチャートを示す図。 実施の形態5の翻訳プログラム900のフローチャートを示す図。 翻訳プログラム900用の文法記号を示す図。 中国語記号文705の一例を示す図。 英語記号文711を示す図。 仏語記号文721を示す図。 独語記号文731を示す図。 中国語記号文705の一例を示す図。 英語記号文711を示す図。 仏語記号文721を示す図。 独語記号文731を示す図。 翻訳プログラム900を用いたコンピュータのネットワークシステム構成図。 表示画面219に示される他の表示例を示す図。 表示画面219に示される他の表示例を示す図。
符号の説明
1 情報管理サーバ、3 通信ネットワーク、5 読者端末装置、9,97 スキャナ、11,51,91 通信装置、12,52,92 計算機、14 漢記号文生成プログラム、15 漢記号文データベース、16 漢文データベース、17,55,95 辞書ファイル、18,58,98 表示装置、19,59,99 キーボード、31 辞書検索プログラム、44,83 入力部、45 構文解析部、46,85 単語翻訳部、47 構文記号付与部、48,87 出力部、49,88 変換部、53,93 メモリ、54,94 データ、55 辞書ファイル、56 言語変換サービスプログラム、70 漢記号文生成装置、71 漢記号文作成支援装置、72 送信端末装置、73 構文選択部、74 構造提示部、75 漢字入力部、76 表示部、77 記録部、81 言語変換サービス装置、82 受信端末装置、84 構文記号解析部、86 文章生成部、96 漢記号文作成支援プログラム、100 漢文解析支援装置、101,501 計算機、109 漢情報文表示領域、111 ルールベース、113 漢字辞書ファイル、115 音声データベース、117 漢文ファイル、119 電子メール、121 ホームページ、123 インターネット、131 声調情報、133 ピンイン、137 漢詩、139 漢記号文、151 漢記号文作成部、153 漢情報文、201 漢文入力部、203 漢情報文生成部、205 声調情報付与部、207 ピンイン付与部、209 漢情報文ファイル、211 漢情報文出力部、213 発音部、215 スピーカ、217 表示形式変更部、219 表示画面、221 マウス、223 キーボード、500 異言語文処理装置、511 第1記憶部、513 第2記憶部、515 単語対応ポインタ記憶部、551 第1言語記号文、553 第1言語自然文、555 第2言語記号文、557 第2言語自然文、561 第1言語情報文、565 第2言語情報文、591 第3記憶部、599 逆翻訳記号文、601 第1表示部、603 第2表示部、605 記号文変換部、607 自然文変換部、613 対応表示部、621 第1表示領域、623 第2表示領域、701,703,705 中国語記号文、709 日本語自然文、711 英語記号文、713 英語自然文、721 仏語記号文、723 仏語自然文、731 独語記号文、733 独語自然文、751 サービスプロバイダサーバコンピュータ、761,763,765,767 パーソナルコンピュータ、769 翻訳フラグ、800 ユーザ端末装置、900 翻訳プログラム、901 入力処理、903 翻訳処理、905 出力処理、906 逆翻訳入力処理、907 逆翻訳処理、909 逆翻訳出力処理、911 辞書検索処理、913 単語置換処理、915 単語配置変更処理、917 構文記号変更処理、999 表示装置。

Claims (23)

  1. 漢文を入力する漢文入力部と、
    声調情報を含む漢文の構文情報を記憶するルールベースと、
    漢字とその漢字に対応するひとつ以上のピンイン(PINYIN)とを記憶する漢字辞書ファイルと、
    上記ルールベースの構文情報を参照して漢字に声調情報を付与するとともに上記漢字辞書ファイルを参照して漢字にピンインを付与した漢情報文を生成する漢情報文生成部と、
    上記漢情報文生成部が生成した漢情報文を出力する漢情報文出力部と
    を備えたことを特徴とする漢文解析支援装置。
  2. 上記漢情報文生成部は、
    上記ルールベースの構文情報を参照して上記漢文入力部が入力した漢文の構文を解析し構文解析結果に基づいて漢字に声調情報を付与する声調情報付与部と、
    漢文の漢字の上記構文解析結果に合致したピンインを上記漢字辞書ファイルから検索して漢字に付与するピンイン付与部と
    を備えたことを特徴とする請求項1記載の漢文解析支援装置。
  3. 上記漢情報文出力部は、漢字と声調情報とピンインとの表示形式を変えて画面に表示することを特徴とする請求項2記載の漢文解析支援装置。
  4. 上記漢文解析支援装置は、さらに、
    上記漢文入力部が入力した漢文の所定の範囲が指定された場合に、その所定の範囲にある漢字に付与された声調情報とピンインとを用いてその所定の範囲にある漢字を発音する発音部を備えたことを特徴とする請求項1記載の漢文解析支援装置。
  5. 上記漢文解析支援装置は、さらに、
    上記発音部が漢字を発音している間、発音している漢字を他の漢字と異なる表示形式で表示する表示形式変更部を備えたことを特徴とする請求項4記載の漢文解析支援装置。
  6. 第1言語の単語を所定の構造で配置した文と、上記文の構造を示す構文記号とを備えた第1言語記号文を表示画面の第1表示領域に表示する第1表示部と、
    上記第1表示部が表示する第1言語記号文の第1言語の単語を第2言語の単語に変換した第2言語記号文を、第1言語記号文を表示した第1表示領域と並んだ上記表示画面の第2表示領域に表示する第2表示部と
    を備えたことを特徴とする異言語文処理装置。
  7. 第1言語の単語を所定の構造で配置した文と、上記文の構造を示す構文記号とを備えた第1言語記号文を表示画面に表示する第1表示部と、
    上記第1表示部が表示する第1言語記号文を第2言語の自然言語文に変換した第2言語自然文を、第1言語記号文と並べて上記表示画面に表示する第2表示部と
    を備えたことを特徴とする異言語文処理装置。
  8. 上記異言語文処理装置は、さらに、
    第1表示部が表示する第1言語記号文を入力し、入力した第1言語記号文の第1言語の単語を第2言語の単語に変換して、第1言語記号文を第2言語記号文に変換し、変換した第2言語記号文を第2表示部に出力する記号文変換部を備えたことを特徴とする請求項6記載の異言語文処理装置。
  9. 上記異言語文処理装置は、さらに、
    第1表示部が表示する第1言語記号文を入力し、入力した第1言語記号文を第2言語自然文に変換して、変換した第2言語自然文を第2表示部に出力する自然文変換部を備えたことを特徴とする請求項7記載の異言語文処理装置。
  10. 上記異言語文処理装置は、さらに、
    上記第1表示部が表示した記号文の所定の箇所が指定された場合に、上記第2表示部が表示した文の上記所定の箇所に対応する箇所を他の箇所と異なる表示形式で表示する対応表示部を備えたことを特徴とする請求項6又は7記載の異言語文処理装置。
  11. 上記異言語文処理装置は、さらに、
    上記第1表示部と第2表示部とのいずれかが表示した文の所定の範囲が指定された場合に、その所定の範囲にある単語を発音する発音部を備えたことを特徴とする請求項6又は7記載の異言語文処理装置。
  12. 上記異言語文処理装置は、さらに、
    上記発音部が単語を発音している間、発音している単語を他の単語と異なる表示形式で表示する表示形式変更部を備えたことを特徴とする請求項6又は7記載の異言語文処理装置。
  13. 第1言語による第1言語文を記憶する第1記憶部と、
    上記第1記憶部が記憶する第1言語文の翻訳文を第2言語文として記憶する第2記憶部と、
    上記第1記憶部に記憶された第1言語文の単語から第2記憶部に記憶された第2言語文の対応する単語への単語対応ポインタを記憶する単語対応ポインタ記憶部と、
    上記第1記憶部に記憶された第1言語文と第2記憶部に記憶された第2言語文とを画面に表示中、第1言語文の単語が指定された場合に、上記単語対応ポインタ記憶部に記憶されたポインタを用いて、指定された第1言語文の単語に対応する第2言語文の単語を判定し、判定した第2言語文の単語を他の単語と異なる表示形式で表示する表示形式変更部と
    を備えたことを特徴とする異言語文処理装置。
  14. 第1言語の単語を所定の構造で配置した文と、上記文の構造を示す構文記号とを備えた第1言語記号文を第1記憶部から入力する入力処理と、
    上記入力処理により入力した第1言語記号文の第1言語の単語を第2言語の単語に変換して、第2言語の単語を所定の構造で配置した文と、上記文の構造を示す構文記号とを備えた第2言語記号文を生成する翻訳処理と、
    上記翻訳処理により生成した第2言語記号文を第2記憶部に記憶する出力処理と
    をコンピュータに実行させることを特徴とする翻訳プログラム。
  15. 上記翻訳処理は、第1言語記号文の構文記号を参照して、構文記号の示す構文に合った単語を辞書ファイルから選択して翻訳をする処理をコンピュータに実行させることを特徴とする請求項14記載の翻訳プログラム。
  16. 上記翻訳処理は、第1言語記号文を入力して構文記号の位置と単語の位置とを変えずに第1言語の単語を第2言語の単語に翻訳して第2言語記号文を出力する処理をコンピュータに実行させることを特徴とする請求項14記載の翻訳プログラム。
  17. 上記翻訳プログラムは、さらに、
    上記出力処理により出力された第2言語記号文を第2記憶部から入力する翻訳文入力処理と、
    上記翻訳文入力処理により入力した第2言語記号文の第2言語の単語を第1言語の単語に逆変換して、第1言語の単語を所定の構造で配置した文と、上記文の構造を示す構文記号とを備えた第1言語記号文を生成する逆翻訳処理と、
    上記逆翻訳処理により生成した第1言語記号文を第3記憶部に記憶する逆翻訳出力処理と、
    上記第1記憶部から入力した第1言語記号文と逆翻訳した第1言語記号文とを表示装置に表示する処理と
    をコンピュータに実行させることを特徴とする請求項14記載の翻訳プログラム。
  18. 第1言語の漢字と、第1言語の漢字の第2言語原型への翻訳単語とを配置した漢−第2言語情報文を表示する表示部を備えたことを特徴とする異言語文処理装置。
  19. 漢文にピンインを付与した漢情報文と、漢情報文を中国語の自然言語文に変換した中国語自然文とを画面に表示する表示部を備えたことを特徴とする異言語文処理装置。
  20. 上記異言語文処理装置は、さらに、上記漢−第2言語情報文の第2言語を抽出し、これに第2言語の単語を付加して、漢文と同数同行の単語を有する第2言語記号文を生成し、画面に表示することを特徴とする請求項18記載の異言語文処理装置。
  21. 上記異言語文処理装置は、さらに、第2言語記号文を入力し、入力した第2言語記号文を、まず第2言語の代表である英語の自然文に変換し、続いて世界各国の屈折語の自然文に変換して、変換した自然文を表示部の特定のエリアに出力する自然文変換部を備えたことを特徴とする請求項20記載の異言語文処理装置。
  22. 漢文と、漢文の構造を示す構文記号とを備えた漢記号文を入力し、入力した漢記号文に基づいて漢字に助詞と語尾変化などを付けて語順を変えることによって日本語の自然文に変換して、変換した自然文を表示部の特定のエリアに表示する自然文変換部を備えたことを特徴とする異言語文処理装置。
  23. 上記翻訳プログラムは、さらに、第2言語の自然文を入力する自然文入力処理と、
    上記自然文入力処理により入力した第2言語の自然文を中国語および日本語に翻訳し、生成した中国語自然文と日本語自然文を第3記憶部に記憶する翻訳出力処理と、
    上記第1記憶部から入力した第1言語記号文と第2言語の自然文から翻訳された中国語および日本語の自然文とを第1言語記号文と同じ画面上に表示する処理と
    をコンピュータに実行させることを特徴とする請求項14記載の翻訳プログラム。
JP2004055737A 2004-03-01 2004-03-01 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム Pending JP2005250525A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004055737A JP2005250525A (ja) 2004-03-01 2004-03-01 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004055737A JP2005250525A (ja) 2004-03-01 2004-03-01 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム

Publications (1)

Publication Number Publication Date
JP2005250525A true JP2005250525A (ja) 2005-09-15

Family

ID=35030984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004055737A Pending JP2005250525A (ja) 2004-03-01 2004-03-01 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム

Country Status (1)

Country Link
JP (1) JP2005250525A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7260780B2 (en) * 2005-01-03 2007-08-21 Microsoft Corporation Method and apparatus for providing foreign language text display when encoding is not available
CN104123274A (zh) * 2013-04-26 2014-10-29 富士通株式会社 评价中间语的词语的方法和装置以及机器翻译方法和设备
KR101523842B1 (ko) * 2013-09-23 2015-05-28 한국 한의학 연구원 번역 관리 방법 및 시스템
CN110414001A (zh) * 2019-07-18 2019-11-05 腾讯科技(深圳)有限公司 语句生成方法和装置、存储介质及电子装置
CN111368514A (zh) * 2019-12-10 2020-07-03 爱驰汽车有限公司 模型训练及古诗生成方法、古诗生成模型、设备和介质
CN116070643A (zh) * 2023-04-03 2023-05-05 武昌理工学院 一种古文到英文的固定风格翻译方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7260780B2 (en) * 2005-01-03 2007-08-21 Microsoft Corporation Method and apparatus for providing foreign language text display when encoding is not available
CN104123274A (zh) * 2013-04-26 2014-10-29 富士通株式会社 评价中间语的词语的方法和装置以及机器翻译方法和设备
CN104123274B (zh) * 2013-04-26 2018-06-12 富士通株式会社 评价中间语的词语的方法和装置以及机器翻译方法和设备
KR101523842B1 (ko) * 2013-09-23 2015-05-28 한국 한의학 연구원 번역 관리 방법 및 시스템
CN110414001A (zh) * 2019-07-18 2019-11-05 腾讯科技(深圳)有限公司 语句生成方法和装置、存储介质及电子装置
CN110414001B (zh) * 2019-07-18 2023-09-26 腾讯科技(深圳)有限公司 语句生成方法和装置、存储介质及电子装置
CN111368514A (zh) * 2019-12-10 2020-07-03 爱驰汽车有限公司 模型训练及古诗生成方法、古诗生成模型、设备和介质
CN111368514B (zh) * 2019-12-10 2024-04-19 爱驰汽车有限公司 模型训练及古诗生成方法、古诗生成装置、设备和介质
CN116070643A (zh) * 2023-04-03 2023-05-05 武昌理工学院 一种古文到英文的固定风格翻译方法及系统
CN116070643B (zh) * 2023-04-03 2023-08-15 武昌理工学院 一种古文到英文的固定风格翻译方法及系统

Similar Documents

Publication Publication Date Title
Desagulier et al. Corpus linguistics and statistics with R
US6275789B1 (en) Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
Habash Introduction to Arabic natural language processing
Gouws et al. Principles and practice of South African lexicography
Matthews et al. Cantonese: A comprehensive grammar
Frawley International encyclopedia of linguistics: 4-volume set
US20070011160A1 (en) Literacy automation software
Sawalha Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora
Azmi et al. Universal web accessibility and the challenge to integrate informal Arabic users: a case study
Josan et al. A Punjabi to Hindi machine transliteration system
Onyenwe et al. A Basic Language Resource Kit Implementation for the Igbo NLP Project
Raupova Principles of creating an electronic dictionary of grammatical terms
JP2005250525A (ja) 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム
KR20090035346A (ko) 어휘 분석을 수행하는 어학학습 방법
Schmirler Syntactic Features and Text Types in 20th Century Plains Cree: A Constraint Grammar Approach
Anderman et al. The linguist and the translator
MILAD Comparative evaluation of translation memory (tm) and machine translation (mt) systems in translation between arabic and english
Arkhipova et al. Digital technologies in the compiling and use of ethnocultural collocations dictionary
Chang Tonal adaptation of loanwords in Mandarin: phonology and beyond
Estarrona et al. The first annotated corpus of historical Basque
Elenius et al. Language Resources and Tools for Swedish: A Survey.
Strassel et al. Linguistic resource creation for research and technology development: A recent experiment
Garabík et al. A cross linguistic database of children's printed words in three Slavic languages
Rana Dictionary block of the national corpuses of the turkic languages
do Nascimento et al. The Reference Corpus of Contemporary Portuguese and related resources