JPH05181900A - 固有名詞処理装置 - Google Patents

固有名詞処理装置

Info

Publication number
JPH05181900A
JPH05181900A JP4001110A JP111092A JPH05181900A JP H05181900 A JPH05181900 A JP H05181900A JP 4001110 A JP4001110 A JP 4001110A JP 111092 A JP111092 A JP 111092A JP H05181900 A JPH05181900 A JP H05181900A
Authority
JP
Japan
Prior art keywords
proper noun
syllable
chinese
character string
alphabetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4001110A
Other languages
English (en)
Inventor
Yuji Uchida
裕士 内田
Kokui Jiyo
国偉 徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP4001110A priority Critical patent/JPH05181900A/ja
Publication of JPH05181900A publication Critical patent/JPH05181900A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 計算機によるテキスト処理に関し、アルファ
ベット文字を使用する言語の固有名詞を、発音の対応す
る中国語文字列に変換するための固有名詞処理装置を目
的とする。 【構成】 変換処理部1は、固有名詞を表すアルファベ
ット文字列を入力して、所定の論理により音節分割を行
って、例外発音判別規則3及び音節/中国語対応表2に
登録されている音節に分割し、該分割した各音節のアル
ファベット文字列を、音節に定義されている各中国語文
字に変換し、音節/中国語対応表2には、所要の場合に
一般用と女性名用との中国語文字とを指定し、例外発音
判別規則3は、所要のアルファベット文字列の組合せを
指定し、固有名詞判別部4は、固有名詞判別規則5に定
義された前置語に続く単語であって、単語辞書6に未定
義の単語を固有名詞と判定し、該判定した固有名詞のア
ルファベット文字列を変換処理部1に渡すように構成す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、計算機において、アル
ファベット文字を使用する言語の文を中国語に翻訳する
場合に、アルファベット文字列で表された固有名詞につ
いて、発音の対応する中国語文字列を生成するための固
有名詞処理装置に関する。
【0002】
【従来の技術と発明が解決しようとする課題】アルファ
ベット文字を使用する言語、例えば英語の文を中国語の
文に翻訳する場合には公知のように、英語の単語につい
て、各単語の品詞や構文解析上の所要情報と、例えば対
応する中国語単語とを示す単語辞書を持ち、原英語文が
入力されると、先ずその単語辞書を参照して、原英語文
の構文解析を行う。
【0003】その結果、入力文の解析に成功すれば、各
英単語に対応する中国語単語を取り出し、解析結果の構
文上の位置づけを参照して、中国語の構文規則に従うよ
うに配列及び必要な補正を行って中国語文を生成する。
【0004】その場合に、人名、地名等の固有名詞につ
いては、それらを単語辞書に網羅することは困難なの
で、しばしば単語辞書に定義されていない未定義単語と
して検出され、その場合には翻訳文中に元の英単語のま
まで出力される。
【0005】しかし中国語文では、英語の固有名詞につ
いても、対応する発音の、適当な中国語文字列で表し、
更に同じ発音でも女性名には、可愛い感じの文字を使用
するのが自然であって、そのような翻訳文が望まれる。
【0006】本発明は、アルファベット文字を使用する
言語の固有名詞を、発音の対応する中国語文字列に変換
するための固有名詞処理装置を目的とする。
【0007】
【課題を解決するための手段】図1は、本発明の構成を
示すブロック図である。図は固有名詞処理装置の構成で
あって、第1の発明では、変換処理部1を有し、変換処
理部1は、音節/中国語対応表2を有する。
【0008】変換処理部1は、固有名詞を表すアルファ
ベット文字列を入力して、所定の論理により音節分割を
行って、音節/中国語対応表2に登録されている音節に
分割し、該分割した各音節のアルファベット文字列を、
音節/中国語対応表2に指定する各中国語文字に変換す
る。
【0009】音節/中国語対応表2は、所要の音節を表
すアルファベット文字列と、各該アルファベット文字列
に対応させる各中国語文字を指定するようにする。第2
の発明では、音節/中国語対応表2は、所要の各音節に
ついて、一般用中国語文字と女性名用中国語文字とを指
定し、変換処理部1は、前記入力される固有名詞に、該
固有名詞が女性名であることを示す指定が無い場合には
該一般用中国語文字に変換し、女性名であることを示す
指定が有る場合には該女性名用中国語文字に変換する。
【0010】第3の発明では、変換処理部1は、前記の
他に例外発音判別規則3を有し、前記入力アルファベッ
ト文字列についての音節分割を行う場合に、例外発音判
別規則3を参照して、例外発音の音節を検出し、該例外
発音の音節以外について、前記所定の論理による音節分
割を行い、該決定した各音節のアルファベット文字列
を、例外発音判別規則3及び該音節/中国語対応表2を
それぞれ参照して、前記のようにして指定する各中国語
文字に変換する。
【0011】例外発音判別規則3は、所要のアルファベ
ット文字列と直後の特定のアルファベット文字との組合
せについて、各該アルファベット文字列に対応させる各
中国語文字を指定する。
【0012】第4の発明では、前記の他に固有名詞判別
部4を有し、固有名詞判別部4は、固有名詞判別規則5
を有し、アルファベット文字を使用する言語の文を単語
辞書6を参照して解析し、固有名詞判別規則5に定義さ
れた前置語に続く単語であって、単語辞書6に未定義の
単語を固有名詞と判定し、該判定した固有名詞のアルフ
ァベット文字列を変換処理部1に渡す。
【0013】固有名詞判別規則5は、所要の該前置語か
らなる。第5の発明では、前記固有名詞判別規則5の各
前記前置語には、女性名用とその他との識別情報が付さ
れる。
【0014】固有名詞判別部4は、前記判定した固有名
詞と共に該識別情報を、変換処理部1に渡す。
【0015】
【作用】本発明の固有名詞処理装置により、英語等の文
の中の、翻訳用単語辞書に無い固有名詞を、固有名詞の
前に置かれることの多い「Mister」等の前置語をキーに
して判別し、固有名詞を中国語文字列に変換する処理を
行うことができる。
【0016】変換処理では、固有名詞の英文字列等を、
所定の音節分割論理である、最長一致法等の公知の方法
によって、音節分割を行い、その際要すれば例外発音判
別規則によって例外発音の音節を区別する。
【0017】それらで決定した音節を例外発音判別規則
と音節/中国語対応表とで、各音節に対応する中国語文
字に変換することにより、固有名詞を表す中国語文字列
を得る。
【0018】なお、固有名詞の判別において、前置語で
女性名を区別できるようにし、それに応じて、必要な音
節には、女性名の場合とその他の場合では中国語文字を
違えるように音節/中国語対応表を作成すれば、より高
品質の変換結果を得ることが可能になる。
【0019】以上により、固有名詞処理装置を使用すれ
ば、辞書に無い固有名詞でも、翻訳文中で原言語のアル
ファベット文字列のまゝ残されることが殆ど無くなる。
【0020】
【実施例】図1において、固有名詞判別部4はアルファ
ベット文字を使用する言語、例えば英語の文を原言語文
として入力し、英語から中国語への翻訳のための前記の
ような単語辞書6を参照し、英語の構文規則に基づい
て、前記の翻訳の場合と同様に原言語文の構文解析を行
う。
【0021】その結果、単語辞書6に定義されていない
単語が残った場合に、固有名詞判別部4はその直前の語
が固有名詞判別規則5に定義されている語かを、固有名
詞判別規則5を参照して識別する。
【0022】固有名詞判別規則5は概念的に、例えば図
2に示すように構成されている。即ち、「前置語」欄は
定義される原言語の単語を示し、「区分」欄は当前置語
を直前に持つ単語が固有名詞の場合に、固有名詞の区分
を示す識別情報である。なお、後述のように本発明で必
要な区分は女性名か否かの区分である。
【0023】前置語には、図に例示するように、固有名
詞の前に置かれることの多い、女性や男性の呼称(mis
s、queen等)、肩書の呼称(president等)、行政区画や施
設を示す呼称(citi等)その他を使用し、「section man
ager」のような複合語も含むものとする。
【0024】固有名詞判別部4は、以上で識別する単語
が固有名詞判別規則5の前置語と一致した場合には、そ
の項の区分を読み、その単語の直後の未定義単語のアル
ファベット文字列を、固有名詞として変換処理部1にそ
の区分を付けて渡す。
【0025】未定義単語の直前の語が、固有名詞判別規
則5に定義されている前置語でない場合には、本発明の
固有名詞処理装置による処理対象外として、元のアルフ
ァベット文字列のまゝと残す。
【0026】変換処理部1は、渡された固有名詞のアル
ファベット文字列を、例外発音判別規則3及び音節/中
国語対応表2を使用して音節分割し、音節分割に成功す
れば、各音節を中国語文字に変換して、中国語文字列の
固有名詞を生成する。
【0027】図3は、例外発音判別規則3の内容を例に
よって説明する図であり、「音節」欄は、例外発音とな
る候補音節を示し、「後続文字」欄は、この欄に示すア
ルファベット文字が直後に続く場合に、その候補音節を
例外発音の音節とすることを示し、「中国語文字」欄は
例外発音音節の場合に変換結果とする中国語文字であ
る。
【0028】図4は、音節/中国語対応表2を例によっ
て説明する図であり、「音節」欄はアルファベット文字
で表した音節であり、それに対応させるべき中国語文字
を、「一般用」欄に示し、必要な音節については、更に
「女性名用」欄に固有名詞が女性名である場合に使用す
る中国語文字を示すものである。
【0029】図5は、変換処理部1の処理の流れの一例
を示す図である。図は1個の固有名詞の処理を示し、固
有名詞のアルファベット文字列とその区分を示す識別情
報とを受け取ると、処理ステップ10で初期設定を行っ
て、分割位置ポインタを文字列の先頭に設定し、文字列
の長さ等の制御情報を設定する。
【0030】処理ステップ11で分割位置ポインタの指示
が文字列の長さを越えることで、処理の終了を判別しな
がら、以下に説明する処理を繰り返す。先ず、処理ステ
ップ12で、分割位置ポインタの指示する文字から始まる
文字列が、例外発音判別規則3に定義されている文字列
の何れかに一致するかを識別する。その場合に、後述の
分割やり直しの場合には、後述のスタックから取り出し
てある、直前に選択した音節を再度選定しないようにす
る。
【0031】以上の例外発音の処理結果を処理ステップ
13で識別し、例外発音に該当する場合には、処理ステッ
プ14で該当する文字列を音節として、例外発音判別規則
3に定義されている中国語文字を変換結果の中国語文字
列につなぐ。
【0032】処理ステップ15で、後述のように処理をや
り直す場合のために、現に変換した音節と、文字列の位
置とをスタックして、既に処理した音節の情報が、処理
の逆順に取り出せるように記憶した後、処理ステップ16
で分割位置ポインタを現に処理した文字列の後を指示す
るように進め、処理ステップ11に戻る。
【0033】処理ステップ13で、例外発音に該当しない
と識別した場合には処理ステップ17に進み、音節分割処
理を以下のように例えば最長一致法の処理論理に従って
実行する。
【0034】即ち、分割位置ポインタの指示する位置か
ら始まる文字列であって、音節/中国語対応表2の「音
節」欄に定義されている文字列と一致する最長の文字列
を探索する。
【0035】この場合にも、後述の分割やり直しの場合
には、前記のスタックから取り出してある、前に選択し
た音節は対象から除外して、再度選定しないようにす
る。処理ステップ18で、以上の処理結果を識別し、音節
とする文字列が取り出せた場合には、その文字列を音節
/中国語対応表2に定義する中国語文字に変換するため
に、処理ステップ19で、その音節に女性名用文字が定義
されているか識別し、無ければ処理ステップ20で「一般
用」欄に定義されている中国語文字を出力の中国語文字
列に加え、処理ステップ15へ進む。
【0036】女性名用文字が定義されている場合には、
処理ステップ21で固有名詞のアルファベット文字列と共
に受け取った識別情報が、「女性名」の区分か識別し、
女性名なら処理ステップ22で「女性名」欄の中国語文
字、女性名でなければ処理ステップ20で「一般用」欄の
中国語文字を中国語文字列に加え、処理ステップ15へ進
む。
【0037】処理ステップ18で、音節を決定できなかっ
たと識別すると、処理ステップ23で分割位置ポインタの
指示が文字列の先頭か識別し、文字列の先頭を指示する
状態で音節分割ができない場合には、分割失敗として本
装置の処理を終了する。
【0038】分割位置ポインタの指示が先頭位置でなけ
れば、処理ステップ24でスタックの最後を読み出して、
その内容に従って分割位置ポインタを一つ前の音節の文
字列の先頭に戻し、出力の中国語文字列の最後の文字を
削除して処理ステップ12に戻り、前回の処理からやり直
す。
【0039】以上の処理により、分割位置ポインタがア
ルファベット文字列の最後を越えたことを処理ステップ
11で識別すれば、音節分割及び中国語文字への変換が完
了したので、出力として生成された中国語文字列を出力
して処理を終わる。
【0040】図6は、以上の処理による処理結果の例を
説明する図であり、例外発音判別規則3及び音節/中国
語対応表2はそれぞれ図3及び図4に例示した内容であ
るものとする。
【0041】図6(a)は原言語文の「Mister Reagan 」
から、非女性名の固有名詞として「Reagan」を処理する
場合であり、以上の処理により「rea-gan 」と音節分割
されるので、図4の音節/中国語対応表の一般用の中国
語文字のみから、中国語文字列として「里根」を得る。
【0042】図6(b)は原言語文の「Queen Elizabeth
」から、女性名の固有名詞として「Elizabeth 」を処
理する場合であり、「e-li-za-beth」と音節分割され、
この場合に「li」は例外発音に該当しないので、図4の
音節/中国語対応表のみを使用し、「li」と「za」には
女性名の文字を充てて、中国語文字列として「伊麗莎
白」を得る。
【0043】又図6(c) では、原言語文の「Mister Eli
ah」から、非女性名の固有名詞として「Eliah」を処理
する場合であり、以上の処理により「e-li-ah」と音節
分割され、この場合に「li」は図3の例外発音判別規則
によって、「a」を従える例外発音に該当するので、該
規則に定義された中国語文字「莱」に変換され、その他
は図4の音節/中国語対応表の一般用文字を使用して、
中国語文字列「伊莱阿」を得る。
【0044】
【発明の効果】以上の説明から明らかなように本発明に
よれば、計算機による、アルファベット文字を使用する
言語を中国語に翻訳する処理において、アルファベット
文字で表された固有名詞を、発音の対応する中国語文字
列に自動変換することができるので、中国語翻訳文の品
質を向上することができるという著しい工業的効果があ
る。
【図面の簡単な説明】
【図1】 本発明の構成を示すブロック図
【図2】 固有名詞判別規則を説明する図
【図3】 例外発音判別規則を説明する図
【図4】 音節/中国語対応表を説明する図
【図5】 本発明の変換処理部の処理の流れ図
【図6】 中国語文字列の生成例を示す図
【符号の説明】
1 変換処理部 2 音節/中国語対応表 3 例外発音判別規則 4 固有名詞判別部 5 固有名詞判別規則 6 単語辞書 10〜25 処理ステップ

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 変換処理部(1)を有し、 該変換処理部(1)は、音節/中国語対応表(2)を有し、 固有名詞を表すアルファベット文字列を入力して、所定
    の論理により音節分割を行って、該音節/中国語対応表
    (2)に登録されている音節に分割し、 該分割した各音節のアルファベット文字列を、該音節/
    中国語対応表(2)に指定する各中国語文字に変換し、 該音節/中国語対応表(2)は、所要の音節を表すアルフ
    ァベット文字列と、各該アルファベット文字列に対応さ
    せる各中国語文字を指定するように構成されていること
    を特徴とする固有名詞処理装置。
  2. 【請求項2】 前記音節/中国語対応表(2)は、所要の
    各音節について、一般用中国語文字と女性名用中国語文
    字とを指定し、 前記変換処理部(1)は、前記入力される固有名詞に、該
    固有名詞が女性名であることを示す指定が無い場合には
    該一般用中国語文字に変換し、女性名であることを示す
    指定が有る場合には該女性名用中国語文字に変換する、
    請求項1記載の固有名詞処理装置。
  3. 【請求項3】 前記変換処理部(1)は、例外発音判別規
    則(3)を有し、 前記入力アルファベット文字列についての音節分割を行
    う場合に、該例外発音判別規則(3)を参照して、例外発
    音の音節を検出し、 該例外発音の音節以外について、前記所定の論理による
    音節分割を行い、 該決定した各音節のアルファベット文字列を、該例外発
    音判別規則及び前記音節/中国語対応表(2)をそれぞれ
    参照して、指定する各中国語文字に変換し、 該例外発音判別規則(3)は、所要のアルファベット文字
    列と直後の特定のアルファベット文字との組合せについ
    て、各該アルファベット文字列に対応させる各中国語文
    字を指定する、請求項1又は請求項2記載の固有名詞処
    理装置。
  4. 【請求項4】 固有名詞判別部(4)を有し、 該固有名詞判別部(4)は、固有名詞判別規則(5)を有し、 アルファベット文字を使用する言語の文を単語辞書(6)
    を参照して解析し、該固有名詞判別規則(5)に定義され
    た前置語に続く単語であって、該単語辞書に未定義の単
    語を固有名詞と判定し、 該判定した固有名詞のアルファベット文字列を前記変換
    処理部(1)に渡し、 該固有名詞判別規則(5)は、所要の該前置語からなる、
    請求項1、請求項2又は請求項3記載の固有名詞処理装
    置。
  5. 【請求項5】 前記固有名詞判別規則(5)の各前記前置
    語には、女性名用とその他との識別情報が付され、 前記固有名詞判別部(4)は、前記判定した固有名詞と共
    に該識別情報を、前記変換処理部(1)に渡す、請求項4
    記載の固有名詞処理装置。
JP4001110A 1992-01-08 1992-01-08 固有名詞処理装置 Withdrawn JPH05181900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4001110A JPH05181900A (ja) 1992-01-08 1992-01-08 固有名詞処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4001110A JPH05181900A (ja) 1992-01-08 1992-01-08 固有名詞処理装置

Publications (1)

Publication Number Publication Date
JPH05181900A true JPH05181900A (ja) 1993-07-23

Family

ID=11492332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4001110A Withdrawn JPH05181900A (ja) 1992-01-08 1992-01-08 固有名詞処理装置

Country Status (1)

Country Link
JP (1) JPH05181900A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240061B2 (en) 2000-10-24 2007-07-03 Nec Corporation Place name information extraction apparatus and extraction method thereof and storing medium stored extraction programs thereof and map information retrieval apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240061B2 (en) 2000-10-24 2007-07-03 Nec Corporation Place name information extraction apparatus and extraction method thereof and storing medium stored extraction programs thereof and map information retrieval apparatus

Similar Documents

Publication Publication Date Title
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH01501977A (ja) 言語翻訳システム
JPH1049543A (ja) 文書検索装置
JP2595934B2 (ja) 仮名漢字変換処理装置
JPH05181900A (ja) 固有名詞処理装置
JPH0877196A (ja) 文書情報抽出装置
JPS61248160A (ja) 文書情報登録方式
JPH0619968A (ja) 専門用語自動抽出装置
JPS6175952A (ja) 文書入力処理方式
KR100204068B1 (ko) 개념기반 다국어 번역시스템의 문법 자동수정 방법
JPH0561902A (ja) 機械翻訳システム
JPS61187077A (ja) 日本語解析装置
JP3884001B2 (ja) 言語解析システムおよび方法
JP3048793B2 (ja) 文字変換装置
JPS6368972A (ja) 未登録語処理方式
JPS6389976A (ja) 言語解析装置
JPH02208775A (ja) 機械翻訳方式
JPH0290364A (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JPH03225468A (ja) 機械翻訳装置
JPH05225232A (ja) テキスト自動前編集装置
JPH0635964A (ja) 機械翻訳装置
JPH0414168A (ja) 文書作成装置
JPH01297768A (ja) 文書処理装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990408