JPH10269221A - 未登録語処理方式 - Google Patents

未登録語処理方式

Info

Publication number
JPH10269221A
JPH10269221A JP9077849A JP7784997A JPH10269221A JP H10269221 A JPH10269221 A JP H10269221A JP 9077849 A JP9077849 A JP 9077849A JP 7784997 A JP7784997 A JP 7784997A JP H10269221 A JPH10269221 A JP H10269221A
Authority
JP
Japan
Prior art keywords
japanese
chinese
word
kanji
unregistered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9077849A
Other languages
English (en)
Inventor
Hiroyuki Kumai
裕之 隈井
Katsuya Kono
勝也 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP9077849A priority Critical patent/JPH10269221A/ja
Publication of JPH10269221A publication Critical patent/JPH10269221A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 中国語文の日本語文への翻訳に際し、未登録
語部分を内容を把握し易く、できるだけ意味が分かるよ
うな翻訳をする。 【解決手段】 中国文入力は、中国語形態素解析・構文
解析処理部101で解析され、その解析結果得られる登
録語は、対訳語抽出処理部103において、中日対訳辞
書104からこれに対する対訳日本語が抽出されて付加
され、日本語文生成処理部107に引き渡される。上記
解析結果の未登録語は、未登録語処理部105におい
て、漢字発音テーブル106を用いて、英字,カタカナ
もしくはひらがなで構成される発音表記に変換されて日
本語文生成処理部107に引き渡される。日本語文生成
処理部107では、これら対訳日本語と発音表記による
日本語文が生成され、翻訳結果として出力される。この
翻訳結果の上記未登録語に対応する部分には、これが発
音表記で表示されている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、パーソナルコンピ
ューターやワードプロセッサなどの中国語を日本語に翻
訳する情報処理装置に係り、特に、未登録の中国語を翻
訳処理する未登録語処理方式に関する。
【0002】
【従来の技術】近年、情報化社会のボーダレス化に伴
い、情報処理の分野では、複数の国の言葉を扱う、いわ
ゆるマルチリンガル処理が必要になっており、特に、中
国語を日本語に翻訳する中日機械翻訳に対する需要が高
まっている。ところで、中国語から日本語への翻訳過程
において、中日対訳辞書に登録された中国語は、辞書に
格納されている対訳日本語に変換することができるが、
未登録語については、そのまま中国漢字を出力する方法
が一般的であった。さらにこれを進めて、中国漢字を対
応する日本語の漢字に変換する方法が特開平4−256
171号公報に述べられている。
【0003】一方、現在広く普及しているパーソナルコ
ンピュータなどの情報処理装置において、漢字はその国
の固有の文字コード体系に従って処理されている。例え
ば、日本語については、JIS X 0208-1983(以下、JI
Sコードという)あるいはその配置を変形したシフトJ
ISコードが一般的であり、中国語については、GB2312
-80(以下、GBコードという)が一般的である。現状
の大半のシステムプログラムやアプリケーションプログ
ラムでは、その国固有の文字コード体系のみを扱うよう
になっており、同時にシフトJISコードとGBコード
を扱えるシステムは、まだ、少ない。ISOでは、各国
毎のコード化された文字を全て包含した文字コード体系
ISO10646を定義して、全ての国の文字を統一的
に扱えるようにしているが、対応しているシステムやプ
ログラムは、あまり普及していない。
【0004】このような環境の中で、中日機械翻訳を行
なうシステムは、独自の表示処理プログラムを内包する
ことにより、中国語と日本語とを同時に扱えるように構
成しているものが多い。従って、これら中日機械翻訳結
果を他の日本語システム上のアプリケーションで処理す
るためには、全ての文字がJISコードなどの日本語の
文字コードとして定義されている必要がある。
【0005】
【発明が解決しようとする課題】ところで、上記特開平
4−256171号公報に記載の技術は、中国語漢字と
対応づけられる日本語漢字,形態あるいは意味が同じ漢
字を対応させた漢字対訳辞書を持つことにより、特に、
固有名詞において、できるだけ適切な文字に変換するよ
うにするものであるが、対訳を付与できない漢字につい
ては、その文字をそのまま翻訳結果として出力するよう
にしている。この結果、中国固有の漢字を含んだ翻訳結
果を他の日本のアプリケーションプログラムで使用した
場合には、いわゆる文字化けを引き起こすことになる。
従って、ユーザは、文字化けを起こした文字が何であっ
たのかを知ることができないという問題があった。
【0006】本発明の目的は、上記問題点に鑑み、中国
語の日本語への翻訳に際し、未登録語が発生した場合に
は、その翻訳結果を利用するユーザが内容を把握し易い
ようにし、できるだけ意味の分かる機械翻訳を可能にす
る未登録語処理方式を提供することにある。
【0007】
【課題を解決するための手段】上記課題を解決するため
に、本発明は、中国漢字と発音表記を対応させた中国語
発音表記テーブルを設けたものであって、未登録の中国
語の漢字が発生しても、この漢字を発音表記に変換して
出力するようにし、ユーザがこの変換結果を容易に理解
できるようにする。
【0008】
【発明の実施の形態】本発明は、中国の標準語では、そ
の漢字に対する発音が一意に決まり、また、その発音表
記を日本のJISコードに含まれている英字,カタカ
ナ,ひらがなで表現可能であるということを利用してい
る。以下、本発明の実施形態を図面により説明するが、
ここでは、中国語の漢字コードとしてGBコードを、日
本語の漢字コードとしてJISコードを使用するものと
する。
【0009】図1は本発明による未登録語処理方式の一
実施形態を示すブロック構成図であって、101は中文
形態素解析・構文解析部、102は中国語解析規則、1
03は対訳語抽出処理部、104は中日対訳辞書、10
5は未登録語処理部、106は漢字発音テーブル、10
7は日本語文生成処理部、108は日本語文生成規則で
ある。
【0010】同図において、中文形態素解析・構文解析
部101は、中国語の単語及び文法規則が格納された中
国語解析規則102を参照して、入力された中国語の文
を形態素解析・構文解析する。
【0011】対訳語抽出処理部103は、中文形態素解
析・構文解析部101の解析結果をもとに、中国語と対
応する日本語が格納された中日対訳辞書104を参照し
て、対応する対訳日本語を抽出する。ここで、入力され
た中国語の文及び中日対訳辞書104の中国語部はGB
コードの範囲で、また、中日対訳辞書104の日本語部
はJISコードの範囲で夫々記述されている。従って、
入力された中国文のうち、中日対訳辞書104を用いて
対訳可能な語はJISコードに変換される。
【0012】未登録語処理部105は、対訳語抽出処理
部103で中日対訳辞書104に対訳のなかったGBコ
ードのままである中国語を、漢字発音テーブル106を
参照して、発音表記に変換する。
【0013】図2はこの漢字発音テーブル106の一具
体例を示す図である。同図において、この漢字発音テー
ブル106の中国漢字フィールドには、GBコードで中
国語の漢字が格納されている。英字発音表記フィールド
には、中国漢字の英字による発音表記、例えば、ピンイ
ン表記がJISコードで格納されている。カタカナ発音
表記フィールドには、中国漢字のカタカナによる発音表
記がJISコードで格納されている。そして、この漢字
発音テーブル106には、GBコードの中国漢字全てに
ついてこれら発音表記が登録されている。
【0014】なお、ここでは「発音表記」という言葉を
用いているが、これは、日本人ユーザが理解できるよう
にするための便宜的なものであり、必ずしも正確な発音
を表しているわけではない。また、より理解し易くする
ために、さらに声調の情報を加えてもよい。
【0015】図1において、日本語文生成処理部107
は、中日形態素解析・構文解析部101で解析された構
文情報や対訳語抽出処理部103で抽出された対訳日本
語,未登録語処理部105で生成された発音表記から、
日本語文生成規則108を参照しながら、日本語文を生
成する。
【0016】以上の処理によって生成された日本語文に
は、GBコードは含まれず、その翻訳結果は、他の日本
語対応のアプリケーションプログラムで処理する際に
も、文字化けを起こさず、また、ユーザは、発音表記を
見て対応する中国語を連想することができるし、あるい
は、対応する日本語に置き換えることができ、これは、
特に、固有名詞に対して有効である。
【0017】図3は図1における対訳語抽出処理部10
3及び未登録語処理部105の処理の一具体例を示すフ
ローチャートである。以下、中国文の一例を示す図4を
用いてその処理動作を説明する。
【0018】いま、図4(1)に示す入力中国語文(意
味は「私はウルムチに行く」ということ)を中国語形態
素解析・構文解析処理部101で解析した結果、図4
(2)に示すように分割された情報が得られたとする
と、この情報が対訳語抽出処理部103に入力される
(ステップ201)。なお、図4(2)は、
「(主)」,「(述)」,「(補)」は、構文解析の結
果、各単語が夫々主語,述語,補語として解析されたこ
とを示す。
【0019】対訳語抽出処理部103では、この図4
(2)に示す情報から、中日対訳辞書104を参照し
て、対訳語抽出を行なうとともに(ステップ202)、
対訳語が存在するかどうか、即ち、未登録語か否かを判
定する(ステップ203)。その結果、図4(3)に示す
ように、「(未登録語)」として示した未登録語が生じ
たとする。
【0020】未登録語でない中国語の単語情報に、図4
(3)に示すように、当該単語の日本語対訳の情報を付加
し、この単語情報を日本語文生成部107(図1)に引
き渡す(ステップ205)。中国語の単語情報が未登録
語である場合には、未登録語の各漢字を、漢字発音テー
ブル106を参照して、図4(4)に示すように、対応
する発音表記に変換して、この単語の発音表記の情報を
付加し(ステップ204)、日本語文生成部107に引
き渡す(ステップ205)。
【0021】以上のようにして得られた情報から、日本
語文生成処理部107では、日本語生成規則108を参
照して、図4(5)に示すような日本語文を生成し、翻
訳結果として出力する。
【0022】得られた翻訳結果は、GBコードを含まな
いため、他のアプリケーションプログラムで処理可能で
ある。
【0023】なお、ここでは、漢字発音テーブル106
を参照して英字発音表記に変換する例を示したが、カタ
カナ発音表記やひらがな発音表記を使用できることはい
うまでもない。カタカナ発音表記を使用した場合には、
図4に示す未登録語は「ウルゥムゥチィ」と変換され
る。
【0024】
【発明の効果】以上説明したように、本発明によれば、
中日翻訳の際に、日本の漢字コードに含まれない中国の
漢字が発生した場合には、それを英字やカタカナ,ひら
がななどの発音表記で表示するものであるから、ユーザ
としては、その翻訳結果を日本固有の文字コードしか使
用できないアプリケーションプログラムで利用する場合
も、文意を正しく把握することができる。
【図面の簡単な説明】
【図1】本発明による未登録語処理方式の一実施形態を
示すブロック構成図である。
【図2】図1における漢字発音テーブルの一具体例を示
す図である。
【図3】図1における対訳語抽出処理部及び未登録語処
理部の処理の一具体例を示すフローチャートである。
【図4】図3に示した処理による翻訳例を示す図であ
る。
【符号の説明】
101 中文形態素解析・構文解析部 102 中国語解析規則 103 対訳語抽出処理部 104 中日対訳辞書 105 未登録語処理部 106 漢字発音テーブル 107 日本語文生成処理部 108 日本語文生成規則

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 中日機械翻訳時に未登録語の漢字を処理
    する未登録語処理方式において、 入力された中国語文の形態素解析・構文解析された夫々
    の単語について、中日対訳辞書を参照して対訳日本語を
    抽出し、該中日対訳辞書に対訳日本語が登録されていな
    い未登録語に対しては、中国語の漢字に対応づけた発音
    表記を保持する漢字発音テーブルを参照することによ
    り、漢字単位に発音表記に変換することを特徴とする未
    登録語処理方式。
  2. 【請求項2】 請求項1において、 前記発音表記は英字で構成することを特徴とする未登録
    語処理方式。
  3. 【請求項3】 請求項1において、 上記発音表記はカタカナ文字で構成することを特徴とす
    る未登録語処理方式。
  4. 【請求項4】 請求項1において、 上記発音表記はひらがな文字で構成することを特徴とす
    る未登録語処理方式。
JP9077849A 1997-03-28 1997-03-28 未登録語処理方式 Pending JPH10269221A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9077849A JPH10269221A (ja) 1997-03-28 1997-03-28 未登録語処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9077849A JPH10269221A (ja) 1997-03-28 1997-03-28 未登録語処理方式

Publications (1)

Publication Number Publication Date
JPH10269221A true JPH10269221A (ja) 1998-10-09

Family

ID=13645513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9077849A Pending JPH10269221A (ja) 1997-03-28 1997-03-28 未登録語処理方式

Country Status (1)

Country Link
JP (1) JPH10269221A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7752032B2 (en) * 2005-04-26 2010-07-06 Kabushiki Kaisha Toshiba Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
US9471568B2 (en) 2013-09-19 2016-10-18 Kabushiki Kaisha Toshiba Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7752032B2 (en) * 2005-04-26 2010-07-06 Kabushiki Kaisha Toshiba Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
US9471568B2 (en) 2013-09-19 2016-10-18 Kabushiki Kaisha Toshiba Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof

Similar Documents

Publication Publication Date Title
JP3277123B2 (ja) 中国語テキストを処理するためのシステムおよび方法
JP2815714B2 (ja) 翻訳装置
JPH0344764A (ja) 機械翻訳装置
JPH10269221A (ja) 未登録語処理方式
JPH0332106B2 (ja)
JPS6310265A (ja) 翻訳装置
JPS6190269A (ja) 翻訳方式
JP2011175306A (ja) 情報処理装置
JP2938897B2 (ja) 文書作成処理装置
JPH1166068A (ja) 機械翻訳装置および機械翻訳方法ならびに機械翻訳プログラムを記録した記録媒体
JP3244286B2 (ja) 翻訳処理装置
JP2719453B2 (ja) 機械翻訳装置
JP2655922B2 (ja) 機械翻訳装置
JP4531325B2 (ja) 機械翻訳装置および機械翻訳方法
JPS63316162A (ja) 文書作成装置
JPH0397066A (ja) 機械翻訳システム
JPH07121542A (ja) 機械翻訳装置
JPH0332105B2 (ja)
JPH01166258A (ja) 機械翻訳装置
JPH05197752A (ja) 機械翻訳装置
JPH03217971A (ja) 機械翻訳装置
JPH03240876A (ja) 機械翻訳装置
JPH06332938A (ja) 自然言語解析装置および機械翻訳装置
JPH02297151A (ja) 文書編集装置
JPH03225462A (ja) ローマ字漢字変換装置