JP2995783B2 - カタカナ語の訳語推定装置 - Google Patents

カタカナ語の訳語推定装置

Info

Publication number
JP2995783B2
JP2995783B2 JP2041877A JP4187790A JP2995783B2 JP 2995783 B2 JP2995783 B2 JP 2995783B2 JP 2041877 A JP2041877 A JP 2041877A JP 4187790 A JP4187790 A JP 4187790A JP 2995783 B2 JP2995783 B2 JP 2995783B2
Authority
JP
Japan
Prior art keywords
target language
translation
character string
katakana
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2041877A
Other languages
English (en)
Other versions
JPH03244074A (ja
Inventor
裕子 田邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2041877A priority Critical patent/JP2995783B2/ja
Publication of JPH03244074A publication Critical patent/JPH03244074A/ja
Application granted granted Critical
Publication of JP2995783B2 publication Critical patent/JP2995783B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は技術文書に頻出するカタカナ語の辞書未登録
語についてその対訳語を推定するカタカナ語の訳語推定
装置に関する。
〔従来の技術〕
技術文書中には、カタカナ語が頻出する。それらのカ
タカナ語は原言語の読みをそのままカタカナにしたもの
であり日本語として定着していないもの、或は通常は別
の訳語が当られているものも多い。又、その技術文書の
筆者によりカタカナ語化の程度(どの位の語をカタカナ
で表記するか)もさまざまである。
従来の機械翻訳では、カタカナ語が未定義語、即ち辞
書に登録されていない語であると認定された場合、その
扱いは他の未定義語と同じであり、機械翻訳等において
は訳文中に原語またはローマ字化した形で挿入してい
た。カタカナで表記されている、即ち外来語であるとい
う情報は全く利用されていなかった。
〔発明が解決しようとする課題〕
上述した従来の技術では、カタカナ語を処理するため
にはまず辞書登録を行わなければならず、新語全体に占
めるカタカナ語の割合と、それらカタカナ新語の不安定
さを考え合わせると、これは処理の遅延を引き起こすの
みならず辞書登録の煩雑さを不必要に増加させてしまう
という問題点があった。
〔課題を解決するための手段〕
本発明のカタカナ語の訳語推定装置は、対象言語の読
みをそのままカタカナにしたカタカナ文字列を第1のロ
ーマ字列に変換するカナ−ローマ字変換手段と;前記第
1のローマ字列から前記対象言語における訳語候補への
変換を行うローマ字−訳語候補変換手段と:前記訳語候
補の中から実際の前記対象言語に存在する語のみを抽出
する単語認定手段と;前記対象言語と日本語との間の対
訳辞書と;その辞書を検索する辞書検索手段と;入力さ
れた前記カタカナ文字列に対する最終的な訳語候補及び
その対訳を表示する表示手段とを有し、前記ローマ字−
訳語候補変換手段が、前記第1のローマ字列の中のどの
位置に出現するかによって対応する前記対象言語のつづ
りが決定される、字数が1の場合を含む第2のローマ字
列と前記第2のローマ字列に対応する前記対象言語のつ
づりとの関係を示すテーブルをあらかじめ内蔵し、前記
第1のローマ字列から前記対象言語の訳語候補に変換す
る際に、前記テーブルの前記第2のローマ字列と前記対
象言語のつづりとの関係を変換規則として参照して前記
第1のローマ字列から前記対象言語のつづりを出力し前
記第1のローマ字列を前記対象言語における訳語候補に
変換するように構成される。
〔実施例〕
次に、本発明について図面を参照して説明する。
第1図に示すように、本発明の一実施例は、カタカナ
語を入力する入力装置1−1と、そこから入力されたカ
タカナ語列をローマ字列に変換するカナ−ローマ字変換
手段1−2と、ローマ字列を対象言語におけるつづり方
の規則にしたがって変換するローマ字−訳語候補変換部
1−3と、その変換規則を保持するテーブル1−8と、
訳語候補郡中よりその対象言語に存在する語のみを抽出
する単語認定部1−4及びその際に用いられる辞書1−
9と、対象言語−日本語間の対訳辞書1−10(上記辞書
1−9と同じものを使うことも可能)と、その対訳辞書
を検索する辞書検索手段1−5と、得られた訳語候補と
その対訳とを表示する表示手段1−6と、上記各装置又
は手段間で受渡しされるデータを格納しておく出力バッ
ファ1−7とから構成される。
次に、動作を説明する。
第1図において、カタカナ語の入力は入力装置1−1
を用いて行う。また、下記各装置又は手段間の中間デー
タの格納、受渡しには入出力バッファ1−7を用いる。
カナ−ローマ字変換手段は、従来のカナ−ローマ字変換
機能と同様の機能を有し、入力カタカナ列をローマ字列
に変換する。ローマ字−訳語候補変換手段は、ローマ字
−訳語候補変換部1−3と、その変換規則をデータとし
て格納するテーブル1−8によりなる。ローマ字−訳語
候補変換部はテーブルを用いて入力カタカナ列を変換し
て得られたローマ字列に対し、一般に複数個の訳語候補
を与える。尚、テーブルがもつローマ字−訳語候補変換
規則(以下、変換規則と称する)については第2図を用
いて説明する。この変換規則は、カタカナ語、従ってそ
のローマ字表記がその原語語である対象言語におけるそ
の語の発音をできる限り忠実に表しているという事実を
前提としている。即ち、(1)原語語における語の発音
とそのつづりの間の関係、及び、(2)その言語の発音
体系と日本語の発音体系との差異(例えば日本語にはl
とrの区別がない)から生じる発音の認識規則、の2つ
を合成して得られた規則である。具体的には、各子音及
び母音が着目する言語間でどういう対応規則を持ってい
るか、及びそれらの組合わさった場合の対応規則はどう
なっているかを、単語内の位置(語頭/語中/語末の
別)と組合せて記述し対応表になる。
第2図は、この変換規則の格納形式を具体例を挙げな
がら示したものである。テーブルにおいて、変換規則
は、ローマ字(列)およびその語中の出現位置を指定す
る条件部と、その条件に合致した場合の変換結果である
対象言語の候補文字(列)(この例の場合英語のアルフ
ァベット(列))のセットを与える出力部よりなる。ロ
ーマ字−訳語候補変換部は、テーブルのもつこの変換規
則を用いて、すべての可能な出力文字列の組合せを与え
る。単語認定手段は単語認定部1−4と対象言語の表層
語の大量データを格納する辞書1−9とからなる。単語
認定部は、従来技術であるスペルチェック機能と同様の
機能を有し、辞書中の語とのマッチングを行って、ロー
マ字−訳語候補変換手段の出力である訳語候補文字列が
正しい単語であるかどうかを認定し、該当する語が辞書
中に存在しない場合には候補から外す。辞書検索手段1
−5は、こうして絞り込まれた訳語候補をキーに対訳辞
書1−10を検索し、その結果を表示手段1−6に送る。
表示手段は、入力カタカナ列の指定を受けて、その訳語
候補とその対訳(日本語)を対にして適宜表示する。
入力装置1−1から入力されたカタカナ語“コンピュ
ータ”は、カナ−ローマ字変換手段1−2によってロー
マ字列“KONPYUUTA"に変換されローマ字−訳語候補変換
手段に渡される。ローマ字訳語候補変換語1−3は第2
図に示すテーブル1−8を用い、以下のようにして訳語
候補を作成する。
・ KのあとにOが来ているから、Kはcに変換され
る。
・ Oはoに変換される。
・ NのあとにPが来ているから、Nはmに変換され
る。
・ Pはpに変換される。
・ YUUはuまたはyouに変換される。
・ Tはtまたはthに変換される。
・ 語末のAはerまたはarまたはorまたはaに変換され
る。
上記を組み合わせ、訳語候補として、 “computer"、“compyouter"、“computher"、“comp
youther"、 “computar"、“compyoutar"、“computhar"、“comp
youthar"、 “computor"、“compyoutor"、“computhor"、“comp
youthor"、 “computa"、“compyouta"、“computha"、“compyou
tha" を得る。
この16個の訳語候補に対し、単語認定部1−4は辞書
1−9を用いてスペルチェックを行い、結果として、
“computer"以外の候補を棄却する。(注:いつも候補
が一意に決まるわけではない。例えば“ラグ”等は“la
g"、“lug"、“rag"、“rug"の4つが残る。)辞書検索
手段1−5は対訳辞書1−10で“computer"を検索し、
表示手段1−6はその結果を受けて“計算機”という訳
語を“computer"と一緒に表示する。
〔発明の効果〕
以上説明したように、本発明は、カタカナ表記の特質
を利用して対象言語内の訳語候補を抽出するために、未
定義語として未処理のままにされてしまう可能性の多い
カタカナ語について、翻訳を行ったり原語のつづりを調
べたりすることが容易に効果的にできるようになるとい
う効果がある。
【図面の簡単な説明】
第1図は本発明の機能構成図、第2図はローマ字−訳語
候補変換規則の格納形式を示した図である。 1−1……入力装置、1−2……カナ−ローマ字変換手
段、1−3……ローマ字−訳語候補変換部、1−4……
単語認定部、1−5……辞書検索手段、1−6……表示
手段、1−7……入出力バッファ、1−8……テーブ
ル、1−9……辞書、1−10……対訳辞書。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】対象言語の読みをそのままカタカナにした
    カタカナ文字列を第1のローマ字列に変換するカナ−ロ
    ーマ字変換手段と;前記第1のローマ字列から前記対象
    言語における訳語候補への変換を行うローマ字−訳語候
    補変換手段と:前記訳語候補の中から実際の前記対象言
    語に存在する語のみを抽出する単語認定手段と;前記対
    象言語と日本語との間の対訳辞書と;その辞書を検索す
    る辞書検索手段と;入力された前記カタカナ文字列に対
    する最終的な訳語候補及びその対訳を表示する表示手段
    とを有し、前記ローマ字−訳語候補変換手段が、前記第
    1のローマ字列の中のどの位置に出現するかによって対
    応する前記対象言語のつづりが決定される、字数が1の
    場合を含む第2のローマ字列と前記第2のローマ字列に
    対応する前記対象言語のつづりとの関係を示すテーブル
    をあらかじめ内蔵し、前記第1のローマ字列から前記対
    象言語の訳語候補に変換する際に、前記テーブルの前記
    第2のローマ字列と前記対象言語のつづりとの関係を変
    換規則として参照して前記第1のローマ字列から前記対
    象言語のつづりを出力し前記第1のローマ字列を前記対
    象言語における訳語候補に変換することを特徴とするカ
    タカナ語の訳語推定装置。
JP2041877A 1990-02-21 1990-02-21 カタカナ語の訳語推定装置 Expired - Fee Related JP2995783B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2041877A JP2995783B2 (ja) 1990-02-21 1990-02-21 カタカナ語の訳語推定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2041877A JP2995783B2 (ja) 1990-02-21 1990-02-21 カタカナ語の訳語推定装置

Publications (2)

Publication Number Publication Date
JPH03244074A JPH03244074A (ja) 1991-10-30
JP2995783B2 true JP2995783B2 (ja) 1999-12-27

Family

ID=12620503

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2041877A Expired - Fee Related JP2995783B2 (ja) 1990-02-21 1990-02-21 カタカナ語の訳語推定装置

Country Status (1)

Country Link
JP (1) JP2995783B2 (ja)

Also Published As

Publication number Publication date
JPH03244074A (ja) 1991-10-30

Similar Documents

Publication Publication Date Title
JPH0981566A (ja) 翻訳装置及び翻訳方法
JPS6211932A (ja) 情報検索方法
JP4886244B2 (ja) 機械翻訳装置および機械翻訳プログラム
JP2848729B2 (ja) 翻訳方法および翻訳装置
JP2995783B2 (ja) カタカナ語の訳語推定装置
JPH0344343B2 (ja)
KR100376931B1 (ko) 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법
Long et al. Longest matching and rule-based techniques for Khmer word segmentation
JPH1011431A (ja) 漢字検索装置および方法
JPH0343662B2 (ja)
JP2821143B2 (ja) 形態素分解装置
JPH04188364A (ja) 日本文固有用語抽出装置
CN115310458A (zh) 一种人名翻译方法、系统、设备及计算机可读存储介质
JPS63156275A (ja) かな・カナ変換候補自動追加式氏名入力装置
JP3552750B2 (ja) 文書処理装置
JPS6174060A (ja) 外来語簡易入力方式
JP2006134051A (ja) 翻訳装置、翻訳方法およびプログラム
JPH05197752A (ja) 機械翻訳装置
Rina et al. A method for intelligent association of chinese input using inductive learning
JPH04241066A (ja) 文書処理装置における電子化辞書検索方式
JPH0750487B2 (ja) 情報抽出装置
JPS63103378A (ja) 言語解析装置
JPH0574867B2 (ja)
JPH11110378A (ja) 仮名漢字変換装置、仮名漢字変換方法および仮名漢字変換プログラムを記録した記録媒体
JPH02110771A (ja) 電訳機

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071029

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091029

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees