JPH1185760A - 対訳辞書データ抽出方法及び記録媒体 - Google Patents

対訳辞書データ抽出方法及び記録媒体

Info

Publication number
JPH1185760A
JPH1185760A JP9248158A JP24815897A JPH1185760A JP H1185760 A JPH1185760 A JP H1185760A JP 9248158 A JP9248158 A JP 9248158A JP 24815897 A JP24815897 A JP 24815897A JP H1185760 A JPH1185760 A JP H1185760A
Authority
JP
Japan
Prior art keywords
language
japanese
unit
english
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9248158A
Other languages
English (en)
Inventor
Akira Kumano
明 熊野
Hideki Hirakawa
秀樹 平川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9248158A priority Critical patent/JPH1185760A/ja
Publication of JPH1185760A publication Critical patent/JPH1185760A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】本発明の目的は、既存の辞書に存在していない
データも利用し、かつ、第一言語の用語と第二言語の用
語の部分的な照合であっても対訳辞書データとして抽出
することのできる環境をユーザに提供することである。 【解決手段】第一言語の文書から一定の種類の用語を抽
出する第一言語用語抽出方法と、第二言語の文書から一
定の種類の用語を抽出する第二言語用語抽出方法と、上
記第一言語の用語と上記第二言語の用語を発音の類似性
を基に照合する用語照合方法と、上記照合した用語の対
を、出力する対訳出力方法を備えることで実現する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術の分野】本発明は、英語のニュース
記事と、日本語のニュース記事から、新たな用語の対応
関係を抽出して、新たな辞書登録を促すための、対訳辞
書データ抽出方法に関する。
【0002】
【従来の技術】英語の文書と、それに対応する日本語の
文書から、用語の対応関係を抽出して、新たな用語辞書
知識として利用する技術は、最近盛んになってきた。し
かし、これらの多くは、英語と日本語の文単位の対応が
明確な場合に限定されるものであった。ところが、実際
に存在する文書(インターネット上のニュース記事な
ど)では直訳とは限らず、文単位の対応が付く場合はま
れてある。また、対応関係の根拠となるデータとして
は、既存の辞書知識に存在するものを利用していたが、
新しい文書では既存の辞書に存在しない新語が多く含ま
れており、対応の根拠として利用できなかった。
【0003】
【発明が解決しようとする課題】このように、従来の技
術では、実際の多くの文書に対して十分な処理ができな
かった。本発明はこのような課題を解決するためになさ
れたもので、その目的は、既存の辞書に存在していない
データも利用し、かつ、第一言語の用語と第二言語の用
語の部分的な照合であっても対訳辞書データとして抽出
することのできる環境をユーザに提供することである。
【0004】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、第一言語及び第二言語の文書から一定の
種類の用語を抽出し、抽出された第一言語の用語と第二
言語の用語を発音の類似性を基に照合し、照合した用語
の対を出力することを特徴とする対訳辞書データ抽出方
法である。
【0005】
【発明の実施の形態】以下、本発明の一実施例を図面に
基づいて説明する。 (第1の実施例)図1は、本願第1の発明の実施例に係
る対訳辞書データ抽出方法の構成を示すブロック図であ
る。ここでは、第一言語として日本語、第二言語として
英語を例として説明する。入力された日本語テキストデ
ータは、一旦、日本語テキストデータ(記憶部)101
に記憶される。日本語用語抽出手段102では、日本語
テキストデータ101中の所定の種類、例えば専門用
語、固有名詞、新語などの候補を抽出する。抽出に際し
て、特定のものである必要はなく、例えば、既存の語彙
辞書に入っていない語、カタカナ語(表記)などを従来
の形態素解析処理で抽出してもよい。また、専門用語、
固有名詞、新語などの種類、表記等を特定する際に、ユ
ーザに選択させ、設定させる構成を採っても良い。
【0006】103は日本語用語抽出データ(記憶部)
である。日本語用語抽出データ103は、日本語用語抽
出手段102において日本語テキストデータ101中か
ら抽出された、専門用語、固有名詞、新語などの候補を
記憶する。日本語文字変換手段104は、日本語用語抽
出データ103の各語を、英語の表現と比較しやすい表
記に変換する。例えば、日本語のカタカナ読みをローマ
字に変換する。あるいは、英語との発音の類似性を考慮
した独自の表記に変換する。
【0007】201は英語テキストデータ(記憶部)で
ある。英語用語抽出手段202では、英語テキストデー
タ201中から、専門用語、固有名詞、新語などの候補
を抽出する。その方法は、特定のものである必要はな
く、例えば、既存の語彙辞書に入っていない語、大文字
で始まる語などを従来の形態素解析処理で抽出してもよ
い。203は英語用語抽出データ(記憶部)である。英
語文字変換手段204は、英語用語抽出データ203の
各語を、日本語の表現と比較しやすい表記に変換する。
例えば、英語のスペルをローマ字読みのカタカナに変換
する。あるいは、日本語語との発音類似性を考慮した独
自の表記に変換する。
【0008】表記照合手段121には、日本語用語抽出
データ103に記憶された専門用語、固有名詞、新語な
どの候補のデータと、日本語文字変換手段104からの
変換後のデータと、英語用語抽出手段202に記憶され
た専門用語、固有名詞、新語などの候補のデータ、英語
文字変換手段204からの変換後のデータが、各々入力
される。この表記照合手段121では、各日本語用語候
補と各英語用語候補の表記を、発音上の類似性から照合
を行うものである。入力データの違いにより、3種類の
方法がある。
【0009】第1の方法は、日本語文字変換手段104
の出力である変換後の日本語用語候補と、英語文字変換
手段204で変換する前の英語用語候補を照合する方法
である。
【0010】第2の方法は、日本語文字変換手段104
で変換する前の日本語用語候補と、英語文字変換手段2
04の出力である変換後の英語用語候補を照合する方法
である。
【0011】第3の方法は、日本語文字変換手段104
の出力である変換後の日本語用語候補と、英語文字変換
手段204の出力である変換後の英語用語候補を照合す
る方法である。
【0012】抽出用語出力手段122では、表記照合手
段121において照合することが判断された、日本語用
語と英語用語の対を出力するものである。なお、ここで
言う「照合」とは、例えば、「Indonesian」に対する
「インドネシア」のように、英語の用語候補と日本語の
用語候補の間で、発音の類似性が十分に高く、訳語とし
て関係があると推測する処理のことです。日本語用語候
補「インドネシア」と英語用語候補「Indonesian」の照
合を例に上記3 種類の方法で詳しく説明する。 第1 の方法 ・照合対象 = (変換後の日本語用語候補) vs (英語用語
候補) (1) 「インドネシア」を英語の表現と比較しやすい表記
( ローマ字) に変換する J-unit[1] : イ = e, i; J-unit[2] : ン = m, mm, n, nn; J-unit[3] : ド = d, do; J-unit[4] : ネ = ne; J-unit[5] : シ = ci, shi, si, sy; J-unit[6] : ア = a, ar, e, er, o, or, u, ur; (2) 「Indonesian」を照合単位に分割する E-unit[1] : i; E-unit[2] : n; E-unit[3] : do; E-unit[4] : ne; E-unit[5] : si; E-unit[6] : a; E-unit[7] : n; (3) (1) と(2) の対応を調べる (「 」内は一致したもの) イ = e, 「i 」; -> 一致 (J-unit[1]:E-unit[1]) ン = m, mm, 「n 」, nn; -> 一致 (J-unit[2]:E-unit[2]) ド = d, 「do」; -> 一致 (J-unit[3]:E-unit[3]) ネ = 「ne」; -> 一致 (J-unit[4]:E-unit[4]) シ = ci, shi, 「si」, sy; -> 一致 (J-unit[5]:E-unit[5]) ア =「a 」, ar, e, er, o, or, u, ur; -> 一致 (J-unit[6]:E-unit[6]) (なし) = n -> 不一致 (4) 照合スコア = 6 / 7 = 0.86 第2 の方法 ・照合対象 = (日本語用語候補) vs (変換後の英語用語
候補) (1)「インドネシア」を照合単位に分割する J-unit[1] : イ; J-unit[2] : ン; J-unit[3] : ド; J-unit[4] : ネ; J-unit[5] : シ; J-unit[6] : ア; (2)「Indonesian」を日本語の表現と比較しやすい表記
( カタカナ) に変換する E-unit[1] : i = アイ, イ; E-unit[2] : n = ン; E-unit[3] : do = ド, ドゥ; E-unit[4] : ne = ニ, ネ; E-unit[5] : si = サイ, シ, ジ; E-unit[6] : a = ア; E-unit[7] : n = ン; (3) (1)と(2) の対応を調べる (「 」内は一致したもの) i = アイ, 「イ」; -> 一致 (E-unit[1]:J-unit[1]) n = 「ン」; -> 一致 (E-unit[2]:J-unit[2]) do = 「ド」, ドゥ; -> 一致 (E-unit[3]:J-unit[3]) ne = ニ, 「ネ」; -> 一致 (E-unit[4]:J-unit[4]) si = サイ, 「シ」, ジ; -> 一致 (E-unit[5]:J-unit[5]) a = 「ア」; -> 一致 (E-unit[6]:J-unit[6]) n = ン; -> 不一致 (4) 照合スコア = 6 / 7 = 0.86 第3 の方法 ・照合対象 = (変換後の日本語用語候補) vs (変換後の
英語用語候補) (1)「インドネシア」を日本語・英語の中間的表記( 発
音記号に似たもの) に変換する J-unit[1] : イ = E, I; J-unit[2] : ン = M, N; J-unit[3] : ド = D, DO; J-unit[4] : ネ = NE; J-unit[5] : シ = CI, SI; J-unit[6] : ア = A, AR; (2) 「Indonesian」を日本語・英語の中間的表記( 発音
記号に似たもの) に変換する E-unit[1] : i = AI, I; E-unit[2] : n = N; E-unit[3] : do = DO; E-unit[4] : ne = NE, NI; E-unit[5] : si = SAI, SI, ZI; E-unit[6] : a = A; E-unit[7] : n = N; (3) (1) と(2) の対応を調べる (「 」内は一致したもの) イ = E, 「I 」; -> 一致 (J-unit[1]:E-unit[1]) ン = M, 「N 」; -> 一致 (J-unit[2]:E-unit[2]) ド = D, 「DO」; -> 一致 (J-unit[3]:E-unit[3]) ネ = 「NE」; -> 一致 (J-unit[4]:E-unit[4]) シ = CI, 「SI」; -> 一致 (J-unit[5]:E-unit[5]) ア = 「A 」, AR; -> 一致 (J-unit[6]:E-unit[6]) (なし) = n -> 不一致 (4) 照合スコア = 6 / 7 = 0.86 図2は、図1に示す実施例の表記照合手段121での処
理を表す流れ図である。
【0013】以下では、日本語用語候補と英語用語候補
の両方が文字変換手段104、204で変換されたもの
とし、それぞれの変換結果が、複数の照合単位(例え
ば、日本語のローマ字1音節相当部分)に分割できるも
のとする。
【0014】最初のステップS000では、照合スコア
Score を0に初期化する。ステップS001では、日本
語の照合単位のポインタJptrを先頭(1) に設定する。次
のステップS002では、ポインタJptrの値から、日本
語の照合単位J-unit[Jptr]を取り出す。ステップS00
3では、ステップS002で取り出せたか否かを判断
し、取り出せれば次のステップS004に進み、取り出
せなければ、処理を終了する。
【0015】ステップS004では、英語の照合単位の
ポインタEptrを先頭(1) に設定する。次のステップS0
05では、ポインタEptrの値から、英語の照合単位E-un
it[Eptr]を取り出す。ステップS006では、ステップ
S005で取り出せたか否かを判断し、取り出せれば次
のステップS007に進み、取り出せなければ、ステッ
プS010に進む。
【0016】ステップS007では、日本語の照合単位
J-unit[Jptr]と英語の照合単位E-unit[Eptr]が一致する
かを調べ、一致すればステップS009に進み、一致し
なければステップS008に進む。ステップS008で
は、英語の照合単位のポインタEptrを1 つ増やし、ステ
ップS005に戻って、次の英語の照合単位E-unit[Ept
r]を取り出す。
【0017】ステップS009では、照合スコアScore
を1 増やし、ステップS010に進む。ステップS01
0では、日本語の照合単位のポインタJptrを1 つ増や
し、ステップS002に戻って、次の日本語の照合単位
J-unit[Jptr]を取り出す。
【0018】以上の処理を行うことによって、日本語用
語候補と英語用語候補の照合スコアScore が算出でき
る。用語候補の照合単位の数に対する照合スコアScore
の比が、一定値(例えば0.8)以上なら、日本語用語
候補と英語用語候補は照合すると判断する。なお、この
一定値の設定は、類似性が十分高いことを示す数値であ
れば0.9でも0.75でもかまわない。
【0019】図3は、図1に示す実施例の抽出用語出力
手段の出力例である。日本語の用語と英語の用語を対に
して表示している。このような対が表示された後、対訳
辞書データ抽出方法として、(1) 対訳のペアごとに、ユ
ーザが正しいと認めることによって、辞書に自動的に登
録される。
【0020】(2) もしくは、複数の対訳ペアのリストか
ら、ユーザが正しいものを選択し、また、一部修正でき
るものは修正して辞書に登録する。等により辞書作成さ
れる。
【0021】以上説明した実施例において、少なくとも
第1図の日本語用語抽出手段102、英語用語抽出手段
202、表記照合手段121に相当する機能を実現する
プログラムが静的に記録されているFD、HD、CD−
ROM等の記録媒体を用いて実現しても良い。この場
合、日本語テキストデータ(記憶部)101等の構成と
協調して本願発明を実施できる。又、第1図の日本語用
語抽出手段102、英語用語抽出手段202、日本語文
字変換手段104、英語文字変換手段204、表記照合
手段121に相当する機能を実現するプログラムが静的
に記録されているFD、HD、CD−ROM等の記録媒
体を用いて実現しても良い。
【0022】なお、本発明は上記の実施例に限定される
ものではない。対象とする言語は、ドイツ語と日本語な
ど、他の言語間で行ってもよい。また、対訳データ出力
内容には、照合スコアを併記してもよいし、照合スコア
の高い順、すなわち、照合が確からしいと判断した順
に、並べ変えて表示することで、ユーザに有効な情報を
効率よく呈示することができる。
【0023】要するに、既存辞書に存在しない新語を多
く含み、かつ、文単位での対応関係が明確でない2か国
語文書データから、対訳辞書データを抽出することが可
能になる。また、本願発明は、このような主旨を逸脱し
ない範囲で種々変形して実施することができる。
【0024】
【発明の効果】以上説明したように本発明によれば、既
存の辞書に存在していないデータを利用し、かつ、第一
言語の用語と第二言語の用語の部分的な照合であっても
対訳辞書データとして抽出することのできる環境をユー
ザに提供することができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示すブロック図
【図2】表記照合手段の処理を示す流れ図
【図3】対訳辞書データの出力例
【符号の説明】
101…日本語テキストデータ 102…日本語用語抽出手段 103…日本語用語抽出データ 104…日本語文字変換手段 201…英語テキストデータ 202…英語用語抽出手段 203…英語用語抽出データ 204…英語文字変換手段 121…表記照合手段 122…抽出用語出力手段

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】第一言語および第二言語各々の文書から所
    定の種類の用語を抽出し、 前記第一言語および第二言語の用語を発音の類似性を基
    に照合し、 照合した用語の対を出力することを特徴とする対訳辞書
    データ抽出方法。
  2. 【請求項2】第一言語および第二言語各々の文書から所
    定の種類の用語を抽出し、 前記第一言語および第二言語の用語を発音の類似性を基
    に照合し、 照合した用語の対を関連付けて記憶することを特徴とす
    る対訳辞書データ抽出方法。
  3. 【請求項3】第一言語および第二言語各々の文書から所
    定の種類の用語を抽出し、 前記第一言語の表記を第二言語に合わせて変換し、 変換された用語と第二言語の用語とを所定の類似性を基
    に照合し、 照合した用語の対を出力することを特徴とする対訳辞書
    データ抽出方法。
  4. 【請求項4】第一言語が日本語で、第二言語が英語の場
    合、前記第一言語の表記をローマ字の表記に変換する
    か、あるいは前記第二言語の表記をローマ字読みのカタ
    カナ表記に変換することを特徴とする請求項3記載の対
    訳辞書データ抽出方法。
  5. 【請求項5】類似性に基づく用語の照合は、第一言語及
    び第二言語の用語の部分的な照合に基づくことを特徴と
    する請求項1乃至請求項3記載の対訳辞書データ抽出方
    法。
  6. 【請求項6】入力される第一言語および第二言語各々の
    文書から所定の種類の用語を抽出する機能と、 抽出された前記第一言語および第二言語の用語を発音の
    類似性を基に照合する機能とを記録することを特徴とす
    る記録媒体。
  7. 【請求項7】入力される第一言語および第二言語各々の
    文書から所定の種類の用語を抽出する機能と、 抽出した前記第一言語の表記を第二言語に合わせて変換
    する機能と、 変換された前記第一言語の用語と第二言語の用語を発音
    の類似性を基に照合する機能とを記録することを特徴と
    する記録媒体。
JP9248158A 1997-09-12 1997-09-12 対訳辞書データ抽出方法及び記録媒体 Pending JPH1185760A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9248158A JPH1185760A (ja) 1997-09-12 1997-09-12 対訳辞書データ抽出方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9248158A JPH1185760A (ja) 1997-09-12 1997-09-12 対訳辞書データ抽出方法及び記録媒体

Publications (1)

Publication Number Publication Date
JPH1185760A true JPH1185760A (ja) 1999-03-30

Family

ID=17174093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9248158A Pending JPH1185760A (ja) 1997-09-12 1997-09-12 対訳辞書データ抽出方法及び記録媒体

Country Status (1)

Country Link
JP (1) JPH1185760A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010519655A (ja) * 2007-02-26 2010-06-03 ベイシス テクノロジー コーポレーション 名前照合システムの名前インデックス付け

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010519655A (ja) * 2007-02-26 2010-06-03 ベイシス テクノロジー コーポレーション 名前照合システムの名前インデックス付け

Similar Documents

Publication Publication Date Title
US7680649B2 (en) System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
US8041559B2 (en) System and method for disambiguating non diacritized arabic words in a text
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
JPH1011447A (ja) パターンに基づく翻訳方法及び翻訳システム
US20140289238A1 (en) Document creation support apparatus, method and program
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
JP6799562B2 (ja) 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム
KR100509917B1 (ko) 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법
Qu et al. Finding ideographic representations of Japanese names written in Latin script via language identification and corpus validation
JP4886244B2 (ja) 機械翻訳装置および機械翻訳プログラム
Yang et al. Spell Checking for Chinese.
JPH1185760A (ja) 対訳辞書データ抽出方法及び記録媒体
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
JP2017004051A (ja) 書き換え規則獲得装置、方法、及びプログラム
Mon Spell checker for Myanmar language
Li et al. The study of comparison and conversion about traditional Mongolian and Cyrillic Mongolian
US20240160839A1 (en) Language correction system, method therefor, and language correction model learning method of system
JP2002297585A (ja) 英文名詞句の区分方法,英文構文情報生成方法および装置
JP2008249761A (ja) 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置
Ekbal et al. Named entity transliteration
Zhou Maximum n-gram HMM-based name transliteration: Experiment in NEWS 2009 on English-Chinese corpus
JP2005038291A (ja) 機械翻訳装置および方法、機械翻訳プログラム
Echizen‐Ya et al. Machine translation using recursive chain‐link‐type learning based on translation examples
Sadigh et al. A rule-based approach to farsi language text-to-phoneme conversion.
Lia et al. Cross-lingual part-of-speech tagging for Maltese