JP2003263432A - 翻字装置及びそのプログラム - Google Patents
翻字装置及びそのプログラムInfo
- Publication number
- JP2003263432A JP2003263432A JP2002062296A JP2002062296A JP2003263432A JP 2003263432 A JP2003263432 A JP 2003263432A JP 2002062296 A JP2002062296 A JP 2002062296A JP 2002062296 A JP2002062296 A JP 2002062296A JP 2003263432 A JP2003263432 A JP 2003263432A
- Authority
- JP
- Japan
- Prior art keywords
- conversion
- word
- candidate
- transliteration
- conversion rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
うことができる翻字装置及びそのプログラムを提供する
ことを目的とする。 【解決手段】 データベースを用いて、他言語の文字と
対応付けられた部分を変換候補とする候補変換規則を作
成し、他言語の文字とその周囲の文脈情報に依存した変
換候補への文脈依存変換規則を作成し、文脈依存変換規
則を学習データとして、変換候補の適用スコアを計算す
るための確率モデルを統計的に学習し、変換対象の他言
語の単語を候補変換規則を用いて複数の変換候補に変換
し、確率モデルから得られる適用スコアに基づいて最適
な変換候補を選択して外来語の単語の子音と母音に分か
れた表記の文字列を生成することにより、他言語の翻字
処理を高い精度で行うことができ、辞書に登録がない他
言語の単語からも外来語を生成することができる。
Description
プログラムに関し、他言語の単語から発音的に対応する
外来語の単語に変換を行う翻字装置及びそのプログラム
に関する。
る外来語としてのカタカナの単語への変換を行う翻字処
理は、他言語を発音記号(音韻体系)に変換してから、
発音記号をカタカナに変換する第1の方式(参考文献
1:堀内雄一,山崎一生、1990.英単語のアルファ
ベット表記から仮名表記への変換.情報処理学会自然言
語処理研究会報告,No.97−1,pp.1−8)
や、他言語からカタカナへ直接変換する小規模な変換テ
ーブルを用いた第2の方式(参考文献2:住吉英樹,相
沢輝昭、英語固有名詞の片カナ変換.1994.情報処
理学会論文誌,Vol.35,No1,pp.35−4
5)がある。
方式では、他言語を発音記号へ変換することが困難であ
り、第2の小規模な変換テーブルを用いた方式では、詳
細な文脈利用ができないため精度に問題があることなど
から、高い精度で翻字処理を行うことはできないという
問題があった。
で、他言語の翻字処理を高い精度で行うことができる翻
字装置及びそのプログラムを提供することを目的とす
る。
明は、外来語の単語の子音と母音に分かれた表記と対訳
の他言語の単語との発音的に類似する部分が対応付けら
れたデータベースを用いて、前記他言語の文字と対応付
けられた部分を変換候補とする候補変換規則を作成し、
前記他言語の文字とその周囲の文脈情報に依存した変換
候補への文脈依存変換規則を作成し、前記文脈依存変換
規則を学習データとして、変換候補の適用スコアを計算
するための確率モデルを統計的に学習し、変換対象の他
言語の単語を前記候補変換規則を用いて複数の変換候補
に変換し、前記確率モデルから得られる適用スコアに基
づいて最適な変換候補を選択して外来語の単語の子音と
母音に分かれた表記の文字列を生成することにより、他
言語の翻字処理を高い精度で行うことができ、辞書に登
録がない他言語の単語からも外来語を生成することがで
きる。
の子音と母音に分かれた表記の文字列はローマ字であ
り、文字列生成手段の生成した文字列をカタカナへ変換
することにより、他言語の単語をカタカナの外来語に変
換することができる。
明する。
対応する外来語としてのカタカナを推定するには、英語
の単語の文字列をw=(w1w2…wn)、カタカナの
単語の文字列をv=(v1v2…vm)とすると、
(1)式を満たすvを求めることと考えることができ
る。なお、(1)式は入力wで出力vを得る確率が最大
になるvを選ぶことを意味する。
ータが多すぎて困難である。そこで、(1)式を近似し
て英語の文字列の各部分に対応するカタカナ文字を推定
し、これらをつなぐことでカタカナ文字列の単語を推定
する。また、カタカナは英語の発音をある程度表してい
るので、翻字処理は、英語の各部分の発音を推定する処
理と考えることもできる。簡易な翻字処理の方法とし
て、(1)式を次のように近似することが考えられる。
各文字(あるいは部分文字列)wiに対応するカタカナ
viをwiから推定しており、ΠPはPの積を表してい
る。しかし、英語の各文字の発音は、周囲の文字列とい
う文脈情報の影響を受けて変化する。そこで、推定精度
を向上させるために、(1)式を次のように近似するこ
とを考える。
文字列(前a文字、後b文字)から行っている。
象をローマ字化したカタカナの文字列z=(z1z2…
zi)とした(4)式の確率モデルPを用いる。なお、
カタカナをローマ字化した表記は、子音と母音に分離さ
れ発音を表すので、以後SR(Separsted R
epresentation)と呼ぶ。
す。そして、確率モデルの推定には、英語の発音の推測
に有効な周囲の文脈情報を特徴量として捉え、それらを
組み合わせた素性を利用する。
を得た後で、カナ変換テーブルを用いてzをSRからカ
タカナへ変換する。以上の方法により、詳細な文脈情報
を利用して精度の高い翻字処理を行うことを可能とす
る。
いて説明する。
ロック図を示す。翻字装置はコンピュータシステムで構
成されている。同図中、ハードディスク装置10にはC
PU12で実行する各種プログラム、データベース、変
換規則、確率モデル、カナ変換テーブル等が記憶され
る。CPU12はハードディスク装置10から読み出さ
れるプログラムを実行して翻字処理を行う。この際に、
CPU12はRAM14を作業領域として使用する。
の単語等を外部から入力するために使用される。入力装
置18はキーボードやマウス等のポインティングデバイ
スである。ディスプレイ装置20は入力された他言語の
単語や翻字処理結果等の表示を行う。上記のハードディ
スク装置10からディスプレイ装置20までの各部はバ
ス22で相互に接続されている。
ラムの学習フェーズのフローチャートを示し、図3は、
CPU12が実行する翻字プログラムの実行フェーズの
フローチャートを示す。
ースに登録されている部分対応付けされたSRと英語と
の単語対を用いて、翻字処理の変換候補を作成するため
候補変換規則を作成する。図4に部分対応付けされたS
Rと英語との単語対の一例を示す。図4では、英語の
「th」とSRの「sh」が対応付けられ、英語の
「e」とSRの「i」が対応付けられ、英語の「s」と
SRの「s」が対応付けられ、英語の「au」とSRの
「o−」が対応付けられ、英語の「r」とSRの「r」
が対応付けられ、英語の「u」とSRの「a」が対応付
けられ、英語の「s」とSRの「su」が対応付けられ
ている。
録されている部分対応付けされたSRと英語との単語対
を用いて、翻字処理で利用する確率モデル学習のための
文脈依存変換規則を作成する。
におけるa,bの値をa=2,b=3とする。その場
合、確率モデルで用いる文脈依存の変換規則は、図5に
示す基本特徴量から求める。基本特徴量の0番は、求め
たい出力値zi(SRの値)であり、他の基本特徴量は
入力値(wi−2,wi−1,wi,wi+1,wi+
2,wi+3)から得られる特徴量である。
字のほかに、変換対象の前後の子音(C)、半母音
(H)、母音(V)の区別、及び変換対象の前後の文字
自体の区別との3種類の情報を用いる。但し、英語の単
語の直前には「^」、直後に「$」という仮想の文字を
挿入し、それらは、子音(C)として扱う。また、文字
が存在しない基本特徴量はNULLとする。図5に示す
基本特徴量の1番は、変換対象の英語の文字wiである
という特徴量であり、基本特徴量の2番は、変換対象の
1つ後の文字wi+1が子音、半母音、母音であるとい
う特徴量である。
条件と変換候補の組を素性とする。図6に学習に用いる
素性を示す。文脈依存変換規則は、図6に示す全ての素
性種別について、図6の条件の値と変換候補の値の組み
合わせを満たす場合に、基本特徴量1を基本特徴量0に
変換する規則とする。
で、変換対象の文字が「t」であり、学習データで
「t」に対応するSRが「to」であり、素性種別0を
考えた場合、基本特徴量1が「t」で、基本特徴量2が
「r」のとき、基本特徴量1の「t」は基本特徴量0の
「to」に変換されるという規則である。
作成する。また、変換候補を作成する規則は、学習デー
タに出現した基本特徴量1の値と基本特徴量0の値との
組から、基本特徴量1の変換先を基本特徴量0とする規
則とする。
換規則を用いて、文脈依存の適用スコアを出力する確率
モデルを統計的に求める。統計的手法としては各種存在
するが、ここでは、例として、最大エントロピー法(M
E)による学習を用いる。
れた制約を満たすモデルの中で最も一様な分布のモデル
を選択する。ここで分布の一様さは、確率モデルのエン
トロピーH(P)を用いる。
あり、xはwi−2,wi−1,wi,wi+1,w
i+2,wi+3より得た図6の条件に示す基本特徴量
の組み合わせの値全てである。また、yは出力値z
i(SRの値)であり、P(x,y)はxとyの同時確
率分布を表す。
を満たしていなければならない。これは、まず、n個の
xとyの組み合わせを(x,y)i,i∈{1,2,
…,n}として、素性関数を次式で定義する。
(x,y)と表現すると、P(x,y)に対する制約は
i∈{1,2,…,n}に対して次式のようになる。
する確率モデルP*は、pの中でエントロピーを最大に
するもので、次式で表される。
のSRであるから、求めたい規則適用スコアは、条件付
確率P(y|x)となる。すると、(7)式は、このモ
デルを用いて次式のようになる。
ラメータを学習することで適用スコアつまり条件付確率
を計算する確率モデルとなる。
英語の単語から候補変換規則(ステップS1で作成)に
基づいて変換候補のSRを生成する。
モデル(ステップS3で作成)を用いて文脈依存の適用
スコアを求める。
コアの積を最大にする変換候補SR列を選択し、変換対
象の英語の単語を変換候補SR列に変換する。ここで
は、英語の単語の変換候補SRは、図7に示すように、
ラティス構造として得られ、各変換候補SRにはステッ
プS3で学習した確率モデルを用いて適用スコアを付与
する。そこで(4)式を満たす最適パスを求め、英語を
SRへ変換する。
カタカナへ変換するSRの文字をカタカナの文字へ変換
するカナ変換テーブルを用いてSRをカタカナへ変換す
る。
語でも、翻字処理によって、他言語の単語からカタカナ
の単語を高い精度で生成することができるため、他言語
から日本語へ翻訳する際の翻訳率を向上することができ
る。
カナに変換する翻字処理であるが、例えばフランス語か
ら日本語のカタカナへの翻字処理や、例えば英語からハ
ングルへの翻字処理に適応しても良く、上記実施例に限
定されない。
換規則作成手段に対応し、ステップS2が文脈依存変換
規則作成手段に対応し、ステップS3が学習手段に対応
し、ステップS4〜S6が文字列生成手段に対応し、ス
テップS7がカナ変換手段に対応する。
は、外来語の単語の子音と母音に分かれた表記と対訳の
他言語の単語との発音的に類似する部分が対応付けられ
たデータベースを用いて、他言語の文字と対応付けられ
た部分を変換候補とする候補変換規則を作成し、他言語
の文字とその周囲の文脈情報に依存した変換候補への文
脈依存変換規則を作成し、文脈依存変換規則を学習デー
タとして、変換候補の適用スコアを計算するための確率
モデルを統計的に学習し、変換対象の他言語の単語を候
補変換規則を用いて複数の変換候補に変換し、確率モデ
ルから得られる適用スコアに基づいて最適な変換候補を
選択して外来語の単語の子音と母音に分かれた表記の文
字列を生成することにより、他言語の翻字処理を高い精
度で行うことができ、辞書に登録がない他言語の単語か
らも外来語を生成することができる。
の子音と母音に分かれた表記の文字列はローマ字であ
り、文字列生成手段の生成した文字列をカタカナへ変換
することにより、他言語の単語をカタカナの外来語に変
換することができる。
る。
トである。
トである。
例を示す図である。
造を示す図である。
Claims (4)
- 【請求項1】 他言語の単語を発音的に対応する外来語
の単語に変換する翻字装置において、 外来語の単語の子音と母音に分かれた表記と対訳の他言
語の単語との発音的に類似する部分が対応付けられたデ
ータベースを用いて、前記他言語の文字と対応付けられ
た部分を変換候補とする候補変換規則を作成する候補変
換規則作成手段と、 前記他言語の文字とその周囲の文脈情報に依存した変換
候補への文脈依存変換規則を作成する文脈依存変換規則
作成手段と、 前記文脈依存変換規則を学習データとして、変換候補の
適用スコアを計算するための確率モデルを統計的に学習
する学習手段と、 変換対象の他言語の単語を前記候補変換規則を用いて複
数の変換候補に変換し、前記確率モデルから得られる適
用スコアに基づいて最適な変換候補を選択して外来語の
単語の子音と母音に分かれた表記の文字列を生成する文
字列生成手段とを有することを特徴とする翻字装置。 - 【請求項2】 請求項1記載の翻字装置において、 前記外来語の単語の子音と母音に分かれた表記の文字列
はローマ字であり、 前記文字列生成手段の生成した文字列をカタカナへ変換
するカナ変換手段を有することを特徴とする翻字装置。 - 【請求項3】 他言語の単語を発音的に対応する外来語
の単語に変換するためにコンピュータを、 外来語の単語の子音と母音に分かれた表記と対訳の他言
語の単語との発音的に類似する部分が対応付けられたデ
ータベースを用いて、前記他言語の文字と対応付けられ
た部分を変換候補とする候補変換規則を作成する候補変
換規則作成手段、 前記他言語の文字とその周囲の文脈情報に依存した変換
候補への文脈依存変換規則を作成する文脈依存変換規則
作成手段、 前記文脈依存変換規則を学習データとして、変換候補の
適用スコアを計算するための確率モデルを統計的に学習
する学習手段、 変換対象の他言語の単語を前記候補変換規則を用いて複
数の変換候補に変換し、前記確率モデルから得られる適
用スコアに基づいて最適な変換候補を選択して外来語の
単語の子音と母音に分かれた表記の文字列を生成する文
字列生成手段、として機能させるための翻字プログラ
ム。 - 【請求項4】 請求項3記載の翻字プログラムにおい
て、 前記外来語の単語の子音と母音に分かれた表記の文字列
はローマ字であり、コンピュータを、 前記文字列生成手段の生成した文字列をカタカナへ変換
するカナ変換手段、 として機能させるための翻字プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002062296A JP3961858B2 (ja) | 2002-03-07 | 2002-03-07 | 翻字装置及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002062296A JP3961858B2 (ja) | 2002-03-07 | 2002-03-07 | 翻字装置及びそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003263432A true JP2003263432A (ja) | 2003-09-19 |
JP3961858B2 JP3961858B2 (ja) | 2007-08-22 |
Family
ID=29196135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002062296A Expired - Fee Related JP3961858B2 (ja) | 2002-03-07 | 2002-03-07 | 翻字装置及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3961858B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014106857A (ja) * | 2012-11-29 | 2014-06-09 | Mitsubishi Electric Corp | アルファベット読み推定装置 |
JP2015022508A (ja) * | 2013-07-18 | 2015-02-02 | 日本電信電話株式会社 | 文字列対応付け装置、方法、及びプログラム |
CN104657343A (zh) * | 2013-11-15 | 2015-05-27 | 富士通株式会社 | 识别音译名的方法及装置 |
-
2002
- 2002-03-07 JP JP2002062296A patent/JP3961858B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014106857A (ja) * | 2012-11-29 | 2014-06-09 | Mitsubishi Electric Corp | アルファベット読み推定装置 |
JP2015022508A (ja) * | 2013-07-18 | 2015-02-02 | 日本電信電話株式会社 | 文字列対応付け装置、方法、及びプログラム |
CN104657343A (zh) * | 2013-11-15 | 2015-05-27 | 富士通株式会社 | 识别音译名的方法及装置 |
CN104657343B (zh) * | 2013-11-15 | 2017-10-10 | 富士通株式会社 | 识别音译名的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3961858B2 (ja) | 2007-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5377889B2 (ja) | 言語処理装置およびプログラム | |
JP4968036B2 (ja) | 韻律語グルーピング方法及び装置 | |
JP2007108749A (ja) | 韻律統計モデル訓練方法及び装置、韻律解析方法及び装置、テキスト音声合成方法及びシステム | |
WO2003065245A1 (fr) | Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur | |
CN112507734B (zh) | 一种基于罗马化维吾尔语的神经机器翻译系统 | |
EP4361897A2 (en) | Language-agnostic multilingual modeling using effective script normalization | |
JP2007156545A (ja) | 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体 | |
KR20210035721A (ko) | 다중-언어 코퍼스를 이용하여 기계번역 하는 방법 및 이를 구현한 시스템 | |
WO2019163752A1 (ja) | 形態素解析学習装置、形態素解析装置、方法、及びプログラム | |
JP3961858B2 (ja) | 翻字装置及びそのプログラム | |
JP2022121456A (ja) | 処理プログラム、処理方法および情報処理装置 | |
Monga et al. | Speech to Indian Sign Language Translator | |
JP2005092682A (ja) | 翻字装置、及び翻字プログラム | |
Nanayakkara et al. | Context aware back-transliteration from english to sinhala | |
CN113822044A (zh) | 语法纠错数据生成方法、装置、计算机设备及存储介质 | |
JP2014191484A (ja) | 文末表現変換装置、方法、及びプログラム | |
JP6325789B2 (ja) | 翻訳装置及び翻訳プログラム | |
Singvongsa et al. | Lao-Thai machine translation using statistical model | |
US20180033425A1 (en) | Evaluation device and evaluation method | |
JP2019087058A (ja) | 文章中の省略を特定する人工知能装置 | |
JP2019159743A (ja) | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム | |
JP5500624B2 (ja) | 字訳装置、コンピュータプログラム及び記録媒体 | |
JP2004118461A (ja) | 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体 | |
JP6915373B2 (ja) | 評価プログラム、評価方法及び評価装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040405 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061003 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061201 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070109 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070309 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070424 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070517 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110525 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120525 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |