JP5090547B2 - 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 - Google Patents
翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 Download PDFInfo
- Publication number
- JP5090547B2 JP5090547B2 JP2011048384A JP2011048384A JP5090547B2 JP 5090547 B2 JP5090547 B2 JP 5090547B2 JP 2011048384 A JP2011048384 A JP 2011048384A JP 2011048384 A JP2011048384 A JP 2011048384A JP 5090547 B2 JP5090547 B2 JP 5090547B2
- Authority
- JP
- Japan
- Prior art keywords
- transliteration
- probability
- character string
- spelling
- rewrite
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Stored Programmes (AREA)
Description
任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるK個(但し、Kは2以上の自然数)の起源言語に対応したK個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記K個の起源言語に対応したK個の翻字表と、を生成する生成部、
前記訓練集合に含まれる翻字対のそれぞれに対して、前記K個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記K個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記K個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新部、
を備えることを特徴とする。
前記K個の翻字表それぞれに対応した起源言語を起源とする原綴り文字列が、前記訓練集合に含まれる複数の原綴り文字列に占める割合をそれぞれ示す、前記K個の翻字表の重みパラメタを初期化する初期化部、を更に備え、
前記更新部は、前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記K個の翻字表に含まれる当該翻字確率の前記重みパラメタによる重み付き平均に基づいて、前記原綴り文字列の起源言語が当該翻字表に対応した起源言語である起源確率をそれぞれ算出した後に、当該起源確率をさらに用いて算出される前記尤度関数の期待値を最大化するように、前記K個の重みパラメタを更新した後に、前記起源確率の算出と前記重みパラメタの更新とを繰り返す、としても良い。
前記生成部は、1個の前記書換表を生成した後に、前記生成された1個の書換表に含まれる書換確率を、前記K個の言語毎に変化させることにより、前記K個の言語に対応したK個の書換表を生成する、としても良い。
前記生成部は、1個の前記書換表を用いたαβ法により1個の前記翻字表を生成した後に、前記生成された1個の翻字表に含まれる翻字確率を変化させることにより、前記K個の言語に対応したK個の翻字表を生成し、
前記更新部は、前記K個の翻字表のそれぞれに含まれる翻字確率をEMアルゴリズムにより更新する、としても良い。
前記更新部は、前記更新による前記尤度関数の期待値の変化量が、所定の大きさ未満となるまで前記更新を繰り返す、としても良い。
前記任意の起源言語における綴りからなる第1文字列と、前記所定の目的言語における綴りからなる第2文字列と、を受け付ける受付部、
前記K個の翻字表のそれぞれを用いることにより前記受け付けられた第1文字列が前記受け付けられた第2文字列に翻字される翻字確率を求め、当該求められた翻字確率を出力する確率出力部、
をさらに備える、としても良い。
前記任意の起源言語における綴りからなる第1文字列を受け付ける受付部、
前記K個の翻字表のそれぞれを用いることにより前記受け付けられた第1文字列が翻字されうる前記所定の目的言語における候補文字列と、当該第1文字列が当該候補文字列に翻字される翻字確率を求め、当該求められた翻字確率が高い順に当該求められた候補文字列を出力する候補出力部、
をさらに備える、としても良い。
前記受付部は、前記訓練集合に含まれていない第1文字列を受け付ける、としても良い。
コンピュータを、
任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を複数含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるK個(但し、Kは2以上の自然数)の起源言語に対応したK個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記K個の起源言語に対応したK個の翻字表と、を生成する生成部、
前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記K個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記K個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記K個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新部、
として機能させることを特徴とする。
コンピュータを、
任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を複数含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるK個(但し、Kは2以上の自然数)の起源言語に対応したK個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記K個の起源言語に対応したK個の翻字表と、を生成する生成部、
前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記K個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記K個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記K個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新部、
として機能させることを特徴とする翻字処理プログラムを記録している。
生成部及び更新部を備える翻字処理装置が実行する方法であって、
前記生成部が、任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を複数含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるK個(但し、Kは2以上の自然数)の起源言語に対応したK個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記K個の起源言語に対応したK個の翻字表と、を生成する生成ステップ、
前記更新部が、前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記K個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記K個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記K個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新ステップ、
を有することを特徴とする。
端末装置200は、例えば、LCD(Liquid Crystal Display)などの表示部と、キーボードなどの入力部とを備えたパーソナル・コンピュータで構成される。端末装置200は、図2(a)に示すような入力画面FI1を表示することで、任意の起源言語における綴りからなる第1文字列と、当該第1文字列を所定の目的言語の文字列に翻字した文字列であるとユーザが考える文字列であって、所定の目的言語における綴りからなる第2文字列との対(以下、入力対という)を入力するように促す表示を行う。
情報記憶部103は、図6(a)に示すような基礎翻字テーブルを記憶している。図6(a)の基礎翻字テーブルは、図6(b)から図6(d)に示す第1翻字テーブルから第3翻字テーブルを生成するために用いられるテーブルである。尚、第1翻字テーブルから第3翻字テーブルについては後述する。
図10の第1生成処理を開始すると、第1生成部105aは、図6(a)の基礎翻字テーブルを参照することで訓練集合に含まれる翻字対を取得した後に、取得した翻字対を用いて、図9の書換回数テーブルを生成する(ステップS51)。具体的には、第1生成部105aは、訓練集合から全ての翻字対を取り出す。次に、第1生成部105aは、取り出した全ての翻字対に対して、当該翻字対を構成する原綴り文字列snの先頭に特殊文字「^」を追加し、末尾に特殊文字「$」を追加する。その後、第1生成部105aは、特殊文字が追加された文字列snを分割することで原断片αを生成する。
図11の第2生成処理を開始すると、第2生成部105bは、図8(a)の基礎書換テーブルを読み込む(ステップS61)。その後、第2生成部105bは、読み込んだ基礎書換テーブルをK個コピーすることで、第1書換テーブルから第K書換テーブルまでのK個の書換テーブルを生成する(ステップS62)。具体的には、第2生成部105bは、図8(a)の基礎書換テーブルに保存された断片対を識別する番号jを表す情報と、当該断片対を構成する原断片αを表す情報と、当該断片対を構成する翻字断片βを表す情報と、当該原断片αを含む原綴り文字列snの起源言語が第1言語である条件の下で当該原断片αが翻字断片βに書き換えられる書換確率P(α→β|z=1)を表す情報とを対応付けて保存された第1書換テーブルを生成する。同様に、第2生成部105bは、書換確率P(α→β|z=2)を表す情報を保存された第2書換テーブルと、書換確率P(α→β|z=3)を表す情報を保存された第3書換テーブルとを生成する。
図11のステップS62において、図8(b)の第1書換テーブルに保存された断片対番号「5」で識別される断片対を構成する原断片「get$」が翻字断片「ジェ$」に書き換えられる書換確率P(α→β|z=1)が、他の書換確率P(α→β|z=2)及びP(α→β|z=3)よりも高い値に設定されると、原断片「get$」を含む原綴り文字列s2「xxaget」が翻字断片「ジェ」を含む目的綴り文字列t2「△アジェ」に翻字される翻字確率P(tn|sn,z=1)は、上記の式(3)を用いて算出されるため、図12(a)に示すように、他の翻字確率P(t2|s2,z=2)及びP(t2|s2,z=3)よりも高くなる。
次に、本実施例の変形例1について説明を行う。
本実施例では、図5の生成部105が、図10のステップS53において、翻字確率Pαβ(sn|tn)を表す情報が保存された図6(a)の基礎翻字テーブルを生成してから、図11のステップS64において、当該基礎翻字テーブルに基づいて第1翻字テーブルから第3翻字テーブルを生成するとして説明した。また、本実施例では、図5の更新部107が、図7のステップS37(つまり、Eステップ)の初回の実行時において、第1Eステップ(つまり、第1書換テーブルから第3書換テーブルを用いたαβ法を実行することで、翻字確率P(tn|sn,z=k)を算出するステップ)を実行しないとして説明した。
次に、本実施例の変形例2について説明を行う。
変形例2において、図1の端末装置200は、図2(a)の入力画面FI2ではなく、図13(a)に示すような入力画面FI2を表示することで、任意の起源言語における綴りからなる第1文字列を入力するように促す表示を行う。次に、端末装置200は、ユーザの操作に応じた各種の信号を翻字処理システム1に入力し、入力された信号に基づいて第1文字列を生成し、生成した第1文字列を表す情報を翻字処理装置100へ送信する。その後、端末装置200は、翻字処理装置100から返信された情報を受信し、受信された情報に基づいて、図2(b)の結果表示画面FO1ではなく、図13(b)に示すような結果表示画面FO2に、第1文字列と、当該第1文字列が翻字されうる上記所定の目的言語における候補文字列と、当該第1文字列が当該候補文字列に翻字される確率とを、当該確率が高い順に一覧表示する。尚、端末装置200は、候補文字列を当該確率が低い順に一覧表示しても良い。また、端末装置200は、当該確率が最も高い第1文字列と候補文字列と当該確率とを1つだけ表示しても良い。さらに、端末装置200は、最も高い確率が所定の閾値を超えている場合に限り、当該最高の確率と1文字列と候補文字列と当該確率とを1つだけ表示しても良い。
またこれらの構成によれば、訓練集合に含まれていない第1文字列を受け付け、受け付けられた第1文字列の候補文字列を生成し、生成された候補文字列との翻字確率を算出する。このため、予め訓練集合に含まれていない第1文字列であっても、第1文字列を受け付ければ、複数の候補文字列を翻字確率の高い又は低い順に出力できる。
次に、本実施例の変形例3について説明を行う。
変形例3の翻字処理システム1は、図1の外国語DBサーバ302を有さず、図16に示すように検索エンジン400を有する。
検索エンジン400は、検索キーワードを表す情報と、当該検索キーワードを含む内容が記載されたWeb(World Wide Web)頁のURLを表す情報と、当該Web頁に記載された内容の内で、当該キーワードを含む部分であるスニペットを表す情報とを対応付けて記憶している。検索エンジン400は、翻字処理装置100から検索キーワードを表す情報と、検索を求めるリクエストとを受信すると、受信した検索キーワードを表す情報に対応付けて記憶するスニペットを表す情報を複数検索する。その後、検索エンジン400は、図17に示すようなスニペットSP1及びSP2を含む検索結果画面FSを表す情報を翻字処理装置100へ返信する。
100:翻字処理装置
100a:CPU
100b:ROM
100c:RAM
100d:ハードディスク
100e:メディアコントローラ
100f:LANカード
100g:ビデオカード
100h:LCD
100i:キーボード
100j:スピーカ
100k:マウス
101:訓練集合生成部
102:情報取得部
103:情報記憶部
104:受信部
105:生成部
105a:第1生成部
105b:第2生成部
106:初期化部
107:更新部
107a:期待値算出部
107b:判定部
107c:最大化部
108:確率出力部
109:候補出力部
200:端末装置
301:日本語DBサーバ
302:外国語DBサーバ
400:検索エンジン
Claims (11)
- 任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるK個(但し、Kは2以上の自然数)の起源言語に対応したK個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記K個の起源言語に対応したK個の翻字表と、を生成する生成部、
前記訓練集合に含まれる翻字対のそれぞれに対して、前記K個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記K個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記K個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新部、
を備えることを特徴とする翻字処理装置。 - 請求項1に記載の翻字処理装置であって、
前記K個の翻字表それぞれに対応した起源言語を起源とする原綴り文字列が、前記訓練集合に含まれる複数の原綴り文字列に占める割合をそれぞれ示す、前記K個の翻字表の重みパラメタを初期化する初期化部、を更に備え、
前記更新部は、前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記K個の翻字表に含まれる当該翻字確率の前記重みパラメタによる重み付き平均に基づいて、前記原綴り文字列の起源言語が当該翻字表に対応した起源言語である起源確率をそれぞれ算出した後に、当該起源確率をさらに用いて算出される前記尤度関数の期待値を最大化するように、前記K個の重みパラメタを更新した後に、前記起源確率の算出と前記重みパラメタの更新とを繰り返す、
ことを特徴とする翻字処理装置。 - 請求項1又は2に記載の翻字処理装置であって、
前記生成部は、1個の前記書換表を生成した後に、前記生成された1個の書換表に含まれる書換確率を、前記K個の言語毎に変化させることにより、前記K個の言語に対応したK個の書換表を生成する、
ことを特徴とする翻字処理装置。 - 請求項1又は2に記載の翻字処理装置であって、
前記生成部は、1個の前記書換表を用いたαβ法により1個の前記翻字表を生成した後に、前記生成された1個の翻字表に含まれる翻字確率を変化させることにより、前記K個の言語に対応したK個の翻字表を生成し、
前記更新部は、前記K個の翻字表のそれぞれに含まれる翻字確率をEMアルゴリズムにより更新する、
ことを特徴とする翻字処理装置。 - 請求項1から4のいずれか一項に記載の翻字処理装置であって、
前記更新部は、前記更新による前記尤度関数の期待値の変化量が、所定の大きさ未満となるまで前記更新を繰り返す、
ことを特徴とする翻字処理装置。 - 請求項1から5のいずれか一項に記載の翻字処理装置であって、
前記任意の起源言語における綴りからなる第1文字列と、前記所定の目的言語における綴りからなる第2文字列と、を受け付ける受付部、
前記K個の翻字表のそれぞれを用いることにより前記受け付けられた第1文字列が前記受け付けられた第2文字列に翻字される翻字確率を求め、当該求められた翻字確率を出力する確率出力部、
をさらに備えることを特徴とする翻字処理装置。 - 請求項1から5のいずれか一項に記載の翻字処理装置であって、
前記任意の起源言語における綴りからなる第1文字列を受け付ける受付部、
前記K個の翻字表のそれぞれを用いることにより前記受け付けられた第1文字列が翻字されうる前記所定の目的言語における候補文字列と、当該第1文字列が当該候補文字列に翻字される翻字確率を求め、当該求められた翻字確率が高い順に当該求められた候補文字列を出力する候補出力部、
をさらに備えることを特徴とする翻字処理装置。 - 請求項6又は7に記載の翻字処理装置であって、
前記受付部は、前記訓練集合に含まれていない第1文字列を受け付ける、
ことを特徴とする翻字処理装置。 - コンピュータを、
任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を複数含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるK個(但し、Kは2以上の自然数)の起源言語に対応したK個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記K個の起源言語に対応したK個の翻字表と、を生成する生成部、
前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記K個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記K個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記K個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新部、
として機能させることを特徴とする翻字処理プログラム。 - コンピュータを、
任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を複数含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるK個(但し、Kは2以上の自然数)の起源言語に対応したK個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記K個の起源言語に対応したK個の翻字表と、を生成する生成部、
前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記K個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記K個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記K個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新部、
として機能させることを特徴とする翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 生成部及び更新部を備える翻字処理装置が実行する方法であって、
前記生成部が、任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を複数含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるK個(但し、Kは2以上の自然数)の起源言語に対応したK個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記K個の起源言語に対応したK個の翻字表と、を生成する生成ステップ、
前記更新部が、前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記K個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記K個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記K個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新ステップ、
を有することを特徴とする翻字処理方法。
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011048384A JP5090547B2 (ja) | 2011-03-04 | 2011-03-04 | 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 |
EP12755516.7A EP2672395A4 (en) | 2011-03-04 | 2012-02-28 | TRANSLITTERATION DEVICE, PROGRAM, RECORDING MEDIUM, AND METHOD |
CN201280003171.9A CN103140849B (zh) | 2011-03-04 | 2012-02-28 | 音译处理装置及方法 |
PCT/JP2012/054956 WO2012121063A1 (ja) | 2011-03-04 | 2012-02-28 | 翻字処理装置、プログラム、記録媒体、及び方法 |
US13/825,899 US9323744B2 (en) | 2011-03-04 | 2012-02-28 | Transliteration device, transliteration program, computer-readable recording medium on which transliteration program is recorded, and transliteration |
CA2813218A CA2813218C (en) | 2011-03-04 | 2012-02-28 | Transliteration device, transliteration program, computer-readable recording medium on which transliteration program is recorded, and transliteration method |
BR112013007127A BR112013007127A2 (pt) | 2011-03-04 | 2012-02-28 | dispositivo e método de transliteração, e, mídia de gravação legível por computador |
KR1020137007988A KR101326354B1 (ko) | 2011-03-04 | 2012-02-28 | 문자 변환 처리 장치, 기록 매체 및 방법 |
TW101107023A TWI465941B (zh) | 2011-03-04 | 2012-03-02 | A translation processing apparatus, a translation processing program, a computer-readable recording medium having a translation processing program, and a translation processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011048384A JP5090547B2 (ja) | 2011-03-04 | 2011-03-04 | 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012185679A JP2012185679A (ja) | 2012-09-27 |
JP5090547B2 true JP5090547B2 (ja) | 2012-12-05 |
Family
ID=46798031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011048384A Active JP5090547B2 (ja) | 2011-03-04 | 2011-03-04 | 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US9323744B2 (ja) |
EP (1) | EP2672395A4 (ja) |
JP (1) | JP5090547B2 (ja) |
KR (1) | KR101326354B1 (ja) |
CN (1) | CN103140849B (ja) |
BR (1) | BR112013007127A2 (ja) |
CA (1) | CA2813218C (ja) |
TW (1) | TWI465941B (ja) |
WO (1) | WO2012121063A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5825639B2 (ja) * | 2012-07-20 | 2015-12-02 | 日本電信電話株式会社 | 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム |
US9176936B2 (en) * | 2012-09-28 | 2015-11-03 | International Business Machines Corporation | Transliteration pair matching |
JP6044996B2 (ja) * | 2013-07-18 | 2016-12-14 | 日本電信電話株式会社 | 文字列対応付け装置、方法、及びプログラム |
KR101609184B1 (ko) * | 2014-05-27 | 2016-04-06 | 네이버 주식회사 | 사전 기능을 제공하는 방법과 시스템, 그리고 기록 매체 및 파일 배포 시스템 |
CN105786802B (zh) * | 2014-12-26 | 2019-04-12 | 广州爱九游信息技术有限公司 | 一种外语的音译方法及装置 |
US10225555B2 (en) * | 2015-05-19 | 2019-03-05 | Mediatek Inc. | Method and apparatus for multi-table based context adaptive binary arithmetic coding |
WO2017002199A1 (ja) * | 2015-06-30 | 2017-01-05 | 楽天株式会社 | 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置 |
RU2632137C2 (ru) * | 2015-06-30 | 2017-10-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит |
KR101917648B1 (ko) * | 2016-09-08 | 2018-11-13 | 주식회사 하이퍼커넥트 | 단말 및 그 제어 방법 |
KR102197227B1 (ko) * | 2019-05-23 | 2020-12-31 | 한국과학기술원 | 문자 변환 방법 및 이를 수행하는 장치들 |
CN110728156B (zh) * | 2019-12-19 | 2020-07-10 | 北京百度网讯科技有限公司 | 翻译方法、装置、电子设备及可读存储介质 |
US11995075B2 (en) | 2021-10-27 | 2024-05-28 | Bank Of America Corporation | System and method for efficient transliteration of machine interpretable languages |
JP2023183618A (ja) * | 2022-06-16 | 2023-12-28 | 国立研究開発法人情報通信研究機構 | 機械翻訳用訓練データ生成方法、機械翻訳処理用の学習可能モデルの作成方法、機械翻訳処理方法、および、機械翻訳用訓練データ生成装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6272464B1 (en) | 2000-03-27 | 2001-08-07 | Lucent Technologies Inc. | Method and apparatus for assembling a prediction list of name pronunciation variations for use during speech recognition |
US7369986B2 (en) * | 2003-08-21 | 2008-05-06 | International Business Machines Corporation | Method, apparatus, and program for transliteration of documents in various Indian languages |
JP2005092682A (ja) * | 2003-09-19 | 2005-04-07 | Nippon Hoso Kyokai <Nhk> | 翻字装置、及び翻字プログラム |
US7310605B2 (en) * | 2003-11-25 | 2007-12-18 | International Business Machines Corporation | Method and apparatus to transliterate text using a portable device |
JP4266222B2 (ja) * | 2005-11-30 | 2009-05-20 | 日本電信電話株式会社 | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 |
US8548791B2 (en) * | 2007-08-29 | 2013-10-01 | Microsoft Corporation | Validation of the consistency of automatic terminology translation |
US7983903B2 (en) * | 2007-09-07 | 2011-07-19 | Microsoft Corporation | Mining bilingual dictionaries from monolingual web pages |
WO2009049049A1 (en) * | 2007-10-09 | 2009-04-16 | Language Analytics Llc | Method and system for adaptive transliteration |
CN101593173B (zh) * | 2008-05-28 | 2011-08-10 | 中国科学院自动化研究所 | 一种汉英反向音译方法及装置 |
US8521761B2 (en) * | 2008-07-18 | 2013-08-27 | Google Inc. | Transliteration for query expansion |
US8275600B2 (en) * | 2008-10-10 | 2012-09-25 | Google Inc. | Machine learning for transliteration |
US8306806B2 (en) * | 2008-12-02 | 2012-11-06 | Microsoft Corporation | Adaptive web mining of bilingual lexicon |
US20110218796A1 (en) * | 2010-03-05 | 2011-09-08 | Microsoft Corporation | Transliteration using indicator and hybrid generative features |
US8326600B2 (en) * | 2010-08-11 | 2012-12-04 | Google Inc. | Evaluating and modifying transliteration rules |
-
2011
- 2011-03-04 JP JP2011048384A patent/JP5090547B2/ja active Active
-
2012
- 2012-02-28 EP EP12755516.7A patent/EP2672395A4/en not_active Withdrawn
- 2012-02-28 CA CA2813218A patent/CA2813218C/en active Active
- 2012-02-28 US US13/825,899 patent/US9323744B2/en active Active
- 2012-02-28 WO PCT/JP2012/054956 patent/WO2012121063A1/ja active Application Filing
- 2012-02-28 BR BR112013007127A patent/BR112013007127A2/pt not_active Application Discontinuation
- 2012-02-28 CN CN201280003171.9A patent/CN103140849B/zh active Active
- 2012-02-28 KR KR1020137007988A patent/KR101326354B1/ko active IP Right Grant
- 2012-03-02 TW TW101107023A patent/TWI465941B/zh active
Also Published As
Publication number | Publication date |
---|---|
JP2012185679A (ja) | 2012-09-27 |
CA2813218C (en) | 2014-04-15 |
BR112013007127A2 (pt) | 2016-06-14 |
US9323744B2 (en) | 2016-04-26 |
CN103140849B (zh) | 2015-01-14 |
KR20130038959A (ko) | 2013-04-18 |
TWI465941B (zh) | 2014-12-21 |
CA2813218A1 (en) | 2012-09-13 |
TW201250498A (en) | 2012-12-16 |
CN103140849A (zh) | 2013-06-05 |
KR101326354B1 (ko) | 2013-11-11 |
US20130246042A1 (en) | 2013-09-19 |
EP2672395A4 (en) | 2015-07-01 |
WO2012121063A1 (ja) | 2012-09-13 |
EP2672395A1 (en) | 2013-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5090547B2 (ja) | 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 | |
US9262403B2 (en) | Dynamic generation of auto-suggest dictionary for natural language translation | |
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
US8626486B2 (en) | Automatic spelling correction for machine translation | |
US8935148B2 (en) | Computer-assisted natural language translation | |
US11468336B2 (en) | Systems, devices, and methods for improved affix-based domain name suggestion | |
WO2003065245A1 (fr) | Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur | |
US10650195B2 (en) | Translated-clause generating method, translated-clause generating apparatus, and recording medium | |
JP2009059300A (ja) | 訳語学習のためのデータを作成する装置、方法、およびプログラム | |
JP6584361B2 (ja) | キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム | |
JP6897168B2 (ja) | 情報処理装置及び情報処理プログラム | |
WO2009144890A1 (ja) | 翻訳前換言規則生成システム | |
KR102675867B1 (ko) | 전자 문서에 포함된 평서문 문장에 대한 언어분석을 통해 질의 문장을 자동으로 생성하는 전자 단말 장치 및 그 동작 방법 | |
JP7483085B1 (ja) | 情報処理システム、情報処理装置、情報処理方法、およびプログラム | |
JP2023174053A (ja) | 登録プログラム、登録方法、及び、情報処理装置 | |
JP5378109B2 (ja) | タスクモデル生成装置およびタスクモデル生成方法 | |
JP2024034877A (ja) | 入力データ作成支援装置、及び入力データ作成支援方法 | |
JP2016177341A (ja) | 対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラム | |
KR101450795B1 (ko) | 대용어 복원 장치 및 방법 | |
KR20240060930A (ko) | 외국어 구어체 번역 방법 및 이를 위한 장치 | |
JP2014085698A (ja) | 履歴情報生成プログラム及び履歴情報生成装置 | |
JP2007241739A (ja) | 文章区間抽出装置及びプログラム | |
JP2020118891A (ja) | 学習システム | |
JP2008250388A (ja) | 情報検索装置、情報検索方法及び情報検索プログラム | |
JP2015138435A (ja) | ソースコード解析支援装置、ソースコード解析支援方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120628 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120628 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20120628 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20120710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120717 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120911 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120912 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150921 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5090547 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |