JP2015225666A - 姓名辞書及び翻訳ルール表を抽出する方法と装置 - Google Patents

姓名辞書及び翻訳ルール表を抽出する方法と装置 Download PDF

Info

Publication number
JP2015225666A
JP2015225666A JP2015104916A JP2015104916A JP2015225666A JP 2015225666 A JP2015225666 A JP 2015225666A JP 2015104916 A JP2015104916 A JP 2015104916A JP 2015104916 A JP2015104916 A JP 2015104916A JP 2015225666 A JP2015225666 A JP 2015225666A
Authority
JP
Japan
Prior art keywords
japanese
english
name
surname
kanji
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015104916A
Other languages
English (en)
Inventor
リ・シャイヌホア
Xianhua Li
ジャン・シュ
Shu Zhang
遥 孟
Yao Meng
遥 孟
俊 孫
Shun Son
俊 孫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2015225666A publication Critical patent/JP2015225666A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】本発明は姓名辞書及び翻訳ルール表を抽出する方法と装置を提供する。【解決手段】本発明による和文姓名と英文姓名間の翻訳を行うための姓名辞書及び翻訳ルール表を抽出する方法は、和文姓名及び対応する英文姓名を含む英和姓名コーパスを収集するステップと;収集された和文姓名及び英文姓名に対し、和文姓名と英文姓名とに区分するステップと;和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節とを整列させ、当該整列結果を分割結果とするステップと;前記整列結果に基づき、前記姓名辞書及び翻訳ルール表を抽出するステップとを含み、前記和文漢字発音表には和文漢字及びその対応する一種又は複数種の英文文字列が記載され、前記英文文字列は一つ又は複数の英文音節を含む。【選択図】図1

Description

本発明は一般的に自然言語処理分野に関する。具体的に、本発明は和文姓名と英文姓名間の翻訳を行うための姓名辞書及び翻訳ルール表を抽出する方法と装置、及び抽出された姓名辞書及び翻訳ルール表を利用して和文姓名と英文姓名間の翻訳を行う方法と装置に関する。
近年、自然言語処理、特に機械翻訳に関する技術は著しい発展を果たした。しかし、解決に至っていない技術難題も依然として存在している。例えば、和文姓名には複数の発音を持つ漢字があり、漢字を基に和文姓名を翻訳して対応する英文姓名にする場合、一対多の不確実性が問題となる。また、一部の和文姓名の発音は和文姓名中の漢字の意味に関連し、その発音が常用なものではない場合があり、和文姓名中の漢字の通常発音に従って翻訳すると、間違った結果になりがちである。そのため、一般的な翻訳辞書と翻訳ルール表に基づいて和文姓名と英文姓名間の相互翻訳を行うのは難しい。
なお、和文姓名と英文姓名間の翻訳を行う時、優れた姓名辞書及び翻訳ルール表を利用すれば、翻訳の正確度が高くなり、良い翻訳品質が得られる。しかし、人工的に姓名辞書及び翻訳ルール表を作成する場合、手間がかかり、時間が長くて効率が低い。従来の辞書抽出技術及び翻訳ルール表の抽出技術を用いて抽出した結果、和文姓名の特殊性に対応しきれない。以上をまとめると、和文姓名と英文姓名の翻訳のための姓名辞書及び翻訳ルール表を自動的に、かつ正確に得ることが難しい。
従って、和文姓名と英文姓名間の翻訳を行うための高品質な姓名辞書及び翻訳ルール表を自動的に、かつ正確に抽出する方法と装置が望まれている。
本発明の目的は、従来技術の前記問題に対し、和文姓名と英文姓名間の翻訳を行うための高品質な姓名辞書及び翻訳ルール表を自動的に、かつ正確に抽出する方法と装置を提供することにある。
以下に述べる本発明の概要は、本発明を幾つかの側面から示し、その基本理解を促すものである。なお、この概要は本発明を全部網羅する概要でないことを理解すべきである。また、本発明の要点や重要部分を特定する意図や、本発明の範囲を限定する意図も持たない。その目的は、後に行われる詳細説明に向けて、幾つかの概念を簡単な形式で示すことだけにある。
上記目的を実現するために、本発明の一つの態様は、和文姓名と英文姓名間の翻訳を行うための姓名辞書及び翻訳ルール表を抽出する抽出方法を提供する。この抽出方法は、和文姓名及び対応する英文姓名を含む英和姓名コーパスを収集する収集ステップと、収集された和文姓名及び英文姓名に対し、和文姓名と英文姓名とに区分する区分ステップと、和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節とを整列(alignment)させ、当該整列結果を分割結果とする整列ステップと、前記整列結果に基づき、前記姓名辞書及び翻訳ルール表を抽出する抽出ステップとを含み、前記和文漢字発音表には和文漢字及びその対応する一種又は複数種の英文文字列が記載され、前記英文文字列は一つ又は複数の英文音節を含む。
これを応じて、本発明の別の態様は、前記抽出方法によって抽出された姓名辞書及び翻訳ルール表を利用して和文姓名と英文姓名間の翻訳を行う翻訳方法を提供する。当該翻訳方法は、前記姓名辞書において、翻訳待ちの姓名中の和文漢字/英文文字列にマッチする姓と名を検索するステップと、一つだけのマッチ結果が検索された場合、当該マッチ結果を翻訳結果とするステップと、複数のマッチ結果が検索された場合、前記姓名辞書中の出現頻度に基づき、各マッチ結果の得点(score)を算出し、得点が最高であるマッチ結果を翻訳結果として選択し、又は前記マッチ結果を得点の高い順(descending order)に配列させるステップとを含む。
これに応じて、本発明の別の態様は、前記抽出方法によって抽出された姓名辞書及び翻訳ルール表を利用して和文姓名と英文姓名間の翻訳を行う翻訳方法を提供する。当該翻訳方法は、前記翻訳ルール表に基づき、CKYアルゴリズムを用いて前記翻訳を行い、複数の候補結果を取得するステップと、各候補結果中の姓と名が前記姓名辞書においてどのぐらい存在するかによって、各候補結果の得点を算出するステップと、得点が最高である候補結果を翻訳結果として選択し、又は前記候補結果を得点の高い順に配列させるステップとを含む。
本発明の別の態様は、和文姓名と英文姓名間の翻訳を行うための姓名辞書及び翻訳ルール表を抽出する抽出装置を提供する。当該抽出装置は、和文姓名及び対応する英文姓名を含む英和姓名コーパスを収集するように構成された収集手段と、収集された和文姓名及び英文姓名を区分するように構成された区分手段と、和文漢字発音表を利用して和文姓名中の和文漢字と英文姓名中の英文音節とを整列させ、当該整列結果を分割結果とするように構成された整列手段と、前記整列結果に基づき、前記姓名辞書及び翻訳ルール表を抽出するように構成された抽出手段とを含み、前記和文漢字発音表には和文漢字及びその対応する一種又は複数種の英文文字列が記載され、前記英文文字列は一つ又は複数の英文音節を含む。
これに応じて、本発明の別の態様は、前記抽出装置によって抽出された姓名辞書及び翻訳ルール表を利用して和文姓名と英文姓名間の翻訳を行う翻訳装置を提供する。当該翻訳装置は、前記姓名辞書において、翻訳待ちの姓名中の和文漢字/英文文字列にマッチする姓と名を検索するように構成された第1検索手段と、第1検索手段が一つだけのマッチ結果を検索した場合、当該マッチ結果を翻訳結果とし、第1検索手段が複数のマッチ結果を検索した場合、前記姓名辞書中の出現頻度に基づいて各マッチ結果の得点を算出し、得点が最高であるマッチ結果を翻訳結果と選択し、又は前記マッチ結果を得点の高い順に配列させるように構成された結果確定手段とを含む。
これに応じて、本発明の別の態様は、前記抽出装置によって抽出された姓名辞書及び翻訳ルール表を利用して和文姓名と英文姓名間の翻訳を行う翻訳装置を提供する。当該翻訳装置は、前記翻訳ルール表に基づき、CKYアルゴリズムを用いて前記翻訳を行い、複数の候補結果を取得するように構成された候補取得手段と、各候補結果中の姓と名が前記姓名辞書においてどのぐらい存在するかによって、各候補結果の得点を算出するように構成された得点算出手段と、得点が最高である候補結果を翻訳結果として選択し、又は前記候補結果を得点の高い順に配列させるように構成された結果確定手段とを含む。
また、本発明の別の態様は、記憶媒体を提供する。前記記憶媒体はマシンが読み出し可能なプログラムを含み、情報処理装置において前記プログラムを実行する場合、前記プログラムは前記情報処理装置に本発明の前記方法を実行させる。
さらに、本発明の別の態様は、プログラムを提供する。前記プログラムはマシンが実行可能な命令を含み、情報処理装置において前記命令を実行する場合、前記命令は前記情報処理装置に本発明の前記方法を実行させる。
本発明の以上及びその他の目的、特徴及び利点をより簡単に理解できるよう、以下は本発明の実施例について図面に基づき説明を行う。図面における部品は本発明の原理を示すためだけのものである。図面において、同じ又は類似する技術的特徴や部品は同じ又は類似する符号で示される。
本発明の実施例による、姓名辞書及び翻訳ルール表を抽出する抽出方法を示すフローチャートである。 本発明の実施例による、翻訳ルール表(ステップS4のサブステップ)を抽出する方法を示すフローチャートである。 本発明の実施例による、抽出された姓名辞書及び翻訳ルール表を利用して翻訳を行う翻訳方法を示すフローチャートである。 本発明の実施例による、抽出された姓名辞書及び翻訳ルール表を利用して翻訳を行う翻訳方法を示すフローチャートである。 本発明の実施例による、和文姓名と英文姓名間の翻訳を行うための姓名辞書及び翻訳ルール表を抽出する抽出装置を示す構造ブロック図である。 本発明の実施例による、前記抽出装置によって抽出された姓名辞書及び翻訳ルール表を利用して和文姓名と英文姓名間の翻訳を行う翻訳装置を示す構造ブロック図である。 本発明の実施例による、前記抽出装置によって抽出された姓名辞書及び翻訳ルール表を利用して和文姓名と英文姓名間の翻訳を行う翻訳装置を示す構造ブロック図である。 本発明の実施例による方法及び装置を実施可能なコンピュータを示す概略ブロック図である。
以下、図面に基づいて本発明の代表的な実施例を詳しく説明する。
ここで、和文姓名は和文漢字、例えば「藤原智史」を含むことが可能であり、また平仮名と片仮名を含んでもよい。平仮名や片仮名と英文音節との対応関係が明確であり、そのまま相互変換することができるため、以下は和文姓名が和文漢字のみを含む場合を例に説明する。和文姓名が和文漢字と平仮名/片仮名を含む場合について、当業者は、その平仮名/片仮名をそのまま対応する英文音節に変換し、その他の部分、即ち和文漢字のみを含む部分を一つの和文姓名として、本発明の方法や装置を用いて処理可能であることを理解できる。
また、英文姓名は英文音節によって構成される英文文字列を意味し、例えば、「藤原智史」に対応する英文姓名は「Fujiwara Satoshi」である。かつ、英文姓名において英文姓と英文名とを分離させる空白(separator)等の標識を含む。ここで、英文姓名は「Mike」といった英語の姓名ではなく、和文姓名に対応する英文音節によって構成される英文文字列、即ち和文姓名の英文表示を意味する。
従来の技術によれば、ルール通りに英文姓名の分割を行い、かつ分割と整列とが二つの別々のステップであり、分割の結果に対し整列を行うのが一般的である。整列結果を分割結果に加える。和文姓名の発音が和文姓名中の和文漢字の常用発音の組み合わせと異なる場合、上記の技術で正確に処理するのは難しい。
例えば、和文姓氏「大和」は「yamato」に対応し、そのうち和文漢字「大」が「yama」に対応し、「和」が「to」に対応する。実は、通常、「大」が「yama」に対応することなく、「yama」に対応するのは「山」である。「大和」は実際に山の高大さをイメージして「yamato」と発音したものである。
従来の分割方法を用いる場合、「大和」を「yamato」に対応させることが難しく、「大」と「和」に分割したうえ、「大」と「和」を「yamato」に整列させる。最も良い形としても、「大」が「yama」に対応し、「和」が「to」に対応する結果になる。つまり、分割と整列が別々の二つのステップであり、かつ整列の結果を分割の結果に加えている。辞書に「大」が「yama」に対応し、「和」が「to」に対応する情報が含まれている場合でも、「大」がその他の音節に対応する確率は「大」が「yama」に対応する確率より遥に高いため、このような辞書によって和文姓「大和」を正確に「yamato」に変換することが難しい。
実は、「大和」を一体として、「大和」と「yamato」を固定の組み合わせとして対応付けるべきである。
本発明において、整列結果を分割結果として、以上の場合でも効率よく処理することができる。また、本発明において、日英二言語情報を利用し、和文漢字発音表に基づいて和文漢字と英文音節とを整列させ、英文姓名中の間隔標識(分離記号)を用いて和文姓名中の姓と名とを分離させる。以下、その具体内容について詳しく説明する。
以下、図1を参照しながら、本発明の実施例による和文姓名と英文姓名間の翻訳を行うための姓名辞書及び翻訳ルール表を抽出する抽出方法の流れを説明する。
図1は本発明の実施例による姓名辞書及び翻訳ルール表を抽出する抽出方法を示すフローチャートである。図1が示すように、本発明による姓名辞書及び翻訳ルール表を抽出する抽出方法100は、以下のステップ、即ち、和文姓名及び対応する英文姓名を含む英和姓名コーパスを収集するステップ(ステップS1);収集された和文姓名と英文姓名を区分するステップ(ステップS2);和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節とを整列させ、当該整列結果を分割結果とするスッテプ(ステップS3)であって、そのうち、上記和文漢字発音表には和文漢字及びその対応する一種又は複数種の英文文字列が記載され、上記英文文字列は一つ又は複数の英文音節を含むステップ;及び、上記整列結果に基づき、上記姓名辞書及び翻訳ルール表を抽出するステップ(ステップS4)を含む。
ステップS1において、和文姓名及び対応する英文姓名を含む英和姓名コーパスを収集する。
以上に述べたように、英文姓名は和文姓名に対応する英文音節によって構成された英文文字列であり、即ち和文姓名の英文表示である。インタネット、例えばウィキペディア、従来のコーパス等から、和文姓名及び対応する英文姓名を含む英和姓名言語対(pair)を直接得ることが可能である。また、インタネットから得られた、あるいは従来の単語資料に対し、検索エンジン又は機械翻訳システム、例えば音訳システムを用いて音訳を行い、二言語資料を得ることも可能である。
ステップS2において、収集された和文姓名と英文姓名を区分する。
なお、この区分ステップと従来技術における分割ステップは異なるものである。ステップS2では言語資料に対し前処理を行うのみであり、後の整列ステップで分割結果が得られる。
具体的には、上記のように、本発明は和文漢字を含む和文姓名のみを例示している。従って、ステップS2において、和文姓名を和文漢字に従って区分し、かつ、五十音に基づいて、英文姓名を音節に従って区分し、英文姓名中の姓と名の間の分離位置を記録する。
例えば、「藤原智史」を「藤 原 智 史」に区分し、そのうちの空白はこの和文姓名が四つの和文漢字「藤」、「原」、「智」、「史」に区分されたことを示す。
対応する的英文姓名「Fujiwara Satoshi」は「fu ji wa ra|sa to shi」に区分される。なお、統一操作がしやすいように、大文字を小文字に統一変換させたうえ処理を行う。区分結果中の空白は英文姓名が「fu」、「ji」、「wa」、「ra」、「sa」、「to」、「shi」という七つの音節に区分されたことを示す。そのうち「|」は姓氏と名前の分離を示す。
続いて、ステップS3において、和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節を整列させ、当該整列結果を分割結果とする。上記和文漢字発音表には和文漢字及びその対応する一種又は複数種の英文文字列が記載され、上記英文文字列は一つ又は複数の英文音節を含む。
ここで利用される和文漢字発音表は、二言語資料に対し抽出処理を行って得ることが可能であり、二言語資料は姓名類の言語資料に限定されない。
和文漢字発音表には和文漢字及びその対応する一種又は複数種の英文文字列が記載され、英文文字列は一つ又は複数の英文音節を含む。
以下は和文漢字発音表の例である。
Figure 2015225666
続いて、如何に上記の和文漢字発音表を利用して和文姓名中の和文漢字と英文姓名中の英文音節とを整列させるかについて、具体的に説明する。
まず、和文漢字発音表を利用して、既に得られた和文漢字(例えば、「藤原智史」)と英文音節(例えば、「fu ji wa ra|sa to shi」)を基に、和文姓名中の和文漢字と英文姓名中の英文音節のさまざまな整列組み合わせ(即ち、整列された組み合わせ)を得る。
次に、整列組み合わせを整列結果として選択する。
具体的に、整列組み合わせの選択は以下の基準を基に行われる。
まず、以下の三つの条件を満たす整列組み合わせをそのまま整列結果としてもよい。
(i)和文姓名中のそれぞれの和文漢字と英文姓名中のそれぞれの英文音節がすべて整列されている。
(ii)和文姓名中の順番に従って配列された和文漢字と整列された英文音節の順番が、英文姓名における英文音節の順番に合致する。
(iii)上記条件(i)と(ii)を満たす整列組み合わせにおける英文姓名の分割方式が一つだけである。
条件(i)は整列に漏れのないこと、即ち、すべての和文漢字と英文音節が整列されていることを保証する。例えば、「藤」が「fu ji」に対応し、「原」が「wa」に対応し、「智」が「ra」に対応し、「史」が「shi」に対応し、「sa」と「to」に整列対象がないことにならない。
条件(ii)は整列に交差や重複のないことを保証し、即ち、和文姓名中の順番に従って配列された和文漢字が順次英文姓名中の順番に従って配列された英文音節と整列される。例えば、「原」が「sa」に対応し、「智」が「wa」に対応することにならない。また、同一の英文音節が二つの和文漢字に対応することにもならない。例えば、「原」が「wa ra」に対応し、「智」が「ra sa to」に対応することにならない。
条件(iii)は整列の唯一性を保証し、即ち、多義的な整列にならない。例えば、「藤」、「原」、智」、「史」がそれぞれ「fu ji」、「wa ra」、「sa to」、「shi」に対応するとともに、「藤」、「原」、「智」、「史」がそれぞれ「fu」、「ji wa ra」、「sa」、「to shi」に対応するなどのことにはならない。
上記三つの条件を満たす整列組み合わせは信頼性が高く、和文漢字発音表をそのまま利用して整列できる。整列の結果を分割の結果として、和文漢字発音表を更新することができる。
例えば、「藤」、「原」、「智」、「史」はそれぞれ「fu ji」、「wa ra」、「sa to」、「shi」に対応する。この場合、分割の結果は、「藤」、「原」、「智」、「史」と「fu ji」、「wa ra」、「sa to」、「shi」である。「藤」が「fu ji」と発音される情報などを和文漢字発音表に追加することができる。
しかし、以上に述べたように、一つの和文漢字が複数の英文音節に対応する場合があり、比較的に簡単な場合しか、和文漢字発音表のみで簡単に和文姓名中の全ての和文漢字と対応する英文姓名中の全ての英文音節を整列することができない。
和文漢字発音表に一つの和文漢字と一つの英文音節とが整列される頻度情報を記録することは、多義問題の解消に有用である。
即ち、和文漢字発音表はさらに、和文漢字が一種又は複数種の英文文字列に対応する確率を含む。整列ステップはさらに、上記条件(i)と(ii)を満たすが条件(iii)を満たさない複数の候補組み合わせに対し、和文漢字発音表中の確率に基づき、候補組み合わせの確率を算出し、かつ確率が最大である候補組み合わせを整列結果として選出する。
例えば、和文漢字発音表から二種類の整列組み合わせが得られ、かつ二種類の整列組み合わせはいずれも上記条件(i)と(ii)を満たす場合、各組み合わせ中の和文漢字と英文音節の対応関係が出現する頻度に基づいて、各整列組み合わせの得点(確率)を算出することができる。得点の高い組み合わせを選択して、整列の結果及び分割の結果とする。
これに応じて、整列組み合わせを利用して和文漢字発音表を更新する際に、和文漢字発音表中の対応する発音の出現頻度を逓増させてもよい。
和文漢字発音表のみを利用して和文姓名中の全ての和文漢字と英文姓名中の全ての英文音節とを整列させることができる場合、整列組み合わせの信頼性が高いため、このような整列組み合わせを利用して和文漢字発音表を更新する時、逓増させる数値を比較的に高く設定してもよい。一方、その他の方式で得られた整列組み合わせを利用して和文漢字発音表を更新する時、逓増させる数値を比較的に低く設定してもよい。
なお、和文漢字発音表だけではすべての和文漢字と英文音節を整列できず、かつ、和文漢字発音表中の頻度情報を利用した後も、依然として整列関係を確定できない一部の和文漢字と英文音節が存在する場合がある。この場合、排除法を利用し、まず上記二種類の手段によって確定できる和文漢字と英文音節の整列関係を固定したうえ、その他の情報を用いて残りの和文漢字と英文音節を確定してもよい。例えば、上記条件(ii)を満たすが条件(i)を満たさない整列組み合わせに対し、既に整列された和文漢字の間の未整列和文漢字と、対応する未整列英文文字列とを整列させる。例えば、和文漢字「藤原智史」と英文音節「fu ji wa ra sa to shi」において、「藤」が「fu ji」に対応し、「智」が「sa to」に対応することを確定できるが、和文漢字発音表に「原」、「史」の関連情報がない場合、「藤」と「智」の間の「原」は「fu ji」と「sa to」の間の「wa ra」に対応し、残りの「史」は残りの「shi」に対応することを確定できる。
同じく、「藤」が「fu ji」に対応し、「史」が「shi」に対応することを確定できるが、「原」、「智」と「wa ra|sa to」を確定できない場合、「|」で表示される姓氏と名前の分離に基づき、「原」を「wa ra」に整列させ、「智」を「sa to」に整列させることができる。
以上の四つの方式で対応関係を確定できない場合、例えば、「藤」が「fu
ji」に対応し、「原」が「wa ra」に対応することを確定したが、「智」、「史」と「sa to shi」を整列できない場合、分割サイズを変更して、「智史」を「sa to shi」と整列させる。前文で述べた和文姓氏「大和」と「yamato」についてもこの方法で整列させることができる。
なお、排除法に基づき英文姓名中の分離を利用するなどの方式で確定された整列関係の信頼性は比較的に低いことは明らかである。このような整列結果を用いて和文漢字発音表を更新する時、頻度の逓増幅が比較的に小さい。
上記ステップS1−S3を経て、和文姓名中の和文漢字と英文姓名中の英文音節の間の整列結果を得るとともに、当該整列結果を分割結果とする。このような言語資料を用いて、姓名辞書及び翻訳ルール表を抽出することができる。
ステップS4において、上記整列結果に基づき、姓名辞書及び翻訳ルール表を抽出する。
姓名辞書の抽出は以下のステップで実現される。
まず、英文姓名中の姓と名の分離、及び和文姓名と英文姓名の整列結果に基づき、和文姓名中の和文漢字を姓と名に分ける。
例えば、「藤原智史」を姓氏「藤原」と名前「智史」に分ける。
次に、互いに対応する和文姓名と英文姓名、及びこれらがコーパス中に出現する頻度を姓名辞書に記録する。
例えば、姓名辞書に「藤原…fu ji wa ra…1」、「智史…sa to shi…1」という項目が含まれる。なお、「1」は単なる例示であり、和文漢字発音表を利用して比較的に明確な整列結果を得た回数が1であることを示す。
注意されたいのは、姓氏と名前を抽出できる前提は、和文姓名と英文姓名の整列結果、和文姓名と英文姓名における姓氏と名前が分けられていることである。この条件を満たさない場合、姓氏と名前を抽出できない。
また、理解されたいのは、姓名辞書は姓氏と名前を含む辞書であってもよいが、姓氏のみを含む姓氏辞書や名前のみを含む名前辞書であってもよい。
分割と整列を一つのステップに統一し、整列結果を分割結果としているため、本発明によって得られる和文英文姓氏対の正確度が高く、サイズ設定も柔軟である。
図2は本発明による実施例の翻訳ルール表(ステップS4のサブステップ)を抽出する方法を示すフローチャートである。図2が示すように、本発明の翻訳ルール表を抽出する方法は以下のステップを含む。和文姓名中のn元和文漢字を抽出するステップ(ステップS41)、n≧1かつnの最大値が和文姓名中の和文漢字の総数である。整列結果に基づき、n元和文漢字に対応する英文文字列及びそのコーパスにおける出現頻度を抽出する(ステップS42)。上記出現頻度に基づき、n元和文漢字が英文文字列に対応する確率を算出する(ステップS43)。なお、上記n元和文漢字、対応する英文文字列及び確率は、抽出される翻訳ルール表を構成する。
翻訳ルール表を抽出する主な目的は、単独の和文漢字又は和文漢字列の発音及びその確率を保存し、翻訳時に活用するためである。
同一の和文漢字が異なる漢字組み合わせにおいて異なる発音を有する場合があるため、単独の和文漢字の発音を抽出するだけではなく、異なる漢字組み合わせにおける当該和文漢字の発音も抽出する。つまり、和文漢字の近接情報も記録し、和文漢字の正確な発音、即ち和文漢字に対応する英文文字列を判断するために利用する。
従って、ステップS41において、和文姓名中のn元和文漢字を抽出し、n≧1かつnの最大値が和文姓名中の和文漢字の総数である。
例えば、「藤原智史」から「藤」、「藤原」、「藤原智」、「藤原智史」、「原」、「原智」、「原智史」、「智」、「智史」、「史」を抽出することができる。
ステップS42において、整列結果に基づき、n元和文漢字に対応する英文文字列及びそのコーパスにおける出現頻度を抽出する。
例えば、「藤」は「fu ji」に対応し、コーパスにおいて100回出現している。
ステップS43において、上記出現頻度に基づき、n元和文漢字が英文文字列に対応する確率を算出する。
例えば、「藤」が「fuji」、「to」に対応する頻度がそれぞれ2回と8回である場合、「藤」が「fuji」と発音される確率=2/(2+8)=0.2を算出できる。
本発明はこれに限らず、出現頻度を翻訳確率に変換さえできればよいとする。
このように、ステップS41−S43を経て、n元和文漢字、対応する的英文文字列、対応する確率が得られ、この三つが抽出される翻訳ルール表を構成する。
分割と整列を一つのステップに統一し、整列結果を分割結果としているため、本発明によって得られる翻訳ルール表は正確度が高く、サイズ設定も柔軟である。
例を挙げて説明すると、このように抽出された「大」は「yama」に対応する確率が比較的に低く、「大」が「大和」においてのみ「yama」と発音され、「大和」が「yamato」に対応する確率が比較的に高く、「大和」が一体的に出現する時の正確な読みを表している。これにより、本発明で抽出された翻訳ルール表を利用して翻訳を行う時に、「大和」以外の「大」の場合、「大」が「yama」に対応することから「yama」と翻訳することなく、「大和」の場合、「大和」が「yamato」に対応する確率が比較的に高いため、正確な翻訳結果を得ることができる。
以下、図3を参照して、本発明の実施例の上記方法によって抽出された姓名辞書及び翻訳ルール表を利用して和文姓名と英文姓名間の翻訳を行う方法の流れを説明する。
図3は本発明の実施例による、抽出された姓名辞書及び翻訳ルール表を利用して翻訳を行う方法を示すフローチャートである。図3が示すように、本発明による姓名辞書及び翻訳ルール表を利用して翻訳を行う翻訳方法300は以下のステップ、即ち、上記姓名辞書において、翻訳待ちの姓名中の和文漢字/英文文字列にマッチする姓と名を検索するステップ(ステップS31);一つだけのマッチ結果が検索された場合、当該マッチ結果を翻訳結果とするステップ(ステップS32);及び、複数のマッチ結果が検索された場合、上記姓名辞書中の出現頻度に基づき、各マッチ結果の得点を算出し、得点が最高であるマッチ結果を翻訳結果として選択し、又は上記マッチ結果を得点の高い順に配列させるステップ(ステップS33)を含む。
本発明で抽出される姓名辞書は既存の姓名対の中から抽出されたものであるに対し、翻訳ルール表はn元文字列の対応関係を示しているため、姓名辞書の方が信頼性が高い。姓名辞書と翻訳ルール表の両方を備えている場合、姓名辞書を用いて翻訳することが好ましい。
具体的に、ステップS31では、上記姓名辞書において、翻訳待ちの姓名中の和文漢字/英文文字列にマッチする姓と名を検索する。
一つだけのマッチ結果が検索された場合、当然ながら当該マッチ結果を翻訳結果とする。
そうでない場合、即ち、複数のマッチ結果が検索された場合、上記姓名辞書における出現頻度に基づき、各マッチ結果の得点を算出し、得点が最高であるマッチ結果を翻訳結果として選択し、又は上記マッチ結果を得点の高い順に配列させる。
これは、出現頻度が高いほど、マッチ結果の信頼性が高いからである。
もちろん、姓名辞書のみを用いて和文姓名又は英文姓名の全体を翻訳しきれない場合がある。この場合、本発明で抽出された翻訳ルール表を用いてさらに翻訳を行うことができる。
具体的には、姓名辞書において翻訳待ちの姓名中の和文漢字/英文文字列にマッチする姓及び/又は名が検索されなかった場合、翻訳ルール表において検索を行う。
また、翻訳ルール表の中から一つだけのマッチ結果が検索された場合、当該マッチ結果を翻訳結果とする。
翻訳ルール表の中から複数のマッチ結果が検索された場合、翻訳ルール表中の確率、又は各マッチ結果中の姓と名が姓名辞書においてどのぐらい存在するかに基づいて、各マッチ結果の得点を算出し、得点が最高であるマッチ結果を翻訳結果として選択し、又は前記マッチ結果を得点の高い順に排列する。
確率に基づいて得点を算出する方式について、当業者は自由に設計することができる。マッチ結果中の姓と名が姓名辞書においてどのぐらい存在するかに基づくことは、出現回数の多い姓氏と名前の信頼性が比較的に高いことを考慮した結果である。
先に姓名辞書を利用して翻訳を行い、全部翻訳できない場合さらに翻訳ルール表を利用する方法のほか、二種類の情報を直接用いて翻訳を行い、即ち、翻訳ルール表を利用して翻訳を行うことで複数種の候補を得てから、姓名辞書を利用して複数種の候補に対し検証と選別を行ってもよい。
以下、図4を参照しながら本発明の実施例による上記方法で抽出された姓名辞書及び翻訳ルール表を利用して和文姓名と英文姓名間の翻訳を行う方法の流れを説明する。
図4は本発明の実施例による、抽出された姓名辞書及び翻訳ルール表を利用して翻訳を行う方法を示すフローチャートである。図4が示すように、本発明による姓名辞書及び翻訳ルール表を利用して翻訳を行う翻訳方法400は以下のステップ、即ち、前記翻訳ルール表に基づき、CKYアルゴリズムを用いて前記翻訳を行い、複数の候補結果を取得するステップ(ステップS401);各候補結果中の姓と名が前記姓名辞書においてどのぐらい存在するかに基づいて、各候補結果の得点を算出するステップ(ステップS402);及び、得点が最高である候補結果を翻訳結果として選択し、又は前記候補結果を得点の高い順に配列させるステップ(ステップS403)。
CKYアルゴリズムは当業者に既に知られている機械翻訳方法であるため、ここで省略する。翻訳ルール表は確率に基づくものであり、かつ和文漢字と英文音節との間に一対多の関係があるため、CKYアルゴリズムで得られる翻訳結果が複数候補になる。
ステップS402において、姓名辞書を利用して候補翻訳結果を検証する。これも上記と同じく、出現回数の多い方の対応関係は信頼性が高いという考えによるものである。
最後に、検証結果に基づき、一つの翻訳結果を選択するか、又は複数の候補結果をユーザに提示する
以下、図5を参照しながら本発明の実施例による和文姓名と英文姓名間の翻訳を行うための姓名辞書及び翻訳ルール表を抽出する装置を説明する。
図5は本発明の実施例による和文姓名と英文姓名間の翻訳を行うための姓名辞書及び翻訳ルール表を抽出する抽出装置を示す構造ブロック図である。図5が示すように、本発明による姓名辞書及び翻訳ルール表を抽出する抽出装置500は、和文姓名及び対応する英文姓名を含む英和姓名コーパスを収集するように構成された収集手段51と、収集された和文姓名と英文姓名を区分するように構成された区分手段52と、和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節とを整列させ、当該整列結果を分割結果とするように構成された整列手段53と、前記整列手段の整列結果に基づき、前記姓名辞書及び翻訳ルール表を抽出するように構成された抽出手段54とを含み、前記和文漢字発音表中には和文漢字及びその対応する一種又は複数種の英文文字列が記載され、前記英文文字列が一つ又は複数の英文音節を含む。
一実施例において、収集手段51はさらに、インタネットから、例えばウィキペディアから和文姓名及びその対応する英文姓名を収集し、又は、和文姓名若しくは英文姓名を収集し、かつその対応する英文姓名若しくは和文姓名を検索エンジンや機械翻訳システムを利用して取得するように構成されている。
一実施例において、区分手段52はさらに、和文姓名を和文漢字に従って区分し、五十音に基づき、英文姓名を音節に従って区分し、かつ英文姓名中の姓と名の間の分離位置を記録するように構成されている。
一実施例において、整列手段53はさらに、和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節との整列組み合わせを取得し、以下の三つの条件を満たす整列組み合わせを整列結果として選択するように構成され、上記三つの条件は、(i)和文姓名中のそれぞれの和文漢字と英文姓名中のそれぞれの英文音節とがすべて整列され、(ii)和文姓名中の順番に従って配列された和文漢字と整列された英文音節の順番が、英文姓名における英文音節の順番に合致し、(iii)前記条件(i)と(ii)を満たす整列組み合わせにおける英文姓名の分割方式が一つだけであることを含む。
一実施例において、整列手段53はさらに、前記三つの条件を満たす整列組み合わせに基づき、前記和文漢字発音表を更新するように構成されている。
一実施例において、前記和文漢字発音表はさらに、和文漢字が一種又は複数種の英文文字列に対応する確率を含む。整列手段53はさらに、前記条件(i)と(ii)を満たすが条件(iii)を満たさない複数の候補組み合わせに対し、前記和文漢字発音表中の確率に基づき、候補組み合わせの確率を算出し、かつ確率が最大である候補組み合わせを整列結果として選出するように構成されている。
一実施例において、整列手段53はさらに、前記条件(ii)を満たすが条件(i)を満たさない整列組み合わせに対し、既に整列された和文漢字の間の未整列和文漢字と対応する未整列英文文字列とを整列させるように構成されている。
一実施例において、整列手段53はさらに、前記未整列和文漢字と対応する未整列英文文字列とを前記和文漢字発音表に更新し、且つ比較的に低い確率を付与するように構成されている。
一実施例において、抽出手段54は姓名辞書抽出ユニットを含み、当該姓名辞書抽出ユニットは、英文姓名中の姓と名の分離、及び和文姓名と英文姓名の整列結果に基づき、和文姓名中の和文漢字を姓と名に分けて、互いに対応する和文姓名と英文姓名及びそのコーパス中に出現する頻度を姓名辞書に記載するように構成されている。
一実施例において、抽出手段54は翻訳ルール表抽出ユニットを含み、当該翻訳ルール表抽出ユニットは、和文姓名中のn元和文漢字を抽出し、n≧1かつnの最大値が和文姓名中の和文漢字総数であり、整列結果に基づき、n元和文漢字に対応する英文文字列及びそのコーパスにおける出現頻度を抽出し、前記出現頻度に基づき、n元和文漢字が英文文字列に対応する確率を算出し、前記n元和文漢字、対応する英文文字列及び確率が抽出される翻訳ルール表を構成するように構成されている。
図6は本発明の実施例による、前記装置によって抽出された姓名辞書及び翻訳ルール表を利用して和文姓名と英文姓名間の翻訳を行う翻訳装置を示す構造ブロック図である。
図6が示すように、本発明による姓名辞書及び翻訳ルール表を利用して翻訳を行う翻訳装置600は、前記姓名辞書において翻訳待ちの姓名中の和文漢字/英文文字列にマッチする姓と名を検索するように構成された第1検索手段61と、第1検索手段が一つだけのマッチ結果を検索した場合、当該マッチ結果を翻訳結果とし、第1検索手段が複数のマッチ結果を検索した場合、前記姓名辞書中の出現頻度に基づき、各マッチ結果の得点を算出し、得点が最高であるマッチ結果を翻訳結果として選択し、又は前記マッチ結果を得点の高い順に配列させるように構成された結果確定手段62とを含む。
一実施例において、翻訳手段600はさらに第2検索手段63を含み、前記姓名辞書において翻訳待ちの姓名中の和文漢字/英文文字列にマッチする姓及び/又は名が検索されなかった場合、前記第2検索手段63は前記翻訳ルール表において検索を行う。前記結果確定手段62は、前記翻訳ルール表において一つだけのマッチ結果が検索された場合、当該マッチ結果を翻訳結果とし、前記翻訳ルール表において複数のマッチ結果が検索された場合、前記翻訳ルール表中の確率に基づき、又は各マッチ結果中の姓と名が前記姓名辞書においてどのぐらい存在するかに基づき、各マッチ結果の得点を算出し、得点が最高であるマッチ結果を翻訳結果として選択し、又は前記マッチ結果を得点の高い順に配列させるように構成されている。
図7は本発明の実施例による、前記装置によって抽出された姓名辞書及び翻訳ルール表を利用して和文姓名と英文姓名間の翻訳を行う翻訳装置を示す構造ブロック図である。
図7が示すように、本発明よる姓名辞書及び翻訳ルール表を利用して翻訳を行う翻訳装置700は、前記翻訳ルール表に基づき、CKYアルゴリズムを用いて前記翻訳を行い、複数の候補結果を取得するように構成された候補取得手段71と、各候補結果中の姓と名が前記姓名辞書においてどのぐらい存在するかに基づき、各候補結果の得点を算出するように構成された得点算出手段72と、得点が最高である候補結果を翻訳結果として選択し、又は前記候補結果を得点の高い順に配列させるように構成された結果確定手段73を含む。
本発明による抽出装置500、翻訳装置600、翻訳装置700に含まれる各手段とユニットの処理がそれぞれ以上に説明した抽出方法100、翻訳方法300、翻訳方法400に含まれる各ステップの処理に類似するため、簡潔化の見地から、これらの手段とユニットの詳細説明を省略する。
なお、前記装置の各構成手段、ユニットをソフトウェア、ファームウェア、ハードウェア及びこれらの組み合わせによって構成することができる。使用可能な具体手段や方式について当業者は熟知しているため、ここで省略する。ソフトウェア又はファームウェアで実現する場合、当該ソフトウェアを構成するプログラムを記憶媒体又はネットワークから専用のハードウェア構造を有するコンピュータ(例えば、図8が示す汎用コンピュータ800)にインストールし、当該コンピュータが各プログラムをインストールした場合、各機能などを実行できる。
図8は本発明の実施例による方法と装置を実施するためのコンピュータを示す概略ブロック図である。
図8において、中央処理ユニット(CPU)801は、読み出し専用メモリ(ROM)802に記憶されているプログラム又は記憶部808からランダムアクセスメモリ(RAM)803へアップロードされたプログラムに基づき、各処理を実行する。RAM803において、必要であれば、CPU801が各処理などを実行する時に必要なデータを記憶する。CPU801、ROM802とRAM803はバス804によって互いに接続される。入力/出力インターフェース805もバス804に接続される。
以下の部品も入力/出力インターフェース805に接続される:入力部806(キーボード、マウスなどを含む)、出力部807(例えばブラウン管(CRT)、液晶ディスプレィ(LCD)などを含むディスプレィ、スピーカーなどを含む)、記憶部808(ハードディスクなどを含む)、通信部809(例えばLANカードなどのネットワークインタフェースカード、モデムなどを含む)。通信部809は、例えばインタネットなどのネットワークを介して通信処理を行う。必要であれば、ドライブ810を入力/出力インターフェース805に接続することもできる。脱着可能な媒体811、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどをドライブ810に実装し、必要に応じてその中からコンピュータプログラムを読み出して、記憶部808にインストールすることができる。
前記一連の処理をソフトウェアによって処理する場合、インタネットなどのネットワーク、又は脱着可能な媒体811などの記憶媒体から、ソフトウェアを構成するプログラムをインストールする。
当業者であれば、記憶媒体は、図8が示すようにプログラムを記憶し、かつ装置と離れた形でユーザへプログラムを提供する脱着可能な媒体811に限定されないことを理解すべきである。脱着可能な媒体811の例として、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク読み出し専用メモリ(CD−ROM)とデータ多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標)を含む)と半導体メモリを含む。又は、記憶媒体はROM802、記憶部808に含まれるハードディスクなどであってもよく、その中にプログラムが記憶されており、かつこれらを含む装置と一緒にユーザに提供されてもよい。
本発明はさらにマシンが読み出し可能な命令を含むプログラムを提供する。前記命令は装置に読み取られて実行される時、前記本発明の実施例による方法を実行することができる。
これに応じて、前記マシンが読み出し可能な命令を含むプログラムを記憶する記憶媒体も本発明に含まれる。前記記憶媒体はフロッピディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティックなどを含むがこれらに限定されない。
以上に説明した本発明の具体的な実施例において、一つの実施形態によって説明及び/又は示された特徴を同じ又は類似する方式で一つの又はより多いその他の実施形態に応用し、その他の実施形態の特徴と組み合わせて、又はその他の実施形態の特徴を代替することができる。
なお、本文で使われる「含む/含まれる」という用語は特徴、要素、ステップ又は部品の存在を意味するが、一つの又はより多いその他の特徴、要素、ステップ又は部品の存在や付加を排除するものではない。
さらに、本発明の方法は、明細書に記載された時間順の実行に限定されず、その他の時間順に従って並行又は個別に実行されてもよい。従って、本明細書で説明した方法の実行順番は本発明の技術範囲を制限するものではない。
以上、本発明の具体的な実施例に基づいて本発明を開示したが、前記すべての実施例及び例はいずれも例示的なものであり、制限的な意図を持たないことを理解すべきである。当業者は、添付の請求の範囲の精神及び範囲内に、本発明に対しさまざまな修正、改良又はそれに相当するものを施すことができる。これらの修正、改良又はそれに相当するものも本発明の保護範囲内に含まれると見なすべきである。
(付記1)
和文姓名と英文姓名間の翻訳を行うための姓名辞書及び翻訳ルール表を抽出する抽出方法であって、
和文姓名及び対応する英文姓名を含む英和姓名コーパスを収集する収集ステップと、
収集された和文姓名及び英文姓名に対し、和文姓名と英文姓名とに区分する区分ステップと、
和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節とを整列させ、当該整列結果を分割結果とする整列ステップと、
前記整列結果に基づき、前記姓名辞書及び翻訳ルール表を抽出する抽出ステップとを含み、
前記和文漢字発音表には和文漢字及びその対応する一種又は複数種の英文文字列が記載され、前記英文文字列が一つ又は複数の英文音節を含む、抽出方法。
(付記2)
前記収集ステップは、
インタネットから和文姓名及びその対応する英文姓名を収集するステップ、又は
和文姓名若しくは英文姓名を収集し、かつ、その対応する英文姓名若しくは和文姓名を、検索エンジン若しくは機械翻訳システムを利用して取得するステップを含む、付記1に記載の抽出方法。
(付記3)
前記区分ステップは、
和文姓名を和文漢字に従って区分するステップと、
五十音に基づき、英文姓名を音節に従って区分し、かつ英文姓名中の姓と名間の分離位置を記録するステップとを含む、付記1に記載の抽出方法。
(付記4)
前記整列ステップは、
和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節との整列組み合わせを取得するステップと、
以下の三つの条件を満たす整列組み合わせを整列結果として選択するステップとを含み、
前記三つの条件は、
(i)和文姓名中のそれぞれの和文漢字と英文姓名中のそれぞれの英文音節とがすべて整列され、
(ii)和文姓名中の順番に従って排列された和文漢字と整列された英文音節の順番が、英文姓名における英文音節の順番に合致し、
(iii)前記条件(i)と(ii)を満たす整列組み合わせにおいて、英文姓名の分割方式が一つだけであることを含む、付記1に記載の抽出方法。
(付記5)
前記整列ステップはさらに、
前記三つの条件を満たす整列組み合わせに基づき、前記和文漢字発音表を更新するステップを含む、付記4に記載の抽出方法。
(付記6)
前記和文漢字発音表はさらに、和文漢字が一種又は複数種の英文文字列に対応する確率を含み、
前記整列ステップはさらに、前記条件(i)と(ii)を満たすが条件(iii)を満たさない複数の候補組み合わせに対し、前記和文漢字発音表中の確率に基づき、候補組み合わせの確率を算出し、かつ確率が最大である候補組み合わせを整列結果として選出するステップを含む、付記4に記載の抽出方法。
(付記7)
前記整列ステップはさらに、
前記条件(ii)を満たすが条件(i)を満たさない整列組み合わせに対し、既に整列された和文漢字の間の未整列和文漢字と対応する未整列英文文字列とを整列させるステップを含む、付記4から6のいずれか一つに記載の抽出方法。
(付記8)
前記整列ステップはさらに、
前記未整列和文漢字と、対応する未整列英文文字列とを前記和文漢字発音表に更新し、かつ比較的に低い確率を付与するステップを含む、付記7に記載の抽出方法。
(付記9)
前記姓名辞書の抽出は、
英文姓名中の姓と名との分離、及び和文姓名と英文姓名との整列結果に基づき、和文姓名中の和文漢字を姓と名とに分けるステップと、
互いに対応する和文姓/名、英文姓/名及びこれらがコーパスに出現する頻度を姓名辞書に記録するステップを含む、付記1に記載の抽出方法。
(付記10)
前記翻訳ルール表の抽出は、
和文姓名中のn元和文漢字を抽出するステップと、
整列結果に基づき、n元和文漢字に対応する英文文字列及びそのコーパスにおける出現頻度を抽出するステップと、
前記出現頻度に基づき、n元和文漢字が英文文字列に対応する確率を算出するステップと、
前記n元和文漢字、対応する英文文字列及び確率が、抽出される翻訳ルール表を構成するステップとを含み、
n≧1かつnの最大値が和文姓名中の和文漢字の総数である、付記1に記載の抽出方法。
(付記11)
付記1から10に記載の方法によって抽出された姓名辞書及び翻訳ルール表を利用して和文姓名と英文姓名間の翻訳を行う翻訳方法であって、
前記姓名辞書において、翻訳待ちの姓名中の和文漢字/英文文字列にマッチする姓と名を検索するステップと、
一つだけのマッチ結果が検索された場合、当該マッチ結果を翻訳結果とするステップと、
複数のマッチ結果が検索された場合、前記姓名辞書中の出現頻度に基づき、各マッチ結果の得点を算出し、得点が最高であるマッチ結果を翻訳結果として選択し、又は前記マッチ結果を得点の高い順に配列させるステップとを含む、翻訳方法。
(付記12)
和文姓名と英文姓名間の翻訳を行うための姓名辞書及び翻訳ルール表を抽出する抽出装置であって、
和文姓名及び対応する英文姓名を含む英和姓名コーパスを収集するように構成された収集手段と、
収集された和文姓名及び英文姓名を区分するように構成された区分手段と、
和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節とを整列させ、当該整列結果を分割結果とするように構成された整列手段と、
前記整列結果に基づき、前記姓名辞書及び翻訳ルール表を抽出するように構成された抽出手段とを含み、
前記和文漢字発音表には和文漢字及びその対応する一種又は複数種の英文文字列が記載され、前記英文文字列が一つ又は複数の英文音節を含む、抽出装置。
(付記13)
前記収集手段はさらに、
インタネット、例えばウィキペディアから、和文姓名及びその対応する英文姓名を収集し、又は
和文姓名若しくは英文姓名を収集し、かつ、その対応する英文姓名若しくは和文姓名を、検索エンジン若しくは機械翻訳システムを利用して取得するように構成された、付記12に記載の抽出装置。
(付記14)
前記区分手段はさらに、
和文姓名を和文漢字に従って区分し、
五十音に基づき、英文姓名を音節に従って区分し、かつ英文姓名中の姓と名間の分離位置を記録するように構成された、付記12に記載の抽出装置。
(付記15)
前記整列手段はさらに、
和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節との整列組み合わせを取得し、
以下の三つの条件を満たす整列組み合わせを整列結果として選択するように構成され、
前記三つの条件は、
(i)和文姓名中のそれぞれの和文漢字と英文姓名中のそれぞれの英文音節とがすべて整列され、
(ii)和文姓名中の順番に従って排列された和文漢字と整列された英文音節の順番が、英文姓名における英文音節の順番に合致し、
(iii)前記条件(i)と(ii)を満たす整列組み合わせにおいて、英文姓名の分割方式が一つだけであることを含む、付記12に記載の抽出装置。
(付記16)前記整列手段はさらに、
前記三つの条件を満たす整列組み合わせに基づき、前記和文漢字発音表を更新するように構成された、付記15に記載の抽出装置。
(付記17)
前記和文漢字発音表はさらに、和文漢字が一種又は複数種の英文文字列に対応する確率を含み、
前記整列手段はさらに、前記条件(i)と(ii)を満たすが条件(iii)を満たさない複数の候補組み合わせに対し、前記和文漢字発音表中の確率に基づき、候補組み合わせの確率を算出し、かつ確率が最大である候補組み合わせを整列結果として選出するように構成された、付記15に記載の抽出装置。
(付記18)
前記整列手段はさらに、
前記条件(ii)を満たすが条件(i)を満たさない整列組み合わせに対し、既に整列された和文漢字の間の未整列和文漢字と対応する未整列英文文字列とを整列させるように構成された、付記15から17のいずれか一つに記載の抽出装置。
(付記19)
前記整列手段はさらに、
前記未整列和文漢字と対応する未整列英文文字列とを前記和文漢字発音表に更新し、かつ比較的に低い確率を付与するように構成された、付記18記載の抽出装置。
(付記20)
前記抽出手段は姓名辞書抽出ユニットを含み、当該姓名辞書抽出ユニットが、
英文姓名中の姓と名との分離、及び和文姓名と英文姓名との整列結果に基づき、和文姓名中の和文漢字を姓と名とに分けて、
互いに対応する和文姓/名と英文姓/名及びこれらがコーパス中に出現する頻度を、姓名辞書に記載するように構成された、付記12に記載の抽出装置。
51 収集手段
52 区分手段
53 整列手段
54 抽出手段
500 抽出装置
61 第1検索手段
62 結果確定手段
63 第2検索手段
600 翻訳装置
71 候補取得手段
72 得点算出手段
73 結果確定手段
700 翻訳装置
801 CPU
802 ROM
803 RAM
804 バス
805 入力/出力インターフェース
806 入力部
807 出力部
808 記憶部
809 通信部
810 ドライブ
811 脱着可能な媒体

Claims (10)

  1. 和文姓名と英文姓名間の翻訳を行うための姓名辞書及び翻訳ルール表を抽出する抽出方法であって、
    和文姓名及び対応する英文姓名を含む英和姓名コーパスを収集する収集ステップと、
    収集された和文姓名及び英文姓名に対し、和文姓名と英文姓名とに区分する区分ステップと、
    和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節とを整列させ、当該整列結果を分割結果とする整列ステップと、
    前記整列結果に基づき、前記姓名辞書及び翻訳ルール表を抽出する抽出ステップとを含み、
    前記和文漢字発音表には和文漢字及びその対応する一種又は複数種の英文文字列が記載され、前記英文文字列は一つ又は複数の英文音節を含む、抽出方法。
  2. 前記区分ステップは、
    和文姓名を和文漢字に従って区分するステップと、
    五十音に基づき、英文姓名を音節に従って区分し、かつ英文姓名中の姓と名間の分離位置を記録するステップとを含む、請求項1に記載の抽出方法。
  3. 前記整列ステップは、
    和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節との整列組み合わせを取得するステップと、
    以下の三つの条件を満たす整列組み合わせを整列結果として選択するステップとを含み、
    前記三つの条件は、
    (i)和文姓名中のそれぞれの和文漢字と英文姓名中のそれぞれの英文音節とがすべて整列され、
    (ii)和文姓名中の順番に従って配列された和文漢字と整列された英文音節の順番が、英文姓名における英文音節の順番に合致し、
    (iii)前記(i)と(ii)を満たす整列組み合わせにおいて、英文姓名の分割方式が一つだけであることを含む、請求項1に記載の抽出方法。
  4. 前記整列ステップはさらに、
    前記三つの条件を満たす整列組み合わせに基づき、前記和文漢字発音表を更新するステップを含む、請求項3に記載の抽出方法。
  5. 前記和文漢字発音表はさらに、和文漢字が一種又は複数種の英文文字列に対応する確率を含み、
    前記整列ステップはさらに、前記条件(i)と(ii)を満たすが条件(iii)を満たさない複数の候補組み合わせに対し、前記和文漢字発音表中の確率に基づき、候補組み合わせの確率を算出し、かつ確率が最大である候補組み合わせを整列結果として選出するステップを含む、請求項3に記載の抽出方法。
  6. 前記整列ステップはさらに、
    前記条件(ii)を満たすが条件(i)を満たさない整列組み合わせに対し、既に整列された和文漢字の間の未整列和文漢字と対応する未整列英文文字列とを整列させるステップを含む、請求項3から5のいずれか一項に記載の抽出方法。
  7. 前記整列ステップはさらに、
    前記未整列和文漢字と、対応する未整列英文文字列とを前記和文漢字発音表に更新し、かつ比較的に低い確率を付与するステップを含む、請求項6に記載の抽出方法、
  8. 前記姓名辞書の抽出は、
    英文姓名中の姓と名との分離、及び和文姓名と英文姓名との整列結果に基づき、和文姓名中の和文漢字を姓と名とに分けるステップと、
    互いに対応する和文姓/名と英文姓/名、およびこれらがコーパスに出現する頻度を姓名辞書に記録するステップとを含む、請求項1に記載の抽出方法。
  9. 前記翻訳ルール表の抽出は、
    和文姓名中のn元和文漢字を抽出するステップと、
    整列結果に基づき、n元和文漢字に対応する英文文字列及びそのコーパスにおける出現頻度を抽出するステップと、
    前記出現頻度に基づき、n元和文漢字が英文文字列に対応する確率を算出するステップと、
    前記n元和文漢字、対応する英文文字列及び確率が、抽出される翻訳ルール表を構成するステップとを含み、
    n≧1かつnの最大値が和文姓名中の和文漢字の総数である、請求項1に記載の抽出方法。
  10. 和文姓名と英文姓名間の翻訳を行うための姓名辞書及び翻訳ルール表を抽出する抽出装置であって、
    和文姓名及び対応する英文姓名を含む英和姓名コーパスを収集するように構成された収集手段と、
    収集された和文姓名及び英文姓名を区分するように構成された区分手段と、
    和文漢字発音表を利用して、和文姓名中の和文漢字と英文姓名中の英文音節とを整列させ、当該整列結果を分割結果とするように構成された整列手段と、
    前記整列結果に基づき、前記姓名辞書及び翻訳ルール表を抽出するように構成された抽出手段とを含み、
    前記和文漢字発音表には和文漢字及びその対応する一種又は複数種の英文文字列が記載され、前記英文文字列は一つ又は複数の英文音節を含む、抽出装置。
JP2015104916A 2014-05-23 2015-05-22 姓名辞書及び翻訳ルール表を抽出する方法と装置 Pending JP2015225666A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410222052.3A CN105095194A (zh) 2014-05-23 2014-05-23 抽取姓名词典和翻译规则表的方法和设备
CN201410222052.3 2014-05-23

Publications (1)

Publication Number Publication Date
JP2015225666A true JP2015225666A (ja) 2015-12-14

Family

ID=54575665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015104916A Pending JP2015225666A (ja) 2014-05-23 2015-05-22 姓名辞書及び翻訳ルール表を抽出する方法と装置

Country Status (2)

Country Link
JP (1) JP2015225666A (ja)
CN (1) CN105095194A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291559A (zh) * 2020-01-22 2020-06-16 中国民航信息网络股份有限公司 姓名文本处理方法及装置、存储介质及电子设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423292A (zh) * 2017-06-23 2017-12-01 昆明理工大学 基于分层狄利克雷过程的柬‑汉双语人名音节对齐方法
CN113688615B (zh) * 2020-05-19 2024-02-27 阿里巴巴集团控股有限公司 一种字段注释生成、字符串理解方法、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593173B (zh) * 2008-05-28 2011-08-10 中国科学院自动化研究所 一种汉英反向音译方法及装置
JP5587281B2 (ja) * 2011-11-25 2014-09-10 株式会社ゼンリンデータコム 注記表記変換装置、注記表記変換方法および注記表記変換プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291559A (zh) * 2020-01-22 2020-06-16 中国民航信息网络股份有限公司 姓名文本处理方法及装置、存储介质及电子设备
CN111291559B (zh) * 2020-01-22 2023-04-11 中国民航信息网络股份有限公司 姓名文本处理方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN105095194A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
US9916304B2 (en) Method of creating translation corpus
CN108959258B (zh) 一种基于表示学习的特定领域集成实体链接方法
Beinborn et al. Cognate production using character-based machine translation
CN102779135B (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
JP2014078132A (ja) 機械翻訳装置、方法およびプログラム
Zhang et al. HANSpeller++: A unified framework for Chinese spelling correction
US20080208837A1 (en) Methods and apparatus for term normalization
Rupp et al. Dealing with heterogeneous big data when geoparsing historical corpora
Babhulgaonkar et al. Language identification for multilingual machine translation
Mayfield et al. Building a cross-language entity linking collection in twenty-one languages
Bhatti et al. Word segmentation model for Sindhi text
JP2015225666A (ja) 姓名辞書及び翻訳ルール表を抽出する方法と装置
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
Darwish Transliteration mining with phonetic conflation and iterative training
JP2015158833A (ja) 情報処理装置、方法及びプログラム
Fu et al. Generating Chinese named entity data from parallel corpora
Charton et al. Improving Entity Linking using Surface Form Refinement.
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Zamin et al. A statistical dictionary-based word alignment algorithm: An unsupervised approach
JP2015106361A (ja) データ検索システムおよびデータ検索方法
US10042843B2 (en) Method and system for searching words in documents written in a source language as transcript of words in an origin language
JP4592629B2 (ja) 文書検索支援方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5132430B2 (ja) 姓名候補を生成する情報処理装置、情報処理方法、およびプログラム
JP5259764B2 (ja) 拾い読み支援システム、拾い読み支援方法及びプログラム
JP5441872B2 (ja) 文書処理装置、方法、及びプログラム