JP6186198B2 - 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム - Google Patents
学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム Download PDFInfo
- Publication number
- JP6186198B2 JP6186198B2 JP2013148721A JP2013148721A JP6186198B2 JP 6186198 B2 JP6186198 B2 JP 6186198B2 JP 2013148721 A JP2013148721 A JP 2013148721A JP 2013148721 A JP2013148721 A JP 2013148721A JP 6186198 B2 JP6186198 B2 JP 6186198B2
- Authority
- JP
- Japan
- Prior art keywords
- meta information
- translation
- unit
- individual
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
しかしながら、特許文献1に記載の技術では、例えば、翻訳モデルに誤ったフレーズが大量に作成されることがある。統計翻訳では、翻訳モデルに誤ったフレーズが大量に作成された場合に、正しく目的言語に翻訳することが困難である。そのため、特許文献1に記載の技術では、統計翻訳の品質が低下することがあった。
また、本発明の一態様は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成方法であって、個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成ステップと、翻訳モデル整形部が、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形ステップと、メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、を含み、前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、前記第1翻訳モデルから前記削除対象を削除して前記第2翻訳モデルを生成することを特徴とする学習モデル作成である。
また、本発明の一態様は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成方法であって、個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成ステップと、翻訳モデル整形部が、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形ステップと、メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、を含み、前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、前記フレーズ対において少なくとも1つのフレーズが前記個別メタ情報を2個以上有する場合に、当該フレーズ対を削除対象とし、前記第1翻訳モデルから前記削除対象を削除して前記第2翻訳モデルを生成することを特徴とする学習モデル作成方法である。
また、本発明の一態様は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置としてのコンピュータに、個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成ステップと、翻訳モデル整形部が、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形ステップと、メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、を実行させ、前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、前記第1翻訳モデルから前記削除対象を削除して前記第2翻訳モデルを生成する処理を実行させるためのプログラムである。
また、本発明の一態様は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置としてのコンピュータに、個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成ステップと、翻訳モデル整形部が、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形ステップと、メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、を実行させ、前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、前記フレーズ対において少なくとも1つのフレーズが前記個別メタ情報を2個以上有する場合に、当該フレーズ対を削除対象とし、前記第1翻訳モデルから前記削除対象を削除して前記第2翻訳モデルを生成する処理を実行させるためのプログラムである。
まず、本実施形態による学習モデル作成装置について、図面を参照して説明する。
図1は、本実施形態による学習モデル作成装置1の一例を示すブロック図である。
この図において、学習モデル作成装置1は、記憶部40と処理部50を備えている。学習モデル作成装置1は、対訳コーパス記憶部20に記憶されている対訳文と、目的言語コーパス記憶部30に記憶されている目的言語文とを入力データとして、統計ベース機械翻訳(以下、統計翻訳という)に使用する学習モデル(翻訳モデル、及び言語モデル)を作成する。すなわち、学習モデル作成装置1は、統計的手法に基づいて機械翻訳のための学習モデルを作成する。
また、原言語文とは、翻訳処理の入力となる言語の文のことであり、原言語(第1言語)とは、翻訳処理の入力となる言語のことである。また、目的言語文とは、翻訳結果となる目的言語の文のことであり、目的言語(第2言語)とは、翻訳結果となる言語のことである。
なお、本実施形態では、原言語(第1言語)が日本語であり、目的言語(第2言語)が英語である場合の一例について説明する。
図2は、本実施形態における対訳コーパス記憶部20のデータ構成の一例を示す構成図である。
この図において、対訳コーパス記憶部20は、「No.」と、「原言語文」と、「目的言語文」とを対応付けて記憶する。ここで、「No.」は、対訳文の番号(識別情報)を示し、「原言語文」は、原言語の文である日本語文を示し、「目的言語文」は、目的言語の文である英語文を示している。なお、「原言語文」と、「目的言語文」との組が、対訳文に対応する。
例えば、図2に示す例では、対訳コーパス記憶部20は、「No.」が“1”〜“N”までの対訳文を記憶しており、「No.」が“1”である対訳文は、「原言語文」(日本語文)が“私は、東京に行く。”であり、この「原言語文」に対応する「目的言語文」(英語文)が、“I go to Tokyo.”であることを示している。
図3は、本実施形態における目的言語コーパス記憶部30のデータ構成の一例を示す構成図である。
この図において、目的言語コーパス記憶部30は、「No.」と、「目的言語文」とを対応付けて記憶する。ここで、「No.」は、「目的言語文」の番号(識別情報)を示し、「目的言語文」は、目的言語の文である英語文を示している。
例えば、図3に示す例では、目的言語コーパス記憶部30は、「No.」が“1”〜“M”までの「目的言語文」を記憶しており、「No.」が“1”である「目的言語文」(英語文)が、“This is a pen.”であることを示している。
この図において、「No.」は、用語辞書情報の番号(識別情報)を示し、「原言語の用語」は、原言語(日本語)の用語を示し、「目的言語の用語」は、「原言語の用語」に対応する目的言語(英語)の用語を示している。また、「品詞」は、用語の品詞の種類を示し、「分類(分類ID)」は、用語の属性に応じた分類を示す分類情報(識別情報)を示している。ここで、「原言語の用語」及び「目的言語の用語」は、いずれも前処理済みである。「前処理済み」の「原言語の用語」及び「目的言語の用語」とは、各用語ともに正規化され、単語分かち書きされている状態の「原言語の用語」及び「目的言語の用語」を示す。
この図において、「分類」は、用語の分類を示し、「分類ID」は、用語の分類の識別情報を示している。
例えば、図5に示す例では、分類テーブルT2は、「分類」が“人名”であり、この分類に対応する「分類ID」が“01”であることを示し、「分類」が“文書名” であり、この分類に対応する「分類ID」が“54”であることを示している。
例えば、分類置換ID(統合メタ情報)は、“ZZ”の直後に分類を示す数字2桁を追加した情報であり、識別置換ID(個別メタ情報)は、分類置換ID(統合メタ情報)の直後に用語を区別するための数字2桁(識別ID)を追加した情報である。
分類置換情報記憶部421は、図6に示すように、原言語の分類置換IDと、目的言語の分類置換IDとを対応づけて記憶する。
この図において、「No.」は、分類置換IDの対訳の番号(識別情報)を示し、「原言語」は、原言語(日本語)の分類置換IDを示し、「目的言語」は、「原言語」に対応する目的言語(英語)の分類置換IDを示している。
例えば、図6に示す例では、分類置換情報記憶部421は、「No.」が“1”〜“Y”までの分類置換IDの対訳を記憶しており、「No.」が“1”である「原言語」(日本語の分類置換ID)が、“ZZ01”であり、「目的言語」(英語の分類置換ID)が“ZZ01”であることを示している。
この図において、「No.」は、識別置換IDの対訳の番号(識別情報)を示し、「原言語」は、原言語(日本語)の識別置換IDを示し、「目的言語」は、「原言語」に対応する目的言語(英語)の識別置換IDを示している。
例えば、図7に示す例では、識別置換情報記憶部422は、「No.」が“1”〜“YY”までの識別置換IDの対訳を記憶しており、「No.」が“1”である「原言語」(日本語の識別置換ID)が、“ZZ0101”であり、「目的言語」(英語の識別置換ID)が“ZZ0101”であることを示している。
なお、図7に示す例では、分類置換IDが“ZZ01”である場合の例を示しているが、識別置換情報記憶部422には、各分類置換IDについて同様の情報が記憶されている。
処理部50は、前処理部51、個別メタ情報置換部52、翻訳モデル作成部53、フレーズ整形部54、メタ情報統合部55、統合メタ情報置換部56、及び言語モデル作成部57を備えている。
前処理部51は、形態素解析の結果として、文の各単語に対して、品詞と、出現位置を示す情報(文頭から数えて、何文字目から何文字目までを占めるのかを示す情報)とを付与する。
前処理部51は、単語分かち書き処理した対訳文を個別メタ情報置換部52に出力する。また、前処理部51は、単語分かち書き処理した目的言語文を統合メタ情報置換部56に出力する。
例えば、個別メタ情報置換部52は、用語辞書記憶部41から、文字列が長い用語の順に検索して、前処理部51によって形態素解析された対訳文に含まれる用語が抽出された場合に、抽出された当該用語を、当該用語に対応する分類情報を含む個別メタ情報(識別置換ID)に置換する。
具体的に、個別メタ情報置換部52は、後述する図9(a)に示すような対訳文を、図9(b)に示すような、個別メタ情報(識別置換ID)を含む対訳文に変換する。このように、個別メタ情報置換部52は、異なる言語の対応する文の組である対訳文に含まれる異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する。
このように、翻訳モデル作成部53は、個別メタ情報置換部52によって置換された個別メタ情報(識別置換ID)を含む対訳文に基づいて、個別メタ情報(識別置換ID)を含む対訳文を構成する異なる言語のフレーズの対であるフレーズ対を含む翻訳モデル(第1翻訳モデル)を作成する。
[規則1]
フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいてメタ情報の数が異なる場合に、当該フレーズ対を削除対象とする。すなわち、原言語と目的言語とが対応付けられたフレーズ対で、個別メタ情報(識別置換ID)の数の異なるもの(つまり、対応付けられた原言語と目的言語とのフレーズそれぞれに含まれる個別メタ情報の数が異なるもの)は、削除対象とする。
フレーズ整形部54は、整形規則記憶部43が記憶するこの[規則1]に基づいて、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいてメタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、翻訳モデルから削除対象を削除して整形翻訳モデルを生成する。
フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて、フレーズ対がメタ情報を2個以上有するフレーズを含む場合(つまり、対応付けられた原言語と目的言語とのフレーズの、少なくとも1つのフレーズに含まれるメタ情報の数が2個以上の場合)に、当該フレーズ対を削除対象とする。すなわち、原言語と目的言語とが対応付けられたフレーズ対において、1つのフレーズが、個別メタ情報(識別置換ID)を2個以上含むものは、削除対象とする。
フレーズ整形部54は、整形規則記憶部43が記憶するこの[規則2]に基づいて、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて、1つのフレーズがメタ情報を2個以上有するフレーズを含む場合に、当該フレーズ対を削除対象とし、翻訳モデルから削除対象を削除して整形翻訳モデルを生成する。
フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて、メタ情報の数が等しい場合(つまり、対応付けられた原言語と目的言語のフレーズそれぞれに含まれる個別メタ情報の数が同じ場合)、且つ、メタ情報の出現順序が等しい場合に、当該フレーズ対を削除対象から除外する(つまり、削除しない)。すなわち、原言語と目的言語とが対応付けられたフレーズ対で、対応する個別メタ情報(識別置換ID)の出現順序が等しいものを削除対象から除外する。
フレーズ整形部54は、整形規則記憶部43が記憶するこの[規則3]に基づいて、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて、メタ情報の数が等しい場合、且つ、メタ情報の出現順序が等しい場合に、当該フレーズ対を削除対象から除外する。
このフレーズ対は、翻訳モデル作成部53によって誤って抽出されたフレーズ対であり、このフレーズ対を含んだ翻訳モデルに基づいて統計処理が行われた場合、原言語と目的言語との間で、個別メタ情報(識別置換ID)の数が異なる翻訳がされることになる。
このフレーズ対は、同一フレーズ内に同じ分類の辞書登録用語が複数出現する場合で、且つ、語順が原言語と目的言語との間で入れ替わる場合である。
原言語と目的言語とで対応する用語の語順が異なるような文対を学習した場合、第1翻訳モデルにて高い出現確率値が付与されたフレーズ対の中には、原言語と目的言語との間で語順が入れ替わるようなフレーズ対が多数含まれることになる。例えば、個別メタ情報(識別置換ID)の形式では(つまり、各用語を個別に特定できる情報が含まれた状態では)、このフレーズ対を用いて翻訳を行う場合には正しい翻訳結果を得ることができる。
例えば、1つの辞書用語が取りうる個別メタ情報の種類数をN、ある対訳文中に辞書用語がM語存在し、これらが全て同一の用語分類である場合を考える。この場合、当該対訳文の辞書用語部分を出現しうる全てのバリエーションの個別メタ情報に変換した対訳文を作成するには、P(N,M)文の対訳を生成する必要があることになる。仮に、N=10、及びM=4の場合を考えると、1つの対訳文から約5000文の対訳文を生成する必要が生じ、現実的とはいえない。なお、ここでは、辞書用語が全て同一の分類である場合のみを考えたが、複数分類の用語がある場合は、異なる用語分類の用語においては、「同一の識別IDは用いることができない」という制限すら外れるため、さらに対訳文の組み合わせ数は増大する。
例えば、原言語のフレーズの中に同じ分類の個別メタ情報が2つ含まれ、目的言語のフレーズの中にも同じ分類の個別メタ情報が2つ含まれる場合を考える。このような場合、個別メタ情報を統合メタ情報に変換すると、原言語のフレーズの2つの統合メタ情報と目的言語の2つの統合メタ情報を対応付ける組み合わせが2種類生じ、統合メタ情報ではいずれの組み合わせが正しいかを判断することができなくなる。
複数の統合メタ情報を対応づけることはできる。しかし、この規則を用いて複数の統合メタ情報を含むフレーズを用いて翻訳を実施した場合、正しくは語順が入れ替わる文が翻訳対象として入力されると、語順が入れ替わらない翻訳(つまり、誤った翻訳)がされることになる。つまり、この(2)に示すフレーズ対を含んだ翻訳モデルに基づいて統計処理が行われた場合、語順が入れ替わるべき所で、語順が入れ替わらない翻訳がされることになる。
本実施形態の学習モデル作成装置1は、このような誤った翻訳がされる可能性のあるフレーズ対を予め削除している。
メタ情報統合部55は、例えば、個別メタ情報として“ZZ0101”及び“ZZ0102”が抽出された場合に、それぞれの下位2桁の識別ID部分を削除し、“ZZ01”(分類置換ID)に変換する。
以下に1つのフレーズ対に2種類の確率値が付与されている場合の例を用いて説明する。
例えば、個別メタ情報を統合メタ情報に置き換える前には、下記のような3つのフレーズ対がある場合を想定する。
“ZZ5401 を ZZ5402”⇔“ZZ5401 to ZZ5402”:確率値PF1、PG1
“ZZ5405 を ZZ5406”⇔“ZZ5405 to ZZ5406”:確率値PF2、PG2
“ZZ5409 を ZZ5410”⇔“ZZ5409 to ZZ5410”:確率値PF3、PG3
これらのフレーズ対の個別メタ情報を統合メタ情報へ変換すると、
“ZZ54 を ZZ54”⇔“ZZ54 to ZZ54”:確率値PF1、PG1
“ZZ54 を ZZ54”⇔“ZZ54 to ZZ54”:確率値PF2、PG2
“ZZ54 を ZZ54”⇔“ZZ54 to ZZ54”:確率値PF3、PG3
という、フレーズ対の内容は同一だが、付与されている確率値の異なるフレーズ対が3つ出現する。
(1)フレーズ対に対して付与される確率値が低くなるため、翻訳結果がこのフレーズ対が用いられる確率が本来あるべき確率よりも下がる。つまり、翻訳結果の際に用いられる確率が本来あるべき確率値よりも下がるため、翻訳結果の精度が下がるという問題が生じる。
(2)学習結果の中に、翻訳で用いられないフレーズ対が多く発生する。つまり、記憶部に不要なフレーズ対が記憶されてしまうという問題が生じる。
これらの問題を解消するために、メタ情報統合部55は「フレーズ対の内容は同一だが、付与されている確率値の異なるフレーズ対」を1つのフレーズ対として統合するフレーズ対のユニーク処理を実施する。
上記3つのフレーズ対の例では、メタ情報統合部55は、確率値のみが異なる3つのフレーズ対を“ZZ54 を ZZ54”⇔“ZZ54 to ZZ54”という1つのフレーズ対に統合し、確率値を統合前の確率値の和、すなわち、(PF1+PF2+PF3)、(PG1+PG2+PG3)により再定義する。つまり、上記の3つのフレーズ対は、下記の1つのフレーズ対へ統合される。
“ZZ54 を ZZ54”⇔“ZZ54 to ZZ54”:確率値(PF1+PF2+PF3)、(PG1+PG2+PG3)
メタ情報統合部55は、上記のように重複する全てのフレーズ対に対して、フレーズ対を統合するユニーク処理を実施した後、生成したモデル(第3翻訳モデル)を学習モデルとして出力する。
ここでは、まず、図8及び図9を参照して、本実施形態における翻訳モデルの作成処理の一例について説明する。
図8は、本実施形態における翻訳モデルの作成処理の一例を示すフローチャートである。また、図9は、本実施形態における翻訳モデルの作成処理の一例を説明する説明図である
図8において、まず、学習モデル作成装置1の処理部50は、対訳文を取得する(ステップS101)。すなわち、処理部50の前処理部51は、対訳コーパス記憶部20から対訳文を取得する。
例えば、個別メタ情報置換部52は、図9(a)に示すような対訳文を、図9(b)に示すような、個別メタ情報(識別置換ID)を含む対訳文に変換する。図9に示す例では、対訳文において、“彼”⇔“him”、及び“本”⇔“books”が、用語辞書記憶部41に存在している。そのため、個別メタ情報置換部52は、“彼”及び“him”を識別置換ID“ZZ0101”に変換し、“本”及び“books”を識別置換ID“ZZ0102”に変換する。
なお、個別メタ情報置換部52による個別メタ情報の置換処理の詳細については、後述する。
また、フレーズ対“ZZ0101 に ZZ0102 を あげ”⇔“gave ZZ0102 to”についても、原言語のフレーズに含まれる個別メタ情報の個数(2個)が2個以上であり、且つ、原言語のフレーズに含まれる個別メタ情報の個数と目的言語のフレーズに含まれる個別メタ情報の個数(1個)とが異なるため、上述の[規則1]と[規則2]との双方により削除対象となる。
上記2つのフレーズ対は、[規則3]による削除対象からの除外規則には該当しないため、削除される(第2翻訳モデルには含まれない)。
<個別メタ情報の置換処理>
図10は、本実施形態における個別メタ情報の置換処理の一例を説明する説明図である。
この図において、個別メタ情報置換部52は、まず、用語辞書情報を取得する(ステップS201)。すなわち、個別メタ情報置換部52は、用語辞書記憶部41(用語辞書テーブルT1)から用語辞書情報を取得する。そして、個別メタ情報置換部52は、取得した用語辞書情報を原言語の用語の長さの降順にソートする(ステップS202)。
次に、個別メタ情報置換部52は、対訳文を検索して、原言語文と目的言語文との双方に辞書用語が存在するか否かを判定する(ステップS205)。
具体的に、個別メタ情報置換部52は、取得した用語(辞書用語)を検索キーとして、対訳文を検索し、対訳文において、原言語文と目的言語文との双方に辞書用語が存在するか否かを判定する。個別メタ情報置換部52は、原言語文と目的言語文との双方に辞書用語が存在しない場合(ステップS205:NO)に、その原言語の用語は置換対象外と判定し、処理をステップS207に進める。また、個別メタ情報置換部52は、原言語文と目的言語文との双方に辞書用語が存在する場合(ステップS205:YES)に、処理をステップS206に進める。
個別メタ情報置換部52は、例えば、対訳文の中に、新たな置換対象の用語の組と同一分野の個別メタ情報(置換済の用語)の数をカウントし、メタ情報記憶部42の分類に対応する識別置換情報記憶部422の中から、カウント結果+1の項目番号(「No.」)に該当する個別メタ情報(識別置換ID)を取得する。個別メタ情報置換部52は、個別メタ情報置換対象となる用語の組の原言語の用語を、識別置換情報記憶部422から取得した原言語の個別メタ情報(識別置換ID)に置き換えるとともに、用語の組の目的言語の用語を、識別置換情報記憶部422から取得した目的言語の個別メタ情報(識別置換ID)に置き換える。ステップS205の処理の後、個別メタ情報置換部52は、処理をステップS207に進める。
なお、図10において、個別メタ情報置換部52は、個別メタ情報置換部52は、上述のステップS204〜ステップS207の処理を、用語辞書情報の数だけ繰り返し実行し、上述のステップS203〜ステップS208の処理を、対訳文の数だけ繰り返し実行する。
例えば、対訳文が、原言語文「定義書としては、要件定義書と・・・」に対応する目的言語文が“Requirement definition document,・・・are included in definition document.”である場合の一例について説明する。
この場合、個別メタ情報置換部52は、用語辞書記憶部41が記憶する辞書用語情報の中から原言語の用語の文字列が長い用語から順に取得する。
個別メタ情報置換部52は、分野の情報とカウント結果を基に、メタ情報記憶部42を検索する。この場合の例は、識別置換情報記憶部422において、分野が“文書名”の2番目の情報(「原言語」=“ZZ5402”、「目的言語」=“ZZ5402”)を取得する。個別メタ情報置換部52は、置換対象の用語を識別置換情報記憶部422から取得した個別メタ情報(識別置換ID)に置換する。この場合の例では、個別メタ情報置換部52は、「定義書」を“ZZ5402”に、“definition document”を“ZZ5402”に、それぞれ置換する。
なお、個別メタ情報置換部52は、個別メタ情報への置き換え(変換)を対訳文ごとに実施するため、例えば、対訳文番号“A”の中で「定義書」が“ZZ5401”に置き換えられ、対訳文番号“B”では「定義書」が“ZZ5499”に置き換えられることもある。すなわち、用語を特定するための下位2桁(識別ID)は、対訳文によって変化する可能性がある。
図11は、本実施形態における言語モデルの作成処理の一例を示すフローチャートである。
この図において、まず、言語モデルの作成処理の処理部50は、目的言語文を取得する(ステップS301)。すなわち、処理部50の前処理部51は、目的言語コーパス記憶部30から対訳文を取得する。
ここで、チューニング対象の対訳コーパスは、翻訳時に精度を確保したいと考える分野のコーパスが採用されることが一般的であり、学習時に用いたものの一部を用いてもよいし、学習時とは別のものを用いてもよい。
本提案手法においては、チューニングプログラムは既存のもの、例えば、Moses付属のMERT(Minimum Error Rate Training)等を用いればよいが、チューニング対象の対訳コーパスに関しては、原言語、及び目的言語ともに辞書登録用語部分を統合メタ情報に置換したものを用いる必要がある。これは言語モデル作成時に実行している前処理部の処理と、統合メタ情報置換部の処理を、チューニング対象の対訳コーパスの原言語、及び目的言語の双方それぞれに実行したものに等しい。チューニングでは、言語モデルと、メタ情報統合部55を経た後の翻訳モデルを用いて翻訳を繰り返しつつパラメータを改善していくので、個別メタ情報は用いない。なお、本提案手法の効果を最大化するためには、統合メタ情報へ置換された箇所の多い対訳コーパスを用いるとよい。
[翻訳装置の実施形態]
図12は、本実施形態による翻訳装置100の一例を示すブロック図である。
この図において、翻訳装置100は、記憶部60と処理部70を備えている。翻訳装置100は、学習モデル作成装置1で作成した学習モデルに基づいて、入力された原言語文を統計翻訳し、統計翻訳の翻訳結果である目的言語文を出力する。
この図において、「No.」は、復元情報の番号(識別情報)を示し、「位置情報」は、後述する統合メタ情報(分類置換ID)の置換処理において、置換する用語(単語)の原文中の位置を示す情報(例えば、原文中の何番目から何番目の形態素であるかを示す情報)を示している。また、「復元用語」は、復元の際に、置換する目的言語の用語(単語)を示している。また、「分類置換ID」は、統合メタ情報(分類置換ID)の置換処理において置換した統合メタ情報(分類置換ID)を示している。すなわち、「復元用語」とは、統合メタ情報に置き換えられた用語と対応付けて用語辞書記憶部61に記憶されている目的言語の用語である。
処理部70は、前処理部51、翻訳メタ情報置換部72、翻訳処理部73、メタ情報復元部75、及び後処理部76を備えている。また、翻訳処理部73は、学習モデル74を有している。
前処理部51は、形態素解析した原言語文を翻訳メタ情報置換部72に出力する。
また、翻訳処理部73は、出力される目的言語文の各フレーズが、原言語文ではどの位置にあったかを示す情報を付与する。例えば、この原言語文ではどの位置にあったかを示す情報は、原言語文での単語の位置情報を用いることとしてもよく、翻訳処理部73は、「私 は ZZ01 を ZZ01 に あげた 。」という文を翻訳した場合、“I[0−1] gave ZZ01[4−6] to ZZ01[2−3].[7−7]”という翻訳結果を得ることとしてもよい。なお、この例では、“I”、“gave to ZZ01”、“to ZZ01”及び“.”の計4つのフレーズに分けて翻訳されたことになる。また、この例では、原言語の2−3番目の形態素が“to ZZ01”に、4−6番目の形態素が“gave to ZZ01”に翻訳されたことを表している。なお、原言語の形態素は、例えば、0番目から数えている。すなわち、上述の例では、0番目が“私”に対応し、1番目が“は”に対応する。
このように、メタ情報復元部75は、翻訳結果に含まれる統合メタ情報(分類置換ID)とそれに付随する位置情報を基に復元情報記憶部62を検索し、該当する復元情報ある場合、翻訳結果に含まれる統合メタ情報を該当する復元情報における「復元用語」で置き換える。
ここでは、図14及び図15を参照して、本実施形態における翻訳装置100の翻訳処理の一例について説明する。
図14において、まず、翻訳装置100の処理部70は、入力文である原言語文を取得する(ステップS401)。すなわち、処理部70の前処理部51は、入力文である原言語文を取得する。
例えば、翻訳メタ情報置換部72は、図15(a)に示すような原言語文を、図15(b)に示すような、分類置換IDを含む原言語文に変換する。
また、翻訳メタ情報置換部72は、分類置換IDに置き換える際に、復元情報記憶部62に、「位置情報」、「復元用語」、及び「分類置換ID」を対応付けて復元情報として記憶する。
例えば、図15に示す例では、メタ情報復元部75は、上述した復元情報F1に基づいて、目的言語文の1番目の“ZZ54”を、“function list”に変換する。また。メタ情報復元部75は、上述した復元情報F2に基づいて、目的言語文の2番目の“ZZ54”を、“requirements definition document”に変換する。
すなわち、本実施形態による学習モデル作成装置1は、統計翻訳の品質を低下させずに、学習コストを低減させることができる(必要対訳文数の削減、再学習が必要な機会の削減)。
これにより、本実施形態による学習モデル作成装置1は、誤翻訳の原因となる(1)原言語と目的言語とで個別メタ情報(識別置換ID)の個数の異なるフレーズ対と、(2)原言語と目的言語とで個別メタ情報(識別置換ID)の出現順序が異なるフレーズ対とを翻訳モデルから適切に削除することができる。よって、本実施形態による学習モデル作成装置1は、統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮することができる。
例えば、図15に示す例において、「XML Markup」を利用した場合、下記のような処理となる。ここで、Markup用語とは、「XML Markup」により訳語が指定される原言語の用語を示す。下記の例でいえば、“要件定義書”、及び“機能一覧”がMarkup用語となる。
「XML Markup」を利用した場合、“要件定義書を参照して機能一覧を作成してください。”は、前処理実施後、Markup用語の訳語を指定しつつ、XMLタグで囲む処理が実行され、“<np translation=″requirements definition documents″>要件 定義 書</np>を 参照 し て<np translation=″function list″></np>を 作成 し て ください 。”となる。
「XML Markup」を利用した場合には、学習モデル用いて、この5つのフレーズを並び替えが実行され、目的言語文として出力される。
なお、本来の処理は、このように逐次的な処理ではなく、並び替えと訳語選択を同時に解いてもっともらしい訳が選択される処理であるが、ここでは、語順の問題を説明する上で、上記処理のように説明した。
上記の「XML Markup」を利用した場合には、上記処理の並び替えの際に、下記2点の理由により、語順を考慮した翻訳がされ難い。
上記の例でいえば、“機能一覧”と“を 作成 し て ください 。”の双方を含んだフレーズは仮に学習済みであったとしても、翻訳時には用いられない。前者は、Markup用語であるので、入力文は、少なくともこの前者と後者との間でフレーズが分断され翻訳されるからである。分断された後は、この2つのフレーズを正しく並べ替える必要があるが、下記(理由2)で示すようにそのための語順情報が言語モデルにない場合が多いため、正しい語順が得られない可能性が高い。
また、本実施形態による学習モデル作成装置1は、上述したように、翻訳モデルに含まれる識別置換IDを含むフレーズ対は、識別置換IDの数が一致し、且つ、出現順序が等しいものになるので、語順が入れ替わるものが出現しない。よって、本実施形態による学習モデル作成装置1は、語順まで考慮した用語登録方式に対応させることができる。
これに対して、本実施形態による学習モデル作成装置1では、翻訳モデルに含まれる識別置換IDを含むフレーズ対は、識別置換IDの数が一致し、且つ、出現順序が等しいものになるので、例えば、1つのフレーズの中に変数に置き換えられる単語が複数存在する場合であっても、各単語を正しく対応付けることができる。また、本実施形態による学習モデル作成装置1は、用語辞書(用語辞書記憶部61)に用語を登録することにより、原言語と目的言語とで単語の対応づけを指定することができる。
これにより、文字列が長い順に検索するため、本実施形態による学習モデル作成装置1は、複数の形態素から構成される複合語(例えば、上述した「要件定義書」など)に対応させることができる。
また、本実施形態による学習モデル作成装置1は、用語の分類に応じて、異なる統合メタ情報(分類置換ID)に変換した統合翻訳モデルを学習モデルとして生成することができる。そのため、本実施形態による学習モデル作成装置1は、新語の追加などの変更が生じたい場合に、分類ごとに用語辞書(用語辞書記憶部61)に用語を追加することで対応可能であり、再学習して学習モデル(翻訳モデル)を再作成させずに対応することができる。
これにより、本実施形態による学習モデル作成装置1は、統合メタ情報に対応した言語モデルを作成することができる。また、翻訳モデルと言語モデルとの両方を用いて、統計翻訳を行うことができるので、本実施形態による学習モデル作成装置1は、翻訳品質を向上させることができる。
これにより、本実施形態による翻訳装置100は、学習モデル作成装置1と同様の効果を奏する。すなわち、本実施形態による翻訳装置100は、統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮することができる。また、本実施形態による翻訳装置100は、複合語に対応させることができるともに、語順まで考慮した用語登録に対応させることができる。
これにより、本実施形態による学習モデル作成方法は、学習モデル作成装置1と同様の効果を奏する。
例えば、上記の実施形態では、原言語(第1言語)が日本語であり、目的言語(第2言語)が英語である場合の一例について説明したが、これに限定されるものではない。学習モデル作成装置1及び翻訳装置100は、例えば、日本語及び英語の他に、フランス語、ドイツ語、中国語、韓国語などの自然言語のうちのいずれかの2つの言語に対して適用してもよい。
また、上記の実施形態では、統合メタ情報の一例として、分類置換IDを用いる場合について説明したが、個々の用語を特定しない(個々の用語を区別しない)メタ情報であれば、他のメタ情報であってもよい。
また、個別メタ情報(識別置換ID)、及び統合メタ情報は、分類を示す情報を含まなくてもよい。この場合、個別メタ情報、及び統合メタ情報は、例えば、分類情報を使用しないものでもよいし、分類情報が1種類であってもよい。また、個別メタ情報に分類を示す情報が含まれない場合、個別メタ情報は、1つの文の中で用語を一意に特定可能な情報を含むものであればよい。
また、上記の実施形態では、翻訳装置100は、学習モデル作成装置1を含まない形態について説明したが、翻訳装置100が学習モデル作成装置1を備える形態であってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD−ROM等の非一過性の記録媒体であってもよい。また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部または外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に学習モデル作成装置1及び翻訳装置100が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。
20 対訳コーパス記憶部
30 目的言語コーパス記憶部
40、60 記憶部
41 用語辞書記憶部
42 メタ情報記憶部
43 整形規則記憶部
50、70 処理部
51、71 前処理部
52 個別メタ情報置換部
53 翻訳モデル作成部
54 フレーズ整形部
55 メタ情報統合部
56 統合メタ情報置換部
57 言語モデル作成部
61 用語辞書記憶部
62 復元情報記憶部
72 翻訳メタ情報置換部
73 翻訳処理部
74 学習モデル
75 メタ情報復元部
76 後処理部
100 翻訳装置
421 分類置換情報記憶部
422 識別置換情報記憶部
T1 用語辞書テーブル
T2 分類テーブル
Claims (10)
- 統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置であって、
異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換部と、
前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成部と、
前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形部と、
前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合部と、
を備え、
前記翻訳モデル整形部は、
前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、前記第1翻訳モデルから前記削除対象を削除して前記第2翻訳モデルを生成する
ことを特徴とする学習モデル作成装置。 - 統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置であって、
異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換部と、
前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成部と、
前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形部と、
前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合部と、
を備え、
前記翻訳モデル整形部は、
前記フレーズ対において少なくとも1つのフレーズが前記個別メタ情報を2個以上有する場合に、当該フレーズ対を削除対象とし、前記第1翻訳モデルから前記削除対象を削除して前記第2翻訳モデルを生成する
ことを特徴とする学習モデル作成装置。 - 前記翻訳モデル整形部は、
前記フレーズ対が有する前記異なる言語のフレーズにおいて、前記個別メタ情報の数が等しい場合、且つ、前記個別メタ情報の出現順序が等しい場合に、当該フレーズ対を前記削除対象から除外する
ことを特徴とする請求項1又は請求項2に記載の学習モデル作成装置。 - 前記対訳文を記憶する対訳コーパス記憶部から前記対訳文を取得し、取得した前記対訳文を形態素解析する前処理部を備え、
前記個別メタ情報は、当該用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能であり、
前記個別メタ情報置換部は、
前記異なる言語の対応する用語の組と、前記分類情報とを対応付けて記憶する用語辞書記憶部から、文字列が長い用語の順に用語を取得して、前記前処理部によって形態素解析された前記対訳文を検索し、前記前処理部によって形態素解析された前記対訳文に、前記用語の組の双方の用語が含まれる場合に、当該用語に対応する前記分類情報を含み、且つ、個々の用語を区別可能な前記個別メタ情報に、当該用語を変換し、
前記翻訳モデル作成部は、
前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対と、当該フレーズ対の確率情報とを含を含む前記第1翻訳モデルを作成し、
前記メタ情報統合部は、
前記第2翻訳モデルに含まれる前記個別メタ情報を、前記分類情報を示す前記統合メタ情報に変換した前記第3翻訳モデルを前記学習モデルとして生成する
ことを特徴とする請求項1から請求項3のいずれか一項に記載の学習モデル作成装置。 - 前記学習モデルには、前記第3翻訳モデルと言語モデルとが含まれ、
前記異なる言語のいずれか1つの言語の文であって、複数の文を記憶する目的言語コーパス記憶部から取得した前記1つの言語の文に含まれる用語を、当該用語に対応する前記統合メタ情報に置換する統合メタ情報置換部と、
前記統合メタ情報置換部によって置換された前記統合メタ情報を含む前記1つの言語の文に基づいて、前記言語モデルを前記学習モデルとして作成する言語モデル作成部と
を備えることを特徴とする請求項1から請求項4のいずれか一項に記載の学習モデル作成装置。 - 前記異なる言語のいずれか1つの言語の文を取得し、取得した前記1つの言語の文に含まれる用語を前記統合メタ情報に置換する翻訳メタ情報置換部と、
前記異なる言語の用語を対応付けて記憶する用語辞書記憶部と、
請求項1から請求項5のいずれか一項に記載の学習モデル作成装置によって作成された前記学習モデルに基づいて、前記翻訳メタ情報置換部によって置換された前記統合メタ情報を含む前記1つの言語の文を、前記異なる言語のうち前記取得した1つの言語の文の言語以外の言語の文である翻訳文に翻訳する翻訳処理部と、
前記置換された用語を特定する情報と置換結果である統合メタ情報との対応を記憶する復元情報記憶部と、
前記翻訳文に含まれる統合メタ情報を、前記復元情報記憶部が記憶する前記用語を特定する情報に基づき特定される、前記翻訳文に含まれる前記統合メタ情報に置換された用語に対応付けて前記用語辞書記憶部に記憶された用語に変換するメタ情報復元部と、
を備えることを特徴とする翻訳装置。 - 統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成方法であって、
個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、
翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成ステップと、
翻訳モデル整形部が、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形ステップと、
メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、
を含み、
前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、
前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、前記第1翻訳モデルから前記削除対象を削除して前記第2翻訳モデルを生成する
ことを特徴とする学習モデル作成方法。 - 統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成方法であって、
個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、
翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成ステップと、
翻訳モデル整形部が、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形ステップと、
メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、
を含み、
前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、
前記フレーズ対において少なくとも1つのフレーズが前記個別メタ情報を2個以上有する場合に、当該フレーズ対を削除対象とし、前記第1翻訳モデルから前記削除対象を削除して前記第2翻訳モデルを生成する
ことを特徴とする学習モデル作成方法。 - 統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置としてのコンピュータに、
個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、
翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成ステップと、
翻訳モデル整形部が、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形ステップと、
メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、
を実行させ、
前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、
前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、前記第1翻訳モデルから前記削除対象を削除して前記第2翻訳モデルを生成する処理
を実行させるためのプログラム。 - 統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置としてのコンピュータに、
個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、
翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成ステップと、
翻訳モデル整形部が、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形ステップと、
メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、
を実行させ、
前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、
前記フレーズ対において少なくとも1つのフレーズが前記個別メタ情報を2個以上有する場合に、当該フレーズ対を削除対象とし、前記第1翻訳モデルから前記削除対象を削除して前記第2翻訳モデルを生成する処理
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013148721A JP6186198B2 (ja) | 2013-07-17 | 2013-07-17 | 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013148721A JP6186198B2 (ja) | 2013-07-17 | 2013-07-17 | 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015022431A JP2015022431A (ja) | 2015-02-02 |
JP6186198B2 true JP6186198B2 (ja) | 2017-08-23 |
Family
ID=52486845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013148721A Active JP6186198B2 (ja) | 2013-07-17 | 2013-07-17 | 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6186198B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6498135B2 (ja) * | 2016-02-12 | 2019-04-10 | 日本電信電話株式会社 | 情報処理方法、装置、及びプログラム |
SG11201811724TA (en) * | 2016-09-09 | 2019-04-29 | Panasonic Ip Man Co Ltd | Translation device and translation method |
KR102509822B1 (ko) * | 2017-09-25 | 2023-03-14 | 삼성전자주식회사 | 문장 생성 방법 및 장치 |
JP7247460B2 (ja) | 2018-03-13 | 2023-03-29 | 富士通株式会社 | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム |
CN110781689B (zh) | 2019-10-25 | 2021-08-06 | 北京小米智能科技有限公司 | 信息处理方法、装置及存储介质 |
CN110728156B (zh) * | 2019-12-19 | 2020-07-10 | 北京百度网讯科技有限公司 | 翻译方法、装置、电子设备及可读存储介质 |
-
2013
- 2013-07-17 JP JP2013148721A patent/JP6186198B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015022431A (ja) | 2015-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
JP6186198B2 (ja) | 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム | |
US5895446A (en) | Pattern-based translation method and system | |
CN103970798B (zh) | 数据的搜索和匹配 | |
JP3220886B2 (ja) | 文書検索方法および装置 | |
WO2016095645A1 (zh) | 笔画输入方法、装置和系统 | |
CN108319583A (zh) | 从中文语料库提取知识的方法与系统 | |
CN101308512B (zh) | 一种基于网页的互译翻译对抽取方法及装置 | |
CN105573990A (zh) | 外语句子制作支援装置以及方法 | |
JP5373998B1 (ja) | 辞書生成装置、方法、及びプログラム | |
Balsmeier et al. | Automated disambiguation of us patent grants and applications | |
Alhawiti | Adaptive models of Arabic text | |
JP5355483B2 (ja) | 略語完全語復元装置とその方法と、プログラム | |
JP2020106880A (ja) | 情報処理装置、モデル作成方法及びプログラム | |
JP5391867B2 (ja) | 翻訳装置及び翻訳プログラム | |
Bhatti et al. | Phonetic-based sindhi spellchecker system using a hybrid model | |
CN112307235B (zh) | 前端页面元素的命名方法、装置及电子设备 | |
Torunoglu-Selamet et al. | Exploring spelling correction approaches for turkish | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
JP7131130B2 (ja) | 分類方法、装置、及びプログラム | |
JP2019153056A (ja) | 情報処理装置、及び情報処理プログラム | |
JP6361472B2 (ja) | 対応情報生成プログラム、対応情報生成装置及び対応情報生成方法 | |
KR102649429B1 (ko) | 반정형 문서로부터 정보를 추출하는 방법 및 시스템 | |
JP2019159743A (ja) | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム | |
CN108536685A (zh) | 信息处理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170731 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6186198 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |