JP7329929B2

JP7329929B2 - 学習データ拡張装置、学習装置、翻訳装置、およびプログラム

Info

Publication number: JP7329929B2
Application number: JP2019017388A
Authority: JP
Inventors: 一郎山田; 功雄後藤; 秀弥美野
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2023-08-21
Anticipated expiration: 2039-02-01
Also published as: JP2020126360A

Description

本発明は、学習データ拡張装置、学習装置、翻訳装置、およびプログラムに関する。

自然言語で書かれた文の機械翻訳処理において、翻訳精度を上げるためには膨大な量の学習データを必要とする。ここで、学習データは、翻訳対象の言語（ソース言語）と翻訳先の言語（ターゲット言語）の２ヶ国語の、大量の対訳文のデータである。

従来技術において、機械学習用の学習データを拡張する手法が提案されている。例えば、非特許文献１には、画像認識の分野で、ニューラルネットに入力する機械学習のためのデータを拡張する手法が記載されている。この手法では、学習データである画像に対して回転、ズーム、水平移動、垂直移動、ＲＧＢ変換などの処理を施すことにより、データを拡張し、拡張された学習データを利用して機械学習処理を行うことにより、良好な画像認識精度を実現している。

また、従来技術において、自然言語処理の分野での分類問題を解決するために、データを拡張する手法が提案されている。非特許文献２には、文に出現する単語に類似する単語への置き換えや、シソーラスを利用することにより単語に類似する兄弟語や上位語への置き換えや、形容詞の削除などの手法が記載されている。

小林賢一，辻順平，能登正人，「ディープラーニングを用いた画像処理による農作物病害診断へのData Augmentationの応用」，情報処理学会，第79回全国大会講演論文集，3N-02，第2017巻，第1号， 289-290ページ，書誌レコードＩＤ：AN00349328，2017年03月16日発行，https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=180911&file_id=1&file_no=1 西本慎之介，能地宏，松本裕治，「データ拡張による感情分析のアスペクト推定」，言語処理学会，第23回年次大会発表論文集，581-584ページ，2017年3月，http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P10-4.pdf

非特許文献１に記載の手法は、画像認識のための学習データを拡張するものであり、画像の回転やズームなどといった手法を自然言語による表現に適用することはできない。

また、非特許文献２に記載の手法を用いて生成される表現は一般的に非文である。例えば、「Being late is terrible.」という文を、この手法で変換すると、「Be behind are bad.」などといった文が生成される。つまり、この手法で拡張されたデータは非文を多く含むため、機械翻訳処理のための学習データとして用いることは不適切である。

本発明は、上記のような問題に鑑みて為されたものであり、機械翻訳の精度を上げるために、既存の対訳文データを拡張して大量の対訳文データを生成することのできる学習データ拡張装置、その学習データ拡張装置で生成された学習データを用いて機械学習処理を行う学習装置、およびその学習データ拡張装置によって得られた学習データを利用した機械学習処理によるモデルに基づく翻訳装置と、そのプログラムとを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様による学習データ拡張装置は、ソース言語によって記述された文と、ターゲット言語によって記述された文とにより構成された入力文対を基に、前記ソース言語または前記ターゲット言語の少なくともいずれかのシソーラス情報を用いて、前記文対に含まれる言語表現の置換候補を選択し、選択された前記置換候補により前記言語表現を置換し、前記ソース言語によって記述された文と前記ターゲット言語によって記述された文とにより構成された新たな文対を生成する拡張処理部と、前記置換候補が前記文に含まれることの適合の度合いを表すスコアを算出するスコア算出部と、を備えるものである。

［２］また、本発明の一態様は、上記の学習データ拡張装置において、前記拡張処理部は、前記置換候補に関して前記スコア算出部が算出した前記スコアが予め定めた基準を満たす場合にのみ前記置換候補による置換を行うことによって、前記新たな文対を生成する、ものである。

［３］また、本発明の一態様は、上記の学習データ拡張装置において、前記スコアは、
（１）前記入力文対に含まれる前記ソース言語によって記述された文、に含まれる文脈であって、第１表現と第２表現とが所定の関係を有して成るところの文脈である、ソース言語文脈が、前記ソース言語の文一般において出現する頻度に基づく数値であるソース言語文脈スコアと、
（２）前記ソース言語文脈に含まれる前記第１表現と前記第２表現とが前記ソース言語の文一般において共起する頻度に基づく数値であるソース言語共起スコアと、
（３）前記入力文対に含まれる前記ターゲット言語によって記述された文、に含まれる文脈であって、第３表現と第４表現とが所定の関係を有して成るところの文脈である、ターゲット言語文脈が、前記ターゲット言語の文一般において出現する頻度に基づく数値であるターゲット言語文脈スコアと、
（４）前記ターゲット言語文脈に含まれる前記第３表現と前記第４表現とが前記ターゲット言語の文一般において共起する頻度に基づく数値であるターゲット言語共起スコアと、
の少なくともいずれかに基づく数値である。

［４］また、本発明の一態様は、上記の学習データ拡張装置において、前記スコア算出部は、前記ソース言語文脈スコアと、前記ソース言語共起スコアと、前記ターゲット言語文脈スコアと、前記ターゲット言語共起スコアとを算出するものであり、前記拡張処理部は、前記ソース言語文脈スコアと、前記ソース言語共起スコアと、前記ターゲット言語文脈スコアと、前記ターゲット言語共起スコアとの、重み付きの和または重み付きの積として算出される統合スコアが所定の閾値以上である場合にのみ、前記置換候補による置換を行うことによって、前記新たな文対を生成する、ものである。

［５］また、本発明の一態様は、上記の学習データ拡張装置において、前記拡張処理部は、前記入力文対に含まれる、前記ソース言語側の文と前記ターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、前記削除を行うことによって、新たな文対を生成する、ものである。

［６］また、本発明の一態様は、上記の学習データ拡張装置において、前記拡張処理部は、前記入力文対に基づいて表現の置換によって生成した新たな文対である置換拡張文対について、前記置換拡張文対に含まれる、前記ソース言語側の文と前記ターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、前記削除を行うことによって、新たな文対を生成する、ものである。

［７］また、本発明の一態様は、コンピューターに、ソース言語によって記述された文と、ターゲット言語によって記述された文と、で成る入力文対を基に、前記ソース言語または前記ターゲット言語の少なくともいずれかのシソーラス情報を用いて、前記文対に含まれる表現の置換候補を選び、置換対象である前記表現を前記置換候補で置換することによって、ソース言語によって記述された文とターゲット言語によって記述された文とで成る新たな文対を生成する、拡張処理過程と、前記置換候補が前記文に含まれることの適合の度合いを表すスコアを算出する、スコア算出過程と、を実行させるプログラムである。

［８］また、本発明の一態様は、上記のいずれかの学習データ拡張装置によって生成された前記新たな文対と、前記入力文対とで成る拡張学習データを用いて、前記ソース言語で記述された文と前記ターゲット言語で記述された文との関係についての機械学習処理を行い、この機械学習処理の結果であるモデルを出力する、学習装置である。

［９］また、本発明の一態様は、上記の学習装置が行った機械学習処理の結果として出力された前記モデルに基づいて、前記ソース言語で記述された文を、前記ターゲット言語で記述された文に機械翻訳する処理を行う、翻訳装置である。

本発明によれば、機械翻訳のための学習データの量を自動的に増やすことができる。これにより、比較的低コストで、機械翻訳の精度を向上させることができる。

本発明の一実施形態による学習データ拡張装置の概略機能構成を示すブロック図である。同実施形態による学習データ拡張装置を含む翻訳システムの概略構成を示すブロック図である。同実施形態による学習データ拡張装置が、学習データを拡張する処理の手順を示すフローチャートである。同実施形態による学習データ拡張装置が、データ拡張のために、表現の置換候補のスコアを計算する処理の詳細な手順を示すフローチャートである。

次に、本発明の一実施形態について、図面を参照しながら説明する。

図１は、本実施形態による学習データ拡張装置の概略機能構成を示すブロック図である。図示するように、学習データ拡張装置１は、入力学習データ記憶部２と、拡張処理部３と、拡張学習データ記憶部４と、スコア算出部５と、言語資源情報記憶部６とを含んで構成される。この構成により、学習データ拡張装置１は、入力学習データ記憶部２に格納されていた機械学習用の学習データを、拡張して、拡張後の学習データを拡張学習データ記憶部４に書き込む。

スコア算出部５は、ソース言語文脈スコア算出部５１と、ソース言語共起スコア算出部５２と、ターゲット言語文脈スコア算出部５６と、ターゲット言語共起スコア算出部５７とを含んで構成される。また、言語資源情報記憶部６は、ソース言語シソーラス記憶部６１と、ソース言語辞書記憶部６２と、ソース言語文脈頻度記憶部６３と、ソース言語共起頻度記憶部６４と、ターゲット言語シソーラス記憶部６６と、ターゲット言語辞書記憶部６７と、ターゲット言語文脈頻度記憶部６８と、ターゲット言語共起頻度記憶部６９とを含んで構成される。

本実施形態による学習データ拡張装置の各部の機能を、次に説明する。

入力学習データ記憶部２は、拡張前の学習データ、言い換えれば学習データ拡張装置１に入力される学習データを記憶するものである。入力学習データ記憶部２が記憶する学習データは、ソース言語およびターゲット言語それぞれにおける互いに対応する文の対の集合である。これらの文対において、ターゲット言語側の文は、ソース言語側の文を人手で翻訳することによって得られるものである。

拡張処理部３は、入力学習データ記憶部２から学習データを読み込み、シソーラスや、共起情報や、係り受け情報や、辞書を利用して、拡張した学習データを出力する。拡張処理部３は、拡張された学習データを拡張学習データ記憶部４に書き込む。言い換えれば、拡張処理部３は、入力学習データ記憶部２から読み出した学習データと、それらの学習データを基に表現の置換等を行って得られた新たな学習データとを、拡張学習データ記憶部４に書き込む。具体的には、拡張処理部３は、ソース言語によって記述された文と、ターゲット言語によって記述された文とにより構成された入力文対を基に、前記ソース言語または前記ターゲット言語の少なくともいずれかのシソーラス情報を用いて、前記文対に含まれる言語表現の置換候補を選択し、選択された前記置換候補により前記言語表現を置換し、前記ソース言語によって記述された文と前記ターゲット言語によって記述された文とにより構成された新たな文対を生成する。

拡張学習データ記憶部４は、拡張処理部３によって拡張された学習データを記憶するものである。拡張学習データ記憶部４が記憶する学習データは、拡張前の学習データよりも多くの文対を含む。拡張後の学習データは、拡張前の学習データが含む文対数の、例えば、十倍から数十倍程度の数の文対を含む。拡張学習データ記憶部４が記憶する学習データは、例えば、ニューラルネットワークを用いた機械翻訳処理のための機械学習処理に用いられる。

スコア算出部５は、ある文対（ソース言語およびターゲット言語による文の対）に含まれる表現の一部を置換するための置換候補に関して、その置換候補のスコアを算出するものである。置換候補のスコアは、例えば、ソース言語の置換候補とターゲット言語の置換候補とのそれぞれについての、当該置換候補を含む文脈のスコアや、当該置換候補を含む表現の共起のスコアである。これらのスコアは、各言語における文らしさ、あるいは文の構成要素らしさを示す数値である。言い換えれば、スコアは、置換候補が文に含まれることの適合の度合いを表す数値である。これらのスコアは、例えば、各言語による大量の実際の文の集合における、当該文脈あるいは当該共起の統計的特徴に基づいて算出される。スコア算出部５に含まれる機能の詳細を次に説明する。

ソース言語文脈スコア算出部５１は、ソース言語（例えば、日本語）において、ある文脈のスコアを算出するものである。この文脈のスコアは、ソース言語における当該文脈の出現頻度に基づいて定めることができる数値である。ソース言語文脈スコア算出部５１によるスコア算出の手順等については、後で、詳しく説明する。

ソース言語共起スコア算出部５２は、ソース言語（例えば、日本語）において、ある表現とある表現とが共起することのスコアを算出するものである。この共起のスコアは、ソース言語における当該表現のペアの共起出現頻度に基づいて定めることができる数値である。ソース言語共起スコア算出部５２によるスコア算出の手順等については、後で、詳しく説明する。

ターゲット言語文脈スコア算出部５６は、ターゲット言語（例えば、英語）において、ある文脈のスコアを算出するものである。この文脈のスコアは、ターゲット言語における当該文脈の出現頻度に基づいて定めることができる数値である。ターゲット言語文脈スコア算出部５６によるスコア算出の手順等については、後で、詳しく説明する。

ターゲット言語共起スコア算出部５７は、ターゲット言語（例えば、英語）において、ある表現とある表現とが共起することのスコアを算出するものである。この共起のスコアは、ターゲット言語における当該表現のペアの共起出現頻度に基づいて定めることができる数値である。ターゲット言語共起スコア算出部５７によるスコア算出の手順等については、後で、詳しく説明する。

言語資源情報記憶部６は、ソース言語およびターゲット言語のそれぞれにおける、シソーラス情報や、辞書情報や、前記の文脈の頻度に関する情報や、前記の共起の頻度に関する情報を記憶するものである。拡張処理部３が文対内に含まれる表現の置換候補を求める場合には、この言語資源情報記憶部６に含まれる一部の情報が参照される。また、スコア算出部５が学習データを拡張する際の置換候補のスコアを求める場合には、この言語資源情報記憶部６に含まれる一部の情報が参照される。言語資源情報記憶部６に含まれる機能の詳細を次に説明する。

ソース言語シソーラス記憶部６１は、ソース言語（例えば、日本語）のシソーラス情報を記憶するものである。シソーラス情報は、表現（単語等）の、上位語／下位語の関係や、同義語、類義語に関する情報を含む。ソース言語シソーラス記憶部６１を参照することにより、ソース言語における、ある表現の、上位語や、下位語や、同義語・類義語等を検索することができる。また、例えば、ある表現の、上位語の下位語を検索することにより、概念上の兄弟語を検索することもできる。

ソース言語辞書記憶部６２は、ソース言語（例えば、日本語）の表現に関する辞書情報を記憶するものである。この辞書情報を用いることにより、例えば、ソース言語による表現（単語等）を、ターゲット言語（例えば、英語）における等価な表現に変換することができる。即ち、この辞書情報を用いることにより、例えば、単語レベルでの日英翻訳を行うことができる。

ソース言語文脈頻度記憶部６３は、ソース言語（例えば、日本語）による多数の文脈と、その文脈の出現頻度とを関連付けてデータとして記憶するものである。文脈については後述するが、日本語の場合の文脈のほんの一例として、（名詞）＋「の」（助詞）＋（名詞）というパターンを挙げられる。この「名詞＋の＋名詞」という文脈の具体例は、「コメ＋の＋高関税維持」、「食品＋の＋高関税維持」、「チーズ＋の＋高関税維持」、「漬物＋の＋高関税維持」などといったものである。ソース言語文脈頻度記憶部６３が記憶するデータを作成するためには、例えば、大量の日本語文を収集し、それら大量の日本語文に含まれる文脈を抽出し、各文脈の出現頻度をカウントする処理を行う。文脈の出現頻度として、例えば、０．０以上且つ１．０以下の範囲に正規化した数値を用いてもよい。例えば、ＡＬＡＧＩＮフォーラムが配布している「日本語係り受けデータベース」を利用して、ソース言語文脈頻度記憶部６３が記憶するデータを作成してもよい。

ソース言語共起頻度記憶部６４は、ソース言語（例えば、日本語）による多数の自立語ペアと、そのペアが共起して出現する出現頻度とを関連付けてデータとして記憶するものである。日本語の場合の自立語ペアの一例として、（チーズ，高関税維持）といったペアを挙げられる。ソース言語共起頻度記憶部６４が記憶するデータを作成するためには、例えば、大量の日本語文を収集し、それら大量の日本語文に含まれる自立語のペアを抽出し、各ペアの共起頻度をカウントする処理を行う。共起頻度として、例えば、０．０以上且つ１．０以下の範囲に正規化した数値を用いてもよい。例えば、ＡＬＡＧＩＮフォーラムが配布している「単語共起頻度データベース」を利用して、ソース言語共起頻度記憶部６４が記憶するデータを作成してもよい。

ターゲット言語シソーラス記憶部６６は、ターゲット言語（例えば、英語）のシソーラス情報を記憶するものである。ある言語におけるシソーラス情報については、ソース言語シソーラス記憶部６１に関して既に説明した通りである。

ターゲット言語辞書記憶部６７は、ターゲット言語（例えば、英語）の表現に関する辞書情報を記憶するものである。ある言語における辞書情報については、ソース言語辞書記憶部６２に関して既に説明した通りである。ターゲット言語辞書記憶部６７を参照することにより、例えば、単語レベルでの英日翻訳を行うことができる。

ターゲット言語文脈頻度記憶部６８は、ターゲット言語（例えば、英語）による文脈と、その文脈の出現頻度とを関連付けてデータとして記憶するものである。ある言語における文脈およびその文脈の出現頻度については、ソース言語文脈頻度記憶部６３に関して既に説明した通りである。例えば、大量の英語文を収集し、それら大量の英語文に含まれる文脈を抽出し、各文脈の出現頻度をカウントする処理を行うことにより、ターゲット言語文脈頻度記憶部６８に記憶させるべきデータを作成できる。文脈の出現頻度として、例えば、０．０以上且つ１．０以下の範囲に正規化した数値を用いてもよい。

ターゲット言語共起頻度記憶部６９は、ターゲット言語（例えば、英語）による自立語の組と、その組に属する表現が共起して出現する出現頻度とを関連付けてデータとして記憶するものである。ある言語における共起頻度の情報については、ソース言語共起頻度記憶部６４に関して説明した通りである。例えば、大量の英語文を収集し、それら大量の英語文に含まれる、共起する表現の組を抽出し、それらの共起頻度をカウントする処理を行うことにより、ターゲット言語共起頻度記憶部６９に記憶させるべきデータを作成できる。共起頻度として、例えば、０．０以上且つ１．０以下の範囲に正規化した数値を用いてもよい。

図２は、上で説明した学習データ拡張装置を含む翻訳システムの概略構成を示すブロック図である。図示するように、翻訳システム９は、学習データ拡張装置１と、学習装置１７０と、翻訳装置１８０とを含んで構成される。学習装置１７０や翻訳装置１８０もまた、学習データ拡張装置１と同様に、汎用コンピューターとプログラムとで実現され得る。また、学習装置１７０や翻訳装置１８０の機能の少なくとも一部を、専用の電子回路で実現してもよい。

また、図示するように、翻訳装置１８０は、機械翻訳モデル記憶部１８１と、入力文データ記憶部１８２と、翻訳処理部１８３と、出力文データ記憶部１８４とを含んで構成される。

学習データ拡張装置１は、与えられた学習データを拡張するための装置である。学習データ拡張装置１は、具体的には、入力学習データ記憶部２に記憶されている文対（翻訳前のソース言語の文と、翻訳後のターゲット言語の文との対）に含まれる表現（単語やフレーズ）を置換することにより、学習データを拡張する。学習データ拡張装置１は、学習データを拡張する際に、ソース言語およびターゲット言語の言語資源に基づく統計的特徴を用いて、各言語の文らしさが高い文対のみを学習データに追加することにより、データの拡張を行う。なお、学習データ拡張装置１の機能構成については既に説明した通りである。また、学習データ拡張装置１における詳細な処理手順については、フローチャートを参照しながら後で説明する。

学習装置１７０は、学習データ拡張装置１によって拡張された学習データを用いて、翻訳装置１８０で用いるための機械翻訳モデルの学習処理を行う。

翻訳装置１８０は、学習装置１７０によって学習された機械翻訳モデルを用いて、ソース言語で書かれた入力文データを、ターゲット言語で書かれた出力文データに変換する。即ち、翻訳装置１８０は、文の翻訳処理を行う。翻訳装置１８０は、例えば、ニューラルネットワークを利用して、機械翻訳処理を行う。翻訳装置１８０が持つ各機能部の機能は、次に説明する通りである。

機械翻訳モデル記憶部１８１は、翻訳装置１８０が翻訳処理を実行する際に参照するための機械翻訳モデルを記憶する。この機械翻訳モデルは、学習装置１７０によって学習済みである。この機械翻訳モデルを構成する要素は、翻訳装置１８０が用いるニューラルネットワークの学習処理の結果の、各ノードにおける重みづけパラメーターの値である。

入力文データ記憶部１８２は、翻訳装置１８０が翻訳するための入力文データを記憶する。入力文は、ソース言語で書かれた文である。

翻訳処理部１８３は、機械翻訳モデル記憶部１８１に記憶されている学習モデルに基づいて、入力文データ記憶部１８２が記憶する文（ソース言語）の翻訳処理を行い、出力文（ターゲット言語）を出力する。

出力文データ記憶部１８４は、翻訳処理部１８３から出力された出力文を記憶する。出力文は、ターゲット言語で書かれた文であり、上記の入力文に対応するものである。

本実施形態においては、与えられた学習データ（入力学習データ記憶部２に記憶されている）のみを用いて機械翻訳のための学習処理を行うのではなく、拡張された学習データ（拡張学習データ記憶部４に記憶されている）を用いた学習処理を行う。例えば、与えられた学習データが数十万個から数百万個程度の文対を含むとき、学習データ拡張装置１によって拡張された学習データは、その十倍から数十倍程度の数の文対を含む。これにより、学習装置１７０は、使用頻度の比較的低い表現（単語やフレーズ）を含んだ、豊富な文対を用いて、機械翻訳モデルの学習を行うことができる。これにより、例えばニューラルネットワークを利用した機械翻訳を行う場合の翻訳精度を向上させることが可能となる。

（学習データ拡張装置１の動作）
次に、学習データ拡張装置１の詳細な処理手順について説明する。図３は、本実施形態による学習データ拡張処理の手順を示すフローチャートである。機械翻訳のための学習データは、通常、数十万から数百万の対訳文対で構成されている。学習データ拡張装置１の拡張処理部３は、入力学習データ記憶部２が記憶する対訳文対から、１文対ずつ、同図のフローチャートの処理を実行する。以下、このフローチャートに沿って処理の詳細を説明する。

ステップＳ２１において、拡張処理部３は、入力学習データ記憶部２から、学習データの１文対を取得する。この文対は、ソース言語（例えば、日本語）の文とターゲット言語（例えば、英語）の文の対である。そして、拡張処理部３は、これらの文同士のアラインメント処理を行う。アラインメント処理自体は既存技術を用いて行うことができる。例えば、GIZA++ (ＵＲＬ：https://github.com/moses-smt/giza-pp)などといった、既存のツールを利用してアラインメント処理を行うことができる。このアラインメント処理により、ソース言語側の文に含まれる表現（例えば、単語やフレーズ）とターゲット側の文に含まれる表現（同様）が対応付けられる。

ステップＳ２２において、拡張処理部３は、当該文対のうちのソース言語側の文内に置換可能な表現があるか否かを判定する。置換可能な表現がある場合（ステップＳ２２：ＹＥＳ）には、拡張処理部３は、置換可能な表現、および表現に対応するターゲット言語内の表現を抽出し、さらにそれらの置換可能な表現に対応する未処理の置換候補の１つを抽出して、ステップＳ２３に進む。置換可能な表現がない場合（ステップＳ２２：ＮＯ）には、拡張処理部３は、ステップＳ２６の処理に飛ぶ。

ステップＳ２２において、拡張処理部３は、置換可能な表現として、名詞を抽出する。ただし、代名詞や形式名詞などは、置換可能な表現として抽出されない。置換可能な表現を抽出する処理の実例は下記の通りである。入力学習データのうちの１文対のソース言語側の文が「政府は米国産の輸入割合を増やすことで、コメの高関税維持に米国の理解を求めたい考えだ。」である場合に、置換可能な表現として抽出され得るのは、政府、米国産、輸入割合、政府、コメ、高関税維持、米国、理解といった表現（名詞）である。拡張処理部３は、抽出された表現に対応するターゲット言語側の表現を抽出する。例えば、ソース言語側の「政府」という表現に対応して、ターゲット言語側の「government」という表現が抽出される。この処理において、拡張処理部３は、表現（単語）の品詞の情報を獲得するために、必要に応じて、言語資源情報記憶部６内のソース言語辞書記憶部６２やターゲット言語辞書記憶部６７を参照してもよい。

ステップＳ２２において、さらに、拡張処理部３は、上記の置換可能な表現に対応する、未処理の置換候補の１つを抽出する。置換候補は、上記の置換可能な表現を、その上位語あるいは兄弟語の１つで置換したものである。ここで、上位語とは、ある語の概念的に上位の語である。また、兄弟語とは、ある語と共通の上位語を有する他の語である。拡張処理部３は、ソース言語とターゲット言語の両方において、置換可能な表現を置換候補の１つで置き換えた１つの文対を抽出する。この処理の際、拡張処理部３は、置換対象の表現の上位語や兄弟語の情報を獲得するために、言語資源情報記憶部６内の、ソース言語シソーラス記憶部６１や、ソース言語辞書記憶部６２や、ターゲット言語シソーラス記憶部６６や、ターゲット言語辞書記憶部６７を参照してもよい。

なお、ソース言語側およびターゲット言語側におけるシソーラスは、例えば、文献：特開２０１６－１３０９０３に記載されている「下位表現抽出装置およびプログラム」の技術を用いて生成することができる。一例として、名詞「コメ」の上位語として「食品」を置換候補とすることができる。また、名詞「コメ」の兄弟語として上記上位語「食品」に属する単語（つまり、「食品」の下位表現）を置換候補とすることができる。

ステップＳ２２で抽出された１つの置換候補の文対について、拡張処理部３は、ステップＳ２３からＳ２５までの処理を実行する。

ステップＳ２３において、スコア算出部５が、ステップＳ２２で抽出された置換候補のスコアを計算する。スコア算出部５によるスコア算出の処理の詳細な手順については、後で別のフローチャートを参照しながら説明する。本実施形態では、具体的には、ステップＳ２３の処理により、拡張処理部３は、ソース言語側の文脈スコアＰ_Ｓ１、ソース言語側の共起スコアＰ_Ｓ２、ターゲット言語側の文脈スコアＰ_Ｔ１、ターゲット言語側の共起スコアＰ_Ｔ２の４種類のスコアの数値を得る。

ステップＳ２４において、拡張処理部３は、ステップＳ２３で算出されたスコアに基づいて、ステップＳ２２で抽出された置換候補を置換対象とするか否かを判定する。置換対象とする場合（ステップＳ２４：ＹＥＳ）には、置換を実施するためにステップＳ２５に進む。置換対象としない場合（ステップＳ２４：ＮＯ）には、ステップＳ２５をスキップして、次の置換候補を処理するためにステップＳ２２に進む。

ステップＳ２４において、拡張処理部３は、具体的には、次の方法によりスコアを評価する。ステップＳ２３の処理で算出された４種類の数値Ｐ_Ｓ１、Ｐ_Ｓ２、Ｐ_Ｔ１、Ｐ_Ｔ２のそれぞれは、正の実数であり、値が大きいほど、置換候補の文らしさの度合いが高いことを表す。拡張処理部３は、例えば、これら４種類の数値Ｐ_Ｓ１、Ｐ_Ｓ２、Ｐ_Ｔ１、Ｐ_Ｔ２の重み付き和、あるいは重み付き積の値が、所定の閾値以上であるか否かにより（つまり、所定の基準により）、当該置換候補による置換を実施すべきかどうかを判定する。上記の重み付き和Ｐ１は、下の数式（１）で表される。また、上記の重み付き積Ｐ２は、下の数式（２）で表される。つまり、拡張処理部３は、数式（１）や数式（２）を用いることによって、４種類のスコア値を統合する。Ｐ１あるいはＰ２のどちらを採用するかを、適宜決定してよい。このＰ１やＰ２を、統合スコアと呼ぶ場合がある。

Ｐ１＝Ｗ_１＊Ｐ_Ｓ１＋Ｗ_２＊Ｐ_Ｓ２＋Ｗ_３＊Ｐ_Ｔ１＋Ｗ_４＊Ｐ_Ｔ２・・・（１）

Ｐ２＝（Ｐ_Ｓ１＾Ｗ_１）＊（Ｐ_Ｓ２＾Ｗ_２）＊（Ｐ_Ｔ１＾Ｗ_３）＊（Ｐ_Ｔ２＾Ｗ_４）
・・・（２）

なお、上の式（１）や式（２）において、演算子「＊」は乗算を表し、演算子「＋」は加算を表し、演算子「＾」はべき乗を表す。また、Ｗ_１，Ｗ_２，Ｗ_３，Ｗ_４のそれぞれは、適宜定められる重み値（実数）である。なお、式（２）の両辺の対数を取ると、式（２）がべき乗演算子を含まない形に変形できる。

なお、重み値Ｗ_１，Ｗ_２，Ｗ_３，Ｗ_４を予め定める代わりに、例えばＳＶＭ（サポートベクトルマシン）を用いてもよい。この場合、（Ｐ_Ｓ１，Ｐ_Ｓ２，Ｐ_Ｔ１，Ｐ_Ｔ２）の４次元ベクトルの特徴空間において、与えられた標本を用いてＳＶＭの学習処理を行い、判別のための境界面（超面）を求める。これにより、算出されたスコアのベクトル（Ｐ_Ｓ１，Ｐ_Ｓ２，Ｐ_Ｔ１，Ｐ_Ｔ２）を置換対象とするか否かを判定することができる。

ステップＳ２５において、拡張処理部３は、置換を実施すると決定された置換候補の表現を用いて、文対を拡張する。一例として、元の文対のソース言語（日本語）側の文が「政府は米国産の輸入割合を増やすことで、コメの高関税維持に米国の理解を求めたい考えだ。」である場合、且つ当該文内の名詞「コメ」に対応する置換候補が「チーズ」である場合、且つ当該置換候補で置き換えた場合のスコア（上記の式（１）あるいは式（２））が閾値以上である場合（つまり、所定の基準を満たす場合）、拡張処理部３は、「コメ」を「チーズ」で置換することにより、学習データを拡張する。これにより、拡張後のソース言語側の文は、「政府は米国産の輸入割合を増やすことで、チーズの高関税維持に米国の理解を求めたい考えだ。」となる。同時に元の文対のターゲット言語（英語）側の文が「By increasing imports produced in the United States, the government hopes to gain Washington's understanding on maintaining the high tariff rate on imported rice.」であるとき、拡張処理部３は、この文内の「rice」を「cheese」に置き換える。即ち、拡張処理部３は、拡張後のターゲット言語側の文を「By increasing imports produced in the United States, the government hopes to gain Washington's understanding on maintaining the high tariff rate on imported cheese.」。

さらに、ステップＳ２５において、拡張処理部３は、拡張後の上記文対を、新たな学習データとして、拡張学習データ記憶部４に書き加える。ステップＳ２５の処理を終了すると、拡張処理部３は、次の置換候補の処理を行うためにステップＳ２２に戻る。

ステップＳ２６において、拡張処理部３は、元の文対のソース言語側の文に、削除可能な表現（単語や節）のうち未処理のものがあるか否かを判定する。削除可能な表現がある場合（ステップＳ２６：ＹＥＳ）には、ステップＳ２７の処理に進む。その文に削除可能な表現がない場合（ステップＳ２６：ＮＯ）には、当該文対に関する、本フローチャート全体の処理を終了する。

ステップＳ２６における判定を行うとき、削除可能な表現（単語、節）は、形容詞や、副詞や、従属節となる連体修飾節や、従属節となる連用修飾節である。

ステップＳ２７において、拡張処理部３は、ステップＳ２６の判定で得られた、削除可能な表現を実際に削除することによって、学習データを拡張する。前述のソース言語側の文「政府は米国産の輸入割合を増やすことで、コメの高関税維持に米国の理解を求めたい考えだ。」については、従属節「政府は米国産の輸入割合を増やすことで、」が削除可能な表現である。例えば日本語の文において従属節を削除した場合には、残された文に主語がなくなる場合がある。したがって、削除する従属節の中に「は格」の主語がある場合には、その主語を削除対象から除いて文内に残す。つまり、拡張処理部３は、上記の文から「米国産の輸入割合を増やすことで、」を削除し、「政府はコメの高関税維持に米国の理解を求めたい考えだ。」を、拡張後の文対のソース言語側の文として残す。また、拡張処理部３は、元の文対のターゲット言語側の文からも対応する節を削除する。つまり、拡張処理部３は、文「the government hopes to gain Washington’s understanding on maintaining the high tariff rate on imported rice.」を、拡張後の文対のターゲット言語側の文として残す。拡張処理部３は、上記のように表現を削除することによって得られた文対を、拡張学習データ記憶部４に書き加える。

言い換えれば、ステップＳ２７において、拡張処理部３は、元の入力文対に含まれる、ソース言語側の文とターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、上記の削除を行うことによって、新たな文対を生成する。

ステップＳ２７の処理の終了後、拡張処理部３は、さらに別の表現を削除する可能性を判定するために、ステップＳ２６の処理に戻る。

図４は、図３に記載したステップＳ２３の処理、即ち、置換候補のスコアを計算する処理の詳細な手順を示すフローチャートである。本フローチャートの処理が実行される前提として、元の文対と、その文対における置換候補の表現とが与えられている。以下、このフローチャートに沿って、処理手順を説明する。

ステップＳ３１において、ソース言語文脈スコア算出部５１は、置換候補が含まれる文脈を抽出する。ソース言語文脈スコア算出部５１は、例えば、ソース言語が日本語である場合、以下の（１）から（３）までに記すものを文脈として抽出し得る。
（１）置換候補の表現が主語の場合、主語＋動詞が文脈であり得る。
（２）置換候補の表現が目的語の場合、目的語＋助詞＋動詞が文脈であり得る。
（３）置換候補の表現が「の格」による連体修飾節の場合、名詞＋「の」（助詞）＋名詞が文脈であり得る。

なお、ソース言語が日本語以外の言語である場合にも、その言語の構文構造に応じて、同様のものが、置換候補を含む文脈であり得る。つまり、置換候補の表現（例えば、名詞）が、当該表現と構文上において近い関係にある他の表現（語等）との組み合わせで成り立つものがここでの文脈である。

既出の日本語による文「政府は米国産の輸入割合を増やすことで、コメの高関税維持に米国の理解を求めたい考えだ。」が、現在の文対を構成するソース言語側の文である場合、且つ「コメ」が置換対象の表現である場合、且つ「コメ」を置換する置換候補が「チーズ」である場合、この置換候補「チーズ」を含む文脈は、「チーズ＋の（助詞）＋高関税維持」である。即ち、ソース言語文脈スコア算出部５１は、「チーズ＋の＋高関税維持」を、置換候補が含まれる文脈として抽出する。

ステップＳ３２において、ソース言語文脈スコア算出部５１は、ステップＳ３１で抽出した文脈のスコアを算出する。ソース言語文脈スコア算出部５１は、「コメ＋の＋高関税維持」に対応する置換候補の文脈として、例えば、「チーズ＋の＋高関税維持」のスコアを算出する。置換候補の文脈は、他にも、例えば、「食品＋の＋高関税維持」や、「漬物＋の＋高関税維持」等であり得る。本ステップにおいて算出されるソース言語側の（置換候補が含まれる）文脈スコア（Ｐ_Ｓ１）は、当該置換候補の文脈が、文（の構成要素）としてどの程度ふさわしいかを判断するための数値である。具体的には、ソース言語文脈スコア算出部５１は、言語資源情報記憶部６内のソース言語文脈頻度記憶部６３を参照して、文脈の出現頻度（例えば、０．０以上且つ１.０以下の範囲に正規化された数値）を、ソース言語側の文脈スコアとする。

ステップＳ３３において、ソース言語共起スコア算出部５２は、ソース言語側の（置換候補が含まれる）共起スコア（Ｐ_Ｓ２）を算出する。ソース言語側の共起スコア（Ｐ_Ｓ２）は、ステップＳ３１で得られた文脈に含まれる主要表現（自立語、即ち、名詞および動詞）のペアを利用し、このペアが共起する（ペアが共に出現する）ことがどの程度ふさわしいかを判断するための数値である。つまり、例えば、「チーズ＋の＋高関税維持」という文脈に含まれる「チーズ」（名詞）と「高関税維持」（名詞）とが共起することがどの程度ふさわしいかを表す数値が、ソース言語側の共起スコア（Ｐ_Ｓ２）である。具体的には、ソース言語共起スコア算出部５２は、言語資源情報記憶部６内のソース言語共起頻度記憶部６４を参照して、自立語ペアの出現頻度（例えば、０．０以上且つ１.０以下の範囲に正規化された数値）を、ソース言語側の共起スコアとする。

ステップＳ３５において、拡張処理部３が、ソース言語側の置換対象および置換候補をターゲット言語に翻訳する。この際、拡張処理部３は、言語資源情報記憶部６内のソース言語辞書記憶部６２を参照する。例えば、置換対象が「コメ」であり、置換候補が「チーズ」である場合、拡張処理部３は、「コメ」を「rice」に翻訳し、「チーズ」を「cheese」に翻訳する。

ステップＳ３６において、ターゲット言語文脈スコア算出部５６は、ターゲット言語側の文脈を抽出する。ここで抽出されるターゲット言語側の文脈は、ステップＳ３１においてソース言語文脈スコア算出部５１が抽出した、ソース言語側の置換候補が含まれる文脈に対応するターゲット言語側の文脈である。例えば、ソース言語（日本語）側の置換後の文脈が「チーズ＋の＋高関税維持」である場合、ターゲット言語文脈スコア算出部５６は、まずターゲット言語（英語）側の置換前の文脈として「maintaining the high tariff rate on imported rice」を抽出する。そして、ターゲット言語文脈スコア算出部５６は、ステップＳ３５における処理結果を用いて、当該文脈内の「rice」を「cheese」で置換する。これにより、ターゲット言語文脈スコア算出部５６は、ターゲット言語（英語）側の置換後の文脈として「maintaining the high tariff rate on imported cheese」を得る。

ステップＳ３６において、ターゲット言語文脈スコア算出部５６は、ステップＳ３５において抽出された、ターゲット言語側の置換候補の文脈のスコアを算出する。例えば、ターゲット言語文脈スコア算出部５６は、上記の置換候補の文脈である「maintaining the high tariff rate on imported cheese」のスコアを算出する。置換候補の文脈は、他にも、例えば、「maintaining the high tariff rate on imported foods」や、「maintaining the high tariff rate on imported pickles」等であり得る。本ステップにおいて算出されるターゲット言語側の置換候補が含まれる文脈スコア（Ｐ_Ｔ１）は、当該置換候補の文脈が、文（の構成要素）としてどの程度ふさわしいかを判断するための数値である。具体的には、ターゲット言語文脈スコア算出部５６は、言語資源情報記憶部６内のターゲット言語文脈頻度記憶部６８を参照して、文脈の出現頻度（例えば、０．０以上且つ１.０以下の範囲に正規化された数値）を、ターゲット言語側の文脈スコアとする。

ステップＳ３７において、ターゲット言語共起スコア算出部５７は、ターゲット言語側の（置換候補が含まれる）共起スコア（Ｐ_Ｔ２）を算出する。ターゲット言語側の共起スコア（Ｐ_Ｔ２）は、ステップＳ３１で得られた文脈に含まれる自立語の組を利用し、この組に含まれる語が共起することがどの程度ふさわしいかを判断するための数値である。つまり、例えば、「maintaining the high tariff rate on imported cheese」という文脈に含まれる「cheese」（名詞）と「tariff」（名詞）とが共起することがどの程度ふさわしいかを表す数値が、ターゲット言語側の共起スコア（Ｐ_Ｔ２）である。具体的には、ターゲット言語共起スコア算出部５７は、言語資源情報記憶部６内のターゲット言語共起頻度記憶部６９を参照して、複数の語が共起して出現する出現頻度（例えば、０．０以上且つ１.０以下の範囲に正規化された数値）を、ターゲット言語側の共起スコアとする。

ステップＳ３７の処理が終了すると、本フローチャート全体の処理を終了する。本フローチャートの処理を実行することにより、拡張処理部３は、１つの置換候補（ソース言語側およびターゲット言語側のペア）に関して、ソース言語側の文脈スコアＰ_Ｓ１、ソース言語側の共起スコアＰ_Ｓ２、ターゲット言語側の文脈スコアＰ_Ｔ１、ターゲット言語側の共起スコアＰ_Ｔ２の４種類のスコアの数値を得る。

上記の各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。
なお、上述した実施形態における学習データ拡張装置や、学習装置や、翻訳装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

［変形例］
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、組み合わせることが可能な限りにおいて、下の変形例の複数を組み合わせて実施してもよい。

［第１変形例］
上記の実施形態の説明の一部において、ソース言語が日本語であり、ターゲット言語が英語である例を用いた。この両者が逆で、例えば、ソース言語が英語であり、ターゲット言語が日本語であってもよい。また、ソース言語やターゲット言語は、日本語や英語に限らず、他の言語であってもよい。ソース言語やターゲット言語は、例えば、ドイツ語や、フランス語や、イタリア語や、スペイン語や、ロシア語や、中国語や、韓国語や、その他のいかなる言語であってもよい。

［第２変形例］
上記の実施形態では、ソース言語とターゲット言語のそれぞれにおける、置換候補の、文脈のスコアおよび共起のスコアを算出し、それらのスコアを用いて置換候補の文らしさ（あるいは文の構成要素らしさ）を評価した。本変形例として、ソース言語における文脈スコア、ソース言語における共起スコア、ターゲット言語における文脈スコア、ターゲット言語における共起スコアの４種類の全部を利用せず、その一部のスコアのみを利用して置換候補を評価するようにしてもよい。さらに、置換候補の文らしさ等を評価するために、言語資源を基にした統計情報等に基づいて、他のスコアを算出して利用するようにしてもよい。

［第３変形例］
上記の実施形態で説明した学習データ拡張装置を、翻訳以外の目的で利用してもよい。翻訳のための学習データとして用いること以外の用途であっても、上で説明した学習データ拡張装置を、単に文対の集合を豊富にする目的で使用することができる。

［第４変形例］
上記の実施形態では、図３ステップＳ２７における処理で、与えられた文対に含まれる表現の一部を削除することによる学習データの拡張も行った。変形例として、この表現の一部を削除することによる学習データの拡張を行わないようにしてもよい。

［第５変形例］
与えられた文対に含まれる表現を置換することによって得られた文対を対象として、図３ステップＳ２７に記載した処理、即ち文対に含まれる表現の一部を削除することによって、さらなる文対の生成（即ち、学習データの拡張）を行ってもよい。言い換えれば、本変形例における拡張処理部３は、元の入力文対に基づいて表現の置換によって生成した新たな文対である置換拡張文対について、前記置換拡張文対に含まれる、ソース言語側の文とターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、上記の削除を行うことによって、新たな文対を生成する。

［第６変形例］
各装置における機能分割のしかたは任意である。例えば、上で説明した実施形態では、ソース言語文脈スコア算出部５１やターゲット言語文脈スコア算出部５６のそれぞれが、各言語における置換候補の文脈を抽出していた。変形例の一つとして、例えば、拡張処理部３がソース言語およびターゲット言語における置換候補の文脈を抽出し、ソース言語文脈スコア算出部５１やターゲット言語文脈スコア算出部５６は各言語における文脈スコアを算出するのみとしてもよい。

［第７変形例］
上で説明した実施形態において、自然言語による文を扱うために、既存の字句解析ツールや既存の構文解析ツールや、その他の既存の自然言語処理ツールを用いるようにしてもよい。

［第８変形例］
上で説明した実施形態においては、シソーラス情報等に基づいて、ソース言語側の表現（単語等）を置換する置換候補をまず求めていた。そして、ソース言語側の置換候補に対応するターゲット言語側の置換候補を、辞書情報（ソース言語からターゲット言語への単語等の変換を可能とする辞書情報）に基づいて求めていた。そして、それら両言語の置換候補について、スコアを算出して評価を行い、文対の置換による拡張を行っていた。変形例として、この向きを逆にしてもよい。即ち、本変形例では、シソーラス情報等に基づいて、ターゲット言語側の表現（単語等）を置換する置換候補をまず求める。そして、ターゲット言語側の置換候補に対応するソース言語側の置換候補を、辞書情報（ターゲット言語からソース言語への単語等の変換を可能とする辞書情報）に基づいて求める。そして、それら両言語の置換候補について、スコアを算出して評価を行い、文対の置換による拡張を行うようにする。

［第９変形例］
上で説明した実施形態において、言語資源情報記憶部６の少なくとも一部が、学習データ拡張装置１の外部に存在するものであってもよい。例えば、言語資源情報記憶部６の一部が、インターネットを介してアクセス可能な辞書情報サイトであってもよい。また、一般的な文の統計情報を所定のウェブサイトから得てもよい。また、一般的な文の統計情報が、所謂検索エンジンサイトから取得可能なものであったり、検索エンジンサイトで得られる検索結果を数値的に分析したものであったりしてもよい。

上記実施形態およびその変形例の要点をまとめると、次の通りである。

学習データ拡張装置（１）は、少なくとも拡張処理部（３）を備える。拡張処理部（３）は、ソース言語によって記述された文と、ターゲット言語によって記述された文とにより構成された入力文対を基に、前記ソース言語または前記ターゲット言語の少なくともいずれかのシソーラス情報を用いて、前記文対に含まれる言語表現の置換候補を選択し、選択された前記置換候補により前記言語表現を置換し、前記ソース言語によって記述された文と前記ターゲット言語によって記述された文とにより構成された新たな文対を生成する。

学習データ拡張装置（１）は、スコア算出部（５）を備えてもよい。スコア算出部（５）は、前記置換候補が文に含まれることの適合の度合いを表すスコアを算出する。このとき、前記拡張処理部（３）は、前記置換候補に関して前記スコア算出部（５）が算出した前記スコアが所定の基準（例えば、スコアが所定の閾値以上であるという基準）を満たす場合にのみ、前記置換候補による置換を行うことによって、前記新たな文対を生成する。

前記スコアは、（１）前記入力文対に含まれる前記ソース言語によって記述された文、に含まれる文脈であって、第１表現と第２表現とが所定の関係を有して成るところの文脈である、ソース言語文脈が、前記ソース言語の文一般において出現する頻度に基づく数値であるソース言語文脈スコアと、（２）前記ソース言語文脈に含まれる前記第１表現と前記第２表現とが前記ソース言語の文一般において共起する頻度に基づく数値であるソース言語共起スコアと、（３）前記入力文対に含まれる前記ターゲット言語によって記述された文、に含まれる文脈であって、第３表現と第４表現とが所定の関係を有して成るところの文脈である、ターゲット言語文脈が、前記ターゲット言語の文一般において出現する頻度に基づく数値であるターゲット言語文脈スコアと、（４）前記ターゲット言語文脈に含まれる前記第３表現と前記第４表現とが前記ターゲット言語の文一般において共起する頻度に基づく数値であるターゲット言語共起スコアと、の少なくともいずれかに基づく数値であってよい。

前記スコア算出部（５）は、前記ソース言語文脈スコアと、前記ソース言語共起スコアと、前記ターゲット言語文脈スコアと、前記ターゲット言語共起スコアとを算出するものであり、前記拡張処理部（３）は、前記ソース言語文脈スコアと、前記ソース言語共起スコアと、前記ターゲット言語文脈スコアと、前記ターゲット言語共起スコアとの、重み付きの和または重み付きの積として算出される統合スコアが所定の閾値以上である場合にのみ、前記置換候補による置換を行うことによって、前記新たな文対を生成する。

前記拡張処理部（３）は、前記入力文対に含まれる、前記ソース言語側の文と前記ターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、前記削除を行うことによって、新たな文対を生成してもよい。さらに、前記拡張処理部（３）は、前記入力文対に基づいて表現の置換によって生成した新たな文対である置換拡張文対について、前記置換拡張文対に含まれる、前記ソース言語側の文と前記ターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、前記削除を行うことによって、新たな文対を生成してもよい。

学習装置（１７０）は、学習データ拡張装置（１）によって生成された前記新たな文対と、前記入力文対とで成る拡張学習データを用いて、前記ソース言語で記述された文と前記ターゲット言語で記述された文との関係についての機械学習処理を行い、この機械学習処理の結果であるモデルを出力する。また、翻訳装置（１８０）は、学習装置（１７０）が行った機械学習処理の結果として出力された前記モデルに基づいて、前記ソース言語で記述された文を、前記ターゲット言語で記述された文に機械翻訳する処理を行う。

なお、本実施形態において、表現とは、文おける表層の少なくともまとまった一部分である。具体的には、表現とは、単語や、複数の単語の組み合わせや、フレーズなどである。

以上説明したように、本実施形態（変形例を用いる場合も含む）では、学習データ拡張装置は、与えられた文対（ソース言語およびターゲット言語）を基に、置換可能な表現を抽出する。そして、学習データ拡張装置は、抽出された表現に関して、シソーラス辞書等を用いることにより、置換候補を決定する。そして、学習データ拡張装置は、係り受け情報（文脈情報）および共起情報に基づき、置換候補を用いる場合の文としてのふさわしさの数値（スコア）を算出する。学習データ拡張装置は、このスコアの値に基づいて、良好な形で拡張した学習データを生成する。

機械翻訳処理用の学習データを拡張することにより、学習データを大量に増やすことが可能となる。これにより、これまで機械翻訳で扱いきれなかった低頻度語を含む文の棚訳精度も上がる。この翻訳を、ニュース番組等のアナウンス文に適用することにより、例えば、日本語ニュースのアナウンス原稿文から、国際放送用の他国語（例えば、英語等）ニュースのアナウンス原稿へ、比較的低コストで、且つ迅速に、高品質に、翻訳することが可能となる。これにより、迅速な国際報道を実現できる。

その背景は以下の通りである。書き言葉として表されたニュース文の、ソース言語とターゲット言語の文対は、既に豊富に存在する。しかしながら、テレビ放送やラジオ放送で用いるための話し言葉として表されたニュース文のソース言語とターゲット言語の文対は、現状では比較的乏しい。放送用のニュース文を機械翻訳する際の精度を上げるためには、話し言葉のソース言語とターゲット言語の文対である学習データを豊富なものにすることが望まれる。学習に用いるための文対の数は、例えば数百万対以上、場合によってはさらに多いことが望ましい。

報道番組で用いられるアナウンス用の話し言葉としての日本語のニュース文を人手で英語に翻訳することにより、英語のニュース文を得られる。得られたニュース文の対（日本語および英語）を、入力学習データとして入力学習データ記憶部２に書き込んでおく。この方法で学習データを作成する方法には高いコストを要する。拡張処理部３は、上記の入力学習データを拡張し、拡張された学習データを拡張学習データ記憶部４に書き込む。学習データを拡張する処理は、比較的低コストで行うことができる。拡張された学習データの量（文対の数）は、元の入力学習データの量（同じく文対の数）の十倍ないしは数十倍程度になり得る。したがって、学習データの全部を人手での翻訳に頼る場合に比べて、本実施形態を用いることによって、拡張学習データを低コストで得ることができるようになる。

以上、この発明の実施形態（変形例を含む）について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、例えば、複数の言語において相互に対応する表現の集合を拡張するために利用することができる。その一例として、言語の機械翻訳のモデルを機械学習に用いるための学習データを拡張する処理に利用することができる。さらに、その一例として、テレビやラジオ等での報道のための機械翻訳のモデルを機械学習させるため用いることができる。ただし、本発明の利用範囲はここに例示したものには限られない。

１学習データ拡張装置
２入力学習データ記憶部
３拡張処理部
４拡張学習データ記憶部
５スコア算出部
６言語資源情報記憶部
９翻訳システム（翻訳装置）
５１ソース言語文脈スコア算出部
５２ソース言語共起スコア算出部
５６ターゲット言語文脈スコア算出部
５７ターゲット言語共起スコア算出部
６１ソース言語シソーラス記憶部
６２ソース言語辞書記憶部
６３ソース言語文脈頻度記憶部
６４ソース言語共起頻度記憶部
６６ターゲット言語シソーラス記憶部
６７ターゲット言語辞書記憶部
６８ターゲット言語文脈頻度記憶部
６９ターゲット言語共起頻度記憶部
１７０学習装置
１８０翻訳装置
１８１機械翻訳モデル記憶部
１８２入力文データ記憶部
１８３翻訳処理部
１８４出力文データ記憶部

Claims

ソース言語の表現に関する辞書情報およびターゲット言語の表現に関する辞書情報を記憶することにより前記ソース言語による表現と前記ターゲット言語による表現との間の変換を可能とする言語辞書記憶部と、
前記ソース言語によって記述された文と、前記ターゲット言語によって記述された文とにより構成された対訳である入力文対を基に、前記ソース言語側の文に含まれる言語表現と前記ターゲット言語側の文に含まれる言語表現との対応付けを行い、前記ソース言語または前記ターゲット言語の少なくともいずれかのシソーラス情報を用いて前記ソース言語または前記ターゲット言語の置換候補を抽出し、前記ソース言語側の文に含まれる言語表現と前記ターゲット言語側の文に含まれる言語表現との前記対応付けに基づいて前記ソース言語側または前記ターゲット言語側の前記置換候補の対訳側の置換候補を抽出し、前記文対に含まれる前記ソース言語側および前記ターゲット言語側の言語表現の置換候補を選択し、選択された前記置換候補により前記ソース言語側および前記ターゲット言語側の前記言語表現を置換し、前記ソース言語によって記述された文と前記ターゲット言語によって記述された文とにより構成された新たな対訳である文対を生成する拡張処理部と、
前記置換候補が前記文に含まれることの適合の度合いを表すスコアを算出するスコア算出部と、
を備え、
前記拡張処理部は、前記文対に含まれる前記ソース言語側および前記ターゲット言語側の言語表現の置換候補を選択するために、前記ソース言語または前記ターゲット言語のシソーラス情報を用いて抽出した置換候補の対訳側の置換候補の情報を獲得する際には、前記言語辞書記憶部を参照し、
前記拡張処理部は、前記置換候補に関して前記スコア算出部が算出した前記スコアが予め定めた基準を満たす場合にのみ前記置換候補による置換を行うことによって、前記新たな文対を生成する、
学習データ拡張装置。
前記スコアは、
（１）前記入力文対に含まれる前記ソース言語によって記述された文に含まれる文脈であって、第１表現と第２表現とが所定の関係を有して成るところの文脈である、ソース言語文脈が、前記ソース言語の文一般において出現する頻度に基づく数値であるソース言語文脈スコアと、
（２）前記ソース言語文脈に含まれる前記第１表現と前記第２表現とが前記ソース言語の文一般において共起する頻度に基づく数値であるソース言語共起スコアと、
（３）前記入力文対に含まれる前記ターゲット言語によって記述された文、に含まれる文脈であって、第３表現と第４表現とが所定の関係を有して成るところの文脈である、ターゲット言語文脈が、前記ターゲット言語の文一般において出現する頻度に基づく数値であるターゲット言語文脈スコアと、
（４）前記ターゲット言語文脈に含まれる前記第３表現と前記第４表現とが前記ターゲット言語の文一般において共起する頻度に基づく数値であるターゲット言語共起スコアと、の少なくともいずれかに基づく数値であり、
前記ソース言語が日本語である場合には、
（１）前記置換候補の表現が主語の場合、当該主語＋動詞が前記文脈であり得、且つ当該主語および当該動詞がそれぞれ前記第１表現および前記第２表現のいずれか一方であり、
（２）前記置換候補の表現が目的語の場合、当該目的語＋助詞＋動詞が文脈であり得、且つ当該目的語および当該動詞がそれぞれ前記第１表現および前記第２表現のいずれか一方であり、
（３）置換候補の表現が「の格」による連体修飾節の場合、第１名詞＋当該「の」（助詞）＋第２名詞が文脈であり得、且つ当該第１名詞および当該第２名詞がそれぞれ前記第１表現および前記第２表現のいずれか一方であり、
前記ソース言語が日本語以外の言語（非日本語言語）である場合には、当該非日本語言語の構文構造に応じた、前記置換候補と当該置換候補に関連付けられる他の表現との組合せが前記文脈であり得、且つ当該置換候補および当該他の表現がそれぞれ前記第１表現および前記第２表現のいずれか一方であり、
前記ターゲット言語が日本語である場合には、
（１）前記置換候補の表現が主語の場合、当該主語＋動詞が前記文脈であり得、且つ当該主語および当該動詞がそれぞれ前記第３表現および前記第４表現のいずれか一方であり、
（２）前記置換候補の表現が目的語の場合、当該目的語＋助詞＋動詞が文脈であり得、且つ当該目的語および当該動詞がそれぞれ前記第３表現および前記第４表現のいずれか一方であり、
（３）置換候補の表現が「の格」による連体修飾節の場合、第１名詞＋当該「の」（助詞）＋第２名詞が文脈であり得、且つ当該第１名詞および当該第２名詞がそれぞれ前記第３表現および前記第４表現のいずれか一方であり、
前記ターゲット言語が日本語以外の言語（非日本語言語）である場合には、当該非日本語言語の構文構造に応じた、前記置換候補と当該置換候補に関連付けられる他の表現との組合せが前記文脈であり得、且つ当該置換候補および当該他の表現がそれぞれ前記第３表現および前記第４表現のいずれか一方である、
請求項１に記載の学習データ拡張装置。
前記スコア算出部は、前記ソース言語文脈スコアと、前記ソース言語共起スコアと、前記ターゲット言語文脈スコアと、前記ターゲット言語共起スコアとを算出するものであり、
前記拡張処理部は、
前記ソース言語文脈スコアと、前記ソース言語共起スコアと、前記ターゲット言語文脈スコアと、前記ターゲット言語共起スコアとの、重み付きの和または重み付きの積として算出される統合スコアが所定の閾値以上である場合にのみ、前記置換候補による置換を行うことによって、前記新たな文対を生成する、
請求項２に記載の学習データ拡張装置。
前記拡張処理部は、前記入力文対に含まれる、前記ソース言語側の文と前記ターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、前記削除を行うことによって、新たな文対を生成するものであり、
前記拡張処理部は、前記ソース言語側の文から削除可能な表現を削除するとともに、前記ソース言語側に文から削除した表現に対応する表現を前記ターゲット言語側の文からも削除するものであり、
前記削除可能な表現は、形容詞と、副詞と、従属節となる連体修飾節と、従属節となる連用修飾節とである、
請求項１から３までのいずれか一項に記載の学習データ拡張装置。
前記拡張処理部は、前記入力文対に基づいて表現の置換によって生成した新たな文対である置換拡張文対について、前記置換拡張文対に含まれる、前記ソース言語側の文と前記ターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、前記削除を行うことによって、新たな文対を生成するものであり、
前記拡張処理部は、前記ソース言語側の文から削除可能な表現を削除するとともに、前記ソース言語側に文から削除した表現に対応する表現を前記ターゲット言語側の文からも削除する、
前記削除可能な表現は、形容詞と、副詞と、従属節となる連体修飾節と、従属節となる連用修飾節とである、
請求項１から４までのいずれか一項に記載の学習データ拡張装置。
ソース言語の表現に関する辞書情報およびターゲット言語の表現に関する辞書情報を記憶することにより前記ソース言語による表現と前記ターゲット言語による表現との間の変換を可能とする言語辞書記憶部、
を備えるコンピューターに、
前記ソース言語によって記述された文と、前記ターゲット言語によって記述された文とにより構成された対訳である入力文対を基に、前記ソース言語側の文に含まれる言語表現と前記ターゲット言語側の文に含まれる言語表現との対応付けを行い、前記ソース言語または前記ターゲット言語の少なくともいずれかのシソーラス情報を用いて前記ソース言語または前記ターゲット言語の置換候補を抽出し、前記ソース言語側の文に含まれる言語表現と前記ターゲット言語側の文に含まれる言語表現との前記対応付けに基づいて前記ソース言語側または前記ターゲット言語側の前記置換候補の対訳側の置換候補を抽出し、前記文対に含まれる前記ソース言語側および前記ターゲット言語側の言語表現の置換候補を選択し、選択された前記置換候補により前記ソース言語側および前記ターゲット言語側の前記言語表現を置換し、前記ソース言語によって記述された文と前記ターゲット言語によって記述された文とにより構成された新たな対訳である文対を生成する、拡張処理過程と、
前記置換候補が前記文に含まれることの適合の度合いを表すスコアを算出する、スコア算出過程と、
を実行させるプログラムであって、
前記拡張処理過程では、前記文対に含まれる前記ソース言語側および前記ターゲット言語側の言語表現の置換候補を選択するために、前記ソース言語または前記ターゲット言語のシソーラス情報を用いて抽出した置換候補の対訳側の置換候補の情報を獲得する際には、前記言語辞書記憶部を参照し、
前記拡張処理過程では、前記置換候補に関して前記スコア算出過程で算出した前記スコアが予め定めた基準を満たす場合にのみ前記置換候補による置換を行うことによって、前記新たな文対を生成する、
プログラム。
請求項１から５までのいずれか一項に記載の学習データ拡張装置によって生成された前記新たな文対と、前記入力文対とで成る拡張学習データを用いて、前記ソース言語で記述された文と前記ターゲット言語で記述された文との関係についての機械学習処理を行い、この機械学習処理の結果であるモデルを出力する、学習装置。
請求項７に記載の学習装置が行った機械学習処理の結果として出力された前記モデルに基づいて、前記ソース言語で記述された文を、前記ターゲット言語で記述された文に機械翻訳する処理を行う、翻訳装置。