JP7329929B2 - 学習データ拡張装置、学習装置、翻訳装置、およびプログラム - Google Patents

学習データ拡張装置、学習装置、翻訳装置、およびプログラム Download PDF

Info

Publication number
JP7329929B2
JP7329929B2 JP2019017388A JP2019017388A JP7329929B2 JP 7329929 B2 JP7329929 B2 JP 7329929B2 JP 2019017388 A JP2019017388 A JP 2019017388A JP 2019017388 A JP2019017388 A JP 2019017388A JP 7329929 B2 JP7329929 B2 JP 7329929B2
Authority
JP
Japan
Prior art keywords
language
sentence
expression
target language
source language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019017388A
Other languages
English (en)
Other versions
JP2020126360A (ja
Inventor
一郎 山田
功雄 後藤
秀弥 美野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2019017388A priority Critical patent/JP7329929B2/ja
Publication of JP2020126360A publication Critical patent/JP2020126360A/ja
Application granted granted Critical
Publication of JP7329929B2 publication Critical patent/JP7329929B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、学習データ拡張装置、学習装置、翻訳装置、およびプログラムに関する。
自然言語で書かれた文の機械翻訳処理において、翻訳精度を上げるためには膨大な量の学習データを必要とする。ここで、学習データは、翻訳対象の言語(ソース言語)と翻訳先の言語(ターゲット言語)の2ヶ国語の、大量の対訳文のデータである。
従来技術において、機械学習用の学習データを拡張する手法が提案されている。例えば、非特許文献1には、画像認識の分野で、ニューラルネットに入力する機械学習のためのデータを拡張する手法が記載されている。この手法では、学習データである画像に対して回転、ズーム、水平移動、垂直移動、RGB変換などの処理を施すことにより、データを拡張し、拡張された学習データを利用して機械学習処理を行うことにより、良好な画像認識精度を実現している。
また、従来技術において、自然言語処理の分野での分類問題を解決するために、データを拡張する手法が提案されている。非特許文献2には、文に出現する単語に類似する単語への置き換えや、シソーラスを利用することにより単語に類似する兄弟語や上位語への置き換えや、形容詞の削除などの手法が記載されている。
小林賢一,辻順平,能登正人,「ディープラーニングを用いた画像処理による農作物病害診断へのData Augmentationの応用」,情報処理学会,第79回全国大会講演論文集,3N-02,第2017巻,第1号, 289-290ページ,書誌レコードID:AN00349328,2017年03月16日発行,https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=180911&file_id=1&file_no=1 西本慎之介,能地宏,松本裕治,「データ拡張による感情分析のアスペクト推定」,言語処理学会,第23回年次大会発表論文集,581-584ページ,2017年3月,http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P10-4.pdf
非特許文献1に記載の手法は、画像認識のための学習データを拡張するものであり、画像の回転やズームなどといった手法を自然言語による表現に適用することはできない。
また、非特許文献2に記載の手法を用いて生成される表現は一般的に非文である。例えば、「Being late is terrible.」という文を、この手法で変換すると、「Be behind are bad.」などといった文が生成される。つまり、この手法で拡張されたデータは非文を多く含むため、機械翻訳処理のための学習データとして用いることは不適切である。
本発明は、上記のような問題に鑑みて為されたものであり、機械翻訳の精度を上げるために、既存の対訳文データを拡張して大量の対訳文データを生成することのできる学習データ拡張装置、その学習データ拡張装置で生成された学習データを用いて機械学習処理を行う学習装置、およびその学習データ拡張装置によって得られた学習データを利用した機械学習処理によるモデルに基づく翻訳装置と、そのプログラムとを提供しようとするものである。
[1]上記の課題を解決するため、本発明の一態様による学習データ拡張装置は、ソース言語によって記述された文と、ターゲット言語によって記述された文とにより構成された入力文対を基に、前記ソース言語または前記ターゲット言語の少なくともいずれかのシソーラス情報を用いて、前記文対に含まれる言語表現の置換候補を選択し、選択された前記置換候補により前記言語表現を置換し、前記ソース言語によって記述された文と前記ターゲット言語によって記述された文とにより構成された新たな文対を生成する拡張処理部と、前記置換候補が前記文に含まれることの適合の度合いを表すスコアを算出するスコア算出部と、を備えるものである。
[2]また、本発明の一態様は、上記の学習データ拡張装置において、前記拡張処理部は、前記置換候補に関して前記スコア算出部が算出した前記スコアが予め定めた基準を満たす場合にのみ前記置換候補による置換を行うことによって、前記新たな文対を生成する、ものである。
[3]また、本発明の一態様は、上記の学習データ拡張装置において、前記スコアは、
(1)前記入力文対に含まれる前記ソース言語によって記述された文、に含まれる文脈であって、第1表現と第2表現とが所定の関係を有して成るところの文脈である、ソース言語文脈が、前記ソース言語の文一般において出現する頻度に基づく数値であるソース言語文脈スコアと、
(2)前記ソース言語文脈に含まれる前記第1表現と前記第2表現とが前記ソース言語の文一般において共起する頻度に基づく数値であるソース言語共起スコアと、
(3)前記入力文対に含まれる前記ターゲット言語によって記述された文、に含まれる文脈であって、第3表現と第4表現とが所定の関係を有して成るところの文脈である、ターゲット言語文脈が、前記ターゲット言語の文一般において出現する頻度に基づく数値であるターゲット言語文脈スコアと、
(4)前記ターゲット言語文脈に含まれる前記第3表現と前記第4表現とが前記ターゲット言語の文一般において共起する頻度に基づく数値であるターゲット言語共起スコアと、
の少なくともいずれかに基づく数値である。
[4]また、本発明の一態様は、上記の学習データ拡張装置において、前記スコア算出部は、前記ソース言語文脈スコアと、前記ソース言語共起スコアと、前記ターゲット言語文脈スコアと、前記ターゲット言語共起スコアとを算出するものであり、前記拡張処理部は、前記ソース言語文脈スコアと、前記ソース言語共起スコアと、前記ターゲット言語文脈スコアと、前記ターゲット言語共起スコアとの、重み付きの和または重み付きの積として算出される統合スコアが所定の閾値以上である場合にのみ、前記置換候補による置換を行うことによって、前記新たな文対を生成する、ものである。
[5]また、本発明の一態様は、上記の学習データ拡張装置において、前記拡張処理部は、前記入力文対に含まれる、前記ソース言語側の文と前記ターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、前記削除を行うことによって、新たな文対を生成する、ものである。
[6]また、本発明の一態様は、上記の学習データ拡張装置において、前記拡張処理部は、前記入力文対に基づいて表現の置換によって生成した新たな文対である置換拡張文対について、前記置換拡張文対に含まれる、前記ソース言語側の文と前記ターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、前記削除を行うことによって、新たな文対を生成する、ものである。
[7]また、本発明の一態様は、コンピューターに、ソース言語によって記述された文と、ターゲット言語によって記述された文と、で成る入力文対を基に、前記ソース言語または前記ターゲット言語の少なくともいずれかのシソーラス情報を用いて、前記文対に含まれる表現の置換候補を選び、置換対象である前記表現を前記置換候補で置換することによって、ソース言語によって記述された文とターゲット言語によって記述された文とで成る新たな文対を生成する、拡張処理過程と、前記置換候補が前記文に含まれることの適合の度合いを表すスコアを算出する、スコア算出過程と、を実行させるプログラムである。
[8]また、本発明の一態様は、上記のいずれかの学習データ拡張装置によって生成された前記新たな文対と、前記入力文対とで成る拡張学習データを用いて、前記ソース言語で記述された文と前記ターゲット言語で記述された文との関係についての機械学習処理を行い、この機械学習処理の結果であるモデルを出力する、学習装置である。
[9]また、本発明の一態様は、上記の学習装置が行った機械学習処理の結果として出力された前記モデルに基づいて、前記ソース言語で記述された文を、前記ターゲット言語で記述された文に機械翻訳する処理を行う、翻訳装置である。
本発明によれば、機械翻訳のための学習データの量を自動的に増やすことができる。これにより、比較的低コストで、機械翻訳の精度を向上させることができる。
本発明の一実施形態による学習データ拡張装置の概略機能構成を示すブロック図である。 同実施形態による学習データ拡張装置を含む翻訳システムの概略構成を示すブロック図である。 同実施形態による学習データ拡張装置が、学習データを拡張する処理の手順を示すフローチャートである。 同実施形態による学習データ拡張装置が、データ拡張のために、表現の置換候補のスコアを計算する処理の詳細な手順を示すフローチャートである。
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態による学習データ拡張装置の概略機能構成を示すブロック図である。図示するように、学習データ拡張装置1は、入力学習データ記憶部2と、拡張処理部3と、拡張学習データ記憶部4と、スコア算出部5と、言語資源情報記憶部6とを含んで構成される。この構成により、学習データ拡張装置1は、入力学習データ記憶部2に格納されていた機械学習用の学習データを、拡張して、拡張後の学習データを拡張学習データ記憶部4に書き込む。
スコア算出部5は、ソース言語文脈スコア算出部51と、ソース言語共起スコア算出部52と、ターゲット言語文脈スコア算出部56と、ターゲット言語共起スコア算出部57とを含んで構成される。また、言語資源情報記憶部6は、ソース言語シソーラス記憶部61と、ソース言語辞書記憶部62と、ソース言語文脈頻度記憶部63と、ソース言語共起頻度記憶部64と、ターゲット言語シソーラス記憶部66と、ターゲット言語辞書記憶部67と、ターゲット言語文脈頻度記憶部68と、ターゲット言語共起頻度記憶部69とを含んで構成される。
本実施形態による学習データ拡張装置の各部の機能を、次に説明する。
入力学習データ記憶部2は、拡張前の学習データ、言い換えれば学習データ拡張装置1に入力される学習データを記憶するものである。入力学習データ記憶部2が記憶する学習データは、ソース言語およびターゲット言語それぞれにおける互いに対応する文の対の集合である。これらの文対において、ターゲット言語側の文は、ソース言語側の文を人手で翻訳することによって得られるものである。
拡張処理部3は、入力学習データ記憶部2から学習データを読み込み、シソーラスや、共起情報や、係り受け情報や、辞書を利用して、拡張した学習データを出力する。拡張処理部3は、拡張された学習データを拡張学習データ記憶部4に書き込む。言い換えれば、拡張処理部3は、入力学習データ記憶部2から読み出した学習データと、それらの学習データを基に表現の置換等を行って得られた新たな学習データとを、拡張学習データ記憶部4に書き込む。具体的には、拡張処理部3は、ソース言語によって記述された文と、ターゲット言語によって記述された文とにより構成された入力文対を基に、前記ソース言語または前記ターゲット言語の少なくともいずれかのシソーラス情報を用いて、前記文対に含まれる言語表現の置換候補を選択し、選択された前記置換候補により前記言語表現を置換し、前記ソース言語によって記述された文と前記ターゲット言語によって記述された文とにより構成された新たな文対を生成する。
拡張学習データ記憶部4は、拡張処理部3によって拡張された学習データを記憶するものである。拡張学習データ記憶部4が記憶する学習データは、拡張前の学習データよりも多くの文対を含む。拡張後の学習データは、拡張前の学習データが含む文対数の、例えば、十倍から数十倍程度の数の文対を含む。拡張学習データ記憶部4が記憶する学習データは、例えば、ニューラルネットワークを用いた機械翻訳処理のための機械学習処理に用いられる。
スコア算出部5は、ある文対(ソース言語およびターゲット言語による文の対)に含まれる表現の一部を置換するための置換候補に関して、その置換候補のスコアを算出するものである。置換候補のスコアは、例えば、ソース言語の置換候補とターゲット言語の置換候補とのそれぞれについての、当該置換候補を含む文脈のスコアや、当該置換候補を含む表現の共起のスコアである。これらのスコアは、各言語における文らしさ、あるいは文の構成要素らしさを示す数値である。言い換えれば、スコアは、置換候補が文に含まれることの適合の度合いを表す数値である。これらのスコアは、例えば、各言語による大量の実際の文の集合における、当該文脈あるいは当該共起の統計的特徴に基づいて算出される。スコア算出部5に含まれる機能の詳細を次に説明する。
ソース言語文脈スコア算出部51は、ソース言語(例えば、日本語)において、ある文脈のスコアを算出するものである。この文脈のスコアは、ソース言語における当該文脈の出現頻度に基づいて定めることができる数値である。ソース言語文脈スコア算出部51によるスコア算出の手順等については、後で、詳しく説明する。
ソース言語共起スコア算出部52は、ソース言語(例えば、日本語)において、ある表現とある表現とが共起することのスコアを算出するものである。この共起のスコアは、ソース言語における当該表現のペアの共起出現頻度に基づいて定めることができる数値である。ソース言語共起スコア算出部52によるスコア算出の手順等については、後で、詳しく説明する。
ターゲット言語文脈スコア算出部56は、ターゲット言語(例えば、英語)において、ある文脈のスコアを算出するものである。この文脈のスコアは、ターゲット言語における当該文脈の出現頻度に基づいて定めることができる数値である。ターゲット言語文脈スコア算出部56によるスコア算出の手順等については、後で、詳しく説明する。
ターゲット言語共起スコア算出部57は、ターゲット言語(例えば、英語)において、ある表現とある表現とが共起することのスコアを算出するものである。この共起のスコアは、ターゲット言語における当該表現のペアの共起出現頻度に基づいて定めることができる数値である。ターゲット言語共起スコア算出部57によるスコア算出の手順等については、後で、詳しく説明する。
言語資源情報記憶部6は、ソース言語およびターゲット言語のそれぞれにおける、シソーラス情報や、辞書情報や、前記の文脈の頻度に関する情報や、前記の共起の頻度に関する情報を記憶するものである。拡張処理部3が文対内に含まれる表現の置換候補を求める場合には、この言語資源情報記憶部6に含まれる一部の情報が参照される。また、スコア算出部5が学習データを拡張する際の置換候補のスコアを求める場合には、この言語資源情報記憶部6に含まれる一部の情報が参照される。言語資源情報記憶部6に含まれる機能の詳細を次に説明する。
ソース言語シソーラス記憶部61は、ソース言語(例えば、日本語)のシソーラス情報を記憶するものである。シソーラス情報は、表現(単語等)の、上位語/下位語の関係や、同義語、類義語に関する情報を含む。ソース言語シソーラス記憶部61を参照することにより、ソース言語における、ある表現の、上位語や、下位語や、同義語・類義語等を検索することができる。また、例えば、ある表現の、上位語の下位語を検索することにより、概念上の兄弟語を検索することもできる。
ソース言語辞書記憶部62は、ソース言語(例えば、日本語)の表現に関する辞書情報を記憶するものである。この辞書情報を用いることにより、例えば、ソース言語による表現(単語等)を、ターゲット言語(例えば、英語)における等価な表現に変換することができる。即ち、この辞書情報を用いることにより、例えば、単語レベルでの日英翻訳を行うことができる。
ソース言語文脈頻度記憶部63は、ソース言語(例えば、日本語)による多数の文脈と、その文脈の出現頻度とを関連付けてデータとして記憶するものである。文脈については後述するが、日本語の場合の文脈のほんの一例として、(名詞)+「の」(助詞)+(名詞)というパターンを挙げられる。この「名詞+の+名詞」という文脈の具体例は、「コメ+の+高関税維持」、「食品+の+高関税維持」、「チーズ+の+高関税維持」、「漬物+の+高関税維持」などといったものである。ソース言語文脈頻度記憶部63が記憶するデータを作成するためには、例えば、大量の日本語文を収集し、それら大量の日本語文に含まれる文脈を抽出し、各文脈の出現頻度をカウントする処理を行う。文脈の出現頻度として、例えば、0.0以上且つ1.0以下の範囲に正規化した数値を用いてもよい。例えば、ALAGINフォーラムが配布している「日本語係り受けデータベース」を利用して、ソース言語文脈頻度記憶部63が記憶するデータを作成してもよい。
ソース言語共起頻度記憶部64は、ソース言語(例えば、日本語)による多数の自立語ペアと、そのペアが共起して出現する出現頻度とを関連付けてデータとして記憶するものである。日本語の場合の自立語ペアの一例として、(チーズ,高関税維持)といったペアを挙げられる。ソース言語共起頻度記憶部64が記憶するデータを作成するためには、例えば、大量の日本語文を収集し、それら大量の日本語文に含まれる自立語のペアを抽出し、各ペアの共起頻度をカウントする処理を行う。共起頻度として、例えば、0.0以上且つ1.0以下の範囲に正規化した数値を用いてもよい。例えば、ALAGINフォーラムが配布している「単語共起頻度データベース」を利用して、ソース言語共起頻度記憶部64が記憶するデータを作成してもよい。
ターゲット言語シソーラス記憶部66は、ターゲット言語(例えば、英語)のシソーラス情報を記憶するものである。ある言語におけるシソーラス情報については、ソース言語シソーラス記憶部61に関して既に説明した通りである。
ターゲット言語辞書記憶部67は、ターゲット言語(例えば、英語)の表現に関する辞書情報を記憶するものである。ある言語における辞書情報については、ソース言語辞書記憶部62に関して既に説明した通りである。ターゲット言語辞書記憶部67を参照することにより、例えば、単語レベルでの英日翻訳を行うことができる。
ターゲット言語文脈頻度記憶部68は、ターゲット言語(例えば、英語)による文脈と、その文脈の出現頻度とを関連付けてデータとして記憶するものである。ある言語における文脈およびその文脈の出現頻度については、ソース言語文脈頻度記憶部63に関して既に説明した通りである。例えば、大量の英語文を収集し、それら大量の英語文に含まれる文脈を抽出し、各文脈の出現頻度をカウントする処理を行うことにより、ターゲット言語文脈頻度記憶部68に記憶させるべきデータを作成できる。文脈の出現頻度として、例えば、0.0以上且つ1.0以下の範囲に正規化した数値を用いてもよい。
ターゲット言語共起頻度記憶部69は、ターゲット言語(例えば、英語)による自立語の組と、その組に属する表現が共起して出現する出現頻度とを関連付けてデータとして記憶するものである。ある言語における共起頻度の情報については、ソース言語共起頻度記憶部64に関して説明した通りである。例えば、大量の英語文を収集し、それら大量の英語文に含まれる、共起する表現の組を抽出し、それらの共起頻度をカウントする処理を行うことにより、ターゲット言語共起頻度記憶部69に記憶させるべきデータを作成できる。共起頻度として、例えば、0.0以上且つ1.0以下の範囲に正規化した数値を用いてもよい。
図2は、上で説明した学習データ拡張装置を含む翻訳システムの概略構成を示すブロック図である。図示するように、翻訳システム9は、学習データ拡張装置1と、学習装置170と、翻訳装置180とを含んで構成される。学習装置170や翻訳装置180もまた、学習データ拡張装置1と同様に、汎用コンピューターとプログラムとで実現され得る。また、学習装置170や翻訳装置180の機能の少なくとも一部を、専用の電子回路で実現してもよい。
また、図示するように、翻訳装置180は、機械翻訳モデル記憶部181と、入力文データ記憶部182と、翻訳処理部183と、出力文データ記憶部184とを含んで構成される。
学習データ拡張装置1は、与えられた学習データを拡張するための装置である。学習データ拡張装置1は、具体的には、入力学習データ記憶部2に記憶されている文対(翻訳前のソース言語の文と、翻訳後のターゲット言語の文との対)に含まれる表現(単語やフレーズ)を置換することにより、学習データを拡張する。学習データ拡張装置1は、学習データを拡張する際に、ソース言語およびターゲット言語の言語資源に基づく統計的特徴を用いて、各言語の文らしさが高い文対のみを学習データに追加することにより、データの拡張を行う。なお、学習データ拡張装置1の機能構成については既に説明した通りである。また、学習データ拡張装置1における詳細な処理手順については、フローチャートを参照しながら後で説明する。
学習装置170は、学習データ拡張装置1によって拡張された学習データを用いて、翻訳装置180で用いるための機械翻訳モデルの学習処理を行う。
翻訳装置180は、学習装置170によって学習された機械翻訳モデルを用いて、ソース言語で書かれた入力文データを、ターゲット言語で書かれた出力文データに変換する。即ち、翻訳装置180は、文の翻訳処理を行う。翻訳装置180は、例えば、ニューラルネットワークを利用して、機械翻訳処理を行う。翻訳装置180が持つ各機能部の機能は、次に説明する通りである。
機械翻訳モデル記憶部181は、翻訳装置180が翻訳処理を実行する際に参照するための機械翻訳モデルを記憶する。この機械翻訳モデルは、学習装置170によって学習済みである。この機械翻訳モデルを構成する要素は、翻訳装置180が用いるニューラルネットワークの学習処理の結果の、各ノードにおける重みづけパラメーターの値である。
入力文データ記憶部182は、翻訳装置180が翻訳するための入力文データを記憶する。入力文は、ソース言語で書かれた文である。
翻訳処理部183は、機械翻訳モデル記憶部181に記憶されている学習モデルに基づいて、入力文データ記憶部182が記憶する文(ソース言語)の翻訳処理を行い、出力文(ターゲット言語)を出力する。
出力文データ記憶部184は、翻訳処理部183から出力された出力文を記憶する。出力文は、ターゲット言語で書かれた文であり、上記の入力文に対応するものである。
本実施形態においては、与えられた学習データ(入力学習データ記憶部2に記憶されている)のみを用いて機械翻訳のための学習処理を行うのではなく、拡張された学習データ(拡張学習データ記憶部4に記憶されている)を用いた学習処理を行う。例えば、与えられた学習データが数十万個から数百万個程度の文対を含むとき、学習データ拡張装置1によって拡張された学習データは、その十倍から数十倍程度の数の文対を含む。これにより、学習装置170は、使用頻度の比較的低い表現(単語やフレーズ)を含んだ、豊富な文対を用いて、機械翻訳モデルの学習を行うことができる。これにより、例えばニューラルネットワークを利用した機械翻訳を行う場合の翻訳精度を向上させることが可能となる。
(学習データ拡張装置1の動作)
次に、学習データ拡張装置1の詳細な処理手順について説明する。図3は、本実施形態による学習データ拡張処理の手順を示すフローチャートである。機械翻訳のための学習データは、通常、数十万から数百万の対訳文対で構成されている。学習データ拡張装置1の拡張処理部3は、入力学習データ記憶部2が記憶する対訳文対から、1文対ずつ、同図のフローチャートの処理を実行する。以下、このフローチャートに沿って処理の詳細を説明する。
ステップS21において、拡張処理部3は、入力学習データ記憶部2から、学習データの1文対を取得する。この文対は、ソース言語(例えば、日本語)の文とターゲット言語(例えば、英語)の文の対である。そして、拡張処理部3は、これらの文同士のアラインメント処理を行う。アラインメント処理自体は既存技術を用いて行うことができる。例えば、GIZA++ (URL:https://github.com/moses-smt/giza-pp)などといった、既存のツールを利用してアラインメント処理を行うことができる。このアラインメント処理により、ソース言語側の文に含まれる表現(例えば、単語やフレーズ)とターゲット側の文に含まれる表現(同様)が対応付けられる。
ステップS22において、拡張処理部3は、当該文対のうちのソース言語側の文内に置換可能な表現があるか否かを判定する。置換可能な表現がある場合(ステップS22:YES)には、拡張処理部3は、置換可能な表現、および表現に対応するターゲット言語内の表現を抽出し、さらにそれらの置換可能な表現に対応する未処理の置換候補の1つを抽出して、ステップS23に進む。置換可能な表現がない場合(ステップS22:NO)には、拡張処理部3は、ステップS26の処理に飛ぶ。
ステップS22において、拡張処理部3は、置換可能な表現として、名詞を抽出する。ただし、代名詞や形式名詞などは、置換可能な表現として抽出されない。置換可能な表現を抽出する処理の実例は下記の通りである。入力学習データのうちの1文対のソース言語側の文が「政府は米国産の輸入割合を増やすことで、コメの高関税維持に米国の理解を求めたい考えだ。」である場合に、置換可能な表現として抽出され得るのは、政府、米国産、輸入割合、政府、コメ、高関税維持、米国、理解といった表現(名詞)である。拡張処理部3は、抽出された表現に対応するターゲット言語側の表現を抽出する。例えば、ソース言語側の「政府」という表現に対応して、ターゲット言語側の「government」という表現が抽出される。この処理において、拡張処理部3は、表現(単語)の品詞の情報を獲得するために、必要に応じて、言語資源情報記憶部6内のソース言語辞書記憶部62やターゲット言語辞書記憶部67を参照してもよい。
ステップS22において、さらに、拡張処理部3は、上記の置換可能な表現に対応する、未処理の置換候補の1つを抽出する。置換候補は、上記の置換可能な表現を、その上位語あるいは兄弟語の1つで置換したものである。ここで、上位語とは、ある語の概念的に上位の語である。また、兄弟語とは、ある語と共通の上位語を有する他の語である。拡張処理部3は、ソース言語とターゲット言語の両方において、置換可能な表現を置換候補の1つで置き換えた1つの文対を抽出する。この処理の際、拡張処理部3は、置換対象の表現の上位語や兄弟語の情報を獲得するために、言語資源情報記憶部6内の、ソース言語シソーラス記憶部61や、ソース言語辞書記憶部62や、ターゲット言語シソーラス記憶部66や、ターゲット言語辞書記憶部67を参照してもよい。
なお、ソース言語側およびターゲット言語側におけるシソーラスは、例えば、文献:特開2016-130903に記載されている「下位表現抽出装置およびプログラム」の技術を用いて生成することができる。一例として、名詞「コメ」の上位語として「食品」を置換候補とすることができる。また、名詞「コメ」の兄弟語として上記上位語「食品」に属する単語(つまり、「食品」の下位表現)を置換候補とすることができる。
ステップS22で抽出された1つの置換候補の文対について、拡張処理部3は、ステップS23からS25までの処理を実行する。
ステップS23において、スコア算出部5が、ステップS22で抽出された置換候補のスコアを計算する。スコア算出部5によるスコア算出の処理の詳細な手順については、後で別のフローチャートを参照しながら説明する。本実施形態では、具体的には、ステップS23の処理により、拡張処理部3は、ソース言語側の文脈スコアPS1、ソース言語側の共起スコアPS2、ターゲット言語側の文脈スコアPT1、ターゲット言語側の共起スコアPT2の4種類のスコアの数値を得る。
ステップS24において、拡張処理部3は、ステップS23で算出されたスコアに基づいて、ステップS22で抽出された置換候補を置換対象とするか否かを判定する。置換対象とする場合(ステップS24:YES)には、置換を実施するためにステップS25に進む。置換対象としない場合(ステップS24:NO)には、ステップS25をスキップして、次の置換候補を処理するためにステップS22に進む。
ステップS24において、拡張処理部3は、具体的には、次の方法によりスコアを評価する。ステップS23の処理で算出された4種類の数値PS1、PS2、PT1、PT2のそれぞれは、正の実数であり、値が大きいほど、置換候補の文らしさの度合いが高いことを表す。拡張処理部3は、例えば、これら4種類の数値PS1、PS2、PT1、PT2の重み付き和、あるいは重み付き積の値が、所定の閾値以上であるか否かにより(つまり、所定の基準により)、当該置換候補による置換を実施すべきかどうかを判定する。上記の重み付き和P1は、下の数式(1)で表される。また、上記の重み付き積P2は、下の数式(2)で表される。つまり、拡張処理部3は、数式(1)や数式(2)を用いることによって、4種類のスコア値を統合する。P1あるいはP2のどちらを採用するかを、適宜決定してよい。このP1やP2を、統合スコアと呼ぶ場合がある。
P1=W*PS1+W*PS2+W*PT1+W*PT2 ・・・(1)
P2=(PS1^W)*(PS2^W)*(PT1^W)*(PT2^W
・・・(2)
なお、上の式(1)や式(2)において、演算子「*」は乗算を表し、演算子「+」は加算を表し、演算子「^」はべき乗を表す。また、W1,2,3,のそれぞれは、適宜定められる重み値(実数)である。なお、式(2)の両辺の対数を取ると、式(2)がべき乗演算子を含まない形に変形できる。
なお、重み値W1,2,3,を予め定める代わりに、例えばSVM(サポートベクトルマシン)を用いてもよい。この場合、(PS1,PS2,PT1,PT2)の4次元ベクトルの特徴空間において、与えられた標本を用いてSVMの学習処理を行い、判別のための境界面(超面)を求める。これにより、算出されたスコアのベクトル(PS1,PS2,PT1,PT2)を置換対象とするか否かを判定することができる。
ステップS25において、拡張処理部3は、置換を実施すると決定された置換候補の表現を用いて、文対を拡張する。一例として、元の文対のソース言語(日本語)側の文が「政府は米国産の輸入割合を増やすことで、コメの高関税維持に米国の理解を求めたい考えだ。」である場合、且つ当該文内の名詞「コメ」に対応する置換候補が「チーズ」である場合、且つ当該置換候補で置き換えた場合のスコア(上記の式(1)あるいは式(2))が閾値以上である場合(つまり、所定の基準を満たす場合)、拡張処理部3は、「コメ」を「チーズ」で置換することにより、学習データを拡張する。これにより、拡張後のソース言語側の文は、「政府は米国産の輸入割合を増やすことで、チーズの高関税維持に米国の理解を求めたい考えだ。」となる。同時に元の文対のターゲット言語(英語)側の文が「By increasing imports produced in the United States, the government hopes to gain Washington's understanding on maintaining the high tariff rate on imported rice.」であるとき、拡張処理部3は、この文内の「rice」を「cheese」に置き換える。即ち、拡張処理部3は、拡張後のターゲット言語側の文を「By increasing imports produced in the United States, the government hopes to gain Washington's understanding on maintaining the high tariff rate on imported cheese.」。
さらに、ステップS25において、拡張処理部3は、拡張後の上記文対を、新たな学習データとして、拡張学習データ記憶部4に書き加える。ステップS25の処理を終了すると、拡張処理部3は、次の置換候補の処理を行うためにステップS22に戻る。
ステップS26において、拡張処理部3は、元の文対のソース言語側の文に、削除可能な表現(単語や節)のうち未処理のものがあるか否かを判定する。削除可能な表現がある場合(ステップS26:YES)には、ステップS27の処理に進む。その文に削除可能な表現がない場合(ステップS26:NO)には、当該文対に関する、本フローチャート全体の処理を終了する。
ステップS26における判定を行うとき、削除可能な表現(単語、節)は、形容詞や、副詞や、従属節となる連体修飾節や、従属節となる連用修飾節である。
ステップS27において、拡張処理部3は、ステップS26の判定で得られた、削除可能な表現を実際に削除することによって、学習データを拡張する。前述のソース言語側の文「政府は米国産の輸入割合を増やすことで、コメの高関税維持に米国の理解を求めたい考えだ。」については、従属節「政府は米国産の輸入割合を増やすことで、」が削除可能な表現である。例えば日本語の文において従属節を削除した場合には、残された文に主語がなくなる場合がある。したがって、削除する従属節の中に「は格」の主語がある場合には、その主語を削除対象から除いて文内に残す。つまり、拡張処理部3は、上記の文から「米国産の輸入割合を増やすことで、」を削除し、「政府はコメの高関税維持に米国の理解を求めたい考えだ。」を、拡張後の文対のソース言語側の文として残す。また、拡張処理部3は、元の文対のターゲット言語側の文からも対応する節を削除する。つまり、拡張処理部3は、文「the government hopes to gain Washington’s understanding on maintaining the high tariff rate on imported rice.」を、拡張後の文対のターゲット言語側の文として残す。拡張処理部3は、上記のように表現を削除することによって得られた文対を、拡張学習データ記憶部4に書き加える。
言い換えれば、ステップS27において、拡張処理部3は、元の入力文対に含まれる、ソース言語側の文とターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、上記の削除を行うことによって、新たな文対を生成する。
ステップS27の処理の終了後、拡張処理部3は、さらに別の表現を削除する可能性を判定するために、ステップS26の処理に戻る。
図4は、図3に記載したステップS23の処理、即ち、置換候補のスコアを計算する処理の詳細な手順を示すフローチャートである。本フローチャートの処理が実行される前提として、元の文対と、その文対における置換候補の表現とが与えられている。以下、このフローチャートに沿って、処理手順を説明する。
ステップS31において、ソース言語文脈スコア算出部51は、置換候補が含まれる文脈を抽出する。ソース言語文脈スコア算出部51は、例えば、ソース言語が日本語である場合、以下の(1)から(3)までに記すものを文脈として抽出し得る。
(1)置換候補の表現が主語の場合、主語+動詞が文脈であり得る。
(2)置換候補の表現が目的語の場合、目的語+助詞+動詞が文脈であり得る。
(3)置換候補の表現が「の格」による連体修飾節の場合、名詞+「の」(助詞)+名詞が文脈であり得る。
なお、ソース言語が日本語以外の言語である場合にも、その言語の構文構造に応じて、同様のものが、置換候補を含む文脈であり得る。つまり、置換候補の表現(例えば、名詞)が、当該表現と構文上において近い関係にある他の表現(語等)との組み合わせで成り立つものがここでの文脈である。
既出の日本語による文「政府は米国産の輸入割合を増やすことで、コメの高関税維持に米国の理解を求めたい考えだ。」が、現在の文対を構成するソース言語側の文である場合、且つ「コメ」が置換対象の表現である場合、且つ「コメ」を置換する置換候補が「チーズ」である場合、この置換候補「チーズ」を含む文脈は、「チーズ+の(助詞)+高関税維持」である。即ち、ソース言語文脈スコア算出部51は、「チーズ+の+高関税維持」を、置換候補が含まれる文脈として抽出する。
ステップS32において、ソース言語文脈スコア算出部51は、ステップS31で抽出した文脈のスコアを算出する。ソース言語文脈スコア算出部51は、「コメ+の+高関税維持」に対応する置換候補の文脈として、例えば、「チーズ+の+高関税維持」のスコアを算出する。置換候補の文脈は、他にも、例えば、「食品+の+高関税維持」や、「漬物+の+高関税維持」等であり得る。本ステップにおいて算出されるソース言語側の(置換候補が含まれる)文脈スコア(PS1)は、当該置換候補の文脈が、文(の構成要素)としてどの程度ふさわしいかを判断するための数値である。具体的には、ソース言語文脈スコア算出部51は、言語資源情報記憶部6内のソース言語文脈頻度記憶部63を参照して、文脈の出現頻度(例えば、0.0以上且つ1.0以下の範囲に正規化された数値)を、ソース言語側の文脈スコアとする。
ステップS33において、ソース言語共起スコア算出部52は、ソース言語側の(置換候補が含まれる)共起スコア(PS2)を算出する。ソース言語側の共起スコア(PS2)は、ステップS31で得られた文脈に含まれる主要表現(自立語、即ち、名詞および動詞)のペアを利用し、このペアが共起する(ペアが共に出現する)ことがどの程度ふさわしいかを判断するための数値である。つまり、例えば、「チーズ+の+高関税維持」という文脈に含まれる「チーズ」(名詞)と「高関税維持」(名詞)とが共起することがどの程度ふさわしいかを表す数値が、ソース言語側の共起スコア(PS2)である。具体的には、ソース言語共起スコア算出部52は、言語資源情報記憶部6内のソース言語共起頻度記憶部64を参照して、自立語ペアの出現頻度(例えば、0.0以上且つ1.0以下の範囲に正規化された数値)を、ソース言語側の共起スコアとする。
ステップS35において、拡張処理部3が、ソース言語側の置換対象および置換候補をターゲット言語に翻訳する。この際、拡張処理部3は、言語資源情報記憶部6内のソース言語辞書記憶部62を参照する。例えば、置換対象が「コメ」であり、置換候補が「チーズ」である場合、拡張処理部3は、「コメ」を「rice」に翻訳し、「チーズ」を「cheese」に翻訳する。
ステップS36において、ターゲット言語文脈スコア算出部56は、ターゲット言語側の文脈を抽出する。ここで抽出されるターゲット言語側の文脈は、ステップS31においてソース言語文脈スコア算出部51が抽出した、ソース言語側の置換候補が含まれる文脈に対応するターゲット言語側の文脈である。例えば、ソース言語(日本語)側の置換後の文脈が「チーズ+の+高関税維持」である場合、ターゲット言語文脈スコア算出部56は、まずターゲット言語(英語)側の置換前の文脈として「maintaining the high tariff rate on imported rice」を抽出する。そして、ターゲット言語文脈スコア算出部56は、ステップS35における処理結果を用いて、当該文脈内の「rice」を「cheese」で置換する。これにより、ターゲット言語文脈スコア算出部56は、ターゲット言語(英語)側の置換後の文脈として「maintaining the high tariff rate on imported cheese」を得る。
ステップS36において、ターゲット言語文脈スコア算出部56は、ステップS35において抽出された、ターゲット言語側の置換候補の文脈のスコアを算出する。例えば、ターゲット言語文脈スコア算出部56は、上記の置換候補の文脈である「maintaining the high tariff rate on imported cheese」のスコアを算出する。置換候補の文脈は、他にも、例えば、「maintaining the high tariff rate on imported foods」や、「maintaining the high tariff rate on imported pickles」等であり得る。本ステップにおいて算出されるターゲット言語側の置換候補が含まれる文脈スコア(PT1)は、当該置換候補の文脈が、文(の構成要素)としてどの程度ふさわしいかを判断するための数値である。具体的には、ターゲット言語文脈スコア算出部56は、言語資源情報記憶部6内のターゲット言語文脈頻度記憶部68を参照して、文脈の出現頻度(例えば、0.0以上且つ1.0以下の範囲に正規化された数値)を、ターゲット言語側の文脈スコアとする。
ステップS37において、ターゲット言語共起スコア算出部57は、ターゲット言語側の(置換候補が含まれる)共起スコア(PT2)を算出する。ターゲット言語側の共起スコア(PT2)は、ステップS31で得られた文脈に含まれる自立語の組を利用し、この組に含まれる語が共起することがどの程度ふさわしいかを判断するための数値である。つまり、例えば、「maintaining the high tariff rate on imported cheese」という文脈に含まれる「cheese」(名詞)と「tariff」(名詞)とが共起することがどの程度ふさわしいかを表す数値が、ターゲット言語側の共起スコア(PT2)である。具体的には、ターゲット言語共起スコア算出部57は、言語資源情報記憶部6内のターゲット言語共起頻度記憶部69を参照して、複数の語が共起して出現する出現頻度(例えば、0.0以上且つ1.0以下の範囲に正規化された数値)を、ターゲット言語側の共起スコアとする。
ステップS37の処理が終了すると、本フローチャート全体の処理を終了する。本フローチャートの処理を実行することにより、拡張処理部3は、1つの置換候補(ソース言語側およびターゲット言語側のペア)に関して、ソース言語側の文脈スコアPS1、ソース言語側の共起スコアPS2、ターゲット言語側の文脈スコアPT1、ターゲット言語側の共起スコアPT2の4種類のスコアの数値を得る。
上記の各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。
なお、上述した実施形態における学習データ拡張装置や、学習装置や、翻訳装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
[変形例]
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、組み合わせることが可能な限りにおいて、下の変形例の複数を組み合わせて実施してもよい。
[第1変形例]
上記の実施形態の説明の一部において、ソース言語が日本語であり、ターゲット言語が英語である例を用いた。この両者が逆で、例えば、ソース言語が英語であり、ターゲット言語が日本語であってもよい。また、ソース言語やターゲット言語は、日本語や英語に限らず、他の言語であってもよい。ソース言語やターゲット言語は、例えば、ドイツ語や、フランス語や、イタリア語や、スペイン語や、ロシア語や、中国語や、韓国語や、その他のいかなる言語であってもよい。
[第2変形例]
上記の実施形態では、ソース言語とターゲット言語のそれぞれにおける、置換候補の、文脈のスコアおよび共起のスコアを算出し、それらのスコアを用いて置換候補の文らしさ(あるいは文の構成要素らしさ)を評価した。本変形例として、ソース言語における文脈スコア、ソース言語における共起スコア、ターゲット言語における文脈スコア、ターゲット言語における共起スコアの4種類の全部を利用せず、その一部のスコアのみを利用して置換候補を評価するようにしてもよい。さらに、置換候補の文らしさ等を評価するために、言語資源を基にした統計情報等に基づいて、他のスコアを算出して利用するようにしてもよい。
[第3変形例]
上記の実施形態で説明した学習データ拡張装置を、翻訳以外の目的で利用してもよい。翻訳のための学習データとして用いること以外の用途であっても、上で説明した学習データ拡張装置を、単に文対の集合を豊富にする目的で使用することができる。
[第4変形例]
上記の実施形態では、図3ステップS27における処理で、与えられた文対に含まれる表現の一部を削除することによる学習データの拡張も行った。変形例として、この表現の一部を削除することによる学習データの拡張を行わないようにしてもよい。
[第5変形例]
与えられた文対に含まれる表現を置換することによって得られた文対を対象として、図3ステップS27に記載した処理、即ち文対に含まれる表現の一部を削除することによって、さらなる文対の生成(即ち、学習データの拡張)を行ってもよい。言い換えれば、本変形例における拡張処理部3は、元の入力文対に基づいて表現の置換によって生成した新たな文対である置換拡張文対について、前記置換拡張文対に含まれる、ソース言語側の文とターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、上記の削除を行うことによって、新たな文対を生成する。
[第6変形例]
各装置における機能分割のしかたは任意である。例えば、上で説明した実施形態では、ソース言語文脈スコア算出部51やターゲット言語文脈スコア算出部56のそれぞれが、各言語における置換候補の文脈を抽出していた。変形例の一つとして、例えば、拡張処理部3がソース言語およびターゲット言語における置換候補の文脈を抽出し、ソース言語文脈スコア算出部51やターゲット言語文脈スコア算出部56は各言語における文脈スコアを算出するのみとしてもよい。
[第7変形例]
上で説明した実施形態において、自然言語による文を扱うために、既存の字句解析ツールや既存の構文解析ツールや、その他の既存の自然言語処理ツールを用いるようにしてもよい。
[第8変形例]
上で説明した実施形態においては、シソーラス情報等に基づいて、ソース言語側の表現(単語等)を置換する置換候補をまず求めていた。そして、ソース言語側の置換候補に対応するターゲット言語側の置換候補を、辞書情報(ソース言語からターゲット言語への単語等の変換を可能とする辞書情報)に基づいて求めていた。そして、それら両言語の置換候補について、スコアを算出して評価を行い、文対の置換による拡張を行っていた。変形例として、この向きを逆にしてもよい。即ち、本変形例では、シソーラス情報等に基づいて、ターゲット言語側の表現(単語等)を置換する置換候補をまず求める。そして、ターゲット言語側の置換候補に対応するソース言語側の置換候補を、辞書情報(ターゲット言語からソース言語への単語等の変換を可能とする辞書情報)に基づいて求める。そして、それら両言語の置換候補について、スコアを算出して評価を行い、文対の置換による拡張を行うようにする。
[第9変形例]
上で説明した実施形態において、言語資源情報記憶部6の少なくとも一部が、学習データ拡張装置1の外部に存在するものであってもよい。例えば、言語資源情報記憶部6の一部が、インターネットを介してアクセス可能な辞書情報サイトであってもよい。また、一般的な文の統計情報を所定のウェブサイトから得てもよい。また、一般的な文の統計情報が、所謂検索エンジンサイトから取得可能なものであったり、検索エンジンサイトで得られる検索結果を数値的に分析したものであったりしてもよい。
上記実施形態およびその変形例の要点をまとめると、次の通りである。
学習データ拡張装置(1)は、少なくとも拡張処理部(3)を備える。拡張処理部(3)は、ソース言語によって記述された文と、ターゲット言語によって記述された文とにより構成された入力文対を基に、前記ソース言語または前記ターゲット言語の少なくともいずれかのシソーラス情報を用いて、前記文対に含まれる言語表現の置換候補を選択し、選択された前記置換候補により前記言語表現を置換し、前記ソース言語によって記述された文と前記ターゲット言語によって記述された文とにより構成された新たな文対を生成する。
学習データ拡張装置(1)は、スコア算出部(5)を備えてもよい。スコア算出部(5)は、前記置換候補が文に含まれることの適合の度合いを表すスコアを算出する。このとき、前記拡張処理部(3)は、前記置換候補に関して前記スコア算出部(5)が算出した前記スコアが所定の基準(例えば、スコアが所定の閾値以上であるという基準)を満たす場合にのみ、前記置換候補による置換を行うことによって、前記新たな文対を生成する。
前記スコアは、(1)前記入力文対に含まれる前記ソース言語によって記述された文、に含まれる文脈であって、第1表現と第2表現とが所定の関係を有して成るところの文脈である、ソース言語文脈が、前記ソース言語の文一般において出現する頻度に基づく数値であるソース言語文脈スコアと、(2)前記ソース言語文脈に含まれる前記第1表現と前記第2表現とが前記ソース言語の文一般において共起する頻度に基づく数値であるソース言語共起スコアと、(3)前記入力文対に含まれる前記ターゲット言語によって記述された文、に含まれる文脈であって、第3表現と第4表現とが所定の関係を有して成るところの文脈である、ターゲット言語文脈が、前記ターゲット言語の文一般において出現する頻度に基づく数値であるターゲット言語文脈スコアと、(4)前記ターゲット言語文脈に含まれる前記第3表現と前記第4表現とが前記ターゲット言語の文一般において共起する頻度に基づく数値であるターゲット言語共起スコアと、の少なくともいずれかに基づく数値であってよい。
前記スコア算出部(5)は、前記ソース言語文脈スコアと、前記ソース言語共起スコアと、前記ターゲット言語文脈スコアと、前記ターゲット言語共起スコアとを算出するものであり、前記拡張処理部(3)は、前記ソース言語文脈スコアと、前記ソース言語共起スコアと、前記ターゲット言語文脈スコアと、前記ターゲット言語共起スコアとの、重み付きの和または重み付きの積として算出される統合スコアが所定の閾値以上である場合にのみ、前記置換候補による置換を行うことによって、前記新たな文対を生成する。
前記拡張処理部(3)は、前記入力文対に含まれる、前記ソース言語側の文と前記ターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、前記削除を行うことによって、新たな文対を生成してもよい。さらに、前記拡張処理部(3)は、前記入力文対に基づいて表現の置換によって生成した新たな文対である置換拡張文対について、前記置換拡張文対に含まれる、前記ソース言語側の文と前記ターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、前記削除を行うことによって、新たな文対を生成してもよい。
学習装置(170)は、学習データ拡張装置(1)によって生成された前記新たな文対と、前記入力文対とで成る拡張学習データを用いて、前記ソース言語で記述された文と前記ターゲット言語で記述された文との関係についての機械学習処理を行い、この機械学習処理の結果であるモデルを出力する。また、翻訳装置(180)は、学習装置(170)が行った機械学習処理の結果として出力された前記モデルに基づいて、前記ソース言語で記述された文を、前記ターゲット言語で記述された文に機械翻訳する処理を行う。
なお、本実施形態において、表現とは、文おける表層の少なくともまとまった一部分である。具体的には、表現とは、単語や、複数の単語の組み合わせや、フレーズなどである。
以上説明したように、本実施形態(変形例を用いる場合も含む)では、学習データ拡張装置は、与えられた文対(ソース言語およびターゲット言語)を基に、置換可能な表現を抽出する。そして、学習データ拡張装置は、抽出された表現に関して、シソーラス辞書等を用いることにより、置換候補を決定する。そして、学習データ拡張装置は、係り受け情報(文脈情報)および共起情報に基づき、置換候補を用いる場合の文としてのふさわしさの数値(スコア)を算出する。学習データ拡張装置は、このスコアの値に基づいて、良好な形で拡張した学習データを生成する。
機械翻訳処理用の学習データを拡張することにより、学習データを大量に増やすことが可能となる。これにより、これまで機械翻訳で扱いきれなかった低頻度語を含む文の棚訳精度も上がる。この翻訳を、ニュース番組等のアナウンス文に適用することにより、例えば、日本語ニュースのアナウンス原稿文から、国際放送用の他国語(例えば、英語等)ニュースのアナウンス原稿へ、比較的低コストで、且つ迅速に、高品質に、翻訳することが可能となる。これにより、迅速な国際報道を実現できる。
その背景は以下の通りである。書き言葉として表されたニュース文の、ソース言語とターゲット言語の文対は、既に豊富に存在する。しかしながら、テレビ放送やラジオ放送で用いるための話し言葉として表されたニュース文のソース言語とターゲット言語の文対は、現状では比較的乏しい。放送用のニュース文を機械翻訳する際の精度を上げるためには、話し言葉のソース言語とターゲット言語の文対である学習データを豊富なものにすることが望まれる。学習に用いるための文対の数は、例えば数百万対以上、場合によってはさらに多いことが望ましい。
報道番組で用いられるアナウンス用の話し言葉としての日本語のニュース文を人手で英語に翻訳することにより、英語のニュース文を得られる。得られたニュース文の対(日本語および英語)を、入力学習データとして入力学習データ記憶部2に書き込んでおく。この方法で学習データを作成する方法には高いコストを要する。拡張処理部3は、上記の入力学習データを拡張し、拡張された学習データを拡張学習データ記憶部4に書き込む。学習データを拡張する処理は、比較的低コストで行うことができる。拡張された学習データの量(文対の数)は、元の入力学習データの量(同じく文対の数)の十倍ないしは数十倍程度になり得る。したがって、学習データの全部を人手での翻訳に頼る場合に比べて、本実施形態を用いることによって、拡張学習データを低コストで得ることができるようになる。
以上、この発明の実施形態(変形例を含む)について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、例えば、複数の言語において相互に対応する表現の集合を拡張するために利用することができる。その一例として、言語の機械翻訳のモデルを機械学習に用いるための学習データを拡張する処理に利用することができる。さらに、その一例として、テレビやラジオ等での報道のための機械翻訳のモデルを機械学習させるため用いることができる。ただし、本発明の利用範囲はここに例示したものには限られない。
1 学習データ拡張装置
2 入力学習データ記憶部
3 拡張処理部
4 拡張学習データ記憶部
5 スコア算出部
6 言語資源情報記憶部
9 翻訳システム(翻訳装置)
51 ソース言語文脈スコア算出部
52 ソース言語共起スコア算出部
56 ターゲット言語文脈スコア算出部
57 ターゲット言語共起スコア算出部
61 ソース言語シソーラス記憶部
62 ソース言語辞書記憶部
63 ソース言語文脈頻度記憶部
64 ソース言語共起頻度記憶部
66 ターゲット言語シソーラス記憶部
67 ターゲット言語辞書記憶部
68 ターゲット言語文脈頻度記憶部
69 ターゲット言語共起頻度記憶部
170 学習装置
180 翻訳装置
181 機械翻訳モデル記憶部
182 入力文データ記憶部
183 翻訳処理部
184 出力文データ記憶部

Claims (8)

  1. ソース言語の表現に関する辞書情報およびターゲット言語の表現に関する辞書情報を記憶することにより前記ソース言語による表現と前記ターゲット言語による表現との間の変換を可能とする言語辞書記憶部と、
    前記ソース言語によって記述された文と、前記ターゲット言語によって記述された文とにより構成された対訳である入力文対を基に、前記ソース言語側の文に含まれる言語表現と前記ターゲット言語側の文に含まれる言語表現との対応付けを行い、前記ソース言語または前記ターゲット言語の少なくともいずれかのシソーラス情報を用いて前記ソース言語または前記ターゲット言語の置換候補を抽出し、前記ソース言語側の文に含まれる言語表現と前記ターゲット言語側の文に含まれる言語表現との前記対応付けに基づいて前記ソース言語側または前記ターゲット言語側の前記置換候補の対訳側の置換候補を抽出し、前記文対に含まれる前記ソース言語側および前記ターゲット言語側の言語表現の置換候補を選択し、選択された前記置換候補により前記ソース言語側および前記ターゲット言語側の前記言語表現を置換し、前記ソース言語によって記述された文と前記ターゲット言語によって記述された文とにより構成された新たな対訳である文対を生成する拡張処理部と、
    前記置換候補が前記文に含まれることの適合の度合いを表すスコアを算出するスコア算出部と、
    を備え、
    前記拡張処理部は、前記文対に含まれる前記ソース言語側および前記ターゲット言語側の言語表現の置換候補を選択するために、前記ソース言語または前記ターゲット言語のシソーラス情報を用いて抽出した置換候補の対訳側の置換候補の情報を獲得する際には、前記言語辞書記憶部を参照し、
    前記拡張処理部は、前記置換候補に関して前記スコア算出部が算出した前記スコアが予め定めた基準を満たす場合にのみ前記置換候補による置換を行うことによって、前記新たな文対を生成する、
    学習データ拡張装置。
  2. 前記スコアは、
    (1)前記入力文対に含まれる前記ソース言語によって記述された文に含まれる文脈であって、第1表現と第2表現とが所定の関係を有して成るところの文脈である、ソース言語文脈が、前記ソース言語の文一般において出現する頻度に基づく数値であるソース言語文脈スコアと、
    (2)前記ソース言語文脈に含まれる前記第1表現と前記第2表現とが前記ソース言語の文一般において共起する頻度に基づく数値であるソース言語共起スコアと、
    (3)前記入力文対に含まれる前記ターゲット言語によって記述された文、に含まれる文脈であって、第3表現と第4表現とが所定の関係を有して成るところの文脈である、ターゲット言語文脈が、前記ターゲット言語の文一般において出現する頻度に基づく数値であるターゲット言語文脈スコアと、
    (4)前記ターゲット言語文脈に含まれる前記第3表現と前記第4表現とが前記ターゲット言語の文一般において共起する頻度に基づく数値であるターゲット言語共起スコアと、の少なくともいずれかに基づく数値であり、
    前記ソース言語が日本語である場合には、
    (1)前記置換候補の表現が主語の場合、当該主語+動詞が前記文脈であり得、且つ当該主語および当該動詞がそれぞれ前記第1表現および前記第2表現のいずれか一方であり、
    (2)前記置換候補の表現が目的語の場合、当該目的語+助詞+動詞が文脈であり得、且つ当該目的語および当該動詞がそれぞれ前記第1表現および前記第2表現のいずれか一方であり、
    (3)置換候補の表現が「の格」による連体修飾節の場合、第1名詞+当該「の」(助詞)+第2名詞が文脈であり得、且つ当該第1名詞および当該第2名詞がそれぞれ前記第1表現および前記第2表現のいずれか一方であり、
    前記ソース言語が日本語以外の言語(非日本語言語)である場合には、当該非日本語言語の構文構造に応じた、前記置換候補と当該置換候補に関連付けられる他の表現との組合せが前記文脈であり得、且つ当該置換候補および当該他の表現がそれぞれ前記第1表現および前記第2表現のいずれか一方であり、
    前記ターゲット言語が日本語である場合には、
    (1)前記置換候補の表現が主語の場合、当該主語+動詞が前記文脈であり得、且つ当該主語および当該動詞がそれぞれ前記第3表現および前記第4表現のいずれか一方であり、
    (2)前記置換候補の表現が目的語の場合、当該目的語+助詞+動詞が文脈であり得、且つ当該目的語および当該動詞がそれぞれ前記第3表現および前記第4表現のいずれか一方であり、
    (3)置換候補の表現が「の格」による連体修飾節の場合、第1名詞+当該「の」(助詞)+第2名詞が文脈であり得、且つ当該第1名詞および当該第2名詞がそれぞれ前記第3表現および前記第4表現のいずれか一方であり、
    前記ターゲット言語が日本語以外の言語(非日本語言語)である場合には、当該非日本語言語の構文構造に応じた、前記置換候補と当該置換候補に関連付けられる他の表現との組合せが前記文脈であり得、且つ当該置換候補および当該他の表現がそれぞれ前記第3表現および前記第4表現のいずれか一方である、
    請求項1に記載の学習データ拡張装置。
  3. 前記スコア算出部は、前記ソース言語文脈スコアと、前記ソース言語共起スコアと、前記ターゲット言語文脈スコアと、前記ターゲット言語共起スコアとを算出するものであり、
    前記拡張処理部は、
    前記ソース言語文脈スコアと、前記ソース言語共起スコアと、前記ターゲット言語文脈スコアと、前記ターゲット言語共起スコアとの、重み付きの和または重み付きの積として算出される統合スコアが所定の閾値以上である場合にのみ、前記置換候補による置換を行うことによって、前記新たな文対を生成する、
    請求項2に記載の学習データ拡張装置。
  4. 前記拡張処理部は、前記入力文対に含まれる、前記ソース言語側の文と前記ターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、前記削除を行うことによって、新たな文対を生成するものであり、
    前記拡張処理部は、前記ソース言語側の文から削除可能な表現を削除するとともに、前記ソース言語側に文から削除した表現に対応する表現を前記ターゲット言語側の文からも削除するものであり、
    前記削除可能な表現は、形容詞と、副詞と、従属節となる連体修飾節と、従属節となる連用修飾節とである、
    請求項1から3までのいずれか一項に記載の学習データ拡張装置。
  5. 前記拡張処理部は、前記入力文対に基づいて表現の置換によって生成した新たな文対である置換拡張文対について、前記置換拡張文対に含まれる、前記ソース言語側の文と前記ターゲット言語側の文とから、それぞれ表現を削除しても、前記ソース言語側の表現削除後の文と前記ターゲット言語側の表現削除後の文とがそれぞれ文として成立するように、前記削除を行うことによって、新たな文対を生成するものであり、
    前記拡張処理部は、前記ソース言語側の文から削除可能な表現を削除するとともに、前記ソース言語側に文から削除した表現に対応する表現を前記ターゲット言語側の文からも削除する、
    前記削除可能な表現は、形容詞と、副詞と、従属節となる連体修飾節と、従属節となる連用修飾節とである、
    請求項1から4までのいずれか一項に記載の学習データ拡張装置。
  6. ソース言語の表現に関する辞書情報およびターゲット言語の表現に関する辞書情報を記憶することにより前記ソース言語による表現と前記ターゲット言語による表現との間の変換を可能とする言語辞書記憶部、
    を備えるコンピューターに、
    前記ソース言語によって記述された文と、前記ターゲット言語によって記述された文とにより構成された対訳である入力文対を基に、前記ソース言語側の文に含まれる言語表現と前記ターゲット言語側の文に含まれる言語表現との対応付けを行い、前記ソース言語または前記ターゲット言語の少なくともいずれかのシソーラス情報を用いて前記ソース言語または前記ターゲット言語の置換候補を抽出し、前記ソース言語側の文に含まれる言語表現と前記ターゲット言語側の文に含まれる言語表現との前記対応付けに基づいて前記ソース言語側または前記ターゲット言語側の前記置換候補の対訳側の置換候補を抽出し、前記文対に含まれる前記ソース言語側および前記ターゲット言語側の言語表現の置換候補を選択し選択された前記置換候補により前記ソース言語側および前記ターゲット言語側の前記言語表現を置換し、前記ソース言語によって記述された文と前記ターゲット言語によって記述された文とにより構成された新たな対訳である文対を生成する、拡張処理過程と、
    前記置換候補が前記文に含まれることの適合の度合いを表すスコアを算出する、スコア算出過程と、
    を実行させるプログラムであって、
    前記拡張処理過程では、前記文対に含まれる前記ソース言語側および前記ターゲット言語側の言語表現の置換候補を選択するために、前記ソース言語または前記ターゲット言語のシソーラス情報を用いて抽出した置換候補の対訳側の置換候補の情報を獲得する際には、前記言語辞書記憶部を参照し、
    前記拡張処理過程では、前記置換候補に関して前記スコア算出過程で算出した前記スコアが予め定めた基準を満たす場合にのみ前記置換候補による置換を行うことによって、前記新たな文対を生成する、
    プログラム。
  7. 請求項1から5までのいずれか一項に記載の学習データ拡張装置によって生成された前記新たな文対と、前記入力文対とで成る拡張学習データを用いて、前記ソース言語で記述された文と前記ターゲット言語で記述された文との関係についての機械学習処理を行い、この機械学習処理の結果であるモデルを出力する、学習装置。
  8. 請求項7に記載の学習装置が行った機械学習処理の結果として出力された前記モデルに基づいて、前記ソース言語で記述された文を、前記ターゲット言語で記述された文に機械翻訳する処理を行う、翻訳装置。
JP2019017388A 2019-02-01 2019-02-01 学習データ拡張装置、学習装置、翻訳装置、およびプログラム Active JP7329929B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019017388A JP7329929B2 (ja) 2019-02-01 2019-02-01 学習データ拡張装置、学習装置、翻訳装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019017388A JP7329929B2 (ja) 2019-02-01 2019-02-01 学習データ拡張装置、学習装置、翻訳装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020126360A JP2020126360A (ja) 2020-08-20
JP7329929B2 true JP7329929B2 (ja) 2023-08-21

Family

ID=72083999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019017388A Active JP7329929B2 (ja) 2019-02-01 2019-02-01 学習データ拡張装置、学習装置、翻訳装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP7329929B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7377540B2 (ja) 2020-07-27 2023-11-10 コタエル・ホールディングス株式会社 情報処理装置、情報処理装置の制御方法及びプログラム
CN112507735A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置和电子设备
CN112735428A (zh) * 2020-12-27 2021-04-30 科大讯飞(上海)科技有限公司 一种热词获取方法、语音识别方法及相关设备
JP7333377B2 (ja) 2021-12-14 2023-08-24 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018055670A (ja) 2016-09-27 2018-04-05 パナソニックIpマネジメント株式会社 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018055670A (ja) 2016-09-27 2018-04-05 パナソニックIpマネジメント株式会社 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム

Also Published As

Publication number Publication date
JP2020126360A (ja) 2020-08-20

Similar Documents

Publication Publication Date Title
JP7329929B2 (ja) 学習データ拡張装置、学習装置、翻訳装置、およびプログラム
Kolomiyets et al. A survey on question answering technology from an information retrieval perspective
El Mahdaouy et al. Improving Arabic information retrieval using word embedding similarities
Tahsin Mayeesha et al. Deep learning based question answering system in Bengali
Mutuvi et al. Evaluating the impact of OCR errors on topic modeling
Tubishat et al. Explicit and implicit aspect extraction using whale optimization algorithm and hybrid approach
Billah et al. Unsupervised method of clustering and labeling of the online product based on reviews
Agarwal et al. Towards effective paraphrasing for information disguise
Gao et al. A unified approach to statistical language modeling for Chinese
Cuong et al. A survey of domain adaptation for statistical machine translation
Li et al. Computational linguistics literature and citations oriented citation linkage, classification and summarization
Babu GL et al. Extractive Summarization of Telugu Text Using Modified Text Rank and Maximum Marginal Relevance
Rahat et al. Open information extraction as an intermediate semantic structure for Persian text summarization
Molino et al. Distributed representations for semantic matching in non-factoid question answering.
Chen et al. Design of automatic extraction algorithm of knowledge points for MOOCs
Zhen et al. A short text topic model based on semantics and word expansion
Fetic et al. Topic model robustness to automatic speech recognition errors in podcast transcripts
Alias et al. MYTextSum: A Malay text summarizer model using a constrained pattern-growth sentence compression technique
Chanlekha et al. The development of semi-automatic sentiment lexicon construction tool for Thai sentiment analysis
Chen et al. SR3: Sentence Ranking, Reasoning, and Replication for Scenario-Based Essay Question Answering
Anttila Automatic Text Summarization
Bazghandi et al. Extractive summarization Of Farsi documents based on PSO clustering
Guda et al. Performance Evaluation of Keyword Extraction Techniques and Stop Word Lists on Speech-To-Text Corpus.
Sholikah et al. Exploiting Comparable Corpora to Enhance Bilingual Lexicon Induction from Monolingual Corpora.
Rawat et al. English to Hindi Cross-Lingual Text Summarizer using TextRank Algorithm.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230808

R150 Certificate of patent or registration of utility model

Ref document number: 7329929

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150