JP6262122B2 - 翻訳学習装置、固有表現学習装置、方法、及びプログラム - Google Patents

翻訳学習装置、固有表現学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP6262122B2
JP6262122B2 JP2014233928A JP2014233928A JP6262122B2 JP 6262122 B2 JP6262122 B2 JP 6262122B2 JP 2014233928 A JP2014233928 A JP 2014233928A JP 2014233928 A JP2014233928 A JP 2014233928A JP 6262122 B2 JP6262122 B2 JP 6262122B2
Authority
JP
Japan
Prior art keywords
specific expression
language sentence
translation
target language
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014233928A
Other languages
English (en)
Other versions
JP2016099675A (ja
Inventor
九月 貞光
九月 貞光
松尾 義博
義博 松尾
久子 浅野
久子 浅野
いつみ 斉藤
いつみ 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014233928A priority Critical patent/JP6262122B2/ja
Publication of JP2016099675A publication Critical patent/JP2016099675A/ja
Application granted granted Critical
Publication of JP6262122B2 publication Critical patent/JP6262122B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、翻訳学習装置、翻訳装置、固有表現学習装置、方法、及びプログラムに係り、特に、固有表現を含む文を翻訳するための翻訳学習装置、翻訳装置、固有表現学習装置、方法、及びプログラムに関する。
従来より、文中の固有表現(NE:Named Entity)を抽出する手法として、固有表現抽出(NER:Named Entity Recognition)が知られている。固有表現とは、固有物や数量等に対して与えられる名称であり、「東京」「葛飾北斎」等が固有表現の例として挙げられる。また、固有表現の境界と共に、その固有表現のラベルも付与される。ラベル数には様々な定義があり、例えば、関根らの定義した「拡張固有表現(Extended NE)」を用いることができる。拡張固有表現は200のラベルが定義され、それぞれ階層構造を持つ(非特許文献1参照)。固有表現抽出(NER:Named Entity Recognition)においては、一般的に条件付き確率場(CRF)等が用いられる。
また、従来のルールベースの手法ではなく、大量の翻訳対データを元に翻訳モデルを統計的に学習、デコードする統計的機械翻訳(SMT:Statistical Machine Translation)の技術が知られている(非特許文献2参照)。
関根の拡張固有表現階層-7.1.0-,インターネット<URL:https://sites.google.com/site/extendednamedentityhierarchy/> 統計的機械翻訳ツールmoses,インターネット<URL:http://www.statmt.org/moses/>
もっとも、固有表現は、その種類数の多さに起因して、他の一般名詞や動詞、助詞等と比較して同じ固有表現が現れにくい特徴を持つ。また、統計的機械翻訳では学習データが重要であるが、上記固有表現の特徴は、データの疎性を生じるため、固有表現や、その周辺単語での翻訳精度が落ちてしまうという問題がある。そこで、翻訳を実行する前段階において、固有表現を固有表現ラベルへと抽象化することで、データの疎性を解消することが可能である。実際、非特許文献2の手法でも、翻訳データ対に基づき、単語の抽象化を行っている。
しかし、固有表現抽出単独としては、教師ありデータに基づく等、高精度な手法を適用することもできるが、翻訳モデルを用いた学習、及びデコードとの融合が必要となってくるため、そこには以下の3つの課題が存在する。
第1の課題は、固有表現抽出で抽象化すべき固有表現ラベルの粒度として、いずれの程度が適切であるかは自明でなく、また、翻訳モデルの学習コストが非常に高いことから、どのラベルを使うべきか、すべての組み合わせを総当りで試すことは現実的ではないというものである。
第2の課題は、片方の言語についてのみ固有表現抽出が存在しているような状況下においては、もう一方の言語の固有表現ラベルが不明であり、翻訳モデルを学習することが困難というものである。
第3の課題は、固有表現化及び固有表現に基づく翻訳ができたとして、その固有表現化された箇所を目的言語に変換する方法が自明ではないというものである。
本発明は、上記問題点を解決するために成されたものであり、精度よく、固有表現を含む文を翻訳するための翻訳学習装置、翻訳装置、方法、及びプログラムを提供することを目的とする。
また、精度よく、固有表現を抽出するための固有表現学習装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る翻訳学習装置は、入力された、翻訳対となる元言語文及び目的言語文のペアの集合に基づいて、前記元言語文及び前記目的言語文のペアの各々について、前記ペアの前記元言語文及び前記目的言語文の何れか一方である注目言語の言語文から、予め定められた条件を満たす固有表現部分を抽出すると共に、前記ペアの前記元言語文及び前記目的言語文の他方である対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出し、前記元言語文及び前記目的言語文のペアの各々について抽出された前記固有表現部分の対応関係に基づいて、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書、並びに元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを生成する固有表現学習部と、前記元言語文及び前記目的言語文のペアの各々についての、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントに基づいて、前記元言語文の固有表現ラベル又は単語と前記目的言語文の固有表現ラベル又は単語の各ペアについて、前記元言語文の固有表現ラベル又は単語が、前記目的言語文の固有表現ラベル又は単語に翻訳される単語翻訳確率モデルを算出する単語翻訳確率学習部と、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文のペアの集合と、前記元言語文及び前記目的言語文のペアの各々についての、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントとに基づいて、前記元言語文を前記目的言語文に翻訳するための翻訳モデルを学習する翻訳モデル学習部と、を含んで構成されている。
また、第1の発明に係る翻訳学習装置において、前記固有表現学習部は、予め用意された固有表現ラベルに対応する固有表現の抽出精度、学習用の注目言語の言語文に対して固有表現ラベルに対応する固有表現の抽出を行った結果から予め求められた固有表現ラベルの出現頻度、学習用の前記元言語文及び前記目的言語文の何れか一方から他方へ翻訳する翻訳処理を行った結果から予め求められた固有表現ラベルに対応する固有表現の翻訳精度、及び学習用の前記元言語文及び前記目的言語文について求めた前記元言語文及び前記目的言語文の間の単語の対応付けである単語アラインメントに基づいて予め求められた固有表現ラベルに対応する固有表現のアラインメントの歪み距離の少なくとも1つ、又は組み合わせが一定基準より劣っている固有表現ラベルを除いた固有表現ラベルに対応する固有表現を、前記予め定められた条件を満たす固有表現部分として、前記注目言語の言語文から抽出してもよい。
また、第1の発明に係る翻訳学習装置において、前記固有表現学習部は、注目言語の固有表現の翻字に基づく表層類似度、注目言語及び対言語の各々で提供され、かつ、翻訳関係にある注目言語の見出し語及び対言語の見出し語の間でリンクを有する辞書における、注目言語の固有表現に対応する見出し語が有するリンク、又は予め求めた前記元言語文及び前記目的言語文の間の単語の対応付けである単語アラインメントに基づいて、前記対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出してもよい。
また、第2の発明に係る翻訳装置は、入力された翻訳対象の元言語文に含まれる固有表現部分を固有表現ラベルに置き換える固有表現置換部と、上記第1の発明に係る翻訳学習装置により生成された前記単語翻訳確率モデル及び前記翻訳モデルに基づいて、前記固有表現置換部で固有表現が前記固有表現ラベルに置き換えられた元言語文を目的言語文に翻訳するデコーディング部と、前記生成された前記固有表現翻訳辞書及び前記固有表現翻字モデルに基づいて、前記でコーディング部によって翻訳された目的言語文に含まれる前記固有表現ラベルを、目的言語の固有表現部分の文字列に変換する固有表現デコード部と、を含んで構成されている。
また、第3の発明に係る固有表現学習装置は、入力された、翻訳対となる元言語文及び目的言語文のペアの集合に基づいて、前記元言語文及び前記目的言語文のペアの各々について、予め用意された固有表現ラベルに対応する固有表現の抽出精度、学習用の注目言語の言語文に対して固有表現ラベルに対応する固有表現の抽出を行った結果から予め求められた固有表現ラベルの出現頻度、学習用の前記元言語文及び前記目的言語文の何れか一方から他方へ翻訳する翻訳処理を行った結果から予め求められた固有表現ラベルに対応する固有表現の翻訳精度、及び学習用の前記元言語文及び前記目的言語文について求めた前記元言語文及び前記目的言語文の間の単語の対応付けである単語アラインメントに基づいて予め求められた固有表現ラベルに対応する固有表現のアラインメントの歪み距離の少なくとも1つ、又は組み合わせが一定基準より劣っている固有表現ラベルを除いた固有表現ラベルに対応する固有表現を、前記予め定められた条件を満たす固有表現部分として、前記注目言語の言語文から抽出すると共に、前記ペアの前記元言語文及び前記目的言語文の他方である対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出し、前記元言語文及び前記目的言語文のペアの各々について抽出された前記固有表現部分の対応関係に基づいて、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書、並びに元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを生成する固有表現学習部と、を含んで構成されている。
第1の発明に係る翻訳学習方法は、固有表現学習部、単語翻訳確率学習部、及び翻訳モデル学習部を含む学習装置における翻訳学習方法であって、前記固有表現学習部が、入力された、翻訳対となる元言語文及び目的言語文のペアの集合に基づいて、前記元言語文及び前記目的言語文のペアの各々について、前記ペアの前記元言語文及び前記目的言語文の何れか一方である注目言語の言語文から、予め定められた条件を満たす固有表現部分を抽出すると共に、前記ペアの前記元言語文及び前記目的言語文の他方である対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出し、前記元言語文及び前記目的言語文のペアの各々について抽出された前記固有表現部分の対応関係に基づいて、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書、並びに元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを生成するステップと、前記単語翻訳確率学習部が、前記元言語文及び前記目的言語文のペアの各々についての、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントに基づいて、前記元言語文の固有表現ラベル又は単語と前記目的言語文の固有表現ラベル又は単語の各ペアについて、前記元言語文の固有表現ラベル又は単語が、前記目的言語文の固有表現ラベル又は単語に翻訳される単語翻訳確率モデルを算出するステップと、前記翻訳モデル学習部が、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文のペアの集合と、前記元言語文及び前記目的言語文のペアの各々についての、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントとに基づいて、前記元言語文を前記目的言語文に翻訳するための翻訳モデルを学習するステップと、を含んで実行することを特徴とする。
第2の発明に係る翻訳方法は、固有表現置換部、デコーディング部、及び固有表現デコード部を含む翻訳装置における翻訳方法であって、前記固有表現置換部が、入力された翻訳対象の元言語文に含まれる固有表現部分を固有表現ラベルに置き換えるステップと、前記デコーディング部が、第1の発明に係る翻訳学習方法により生成された前記単語翻訳確率モデル及び前記翻訳モデルに基づいて、前記固有表現置換部で固有表現が前記固有表現ラベルに置き換えられた元言語文を目的言語文に翻訳するステップと、前記固有表現デコード部が、前記生成された前記固有表現翻訳辞書及び前記固有表現翻字モデルに基づいて、前記でコーディング部によって翻訳された目的言語文に含まれる前記固有表現ラベルを、目的言語の固有表現部分の文字列に変換するステップと、を含んで実行することを特徴とする。
第4の発明に係るプログラムは、コンピュータを、請求項1若しくは請求項2に記載の学習装置、請求項3に記載の翻訳装置、又は請求項4に記載の固有表現学習装置の各部として機能させるためのプログラムである。
本発明の翻訳学習装置、翻訳装置、固有表現学習装置、方法、及びプログラムによれば、精度よく、固有表現を含む文を翻訳することができる、という効果が得られる。
第1の実施の形態に係る翻訳学習装置の機能的構成を示すブロック図である。 第1の実施の形態に係る翻訳装置の機能的構成を示すブロック図である。 第1の実施の形態に係る翻訳学習装置における学習処理ルーチンを示すフローチャートである。 第1の実施の形態に係る翻訳装置における翻訳処理ルーチンを示すフローチャートである。 第2の実施の形態に係る固有表現学習装置の機能的構成を示すブロック図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本実施の形態に係る手法は、「日本電信電話(R)の株価はいくら」という日本語から、自動的に
“How much is the stock price of NTT(R)?”
という英語へと翻訳する技術である。本実施の形態では、翻訳前の元言語が日本語、翻訳後の目的言語が英語の場合の翻訳を例として説明するが、特に言語の種類は問わない。
<本発明の第1の実施の形態に係る翻訳学習装置の構成>
次に、本発明の第1の実施の形態に係る翻訳学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る翻訳学習装置100は、CPUと、RAMと、後述する翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
入力部10は、翻訳対となる元言語文及び目的言語文のペアの集合を受け付ける。また、ラベル決定部30の事前処理で用いる開発用データ(development data)、及びテストデータ(test data)として、元言語文及び目的言語文と同種類の、学習用の元言語文及び目的言語文を受け付ける(図示省略)。なお、学習用の元言語文及び目的言語文のデータは、翻訳対となる元言語文及び目的言語文のペアの集合とは別に用意することが望ましい。
演算部20は、ラベル決定部30と、固有表現学習部32と、単語翻訳確率学習部34と、単語アラインメント記憶部36と、翻訳モデル学習部38と、必要固有表現ラベル記憶部40と、固有表現翻訳辞書42と、固有表現翻字モデル記憶部44と、単語翻訳確率モデル記憶部46と、翻訳モデル記憶部48とを含んで構成されている。
ラベル決定部30は、元言語目的言語の何れか一方である注目言語の固有表現ラベルから、一定基準より劣っている固有表現ラベルを除いた固有表現ラベルを決定する。なお、本実施の形態では、最初に高精度な固有表現抽出を行うことから、固有表現抽出を行う言語側を注目言語と呼び、統計量に従って自動的に対となる固有表現を得る言語側を対言語と呼び、元言語が注目言語であり、目的言語が対言語となる場合について説明する。
ラベル決定部30の具体的な処理について以下に説明する。
ラベル決定部30は、まず事前処理として、以下の第1〜4の統計量を取得する。第1及び第2の統計量は別途、従来の翻訳モデル学習・テスト(上記非特許文献1参照)の走行が必要ないものであり、第3及び第4の統計量は、学習用の元言語文及び目的言語文を用いて、従来の翻訳モデル学習・テストの走行が必要である。なお、以下の4種類全てではなく、部分的に算出し、使用するようにしてもよい。
ラベル決定部30は、第1の統計量として、注目言語について予め用意された固有表現ラベルに対応する固有表現の抽出精度表(図示省略)に記憶された、固有表現抽出の各ラベルの精度値を取得する。また、固有表現が階層構造を持つ場合には、各階層における精度値を持っているとする。
ラベル決定部30は、第2の統計量として、学習用の注目言語の言語文(元言語文)に対して固有表現ラベルに対応する固有表現の抽出を行った結果から、各固有表現ラベルの出現頻度を算出する。
ラベル決定部30は、第3の統計量として、入力部10で受け付けた学習用の元言語文及び目的言語文の何れか一方から他方へ翻訳する翻訳処理を行った結果から、固有表現ラベルに対応する固有表現の翻訳精度を算出する。例えば、固有表現が未知語として扱われた結果、翻訳に失敗している場合の統計量のことであり、英日翻訳において、“Nippon”がそのまま“Nippon”として日本語として出力されるような場合、Countryでの誤りが1回、とカウントする。単純に誤り数としてもよいし、出現数による正規化等、従来提案されている統計量を任意に選択してよい。なお、近似値として、当該固有表現ラベルを含む文を全て集めてきた場合の翻訳精度値を用いても良い。例えば、固有表現ラベルCountryを含む文のBLEU値:15.0、固有表現ラベルBookを含む文のBLEU値:10.5、というものである。BLEU値とは、翻訳精度を自動計測するための尺度の1つである。
ラベル決定部30は、学習用の元言語文及び目的言語文について求めた、元言語文及び目的言語文の間の単語の対応付けである単語アラインメントに基づいて、固有表現ラベルに対応する固有表現のアラインメントの平均的な歪み距離を、第4の統計量として算出する。注目言語側では連続している固有表現部分が、対言語側では分割して出現している場合、例えば、注目言語文が「NTT(R)株の価格が高騰」、対言語文が「Soaring the stock price of NTT(R)」であれば、固有表現によって抽象化することで悪影響が生じる可能性が高い。そのため、自動推定された単語アラインメント結果を用いて、任意の固有表現ラベルにおいて、注目言語側の固有表現部分が、アラインメントされる対の言語側でどの程度歪んで出現しているかを算出する。上記例の場合、「NTT(R)/株」という2単語が、“NTT(R)”、“the stock”にアラインメントされたとして、その間の単語数の2が歪距離となる。この時の統計値は両言語における単純な単語出現位置の距離(単語数)の差の和算でもよいし、従来提案されている統計量を任意に選択してよい。
次に、ラベル決定部30は、事前処理で取得した統計量についての以下第1〜第4の閾値に基づいて、注目言語の固有表現ラベルから、一定基準より劣っている固有表現ラベルを除いた固有表現ラベルを決定する。そして、決定した固有表現ラベルを、必要固有表現ラベル記憶部40に記憶する。
ラベル決定部30は、第1の閾値として、上記第1の統計量の固有表現抽出精度50%を用い、ある固有表現ラベルに対応する固有表現において、上記第1の統計量の固有表現抽出精度が50%に満たない固有表現ラベルは除外する。また、固有表現抽出の精度が、固有表現の下位階層で低く、上位階層で高い場合には、マージして固有表現を抽出すればよい。例えば、「恒星名」「惑星名」の固有表現抽出精度が低く、上位階層の「天体名」での固有表現抽出精度が高い場合、「恒星名」「惑星名」を上位階層の「天体名」としてマージして固有表現を抽出すればよい。
また、ラベル決定部30は、第2の閾値として、上記第2の統計量の固有表現ラベルの出現頻度の一定値を用い、上記第2の統計量の固有表現ラベルの出現頻度が一定値以下である固有表現ラベルを除外し、固有表現抽出を行わない。例えば、固有表現ラベル「星座名」出現頻度が低い場合、その固有表現ラベルは除外する。
また、ラベル決定部30は、第3の閾値として、固有表現ラベルに対応する固有表現の翻訳誤り数の一定数を用いて、翻訳誤り数が多い固有表現ラベルを除外する。例えば、テスト用データにおいて、固有表現ラベル「恒星名」に対応する固有表現が抽出された文字列の翻訳の誤り数が一定数以上である場合には、その固有表現ラベルは除外する。
また、ラベル決定部30は、第4の閾値として、上記第4の統計量の平均的な歪み距離2を用いて、ある固有表現ラベルにおいて、上記第4の統計量の平均的な歪み距離が2以上の場合、その固有表現ラベルは除外する。なお、上記第1〜第4の統計量について、条件の和や積をとって、各値に重みをつけた上で、全体スコアに基づいて閾値を定めるようにしてもよい。また、階層構造を持つ固有表現の場合、矛盾を生じないように決定する必要がある。例えば、親ノードと子ノードが同時に「必要」となることはあってはいけないため、必要ノードの優先順位を任意に設定する必要がある。例えば、子ノードを優先するが、上記第2の統計量の出現頻度が親ノードを採用する場合に比べ1/10以下になる場合には、親ノードを優先する等である。また、上記第1〜第4の統計量の少なくとも1つを用いて、一定基準より劣っている固有表現ラベルを除いた固有表現ラベルを決定するようにしてもよい。
固有表現学習部32は、入力部10で受け付けた翻訳対となる元言語文及び目的言語文のペアの各々について、当該ペアの注目言語の言語文から、必要固有表現ラベル記憶部40に記憶された固有表現ラベルに対応する固有表現部分を抽出すると共に、ペアの元言語文及び目的言語文の他方である対言語の言語文から、抽出された固有表現部分に対応する固有表現部分を抽出し、元言語文及び目的言語文のペアの各々について抽出された固有表現部分の対応関係に基づいて、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書42、並びに元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを生成する。
固有表現学習部32の具体的な処理について以下に説明する。
固有表現学習部32は、第1の処理として、注目言語の言語文から、必要固有表現ラベル記憶部40に記憶された固有表現ラベルに対応する固有表現を抽出し、抽出された固有表現部分を、必要固有表現ラベル記憶部40に記憶された固有表現ラベルで置換した注目言語の言語文を生成する。この際の固有表現抽出手法は任意の従来手法でよい。例えば、固有表現の置換前の注目言語文が「日本電信電話(R)の株価はいくら」であれば、固有表現の置換後は「[Company]の株価はいくら」という注目言語の言語文を生成する。
固有表現学習部32は、第2の処理として、対言語の言語文から、第1の処理で抽出された固有表現部分に対応する固有表現部分を抽出し、抽出された固有表現部分を、必要固有表現ラベル記憶部40に記憶された固有表現ラベルで置換した目的言語文を生成する。例えば、固有表現の置換前の対言語が“How much is the stock price of NTT(R) ?”であれば、固有表現の置換後の対言語は“How much is the stock price of [Company]?”という対言語の言語文を生成する。
固有表現学習部32の第2の処理では、以下の第1の手法〜第3の手法を用いる。
固有表現学習部32の第2の処理における第1の手法としては、注目言語の固有表現の翻字に基づく表層類似度を用いる。主に音的な類似性に基づいた翻字による表層類似度を用いて、第1の処理で抽出された固有表現部分に対応する固有表現部分を同定し、抽出する。翻字の手法は従来多数提案されており、任意の手法を用いてよい(非特許文献3:“Machine transliteration”Kevin Knight,Jonathan Graehl,Journal of Computational Linguistics,Volume 24 Issue 4, December 1998,Pages 599-612)。例えば、「エヌティティ(R)」⇔“NTT(R)”や「安倍」⇔“Abe”という翻字である。
固有表現学習部32の第2の処理における第2の手法としては、注目言語及び対言語の各々で提供され、かつ、翻訳関係にある注目言語の見出し語及び対言語の見出し語の間でリンクを有する辞書における、注目言語の固有表現に対応する見出し語が有するリンクを用いる。本実施の形態では、wikipedia(登録商標)等の2言語間のリンクが存在する辞書の見出し語の他言語へのリンクが存在する場合にはそのリンク先を翻訳関係にあるとみなす。第1の処理で抽出された注目言語の固有表現部分が見出し語となっているエントリにおいて、対言語の辞書の見出し語のリンクが存在する場合、そのリンク先において対応する文字列を、対言語の辞書内から探索し、該当する文字列を、第1の処理で抽出された固有表現部分に対応する固有表現部分とする。例えば、「日本電信電話(R)(日本語)」→“NTT(R)(English)”への辞書の見出し語のリンクが存在する場合である。
固有表現学習部32の第2の処理における第3の手法としては、予め求めた元言語文及び目的言語文の間の単語の対応付けである単語アラインメントを用いる。ラベル決定部30と同様、学習用の元言語文及び目的言語文に基づいて計算される単語アラインメントを用いて、第1の処理で抽出された固有表現部分に対応する、対言語内の固有表現部分を同定し、抽出する。なお、ラベル決定部30と同様、対言語においてアラインメントされた単語が離れて存在する場合、その固有表現部分は用いない、といった閾値を用いてもよい。例えば、「日本電信電話(R)」→“NTT(R)”へのアラインメントが存在する場合である。なお、上記第1〜第3の手法のいずれの場合も、完全一致以外にも、多少の表記揺れを許容するように編集距離による閾値等を用いてもよい。例えば、編集距離1以下であれば同一の固有表現部分とみなす等である。
固有表現学習部32は、第3の処理として、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書42を生成し、元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを学習する。固有表現翻訳辞書42は、第1の処理で抽出された固有表現部分及び第2の処理で抽出された対となる固有表現部分と、固有表現ラベルとの組み合わせの各々が記憶されたものである。上記第2の処理で得られた固有表現の対訳対や、wikipedia(登録商標)等からの対訳リンクを固有表現翻訳辞書42として記憶する。固有表現翻字モデルは、固有表現翻訳辞書42を用いて、新たに翻字モデルを学習したものを固有表現翻字モデルとして固有表現翻字モデル記憶部44に記憶する。翻字モデルの学習には従来提案されている任意の手法を用いればよい(上記非特許文献3参照)。なお、固有表現翻訳辞書42が、離れた2フレーズを扱えるようにしてもよい。例えば、翻訳対「NTT(R)株⇔the stock * NTT(R)」を格納すればよい。ただし、*はワイルドカードを表す。
単語翻訳確率学習部34は、元言語文及び目的言語文のペアの各々について、固有表現学習部32で抽出された固有表現部分を固有表現ラベルで置換した元言語文及び目的言語文を生成し、固有表現ラベルで置換した元言語文及び目的言語文のペアの各々について、元言語文及び目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントを求め、求められた単語アライメントに基づいて、元言語文の固有表現ラベル又は単語と目的言語文の固有表現ラベル又は単語の各ペアについて、元言語文の固有表現ラベル又は単語が、目的言語文の固有表現ラベル又は単語に翻訳される単語翻訳確率モデルを算出する。単語アラインメントは、置換した元言語文及び目的言語文の間の単語は、置換されていない単語と、固有表現ラベルで置換された単語を区別なくアラインメントした単語翻訳確率モデルを推定し、単語翻訳確率モデル記憶部46に記憶する。ここで用いる手法は既存の技術を用いればよい。
翻訳モデル学習部38は、固有表現学習部32で抽出された固有表現部分を固有表現ラベルで置換した元言語文及び目的言語文のペアの集合と、元言語文及び目的言語文のペアの各々についての、固有表現学習部32で抽出された固有表現部分を固有表現ラベルで置換した元言語文及び目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントとに基づいて、元言語文を目的言語文に翻訳するための翻訳モデルを学習し、翻訳モデル記憶部48に記憶する。この時の学習方式は既存手法でよく、例えばフリーツールとして公開されているmoses(上記非特許文献1参照)を用いることができる。
<本発明の第1の実施の形態に係る翻訳装置の構成>
次に、本発明の第1の実施の形態に係る翻訳装置の構成について説明する。図2に示すように、本発明の実施の形態に係る翻訳装置200は、CPUと、RAMと、後述する翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳装置200は、機能的には図2に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、翻訳対象の元言語文を受け付ける。
演算部220は、固有表現置換部230と、デコーディング部232と、固有表現デコード部234と、必要固有表現ラベル記憶部240と、固有表現翻訳辞書242と、固有表現翻字モデル記憶部244と、単語翻訳確率モデル記憶部246と、翻訳モデル記憶部248とを含んで構成されている。
必要固有表現ラベル記憶部240には、必要固有表現ラベル記憶部40と同じ固有表現ラベルが記憶されている。
固有表現翻訳辞書242には、固有表現翻訳辞書42と同じものが格納されている。
固有表現翻字モデル記憶部244には、固有表現翻字モデル記憶部44と同じ固有表現翻字モデルが記憶されている。
単語翻訳確率モデル記憶部246には、単語翻訳確率モデル記憶部46と同じ単語翻訳確率モデルが記憶されている。
翻訳モデル記憶部248には、翻訳モデル記憶部48と同じ翻訳モデルが記憶されている。
固有表現置換部230は、必要固有表現ラベル記憶部240に記憶された固有表現ラベル又は固有表現翻訳辞書242に基づいて、入力部210で受け付けた翻訳対象の元言語文に含まれる固有表現部分を固有表現ラベルに置き換える。
固有表現置換部230において、元言語が、翻訳学習装置100の学習における注目言語(日本語)の場合、必要固有表現ラベル記憶部240に記憶された固有表現ラベルを用いて、固有表現抽出を行い、抽出された固有表現部分が固有表現ラベルに置き換えられた元言語文を出力する。例えば、固有表現の置換前の元言語文が「日本電信電話(R)の株価はいくら」であれば、固有表現の置換後の元言語文は「[Company]の株価はいくら」となる。なお、元言語が、翻訳学習装置100の学習における対言語(英語)の場合、固有表現翻訳辞書242を用いて固有表現部分と固有表現ラベルを抽出し、固有表現が固有表現ラベルに置き換えられた元言語文を出力する。なお、元言語が翻訳学習装置100の学習における注目言語であっても、固有表現翻訳辞書242を用いて固有表現部分の固有表現ラベルへの置き換えを行ってもよい。
デコーディング部232は、単語翻訳確率モデル246及び翻訳モデル記憶部248に記憶された翻訳モデルに基づいて、固有表現置換部230で固有表現が固有表現ラベルに置き換えられた元言語文を目的言語文に翻訳する。この時の方式は既存手法でよく、例えばフリーツールとして公開されているmoses(上記非特許文献1参照)を用いることができる。
固有表現デコード部234は、固有表現翻訳辞書242及び固有表現翻字モデル記憶部244に記憶された固有表現翻字モデルに基づいて、デコーディング部232によって翻訳された目的言語文に含まれる固有表現ラベルを、目的言語の固有表現部分の文字列に変換する。ここで、固有表現デコード部234は、元言語の固有表現部分が固有表現翻訳辞書242に存在する場合は、当該固有表現部分と対訳関係にある目的言語文の固有表現に該当する文字列に置換する。一方、元言語の固有表現部分が固有表現翻訳辞書242に存在しない場合は、元言語固有表現部分と固有表現翻字モデル記憶部242に記憶された固有表現翻字モデルを元に翻訳を行う。固有表現翻字モデル記憶部242に記憶された固有表現翻字モデルは翻字モデルの一種であるため、従来の翻字モデルに基づく手法を使った最適化により、最適な固有表現の生成を行うことができる(上記非特許文献3参照)。
<本発明の第1の実施の形態に係る翻訳学習装置の作用>
次に、本発明の第1の実施の形態に係る翻訳学習装置100の作用について説明する。入力部10において翻訳対となる元言語文及び目的言語文のペアの集合を受け付けると、翻訳学習装置100は、図3に示す翻訳学習処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた翻訳対となる元言語文及び目的言語文のペアの集合を取得する。
次に、ステップS102では、事前処理で取得した第1の統計量〜第4の統計量と、第1の統計量〜第4の統計量について予め定められた第1〜第4の閾値とに基づいて、注目言語としての元言語の固有表現ラベルから、一定基準より劣っている固有表現ラベルを除いた固有表現ラベルを決定し、必要固有表現ラベル記憶部40に記憶する。
ステップS104では、ステップS100で取得した、元言語文及び目的言語文のペアの集合に含まれる、注目言語である元言語文の各々から、必要固有表現ラベル記憶部40に記憶された固有表現ラベルに対応する固有表現を抽出し、抽出された固有表現部分を、必要固有表現ラベル記憶部40に記憶された固有表現ラベルで置換した注目言語の言語文を生成する。
ステップS106では、ステップS100で取得した、元言語文及び目的言語文のペアの集合に含まれる、対言語である目的言語文の各々から、ステップS104で抽出された固有表現部分に対応する固有表現部分を抽出し、抽出された固有表現部分を、必要固有表現ラベル記憶部40に記憶された固有表現ラベルで置換した目的言語文を生成する。
ステップS108では、元言語文及び目的言語文のペアの各々についてステップS104及びステップS106で抽出された固有表現部分の対応関係に基づいて、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書42、並びに元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを生成する。
ステップS110では、元言語文及び目的言語文のペアの各々について、ステップS104及びS106で抽出された固有表現部分を固有表現ラベルで置換した元言語文及び目的言語文を生成し、固有表現ラベルで置換した元言語文及び目的言語文のペアの各々について、元言語文及び目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントを求め、求められた単語アライメントに基づいて、元言語文の固有表現ラベル又は単語と目的言語文の固有表現ラベル又は単語の各ペアについて、元言語文の固有表現ラベル又は単語が、目的言語文の固有表現ラベル又は単語に翻訳される単語翻訳確率モデルを算出し、単語翻訳確率モデル記憶部46に記憶する。
ステップS112では、ステップS110で得られた固有表現部分を固有表現ラベルで置換した元言語文及び目的言語文のペアの集合と、元言語文及び目的言語文のペアの各々についての、ステップS110で得られた固有表現部分を固有表現ラベルで置換した元言語文及び目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントとに基づいて、元言語文を目的言語文に翻訳するための翻訳モデルを学習し、翻訳モデル記憶部48に記憶する。
以上説明したように、第1の実施の形態に係る翻訳学習装置によれば、注目言語の固有表現ラベルから、一定基準より劣っている固有表現ラベルを除いた固有表現ラベルを決定し、注目言語の言語文から、固有表現ラベルに対応する固有表現を抽出し、抽出された固有表現部分を、固有表現ラベルで置換した注目言語の言語文を生成し、対言語の言語文から、抽出された固有表現部分に対応する固有表現部分を抽出し、抽出された固有表現部分を、固有表現ラベルで置換した目的言語文を生成し、固有表現部分の対応関係に基づいて、固有表現翻訳辞書を生成し、固有表現翻字モデルを学習し、抽出された固有表現部分の対応関係に基づいて、単語翻訳確率モデルを算出し、元言語文を目的言語文に翻訳するための翻訳モデルを学習することにより、精度よく、固有表現を含む文を翻訳するための固有表現ラベル、固有表現翻訳辞書、固有表現翻字モデル、単語翻訳確率モデル、及び翻訳モデルを得ることができる。
<本発明の第1の実施の形態に係る翻訳装置の作用>
次に、本発明の第1の実施の形態に係る翻訳装置200の作用について説明する。入力部210において翻訳対象の元言語文を受け付けると、翻訳学習装置200は、図4に示す翻訳処理ルーチンを実行する。
まず、ステップS200では、入力部10において受け付けた翻訳対象の元言語文を取得する。
次に、ステップS202では、必要固有表現ラベル記憶部240に記憶された固有表現ラベル又は固有表現翻訳辞書242に基づいて、ステップS200で取得した翻訳対象の元言語文に含まれる固有表現部分を固有表現ラベルに置き換える。
ステップS204では、単語翻訳確率モデル246及び翻訳モデル記憶部248に記憶された翻訳モデルに基づいて、ステップS202で固有表現が固有表現ラベルに置き換えられた元言語文を目的言語文に翻訳する。
ステップS206では、固有表現翻訳辞書242及び固有表現翻字モデル記憶部244に記憶された固有表現翻字モデルに基づいて、ステップS204で翻訳された目的言語文に含まれる固有表現ラベルを、目的言語の固有表現部分の文字列に変換する。
ステップS208では、ステップS206で固有表現ラベルが目的言語の固有表現部分の文字列に変換された目的言語文を出力して処理を終了する。
以上説明したように、第1の実施の形態に係る翻訳装置によれば、必要固有表現ラベル記憶部240に記憶された固有表現ラベル又は固有表現翻訳辞書242に基づいて、翻訳対象の元言語文に含まれる固有表現部分を固有表現ラベルに置き換え、単語翻訳確率モデル記憶部246及び翻訳モデル記憶部248に記憶された翻訳モデルに基づいて、固有表現ラベルに置き換えられた元言語文を目的言語文に翻訳し、固有表現翻訳辞書242及び固有表現翻字モデルに基づいて、固有表現ラベルを、目的言語の固有表現部分の文字列に変換することにより、精度よく、固有表現を含む文を翻訳することができる。
<本発明の第2の実施の形態に係る固有表現学習装置の構成>
次に、本発明の第2の実施の形態に係る固有表現学習装置の構成について説明する。なお、第1の実施の形態の翻訳学習装置100と同様の構成となる部分については、同一符号を付して説明を省略する。
図5に示すように、本発明の実施の形態に係る固有表現学習装置300は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この固有表現学習装置300は、機能的には図5に示すように入力部10と、演算部320とを備えている。
演算部320は、ラベル決定部30と、固有表現学習部32と、必要固有表現ラベル記憶部40と、固有表現翻訳辞書42と、固有表現翻字モデル記憶部44とを含んで構成されている。
なお、第2の実施の形態に係る固有表現学習装置の他の構成は、第1の実施の形態の翻訳学習装置100と同様であるため詳細な説明を省略する。
<本発明の第2の実施の形態に係る固有表現学習装置の作用>
次に、本発明の第2の実施の形態に係る実施の形態に係る固有表現学習装置300の作用について説明する。入力部10において翻訳対となる元言語文及び目的言語文のペアの集合、並びに学習用の元言語文及び目的言語文を受け付けると、固有表現学習装置300は、上記図3に示す翻訳学習処理ルーチンと同様の処理ルーチンが実行される。ただし、ステップS100〜ステップS108のみを実行し、以降のステップの処理は実行しない。
なお、第2の実施の形態に係る固有表現学習装置の他の作用については、第1の実施の形態の翻訳学習装置100と同様の作用となるため、詳細な説明を省略する。
以上説明したように、第2の実施の形態に係る固有表現学習装置によれば、精度よく、固有表現を含む文を翻訳するための固有表現ラベル、固有表現翻訳辞書、及び固有表現翻字モデルを得ることができる。
また、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10、210 入力部
20、220、320 演算部
30 ラベル決定部
32 固有表現学習部
34 単語翻訳確率学習部
36 単語アラインメント記憶部
38 翻訳モデル学習部
40、240 必要固有表現ラベル記憶部
42、242 固有表現翻訳辞書
44、244 固有表現翻字モデル記憶部
46、246 単語翻訳確率モデル記憶部
48、248 翻訳モデル記憶部
100 翻訳学習装置
200 翻訳装置
230 固有表現置換部
232 デコーディング部
234 固有表現デコード部
250 出力部
300 固有表現学習装置

Claims (7)

  1. 入力された、翻訳対となる元言語文及び目的言語文のペアの集合に基づいて、前記元言語文及び前記目的言語文のペアの各々について、前記ペアの前記元言語文及び前記目的言語文の何れか一方である注目言語の言語文から、予め定められた条件を満たす固有表現部分を抽出すると共に、前記ペアの前記元言語文及び前記目的言語文の他方である対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出し、前記元言語文及び前記目的言語文のペアの各々について抽出された前記固有表現部分の対応関係に基づいて、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書、並びに元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを生成する固有表現学習部と、
    前記元言語文及び前記目的言語文のペアの各々についての、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントに基づいて、前記元言語文の固有表現ラベル又は単語と前記目的言語文の固有表現ラベル又は単語の各ペアについて、前記元言語文の固有表現ラベル又は単語が、前記目的言語文の固有表現ラベル又は単語に翻訳される単語翻訳確率モデルを算出する単語翻訳確率学習部と、
    前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文のペアの集合と、前記元言語文及び前記目的言語文のペアの各々についての、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントとに基づいて、前記元言語文を前記目的言語文に翻訳するための翻訳モデルを学習する翻訳モデル学習部と、
    を含む翻訳学習装置。
  2. 前記固有表現学習部は、
    予め用意された固有表現ラベルに対応する固有表現の抽出精度、
    学習用の注目言語の言語文に対して固有表現ラベルに対応する固有表現の抽出を行った結果から予め求められた固有表現ラベルの出現頻度、
    学習用の前記元言語文及び前記目的言語文の何れか一方から他方へ翻訳する翻訳処理を行った結果から予め求められた固有表現ラベルに対応する固有表現の翻訳精度、及び
    学習用の前記元言語文及び前記目的言語文について求めた前記元言語文及び前記目的言語文の間の単語の対応付けである単語アラインメントに基づいて予め求められた固有表現ラベルに対応する固有表現のアラインメントの歪み距離の少なくとも1つ、又は組み合わせが一定基準より劣っている固有表現ラベルを除いた固有表現ラベルに対応する固有表現を、
    前記予め定められた条件を満たす固有表現部分として、前記注目言語の言語文から抽出する請求項1に記載の翻訳学習装置。
  3. 前記固有表現学習部は、
    注目言語の固有表現の翻字に基づく表層類似度、
    注目言語及び対言語の各々で提供され、かつ、翻訳関係にある注目言語の見出し語及び対言語の見出し語の間でリンクを有する辞書における、注目言語の固有表現に対応する見出し語が有するリンク、又は
    予め求めた前記元言語文及び前記目的言語文の間の単語の対応付けである単語アラインメントに基づいて、前記対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出する請求項1又は2に記載の翻訳学習装置。
  4. 入力された、翻訳対となる元言語文及び目的言語文のペアの集合に基づいて、前記元言語文及び前記目的言語文のペアの各々について、
    予め用意された固有表現ラベルに対応する固有表現の抽出精度、学習用の注目言語の言語文に対して固有表現ラベルに対応する固有表現の抽出を行った結果から予め求められた固有表現ラベルの出現頻度、
    学習用の前記元言語文及び前記目的言語文の何れか一方から他方へ翻訳する翻訳処理を行った結果から予め求められた固有表現ラベルに対応する固有表現の翻訳精度、及び
    学習用の前記元言語文及び前記目的言語文について求めた前記元言語文及び前記目的言語文の間の単語の対応付けである単語アラインメントに基づいて予め求められた固有表現ラベルに対応する固有表現のアラインメントの歪み距離の少なくとも1つ、又は組み合わせが一定基準より劣っている固有表現ラベルを除いた固有表現ラベルに対応する固有表現を、前記予め定められた条件を満たす固有表現部分として、前記注目言語の言語文から抽出すると共に、
    前記ペアの前記元言語文及び前記目的言語文の他方である対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出し、
    前記元言語文及び前記目的言語文のペアの各々について抽出された前記固有表現部分の対応関係に基づいて、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書、並びに元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを生成する固有表現学習部と、
    を含む固有表現学習装置。
  5. 固有表現学習部、単語翻訳確率学習部、及び翻訳モデル学習部を含む学習装置における翻訳学習方法であって、
    前記固有表現学習部が、入力された、翻訳対となる元言語文及び目的言語文のペアの集合に基づいて、前記元言語文及び前記目的言語文のペアの各々について、前記ペアの前記元言語文及び前記目的言語文の何れか一方である注目言語の言語文から、予め定められた条件を満たす固有表現部分を抽出すると共に、前記ペアの前記元言語文及び前記目的言語文の他方である対言語の言語文から、前記抽出された固有表現部分に対応する固有表現部分を抽出し、前記元言語文及び前記目的言語文のペアの各々について抽出された前記固有表現部分の対応関係に基づいて、元言語及び目的言語の間で翻訳対となる固有表現部分を格納した固有表現翻訳辞書、並びに元言語及び目的言語の間で固有表現部分を翻訳するための固有表現翻字モデルを生成するステップと、
    前記単語翻訳確率学習部が、前記元言語文及び前記目的言語文のペアの各々についての、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントに基づいて、前記元言語文の固有表現ラベル又は単語と前記目的言語文の固有表現ラベル又は単語の各ペアについて、前記元言語文の固有表現ラベル又は単語が、前記目的言語文の固有表現ラベル又は単語に翻訳される単語翻訳確率モデルを算出するステップと、
    前記翻訳モデル学習部が、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文のペアの集合と、前記元言語文及び前記目的言語文のペアの各々についての、前記抽出された固有表現部分を固有表現ラベルで置換した前記元言語文及び前記目的言語文の間の固有表現ラベル又は単語の対応付けである単語アラインメントとに基づいて、前記元言語文を前記目的言語文に翻訳するための翻訳モデルを学習するステップと、
    を含む翻訳学習方法。
  6. コンピュータを、請求項1〜請求項3のいずれか1項に記載の翻訳学習装置の各部として機能させるためのプログラム。
  7. コンピュータを、請求項4に記載の固有表現学習装置の各部として機能させるためのプログラム。
JP2014233928A 2014-11-18 2014-11-18 翻訳学習装置、固有表現学習装置、方法、及びプログラム Active JP6262122B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014233928A JP6262122B2 (ja) 2014-11-18 2014-11-18 翻訳学習装置、固有表現学習装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014233928A JP6262122B2 (ja) 2014-11-18 2014-11-18 翻訳学習装置、固有表現学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016099675A JP2016099675A (ja) 2016-05-30
JP6262122B2 true JP6262122B2 (ja) 2018-01-17

Family

ID=56077875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014233928A Active JP6262122B2 (ja) 2014-11-18 2014-11-18 翻訳学習装置、固有表現学習装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6262122B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713593B2 (en) * 2016-11-04 2020-07-14 Google Llc Implicit bridging of machine learning tasks
JP7287062B2 (ja) * 2019-03-29 2023-06-06 富士通株式会社 翻訳方法、翻訳プログラム及び学習方法
CN111368531B (zh) * 2020-03-09 2023-04-14 腾讯科技(深圳)有限公司 翻译文本处理方法、装置、计算机设备和存储介质
CN112149423B (zh) * 2020-10-16 2024-01-26 中国农业科学院农业信息研究所 一种面向领域实体关系联合抽取的语料标注方法及系统
CN112257462A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于神经机器翻译技术的超文本标记语言翻译方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102084417B (zh) * 2008-04-15 2014-05-21 飞书博公司 现场维护语音到语音翻译的系统和方法

Also Published As

Publication number Publication date
JP2016099675A (ja) 2016-05-30

Similar Documents

Publication Publication Date Title
JP6262122B2 (ja) 翻訳学習装置、固有表現学習装置、方法、及びプログラム
Dhariya et al. A hybrid approach for Hindi-English machine translation
CN103646112B (zh) 利用了网络搜索的依存句法的领域自适应方法
RU2618374C1 (ru) Выявление словосочетаний в текстах на естественном языке
CN109858042B (zh) 一种翻译质量的确定方法及装置
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
CN112668319A (zh) 基于中文信息和越南语句法指导的越南语新闻事件检测方法
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
Tachicart et al. Lexical differences and similarities between Moroccan dialect and Arabic
García-Martínez et al. Factored neural machine translation
Tennage et al. Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation
JP5552101B2 (ja) 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP5911911B2 (ja) 結束性判定装置、モデル学習装置、方法、及びプログラム
JP2015169947A (ja) モデル学習装置、形態素解析装置、及び方法
CN111259661B (zh) 一种基于商品评论的新情感词提取方法
CN113408307A (zh) 一种基于翻译模板的神经机器翻译方法
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Asghari et al. A probabilistic approach to persian ezafe recognition
JP6564709B2 (ja) 文書き換え装置、方法、及びプログラム
Mathew et al. Paraphrase identification of Malayalam sentences-an experience
CN111259159B (zh) 数据挖掘方法、装置和计算机可读存储介质
Nandedkar et al. Co-extracting feature and opinion pairs from customer reviews using hybrid approach
Ariaratnam et al. A shallow parser for Tamil
Bansal et al. Improvement of English-Hindi machine translation using ConceptNet
Luekhong et al. Pooja: similarity-based bilingual word alignment framework for SMT

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171213

R150 Certificate of patent or registration of utility model

Ref document number: 6262122

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150