JP2010267200A - 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム - Google Patents

合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム Download PDF

Info

Publication number
JP2010267200A
JP2010267200A JP2009119886A JP2009119886A JP2010267200A JP 2010267200 A JP2010267200 A JP 2010267200A JP 2009119886 A JP2009119886 A JP 2009119886A JP 2009119886 A JP2009119886 A JP 2009119886A JP 2010267200 A JP2010267200 A JP 2010267200A
Authority
JP
Japan
Prior art keywords
translation
text
word
model
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009119886A
Other languages
English (en)
Inventor
Hitoshi Nishikawa
仁 西川
Takaaki Hasegawa
隆明 長谷川
Kenji Imamura
賢治 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009119886A priority Critical patent/JP2010267200A/ja
Publication of JP2010267200A publication Critical patent/JP2010267200A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】意味的な対応関係を有するテキストの組における翻訳先のテキスト同士が十分に類似していない場合でも、精度の高い翻訳モデルの作成を可能とし、正確なクラスタリングを可能とすること。
【解決手段】意味対応入替部2により、意味対応テキスト組セット1の意味的な対応関係を入れ替えた意味対応入替テキスト組セット1’を作成し、翻訳確率計算部3より、意味対応テキスト組セット1及び意味対応入替テキスト組セット1’中における単語から単語への翻訳確率をそれぞれ計算して対応非入替翻訳モデル4及び対応入替翻訳モデル5を作成し、翻訳確率合成部6により、翻訳モデル4及び5から意味対応テキスト組セット1中の各単語が別の単語に翻訳される翻訳確率を計算して合成翻訳モデル7を作成し、この合成翻訳モデル7を用いて、入力されたテキストの集合をクラスタリングする。
【選択図】図3

Description

本発明は、テキスト(文書)の集合を、類似する内容を含むテキストの部分集合にクラスタリング(分類)する技術に関する。
電子化されたテキストの爆発的な増加に伴い、必要なテキストに対する迅速なアクセスを可能とする技術が望まれている。その際、内容が似通ったテキストをクラスタリングすることができれば、大量のテキストをいくつかのまとまり(クラスタ)として扱うことができる。大量のテキストをいくつかのまとまりとして扱うことができれば、必要なテキストが含まれている範囲を素早く特定することができるようになり、必要なテキストに対して迅速なアクセスが可能になる。
クラスタリングを行うためにはテキスト間の類似度を定義する必要がある。現在、クラスタリングに一般的に用いられている手法によって類似度を計算するには、互いのテキストに同一の語彙(単語)が出現する必要がある。しかし、内容(意味)が似通ったテキストであっても語彙を共有していない場合がある。そのような場合、それら類似したテキスト間の類似度は低くなってしまい、結果としてクラスタリングの精度が悪化する。
例えば、図1に示すような3つのテキスト1,2,3があったとし、これらのテキストのうちの2つを1つのクラスタとすることを考える。テキスト1及び2は宿泊場所を尋ねているもので、テキスト3は名所を尋ねているものである。そのため、意味を考えれば、クラスタリングの結果としてテキスト1及び2が同一のクラスタとして扱われることが望ましい。しかし、表層的な語彙を見る限り、テキスト1はテキスト3により類似しているため、テキスト1及び2が同一のクラスタとして扱われることは期待できない。
このような、表層的には類似していないが、意味的には類似したテキストをクラスタリングするに当たって、一つの解決策として、例えば単語「旅館」と単語「ホテル」とが似た概念であることを示した情報(例えばシソーラス)を予め用意しておくことが考えられる。しかし、そのような情報の作成には多大な人的コストを必要とする。
そこで、ある単語が別の単語に翻訳される確率(翻訳確率)を導入し、単語を共有していないテキストでも高い類似度が得られる手法が提案されている(例えば非特許文献1参照)。
なお、ここで言う翻訳とは、必ずしも、ある単語を異なる言語の単語に置き換えることに限られるものではなく、ある単語を同一言語の別の単語(同一言語の別の表現)に置き換えることも含む。例えば、上述した図1の例における「旅館」及び「ホテル」は同一の概念を示すものではないが、類似する概念を示すものであるため、何らかのテキストにおいて「旅館」という表現が「ホテル」という表現に置き換えられる可能性は大きい。そのため、「旅館」が「ホテル」に置き換えられる可能性、即ち翻訳確率を事前に得ることができれば、シソーラスを利用せずとも精度の高いクラスタリングが可能になる。
前述したクラスタリングを行うには、翻訳元の単語と翻訳先の単語とそれらの間の翻訳確率とのセットである翻訳モデルが必要であるが、この翻訳モデルを作成するためには、事前に類似するテキストを集めておく必要がある。上述した図1の例で言えば、「旅館」及び「ホテル」が類似した概念を指していることを知るためには、「旅館」という単語を用いて宿泊場所について書かれたテキストと、「ホテル」という単語を用いて宿泊場所について書かれたテキストとを予め収集しておき、それらを用いて翻訳確率を計算する必要がある。しかし、それが難しいがために翻訳モデルを利用したいのであって、事前に類似するテキストを収集しておくのは難しい。人手でそれを行うことはできるが、多大なコストを必要とする。
そのため、あるテキストとそれに意味的に対応した別のテキスト、つまり何らかの意味的な対応関係を有するテキストの組を用いて、類似するテキストを集め、翻訳モデルを作成する手法が提案されている(例えば非特許文献2参照)。
何らかの意味的な対応関係を有するテキストの組として、例えば質問が書かれたテキスト(質問テキスト)AQ,BQとそれらの質問の回答が書かれたテキスト(回答テキスト)AA,BAとがあるとする。そのような場合、回答テキストAA及びBA間の類似度を計算し、それらの類似度が一定の閾値より上であるならば、質問テキストAQ及びBQも類似しているとみなすというものである。
一度類似するテキストを集めることができれば、それらを用いて翻訳モデルを作成することができ、当該作成した翻訳モデルを用いて、意味的に対応するテキストが存在しないテキストの集合でも精度良くクラスタリングすることが可能になる。
Adam Berger et al., "Information Retrieval as Statistical Translation", In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pp.222-229, 1999. Jiwoon Jeon et al., "Finding Similar Questions in Large Question and Answer Archives", In Proceedings of the ACM 14th Conference for Information and Knowledge Management (CIKM), pp.84-90, 2005. Peter F. Brown et al., "The Mathematics of Statistical Machine Translation: Parameter Estimation", Computational Linguistics, Vol.19, No.2, pp.263-311, 1993. Anil K. Jain et al., "Data Clustering: A Review", ACM Computing Surveys, Vol.31, No.3, pp.264-323, 1999.
しかしながら、前述の手法では、例えば類似する質問テキストを集める場合、対応する回答テキスト同士が十分に類似していなければ類似する質問テキストを集めることができないという問題が存在する。前述の例では、質問テキストAQ及びBQが類似していても、回答テキストAA及びBAが類似していない場合には、質問テキストAQ及びBQが類似していることを特定できない。
そのため、前述の手法では、類似する質問テキストとして、回答テキストが類似している質問テキストしか集めることができず、翻訳確率を計算する際に少量のテキストしか利用できなかった。少量のテキストによる翻訳モデルは、含まれる語彙が少なく、翻訳確率の値も不正確なものになり易い。そのような翻訳モデルはクラスタリングの精度に対して悪影響を与える。
そこで、本発明の目的は、何らかの意味的な対応関係を有するテキストの組が与えられた際の、翻訳モデルの作成を工夫することで、より良いクラスタリングを可能とすることにある。
具体的には、非特許文献2のように、意味的に対応するテキスト単位(前述の例では回答テキスト)で質問テキスト間の類似を特定して翻訳確率を計算するのではなく、回答テキストのより細かい単位、例えば単語、句、文節などを介して翻訳確率を計算する。
図2に翻訳確率の計算における工夫の一例を示す。図2に示す質問テキストAQ,BQは、それぞれの回答テキストAA,BAが類似していないため、非特許文献2の手法では対応づけることはできない。しかし、回答テキストAA,BAは少なくとも「庭」という単語を共有している。この点に関して質問テキストAQ,BQは類似しているとみなせば、翻訳確率を計算できる。
より厳密には、質問テキストAQの「旅館」は、回答テキストAA,BAに現れる「庭」を介して質問テキストBQの「ホテル」に翻訳されるとみなす。そのため、本発明では、まず質問テキストAQの「旅館」から回答テキストAAの「庭」への翻訳確率を計算し、その後、回答テキストBAの「庭」から質問テキストBQの「ホテル」への翻訳確率を計算し、この2つの翻訳確率の積を「旅館」から「ホテル」への翻訳確率とみなす。
この工夫により、翻訳確率を計算する際には意味的に対応するテキスト全てを利用することができるため、より多くの語彙を含み、より正確な翻訳確率を保持した翻訳モデルを得ることができる。より正確な翻訳確率を保持した翻訳モデルを得ることができれば、より良いクラスタリングを行うことが可能となる。
前記目的を達成するため、本発明では、入力されたテキストの集合を、類似する内容を含むテキストの部分集合にクラスタリングするテキストクラスタリング装置であって、学習用に予め与えられた、意味的な対応関係を有するテキストの組を少なくとも1組含む意味対応テキスト組セットをコピーし、それぞれの組の意味的な対応関係を入れ替えた意味対応入替テキスト組セットを作成する意味対応入替部と、前記意味対応テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応非入替翻訳モデルを作成するとともに、前記意味対応入替テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応入替テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応入替翻訳モデルを作成する翻訳確率計算部と、前記対応非入替翻訳モデル及び前記対応入替翻訳モデルを組合わせることにより、前記意味対応テキスト組セット中の翻訳元テキストに含まれる各単語が別の単語に翻訳される翻訳確率を計算して合成翻訳モデルを作成する翻訳確率合成部と、入力された形態素解析済みのテキストの集合を受け付けるテキスト群入力部と、前記入力されたテキスト毎に言語モデルを作成する言語モデル計算部と、前記テキスト毎の言語モデルと前記合成翻訳モデルとを統合することにより、前記テキスト毎に翻訳モデル統合言語モデルを作成する言語モデル・翻訳モデル統合部と、前記テキスト毎の前記翻訳モデル統合言語モデル間の類似度を計算することにより、前記入力されたテキスト間の類似度を計算する類似度計算部と、前記テキスト間の類似度に基づいて前記入力されたテキストの集合を、類似する内容を含むテキストの部分集合にクラスタリングするクラスタリング部とを備えたことを特徴とする。
本発明によれば、翻訳確率を求める際に、意味的に対応するテキスト間の類似度に基づいて、類似度が高いもののみを翻訳確率を求めるためのテキストとして扱うのではなく、全てのテキストにおいて部分的にでも意味的に対応するテキストを利用し、意味的な対応を入れ替えて2つの翻訳モデルを作成した後にそれを合成し、翻訳モデルを作成する。そのため、より多くテキストを用いて翻訳確率の計算を行うことができ、より多くの語彙を含み、より精度の高い翻訳確率を含んだ翻訳モデルを作成する効果を有する。
特に図2の質問テキストAQ,BQに示すような、意味的に対応するテキスト同士(この場合はそれらの回答テキストAA,BA)が類似しておらず、結果として翻訳確率の計算に使うテキストが十分に集められない場合でも、十分な翻訳モデルを作成することが可能である。さらに、質問や回答といった意味的な対応に限らず、意味的な対応を有する日本語と英語のテキスト(対訳コーパス)、要約されたテキストとその原典といったテキストの組からも翻訳モデルの作成が可能である。
クラスタリング対象テキストの一例を示す説明図 翻訳確率の計算における工夫の一例を示す説明図 本発明のテキストクラスタリング装置の実施の形態の一例を示す構成図 意味対応テキスト組の一例を示す説明図 翻訳確率の計算処理の一例を示す流れ図 翻訳確率計算のようすの一例を示す説明図 翻訳確率計算のようすの他の例を示す説明図 対応非入替翻訳モデルの一例を示す説明図 対応入替翻訳モデルの一例を示す説明図 対応非入替翻訳モデル及び対応入替翻訳モデルの合成のようすの一例を示す説明図 合成翻訳モデルの一例を示す説明図 クラスタリング対象テキストの一例を示す説明図 クラスタリング対象テキストの言語モデルの一例を示す説明図 翻訳モデル統合言語モデルの一例を示す説明図 類似度行列の一例を示す説明図 クラスタリングの結果の一例を示す説明図 本発明のテキストクラスタリング装置における処理を示す流れ図
次に、本発明の実施の形態について図面を参照して説明する。
図3は本発明のテキストクラスタリング装置の実施の形態の一例を示すもので、本実施の形態のテキストクラスタリング装置は、意味対応テキスト組セット(記憶部)1と、意味対応入替部2と、翻訳確率計算部3と、対応非入替翻訳モデル(記憶部)4と、対応入替翻訳モデル(記憶部)5と、翻訳確率合成部6と、合成翻訳モデル(記憶部)7と、テキスト群入力部8と、言語モデル計算部9と、言語モデル(記憶部)10と、言語モデル・翻訳モデル統合部11と、翻訳モデル統合言語モデル(記憶部)12と、類似度計算部13と、類似度行列(記憶部)14と、クラスタリング部15と、テキスト群出力部16とからなる。
また、これらのうち、意味対応テキスト組セット1、意味対応入替部2、翻訳確率計算部3、対応非入替翻訳モデル4、対応入替翻訳モデル5及び翻訳確率合成部6により合成翻訳モデル作成装置が構成される。
意味対応テキスト組セット(記憶部)1には、質問が書かれたテキスト及びその質問に対する回答が書かれたテキスト、日本語が書かれたテキスト及びその訳が書かれた英語のテキスト、要約が書かれたテキスト及びその原典テキストなど、何らかの意味的な対応関係を有する2種類のテキスト(翻訳元テキスト及び翻訳先テキスト)の組(意味対応テキスト組)が1組以上形態素解析されて格納されている。これらのテキストの対応関係は逆でも良く、例えば日本語が書かれたテキスト及びその訳が書かれた英語のテキストの逆として、英語が書かれたテキスト及びその訳が書かれた日本語のテキストでも良い。
図4は意味対応テキスト組の一例、ここでは質問が書かれたテキスト(質問テキスト)及びその質問に対する回答が書かれたテキスト(回答テキスト)の組からなる例を示すもので、左側の2列は質問テキストを形態素解析処理後の表記及び品詞で表し、また、右側の2列はその質問テキストに対する回答テキストを形態素解析処理後の表記及び品詞で表している。なお、テキストは予め特定の文法カテゴリに属する単語が除去された形でも良い。例えば、予め機能語が除去され、内容語のみになった形式や、名詞のみになった形式でも良い。
意味対応入替部2は、意味対応テキスト組セット1を入力として、これをコピーし、それぞれの組の意味的な対応関係を入れ替えた(逆にした)意味対応入替テキスト組セット1’を作成する処理を行う。具体的には、翻訳元テキストが質問テキストであり、翻訳先テキストが回答テキストである意味対応テキスト組セット1の場合は、翻訳元テキストが前記と同一の回答テキストであり、翻訳先テキストが前記と同一の質問テキストである意味対応入替テキスト組セット1’を作成する。
翻訳確率計算部3は、意味対応テキスト組セット1及び意味対応入替部2で作成された意味対応入替テキスト組セット1’を入力として、それら2つのセットに対し、それぞれ翻訳元テキストに含まれる単語毎に翻訳先テキストに含まれる各単語への翻訳確率を計算し、それぞれの翻訳モデル、即ち対応非入替翻訳モデル及び対応入替翻訳モデルを作成して、対応非入替翻訳モデル(記憶部)4及び対応入替翻訳モデル(記憶部)5に格納する。つまり、意味対応テキスト組セット1が質問テキスト及びその回答テキストの組のセットからなる場合であれば、当該意味対応テキスト組セット1と、同一の回答テキスト及び同一のその質問テキストの組のセットからなる意味対応入替テキスト組セット1’とを入力として、それら2つのセットに対し、それぞれ翻訳元テキストに含まれる単語毎に翻訳先テキストに含まれる各単語への翻訳確率を計算し、意味対応テキスト組セット1に対する対応非入替翻訳モデル4と、意味対応入替テキスト組セット1’に対する対応入替翻訳モデル5との2つの翻訳モデルを出力する。
翻訳確率の計算は、対応づけられた単語列間から翻訳確率を推定する公知の技術、例えば非特許文献3に記載の技術を用いることができる。また、翻訳確率を求める単位として単語以外、例えば文節などの単位を用いることもできる。
一例として、非特許文献3に記載のModel1による翻訳確率の計算の流れを図5に示す。
まず、対応する2つの単語列、即ち意味対応テキスト組セット中の対応する翻訳元テキスト及び翻訳先テキストの各単語列が入力される(s1)。意味対応テキスト組が質問テキスト及びその回答テキストである場合は、図4に示されたような質問テキスト及びその回答テキストの表記の列がそれぞれ単語列として入力される。
単語列が入力された後、翻訳先テキストの単語列の異なり語の数、この場合は回答テキストとして入力された全ての単語列が含む異なり語の数に基づいて翻訳確率が初期化される(s2)。翻訳確率が初期化された後、入力された質問テキスト及び回答テキストの対応する単語列の単語同士をそれぞれ結ぶエッジの重みが0に初期化される(s3)。その後、翻訳確率に基づいてエッジの重みが更新される(s4)。
単語間のエッジの重みとは、翻訳元テキストに含まれる単語が当該翻訳元テキストに対応する翻訳先テキストに含まれるいずれかの単語に翻訳される確率の和で、エッジによって対応する翻訳先テキストの単語に翻訳される確率を割ったものである。つまり、翻訳確率が高い単語間のエッジの重みは大きくなる。
エッジの重みを更新した後、更新されたエッジの重みに基づいて翻訳確率を推定する(s5)。単語間の翻訳確率は、意味対応テキスト組の中で、翻訳元の単語が有する全てのエッジの重みの和で、翻訳先のある単語に対応するエッジの重みの和を割ったものである。
翻訳確率に基づいたエッジの重みの更新及び更新後のエッジの重みに基づく翻訳確率の推定は、翻訳確率が収束する(更新前のエッジの重みと更新後のエッジに重みとの差が、予め設定した誤差以下になる)か、あるいはエッジの重みの更新回数が予め規定された数に達するまで繰り返され(s6)、推定された翻訳確率が翻訳モデルとして出力される(s7)。このプロセスによって翻訳確率は一意に収束することが知られている。
図6に翻訳確率計算のようすの一例、ここでは意味対応テキスト組が単語「旅館」を含む質問テキスト及びそれに対応する回答テキストの組からなる場合の例について示す。質問テキスト(翻訳元テキスト)に含まれる単語が当該質問テキストに対応する回答テキスト(翻訳先テキスト)に含まれる単語に翻訳される確率が計算される、ここでは質問テキストに含まれる単語「旅館」が、回答テキストに含まれる単語「庭」、「奇麗」、「トラベル」などに翻訳される確率が計算される。
図7に翻訳確率計算のようすの他の例、ここでは意味対応テキスト組が単語「ホテル」を含む質問テキスト及びそれに対応する回答テキストの組の意味的な対応関係を入れ替えた組からなる場合の例について示す。回答テキスト(翻訳元テキスト)に含まれる単語が当該回答テキストに対応する質問テキスト(翻訳先テキスト)に含まれる単語に翻訳される確率が計算される、ここでは回答テキストに含まれる単語「庭」、「トラベル」、「料理」などが、質問テキストに含まれる「ホテル」に翻訳される確率が計算される。
図6、図7では説明のため自然言語のままのテキストを示しているが、実際の翻訳確率の計算には図4に示したような形態素解析済みのテキストが用いられる。
翻訳確率計算部3から出力された2つの翻訳モデルの一例、即ち意味対応テキスト組セット1に対する翻訳確率が計算された対応非入替翻訳モデル4と、意味対応テキスト組セット1の意味的な対応関係を入れ替えた意味対応入替テキスト組セット1’に対する翻訳確率が計算された対応入替翻訳モデル5とを、それぞれ図8、図9に示す。
図8の対応非入替翻訳モデル4は、図6に示した翻訳確率計算によって得られた翻訳モデルを示すもので、翻訳元である質問テキスト中に現れる単語が、翻訳先である回答テキストにどのような単語として現れ易いかを翻訳確率と共に示している。この例では、質問テキストに単語「旅館」が現れた場合、回答テキストには「おすすめ」、「トラベル」、「メジャー」、「温泉」、「奇麗」、「滝」、「庭」、「料理」などといった単語が現れ易いことを示している。これは、質問テキストの書き手(即ち質問者)が「旅館」という単語を書いた際、つまり旅館に関係する質問を行った際、その回答には「トラベル」、「奇麗」といった単語が現れ易いことを示している。
図9の対応入替翻訳モデル5は、図7に示した翻訳確率計算によって得られた翻訳モデルを示すもので、図8とは逆に、翻訳元である回答テキスト中に現れる単語が、翻訳先である質問テキストにどのような単語として現れ易いかを翻訳確率と共に示している。この例では、質問テキストに現れる単語「ホテル」に翻訳される回答テキスト中の単語を示している。
翻訳確率合成部6は、対応非入替翻訳モデル4及び対応入替翻訳モデル5の2つの翻訳モデルを入力として、これらを組合わせることにより1つの新しい翻訳モデル、即ち合成翻訳モデルを作成して合成翻訳モデル(記憶部)7に格納する。詳細には、意味対応テキスト組セット1中の翻訳元テキストに含まれる各単語について、前記意味対応テキスト組セット1中の前記翻訳先テキストの単語毎に、前記対応非入替翻訳モデル4における単語から前記翻訳先テキストの単語への翻訳確率と前記対応入替翻訳モデル5における前記翻訳先テキストの単語と同一の単語から翻訳元テキストの単語への翻訳確率とを掛け合わせた値の総和を求め、これを前記意味対応テキスト組セット1中の前記翻訳元テキストに含まれる各単語が別の単語へ翻訳される翻訳確率とする。
例えば、対応非入替翻訳モデル4が質問テキストから回答テキストへの翻訳確率を含むモデルであり、対応入替翻訳モデル5が回答テキストから質問テキストへの翻訳確率を含むモデルである場合を考える。その場合、対応非入替翻訳モデル4の翻訳先であり、対応入替翻訳モデル5の翻訳元である回答テキストにおいて同一の表記を有する単語の翻訳確率を掛け合わせることで、対応非入替翻訳モデル4の翻訳元である質問テキストから対応入替翻訳モデル5の翻訳先である質問テキストへの翻訳確率できる。このことは下記式(1)で示すことができる。
Figure 2010267200
右辺のTr1(wa|wq)は対応非入替翻訳モデル4を示している。質問テキストに含まれる単語wqは回答テキストに含まれるwaに翻訳確率Tr1(wa|wq)で変化することを示している。Tr2(wq'|wa)は対応入替翻訳モデル5を示し、回答テキストに含まれる単語waが質問テキストに含まれる単語wq'に翻訳確率Tr2(wq'|wa)で変化することを示している。
もし、対応非入替翻訳モデル4の翻訳先の単語に単語waが含まれ、対応入替翻訳モデル5の翻訳元の単語に単語waが含まれていた場合、単語waを介して質問テキストに現れる単語wqと単語wq'との間の翻訳確率を計算することができる。つまり、単語wqが単語wq'に変化する確率Tr(wq'|wq)を求めることができる。また、表記と品詞の結びついた単位を式(1)の単語とみなして、同一の表記でかつ同一の品詞を有する単語の翻訳確率を掛け合わせて計算を行っても良い。
対応非入替翻訳モデル及び対応入替翻訳モデルの合成のようすの一例を図10に示す。対応非入替翻訳モデル4に示した質問テキストに含まれる単語、ここでは「旅館」が回答テキストに含まれる何らかの単語に翻訳され、それらの単語が更に質問テキストに含まれる何らかの単語、ここでは「ホテル」に翻訳される例を示している。結果として、質問テキストに現れるある単語が別の単語として現れる場合の当該別の単語とその現れ易さを得ることができる。
図11は合成翻訳モデル7の一例、ここでは質問テキストに含まれる単語「旅館」が他にどのような単語として出現するかを翻訳確率と共に示したものである。この例では、質問テキストに現れる単語「旅館」が、他に「どこ」、「ホテル」、「所」などといった単語として質問テキストに現れ易いことが分かる。これは単語「旅館」が回答テキストに翻訳された際の単語が、再度質問テキストに翻訳される際に「どこ」、「ホテル」、「所」などに翻訳され易いことを示している。図11の例では、前述の翻訳確率Tr(ホテル|旅館)は0.017839である。また、図11の例では、単語「旅館」は他の名詞に翻訳されているが、翻訳は同一の品詞間に限らない。例えば、名詞が動詞や形容詞などの品詞に翻訳されることも、その逆もあり得る。
テキスト群入力部8は、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力された、クラスタリングの対象とするテキスト群、ここでは形態素解析済みのテキスト群(テキストの集合)を受け付ける。入力された形態素解析済みのテキストの一例を図12に示す。
言語モデル計算部9は、テキスト群入力部8で受け付けた形態素解析済みのテキストの集合を入力として、テキスト毎に、当該テキスト中の単語とその生起確率とのセットである言語モデルを作成して言語モデル(記憶部)10に格納する。言語モデルの作成には公知の技術を用いることができる。一例として、単語wをテキストdの言語モデルMdが生成する確率(単語wの言語モデルMdからの出現確率)は、下記式(2)で示すことができる。
Figure 2010267200
ここで、tfw,dとはテキストd中における単語wの出現頻度であり、Ldとはテキストdのテキスト長、即ちテキストdに含まれる単語の総数である。ここで示した例はユニグラムの言語モデルであるが、他にもバイグラムのモデルや統語的構造を仮定したモデルなど、他の言語モデルを用いることもできる。また、テキスト中に含まれない単語は出現確率が0になってしまうゼロ頻度問題への対処のため、公知の技術を用いて補間などを行うこともできる。
クラスタリング対象テキストの言語モデル10の一例を図13に示す。この言語モデルにおいては、例えば単語「旅館」は確率0.04で出現し得ることになる。
言語モデル・翻訳モデル統合部11は、テキスト毎の言語モデル10と合成翻訳モデル7とを統合することにより、テキスト毎の翻訳モデル統合言語モデルを作成して翻訳モデル統合言語モデル(記憶部)12に格納する。詳細には、前記言語モデル計算部9で計算された言語モデルが単語wを生起する確率と、前記翻訳確率合成部6で計算された合成翻訳モデルにおける前記単語wから別の単語w’への翻訳確率とを足し合わせた値を、翻訳モデル統合言語モデル12が前記単語wを生成する確率とする。
翻訳モデル統合言語モデルMdtから単語wが生成される確率P(w|Mdt)は、一例として下記式(3)のようにできる。
Figure 2010267200
ここで、tとは言語モデルMdが生成し得るwとは別の単語であり、αは言語モデルと翻訳モデルの重みパラメータであり、0以上1以下の任意の実数である。αによって翻訳モデルが統合されたモデルに与える影響が制御される。αが1の時には翻訳モデルは統合されたモデルに何ら影響を与えないが、αが0に近づくにつれて翻訳モデルが統合されたモデルに与える影響が大きくなる。ここでは、式(3)で示されるような言語モデルと翻訳モデルを線形に統合する方法以外の、何らかの二つの確率分布を、各々の確率分布の値が大きいほど結合した値が大きくなるように、二つの確率分布を結合する異なる方法を用いることもできる。
例として、テキストdは、単語「旅館」は含むが、単語「ホテル」を含まないとする。そのような場合、テキストdから作成された言語モデルMdは単語「ホテル」を生成する確率を持たない。即ち、テキストdが単語「ホテル」を生成する確率は0である。しかし、統合された翻訳モデルが単語「旅館」が単語「ホテル」に変化する確率Tr(ホテル|旅館)を含むならば、翻訳モデルを統合した言語モデルは単語「ホテル」の生成する確率として0以上の値を有することになる。
翻訳モデル統合言語モデル12は、一例として式(3)で示すような方法によって翻訳モデルと統合された言語モデルである。翻訳モデル統合言語モデルの一例を図14に示す。
翻訳モデルを言語モデルに統合することによって、統合前の言語モデルには含まれていないが、類似する質問テキストには含まれる単語の出現確率を与えることができる。例えば、図13の統合前の言語モデルには含まれていなかった単語「ホテル」や「オススメ」、「観光」(図14に太字で示したもの)が翻訳モデルの統合によって出現確率を与えられたことがわかる。
類似度計算部13は、テキスト毎の翻訳モデル統合言語モデル12を入力とし、これら全ての翻訳モデル統合言語モデル12間の類似度を計算することによって、入力されたテキスト間の類似度を計算して類似度行列を出力し、類似度行列(記憶部)14に格納する。2つのモデルMdt1とMdt2の間の類似度Sim(Mdt1,Mdt2)の計算方法として、公知の技術を使うことができる。2つのモデルは確率分布であるので、一例として、下記式(4)で示す負のJensen-Shannon Divergenceを用いることができる。
Figure 2010267200
Figure 2010267200
Figure 2010267200
式(5)はJensen-Shannon divergence、式(6)はKullback-Leibler divergenceである。Jensen-Shannon divergenceは確率分布間の距離を求めるものであるため、求められた値が高いほど類似度は低いものとなる。そのため、式(4)では負にしており、導かれる類似度は全て負の値になり、0に近いほどテキスト同士が類似していることを示す。
もちろん、これ以外にも、確率分布間の類似度を計算する任意の方法を用いることができる。
類似度行列14の一例を図15に示す。上段の表は翻訳モデル統合前の言語モデルによる類似度行列であり、下段の表は翻訳モデル統合後の言語モデルによる類似度行列である。それぞれの表の中で、太線で囲った数値が類似度行列中で最大の値である。翻訳モデルの統合によって、類似度行列が含む類似度の値が変化したことがわかる。
図15の上段の表によれば、テキスト1及び2間の類似度は−0.976であり、テキスト1及び3間の類似度は−0.342である。このことは、翻訳モデル統合前の言語モデルによって類似度を計算したときには、テキスト1はテキスト3により類似していることを示している。
一方、図15の下段の表によれば、テキスト1及び2間の類似度は−0.497であり、テキスト1及び3間の類似度は−0.566である。このことは、翻訳モデル統合後の言語モデルによって類似度を計算したときには、テキスト1はテキスト2により類似していることを示している。
クラスタリング部15は、類似度計算部13で計算された、入力されたテキスト間の類似度である類似度行列14を入力として、入力されたテキストの集合を、類似する内容を含むテキストの部分集合にクラスタリングする。このクラスタリング部15では、公知の手法を用いることができる(非特許文献4参照)。
クラスタリングの結果の一例を図16に示す。図15では、翻訳モデルの統合によって類似度行列中の最大の値が変化したことを示した。ここで例として用いたクラスタリング手法は、類似度行列中で最大の類似度を有するテキストの組を同一のクラスタとして扱うものである。そのため、翻訳モデル統合前の言語モデルによる類似度行列を用いたクラスタリングではテキスト1及びテキスト3が同一のクラスタとみなされる。それに対し、翻訳モデル統合後の言語モデルによる類似度行列を用いたクラスタリングでは、テキスト1及びテキスト2が同一のクラスタとみなされる。これは、翻訳モデルを言語モデルに統合したため、テキスト1及びテキスト2の語彙的な重なりの少なさが解消されたためである。結果として、より意味的に適切なクラスタリングが行えたことがわかる。
テキスト群出力部16は、クラスタリング部15のクラスタリングの結果を受け付け、クラスタリングの過程と、テキスト群入力部8で入力された各テキストが属するクラスタを出力する。具体的には、クラスタのIDと当該クラスタに属するテキストの部分集合のID集合との対を出力するか、あるいはテキストの部分集合と当該テキストの部分集合が属するクラスタのIDを出力するものでも良い。
図17に前述した本発明のテキストクラスタリング装置における処理の流れを示す。
意味対応入替部2は、意味的に対応したテキストの組のセット1をコピーし(s8)、意味的な対応を入れ替える(s9)。翻訳確率計算部3は、まず、対応を入れ替えていないセット(意味対応テキスト組セット)1の翻訳確率を計算し(s10)、当該セット1の翻訳確率を対応非入替翻訳モデル4として記憶する(s11)。次に、翻訳確率計算部3は、対応を入れ替えたテキスト組セット(意味対応入替テキスト組セット)1’の翻訳確率を計算し(s12)、当該セット1’の翻訳確率を対応入替翻訳モデル5として記憶する(s13)。翻訳確率合成部6は、前記対応非入替翻訳モデル4及び対応入替翻訳モデル5を受け付けて翻訳確率を合成し(s14)、合成された翻訳モデルを合成翻訳モデル7として記憶する(s15)。
テキスト群入力部8は、クラスタリングの対象とする形態素解析済みのテキスト群を受け付け(s16)、言語モデル計算部9はテキスト群入力部8に入力されたテキスト毎に言語モデルを計算し(s17)、それぞれの言語モデル10を記憶する(s18)。言語モデル・翻訳モデル統合部11は、記憶されたテキスト毎の言語モデル10と合成翻訳モデル7とを統合し(s19)、統合されたテキスト毎の翻訳モデル統合言語モデル12を記憶する(s20)。
類似度計算部13は、テキスト毎の翻訳モデル統合言語モデル12を受け付け、全てのテキスト間の類似度を計算し(s21)、計算したテキスト間の類似度を類似度行列14として記憶する(s22)。
クラスタリング部15は、類似度行列14を受け付け、クラスタリングを行う。
クラスタリング部15は、まず全てのテキストにそれぞれ1つのクラスタをランダムに割り当て(s23)、受け付けたテキスト間の類似度行列14に基づいてクラスタ間の類似度を計算し(s24)、類似度が最大のクラスタ同士を統合(マージ)し(s25)、さらにクラスタリングの終了条件を満たしているか判定を行う(s26)。
クラスタリングの終了条件は、一例としては所定のクラスタ数に処理の対象となるクラスタが到達することが考えられるが、他に例えば、予め指定した閾値を超える類似度を有するクラスタの対がなくなるといったものでも良い。クラスタリングの終了条件を満たしていない場合は再度、クラスタ間の類似度の計算を行い(s24)、類似度が最大のクラスタ同士をマージする(s25)。クラスタリングの終了条件を満たした場合はクラスタリングの過程と各テキストが属するクラスタを出力し(s27)、処理を終了する。
このように、意味的な対応関係を入れ替えて作成した2つの翻訳モデルを合成することで、より高精度なクラスタリングを行うことができる。
なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図3の構成図に示された機能を実現するプログラムあるいは図17のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。
1:意味対応テキスト組セット(記憶部)
2:意味対応入替部
3:翻訳確率計算部
4:対応非入替翻訳モデル(記憶部)
5:対応入替翻訳モデル(記憶部)
6:翻訳確率合成部
7:合成翻訳モデル(記憶部)
8:テキスト群入力部
9:言語モデル計算部
10:言語モデル(記憶部)
11:言語モデル・翻訳モデル統合部
12:翻訳モデル統合言語モデル(記憶部)
13:類似度計算部
14:類似度行列(記憶部)
15:クラスタリング部
16:テキスト群出力部

Claims (12)

  1. 学習用に予め与えられた、意味的な対応関係を有するテキストの組を少なくとも1組含む意味対応テキスト組セットをコピーし、それぞれの組の意味的な対応関係を入れ替えた意味対応入替テキスト組セットを作成する意味対応入替部と、
    前記意味対応テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応非入替翻訳モデルを作成するとともに、前記意味対応入替テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応入替テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応入替翻訳モデルを作成する翻訳確率計算部と、
    前記対応非入替翻訳モデル及び前記対応入替翻訳モデルを組合わせることにより、前記意味対応テキスト組セット中の翻訳元テキストに含まれる各単語が別の単語に翻訳される翻訳確率を計算して合成翻訳モデルを作成する翻訳確率合成部とを備えた
    ことを特徴とする合成翻訳モデル作成装置。
  2. 前記翻訳確率合成部は、
    前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語について、前記意味対応テキスト組セット中の前記翻訳先テキストの単語毎に、前記対応非入替翻訳モデルにおける単語から前記翻訳先テキストの単語への翻訳確率と前記対応入替翻訳モデルにおける前記翻訳先テキストの単語と同一の単語から前記意味対応テキスト組セット中の翻訳元テキストの単語への翻訳確率とを掛け合わせた値の総和を求め、これを前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語が別の単語へ翻訳される翻訳確率とする
    ことを特徴とする請求項1に記載の合成翻訳モデル作成装置。
  3. 入力されたテキストの集合を、類似する内容を含むテキストの部分集合にクラスタリングするテキストクラスタリング装置であって、
    学習用に予め与えられた、意味的な対応関係を有するテキストの組を少なくとも1組含む意味対応テキスト組セットをコピーし、それぞれの組の意味的な対応関係を入れ替えた意味対応入替テキスト組セットを作成する意味対応入替部と、
    前記意味対応テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応非入替翻訳モデルを作成するとともに、前記意味対応入替テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応入替テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応入替翻訳モデルを作成する翻訳確率計算部と、
    前記対応非入替翻訳モデル及び前記対応入替翻訳モデルを組合わせることにより、前記意味対応テキスト組セット中の翻訳元テキストに含まれる各単語が別の単語に翻訳される翻訳確率を計算して合成翻訳モデルを作成する翻訳確率合成部と、
    入力された形態素解析済みのテキストの集合を受け付けるテキスト群入力部と、
    前記入力されたテキスト毎に言語モデルを作成する言語モデル計算部と、
    前記テキスト毎の言語モデルと前記合成翻訳モデルとを統合することにより、前記テキスト毎に翻訳モデル統合言語モデルを作成する言語モデル・翻訳モデル統合部と、
    前記テキスト毎の前記翻訳モデル統合言語モデル間の類似度を計算することにより、前記入力されたテキスト間の類似度を計算する類似度計算部と、
    前記テキスト間の類似度に基づいて前記入力されたテキストの集合を、類似する内容を含むテキストの部分集合にクラスタリングするクラスタリング部とを備えた
    ことを特徴とするテキストクラスタリング装置。
  4. 前記翻訳確率合成部は、
    前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語について、前記意味対応テキスト組セット中の前記翻訳先テキストの単語毎に、前記対応非入替翻訳モデルにおける単語から前記翻訳先テキストの単語への翻訳確率と前記対応入替翻訳モデルにおける前記翻訳先テキストの単語と同一の単語から前記意味対応テキスト組セット中の翻訳元テキストの単語への翻訳確率とを掛け合わせた値の総和を求め、これを前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語が別の単語へ翻訳される翻訳確率とする
    ことを特徴とする請求項3に記載のテキストクラスタリング装置。
  5. 前記言語モデル・翻訳モデル統合部は、
    前記言語モデル計算部で計算された言語モデルが単語を生起する確率と、前記翻訳確率合成部で計算された合成翻訳モデルにおける前記単語から別の単語への翻訳確率とを足し合わせた値を、前記翻訳モデル統合言語モデルが前記単語を生成する確率とする
    ことを特徴とする請求項3または4に記載のテキストクラスタリング装置。
  6. 意味対応入替部が、学習用に予め与えられた、意味的な対応関係を有するテキストの組を少なくとも1組含む意味対応テキスト組セットをコピーし、それぞれの組の意味的な対応関係を入れ替えた意味対応入替テキスト組セットを作成するステップと、
    翻訳確率計算部が、前記意味対応テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応非入替翻訳モデルを作成するとともに、前記意味対応入替テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応入替テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応入替翻訳モデルを作成するステップと、
    翻訳確率合成部が、前記対応非入替翻訳モデル及び前記対応入替翻訳モデルを組合わせることにより、前記意味対応テキスト組セット中の翻訳元テキストに含まれる各単語が別の単語に翻訳される翻訳確率を計算して合成翻訳モデルを作成するステップとを含む
    ことを特徴とする合成翻訳モデル作成方法。
  7. 前記翻訳確率合成ステップは、
    前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語について、前記意味対応テキスト組セット中の前記翻訳先テキストの単語毎に、前記対応非入替翻訳モデルにおける単語から前記翻訳先テキストの単語への翻訳確率と前記対応入替翻訳モデルにおける前記翻訳先テキストの単語と同一の単語から前記意味対応テキスト組セット中の翻訳元テキストの単語への翻訳確率とを掛け合わせた値の総和を求め、これを前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語が別の単語へ翻訳される翻訳確率とする
    ことを特徴とする請求項6に記載の合成翻訳モデル作成方法。
  8. 入力されたテキストの集合を、類似する内容を含むテキストの部分集合にクラスタリングするテキストクラスタリング方法であって、
    意味対応入替部が、学習用に予め与えられた、意味的な対応関係を有するテキストの組を少なくとも1組含む意味対応テキスト組セットをコピーし、それぞれの組の意味的な対応関係を入れ替えた意味対応入替テキスト組セットを作成するステップと、
    翻訳確率計算部が、前記意味対応テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応非入替翻訳モデルを作成するとともに、前記意味対応入替テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応入替テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応入替翻訳モデルを作成するステップと、
    翻訳確率合成部が、前記対応非入替翻訳モデル及び前記対応入替翻訳モデルを組合わせることにより、前記意味対応テキスト組セット中の翻訳元テキストに含まれる各単語が別の単語に翻訳される翻訳確率を計算して合成翻訳モデルを作成するステップと、
    テキスト群入力部が、入力された形態素解析済みのテキストの集合を受け付けるステップと、
    言語モデル計算部が、前記入力されたテキスト毎に言語モデルを作成するステップと、
    言語モデル・翻訳モデル統合部が、前記テキスト毎の言語モデルと前記合成翻訳モデルとを統合することにより、前記テキスト毎に翻訳モデル統合言語モデルを作成するステップと、
    類似度計算部が、前記テキスト毎の前記翻訳モデル統合言語モデル間の類似度を計算することにより、前記入力されたテキスト間の類似度を計算するステップと、
    クラスタリング部が、前記テキスト間の類似度に基づいて前記入力されたテキストの集合を、類似する内容を含むテキストの部分集合にクラスタリングするステップとを含む
    ことを特徴とするテキストクラスタリング方法。
  9. 前記翻訳確率合成ステップは、
    前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語について、前記意味対応テキスト組セット中の前記翻訳先テキストの単語毎に、前記対応非入替翻訳モデルにおける単語から前記翻訳先テキストの単語への翻訳確率と前記対応入替翻訳モデルにおける前記翻訳先テキストの単語と同一の単語から前記意味対応テキスト組セット中の翻訳元テキストの単語への翻訳確率とを掛け合わせた値の総和を求め、これを前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語が別の単語へ翻訳される翻訳確率とする
    ことを特徴とする請求項8に記載のテキストクラスタリング方法。
  10. 前記言語モデル・翻訳モデル統合ステップは、
    前記言語モデル計算部で計算された言語モデルが単語を生起する確率と、前記翻訳確率合成部で計算された合成翻訳モデルにおける前記単語から別の単語への翻訳確率とを足し合わせた値を、前記翻訳モデル統合言語モデルが前記単語を生成する確率とする
    ことを特徴とする請求項8または9に記載のテキストクラスタリング方法。
  11. コンピュータを、請求項1または2に記載の合成翻訳モデル作成装置の各手段として機能させるためのプログラム。
  12. コンピュータを、請求項3乃至5のいずれかに記載のテキストクラスタリング装置の各手段として機能させるためのプログラム。
JP2009119886A 2009-05-18 2009-05-18 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム Pending JP2010267200A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009119886A JP2010267200A (ja) 2009-05-18 2009-05-18 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009119886A JP2010267200A (ja) 2009-05-18 2009-05-18 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2010267200A true JP2010267200A (ja) 2010-11-25

Family

ID=43364095

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009119886A Pending JP2010267200A (ja) 2009-05-18 2009-05-18 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2010267200A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135457A (ja) * 2019-02-20 2020-08-31 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
CN113032559A (zh) * 2021-03-15 2021-06-25 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135457A (ja) * 2019-02-20 2020-08-31 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
JP7103264B2 (ja) 2019-02-20 2022-07-20 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
CN113032559A (zh) * 2021-03-15 2021-06-25 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113032559B (zh) * 2021-03-15 2023-04-28 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法

Similar Documents

Publication Publication Date Title
Cer et al. Parsing to Stanford Dependencies: Trade-offs between Speed and Accuracy.
Zeroual et al. A new Quranic Corpus rich in morphosyntactical information
Schwartz et al. Neural polysynthetic language modelling
Kouremenos et al. A novel rule based machine translation scheme from Greek to Greek Sign Language: Production of different types of large corpora and Language Models evaluation
Yuan Grammatical error correction in non-native English
García-Martínez et al. Neural machine translation by generating multiple linguistic factors
CN113515638B (zh) 面向学者聚类的研究兴趣挖掘方法、装置和存储介质
Bella et al. A database and visualization of the similarity of contemporary lexicons
Şenel et al. Measuring cross-lingual semantic similarity across European languages
Liu et al. Paraphrastic language models
Jamro Sindhi language processing: A survey
Stahlberg et al. Word segmentation and pronunciation extraction from phoneme sequences through cross-lingual word-to-phoneme alignment
JP2010267200A (ja) 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム
Arora et al. Jambu: A historical linguistic database for South Asian languages
Janfada et al. A review of the most important studies on automated text simplification evaluation metrics
Kirsch et al. Noise reduction in distant supervision for relation extraction using probabilistic soft logic
Neubarth et al. A hybrid approach to statistical machine translation between standard and dialectal varieties
Mahlaza Foundations for reusable and maintainable surface realisers for isiXhosa and isiZulu
JP5302784B2 (ja) 機械翻訳方法、及びシステム
Tarish et al. Text correction algorithms for correct grammar and lex-ical errors in the English language
Gibbon et al. Spoken Language Characterization
Babhulgaonkar et al. Experimenting with factored language model and generalized back-off for Hindi
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
Baumann et al. Correlates in the evolution of phonotactic diversity in English: Linguistic structure, demographics, and network characteristics
Boito Models and resources for attention-based unsupervised word segmentation: an application to computational language documentation

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101215

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616