JP3790825B2 - 他言語のテキスト生成装置 - Google Patents
他言語のテキスト生成装置 Download PDFInfo
- Publication number
- JP3790825B2 JP3790825B2 JP2004023913A JP2004023913A JP3790825B2 JP 3790825 B2 JP3790825 B2 JP 3790825B2 JP 2004023913 A JP2004023913 A JP 2004023913A JP 2004023913 A JP2004023913 A JP 2004023913A JP 3790825 B2 JP3790825 B2 JP 3790825B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- text
- language
- keyword
- bilingual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000013519 translation Methods 0.000 claims description 42
- 238000003860 storage Methods 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 10
- 238000007493 shaping process Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 76
- 230000014616 translation Effects 0.000 description 38
- 230000008569 process Effects 0.000 description 17
- 238000004458 analytical method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 239000002245 particle Substances 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 238000004090 dissolution Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000037213 diet Effects 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 241000566113 Branta sandvicensis Species 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
テキストを精度良く解析、生成するためには、文内、文間に現われる表層的情報から得られる様々な知識をはじめとして、辞書的な知識、言語学的な知見など、できるだけ多様な知識を利用するのが良いと考えられる。
しかし、前者の方法では、多様な知識を扱うためには規則を精緻化しなくてはならず、必然的に規則が競合しやすくなり、規則同士の優先順位を決めるのが困難になる。
一方、後者の方法では、多様な知識を利用しようとすると学習データに過学習する傾向があるため、過学習を避けるためにさらに多くの学習データが必要となることが多い。後者の方法で多様な知識を利用することができればより良い精度が期待できる。しかし、後者の方法では、これまで知識を充実させるという方向の研究はほとんどなされてこなかった。
このモデルは、主に最大エントロピー原理に基づくもので、過学習の問題を避けつつ、多様な知識を効率良く扱うことができる。実験により、既存の統計的方法に比べて高い精度が得られることを示すとともに、学習データから得られる知識や、辞書的な知識、言語学的な知見などの多様な知識を効率的に利用する方法、および、テキスト解析・生成に有効な知識とはどのようなものであるかが明らかになっている。
また、特許文献3に開示されたシステムでは、キーワードとなる単語を入力して、文字単位候補を生成し、文字単位候補の係り受け関係を仮定してテキスト候補を生成するテキスト生成方法を開示している。本方法によると、キーワードが十分でない場合にも自然なテキストを生成できる長所がある。
しかし、入力時に必ずしもテキストを入力せず、適当なキーワードを与えることで、より自然なテキストを出力できるのであれば、使用者にとって他者とのコミュニケーションをより図りやすくなることも考えられる。
そこで、異文化間コミュニケーションにおける言語バリアを克服するために、システムに対する人間の協調をうまく引き出し、異文化間コミュニケーションを可能とするような他言語のテキスト生成方法が求められている。
すなわち請求項1に記載の発明は、原言語の単語をキーワードとして入力することにより、原言語とは異なる他言語のテキストを生成する他言語テキスト生成装置であって、単数又は複数の該原言語のキーワード語句を受理する受理手段と、対訳文中の語句間対訳関係に係る部分対応情報を含む原言語・他言語間の対訳コーパスデータベースと、該キーワード語句を含む対訳文を、該対訳コーパスデータベースから抽出する対訳文抽出手段と、該対訳文の部分対応情報から、各原言語のキーワード語句を含む原言語対応語句に対応する他言語の各他言語対応語句で構成する対応語句群テーブルを記憶可能な対応語句記憶手段と、該対応語句群テーブルに含まれる全ての他言語対応語句間で係り受けが成立しうる語句対を全ての他言語対応語句について抽出することを繰り返し、異なる係り受け関係で構成された他言語のテキスト候補を生成するテキスト候補生成手段と、少なくとも1つのテキスト候補を出力する出力手段とを少なくとも備えたことを特徴とする。
すなわち、請求項1に記載のテキスト生成装置によると、キーワード語句を与えることによって、対訳コーパスから他言語のテキストを生成することができるので、自然な他言語を出力することができる。また、キーワードを入力することにより、原言語がテキストである場合に比して処理が容易であると共に、原言語テキストの解析誤りによる他言語テキストの誤りがなく、より正確なニュアンスのテキスト生成に寄与する。
まず、本発明の要部につき説述する。従来から母国語などを入力して異なる言語のテキスト(文章又はその集合)を出力する機械翻訳技術は知られており、近年高精度な機械翻訳が可能になりつつある。しかしながら、原言語のテキストを解析する過程と、他言語のテキストを生成する過程それぞれで、それぞれの言語が有する自然な言い回しや語順などが崩れてしまう場合があり、翻訳としては誤りではなくとも、コミュニケーションを図るために最適なテキストを得ることは難しい問題があった。
本コーパスは、英訳は日本文1文に対して1つの訳文(1文)とし、自然な英文に訳出してある。日本文で主語が省略されている場合は、前文章の流れで必要に応じて主語を補い、主語に代名詞を持ってくるか、固有名詞かは前文からの自然な流れで決定する。このように作出するため、本コーパスは日本文・英文共に自然な言葉で表現されている。
* 0 12D
また また * 接続詞 * * *
、 、 * 特殊 読点 * *
* 1 2D
一九九五 いちきゅうきゅうご * 名詞 数詞 * *
年 ねん * 接尾辞 名詞性名詞助数辞 * *
中 ちゅう * 接尾辞 名詞性名詞接尾辞 * *
の の * 助詞 接続助詞 * *
というように順に文節の番号、係り受け先、形態素、読み、品詞などを定義する。
と、上記日本文の文節IDをタグ(<P id=" ">と<\P>で囲まれた部分)で表示しながら、各ワードの部分対応情報としている。
そして、対訳文中からキーワード語句に関係する対応語句を部分対応情報(11)から抽出し、対応語句群テーブル(12)として記憶する。なお、該部分対応情報(11)は実際には対訳コーパスデータベース(10)中に含まれている情報であるから、両データは一体である。
ここまでの処理によって入力したキーワード語句に対応する他言語の語句が得られる。この後、これらの語句間の係り受け関係の組み合わせを変えて他言語のテキスト候補を生成(4)する。
得られたテキスト候補はそのまま出力する構成でもよいが、本実施例ではこの後これらを評価(5)し、候補の中から最も適当な他言語(英語)テキスト(6)を出力する。
テキスト生成部(70)では、これらの対応語句から「I went to the park with her」という英語のテキストを生成し、出力部(80)から英語テキスト(32)を出力する。
次に各部(40)ないし(80)の詳細を説述する。
使用者はマウス(42)やキーボード(43)により直接キーワード語句を入力することができる。
公知のタッチパネルモニタ(46)を設けてより簡便な入力方法を提供してもよい。
入力受理部(40)により日本語キーワード語句(31)は図9に示される対訳文抽出(50)・対応語句記憶(60)部に送られる。
まず対訳文抽出部(50)は外部記憶装置に格納された対訳コーパスデータベース(52)から日本語キーワード語句(31)を文中に含む対訳文を抽出する。
このとき、日本語キーワード語句(31)として使用者が形容詞や助詞を含めた場合や、複数のキーワード語句を1個のキーワード語句として入力した場合には、周知の処理方法によって基本形に変形したり、分割して複数のキーワード語句にしてもよい。この際、形態素解析等の言語処理方法が用いられることは公知である。
また、記憶手段にシソーラスを格納した上で、該キーワード語句の全形態素又は一部形態素を置換してもよい。
すなわち、図7の例では「to the park」「I went ...」「with her」が記憶される。
いくつかの語句を入力し、その語句を含むテキストを生成する方法としては次のような手法がある。すなわち、本件出願人が前記の特許文献3で開示するテキスト生成方法を、翻訳先言語である英語に適用して用いる。
内容語は、その語の品詞が、動詞、形容詞、名詞、指示詞、副詞、接続詞、連体詞、感動詞、未定義語である形態素の見出し語であるとし、それ以外の形態素の見出し語を機能語とする。
例えば、「1995」→「before the end of 1995/一九九五年中の」、「possibility」→「to the possibility/可能性に」などの単語列生成規則(76)を獲得し、記録する。
なお、ここでは英語対応単語に着目して英語と日本語の対応語句の組を生成したが、日本語キーワードから英語と日本語の対応語句の組を生成することも可能である。
k → hk m*
hk は英語対応語句を含む主辞形態素、m*は同じ単語列内でhkに連続する任意個の形態素とする。英語対応単語が与えられると、この形式を満たす規則を翻訳先言語のコーパス(75)から自動獲得する。
例えば、「1995」では自然なテキストを構成する単語列とはなりにくいが、「before the end of 1995」あるいは「in 1995」のように「1995」という単語と極めて密接な関連性を有する語句を付加し、後段の処理によるテキスト生成に備える。
すなわち、図11のように、各英語対応語句(53a)(53b)(53c)の間に係り受けの関係の組み合わせを変えて、テキスト候補(54)のような英語対応語句を単位とした依存構造木の形でテキスト候補を生成する。このとき、3語の場合に全ての係り受け関係は3!×2=12通りであるが、翻訳先言語の文法・特性に合わせて語順の固定などにより候補の数を削減することができる。
以下、英語対応語句生成モデル(77)と、言語モデル(78)として形態素モデル及び係り受けモデルについて説述する。
前方の二単語を考慮(trigram)
ki は前方の二単語wj-1 とwj-2 のみに依存すると仮定する。
後方の二単語を考慮(後方trigram)
ki は後方の二単語wj+1 とwj+2 のみに依存すると仮定する。
係り単語列を考慮(係り単語列)
ki を含む単語列に係る単語列がある場合、ki はそのうち最も文末側の単語列の末尾から二単語wl とwl-1 のみに依存すると仮定する(図12参照) 。
受け単語列を考慮(受け単語列)
ki を含む単語列を受ける単語列がある場合、ki はその単語列内の主辞単語から二単語ws とws+1 のみに依存すると仮定する(図12参照) 。
係り単語列を最大二単語列考慮(係り二単語列)
ki を含む単語列に係る単語列がある場合、ki は、そのうち最も文末側の単語列の末尾から二単語wl 、wl-1 と、最も文頭側の単語列の末尾から二単語wh 、wh-1 のみに依存すると仮定する(図12参照) 。
テキストT が与えられたとき、順序付き形態素集合M が得られる確率は、各形態素mi(1≦i≦n) が独立であると仮定し、
と表す。ここで、mi は1 からl までのいずれかの文法的属性を表わす。
と表わす。
評価部(74)では上記手法により句と句の依存関係や、形態素の並びとしての尤もらしさなどが考慮されるため、例えば英語における3単現のsの有無などについても、適切なものが評価値が高くなるので、文法的な正確さにも寄与する。
そして、評価値が最大あるいは閾値を超えるテキスト候補、あるいは評価値の上位N個を表層文に変換して出力する。
例えば、「彼女と公園に行った」なら時制が過去と推定して、英語でも過去形を用いる、「彼女と公園に行ってきたところだ」なら完了形を用いる、「彼女と公園に行くだろう」なら、英語で may を用いる、というように間違った英語が選択された場合に修正する。
図9に従って説述すると、対訳文抽出部(50)で日本語キーワード(31)を含む対訳文を対訳コーパスデータベース(52)から抽出する。例えばキーワード語句として「彼女」を入力したとき、複数の対訳文中に「彼女が」「彼女と」「彼女に」が日本語対応語句として抽出されることがある。
本実施例に係る日本語語句候補提示部(61)は、これらの日本語対応語句を使用者にすべて提示し、使用者はいずれの日本語対応語句がキーワード語句として最適であるか選択するようにする。
本実施形態では、同様に「公園」と入力した場合には「公園へ/to the park」「公園で/in the park」を、「行く」の場合には「行く/I will go」「行った/I went ...」などを候補とし提示する。このように使用者がキーワード語句を入力するたびに対訳コーパスデータベース(10)から選択できる対応語句を提示することで、使用者の介入を容易にしながら、より適切なテキスト生成を図るようにする。
図13に示すように、日本語キーワード語句で「彼女」「公園」と入力した時点で、対訳文抽出部(50)が「彼女と公園へ行った/I went to the park with her」を抽出し、共起語句抽出部(66)は「彼女と」「公園へ」と共起する語句として「行った」を抽出する。このような共起語句の抽出方法は公知である。
前者の場合にはさらに選択した共起語句と共起する語句を選択することができるが、対訳文の数が膨大になる可能性があるため、後者の方法でもよい。
すなわち、図示の例では日英対訳コーパスデータベース(10a)と日本語対語対訳コーパスデータベース(10b)を用いてそれぞれについて対訳文抽出(2a)(2b)、部分対応情報(11a)(11b)を用いた対訳語句記憶(3a)(3b)、得られた対応語句群記憶テーブル(12a)(12b)からテキスト候補生成(4a)(4b)、評価(5a)(5b)を行い、英語テキスト(6a)、タイ語テキスト(6b)を同時に出力する。
これらの各方法において、上記実施例1ないし3で述べたような処理方法を導入してもよい。
本構成では、複数の言語テキストを同時に出力できるため、ネットワーク上において複数の言語の使用者が共存する場合などに特に好適である。
図6に示すように、対応語句を記憶(3)する際に、対応語句群テーブル(12)に日英の対訳語句を共に記憶しておき、英語テキスト候補生成(4)に合わせて日本語テキスト候補を生成(23)する。両言語における係り受け関係を対応させておくことにより、生成された両テキストは同内容の対訳テキストが得られていると考えられるため、これらを使用者に提示することで、使用者は日本語による生成内容の確認を行うことができる。
このような技術は、言語処理において文書を要約する技術や、文書検索などの要素技術として公知の多数の手法が知られており、それらを適宜用いることができるが、ここでは一例として非特許文献2に記載の方法を用いる。
まず、キーワード抽出部(90)では、公知の形態素解析技術を用いて、日本語テキストを形態素解析部(91)において形態素解析する。解析された形態素はメモリ又は図示しない外部記憶装置などに形態素テーブルとして記録する。
まず文書抽出部(92)において、着目タームWについて、Wを含む文書すべてを任意の文書データベース(93)から抽出する。文書データベース(93)は複数の日本語(翻訳元言語)の文書が含まれたものであり、外部記憶装置などに記憶されている。日本語単言語のコーパスや日英の対訳コーパスの日本語部分を用いてもよい。
具体的には異なり度合算出部(95)において次のような計算処理を行う。
単語分布間の距離計測方法として、本実施例では対数尤度比を用いている。すなわち、全単語を{W1,…,Wn}、単語wiがD(W)、D0に出現する頻度をそれぞれki、Kiとするとき、PD(W)、P0の距離Dist{PD(W),P0}を、次のように定義する。
ここで、#D(W)は着目タームWについてD(W)の含む単語数、#D0は同様に全文書の含む単語数である。
Rep(W)=Dist{PD(W),P0}/B(#D(W))
キーワード抽出部(90)では以上の方法により特徴性を算出すると共に、所定の閾値に従って、キーワード決定部(96)により入力した日本語入力テキストのキーワードを抽出する。
そして、対訳語句記憶部(60’)も同様であり、テキスト生成部(70’)に進む。以上、各処理部(40’)(50’)(60’)(70’)は前記実施例の(40)(50)(60)(70)と同態様の処理部であって、特記しない構成は同一である。
類似度の評価方法としては、例えばテキストに含まれる文字列の一致する割合がどの程度であるかを算出して求める方法、あるいは非特許文献3に開示されるような自動翻訳した結果と人間の翻訳結果を文字列の単位(或いは単語単位)で比較してその一致度を基に計算する方法などを用いることができる。
また、これらは外部記憶装置上に記録される場合にとどまらず、ネットワーク上の複数のサーバーに記録されたものを収集するように構成してもよい。
31 日本語キーワード語句
32 英語テキスト
40 入力部
50 対訳文抽出部
60 対応語句記憶部
70 テキスト生成部
80 出力部
Claims (7)
- 原言語の単語をキーワードとして入力することにより、原言語とは異なる他言語のテキストを生成する他言語テキスト生成装置であって、
単数又は複数の該原言語のキーワード語句を受理する受理手段と、
対訳文中の語句間対訳関係に係る部分対応情報を含む原言語・他言語間の対訳コーパスデータベースと、
該キーワード語句を含む対訳文を、該対訳コーパスデータベースから抽出する対訳文抽出手段と、
該対訳文の部分対応情報から、各原言語のキーワード語句を含む原言語対応語句に対応する他言語の各他言語対応語句で構成する対応語句群テーブルを記憶可能な対応語句記憶手段と、
該対応語句群テーブルに含まれる全ての他言語対応語句間で係り受けが成立しうる語句対を全ての他言語対応語句について抽出することを繰り返し、異なる係り受け関係で構成された他言語のテキスト候補を生成するテキスト候補生成手段と、
少なくとも1つのテキスト候補を出力する出力手段と
を少なくとも備えたことを特徴とする他言語テキスト生成装置。 - 前記他言語テキスト生成装置が、
受理したキーワード語句に対して前記対訳文抽出手段により複数の対訳文が抽出され、対訳コーパスデータベースに含まれる部分対応情報を参照して該部分対応情報で定義されている当該キーワード語句を含む原言語対応語句が複数の種類存在するか否か判定し、複数の種類存在する場合には、使用者に該各原言語対応語句を提示する原言語語句候補提示手段を備えると共に、
前記受理手段により、使用者が提示された原言語対応語句の1個を選択した結果を受理可能であり、使用者が選択した場合には、前記対応語句記憶手段がその原言語対応語句に対応する他言語対応語句を対応語句群記憶テーブルに記憶する
請求項1に記載の他言語テキスト生成装置。 - 前記他言語テキスト生成装置が、
受理手段が1個のキーワード語句を受理する毎に、前記対訳文抽出手段及び、前記対応語句記憶手段が作用する構成において、
抽出された対訳文中において該キーワード語句と共起する共起語句を抽出し共起語句テーブルに記憶する共起語句抽出手段と、
該共起語句テーブル中の共起語句を使用者に選択可能に提示する共起語句提示手段と
を備え、
該受理手段が使用者が共起語句を選択した場合には、該共起語句を新たなキーワード語句として受理し、
全てのキーワード語句の受理が終了した後に、前記テキスト候補生成手段が作用する
ことを特徴とする請求項1又は2に記載の他言語テキスト生成装置。 - 前記他言語テキスト生成装置において、
前記受理手段が受理したキーワード語句について、該キーワード語句を形態素解析し、解析された各形態素をあらかじめ記憶手段に格納した類語辞書を参照して類語に置換するキーワード整形手段を備え、対訳文抽出手段において処理を行う
ことを特徴とする請求項1ないし3に記載の他言語テキスト生成装置。 - 前記他言語テキスト生成装置において、
対訳コーパスデータベースに、原言語と、複数の他言語との間の対訳文中の語句間対訳関係に係る部分対応情報を含み、
対訳文抽出手段と、対応語句記憶手段と、テキスト候補生成手段において、該原言語と、各他言語との間についてそれぞれ処理を行うと共に、
出力手段から、複数の言語のテキスト候補を出力する
ことを特徴とする請求項1ないし4に記載の他言語テキスト生成装置。 - 前記他言語テキスト生成装置において、
前記テキスト候補生成手段が、対応語句群テーブルに含まれる全ての他言語対応語句間で係り受けが成立しうる語句対を全ての他言語対応語句について抽出することを繰り返し、異なる係り受け関係で構成された他言語のテキスト候補を生成すると共に、
該対応語句群テーブルに含まれる全ての原言語対応語句間で係り受けが成立しうる語句対を全ての原言語対応語句について抽出することを繰り返し、異なる係り受け関係で構成された原言語のテキスト候補を生成する原言語テキスト候補生成手段を備え、
出力手段から、少なくとも1組の原言語及び他言語の対訳テキスト候補を共に出力する
ことを特徴とする請求項1ないし5に記載の他言語テキスト生成装置。 - 前記他言語テキスト生成装置において、
前記テキスト候補に対して該テキスト候補を構成する各文字列について該各文字列が形態素である確率値を求める形態素モデルを用い、該テキスト候補における確率値の総積、又は
前記テキスト候補に対して該テキスト候補を構成する各単語列に対する係り受けの順序付き集合が得られる確率値を求める係り受けモデルを用い、該テキスト候補における確率値の総積
の少なくともいずれかを求める評価手段を備えた
ことを特徴とする請求項1ないし6に記載の他言語テキスト生成装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004023913A JP3790825B2 (ja) | 2004-01-30 | 2004-01-30 | 他言語のテキスト生成装置 |
PCT/JP2005/001636 WO2005073874A1 (ja) | 2004-01-30 | 2005-01-28 | 他言語のテキスト生成方法及びテキスト生成装置 |
US10/587,514 US8386234B2 (en) | 2004-01-30 | 2005-01-28 | Method for generating a text sentence in a target language and text sentence generating apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004023913A JP3790825B2 (ja) | 2004-01-30 | 2004-01-30 | 他言語のテキスト生成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005216126A JP2005216126A (ja) | 2005-08-11 |
JP3790825B2 true JP3790825B2 (ja) | 2006-06-28 |
Family
ID=34823895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004023913A Expired - Lifetime JP3790825B2 (ja) | 2004-01-30 | 2004-01-30 | 他言語のテキスト生成装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8386234B2 (ja) |
JP (1) | JP3790825B2 (ja) |
WO (1) | WO2005073874A1 (ja) |
Families Citing this family (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US7835903B2 (en) * | 2006-04-19 | 2010-11-16 | Google Inc. | Simplifying query terms with transliteration |
US8442965B2 (en) * | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US8380488B1 (en) | 2006-04-19 | 2013-02-19 | Google Inc. | Identifying a property of a document |
US8255376B2 (en) * | 2006-04-19 | 2012-08-28 | Google Inc. | Augmenting queries with synonyms from synonyms map |
US8762358B2 (en) * | 2006-04-19 | 2014-06-24 | Google Inc. | Query language determination using query terms and interface language |
CA2675208A1 (en) * | 2007-01-10 | 2008-07-17 | National Research Council Of Canada | Means and method for automatic post-editing of translations |
US9779079B2 (en) * | 2007-06-01 | 2017-10-03 | Xerox Corporation | Authoring system |
US8185377B2 (en) * | 2007-08-11 | 2012-05-22 | Microsoft Corporation | Diagnostic evaluation of machine translators |
US7983903B2 (en) * | 2007-09-07 | 2011-07-19 | Microsoft Corporation | Mining bilingual dictionaries from monolingual web pages |
US8176419B2 (en) * | 2007-12-19 | 2012-05-08 | Microsoft Corporation | Self learning contextual spell corrector |
US20100208984A1 (en) * | 2009-02-13 | 2010-08-19 | Microsoft Corporation | Evaluating related phrases |
US20110202573A1 (en) * | 2010-02-12 | 2011-08-18 | Mark Golino | Clinical hyper-review and reconciliation system |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US20110320185A1 (en) * | 2010-06-24 | 2011-12-29 | Oded Broshi | Systems and methods for machine translation |
CN103154936B (zh) * | 2010-09-24 | 2016-01-06 | 新加坡国立大学 | 用于自动化文本校正的方法和系统 |
US9262397B2 (en) * | 2010-10-08 | 2016-02-16 | Microsoft Technology Licensing, Llc | General purpose correction of grammatical and word usage errors |
KR101776673B1 (ko) * | 2011-01-11 | 2017-09-11 | 삼성전자주식회사 | 자연어 처리용 문법 자동 생성 장치 및 방법 |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US8484218B2 (en) * | 2011-04-21 | 2013-07-09 | Google Inc. | Translating keywords from a source language to a target language |
US20130013616A1 (en) * | 2011-07-08 | 2013-01-10 | Jochen Lothar Leidner | Systems and Methods for Natural Language Searching of Structured Data |
US8855997B2 (en) | 2011-07-28 | 2014-10-07 | Microsoft Corporation | Linguistic error detection |
US8510328B1 (en) * | 2011-08-13 | 2013-08-13 | Charles Malcolm Hatton | Implementing symbolic word and synonym English language sentence processing on computers to improve user automation |
US9558165B1 (en) * | 2011-08-19 | 2017-01-31 | Emicen Corp. | Method and system for data mining of short message streams |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
TWM423854U (en) * | 2011-10-20 | 2012-03-01 | Ipxnase Technology Ltd | Document analyzing apparatus |
US20150006157A1 (en) * | 2012-03-14 | 2015-01-01 | Nec Corporation | Term synonym acquisition method and term synonym acquisition apparatus |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US10140295B2 (en) | 2014-03-29 | 2018-11-27 | Camelot Uk Bidco Limited | Method, system and software for searching, identifying, retrieving and presenting electronic documents |
US9372848B2 (en) | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
JP5963328B2 (ja) * | 2014-10-30 | 2016-08-03 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、生成方法、およびプログラム |
JP6607482B2 (ja) * | 2015-02-02 | 2019-11-20 | 国立研究開発法人情報通信研究機構 | 構文解析装置、学習装置、機械翻訳装置、およびプログラム |
US9779372B2 (en) * | 2015-06-25 | 2017-10-03 | One Hour Translation, Ltd. | System and method for ensuring the quality of a human translation of content through real-time quality checks of reviewers |
US10275460B2 (en) | 2015-06-25 | 2019-04-30 | One Hour Translation, Ltd. | System and method for ensuring the quality of a translation of content through real-time quality checks of reviewers |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
US20170185587A1 (en) * | 2015-12-25 | 2017-06-29 | Panasonic Intellectual Property Management Co., Ltd. | Machine translation method and machine translation system |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
US20170308526A1 (en) * | 2016-04-21 | 2017-10-26 | National Institute Of Information And Communications Technology | Compcuter Implemented machine translation apparatus and machine translation method |
KR20170122505A (ko) | 2016-04-27 | 2017-11-06 | 삼성전자주식회사 | 부가 정보를 제공하는 단말 장치 및 제공 방법 |
US11049190B2 (en) | 2016-07-15 | 2021-06-29 | Intuit Inc. | System and method for automatically generating calculations for fields in compliance forms |
US10579721B2 (en) | 2016-07-15 | 2020-03-03 | Intuit Inc. | Lean parsing: a natural language processing system and method for parsing domain-specific languages |
CN106227897A (zh) * | 2016-08-31 | 2016-12-14 | 青海民族大学 | 一种基于藏文句子级别的藏文论文复制检测方法及系统 |
CN108073556A (zh) * | 2016-11-14 | 2018-05-25 | 英业达科技有限公司 | 字串辨识方法与机器学习方法 |
JP6815899B2 (ja) * | 2017-03-02 | 2021-01-20 | 東京都公立大学法人 | 出力文生成装置、出力文生成方法および出力文生成プログラム |
US10769387B2 (en) | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10990755B2 (en) * | 2017-12-21 | 2021-04-27 | International Business Machines Corporation | Altering text of an image in augmented or virtual reality |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
WO2019225154A1 (ja) * | 2018-05-23 | 2019-11-28 | 株式会社Nttドコモ | 作成文章評価装置 |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
US11163956B1 (en) | 2019-05-23 | 2021-11-02 | Intuit Inc. | System and method for recognizing domain specific named entities using domain specific word embeddings |
RU2767965C2 (ru) * | 2019-06-19 | 2022-03-22 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для перевода исходной фразы на первом языке целевой фразой на втором языке |
USD917549S1 (en) | 2019-06-20 | 2021-04-27 | Yandex Europe Ag | Display screen or portion thereof with graphical user interface |
CN111090727B (zh) * | 2019-12-06 | 2022-07-08 | 思必驰科技股份有限公司 | 语言转换处理方法、装置及方言语音交互系统 |
US11783128B2 (en) | 2020-02-19 | 2023-10-10 | Intuit Inc. | Financial document text conversion to computer readable operations |
CN111523304B (zh) * | 2020-04-27 | 2022-08-02 | 华东师范大学 | 一种基于预训练模型的产品描述文本的自动生成方法 |
CN111966789A (zh) * | 2020-08-20 | 2020-11-20 | 深圳市卡牛科技有限公司 | 一种文本过滤方法、装置、设备和存储介质 |
CN112163404B (zh) * | 2020-08-25 | 2022-11-15 | 北京邮电大学 | 一种文本生成方法、装置、电子设备及存储介质 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4864503A (en) * | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
JP3289304B2 (ja) | 1992-03-10 | 2002-06-04 | 株式会社日立製作所 | 手話変換装置および方法 |
JP2892548B2 (ja) * | 1992-05-25 | 1999-05-17 | シャープ株式会社 | 自動翻訳装置 |
US6278967B1 (en) * | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
JP3015223B2 (ja) * | 1993-05-14 | 2000-03-06 | シャープ株式会社 | 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置 |
GB2279164A (en) * | 1993-06-18 | 1994-12-21 | Canon Res Ct Europe Ltd | Processing a bilingual database. |
US6345244B1 (en) * | 1998-05-27 | 2002-02-05 | Lionbridge Technologies, Inc. | System, method, and product for dynamically aligning translations in a translation-memory system |
US6243669B1 (en) * | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
JP3388393B2 (ja) | 1999-08-25 | 2003-03-17 | 独立行政法人通信総合研究所 | データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置 |
US6862566B2 (en) * | 2000-03-10 | 2005-03-01 | Matushita Electric Industrial Co., Ltd. | Method and apparatus for converting an expression using key words |
US6604101B1 (en) * | 2000-06-28 | 2003-08-05 | Qnaturally Systems, Inc. | Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network |
US6622123B1 (en) * | 2000-06-23 | 2003-09-16 | Xerox Corporation | Interactive translation system and method |
JP2002334076A (ja) | 2001-05-10 | 2002-11-22 | Communication Research Laboratory | テキスト処理方法 |
FR2825496B1 (fr) * | 2001-06-01 | 2003-08-15 | Synomia | Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises |
US7734459B2 (en) * | 2001-06-01 | 2010-06-08 | Microsoft Corporation | Automatic extraction of transfer mappings from bilingual corpora |
US6985851B2 (en) * | 2001-07-17 | 2006-01-10 | Microsoft Corporation | Method and apparatus for providing improved HMM POS tagger for multi-word entries and factoids |
JP3921523B2 (ja) | 2001-12-27 | 2007-05-30 | 独立行政法人情報通信研究機構 | テキスト生成方法及びテキスト生成装置 |
US6952691B2 (en) * | 2002-02-01 | 2005-10-04 | International Business Machines Corporation | Method and system for searching a multi-lingual database |
JP4085156B2 (ja) * | 2002-03-18 | 2008-05-14 | 独立行政法人情報通信研究機構 | テキスト生成方法及びテキスト生成装置 |
EP1351158A1 (en) * | 2002-03-28 | 2003-10-08 | BRITISH TELECOMMUNICATIONS public limited company | Machine translation |
US7293015B2 (en) * | 2002-09-19 | 2007-11-06 | Microsoft Corporation | Method and system for detecting user intentions in retrieval of hint sentences |
-
2004
- 2004-01-30 JP JP2004023913A patent/JP3790825B2/ja not_active Expired - Lifetime
-
2005
- 2005-01-28 US US10/587,514 patent/US8386234B2/en not_active Expired - Fee Related
- 2005-01-28 WO PCT/JP2005/001636 patent/WO2005073874A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2005216126A (ja) | 2005-08-11 |
US20070129935A1 (en) | 2007-06-07 |
US8386234B2 (en) | 2013-02-26 |
WO2005073874A1 (ja) | 2005-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3790825B2 (ja) | 他言語のテキスト生成装置 | |
Jacquemin | Spotting and discovering terms through natural language processing | |
US9239826B2 (en) | Method and system for generating new entries in natural language dictionary | |
JPH05189481A (ja) | 翻訳用コンピュータ操作方法、字句モデル生成方法、モデル生成方法、翻訳用コンピュータシステム、字句モデル生成コンピュータシステム及びモデル生成コンピュータシステム | |
Georgi | From Aari to Zulu: massively multilingual creation of language tools using interlinear glossed text | |
Lewis | ODIN: A model for adapting and enriching legacy infrastructure | |
Akbari | An Overall Perspective of Machine Translation with Its Shortcomings. | |
Mara | English-Wolaytta Machine Translation using Statistical Approach | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
Sankaravelayuthan et al. | English to tamil machine translation system using parallel corpus | |
Ramisch | Computational phraseology discovery in corpora with the MWETOOLKIT | |
Miller-Naudà et al. | New directions in the computational analysis of Biblical Hebrew grammar | |
Salloum et al. | Unsupervised Arabic dialect segmentation for machine translation | |
Park et al. | Affix modification-based bilingual pivoting method for paraphrase extraction in agglutinative languages | |
Khedkar et al. | A survey of machine translation and parts of speech tagging for indian languages | |
Thieu et al. | LexDivPara: A Measure of Paraphrase Quality with Integrated Sentential Lexical Complexity | |
Samir et al. | Training and evaluation of TreeTagger on Amazigh corpus | |
JP3921543B2 (ja) | 機械翻訳装置 | |
Vasuki et al. | English to Tamil machine translation system using parallel corpus | |
Ramasamy | Parsing under-resourced languages: Cross-lingual transfer strategies for Indian languages | |
Kang et al. | Fuzzy Speech Driven Indoor Modeling System | |
Tanh et al. | LexDivPara: A Measure of Paraphrase Quality with Integrated Sentential Lexical Complexity | |
Keersmaekers | A Computational Approach to the Greek Papyri: Developing a Corpus to Study Variation and Change in the Post-Classical Greek Complementation System | |
Liu | Can Wizards be Polyglots: Towards a Multilingual Knowledge-grounded Dialogue System | |
Roy | Approaches to handle scarce resources for Bengali statistical machine translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3790825 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |