JP2007073054A - 対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置 - Google Patents
対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置 Download PDFInfo
- Publication number
- JP2007073054A JP2007073054A JP2006243314A JP2006243314A JP2007073054A JP 2007073054 A JP2007073054 A JP 2007073054A JP 2006243314 A JP2006243314 A JP 2006243314A JP 2006243314 A JP2006243314 A JP 2006243314A JP 2007073054 A JP2007073054 A JP 2007073054A
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- phrase
- bilingual
- word
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 210
- 238000000034 method Methods 0.000 title claims abstract description 176
- 230000014616 translation Effects 0.000 claims abstract description 207
- 238000011156 evaluation Methods 0.000 claims abstract description 42
- 238000005065 mining Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims description 55
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000001419 dependent effect Effects 0.000 claims description 8
- 238000012854 evaluation process Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 3
- 238000012545 processing Methods 0.000 abstract description 14
- 238000007418 data mining Methods 0.000 abstract description 13
- 238000002372 labelling Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000000926 separation method Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 230000000717 retained effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 210000004443 dendritic cell Anatomy 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】語句を入力する入力装置と、語句が入力された後に回答される電子文書及びウェブページによって候補訳を設定し、候補訳の境界を見出し、候補訳の特性をカウンティングする候補訳カウンティング装置と、候補訳のカウンティング装置によって生成されたノイズを識別して処理する候補訳ノイズ処理装置と、候補訳のカウンティング装置から取得した候補訳の特性によってすべてのあり得る候補訳を評価して順位付けする候補訳評価装置と、候補訳の典型的な例示文章をウェブ上でマイニングし、これを典型性の程度によって順位付けする候補訳典型例示文章マイニング装置と、他の言語で重み値に応じた順に配列された語句の候補訳リスト及び典型的な例示文章を出力する出力装置と、を備える。
【選択図】 図1
Description
[文字1]
→merit student)に対する訳の問題をデータマイニング法で解決することによって、技術用語のための訳マイニングシステムを構築することである。このようなシステムは、コンピュータ補助言語学習の一部分として、外国語の補助翻訳や読み書きにも直接適用することができる。また、このシステムは、二言語辞書を編纂するための道具としても用いることができる。すなわち、二言語辞書の編纂時、一方では専門辞書における訳候補オプションを提供し、他方では既存辞書における複数の訳オプションに対する評価機能を提供する。また、このように構成された二言語辞書は、機械翻訳及びクロス言語情報検索にも適用することができる。本発明は、クロス言語情報検索をウェブマイニングと組み合わせた応用の典型的な例を提供している。
図2は、データマイニングに基づいて語句に関する訳及び典型的な語法を得る原理を示すフローチャートである。このシステムは、2つの主要な部分、すなわち、電子文書・ウェブページ収集部分及び訳マイニング部分に分けられる。電子文書・ウェブページ収集部分は、文書・ウェブページ収集モジュール(モジュール202)及び文書・ウェブページ分析モジュール(モジュール204)を含む。文書・ウェブページ収集モジュール(モジュール202)の機能は、異なる言語のキーワード及び注釈を含むウェブページ及び電子文書をダウンロードすることと、ダウンロードしたウェブページ及び電子文書を分析するために、文書・ウェブページ分析モジュール(モジュール204)にウェブページ及び電子文書を提供することである。文書・ウェブページ分析モジュール(モジュール204)は、ウェブページをツリー構造に構成し、必要な特性及びテキスト情報を分析して抽出する。文書及びウェブページの分析後、電子文書及びウェブページは対応するテキストに変換され、同時に文書及びウェブページ内の単語対からなる訳特性情報データベース(モジュール208)が得られる。訳マイニング部分は主に、候補訳カウンティング装置(モジュール205)、候補訳ノイズ処理装置(モジュール206)、及び候補訳評価装置(モジュール207)を含む。対応する候補はクラスタ頻度カウンティングによって得られ、その後生成された訳のノイズが分析されて対応する解が提示され、最後にすべてのあり得る特性を用いてノイズが除去された候補が評価される。
[文字2]
のように、重み値に応じて順に配列された異なる言語の訳候補リスト(モジュール209)で回答するとともに、候補訳典型例示文章マイニング装置(モジュール210)を介して典型的な例示文章または訳の語法を現す簡単な文脈上の環境を提示する。また、ユーザは、ウェブページに直接アクセスしてさらに詳細な情報を得ることができる。
電子文書及びウェブページにおける訳注釈の分布は多様化されており、これらのモードの正確な分析をおこなうことにより訳マイニングシステムが全体的な結果を抽出できるようになる。電子文書及びウェブページにおける訳の分布状態は、下記のように一般化されている。一般的にその分布状態は、6つのモード、すなわち、
1.直接ラベリングモード(a)
2.分離ラベリングモード(b)
3.サブクラスラベリングモード(c)
4.テーブルラベリングモード(d)
5.リストモード(e)
6.説明モード(f)
に細分化することができる。直接ラベリングモードは、最も頻繁に用いられる形式であって、通常英語訳が中国語の技術用語の後に位置するものである。この場合、小括弧や中括弧などのような句読点を含むものや、「
[文字3]
Mont Blanc」のようにいかなる符号も含まないものがある。分離ラベリングモードは、単語対の間に中国語または英語が挿入されている場合であって、これは正確に識別しなければならないが、例えば、「
[文字4]
(英語名称)universal life insurance」というようなものである。サブクラスラベリングモードは、抽出に必要な訳が単語対に対応するサブクラスである場合であって、例えば、「Mont Blanc」を検索すると、「
[文字5]
(Chamomix Mont Blanc)」のような単語対が検索される。テーブルラベリングモードは、電子文書及びウェブページのフォーマットが互いに対応する表形式である場合である。リストラベリングモードは、単語対がリストの形態になっている場合である。説明モードは、電子文書及びウェブページに技術用語が記載及び説明されている場合である。電子文書及びウェブページにおける訳分布の具体的な例が図7に示されている。a1〜a3は直接ラベリングモードを示し、b1〜b3は分離ラベリングモードを示し、cはサブクラスラベリングモードを示し、dはテーブルラベリングモードを示し、eはリストモードを示し、fは説明モードを示す。
電子文書及びウェブページを総合的に分析した結果、訳のマイニング過程で候補をマイニングする際に訳に影響を及ぼす潜在特性として、候補語句頻度、異なるウェブページにおける候補語句の分布、原語と目的候補語との間の長さの比、原語と目的候補語との間の距離、及び原語と目的候補語との間のキーワード、符号及び境界情報があることが判明した。
頻度は、候補語を反映する最も重要な特性であり、判断のための基になるものである。また、頻度は、所定の閾値より大きい場合にのみ考慮される。我々の実験では、閾値は1に設定されているが、検索アイテムがほとんどない単語に対しては、閾値は0に設定される。頻度カウンティングは、全体のアルゴリズム実行効率においてキーとなるものであるので、カウンティングアルゴリズム及びデータ構造を適切に設計しなければならない。
分布特性は、主に異なるウェブページにおける候補語句の分布情報を反映する。候補語が均一に分布するほど、その重み値が大きくなる。これは、我々の直観的な認識とも一致するものである。例えば、「Blue chip」の候補用語である
[文字6]
と
[文字7]
の頻度は、両方とも5であるが、
[文字7]
は、1つのウェブページで2倍もよく現れる。
[文字6]
の分布は、異なるウェブページで1、1、1、1、1である一方、
[文字7]
の分布は、2、2、1である。したがって、
[文字6]
の分布がより均一であるため、候補語になる可能性がさらに高い。
原語と目的候補語との間の長さは、所定の制限要件を満たさなければならない。例えば、英語の単語数が2である場合、対応する中国語の単語数が4であるときに分布確率は最大となり、56.59%に達する。対応する中国語の単語数が2〜6である場合の分布確率は、全体の95.78%となるが、一方で対応する中国語の単語数が1である確率、または7を超える確率は非常に少ない。また、英語の単語数が3である場合、対応する中国語の単語数が4または6であるときに分布確率は最大となり、それぞれ25.54%、28.57%に達し、対応する中国語の単語数が3〜8である確率は全体の93.73%となる。通常、中国語及び英語の単語数が2および3である確率は全体の85.66%である。つまり、2つまたは3つの単語を含む句が最も多いということである。したがって、訳の選択過程でこのような制限的な分布関係を用いて異なる重み値を適用することにより候補語の重み値を改善することができる。
外見からいって、両単語間の距離が離れているほど両単語が訳語対である確率は少なくなり、その逆も同様である。このような方法を通じてノイズの影響の一部を除去することができる。
原語と候補語との間には
[文字8]
などのキーワードや大文字の英文字があるが、このようなキーワード及び文字は、訳の判断を助けるものとなる。また、2つの文章対間の句読点は強力な制限能力を提供するが、例えば、「(」や「)」、「[」のような句読点が現れる場合には、それらが互いに単語対であることの重み値がそれに応じて増加される。したがって、一方では句読点はカウンティング結果をさらに包括的なものとするものであり、他方ではこれら候補語は我々が必要とする正確な訳語である可能性が非常に高いため、我々は正確な判断ができる。境界情報とは、「Chinese to English」、括弧あるいは符号境界、及び個別的に現れる語句などのような、ウェブページで現れる明確な分離マークを候補語句が有することを示す情報である。
候補語句及び特性のカウンティング方法は、すべてのあり得る形態の用語、名詞及び定着した慣用句の訳に対する候補語句を完全にマイニングし、それらの頻度及び分布の特性情報を迅速かつ効果的にカウンティングする。この方法によると、(中国語または日本語の)単語あるいは(英語の)用語を増分ユニットとし、ストップワードと分離マークのルールベースを組み合わせて候補訳の正確な境界を得るとともに、登録されていない語句の形態で存在する技術用語、名詞及び定着した慣用句を検索する。
図4は、候補語句のノイズ及び順位付け処理を示すフローチャートである。クラスタ頻度カウンティング処理後、未処理候補語句リスト(モジュール401)が得られる。この語句は、サブクラス重複識別モジュール(モジュール402)に送信され、接頭語/接尾語重複識別モジュール(モジュール403)を通過した後、候補訳の評価方法(モジュール404)が提示される。この方法では、電子文書及びウェブページから得られた分析された頻度、分布、境界及び距離のような特性情報データベース(モジュール405)(詳細な内容は、単語対の潜在特性分析を参照)を組み合わせる。最後に、順位付けされた候補訳リスト(モジュール406)がユーザに出力される。
[文字9]
において、
[文字10]
と
[文字11]
とは、サブクラス重複情報に属するものであるため、削除しなければならない。(2)接頭語/接尾語重複情報。この情報の特徴は、ある単語がそれより長い単語の接頭語または接尾語であるということと、その頻度がそれより長い単語の頻度より高いということである。例えば、1.Mont Blanc:
[文字12]
(括弧内の16のような数字は、発生頻度を示している)、
[文字13]
、2.Credit rating:
[文字14]
、3.Knowledge portal:
[文字15]
などが挙げられる。第一の例における「
[文字16]
」は、接尾語重複情報であるため、削除しなければならない。第二の例における「
[文字17]
」は、接頭語重複情報であるため、削除しなければならない。第三の例における「
[文字18]
」は、接頭語/接尾語重複情報の定義に従ってはいるが、正しい候補として保持しなければならない。このように、接頭語/接尾語重複情報に係る問題は多少複雑であるため、このような情報は正確な方法で識別しなければならない。
順位付けサブクラス削除法に基づいてサブクラス重複語句を識別する方法を提案する。ほとんどすべてのサブクラス重複情報は技術用語をカウンティングする過程で生成された過渡的な情報であるので、サブクラス重複情報が含んでいる情報はさらに高い頻度及び分布情報を有するより長い単語クラスタに本質的に含まれている。したがって、先に順位付けしてから、それがサブクラスであるか否かを判定する概念は優れた解決策である。具体的なアルゴリズムのフローが図5に示されているが、ここにおける装置は、モジュール402の拡張となっている。この装置で候補語句リスト(モジュール501)は、エントロピー値によってまず順位付けされる。もしエントロピー値が同一であれば、長さによって順位付けされ、長さが同一であれば、辞書に決められた順によって順位付けされる(モジュール502)。順位付けされたリストでは、保持リストは空に設定され(モジュール503)、保持リストが空であるか否かを判定するため、現時点の候補語句iが順位付けされたリストから読み出される(モジュール504)。空であると判定すると(YES)、それはリストへの最初の登録であるということを示すので、その境界及び長さの比の情報によってこのアイテムを保持するか否かが判定される(モジュール505)。このとき、条件が満たされると、このアイテムは保持リストに加えられ(モジュール506)、条件が満たされないと、順位付けされたリストが繰り返し処理を完了したか否かを判定して、繰り返し処理が完了していない場合繰り返し処理を継続する。一方、保持リストが空ではない場合(NO)、候補jが保持リストにおいて順に読み出され(モジュール507)、jがiのサブクラスであるか及びjが境界情報を含んでいないかが判定される(モジュール508)。そうでない場合(NO)、このアイテムは保持リストに加えられる。その他の場合には、保持リストが繰り返し処理を完了したか否かが判定され、繰り返し処理が完了していなかった場合繰り返し処理を継続する。最後に、保持されている候補語句リストが生成される(モジュール509)。
接頭語/接尾語重複情報に関する問題は、比較的複雑である。ある状況では以前の結果は正しい候補であるためそれを保持しなければならない一方、他の状況ではそれを削除しなければならない。したがって、本発明は、接頭語/接尾語重複語句を保持するかまたは削除するかを正確に識別するため、相互情報量法を用いることを提案する。
[文字6]
及び
[文字7]
の頻度は、両方とも5であるが、
[文字7]
は、1つのウェブページで2倍もよく現れる。例えば、
[文字6]
の分布は、異なるウェブページにおいて1、1、1、1、1である一方、
[文字7]
の分布は、2、2、1である。従って、
[文字6]
の分布がより均一であるため、候補語になる可能性がより高くなる。
[文字19]
の場合、(40+15+4)/62=0.952>0.95であるので、
[文字20]
は削除される。たとえ接頭語/接尾語重複情報が上記条件を満たさない場合、tとtΔ1との相互情報量がそれぞれ算出され(モジュール605)、λI(t)<I(tΔ1)かどうかを判定する(モジュール606)。YESである場合、tは削除され、そうでなければそのまま保持される。ここでλの値はその後の実験によって得られ、実験結果は約0.85でその効果が最高となることを示している。
訳ノイズ除去モジュール(モジュール402及びモジュール403)の処理後、最も可能性のある候補語句を最前に配置するため、候補訳の語句の順序を再配置する。例えば、「Mont Blanc」に対する3つの訳語「
[文字21]
」、「
[文字22]
」、及び、「
[文字23]
」はすべて正しいため、前に提示した5つの潜在特性、すなわち、候補語句頻度、異なるウェブページにおける候補語句の分布、原語と目的候補語との間の長さの比、原語と目的候補語との間の間隔、及び、原語と目的候補語との間のキーワード、符号及び境界情報を用いて各候補に対する点数を付ける。その結果、「
[文字21]
、「
[文字23]
」、「
[文字22]
」のような配置結果を得る。この評価の公式は、次のように定義される。すなわち、
前記のデータマイニング処理を介して、各語句は、複数のあり得る候補語に対応するようになる。それぞれの目的候補語に対しては目的言語における正確な語法が分からないため、ウェブ上でこのような候補語に対する典型的な文脈上の環境または例示文章をマイニングしなければならない。
[文字24]
(類義語辞書)を活用し、英語における用語範囲を広げるためには、ワードネット(Wordnet)のリソースを活用する。文章間の類似度を算出するためには、動的計画法を用いる。そして、文章間の類似度に従い、ISODATA法を用いてこれら文章をクラスタリングする。クラスタリングされたユニットにおいては、典型的な例示文章が各クラスから抽出され、この抽出された例示文章は、クラスにおけるサンプル数が減少する順に順位付けされる。
[文字1]
→merit studentなど)に対する訳の問題をデータマイニング法で解決することによって、技術用語のための訳マイニングシステムを構築することである。このようなシステムは、コンピュータ補助言語学習の一部分として、外国語の補助翻訳や読み書きにも直接適用することができる。また、このシステムは、二言語辞書を編纂するための道具としても用いることができる。すなわち、二言語辞書の編纂時、一方では専門辞書における訳候補オプションを提供し、他方では既存の辞書における複数の訳オプションに対する評価機能を提供する。また、このようにして構成された二言語辞書は、機械翻訳及びクロス言語情報検索にも適用することができる。本発明は、クロス言語情報検索をウェブマイニングと組み合わせた応用の典型的な例を提示している。
前記対訳候補取り出し手順は、
対訳語句の境界候補を取り出す語句境界候補取り出し手順と、
対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出手順と、
統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価手順と、
をコンピュータに実行させることで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示プログラム。
典型性度に応じて例示文書の順位付け等を行って例示文書を表示する典型性度依存表示手順と、
をさらにコンピュータに実行させることを特徴とする付記2に記載の対訳語句提示プログラム。
対訳語句候補間である対訳語句候補が別の対訳語句候補の文字列の部分文字列になっているかどうかの関係である部分文字列関係と、対訳語句候補間の頻度やエントロピー等の統計情報の関係から他の文字列の部分文字列になっているかどうかを示す訳語としての完全度を求める訳語候補完全度算出手順と、
算出された完全度に応じて訳語候補とするかどうかを判定するないしカテゴライズする訳語候補完全度判定手順と、
をさらにコンピュータに実行させることを特徴とする付記1に記載の対訳語句提示プログラム。
対訳語句候補に影響を与え得るすべてのあり得る特性及び前記あり得る特性の影響を分析する候補訳特性分析手順と、
複数の候補訳の特性を組み合わせ、有効な評価式を定める組み合わせ特性評価手順と、
をコンピュータに実行させることを特徴とする付記1に記載の対訳語句提示プログラム。
前記対訳候補取り出し工程は、
対訳語句の境界候補を取り出す語句境界候補取り出し工程と、
対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出工程と、
統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価工程と、
を含むことで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示方法。
典型性度に応じて順位付け等を行って表示する典型性度依存表示工程と、
をさらに含んだことを特徴とする付記14に記載の対訳語句提示方法。
対訳語句候補間である対訳語句候補が別の対訳語句候補の文字列の部分文字列になっているかどうかの関係である部分文字列関係と、対訳語句候補間の頻度やエントロピー等の統計情報の関係から他の文字列の部分文字列になっているかどうかを示す訳語としての完全度を求める訳語候補完全度算出工程と、
算出された完全度に応じて訳語候補とするかどうかを判定するないしカテゴライズする訳語候補完全度判定工程と、
をさらに含んだことを特徴とする付記13に記載の対訳語句提示方法。
対訳語句候補に影響を与え得るすべてのあり得る特性及び前記あり得る特性の影響を分析する候補訳特性分析工程と、
複数の候補訳の特性を組み合わせ、有効な評価式を定める組み合わせ特性評価工程と、
を含んだことを特徴とする付記13に記載の対訳語句提示方法。
前記対訳候補取り出し手段は、
対訳語句の境界候補を取り出す語句境界候補取り出し手段と、
対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出手段と、
統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価手段と、
を備えることで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示装置。
202 文書及びウェブページダウンロードモジュール
203 WWW及びアクセス可能な文書
204 文書・ウェブページ分析モジュール
205 候補訳カウンティング装置
206 候補訳ノイズ処理装置
207 候補訳評価装置
208 訳特性情報抽出装置
209 順位付けされた候補訳リスト
210 訳典型的例示文章マイニング装置
301 回答された文書及びウェブページ
302 文書・ウェブページ分析モジュール
303 有効テキスト情報
304 多義クラスタ検索技術
305 テキストにおけるキーワードの位置付け
306 ハッシュ法と二分法とを組み合わせたインデクシングモジュール
307 クラスタ頻度カウンティング方法
308 ストップワード及び分離マークのルールベース
309 候補ユニットカウンティング特性情報
401 未処理候補ユニットリスト
402 サブクラス重複確認モジュール
403 接頭語/接尾語重複確認モジュール
404 訳候補評価方法
405 特性情報データベース(頻度、分布、境界、距離)
406 順位付けされた候補訳リスト
501 候補語句リスト
502 エントロピー値順位付け、長さ順位付け、辞書順序順位付け
503 順位付けリスト
504 候補i読出
505 境界及び長さの比の情報に従いこのアイテムを保持するかを判定
507 保持リストの候補jを順次読出
508 jがiのサブクラスであるかを判定
506 このアイテムを保持リストに追加
509 保持された候補ユニットリスト
601 処理される語句リスト
602 候補アイテムt読出
603 引き続く10個の候補のtを含む候補モードtΔiまたはΔitの頻度を累積的に加算
604 tの頻度と累積的に加算された頻度との間の比を算出
605 tとtΔiの相互情報量をそれぞれ算出
606 相互情報量間の比を算出
607 現時点のアイテム削除
608 終了?
609 保持された候補語句リスト
Claims (10)
- 語句を入力する入力手順と、入力された語句を含む文書群をストレージ上の電子文書あるいはネットワーク上の電子文書から取り出す検索手順と、入力された語句の対訳語句候補を取り出す対訳候補取り出し手順と、対訳語句候補を提示する対訳語句提示手順とをコンピュータに実行させる対訳語句提示プログラムであって、
前記対訳候補取り出し手順は、
対訳語句の境界候補を取り出す語句境界候補取り出し手順と、
対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出手順と、
統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価手順と、
をコンピュータに実行させることで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示プログラム。 - 前記対訳語句評価手順により評価された対訳語句候補に対応し、対訳語句候補を利用している例示文章を抽出し、抽出した例示文章を提示する例示文章抽出手順をさらにコンピュータに実行させることを特徴とする請求項1に記載の対訳語句提示プログラム。
- 前記例示文章抽出手順により抽出された各例示文書に対して、典型性度を算出する典型性度計算手順と、
典型性度に応じて順位付け等を行って表示する典型性度依存表示手順と、
をさらにコンピュータに実行させることを特徴とする請求項2に記載の対訳語句提示プログラム。 - 前記検索手順は、英語の小文字大文字の変換、空白の数の制御、ひらがなとカタカナの変換、中国語の簡体字と繁体字の変換などを含む入力された語句のバリエーションをバリエーション生成規則に基づいて生成するバリエーション生成手順をさらにコンピュータに実行させ、より多くの対訳語句候補を得ることを特徴とする請求項1に記載の対訳語句提示プログラム。
- 前記語句境界候補取り出し手順は、訳語として現れ得ない文字やあらかじめ指定された文字を無視することにより対訳語候補の数を限定することを特徴とする請求項1に記載の対訳語句提示プログラム。
- 前記対訳語句評価手順は、
対訳語句候補間である対訳語句候補が別の対訳語句候補の文字列の部分文字列になっているかどうかの関係である部分文字列関係と、対訳語句候補間の頻度やエントロピー等の統計情報の関係から他の文字列の部分文字列になっているかどうかを示す訳語としての完全度を求める訳語候補完全度算出手順と、
算出された完全度に応じて訳語候補とするかどうかを判定するないしカテゴライズする訳語候補完全度判定手順と、
をさらにコンピュータに実行させることを特徴とする請求項1に記載の対訳語句提示プログラム。 - 前記対訳語句評価手順は、
対訳語句候補に影響を与え得るすべてのあり得る特性及び前記あり得る特性の影響を分析する候補訳特性分析手順と、
複数の候補訳の特性を組み合わせ、有効な評価式を定める組み合わせ特性評価手順と、
をコンピュータに実行させることを特徴とする請求項1に記載の対訳語句提示プログラム。 - 前記例示文書抽出手順は、文章抽出、クラスタリング、典型的文章抽出などの一連のマイニング方法を用いて、ウェブ上で対訳語句候補に関する典型的な文脈上の環境または例示文章をマイニングし、前記典型性度計算手順は、それぞれのカテゴリーにおける個数によって典型性度を算出し、前記典型性度依存表示手順は、例示文章のサイズに応じてユーザに出力することを特徴とする請求項3に記載の対訳語句提示プログラム。
- 語句を入力する入力工程と、入力された語句を含む文書群をストレージ上の電子文書あるいはネットワーク上の電子文書から取り出す検索工程と、入力された語句の対訳語句候補を取り出す対訳候補取り出し工程と、対訳語句候補を提示する対訳語句提示工程とを含む対訳語句提示方法であって、
前記対訳候補取り出し工程は、
対訳語句の境界候補を取り出す語句境界候補取り出し工程と、
対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出工程と、
統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価工程と、
を含むことで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示方法。 - 語句を入力する入力手段と、入力された語句を含む文書群をストレージ上の電子文書あるいはネットワーク上の電子文書から取り出す検索手段と、入力された語句の対訳語句候補を取り出す対訳候補取り出し手段と、対訳語句候補を提示する対訳語句提示手段とを備えた対訳語句提示装置であって、
前記対訳候補取り出し手段は、
対訳語句の境界候補を取り出す語句境界候補取り出し手段と、
対訳語句の境界候補に応じた各対訳語句候補の統計的特性を取り出す特性抽出手段と、
統計的特性から不要な対訳語句候補を排除することや対訳語句候補の確からしさの順位付けなどをすることを含む対訳語句候補を評価する対訳語句評価手段と、
を備えることで、語句境界のあいまいな文書からでも対訳語句候補の抽出を可能とすることを特徴とする対訳語句提示装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200510102518 CN100474301C (zh) | 2005-09-08 | 2005-09-08 | 基于数据挖掘获取词或词组单元译文信息的系统和方法 |
CN200510102518.7 | 2005-09-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007073054A true JP2007073054A (ja) | 2007-03-22 |
JP5615476B2 JP5615476B2 (ja) | 2014-10-29 |
Family
ID=37858828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006243314A Expired - Fee Related JP5615476B2 (ja) | 2005-09-08 | 2006-09-07 | 対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5615476B2 (ja) |
CN (1) | CN100474301C (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890674A (zh) * | 2011-07-18 | 2013-01-23 | 阿里巴巴集团控股有限公司 | 一种查询词的处理方法和装置 |
JP2013521574A (ja) * | 2010-03-01 | 2013-06-10 | マイクロソフト コーポレーション | セマンティックオブジェクトの特徴付けおよび検索 |
JP2014109791A (ja) * | 2012-11-30 | 2014-06-12 | Toshiba Corp | 外国語文章作成支援装置、方法、及びプログラム |
CN104090870A (zh) * | 2014-06-26 | 2014-10-08 | 武汉传神信息技术有限公司 | 一种在线翻译引擎的推送方法 |
CN105512110A (zh) * | 2015-12-15 | 2016-04-20 | 江苏科技大学 | 一种基于模糊匹配与统计的错字词知识库构建方法 |
JP2016194822A (ja) * | 2015-03-31 | 2016-11-17 | 株式会社エクシング | サーバシステム及びそのプログラム、並びにエラーチェック方法 |
CN108664477A (zh) * | 2016-06-28 | 2018-10-16 | 大连民族大学 | 交易信息多语机器翻译子系统的翻译方法 |
CN111191473A (zh) * | 2019-12-31 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 一种翻译文本文件获取方法及装置 |
JP2022510818A (ja) * | 2018-11-20 | 2022-01-28 | アマゾン テクノロジーズ インコーポレイテッド | 改良されたデータマッチングのためのデータレコードの字訳 |
CN116306705A (zh) * | 2023-05-18 | 2023-06-23 | 山东省科学院海洋仪器仪表研究所 | 一种多语言的智能语音翻译交互平台 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100527125C (zh) * | 2007-05-29 | 2009-08-12 | 中国科学院计算技术研究所 | 一种统计机器翻译中的在线翻译模型选择方法和系统 |
CN101197793B (zh) * | 2007-12-28 | 2011-03-16 | 腾讯科技(深圳)有限公司 | 一种垃圾信息检测方法和装置 |
CN101833555B (zh) * | 2009-03-12 | 2016-05-04 | 富士通株式会社 | 信息提取方法和装置 |
KR101072100B1 (ko) * | 2009-10-23 | 2011-10-10 | 포항공과대학교 산학협력단 | 표현 및 설명 추출을 위한 문서 처리 장치 및 방법 |
JP5747508B2 (ja) * | 2011-01-05 | 2015-07-15 | 富士ゼロックス株式会社 | 対訳情報検索装置、翻訳装置及びプログラム |
US9063931B2 (en) * | 2011-02-16 | 2015-06-23 | Ming-Yuan Wu | Multiple language translation system |
CN104978309B (zh) * | 2014-04-14 | 2018-12-14 | 阿里巴巴集团控股有限公司 | 一种翻译异常的确定方法和设备 |
CN105094358A (zh) * | 2014-05-20 | 2015-11-25 | 富士通株式会社 | 信息处理装置和通过外码输入目标语言文字的方法 |
CN104166644A (zh) * | 2014-07-09 | 2014-11-26 | 苏州市职业大学 | 一种基于云计算的术语译文挖掘方法 |
CN104572632B (zh) * | 2014-12-25 | 2017-07-04 | 武汉传神信息技术有限公司 | 一种确定具有专名译文的词汇的翻译方向的方法 |
JP6775202B2 (ja) * | 2017-06-19 | 2020-10-28 | パナソニックIpマネジメント株式会社 | 処理方法、処理装置、及び処理プログラム |
CN109947934B (zh) * | 2018-07-17 | 2024-01-30 | 中国银联股份有限公司 | 针对短文本的数据挖掘方法及系统 |
US10740381B2 (en) * | 2018-07-18 | 2020-08-11 | International Business Machines Corporation | Dictionary editing system integrated with text mining |
CN110489528B (zh) * | 2019-08-14 | 2022-05-17 | 掌阅科技股份有限公司 | 基于电子书内容的电子词典重构方法及计算设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05113997A (ja) * | 1991-07-12 | 1993-05-07 | Oki Electric Ind Co Ltd | 辞書データ収集装置 |
-
2005
- 2005-09-08 CN CN 200510102518 patent/CN100474301C/zh not_active Expired - Fee Related
-
2006
- 2006-09-07 JP JP2006243314A patent/JP5615476B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05113997A (ja) * | 1991-07-12 | 1993-05-07 | Oki Electric Ind Co Ltd | 辞書データ収集装置 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013521574A (ja) * | 2010-03-01 | 2013-06-10 | マイクロソフト コーポレーション | セマンティックオブジェクトの特徴付けおよび検索 |
CN102890674A (zh) * | 2011-07-18 | 2013-01-23 | 阿里巴巴集团控股有限公司 | 一种查询词的处理方法和装置 |
CN102890674B (zh) * | 2011-07-18 | 2015-12-02 | 阿里巴巴集团控股有限公司 | 一种查询词的处理方法和装置 |
JP2014109791A (ja) * | 2012-11-30 | 2014-06-12 | Toshiba Corp | 外国語文章作成支援装置、方法、及びプログラム |
CN104090870A (zh) * | 2014-06-26 | 2014-10-08 | 武汉传神信息技术有限公司 | 一种在线翻译引擎的推送方法 |
JP2016194822A (ja) * | 2015-03-31 | 2016-11-17 | 株式会社エクシング | サーバシステム及びそのプログラム、並びにエラーチェック方法 |
CN105512110A (zh) * | 2015-12-15 | 2016-04-20 | 江苏科技大学 | 一种基于模糊匹配与统计的错字词知识库构建方法 |
CN105512110B (zh) * | 2015-12-15 | 2018-04-06 | 江苏科技大学 | 一种基于模糊匹配与统计的错字词知识库构建方法 |
CN108664477A (zh) * | 2016-06-28 | 2018-10-16 | 大连民族大学 | 交易信息多语机器翻译子系统的翻译方法 |
CN108664477B (zh) * | 2016-06-28 | 2022-04-01 | 大连民族大学 | 交易信息多语机器翻译子系统的翻译方法 |
JP2022510818A (ja) * | 2018-11-20 | 2022-01-28 | アマゾン テクノロジーズ インコーポレイテッド | 改良されたデータマッチングのためのデータレコードの字訳 |
JP7254925B2 (ja) | 2018-11-20 | 2023-04-10 | アマゾン テクノロジーズ インコーポレイテッド | 改良されたデータマッチングのためのデータレコードの字訳 |
CN111191473A (zh) * | 2019-12-31 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 一种翻译文本文件获取方法及装置 |
CN111191473B (zh) * | 2019-12-31 | 2024-05-03 | 深圳市优必选科技股份有限公司 | 一种翻译文本文件获取方法及装置 |
CN116306705A (zh) * | 2023-05-18 | 2023-06-23 | 山东省科学院海洋仪器仪表研究所 | 一种多语言的智能语音翻译交互平台 |
CN116306705B (zh) * | 2023-05-18 | 2023-08-15 | 山东省科学院海洋仪器仪表研究所 | 一种多语言的智能语音翻译交互平台 |
Also Published As
Publication number | Publication date |
---|---|
CN100474301C (zh) | 2009-04-01 |
CN1928862A (zh) | 2007-03-14 |
JP5615476B2 (ja) | 2014-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5615476B2 (ja) | 対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置 | |
US8781817B2 (en) | Phrase based document clustering with automatic phrase extraction | |
JP2007257644A (ja) | 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置 | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JP2010519655A (ja) | 名前照合システムの名前インデックス付け | |
Yalcin et al. | An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding | |
Barrière | Natural language understanding in a semantic web context | |
Karim et al. | A step towards information extraction: Named entity recognition in Bangla using deep learning | |
JP2006065387A (ja) | テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム | |
JP4640593B2 (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
JP2008541272A (ja) | 署名生成および関連性を有するマッチングエンジン | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Ullah et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification | |
JPWO2020157887A1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム | |
JP7122773B2 (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
Rahimi et al. | Building a multi-domain comparable corpus using a learning to rank method | |
Tian et al. | Period classification in Chinese historical texts | |
Baishya et al. | Present state and future scope of Assamese text processing | |
Patra et al. | A novel word clustering and cluster merging technique for named entity recognition | |
Reddy et al. | Cross lingual information retrieval using search engine and data mining | |
Guo et al. | Design of English Information Retrieval System Based on Parallel Corpus | |
JPH07325837A (ja) | 抽象単語による通信文検索装置及び抽象単語による通信文検索方法 | |
de Jesus et al. | Data Collection Pipeline for Low-Resource Languages: A Case Study on Constructing a Tetun Text Corpus | |
Bortolin et al. | SEUPD@ CLEF: Team NEON. A Memoryless Approach To Longitudinal Evaluation. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090512 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120321 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120521 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121030 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130130 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130206 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20130301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140811 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140910 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5615476 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |