JP2004280255A - 言語間対応付け装置、言語間対応付け方法、及びそのプログラム - Google Patents

言語間対応付け装置、言語間対応付け方法、及びそのプログラム Download PDF

Info

Publication number
JP2004280255A
JP2004280255A JP2003068163A JP2003068163A JP2004280255A JP 2004280255 A JP2004280255 A JP 2004280255A JP 2003068163 A JP2003068163 A JP 2003068163A JP 2003068163 A JP2003068163 A JP 2003068163A JP 2004280255 A JP2004280255 A JP 2004280255A
Authority
JP
Japan
Prior art keywords
position information
appearance position
language
word
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003068163A
Other languages
English (en)
Other versions
JP3977270B2 (ja
Inventor
Naoto Kato
直人 加藤
Terumasa Ebara
暉将 江原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2003068163A priority Critical patent/JP3977270B2/ja
Publication of JP2004280255A publication Critical patent/JP2004280255A/ja
Application granted granted Critical
Publication of JP3977270B2 publication Critical patent/JP3977270B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】効率的に高精度な言語間の対応付けを行うことを目的とする。
【解決手段】対応付け候補となる複数の第1言語文書から、第2言語文書に対応する該第1言語文書の対応づけを行う言語間対応付け装置において、前記複数の第1言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成部と、前記単語出現位置情報生成部により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成部と、入力される前記第2言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第1言語文書を選択して対応づけを行う最適文書選択部とを有することにより、上記課題を解決する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、言語間対応付け装置、言語間対応付け方法、及びそのプログラムに係り、特に、第1言語と第2言語の言語的類似性を効率的に計算し、第2言語の文書に対応する第1言語を高精度で効率的に対応付けを行うための言語間対応付け装置、言語間対応付け方法、及びそのプログラムに関する。
【0002】
【従来の技術】
従来、機械翻訳や翻訳メモリによる翻訳支援システムを構築する場合、大規模な対訳コーパスが重要となってきている。対訳コーパスを収集する1つの手段として、文書の対応情報が失われてしまった2つのコーパスから、的にその対応を求める手法が提案されている(例えば、非特許文献1参照。)。
【0003】
非特許文献1に示すように、その多くは対訳辞書を利用しており、特に日本語と英語のように言語的に類似性のない言語ペアの場合には、対訳辞書は不可欠である。
【0004】
一方、例えば、ポルトガル語とスペイン語のように同族の言語ペアの場合には、対訳辞書を使用せずに言語的特徴のみに基づいて対応させることが考えられる。実際、文書の対応ではないが、文や単語等の対応付けに関しては言語の表層的な特徴を利用した対訳手法もある(例えば、非特許文献2参照。)。
【0005】
更に、検索者からの検索キーワードを含む検索指示を入力し、検索者により入力されたキーワードを検索対象の文書に言語に翻訳し、翻訳されたキーワードに基づいて検索式を生成し、生成された検索式に基づいて文書を検索し検索された文書を元の言語に翻訳するものがある(例えば、特許文献1参照。)。
【0006】
【非特許文献1】
高橋大和,白井諭,大山芳史「日英新聞記事の記事対応コーパス作成」言語処理学会第3回年次大会,pp.127−130,1997.
【0007】
【非特許文献2】
J.Veronis(ed.):Parallel Text Processing. Alignment and Use of Translation Corpora.2000(ISBN 0−7923−6546−1)
【0008】
【特許文献1】
特開平10―232883号公報
【0009】
【発明が解決しようとする課題】
しかしながら、対訳辞書には、言語ペアによっては入手困難なものが多い。また、対応付けの候補となる第1言語の文書全てに対して、1つ1つの文書毎に文や単語の対応付けを行うことにより、対応する第1言語の文書を求めることも考えられるが、1つ1つの文書毎に処理を行う必要があるために計算量が膨大となり効率的な処理を行うことができない。
【0010】
本発明は、上述した問題点に鑑みなされたものであり、言語上の類似性に基づいて効率的に高精度な言語間の対応付けを行うための言語間対応付け装置、言語間対応付け方法、及びそのプログラムを提供することを目的とする。
【0011】
【課題を解決するための手段】
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
【0012】
請求項1に記載された発明は、対応付け候補となる複数の第1言語文書から、第2言語文書に対応する該第1言語文書の対応づけを行う言語間対応付け装置において、前記複数の第1言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成部と、前記単語出現位置情報生成部により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成部と、入力される前記第2言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第1言語文書を選択して対応づけを行う最適文書選択部とを有することを特徴とする。
【0013】
請求項1記載の発明によれば、言語上の類似性に基づいて、文書の対応付けを効率的に行うことができる。これにより対訳辞書を使用しないため、辞書精度による対応付けの誤差が生じることなく、高精度に均質な対応付けを行うことができる。
【0014】
請求項2に記載された発明は、前記単語出現位置情報生成部は、入力される前記複数の第1言語文書の文書毎に文書識別情報と、文位置情報と、単語位置情報とに基づいて、単語出現位置情報を生成することを特徴とする。
【0015】
請求項2記載の発明によれば、単語位置出現情報を効率的に生成することができ、また、使用者にも容易に理解できる構成からなる単語出現位置情報を提供することができる。
【0016】
請求項3に記載された発明は、前記文字出現位置情報生成部は、前記単語出現位置情報生成部により得られる前記単語出現位置情報と、単語の文字位置情報とに基づいて、文字出現位置情報を生成することを特徴とする。
【0017】
請求項3記載の発明によれば、単語出現位置情報と文字出現位置情報とを関連づけることができ、対応付けを効率的に行うことができる。
【0018】
請求項4に記載された発明は、前記最適文書選択部は、前記第2言語文書から生成された前記単語出現位置情報及び前記文字出現位置情報と、前記複数の第1言語文書から生成された前記単語出現位置情報及び前記文字出現位置情報とから単語毎の類似度を算出し、算出した単語類似度に基づいて言語間の単語の対応付けを行うことを特徴とする。
【0019】
請求項4記載の発明によれば、単語類似度を算出することにより、効率的に言語間の対応付けを実現することができる。
【0020】
請求項5に記載された発明は、前記最適文書選択部は、前記単語類似度により対応付けられた単語と、前記複数の第1言語文書から生成された単語出現位置情報とから、文書の構文類似度を算出し、算出された構文類似度に基づいて、入力される前記第2言語文書に対応する第1言語文書を選択することを特徴とする。
【0021】
請求項5記載の発明によれば、構文の類似度を算出することにより、高精度な言語間の対応付けを実現することができる。
【0022】
請求項6に記載された発明は、対応付け候補となる複数の第1言語文書から、第2言語文書に対応する該第1言語文書の対応づけを行う言語間対応付け方法において、前記複数の第1言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成段階と、前記単語出現位置情報生成段階により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成段階と、入力される前記第2言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第1言語文書を選択して対応づけを行う最適文書選択段階とを有することを特徴とする。
【0023】
請求項6記載の発明によれば、言語上の類似性に基づいて、文書の対応付けを効率的に行うことができる。これにより対訳辞書を使用しないため、辞書精度による対応付けの誤差が生じることなく、高精度に均質な対応付けを行うことができる。
【0024】
請求項7に記載された発明は、対応付け候補となる複数の第1言語文書から、第2言語文書に対応する該第1言語文書の対応づけをコンピュータに実行させるためのプログラムにおいて、前記複数の第1言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成処理と、前記単語出現位置情報生成処理により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成処理と、入力される前記第2言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第1言語文書を選択して対応づけを行う最適文書選択処理とをコンピュータに実行させる。
【0025】
請求項7記載の発明によれば、言語上の類似性に基づいて、文書の対応付けを効率的に行うことができる。これにより対訳辞書を使用しないため、辞書精度による対応付けの誤差が生じることなく、高精度に均質な対応付けを行うことができる。
【0026】
【発明の実施の形態】
本発明は、第1言語の文書と、その対訳であるにもかかわらず第1言語のどの文書と対応関係があるかが不明である第2言語の文書の中から、第1言語の文書と第2言語の文書との間の対応関係を自動的につけるものであり、第1言語と第2言語との言語的類似性を効率的に計算することができる単語・文字出現位置情報のデータ構造を用いることにより、第2言語の文書に対応する第1言語の文書を効率的に高精度な対応付けすることを可能としたものである。
【0027】
つまり、対応付けの候補となる第1言語文書の全ての単語出現位置及び文字出現位置を予め計算して格納しておき、効率的に類似した文書を求めることにより、高速に高精度な文書の対応付けを行うことを可能としたものである。
【0028】
次に、本発明における実施の形態について図を用いて説明する。図1は、本発明における言語間対応付け装置の一構成例を示す図である。
【0029】
図1の言語間対応付け装置1は、文書収集部11と、単語出現位置情報生成部12と、文字出現位置情報生成部13と、単語・文字出現位置情報格納部14と、出現位置データベース15と、最適文書選択部16とを有するよう構成されている。
【0030】
図1において、in1は、対応する第1言語の文書を求めたい第2言語の文書を入力する端子である。文書収集部11は、対応付けの候補となる第1言語の文書、また、第1言語に対応付けを行う第2の言語を収集する装置である。
【0031】
単語出現位置情報生成部12は、文書収集部11で集められた文書に含まれる全ての単語の出現位置を計算する。文字出現位置情報生成部13は、単語出現位置情報生成部12にて計算された全ての単語を入力し、入力された情報を基に、文字の出現位置を計算する。単語・文字出現位置情報格納部14は、単語出現位置情報生成部12によって得られた単語出現位置及び文字位置計算装置13によって得られた文字出現位置を出現位置データベース15に格納しておく。なお、出現位置データベース15の具体的な内容については後述する。
【0032】
また、端子in2から第2言語が入力された場合に、その第2言語に対して文書収集、単語出現位置計算、文字出現位置計算の各処理を行った後、最適文書選択部16は、第1言語における文字出現位置及び単語出現位置を出現位置データベース15から取得し、類似度を計算して、計算された類似度に基づいて第2言語の文書に対応する第1言語の最適な文書を選択して、端子(out1)より対応する第1言語の文書を出力する。out1はモニタ等に接続して使用者に表示させたり、他の出力装置にて出力させることができる。
【0033】
なお、上述では言語文書のデータを入力する端子(in1,in2)を別に設けているが、本発明においてはこの限りではなく、例えば、1つの端子から入力されてもよい。また、文書収集部11と、単語出現位置情報生成部12と、文字出現位置情報生成部13とを端子毎に別々に設けてもよい。
【0034】
ここで、上述の言語間対応付け装置1に示すような専用の装置構成により本発明における言語間の対応付けを行うこともできるが、上述した言語間の対応付けステップをコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にインストールすることにより本発明における言語間の対応付けが実現可能となる。
【0035】
ここで、本発明における言語間の対応付けが実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図2は、本発明における言語間の対応付けが実現可能なハードウェア構成の一例を示す図である。
【0036】
図2におけるコンピュータ本体には、入力装置21と、出力装置22と、ドライブ装置23と、補助記憶装置24と、メモリ装置25と、各種制御を行うCPU(Central Processing Unit)26と、ネットワーク接続装置27とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
【0037】
入力装置21は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置22は、本発明における言語間の対応付けを行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するモニタを有し、CPU26に有する制御プログラムに基づいてプログラム実行結果等を表示することができる。
【0038】
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体28等により提供される。プログラムを記録した記録媒体28はドライブ装置23にセット可能であり、記録媒体28に含まれる実行プログラムが、記録媒体28からドライブ装置23を介して補助記憶装置24にインストールされる。
【0039】
補助記憶装置24は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラムの他に、ドライブ装置23から読み取ることができる第1言語又は第2言語のデータを蓄積し、必要に応じて入出力を行うことができる。また、後述する単語出現位置計算処理及び文字出現位置計算処理にて得られた単語出現テーブル及び文字出現テーブルである出現位置テーブルを格納する。更に、実行プログラムにより対応付けされた言語情報や言語データを記憶することもできる。
【0040】
CPU26は、OS(Operating System)等の制御プログラム、メモリ装置25により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御する。
【0041】
また、CPU26は、本発明における実行プログラム及び制御プログラムにより、記文書収集部11と、単語出現位置情報生成部12と、文字出現位置情報生成部13と、単語・文字出現位置情報格納部14と、最適文書選択部16とにおける処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置24から取得することができ、また格納することもできる。
【0042】
ネットワーク接続装置27は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、言語間の対応付け手順を規定したプログラムを実行することで得られた情報若しくは本発明における言語間の対応付けを実行するための実行プログラム自体を他の端末等に提供することができる。
【0043】
なお、本発明における言語間を対応付けするためのプログラムはCD−ROM等の持ち運び可能な記録媒体28に格納することにより任意の端末で実行することができる。上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで高精度な言語間の対応づけを行うことができる。
【0044】
次に、本発明における文書間の対応付けを行う手順についてフローチャートを用いて説明する。なお、本発明では、基準情報となる第1言語の出現位置情報格納処理手順と、第2言語を第1言語に対応付けを行う対応付け処理手順について説明する。
【0045】
図3は、本発明における単語・文字出現位置情報格納処理手順の一例を示すフローチャートである。なお、後述する処理説明では図1に示す言語間対応付け装置1の構成内容に対応させて説明する。
【0046】
まず、端子in1より対訳の候補となる第1言語情報が入力されると、文書収集部11は、入力される第1言語の文章に文書番号をユニークに割り当てる。また、入力された日付に基づいて複数の第1言語文書、つまり対応付けの候補となる第1言語文書を収集する(S01)。例えば、テレビジョンのニュース記事では過去3日分の文書から他の国で使用するために翻訳が行われる可能性が非常に高いため、過去3日分の第1言語文書を収集する。
【0047】
次に、単語出現位置計算部12により、S01で収集された文書中の全ての単語に対して夫々の単語が出現する位置(単語出現位置)を求め、単語出現位置格納装置に格納する(S02)。次に、文字出現位置情報生成部13は、S02により格納された単語中の全ての文字に対して、夫々の文字、例えば、a,b等の英字等が該当するがその文字が出現する位置(文字出現位置)を求め、単語・文字出現位置情報格納部14へ出力される。
【0048】
単語・文字出現位置情報格納部14は、S03までで生成されている文字出現位置を出現位置データベース15に格納する(S04)。
【0049】
ここで、格納される出現位置データベース例について図を用いて説明する。なお、本実地例では、2つの言語として第1言語にポルトガル語、第2言語にスペイン語を示す。ここに示すポルトガル語、スペイン語は単語のアルファベットが類似しているだけでなく構文的にも類似性が高い。このような類似言語は、同族の人種に多く見られ、欧米間での関連性も高い。この他にも、イタリア語、ドイツ語、スウェーデン語等にも適用でき、本発明では、このような類似言語を効率的に対応付けを行うことができる。
【0050】
図4は、本発明における出現位置データベースを作成する基となる第1言語の文書の一例を示す図である。また、図5は、図4に基づいて生成された出現位置データベースの一例を示す図である。ここで、図4は、第1言語としてスペイン語の例であり、図5(a)は、図4のスペイン語から生成される単語出現位置テーブルを示し、図5(b)は、図5(a)から生成される文字出現位置テーブルを示している。
【0051】
まず、文書収集部11が入力された複数の第1言語の文書にユニークな文書番号を割り当てる。次に、単語出現位置情報生成部12が文書番号を有する複数の第1言語文書から、この文書番号と各文書の文毎に何番目の単語であるかがわかるよう関連付けた単語出現位置情報を生成する。
【0052】
例えば、図4において文書番号0008の第1文に含まれる単語では単語出現位置を8桁の数字ZZZZWWVVを用いて定義し、ZZZZは文書番号、WWは文書中の何番目かを表す文番号、VVは文中の何番目の単語かを表す単語番号を表している。例えば、”Ministra”が、文書番号0008(ZZZZ=0008)の1番目の文(WW=01)の2番目の単語(VV=02)であるならば、単語出現位置は00080102となる。なお、この例以外にも単語出現位置の定義としてはこの限りではなく、単語の出現位置がどの文章のどの位置にあるかが明確に識別できるような識別情報により関連付けられていればよく、桁数も限定されるものではない。
【0053】
したがって、英字、数字、記号、漢字等を組み合わせて位置情報を関連づけることができる。なお、単語間の区切りは、日本語のように形態素解析等の処理は必要なくスペースによる区切りとなる。
【0054】
次に、図5(b)に示すように、S03では、文字出現位置情報生成部13がS02で格納された単語中の全ての文字に対して、夫々が出現する位置(文字出現位置)を求め、文字出現位置格納装置に格納する。例えば、上述の例では次のように求められる。文字出現位置計算においては、文字出現位置は7桁の数字XXXXYYYで定義し、XXXXは単語順におけるユニークなエントリー番号、YYYはその単語の先頭からの番号(位置情報)を表している。
【0055】
ここで、例えば図5(a)に示す単語のエントリー番号(XXXX)が0211である“Ministra”の1番目の文字M(YYY=001)では、文字出現位置は0211001となる。なお、この例以外にも文字出現位置の定義としてはこの限りではなく、文字の出現位置がどの文章のどの位置にあるかが明確になるよう単語出現位置情報との関連付けがされていればよい。
【0056】
更に、S04では、単語・文字出現位置情報格納部14がS02のステップにおいて得られる単語毎に単語出現位置をまとめ、単語をアルファベット順にソートしてエントリー番号をつけ、図5(a)に示すように単語出現位置テーブル15に格納する。また、S03のステップにおいて得られる文字毎に文字出現位置をまとめ,文字をアルファベット順にソートして,文字出現位置を図5(b)に示すように文字出現位置テーブルに格納することができる。なお、図5(b)では、大文字、小文字を区別して格納している。これにより、構文に類似性が高い言語間においては、より高精度な対応付けを行うことができる。
【0057】
なお、上述の単語出現位置情報の生成及び文字出現位置情報については、文章中の全単語及び全文字について行う。したがって、単語出現位置、文字出現位置は、複数の出現位置情報が単語毎又は文字毎に格納される。また、出現位置データベース15には、文書収集部11にてユニークに文書番号が付与された文書(図4)も格納される。
【0058】
次に、第2言語を第1言語に対応付けを行う対応付け処理手順について説明する。図6は、本発明における対応付け処理の手順を示す一例のフローチャートである。
【0059】
図6では、端子in2により第1言語に対応付けを行いたい第2言語が入力されると、文書収集部11は、文書毎にユニークな文書番号を付与する(S11)。次に、単語出現位置情報生成部12は、入力される文書の単語出現位置を生成する(S12)。ここでは、上述したS02のステップと同様に処理を行う。S12のステップが終了後、S12にて得られた単語出現位置情報に基づいて文字出現位置情報生成部13は、文字出現位置情報を生成する(S13)。次に、最適文書選択部16は、単語位置情報及び文字位置情報に基づいて類似単語を抽出する(S14)。ここでは、上述した単語・文字の出現位置情報格納処理の手順におけるS01〜S04のステップにより生成された出現位置データベースとの類似度を計算する。
【0060】
S14では、最適文書選択部16が第2言語の文書中の単語に対して、S01〜S04で格納された文字出現位置を用いて単語類似度を計算し、第1言語中に出現する類似単語を抽出する。例えば、単語類似度を2つの単語中一致する文字数からDice係数で定義する。また、2文字以上連続して一致する文字列を優先し、一致する文字列の連続性に基づく文字出現位置を利用して単語類似度を求める。
【0061】
次に、最適文書選択部16は、S14にて得られた類似単語の類似性に基づいて、入力された第2言語の文章に対して最適な対応関係となる文書を出現位置データベースから選択し、端子out1から出力する(S15)。この端子out1から出力される情報を、例えば、図2における出力装置22を用いて表示することにより、作業者が容易に言語間の対応言語同士を取得することができる。
【0062】
これにより、機械翻訳等による翻訳機能を有することなく、効率的に高精度な言語間の対応付けを行うことができる。
【0063】
ここで、対応付け処理の具体的な例について図を用いて説明する。なお、第1言語は上述したスペイン語より生成される出現位置データベースを用いる。
【0064】
図7は、第1言語と対応付けを行う第2言語の一例を示す図である。図7に示すポルトガル語に対応するスペイン語の文章の抽出及び出力を行う。
【0065】
例えば、ポルトガル語の文書中の2単語目である“ministra”は、2文字目以降の文字“inistra”の文字出現位置が図5(b)のスペイン語の文字出現位置の下線部にあるように、0211002(i)、0211003(n),・・・,0211008(a)と連続しているので、単語出現位置辞のエントリー番号0211の単語“Ministra”と7文字一致していることがわかる。このとき、ポルトガル語の“ministra”とスペイン語の“Ministra”との単語類似度はDice係数に基づいて、分母は比較する文字通しの合計数(8文字+8文字)で、分子はマッチした文字数(ここでは、7文字一致×比較するお互いの文字が一致する文字なので、2倍)であるため、単語類似度は(2*7)/(8+8)=0.875と計算される。
【0066】
同様にして、ポルトガル語の単語“ministra”に類似した、スペイン語の単語が他に“ministra”,“Ministro”と求めることができる。ポルトガル語の文書の全ての単語に対して類似した単語を求めると、図8に示す本実施例における言語間対応付けの一例に示すようになる。
【0067】
つまり、S14では、出現位置データベースの内容を用いてスペイン語における複数の文書に対して、図8の下線で示すように類似した単語の抽出を行う。
【0068】
なお、抽出を容易に行う方法としては、第2言語の1文字に対して図5(b)の文字出現位置テーブルから文字出現位置情報を抽出する際、文字の出現位置を示す番号(上述において、YYY)だけを参照し、一致する文字出現位置情報を最初に抽出して、その後単語類似度を算出するようにする。これにより、文字出現位置テーブルの文字に対応した全ての文字出現位置情報から算出する必要がないので、効率的に単語の対応付けを行うことができる。
【0069】
次に、単語類似度により抽出した類似単語に基づいて、S15にて構文類似度を計算し第2言語に対応する第1言語の文書を取得する。
【0070】
S15では、S14で抽出された第1言語中に出現する類似単語に対して、S02で格納された単語出現位置を用いて構文類似度を計算し、最も類似度が高い第1言語中の文書を求め、端子out1から出力する。例えば、構文類似度を、単語出現位置が長く連続しているものが高いと定義する。このとき、単語列の並びが連続して一致する箇所のスコアを3(n:連続して一致する単語数)として文章中の総スコアを算出する。ここで、図8に示す例で単語出現位置が連続しているスペイン語の単語を結ぶと図9に示す第1言語における構文類似度結果の一例のようになる。
【0071】
図9に示すように、最も連続している単語列は、”La Ministra de Educacion y Ciencias de Japon …”であるので、それを含むスペイン語の文書番号0008が最も類似度が高く、最適な文書として求められ、出現位置データベースから文書番号に対応する文書を選択されて端子out1に出力される。
【0072】
上述したように本発明によれば、同族語の2つの言語を対象にして、対訳辞書を使わずに、言語上の類似性に基づいて、文書対応を効率的に行うことができる。これにより対訳辞書を使用しないため、辞書精度による対応付けの誤差が生じることなく、高精度に均質な対応付けを行うことができる。
【0073】
なお、他の同族語言語ペアとしては、英語―ドイツ語、英語―スウェーデン語、ヒンディー語―ウルドゥ語についても可能である。
【0074】
更に、第1言語文書における単語出現位置情報及び文字出現位置情報を生成することにより、効率的に高精度な対応付けを行うことができる。より多くの第1言語文書を用いることで、対応付けの誤差なく、より高精度な対応付けを行うことができる。
【0075】
なお、単語類似度を計算する際には、大文字、小文字を区別しない、先頭の1文字の一致を利用する、他の類似度の算出等を用いることにより、より多様な対応づけを実現する。
【0076】
また、上述した出現位置データベースにおいて、多数言語からなる出現位置データベースを有することにより、1つの言語から複数の言語間での対応付けを容易に行うことができる。
【0077】
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
【0078】
【発明の効果】
本発明によれば、効率的に高精度な言語間の対応付けを行うことができる。
【図面の簡単な説明】
【図1】本発明における言語間対応付け装置の一構成例を示す図である。
【図2】本発明における言語間の対応付けが実現可能なハードウェア構成の一例を示す図である。
【図3】本発明における単語・文字出現位置情報格納処理手順の一例を示すフローチャートである。
【図4】本発明における出現位置データベースを作成する基となる第1言語の文書の一例を示す図である。
【図5】図4に基づいて生成された出現位置データベースの一例を示す図である。
【図6】本発明における対応付け処理の手順を示す一例のフローチャートである。
【図7】第1言語と対応付けを行う第2言語の一例を示す図である。
【図8】本実施例における言語間対応付けの一例を示す図である。
【図9】第1言語における構文類似度結果の一例を示す図である。
【符号の説明】
1 言語間対応付け装置
11 文書収集部
12 単語出現位置情報生成部
13 文字出現位置情報生成部
14 単語・文字出現位置情報格納部
15 出現位置データベース
16 最適文書選択部
21 入力装置
22 出力装置
23 ドライブ装置
24 補助記憶装置
25 メモリ装置
26 CPU
27 ネットワーク接続装置
28 記録媒体

Claims (7)

  1. 対応付け候補となる複数の第1言語文書から、第2言語文書に対応する該第1言語文書の対応づけを行う言語間対応付け装置において、
    前記複数の第1言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成部と、
    前記単語出現位置情報生成部により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成部と、
    入力される前記第2言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第1言語文書を選択して対応づけを行う最適文書選択部とを有することを特徴とする言語間対応付け装置。
  2. 前記単語出現位置情報生成部は、
    入力される前記複数の第1言語文書の文書毎に文書識別情報と、文位置情報と、単語位置情報とに基づいて、単語出現位置情報を生成することを特徴とする請求項1に記載の言語間対応付け装置。
  3. 前記文字出現位置情報生成部は、
    前記単語出現位置情報生成部により得られる前記単語出現位置情報と、単語の文字位置情報とに基づいて、文字出現位置情報を生成することを特徴とする請求項2に記載の言語間対応付け装置。
  4. 前記最適文書選択部は、
    前記第2言語文書から生成された前記単語出現位置情報及び前記文字出現位置情報と、
    前記複数の第1言語文書から生成された前記単語出現位置情報及び前記文字出現位置情報とから単語毎の類似度を算出し、算出した単語類似度に基づいて言語間の単語の対応付けを行うことを特徴とする請求項1に記載の言語間対応付け装置。
  5. 前記最適文書選択部は、
    前記単語類似度により対応付けられた単語と、前記複数の第1言語文書から生成された単語出現位置情報とから、文書の構文類似度を算出し、算出された構文類似度に基づいて、入力される前記第2言語文書に対応する第1言語文書を選択することを特徴とする請求項4に記載の言語間対応付け装置。
  6. 対応付け候補となる複数の第1言語文書から、第2言語文書に対応する該第1言語文書の対応づけを行う言語間対応付け方法において、
    前記複数の第1言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成段階と、
    前記単語出現位置情報生成段階により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成段階と、
    入力される前記第2言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第1言語文書を選択して対応づけを行う最適文書選択段階とを有することを特徴とする言語間対応付け方法。
  7. 対応付け候補となる複数の第1言語文書から、第2言語文書に対応する該第1言語文書の対応づけをコンピュータに実行させるためのプログラムにおいて、
    前記複数の第1言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成処理と、
    前記単語出現位置情報生成処理により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成処理と、
    入力される前記第2言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第1言語文書を選択して対応づけを行う最適文書選択処理とをコンピュータに実行させるためのプログラム。
JP2003068163A 2003-03-13 2003-03-13 言語間対応付け装置、及び言語間対応付けプログラム Expired - Fee Related JP3977270B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003068163A JP3977270B2 (ja) 2003-03-13 2003-03-13 言語間対応付け装置、及び言語間対応付けプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003068163A JP3977270B2 (ja) 2003-03-13 2003-03-13 言語間対応付け装置、及び言語間対応付けプログラム

Publications (2)

Publication Number Publication Date
JP2004280255A true JP2004280255A (ja) 2004-10-07
JP3977270B2 JP3977270B2 (ja) 2007-09-19

Family

ID=33285577

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003068163A Expired - Fee Related JP3977270B2 (ja) 2003-03-13 2003-03-13 言語間対応付け装置、及び言語間対応付けプログラム

Country Status (1)

Country Link
JP (1) JP3977270B2 (ja)

Also Published As

Publication number Publication date
JP3977270B2 (ja) 2007-09-19

Similar Documents

Publication Publication Date Title
CN100511215C (zh) 多语种翻译存储器和翻译方法
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP3969628B2 (ja) 翻訳支援装置、方法及び翻訳支援プログラム
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
Dagan et al. Termight: Coordinating humans and machines in bilingual terminology acquisition
CN100454294C (zh) 用于将日文翻译成中文的设备
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
JP6160438B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
KR20070059869A (ko) 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법
CN115796194A (zh) 一种基于机器学习的英语翻译系统
JPH08106474A (ja) 類似例文検索結果表示方法及び装置
JP2010067021A (ja) 機械翻訳装置及び機械翻訳プログラム
JP2004280255A (ja) 言語間対応付け装置、言語間対応付け方法、及びそのプログラム
Debnath et al. A Hybrid Approach to Design Automatic Spelling Corrector and Converter for Transliterated Bangla Words
JP5505028B2 (ja) 翻訳支援装置、方法及びプログラム
KR100831037B1 (ko) 병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및장치
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
JP2006228242A (ja) 翻訳装置、翻訳プログラム及び翻訳方法
JP3574199B2 (ja) データベース検索方式
JP6221339B2 (ja) 翻訳装置及び翻訳方法
JP5039114B2 (ja) 機械翻訳装置及びプログラム
Joshi et al. Code Mixed Information Retrieval for Gujarati Script News Articles
JPH08329059A (ja) 汎用参照装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070306

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070522

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070620

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100629

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110629

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120629

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees