JP2004280255A

JP2004280255A - 言語間対応付け装置、言語間対応付け方法、及びそのプログラム

Info

Publication number: JP2004280255A
Application number: JP2003068163A
Authority: JP
Inventors: Naoto Kato; 直人加藤; Terumasa Ebara; 暉将江原
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2003-03-13
Filing date: 2003-03-13
Publication date: 2004-10-07
Anticipated expiration: 2023-03-13
Also published as: JP3977270B2

Abstract

【課題】効率的に高精度な言語間の対応付けを行うことを目的とする。
【解決手段】対応付け候補となる複数の第１言語文書から、第２言語文書に対応する該第１言語文書の対応づけを行う言語間対応付け装置において、前記複数の第１言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成部と、前記単語出現位置情報生成部により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成部と、入力される前記第２言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第１言語文書を選択して対応づけを行う最適文書選択部とを有することにより、上記課題を解決する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、言語間対応付け装置、言語間対応付け方法、及びそのプログラムに係り、特に、第１言語と第２言語の言語的類似性を効率的に計算し、第２言語の文書に対応する第１言語を高精度で効率的に対応付けを行うための言語間対応付け装置、言語間対応付け方法、及びそのプログラムに関する。
【０００２】
【従来の技術】
従来、機械翻訳や翻訳メモリによる翻訳支援システムを構築する場合、大規模な対訳コーパスが重要となってきている。対訳コーパスを収集する１つの手段として、文書の対応情報が失われてしまった２つのコーパスから、的にその対応を求める手法が提案されている（例えば、非特許文献１参照。）。
【０００３】
非特許文献１に示すように、その多くは対訳辞書を利用しており、特に日本語と英語のように言語的に類似性のない言語ペアの場合には、対訳辞書は不可欠である。
【０００４】
一方、例えば、ポルトガル語とスペイン語のように同族の言語ペアの場合には、対訳辞書を使用せずに言語的特徴のみに基づいて対応させることが考えられる。実際、文書の対応ではないが、文や単語等の対応付けに関しては言語の表層的な特徴を利用した対訳手法もある（例えば、非特許文献２参照。）。
【０００５】
更に、検索者からの検索キーワードを含む検索指示を入力し、検索者により入力されたキーワードを検索対象の文書に言語に翻訳し、翻訳されたキーワードに基づいて検索式を生成し、生成された検索式に基づいて文書を検索し検索された文書を元の言語に翻訳するものがある（例えば、特許文献１参照。）。
【０００６】
【非特許文献１】
高橋大和，白井諭，大山芳史「日英新聞記事の記事対応コーパス作成」言語処理学会第３回年次大会，ｐｐ．１２７−１３０，１９９７．
【０００７】
【非特許文献２】
Ｊ．Ｖｅｒｏｎｉｓ（ｅｄ．）：ＰａｒａｌｌｅｌＴｅｘｔＰｒｏｃｅｓｓｉｎｇ．ＡｌｉｇｎｍｅｎｔａｎｄＵｓｅｏｆＴｒａｎｓｌａｔｉｏｎＣｏｒｐｏｒａ．２０００（ＩＳＢＮ０−７９２３−６５４６−１）
【０００８】
【特許文献１】
特開平１０―２３２８８３号公報
【０００９】
【発明が解決しようとする課題】
しかしながら、対訳辞書には、言語ペアによっては入手困難なものが多い。また、対応付けの候補となる第１言語の文書全てに対して、１つ１つの文書毎に文や単語の対応付けを行うことにより、対応する第１言語の文書を求めることも考えられるが、１つ１つの文書毎に処理を行う必要があるために計算量が膨大となり効率的な処理を行うことができない。
【００１０】
本発明は、上述した問題点に鑑みなされたものであり、言語上の類似性に基づいて効率的に高精度な言語間の対応付けを行うための言語間対応付け装置、言語間対応付け方法、及びそのプログラムを提供することを目的とする。
【００１１】
【課題を解決するための手段】
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
【００１２】
請求項１に記載された発明は、対応付け候補となる複数の第１言語文書から、第２言語文書に対応する該第１言語文書の対応づけを行う言語間対応付け装置において、前記複数の第１言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成部と、前記単語出現位置情報生成部により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成部と、入力される前記第２言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第１言語文書を選択して対応づけを行う最適文書選択部とを有することを特徴とする。
【００１３】
請求項１記載の発明によれば、言語上の類似性に基づいて、文書の対応付けを効率的に行うことができる。これにより対訳辞書を使用しないため、辞書精度による対応付けの誤差が生じることなく、高精度に均質な対応付けを行うことができる。
【００１４】
請求項２に記載された発明は、前記単語出現位置情報生成部は、入力される前記複数の第１言語文書の文書毎に文書識別情報と、文位置情報と、単語位置情報とに基づいて、単語出現位置情報を生成することを特徴とする。
【００１５】
請求項２記載の発明によれば、単語位置出現情報を効率的に生成することができ、また、使用者にも容易に理解できる構成からなる単語出現位置情報を提供することができる。
【００１６】
請求項３に記載された発明は、前記文字出現位置情報生成部は、前記単語出現位置情報生成部により得られる前記単語出現位置情報と、単語の文字位置情報とに基づいて、文字出現位置情報を生成することを特徴とする。
【００１７】
請求項３記載の発明によれば、単語出現位置情報と文字出現位置情報とを関連づけることができ、対応付けを効率的に行うことができる。
【００１８】
請求項４に記載された発明は、前記最適文書選択部は、前記第２言語文書から生成された前記単語出現位置情報及び前記文字出現位置情報と、前記複数の第１言語文書から生成された前記単語出現位置情報及び前記文字出現位置情報とから単語毎の類似度を算出し、算出した単語類似度に基づいて言語間の単語の対応付けを行うことを特徴とする。
【００１９】
請求項４記載の発明によれば、単語類似度を算出することにより、効率的に言語間の対応付けを実現することができる。
【００２０】
請求項５に記載された発明は、前記最適文書選択部は、前記単語類似度により対応付けられた単語と、前記複数の第１言語文書から生成された単語出現位置情報とから、文書の構文類似度を算出し、算出された構文類似度に基づいて、入力される前記第２言語文書に対応する第１言語文書を選択することを特徴とする。
【００２１】
請求項５記載の発明によれば、構文の類似度を算出することにより、高精度な言語間の対応付けを実現することができる。
【００２２】
請求項６に記載された発明は、対応付け候補となる複数の第１言語文書から、第２言語文書に対応する該第１言語文書の対応づけを行う言語間対応付け方法において、前記複数の第１言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成段階と、前記単語出現位置情報生成段階により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成段階と、入力される前記第２言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第１言語文書を選択して対応づけを行う最適文書選択段階とを有することを特徴とする。
【００２３】
請求項６記載の発明によれば、言語上の類似性に基づいて、文書の対応付けを効率的に行うことができる。これにより対訳辞書を使用しないため、辞書精度による対応付けの誤差が生じることなく、高精度に均質な対応付けを行うことができる。
【００２４】
請求項７に記載された発明は、対応付け候補となる複数の第１言語文書から、第２言語文書に対応する該第１言語文書の対応づけをコンピュータに実行させるためのプログラムにおいて、前記複数の第１言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成処理と、前記単語出現位置情報生成処理により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成処理と、入力される前記第２言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第１言語文書を選択して対応づけを行う最適文書選択処理とをコンピュータに実行させる。
【００２５】
請求項７記載の発明によれば、言語上の類似性に基づいて、文書の対応付けを効率的に行うことができる。これにより対訳辞書を使用しないため、辞書精度による対応付けの誤差が生じることなく、高精度に均質な対応付けを行うことができる。
【００２６】
【発明の実施の形態】
本発明は、第１言語の文書と、その対訳であるにもかかわらず第１言語のどの文書と対応関係があるかが不明である第２言語の文書の中から、第１言語の文書と第２言語の文書との間の対応関係を自動的につけるものであり、第１言語と第２言語との言語的類似性を効率的に計算することができる単語・文字出現位置情報のデータ構造を用いることにより、第２言語の文書に対応する第１言語の文書を効率的に高精度な対応付けすることを可能としたものである。
【００２７】
つまり、対応付けの候補となる第１言語文書の全ての単語出現位置及び文字出現位置を予め計算して格納しておき、効率的に類似した文書を求めることにより、高速に高精度な文書の対応付けを行うことを可能としたものである。
【００２８】
次に、本発明における実施の形態について図を用いて説明する。図１は、本発明における言語間対応付け装置の一構成例を示す図である。
【００２９】
図１の言語間対応付け装置１は、文書収集部１１と、単語出現位置情報生成部１２と、文字出現位置情報生成部１３と、単語・文字出現位置情報格納部１４と、出現位置データベース１５と、最適文書選択部１６とを有するよう構成されている。
【００３０】
図１において、ｉｎ１は、対応する第１言語の文書を求めたい第２言語の文書を入力する端子である。文書収集部１１は、対応付けの候補となる第１言語の文書、また、第１言語に対応付けを行う第２の言語を収集する装置である。
【００３１】
単語出現位置情報生成部１２は、文書収集部１１で集められた文書に含まれる全ての単語の出現位置を計算する。文字出現位置情報生成部１３は、単語出現位置情報生成部１２にて計算された全ての単語を入力し、入力された情報を基に、文字の出現位置を計算する。単語・文字出現位置情報格納部１４は、単語出現位置情報生成部１２によって得られた単語出現位置及び文字位置計算装置１３によって得られた文字出現位置を出現位置データベース１５に格納しておく。なお、出現位置データベース１５の具体的な内容については後述する。
【００３２】
また、端子ｉｎ２から第２言語が入力された場合に、その第２言語に対して文書収集、単語出現位置計算、文字出現位置計算の各処理を行った後、最適文書選択部１６は、第１言語における文字出現位置及び単語出現位置を出現位置データベース１５から取得し、類似度を計算して、計算された類似度に基づいて第２言語の文書に対応する第１言語の最適な文書を選択して、端子（ｏｕｔ１）より対応する第１言語の文書を出力する。ｏｕｔ１はモニタ等に接続して使用者に表示させたり、他の出力装置にて出力させることができる。
【００３３】
なお、上述では言語文書のデータを入力する端子（ｉｎ１，ｉｎ２）を別に設けているが、本発明においてはこの限りではなく、例えば、１つの端子から入力されてもよい。また、文書収集部１１と、単語出現位置情報生成部１２と、文字出現位置情報生成部１３とを端子毎に別々に設けてもよい。
【００３４】
ここで、上述の言語間対応付け装置１に示すような専用の装置構成により本発明における言語間の対応付けを行うこともできるが、上述した言語間の対応付けステップをコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にインストールすることにより本発明における言語間の対応付けが実現可能となる。
【００３５】
ここで、本発明における言語間の対応付けが実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図２は、本発明における言語間の対応付けが実現可能なハードウェア構成の一例を示す図である。
【００３６】
図２におけるコンピュータ本体には、入力装置２１と、出力装置２２と、ドライブ装置２３と、補助記憶装置２４と、メモリ装置２５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２６と、ネットワーク接続装置２７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。
【００３７】
入力装置２１は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置２２は、本発明における言語間の対応付けを行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するモニタを有し、ＣＰＵ２６に有する制御プログラムに基づいてプログラム実行結果等を表示することができる。
【００３８】
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、ＣＤ−ＲＯＭ等の記録媒体２８等により提供される。プログラムを記録した記録媒体２８はドライブ装置２３にセット可能であり、記録媒体２８に含まれる実行プログラムが、記録媒体２８からドライブ装置２３を介して補助記憶装置２４にインストールされる。
【００３９】
補助記憶装置２４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラムの他に、ドライブ装置２３から読み取ることができる第１言語又は第２言語のデータを蓄積し、必要に応じて入出力を行うことができる。また、後述する単語出現位置計算処理及び文字出現位置計算処理にて得られた単語出現テーブル及び文字出現テーブルである出現位置テーブルを格納する。更に、実行プログラムにより対応付けされた言語情報や言語データを記憶することもできる。
【００４０】
ＣＰＵ２６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、メモリ装置２５により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御する。
【００４１】
また、ＣＰＵ２６は、本発明における実行プログラム及び制御プログラムにより、記文書収集部１１と、単語出現位置情報生成部１２と、文字出現位置情報生成部１３と、単語・文字出現位置情報格納部１４と、最適文書選択部１６とにおける処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置２４から取得することができ、また格納することもできる。
【００４２】
ネットワーク接続装置２７は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、言語間の対応付け手順を規定したプログラムを実行することで得られた情報若しくは本発明における言語間の対応付けを実行するための実行プログラム自体を他の端末等に提供することができる。
【００４３】
なお、本発明における言語間を対応付けするためのプログラムはＣＤ−ＲＯＭ等の持ち運び可能な記録媒体２８に格納することにより任意の端末で実行することができる。上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで高精度な言語間の対応づけを行うことができる。
【００４４】
次に、本発明における文書間の対応付けを行う手順についてフローチャートを用いて説明する。なお、本発明では、基準情報となる第１言語の出現位置情報格納処理手順と、第２言語を第１言語に対応付けを行う対応付け処理手順について説明する。
【００４５】
図３は、本発明における単語・文字出現位置情報格納処理手順の一例を示すフローチャートである。なお、後述する処理説明では図１に示す言語間対応付け装置１の構成内容に対応させて説明する。
【００４６】
まず、端子ｉｎ１より対訳の候補となる第１言語情報が入力されると、文書収集部１１は、入力される第１言語の文章に文書番号をユニークに割り当てる。また、入力された日付に基づいて複数の第１言語文書、つまり対応付けの候補となる第１言語文書を収集する（Ｓ０１）。例えば、テレビジョンのニュース記事では過去３日分の文書から他の国で使用するために翻訳が行われる可能性が非常に高いため、過去３日分の第１言語文書を収集する。
【００４７】
次に、単語出現位置計算部１２により、Ｓ０１で収集された文書中の全ての単語に対して夫々の単語が出現する位置（単語出現位置）を求め、単語出現位置格納装置に格納する（Ｓ０２）。次に、文字出現位置情報生成部１３は、Ｓ０２により格納された単語中の全ての文字に対して、夫々の文字、例えば、ａ，ｂ等の英字等が該当するがその文字が出現する位置（文字出現位置）を求め、単語・文字出現位置情報格納部１４へ出力される。
【００４８】
単語・文字出現位置情報格納部１４は、Ｓ０３までで生成されている文字出現位置を出現位置データベース１５に格納する（Ｓ０４）。
【００４９】
ここで、格納される出現位置データベース例について図を用いて説明する。なお、本実地例では、２つの言語として第１言語にポルトガル語、第２言語にスペイン語を示す。ここに示すポルトガル語、スペイン語は単語のアルファベットが類似しているだけでなく構文的にも類似性が高い。このような類似言語は、同族の人種に多く見られ、欧米間での関連性も高い。この他にも、イタリア語、ドイツ語、スウェーデン語等にも適用でき、本発明では、このような類似言語を効率的に対応付けを行うことができる。
【００５０】
図４は、本発明における出現位置データベースを作成する基となる第１言語の文書の一例を示す図である。また、図５は、図４に基づいて生成された出現位置データベースの一例を示す図である。ここで、図４は、第１言語としてスペイン語の例であり、図５（ａ）は、図４のスペイン語から生成される単語出現位置テーブルを示し、図５（ｂ）は、図５（ａ）から生成される文字出現位置テーブルを示している。
【００５１】
まず、文書収集部１１が入力された複数の第１言語の文書にユニークな文書番号を割り当てる。次に、単語出現位置情報生成部１２が文書番号を有する複数の第１言語文書から、この文書番号と各文書の文毎に何番目の単語であるかがわかるよう関連付けた単語出現位置情報を生成する。
【００５２】
例えば、図４において文書番号０００８の第１文に含まれる単語では単語出現位置を８桁の数字ＺＺＺＺＷＷＶＶを用いて定義し、ＺＺＺＺは文書番号、ＷＷは文書中の何番目かを表す文番号、ＶＶは文中の何番目の単語かを表す単語番号を表している。例えば、”Ｍｉｎｉｓｔｒａ”が、文書番号０００８（ＺＺＺＺ＝０００８）の１番目の文（ＷＷ＝０１）の２番目の単語（ＶＶ＝０２）であるならば、単語出現位置は０００８０１０２となる。なお、この例以外にも単語出現位置の定義としてはこの限りではなく、単語の出現位置がどの文章のどの位置にあるかが明確に識別できるような識別情報により関連付けられていればよく、桁数も限定されるものではない。
【００５３】
したがって、英字、数字、記号、漢字等を組み合わせて位置情報を関連づけることができる。なお、単語間の区切りは、日本語のように形態素解析等の処理は必要なくスペースによる区切りとなる。
【００５４】
次に、図５（ｂ）に示すように、Ｓ０３では、文字出現位置情報生成部１３がＳ０２で格納された単語中の全ての文字に対して、夫々が出現する位置（文字出現位置）を求め、文字出現位置格納装置に格納する。例えば、上述の例では次のように求められる。文字出現位置計算においては、文字出現位置は７桁の数字ＸＸＸＸＹＹＹで定義し、ＸＸＸＸは単語順におけるユニークなエントリー番号、ＹＹＹはその単語の先頭からの番号（位置情報）を表している。
【００５５】
ここで、例えば図５（ａ）に示す単語のエントリー番号（ＸＸＸＸ）が０２１１である“Ｍｉｎｉｓｔｒａ”の１番目の文字Ｍ（ＹＹＹ＝００１）では、文字出現位置は０２１１００１となる。なお、この例以外にも文字出現位置の定義としてはこの限りではなく、文字の出現位置がどの文章のどの位置にあるかが明確になるよう単語出現位置情報との関連付けがされていればよい。
【００５６】
更に、Ｓ０４では、単語・文字出現位置情報格納部１４がＳ０２のステップにおいて得られる単語毎に単語出現位置をまとめ、単語をアルファベット順にソートしてエントリー番号をつけ、図５（ａ）に示すように単語出現位置テーブル１５に格納する。また、Ｓ０３のステップにおいて得られる文字毎に文字出現位置をまとめ，文字をアルファベット順にソートして，文字出現位置を図５（ｂ）に示すように文字出現位置テーブルに格納することができる。なお、図５（ｂ）では、大文字、小文字を区別して格納している。これにより、構文に類似性が高い言語間においては、より高精度な対応付けを行うことができる。
【００５７】
なお、上述の単語出現位置情報の生成及び文字出現位置情報については、文章中の全単語及び全文字について行う。したがって、単語出現位置、文字出現位置は、複数の出現位置情報が単語毎又は文字毎に格納される。また、出現位置データベース１５には、文書収集部１１にてユニークに文書番号が付与された文書（図４）も格納される。
【００５８】
次に、第２言語を第１言語に対応付けを行う対応付け処理手順について説明する。図６は、本発明における対応付け処理の手順を示す一例のフローチャートである。
【００５９】
図６では、端子ｉｎ２により第１言語に対応付けを行いたい第２言語が入力されると、文書収集部１１は、文書毎にユニークな文書番号を付与する（Ｓ１１）。次に、単語出現位置情報生成部１２は、入力される文書の単語出現位置を生成する（Ｓ１２）。ここでは、上述したＳ０２のステップと同様に処理を行う。Ｓ１２のステップが終了後、Ｓ１２にて得られた単語出現位置情報に基づいて文字出現位置情報生成部１３は、文字出現位置情報を生成する（Ｓ１３）。次に、最適文書選択部１６は、単語位置情報及び文字位置情報に基づいて類似単語を抽出する（Ｓ１４）。ここでは、上述した単語・文字の出現位置情報格納処理の手順におけるＳ０１〜Ｓ０４のステップにより生成された出現位置データベースとの類似度を計算する。
【００６０】
Ｓ１４では、最適文書選択部１６が第２言語の文書中の単語に対して、Ｓ０１〜Ｓ０４で格納された文字出現位置を用いて単語類似度を計算し、第１言語中に出現する類似単語を抽出する。例えば、単語類似度を２つの単語中一致する文字数からＤｉｃｅ係数で定義する。また、２文字以上連続して一致する文字列を優先し、一致する文字列の連続性に基づく文字出現位置を利用して単語類似度を求める。
【００６１】
次に、最適文書選択部１６は、Ｓ１４にて得られた類似単語の類似性に基づいて、入力された第２言語の文章に対して最適な対応関係となる文書を出現位置データベースから選択し、端子ｏｕｔ１から出力する（Ｓ１５）。この端子ｏｕｔ１から出力される情報を、例えば、図２における出力装置２２を用いて表示することにより、作業者が容易に言語間の対応言語同士を取得することができる。
【００６２】
これにより、機械翻訳等による翻訳機能を有することなく、効率的に高精度な言語間の対応付けを行うことができる。
【００６３】
ここで、対応付け処理の具体的な例について図を用いて説明する。なお、第１言語は上述したスペイン語より生成される出現位置データベースを用いる。
【００６４】
図７は、第１言語と対応付けを行う第２言語の一例を示す図である。図７に示すポルトガル語に対応するスペイン語の文章の抽出及び出力を行う。
【００６５】
例えば、ポルトガル語の文書中の２単語目である“ｍｉｎｉｓｔｒａ”は、２文字目以降の文字“ｉｎｉｓｔｒａ”の文字出現位置が図５（ｂ）のスペイン語の文字出現位置の下線部にあるように、０２１１００２（ｉ）、０２１１００３（ｎ），・・・，０２１１００８（ａ）と連続しているので、単語出現位置辞のエントリー番号０２１１の単語“Ｍｉｎｉｓｔｒａ”と７文字一致していることがわかる。このとき、ポルトガル語の“ｍｉｎｉｓｔｒａ”とスペイン語の“Ｍｉｎｉｓｔｒａ”との単語類似度はＤｉｃｅ係数に基づいて、分母は比較する文字通しの合計数（８文字＋８文字）で、分子はマッチした文字数（ここでは、７文字一致×比較するお互いの文字が一致する文字なので、２倍）であるため、単語類似度は（２＊７）／（８＋８）＝０．８７５と計算される。
【００６６】
同様にして、ポルトガル語の単語“ｍｉｎｉｓｔｒａ”に類似した、スペイン語の単語が他に“ｍｉｎｉｓｔｒａ”，“Ｍｉｎｉｓｔｒｏ”と求めることができる。ポルトガル語の文書の全ての単語に対して類似した単語を求めると、図８に示す本実施例における言語間対応付けの一例に示すようになる。
【００６７】
つまり、Ｓ１４では、出現位置データベースの内容を用いてスペイン語における複数の文書に対して、図８の下線で示すように類似した単語の抽出を行う。
【００６８】
なお、抽出を容易に行う方法としては、第２言語の１文字に対して図５（ｂ）の文字出現位置テーブルから文字出現位置情報を抽出する際、文字の出現位置を示す番号（上述において、ＹＹＹ）だけを参照し、一致する文字出現位置情報を最初に抽出して、その後単語類似度を算出するようにする。これにより、文字出現位置テーブルの文字に対応した全ての文字出現位置情報から算出する必要がないので、効率的に単語の対応付けを行うことができる。
【００６９】
次に、単語類似度により抽出した類似単語に基づいて、Ｓ１５にて構文類似度を計算し第２言語に対応する第１言語の文書を取得する。
【００７０】
Ｓ１５では、Ｓ１４で抽出された第１言語中に出現する類似単語に対して、Ｓ０２で格納された単語出現位置を用いて構文類似度を計算し、最も類似度が高い第１言語中の文書を求め、端子ｏｕｔ１から出力する。例えば、構文類似度を、単語出現位置が長く連続しているものが高いと定義する。このとき、単語列の並びが連続して一致する箇所のスコアを３^ｎ（ｎ：連続して一致する単語数）として文章中の総スコアを算出する。ここで、図８に示す例で単語出現位置が連続しているスペイン語の単語を結ぶと図９に示す第１言語における構文類似度結果の一例のようになる。
【００７１】
図９に示すように、最も連続している単語列は、”ＬａＭｉｎｉｓｔｒａｄｅＥｄｕｃａｃｉｏｎｙＣｉｅｎｃｉａｓｄｅＪａｐｏｎ …”であるので、それを含むスペイン語の文書番号０００８が最も類似度が高く、最適な文書として求められ、出現位置データベースから文書番号に対応する文書を選択されて端子ｏｕｔ１に出力される。
【００７２】
上述したように本発明によれば、同族語の２つの言語を対象にして、対訳辞書を使わずに、言語上の類似性に基づいて、文書対応を効率的に行うことができる。これにより対訳辞書を使用しないため、辞書精度による対応付けの誤差が生じることなく、高精度に均質な対応付けを行うことができる。
【００７３】
なお、他の同族語言語ペアとしては、英語―ドイツ語、英語―スウェーデン語、ヒンディー語―ウルドゥ語についても可能である。
【００７４】
更に、第１言語文書における単語出現位置情報及び文字出現位置情報を生成することにより、効率的に高精度な対応付けを行うことができる。より多くの第１言語文書を用いることで、対応付けの誤差なく、より高精度な対応付けを行うことができる。
【００７５】
なお、単語類似度を計算する際には、大文字、小文字を区別しない、先頭の１文字の一致を利用する、他の類似度の算出等を用いることにより、より多様な対応づけを実現する。
【００７６】
また、上述した出現位置データベースにおいて、多数言語からなる出現位置データベースを有することにより、１つの言語から複数の言語間での対応付けを容易に行うことができる。
【００７７】
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
【００７８】
【発明の効果】
本発明によれば、効率的に高精度な言語間の対応付けを行うことができる。
【図面の簡単な説明】
【図１】本発明における言語間対応付け装置の一構成例を示す図である。
【図２】本発明における言語間の対応付けが実現可能なハードウェア構成の一例を示す図である。
【図３】本発明における単語・文字出現位置情報格納処理手順の一例を示すフローチャートである。
【図４】本発明における出現位置データベースを作成する基となる第１言語の文書の一例を示す図である。
【図５】図４に基づいて生成された出現位置データベースの一例を示す図である。
【図６】本発明における対応付け処理の手順を示す一例のフローチャートである。
【図７】第１言語と対応付けを行う第２言語の一例を示す図である。
【図８】本実施例における言語間対応付けの一例を示す図である。
【図９】第１言語における構文類似度結果の一例を示す図である。
【符号の説明】
１言語間対応付け装置
１１文書収集部
１２単語出現位置情報生成部
１３文字出現位置情報生成部
１４単語・文字出現位置情報格納部
１５出現位置データベース
１６最適文書選択部
２１入力装置
２２出力装置
２３ドライブ装置
２４補助記憶装置
２５メモリ装置
２６ＣＰＵ
２７ネットワーク接続装置
２８記録媒体

Claims

対応付け候補となる複数の第１言語文書から、第２言語文書に対応する該第１言語文書の対応づけを行う言語間対応付け装置において、
前記複数の第１言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成部と、
前記単語出現位置情報生成部により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成部と、
入力される前記第２言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第１言語文書を選択して対応づけを行う最適文書選択部とを有することを特徴とする言語間対応付け装置。
前記単語出現位置情報生成部は、
入力される前記複数の第１言語文書の文書毎に文書識別情報と、文位置情報と、単語位置情報とに基づいて、単語出現位置情報を生成することを特徴とする請求項１に記載の言語間対応付け装置。
前記文字出現位置情報生成部は、
前記単語出現位置情報生成部により得られる前記単語出現位置情報と、単語の文字位置情報とに基づいて、文字出現位置情報を生成することを特徴とする請求項２に記載の言語間対応付け装置。
前記最適文書選択部は、
前記第２言語文書から生成された前記単語出現位置情報及び前記文字出現位置情報と、
前記複数の第１言語文書から生成された前記単語出現位置情報及び前記文字出現位置情報とから単語毎の類似度を算出し、算出した単語類似度に基づいて言語間の単語の対応付けを行うことを特徴とする請求項１に記載の言語間対応付け装置。
前記最適文書選択部は、
前記単語類似度により対応付けられた単語と、前記複数の第１言語文書から生成された単語出現位置情報とから、文書の構文類似度を算出し、算出された構文類似度に基づいて、入力される前記第２言語文書に対応する第１言語文書を選択することを特徴とする請求項４に記載の言語間対応付け装置。
対応付け候補となる複数の第１言語文書から、第２言語文書に対応する該第１言語文書の対応づけを行う言語間対応付け方法において、
前記複数の第１言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成段階と、
前記単語出現位置情報生成段階により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成段階と、
入力される前記第２言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第１言語文書を選択して対応づけを行う最適文書選択段階とを有することを特徴とする言語間対応付け方法。
対応付け候補となる複数の第１言語文書から、第２言語文書に対応する該第１言語文書の対応づけをコンピュータに実行させるためのプログラムにおいて、
前記複数の第１言語文書から前記文書中に含まれる単語出現位置情報を生成する単語出現位置情報生成処理と、
前記単語出現位置情報生成処理により得られる前記単語出現位置情報から文字出現位置情報を生成する文字出現位置情報生成処理と、
入力される前記第２言語文書について、前記単語出現位置情報及び前記文字出現位置情報に基づいて前記第１言語文書を選択して対応づけを行う最適文書選択処理とをコンピュータに実行させるためのプログラム。