JP2008165563A - 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法 - Google Patents

対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法 Download PDF

Info

Publication number
JP2008165563A
JP2008165563A JP2006355467A JP2006355467A JP2008165563A JP 2008165563 A JP2008165563 A JP 2008165563A JP 2006355467 A JP2006355467 A JP 2006355467A JP 2006355467 A JP2006355467 A JP 2006355467A JP 2008165563 A JP2008165563 A JP 2008165563A
Authority
JP
Japan
Prior art keywords
sentence
bilingual
example sentence
original
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006355467A
Other languages
English (en)
Other versions
JP4997966B2 (ja
Inventor
Hide Fuji
秀 富士
Seiji Okura
清司 大倉
Yuki Nagase
友樹 長瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006355467A priority Critical patent/JP4997966B2/ja
Priority to US11/975,767 priority patent/US8024175B2/en
Publication of JP2008165563A publication Critical patent/JP2008165563A/ja
Application granted granted Critical
Publication of JP4997966B2 publication Critical patent/JP4997966B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

【課題】必要箇所に絞った効率的な表示と前後の文脈情報を自由に参照できる機能との両立を図る。
【解決手段】検索手段4により、入力文3aに応じた対訳例文が抽出される。次に、一致率計算手段5により、対訳例文内の原文または部分列と入力文3aとの間の一致率が計算される。さらに、リンク付与手段6により、原文の対訳例文に対して下位リンク情報が設定され、部分列の対訳例文に対して上位リンク情報が設定される。そして、結果表示手段7により、一致率が最も高い対訳例文7aa、拡張ボタン7ab、および縮退ボタン7acが表示される。拡張ボタン7abが選択されると、拡張・縮退表示手段8により、拡張ボタン7abに対応する対訳例文8aが表示される。縮退ボタン7acが選択されると、拡張・縮退表示手段8により、縮退ボタン7acに対応する対訳例文8bが表示される。
【選択図】図1

Description

本発明は原語による例文を検索し、検出された例文に予め対応付けられた訳語による訳文を表示するための対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法に関し、特に原文とその原文の一部を用いた例文を検索対象とする対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法に関する。
産業翻訳の分野では、高い訳文品質を維持しながら効率よく翻訳作業を行うことが要求される。そこで、過去に翻訳された翻訳文とその原文を対にして蓄積し、これを検索して再利用するような対訳例文検索システムが利用されている。
対訳例文検索システムでは、入力された文(入力文)に該当する例文がデータベースから検索される。そして、検出された例文に対応付けられた訳文が表示される。ただし、新規に作成された文章の翻訳をする場合、入力された入力文と完全に一致する例文が検出される可能性は低い。そこで、入力文の部分列を作成し、部分列を用いて、入力文の一部に対応するフレーズ候補を検出する技術もある(たとえば、特許文献1参照)。
ところで、対訳例文検索では、データベースに格納された長い例文が検出されてきたときに、その中から必要とする箇所を目視で探し出すのに非常に手間がかかる。なお、従来、表示された例文の中から再利用したい部分の探索を支援する装置も存在した。その1つとして、検索された対訳例文同士で対訳関係にある単語対を推定してその対訳関係を強調表示する対訳例文検索システムがある。
たとえば、対訳例文データベースの検索において、入力文とマッチする対訳例文において、マッチする部分を強調表示する。これによりユーザが再利用候補箇所を探索する時間が削減される。さらに、検索された対訳例文の間でも、対応する単語対を推定し、強調表示を行うこともできる(たとえば、特許文献2参照)。
さらに、単言語の例文検索では、KWIC(Key Word In Context)による検索が使われている。KWICは、文書中からキーワードを指定し、そのキーワードに関連する前後の文脈も取り出す作成方式である。この技術を用いると、入力キーとマッチした検索結果文字列を表示する際に、入力キーとマッチした部分だけでなく、その近傍も表示することができる。
特開2006−134062号公報 特開2003−330924号公報
しかし、マッチ箇所を強調する機能を備えた対訳例文検索装置を用いても、長い例文をそのまま表示することには変わりない。長い例文の表示は画面上で場所をとるために、多くの候補を同時に画面上に表示することができないという問題が残る。そのため、必要な部分を含む対訳例文が検出されたとしても、検出された多数の例文の中から必要箇所含む例文を見つけるのに多くの時間がかかるとすると、翻訳効率が上がらない。
なお、対訳例文を意味的に対応する部分列の単位で蓄積し、この単位で検索を行うことによって、必要な箇所に絞って表示することもできる。ただし、必要箇所のみの局所的な表示だと、文全体の文脈を参照することができないという逆の問題が発生する。
本発明はこのような点に鑑みてなされたものであり、必要箇所に絞った効率的な表示と前後の文脈情報を自由に参照できる機能との両立を図った対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法を提供することを目的とする。
本発明では上記課題を解決するために、図1に示すような機能を有する対訳例文検索装置、その機能をコンピュータに実行させるための対訳例文検索プログラム、およびコンピュータで対訳例文検索を実現するための対訳例文検索方法が提供される。本発明は、原語による例文を検索し、検出された例文に予め対応付けられた訳語による訳文を表示するために、図1に示す機能を有している。
対訳例文記憶手段1は、原語による複数の原文それぞれについて、原文と訳語による訳文との組と、原文の一部を用いて例文を構成した部分列と部分列の訳文との組とを、対訳例文として記憶する。関連リンク記憶手段2は、原文と部分列との間の包含関係について、包含する文を上位、包含される文を下位とする上下関係で定義した関連リンクを記憶する。入力文受付手段3は、検索条件となる入力文3aの入力を受け付ける。検索手段4は、入力文3aを検索キーとして、対訳例文記憶手段1内の原文と部分列とに対する検索を行い、該当する原文または部分列の対訳例文を抽出する。一致率計算手段5は、検索手段4で検出された対訳例文に関して、対訳例文内の原文または部分列と入力文3aとの間で共通する文字数に応じて一致率を計算する。リンク付与手段6は、関連リンク記憶手段2を参照し、検索手段4で抽出された対訳例文のうち、原文の対訳例文に対して下位の対訳例文を指し示す下位リンク情報を設定し、部分列の対訳例文に対して上位の対訳例文を指し示す上位リンク情報を設定する。結果表示手段7は、原文および原文に包含される部分列それぞれの対訳例文のうち一致率が最も高い対訳例文7aaを表示する。拡張・縮退表示手段8は、拡張指示が入力されると、現在表示されている対訳例文7aaに替えて、現在表示されている対訳例文7aaに設定された上位リンク情報で示される対訳例文8aを表示し、縮退指示が入力されると、現在表示されている対訳例文7aaに替えて、現在表示されている対訳例文7aaに設定された下位リンク情報で示される対訳例文8bを表示する。
このような機能を有する対訳例文検索装置によれば、入力文受付手段3が、検索条件となる入力文3aの入力を受け付ける。すると、検索手段4により、入力文3aを検索キーとして、対訳例文記憶手段1内の原文と部分列とに対する検索が行われ、該当する原文または部分列の対訳例文が抽出される。次に、一致率計算手段5により、検索手段4で検出された対訳例文に関して、対訳例文内の原文または部分列と入力文3aとの間で共通する文字数に応じて一致率が計算される。さらに、リンク付与手段6により、検索手段4で抽出された対訳例文のうち、原文の対訳例文に対して下位リンク情報が設定され、部分列の対訳例文に対して上位リンク情報が設定される。そして、結果表示手段7により、一致率が最も高い対訳例文7aaが表示される。その後、拡張ボタン7abが選択されると、拡張・縮退表示手段8により、上位リンク情報で示される対訳例文8aが表示される。また、縮退ボタン7acが選択されると、拡張・縮退表示手段8により、下位リンク情報で示される対訳例文8bが表示される。
本発明では、原文および部分列を対象とした検索によって検出された対訳例文に上位または下位へのリンク情報を付与し、リンク情報に基づいて検出された対訳例文と包含する例文への拡張表示や、検出された対訳例文の一部を用いた例文への縮退表示を可能とした。このような検索結果の拡張・縮退表示を行うことで、部分列による必要箇所に絞った効率的な表示と、前後の文脈を含めた表示とを任意に切り換えることができる。その結果、利用可能な対訳例文を見つけ出す手間が軽減される。
以下、本発明の実施の形態を図面を参照して説明する。
図1は、発明の概要を示す図である。本発明に係る対訳例文検索装置は、対訳例文記憶手段1、関連リンク記憶手段2、入力文受付手段3、検索手段4、一致率計算手段5,リンク付与手段6、結果表示手段7、および拡張・縮退表示手段8を有している。
対訳例文記憶手段1は、原語による複数の原文それぞれについて、原文と訳語による訳文との組と、原文の一部を用いて例文を構成した部分列と部分列の訳文との組とを、対訳例文として記憶する。なお、1つの原文に対して、複数の部分列が作成される場合もある。また、部分列の一部を用いて、その部分列の部分列に関する対訳例文を対訳例文記憶手段1に格納することもできる。
関連リンク記憶手段2は、原文と部分列との間の包含関係について、包含する文を上位、包含される文を下位とする上下関係で定義した関連リンクを記憶する。すなわち、原文から作成された部分列との関係は、原文が上位、部分列が下位となる。
入力文受付手段3は、検索条件となる入力文3aの入力を受け付ける。
検索手段4は、入力文3aを検索キーとして、対訳例文記憶手段1内の原文と部分列とに対する検索を行い、該当する原文または部分列の対訳例文を抽出する。たとえば、検索手段4は、原文と部分列とを検索対象として、入力文3aとの間の部分一致検索を行う。部分一致検索では、共通の文字が少なくとも1文字含まれていれば検出される。
一致率計算手段5は、検索手段4で検出された対訳例文に関して、対訳例文内の原文または部分列と入力文3aとの間で共通する文字数に応じて一致率を計算する。たとえば、一致率計算手段5は、共通する文字数を、原文または部分列の文字数で除算した値を一致率とする。
リンク付与手段6は、関連リンク記憶手段2を参照し、検索手段4で抽出された対訳例文のうち、原文の対訳例文に対して下位の対訳例文を指し示す下位リンク情報を設定し、部分列の対訳例文に対して上位の対訳例文を指し示す上位リンク情報を設定する。なお、1つの原文から複数の対訳例文が作成されている場合には、原文の対訳例文に対して複数の下位リンク情報が設定される。
結果表示手段7は、原文および原文に包含される部分列の対訳例文のうち一致率が最も高い対訳例文7aaを表示する。このとき原文の異なる複数の対訳例文が検出されていれば、原文が共通の対訳例文の集合ごとに、一致率が最も高い対訳例文が判断され、その対訳例文が表示される。また、結果表示手段7は、表示された対訳例文7aaの上位リンク情報に対応する拡張ボタン7abおよび下位リンク情報に対応する縮退ボタン7acを表示する。たとえば、検索結果画面7a内に、対訳例文7aaが表示され、その左側に拡張ボタン7abが表示され、右側に縮退ボタン7acが表示される。
拡張・縮退表示手段8は、拡張指示が入力されると、現在表示されている対訳例文7aaに替えて、現在表示されている対訳例文7aaに設定された上位リンク情報で示される対訳例文8aを表示する。たとえば、拡張・縮退表示手段8は、拡張ボタン7abが選択されると拡張指示が入力されたものと判断し、現在表示されている対訳例文7aaに替えて拡張ボタン7abに対応する対訳例文8aを表示する。
また、拡張・縮退表示手段8は、縮退指示が入力されると、現在表示されている対訳例文7aaに替えて、現在表示されている対訳例文7aaに設定された下位リンク情報で示される対訳例文8bを表示する。たとえば、拡張・縮退表示手段8は、縮退ボタン7acが選択されると縮退指示が入力されたものと判断し、現在表示されている対訳例文7aaに替えて縮退ボタン7acに対応する対訳例文8bを表示する。
このような対訳例文検索装置によれば、入力文3aに対して、対訳例文およびその部分列の双方を対象に検索が行われる。そして、検索結果の表示を行うと同時に、拡張ボタン7abや縮退ボタン7acが表示される。これらのボタンを選択することで、検索結果として示された対訳例文の近傍を含む対訳例文への拡張表示や、および対訳例文中の入力文3aに対応する部分のみの対訳例文への縮退表示を行うことができる。このように、上位・下位に自由に表示範囲を変更できるようにすることで検索結果の閲覧性(閲覧のし易さ)が高まり、全体の文脈へのアクセスも同時に確保できる。その結果、参照作業の効率化が図れる。
次に、本実施の形態の詳細を説明する。なお、以下の実施の形態では、日本語から英語に翻訳する場合に使用する対訳例文検索装置について説明する。
[第1の実施の形態]
図2は、本実施の形態に用いる対訳例文検索装置のハードウェア構成例を示す図である。対訳例文検索装置100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス107を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、および通信インタフェース106が接続されている。
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSやアプリケーションプログラムが格納される。
グラフィック処理装置104には、モニタ11が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ11の画面に表示させる。入力インタフェース105には、キーボード12とマウス13とが接続されている。入力インタフェース105は、キーボード12やマウス13から送られてくる信号を、バス107を介してCPU101に送信する。
通信インタフェース106は、ネットワーク10に接続されている。通信インタフェース106は、ネットワーク10を介して、他のコンピュータとの間でデータの送受信を行う。
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。
図3は、第1の実施の形態に係る対訳例文検索装置の機能を示すブロック図である。第1の実施の形態に係る対訳例文検索装置100は対訳例文データベース(DB)110、関連リンクDB120、入力文受付部131、検索部132、一致率計算部133、ソート部134、リンク付与部135、結果表示部136、および拡張・縮退表示部137を有している。
対訳例文DB110は、日本語の例文と、その例文に対する対訳との組(対訳例文)を記憶する記憶装置である。たとえば、HDD103の記憶領域の一部が対訳例文DB110として使用される。なお、対訳例文DB110には、原文に関する対訳例文に加え、原文の一部で構成した部分列に関する対訳例文も登録されている。原文と部分列の関係は階層構造となっており、部分列は多段階に作成される。すなわち、部分列の一部で構成した部分列(部分列の部分列)とその部分列の訳文からなる対訳例文も、対訳例文DB110に登録されている。
関連リンクDB120は、対訳例文DB110内の原文および部分列との間の階層構造上の上下関係を示す情報(関連リンク)を記憶する記憶装置である。たとえば、HDD103の記憶領域の一部が関連リンクDB120として使用される。関連リンクとしては、上下関係にある原文および部分列の識別情報が関連付けて登録されている。
入力文受付部131は、翻訳対象の入力文を受け付ける。具体的には、入力文受付部131は、ユーザからのキーボード12等を用いた操作入力による日本語の文の入力を受け付ける。そして、入力文受付部131は、文入力が終了すると(たとえば、ユーザによって入力終了を示すボタンが選択される)入力された文(入力文)を検索部132に渡す。
検索部132は、入力文と類似した対訳例文を検索する。すなわち、検索部132は、入力文をキーとして、対訳例文DB110から対訳例文を検索する。具体的には、検索部132は、入力文に含まれる文字列をキーとし、そのキーを含む原文または部分列を対訳例文DB110から検索する(検出された原文または部分列の対訳例文を検索結果例文とする)。具体的には、検索部132は、入力文に含まれる文字と同じ文字を原文または部分列に含む対訳例文を検索する。検索部132は、入力文と検索結果例文とを一致率計算部133に渡す。
一致率計算部133は、検索部132から渡された入力文と、検索結果例文それぞれとの間の一致率を計算する。たとえば、一致率計算部133は、検索結果例文の原文または部分列に含まれる文字のうち、同じ文字が入力文に含まれている文字数を算出する。そして、算出された文字数を、検索結果例文の原文または部分列の文字数で除算した値を一致率とする。一致率計算部133は、検索結果例文それぞれに対して一致率を計算し、一致率を付与する。そして、一致率計算部133は、入力文と、一致率が付与された原文または部分列をソート部134に渡す。
ソート部134は、一致率の付与された検索結果例文のソートを行う。具体的には、ソート部134は、検索結果例文の関連リンクを関連リンクDB120から検索する。次に、ソート部134は、関連リンクによって関連付けられた検索結果例文を纏め、共通の原文から抽出されたもの同士の集合(例文集合)を作成する。さらに、ソート部134は、各例文集合から最も一致率の高い検索結果例文を、各例文集合の代表例文として抽出する。ソート部134は、各例文集合の代表例文に付与された一致率の高い順に、例文集合を並べ替える。ソート部134は、ソートされた例文集合をリンク付与部135に渡す。
リンク付与部135は、ソートされた例文集合に含まれる検索結果例文に関連リンク情報を付与する。具体的には、リンク付与部135は、関連リンクDB120から、検索結果例文に含まれる原文または部分列の識別情報を検索し、検出された識別情報に関連付けられた他の原文または部分列への関連リンクを抽出する。そして、リンク付与部135は、各検索結果例文に関連リンクに対応するリンク情報を付与し、結果表示部136に渡す。付与されるリンク情報は、上位へのリンクなのか、下位へのリンクなのかを示すフラグと、リンク先の対訳例文のIDで構成される。
結果表示部136は、ソートされ、関連リンクが付与された検索結果例文(代表例文)をモニタ11に表示する。その際、表示された検索結果例文に対応付けて、上位へ拡張させるためのボタンと、下位へ縮退させるためのボタンとが表示される。
拡張・縮退表示部137は、結果表示部136によって表示された検索結果画面に対する拡張および縮退の指示をユーザから受け付ける。拡張または縮退の指示は、ボタンの選択によって行われる。拡張・縮退表示部137は、検索結果例文の拡張または縮退の指示を受け取ると、指定された検索結果例文の拡張または縮退を行う。検索結果例文の拡張とは、表示対象をその検索結果例文の上位の検索結果例文に置き換える処理である。検索結果例文の縮退とは、表示対象をその検索結果例文の下位の検索結果例文に置き換える処理である。
なお、拡張・縮退表示部137は、検索結果例文を拡張させる場合、その検索結果例文に上位へのリンクとして付与されたIDに基づいて、拡張後の対訳例文を対訳例文DB110から取得する。また、拡張・縮退表示部137は、検索結果例文を縮退させる場合、その検索結果例文に下位へのリンクとして付与されたIDに基づいて、縮退後の対訳例文を対訳例文DB110から取得する。
このような構成の対訳例文検索装置100において、以下のような手順で処理が行われる。
図4は、例文検索処理の手順を示すフローチャートである。以下、図4に示す処理をステップ番号に沿って説明する。
[ステップS11]入力文受付部131は、ユーザから入力文の入力を受け付ける。
[ステップS12]検索部132は、対訳例文DB110から入力文と類似した対訳例文を検索する。
[ステップS13]一致率計算部133は、入力文と各検索結果例文との間の一致率を計算する。
[ステップS14]ソート部134は、一致率と関連リンクをもとに検索結果をソートする。
[ステップS15]リンク付与部135は、ソートされた検索結果例文に関連リンクを付与する。
[ステップS16]結果表示部136は、ソートされた検索結果例文を表示する。
[ステップS17]拡張・縮退表示部137は、ユーザからの拡張または縮退の指示があるか否かを判断する。拡張または縮退の指示がある場合、処理がステップS18に進められる。拡張または縮退の指示がなければ、処理がステップS19に進められる。
[ステップS18]拡張・縮退表示部137は、拡張または縮退の指示に従って、検索結果例文の拡張または縮退を行い、検索結果を再表示する。その後、処理がステップS17に進められる。
[ステップS19]拡張・縮退表示部137は、ユーザから終了の操作入力があるか否かを判断する。終了の操作入力があれば、例文検索処理を終了する。終了の操作入力がなければ、処理がステップS17に進められる。
以上のような手順で例文検索が行われる。以下、例文検索処理を詳細に説明する。
まず、例文検索を行うためには、予め対訳例文を用意する必要がある。対訳例文は、信頼のおける翻訳者が翻訳を行った原文を元に作成される。
図5は、対訳例文の例を示す図である。図5には、1つの文書から作成された複数の対訳例文21〜25が示されている。対訳例文21は、原文とその原文の訳文とで構成される。
対訳例文22,24は、原文の一部を抽出して作成された部分列とその部分列の訳文とで構成されている。対訳例文23は、対訳例文22に含まれる部分列の一部を抽出して作成された部分列とその部分列の訳文とで構成されている。対訳例文25は、対訳例文24に含まれる部分列の一部を抽出して作成された部分列とその部分列の訳文とで構成されている。
このような対訳例文が複数の原文に対して予め作成され、対訳例文DB110に格納される。なお、原文の翻訳、原文からの部分列の抽出、および部分列の翻訳は、すべて信頼のおける翻訳者によって行われる。また、原文から作成される部分列は、それ自身が意味的に明確となるような文である。これら部分列、および部分列の部分列は、翻訳者が意味を解釈しながら切り出しを行い、キーボード12等の入力装置を用いて対訳例文DB110に格納する。
図6は、対訳例文DBのデータ構造例を示す図である。対訳例文DB110には、複数の対訳例文111〜116が格納される。対訳例文DB110には、同一の文から派生した「全文」・「部分列」・「部分列の部分列」それぞれの対訳例文111〜116が格納される。この例では、第1の原文と第2の原文とのそれぞれから作成された対訳例文111〜116が示されている。
また、各対訳例文111〜116には、識別情報(ID)が付与されている。IDは、原文を識別する番号(原文番号)と、元となる原文が共通の対訳例文同士を識別するための番号(原文内例文番号)とで構成される。図6の例では、「−」の左側の数字が原文番号であり、右側の数字が原文内例文番号である。
対訳例文111は、第1の原文の全文とその訳文(第1の訳文)との組であり、IDは「1−1」である。対訳例文112は、第1の原文の部分列とその訳文(第1の訳文の部分列)との組であり、IDは「1−2」である。対訳例文113は、第1の原文の部分列の部分列とその訳文(第1の訳文の部分列の部分列)との組であり、IDは「1−3」である。
対訳例文114は、第2の原文の全文とその訳文(第2の訳文)との組であり、IDは「2−1」である。対訳例文115は、第2の原文の部分列とその訳文(第2の訳文の部分列)との組であり、IDは「2−2」である。対訳例文116は、第2の原文の部分列の部分列とその訳文(第2の訳文の部分列の部分列)との組であり、IDは「2−3」である。
このようにして、信頼できる翻訳者によって作成された原文や部分列の対訳例文111〜116が対訳例文DB110内に予め格納される。なお、対訳例文111〜116に付与されたIDの原文番号を参照することで、対訳例文同士の原文の同一性が判断できる。対訳例文間の関連リンクについては、関連リンクDB120に格納される。
図7は、関連リンクDBのデータ構造例を示す図である。関連リンクDB120には、対訳例文のIDと、そのID間のリンク情報が登録されている。図7では、関連リンクが矢印で示されている。右向きの矢印は、上位の対訳例文から下位の対訳例文への関連リンクを示している。左向きの矢印は、下位の対訳例文から上位の対訳例文への関連リンクを示している。
たとえば、ID「1−1」の対訳例文の下位にID「1−2」の対訳例文が関連付けられている。そして、ID「1−2」の対訳例文のさらに下位にID「1−3」の対訳例文が関連付けられている。
なお、図7では関連リンクを矢印で表しているが、関連リンクDB120内ではリンク元のIDに付与されたリンク情報によって、関連リンクが設定される。具体的には、関連リンクDB120内において、上位または下位を示すフラグを付与したリンク先の対訳例文のIDが、リンク元の対訳例文のIDに付加される。
なお、図7の例では、1つの対訳例文に対して、下位の対訳例文への関連リンクが1つしか設定されていないが、下位の関連リンクは複数設定されることもある。一方、上位の関連リンクは、1つだけ設定される。
図6、図7に示したようなデータベースが予め構築された状態で、入力文が入力されると、対訳例文検索が開始される。
図8は、入力文の検索状況を示す図である。入力文31は、原語で記述されている。本実施の形態では、原文は日本語である。入力文31が入力されると、検索部132によって入力文31をキーとして、対訳例文DB110に対して初期検索が行われる。初期検索では、入力文31中の文字と一文字でも一致する原文または部分列を含む対訳例文が検索される。検出された対訳例文が検索結果例文とされ、入力文と検索結果例文とが一致率計算部133に渡される。
図9は、一致率計算部に渡される情報を示す図である。この例では、対訳例文111〜116が検索結果例文として抽出されている。すなわち、対訳例文111〜116は、入力文31に含まれる文字のうちの少なくとも1文字を含んでいる。
検索部132から一致率計算部133へは、入力文31とIDが付与された検索結果例文とが渡される。すると、一致率計算部133によって、入力文31と各検索結果例文との間の一致率が計算される。
図10は、一致率の計算結果を示す図である。検索結果例文として抽出された対訳例文111〜116それぞれに関して、一致率が付与されている。このように、一致率の付与された検索結果例文が、一致率計算部133からソート部134に渡される。
ソート部134は、関連リンクDB120を参照して、対訳例文111〜116間の関連リンクを辿る。すなわち、ソート部134は、各検索結果例文について、ID番号を使って関連リンクDB120を検索し、検索されてきた関連リンクを検索結果例文に付与する。そして、関連リンクが張られた対訳例文同士を同じ例文集合に纏めることで、共通の原文から生成された対訳例文の集合が生成される。
図11は、例文集合を示す図である。図11の例では、対訳例文111〜113が関連リンクによって関連付けられており、1つの例文集合を構成する。同様に、対訳例文114〜116が関連リンクによって関連付けられており、1つの例文集合を構成する。
ソート部134は、各例文集合内の対訳例文の中から、一致率が最も高いものを代表例文として選択する。図11の例では、対訳例文111と対訳例文115とが代表例文として選択される。その後、ソート部134は、代表例文の一致率に基づいて、例文集合をソートする。
図12は、ソート結果を示す図である。図12に示すように、代表例文として抽出された各対訳例文111,115,117,122の一致率が比較され、一致率の高い順に並べ替えられる。このように、例文集合内において一致率が最大値の対訳例文が集められ、さらに、これら集められた対訳例文の一致率の大きさによってソートが行われる。
ソートされた代表例文それぞれに対して、関連リンクに基づいて同じ例文集合内の他の対訳例文を関連付けられる。このとき、上位の対訳例文への関連リンクは左側に付加され、下位の対訳例文への関連リンクは右側に付加される。すなわち、左側の関連リンクへの表示対象の切り換えは対訳例文の内容を拡張(より長い文を表示)することに相当し、右側の関連リンクへの表示対象の切り換えは対訳例文の内容を縮退(より短い文を表示)することに相当する。
図13は、関連リンクが付与された検索結果例文を示す図である。図中、対訳例文115,111,117,122が、各例文集合の表示対象である。そして、表示対象の対訳例文115,111,117,122から左に示されているのが、上位の対訳例文であり、右に示されているのが下位の対訳例文である。
たとえば、図13の最上段は「第2の原文の部分列・第2の訳文の部分列」の対訳例文115が表示対象となっている。表示対象の上位は、左に示される「第2の原文の全文・第2の訳文の全文」であり、下位は、右側に示される「第2の原文の部分列の部分列・第2の訳文の部分列の部分列」である。
図14は、検索例を示す図である。入力文31に対して、検索、一致率計算、ソート、関連リンク付与の一連の処理が行われ、検索結果表示画面40に入力文31と検索結果が表示される。初期状態は、各文書の代表例文が表示対象の対訳例文41〜43となる。表示されている対訳例文41〜43は、入力文31との一致率が高いほど上に表示される。
各対訳例文41〜43の左右には、関連リンクに対応付けられたボタン44〜49が表示されている。「上位へ」と表記されたボタン44〜46は、表示対象を上位の対訳例文に切り換えるためのボタンである。「下位へ」と表記されたボタン47〜49は、表示対象を下位の対象例文に切り換えるためのボタンである。
なお、一つの対訳例文に対して下位の対訳例文が複数存在する場合もある。その場合、「下位へ」のボタンが押されると、下位の複数の対訳例文が表示対象となる。
図15は、対訳例文の拡張・縮退における遷移例を示す図である。検索結果表示画面40に表示されている対訳例文41の「上位へ」のボタン44が押下されると、表示対象が対訳例文41の上位の関連リンクによって関連付けられた対訳例文41aに変更される。この例では、対訳例文41aは、原文の全文と訳文の全文とで構成されている。すなわち、対訳例文41aは、例文集合内の最上位の対訳例文である。そのため、対訳例文41aには「上位へ」のボタンがなく、「下位へ」のボタン47aのみが設けられている。「下位へ」のボタン47aが押下されると、検索結果表示画面40の表示対象は、対訳例文41に戻される。
対訳例文41の「下位へ」のボタン47が押下されると、表示対象が対訳例文41の下位の関連リンクによって関連付けられた対訳例文41bに変更される。対訳例文41bは、対訳例文41の部分列に関する原文と訳文とで構成されている。なお、対訳例文41bは、例文集合内の最下位の対訳例文である。そのため、対訳例文41bには「下位へ」のボタンがなく、「上位へ」のボタン44bのみが設けられている。「上位へ」のボタン44bが押下されると、検索結果表示画面40の表示対象は、対訳例文41に戻される。
このようにして、入力文31に対して一致率が高い対訳例文を表示することができる。しかも、原文の部分列も検索対象となるため、原文内に入力文31と近似する文が含まれている場合、その文に相当する部分列のみが表示される。その結果、検索結果から必要な部分を容易に見つけ出すことができる。
さらに、ボタンを押下するだけで、表示対象の対訳例文の拡張・縮退をすることができる。その結果、表示された対訳例文だけではその訳文を利用可能かどうかの判断が付かないときは、「上位へ」のボタンを押下するだけでより詳細な文を容易に表示させることができる。また、「下位へ」のボタンを押下するだけで、表示された対訳例文のうち入力文31と適合する部分のみを容易に表示させることができる。
[第2の実施の形態]
第2の実施の形態は、入力文と、検索結果例文のうちの原語側例文の間で一致した部分を強調表示することにより、必要とする箇所を高速に目視探索できるようにしたものである。
図16は、第2の実施の形態に係る対訳例文検索装置の機能を示すブロック図である。図16において第1の実施の形態と同じ機能を有する要素には図3に示した要素と同じ符号を付し、説明を省略する。
第2の実施の形態では、第1の実施の形態の構成に対して、形態素辞書記憶部140、一致形態素検出部151、および形態素解析部152が追加されている。また、結果表示部136aと拡張・縮退表示部137aとは、それぞれ第1の実施の形態における結果表示部136と拡張・縮退表示部137とに対する付加機能を備えている。
形態素辞書記憶部140は、日本語語彙に対する形態素情報を集めた形態素辞書を記憶する記憶装置である。たとえば、HDD103の記憶領域の一部が形態素辞書記憶部140として使用される。形態素辞書には、日本語の語彙に対して、品詞が設定されている。
一致形態素検出部151は、ソート部134とリンク付与部135との間に設けられている。一致形態素検出部151は、入力文およびソート済みの検索結果例文との間の一致する形態を検出する。具体的には、ソート部134から渡された入力文とおよび検索結果例文を形態素解析部152に渡し、形態素解析を依頼する。そして、一致形態素検出部151は、形態素解析部152から形態素解析結果を受け取る。形態素解析結果では、入力文と検索結果例文とのそれぞれに含まれる語彙(形態素)が示される。一致形態素検出部151は、入力文の形態素列と検索結果例文の形態素列とを比較し、一致する形態素列を検出する。そして、一致形態素検出部151は、一致する形態素列同士を関連付けて、入力文と検索結果例文とをリンク付与部135に渡す。形態素列間の関連づけとして、たとえば、一致形態素検出部151は、関連する形態素列それぞれに対して、共通の識別情報を付加する。
形態素解析部152は、一致形態素検出部151から渡された入力文と検索結果例文の原文または部分列との形態素解析を行う。具体的には、形態素解析部152は、形態素辞書記憶部140に格納されている形態素辞書を参照し、入力文などの文を、複数の形態素に分割する。形態素への分割は、たとえば、文の先頭から順に文字列を選択し、その文字列に該当する形態素が形態素辞書にある場合、その文字列を形態素として分割する。複数の分割パターンが見つかった場合、各形態素の品詞を参照して、正しい並び方の分割パターンが正解と判断される。形態素解析部152は、入力文と検索結果例文に含まれる原文または部分列を形態素に分割して、形態素解析結果として一致形態素検出部151に渡す。
結果表示部136aは、第1の実施の形態における結果表示部136と同様の検索結果表示機能に加え、入力文に含まれる形態素に関連付けられた形態素を強調表示する機能を有している。たとえば、結果表示部136aは、検索結果例文を表示する際に、入力文の形態素に関連付けられた検索結果例文の形態素に下線を付与する。
拡張・縮退表示部137aは、第1の実施の形態における拡張・縮退表示部137と同様の検索結果表示機能に加え、入力文に含まれる形態素に関連付けられた形態素を強調表示する機能を有している。たとえば、拡張・縮退表示部137aは、検索結果例文の拡張または縮退表示を行う際に、入力文の形態素に関連付けられた検索結果例文の形態素に下線を付与する。
図17は、第2の実施の形態における例文検索処理の手順を示すフローチャートである。以下、図17に示す処理をステップ番号に沿って説明する。なお、図17に示す処理のうちステップS21〜S24,S26,S28,S30の処理は、それぞれ図4に示す第1の実施の形態におけるステップS11〜S15,S17,S19の処理と同様である。以下、第1の実施の形態と異なる処理について説明する。
[ステップS25]一致形態素検出部151は、形態素解析部152を利用し、入力文と検索結果例文に含まれる原文または原文の部分列を形態素に分割する。そして、入力文の形態素と、検索結果例文に含まれる原文または原文の部分列の形態素とを比較し、一致する形態素を検出する。そして、一致形態素検出部151は、一致する形態素同士を関連付けた入力文と検索結果例文とをリンク付与部135に渡す。
その後、リンク付与部135によって検索結果例文に関連リンクが付与され、結果表示部136aに渡される。
[ステップS27]結果表示部136aは、入力文に含まれる形態素と一致する形態素を強調させ、検索結果例文を表示する。この時点では、1つの原文から生成された複数の対訳例文のうち、入力文との一致率が最も高い代表例文が表示される。
その後、拡張・縮退の指示があれば、ステップS29の処理が行われる。
[ステップS29]拡張・縮退表示部137aは、拡張または縮退の指示に従って、検索結果例文の拡張または縮退を行い、検索結果を再表示する。その際、結果表示部136aは、入力文に含まれる形態素と一致する形態素を強調表示する。その後、処理がステップS28に進められる。
次に、一致形態素検出処理について詳細に説明する。
図18は、一致形態素検出対象の例を示す図である。図18の例では、入力文31として「学生が東京で買った雑誌」という文が入力され、「東京で買った本」という部分列を含む対訳例文41が、検索結果例文として検出されたものとする。
この場合、入力文31と対訳例文41内の部分列に関して、形態素解析部152によって形態素解析が行われる。その結果、入力文31と対訳例文41内の部分列とが、形態素に分割される。
図19は、形態素への分割結果を示す図である。図19の例では、入力文31が「/学生/が/東京/で/買/った/雑誌/」(形態素の区切りを斜線で示す)に分割されている。また対訳例文41の部分列が「/東京/で/買/った/本」に分割されている。
このように分割された入力文31と対訳例文41の部分列との形態素が比較され、一致する形態素が検出される。
図20は、一致する形態素の検出結果を示す図である。図20では、一致する形態素同士を、破線で結んでいる。この例では、「東京」、「で」、「買」、および「った」の形態素が互いに一致している。一致した形態素には、その旨を示す強調フラグが設定される。この強調フラグが付与された入力文31と対訳例文41が結果表示部136aに渡されると、強調フラグが付与された形態素が強調表示される。
図21は、一致形態素の強調表示例を示す図である。図21に示すように、第2の実施の形態における検索結果表示画面40aに表示される入力文31と対訳例文41〜43とには、一致する形態素が強調表示されている。この例では、一致する形態素に下線が付与されている。
ここで、対訳例文の拡張または縮退が行われた場合にも、入力文31の形態素と一致する形態素が強調表示される。
図22は、第2の実施の形態における拡張・縮退の例を示す図である。図22に示すように、拡張・縮退させることで、代表例文以外の対訳例文を表示させた場合にも、入力文31の形態素と一致する形態素が強調表示される。これにより、表示される文の中から、翻訳に利用できる部分を容易に見つけ出すことができるようになる。
[第3の実施の形態]
第3の実施の形態は、第2の実施の形態に係る対訳例文検索装置に対して、強調表示された原文(部分列も含む)に対応する訳文を強調表示する機能を付加したものである。
図23は、第3の実施の形態に係る対訳例文検索装置の機能を示すブロック図である。図23において第2の実施の形態と同じ機能を有する要素には図16に示した要素と同じ符号を付し、説明を省略する。
第3の実施の形態では、第2の実施の形態に構成に対して、対訳辞書記憶部160、および対訳形態素検出部153が追加されている。また、形態素辞書記憶部140a、形態素解析部152a、結果表示部136b、および拡張・縮退表示部137bは、それぞれ第2の実施の形態にける形態素辞書記憶部140、形態素解析部152、結果表示部136a、および拡張・縮退表示部137aの機能に加え、付加機能を備えている。
対訳辞書記憶部160は、原語(この例では日本語)の語彙と、その語彙の意味に対応する訳語(この例では英語)の語彙との対応関係が登録された対訳辞書を記憶する記憶装置である。たとえば、HDD103の一部の記憶領域が、対訳辞書記憶部160として使用される。
対訳形態素検出部153は、検索結果例文のなかで、原文(部分列も含む)と訳文の間で対応する部分を見つけ出す。具体的には、対訳形態素検出部153は、一致形態素検出部151から出力された入力文と検索結果例文とを受け取ると、対訳辞書記憶部160を参照し、検索結果例文中の入力文との一致箇所を示す強調フラグが付与された一致形態素の語彙に対応する訳文側の言語の語彙を判断する。
さらに、対訳形態素検出部153は、検索結果例文内の訳文を形態素解析部152aに渡し、形態素解析を実行させる。形態素解析の結果として、形態素解析部152aから形態素に分割された訳文が返される。そして、対訳形態素検出部153は、判断された対訳語側の語彙を検索結果例文の訳文を構成する形態素から検索し、検出された形態素に対して強調表示を示す強調フラグを設定する。対訳形態素検出部153は、入力文と、訳文側にも強調フラグを付与した検索結果例文とをリンク付与部135に渡す。
形態素辞書記憶部140aは、原語(日本語)の形態素辞書に加え、訳文側の言語(英語)の形態素辞書を記憶している。
形態素解析部152aは、第2の実施の形態の形態素解析部152の機能に加え、対訳形態素検出部153の依頼に応じて、形態素辞書記憶部140aを参照し、訳文の形態素解析を行い、訳文を形態素へ分割する。
結果表示部136bは、第2の実施の形態における結果表示部136aと同様の検索結果表示機能に加え、一致形態素に対応する訳文側の語彙を強調表示する機能を有している。たとえば、結果表示部136bは、検索結果例文を表示する際に、入力文の形態素と関係するものとして強調フラグが設定された語彙に下線を付与する。
拡張・縮退表示部137bは、第2の実施の形態における拡張・縮退表示部137aと同様の検索結果表示機能に加え、検索結果例文の拡張・縮退を行う際に、一致形態素に対応する訳文側の語彙を強調表示する機能を有している。たとえば、結果表示部136bは、検索結果例文を表示する際に、入力文の形態素と関係するものとして強調フラグが設定された語彙に下線を付与する。
図24は、第3の実施の形態における例文検索処理の手順を示すフローチャートである。以下、図24に示す処理をステップ番号に沿って説明する。なお、図24に示す処理のうちステップS41〜S45,S47,S49,S51の処理は、それぞれ図17に示す第2の実施の形態におけるステップS21〜S26,S28,S30の処理と同様である。以下、第2の実施の形態と異なる処理について説明する。
[ステップS46]対訳形態素検出部153は、原文または部分列の一致形態素に対応する訳文の形態素(対訳形態素)を検出する。すなわち、対訳形態素検出部153は、検索結果例文内の訳文を形態素解析部152aに渡し、訳文の形態素解析を依頼する。すると、形態素解析部152aは、形態素辞書記憶部140aに格納された訳文側の言語の形態素辞書を参照し、受け取った訳文を形態素に分解する。そして、形態素解析部152aは、形態素に分解された訳文を、形態素解析結果として対訳形態素検出部153に渡す。形態素解析結果を受け取った対訳形態素検出部153は、原語側の一致形態素をキーにして対訳辞書記憶部160に格納された対訳辞書を検索し、さらに検索結果である訳語と訳文側形態素とを照合して対訳形態素を見つける。そして、対訳形態素検出部153は、入力文の形態素に対応する原語側の一致形態素と、一致形態素に対応する訳文側の形態素とを関連付ける。たとえば、対訳形態素検出部153は、言語と訳語の関係を有する形態素に、共通の識別情報を付与することで、関連付けを行う。
その後、リンク付与部135によって検索結果例文に関連リンクが付与され、結果表示部136bに渡される。
[ステップS48]結果表示部136bは、入力文に含まれる形態素と一致する原語側の形態素、およびその形態素の訳語である訳文側の形態素を強調させ、検索結果例文を表示する。この時点では、1つの原文から生成された複数の対訳例文のうち、入力文との一致率が最も高い代表例文が表示される。
その後、拡張・縮退の指示があれば、ステップS50の処理が行われる。
[ステップS50]拡張・縮退表示部137bは、拡張または縮退の指示に従って、検索結果例文の拡張または縮退を行い、検索結果を再表示する。その際、拡張・縮退表示部137bは、入力文に含まれる形態素と一致する原語側の形態素と、その形態素の訳語である訳文側の形態とを強調表示する。その後、処理がステップS49に進められる。
図25は、対訳辞書記憶部の例を示す図である。図25に示すように、対訳辞書記憶部160には、日本語の単語と、その日本語に対応する1つ以上の英語の単語とが対応付けて登録されている。
図26は、原語側と訳文側との形態素の対応関係を示す図である。図26に示すように、まず、対訳例文41の原語側の部分列と訳文とのそれぞれに対して形態素解析が実行され、形態素に分割される。次に、原語側の形態素のうち、入力文31の形態素と一致する一致形態素「東京」、「で」、「買」、「った」を使って対訳辞書に対する検索が行われ、訳語が検出される。さらに、それぞれの訳語について、訳文側の例文の形態素列が検索され、一致したら、これら形態素間は対訳関係があると判定される。このようにして、対訳形態素を見つける。図26の例では、「東京」に対応する「Tokyo」が検出され、「で」に対応する「in」が検出され、「買」に対応する「purchase」が検出されている。原語側の一致形態素に対応する訳文側の形態素には、たとえば強調フラグが設定される。
図27は、一致形態素に対応する訳語の強調表示例を示す図である。図27に示すように、第3の実施の形態における検索結果表示画面40bに表示される入力文31と対訳例文41〜43とには、一致形態素と、その一致形態素に対応する訳語が強調表示されている。この例では、一致形態素と訳語とに下線が付与されている。
ここで、対訳例文の拡張または縮退が行われた場合にも、入力文31の形態素と一致する形態素が強調表示される。
図28は、第3の実施の形態における拡張・縮退の例を示す図である。図28に示すように、拡張・縮退させることで、代表例文以外の対訳例文を表示させた場合にも、入力文31の形態素と一致する一致形態素と訳語とが強調表示される。これにより、表示される文の中から、翻訳に利用できる部分を容易に見つけ出すことができるようになる。
[第4の実施の形態]
第4の実施の形態は、複数の文で構成される文章や文書(以下、複数の文を含む文字情報を単に文書と呼ぶ)のような文の集合を含めて、処理の対象としたものである。すなわち、第4の実施の形態では、対訳例文の検索結果である検索結果例文の原文を拡張することで、原文を含む文書を表示させることを可能としている。
なお、文書は、複数の段落で構成されることがある。そこで、第4の実施の形態では、検索結果例文の原文を拡張する場合にも、まず、その原文を含む段落に拡張し、段落から文書全体へ拡張できるようにする。
図29は、第4の実施の形態に係る対訳例文検索装置の機能を示すブロック図である。図23において第3の実施の形態と同じ機能を有する要素には図23に示した要素と同じ符号を付し、説明を省略する。
第4の実施の形態では、第3の実施の形態に構成に対して、文書DB170が追加されている。また、関連リンクDB120aは、第3の実施の形態の関連リンクDB120のデータ構造が拡張されている。さらに、リンク付与部135aと拡張・縮退表示部137cとは、それぞれ第3の実施の形態におけるリンク付与部135と拡張・縮退表示部137bとの機能に加え、付加機能を備えている。
文書DB170は、対訳例文DB110に登録された対訳例文の原文の抽出元となった文書を記憶する記憶装置である。たとえば、HDD103の記憶領域の一部が文書DB170として使用される。なお、文書が複数の段落で構成される場合、元の文書とは別に、段落ごとのデータが文書DB170に格納される。
関連リンクDB120aは、第3の実施の形態の関連リンクDB120に対して、文書や段落への関連リンクが追加設定されている。すなわち、第4の実施の形態に係る関連リンクDB120aでは、原文とその原文から一部分を抽出した部分列との関連リンクに加え、原文を含む段落との間の関連リンクと段落と文書との間の関連リンクとが設定されている。
リンク付与部135aは、第3の実施の形態におけるリンク付与部135の機能に加え、原文の上位にその原文を含む段落への関連リンクを付与し、段落の上位にその段落を含む文書への関連リンクを付与する機能を有している。なお、文書が1つの段落のみを有している場合、原文の上位にその原文を含む文書への関連リンクが付与される。
拡張・縮退表示部137cは、第3の実施の形態における拡張・縮退表示部137bと同様の検索結果表示機能に加え、原文が含まれる段落や文書にまで拡張範囲を広げて表示する機能を有している。
図30は、第4の実施の形態における例文検索処理の手順を示すフローチャートである。以下、図30に示す処理をステップ番号に沿って説明する。なお、図30に示す処理のうちステップS61〜S66,S68,S69,S71の処理は、それぞれ図24に示す第3の実施の形態におけるステップS41〜S46,S48,S49,S51の処理と同様である。以下、第3の実施の形態と異なる処理について説明する。
[ステップS67]リンク付与部135aは、ソートされた検索結果例文に対して、文書や段落へのリンクを含む関連リンクを付与する。
[ステップS70]拡張・縮退表示部137cは、拡張または縮退の指示を受け取ると、検索結果例文の拡張または縮退処理を行う。具体的には、拡張・縮退表示部137cは、拡張の指示があった場合、現在表示している検索結果例文の上位の関連リンクで関連付けられた検索結果例文に表示対象を変更する。なお、現在表示されている検索結果例文が原文の場合、その原文を含む段落が拡張時の表示対象となる。段落を表示させる場合、拡張・縮退表示部137cは、文書DB170から該当する段落の内容を取得する。また、段落が表示されているときに拡張の指示が出されると、その段落を含む文書が表示対象となる。文書を表示させる場合、拡張・縮退表示部137cは、文書DB170から該当する文書の内容を取得する。
このように、文書DB170を予め用意し、検索結果例文に対して、原文を含む段落や文書への関連リンクを付与することで、文章内での原文の使われ方を参照することができる。その結果、検出された対訳例文の利用が可能か否かを、的確に判断できるようになる。
図31は、文書DBのデータ例を示す図である。図31に示すように、文書DB170には、文書の対訳例文171,174と、その文書に含まれる段落ごとの対訳例文172,173とが格納されている。文書の対訳例文171,174には、文書の全文と、その文書内の全文に対する訳文とが含まれている。また、段落の対訳例文172,173には、該当する段落の文章と、その段落内の全文に対する訳文とが含まれている。
また、文書の対訳例文171,174には、一意に識別するためのIDが付与されている。図31の例では、対訳例文171のIDは「tA」であり、対訳例文174のIDは「tB」である。
段落の対訳例文172,173には、その段落を一意に識別するためのIDが付与される。段落のIDは、その段落を含む文書のIDと、文書内での段落識別用の識別子とで構成される。たとえば、対訳例文172で示される段落は、対訳例文171の文書に含まれており、段落識別子は「tA−p1」で表される。
図32は、関連リンクDBのデータ構造例を示す図である。関連リンクDB120aには、対訳例文のIDと、そのID間のリンク情報が登録されている。図32では、関連リンクが矢印で示されている。右向きの矢印は、上位の対訳例文から下位の対訳例文への関連リンクを示している。左向きの矢印は、下位の対訳例文から上位の対訳例文への関連リンクを示している。
第4の実施の形態の関連リンクDB120aでは、原文の対訳例文を示すIDから段落の対訳例文のIDへ、関連リンクが設定されている。たとえば、ID「1−1」の対訳例文の上位にID「tA−p1」の対訳例文が関連付けられている。逆に、段落の対訳例文を示すIDから原文の対訳例文を示すIDへも、関連リンクが設定されている。
また、段落の対訳例文を示すIDから文書の対訳例文のIDへ、関連リンクが設定されている。たとえば、ID「tA−p1」の対訳例文の上位にID「tA」の対訳例文が関連付けられている。逆に、文書の対訳例文を示すIDから段落の対訳例文を示すIDへも、関連リンクが設定されている。このような、関連リンクによって、段落や文書へのリンクを辿ることが可能となる。
図33は、文書や段落への関連リンクを辿るときの状態遷移を示す図である。第4の実施の形態における検索結果表示画面40cには、代表例文として表示された対訳例文41から「下位へ」のボタン47が押下されると、下位の関連リンクが設定された対訳例文41bに表示が切り換えられる。
また、対訳例文41から「上位へ」のボタン44が押下されると、上位の関連リンクが設定された対訳例文41aに表示が切り換えられる。この例では、対訳例文41aは、原文とその原文の訳文とで構成されている。
原文の対訳例文41aが表示されると、「日上位へ」のボタン44aaと「英上位へ」のボタン44abとが表示される。「日上位へ」のボタン44aaは、原文を含む段落を表示させるためのボタンである。「英上位へ」のボタン44abは、原文を含む段落の訳文を表示させるためのボタンである。
「日上位へ」のボタン44aaが押下されると、検索結果表示画面40cには、原文を含む日本語の段落41cが表示される。また、検索結果表示画面40cには、「上位へ」のボタン44cと「下位へ」のボタン47cとが設けられている。「上位へ」のボタン44cが押下されると、段落41cを含む文書に表示対象が遷移する。「下位へ」のボタン47cが押下されると、原文の対訳文書41aに表示対象が遷移する。
「英上位へ」のボタン44abが押下されると、検索結果表示画面40cには、原文を含む日本語の段落41cの訳文41dが表示される。また、検索結果表示画面40cには、「上位へ」のボタン44dと「下位へ」のボタン47dとが設けられている。「上位へ」のボタン44dが押下されると、段落41cを含む文書の訳文に表示対象が遷移する。「下位へ」のボタン47dが押下されると、原文の対訳文書41aに表示対象が遷移する。
このように、検索結果から関連リンクを上位に辿ることで、検索結果の原文を含む段落や文書を表示させることができる。この段落や文書の表示においても、入力文に含まれる形態素と一致する部分を下線の付加などによって強調表示することで、表示範囲を広げても、入力文に対応する部分を見失わずに済む。
このように、原文をさらに上位に拡張させる場合、原語の段落とその訳文とを別々に表示する。これにより、段落や文書全体を表示させる場合に、必要以上に表示領域を占有させずに済む。すなわち、段落や文書全体まで拡張したときに、原語の文章と訳文とを同時に表示させると、その表示内容だけで画面が埋まってしまう可能性がある。すると、他の検索結果が参照できなくなり、他の検索結果との対比がしづらくなる。一方、本実施の形態のように、拡張させる際に原文と訳文とのいずれかを選択させ、選択された原語における拡張文を表示させることで、段落などへ拡張した場合にも複数の対訳例文の表示が可能となる。
なお、段落や文書において強調表示を行う場合、たとえば、拡張・縮退表示部137cは、原文を検索キーとして段落や文書を検索する。そして、拡張・縮退表示部137cは、検出された文の中から、原文において強調表示対象となっていた一致形態素に対応する形態素を検索し、その形態素を強調表示する。
また、段落や文書の訳文において強調表示を行う場合、たとえば、拡張・縮退表示部137cは、原文の訳文を検索キーとして段落や文書の訳文を検索する。そして、拡張・縮退表示部137cは、検出された訳文の中から、原文の訳文において強調表示対象となっていた形態素に対応する形態素を検索し、その形態素を強調表示する。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、対訳例文検索装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(Re Writable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
なお、本発明は、上述の実施の形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更を加えることができる。
以上説明した実施の形態の主な技術的特徴は、以下の付記の通りである。
(付記1) 原語による例文を検索し、検出された例文に予め対応付けられた訳語による訳文を表示する対訳例文検索プログラムにおいて、
コンピュータを、
原語による複数の原文それぞれについて、前記原文と訳語による訳文との組と、前記原文の一部を用いて例文を構成した部分列と前記部分列の訳文との組とを、対訳例文として記憶する対訳例文記憶手段、
前記原文と前記部分列との間の包含関係について、包含する文を上位、包含される文を下位とする上下関係で定義した関連リンクを記憶する関連リンク記憶手段、
検索条件となる入力文の入力を受け付ける入力文受付手段、
前記入力文を検索キーとして、前記対訳例文記憶手段内の前記原文と前記部分列とに対する検索を行い、該当する前記原文または前記部分列の前記対訳例文を抽出する検索手段、
前記検索手段で検出された前記対訳例文に関して、前記対訳例文内の前記原文または前記部分列と前記入力文との間で共通する文字数に応じて一致率を計算する一致率計算手段、
前記関連リンク記憶手段を参照し、前記検索手段で抽出された前記対訳例文のうち、前記原文の前記対訳例文に対して下位の前記対訳例文を指し示す下位リンク情報を設定し、前記部分列の前記対訳例文に対して上位の前記対訳例文を指し示す上位リンク情報を設定するリンク付与手段、
前記原文および前記原文に包含される前記部分列それぞれの前記対訳例文のうち前記一致率が最も高い前記対訳例文を表示する結果表示手段、
拡張指示が入力されると、現在表示されている前記対訳例文に替えて、現在表示されている前記対訳例文に設定された前記上位リンク情報で示される前記対訳例文を表示し、縮退指示が入力されると、現在表示されている前記対訳例文に替えて、現在表示されている前記対訳例文に設定された前記下位リンク情報で示される前記対訳例文を表示する拡張・縮退表示手段、
として機能させるための対訳例文検索プログラム。
(付記2) 前記検索手段は、前記入力文に対して少なくとも1文字でも共通の文字を含んでいる前記原文または前記部分列を検索することを特徴とする付記1記載の対訳例文検索プログラム。
(付記3) 前記コンピュータを、さらに、
複数の前記原文それぞれについて、前記原文および前記原文に包含される前記部分列それぞれの前記対訳例文のうち前記一致率が最も高い前記対訳例文を抽出し、抽出された前記対訳例文を前記一致率が高い順に並べ替えるソート手段として機能させ、
前記結果表示手段は、複数の前記原文それぞれについて前記ソート手段で抽出された前記対訳例文を、前記ソート手段で並べ替えられた順番で表示することを特徴とする付記1記載の対訳例文検索プログラム。
(付記4) 前記対訳例文記憶手段には、前記部分列の一部を用いて例文を構成した部分列と当該部分列の訳文との組で構成される前記対訳例文も格納されており、
前記関連リンク記憶手段には、前記部分列間の包含関係についても前記関連リンクが格納されており、
前記リンク付与手段は、前記検索手段で抽出された前記部分列の下位の前記部分列が存在する場合には、前記部分列の前記対訳例文に対して下位の前記対訳例文を指し示す前記下位リンク情報を設定することを特徴とする付記1記載の対訳例文検索プログラム。
(付記5) 前記結果表示手段は、前記原文および前記原文に包含される前記部分列それぞれの前記対訳例文のうち前記一致率が最も高い前記対訳例文を表示すると共に、表示された前記対訳例文の前記上位リンク情報に対応する拡張ボタンおよび前記下位リンク情報に対応する縮退ボタンを表示し、
前記拡張・縮退表示手段は、前記拡張ボタンが選択されると、現在表示されている前記対訳例文に替えて前記拡張ボタンに対応する前記対訳例文を表示し、前記縮退ボタンが選択されると、現在表示されている前記対訳例文に替えて前記縮退ボタンに対応する前記対訳例文を表示することを特徴とする付記1記載の対訳例文検索プログラム。
(付記6) 前記拡張・縮退表示手段は、さらに、前記拡張ボタンまたは前記縮退ボタンに応じて新たに表示された前記対訳例文の前記上位リンク情報に対応する前記拡張ボタンおよび前記下位リンク情報に対応する前記縮退ボタンを表示することを特徴とする付記5記載の対訳例文検索プログラム。
(付記7) 前記コンピュータを、さらに、
前記原語に関する形態素が登録された原語形態素辞書を記憶する形態素辞書記憶手段、
前記形態素辞書記憶手段に記憶された前記形態素辞書を参照し、前記検索部で検出された前記対訳例文に含まれる前記原文または前記部分列と、前記入力文との形態素解析を行う形態素解析手段、
前記原文または前記部分列に含まれる形態素のうち、前記入力文に含まれる形態素と一致する一致形態素を検出する一致形態素検出手段として機能させ、
前記結果表示手段は、前記一致形態素を強調表示させることを特徴とする付記1記載の対訳例文検索プログラム。
(付記8) 前記拡張・縮退表示手段は、前記拡張指示または前記縮退指示に応じて新たに表示した前記対訳例文内の前記一致形態素を強調表示することを特徴とする付記7記載の対訳例文検索プログラム。
(付記9) 前記形態素辞書記憶手段は、さらに前記訳語に関する形態素が登録された訳語形態素辞書を記憶しており、
前記形態素解析手段は、前記形態素辞書記憶手段に記憶された前記形態素辞書を参照し、前記検索部で検出された前記対訳例文に含まれる前記原文または前記部分列、前記原文または前記部分列の前記訳文、および前記入力文の形態素解析を行い、
前記コンピュータを、さらに、
前記原語の形態素に対して、前記原語の形態素の対訳となる前記訳語の形態素が関連付けて登録された対訳辞書を記憶する対訳辞書記憶手段、
前記対訳辞書記憶手段内の前記対訳辞書を参照し、前記検索部で検出された前記対訳例文に関して、前記原文または前記部分列内の前記一致形態素の対訳となる対訳形態素を前記訳文から検出する対訳形態素検出手段として機能させ、
前記結果表示手段は、前記一致形態素と前記対訳形態素とを強調表示させることを特徴とする付記7記載の対訳例文検索プログラム。
(付記10) 前記拡張・縮退表示手段は、前記拡張指示または前記縮退指示に応じて新たに表示した前記対訳例文内の前記一致形態素と前記対訳形態素とを強調表示することを特徴とする付記9記載の対訳例文検索プログラム。
(付記11) 前記コンピュータを、さらに、
前記原文を含む文書内の前記原文を含む段落の文字列を記憶する文書記憶手段として機能させ、
前記関連リンク記憶手段は、さらに、前記関連リンクとして、前記段落と前記文書との間の包含関係について、包含する文を上位、包含される文を下位とする上下関係の定義を記憶しており、
前記リンク付与手段は、さらに、前記関連リンク記憶手段を参照し、前記検索手段で抽出された前記対訳例文のうち前記原文を含む前記対訳例文に対して、上位の前記段落を指し示す上位リンク情報を設定し、
前記拡張・縮退表示手段は、前記原文の前記対訳例文が表示されているときに拡張指示が入力されると、現在表示されている前記対訳例文に替えて前記文書記憶手段に格納されている前記段落の文字列を表示することを特徴とする付記1記載の対訳例文検索プログラム。
(付記12) 前記文書記憶手段は、さらに、前記原文を含む段落の訳文を記憶しており、
前記リンク付与手段は、前記検索手段で抽出された前記対訳例文のうち前記原文を含む前記対訳例文に対して、上位の前記段落を指し示す原語上位リンク情報と、上位の前記段落の訳文を指し示す訳語上位リンク情報とを設定し、
前記拡張・縮退表示手段は、前記原文の前記対訳例文が表示されているときに、前記原語上位リンク情報への拡張指示が入力されると、現在表示されている前記対訳例文に替えて前記文書記憶手段に格納されている前記段落の文字列を表示し、前記訳語上位リンク情報への拡張指示が入力されると、現在表示されている前記対訳例文に替えて前記文書記憶手段に格納されている前記段落の訳文を表示することを特徴とする付記11記載の対訳例文検索プログラム。
(付記13) 前記結果表示手段は、表示された前記対訳例文に前記原語上位リンク情報と前記訳語上位リンク情報とが設定されている場合、前記原語上位リンク情報と前記訳語上位リンク情報とのそれぞれに対応する前記拡張ボタンを表示し、
前記拡張・縮退表示手段は、前記原文の前記対訳例文が表示されているときに、前記原語上位リンク情報に対応する前記拡張ボタンが選択されると、現在表示されている前記対訳例文に替えて前記文書記憶手段に格納されている前記段落の文字列を表示し、前記訳語上位リンク情報に対応する前記拡張ボタンが選択されると、現在表示されている前記対訳例文に替えて前記文書記憶手段に格納されている前記段落の訳文を表示することを特徴とする付記12記載の対訳例文検索プログラム。
(付記14) 原語による例文を検索し、検出された例文に予め対応付けられた訳語による訳文を表示する対訳例文検索装置において、
原語による複数の原文それぞれについて、前記原文と訳語による訳文との組と、前記原文の一部を用いて例文を構成した部分列と前記部分列の訳文との組とを、対訳例文として記憶する対訳例文記憶手段と、
前記原文と前記部分列との間の包含関係について、包含する文を上位、包含される文を下位とする上下関係で定義した関連リンクを記憶する関連リンク記憶手段と、
検索条件となる入力文の入力を受け付ける入力文受付手段と、
前記入力文を検索キーとして、前記対訳例文記憶手段内の前記原文と前記部分列とに対する検索を行い、該当する前記原文または前記部分列の前記対訳例文を抽出する検索手段と、
前記検索手段で検出された前記対訳例文に関して、前記対訳例文内の前記原文または前記部分列と前記入力文との間で共通する文字数に応じて一致率を計算する一致率計算手段と、
前記関連リンク記憶手段を参照し、前記検索手段で抽出された前記対訳例文のうち、前記原文の前記対訳例文に対して下位の前記対訳例文を指し示す下位リンク情報を設定し、前記部分列の前記対訳例文に対して上位の前記対訳例文を指し示す上位リンク情報を設定するリンク付与手段と、
前記原文および前記原文に包含される前記部分列それぞれの前記対訳例文のうち前記一致率が最も高い前記対訳例文を表示する結果表示手段と、
拡張指示が入力されると、現在表示されている前記対訳例文に替えて、現在表示されている前記対訳例文に設定された前記上位リンク情報で示される前記対訳例文を表示し、縮退指示が入力されると、現在表示されている前記対訳例文に替えて、現在表示されている前記対訳例文に設定された前記下位リンク情報で示される前記対訳例文を表示する拡張・縮退表示手段と、
を有することを特徴とする対訳例文検索装置。
(付記15) 原語による例文を検索し、検出された例文に予め対応付けられた訳語による訳文を表示するためのコンピュータにおける対訳例文検索方法において、
入力文受付手段が、検索条件となる入力文の入力を受け付け、
検索手段が、前記入力文を検索キーとして、原語による複数の原文それぞれについて、前記原文と訳語による訳文との組と、前記原文の一部を用いて例文を構成した部分列と前記部分列の訳文との組とを、対訳例文として記憶する対訳例文記憶手段内の前記原文と前記部分列とに対する検索を行い、該当する前記原文または前記部分列の前記対訳例文を抽出し、
一致率計算手段が、前記検索手段で検出された前記対訳例文に関して、前記対訳例文内の前記原文または前記部分列と前記入力文との間で共通する文字数に応じて一致率を計算する、
リンク付与手段が、前記原文と前記部分列との間の包含関係について、包含する文を上位、包含される文を下位とする上下関係で定義した関連リンクを記憶する関連リンク記憶手段を参照し、前記検索手段で抽出された前記対訳例文のうち、前記原文の前記対訳例文に対して下位の前記対訳例文を指し示す下位リンク情報を設定し、前記部分列の前記対訳例文に対して上位の前記対訳例文を指し示す上位リンク情報を設定し、
結果表示手段が、前記原文および前記原文に包含される前記部分列それぞれの前記対訳例文のうち前記一致率が最も高い前記対訳例文を表示し、
拡張・縮退表示手段が、拡張指示が入力されると、現在表示されている前記対訳例文に替えて、現在表示されている前記対訳例文に設定された前記上位リンク情報で示される前記対訳例文を表示し、縮退指示が入力されると、現在表示されている前記対訳例文に替えて、現在表示されている前記対訳例文に設定された前記下位リンク情報で示される前記対訳例文を表示する、
ことを特徴とする対訳例文検索方法。
発明の概要を示す図である。 本実施の形態に用いる対訳例文検索装置のハードウェア構成例を示す図である。 第1の実施の形態に係る対訳例文検索装置の機能を示すブロック図である。 例文検索処理の手順を示すフローチャートである。 対訳例文の例を示す図である。 対訳例文DBのデータ構造例を示す図である。 関連リンクDBのデータ構造例を示す図である。 入力文の検索状況を示す図である。 一致率計算部に渡される情報を示す図である。 一致率の計算結果を示す図である。 例文集合を示す図である。 ソート結果を示す図である。 関連リンクが付与された検索結果例文を示す図である。 検索例を示す図である。 対訳例文の拡張・縮退における遷移例を示す図である。 第2の実施の形態に係る対訳例文検索装置の機能を示すブロック図である。 第2の実施の形態における例文検索処理の手順を示すフローチャートである。 一致形態素検出対象の例を示す図である。 形態素への分割結果を示す図である。 一致する形態素の検出結果を示す図である。 一致形態素の強調表示例を示す図である。 第2の実施の形態における拡張・縮退の例を示す図である。 第3の実施の形態に係る対訳例文検索装置の機能を示すブロック図である。 第3の実施の形態における例文検索処理の手順を示すフローチャートである。 対訳辞書記憶部の例を示す図である。 原語側と訳文側との形態素の対応関係を示す図である。 一致形態素に対応する訳語の強調表示例を示す図である。 第3の実施の形態における拡張・縮退の例を示す図である。 第4の実施の形態に係る対訳例文検索装置の機能を示すブロック図である。 第4の実施の形態における例文検索処理の手順を示すフローチャートである。 文書DBのデータ例を示す図である。 関連リンクDBのデータ構造例を示す図である。 文書や段落への関連リンクを辿るときの状態遷移を示す図である。
符号の説明
1 対訳例文記憶手段
2 関連リンク記憶手段
3 入力文受付手段
4 検索手段
5 一致率計算手段
6 リンク付与手段
7 結果表示手段
7a 検索結果画面
7aa,8a,8b 対訳例文
7ab 拡張ボタン
7ac 縮退ボタン
8 拡張・縮退表示手段

Claims (7)

  1. 原語による例文を検索し、検出された例文に予め対応付けられた訳語による訳文を表示する対訳例文検索プログラムにおいて、
    コンピュータを、
    原語による複数の原文それぞれについて、前記原文と訳語による訳文との組と、前記原文の一部を用いて例文を構成した部分列と前記部分列の訳文との組とを、対訳例文として記憶する対訳例文記憶手段、
    前記原文と前記部分列との間の包含関係について、包含する文を上位、包含される文を下位とする上下関係で定義した関連リンクを記憶する関連リンク記憶手段、
    検索条件となる入力文の入力を受け付ける入力文受付手段、
    前記入力文を検索キーとして、前記対訳例文記憶手段内の前記原文と前記部分列とに対する検索を行い、該当する前記原文または前記部分列の前記対訳例文を抽出する検索手段、
    前記検索手段で検出された前記対訳例文に関して、前記対訳例文内の前記原文または前記部分列と前記入力文との間で共通する文字数に応じて一致率を計算する一致率計算手段、
    前記関連リンク記憶手段を参照し、前記検索手段で抽出された前記対訳例文のうち、前記原文の前記対訳例文に対して下位の前記対訳例文を指し示す下位リンク情報を設定し、前記部分列の前記対訳例文に対して上位の前記対訳例文を指し示す上位リンク情報を設定するリンク付与手段、
    前記原文および前記原文に包含される前記部分列それぞれの前記対訳例文のうち前記一致率が最も高い前記対訳例文を表示する結果表示手段、
    拡張指示が入力されると、現在表示されている前記対訳例文に替えて、現在表示されている前記対訳例文に設定された前記上位リンク情報で示される前記対訳例文を表示し、縮退指示が入力されると、現在表示されている前記対訳例文に替えて、現在表示されている前記対訳例文に設定された前記下位リンク情報で示される前記対訳例文を表示する拡張・縮退表示手段、
    として機能させるための対訳例文検索プログラム。
  2. 前記コンピュータを、さらに、
    複数の前記原文それぞれについて、前記原文および前記原文に包含される前記部分列それぞれの前記対訳例文のうち前記一致率が最も高い前記対訳例文を抽出し、抽出された前記対訳例文を前記一致率が高い順に並べ替えるソート手段として機能させ、
    前記結果表示手段は、複数の前記原文それぞれについて前記ソート手段で抽出された前記対訳例文を、前記ソート手段で並べ替えられた順番で表示することを特徴とする請求項1記載の対訳例文検索プログラム。
  3. 前記対訳例文記憶手段には、前記部分列の一部を用いて例文を構成した部分列と当該部分列の訳文との組で構成される前記対訳例文も格納されており、
    前記関連リンク記憶手段には、前記部分列間の包含関係についても前記関連リンクが格納されており、
    前記リンク付与手段は、前記検索手段で抽出された前記部分列の下位の前記部分列が存在する場合には、前記部分列の前記対訳例文に対して下位の前記対訳例文を指し示す前記下位リンク情報を設定することを特徴とする請求項1記載の対訳例文検索プログラム。
  4. 前記コンピュータを、さらに、
    前記原語に関する形態素が登録された原語形態素辞書を記憶する形態素辞書記憶手段、
    前記形態素辞書記憶手段に記憶された前記形態素辞書を参照し、前記検索部で検出された前記対訳例文に含まれる前記原文または前記部分列と、前記入力文との形態素解析を行う形態素解析手段、
    前記原文または前記部分列に含まれる形態素のうち、前記入力文に含まれる形態素と一致する一致形態素を検出する一致形態素検出手段として機能させ、
    前記結果表示手段は、前記一致形態素を強調表示させることを特徴とする請求項1記載の対訳例文検索プログラム。
  5. 前記形態素辞書記憶手段は、さらに前記訳語に関する形態素が登録された訳語形態素辞書を記憶しており、
    前記形態素解析手段は、前記形態素辞書記憶手段に記憶された前記形態素辞書を参照し、前記検索部で検出された前記対訳例文に含まれる前記原文または前記部分列、前記原文または前記部分列の前記訳文、および前記入力文の形態素解析を行い、
    前記コンピュータを、さらに、
    前記原語の形態素に対して、前記原語の形態素の対訳となる前記訳語の形態素が関連付けて登録された対訳辞書を記憶する対訳辞書記憶手段、
    前記対訳辞書記憶手段内の前記対訳辞書を参照し、前記検索部で検出された前記対訳例文に関して、前記原文または前記部分列内の前記一致形態素の対訳となる対訳形態素を前記訳文から検出する対訳形態素検出手段として機能させ、
    前記結果表示手段は、前記一致形態素と前記対訳形態素とを強調表示させることを特徴とする請求項4記載の対訳例文検索プログラム。
  6. 原語による例文を検索し、検出された例文に予め対応付けられた訳語による訳文を表示する対訳例文検索装置において、
    原語による複数の原文それぞれについて、前記原文と訳語による訳文との組と、前記原文の一部を用いて例文を構成した部分列と前記部分列の訳文との組とを、対訳例文として記憶する対訳例文記憶手段と、
    前記原文と前記部分列との間の包含関係について、包含する文を上位、包含される文を下位とする上下関係で定義した関連リンクを記憶する関連リンク記憶手段と、
    検索条件となる入力文の入力を受け付ける入力文受付手段と、
    前記入力文を検索キーとして、前記対訳例文記憶手段内の前記原文と前記部分列とに対する検索を行い、該当する前記原文または前記部分列の前記対訳例文を抽出する検索手段と、
    前記検索手段で検出された前記対訳例文に関して、前記対訳例文内の前記原文または前記部分列と前記入力文との間で共通する文字数に応じて一致率を計算する一致率計算手段と、
    前記関連リンク記憶手段を参照し、前記検索手段で抽出された前記対訳例文のうち、前記原文の前記対訳例文に対して下位の前記対訳例文を指し示す下位リンク情報を設定し、前記部分列の前記対訳例文に対して上位の前記対訳例文を指し示す上位リンク情報を設定するリンク付与手段と、
    前記原文および前記原文に包含される前記部分列それぞれの前記対訳例文のうち前記一致率が最も高い前記対訳例文を表示する結果表示手段と、
    拡張指示が入力されると、現在表示されている前記対訳例文に替えて、現在表示されている前記対訳例文に設定された前記上位リンク情報で示される前記対訳例文を表示し、縮退指示が入力されると、現在表示されている前記対訳例文に替えて、現在表示されている前記対訳例文に設定された前記下位リンク情報で示される前記対訳例文を表示する拡張・縮退表示手段と、
    を有することを特徴とする対訳例文検索装置。
  7. 原語による例文を検索し、検出された例文に予め対応付けられた訳語による訳文を表示するためのコンピュータにおける対訳例文検索方法において、
    入力文受付手段が、検索条件となる入力文の入力を受け付け、
    検索手段が、前記入力文を検索キーとして、原語による複数の原文それぞれについて、前記原文と訳語による訳文との組と、前記原文の一部を用いて例文を構成した部分列と前記部分列の訳文との組とを、対訳例文として記憶する対訳例文記憶手段内の前記原文と前記部分列とに対する検索を行い、該当する前記原文または前記部分列の前記対訳例文を抽出し、
    一致率計算手段が、前記検索手段で検出された前記対訳例文に関して、前記対訳例文内の前記原文または前記部分列と前記入力文との間で共通する文字数に応じて一致率を計算する、
    リンク付与手段が、前記原文と前記部分列との間の包含関係について、包含する文を上位、包含される文を下位とする上下関係で定義した関連リンクを記憶する関連リンク記憶手段を参照し、前記検索手段で抽出された前記対訳例文のうち、前記原文の前記対訳例文に対して下位の前記対訳例文を指し示す下位リンク情報を設定し、前記部分列の前記対訳例文に対して上位の前記対訳例文を指し示す上位リンク情報を設定し、
    結果表示手段が、前記原文および前記原文に包含される前記部分列それぞれの前記対訳例文のうち前記一致率が最も高い前記対訳例文を表示し、
    拡張・縮退表示手段が、拡張指示が入力されると、現在表示されている前記対訳例文に替えて、現在表示されている前記対訳例文に設定された前記上位リンク情報で示される前記対訳例文を表示し、縮退指示が入力されると、現在表示されている前記対訳例文に替えて、現在表示されている前記対訳例文に設定された前記下位リンク情報で示される前記対訳例文を表示する、
    ことを特徴とする対訳例文検索方法。
JP2006355467A 2006-12-28 2006-12-28 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法 Expired - Fee Related JP4997966B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006355467A JP4997966B2 (ja) 2006-12-28 2006-12-28 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
US11/975,767 US8024175B2 (en) 2006-12-28 2007-10-22 Computer program, apparatus, and method for searching translation memory and displaying search result

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006355467A JP4997966B2 (ja) 2006-12-28 2006-12-28 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法

Publications (2)

Publication Number Publication Date
JP2008165563A true JP2008165563A (ja) 2008-07-17
JP4997966B2 JP4997966B2 (ja) 2012-08-15

Family

ID=39585189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006355467A Expired - Fee Related JP4997966B2 (ja) 2006-12-28 2006-12-28 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法

Country Status (2)

Country Link
US (1) US8024175B2 (ja)
JP (1) JP4997966B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225077A (ja) * 2009-03-25 2010-10-07 Fujitsu Ltd 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法
JP2016091269A (ja) * 2014-11-04 2016-05-23 株式会社東芝 外国語文作成支援装置、方法及びプログラム
JP2016536659A (ja) * 2013-09-30 2016-11-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 内容ベースの医療マクロのソート及び検索システムのためのシステム及び方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7984034B1 (en) * 2007-12-21 2011-07-19 Google Inc. Providing parallel resources in search results
US20110106849A1 (en) * 2008-03-12 2011-05-05 Nec Corporation New case generation device, new case generation method, and new case generation program
TWI376656B (en) * 2008-09-11 2012-11-11 Shing Lung Chen Foreign-language learning method utilizing an original language to review corresponding foreign languages and foreign-language learning database system thereof
US8265922B2 (en) * 2008-12-02 2012-09-11 Electronics And Telecommunications Research Institute Method and apparatus for applying translation memory in automatic translation system
JP6210398B2 (ja) * 2012-04-25 2017-10-11 株式会社サン・フレア 翻訳支援装置、翻訳支援システム、及びそのプログラム
JP6705318B2 (ja) * 2016-07-14 2020-06-03 富士通株式会社 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
US10056083B2 (en) * 2016-10-18 2018-08-21 Yen4Ken, Inc. Method and system for processing multimedia content to dynamically generate text transcript
WO2019183543A1 (en) * 2018-03-23 2019-09-26 John Rankin System and method for identifying a speaker's community of origin from a sound sample
WO2020014354A1 (en) 2018-07-10 2020-01-16 John Rankin System and method for indexing sound fragments containing speech
EP4105840A1 (en) * 2018-08-29 2022-12-21 IPACTORY, Inc. Patent document creating device, method, computer program, computer-readable recording medium, server and system
JP7164015B2 (ja) * 2019-10-01 2022-11-01 Jfeスチール株式会社 情報検索システム
US11699037B2 (en) 2020-03-09 2023-07-11 Rankin Labs, Llc Systems and methods for morpheme reflective engagement response for revision and transmission of a recording to a target individual

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05189487A (ja) * 1991-08-16 1993-07-30 Xerox Corp 対話式データベース探索方法および装置
JPH08161349A (ja) * 1994-12-02 1996-06-21 Fujitsu Ltd 文字列検索装置
JP2003330924A (ja) * 2002-05-09 2003-11-21 Fujitsu Ltd 翻訳支援装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3015223B2 (ja) * 1993-05-14 2000-03-06 シャープ株式会社 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置
US6651039B1 (en) * 1995-08-08 2003-11-18 Matsushita Electric Industrial Co., Ltd. Mechanical translation apparatus and method
JP3822990B2 (ja) * 1999-01-07 2006-09-20 株式会社日立製作所 翻訳装置、記録媒体
US20010029455A1 (en) * 2000-03-31 2001-10-11 Chin Jeffrey J. Method and apparatus for providing multilingual translation over a network
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
AU2001261506A1 (en) * 2000-05-11 2001-11-20 University Of Southern California Discourse parsing and summarization
AU2002210834A1 (en) * 2000-10-30 2002-05-15 Alphonsus Albertus Schirris Pre-translated multi-lingual online search system, method, and computer program product
US7043692B2 (en) * 2000-12-18 2006-05-09 Ricoh Co., Ltd. Windows resource file parameterization system and method
JP2004110583A (ja) 2002-09-19 2004-04-08 Advanced Telecommunication Research Institute International 機械翻訳方法およびそのためのコンピュータプログラム
US20060015323A1 (en) * 2004-07-13 2006-01-19 Udupa Raghavendra U Method, apparatus, and computer program for statistical translation decoding
US7698124B2 (en) * 2004-11-04 2010-04-13 Microsoft Corporaiton Machine translation system incorporating syntactic dependency treelets into a statistical framework
JP4588417B2 (ja) 2004-11-05 2010-12-01 富士通株式会社 翻訳装置
US7974833B2 (en) * 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
JP2007122509A (ja) * 2005-10-28 2007-05-17 Rozetta Corp 語句配列の自然度判定装置、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05189487A (ja) * 1991-08-16 1993-07-30 Xerox Corp 対話式データベース探索方法および装置
JPH08161349A (ja) * 1994-12-02 1996-06-21 Fujitsu Ltd 文字列検索装置
JP2003330924A (ja) * 2002-05-09 2003-11-21 Fujitsu Ltd 翻訳支援装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225077A (ja) * 2009-03-25 2010-10-07 Fujitsu Ltd 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法
US8566079B2 (en) 2009-03-25 2013-10-22 Fujitsu Limited Retrieval result outputting apparatus and retrieval result outputting method
JP2016536659A (ja) * 2013-09-30 2016-11-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 内容ベースの医療マクロのソート及び検索システムのためのシステム及び方法
JP2016091269A (ja) * 2014-11-04 2016-05-23 株式会社東芝 外国語文作成支援装置、方法及びプログラム

Also Published As

Publication number Publication date
US8024175B2 (en) 2011-09-20
JP4997966B2 (ja) 2012-08-15
US20080162115A1 (en) 2008-07-03

Similar Documents

Publication Publication Date Title
JP4997966B2 (ja) 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
JP3356536B2 (ja) 機械翻訳装置
US7260570B2 (en) Retrieving matching documents by queries in any national language
JP4076520B2 (ja) 翻訳支援プログラムおよび単語対応付けプログラム
JP3952216B2 (ja) 翻訳装置及び辞書検索装置
JP4504555B2 (ja) 翻訳支援システム
US8027966B2 (en) Method and system for searching a multi-lingual database
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
JPH11345249A (ja) 情報検索のための方法および装置ならびに記憶媒体
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
JP4832952B2 (ja) データベース解析システム及びデータベース解析方法及びプログラム
JP2007058706A (ja) 文書検索システム、文書検索方法及び文書検索プログラム
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2010225077A (ja) 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法
CN112104917A (zh) 一种单双语字幕修改查找处理方法及系统
JPS6118074A (ja) プレ・エデイツト方式
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP4432475B2 (ja) 文書検索装置、文書検索方法、プログラム
JP2018147205A (ja) 情報処理装置及び情報処理プログラム
JPH1011424A (ja) 文章作成支援装置
JP5521670B2 (ja) パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム
JP3952009B2 (ja) 翻訳メモリシステム、翻訳方法、および翻訳メモリシステム用プログラム
JP4206266B2 (ja) 全文検索装置、処理方法、処理プログラム及び記録媒体
JP2004157830A (ja) 情報検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120417

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120430

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees