JP4368550B2 - Document search apparatus, document search method, and program causing computer to execute the method - Google Patents

Document search apparatus, document search method, and program causing computer to execute the method Download PDF

Info

Publication number
JP4368550B2
JP4368550B2 JP2001401817A JP2001401817A JP4368550B2 JP 4368550 B2 JP4368550 B2 JP 4368550B2 JP 2001401817 A JP2001401817 A JP 2001401817A JP 2001401817 A JP2001401817 A JP 2001401817A JP 4368550 B2 JP4368550 B2 JP 4368550B2
Authority
JP
Japan
Prior art keywords
search
document
language
electronic document
electronic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001401817A
Other languages
Japanese (ja)
Other versions
JP2003196309A (en
Inventor
知哲 出口
真一 平本
文子 菊地
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2001401817A priority Critical patent/JP4368550B2/en
Publication of JP2003196309A publication Critical patent/JP2003196309A/en
Application granted granted Critical
Publication of JP4368550B2 publication Critical patent/JP4368550B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、ある言語により記述された検索条件からそれとは別の言語により記述された電子文書を検索する文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラムに関する。
【0002】
【従来の技術】
一般に「多言語文書検索」などと呼ばれる、検索対象文書の言語と検索条件の言語とが異なる文書検索、たとえば英語で記述された文書を日本語のキーワードから検索することは従来から可能であった。
【0003】
一例として、サイバースペース研究所は「TITAN」、AltaVistaCompanyは「AltaVista」という名称で、各国語によるWEB文書の検索サービスをすでに実用化している。また、研究論文としては「AMFにおける多言語によるインターネット情報検索共同研究プロジェクト」(NTT NEWS RELEASE 1999/02/24)などがある。
【0004】
【発明が解決しようとする課題】
しかしながら、上記従来技術ではいずれも検索条件を検索対象文書の言語に変換するか、あるいは逆に検索対象文書を検索条件の言語に変換するかして、いったん両者の言語を共通化した上で検索をおこなっていた。
【0005】
そして、この変換のためには複数言語間の翻訳システムや、少なくとも単語レベルでの言語置換システムなどが必要であり、翻訳辞書などのデータの準備・洗練コストが大きいほか、検索実行時のシステムにかかる負荷も大きくなってしまう。しかも、多義的な語は翻訳の過程で意味や概念のズレを生ずることが多いため、検索結果に操作者の意図しないノイズが混入しやすく、処理の複雑さ・煩雑さに見合うだけの検索精度が得られないという問題点があった。
【0006】
なお、大量の文書を統計的に処理することで、辞書を使用せずに複数言語の単語間の対応を特定する試みもなされているが(特開2001−43236)、複雑で大がかりな処理が必要なうえ、現在の技術レベルでは人手で作成された辞書ほどの正確さは期待できない。
【0007】
この発明は上記従来技術による問題点に鑑みてなされたものであって、任意の言語からの任意の言語の文書の検索を簡易な処理で、かつ精度よくおこなうことが可能な文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラムを提供することを目的とする。
【0008】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、請求項1に記載の発明にかかる文書検索装置は、第1の言語により記述された検索条件から第2の言語により記述された電子文書を検索する文書検索装置において、前記第1の言語により記述された検索条件に合致する電子文書を前記第1の言語により記述された電子文書の中から検索する第1の検索手段と、前記第1の検索手段により検索された電子文書の対訳である電子文書を前記第2の言語により記述された電子文書の中から検索する第2の検索手段と、前記第2の検索条件により検索されたそれぞれの電子文書に共通して含まれるキーワードを抽出し、抽出されたキーワードにもとづいて前記第2の言語により記述された検索条件を生成する生成手段と、前記生成手段により生成された検索条件に合致する電子文書を前記第2の言語により記述された電子文書の中から検索する第3の検索手段と、を備えたことを特徴とする。
【0009】
この請求項1に記載の発明によれば、多言語文書検索を実現しながらも、検索条件−検索対象文書間の言語の差異を解消するための複雑な作業(たとえば機械翻訳など)は一切おこなわれない。
【0010】
また、請求項2に記載の発明にかかる文書検索装置は、前記請求項1に記載の発明において、前記第1の検索手段が、前記電子文書のうちその本文が前記検索条件を構成する自然文と意味的に類似する電子文書を前記検索条件に合致する電子文書として検索することを特徴とする。
【0011】
この請求項2に記載の発明によれば、分野や話題など、本文の全体としての大意が検索条件と合致する文書のみが検索される。
【0012】
また、請求項3に記載の発明にかかる文書検索装置は、前記請求項1または請求項2に記載の発明において、前記第2の検索手段が、前記第1の検索手段により検索された電子文書のすべてについて、その対訳である電子文書を前記第2の言語により記述された電子文書の中から検索することを特徴とする。
【0013】
この請求項3に記載の発明によれば、第2の言語による検索条件は、第1の言語による検索で得られた文書の対訳が漏れなく使用されて生成される。
【0014】
また、請求項4に記載の発明にかかる文書検索装置は、前記請求項1または請求項2に記載の発明において、前記第2の検索手段が、前記第1の検索手段により検索された電子文書のうち一部の電子文書であって、前記第1の検索手段による結果に基づいて、前記検索条件に対する所定の合致度以上の電子文書について、その対訳である電子文書を前記第2の言語により記述された電子文書の中から検索することを特徴とする。
【0015】
この請求項4に記載の発明によれば、第2の言語による検索条件は、第1の言語による検索で得られた文書のうち、たとえば検索条件との合致度のとくに高かったものの対訳のみが選択的に使用されて生成される。
【0016】
また、請求項5に記載の発明にかかる文書検索装置は、前記請求項1〜請求項4のいずれか一つに記載の発明において、さらに、前記第1の検索手段により検索された電子文書を特定できる情報および前記第3の検索手段により検索された電子文書を特定できる情報を表示する表示手段を備えたことを特徴とする。
【0017】
この請求項5に記載の発明によれば、第1の言語による検索の結果と第2の言語による検索の結果とがあわせて画面表示される。
【0018】
また、請求項6に記載の発明にかかる文書検索方法は、第1の言語により記述された検索条件から第2の言語により記述された電子文書をコンピュータを用いて検索する文書検索方法において、前記コンピュータが、前記第1の言語により記述された検索条件に合致する電子文書を前記第1の言語により記述され、あらかじめ所定の記憶領域に記憶された電子文書の中から検索する第1の検索工程と、前記第1の検索工程で検索された電子文書の対訳である電子文書を前記第2の言語により記述され、あらかじめ所定の記憶領域に記憶された電子文書の中から検索する第2の検索工程と、前記第2の検索条件により検索されたそれぞれの電子文書に共通して含まれるキーワードを抽出し、抽出されたキーワードにもとづいて前記第2の言語により記述された検索条件を生成する生成工程と、前記生成工程で生成された検索条件に合致する電子文書を前記第2の言語により記述され、あらかじめ所定の記憶領域に記憶された電子文書の中から検索する第3の検索工程と、を実行することを特徴とする。
【0019】
この請求項6に記載の発明によれば、多言語文書検索を実現しながらも、検索条件−検索対象文書間の言語の差異を解消するための複雑な作業(たとえば機械翻訳など)は一切おこなわれない。
【0020】
また、請求項7に記載の発明にかかるプログラムは、前記請求項6に記載された方法を前記コンピュータに実行させることを特徴とする。
【0021】
この請求項7に記載の発明によれば、前記請求項6に記載された方法がコンピュータにより実行される。
【0022】
【発明の実施の形態】
以下に添付図面を参照して、この発明による文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラムの好適な実施の形態を詳細に説明する。
【0023】
(発明の基本原理)
具体的な実施の形態の説明に入る前に、まず本発明の基本原理について簡単に説明する。図1は、本発明の基本原理を模式的に示す説明図である。本発明における検索対象文書群は、たとえばインターネットから収集された多数のWEB文書であるものとする。図中、Jで始まるIDを付された文書は日本語で記述された文書、Eで始まるIDを付された文書は英語で記述された文書を、それぞれ示している。
【0024】
ここで、グローバルな規模で活動する企業やe−マーケットプレースに出店する企業などのホームページは、日本語版や英語版など複数の言語のバージョンで作成されていることがある。図中、文書J−1はこうしたホームページの日本語版、文書E−1は同じページの英語版を、それぞれ示している。文書J−1と文書E−1とは、記述内容は同一でただ当該内容を記述する言語が異なるのみである。
【0025】
この文書J−1のように忠実な英語訳を有する日本語文書、あるいは文書E−1のように忠実な日本語訳を有する英語文書を、以下では「対訳つき文書(群)」と総称する。これに対し、日本語版しかない文書J−2やJ−3、あるいは逆に英語版しかない文書E−2、E−3、E−4などを、以下では「対訳なし文書(群)」と総称する。
【0026】
検索対象文書のすべてが対訳つき文書であれば、容易に任意の検索条件による他言語の文書の検索を実現することができる。すなわち、たとえば日本語の検索条件から英語の文書を検索できるようにするためには、当該日本語の検索条件に合致した日本語文書でなく、当該日本語文書に対応する英語文書を検索結果として返すようにすればよい。
【0027】
しかしながら、実際の検索対象文書には図示するように対訳つき文書と対訳なし文書とが混在しており、少なくとも後者については、上述のように検索条件側の言語を検索対象文書側の言語に合わせるか、逆に検索対象文書側の言語を検索条件側の言語に合わせるかした上で検索をおこなうのが従来の手法であった。
【0028】
これに対し、本発明では以下で詳述するように、日本語の検索条件に合致した日本語文書に対応する英語文書の本文を英語の検索条件とみなし、当該条件に合致する英語文書を検索結果として返すことで、複雑で困難な言語の変換処理や統計処理を介することなく、日本語の検索条件からの英語文書の検索をおこなう。
【0029】
すなわち、図1に模式的に示すように、まず操作者から日本語で入力された自然文を検索条件として、当該条件に合致する(当該自然文に全体として類似する、と言ってもよい)日本語文書を検索する(図中▲1▼)。
【0030】
そして、日本語文書J−1とJ−2とが上記条件に合致したものとすると、これらの適合文書のうち日本語文書J−1には対応する英語文書E−1が存在するので、つぎにこの英語文書E−1の本文である英語の自然文を新たな検索条件として、当該条件に合致する(当該自然文に全体として類似する、と言ってもよい)英語文書を検索する(図中▲2▼)。
【0031】
そして、上記新たな条件に合致する文書、すなわち文書E−1そのものと、文書E−1に類似する文書E−2およびE−3を、最終的な検索結果として操作者に提示する。
【0032】
すなわち本発明では、当初の検索条件の日本語を自前で英語に翻訳するのではなく、当該日本語に類似する日本語文書(この例では文書J−1)につきすでに人手で作成されている、正確な英語訳(文書E−1)を上記条件の英語訳に相当すると便宜上みなして、これを新たな検索条件として英語文書の検索をおこなうわけである。
【0033】
日本語の検索条件に合致した日本語文書の忠実な英語訳は、当該検索条件となった自然文と内容的にも言語的にも同一ではないものの、内容的に類似はしている。少なくとも、従来の機械翻訳技術で自動生成される英語訳よりは、日本語で記述された当初の検索条件からの意味的・概念的なズレが小さく、これを検索条件として検索をおこなうことにより、最終的な検索結果中に含まれるノイズを減少させることができる。
【0034】
また、人手による対訳は自動生成された対訳よりも自然な(すなわち、ネイティブスピーカーが読んでも違和感のない質を備えた)文章であり、語用法や論理の展開方法もその言語に即したものが使用されるので、これを検索条件として採用することで、同じ言語で記述された検索対象文書との類似性をより正確に判定できると考えられる。もっとも、踏み台となる対訳は必ずしも人手により作成されたものでなくともよく、原文とのズレが大きくなければ機械翻訳されたものであっても構わない(人手で作成された対訳であれば通常上記のようなメリットもある、というだけのことである)。
【0035】
このように本発明では、▲1▼操作者から入力された、日本語の自然文を検索条件とする日本語文書の検索、▲2▼当該検索で得られた日本語文書に対応する英語文書の本文である、英語の自然文を検索条件とする英語文書の検索、を連鎖的におこなうことで、結果的に日本語で記述された検索条件から、英語により記述された文書を検索することが可能となる。
【0036】
(発明の実施の形態)
つぎに、図2は本発明の実施の形態による文書検索装置のハードウェア構成を示す説明図である。同図において、201は装置全体を制御するCPUを、202は基本入出力プログラムを記憶したROMを、203はCPU201のワークエリアとして使用されるRAMを、それぞれ示している。
【0037】
また、204はCPU201の制御にしたがってHD(ハードディスク)205に対するデータのリード/ライトを制御するHDD(ハードディスクドライブ)を、205はHDD204の制御にしたがって書き込まれたデータを記憶するHDを、それぞれ示している。
【0038】
また、206はCPU201の制御にしたがってFD(フロッピーディスク)207に対するデータのリード/ライトを制御するFDD(フロッピーディスクドライブ)を、207はFDD206の制御にしたがって書き込まれたデータを記憶する着脱自在のFDを、それぞれ示している。
【0039】
また、208はカーソル、メニュー、ウィンドウ、あるいは文字や画像などの各種データを表示するディスプレイを、209は通信ケーブル210を介してLANなどのネットワークに接続され、当該ネットワークとCPU201とのインターフェースとして機能するネットワークI/Fを、それぞれ示している。
【0040】
また、211は文字、数値、各種指示などの入力のための複数のキーを備えたキーボードを、212は各種指示の選択や実行、処理対象の選択、カーソルの移動などをおこなうマウスを、それぞれ示している。また、213は着脱可能な記録媒体であるCD−ROMを、214はCD−ROM213に対するデータのリードを制御するCD−ROMドライブを、200は上記各部を接続するためのバスまたはケーブルを、それぞれ示している。
【0041】
つぎに、図3は本発明の実施の形態による文書検索装置の機能的構成を示す説明図である。図示するように、本発明による文書検索装置は文書記憶部300、日本語検索条件入力部301、日本語文書検索部302、英語検索条件生成部303、英語文書検索部304および検索結果表示部305を含む構成である。
【0042】
まず、文書記憶部300は後述する日本語文書検索部302および英語文書検索部304による検索対象となる文書群を保持する機能部である。ここでは、文書記憶部300内の文書はインターネットから収集された多数のWEB文書であるものとし、そのうち日本語で記述されたものは日本語文書記憶部300aに、英語で記述されたものは英語文書記憶部300bに、それぞれ保持されるものとする。
【0043】
なお、上述のように文書記憶部300内の文書は、一部が対訳つき文書であり残りは対訳なし文書である。そして、対訳つき文書はその属性情報(付属情報)として、他言語で記述された対訳文書のID(IDに限らず、当該文書を特定できる情報であれば何であってもよい)を保持している。
【0044】
たとえば、日本語文書J−1と英語文書E−1とが対訳関係にあれば、前者の属性情報には後者のIDである「E−1」が、後者の属性情報には前者のIDである「J−1」が、それぞれあらかじめ書き込まれている。
【0045】
つぎに、図4は本発明の実施の形態による文書検索装置の、文書検索処理の手順を示すフローチャートである。以下、同図に示す手順に沿って、図3に示した残りの各部の機能を順次説明する。
【0046】
ステップS401で、本発明による文書検索装置の日本語検索条件入力部301は、図5に示すような検索条件入力画面をディスプレイ208に表示して操作者からの入力待ちとなる。そして、キーボード211などから入力された文字を検索条件入力エリア500内に順次表示する。
【0047】
なお、図示するようにここでは検索条件として複数の文からなる自然文が入力されたものとするが、単一の文からなる自然文、単数あるいは複数のキーワードなど、日本語の文字列であればどのようなものであってもよい。
【0048】
つぎにステップS402で、検索を実行すべき旨の指示が入力されたこと、すなわち図5に示す検索実行ボタン501がマウス212でクリックされたことを検知すると(ステップS402:Yes)、日本語検索条件入力部301はその時点での上記入力エリア500内の文字列を検索条件として、後述する日本語文書検索部302に引き渡す。
【0049】
そして、これを受けた日本語文書検索部302は、ステップS403で上記検索条件により日本語文書記憶部300aを検索する。この日本語文書検索部302による検索手法は、ある言語で記述された検索条件から当該言語により記述された文書を検索できるもの(単一言語内での文書検索が可能なもの、と言ってもよい)であれば何であってもよいが、ここでは一般に「ベクトル空間法」と呼ばれる手法を採用する。
【0050】
「ベクトル空間法」とは、検索条件の特徴ベクトルと、検索対象となる個々の文書の特徴ベクトルとのコサイン距離をそれぞれ計算し、この距離が絶対的または相対的に小さい文書を、検索条件に合致する適合文書として操作者に提示するものである。
【0051】
ここでの特徴ベクトルとは、n個のキーワード(語彙)に対応するn個の要素値からなるn次元のベクトルであって、個々の要素値は最も単純には、対応するキーワードの出現頻度により決定される。たとえば、本文内に一つのキーワードしか含まない文書の特徴ベクトルは、(0、1、0、0、・・・)のように当該キーワードに対応する要素の値だけが1で、残りn−1個の要素値がすべて0となるようなベクトルである。
【0052】
このベクトル空間法では、本文内に出現するキーワードの全体としての傾向が検索条件と類似するような文書ほど検索条件との距離が小さくなり、したがって適合文書とされる可能性が高くなる。そのため、検索条件中の特定のキーワードが含まれるか否かにより単純に文書を選別するブーリアン検索(一般のキーワード検索)に比べ、検索結果中のノイズが少ないという利点がある。
【0053】
日本語文書検索部302は、上記距離を基礎として検索対象文書の順位づけ、あるいは得点づけをおこない、最高順位/最高得点の文書から一定数の文書、あるいは所定の順位/所定の得点以上のすべての文書など、検索条件に対する合致度の高い文書を適合文書とする。そして、これら適合文書のID(IDに限らず、当該文書を特定できる情報であれば何であってもよい)を、後述する英語検索条件生成部303および検索結果表示部305にそれぞれ引き渡す。
【0054】
図4の手順に戻り、つぎにステップS404で、日本語文書検索部302からその検索結果を引き渡された英語検索条件生成部303は、引き渡されたIDで特定される各文書の属性情報を日本語文書記憶部300aから読み出す。そして、その中に英語文書のIDが一つでも含まれているかどうか、すなわち上記検索で拾い出された日本語文書の中に、一つでも対訳つき文書が含まれているかどうかを判定する。
【0055】
そして、上記結果中に一つでも対訳つき文書が含まれていれば(ステップS404:Yes)、つぎにステップS405で、それぞれの対訳つき文書に対応する英語文書の本文、すなわち上記で読み出した属性情報中の各IDにより特定される英語文書の本文を、英語文書記憶部300bから順次読み出す。そして、これらの英語の自然文から、後述する英語文書検索部304に与えるための検索条件を生成する。
【0056】
なお、ここでは英語検索条件生成部303は、日本語文書検索部302による検索結果中のすべての対訳つき文書について当該対訳を読み出すようにしたが、一部の対訳つき文書を選択してその対訳のみを読み出すようにしてもよい。
【0057】
たとえば、適合文書のうち最高順位/最高得点の文書から一定数の文書、あるいは所定の順位/所定の得点以上のすべての文書など、検索条件に対する合致度のとくに高い文書に限って、その対訳を英語の検索条件として採用する。逆に言えば、適合文書であっても検索条件に対する合致度が低い文書については、対訳が存在していてもその存在を無視する。
【0058】
このように、適合文書の中でもとくにレベルの高い文書の対訳を採用することで、日本語検索条件入力部301から入力された日本語の検索条件と、英語検索条件生成部303で生成される英語の検索条件とのズレが少なくなり、最終的な検索結果はより絞り込まれた、適合率の高いものとなる。もっとも、その反面で再現率は低くなってしまうので、漏れのない検索が必要であればここでの例のように、日本語の適合文書について存在するすべての対訳を英語の検索条件として採用すればよい。
【0059】
なお、検索条件として採用された英語文書が複数ある場合、英語検索条件生成部303は各文書の本文を結合して一続きの自然文とした上で、後述する英語文書検索部304に引き渡す。そして、これを受けた英語文書検索部304では、この自然文に全体として類似する英語文書を検索することになる。
【0060】
もっとも、採用された文書ごとにその本文を一つの検索条件とみなして、それぞれ別個に英語文書検索部304に引き渡し、上記文書の個数分だけ同様の検索を繰り返させるようにしてもよい。この場合、後述する検索結果表示部305では、各条件により検索された英語文書を区別して表示したり、あるいは各条件により検索された英語文書の和集合を取った上でまとめて表示したりすることが可能である。
【0061】
なお、上記で採用されたそれぞれの文書(あるいは少なくともその多くの文書)に共通して含まれるキーワードや、採用された文書のみに含まれ、それ以外の文書には含まれないようなキーワード(採用された文書群をその母体となった文書群全体に対して特徴づけるようなキーワード)のみを特定して、これらのキーワードから検索条件を生成するようにしてもよい。
【0062】
つぎに、英語検索条件生成部303から上記検索条件を引き渡された英語文書検索部304は、ステップS406で英語文書記憶部300bを検索し、上記条件に合致した英語文書のID(IDに限らず、当該文書を特定できる情報であれば何であってもよい)を、後述する検索結果表示部305に引き渡す。
【0063】
英語文書検索部304による英語文書の検索は、日本語文書検索部302による日本語文書の検索と同様、ここではベクトル空間法によるものとする。ただし、必ずしもこの手法に限定されるものではなく、また両機能部による検索が本質的に同一である必要もない。たとえば、日本語文書検索部302は上述のベクトル空間法により、検索条件である自然文に概ね類似する文書の検索をおこない、英語文書検索部304はブーリアン検索により、検索条件として採用された英語文書内のキーワードを確実に含む文書のみの検索をおこなうようにしてもよい。
【0064】
つぎに、日本語文書検索部302から検索結果の日本語文書の各ID、英語文書検索部304から検索結果の英語文書の各IDをそれぞれ引き渡された検索結果表示部305は、ステップS407で図6に示すような検索結果表示画面をディスプレイ208に表示する。
【0065】
同図において、日本語文書表示フレーム600には日本語文書検索部302により検索された日本語文書の各見出し、英語文書表示フレーム601には英語文書検索部304により検索された英語文書の各見出しが、それぞれ検索条件に対する合致度の高い順に表示される。この見出しをマウス212でクリックすると、当該見出しを有する文書の本文を表示させることができる。なお、同図では見出しの横の括弧内に文書のIDをあわせて表示しているが、これはあってもなくてもよい。
【0066】
以上説明した実施の形態によれば、ある言語により記述された文書を、それとは別の言語による検索条件で検索することが可能でありながら、その過程において複雑な翻訳処理や統計処理などは一切発生せず、従来技術に比較してシステムにかかる負荷が格段に小さい。
【0067】
また、従来多大な時間と労力とを要していた、言語間の翻訳のための辞書類の整備が不要であり、ただ一部に対訳つき文書を含む文書群が収集できさえすればよい。そして、近年ではWEB文書を始めとして、あらかじめ対訳つきで作成されている電子文書が少なくないので、この収集も容易である。逆に言えば、本発明は収集した文書群にしばしば対訳つき文書が含まれることに注目して、この状況を利用し、これを足がかりとして多言語文書検索が実現できないかとの着想を得たものである。
【0068】
なお、上述した実施の形態ではインターネット上のWEB文書の検索を例としたが、このほか国際的企業の社内ネットワークにおけるFAQ文書の検索、各種研究・教育機関における各国語による学術論文の検索などにも本発明は応用可能である。
【0069】
また、上述した実施の形態では日本語から英語の文書を検索するようにしたが、逆に英語から日本語の文書を検索することも可能なことは言うまでもない。なお、図7に模式的に示すように、たとえば日本語で検索された日本語文書から対訳関係にある英語文書を取得し、当該英語文書の本文で検索された英語文書から対訳関係にあるドイツ語文書を取得し、さらに当該ドイツ語文書の本文により検索されたドイツ語文書を検索結果とすれば、結果的に日本語の検索条件からドイツ語の文書が検索されたことになり、このように対訳関係にある文書を複数言語にわたって芋づる式にたどってゆくことで、あらゆる言語からのあらゆる言語の文書の検索が可能となる。
【0070】
なお、図1や図7では対訳文書と当該対訳文書により検索される文書群とが、常に同一のデータベース内に存在するかのように描いているが、必ずしも対訳文書の抽出の母体となった文書群に対して当該対訳文書による検索をおこなわなければならないものではない。すなわち、たとえば日本語の検索条件で検索された日本語文書の対訳をデータベースAから取得し、その本文を英語の検索条件として、それとは別のデータベースBを検索するのであってもよい。
【0071】
なお、上述した日本語文書検索部302が請求項にいう「第1の検索手段」に、そのおこなう処理が請求項にいう「第1の検索工程」に、それぞれ相当する。また、英語検索条件生成部303が請求項にいう「第2の検索手段」および「生成手段」を兼ね、そのおこなう処理に請求項にいう「第2の検索工程」および「生成工程」が含まれる。また、英語文書検索部304が請求項にいう「第3の検索手段」に、そのおこなう処理が請求項にいう「第3の検索工程」に、それぞれ相当する。さらに、検索結果表示部305が請求項にいう「表示手段」に相当する。
【0072】
なお、上述した日本語検索条件入力部301〜検索結果表示部305は、それぞれHD205などからRAM203に読み出されたプログラムの命令にしたがってCPU201が命令処理を実行することにより、各部の機能を実現するものである。また、とくに日本語文書検索部302と英語文書検索部304とは、具体的には本出願人が製造・販売する文書検索エンジンの「ConceptBase Search」により実現される。
【0073】
なお、上記プログラムはHD205のほか、FD207、CD−ROM213あるいはMOなどの各種記録媒体に格納することができ、この媒体により配布することができるほか、ネットワークを介して配布することも可能である。
【0074】
【発明の効果】
以上説明したように請求項1に記載の発明は、第1の言語により記述された検索条件から第2の言語により記述された電子文書を検索する文書検索装置において、前記第1の言語により記述された検索条件に合致する電子文書を前記第1の言語により記述された電子文書の中から検索する第1の検索手段と、前記第1の検索手段により検索された電子文書の対訳である電子文書を前記第2の言語により記述された電子文書の中から検索する第2の検索手段と、前記第2の検索条件により検索されたそれぞれの電子文書に共通して含まれるキーワードを抽出し、抽出されたキーワードにもとづいて前記第2の言語により記述された検索条件を生成する生成手段と、前記生成手段により生成された検索条件に合致する電子文書を前記第2の言語により記述された電子文書の中から検索する第3の検索手段と、を備えたので、多言語文書検索を実現しながらも、検索条件−検索対象文書間の言語の差異を解消するための複雑な作業は一切おこなわれず、これによって、任意の言語からの任意の言語の文書の検索を簡易な処理でおこなうことが可能な文書検索装置が得られるという効果を奏する。
【0075】
また、請求項2に記載の発明は、前記請求項1に記載の発明において、前記第1の検索手段が、前記電子文書のうちその本文が前記検索条件を構成する自然文と意味的に類似する電子文書を前記検索条件に合致する電子文書として検索するので、分野や話題など、本文の全体としての大意が検索条件と合致する文書のみが検索され、これによって、任意の言語からの任意の言語の文書の検索を簡易な処理で、かつ精度よくおこなうことが可能な文書検索装置が得られるという効果を奏する。
【0076】
また、請求項3に記載の発明は、前記請求項1または請求項2に記載の発明において、前記第2の検索手段が、前記第1の検索手段により検索された電子文書のすべてについて、その対訳である電子文書を前記第2の言語により記述された電子文書の中から検索するので、第2の言語による検索条件は、第1の言語による検索で得られた文書の対訳が漏れなく使用されて生成され、これによって、任意の言語からの任意の言語の文書の検索を簡易な処理で、かつ精度よく(具体的には、再現率が高い)おこなうことが可能な文書検索装置が得られるという効果を奏する。
【0077】
また、請求項4に記載の発明は、前記請求項1または請求項2に記載の発明において、前記第2の検索手段が、前記第1の検索手段により検索された電子文書のうち一部の電子文書であって、前記第1の検索手段による結果に基づいて、前記検索条件に対する所定の合致度以上の電子文書について、その対訳である電子文書を前記第2の言語により記述された電子文書の中から検索するので、第2の言語による検索条件は、第1の言語による検索で得られた文書のうち、たとえば検索条件との合致度のとくに高かったものの対訳のみが選択的に使用されて生成され、これによって、任意の言語からの任意の言語の文書の検索を簡易な処理で、かつ精度よく(具体的には、適合率が高い)おこなうことが可能な文書検索装置が得られるという効果を奏する。
【0078】
また、請求項5に記載の発明は、前記請求項1〜請求項4のいずれか一つに記載の発明において、さらに、前記第1の検索手段により検索された電子文書を特定できる情報および前記第3の検索手段により検索された電子文書を特定できる情報を表示する表示手段を備えたので、第1の言語による検索の結果と第2の言語による検索の結果とがあわせて画面表示され、これによって、多言語文書検索の結果をその中間結果も含めて、分かりやすく操作者に提示することが可能な文書検索装置が得られるという効果を奏する。
【0079】
また、請求項6に記載の発明は、第1の言語により記述された検索条件から第2の言語により記述された電子文書をコンピュータを用いて検索する文書検索方法において、前記コンピュータが、前記第1の言語により記述された検索条件に合致する電子文書を前記第1の言語により記述され、あらかじめ所定の記憶領域に記憶された電子文書の中から検索する第1の検索工程と、前記第1の検索工程で検索された電子文書の対訳である電子文書を前記第2の言語により記述され、あらかじめ所定の記憶領域に記憶された電子文書の中から検索する第2の検索工程と、前記第2の検索条件により検索されたそれぞれの電子文書に共通して含まれるキーワードを抽出し、抽出されたキーワードにもとづいて前記第2の言語により記述された検索条件を生成する生成工程と、前記生成工程で生成された検索条件に合致する電子文書を前記第2の言語により記述され、あらかじめ所定の記憶領域に記憶された電子文書の中から検索する第3の検索工程と、を実行するので、多言語文書検索を実現しながらも、検索条件−検索対象文書間の言語の差異を解消するための複雑な作業は一切おこなわれず、これによって、任意の言語からの任意の言語の文書の検索を簡易な処理でおこなうことが可能な文書検索方法が得られるという効果を奏する。
【0080】
また、請求項7に記載の発明によれば、前記請求項6に記載された方法を前記コンピュータに実行させることが可能なプログラムが得られるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の基本原理を模式的に示す説明図である。
【図2】本発明の実施の形態による文書検索装置のハードウェア構成を示す説明図である。
【図3】本発明の実施の形態による文書検索装置の機能的構成を示す説明図である。
【図4】本発明の実施の形態による文書検索装置の文書検索処理の手順を示すフローチャートである。
【図5】本発明の実施の形態による文書検索装置における、検索条件入力画面の一例を示す説明図である。
【図6】本発明の実施の形態による文書検索装置における、検索結果表示画面の一例を示す説明図である。
【図7】本発明の他の実施例の基本原理を模式的に示す説明図である。
【符号の説明】
200 バスまたはケーブル
201 CPU
202 ROM
203 RAM
204 HDD
205 HD
206 FDD
207 FD
208 ディスプレイ
209 ネットワークI/F
210 通信ケーブル
211 キーボード
212 マウス
213 CD−ROM
214 CD−ROMドライブ
300 文書記憶部
300a 日本語文書記憶部
300b 英語文書記憶部
301 日本語検索条件入力部
302 日本語文書検索部
303 英語検索条件生成部
304 英語文書検索部
305 検索結果表示部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document search apparatus, a document search method, and a program for causing a computer to execute a method for searching an electronic document described in a language different from a search condition described in a certain language.
[0002]
[Prior art]
Conventionally, it is possible to search a document that is called “multilingual document search”, etc., in which the language of the search target document is different from the language of the search condition, for example, a document described in English from a Japanese keyword. .
[0003]
As an example, a search service for WEB documents in various languages has already been put into practical use under the name of “TITAN” by Cyberspace Laboratory and “AltaVista” by AltaVistaCompany. Research papers include “Multilingual Internet Information Retrieval Joint Research Project in AMF” (NTT NEWS RELEASE 1999/02/24).
[0004]
[Problems to be solved by the invention]
However, in each of the above prior arts, either the search condition is converted into the language of the search target document, or conversely, the search target document is converted into the language of the search condition, and both languages are made common once and then searched. I was doing.
[0005]
This conversion requires a translation system between multiple languages and a language replacement system at least at the word level, which requires high preparation and refinement costs for data such as translation dictionaries. Such a load also increases. In addition, since ambiguous words often cause a shift in meaning and concept during the translation process, search results can easily contain noise unintended by the operator, and the search accuracy can be matched to the complexity and complexity of the processing. There was a problem that could not be obtained.
[0006]
An attempt has been made to identify correspondence between words in a plurality of languages without using a dictionary by statistically processing a large amount of documents (Japanese Patent Laid-Open No. 2001-43236), but complicated and large-scale processing is performed. In addition, the current technical level cannot be expected to be as accurate as a manually created dictionary.
[0007]
The present invention has been made in view of the above-described problems of the prior art, and is a document search apparatus and document that can perform a search of an arbitrary language document from an arbitrary language with a simple process and with high accuracy. It is an object to provide a search method and a program for causing a computer to execute the search method.
[0008]
[Means for Solving the Problems]
In order to solve the above-described problems and achieve the object, the document retrieval apparatus according to the first aspect retrieves an electronic document described in the second language from the retrieval condition described in the first language. In the document search apparatus, the first search means for searching the electronic document described in the first language for the electronic document that matches the search condition described in the first language, and the first A second retrieval unit that retrieves an electronic document that is a parallel translation of the electronic document retrieved by the retrieval unit from among the electronic documents described in the second language, and the retrieval is performed according to the second retrieval condition. each Electronic document The keywords included in are extracted, and the extracted keywords Generating means for generating a search condition described in the second language on the basis of an electronic document that matches the search condition generated by the generating means from among the electronic documents described in the second language And a third search means for searching.
[0009]
According to the first aspect of the present invention, while performing multilingual document search, complicated work (for example, machine translation) for eliminating the language difference between the search condition and the search target document is not performed. I can't.
[0010]
A document search apparatus according to a second aspect of the present invention is the first searcher according to the first aspect of the present invention. Steps In the electronic document, an electronic document whose text is semantically similar to a natural sentence constituting the search condition is searched as an electronic document that matches the search condition.
[0011]
According to the second aspect of the present invention, only documents in which the meaning of the entire text, such as fields and topics, matches the search conditions are searched.
[0012]
According to a third aspect of the present invention, there is provided the document retrieval apparatus according to the first or second aspect, wherein the second retrieval unit is retrieved by the first retrieval unit. For all of the above, the electronic document which is the parallel translation is searched from the electronic document described in the second language.
[0013]
According to the third aspect of the invention, the search condition in the second language is generated using the bilingual translation of the document obtained by the search in the first language without omission.
[0014]
According to a fourth aspect of the present invention, there is provided the document search apparatus according to the first or second aspect, wherein the second search means is an electronic document searched by the first search means. Some electronic documents An electronic document having a degree of matching equal to or higher than a predetermined degree of matching with the search condition based on the result of the first search means The electronic document that is the parallel translation is searched from the electronic document described in the second language.
[0015]
According to the invention described in claim 4, the search condition in the second language is only the parallel translation of the document obtained by the search in the first language, for example, which has a particularly high degree of matching with the search condition. Selectively used and generated.
[0016]
According to a fifth aspect of the present invention, there is provided the document retrieval apparatus according to the first aspect, further comprising: the electronic document retrieved by the first retrieval unit. It is characterized by comprising display means for displaying information that can be specified and information that can specify the electronic document searched by the third search means.
[0017]
According to the fifth aspect of the present invention, the search result in the first language and the search result in the second language are displayed together on the screen.
[0018]
According to a sixth aspect of the present invention, there is provided a document retrieval method comprising: retrieving an electronic document described in a second language from a search condition described in the first language. Using computer In the document search method to search, The computer is An electronic document that matches the search condition described in the first language , Written in the first language , Previously stored in a predetermined storage area Electronic document group A first search step for searching from among the electronic documents, and an electronic document that is a parallel translation of the electronic document searched in the first search step , Written in the second language , Previously stored in a predetermined storage area Electronic document group The second search step for searching from the list and the second search condition each Electronic document The keywords included in are extracted, and the extracted keywords Generating a search condition described in the second language based on the electronic document, and an electronic document that matches the search condition generated in the generation process , Written in the second language , Previously stored in a predetermined storage area Electronic document group A third search step for searching from within Execute It is characterized by that.
[0019]
According to the invention described in claim 6, while performing multilingual document search, complicated work (for example, machine translation) for eliminating the language difference between the search condition and the search target document is not performed. I can't.
[0020]
Further, the program according to the invention described in claim 7 executes the method described in claim 6. Above The computer is executed.
[0021]
According to the invention described in claim 7, the method described in claim 6 is executed by a computer.
[0022]
DETAILED DESCRIPTION OF THE INVENTION
Exemplary embodiments of a document search apparatus, a document search method, and a program for causing a computer to execute the method according to the present invention will be explained below in detail with reference to the accompanying drawings.
[0023]
(Basic principle of the invention)
Prior to the description of specific embodiments, first, the basic principle of the present invention will be briefly described. FIG. 1 is an explanatory view schematically showing the basic principle of the present invention. The search target document group in the present invention is assumed to be a large number of WEB documents collected from the Internet, for example. In the figure, a document with an ID starting with J indicates a document described in Japanese, and a document with an ID starting with E indicates a document described in English.
[0024]
Here, homepages of companies operating on a global scale or companies opening in e-marketplaces may be created in a plurality of language versions such as a Japanese version and an English version. In the figure, document J-1 shows a Japanese version of such a home page, and document E-1 shows an English version of the same page. The document J-1 and the document E-1 have the same description content, but differ only in the language for describing the content.
[0025]
A Japanese document having a faithful English translation such as this document J-1 or an English document having a faithful Japanese translation such as document E-1 will hereinafter be collectively referred to as “a document (group) with a translation”. . On the other hand, the documents J-2 and J-3 that have only the Japanese version, or the documents E-2, E-3, and E-4 that have only the English version, are referred to as “documents without translation (group)” below. Collectively.
[0026]
If all the search target documents are bilingual documents, it is possible to easily search for documents in other languages using an arbitrary search condition. That is, for example, in order to be able to search an English document from a Japanese search condition, an English document corresponding to the Japanese document is used as a search result instead of a Japanese document that matches the Japanese search condition. Return it.
[0027]
However, as shown in the figure, an actual search target document includes a document with a translation and a document without a translation. At least for the latter, the language on the search condition side is matched with the language on the search target document side as described above. Or, conversely, the conventional technique is to perform a search after matching the language on the search target document side with the language on the search condition side.
[0028]
In contrast, in the present invention, as will be described in detail below, the text of an English document corresponding to a Japanese document that matches a Japanese search condition is regarded as an English search condition, and an English document that matches the search condition is searched. By returning as a result, an English document is searched from a Japanese search condition without going through complicated and difficult language conversion processing and statistical processing.
[0029]
That is, as schematically shown in FIG. 1, first, a natural sentence input in Japanese by an operator is used as a search condition, and the condition is met (which may be said to be similar to the natural sentence as a whole). Search for Japanese documents ((1) in the figure).
[0030]
Assuming that the Japanese documents J-1 and J-2 meet the above conditions, the corresponding English document E-1 exists in the Japanese document J-1 among these applicable documents. The English natural sentence that is the body of the English document E-1 is used as a new search condition, and an English document that matches the condition (which may be said to be similar to the natural sentence as a whole) is searched (see FIG. Medium (2)).
[0031]
Then, the document that satisfies the new condition, that is, the document E-1 itself, and the documents E-2 and E-3 similar to the document E-1, are presented to the operator as the final search results.
[0032]
In other words, in the present invention, the original Japanese search condition is not translated into English by itself, but a Japanese document similar to the Japanese (document J-1 in this example) has already been created manually. For the sake of convenience, an accurate English translation (document E-1) corresponds to an English translation of the above condition, and an English document is searched using this as a new search condition.
[0033]
A faithful English translation of a Japanese document that matches a Japanese search condition is similar to the natural sentence that is the search condition in terms of content and language, but similar in content. At least, there is less semantic and conceptual deviation from the original search condition written in Japanese than the English translation automatically generated by the conventional machine translation technology. By performing a search using this as a search condition, Noise included in the final search result can be reduced.
[0034]
Also, manual translations are more natural than automatically generated translations (that is, they have a quality that is uncomfortable even if they are read by native speakers), and word usage and logic development methods are also in line with the language. Since it is used, it is considered that the similarity with the search target document described in the same language can be determined more accurately by adopting this as a search condition. However, the translation used as a stepping board does not necessarily have to be created manually. If the deviation from the original text is not large, it may be a machine-translated document. It ’s just that there ’s an advantage like that).
[0035]
As described above, according to the present invention, (1) a search for a Japanese document input by an operator using a Japanese natural sentence as a search condition, and (2) an English document corresponding to the Japanese document obtained by the search. Search for documents written in English from the search conditions written in Japanese by chaining the search of English documents using the natural language of English as the search condition. Is possible.
[0036]
(Embodiment of the Invention)
Next, FIG. 2 is an explanatory diagram showing a hardware configuration of the document search apparatus according to the embodiment of the present invention. In the figure, 201 indicates a CPU that controls the entire apparatus, 202 indicates a ROM that stores basic input / output programs, and 203 indicates a RAM that is used as a work area of the CPU 201.
[0037]
Reference numeral 204 denotes an HDD (hard disk drive) that controls reading / writing of data with respect to the HD (hard disk) 205 under the control of the CPU 201, and 205 denotes an HD that stores data written according to the control of the HDD 204. Yes.
[0038]
Reference numeral 206 denotes an FDD (floppy disk drive) that controls reading / writing of data with respect to the FD (floppy disk) 207 according to the control of the CPU 201, and 207 denotes a removable FD that stores data written according to the control of the FDD 206. Respectively.
[0039]
Reference numeral 208 denotes a cursor, menu, window, or display that displays various data such as characters and images, and 209 is connected to a network such as a LAN via a communication cable 210 and functions as an interface between the network and the CPU 201. Each network I / F is shown.
[0040]
Reference numeral 211 denotes a keyboard having a plurality of keys for inputting characters, numerical values, and various instructions. Reference numeral 212 denotes a mouse for selecting and executing various instructions, selecting a processing target, moving a cursor, and the like. ing. Reference numeral 213 denotes a CD-ROM which is a detachable recording medium, 214 denotes a CD-ROM drive for controlling reading of data to the CD-ROM 213, and 200 denotes a bus or cable for connecting the above-described units. ing.
[0041]
Next, FIG. 3 is an explanatory diagram showing a functional configuration of the document search apparatus according to the embodiment of the present invention. As shown, the document search apparatus according to the present invention includes a document storage unit 300, a Japanese search condition input unit 301, a Japanese document search unit 302, an English search condition generation unit 303, an English document search unit 304, and a search result display unit 305. It is the structure containing.
[0042]
First, the document storage unit 300 is a functional unit that holds a document group to be searched by a Japanese document search unit 302 and an English document search unit 304 described later. Here, it is assumed that the documents in the document storage unit 300 are a large number of WEB documents collected from the Internet, and those written in Japanese are written in the Japanese document storage unit 300a, and those written in English are English. Assume that each document is stored in the document storage unit 300b.
[0043]
As described above, some of the documents in the document storage unit 300 are documents with translations and the rest are documents without translations. The bilingual document holds, as its attribute information (attached information), the ID of the bilingual document described in another language (not limited to the ID, any information that can identify the document). Yes.
[0044]
For example, if the Japanese document J-1 and the English document E-1 are in a parallel translation relationship, the former attribute information is the latter ID “E-1”, and the latter attribute information is the former ID. A certain “J-1” is written in advance.
[0045]
Next, FIG. 4 is a flowchart showing a document search processing procedure of the document search apparatus according to the embodiment of the present invention. In the following, the functions of the remaining units shown in FIG. 3 will be described in order according to the procedure shown in FIG.
[0046]
In step S401, the Japanese search condition input unit 301 of the document search apparatus according to the present invention displays a search condition input screen as shown in FIG. 5 on the display 208 and waits for input from the operator. Then, characters input from the keyboard 211 or the like are sequentially displayed in the search condition input area 500.
[0047]
As shown in the figure, a natural sentence consisting of a plurality of sentences is input here as a search condition. However, a natural sentence consisting of a single sentence, a single or a plurality of keywords, etc. may be used as a Japanese character string. Anything may be used.
[0048]
Next, when it is detected in step S402 that an instruction to execute the search is input, that is, when the search execution button 501 shown in FIG. 5 is clicked with the mouse 212 (step S402: Yes), the Japanese language search is performed. The condition input unit 301 delivers the character string in the input area 500 at that time as a search condition to the Japanese document search unit 302 described later.
[0049]
In response to this, the Japanese document search unit 302 searches the Japanese document storage unit 300a based on the search conditions in step S403. This search method by the Japanese document search unit 302 can search a document described in a language from search conditions described in a certain language (even if it can search a document in a single language). However, here, a method generally called “vector space method” is adopted.
[0050]
The “vector space method” calculates the cosine distance between the feature vector of a search condition and the feature vector of each document to be searched, and uses a document whose absolute or relatively small distance as a search condition. It is presented to the operator as a matching document that matches.
[0051]
The feature vector here is an n-dimensional vector composed of n element values corresponding to n keywords (vocabulary), and each element value is most simply determined by the appearance frequency of the corresponding keyword. It is determined. For example, the feature vector of a document that contains only one keyword in the body has only the value of the element corresponding to the keyword, such as (0, 1, 0, 0,...), And the remaining n−1. A vector whose element values are all zero.
[0052]
In this vector space method, a document whose tendency as a whole of the keywords appearing in the text is similar to the search condition has a smaller distance from the search condition, and therefore is more likely to be a conforming document. For this reason, there is an advantage that there is less noise in the search result compared to a Boolean search (general keyword search) in which documents are simply selected based on whether or not a specific keyword in the search condition is included.
[0053]
The Japanese document search unit 302 ranks or scores the documents to be searched on the basis of the above distance, and from the highest rank / highest score document to a certain number of documents, or a predetermined rank / all higher than a predetermined score Documents with a high degree of match with the search condition, such as documents of No. Then, the IDs of these conforming documents (not limited to IDs, any information that can identify the document) are delivered to an English search condition generation unit 303 and a search result display unit 305, which will be described later.
[0054]
Returning to the procedure of FIG. 4, next, in step S404, the English search condition generation unit 303 to which the search result is transferred from the Japanese document search unit 302 sets the attribute information of each document specified by the transferred ID to Japanese. Read from the word document storage unit 300a. Then, it is determined whether or not at least one ID of an English document is included therein, that is, whether or not at least one document with a translation is included in a Japanese document picked up by the search.
[0055]
If even one translated document is included in the result (step S404: Yes), then in step S405, the text of the English document corresponding to each translated document, that is, the attribute read above. The text of the English document specified by each ID in the information is sequentially read from the English document storage unit 300b. Then, a search condition to be given to the English document search unit 304 described later is generated from these English natural sentences.
[0056]
Here, the English search condition generation unit 303 reads out the corresponding bilingual documents for all the bilingual documents in the search result by the Japanese document search unit 302, but selects some bilingual documents and selects the bilingual documents. It is also possible to read out only.
[0057]
For example, the translation is limited to documents that have a particularly high degree of match with the search conditions, such as a certain number of documents from the highest ranking / highest score among all conforming documents, or all documents with a predetermined ranking / predetermined score. Adopt as an English search condition. In other words, even if the document is a conforming document and has a low degree of matching with the search condition, the existence of the parallel translation is ignored.
[0058]
In this way, by adopting bilingual translation of a particularly high-level document among conforming documents, the Japanese search condition input from the Japanese search condition input unit 301 and the English generated by the English search condition generation unit 303 are used. There is less deviation from the search condition, and the final search result is narrowed down and has a high relevance rate. On the other hand, since the recall rate is low, if a search without omission is required, all the translations that exist for Japanese conforming documents should be adopted as English search conditions as in this example. That's fine.
[0059]
When there are a plurality of English documents adopted as search conditions, the English search condition generation unit 303 combines the texts of the respective documents into a continuous natural sentence, and delivers it to an English document search unit 304 described later. In response to this, the English document search unit 304 searches for an English document similar to the natural sentence as a whole.
[0060]
Of course, the text may be regarded as one search condition for each adopted document, and each document may be separately transferred to the English document search unit 304, and the same search may be repeated for the number of documents. In this case, the search result display unit 305, which will be described later, distinguishes and displays English documents searched according to each condition, or collects and displays the union of English documents searched according to each condition. It is possible.
[0061]
It should be noted that keywords commonly used in each of the documents adopted above (or at least many of them) and keywords that are included only in the adopted documents and not included in other documents (adopted) It is also possible to specify only keywords that characterize the document group that has been used for the entire document group that is the parent document, and generate search conditions from these keywords.
[0062]
Next, the English document search unit 304 handed over the search condition from the English search condition generation unit 303 searches the English document storage unit 300b in step S406, and the ID (not limited to the ID) of the English document that matches the above condition. Any information can be used as long as it can identify the document), and the search result display unit 305 described later is handed over.
[0063]
The search of the English document by the English document search unit 304 is performed by the vector space method here, similarly to the search of the Japanese document by the Japanese document search unit 302. However, it is not necessarily limited to this method, and the search by both functional units does not have to be essentially the same. For example, the Japanese document search unit 302 searches for a document that is substantially similar to a natural sentence that is a search condition by the above-described vector space method, and the English document search unit 304 uses an English document that is adopted as a search condition by a Boolean search. You may make it search only the document which contains the keyword in the inside reliably.
[0064]
Next, in step S407, the search result display unit 305 is handed over each ID of the Japanese document as a search result from the Japanese document search unit 302 and each ID of the English document as a search result from the English document search unit 304. A search result display screen as shown in FIG.
[0065]
In the figure, each headline of a Japanese document searched by the Japanese document search unit 302 is displayed in the Japanese document display frame 600, and each headline of the English document searched by the English document search unit 304 is displayed in the English document display frame 601. Are displayed in descending order of the degree of match with the search condition. When this heading is clicked with the mouse 212, the text of the document having the heading can be displayed. In the figure, the document ID is also displayed in parentheses next to the heading, but this may or may not be displayed.
[0066]
According to the embodiment described above, a document described in a certain language can be searched with a search condition in another language, but complicated translation processing and statistical processing are not performed in the process. It does not occur and the load on the system is much smaller than in the prior art.
[0067]
In addition, it is not necessary to prepare a dictionary for translation between languages, which has conventionally required a lot of time and labor, and it is only necessary to collect a group of documents including partially translated documents. In recent years, since there are not a few electronic documents that have been created with translation in advance, including WEB documents, this collection is also easy. In other words, the present invention pays attention to the fact that the collected documents often include bilingual documents, and uses this situation to get an idea that a multilingual document search can be realized as a foothold. It is.
[0068]
In the above-described embodiment, the search for the WEB document on the Internet is taken as an example. However, in addition to the search for the FAQ document in the internal network of the international company, the search for academic papers in various languages in various research / education institutions, etc. The present invention is also applicable.
[0069]
In the embodiment described above, an English document is searched from Japanese, but it goes without saying that a Japanese document can be searched from English. In addition, as schematically shown in FIG. 7, for example, an English document having a translation relationship is obtained from a Japanese document searched in Japanese, and a German document having a translation relationship is acquired from the English document searched in the text of the English document. If a German document is retrieved and a German document retrieved from the body of the German document is taken as a search result, the German document is retrieved from the Japanese search condition as a result. It is possible to search for documents in any language from any language by tracing the documents in a bilingual relationship to an expression that spans multiple languages.
[0070]
In FIG. 1 and FIG. 7, the bilingual document and the document group searched by the bilingual document are drawn as if they existed in the same database, but this is not necessarily the base of the bilingual document extraction. It is not necessary to perform a search for the document group using the corresponding bilingual document. That is, for example, a bilingual translation of a Japanese document searched under a Japanese search condition may be acquired from the database A, and a database B different from that may be searched using the text as an English search condition.
[0071]
Note that the above-described Japanese document search unit 302 corresponds to “first search means” in the claims, and the processing to be performed corresponds to “first search step” in the claims. In addition, the English search condition generation unit 303 serves as the “second search unit” and the “generation unit” in the claims, and the processing to be performed includes the “second search step” and the “generation step” in the claims. It is. Further, the English document search unit 304 corresponds to “third search means” in the claims, and the processing performed by the English document search unit 304 corresponds to “third search step” in the claims. Further, the search result display unit 305 corresponds to “display means” in the claims.
[0072]
The above-described Japanese search condition input unit 301 to search result display unit 305 realize the functions of the respective units when the CPU 201 executes command processing in accordance with program commands read from the HD 205 or the like to the RAM 203. Is. In particular, the Japanese document search unit 302 and the English document search unit 304 are realized by “ConceptBase Search” which is a document search engine manufactured and sold by the present applicant.
[0073]
In addition to the HD 205, the above program can be stored in various recording media such as the FD 207, the CD-ROM 213, or the MO, and can be distributed via this medium, and can also be distributed via a network.
[0074]
【The invention's effect】
As described above, the invention according to claim 1 is described in the first language in the document search apparatus for searching for an electronic document described in the second language from the search condition described in the first language. A first search means for searching for an electronic document that matches the searched search condition from among the electronic documents described in the first language, and an electronic document that is a parallel translation of the electronic document searched by the first search means A second retrieval means for retrieving the document from the electronic document described in the second language, and the document is retrieved by the second retrieval condition. each Electronic document The keywords included in are extracted, and the extracted keywords Generating means for generating a search condition described in the second language on the basis of an electronic document that matches the search condition generated by the generating means from among the electronic documents described in the second language And a third search means for searching, so that while performing multilingual document search, no complicated work is performed to eliminate language differences between search conditions and search target documents. Thus, there is an effect that a document search apparatus capable of searching a document in an arbitrary language from an arbitrary language with a simple process is obtained.
[0075]
The invention according to claim 2 is the invention according to claim 1, in which the first searcher is used. Steps In the electronic document, an electronic document whose text is semantically similar to the natural text that constitutes the search condition is searched as an electronic document that matches the search condition. Only documents that match the search condition are searched, and this makes it possible to obtain a document search apparatus that can perform a search for a document in an arbitrary language from an arbitrary language with a simple process and with high accuracy. Play.
[0076]
According to a third aspect of the present invention, in the first or second aspect of the invention, the second search unit is configured to search for all electronic documents searched by the first search unit. Since the electronic document which is the parallel translation is searched from the electronic documents described in the second language, the parallel translation of the document obtained by the search in the first language is used as the search condition in the second language. As a result, a document search apparatus capable of performing a search for a document in an arbitrary language from an arbitrary language with a simple process and with high accuracy (specifically, a high reproduction rate) is obtained. There is an effect that is.
[0077]
According to a fourth aspect of the present invention, in the first or second aspect of the present invention, the second search unit includes a part of the electronic document searched by the first search unit. Electronic document An electronic document having a degree of matching equal to or higher than a predetermined degree of matching with the search condition based on the result of the first search means Therefore, the electronic document that is the parallel translation is searched from the electronic documents described in the second language. Therefore, the search condition in the second language is, among the documents obtained by the search in the first language, For example, only bilingual translations that have a particularly high degree of match with the search conditions are selectively used and generated. This makes it easy to search for documents in any language from any language with high accuracy (specifically In particular, it is possible to obtain a document retrieval apparatus that can be performed).
[0078]
Further, the invention according to claim 5 is the invention according to any one of claims 1 to 4, further comprising: information that can specify the electronic document searched by the first search means; and Since the display means for displaying the information that can identify the electronic document searched by the third search means is provided, the search result in the first language and the search result in the second language are displayed together on the screen, Thus, there is an effect that a document search apparatus capable of easily presenting the result of multilingual document search including the intermediate result to the operator can be obtained.
[0079]
According to a sixth aspect of the present invention, an electronic document described in a second language is retrieved from a search condition described in the first language. Using computer In the document search method to search, The computer is An electronic document that matches the search condition described in the first language , Written in the first language , Previously stored in a predetermined storage area Electronic document group A first search step for searching from among the electronic documents, and an electronic document that is a parallel translation of the electronic document searched in the first search step , Written in the second language , Previously stored in a predetermined storage area Electronic document group The second search step for searching from the list and the second search condition each Electronic document The keywords included in are extracted, and the extracted keywords Generating a search condition described in the second language based on the electronic document, and an electronic document that matches the search condition generated in the generation process , Written in the second language , Previously stored in a predetermined storage area Electronic document group A third search step for searching from within Execute Therefore, while realizing multilingual document search, no complicated work is performed to eliminate the language difference between the search condition and the search target document. There is an effect that a document search method capable of performing a search by a simple process is obtained.
[0080]
According to the invention described in claim 7, the method described in claim 6 is performed. Above There is an effect that a program that can be executed by a computer is obtained.
[Brief description of the drawings]
FIG. 1 is an explanatory view schematically showing the basic principle of the present invention.
FIG. 2 is an explanatory diagram showing a hardware configuration of a document search apparatus according to an embodiment of the present invention.
FIG. 3 is an explanatory diagram showing a functional configuration of a document search apparatus according to an embodiment of the present invention.
FIG. 4 is a flowchart showing a document search process performed by the document search apparatus according to the embodiment of the present invention.
FIG. 5 is an explanatory diagram showing an example of a search condition input screen in the document search apparatus according to the embodiment of the present invention.
FIG. 6 is an explanatory diagram showing an example of a search result display screen in the document search apparatus according to the embodiment of the present invention.
FIG. 7 is an explanatory view schematically showing the basic principle of another embodiment of the present invention.
[Explanation of symbols]
200 Bus or cable
201 CPU
202 ROM
203 RAM
204 HDD
205 HD
206 FDD
207 FD
208 display
209 Network I / F
210 Communication cable
211 keyboard
212 mouse
213 CD-ROM
214 CD-ROM drive
300 Document storage
300a Japanese document storage
300b English document storage
301 Japanese search condition input part
302 Japanese Document Search Department
303 English search condition generator
304 English Document Search Department
305 Search result display area

Claims (7)

第1の言語により記述された検索条件から第2の言語により記述された電子文書を検索する文書検索装置において、
前記第1の言語により記述された検索条件に合致する電子文書を前記第1の言語により記述された電子文書の中から検索する第1の検索手段と、
前記第1の検索手段により検索された電子文書の対訳である電子文書を前記第2の言語により記述された電子文書の中から検索する第2の検索手段と、
前記第2の検索条件により検索されたそれぞれの電子文書に共通して含まれるキーワードであって、前記第2の検索条件により検索された電子文書のみに含まれ、前記第2の言語により記述された電子文書群におけるその他の電子文書には含まれないキーワードを抽出し、抽出されたキーワードにもとづいて前記第2の言語により記述された検索条件を生成する生成手段と、
前記生成手段により生成された検索条件に合致する電子文書を前記第2の言語により記述された電子文書の中から検索する第3の検索手段と、
を備えたことを特徴とする文書検索装置。
In a document search apparatus for searching an electronic document described in a second language from a search condition described in a first language,
First search means for searching for an electronic document that matches a search condition described in the first language from a group of electronic documents described in the first language;
Second search means for searching an electronic document that is a parallel translation of the electronic document searched by the first search means from an electronic document group described in the second language;
A keyword included in common to each of the electronic documents retrieved by the second search condition, only included in the electronic documents retrieved by the second retrieval condition, as described by the second language Generating means for extracting keywords that are not included in other electronic documents in the electronic document group, and generating search conditions described in the second language based on the extracted keywords;
Third search means for searching for an electronic document that matches the search condition generated by the generation means from among the electronic documents described in the second language;
A document retrieval apparatus comprising:
前記第1の検索手段は、前記電子文書のうちその本文が前記検索条件を構成する自然文と意味的に類似する電子文書を前記検索条件に合致する電子文書として検索することを特徴とする前記請求項1に記載の文書検索装置。  The first search means searches for an electronic document whose body is semantically similar to a natural sentence that constitutes the search condition in the electronic document as an electronic document that matches the search condition. The document search apparatus according to claim 1. 前記第2の検索手段は、前記第1の検索手段により検索された電子文書のすべてについて、その対訳である電子文書を前記第2の言語により記述された電子文書の中から検索することを特徴とする前記請求項1または請求項2に記載の文書検索装置。  The second search means searches for an electronic document that is a parallel translation of all the electronic documents searched by the first search means from electronic documents described in the second language. The document search apparatus according to claim 1 or 2, wherein: 前記第2の検索手段は、前記第1の検索手段により検索された電子文書のうち一部の電子文書であって、前記第1の検索手段による結果に基づいて、前記検索条件に対する所定の合致度以上の電子文書について、その対訳である電子文書を前記第2の言語により記述された電子文書の中から検索することを特徴とする前記請求項1または請求項2に記載の文書検索装置。  The second search means is a part of the electronic documents searched by the first search means, and a predetermined match with the search condition based on a result by the first search means 3. The document search apparatus according to claim 1 or 2, wherein an electronic document that is a parallel translation of an electronic document that is greater than or equal to a predetermined degree is searched from electronic documents described in the second language. さらに、前記第1の検索手段により検索された電子文書を特定できる情報および前記第3の検索手段により検索された電子文書を特定できる情報を表示する表示手段を備えたことを特徴とする前記請求項1〜請求項4のいずれか一つに記載の文書検索装置。  The information processing apparatus further comprises display means for displaying information that can specify the electronic document searched by the first search means and information that can specify the electronic document searched by the third search means. The document search device according to any one of claims 1 to 4. 第1の言語により記述された検索条件から第2の言語により記述された電子文書をコンピュータを用いて検索する文書検索方法において、
前記コンピュータが、
前記第1の言語により記述された検索条件に合致する電子文書を、前記第1の言語により記述され、あらかじめ所定の記憶領域に記憶された電子文書群の中から検索する第1の検索工程と、
前記第1の検索工程で検索された電子文書の対訳である電子文書を、前記第2の言語により記述され、あらかじめ所定の記憶領域に記憶された電子文書群の中から検索する第2の検索工程と、
前記第2の検索条件により検索されたそれぞれの電子文書に共通して含まれるキーワードであって、前記第2の検索条件により検索された電子文書のみに含まれ、前記第2の言語により記述され、あらかじめ所定の記憶領域に記憶された電子文書群におけるその他の電子文書には含まれないキーワードを抽出し、抽出されたキーワードにもとづいて前記第2の言語により記述された検索条件を生成する生成工程と、
前記生成工程で生成された検索条件に合致する電子文書を、前記第2の言語により記述され、あらかじめ所定の記憶領域に記憶された電子文書群の中から検索する第3の検索工程と、
を実行することを特徴とする文書検索方法。
In a document retrieval method for retrieving an electronic document described in a second language from a search condition described in a first language using a computer,
The computer is
A first search step of searching for an electronic document that matches a search condition described in the first language from a group of electronic documents described in the first language and previously stored in a predetermined storage area; ,
A second search for searching an electronic document that is a parallel translation of the electronic document searched in the first search step from an electronic document group described in the second language and stored in a predetermined storage area in advance. Process,
A keyword that is commonly included in each electronic document searched by the second search condition, is included only in the electronic document searched by the second search condition, and is described in the second language. Generating keywords that are not included in other electronic documents in a group of electronic documents stored in a predetermined storage area in advance, and generating search conditions described in the second language based on the extracted keywords Process,
A third search step for searching for an electronic document that matches the search condition generated in the generation step from an electronic document group described in the second language and stored in a predetermined storage area in advance;
The document retrieval method characterized by performing.
前記請求項6に記載された方法を前記コンピュータに実行させるプログラム。  A program for causing a computer to execute the method according to claim 6.
JP2001401817A 2001-12-28 2001-12-28 Document search apparatus, document search method, and program causing computer to execute the method Expired - Fee Related JP4368550B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001401817A JP4368550B2 (en) 2001-12-28 2001-12-28 Document search apparatus, document search method, and program causing computer to execute the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001401817A JP4368550B2 (en) 2001-12-28 2001-12-28 Document search apparatus, document search method, and program causing computer to execute the method

Publications (2)

Publication Number Publication Date
JP2003196309A JP2003196309A (en) 2003-07-11
JP4368550B2 true JP4368550B2 (en) 2009-11-18

Family

ID=27605502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001401817A Expired - Fee Related JP4368550B2 (en) 2001-12-28 2001-12-28 Document search apparatus, document search method, and program causing computer to execute the method

Country Status (1)

Country Link
JP (1) JP4368550B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2702509A4 (en) * 2011-04-28 2015-05-20 Microsoft Technology Licensing Llc Alternative market search result toggle
JP5998779B2 (en) * 2012-09-13 2016-09-28 富士通株式会社 SEARCH DEVICE, SEARCH METHOD, AND PROGRAM

Also Published As

Publication number Publication date
JP2003196309A (en) 2003-07-11

Similar Documents

Publication Publication Date Title
JP4504555B2 (en) Translation support system
JP3666004B2 (en) Multilingual document search system
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JPH11110416A (en) Method and device for retrieving document from data base
JPH11250105A (en) Method and system for retrieving multi-language information
JP2005516306A (en) Search for matching documents by querying in any national language
Capstick et al. A system for supporting cross-lingual information retrieval
JP4091146B2 (en) Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus
JP3178421B2 (en) Text search device and computer-readable recording medium storing text search program
JP3767763B2 (en) Information retrieval device and computer-readable recording medium recording a program for causing a computer to function as the device
JP2006343925A (en) Related-word dictionary creating device, related-word dictionary creating method, and computer program
JPH1145257A (en) Web document retrieval supporting device and computer readable recording medium recorded with program for functioning computer as the device
JP4368550B2 (en) Document search apparatus, document search method, and program causing computer to execute the method
JP2005202924A (en) Translation determination system, method, and program
JP2000163441A (en) Method and device for preparing dictionary, storage medium storing dictionary preparation program, method and device for preparing retrieval request, storage medium storing retrieval request preparation program and multi-language correspondence information retrieval system
JPH1145252A (en) Information retrieval device and computer readable recording medium for recording program for having computer function as the same device
JP2004157965A (en) Search support device and method, program and recording medium
JP3766406B2 (en) Machine translation device
JP4138048B2 (en) Information retrieval device and computer-readable recording medium recording a program for causing a computer to function as the device
JP4000332B2 (en) Information retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus
JP4497337B2 (en) Concept search device and recording medium recording computer program
JP3851712B2 (en) Document management system and computer-readable recording medium storing a program for causing a computer to function as the system
JP4074687B2 (en) Summary sentence creation support system and computer-readable recording medium recording a program for causing a computer to function as the system
JP4384736B2 (en) Image search device and computer-readable recording medium storing program for causing computer to function as each means of the device
JP3328913B1 (en) Multilingual document retrieval system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070312

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070424

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070625

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070717

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070928

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090826

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120904

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees