JPH11265399A - 言語間情報検索支援装置 - Google Patents

言語間情報検索支援装置

Info

Publication number
JPH11265399A
JPH11265399A JP10082478A JP8247898A JPH11265399A JP H11265399 A JPH11265399 A JP H11265399A JP 10082478 A JP10082478 A JP 10082478A JP 8247898 A JP8247898 A JP 8247898A JP H11265399 A JPH11265399 A JP H11265399A
Authority
JP
Japan
Prior art keywords
language
words
search
keyword
bilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10082478A
Other languages
English (en)
Inventor
Masami Suzuki
雅実 鈴木
Naoki Inoue
直己 井ノ上
Kazuo Hashimoto
和夫 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDD Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDD Corp filed Critical KDD Corp
Priority to JP10082478A priority Critical patent/JPH11265399A/ja
Publication of JPH11265399A publication Critical patent/JPH11265399A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 所望の言語以外の言語のページを検索及び閲
覧する場合に、できる限り検索者が所望するページが検
索できるように、該ページの内容全体を反映した閲覧支
援情報を提供する言語間情報検索支援装置である。 【解決手段】 第1の言語の複数の単語について、1つ
のページ内で該単語が同時に出現する組み合わせの頻度
を格納した該第1の言語の共起頻度テーブルと、検索手
段によって検索された1つの文書情報内に出現する第2
の言語の複数の単語のそれぞれを、1つ以上の第1の言
語の対訳語に対訳する対訳手段と、第1の言語の対訳語
を用いて、第2の言語の単語間で相互に、複数の該第1
の言語の対訳語が同時に出現する頻度の高い組み合わせ
を、第1の言語の共起頻度テーブルから検索する検索手
段とを有するものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数のコンピュー
タが接続されたネットワークにあって、所望の言語以外
の言語で提供された文書情報の検索を支援する装置に関
するものである。
【0002】
【従来の技術】情報検索支援装置の代表例としては、イ
ンターネットにおいて膨大な数のホームページを検索す
るために、キーワード等の検索条件を指定して検索結果
を得ることができるサーチエンジンと称されるものがあ
る。以下では、主にインターネット上での利用を例にと
り説明していく。
【0003】従来、サーチエンジンは、検索者の所望の
言語と検索対象のページの原言語とが異なる場合、検索
者は、適切な情報を検索をするために非常に苦しまされ
る。なぜなら、サーチエンジンで指定する検索キーワー
ドは、少なくとも検索対象のホームぺージの原言語でな
ければならない。
【0004】このような不都合を解決できる言語間情報
検索システムとして、キーワードを検索対象のページの
原言語に対訳し、その対訳されたキーワードを用いて既
存の英語のサーチエンジンで検索するシステムがある。
これは、例えば、検索者の所望の言語が日本語であり、
検索対象のページの原言語が英語である場合に、日本語
で指定された検索キーワードを自動的に英語のキーワー
ドに対訳する。このサーチエンジンの例としては、ドラ
ゴンサーチ(http://www.dragon.co.jp) がある。
【0005】他の言語間情報検索システムの例として
は、日本語に限定した上で文節程度を検索フレーズとし
て指定できるシステムがある。これは、検索フレーズ内
の1つ以上のキーワードを自動的に抽出して且つ該キー
ワードをAND検索することができる。また、検索結果
リストの表示の際に該当するホームページのタイトルに
限って日本語に翻訳して表示することができる。このサ
ーチエンジンの例としては、NTTのTITAN(http:
//isserv.tas.ntt.jp/chisho/titan.html)がある。例え
ば検索フレーズを「日本文化として」と入力すると、検
索キーワードが「Japan 」及び「culture 」に対訳され
てAND条件で検索される。
【0006】しかし、前述した従来の言語間情報検索シ
ステムは、いずれも検索者が指定する検索キーワード及
び検索フレーズに対して、できる限り最適な検索を行お
うとするものである。従って、検索者が目的とするホー
ムページを得るためには、確実な検索キーワード等の条
件指定が必要となる。また、複数のURLを表示した検
索結果リストから適当なURLを選択するための判断材
料は、ホームページのタイトル部等の情報しかない。更
に、前述したサーチエンジンを用いて、たとえ最適なホ
ームページを検索できたとしても、詳細なアンカーを選
択することは難しい。なぜなら、検索者の所望の言語以
外の言語で提供されたページは、大まかな概要を理解す
るのも難しい場合があるからである。いずれも、ページ
の検索を支援するものではあるが、ページの閲覧を支援
するものではない。
【0007】そこで、これらの課題を解決するために、
本発明者等は、特願平8−355492において、所望
の言語以外の言語で提供された文書情報を検索する際
に、容易かつ的確な検索を行うための支援情報を検索者
に提供する言語間情報検索支援システムを提供してい
る。
【0008】該言語間情報検索支援システムは、第1の
言語のキーワードを用いて第2の言語で記述された文書
情報を検索するために、言語間対訳辞書データベース
と、第1の言語のキーワードを指定させ且つ検索結果を
表示するユーザインターフェース手段と、該第1の言語
のキーワードを該言語間対訳辞書データベースを用いて
第2の言語のキーワードに対訳する対訳手段と、該第2
の言語のキーワードを用いて文書情報を検索する検索手
段とを有するものである。
【0009】例えば、検索者の所望の言語が日本語であ
り、検索対象のページの原言語が英語である場合につい
て説明する。第1に、データベースが、予め検索ページ
のテキストリソース全体から英語の主要キーワードを抽
出し、且つ発生頻度及び/又は文書構造の重み付けによ
り優先度順にリストされたインデックス情報を格納して
いる。第2に、日本語で指定されたキーワードを英語に
対訳して、データベースのインデックス情報から検索す
る。第3に、検索されたページを検索者に表示すると共
に、該ページのインデックス情報のいくつかの英語の主
要キーワードもそれぞれ日本語に対訳して、その対訳結
果をブラウザ上に表示する。
【0010】従って、検索者は、所望の言語以外の言語
のページを、主要キーワードの対訳を参照しながら閲覧
できるために、ページの概要が把握しやすいという効果
を奏するものである。
【0011】
【発明が解決しようとする課題】しかし、検索者の閲覧
支援のための対訳結果は、1つのキーワードに対して複
数の対訳語が存在する場合であっても、1つ又はいくつ
かの対訳結果を表示できるものでしかない。例えば、検
索対象である英語のページの主要キーワードが「lif
e」であるとする。「life」に対応する日本語の対
訳語は、「生命(命)」、「人生、生涯」、「生活、生
計」、「生物」、「活気」等がある。従って、いずれか
1つの対訳語を表示したとしても、ページの内容を反映
した対訳語が選択されない場合が多い。
【0012】一方、このような問題は、日本語のキーワ
ードを英語のキーワードに対訳して、英語のサーチエン
ジンを用いて検索する場合にも問題となる。例えば、日
本語の検索キーワードが「状態」であるとする。「状
態」に対応する英語の対訳語は、「condition 」、「st
ate 」、「situation 」等がある。従って、どの英語の
キーワードが、検索者の所望のキーワードであるかを判
断することも難しい。
【0013】そこで、本発明は、所望の言語以外の言語
の文書情報を検索及び閲覧する場合に、できる限り検索
者が所望する文書情報を検索し、該文書情報の内容を反
映した閲覧支援情報を提供することを目的とする。
【0014】
【課題を解決するための手段】本発明は、第1の言語の
複数の単語について、1つの文書情報内で該単語が同時
に出現する組み合わせA(Wi,Wj)の頻度を格納した該第1
の言語の共起頻度テーブルを更に有しており、対訳手段
は、検索手段によって検索された1つの文書情報内に出
現する第2の言語の複数の単語のそれぞれを、1つ以上
の第1の言語の対訳語に対訳するものであり、検索手段
は、第2の言語の単語間で、複数の第1の言語の対訳語
が同時に出現する頻度の高い組み合わせを、第1の言語
の共起頻度テーブルから検索するものであり、ユーザイ
ンタフェース手段は、検索手段によって検索された複数
の対訳語を支援情報として表示するものである。これに
より、よりページ内容を反映した最適な対訳語に対訳さ
れるので、検索者が所望の言語以外の言語のページを閲
覧する場合にも、適切な支援情報を提供することが可能
となる。
【0015】本発明は、また、第2の言語の複数の単語
について、1つの文書情報内で複数の該キーワードが同
時に出現する組み合わせの頻度を格納した第2の言語の
共起頻度テーブルを更に有しており、対訳手段は、ユー
ザインタフェース手段によって指定された第1の言語の
複数のキーワードのそれぞれを、1つ以上の第2の言語
の対訳語に対訳するものであり、検索手段は、第1の言
語のキーワード間で、複数の第2の言語の対訳語が同時
に出現する頻度の高い組み合わせを、第2の言語の共起
頻度テーブルから検索し、検索された複数の該第2の言
語の対訳語をキーワードとして第2の言語の文書情報を
検索するものである。これにより、よりページ内容を反
映した最適なキーワードに対訳されるので、検索者が所
望の言語以外の言語のページを検索する場合にも、適切
なページを検索することが可能となる。
【0016】本発明は、更に、前述したような言語間対
訳辞書データベースと、ユーザインターフェース手段
と、対訳手段と、検索手段と、第1の言語の共起頻度テ
ーブルと、第2の言語の共起頻度テーブルとを合わせ持
ったものである。
【0017】本発明の他の実施形態によれば、共起頻度
テーブルは、N個の単語の正方行列であり、該正方行列
内に、検索対象となる全ての文書情報の中から同一文書
内に同時に出現する頻度値が格納されているものであ
る。
【0018】本発明の他の実施形態によれば、共起頻度
テーブルに格納される頻度値は、単語Wiがn回出現し
且つ単語Wjがm回出現した場合に、単語Wi及び単語
Wj間の出現頻度値を、1増分するか、又はn×mを増
分するか、又はnとmとを比較して小さい値を増分する
か、又は単語Wi及び単語Wjの文書構造における重み
付け値を増分するか、又は単語Wi及び単語Wjの出現
位置の距離値を増分するものである。
【0019】本発明の他の実施形態によれば、1つの文
書情報内に出現する第2の言語の複数の単語を予め抽出
し、かつ発生頻度及び/又は文書構造の重み付けによる
優先度順のリストのインデックス情報を格納するインデ
ックスデータベースを更に有するものである。
【0020】本発明の他の実施形態によれば、検索のた
めの第1の言語のキーワードとして第1の言語のフレー
ズで指定することができ、該フレーズから1つ以上のキ
ーワードを抽出する検索キーワード抽出手段を更に有し
ている。
【0021】本発明の他の実施形態によれば、ネットワ
ークを介して自動的に前記文書情報を収集するリソース
発見エンジンと、収集された該文書情報のテキストリソ
ースが記録されているテキストデータベースとを更に有
している。
【0022】
【発明の実施の形態】図1は、本発明の一実施形態にお
ける装置構成図である。以下、この構成について説明す
る。
【0023】図1は、本発明の言語間情報検索支援装置
となるサーバ1と、検索情報を表示するためのWWWブ
ラウザが用意されているクライアントとから構成されて
おり、両者はインターネット3によって接続されてい
る。
【0024】サーバ1は、制御部10と、複数の種類の
言語間で単語を対訳するための辞書を有する言語間対訳
辞書データベース11と、ページのテキストリソースを
含むテキストデータベース12と、該ページのインデッ
クス情報を含むインデックスデータベース13と、単語
共起頻度テーブル14とを有する。該制御部10は、ユ
ーザインタフェース手段10aと、対訳手段10bと、
検索手段10cと、リソース発見エンジン10dと、検
索キーワード抽出手段10eとを有する。
【0025】言語間情報検索支援装置の動作を説明する
ために、クライアントの検索者が所望する言語を日本語
とし、検索されるページが英語で記述されていると仮定
する。本装置の対訳機能としては、第1に、日本語の検
索キーワードを英語に対訳し、その対訳語を用いて英語
のページを検索する機能と、第2に検索された英語のペ
ージについて主要な単語を日本語に対訳し、検索者を支
援する機能とがある。
【0026】ここで、言語間情報検索支援装置の動作を
説明する。最初に、ユーザインタフェース手段10a
は、クライアント2から1つ以上の日本語の検索キーワ
ードを取得する。次に、対訳手段10bは、言語間対訳
辞書データベース11を用いて該日本語の検索キーワー
ドを英語のキーワードに対訳する。このとき、単語共起
頻度テーブル14を用いて最適な英語のキーワードに対
訳することができる。次に、検索手段10cは、該最適
な英語のキーワードを用いてインデックスデータベース
にアクセスしてページを検索する。ページのインデック
ス情報には、該ページの主要単語が列挙されている。こ
れは、英語のページをクライアントの検索者が閲覧する
際の支援情報となるものである。次に、該対訳手段10
bは、ページの英語の主要単語を言語間対訳辞書データ
ベース11を用いて日本語の単語に対訳する。このと
き、単語共起頻度テーブル14を用いて最適な日本語の
単語に対訳する。最後に、ユーザインタフェース手段1
0aは、検索された英語のページと、該ページの支援情
報として日本語の主要単語をクライアント2へ送信す
る。
【0027】次に、最適な単語に対訳するために用いら
れる単語共起頻度テーブル14について説明する。単語
共起頻度テーブルは、2つ以上の単語の組み合わせが同
時に出現する頻度の最も高いものを選択するためのもの
である。単語共起頻度とは、任意の複数の単語の組み合
わせが同時に1つのページに出現する頻度の分布をい
う。
【0028】例えば、検索されたページ内に英語の単語
「court 」が出現しているとする。「court 」の対訳語
には「中庭、コート」又は「裁判所、法廷」がある。こ
の場合、検索されたページ内に「sport 」、「tennis」
又は「game」等の英語の単語が出現するならば、「cour
t 」は「コート」と対訳すべきである。一方、検索され
たページ内に「lawsuit 」(裁判)又は「accused 」
(被告)等の英語の単語が出現するならば、「court 」
は「法廷」と対訳すべきである。
【0029】より具体的に、単語共起頻度テーブル14
を用いた対訳について説明する。例えば、検索された1
つのページ内に「development 」、「communications」
及び「system」が出現しているとする。対訳手段10b
は、言語間対訳辞書データベース11を用いて、「deve
lopment 」を「開発」、「現像」、「発展」及び「展
開」に、「communications」を「交通」及び「通信」
に、「system」を「組織」、「体制」及び「制度」にそ
れぞれ対訳する。
【0030】次に、単語共起頻度テーブル14内で、
「開発」、「現像」、「発展」、「展開」、「交通」、
「通信」、「組織」、「体制」及び「制度」について、
以下のような正方行列の組み合わせテーブルを作成して
いる。現実には、これらの単語は行及び列が数千個以上
でマトリックスを構成している。
【0031】 開発 展開 発展 体制 測定 現像 通信 組織 措置 交通 制度 開発 1 5 6 4 1 10 7 1 1 9 展開 6 2 1 1 2 4 1 5 3 発展 3 2 1 6 6 3 7 3 体制 1 1 6 7 3 3 6 測定 4 6 2 1 7 3 現像 2 2 1 1 1 通信 5 3 3 8 組織 4 6 5 措置 3 3 交通 7 制度
【0032】単語共起頻度テーブル内に表された値は、
テキストデータベースに格納された対象となる全てのぺ
ージから算出された出現頻度値である。出現頻度値は、
大きい値になるほど単語間の組み合わせの出現頻度が高
いことを意味する。
【0033】出現頻度値の決定は、種々の方法がある。
単語Wiがn回出現し且つ単語Wjがm回出現した場合
に、単語Wi及び単語Wj間の出現頻度値を、1増分す
るか、又はn×mを増分するか、又はnとmとを比較し
て小さい値を増分するか、又は単語Wi及び単語Wjの
文書構造における重み付け値を増分するか、又は単語W
i及び単語Wjの出現位置の距離値を増分することによ
り決定する。
【0034】対訳手段が、言語間対訳辞書データベース
11と単語共起頻度テーブル14とを用いて対訳する過
程を説明する。
【0035】例えば、「development 」と「communicat
ions」及び「system」との組み合わせに対して、「開
発」、「現像」、「発展」及び「展開」と、「交通」、
「通信」、「組織」、「体制」及び「制度」との組み合
わせの出現頻度を検索する。以下に、そのマトリックス
を表す。
【0036】
【0037】「development 」の対訳語候補の各々と、
その決定(候補中からの選択)に影響を与える、他の2
語の対訳語候補との共起出現頻度を比較することによ
り、「development 」の対訳語は、「開発」が適切であ
ると判断できる。
【0038】次に、「communications」と「developmen
t 」及び「system」との組み合わせに対して、「交通」
及び「通信」と、「開発」、「組織」、「体制」及び
「制度」との組み合わせの出現頻度を算出する。「現
像」、「発展」及び「展開」については、前段階で適切
でないと判断されているために、ここでの比較対象とは
しない。以下に、そのマトリックスを表す。
【0039】
【0040】「communications」の対訳語候補の各々
と、その決定(候補中からの選択)に影響を与える、他
の2語の対訳語候補との共起出現頻度を比較することに
より、「communications」の対訳語は、「通信」が適切
であると判断できる。
【0041】次に、「system」と「communications」及
び「development 」との組み合わせに対して、「組
織」、「体制」及び「制度」と、「開発」及び「通信」
との組み合わせの出現頻度を算出する。「現像」、「発
展」、「展開」及び「交通」については、前段階で適切
でないと判断されているために、ここでの比較対象とは
しない。以下に、そのマトリックスを表す。
【0042】
【0043】「system」の対訳語候補の各々と、その決
定(候補中からの選択)に影響を与える、他の2語の対
訳語候補との共起出現頻度を比較することにより、「sy
stem」の対訳語は「制度」が適すると判断できる。
【0044】これにより、検索された文書情報の単語に
おいて、「development 」は「開発」と、「communicat
ions」は「通信」と、「system」は「制度」と対訳され
る。
【0045】前述の一実施形態では、日本語の単語共起
頻度テーブルを説明している。これにより、検索された
ページの主要な単語を対訳してクライアントに表示する
ことによって閲覧支援をすることができる。一方、前述
したものと全く同様の方法で、英語の単語共起頻度テー
ブルも作成する。これにより、複数の日本語の検索キー
ワードを、最適な英語のキーワードに対訳して、英語の
ページを検索することができる。
【0046】また、サーバ1のリソース発見エンジン1
0dは、一般に「ロボット」と称されており、ネットワ
ーク上の多くの情報リソースからページを自動的に収集
する。収集されたページのテキストリソースは、テキス
トデータベース12に記録される。但し、サーバ1は、
あくまで情報検索支援のために提供されるものなので、
収集したページのHTMLテキストリソース及び該ペー
ジのURL及びドメイン等の各種情報のみが記録される
ようにしている。従って、画像データのような情報は記
録する必要がない。
【0047】このようにして収集されたページから単語
を切り出して、自動的に単語共起頻度テーブル14が更
新されていく。但し、単語共起頻度テーブルの更新は、
定期的にバッチ処理で行われるのが好ましい。
【0048】また、インデックスデータベース13は、
ページのテキストリソース全体から原言語の主要単語を
抽出し、かつ発生頻度及び/又は文書構造の重み付けに
より並べられた優先度順の該主要単語のリストをインデ
ックス情報として格納するものである。従って、リソー
ス発見エンジン10dによってテキストデータベース1
2に収集されたページは、ページ毎にインデックス情報
が生成される。
【0049】単語共起頻度テーブル14は、ページ毎の
インデックス情報の単語リストを当該テーブルに反映さ
せる。インデックス情報のページ毎の単語リストは、当
該ページをクライアントに表示する際の検索者に対する
支援情報となる。単語共起頻度テーブル145は、ペー
ジ内容の分野によって大まかに分類されることも好まし
い。これにより、より適切な単語に対訳することが可能
となる。
【0050】ユーザインタフェース手段10aは、検索
キーワードがフレーズであってもよい。その場合、検索
条件は検索キーワード抽出手段10eへ送られる。該検
索キーワード抽出手段10eは、フレーズから1つ以上
のキーワードを抽出し、対訳手段10bへ送る。
【0051】検索手段10cは、対訳された検索キーワ
ード等の検索条件に該当するインデックス情報を、イン
デックスデータベース13から検索する。検索されたイ
ンデックス情報の各種項目は、検索結果リストを表示す
る際の支援情報として用いられる。
【0052】図2は、クライアント2に表示された検索
結果の一例である。当該ページの主要単語が対訳されて
表示されている。また、この表示された主要単語は、比
較的にページの内容を反映したものとなる。ここでのペ
ージは、英語及び中国語のページであり、ページタイト
ルさえも不明であるが、ページ内容が「イエローペー
ジ、会社、名簿、ビジネス、サービス業」に関するもの
であることが把握できる。これら支援情報は、検索者に
とって非常に有効なものである。
【0053】図3は、クライアント2に表示されたペー
ジの一例である。当該ページの主要単語が対訳されて、
ページフレームと共に支援情報フレームが表示されてい
る。
【0054】支援情報フレームには、タイトル中の単語
とページ中の主要単語とが対訳されて表示されている。
この時、原言語の単語と対訳された日本語の単語とを比
較できるように並べて表示されているので、検索者が見
比べて把握できる点で有効である。ここでは、優先順に
5つの主要キーワードが表示されている。
【0055】前述した説明では、一実施形態としてイン
ターネットを例にとり説明したが、複数のコンピュータ
が接続されたネットワーク上での情報検索への適用にお
いて、本発明の技術思想及び見地の範囲の種々の変更、
修正及び省略は、当業者によれば容易に行うことができ
る。また、日本語、英語及び中国語等を例にとり説明し
たが、ロシア語等の他の言語でも同様に行えるのは当然
である。従って、上述した説明は、あくまで例であって
制約しようとするものではなく、本発明は、特許請求の
範囲及びその等価物として限定するものだけに制約され
る。
【0056】
【発明の効果】以上説明したように、本発明によれば、
よりページ内容を反映した最適な対訳語に対訳されるの
で、検索者が所望の言語以外の言語のページを閲覧する
場合にも、適切な支援情報を提供することが可能とな
る。また、よりページ内容を反映した最適なキーワード
に対訳されるので、検索者が所望の言語以外の言語のペ
ージを検索する場合にも、適切なページを検索すること
が可能となる。
【図面の簡単な説明】
【図1】本発明の言語間情報検索支援装置の一実施形態
における装置構成図である。
【図2】図1のクライアントに表示された検索結果の表
示例である。
【図3】図1のクライアントに表示された検索ページの
表示例である。
【符号の説明】
1 サーバ 10 制御部 10a ユーザインタフェース手段 10b 対訳手段 10c 検索手段 10d リソース発見エンジン 10e 検索キーワード抽出手段 11 言語間対訳辞書データベース 12 テキストデータベース 13 インデックスデータベース 14 単語共起頻度テーブル 2 クライアント 3 インターネット

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 第1の言語のキーワードを用いて第2の
    言語で記述された文書情報を検索するために、言語間対
    訳辞書データベースと、第1の言語のキーワードを指定
    させ且つ検索結果を表示するユーザインターフェース手
    段と、該第1の言語のキーワードを該言語間対訳辞書デ
    ータベースを用いて第2の言語のキーワードに対訳する
    対訳手段と、該第2の言語のキーワードを用いて文書情
    報を検索する検索手段とを有する言語間情報検索支援装
    置において、 第1の言語の複数の単語について、1つの文書情報内で
    該単語が同時に出現する組み合わせの頻度を格納した該
    第1の言語の共起頻度テーブルを更に有しており、 前記対訳手段は、前記検索手段によって検索された1つ
    の文書情報内に出現する前記第2の言語の複数の単語の
    それぞれを、1つ以上の前記第1の言語の対訳語に対訳
    するものであり、 前記検索手段は、前記第2の言語の単語間で、複数の前
    記第1の言語の対訳語が同時に出現する頻度の高い組み
    合わせを、前記第1の言語の共起頻度テーブルから検索
    するものであり、 前記ユーザインタフェース手段は、前記検索手段によっ
    て検索された複数の対訳語を支援情報として表示するも
    のであることを特徴とする装置。
  2. 【請求項2】 第1の言語のキーワードを用いて第2の
    言語で記述された文書情報を検索するために、言語間対
    訳辞書データベースと、1つ以上の該第1の言語のキー
    ワードを指定させ且つ検索結果を表示するユーザインタ
    ーフェース手段と、該第1の言語のキーワードを該言語
    間対訳辞書データベースを用いて該第2の言語のキーワ
    ードに対訳する対訳手段と、該第2の言語のキーワード
    を用いて文書情報を検索する検索手段とを有する言語間
    情報検索支援装置において、 前記第2の言語の複数の単語について、1つの文書情報
    内で複数の該キーワードが同時に出現する組み合わせの
    頻度を格納した第2の言語の共起頻度テーブルを更に有
    しており、 前記対訳手段は、前記ユーザインタフェース手段によっ
    て指定された前記第1の言語の複数のキーワードのそれ
    ぞれを、1つ以上の前記第2の言語の対訳語に対訳する
    ものであり、 前記検索手段は、前記第1の言語のキーワード間で、複
    数の前記第2の言語の対訳語が同時に出現する頻度の高
    い組み合わせを、前記第2の言語の共起頻度テーブルか
    ら検索し、検索された複数の該第2の言語の対訳語をキ
    ーワードとして第2の言語の文書情報を検索するもので
    あることを特徴とする装置。
  3. 【請求項3】 請求項1及び請求項2に記載の、前記言
    語間対訳辞書データベースと、前記ユーザインターフェ
    ース手段と、前記対訳手段と、前記検索手段と、前記第
    1の言語の共起頻度テーブルと、前記第2の言語の共起
    頻度テーブルとを有することを特徴とする装置。
  4. 【請求項4】 前記共起頻度テーブルは、N個の単語の
    正方行列であり、該正方行列内に、検索対象となる全て
    の文書情報の中から同一文書内に同時に出現する頻度値
    が格納されているものであることを特徴とする請求項1
    から3のいずれか1項に記載の装置。
  5. 【請求項5】 前記共起頻度テーブルに格納される頻度
    値は、単語Wiがn回出現し且つ単語Wjがm回出現し
    た場合に、単語Wi及び単語Wj間の出現頻度値を、 1増分する、か又は、 n×mを増分する、か又は、 nとmとを比較して小さい値を増分する、か又は、 単語Wi及び単語Wjの文書構造における重み付け値を
    増分する、か又は、 単語Wi及び単語Wjの出現位置の距離値を増分するこ
    とを特徴とする請求項1から4のいずれか1項に記載の
    装置。
  6. 【請求項6】 1つの文書情報内に出現する第2の言語
    の複数の単語を予め抽出し、かつ発生頻度及び/又は文
    書構造の重み付けによる優先度順のリストを含むインデ
    ックス情報を格納するインデックスデータベースを更に
    有することを特徴とする請求項1から5のいずれか1項
    に記載の装置。
  7. 【請求項7】 検索のための第1の言語のキーワードと
    して第1の言語のフレーズで指定することができ、該フ
    レーズから1つ以上のキーワードを抽出する検索キーワ
    ード抽出手段を更に有していることを特徴とする請求項
    1から6のいずれか1項に記載の装置。
  8. 【請求項8】 ネットワークを介して自動的に前記文書
    情報を収集するリソース発見エンジンと、収集された該
    文書情報のテキストリソースが記録されているテキスト
    データベースとを更に有していることを特徴とする請求
    項1から7のいずれか1項に記載の装置。
JP10082478A 1998-03-16 1998-03-16 言語間情報検索支援装置 Pending JPH11265399A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10082478A JPH11265399A (ja) 1998-03-16 1998-03-16 言語間情報検索支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10082478A JPH11265399A (ja) 1998-03-16 1998-03-16 言語間情報検索支援装置

Publications (1)

Publication Number Publication Date
JPH11265399A true JPH11265399A (ja) 1999-09-28

Family

ID=13775631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10082478A Pending JPH11265399A (ja) 1998-03-16 1998-03-16 言語間情報検索支援装置

Country Status (1)

Country Link
JP (1) JPH11265399A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063201A (ja) * 2000-08-17 2002-02-28 Nova Asia:Kk コンピュータネットワークを用いた多言語対応情報検索方法及び検索兼翻訳ツールバー
JP2003022275A (ja) * 2001-07-06 2003-01-24 Telecommunication Advancement Organization Of Japan 文書検索システムおよび方法
US7113960B2 (en) 2002-08-22 2006-09-26 International Business Machines Corporation Search on and search for functions in applications with varying data types
JP2009093429A (ja) * 2007-10-09 2009-04-30 Kodansha Ltd 検索システム及び検索方法
KR101052631B1 (ko) * 2009-01-29 2011-07-28 성균관대학교산학협력단 동시 발생빈도를 이용한 검색어에 대한 연관어 제공 방법 및 이를 이용한 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063201A (ja) * 2000-08-17 2002-02-28 Nova Asia:Kk コンピュータネットワークを用いた多言語対応情報検索方法及び検索兼翻訳ツールバー
JP2003022275A (ja) * 2001-07-06 2003-01-24 Telecommunication Advancement Organization Of Japan 文書検索システムおよび方法
US7113960B2 (en) 2002-08-22 2006-09-26 International Business Machines Corporation Search on and search for functions in applications with varying data types
JP2009093429A (ja) * 2007-10-09 2009-04-30 Kodansha Ltd 検索システム及び検索方法
KR101052631B1 (ko) * 2009-01-29 2011-07-28 성균관대학교산학협력단 동시 발생빈도를 이용한 검색어에 대한 연관어 제공 방법 및 이를 이용한 장치
US8285714B2 (en) 2009-01-29 2012-10-09 Sungkyunkwan University Foundation For Corporate Collaboration Method and apparatus for providing related words for queries using word co-occurrence frequency

Similar Documents

Publication Publication Date Title
US6381593B1 (en) Document information management system
US6094649A (en) Keyword searches of structured databases
JP5264892B2 (ja) 多言語情報検索
KR100815215B1 (ko) 웹사이트 통합 검색 장치 및 방법
JP4634715B2 (ja) 任意の各国語での照会によるマッチング文書の検索
US6101503A (en) Active markup--a system and method for navigating through text collections
KR101579551B1 (ko) 자동적 확장 언어 검색
US9058321B2 (en) Support for international search terms—translate as you crawl
KR101393839B1 (ko) 링크된 용어들을 포함하는 활성 요약들을 제공하는 검색시스템
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
US20080168049A1 (en) Automatic acquisition of a parallel corpus from a network
JPH11224256A (ja) 情報検索方法および情報検索プログラムを記録した記録媒体
KR100455439B1 (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
US20050283470A1 (en) Content categorization
JPH10187752A (ja) 言語間情報検索支援システム
JP2008191982A (ja) 検索結果出力装置
JPH11265399A (ja) 言語間情報検索支援装置
JP4621680B2 (ja) 定義付けシステムおよび方法
JPH09153060A (ja) 情報検索方法およびその装置
JP7264115B2 (ja) 情報検索システム
US8117205B2 (en) Technique for enhancing a set of website bookmarks by finding related bookmarks based on a latent similarity metric
KR100496384B1 (ko) 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체
KR19990078876A (ko) 일괄된 자원 위치기 입력을 통한 정보 검색 방법
KR20010035390A (ko) 인터넷 자연어 주소입력 접속 시스템 및 그것의 방법
JP2001344246A (ja) 用語集データベース作成方法および電子文書検索方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030311