JPH1145280A - 他言語文書検索システム、他言語文書検索プログラムが記憶された記憶媒体、及び他言語文書検索方法 - Google Patents
他言語文書検索システム、他言語文書検索プログラムが記憶された記憶媒体、及び他言語文書検索方法Info
- Publication number
- JPH1145280A JPH1145280A JP9217127A JP21712797A JPH1145280A JP H1145280 A JPH1145280 A JP H1145280A JP 9217127 A JP9217127 A JP 9217127A JP 21712797 A JP21712797 A JP 21712797A JP H1145280 A JPH1145280 A JP H1145280A
- Authority
- JP
- Japan
- Prior art keywords
- document
- language
- similar
- search
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
語の文書に対しても容易に検索することが可能な他言語
文書検索システムを提供する。 【解決手段】 本実施形態による他言語文書検索は、ま
ず最初に検索対象文書T(日本語)に類似する日本語の
文書A1、A4を検索する。そして、指定された外国語
(他言語)へのハイパーリンクや、外国語による引用記
述、部分的なテキストをもつ文書E1、E4、Ex、…
を抽出し、これらの直接リンクや間接リンクを手がかり
に、外国語の類似文書を検索する。このように、異言語
間文書における直接、間接のリンクをたどることで、辞
書を使用することなく、かつ容易に精度よく他言語の文
書を検索することができる。
Description
ステム、他言語文書検索プログラムが記憶された記憶媒
体、及び他言語文書検索方法に係り、詳細には、取得し
た検索対象文書の言語と異なる他言語で作成された文書
の検索に関する。
する文書を検索する場合、英語で作成された文書の検索
が必要な場合がある。このように検索対象文書の言語と
は異なる他言語の文書を検索する場合、従来から以下の
ような方法によっている。すなわち、第1の方法として
は、対象文書を検索が必要な他言語の文書に翻訳し、翻
訳した対象文書を使用して同一言語間で類似する文書検
索を行っている。また、第2の方法としては、対象文書
から所定数のキーワードを抽出し、そのキーワードの対
訳語を対訳語辞書を使用して求め、求めた対訳語をキー
ワードとして他言語文書の中から類似する文書を検索し
ている。
の方法では、翻訳辞書や対訳辞書等の辞書を使わないと
他言語で作成された文書を検索することができなかっ
た。また、第1の方法の場合、全文翻訳する処理が大変
であると共に、翻訳の制度いかんによって検索制度が大
きく低下してしまっていた。全文翻訳ではなく、対象文
書の要約や抄録のみを翻訳することで処理を軽減する方
法もあるが、要約や抄録の制度によって更に検索制度が
低下する可能性がある。また、第2の方法の場合、全文
翻訳の場合に比べると対訳を決定することは容易である
が、翻訳の場合のように構文解析が行われていないた
め、対象文書とは全く無関係の対訳語が存在する可能性
が高かった。そして、他言語文書の検索は各対訳キーワ
ードの組み合わせで行われるため、全く無関係な文書も
含めて検索してしまう可能性も当然に高くなっていた。
さらに、第1、第2の両方法共に、例えば、日本語の文
書に類似する英語とドイツ語の文書を検索する場合のよ
うに、複数種類の言語の文書を検索するためには各言語
毎に翻訳したりや対訳を求めたりする必要があった。
るために成されたもので、特定の辞書を使用することな
く、複数の他言語の文書に対しても容易に検索すること
が可能な他言語文書検索システムを提供することを第1
の目的とする。また、本発明は、特定の辞書を使用する
ことなく、複数の他言語の文書に対しても容易に検索す
ることが可能な他言語文書検索プログラムが記録された
記憶媒体を提供することを第1の目的とする。また、本
発明は、特定の辞書を使用することなく、複数の他言語
の文書に対しても容易に検索することが可能な他言語文
書検索方法を提供することを第3の目的とする。
では、図9に示すように、検索を希望する他言語を指定
する他言語指定手段501と、検索の元になる対象文書
を取得する文書取得手段502と、前記文書取得手段5
02で取得された対象文書と同一言語の文書から、前記
対象文書に類似する文書を検索する類似文書検索手段5
03と、前記類似文書検索手段503により検索された
類似文書に予め関連つけられ、前記他言語指定手段50
1で指定された他言語の文書を検索する他言語文書検索
手段504と、を他言語文書検索システムに具備させて
前記第1の目的を達成する。請求項2に記載した発明で
は、図10に示すように、請求項1に記載した他言語文
書検索システムにおいて、前記文書取得手段502によ
り取得された対象文書を特徴づける文書ベクトルを取得
する第1文書ベクトル取得手段505と、前記文書取得
手段502で取得された対象文書と同一言語の文書の文
書ベクトルを取得する第2文書ベクトル取得手段506
と、前記第1文書ベクトル取得手段505で取得した文
書ベクトルと、前記第2文書ベクトル取得手段506で
取得した文書ベクトルとから、前記対象文書と前記同一
言語の文書との類似度を算出する類似度算出手段507
とを有し、前記類似文書検索手段503は、前記類似度
算出手段507で算出された類似度から前記対象文書に
類似する類似文書を検索する。請求項3に記載した発明
では、図11に示す1例のように、請求項1又は請求項
2に記載した他言語文書検索システムにおいて、前記他
言語文書検索手段504により検索された他言語文書の
文書名を表示する表示手段508、を具備させる。請求
項4に記載した発明では、図12に示す1例のように、
請求項1、請求項2、又は請求項3に記載した他言語文
書検索システムにおいて、前記他言語文書検索手段50
4により検索された他言語の文書にアクセスして当該文
書を表示するアクセス手段509、を具備させる。請求
項5に記載した発明では、図9から図12に示す1例の
ように、請求項1、請求項2、請求項3、又は請求項4
に記載した他言語文書検索システムにおいて、前記他言
語文書検索手段504は、前記類似文書検索手段503
により検索された類似文書中に引用若しくは記載された
参考文書記載、または、前記類似文書にリンクされた関
連文書により他言語文書を検索する。請求項6に記載し
た発明では、図9から図12に示す1例のように、請求
項1から請求項5のうちのいずれか1の請求項に記載の
他言語文書検索システムにおいて、前記他言語文書検索
手段504は、検索した前記他言語の文書に類似する、
前記他言語指定手段501により指定された他言語の文
書をさらに検索する。請求項7に記載した発明では、図
13に示すように、検索を希望する他言語を指定する他
言語指定機能601と、検索の元になる対象文書を取得
する文書取得機能602と、前記文書取得機能602で
取得された対象文書と同一言語の文書から、前記対象文
書に類似する文書を検索する類似文書検索機能503
と、前記類似文書検索機能503により検索された類似
文書に予め関連つけられ、前記他言語指定機能で指定さ
れた他言語の文書を検索する他言語文書検索機能604
と、をコンピュータに実現させるためのコンピュータ読
取り可能な他言語文書検索プログラムを記憶媒体に記憶
させて前記第2の目的を達成する。請求項8に記載した
発明では、図14に示すように、請求項7に記載の他言
語文書検索プログラムが記憶された記憶媒体において、
前記文書取得機能602により取得された対象文書を特
徴づける文書ベクトルを取得する第1文書ベクトル取得
機能605と、前記文書取得機能602で取得された対
象文書と同一言語の文書の文書ベクトルを取得する第2
文書ベクトル取得機能606と、前記第1文書ベクトル
取得機能605で取得した文書ベクトルと、前記第2文
書ベクトル取得機能606で取得した文書ベクトルとか
ら、前記対象文書と前記同一言語の前記文書との類似度
を算出する類似度算出機能607とを有し、前記類似文
書検索機能603は、前記類似度算出機能607で算出
された類似度から前記対象文書に類似する類似文書を検
索する。請求項9に記載した発明では、図15に示す1
例のように、請求項7又は請求項8に記載の他言語文書
検索プログラムが記憶された記憶媒体において、前記他
言語文書検索機能604により検索された他言語文書の
文書名を表示する表示機能608、を具備させる。請求
項10に記載した発明では、図16に示す1例のよう
に、請求項7、請求項8、又は請求項9に記載の他言語
文書検索プログラムが記憶された記憶媒体において、前
記他言語文書検索機能604により検索された他言語の
文書にアクセスして当該文書を表示するアクセス機能6
09、を具備させる。請求項11に記載した発明では、
図13から図16に示す1例のように、請求項7、請求
項8、請求項9、又は請求項10に記載の他言語文書検
索プログラムが記憶された記憶媒体において、前記他言
語文書検索機能606は、前記類似文書検索機能603
により検索された類似文書中に引用若しくは記載された
参考文書記載、または、前記類似文書にリンクされた関
連文書により他言語文書を検索する。請求項12に記載
した発明では、図13から図16に示す1例のように、
請求項7から請求項11のうちのいずれか1の請求項に
記載しの他言語文書検索プログラムが記憶された記憶媒
体において、前記他言語文書検索機能606は、検索し
た前記他言語の文書に類似する、前記他言語指定機能6
01により指定された他言語の文書をさらに検索する。
請求項13に記載した他言語文書検索方法では、図17
に示すように、検索の元になる対象文書を取得701
し、前記取得した対象文書と同一言語の文書から、前記
対象文書に類似する文書を検索702し、前記検索した
類似文書に予め関連つけられ、指定された他言語の文書
を検索703する、ことで前記第3の目的を達成する。
請求項14に記載した他言語文書検索方法では、図18
に示すように、検索の元になる対象文書を取得705
し、前記取得した対象文書を特徴づける第1文書ベクト
ルを取得706し、前記取得した対象文書と同一言語の
文書の第2文書ベクトルを取得707し、前記第1文書
ベクトルと、前記第2文書ベクトルから、前記対象文書
と前記同一言語の文書との類似度を算出し708、前記
算出した類似度から、前記対象文書に類似する文書を検
索し709、前記検索した類似文書に予め関連つけら
れ、指定された他言語の文書を検索710する。
ステム、他言語文書検索プログラムが記憶された記憶媒
体、及び他言語文書検索方法における好適な実施の形態
について、図1から図9を参照して説明する。 (1)実施形態の概要 本実施形態による他言語文書検索は、まず最初に検索対
象文書(日本語)に類似する日本語の文書を検索する。
そして、指定された外国語(他言語)へのハイパーリン
クや、外国語による引用記述、部分的なテキストをもつ
ものを抽出し、これらの直接リンクや間接リンクを手が
かりに、外国語の類似文書を検索する。このように、異
言語間文書における直接、間接のリンクをたどること
で、辞書を使用することなく、かつ容易に精度よく他言
語の文書を検索することができる。
ンピュータやワードプロセッサ等を含むコンピュータシ
ステムで構成するだけでなく、LAN(ローカル・エリ
ア・ネットワーク)のサーバ、コンピュータ(パソコ
ン)通信のホスト、インターネット上に接続されたコン
ピュータシステム等によって構成することも可能であ
る。また、ネットワーク上の各機器に機能分散させ、ネ
ットワーク全体で他言語文書検索システムを構成するこ
とも可能である。
表したブロック図である。他言語文書検索システムは、
図1に示すようにシステム全体を制御するための制御部
11を備えている。この制御部11には、データバス等
のバスライン21を介して、入力装置としてのキーボー
ド12やマウス13、表示装置14、印刷装置15、記
憶装置16、記憶媒体駆動装置17、通信制御装置1
8、入出力I/F19、及び文字認識装置20が接続さ
れている。制御部11は、CPU111、ROM11
2、RAM113を備えている。ROM112は、CP
U111が各種制御や演算を行うための各種プログラム
やデータが予め格納されたリードオンリーメモリであ
る。
グメモリとして使用されるランダムアクセスメモリであ
る。このRAM113には、本実施形態による他言語文
書検索処理を行うためのエリアとして、検索を希望する
文書の言語(本実施形態では、英語を例に説明する。)
が格納される他言語格納エリア1130、検索の元とな
る対象文書(本実施形態では、日本語で作成されている
ものとして説明する。)が格納される対象文書格納エリ
ア1131、対象文書の特徴を表す対象文書ベクトルが
格納される対象文書ベクトル格納エリア1132、対象
文書と、同一言語(日本語)の文書との類似度が格納さ
れる類似度格納エリア1133、所定の閾値以上の類似
度を有する類似文書が格納される類似文書格納エリア1
134、類似文書から検索された参考文書名が格納され
る参考文書名格納エリア1135、類似文書から検索さ
れたURL(Uniform Resource Locator)が格納される
URL格納エリア1136、その他の各種エリアが確保
されるようになっている。
書や他言語を入力する場合の対象文書取得手段や他言語
入力手段の一部を構成し、かな文字を入力するためのか
なキーやテンキー、各種機能を実行するための機能キ
ー、カーソルキー、等の各種キーが配置されている。マ
ウス13は、ポインティングデバイスであり、表示装置
14に表示されたキーやアイコン等を左クリックするこ
とで対応する機能の指定を行う入力装置である。表示装
置14は、例えばCRTや液晶ディスプレイ等が使用さ
れる。この表示装置には、キーボード12やマウス13
による入力結果が表示されたり、他言語文書検索処理に
おける、対象文書、日本語の類似文書、参考文書名、U
RL、他言語文書等が表示されたりするようになってい
る。印刷装置15は、表示装置14に表示された文書
や、記憶装置16の文書格納部164に格納された文書
等や、ユーザに対する請求書の印刷を行うためのもので
ある。この印刷装置としては、レーザプリンタ、ドット
プリンタ、インクジェットプリンタ、ページプリンタ、
感熱式プリンタ、熱転写式プリンタ、等の各種印刷装置
が使用される。
と、その記憶媒体に対してプログラムやデータ等の各種
情報を読み書きするための駆動装置で構成されている。
この記憶装置16に使用される記憶媒体としては、主と
してハードディスクが使用されるが、後述の記憶媒体駆
動装置17で使用される各種記憶媒体のうちの読み書き
可能な記憶媒体を使用するようにしてもよい。記憶装置
16は、仮名漢字変換辞書161、プログラム格納部1
62、データ格納部163、文書データベース164、
アクセス履歴データベース165、文書ベクトルデータ
ベース166、図示しないその他の格納部(例えば、こ
の記憶装置16内に格納されているプログラムやデータ
等をバックアップするための格納部)等を有している。
プログラム格納部162には、本実施形態における他言
語文書検索処理プログラム、文書ベクトル作成処理プロ
グラム等の各種プログラムの他、仮名漢字変換辞書16
1を使用して入力された仮名文字列を漢字混り文に変換
する仮名漢字変換プログラム等の各種プログラムが格納
されている。データ格納部163には、ユーザに関する
データ等の、システムが必要とする各種データが格納さ
れている。
語の文書が多数格納されている。この日本語文書のなか
から対象文書と類似している類似文書が検索される。こ
の文書データベース164に格納される各文書の形式は
特に限定されるものではなく、テキスト形式の文書、H
TML(Hyper Text Markup Language)形式の文書、J
IS形式の文書等の各種形式の文書の格納が可能であ
る。
の内容を概念的に表したものである。この図2に示され
るように、文書Ajkの中から自動抽出されたキーワー
ドxに対して求められた重要度f(x)が文書ベクトル
の要素値f(x)として格納されている。この文書ベク
トルは各文書jk(j=1〜、k=1〜)毎に格納さ
れ、文書データベース164に格納されている各文書と
対応づけられている。各文書ベクトルの次元は採用する
キーワードx(重要語句)の数であるが、2文書間の類
似度を両文書ベクトルから求める場合には、両文書のキ
ーワードの和集合の数が両文書ベクトルの次元となる。
この場合、一方の文書ベクトルにのみ含まれるキーワー
ドに対する他方の文書ベクトルの要素値は、”0”に定
義される。
「重要、重要語、重要度、…」、文書Cのキーワードは
「重要、…、政治、…」であり、両文書の文書ベクトル
は次の通りである。 文書Bの文書ベクトル=( 1,18,19,…) 文書Cの文書ベクトル=(18,…,21,…) これに対して文書Bと文書Cとの類似度を算出する場合
には、両文書のキーワードを「重要、重要語、重要度、
…、政治、…」とし、両文書の文書ベクトルはつぎの通
り定義される。 文書Aの文書ベクトル=( 1,18,19,…,
0,…)、 文書Cの文書ベクトル=(18, 0, 0,…,2
1,…)
111が外部の記憶媒体からコンピュータプログラムや
文書を含むデータ等を読み込むための駆動装置である。
記憶媒体に記憶されているコンピュータプログラム等に
は、本実施形態の他言語文書検索システムにより実行さ
れる他言語文書検索処理等の各種処理プログラム、およ
び、そこで使用される辞書、データ等も含まれる。ここ
で、記憶媒体とは、コンピュータプログラムやデータ等
が記憶される記憶媒体をいい、具体的には、フロッピー
ディスク、ハードディスク、磁気テープ等の磁気記憶媒
体、メモリチップやICカード等の半導体記憶媒体、C
D−ROMやMO、PD(相変化書換型光ディスク)等
の光学的に情報が読み取られる記憶媒体、紙カードや紙
テープ等の用紙(および、用紙に相当する機能を持った
媒体)を用いた記憶媒体、その他各種方法でコンピュー
タプログラム等が記憶される記憶媒体が含まれる。本実
施形態の他言語文書検索システムにおいて使用される記
憶媒体としては、主として、CD−ROMやフロッピー
ディスクが使用される。記憶媒体駆動装置17は、これ
らの各種記憶媒体からコンピュータプログラムを読み込
む他に、フロッピーディスクのような書き込み可能な記
憶媒体に対してRAM113や記憶装置16に格納され
ているデータ等を書き込むことが可能である。
は、制御部11のCPU111が、記憶媒体駆動装置1
7にセットされた外部の記憶媒体からコンピュータプロ
グラムを読み込んで、記憶装置16の各部に格納(イン
ストール)する。そして、本実施形態による他言語文書
検索処理等の各種処理を実行する場合、記憶装置16か
ら該当プログラムをRAM113に読み込み、実行する
ようになっている。但し、記憶装置16からではなく、
記憶媒体駆動装置17により外部の記憶媒体から直接R
AM113にプログラムを読み込んで実行することも可
能である。また、他言語文書検索システムによっては、
本実施形態の他言語文書検索処理プログラム等を予めR
OM112に記憶させておき、これをCPU111が実
行するようにしてもよい。さらに、本実施形態の他言語
文書検索処理プログラム等の各種プログラムやデータ
を、通信制御装置18を介して他の記憶媒体からダウン
ロードし、実行するようにしてもよい。
テムと他のパーソナルコンピュータやワードプロセッサ
等の各種電子機器との間をネットワーク接続するための
制御装置である。通信制御装置18は、これら各種電子
機器が有している対象文書と同一の言語の文書、入力さ
れた他言語の文書、および同一言語や他言語の文書のデ
ータベースを検索対象としてアクセスすることが可能に
なっている。検索対象となる文書には、テキスト形式や
HTML形式等の各種形式の文書の他、ビットマップデ
ータ等の各種データも含まれる。入出力I/F19は、
音声や音楽等の出力を行うスピーカ等の各種機器を接続
するためのインターフェースである。文字認識装置20
は、用紙等に記載された文字をテキスト形式やHTML
等の各種形式で認識する装置であり、イメージスキャナ
や文字認識プログラム等で構成されている。
作により作成した文書(RAM113の所定格納エリア
に格納)の他、外部で作成して所定の記憶媒体に格納し
た文書で記憶媒体駆動装置17から読み込んだ文書、予
め文書データベースに格納されている文書、通信制御装
置18からダウンロードした文書、及び文字認識装置2
0で文字認識した文書、等の各種文書を検索の元になる
対象文書として取得する(文書取得手段)ことが可能で
ある。
語文書検索システムによる他言語文書検索処理の動作に
ついて、図3から図8を使用して説明する。図3は他言
語文書検索処理のメイン動作を表したフローチャートで
あり、図4は具体的処理内容を概念的に表したものであ
る。CPU111は、まず検索を希望する他言語の入力
を求める画面を表示しキーボードやマウス等により入力
された他言語(図4;100)を取得し、RAM113
の他言語格納エリア1130に格納する(ステップ1
0、)。次に、CPU111は、検索の元になる対象文
書T(図4;110)を取得し、対象文書格納エリア1
131に格納する(ステップ11)。
Tについての対象文書ベクトルBt(図4;120)を
取得する(ステップ12;第1文書ベクトル取得手
段)。対象文書ベクトルBtは、対象文書Tを文書デー
タベース164から取得し、かつ当該対象文書Tの文書
ベクトルBtが文書ベクトルデータベース166に格納
されている場合には、そこから読み出すことで取得す
る。一方、文書ベクトルデータベース166に格納され
ていない場合や、文書データベース164以外から対象
文書Tを取得した場合には、RAM113に格納した対
象文書Tに対する文書ベクトルBtを、文書ベクトル作
成処理により作成することで取得する。
したフローチャートである。CPU111は、形態素解
析を行うことで対象文書Tから自立語を抽出する(ステ
ップ131)と共に、名詞句、複合名詞句等を含めた候
補語(句)を対象文書Tから抽出しRAM113の所定
作業領域に格納する(ステップ132)。そして抽出し
た候補語(句)の対象文書Tでの出現頻度、評価関数か
ら、各候補語(句)重要度f(x)を決定する(ステッ
プ133)。ここで、評価関数としては、例えば、所定
の重要語が予め指定されている場合にはその重要語に対
する重み付け、単語、名詞句、複合名詞句等の候補語
(句)の種類による重み付け等が使用される。さらにC
PU111は、決定した重要度f(x)の値から対象文
書Tのキーワードa,b,…を決定する(ステップ13
4)。そして、各キーワードの重要度f(x)を要素と
して、文書ベクトルB=(f(a),f(b),…)を
RAM113の対象文書ベクトル格納エリア1132に
格納して(ステップ135)、図3の他言語文書検索処
理ルーチンにリターンする。
ベース164に格納された日本語の各文書の中から類似
文書の検索をするために、文書データベース164に格
納された各文書と対象文書Tとの類似度を、図6に示す
ように、両ベクトルを比較して両者の角度に依存するコ
サインから算出し、類似度格納エリア1133に格納す
る(ステップ13)。
判断する文書データベース中の文書に対する文書ベクト
ルを、文書ベクトルデータベース166格納されていれ
ば、そこから読みとり、格納されていなければ図5に示
したフローチャートに従って文書ベクトルを作成するこ
とで文書ベクトルを取得し(第2文書ベクトル取得手
段)、文書ベクトルデータベース166に格納する。一
般に、文書Axの文書ベクトルBxと文書Ayの文書ベ
クトルByとの間の角度をθとし、両文書ベクトルの内
積をBx・Byとし、両文書ベクトルの大きさをそれぞ
れ|Bx|、|By|とした場合、両文書ベクトルの類
似度Sは次の数式1により求まる。
(|Bx|×|By|)
り、1に近いほど2つの文書ベクトルが互いに平行に近
く、2つの文書Axと文書Ayは互いに類似していると
考えることができる。
算出されると、類似度が所定の閾値(例えば、0.8)
以上の文書を類似文書として類似文書格納エリア113
4に格納する。図4、図6に示した例では、文書データ
ベース164中の日本語の文書A1、A2、A3、A
4、…のうちの文書A1とA4が類似文書として検索さ
れる。そして、格納した類似文書(A1、A4)の内容
をチェックし、他言語格納エリア1130に格納した他
言語による参考文書に関する記載がないか調べ(ステッ
プ15)、記載があれば(;Y)その参考文書に関する
記載(参考文書名、記載者名、記載者所属機関名、学会
名、記載日、発表日等)をRAM113の参考文書名格
納エリア1136に格納する(ステップ16)。図4に
示した例では、類似文書A1の参考文書(英語)として
文書データベース(英語)170中の文書E1と、類似
文書A4の参考文書(英語)として図示しないデータベ
ース中の文書Ezがチェックされ、参考文書名格納エリ
ア1135に格納される。
ア1134に格納した類似文書をチェックし、他言語
(=英語)を母国語とする国のアドレスを持つURLが
ないか調べ(ステップ17)、ある場合には(;Y)そ
のURL関連データ(URL、文書名、作者等)をUR
L格納エリア136に格納する(ステップ18)。図4
に示した例では、類似文書A1にはURLの記載はな
く、類似文書A4のには、文書データベース(英語)1
70に格納された文書E1、Ex、その他の文書のUR
Lがチェックされ、URL格納エリア1136に格納さ
れる。
書記載及びURLを表示装置14に表示する。図7は、
参考文書記載、URL等の表示画面180を表したもの
である。この図に示すように、文書内に参考文書記載や
URL記載がチェックされた文書A1、A4、…の文書
名、各文書に対する参考文書記載(文書名等)、各文書
に予め関連つけられたURLと文書名が表示される。
クセスキーが選択されたか否かを監視し(ステップ2
0)、それ以外のキーであれば(ステップ20;N)、
その他の処理を行う(ステップ21)。その他の処理の
例としては次のような処理が成される。例えば、図7の
表示画面において、類似文書A1等の位置をマウス13
の操作により反転表示させてダブルクリック、又は「O
K」キーにより選択すると、当該文書A1が類似文書格
納エリア1134から読み出されて、画面表示される。
一方、参考文書欄に表示された文書E1(文書A1)、
Ez(文書A4)は、リンクされた文書として検索され
た文書ではなく、関連文書の記載から検索した文書なの
で、この欄を指定することで当該文書(E1、Ez)を
画面表示することはできない。ただし、この参考文書欄
にのみ記載されている文書Ez(E1はA4の関連文書
としてリンクされているので該当しない)は、文献名等
がわかっているので、所定のデータベース提供機関から
取り寄せることで入手可能である。
言語(英語)の文書、例えば、E1の欄181をマウス
13の操作で反転表示させて、ダブルクリック、又は
「OK」キーにより選択すると、CPU111はURL
アクセスキーであると判断する(ステップ20;Y)。
そして、図4の文書データベース(英語)170の指定
された文書E1にそのURLによってアクセスし(ステ
ップ22)、図7の表示画面190に示すように当該他
言語文書E1を画面表示して処理を終了する。
以上説明した他言語文書検索処理により取得した他言語
文書E1、Ez、Ex、…以外の他言語文書について更
に検索をすることができる。すなわち、図7の表示画面
180において、URL/文献名の欄に表示された他言
語(英語)の文書、例えば、E1の欄181をマウス1
3の操作で反転表示させた状態で、又は、表示画面19
0の状態で、「類似文書検索」キーを選択する。
対象文書とし、他言語文書E1と同一言語の類似文書
を、ステップ12からステップ14の処理と同様にして
検索する。すなわち、図8に示すように、他言語文書E
1の文書ベクトルBe1と、それ以外の他言語文書E
2、E3、…の文書ベクトルBe2、Be3、…とを求
め、各他言語文書E2、E3、…に対する他言語文書E
1の類似度を算出し、所定の閾値以上の類似度を有する
他言語類似文書E4を検索する。なお、検索対象となる
データベースとしては、指定された他言語文書E1が格
納されている文書データベース(英語)170を使用す
るが、ステップ10で入力された他言語の文書であれば
他のデータベースも含めて検索することも可能である。
検索の処理について説明したが、本発明では、これらの
各形態に限定されるものではなく、請求項に記載された
発明の範囲内で種々の変形をすることが可能である。例
えば、実施形態では、対象文書の言語として日本語、他
言語として英語を例に説明したが、本発明ではこれらの
組み合わせに限定されるものではなく、あらゆる言語間
の組み合わせとすることが可能である。その場合、対象
となる文書が作成された言語用の形態素解析アルゴリズ
ム等を使用するといった、本発明の構成には影響のない
部分を変更するだけでよい。また、実施形態では、他言
語として英語のみを指定したが、英語とフランス語とい
うように、複数の言語を検索の対象となる他言語として
指定することも可能である。
することも可能である。この場合、自システム内に有し
ている文書データベース164内でしか類似検索ができ
ない時に有効である。すなわち、文書データベース16
4内の類似文書を検索し、その類似文書に記載されてい
る、関連文書記載やURLから、他の文書データベース
に格納されている同一言語の文書や、データベース化さ
れていない文書(同一言語)を検索することが可能であ
る。
類似文書を決定するのに両文書の文書ベクトルを使用し
たが、本発明では文書ベクトルを使用した方法に限定さ
れず、他に公知となっている種々の方法を使用して両文
書間の類似関係を調べ、決定するようにしてもよい。
164中には日本語の文書のみが格納されていることを
前提に説明したが、本発明では、日本語以外の文書を各
言語毎に多数格納した他言語文書データベースを文書デ
ータベース164に含ませ、この他言語文書データベー
ス中の文書を他言語文書検索の対象に含めるようにして
もよい。
された他言語(英語)により直接取得したが、本発明で
は、間接的に取得する場合も他言語取得手段に含まれ
る。間接的に取得する場合の例としては、国名を入力項
目とし、その国に母国語を他言語として取得するように
してもよい。この場合、国名「フランス」が入力される
と、その母国語「フランス語」を他言語として取得し、
他言語格納エリア1130に格納する。なお、母国語と
して2以上の言語が使用されている国の場合には、最も
しよう頻度が高い言語を予め規定しておくようにして
も、全母国語を画面表示して1または複数の言語を指定
してもらうようにしてもよい。
置、各部、各動作、各処理等に対しては、それらを含む
上位概念としての各手段(〜手段)により、実施形態を
構成することが可能である。例えば、「CPU111
は、…図6に示すように、両ベクトルの角度に依存する
コサインにより算出し、類似度格納エリア1133に格
納する(ステップ13)。」との記載に対して「類似度
算出手段」を構成するようにしてもよい。同様に、その
他各種動作に対して「〜(動作)手段」等の上位概念で
実施形態を構成するようにしてもよい。
書と類似する同一の文書を検索し、検索した類似文書に
予め関連つけられた他言語の文書を検索するようにした
ので、特定の辞書を使用することなく、複数の他言語の
文書に対しても容易に検索することができる。
ステムの構成を表したブロック図である。
ースの内容を概念的に表した説明図である。
メイン動作を表したフローチャートである。
具体的処理内容を概念的に表した説明図である。
文書ベクトル作成処理の動作を表したフローチャートで
ある。
似関係を文書ベクトルを用いて表した説明図である。
索された他言語文書の表示画面を表した説明図である。
と、その他の他言語文書との類似関係を文書ベクトルを
用いて表した説明図である。
る。
ある。
1例である。
1例である。
ある。
ある。
1例である。
の1例である。
である。
である。
Claims (14)
- 【請求項1】 検索を希望する他言語を指定する他言語
指定手段と、 検索の元になる対象文書を取得する文書取得手段と、 前記文書取得手段で取得された対象文書と同一言語の文
書から、前記対象文書に類似する文書を検索する類似文
書検索手段と、 前記類似文書検索手段により検索された類似文書に予め
関連つけられ、前記他言語指定手段で指定された他言語
の文書を検索する他言語文書検索手段と、を具備するこ
とを特徴とする他言語文書検索システム。 - 【請求項2】 前記文書取得手段により取得された対象
文書を特徴づける文書ベクトルを取得する第1文書ベク
トル取得手段と、 前記文書取得手段で取得された対象文書と同一言語の文
書の文書ベクトルを取得する第2文書ベクトル取得手段
と、 前記第1文書ベクトル取得手段で取得した文書ベクトル
と、前記第2文書ベクトル取得手段で取得した文書ベク
トルとから、前記対象文書と前記同一言語の文書との類
似度を算出する類似度算出手段とを有し、 前記類似文書検索手段は、前記類似度算出手段で算出さ
れた類似度から前記対象文書に類似する類似文書を検索
する、ことを特徴とする請求項1に記載の他言語文書検
索システム。 - 【請求項3】 前記他言語文書検索手段により検索され
た他言語文書の文書名を表示する表示手段、を具備する
ことを特徴とする請求項1又は請求項2に記載の他言語
文書検索システム。 - 【請求項4】 前記他言語文書検索手段により検索され
た他言語の文書にアクセスして当該文書を表示するアク
セス手段、を具備することを特徴とする請求項1、請求
項2、又は請求項3に記載の他言語文書検索システム。 - 【請求項5】 前記他言語文書検索手段は、前記類似文
書検索手段により検索された類似文書中に引用若しくは
記載された参考文書記載、または、前記類似文書にリン
クされた関連文書により他言語文書を検索することを特
徴とする請求項1、請求項2、請求項3、又は請求項4
に記載の他言語文書検索システム。 - 【請求項6】 前記他言語文書検索手段は、検索した前
記他言語の文書に類似する、前記他言語指定手段により
指定された他言語の文書をさらに検索する、ことを特徴
とする請求項1から請求項5のうちのいずれか1の請求
項に記載の他言語文書検索システム。 - 【請求項7】 検索を希望する他言語を指定する他言語
指定機能と、 検索の元になる対象文書を取得する文書取得機能と、 前記文書取得機能で取得された対象文書と同一言語の文
書から、前記対象文書に類似する文書を検索する類似文
書検索機能と、 前記類似文書検索機能により検索された類似文書に予め
関連つけられ、前記他言語指定機能で指定された他言語
の文書を検索する他言語文書検索機能と、をコンピュー
タに実現させるためのコンピュータ読取り可能な他言語
文書検索プログラムが記憶された記憶媒体。 - 【請求項8】 前記文書取得機能により取得された対象
文書を特徴づける文書ベクトルを取得する第1文書ベク
トル取得機能と、 前記文書取得機能で取得された対象文書と同一言語の文
書の文書ベクトルを取得する第2文書ベクトル取得機能
と、 前記第1文書ベクトル取得機能で取得した文書ベクトル
と、前記第2文書ベクトル取得機能で取得した文書ベク
トルとから、前記対象文書と前記同一言語の前記文書と
の類似度を算出する類似度算出機能とを有し、 前記類似文書検索機能は、前記類似度算出機能で算出さ
れた類似度から前記対象文書に類似する類似文書を検索
する、ことを特徴とする請求項7に記載の他言語文書検
索プログラムが記憶された記憶媒体。 - 【請求項9】 前記他言語文書検索機能により検索され
た他言語文書の文書名を表示する表示機能、を具備する
ことを特徴とする請求項7又は請求項8に記載の他言語
文書検索プログラムが記憶された記憶媒体。 - 【請求項10】 前記他言語文書検索機能により検索さ
れた他言語の文書にアクセスして当該文書を表示するア
クセス機能、を具備することを特徴とする請求項7、請
求項8、又は請求項9に記載の他言語文書検索プログラ
ムが記憶された記憶媒体。 - 【請求項11】 前記他言語文書検索機能は、前記類似
文書検索機能により検索された類似文書中に引用若しく
は記載された参考文書記載、または、前記類似文書にリ
ンクされた関連文書により他言語文書を検索することを
特徴とする請求項7、請求項8、請求項9、又は請求項
10に記載の他言語文書検索プログラムが記憶された記
憶媒体。 - 【請求項12】 前記他言語文書検索機能は、検索した
前記他言語の文書に類似する、前記他言語指定機能によ
り指定された他言語の文書をさらに検索する、ことを特
徴とする請求項7から請求項11のうちのいずれか1の
請求項に記載しの他言語文書検索プログラムが記憶され
た記憶媒体。 - 【請求項13】 検索の元になる対象文書を取得し、 前記取得した対象文書と同一言語の文書から、前記対象
文書に類似する文書を検索し、 前記検索した類似文書に予め関連つけられ、指定された
他言語の文書を検索する、ことを特徴とする他言語文書
検索方法。 - 【請求項14】 検索の元になる対象文書を取得し、 前記取得した対象文書を特徴づける第1文書ベクトルを
取得し、 前記取得した対象文書と同一言語の文書の第2文書ベク
トルを取得し、 前記第1文書ベクトルと、前記第2文書ベクトルから、
前記対象文書と前記同一言語の文書との類似度を算出
し、 前記算出した類似度から、前記対象文書に類似する文書
を検索し、 前記検索した類似文書に予め関連つけられ、指定された
他言語の文書を検索する、ことを特徴とする他言語文書
検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9217127A JPH1145280A (ja) | 1997-07-27 | 1997-07-27 | 他言語文書検索システム、他言語文書検索プログラムが記憶された記憶媒体、及び他言語文書検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9217127A JPH1145280A (ja) | 1997-07-27 | 1997-07-27 | 他言語文書検索システム、他言語文書検索プログラムが記憶された記憶媒体、及び他言語文書検索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1145280A true JPH1145280A (ja) | 1999-02-16 |
Family
ID=16699284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9217127A Pending JPH1145280A (ja) | 1997-07-27 | 1997-07-27 | 他言語文書検索システム、他言語文書検索プログラムが記憶された記憶媒体、及び他言語文書検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH1145280A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7289982B2 (en) | 2001-12-13 | 2007-10-30 | Sony Corporation | System and method for classifying and searching existing document information to identify related information |
JP2008077543A (ja) * | 2006-09-25 | 2008-04-03 | Fujitsu Ltd | レポート引用元情報取得装置、レポート引用元情報取得方法及びレポート引用元情報取得プログラム |
JP2010170225A (ja) * | 2009-01-20 | 2010-08-05 | Nec Corp | 情報通信システム、情報収集推薦装置、情報推薦方法および制御プログラム |
-
1997
- 1997-07-27 JP JP9217127A patent/JPH1145280A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7289982B2 (en) | 2001-12-13 | 2007-10-30 | Sony Corporation | System and method for classifying and searching existing document information to identify related information |
JP2008077543A (ja) * | 2006-09-25 | 2008-04-03 | Fujitsu Ltd | レポート引用元情報取得装置、レポート引用元情報取得方法及びレポート引用元情報取得プログラム |
JP2010170225A (ja) * | 2009-01-20 | 2010-08-05 | Nec Corp | 情報通信システム、情報収集推薦装置、情報推薦方法および制御プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6396951B1 (en) | Document-based query data for information retrieval | |
US6393389B1 (en) | Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions | |
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
CN1815477B (zh) | 用于提供基于标记语言的限定词的方法和系统 | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JP2006004427A (ja) | 日本語などの複雑言語のコンテンツを検索するシステム及び方法 | |
JP2002197104A (ja) | 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体 | |
US20140156258A1 (en) | Foreign language writing support apparatus and method | |
JP2008084070A (ja) | 構造化文書検索装置およびプログラム | |
JPH1145247A (ja) | 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法 | |
JPH1145290A (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
JP4030624B2 (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 | |
JPH08129554A (ja) | 関係表現抽出装置および関係表現検索装置 | |
JP3352799B2 (ja) | 機械翻訳方法及び機械翻訳装置 | |
US20020007382A1 (en) | Computer having character input function,method of carrying out process depending on input characters, and storage medium | |
JP2003323425A (ja) | 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム | |
KR20000049928A (ko) | 다국어 검색엔진의 운영 장치 및 방법 | |
JPH1145280A (ja) | 他言語文書検索システム、他言語文書検索プログラムが記憶された記憶媒体、及び他言語文書検索方法 | |
JPH1145278A (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
JP2000163441A (ja) | 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム | |
JP4047417B2 (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 | |
JP2002288175A (ja) | 文書の標準化 | |
JP2010198525A (ja) | 言語横断型情報検索システムおよび言語横断型情報検索方法 | |
JPH1145245A (ja) | 外国語文読解支援システム、外国語文読解支援プログラムが記憶された記憶媒体、及び外国語文読解支援方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070612 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070808 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070925 |