JP2001514417A - 予め設定可能なサーチプロファイルに対する電子文書の適合性をコンピュータを援用して求めるための方法及びシステム - Google Patents

予め設定可能なサーチプロファイルに対する電子文書の適合性をコンピュータを援用して求めるための方法及びシステム

Info

Publication number
JP2001514417A
JP2001514417A JP2000508066A JP2000508066A JP2001514417A JP 2001514417 A JP2001514417 A JP 2001514417A JP 2000508066 A JP2000508066 A JP 2000508066A JP 2000508066 A JP2000508066 A JP 2000508066A JP 2001514417 A JP2001514417 A JP 2001514417A
Authority
JP
Japan
Prior art keywords
profile
electronic document
vector
search
search profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000508066A
Other languages
English (en)
Inventor
コルパツィーク ベルント
プフェッファラー レオ
シャッペルト アルベルト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2001514417A publication Critical patent/JP2001514417A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 本発明は、ユーザ固有のサーチプロファイル乃至は関心プロファイルに関する電子文書の適合性を表示するための方法及びシステムを記述する。所定のサーチプロファイルに関する各文書の適合性は、基本的に語のカウントによって求められる。文書及びサーチプロファイルはこの場合ベクトルとして解釈され、個々の語はベクトル成分として及びこの語の頻度は各々のベクトル成分の値として解釈される。文書ベクトル及びサーチプロファイルベクトルは共通の平面に投影され、これらのベクトルの間の角度がこの文書と各々のサーチプロファイルとの一致に対する尺度として使用される。分析結果は三次元表示され、文書は類似の文書が相互に並ぶように配置され乃至はサーチプロファイルに適合する文書はこのサーチプロファイルの近傍に配置される。このシステムは、インターネット乃至はデータバンクコンピュータのようなとりわけコンピュータネットワークにおけるサーチにおいて適用され、さらにあらゆる種類の図書館内容、アーカイブ又は複雑なデータストックをわかりやすく示すために適用される。

Description

【発明の詳細な説明】
【0001】 本発明は、例えばインターネットサーチにおいて見いだされるような、予め設
定される関心プロファイルに関する文書の適合性を表示することができる方法及
びシステムに関する。
【0002】 学問、技術及び経済において増大する大量の電子データは、重要な、信頼でき
る、そしてできるだけ完全な情報を発見しかつこの情報にアクセスすることを困
難にする。とりわけフルテクスト及びウェブページの大きな情報量のデータマイ
ニング及び視覚化のためのこれまでの解決案は、しばしばユーザフレンドリでも
なく実際的な使用において十分に効率的でもない。
【0003】 例えばインターネット探索において使用されるような既存のテクノロジは、目
下のところまだ主にテクストの又はソース情報の膨大なリストの出力に限定され
ている。視覚化に対するアプローチはなるほど文献には記載されてはいるが、学
術データの視覚化に限定されているか又は情報ストックの開示の局面及び視覚化
との結合をなおざりにしている。Proceedings des 4.Internationalen Symposiu
m fuer Informationswissenschaft (ISI '94) Band 16 に掲載された論文 T.Fue
hrung,K.Jacoby,R.Michelis,J.Panyr “Kontextgestaltgebung: Eine Metapher
zur Visualisierung und Interaktion mit komplexen Wissensbestaenden” か ら3D情報空間に形式文脈(formale Kontext)の近似的埋め込みを実施するこ とが周知である。この形式文脈の形式意味論は「文脈上の近傍≒空間的近傍」原
理を基礎とする間隔概念を介して定義される。これによって2値形式文脈を表示
することが可能である。
【0004】 参考文献[1]及び[2]から、予め設定されたキーワードに関する文書の適
合性においてこの文書を分析することが周知である。
【0005】 さらに参考文献[3]からはキーワードの出現頻度において文書を検査するこ
とが周知である。
【0006】 本発明の課題は、多値形式文脈を分かりやすく示すための方法及びシステムを
提供することである。
【0007】 上記課題は、方法においては請求項1の特徴部分記載の構成によって、システ
ムにおいては請求項13の特徴部分記載の構成によって解決される。
【0008】 予め設定可能なサーチプロファイルに対する電子文書の適合性をコンピュータ
を援用して求めるための方法では、少なくとも以下のステップを実施する: a)少なくとも1つの語を含むサーチプロファイルを作成し、 b)サーチプロファイルの各々の語に対して電子文書におけるこの語の出現頻度
をもとめ、 c)各々の語の出現頻度を使用して、電子文書に対して結果プロファイルをもと
め、 d)電子文書のサーチプロファイル及び結果プロファイルを使用して、サーチプ
ロファイルに対するベクトルをもとめ、このサーチプロファイルの各々の語はベ
クトル成分であり、予め設定可能な値はこのベクトル成分の値であり、さらに結
果プロファイルに対するベクトルをもとめ、サーチプロファイルの各々の語はベ
クトル成分であり、相応の頻度はベクトル成分の値であり、 e)サーチプロファイルのベクトルと結果プロファイルのベクトルとの間の角度
をもとめ、 f)この角度を使用して、適合性をもとめる。
【0009】 この適合性決定は比較的低い計算コストによって実施され、この結果、多数の
サーチプロファイルが多数の文書に関して分析でき、同時に受容可能な時間特性
が得られる。
【0010】 予め設定可能なサーチプロファイルに対する電子文書の適合性をコンピュータ
を援用して求めるためのシステムは少なくとも以下の特徴を有する: a)コンピュータ(COMP)が設けられ、このコンピュータは以下のステップ
を実施できるように構成されている、すなわち、 少なくとも1つの語を含むサーチプロファイルを作成し、 サーチプロファイルの各々の語に対して電子文書におけるこの語の出現頻度を
もとめ、 各々の語の出現頻度を使用して、電子文書に対して結果プロファイルをもとめ
、 電子文書のサーチプロファイル及び結果プロファイルを使用して、サーチプロ
ファイルに対するベクトルをもとめ、サーチプロファイルの各々の語はベクトル
成分であり、予め設定可能な値はベクトル成分の値であり、さらに結果プロファ
イルに対するベクトルをもとめ、サーチプロファイルの各々の語はベクトル成分
であり、相応の頻度はベクトル成分の値であり、 サーチプロファイルのベクトルと結果プロファイルのベクトルとの間の角度を
もとめ、 この角度を使用して、適合性をもとめ、 b)グラフィックなコンピュータ表示装置(DIS)が設けられており、 c)電子文書(D)にアクセス(Z)するための手段が設けられている。
【0011】 本発明の実施形態は従属請求項から得られる。
【0012】 有利には、サーチプロファイルのベクトルを表す第1の要素及び結果プロファ
イルのベクトルを表す第2の要素が表示される。
【0013】 本発明の他の実施形態では、それぞれ電子文書の結果プロファイルのベクトル
を表す複数の第2の要素が表示され、閾値よりも小さい適合性を有する電子文書
の第2の要素は、この閾値よりも小さくない適合性を有する電子文書の第2の要
素よりも局所的により近くに相互に並んで表示される。
【0014】 有利には、本発明は、サーチベクトルと結果ベクトルとの間に見いだされる角
度に対して三角関数を適用することによって構成され、適合性行列の形式におい
て後続処理される。というのも、この適合性行列は類似度行列として解釈される
又は簡単なやり方でこのような行列に変換されるからである。
【0015】 有利には、本発明は、類似度行列を利用して構成され、この類似度行列は適合
性行列から導出され、個々の文書の類似度が相互に提示される。このやり方でメ
タファー「空間的近傍=内容的近さ」がグラフィックな表示において非常に簡単
に実現され、従ってグラフィックのための処理の際に必要とされる計算コストが
比較的小さい。
【0016】 有利には、本発明は、ベクトル間に見いだされる角度に対してコサイン関数を
適用することによって構成される。というのも、0°のコサイン=1だからであ
る。従って、これらベクトルが重なり合う場合にはこれらの文書の同一性が示さ
れる。このことはベクトルによって表示される事情に相応する。
【0017】 有利には、本発明の方法は、コンピュータネットワークにおいて適用すること
によって構成される。というのも、コンピュータネットワークからは頻繁に電子
文書がサーチ結果として得られ、この電子文書は受容可能な時間内には人間によ
って分析できないからである。
【0018】 有利には、本発明の実施形態では、コンピュータネットワークとしてインター
ネットが使用される。というのも、インターネット乃至はワールドワイドウェブ
は広く普及しているネットワークであり、従って、本発明の方法に対する大きな
ユーザ基盤があるからである。
【0019】 有利には、本発明は、データバンクからの電子文書を使用することによって構
成される。というのも、これによって電子文書のための図書館及び他のデータバ
ンクが有意義に、明瞭に、そして迅速にわかりやすく表示されるからである。
【0020】 有利には、本発明の方法及び有利には本発明の方法の実施形態を実施するシス
テムはコンピュータ、ディスプレイ及び電子文書へのアクセス手段から構成され
ている。というのも、ハードウェア手段は広く普及しており、このハードウェア
手段の良好な使用可能性も保障されているからである。同様に電子文書へのアク
セスも広く普及したネットワークアクセス手段及び公共ネットワーク及びプライ
ベートネットワークによって保障されている。
【0021】 次に本発明の実施例を図面に基づいて詳しく説明する。
【0022】 図1は、適合性行列の形成のための例を示す。
【0023】 図2は、本発明の方法の他の処理ステップを示す。
【0024】 図3は、角度計算を示す。
【0025】 図4は、本発明の方法を実施した後のディスプレイ部分を示す。
【0026】 図1に示されているように、本発明の方法の実施形態では、電子文書D1、D
2及びDNが使用され、場合により重み付けされたサーチ概念を含むサーチプロ
ファイルP1、P2及びPMに基づいて文書D1〜DNに含まれている情報が開
示される。使用される文書D1〜DNは例えばワールドワイドウェブにおいてネ
ットワークサーチで見いだされた文書である。プロファイルは手動作成されたサ
ーチプロファイル乃至はユーザによって定義されたサーチプロファイルであり、
このサーチプロファイルは場合により概念の重要性に応じて個々の概念に重み付
けを有する。同様にプロファイルとして文書を使用することも考えられる。また
例えば語統計に基づいてサーチプロファイルを作成することも考えられる。この
語統計は、オペレータが極めて興味深いものだと見なしてコンピュータで使用で
きるようにした文書に基づいて実施される。同様に専門的なシソーラスを援用し
てサーチプロファイルを入力することも考えられる。またユーザのふるまいを観
察することによって及び学習コンポーネントによってサーチプロファイルを自動
的に生成することもできる。
【0027】 処理ステップ100では個々のプロファイルP1〜PMと個々の文書D1〜D
Nとの間の適合性が決定される。有利にはこれは全文書及び全プロファイルに対
して行われ、この結果、適合性行列Rが成り立つ。適合性を決定するために、有
利には文書における語頻度が求められ、それぞれのサーチプロファイルと一致す
る語がサーチされる。次いで、サーチプロファイルと、文書及びサーチプロファ
イルごとに求められた結果プロファイルとがベクトルとして表示され、さらにサ
ーチベクトルの概念によって作られるベクトル平面においてこのサーチベクトル
と結果ベクトルとの間の角度が決定される。この角度は、検査された文書の適合
性の尺度として使用される。図1では、適合性行列がどのように表されるかを示
すために数字及び文字を有する適合性行列Rが図示されている。水平方向には例
えばプロファイルP1〜PMが示され、垂直方向には文書D1〜DNが示されて
いる。各々の行と列との交点には適合性値が示されている。これによって初めて
多値形式文脈が実現される。これにより、この行列Rのi番目の列は全プロファ
イルkに関するi番目の文書の適合性に相応する。
【0028】 図2に示されているように、適合性行列Rはプロセスステップ200、300
及び400において後続処理される。例えばインターフェース500を介して文
書及びサーチプロファイルへのアクセス及びブラウザが使用できる。第1のステ
ップ200では例えば適合性行列から類似度行列が計算される。このために、個
々の文書に対する適合性値から他の文書との相関分析が実施される。有利には、
行列Rからサーチプロファイルに関する文書間の相関係数cikを計算することに
よって以下の計算ステップにより相関行列Cが決定される: 行列Rの行ベクトルriの正規化: qi=(ri−mi) ただしここで平均値 mi=1/NΣri 長さqi及び標準偏差 σi=sqrt(Σ(ri−mi2) 相関係数
【0029】
【数1】
【0030】 の計算及び行列Cの計算。
【0031】 Cはこの場合形式においてこれまでの類似度行列乃至は対象-対象行列(Geg
enstands-Gegenstandsmatrix)に相応する。
【0032】 例えば、類似度の計算のためのメカニズムは様々な手段によって改善されうる
【0033】 第1のステップにおいて、例えば一般的に特殊な文書の論文の領域(domain
)に依存する不要語が除去される。多くの場合、これらの不要語は接続詞、冠詞
、前置詞であり、これら接続詞、冠詞、前置詞はこの場合文書の内容を歪めるこ
となしに確実に削除できる。
【0034】 場合により、得られる尺度の重要性を改善するために、領域固有の語を除去
することもできる。
【0035】 さらに別の手段として、使用されるシステムのメトリックがこの適用領域の
重要な相(Aspekte)に集束される。この場合、領域固有のシソーラス又はオン トロジーからほんのいくつかの概念が又は記述された語の相が使用される。
【0036】 さらに別の手段として、逆文書頻度修正(umgekehrte Dokumentfrequenzkor
rektur)を導入することにより、本発明の方法の判別力を改善することができる
。この方法では語の重みが使用され、多数の文書に出現する語は対数ファクタF
によって重み付けされる。このファクタは例えばF=log(語Wjを含む文書Dの
数/全文書数)のように決定される。この手段の結果として、語に依存して重み 付けされた類似性尺度が得られる。
【0037】 処理ステップ300において例えば最初に引用した従来技術に従って空間表示
のための類似度行列の変換が行われる。処理ステップ400ではステップ300
で処理されたデータセットが従来技術に従って3次元に視覚化される。
【0038】 周知の方法に従って空間的な間隔によって相関行列Cを表示する。
【0039】 グラフィック処理のための周知の最適化アルゴリズムの使用。
【0040】 グラフィック表示においてフィーチャを考慮する。
【0041】 プロファイルの少なくとも1つの語が一度文書に出現する場合、この文書 はこのプロファイルに適合している。
【0042】 → 対象「文書i」はフィーチャ「プロファイルk」を有する。
【0043】 3D空間における視覚化。
【0044】 VRML:文書及びプロファイルの選択はインターネットブラウザ(例えば
:ネットスケープ)のウィンドウにおいて文書データファイル及びプロファイル
データファイルを示す。
【0045】 しかし、適合性行列から導出される類似度行列を介する方法は本発明の方法で
はどうしても必要であるというわけではない。同様に直接的なアプローチの方法
が存在し、適合性行列Rが3次元空間に直接変換される。ここでは文書間の類似
度と空間的近傍のメタファーは利用されず、むしろ所定のフィーチャに関する文
書間の適合性が空間的近傍に変換される。本発明によって初めてテクスト分析、
視覚化及び検索の1つのシステムにおける統合が実現される。とりわけ本発明に
よって文書分析の結果から文書の類似度を計算する新しい結合成分が提供される
。この成分は相関法に基づいており、この相関法によって相関行列が計算され、
この相関行列は次いでコンピュータディスプレイにおける3次元空間に視覚化さ
れる。これによって初めて多値形式文脈をわかりやすく示すことが可能になる。
【0046】 図3はサーチプロファイルに関する文書の適合性値の計算を示している。既に
記述したように、このために文書のテクストとサーチプロファイルのテクストと
がベクトルとして表示される。簡単なわかりやすい表示のために、ここでは2つ
の語T10及びT20を有するサーチプロファイルだけが選択された。例えばこ
の場合には疫学的な文書が検査される。この概念T10は例えば influenza を 意味し、T20は outbreak を意味する。DVは文書ベクトルを示し、PVはサ
ーチプロファイルベクトルを示す。それぞれの軸T10及びT20にはこれらの
語の頻度が示されている。角度αはサーチプロファイルベクトルPVと文書ベク
トルDVの一致に対する尺度として使用される。とりわけ、このためにこの角度
のコサインが形成される。というのも、両方のベクトルが一致する際にはこの角
度は0になり、よってコサインは1になるからであり、これは正確な一致に相応
する。
【0047】 プロファイルに関する文書の適合性値の計算のために1つの例を次に示す: 次の文書が与えられる: {Influenza report: Large influenza outbreak reaches Paris.} この文書に対して、文書ベクトルが定義される。この文書ベクトルの次元は概
念“influenza, large, outbreak, Paris, reaches, report”によって決定され
ている。この文書はこれらの次元に関して文書ベクトル d={2、1、1、1、1、1} として示される。このベクトルdの要素は出現する概念の語頻度に相応する。
【0048】 文書及び文書ベクトルの場合と同じように、サーチプロファイル {influenza, outbreak} が定義され、プロファイルベクトルPVが定義される。このプロファイルベクト
ルPVの要素は概念次元“influenza”及び“outbreak”の重み付けに相応する 。
【0049】 PV={1、1} このプロファイルベクトルの平面への文書ベクトルdの投影を計算し、これに
よって投影された文書ベクトルDV={2、1}が得られる。次いでDVとPV
との間の cosα がこのプロファイルに関するこの文書の適合性rに対する尺度 として定義される: r= cosα =〈DV,PV〉/‖DV‖‖PV‖ 〈DV,PV〉はベクトルDVとPVとのスカラー積であり、‖・‖はベクトル
の長さである。
【0050】 従って、例としてのベクトルDV及びPVに対してこのプロファイルベクトル
に関するこの文書の適合性
【0051】
【数2】
【0052】 が得られる。特別なケースr=1乃至はα=0°はこのプロファイルに関するこ
の文書の最善の適合性に相応する。値r=0は最小の適合性の場合に乃至はDV
とPVとが直交する場合に得られる。
【0053】 続いてこの適合性行列Rから相関係数cikを計算するための例を示す: 行列Rの2つの行ベクトルをri及びrkとする。この行列Rは4つのプロファイ
ルに関する文書i及びkの適合性を含んでいる。行i及びkのベクトルは次の要
素 ri={0.6、0.2、0.4、0.8} 及び rk={0.0、0.1、0.3、0.4} を含む。ここから平均値 mi=0.5、mk=0.2 が得られる。さらに、 qi=ri−mi=(0.1、−0.3、−0.1、0.3) qk=(−0.2、−0.1、0.1、0.2) そして長さ σi=0.4472、σk=0.3162 が得られる。相関係数cik
【0054】
【数3】
【0055】 が得られる。
【0056】 この係数は4つのプロファイルに関する文書iとkとの類似度の尺度として解
釈される。行列Cは対象-対象-類似度行列の形式を有し、周知の方法によって視
覚化される。
【0057】 図4に示されているように、関心プロファイル乃至はサーチプロファイルに関
する文書評価はディスプレイDISにわかりやすく示される。図示されたディス
プレイ部分には文書が立方体として、サーチプロファイルが球形として図示され
ている。詳しく言えば、サーチプロファイルは summer, Complication, Measles
, Chicken-Pox それに加えて gastro-entritis, Diarrhea, winter, vaccine, i
llness/outbreak, flu, Mumps である。文書は詳しくは示されていない。カーソ
ルCUにより文書をクリックすることによって、例えばウィンドウ10が表示さ
れ、このウィンドウ10にはそれぞれの文書の内容が表示される。この場合、重
要なことは、個々のサーチプロファイルの間に個々の文書を配置することによっ
て、どの程度個々のサーチプロファイルがこの文書に関して適合しているかが精
確に表示されることである。本発明により実施される個々の電子文書の分析にお
いて、例えば個々のサーチ概念が弱く重み付けされるように、それぞれのサーチ
プロファイルにおけるこれらのサーチ概念に対して重み係数を与えることができ
る。このことは、各文書と所定の語との一致に関する比較的小さい頻度をもたら
すことになる。2次元コンピュータディスプレイDISの代わりに、ヴァーチャ
ルリアリティ空間、ヘッドマウンテッドディスプレイ(Head Mounted Display)
、3Dディスプレイのような3次元表示装置又はホログラフィックに作動する表
示を使用することもできる。
【0058】 この明細書において以下の刊行物を引用した: [1]:US5649193 [2]:US5576954 [3]:US5642518
【図面の簡単な説明】
【図1】 適合性行列の形成のための例を示す。
【図2】 本発明の方法の他の処理ステップを示す。
【図3】 角度計算を示す。
【図4】 本発明の方法を実施した後のディスプレイ部分を示す。
【符号の説明】
100 処理ステップ 200 プロセスステップ 300 プロセスステップ 400 プロセスステップ 500 インターフェース D1〜DN 文書 P1〜PM サーチプロファイル W10 ウィンドウ10
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成12年2月28日(2000.2.28)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アルベルト シャッペルト ドイツ連邦共和国 レールモース フルー ルシュトラーセ 32 Fターム(参考) 5B075 ND03 PQ02 PQ13 PR04 PR06 UU06

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 予め設定可能なサーチプロファイルに対する電子文書の適合
    性をコンピュータを援用して求めるための方法は以下のステップを含む、すなわ
    ち、 a)少なくとも1つの語を含むサーチプロファイルを作成し、 b)前記サーチプロファイルの各々の語に対して電子文書における前記語の出現
    頻度をもとめ、 c)各々の語の出現頻度を使用して、電子文書に対して結果プロファイルをもと
    め、 d)電子文書の前記サーチプロファイル及び前記結果プロファイルを使用して、
    前記サーチプロファイルに対するベクトルをもとめ、前記サーチプロファイルの
    各々の語はベクトル成分であり、予め設定可能な値は前記ベクトル成分の値であ
    り、さらに前記結果プロファイルに対するベクトルをもとめ、前記サーチプロフ
    ァイルの各々の語はベクトル成分であり、相応の頻度は前記ベクトル成分の値で
    あり、 e)前記サーチプロファイルのベクトルと前記結果プロファイルのベクトルとの
    間の角度をもとめ、 f)該角度を使用して、適合性をもとめる、 予め設定可能なサーチプロファイルに対する電子文書の適合性をコンピュータを
    援用して求めるための方法。
  2. 【請求項2】 それぞれ複数のサーチプロファイル及び/又は複数の電子文 書に対する適合性をもとめる、請求項1記載の方法。
  3. 【請求項3】 サーチプロファイルのベクトルを表す第1の要素及び結果プ
    ロファイルのベクトルを表す第2の要素が表示される、請求項1又は2記載の方
    法。
  4. 【請求項4】 それぞれ電子文書の結果プロファイルのベクトルを表す複数
    の第2の要素が表示され、閾値よりも小さい適合性を有する電子文書の前記第2
    の要素は、前記閾値よりも小さくない適合性を有する電子文書の第2の要素より
    も局所的により近くに相互に並んで表示される、請求項3記載の方法。
  5. 【請求項5】 適合性を使用して、適合性行列(R)をもとめる、請求項2
    〜4のうちの1項記載の方法。
  6. 【請求項6】 適合性値が電子文書(D)毎に適合性ベクトルにまとめられ
    互いに相関されることによって、適合性行列(R)から類似度行列が形成され、
    この類似度行列がコンピュータディスプレイ(DIS)におけるグラフィックな
    表示のために使用され、第3の電子文書よりも高い第2の電子文書との相関を有
    する第1の電子文書のシンボルは、前記第3の電子文書のシンボルよりも前記第
    2の電子文書のシンボルの空間的な近傍に表示される、請求項5記載の方法。
  7. 【請求項7】 三角関数としてコサインが使用される、請求項1〜6のうち
    の1項記載の方法。
  8. 【請求項8】 電子文書(D)としてサーチのサーチ結果がコンピュータネ
    ットワークにおいて使用される、請求項1〜7のうちの1項記載の方法。
  9. 【請求項9】 コンピュータネットワークとしてインターネットが使用され
    る、請求項8記載の方法。
  10. 【請求項10】 電子文書(D)としてデータバンクからの文書が使用され
    る、請求項1〜7のうちの1項記載の方法。
  11. 【請求項11】 サーチプロファイル(P)として電子文書(D)が使用さ
    れる、請求項1〜10のうちの1項記載の方法。
  12. 【請求項12】 表示装置(DIS)に表示されるシンボルはコンピュータ
    の入力装置を用いて選択される及び/又は前記シンボルが表す文書のテクスト内 容が表示される、請求項1〜11のうちの1項記載の方法。
  13. 【請求項13】 予め設定可能なサーチプロファイルに対する電子文書の適
    合性をコンピュータを援用して求めるためのシステムは以下の特徴を有する、す
    なわち、 a)コンピュータ(COMP)が設けられ、該コンピュータは以下のステップを
    実施できるように構成されている、すなわち、 少なくとも1つの語を含むサーチプロファイルを作成し、 前記サーチプロファイルの各々の語に対して電子文書における前記語の出現頻
    度をもとめ、 各々の語の出現頻度を使用して、電子文書に対して結果プロファイルをもとめ
    、 電子文書の前記サーチプロファイル及び前記結果プロファイルを使用して、前
    記サーチプロファイルに対するベクトルをもとめ、前記サーチプロファイルの各
    々の語はベクトル成分であり、予め設定可能な値は前記ベクトル成分の値であり
    、さらに前記結果プロファイルに対するベクトルをもとめ、前記サーチプロファ
    イルの各々の語はベクトル成分であり、相応の頻度は前記ベクトル成分の値であ
    り、 前記サーチプロファイルのベクトルと前記結果プロファイルのベクトルとの間
    の角度をもとめ、 該角度を使用して、適合性をもとめ、 b)グラフィックなコンピュータ表示装置(DIS)が設けられており、 c)電子文書(D)にアクセス(Z)するための手段が設けられている、 予め設定可能なサーチプロファイルに対する電子文書の適合性をコンピュータを
    援用して求めるためのシステム。
  14. 【請求項14】 コンピュータ表示装置(DIS)におけるシンボルの選択
    のために選択手段が設けられている、請求項13記載のシステム。
JP2000508066A 1997-08-26 1998-08-24 予め設定可能なサーチプロファイルに対する電子文書の適合性をコンピュータを援用して求めるための方法及びシステム Pending JP2001514417A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19737145.0 1997-08-26
DE19737145 1997-08-26
PCT/DE1998/002477 WO1999010819A1 (de) 1997-08-26 1998-08-24 Verfahren und system zur rechnergestützten ermittlung einer relevanz eines elektronischen dokuments für ein vorgebbares suchprofil

Publications (1)

Publication Number Publication Date
JP2001514417A true JP2001514417A (ja) 2001-09-11

Family

ID=7840214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000508066A Pending JP2001514417A (ja) 1997-08-26 1998-08-24 予め設定可能なサーチプロファイルに対する電子文書の適合性をコンピュータを援用して求めるための方法及びシステム

Country Status (4)

Country Link
EP (1) EP1008067B1 (ja)
JP (1) JP2001514417A (ja)
DE (1) DE59801992D1 (ja)
WO (1) WO1999010819A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004515837A (ja) * 2000-07-17 2004-05-27 シーメンス アクチエンゲゼルシヤフト サーチプロファイルの比較方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100290731B1 (ko) * 1999-05-26 2001-05-15 심우섭 3차원 인터넷 검색 엔진의 표시 방법
US7356604B1 (en) * 2000-04-18 2008-04-08 Claritech Corporation Method and apparatus for comparing scores in a vector space retrieval process
GB2368670A (en) * 2000-11-03 2002-05-08 Envisional Software Solutions Data acquisition system
DE10107792A1 (de) * 2001-02-13 2002-08-29 Manfred Mueller System zur Kontaktvermittlung
US7386442B2 (en) 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
US7181451B2 (en) 2002-07-03 2007-02-20 Word Data Corp. Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library
US7024408B2 (en) 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
US7003516B2 (en) 2002-07-03 2006-02-21 Word Data Corp. Text representation and method
US7016895B2 (en) 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
AU2003256456A1 (en) * 2002-07-03 2004-01-23 Word Data Corp. Text-representation, text-matching and text-classification code, system and method
US8549436B1 (en) 2007-06-04 2013-10-01 RedZ, Inc. Visual web search interface

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09114847A (ja) * 1995-10-16 1997-05-02 Fuji Xerox Co Ltd 情報処理装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09114847A (ja) * 1995-10-16 1997-05-02 Fuji Xerox Co Ltd 情報処理装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EGGHE L: "A NEW METHOD FOR INFORMATION RETRIEVAL, BASED ON THE THEORY OF RELATIVE CONCENTRATION", THE 13TH INTERNATIONAL CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, JPN5001003884, 5 September 1990 (1990-09-05), US, pages 469 - 493, XP002090103, ISSN: 0001072472 *
OLSEN K A: "VISUALIZATION OF A DOCUMENT COLLECTION: THE VIBE SYSTEM", INFORMATION PROCESSING AND MANAGEMENT, vol. V29 N1 1993年発行, JPN5001003883, 31 December 1993 (1993-12-31), GB, pages 69 - 81, ISSN: 0001072471 *
SUMNER R G JR: "AN INVESTIGATION OF RELEVANCE FEEDBACK USING ADAPTIVE LINEAR AND PROBABILISTIC MODELS", FIFTH TEXT RETRIEVAL CONFERENCE (TREC-5) (NIST SP 500-238), JPN5001003882, 20 November 1996 (1996-11-20), US, pages 555 - 570, XP002090102, ISSN: 0001072470 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004515837A (ja) * 2000-07-17 2004-05-27 シーメンス アクチエンゲゼルシヤフト サーチプロファイルの比較方法
JP4868484B2 (ja) * 2000-07-17 2012-02-01 シーメンス アクチエンゲゼルシヤフト サーチプロファイルの比較方法

Also Published As

Publication number Publication date
EP1008067A1 (de) 2000-06-14
EP1008067B1 (de) 2001-10-31
DE59801992D1 (de) 2001-12-06
WO1999010819A1 (de) 1999-03-04

Similar Documents

Publication Publication Date Title
Archambault et al. Topolayout: Multilevel graph layout by topological features
Cano Basave et al. Automatic labelling of topic models learned from twitter by summarisation
EP2100228A1 (en) Directed graph embedding
JP2001514417A (ja) 予め設定可能なサーチプロファイルに対する電子文書の適合性をコンピュータを援用して求めるための方法及びシステム
Trajcevski et al. Dynamics-aware similarity of moving objects trajectories
JP2019045894A (ja) 検索プログラム、検索方法、及び、検索プログラムが動作する情報処理装置
CN114287000A (zh) 信息检索和/或可视化方法
JP2010123000A (ja) Webページグループ抽出方法及び装置及びプログラム
CN111797409A (zh) 一种大数据中文文本无载体信息隐藏方法
JPH11120180A (ja) データ検索装置及びデータ検索プログラムを記録した記録媒体
JP2017224264A (ja) データ処理システム
US11947583B2 (en) 2D map generation apparatus, 2D map generation method, and 2D map generation program
JP2008123526A (ja) 情報検索方法及び装置
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
Murata Visualizing the structure of web communities based on data acquired from a search engine
CN111143400A (zh) 一种全栈式检索方法、系统、引擎及电子设备
Sedmidubsky et al. Fast subsequence matching in motion capture data
Zhang et al. WebStar: a visualization model for hyperlink structures
JP2005332080A (ja) 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体
KR100736754B1 (ko) 스패닝 트리를 이용한 인용관계 조사 방법
Pinho et al. Voromap: A voronoi-based tool for visual exploration of multi-dimensional data
Liu et al. Shape alignment and shape orientation analysis-based 3D shape retrieval system
JP6976537B1 (ja) 情報検索装置、情報検索方法および情報検索用プログラム
Cheung et al. A shape-based searching system for industrial components
Helmer et al. Complex Links and Hilbert–Samuel Multiplicities

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080626

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081121