JPH021057A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH021057A
JPH021057A JP63185462A JP18546288A JPH021057A JP H021057 A JPH021057 A JP H021057A JP 63185462 A JP63185462 A JP 63185462A JP 18546288 A JP18546288 A JP 18546288A JP H021057 A JPH021057 A JP H021057A
Authority
JP
Japan
Prior art keywords
keyword
document
keywords
file
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63185462A
Other languages
English (en)
Inventor
Tetsuya Morita
哲也 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63185462A priority Critical patent/JPH021057A/ja
Priority to US07/296,769 priority patent/US5168565A/en
Priority to DE3901485A priority patent/DE3901485C2/de
Publication of JPH021057A publication Critical patent/JPH021057A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は文書検索装置、とくに、検索時に利用者の感覚
に近いキーワード群を生成できる、柔軟で高速な文書検
索装置に関する。
従来技術 従来の文書検索システムは、その登録・検索方法の違い
によって以下の2種類に大別される。
■ 〔シソーラス型〕文書登録時に登録オペレータが適
切と思われるキーワードを選択し、書誌的事項と共に登
録を行ない、文書検索時には検索システム利用者がシソ
ーラス(キーワード集)の中から適切と思われるキーワ
ードを指示することによって検索を行なうシステム。
■ 〔フリーキーワード型〕文書登録時には書誌的事項
と文書内容のみを登録しておき、文書検索時に検索利用
者がフリーキーワードで検索を行なうシステム。上記2
システムのうち、■はインバーテツドファイルを持たせ
ることもでき、高速検索が可能である。しかし、キーワ
ードのだめの記憶容量負荷がかかることや登録オペレー
タが選択するキーワードの妥当性、シソーラスによる分
類・更新作業の煩雑性・妥当性が大きな問題となってい
る。また、■は余分な記憶容量負荷が小さくて済む、指
示されたキーワーrを含む文書の有無が明確である、分
類作業が不要等の利点を持つが、全文検索であるため検
索時間がかかる、同義語処理等の曖昧検索に向かないと
いう欠点も持っている。
目   的 本発明はこのような従来技術の欠点を解消するために、
動的キーワードコネクションという概念を導入し、文書
登録時にはンーラス等に基づいた煩雑な分類作業を必要
とせず、文書検索時には検索利用者の感覚に近い曖昧検
索を高速に実行できる文書検索装置を提供することを目
的とする。
構成 本発明による文書検索装置は、上記の目的を達成させる
ために、登録文書およびその文書情報がファイルに登録
される際、文書情報よりキーワードを抽出するキーワー
ド抽出手段と、登録文書・キーワード間の関連を示すイ
ンバーテツドファイルを作成するインバーテツドファイ
ル作成手段と、キーワード間の関連情報を記述したキー
ワードコネクション表を作成し、既に登録されている関
連情報の値を変更し、新規関連情報を生成するキーワー
ドコネクション表処理手段と、入力されたキーワードに
よりキーワードコネクション表およびインバーテツドフ
ァイルから検索条件に合致した文書を選出する文書選出
手段とを有する。次に、キーワードコネクションと文書
データベースの概念を示す第2図を用いて本発明の詳細
な説明する。
本発明では、動的キーワードコネクションという新しい
概念を導入した。第2図に示すように文書データベース
中の各文書(#1.#2゜#3・・・、#N)は、イン
バーテツドファイル4によりて文書#11文書#2.・
・・1文書#N中に含まれるキーワード3aと対応づけ
られている。さらに、キーワード層3はキーワード3a
とキーワードコネクション3bと呼ばれるキーワード間
の関連情報とから構成されている。関連情報は、関係名
・重み(数値)・方向(重みの符号)等から成り、関係
名の例としては「同義語」「類義語」「同−文書内に有
りJ rIS−A関係J r l5−PART−OF関
係」等々が用いられる。
また、重み・方向は関係の強さ・方向を表し、検索利用
者のキーワードアクセスによって数値が変更されていく
。これらの数値はアクセス頻度・履歴等に応じて変更さ
れるため、頻繁に使用されるキーワード3aや使われか
たの具合によって、キーワード層3全体として次第に検
索利用者の語粟・感覚に近づいてゆく。すなわち、動的
キーワードコネクションが次第に形成される。
ここで、任意の2つのキーワード3a間に関連度が、キ
ーワードコネクション3b上に実在するコネクション(
直接コネクション)の重みと関係名の情報を用いて定義
できる。さらに検索者の指定したキーワード群と各キー
ワードとの関係の強さ(キーワード確度)や、検索者の
指定したキーワード群と各ファイルとの関係の強さ(フ
ァイル確度)も前述の重みの関数として定義できる。任
意の2キ一ワード間の関連度やキーワード確度・ファイ
ル確度が得られると、検索しようとする文書に適したキ
ーワード群を選択する際、検索利用者は文書検索装置と
の対話によりキーワード群を主題に適して洗練させてい
くことができるのが特徴である。
この動的キーワードコネクションは第3図に示すキーワ
ードコネクション表で管理することができる。次に、本
発明の文書検索装置の具体的な一実施例を第1図のブロ
ック図により説明する。登録される文書の一例を第4図
(、)、その書誌情報の例を同図(b)に示す。
キーワード抽出部10は、登録文書11を入力すると、
そのキーワードを抽出し、キーワードおよび登録文書1
1を文書情報管理部20、キーワードコネクション表処
理部30.インバーテツドファイル作成部40へ出力す
る。
文書情報管理部20は、キーワードと書誌情報をファイ
ル21に格納し、検索時に利用可能な形にデータベース
化する。ファイル21は第2の文書データベース2に対
応している。
キーワードコネクション表処理部30は、第5図のよう
に必要なキーワードとキーワードコネクション(以下関
連情報と称する)を表化したキーワードコネクション表
第5図〜第8図を作成して、ファイル31に格納する。
ファイル31は第2図のキーワード層3に対応している
ファイル31の内容は次第に以下のような動的キーワー
ドコネクションに洗練される。第5図の文書登録前のキ
ーワードコネクション表は文書登録後の第6図の直接コ
ネクションを示す表となり、次に、間接コネクションと
その関連度が加えられた第7図の表となり、これに最終
的なキーワード加重を加えた第8図の表となる。
具体的には、第7図において最終的なキーワード群を(
R社2通信2画像、神経細胞)とした場合、第7図をも
とに第8図に示す薄いメツシュ部分に+5、濃いメツシ
ュ部分に+10して第8図となる。
インバーテツドファイル作成部40は、キーワードを登
録文書11に対応づけるインバーテンドファイルを作成
してファイル41に格納する。ファイル41は第2図の
インバーテツドファイル4に相当する。
文書選出部50は、検索利用者の要求主題・要求概念に
より近い文書ファイルをキーワード群によって抽出する
ことを目的としているもので、キーボード60からアク
セスする利用者に対してキーワード一覧表をディスブレ
=7(1:出力する。その中から利用者は要求主題に必
要なキーワードを選択するか、自由キーワードを選択し
て、再びキーボード6oから表示検索要求を入力する。
文書選出部5oは図示のように以下の各部51〜54よ
りなる。
まず、要求処理部54は、受理したキーワードと関連の
あるキーワードをキーワードコネクション表の中から選
択するために、キーワード間開速度・確度計算部52に
対して、受理したキーワード、例えば(R社 通信)を
転送する。
キーワード間開速度・確度計算部52は、キーワードコ
ネクション表(第6図)から(R社通信)に関する関連
キーワードと重み(関連の強さ)の情報を抽出する。っ
壕り(R社 通信)という2つのキーワードからキーワ
ードコネクション表(第6図)を引き、(R社BTT 
(”技術提携”))、(R社 通信(゛研究開発”))
、(R社 神経細胞(″同一文書つ〕、(R社企業(”
I S−A″))、(R社 画像(゛同一文書”))、
(通信 神経細胞(”類義語”))などの関連情報を得
る。
キーワード間開速度・確度計算部s2は、キーワードコ
ネクション上に実在するコネクション(直接コネクショ
ン)の関連度と関係基とから任意の2キ一ワード間の関
連度を計算し、キーワードコネクション表に格納する。
その際、直接的な関連情報は存在しないが他のキーワー
ドを介して間接的に関連が存在する(1つ以上の径路が
存在する)場合、それら2キ一ワード間には間接コネク
ションが存在するといい、キーワード間開速度の計算式
に基づいて間接コネクションの関連度が計算できる。直
接コネクションも間接コネクションも存在しないような
2キ一ワード間には関連がないものとし、関連度は”O
” とする。
以下に、キーワード間開速度の計算式の具体的な一例を
示す。
任意の2キーワードに、 、 K4間のコネクション(
p*q)の関連度KRBL [KP # Kq )は、
キーワードコネクション上に実在するKi 、 Kj間
のコネクション(i  j)εUCALLの関係強度S
ijと関係基Nijを用いて定義できる。ただし、UC
A L Lはキーワードコネクション上に実在するKi
 l Kj間のコネクションの集合とする。K、。
K4. K、 、 Kjはキーワードp*qsi*jを
表す。
KRELCK、 +に、)=f(Si j+Ni j 
pP +q )   ・・・(1)Knv、bcKp 
e Kq )を決定する関数fC8ij、Nij。
p、q )としては色々な実現方法が考えられるが、そ
の−例を以下に示す。
■ [KppKq’3間に直接コネクション((K、、
に、1間を直接結ぶコネクションをいう)が存在してい
るとき、 fC8ijlNijIpgq〕=Sij*AMP〔Ni
j〕   …(2)ただし輸p(Nijlは、重み付け
をする係数で関係基によって異なる。例えば、Nij 
 によって以下のように実装できる。
(CASE Nij (”同意語”(SETQ AMp
(Nij)1.0))(“類義語”(5ETQ AMp
(Nt j] 0.8 ) )(”反意語”(SETQ
 AMp[Nti:l  O,5) ) )上式はNi
jが”同意語”ならばAup(Ntj〕に1.0を6類
義語”ならば0.8を・・・代入することを示す。
■ (K、、に、1間に直接コネクションが存在してい
ないときで、(イ)かつ、(Kp*Kq)間に間接コネ
クション((KP tKq〕間の径路を構成する、複数
の直接コネクション群をいう。当然、間接コネクション
は複数の径路が存在しうる)が存在しているとき、間接
コネクションの番号を01〜Cnとし間接コネクション
CKを構成する直接コネクションの集合をUCKとする
と、ΣはUCKに含まれる直接コネクション(ij)に
ついての総和を示す。MINはC1〜Cnまでのn個の
間接コネクションの関連度のうち最小値を返す。
(ロ)かつ、(K、、に、)間に間接コネクションが存
在しないとき、 ’[−5tjtNtjIpeq:l = O・・・(4
)第9図に示すキーワードコネクションの一例を用いて
、■、■、(イ)、←)の場合を第10図に示す。図で
は[K、、に、)を[p−q:]の形式で表わす。
任意の2キ一ワード間の関連度の計算式の意味について
解説を加える。
キーワードコネクションは、前述のようにキーワードと
キーワード間の関連情報をコネクション(アーク)とす
る網(グラフ)を配列もしくは表として実装したもので
ある。この網は通常、完全グラフではない。つまり、全
てのキーワードがすべてのキーワードとコネクションを
持っているとは限らない。そこで任意の2キ一ワード間
の関連度をコネクションとする仮想的な完全グラフを構
築することを考える。これは、キーワードコネクション
上に実在するコネクション情報を用いて、間接的な接続
径路を持つ2キーワード間の関連度を計算することに相
当する。
(2)式: K、 、 Kq間に直接コネクション(p
q)が存在している場合、(p*q)間の関連度は、単
純にコネクションの関連度S、に、関係基によって異な
る重み係数を掛けるだけでよい。
(3)式:これは径路が複数存在しうる間接コネクショ
ンの関連度をそれぞれの径路ごとに計算し、その中で最
適な値を返す。(Sij*AM P CN1j〕)−”
の項はUCK(ある径路CKを形成する直接コネクショ
ンの集合)に含まれるある直接コネクション(i  j
)の開速度KRオ[K 4 v Kj)の逆数であシ、
これをすべてのコネクション(1$ J ) ”−UC
Kについて加算したものがCK、 、に、:)間の間接
コネクションCKの評価値(次元は1/関連度)となる
この評価値をC1〜Cnマでのn個のすべてのコネクシ
ョンについて計算し、その中の最小値の逆数(次元は関
連度)を間接コネクションの関連度KRzt、CK、e
Kq)とする。
第6図の関連情報を直接コネクションとし、簡単のため
に重み係数をすべて1.0としたときのキーワードコネ
クション表を第8図に示す。
第8図は第6図から求めた間接コネクションとその関連
度を示す。
第8図では、間接コネクションが6つ生成されている。
これらは、関連度の計算式において■(イ)の場合に相
当しく3)式を用いて計算されている。−例として、「
企業」「通信」間の間接コネクションの計算過程を考え
る。
「企業」「通信」間の径路としては (1)「企業」→「R社」→「通信J 、(2) r企
業」→r BTT j→[通信j 、(3) r企業」
→「R社」→[BTT J→「通信J 、(4) r企
業」→「R社」→「神経細胞」→「通信J 、 (5)
「企業」→r BTT J→「R社」→「通信」、等々
が上げられるが、仲介するキーワードが少ないほど関連
度が高いので(1)または(2)の径路の場合が(3)
式の逆数のMINであると考えられ、この2径路のみに
ついて計算し確度の大きいほうをとる。
(1)「企業」→「R社」→「通信」 、.Σ(S・・*AMp[N4 j))−” = 1/
90+1/30=4/90J (2)「企業」→r BTT J→「通信」・°・ Σ
(Sij*AMP[N1j))−1=1150+1/4
0=9/200、・、KREL[r企業」、「通信」〕
= (MINΣ(Sl、*AM、〔Nij〕)−1)−
1= 90/4=22.5 また、キーワード間開速度・確度計算部52ば、第8図
のキーワードコネクション表から(R社 通信)に関す
る関連キーワードと重みの情報を抽出し、キーワード確
度を計算する。
まず、「R社」、「通信」という2つのキーワードから
キーワードコネクション表(第8図)を引き、(R社 
BTT  (“技術提携”50))、(R社 通信 (
“研究開発”30))、(R社 神経細胞 (°゛同一
文書″80))、(R社 企業 (” xs−A″90
))、(R社 画像(゛同一文書”80))、(通信 
BTT(”枡研究開発”40))(通信 神経細胞 (
″類義語”20))、(通信 企業(゛′間接’22.
5))、(通信 画像(″間接″21.8))という指
定された2キーワードに関連のある9つの関連情報を抽
出する。これらの関連度を用いて任意のキーワード確度
が求められる。
キーワード確度の計算方法: キーワードに、のキルワード確度は、確度針gを実行し
たいキーワード群の集合をK。LXSTSとすればキー
ワード確度KCは、 ただし、ΣはKcL工STS に含まれるキーワードを
それぞれK に代入したときのKRELの総和を示す。
上記のようにKCLISTS = (R社 通信)のと
き、例えばキーワードr BTT Jのキーワード確度
KCは KC(BTT 、 (R社 通信)〕=ΣKRELCK
、IK、:1=KRELCBTT、R社〕+KR8L(
BTT、通信)=50+40 同様にして「神経細胞」「企業」「画像」のキーワード
確度はそれぞれ以下のようになる。
KC[神経細胞、(R社 通信)〕=100KC〔企業
、(R社 通信))=112.5KC(画像、(R社 
通信))=101.8ソ一ト部53は、キーワード間開
速度確度計算部52から得られたこれらの関連キーワー
ド群を強度の強い順にソートして、その結果を表示管理
部55へ渡す。
表示管理部55は前記関連キーワード群をデイスプレィ
70に出力し、利用者へ表示する。
このようにして利用者は、対話的な操作で自分の要求す
る文書についての概念・主題をキーワード群に反映させ
ることができる。対話的操作を繰り返しながらキーワー
ド群を洗練させ、最終的なキーワード群を得る。例えば
、利用者は(R社 通信 画像 神経細胞)というよう
にキーワードを選択し、この最終的なキーワード群が文
書選択要求とともに要求処理部54へ送られる。
要求処理部54は文書選択要求を受けとるとファイル確
度計算部51にキーワード群を転送する。同時に、最終
的なキーワード群に関する関連情報の重みを加重するよ
うキーワードコネクション処理部32に指示する。すな
わち、例えば文書選択要求時に与えられたキーワード群
に含まれるキーワードに関するすべてのコネクションの
重みを+5づつ加える等してコネクション表を変更すれ
ばよい。現在のキーワードコネクションが第7図のよう
であり、指定されたキーワード群が(R社 通信 画像
 神経細胞)であったとき、これら4つのキーワードに
関するコネクションの重みを+5したものが第8図であ
る。コネクションの片側のキーワードのみが指定されて
いる場合は+5となり、両側のキーワードが指定されて
いる場合+10となっている。
また、コネクション表が更新される際、検索以前に存在
しなかった新しいコネクションの生成も行なわれる。新
しいコネクションには、“アクセス″という関係基と所
定の初期値(例えば50)が与えられる。
ファイル確度計算部51は、受理したキーワード群とキ
ーワードコネクション表(第7図)を用いて、登録文書
のファイル21についてファイル確度を計算し、ソート
部へ結果を転送する。ファイル確度の計算方法は、−例
として選択されたキーワードとファイル21の文書情報
内に含まれるキーワードとのそれぞれの関連度の総和を
正規化した値とすることとして定義できる。例えば、(
R社 通信 画像 神経細胞)という選択されたキーワ
ードと登録文書11(第4図(a)とから計算されるフ
ァイル確度は、キーワード群同図(C)とキーワードコ
ネクション表(第7図)中から(R社 神経細胞 80
)(R社 画像 80)(通信 R社 30)(通信 
神経細胞 20)(画像R社 80)(画像 神経細胞
 80)(神経細胞 R社80)(神経細胞 画像 8
0)を引いて関連度の総和を求め、また例えばR社、画
像、神経細胞のように選択されたキーワードそのものが
文書11中に含まれている場合にはさらに各100ずつ
を加え、キーワード数4で正規化した値 ((80+80+30+20+80+80+80+80
>+100畳3 )/ 4= 207.5となる。この
計算がすべてのファイルについて行なわれた後、ソート
されて利用者へ表示される。
次に、第1図の実施例の動作について説明する。
キーワード抽出部10を経た登録文書11と、その書誌
情報12は文書情報管理部20に入力される。また、キ
ーワード抽出部10から登録文書11とそれから抽出さ
れたキーワードが、キーワードコネクション表処理部3
0とインバーテツドファイル作成部40に入力される。
前者では「同一文書に有り」などの関係によりキーワー
ドコネクション表に新しい関連情報が追加される。例え
ば、文書登録前のキーワードコネクション表が第5図の
ように与えられている時に第4図(a)のような文書が
登録されるとキーワードコネクション表は第6図のよう
になる。
第6図では、新たに(R社 神経細胞(”同一文書″ 
80))(R社 画像(°同一文書″ 80))(神経
細胞 画像 (”同一文書” 80))の3つの新規コ
ネクションが追加されている。
後者ではインバーテンドファイルに新しいキーワードと
文書の対応関係が追加される。
文書選出部50では、まず要求処理部54が検索利用者
からの表示・検索要求を受け、キーワード表示要求であ
ればキーワード間開速度・確度計算部52の結果をソー
トして表示管理部55がキーワード−覧の表示を行なう
。またファイル表示要求であればファイル確度計算部5
1の、、結果をソートしてファイル確度の一覧を表示す
る。まず、検索利用者がいくつかのキーワードを指定す
ると、それらに関係の深いキーワードの一覧が表示され
るので、利用者はそれらの中から再びキーワードを選択
できる。これを繰り返すことにより、検索利用者は検索
対象の文書に適したキーワード群を次第に洗練させてい
くことができる。
次に、本発明の特徴とする「動的キーワードコネクショ
ン法」について詳しく説明する。
(a)  動的キーワードコネクションを持つネットワ
ークモデルとは、第11図に示すようにキーワードをノ
ード(Node)  とし、キーワード間の関連(Re
 1ationship )情報をアーク(Arc)と
する有向グラフであり、関連情報は、関係名、重み、方
向(重みの符号)からなシ、それらの値が外界からの刺
激によって自律的に変化することによりネットワーク自
体が学資機能を持つ。
ここで、重みは、関連の強さを表しており、そのアーク
によって結合されるキーワードの検索(アクセス)頻度
に応じて重みの値が変化する。第12図は登録前後のネ
ットワークの変遷を示す図である。
(b)具体的な説明 ■ 学習機能:ユーザは検索を実行する際、キーワード
を指定する。DBMSは、そのキーワードを検索し表示
すると同時にそのキーワードに接続されるアークの重み
に一定値(Data −Relation  依存性が
あってもよいだろう。)を加える。複数のキーワードを
指定することも可能であシ、アクセスされたキーワード
に接続すれるアークのすべてについて同様の処理を行う
ある重み値があらかじめ設定された最大値を超えたら、
余技の重み値を正規化(一定値を引くだけでよい。)す
る。これにより頻繁にアクセスされるキーワードに接続
されるアークの重みの平均値は次第に増加し、アクセス
されないキーワードのそれは低くなっていく。
■ あいまい検索:検索時には、ユーザが与えたキーワ
ードから派生を許す距離(重みの和)のスレッショール
ドを同時に指定するととだより、その距離内にあるキー
ワードについて検索を行うことができる。
■ キーワード・ガーベッジコレクション(GCと称す
る)ニジステムは、必要に応じてキーワードのGCを行
うことにより、メモリ領域の低減を可能にする。
GCには、キーワードに接続されるアーク重みの総和、
もしくはアークの重みの最大値、もしくはアークの重み
の平均値が一定値以下のものを選ぶなどの方法が考えら
れる。
■ キーワードのクラスタ化:複数のキーワード間の関
係が同意語・同義語であシ、それらを結ぶアークの重み
が極めて高く、シかもそれらが完全グラフをなしている
とき、それらのノードはクラスタ化でき、一つの実体名
によって代表させるととができる。クラスタ内部はリレ
ーショナルで記述できるため、効率的である。
■ GC,すなわちクラスタ化は、キーワードの組合せ
の爆発的な増加を防ぐためにも有効な方法である。
■ 高速検索適応型インバーテツドファイル(A、1.
F、と称する):キーワードを含むテキスト塩をあらか
じめ一覧表にしておく。A、1.F、はそのキーワード
に接続されるアークの重み総和の大きさによって要・不
要を決めてもよい。
■ 空き時間の効率的利用:ユーザが新しいファイルを
入力した後の空き時間を利用して、検索ルーチンをメイ
ンプログラムと並行して走らせA、1.F、を作成する
(c)索引分類作成支援/文書登録アルゴリズム文書登
録手J@: ■ 登録しようとするテキスト内を検索し、現在のキー
ワードネットワークに含まれるキーワード群のなかで使
用されているものを抽出する。
■ 次に、ユーザはそれらを見て、さらに必要と思われ
るキーワードがある場合には、そのキーワードを新規登
録するために入力する。その際、ユーザは新規キーワー
ドの分類を指定する必要はなく、ただ入力しさえすれば
よい。
(全自動にするより、前述の抽出されたキーワードをユ
ーザに表示し、新規キーワードがどのキーワードに関連
しているかを指示させてもよいだろう。) ■ 次にシステムは、その新規キーワードは前述の抽出
されたキーワードと関連があると考え、新規キーワード
をそれら抽出されたキーワードの「近傍」に置き、新し
いコネクションを張る(登録完了)。
(d)動的キーワードコネクション法の効果テキスト検
索はキーワードを基に実行されるため、キーワードコネ
クションはテキスト依存性が強いほうがよい。本アルゴ
リズムはキーワードの分類が画一的でなく、登録テキス
トに依存しているため動的に変化する。
ニーfのg覚に近いキーワードコネクションを形成でき
る。また、逆に登録オペレータによる偏りを全く無くす
ことも可能。キーワードの分類を指定する必要がない。
効果 以上説明したように本発明は次のような効果を有する。
(1)キーワードの分類が画一的でない。
文書登録第4レータによる分類の偏シの影響を受けない
(2)ニーデーフレンドリ−なシステム検索を実行して
いくにつれてキーワードコネクションが変化し、キーワ
ード層自体が学習していくので、ユーザの感覚・語常に
あったキーワードを対話的に選択できる。
(3)あいまい検索が可能 ■ファイル確度の閾値 ファイル確度に対して閾値を設けることにより、指定閾
値以上の確度を持った文書ファイルのみを検索できる。
■キーワード確度に対して閾値を設けることにより、指
定閾値以上の確度を持ったキーワードを検索用キーワー
ドに使用することができる。
(4)固定キーワード分類 シソーラス型システムより登録・検索が柔軟かつ容易と
なり、全文検索型システムよシ高速かつ同義語処理等の
あいまい処理が可能となる。
【図面の簡単な説明】
第1図は本発明の文書検索装置の一実施例を示すブロッ
ク図、 第2図は、キーワードコネクションと文書データベース
の概念図、 第3図はキーワードコネクション表の例ヲ示す図、 第4図(a)は文書登録例、同(b)は書誌情報例、同
(c)はキーワード例を示す説明図、第5図は第4図(
a)の文書登録前のコネクション表の例を示す図、 第6図は第4図(a)の文書登録後のコネクション表の
例を示す図、 第7図は第6図に対してキーワード群による加重を行な
った後のコネクション表の例を示す図、 第8図は第6図から求めた間接コネクションとその関連
度の図、 第9図はキーワードコネクションの一例を示す図、 第10図はそのキーワード間のコネクションを示す図、 第11図はキーワードコネクション・ネットワークモデ
ルの例を示す図、 第12図は登録前後のネットワークモデルの変遷を示す
図である。 10・・・・・・・・・キーワード抽出部11・・・・
・・・・・登録文書 12・・・・・・・・・書誌情報 20・・・・・・・・・文書情報管理部21.31.4
1・・・ファイル 30・・・・・・・・・キーワードコネクション表処理
部40・・・・・・・・・インバーテツドファイル作成
部50・・・・・・・・・文書選出部 51・・・・・・・・・ファイル確度計算部52・・・
・・・・・・キーワード間開速度・確度計算部53・・
・・・・・・・ソート部 54・・・・・・・・・要求処理部 55・・・・・・・・・表示管理部 60・・・・・・・・・キーゴード ア0・・・・・・・・・ディスグレー 淳Δ凹

Claims (1)

  1. 【特許請求の範囲】 1、登録文書およびその文書情報がファイルに登録され
    る際、該文書情報よりキーワードを抽出するキーワード
    抽出手段と、 前記登録文書と前記キーワードとの間の関連を示すイン
    バーテッドファイルを作成するインバーテッドファイル
    作成手段と、 前記キーワード間の関連情報を記述したキーワードコネ
    クション表を作成し、既に記録されている関連情報の値
    を変更し、新規関連情報を生成するキーワードコネクシ
    ョン表処理手段と、入力されたキーワードにより前記キ
    ーワードコネクション表および前記インバーテッドファ
    イルから検索条件に合致した文書を選出する文書選出手
    段とを有することを特徴とする文書検索装置。 2、特許請求の範囲第1項記載の文書検索装置において
    、 指定されたキーワード群によって変更された前記キーワ
    ード間の関連情報の値と前記インバーテッドファイルと
    から所定の計算によって求められる、登録文書のファイ
    ルごとの前記キーワード群内の前記関連情報の値の平均
    値をファイル確度と定義し、 該ファイル確度に対して閾値を指定し、該閾値以上のフ
    ァイル確度をもつファイルを検索結果とすることを特徴
    とする文書検索装置。 3、特許請求の範囲第1項記載の文書検索装置において
    、 前記キーワード間の関連情報の値の大きさをキーワード
    間の関連度と定義し、 検索時に指定されたキーワードから派生を許す関連度の
    閾値が指定されたとき、該閾値以上の関連度を持つキー
    ワードについてのみ検索を行なうことを特徴とする文書
    検索装置。4、特許請求の範囲第1項記載の文書検索装
    置において、 任意のキーワードと指定されたキーワード群に含まれる
    それぞれのキーワードとの前記関連度から所定の計算に
    よって求められる、任意のキーワードと指定されたキー
    ワード群との関連の強さを任意のキーワードのキーワー
    ド確度と定義し、 検索者が該キーワード確度順にソートされたキーワード
    一覧表を用いて検索用キーワード群を作成することを特
    徴とする文書検索装置。
JP63185462A 1988-01-20 1988-07-27 文書検索装置 Pending JPH021057A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP63185462A JPH021057A (ja) 1988-01-20 1988-07-27 文書検索装置
US07/296,769 US5168565A (en) 1988-01-20 1989-01-13 Document retrieval system
DE3901485A DE3901485C2 (de) 1988-01-20 1989-01-19 Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP63-8291 1988-01-20
JP829188 1988-01-20
JP63185462A JPH021057A (ja) 1988-01-20 1988-07-27 文書検索装置

Publications (1)

Publication Number Publication Date
JPH021057A true JPH021057A (ja) 1990-01-05

Family

ID=26342783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63185462A Pending JPH021057A (ja) 1988-01-20 1988-07-27 文書検索装置

Country Status (3)

Country Link
US (1) US5168565A (ja)
JP (1) JPH021057A (ja)
DE (1) DE3901485C2 (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03252767A (ja) * 1990-03-02 1991-11-12 Nippon Telegr & Teleph Corp <Ntt> キーワード連想生成装置
JPH04562A (ja) * 1990-04-17 1992-01-06 Ricoh Co Ltd 文書検索装置
JPH0470967A (ja) * 1990-07-05 1992-03-05 Canon Inc 画像検索装置及び画像検索方法
JPH0496177A (ja) * 1990-08-08 1992-03-27 Ricoh Co Ltd 文書検索方法及びそのキーワード関連度表作成装置
JPH0581327A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 情報検索支援処理装置
JPH0589176A (ja) * 1991-09-25 1993-04-09 Dainippon Printing Co Ltd 画像検索装置
JPH05101106A (ja) * 1991-05-16 1993-04-23 Internatl Business Mach Corp <Ibm> 質問回答システム
JPH05108004A (ja) * 1991-10-14 1993-04-30 Matsushita Electric Ind Co Ltd ナビゲーシヨンシステムの地名検索方法
JPH05158991A (ja) * 1991-12-02 1993-06-25 Mitsubishi Electric Corp 情報検索システム
JPH07239861A (ja) * 1994-02-25 1995-09-12 Ricoh Co Ltd 文書検索装置
JPH1097545A (ja) * 1996-09-20 1998-04-14 Sharp Corp 情報処理装置
JPH11213011A (ja) * 1997-12-22 1999-08-06 Ricoh Co Ltd コンピュータで実施する電子的に記憶された文書の注釈方法およびコンピュータプログラム製品およびコンピュータシステム
WO2001067322A1 (fr) * 2000-03-07 2001-09-13 Kuniaki Rokuto Systeme d'emission et de reception d'informations
JP2003316810A (ja) * 2002-04-23 2003-11-07 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
US7096424B2 (en) 1998-09-09 2006-08-22 Ricoh Company, Ltd. Automatic adaptive document printing help system
US7228492B1 (en) 1999-07-06 2007-06-05 Ricoh Company, Ltd. 2D graph displaying document locations of user-specified concept of interest
JP2007188479A (ja) * 2005-12-12 2007-07-26 Ricoh Co Ltd スキャン画像管理装置
JP2010039989A (ja) * 2008-08-08 2010-02-18 Hitachi Systems & Services Ltd コンテンツ管理システム及びコンテンツ管理方法
US7941345B2 (en) 2001-12-20 2011-05-10 Unoweb Inc. Method of presenting contents based on a common relationship

Families Citing this family (106)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03129472A (ja) * 1989-07-31 1991-06-03 Ricoh Co Ltd 文書検索装置における処理方法
JPH0675265B2 (ja) * 1989-09-20 1994-09-21 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 情報検索方法及びシステム
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
US5604899A (en) * 1990-05-21 1997-02-18 Financial Systems Technology Pty. Ltd. Data relationships processor with unlimited expansion capability
US5640552A (en) * 1990-05-29 1997-06-17 Franklin Electronic Publishers, Incorporated Method and apparatus for providing multi-level searching in an electronic book
JP2895184B2 (ja) * 1990-08-22 1999-05-24 株式会社日立製作所 文書処理システム及び文書処理方法
US5586218A (en) * 1991-03-04 1996-12-17 Inference Corporation Autonomous learning and reasoning agent
US5434971A (en) * 1991-06-28 1995-07-18 Digital Equipment Corp. System for constructing a table data structure based on an associated configuration data structure and loading it with chemical sample physical data
US5446575A (en) * 1991-06-28 1995-08-29 Digital Equipment Corp. System for constructing and loading a table data structure based on an associated configuration data
US5557794A (en) * 1991-09-02 1996-09-17 Fuji Xerox Co., Ltd. Data management system for a personal data base
US5375235A (en) * 1991-11-05 1994-12-20 Northern Telecom Limited Method of indexing keywords for searching in a database recorded on an information recording medium
US5483650A (en) * 1991-11-12 1996-01-09 Xerox Corporation Method of constant interaction-time clustering applied to document browsing
US5442778A (en) * 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5404507A (en) * 1992-03-02 1995-04-04 At&T Corp. Apparatus and method for finding records in a database by formulating a query using equivalent terms which correspond to terms in the input query
JPH05324726A (ja) * 1992-05-25 1993-12-07 Fujitsu Ltd 文書データ分類装置及び文書分類機能構築装置
US5423033A (en) * 1992-09-30 1995-06-06 Intuit, Inc. Report generation system and method
US5550976A (en) * 1992-12-08 1996-08-27 Sun Hydraulics Corporation Decentralized distributed asynchronous object oriented system and method for electronic data management, storage, and communication
DE69425607T2 (de) * 1993-05-07 2001-04-19 Canon Kk Selektive Einrichtung und Verfahren zur Dokumentenwiederauffindung.
US5560007A (en) * 1993-06-30 1996-09-24 Borland International, Inc. B-tree key-range bit map index optimization of database queries
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
JPH07319918A (ja) * 1994-05-24 1995-12-08 Fuji Xerox Co Ltd 文書検索対象指示装置
US5745745A (en) * 1994-06-29 1998-04-28 Hitachi, Ltd. Text search method and apparatus for structured documents
JP3030533B2 (ja) * 1994-07-26 2000-04-10 篤 今野 情報分類装置
US5717913A (en) * 1995-01-03 1998-02-10 University Of Central Florida Method for detecting and extracting text data using database schemas
JP3282937B2 (ja) * 1995-01-12 2002-05-20 日本アイ・ビー・エム株式会社 情報検索方法及びシステム
EP0807291B1 (en) * 1995-01-23 2000-01-05 BRITISH TELECOMMUNICATIONS public limited company Methods and/or systems for accessing information
JP3275612B2 (ja) * 1995-02-28 2002-04-15 三菱電機株式会社 ファジィシソーラス生成装置
US5713016A (en) * 1995-09-05 1998-01-27 Electronic Data Systems Corporation Process and system for determining relevance
US5717914A (en) * 1995-09-15 1998-02-10 Infonautics Corporation Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query
DE19538240A1 (de) * 1995-10-13 1998-08-06 Annette Brueckner Informationssystem und Verfahren zur Speicherung von Daten in einem Informationssystem
US5787424A (en) * 1995-11-30 1998-07-28 Electronic Data Systems Corporation Process and system for recursive document retrieval
US5745893A (en) * 1995-11-30 1998-04-28 Electronic Data Systems Corporation Process and system for arrangement of documents
US5787422A (en) * 1996-01-11 1998-07-28 Xerox Corporation Method and apparatus for information accesss employing overlapping clusters
US20050182765A1 (en) * 1996-02-09 2005-08-18 Technology Innovations, Llc Techniques for controlling distribution of information from a secure domain
US5933823A (en) * 1996-03-01 1999-08-03 Ricoh Company Limited Image database browsing and query using texture analysis
US6295543B1 (en) * 1996-04-03 2001-09-25 Siemens Aktiengesellshaft Method of automatically classifying a text appearing in a document when said text has been converted into digital data
US6026397A (en) * 1996-05-22 2000-02-15 Electronic Data Systems Corporation Data analysis system and method
US5813002A (en) * 1996-07-31 1998-09-22 International Business Machines Corporation Method and system for linearly detecting data deviations in a large database
US6119114A (en) * 1996-09-17 2000-09-12 Smadja; Frank Method and apparatus for dynamic relevance ranking
US6173298B1 (en) 1996-09-17 2001-01-09 Asap, Ltd. Method and apparatus for implementing a dynamic collocation dictionary
AU4495597A (en) 1996-09-23 1998-04-14 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
US5924105A (en) * 1997-01-27 1999-07-13 Michigan State University Method and product for determining salient features for use in information searching
US6233575B1 (en) 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US7127420B1 (en) * 1997-08-01 2006-10-24 Financial Systems Technology (Intellectual Property) Pty. Ltd. Data processing system for complex pricing and transactional analysis
US6094651A (en) * 1997-08-22 2000-07-25 International Business Machines Corporation Discovery-driven exploration of OLAP data cubes
US6003029A (en) * 1997-08-22 1999-12-14 International Business Machines Corporation Automatic subspace clustering of high dimensional data for data mining applications
DE69910466T2 (de) * 1998-02-20 2004-06-24 Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto Verfahren zum Verfeinern von Deskriptoren
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
JP3278406B2 (ja) * 1998-12-10 2002-04-30 富士通株式会社 ドキュメント検索仲介装置、ドキュメント検索システム、および、ドキュメント検索仲介プログラムを記録した記録媒体
CN100334582C (zh) * 1999-01-08 2007-08-29 国际商业机器公司 在手持装置中存储和检索数据的方法及装置
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
KR100346262B1 (ko) * 1999-08-27 2002-07-26 엘지전자주식회사 멀티미디어 데이타의 키워드 자가 생성방법
US6397211B1 (en) * 2000-01-03 2002-05-28 International Business Machines Corporation System and method for identifying useless documents
CN1156774C (zh) * 2000-05-22 2004-07-07 庞震伟 计算机多元供需智能适配系统及其相关方法
US6990496B1 (en) 2000-07-26 2006-01-24 Koninklijke Philips Electronics N.V. System and method for automated classification of text by time slicing
US6461166B1 (en) 2000-10-17 2002-10-08 Dennis Ray Berman Learning system with learner-constructed response based testing methodology
US6553380B2 (en) * 2000-12-15 2003-04-22 International Business Machines Corporation Encapsulating form and function in user data in a relational database in order to eliminate database schema changes
JP2002207760A (ja) * 2001-01-10 2002-07-26 Hitachi Ltd 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
KR100451649B1 (ko) * 2001-03-26 2004-10-08 엘지전자 주식회사 이미지 검색방법과 장치
US20020176628A1 (en) 2001-05-22 2002-11-28 Starkweather Gary K. Document imaging and indexing system
US7074128B2 (en) 2001-08-03 2006-07-11 Drb Lit Ltd. Method and system for enhancing memorization by using a mnemonic display
US7287064B1 (en) * 2001-11-20 2007-10-23 Sprint Spectrum L.P. Method and system for determining an internet user's interest level
TW561377B (en) * 2001-12-17 2003-11-11 Webstorage Corp Intelligent document management and usage method
US7007015B1 (en) * 2002-05-01 2006-02-28 Microsoft Corporation Prioritized merging for full-text index on relational store
JP2004326216A (ja) * 2003-04-22 2004-11-18 Ricoh Co Ltd 文書検索装置、方法、プログラム、及び記録媒体
US7357640B2 (en) 2003-07-02 2008-04-15 Drb Lit Ltd. Lock-In Training system
TWM249950U (en) * 2004-01-02 2004-11-11 Cvc Technologies Inc Cap tightening machine capable of controlling tightening torque
US20050240583A1 (en) * 2004-01-21 2005-10-27 Li Peter W Literature pipeline
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US7364432B2 (en) 2004-03-31 2008-04-29 Drb Lit Ltd. Methods of selecting Lock-In Training courses and sessions
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
KR100598115B1 (ko) * 2004-08-31 2006-07-10 삼성전자주식회사 고속 문자인식방법 및 장치
WO2007050646A2 (en) * 2005-10-24 2007-05-03 Capsilon Fsg, Inc. A business method using the automated processing of paper and unstructured electronic documents
US8176004B2 (en) * 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
US7739255B2 (en) * 2006-09-01 2010-06-15 Ma Capital Lllp System for and method of visual representation and review of media files
US20080109409A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp Brokering keywords in radio broadcasts
US20080109845A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp System and method for generating advertisements for use in broadcast media
US20080109305A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp Using internet advertising as a test bed for radio advertisements
US8375073B1 (en) 2007-11-12 2013-02-12 Google Inc. Identification and ranking of news stories of interest
US7996379B1 (en) * 2008-02-01 2011-08-09 Google Inc. Document ranking using word relationships
US8112431B2 (en) * 2008-04-03 2012-02-07 Ebay Inc. Method and system for processing search requests
DE202010018601U1 (de) 2009-02-18 2018-04-30 Google LLC (n.d.Ges.d. Staates Delaware) Automatisches Erfassen von Informationen, wie etwa Erfassen von Informationen unter Verwendung einer dokumentenerkennenden Vorrichtung
DE202010018551U1 (de) 2009-03-12 2017-08-24 Google, Inc. Automatische Bereitstellung von Inhalten, die mit erfassten Informationen, wie etwa in Echtzeit erfassten Informationen, verknüpft sind
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
CN103150388A (zh) * 2013-03-21 2013-06-12 天脉聚源(北京)传媒科技有限公司 一种提取关键词的方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
JPS589982B2 (ja) * 1980-05-30 1983-02-23 工業技術院長 情報検索装置
US4554631A (en) * 1983-07-13 1985-11-19 At&T Bell Laboratories Keyword search automatic limiting method
JPS61220027A (ja) * 1985-03-27 1986-09-30 Hitachi Ltd 文書ファイリングシステム及び情報記憶検索システム
JPS6326726A (ja) * 1986-07-21 1988-02-04 Toshiba Corp 情報処理装置
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
US4805099A (en) * 1987-04-17 1989-02-14 Wang Laboratories, Inc. Retrieval of related records from a relational database
US4823306A (en) * 1987-08-14 1989-04-18 International Business Machines Corporation Text search system
US4849898A (en) * 1988-05-18 1989-07-18 Management Information Technologies, Inc. Method and apparatus to identify the relation of meaning between words in text expressions
US5020019A (en) * 1989-05-29 1991-05-28 Ricoh Company, Ltd. Document retrieval system

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03252767A (ja) * 1990-03-02 1991-11-12 Nippon Telegr & Teleph Corp <Ntt> キーワード連想生成装置
JPH04562A (ja) * 1990-04-17 1992-01-06 Ricoh Co Ltd 文書検索装置
JPH0470967A (ja) * 1990-07-05 1992-03-05 Canon Inc 画像検索装置及び画像検索方法
JPH0496177A (ja) * 1990-08-08 1992-03-27 Ricoh Co Ltd 文書検索方法及びそのキーワード関連度表作成装置
JPH05101106A (ja) * 1991-05-16 1993-04-23 Internatl Business Mach Corp <Ibm> 質問回答システム
JPH0581327A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 情報検索支援処理装置
JPH0589176A (ja) * 1991-09-25 1993-04-09 Dainippon Printing Co Ltd 画像検索装置
JPH05108004A (ja) * 1991-10-14 1993-04-30 Matsushita Electric Ind Co Ltd ナビゲーシヨンシステムの地名検索方法
JPH05158991A (ja) * 1991-12-02 1993-06-25 Mitsubishi Electric Corp 情報検索システム
JPH07239861A (ja) * 1994-02-25 1995-09-12 Ricoh Co Ltd 文書検索装置
JPH1097545A (ja) * 1996-09-20 1998-04-14 Sharp Corp 情報処理装置
JPH11213011A (ja) * 1997-12-22 1999-08-06 Ricoh Co Ltd コンピュータで実施する電子的に記憶された文書の注釈方法およびコンピュータプログラム製品およびコンピュータシステム
US7395501B2 (en) 1997-12-22 2008-07-01 Ricoh Company, Ltd. Techniques for annotating portions of a document relevant to concepts of interest
US7096424B2 (en) 1998-09-09 2006-08-22 Ricoh Company, Ltd. Automatic adaptive document printing help system
US7228492B1 (en) 1999-07-06 2007-06-05 Ricoh Company, Ltd. 2D graph displaying document locations of user-specified concept of interest
WO2001067322A1 (fr) * 2000-03-07 2001-09-13 Kuniaki Rokuto Systeme d'emission et de reception d'informations
US7941345B2 (en) 2001-12-20 2011-05-10 Unoweb Inc. Method of presenting contents based on a common relationship
US8065386B2 (en) 2001-12-20 2011-11-22 Unoweb Inc Method of identifying and including related content in a requested web page
JP2003316810A (ja) * 2002-04-23 2003-11-07 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JP2007188479A (ja) * 2005-12-12 2007-07-26 Ricoh Co Ltd スキャン画像管理装置
JP2010039989A (ja) * 2008-08-08 2010-02-18 Hitachi Systems & Services Ltd コンテンツ管理システム及びコンテンツ管理方法

Also Published As

Publication number Publication date
US5168565A (en) 1992-12-01
DE3901485C2 (de) 1995-05-24
DE3901485A1 (de) 1989-08-03

Similar Documents

Publication Publication Date Title
JPH021057A (ja) 文書検索装置
HO LEE et al. Information retrieval based on conceptual distance in IS‐A hierarchies
Chen et al. Generating, integrating, and activating thesauri for concept-based document retrieval
US8108204B2 (en) Text categorization using external knowledge
WO2010134752A2 (ko) 다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템
Ropero et al. A Fuzzy Logic intelligent agent for Information Extraction: Introducing a new Fuzzy Logic-based term weighting scheme
Lin et al. ACIRD: intelligent Internet document organization and retrieval
CN109460477A (zh) 信息收集分类系统和方法及其检索和集成方法
Caid et al. Context vector-based text retrieval
Khalessizadeh et al. Genetic mining: using genetic algorithm for topic based on concept distribution
Singh et al. A new customized document categorization scheme using rough membership
Abd Allah et al. Contribution to the methods of indexing Arabic textual documents to improve the performance of IRS
JPH09114847A (ja) 情報処理装置
CN115391479A (zh) 用于文档搜索的排序方法、装置、电子介质及存储介质
JPH0241564A (ja) 文書検索装置
Meng et al. A personalized and approximated spatial keyword query approach
JP3428060B2 (ja) データ・ベース検索装置および方法
JPH04127272A (ja) 文書検索装置におけるキーワードコネクション処理方法
JP3526198B2 (ja) データベース類似検索方法及び装置及び類似検索プログラムを格納した記憶媒体
JP3088805B2 (ja) 文書管理装置
Agbele et al. State‐of‐the‐Art Review on Relevance of Genetic Algorithm to Internet Web Search
Noroozi et al. Integration of recursive structure of hopfield and ontologies for query expansion
Aggoune A Fuzzy Querying Using Cooperative Answers and Proximity Measure
Leite et al. A framework for information retrieval based on fuzzy relations and multiple ontologies
Gupta et al. Development of hybrid similarity measure using fuzzy logic for performance improvement of information retrieval system