JPS5844536A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPS5844536A
JPS5844536A JP56011752A JP1175281A JPS5844536A JP S5844536 A JPS5844536 A JP S5844536A JP 56011752 A JP56011752 A JP 56011752A JP 1175281 A JP1175281 A JP 1175281A JP S5844536 A JPS5844536 A JP S5844536A
Authority
JP
Japan
Prior art keywords
document
word
memory
candy
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP56011752A
Other languages
English (en)
Other versions
JPS6330648B2 (ja
Inventor
デ−ビツド・グリツクマン
ジエ−ムズ・テリ−・リパス
ウオルタ−・ステイ−ブン・ロ−ゼンバウム
ジヤネツト・グツドソン・ラツセル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS5844536A publication Critical patent/JPS5844536A/ja
Publication of JPS6330648B2 publication Critical patent/JPS6330648B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3341Query execution using boolean model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は情報記憶及び探索に関連し、さらに具体的には
自動的に文書を抜粋し、記憶し、自由形式の質問を使用
して検索する装置に関する。
文書記憶兼検索システムを具体化する際にこの様なシス
テムの実用性及び利用度は夫々の文簀ヲシステム中に目
録化する際の容易さ及びユーザの要求が関連文書口”針
表示(記述)と連想される際の効率によって支配される
。現在の文書記憶及び検索技法は文書をシステムの目録
もしくは索引で代表させるため、人間に1ってキイワー
ドを迦出し、次いで適切なキイワード用語をメモリから
呼出し、自動的もしくは人手によって予じめ記憶された
キイワードに対する過蟻なレベルでの1散で索引を探し
出す事に基づいていた。キイワードに基づいて文11ヲ
抜粋し検索するための手順が従来開発されてきた。+拳
の1つは要求者に一定の様式で著者、住所、日付は及び
キイワードもしくは文の一端(フレーズ)の如き幽該文
書についての成る詳細事項を供給する◆1*求する。検
索の場合には1.ll約で分類されたリストが上述の見
出しのも々の下に準悔場れる=要求者は探索情報の見出
しの下の記入項目をしらぺる事によって適切な文書を弁
別しなけれはならない。探索の手掛りにはどのLうなゆ
とりも許容されない。探索は人間による吟味もしくはデ
ーー処蓉の大域的発見指令管便用して行なわれる。
第2の手順は完全な逆ファイルとして文書中のすべての
非自−#I¥r虻憶する(即ち冠詞及び代名W4勢を無
視する)。腺禍の文飯/行/飴位置が目録中に保持され
る。検索のためのデータベースの探索はユーザの記憶に
基づいてユーザが供給するキづワードに1って行なわれ
る。目録は原テキスト中にキ1ワードが存在する時のキ
イワード間に存在しなけれにならない関係(jllJち
キイワード1が+719−ド2の前に存在すゐ等)t″
指定得るという追加の能力に1って自動的に探索される
このシステムの例扛IBMデータ処蓉部門の製品でめる
通常8TムIR8と呼はれる記憶兼情報探索システム(
8torag@ and  InformatlomR
@trieval  8yst@m)でめるO文書記憶
及び検索のための概5の方法は文書を阜に機械貌an可
能な形式で記憶し各ニーず供給中イワードのためO大域
的発見−珊を使用してすべての文書を探索するものでる
る。小さなデータベースに対するll−及び実際におい
ては、大域的な発見は文書がCRT鯛装皺上に赤水され
る時にユーザが文蕾を連給的にレビュー丁ゐ事に1って
置換えられ得る。
しかしながら文%記憶及び探率のための上述のすべての
手順においては、抜粋及び探索時の連窓−欽のための主
たる仰的負担はユーザーに置かれる。システムが抜粋も
しくは一散の融に便用される時は、大量の目録作成手脂
という代償を支払って、行なわれ、検索のためにシステ
ムと通信するためにはニーずにとって大量のデータ処理
の負担及び構造化されたフォー!ットが必要とされる、
すべての非自明の通信文は比較的に小さな数のメツセー
ジ%足化IJ目(用語、卑語)によってトビツク的に指
足される事が知られている。これ勢はビジネスのボイラ
板(日常の)−信文を著者が伝えたいと欲しているメツ
セージに変換する鰻である。これ等の用語は主に数字、
−有名−j1アクロニム(m文字の組合せ#I)、名詞
及び単一目的の珍答I11!り成る。質問の目的のため
の文書の任意の急泳のめる記述は文%にその特定の意味
を与えるこれ等の用語の少なく共成るもの11壇なけれ
はならない。軍発狛は文書中のメツセージ%鼠化用fI
t信1111!1を賜って探知し、これ岬の用語【使用
して文書の抜粋(アブストラクト)を形成する技法含金
む。この技法扛米−特許第3995254号中に細かさ
れたデータ記憶技@を使用し、不Ijlj#$b畳にお
いては緻pの検証のための飴の辞書を記憶するものとし
て組込管れているが、他の辞書記憶1ftmが同様に使
用され得る。さらに辞書メモリ中の特定化用@は名詞も
しくは単一の目的の形容詞としてそれ勢の状lIを示す
ためにデータ・ビットが付加されてiる。数字、固有名
詞及びアクロ二ム(m1文字の組合せm>は辞智メモv
中には記憶されない。文書のテキストが辞書メモリの8
答と比較され、辞書中の名詞及び単一目的Vt弔する形
容詞と一散する飴及び辞書メモリ中において発見されな
一飴(固有名詞、数字、アクロニム)が累積され、文書
の抜粋が形成される。抜粋中の%語は次に@索引ファイ
ル中に記憶される。&&諏引ファイル中の記録は飴、し
飴が生じた文書の同足コード、夫々の文書中でl[飴が
発生する1穀、論が数字であるか、固壱名間/アクa二
五、名詞/単一の目的を有する形容詞であるかどうかに
ついての表示子及び飴が見出し、宋旭、本文もしくは文
書のコピー・リストのどれに生ずるかについての表示子
を含む。(単一の目的tVする形容詞とはその主要目的
が例えは惠い、丸い、古い、新らしい、色が赤11青い
等の如き形!!詞的敢分のものである。)文1の検索の
ための入力質問中の飴は@雄側ファイルに対して比較さ
れる。@索引ファイル中の戚るWI!はいくつかの文書
中に生じ初るので、飴索引ファづル中の飴と共に記憶さ
れる情報に基づいて各@に冨み係数が与えられる。検索
の質問中の任意の語管含む各文書に対して成る得点がX
Stされ、最大の得点を1する文書が検査のためにユー
ザに提示される。
141図を参照するに、文書配憶兼検索f装置のブロッ
ク崗が示されているが、仁れは命令會解読及び実行し得
る汎用製のプルセッサ即ちCPU10會含む。プロセッ
サ10はパス13を介して、その動作を制御し、本発明
を定義する命令11むメモリ14と2方向通信している
。プロセッサ10はfiljmK丁べての名詞及び単一
目的の影容例がそO徐に記された品詞辞壷II−富むメ
モリ8とパス7を介して2方向通信する。メモリ8は数
字、アクロ品ムもしくは固有病1glをtまない。プロ
セッサ10は同a!に文書及びキイ#木引ファイルを記
憶させるπめKI!用される主メそり12とパス11を
介して2方向過信する。命令メモリ14及び鮮薔メモリ
8は読*p専用型もしくはランタ゛ム・アクセス型のメ
そりであるが、主メモリ12はランダム・アク竜ス記憶
装置である。
文書から抜粋し記憶するために、入力レジスタ16はパ
ス17t−介してソース(図示されず)からテキスト@
を受取る。ソースはキイボード、磁気テープ読順器、磁
気カード/ディスク/ディスケット・ファづ〃°等を含
む種々の入力装置の任意の4のであp得る。テスト@は
命令メモリ14中に記憶された命令に従って処理される
ためにパス15を介してレジスー16からプロセッサ1
0に提示される。レジスタ16のテキスト内容に遂行さ
れる処l#(抜粋)のに米はパス11會介して主メモリ
12に転送される。
文書検索の場合には、入力レジスタ16はパス17に介
し?ソース(E示されず)質問テキスト・ステートメン
トを受取る。ソースはキづボード、スクリプト表もしく
は特別に栴成された押ボIン撤式のバンドの如き種々の
入方W装置の任意のものであp得る。質問テキスト・ス
テートメントはパス15を介してレジメ/16かもプロ
セッサ10に提示され、曾令メモリ14中に記憶された
命令に従って処理するためにパス15を介してレジスタ
16からプロセッサ10に提示される。命令メモリ14
からの癲令のIIIJ(2)の下にプロセッサ1゜はパ
ス7に1介して辞書メモリ8の内容と通信し、パス11
を介してメそり12と通信し、文壷検索@近性奸価管メ
モリ120円答に対して遂行する・選択された文IIは
メモリ12からパス11&びパス9t−介して出力レジ
スタ18に転出嘔れ、出力レジスタ18からパス19に
介して飲示麺皺、プリンタもしくはボイスコーダ勢t−
含む種々の形式を取pHるyF0用鋏置装送られる。選
択された文書は次いで検査のためにユーザに提示される
本発明の好筐しい実施例は絽11に示され九X畳記憶兼
探索システムに対する文11からの抜粋、記憶及び検案
のための装量ステートメントの親近性比較を制御する命
令もしくはプログラムの組1り成る。第2−を参照する
に文書を抜粋及び配録するためのプログラムの流れ図が
示されている。
オンライン・メモリを有するデータ処理クステムにおい
ては記憶される6記−に一意的な識別子コードもしくは
智号を割当てる◆が曽準のなられしである。このコード
は通常長さが8字であるが、長さが制限されているので
配録の円12!食説明した情報を含壇ない。識別子コー
ドは、瓢−ザが識別子コードと物足の配−を連想させる
事が出来る場合に記録をアクセスするのに有用でるる。
しかしながらこの記―探知技@はデータベースか大きく
なって、数人のユーザか同−記f&をアクセスする様な
場合には非実用的になる。通常記録はそれか存在する@
p同一識別子コードを保持し、配録の修正は同一識別子
コードの下にメモリ内で記録を置換えている。文書を抜
粋し記憶するためのプログラムは識別子コードを抜粋文
書の1部として富ませる&に利用している。文書がシス
テム(第2図)に読込まれる場合には、文wm別子コー
ド細ち番号がブロック20で読取られ、すでにシステム
中に記憶されている飴索引ファイルと比較されて、その
文書に対する抜粋が現在記憶されている革を示して一散
が発見されたかどうかが決定される。後出のlI!1表
は文%會抜粋するためのプログラム・ルーチンを示す。
もし文書番号(w&別子コード)が抜粋ファイル中に存
在する参が発見されると、プログラム・ルーチンは第2
rjiAID流れ園のブロック22として示された第2
k(振出)の抜粋削除サブルーチンに分岐する。
第2妖の抜粋削除サブルーチンは飴索引ファイルから抜
粋中の語の発生を削除する参によってメモリから抜粋を
削除する。@索引ファイルの1IIiLについて扛以下
詳細に脱明される。
現存の抜粋をメモリから削除する拳、即ちその文書番号
を有する飴が飴木引ファイル中に記憶されていない事に
より、文書が抜粋管形成するためにブロック25で処理
される。第111のプログラム・ルーチン番参照するに
、文書中の次の飴がテストされてカーボン・コピー(C
C)リストが続くかどうかが決定される。もしccが続
かなければプルグラム扛この@i文文書抜粋中に含まれ
るべきかどうかを決定するためにIK3表(後出)中の
語の抜粋処理サブルーチンに分岐する。
上述の如く、成る@が抜粋中に含まれるかどうかを決定
するための規準はその@がメツセージ物足化用語である
かどうか、即ち、これが名詞、単一目的形容詞、固有名
詞、アクaxムもしく蝶数字であるかどうかにある。f
IIs表のプログラム・ルーチンはこのI&を辞書メモ
リの内容と比較する。
もしこの!t&が辞書メモリ中に発見されて、これが名
詞もしくは単一目的形容詞でない的は、無視される。辞
書メモリ中の飴が名詞であるか単一目的形容詞であるか
どうかについての決定は辞書メモリ8の作成準備の時に
なされ、名詞もしくは単一目的形容詞として決められた
飴にはビット・コードが付ぜられる。もし飴が名詞もし
くは単−目的形容詞であると決定されると、@通常”の
飴でるる事會示すためにコード・ビットもしくはフラグ
が該時に付加される。もし飴が辞書メモリ8中にないと
、アクロニム奄しくに固有名詞であるとしてその状II
It示すためKlflfK:f−ド・ピッ)4しくけフ
ラグが付される。アクロニム及び固有名詞は名詞及び単
一目的の形容詞より本メツセージ物足化用語としてより
影響力含有すると考えられるので以下明らかな如く文書
探索のためにLり有用である。ss表の語処理ルーチン
はプロセッサ10を制御して飴索引ファイル中に記憶さ
せるため各抜粋の用語の1つのコピーだけを保存する。
しかしながら飴処曹ルーチンは語に対し、その飴が埃わ
れる文書中の行の智号及び文書中にその飴が現われる回
数を付加する。文書探索に対して後述される如く、文書
中の飴の発生頻度及び発生の場所は文書を検索する際の
質問語としての語の価1ilt−決定する。
語処理サブルーチンの完了に伴い、制御IIは#11弐
の抜粋ルーチンに戻り、文書中の%飴に対して諸ルーチ
ンが繰返される。抜粋ルーチンは文書中の頁数に対する
針数を累積する。文書の終りに近づく時、文1の本文の
終りから5行目を決定する計数が力9ン卜され、第4抛
(振出)の抜粋終り処理サブルーチンが選択される。
抜粋終り処理サブルーチンはプI:l*ツサ10t−制
御して第5鉄の語処理サブルーチンに1って保存された
すべての飴、文書中の飴の数の計数及び文書識別子番号
含金む抜粋記録を形成する。抜粋終り処理サブルーチン
は同様に訳語、1通常”飴であるか1アクロニム/向壱
名詞”であるかを示すコード、文書11号、文書中の頁
数、文書中の核時の発生娘度、語が前文(最初の10打
)、末文(最後の5行)、コピー・リストもしくは本文
のいず九に生じたかを示すコードを含む@索引記録管形
成する。醋索引ファイル中の飴は該飴に対する記録が丁
でに@索引7アづル中に挽われたかを見るために探索さ
れる。もし現われておtLば、飴のlIl#l (M*
 )が飴索引ファイル中に視われない様に、記録は文1
iF11号、一度計数及びコード管付加する拳に1って
良新される。第4表の抜粋終り処理サブルーチンの完了
に続き制御kIh抜粋処理を終了させる第一1旅の抜粋
ルーチンに戻される。
システム中に記録された文書を横木するためには、質問
#には該文書のための質問をシステムに′尋人する。仁
の事は例えばキ1ボードを介して行なわれる。本発明の
システムの好ましい実施例で使用される質問は自然WI
@ステートメントもしくはその項目を記述した飴の連糸
でToり得る。探索アーギユメントは質問時を騎案引フ
ァイルに対してテストする事によって創生される。多く
の場合に探索アーギュメント中の1lIiltv′h<
つかの文書中のキイワード記−(抜粋)中に生ずる。競
合する文書間にエフ良い弁別を与えるために異なるキイ
ワードには異なる重みが与えられる。電み付けの規準は
次の如き規則に従って適用される。
1、 数字キイワードに対する一致にアルファベット・
キイワードに対するよりも1り大きな冨みが与えられる
2、固有名詞もしくはアクロニムであるキイワードに対
する一致は辞書メそり中に見出される名詞もしくは単一
目的形容IIIK対する一致よりも大吉な息みが与えら
れる。
五 1つのキイワードに与えられる冨みは文を中で生ず
る腋飴の1数を文1中の頁数の対数で割ったものに比例
する。
4、文書の最初の10行中において生ずるキ1ワードの
一致はテキストの本文の中央におけるキイワードの一致
19もより大きな1°みが与えられる。
翫 テキストの最後の5行中のキイワードで生ずる一致
は、テキストの中央部中のキイワードに対する一致より
も大きな重みが与えられるが、最初の10行中の一致り
りも小さな重みが与えられる。
瓜 キイワードの菖みはこの錯が月もしくは年の名称で
おる時Kj?/大する。
2 キイワード−敏の1みは全ファイル中の文書の本文
中(コピー・リストの部分としての発生は除く)におい
て該キイワードを含む文書の数に反比例する。
これ勢の一般的規則の背後にある原理は最も挾銭の特定
の意味を有するキイワードt−宮む一致に対して最大の
東みを与える事にある。特定の名称、数字及び日付けは
檜めて特殊な怠鰍管有し、従ってこれ郷は大きく重み付
けられるものと仮定される。PJllに最も特定な事柄
(項目)は通信文の始めか終りに述べられているものと
仮定される。従ってこれ咎の領域に発生する飴は同様に
より大きな重みが与えられる。上述の一般的規則を満足
する式の一例は次の如きものである。
文書検索亀= M、    Y。
(1,25)  (1,25) ここで F8、jりJ11目の文書中に税われる1ij41智目
のキイワードの一致 ム、−1誉目のキイワードがアクo=ムもしくは固有名
詞である場合の2亀表示子 に、−1番目のキづワードが最初の10行に庄じた場合
の21L懺示子 Ll−1番目のキイワードが数字である場合の2亀叡示
子 E、”1ilf目のキイワードが最後の5行に住じ九場
合の2m表示子 HI−1査目のキイワードが詳誓メモリ中に名車 詞もしくは単一の目的の形容詞として失するZa表示子 M、=[誉目のキイワードが月でるる場合の2値表示子 Y、”−111目の中イ・ワードが年でるる場合の2値
炊示子 り、−111目のキイワードを含む文書の数1FIs図
を参照するに、文書のための質問を処理する流れ図が示
されている。ブロック50において、ユーザの質問はプ
ロセッサー0(第1−)へバス15t−介して入力レジ
スタ16カ為ら入力される。後出の第5.6及び絶7表
は上述の一蚊的規則に従うユーザの質問を処理するため
のプログラム・ルーチンを示す。
第5表の質問ルーチンは第3ai3の流れ図のブロック
31中に示された如く賀間gts木引ファイルの1谷と
を比較する。@棒引7アづルと一致する質問時は謝6嵌
の質問時処理サブルーチンによって流れ図のブロック3
2で処理される。
谷質問飴はこれが月、年、数字、アクロニム、もしくは
通常の飴(名詞もしくは単一目的形容pl)であるかど
うかKついての決定のためにテストされる。第6表のサ
ブルーチンは同様に4し飴が文書の飯初の10行中、最
後の5?T中もしくは文書中に2−以上先じた事を@雄
側ファイル中の表示子が示すと冨み因子を加える。もし
@が文書の;ビー・リスト中に生じ、1つの文書中に2
1111!1以上生じると、腋飴の価mは減少される。
各論に対する籠の合計が計算され、伺勢かの一致を示す
谷文書%号に対する語索引ファイル中の飴と一叙するす
べての質問時の合計が累積される。飴に対する横木甑及
び文書に対する横木at−tr鼻する捩階は鯖S−のブ
ロック55及び34中に示されている。
質問中のすべての語の処HIK続いて、謝5表の質問ル
ーチンは振出の第7表の月/年の評価サブルーチンに分
岐する。w、7&のサブルーチンは質問中の#−及び7
%しくに月と一致する年及び/もしくは月を含む各文書
に対する検索at増大する。
第7表のサブルーチンはその検*aが計算された蛾高の
検索籠の25饅内にめる文Wt−主メモリ12から出力
レジスタ18に出力する蝋に動作する。
次に制−は@5表の質問ルーチンに戻され、質問処Sが
終了される。
e         ・− 1「・1 Z                   −)−1c
【図面の簡単な説明】 概1図は本発明のシステムの概略図である。8・・・・
辞簀メそり、10・・・・7’aセツサ、12・・・・
主メモリ、15・・・・命令メ七り、16・・・・入力
レジスタ、18・・・・出力レジスタ。絽2図は文11
を抜粋し記憶する−の動作の流れ−でおる。第5−はユ
ーザの質問に応答して文書を検索する際のシステムの動
作の流れ図でああ。 ttj If 人71>を−7−’/1!ナル・ヒ4ス
・マシーンズ・コ→泣と略タン復代理人弁珊士  篠 
  1)  文   雄第1頁の続き 0発 明 者 ジャネット・グツドソン・ラッセル アメリカ合衆国メリーランド州 ベセスダ・ウェストフィールド ・ドライラフ800番地 手  続  補  正  書  (方式)昭和56年1
1月ノを日 特許庁長官 島 1)春 樹膜 1、事件の表示 昭和56年 特許願 第 11752   号2、発明
の名称 文書検索装置 3、補正をする者 出願人 住 所 アメリカ合衆国10504、ニューヨーク州ア
ーモンク(番地な(2) 4、復代理人 住 所 郵便番号 106 東京都港区六本木−丁目4番34号 第21森ビル 昭和56年10月27日 6、補正の対象 明細書の発明の詳細な説明の欄 Z 補正の内容 発明の詳細な説明の欄第21頁乃至第28頁の表1乃至
表7を別紙のとおりに補正する。 第1表 文書抜粋ルーチン (内容省略) 第2表 (内容省略) 第5表 語抜粋処理サブルーチン (内容省略) 第4表 抜粋終り処理サブルーチン (内容省略) 別紙 第  5 表 開始手順(OCH3−質問); 質問を入れよ。 まだテキストの質問性が存在するうちは、次のことを実
行せよ。 質問テキストの次行を取出せ。 その行にまだ文字が存在するうちは、 次のことを実行せよ。 行から次の語を取出せ(2つ以上の文字(A−Z、0−
9又は′); 質問語のため語索引記録を読め。 若しも語が発見されないならば、呼出せ(質問−処理一
語); 若しも・・・・を終了。 のうちは・・・・を終了。 のうちは・・・・を終了。 呼出せ(質問−終了−処理); 終了手順(OCH3−質問); 第6表 開始手順(質問−処理一語): 処理語を入れよ; 若しも、その語が年であるならば、 質問の年のために表示子をセットせよ。 若しも・・・・を終了; 若しも、その語が月であるならば、 質問の月のために表示子をセットせよ。 若しも・・・・を終了; 若しも、その語が数字でるるならば、 重みを10にセットせよ。 さもなければ、 重みを0にセットせよ。 若しも・・・・を終了; この語に含まれている文書の数を計数せよ;その語がC
Cリスト中にない場合は文書の数を計数せよ; 若しも語索引記録がアクロニム(頭字語)又は固有名詞
としてフラグ表示てれているならば、アクロニム又は固
有名詞の重みを10にセットせよ; さもなければ、「通常」の重みを5にセットせよ; 若しも・・・・を終了; 語索引記録中にまだ文書内容があるうちは、次のことを
実行せよ。 語索引記録から次の文書内容を取出せ。 若しも語が前文に生じたことをフラグが示すならば、 前文の重みを10にセットせよ; さもなければ、前文の重みを0にセットせぶ若しも・・
・・を終了; 若しも語が末文から生じたことをフラグが示すならば、 末文の重みを5にセットせよ; さもなければ、末文の重みを0にセットせよ;若しも・
・・・を終了; 若しも語がCCリスト中に生じたことをフラグが示すな
らば、 CC分割重みを99999にセットせよ;ざもなければ
、CC分割重みを1にセットせよ;若しも・・・・を終
了; 検索値を下記のようにセットせよ; (アクロニム又は固有名詞の重み十数字の重み十通常の
重み十前文の重み十末文の重み土詰の回数÷tog 頁
数)÷tog2CCリストに語を含まない文書の数; 検索値をCC分割重みで割算せよ; 若しも、この文書がまだこの質問で分析されていないな
らば、 その文書番号を貯えよ; 検索値を貯えよ; さもなければ、文書検索値を新たな検索値だけ増加せよ
; 若しも・・・・を終了; のうちは・・・・を終了; 終了手順(質問−処理一語); 別紙 第7衣 開始手順(質問−終了−処理); 終了処理を入れよ; 若しも、質問中に年が言及されていたならば、年を含ん
だ各文書の検索値を20%大きくぜよ;若しも(・・・
を終了; 若しも、質問中に月が含まれていたならば、月を含んだ
各文書の検索値を20%大きくせよ;若しも・・・・を
終了; 最高の検索値の251%以内に検索値がある文書の文書
番号を検索せよ: その文書で実際に生じる質問から語数についてこのリス
トを分類せよ; その文書を出力せよ; 終了手順(質問−終了−処理”);

Claims (1)

  1. 【特許請求の範囲】 文書の内容を記述する単語工り成る入力質問に応答して
    メモリから文書を検索するため、−単語、該単語を含む
    文書の識別コード、選択された品詞コード、単語に対す
    る発生頻度計数、各文書の識別コードに対して各文書の
    頁数お工び発生位置を含む単語の記録を記憶するメモリ
    と、 入力質問中の単語と上記メモリ中に記憶された単語を比
    較する装置と、 比較の結果一致する各単語の各文書識別コードに対して
    検索記録を累積する装置と、 選択された品詞コード、発生頻度計数、負数および発生
    位置コードを使用して各検索記録のための文書検索値を
    計算する装置と、 上記メモリから最高の計算さnた文書検索値に対する識
    別コードに対応する文書を出力する装置とより成る文書
    検索装置。
JP56011752A 1979-12-28 1981-01-30 文書検索装置 Granted JPS5844536A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/107,994 US4358824A (en) 1979-12-28 1979-12-28 Office correspondence storage and retrieval system
US107994 1987-10-14

Publications (2)

Publication Number Publication Date
JPS5844536A true JPS5844536A (ja) 1983-03-15
JPS6330648B2 JPS6330648B2 (ja) 1988-06-20

Family

ID=22319639

Family Applications (2)

Application Number Title Priority Date Filing Date
JP55175926A Expired JPS5828616B2 (ja) 1979-12-28 1980-12-15 文書抜粋記憶
JP56011752A Granted JPS5844536A (ja) 1979-12-28 1981-01-30 文書検索装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP55175926A Expired JPS5828616B2 (ja) 1979-12-28 1980-12-15 文書抜粋記憶

Country Status (5)

Country Link
US (1) US4358824A (ja)
EP (1) EP0032194A1 (ja)
JP (2) JPS5828616B2 (ja)
CA (1) CA1241122A (ja)
ES (1) ES8206059A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03294963A (ja) * 1990-04-12 1991-12-26 Ricoh Co Ltd 文書検索装置
JPH06176065A (ja) * 1992-12-02 1994-06-24 Dainippon Printing Co Ltd 学術論文データ検索装置
JPH06176069A (ja) * 1992-12-02 1994-06-24 Dainippon Printing Co Ltd 文字列検索結果表示装置

Families Citing this family (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58201140A (ja) * 1982-05-20 1983-11-22 Toshiba Corp 文書作成装置
US4554631A (en) * 1983-07-13 1985-11-19 At&T Bell Laboratories Keyword search automatic limiting method
US4580218A (en) * 1983-09-08 1986-04-01 At&T Bell Laboratories Indexing subject-locating method
US4633393A (en) * 1983-10-21 1986-12-30 Storage Technology Partners Ii Generic key for indexing and searching user data in a digital information storage and retrieval device
US4611280A (en) * 1984-03-12 1986-09-09 At&T Bell Laboratories Sorting method
JPS61220027A (ja) * 1985-03-27 1986-09-30 Hitachi Ltd 文書ファイリングシステム及び情報記憶検索システム
JPS61243531A (ja) * 1985-04-22 1986-10-29 Nec Corp 情報検索方式
US6182062B1 (en) 1986-03-26 2001-01-30 Hitachi, Ltd. Knowledge based information retrieval system
JPH0823864B2 (ja) * 1986-03-29 1996-03-06 株式会社東芝 見出し判定方法
JPH0776969B2 (ja) * 1986-04-18 1995-08-16 株式会社東芝 文書処理装置
US4870568A (en) * 1986-06-25 1989-09-26 Thinking Machines Corporation Method for searching a database system including parallel processors
US5021997A (en) * 1986-09-29 1991-06-04 At&T Bell Laboratories Test automation system
JPS63120362A (ja) * 1986-11-10 1988-05-24 Brother Ind Ltd スペルチエツク機能付文書処理装置
US4949302A (en) * 1986-11-17 1990-08-14 International Business Machines Corporation Message file formation for computer programs
US5062074A (en) * 1986-12-04 1991-10-29 Tnet, Inc. Information retrieval system and method
US4972349A (en) * 1986-12-04 1990-11-20 Kleinberger Paul J Information retrieval system and method
EP0280866A3 (en) * 1987-03-03 1992-07-08 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
JPS6446831A (en) * 1987-08-17 1989-02-21 Nippon Telegraph & Telephone Automatic key word extracting device
GB8719572D0 (en) * 1987-08-19 1987-09-23 Krebs M S Sigscan text retrieval system
JPH0740275B2 (ja) * 1987-10-26 1995-05-01 日本電信電話株式会社 キーワード重要度自動評価装置
US4908758A (en) * 1987-12-17 1990-03-13 Sanders Michael J Method of operating a computer for rank ordering and weighting category alternatives
JPH021057A (ja) * 1988-01-20 1990-01-05 Ricoh Co Ltd 文書検索装置
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
CA1318404C (en) * 1988-10-11 1993-05-25 Michael J. Hawley Method and apparatus for indexing files in a computer system
CA1318403C (en) * 1988-10-11 1993-05-25 Michael J. Hawley Method and apparatus for extracting keywords from text
US5993048A (en) * 1988-12-08 1999-11-30 Hallmark Cards, Incorporated Personalized greeting card system
US5142678A (en) * 1988-12-21 1992-08-25 International Business Machines Corporation Method for a requesting user to use a marker to associate a document with an end user action
US5303361A (en) * 1989-01-18 1994-04-12 Lotus Development Corporation Search and retrieval system
US5829002A (en) * 1989-02-15 1998-10-27 Priest; W. Curtiss System for coordinating information transfer and retrieval
US5167011A (en) * 1989-02-15 1992-11-24 W. H. Morris Method for coodinating information storage and retrieval
US5109519A (en) * 1989-03-28 1992-04-28 Wang Laboratories, Inc. Local computer participating in mail delivery system abstracts from directory of all eligible mail recipients only served by local computer
JPH0675265B2 (ja) * 1989-09-20 1994-09-21 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 情報検索方法及びシステム
US5276616A (en) * 1989-10-16 1994-01-04 Sharp Kabushiki Kaisha Apparatus for automatically generating index
JPH0418673A (ja) * 1990-05-11 1992-01-22 Hitachi Ltd テキスト情報抽出方法および装置
US5444840A (en) * 1990-06-12 1995-08-22 Froessl; Horst Multiple image font processing
US5109439A (en) * 1990-06-12 1992-04-28 Horst Froessl Mass document storage and retrieval system
US5404295A (en) * 1990-08-16 1995-04-04 Katz; Boris Method and apparatus for utilizing annotations to facilitate computer retrieval of database material
US5309359A (en) * 1990-08-16 1994-05-03 Boris Katz Method and apparatus for generating and utlizing annotations to facilitate computer text retrieval
JP2895184B2 (ja) * 1990-08-22 1999-05-24 株式会社日立製作所 文書処理システム及び文書処理方法
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
US5546316A (en) * 1990-10-22 1996-08-13 Hallmark Cards, Incorporated Computer controlled system for vending personalized products
US5559714A (en) * 1990-10-22 1996-09-24 Hallmark Cards, Incorporated Method and apparatus for display sequencing personalized social occasion products
US5708829A (en) * 1991-02-01 1998-01-13 Wang Laboratories, Inc. Text indexing system
US5557794A (en) * 1991-09-02 1996-09-17 Fuji Xerox Co., Ltd. Data management system for a personal data base
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5375235A (en) * 1991-11-05 1994-12-20 Northern Telecom Limited Method of indexing keywords for searching in a database recorded on an information recording medium
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5438657A (en) * 1992-04-24 1995-08-01 Casio Computer Co., Ltd. Document processing apparatus for extracting a format from one document and using the extracted format to automatically edit another document
JPH0660064A (ja) * 1992-08-05 1994-03-04 Brother Ind Ltd 英文レター用自動編集装置
JP3270783B2 (ja) * 1992-09-29 2002-04-02 ゼロックス・コーポレーション 複数の文書検索方法
JP3132738B2 (ja) * 1992-12-10 2001-02-05 ゼロックス コーポレーション テキスト検索方法
US5860075A (en) * 1993-06-30 1999-01-12 Matsushita Electric Industrial Co., Ltd. Document data filing apparatus for generating visual attribute values of document data to be filed
US6044365A (en) * 1993-09-01 2000-03-28 Onkor, Ltd. System for indexing and retrieving graphic and sound data
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US5517407A (en) * 1994-06-30 1996-05-14 In-Dex Device for including enhancing information with printed information and method for electronic searching thereof
US5726898A (en) * 1994-09-01 1998-03-10 American Greetings Corporation Method and apparatus for storing and selectively retrieving and delivering product data based on embedded expert judgements
JP2729356B2 (ja) * 1994-09-01 1998-03-18 日本アイ・ビー・エム株式会社 情報検索システム及び方法
US5550746A (en) * 1994-12-05 1996-08-27 American Greetings Corporation Method and apparatus for storing and selectively retrieving product data by correlating customer selection criteria with optimum product designs based on embedded expert judgments
US5768142A (en) * 1995-05-31 1998-06-16 American Greetings Corporation Method and apparatus for storing and selectively retrieving product data based on embedded expert suitability ratings
US5875110A (en) * 1995-06-07 1999-02-23 American Greetings Corporation Method and system for vending products
US6336094B1 (en) * 1995-06-30 2002-01-01 Price Waterhouse World Firm Services Bv. Inc. Method for electronically recognizing and parsing information contained in a financial statement
JP3656315B2 (ja) * 1996-04-03 2005-06-08 松下電器産業株式会社 英文要約装置
US5832499A (en) * 1996-07-10 1998-11-03 Survivors Of The Shoah Visual History Foundation Digital library system
US6182029B1 (en) * 1996-10-28 2001-01-30 The Trustees Of Columbia University In The City Of New York System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
DE19645128C2 (de) 1996-11-04 1999-02-11 Anja David Verfahren zum Verwalten von Dokumenten sowie Gerätetreiber zur Durchführung des Verfahrens
US6199073B1 (en) * 1997-04-21 2001-03-06 Ricoh Company, Ltd. Automatic archiving of documents during their transfer between a peripheral device and a processing device
JP3270351B2 (ja) 1997-01-31 2002-04-02 株式会社東芝 電子化文書処理装置
JP3143079B2 (ja) * 1997-05-30 2001-03-07 松下電器産業株式会社 辞書索引作成装置と文書検索装置
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6240407B1 (en) 1998-04-29 2001-05-29 International Business Machines Corp. Method and apparatus for creating an index in a database system
US6353831B1 (en) 1998-11-02 2002-03-05 Survivors Of The Shoah Visual History Foundation Digital library system
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US6584464B1 (en) 1999-03-19 2003-06-24 Ask Jeeves, Inc. Grammar template query system
US6587848B1 (en) * 2000-03-08 2003-07-01 International Business Machines Corporation Methods and apparatus for performing an affinity based similarity search
US6640222B1 (en) * 2000-09-29 2003-10-28 Motorola, Inc. Method for selecting an information unit among conflicting information units based on context fields by a user device
US20020091671A1 (en) * 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
JP2002283301A (ja) * 2001-03-26 2002-10-03 Makita Corp 際切りマルノコ
US7117200B2 (en) * 2002-01-11 2006-10-03 International Business Machines Corporation Synthesizing information-bearing content from multiple channels
US7734627B1 (en) 2003-06-17 2010-06-08 Google Inc. Document similarity detection
US7165067B1 (en) * 2003-07-10 2007-01-16 Sun Microsystems, Inc. Method, system, and program for character set matching
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US20060041484A1 (en) * 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US20060098900A1 (en) * 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7389299B2 (en) * 2004-09-02 2008-06-17 International Business Machines Corporation Document content analysis technology for reducing cognitive load
US20110029504A1 (en) * 2004-12-03 2011-02-03 King Martin T Searching and accessing documents on private networks for use with captures from rendered documents
US20060200464A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
US20070067291A1 (en) * 2005-09-19 2007-03-22 Kolo Brian A System and method for negative entity extraction technique
US20110096174A1 (en) * 2006-02-28 2011-04-28 King Martin T Accessing resources based on capturing information from a rendered document
KR101254362B1 (ko) 2007-05-18 2013-04-12 엔에이치엔(주) 공통 접사를 이용한 키워드 순위를 제공하는 방법 및시스템
WO2008143407A1 (en) * 2007-05-18 2008-11-27 Nhn Corporation Method and system for providing keyword ranking using common affix
US20090228817A1 (en) * 2008-03-10 2009-09-10 Randy Adams Systems and methods for displaying a search result
US20090228442A1 (en) * 2008-03-10 2009-09-10 Searchme, Inc. Systems and methods for building a document index
US20090228811A1 (en) * 2008-03-10 2009-09-10 Randy Adams Systems and methods for processing a plurality of documents
US8745502B2 (en) * 2008-05-28 2014-06-03 Snibbe Interactive, Inc. System and method for interfacing interactive systems with social networks and media playback devices
WO2010096193A2 (en) * 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
US8902451B2 (en) * 2009-02-25 2014-12-02 Xerox Corporation Method and system for automatically generating a copy of a print stream
US8447066B2 (en) * 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
WO2010105246A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Accessing resources based on capturing information from a rendered document
US9043336B2 (en) * 2009-08-07 2015-05-26 Applied Materials, Inc. Methods and systems for global knowledge sharing to provide corrective maintenance
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US9916396B2 (en) * 2012-05-11 2018-03-13 Google Llc Methods and systems for content-based search
US20140215472A1 (en) * 2013-01-29 2014-07-31 Hewlett-Packard Development Company, L.P. Task management
US11610107B2 (en) 2018-07-06 2023-03-21 Global Elmeast Inc. Methodology to automatically incorporate feedback to enable self learning in neural learning artifactories

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3702010A (en) * 1970-10-12 1972-10-31 Bell Telephone Labor Inc Information retrieval strategy
US3947825A (en) * 1973-04-13 1976-03-30 International Business Machines Corporation Abstracting system for index search machine
US3995254A (en) * 1975-07-16 1976-11-30 International Business Machines Corporation Digital reference matrix for word verification
US4099242A (en) * 1976-11-03 1978-07-04 Houston George B One-pass general associative search processor

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03294963A (ja) * 1990-04-12 1991-12-26 Ricoh Co Ltd 文書検索装置
JPH06176065A (ja) * 1992-12-02 1994-06-24 Dainippon Printing Co Ltd 学術論文データ検索装置
JPH06176069A (ja) * 1992-12-02 1994-06-24 Dainippon Printing Co Ltd 文字列検索結果表示装置

Also Published As

Publication number Publication date
ES498162A0 (es) 1982-08-01
US4358824A (en) 1982-11-09
EP0032194A1 (en) 1981-07-22
JPS5850071A (ja) 1983-03-24
ES8206059A1 (es) 1982-08-01
CA1241122A (en) 1988-08-23
JPS6330648B2 (ja) 1988-06-20
JPS5828616B2 (ja) 1983-06-17

Similar Documents

Publication Publication Date Title
JPS5844536A (ja) 文書検索装置
JP3113814B2 (ja) 情報検索方法及び情報検索装置
JP3759242B2 (ja) 特徴確率自動生成方法及びシステム
JP2783558B2 (ja) 要約生成方法および要約生成装置
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US6415283B1 (en) Methods and apparatus for determining focal points of clusters in a tree structure
EP0965089B1 (en) Information retrieval utilizing semantic representation of text
JP2742115B2 (ja) 類似文書検索装置
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
JP2572314B2 (ja) キーワード抽出装置
Madatov et al. Automatic detection of stop words for texts in the Uzbek language
JP3198932B2 (ja) 文書検索装置
JP3428068B2 (ja) 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
Singhal et al. Automatic text browsing using vector space model
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JP2002278982A (ja) 情報抽出方法および情報検索方法
JP2002183194A (ja) 検索式生成装置およびその方法
JPH0228769A (ja) キーワード自動生成装置
JP3848014B2 (ja) 文書検索方法および文書検索装置
KR20000036487A (ko) 정보검색기술을 이용한 한영번역 데이터베이스 시스템
Kim et al. A corpus-based learning method of compound noun indexing rules for Korean
Smeaton et al. Information retrieval in an office filing facility and future work in Project Minstrel
JPH03268064A (ja) データ検索装置及びデータ検索方法
JP2002157273A (ja) 確率を用いた特徴単語の選択方法