JPS5844536A - 文書検索装置 - Google Patents
文書検索装置Info
- Publication number
- JPS5844536A JPS5844536A JP56011752A JP1175281A JPS5844536A JP S5844536 A JPS5844536 A JP S5844536A JP 56011752 A JP56011752 A JP 56011752A JP 1175281 A JP1175281 A JP 1175281A JP S5844536 A JPS5844536 A JP S5844536A
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- memory
- candy
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3341—Query execution using boolean model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は情報記憶及び探索に関連し、さらに具体的には
自動的に文書を抜粋し、記憶し、自由形式の質問を使用
して検索する装置に関する。
自動的に文書を抜粋し、記憶し、自由形式の質問を使用
して検索する装置に関する。
文書記憶兼検索システムを具体化する際にこの様なシス
テムの実用性及び利用度は夫々の文簀ヲシステム中に目
録化する際の容易さ及びユーザの要求が関連文書口”針
表示(記述)と連想される際の効率によって支配される
。現在の文書記憶及び検索技法は文書をシステムの目録
もしくは索引で代表させるため、人間に1ってキイワー
ドを迦出し、次いで適切なキイワード用語をメモリから
呼出し、自動的もしくは人手によって予じめ記憶された
キイワードに対する過蟻なレベルでの1散で索引を探し
出す事に基づいていた。キイワードに基づいて文11ヲ
抜粋し検索するための手順が従来開発されてきた。+拳
の1つは要求者に一定の様式で著者、住所、日付は及び
キイワードもしくは文の一端(フレーズ)の如き幽該文
書についての成る詳細事項を供給する◆1*求する。検
索の場合には1.ll約で分類されたリストが上述の見
出しのも々の下に準悔場れる=要求者は探索情報の見出
しの下の記入項目をしらぺる事によって適切な文書を弁
別しなけれはならない。探索の手掛りにはどのLうなゆ
とりも許容されない。探索は人間による吟味もしくはデ
ーー処蓉の大域的発見指令管便用して行なわれる。
テムの実用性及び利用度は夫々の文簀ヲシステム中に目
録化する際の容易さ及びユーザの要求が関連文書口”針
表示(記述)と連想される際の効率によって支配される
。現在の文書記憶及び検索技法は文書をシステムの目録
もしくは索引で代表させるため、人間に1ってキイワー
ドを迦出し、次いで適切なキイワード用語をメモリから
呼出し、自動的もしくは人手によって予じめ記憶された
キイワードに対する過蟻なレベルでの1散で索引を探し
出す事に基づいていた。キイワードに基づいて文11ヲ
抜粋し検索するための手順が従来開発されてきた。+拳
の1つは要求者に一定の様式で著者、住所、日付は及び
キイワードもしくは文の一端(フレーズ)の如き幽該文
書についての成る詳細事項を供給する◆1*求する。検
索の場合には1.ll約で分類されたリストが上述の見
出しのも々の下に準悔場れる=要求者は探索情報の見出
しの下の記入項目をしらぺる事によって適切な文書を弁
別しなけれはならない。探索の手掛りにはどのLうなゆ
とりも許容されない。探索は人間による吟味もしくはデ
ーー処蓉の大域的発見指令管便用して行なわれる。
第2の手順は完全な逆ファイルとして文書中のすべての
非自−#I¥r虻憶する(即ち冠詞及び代名W4勢を無
視する)。腺禍の文飯/行/飴位置が目録中に保持され
る。検索のためのデータベースの探索はユーザの記憶に
基づいてユーザが供給するキづワードに1って行なわれ
る。目録は原テキスト中にキ1ワードが存在する時のキ
イワード間に存在しなけれにならない関係(jllJち
キイワード1が+719−ド2の前に存在すゐ等)t″
指定得るという追加の能力に1って自動的に探索される
。
非自−#I¥r虻憶する(即ち冠詞及び代名W4勢を無
視する)。腺禍の文飯/行/飴位置が目録中に保持され
る。検索のためのデータベースの探索はユーザの記憶に
基づいてユーザが供給するキづワードに1って行なわれ
る。目録は原テキスト中にキ1ワードが存在する時のキ
イワード間に存在しなけれにならない関係(jllJち
キイワード1が+719−ド2の前に存在すゐ等)t″
指定得るという追加の能力に1って自動的に探索される
。
このシステムの例扛IBMデータ処蓉部門の製品でめる
通常8TムIR8と呼はれる記憶兼情報探索システム(
8torag@ and InformatlomR
@trieval 8yst@m)でめるO文書記憶
及び検索のための概5の方法は文書を阜に機械貌an可
能な形式で記憶し各ニーず供給中イワードのためO大域
的発見−珊を使用してすべての文書を探索するものでる
る。小さなデータベースに対するll−及び実際におい
ては、大域的な発見は文書がCRT鯛装皺上に赤水され
る時にユーザが文蕾を連給的にレビュー丁ゐ事に1って
置換えられ得る。
通常8TムIR8と呼はれる記憶兼情報探索システム(
8torag@ and InformatlomR
@trieval 8yst@m)でめるO文書記憶
及び検索のための概5の方法は文書を阜に機械貌an可
能な形式で記憶し各ニーず供給中イワードのためO大域
的発見−珊を使用してすべての文書を探索するものでる
る。小さなデータベースに対するll−及び実際におい
ては、大域的な発見は文書がCRT鯛装皺上に赤水され
る時にユーザが文蕾を連給的にレビュー丁ゐ事に1って
置換えられ得る。
しかしながら文%記憶及び探率のための上述のすべての
手順においては、抜粋及び探索時の連窓−欽のための主
たる仰的負担はユーザーに置かれる。システムが抜粋も
しくは一散の融に便用される時は、大量の目録作成手脂
という代償を支払って、行なわれ、検索のためにシステ
ムと通信するためにはニーずにとって大量のデータ処理
の負担及び構造化されたフォー!ットが必要とされる、
すべての非自明の通信文は比較的に小さな数のメツセー
ジ%足化IJ目(用語、卑語)によってトビツク的に指
足される事が知られている。これ勢はビジネスのボイラ
板(日常の)−信文を著者が伝えたいと欲しているメツ
セージに変換する鰻である。これ等の用語は主に数字、
−有名−j1アクロニム(m文字の組合せ#I)、名詞
及び単一目的の珍答I11!り成る。質問の目的のため
の文書の任意の急泳のめる記述は文%にその特定の意味
を与えるこれ等の用語の少なく共成るもの11壇なけれ
はならない。軍発狛は文書中のメツセージ%鼠化用fI
t信1111!1を賜って探知し、これ岬の用語【使用
して文書の抜粋(アブストラクト)を形成する技法含金
む。この技法扛米−特許第3995254号中に細かさ
れたデータ記憶技@を使用し、不Ijlj#$b畳にお
いては緻pの検証のための飴の辞書を記憶するものとし
て組込管れているが、他の辞書記憶1ftmが同様に使
用され得る。さらに辞書メモリ中の特定化用@は名詞も
しくは単一の目的の形容詞としてそれ勢の状lIを示す
ためにデータ・ビットが付加されてiる。数字、固有名
詞及びアクロ二ム(m1文字の組合せm>は辞智メモv
中には記憶されない。文書のテキストが辞書メモリの8
答と比較され、辞書中の名詞及び単一目的Vt弔する形
容詞と一散する飴及び辞書メモリ中において発見されな
一飴(固有名詞、数字、アクロニム)が累積され、文書
の抜粋が形成される。抜粋中の%語は次に@索引ファイ
ル中に記憶される。&&諏引ファイル中の記録は飴、し
飴が生じた文書の同足コード、夫々の文書中でl[飴が
発生する1穀、論が数字であるか、固壱名間/アクa二
五、名詞/単一の目的を有する形容詞であるかどうかに
ついての表示子及び飴が見出し、宋旭、本文もしくは文
書のコピー・リストのどれに生ずるかについての表示子
を含む。(単一の目的tVする形容詞とはその主要目的
が例えは惠い、丸い、古い、新らしい、色が赤11青い
等の如き形!!詞的敢分のものである。)文1の検索の
ための入力質問中の飴は@雄側ファイルに対して比較さ
れる。@索引ファイル中の戚るWI!はいくつかの文書
中に生じ初るので、飴索引ファづル中の飴と共に記憶さ
れる情報に基づいて各@に冨み係数が与えられる。検索
の質問中の任意の語管含む各文書に対して成る得点がX
Stされ、最大の得点を1する文書が検査のためにユー
ザに提示される。
手順においては、抜粋及び探索時の連窓−欽のための主
たる仰的負担はユーザーに置かれる。システムが抜粋も
しくは一散の融に便用される時は、大量の目録作成手脂
という代償を支払って、行なわれ、検索のためにシステ
ムと通信するためにはニーずにとって大量のデータ処理
の負担及び構造化されたフォー!ットが必要とされる、
すべての非自明の通信文は比較的に小さな数のメツセー
ジ%足化IJ目(用語、卑語)によってトビツク的に指
足される事が知られている。これ勢はビジネスのボイラ
板(日常の)−信文を著者が伝えたいと欲しているメツ
セージに変換する鰻である。これ等の用語は主に数字、
−有名−j1アクロニム(m文字の組合せ#I)、名詞
及び単一目的の珍答I11!り成る。質問の目的のため
の文書の任意の急泳のめる記述は文%にその特定の意味
を与えるこれ等の用語の少なく共成るもの11壇なけれ
はならない。軍発狛は文書中のメツセージ%鼠化用fI
t信1111!1を賜って探知し、これ岬の用語【使用
して文書の抜粋(アブストラクト)を形成する技法含金
む。この技法扛米−特許第3995254号中に細かさ
れたデータ記憶技@を使用し、不Ijlj#$b畳にお
いては緻pの検証のための飴の辞書を記憶するものとし
て組込管れているが、他の辞書記憶1ftmが同様に使
用され得る。さらに辞書メモリ中の特定化用@は名詞も
しくは単一の目的の形容詞としてそれ勢の状lIを示す
ためにデータ・ビットが付加されてiる。数字、固有名
詞及びアクロ二ム(m1文字の組合せm>は辞智メモv
中には記憶されない。文書のテキストが辞書メモリの8
答と比較され、辞書中の名詞及び単一目的Vt弔する形
容詞と一散する飴及び辞書メモリ中において発見されな
一飴(固有名詞、数字、アクロニム)が累積され、文書
の抜粋が形成される。抜粋中の%語は次に@索引ファイ
ル中に記憶される。&&諏引ファイル中の記録は飴、し
飴が生じた文書の同足コード、夫々の文書中でl[飴が
発生する1穀、論が数字であるか、固壱名間/アクa二
五、名詞/単一の目的を有する形容詞であるかどうかに
ついての表示子及び飴が見出し、宋旭、本文もしくは文
書のコピー・リストのどれに生ずるかについての表示子
を含む。(単一の目的tVする形容詞とはその主要目的
が例えは惠い、丸い、古い、新らしい、色が赤11青い
等の如き形!!詞的敢分のものである。)文1の検索の
ための入力質問中の飴は@雄側ファイルに対して比較さ
れる。@索引ファイル中の戚るWI!はいくつかの文書
中に生じ初るので、飴索引ファづル中の飴と共に記憶さ
れる情報に基づいて各@に冨み係数が与えられる。検索
の質問中の任意の語管含む各文書に対して成る得点がX
Stされ、最大の得点を1する文書が検査のためにユー
ザに提示される。
141図を参照するに、文書配憶兼検索f装置のブロッ
ク崗が示されているが、仁れは命令會解読及び実行し得
る汎用製のプルセッサ即ちCPU10會含む。プロセッ
サ10はパス13を介して、その動作を制御し、本発明
を定義する命令11むメモリ14と2方向通信している
。プロセッサ10はfiljmK丁べての名詞及び単一
目的の影容例がそO徐に記された品詞辞壷II−富むメ
モリ8とパス7を介して2方向通信する。メモリ8は数
字、アクロ品ムもしくは固有病1glをtまない。プロ
セッサ10は同a!に文書及びキイ#木引ファイルを記
憶させるπめKI!用される主メそり12とパス11を
介して2方向過信する。命令メモリ14及び鮮薔メモリ
8は読*p専用型もしくはランタ゛ム・アクセス型のメ
そりであるが、主メモリ12はランダム・アク竜ス記憶
装置である。
ク崗が示されているが、仁れは命令會解読及び実行し得
る汎用製のプルセッサ即ちCPU10會含む。プロセッ
サ10はパス13を介して、その動作を制御し、本発明
を定義する命令11むメモリ14と2方向通信している
。プロセッサ10はfiljmK丁べての名詞及び単一
目的の影容例がそO徐に記された品詞辞壷II−富むメ
モリ8とパス7を介して2方向通信する。メモリ8は数
字、アクロ品ムもしくは固有病1glをtまない。プロ
セッサ10は同a!に文書及びキイ#木引ファイルを記
憶させるπめKI!用される主メそり12とパス11を
介して2方向過信する。命令メモリ14及び鮮薔メモリ
8は読*p専用型もしくはランタ゛ム・アクセス型のメ
そりであるが、主メモリ12はランダム・アク竜ス記憶
装置である。
文書から抜粋し記憶するために、入力レジスタ16はパ
ス17t−介してソース(図示されず)からテキスト@
を受取る。ソースはキイボード、磁気テープ読順器、磁
気カード/ディスク/ディスケット・ファづ〃°等を含
む種々の入力装置の任意の4のであp得る。テスト@は
命令メモリ14中に記憶された命令に従って処理される
ためにパス15を介してレジスー16からプロセッサ1
0に提示される。レジスタ16のテキスト内容に遂行さ
れる処l#(抜粋)のに米はパス11會介して主メモリ
12に転送される。
ス17t−介してソース(図示されず)からテキスト@
を受取る。ソースはキイボード、磁気テープ読順器、磁
気カード/ディスク/ディスケット・ファづ〃°等を含
む種々の入力装置の任意の4のであp得る。テスト@は
命令メモリ14中に記憶された命令に従って処理される
ためにパス15を介してレジスー16からプロセッサ1
0に提示される。レジスタ16のテキスト内容に遂行さ
れる処l#(抜粋)のに米はパス11會介して主メモリ
12に転送される。
文書検索の場合には、入力レジスタ16はパス17に介
し?ソース(E示されず)質問テキスト・ステートメン
トを受取る。ソースはキづボード、スクリプト表もしく
は特別に栴成された押ボIン撤式のバンドの如き種々の
入方W装置の任意のものであp得る。質問テキスト・ス
テートメントはパス15を介してレジメ/16かもプロ
セッサ10に提示され、曾令メモリ14中に記憶された
命令に従って処理するためにパス15を介してレジスタ
16からプロセッサ10に提示される。命令メモリ14
からの癲令のIIIJ(2)の下にプロセッサ1゜はパ
ス7に1介して辞書メモリ8の内容と通信し、パス11
を介してメそり12と通信し、文壷検索@近性奸価管メ
モリ120円答に対して遂行する・選択された文IIは
メモリ12からパス11&びパス9t−介して出力レジ
スタ18に転出嘔れ、出力レジスタ18からパス19に
介して飲示麺皺、プリンタもしくはボイスコーダ勢t−
含む種々の形式を取pHるyF0用鋏置装送られる。選
択された文書は次いで検査のためにユーザに提示される
。
し?ソース(E示されず)質問テキスト・ステートメン
トを受取る。ソースはキづボード、スクリプト表もしく
は特別に栴成された押ボIン撤式のバンドの如き種々の
入方W装置の任意のものであp得る。質問テキスト・ス
テートメントはパス15を介してレジメ/16かもプロ
セッサ10に提示され、曾令メモリ14中に記憶された
命令に従って処理するためにパス15を介してレジスタ
16からプロセッサ10に提示される。命令メモリ14
からの癲令のIIIJ(2)の下にプロセッサ1゜はパ
ス7に1介して辞書メモリ8の内容と通信し、パス11
を介してメそり12と通信し、文壷検索@近性奸価管メ
モリ120円答に対して遂行する・選択された文IIは
メモリ12からパス11&びパス9t−介して出力レジ
スタ18に転出嘔れ、出力レジスタ18からパス19に
介して飲示麺皺、プリンタもしくはボイスコーダ勢t−
含む種々の形式を取pHるyF0用鋏置装送られる。選
択された文書は次いで検査のためにユーザに提示される
。
本発明の好筐しい実施例は絽11に示され九X畳記憶兼
探索システムに対する文11からの抜粋、記憶及び検案
のための装量ステートメントの親近性比較を制御する命
令もしくはプログラムの組1り成る。第2−を参照する
に文書を抜粋及び配録するためのプログラムの流れ図が
示されている。
探索システムに対する文11からの抜粋、記憶及び検案
のための装量ステートメントの親近性比較を制御する命
令もしくはプログラムの組1り成る。第2−を参照する
に文書を抜粋及び配録するためのプログラムの流れ図が
示されている。
オンライン・メモリを有するデータ処理クステムにおい
ては記憶される6記−に一意的な識別子コードもしくは
智号を割当てる◆が曽準のなられしである。このコード
は通常長さが8字であるが、長さが制限されているので
配録の円12!食説明した情報を含壇ない。識別子コー
ドは、瓢−ザが識別子コードと物足の配−を連想させる
事が出来る場合に記録をアクセスするのに有用でるる。
ては記憶される6記−に一意的な識別子コードもしくは
智号を割当てる◆が曽準のなられしである。このコード
は通常長さが8字であるが、長さが制限されているので
配録の円12!食説明した情報を含壇ない。識別子コー
ドは、瓢−ザが識別子コードと物足の配−を連想させる
事が出来る場合に記録をアクセスするのに有用でるる。
しかしながらこの記―探知技@はデータベースか大きく
なって、数人のユーザか同−記f&をアクセスする様な
場合には非実用的になる。通常記録はそれか存在する@
p同一識別子コードを保持し、配録の修正は同一識別子
コードの下にメモリ内で記録を置換えている。文書を抜
粋し記憶するためのプログラムは識別子コードを抜粋文
書の1部として富ませる&に利用している。文書がシス
テム(第2図)に読込まれる場合には、文wm別子コー
ド細ち番号がブロック20で読取られ、すでにシステム
中に記憶されている飴索引ファイルと比較されて、その
文書に対する抜粋が現在記憶されている革を示して一散
が発見されたかどうかが決定される。後出のlI!1表
は文%會抜粋するためのプログラム・ルーチンを示す。
なって、数人のユーザか同−記f&をアクセスする様な
場合には非実用的になる。通常記録はそれか存在する@
p同一識別子コードを保持し、配録の修正は同一識別子
コードの下にメモリ内で記録を置換えている。文書を抜
粋し記憶するためのプログラムは識別子コードを抜粋文
書の1部として富ませる&に利用している。文書がシス
テム(第2図)に読込まれる場合には、文wm別子コー
ド細ち番号がブロック20で読取られ、すでにシステム
中に記憶されている飴索引ファイルと比較されて、その
文書に対する抜粋が現在記憶されている革を示して一散
が発見されたかどうかが決定される。後出のlI!1表
は文%會抜粋するためのプログラム・ルーチンを示す。
もし文書番号(w&別子コード)が抜粋ファイル中に存
在する参が発見されると、プログラム・ルーチンは第2
rjiAID流れ園のブロック22として示された第2
k(振出)の抜粋削除サブルーチンに分岐する。
在する参が発見されると、プログラム・ルーチンは第2
rjiAID流れ園のブロック22として示された第2
k(振出)の抜粋削除サブルーチンに分岐する。
第2妖の抜粋削除サブルーチンは飴索引ファイルから抜
粋中の語の発生を削除する参によってメモリから抜粋を
削除する。@索引ファイルの1IIiLについて扛以下
詳細に脱明される。
粋中の語の発生を削除する参によってメモリから抜粋を
削除する。@索引ファイルの1IIiLについて扛以下
詳細に脱明される。
現存の抜粋をメモリから削除する拳、即ちその文書番号
を有する飴が飴木引ファイル中に記憶されていない事に
より、文書が抜粋管形成するためにブロック25で処理
される。第111のプログラム・ルーチン番参照するに
、文書中の次の飴がテストされてカーボン・コピー(C
C)リストが続くかどうかが決定される。もしccが続
かなければプルグラム扛この@i文文書抜粋中に含まれ
るべきかどうかを決定するためにIK3表(後出)中の
語の抜粋処理サブルーチンに分岐する。
を有する飴が飴木引ファイル中に記憶されていない事に
より、文書が抜粋管形成するためにブロック25で処理
される。第111のプログラム・ルーチン番参照するに
、文書中の次の飴がテストされてカーボン・コピー(C
C)リストが続くかどうかが決定される。もしccが続
かなければプルグラム扛この@i文文書抜粋中に含まれ
るべきかどうかを決定するためにIK3表(後出)中の
語の抜粋処理サブルーチンに分岐する。
上述の如く、成る@が抜粋中に含まれるかどうかを決定
するための規準はその@がメツセージ物足化用語である
かどうか、即ち、これが名詞、単一目的形容詞、固有名
詞、アクaxムもしく蝶数字であるかどうかにある。f
IIs表のプログラム・ルーチンはこのI&を辞書メモ
リの内容と比較する。
するための規準はその@がメツセージ物足化用語である
かどうか、即ち、これが名詞、単一目的形容詞、固有名
詞、アクaxムもしく蝶数字であるかどうかにある。f
IIs表のプログラム・ルーチンはこのI&を辞書メモ
リの内容と比較する。
もしこの!t&が辞書メモリ中に発見されて、これが名
詞もしくは単一目的形容詞でない的は、無視される。辞
書メモリ中の飴が名詞であるか単一目的形容詞であるか
どうかについての決定は辞書メモリ8の作成準備の時に
なされ、名詞もしくは単一目的形容詞として決められた
飴にはビット・コードが付ぜられる。もし飴が名詞もし
くは単−目的形容詞であると決定されると、@通常”の
飴でるる事會示すためにコード・ビットもしくはフラグ
が該時に付加される。もし飴が辞書メモリ8中にないと
、アクロニム奄しくに固有名詞であるとしてその状II
It示すためKlflfK:f−ド・ピッ)4しくけフ
ラグが付される。アクロニム及び固有名詞は名詞及び単
一目的の形容詞より本メツセージ物足化用語としてより
影響力含有すると考えられるので以下明らかな如く文書
探索のためにLり有用である。ss表の語処理ルーチン
はプロセッサ10を制御して飴索引ファイル中に記憶さ
せるため各抜粋の用語の1つのコピーだけを保存する。
詞もしくは単一目的形容詞でない的は、無視される。辞
書メモリ中の飴が名詞であるか単一目的形容詞であるか
どうかについての決定は辞書メモリ8の作成準備の時に
なされ、名詞もしくは単一目的形容詞として決められた
飴にはビット・コードが付ぜられる。もし飴が名詞もし
くは単−目的形容詞であると決定されると、@通常”の
飴でるる事會示すためにコード・ビットもしくはフラグ
が該時に付加される。もし飴が辞書メモリ8中にないと
、アクロニム奄しくに固有名詞であるとしてその状II
It示すためKlflfK:f−ド・ピッ)4しくけフ
ラグが付される。アクロニム及び固有名詞は名詞及び単
一目的の形容詞より本メツセージ物足化用語としてより
影響力含有すると考えられるので以下明らかな如く文書
探索のためにLり有用である。ss表の語処理ルーチン
はプロセッサ10を制御して飴索引ファイル中に記憶さ
せるため各抜粋の用語の1つのコピーだけを保存する。
しかしながら飴処曹ルーチンは語に対し、その飴が埃わ
れる文書中の行の智号及び文書中にその飴が現われる回
数を付加する。文書探索に対して後述される如く、文書
中の飴の発生頻度及び発生の場所は文書を検索する際の
質問語としての語の価1ilt−決定する。
れる文書中の行の智号及び文書中にその飴が現われる回
数を付加する。文書探索に対して後述される如く、文書
中の飴の発生頻度及び発生の場所は文書を検索する際の
質問語としての語の価1ilt−決定する。
語処理サブルーチンの完了に伴い、制御IIは#11弐
の抜粋ルーチンに戻り、文書中の%飴に対して諸ルーチ
ンが繰返される。抜粋ルーチンは文書中の頁数に対する
針数を累積する。文書の終りに近づく時、文1の本文の
終りから5行目を決定する計数が力9ン卜され、第4抛
(振出)の抜粋終り処理サブルーチンが選択される。
の抜粋ルーチンに戻り、文書中の%飴に対して諸ルーチ
ンが繰返される。抜粋ルーチンは文書中の頁数に対する
針数を累積する。文書の終りに近づく時、文1の本文の
終りから5行目を決定する計数が力9ン卜され、第4抛
(振出)の抜粋終り処理サブルーチンが選択される。
抜粋終り処理サブルーチンはプI:l*ツサ10t−制
御して第5鉄の語処理サブルーチンに1って保存された
すべての飴、文書中の飴の数の計数及び文書識別子番号
含金む抜粋記録を形成する。抜粋終り処理サブルーチン
は同様に訳語、1通常”飴であるか1アクロニム/向壱
名詞”であるかを示すコード、文書11号、文書中の頁
数、文書中の核時の発生娘度、語が前文(最初の10打
)、末文(最後の5行)、コピー・リストもしくは本文
のいず九に生じたかを示すコードを含む@索引記録管形
成する。醋索引ファイル中の飴は該飴に対する記録が丁
でに@索引7アづル中に挽われたかを見るために探索さ
れる。もし現われておtLば、飴のlIl#l (M*
)が飴索引ファイル中に視われない様に、記録は文1
iF11号、一度計数及びコード管付加する拳に1って
良新される。第4表の抜粋終り処理サブルーチンの完了
に続き制御kIh抜粋処理を終了させる第一1旅の抜粋
ルーチンに戻される。
御して第5鉄の語処理サブルーチンに1って保存された
すべての飴、文書中の飴の数の計数及び文書識別子番号
含金む抜粋記録を形成する。抜粋終り処理サブルーチン
は同様に訳語、1通常”飴であるか1アクロニム/向壱
名詞”であるかを示すコード、文書11号、文書中の頁
数、文書中の核時の発生娘度、語が前文(最初の10打
)、末文(最後の5行)、コピー・リストもしくは本文
のいず九に生じたかを示すコードを含む@索引記録管形
成する。醋索引ファイル中の飴は該飴に対する記録が丁
でに@索引7アづル中に挽われたかを見るために探索さ
れる。もし現われておtLば、飴のlIl#l (M*
)が飴索引ファイル中に視われない様に、記録は文1
iF11号、一度計数及びコード管付加する拳に1って
良新される。第4表の抜粋終り処理サブルーチンの完了
に続き制御kIh抜粋処理を終了させる第一1旅の抜粋
ルーチンに戻される。
システム中に記録された文書を横木するためには、質問
#には該文書のための質問をシステムに′尋人する。仁
の事は例えばキ1ボードを介して行なわれる。本発明の
システムの好ましい実施例で使用される質問は自然WI
@ステートメントもしくはその項目を記述した飴の連糸
でToり得る。探索アーギユメントは質問時を騎案引フ
ァイルに対してテストする事によって創生される。多く
の場合に探索アーギュメント中の1lIiltv′h<
つかの文書中のキイワード記−(抜粋)中に生ずる。競
合する文書間にエフ良い弁別を与えるために異なるキイ
ワードには異なる重みが与えられる。電み付けの規準は
次の如き規則に従って適用される。
#には該文書のための質問をシステムに′尋人する。仁
の事は例えばキ1ボードを介して行なわれる。本発明の
システムの好ましい実施例で使用される質問は自然WI
@ステートメントもしくはその項目を記述した飴の連糸
でToり得る。探索アーギユメントは質問時を騎案引フ
ァイルに対してテストする事によって創生される。多く
の場合に探索アーギュメント中の1lIiltv′h<
つかの文書中のキイワード記−(抜粋)中に生ずる。競
合する文書間にエフ良い弁別を与えるために異なるキイ
ワードには異なる重みが与えられる。電み付けの規準は
次の如き規則に従って適用される。
1、 数字キイワードに対する一致にアルファベット・
キイワードに対するよりも1り大きな冨みが与えられる
。
キイワードに対するよりも1り大きな冨みが与えられる
。
2、固有名詞もしくはアクロニムであるキイワードに対
する一致は辞書メそり中に見出される名詞もしくは単一
目的形容IIIK対する一致よりも大吉な息みが与えら
れる。
する一致は辞書メそり中に見出される名詞もしくは単一
目的形容IIIK対する一致よりも大吉な息みが与えら
れる。
五 1つのキイワードに与えられる冨みは文を中で生ず
る腋飴の1数を文1中の頁数の対数で割ったものに比例
する。
る腋飴の1数を文1中の頁数の対数で割ったものに比例
する。
4、文書の最初の10行中において生ずるキ1ワードの
一致はテキストの本文の中央におけるキイワードの一致
19もより大きな1°みが与えられる。
一致はテキストの本文の中央におけるキイワードの一致
19もより大きな1°みが与えられる。
翫 テキストの最後の5行中のキイワードで生ずる一致
は、テキストの中央部中のキイワードに対する一致より
も大きな重みが与えられるが、最初の10行中の一致り
りも小さな重みが与えられる。
は、テキストの中央部中のキイワードに対する一致より
も大きな重みが与えられるが、最初の10行中の一致り
りも小さな重みが与えられる。
瓜 キイワードの菖みはこの錯が月もしくは年の名称で
おる時Kj?/大する。
おる時Kj?/大する。
2 キイワード−敏の1みは全ファイル中の文書の本文
中(コピー・リストの部分としての発生は除く)におい
て該キイワードを含む文書の数に反比例する。
中(コピー・リストの部分としての発生は除く)におい
て該キイワードを含む文書の数に反比例する。
これ勢の一般的規則の背後にある原理は最も挾銭の特定
の意味を有するキイワードt−宮む一致に対して最大の
東みを与える事にある。特定の名称、数字及び日付けは
檜めて特殊な怠鰍管有し、従ってこれ郷は大きく重み付
けられるものと仮定される。PJllに最も特定な事柄
(項目)は通信文の始めか終りに述べられているものと
仮定される。従ってこれ咎の領域に発生する飴は同様に
より大きな重みが与えられる。上述の一般的規則を満足
する式の一例は次の如きものである。
の意味を有するキイワードt−宮む一致に対して最大の
東みを与える事にある。特定の名称、数字及び日付けは
檜めて特殊な怠鰍管有し、従ってこれ郷は大きく重み付
けられるものと仮定される。PJllに最も特定な事柄
(項目)は通信文の始めか終りに述べられているものと
仮定される。従ってこれ咎の領域に発生する飴は同様に
より大きな重みが与えられる。上述の一般的規則を満足
する式の一例は次の如きものである。
文書検索亀=
M、 Y。
(1,25) (1,25)
ここで
F8、jりJ11目の文書中に税われる1ij41智目
のキイワードの一致 ム、−1誉目のキイワードがアクo=ムもしくは固有名
詞である場合の2亀表示子 に、−1番目のキづワードが最初の10行に庄じた場合
の21L懺示子 Ll−1番目のキイワードが数字である場合の2亀叡示
子 E、”1ilf目のキイワードが最後の5行に住じ九場
合の2m表示子 HI−1査目のキイワードが詳誓メモリ中に名車 詞もしくは単一の目的の形容詞として失するZa表示子 M、=[誉目のキイワードが月でるる場合の2値表示子 Y、”−111目の中イ・ワードが年でるる場合の2値
炊示子 り、−111目のキイワードを含む文書の数1FIs図
を参照するに、文書のための質問を処理する流れ図が示
されている。ブロック50において、ユーザの質問はプ
ロセッサー0(第1−)へバス15t−介して入力レジ
スタ16カ為ら入力される。後出の第5.6及び絶7表
は上述の一蚊的規則に従うユーザの質問を処理するため
のプログラム・ルーチンを示す。
のキイワードの一致 ム、−1誉目のキイワードがアクo=ムもしくは固有名
詞である場合の2亀表示子 に、−1番目のキづワードが最初の10行に庄じた場合
の21L懺示子 Ll−1番目のキイワードが数字である場合の2亀叡示
子 E、”1ilf目のキイワードが最後の5行に住じ九場
合の2m表示子 HI−1査目のキイワードが詳誓メモリ中に名車 詞もしくは単一の目的の形容詞として失するZa表示子 M、=[誉目のキイワードが月でるる場合の2値表示子 Y、”−111目の中イ・ワードが年でるる場合の2値
炊示子 り、−111目のキイワードを含む文書の数1FIs図
を参照するに、文書のための質問を処理する流れ図が示
されている。ブロック50において、ユーザの質問はプ
ロセッサー0(第1−)へバス15t−介して入力レジ
スタ16カ為ら入力される。後出の第5.6及び絶7表
は上述の一蚊的規則に従うユーザの質問を処理するため
のプログラム・ルーチンを示す。
第5表の質問ルーチンは第3ai3の流れ図のブロック
31中に示された如く賀間gts木引ファイルの1谷と
を比較する。@棒引7アづルと一致する質問時は謝6嵌
の質問時処理サブルーチンによって流れ図のブロック3
2で処理される。
31中に示された如く賀間gts木引ファイルの1谷と
を比較する。@棒引7アづルと一致する質問時は謝6嵌
の質問時処理サブルーチンによって流れ図のブロック3
2で処理される。
谷質問飴はこれが月、年、数字、アクロニム、もしくは
通常の飴(名詞もしくは単一目的形容pl)であるかど
うかKついての決定のためにテストされる。第6表のサ
ブルーチンは同様に4し飴が文書の飯初の10行中、最
後の5?T中もしくは文書中に2−以上先じた事を@雄
側ファイル中の表示子が示すと冨み因子を加える。もし
@が文書の;ビー・リスト中に生じ、1つの文書中に2
1111!1以上生じると、腋飴の価mは減少される。
通常の飴(名詞もしくは単一目的形容pl)であるかど
うかKついての決定のためにテストされる。第6表のサ
ブルーチンは同様に4し飴が文書の飯初の10行中、最
後の5?T中もしくは文書中に2−以上先じた事を@雄
側ファイル中の表示子が示すと冨み因子を加える。もし
@が文書の;ビー・リスト中に生じ、1つの文書中に2
1111!1以上生じると、腋飴の価mは減少される。
各論に対する籠の合計が計算され、伺勢かの一致を示す
谷文書%号に対する語索引ファイル中の飴と一叙するす
べての質問時の合計が累積される。飴に対する横木甑及
び文書に対する横木at−tr鼻する捩階は鯖S−のブ
ロック55及び34中に示されている。
谷文書%号に対する語索引ファイル中の飴と一叙するす
べての質問時の合計が累積される。飴に対する横木甑及
び文書に対する横木at−tr鼻する捩階は鯖S−のブ
ロック55及び34中に示されている。
質問中のすべての語の処HIK続いて、謝5表の質問ル
ーチンは振出の第7表の月/年の評価サブルーチンに分
岐する。w、7&のサブルーチンは質問中の#−及び7
%しくに月と一致する年及び/もしくは月を含む各文書
に対する検索at増大する。
ーチンは振出の第7表の月/年の評価サブルーチンに分
岐する。w、7&のサブルーチンは質問中の#−及び7
%しくに月と一致する年及び/もしくは月を含む各文書
に対する検索at増大する。
第7表のサブルーチンはその検*aが計算された蛾高の
検索籠の25饅内にめる文Wt−主メモリ12から出力
レジスタ18に出力する蝋に動作する。
検索籠の25饅内にめる文Wt−主メモリ12から出力
レジスタ18に出力する蝋に動作する。
次に制−は@5表の質問ルーチンに戻され、質問処Sが
終了される。
終了される。
e ・−
1「・1
Z −)−1c
。
。
【図面の簡単な説明】
概1図は本発明のシステムの概略図である。8・・・・
辞簀メそり、10・・・・7’aセツサ、12・・・・
主メモリ、15・・・・命令メ七り、16・・・・入力
レジスタ、18・・・・出力レジスタ。絽2図は文11
を抜粋し記憶する−の動作の流れ−でおる。第5−はユ
ーザの質問に応答して文書を検索する際のシステムの動
作の流れ図でああ。 ttj If 人71>を−7−’/1!ナル・ヒ4ス
・マシーンズ・コ→泣と略タン復代理人弁珊士 篠
1) 文 雄第1頁の続き 0発 明 者 ジャネット・グツドソン・ラッセル アメリカ合衆国メリーランド州 ベセスダ・ウェストフィールド ・ドライラフ800番地 手 続 補 正 書 (方式)昭和56年1
1月ノを日 特許庁長官 島 1)春 樹膜 1、事件の表示 昭和56年 特許願 第 11752 号2、発明
の名称 文書検索装置 3、補正をする者 出願人 住 所 アメリカ合衆国10504、ニューヨーク州ア
ーモンク(番地な(2) 4、復代理人 住 所 郵便番号 106 東京都港区六本木−丁目4番34号 第21森ビル 昭和56年10月27日 6、補正の対象 明細書の発明の詳細な説明の欄 Z 補正の内容 発明の詳細な説明の欄第21頁乃至第28頁の表1乃至
表7を別紙のとおりに補正する。 第1表 文書抜粋ルーチン (内容省略) 第2表 (内容省略) 第5表 語抜粋処理サブルーチン (内容省略) 第4表 抜粋終り処理サブルーチン (内容省略) 別紙 第 5 表 開始手順(OCH3−質問); 質問を入れよ。 まだテキストの質問性が存在するうちは、次のことを実
行せよ。 質問テキストの次行を取出せ。 その行にまだ文字が存在するうちは、 次のことを実行せよ。 行から次の語を取出せ(2つ以上の文字(A−Z、0−
9又は′); 質問語のため語索引記録を読め。 若しも語が発見されないならば、呼出せ(質問−処理一
語); 若しも・・・・を終了。 のうちは・・・・を終了。 のうちは・・・・を終了。 呼出せ(質問−終了−処理); 終了手順(OCH3−質問); 第6表 開始手順(質問−処理一語): 処理語を入れよ; 若しも、その語が年であるならば、 質問の年のために表示子をセットせよ。 若しも・・・・を終了; 若しも、その語が月であるならば、 質問の月のために表示子をセットせよ。 若しも・・・・を終了; 若しも、その語が数字でるるならば、 重みを10にセットせよ。 さもなければ、 重みを0にセットせよ。 若しも・・・・を終了; この語に含まれている文書の数を計数せよ;その語がC
Cリスト中にない場合は文書の数を計数せよ; 若しも語索引記録がアクロニム(頭字語)又は固有名詞
としてフラグ表示てれているならば、アクロニム又は固
有名詞の重みを10にセットせよ; さもなければ、「通常」の重みを5にセットせよ; 若しも・・・・を終了; 語索引記録中にまだ文書内容があるうちは、次のことを
実行せよ。 語索引記録から次の文書内容を取出せ。 若しも語が前文に生じたことをフラグが示すならば、 前文の重みを10にセットせよ; さもなければ、前文の重みを0にセットせぶ若しも・・
・・を終了; 若しも語が末文から生じたことをフラグが示すならば、 末文の重みを5にセットせよ; さもなければ、末文の重みを0にセットせよ;若しも・
・・・を終了; 若しも語がCCリスト中に生じたことをフラグが示すな
らば、 CC分割重みを99999にセットせよ;ざもなければ
、CC分割重みを1にセットせよ;若しも・・・・を終
了; 検索値を下記のようにセットせよ; (アクロニム又は固有名詞の重み十数字の重み十通常の
重み十前文の重み十末文の重み土詰の回数÷tog 頁
数)÷tog2CCリストに語を含まない文書の数; 検索値をCC分割重みで割算せよ; 若しも、この文書がまだこの質問で分析されていないな
らば、 その文書番号を貯えよ; 検索値を貯えよ; さもなければ、文書検索値を新たな検索値だけ増加せよ
; 若しも・・・・を終了; のうちは・・・・を終了; 終了手順(質問−処理一語); 別紙 第7衣 開始手順(質問−終了−処理); 終了処理を入れよ; 若しも、質問中に年が言及されていたならば、年を含ん
だ各文書の検索値を20%大きくぜよ;若しも(・・・
を終了; 若しも、質問中に月が含まれていたならば、月を含んだ
各文書の検索値を20%大きくせよ;若しも・・・・を
終了; 最高の検索値の251%以内に検索値がある文書の文書
番号を検索せよ: その文書で実際に生じる質問から語数についてこのリス
トを分類せよ; その文書を出力せよ; 終了手順(質問−終了−処理”);
辞簀メそり、10・・・・7’aセツサ、12・・・・
主メモリ、15・・・・命令メ七り、16・・・・入力
レジスタ、18・・・・出力レジスタ。絽2図は文11
を抜粋し記憶する−の動作の流れ−でおる。第5−はユ
ーザの質問に応答して文書を検索する際のシステムの動
作の流れ図でああ。 ttj If 人71>を−7−’/1!ナル・ヒ4ス
・マシーンズ・コ→泣と略タン復代理人弁珊士 篠
1) 文 雄第1頁の続き 0発 明 者 ジャネット・グツドソン・ラッセル アメリカ合衆国メリーランド州 ベセスダ・ウェストフィールド ・ドライラフ800番地 手 続 補 正 書 (方式)昭和56年1
1月ノを日 特許庁長官 島 1)春 樹膜 1、事件の表示 昭和56年 特許願 第 11752 号2、発明
の名称 文書検索装置 3、補正をする者 出願人 住 所 アメリカ合衆国10504、ニューヨーク州ア
ーモンク(番地な(2) 4、復代理人 住 所 郵便番号 106 東京都港区六本木−丁目4番34号 第21森ビル 昭和56年10月27日 6、補正の対象 明細書の発明の詳細な説明の欄 Z 補正の内容 発明の詳細な説明の欄第21頁乃至第28頁の表1乃至
表7を別紙のとおりに補正する。 第1表 文書抜粋ルーチン (内容省略) 第2表 (内容省略) 第5表 語抜粋処理サブルーチン (内容省略) 第4表 抜粋終り処理サブルーチン (内容省略) 別紙 第 5 表 開始手順(OCH3−質問); 質問を入れよ。 まだテキストの質問性が存在するうちは、次のことを実
行せよ。 質問テキストの次行を取出せ。 その行にまだ文字が存在するうちは、 次のことを実行せよ。 行から次の語を取出せ(2つ以上の文字(A−Z、0−
9又は′); 質問語のため語索引記録を読め。 若しも語が発見されないならば、呼出せ(質問−処理一
語); 若しも・・・・を終了。 のうちは・・・・を終了。 のうちは・・・・を終了。 呼出せ(質問−終了−処理); 終了手順(OCH3−質問); 第6表 開始手順(質問−処理一語): 処理語を入れよ; 若しも、その語が年であるならば、 質問の年のために表示子をセットせよ。 若しも・・・・を終了; 若しも、その語が月であるならば、 質問の月のために表示子をセットせよ。 若しも・・・・を終了; 若しも、その語が数字でるるならば、 重みを10にセットせよ。 さもなければ、 重みを0にセットせよ。 若しも・・・・を終了; この語に含まれている文書の数を計数せよ;その語がC
Cリスト中にない場合は文書の数を計数せよ; 若しも語索引記録がアクロニム(頭字語)又は固有名詞
としてフラグ表示てれているならば、アクロニム又は固
有名詞の重みを10にセットせよ; さもなければ、「通常」の重みを5にセットせよ; 若しも・・・・を終了; 語索引記録中にまだ文書内容があるうちは、次のことを
実行せよ。 語索引記録から次の文書内容を取出せ。 若しも語が前文に生じたことをフラグが示すならば、 前文の重みを10にセットせよ; さもなければ、前文の重みを0にセットせぶ若しも・・
・・を終了; 若しも語が末文から生じたことをフラグが示すならば、 末文の重みを5にセットせよ; さもなければ、末文の重みを0にセットせよ;若しも・
・・・を終了; 若しも語がCCリスト中に生じたことをフラグが示すな
らば、 CC分割重みを99999にセットせよ;ざもなければ
、CC分割重みを1にセットせよ;若しも・・・・を終
了; 検索値を下記のようにセットせよ; (アクロニム又は固有名詞の重み十数字の重み十通常の
重み十前文の重み十末文の重み土詰の回数÷tog 頁
数)÷tog2CCリストに語を含まない文書の数; 検索値をCC分割重みで割算せよ; 若しも、この文書がまだこの質問で分析されていないな
らば、 その文書番号を貯えよ; 検索値を貯えよ; さもなければ、文書検索値を新たな検索値だけ増加せよ
; 若しも・・・・を終了; のうちは・・・・を終了; 終了手順(質問−処理一語); 別紙 第7衣 開始手順(質問−終了−処理); 終了処理を入れよ; 若しも、質問中に年が言及されていたならば、年を含ん
だ各文書の検索値を20%大きくぜよ;若しも(・・・
を終了; 若しも、質問中に月が含まれていたならば、月を含んだ
各文書の検索値を20%大きくせよ;若しも・・・・を
終了; 最高の検索値の251%以内に検索値がある文書の文書
番号を検索せよ: その文書で実際に生じる質問から語数についてこのリス
トを分類せよ; その文書を出力せよ; 終了手順(質問−終了−処理”);
Claims (1)
- 【特許請求の範囲】 文書の内容を記述する単語工り成る入力質問に応答して
メモリから文書を検索するため、−単語、該単語を含む
文書の識別コード、選択された品詞コード、単語に対す
る発生頻度計数、各文書の識別コードに対して各文書の
頁数お工び発生位置を含む単語の記録を記憶するメモリ
と、 入力質問中の単語と上記メモリ中に記憶された単語を比
較する装置と、 比較の結果一致する各単語の各文書識別コードに対して
検索記録を累積する装置と、 選択された品詞コード、発生頻度計数、負数および発生
位置コードを使用して各検索記録のための文書検索値を
計算する装置と、 上記メモリから最高の計算さnた文書検索値に対する識
別コードに対応する文書を出力する装置とより成る文書
検索装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/107,994 US4358824A (en) | 1979-12-28 | 1979-12-28 | Office correspondence storage and retrieval system |
US107994 | 1987-10-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5844536A true JPS5844536A (ja) | 1983-03-15 |
JPS6330648B2 JPS6330648B2 (ja) | 1988-06-20 |
Family
ID=22319639
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP55175926A Expired JPS5828616B2 (ja) | 1979-12-28 | 1980-12-15 | 文書抜粋記憶 |
JP56011752A Granted JPS5844536A (ja) | 1979-12-28 | 1981-01-30 | 文書検索装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP55175926A Expired JPS5828616B2 (ja) | 1979-12-28 | 1980-12-15 | 文書抜粋記憶 |
Country Status (5)
Country | Link |
---|---|
US (1) | US4358824A (ja) |
EP (1) | EP0032194A1 (ja) |
JP (2) | JPS5828616B2 (ja) |
CA (1) | CA1241122A (ja) |
ES (1) | ES8206059A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03294963A (ja) * | 1990-04-12 | 1991-12-26 | Ricoh Co Ltd | 文書検索装置 |
JPH06176065A (ja) * | 1992-12-02 | 1994-06-24 | Dainippon Printing Co Ltd | 学術論文データ検索装置 |
JPH06176069A (ja) * | 1992-12-02 | 1994-06-24 | Dainippon Printing Co Ltd | 文字列検索結果表示装置 |
Families Citing this family (127)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58201140A (ja) * | 1982-05-20 | 1983-11-22 | Toshiba Corp | 文書作成装置 |
US4554631A (en) * | 1983-07-13 | 1985-11-19 | At&T Bell Laboratories | Keyword search automatic limiting method |
US4580218A (en) * | 1983-09-08 | 1986-04-01 | At&T Bell Laboratories | Indexing subject-locating method |
US4633393A (en) * | 1983-10-21 | 1986-12-30 | Storage Technology Partners Ii | Generic key for indexing and searching user data in a digital information storage and retrieval device |
US4611280A (en) * | 1984-03-12 | 1986-09-09 | At&T Bell Laboratories | Sorting method |
JPS61220027A (ja) * | 1985-03-27 | 1986-09-30 | Hitachi Ltd | 文書ファイリングシステム及び情報記憶検索システム |
JPS61243531A (ja) * | 1985-04-22 | 1986-10-29 | Nec Corp | 情報検索方式 |
US6182062B1 (en) | 1986-03-26 | 2001-01-30 | Hitachi, Ltd. | Knowledge based information retrieval system |
JPH0823864B2 (ja) * | 1986-03-29 | 1996-03-06 | 株式会社東芝 | 見出し判定方法 |
JPH0776969B2 (ja) * | 1986-04-18 | 1995-08-16 | 株式会社東芝 | 文書処理装置 |
US4870568A (en) * | 1986-06-25 | 1989-09-26 | Thinking Machines Corporation | Method for searching a database system including parallel processors |
US5021997A (en) * | 1986-09-29 | 1991-06-04 | At&T Bell Laboratories | Test automation system |
JPS63120362A (ja) * | 1986-11-10 | 1988-05-24 | Brother Ind Ltd | スペルチエツク機能付文書処理装置 |
US4949302A (en) * | 1986-11-17 | 1990-08-14 | International Business Machines Corporation | Message file formation for computer programs |
US5062074A (en) * | 1986-12-04 | 1991-10-29 | Tnet, Inc. | Information retrieval system and method |
US4972349A (en) * | 1986-12-04 | 1990-11-20 | Kleinberger Paul J | Information retrieval system and method |
EP0280866A3 (en) * | 1987-03-03 | 1992-07-08 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
US4965763A (en) * | 1987-03-03 | 1990-10-23 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
JPS6446831A (en) * | 1987-08-17 | 1989-02-21 | Nippon Telegraph & Telephone | Automatic key word extracting device |
GB8719572D0 (en) * | 1987-08-19 | 1987-09-23 | Krebs M S | Sigscan text retrieval system |
JPH0740275B2 (ja) * | 1987-10-26 | 1995-05-01 | 日本電信電話株式会社 | キーワード重要度自動評価装置 |
US4908758A (en) * | 1987-12-17 | 1990-03-13 | Sanders Michael J | Method of operating a computer for rank ordering and weighting category alternatives |
JPH021057A (ja) * | 1988-01-20 | 1990-01-05 | Ricoh Co Ltd | 文書検索装置 |
JP2783558B2 (ja) * | 1988-09-30 | 1998-08-06 | 株式会社東芝 | 要約生成方法および要約生成装置 |
CA1318404C (en) * | 1988-10-11 | 1993-05-25 | Michael J. Hawley | Method and apparatus for indexing files in a computer system |
CA1318403C (en) * | 1988-10-11 | 1993-05-25 | Michael J. Hawley | Method and apparatus for extracting keywords from text |
US5993048A (en) * | 1988-12-08 | 1999-11-30 | Hallmark Cards, Incorporated | Personalized greeting card system |
US5142678A (en) * | 1988-12-21 | 1992-08-25 | International Business Machines Corporation | Method for a requesting user to use a marker to associate a document with an end user action |
US5303361A (en) * | 1989-01-18 | 1994-04-12 | Lotus Development Corporation | Search and retrieval system |
US5829002A (en) * | 1989-02-15 | 1998-10-27 | Priest; W. Curtiss | System for coordinating information transfer and retrieval |
US5167011A (en) * | 1989-02-15 | 1992-11-24 | W. H. Morris | Method for coodinating information storage and retrieval |
US5109519A (en) * | 1989-03-28 | 1992-04-28 | Wang Laboratories, Inc. | Local computer participating in mail delivery system abstracts from directory of all eligible mail recipients only served by local computer |
JPH0675265B2 (ja) * | 1989-09-20 | 1994-09-21 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 情報検索方法及びシステム |
US5276616A (en) * | 1989-10-16 | 1994-01-04 | Sharp Kabushiki Kaisha | Apparatus for automatically generating index |
JPH0418673A (ja) * | 1990-05-11 | 1992-01-22 | Hitachi Ltd | テキスト情報抽出方法および装置 |
US5444840A (en) * | 1990-06-12 | 1995-08-22 | Froessl; Horst | Multiple image font processing |
US5109439A (en) * | 1990-06-12 | 1992-04-28 | Horst Froessl | Mass document storage and retrieval system |
US5404295A (en) * | 1990-08-16 | 1995-04-04 | Katz; Boris | Method and apparatus for utilizing annotations to facilitate computer retrieval of database material |
US5309359A (en) * | 1990-08-16 | 1994-05-03 | Boris Katz | Method and apparatus for generating and utlizing annotations to facilitate computer text retrieval |
JP2895184B2 (ja) * | 1990-08-22 | 1999-05-24 | 株式会社日立製作所 | 文書処理システム及び文書処理方法 |
US5321833A (en) * | 1990-08-29 | 1994-06-14 | Gte Laboratories Incorporated | Adaptive ranking system for information retrieval |
US5546316A (en) * | 1990-10-22 | 1996-08-13 | Hallmark Cards, Incorporated | Computer controlled system for vending personalized products |
US5559714A (en) * | 1990-10-22 | 1996-09-24 | Hallmark Cards, Incorporated | Method and apparatus for display sequencing personalized social occasion products |
US5708829A (en) * | 1991-02-01 | 1998-01-13 | Wang Laboratories, Inc. | Text indexing system |
US5557794A (en) * | 1991-09-02 | 1996-09-17 | Fuji Xerox Co., Ltd. | Data management system for a personal data base |
US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5375235A (en) * | 1991-11-05 | 1994-12-20 | Northern Telecom Limited | Method of indexing keywords for searching in a database recorded on an information recording medium |
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US5438657A (en) * | 1992-04-24 | 1995-08-01 | Casio Computer Co., Ltd. | Document processing apparatus for extracting a format from one document and using the extracted format to automatically edit another document |
JPH0660064A (ja) * | 1992-08-05 | 1994-03-04 | Brother Ind Ltd | 英文レター用自動編集装置 |
JP3270783B2 (ja) * | 1992-09-29 | 2002-04-02 | ゼロックス・コーポレーション | 複数の文書検索方法 |
JP3132738B2 (ja) * | 1992-12-10 | 2001-02-05 | ゼロックス コーポレーション | テキスト検索方法 |
US5860075A (en) * | 1993-06-30 | 1999-01-12 | Matsushita Electric Industrial Co., Ltd. | Document data filing apparatus for generating visual attribute values of document data to be filed |
US6044365A (en) * | 1993-09-01 | 2000-03-28 | Onkor, Ltd. | System for indexing and retrieving graphic and sound data |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
US5692176A (en) * | 1993-11-22 | 1997-11-25 | Reed Elsevier Inc. | Associative text search and retrieval system |
US5517407A (en) * | 1994-06-30 | 1996-05-14 | In-Dex | Device for including enhancing information with printed information and method for electronic searching thereof |
US5726898A (en) * | 1994-09-01 | 1998-03-10 | American Greetings Corporation | Method and apparatus for storing and selectively retrieving and delivering product data based on embedded expert judgements |
JP2729356B2 (ja) * | 1994-09-01 | 1998-03-18 | 日本アイ・ビー・エム株式会社 | 情報検索システム及び方法 |
US5550746A (en) * | 1994-12-05 | 1996-08-27 | American Greetings Corporation | Method and apparatus for storing and selectively retrieving product data by correlating customer selection criteria with optimum product designs based on embedded expert judgments |
US5768142A (en) * | 1995-05-31 | 1998-06-16 | American Greetings Corporation | Method and apparatus for storing and selectively retrieving product data based on embedded expert suitability ratings |
US5875110A (en) * | 1995-06-07 | 1999-02-23 | American Greetings Corporation | Method and system for vending products |
US6336094B1 (en) * | 1995-06-30 | 2002-01-01 | Price Waterhouse World Firm Services Bv. Inc. | Method for electronically recognizing and parsing information contained in a financial statement |
JP3656315B2 (ja) * | 1996-04-03 | 2005-06-08 | 松下電器産業株式会社 | 英文要約装置 |
US5832499A (en) * | 1996-07-10 | 1998-11-03 | Survivors Of The Shoah Visual History Foundation | Digital library system |
US6182029B1 (en) * | 1996-10-28 | 2001-01-30 | The Trustees Of Columbia University In The City Of New York | System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters |
DE19645128C2 (de) | 1996-11-04 | 1999-02-11 | Anja David | Verfahren zum Verwalten von Dokumenten sowie Gerätetreiber zur Durchführung des Verfahrens |
US6199073B1 (en) * | 1997-04-21 | 2001-03-06 | Ricoh Company, Ltd. | Automatic archiving of documents during their transfer between a peripheral device and a processing device |
JP3270351B2 (ja) | 1997-01-31 | 2002-04-02 | 株式会社東芝 | 電子化文書処理装置 |
JP3143079B2 (ja) * | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
GB9806085D0 (en) * | 1998-03-23 | 1998-05-20 | Xerox Corp | Text summarisation using light syntactic parsing |
US6240407B1 (en) | 1998-04-29 | 2001-05-29 | International Business Machines Corp. | Method and apparatus for creating an index in a database system |
US6353831B1 (en) | 1998-11-02 | 2002-03-05 | Survivors Of The Shoah Visual History Foundation | Digital library system |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US6584464B1 (en) | 1999-03-19 | 2003-06-24 | Ask Jeeves, Inc. | Grammar template query system |
US6587848B1 (en) * | 2000-03-08 | 2003-07-01 | International Business Machines Corporation | Methods and apparatus for performing an affinity based similarity search |
US6640222B1 (en) * | 2000-09-29 | 2003-10-28 | Motorola, Inc. | Method for selecting an information unit among conflicting information units based on context fields by a user device |
US20020091671A1 (en) * | 2000-11-23 | 2002-07-11 | Andreas Prokoph | Method and system for data retrieval in large collections of data |
JP2002283301A (ja) * | 2001-03-26 | 2002-10-03 | Makita Corp | 際切りマルノコ |
US7117200B2 (en) * | 2002-01-11 | 2006-10-03 | International Business Machines Corporation | Synthesizing information-bearing content from multiple channels |
US7734627B1 (en) | 2003-06-17 | 2010-06-08 | Google Inc. | Document similarity detection |
US7165067B1 (en) * | 2003-07-10 | 2007-01-16 | Sun Microsystems, Inc. | Method, system, and program for character set matching |
US7707039B2 (en) * | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US8799303B2 (en) | 2004-02-15 | 2014-08-05 | Google Inc. | Establishing an interactive environment for rendered documents |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US20060041484A1 (en) * | 2004-04-01 | 2006-02-23 | King Martin T | Methods and systems for initiating application processes by data capture from rendered documents |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US8793162B2 (en) | 2004-04-01 | 2014-07-29 | Google Inc. | Adding information or functionality to a rendered document via association with an electronic counterpart |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US20060098900A1 (en) * | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
WO2008028674A2 (en) | 2006-09-08 | 2008-03-13 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US20080313172A1 (en) | 2004-12-03 | 2008-12-18 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US20070300142A1 (en) | 2005-04-01 | 2007-12-27 | King Martin T | Contextual dynamic advertising based upon captured rendered text |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US8621349B2 (en) | 2004-04-01 | 2013-12-31 | Google Inc. | Publishing techniques for adding value to a rendered document |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US9460346B2 (en) | 2004-04-19 | 2016-10-04 | Google Inc. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US7389299B2 (en) * | 2004-09-02 | 2008-06-17 | International Business Machines Corporation | Document content analysis technology for reducing cognitive load |
US20110029504A1 (en) * | 2004-12-03 | 2011-02-03 | King Martin T | Searching and accessing documents on private networks for use with captures from rendered documents |
US20060200464A1 (en) * | 2005-03-03 | 2006-09-07 | Microsoft Corporation | Method and system for generating a document summary |
US20070067291A1 (en) * | 2005-09-19 | 2007-03-22 | Kolo Brian A | System and method for negative entity extraction technique |
US20110096174A1 (en) * | 2006-02-28 | 2011-04-28 | King Martin T | Accessing resources based on capturing information from a rendered document |
KR101254362B1 (ko) | 2007-05-18 | 2013-04-12 | 엔에이치엔(주) | 공통 접사를 이용한 키워드 순위를 제공하는 방법 및시스템 |
WO2008143407A1 (en) * | 2007-05-18 | 2008-11-27 | Nhn Corporation | Method and system for providing keyword ranking using common affix |
US20090228817A1 (en) * | 2008-03-10 | 2009-09-10 | Randy Adams | Systems and methods for displaying a search result |
US20090228442A1 (en) * | 2008-03-10 | 2009-09-10 | Searchme, Inc. | Systems and methods for building a document index |
US20090228811A1 (en) * | 2008-03-10 | 2009-09-10 | Randy Adams | Systems and methods for processing a plurality of documents |
US8745502B2 (en) * | 2008-05-28 | 2014-06-03 | Snibbe Interactive, Inc. | System and method for interfacing interactive systems with social networks and media playback devices |
WO2010096193A2 (en) * | 2009-02-18 | 2010-08-26 | Exbiblio B.V. | Identifying a document by performing spectral analysis on the contents of the document |
US8902451B2 (en) * | 2009-02-25 | 2014-12-02 | Xerox Corporation | Method and system for automatically generating a copy of a print stream |
US8447066B2 (en) * | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
WO2010105246A2 (en) | 2009-03-12 | 2010-09-16 | Exbiblio B.V. | Accessing resources based on capturing information from a rendered document |
US9043336B2 (en) * | 2009-08-07 | 2015-05-26 | Applied Materials, Inc. | Methods and systems for global knowledge sharing to provide corrective maintenance |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US9916396B2 (en) * | 2012-05-11 | 2018-03-13 | Google Llc | Methods and systems for content-based search |
US20140215472A1 (en) * | 2013-01-29 | 2014-07-31 | Hewlett-Packard Development Company, L.P. | Task management |
US11610107B2 (en) | 2018-07-06 | 2023-03-21 | Global Elmeast Inc. | Methodology to automatically incorporate feedback to enable self learning in neural learning artifactories |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3702010A (en) * | 1970-10-12 | 1972-10-31 | Bell Telephone Labor Inc | Information retrieval strategy |
US3947825A (en) * | 1973-04-13 | 1976-03-30 | International Business Machines Corporation | Abstracting system for index search machine |
US3995254A (en) * | 1975-07-16 | 1976-11-30 | International Business Machines Corporation | Digital reference matrix for word verification |
US4099242A (en) * | 1976-11-03 | 1978-07-04 | Houston George B | One-pass general associative search processor |
-
1979
- 1979-12-28 US US06/107,994 patent/US4358824A/en not_active Expired - Lifetime
-
1980
- 1980-10-27 CA CA000363345A patent/CA1241122A/en not_active Expired
- 1980-12-04 EP EP80107625A patent/EP0032194A1/en not_active Ceased
- 1980-12-15 JP JP55175926A patent/JPS5828616B2/ja not_active Expired
- 1980-12-26 ES ES498162A patent/ES8206059A1/es not_active Expired
-
1981
- 1981-01-30 JP JP56011752A patent/JPS5844536A/ja active Granted
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03294963A (ja) * | 1990-04-12 | 1991-12-26 | Ricoh Co Ltd | 文書検索装置 |
JPH06176065A (ja) * | 1992-12-02 | 1994-06-24 | Dainippon Printing Co Ltd | 学術論文データ検索装置 |
JPH06176069A (ja) * | 1992-12-02 | 1994-06-24 | Dainippon Printing Co Ltd | 文字列検索結果表示装置 |
Also Published As
Publication number | Publication date |
---|---|
ES498162A0 (es) | 1982-08-01 |
US4358824A (en) | 1982-11-09 |
EP0032194A1 (en) | 1981-07-22 |
JPS5850071A (ja) | 1983-03-24 |
ES8206059A1 (es) | 1982-08-01 |
CA1241122A (en) | 1988-08-23 |
JPS6330648B2 (ja) | 1988-06-20 |
JPS5828616B2 (ja) | 1983-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS5844536A (ja) | 文書検索装置 | |
JP3113814B2 (ja) | 情報検索方法及び情報検索装置 | |
JP3759242B2 (ja) | 特徴確率自動生成方法及びシステム | |
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
US5099426A (en) | Method for use of morphological information to cross reference keywords used for information retrieval | |
US4775956A (en) | Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes | |
US6415283B1 (en) | Methods and apparatus for determining focal points of clusters in a tree structure | |
EP0965089B1 (en) | Information retrieval utilizing semantic representation of text | |
JP2742115B2 (ja) | 類似文書検索装置 | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
JP2572314B2 (ja) | キーワード抽出装置 | |
Madatov et al. | Automatic detection of stop words for texts in the Uzbek language | |
JP3198932B2 (ja) | 文書検索装置 | |
JP3428068B2 (ja) | 文書処理装置および方法,ならびにデータ・ベース検索装置および方法 | |
Singhal et al. | Automatic text browsing using vector space model | |
JP2894301B2 (ja) | 文脈情報を用いた文書検索方法および装置 | |
JP2002278982A (ja) | 情報抽出方法および情報検索方法 | |
JP2002183194A (ja) | 検索式生成装置およびその方法 | |
JPH0228769A (ja) | キーワード自動生成装置 | |
JP3848014B2 (ja) | 文書検索方法および文書検索装置 | |
KR20000036487A (ko) | 정보검색기술을 이용한 한영번역 데이터베이스 시스템 | |
Kim et al. | A corpus-based learning method of compound noun indexing rules for Korean | |
Smeaton et al. | Information retrieval in an office filing facility and future work in Project Minstrel | |
JPH03268064A (ja) | データ検索装置及びデータ検索方法 | |
JP2002157273A (ja) | 確率を用いた特徴単語の選択方法 |