JPS5850071A - 文書抜粋記憶 - Google Patents
文書抜粋記憶Info
- Publication number
- JPS5850071A JPS5850071A JP55175926A JP17592680A JPS5850071A JP S5850071 A JPS5850071 A JP S5850071A JP 55175926 A JP55175926 A JP 55175926A JP 17592680 A JP17592680 A JP 17592680A JP S5850071 A JPS5850071 A JP S5850071A
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- words
- memory
- excerpt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3341—Query execution using boolean model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は情報記憶及び探索に関連し、さらに具体的には
自動的に文Vt抜粋し、記憶し、自由形式の質問を使用
して検索する装置に関する。
自動的に文Vt抜粋し、記憶し、自由形式の質問を使用
して検索する装置に関する。
文書記憶兼検索システムを具体化する除にこの様なシス
テムの実用性及び利用夏は夫々の文1tt−システム中
に目録化する際の容易さ及びユーザの要求が関連文書目
録表示(記述)と連想される際の効率によって支配され
る。現在の文書記憶及び検索技法は文書をシステムの目
録もしくは索引で代表させるため、人間によってキイワ
ード間選出し、次いで適切なキイワード用語をメモリか
ら呼出し、自動的もしくは人手によって予じめ記憶され
たキイワードに対する適当なレベルでの一致で索引を探
し出す事に基づいていた。キイワードに基づいて文tI
:t−抜粋し検索するための手順が従来開発されてきた
。手順の1つは要求者に一定の様式で著者、住所、日付
は及びキイワードもしくは文ノ一端(フレーズ)の如き
当該文書についての成る詳細事項を供給する事を要求す
る。検索の場合に//1.要約で分類され7tj+スト
が上述の見出しの各々の下に準備される。要求者は探索
情報の見出しの下の記入項目をしらべる事によって適切
な文書を弁別しなければならない。探索の手掛ジにはど
のようなゆとりも許容されない。探索は人間による吟味
もしくはデータ処理の大域的発見指令を使用して行なわ
れる。
テムの実用性及び利用夏は夫々の文1tt−システム中
に目録化する際の容易さ及びユーザの要求が関連文書目
録表示(記述)と連想される際の効率によって支配され
る。現在の文書記憶及び検索技法は文書をシステムの目
録もしくは索引で代表させるため、人間によってキイワ
ード間選出し、次いで適切なキイワード用語をメモリか
ら呼出し、自動的もしくは人手によって予じめ記憶され
たキイワードに対する適当なレベルでの一致で索引を探
し出す事に基づいていた。キイワードに基づいて文tI
:t−抜粋し検索するための手順が従来開発されてきた
。手順の1つは要求者に一定の様式で著者、住所、日付
は及びキイワードもしくは文ノ一端(フレーズ)の如き
当該文書についての成る詳細事項を供給する事を要求す
る。検索の場合に//1.要約で分類され7tj+スト
が上述の見出しの各々の下に準備される。要求者は探索
情報の見出しの下の記入項目をしらべる事によって適切
な文書を弁別しなければならない。探索の手掛ジにはど
のようなゆとりも許容されない。探索は人間による吟味
もしくはデータ処理の大域的発見指令を使用して行なわ
れる。
第2の手順は児全な逆ファイルとして文書中のすべての
非自明語を記憶する(即ち冠詞及び代名詞等を無視する
)。原稿の文1/行/語位置が目録中に保持される。検
索のためのデータベースの探索はユーザの記憶に基づい
てユーザが供給するキイワードによって行なわれる。目
録は原テキスト中にキイワードが存在する時のキイワー
ド間に存在しなければならない関係(即ちキイワード1
がキイワード2の前に存在する等)を指定し得るという
追加の能力によって自動的に探索される。
非自明語を記憶する(即ち冠詞及び代名詞等を無視する
)。原稿の文1/行/語位置が目録中に保持される。検
索のためのデータベースの探索はユーザの記憶に基づい
てユーザが供給するキイワードによって行なわれる。目
録は原テキスト中にキイワードが存在する時のキイワー
ド間に存在しなければならない関係(即ちキイワード1
がキイワード2の前に存在する等)を指定し得るという
追加の能力によって自動的に探索される。
この7ステムの例はZBMデータ処理部門の製品である
通常5TAIR8と呼ばれる記憶兼情報探索システム(
Storage and Information
Retrieval System)である。
通常5TAIR8と呼ばれる記憶兼情報探索システム(
Storage and Information
Retrieval System)である。
文書記憶及び検索のための第3の方法は文書を単に機械
読取シ可能な形式で記憶し各ユーザ供給キイワードのた
めの大域的発見論理を使用してすべての文書を探索する
ものである。小さなデータ・□パ1 ベースに対する理論及び実際においては、大域的な発見
は文書がCRT型装置上に表示される時にユーザが文W
Th逐語的にレビューする事によって置換えられ得る。
読取シ可能な形式で記憶し各ユーザ供給キイワードのた
めの大域的発見論理を使用してすべての文書を探索する
ものである。小さなデータ・□パ1 ベースに対する理論及び実際においては、大域的な発見
は文書がCRT型装置上に表示される時にユーザが文W
Th逐語的にレビューする事によって置換えられ得る。
しかしながら文書記憶及び探索のための上述のすべての
手順においては、抜粋及び探索時の連想一致のための主
たる知的負担はユーザ側に置かれる。システムが抜粋も
しくは一致の際に使用される時は、大量の目録作成手順
という代償を支払って、行なわれ、検索のためにシステ
ムと通信するためにはユーザにとって大量のデータ処理
の負担及び構造化されたフォーマットが必要とされる。
手順においては、抜粋及び探索時の連想一致のための主
たる知的負担はユーザ側に置かれる。システムが抜粋も
しくは一致の際に使用される時は、大量の目録作成手順
という代償を支払って、行なわれ、検索のためにシステ
ムと通信するためにはユーザにとって大量のデータ処理
の負担及び構造化されたフォーマットが必要とされる。
すべての非自明の通信文は比較的に小さな数のメツセー
ジ特定化項目(用語、単語)によってトビツク的に指定
される事が知られている。これ等はビジネスのボイラ板
(日常の)通信文を著者が伝えたいと欲しているメツセ
ージに変換する語である。これ等の用語は主に数字、固
有名詞、アクロニム(頭文字の組合せ語)、名詞及び単
一目的の形容詞よシ成る。質問の目的のための文書の任
意の意味のめる記述は文書にその特定の意味を与えるこ
れ等の用語の少なく共成るものを含まなければならない
。本発明は文書中のメツセージ特定化用語を信頼性をも
って探知し、これ等の用語を使用して文書の抜粋(アブ
ストラクト)全形成する技法を含む。この技法は米国特
許第3995254号中に開示されたデータ記憶技法を
使用し、本明細書においては綴シの検証のための語の辞
書を記憶するものとして組込まれているが、他の辞書記
憶技法が同様に使用され得る。さらに辞書メモリ中の特
定化用語は名詞もしくは単一の目的の形容詞としてそれ
等の状態を示すためにデータ・ビットが付加されている
。数字、・固有名詞及びアクロニム(頭文字の組合せ語
)は辞書メモリ中には記憶されない。文書のテキストが
辞書メモリの内容と比較され、辞書中の名詞及び単一目
的を有する形容詞と一致する語及び辞書メモリ中におい
て発見されない語(固有名詞、数字、アクロニム)が累
積され、文書の抜粋が形成される。抜粋中の6語は次に
語索引ファイル中に記憶される。語累引ファイル中の記
録は語、該語が生じた文書の同定コード、夫々の文書中
で該語が発生する回数、語が数字であるか、固有名詞/
アクロニム、名詞/単一の目的を有する形容詞であるか
どうかについての表示子及び語が見出し、末尾、本文も
しくは文書のコピー・リストのどれに生ずるかについて
の表示子を含む。(単一の目的を有する形容詞とはその
主要目的が例えば重い、丸い、古い、新らしい、色が赤
い、青い等の如き形容詞的成分のものである。)文1の
検索のための入力質問中の語は語索引ファイルに対して
比較される。語索引ファイル中の成る語はいくつかの文
書中に生じ得るので、語索引ファイル中の語と共に記憶
される情報に基づいて6語に重み係数が与えられる。検
索の質問中の任意の語を含む各文書に対して成る得点が
累積され、最大の得点を有する文書が検査のためにユー
ザに提示される。
ジ特定化項目(用語、単語)によってトビツク的に指定
される事が知られている。これ等はビジネスのボイラ板
(日常の)通信文を著者が伝えたいと欲しているメツセ
ージに変換する語である。これ等の用語は主に数字、固
有名詞、アクロニム(頭文字の組合せ語)、名詞及び単
一目的の形容詞よシ成る。質問の目的のための文書の任
意の意味のめる記述は文書にその特定の意味を与えるこ
れ等の用語の少なく共成るものを含まなければならない
。本発明は文書中のメツセージ特定化用語を信頼性をも
って探知し、これ等の用語を使用して文書の抜粋(アブ
ストラクト)全形成する技法を含む。この技法は米国特
許第3995254号中に開示されたデータ記憶技法を
使用し、本明細書においては綴シの検証のための語の辞
書を記憶するものとして組込まれているが、他の辞書記
憶技法が同様に使用され得る。さらに辞書メモリ中の特
定化用語は名詞もしくは単一の目的の形容詞としてそれ
等の状態を示すためにデータ・ビットが付加されている
。数字、・固有名詞及びアクロニム(頭文字の組合せ語
)は辞書メモリ中には記憶されない。文書のテキストが
辞書メモリの内容と比較され、辞書中の名詞及び単一目
的を有する形容詞と一致する語及び辞書メモリ中におい
て発見されない語(固有名詞、数字、アクロニム)が累
積され、文書の抜粋が形成される。抜粋中の6語は次に
語索引ファイル中に記憶される。語累引ファイル中の記
録は語、該語が生じた文書の同定コード、夫々の文書中
で該語が発生する回数、語が数字であるか、固有名詞/
アクロニム、名詞/単一の目的を有する形容詞であるか
どうかについての表示子及び語が見出し、末尾、本文も
しくは文書のコピー・リストのどれに生ずるかについて
の表示子を含む。(単一の目的を有する形容詞とはその
主要目的が例えば重い、丸い、古い、新らしい、色が赤
い、青い等の如き形容詞的成分のものである。)文1の
検索のための入力質問中の語は語索引ファイルに対して
比較される。語索引ファイル中の成る語はいくつかの文
書中に生じ得るので、語索引ファイル中の語と共に記憶
される情報に基づいて6語に重み係数が与えられる。検
索の質問中の任意の語を含む各文書に対して成る得点が
累積され、最大の得点を有する文書が検査のためにユー
ザに提示される。
第1図を参照するに、文書記憶兼検索装置のブロック図
が示されているが、これは命令を解読及び実行し得る汎
用型のプロセッサ即ちCPUl0を含む。プロセッサ1
0はバス15を介して、その動作を制御し、本発萌を定
義する命令を含むメモリ14と2方向通信している。プ
ロセッサ10の様に記された品詞辞書を含むメモリ8と
バス7を介して2方向通信する。メモリ8は数字、アク
ロニムもしくは固有名詞を含まない。プロセッサ10i
t、同様に文書及びキイ語索引ファイルを記憶させるた
めに使用される主メモリ12とバス11を介して2方向
通信する。命令メモリ14及び辞書メモリ8は読取シ専
用型もしくはランタ弘・アクセス型のメモリであるが、
主メモリ12はランダム・アクセス記憶装置である。
が示されているが、これは命令を解読及び実行し得る汎
用型のプロセッサ即ちCPUl0を含む。プロセッサ1
0はバス15を介して、その動作を制御し、本発萌を定
義する命令を含むメモリ14と2方向通信している。プ
ロセッサ10の様に記された品詞辞書を含むメモリ8と
バス7を介して2方向通信する。メモリ8は数字、アク
ロニムもしくは固有名詞を含まない。プロセッサ10i
t、同様に文書及びキイ語索引ファイルを記憶させるた
めに使用される主メモリ12とバス11を介して2方向
通信する。命令メモリ14及び辞書メモリ8は読取シ専
用型もしくはランタ弘・アクセス型のメモリであるが、
主メモリ12はランダム・アクセス記憶装置である。
文書から抜粋し記憶するために、入力レジスタ16はバ
ス17を介してソース(図示されず)かラテキスト語ヲ
受取る。ソースはキイボード、磁気テープ読取器、磁気
カード/ディスク/ディスケット・ファイル等を含む種
々の入力装置の任意のものであシ得る。テスト語ハ命令
メモリ14中に記憶された命令に従って処理されるため
にバス15を介してレジスタ16がらプロセッサ1oに
提示される。レジスタ16のテキスト内容に遂行される
処理(抜粋)の結果はバス11を介して主メモリ12に
転送される。
ス17を介してソース(図示されず)かラテキスト語ヲ
受取る。ソースはキイボード、磁気テープ読取器、磁気
カード/ディスク/ディスケット・ファイル等を含む種
々の入力装置の任意のものであシ得る。テスト語ハ命令
メモリ14中に記憶された命令に従って処理されるため
にバス15を介してレジスタ16がらプロセッサ1oに
提示される。レジスタ16のテキスト内容に遂行される
処理(抜粋)の結果はバス11を介して主メモリ12に
転送される。
文書検索の場合には、入力レジスタ16はバス17を介
してソース(図示されず)質問テキスト・ステートメン
トラ受取る。ソースはキイボード、スクリプト表もしく
は特別に構成された押ボタン型式のパッドの如き種々の
入力装置の任意のものでアリ得る。質問テキスト・ステ
ートメントババス15を介してレジスタ16からプロセ
ッサ10に提示され、命令メモリ14中に記憶された命
令に・従って処理するためにバス15を弁してレジスタ
16からプロセッサ10に提示される。命令メモリ14
からの命令の制御の下にプロセッサ10はバス7を介し
て辞書メモリ8の内容と通信゛し、バス11を介してメ
モリ12と通信し、文書検索親近性評価をメモリ12の
内容に対して遂行する。
してソース(図示されず)質問テキスト・ステートメン
トラ受取る。ソースはキイボード、スクリプト表もしく
は特別に構成された押ボタン型式のパッドの如き種々の
入力装置の任意のものでアリ得る。質問テキスト・ステ
ートメントババス15を介してレジスタ16からプロセ
ッサ10に提示され、命令メモリ14中に記憶された命
令に・従って処理するためにバス15を弁してレジスタ
16からプロセッサ10に提示される。命令メモリ14
からの命令の制御の下にプロセッサ10はバス7を介し
て辞書メモリ8の内容と通信゛し、バス11を介してメ
モリ12と通信し、文書検索親近性評価をメモリ12の
内容に対して遂行する。
選択された文書はメモリ12からノくス11及びノ(ス
9を介して出力レジスタ18に転出され、出力レジスタ
18からバス19を弁して表示装置、プリンタもしくは
ボイスコーダ等を含む種々の形式を取り得る利用装置へ
送られる。選択され友文省は次いで検査のためにユーザ
に提示される。
9を介して出力レジスタ18に転出され、出力レジスタ
18からバス19を弁して表示装置、プリンタもしくは
ボイスコーダ等を含む種々の形式を取り得る利用装置へ
送られる。選択され友文省は次いで検査のためにユーザ
に提示される。
本発明の好ましい実施例は第1図に示された文書記憶兼
探索システムに対する文書からの抜粋、記憶及び検索の
ための質問ステートメントの親近性比較を制御する命令
もしくはプログラムの組より成る。第2図を参照するに
文書を抜粋及び記録するためのプログラムの流れ図が示
されている。
探索システムに対する文書からの抜粋、記憶及び検索の
ための質問ステートメントの親近性比較を制御する命令
もしくはプログラムの組より成る。第2図を参照するに
文書を抜粋及び記録するためのプログラムの流れ図が示
されている。
オンライン・メモリを有するデータ処理システムにおい
ては記憶される各記録に一意的な識別子コードもしくは
番号を割当てる事が標準のなられしである。このコード
は通常長さが8字であるが、長さが制限されているので
記録の内容を説明した情報を含まない。識別子コードは
、ユーザが識別子コードと特定の記録を連想させる事が
出来る場合に記録をアクセスするのに有用である。しか
しながらこの記録探知技法はデータベースが大きくなっ
て、数人のユーザが同一記録をアクセスする様な場合に
は非実用的になる。通常記録はそれが存在する限シ同−
識別子コードを保持し、記録の修正は同一識別子コード
の下にメモリ内で記録を置換えている。文書を抜粋し記
憶するためのプログラムは識別子コードを抜粋文書の1
部として含ませる様に利用している。文書がシステム(
第2図)に読込まれる場合には、文書識別子コード即ち
番号がブロック20で読取られ、すでにシステム中に記
憶されている語索引ファイルと比較されて、その文書に
対する抜粋が現在記憶されている事を示して一致が発見
されたかどうかが決定される。後出の第1表は文書を抜
粋するためのプログラム・ルーチンを示す。もし文書番
号(識別子コード)が抜粋ファイル中に存在する事が発
見されると、プログラム・ルーチンは第2図の流れ図の
ブロック22として示された第2表(後出)の抜粋削除
サブルーチンに分岐する。
ては記憶される各記録に一意的な識別子コードもしくは
番号を割当てる事が標準のなられしである。このコード
は通常長さが8字であるが、長さが制限されているので
記録の内容を説明した情報を含まない。識別子コードは
、ユーザが識別子コードと特定の記録を連想させる事が
出来る場合に記録をアクセスするのに有用である。しか
しながらこの記録探知技法はデータベースが大きくなっ
て、数人のユーザが同一記録をアクセスする様な場合に
は非実用的になる。通常記録はそれが存在する限シ同−
識別子コードを保持し、記録の修正は同一識別子コード
の下にメモリ内で記録を置換えている。文書を抜粋し記
憶するためのプログラムは識別子コードを抜粋文書の1
部として含ませる様に利用している。文書がシステム(
第2図)に読込まれる場合には、文書識別子コード即ち
番号がブロック20で読取られ、すでにシステム中に記
憶されている語索引ファイルと比較されて、その文書に
対する抜粋が現在記憶されている事を示して一致が発見
されたかどうかが決定される。後出の第1表は文書を抜
粋するためのプログラム・ルーチンを示す。もし文書番
号(識別子コード)が抜粋ファイル中に存在する事が発
見されると、プログラム・ルーチンは第2図の流れ図の
ブロック22として示された第2表(後出)の抜粋削除
サブルーチンに分岐する。
第2表の抜粋削除サブルーチンは語索引ファイルから抜
粋中の語の発生を削除する事によってメモリから抜粋を
削除する。語索引ファイルの構成については以下詳細に
説明される。
粋中の語の発生を削除する事によってメモリから抜粋を
削除する。語索引ファイルの構成については以下詳細に
説明される。
現存の抜粋をメモリから削除する事、Rpちその文書番
号を有する語が語索引ファイル中に記憶されていない事
によシ、文書が抜粋を形成するためにブロック23で処
理される。第1表のプログラム・ルーチンを参照するに
、文書中の次の語がテストされてカーボン・コピー(C
C)リストカ続くかどうかが決定される。もしCCが続
かなければプログラムはこの語が文書の抜粋中に含まれ
るべきかどうかを決定するために第3表(後出)中の語
の抜粋処理サプルーチ/に分岐する。
号を有する語が語索引ファイル中に記憶されていない事
によシ、文書が抜粋を形成するためにブロック23で処
理される。第1表のプログラム・ルーチンを参照するに
、文書中の次の語がテストされてカーボン・コピー(C
C)リストカ続くかどうかが決定される。もしCCが続
かなければプログラムはこの語が文書の抜粋中に含まれ
るべきかどうかを決定するために第3表(後出)中の語
の抜粋処理サプルーチ/に分岐する。
上述の如く、成る語が抜粋中に含まれるかどうかを決定
するための規準はその語がメツセージ特定化用語である
かどうか、即ち、これが名詞、単一目的形容詞、固有名
詞、アクロニムもしくは数字であるかどうかにある。第
3表のプログラム・ルーチンはこの語を辞書メモリの内
容と比較する。
するための規準はその語がメツセージ特定化用語である
かどうか、即ち、これが名詞、単一目的形容詞、固有名
詞、アクロニムもしくは数字であるかどうかにある。第
3表のプログラム・ルーチンはこの語を辞書メモリの内
容と比較する。
もしこの語が辞書メモリ中に発見されて、これが名詞も
しくは単一目的形容詞でない的は、無視される。辞書メ
モリ中の語が名詞であるか単一目的形容詞であるかどう
かについての決定は辞書メモリ8の作成準備の時になさ
れ、名詞もしくは単一目的形容詞として決められた語に
はビット・コードが付せられる。もし語が名詞もしくは
単一目的形容詞であると決定されると、“通常”の語で
ある事を示すためにコード・ビットもしくはフラグが訳
語に付加される。もし語が辞書メモリ8中にないと、ア
クロニムもしくは固有名詞であるとしてその状態を示す
ために語にコード・ビットもしくはフラグが付される。
しくは単一目的形容詞でない的は、無視される。辞書メ
モリ中の語が名詞であるか単一目的形容詞であるかどう
かについての決定は辞書メモリ8の作成準備の時になさ
れ、名詞もしくは単一目的形容詞として決められた語に
はビット・コードが付せられる。もし語が名詞もしくは
単一目的形容詞であると決定されると、“通常”の語で
ある事を示すためにコード・ビットもしくはフラグが訳
語に付加される。もし語が辞書メモリ8中にないと、ア
クロニムもしくは固有名詞であるとしてその状態を示す
ために語にコード・ビットもしくはフラグが付される。
アクロニム及び固有名詞は名詞及び単一目的の形容詞よ
りもメツセージ特定化用語としてより影響力を有すると
考えられるので以下明らかな如く文書探索のためによシ
有用である。第5表の語処理ルーチンはプロセッサ10
を制御して語索引ファイル中に記!させるため各抜粋の
用語の1つのコピーだけを保存する。
りもメツセージ特定化用語としてより影響力を有すると
考えられるので以下明らかな如く文書探索のためによシ
有用である。第5表の語処理ルーチンはプロセッサ10
を制御して語索引ファイル中に記!させるため各抜粋の
用語の1つのコピーだけを保存する。
しかしながら語処理ルーチンは語に対し、その語が現わ
れる文書中の行の番号及び文書中にその語が現われる回
数を付加する。文書探索に対して後述される如く、文書
中の語の発生頻度及び発生の場所は文書を検索する際の
質問語としての語の価値を決定する。
れる文書中の行の番号及び文書中にその語が現われる回
数を付加する。文書探索に対して後述される如く、文書
中の語の発生頻度及び発生の場所は文書を検索する際の
質問語としての語の価値を決定する。
語処理サブルーチンの完了に伴い、制御は第1表の抜粋
ルーチンに戻り、文書中の6語に対して諸ルーチンが繰
返される。抜粋ルーチンは文書中の負数に対する計数を
累積する。文書の終りに近づく時、文書の本文の終シか
ら5行目を決定する計数がカウントされ、第4表(後出
)の抜粋終り処理サブルーチンが選択される。
ルーチンに戻り、文書中の6語に対して諸ルーチンが繰
返される。抜粋ルーチンは文書中の負数に対する計数を
累積する。文書の終りに近づく時、文書の本文の終シか
ら5行目を決定する計数がカウントされ、第4表(後出
)の抜粋終り処理サブルーチンが選択される。
抜粋終り処理サプルーチ/はプロセッサ10を制御して
第3表の語処理サブルーチンによって保存されたすべて
の語、文書中の語の数の計数及び文書識別子番号を含む
抜粋記録を形成する。抜粋終り処理サブルーチンは同様
に訳語、“通常”語であるか1アクロニム/固有名詞”
であるかを示すコード、文書番号、文書中の負数、文書
中の訳語の発生頻度、語が前文(最初の10行)、末文
(最後の5行)、コピー・リストもしくは本文のいずれ
に生じたかを示すコードを含む語索引記録を形成する。
第3表の語処理サブルーチンによって保存されたすべて
の語、文書中の語の数の計数及び文書識別子番号を含む
抜粋記録を形成する。抜粋終り処理サブルーチンは同様
に訳語、“通常”語であるか1アクロニム/固有名詞”
であるかを示すコード、文書番号、文書中の負数、文書
中の訳語の発生頻度、語が前文(最初の10行)、末文
(最後の5行)、コピー・リストもしくは本文のいずれ
に生じたかを示すコードを含む語索引記録を形成する。
語索引ファイル中の語は訳語に対する記録がすでに語索
引ファイル中に現われたかを見るために探索される。も
し現われておれば、語の複製(TL複)が語索引ファイ
ル中に現われない様に、記録は文書番号、頻度計数及び
コードを付加する事によって更新される。第4表の抜粋
終り処理サブルーチンの完了に続き制御ニ抜粋処理を終
了させる第1表の抜粋ルーチンに戻される。
引ファイル中に現われたかを見るために探索される。も
し現われておれば、語の複製(TL複)が語索引ファイ
ル中に現われない様に、記録は文書番号、頻度計数及び
コードを付加する事によって更新される。第4表の抜粋
終り処理サブルーチンの完了に続き制御ニ抜粋処理を終
了させる第1表の抜粋ルーチンに戻される。
システム中に記録された文Vt検索するためには、質問
者は該文書のための質問をシステムに導入する。この事
は例えばキイボードを介して行なわれる。本発明のシス
テムの好ましい実施例で使用される質問は自然言語ステ
ートメントもしくはその項目を記述した語の連糸であシ
得る。探索アーギュメントは質問語を語索引ファイルに
対してテストする事によって創生される。多くの場合に
探索アーギュメント中の語はいくつかの文書中のキイワ
ード記録(抜粋)中に生ずる。競合する文書間によシ良
い弁別を与えるために異なるキイワードには異なる重み
が与えられる。重み付けの規準は次の如き規則に従って
適用される。
者は該文書のための質問をシステムに導入する。この事
は例えばキイボードを介して行なわれる。本発明のシス
テムの好ましい実施例で使用される質問は自然言語ステ
ートメントもしくはその項目を記述した語の連糸であシ
得る。探索アーギュメントは質問語を語索引ファイルに
対してテストする事によって創生される。多くの場合に
探索アーギュメント中の語はいくつかの文書中のキイワ
ード記録(抜粋)中に生ずる。競合する文書間によシ良
い弁別を与えるために異なるキイワードには異なる重み
が与えられる。重み付けの規準は次の如き規則に従って
適用される。
1、 数字キイワードに対する一致はアルファベット・
キイワードに対するよシもよシ大きな重みが与えられる
。
キイワードに対するよシもよシ大きな重みが与えられる
。
2、固有名詞もしくはアクロニムであるキイワードに対
する一致は辞書メモリ中に見出される名詞もしくは単一
目的形容詞に対する一致よシも大きな重みが与えられる
。
する一致は辞書メモリ中に見出される名詞もしくは単一
目的形容詞に対する一致よシも大きな重みが与えられる
。
3.1つのキイワードに与えられる重みは文書中で生ず
る訳語の回数を文書中の負数の対数で割ったものに比例
する。
る訳語の回数を文書中の負数の対数で割ったものに比例
する。
4、文書の最初の10行中において生ずるキイワードの
一致はテキストの本文の中央におけるキイワードの一致
エシもより大きなlみが与えられる。
一致はテキストの本文の中央におけるキイワードの一致
エシもより大きなlみが与えられる。
5、 テキストの最後の5行中のキイワードで生ずる一
致は、テキストの中央部中のキイワードに対する一致よ
りも大きな重みが与えられるが、最初の10行中の一致
よりも小さな重みが与えられる。
致は、テキストの中央部中のキイワードに対する一致よ
りも大きな重みが与えられるが、最初の10行中の一致
よりも小さな重みが与えられる。
6、 キイワードの重みはこの語が月もしくは年の名称
である時に増大する。
である時に増大する。
Z キイワード一致の重みは全ファイル中の文書の本文
中(コピー・リストの部分としての発生は除く)におい
て該キイワードを含む文書の数に反比例する。
中(コピー・リストの部分としての発生は除く)におい
て該キイワードを含む文書の数に反比例する。
これ等の一般的規則の背後にある原理は最も挟装の特定
の意味を有するキイワードを含む一致に対して最大の重
みを与える事にある。特定の名称、数字及び日付けは極
めて特殊な意味を有し、従ってこれ等は大きく重み付け
られるものと仮定される。同様に最も特定な事柄(項目
)は通信文の始めか終りに述べられているものと仮定さ
れる。従ってこれ等の領域に発生する語は同様により大
きな重みが与えられる。上述の一般的規則を満足する式
の一例は次の如きものである。
の意味を有するキイワードを含む一致に対して最大の重
みを与える事にある。特定の名称、数字及び日付けは極
めて特殊な意味を有し、従ってこれ等は大きく重み付け
られるものと仮定される。同様に最も特定な事柄(項目
)は通信文の始めか終りに述べられているものと仮定さ
れる。従ってこれ等の領域に発生する語は同様により大
きな重みが与えられる。上述の一般的規則を満足する式
の一例は次の如きものである。
文書検索値=
ここで
F、、=i番目の文書中に現われる第1番目のl〜」
キイワードの回数
A 、 = i番目のキイワードがアクロニムもしくは
固有名詞である場合の2値表示子 に、=i番目のキイワードが最初の10行に生! じた場合の2値表示子 L 、 = i番目のキイワードが数字である場合の2
値表示子 E、=i番目のキイワードが最後の5行に生じた場合の
2値表示子 H、= i番目のキイワードが辞書メモリ中に名詞もし
くは単一の目的の形容詞として生ずる2値表示子 M 、 = i番目のキイワードが月である場合の2! 値表示子 Y、=i番目のキイ・ワードが年で委る場合の2値表示
子 D 、 = i番目のキイワードを含む文書の数! 第5図全参照するに、文書のための質問を処理する流れ
図が示されている。ブロック50において、ユーザの質
問はプロセッサー0(第1図)へバス15を介して入力
レジスタ16から入力される。後出の第5.6及び第7
表は上述の一般的規則に従うユーザの質問を処理するた
めのプログラム・ルーチンを示す。
固有名詞である場合の2値表示子 に、=i番目のキイワードが最初の10行に生! じた場合の2値表示子 L 、 = i番目のキイワードが数字である場合の2
値表示子 E、=i番目のキイワードが最後の5行に生じた場合の
2値表示子 H、= i番目のキイワードが辞書メモリ中に名詞もし
くは単一の目的の形容詞として生ずる2値表示子 M 、 = i番目のキイワードが月である場合の2! 値表示子 Y、=i番目のキイ・ワードが年で委る場合の2値表示
子 D 、 = i番目のキイワードを含む文書の数! 第5図全参照するに、文書のための質問を処理する流れ
図が示されている。ブロック50において、ユーザの質
問はプロセッサー0(第1図)へバス15を介して入力
レジスタ16から入力される。後出の第5.6及び第7
表は上述の一般的規則に従うユーザの質問を処理するた
めのプログラム・ルーチンを示す。
第5表の質問ルーチンは第6図の流れ図のブロック51
中に示された如く質問語を語索引ファイルの内容とを比
較する。語索引ファイルと一致する質問語は第6表の質
問語処理サプルーチ/によって流れ図のブロック32で
処理される。
中に示された如く質問語を語索引ファイルの内容とを比
較する。語索引ファイルと一致する質問語は第6表の質
問語処理サプルーチ/によって流れ図のブロック32で
処理される。
各質問語はこれが月、年、数字、アクロニム、もしくは
通常の語(名詞もしくは単一目的形容詞)であるかどう
かについての決定のためにテストされる。第6表のサブ
ルーチンは同様にもし語が文書の最初の10行中、最後
の5行中もしくは文書中に2回以上生じた事を語索引フ
ァイル中の表示子が示すと重み因子を加える。もし語が
文書のコピー・リスト中に生じ、1つの文書中に2回以
上生じると、訳語の価値は減少される。6語に対する値
の合計が計算され、何等かの一致を示す各文書番号に対
する語索引ファイル中の語と一致するすべての質問語の
合計が累積される。語に対する検索値及び文書に対する
検索1@を計算する段階は第3図のブロック33及び3
4中に示されている。
通常の語(名詞もしくは単一目的形容詞)であるかどう
かについての決定のためにテストされる。第6表のサブ
ルーチンは同様にもし語が文書の最初の10行中、最後
の5行中もしくは文書中に2回以上生じた事を語索引フ
ァイル中の表示子が示すと重み因子を加える。もし語が
文書のコピー・リスト中に生じ、1つの文書中に2回以
上生じると、訳語の価値は減少される。6語に対する値
の合計が計算され、何等かの一致を示す各文書番号に対
する語索引ファイル中の語と一致するすべての質問語の
合計が累積される。語に対する検索値及び文書に対する
検索1@を計算する段階は第3図のブロック33及び3
4中に示されている。
質問中のすべての語の処理に続いて、第5表の質問ルー
チンは後出の第7表の月/年の評価サブルーチンに分岐
する。第7表のサブルーチンは質問中の年及び/もしく
は月と一致する年及び/もしくは月を含む各文書に対す
る検索値を増大する。
チンは後出の第7表の月/年の評価サブルーチンに分岐
する。第7表のサブルーチンは質問中の年及び/もしく
は月と一致する年及び/もしくは月を含む各文書に対す
る検索値を増大する。
第7表のサブルーチンはその検索値が計算された最高の
検索値の25チ円にめる文書を生メモリ12から出力レ
ジスタ18に出力する様に動作する。
検索値の25チ円にめる文書を生メモリ12から出力レ
ジスタ18に出力する様に動作する。
次に制御は第5表の質問ルーチンに戻され、質問処理が
終了される。
終了される。
第1図は本発明のシステムの概略図である。8・・・・
辞簀メモリ、10・・・・プロセッサ、12・・・・主
メモリ、16・・・・命令メモリ、16・・・・入力レ
ジスタ、18・・・・出力レジスタ。第2図は文t’を
抜粋し記憶する際の動作の流れ図である。第6図は五−
・ザの質問に応答して文書を検索する際のシステムの動
作の流れ図である。 出願人 イZ」づツヲカいビ琳・マン−2ズ・コづ丸ト
うタン復代理人弁理士 篠 1) 文 雄
第1頁の続き 0発 明 者 ジャネット・グッドソン・ラッセル アメリカ合衆国メリーランド州 ベセスダ・ウェストフィールド ・ドライラフ800番地 512−
辞簀メモリ、10・・・・プロセッサ、12・・・・主
メモリ、16・・・・命令メモリ、16・・・・入力レ
ジスタ、18・・・・出力レジスタ。第2図は文t’を
抜粋し記憶する際の動作の流れ図である。第6図は五−
・ザの質問に応答して文書を検索する際のシステムの動
作の流れ図である。 出願人 イZ」づツヲカいビ琳・マン−2ズ・コづ丸ト
うタン復代理人弁理士 篠 1) 文 雄
第1頁の続き 0発 明 者 ジャネット・グッドソン・ラッセル アメリカ合衆国メリーランド州 ベセスダ・ウェストフィールド ・ドライラフ800番地 512−
Claims (1)
- 【特許請求の範囲】 機械読取り可能な形式をなす文書から抜粋を作成するた
め、 文書作成に際し通常使用される言語の単語の辞書及び該
単語のうちの1部を選択された品詞のものであるとして
同定するコードと共に記憶する装置と、 機械読取ジ可能な形式で上記単語よシ成りい識別コード
を有する入力文書を受取る装置と、メモリと、 上記記憶する装置、上記受取る装置及び上記メモリに接
続された制御装置であって、 (a)、上記入力文書の単語を上記辞書の単語と比較す
る装置、 (b)、上記入力文書から比較の結果が一致しない単語
を選択する装置、 (C)、上記入力文書から比較の結果が一致し、且つ言
語の選択された品詞としてコード化されている単語を選
択する装置、 (d)、上記入力文書中から選択された単語の発生頻度
を計数するための装置、 (e)、上記入力文書中の負数を計数する装置、(f)
、上記入力文書中の選択された単語の発生個所を計算す
る装置並びに、 (ロ))、上記メモリ中に文書識別コード、単語、選択
された品詞コード、発生頻度計数、文書中の負数及び発
生位置コードを含む各選択された単語の記録を記憶する
装置 を含むものとLり成る文書抜粋記憶装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/107,994 US4358824A (en) | 1979-12-28 | 1979-12-28 | Office correspondence storage and retrieval system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5850071A true JPS5850071A (ja) | 1983-03-24 |
JPS5828616B2 JPS5828616B2 (ja) | 1983-06-17 |
Family
ID=22319639
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP55175926A Expired JPS5828616B2 (ja) | 1979-12-28 | 1980-12-15 | 文書抜粋記憶 |
JP56011752A Granted JPS5844536A (ja) | 1979-12-28 | 1981-01-30 | 文書検索装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56011752A Granted JPS5844536A (ja) | 1979-12-28 | 1981-01-30 | 文書検索装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US4358824A (ja) |
EP (1) | EP0032194A1 (ja) |
JP (2) | JPS5828616B2 (ja) |
CA (1) | CA1241122A (ja) |
ES (1) | ES8206059A1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58201140A (ja) * | 1982-05-20 | 1983-11-22 | Toshiba Corp | 文書作成装置 |
JPS61243531A (ja) * | 1985-04-22 | 1986-10-29 | Nec Corp | 情報検索方式 |
JPS6446831A (en) * | 1987-08-17 | 1989-02-21 | Nippon Telegraph & Telephone | Automatic key word extracting device |
JPH01112331A (ja) * | 1987-10-26 | 1989-05-01 | Nippon Telegr & Teleph Corp <Ntt> | キーワード重要度自動評価装置 |
JPH05502533A (ja) * | 1990-08-29 | 1993-04-28 | ジーティーイー ラボラトリーズ インコーポレイテッド | 情報検索のための適応階層化装置 |
JPH09269951A (ja) * | 1996-04-03 | 1997-10-14 | Matsushita Electric Ind Co Ltd | 英文要約装置 |
Families Citing this family (124)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4554631A (en) * | 1983-07-13 | 1985-11-19 | At&T Bell Laboratories | Keyword search automatic limiting method |
US4580218A (en) * | 1983-09-08 | 1986-04-01 | At&T Bell Laboratories | Indexing subject-locating method |
US4633393A (en) * | 1983-10-21 | 1986-12-30 | Storage Technology Partners Ii | Generic key for indexing and searching user data in a digital information storage and retrieval device |
US4611280A (en) * | 1984-03-12 | 1986-09-09 | At&T Bell Laboratories | Sorting method |
JPS61220027A (ja) * | 1985-03-27 | 1986-09-30 | Hitachi Ltd | 文書ファイリングシステム及び情報記憶検索システム |
US6182062B1 (en) | 1986-03-26 | 2001-01-30 | Hitachi, Ltd. | Knowledge based information retrieval system |
JPH0823864B2 (ja) * | 1986-03-29 | 1996-03-06 | 株式会社東芝 | 見出し判定方法 |
JPH0776969B2 (ja) * | 1986-04-18 | 1995-08-16 | 株式会社東芝 | 文書処理装置 |
US4870568A (en) * | 1986-06-25 | 1989-09-26 | Thinking Machines Corporation | Method for searching a database system including parallel processors |
US5021997A (en) * | 1986-09-29 | 1991-06-04 | At&T Bell Laboratories | Test automation system |
JPS63120362A (ja) * | 1986-11-10 | 1988-05-24 | Brother Ind Ltd | スペルチエツク機能付文書処理装置 |
US4949302A (en) * | 1986-11-17 | 1990-08-14 | International Business Machines Corporation | Message file formation for computer programs |
US5062074A (en) * | 1986-12-04 | 1991-10-29 | Tnet, Inc. | Information retrieval system and method |
US4972349A (en) * | 1986-12-04 | 1990-11-20 | Kleinberger Paul J | Information retrieval system and method |
EP0280866A3 (en) * | 1987-03-03 | 1992-07-08 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
US4965763A (en) * | 1987-03-03 | 1990-10-23 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
GB8719572D0 (en) * | 1987-08-19 | 1987-09-23 | Krebs M S | Sigscan text retrieval system |
US4908758A (en) * | 1987-12-17 | 1990-03-13 | Sanders Michael J | Method of operating a computer for rank ordering and weighting category alternatives |
JPH021057A (ja) * | 1988-01-20 | 1990-01-05 | Ricoh Co Ltd | 文書検索装置 |
JP2783558B2 (ja) * | 1988-09-30 | 1998-08-06 | 株式会社東芝 | 要約生成方法および要約生成装置 |
CA1318404C (en) * | 1988-10-11 | 1993-05-25 | Michael J. Hawley | Method and apparatus for indexing files in a computer system |
CA1318403C (en) * | 1988-10-11 | 1993-05-25 | Michael J. Hawley | Method and apparatus for extracting keywords from text |
US5993048A (en) * | 1988-12-08 | 1999-11-30 | Hallmark Cards, Incorporated | Personalized greeting card system |
US5142678A (en) * | 1988-12-21 | 1992-08-25 | International Business Machines Corporation | Method for a requesting user to use a marker to associate a document with an end user action |
US5303361A (en) * | 1989-01-18 | 1994-04-12 | Lotus Development Corporation | Search and retrieval system |
US5829002A (en) * | 1989-02-15 | 1998-10-27 | Priest; W. Curtiss | System for coordinating information transfer and retrieval |
US5167011A (en) * | 1989-02-15 | 1992-11-24 | W. H. Morris | Method for coodinating information storage and retrieval |
US5109519A (en) * | 1989-03-28 | 1992-04-28 | Wang Laboratories, Inc. | Local computer participating in mail delivery system abstracts from directory of all eligible mail recipients only served by local computer |
JPH0675265B2 (ja) * | 1989-09-20 | 1994-09-21 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 情報検索方法及びシステム |
US5276616A (en) * | 1989-10-16 | 1994-01-04 | Sharp Kabushiki Kaisha | Apparatus for automatically generating index |
JPH03294963A (ja) * | 1990-04-12 | 1991-12-26 | Ricoh Co Ltd | 文書検索装置 |
JPH0418673A (ja) * | 1990-05-11 | 1992-01-22 | Hitachi Ltd | テキスト情報抽出方法および装置 |
US5444840A (en) * | 1990-06-12 | 1995-08-22 | Froessl; Horst | Multiple image font processing |
US5109439A (en) * | 1990-06-12 | 1992-04-28 | Horst Froessl | Mass document storage and retrieval system |
US5404295A (en) * | 1990-08-16 | 1995-04-04 | Katz; Boris | Method and apparatus for utilizing annotations to facilitate computer retrieval of database material |
US5309359A (en) * | 1990-08-16 | 1994-05-03 | Boris Katz | Method and apparatus for generating and utlizing annotations to facilitate computer text retrieval |
JP2895184B2 (ja) * | 1990-08-22 | 1999-05-24 | 株式会社日立製作所 | 文書処理システム及び文書処理方法 |
US5546316A (en) * | 1990-10-22 | 1996-08-13 | Hallmark Cards, Incorporated | Computer controlled system for vending personalized products |
US5559714A (en) * | 1990-10-22 | 1996-09-24 | Hallmark Cards, Incorporated | Method and apparatus for display sequencing personalized social occasion products |
US5708829A (en) * | 1991-02-01 | 1998-01-13 | Wang Laboratories, Inc. | Text indexing system |
US5557794A (en) * | 1991-09-02 | 1996-09-17 | Fuji Xerox Co., Ltd. | Data management system for a personal data base |
US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5375235A (en) * | 1991-11-05 | 1994-12-20 | Northern Telecom Limited | Method of indexing keywords for searching in a database recorded on an information recording medium |
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US5438657A (en) * | 1992-04-24 | 1995-08-01 | Casio Computer Co., Ltd. | Document processing apparatus for extracting a format from one document and using the extracted format to automatically edit another document |
JPH0660064A (ja) * | 1992-08-05 | 1994-03-04 | Brother Ind Ltd | 英文レター用自動編集装置 |
JP3270783B2 (ja) * | 1992-09-29 | 2002-04-02 | ゼロックス・コーポレーション | 複数の文書検索方法 |
JPH06176065A (ja) * | 1992-12-02 | 1994-06-24 | Dainippon Printing Co Ltd | 学術論文データ検索装置 |
JPH06176069A (ja) * | 1992-12-02 | 1994-06-24 | Dainippon Printing Co Ltd | 文字列検索結果表示装置 |
JP3132738B2 (ja) * | 1992-12-10 | 2001-02-05 | ゼロックス コーポレーション | テキスト検索方法 |
US5860075A (en) * | 1993-06-30 | 1999-01-12 | Matsushita Electric Industrial Co., Ltd. | Document data filing apparatus for generating visual attribute values of document data to be filed |
US6044365A (en) * | 1993-09-01 | 2000-03-28 | Onkor, Ltd. | System for indexing and retrieving graphic and sound data |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
US5692176A (en) * | 1993-11-22 | 1997-11-25 | Reed Elsevier Inc. | Associative text search and retrieval system |
US5517407A (en) * | 1994-06-30 | 1996-05-14 | In-Dex | Device for including enhancing information with printed information and method for electronic searching thereof |
US5726898A (en) * | 1994-09-01 | 1998-03-10 | American Greetings Corporation | Method and apparatus for storing and selectively retrieving and delivering product data based on embedded expert judgements |
JP2729356B2 (ja) * | 1994-09-01 | 1998-03-18 | 日本アイ・ビー・エム株式会社 | 情報検索システム及び方法 |
US5550746A (en) * | 1994-12-05 | 1996-08-27 | American Greetings Corporation | Method and apparatus for storing and selectively retrieving product data by correlating customer selection criteria with optimum product designs based on embedded expert judgments |
US5768142A (en) * | 1995-05-31 | 1998-06-16 | American Greetings Corporation | Method and apparatus for storing and selectively retrieving product data based on embedded expert suitability ratings |
US5875110A (en) * | 1995-06-07 | 1999-02-23 | American Greetings Corporation | Method and system for vending products |
US6336094B1 (en) * | 1995-06-30 | 2002-01-01 | Price Waterhouse World Firm Services Bv. Inc. | Method for electronically recognizing and parsing information contained in a financial statement |
US5832499A (en) * | 1996-07-10 | 1998-11-03 | Survivors Of The Shoah Visual History Foundation | Digital library system |
US6182029B1 (en) * | 1996-10-28 | 2001-01-30 | The Trustees Of Columbia University In The City Of New York | System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters |
DE19645128C2 (de) | 1996-11-04 | 1999-02-11 | Anja David | Verfahren zum Verwalten von Dokumenten sowie Gerätetreiber zur Durchführung des Verfahrens |
US6199073B1 (en) * | 1997-04-21 | 2001-03-06 | Ricoh Company, Ltd. | Automatic archiving of documents during their transfer between a peripheral device and a processing device |
JP3270351B2 (ja) | 1997-01-31 | 2002-04-02 | 株式会社東芝 | 電子化文書処理装置 |
JP3143079B2 (ja) * | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
GB9806085D0 (en) * | 1998-03-23 | 1998-05-20 | Xerox Corp | Text summarisation using light syntactic parsing |
US6240407B1 (en) | 1998-04-29 | 2001-05-29 | International Business Machines Corp. | Method and apparatus for creating an index in a database system |
US6353831B1 (en) | 1998-11-02 | 2002-03-05 | Survivors Of The Shoah Visual History Foundation | Digital library system |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US6584464B1 (en) | 1999-03-19 | 2003-06-24 | Ask Jeeves, Inc. | Grammar template query system |
US6587848B1 (en) * | 2000-03-08 | 2003-07-01 | International Business Machines Corporation | Methods and apparatus for performing an affinity based similarity search |
US6640222B1 (en) * | 2000-09-29 | 2003-10-28 | Motorola, Inc. | Method for selecting an information unit among conflicting information units based on context fields by a user device |
US20020091671A1 (en) * | 2000-11-23 | 2002-07-11 | Andreas Prokoph | Method and system for data retrieval in large collections of data |
JP2002283301A (ja) * | 2001-03-26 | 2002-10-03 | Makita Corp | 際切りマルノコ |
US7117200B2 (en) * | 2002-01-11 | 2006-10-03 | International Business Machines Corporation | Synthesizing information-bearing content from multiple channels |
US7734627B1 (en) | 2003-06-17 | 2010-06-08 | Google Inc. | Document similarity detection |
US7165067B1 (en) * | 2003-07-10 | 2007-01-16 | Sun Microsystems, Inc. | Method, system, and program for character set matching |
US7707039B2 (en) * | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US8799303B2 (en) | 2004-02-15 | 2014-08-05 | Google Inc. | Establishing an interactive environment for rendered documents |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US20060041484A1 (en) * | 2004-04-01 | 2006-02-23 | King Martin T | Methods and systems for initiating application processes by data capture from rendered documents |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US8793162B2 (en) | 2004-04-01 | 2014-07-29 | Google Inc. | Adding information or functionality to a rendered document via association with an electronic counterpart |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US20060098900A1 (en) * | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
WO2008028674A2 (en) | 2006-09-08 | 2008-03-13 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US20080313172A1 (en) | 2004-12-03 | 2008-12-18 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US20070300142A1 (en) | 2005-04-01 | 2007-12-27 | King Martin T | Contextual dynamic advertising based upon captured rendered text |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US8621349B2 (en) | 2004-04-01 | 2013-12-31 | Google Inc. | Publishing techniques for adding value to a rendered document |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US9460346B2 (en) | 2004-04-19 | 2016-10-04 | Google Inc. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US7389299B2 (en) * | 2004-09-02 | 2008-06-17 | International Business Machines Corporation | Document content analysis technology for reducing cognitive load |
US20110029504A1 (en) * | 2004-12-03 | 2011-02-03 | King Martin T | Searching and accessing documents on private networks for use with captures from rendered documents |
US20060200464A1 (en) * | 2005-03-03 | 2006-09-07 | Microsoft Corporation | Method and system for generating a document summary |
US20070067291A1 (en) * | 2005-09-19 | 2007-03-22 | Kolo Brian A | System and method for negative entity extraction technique |
US20110096174A1 (en) * | 2006-02-28 | 2011-04-28 | King Martin T | Accessing resources based on capturing information from a rendered document |
KR101254362B1 (ko) | 2007-05-18 | 2013-04-12 | 엔에이치엔(주) | 공통 접사를 이용한 키워드 순위를 제공하는 방법 및시스템 |
WO2008143407A1 (en) * | 2007-05-18 | 2008-11-27 | Nhn Corporation | Method and system for providing keyword ranking using common affix |
US20090228817A1 (en) * | 2008-03-10 | 2009-09-10 | Randy Adams | Systems and methods for displaying a search result |
US20090228442A1 (en) * | 2008-03-10 | 2009-09-10 | Searchme, Inc. | Systems and methods for building a document index |
US20090228811A1 (en) * | 2008-03-10 | 2009-09-10 | Randy Adams | Systems and methods for processing a plurality of documents |
US8745502B2 (en) * | 2008-05-28 | 2014-06-03 | Snibbe Interactive, Inc. | System and method for interfacing interactive systems with social networks and media playback devices |
WO2010096193A2 (en) * | 2009-02-18 | 2010-08-26 | Exbiblio B.V. | Identifying a document by performing spectral analysis on the contents of the document |
US8902451B2 (en) * | 2009-02-25 | 2014-12-02 | Xerox Corporation | Method and system for automatically generating a copy of a print stream |
US8447066B2 (en) * | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
WO2010105246A2 (en) | 2009-03-12 | 2010-09-16 | Exbiblio B.V. | Accessing resources based on capturing information from a rendered document |
US9043336B2 (en) * | 2009-08-07 | 2015-05-26 | Applied Materials, Inc. | Methods and systems for global knowledge sharing to provide corrective maintenance |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US9916396B2 (en) * | 2012-05-11 | 2018-03-13 | Google Llc | Methods and systems for content-based search |
US20140215472A1 (en) * | 2013-01-29 | 2014-07-31 | Hewlett-Packard Development Company, L.P. | Task management |
US11610107B2 (en) | 2018-07-06 | 2023-03-21 | Global Elmeast Inc. | Methodology to automatically incorporate feedback to enable self learning in neural learning artifactories |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3702010A (en) * | 1970-10-12 | 1972-10-31 | Bell Telephone Labor Inc | Information retrieval strategy |
US3947825A (en) * | 1973-04-13 | 1976-03-30 | International Business Machines Corporation | Abstracting system for index search machine |
US3995254A (en) * | 1975-07-16 | 1976-11-30 | International Business Machines Corporation | Digital reference matrix for word verification |
US4099242A (en) * | 1976-11-03 | 1978-07-04 | Houston George B | One-pass general associative search processor |
-
1979
- 1979-12-28 US US06/107,994 patent/US4358824A/en not_active Expired - Lifetime
-
1980
- 1980-10-27 CA CA000363345A patent/CA1241122A/en not_active Expired
- 1980-12-04 EP EP80107625A patent/EP0032194A1/en not_active Ceased
- 1980-12-15 JP JP55175926A patent/JPS5828616B2/ja not_active Expired
- 1980-12-26 ES ES498162A patent/ES8206059A1/es not_active Expired
-
1981
- 1981-01-30 JP JP56011752A patent/JPS5844536A/ja active Granted
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58201140A (ja) * | 1982-05-20 | 1983-11-22 | Toshiba Corp | 文書作成装置 |
JPH0410106B2 (ja) * | 1982-05-20 | 1992-02-24 | ||
JPS61243531A (ja) * | 1985-04-22 | 1986-10-29 | Nec Corp | 情報検索方式 |
JPS6446831A (en) * | 1987-08-17 | 1989-02-21 | Nippon Telegraph & Telephone | Automatic key word extracting device |
JPH01112331A (ja) * | 1987-10-26 | 1989-05-01 | Nippon Telegr & Teleph Corp <Ntt> | キーワード重要度自動評価装置 |
JPH05502533A (ja) * | 1990-08-29 | 1993-04-28 | ジーティーイー ラボラトリーズ インコーポレイテッド | 情報検索のための適応階層化装置 |
JPH09269951A (ja) * | 1996-04-03 | 1997-10-14 | Matsushita Electric Ind Co Ltd | 英文要約装置 |
Also Published As
Publication number | Publication date |
---|---|
ES498162A0 (es) | 1982-08-01 |
US4358824A (en) | 1982-11-09 |
JPS5844536A (ja) | 1983-03-15 |
EP0032194A1 (en) | 1981-07-22 |
ES8206059A1 (es) | 1982-08-01 |
CA1241122A (en) | 1988-08-23 |
JPS6330648B2 (ja) | 1988-06-20 |
JPS5828616B2 (ja) | 1983-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS5850071A (ja) | 文書抜粋記憶 | |
US4775956A (en) | Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes | |
US6314419B1 (en) | Methods and apparatus for generating query feedback based on co-occurrence patterns | |
US5541836A (en) | Word disambiguation apparatus and methods | |
EP0155284B1 (en) | Indexing subject-locating method | |
US5099426A (en) | Method for use of morphological information to cross reference keywords used for information retrieval | |
Sievert et al. | Indexing consistency in information science abstracts | |
US20090222395A1 (en) | Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction | |
Luk | Statistical sense disambiguation with relatively small corpora using dictionary definitions | |
O'Connor | Mechanized indexing methods and their testing | |
Rogers et al. | Searching for historical word forms in text databases using spelling‐correction methods: Reverse error and phonetic coding methods | |
Hassel | Evaluation of automatic text summarizaiton: a practical implementation | |
Dillon et al. | Fully automatic book indexing | |
Munjishvili et al. | The semantic analysis method and algorithms of open tests answers on “cyber-2” pattern in the knowledge revival and evaluation systems | |
Salton | Information dissemination and automatic information systems | |
JP2894301B2 (ja) | 文脈情報を用いた文書検索方法および装置 | |
Choueka et al. | Full text document retrieval: Hebrew legal texts (report on the first phase of the responsa retrieval project) | |
Salton | A blueprint for automatic indexing | |
JPH10177575A (ja) | 語句抽出装置および方法、情報記憶媒体 | |
JP3804609B2 (ja) | 検索チューニング方法および情報検索システム | |
EP0592402B1 (en) | A text management system | |
Lancaster | Mechanized document control: A review of some recent research | |
Driscoll et al. | The QA system | |
Zunde | Automatic Indexing from Machine Readable Abstracts of Scientific Documents | |
EP0853286A1 (en) | Method of and system for disambiguating syntactic word multiples |