JP2895184B2 - 文書処理システム及び文書処理方法 - Google Patents

文書処理システム及び文書処理方法

Info

Publication number
JP2895184B2
JP2895184B2 JP2219039A JP21903990A JP2895184B2 JP 2895184 B2 JP2895184 B2 JP 2895184B2 JP 2219039 A JP2219039 A JP 2219039A JP 21903990 A JP21903990 A JP 21903990A JP 2895184 B2 JP2895184 B2 JP 2895184B2
Authority
JP
Japan
Prior art keywords
document
keyword
structured
information
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2219039A
Other languages
English (en)
Other versions
JPH04102171A (ja
Inventor
林  剛久
孝樹 野口
恒弥 栗原
正博 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2219039A priority Critical patent/JP2895184B2/ja
Priority to DE69130883T priority patent/DE69130883T2/de
Priority to EP91112972A priority patent/EP0472026B1/en
Priority to US07/741,760 priority patent/US5307266A/en
Publication of JPH04102171A publication Critical patent/JPH04102171A/ja
Application granted granted Critical
Publication of JP2895184B2 publication Critical patent/JP2895184B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は多量の情報の中から必要な情報を自動的に収
集する文書処理システムに関する。
〔従来の技術〕
従来、情報を得るための情報処理装置としては、特開
昭60−140443号に記載のように、あらかじめ情報が蓄積
されたデータベースまたは知識ベースにアクセスして、
検索を行うものが知られている。
検索の方法としては、利用者(ユーザー)が、データ
ベースの蓄積構造を理解して、データベースを構成する
テーブルの項目に従った検索項目を指定する方法、連想
検索や同義語処理によって検索方法の指定を簡単化する
方法などが知られている。また、キーワードを付加した
文書をそのまま蓄積し、キーワードの合致した文書を取
り出す方法、文書をそのまま蓄積し、検索時に与えるキ
ーワードとその同義語を全文中から検出し、これらが合
致する文書を取り出す方法等が知られている。
〔発明が解決しようとする課題〕
上記従来技術のうち、データベースがテーブル形式の
構造を持つものについては、あらかじめ決められたテー
ブル項目以外の情報については扱えず、また、多くの項
目を扱えば、データベースの構造が複雑となり、保守、
管理が困難になる欠点があった。
また、キーワードを用いて文書を検索するものについ
ては、検索された文書を利用者が読み、内容を理解して
始めて、必要な情報が得られるため、多くの文書から、
特定の項目について情報を収集しようとする場合、利用
者の負担が大きくなる欠点があった。
本発明は、多量の情報の中から必要な情報を自動的に
収集する文書処理システム及び文書処理方法を提供する
ことを目的としており、さらに、そのために保守管理が
困難になったり、利用者の負担が大きくなるような上記
従来技術の持つ欠点を解決することを目的としている。
〔課題を解決するための手段〕
上記目的を達成するための本発明の文書処理システム
は、キーワード間の関係を分類体系構造に構造化された
構造化キーワードを用いて所望の文書にアクセスするた
めの文書処理システムであって、検索情報の提供装置と
検索情報の受け取り装置とを備え、検索情報の提供装置
は、入力された文書を格納する文書記憶手段と、第1の
構造化キーワードを格納する第1の記憶手段と、文書の
部分と第1の構造化キーワードとの対応付けを指示する
リンク情報とを含む検索情報を生成する手段とを備え、
検索情報の受け取り装置は、ユーザによって指定された
第2の構造化キーワードを格納する第2の記憶手段と、
第2の構造化キーワードと入力された上記検索情報に基
づいて所望の文書を検索する検索手段と、検索された文
書の部分を指定されたキーワードに対応づけるよう編集
する編集手段とを有するものである。
ここで上記構造化キーワードは、例えば第2図または
第3図に示すように、キーワード辞書の知識分野毎に、
上位概念を表わすキーワードへのリンクと、下位概念を
表わすキーワードへのリンクと、同義語を表わすキーワ
ードへのリンクとの少なくとも一部を有するようにすれ
ばよい。
そして構造化キーワード辞書から選択したキーワード
とこれに対応する文書の部分との対応づけは、例えば第
5図に示すように、構造化キーワード辞書の構造におけ
る、上記文書の部分の意味内容の上位概念のキーワード
と下位概念の当該文書の部分とをリンク情報を用いて結
び付けるようにするのが好ましい。
また上記検索情報と上記構造化キーワードとにより文
書データを検索する検索手段は、例えば第1図に示すよ
うに、検索のためのキーワードを上記構造化キーワード
辞書にしたがって指定する手段と、該キーワードを記憶
する手段と、該キーワードと上記検索情報とにより文書
データを検索する検索手段と、該検索結果を記憶蓄積す
る手段とを備えるようにする。
ここで上記検索結果を記憶蓄積する手段は、検索結果
を編集書式にしたがって編集し、これを記憶蓄積する手
段を含むようにすれば、データの自動編集をするうえで
好ましい。
そして検索のために指定し記憶したキーワードと検索
情報とによって文書データを検索する場合は、該キーワ
ードの下位概念の文書の部分をリンク情報を用いて抜き
出すようにすればよい。
ここで検索情報として、構造化キーワードと、該キー
ワードと文書の部分とを対応づけるリンク情報と、該リ
ンク情報を付加した文書データの少なくとも一部のほか
に、キーワードに対応する文書の部分を複製または抜粋
した情報と、該文書の部分の文書中における位置を示す
文書部分位置指定リンク情報とを、あるいはさらに該文
書の部分が属していたもとの文書の識別情報を少なくと
も含むようにすれば、編集を簡単化したり、データの確
認や訂正を容易にするうえで好ましい。
さらにここで、上記の出力情報および入力情報として
の検索情報は、例えば第1図に示すように通信ネットワ
ークを介して送受信されるものとすることができる。
あるいは上記の出力情報および入力情報としての検索
情報は、例えば第9図に示すように、情報媒体に書き込
まれ、また情報媒体から読み出されるものを少なくとも
含むものとすることができる。
さらに上記目的を達成するための本発明の文書処理方
法は、文書の部分と第1の構造化キーワードとの対応付
けを指示するリンク情報とを含む検索情報を作成し、指
定された第2の構造化キーワード及び作成された検索情
報に基づいて所望の文書を検索し、検索された文書の部
分を指定された第2の構造化キーワードに対応づけるよ
う編集するものである。
〔作 用〕
本発明の検索に用いるキーワードは、キーワード辞書
の知識分野毎にキーワード間の関係を系統的に構造化し
た構造化キーワード辞書にしたがうものである。そして
キーワード間の関係が、ある分野の中で例えば意味的関
係が上位概念と下位概念等の間で標準化された関係で結
ばれたものを基盤として用いることになる。したがって
キーワードの捉え方に個人誤差が少なく、キーワードの
意味的関係を明確に捉えやすい。
文書の部分とキーワードとの対応付けをする場合に、
例えば、意味内容的に同じキーワードに属すべき文書の
部分でも文書中の表現にはいろいろの表現があり得る。
そこで本発明では構造化キーワード辞書から選択したキ
ーワードと文書の部分との間の対応付けをリンク情報を
用いて予め行っておく。したがって本発明では検索に当
たって不要に多くのデータに煩わされることがない。ま
たこのようなリンク情報を用いてキーワードと文書の部
分を対応付けることとキーワードとして標準的な構造化
キーワード辞書を基盤として用いることとにより、保
守、管理の困難性も解決される。
以上のうえにたって、本発明では各々のキーワードに
対応する意味内容をもつ文書の部分とを対応づけるリン
ク情報が文書中の文書の部分に付加されているため、ユ
ーザーが情報を得たい項目についてキーワードを指定す
ると、文書中からキーワードに対応した意味内容を持つ
単語、文節、文などの上記文書の部分を容易に取り出す
ことが可能になる。
さらに、情報処理装置のユーザーが情報を得たい項目
について指定したキーワードを情報処理装置内に記憶し
ておき、情報ネットワークや種々の情報媒体を介して送
られてくる複数の上記文書から、上記指定したキーワー
ドに対応する意味内容を持つ文書の部分を抜き出し、か
つこれを記憶蓄積するようにすることにより、データの
自動収集を行なうことが可能になる。
また予め、収集されるデータの編集書式を指定してお
けば、ユーザーが望むデータを徐々に集積していくこと
が可能になる。例えば、編集書式として表の枠組みを与
え、かつ表の項目にあたる部分に、上記キーワードを指
定しておく。本発明の情報処理装置に、新しい文書デー
タが与えられると、各々のキーワードに対応する意味内
容を持つ文書の部分を上記リンク情報を用いることによ
り取り出し、表中の対応する欄に書き込む。このような
手続きが繰り返されることにより、表が自動的に拡張さ
れていくことになる。
さらにまた、上記文書中から抜き出された文書の部分
に、文書中の位置を示すリンク情報を付加しておき、あ
るいはこの文書の部分が属していたもとの文書の識別情
報を持たせておけば、これを用いて、ユーザーはもとの
文書の該当する部分を即座に呼び出すことが可能にな
る。これにより、キーワードと文書部分の意味的対応が
正しかったかどうかをユーザーが確認し、あるいはこれ
を修正することが容易にできるようになる。
〔実施例〕
以下、本発明の一実施例を第1図により説明する。第
1図において、200は検索情報を作成し送信する情報送
信側のシステムで、500は通信ネットワーク、201は検索
情報を受信し編集検索を行う情報受信側のシステムであ
る。すなわち第1図は検索情報を送受信する場合を例示
している。送信側システムの中で、1は文書データ、2
はキーワード辞書であり、2に含まれるキーワードは第
2図に示すように種々の分野ごとに、その分野の知識に
基づいて、上位概念を表わすキーワードへのリンクと下
位概念を表わすキーワードへのリンクと同義語を表わす
キーワードへのリンクを有するもので、すなわち2は、
上記のようなキーワード間の関係を与えられることで系
統的に構造化されたキーワード辞書となっている。以
下、これを、単に構造化キーワード辞書と呼び、上記リ
ンクで関係づけられた複数のキーワードを構造化キーワ
ードと呼ぶ。3は文書データ1の主題が関係する分野の
キーワードを構造化キーワード辞書から選択し、構造化
キーワードと、構造化キーワードに対応する文書の部分
を対応づけるリンク情報を文書データに付加する手段、
31は3における構造化キーワードと文書の部分の対応づ
けを行なうためのユーザーインタフェースである。また
10は検索情報であり、その内容は、選択された構造化キ
ーワード12と、3により文書・キーワード間リンク情報
が付加されたリンク付文書データ11、及び文書・キーワ
ード間リンク情報13からなる。21は通信インタフェース
であり、21を介して検索情報10が通信ネットワーク500
上に送出される。
情報受信側のシステム201の中で、121は検索情報を受
信するための通信インタフェース、110は受信した検索
情報であり、10の場合と同様、112は構造化キーワー
ド、111はリンク付文書データ、113は文書・キーワード
間リンク情報である。
情報受信ユーザーはユーザーインタフェース131を介
して情報を得たい検索項目と、検索の範囲などのような
条件と、適合する構造化キーワードとを検索項目、条
件、構造化キーワード指定手段102を用いて指定し、103
に記憶させる。101は構造化キーワード辞書であり、送
信側キーワード辞書2と同一の内容を含む。また、情報
受信ユーザーは131を介して、情報の編集書式を編集書
式指定手段104により指定し、105に記憶させる。141
は、103を用いてユーザーが指定した構造化キーワード
と112の一致項目を検索し、一致が得られれば、文書・
キーワード間リンク情報113を用いて、一致した構造化
キーワードに対応する意味内容を持つ文書の部分を抜き
出すための検索手段、142はこれを編集書式105にしたが
って編集し、結果の収集データを150に記憶蓄積させる
ための編集手段である。ユーザーは131を介して150に収
集されたデータを利用することができる。
以下、具体例を用いて第1図の実施例の動作をさらに
説明する。具体例として、マイクロプロセッサの新製品
発表に関する比較表を作る場合を考える。
第3図は系統的に構造化されたキーワードの一例を示
す。マイクロプロセッサという分野を限定することで、
図に示すような系統的キーワード構造が作れる。例え
ば、「性能」というキーワードは、上位に「マイクロプ
ロセッサ」というキーワードを有し、下位に「演算性
能」(単位はMIPS)や「クロック周波数」(単位はMH
z)というキーワードを有する。もし、「性能」の上位
が「エンジン」であれば、下位は「馬力」や「燃費」で
なければならず、第3図に示すように構造化されたキー
ワードを用いることでキーワードの意味を明確にするこ
とができる。
次に第1図の3に示す、構造化キーワードとそれに対
応する意味内容を持つ文書の部分にリンクを付加する手
段について説明する。第4図(a)は3の動作を手順で
示す一例、すなわち文書データに検索のためのリンク情
報を付加する方法を示す一例で、第5図はその説明のた
めの具体例である。
第5図の〔文書〕はマイクロプロセッサの新製品発表
に関する具体例である。これに構造化キーワードを用い
て文書の部分にリンク情報を次のように付加する。ま
ず、第4図(a)の401に示すようにユーザーは文書の
主題であるキーワード「マイクロプロセッサ」、「開
発」を入力する。これにより装置の動作として第1図の
3は、構造化キーワード辞書2に格納されている構造化
キーワードのうち、「マイクロプロセッサ」に関する第
3図の構造を参照し、第4図(a)の402に示すマッチ
ング処理により適合するキーワードを抽出する。例え
ば、「A社」は、第3図により、メーカー名を上位概念
のキーワードとして持つことがわかる。同様に「1.3μ
m」は半導体技術−世代、「CMOS」は半導体技術−プロ
セスを上位概念のキーワードとして持つことがわかる。
本実施例第3図において、演算性能(MIPS)、クロック
周波数(MHz)等で示されるキーワードは、それぞれMIP
S、MHzを単位とする数量に対応づけられるように定めて
ある。これは( )内をパラメータと見ることで表現で
きる。従って、これらのキーワードが第4図(a)の40
2のマッチング処理で抽出された場合、装置動作として
第1図の3は第4図(a)の404に示す構文解析によっ
て、対応する数量へリンクを形成する。なお、第4図
(a)の図中、それぞれの動作手順に対応して(ユーザ
ー)とあるのはその動作が利用者によってなされるもの
であり、(装置)とあるのはその動作が装置側によって
なされるものであり、(ユーザーと装置と連携)は両者
の連携動作によることを示す(この点は第4図(b)に
おいても同じ)。第5図の文書においては、マッチング
処理で抽出されるキーワードは演算性能であるが、構造
化キーワード「演算性能(MIPS)」に対応づけられ、リ
ンク形成される文書の部分は15で示される「10MIPS」で
ある。この際、構文解析の結果形成されたリンクが正当
なものかどうかユーザーは第4図(a)の405により確
認し、誤っている場合は誤まりの補正を実施する。マッ
チング処理で抽出されるキーワードが多すぎる場合、第
4図(a)の403で示すように、ユーザーインタフェー
ス31を介してユーザーによってその取捨選択を行なわせ
ることにより、キーワードの選択を行なってもよい。
第4図(a)の402で抽出されたキーワードで充分か
どうか、ユーザーは406で判断し、ユーザーが情報を検
索するのに必要なキーワードが不足していると判断する
場合、適当なキーワードを407で人手指定する。この場
合、装置側から、追加した方が望ましいキーワードをユ
ーザーに提示するような支援機構を持たせても良い。キ
ーワードを人手指定する場合、構造化キーワード辞書に
適合するものを指定しなければならないことは言うまで
もない。このためにはユーザー支援機構を公知の方法で
ユーザーインタフェース31に組み込むことができる。こ
れにより、第5図に示すキーワード「チップ名称」と文
書の部分「A40540」を対応づける21のリンク形成をユー
ザーが行なえる。
第3図の説明では、簡単のため、同義語をもってマッ
チング成立する場合を省略しているが、この処理により
例えば、第5図文書の「このたび」を第3図の「時期」
にマッチングさせることができる。明らかに、このマッ
チング処理では、「このたび」がある「時期」について
言及していることが判るだけであり、リンク形成は困難
である。この場合、第4図(a)405に示すようにユー
ザーはキーワードの意味に対応する文書の部分31「'87
年5月」を第5図の文書に追加し、さらに、キーワード
としては「時期」の下位概念にあたる「発表時期(年
月)」を選びリンク形成する。追加した文書の部分につ
いては、もとの「このたび」の注であることがわかるよ
うにリンク形成しておいてもよい。
第5図においては、文書の部分と構造化キーワードを
対応づけるリンク情報を数字の対応関係で示している
が、システム構成上はポインタを用いる等の公知の方法
で実現することができる。
次に、第1図において104を用いて編集書式を指定
し、102を用いて、検索項目、条件、構造化キーワード
を指定する動作を具体例を用いて説明する。
第4図(b)は編集・検索によるデータ収集動作を手
順で示した例図である。その中で、(1)は全体のデー
タ収集手順(4000〜8000等)を示す図、(2)は手順40
00を手順4100、4200等で詳細に示す図、(3)、(4)
はそれぞれ手順4100、4200をさらに詳細に示す図であ
り、以下(5)〜(8)によって同様に手順の一部をさ
らに詳細に図示している。
第6図は編集書式とこれに対応づけられた検索項目・
条件の例を示す。
まず、受信側ユーザーはユーザーインタフェース131
を介して第4図(b)の(1)および(2)の図に示す
ように、データ収集前処理手順4000として編集書式を指
定する(4100)とともに検索項目、条件、構造化キーワ
ードを指定する(4200)。この場合の編集書式は第6図
に示す表であり、(3)の図のように、ユーザーは表の
枠組みを入力する(4110)とともに見出し項目を入力し
(4120)、これにより装置側が表の各欄に対応づけて、
検索項目・条件を指定するフィールドを設定する(421
0)。これらの設定入力は、公知のスプレッド・シート
等表計算システムと同様に容易に表現できる。第6図に
おいて、a0は検索の条件を指定するフィールド、a1〜a4
は、各見出し項目に対応する検索項目を指定するフィー
ルドである。第7図はa0〜a4の記述の例であり、第1図
の構造化キーワード辞書101を参照して、ユーザーはユ
ーザーインタフェース131の対話的支援により、正しい
キーワードの指定を行なう(4220)ことができる。この
場合、第7図あるいは第4図(b)の(4)の図のよう
に、まず検索条件701を指定する(4210)。検索条件フ
ィールドに検索条件を指定する手順4210は、(5)の図
に示すように、ユーザーと装置側との連携による4211〜
4219が行われて検索条件が確定される。この場合はマイ
クロプロセッサと新製品発表のAND条件を702で指定して
いる。これを入力することにより、(6)の図に示すよ
うな手順で、構造化キーワード辞書のうちマイクロプロ
セッサに関連するキーワードの構造がユーザーインタフ
ェースを介してユーザーに提示され、以下のキーワード
指定はこの構造に従って対話的に行なう(4221〜422
3)。なお、第7図ではキーワード間のリンクを?で表
わす。
上記のような手順により、第7図の703〜705では発表
時期(年月)を検索して求め、その値を変数YMに代入す
る。706ではYMに代入された年月が「'87年1月」以降の
ものであるという検索条件を702にさらにAND条件で指定
している。707はYMをa1フィールドに記入することを指
定する。708〜709はメーカー名をa2フィールドに記入す
ることを指定する。710〜712はアーキテクチャがCISC、
RISCのいずれであるかを選択してa3フィールドに記入す
ることを指定する。713〜715では演算性能(MIPS)を検
索して、a4フィールドに記入することを指定する。ここ
で、発表時期(年月)、演算性能(MIPS)等のキーワー
ドはパラメータ付であり、これはキーワードに対応する
数量的データを文書中からリンク情報を用いて抽出して
くることを指定する。
データの自動収集については、第4図(b)の(1)
の図の手順5000〜7000により、さらに詳細には(7)お
よび(8)の図に示すような装置側の自動的な動作によ
って行われる。すなわち、構造化キーワードや文書・キ
ーワード間リンク情報やリンク付き文書データの検索情
報が入力データとして入力される(5000)と、検索条件
の構造化キーワードとのマッチング処理による検索が行
われ(6100)、検索条件に適合するデータが抽出され、
その中から編集書式にしたがってデータ編集が行われる
(6200)。このデータ編集はさらに、検索項目の構造化
キーワードと検索情報の構造化キーワードとのマッチン
グ処理手順(6210)と、文書・キーワード間リンク情報
とリンク付き文書データを用いてキーワードに対応する
文書部分を抽出する手順(6220)と、検索項目指定フィ
ールドへ編集書式にしたがってキーワード対応の文書部
分を格納する手順(6230)とによって編集動作が進めら
れる。また編集された文書部分にはもとの文書中におけ
るリンク情報が設定され(6300)、修正などの際に利用
される。
第8図は、上記のような手順によって自動収集された
データの例である。本発明では通信ネットワーク経由で
送られてくる情報から、このような比較表を自動的に作
成できる。さらに時間とともにデータが所望の書式で自
動的に増えていく、という利点があることがわかる。
なお、第1図の実施例では、送信側と受信側が通信ネ
ットワークを介して結ばれる例を示したが、ここで通信
ネットワークは有無線の放送あるいは通信回線を意味す
るものである。また第1図において、通信インタフェー
ス21、121および通信ネットワーク500を介することな
く、検索情報を作成するシステムと検索編集を行うシス
テムとの間で検索情報を配線を介して授受できることは
いうまでもない。このことは、第1図のみならず後述の
図面においても同様である。
第9図は本発明の他の実施例を示したものである。第
9図において、第1図の実施例と異なるのは、第1図で
検索情報10が通信ネットワークを介して送られたことに
対して、本実施例では、検索情報810が、情報媒体に格
納され、これがそのまま、もしくは複製された媒体ごと
送られる点である。このような情報媒体としては、磁気
テープ、磁気ディスク、光ディスク、光磁気ディスク等
を使用することができる。第9図において831は媒体に
検索情報を書き込むための書き込みインタフェース、93
1は、検索情報を読み出すための読み出しインタフェー
スであり、その他の部分は、第1図の同一名称の部分と
同様の動作を行なう。本実施例においては、情報の伝達
がオフラインとなるが、通信コストを第1図の場合より
も大幅に安くできるメリットがある。なお、第1図と第
9図の両方の機能を併せて持つ構成も用途に合わせて使
うことができ効果的である。
第10図は本発明の他の実施例である。本実施例が第1
図の実施例と異なるのは、情報送信側のキーワード対応
文書部分1014が、文書データから別に独立に保持される
点である。
本実施例は、送られてくる情報(文書)の内容が、キ
ーワードに対して簡単な関係にある場合に有効である。
第1図の実施例の場合、リンク付文書データと構造化
キーワードとの関係が複雑で、リンク情報が多量とな
り、予めユーザーに必要となる文書の部分の抽出を行う
ことが困難な場合に適する。これに対し、本実施例で
は、上記のようにキーワードと文書の内容の対応関係が
簡単なため、ユーザーが必要とする文書の部分の候補を
予め限定することができる。この場合、予め抽出した文
書の部分の候補の形で送達することにより、ユーザー側
処理の負担を軽減することができる。また文書の全体を
常に送達せず、キーワードに対応する文書の部分のみを
送る場合、通信その他のコストを低く抑えられる利点が
ある。
第10図で、構造化キーワード1012とキーワード対応文
書部分1014を対応づけるキーワード・文書部分間リンク
情報1013が、キーワードに対応する意味内容を含む文書
の部分を示す。また、キーワード対応文書部分が抜き出
された(コピーされた)ため、それが文書中のどの位置
から抜き出されたものか示す、文書部分位置指定リンク
情報1015が、リンク付文書データ1016に付加されてい
る。1012、1013、1014、1015、1016はそれぞれ、受信側
で1112、1113、1114、1115、1116に対応する。本実施例
ではキーワード対応文書部分1114が具体的な形で抜き出
されているため、編集1142は、第1図の場合より簡単に
できる。編集したデータは1150、その検索情報データは
1160に記憶蓄積される。
第11図は、本実施例で、構造化キーワードと、キーワ
ード対応文書部分がどうなるかを第5図の例を用いて示
したものである。例えば「メーカー名」に対し、「A
社」をあらわに持つことが本実施例の特徴である。そし
て図示のようにキーワード対応文書部分には文書部分位
置指定リンク情報が付加されている。
第12図は収集編集データ1150と収集文書データ1160の
内容を示したものである。編集データの方は、第6図の
ような編集書式3001に従って、キーワードに対応する文
書部分3002(例えば、「A社」)を保持する。ここで、
この文書部分には、図のようにもとの文書の識別情報30
04ともとの文書中で3002がある位置を示すリンク情報30
03が付加されている。第12図の収集文書データは、検索
情報に、3004に対応する文書識別情報3014を付加したも
のである。
第10図で情報受信ユーザーが、ユーザーインタフェー
ス1131を介して収集編集データを見る場合、ユーザーは
必要に応じて、表中の項目が、どの文書のどの部分から
抽出されたかを1170によって確認することができる。ま
た、その結果、例えばキーワードの誤解等がわかった場
合、ユーザーはこれを直ちに訂正することができる。こ
の経過は適応パラメータ1180としてユーザーインタフェ
ースに記憶させることにより、次回の検索で同じ誤りが
生ずることを防ぐことができる。
第13図は本発明の他の実施例を示したものである。第
13図の実施例が第10図の実施例と異なるのは、第13図で
は文書データそのものは常には送信せず、受信側でユー
ザーの要求があった際に送信する点である。本実施例で
は、受信側に常に送られるものは、構造化キーワード21
12とキーワード対応文書部分2114、そのリンク情報2113
に、もとの文書の識別情報2117を付加したものである。
ユーザー要求によってもとのデータが必要となった場
合、2170から通信インタフェース2122を介して送信側へ
文書識別情報が送られ、該当する検索情報が送信側のフ
ァイル2018から受信側のバッファ・ファイル2170に送ら
れる。後の処理は第10図の場合と同様である。
〔発明の効果〕
以上説明したように、本発明においては、キーワード
に対応する意味内容をもつ文書の部分とキーワードとを
対応づけるリンク情報を文書に付加することで、キーワ
ードを指定して当該の意味内容を取り出すことができ、
ユーザーの目的に合致したデータの自動収集を行なうこ
とができる。
【図面の簡単な説明】
第1図、第9図、第10図、第13図は本発明の情報処理装
置の一実施例を示す図、第2図は構造化キーワードの構
成を示す図、第4図(a)、第4図(b)は本発明の情
報処理方法の手順例を示す図、第3図、第5図、第6
図、第7図、第8図、第11図、第12図は本発明装置の実
施例の動作を説明するための図である。 符号説明 1……文書データ 2、101……構造化キーワード辞書 3……構造化キーワード・文書間リンク付加手段 10、110……検索情報 141……検索手段 142……編集手段 102……検索項目、条件、構造化キーワード指定手段 103……検索項目、条件、構造化キーワード記憶手段 104……編集書式指定手段 105……編集書式記憶手段
フロントページの続き (72)発明者 阿部 正博 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (56)参考文献 特開 昭60−140443(JP,A) 特開 平2−14367(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】キーワード間の関係を分類体系構造に構造
    化された構造化キーワードを用いて所望の文書にアクセ
    スするための文書処理システムであって、 上記文書処理システムは、検索情報の提供装置と検索情
    報の受け取り装置とを備え、 上記提供装置は、入力された文書を格納する文書記憶手
    段と、第1の構造化キーワードを格納する第1の記憶手
    段と、上記文書の部分と第1の構造化キーワードとの対
    応付けを指示するリンク情報とを含む検索情報を生成す
    る検索情報生成手段とを備え、 上記受け取り装置は、ユーザによって指定された第2の
    構造化キーワードを格納する第2の記憶手段と、第2の
    構造化キーワードと入力された上記検索情報に基づいて
    所望の文書を検索する検索手段と、検索された文書の部
    分を指定された第2の構造化キーワードに対応づけるよ
    う編集する編集手段とを備えたことを特徴とする文書処
    理システム。
  2. 【請求項2】入力された文書を格納する文書記憶手段
    と、キーワード間の関係を分類体系構造に構造化された
    構造化キーワードを格納する記憶手段と、上記文書の部
    分と構造化キーワードとの対応付けを指示するリンク情
    報とを含む検索情報を生成する手段とを設け、所望の文
    書にアクセスするための文書処理システムに含まれる文
    書処理装置であって、 上記文書処理装置は、ユーザによって指示された構造化
    キーワードを格納する記憶手段と、指定された構造化キ
    ーワードと入力された上記検索情報に基づいて所望の文
    書を検索する検索手段と、検索された文書の部分を指定
    されたキーワードに対応づけるよう編集する編集手段と
    を備えたことを特徴とする文書処理装置。
  3. 【請求項3】入力された文書、キーワード間の関係を分
    類体系構造に構造化された構造化キーワード及び上記文
    書の部分と構造化キーワードとの対応付けを指示するリ
    ンク情報を各々格納する記憶手段を設け、所望の文書に
    アクセスするための文書処理システムにおける文書処理
    方法であって、 上記文書の部分と第1の構造化キーワードとの対応付け
    を指示するリンク情報とを含む検索情報を作成し、 ユーザによって指示された第2の構造化キーワードと作
    成された上記検索情報に基づいて所望の文書を検索し、
    検索された文書の部分を指定された第2の構造化キーワ
    ードに対応づけるよう編集することを特徴とする文書処
    理方法。
  4. 【請求項4】請求項第3項の文書処理方法において、上
    記文書の部分を上記構造化キーワードの中の下位概念の
    キーワードとするところの上位概念のキーワードと上記
    文書の部分とを上記リンク情報によって対応付けること
    を特徴とする文書処理方法。
  5. 【請求項5】請求項第3項の文書処理方法において、上
    記検索ステップによって、指定された第2の構造化キー
    ワードに対応する文書の部分をリンク情報に基づいて抜
    き出すことを特徴とする文書処理方法。
JP2219039A 1990-08-22 1990-08-22 文書処理システム及び文書処理方法 Expired - Fee Related JP2895184B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2219039A JP2895184B2 (ja) 1990-08-22 1990-08-22 文書処理システム及び文書処理方法
DE69130883T DE69130883T2 (de) 1990-08-22 1991-08-01 Informationsverarbeitungssystem und Verfahren für die Verarbeitung von Dokumenten mit strukturierten Schlüsselwörtern
EP91112972A EP0472026B1 (en) 1990-08-22 1991-08-01 Information processing system and method for processing document by using structured keywords
US07/741,760 US5307266A (en) 1990-08-22 1991-08-07 Information processing system and method for processing document by using structured keywords

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2219039A JP2895184B2 (ja) 1990-08-22 1990-08-22 文書処理システム及び文書処理方法

Publications (2)

Publication Number Publication Date
JPH04102171A JPH04102171A (ja) 1992-04-03
JP2895184B2 true JP2895184B2 (ja) 1999-05-24

Family

ID=16729301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2219039A Expired - Fee Related JP2895184B2 (ja) 1990-08-22 1990-08-22 文書処理システム及び文書処理方法

Country Status (4)

Country Link
US (1) US5307266A (ja)
EP (1) EP0472026B1 (ja)
JP (1) JP2895184B2 (ja)
DE (1) DE69130883T2 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
US5457792A (en) * 1991-11-07 1995-10-10 Hughes Aircraft Company System for using task tables and technical data from a relational database to produce a parsed file of format instruction and a standardized document
US5499329A (en) * 1992-04-30 1996-03-12 Ricoh Company, Ltd. Method and system to handle context of interpretation in a document processing language
JPH06309365A (ja) * 1993-04-20 1994-11-04 Fuji Xerox Co Ltd 文書処理装置
JP3444948B2 (ja) * 1993-12-28 2003-09-08 キヤノン株式会社 文書編集装置および文書編集方法
JP2687882B2 (ja) * 1994-07-05 1997-12-08 日本電気株式会社 検索条件統合装置
US6243172B1 (en) * 1995-01-18 2001-06-05 Varis Corporation Method and system for merging variable text and images into bitmaps defined by a page description language
US5729665A (en) * 1995-01-18 1998-03-17 Varis Corporation Method of utilizing variable data fields with a page description language
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document
US6336094B1 (en) * 1995-06-30 2002-01-01 Price Waterhouse World Firm Services Bv. Inc. Method for electronically recognizing and parsing information contained in a financial statement
US5740425A (en) * 1995-09-26 1998-04-14 Povilus; David S. Data structure and method for publishing electronic and printed product catalogs
US5873107A (en) * 1996-03-29 1999-02-16 Apple Computer, Inc. System for automatically retrieving information relevant to text being authored
US7349892B1 (en) * 1996-05-10 2008-03-25 Aol Llc System and method for automatically organizing and classifying businesses on the World-Wide Web
AU4495597A (en) 1996-09-23 1998-04-14 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
US5940821A (en) * 1997-05-21 1999-08-17 Oracle Corporation Information presentation in a knowledge base search and retrieval system
US6487568B1 (en) * 1997-07-18 2002-11-26 Tesseron, Ltd. Method and system for flowing data to an arbitrary path defined by a page description language
US6418429B1 (en) 1998-10-21 2002-07-09 Apple Computer, Inc. Portable browsing interface for information retrieval
US6461166B1 (en) 2000-10-17 2002-10-08 Dennis Ray Berman Learning system with learner-constructed response based testing methodology
US7074128B2 (en) 2001-08-03 2006-07-11 Drb Lit Ltd. Method and system for enhancing memorization by using a mnemonic display
WO2004057495A1 (en) * 2002-12-20 2004-07-08 Koninklijke Philips Electronics N.V. Query by indefinite expressions
US7357640B2 (en) * 2003-07-02 2008-04-15 Drb Lit Ltd. Lock-In Training system
US7383171B2 (en) * 2003-12-05 2008-06-03 Xerox Corporation Semantic stenography using short note input data
TWM249950U (en) * 2004-01-02 2004-11-11 Cvc Technologies Inc Cap tightening machine capable of controlling tightening torque
US7364432B2 (en) * 2004-03-31 2008-04-29 Drb Lit Ltd. Methods of selecting Lock-In Training courses and sessions
US20060074980A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
US8688673B2 (en) * 2005-09-27 2014-04-01 Sarkar Pte Ltd System for communication and collaboration
DE102006001840B4 (de) * 2006-01-13 2007-10-11 Universität Konstanz Verfahren zum computergestützten Bearbeiten von Quelldatenelementen, System und Computerprogrammprodukt
JP4878477B2 (ja) * 2006-01-18 2012-02-15 富士通株式会社 情報検索適切度判定処理プログラムおよびオペレータスキル判定処理プログラム
US8356244B2 (en) * 2006-06-20 2013-01-15 The Boeing Company Managing changes in aircraft maintenance data
JP4865526B2 (ja) * 2006-12-18 2012-02-01 株式会社日立製作所 データマイニングシステム、データマイニング方法及びデータ検索システム
US8135716B2 (en) * 2008-12-10 2012-03-13 Sap Ag Systems and method for mapping large object data content in a database table to a work area
CA2775944A1 (en) * 2009-10-05 2011-04-14 Fabtale Productions Pty Ltd Interactive electronic document
JP5441760B2 (ja) * 2010-02-25 2014-03-12 三菱電機株式会社 文書間距離算出器および文章検索器
JP5749626B2 (ja) * 2011-10-21 2015-07-15 株式会社アプリ・スマート ウェブ情報提供システム及びウェブ情報提供プログラム
US9521189B2 (en) * 2013-08-21 2016-12-13 Google Inc. Providing contextual data for selected link units
US9442944B2 (en) 2013-11-12 2016-09-13 Dropbox, Inc. Content item purging
US11321559B2 (en) * 2019-10-17 2022-05-03 Adobe Inc. Document structure identification using post-processing error correction
US11386685B2 (en) 2019-10-17 2022-07-12 Adobe Inc. Multiple channels of rasterized content for page decomposition using machine learning

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
JPS61220027A (ja) * 1985-03-27 1986-09-30 Hitachi Ltd 文書ファイリングシステム及び情報記憶検索システム
US5123103A (en) * 1986-10-17 1992-06-16 Hitachi, Ltd. Method and system of retrieving program specification and linking the specification by concept to retrieval request for reusing program parts
US4972349A (en) * 1986-12-04 1990-11-20 Kleinberger Paul J Information retrieval system and method
EP0280866A3 (en) * 1987-03-03 1992-07-08 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
GB8719572D0 (en) * 1987-08-19 1987-09-23 Krebs M S Sigscan text retrieval system
US4992972A (en) * 1987-11-18 1991-02-12 International Business Machines Corporation Flexible context searchable on-line information system with help files and modules for on-line computer system documentation
JPH021057A (ja) * 1988-01-20 1990-01-05 Ricoh Co Ltd 文書検索装置
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
US4958284A (en) * 1988-12-06 1990-09-18 Npd Group, Inc. Open ended question analysis system and method
US5099426A (en) * 1989-01-19 1992-03-24 International Business Machines Corporation Method for use of morphological information to cross reference keywords used for information retrieval

Also Published As

Publication number Publication date
EP0472026A2 (en) 1992-02-26
JPH04102171A (ja) 1992-04-03
DE69130883D1 (de) 1999-03-25
DE69130883T2 (de) 1999-09-16
EP0472026A3 (en) 1993-06-30
EP0472026B1 (en) 1999-02-10
US5307266A (en) 1994-04-26

Similar Documents

Publication Publication Date Title
JP2895184B2 (ja) 文書処理システム及び文書処理方法
US5673428A (en) Information collection system connected to a communication network
US5845278A (en) Method for automatically selecting collections to search in full text searches
US6018733A (en) Methods for iteratively and interactively performing collection selection in full text searches
US5983216A (en) Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
JP4398992B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
US6928425B2 (en) System for propagating enrichment between documents
US20050149519A1 (en) Document information search apparatus and method and recording medium storing document information search program therein
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US20030033288A1 (en) Document-centric system with auto-completion and auto-correction
US20110184827A1 (en) System with user directed enrichment
US20080183710A1 (en) Automated Media Analysis And Document Management System
US6697798B2 (en) Retrieval system of secondary data added documents in database, and program
JP2005251115A (ja) 連想検索システムおよび連想検索方法
JPH11353313A (ja) 情報検索方法及び情報自動分類方法並びに情報分析方法
US20060253433A1 (en) Method and apparatus for knowledge-based music searching and method and apparatus for managing music file
KR102593884B1 (ko) 문서 자동 작성 시스템 및 방법, 컴퓨터로 독출 가능한 기록 매체
JP2002049638A (ja) 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
WO1999014691A1 (en) Methods for iteratively and interactively performing collection selection in full text searches
JPH117452A (ja) ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体
JPH11161656A (ja) データベース検索・抽出システムおよびデータベース検索・抽出用制御プログラムを記録した記録媒体
US7873659B2 (en) Database management system, database management method and database management program
JP3379985B2 (ja) 翻訳例文検索装置
JP5644087B2 (ja) 構成要素ハイライト装置、プログラム、及び方法
CN118643053A (zh) 一种适用于RAG场景下PDF和Excel共存的检索方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees