JP2004030021A - 文書処理装置および方法 - Google Patents

文書処理装置および方法 Download PDF

Info

Publication number
JP2004030021A
JP2004030021A JP2002182883A JP2002182883A JP2004030021A JP 2004030021 A JP2004030021 A JP 2004030021A JP 2002182883 A JP2002182883 A JP 2002182883A JP 2002182883 A JP2002182883 A JP 2002182883A JP 2004030021 A JP2004030021 A JP 2004030021A
Authority
JP
Japan
Prior art keywords
document
common
character information
documents
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002182883A
Other languages
English (en)
Inventor
Sayori Shimohata
下畑 さより
Tokuji Ikeno
池野 篤司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2002182883A priority Critical patent/JP2004030021A/ja
Priority to US10/600,535 priority patent/US20030237042A1/en
Publication of JP2004030021A publication Critical patent/JP2004030021A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】利便性を高める。
【解決手段】文字情報を含む複数の文書を要素とする集合に関して処理を行う文書処理装置において、前記集合中の各文書に関し、前記文字情報の共通性を抽出して、前記集合全体に共通の意味内容を表現した文書である共通文書を生成する共通文書生成手段を備える。またこの文書処理装置において、前記共通文書生成手段が、前記集合中の複数の文書をもとに所定の生成手順を実行して、新たな文書として前記共通文書を生成するか、または、予め文字情報に共通性のある文書を選んで前記集合を構成した上で、前記集合中の複数の文書のなかから所定の選択手順に応じて1つの文書を選択し、選択した当該文書を前記共通文書とすることで前記共通文書を生成することは好ましい。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は文書処理装置および文書処理方法に関し、例えば、同じキーワードを検索キーとしてテキストデータベースを検索した結果として得られる複数の同類のテキストを処理し、表示する場合などに適用して好適なものである。
【0002】
【従来の技術】
従来のこの種の装置としては次の文献1に開示されるものがある。
文献1:特開平9−231238号公報
文献1の表示装置が実行する処理は、テキスト集合を自動的に複数個のグループに分割する分割ステップと、当該分割ステップによって得られた各グループのそれぞれについて、当該グループの属性を表現する主題分類情報を生成する生成ステップと、当該生成ステップで求めた各グループの主題分類情報をグループ別に区分して表示する表示ステップとから構成されている。
ここで、主題分類情報とは、テキストの内容に対応した情報で、キーワードの組あるいは、短い文章を指す。
文献1の表示装置ではまた、前記グループと検索条件の間の適合度、および、グループ内の各テキストの、当該グループに対する所属度を算出するステップを有し、これらの値にしたがって表示するグループやテキストの順番を選択することも可能である。
【0003】
【発明が解決しようとする課題】
しかしながら、上記のような表示装置では、グループごとに提示される各グループの主題分類情報、すなわち、キーワードの組や短い文章からそのグループに含まれるテキストの内容を判断しなければならない。多くの場合、キーワードの組や短い文章だけからそのグループに含まれるテキストの内容(あるいは、グループの概要)を的確に判断することは困難であるため、結局、ユーザはグループに含まれる個々のテキストを読むことによってしか、検索結果を確認することができず、グループの概要を知ることもできない。
【0004】
したがって、検索結果を確認したり、グループの概要を知るために長い時間と手数を要し、利便性に欠ける構成となっている。
【0005】
また、上記表示装置において当該主題分類情報が得られるのは、テキスト集合が得られ、さらに当該テキスト集合を分割してグループが得られたあとであるから、テキスト集合が得られた時点では当該主題分類情報さえ存在せず、ユーザがテキスト集合の概要を知るには、個々のテキストを読む以外の方法はなく、極めて利便性が低い。
【0006】
【課題を解決するための手段】
かかる課題を解決するために、第1の発明では、文字情報を含む複数の文書を要素とする集合に関して処理を行う文書処理装置において、前記集合中の各文書に関し、前記文字情報の共通性を抽出して、前記集合全体に共通の意味内容を表現した文書である共通文書を生成する共通文書生成手段を備えることを特徴とする。
【0007】
また、第2の発明では、文字情報を含む複数の文書を要素とする集合に関して処理を行う文書処理方法において、共通文書生成手段が、前記集合中の各文書に関し、前記文字情報の共通性を抽出して、前記集合全体に共通の意味内容を表現した文書である共通文書を生成することを特徴とする。
【0008】
【発明の実施の形態】
(A)実施形態
以下、本発明にかかる文書処理装置および方法を、検索エンジンを含む閲覧システムに適用した場合を例に、実施形態について説明する。
【0009】
(A−1)第1の実施形態の構成
本実施形態にかかる閲覧システム10の全体構成例を、図1に示す。図1の各構成要素1〜5は、イントラネット内や、あるいは1つの情報処理装置の内部に配置されるものであってもよいが、ここでは、インターネット上に分散配置されるものとして説明する。
【0010】
図1において、当該閲覧システム10は、入出力部1と、テキストデータベース2と、検索エンジン3と、テキスト集合蓄積部4と、テキスト加工処理部5と、作業用データベース6とを備えている。
【0011】
このうち入出力部1は、当該閲覧システム10を利用するユーザU1の操作する通信端末に相当する部分で、ハードウエア的には例えばキーボードやマウスなどのポインティングデバイス、ディスプレイ装置、ハードディスクやメモリ装置などを有するパーソナルコンピュータ等が該当し、ソフトウエア的には、当該パーソナルコンピュータが搭載するブラウザ等が該当し得る。
【0012】
ブラウザとしてはWebページを閲覧するためのWebブラウザがよく知られているが、単にブラウザと呼ぶときは、必ずしもWebブラウザにかぎらず、何らかの情報を閲覧する機能を持つソフトウエア全般を指す。
【0013】
検索エンジン3は、ユーザU1の操作に応じて入出力部1から供給される1または複数のキーワードをもとに全文検索を実行する部分である。
【0014】
全文検索とは文書中のすべての文字列から目的の文字列を検索する操作をいう。したがって、例えば、新聞の内容を記述したWebページを検索する場合には、当該Webページを構成するHTMLファイル中の全文字列が検索の対象になる。
【0015】
全文検索の機能は、必要ならば前記入出力部1を有するパーソナルコンピュータに搭載してもかまわないが、Web(WWW)上ならば、専門の検索サービス業者がすでに提供している検索サービスを利用することができる。
【0016】
テキストデータベース2は、ハードウエア的には、ハードディスクや光ディスクなどの記憶装置を利用して、多数のテキストを蓄積しているデータベースである。ここで、テキストとは、文書(ドキュメント)と同義である。文書には、データ形式がテキスト形式であるテキストデータ(プレーンテキスト形式のデータ)のほか、GIFやJPEG等の画像データなども含まれ得る。通常の1つのWebページは、基本となる1つのHTMLファイル(データ形式として、HTML形式はテキスト形式の一種である)のほかに、1または複数の画像ファイルなどによって構成され得るので、この文書に該当し得る。
【0017】
この意味で、テキストデータベース2は、各種のWebページを提供する1または複数のWebサーバと見ることができる。
【0018】
また、Web上の検索サービス業者が検索の対象としているのは、世界中のWebページであることからすると、テキストデータベース2は、世界中に分散配置された膨大な数のWebページ(Webサーバ)によって構成されるWeb(ワールド・ワイド・ウエブ)そのものであると見ることもできる。
【0019】
もちろん、テキストデータベース2は、テキスト(文書)を蓄積するデータベースであるから、Webページ以外の文書(例えば、XMLで記述された文書や、PDFなどの電子出版用のデータ形式で記述された文書など)が含まれていてもかまわない。
【0020】
HTML形式では、文字の位置や大きさなどを情報の送り手側が詳細に指定することが難しく、色彩の表現力などの点でも、通常の紙媒体の出版物(雑誌や書籍など)に比べるとかなり劣るため、インターネット上の出版物には、送り手側の意思をより忠実に反映することが可能なPDF形式などが利用されることが多い。なお、PDF形式で記述された文書は、通常のWebブラウザの機能だけでは閲覧できないため、入出力部1が通常のWebブラウザだけしか搭載していない場合には、Webブラウザの機能を拡張するプラグインソフトを搭載することが必要になる。
【0021】
PDF形式など、通常のテキスト形式と異なるデータ形式で記述されたファイルは、検索の対象とする前にテキスト形式に変換しておくこと等により、容易に、検索エンジン3の検索対象とすることができる。
【0022】
また、画像データとして文字が記述されることもあり得るが、このような文字も、適宜、テキスト形式に変換することによって検索エンジン3による検索の対象とすることが可能である。
【0023】
テキスト加工処理部5は、検索エンジン3が前記キーワードを用いた検索の結果として得た複数の文書を加工する部分で、加工後の文書は、テキスト集合蓄積部4に蓄積する。本実施形態では、検索エンジン3による検索の結果として、内容の類似した複数の文書が得られる場合を想定する。具体的には、例えば、同一の事件に関して記述した同日付けの異なる新聞社による新聞記事などは、ここでいう内容の類似した複数の文書に該当し得る。
【0024】
一般的には、1つの検索に関し、検索エンジン3に供給するキーワードの数が多いほど、また個々のキーワードが特徴的で識別性が高いものであるほど、検索結果として得られる複数の文書の内容は類似したものとなる傾向がある。検索の結果として得られる文書の数は偶発的で予測困難な事象であるから、1つの文書しか得られない可能性もあるが、テキストデータベース2に蓄積されている文書の数が十分に多ければ、多くの場合、複数の文書が得られる。
【0025】
本実施形態では、検索エンジン3による検索の結果として得られた内容の類似した複数の文書は、1つのテキスト集合(文書集合)を構成するものと考え、当該テキスト集合をテキスト加工処理部5の処理の対象とする。なお、当該テキスト集合は、前記文献1の用語との関係では、前記グループではなく、前記テキスト集合に相当する概念である。
【0026】
(A−1−1)テキスト加工処理部の内部構成例
図1に示すように、当該テキスト加工処理部5は、主題情報生成部5Aと、差分情報生成部5Bと、情報提示部5Cとを備えている。
【0027】
このうち主題情報生成部5Aは、1つのテキスト集合中の全文書の内容をもとに主題情報を生成する部分である。主題情報とは、当該テキスト集合の主題を示すのに十分な内容を備えた文章である。テキスト集合の主題は、基本的に、1つのテキスト集合中の全文書に共通する内容の文章によって表現される。
【0028】
例えば、1つのテキスト集合TXG1が3つの文書TX1〜TX3から構成されている場合、テキスト集合TXG1の主題情報TH1は、文書TX1〜TX3のすべてに共通する内容の文章として表現することができる。
【0029】
本実施形態における主題情報TH1の表現法には大きく分けて2通りの方法がある。その1つは、文書TX1〜TX3の内容をもとに、これらの要約となる新たな文書TXAを生成し当該文書(要約)TXAによって主題情報TH1を表現する方法(要約生成法)であり、もう1つは、文書TX1〜TX3のなかから適切な文書を選択し、選択した文書(例えば、TX3)自体で主題情報TH1を表現する方法(代表選択法)である。
【0030】
要約生成法の実現には、例えば、前記文書TX1〜TX3に共通する文節を検出し、検出された各文節を組み合わせることによって前記要約TXAを生成する方法など、様々な方法が使用可能であるが、一例として、次の文献2に記載された方法を用いることもできる。
【0031】
文献2:Columbia Multi−document Summarization: Approach and Evaluation
K.R. McKeown, R. Barzilay, D. Evans, V. Hatzivassiloglou, M.Y. Kan, B.
Schiffman, S. Teufel  DUC’01
代表選択法の実現にも様々な方法が使用可能であるが、例えば、前記文書TX1〜TX3に共通して数多く出現する表現(頻出表現)を抽出し、文書TX1〜TX3のうち当該頻出表現が最も多く含まれる文書(例えば、TX3)を代表として選択する方法を用いることができる。
【0032】
差分情報生成部5Bは、前記主題情報TH1に対する各文書(要約生成法を用いた場合にはTX1〜TX3、代表選択法を用いた場合には、代表として選択された以外の2つの文書(例えば、TX1,TX2))の差分を抽出する部分である。当該差分(差分情報)は、前記頻出表現を含む単位を各文書に共通する共通情報とし、頻出表現を含まない単位を各文書に固有な固有情報とすれば、当該固有情報として抽出される。ここで、単位とは、節、文、段落などの文法上の単位を指す。
【0033】
差分を抽出したあと、各文書中の差分に該当する単位をマークアップ言語のタグの属性によって、当該単位が差分に該当する旨を指定することができる。
【0034】
例えば、当該マークアップ言語がXML(データ形式として、XML形式はテキスト形式の一種である)の場合には、開始タグと終了タグで当該単位を挟み、開始タグの中に記述する属性によって、当該単位が差分に該当する旨を記述することができる。この場合、必要に応じて、差分情報生成部5Bにおいて、HTMLなどからXMLへのデータ形式の変換を実行することになる。当該単位が差分に該当する旨を示し、なおかつ再利用可能な形で保存するためには、もともとテキストデータベース2上の文書がXML文書でそのようなタグや属性がすでに定義されている場合などを除き、通常は、新たなタグや、新たな属性の定義が必要になり、このような定義が許容されるXML形式を利用する必要があるからである。
【0035】
前記文書TX1〜TX3を当該XML形式に変換したあとの文書をXX1〜XX3と書く。XML形式の文書XX1は前記TX1に対応し、XML形式の文書XX2は前記TX2に対応し、XML形式の文書XX3は前記TX3に対応する。
【0036】
ただしXML文書は、タグを用いて文書の論理構造を示すだけなので、実際に、各XML文書XX1〜XX3の入出力部1における表示方法(ユーザU1が各文書を閲覧する場合の見え方(すなわち、スタイル))を定義するには、スタイルシート言語を用いて具体的な表示方法を定義する必要がある。
【0037】
情報提示部5Cは、前記主題情報生成部5Aで得られた主題情報TH1、差分情報生成部5Bで得られたXML文書XX1〜XX3などを、入出力部1のブラウザで表示するのに適した所定の表示形態に加工してユーザU1に提示する部分である。
【0038】
したがって、前記スタイルシート言語を用いた表示方法の定義も、この情報提示部5Cで行うようにするとよい。
【0039】
具体的な表示方法については予め決定し、当該表示方法に対応するスタイルシート言語を、当該情報提示部5Cに付与しておけば、情報提示部5Cは、前記主題情報TH1やXML文書XX1〜XX3などが与えられたとき、自動的に、前記表示形態に加工することができる。
【0040】
前記テキスト集合蓄積部4には、スタイルシート言語によって表示方法まで具体的に定義されたXML文書XX1〜XX3を蓄積しておくための記憶装置である。テキスト集合蓄積部4としては、前記入出力部1を有する通信端末が搭載したハードディスクなどの一部の記憶領域を利用してもよいが、インターネット上でオンラインストレージサービスを提供する事業者の持つストレージサーバなどを利用することもできる。
【0041】
いずれにしても、主題情報生成部5A、差分情報生成部5B、情報提示部5Cなどで行う各処理は、著作物である文書(ここでは、TX1〜TX3)の改変に相当するものと考えられるため、著作権保護の観点から、これらの処理の成果物である文書XX1〜XX3は、ユーザU1以外のものから閲覧することができないような形式で保存しておくことが望ましい。
【0042】
前記テキスト加工処理部5は、前記入出力部1を有する通信端末に搭載するようにしてもよいが、インターネット上にサーバとして配置してもよい。
【0043】
作業用データベース6は、当該テキスト加工処理部5内の各構成要素5A〜5Cが処理を進めるために、前記文書TX1〜TX3などの各データを、整理して蓄積しておくためのデータベースである。最終的に前記文書XX1〜XX3が得られ、テキスト集合蓄積部4に蓄積されたあと、当該作業用データベース6の蓄積内容は、廃棄することが可能である。
【0044】
なお、ユーザU1がXML文書XX1〜XX3を正常に閲覧するためには、入出力部1のブラウザはXML対応のブラウザであることを要する。入出力部1が搭載しているブラウザが通常のWebブラウザなど、XML非対応のブラウザである場合には、プラグインソフトを利用して、XML対応の機能を持たせるようにしてもよい。
【0045】
プラグインソフトは、予め静的に入出力部1に搭載しておくほか、インターネット経由で動的に入出力部1に搭載させることも可能である。
【0046】
以下、上記のような構成を有する本実施形態の動作について、図2のフローチャートを参照しながら説明する。
【0047】
図2のフローチャートは、S1〜S6の各ステップから構成されている。
【0048】
(A−2)実施形態の動作
ユーザU1が入出力部1のブラウザで検索エンジン3にアクセスして所望の検索条件を供給すると(S1)、検索エンジン3は当該検索条件に適合する文書を、前記テキストデータベース2から検索する(S2)。
【0049】
ステップS1を実行する際、入出力部1のブラウザに表示される画面は、例えば、図3に示すものであってよい。
【0050】
図3において、当該画面を構成するウインドウWD1はユーザU1からの入力を受け入れるための入力用の領域ER1と、基本的にユーザU1への出力を返すために使用される出力用の領域ER3に分けられ、入力用の領域ER1には、フィールドFD1と、ボタンBT1が配置され、出力用の領域ER2には、フィールドFD2と、画面切り替えボタンBT2〜BT5が配置されている。
【0051】
このうちフィールドFD1は、ユーザU1からの検索キーの入力を受け入れる検索キー入力部である。ここでは、検索キーとして、日付を含む複数のキーワードの入力を許容するものとするが、必要ならば、文書が作成された日付の範囲(例えば、2002年6月11日以降に作成された文書のなかから検索)など、各種の検索条件を柔軟かつ詳細に指定できるようにしてもよい。
【0052】
検索キー入力部FD1に入力した検索キーの内容が確定し、ユーザU1が「検索開始」ボタンBT1を操作すると、検索エンジン3に、当該検索キーが供給されて検索が実行される。図3の例では、検索キー入力部FD1に、「Z選手」(野球選手の名前)と、「15日」と、「CCチーム戦」の3つのキーワードを入力している。
【0053】
ここでは、当該3つのキーワードに対応する検索結果として、上述した3つの文書TX1〜TX3が得られたものとする。
【0054】
ただし本実施形態の場合、単に検索結果である前記文書TX1〜TX3をフィールド(検索結果出力部)FD2に表示するのではなく、前記テキスト加工処理部5による処理の結果を、フィールドFD2に表示するため、フィールドFD2に表示が行われるのは、以降の各ステップS3〜S6が実行されたあとである。
【0055】
検索エンジン3による検索の結果として得られた前記3つの文書XT1〜XT3は、ステップS3で、作業用データベース6内のテキスト情報格納テーブルTB1に蓄積される。
【0056】
テキスト情報格納テーブルTB1の格納内容は、例えば、図4に示すものであってよい。
【0057】
図4において、当該テキスト情報格納テーブルTB1は、2つの列名(属性)、すなわち、「出典情報」と、「テキスト内容」から構成されている。
【0058】
検索エンジン3の検索によって得られた文書TX1〜TX3の数が3であることから、当該テキスト情報格納テーブルTB1の行(タプル)の数も3となっている。
【0059】
図示の例では、出典情報として、各文書TX1〜TX3の出典である新聞の名称と日付が記述されている。これは人間にとって可読でネットワーク以外の一般社会で使用されるオフラインの出典情報の一例である。必要ならば、このようなオフラインの出典情報に替えて、あるいはオフラインの出典情報とともに、オンラインの出典情報も記述するようにしてもよい。オンラインの出典情報としては、各文書TX1〜TX3の前記テキストデータベース2上における存在場所を一意に指定する情報、例えば、URL、FQDN、IPアドレスなどを利用することができる。
【0060】
図4中のテキスト内容から明らかなように、これらの文書TX1〜TX3は、米国のP野球リーグで、野球選手Z(外野手)の属するBBチームが、CCチームと対戦した試合における当該Z選手の活躍ぶりを報じる同日付けの新聞記事である。したがって、文書TX1〜TX3の内容であるテキスト内容は大部分が同じであるが、例えば、B新聞の記事である文書TX2ではこの試合でZ選手が打率を3割4分9厘に落としたことが記載されているのに、A新聞の記事である文書TX1や、C新聞の記事である文書TX3ではそのことに関する記載は存在しないなど、相違点も存在する。
【0061】
次に、前記主題情報生成部5Aが、当該テキスト情報格納テーブルTB1の格納内容をもとに、前記主題情報TH1を生成する(S4)。
【0062】
ここでは、上述した要約生成法と代表選択法のうち、要約生成法を用いて主題情報TH1を生成したものとする。
【0063】
要約生成法で生成された要約TXAは、少なくとも、テキスト加工処理部5における処理が終了するまでの間、作業用データベース6内に前記テキスト情報格納テーブルTB1とともに格納しておく。もちろん、必要ならば、テキスト情報格納テーブルTB1のなかに、要約TXAの内容を格納しておくための列名を用意してもよい。
【0064】
このあと、当該要約TXAに対する各文書TX1〜TX3の差分情報を抽出する(S5)。ここでは、前記単位として、節を使用しているため、前記XML形式への変換や、変換後のXML文書XX1〜XX3のテキスト集合蓄積部4への格納などを行ったあと、ユーザU1からの出力要求に応じて入出力部1上で前記検索結果出力部FD2に表示される内容は、例えば、図7に示すようになる。
【0065】
図7において検索結果出力部FD2内には、最上部に、前記主題情報TH1が表示され、その下に、1行おいて、オフラインの出典情報OF1である「A新聞5月16日」とA新聞5月16日の記事の当該主題情報TH1に対する差分情報EH1、オフラインの出典情報OF2である「B新聞5月16日」とB新聞5月16日の記事の当該主題情報TH1に対する差分情報EH2、オフラインの出典情報OF3である「C新聞5月16日」とC新聞5月16日の記事の当該主題情報TH1に対する差分情報EH3がそれぞれ表示されている。
【0066】
文書(例えば、XX1)のなかから、差分情報(ここでは、EH1)だけを抽出して、例えば図7に示すように画面表示を行う処理は、前記タグの属性に各単位が差分に該当する旨を指定しておくことによって、入出力部1上のXML対応ブラウザ(あるいは、前記プラグインを装備したブラウザ)の機能だけで実行可能である。
【0067】
文書XX1〜XX3中の差分に該当する単位は、図5にアンダーラインを付して示した部分である。
【0068】
図7の画面が入出力部1に表示されると、ユーザU1は個々の文書XX1〜XX3の内容を読まなくても、主題情報TH1を読むだけで、テキスト集合の主題を正確に認識することができる。主題情報TH1の文字数は文書XX1〜XX3のうちの任意の1文書の文字数とほぼ同程度であるので、個々の文書XX1〜XX3を読む場合に比べ、ユーザU1が読むべき文字数はほぼ1/3程度となる上、各文書XX1〜XX3の記事内容の異同をユーザU1の頭脳などを用いて分析する必要もなく、入出力部1上へ個々の文書XX1〜XX3のファイルをダウンロードしたり、開いたりするための操作を逐一おこなう必要もない。
【0069】
このためユーザU1は極めて簡単に主題情報TH1を認識することができる。また、これらの効果は、一般的に、1つのテキスト集合中の文書の数が多くなればなるほど、顕著になる。
【0070】
図7の画面例は、ユーザU1が「主題&差分情報表示」ボタンBT4を操作して出力要求を行った場合に対応する表示画面であるが、ユーザU1が「主題&参照情報表示」ボタンBT3を操作して出力要求を行ったときには、図6に示す表示画面が表示される。この参照情報は、前記出典情報に等しい。
【0071】
図6では、前記差分情報EH1〜EH3が消失して、オフライン出典情報OF1〜OF3だけが、主題情報TH1の下に表示されている。
【0072】
一方、図8は、図7の表示画面上でユーザU1がオフライン出典情報OF3をポインティングデバイスなどを用いて選択したときの表示例を示している。
【0073】
このとき、主題情報TH1上では、随所にアンダーラインが表示され、主題情報TH1の内容のうち当該オフライン出典情報OF3に対応する前記文書TX3から得られた情報がどれであるかを直観的に示すことができる。同様に、ユーザU1がオフライン出典情報OF2を選択すれば、アンダーラインが表示されて主題情報TH1の内容のうち当該オフライン出典情報OF2に対応する前記文書TX2から得られた情報を示し、ユーザU1がオフライン出典情報OF1を選択すれば、アンダーラインが表示されて主題情報TH1の内容のうち当該オフライン出典情報OF1に対応する前記文書TX1から得られた情報を示すことができる。
【0074】
必要に応じて、図6の画面上でも、オフライン出典情報を選択することによって同様なアンダーラインを表示するようにしてもよい。
【0075】
このアンダーラインは、前記スタイルシート言語を変更することによって、反転表示や網かけ表示などへ適宜、変更可能である。また、図6〜図8における検索結果出力部FD2上のレイアウトなども、スタイルシート言語の変更に応じて変化する。
【0076】
図6〜図8のいずれの画面を目視した場合でも、ユーザU1は、主題情報TH1を読むことによって、文書TX1〜TX3(あるいは、XX1〜XX3)で構成されるテキスト集合の主題を、簡単、かつ確実に認識することが可能である。
【0077】
必要に応じて、各オフライン出典情報OF1〜OF3と各文書XX1〜XX3(あるいは、テキストデータベース2上の各文書TX1〜TX3)を関連づけておくことにより、オフライン出典情報を選択したときに、当該文書の全文を表示させること等も実行可能である。
【0078】
(A−3)実施形態の効果
本実施形態によれば、ユーザ(U1)は、テキスト集合に含まれる個々の文書(例えば、TX1〜TX3)を読まなくても、当該テキスト集合の主題(例えば、TH1)を認識することができ、利便性に優れている。
【0079】
また本実施形態では、個々の文書と主題との差分情報(例えば、EH1〜EH3)を表示させたり、主題情報のなかのどの部分(単位)が、各文書に対応しているかを表示させることもできるため、ユーザが各文書を対比したり、分析したりする作業を支援することが可能である。
【0080】
(B)他の実施形態
上記実施形態にかかわらず、入出力部1の通信端末として、ポインティングデバイス等を備えた一般的なパソコンの替わりにタッチパネル装置を使用したり、専用の通信端末を使用したりすることができる。
【0081】
また、前記文書TX1〜TX3およびXX1〜XX3には、単なるテキストデータだけでなく画像データなどが含まれていてもかまわないことはすでに述べた通りである。
【0082】
なお、上記実施形態では、テキスト加工処理部5は、最終的に文書をXML形式(あるいは、テキスト形式)に変換してテキスト集合蓄積部4に蓄積したが、必要に応じて、XML形式(テキスト形式)以外のデータ形式に変換するようにしてもよいことは当然である。
【0083】
さらに上記実施形態では、XMLのタグや、属性によって、前記単位が差分に該当する旨を示し、なおかつ再利用可能な形で保存するようにしたが、XMLのタグや属性以外の方法を用いてこれらの機能を実現してもかまわない。
【0084】
また、上記実施形態では主題情報TH1の生成にあたり、上述した要約生成法または代表選択法を用いるものとしたが、これら以外の方法で主題情報を生成するようにしてもかまわない。
【0085】
例えば、テキスト加工処理部5が自動的に所定の定型的な手順(例えば、検索された複数の文書(例えば、TX1〜TX3)のなかから単に文字数の最も少ない文書を主題情報とする)で主題情報を決定するようにしてもよい。
【0086】
もともと、検索エンジン3で検索した時点で文書TX1〜TX3の間の類似度が十分に高い場合などには、このような単純な方法で選択した文書によっても、テキスト集合の主題を、良好に表現することも可能である。
【0087】
さらに上記実施形態では、主題情報の生成過程にはユーザU1が関与することができず、テキスト加工処理部5側が自動的に生成したが、ユーザU1の意思に応じて主題情報を生成することも可能である。
【0088】
例えば、前記テキスト集合中の任意の1文書をユーザU1が主題情報として選択できるようにしてもよい。
【0089】
この場合、ユーザU1の選択に応じて、テキスト加工処理部5が動作し、ユーザU1が選択した1文書と他の文書との差分情報などが自動的に得られる。このような構成は、相互に類似した複数の文書間で、共通点や相違点を詳細に整理する必要がある場合に有用である。
【0090】
また、上記実施形態にかかわらず検索エンジン3は省略可能である。
【0091】
現実の文書処理の局面では、検索エンジン3で検索しなくても、予め複数の文書(例えば、TX1〜TX3)が与えられているケースも多いからである。また、文書(例えば、TX1〜TX3)は必ずしもネットワーク経由で供給されるものである必要はない。例えば、フロッピディスクやCD−ROMなどの記録媒体に格納された形で供給されたり、あるいは、紙媒体の形で供給されたものがOCR処理などを経てシステム内に取り込まれる場合もあってよい。
【0092】
また、上記実施形態では、同じ試合における野球選手Zの活躍を報じる同日付けの新聞記事であったため、文書TX1〜TX3の内容が類似していることが明確に予測できる場合であったが、類似しているか否かが不明な複数の文書に対して本発明を適用してもよい。
【0093】
その場合、本発明を利用して、文書間の類似度を判定する作業を容易化することが可能になる。
【0094】
なお、上記実施形態で使用したテキスト情報格納テーブルTB1のスキーマは、上述したものに限定する必要はない。テキスト情報格納テーブルTB1中の列名を他の列名に置換してもよく、テキスト情報格納テーブルTB1中に存在しない列名を追加してもよい。このようなテキスト情報格納テーブルを、必要に応じて、正規化してもよいことは当然である。
【0095】
さらに、前記作業用データベース6とテキスト集合蓄積部4は、ハードウエア的には必ずしも別個に設ける必要はなく、統合可能である。
【0096】
また、上記実施形態にかかわらず、前記入出力部1は省略可能である。
【0097】
例えば、予め与えられたプログラム等にしたがって、検索エンジン3による検索や、テキスト加工処理部5による処理を行い、最終結果である文書(例えば、XX1〜XX3)を、記録媒体に書き込むこと等で処理が完結するシステムもあり得るからである。
【0098】
また、上記実施形態では、図3、図6〜図8に具体的な表示画面例を示したが、本発明の表示画面の構成は図示したものに限らないことは当然である。
【0099】
さらに、前記文書TX1〜TX3は、新聞記事であったが、本発明が対象とする文書が新聞記事にかぎらないことは当然である。
【0100】
以上の説明では主としてソフトウエア的に本発明を実現したが、本発明はハードウエア的に実現することも可能である。
【0101】
【発明の効果】
以上に説明したように、本発明の文書処理装置および方法は、従来よりも、利便性に優れている。
【図面の簡単な説明】
【図1】実施形態に係る閲覧システムの全体構成例を示す概略図である。
【図2】実施形態の動作を示すフローチャートである。
【図3】実施形態の動作を示す表示画面例である。
【図4】実施形態で使用するテキスト情報格納テーブルの内容例を示す概略図である。
【図5】実施形態で使用するテキスト情報格納テーブルの内容例を示す概略図である。
【図6】実施形態の動作を示す表示画面例である。
【図7】実施形態の動作を示す表示画面例である。
【図8】実施形態の動作を示す表示画面例である。
【符号の説明】
1…入出力部、2…テキストデータベース、3…検索エンジン、4…テキスト集合蓄積部、5…テキスト加工処理部、5A…主題情報生成部、5B…差分情報生成部、5C…情報提示部、6…作業用データベース、TB1…テキスト情報格納テーブル、TX1〜TX3…文書、XX1〜XX3…XML文書、TXA…要約、TH1…主題情報(主題)、OF1〜OF3…オフライン出典情報、EH1〜EH3…差分情報。

Claims (16)

  1. 文字情報を含む複数の文書を要素とする集合に関して処理を行う文書処理装置において、
    前記集合中の各文書に関し、前記文字情報の共通性を抽出して、前記集合全体に共通の意味内容を表現した文書である共通文書を生成する共通文書生成手段を備えることを特徴とする文書処理装置。
  2. 請求項1の文書処理装置において、
    前記共通文書生成手段は、
    前記集合中の複数の文書をもとに所定の生成手順を実行して、新たな文書として前記共通文書を生成するか、または、
    予め文字情報に共通性のある文書を選んで前記集合を構成した上で、前記集合中の複数の文書のなかから所定の選択手順に応じて1つの文書を選択し、選択した当該文書を前記共通文書とすることで前記共通文書を生成することを特徴とする文書処理装置。
  3. 請求項2の文書処理装置において、
    前記選択手順では、
    前記集合中の各文書に共通して、所定のしきい値以上、出現する頻出表現を検出し、当該頻出表現が最も多く含まれる文書を選択することを特徴とする文書処理装置。
  4. 請求項2の文書処理装置において、
    前記共通文書と、前記集合中の各文書との差分となる文字情報である差分文字情報を抽出する差分文字情報抽出手段、または、
    前記共通文書と、前記集合中の各文書との共通の文字情報である共通文字情報を抽出する共通文字情報抽出手段を備えることを特徴とする文書処理装置。
  5. 請求項4の文書処理装置において、
    前記文書を画面表示する表示手段と、
    前記集合の要素である各文書に論理構造を付与し、当該論理構造の付与に際して、少なくとも前記差分文字情報または共通文字情報のいずれかに関しては、その旨を明示する論理構造付与手段と、
    当該論理構造付与手段で論理構造を付与した後の各文書を蓄積する文書蓄積手段とを備え、
    前記表示手段による画面表示では、当該論理構造を利用した画面表示を行うことを特徴とする文書処理装置。
  6. 請求項5の文書処理装置において、
    前記表示手段は、
    前記共通文書と当該共通文書に対する各文書の差分文字情報とを、ユーザからの操作に応じて画面表示することを特徴とする文書処理装置。
  7. 請求項6の文書処理装置において、
    前記表示手段は、
    少なくとも前記差分文字情報を含む文書に関し、オンラインまたはオフラインの出所を示す出典情報を、ユーザからの操作に応じて画面表示することを特徴とする文書処理装置。
  8. 請求項7の文書処理装置において、
    前記表示手段は、
    ユーザが画面表示された出典情報に対して所定の操作を行うと、前記論理構造を利用して、その出典情報に対応する文書と、前記共通文書との差分文字情報または共通文字情報を識別する所定の識別表示を、画面表示される共通文書に対して実行することを特徴とする文書処理装置。
  9. 文字情報を含む複数の文書を要素とする集合に関して処理を行う文書処理方法において、
    共通文書生成手段が、前記集合中の各文書に関し、前記文字情報の共通性を抽出して、前記集合全体に共通の意味内容を表現した文書である共通文書を生成することを特徴とする文書処理方法。
  10. 請求項9の文書処理方法において、
    前記共通文書生成手段は、
    前記集合中の複数の文書をもとに所定の生成手順を実行して、新たな文書として前記共通文書を生成するか、または、
    予め文字情報に共通性のある文書を選んで前記集合を構成した上で、前記集合中の複数の文書のなかから所定の選択手順に応じて1つの文書を選択し、選択した当該文書を前記共通文書とすることで前記共通文書を生成することを特徴とする文書処理方法。
  11. 請求項10の文書処理方法において、
    前記選択手順では、
    前記集合中の各文書に共通して、所定のしきい値以上、出現する頻出表現を検出し、当該頻出表現が最も多く含まれる文書を選択することを特徴とする文書処理方法。
  12. 請求項10の文書処理方法において、
    前記共通文書と、前記集合中の各文書との差分となる文字情報である差分文字情報を抽出するか、または、
    前記共通文書と、前記集合中の各文書との共通の文字情報である共通文字情報を抽出することを特徴とする文書処理方法。
  13. 請求項12の文書処理方法において、
    論理構造付与手段が、前記集合の要素である各文書に論理構造を付与し、当該論理構造の付与に際して、少なくとも前記差分文字情報または共通文字情報のいずれかに関しては、その旨を明示し、
    文書蓄積手段が、当該論理構造付与手段で論理構造を付与した後の各文書を蓄積し、
    表示手段は、当該論理構造を利用した画面表示を行うことを特徴とする文書処理方法。
  14. 請求項13の文書処理方法において、
    前記表示手段は、
    前記共通文書と当該共通文書に対する各文書の差分文字情報とを、ユーザからの操作に応じて画面表示することを特徴とする文書処理方法。
  15. 請求項14の文書処理方法において、
    前記表示手段は、
    少なくとも前記差分文字情報を含む文書に関し、オンラインまたはオフラインの出所を示す出典情報を、ユーザからの操作に応じて画面表示することを特徴とする文書処理方法。
  16. 請求項15の文書処理方法において、
    前記表示手段は、
    ユーザが画面表示された出典情報に対して所定の操作を行うと、前記論理構造を利用して、その出典情報に対応する文書と、前記共通文書との差分文字情報または共通文字情報を識別する所定の識別表示を、画面表示される共通文書に対して実行することを特徴とする文書処理方法。
JP2002182883A 2002-06-24 2002-06-24 文書処理装置および方法 Pending JP2004030021A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002182883A JP2004030021A (ja) 2002-06-24 2002-06-24 文書処理装置および方法
US10/600,535 US20030237042A1 (en) 2002-06-24 2003-06-23 Document processing device and document processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002182883A JP2004030021A (ja) 2002-06-24 2002-06-24 文書処理装置および方法

Publications (1)

Publication Number Publication Date
JP2004030021A true JP2004030021A (ja) 2004-01-29

Family

ID=29728334

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002182883A Pending JP2004030021A (ja) 2002-06-24 2002-06-24 文書処理装置および方法

Country Status (2)

Country Link
US (1) US20030237042A1 (ja)
JP (1) JP2004030021A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041996A (ja) * 2005-08-05 2007-02-15 Fuji Xerox Co Ltd 文書管理システム、文書管理方法及び文書管理プログラム
JP2009053814A (ja) * 2007-08-24 2009-03-12 Toshiba Corp キーワード抽出装置及び方法、並びに、文書検索装置及び方法
JP2017054232A (ja) * 2015-09-08 2017-03-16 株式会社東芝 情報抽出装置、情報抽出方法及び情報抽出プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050246310A1 (en) * 2004-04-28 2005-11-03 Ching-Chung Chang File conversion method and system
US20110307497A1 (en) * 2010-06-14 2011-12-15 Connor Robert A Synthewiser (TM): Document-synthesizing search method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134066A (ja) * 1996-10-29 1998-05-22 Matsushita Electric Ind Co Ltd 文章集約装置
JPH11272680A (ja) * 1998-03-19 1999-10-08 Fujitsu Ltd 文書データ提供装置およびそのプログラム記録媒体
JP2000105769A (ja) * 1998-09-28 2000-04-11 Hitachi Ltd 文書表示方法
JP2000137720A (ja) * 1998-10-29 2000-05-16 Nippon Telegr & Teleph Corp <Ntt> 情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体
JP2002024211A (ja) * 2000-06-30 2002-01-25 Hitachi Ltd 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689716A (en) * 1995-04-14 1997-11-18 Xerox Corporation Automatic method of generating thematic summaries
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5960383A (en) * 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
JP3001047B2 (ja) * 1997-04-17 2000-01-17 日本電気株式会社 文書要約装置
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134066A (ja) * 1996-10-29 1998-05-22 Matsushita Electric Ind Co Ltd 文章集約装置
JPH11272680A (ja) * 1998-03-19 1999-10-08 Fujitsu Ltd 文書データ提供装置およびそのプログラム記録媒体
JP2000105769A (ja) * 1998-09-28 2000-04-11 Hitachi Ltd 文書表示方法
JP2000137720A (ja) * 1998-10-29 2000-05-16 Nippon Telegr & Teleph Corp <Ntt> 情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体
JP2002024211A (ja) * 2000-06-30 2002-01-25 Hitachi Ltd 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"テキストを自動的に要約する技術 第3回", BIT, vol. 32, no. 4, CSND200200647007, 1 April 2000 (2000-04-01), JP, pages 43 - 48, ISSN: 0000883511 *
柴田 昇吾: "複数文章の融合", 電子情報通信学会技術研究報告, vol. 97, no. 200, CSNG199800339001, 25 July 1997 (1997-07-25), JP, pages 7 - 12, ISSN: 0000883510 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041996A (ja) * 2005-08-05 2007-02-15 Fuji Xerox Co Ltd 文書管理システム、文書管理方法及び文書管理プログラム
JP2009053814A (ja) * 2007-08-24 2009-03-12 Toshiba Corp キーワード抽出装置及び方法、並びに、文書検索装置及び方法
JP2017054232A (ja) * 2015-09-08 2017-03-16 株式会社東芝 情報抽出装置、情報抽出方法及び情報抽出プログラム

Also Published As

Publication number Publication date
US20030237042A1 (en) 2003-12-25

Similar Documents

Publication Publication Date Title
US9323827B2 (en) Identifying key terms related to similar passages
US7783644B1 (en) Query-independent entity importance in books
US7680778B2 (en) Support for reverse and stemmed hit-highlighting
JP5531033B2 (ja) 方法およびシステム
KR100957080B1 (ko) 문서 구조에 기초한 검색 결과의 표시
JP5138046B2 (ja) 検索システム、検索方法およびプログラム
US8352485B2 (en) Systems and methods of displaying document chunks in response to a search request
US20060122997A1 (en) System and method for text searching using weighted keywords
US20020083045A1 (en) Information retrieval processing apparatus and method, and recording medium recording information retrieval processing program
WO2011060231A2 (en) Method and system for grouping chunks extracted from a document, highlighting the location of a document chunk within a document, and ranking hyperlinks within a document
JP2007034466A (ja) 情報検索システム、情報検索プログラム
JP2007122513A (ja) コンテンツ検索方法、及び、コンテンツ検索サーバ
JP6529133B2 (ja) 複数地域でのトピックの評価を分析する装置、プログラム及び方法
JP6653169B2 (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
JP2004054588A (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JP4610543B2 (ja) 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体
JP2009086903A (ja) 検索サービス装置
JP2004030021A (ja) 文書処理装置および方法
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
JP2005316590A (ja) 情報検索装置
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2007011721A (ja) 文書検索装置
JP2002278972A (ja) 検索結果の表示
JP2006146458A (ja) ドキュメント検索装置及びドキュメント検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070814

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080108