JP2000105769A - 文書表示方法 - Google Patents

文書表示方法

Info

Publication number
JP2000105769A
JP2000105769A JP10273494A JP27349498A JP2000105769A JP 2000105769 A JP2000105769 A JP 2000105769A JP 10273494 A JP10273494 A JP 10273494A JP 27349498 A JP27349498 A JP 27349498A JP 2000105769 A JP2000105769 A JP 2000105769A
Authority
JP
Japan
Prior art keywords
article
document
user
information
articles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10273494A
Other languages
English (en)
Inventor
Yoshiyuki Kobayashi
義行 小林
Hiroyuki Kaji
博行 梶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10273494A priority Critical patent/JP2000105769A/ja
Publication of JP2000105769A publication Critical patent/JP2000105769A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 複数の文書(記事)に共通する情報と、それ
ぞれの文書独自の情報とを区別して表示することによ
り、文書閲覧の効率を向上させる。 【解決手段】 記事を受信するステップと、記事の相互
間の関連度を評価するステップと、記事を部分に分解す
るステップと、分解された記事の部分それぞれのあいだ
の類似度を評価するステップと、類似度の評価結果によ
り記事を1つ選択するステップと、選択された記事と他
の記事とを類似度に基づいて記事相互を関係付けるステ
ップと、関係付けられた記事を表示するステップとの各
処理を実行することにより、複数の記事から選択した記
事を表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書表示方法に係
り、特に、定期的に電子メール等によって送信される複
数の文書(新聞記事や雑誌記事等の記事)を受信し、そ
れらの文書から利用者が必要とするものを選択して提示
する情報フィルタリング、あるいは、テキストのままの
検索結果が大量に得られる情報検索の結果得られる文書
を効率的に利用者に提示することのできる文書表示方法
に関する。
【0002】
【従来の技術】近年、インターネットの発達により、電
子メールによる新聞記事や雑誌記事等の定期的配信、W
WWのプッシュ技術による情報の配信が広く利用される
ようになっている。このような情報の配信は、大量の情
報が定期的に得られるため、利用者に対しては、必要な
情報だけを選択して配信することが望まれる。このよう
な必要な情報だけを選択して配信する方法として、利用
者が予め必要な情報に関する条件を指定し、この条件に
合う文書のみを利用者に提示する情報フィルタリングと
呼ばれる方法が知られている。
【0003】また、前述の情報フィルタリングと似た技
術である情報検索という方法もある。この方法は、蓄積
している文書から利用者の要求に合う文書だけを探し出
して利用者に送信するというものである。
【0004】しかし、得られる情報が増加するに従っ
て、前述した従来の情報フィルタリングや情報検索だけ
では、充分に効率的に文書の閲覧を行うことが困難にな
ってきている。このような問題を解決することのできる
従来技術として、例えば、特開平9−101990号公
報等に記載された技術が知られている。
【0005】この従来技術は、情報フィルタリングによ
って選択された複数の記事について、記事相互間の類似
度を評価する方法に関するものである。この方法を使用
することによって、情報フィルタリングによって選択収
集された記事について、類似する記事を明示して表示す
ることができる。関連する記事の相互関係を明示するこ
とにより、利用者は、類似する情報の記事の閲覧を抑制
することができ、また、記事の話題に関心がある場合、
その話題に関係がある全ての記事を漏れなく読むことが
できる。
【0006】
【発明が解決しようとする課題】一般に、複数の文書を
閲覧する場合、利用者は、複数の文書を読むことにより
1つの文書を読む場合よりも多くの情報を得ることを期
待する。しかし、前述した類似する記事を明示して表示
する従来技術は、類似する文書を明示して文書を表示す
るだけであるので、利用者が、複数の文書相互間で共通
する話題を何度も読む必要が生じ効率がよくないという
問題点を有している。
【0007】また、類似する文書を読む必要があるか否
かを利用者に判断させる支援を行うために、文書によっ
て得られる情報に違いがあることを表示することが望ま
れている。しかし、前述した従来技術は、時と共に情報
が変化するような事態に関する文書に対しても、類似す
る文書を検出するだけであるので、同じ事態の情報を集
めることはできるが、利用者には、時間の経過と共に情
報がどのように変化していったのか判らないという問題
点を有している。
【0008】本発明の目的は、前述した従来技術の問題
点を解決し、類似する文書の中の重複する情報部分を利
用者に提示すると共に、変化した情報を利用者に知らせ
ることを可能にして文書を効率的に利用者に提示するこ
とのできる文書表示方法を提供することにある。
【0009】
【課題を解決するための手段】本発明によれば前記目的
は、複数の文書の入力を受け付け、それらの文書を選択
して利用者に提示する文書表示方法において、複数の文
書の文書相互間の関連度を評価するステップと、文書を
部分に分解するステップと、前記ステップによって分解
された文書の部分それぞれの相互間の類似度を評価する
ステップと、前記類似度の評価に基づいて文書を1つ選
択するステップと、前記ステップで選択された文書と他
の文書の相互間で共通する共通情報及びそれぞれの記事
独自の独自情報を検出するステップと、前記ステップで
検出された共通情報及び独自情報を区別して利用者に表
示するステップとの各処理を実行することにより、複数
の文書から選択した文書を表示することにより達成され
る。
【0010】また、前記目的は、前記文書を1つ選択す
るステップが、他の文書が持っている独自情報と同一の
独自情報が最も少ない文書を選択することにより、他の
文書が持っている独自情報と同一の独自情報が最も多い
文書を選択することにより、また、利用者のプロファイ
ルとの類似度が大きい文書を選択することにより達成さ
れる。
【0011】また、前記目的は、前記共通情報と独自情
報とを区別して表示するステップが、独自情報の量が多
い順に独自情報を表示することにより、あるいは、独自
情報の量が少ない順に独自情報を並べて表示することに
より達成される。
【0012】文書は、記事配信サービスや文書検索シス
テムによって入手される。本発明により、関係する文書
の相互間で、共通している情報とそれぞれの文書の独自
の情報とを区別して利用者に提示することができ、利用
者は、無駄なく効率的に文書を読むことが可能になる。
また、時間の経過と共に情報が変化するような事態に関
する文書についても、文書の中からもれなく時間の経過
によって変化した情報の部分を利用者が見つけ出すこと
を可能にする。
【0013】
【発明の実施の形態】以下、本発明による文書表示方法
の実施形態を図面により詳細に説明する。
【0014】図1は本発明による文書表示方法を実行す
る記事表示システムの構成を示すブロック図である。図
1において、A〜Cは記事配信元、D〜Fは利用者、1
は記事表示システム、2は外部通信網、11は記事加工
部、12は利用者用記事表示部、13は組織内通信網、
111、121は入出力部、112、122は中央処理
部、113、123は内部記憶部、114、124は外
部記憶部、125は表示部である。
【0015】図1に示すシステムは、複数の記事配信元
から記事が利用者宛てに送信される形態の例であり、以
下、この例を参照して、本発明の実施形態を説明する。
【0016】[システムの構成]利用者は、ネットワー
クを通じてコンピュータ相互間で様々な通信が可能なコ
ンピュータ環境を利用しているものとする。そのような
環境での記事閲覧に関係する部分の構成が図1に示すよ
うになる。図1において、記事配信元A〜Cは、新聞
社、出版社、通信社等の記事を作る会社、あるいは、複
数の新聞社から記事を購入し、記事を編集して販売する
ような記事クリッピング会社等である。記事配信元A〜
Cからは、定期的に複数の記事が、契約している利用者
D〜Fに向けて配信される。外部通信網2を介し接続さ
れる記事表示システム1は、配信された記事を受信す
る。利用者は、記事表示システム1を使って、配信され
た記事を閲覧する。記事表示システム1は、本発明を利
用して記事相互間の差異を検出し、その結果に基づいて
記事を関係付けて表示する。なお、図1に示す例は、記
事配信元、利用者の数を共に3つ示しているが、これら
の数に原理的な制限はなく幾つであってもよい。
【0017】記事表示システム1は、記事の受信、記事
の保存および管理、記事の利用者閲覧のための処理等を
実行する記事加工部11、各利用者に記事を表示し、利
用者からの記事閲覧に関する要求を処理する利用者用記
事表示部12、及び、利用者用記事表示部12と記事加
工部11との間の記事の伝送路である組織内通信網13
から構成される。
【0018】[記事加工部11]記事加工部11は、外
部との間で信号の送受信を行う入出力部111、各情報
処理部の制御、記事の処理を行う中央処理装置112、
中央処理装置112が処理するデータを一時的に保持す
る内部記憶部113、受信した記事、記事を関係付けた
結果、利用者の記事閲覧に関するプロファイル等の情報
を保持する外部記憶部114から構成される。記事閲覧
に関するプロファイルとは、利用者が予め定義した閲覧
したい記事に対する要求であり、記事の分野、キーワー
ド及びそれらを論理規則によって結合したものによって
記述される。
【0019】[利用者用記事表示部12]利用者用記事
表示部12は、外部からの信号を送受信する入出力部1
21、各情報処理部の制御や記事処理、利用者からの要
求の処理を行う中央処理部122、中央処理部122が
処理するデータを一時的に保持する内部記憶部123、
記事加工部11から送信された記事、利用者の記事閲覧
に関するプロファイルを保持する外部記憶部124、利
用者に記事を表示するディスプレイである表示部125
から構成される。
【0020】[外部記憶部114で保存される情報]図
2は外部記憶装置114に保存される情報を模式的に説
明する図であり、記事表示装置1の処理動作を説明する
前に、外部記憶部114に保存される情報について説明
する。
【0021】外部記憶部114には、図2に示すよう
に、記事情報部1141、プロファイル情報部114
2、利用者表示記事情報部1143、類似記事情報部1
144が構成されており、受信した記事、記事参照用デ
ータ、利用者の記事閲覧に関するプロファイル、以下に
説明する各処理の結果、及び、以上の情報の相互間の関
係が保存されている。記事配信元から送信された記事
は、全て記事情報部1141に保存され、利用者の記事
閲覧に関するプロファイルは、プロファイル情報部11
42に保存される。また、配信された記事を利用者のプ
ロファイルと照合した結果は、利用者表示記事情報部1
143に保存され、記事と記事の間で、記事の部分毎の
類似度を評価した結果は、類似記事情報部1144に保
存される。
【0022】[記事情報部1141]図2に示す記事情
報部1141は、記事配信元から送信された記事の保存
形態を示している。記事情報は、記事本体、記事へのア
クセスの記事参照データ、記事を意味的なまとまりに分
割した結果である記事分割結果の3つの要素から構成さ
れる。記事分割結果は、後述する記事部分相互間の類似
度評価ステップ35の処理によって得ることができる。
各記事へのアクセスは、記事の配信元、日付、時刻、題
名のいずれかを指定することにより行う。これらの記事
アクセスのための情報は、記事参照データとしてテーブ
ルのかたちで格納されている。記事本文は、各記事参照
データからポインタが張られている。また、記事を部分
に分割した結果の情報も記事参照データからポインタが
張られている。
【0023】[プロファイル情報部1142]図2に示
すプロファイル情報部1142は、利用者の記事閲覧に
関するプロファイルを保存する形態を示している。各プ
ロファイルへのアクセスは、利用者のIDを指定するこ
とにより可能にある。また、利用者IDからプロファイ
ルにポインタを張ることにより、両者は関係付けられて
いる。
【0024】[利用者表示記事情報部1143]図2に
示す利用者表示記事情報部1143は、配信された記事
を利用者のプロファイルと照合した結果を保存する形態
を示している。この結果は、後述する記事振り分けステ
ップ32の処理によって得ることができる。そして、1
つのプロファイルに合致した記事は、この結果により、
記事参照データへのポインタと、プロファイルとの類似
度とを組にし、この組のリストの形式で保存される。こ
の情報へは、各利用者のプロファイルからポインタが張
られている。従って、利用者のIDを指定することによ
り、プロファイルに合致した記事とその記事のプロファ
イルとの類似度とにアクセスすることができる。
【0025】[類似記事情報部1144]図2に示す類
似記事情報部1144は、記事と記事との相互間で、記
事の部分毎の類似度を評価した結果を保存する形態を示
している。記事の部分毎の類似度を評価した結果は、後
述する関連記事検出ステップ34の処理と記事部分間類
似度評価ステップ35の処理とによって得ることができ
る。この類似記事情報は、記事参照データへのポインタ
のリストと、記事部分間の類似度を表現した類似度行列
のリストと、類似度を評価した2つの記事参照データか
ら類似度行列へのポインタとから構成される。この情報
には、利用者記事情報1143からポインタが張られて
いる。従って、利用者を指定することにより、その利用
者に対して表示する利用者記事情報部1143にアクセ
スし、その記事集合について、類似度評価を結果を示す
類似記事情報部1144にアクセスすることができる。
なお、後述する類似検出ステップ33の処理によって類
似する記事参照データを求めることができ、記事部分間
類似度評価ステップ35の処理によって類似度行列を求
めることができる。
【0026】[記事加工部11での処理の流れ]図3は
記事加工部11の処理動作を説明するフローチャート、
図4はプロファイルの例とそのプロファイルによって検
出される記事の例を説明する図であり、これらの図によ
り、記事加工部11の処理の流れを説明する。これらの
処理は、中央処理部112において実行される。
【0027】(1)記事加工部11は、処理が開始され
ると記事加工部11に終了要求が入力されない限り処理
を続けるために、終了要求があるか否かの監視を開始す
る(ステップ11A)。
【0028】(2)ステップ11Aで終了要求がないこ
とを確認した後、外部通信網2、組織内通信網13から
の入力を監視し、一定時間毎に記事が配信されたか否
か、利用者から要求があったか否かを評価し判定する。
なお、これらの判定のステップは並行して実行される
(ステップ11B〜11D)。
【0029】(3)ステップ11Cで、外部通信網2を
介して記事が配信されていることを検出した場合、配信
記事処理用プロセスの記事処理プロセス3を生成する。
また、ステップ11Cの処理では、プロセス3の生成の
いかんにかかわらず、記事の配信状態を確認した後、直
ちにステップ11Aの処理に戻る。
【0030】(4)ステップ11Dで、利用者用記事表
示部12からの要求が組織内通信網を介して送信されて
いることを検出した場合、利用者要求処理用のプロセス
記事送信プロセス4を生成する。ステップ11Dの処理
では、プロセス4の生成のいかんにかかわらず、利用者
からの要求の有無を確認した後、直ちにステップ11A
の処理に戻る。
【0031】前述の記事処理プロセス3、記事送信プロ
セス4は、独立して実行されるプロセスであり、これら
のプロセスは並行に動作し、ステップ11C、11Dと
も並行して動作する。記事処理プロセス3、記事送信プ
ロセス4は、記事加工部11のOS(オペレーティング
システム)で定義された範囲内で可能な限り生成され、
並行して処理される。処理が終了した記事処理プロセス
3、記事送信プロセス4は、OSによって自動的に消滅
させられる。
【0032】[記事処理プロセス3]記事処理プロセス
3は、外部通信網2から送信される記事を受信し、中央
処理部112に送信する「記事受信ステップ31」、予
め外部記憶部114に保存されている利用者毎のプロフ
ァイルを中央処理部112に順に読み出す「利用者用プ
ロファイル読み込みステップ32」、受信した記事を利
用者の要求に合うよう振り分ける「記事振り分けステッ
プ33」、利用者毎に振り分けられた記事と、これまで
に閲覧した記事、利用者の閲覧情報に関する情報とを使
用して内容が関連する記事を検出する「関連記事検出ス
テップ34」、関連記事検出ステップ34で内容が関連
すると検出された記事について、それぞれの記事の相互
間で共通の情報と、それぞれの記事独自の情報とを検出
する「記事部分間類似度評価ステップ35」から構成さ
れる。
【0033】前述の記事受信ステップ31、記事振り分
けステップ33、関連記事検出ステップ34、記事部分
間類似度評価ステップ35の処理の結果は、外部記憶部
114に保存される。保存されている記事は、記事送信
プロセス4における処理によって読み出され、利用者用
記事表示部12に送信される。プロファイル読み出しス
テップ32は、全ての利用者プロファイルが記事振り分
けステップ33、関連記事検出ステップ34、記事部分
間類似度評価ステップ35を繰り返して実行する処理を
管理している。以下、プロセス3を構成する前述した各
ステップの詳細を説明する。
【0034】[記事受信ステップ31]このステップ3
1は、記事配信元から外部通信網2を介して送信される
記事を受信する処理を行う。記事数は複数であり、リス
ト形式で受信される。受信した記事は、中央処理部11
2に送信される。記事を受け取った中央処理部112
は、内部記憶部113に記事をリスト形式のまま保持す
る。中央処理部112は、外部記憶部114に記事を保
存するための情報として記事を特定するための記事参照
用データを記事から抽出する。記事参照用データは、記
事の配信元、記事が発信された日付及び時刻、記事が到
着した日付及び時刻、及び、記事の題名から構成され
る。記事の題名は、記事配信元が付与した題名があれば
それを利用し、なければ記事の本文から適切な文字列を
抽出して付与される。本文からの記事題名の抽出方法に
は、最初の1文を抽出する方法と最初のN文字を抽出す
る方法とが適当と考えられる。本発明の実施形態におい
ては、最初の1文の長さが10文字以下の場合、最初の
1文を抽出し、10文字を越える場合、最初の10文字
を抽出して記事の題名とするものとする。抽出された記
事参照データと記事とは、関係付けられ、外部記憶部1
14の記事情報部1141に保存される。
【0035】[利用者プロファイル読み込みステップ3
2]このステップ32は、外部記憶部114のプロファ
イル情報部1142から利用者の記事閲覧に関するプロ
ファイルを1つ内部記憶部113に保持する処理を行
う。プロファイル情報部1142はテーブルであるの
で、テーブルの先頭から順に利用者を指定して、その利
用者のプロファイルが読み出される。全ての外部記憶部
114に保持している利用者のプロファイルが処理され
れば、記事処理プロセス3を終了する。
【0036】[記事振り分けステップ33]このステッ
プ33は、前述の利用者プロファイル読み込みステップ
32で内部記憶部113に読み込んだプロファイルと、
内部記憶部113に保持している全ての記事との類似度
を評価する処理を行う。記事は、リストの先頭から1つ
ずつ順にプロファイルと比較される。記事とプロファイ
ルとの類似度の評価結果は、その記事の記事参照データ
と関係付けられ、外部記憶部114の利用者表示記事情
報部1143に保存される。読み込んでいるプロファイ
ルからポインタが張られている記事参照データがない場
合、保存した記事参照データにポインタを張る。すでに
ポインタが張られている記事参照データのリストがある
場合、そのポインタが張られている利用者表示記事情報
部1143に、類似度評価結果と記事参照データとの組
を追加する。
【0037】記事とプロファイルとの類似度の評価方法
には様々な方法がある。本発明の実施形態は、プロファ
イルを、ユーザが興味のあるキーワードを論理演算子で
結合したものにより表現することとする。論理演算子に
は、選言(記号は∪)、連言(記号は∩)、否定(記号
は¬)を利用する。プロファイルの例を図4(a)に示
す。プロファイルは、キーワードを命題とし、命題を論
理演算子で結合した論理的条件である。記事にキーワー
ドが現れる場合、そのキーワードである命題が真にな
り、現れない場合は偽になる。論理式全体が真になる場
合、記事はプロファイルを満足する。キーワードで表さ
れる命題には、階層とスコアとが定義されている。キー
ワードの階層とスコアとを定義した知識はシソーラスと
呼ばれ、文書検索の技術分野においてはよく利用され
る。シソーラスは、既知の技術であるので説明を省略す
る。
【0038】プロファイルに含まれるキーワードよりも
下位の階層のキーワードが記事に出現した場合、プロフ
ァイル中のキーワードで表された命題は真になるものと
する。従って、図4(a)に示すようにプロファイルが
定義されている場合、図4(b)に示すような記事がこ
のプロファイルに合う記事と判断される。この図4
(b)に示す例の記事において、網かけの部分が、プロ
ファイルのキーワードを真とした記事内の語句である。
但し、図4(c)のシソーラスを利用するものとする。
なお、このシソーラスは、「概念」から順に木構造状に
概念が詳細化されている。真になったキーワードのスコ
アを全て加算し、記事の文字数で割ったものを記事とプ
ロファイルとの類似度とする。
【0039】[関連記事検出ステップ34]このステッ
プ34は、前述した記事振り分けステップ33によっ
て、利用者のプロファイルと関係付けられた記事につい
て、それぞれの記事の相互間の類似度を評価する処理を
行う。表現の類似度を記事の類似度とする。本発明の実
施形態において、記事の表現の類似度は、ベクトル空間
モデルに基づく文書類似度計算によって評価する。
【0040】図5は関連記事検出ステップ34の詳細な
処理動作を説明するフローチャート、図6は形態素解析
と特徴ベクトルの例とを説明する図であり、以下、図
5、図6を参照して、関連記事検出ステップ34の詳細
を説明する。
【0041】関連記事検出ステップ34の処理は、図5
に示すように、外部記憶部114から内部記憶部113
に読み込んでいるプロファイルと関係付けられている記
事を全て読み込む「記事読み込みステップ341」、読
み込んだ記事を単語に分割する「形態素解析ステップ3
42」、形態素解析ステップの処理を元に記事の類似度
を計算するための表現であるベクトルを生成する「特徴
ベクトル生成ステップ343」、特徴ベクトルをもとに
記事の類似度を評価し類似していると評価した記事を関
係付ける「類似記事集合生成ステップ344」、関連記
事検出の結果を外部記憶部114に出力する「結果出力
ステップ345」から構成される。
【0042】なお、ベクトル空間モデルに基づく方法以
外にも、記事が発信された時刻、特定のキーワードの有
無、テンプレートを利用して抽出した時・場所・登場者
等の情報によって記事の類似度を計算する方法があるが
その説明は省略する。これらの方法は、ベクトル計算モ
デルに比べて計算量が少ないという利点がある。しか
し、計算機の性能の向上に伴って、ベクトル空間モデル
が主流になると考えられる。よって、本発明の実施形態
は、ベクトル空間モデルに基づく方法を採用することと
する。以下、図5を参照して、関連記事検出ステップ3
4を構成する前述の詳細ステップのそれぞれを説明す
る。
【0043】[記事読み込みステップ341]このステ
ップは、現在、読み込んでいる利用者のプロファイルか
らポインタが張られている利用者記事情報1143に記
事参照データがある全ての記事本体を内部記憶部113
に読み込む処理を行う。但し、記事振り分けステップ3
2における処理で内部記憶部113に保持している最近
到着した記事を改めて読み込む必要はない。
【0044】[形態素解析ステップ342]このステッ
プは、内部記憶部113に保持している全ての記事の文
章に対して形態素解析の処理を行う。形態素解析とは、
文を形態素に分割し、各形態素に品詞などの属性を付与
する処理である。形態素解析は、公知の技術であるので
説明を行わない。図6に入力される記事の一部とその記
事の形態素解析結果の例を示している。この例では、図
6(a)に示す記事に含まれる形態素を抽出し、各形態
素の品詞だけを求め、図6(b)に示すような形態素解
析の結果を得ている。[特徴ベクトル生成ステップ34
3]このステップは、形態素解析結果を特徴ベクトルに
変換する処理を行う。特徴ベクトルは、形態素とその形
態素に対するスコアとの組を要素とするリストで表現さ
れる。本発明の実施形態におけるスコアは出現頻度とし
ている。全ての記事に対してこの処理が行われる。ま
た、本発明の実施形態は、名詞だけを選択して特徴ベク
トルの要素としているが、名詞以外の要素と出現頻度と
を特徴ベクトルの要素とすることもできる。図6(c)
に特徴ベクトルの例を示している。この例は、記事中に
「米大統領」、「31日」、「成長」、「指示」、「発
表」が1回、「国際金融機関」、「追加融資」が2回、
「声明」が3回、「ロシア」が4回出現した場合の特徴
ベクトルである。
【0045】[類似記事集合生成ステップ344]この
ステップ344は、特徴ベクトルの類似度が大きい記事
を1つの集合として集めることにより、類似する記事を
要素とする集合を生成する処理を行う。
【0046】図7は図5における類似記事集合生成ステ
ップ344の詳細な処理動作を説明するフローチャート
であり、以下、これについて説明する。
【0047】まず、記事の特徴ベクトルをリストのかた
ちで内部記憶部113に保持する(ステップ344
1)。リストの要素数を調べ、閾値以下であれば類似記
事検出ステップ344の処理を終了する(ステップ34
42)。次に、リストに含まれる特徴ベクトルの全ての
2つ組について類似度を計算する(ステップ344
3)。最も類似度が大きい組をリストから取り出す(ス
テップ3444)。取り出したベクトルをリストから削
除する(ステップ3445)。取り出したベクトルを1
つのベクトルに併合する。1つのベクトルに併合された
記事参照データは、そのベクトルと関係付けておく。併
合の結果のベクトルをリストに追加し、その後、処理を
ステップ3442に戻す(ステップ3446)。なお、
前述の処理を終了するリスト数の閾値は、利用者が自由
に設定することができる。
【0048】類似度の計算は、数1に示す演算式を用い
て行うことができる。
【0049】
【数1】
【0050】数1において、ここで、T1、T2は類似
度を計算する特徴ベクトルである。T1は、形態素w1
i(i=1〜m)とそのスコアf1i(i=1〜m)と
いう組を要素とするm個の要素を持つ。T2は、形態素
w2i(i=1〜n)とそのスコアf2i(i=1〜
n)という組を要素とするn個の要素を持つ。M(T
1,T2)は、T1とT2との相互間で形態素が共通で
ある要素のスコアどうしを掛け合わせた値の和である。
【0051】図8は特徴ベクトルT1、T2の例と、こ
れらの特徴ベクトルとの類似度を計算した例とを説明す
る図であり、以下、これについて説明する。
【0052】特徴ベクトルT1、T2の例のそれぞれが
図8(a)、図8(b)に示され、類似度を計算した例
が図8(c)に示されている。類似度(T1,T2)の
右辺の分子は、M(T1,T2)の計算例であり、T1
とT2とに共通に出現している形態素が、「米大統
領」、「ロシア」、「国際金融機関」、「指示」なの
で、これらの形態素のスコアを形態素ごとに掛け算して
足しあわせている。分母は、それぞれの特徴ベクトルに
ついて形態素のスコアの2乗を加算したものの平方根を
計算して掛け合わせたものである。
【0053】図9は特徴ベクトルT1、T2の例と、こ
れらの特徴ベクトルを併合した特徴ベクトルの例とを説
明する図であり、以下、これについて説明する。
【0054】図8に示したと同一の特徴ベクトルT1、
T2の例のそれぞれが図9(a)、図9(b)に示さ
れ、これらを併合した特徴ベクトルの例が図9(c)に
示されている。このような併合は、2つの特徴ベクトル
T1、T2に共通して現れる形態素について、それぞれ
の特徴ベクトルでのスコアの相加平均をスコアとして、
併合の結果の特徴ベクトルの要素とし、共通して出現し
ない形態素について、スコアを2で割って併合の結果の
特徴ベクトルの要素とするという処理で行うことができ
る。
【0055】[結果出力ステップ345]図4に戻っ
て、このステップ345は、外部記憶部114に、類似
記事集合生成ステップ344で生成した類似記事集合を
保存する処理を行う。類似している記事の集合は、リス
ト構造として類似記事情報部1144に保存される。類
似記事情報部1144は、前述の記事読み込みステップ
341で読み込んだ利用者表示記事情報部1143から
ポインタを張ることにより関係付けられる。利用者を指
定すれば、利用者表示記事情報部1143を介して、類
似記事集合にアクセスすることができる。
【0056】[記事部分間類似度評価ステップ35]図
10は類似している3つの記事、記事α、記事β、記事
γの例を示す図、図11は記事部分間類似度評価ステッ
プ35の詳細な処理動作を説明するフローチャートであ
る。前述した関連記事検出ステップ34の処理で図10
に示すような類似記事が検出されたものとして、以下の
ステップ35の処理を説明する。
【0057】このステップ35は、関連記事検出ステッ
プ34で関係付けられた記事について、記事を部分に分
割して、それぞれの部分毎の類似度を評価する処理を行
う。すなわち、このステップ35は、記事相互間で共通
する情報と、それぞれの記事の独自の情報とを検出する
ステップであり、本発明の特徴的な処理である。記事の
部分毎の類似度は、行列の形で表現される。また、記事
の部分についても記事の類似度同様、ベクトル空間モデ
ルに基づく類似度計算によって評価される。また、この
ステップ35は、関連記事検出ステップ34の処理の終
了の時点で内部記憶部113に保持されている類似記事
集合に対して実行される。
【0058】このステップ35の詳細は、図11に示す
ように、記事を内容のまとまり毎に分割する「記事分割
ステップ351」、分割した記事の部分の類似度を計算
するための表現であるベクトルを生成する「特徴ベクト
ル生成ステップ352」、特徴ベクトルに基づいて記事
の部分毎の類似度を評価し類似記事行列を生成する「類
似度行列生成ステップ353」、類似度行列をもとに記
事相互間で共通している部分と、記事部分間類似評価の
結果とを外部記憶部114に出力する「結果出力ステッ
プ354」から構成される。以下、これらの処理のそれ
ぞれについて、図11を参照して説明する。
【0059】[記事分割ステップ351]一般に、記事
は、文、段落、小見出しのついた節等の内部構造を持っ
ている。ステップ351は、記事のこれらの内部構造を
利用して記事を小さな単位に分割する処理を行う。そし
て、記事を単位に分割するとき、記事がSGMLのよう
なマークアップ言語を利用している場合、マークアップ
言語を手掛かりにして記事を分割する。
【0060】マークアップ言語がない場合、言語固有の
分割記号(日本語でいえば句読点など)を利用して分割
する。記事の文単位への分割は、読点「。」を手掛かり
にして行うことができ、段落単位への分割は、数文字分
の字下げあるいは空行を手掛かりにして行うことができ
る。また、小見出しのついた節単位への分割は、小見出
しを単位に行うことができる。小見出しは、改行に始ま
り改行に終わる文字列、括弧付けされた文字列、文字の
大きさが周囲と異なる文字列等を手掛かりにして検出す
ることができる。
【0061】記事を分割する単位は、予め利用者が定義
しておく方法、記事の文数や文字数等の記事の長さに関
する閾値を設定しておく方法により決定される。一般
に、記事は、さまざまな長さで送信されるので、記事の
長さに応じて分割単位を変える方法が有効である。本発
明は、記事に含まれる段落数によって、記事の分割単位
を変えるものとする。処理対象の記事は複数あるが、最
も段落数の少ない記事によって分割単位を決定すること
とする。
【0062】本発明の実施形態は、段落数が4以上の場
合、段落単位に分割し、段落数が3以下の場合、文単位
に分割する。段落単位に分割するか、文単位に分割する
かを切り分ける段落数は、利用者が任意に設定すること
ができる。
【0063】図12、図13は記事の例とこの記事を分
割した場合の例とを示す図である。図12(a)に示す
例の記事は、段落数が5なので、図12(b)に示すよ
うに段落単位に分割される。また、図13(a)に示す
例の記事は、段落数が2なので、図13(b)に示すよ
うに文単位に分割される。
【0064】[特徴ベクトル生成ステップ352]図1
4は図10に示した記事を文単位に分割した結果を示す
図、図15は部分記事の例と、この部分記事から生成し
た特徴ベクトルの例を示す図であり、以下、これらの図
を参照して特徴ベクトル生成ステップ352の処理を説
明する。
【0065】以下の説明において、前述のステップ35
1の処理によって分割された記事の単位を、部分記事と
呼ぶ。また、処理の例を説明するために、段落単位に分
割した記事では煩雑なので、以下では、図10の記事を
前述したステップ351の処理で文単位に分割した図1
4に示す例により処理を説明する。なお、図14に示す
部分記事は、記事名に数字を記事の先頭から順に付けた
記号で表す。従って、図10に示す記事αの部分記事
は、図14に示すように先頭からα1、α2、α3とな
る。
【0066】ステップ352は、部分記事を特徴ベクト
ルに変換する処理を行う。特徴ベクトルは、タームを要
素とするリストで表現される。タームとは、部分記事を
構成する文字から抜き出した意味的まとまりのある文字
列のことである。タームとしては、複合名詞、名詞句の
ような言語的単位が考えられる。複合名詞、名詞句は、
品詞が“<形容詞|名詞>名詞”という条件を満たす単
語列を抜き出すことによって検出することができる。こ
こで、< >は“<”と“>”で挟まれた要素が0個以
上繰り返すことを意味する。形容詞|名詞は、“|”の
左要素「形容詞」または右要素「名詞」が現れることを
意味する。品詞の並びが“名詞”、“名詞,名詞”、
“形容詞,名詞”、“形容詞,名詞,名詞”となってい
る単語列がこの条件にあう単語列である。日本語の場
合、最長漢字列を抜き出すような処理でも、よい精度で
タームを検出することができる。形態素解析用の辞書に
登録されていない形態素がよく現れる場合、漢字列を抽
出するほうがよい。本発明の実施形態は、形態素解析結
果から複合名詞及び名詞句を抜き出すことによってター
ムを検出する。前述した形態素解析は、関連記事検出ス
テップ34における解析結果を利用することができる。
【0067】図15(a)に示すような部分記事から前
述したタームを抜き出してタームリストとすることによ
り、図15(b)に示すような特徴ベクトルを生成する
ことができる。
【0068】[類似度行列生成ステップ353]図16
は部分記事に分割された2つの記事の例と、各記事の部
分記事相互間の類似度行列を説明する図であり、以下、
この図を参照して類似度行列生成について説明する。
【0069】このステップ353は、記事の組み合わせ
について部分記事の特徴ベクトルのあいだの類似度を計
算し、類似度行列を生成する処理を行う。本発明の実施
形態における特徴ベクトルの類似度は、共通して出現す
るタームの数によって計算するが、シソーラスのような
語を概念によって分類した知識を使って、共通する概念
の数を数えてもよい。本発明の実施形態では、共通のタ
ームの数を数えている。この結果、図16(a)に示す
記事の類似度行列は、図16(b)に示すようなものと
なる。このステップ353の処理は、全ての記事の組み
合わせについて行われる。
【0070】[結果出力ステップ354]このステップ
354は、外部記憶部114の類似記事情報部1144
に、類似度行列を保存する処理を行う。類似度を計算し
た2つの記事の記事参照データとそれらのあいだの類似
度行列をセットにして保存する。
【0071】[要求処理プロセス4]図3に戻って、ス
テップ11Dで利用者からの要求が検出されると、この
記事送信プロセス4が実行される。この疑似送信プロセ
ス4は、組織内通信網13から送信される利用者用記事
表示部12からの要求を受信し、この要求を中央処理部
112に送信する「要求受信ステップ41」、新着記事
を送信する「新着記事送信ステップ42」、利用者が指
定した記事を検索して送信する「記事検索ステップ4
3」、利用者が興味があるとして選択した記事に関する
情報を外部記憶部114に保存する「記事選択ステップ
44」、利用者からの終了要求を処理する「終了要求処
理ステップ45」により構成される。
【0072】[要求受信ステップ41]利用者用記事表
示部12から送信される要求には、記事を利用者用表示
部に送信することを要求する「記事送信要求」と、利用
者からの記事選択に関する要求である「記事選択要求」
と、利用者が記事閲覧作業を終了することを告げる「記
事閲覧終了要求」との3つがある。また、記事送信要求
には、直前の記事閲覧終了時から現在までのあいだに到
着した記事の中で、利用者の記事閲覧要求に合致する全
ての記事を送信することを要求する「新着記事送信要
求」と、利用者が記事閲覧中に閲覧を希望した記事が、
利用者用記事表示部に保存されていない場合に、利用者
用表示部から記事加工部に送信される「記事検索要求」
との2つがある。このステップ41は、「新着記事送信
要求」を受信した場合、「新着記事送信ステップ42」
に、「記事検索要求」を受信した場合、「記事検索ステ
ップ43」に、記事選択要求」を受信した場合、「記事
選択ステップ44」に、記事閲覧終了要求を受信した場
合「終了要求処理ステップ45」に処理を移す。
【0073】[新着記事送信ステップ42]このステッ
プ42は、利用者用記事表示部12から新着記事送信要
求が送られた場合に実行される。新着記事送信要求は、
要求した利用者の利用者IDと、要求した日時とから構
成される。このステップにおいて、利用者IDを使用し
て、外部記憶部114に保持されている利用者のプロフ
ァイルが検索され、そのプロファイルからポインタが張
られている利用者表示記事情報部1143と、その利用
者表示記事情報部1143からポインタが張られている
類似記事情報部1144とを読み出す。また、利用者プ
ロファイルに要求日時を記録する。そして、要求を行っ
た利用者が利用している利用者用表示部12宛てに、読
み出した類似記事情報部1144と類似記事情報部11
44からポインタが張られている記事参照データとその
記事参照データからポインタが張られている記事本体、
分割記事を送信する。
【0074】[記事検索ステップ43]このステップ4
3は、利用者用記事表示部から記事検索要求が送られた
場合に実行される。記事検索要求は、利用者IDと記事
参照データとから構成される。このステップにおいて、
外部記憶部114の記事参照データが検索され、記事参
照データからポインタが張られている記事本体を読み出
す。そして、記事送信部114を使用して、要求を行っ
た利用者が利用してる利用者用表示部12宛てに、検索
した記事の記事本体を送信する。
【0075】[記事選択ステップ44]このステップ4
4は、利用者用記事表示部から記事選択要求が送られた
場合に実行される。記事選択要求は、利用者IDと2種
類の記事参照データとのリストから構成される。リスト
の1つは、外部記憶部114に保存したい記事であり、
もう1つは、外部記憶部114から削除したい記事であ
る。この処理において、利用者IDを用いて外部記憶部
114から利用者表示記事情報1143を読み出す。選
択要求の保存したい記事のリストにある記事参照データ
が、利用者表示記事1143の中にある場合、その記事
を保存するようマークを付ける。また、選択要求の削除
したい記事のリストにある記事参照データが、利用者表
示記事部1143の中にある場合、その記事を削除す
る。
【0076】[終了要求処理ステップ45]このステッ
プ45は、利用者用記事表示部から記事閲覧終了要求が
送られた場合に実行される。記事閲覧終了要求は、利用
者IDから構成される。このステップにおいて、外部記
憶部114から利用者IDを用いて利用者表示記事11
43を検索し、記事選択ステップ44でマークされた記
事以外を削除する。
【0077】[利用者用記事表示部12での処理の流
れ]図17は利用者用記事表示部12の処理動作を説明
するフローチャートであり、以下、利用者用記事表示部
12の処理動作を説明する。
【0078】利用者用記事表示部12は、起動されると
直ちに新着記事送信要求を記事加工部11に送信する
「新着記事要求ステップ12A」が起動される。続い
て、新着記事を受信する「新着記事受信ステップ12
B」、受信した記事を加工して利用者に提示する「新着
記事表示ステップ12C」が実行される。この3つのス
テップの処理が終了すると、利用者からの要求を受け付
ける「利用者要求処理ステップ12D」の状態になる。
その後、利用者が終了要求を入力しない限り処理を続け
る。利用者は、記事表示画面を見ながら必要な要求を利
用者用記事表示部12に対して行う。利用者の要求は、
中央処理部122に送られて処理される。利用者用記事
表示部12で処理できない要求は、記事加工部11に送
られる。記事加工部11から、要求を処理した結果が返
される。利用者が終了要求を入力すると終了処理ステッ
プ12Eが実行されて、利用者用記事表示部の動作を終
了する。以下、前述の各処理ステップのそれぞれについ
て説明する。
【0079】[新着記事要求ステップ12A]このステ
ップ12Aは、利用者が利用者用記事表示部12の利用
を開始したことを検出して、自動的に新着記事要求を記
事加工部11に送信する処理を行う。
【0080】[新着記事受信ステップ12B]このステ
ップ12Bは、記事加工部11から送信される新着記事
を受信する処理を行う。そして、受信した記事を中央処
理部122、外部記憶部124に送る。中央処理部12
2に送信された記事は、内部記憶部123に送られ保持
される。
【0081】[新着記事表示ステップ12C]このステ
ップ12Cは、受信した新着記事を利用者に表示する処
理を行うステップであり、図示しないが、受信した新着
記事情報の類似度行列を使用して、記事の相互間の共通
部分を求める「共通部分検出ステップ12C1」、共通
部分検出の結果から利用者に表示する記事データを作成
する「表示データ作成ステップ12C2」、「表示ステ
ップ12C3」により構成される。
【0082】[共通部分検出ステップ12C1]このス
テップ12C1は、類似度行列を利用して、類似する記
事相互間での共通する情報、それぞれの記事独自の情報
を抽出する処理を行う。類似度が閾値を越える部分記事
の相互間には共通の話題があり、そうでない部分記事の
相互間にはそれぞれの記事の独自の情報がある。閾値は
予め設定済みである。例えば、閾値を3とすると、前述
した図16に示す例の場合、部分記事α1とβ1との相
互間、α1とβ2との相互間に共通情報があり、独自情
報がα2、α3、β3、β4にあると検出することがで
きる。共通情報は、「米大統領が31日にロシアに対す
る追加融資を指示すると表明した」である。記事αの独
自情報は、「IMFの凍結中の融資が具体化しそうであ
る」と「ロシア経済がトリプル安に見舞われている」と
である。記事βの独自情報は、「追加融資方針は先週の
電話協議で決まったとみられる」と「IMFは92億ド
ルの追加融資を計画中」とである。
【0083】前述において、共通情報だけを記録してお
けば容易に独自記事を計算することできるので、共通情
報だけを記録する。これは、比較した記事名と類似する
部分記事の位置を記録することにより行われる。以下、
この情報を共通位置情報と呼ぶ。例えば、記事αと記事
βとの共通情報は、次の4つの情報を記憶すればよい。
すなわち、 1.記事α 2.記事β 3.記事αの中で記事βと共通する部分記事の位置 4.記事βの中で記事αと共通する部分記事の位置 である。
【0084】前述した共通部分検出ステップ12C1の
処理は、全ての記事の組み合わせについて行われる。な
お、以下、他の記事の独自情報を、その記事にとって補
足情報と呼ぶ。
【0085】[表示用データ作成ステップ12C2]こ
のステップは、補足情報の量に基づいて最初に利用者に
表示する記事(以下、この記事を主記事と呼ぶ)を選択
する処理を行う。この選択において、補足情報が最も少
ない記事を選べば、最も詳しい記事を主記事として表示
でき、補足情報が最も多い記事を選べば、重要な情報だ
けが記述されている可能性が高い記事が主記事として選
択されることになる。どちらを選択するかは、予め利用
者が利用者用表示部12の外部記憶部124に登録して
おく。補足情報の量は、部分記事の個数で評価される。
図14に示した例の記事について言えば、記事αは、記
事βによる補足情報がβ3、β4、記事γによる補足情
報がγ2、γ3であるので、補足情報の大きさは4と評
価される。主記事を記事αとした場合、共有情報位置に
含まれない、α3、α4を記事のαの独自情報として表
示する。記事βの独自情報は、共通情報位置より、β
2、β3、記事γの独自情報は、共通情報位置より、γ
2と判る。
【0086】[記事表示ステップ12C3]図18は利
用者用記事表示部に表示された記事の例を示す図であ
り、このステップ12C3は、図18に示すように、主
記事と補足情報とを利用者に表示する処理を行う。利用
者は、主記事を読むことにより、類似する記事に共通す
る情報を取得することができる。主記事は、図18に示
す例では全体が表示されているが、記事が長い場合、部
分的に表示されスクロールバーで表示位置を変更するこ
とができる。利用者は、記事の話題に関心がある場合、
補足情報部を見ることにより、主記事にない情報にどの
ような情報があるかを知ることができる。主記事におい
ても、独自情報と共通情報とが区別して表示される。図
18に示す例では、主記事の独自情報部を網掛けにして
表示している。また、図18に示す例では、補足情報と
して、部分記事を全て表示している。但し、部分記事が
段落を単位とする場合、先頭の文を表示する。本発明の
実施形態は、文を表示しているが、文からキーワードを
抽出して表示することもできる。なお、このキーワード
を表示する方法としては、特開平8−190564号公
報等に記載された技術が知られている。
【0087】[利用者要求処理ステップ12D]利用者
は、図18に示すような記事の表示を見て、以下の3つ
の要求を出すことができる。すなわち、 1.補足情報表示 2.記事検索 3.記事選択 である。
【0088】補足情報表示要求は、補足情報表示ステッ
プ12Eにより、記事検索要求は、記事検索ステップ1
2Fにより、記事選択要求は記事選択ステップ12Gに
より処理される。
【0089】[補足情報表示ステップ12E]図19は
利用者が補足情報を指定することにより、その情報を含
む記事全体表示させた場合の記事の状態を示す図であ
り、以下、図19を参照してこのステップ12Eの処理
を説明する。
【0090】利用者は、表示されている補足情報から任
意の補足情報を指定することにより、その情報を含む記
事全体を表示させることができる。このような機能は、
WWWブラウザを利用している場合、表示する記事の関
係をHTMLを用いて記述することにより容易に実現す
ることができる。ブラウザを利用して記事を表示してい
る場合、補足情報の部分をクリックすることにより選択
した記事が表示される。このときの記事表示画面は図1
9に示すようになる。この状態では、最初の主記事と選
択した記事との両方に含まれていない情報が、補足情報
部に表示される。記事の閲覧履歴を考慮して記事を表示
することにより効率的な閲覧が可能になる。例えば、図
14に示す例において、記事βを表示する場合、共通情
報位置より、記事γの記事βに対する独自情報を、γ
2、γ3と検出できる。しかし、γ3の情報は、記事α
に含まれるので、記事αを閲覧した後では、不要な情報
である。従って、補足情報部にはγ2だけが表示され
る。
【0091】[記事検索ステップ12F]利用者は、記
事が発信された日時、記事配信元等を入力して記事を検
索することができる。記事の検索は、まず、利用者用表
示部12の外部記憶部124に保存されている記事につ
いて実行される。記事の検索により該当する記事が見つ
かれば、利用者にその記事を表示する。記事は、補足情
報部を書き換えるかたちで表示される。外部記憶部12
4に該当する記事が保存されていない場合、記事加工部
11に対して、記事検索要求を送信する。記事が送信さ
れてきたら、補足情報部を書き換えることによりその記
事を表示する。受信した記事は、外部記憶部124に保
存される。記事本文に対して全文検索を実行することも
できる。
【0092】全文検索を実行するためには、外部記憶部
124に保存している記事本体の文書について、検索用
インデックスを作成し、外部記憶部124に保持してお
く必要がある。利用者がキーワードを入力した場合、こ
の検索用インデックスを検索することにより、目的の記
事を探すことができる。全文検索は、既知の技術である
ので、その説明は省略する。
【0093】[記事選択ステップ12G]利用者は、閲
覧している記事から特に興味ある記事について、その旨
を記録することができる。興味があることを記録した記
事は、それ以降の新着記事と関係付けられて表示され
る。従って、利用者は、興味のある記事の続報を、本発
明の手法を利用して閲覧することができる。この処理
は、記事加工部に、記事選択要求を発信することで実行
することができる。本発明の実施形態において、記事選
択要求の発信は、記事閲覧時に主記事をクリックするこ
とにより実行される。
【0094】[終了処理ステップ12H]利用者が処理
の終了を要求すると、記事加工部11に記事表示処理が
終わったことを通知する。これにより、記事加工部11
は、外部記憶部114の利用者記事情報部1143のマ
ークされていない記事をすべて削除する。
【0095】前述した本発明の実施形態によれば、関係
する文書相互間の共通している情報と、それぞれの文書
の独自の情報とを区別して利用者に提示することがで
き、利用者が無駄なく効率的に文書を読むことが可能に
なる。また、前述した本発明の実施形態によれば、時間
の経過とともに情報が変化するような事態に関する文書
について、文書の中からもれなく時間の経過によって変
化した情報の部分を利用者が見つけ出すことが可能とな
る。
【0096】次に、本発明による文書表示方法の他の実
施形態を図面により詳細に説明する。
【0097】図20は本発明による文書表示方法を実行
する他の記事表示システムの構成を示すブロック図であ
る。図21において、A’〜C’は新聞記事データベー
スであり、他の符号は図1の場合と同一である。
【0098】図20に示すシステムは、記事が加工され
ずにそのまま保存されている形態の新聞記事データベー
スをキーワードにより検索し、検索結果の記事を閲覧す
るときに、本発明を利用して記事の相互間の差異を検出
して表示するシステムの例であり、以下、この例を参照
して、本発明の他の実施形態を説明する。
【0099】[システムの構成]図20に示すシステム
は、図1に示すシステムと同一のハードウェア構成を持
っており、図1における記事配信元A〜Cの代わりに、
新聞記事データベースA’〜C’を備えている点でのみ
図1に示すシステムと相違している。
【0100】そして、図20に示すシステムは、新聞記
事を管理する新聞記事データベースA’〜C’、利用者
からの記事検索要求を受け付け、記事データベースを選
択して記事検索を実行する記事表示システム1及び記事
表示システムと記事データベースとを接続する外部通信
網2から構成される。記事表示システム1は、図1にお
けるものと同一のハードウェア構成を持ち、新聞記事デ
ータベースは、複数が利用可能である。これは、新聞社
がそれぞれ独立に記事データベースを販売することに対
応する。図20に示す例では、新聞記事データベースA
〜Cの3つの新聞記事データベースを利用できるが、こ
の数に原理的な制限はない。
【0101】[記事加工部11]記事加工部11は、外
部と信号の送受信を行う入出力部111、各情報処理部
の制御や記事処理を行う中央処理装置112、中央処理
装置112が処理するデータを一時的に保持する内部記
憶部113、受信した記事や記事を関係付けた結果、利
用者の記事検索要求などの情報を保持する外部記憶部1
14を備えて構成される。
【0102】[個人用記事表示部12]個人用記事表示
部12は、外部からの信号を送受信する入出力部12
1、各情報処理部の制御や記事処理、利用者要求の処理
を行う中央処理部122、中央処理部122が処理する
データを一時的に保持する内部記憶部123、記事加工
部11から送信された記事や利用者の検索要求を保持す
る外部記憶部124、利用者に記事を表示するディスプ
レイである表示部125を備えて構成される。
【0103】[外部記憶部114で保存される情報]図
21は外部記憶装置114に保存される情報を模式的に
説明する図であり、まず、これについて説明する。図2
1に示す外部記憶装置114に保存される情報は、図2
により説明したものとほぼ同一であるので、以下では異
なる点についてのみを説明する。
【0104】図21では、図2に示したプロファイル情
報部1142が不要になり、代わって、利用者から送信
された検索要求を保存する検索要求情報部5142が作
成される。記事検索の結果の文書は、利用者表示記事情
報部5143に保存される。利用者用表示記事情報部5
143は、図2の場合と相違する。記事情報部514
1、類似記事情報部5144の保存形態は、図2の場合
と同一である。
【0105】[記事情報部5141]図21に示す記事
情報部5141は、記事データベースから送信された記
事の保存形態を示している。全ての利用者が検索した記
事がこの部分にまとめて保持される。記事情報は、記事
本体、記事へのアクセスの記事参照データ、記事を意味
的なまとまりに分割した結果である記事分割結果の3つ
の要素から構成される。記事分割結果は、後述する記事
部分間類似度評価ステップ73の処理によって得ること
ができる。各記事へのアクセスは、記事データベース
名、日付、時刻、題名いずれかを指定することにより行
う。これらの記事アクセスのための情報は、記事参照デ
ータとしてテーブルのかたちで格納されている。記事本
文は、各記事参照データからポインタを張られている。
また、記事を部分に分割した結果の情報も記事参照デー
タからポインタが張られている。
【0106】[検索要求情報部5142]図21に示す
検索要求情報部5142は、利用者の記事検索要求を保
存する形態を示している。検索要求を検索結果と関係つ
けて保存することにより、同一の検索を繰り返す無駄を
抑制することができる。
【0107】[利用者表示記事情報部5143]図21
に示す利用者表示記事情報部5143は、検索された記
事を保存する形態を示している。検索された記事は、記
事参照データへのポインタと、検索要求との類似度とを
組にし、この組のリストのかたちで1つの検索要求に合
致した記事が保存される。この情報へは、各利用者の検
索要求からポインタが張られている。従って、検索要求
を指定することにより、過去に検索要求に合致した記事
とその記事の検索要求との類似度とにアクセスすること
ができる。
【0108】[類似記事情報部5144]図21に示す
類似記事情報部5144は、図2に示した類似記事情報
部1144と同一の処理をするものであるので説明を省
略する。
【0109】[記事加工部11での処理の流れ]図22
は記事加工部11の処理動作を説明するフローチャート
であり、この図により、記事加工部11の処理の流れを
説明する。この処理は、中央処理部112において実行
される。
【0110】(1)記事加工部11は、処理が開始され
ると記事加工部11に終了要求が入力されない限り処理
を続けるために、終了要求があるか否かの監視を開始す
る(ステップ51A)。
【0111】(2)ステップ51Aで終了要求がないこ
とを確認した後、外部通信網2、組織内通信網13から
の入力を監視し、一定時間毎に検索結果が受信されたか
否か、利用者から要求があったか否かを評価し判定す
る。なお、これらの判定のステップは並行して実行され
る(ステップ51B〜51D)。
【0112】(3)ステップ51Cで、外部通信網2を
介して検索結果が送信されてきたことを検出した場合、
記事処理用プロセスの記事処理プロセス7を生成する。
また、ステップ51Cの処理では、プロセス7の生成の
いかんにかかわらず、検索結果の受信状態を確認した
後、直ちにステップ51Aの処理に戻る。
【0113】(4)ステップ51Dで、利用者用記事表
示部12からの検索要求が組織内通信網を介して送信さ
れていることを検出した場合、利用者要求処理用のプロ
セスである要求処理プロセス8を生成させる。ステップ
51Dの処理では、プロセス8の生成のいかんにかかわ
らず、利用者からの要求の有無を確認した後、直ちにス
テップ51Aの処理に戻る。
【0114】前述の記事処理プロセス7、要求処理プロ
セス8は、独立して実行されるプロセスであり、これら
のプロセスは並行に動作し、ステップ51C、51Dと
も並行して動作する。記事処理プロセス7、要求処理プ
ロセス8は、記事加工部11のOSで定義された範囲内
で可能な限り生成され、並行して処理される。処理が終
了した記事処理プロセス7、要求処理プロセス4は、O
Sによって自動的に消滅させられる。
【0115】[記事処理プロセス7]記事処理プロセス
7は、外部通信網2から送信される記事を受信し、中央
処理部112に送信する「記事受信ステップ71」、検
索結果の記事について内容の関連を解析する「関連記事
検出ステップ72」、関連記事検出ステップ72で内容
が関連すると検出された記事について、それぞれの記事
の相互間で共通の情報と、それぞれの記事独自の情報と
を検出する「記事部分間類似度評価ステップ73」から
構成される。記事受信ステップ71、関連記事検出ステ
ップ72、記事部分間類似度評価ステップ73での各処
理の結果は、外部記憶部514に保存される。
【0116】[記事受信ステップ71]このステップ7
1は、記事データベースから外部通信網6を介して送信
される記事を受信する処理を行う。記事数は複数であ
り、リスト形式で受信される。受信した記事は、中央処
理部112に送信される。記事を受け取った中央処理部
112は、内部記憶部113に記事をリスト形式のまま
保持する。中央処理部112は、外部記憶部114に記
事を保存するための情報として記事を特定するための記
事参照用データを記事から抽出する。記事参照用データ
は、記事データベース名、記事が発信された日付及び時
刻、記事題名から構成される。記事題名に関する処理
は、図3により説明した記事受信ステップ31の場合と
同一である。
【0117】[関連記事検出ステップ72]図23は関
連記事検出ステップ72の詳細な処理動作を説明するフ
ローチャートであり、関連記事検出ステップ72の全体
は、前述した記事受信ステップ71で受信した記事の記
事相互間の類似度を評価する処理を行う。処理の詳細
は、図23に示すように、読み込んだ記事を単語に分割
する「形態素解析ステップ721」、形態素解析ステッ
プ72の結果をもとに記事の類似度を計算するための表
現であるベクトルを生成する「特徴ベクトル生成ステッ
プ722」、特徴ベクトルに基づいて記事の類似度を評
価し類似していると評価した記事を関係付ける「類似記
事集合生成ステップ723」から構成される。「形態素
解析ステップ721」は、図5で説明した「形態素解析
ステップ342」と、「特徴ベクトル生成ステップ72
2」は、図5で説明した「特徴ベクトル生成ステップ3
43」と、「類似記事集合生成ステップ723」は、図
5で説明した「類似記事集合生成ステップ344」とそ
れぞれ同一あるので、その説明を省略する。
【0118】[記事部分間類似度評価ステップ73]こ
のステップ73は、前述した関連記事検出ステップ72
で関係付けられた記事について、記事を部分に分割し
て、それぞれの部分毎の類似度を評価する処理を行う。
このステップ73は、記事の相互間で共通する情報と、
それぞれの記事の独自の情報とを検出するステップであ
り、本発明の特徴的な部分である。そして、このステッ
プ73は、処理の結果を、記事検索要求を送信した利用
者用記事表示部52に送信することと、要求処理プロセ
ス8の外部記憶部検索ステップ82で内部記憶部513
に保持している過去の記事部分間類似度評価ステップ7
3の結果を再利用することとを除けば、図3、図11の
フローにより説明した記事部分間類似度評価ステップ3
5と同一であるので、その説明を省略する。
【0119】[要求記事処理プロセス8]要求処理プロ
セス8は、利用者が入力する検索要求を受け付ける「要
求受信ステップ81」、外部記憶部514内に検索要求
に合う記事があるか否かを検索する「外部記憶部検索ス
テップ82」、記事データベースに検索要求を送信する
「記事データベース検索ステップ83」から構成され
る。
【0120】[要求受信ステップ81]このステップ8
1は、利用者用記事表示部52から送信される記事検索
要求を受信する処理を行う。検索要求は、対象の記事デ
ータベース、要求を出した利用者の利用者ID、キーワ
ードから構成される。受信した検索要求は、内部記憶部
513に保持される。
【0121】[外部記憶部検索ステップ82]このステ
ップ82は、検索要求を外部記憶部514の検索要求情
報部5142から検索する処理を行う。検索要求情報部
5142に同一の検索要求があれば、類似記事情報51
44を読み出し、内部記憶部513に保持する。なけれ
ば、外部記憶部514の検索要求情報部5142に検索
要求を保存する。
【0122】[記事データベース検索ステップ83]こ
のステップ83は、検索要求のキーワードを検索要求で
指定された記事データベースに対して、記事データベー
スの検索方法に合致する形式で送信する処理を行う。
【0123】[利用者用記事表示部12での処理の流
れ]図24は利用者用記事表示部12の処理動作を説明
するフローチャートであり、以下、利用者用記事表示部
12の処理動作を説明する。
【0124】利用者用記事表示部12は、起動される
と、利用者が終了要求を入力しない限り処理を続ける。
まず、利用者からの検索要求を受け付ける「検索要求受
け付けステップ52A」を実行する。続いて、検索結果
を受信する「検索結果受信ステップ52B」、受信した
記事を加工して記事相互間で共通する情報とそれぞれの
記事独自の情報とを検出する「共通部分検出ステップ5
2C」、利用者に表示するためのデータを作成する[表
示用データ作成ステップ52D]、利用者に記事を表示
する「記事表示ステップ52E」、記事表示画面を見て
いるとき利用者が補足情報の表示を要求するために入力
される要求を処理する「補足情報表示ステップ52F」
を実行する。利用者から終了要求を入力されると、利用
者用記事表示部12の動作を終了させる。
【0125】[検索要求受け付けステップ52A]この
ステップ52Aは、利用者が入力する検索要求を受理
し、この要求を記事加工部11に送信する処理を行う。
【0126】[記事受信ステップ52B]このステップ
52Bは、記事加工部11から送信される記事検索の結
果を受信する処理を行う。受信した記事は、中央処理部
521、外部記憶部524に送られる。中央処理部52
1に送信された記事は、内部記憶部523に送られる。
【0127】[共通部分検出ステップ52C]このステ
ップ52Cでの処理は、図17の新着記事表示ステップ
12Cの一部として説明した共通部分検出ステップ12
C1と同一であるので、その説明を省略する。
【0128】[表示用データ作成ステップ52D]この
ステップ52Dでの処理は、図17の新着記事表示ステ
ップ12Cの一部として説明した表示用データ作成ステ
ップ12C2と同一であるので、その説明を省略する。
【0129】[記事表示ステップ52E]このステップ
52Eでの処理は、図17の新着記事表示ステップ12
Cの一部として説明した記事表示ステップ12C3と同
一であるので、その説明を省略する。
【0130】[補足情報表示ステップ52F]このステ
ップ52Fでの処理は、図17により説明した補足情報
表示ステップ12Eと同一であるので、その説明を省略
する。
【0131】前述したデータベースを検索して情報を得
る本発明の実施形態によっても、図1〜図19により説
明した本発明の実施形態と同様な効果を得ることができ
る。
【0132】
【発明の効果】以上説明したように本発明によれば、類
似する記事について、共通する話題と、記事独自の話題
とを区別して表示することができ、利用者に複数の記事
の閲覧を効率的に行わせることが可能になる。
【図面の簡単な説明】
【図1】本発明による文書表示方法を実行する記事表示
システムの構成を示すブロック図である。
【図2】外部記憶装置114に保存される情報を模式的
に説明する図である。
【図3】記事加工部11の処理動作を説明するフローチ
ャートである。
【図4】プロファイルの例とそのプロファイルによって
検出される記事の例を説明する図である。
【図5】関連記事検出ステップ34の詳細な処理動作を
説明するフローチャートである。
【図6】形態素解析と特徴ベクトルの例とを説明する図
である。
【図7】図5における類似記事集合生成ステップ344
の詳細な処理動作を説明するフローチャートである。
【図8】特徴ベクトルT1、T2の例と、これらの特徴
ベクトルとの類似度を計算した例とを説明する図であ
る。
【図9】特徴ベクトルT1、T2の例と、これらの特徴
ベクトルを併合した特徴ベクトルの例とを説明する図で
ある。
【図10】類似している3つの記事、記事α、記事β、
記事γの例を示す図である。
【図11】記事部分間類似度評価ステップ35の詳細な
処理動作を説明するフローチャートである。
【図12】記事の例とこの記事を分割した場合の例とを
示す図である。
【図13】記事の例とこの記事を分割した場合の例とを
示す図である。
【図14】図10に示した記事を文単位に分割した結果
を示す図である。
【図15】部分記事の例と、この部分記事から生成した
特徴ベクトルの例を示す図である。
【図16】部分記事に分割された2つの記事の例と、各
記事の部分記事相互間の類似度行列を説明する図であ
る。
【図17】利用者用記事表示部12の処理動作を説明す
るフローチャートである。
【図18】利用者用記事表示部に表示された記事の例を
示す図である。
【図19】利用者が補足情報を指定することにより、そ
の情報を含む記事全体表示させた場合の記事の状態を示
す図である。
【図20】本発明による文書表示方法を実行する他の記
事表示システムの構成を示すブロック図である。
【図21】外部記憶装置114に保存される情報を模式
的に説明する図である。
【図22】記事加工部11の処理動作を説明するフロー
チャートである。
【図23】関連記事検出ステップ72の詳細な処理動作
を説明するフローチャートである。
【図24】利用者用記事表示部12の処理動作を説明す
るフローチャートである。
【符号の説明】
A〜C 記事配信元 A’〜C’ 新聞記事データベース D〜F 利用者 1 記事表示システム 2 外部通信網 11 記事加工部 12 利用者用記事表示部 13 組織内通信網 111、121 入出力部 112、122 中央処理部 113、123 内部記憶部 114、124 外部記憶部 125 表示部

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書の入力を受け付け、それらの
    文書を選択して利用者に提示する文書表示方法におい
    て、複数の文書の文書相互間の関連度を評価するステッ
    プと、文書を部分に分解するステップと、前記ステップ
    によって分解された文書の部分それぞれの相互間の類似
    度を評価するステップと、前記類似度の評価に基づいて
    文書を1つ選択するステップと、前記ステップで選択さ
    れた文書と他の文書の相互間で共通する共通情報及びそ
    れぞれの記事独自の独自情報を検出するステップと、前
    記ステップで検出された共通情報及び独自情報を区別し
    て利用者に表示するステップとの各処理を実行すること
    により、複数の文書から選択した文書を表示することを
    特徴とする文書表示方法。
  2. 【請求項2】 前記文書を1つ選択するステップは、他
    の文書が持っている独自情報と同一の独自情報が最も少
    ない文書を選択することを特徴とする請求項1記載の文
    書表示方法。
  3. 【請求項3】 前記文書を1つ選択するステップは、他
    の文書が持っている独自情報と同一の独自情報が最も多
    い文書を選択することを特徴とする請求項1記載の文書
    表示方法。
  4. 【請求項4】 前記文書を1つ選択するステップは、利
    用者のプロファイルとの類似度が大きい文書を選択する
    ことを特徴とする請求項1記載の文書表示方法。
  5. 【請求項5】 前記文書を1つ選択するステップは、利
    用者が指定した文書を選択することを特徴とする請求項
    1記載の文書表示方法。
  6. 【請求項6】 前記共通情報と独自情報とを区別して表
    示するステップは、独自情報の量が多い順に独自情報を
    表示することを特徴とする請求項1ないし5のうちいず
    れか1記載の文書表示方法。
  7. 【請求項7】 前記共通情報と独自情報とを区別して表
    示するステップは、独自情報の量が少ない順に独自情報
    を並べて表示することを特徴とする請求項1ないし5の
    うちいずれか1記載の文書表示方法。
  8. 【請求項8】 前記共通情報と独自情報とを区別して表
    示するステップは、利用者が定義した記事配信元の順に
    独自情報を並べて表示することを特徴とする請求項1な
    いし5のうちいずれか1記載の文書表示方法。
  9. 【請求項9】 複数の文書配信元から文書を受信し、そ
    の文書から利用者の希望に合う記事を選択する情報フィ
    ルタリングステップをさらに有することを特徴とする請
    求項1ないし8のうちいずれか1記載の文書表示方法。
  10. 【請求項10】 利用者からの検索要求を受け付け、文
    書データベースを検索するステップをさらに有すること
    を特徴とする請求項1ないし8のうちいずれか1記載の
    文書表示方法。
  11. 【請求項11】 利用者毎に文書閲覧に関する条件を保
    持するステップと、その条件を利用して文書の類似度計
    算を実行するステップとをさらに有することを特徴とす
    る請求項1ないし10のうちいずれか1記載の文書表示
    方法。
  12. 【請求項12】 利用者からの文書表示に関する要求を
    受け付けるステップをさらに有することを特徴とする請
    求項1ないし11のうちいずれか1記載の文書表示方
    法。
  13. 【請求項13】 利用者の文書閲覧履歴を考慮して、表
    示画面の構成を変更するステップをさらに有することを
    特徴とする請求項1ないし12のうちいずれか1記載の
    文書表示方法。
  14. 【請求項14】 利用者が文書を指定するステップをさ
    らに有することを特徴とする請求項1ないし13のうち
    いずれか1記載の文書表示方法。
JP10273494A 1998-09-28 1998-09-28 文書表示方法 Pending JP2000105769A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10273494A JP2000105769A (ja) 1998-09-28 1998-09-28 文書表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10273494A JP2000105769A (ja) 1998-09-28 1998-09-28 文書表示方法

Publications (1)

Publication Number Publication Date
JP2000105769A true JP2000105769A (ja) 2000-04-11

Family

ID=17528694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10273494A Pending JP2000105769A (ja) 1998-09-28 1998-09-28 文書表示方法

Country Status (1)

Country Link
JP (1) JP2000105769A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004030021A (ja) * 2002-06-24 2004-01-29 Oki Electric Ind Co Ltd 文書処理装置および方法
JP2007052556A (ja) * 2005-08-16 2007-03-01 Tokyo Institute Of Technology 複数のxml文書の類似度検出方法および類似性検出システム、ならびに複数のxml文書の統合方法
JP2009053814A (ja) * 2007-08-24 2009-03-12 Toshiba Corp キーワード抽出装置及び方法、並びに、文書検索装置及び方法
JP2011525673A (ja) * 2008-06-24 2011-09-22 シャロン ベレンゾン, 特に特許文献に適用可能な検索エンジンおよび方法論
WO2016147621A1 (ja) * 2015-03-13 2016-09-22 日本電気株式会社 記事管理システム、記事管理方法および記事管理プログラム
JP2021082306A (ja) * 2020-01-09 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004030021A (ja) * 2002-06-24 2004-01-29 Oki Electric Ind Co Ltd 文書処理装置および方法
JP2007052556A (ja) * 2005-08-16 2007-03-01 Tokyo Institute Of Technology 複数のxml文書の類似度検出方法および類似性検出システム、ならびに複数のxml文書の統合方法
JP2009053814A (ja) * 2007-08-24 2009-03-12 Toshiba Corp キーワード抽出装置及び方法、並びに、文書検索装置及び方法
JP2011525673A (ja) * 2008-06-24 2011-09-22 シャロン ベレンゾン, 特に特許文献に適用可能な検索エンジンおよび方法論
US10007882B2 (en) 2008-06-24 2018-06-26 Sharon Belenzon System, method and apparatus to determine associations among digital documents
WO2016147621A1 (ja) * 2015-03-13 2016-09-22 日本電気株式会社 記事管理システム、記事管理方法および記事管理プログラム
WO2016147624A1 (ja) * 2015-03-13 2016-09-22 日本電気株式会社 検索システム、検索方法および検索プログラム
JPWO2016147624A1 (ja) * 2015-03-13 2017-12-21 日本電気株式会社 検索システム、検索方法および検索プログラム
US10909154B2 (en) 2015-03-13 2021-02-02 Nec Corporation Search system, search method and search program
JP2021082306A (ja) * 2020-01-09 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
JP7139028B2 (ja) 2020-01-09 2022-09-20 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体

Similar Documents

Publication Publication Date Title
Kowalski et al. Information storage and retrieval systems: theory and implementation
Kowalski Information retrieval systems: theory and implementation
US9449080B1 (en) System, methods, and user interface for information searching, tagging, organization, and display
US7783644B1 (en) Query-independent entity importance in books
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
JP3755134B2 (ja) コンピュータベースの適合テキスト検索システムおよび方法
US6662152B2 (en) Information retrieval apparatus and information retrieval method
Kowalski Information retrieval architecture and algorithms
JP3577819B2 (ja) 情報探索装置及び情報探索方法
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US20090265338A1 (en) Contextual ranking of keywords using click data
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
WO2009059297A1 (en) Method and apparatus for automated tag generation for digital content
JPH11102374A (ja) データベースの文書表示方法およびその装置
KR20020058639A (ko) 엑스엠엘 문서 검색 시스템 및 그 방법
Selvaretnam et al. Natural language technology and query expansion: issues, state-of-the-art and perspectives
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5146108B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
JP2003271609A (ja) 情報監視装置及び情報監視方法
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
Nazemi et al. Comparison of full-text articles and abstracts for visual trend analytics through natural language processing
Fauzi et al. Image understanding and the web: a state-of-the-art review