JPH09106331A - 電子掲示板ブラウザ - Google Patents

電子掲示板ブラウザ

Info

Publication number
JPH09106331A
JPH09106331A JP26384195A JP26384195A JPH09106331A JP H09106331 A JPH09106331 A JP H09106331A JP 26384195 A JP26384195 A JP 26384195A JP 26384195 A JP26384195 A JP 26384195A JP H09106331 A JPH09106331 A JP H09106331A
Authority
JP
Japan
Prior art keywords
article
articles
bulletin board
electronic bulletin
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP26384195A
Other languages
English (en)
Inventor
Akihiko Koga
明彦 古賀
洋 ▲辻▼
Hiroshi Tsuji
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP26384195A priority Critical patent/JPH09106331A/ja
Publication of JPH09106331A publication Critical patent/JPH09106331A/ja
Pending legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Digital Computer Display Output (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 電子掲示板には、複数の人間から有用な情報
を含む記事が多数投稿されるが記事の個数が多く、どん
な話題が議論されているか把握しにくい。本発明では、
記事の集まりを、記事間の参照関係を使って話題毎に分
割して表示、検索する手段を与える。 【解決手段】 記事の集合を蓄積する装置と記事間の参
照関係を解析する装置とリンク構造を木で表示する木構
造表示画面と、画面で指定された記事の内容を表示する
内容表示画面、大きな木を記事の特徴関数を計算し、変
化の大きなノード間でリンクを切断する話題分割装置か
らなる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワークを使
って不特定多数のユーザによって電子掲示板に投稿され
た文書の集合を調べ、ユーザが必要な情報を検索する電
子掲示板ブラウザにかかわるものである。
【0002】
【従来の技術】電子掲示板ブラウザとしては、(株)ソ
フトバンク発行の雑誌UNIX USER Vol2. No. 2 FEB. 1 1
993(ユニックスユーザ), pp 115-124の記事「Whatis
UNIX」とUNIX USER Vol 2. No. 3 MAR. 1 1993 pp115-1
25(ユニックスユーザ)の記事「Whatis UNIX」に連載
されて紹介されているGNUプロジェクト(ヌープロジェ
クト)が作成したGNUS(ヌース)がある。 ある記事Aが
別の記事Bを参照して意見を行っているときAはBをフォ
ローアップしているという。 GNUS では、記事のフォロ
ーアップ関係を次のように表示カラムをインデントして
表示し、記事と記事の関係を分かりやすくしている。
【0003】914: [aさん] 話題A 915: [b さん] 916: [a さん] 917: [c さん] 918: [d さん] 話題B ここで、記事915 は、記事914をフォローアップしてお
り、記事915 は記事916からフォローアップされてい
る。記事917は、記事914をフォローアップしているが、
記事915や記事916とはフォローアップの関係を持たな
い。この表示により、記事914, 915, 916 が一つの続い
た話であり、記事914, 917 も続いた話であることが分
かる。
【0004】また、GNUSでは、記事を読んでいる最中
に、その記事がフォローアップしている元の記事を検索
して表示する機能や、読んでいる記事がフォローアップ
している記事と同じ記事にフォローアップしている記事
の集合を順に参照する機能があり、一つの記事に対する
いろいろな角度からの意見を表明している記事を参照す
ることができる。
【0005】
【発明が解決しようとする課題】GNUSでは、 (ア)電子掲示板にある記事の集合を参照の関係で段下
げして、木として表示するので1つの話題が1つの木と
して表され、どのような話題が展開されるかを知る手掛
かりにはなったが、1つの木が大きくなりすぎることが
しばしばあり、通常の小さな画面では木の中の非常に狭
い部分しか見えず、電子掲示板全体でどのような話題が
いくつ展開されているかを知ることは難しかった。従っ
て、人間が把握しやすい大きさの塊で表示する手段が必
要であった。
【0006】(イ)参照で作られた木の中に含まれる記
事には、全体の話題を理解するために必要なものとそう
でないものがあった。話題の理解に必要なものだけを読
みたいときに、話題と関係の薄い記事を取り去る手段が
なかった。
【0007】(ウ)記事の参照関係は記事の中にあるヘ
ッダの情報を利用していた。そこに明示的に参照関係が
書いてない記事については、関連が深くても独立した木
として表示される。ヘッダ情報がなくても、関連した情
報が1つの木として表示される手段を提供する必要があ
る。
【0008】(エ)参照関係を使った木の中には大きく
なりすぎて、複数の話題を含んでいる場合がある。この
ような場合は、話題毎に木の部分を分解して複数の木と
して表示する手段を提供する必要がある。
【0009】(オ)1つの話題を表す木の中でユーザが
特に興味のある話題を指定できない。本発明の目的は、
これらの課題を満たすニュースリーダを作成することで
ある。
【0010】
【課題を解決するための手段】
(1)記事の集合を納める記事蓄積装置を持ち、該記事
はヘッダ部分と内容部分からなり該記事のヘッダ部分に
は、その記事を識別するための識別名と、その記事が別
の記事を参照して書かれた場合には、参照している記事
の識別名を含み、内容部分にはテキストデータを含み、
該記事の内容部分を表示する内容表示画面からなる電子
掲示板ブラウザにおいて、該記事の間の参照関係を表示
する木構造表示画面と該木構造表示画面の上に表示され
ている該記事をユーザが指定するためのポインティング
装置と、該記事蓄積装置内部の記事を調べて参照関係を
表す参照関係データを作成する参照関係解析装置、該参
照関係解析装置が作成したデータを木構造表示画面に該
記事をノードで、参照している関係を参照される記事か
ら参照した記事へのリンクで表示する木構造表示装置
と、ユーザによって指定された該ノードの子孫のノード
を該木構造表示画面から隠す機能を有する木構造操作装
置を持ち、ユーザによって該ポインティング装置で指定
された該木構造表示画面のノードに対応する記事の内容
を該内容表示画面に表示することを特徴とする。
【0011】(2)上記(1)の電子掲示板ブラウザに
おいて、複数の子供を持つノードにおいて、子供が終端
ノードであるとき、他の子供で終端でないものがあれ
ば、終端の子供を木から除去する機能からなる話題抽出
装置を持つことを特徴とする。
【0012】(3)上記(1)の電子掲示板ブラウザに
おいて、各記事のヘッダ部分に参照を表すデータがない
とき、参照関係解析装置が各記事からキーワードの集合
を抽出する機能を持ち、キーワードの集合の包含関係を
使って記事の間のリンクを張ることを特徴とする。
【0013】(4)上記(1)の電子掲示板ブラウザに
おいて、各記事のヘッダ部分に参照を表すデータがない
とき、参照関係解析装置が各記事から他記事を参照する
部分に現れやすい予め決められている文字列を検索し、
その文字列の近くの文章からキーワードを抽出し、その
キーワードを含む記事を探して参照のリンクを張ること
を特徴とする。
【0014】(5)上記(1)の電子掲示板ブラウザに
おいて、各記事に対して記事の内容を表す特徴ベクトル
の蓄積し、親子関係のあるノード間で該特徴ベクトルど
うしの差があらかじめ決めたある値以上であるとき、該
ノード間のリンクを切る話題分割装置を持つことを特徴
とする。
【0015】(6)上記(5)の電子掲示板ブラウザに
おいて、該話題分割装置は、各記事の特徴量の差でな
く、その記事のリンクに関する近傍の記事の特徴量の加
重平均の差分をリンクの切り離しの条件に用いることを
特徴とする。
【0016】(7)上記(5)の電子掲示板ブラウザに
おいて、該話題分割装置はリンクを切る前に切る部分を
該木構造表示画面で示し、ユーザに切るかどうか聞いて
確かめることを特徴とする。
【0017】(8)上記(1)の電子掲示板ブラウザに
おいて、木の一部分を別の記事の子供に付け替える機能
を持つ木構造操作装置を持つことを特徴とする。
【0018】(9)上記(1)の電子掲示板ブラウザに
おいて、ユーザがあるノードの集合を指定して、そのノ
ードの子孫となる記事が該記事記憶装置に入力された
ら、ユーザにその記事を知らせる記事監視装置を持つこ
とを特徴とする。
【0019】(1)本発明のブラウザは、ニュースグル
ープ内の記事の集まりを、参照関係解析装置が調べた記
事間の参照関係をリンクとして木構造で表示するので、
記事の集まりは、木構造表示装置により木構造表示画面
の上で、1つの話のまとまり毎に別の木に分割されて表
示され、ユーザは、ポインティング装置により、木のノ
ードを指定し、その内容を内容表示画面に表示できるの
で、ユーザは、木のルート(根)に近い部分のノードの
内容だけを調べれば、その木で何が議論されているのか
わかり、興味があれば、その木の中のノードの内容を一
つずつポインティング装置で指定し、内容表示画面に表
示し、また、ルート近くの記事の内容を見て興味がなけ
れば、木ごと飛ばして読むことができ、また、木が多く
の記事からなっていて、1つの木の内部にユーザの興味
のない話題がある可能性がある場合は、ユーザは幾つか
のノードを調べ、興味がなければ、木構造操作装置によ
り、そのノードの子孫を画面から消すことにより、ユー
ザが把握しやすい大きさの木で1つの話のまとまりが表
示され、課題(ア)を解決する。
【0020】(2)本発明のブラウザは、一つのノード
を複数の記事が参照していて、話題の枝分かれが多いと
き、話題抽出装置は、ノードから枝別れしてすぐ議論が
終わっているノードを取り去ることが出来、1つの木の
ノードの個数を減らすことが出来るので、ユーザは1つ
の木の内容を知るときに少ない個数の記事だけを参照す
ればよく、より課題(ア)と(イ)の解決に貢献する。
【0021】(3)本発明のブラウザは、参照関係解析
装置は、各記事からキーワードの集合を集め、2つの記
事の間に関係があるかどうかを調べるのに、キーワード
の包含関係を調べるので、記事の中に明示的に参照関係
が書いてなくとも記事の集合を木にまとめることがで
き、より課題(ア)と(ウ)との解決に貢献する。
【0022】(4)本発明のブラウザは、参照関係解析
装置は、各記事から予め決められている他の記事を参照
するときに現れやすい、「述べられている」や「で言っ
ている」などの語の近くの文章からキーワードを抽出
し、それらのキーワードが含まれる記事を探し、参照し
ているリンクを張るので、記事の中に明示的に参照関係
が書いてなくとも記事の集合を木にまとめることがで
き、より課題(ア)と(ウ)の解決に貢献する。
【0023】(5)本発明のブラウザは、話題分割装置
が、ノードの親子間で特徴ベクトルの差分をとって、そ
れが大きく異なるときは、親子関係のリンクを切って、
子供のノードを木として独立させるので、参照関係だけ
では1つの話題とみなされる特徴の異なる2つの話題を
分割することができ、木のルートの付近の記事だけ調べ
ることによって木全体で議論されていることを推測する
ことが、より確かになり、課題(ア)と(エ)の解決に
貢献する。
【0024】(6)本発明のブラウザは、請求項5のブ
ラウザで、話題分割装置が特徴関数間の差分を計算する
処理において、計算するノードの近傍での特徴関数の平
均をとってから差分をとるので、ノイズに強い分割が可
能であり、より課題(ア)と(エ)の解決に貢献する。
【0025】(7)本発明のブラウザは、請求項5のブ
ラウザの話題分割装置がリンクを切る処理において、リ
ンクを切る基準を満たしたとき、自動的に切るのではな
くユーザに切ってよいかどうか確認するので、よりユー
ザの意図に合う分割が可能になり、より課題(ア)と
(エ)の解決に貢献する。
【0026】(8)本発明のブラウザは、木構造操作装
置を備え、ユーザが木の部分木を別のノードの子供に付
け替えたり、新しい木として独立させたりすることがで
き、大きな木を複数の木に分割して整理することがで
き、より課題(ア)と(エ)の解決に貢献する。
【0027】(9)本発明のブラウザは、ユーザが興味
のある話題をノードで指定し、そのノードで指定された
話題に属する記事が記事蓄積装置に入力されたとき、そ
れをユーザに知らせる記事監視装置を持ち、ユーザは関
心のある話題をすぐに入手でき、より課題(ア)と
(オ)の解決に貢献する。
【0028】
【発明の実施の形態】実施例を用いて本発明を詳細に説
明する。図1は、本発明の構成図である。本発明の機械
は、記事1002を蓄積するための記事蓄積装置1001、その
中に蓄積されている記事1002の内容を表示する内容表示
画面1005にからなる電子掲示板ブラウザに次の装置が追
加されている。
【0029】すなわち、(1)記事の間の参照関係を表
示するための木構造表示画面1003、(2)記事蓄積装置
1001内の複数の記事の間の参照関係を解析する参照関係
解析装置1008、(3)木構造表示装置に表示された木の
ノードを指定するためのポインティングデバイス1006、
と、次の(5)から(9)までの装置からなる記事デー
タ操作装置1004(5)参照関係解析装置1008が解析した
結果の参照関係データ1007を木構造表示画面1003に表示
する木構造表示装置1009、(6)木のノードを表示画面
から見えなくする機能と木の一部分を別の部分に移動す
る機能を持つ木構造操作装置1010、(7)多くの枝わか
れしているノードの子供のノードで話題がそこで終端し
ているノードを取り去る話題抽出装置1011、(8)大き
な枝の中の独立している話題を分割して別の木にする話
題分割装置1012、(9)ユーザが指定したノードから派
生する話題に属する記事が記事蓄積装置に入力されたと
き、それをユーザに知らせる記事監視装置1013、であ
る。
【0030】図2は、記事蓄積装置1001に蓄積されてい
る記事の集合を解析して作られる記事間の参照関係を表
現するデータである。このデータは、3つのフィールド
「元の記事」と「左の記事を参照している記事の集合」
と「表示フラグ」からなるテーブルである。図2の第1
行目は、記事2と記事3は記事1を参照していることを
表している。また第3行目は、記事3はどの記事からも
参照されていないことを表している。
【0031】図3は、記事1002のデータ形式を表す図で
ある。記事はヘッダ部分と内容部分に別れ、ヘッダ部分
には、その記事の識別名と参照する記事の識別名が記録
されている。図2では、記事の識別名は <19950107102301M94A> であり、参照する記事の識別名は、 <19941230152308N2C> という文字列である。
【0032】図4は、記事蓄積装置1001に含まれる記事
の集まりを解析して、参照関係データを作成する記事参
照関係解析装置の動作を示す。まず、処理4001で、参照
関係のデータを空にする。次に処理4002で、記事蓄積装
置1001に入っているすべての記事Xに対して、処理4003
の登録作業を行い、参照関係データの第1フィールドに
各記事Xの識別名をもつ行を作成する。このとき「表示
フラグ」はすべてTRUEにしておく。次に、処理4004で、
記事蓄積装置1001に入っているすべての記事Xに対して
処理4005以下の処理を行い、記事の間の参照関係のデー
タを作成する。まず処理4005で、Xのヘッダに他を参照
している情報が入っているかどうかを調べる。もし入っ
ているなら、処理4006で、それをYとし、Yを第1フィー
ルドに持つ行を参照関係データから見つけだし、処理40
07で、Yの第2フィールドにXを加える。
【0033】図5は、参照関係データから図1の木構造
表示画面1003に木構造を表示する装置である木構造表示
装置1009の動作を示すアルゴリズムを示している。ま
ず、処理5001で、変数TOPSにどの記事も参照していない
記事の集合を入れる。この記事の集合が表示される木の
集合の各々の要素のルートである。処理5002において、
最初の木のルートを表示するXY座標をそれぞれ変数LEFT
とTOPに設定する。この変数は、このアルゴリズムの中
で使うサブルーティン DISPLAY(NODE, X, Y)の中から参
照や設定ができる大域変数であるとする。DISPLAY(NOD
E, X, Y)については次の図6で説明する。
【0034】次に、処理5003で、変数TOPSに属する記事
の1つ1つについて処理5004以下の処理を繰り返し、そ
の記事を参照していて、かつ、表示フラグがTRUEである
記事の木を木構造表示装置1003に描く。変数TOPS内の各
記事NODEについては、まず、処理5004で、NODEの表示フ
ラグがTRUEかどうか調べ、もしTRUEならば表示するので
あるから、処理5005でサブルーティン呼び出し DISPLAY(NODE, LEFT, TOP) をして、NODEから参照のリンクを使って到達可能な記事
を座標 (LEFT, TOP) を左上として描く。画面の座標
は、左上を (0, 0) とし、X は左方向に大きくなり、Y
は下方向に大きくなるように座標系をとってあるとす
る。DISPLAY(NODE, LEFT, TOP) の中で、TOP は、NODE
からなる木を表示したとき最も下に表示されたノードの
Y座標を保持するように更新される。次に、処理5006
で、次の木を描くとき、上の木とノードを描く領域が一
致しないように、 BOTTOM = BOTTOM + DELTA_Y で間隔をとっている。
【0035】図6は、図5のアルゴリズムの中で使用さ
れるサブルーティンDISPLAYのアルゴリズムを示してい
る。このサブルーティンが DISPLAY(NODE, X, Y) の形で呼び出されたときの処理を記述している。NODE
は、記事を表し、X, YはX, Y座標を表している。まず、
処理6001で指定されたノード NODE を、(X, Y)を左上と
して矩形で描く。このとき、矩形の右下座標を(X1, Y1)
とする。次に処理6002で、NODE の子供を描くために X
座標をX1より少し右にとった値を変数X2に設定してい
る。次に処理6003で、子供を描きはじめるY座標 Y2 を
Yに設定する。
【0036】次に処理6004で、記事NODE の各子供の記
事Cで、表示フラグがTRUEである記事にたいして処理600
6から処理6008までを行い、木の描画を完成させる。ま
ず、処理6005で、DISPLAY を再帰的に呼び出して、Cを
(X2, Y2)を左上として描く。次に処理6006で、NODE を
表す矩形からCを表す矩形へ線を引く。これが、参照の
リンクを表す線である。次に処理6008で、C の後ろにま
だNODEの子供で表示フラグがTRUEであるものがあれば、 Y2 = BOTTOM + DELTA_Y で、次の子供を書きはじめるY座標を今描いた木の下の
座標 BOTTOM に木と木の間隔 DELTA_Y だけ加えた値に
する。すべての子供について処理が終わったら、処理60
09, 処理6010, 処理6011で、変数 BOTTOM をDISPLAYが
描いた木の一番下の座標に設定する。すなわち、子供の
一番したの座標と、NODE 自身の矩形の一番下の座標 Y1
を比較して、より下の方を BOTTOM の値として設定す
る。
【0037】次に、木構造操作装置1010が指定されたノ
ードを木構造表示画面1003から隠す方法について説明す
る。図2において、「表示フラグ」は、最初に参照関係
データが作られたときは、真を表す値 TRUEが入ってい
る。木構造操作装置1010が、ノードを木構造表示画面か
ら隠すために用いる。すなわち、木構造操作装置1010
は、指定されたノードおよびその子孫のノードを木構造
表示画面から隠すときは、この「表示フラグ」のフィー
ルドに偽を表す値FALSEを入れる。このとき、次に図5
および図6で説明した木構造表示装置1009は、このフィ
ールドの値を調べてFALSEなら、そのノードおよび子孫
のノードを表示しないようになっており、そのフィール
ドにFALSE を入れて木構造表示装置1009で木を再表示す
ると指定されたノードおよびその子孫のノードは木構造
表示画面から隠される。
【0038】図7は、話の枝葉の部分の木の形を示して
いる。ノード7003は話の枝葉と解釈する。ノード7001,
7002 からの話は、ノード7004, 7007 以下のノードで展
開されていると見なして、話の本筋を抽出する場合、ノ
ード7003は除去する。
【0039】図8は、話の本筋だけを抽出するアルゴリ
ズムを記述している。処理8001ですべてのノード Xにつ
いて処理8002以下の木の中から話題を抽出する処理を繰
り返す。まず、処理8002で、X のすべての子供を調べ、
その子供の中にさらに子供を持つものがあるかどうか調
べる。もし、あるなら変数 HAS_NEXT を TRUE にし、そ
うでなければ FALSE にする。次に処理 8003 でXの子供
のノード Y について処理8004以下の繰り返す。まず、
処理8004で、Yが子供をもたないなら、処理8005で、他
に子供を持つ子供があるかどうかを調べ、もしあれば、
Yは、そのあと議論が続いていないノードであるから処
理8006でYを除去する。もし、処理8005でHAS_NEXTがFAL
SEならば、他の子供も議論が続いておらず、どの記事を
消してよいか基準がないので、Yは消さずに残してお
く。
【0040】図9は、記事の中でキーワードを集めて、
キーワードの集合間の包含関係を使って記事間のリンク
を設定するアルゴリズムを記述している。まず処理9001
で、すべての記事からキーワードを抽出し、各記事に対
応つけておく。次に処理9002と処理9003ですべての記事
の組み合わせ(X, Y)に対して、処理9004で、記事Xのキ
ーワードの集合KeyWords(X)が記事Yのキーワードの集合
KeyWords(Y)に殆ど含まれているなら、処理9005でYから
Xにリンクを張る。ここで用語「殆ど含まれる」は、次
のように定義する。ただし、各キーワードには、重要度
を表す重みが付けられているとする。
【0041】A, Bをキーワードの集合とし、Diff(B, A)
= 集合の差 (B - A) に含まれるキーワードの重みの合
計とするとき、用語「殆ど含まれる」を A は殆ど B に
含まれる <=> Diff(B, A) < ある定数で定義する。
【0042】本アルゴリズムでリンクを付けた場合は、
参照関係のサイクル(記事Aから参照のリンクを辿って
再び記事Aに戻るリンクの列)ができる可能性がある
が、そのサイクルは木の表示装置がサイクルを見つけた
ときに、切ることにする。
【0043】図10は、記事の中で予め登録された別の
記事を参照するときに現れやすい語を検索し、その語付
近に現れたキーワードの集合を抽出し、そのキーワード
の集合を含む記事へリンクを設定するアルゴリズムを記
述している。
【0044】ここでは、予め登録された別の記事を参照
するときに現れやすい語は、「述べ」、「言う」、「言
い」などを登録してあるとする。
【0045】また、文中に現れる語の近くとは、ある正
の整数Nを決めておいて、その語の始まりの位置の前後
N文字以内としておく。まず、処理10001で、各記事Xに
ついて処理10002以下の処理を繰り返しXが参照している
記事を見つけてリンクを張る。まず処理10002で、予め
登録されている他の記事を参照するとき現れやすい語が
Xの中に現れるかどうか調べ、現れたらその語の出現の
前後N文字の中にキーワードが現れるかどうか調べ、現
れたキーワードを集めておく。次に処理10003で、キー
ワードが十分多く集まったかどうか判定する。これは予
め決められた数以上キーワードが集まったら、十分多く
集まったと判定する。この判定で十分多くのキーワード
が集まったと判定されたら、処理10004で、記事蓄積装
置10001の中から、処理10002で見つかったキーワードを
すべて含む記事を探し出す。処理10005で、それらのキ
ーワードを含む記事が見つかったかどうか判定し、見つ
かったなら記事Xは、その記事を参照していることを示
すリンクを張る。処理10003で、元の記事から十分多く
のキーワードが集まらなかったと判定したら、参照関係
のリンクを張るためには十分な精度のキーワードがない
と考えて、Xは何も参照してなかったことにする。
【0046】図11は、親子のノード間で記事の特徴ベ
クトルの差分をとり、木の分割を行うアルゴリズムを示
している。まず、処理11001で、各ノード X に対して特
徴ベクトル C(X) = (C1(X), ..., Cn(X)) を計算する。ここで Ci(X) I = 1, ..., n は、X のあ
る特徴を表すスカラーである。特徴関数は用途に応じ
て、設定することが必要であるが、例えば、次のような
特徴関数を使えばよい。
【0047】C(X) = (分類1のキーワードの得点(X) /
Xの文字数,分類2のキーワードの得点(X) / Xの文字数,
逆説接続詞の割合(X)) ここで、分類1のキーワードの得点(X) 記事 X に含まれる分類1に分類されるキーワードの重
みの合計 分類2のキーワードの得点(X) 記事 X に含まれる分類2に分類されるキーワードの重
みの合計 逆説接続詞の割合(X) 記事 X に含まれる逆説接続詞の個数の全接続詞に対す
る割合とする。上の特徴関数では、記事の分野が変われ
ば、ベクトルの方向が大きく変わることになる。上記の
ように特徴関数を計算したら、次に処理11002で、各ノ
ードXに対して、処理11003以下の処理を行って、話題の
切れ目を探し、リンクを切断する処理を行う。まず、処
理11003でXの親を Y とする。次に処理 11004 でXとYの
特徴量の値の差をとり、ある定数 Alpha と比較する。
【0048】DIFF(C(X), C(Y)) > Alpha ここで、DIFFは、二つのベクトルの差をスカラーで表す
ための関数である。次のようにとっておけばよい。
【0049】 DIFF(A, B) = |A1 - B1| + ... + |An - Bn| ここで、A = (A1, ..., An), B = (B1, ..., Bn) 、|u|
は、uの絶対値とする差がその定数より大きければ、処
理11005で、XをYから切り離す。
【0050】図12は、差分による木の分割を行うと
き、ノイズデータにより話題が変化していないにもかか
わらず切れてしまうのを防ぐために木の親子関係のリン
クでの近傍で特徴量の移動平均をとるアルゴリズムを示
している。ここでは、nを0以上の整数として、距離n
以内の移動平均を求めている。処理12001で、各記事 X
について、処理12002以下の処理を行い、Xに対して移動
平均を計算していく。各X に対して、処理12002で子供
の方向にリンクを辿り、n回以内で到達できるノードを
集め、それを変数 NEIGHBOR に入れる。自分自身は0回
で到達できるので、NEIGHBORの中には X は入ってい
る。処理 12003で、NEIGHBORの中の要素数をmとする。X
がNEIGHBORの要素なので、mは、1以上である。処理120
04で、NEIGHTBOR内の記事の特徴関数の合計を計算し、
それを S とし、記事 X の特性の移動平均として S/m
をノードXに記録する。
【0051】図13は、実際の木における距離2の移動
平均の計算例を示している。記事12003からリンクを2
回以内辿って到達できる記事は、13003, 13004, 13005,
13007, 13008, 13009である。従って、これらの特徴関
数の合計を記事の個数6で割ったものが記事13003の移
動平均であるから、記事13003の移動平均=(70 + 50 +2
0 + 40 + 27 + 33) / 6 = 40となる。
【0052】図14は、親子のノード間でが差分が大き
かった箇所のノードを色を変えて表示するアルゴリズム
を示している。これにより話題が切れる可能性がある部
分を表示して、ユーザに切ってよいかどうか聞けば、よ
り分割がユーザに分かりやすいものになる。まず、処理
14001で、各記事 X について、処理14002以下の処理を
繰り返し、各Xに色を付けていく。まず、処理14002では
Xの特徴量とその親の特徴量の差分をとる、このときXに
親がなければ、差分は0としておく。次に処理14003で
この差分がある定数Alphaより大きいかどうか調べて、
大きければ処理14004で、Xを赤い色にする。大きくなけ
れば、処理14005でXを白い色にする。このアルゴリズム
を適用した結果赤くなった記事は親の記事から切り離さ
れ、新たに木のルートになる可能性のある記事である。
【0053】図15は、木の一部分を別の記事の子供に
付け替えるアルゴリズムを表している。ここでは、ノー
ドAをノードBの子供にする方法を述べている。まず、処
理15001で、参照関係データ1007の第2フィールドを調
べ、記事 A を含むものがあるかどうかを調べる。見つ
かれば、その行をR_A とし、見つからなければ R_A は-
1 とする。次に処理15002にでR_Aが-1かどうかを調べ、
もし、-1でなければ、処理15003でR_A 行の第2フィー
ルドから A を取り去る。次に処理15004で第1フィール
ドが B である行があるかどうか調べる。もしあれば、
その行を R_Bとし、なければ新たに行を作成して、それ
を R_B とする。最後に処理15005で、記事 A を R_B 行
の第2フィールドに付け加えれば、A は、B の子供とし
て登録される。
【0054】図16は、ブラウザのノードを指定し、記
事蓄積装置に新しい記事Xが入ってきたとき、指定され
た記事の子孫になっていたら、ユーザにその記事を知ら
せるアルゴリズムを示している。このアルゴリズムでは
入ってくる記事の順番は、必ずしも参照の順番にくると
は仮定していない。すなわち、ある記事Aを参照した記
事Bが入ってきた後、Aが入ってくることも有り得ると
仮定している。この過程は現実のニュースシステムで起
こり得る。まず、処理16001で、ユーザが監視を指示し
た記事の子孫に対して監視するマークを付ける。ここ
で、ある記事の子孫とは、その記事およびその記事から
リンクを子供の方向に1回以上辿って到達できる記事の
ことである。次に処理16002で、記事の集合を格納する
ための変数NEWを空にする。このアルゴリズムが終了し
たあと、NEWに溜まった記事がユーザが指定したノード
の子孫で新しく入力されたものである。次に処理16003
で、新しく記事蓄積装置に入力された記事をXとする。
処理16004で、現在記事蓄積装置にあるX以外の記事Yに
ついてXとの親子関係を調べていく。まず、処理16005
で、XがYの子供であるときは、処理16006でYからXにリ
ンクを張り、処理16007でYに監視マークがついているか
どうか調べ、もし付いていれば、処理16008で、Xおよび
Xの子孫で監視マークのついていないものに監視マーク
を付けて、それらの記事を変数NEWに入れる。処理16005
でXがYの子供かどうかしらべた後、今度は処理16009
で、YがXの子供かどうか調べる。もし、そうなら処理16
010でXからYへリンクを張り、処理16011でXに監視マー
クが付いていてYに付いていない場合は、処理16012でY
およびYの子孫で監視マークのついていないものに監視
マークを付けて、それらの記事を変数NEWに入れる。す
べての記事について上記の処理を終えたあと、変数NEW
には、監視が指定されたノードの子孫でまだマークがつ
いていなかったものが入っているので、処理16013で、
それをユーザに知らせて処理を追える。
【0055】
【発明の効果】本発明によれば、多くの記事の集まりを
ユーザが一つずつ内容を調べなくても、話のまとまり毎
に分類してみることができる。
【図面の簡単な説明】
【図1】本発明実施例の構成図。
【図2】参照関係データの形式を表す図。
【図3】記事のデータ形式。
【図4】参照関係解析装置のアルゴリズムを表すPAD
図。
【図5】複数の木の表示を制御するアルゴリズムを表す
PAD図。
【図6】1つの木を表示するアルゴリズムを表すPAD
図。
【図7】木から話題を取り出すとき捨てられる記事を表
す図。
【図8】木から話題を抽出する手続きのPAD図。
【図9】記事のキーワードを収集して記事間の参照関係
を決める処理のPAD図。
【図10】他の記事を参照している部分を発見する手続
きのPAD図。
【図11】話題の切れ目でリンクを切る手続きのPAD
図。
【図12】木で特徴量の移動平均をとる手続きのPAD
図。
【図13】木における移動平均の計算例を表す図。
【図14】木において話題の切れ目の記事の色を変える
手続きのPAD図。
【図15】木の一部分をあるノードの子供にする手続き
のPAD図。
【図16】指定された記事の子孫が入力されたかどうか
監視する手続きのPAD図。
【符号の説明】 1001 ... 記事記憶装置 1002 ... 記事 1003 ... 木構造表示画面 1004 ... 記事データ操作装置 1005 ... 記事内容表示画面 1006 ... ポインティング装置 1007 ... 参照関係データ 1008 ... 参照関係解析装置 1009 ... 木構造表示装置 1010 ... 木構造操作装置 1011 ... 話題抽出装置 1012 ... 話題分割装置 1013 ... 記事監視装置

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】記事の集合を納める記事蓄積装置を持ち、
    該記事はヘッダ部分と内容部分からなり該記事のヘッダ
    部分には、その記事を識別するための識別名と、その記
    事が別の記事を参照して書かれた場合には、参照してい
    る記事の識別名を含み、内容部分にはテキストデータを
    含み、該記事の内容部分を表示する内容表示画面からな
    る電子掲示板ブラウザにおいて、該記事の間の参照関係
    を表示する木構造表示画面と該木構造表示画面の上に表
    示されている該記事をユーザが指定するためのポインテ
    ィング装置と、該記事蓄積装置内部の記事を調べて参照
    関係を表す参照関係データを作成する参照関係解析装
    置、該参照関係解析装置が作成したデータを木構造表示
    画面に該記事をノードで、参照している関係を参照され
    る記事から参照した記事へのリンクで表示する木構造表
    示装置と、ユーザによって指定された該ノードの子孫の
    ノードを該木構造表示画面から隠す機能を有する木構造
    操作装置を持ち、ユーザによって該ポインティング装置
    で指定された該木構造表示画面のノードに対応する記事
    の内容を該内容表示画面に表示することを特徴とする電
    子掲示板ブラウザ。
  2. 【請求項2】請求項1の電子掲示板ブラウザにおいて、
    複数の子供を持つノードにおいて、子供が終端ノードで
    あるとき、他の子供で終端でないものがあれば、終端の
    子供を木から除去する機能からなる話題抽出装置を持つ
    ことを特徴とする電子掲示板ブラウザ。
  3. 【請求項3】請求項1の電子掲示板ブラウザにおいて、
    各記事のヘッダ部分に参照を表すデータがないとき、参
    照関係解析装置が各記事からキーワードの集合を抽出す
    る機能を持ち、キーワードの集合の包含関係を使って記
    事の間のリンクを張ることを特徴とする電子掲示板ブラ
    ウザ。
  4. 【請求項4】請求項1の電子掲示板ブラウザにおいて、
    各記事のヘッダ部分に参照を表すデータがないとき、参
    照関係解析装置が各記事から他記事を参照する部分に現
    れやすい予め決められている文字列を検索し、その文字
    列の近くの文章からキーワードを抽出し、そのキーワー
    ドを含む記事を探してリンクを張ることを特徴とする電
    子掲示板ブラウザ。
  5. 【請求項5】請求項1の電子掲示板ブラウザにおいて、
    各記事に対して記事の内容を表す特徴ベクトルの蓄積
    し、親子関係のあるノード間で該特徴ベクトルどうしの
    差があらかじめ決めたある値以上であるとき、該ノード
    間のリンクを切る話題分割装置を持つことを特徴とする
    電子掲示板ブラウザ。
  6. 【請求項6】請求項5の電子掲示板ブラウザにおいて、
    該話題分割装置は、各記事の特徴量の差でなく、その記
    事のリンクに関する近傍の記事の特徴量の加重平均の差
    分をリンクの切り離しの条件に用いることを特徴とする
    電子掲示板ブラウザ。
  7. 【請求項7】請求項5の電子掲示板ブラウザにおいて、
    該話題分割装置はリンクを切る前に切る部分を該木構造
    表示画面で示し、ユーザに切るかどうか聞いて確かめる
    ことを特徴とする電子掲示板ブラウザ。
  8. 【請求項8】請求項1の電子掲示板ブラウザにおいて、
    木の一部分を別の記事の子供に付け替える機能を持つ木
    構造操作装置を持つことを特徴とする電子掲示板ブラウ
    ザ。
  9. 【請求項9】請求項1の電子掲示板ブラウザにおいて、
    ユーザがあるノードの集合を指定して、そのノードの子
    孫となる記事が該記事記憶装置に入力されたら、ユーザ
    にその記事を知らせる記事監視装置を持つことを特徴と
    する電子掲示板ブラウザ。
JP26384195A 1995-10-12 1995-10-12 電子掲示板ブラウザ Pending JPH09106331A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26384195A JPH09106331A (ja) 1995-10-12 1995-10-12 電子掲示板ブラウザ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26384195A JPH09106331A (ja) 1995-10-12 1995-10-12 電子掲示板ブラウザ

Publications (1)

Publication Number Publication Date
JPH09106331A true JPH09106331A (ja) 1997-04-22

Family

ID=17394974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26384195A Pending JPH09106331A (ja) 1995-10-12 1995-10-12 電子掲示板ブラウザ

Country Status (1)

Country Link
JP (1) JPH09106331A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125099A (ja) * 1997-06-27 1999-01-29 Hitachi Ltd 電子会議システム
JPH1168826A (ja) * 1997-08-20 1999-03-09 Nec Corp 電子掲示板システム及び記事表示方法並びにその表示制御プログラムを記録した記録媒体
JP2000113064A (ja) * 1998-10-09 2000-04-21 Fuji Xerox Co Ltd 最適行為者選定支援システム
JP2000134198A (ja) * 1998-10-28 2000-05-12 Fujitsu Ltd メッセージ処理システム及び記録媒体
JP2000231561A (ja) * 1999-02-08 2000-08-22 Nec Corp 検索方法ならびに装置及び同方法がプログラムされ記録された記録媒体
JP2002049632A (ja) * 2000-08-03 2002-02-15 Nec Corp 要約システムとその要約方法、及び要約プログラムを記録した記録媒体
US6370533B1 (en) 1998-10-12 2002-04-09 Fuji Xerox Co., Ltd. Electronic meeting system, information processor, and recording medium
US6658411B2 (en) 2000-12-14 2003-12-02 Hitachi, Ltd. Message-file storing/retrieving system by computer
US6947929B2 (en) 2002-05-10 2005-09-20 International Business Machines Corporation Systems, methods and computer program products to determine useful relationships and dimensions of a database
US7359891B2 (en) 2001-05-11 2008-04-15 Fujitsu Limited Hot topic extraction apparatus and method, storage medium therefor
US7447687B2 (en) 2002-05-10 2008-11-04 International Business Machines Corporation Methods to browse database query information
JP2010218032A (ja) * 2009-03-13 2010-09-30 Fuji Xerox Co Ltd 議論支援装置及び議論支援プログラム
US8024408B1 (en) 2000-11-22 2011-09-20 Xerox Corporation System and method for managing a computer-mediated discussion forum
US8307293B2 (en) 2009-03-13 2012-11-06 Fuji Xerox Co., Ltd. Discussion support apparatus, discussion support method, and computer-readable medium

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125099A (ja) * 1997-06-27 1999-01-29 Hitachi Ltd 電子会議システム
JPH1168826A (ja) * 1997-08-20 1999-03-09 Nec Corp 電子掲示板システム及び記事表示方法並びにその表示制御プログラムを記録した記録媒体
JP2000113064A (ja) * 1998-10-09 2000-04-21 Fuji Xerox Co Ltd 最適行為者選定支援システム
US6370533B1 (en) 1998-10-12 2002-04-09 Fuji Xerox Co., Ltd. Electronic meeting system, information processor, and recording medium
JP2000134198A (ja) * 1998-10-28 2000-05-12 Fujitsu Ltd メッセージ処理システム及び記録媒体
JP2000231561A (ja) * 1999-02-08 2000-08-22 Nec Corp 検索方法ならびに装置及び同方法がプログラムされ記録された記録媒体
JP2002049632A (ja) * 2000-08-03 2002-02-15 Nec Corp 要約システムとその要約方法、及び要約プログラムを記録した記録媒体
US8024408B1 (en) 2000-11-22 2011-09-20 Xerox Corporation System and method for managing a computer-mediated discussion forum
US6658411B2 (en) 2000-12-14 2003-12-02 Hitachi, Ltd. Message-file storing/retrieving system by computer
US7359891B2 (en) 2001-05-11 2008-04-15 Fujitsu Limited Hot topic extraction apparatus and method, storage medium therefor
US6947929B2 (en) 2002-05-10 2005-09-20 International Business Machines Corporation Systems, methods and computer program products to determine useful relationships and dimensions of a database
US7447687B2 (en) 2002-05-10 2008-11-04 International Business Machines Corporation Methods to browse database query information
JP2010218032A (ja) * 2009-03-13 2010-09-30 Fuji Xerox Co Ltd 議論支援装置及び議論支援プログラム
US8296363B2 (en) 2009-03-13 2012-10-23 Fuji Xerox Co., Ltd. Discussion support apparatus, discussion support method, and computer-readable medium
US8307293B2 (en) 2009-03-13 2012-11-06 Fuji Xerox Co., Ltd. Discussion support apparatus, discussion support method, and computer-readable medium

Similar Documents

Publication Publication Date Title
US7464096B2 (en) Method and apparatus for information mining and filtering
CN110717049B (zh) 一种面向文本数据的威胁情报知识图谱构建方法
US8065298B2 (en) Concept network
Yi et al. Web page cleaning for web mining through feature weighting
JPH09106331A (ja) 電子掲示板ブラウザ
JP3598742B2 (ja) 文書検索装置及び文書検索方法
US5848407A (en) Hypertext document retrieving apparatus for retrieving hypertext documents relating to each other
US7096210B1 (en) Trainable, extensible, automated data-to-knowledge translator
NZ524988A (en) A document categorisation system
CN108647276A (zh) 一种搜索方法
JP2005250699A (ja) 階層型データベース装置および階層型データベース装置における製品選定方法およびプログラム
JP2005038386A (ja) 文章分類装置および方法
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN109829092A (zh) 一种对网页进行定向监测的方法
JP2007286861A (ja) 文書構造抽出方法および文書検索方法
CN112507139B (zh) 基于知识图谱的问答方法、系统、设备及存储介质
CN112612990A (zh) 网页解析方法、系统及计算机可读存储介质
JPH08263514A (ja) 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
Perry et al. Discovering similar resources by content part-linking
JPH08255253A (ja) グラフ表示処理装置およびグラフ表示処理方法
Walther Unsupervised extraction of product information from semi-structured sources
Bauer et al. Fiasco: Filtering the internet by automatic subtree classification, osnabruck
KR100754157B1 (ko) 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법
JP4525224B2 (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2004192368A (ja) 関連分類抽出方法及び装置