JPH08335265A - 文書処理装置および方法 - Google Patents

文書処理装置および方法

Info

Publication number
JPH08335265A
JPH08335265A JP7164759A JP16475995A JPH08335265A JP H08335265 A JPH08335265 A JP H08335265A JP 7164759 A JP7164759 A JP 7164759A JP 16475995 A JP16475995 A JP 16475995A JP H08335265 A JPH08335265 A JP H08335265A
Authority
JP
Japan
Prior art keywords
document
information
feature
priority
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7164759A
Other languages
English (en)
Inventor
Takanari Ueda
隆也 上田
Makoto Hirota
誠 廣田
Shiro Ito
史朗 伊藤
Shogo Shibata
昇吾 柴田
Yuji Ikeda
裕治 池田
Minoru Fujita
稔 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP7164759A priority Critical patent/JPH08335265A/ja
Publication of JPH08335265A publication Critical patent/JPH08335265A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 情報を選別する際に情報の属性によって選別
の基準を変えることにより情報の属性に応じたフィルタ
リングを行うことができる文書処理装置を提供する。 【構成】 文書処理装置は合致度計算部104で文書保
持部102に保持された文書の文書特徴と選別特徴保持
部103に保持された選別特徴との合致度を計算する。
文書保持部102に保持された情報源の名称を読み出
し、情報源優先度保持部105でその情報源の優先度を
調べる。閾値計算部106は求めた情報源優先度から閾
値を計算する。計算した合致度と計算した閾値とを比較
し、合致度が閾値を越えている場合、文書選択部107
でこの文書を選択して選別文書保持部108に保持し、
文書表示部109に表示する。表示した情報について、
その情報が実際に必要か否かをユーザに評価させ、評価
に基づいて情報源優先度保持部105の内容を更新す
る。情報源優先度は、例えばユーザが選択した文書数/
システムが選択した文書数の値から定められる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ユーザの下に入ってく
る文書のうちユーザが関心を持つ文書を選別してその結
果を出力する文書処理装置に関する。
【0002】
【従来の技術】近年、記憶媒体の大容量化、低価格化、
ワードプロセッサの普及などによって電子化された文書
の量が増大している。また、ネットワークの整備が進
み、電子メール、電子ニュースなどのメディアによって
ユーザの下に届く電子化された文書の量も増えている。
【0003】これにより、ユーザが処理できる量を越え
た文書が入ってくるようになり、本当に必要な情報が不
要な情報の中に埋もれてしまうという、いわゆる「情報
洪水」が問題になってきている。
【0004】この問題の対応策として、ユーザが関心を
持つような文書を自動的に選別する文書フィルタリング
技術が用いられるようになってきた。文書フィルタリン
グ技術では、文書に対するユーザの関心をあらかじめ設
定しておき、これと入ってきた文書の内容を比較して、
一致したときにはその文書をユーザに見せ、一致しない
ときにはその文書をユーザに見せないようにする。
【0005】この技術によって、ユーザは自分にとって
関心のないような文書を最初から見なくて済むようにな
り、情報を有効に利用できる。この手法は、具体的に各
文書にスコアを付け、それを予め設定してある閾値と比
較し、スコアが閾値以上であればユーザの関心に一致し
ているとするものである。ここで、従来、閾値は情報の
属性によらず一律のものとしていた。
【0006】
【発明が解決しようとする課題】しかしながら、ユーザ
が情報を求める度合いは情報の属性、つまり情報源の種
類や情報の分野などによって異なるのが普通である。例
えば、情報源Aの情報は好むが、同じような内容でも情
報源Bの情報は好まないというようなことがある。これ
は、情報源の信頼度や内容の充実度についてのユーザの
嗜好性を反映している。また、分野Cの情報はたくさん
見たいが、分野Dの情報は少し見れば十分というような
こともある。これは、情報の分野毎におけるユーザの嗜
好性を反映している。
【0007】従来のように、一律の閾値で情報の選別を
行う手法では、こうした要求に対応することができず、
ユーザが情報に対して求めるニーズを十分に満たすこと
ができなかった。
【0008】そこで、本発明は情報を選別する際に情報
の属性によって選別の基準を変えることにより情報の属
性に応じたフィルタリングを行うことができる文書処理
装置を提供することを目的とする。
【0009】
【課題を解決するための手段】上記目的を達成するため
に、本発明の請求項1に係る文書処理装置は、ユーザの
関心に合う文書の特徴である選別特徴を保持する選別特
徴保持手段と、該保持された選別特徴と処理対象である
任意文書の文書特徴との合致度を算出する合致度算出手
段と、前記任意文書の属性を判定する属性判定手段と、
該判定された属性に応じて閾値を設定する閾値設定手段
と、前記合致度と前記閾値とを比較して前記任意文書が
必要であるか否かを判定する必要性判定手段とを備え、
該判定結果に応じて前記任意文書を選別することを特徴
とする。
【0010】請求項2に係る文書処理方法は、ユーザの
関心に合う文書の特徴である選別特徴を保持し、該保持
された選別特徴と処理対象である任意文書の文書特徴と
の合致度を算出し、前記任意文書の属性を判定し、該判
定された属性に応じて閾値を設定し、前記合致度と前記
閾値とを比較して前記任意文書が必要であるか否かを判
定し、該判定結果に応じて前記任意文書を選別すること
を特徴とする。
【0011】
【作用】本発明の請求項1に係る文書処理装置では、選
別特徴保持手段によりユーザの関心に合う文書の特徴で
ある選別特徴を保持し、合致度算出手段により該保持さ
れた選別特徴と処理対象である任意文書の文書特徴との
合致度を算出し、属性判定手段により前記任意文書の属
性を判定し、閾値設定手段により該判定された属性に応
じて閾値を設定し、必要性判定手段により前記合致度と
前記閾値とを比較して前記任意文書が必要であるか否か
を判定し、該判定結果に応じて前記任意文書を選別す
る。
【0012】
【実施例】本発明の文書処理装置の実施例について説明
する。本実施例では、情報の属性として情報源を用いる
場合を例にとり、優先度の高い情報源からの情報をより
多くユーザに見せるために閾値を低く設定することに特
徴がある。
【0013】図1は実施例の文書処理装置の構成を示す
ブロック図である。図において、101はユーザの下に
入ってきた文書を格納している文書データベース、10
2は処理対象の文書とその文書特徴と情報源の名称を保
持する文書保持部、103はユーザの関心に合う文書の
文書特徴(選別特徴)を保持する選別特徴保持部であ
る。
【0014】104は処理対象の文書の文書特徴と選別
特徴との合致度を計算する合致度計算部、105は情報
源の種類に対する優先度を保持する情報源優先度保持
部、106は情報源優先度を基に閾値を計算する閾値計
算部、107は合致度と閾値との関係によって文書を選
択する文書選択部、108は文書選択部107で選ばれ
た文書を保持する選別文書保持部である。
【0015】109は選別文書保持部108に保持され
た文書を表示する文書表示部、110は選別された文書
についてユーザが評価するユーザ評価部である。
【0016】図2は文書処理装置のハードウェアの構成
を示すブロック図である。図において、201は制御プ
ログラムを記憶する制御メモリである。これはROMで
あってもよいし、RAMであってもよい。202は制御
メモリ201に記憶されている制御プログラムにしたが
って処理を行う中央処理装置である。203はメモリで
あり、文書保持部102、選別特徴保持部103、情報
源優先度保持部105、選別文書保持部108を実現す
る。
【0017】204はキーボードであり、ユーザ評価部
110を実現する。205はディスクであり、文書デー
タベース101を実現する。206はディスプレイであ
り、CRTであってもよいし、液晶ディスプレイであっ
てもよい。これは文書表示部109を実現する。207
は各構成要素を接続するためのバスである。
【0018】図3は文書処理装置の処理手順を示すフロ
ーチャートである。尚、本実施例では文書特徴の表現方
法として、一般に知られているベクトル空間モデルを利
用する。ベクトル空間モデルでは、文書特徴を表現する
ためにN個のキーワードを用意し、文書毎に各キーワー
ドの重みを設定する。これはN次元空間ベクトルとみな
すことができ、ベクトルの長さは「1」に正規化され
る。文書特徴の合致度はそれぞれのベクトルの内積とし
て表される。
【0019】まず、合致度計算部104で文書保持部1
02に保持された文書の文書特徴と選別特徴保持部10
3に保持された選別特徴との合致度を計算する(ステッ
プS301)。前述したように、合致度は文書特徴を表
すベクトル間の内積で表されるので、文書の文書特徴を
ベクトルd、選別特徴をベクトルsとすると合致度はd
・sになる。
【0020】文書保持部102に保持された情報源の名
称を読み出し、情報源優先度保持部105においてその
情報源の優先度を調べる(ステップS302)。閾値計
算部106において、ステップS302で求めた情報源
優先度から閾値を計算する(ステップS303)。尚、
閾値は情報源優先度pによって決定されるが、情報源優
先度pの増加と共に減少するような関数f(p)であれ
ばどのような決め方をしても構わない。例えば、情報源
優先度pを優先度最低の「0」から優先度最高の「1」
までの値とし、標準の閾値をfsとして数式1のように
定めてもよい。
【0021】
【数1】fs−0.2 (0.9<p≦1.0) fs−0.1 (0.7<p≦0.9) f(p)=fs (0.3<p≦0.7) fs+0.1 (0.1<p≦0.3) fs+0.2 (0≦p≦0.1) つづいて、ステップS301で計算した合致度とステッ
プS303で計算した閾値とを比較する(ステップS3
04)。合致度が閾値を越えていない場合、そのまま処
理を終了する。合致度が閾値を越えている場合、文書選
択部107でこの文書を選択して選別文書保持部108
に保持し、文書表示部109に表示する。
【0022】表示した情報について、その情報が実際に
必要か否かをユーザに評価させる(ステップS30
6)。評価はキーボード、ポインティングデバイスなど
の入力装置から入力すればよい。
【0023】ステップS306での評価を基に情報源優
先度保持部105の内容を更新して(ステップS10
7)処理を終了する。情報源優先度は、例えばつぎのよ
うに決めることができる。
【0024】情報源優先度=ユーザ選択した文書数/シ
ステムが選択した文書数ここで、ユーザが選択した文書
数、システムが選択した文書数はいずれもこれまでの累
計値であり、情報源優先度保持部105に保持されてい
るものとする。
【0025】図4は情報源優先度保持部105の内容を
示す説明図である。このように情報源優先度が設定され
ている状態において、3つの文書が入ってきた場合を検
討する。図5は3つの文書について選択の有無を示す説
明図である。ここで、標準の閾値fsを0.7として上
記関数f(p)を用いることにする。
【0026】数式1よりA新聞に対する閾値は0.5、
B新聞に対する閾値は0.8、雑誌Cに対する閾値は
0.9になる。これらと合致度とを比較することによ
り、文書の選択を行う。この場合、文書1だけが選択さ
れ、文書2および文書3は選択されない。
【0027】[変形例]前記実施例では、情報源優先度
を「ユーザが選択した文書数」と「システムが選択した
文書数」との比で表したが、これに限るものではなく、
情報源に対するユーザの嗜好性を表せる数値であれば他
の表し方をしても構わない。
【0028】また、前記実施例では情報源優先度pと閾
値との対応を表す関数f(p)を一例として表現した
が、これに限るものではなく、情報源優先度pの増加と
共に減少するような関数f(p)であればどのような決
め方をしても構わない。
【0029】さらに、前記実施例では情報源の優先度を
過去の選択履歴によって定めたが、これに限るものでな
く、詳しい情報を与える情報源に対して優先度を高くす
るようにしてもよい。逆に、詳しい情報を与える情報源
に対して優先度を低くしてもよい。情報の詳しさとして
は、例えば、各情報のデータ量(バイト数)を使うこと
ができる。この場合、システムが選択した情報に対する
ユーザの評価は不要である。
【0030】また、前記実施例では、情報源の優先度を
過去の選択履歴によって設定したが、これに限るもので
なく、専門家向けの情報を与える情報源を高く設定して
もよい。逆に、専門家向けの情報を与える情報源に対し
て優先度を低く設定してもよい。専門家向け/一般向け
という属性は情報に付されているものとする。この場
合、システムが選択した情報に対するユーザの評価は不
要である。
【0031】さらに、前記実施例では、情報源の優先度
を計算によって求めたが、これに限るものでなく、予め
ユーザが値を設定するようにしてもよい。この場合、シ
ステムが選択した情報に対するユーザの評価は不要であ
る。
【0032】また、前記実施例では、ユーザの評価を入
力装置から入力させたが、直接ユーザに入力させずにユ
ーザが文書を読んでいる時間を計測し、読むのに時間を
かけている文書についてユーザが評価したものとみなす
ような手法をとってもよい。
【0033】さらに、前記実施例では、文書表示の際の
順序について特に定めなかったが、優先度の高い情報源
からの情報を優先して表示するようにしてもよい。
【0034】また、前記実施例では、情報の属性として
情報源優先度を用い、これによって閾値を定めたが、こ
れに限るものではなく、その情報がどういう分野の情報
かという情報の分野によって閾値を変えるようにしても
よい。
【0035】さらに、情報源優先度もしくは情報の分野
のどちらかによって閾値を決めるのではなく、その両方
を考慮して閾値を定めるようにしてもよい。
【0036】また、前記実施例では、文書特徴の表現に
ベクトル空間モデルを利用したが、他の表現方法であっ
ても構わない。いずれにしても、文書特徴と選別特徴の
合致度が計算でき、それに対する閾値が情報源優先度p
の関数として定義できればよい。
【0037】
【発明の効果】本発明の請求項1に係る文書処理装置に
よれば、選別特徴保持手段によりユーザの関心に合う文
書の特徴である選別特徴を保持し、合致度算出手段によ
り該保持された選別特徴と処理対象である任意文書の文
書特徴との合致度を算出し、属性判定手段により前記任
意文書の属性を判定し、閾値設定手段により該判定され
た属性に応じて閾値を設定し、必要性判定手段により前
記合致度と前記閾値とを比較して前記任意文書が必要で
あるか否かを判定し、該判定結果に応じて前記任意文書
を選別するので、情報の属性に応じて文書フィルタリン
グを行うことができ、ユーザのニーズに合った情報提供
を行うことができる。
【0038】請求項2に係る文書処理方法によれば、ユ
ーザの関心に合う文書の特徴である選別特徴を保持し、
該保持された選別特徴と処理対象である任意文書の文書
特徴との合致度を算出し、前記任意文書の属性を判定
し、該判定された属性に応じて閾値を設定し、前記合致
度と前記閾値とを比較して前記任意文書が必要であるか
否かを判定し、該判定結果に応じて前記任意文書を選別
するので、情報の属性に応じて文書フィルタリングを行
うことができ、ユーザのニーズに合った情報提供を行う
ことができる。
【図面の簡単な説明】
【図1】実施例の文書処理装置の構成を示すブロック図
である。
【図2】文書処理装置のハードウェアの構成を示すブロ
ック図である。
【図3】文書処理装置の処理手順を示すフローチャート
である。
【図4】情報源優先度保持部105の内容を示す説明図
である。
【図5】3つの文書について選択の有無を示す説明図で
ある。
【符号の説明】
101 文書データベース 103 選別特徴保持部 104 合致度計算部 105 情報源優先度保持部 106 閾値計算部 107 文書選別部 108 選別文書保持部
フロントページの続き (72)発明者 柴田 昇吾 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 池田 裕治 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 藤田 稔 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 ユーザの関心に合う文書の特徴である選
    別特徴を保持する選別特徴保持手段と、 該保持された選別特徴と処理対象である任意文書の文書
    特徴との合致度を算出する合致度算出手段と、 前記任意文書の属性を判定する属性判定手段と、 該判定された属性に応じて閾値を設定する閾値設定手段
    と、 前記合致度と前記閾値とを比較して前記任意文書が必要
    であるか否かを判定する必要性判定手段とを備え、 該判定結果に応じて前記任意文書を選別することを特徴
    とする文書処理装置。
  2. 【請求項2】 ユーザの関心に合う文書の特徴である選
    別特徴を保持し、 該保持された選別特徴と処理対象である任意文書の文書
    特徴との合致度を算出し、 前記任意文書の属性を判定し、 該判定された属性に応じて閾値を設定し、 前記合致度と前記閾値とを比較して前記任意文書が必要
    であるか否かを判定し、 該判定結果に応じて前記任意文書を選別することを特徴
    とする文書処理方法。
JP7164759A 1995-06-07 1995-06-07 文書処理装置および方法 Pending JPH08335265A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7164759A JPH08335265A (ja) 1995-06-07 1995-06-07 文書処理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7164759A JPH08335265A (ja) 1995-06-07 1995-06-07 文書処理装置および方法

Publications (1)

Publication Number Publication Date
JPH08335265A true JPH08335265A (ja) 1996-12-17

Family

ID=15799392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7164759A Pending JPH08335265A (ja) 1995-06-07 1995-06-07 文書処理装置および方法

Country Status (1)

Country Link
JP (1) JPH08335265A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1166081A (ja) * 1997-08-12 1999-03-09 N T T Data:Kk プロファイル取得システム、情報提供システム、プロファイル取得方法及び媒体
JP2000137731A (ja) * 1998-11-02 2000-05-16 Matsushita Giken Kk 情報フィルタ装置及び情報フィルタリング方法
JP2002269144A (ja) * 2001-03-14 2002-09-20 Nec Corp 情報処理端末、嗜好管理方法及びプログラム
JP2004514196A (ja) * 2000-06-07 2004-05-13 イーベイ インコーポレイテッド ウェブページ用画像の動的選択
JP2004178123A (ja) * 2002-11-26 2004-06-24 Hitachi Ltd 情報処理装置、該情報処理装置を実現するためのプログラム
JP2007517269A (ja) * 2003-09-16 2007-06-28 グーグル・インク ニュース記事のランク付けを向上させるためのシステムおよび方法
JP2008009729A (ja) * 2006-06-29 2008-01-17 Kddi Corp コンテンツ配信方法および装置
JP2009230427A (ja) * 2008-03-21 2009-10-08 Ricoh Co Ltd 電子文書属性検出推定方法、電子文書属性検出推定装置、電子文書属性検出推定プログラム及び記憶媒体
US8090717B1 (en) 2002-09-20 2012-01-03 Google Inc. Methods and apparatus for ranking documents
US8225190B1 (en) 2002-09-20 2012-07-17 Google Inc. Methods and apparatus for clustering news content

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1166081A (ja) * 1997-08-12 1999-03-09 N T T Data:Kk プロファイル取得システム、情報提供システム、プロファイル取得方法及び媒体
JP2000137731A (ja) * 1998-11-02 2000-05-16 Matsushita Giken Kk 情報フィルタ装置及び情報フィルタリング方法
JP4936628B2 (ja) * 2000-06-07 2012-05-23 イーベイ インコーポレイテッド ウェブページ用画像の動的選択
JP2004514196A (ja) * 2000-06-07 2004-05-13 イーベイ インコーポレイテッド ウェブページ用画像の動的選択
US9477773B2 (en) 2000-06-07 2016-10-25 Ebay Inc. Automated selection of images for web pages
US9116868B2 (en) 2000-06-07 2015-08-25 Ebay, Inc. Automated selection of images for web pages
US8335983B2 (en) 2000-06-07 2012-12-18 Ebay, Inc. Dynamic selection of images for web pages
JP2002269144A (ja) * 2001-03-14 2002-09-20 Nec Corp 情報処理端末、嗜好管理方法及びプログラム
US8225190B1 (en) 2002-09-20 2012-07-17 Google Inc. Methods and apparatus for clustering news content
US9361369B1 (en) 2002-09-20 2016-06-07 Google Inc. Method and apparatus for clustering news online content based on content freshness and quality of content source
US10496652B1 (en) 2002-09-20 2019-12-03 Google Llc Methods and apparatus for ranking documents
US10095752B1 (en) 2002-09-20 2018-10-09 Google Llc Methods and apparatus for clustering news online content based on content freshness and quality of content source
US8090717B1 (en) 2002-09-20 2012-01-03 Google Inc. Methods and apparatus for ranking documents
US8843479B1 (en) 2002-09-20 2014-09-23 Google Inc. Methods and apparatus for ranking documents
US9477714B1 (en) 2002-09-20 2016-10-25 Google Inc. Methods and apparatus for ranking documents
JP2004178123A (ja) * 2002-11-26 2004-06-24 Hitachi Ltd 情報処理装置、該情報処理装置を実現するためのプログラム
US8645368B2 (en) 2003-09-16 2014-02-04 Google Inc. Systems and methods for improving the ranking of news articles
JP2007517269A (ja) * 2003-09-16 2007-06-28 グーグル・インク ニュース記事のランク付けを向上させるためのシステムおよび方法
US9037575B2 (en) 2003-09-16 2015-05-19 Google Inc. Systems and methods for improving the ranking of news articles
US10459926B2 (en) 2003-09-16 2019-10-29 Google Llc Systems and methods for improving the ranking of news articles
JP2008009729A (ja) * 2006-06-29 2008-01-17 Kddi Corp コンテンツ配信方法および装置
JP2009230427A (ja) * 2008-03-21 2009-10-08 Ricoh Co Ltd 電子文書属性検出推定方法、電子文書属性検出推定装置、電子文書属性検出推定プログラム及び記憶媒体

Similar Documents

Publication Publication Date Title
JP2800769B2 (ja) 情報フィルタリング方式
JP3116851B2 (ja) 情報フィルタリング方法及びその装置
US6138128A (en) Sharing and organizing world wide web references using distinctive characters
US7340470B2 (en) Retrieving and providing contextual information
US20020016798A1 (en) Text information analysis apparatus and method
JP3204154B2 (ja) 時系列データ解析装置
US6311198B1 (en) Method and system for threading documents
US8015186B2 (en) Information processing apparatus and method, recording medium, and program
JPH08335265A (ja) 文書処理装置および方法
US7363311B2 (en) Method of, apparatus for, and computer program for mapping contents having meta-information
JPH10171819A (ja) 情報検索装置
JP2008210010A (ja) コンテンツ配信方法およびシステム
JPH09212505A (ja) 文書処理装置および方法
JP3472032B2 (ja) 情報フィルタ装置及び情報フィルタ方法
JP3686802B2 (ja) データベース検索方法、装置、およびデータベース検索プログラムを記録した記録媒体
JP3692416B2 (ja) 情報フィルタリング方法および装置
KR20200109515A (ko) 빅데이터를 이용한 교육 콘텐츠 생성 방법
JP2000227922A (ja) 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体
JP3418876B2 (ja) データ・ベース検索装置および方法
JP3155033B2 (ja) 類似尺度構成処理方法
JPH05233719A (ja) 複合的な情報間の関連性識別方法
JP2000048041A (ja) データ検索システム及びこれに用いる装置
JPH10269235A (ja) 類似文書検索装置及び類似文書検索方法
JP2000112972A (ja) 情報提供システム及び情報提供方法
JPH08161348A (ja) 文書フィルタリング方法及び文書処理装置