JP3810463B2 - 情報フィルタリング装置 - Google Patents
情報フィルタリング装置 Download PDFInfo
- Publication number
- JP3810463B2 JP3810463B2 JP33579095A JP33579095A JP3810463B2 JP 3810463 B2 JP3810463 B2 JP 3810463B2 JP 33579095 A JP33579095 A JP 33579095A JP 33579095 A JP33579095 A JP 33579095A JP 3810463 B2 JP3810463 B2 JP 3810463B2
- Authority
- JP
- Japan
- Prior art keywords
- article
- articles
- information
- user
- presented
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001914 filtration Methods 0.000 title claims description 62
- 238000009826 distribution Methods 0.000 claims description 2
- 238000003860 storage Methods 0.000 description 82
- 238000004364 calculation method Methods 0.000 description 71
- 238000012545 processing Methods 0.000 description 62
- 239000004065 semiconductor Substances 0.000 description 60
- 230000014509 gene expression Effects 0.000 description 38
- 238000000034 method Methods 0.000 description 35
- 238000010586 diagram Methods 0.000 description 34
- 238000000605 extraction Methods 0.000 description 27
- 230000004048 modification Effects 0.000 description 20
- 238000012986 modification Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 18
- 238000013473 artificial intelligence Methods 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【発明の属する技術分野】
この発明は、膨大なテキスト記事からユーザの要求・興味にあったものを選出して定期的にユーザに提供する情報フィルタリング装置に関する。
【0002】
【従来の技術】
近年、ワードプロセッサーや電子計算機の普及、および計算機ネットワークを介した電子メールや電子ニュースの普及などに伴い、文書の電子化は加速的に進みつつある。
【0003】
電子出版という言葉が示すように、今後は新聞、雑誌、本の情報も電子的に提供されることが一般的になると考えられる。これにより、個人にとってリアルタイムで入手可能となるテキスト情報の量は膨大になっていくと予測される。
【0004】
これに伴い、新聞や雑誌などの膨大なテキスト記事からユーザの要求・興味にあったものを選出して定期的にユーザに提供する情報フィルタリングシステムあるいは情報フィルタリングサービスの需要が高まりつつある。
【0005】
従来より実現されている情報フィルタリングシステムは、ユーザの要求や興味を表現したユーザプロファイルに合致する記事を検索し、これらの見出しのリストあるいは記事全体をならべてユーザに提示するものである。
【0006】
通常、ユーザプロファイルは、ユーザが興味をもっているトピックをいくつか指定することにより作成される。
【0007】
また、提示された記事の有用性の判定をユーザが行い、この情報をユーザプロファイルに反映させることにより、次回以降の情報フィルタリングの適合率を高めるというレレバンス・フィードバックという機能が実現されている。
【0008】
【発明が解決しようとする課題】
しかし、従来のシステムでは、選定された記事が羅列されてユーザに提示されるだけであるので、今回提示された記事同士の関係や、今回提示された記事と前回までに提示された記事との関係を把握することがユーザにとっては難しいという問題点があった。
【0009】
また、従来のような記事の単純な提示では、いかなるトピックのいかなる検索条件にマッチしたためにその記事がユーザに提示されるに至ったか、また、提示された記事を他のユーザはどのように読んでいるかなどの情報が欠落していたため、有用性の判定には多大な労力を必要とし、その一貫性を保つことが難しいという問題点があった。
【0010】
また、情報フィルタリングシステムにおいては、重要記事を選出した後にさらに、その記事内の重要なテキストを部分的に選出するという二重のフィルタリングを行うことは、長い記事からの情報収集を効率的にするという点で有効である。しかし、従来では、機械的に適当な長さのテキストを抜粋表示しているにすぎなかったため、余分な情報が混在していたり、必要な情報が欠けていたりするという問題点があった。
【0011】
また、従来では、ニュースソースから配信されるテキストと検索条件との類似度にしたがってユーザに提供するテキストを選択するだけであったため、同じ内容のテキストであってもばらばらに出力される等の問題があった。
【0012】
この発明は上述の事情に鑑みてなされたものであり、情報フィルタリングによってユーザに提供される記事同士の関連性をユーザに提示できるようにし、ユーザに記事同士の関連性を把握させることが可能な情報フィルタリング装置を提供することを第1の目的とする。
【0013】
また、この発明は、提示されている記事がいかなる検索条件を満足したのかがユーザにわかるようにすることにより、情報フィルタリングに対するユーザの理解と信頼を深めることが可能な情報フィルタリング装置を提供することを第2の目的とする。
【0014】
さらに、この発明は、記事の種類に応じてユーザに提示する要約あるいは抄録の長さを調節できるようにし、2重フィルタリングを効率的に行うことができる情報フィルタリング装置を提供することを第3の目的とする。
【0015】
また、この発明は、互いに内容が重複する記事同士をグループ化あるいは関連づけしてユーザに提供できるようにし、ユーザがテキスト記事を読むための手間を大幅に軽減することが可能な情報フィルタリング装置を提供することを第4の目的とする。
【0016】
【課題を解決するための手段】
この発明は、複数の情報源からテキストやイメージなどの記事の配信を受け、それら配信された記事の中から所定の記事を選出してユーザに提示する情報フィルタリング装置において、ユーザ毎に予め指定された検索条件を保持する手段と、配信された記事を検索し、ユーザ毎に検索条件に合致する記事を選定する手段と、前記選定された記事群の中で、異なる情報源から得られた記事同士を対象として、それら記事間において重複する単語の比率を示す記事間類似度を算出する手段と、前記算出された記事間類似度に基づいて、互いに類似度が高く、かつ情報源が異なる記事の集合を、重複記事の集合として決定する手段と、前記決定された重複記事の集合の中から一部の記事をユーザに提示するための代表記事として選択する手段と、前記決定された前記重複記事の集合の中で選択されなかった記事に関する情報を前記選択された記事の関連記事情報として前記選択された記事に付加してユーザに提示する手段とを具備することを特徴とする。
【0017】
この情報フィルタリング装置においては、異なる情報源から得られた記事同士を対象として、それら記事間において重複する単語の比率を示す記事間類似度を算出することにより、互いに類似度が高く、かつ情報源が異なる記事の集合が重複記事の集合として決定され、その重複記事の集合の中の一部の記事が代表記事として選択されると共に、選択されなかった記事に関する情報が前記選択された記事の関連記事情報として前記選択された記事に付加してユーザに提示される。これにより、例えば複数の新聞社などの複数の情報源から得られた同一内容に関する記事が重複してユーザに提示されることを自動的に回避することができる。さらに、選択されなかった記事については、その見出しなどの情報が関連記事情報として、選択された記事に付加してユーザに提示されるので、記事同士の関連性をユーザに知らせることが可能となる。
【0029】
【発明の実施の形態】
以下、図面を参照してこの発明の実施の形態について説明する。
【0030】
まず、図1を参照して、この発明の情報フィルタリングシステム全体の構成について説明する。
【0031】
情報フィルタリングシステムは、新聞社、通信社、または出版社などの複数の情報源2からテキストやイメージを含むテキスト記事の配信を受け、それを定期的に加入ユーザ端末3それぞれに送信する情報提供システムであり、このシステムの情報提供サービスは情報フィルタリングセンタ1によって実現されている。情報フィルタリングセンタ1は、通信網を介して複数の情報源2および複数の加入ユーザ端末3に接続された1つの計算機システムによって実現されており、ここには、情報フィルタリングのための制御や処理を行う中央処理装置4、プログラム並びにデータを格納する半導体メモリ、磁気ディスク、光ディスクなどの記憶装置5、回線や電波などの通信網介して情報源2からテキスト記事を受信する受信部6、回線や電波などの通信網介してユーザ端末3にテキスト記事を送信する送信部7などから構成されている。
【0032】
各ユーザ端末3は、例えばパーソナルコンピュータやワークステーションなどの情報処理端末であり、情報フィルタリングセンタ1から送信されたテキスト記事を受信するテキスト情報受信部8と、受信したテキスト記事を画面表示する表示部9などを備えている。
【0033】
情報フィルタリングセンタ1は、図2に示されているように、ユーザプロファイル10と称する一種の検索条件をユーザ毎に保持しており、そのユーザプロファイル10に従って該当するユーザに提供すベき記事を検索する。ユーザプロファイル10は、ユーザによって指定された複数のトピックなどから構成されており、それらトピックに合致する記事が検索および選出されてユーザに送られる。
次に、この情報フィルタリングセンタ1の具体的な構成について説明する。
【0034】
(実施形態1)
図3には、この発明の第1実施形態に係わる情報フィルタリングセンタ1の構成が示されている。図中、実線の矢印はデータの流れを示している。
【0035】
情報フィルタリングセンタ1は、図示のように、ユーザプロファイル生成部11、ユーザプロファイル記憶部12、記事情報抽出部13、記事検索部14、記事選出部15、記事間類似度計算部16、提示情報生成部17、および記事情報記憶部18から構成されている。これら構成要素のうち、破線で囲まれているユーザプロファイル生成部11、記事情報抽出部13、記事検索部14、記事選出部15、記事間類似度計算部16、および提示情報生成部17は、例えば図1の中央処理装置14によって実行されるソフトウェアによって実現でき、またユーザプロファイル記憶部12および記事情報記憶部18は記憶装置5によって実現できる。
【0036】
ユーザプロファイル生成部11は、予め各ユーザによって指定される要求・興味などを解析して検索のために必要なユーザプロファイルをユーザ毎に生成する。これらユーザプロファイルはユーザプロファイル記憶部12に記憶される。記事情報抽出部13は、各情報源2から到着したテキスト記事から、検索や記事同士の類似度計算に必要な情報を抽出し、それを生のテキスト記事と共に記事情報記憶部18に格納する。
【0037】
記事検索部14は、各情報源2から到着した記事の中からユーザプロファイルに合致するものを検索する。この検索処理では、ユーザプロファイルと到着記事との間の類似度が調べられ、類似度の高い順に記事がソートされる。記事選出部15は、検索結果からユーザに提示する記事を選出するためのものであり、例えば類似度の値があるしきい値を越えた記事すべて、または類似度の高い上位のいくつかの記事が選択される。
【0038】
記事間類似度計算部16は、記事間の類似度を調べるためのものであり、選択された記事同志の類似度を算出する。提示情報生成部17は、記事選出結果と記事間類似度計算結果をもとにユーザに提示する記事情報を生成する。記事情報記憶部18には、検索のための記事情報や記事間類似度計算結果などが記憶される。以下、これらユーザプロファイル生成部11、記事情報抽出部13、記事検索部14、記事選出部15、記事間類似度計算部16、および提示情報生成部17それぞれの具体的な処理内容について説明する。
【0039】
図5には、ユーザプロファイル生成部11の処理の流れが示されている。
【0040】
ユーザプロファイル生成部11は、入力として個々のユーザの要求・興味を受けつける(ステップS1)。ユーザの要求・興味は、「○○と××に関する記事が読みたい」といった自然言語や、興味のあるトピック(話題)に頻出するキーワードの集合や、それらに優先順位や重みをつけたもの、または通常の文書検索における検索式のようなもので表される。
【0041】
ユーザプロファイル生成部11は、これに対して単語辞書、同義語辞書などを利用して単語抽出、同義語展開などの言語処理を行い(ステップS2)、検索が可能となるような形式に変換してユーザプロファイルを作成する(ステップS3、S4)。作成されたユーザプロファイルはユーザ毎にユーザプロファイル記憶部12に記憶され、記事検索のための検索条件として利用される。
【0042】
図5には、記事情報抽出部13の処理の流れの一例が示されている。
【0043】
記事情報抽出部13は、入力として情報源から到着した記事を受けつけ(ステップS11)、これに対して文書解析用の辞書や情報抽出用の辞書を用いて、形態素解析、構文解析、書式解析などを行い、記事の情報源や日付、文字や単語その他の文書構成要素の頻度情報や出現位置、5W1H的な情報などの抽出を行う(ステップS12)。次いで、記事情報抽出部13は、これらの抽出された情報の集合体として記事を表現する(ステップS13)。例えば、出現した単語の頻度を要素とするベクトルにより記事を表現したり、5W1Hのテンプレートに実現値を代入したものにより表現したりする。このような記事の表現例をそれぞれ図6、図7に示す。図6は、その記事に出現した単語(半導体、メモリー、摩擦、不況、生産、…)の出現頻度(14、9、5、2、3)を要素とした頻度ベクトルであり、また図7は、情報源、文字数、記事見出し、トピック、日時、場所、主語、主動詞……などを項目とするテンプレートである。
【0044】
記事情報抽出部13は、このようにして記事を表現した後、記事検索を高速に実現するための索引付け、つまりインデクシング処理も行い(ステップS14)、そしてベクトルやテンプレートで表現して記事およびインデクシング情報を記事情報記憶部18に記憶する(ステップS15)。
【0045】
図8には、記事検索部14の処理の流れが示されている。
【0046】
記事検索部14は、記事情報抽出部13によって抽出された記事情報を参照し、到着した記事の中からユーザプロファイルに適合するものを検索する。
【0047】
これは、ユーザプロファイルと到着した記事の各々との類似度を算出することに相当する。この類似度は、検索の方式によって「ユーザプロファイルに適合する」「ユーザプロファイルに適合しない」などの離散値をとる場合もあるし、よく適合している記事ほど類似度の値が高くなるように連続値をとる場合もある。ここでは、より一般的である、類似度が連続値をとる場合について説明する。
【0048】
記事検索部14は、各ユーザのユーザプロファイルについて、以下の処理を行う。
【0049】
まず、ユーザプロファイル記憶部12からプロファイルを読み込む(ステップS21)。次に、記事検索部14は、変数iに1を代入した後(ステップS22)、i番目の記事(1番目の記事)とユーザプロファイルとの類似度を計算する(ステップS23)。この類似度計算は、通常の検索処理に相当するもので、記事情報記憶部18に格納されている記事の表現や検索インデックスが参照される。
【0050】
次いで、記事検索部14は、変数iの値を+1更新した後、そのときのiの値が到着記事数よりも大きいか否かを調べ(ステップS24,S25)、大きくない場合には類似度計算されてない記事が残っていると認識し、iの値が到着記事数よりも大きくなるまで、ステップS23〜S25を繰り返す。到着した全ての記事に対してユーザプロファイルとの類似度の計算が終わると、すなわち、到着した全ての記事を検索対象とした検索処理が終わると、記事検索部14は、到着した記事をユーザプロファイルとの類似度が高い順にソートし、記事のランキングを行う(ステップS26)。このランキングの結果は、記事情報記憶部18に記憶される。ランキング結果の一例を図9に示す。
【0051】
図10に、記事選出部15の処理の流れを示す。
【0052】
記事選出部15は、記事検索部14により検索されランキングされた到着記事を記事情報記憶部18から読み込み(ステップS31)、その中から、実際にユーザに提示するものを選出する(ステップS32)。ユーザに提示することが決まった記事の情報は、再び記事情報記憶部18に格納される。
【0053】
記事の選出の方法としては、例えば、ユーザに提示する記事の件数Nをユーザ側があるいはセンタ側が予め定めておき、ランキング上位N件を提示することにしたり、あるいは、ユーザプロファイルとの類似度がある閾値以上の記事を提示することにするなどが考えられる。図11は、図9のようなランキング結果が得られている場合にその上位10件を選出した例を示している。
【0054】
また図12は、図9のようなランキング結果が得られている場合にユーザプロファイルとの類似度が0.86以上の記事を選出した例を示している。
【0055】
さらに、図13は、一人のユーザに対して複数の検索及びランキングが行われた場合において、これら複数のランキング結果の上位部分をマージしてユーザに提示する記事を選出する例を示している。
【0056】
この例では、「半導体技術」、「低価格パソコン」、「人工知能」の3つのトピックに関する検索が別個に行われており、3つのランキング結果の上位から、記事A1、B1、C1、A2、B2が選出されている。
【0057】
記事A1及びA2はトピック「半導体技術」に適合したもの、記事B1及びB2はトピック「低価格パソコン」に適合したもの、そして記事C1はトピック 「人工知能」に適合したものである。
【0058】
ここでの記事の選出の方法としても、図11のように一定件数を選出する、図12のように類似度が一定値以上の記事を選出するなどが考えられる。
【0059】
図14には、記事間類似度計算部16の処理の流れが示されている。
【0060】
記事検索部14が、ユーザプロファイルと記事との類似度を計算する、換言すれば、ユーザプロファイルを検索式とし、記事を検索対象とした通常の検索を行うのに対し、記事間類似度計算部16は、記事同士の類似度を計算する。
【0061】
類似度計算は、例えば図6や図7のような記事の表現同士を比較することにより行われ、計算結果は記事情報記憶部18に記憶される。
【0062】
ここでは、新聞社などの記事の情報源2は複数存在するものとし、記事間類似度計算の対象となるのは、異なる情報源から到着した記事同士、例えば、新聞社Mから到着した記事と新聞社Nから到着した記事とする。
【0063】
異なる情報源から到着した記事同士の全ての組合せについて記事間類似度を計算してもよいが、ここでは、記事選出部15により選出された記事に対してのみ記事間類似度を計算するという計算コストの低い方法について説明する。
【0064】
すなわち、記事間類似度計算部16は、まず、記事選出部15により選出された記事を記事情報記憶部18から読み込む(ステップS41)。次いで、記事間類似度計算部16は、読み込んだ記事のうち、異なる情報源から到着したもの同志の類似度を計算し、その結果を記事情報記憶部18に格納する(ステップS42)。
【0065】
以下、記事間類似度計算の具体例を説明する。
【0066】
図15には、記事選出部15により選出された、異なる情報源から到着した記事の例が示されている。この例では、記事A〜Dの4つの記事がユーザに提示されることになっている。
【0067】
記事A及びDは新聞社Mから到着した記事、記事Bは新聞社Nから到着した記事、そして記事Cは出版社Oから到着した記事である。
【0068】
この場合、記事Aと記事B、記事Aと記事C、記事Bと記事C、記事Cと記事Dの組合せについて記事間類似度が計算される。記事Aと記事Dは同一の情報源から到着した記事であるため、類似度計算を行わない。
【0069】
図16には、提示情報生成部17の処理の流れが示されている。
【0070】
提示情報生成部17は、記事情報記憶部18から、記事選出部15により選出された記事の情報及び記事間類似度計算部16により計算された記事間類似度を読み込む(ステップS51、S52)。
【0071】
そして、提示情報生成部17は、互いに類似度が高く、かつ情報源が異なる記事の集合を、重複記事の集合として分類する(ステップS53)。ここで、重複記事とは、同じ出来事に対して複数の情報源が独自に作成した記事のことであり、内容的には同一あるいはほぼ同じと考えてよい記事をいう。
【0072】
この後、提示情報生成部17は、重複記事の提示を回避するために、重複記事集合から、代表としてユーザに提示する記事をひとつ、一般にはN個選択する (ステップS54)。そして、提示情報生成部17は、選択した記事の本文に対して、選択しなかった記事の情報を関連記事情報として付加することなどにより、ユーザに提示する情報を生成し、それを出力する(ステップS55,S56)。
【0073】
ここで、重複記事と関連記事情報の具体例を説明する。
【0074】
図17は、一件のプレスリリースから重複記事が派生する例を示している。ある出来事について情報を記したプレスリリース記事Pが、新聞社M,N,Oに送られると、各新聞社はこれを編集し、コメントを加えるなどして、独自の記事M,N,Oを作成する。記事M,N,O,Pが各情報源から情報フィルタリングセンターに送られるとすると、記事M,N,O,Pは重複記事となる。
【0075】
また、図18は、一件の出来事から重複記事が作成される例を示している。
【0076】
この例では、新聞社M,N,Oが同一の出来事に対して独自に取材を行い、記事M,N,Oが作成されている。これらが情報フィルタリングセンタ1に送られるとすると、記事M,N,Oは重複記事となる。
【0077】
情報フィルタリングの本来の主旨は、膨大な情報の中にある所望の情報をできるだけ効率よくユーザにアクセスさせることであるから、一般には、ユーザに提示する記事に重複記事が多く含まれていることは好ましくないと考えられる。例えば、図18の例において、ユーザに記事M,N,Oを全て提示してしまうと、ユーザはひとつの出来事についての情報を得るのに3つの記事を読まなければならなくなってしまう。
【0078】
提示情報生成部17は、以上のような重複記事の提示を回避するために、重複記事集合から、代表としてユーザに提示する記事をひとつ、一般にはN個選択する。以後、ひとつだけ選択する場合についてのみ説明する。
【0079】
図19に、図15の4つの記事に対して記事間類似度計算を行った結果得られる重複記事集合の例を示す。
【0080】
この例では、記事AとC、記事BとDの類似度が高かったため、ふたつの重複記事集合が得られている。
【0081】
提示情報生成部17は、一定の戦略に従って、各重複記事集合から記事をひとつずつ選択する。
【0082】
例えばユーザ側あるいはサービスセンタ側が新聞社Mを最優先するように予め決めておいたとすると、最終的にユーザに提示される記事は新聞社Mから到着した記事A,Dとなる。
【0083】
同様に、一般には情報量の一番多いプレスリリースを最優先して選択することも考えられる。
【0084】
また、検索結果のランキングで最も上位にあったものを選択することも考えられる。
【0085】
例えば図19において、ユーザプロファイルと記事との類似度は重複記事集合1では記事Cが高く、重複記事集合2では記事Dが高いので、最終的にユーザに提示される記事は記事C,Dとなる。
【0086】
さらに、記事の長さが最も長い、あるいは最も少ないものを選択するなどの戦略も考えられる。
【0087】
これまで述べてきた処理により、ユーザに提示する記事の候補の中から重複記事が排除される。最終的に排除された重複記事に関する情報は、各記事の本文情報に付加してユーザに提示される。
【0088】
図20に、排除された重複記事に関する情報を記事の本文情報に付加して提示する例を示す。
【0089】
この例では、ユーザに提示されている記事の本文情報に加えて、この記事と内容が同一と判断された他の情報源の記事に関する情報が付加情報として与えられている。具体的には、記事の見出しや情報源、文字数、そして現在本文が提示されている記事との類似度などがリストアップされている。
【0090】
この例では、「○×社が情報サービス事業から撤退した」という内容の記事が○○新聞社、△△新聞社、□□新聞社の3つの情報源から得られたが、ユーザに提示する記事としては○○新聞社の記事が選ばれたということになる。
【0091】
このように排除された重複記事に関する情報を記事の本文情報に付加して提示すると、内容的には同じだが情報源が異なる記事を何度も読むことを回避でき、かつ各情報源が同一の出来事に対してどのように報道しているかの概観を得ることができると考えられる。
【0092】
図21には、図20の関連情報提示形態の変形例が示されている。
【0093】
すなわち、図20はべたテキストとして関連情報をユーザ端末に表示したが、図21では、付加情報のテキスト部分がハイパーテキストなどで構造化されており、これを利用して排除された重複記事の本文にアクセスすることを可能にしている。
【0094】
この例では、付加情報のエリアにおける記事見出しがマウスなどの装置により選択できるボタンになっており、ユーザは関連記事1を選択することによって、その関連記事1の本文を参照することができる。
【0095】
図22及び図22に、図21において関連記事1が選択された場合に関連記事1の本文を表示する例を示す。
【0096】
図21において本文が表示されていた「半導体協議の…」という記事は、図22においては付加情報のエリアに見出しなどの情報のみが表示されており、その代わりに本文情報のエリアには関連記事1の本文が表示されている。
【0097】
図22から図21の状態に戻すためには、ユーザは図22の付加情報のエリアにおける「半導体協議の…(元の記事)」というボタンを選択すればよい。
【0098】
また図23においては、図21で表示されている情報を保持しながら、関連記事1の本文情報を新たに開いたウィンドウ上に表示している。このような表示方法をとれば、複数の重複記事を比較することが可能となる。
【0099】
図21の画面から図22の画面への移行は、図24の処理の流れに従って次のように実行される。
【0100】
提示情報生成部17は、図21に示されているように提示記事の本文情報に関連記事の情報を付加してユーザ端末3に画面表示させる(ステップS61)。次いで、関連記事のボタンが選択されるというイベントが発生すると、提示情報生成部17は、選択された関連記事の本文情報を記事情報記憶部18から取り出し(ステップS62,S63)、図22に示されているように、元の記事の情報を付加情報のエリアに、選択された関連記事の本文を本文情報エリアに表示する (ステップS64)。
【0101】
なお、このような画面切り替えは、センタ1からユーザ端末3に予め関連記事の本文情報を送信しておけば、ユーザ端末3側の制御で行うこともできる。
【0102】
図21の画面から図23の画面への移行は、図25の処理の流れに従って次のように実行される。
【0103】
提示情報生成部17は、図21に示されているように提示記事の本文情報に関連記事の情報を付加してユーザ端末3に画面表示させる(ステップS71)。次いで、関連記事のボタンが選択されるというイベントが発生すると、提示情報生成部17は、選択された関連記事の本文情報を記事情報記憶部18から取り出し(ステップS72,S73)、図23に示されているように、選択された関連記事の本文をウインドウ表示する(ステップS74)。
【0104】
この画面切り替えについても、センタ1からユーザ端末3に予め関連記事の本文情報を送信しておけば、ユーザ端末3側の制御で行うことができる。
【0105】
また、図20や図21のように付加情報のエリアに付加する関連記事は、前述の重複記事集合から記事を選択するのと同様な戦略により絞り込みを行ってもよい。
【0106】
図21〜23のように、重複記事集合を代表して本文が表示されている記事から、それ以外の重複記事の本文にアクセスできるようにすると、情報フィルタリングシステムによって選択された代表記事が不適切なものであった場合にも、ユーザが他の重複記事を選択して読むことが可能となる。
【0107】
例えば、情報フィルタリングシステムがユーザの希望によりN新聞の記事を優先して選択する戦略をとっていたとしても、ユーザがある出来事に関してだけはN新聞の記事ではなくプレスリリースを読みたいといった場合に有効である。
【0108】
また、同一の出来事に対する複数の新聞社の見解などを比較することも可能となる。
【0109】
図26には、記事の重複が起こっている場合に、ユーザに提示する記事の一覧表を重複記事情報とともに表示した例が示されている。
【0110】
この例では、ユーザに提示する記事は4件あるが、そのうちの3件目である 「○×社 情報サービスビジネスから撤退」という記事には重複記事が2件存在する。
【0111】
各記事の見出しの後にはユーザプロファイルと記事との類似度の値が表示されているが、重複記事に関してはそれとは別に、元の記事と重複記事との類似度の値も表示されている。これは重複記事である確からしさを示していると言える。ここで、元の記事とは「○×社 情報サービスビジネスから撤退」の記事などを指す。
【0112】
以上の説明では、ひとつのユーザプロファイルに対する処理を中心に述べてきた。
【0113】
一般には、情報フィルタリングサービスを受けるユーザは複数いるので、情報フィルタリングセンタは、ユーザ毎にユーザプロファイルを保持し、フィルタリングの各処理を行うことになる。
【0114】
(実施形態1の変形例1)
次に、記事間類似度計算部16及び提示情報生成部17の他の構成例について説明する。
【0115】
図27に、記事間類似度計算部16の処理の流れを示す。
【0116】
記事検索部14が、ユーザプロファイルと記事との類似度を計算する、換言すれば、ユーザプロファイルを検索式とし、記事を検索対象とした通常の検索を行うのに対し、記事間類似度計算部16は、記事同士の類似度を計算する。
【0117】
類似度計算は、例えば図6や図7のような記事の表現同士を比較することにより行われ、計算結果は記事情報記憶部18に記憶される。
【0118】
ここでは、N回前までの情報フィルタリングで得られた記事情報が記事情報記憶部18に保存されているものとする。
【0119】
例えば、情報フィルタリングサービスが一日一回行われ、かつNを1とした場合、昨日の情報フィルタリングで得られた記事情報は保存されているということを意味する。以後、主にN=1として説明する。
【0120】
このシステムでは、記事間類似度計算の対象となるのは、今回到着した記事と、前回までに到着した記事との組である。
【0121】
今回到着した記事と、前回までに到着した記事との全ての組合せについて類似度計算を行ってもよいが、以後は、より計算コストの低い方式、つまり記事選出部により今回選出された記事と、前回までにユーザに提示された記事との組合せについてのみ類似度計算を行う場合について説明する。
【0122】
すなわち、記事間類似度計算部16は、まず、記事選出部15により選出された記事の情報を記事情報記憶部18から読み込み、次いで、前回までのフィルタリングでユーザに提示した記事の情報を記事情報記憶部18から読み取る(ステップS81、S82)。そして、記事間類似度計算部16は、記事選出部15により今回選出された記事と、前回までにユーザに提示された記事との組合せについて類似度計算を行い、その結果を記事情報記憶部18に格納する(ステップS83)。
【0123】
図28には、今回記事選出部15により選出された記事の集合と、前回ユーザに提示された記事の集合の例を示す。
【0124】
この例では、前回はユーザには記事A,B,C,Dが提示されており、今回は記事E,F,G,Hが提示されようとしている。
【0125】
この場合、類似度計算は、記事Aと記事E、記事Aと記事Fといったように4×4=16の組合せについて計算されることになる。
【0126】
また、この変形例として、一定の条件を満たす記事のみ類似度計算の対象としてもよい。
【0127】
例えば、図28において、情報源が同じ記事同士の類似度のみを計算することにすると、今回新聞社Mから到着した記事Eに関する類似度計算は、前回新聞社Mから到着した記事A,Bのみについて行えばよいことになる。
【0128】
また、例えば、図28において、ユーザプロファイルとの類似度が一定値以上の記事のみを類似度計算の対象とすることも考えられる。
【0129】
ユーザプロファイルとの類似度が0.8以上の記事のみを対象とすると、記事Eと記事A、記事Gと記事Aの組合せのみ計算すればよいことになる。
【0130】
図29には、提示情報生成部17の処理の流れが示されている。
【0131】
提示情報生成部17は、記事情報記憶部18から、今回記事情報選出部15により選出された記事の情報及び前回までにユーザに提示された記事の情報及び記事間類似度計算部16により計算された記事間類似度を読み込む(ステップS91〜S93)。そして、今回の記事の本文情報を前回までの関連記事の情報とともにユーザに提示する(ステップS94,S95)。
【0132】
図30及び図31には、今回の記事の本文情報に前回までの関連記事の情報を付加して提示する例が示されている。
【0133】
図30では、ユーザに今回初めて提示された「半導体協議の…」という記事の本文情報に加えて、半導体に関する昨日までの記事の情報が付加情報として与えられている。具体的には、前回までの記事の見出しや情報源、文字数、そして今回提示された記事との類似度などがリストアップされている。
【0134】
この例では、今回提示されたのは○○新聞の15日付の記事であり、前回までの関連記事としては○△新聞及び○○新聞の14日付の記事が表示されている。
【0135】
また図31では、ユーザに今回提示された「シリーズ:半導体摩擦(その3)」という記事の本文情報に加えて、同じ○○新聞社から昨日までに到着した「シリーズ:半導体摩擦(その1)」及び「シリーズ:半導体摩擦(その2)」という記事に関する情報が表示されている。
【0136】
また、実施形態1で示した図21〜23は、この例における図30及び図31の変形例にもなっている。
【0137】
すなわち、このシステムでも、実施形態1と同様に、ユーザが前回までの関連記事の本文にアクセスできるようにすることが考えられる。
【0138】
図21〜23では、本文情報と付加情報が完全に分離されているが、本文情報中に前回までの記事情報を埋め込んで提示することも考えれる。
【0139】
図32に、今回の記事の本文情報中に前回までの関連記事の情報を埋め込んで提示する例を示す。
【0140】
この例では、「○○沖の××地震 再び活発化」という19日付けの記事の本文が表示されているが、その第一文の「○○県○○沖で先月14日から始まった××地震は…」の一部がマウスなどで選択できるボタンになっている。
【0141】
ユーザがこれを選択すると、前回までの記事のうちこの文と類似した情報を含む記事に関する情報が表示される。
【0142】
図33は、図31においてユーザが第一文を選択した場合に、その文と関係の深い前回までの記事のリストを表示した例である。
【0143】
この例では、「○○沖で地震 マグニチュード4」などの、14日付の記事の見出しや情報源、文字数、今回の記事との類似度などがリストアップされている。
【0144】
図34は、図33においてユーザが「○○沖で地震 マグニチュード4」という関連記事を選択した場合に、その記事の本文を表示した例である。
【0145】
また、図32においてユーザが第一文を選択した直後に、図34のように関連記事の本文をひとつ以上表示してもよい。
【0146】
図32のように、今回の記事の本文情報中に前回までの関連記事の情報を埋め込んで提示するという形態を実施するためには、今回の記事と前回までの記事との類似度を計算するかわりに、今回の記事の本文の各構成要素と前回までの記事との類似度を計算することになる。
【0147】
本文の構成要素としては、段落、文、節、句、単語、などが考えられる。
【0148】
また、これをさらに変形して、前回までの関連記事情報も記事単位ではなく本文の構成要素単位で提示してもよい。
【0149】
例えば、図34のように関連記事の全文を表示するかわりに、第一段落のみを表示することが考えられる。
【0150】
以上のように、今回提示された記事からそれと関係のある前回までの記事にアクセスできるようにすれば、時間の経過とともに状況が変わっていくような出来事についてその経緯を把握することや、連載記事など複数の記事にわたる情報を把握することが容易になる。
【0151】
さらに、今回の記事を読んだときに、過去に提示された記事を思い出して、その内容を再確認したくなった場合などにも有効である。
【0152】
(実施形態1の変形例2)
次に、記事間類似度計算部16及び提示情報生成部17のさらに他の構成例について説明する。
【0153】
図35には、記事間類似度計算部16の処理の流れが示されている。
【0154】
記事検索部14が、ユーザプロファイルと記事との類似度を計算する、換言すれば、ユーザプロファイルを検索式とし、記事を検索対象とした通常の検索を行うのに対し、記事間類似度計算部16は、記事同士の類似度を計算する。
【0155】
類似度計算は、例えば図6や図7のような記事の表現同士を比較することにより行われ、計算結果は記事情報記憶部18に記憶される。
【0156】
この例において記事間類似度計算の対象となるのは、今回到着した記事同士の組合せである。
【0157】
到着した記事全てについて類似度計算を行ってもよいが、以後、より計算コストの低い、今回記事選出部15により選出された記事同士についてのみ類似度計算を行う場合について説明する。
【0158】
今回の記事同士について類似度計算を行う点では、実施形態1と同じであるが、実施形態1が情報源の異なる記事間に対して計算を行っていたのに対し、ここではそのような限定はしていない。
【0159】
図15のように記事選出部15により4つの記事が選出された場合、記事間類似度計算部16は、それら記事を記事情報記憶部18から読取り(ステップS101)、記事Aと記事B、記事Aと記事C、記事Aと記事D、記事Bと記事Dといったように全ての組合せについて類似度計算を行う(ステップS102)。
【0160】
また、一定の条件を満たす記事のみ類似度計算の対象としてもよい。
【0161】
図36には、提示情報生成部17の処理の流れが示されている。
【0162】
提示情報生成部17は、記事情報記憶部18から、記事情報選出部15により選出された記事の情報及び記事間類似度計算部16により計算された記事間類似度を読み込む(ステップS111,S112)。そして、提示情報生成部17は、今回の記事の本文情報を今回の他の関連記事の情報とともにユーザに提示する(ステップS113,S114)。
【0163】
図37に、今回の記事の本文情報を今回の他の関連記事の情報とともに提示する例を示す。
【0164】
この例では、15日付の「半導体協議の…」という記事の本文情報に加えて、同じ15日付けの半導体に関する記事の情報が付加情報として与えられている。これにより、実施形態1における重複記事が表示されてしまう可能性があるが、このような場合には実施形態1の重複記事削除処理を行ってもよい。
【0165】
また、図37の付加情報のエリアに表示されている「××社 半導体シェア独占…」という記事の本文情報を見るときには、図38のように「半導体協議の…」という記事が付加情報のエリアに表示されることになる。
【0166】
また、実施形態1で示した図21〜23は、この例の図37及び図38の変形例にもなっている。
【0167】
すなわち、実施形態1と同様に、ユーザが当日の関連記事の本文に直接アクセスできるようにすることが考えられる。
【0168】
(記事間類似度の記事提示順序への反映)
これまでは、主に個々の記事をユーザに提示する際の関連記事情報の付加について述べてきたが、今回の記事同士の記事間類似度を利用して、ユーザに提示する記事の順序を決定することも可能である。
【0169】
図39に、記事間類似度を記事の提示順序に反映させる例を示す。
【0170】
この例では、ユーザプロファイルは半導体技術、低価格パソコン、人工知能という3つの異なる分野に関する語の集合であるとする。
【0171】
これにより検索を行うと、図39(a)のように、3つの異なる分野の記事が混在した検索結果が得られる。
【0172】
ここで、例えば上位8件、あるいはユーザプロファイルとの類似度が0.80以上の記事を選択し、そのままの順序でユーザに提示すると、ユーザは半導体、低価格パソコン、人工知能、半導体、低価格パソコン、のような順序で記事を読むことになってしまう場合がある。
【0173】
ユーザプロファイルとの類似度が近い順に記事を読むことが有効な場合もあると考えられるが、このように複数分野の記事が混在している場合には、図39(b)のように、内容の類似した記事を集め、それをひとかたまりにして表示した方がユーザにとって分りやすいと考えられる。
【0174】
この例では、半導体に関する記事が初めの3件、低価格パソコンに関する記事が次の3件、そして残りの2件が人工知能に関するものとなっている。
【0175】
以上のように、この実施形態1のシステムでは、頻度ベクトルなどを使用して記事間でその表現を比較することによって記事同志の類似度が算出され、その類似度に従って、ユーザに提示される記事に関連する関連記事が決定される。この関連記事の情報は、ユーザに提示される記事の本文情報に付加されてユーザに送られる。類似度計算を行う対象としては、今回提示されている記事同士、または今回到着した記事と前回までに到着した記事との間で行うことが好ましい。これにより、今回提示されている記事同士の関係や、今回提示されている記事と過去のフィルタリングで提示された記事との関係が明確になり、記事同士の関連性などをユーザに知らせることができる。
【0176】
また、記事同志の類似度を算出することによって重複記事の存在を調べれば、重複記事の本文情報についてはユーザに提示せずに、その重複記事の見出しなどの情報だけを関連記事情報として付加してユーザに提示することもできる。これにより、例えば異なる複数の情報源から得られた同一内容に関する記事が、重複してユーザに提示されることを自動的に回避することができる。
【0177】
よって、一回の情報フィルタリングでユーザに複数の記事を提示する際、記事間の関係を明確にして提示できるようになり、ユーザにとって記事内容の理解が容易になると考えられる。
【0178】
(実施形態2)
次に、この発明の情報フィルタリングシステムの第2の実施形態について説明する。このシステム全体の構成は、図1と同様であり、ユーザ毎にユーザプロファイルが保持しており、そのユーザプロファイルを利用して記事の検索が行われる。ここで、ユーザプロファイルとは、前述したように、ユーザの関心が高いトピックに適合する記事を検索するための検索条件のことをいう。
【0179】
図40に、実施形態2で使用されるユーザプロファイルの概念図を示す。
【0180】
この例では、あるユーザAは「半導体技術」、「半導体貿易」という2つのトピックを選択している。また別のユーザBは、「半導体貿易」、「低価格パソコン」、「人工知能」という3つのトピックを選択している。
【0181】
このとき、ユーザAのユーザプロファイルは、「半導体技術」に関する記事を検索するための検索条件及び「半導体貿易」に関する記事を検索するための検索条件から構成される。同様に、ユーザBのユーザプロファイルは、「半導体貿易」に関する記事の検索条件、「低価格パソコン」に関する記事の検索条件、及び「人工知能」に関する記事の検索条件から構成される。
【0182】
図41には、実施形態2に係わる情報フィルタリングセンタ1の構成が示されている。情報フィルタリングセンタ1は、図示のように、ユーザプロファイル生成部21、トピック記憶部22、記事情報抽出部23、記事検索部24、記事選出部25、付加情報生成部26、および記事情報記憶部27から構成されている。これら構成要素のうち、破線で囲まれているユーザプロファイル生成部21、記事情報抽出部23、記事検索部24、記事選出部25、付加情報生成部26は、例えば図1の中央処理装置14によって実行されるソフトウェアによって実現でき、またトピック記憶部22および記事情報記憶部27は記憶装置5によって実現できる。
【0183】
ユーザプロファイル生成部21は、入力として個々のユーザの要求・興味を受けつける。ユーザの要求・興味は、「○○と××に関する記事が読みたい」といった自然言語や、興味のあるトピックに頻出するキーワードの集合や、それらに優先順位や重みをつけたもの、または通常の文書検索における検索式のようなもので表される。
【0184】
ユーザプロファイル生成部21は、これに対して単語抽出、同義語展開などの言語処理を行い、検索が可能となるような形式に変換してユーザプロファイルを作成する。ユーザプロファイルはユーザ毎にトピック記憶部22に記憶される。
また、ユーザプロファイル生成部21は、既にユーザに送信された各記事がユーザにとって有用であったか否かなどの情報についてユーザからフィードバックを受け、その情報を反映してトピック記憶部22の検索条件を修正するというレレバンスフィードバック機能も有している。
【0185】
記事情報抽出部23は、入力として情報源から到着した記事を受けつけ、これに対して形態素解析、構文解析、書式解析などを行い、記事の情報源や日付、文字や単語その他の文書構成要素の頻度情報や出現位置、5W1H的な情報などの抽出を行う。そして、記事をこれらの抽出された情報の集合体として表現する。例えば、出現した単語の頻度を要素とするベクトルにより記事を表現したり、5W1Hのテンプレートに実現値を代入したものにより表現したりする。このような記事の表現例は、それぞれ図6および図7で説明した実施形態1のものと同じである。
【0186】
記事情報抽出部23は、記事検索を高速に実現するためのインデクシング処理も行う。記事情報抽出部23により抽出された記事情報は、記事情報記憶部27に記憶される。
【0187】
次に、図42を参照して、記事検索部24の処理の流れを説明する。
【0188】
記事検索部24は、トピック記憶部22に記憶されている各トピックの検索条件と、記事情報抽出部23によって抽出された記事情報とを参照し、各トピックに適合する到着記事を検索する。これは、トピックと到着記事との類似度を算出することに相当する。この類似度は、検索の方式によって「トピックに適合する」「トピックに適合しない」などの離散値をとる場合もあるし、よく適合している記事ほど類似度の値が高くなるように連続値をとる場合もあるが、ここでは、より一般的である類似度が連続値をとる場合について説明する。
【0189】
記事検索部24は、各トピックについて、以下の処理を行う。
【0190】
まず、記事検索部24は、変数iに1を代入した後(ステップS121)、i番目のトピック(トピック1)の検索条件をトピック記憶部22から取り出す (ステップS122)。この後、記事検索部24は、変数jに1を代入した後 (ステップS123)、トピックi(トピック1)と到着記事j(到着記事1)との類似度を計算し、満足された検索条件の情報と共に類似度を記事情報記憶部27に格納する(ステップS124)。この類似度計算は、通常の検索処理に相当するもので、記事情報記憶部18に格納されている記事の表現や検索インデックスが参照される。
【0191】
次いで、記事検索部24は、変数jの値を+1更新した後、そのときのjの値が到着記事数よりも大きいか否かを調べ(ステップS125,S126)、大きくない場合には類似度計算されてない記事が残っていると認識し、jの値が到着記事数よりも大きくなるまで、ステップS124〜S126を繰り返す。到着した全ての記事に対してトピックiとの類似度の計算が終わると、記事検索部24は、到着した記事をユーザプロファイルとの類似度が高い順にソートし、記事のランキングを行う(ステップS127)。このランキングの結果は、記事情報記憶部27に記憶される。
【0192】
この後、記事検索部24は、変数iの値を+1更新した後、そのときのiの値が全トピック数よりも大きいか否かを調べ(ステップS128,S129)、大きくない場合には類似度計算されてないトピックが残っていると認識し、iの値が全トピック数よりも大きくなるまで、ステップS122〜S129を繰り返す。
【0193】
図43は、記事検索部24によりランキングされたトピックiに対する到着記事の概念図を示す。このように、到着記事はトピック毎にランキングされる。
【0194】
図44には、記事選出部25の処理の流れが示されている。
【0195】
記事選出部25は、記事検索部24により記事情報記憶部27に格納された各トピックの検索結果の中から、各ユーザに提示する記事を選出する。
【0196】
すなわち、まず、記事選出部25は、変数iに1を代入した後(ステップS131)、ユーザi(ユーザ1)のユーザプロファイルをトピック記憶部22から取り出す(ステップS132)。この後、記事選出部25は、変数jに1を代入した後(ステップS133)、ユーザiのトピックj(トピック1)の検索結果を記事情報記憶部27から取り出し、その中からユーザに提示する記事を選出する(ステップS135)。記事の選出の方法としては、例えば、ユーザに提示する記事の件数Nをユーザ側があるいはセンタ側が予め定めておき、ランキング上位N件を提示することにしたり、あるいは、ユーザプロファイルとの類似度がある閾値以上の記事を提示することにするなどが考えられる。選出された記事の情報は、記事情報記憶部27に格納される。
【0197】
次いで、記事選出部25は、変数jの値を+1更新した後、そのときのjの値がユーザiの指定したトピック数よりも大きいか否かを調べ(ステップS136,S137)、大きくない場合には選出されてない他のトピックの検索結果が残っていると認識し、jの値がユーザiのトピック数よりも大きくなるまで、ステップS134〜S137を繰り返す。ユーザiのすべてのトピックに対しての記事選出が終わると、記事選出部25は、変数iの値を+1更新した後、そのときのiの値が全ユーザ数よりも大きいか否かを調べ(ステップS138,S139)、大きくない場合には記事選出されてないユーザが残っていると認識し、iの値が全ユーザ数よりも大きくなるまで、ステップS132〜S139を繰り返す。
【0198】
このような処理により、例えば、図45のように、「半導体貿易」、「低価格パソコン」、「人工知能」という3つのトピックを選択しているユーザに対しては、「半導体貿易」の検索結果、「低価格パソコン」の検索結果、「人工知能」の検索結果の3つが取り出され、これらのうち上位の記事の中からユーザに提示するものが選出される。
【0199】
図46には、付加情報生成部26の処理の流れが示されている。
【0200】
付加情報生成部26は、全てのユーザに対して以下を行う。
【0201】
まず、付加情報生成部26は、変数iに1を代入した後(ステップS141)、ユーザi(ユーザ1)のユーザプロファイルをトピック記憶部22から取り出す(ステップS142)。次に、付加情報生成部26は、記事選出部25によって選出されたユーザ1に提示する記事と、これらの記事が満足した検索条件に関する情報とを記事情報記憶部27から取り出す(ステップS143)。
【0202】
ここで、記事が満足した検索条件に関する情報とは、その記事がユーザの選択したトピックのうちいずれに適合したか、トピックの検索条件の中のどのような条件に適合したか、などの情報をいう。検索条件とは、どのような言語表現が記事中のどのような位置に、どのような頻度で含まれていたか、記事の主題・行為やその動作主は何かなどの記事が満たすべき条件を、通常の文書検索で用いるブール式や自然言語、その他の記事検索部により処理が可能な形式で記述したものをいう。
【0203】
この後、付加情報生成部26は、記事選出部25によって選出された記事に、これらの記事が満足した検索条件に関する情報を付加してユーザiに提示する (ステップS144)。そして、付加情報生成部26は、変数iの値を+1更新した後、そのときのiの値が全ユーザ数よりも大きいか否かを調べ(ステップS145,S146)、大きくない場合には付加情報が生成されてないユーザが残っていると認識し、iの値が全ユーザ数よりも大きくなるまで、ステップS142〜S146を繰り返す。
【0204】
図47には、あるユーザのために選出された記事の記事見出しのリストに、各記事が適合したトピックの情報を付加してそのユーザに提示した表示例が示されている。
【0205】
ここでは、ユーザは「半導体貿易」、「低価格パソコン」、「人工知能」という3つのトピックを選択しているものとする。
【0206】
この例では、ユーザに6つの記事の記事見出しが提示されており、これらの記事のうち3つが「半導体貿易」に適合した記事、2つが「低価格パソコン」に適合した記事、そして残りの1つが「半導体貿易」と「低価格パソコン」の両方に適合した記事になっている。
【0207】
このように、ひとつの記事が複数のトピックに適合する場合があっても、その記事が提示された根拠が表示される。
【0208】
また、この例では、各行の最後の欄に、記事検索部24により検索時に計算された、適合したトピックと記事との類似度の値が表示されている。
【0209】
記事番号6の記事は、2つのトピックに適合したため、「半導体貿易」との類似度は1.05、「低価格パソコン」との類似度は0.80、というように2つの類似度が表示されている。
【0210】
図48に、図47と同じユーザに対して各トピックに適合した記事の件数情報を提示した表示例を示す。
【0211】
図48(a)では、ユーザの選択している各トピックに適合した記事の件数情報を表形式で表示している。
【0212】
「半導体貿易」に適合した記事は、図47における記事番号1、2、3、及び6の記事であるので、記事数は4と表示されている。同様に、「低価格パソコン」に適合した記事は、図47における記事番号4、5、及び6の記事であるので、記事数は3と表示されている。また、この例では「人工知能」に適合する記事はないので、記事数は0となっている。
【0213】
ユーザに提示された記事数は、「半導体貿易」の4件と「低価格パソコン」の3件のうち1件重複があるので6件となっている。
【0214】
また、この変形例として、図47の記事番号6のように複数のトピックに適合した記事の件数は別個にカウントするようにしてもよい。
【0215】
この場合、例えば図48(a)の「半導体貿易」の件数は、このトピックのみに適合した記事の件数という意味で3件となる。
【0216】
図48(b)では、ユーザの選択している各トピックに適合した記事の件数情報をベン図形式で表示している。
【0217】
この例では、図47における記事番号1、2、3の3つの記事が「半導体貿易」のみに適合した記事であり、記事番号4、5の2つの記事が「低価格パソコン」のみに適合した記事であり、記事番号6の記事が両方に適合した記事であることが明示されている。
【0218】
この例では、図48(a)に比べ、各トピックの適合件数と全記事数との関係がより明確になっている。
【0219】
図49に、あるユーザのために選出された記事の要約文・抜粋文あるいは本文をトピック別にまとめてそのユーザに提示した表示例を示す。
【0220】
ここで、要約文とは、もとの記事の本文を加工して要点がつかめるようにしたテキストをいい、抜粋文とは、もとの記事の本文の一部を加工せずに抜き出したテキストをいう。
【0221】
この例では、「半導体貿易」に関する3つの記事が並べて最初に表示されており、その後に「低価格パソコン」に関する記事が続いている。
【0222】
以上の説明のように、ユーザに提示する各記事がどのトピックに適合したのかを明示することにより、ユーザは記事の内容理解や、どの記事を読み、どの記事を読まないかなどの判断が容易になり、より効率的な情報収集ができると考えられる。
【0223】
図50に、記事が満足した検索条件に関する情報を記事本文のヘッダ情報として付加してユーザに提示した表示例を示す。
【0224】
この例では、表示中の記事が、ユーザの選択しているトピックのうち「半導体貿易」に適合したものであることが「該当トピック」の行に明示されている。
【0225】
その下には、「半導体貿易」と記事との類似度が1.32であったことが表示されている。
【0226】
さらに、「半導体貿易」に関する記事を検索するために用いられた検索条件と、これらの条件のうち表示中の記事が満足したものが並べて表示されている。
【0227】
また、図50の本文中では、テキストの一部が強調表示されている。
【0228】
ここで、強調表示とは、アンダーラインなどの付加記号を伴った表示、異なる字体や大きさの文字による表示、異なる色による表示など、一般にテキストの一部を他の部分よりも目立たせる手段を用いた表示をいう。
【0229】
この例では、「半導体貿易」というトピックに適合する記事を検索するための検索条件として、「半導体、IC、調達などの単語を本文中に含む」という条件が設定されていたものとする。
【0230】
記事は上記の条件を実際に満たしているので、このことを明示するために本文一文目の「半導体」、「IC」、「調達」という単語が強調表示されている。
【0231】
また、この変形例として、例えば「記事見出し」の行の「IC」という単語を強調表示してもよい。
【0232】
このような強調表示により、ユーザは、表示中の記事がどのような根拠に基づいて検索され、提示されたのか理解することができる。
【0233】
また、強調表示されている部分のテキストは、内容的に重要であることが多いので、ユーザは拾い読みにより効率的に記事内容を把握することが可能になると考えられる。
【0234】
これは、例えば、レレバンス・フィードバックのために提示された記事の有用性を判定する作業の効率化にもつながる。
【0235】
図51、52、53に、適合した検索条件を記事中に強調表示することにより記事の有用性の判定が効率的になる例を示す。
【0236】
図51(a)は、「自然言語処理」というトピックに適合する記事を検索するための検索条件の例である。
【0237】
この例では、記事の本文中に「自然言語処理」、「NL」、「機械翻訳」、 「かな漢字変換」という言語表現が出現するとその記事の得点が高くなる。
【0238】
また、「自然言語」と「解析」という表現が同一の文中に出現すると、その記事の得点が高くなる。
【0239】
この他、記事を検索するための様々な条件が記されているものとする。
【0240】
図51(b)は、図51(a)の検索条件を用いて検索され、ユーザに提示された記事の例である。この記事は「本文中に自然言語処理という言語表現を含む」という検索条件を満たしているので、記事中の「自然言語処理」という表現が強調表示されている。ここで、強調表示されている「自然言語処理」という表現を含む文の辺りを読んでみると、「このソフトウェアは、自然言語処理は用いずに、簡単な文字列マッチングにより検索を行う。」と書いてあるので、実際には自然言語処理に関する記事ではないことがすぐにわかる。
【0241】
ユーザはこの時点でこの記事を読む必要がないと判断できるので、有用そうな記事のみを読んで情報収集を行ったり、効率的にレレバンス・フィードバックを行ったりできる。
【0242】
図52も、図51と同様に、記事が有用でないことを迅速に判断する例である。
【0243】
この例での検索対象は英文テキストであり、「artificial intelligence(人工知能)」というトピックの検索条件が図52(a)である。
【0244】
ここでは、「artificial」、「intelligence」などの単語を含む記事の得点が高くなるようにしている。
【0245】
図52(b)は、図52(a)の検索条件を用いて検索されユーザに提示された記事の例であり、「artificial」という語が強調表示されている。
図51と同様に、強調表示された語の周辺のみを拾い読みすることにより、この記事は「artificial hand(義手)」に関するものであって 「artificial intelligence」とは無関係であるということが瞬時にしてわかる。
【0246】
図51、52が有用でない記事の表示例であるのに対し、図53はユーザにとって有用である記事の表示例である。
【0247】
図53(a)は、「パソコン新製品」というトピックに適合する記事を検索するための検索条件であり、記事に出現する単語として「ノートパソコン」、「ラップトップ」、「デスクトップ」などのパソコンの種類を表す表現や、「○○社」、「△△社」など、パソコンメーカーの名前などが指定されている。
【0248】
図53(b)は、図53(a)のような検索条件により検索を行った結果得られ、ユーザに提示された記事の表示例である。
【0249】
「△△社」が強調表示されているので、この記事で紹介されているパソコンのメーカーは○○社などのものではなく△△社のものであることがひと目でわかる。
【0250】
同様に、「ノートパソコン」が強調表示されているので、発売したパソコンの種類はラップトップやデスクトップなどではなくノートパソコンであることがひと目でわかる。このように、提示されている記事がユーザにとって有用である場合にも、記事の内容を把握することが容易になると考えられる。
【0251】
図50において、トピック検索条件と、そのうち記事が満足した検索条件をユーザに提示する例を示したが、これらの表示方法の例を説明する。
【0252】
図54は、「半導体貿易」というトピックに適合する文書を検索するための検索条件の具体例である。
【0253】
一行目の条件は、通常の文書検索で用いられるブール式の例であり、「半導体」「貿易」などの言語表現がANDやORなどの演算子で結合されている。
【0254】
2行目の条件は、「半導体」と「貿易」という言語表現が同一文中に出現するという条件を表している。
【0255】
また、例えば4行目の条件は、記事の記事見出し文字列の中に「半導体」、 「メモリー」、「IC」などの言語表現が出現するという条件を表している。
【0256】
図54のような検索条件により検索されユーザに提示された図50のような記事には、例えば図55のような情報を付加して表示する。
【0257】
この例では、現在表示中の記事は「半導体貿易」というトピックに適合したものであることが明示されており、図54に示した「半導体貿易」のトピック検索条件がそのままユーザに提示されている。
【0258】
そして、その下には、実際に記事が満足した条件が列挙されている。例えば、図50の第1文には「半導体」と「調達」という言語表現が出現しているので、図55の「記事1が満足した検索条件」のところには、満足された条件である 「第1文:半導体(1回)、調達(1回)」が表示されている。
【0259】
ここで、「(1回)」は出現回数を表す。
【0260】
また、トピック検索条件の「単語:」という行に記された言語表現のうち、記事中に実際に出現したものは「半導体」、「IC」、「調達」の3つであったことが「記事1が満足した検索条件」の「単語:」という行に表示されている。
【0261】
同時に、これらの出現した位置や、出現回数などの情報が表示されている。
【0262】
さらに、トピック検索条件の1行目の「(半導体ORメモリー)AND(貿易OR調達)」というブール式は、図50の記事中に「半導体」と「調達」という表現が出現しているために満足されているので、「記事1が満足した検索条件」ではこのブール式が表示され、さらにその中の「半導体」と「調達」という表現が強調表示されている。
【0263】
図56に、図55の変形例を示す。
【0264】
図55がトピック検索条件と記事が実際に満足した検索条件とを別々に表示しているのに対し、図56ではトピック検索条件の中に記事が満足した検索条件を埋め込む形で表示している。
【0265】
この例では、「半導体」や「調達」などの実際に満足された条件の語が強調表示されている。
【0266】
これにより、トピック検索条件のうち何パーセントくらいの条件が記事によって満たされているかがおおまかに把握できる。
【0267】
以上のように、表示中のトピックの検索条件と、そのうち記事が実際に満足している検索条件の情報を提示することにより、その記事の有用性を判断しながら拾い読みをしたり、内容の把握を容易にすることが可能であると考えられる。
【0268】
また、記事がどのような根拠から検索され提示されたのかがユーザにわかるようになるので、ユーザはよりきめ細かで効果的なレレバンス・フィードバック用情報を情報フィルタリングサービス側に返すことが可能になると考えられる。
【0269】
(実施形態2の変形例1)
次に、記事検索部24及び付加情報生成部26の他の構成例について説明する。
【0270】
まず、記事検索部24は、変数iに1を代入した後(ステップS151)、i番目のトピック(トピック1)の検索条件をトピック記憶部22から取り出す (ステップS152)。この後、記事検索部24は、変数jに1を代入した後 (ステップS153)、トピックi(トピック1)と到着記事j(到着記事1)との類似度を計算し、記事情報記憶部27に格納する(ステップS154)。この類似度計算は、通常の検索処理に相当するもので、記事情報記憶部18に格納されている記事の表現や検索インデックスが参照される。
【0271】
ここで、実施形態2の図42との違いは、各記事が満足した検索条件に関する情報を必ずしも記事情報部27に記憶する必要がないという点だけである。
【0272】
これは、実施形態2が、ユーザに提示する記事にその記事が何故検索されたかという情報を付加して提示するものであるのに対し、この変形例では、ユーザに提示する記事に、他のユーザがその記事をどのように読んでいるかという情報を付加して提示するものであるためである。
【0273】
次いで、記事検索部24は、変数jの値を+1更新した後、そのときのjの値が到着記事数よりも大きいか否かを調べ(ステップS155,S156)、大きくない場合には類似度計算されてない記事が残っていると認識し、jの値が到着記事数よりも大きくなるまで、ステップS154〜S156を繰り返す。到着した全ての記事に対してトピックiとの類似度の計算が終わると、記事検索部24は、到着した記事をユーザプロファイルとの類似度が高い順にソートし、記事のランキングを行う(ステップS157)。このランキングの結果は、記事情報記憶部27に記憶される。
【0274】
この後、記事検索部24は、変数iの値を+1更新した後、そのときのiの値が全トピック数よりも大きいか否かを調べ(ステップS158,S159)、大きくない場合には類似度計算されてないトピックが残っていると認識し、iの値が全トピック数よりも大きくなるまで、ステップS152〜S159を繰り返す。
【0275】
図58に、付加情報生成部26の処理の流れを示す。
【0276】
付加情報生成部26は、全てのユーザに対して以下の処理を行う。
【0277】
まず、付加情報生成部26は、変数iに1を代入した後(ステップS161)、ユーザi(ユーザ1)のユーザプロファイルをトピック記憶部22から取り出す(ステップS162)。次に、付加情報生成部26は、記事選出部25によって選出されたユーザ1に提示する記事と、これらの記事を受信する他のユーザに関する情報とを記事情報記憶部27から取り出す(ステップS163)。
【0278】
この後、付加情報生成部26は、記事選出部25によって選出された記事に、これらの記事を受信する他のユーザに関する情報を付加してユーザiに提示する(ステップS164)。そして、付加情報生成部26は、変数iの値を+1更新した後、そのときのiの値が全ユーザ数よりも大きいか否かを調べ(ステップS165,S166)、大きくない場合には付加情報が生成されてないユーザが残っていると認識し、iの値が全ユーザ数よりも大きくなるまで、ステップS162〜S166を繰り返す。
【0279】
例えば、図59のように、どのユーザにどの記事を送信するかという情報が記事選出部25により格納されていたとする。
【0280】
この例では、例えばユーザ1には記事1、2を提示することが、ユーザ2には記事2、3、4を提示することが記されている。
【0281】
付加情報生成部26は、ユーザ1に記事1を提示する際に、記事1を受信する他のユーザであるユーザ3、4に関する情報を付加して提示する。例えば記事1の受信人数を提示する場合、ユーザ1、3、4の3人という情報を付加したり、ユーザ1を除いた2人という情報を付加したりする。
【0282】
同様に、ユーザ1に記事2を提示する際には、ユーザ2、ユーザ4に関する情報を付加して提示する。
【0283】
図60に、あるユーザのために選出された記事の記事見出しのリストに、記事を受信した他のユーザに関する情報を付加してそのユーザに提示した表示例を示す。
【0284】
この例では、情報フィルタリングサービスの全ユーザ数は4,000人となっている。
【0285】
そして、例えば記事番号1の記事を受信したユーザ数は250人だということがわかる。
【0286】
図61に、あるユーザのために選出された記事の要約文または抜粋文に記事を受信した他のユーザに関する情報を付加して提示した表示例を示す。
【0287】
図60と同様に受信ユーザ数の情報が示されている。
【0288】
図62に、記事を受信した他のユーザに関する情報を記事本文のヘッダ情報として付加しユーザに提示した例を示す。
【0289】
全4,000人のユーザ中、250人が表示中の記事を受信していることが明示されている。
【0290】
図63に図62の変形例を示す。
【0291】
この例では、記事の受信ユーザ数の内訳が表示されている。
【0292】
表示中の記事を受信した250人のうち150人が男性、100人が女性であり、200人が日本人、30人が米国人、20人がその他の国のユーザであることがわかる。
【0293】
さらに、250人のうち、180人は「半導体貿易」というトピックを選択しているユーザ、50人は「IC」というトピックを選択しているユーザ、20人は「半導体貿易」と「IC」の両方を選択しているユーザであることがわかる。この他、受信者の所属や年齢層など、プライバシー侵害にならない程度の統計情報を表示するようにしてもよい。
【0294】
以上の説明のように、現在表示中の記事を、他のどのようなユーザが何人受信しているかという情報がわかれば、その記事がどのくらい一般的な記事であるか、または特殊なユーザ層にだけ読まれる記事であるかがわかり、ユーザにとってどれくらい有用な記事であるかの判断材料となると考えられる。
【0295】
例えば、図60のような記事情報を受信したユーザが、6つの記事全てを読んでいる時間がない場合、とりあえず一般常識的な情報だけを収集しようとして、記事番号4の記事のように多くのユーザが読んでいる記事だけを読むといった使い方が考えられる。
【0296】
図64に、あるユーザや他のユーザが前回に行ったレレバンス・フィードバック情報を今回提示する記事情報に付加して提示する表示例を示す。
【0297】
この例では、今回到着した記事はb1〜b4の4件であり、ユーザはこれらの全てあるいは一部に対して有用性の判定を行い、レレバンス・フィードバックを行おうとしているものとする。
【0298】
例えば、ユーザが記事b1に対して「有用ではない」という判定を行い、この情報を情報フィルタリングセンタ1側に送信すれば、情報フィルタリングセンタ1側は記事b1のようなトピックの記事の優先度を下げるなどしてユーザプロファイルを修正し、次回からはユーザの要求に合致した記事がより多く提示されるようにすることが可能である。
【0299】
図64では、この有用性の判定の参考情報として、ユーザが前回あるいはそれ以前に行った有用性判定に関する情報と、他のユーザの有用性判定に関する情報が提示されている。
【0300】
この例では、ユーザが前回受信し、有用性判定を行った記事はa1〜a6の6件あり、例えばユーザは記事a1に対しては「有用である」、記事a3に対しては「不要である」という判定をしたことがわかる。
【0301】
一般に、人間による有用性の判定には一貫性がなく、同じような記事に対してもあるときは「有用である」とし、またあるときは「やや有用である」、というように違った判断をしてしまうことがあると考えられる。
【0302】
このように一貫性に欠ける判定情報をフィードバックしてユーザプロファイルを修正しても、よりよいフィルタリングが行われるようになる保証はない。
【0303】
この例のように、本人がこれまでに行ってきた有用性判定情報にアクセスを許すことにより、今回の有用性の判定の信頼性や効率を高めることができると考えられる。また、ユーザの要求が時とともに変化した場合でも、自分の過去のフィードバック結果を参照しながら意識的に有用性判定の方針を変えるといった使いかたも考えられる。
【0304】
また、図64では、本人の過去の判定情報に加えて、他のユーザの判定情報が表示されている。
【0305】
例えば、記事a1は、他の250人のユーザによっても受信され、有用性の判定が行われており、このうち100人が「有用である」と判定し、100人が「やや有用である」と判定し、50人が「不要である」と判定したことがわかる。
このように、他のユーザが過去に行った有用性判定の情報を参照して、自分のこれからの有用性判定の参考にしたり、また、自分が過去に行った有用性判定を直接訂正し、レレバンス・フィードバックを再度実行してもらうなどが可能となる。
【0306】
これによりより信頼性が高く効率のよいレレバンス・フィードバックが行えると考えられる。
【0307】
図64の変形例を図65に示す。
【0308】
図64ではユーザが「有用」「やや有用」「不要」という離散的な評価値により有用性を判定しているのに対し、図65では連続的な得点により判定している。
【0309】
「前回のrelevance feedback情報」の、他のユーザの判定情報のところには、他のユーザがつけた得点の平均値が表示されている。
【0310】
例えば、今回の記事b1の内容が、前回の記事a1の内容に似たものである場合、ユーザは、前回のa1に対する自分の判定が10点であったことから、今回のb1に対しても高得点を与えるといった使い方が考えられる。
【0311】
また、前回の記事a5の行を見ると、自分は1点という低い評価を行ったのに対して、他のユーザの平均値は7.4点と比較的高い値になっている。
【0312】
そこで、ユーザは、自分のa5に対する有用性の評価を撤回して、新たに評価値を付与しなおすといった使い方が考えられる。
【0313】
このように、実施形態2のシステムでは、提示されている記事がユーザの選択したトピックのうちいずれに適合したものであるかなど、提示されている記事がいかなる検索条件を満足したのかがユーザに明示されるため、何故その記事が提示されているかがユーザに分かりやすくなり、記事の有用性の判定が容易になる。したがって、既にユーザに送信された各記事がユーザにとって有用であったか否かなどの情報についてユーザからフィードバックを受け、その情報を反映して検索条件を修正するレレバンスフィードバック機能をより有効利用できるようになる。
【0314】
また、記事が選択された根拠の代わりに、提示されている記事が他のユーザによってどのように読まれているかをユーザに提示することによっても、他のユーザの判断を参考にしたレレバンス・フィードバックが可能になり、レレバンスフィードバックの有効利用を図ることができる。
【0315】
(実施形態3)
次に、この発明の情報フィルタリングシステムの第3の実施形態について説明する。このシステム全体の構成は、図1と同様であり、ユーザ毎にユーザプロファイルを保持しており、そのユーザプロファイルを利用して記事の検索が行われる。ここで、ユーザプロファイルとは、前述したように、ユーザの関心が高いトピックに適合する記事を検索するための検索条件のことをいう。
【0316】
図66には、実施形態3に係わる情報フィルタリングセンタ1の構成が示されている。情報フィルタリングセンタ1は、図示のように、ユーザプロファイル生成部31、トピック記憶部32、記事情報抽出部33、記事検索部34、記事選出部35、要約・抄録生成部36、および記事情報記憶部37から構成されている。これら構成要素のうち、破線で囲まれているユーザプロファイル生成部31、記事情報抽出部33、記事検索部34、記事選出部35、要約・抄録生成部36は、例えば図1の中央処理装置14によって実行されるソフトウェアによって実現でき、またトピック記憶部32および記事情報記憶部37は記憶装置5によって実現できる。
【0317】
ユーザプロファイル生成部31は、入力として個々のユーザの要求・興味を受けつける。ユーザの要求・興味は、「○○と××に関する記事が読みたい」といった自然言語や、興味のあるトピックに頻出するキーワードの集合や、それらに優先順位や重みをつけたもの、または通常の文書検索における検索式のようなもので表される。
【0318】
ユーザプロファイル生成部31は、これに対して単語抽出、同義語展開などの言語処理を行い、検索が可能となるような形式に変換してユーザプロファイルを作成する。ユーザプロファイルはユーザ毎にトピック記憶部32に記憶される。
また、ユーザプロファイル生成部31は、既にユーザに送信された各記事がユーザにとって有用であったか否かなどの情報についてユーザからフィードバックを受け、その情報を反映してトピック記憶部32の検索条件を修正するというレレバンスフィードバック機能も有している。
【0319】
図67に、キーワードとその重みで表現されたユーザプロファイルの例を示す。
【0320】
この例では、ユーザが半導体に関する記事に興味をもっているために「メモリー」などの関連用語が羅列されており、それぞれの用語に類似度計算に利用する重みが定義されている。。
【0321】
記事情報抽出部33は、入力として情報源から到着した記事を受けつけ、これに対して形態素解析、構文解析、書式解析などを行い、記事の情報源や日付、文字や単語その他の文書構成要素の頻度情報や出現位置、5W1H的な情報などの抽出を行う。そして、記事をこれらの抽出された情報の集合体として表現する。例えば、出現した単語の頻度を要素とするベクトルにより記事を表現したり、5W1Hのテンプレートに実現値を代入したものにより表現したりする。記事情報抽出部33はまた、記事検索を高速に実現するためのインデクシング処理も行う。記事情報抽出部33により抽出された記事情報は、記事情報記憶部37に記憶される。
【0322】
記事検索部34は、トピック記憶部32に記憶されている各トピックの検索条件と、記事情報抽出部33によって抽出された記事情報とを参照し、各トピックに適合する到着記事を検索する。これは、トピックと到着記事との類似度を算出することに相当する。この類似度は、検索の方式によって「トピックに適合する」「トピックに適合しない」などの離散値をとる場合もあるし、よく適合している記事ほど類似度の値が高くなるように連続値をとる場合もあるが、ここでは、より一般的である類似度が連続値をとる場合について説明する。この場合には、記事検索部34が各トピックについて行う処理は実施形態1、2と同様であり、まず、トピック記憶部32からトピックに適合する記事を検索するための検索条件を読み込む。次に、到着した記事の各々に対して、そのトピックとの類似度を計算する。この類似度計算は、通常の検索処理に相当するもので、記事情報記憶部に格納されている記事の表現や検索インデックスが参照される。記事の類似度、及びその記事が満足した検索条件の情報は記事情報記憶部37に記憶される。
到着した全ての記事に対して類似度の計算が終わると、すなわち、到着した全ての記事を検索対象とした検索処理が終わると、到着した記事はトピックとの類似度が高い順にソートされる。すなわち、記事のランキングが行われる。ランキングの結果も記事情報記憶部37に記憶される。
【0323】
記事選出部35は、記事検索部34により記事情報記憶部37に格納された各トピックの検索結果の中から、各ユーザに提示する記事を選出する。例えば、 「半導体貿易」、「低価格パソコン」、「人工知能」という3つのトピックを選択しているユーザに対しては、「半導体貿易」の検索結果、「低価格パソコン」の検索結果、「人工知能」の検索結果の3つを取り出し、これらのうち上位の記事の中からユーザに提示するものを選出する。
【0324】
図68に、本実施形態3における要約・抄録生成部36の処理の流れを示す。
要約・抄録生成部36は、各ユーザに対して以下の処理を行う。
【0325】
まず、要約・抄録生成部36は、変数iに1を代入し(ステップS171)、ユーザiのユーザプロファイルをトピック記憶部32から取り出す(ステップS172)。次に、要約・抄録生成部36は、ユーザiに提示する記事の集合と、各記事がユーザの選んだトピックのうちいずれに適合したかを示す情報とを記事情報記憶部37から取り出す。そして、要約・抄録生成部36は、変数jに1を代入し、ユーザに提示する記事jに対して、適合したトピックの情報を参照しながら、そのトピックに応じた長さの要約あるいは抄録を生成する(ステップS175)。
【0326】
ここで、要約とは、記事の主題を端的に表すために原文をもとに生成したテキストをいい、抄録とは、重要文など、記事の原文テキストの一部をそのまま抜きだしたものをいう。
【0327】
また、要約・抄録の「長さ」とは、原文に対する圧縮率、文数、段落数、文字数、あるいは提示するテキスト全体に占める割合などをいう。
【0328】
本実施形態3で用いる要約・抄録生成の方法は、長さを2段階以上に調節できるものであれば、どのような方法であってもよい。
【0329】
例えば、自然言語解析を用いた自動要約生成技術でもよいし、初めの一段落目のみ表示するかもしくは全文を表示するかという単純な方法でもよい。
【0330】
次に、要約・抄録生成部36は、現在のjの値がユーザiに提示する記事数よりも大きいか否かを調べ(ステップS176)、大きくないならば、要約・抄録生成処理を行っていない記事が残っていると判断し、jの値がユーザiに提示する記事数よりも大きくなるまでステップS175、S176を繰り返す。
【0331】
この後、要約・抄録生成部36は、ユーザiに該当記事の要約または抄録を提示し(ステップS177)、その後、現在のiの値が全ユーザ数よりも大きいか否かを調べる(ステップS178)。現在のiの値が全ユーザ数よりも大きくないならば、大きくなるまでステップS172〜S178の処理が繰り返される。
次に、記事の適合したトピックに応じた長さの要約・抄録を生成する手順を図を用いて説明する。
【0332】
図69は、あるユーザが選択したトピックと、それらの間の優先度の例を示す。
【0333】
この例では、ユーザはトピックA,B,C,Dの4トピックを選択しており、これらに関する記事を求めている。また、トピックA,B,C,Dの順で優先度が高くなっている。
【0334】
この優先度は、情報フィルタリングサービスセンタ1側が設定してもよいし、ユーザが指定してもよい。ここでは、ユーザが指定したものであるとすると、このユーザは、例えばトピックBに適合する記事よりもトピックAに適合する記事により興味があるということになる。
【0335】
図70に、図69のトピックを選択しているユーザに提示する記事のリストとそれらに適合したトピックの例を示す。
【0336】
この例では、ユーザのために記事1〜4の4つの記事が選出されている。記事1、2はトピックAに、記事3はトピックBに、記事4はトピックCおよびDに適合したものである。
【0337】
図71に、図70のような場合にユーザに提示する記事情報の概念図を示す。
記事1、2は、ユーザの選んだトピックのうちもっとも優先度が高いトピックAに適合したものであるため、比較的長い要約あるいは抄録が提示されている。これに対して、記事4は、ユーザの選んだトピックのうちもっとも優先度が低いトピックC,Dに適合したものであるため、非常に短い要約あるいは抄録が提示されている。
【0338】
このように、トピックの優先度に応じて段階的に抄録の長さを変化させる。
【0339】
なお、図71では、要約あるいは抄録の長さを図中の面積であらわしているが、優先度の最も高いトピックに適合した記事の要約・抄録が必ずしも最も長くなるとは限らない。
【0340】
例えば、抄録の長さとして、原文の文数をもとにした圧縮率を採用するとし、記事1の原文が5文、記事4の原文が20文であったとする。
【0341】
このとき、記事1は優先度の高いトピックAの記事なので圧縮率100%とし、記事4は優先度の低いトピックC,Dの記事なので圧縮率50%として表示したとすると、記事1の抄録は原文のままなので5文となり、一方、記事4の抄録は10文となる。
【0342】
以上のような機能により、ユーザはトピック毎に異なる詳細度の記事を読むことができる。
【0343】
ユーザが選択したトピック間に明確な優先度がある場合には有効であると考えられる。
【0344】
(レレバンス・フィードバック)
文書検索における技術に、検索結果の文書に対してユーザに有用性の判定を行ってもらい、その結果を利用して検索式中の単語の重み値を変更することにより、ユーザの求めるものにより近い文書を検索するレレバンス・フィードバックがある。
【0345】
情報フィルタリングの分野でもこの機能は実現されつつある。
【0346】
本実施例においては、レレバンス・フィードバックの際に得られる有用性判定情報を、要約・抄録の長さに反映させることが可能である。
【0347】
例えば、既に説明した図71のような情報提示に対して、ユーザが「記事3が非常に有用であった」という情報を返したとする。
【0348】
同時に、図70で示したトピック間の優先度が具体的には図72のように重要度の値の大小で定義されていたとする。
【0349】
このとき、ユーザによって特に有用であるとされた記事3は、トピックBに適合した記事であるので、何らかの計算によりトピックBの重要度の値をより大きくし、今度はトピックBに適合する記事の長さをより長くして提示することが有用である。
【0350】
図73に、このようなフィードバックを行った場合に、次回のフィルタリングでユーザに提示される記事情報の例を示す。
【0351】
図71ではトピックAの優先度が最も高かったが、この図ではフィードバックによりトピックBの優先度がもっとも高くなっており、トピックBに適合した記事1′の要約あるいは抄録が最も長くなっている。
【0352】
(実施形態3の変形例1)
次に、要約・抄録生成部36の他の構成例について説明する。
【0353】
図74に、本変形例における要約・抄録生成部36の処理の流れを示す。
【0354】
要約・抄録生成部36は、各ユーザに対して以下の処理を行う。
【0355】
まず、ユーザiのユーザプロファイルをトピック記憶部32から取り出す(ステップS181,S182)。次に、ユーザiに提示する記事の集合と、各記事に予め付加されている日付、新聞社、朝刊/夕刊、見出しの大きさや行数、何面に掲載されたか、などの属性情報とを記事情報記憶部37から取り出す(ステップS183)。そして、ユーザiに提示する各記事に対して、属性情報を参照しながら、それに応じた長さの要約あるいは抄録を生成する(ステップS185)。ここで、「要約」、「抄録」、および「長さ」の意味は、実施形態3と同様である。また、以下の処理も実施形態3と同様である。
【0356】
以下に、記事の属性に応じた長さの要約・抄録を生成する手順を図を用いて説明する。
【0357】
図75に、あるユーザに提示するために記事選出部35により選出された記事の例を示す。この例では、記事に予め付加されている属性として、発行日などの日付の情報を採用している。
【0358】
記事1〜4の日付は、それぞれ5月26日、23日、23日、20日となっている。
【0359】
例えば一週間毎に情報をまとめて配信するような形態のサービスでは、このように、記事には新しいものと古いものが混在している可能性がある。
【0360】
図76に、図75のような場合にユーザに提示する記事情報の概念図を示す。この例では、新しい記事ほど要約あるいは抄録の長さを長くして表示している。
【0361】
例えば、5月26日付けの記事1は詳しく表示されているが、5月20日付けの記事4は簡単に表示されている。
【0362】
同様に、記事が情報フィルタリングセンターに到着した時間や朝刊/夕刊の情報などに応じて要約あるいは抄録の長さを変えてもよい。
【0363】
また、時間的属性として曜日を採用し、例えば「月曜日の記事は他の曜日の記事よりも詳しく表示する」などといった処理も可能である。
【0364】
図77に、属性として新聞社が採用されている場合の、あるユーザに提示するために選出された記事の例を示す。
【0365】
この例では、記事1は○○新聞から到着したもの、記事2、3は△△新聞から到着したもの、記事4は××新聞から到着したものである。
【0366】
ここで、ユーザあるいは情報フィルタリングサービス側が、○○新聞、△△新聞、××新聞の順で優先度を定めていたとすると、ユーザには例えば図78のような情報が提示される。
【0367】
記事1はもっとも優先度の高い○○新聞の記事なので、長い要約あるいは抄録が提示されており、一方記事4はもっとも優先度の低い××新聞の記事なので、短い要約あるいは抄録が提示されている。
【0368】
ここでは新聞社で説明したが、何面の記事か、位置、社会面などの分類など、各記事の発信者によって予め付与されている様々な属性に応じて要約あるいは抄録の長さを変化させることが可能である。
【0369】
(レレバンス・フィードバック)
本変形例においても実施形態3と同様に、レレバンス・フィードバックの際に得られる有用性判定情報を、要約・抄録の長さに反映させることが可能である。例えば、既に説明した図78のような情報提示に対して、ユーザが「記事2、3が非常に有用であった」という情報を返したとする。
【0370】
記事2、3は共に「△△新聞」という属性をもつ記事であるので、何らかの計算により△△新聞の重要度の値をより大きくし、今度は△△新聞に適合する記事の長さをより長くして提示することが有用であるかも知れない。
【0371】
図79に、このようなフィードバックを行った場合に、次回のフィルタリングでユーザに提示される記事情報の例を示す。
【0372】
図78では○○新聞の優先度が最も高かったが、この図ではフィードバックにより△△新聞の優先度がもっとも高くなっており、△△新聞という属性をもつ記事1′の要約あるいは抄録が最も長くなっている。
【0373】
以上のように、実施形態3のシステムでは、記事の種類(その記事が満足したトピックなどの検索条件、またはその記事の発行日時などの記事そのものの属性)に応じた長さの要約あるいは抄録が作成されてそれがユーザに提示されるため、ユーザに提示されるテキストのうち、ユーザにとって有用であるテキスト情報の占める割合が高くなる。これにより、効率的な情報収集が可能になる。
【0374】
(実施形態4)
次に、この発明の第4の実施形態に係る情報フィルタリングシステムを説明する。全体的なシステム構成は実施形態1と同じであるので、ここでは、実施形態1との差異について説明する。
【0375】
図3の記事間類似度計算部16は図14で示したような記事間類似度計算処理を行うが、ある記事iと記事jとの記事間類似度計算には、次の計算式が使用される。
【0376】
【数1】
類似度計算式の変形例として、例えば以下の式があげられる。
【0377】
【数2】
上記の類似度計算式の変形例の中で、xi とxj はそれぞれ記事iと記事jに含まれる単語の頻度ベクトルである。
【0378】
上記の類似度計算では、記事中の全単語を対象にしているが、これを数種の品詞の単語に限定することも可能である。例えば、品詞を名詞と動詞だけに限定して類似度を計算することにしても構わない。
【0379】
また、記事間の類似度計算においては、見出しや一文目など書式上のフィールドごとに類似度を求め、その類似度の荷重平均を全体の記事間類似度として定義することもできる。この場合、式1に対応する類似度としては、以下の通りになる。
【0380】
【数3】
ここで、Cfiは記事iのフィールドfに含まれる単語の集合、Cfjは記事jのフィールドfに含まれる単語の集合である。
【0381】
フィールドとしては、見出しや一文目、一段落目など、文書の先頭文字の空白やインデントの情報、句点などの存在によって検出することができる。式2から8についても同様の変形が可能である。
【0382】
また、上記のような数値的な類似度計算を情報をした後、構文情報などのチェックの過程を設け、ある閾値以上の類似度を持つ記事間であっても、類似記事としないとするように変形が可能である。例えば、新聞記事においては、一文目の主語(具体的には助詞「は」に前接している固有名詞)が重要な役割を果たす。この主語が記事同士異なる場合、類似記事としないようにする。
【0383】
次に、図80を参照して、図3の提示情報生成部17による提示情報生成処理について説明する。
【0384】
実施形態1では、重複記事の提示を回避するために、重複記事集合から、代表としてユーザに提示する記事を選択する場合について説明したが、ここでは、関連記事同士がグループ化あるいは関連づけされてユーザに提示される。
【0385】
すなわち、まず、記事情報記憶部18から記事選出部15により選択された記事の情報が読み込まれる(ステップS201)。次いで、上述の式を用いることにより記事間類似度計算部16によって、選択された記事間の類似度計算が行われ、互いに類似度の高い記事の集合が求められる(ステップS202)。そして、関連記事同士のグループ化、関連づけ、あるいは特定の記事の選択といった出力制御が行われ、それがユーザに提示される(ステップS203)。
【0386】
ここで、グループ化とは、関連記事同士が並んでユーザに提示されるように記事の出力リストを揃えることを意味する。また、関連づけとしては、例えば、ある記事とそれに関連する記事とを連結するリンク情報を用いてハイパーテキストを生成し、それをユーザに提示することなどがあげられる。また、特定記事選択では、関連記事の中から1つまたは幾つか記事が選択し、選択された記事だけがユーザに提示される。
【0387】
この様なグループ化、関連づけなどを行うことにより、関連のあるテキスト記事が順不同でバラバラにユーザに出力されるといった事態を防止できる。よって、利用者は、関連記事を効率よく整理して読むことが可能となる。
【0388】
(実施形態5)
次に、この発明の第5の実施形態に係る情報フィルタリングシステムについて、実施形態1との差異を中心に説明する。実施形態5の構成を図81に示す。実施形態との相違は、利用者に出力した記事を格納する送付記事記憶部19を有することにある。
【0389】
送付記事記憶部19には、記事を提供した日付情報と共に利用者に提供された記事が、利用者と対応づけて記憶される。これは、利用者への記事の提供時に行われるものである。
【0390】
図82に提示情報生成部の処理の流れを図示する。まず始めに、記事選択部15により選出された記事の情報を読み込む(ステップS211)。そして、記事情報記憶部18に格納されている選出された当日記事と送付記事記憶部19に格納されている前日以前の記事とを参照し、記事間類似度計算部16により前日以前の記事をも対象とした記事間類似度計算が行われて、重複記事集合が求められる(ステップS212)。
【0391】
この場合、重複記事集合φk は、ある記事jを核にして、以下のように定義することができる。
【0392】
【数4】
すなわち、具体的には、記事選出部15により選出された記事を上位からスキャンし、その記事jに対して類似度が一定の閾値以上に入る記事を求め、その記事を重複記事とし重複記事集合を求めるものである。
【0393】
この後、前述したような関連する記事同士のグループ化、関連づけ、あるいは特定の記事の選択といった出力制御が行われ、それがユーザにフィルタリング結果として提示される(ステップS213)。
【0394】
図83には、ユーザに出力するフィルタリング結果の出力処理の流れが示されている。選出されている上位の記事から順に、重複記事集合を持つか否かを判定し(ステップS221,S222)、重複記事を持たない場合は、その記事(例えばタイトルと新聞社の情報など)を出力する(ステップS223)。一方、重複記事を持つ場合、その重複記事集合が当日記事のみからなるか否かを調べ(ステップS224)、当日記事のみからなる場合はマーク2を、それ以前の記事も含む場合はマーク1を出力するとともに重複記事集合を出力する(ステップS225,S226,S227)。選出されている残りの記事についても、ステップS222〜S227の処理が同様に行われる(ステップS228,S229)。重複記事集合を出力する際には、タイトルをフラットなテキストとして出力する場合は、重複記事を並べて出力することになる(グループ化)。図84はその出力例である。直線で囲まれている記事同士が、重複記事であることを意味している。また、□は当日の記事のみからなる重複記事集合であり、△はそれ以前の記事を含むことを意味するマークである。「8/4」などは記事の日付である。一方、ハイパーテキストとして出力できる場合、代表記事だけを一番上の階層に表示し、その代表記事に他の重複記事を関連づけしておくことができる。このハイパーテキストの表示例を図85〜図87に示す。
【0395】
図85において、□は当日の重複記事集合を、△はそれ以前の重複記事集合を持ったことを意味しており、それぞれその代表記事のタイトルが表示されている。図85に示した最上位階層の記事リストを出力する際に、それぞれのマークには、図86や図87に示す重複記事集合の情報へのリンク情報を付与しておくことになる。これは、HTML(Hyper Text Markup Language)の記法を用いること等、公知の技術によって実現可能である。この場合、図85のマーク□を利用者が画面上で選択すると、図86の重複記事情報が表示され、また図85のマーク△を利用者が画面上で選択すると、図87の重複記事情報が表示されることになる。
【0396】
このように、当日の記事だけからなる記事グループか、それ以前の日の記事も含まれているのかを区別するための情報を付加して送ることにより、利用者は、関連記事をさらに効率よく整理して読むことが可能となる。
【0397】
なお、以上の実施形態1〜5およびそれらの変形例は必要に応じて種々組み合わせて利用することができる。また、以上の説明は、通信網を介してフィルタリング結果をセンタからユーザに送るネットワークシステムとして実現した例について述べたが、この発明の情報フィルタリングシステムの中枢をなすセンタの機能は個人の計算機上で構築することもできる。この場合、ユーザ端末とフィルタリングシステムが一体となった形態となり、ユーザ端末とフィルタリングシステム間には通信網は存在しないことになる。
【0398】
【発明の効果】
以上説明したように、本発明によれば、情報フィルタリングによってユーザに提示される記事同士の関連性がユーザにとって明確になり、記事内容の理解が容易になる。特に時間の経過と共に状況が変わっていくような出来事についてその経緯を把握することや、連載記事など複数の記事にわたる情報を把握することが容易になり、フィルタリングシステムの性能向上を図ることができる。また、複数の情報源から得られた同一内容に関する記事が、重複してユーザに提示されることが自動的に回避できる。
【0399】
また、提示されている記事がユーザの選択したトピックのうちいずれに適合したものであるかがユーザに明示されるため、ユーザが記事内容を理解することが容易になる。また、提示されている記事が他のユーザによってどのように読まれているかが明示されるため、ユーザは一般的に読まれている記事や一部のユーザに読まれている記事などを識別することができる。さらに、過去に提示された記事に対してユーザが行った有用性の判定、及び他のユーザが行った有用性の判定情報へのユーザのアクセスを許すことにより、一貫性を保ったレレバンス・フィードバックや他のユーザの判断を参考にしたレレバンス・フィードバック、さらには過去に行った有用性判定を修正してレレバンス・フィードバックをかけ直すことが可能となる。
【0400】
また、さらに、記事に適合したトピックに応じた長さの要約あるいは抄録や、記事の持つ属性に応じた長さの要約あるいは抄録がユーザに提示されるため、ユーザに提示されるテキストのうち、ユーザにとって有用であるテキスト情報の占める割合を高くでき、効率的な情報収集が可能になる。
【0401】
また、関連する記事同士がグループ化あるいは関連づけされて利用者に提供されるため、利用者の手間を大幅に軽減することができる。さらに、当日配信された記事間のみでなく、前日以前にユーザに出力した記事との間の類似度も求め、出力記事には、当日の記事だけからなる記事グループか、それ以前の日の記事も含まれているのかを区別するための情報を付加することにより、利用者は、関連記事をさらに効率よく整理して読むことが可能となる。
【図面の簡単な説明】
【図1】この発明の各実施形態が適用される情報フィルタリングシステム全体のシステム構成を示すブロック図。
【図2】図1の情報フィルタリングシステムの運用形態を概念的に示す図。
【図3】この発明の第1の実施形態に係わる情報フィルタリングシステムに設けられる情報フィルタリングセンタの構成を示すブロック図。
【図4】同第1実施形態のシステムにおけるユーザプロファイル生成処理の流れを示すフローチャート。
【図5】同第1実施形態のシステムにおける記事情報抽出処理の流れを示すフローチャート。
【図6】同第1実施形態のシステムにおける記事の表現例を示す図。
【図7】同第1実施形態のシステムにおける記事の他の表現例を示す図。
【図8】同第1実施形態のシステムにおける記事検索処理の流れを示すフローチャート。
【図9】同第1実施形態のシステムにおいて記事検索処理によってランキングされた到着記事の様子を示す図。
【図10】同第1実施形態のシステムにおける記事選出処理の流れを示すフローチャート。
【図11】同第1実施形態のシステムにおいて図9のようなランキング結果が得られている場合にその上位10件を選出した例を示す図。
【図12】同第1実施形態のシステムにおいて図8のようなランキング結果が得られている場合にユーザプロファイルとの類似度が0.86以上の記事を選出した例を示す図。
【図13】同第1実施形態のシステムにおいて一人のユーザに対して複数の検索及びランキングが行われる場合にこれら複数のランキング結果の上位部分をマージしてユーザに提示する記事を選出する様子を示す図。
【図14】同第1実施形態のシステムにおける記事間類似度計算処理の流れを示すフローチャート。
【図15】同第1実施形態のシステムにおいて異なる情報源から到着した記事の例を示す図。
【図16】同第1実施形態のシステムにおける提示情報生成処理の流れを示すフローチャート。
【図17】同第1実施形態のシステムにおいて一件のプレスリリースから重複記事が派生する様子を示す図。
【図18】同第1実施形態のシステムにおいて一件の出来事から重複記事が作成される様子を示す図。
【図19】同第1実施形態のシステムにおいて図15の4つの記事に対して記事間類似度計算を行った結果得られる重複記事集合の例を示す図。
【図20】同第1実施形態のシステムにおいて排除された重複記事に関する情報を記事の本文情報に付加して提示する例を示す図。
【図21】同第1実施形態のシステムにおける関連記事情報の表示形態を示す図。
【図22】同第1実施形態のシステムにおける関連記事情報の他の表示形態を示す図。
【図23】同第1実施形態のシステムにおける関連記事情報のさらに他の表示形態を示す図。
【図24】同第1実施形態のシステムにおける関連記事情報の表示画面切り替え処理の流れを示すフローチャート。
【図25】同第1実施形態のシステムにおける関連記事情報の他の表示画面切り替え処理の流れを示すフローチャート。
【図26】同第1実施形態のシステムにおいて図20のような記事の重複が起こっている場合にユーザに提示する記事の一覧表を重複記事情報とともに表示した例を示す図。
【図27】同第1実施形態のシステムにおける記事間類似度計算処理の流れを示すフローチャート。
【図28】同第1実施形態のシステムにおいて今回記事選出部により選出された記事の集合と前回ユーザに提示された記事の集合の例を示す図。
【図29】同第1実施形態のシステムにおける提示情報生成処理の流れを示すフローチャート。
【図30】同第1実施形態のシステムにおいて今回の記事の本文情報に前回までの関連記事の情報を付加して提示する例を示す図。
【図31】同第1実施形態のシステムにおいて今回の記事の本文情報に前回までの関連記事の情報を付加して提示する他の例を示す図。
【図32】同第1実施形態のシステムにおいて今回の記事の本文情報中に前回までの関連記事の情報を埋め込んで提示する例を示す図。
【図33】同第1実施形態のシステムにおいて図32の第一文が選択された場合にその文と関係の深い前回までの記事のリストが表示される様子を示す図。
【図34】同第1実施形態のシステムにおいて図33の「○○沖で地震 マグニチュード4」という関連記事を選択した場合にその記事の本文を表示した例を示す図。
【図35】同第1実施形態のシステムにおける記事間類似度計算処理の流れの他の例を示すフローチャート。
【図36】同第1実施形態のシステムにおける提示情報生成処理の流れの他の例を示す図。
【図37】同第1実施形態のシステムにおいて今回の記事の本文情報を今回の他の関連記事の情報とともに提示する他の例を示す図。
【図38】同第1実施形態のシステムにおいて今回の記事の本文情報を今回の他の関連記事の情報とともに提示する他の例を示す図。
【図39】同第1実施形態のシステムにおいて記事間類似度を記事の提示順序に反映させる例を示す図。
【図40】この発明の第2の実施形態に係わる情報フィルタリングシステムで使用されるユーザプロファイルを概念的を示す図。
【図41】同第2実施形態のシステムに設けられる情報フィルタリングセンタの構成を示すブロック図。
【図42】同第2実施形態のシステムにおける記事検索処理の流れを示すフローチャート。
【図43】同第2実施形態のシステムにおいてランキングされた到着記事を概念的に示す図。
【図44】同第2実施形態のシステムにおける記事選出処理の流れを示すフローチャート。
【図45】同第2実施形態のシステムにおけるトピックとその検索結果の例を示す図。
【図46】同第2実施形態のシステムにおける付加情報生成処理の流れを示すフローチャート。
【図47】同第2実施形態のシステムにおいてユーザのために選出された記事の記事見出しのリストに各記事が適合したトピックの情報を付加してそのユーザに提示する様子を示す図。
【図48】同第2実施形態のシステムにおいてユーザに対して各トピックに適合した記事の件数情報を提示する様子を示す図。
【図49】同第2実施形態のシステムにおいてユーザのために選出された記事の要約文・抜粋文あるいは本文をトピック別にまとめてそのユーザに提示する様子を示す図。
【図50】同第2実施形態のシステムにおいて記事が満足した検索条件に関する情報を記事本文のヘッダ情報として付加してユーザに提示する様子を示す図。
【図51】同第2実施形態のシステムにおいて適合した検索条件を記事中に強調表示する様子を示す図。
【図52】同第2実施形態のシステムにおいて適合した検索条件を記事中に強調表示する他の列を示す図。
【図53】同第2実施形態のシステムにおいて適合した検索条件を記事中に強調表示するさらに他の列を示す図。
【図54】同第2実施形態のシステムにおいてあるトピックに適合する文書を検索するための検索条件の具体例を示す図。
【図55】同第2実施形態のシステムにおいて図54の検索条件により検索されユーザに提示された記事に対して付加する検索条件の表示例を示す図。
【図56】同第2実施形態のシステムにおいて図54の検索条件により検索されユーザに提示された記事に対して付加する検索条件の他の表示例を示す図。
【図57】同第2実施形態のシステムおける記事検索処理の他の例を示すフローチャート。
【図58】同第2実施形態のシステムおける付加情報生成処理の他の例を示すフローチャート。
【図59】同第2実施形態のシステムにおいて複数のユーザそれぞれとそれらユーザに送信する記事との関係を示す図。
【図60】同第2実施形態のシステムにおいてあるユーザに対して選出された記事の記事見出しのリストに、記事を受信した他のユーザに関する情報を付加して提示する様子を示す図。
【図61】同第2実施形態のシステムにおいてあるユーザに対して選出された記事の要約文または抜粋文に記事を受信した他のユーザに関する情報を付加して提示する様子を示す図。
【図62】同第2実施形態のシステムにおいて記事を受信した他のユーザに関する情報を記事本文のヘッダ情報として付加しユーザに提示する様子を示す図。
【図63】同第2実施形態のシステムにおいて記事を受信した他のユーザに関する情報を記事本文のヘッダ情報として付加しユーザに提示する他の例を示す図。
【図64】同第2実施形態のシステムにおいてあるユーザや他のユーザが前回に行ったレレバンス・フィードバック情報を今回提示する記事情報に付加して提示する表示例を示す図。
【図65】同第2実施形態のシステムにおいてあるユーザや他のユーザが前回に行ったレレバンス・フィードバック情報を今回提示する記事情報に付加して提示する他の表示例を示す図。
【図66】この発明の第3の実施形態に係わる情報フィルタリングシステムに設けられる情報フィルタリングセンタの構成を示すブロック図。
【図67】同第3実施形態のシステムにおけるキーワードとその重みで表現されたユーザプロファイルの例を示す図。
【図68】同第3実施形態のシステムにおける要約・抄録生成処理の流れを示すフローチャート。
【図69】同第3実施形態のシステムにおいてユーザが選択したトピックとそれらの間の優先度の例を示す図。
【図70】同第3実施形態のシステムにおいて図69のトピックを選択しているユーザに提示する記事のリストとそれらに適合したトピックの例を示す図。
【図71】同第3実施形態のシステムにおいてユーザに提示される記事情報を概念的に示す図。
【図72】同第3実施形態のシステムにおいてユーザが選択したトピックとそれらの間の優先度の例を示す図。
【図73】同第3実施形態のシステムにおいてフィードバックを行った場合に次回のフィルタリングでユーザに提示される記事情報の例を示す図。
【図74】同第3実施形態のシステムにおける要約・抄録生成処理の流れの他の例を示すフローチャート。
【図75】同第3実施形態のシステムにおいて記事選出部により選出された記事の例を示す図。
【図76】同第3実施形態のシステムにおいてユーザに提示される記事情報の他の例を概念的に示す図。
【図77】同第3実施形態のシステムにおいて属性として新聞社が採用されている場合にあるユーザに提示するために選出された記事の例を示す図。
【図78】同第3実施形態のシステムにおいて図77の場合にユーザに提示される記事情報を概念的に示す図。
【図79】同第3実施形態のシステムにおいてフィードバックを行った場合に次回のフィルタリングでユーザに提示される記事情報の他の例を示す図。
【図80】この発明の第4の実施形態に係わる情報フィルタリングシステムにおける提示情報生成処理の流れを示すフローチャート。
【図81】この発明の第5の実施形態に係わる情報フィルタリングシステムに設けられた情報フィルタリングセンタの構成を示すブロック図。
【図82】同第5実施形態のシステムにおける提示情報生成処理の流れを示すフローチャート。
【図83】同第5実施形態のシステムにおける重複記事集合の出力処理の流れを示すフローチャート。
【図84】同第5実施形態のシステムにおける利用者への記事提示例を示す図。
【図85】同第5実施形態のシステムにおけるハイパーテキストによる利用者への記事提示例を示す図。
【図86】同第5実施形態のシステムにおけるハイパーテキストによる利用者への記事提示例を示す図。
【図87】同第5実施形態のシステムにおけるハイパーテキストによる利用者への記事提示例を示す図。
【符号の説明】
1…情報フィルタリングセンタ、2…情報源、3…ユーザ端末、10…ユーザプロファイル、11,21,31…ユーザプロファイル生成部、12…ユーザプロファイル記憶部、13,23,33…記事情報抽出部、14,24,34…記事検索部、15,25,35…記事選出部、16…記事間類似度計算部、17…提示情報生成部、19…送付記事記憶部、22,32…トピック記憶部、26…付加情報生成部、36…要約・抄録生成部。
Claims (1)
- 複数の情報源からテキストやイメージなどの記事の配信を受け、それら配信された記事の中から所定の記事を選出してユーザに提示する情報フィルタリング装置において、
ユーザ毎に予め指定された検索条件を保持する手段と、
配信された記事を検索し、ユーザ毎に検索条件に合致する記事を選定する手段と、
前記選定された記事群の中で、異なる情報源から得られた記事同士を対象として、それら記事間において重複する単語の比率を示す記事間類似度を算出する手段と、
前記算出された記事間類似度に基づいて、互いに類似度が高く、かつ情報源が異なる記事の集合を、重複記事の集合として決定する手段と、
前記決定された重複記事の集合の中から一部の記事をユーザに提示するための代表記事として選択する手段と、
前記決定された前記重複記事の集合の中で選択されなかった記事に関する情報を前記選択された記事の関連記事情報として前記選択された記事に付加してユーザに提示する手段とを具備することを特徴とする情報フィルタリング装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33579095A JP3810463B2 (ja) | 1995-07-31 | 1995-11-30 | 情報フィルタリング装置 |
US08/695,214 US5907836A (en) | 1995-07-31 | 1996-07-31 | Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21293995 | 1995-07-31 | ||
JP7-212939 | 1995-07-31 | ||
JP33579095A JP3810463B2 (ja) | 1995-07-31 | 1995-11-30 | 情報フィルタリング装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09101990A JPH09101990A (ja) | 1997-04-15 |
JP3810463B2 true JP3810463B2 (ja) | 2006-08-16 |
Family
ID=26519516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP33579095A Expired - Fee Related JP3810463B2 (ja) | 1995-07-31 | 1995-11-30 | 情報フィルタリング装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3810463B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013039605A1 (en) * | 2011-09-15 | 2013-03-21 | Yahoo! Inc. | Method and system for providing recommended content for user generated content on an article |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09212505A (ja) * | 1996-01-30 | 1997-08-15 | Canon Inc | 文書処理装置および方法 |
JPH10260991A (ja) * | 1997-01-14 | 1998-09-29 | Seiko Epson Corp | 情報検索方法および情報検索装置 |
JP3203203B2 (ja) * | 1997-03-31 | 2001-08-27 | 松下技研株式会社 | 情報フィルタ装置及び情報フィルタリング方法 |
JPH1117569A (ja) * | 1997-06-25 | 1999-01-22 | Kokusai Electric Co Ltd | 情報表示システム |
US6119117A (en) * | 1997-07-15 | 2000-09-12 | Kabushiki Kaisha Toshiba | Document management method, document retrieval method, and document retrieval apparatus |
JP3521174B2 (ja) * | 1997-08-08 | 2004-04-19 | 株式会社東芝 | 情報フィルタリング装置および同装置に適用される関連情報提供方法 |
JP2000200339A (ja) * | 1998-12-28 | 2000-07-18 | Casio Comput Co Ltd | 集合図表示制御装置及び記憶媒体 |
JP3513003B2 (ja) * | 1998-03-18 | 2004-03-31 | 富士通株式会社 | 情報提供装置、及び情報提供方法 |
JP2000011003A (ja) * | 1998-06-26 | 2000-01-14 | Nippon Telegr & Teleph Corp <Ntt> | 公開文書要約装置およびそのためのプログラムを記録した記録媒体 |
JP2000067067A (ja) * | 1998-08-20 | 2000-03-03 | Sky Com:Kk | 配信サーバ及び配信システム |
JP3759321B2 (ja) * | 1998-09-28 | 2006-03-22 | 株式会社日立製作所 | 情報フィルタリングサーバ |
US6802042B2 (en) * | 1999-06-01 | 2004-10-05 | Yodlee.Com, Inc. | Method and apparatus for providing calculated and solution-oriented personalized summary-reports to a user through a single user-interface |
JP2000209255A (ja) * | 1999-01-12 | 2000-07-28 | San Denshi Kk | 情報提供装置 |
JP3425906B2 (ja) * | 1999-10-20 | 2003-07-14 | 株式会社ジャストシステム | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000123105A (ja) * | 1999-12-07 | 2000-04-28 | Adc Technology Kk | サイト案内システム |
JP2000216810A (ja) * | 2000-01-01 | 2000-08-04 | San Denshi Kk | 情報提供方法 |
JP3382578B2 (ja) * | 2000-02-10 | 2003-03-04 | キヤノン株式会社 | 情報処理装置及び方法 |
KR101143167B1 (ko) * | 2000-03-16 | 2012-07-10 | 마이크로소프트 코포레이션 | 우선 순위화 시스템, 및 우선 순위 생성 및 관리를 제공하는 방법 및 시스템 |
JP3457617B2 (ja) * | 2000-03-23 | 2003-10-20 | 株式会社東芝 | 画像検索システムおよび画像検索方法 |
JP2001312509A (ja) * | 2000-04-28 | 2001-11-09 | Fujitsu Ltd | 電子情報配信システムおよび記録媒体 |
JP2002150147A (ja) * | 2000-08-29 | 2002-05-24 | Yutaka Nishimura | 情報提供システム及び方法並びに情報提供用プログラムを記録した記録媒体 |
JP3951585B2 (ja) * | 2000-10-11 | 2007-08-01 | 富士ゼロックス株式会社 | カスタマイズ印刷データ配信方法及びシステム |
JP4699632B2 (ja) * | 2001-05-15 | 2011-06-15 | ぴあ株式会社 | メールマガジン配信システム及びそれを実現するためのコンピュータプログラム |
JP4580604B2 (ja) * | 2001-12-25 | 2010-11-17 | ぴあ株式会社 | ランキング情報返送システム及びそれを実現するためのコンピュータプログラムとその方法 |
JP2003308328A (ja) | 2002-04-16 | 2003-10-31 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ連携再生装置、方法、プログラムおよび記録媒体 |
JP5008250B2 (ja) * | 2003-08-07 | 2012-08-22 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
US7809695B2 (en) * | 2004-08-23 | 2010-10-05 | Thomson Reuters Global Resources | Information retrieval systems with duplicate document detection and presentation functions |
JP4836068B2 (ja) * | 2005-07-29 | 2011-12-14 | 株式会社リコー | コンテンツ処理装置、コンテンツ処理プログラムおよびコンテンツ処理方法 |
KR100837749B1 (ko) * | 2006-04-18 | 2008-06-13 | 엔에이치엔(주) | 온라인 상에서 제공되는 뉴스 기사에 가중치를 부여하는방법 및 상기 방법을 수행하는 시스템 |
JP5033724B2 (ja) * | 2007-07-12 | 2012-09-26 | 株式会社沖データ | 文書検索装置及び画像形成装置、文書検索システム |
EP2110760A1 (en) * | 2008-04-14 | 2009-10-21 | Alcatel Lucent | Method for aggregating web feed minimizing redudancies |
JP5201727B2 (ja) * | 2008-07-14 | 2013-06-05 | 日本電信電話株式会社 | 文書要約装置、文書要約方法、プログラムおよび記録媒体 |
US8209616B2 (en) * | 2008-08-28 | 2012-06-26 | Palo Alto Research Center Incorporated | System and method for interfacing a web browser widget with social indexing |
JP5185891B2 (ja) * | 2009-06-18 | 2013-04-17 | ヤフー株式会社 | コンテンツ提供装置、コンテンツ提供方法およびコンテンツ提供プログラム |
US9020959B2 (en) * | 2009-12-07 | 2015-04-28 | International Business Machines Corporation | Contextual support for publish-subscribe systems |
KR101356035B1 (ko) * | 2012-05-14 | 2014-01-29 | 한국과학기술원 | 욕설 제거 방법 및 시스템 |
JP2016043537A (ja) * | 2014-08-21 | 2016-04-04 | 株式会社アシストシステム研究所 | 新聞紙面印刷装置および新聞紙面印刷方法 |
WO2016147621A1 (ja) * | 2015-03-13 | 2016-09-22 | 日本電気株式会社 | 記事管理システム、記事管理方法および記事管理プログラム |
JPWO2017175432A1 (ja) * | 2016-04-05 | 2019-03-22 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP6797618B2 (ja) * | 2016-09-15 | 2020-12-09 | 株式会社東芝 | 検索装置、検索方法、プログラムおよび検索システム |
JP6895795B2 (ja) * | 2017-04-27 | 2021-06-30 | 株式会社日立製作所 | データ処理システム、データ処理方法、およびデータ処理プログラム |
KR102114223B1 (ko) * | 2019-12-10 | 2020-05-22 | 셀렉트스타 주식회사 | 딥러닝 기반 유사 이미지를 필터링하는 방법 및 그를 이용한 장치 |
KR102349624B1 (ko) * | 2020-09-24 | 2022-01-10 | 주식회사 포스코아이씨티 | 뉴스 크롤링 시스템 및 뉴스 크롤링 방법 |
CN112529091A (zh) * | 2020-12-18 | 2021-03-19 | 广州视源电子科技股份有限公司 | 课件相似度检测方法、装置及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0782503B2 (ja) * | 1990-02-22 | 1995-09-06 | 株式会社テレマティーク国際研究所 | 記事統合化処理装置 |
JP2957875B2 (ja) * | 1993-03-17 | 1999-10-06 | 株式会社東芝 | 文書情報検索装置及び文書検索結果表示方法 |
JPH0749875A (ja) * | 1993-08-06 | 1995-02-21 | Hitachi Ltd | 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム |
JP3383049B2 (ja) * | 1993-09-13 | 2003-03-04 | 株式会社東芝 | 文書検索装置 |
JP2978044B2 (ja) * | 1993-10-18 | 1999-11-15 | シャープ株式会社 | 文書分類装置 |
JPH07295994A (ja) * | 1994-04-22 | 1995-11-10 | Sharp Corp | 情報検索装置 |
-
1995
- 1995-11-30 JP JP33579095A patent/JP3810463B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013039605A1 (en) * | 2011-09-15 | 2013-03-21 | Yahoo! Inc. | Method and system for providing recommended content for user generated content on an article |
Also Published As
Publication number | Publication date |
---|---|
JPH09101990A (ja) | 1997-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3810463B2 (ja) | 情報フィルタリング装置 | |
US6836768B1 (en) | Method and apparatus for improved information representation | |
Turney | Learning to extract keyphrases from text | |
US7945600B1 (en) | Techniques for organizing data to support efficient review and analysis | |
US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
US6636853B1 (en) | Method and apparatus for representing and navigating search results | |
US7496567B1 (en) | System and method for document categorization | |
US7912868B2 (en) | Advertisement placement method and system using semantic analysis | |
US7617199B2 (en) | Characterizing context-sensitive search results as non-spam | |
US7359891B2 (en) | Hot topic extraction apparatus and method, storage medium therefor | |
US7949660B2 (en) | Method and apparatus for searching and resource discovery in a distributed enterprise system | |
US5907836A (en) | Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore | |
US5717913A (en) | Method for detecting and extracting text data using database schemas | |
US20070185860A1 (en) | System for searching | |
US20140280072A1 (en) | Method and Apparatus for Human-Machine Interaction | |
US20030020749A1 (en) | Concept-based message/document viewer for electronic communications and internet searching | |
US20140280314A1 (en) | Dimensional Articulation and Cognium Organization for Information Retrieval Systems | |
US20070250501A1 (en) | Search result delivery engine | |
WO2000065483A2 (en) | Method and apparatus for improved device-dependent representation of data | |
Xu et al. | Extracting keywords from texts based on word frequency and association features | |
Sathya et al. | A review on text mining techniques | |
Gupta | A survey of text summarizers for Indian Languages and comparison of their performance | |
Croft et al. | Search engines | |
Miyamori et al. | Evaluation data and prototype system WISDOM for information credibility analysis | |
Orăsan | Comparative evaluation of term-weighting methods for automatic summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040119 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040202 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20040319 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20041203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20041203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060524 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100602 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110602 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |