JPH09101991A - 情報フィルタリング装置 - Google Patents

情報フィルタリング装置

Info

Publication number
JPH09101991A
JPH09101991A JP33579195A JP33579195A JPH09101991A JP H09101991 A JPH09101991 A JP H09101991A JP 33579195 A JP33579195 A JP 33579195A JP 33579195 A JP33579195 A JP 33579195A JP H09101991 A JPH09101991 A JP H09101991A
Authority
JP
Japan
Prior art keywords
similarity
user
articles
search
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP33579195A
Other languages
English (en)
Inventor
Kazuo Sumita
一男 住田
Kenji Ono
顕司 小野
Masahiro Kajiura
正浩 梶浦
Tetsuya Sakai
哲也 酒井
Seiji Miike
誠司 三池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP33579195A priority Critical patent/JPH09101991A/ja
Priority to US08/695,214 priority patent/US5907836A/en
Publication of JPH09101991A publication Critical patent/JPH09101991A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】ニュースソースから配信される複数言語の記事
を効率良くフィルタリングしてユーザに提供する。 【解決手段】このフィルタリング装置は、複数のニュー
スソースからテキスト記事の配信を受ける受信部11、
ユーザが指定した検索条件とテキスト記事との類似度を
算出する類似度算出部14、および類似度の順にテキス
ト記事をソートして、一定の数のテキスト記事、あるい
は予め定めた閾値以上の類似度を有する記事のみをユー
ザに送信する送信記事判定部16を有する。類似度算出
部14は、ある単一の言語で指定された検索条件をその
まま使用するだけでなく、その検索条件を他の言語に置
き換え、その置き換えられた検索条件とテキスト記事と
の類似度も算出する。従って、異なる言語で書かれた種
々の記事に対して効率良くフィルタリング処理を行う事
ができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、膨大な数のテキス
トやイメージなどの記事あるいは文献などの文書からユ
ーザーの要求・興味にあったものを選出して定期的にユ
ーザーに提供する情報フィルタリング装置に関する。
【0002】
【従来の技術】近年、ワードプロセッサーや電子計算機
の普及、計算機ネットワークを介した電子メールや電子
ニュースの普及に伴い、文書の電子化が加速的に進みつ
つある。電子出版という言葉が示すように、今後は新
聞、雑誌や本の情報も電子的に提供されることが一般的
になると考えられる。これにより、個人にとってリアル
タイムで入手可能となるテキスト情報の量は膨大になっ
ていくと予測される。
【0003】これに伴い、新聞や雑誌などの膨大なテキ
スト記事からユーザーの要求・興味にあったものを選出
して定期的にユーザーに提供する情報フィルタリングシ
ステムあるいは情報フィルタリングサービスの需要が高
まりつつある。
【0004】これまで、単一の言語で書かれたテキスト
記事を対象とした情報フィルタリングシステムがすでに
開発されており、そのシステムを用いて情報フィルタリ
ングサービスを提供している例がある。このシステムで
は、当日発生した記事の配信を複数のニュースソースか
ら受け、あらかじめユーザーが指定した検索条件に適合
するテキスト記事のみを利用者に送信するものである。
記事の検索は、検索条件と配信されたテキスト記事の間
で、その検索条件とどれぐらい適合しているかを示す類
似度を算出する検索機能によって行われ、類似度の高い
記事の順に記事がソートされ、これによって指定された
件数あるいは所定の閾値以上の類似度を持つ記事のみが
ユーザに送信される。
【0005】
【発明が解決しようとする課題】
(1)しかし、このような従来の情報フィルタリングシ
ステムにおいては、ニュースソースから提供される記事
は、すべてある単一の言語(例えば英語)で書かれてい
ることが仮定されており、その言語圏での利用のみしか
考慮されていなかい。このため、他の言語圏のニュース
ソースから得た記事を混在して利用者に提供することは
できなかった。
【0006】ある言語圏で配信された記事からなるニュ
ースソースと、それとは別の言語圏の記事からなるニュ
ースソースとを混在して利用者に提供することを考える
と、個々の言語上で実現された情報フィルタリング装置
を別個に設置するだけでは十分ではない。例えば、別個
に設けただけでは、利用者はそれぞれの情報フィルタリ
ング装置ごとに検索条件を設定する必要がある。あるい
は、書かれている言語は異なるものの同じ内容の記事が
存在する場合もある。従って、別個の情報フィルタリン
グ装置を設置するだけでは、このような場合に重複した
記事が利用者に送信されてしまうという問題が生ずる。
【0007】この発明は、このような点に鑑みてなされ
たもので、複数の言語圏のニュースソースから配信され
る記事を混在して利用者に提供できるようにし、異なる
言語で書かれた種々の記事に対して十分な検索処理処理
機能を実現し得る情報フィルタリング装置を提供するこ
とを第1の目的とする。
【0008】(2)また、従来の情報フィルタリングシ
ステムでは、検索条件となるトピックや、検索対象のテ
キストデータベースなどが固定的に規定されており、ま
た類似度の閾値あるいは検索文書数についても、検索結
果と無関係に予め決められている。このため、適切なテ
キスト文書が検索からもれてしまったり、あるいはあま
り適切でない文書も検索されてしまうという問題があっ
た。
【0009】この発明は、検索条件や類似度の閾値など
を動的に変更できるようにし、常に適切な記事をユーザ
に提示する事ができる情報フィルタリング装置を提供す
ることを第2の目的とする。
【0010】(3)また、従来の情報フィルタリングシ
ステムでは、検索条件とテキスト記事との類似度の算出
はある特定の方法でのみ行われており、実際上十分なフ
ィルタリング精度が得られないという問題がある。この
ため、ユーザの要求や興味に合致しない文書をユーザに
提示したり、逆にユーザーの要求や興味に合致する文書
をとりこぼすなど、フィルタリング精度の向上を図らな
ければならない余地があった。
【0011】さらに、通常はフィルタリングを行う前に
テキスト文書の形態素解析等の前処理が行われるが、従
来ではフィルタリングの対象にならないテキスト文書を
含む全てのテキスト文書についてその前処理が行われて
おり、フィルタリング処理全体に多くの時間を要すると
いう問題もある。
【0012】この発明は、検索処理を改善する事により
フィルタリング精度やフィルタリング処理速度の向上を
実現できるようにし、高性能の情報フィルタリング装置
を提供することを第3の目的とする。
【0013】
【課題を解決するための手段】請求項1に係る発明は、
複数の情報源からテキストやイメージなどの記事の配信
を受ける手段と、予めユーザが指定した検索条件と前記
記事それぞれとの類似度を算出し、その算出した類似度
に従って、指定された件数あるいは所定の閾値以上の類
似度を持つ記事を検索する手段と、検索された文書をユ
ーザに提示する手段とを有する情報フィルタリング装置
において、異なる言語で書かれた記事の配信を受け、単
一言語で指定された検索条件を他の言語に置き換えて前
記記事との類似度を算出することにより異なる言語で書
かれた記事を混在してユーザに提示することを特徴とす
る。
【0014】この情報フィルタリング装置においては、
記事と検索条件との類似度を算出する場合に、ある単一
の言語で指定された検索条件がそのまま使用されるだけ
でなく、その検索条件が他の言語に置き換えられ、その
置き換えられた検索条件と記事との類似度も算出され
る。このため、ユーザは、指定した一つの検索条件で複
数の言語圏からのニュースなどを同時に入手することが
できるようになり、異なる言語で書かれた種々の記事に
対して十分な検索処理処理機能を実現することができ
る。
【0015】また、このように異なる言語で書かれた記
事を混在してユーザに提示できる装置では、異なる言語
で書かれた記事同士の類似度を算出する手段を設け、予
め定めた閾値以上の類似度となる記事同士を重複記事と
判定して、いずれか一方のみをユーザに送信することが
好ましい。これにより、書かれている言語は異なってい
ても内容が同じ記事の一方はユーザに送信されなくな
り、同じ記事を読むという手間を回避する事ができる。
また、この場合には、ユーザごとの使用言語を記憶して
おき、その使用言語にしたがって重複記事のどちらを送
信するかを決定したり、使用言語と異なる言語で書かれ
た記事の全文あるいはその一部を使用言語側に翻訳して
ユーザに送信する事が望ましい。
【0016】また、請求項2に係る発明は、複数の情報
源からテキストやイメージなどの記事の配信を受ける手
段と、予めユーザが指定した検索条件と前記記事それぞ
れとの類似度を算出し、その算出した類似度に従って、
指定された件数あるいは所定の閾値以上の類似度を持つ
記事を検索する検索手段と、検索された記事をユーザに
提示する手段とを有する情報フィルタリング装置におい
て、前記検索手段の検索結果に応じて、前記類似度の閾
値または前記検索条件を変更する手段を具備することを
特徴とする。
【0017】この情報フィルタリング装置においては、
例えば検索が実行される都度あるいは連続する何度かの
検索結果に応じて各種検索条件や類似度の閾値が動的に
変更され、これによって現在の記事の内容の変化に対し
て検索条件や類似度の閾値を自動的に追従させることが
できるようになる。このため、ユーザ自身が検索条件の
指定を変更しなくても、常に適切な記事をユーザに提示
することが可能となる。
【0018】検索結果に応じて動的に変更する検索条件
としては、ユーザが指定した話題であるトピックや、検
索対象記事が記録されているテキストデータベースなど
を利用できる。また、類似度の閾値については、複数の
記事についての類似度の分布状態を調べ、その分布に従
って変更する事が好ましい。これにより、適切な文書が
検索からもれてしまったり、あるいはあまり適切でない
文書も検索されてしまうという問題を回避できる。さら
に、ユーザの契約残高に応じて検索条件を変更したり、
類似度に応じて記事の表示方式を変更することも有効で
ある。
【0019】また、請求項3に係る発明は、複数の情報
源からテキストやイメージなどの記事の配信を受け、そ
れら配信された記事の中から所定の記事を選出してユー
ザに提示する情報フィルタリング装置において、ユーザ
毎に予め指定された検索条件を保持する手段と、各ユー
ザの検索条件と記事それぞれとの類似度を互いに異なる
複数の類似度計算方法を組み合わせた手法によって算出
し、その算出結果に従って、ユーザ毎に検索条件に合致
する記事を選定するフィルタリング手段とを具備するこ
とを特徴とする。
【0020】この情報フィルタリング装置においては、
複数の類似度計算方法を組合わせることによって、単独
の類似度計算方法では免れなかったフィルタリング精度
の低下を避け、フィルタリング精度を向上できる。類似
度計算方法としては、文字単位マッチでの出現頻度によ
る類似度計算と、単語単位マッチでの出現頻度による類
似度計算とを組み合わせる事が好ましい。文字単位マッ
チでの出現頻度による類似度計算は、全く意味の異なる
単語も含めて類似度を計算してしまう可能性があるのに
対し、単語単位マッチでの出現頻度による類似度計算で
はそれがない。逆に、単語単位マッチでの出現頻度によ
る類似度計算は、形態素解析用辞書に無い単語に関して
は正しく解析できないために類似度計算に含まれなくな
ってしまう可能性があるが、文字単位マッチでの出現頻
度による類似度計算ではそれがない。よって、これら二
つの類似度計算方法を合わせることによってお互いの欠
点を補い、より正確な類似度計算が可能となる。
【0021】また、フィルタリング時にフィルタリング
に必要な記事のみの前処理を同時に行うために、最初に
検索条件で指定された単語を含む記事を選択するという
簡単な1次検索を行っておき、その1次検索によって選
定された記事について形態素解析、または書式解析など
の前処理を行う事が好ましい。これにより、フィルタリ
ング処理全体に必要な時間の短縮や必要な記憶領域の削
減が可能となる。さらに、ユーザが指定した適合文書や
非適合文書からユーザープロファイルを変更するための
単語を抽出し、ユーザの要求や興味に合致するようなプ
ロファイルとなるようにその抽出した単語によってユー
ザプロファイルを変更する機構を組み合わせれば、フィ
ルタリング性能をより向上させることができる。
【0022】
【発明の実施の形態】以下、画面を参照してこの発明の
実施形態について説明する。
【0023】まず、図1を参照して、この発明の情報フ
ィルタリングシステム全体の構成について説明する。
【0024】この情報フィルタリングシステムは、新聞
社、通信社、または出版社などの複数の情報源2からテ
キストやイメージを含むテキスト記事の配信を受け、そ
れを定期的に加入ユーザ端末3それぞれに送信する情報
提供システムであり、このシステムの情報提供サービス
は情報フィルタリングセンタ1によって実現されてい
る。
【0025】情報フィルタリングセンタ1は、通信網を
介して複数の情報源2および複数の加入ユーザ端末3に
接続された1つの計算機システムによって実現されてお
り、ここには、情報フィルタリングのための制御や処理
を行う中央処理装置4、プログラム並びにデータを格納
する半導体メモリ、磁気ディスク、光ディスクなどの記
憶装置5、回線や電波などの通信網を介して情報源2か
らテキスト記事を受信する受信部6、回線や電波などの
通信網を介してユーザ端末3にテキスト記事を送信する
送信部7などから構成されている。
【0026】各ユーザ端末3は、例えばパーソナルコン
ピュータやワークステーションなどの情報処理端末であ
り、情報フィルタリングセンタ1から送信されたテキス
ト記事を受信するテキスト情報受信部8と、受信したテ
キスト記事を画面表示する表示部9などを備えている。
【0027】情報フィルタリングセンタ1は、図2に示
されているように、ユーザプロファイル10と称する一
種の検索条件をユーザ毎に保持しており、そのユーザプ
ロファイル10に従って該当するユーザに提供すベき記
事を検索する。ユーザプロファイル10は、ユーザによ
って指定された複数のトピックなどから構成されてお
り、それらトピックに合致する記事が検索および選出さ
れてユーザに送られる。
【0028】次に、この情報フィルタリングセンタ1の
具体的な構成について説明する。
【0029】(実施形態1)図3には、この発明の第1
実施形態に係わる情報フィルタリングセンタ1の構成が
示されている。図中、実線の矢印はデータの流れを示し
ている。また、破線の矢印は処理の流れを示している。
【0030】情報フィルタリングセンタ1は、図示のよ
うに、受信部11、テキストデータ格納部12、検索条
件格納部13、類似度算出部14、記事並べ替え部1
5、送信記事判定部16、および送信部17から構成さ
れている。これら構成要素のうち、鎖線で囲まれている
受信部11、類似度算出部14、記事並べ替え部15、
送信記事判定部16、および送信部17は、例えば図1
の中央処理装置14によって実行されるソフトウェアに
よって実現でき、またテキストデータ格納部12、およ
び検索条件格納部13は記憶装置5によって実現でき
る。
【0031】受信部11は、ニュースソースである情報
源2からテキスト記事の配信を受け付け、それをテキス
トデータ格納部12に格納する。テキストデータ格納部
12には、受信部11で受信された各情報源2からのテ
キスト記事が格納される。検索条件格納部13には、ユ
ーザ毎に予め指定された検索条件が格納されている。検
索条件は、各ユーザによって指定される要求・興味など
を解析することによって生成されるものであり、前述の
ユーザプロァイルに相当する。
【0032】類似度算出部14は、ユーザごとの検索条
件にしたがって受信されたテキスト記事と検索条件との
間の類似度を計算する。記事並べ換え部15は、個々の
記事ごとに算出された類似度にしたがってユーザに送信
する記事の順番を決定する。送信記事判定部16は、予
め定められた件数の記事、あるいは予め定めた閾値以上
の類似度を有する記事のみをユーザに送信するように送
信する記事を判定する。送信部17は、実際にユーザに
記事を送信するためのものである。
【0033】図4に、受信部11の処理の流れを示す。
【0034】受信部11は、まず初めに、テキストデー
タ格納部12の初期化を行い(ステップS1)、その
後、あらかじめ定められた時刻になったか否かをチェッ
クする(ステップS2)。ある時刻になるまでの期間
は、受信部11は、あるニュースソースから記事が送ら
れてきたかどうかをチェックし(ステップS3)、送ら
れてきた場合、受信した記事をテキストデータ格納部に
格納する(ステップS4)。その時刻になった時、受信
部11は、受信処理を終了し、類似度算出部14に処理
の制御を移す。
【0035】このような受信部11の時間単位の受信処
理は、ニュースソースから送られてくるテキスト記事を
一定の時間単位毎にひとまとめにし、それを1つのテキ
ストデータベースとしてテキストデータ記事全体を対象
とした関連記事の検索を行うためである。
【0036】図5に、類似度算出部14の処理の流れを
示す。
【0037】類似度算出部14は、テキストデータ格納
部12に格納されているすべてのテキスト記事に対して
検索条件との類似度を算出する。算出した類似度はその
テキスト記事と対応づけてテキストデータ格納部12に
格納し、記事並べ変え部において類似度順に並べ換える
際に用いる。
【0038】検索条件と個々のテキスト記事との類似度
の算出方式については、特定するものではないが、例え
ば以下のような式によって算出することが可能である。
【0039】
【数1】 上記算出式(1)において、それぞれの記号の意味は以
下の通りである。
【0040】Di: i番目のテキストを表す記号 qj: j番目の検索条件を表す記号 tk : 文書Diに含まれる語を表す記号 ni(tk):語tkの文書i 中での頻度 wj(tk):語tkの検索条件qjで定義された重み tkを文書i中での頻度順に並べ、その頻度の上位N個ま
でのものについて計算を行う。
【0041】上記算出式を利用することを仮定した場
合、検索条件格納部13に格納する検索条件の形式、お
よび実際のデータ例は図6の通りである。
【0042】すなわち、図6に示されているように、検
索条件は、トピックとして使用される少なくとも1つの
単語とその単語についての重みで表現される。ここで
は、具体例として、例えば、単語として「スーパーコン
ピュータ」と「発売」が選定され、それぞれの重みが
3,2の場合が示されている。
【0043】以下、具体的に類似度計算を行う例につい
て説明する。
【0044】例えば、Nを4と仮定し、ある文書D1が5
単語からなりその上位4個の出現頻度が以下の通りであ
ったと仮定する。
【0045】n1(スーパーコンピュータ)=3 n1(発売)=2 n1(並列)=2 n1(コンピュータ)=1 この時、図6の検索条件に従えば、類似度は以下のよう
に計算できる。
【0046】
【数2】 一方、他の文書D2が5単語からなり、その出現頻度の上
位4個が以下の通りであったと仮定する。
【0047】n1(パソコン)=2 n1(発売)=2 n1(スーパーコンピュータ)=1 n1(コンピュータ)=1 この時、類似度は以下のように計算できる。
【0048】
【数3】 したがって上記の例では、D1の文書のほうがD2の文書に
比べ、検索条件qに対してより適合しているということ
になる。
【0049】以下、図5を参照して類似度算出部14に
よる類似度算出処理の手順を説明する。
【0050】類似度算出部14は、全てのテキスト記事
について処理を完了したか否かを調べ(ステップS1
1)、全てのテキスト記事について処理を終えるまで以
下の処理を繰り返す(ステップS12)。
【0051】まず、類似度算出部14は、テキストデー
タ格納部12からテキスト記事を1つ取り出し(ステッ
プS12)、そのテキスト記事と検索条件との類似度を
上述の計算式に従って算出する(ステップS13)。
【0052】この後、類似度算出部14は、検索条件を
構成する各語について他の言語の訳語を求め(ステップ
S14)、そして、その検索条件を訳語に置き換えてテ
キスト記事との類似度を上述の計算式に従って求める
(スップS15)。この場合、検索条件と異なる言語で
書かれたテキスト記事であっても、関連する記事であれ
ば、高い類似度を得ることができる。
【0053】次に、類似度算出部14は、ステップS1
3、S15でそれぞれ算出した類似度のうち大きい値の
方を、テキスト記事と対応付けてテキストデータ格納部
12に格納する(ステップS16)。これにより、類似
度算出対象のテキスト記事がどのような言語で書かれた
ものであっても、そのテキスト記事の言語によらずに正
確な類似度を求める事ができる。
【0054】なお、ここでは、英語と日本語のように2
種類の言語圏のテキスト記事を扱う場合を想定している
が、ステップS14,S15の処理を、扱う言語の種類
に応じて増やせば、3種類以上の様々な言語で書かれた
テキスト記事を扱う事が可能となる。
【0055】また、検索条件と文書との類似度を求める
手法は、従来より様々な手法が提案しており、類似度算
出方をこれらのいずれかに置き換えることは容易であ
る。
【0056】記事並べ換え部15は、類似度算出部14
によってテキスト記事ごとに付与された類似度にしたが
って、全てのテキスト記事を降順にソートする。ソート
の方法としては、バブルソート、クイックソート、バケ
ツソートなど様々な手法を利用する事ができる。
【0057】図7に、送信記事判定部17の処理の流れ
を示す。
【0058】ここでの処理は、記事並べ換え部16によ
ってすでに記事が並べ換えており、類似度の高い記事か
ら順番に1,2,3と番号で付与されていることを仮定
している。
【0059】すなわち、送信記事判定部17は、まず、
先頭の記事(n=1)から順にその類似度と予め定めら
れた類似度So(しきい値)と比較していき、その類似度
より高い値を有するテキスト記事を、該当するユーザ宛
てに電子メールで送信する(ステップS21〜S2
4)。
【0060】上記説明では、1つの検索条件に対する類
似度計算の処理について述べたが、複数のユーザが存在
する場合には、個々のユーザごとに類似度計算、記事並
べ換え、ユーザへの記事送信を行うことになる。
【0061】なお、送信部17は、電子メールだけでな
く、FAXなどを利用してユーザに記事を送信しても良
い。
【0062】また、ここでは、受信部11で記事を一定
期間でチャンクする処理を行っているが、受信部11で
記事を受け取るごとに類似度計算部14で類似度を算出
し、算出した類似度が一定値以上の記事のみをテキスト
データ記憶部12に格納しておくようにしてもよい。こ
のようにすれば、記憶しておくテキスト記事の量を削減
できる。
【0063】以上のように、実施形態1のシステムによ
れば、テキスト記事と検索条件との類似度を算出する場
合に、ある単一の言語で指定された検索条件がそのまま
使用されるだけでなく、その検索条件が他の言語に置き
換えられ、その置き換えられた検索条件とテキスト記事
との類似度も算出される。このため、ユーザは、指定し
た一つの検索条件で複数の言語圏からのニュースなどを
同時に入手することができるようになり、異なる言語で
書かれた種々の記事に対して十分な検索処理処理機能を
実現することができる。
【0064】(実施形態2)次に、第2の実施形態につ
いて説明する。
【0065】図8に、実施形態2に係るフィルタリング
センタの構成を示す。ここでは、図3に示した実施形態
1の送信記事判定部16の代わりに、重複記事削除部2
1が設けられており、その他の要素機能については実施
形態1の要素機能と同様である。
【0066】重複記事削除部21は、重複記事のいずれ
か一方のみをユーザに送信するために設けられたもので
あり、異なる言語で書かれたテキスト記事同士の類似度
を算出し、予め定めた閾値以上の類似度となるテキスト
記事同士を重複記事と判定すしてそれら重複記事のいず
れか一方を削除する。
【0067】図8および図9に、重複記事削除部21の
処理の流れを示す。
【0068】まず初めに、重複記事削除部21は、実施
形態1の送信記事判定処理部16と同じ処理を行う。す
なわち、重複記事削除部21は、先頭の記事(n=1)
から順にその類似度と予め定められた類似度So(しきい
値)と比較していき、その類似度より高い値を有するテ
キスト記事を受信バッファ22に格納する(ステップS
31〜S34)。
【0069】次に、重複記事削除部21は、削除されて
ない、つまり受信バッファ22に格納されている記事を
対象に、2つの記事(記事i、記事j)の組合わせ全て
について記事間の類似度を求め、一定の値(ST)以上
の類似度を持つ記事同士を重複記事と見なして記事iと
記事jのいずれか一方を受信バッファ22から削除する
(ステップS35〜S45)。
【0070】これにより、ほとんど同内容の記事は受信
バッファ22から削除され、ユーザには送信されない。
【0071】図11には、記事iと記事jとの間の記事
間類似度を求める処理の手順が示されている。
【0072】記事間類似度の算出の仕方については、実
施形態1で述べた検索条件と記事との間の類似度を計算
する手法と同様である。すなわち、それぞれの記事i,
jについて、記事内のすべての語を対象にし、その中で
頻度の高いいくつかの語の頻度情報の配列などからなる
文書ベクトルを求め(ステップS51,S52)、それ
ら記事i,jそれぞれの文書ベクトル間で内積を取り類
似度を算出する(ステップS53)。内積の結果、その
正規化された値が1に近付くほど類似度が高い事にな
る。
【0073】また、記事iと記事jとが異なる言語で書
かれていることを勘案し、記事j側の文書ベクトルの各
語を他の言語に訳し、また必要に応じてベクトル要素を
訳した言語に併せて再配置し(ステップS54)、その
後、再度、記事i,jそれぞれの文書ベクトル間で内積
を取り類似度を算出する(ステップS55)。そして、
ステップS51、S55のそれぞれで算出した類似度の
うち大きい値を、記事iと記事jの間の類似度とする。
【0074】上記の類似度計算では、記事内のすべての
語を対象にし、その中で頻度の高い語で内積をとってい
るが、記事においては見出しや一文目にほとんどの情報
が集約されているという経験則から、見出しや一文目に
存在する語だけを対象にするように変形してもよい。
【0075】類似度が一定値以上にある記事同士のう
ち、いずれの記事を削除するかを決定する判断基準は、 ・単純に記事番号の小さい方を削除する。 ・ニュースソースにしたがってあらかじめ優先度を設け
ておき、優先度の低いニュースソースから配信された記
事を削除する。 ・記事に発信の日付が記述されている場合、日付の古い
方を削除する。 ・記述量の少ない方の記事を削除する。 などが考えられ、これらのいずれを利用しても良い。
【0076】以上のように、実施形態2のシステムで
は、異なる言語で書かれたテキスト記事を混在してユー
ザに提示でき、且つ異なる言語で書かれたテキスト記事
同士の類似度を算出することにより、予め定めた閾値以
上の類似度となるテキスト記事同士を重複記事と判定で
き、いずれか一方のみをユーザに送信できるようにな
る。よって、書かれている言語は異なっていても内容が
同じ記事の一方はユーザに送信されなくなり、同じ記事
を読むという手間を回避する事ができる。
【0077】(実施形態3)次に、第3の実施形態につ
いて説明する。
【0078】図12には、実施形態3に係るフィルタリ
ングセンタの構成を示す。ここでは、実施形態2の構成
に加え、利用者言語記憶部23が設けられている。
【0079】利用者言語記憶部23には、ユーザごとに
使用する言語(英語なのか日本語なのか)などが記憶さ
れている。
【0080】この実施形態3における重複記事削除処理
の処理の流れは、実施形態2と同じであるが、類似度が
一定以上にある記事同士のうち、いずれかの記事を削除
する際の判定基準が異なる。
【0081】すなわち、実施形態3では、利用者言語記
憶部23に格納されているユーザごとにどの言語を使用
しているかの情報にしたがって、その言語と異なる言語
で記述されている記事の側が削除される。
【0082】どの言語で記述されているかを判定する方
法は特定するものではないが、例えば、各言語ごとの語
を登録した単語辞書(不図示)をあらかじめ用意してお
くことで容易に実現できる。すなわち、記事中の文字列
を走査し、単語辞書を検索し、より多くの単語が検索で
きた側の単語辞書に対応する言語を、その記事の使用言
語であると判定すればよい。
【0083】(実施形態4)次に、実施形態4について
説明する。
【0084】図13に、実施形態4に係るフィルタリン
グセンタの構成を示す。実施形態1との違いは、翻訳部
31と利用者言語記憶部32を有していることである。
【0085】この実施形態4では、ユーザの使用する言
語と異なる言語で書かれた記事については、ユーザの使
用する言語に翻訳して、ユーザに送信する。このため、
ユーザごとに使用する言語が何であるかを記憶する利用
者言語記憶部32と、その言語に翻訳する翻訳部31を
有している。
【0086】入力された記事の言語が何であるかを判定
する手法は、実施形態3で説明した処理により判定可能
であるので、その記事が何の言語であるかを示す情報
と、ユーザの使用する言語が何であるかによって、適切
な翻訳を行える。例えば、入力された記事の言語が英語
であり、ユーザ利用者の使用する言語が日本語であれ
ば、英日翻訳を行えばよい。
【0087】英日翻訳や日英翻訳などの自動翻訳は、す
でに実用化されており、商品も存在する。したがって、
これらの公知の技術を流用することにより、この実施形
態4を実現することが可能である。
【0088】(実施形態5)次に、第5の実施形態につ
いて説明する。
【0089】図14に実施形態4の構成を示す。実施形
態1との違いは、要約部33を有している点にある。
【0090】要約処理を実現する機能については特定す
るものではない。例えば、文献(「文書内構造を複合的
に利用した論説文要約システムGREEN」,山本和
英,情報処理学会研究会資料,自然言語処理99−3)
などで開示されている技術を流用することができる。よ
り単純な方法としては、以下のような手法も採用可能で
ある。 ・記事の見出しのみを取り出し、要約とする。 ・記事の見出しと一文目を取り出し、要約とする。 ・特定のカテゴリの語を取り出し、その語のリストを要
約とする(例えば、月日、時刻、会社名や場所などの固
有名詞)。 ・記事中で頻度の高い語を取り出し、その語のリストを
要約とする。
【0091】(実施形態6)第6の実施形態は、実施形
態4と実施形態5を組合わせたものであり、要約した記
事のみをユーザの使用言語に翻訳して、ユーザに送信す
るというものである。
【0092】例えば、記事の見出しのみを要約として取
り出し、翻訳することを想定すると、送信される記事の
形式としては、図15に示すように、記事の言語側の見
出しの前後のいずれかに訳文を追加し、その後に記事の
全文を追加するようにしたり(図15(a))、見出し
は訳文のみとし、その後に記事の全文を追加する(図1
5(B))などの送信の仕方が可能である。
【0093】(実施形態7)第7の実施形態は、すでに
利用者に送信した各記事が利用者にとって必要であった
か否かについての情報を利用者からフィードバックを受
け、その情報を反映して検索条件を修正するレレバンス
フィードバック機能を備えたものである。
【0094】図16に実施形態7の構成を示す。実施形
態7と実施形態1との違いは、レレバンスフィードバッ
ク部41を有する点であり、検索条件を利用者の必要と
する記事だけに絞り込めるようにチューニングしていく
ための処理を行う。
【0095】レレバンスフィードバック処理自体につい
てはすでに公知の技術であり、例えば文献(「SMAR
T情報検索システム」,ジェラルド・サルトン編,神保
健二監訳,企画センター)などで開示されている技術を
利用できる。
【0096】しかしながら、異なる言語のニュースソー
スを対象にした情報フィルタリングシステムにあって
は、ユーザが判断した記事ごとの適否の判断が、どの言
語で書かれた記事であったかによって、検索条件の反映
の仕方が異なってくる。
【0097】すなわち、検索条件と同じ言語であれば、
通常のレレバンスフィードバック処理を行えばよいが、
別の言語であった場合、いったん記事を検索条件と同じ
言語に翻訳した後レレバンスフィードバック処理を行う
必要がある。
【0098】図17に、レレバンスフィードバック部4
1の処理の流れを示す。
【0099】レレバンスフィードバック部41は、ユー
ザに送信した記事についてユーザから有効な記事であっ
たか否かの情報を受けたとき、まず、その記事がユーザ
が指定した検索条件と別の言語で書かれたものであるか
否かを調べる(ステップS61)。別の言語で書かれた
記事であれば、レレバンスフィードバック部41は、そ
の記事を検索条件と同じ言語に翻訳し、その翻訳結果を
利用して検索条件を修正するためのレレバンスフィード
バック処理を行う(ステップS63)。
【0100】(実施形態8)次に、この発明の第8実施
形態について説明する。
【0101】図18には、この実施形態8に係る情報フ
ィルタリングセンタ1の構成が示されている。図中、太
線の矢印はテキストデータの流れを、それ以外の矢印は
処理の流れを示している。
【0102】この情報フィルタリングセンタ1は、複数
のテキストデータベース51〜53、ユーザ情報記憶部
52、テキスト選択部53、検索対象文書保持部54、
検索条件指定部55、文書検索部56、検索結果保持部
57、検索結果提示部58、検索結果履歴記憶部59、
検索条件変更部60、入力装置61および表示装置62
から構成されている。ここで、入力装置61および表示
装置62は図1のユーザ端末3に相当するものである
が、フィルタリングセンタ1を構成する計算機システム
のユーザインタフェース、つまりキーボードおよびディ
スプレイから実現しても良い。
【0103】各テキストデータベース51は、情報フィ
ルタリングセンタセンタ1内部あるいはこのセンタ1と
ネットワークを介して接続された特定のテキストデータ
ベースである。新聞記事、雑誌記事やネットワークなど
で提供される各種のテキストデータベースであり、定期
的に内容が更新される。ネットワーク接続されている場
合、非同期通信にともなう各種バッファの設置や自動配
送システムとの連系処理などの工夫が考えられるが、こ
の実施形態9ではそれらの詳細についての説明は省略す
る。
【0104】ユーザ情報記憶部52には、ユーザが欲し
ている記事のトピックや、出力件数あるいは類似度の閾
値,契約残高,現在の対象テキストデータベース名の一
覧、前回の検索日時,などの情報がユーザプロファイル
として登録されている。また、題目のみ、抄録のみとい
った検索された文書の表示形態に関する条件も登録され
ている。この場合、実際には、複数のユーザに対処する
ために、ユーザ情報はユーザ毎に管理されている。
【0105】テキスト選択部53は、ユーザ情報記憶部
52に登録されている情報を参照して、指定されたテキ
ストデータベースから、前回の検索日時以降に登録され
た記事を選択し、それを検索対象文書保持部54に格納
する。
【0106】テキストデータベース51が、オンライン
新聞記事提供サービスなど、定期的に新規の記事情報を
配信する形態である場合は、その配信を受信し、システ
ム側に蓄える工夫などが必要となる。
【0107】検索条件指定部55は、ユーザ情報記憶部
52に登録されているユーザが欲している記事のトピッ
クをもとに、同義語展開、下位後語展開、異表記語展
開、キーワード展開などを行い、文書検索部56が必要
とする検索コマンド(検索論理式)を生成する。
【0108】文書検索部56は、検索条件指定部55が
生成した検索コマンドに基づいて、検索対象文書保持部
54に格納されている文書に対してキーワード検索ある
いはフルテキスト検索を行なう。その結果に応じて、検
索された各文書とユーザの指定したトピックとの類似度
を計算する。また文書検索結果を類似度順にランキング
し、ユーザ情報記憶部52に保持されている出力件数あ
るいは類似度の閾値に応じて、類似度上位の記事をその
類似度を示す情報と一緒に、検索結果保持部57に格納
する。文書検索部56の処理には、公知の文書検索技術
を用いる事ができる。
【0109】検索結果提示部58は、検索結果保持部5
7に記憶された文書記事を、ユーザ情報記憶部52に登
録された表示指定に応じて、表示装置62に表示する、
ユーザがネットワークを介して接続されている場合、表
示結果を電子メールなどに加工して配信するなどの工夫
がなされる。
【0110】検索結果履歴記憶部59は、検索結果に文
書についてテキストデータベース毎の内訳や、上位トピ
ックあるいは関連トピック,サブトピック毎の内訳、お
よびそれらの推移を記憶する。
【0111】検索条件変更部60は、検索結果履歴記憶
部59に登録された履歴情報を判断して、類似度の閾値
の変更、あるいはトピックの変更、あるいはテキストデ
ータベースの変更、あるいは検索結果の文書の表示方式
を変更し、ユーザ情報記憶部52に登録されているそれ
らのパラメータを更新する。あるいは、変更候補のトピ
ックをユーザに提示し、ユーザにトピックを変更するこ
とを促すなどの処理を行う。また、検索条件変更部60
は、検索結果に応じて経費を計算し、ユーザ情報記憶部
52に記憶された契約残高を減額する。
【0112】入力装置61は、ユーザがユーザ情報記憶
部52に記憶された各種パラメータを変更するための装
置である。ユーザがネットワークを介して接続されてい
る場合、例えば電子メールによってユーザ情報の更新な
どが行われる。
【0113】またユーザー情報記憶部52には、ユーザ
ーが入力装置61を介して、適合率重視か再現率重視か
を入力することができ、これらは検索条件指定部55に
よって検索条件として使用される。この場合、前者は類
似度のしきい値を高めに設定するのと同じであり、ユー
ザーの指定したプロファイルやトピックに直接関係した
記事のみが検索される。検索結果中にユーザーが所望し
ない記事が現われることは少なくなるが、ユーザーが所
望するであろう記事が漏れてしまうことがありうる。後
者は類似度のしきい値を低めに設定するのと同じであ
り、検索結果中にユーザーが所望しない記事が現われる
ことは多くなるが、ユーザーが所望するであろう記事が
漏れてしまうことは減少する。
【0114】以下、図18のシステム全体の動作の概要
を説明する。
【0115】ユーザは自ら欲するトピックを、入力装置
61を介してユーザ情報記憶部52に登録する。ここ
で、トピックとは、検索主題をあらかじめ分類したもの
であり、シソーラス同様階層構造をなしている。1つの
トピックについて、その上位トピック、下位トピック、
および関連トピックの3つの情報が存在する。ユーザは
あらかじめ準備されたトピックの一覧から自ら希望する
ものを選択し登録する。例えば、図40では、“酒”と
いうトピックについて、その下位トピック、上位トピッ
クおよび関連トピックについて示している。この例では
上位トピックは1つであるが、複数存在する場合も考え
られる。
【0116】トピックはシソーラスと似ているが、シソ
ーラスが固定的であるのに対し、トピックは“阪神大震
災”や“情報ハイウェイ”などのより時事的なキーワー
ドを含み、流動的で頻繁に更新され、変遷の多いことが
特徴である。
【0117】また、ユーザは出力件数あるいは文書のそ
のトピックに対する関連性の度合いを示す類似度の下限
値である閾値を登録する。事前に数段階に分類された検
索数あるいは閾値の中からユーザが選択するという方式
も考えられる。また、あらかじめトピック毎に、あるい
はトピックによらず準備された出力件数や閾値をデフォ
ルトとして登録する方式をとることも可能であり、その
場合ユーザが件数あるいは閾値を指定する必要はなくな
る。これらのことは、前述の実施形態1〜7についても
同様である。
【0118】また、検索対象とするテキストデータベー
ス名の一覧を登録する。また、題目、出典のテキストデ
ータベース名、日付、抄録部分、本文全体、また文書が
新聞記事である場合は、その記事のニュースソースであ
るプレス名などの文書情報や文書の構成要素の中から、
ユーザが所望する文書情報あるいは要素を登録する。
【0119】ユーザ情報記憶部52には、この他、ユー
ザが前回検索した日時の情報が検索毎に自動的に登録さ
れる。また、ユーザ情報記憶部52にはユーザの契約残
高の情報が登録されており、検索結果に応じて、利用し
たテキストデータベースの課金形態に応じて必要経費を
計算し、ユーザの契約残高から差し引く。
【0120】情報フィルタリングシステムは、ユーザ情
報記憶部52に記述されている情報に従い、テキストデ
ータベースを定期的に検索し、前回ユーザが検索した日
時以降に登録された文書を抽出する。そして、指定され
たトピックに関係する記事を検索し、その結果を絞り込
み、ユーザ情報記憶部52に指定された表示形式により
表示装置62に出力する。検索結果は検索結果履歴記憶
部59に記憶される、検索条件変更部60は検索結果履
歴記憶部59の検索履歴を調べ、必要に応じてユーザ情
報記憶部52に登録されている検索条件(類似度のしき
い値、出力件数、トピック、検索対象データベース、表
示形式など)を変更する。
【0121】次に、文書検索部56、検索条件変更部6
0、検索結果提示部58それぞれの具体的な機能につい
て説明する。
【0122】文書検索部56によって主に実現される機
能は、次の通りである。 (1)検索結果に応じて類似度の閾値を変更する、ある
いは検索結果に基づき算出された新たな閾値とその計算
根拠をユーザに提示し閾値の変更を促す。 (2)類似度順に文書をランキングして得られる類似度
の下降曲線の形状を判断し、類似度がなだらかになった
部分を閾値とする。
【0123】検索条件変更部60によって主に実現され
る機能は、次の通りである。 (1)検索結果に応じて検索対象となるテキストデータ
ベースを変更する、あるいは検索結果に基づき決定され
た変更テキストデータベースの候補およびその根拠をユ
ーザに提示しテキストデータベースの変更を促す。 (2)過去一定検索回数におけるテキストデータベース
からの検索文書数の総和が全検索数の(事前に定められ
た)一定割合以下である場合あるいはテキストデータベ
ースからの検索文書数が全検索数の(事前に定められ
た)一定割合以下であることが一定検索回数続いた場
合、そのテキストデータベースを検索対象から外す。 (3)ユーザの契約残高に応じて検索条件の変更を行な
う。 (4)ユーザの契約残高に応じて検索文書数を類似度が
上位のものだけに減らす。
【0124】検索結果提示部58によって主に実現され
る機能は、次の通りである。 (1)類似度に応じて文書の表示方式を変更する。 (2)高い類似度の文書は、大きいフォントで表示す
る。 (3)高い類似度の文書は、ゴジックフォントで表示す
る。 (4)高い類似度の文書には、より大きな表示領域を割
り当てる。
【0125】また、検索条件変更部60には、次の機能
もある。 (1)検索結果に応じて類似度の閾値を変更する、ある
いは検索結果に基づき算出された新たな閾値とその計算
根拠をユーザに提示し閾値の変更を促す。 (2)検索結果に応じてトピックの変更を行う、あるい
は検索結果に基づき決定された変更トピックの候補およ
びその根拠をユーザに提示しトピックの変更を促す。 (3)検索文書数が(事前に定められた)一定検索数以
下である場合が(事前に定められた)一定回数以上続い
た場合、あるいは過去一定検索回数における検索文書数
の総和が一定件数以下である場合、閾値の変更あるいは
トピックの変更あるいはテキストデータベースの変更あ
るいはそれらの変更をユーザに促す。 (4)検索文書数が(事前に定められた)一定検索数以
上である場合が(事前に定められた)一定回数以上続い
た場合、あるいは過去一定検索回数における検索文書数
の総和が一定件数以上である場合、閾値の変更あるいは
トピックの変更あるいはテキストデータベースの変更あ
るいはそれらの変更をユーザに促す。 (5)検索文書数が(事前に定められた)一定検索数以
下である場合が(事前に定められた)一定回数以上続い
た場合、あるいは過去一定検索回数における検索文書数
の総和が一定件数以下である場合、閾値を下げる。 (6)検索文書数が(事前に定められた)一定検索数以
上である場合が(事前に定められた)一定回数以上続い
た場合、あるいは過去一定検索回数における検索文書数
の総和が一定件数以上である場合、閾値を上げる。 (7)検索文書数が(事前に定められた)一定検索数以
下である場合が(事前に定められた)一定回数以上続い
た場合、あるいは過去一定検索回数における検索文書数
の総和が一定件数以下である場合、トピックを上位トピ
ックあるいは関連トピックに変更する。 (8)検索文書数が(事前に定められた)一定検索数以
上である場合が(事前に定められた)一定回数以上続い
た場合、あるいは過去一定検索回数における検索文書数
の総和が一定件数以上である場合、トピックをサブトピ
ックに変更する。
【0126】なお、これ以外の機能についての文書検索
部,検索結果提示部の動作は、標準的な文書検索システ
ムにのっとるものであり、伊藤哲郎著:「情報検索」,
昭晃堂(昭和61年)などに記載されているものと同様
である。
【0127】次に、文書検索部56の動作を詳細に説明
する。
【0128】従来の検索出力の絞り込みは、類似度順に
検索結果を並べ、出力件数が指定されている場合は上位
から指定数個の記事を、類似度の下限値である閾値が指
定されている場合は類似度がその値以上の文書を出力す
ることが実現されていた。
【0129】しかし、出力件数を指定した場合、指定ト
ピックに関連する記事が多数あっても、類似度上位の、
直接関連していると判断された記事しか出力されない。
また、閾値を指定した場合、指定トピックに関連する記
事の全体が少ない場合でも、ある程度以上の関連性をも
った記事しか出力されない。
【0130】またどちらの場合も、ボーダーラインの近
辺においては、類似度(関連度)が殆ど同じ記事の一方
が出力され、僅かに劣る他方が出力されないという事態
が起きる可能性がある。
【0131】これらの問題に対処するために、このシス
テムでは、検索結果である類似度の分布の全体的形状を
判断することにより、類似度が比較的近い文書毎にグル
ープを構成し、そのグループを単位として出力するよう
にしている。
【0132】以下、具体的な検索結果に即して説明す
る。
【0133】図19は、あるトピックに対する検索結果
を類似度の高い順に並べた図である。縦軸は文書の類似
度、横軸は文書の類似度順位を示している。
【0134】図19においては、第1位から第3位まで
に急激な類似度の低下(1.55迄低下)があり、第3位か
ら第19位までにやや緩やかな類似度の低下(1.21迄低
下)があり、第19位から25位までにまた急激な類似
度の低下(0.75迄低下)があり、第25位から45位ま
での文書は等しい類似度(約0.75)をもち、第45位か
ら第65位までに緩やかな類似度の低下(0.45迄低下)
があり、第65位からはまた等しい類似度(約0.45)の
文書がつづいている。
【0135】従って、類似度1.55,1.21,0.75,0.45
は、検索結果を区分する目安となる。これらの値は検索
トピックの内容、およびその都度の検索結果に依存して
おり、事前に決めておくことはできない。これらの値で
区分された単位で出力することにより、特に、類似度の
低下がない、あるいはなめらかな部分の前後で区切るこ
とにより、類似度(関連度)が殆ど同じ記事の一方が出
力され、僅かに劣る他方が出力されないという事態をな
くすことができる。
【0136】図20、図21、図22にそのためのアル
ゴリズムを示す。
【0137】図20に示されているアルゴリズムは、文
書毎に順次類似度の差分を取ることにより、図19のよ
うな類似度順に文書をランキングして得られる類似度の
下降曲線について、類似度の下降の少ない平坦な箇所の
右端とその場所の類似度および文書順位を求めるための
ものである。
【0138】図21のアルゴリズムは、指定された出力
文書数を上回らない範囲で文書順位が最低の平坦な箇所
を求め、その箇所までの文書を出力するためのものであ
る。
【0139】図22のアルゴリズムは、指定された類似
度の閾値を下回らない範囲で類似度が最低の平坦な箇所
をもとめ、その箇所までの文書を出力するためのもので
ある。
【0140】図20〜図22の処理により、類似度順に
文書をランキングして得られる類似度の下降曲線の形状
を判断され、類似度がなだらかになった部分が新たな閾
値または出力文書数となるように検索条件の変更が行わ
れる事になる。
【0141】次に、このシステムの特徴の1つである、
ユーザの契約残高に応じて、検索文書数を類似度が上位
のものだけに減らす場合について、文書検索部56およ
び検索結果提示部58の動作の説明を行なう。
【0142】図38はそのためのアルゴリズムである。
このアルゴリズムにより、ユーザの契約残高が事前に決
められた一定値を下回った場合、しきい値が一定値だけ
上げられていく。
【0143】従来の検索システムでは残高が0になった
途端に定期的な検索が打ち切られていたが、本方式によ
り残高がある程度以下になった場合は、検索件数を減ら
していくことにより、検索一回あたりの経費が減ってい
くので、残高が少なくなっても突然検索が打ち切られる
ことなく、最も重要度の高い少数の文書は検索され続け
ることになる。
【0144】つぎに、このシステムの特徴の1つである
高い類似度の文書を大きいフォントで表示する場合につ
いて、検索結果提示部58の動作の説明を行なう。
【0145】図39は、この方式を実現するアルゴリズ
ムである。この方式により指定類似度以上の文書は大き
なフォントで表示されるので、ユーザは提示された複数
の文書のうちどの文書が最も検索トピックと関連のある
文書であるかを容易に判断することができる。
【0146】最後に、検索条件変更部60の動作を説明
する。
【0147】これは、前述した次の機能の実現のために
行われる。 (機能1)検索文書数が(事前に定められた)一定検索
数以下である場合が(事前に定められた)一定回数以上
続いた場合、あるいは過去一定検索回数における検索文
書数の総和が一定件数以下である場合、閾値を下げる。 (機能2)検索文書数が(事前に定められた)一定検索
数以上である場合が(事前に定められた)一定回数以上
続いた場合、あるいは過去一定検索回数における検索文
書数の総和が一定件数以上である場合、閾値を上げる。 (機能3)検索文書数が(事前に定められた)一定検索
数以下である場合が(事前に定められた)一定回数以上
続いた場合、あるいは過去一定検索回数における検索文
書数の総和が一定件数以下である場合、トピックを上位
トピックあるいは関連トピックに変更する。 (機能4)検索文書数が(事前に定められた)一定検索
数以上である場合が(事前に定められた)一定回数以上
続いた場合、あるいは過去一定検索回数における検索文
書数の総和が一定件数以上である場合、トピックをサブ
トピックに変更する。 (機能5)過去一定検索回数におけるテキストデータベ
ースからの検索文書数の総和が全検索数の(事前に定め
られた)一定割合以下である場合あるいはテキストデー
タベースからの検索文書数が全検索数の(事前に定めら
れた)一定割合以下であることが一定検索回数続いた場
合、そのテキストデータベースを検索対象から外す。
【0148】図23に示したアルゴリズムは、検索文書
数が指定された件数以下であることが指定された回数続
いたことを判定するアルゴリズムであり、機能1,機能
3で利用される。
【0149】図24に示したアルゴリズムは、検索文書
数が指定された件数以上であることが指定された回数続
いたことを判定するアルゴリズムであり、機能2、機能
4で利用される。
【0150】機能1および機能2の方式では、図23あ
るいは図24のアルゴリズムで変更が必要と判断された
場合、ユーザ情報記憶部52に登録されているUNある
いはUSを事前に定められた定数(dUS,dUN)だ
け足すあるいは引くことによりUSあるいはUNを変更
する。
【0151】図25,図26、図27、図28はその為
のアルゴリズムである。
【0152】また、図32、図33に示すアルゴリズム
は、機能3の方式を実現するアルゴリズムである。図3
4はこのアルゴリズムの説明をするための検索例であ
る。
【0153】この例では、指定回数(3回)以前からの
検索件数が指定件数(100件)を上回っているので、
サブトピックに検索トピックが変更される。この場合、
サブトピック毎の検索割合が指定割合(60%)を越え
るsubtopic1 に検索トピックが変更される。
【0154】図35、図36に示すアルゴリズムは、機
能4の方式を実現するアルゴリズムである。図37はこ
のアルゴリズムの説明をするための検索例である。この
例では指定回数(3回)以前からの検索件数が指定件数
(5件)を下回っているので、上位トピックあるいは関
連トピックに検索トピックが変更される。この場合、Up
perTopic3 の検索回数合計が指定された10件を上回っ
ているので、UpperTopic3 に検索トピックが変更され
る。
【0155】図29、図30に示すアルゴリズムは機能
5の方式を実現するアルゴリズムである。図31はこの
アルゴリズムの説明をするための検索例である。
【0156】この例では指定回数(3回)以前からの検
索件数の合計に対するテキストデータベース毎の割合を
調べると、テキストデータベース1の割合が1%であり
指定割合(10%)を下回っているので、このテキスト
データベースは検索対象から外される。
【0157】以上のように、実施形態8の構成によれ
ば、例えば検索が実行される都度あるいは連続する何度
かの検索結果に応じてトピックや類似度の閾値などが動
的に変更され、これによって経時的に変化されるテキス
ト記事の内容に検索条件や類似度の閾値を自動的に追従
させることができるようになる。このため、ユーザ自身
が検索条件の指定を変更しなくても、常に適切な記事を
ユーザに提示することが可能となる。
【0158】(実施形態9)次に、この発明の第9の実
施形態について説明する。
【0159】図41には、実施形態9に係る情報フィル
タリングセンタ1の構成が示されている。図中、実線の
矢印はデータの流れを、破線の矢印は処理の流れを示し
ている。
【0160】この情報フィルタリングセンタ1は、情報
源から到着した文書からフィルタリングに必要な情報を
抽出する文書情報抽出部71と、到着した文書からユー
ザープロファイルに合致するものを検索する文書検索部
72と、文書検索部72で得られた文書に順位づけを行
ってユーザに提示する文書をフィルタリングする文書フ
ィルタリング部73と、ユーザに提示する文書情報を生
成する提示情報生成部74と、ユーザへの文書送信やユ
ーザーからの要求の受信を行うユーザーインタフェース
部75と、ユーザの要求に合った文書もしくは合わなか
った文書から重要な単語もしくは関係のない単語を抽出
する単語抽出部76と、単語抽出部76で抽出された単
語によりユーザープロファイルを変更するユーザープロ
ファイル変更部77と、フィルタリングのための文書情
報、ユーザープロファイル、文書解析用辞書などを記憶
する文書情報記憶部78により構成される。
【0161】図42に、この実施形態9の処理の流れを
示す。
【0162】この実施形態9の処理は、ユーザによるユ
ーザープロファイルの登録および削除処理(ステップS
71,S72)、文書のフィルタリング(ステップS7
3〜S75)、ユーザの文書指定によるユーザープロフ
ァイルの変更(ステップS76、S77)の3つの処理
のサイクルとなっている。ここで、ユーザープロファイ
ルとは、前述したように、ユーザの要求を表現する単語
の集合であり、後述の類似度計算に用いられる。
【0163】図43には、図42のフィルタリング処理
(ステップS73〜S75)の詳細が示されている。
【0164】まず、情報源から新たに到着した文書に対
してユーザープロファイルで指定された単語による文書
検索を文書検索部72で行い、単語が含まれている文書
を探し出す(ステップS81)。
【0165】ここで、文書検索のアルゴリズムについて
は多数のものが発表され、また実現されているので、こ
こでは詳細を省く。
【0166】次に、検索によって得られた文書に対し
て、形態素解析、書式解析、構文解析などを文書情報抽
出部71で行い、文書の順位づけに必要な情報を生成し
記憶する(スップS82)。
【0167】そして、文書フィルタリング部73におい
て、ユーザープロファイルに従って文字列検索によって
得られた文書の順位づけを行ったうえで、ユーザに提示
する文書を決定し(ステップS83)、それをユーザー
に提示する(ステップS84)。
【0168】図44は、図42のユーザープロファイル
の変更処理(ステップS76、S77)の詳細を示して
いる。
【0169】すなわち、ユーザは、もしもフィルタリン
グ結果に不満を持っているならばユーザープロファイル
の内容を変更するたるに、提示された文書もしくはユー
ザーの持ち合わせている文書の中から、ユーザの要求に
適合する文書もしくは非適合文書を指定する(ステップ
S91)。次に、指定された文書の形態素解析を行い、
適合文書群および非適合文書群それぞれで共通に存在す
る自立語を調べる(スップS92、S93)。ここで、
適合文書群に共通の自立語にはユーザーの要求にとって
重要な単語を含んでおり、また非適合文書群に共通の自
立語にはユーザーの要求とは関係のない単語を含んでい
る。
【0170】そして、この得られた自立語の中からユー
ザーが適切と思われるものを選択し、ユーザープロファ
イルに追加もしくはユーザープロファイルから削除する
(ステップS94、S95)。
【0171】図45には、図43における文書解析処理
(ステップS82)の詳細が示されている。
【0172】すなわち、文書情報抽出部71は、文書検
索部72による単語での文書検索で得られた文書それぞ
れに対して、それが未解析であれば、形態素解析を行
い、文書中の自立語を抽出する(ステップS101、S
102)。
【0173】ただし、他のユーザーのフィルタリングに
よってすでに解析が行われている場合には、その文書に
対する解析は行わないようにする。
【0174】これによって、事前に文書情報の抽出を行
う場合よりも、全体の処理の時間は短縮される。
【0175】図46に、図43におけるフィルタリング
処理(ステップS83)の詳細を示す。
【0176】まず、文字単位マッチでの出現頻度による
類似度計算(ステップS111)が行われる。ここで
は、文字単位で文書内でマッチしたユーザプロファイル
内の単語の出現頻度を用いて、文書とユーザプロファイ
ルの類似度が計算される。
【0177】ここで、類似度とは、文書とユーザプロフ
ァイルの相関を表すものである。一般に類似度は、その
値が大きいほど、文書とユーザプロファイルが似ている
ことを表す。類似度の算出方法は数多く提案されている
(例えばG.サルトン著『SMART情報検索システ
ム』)ので、ここでは詳細は省略する。
【0178】次に、単語単位マッチでの出現頻度による
類似度計算(ステップS112)が行われる。ここで
は、形態素解析によって抽出された単語とマッチしたユ
ーザプロファイル内の単語の頻度を用いて、文書とユー
ザプロファイルの類似度が計算される。
【0179】文字単位マッチでの出現頻度による類似度
計算は『海上演習』に『上演』がマッチしてしまうよう
に全く意味の異なる単語も含めて類似度を計算してしま
う可能性があるのに対し、単語単位マッチでの出現頻度
による類似度計算ではそれがない。
【0180】逆に単語単位マッチでの出現頻度による類
似度計算は、形態素解析用辞書に無い単語に関しては正
しく解析できないために類似度計算に含まれなくなって
しまう可能性があるが、文字単位マッチでの出現頻度に
よる類似度計算ではそれがない。
【0181】よって、二つの類似度計算方法を合わせる
ことによってお互いの欠点を補い、より正確な類似度計
算が可能となる。
【0182】次に、このようにして2つの方式による類
似度計算を行なった後、それらを足し合わせて文書の順
位づけを行う(ステップS113)。もちろん、ステッ
プS111とS112の類似度の内、高い方の類似度を
使うなどの変形も可能である。
【0183】次に、文書の順位づけが行われる(ステッ
プS114)。文書の順位づけは、類似度の総和の大き
い順であるが、ソートのアルゴリズムは多数あり、また
公知であるので、ここでは説明を省略する。
【0184】そして、予め指定された提示文献数だけ、
類似度が上位の文献が選択される(ステップS11
5)。
【0185】このように、実施形態9の構成によれば、
複数の類似度計算方法を組合わせることによって、単独
の類似度計算方法では免れなかったフィルタリング精度
の低下を避け、フィルタリング精度を向上できる。類似
度計算方法としては、前述したように、文字単位マッチ
での出現頻度による類似度計算と、単語単位マッチでの
出現頻度による類似度計算とを組み合わせる事が好まし
い。文字単位マッチでの出現頻度による類似度計算は、
全く意味の異なる単語も含めて類似度を計算してしまう
可能性があるのに対し、単語単位マッチでの出現頻度に
よる類似度計算ではそれがない。逆に、単語単位マッチ
での出現頻度による類似度計算は、形態素解析用辞書に
無い単語に関しては正しく解析できないために類似度計
算に含まれなくなってしまう可能性があるが、文字単位
マッチでの出現頻度による類似度計算ではそれがない。
よって、これら二つの類似度計算方法を合わせることに
よってお互いの欠点を補い、より正確な類似度計算が可
能となる。
【0186】また、フィルタリング時にフィルタリング
に必要な記事のみの前処理を同時に行うために、最初に
検索条件で指定された単語を含む記事を選択するという
簡単な1次検索を行っておき、その1次検索によって選
定された記事について形態素解析、または書式解析など
の前処理を行っている。これにより、フィルタリング処
理全体に必要な時間の短縮や必要な記憶領域の削減が可
能となる。さらに、ユーザが指定した適合文書や非適合
文書からユーザープロファイルを変更するための単語を
抽出し、ユーザの要求や興味に合致するようなプロフィ
ルとなるようにその抽出した単語によってユーザプロフ
ァイルを変更する機能を有しているので、フィルタリン
グ性能をより向上させることができる。
【0187】次に、図43のステップS83で説明した
文書解析処理の具体例を説明する。
【0188】この文書解析処理の流れを図47に示す。
文書情報記憶部78には、記事ファイルの電子化形態に
関する情報、および日付、著者、見出しや本文、アブス
トラクトといった文書要素の並びや構成に関する情報
(書式情報)が登録されている。
【0189】書式解析処理(ステップS201)では、
各情報源から到着した様々なフォーマットの文書(記事
ファイル)に対してその書式情報を用いて書式解析を行
ない、文を単位とする統一的なフォーマットに変換す
る。この後、形態素解析処理(ステップS202)で
は、文を単位とする形態素解析処理が行なわれ、解析結
果が元記事ファイルとともに、文書情報記憶部78に格
納される。
【0190】図48には、書式解析処理の流れが示され
ている。以下文書の具体例に即して、この文書解析処理
を説明する。
【0191】情報源から到着した記事は、例えば、図4
9のような形式をしている。書式解析処理では、まず文
書情報記憶部78に登録された書式情報を参照して記事
ファイルの書式情報を得る(ステップS211)。図4
9に示されているように、記事ファイルは、記号“\
t”をセパレータとして記事日付、タイトル、アブスト
ラクト、本文といった文書要素の順で構成されている。
この記号“\t”は、記事ファイルに予め付加されて情
報源から送られてくる。
【0192】書式解析処理はこの情報に基づいて文書フ
ァイルを文書要素毎に分割する。またこのファイルは4
0字毎に改行されているが、それはファイル処理上の便
宜的なものであるので、改行記号を削除し、行連結を行
なう(ステップS212)。
【0193】次に書式解析処理はアブストラクト部分や
本文部分などについて、章や節の構造の解析と章節見出
しの検出を行なう(ステップS213)。この処理は、
文書情報記憶部78に登録された文書情報に応じて行な
う。文書がSGML(Standard Genera
lized Markup Language)形式で
ある場合は、しかるべき文書構造定義ファイル(DT
D)に従って、文書構造解析(SGMLバージング)を
行なう。
【0194】特定の記号が章節あるいは、章節見出しの
開始場所や終端を示している場合には、その情報に基づ
いて、章や節の分割と章節見出しの検出を行なう。
【0195】次に、検出された各章節について、段落
(パラグラフ)の検出、および各節段落を文単位に分割
する(ステップS214,S215)。
【0196】文分割処理では、句点文字“。”あるいは
“、”を分割の単位として、文単位に分割される。この
文分割処理に際しては、句点以外にダッシュ記号“−”
や引用符記号などを分割の単位とすることもある。特に
ダッシュ記号“−”等が多数連続する場合はそこで文が
終わっている場合が多いので、その箇所で分割する。
【0197】文書情報記憶部78に文書ファイルに関す
る情報がない場合は、章節の解析や段落の解析をヒュー
リスティックスルールによって自動的に行なう。この場
合、前後の行が空行で、行長が比較的短く、句点で終わ
っていない行は章節見出しであると判断される。また、
行の先頭にスペースあるいはタブ記号があり、前の行が
句点で終わっていて、基本行長(40字)未満である場
合、そこが段落の切れ目であると判断できる。
【0198】ヒューリスティックスルールによって、各
種の文書情報を得ることも可能である。たとえば、記事
の最終行に …“(“人名相当文字列”)” という文字列がある場合には、それは記者名であると判
断できる。
【0199】また、記事の始めに […地名相当文字列…発] […地名相当文字列…局] とあれば、これは記事のソースとなった新聞社や支社を
示していると判断できる。このようなヒューリスティッ
クスに従って、章節見出しの解析と段落の解析、文書情
報の検出を行なう。
【0200】上述の処理結果を、特定の形式に従って文
書情報記憶部78のテキストデータ格納部に収納する。
上述の処理によって図49に示した文書を書式解析した
結果を図50に示す。行頭の記号は“T”がタイトル、
“A”がアブストラクト、“M”が見出し、“8”が段
落先頭を示している。数字は文番号である。
【0201】次に、このようにして書式解析されて得ら
れた文を単位として形態素解析を行なう。
【0202】図50に示した書式解析結果に対する形態
素解析結果の例を図51に示す。
【0203】“/”は文節の切れ目を、“< >”は形
態素品詞を、“+”は自立語と附属語、あるいは附属語
間の切れ目を示す。
【0204】なお、本実施形態の説明では、元記事ファ
イルは1記事で1ファイルであったが、複数の文書が1
つのファイルにまとめられていることもある。
【0205】その場合、個々の記事の書式解析に先立っ
て、記事ファイルを1記事毎に分割する処理を設ける。
【0206】また、本実施形態の説明では、元記事ファ
イルはテキストファイルであるが、圧縮されたバイナリ
ファイルであることや、SGML文書であることもあ
る。その場合、ファイルがどのような形態であるかにつ
いての情報が文書情報記憶部78に登録されているの
で、必要に応じて、記事の圧縮復元処理や、SGMLバ
ージング処理を行なう。
【0207】また、形態素解析に利用する形態素解析辞
書を記事の種類や、情報源毎に切り替えることも可能で
ある。
【0208】(実施形態10)次に、この発明の第10
の実施形態について説明する。
【0209】この実施形態10の構成は、実施形態9の
それと同じであり、文書解析処理とフィルタリング処理
だけが異なっている。
【0210】図52は、図43における文書解析処理
(ステップS82)の詳細であり、文書情報抽出部71
は、文書検索部72による単語での文書検索で得られた
文書それぞれに対して、それが未解析であれば、形態素
解析を行い、文書中の自立語を抽出すると共に、文書の
書式解析も行う(ステップS121、S122)。この
書式解析では、文書中の見出しと本分の弁別が行われ
る。
【0211】図53は、図46の処理に文字単位マッチ
での見出し内出現頻度による類似度計算処理(ステップ
S133)、および単語単位マッチでの見出し内出現頻
度による類似度計算処理(ステップS134)を加えた
ものである。他の処理ステップS131,S132、S
135〜S137は、それぞれ図46の対応するステッ
プの処理と同じである。
【0212】ステップS133、S134の追加によ
り、文書の内容を端的に表現している見出しにある単語
にも重点をおいてフィルタリングを行なうことが可能と
なる。
【0213】(実施形態11)実施形態11の装置構成
及び機能構成は、実施形態10のそれと同じである。こ
こでは、図53と異なる点についてのみ説明する。
【0214】図54は、図53の処理と比較し、文字単
位マッチでの一文目内出現頻度による類似度計算(ステ
ップS143)および単語単位マッチでの一文目内出現
頻度による類似度計算(ステップS144)が異なる。
【0215】一般に、文書の1文目に文書の全体内容が
表現されていることが多いため、これらステップS14
3、S144により文書の1文目にも重点をおいてフィ
ルタリングをすることが可能になる。
【0216】(実施形態12)実施形態12の装置構成
及び機能構成は、実施形態10のそれと同じである。こ
こでは、図53と異なる点について説明する。
【0217】図55は、図53とは文字単位マッチでの
一段落目内出現頻度による類似度計算処理(ステップS
153)、および単語単位マッチでの一段落目内出現頻
度による類似度計算処理(ステップS154)が異な
る。文書の1段落目に文書の全体内容が表現されている
ことが多く、これらにより文書の1段落目にも重点をお
いてフィルタリングをすることが可能になる。
【0218】(実施形態13)実施形態13の装置構成
及び機能構成は、実施形態10のそれと同じである。こ
こでは、図46と異なる点について説明する。
【0219】図56は、図46に文字単位マッチでの一
文内共起頻度による類似度計算処理(ステップS16
3)、および単語単位マッチでの一文内共起頻度による
類似度計算処理(ステップS164)を加えたものであ
る。これにより、2つ以上の単語が一文内に共に共存し
ている場合にその文書が重要であるとして類似度を高く
することが可能となる。
【0220】(実施形態14)実施形態14の装置構成
及び機能構成は、実施形態10のそれと同じである。こ
こでは、図46と異なる点について説明する。
【0221】図57は、図46に文字単位マッチでの一
文内共起頻度による類似度計算(ステップS173)、
および単語単位マッチでの一文内共起頻度による類似度
計算(ステップS174)を加えたものである。これに
より、2つ以上の単語が一段落内に共に共存している場
合にその文書が重要であるとして類似度を高くすること
が可能となる。
【0222】(実施形態15)この実施形態15の装置
構成及び機能は、図41に示した実施形態9と次の点で
異なっている。
【0223】図58は、実施形態15の機器構成であ
り、図41の構成から、単語抽出部76及びユーザープ
ロファイル変更部77が削除されている。また、図41
の双方向ユーザインタフェース部75は、片方向の文書
送信部81に置き換えられている。
【0224】図59は、実施形態15の処理の流れを示
している。図42に示した実施形態1の処理の流れ)か
らユーザープロファイル変更に関わる処理が削除されて
いる。
【0225】以上により、この実施形態15は、実施形
態9よりユーザによるユーザープロファイル変更を除い
た情報フィルタリングシステム専用の装置となる。
【0226】なお、以上説明した実施形態1〜15は種
々組み合わせて利用する事ができる。また、以上の説明
は、通信網を介してフィルタリング結果をセンタからユ
ーザに送るネットワークシステムとして実現した例につ
いて述べたが、この発明の情報フィルタリングシステム
の中枢をなすセンタの機能は個人の計算機上で構築する
こともできる。この場合、ユーザ端末とフィルタリング
システムが一体となった形態となり、ユーザ端末とフィ
ルタリングシステム間には通信網は存在しないことにな
る。
【0227】
【発明の効果】以上説明したように、この発明によれ
ば、複数の言語の記事を含むニュースソースを対象にし
た情報フィルタリングサービスを利用者に提供すること
が可能となる。また、検索の都度あるいは連続する何度
かの検索結果に応じて各種検索条件を動的に変更し、
(経時的な)テキストデータベースの内容の変化に検索
条件を追従させているので、ユーザが適切でなくなった
検索条件を変更する手間がいらなくなる。また、複数の
類似度計算方法を組み合わせることによってフィルタリ
ング精度が向上し、また検索時に必要な文書の情報解析
を行うので、フィルタリング時間も短縮できる。
【図面の簡単な説明】
【図1】この発明の各実施形態が適用される情報フィル
タリング装置全体のシステム構成を示すブロック図。
【図2】図1の情報フィルタリング装置の運用形態を概
念的に示す図。
【図3】この発明の実施形態1に係る情報フィルタリン
グ装置に設けられる情報フィルタリングセンタの構成を
示すブロック図。
【図4】同第1実施形態の装置におけるテキスト記事受
信処理の流れを示すフローチャート。
【図5】同第1実施形態の装置における類似度算出処理
の流れを示すフローチャート。
【図6】同第1実施形態の装置における検索条件のデー
タ形式と実際のデータ例を示す図。
【図7】同第1実施形態の装置における送信記事判定処
理の流れを示すフローチャート。
【図8】この発明の実施形態2に関わる装置の機能構成
を示すブロック図。
【図9】同実施形態2の装置における重複記事削除処理
の流れの一部を示すフローチャート。
【図10】同実施形態2の装置における重複記事削除処
理の流れの残りの一部を示すフローチャート。
【図11】同実施形態2の装置における記事間類似度算
出処理の流れを示すフローチャート。
【図12】この発明の実施形態3に関わる装置の機能構
成を示すブロック図。
【図13】この発明の実施形態4に関わる装置の機能構
成を示すブロック図。
【図14】この発明の実施形態5に関わる装置の機能構
成を示すブロック図。
【図15】この発明の実施形態6に関わる装置における
送信記事のデータ形式の一例を示す図。
【図16】この発明の実施形態7に関わる装置の機能構
成を示すブロック図。
【図17】同実施形態7の装置におけるレレバンスフィ
ードバック部の処理の流れを示すフローチャート。
【図18】この発明の実施形態8に係る装置の構成を示
すブロック図。
【図19】同実施形態8の装置においてトピックに対す
る検索結果を類似度の高い順に並べた様子を示す図。
【図20】同実施形態8の装置において類似度の下降曲
線の平坦な箇所の右端とその場所の類似度および文書順
位を求める処理を示すフローチャート。
【図21】同実施形態8の装置において指定された出力
文書数を上回らない範囲で出力文書数を変更する処理を
示すフローチャート。
【図22】同実施形態8の装置において指定されたを下
回らない範囲で出力文書数を変更する処理を示すフロー
チャート。
【図23】同実施形態8の装置において検索文書数が指
定された件数以上であることが指定された回数続いたこ
とを判定する処理を示すフローチャート。
【図24】同実施形態8の装置において検索文書数が指
定された件数以上であることが指定された回数続いたこ
とを判定する処理を示すフローチャート。
【図25】同実施形態8の装置において指定された出力
文書数を減らす処理を示すフローチャート。
【図26】同実施形態8の装置において指定された出力
文書数を増やす処理を示すフローチャート。
【図27】同実施形態8の装置において指定された類似
度のしきい値を減らす処理を示すフローチャート。
【図28】同実施形態8の装置において指定された類似
度のしきい値を増やす処理を示すフローチャート。
【図29】同実施形態8の装置においてテキストデータ
ベースをユーザ情報記憶部から削除する処理を示すフロ
ーチャート。
【図30】同実施形態8の装置においてテキストデータ
ベースをユーザ情報記憶部から削除する他の処理を示す
フローチャート。
【図31】同実施形態8の装置における検索例を示す
図。
【図32】同実施形態8の装置においてトピックを変更
する処理を示すフローチャート。
【図33】同実施形態8の装置においてトピックを変更
する他の処理を示すフローチャート。
【図34】同実施形態8の装置における他の検索例を示
す図。
【図35】同実施形態8の装置においてトピックを変更
するさらに他の処理を示すフローチャート。
【図36】同実施形態8の装置においてトピックを変更
するさらにまた別の処理を示すフローチャート。
【図37】同実施形態8の装置におけるさらに他の検索
例を示す図。
【図38】同実施形態8の装置においてユーザの契約残
高に応じて類似度のしきい値を変更する処理を示すフロ
ーチャート。
【図39】同実施形態8の装置において提示するテキス
トのフォントサイズを変更する処理を示すフローチャー
ト。
【図40】同実施形態8の装置で使用されるトピックの
一例を示す図。
【図41】この発明の実施形態9に係る装置の機能構成
を示すプロック図。
【図42】同実施形態9の装置における処理手順全体を
示すフローチャート。
【図43】図42のフィルタリング処理の詳細を示すフ
ローチャート。
【図44】図42のユーザープロファイルの変更処理の
詳細を示すフローチャート。
【図45】図43における文書解析処理の詳細を示すフ
ローチャート。
【図46】図43におけるフィルタリング処理の詳細を
示すフローチャート。
【図47】図43における文書解析処理の具体的な手順
を示すフローチャート。
【図48】図47における書式解析処理の手順を示すフ
ローチャート。
【図49】図47の書式解析処理が行われる文書の一例
を示す図。
【図50】図49の文書の書式解析結果を示す図。
【図51】図50の書式解析結果に対応する形態素解析
結果の例を示す図。
【図52】この発明の実施形態10の装置における文書
解析処理を示すフローチャート。
【図53】図46の処理の他の例を示すフローチャー
ト。
【図54】この発明の実施形態11の装置における検索
処理を示すフローチャート。
【図55】この発明の実施形態12の装置における検索
処理を示すフローチャート。
【図56】この発明の実施形態13の装置における検索
処理を示すフローチャート。
【図57】この発明の実施形態14の装置における検索
処理を示すフローチャート。
【図58】この発明の実施形態15の装置の構成を示す
ブロック図。
【図59】同実施形態15の装置における処理全体の流
れを示すフローチャート。
【符号の説明】
1…情報フィルタリングセンタ、2…情報源、3…ユー
ザ端末、10…ユーザプロファイル、11…受信部、1
2…テキストデータ格納部、13…検索条件格納部、1
4…類似度算出部、15…記事並べ替え部、16…送信
記事判定部、17…送信部、21…重複記事削除部、3
1…翻訳部、33…要約部、41…レレバンスフィード
バック部、51…テキストデータベース、52…ユーザ
情報記憶部、53…テキスト選択部、54…検索対象文
書保持部、55…検索条件指定部、56…文書検索部、
57…検索結果保持部、58…検索結果提示部、59…
検索結果履歴記憶部、60…検索条件変更部、61…入
力装置、62…表示装置、71…文書情報抽出部、72
…文書検索部、73…文書フィルタリング部、74…提
示情報生成部、75…ユーザーインタフェース部、76
…単語抽出部、77…ユーザープロファイル変更部7
7、78…文書情報記憶部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 酒井 哲也 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 三池 誠司 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の情報源からテキストやイメージな
    どの記事の配信を受ける手段と、予めユーザが指定した
    検索条件と前記記事それぞれとの類似度を算出し、その
    算出した類似度に従って、指定された件数あるいは所定
    の閾値以上の類似度を持つ記事を検索する手段と、検索
    された文書をユーザに提示する手段とを有する情報フィ
    ルタリング装置において、 異なる言語で書かれた記事の配信を受け、単一言語で指
    定された検索条件を他の言語に置き換えて前記記事との
    類似度を算出することにより異なる言語で書かれた記事
    を混在してユーザに提示することを特徴とする情報フィ
    ルタリング装置。
  2. 【請求項2】 複数の情報源からテキストやイメージな
    どの記事の配信を受ける手段と、予めユーザが指定した
    検索条件と前記記事それぞれとの類似度を算出し、その
    算出した類似度に従って、指定された件数あるいは所定
    の閾値以上の類似度を持つ記事を検索する検索手段と、
    検索された文書をユーザに提示する手段とを有する情報
    フィルタリング装置において、 前記検索手段の検索結果に応じて、前記類似度の閾値ま
    たは前記検索条件を変更する手段を具備することを特徴
    とする情報フィルタリング装置。
  3. 【請求項3】 複数の情報源からテキストやイメージな
    どの記事の配信を受け、それら配信された記事の中から
    所定の記事を選出してユーザに提示する情報フィルタリ
    ング装置において、 ユーザ毎に予め指定された検索条件を保持する手段と、 各ユーザの検索条件と前記記事それぞれとの類似度を互
    いに異なる複数の類似度計算方法を組み合わせた手法に
    よって算出し、その算出結果に従って、ユーザ毎に検索
    条件に合致する記事を選定するフィルタリング手段とを
    具備することを特徴とする情報フィルタリング装置。
JP33579195A 1995-07-31 1995-11-30 情報フィルタリング装置 Pending JPH09101991A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP33579195A JPH09101991A (ja) 1995-07-31 1995-11-30 情報フィルタリング装置
US08/695,214 US5907836A (en) 1995-07-31 1996-07-31 Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7-212940 1995-07-31
JP21294095 1995-07-31
JP33579195A JPH09101991A (ja) 1995-07-31 1995-11-30 情報フィルタリング装置

Publications (1)

Publication Number Publication Date
JPH09101991A true JPH09101991A (ja) 1997-04-15

Family

ID=26519517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33579195A Pending JPH09101991A (ja) 1995-07-31 1995-11-30 情報フィルタリング装置

Country Status (1)

Country Link
JP (1) JPH09101991A (ja)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0927939A1 (en) * 1997-12-29 1999-07-07 Xerox Corporation Method and system to obtain data for information retrieval
JPH11242680A (ja) * 1998-02-25 1999-09-07 Victor Co Of Japan Ltd ネットワーク利用装置、ネットワーク利用方法、及び、ネットワーク利用プログラムを記録した機械読み取り可能な記録媒体
JP2000067067A (ja) * 1998-08-20 2000-03-03 Sky Com:Kk 配信サーバ及び配信システム
JP2000339346A (ja) * 1999-03-19 2000-12-08 Hitachi Ltd 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体
JP2001014247A (ja) * 1999-06-30 2001-01-19 Fujitsu Ltd サービス調整方法及びサービス調整装置
JP2002014983A (ja) * 2000-06-28 2002-01-18 Dainippon Printing Co Ltd 文書サーバ、文書加工システム及び記録媒体
JP2002116894A (ja) * 2000-10-11 2002-04-19 Fuji Xerox Co Ltd カスタマイズ印刷データ配信方法及びシステム
JP2002189749A (ja) * 2000-12-22 2002-07-05 Hitachi Electronics Service Co Ltd 情報選択システムおよび方法
JP2002189750A (ja) * 2000-12-22 2002-07-05 Hitachi Electronics Service Co Ltd 端末装置
JP2002278893A (ja) * 2001-03-16 2002-09-27 Toshiba Corp 情報配信システム、情報配信方法、プログラム
JP2002342246A (ja) * 2001-05-15 2002-11-29 Pia Corp メールマガジン配信システム及びそれを実現するためのコンピュータプログラム
WO2003034234A1 (fr) * 2001-10-15 2003-04-24 Matsushita Electric Industrial Co., Ltd. Procede de support de communication, serveur de communication comprenant ce procede et systeme support de communication
JP2003524261A (ja) * 2000-02-24 2003-08-12 シルバーブルック リサーチ ピーティーワイ リミテッド プリンタサービス拒否
JP2004005749A (ja) * 1999-03-19 2004-01-08 Hitachi Ltd 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体
JP2005522113A (ja) * 2002-04-02 2005-07-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パーソナル化されたニュースを提供するための方法及びシステム
JP2006024096A (ja) * 2004-07-09 2006-01-26 Searchina Co Ltd 情報配信システム
JP2008158590A (ja) * 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 文書選択装置及び文書選択プログラム
JP2011076457A (ja) * 2009-09-30 2011-04-14 Casio Computer Co Ltd 顔画像補正装置、顔画像補正方法及びプログラム
JP2013501265A (ja) * 2009-07-31 2013-01-10 ヤフー! インコーポレイテッド ソーシャルネットワークの更新におけるメディアオブジェクトの一部分へのリンクのリアルタイムな提供
JP2015528611A (ja) * 2012-09-13 2015-09-28 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 動的データ取得方法およびシステム
JP2016197424A (ja) * 2016-06-22 2016-11-24 株式会社Jvcケンウッド 情報選択装置、情報選択方法、およびコンピュータプログラム
JP2017505962A (ja) * 2014-10-31 2017-02-23 小米科技有限責任公司Xiaomi Inc. 情報選択方法及び装置
JP2019139577A (ja) * 2018-02-13 2019-08-22 日立Geニュークリア・エナジー株式会社 データ検索方法、データ検索装置及びプログラム
US10423706B2 (en) 2014-10-31 2019-09-24 Xiaomi Inc. Method and device for selecting information
JP2020112920A (ja) * 2019-01-09 2020-07-27 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101107A (ja) * 1991-10-07 1993-04-23 Hitachi Ltd 適合率を用いた絞り込みデータ検索装置及び方法
JPH05151253A (ja) * 1991-11-29 1993-06-18 Canon Inc 文書検索装置
JPH05314183A (ja) * 1992-05-07 1993-11-26 Nippon Telegr & Teleph Corp <Ntt> 結果自動補正検索システム
JPH06149887A (ja) * 1992-11-10 1994-05-31 Nippon Telegr & Teleph Corp <Ntt> テキスト型データベース装置
JPH06149886A (ja) * 1992-11-12 1994-05-31 Nippon Telegr & Teleph Corp <Ntt> マーキング機能付きテキスト型データベース装置
JPH07129622A (ja) * 1993-11-01 1995-05-19 Nippon Steel Corp 文書検索装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101107A (ja) * 1991-10-07 1993-04-23 Hitachi Ltd 適合率を用いた絞り込みデータ検索装置及び方法
JPH05151253A (ja) * 1991-11-29 1993-06-18 Canon Inc 文書検索装置
JPH05314183A (ja) * 1992-05-07 1993-11-26 Nippon Telegr & Teleph Corp <Ntt> 結果自動補正検索システム
JPH06149887A (ja) * 1992-11-10 1994-05-31 Nippon Telegr & Teleph Corp <Ntt> テキスト型データベース装置
JPH06149886A (ja) * 1992-11-12 1994-05-31 Nippon Telegr & Teleph Corp <Ntt> マーキング機能付きテキスト型データベース装置
JPH07129622A (ja) * 1993-11-01 1995-05-19 Nippon Steel Corp 文書検索装置

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6396951B1 (en) 1997-12-29 2002-05-28 Xerox Corporation Document-based query data for information retrieval
EP0927939A1 (en) * 1997-12-29 1999-07-07 Xerox Corporation Method and system to obtain data for information retrieval
JPH11242680A (ja) * 1998-02-25 1999-09-07 Victor Co Of Japan Ltd ネットワーク利用装置、ネットワーク利用方法、及び、ネットワーク利用プログラムを記録した機械読み取り可能な記録媒体
JP2000067067A (ja) * 1998-08-20 2000-03-03 Sky Com:Kk 配信サーバ及び配信システム
JP2004005749A (ja) * 1999-03-19 2004-01-08 Hitachi Ltd 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体
JP2000339346A (ja) * 1999-03-19 2000-12-08 Hitachi Ltd 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体
JP2001014247A (ja) * 1999-06-30 2001-01-19 Fujitsu Ltd サービス調整方法及びサービス調整装置
JP2003524261A (ja) * 2000-02-24 2003-08-12 シルバーブルック リサーチ ピーティーワイ リミテッド プリンタサービス拒否
JP4573402B2 (ja) * 2000-06-28 2010-11-04 大日本印刷株式会社 文書サーバ、文書加工システム及び記録媒体
JP2002014983A (ja) * 2000-06-28 2002-01-18 Dainippon Printing Co Ltd 文書サーバ、文書加工システム及び記録媒体
JP2002116894A (ja) * 2000-10-11 2002-04-19 Fuji Xerox Co Ltd カスタマイズ印刷データ配信方法及びシステム
JP2002189749A (ja) * 2000-12-22 2002-07-05 Hitachi Electronics Service Co Ltd 情報選択システムおよび方法
JP2002189750A (ja) * 2000-12-22 2002-07-05 Hitachi Electronics Service Co Ltd 端末装置
JP2002278893A (ja) * 2001-03-16 2002-09-27 Toshiba Corp 情報配信システム、情報配信方法、プログラム
JP2002342246A (ja) * 2001-05-15 2002-11-29 Pia Corp メールマガジン配信システム及びそれを実現するためのコンピュータプログラム
JP4699632B2 (ja) * 2001-05-15 2011-06-15 ぴあ株式会社 メールマガジン配信システム及びそれを実現するためのコンピュータプログラム
WO2003034234A1 (fr) * 2001-10-15 2003-04-24 Matsushita Electric Industrial Co., Ltd. Procede de support de communication, serveur de communication comprenant ce procede et systeme support de communication
JP2005522113A (ja) * 2002-04-02 2005-07-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パーソナル化されたニュースを提供するための方法及びシステム
JP2006024096A (ja) * 2004-07-09 2006-01-26 Searchina Co Ltd 情報配信システム
JP2008158590A (ja) * 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 文書選択装置及び文書選択プログラム
JP2013501265A (ja) * 2009-07-31 2013-01-10 ヤフー! インコーポレイテッド ソーシャルネットワークの更新におけるメディアオブジェクトの一部分へのリンクのリアルタイムな提供
JP2011076457A (ja) * 2009-09-30 2011-04-14 Casio Computer Co Ltd 顔画像補正装置、顔画像補正方法及びプログラム
JP2015528611A (ja) * 2012-09-13 2015-09-28 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 動的データ取得方法およびシステム
US10025807B2 (en) 2012-09-13 2018-07-17 Alibaba Group Holding Limited Dynamic data acquisition method and system
JP2017505962A (ja) * 2014-10-31 2017-02-23 小米科技有限責任公司Xiaomi Inc. 情報選択方法及び装置
US10423706B2 (en) 2014-10-31 2019-09-24 Xiaomi Inc. Method and device for selecting information
JP2016197424A (ja) * 2016-06-22 2016-11-24 株式会社Jvcケンウッド 情報選択装置、情報選択方法、およびコンピュータプログラム
JP2019139577A (ja) * 2018-02-13 2019-08-22 日立Geニュークリア・エナジー株式会社 データ検索方法、データ検索装置及びプログラム
JP2020112920A (ja) * 2019-01-09 2020-07-27 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム

Similar Documents

Publication Publication Date Title
JPH09101991A (ja) 情報フィルタリング装置
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US7113954B2 (en) System and method for generating a taxonomy from a plurality of documents
US5953718A (en) Research mode for a knowledge base search and retrieval system
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US5907836A (en) Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
US7945600B1 (en) Techniques for organizing data to support efficient review and analysis
US7783644B1 (en) Query-independent entity importance in books
US7003442B1 (en) Document file group organizing apparatus and method thereof
JP3577819B2 (ja) 情報探索装置及び情報探索方法
US6286000B1 (en) Light weight document matcher
JPH09101990A (ja) 情報フィルタリング装置
JP2742115B2 (ja) 類似文書検索装置
US20050187923A1 (en) Intelligent search and retrieval system and method
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
US20030004932A1 (en) Method and system for knowledge repository exploration and visualization
WO2009154570A1 (en) System and method for aligning and indexing multilingual documents
Capstick et al. A system for supporting cross-lingual information retrieval
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US20040186706A1 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
EP0822503A1 (en) Document retrieval system
JPH10254883A (ja) 文書自動分類方法
JP2009288870A (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
JP3275813B2 (ja) 文書検索装置、方法及び記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040126

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040129

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040319

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20041203