JP2000339346A - 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体 - Google Patents

類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体

Info

Publication number
JP2000339346A
JP2000339346A JP2000032625A JP2000032625A JP2000339346A JP 2000339346 A JP2000339346 A JP 2000339346A JP 2000032625 A JP2000032625 A JP 2000032625A JP 2000032625 A JP2000032625 A JP 2000032625A JP 2000339346 A JP2000339346 A JP 2000339346A
Authority
JP
Japan
Prior art keywords
search
delivery
text
user
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000032625A
Other languages
English (en)
Other versions
JP2000339346A5 (ja
Inventor
Yasuhiko Inaba
靖彦 稲場
Tadataka Matsubayashi
忠孝 松林
Katsumi Tada
勝己 多田
Takuya Okamoto
卓哉 岡本
Natsuko Sugaya
菅谷  奈津子
Yosuke Gochi
陽介 後地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000032625A priority Critical patent/JP2000339346A/ja
Priority to EP00104382A priority patent/EP1122651B1/en
Priority to DE60044423T priority patent/DE60044423D1/de
Priority to US09/518,689 priority patent/US6549898B1/en
Publication of JP2000339346A publication Critical patent/JP2000339346A/ja
Priority to US10/232,721 priority patent/US6665667B2/en
Priority to US10/718,699 priority patent/US7333983B2/en
Publication of JP2000339346A5 publication Critical patent/JP2000339346A5/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】本発明の課題は、複雑な検索条件式の作成を必
要とせずにユーザが所望する情報を検索できるようにす
るとともに、ユーザが真に所望する情報を含むテキスト
だけをユーザ数によらず高速に配送することができるシ
ステムを提供することである。 【解決手段】ユーザ107により登録された検索条件か
ら抽出された検索タームを照合する有限オートマトン1
14を生成する検索条件登録ステップと、ニュース配信
元106から配信されたテキストを該有限オートマトン
114で検索することにより、複数のユーザに指定され
た検索条件それぞれに対する適合度を算出し、該適合度
が所定の条件を満足する検索条件を指定したユーザに対
して該テキストを配信するテキスト検索配送ステップを
有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】 本発明は、電子化された文
書を、ユーザが予め登録しておいた検索条件で検索し、
条件を満たす文書をそのユーザに配送する文
【0002】書検索配送技術に関する。
【従来技術】 近年、電子メールや電子ニュース等によ
り大量の電子化文書(以下、テキストと呼ぶ)が時々刻
々ユーザへ配信されるようになってきた。また、WWW
(World Wide Web)を利用して情報発信を行なう情報源
が急増しており、これらの情報源から情報収集ロボット
等を用いて収集されるテキストも膨大な量となってい
る。このため、これらのテキストの中から、ユーザが求
める情報を含むテキストを検索し、これを該ユーザに配
信する文書検索配送システムへのニーズが高まってい
る。
【0003】この文書検索配送システムとして、「特開
平10−27182」(以下、従来技術1と呼ぶ)が開
示されている。従来技術1では、複数ユーザの検索条件
式を統合し、1度のテキスト走査により複数ユーザの条
件式を処理している。
【0004】しかし、従来技術1では、ユーザが検索条
件式を作成する必要があるため、次の二つの問題があ
る。
【0005】まず、第一の問題は、あまり使用されない
希少な単語を検索条件として指定した場合や、一般的な
単語であっても複雑に組み合わせた検索条件を指定した
場合には、検索漏れが発生してしまうことである。
【0006】そして、第二の問題は、上記第一の問題と
は逆に、一般的な単語だけを指定した単純な検索条件式
を指定した場合には、検索の目的には適合しない文書
(以下、検索ノイズと呼ぶ)を検索結果に多く含んでし
まうことである。このため目的の文書を容易に入手する
ことができないという問題がある。
【0007】すなわち、検索漏れがなく、検索ノイズの
少ない検索結果を取得するために、適切な検索条件式の
作成が困難であるという問題がある。
【0008】テキストデータベースに登録されている文
書(以下、登録文書と呼ぶ)の中から、所望の情報を含
む文書を検索する文書検索システムにおいて、上記二つ
の問題を改善する技術として、「特願平10−1487
21」(以下、従来技術2と呼ぶ)が開示されている。
【0009】従来技術2では、検索条件として例示され
たテキスト(以下、種文書と呼ぶ)からキーワード(従
来技術2では特徴文字列と呼んでいる)を抽出し、登録
文書の該種文書に対する適合度を算出する。
【0010】従来技術2を用いることにより、ユーザは
所望の情報を含む種文書を例示するだけで、どの検索タ
ームを使用して検索条件式を作成すればよいのか悩むこ
となく検索の実行を指示し、適合度によりソートされた
検索結果上位から順に閲覧することで、検索結果に検索
ノイズが多く含まれていても所望の情報を容易に入手す
ることができるようになる。
【0011】
【発明が解決しようとする課題】以下、上記二つの従来
技術について、その概要を説明し、その問題点を述べ
る。
【0012】まず従来技術1の概要について、図2を用
いて説明する。
【0013】本図は、文書検索配送システムに3人のユ
ーザの検索条件式、ユーザ1:「“文書”と“検索”が
含まれる文書」、ユーザ2:「“登山”が含まれる文
書」およびユーザ3:「“検索”と“登録”が含まれる
文書」が登録されており、収集したテキスト:「文書を
検索する」を走査し、これら3条件に合致するか否かを
判断する例である。
【0014】予め、各ユーザが登録した検索条件式を解
析し、検索ターム“文書”、“検索”、“登山”、“登
録”を抽出する。
【0015】そして、抽出された検索タームの数を、各
ユーザ毎に検索ターム数カウントテーブルに格納する。
例えば、ユーザ1が登録した検索条件式ユーザ1:
「“文書”と“検索”が含まれる文書」からは、“文
書”と“検索”の2つの検索タームが抽出されるため、
検索ターム数カウントテーブルの対応する箇所に“2”
が格納される。同様に、ユーザ2、ユーザ3に対応する
箇所に“1”、“2”がそれぞれ格納される。
【0016】次に、抽出された全ての検索タームを照合
する有限オートマトンが生成される。
【0017】図2における有限オートマトンでは、円形
は有限オートマトンの状態を、矢印は状態遷移を表して
いる。各矢印に付記された文字はこれに対応した状態遷
移が起きる入力文字を、各円形の内部に記された数値は
同状態の状態番号を示す。なお本図では、有限オートマ
トンに示されていない文字が入力された場合(以下、フ
ェイルと呼ぶ)の初期状態への遷移を表す矢印は省略し
ている。
【0018】そして、それぞれの検索タームを指定した
ユーザの識別子をユーザリストとして、有限オートマト
ンの対応する検索ターム検出状態に接続する。本図で
は、例えば“検索”を照合するとその末尾の状態4から
ユーザリストが参照され、“検索”を指定したユーザが
“ユーザ1”および“ユーザ3”であることが検出され
る。
【0019】次に、テキスト:「文書を検索する」を図
2に示した有限オートマトンを用いて走査する処理につ
いて説明する。本例では、“文書”および“検索”と一
致する部分文字列がテキスト中に出現していることが検
出される。本図に示した有限オートマトンで、末尾の状
態に“○”が付記されている検索タームはテキスト中に
一致する部分文字列が出現したことを示す。本例では、
“文書”および“検索”と一致する部分文字列がテキス
ト中に出現しているので、その末尾の状態である状態2
と状態4に“○”が付記される。
【0020】そして、テキスト中の部分文字列と一致し
た検索タームの出現数をユーザ毎にカウントし、検索タ
ーム出現数カウントテーブルに格納する。例えば、ユー
ザ1に対しては、“文書”と“検索”が一致しているの
で“2”とカウントし、ユーザ3に対しては、“検索”
だけが一致しているので“1”とカウントする。ユーザ
2はテキスト中の検索タームと一致する部分文字列が現
れなかったのでカウントを行わず“0”のままである。
【0021】最後に、検索条件式から抽出された検索タ
ーム数をユーザ別に記憶した検索ターム数カウントテー
ブルと、テキスト中の部分文字列として出現している検
索ターム数を記憶した検索ターム出現数カウントテーブ
ルとを比較し、一致している場合には、ユーザが指定し
た検索条件式が合致したものとみなして該テキストを該
ユーザへ配送する。図2でユーザ1の場合は検索ターム
数が2で一致しているためテキストを配送するが、ユー
ザ2およびユーザ3は検索ターム数が一致していないの
で配送しない。
【0022】以上が従来技術1の概要である。
【0023】本技術により、与えられた検索条件式に適
合するテキストを1度の走査によりユーザに配送する文
書検索配送システムを実現することができる。
【0024】しかし、従来技術1では、ユーザが検索条
件式を作成する必要があるため、適切な検索条件式の作
成が困難であるという問題がある。
【0025】この問題を改善する技術として、文書検索
システムにおいては、前述の従来技術2が提案されてい
る。
【0026】以下、従来技術2の概要について、図20
を用いて説明する。
【0027】図20は、種文書「・・・。携帯電話の使
用時のマナーが問題になる。・・・」からキーワード
(以下、従来技術2での呼称“特徴文字列”に合わせて
記述する)を抽出する場合の例である。
【0028】まず、ステップ1910で単一文字種文字
列抽出プログラムを起動し、種文書1920を漢字やカ
タカナなどの文字種の境界で分割することにより、単一
の文字種で構成される文字列(以下、単一文字種文字列
と呼ぶ)1921を抽出する。
【0029】次に、各単一文字種文字列の文字種を判定
(ステップ1911)し、複合語を構成する可能性の高
い漢字文字列とカタカナ文字列に対して、分割確率比較
特徴文字列抽出プログラムを実行することで複合語の分
割処理を行い、特徴文字列を抽出する。また、複合語を
構成する可能性の低いその他の文字種の文字列について
は、単一文字種文字列そのものを特徴文字列として抽出
する(ステップ1912)。
【0030】そしてステップ1913にて、抽出された
特徴文字列をワークエリアに格納する。
【0031】以上が、従来技術2における種文書から特
徴文字列を抽出する処理の例である。
【0032】従来技術2では、本処理により抽出された
特徴文字列の種文書内出現回数とテキストデータベース
内の各文書における出現回数から各文書の適合度を算出
し、適合度の降順に表示する。この適合度の算出方法と
しては、従来技術2で説明されているので、ここでは説
明を省略する。
【0033】以上が従来技術2の概要である。
【0034】従来技術2では、種文書中から特徴文字列
(キーワード)を抽出し、このキーワードを用いて種文
書に対する登録文書の適合度を算出する。したがって、
ユーザは所望の情報を含む文書を例示し、適合度の降順
に検索結果を参照することで、テキストデータベースか
ら所望の情報を含むテキストを入手することができるよ
うになる。
【0035】したがって、本従来技術2を従来技術1に
適用することにより、種文書中から抽出したキーワード
を一つでも含む登録文書に対して、種文書に対する適合
度を付与することで、従来技術1の第一の問題を改善す
ることができる。
【0036】しかし、従来技術1では時々刻々と配信さ
れるテキスト1件毎に検索条件に対する適否を判定し、
適合したテキストを即時にユーザへ配送する。このた
め、従来技術2を用いて検索条件に対する各テキストの
適合度を算出することができても、他のテキストとの適
合度と比較することができない。
【0037】すなわち、従来技術2を単純に従来技術1
の文書検索配送システムに適用したとしても、検索結果
を適合度の降順にソートして配送することができないた
め、従来技術1の第二の問題が改善されないことにな
る。
【0038】また、従来技術2ではキーワードの抽出や
適合度の算出にテキストデータベース中の統計情報を利
用することが可能であるが、従来技術1の文書検索配送
システムでは配信されたテキストを貯えないため、統計
情報の取得が困難であるという問題が発生する。
【0039】本発明の目的は、複数のユーザが入力した
検索条件に基づいて入力したテキストに対し算出し、前
記検索条件が成立するかを判定し、成立する検索条件に
対応するユーザに該入力テキストを配送することによ
り、ユーザが所望とするテキストを配送することができ
るシステムを提供することにある。
【0040】
【課題を解決するための手段】上記課題を改善するた
め、本発明に示す文書検索配送方法では、以下に示すス
テップからなる処理により、ユーザが所望する情報を含
む文書(以下、種文書と呼ぶ)に対する取得されたテキ
ストの適合度を判別し、ユーザへ配布する。
【0041】すなわち、本発明による文書検索配送方法
では、複数のユーザから入力した検索条件を登録する検
索条件登録ステップと、文書情報のテキストデータを対
象として、前記検索条件を満足するテキストを検索し、
該ユーザに配送する検索配送ステップとを有する。
【0042】さらに、前記検索配送ステップでは、前記
検索条件に対する該テキストの合致する割合(以下、適
合度と呼ぶ)を上記テキストから算出し、該適合度によ
り該検索条件の成否を判別し、成立した該検索条件に対
応する前記ユーザに対して、該テキストを配送する。
【0043】このようにすることにより、ユーザが所望
する情報を含む文書に対する取得されたテキストの適合
度を判別し、ユーザへ配布することが可能となる。
【0044】上記ユーザから入力した検索条件は、その
ユーザが所望する文書で与えても良い。その場合、本発
明では、その文書に基づいた検索条件を生成する。
【0045】
【発明の実施の形態】 以下、本発明の第一の実施例に
ついて図を用いて説明する。
【0046】最初に、第一の実施例の概略を図8および
図9を用いて説明する。
【0047】まず、検索条件登録処理の概要を図8を用
いて説明する。本図は、ユーザ1:“文書検索システム
としては、HiRetrievalがよく知られて・・・”、ユー
ザ2:“冬山登山における防寒対策としては、・・・”
およびユーザ3:“システムの文書登録性能を評価する
と、・・・”という3人のユーザの検索条件が登録され
る場合の例である。
【0048】まず、各ユーザにより登録された検索条件
から検索タームを抽出する。本例では、ユーザ1が登録
した検索条件ユーザ1:“文書検索システムとしては、
HiRetrievalがよく知られて・・・”からは、“文
書”、“検索”、“システム”および“HiRetrieval”
の4つの検索タームが抽出される。同様に、ユーザ2が
登録した検索条件からは、“冬山”、“登山”、“防
寒”および“対策”の4つの検索タームが抽出され、ユ
ーザ3が登録した検索条件からは、“システム”、“文
書”、“登録”、“性能”および“評価”の5つの検索
タームが抽出される。
【0049】そして、抽出された全ての検索タームに対
して所定の算出式を用いて重みを算出し、検索ターム重
みテーブルに格納する。
【0050】重みの算出には、例えば、「"Information
Retrieval", William B.Frakes /Ricardo Baeza-Yate
s, Prentice Hall PTR, 1992, p.p. 363 〜 391, "Rank
ingAlgorithm"」(以下、従来技術3と呼ぶ)に開示さ
れているIDF(Inverted Document Frequency)算出式
(1)を用いてもよい。
【0051】
【数1】
【0052】ここで、IDF(i)は検索ターム(i)のIDFを示
し、Nはテキストデータベース中の全文書数を示す。ま
た、n(i)は検索ターム(i)の出現文書数を示す。このIDF
算出式(1)を用いると、例えば、10万件のテキストが
格納されているテキストデータベースにおいて、ユーザ
1の登録した検索条件から抽出された検索ターム“文
書”が2,000件のテキストに出現している場合には、検
索ターム“文書”の重みは“6.6”と算出され、検索タ
ーム重みテーブルに格納される。
【0053】ここで、テキストデータベースに登録され
ている全文書数および検索タームの出現している文書数
は、それぞれニュース配信元から配信されたテキスト数
Nおよび該検索ターム(i)が出現したテキスト数n(i)を計
数しておき、これを利用してもよい。あるいは、配信さ
れたテキスト、あるいは異なるテキストが登録されてい
るテキストデータベースを参照することにより求めても
よい。これにより、文書検索配送システムに対して、統
計情報を用いた適合度算出処理を取得することが可能と
なる。
【0054】次に、抽出された全ての検索タームを照合
する有限オートマトンが作成される。図8における有限
オートマトンでは、円形は有限オートマトンの状態を、
矢印は状態遷移を表している。各矢印に付記された文字
はこれに対応した状態遷移が起きる入力文字を、各円形
の内部に記された数値は同状態の状態番号を示す。なお
本図では、有限オートマトンに示されていない文字が入
力された場合(以下、フェイルと呼ぶ)の初期状態への
遷移を表す矢印は省略している。また本図に示した有限
オートマトンは、本例で作成される有限オートマトンの
一部を省略している。
【0055】そして、それぞれの検索タームが抽出され
た検索条件を指定したユーザの識別子をユーザリストと
して、有限オートマトンの対応する検索ターム検出状態
に接続する。本図では、例えば“検索”を照合するとそ
の末尾の状態4からユーザリストが参照され、“検索”
を指定したユーザが“ユーザ1”であることが検出され
る。
【0056】また、各ユーザにより登録された検索条件
から配送閾値を抽出する。本例では、ユーザ1が登録し
た検索条件からは配送閾値8.0が抽出される。同様
に、ユーザ2およびユーザ3が登録した検索条件から
は、それぞれ3.5、7.0が抽出される。
【0057】そして、抽出された配送閾値はそれぞれユ
ーザ識別子に対応づけて、適合度管理テーブルに格納さ
れる。
【0058】次に、テキスト検索処理の概要を図9を用
いて説明する。本図は、テキスト:“膨大な文書の中か
ら目的の文書を検索する。”を図8に示した有限オート
マトンを用いて走査し、適合する検索条件を検索する場
合の例である。
【0059】まず、図9に示した有限オートマトンを用
いて各検索タームのテキスト中での出現回数を計数す
る。本図に示した有限オートマトンでは、末尾の状態に
各検索タームのテキスト中での出現回数が付記されてい
る。本例では、検索ターム“文書”に一致する部分文字
列がテキスト中に2回出現しているので、その末尾の状
態である状態2に“2”が付記され、検索ターム“検
索”に一致する部分文字列がテキスト中に1回出現して
いるので、その末尾の状態である状態4に“1”が付記
される。
【0060】そして、テキスト中の部分文字列と一致し
た全ての検索タームに対して、その末尾の状態に接続さ
れたユーザリストを参照し、ユーザの登録した各検索条
件に対するテキストの適合度を算出する。ここで各検索
条件に対するテキストの適合度算出式としては、従来技
術3に開示されている適合度算出式(2)を用いてもよ
い。
【0061】
【数2】
【0062】ここで、Qはユーザが登録した検索条件か
ら抽出された検索ターム数を示し、CおよびKは定数を示
す。また、IDF(i)は検索ターム(i)のIDFを示し、freq
(i)は該テキストにおける検索ターム(i)の出現回数を示
す。また、max(freq(j))は、該テキストにおける検索タ
ームの出現回数のうち、最大の値を示す。
【0063】本図に示した例では、定数CおよびKの値を
0とすると、ユーザ1の登録した検索条件に対するテキ
ストの適合度は“9.2”(6.6×2/2+5.1×1/2=9.15)の
ように算出される。同様に、ユーザ2の登録した検索条
件に対する適合度は“0”、ユーザ3の登録した検索条
件に対する適合度は“6.6”と算出される。
【0064】そして、算出された適合度が各ユーザによ
り予め設定された配送閾値を超えている場合には、該当
する検索条件を登録したユーザへテキストを配送する。
本図に示した例の場合、ユーザ1の配送閾値“8.0”に
対してテキストの適合度は“9.2”であるため、ユーザ
1に該テキストが配送される。しかし、ユーザ2、ユー
ザ3が設定した配送閾値“3.5”、“7.0”に対して、テ
キストの適合度はそれぞれ“0.0”、“6.6”であり、い
ずれも配送閾値も超えていない。したがって、該テキス
トはユーザ2、ユーザ3には配送されない。
【0065】以上のように、本実施例では、有限オート
マトンを用いてテキストを走査し、テキスト中に現れた
検索タームの出現回数を計数する。そして、ユーザリス
トを参照しながら各ユーザの登録した各検索条件に対す
る該テキストの適合度を算出し、適合度がユーザの設定
した配送条件を満たしている検索条件を指定したユーザ
に対して、該テキストを配送する。
【0066】この結果、テキストのただ一度の走査で複
数ユーザの検索条件に対する適合度を算出することが可
能であり、またユーザ毎に配送閾値との比較を行うた
め、多くの情報を要求するユーザに対しては適合度の低
いテキストまでも配送することが可能となり、重要な情
報だけを要求するユーザに対しては適合度の高いテキス
トを配送することが可能となる。
【0067】以下、本発明の第一の実施例について図1
を用いて詳細に説明する。
【0068】本発明を適用した文書検索配送システムの
第一例は、ディスプレイ100、キーボード101、中
央演算処理装置(CPU)102、主メモリ104およ
びこれらを結ぶバス103から構成される。
【0069】また、バス103には、LAN(Local Ar
ea Network)等の通信回線105を介して、ニュースを
配信するニュース配信元106や文書検索配送システム
を利用するユーザ107が接続されている。ニュース配
信元106は電子メールや電子ニュース等を用いてニュ
ースデータを電子化したテキストを本システムへ配信し
たり、インターネットを介してテキストを提示する。ユ
ーザ107は電子メールを用いて検索条件を本システム
へ登録する。本システムからは上記検索条件に基づいて
検索された上記テキストが電子メールを用いて該当ユー
ザへ配送される。
【0070】以下、本実施例では、ニュース配信元10
6は電子メール等を用いて本システムにテキストを配信
するものとして述べるが、ニュース配信元106はイン
ターネット上に提示するだけで、テキストの収集は情報
収集ロボットを用いて行うようにしてもかまわない。ま
た、ユーザ107は電子メールを用いて検索条件を本シ
ステムへ登録するものとして述べるが、インターネット
を介して本システムへ登録するようにしてもかまわな
い。さらに、本システムから前記検索条件に基づいて検
索された前記テキストが電子メールを用いて該当ユーザ
に配送されるものとして述べるが、インターネット等を
介して提示するようにしてもかまわない。
【0071】主メモリ104には、システム制御プログ
ラム110、検索条件登録制御プログラム111、テキ
スト検索配送制御プログラム112、電子メールプログ
ラム113、有限オートマトン114、ユーザリスト1
15、検索ターム重みテーブル116、適合度管理テー
ブル117、ワークエリア118、検索条件取得プログ
ラム120、検索ターム抽出プログラム121、検索タ
ーム重み算出プログラム122、検索用オートマトン作
成プログラム123、配送閾値設定プログラム124、
テキスト取得プログラム130、テキスト検索プログラ
ム131およびテキスト成形プログラム132が確保さ
れる。
【0072】検索用オートマトン作成プログラム123
は、有限オートマトン作成プログラム140およびユー
ザリスト作成プログラム141で構成される。
【0073】なお、本実施例では、テキストから検索タ
ームを抽出する手法として有限オートマトンを用いてい
るが、本手法は有限オートマトンに限られるものではな
く、有限オートマトンを用いてもよいし、NIKKEI BYTE,
August 1987, p.p.175-189に記載されている拡張BM
法(以下、従来技術3と呼ぶ)を用いてもよい。この場
合、検索用オートマトン作成プログラム、有限オートマ
トン作成プログラムという表現は適当でなく、より一般
化した表現を用いると、それぞれ検索用文字列照合テー
ブル作成プログラム、多重文字列照合テーブル作成プロ
グラムの様になる。
【0074】テキスト検索プログラム131は、テキス
ト走査プログラム150、適合度算出プログラム151
およびテキスト配送判定プログラム152で構成され
る。
【0075】以上のプログラムはハードディスク装置
(本図には示していない)、フロッピーディスク(本図
には示していない)等のコンピュータで読み書きできる
記憶媒体に格納することもできる。
【0076】システム制御プログラム110は文書検索
配送システム管理者によるキーボード101からの指示
を受け起動する。
【0077】検索条件式登録制御プログラム111およ
びテキスト検索配送制御プログラム112は、ユーザ1
07からの検索条件の登録指示やニュース配信元106
からのテキストの配信により、システム制御プログラム
110によって起動され、それぞれ検索条件取得プログ
ラム120、検索ターム抽出プログラム121、検索タ
ーム重み算出プログラム122および検索用オートマト
ン作成プログラム123の制御と、テキスト取得プログ
ラム130、テキスト検索プログラム131およびテキ
スト成形プログラム132の制御を行う。
【0078】電子メールプログラム113にはワークス
テーション等で一般的に用いられている既存のメールプ
ログラムを用いる。本電子メールプログラム113は、
テキスト検索配送制御プログラム112の処理結果に応
じて、システム制御プログラム110によって起動され
る。
【0079】以下、本実施例における文書検索配送シス
テムの処理手順について説明する。
【0080】まず、システム制御プログラム110の処
理手順を図3のPAD(Problem Analys
is Diagram)図を用いて説明する。
【0081】システム制御プログラム110では、まず
ステップ300で、キーボード101から終了コマンド
が入力されるまで、以下のステップを繰り返す。
【0082】この繰り返し処理では、まずステップ30
1でユーザ107から電子メールによって検索条件が送
られてきているか否かを調べる。ここで、検索条件が送
られてきている場合には、ステップ303で検索条件登
録制御プログラム111を起動し、検索条件の作成登録
を行う。
【0083】次に、ステップ302でニュース配信元1
06から電子メールによってテキストが送られてきてい
るか否かを調べる。ここで、テキストが送られてきてい
る場合には、ステップ304でテキスト検索配送プログ
ラム112を起動し、テキストの検索を行う。
【0084】そして、ステップ305で、テキスト検索
配送プログラム112におけるテキスト検索の結果を調
べ、成立している検索条件が一つでも存在すると判断さ
れた場合には、ステップ306で電子メールプログラム
113を起動し、成立した検索条件を指定したユーザに
対して、該当テキストを電子メールを用いて配送する。
【0085】以上が、システム制御プログラム110の
処理手順である。
【0086】次に図3に示したステップ303で起動さ
れる検索条件登録制御プログラム111の処理手順を図
4のPAD図を用いて説明する。
【0087】検索条件登録制御プログラム111では、
まずステップ400において、検索条件取得プログラム
120を起動し、ユーザ107から電子メールによって
送付された検索条件を取得し、ワークエリア118へ格
納する。
【0088】次に、ステップ401において、検索ター
ム抽出プログラム121を起動し、ワークエリア118
に格納されている検索条件中の種文書から検索タームを
抽出し、ワークエリア118へ格納する。
【0089】次に、ステップ402において、検索ター
ム重み算出プログラム122を起動し、ワークエリア1
18に格納されている検索タームの重みを算出し、検索
ターム重みテーブル116へ格納する。
【0090】次に、ステップ403において、検索用オ
ートマトン作成プログラム123を起動し、検索条件中
に含まれる全ての検索タームを照合する有限オートマト
ン114を作成する。
【0091】そして、ステップ404において、配送閾
値設定プログラム124を起動し、検索条件中で指定さ
れた配送閾値を適合度管理テーブル117に格納する。
【0092】以上が、検索条件登録制御プログラム11
1の処理手順である。
【0093】次に、図4に示したステップ403で検索
条件登録制御プログラム111により起動される検索用
オートマトン作成プログラム123の処理手順を図6の
PAD図を用いて説明する。
【0094】検索用オートマトン作成プログラム123
では、まずステップ600において、有限オートマトン
作成プログラム140を起動し、検索ターム抽出プログ
ラム121で抽出され、ワークエリア118に格納され
ている全ての検索タームを照合する有限オートマトン1
14を作成する。
【0095】次に、ステップ601において、ユーザリ
スト作成プログラム141を起動し、検索条件を指定し
たユーザ107の識別番号をリストとしてつなぎ、ユー
ザリスト115を作成する。
【0096】そして、ステップ602において、作成さ
れたユーザリスト115をポインタを介して有限オート
マトン114の該当する出力テーブルに接続する。
【0097】以上が、検索用オートマトン作成プログラ
ム123の処理手順である。
【0098】以下に、図4に示した検索条件登録制御プ
ログラム111の処理の流れを図10を用いて具体的に
説明する。
【0099】まず、検索ターム抽出ステップ1000に
おいて、ユーザ107から電子メールによって送付され
た検索条件1010から検索ターム1011を抽出す
る。本図に示した例では、ユーザ1が登録した検索条件
ユーザ1:“文書検索システムとしては、HiRetrieval
がよく知られて・・・”からは、“文書”、“検索”、
“システム”および“HiRetrieval”の4つの検索ター
ムが抽出される。同様に、ユーザ2が登録した検索条件
からは、“冬山”、“登山”、“防寒”および“対策”
の4つの検索タームが抽出され、ユーザ3が登録した検
索条件からは、“システム”、“文書”、“登録”、
“性能”および“評価”の5つの検索タームが抽出され
る。
【0100】この検索ターム抽出技術としては、例え
ば、「特開平8−335222号公報」に開示されるよ
うに、形態素解析により単語辞書を参照し、種文書中に
含まれる単語を検索タームとして抽出してもよいが、単
語辞書に掲載されていない単語は抽出されないため、従
来技術2に開示されるように、テキストデータベース中
の統計情報を用いることにより、単語辞書を用いずに文
書に記述された全ての単語を検索タームとして抽出する
のが望ましい。なお、従来技術2ではテキストデータベ
ースにおける各n-gramの出現確率を用いているが、文書
検索配送システムの場合には、配信された全てのテキス
トにおける各n-gramの出現確率を用いるものとしても構
わないし、配信されたテキストを登録したテキストデー
タベースにおける各n-gramの出現確率を用いてもよい
し、あるいは配信されたテキスト以外の文書を登録した
テキストデータベースにおける各n-gramの出現確率を用
いるものとしてもよい。
【0101】次に、ステップ1001において、検索条
件1010から抽出された全ての検索ターム1011に
対して、所定の算出式に基づいて重要度を算出し、検索
ターム重みテーブル116に格納する。この重要度算出
式としては、前述のIDF算出式(1)を用いてもよい。
本算出式(1)を用いることにより、例えば、10万件の
テキストが登録されているテキストデータベースにおい
て、検索ターム“文書”が2,000件のテキストに出現し
ている場合には、“文書”の重要度は“6.6”と算出さ
れる。ここで、テキストデータベースに登録されている
全文書数および検索タームの出現している文書数は、そ
れぞれニュース配信元106から配信されたテキスト数
および該検索タームが出現したテキスト数としてもよい
し、配信されたテキストとは異なるテキストが登録され
ているテキストデータベースを参照することにより求め
てもよい。
【0102】次に、ステップ1002において、検索条
件1010から抽出された全ての検索ターム1011を
照合する有限オートマトン114を生成する。この有限
オートマトンに対する検索タームの登録実施に関して
は、従来技術1で開示されている方法を利用することが
できる。
【0103】以上が、図4に示した検索条件登録制御プ
ログラム111の具体的な処理手順である。
【0104】次に図3に示したステップ304で、シス
テム制御プログラム110により起動されるテキスト検
索配送制御プログラム112の処理手順を図5のPAD
図を用いて説明する。
【0105】テキスト検索配送制御プログラム112で
は、まずステップ500において、テキスト取得プログ
ラム130を起動し、ニュース配信元106から電子メ
ール等により配信されたテキストをワークエリア118
へ格納する。
【0106】次に、ステップ501において、テキスト
検索プログラム131を起動し、ワークエリア118に
格納されたテキストを検索する。
【0107】次に、ステップ502において、所定の配
送閾値を超える検索条件が一つ以上存在するか否かを判
断し、存在する場合にはステップ503を実行する。
【0108】ステップ503では、テキスト成形プログ
ラム132を起動し、ワークエリア118に格納されて
いるテキストを電子メールプログラム113が配送でき
る形式に成形する。
【0109】以上が、テキスト検索配送制御プログラム
112の処理手順である。
【0110】次に、図5に示したステップ501で起動
されるテキスト検索プログラム131の処理手順を、図
7のPAD図を用いて説明する。
【0111】テキスト検索プログラム131では、まず
ステップ700において、有限オートマトン114の出
力テーブルに設けた検索ターム出現回数格納領域を
“0”にリセットする。
【0112】そして、ステップ701において、テキス
ト走査プログラム150を起動し、テキスト取得プログ
ラム130によりワークエリア118に格納されたテキ
ストを、有限オートマトン114で走査し、該テキスト
中に一致する部分文字列が現れた検索タームの出現回数
を計数する。
【0113】次に、ステップ702において、適合度算
出プログラム151を起動し、上記テキスト走査プログ
ラム150により計数された該テキスト内の検索ターム
の出現回数と、上記検索ターム重み算出プログラム12
2により検索ターム重みテーブル116に格納された各
検索タームの重みを用いて、ユーザ107の登録した検
索条件に対する該テキストの適合度を所定の適合度算出
式を用いて算出し、適合度管理テーブル117へ格納す
る。
【0114】そして、ステップ703において、テキス
ト配送判定プログラム152を起動し、該テキストの適
合度が適合度管理テーブル117に格納された配送閾値
を超える検索条件を指定したユーザの識別子をテキスト
検索配送制御プログラム112へ出力する。
【0115】以上が、テキスト検索プログラム131の
処理手順である。
【0116】以下に、図7に示したテキスト検索プログ
ラム131の処理の流れを図11を用いて具体的に説明
する。
【0117】まず、テキスト取得プログラム130によ
りワークエリア118に格納されているテキスト110
0に対して、ユーザ107により登録された全ての検索
条件から抽出された検索タームを有限オートマトン11
4を用いて照合し、該テキスト内における出現回数を計
数する(ステップ1100)。
【0118】本図に示した例は、テキスト:“膨大な文
書の中から目的の文書を検索する。”を図10に示した
有限オートマトン114を用いて走査し、適合する検索
条件を検索する場合の例である。本図に示した有限オー
トマトン114では、末尾の状態に各検索タームのテキ
スト中での出現回数が付記されている。本例では、検索
ターム“文書”に一致する部分文字列がテキスト中に2
回出現しているので、その末尾の状態である状態2に
“2”が付記され、検索ターム“検索”に一致する部分
文字列がテキスト中に1回出現しているので、その末尾
の状態である状態4に“1”が付記される。
【0119】そして、ステップ1101において、テキ
スト中の部分文字列と一致した全ての検索タームに対し
て、その末尾の状態に接続されたユーザリストを参照
し、ユーザの登録した各検索条件に対するテキストの適
合度を算出する。本実施例では、適合度の算出に前述の
適合度算出式(2)を用いるが、他の方法を用いてもよ
い。この適合度算出式(2)を用いて、前述のテキス
ト:“膨大な文書の中から目的の文書を検索する。”の
各ユーザの登録した検索条件に対する適合度を算出する
と次のようになる。
【0120】 ユーザ1:9.2 ユーザ2: 0 ユーザ3:6.6 そして、ステップ1102において、該適合度が適合度
管理テーブル117に格納された配送閾値を超えている
かを判別し、条件を満たしている場合には該当するユー
ザ識別子がテキスト検索配送制御プログラム112へ出
力される。本実施例では、ユーザ1の配送閾値を“8.
0”、ユーザ2の配送閾値を“3.5”、ユーザ3の配送閾
値を“7.0”とするが、他のテキスト配送の条件を設定
してもよい。
【0121】このテキスト配送の条件を用いて、各ユー
ザにより登録された検索条件に対する該テキストの適合
度をみると、ユーザ1により登録された検索条件:“文
書検索システムとしては、HiRetrievalがよく知られて
・・・”の適合度がユーザ1の配送閾値“8.0”を超えて
いるので、“ユーザ1”というユーザ識別子1111が
テキスト検索配送制御プログラム112へ出力される。
【0122】以上説明したように、本実施例では、テキ
ストのただ一度の走査で複数ユーザの検索条件に対する
適合度を算出することが可能であり、またユーザ毎に配
送閾値との比較を行うため、多くの情報を要求するユー
ザに対しては適合度の低いテキストまでも配送すること
か可能となり、重要な情報だけを要求するユーザに対し
ては適合度の高いテキストを配送することが可能とな
る。
【0123】なお、本実施例では、ユーザ毎に配送閾値
を設定できるものとして説明したが、システムで共通の
配送閾値をもつようにしてもよい。これにより、適合度
管理テーブル117で必要となる記憶容量を削減するこ
とができる。
【0124】第一の実施例における適合度算出プログラ
ム151は、有限オートマトン114の出力テーブルに
接続されたユーザリスト115を順番にたどることによ
り、各ユーザの適合度を算出するため、ユーザ数の増加
に伴い、全てのユーザに対する適合度算出終了までに要
する時間が長大になるという問題がある。例えば、ユー
ザリストに接続された1個のユーザ識別子の処理が0.01
秒で済むとしても、1万個のユーザ識別子の処理には100
秒、すなわち最後のユーザの適合度算出が終了するまで
には1分40秒も掛かってしまうことになる。
【0125】この問題を解決するために、本発明を適用
した文書検索配送システムの第二の実施例では、ユーザ
識別子に対して配送の優先度をつけ、優先度の高いユー
ザから適合度算出処理を行う。これにより、優先度の高
いユーザに対して即時性の高い配送を行なうようにする
ものである。
【0126】本実施例は、第一の実施例(図1)とほぼ
同様の構成を取るが、テキスト検索プログラム131a
の処理手順と有限オートマトン114へのユーザリスト
115の接続方法が異なる。本実施例におけるテキスト
検索プログラム131aには、図13のPAD図に示す
ように、ステップ1300が追加される。また、有限オ
ートマトン114には、図12に示すように、優先度識
別子1200を介してユーザリスト115が接続され
る。
【0127】以下、第二の実施例におけるテキスト検索
プログラム131aの処理手順を図13のPAD図を用
いて説明する。
【0128】テキスト検索プログラム131aでは、ま
ずステップ700において、有限オートマトン114の
出力テーブルに設けた検索ターム出現回数格納領域を
“0”にリセットする。
【0129】そして、ステップ701において、テキス
ト走査プログラム150を起動し、テキスト取得プログ
ラム130によりワークエリア118に格納されたテキ
ストを、有限オートマトン114で走査し、該テキスト
中に一致する部分文字列が現れた検索タームの出現回数
を計数する。
【0130】次に、ステップ1300において、有限オ
ートマトン114に接続された優先度識別子1200の
示す優先度の降順にステップ702とステップ703を
繰り返し実行する。
【0131】ステップ702では、適合度算出プログラ
ム151を起動し、前述のテキスト走査プログラム15
0により計数された該テキスト内の検索タームの出現回
数と、前述の検索ターム重み算出プログラム122によ
り検索ターム重みテーブル116に格納された各検索タ
ームの重みを用いて、ユーザ107の登録した検索条件
に対する該テキストの適合度を所定の適合度算出式を用
いて算出し、適合度管理テーブル117へ格納する。
【0132】そして、ステップ703において、テキス
ト配送判定プログラム152を起動し、該テキストの適
合度が適合度管理テーブル117に格納された配送閾値
を超える検索条件を指定したユーザの識別子をテキスト
検索配送制御プログラム112へ出力する。
【0133】以上が、テキスト検索プログラム131a
の処理手順である。
【0134】以下、第二の実施例におけるテキスト検索
プログラム131aの具体的な処理手順を図14に示す
具体例で説明する。
【0135】テキスト検索プログラム131aでは、ま
ず、ステップ1100において、前述のテキスト取得プ
ログラム130によりワークエリア118に格納されて
いるテキスト1110内に出現する検索タームの出現回
数を計数する。本図に示した例では、テキスト111
0:“膨大な文書の中から目的の文書を検索する。”に
は、検索ターム“文書”が2回、検索ターム“検索”が
1回出現しているという出現回数計数結果1410が得
られる。
【0136】次に、ステップ1400において、図12
に示した優先度識別子1200の“特急”に接続された
ユーザリストを参照し、テキスト1110の適合度を算
出する。図14の例では、ユーザ1の登録した検索条件
に対する適合度が“9.2”と算出される。
【0137】そして、ステップ1401において、適合
度管理テーブルに格納された配送閾値を超えているかを
判別し、条件を満たしている場合にはユーザ識別子がテ
キスト検索配送制御プログラム112へ出力される。本
実施例では、ユーザ1の配送閾値を“8.0”とするが、
他のテキスト配送の条件を設定してもよい。ユーザ1の
登録した検索条件に対する適合度“9.2”は配送閾値
“8.0”を超えているので、ユーザ識別子“ユーザ1”
が出力される。
【0138】次に、ステップ1402において、図12
に示した優先度識別子1200の“普通”に接続された
ユーザリストを参照し、テキスト1110の適合度を算
出する。図14の例では、ユーザ2およびユーザ3の登
録した検索条件に対する適合度が、それぞれ“0”、
“6.6”と算出される。
【0139】そして、ステップ1403において、、適
合度管理テーブルに格納された配送閾値を超えているか
を判別し、条件を満たしている場合にはユーザ識別子が
テキスト検索配送制御プログラム112へ出力される。
この結果、ユーザ2およびユーザ3が登録した検索条件
に対する適合度は、それぞれの配送閾値を超えていない
ので、ユーザ識別子は出力されない。
【0140】以上説明したように、本実施例によれば優
先度の高いユーザに対して、テキストの検索を優先的に
行なうことができるようになる。このため、ユーザ数が
増加した場合においても、優先度の高いユーザに対して
即時性の高い文書検索配送システムを提供することが可
能となる。
【0141】なお、本実施例では、優先度識別子120
0には“特急”と“普通”というユーザが設定した優先
度に基づいた配信優先度の種別を持つものとして説明し
たが、例えば、“部長”や“課長”等の役職に基づいた
配信優先度を持つものとしてもよいし、“正規ユーザ”
や“体験ユーザ”等の契約料金に基づいた配信優先度を
持つものとしてもよい。
【0142】次に、本発明の第三の実施例について図1
5を用いて説明する。
【0143】第一、第二の実施例においては、種文書か
ら抽出された検索タームを種文書の種類によらず同一の
重要度を持つものとして適合度を算出するものとした
が、種文書に記述されている主題が異なる場合でも同一
の重みを持つため、種文書の主題を的確に反映すること
ができないという問題がある。
【0144】例えば、検索条件“文書検索システムとし
ては、HiRetrievalがよく知られて・・・”から抽出さ
れた検索ターム“HiRetrieval”は、「文書検索システ
ム」の一例として挙げられているのに対し、検索条件
“HiRetrievalでは、ANDやOR等の論理演算を行なうこと
ができる。また、HiRetrievalではSGMLやXML等で記述さ
れた構造化文書を登録できる。さらには、HiRetrieval
では・・・”から抽出された検索ターム“HiRetrieva
l”は、文書の主題を表わす単語であり、重要度が高
い。
【0145】本発明を適用した文書検索配送システムの
第三の実施例では、ユーザリストに各検索条件における
検索ターム重みを付加することにより、上記問題を解決
するものである。
【0146】本実施例は、第一の実施例(図1)とほぼ
同様の構成を取るが、検索条件登録制御プログラム11
1が異なり、図15に示すように検索条件重み算出プロ
グラム1500が追加される。また、ユーザリスト作成
プログラム141aで出力されるユーザリスト115の
形式が異なるとともに、適合度算出プログラム151の
処理手順が異なる。
【0147】以下、第一の実施例とは異なる検索条件登
録制御プログラム111aの処理手順について図16を
用いて説明する。
【0148】検索条件登録制御プログラム111aで
は、まずステップ400において、検索条件取得プログ
ラム120を起動し、ユーザ107から電子メールによ
って送付された検索条件を取得し、ワークエリア118
へ格納する。
【0149】次に、ステップ401において、検索ター
ム抽出プログラム121を起動し、ワークエリア118
に格納されている検索条件中の種文書から検索タームを
抽出し、ワークエリア118へ格納する。
【0150】次に、ステップ402において、検索ター
ム重み算出プログラム122を起動し、ワークエリア1
18に格納されている検索タームの重みを算出し、検索
ターム重みテーブル116へ格納する。
【0151】次に、ステップ1600において、検索条
件重み算出プログラム1500を起動し、ワークエリア
118に格納されている各検索タームの検索条件毎の重
みを算出し、ワークエリア118へ格納する。
【0152】次に、ステップ1601において、検索用
オートマトン作成プログラム123aを起動し、検索条
件中に含まれる全ての検索タームを照合する有限オート
マトン114を作成する。
【0153】そして、ステップ404において、配送閾
値設定プログラム124を起動し、検索条件中で指定さ
れた配送閾値を適合度管理テーブル117に格納する。
【0154】以上が、検索条件登録制御プログラム11
1aの処理手順である。
【0155】次に、検索条件登録制御プログラム111
aのステップ1601で起動される検索用オートマトン
作成プログラム123aの処理手順を図17に示すPA
D図を用いて説明する。
【0156】検索用オートマトン作成プログラム123
aでは、まずステップ600において、有限オートマト
ン作成プログラム140を起動し、検索ターム抽出プロ
グラム121で抽出され、ワークエリア118に格納さ
れている全ての検索タームを照合する有限オートマトン
114を作成する。
【0157】次に、ステップ1700において、ユーザ
リスト作成プログラム141aを起動し、検索条件を指
定したユーザ107の識別番号と上記検索条件重み算出
プログラム1500によりワークエリア118に格納さ
れている各検索タームの検索条件毎の重みをリストとし
てつなぎ、ユーザリスト115aを作成する。
【0158】そして、ステップ1701において、作成
されたユーザリスト115aをポインタを介して有限オ
ートマトン114の該当する出力テーブルに接続する。
【0159】以上が、検索用オートマトン作成プログラ
ム123aの処理手順である。
【0160】以下に、図15に示した第三の実施例にお
ける検索条件登録制御プログラム111aの処理の流れ
を図18を用いて具体的に説明する。
【0161】まず、検索ターム抽出ステップ1000に
おいて、ユーザ107から電子メールによって送付され
た検索条件1010から検索ターム1011を抽出す
る。本図に示した例では、ユーザ1が登録した検索条件
ユーザ1:“文書検索システムとしては、HiRetrieval
がよく知られて・・・”からは、“文書”、“検索”、
“システム”および“HiRetrieval”の4つの検索ター
ムが抽出される。同様に、ユーザ2が登録した検索条件
からは、“冬山”、“登山”、“防寒”および“対策”
の4つの検索タームが抽出され、ユーザ3が登録した検
索条件からは、“システム”、“文書”、“登録”、
“性能”および“評価”の5つの検索タームが抽出され
る。
【0162】この検索ターム抽出技術としては、例え
ば、「特開平8−335222号公報」に開示されるよ
うに、形態素解析により単語辞書を参照し、種文書中に
含まれる単語を検索タームとして抽出してもよいが、単
語辞書に掲載されていない単語は抽出されないため、従
来技術2に開示されるように、テキストデータベース中
の統計情報を用いることにより、単語辞書を用いずに文
書に記述された全ての単語を検索タームとして抽出する
のが望ましい。なお、従来技術2ではテキストデータベ
ースにおける各n-gramの出現確率を用いているが、文書
検索配送システムの場合には、配信された全てのテキス
トにおける各n-gramの出現確率を用いるものとしても構
わないし、配信されたテキストを登録したテキストデー
タベースにおける各n-gramの出現確率を用いてもよい
し、あるいは配信されたテキスト以外の文書を登録した
テキストデータベースにおける各n-gramの出現確率を用
いるものとしてもよい。
【0163】次に、ステップ1001において、検索条
件1010から抽出された全ての検索ターム1011に
対して、所定の算出式に基づいて検索ターム重要度を算
出し、検索ターム重みテーブル116に格納する。この
検索ターム重要度の算出式としては、前述のIDF算出式
(1)を用いてもよい。例えば、10万件のテキストが登
録されているテキストデータベースにおいて、検索ター
ム“文書”が2,000件のテキストに出現している場合に
は、“文書”の重要度は“6.6”と算出される。ここ
で、テキストデータベースに登録されている全文書数お
よび検索タームの出現している文書数は、それぞれニュ
ース配信元106から配信されたテキスト数および該検
索タームが出現したテキスト数としてもよいし、配信さ
れたテキストとは異なるテキストが登録されているテキ
ストデータベースを参照することにより求めてもよい。
【0164】次に、ステップ1800において、検索条
件1010から抽出された全ての検索ターム1011に
対して、所定の算出式に基づいて各検索条件における検
索条件重要度を算出し、ワークエリア118に格納す
る。この検索条件重要度としては、例えば、検索条件に
おける出現回数そのものとしてもよい。
【0165】次に、ステップ1002において、検索条
件1010から抽出された全ての検索ターム1011を
照合する有限オートマトン114を生成する。この有限
オートマトンに対する検索タームの登録実施に関して
は、従来技術1で開示されている方法を利用することが
できる。
【0166】以上が、図15に示した検索条件登録制御
プログラム111aの具体的な処理手順である。
【0167】次に、本発明の第三の実施例において、第
一、第二の実施例とは異なる適合度算出プログラム15
1aの処理手順を図19に示すPAD図を用いて説明す
る。
【0168】適合度算出プログラム151aは、テキス
ト走査プログラム150により照合された全ての検索タ
ームについて、ステップ1901〜1905を繰り返し
実行する(ステップ1900)。
【0169】まず、ステップ1901において、テキス
ト走査プログラム150により計数された検索タームの
出現回数を取得する。そして、ステップ1902におい
て、検索ターム重みテーブル116に格納されている検
索タームの重みを取得する。
【0170】次に、ユーザリスト115aの末尾までの
各ユーザ識別子に対して、ステップ1904〜1905
を繰り返し実行する。まず、ステップ1904におい
て、ユーザ識別子と各検索条件における検索条件重みを
取得する。そして、ステップ1905において、所定の
算出式に基づいて各検索条件に対する適合度を算出す
る。
【0171】以上が、適合度算出プログラム151aの
処理手順である。
【0172】以上説明したように、本実施例によれば、
各ユーザが登録した検索条件の主題を表わす検索ターム
に高い重みを付加することができ、精度の高い文書検索
配送システムを提供することが可能となる。
【0173】次に、本発明の第四の実施例について説明
する。
【0174】以上説明した、第一、第二、第三の実施例
では、図11のステップ1102において、適合度があ
らかじめ設定された所定の値(以下配送閾値と呼ぶ)以
上であるという条件を満たしているテキストを配送する
ものとしている。しかし、この方式では、各ユーザの設
定した検索条件に対して、適切な配送閾値を設定するこ
とが困難であるという問題点がある。例えば、設定され
た配送閾値が高すぎると、ユーザには所望のテキストが
配送されなくなってしまう。また、設定された配送閾値
が低すぎると、ユーザにとって必要でないテキストも大
量に配送されてしまうという問題がある。即ち、初期設
定された配送閾値を変更する必要がある場合、ユーザに
とって、どの程度配送閾値を変更すればノイズなく、ま
た漏れのない配送結果を得られるかがわからない、とい
った問題がある。
【0175】この問題を解決するために、本発明を適用
した文書検索配送システムの第四の実施例では、ユーザ
に対して、適切な配送閾値を設定するために有用な情報
(以下、配送閾値設定支援情報と呼ぶ)を提示する。さ
らに、ユーザが仮に設定した配送閾値に対して、算出さ
れた適合度がその配送閾値を上回る過去のテキストを表
示(以下、配送閾値の設定の試行と呼ぶ)する。以上の
情報により、ユーザが各自好適な配送閾値を設定するこ
とを可能にする。
【0176】次に、本発明の第四の実施例のシステム構
成を図21に示す。
【0177】本実施例は、図1に示す第一の実施例とほ
ぼ同様の構成をとり、図21に示すように配送閾値更新
プログラム2000、配送閾値設定支援情報提示プログ
ラム2001、および配送閾値設定試行プログラム20
02が追加される。また、個人適合度判定情報管理エリ
ア2003とテキスト保存エリア2004が追加され
る。
【0178】個人適合度判定情報管理エリア2003に
は、過去に受信したテキストに対して算出された、各ユ
ーザの検索条件に対する適合度や、各ユーザに配送した
かしなかったかを示すフラグが格納されている。 ま
た、テキスト保存エリア2004には、過去に受信した
テキストの内容と受信時刻が格納されている。
【0179】本実施例では、個人適合度判定情報管理エ
リア2003およびテキスト保存エリア2004に格納
された情報を用いて、配送閾値支援情報提示プログラム
2001が配送閾値設定支援情報をユーザに提示する。
また、同様に個人適合度判定情報管理エリア2003お
よびテキスト保存エリア2004に格納された情報を用
いて、配送閾値設定試行プログラム2002がユーザに
配送閾値の設定の試行機能を提供する。ユーザはこれら
の機能により適切な配送閾値を決定することが可能にな
り、配送閾値更新プログラム2000によって、決定し
た配送閾値をシステムに登録する。ここで登録された配
送閾値は、テキスト検索配送制御プログラム112aに
より、受信したテキストを各ユーザに配送するか否かを
判定する際に用いられる。
【0180】以下、本実施例ではユーザからの配送閾値
設定支援情報の提示要求、配送閾値設定の要求、配送閾
値設定試行の要求は電子メールの形で送付されるものと
して説明するが、Webブラウザなどの他のネットワーク
アプリケーションを介して本システムに要求されるもの
としてもかまわない。さらに、前記のユーザの要求に基
づいた配送閾値設定支援情報、配送閾値設定試行結果
は、本システムから電子メールを用いて該当ユーザに配
送されるものとして述べるが、Webブラウザなどの他の
ネットワークアプリケーションを介して提示されるよう
にしてもかまわない。
【0181】以下、第四の実施例における、各プログラ
ムの処理手順を説明する。
【0182】まず、第四の実施例におけるシステム制御
プログラム110aの処理手順を図22のPAD図を用
いて説明する。
【0183】本実施例におけるシステム制御プログラム
110aの処理手順は、第一の実施例におけるシステム
制御プログラム110に、ステップ2100〜ステップ
2105の処理が加わったものである。
【0184】ステップ300の繰り返し処理において、
ステップ301、ステップ302の処理の後、ステップ
2100で、ユーザから配送閾値が送られているかを調
べる。ここで配送閾値が送られてきている場合には、ス
テップ2103で配送閾値更新プログラム2000を起
動し、該ユーザの配送閾値を設定する。
【0185】次に、ステップ2101で、ユーザ107
から配送閾値設定支援情報の提示要求が送られてきてい
るかを調べる。ここで、配送閾値設定支援情報の提示要
求が送られてきている場合には、ステップ2104で配
送閾値設定支援情報提示プログラム2001を起動し、
配送閾値設定支援情報を該ユーザに送信する。
【0186】次にステップ2102で、ユーザから配送
閾値設定の試行要求が送られてきているかを調べる。こ
こで、配送閾値の試行要求が送られてきている場合に
は、ステップ2105で配送閾値設定試行プログラム2
002を起動し、配送閾値設定の試行を行う。
【0187】以上が、システム制御プログラム110a
の処理手順である。
【0188】以下、図22に示したステップ2103に
おいてシステム制御プログラムにより起動される、配送
閾値更新プログラム2000の処理手順を図23のPA
D図を用いて説明する。
【0189】配送閾値更新プログラム2000では、ま
ずステップ2200において、ユーザ107から電子メ
ールによって送付された配送閾値を取得する。
【0190】次に、ステップ2201において、ユーザ
リスト115bに格納された該ユーザの配送閾値を、ユ
ーザ107から指定された配送閾値に更新する。 ここ
で、ユーザリスト115b中の各ユーザの配送閾値の初
期設定値は、管理者が予め定めた値であってもよいし、
ユーザ107が検索条件を登録するときに入力するもの
としてもよい。
【0191】以上が、配送閾値更新プログラム2000
の処理手順である。
【0192】以下、図22に示したステップ2104に
おいてシステム制御プログラムにより起動される、配送
閾値設定支援情報提示プログラム2001の処理手順
を、図24のPAD図を用いて説明する。
【0193】本プログラムは、過去に各ユーザに対し行
った、配送判定の履歴をもとに、適切な閾値を設定する
ための判断材料となる情報を提供するものである。
【0194】配送閾値設定支援情報提示プログラム20
01では、まずステップ2300において、配送閾値設
定支援情報の提示を要求したユーザ107のユーザ識別
子をもとに、個人適合度判定情報管理エリア2003か
ら、過去所定の期間内にニュース配信元106から受信
したテキストに関する、該ユーザの個人適合度判定情報
を読み込む。ここで個人適合度判定情報とは、ニュース
配信元106から受信した全てのテキストについての、
各ユーザに対して算出した適合度、各ユーザに配送した
かどうかを示したフラグ、といったデータのことであ
り、具体例は後に説明する。
【0195】次に、ステップ2301において、テキス
ト保存エリア2004から、過去所定の期間内にニュー
ス配信元106から受信したテキストの内容を読み込
む。
【0196】次に、ステップ2302において、ステッ
プ2301で読み込んだ情報のうち、該ユーザに配送し
たテキストに関するものを一覧にして、ワークエリア1
18に出力する。
【0197】次に、ステップ2303において、該ユー
ザの検索条件に対して算出した適合度別のテキスト数、
および、適合度を縦軸にとりテキストの受信時刻を横軸
にとったグラフ(以下、適合度の分布情報と呼ぶ)を作
成し、ワークエリア118に出力する。ここで、グラフ
の縦軸や横軸にとる変数は、ステップ2301、230
2において読み込んだその他の情報でも構わない。
【0198】次に、ステップ2304において、ワーク
エリア118に格納されている情報を、電子メールプロ
グラム113が配送できる形式に成形する。
【0199】ワークエリア118に格納された情報は、
電子メールプログラム113により、該ユーザに配送さ
れる。
【0200】以上が、配送閾値設定支援情報提示プログ
ラム2001の処理手順である。
【0201】以下、図24に示した配送閾値設定支援情
報提示プログラム2001の処理の流れを、図25を用
いて具体的に説明する。
【0202】まず、ステップ2300において、個人適
合度判定情報管理エリア2003から、配送閾値設定支
援情報の提示を要求してきたユーザ107のユーザ識別
子に対応する、過去所定の期間内(ここでは仮に過去2
4時間とする)の個人適合度判定情報2400を取得す
る。本図に示した例では、ユーザ1に関するテキスト
1、テキスト2、テキスト3のテキスト識別子、算出さ
れた適合度、配信したかしなかったかを示すフラグ、配
信判定を行った時点でユーザ107が設定していた配送
閾値、を取得する。
【0203】次に、ステップ2301において、テキス
ト保存エリア2004から、過去24時間内にニュース
配信元106から配送されたテキストの内容を取得す
る。本図に示した例では、テキスト1、テキスト2、テ
キスト3の内容が取得される。
【0204】本実施例では、ステップ2300およびス
テップ2301において、過去24時間にニュース配信
元106から配信されたテキストを対象とするが、他の
期間にしてもよいし、保存されている全てを対象として
も良いし、またはユーザ107が期間を指定できるよう
にしてもよい。
【0205】次に、ステップ2302において、ステッ
プ2300とステップ2301で取得した情報を、テキ
スト識別子をもとに照合し、該ユーザに配送したテキス
トに関する情報を抽出して、ワークエリア118に出力
する。本図に示した例では、ユーザ1に配送されたテキ
スト1およびテキスト3の、テキスト識別子、適合度、
当時設定していた配送閾値、配送時刻の一覧2401
を、ワークエリア118に出力する。なお、ここで出力
する情報は、ステップ2300およびステップ2301
で取得した情報のうち任意の組み合わせを選らんで構わ
ない。本実施例では適合度の順に出力するものとする
が、テキストの配送時刻順に出力してもよいし、ユーザ
が適合度順か配送時刻順かを選択できるようにしてもよ
い。また、テキスト識別子のかわりに、文書の内容の最
初の一文を抽出したものなどを出力しても良いし、タイ
トルのような属性があれば、それを出力してもよい。
【0206】次に、ステップ2303において、ステッ
プ2300とステップ2301で取得した情報を、テキ
スト識別子をもとに照合し、テキストの適合度の分布情
報を作成し、ワークエリア118に追加出力する。本図
に示した例では、過去24時間の適合度別のテキストの
数2402、および時刻を横軸にとり、適合度を縦軸に
とったテキストの分布のグラフ2403を出力する。
【0207】このようなグラフを参照することによりユ
ーザ107は、閾値をある値にすると、どの位の期間に
どの位の量のテキストが配送されるようになるかが、視
覚的に容易に判断できる。また、配信状況の時間推移を
把握できる。例えば、図26に示すようなグラフが得ら
れたときは「所望のテキスト(高い適合度のテキスト)
がだんだんニュース配信元から配信されなくなってきて
いる」といったことが判断できるので、そのときは配送
閾値を低く修正することができる。さらに、所望のテキ
ストが頻繁に配送されるような時間帯を知ることもでき
る。例えば、図27に示すようなグラフが得られたとき
は、「おおよそ18:00〜21:00の間に所望のテキストが多
く配信されている」といったことが判断できる。これに
より、たまたま所望のテキストがあまり配送されない時
間帯に配送閾値を設定すると局所最適化されてしまい、
配送閾値を適切な値よりも低く設定してしまう、といっ
たことを避けることができる。
【0208】本ステップにおいて、本実施例では、過去
24時間にニュース配信元106から配信された全ての
テキストを対象としているが、該ユーザ107に配送し
なかったテキストのみを対象としてもよい。また、該ユ
ーザ107に配送したか否かの情報をグラフに追加して
もよいし、該ユーザ107の設定していた配送閾値の時
刻変化を同時に出力してもよい。また、本実施例では、
適合度として、個人適合度判定情報管理エリア2003
に格納されているものを用いているが、テキスト保存エ
リア2004に格納されているテキストを再び走査し
て、該ユーザの現時点での検索条件との適合度を再計算
し、その結果を用いてもよい。
【0209】次に、ステップ2304において、ワーク
エリア118に格納されている情報を電子メールプログ
ラム113が配送できる形に成形する。
【0210】以上が配送閾値設定支援情報提示プログラ
ム2001の具体的な処理の流れである。本実施例で
は、配送閾値設定支援情報は、ユーザの要求により提示
されるものとしたが、ある定まった時刻に全てのユーザ
107に提示されるようにしてもよい。
【0211】以下、図22に示したステップ2105に
おいてシステム制御プログラムにより起動される、配送
閾値設定試行プログラム2002の処理手順を図28の
PAD図を用いて説明する。
【0212】本プログラムは、過去に受信したテキスト
に対しユーザ毎に算出した適合度をもとに、ユーザが示
した配送閾値を超える適合度を算出された過去のテキス
トを提示するものである。
【0213】配送閾値設定試行プログラム2002で
は、まずステップ2500において、ユーザ107から
電子メールによって送付された配送閾値を取得する。
【0214】次にステップ2501において、該ユーザ
のユーザ識別子をもとに、個人適合度判定情報管理エリ
ア2003から、該ユーザの個人適合度判定情報のう
ち、ステップ2500において取得した配送閾値を超え
る適合度のテキストの情報を読み込む。
【0215】次に、ステップ2502において、ステッ
プ2501において取得した適合度判定情報のテキスト
識別子に対応するテキストの内容と受信時刻を、テキス
ト保存エリア2004から読み込み、適合度判定情報と
ともにワークエリア118に出力する。
【0216】次に、ステップ2503において、ワーク
エリア118に格納されている情報を、電子メールプロ
グラム113が配送できる形式に成形する。
【0217】ワークエリア118に格納された情報は、
電子メールプログラム113により、該ユーザに配送さ
れる。
【0218】以上が、配送閾値設定試行プログラム20
02の処理手順である。
【0219】以下、図28に示した配送閾値設定試行プ
ログラム2002の処理の流れを、図29を用いて具体
的に説明する。
【0220】まず、ステップ2500において、ユーザ
107から送付された配送閾値2600を取得する。
【0221】次に、ステップ2501において、個人適
合度判定情報管理エリア2003から、ステップ250
0において取得した配送閾値2600より高い適合度を
算出されているテキストの情報2601を取得する。本
図に示した例では、ユーザ識別子[ユーザ1]のユーザ
から配送閾値として9.0が送付されており、個人適合
度情報管理エリア2003から9.0を上回る10.0
の適合度を算出されたテキスト1の内容と受信時刻が取
得される。なお、以下「ユーザ識別子[ユーザ1]のユ
ーザ」という表記は、「ユーザ識別子」が「ユーザ1」
であるユーザ、を示すこととする。本実施例では、本ス
テップで参照する適合度として、個人適合度判定情報管
理エリア2003に格納されているものを用いている
が、テキスト保存エリア2004に格納されているテキ
ストを再び走査して、現在の該ユーザの検索条件との適
合度を再計算し、その結果を用いてもよい。
【0222】次に、ステップ2502において、テキス
ト保存エリアに格納されているテキストの情報のうち、
ステップ2501において取得したテキスト識別子に対
応するテキスト情報2602、および適合度判定情報2
601を、ワークエリア118に出力する。本図に示し
た例では、ステップ2501において取得したテキスト
1の、適合度、配送時刻、テキストの内容がワークエリ
ア118に出力される。ここで、テキストの内容のかわ
りに、文書の内容の最初の一文を抽出したものなどを出
力しても良いし、タイトルのような属性があれば、それ
を出力してもよい。
【0223】次に、ステップ2503において、ワーク
エリア118に格納されている情報を電子メールプログ
ラム113が配送できる形に成形する。
【0224】ここで例えば、適合度判定情報管理エリア
2003には、過去24時間にニュース配信元106から
配信されたテキストに関する情報が保存されているもの
とし、ステップ2502においてテキストのタイトルが
出力されるものとする。また、ユーザ107が24時間に
2件のテキストの配送を希望しているとする。ここでユ
ーザ107が、試行する配送閾値2600として「10.
0」を送付すると、本図に示した例では、1件(テキス
ト1)のタイトルしか出力されない。そこで次に、試行
する配送閾値2600として「6.0」を送付してみる
と、本テキスト1とテキスト3の2件のテキストのタイ
トルが出力される。その結果ユーザ107は、配送閾値
更新プログラム2000により配送閾値を「6.0」に変
更すれば、次の24時間で2件のテキストが配送されてき
そうだと判断できる。
【0225】また、ステップ2502において、テキス
トのタイトルと共に内容の最初の一文を出力するものと
する。このとき、試行する配送閾値2600を十分低く
してみると、適合度が設定していた配送閾値未満であっ
たためユーザ107に配送されなかったテキストの、タ
イトルと最初の一文が出力される。ユーザ107はそれ
らを参照し、所望のテキストを見つけた場合には配送閾
値更新プログラム2000により配送閾値をそのテキス
トの適合度よりも低く修正する。これにより、配送漏れ
のない配送閾値を設定することができる。
【0226】さらに、ステップ2502で出力される情
報を、配送閾値設定支援情報提示プログラム2001に
おいて示したように、適合度を縦軸に、受信時刻を横軸
にとったテキストの適合度の分布グラフとする。例えば
図30に示すように、過去にニュース配信元106から
配信されたテキストのうち、試行する配送閾値2600
を上回るものを色分けしたり、記号を変えたりしてテキ
ストの適合度の分布を表示する。
【0227】本図に示した例では、配送閾値を試行する
値に設定していたならば、過去の24時間には5件のテキ
ストが配送されてきていたことがわかる。このことか
ら、この試行した値に配送閾値を設定すれば、次の24時
間に同程度のテキストが配送されるであろうと判断でき
る。このようにユーザ107は、試行する配送閾値26
00に配送閾値を変更するとどのような配送結果が得ら
れるかを視覚的に容易に知ることができ、この情報に基
づき配送閾値の設定を行なうことができる。
【0228】以上が配送閾値設定試行プログラム200
2の具体的な処理の流れである。
【0229】以下、図22に示したステップ304にお
いてシステム制御プログラムにより起動される、テキス
ト検索配送制御プログラム112aの処理手順を図31
のPAD図を用いて説明する。
【0230】本プログラムは、ニュース配信元106か
ら送られるテキストに対し、ユーザ毎に検索条件との適
合度を判定し、ユーザ毎に配送判定を行い、さらにテキ
ストの内容およびユーザ毎の配送判定履歴を保存するも
のである。
【0231】テキスト検索配送制御プログラム112a
では、まずステップ2700において、テキスト取得プ
ログラム130aを起動し、ニュース配信元106から
電子メール等により配信されたテキストをワークエリア
118へ格納する。さらに、テキストの内容と、受信時
刻をテキスト保存エリア2004に格納する。
【0232】次に、ステップ2701において、テキス
ト検索プログラム131を起動し、ワークエリア118
に格納されたテキストを検索し、各ユーザの設定した検
索条件との適合度を算出する。さらに、各ユーザ毎に配
送判定を行い、その結果を個人適合度判定情報管理エリ
ア2003に格納する。
【0233】次に、ステップ2702において、所定の
条件を満足する検索条件が一つ以上存在するか否かを判
断し、存在する場合にはステップ2703を実行する。
【0234】ステップ2703では、テキスト成形プロ
グラム132を起動し、ワークエリア118に格納され
ているテキストを電子メールプログラム113が配送で
きる形式に成形する。
【0235】以上が、テキスト検索配送制御プログラム
112aの処理手順である。
【0236】以下、第四の実施例におけるテキスト検索
配送制御プログラム112aの処理手順を、図32を用
いて具体的に説明する。
【0237】まずステップ2700において、テキスト
取得プログラム130aを起動し、ニュース配信元10
6から電子メール等により配信されたテキスト2810
をワークエリア118に格納する。さらに、該テキスト
にテキスト識別子を付与し、テキスト保存エリア200
4に、該テキストの内容および受信時刻を格納する。
【0238】次に、ステップ2800において、第一の
実施例の図7で説明したものと同じ手順でステップ70
0、ステップ701、およびステップ702を実行し、
適合度算出を行った結果を、適合度管理テーブル117
に格納する。
【0239】次に、ステップ2801において、適合度
管理テーブル117に格納された適合度が、ユーザリス
ト115bに格納されている配送閾値よりも上回るユー
ザのユーザ識別子をテキスト検索配送制御プログラム1
12aへ出力する。さらに、テキスト識別子、算出した
適合度、配送可否、現在の配送閾値、を各ユーザ毎の個
人適合度判定情報管理エリア2003に格納する。本図
に示した例では、ユーザ1に対して10.0という適合
度が算出されたが、ユーザリスト115b中のユーザ1
の配送閾値[12.0]を上回らないため、ユーザ1に
は該テキストは配送されない。ユーザ3に対しては6.
6という適合度が算出されたが、ユーザリスト115b
中のユーザ2の配送閾値[5.0]を上回るため、ユー
ザ3には該テキストが配送される。さらに、個人適合度
判定情報管理エリア2003のユーザ1の部分にテキス
ト識別子[テキスト1]、適合度[10.0]、配送可
否[NO]、現在の閾値[12.0]、といった情報が
格納される。図32に示すように、ユーザ2、ユーザ3
についても同様である。なお、これらの適合度判定情報
は、先に説明したように配送閾値設定支援情報提示プロ
グラム2001および配送閾値設定試行プログラム20
02において用いられる。
【0240】次に、ステップ2703において、ワーク
エリア118に格納されている情報を電子メールプログ
ラム113が配送できる形に成形する。
【0241】以上が、テキスト検索配送制御プログラム
112aの処理手順である。
【0242】以上が、第四の実施例における、各プログ
ラムの処理手順である。
【0243】以上示したように本実施例によれば、ニュ
ース配信元から受信した全テキストや、各ユーザに対し
て行なった適合度算出の履歴を保存しておき、それらを
配送閾値の設定時にユーザに提示する形態をとるため、
各ユーザがそれらの情報を参考に適切な配送閾値を設定
することが可能になる。したがって、初期設定された配
送閾値を変更する必要がある場合、ユーザにとって、ど
の程度配送閾値を変更すればノイズなく、また漏れのな
い配送結果を得られるかがわからない、といった問題が
解決できる。
【0244】ここで、本実施例において説明した配送テ
キストの選択方法は、上述した有限オートマトンや拡張
BM法といったテキストの検索方法に依るものではな
く、ここで説明したもの以外の検索方法を用いたシステ
ムでも同様に用いることができるものである。
【0245】また、本実施例において説明した配送テキ
ストの選択方法は、検索条件に対するテキストの適合度
算出方法によるものではなく、第一、第二、第三の実施
例に示した適合度算出方法、またそれ以外の適合度算出
方法でも同様に用いることができるものである。
【0246】次に、本発明の第五の実施例について説明
する。
【0247】第四の実施例においては、適切な配送閾値
を設定するために、過去の適合度算出の履歴を参照する
形態をとっているが、時々刻々変化するテキストの配信
状況に完全には対応できない。例えば、ある時期に多量
のテキストが配送されたため配送閾値を高く設定して
も、その後は適合度がその配送閾値を超えるようなテキ
ストの数が減少し、結果としてユーザにテキストが全く
配送されなくなる可能性がある。このような場合ユーザ
は所望のテキストが出現しなかったのか、配送閾値を高
く設定しすぎたのか判断できない、といった問題があ
る。
【0248】この問題を解決するために、本発明を適用
した文書検索配送システムの第五の実施例では、所定の
時間毎に、ユーザが設定した配送閾値を超える適合度の
テキストに加えて、ユーザが設定した数のテキストを配
送する(以下、追加配送とよぶ)ものである。
【0249】次に、本発明の第五の実施例のシステム構
成を図33に示す。
【0250】本実施例は、図21に示す第四の実施例と
ほぼ同様の構成をとり、追加配送テキスト数設定プログ
ラム2900、およびテキスト追加配送プログラム29
01が追加される。
【0251】本実施例では、個人適合度判定情報管理エ
リア2003およびテキスト保存エリア2004に格納
された情報を用いて、テキスト追加配送プログラム29
01が、各ユーザにテキストを追加配送する。ここで追
加配送するテキストの数は、ユーザが追加配送テキスト
数設定プログラム2900を用いて設定する。
【0252】以下、本実施例では、ユーザからの追加配
送テキスト数の設定要求は電子メールの形で送付される
ものとして説明するが、Webブラウザなどの他のネット
ワークアプリケーションを介して本システムに要求され
るものとしてもかまわない。さらに、前記のユーザの要
求に基づいた、テキストの追加配送は本システムから電
子メールを用いて行われるものとして述べるが、Webブ
ラウザなどの他のネットワークアプリケーションを介し
て提示されるようにしてもかまわない。
【0253】以下に、第五の実施例における、各プログ
ラムの処理手順について説明する。
【0254】まず、第五の実施例におけるシステム制御
プログラム110bの処理手順を図34のPAD図を用
いて説明する。
【0255】本実施例におけるシステム制御プログラム
110bの処理手順は、第四の実施例におけるシステム
制御プログラム110aに、ステップ3000〜ステッ
プ3003が追加されたものである。
【0256】ステップ3000では、ユーザ107から
追加配送テキスト数の設定要求が送られてきているかを
調べる。ここで、追加配送テキスト数の設定要求が送ら
れてきている場合には、ステップ3002で追加配送テ
キスト数設定プログラム2900を起動し、該ユーザの
追加配送テキスト数を設定する。
【0257】次にステップ3001で、現在の時刻が所
定の条件を満たす時刻であるかを判定する。もし、所定
の条件を満たす時刻である場合には、ステップ3003
においてテキスト追加配送プログラム2901を起動す
る。例えば、「毎日午前零時にテキスト追加配送プログ
ラム2901を起動する」という条件を設定して、テキ
スト追加配送プログラム2901を起動することができ
る。
【0258】以上が、システム制御プログラム110b
の処理手順である。
【0259】以下、図34に示したステップ3002に
おいてシステム制御プログラム110bにより起動され
る、追加配送テキスト数設定プログラム2900の処理
手順を図35のPAD図を用いて説明する。
【0260】追加配送テキスト数設定プログラム290
0では、まずステップ3100において、ユーザ107
から電子メールによって送付された、追加配送テキスト
数を取得する。
【0261】次に、ステップ3101において、該ユー
ザのユーザ識別子をもとに、ユーザリスト115cにお
ける該ユーザの追加配送テキスト数を更新する。ここ
で、ユーザリスト115c中の各ユーザの追加配送テキ
スト数の初期設定値は、管理者が予め定めた値であって
もよいし、ユーザ107が検索条件を登録するときに入
力するものとしてもよい。
【0262】以上が、追加配送テキスト数設定プログラ
ム2900の処理手順である。
【0263】以下、図34に示したステップ3003に
おいてシステム制御プログラム110bにより起動され
る、テキスト追加配送プログラム2901の処理手順
を、図36のPAD図を用いて説明する。
【0264】本プログラムは、各ユーザが要求する配送
テキスト数を満たすように、適合度が配送閾値を超えな
かったテキストを追加配送するものである。
【0265】テキスト追加配送プログラム2901は、
ステップ3200において、ユーザリスト115cに格
納された全てのユーザについて、ステップ3201〜ス
テップ3204を繰り返し実行する。
【0266】まずステップ3201において、ユーザリ
スト115cに格納された、該ユーザの希望する、追加
配送テキスト数を読み込む。
【0267】次にステップ3202において、個人適合
度判定情報管理エリア2003から、過去所定の期間内
に該ユーザに配送されなかったテキストのうち、適合度
が高いものからステップ3201において読み込んだ数
だけのテキストに関する、適合度判定情報を読み込む。
【0268】次にステップ3203において、ステップ
3202において読み込んだテキスト識別子に対応する
テキストの内容を、テキスト保存エリア2004から読
み込み、ステップ3202で読み込んだ適合度判定情報
とともに、ワークエリア118に出力する。
【0269】次にステップ3204において、ワークエ
リア118に格納されている内容を、メールプログラム
113が配送できる形に成形する。
【0270】ワークエリア118に格納された情報は、
電子メールプログラム113により、該ユーザに配送さ
れる。
【0271】以上が、テキスト追加配送プログラム29
01の処理手順である。
【0272】以下、図36に示したテキスト追加配送プ
ログラム2901の処理の流れを、図37を用いて具体
的に説明する。以下、本例では、テキスト追加配送プロ
グラム2901は、システム制御プログラム110bに
より、24時間毎に起動されるものとするが、他の時間
間隔で起動されるものとしてもよいし、所定の時刻に起
動されるものとしてもよい。また、ユーザ毎に起動時間
を設定してもよい。
【0273】テキスト追加配送プログラム2901の処
理においては、以下に示すステップ3201〜ステップ
3204をすべてのユーザについて繰り返す。
【0274】まず、ステップ3201において、ユーザ
リスト115cから、所定の期間毎の追加配送希望テキ
スト数を取得する。この図に示した例では、ユーザ10
7は24時間毎に、2件のテキストの追加配送を希望し
ているものとする。
【0275】次に、ステップ3202において、個人適
合度判定情報管理エリア2003から、該ユーザに配送
していないテキストのうち、上位追加配送希望数分だけ
のテキスト識別子を読み込む。本図に示した例では、過
去24時間に、ユーザ107に配送されなかったテキス
ト2、テキスト4、テキスト5のうち、適合度の上位2
件、即ちテキスト2とテキスト5のテキスト識別子、適
合度が読み込まれる。このとき、本ステップの後に配送
閾値修正提案提示ステップを追加して、該ユーザに配送
したテキストの数を計数し、所定の数より少ない場合に
は、該ユーザに配送閾値を下げるように所定の警告文
を、また所定の数より多い場合には、該ユーザに配送閾
値を上げるように所定の警告文をワークエリア118に
出力しユーザに送付することもできる。
【0276】次に、ステップ3203において、ステッ
プ3202で読み込んだテキスト識別子に対応するテキ
スト情報を、テキスト保存エリア2004から読み込
む。そして、ステップ3202において取得した適合度
判定情報とともにワークエリア118に出力する。本図
に示した例では、テキスト2とテキスト5の受信時刻、
適合度、内容、がワークエリア118に出力される。
【0277】次に、ステップ3204において、ワーク
エリア118に格納されている情報を電子メールプログ
ラム113が配送できる形に成形する。
【0278】以上が、テキスト追加配送プログラム29
01の具体的な処理の流れである。
【0279】以上が、第五の実施例における、各プログ
ラムの処理手順である。
【0280】以上示したように本実施例によれば、ニュ
ース配信元から受信した全テキストや、各ユーザに対し
て行なった適合度算出の履歴を保存しておき、適合度が
配送閾値を超えなかったテキストも、適合度が上位のも
のから追加配送する形態をとる。これにより、各ユーザ
が設定した配送閾値を超える適合度のテキストの数が、
各ユーザの所望する数より少ない場合にも、所定のテキ
スト数を追加配送することが可能になる。したがって、
ユーザにテキストが全く配送されなかった場合に、所望
のテキストが出現しなかったためのか、配送閾値を高く
設定しすぎたためのか判断できない、といった問題が解
決できる。
【0281】ここで、本実施例では、ユーザが設定した
配送閾値を超える適合度のテキストに加えて、ユーザが
設定した数のテキストを配信するものとしたが、配送閾
値を超えるテキストと、追加配信するテキスト数の和
が、ユーザが設定した数を満たすようにする方法を用い
てもよい。
【0282】次に、本発明の第六の実施例について説明
する。
【0283】第四の実施例においては、配送閾値を好適
な値に変更することが可能になるが、配送閾値の初期値
を適切に設定することが困難である。例えば、検索条件
を新たに設定したとき、その検索条件に対して、ユーザ
の所望するテキストにどの程度の適合度が算出されるの
かがわからない。
【0284】また、第四、第五の実施例においては、時
々刻々変化するテキストの配信状況に対して常に適切な
配送閾値を設定するためには、ユーザが常に配送閾値の
修正を行う必要があるという問題がある。
【0285】以上の問題を解決するために、本発明を適
用した文書検索配送システムの第六の実施例では、ユー
ザが希望する配送テキスト数を設定し、その設定をもと
にシステムが適時、配送閾値の設定を行うものである。
【0286】次に、本発明の第六の実施例のシステム構
成を図38に示す。
【0287】本実施例は、図1に示す第一の実施例とほ
ぼ同様の構成をとり、図38に示されるように希望配送
数設定プログラム3400、配送閾値自動設定プログラ
ム3401、および保存テキスト検索プログラム340
2が追加される。
【0288】さらに、第四の実施例におけるものと同一
の、個人適合度判定情報管理エリア2003とテキスト
保存エリア2004が追加される。
【0289】また、テキスト検索プログラム131にお
けるテキスト配送判定プログラム152aは、第四の実
施例におけるものと同一である。
【0290】本実施例では、個人適合度判定情報管理エ
リア2003およびテキスト保存エリア2004に格納
された情報および、希望配送数設定プログラム3400
によりユーザが設定した希望配送数に基づき、配送閾値
自動設定プログラム3401が、各ユーザに適切な配送
閾値を設定する。ここで設定された配送閾値は、テキス
ト検索配送制御プログラム112aにより、受信したテ
キストを各ユーザに配送するか否かを判定する際に用い
られる。
【0291】また、検索条件を新規に登録した場合な
ど、個人適合度判定情報が保存されていないユーザに対
しては、保存テキスト検索プログラム3402により、
テキスト保存エリア2004に保存されているテキスト
に対して適合度算出を行い、その結果を個人適合度判定
情報管理エリア2003に格納する。
【0292】以下に、第六の実施例における、各プログ
ラムの処理手順について説明する。
【0293】まず、第六の実施例におけるシステム制御
プログラム110cの処理手順を図39のPAD図を用
いて説明する。
【0294】本実施例におけるシステム制御プログラム
110cの処理手順は、第一の実施例におけるシステム
制御プログラム110とほぼ同じであるが、ステップ3
500〜ステップ3504の処理が加わる。
【0295】ステップ303の処理につづき、ステップ
3502において、希望配送数設定プログラム3400
を起動する。
【0296】次に、ステップ3503において、保存テ
キスト検索プログラム3402を起動する。
【0297】次に、ステップ3504において、配送閾
値自動設定プログラム3401を起動する。
【0298】一方、ステップ300の繰り返し処理にお
いて、ステップ301、ステップ302の処理の後、ス
テップ3500で、ユーザ107から、所定の時間毎に
希望する配送テキスト数の設定要求が送られてきている
かを調べる。ここで、該設定要求が送られてきている場
合には、ステップ3505で希望配送数設定プログラム
3400を起動する。
【0299】次に、ステップ3501で、現在の時刻が
所定の条件を満たす時刻であるかを判定する。ここで、
所定の条件を満たす時刻である場合には、ステップ35
06において配送閾値自動設定プログラム3401を起
動する。例えば、「毎日午前零時に配送閾値自動設定プ
ログラム3401を起動する」という条件を設定して、
配送閾値自動設定プログラム3401を起動することが
できる。
【0300】以上が、システム制御プログラム110c
の処理手順である。
【0301】以下、図39に示したステップ3502ま
たはステップ3505でシステム制御プログラムにより
起動される、希望配送数設定プログラム3400の処理
手順を、図40のPAD図を用いて説明する。
【0302】希望配送数設定プログラムでは、まずステ
ップ3600において、ユーザ107から指定時間と、
その指定時間あたりに配送を希望するテキスト数を取得
する。
【0303】次に、ステップ3601において、該ユー
ザのユーザ識別子をもとに、ユーザリスト115dにお
ける該ユーザの指定時間および希望配送テキスト数を、
ステップ3600で取得したそれぞれの値で更新する。
ここで、ユーザリスト115d中の各ユーザの指定時間
および希望配送テキスト数の初期設定値は、管理者が予
め定めた値であってもよいし、ユーザ107が検索条件
を登録するときに入力するものとしてもよい。
【0304】以上が、希望配送数設定プログラム340
0の処理手順である。
【0305】以下、図39に示したステップ3503で
システム制御プログラム110cにより起動される、保
存テキスト検索プログラム3402の処理手順を、図4
1のPAD図を用いて説明する。
【0306】本プログラムは、検索条件を新規に登録し
た直後など、適合度算出の履歴がない場合に、保存され
ているテキストに対して適合度を算出するものである。
【0307】保存テキスト検索プログラム3402は、
ステップ3700において、所定期間内にテキスト保存
エリア2004に保存された全てのテキストについて、
ステップ3701およびステップ3702を繰り返し実
行する。
【0308】まずステップ3701において、テキスト
検索走査プログラム150および適合度算出プログラム
151を起動し、検索条件登録制御プログラム111に
より登録された検索条件に対する、テキストの適合度を
算出する。
【0309】次にステップ3702において、ステップ
3701で算出された適合度を、適合度判定情報管理エ
リア2003に格納する。
【0310】以上が、保存テキスト検索プログラム34
02の処理手順である。以下、図39に示したステップ
3504またはステップ3506でシステム制御プログ
ラム110cにより起動される、配送閾値自動設定プロ
グラム3401の処理手順を、図42のPAD図を用い
て説明する。
【0311】本プログラムは、過去に受信したテキスト
に対して算出した適合度の分布をもとに、各ユーザ毎に
適切な配送閾値を設定するものである。
【0312】配送閾値自動設定プログラム3401は、
ステップ3800において、ユーザリスト115dに格
納された全てのユーザについて、ステップ3801〜ス
テップ3804を繰り返し実行する。
【0313】まずステップ3801において、ユーザリ
スト115dに格納された指定時間と、指定時間あたり
に該ユーザが希望する配送テキスト数を取得する。
【0314】次に、ステップ3802において、該ユー
ザのユーザ識別子をもとに、個人適合度判定情報管理エ
リア2003から、過去所定の期間内にニュース配信元
106から受信したテキストに関する、該ユーザの個人
適合度判定情報を読み込む。
【0315】次に、ステップ3803において、ステッ
プ3802で読み込んだ個人適合度判定情報を用いて、
所定の算出式を用いて、新たに設定する配送閾値を算出
する。
【0316】次に、ステップ3804において、ステッ
プ3803で算出した配送閾値を、ユーザリスト115
dの該ユーザの配送閾値格納部分に設定する。
【0317】以上が、配送閾値自動設定プログラム34
01の処理手順である。
【0318】以下、図42に示した配送閾値自動設定プ
ログラム3401の処理の流れを、図43を用いて具体
的に説明する。
【0319】以下、本例では、配送閾値自動設定プログ
ラム3401は、システム制御プログラム110cによ
り、24時間毎に起動されるものとするが、他の時間間
隔で起動されるものとしてもよいし、所定の時刻に起動
するものとしてもよい。また、ユーザ毎に起動時刻を設
定してもよい。
【0320】配送閾値自動設定プログラム3401の処
理においては、以下に示すステップ3801〜ステップ
3804をすべてのユーザについて繰り返す。
【0321】まず、ステップ3801において、ユーザ
リスト115dから、指定時間と希望配送テキスト数を
取得する。本図に示した例では、ユーザ1が48時間に
4件の頻度でテキスト配送を希望しており、指定時間と
して「48時間」、希望配送テキスト数として「4
件」、という情報が取得される。
【0322】次に、ステップ3802において、個人適
合度判定情報管理エリア2003から、ユーザ107に
対する、過去指定期間内の個人適合度判定情報における
適合度を読み込む。本図に示した例では、過去24時間
に配送されたテキスト1、テキスト2、テキスト3のそ
れぞれの適合度である「10.0」、「5.0」、「7.0」が読
み込まれる。
【0323】次に、ステップ3803において、ステッ
プ3802で読み込んだ適合度をもとに、所定の算出方
法を用いて、新しい配送閾値を算出する。本図に示した
例では、まず48時間あたり4件という条件を、24時
間あたり2件という条件に換算する。ついで、ステップ
3802で読み込んだ適合度のうち、上位2件目(「7.
0」)とその次の適合度(「5.0」)の平均値「6.0」
が、新たな配送閾値として算出される。本ステップ38
03における配送閾値の算出方法としては、他の方法を
用いてもよい。
【0324】次に、ステップ3804において、ユーザ
リスト115dにおける該当ユーザの配送閾値として、
ステップ3803で算出した配送閾値を格納する。
【0325】以上が、配送閾値自動設定プログラム34
01の具体的な処理の流れである。
【0326】以上が、第六の実施例における、各プログ
ラムの処理手順である。
【0327】以上示したように本実施例によれば、各ユ
ーザに対して行なった適合度算出の履歴を保存してお
き、その情報を参照することで、適切な配送閾値を自動
的に修正する形態をとる。これにより、常に各ユーザに
とって適切な配送閾値を設定しておくことが可能とな
り、ユーザは逐一配送閾値を設定し直すという手間を省
くことができる。したがって、時々刻々変化するテキス
トの配信状況に対して常に適切な配送閾値を設定するた
めには、ユーザが常に配送閾値の修正を行う必要があ
る、といった問題を解決できる。
【0328】また、検索条件を新たに設定した場合に
も、過去のテキストを走査し、その検索条件に対する適
合度を算出する形態をとるため、適切な配送閾値を算出
し設定することが可能になる。即ち、新たに設定した検
索条件に対して、ユーザの所望するテキストにどの程度
の適合度が算出されるのかがわからない、といった問題
を解決できる。
【0329】ここで、第四、第五の実施例における配送
閾値設定支援情報提示プログラム2001、配送閾値更
新プログラム2000、および配送閾値設定試行プログ
ラム2002と、第六の実施例における配送閾値自動設
定プログラム、希望配送数設定プログラム、および保存
テキスト検索プログラム3402とをひとつのシステム
に共に実装することも可能である。この場合、ユーザま
たはシステム管理者が、どちらの実施例によるシステム
を使用するかを選択し登録する、配送条件設定モード選
択プログラムを追加することにより、配送閾値を設定す
るか、あるいは配信テキスト数を設定するかをシステム
使用者が選択することも可能となる。
【0330】また、本実施例において説明した配送テキ
ストの選択方法は、上述した有限オートマトンや拡張BM
法といったテキストの検索方法に依るものではなく、こ
こで説明したもの以外の検索方法を用いたシステムでも
同様に用いることができるものである。
【0331】また、本実施例において説明した配送テキ
ストの選択方法は、検索条件に対するテキストの適合度
算出方法によるものではなく、第一、第二、第三の実施
例に示した適合度算出方法、またそれ以外の適合度算出
方法でも同様に用いることができるものである。
【0332】なお、以上第一から第六の実施例におい
て、ディスプレイ100、キーボード101、中央演算
処理装置(CPU)102、主メモリ104およびこれ
らを結ぶバス103から構成される文書検索配送システ
ムは、図1、図21、図33、図38におけるニュース
配信元106と通信回線105の中間や、通信回線10
5とユーザ107の中間のいずれのネットワーク上の位
置に配置されても構わない。
【0333】
【発明の効果】 本発明を利用することで、複数ユーザ
の検索条件に対する適合度を算出し、ユーザ毎に配送閾
値との比較を行うため、重要な情報を要求するユーザに
対しては適合度の高いテキストを配送することが可能と
なる。
【図面の簡単な説明】
【図1】本発明の第一の実施例の構成を示す図である。
【図2】従来技術1の概要を説明する図である。
【図3】本発明の第一の実施例におけるシステム制御プ
ログラム110の処理手順を示すPAD図である。
【図4】本発明の第一の実施例における検索条件登録制
御プログラム111の処理手順を示すPAD図である。
【図5】本発明の第一の実施例におけるテキスト検索配
送制御プログラム112の処理手順を示すPAD図であ
る。
【図6】本発明の第一の実施例における検索用オートマ
トン作成プログラム123の処理手順を示すPAD図で
ある。
【図7】本発明の第一の実施例におけるテキスト検索プ
ログラム131の処理手順を示すPAD図である。
【図8】本発明の第一の実施例における検索条件登録処
理の概要を説明する図である。
【図9】本発明の第一の実施例におけるテキスト検索処
理の概要を説明する図である。
【図10】本発明の第一の実施例における検索条件登録
制御プログラム111の具体的な処理の流れを説明する
図である。
【図11】本発明の第一の実施例におけるテキスト検索
プログラム131の具体的な処理の流れを説明する図で
ある。
【図12】本発明の第二の実施例における有限オートマ
トン114とユーザリスト115の接続方法を説明する
図である。
【図13】本発明の第二の実施例におけるテキスト検索
プログラム131aの処理手順を示すPAD図である。
【図14】本発明の第二の実施例におけるテキスト検索
プログラム131aの具体的な処理手順を説明する図で
ある。
【図15】本発明の第三の実施例における検索条件登録
制御プログラム111aの構成を示す図である。
【図16】本発明の第三の実施例における検索条件登録
制御プログラム111aの具体的な処理手順を説明する
図である。
【図17】本発明の第三の実施例における検索用オート
マトン作成プログラム123aの処理手順を示すPAD
図である。
【図18】本発明の第三の実施例における検索条件登録
制御プログラム111aの具体的な処理手順を説明する
図である。
【図19】本発明の第三の実施例におけるテキスト検索
プログラム151aの処理手順を示すPAD図である。
【図20】従来技術2における特徴文字列抽出処理の流
れを説明する図である。
【図21】本発明の第四の実施例の構成を示す図であ
る。
【図22】本発明の第四の実施例におけるシステム制御
プログラム110aの処理手順を示すPAD図である。
【図23】本発明の第四の実施例における配送閾値更新
プログラム2000の処理手順を示すPAD図である。
【図24】本発明の第四の実施例における配送閾値設定
支援情報提示プログラム2001の処理手順を示すPA
D図である。
【図25】本発明の第四の実施例における配送閾値設定
支援情報提示プログラム2001の具体的な処理の流れ
を説明する図である。
【図26】本発明の第四の実施例における配送閾値設定
支援情報提示プログラム2001の出力例を示す図であ
る。
【図27】本発明の第四の実施例における配送閾値設定
支援情報提示プログラム2001の出力例を示す図であ
る。
【図28】本発明の第四の実施例における配送閾値設定
試行プログラム2002の処理手順を示すPAD図であ
る。
【図29】本発明の第四の実施例における配送閾値設定
試行プログラム2002の具体的な処理の流れを説明す
る図である。
【図30】本発明の第四の実施例における配送閾値設定
試行プログラム2002の出力例を示す図である。
【図31】本発明の第四の実施例におけるテキスト検索
配送制御プログラム112aの処理手順を示すPAD図
である。
【図32】本発明の第四の実施例におけるテキスト検索
配送制御プログラム112aの具体的な処理の流れを説
明する図である。
【図33】本発明の第五の実施例の構成を示す図であ
る。
【図34】本発明の第五の実施例におけるシステム制御
プログラム110bの処理手順を示すPAD図である。
【図35】本発明の第五の実施例における追加配送テキ
スト数設定プログラム2900の処理手順を示すPAD
図である。
【図36】本発明の第五の実施例におけるテキスト追加
配送プログラム2901の処理手順を示すPAD図であ
る。
【図37】本発明の第五の実施例におけるテキスト追加
配送プログラム2901の具体的な処理の流れを説明す
る図である。
【図38】本発明の第六の実施例の構成を示す図であ
る。
【図39】本発明の第六の実施例におけるシステム制御
プログラム110cの処理手順を示すPAD図である。
【図40】本発明の第六の実施例における希望配送数設
定プログラム3400の処理手順を示すPAD図であ
る。
【図41】本発明の第六の実施例における保存テキスト
検索プログラム3402の処理手順を示すPAD図であ
る。
【図42】本発明の第六の実施例における配送閾値自動
設定プログラム3401の処理手順を示すPAD図であ
る。
【図43】本発明の第六の実施例における配送閾値自動
設定プログラム3401の具体的な処理の流れを説明す
る図である。
【符号の説明】
100 ディスプレイ 101 キーボード 102 中央演算処理装置(CPU) 103 バス 104 主メモリ 105 通信回線 106 ニュース配信元 107 ユーザ 110、110a、110b、110c システム制御
プログラム 111、111a 検索条件登録制御プログラム 112、112a テキスト検索配送制御プログラム 113 電子メールプログラム 114 有限オートマトン 115、115a、115b、115c、115d ユ
ーザリスト 116 検索ターム重みテーブル 117 適合度管理テーブル 118 ワークエリア 120 検索条件取得プログラム 121 検索ターム抽出プログラム 122 検索ターム重み算出プログラム 123、123a 検索用オートマトン作成プログラム 124 配送閾値設定プログラム 130、130a テキスト取得プログラム 131、131a テキスト検索プログラム 132 テキスト成形プログラム 140 有限オートマトン作成プログラム 141 ユーザリスト作成プログラム 150 テキスト走査プログラム 151、151a 適合度算出プログラム 152 テキスト配送判定プログラム 2000 配送閾値更新プログラム 2001 配送閾値設定支援情報提示プログラム 2002 配送閾値設定試行プログラム 2003 個人適合度判定情報管理エリア 2004 テキスト保存エリア 2900 追加配送テキスト数設定プログラム 2901 テキスト追加配送プログラム 3400 希望配送数設定プログラム 3401 配送閾値自動設定プログラム 3402 保存テキスト検索プログラム
───────────────────────────────────────────────────── フロントページの続き (72)発明者 多田 勝己 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所システム開発本部内 (72)発明者 岡本 卓哉 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所システム開発本部内 (72)発明者 菅谷 奈津子 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所システム開発本部内 (72)発明者 後地 陽介 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B075 ND03 NK32 PP24 PQ05 PQ74 PR06 QM08 QS01

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】複数のユーザから入力した検索条件を登録
    する検索条件登録ステップと、入力した文書情報のテキ
    ストを対象として、前記検索条件を満足するテキストを
    検索し、該ユーザに配送する検索配送ステップとを有す
    る文書検索配送方法は、さらに以下を含む、 前記検索配送ステップでは、前記検索条件に対する適合
    度を上記テキストから算出し、該適合度により該検索条
    件の成否を判定し、成立した該検索条件に対応する前記
    ユーザに対して、該テキストを配送する。
  2. 【請求項2】請求項1記載の文書検索配送方法におい
    て、 上記検索条件登録ステップは、 各ユーザが登録した検索条件中に記述された単語や文章
    あるいは文書(以下、種文書と呼ぶ)を読み込む種文書
    読込みステップと、 上記種文書読込みステップで登録された種文書を解析
    し、検索に使用する検索タームを抽出する検索ターム抽
    出ステップと、 上記検索ターム抽出ステップで抽出された各検索ターム
    に対して、上記種文書読込みステップで読み込まれた種
    文書を指定したユーザのユーザ識別子を登録するユーザ
    識別子登録ステップと、 各ユーザが登録した検索条件中に記述された配送条件を
    登録する配送条件登録ステップを有し、 前記テキスト検索配送ステップは、 該テキストに対して、前記検索ターム抽出ステップで抽
    出された検索タームを検索する検索ターム検索ステップ
    と、 上記検索ターム検索ステップで検索された該検索
    ターム毎に登録された前記ユーザ識別子を取得するユー
    ザ識別子取得ステップと、 上記検索ターム検索ステップで検索された該検索ターム
    の出現情報と、上記ユーザ識別子取得ステップで取得さ
    れたユーザ識別子を用いて、所定の算出式に基づいて、
    該テキストの各検索条件に対する適合度を算出する適合
    度算出ステップと、 上記適合度算出ステップで算出された適合度が前記配送
    条件登録ステップで登録された配送条件を満たすテキス
    トを、該当するユーザに配送するテキスト配送ステップ
    を有することを特徴とする文書検索配送方法。
  3. 【請求項3】請求項2記載の文書検索配送方法における
    検索条件登録ステップにおいて、 前記検索ターム抽出ステップで抽出された該検索ターム
    に対する重みを算出する検索ターム重み算出ステップを
    有し、 前記テキスト検索配送ステップにおいて、 前記検索ターム検索ステップの代わりに、前記検索ター
    ム抽出ステップで抽出された検索タームの該テキストに
    おける出現回数を計数する出現回数計数ステップと、 前記適合度算出ステップの代わりに、上記検索ターム重
    み算出ステップで算出された検索ターム重みと上記出現
    回数計数ステップで計数された該検索ターム出現回数を
    用いることにより、各検索条件に対する該テキストの適
    合度を算出する適合度算出ステップを有することを特徴
    とした文書検索配送方法。
  4. 【請求項4】請求項2および3記載の文書検索配送方法
    におけるテキスト検索配送ステップにおいて、 検索条件に対する取得したテキストの適合度を算出する
    順番を制御する適合度算出順序制御ステップを有するこ
    とを特徴とする文書検索配送方法。
  5. 【請求項5】請求項4記載の文書検索配送方法における
    適合度算出順序制御ステップにおいて、 予め定められた配信優先度、ユーザが指定した配信優先
    度あるいは配信サービスの配信優先度を含む契約料金に
    従って前記適合度を算出する順番を決定する適合度算出
    順序決定ステップを有することを特徴とする文書検索配
    送方法。
  6. 【請求項6】請求項3記載の文書検索配送方法における
    検索ターム重み算出ステップにおいて、 前記検索ターム抽出ステップで抽出された該検索ターム
    が出現するテキスト数を計数する検索ターム出現テキス
    ト数計数ステップと、 上記検索ターム出現テキスト数計数ステップで計数され
    たテキスト数を用いて該検索タームの重みを算出する検
    索ターム出現テキスト数利用重み算出ステップを有する
    ことを特徴とする文書検索配送方法。
  7. 【請求項7】請求項1記載の文書検索配送方法におい
    て、請求項1記載のテキスト検索配送ステップで行う処
    理に加え、取得した全テキスト、および全テキストに対
    する各ユーザの検索条件との適合度を保存する、テキス
    ト検索配送ステップを有することを特徴とする文書検索
    配送方法。
  8. 【請求項8】請求項7記載の文書検索配送方法におい
    て、前記テキスト検索配送ステップにおいて保存した内
    容をユーザに提示する、配送閾値設定支援情報提示ステ
    ップを有することを特徴とする文書検索配送方法
  9. 【請求項9】請求項8記載の文書検索配送方法におい
    て、前記配送閾値設定支援情報提示ステップにおいてユ
    ーザに提示する内容として、ユーザに配送したテキスト
    の、適合度、配送時刻、配送時点での設定配送閾値を該
    ユーザに一覧提示する、配送閾値設定支援情報提示ステ
    ップを有することを特徴とする文書検索配送方法
  10. 【請求項10】請求項8記載の文書検索配送方法におい
    て、前記配送閾値設定支援情報提示ステップにおいてユ
    ーザに提示する内容として、過去に算出した適合度別の
    テキスト数を該ユーザに提示する、配送閾値設定支援情
    報提示ステップを有することを特徴とする文書検索配送
    方法
  11. 【請求項11】請求項8記載の文書検索配送方法におい
    て、前記配送閾値設定支援情報提示ステップにおいてユ
    ーザに提示する内容として、過去に取得したテキストの
    適合度を、受信時刻に対してプロットしたグラフの形で
    該ユーザに提示する、配送閾値設定支援情報提示ステッ
    プを有することを特徴とする文書検索配送方法。
  12. 【請求項12】請求項1記載の文書検索配送方法におい
    て、予め設定された、テキストを配送するか否かを決定
    する基準の値である配送閾値と、テキストの適合度算出
    結果とを比較して、テキストの適合度が上回る場合に、
    テキストを該ユーザに配送するテキスト配送ステップを
    有することを特徴とする文書検索配送方法。
  13. 【請求項13】請求項12記載の文書検索配送方法にお
    いて、配送閾値をユーザ毎に設定する、配送閾値設定ス
    テップを有することを特徴とする文書検索配送方法。
  14. 【請求項14】請求項13記載の文書検索配送方法にお
    いて、請求項7記載のテキスト検索配送ステップを有
    し、前記テキスト検索配送ステップにおいて保存したテ
    キストを走査し、各ユーザの設定した検索条件との適合
    度を算出することにより、配送閾値を各ユーザ毎に算出
    し設定する、配送閾値自動設定ステップを有することを
    特徴とする文書検索配送方法。
  15. 【請求項15】請求項13記載の文書検索配送方法にお
    いて、請求項9、または請求項10、または請求項11
    記載の配送閾値設定支援情報提示ステップを有し、 請求項9、または請求項10、または請求項11におけ
    る提示情報を、ユーザが配送閾値を設定する際に提示す
    る、配送閾値設定支援情報提示ステップを有することを
    特徴とする文書検索配送方法。
  16. 【請求項16】請求項13記載の文書検索配送方法にお
    いて、請求項7記載のテキスト検索配送ステップを有
    し、前記テキスト検索配送ステップにおいて保存した情
    報をもとに、過去の一定期間内の全テキストのうち、請
    求項1記載の適合度が新しく設定した配送閾値を超える
    テキストをユーザに提示する、配送閾値設定試行ステッ
    プを有することを特徴とする文書検索配送方法。
  17. 【請求項17】請求項12または請求項13記載の文書
    検索配送方法において、請求項7記載のテキスト検索配
    送ステップを有し、 前記テキスト検索配送ステップにおいて保存した情報を
    もとに、適合度が請求項12記載の配送閾値を超えなか
    ったテキストを対象に、ユーザが希望する配送数、また
    は配送頻度を満たす数まで、適合度の上位のテキストを
    追加配送する、テキスト追加配送ステップを有すること
    を特徴とする文書検索配送方法。
  18. 【請求項18】請求項13記載の文書検索配送方法にお
    いて、請求項7記載のテキスト検索配送ステップを有
    し、前記テキスト検索配送ステップにおいて保存した情
    報をもとに、ユーザに配送閾値の修正を促すメッセージ
    を提示する、配送閾値修正提案提示ステップを有するこ
    とを特徴とする文書検索配送方法。
  19. 【請求項19】請求項1記載の文書検索配送方法におい
    て、一定期間内あるいはユーザが設定する期間内に該ユ
    ーザが希望する配送テキスト数を設定する、希望配送数
    設定ステップを有することを特徴とする文書検索配送方
    法。
  20. 【請求項20】請求項19記載の文書検索配送方法にお
    いて、請求項7記載のテキスト検索配送ステップを有
    し、前記希望配送数設定ステップにおいて設定されたテ
    キスト数と、前記テキスト検索配送ステップにおいて保
    存した情報をもとに、所定の時間毎にユーザ毎の配送閾
    値を設定する、配送閾値自動設定ステップを有すること
    を特徴とする文書検索配送方法。
  21. 【請求項21】請求項1記載の文書検索配送方法におい
    て、請求項13記載の配送閾値設定ステップと、請求項
    19記載の希望配送数設定ステップを有し、 前記配送閾値設定ステップと、 前記希望配送数設定ス
    テップのどちらを使用するかをユーザが選択する、配送
    条件設定モード選択ステップを有することを特徴とする
    文書検索配送方法。
  22. 【請求項22】複数のユーザから入力した検索条件を登
    録する検索条件登録手段と、入力した文書情報のテキス
    トデータを対象として、前記検索条件を満足するテキス
    トを検索し、該ユーザに配送する検索配送手段とを有す
    る文書検索配送装置は、さらに以下を含む、 前記検索配送手段では、前記検索条件に対する適合度を
    上記テキストから算出し、該適合度により該検索条件の
    成否を判定し、成立した該検索条件に対応するユーザに
    対して、該テキストを配送する。
  23. 【請求項23】複数のユーザから入力した検索条件を登
    録する検索条件登録ステップと、入力した文書情報のテ
    キストデータを対象として、前記検索条件を満足するテ
    キストを検索し、該ユーザに配送する検索配送ステップ
    とを有する文書検索配送プログラムは、さらに以下を含
    む、 前記検索配送ステップでは、前記検索条件に対する適合
    度を上記テキストから算出し、該適合度により該検索条
    件の成否を判定し、成立した該検索条件に対応するユー
    ザに対して、該テキストを配送する。
  24. 【請求項24】複数のユーザから入力した検索条件を登
    録する検索条件登録ステップと、入力した文書情報のテ
    キストデータを対象として、前記検索条件を満足するテ
    キストを検索し、該ユーザに配送する検索配送ステップ
    とを有する文書検索配送プログラムを格納した計算機読
    み取り可能な記憶媒体、前記文書検索配送プログラム
    は、さらに以下を含む、 前記検索配送ステップでは、前記検索条件に対する適合
    度を上記テキストから算出し、該適合度により該検索条
    件の成否を判定し、成立した該検索条件に対応するユー
    ザに対して、該テキストを配送する。
JP2000032625A 1999-03-19 2000-02-03 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体 Pending JP2000339346A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2000032625A JP2000339346A (ja) 1999-03-19 2000-02-03 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体
EP00104382A EP1122651B1 (en) 2000-02-03 2000-03-02 Method and apparatus for retrieving and delivering documents, and recording media storing a program therefor
DE60044423T DE60044423D1 (de) 2000-02-03 2000-03-02 Verfahren und Gerät zum Wiederauffinden und Ausgeben von Dokumenten und Speichermedium mit entspechendem Program
US09/518,689 US6549898B1 (en) 2000-02-03 2000-03-03 Method of and an apparatus for retrieving and delivering documents and a recording media on which a program for retrieving and delivering documents are stored
US10/232,721 US6665667B2 (en) 2000-02-03 2002-09-03 Method of and an apparatus for retrieving and delivering documents and a recording media on which a program for retrieving and delivering documents are stored
US10/718,699 US7333983B2 (en) 2000-02-03 2003-11-24 Method of and an apparatus for retrieving and delivering documents and a recording media on which a program for retrieving and delivering documents are stored

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP11-75005 1999-03-19
JP7500599 1999-03-19
JP2000032625A JP2000339346A (ja) 1999-03-19 2000-02-03 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2003310866A Division JP2004005749A (ja) 1999-03-19 2003-09-03 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体
JP2004151178A Division JP2004240996A (ja) 1999-03-19 2004-05-21 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2000339346A true JP2000339346A (ja) 2000-12-08
JP2000339346A5 JP2000339346A5 (ja) 2004-10-14

Family

ID=26416165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000032625A Pending JP2000339346A (ja) 1999-03-19 2000-02-03 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2000339346A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007066414A1 (ja) * 2005-12-09 2007-06-14 Fujitsu Limited プログラム、データ抽出装置、及び方法
JP2011008811A (ja) * 2010-08-16 2011-01-13 Fujitsu Ltd プログラム、及びデータ抽出方法
JP2013145569A (ja) * 2013-02-25 2013-07-25 Fujitsu Ltd プログラム、データ抽出装置、及び方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101991A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
JPH1027182A (ja) * 1996-07-11 1998-01-27 Hitachi Ltd 文書検索配送方法および装置
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JPH1173415A (ja) * 1997-08-27 1999-03-16 Toshiba Corp 類似文書検索装置及び類似文書検索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101991A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JPH1027182A (ja) * 1996-07-11 1998-01-27 Hitachi Ltd 文書検索配送方法および装置
JPH1173415A (ja) * 1997-08-27 1999-03-16 Toshiba Corp 類似文書検索装置及び類似文書検索方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007066414A1 (ja) * 2005-12-09 2007-06-14 Fujitsu Limited プログラム、データ抽出装置、及び方法
JPWO2007066414A1 (ja) * 2005-12-09 2009-05-14 富士通株式会社 プログラム、及びデータ抽出方法
JP5238105B2 (ja) * 2005-12-09 2013-07-17 富士通株式会社 プログラム、及びデータ抽出方法
JP2011008811A (ja) * 2010-08-16 2011-01-13 Fujitsu Ltd プログラム、及びデータ抽出方法
JP2013145569A (ja) * 2013-02-25 2013-07-25 Fujitsu Ltd プログラム、データ抽出装置、及び方法

Similar Documents

Publication Publication Date Title
US5873076A (en) Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US5822731A (en) Adjusting a hidden Markov model tagger for sentence fragments
US5737734A (en) Query word relevance adjustment in a search of an information retrieval system
US5675788A (en) Method and apparatus for generating a composite document on a selected topic from a plurality of information sources
US5742816A (en) Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic
US5640553A (en) Relevance normalization for documents retrieved from an information retrieval system in response to a query
US5659742A (en) Method for storing multi-media information in an information retrieval system
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US6912550B2 (en) File classification management system and method used in operating systems
EP1122651B1 (en) Method and apparatus for retrieving and delivering documents, and recording media storing a program therefor
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
US6430559B1 (en) Method and apparatus for profile score threshold setting and updating
US8849787B2 (en) Two stage search
EP1585030A2 (en) Automatic Capitalization Through User Modeling
WO1997010557A1 (en) Method for categorizing documents into subjects
US20080065633A1 (en) Job Search Engine and Methods of Use
US20020165861A1 (en) Method and apparatus for assigning a confidence level to a term within a user knowledge profile
WO1997012333A1 (en) Restricted expansion of query terms using part of speech tagging
US20020188604A1 (en) Registration method and search method for structured documents
JP2001519952A (ja) データ要約装置
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
JP2005182817A (ja) クエリレコグナイザ
JPH10320416A (ja) 情報配信システム及びプログラムを記録した機械読み取り可能な記録媒体
US7181688B1 (en) Device and method for retrieving documents
JPH09101991A (ja) 情報フィルタリング装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20031209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040521

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040526

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040625

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060427