WO2005066837A1

WO2005066837A1 - 辞書作成装置および辞書作成方法

Info

Publication number: WO2005066837A1
Application number: PCT/JP2004/017578
Authority: WO
Inventors: Hiroshi Kutsumi; Eiichi Naito; Jun Ozawa; Hideyuki Yoshida
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2003-12-26
Filing date: 2004-11-26
Publication date: 2005-07-21
Also published as: US20060242191A1; JP3978221B2; US20060271527A1; CN1922605A; US7840565B2; US7921113B2; JPWO2005066837A1

Abstract

　テキスト情報群の内容の変化に対応して、テキスト情報を分類、検索、または抽出するための辞書を最適に作成、および更新することができる辞書作成装置および辞書作成方法を提供する。辞書作成装置（１００）は、入力されたテキスト情報からキーワードを抽出するキーワード抽出部（１）、キーワードの出現に関する統計量を求めるキーワード統計部（２）、キーワードの出現に関する統計量に基づいて抽出されたキーワードの評価値を算出するキーワード評価値算出部（３）、算出された評価値に基づいてこのキーワードを登録するか否かまたは削除するか否かを判定する判定部（４）、判定部（４）が行った判定の結果によって辞書データベース（１０２）に対してキーワードの登録または削除を行う辞書登録削除部（５）、および辞書データベース（１０２）を備える。

Description

明細書

辞書作成装置および辞書作成方法

技術分野

[0001] 本発明は、テキストで記述された情報を検索、分類、またはフィルタリングするために用いる辞書を作成、更新する辞書作成装置に関する。

背景技術

[0002] 近年、ハードディスクや DVD (ディジタル多用途ディスク）等が低価格ィ匕によって普及してきており、テレビ番組等の動画情報を簡単に蓄積できるようになってきている。さらに、これらハードディスクや DVDの大容量ィ匕により、大量の動画コンテンツを蓄積できるようになってきて!/、る。

[0003] 一方、テレビ番組等の電子プログラムガイドにより、各番組に関する情報がテキスト情報で取得できるようになつてきた。そこで、テキスト情報を利用して、視聴者の嗜好にあった番組を蓄積したり、蓄積された番組を分類したりすることが可能になってきている。番組のテキスト情報を利用して番組の選択や、蓄積番組を分類するためには、番組ガイド情報から、どのキーワードが番組の特徴を表現しているの力、判断する必要がある。そこで、あら力じめ番組のテキスト情報力も重要なキーワードを抽出したり、不要なキーワードを除外したりするために、あら力じめ辞書を構築するアプローチがとられる。

[0004] このような辞書として、テキスト情報を分類、検索、または抽出するにあたってどのキ一ワードで分類、検索または抽出する力を記述した切り出し辞書や、テキスト情報を分類、検索、または抽出するにあたって意味をなさないキーワードを除外するために、そのような不要なキーワードを集めた不要語辞書等がある。

[0005] 切り出し辞書を作成するためには、分類や検索の対象となるテキスト情報群の多数のサンプルデータから、実際に出現するキーワードを拾い上げ、さらには対象とするテキスト情報群の分類や検索をする上で特徴的なキーワードだけを切り出し辞書として採用する。例えば、テキスト情報として EPG (Electric Program Guide :電子番組表）を対象とすると、分類や検索のために出演者名および一般名詞が有効であると考えた場合、実際の EPGデータに出現する出演者名と一般名詞を抽出したものを切り出し辞書として作成する。

[0006] また、同様に不要語辞書の作成については、対象となるテキスト情報群のサンプルデータに出現するキーワードのうち、分類や検索に役に立たないもの、あるいはむしろその妨げにすらなるものを抽出して、それらのキーワードを不要語辞書として採用する。例えば、ほとんどの EPGデータに出現するキーワードが存在した場合、そのキ一ワードは個別の EPGデータを特徴づけることはできないので不要なキーワードであると考えることができる。

[0007] 上記のようなアプローチとして、複数のテーマに関する辞書をあら力じめ設定しておき、そのテーマ辞書を用いて番組の分類を行ったり、検索を行ったりする番組推薦システムが提案されている（例えば、特許文献 1参照。 ) oこの番組推薦システムでは、例えば、「旅」のテーマに関しては、「旅館」、「宿」、「車窓」、「船旅」等の特徴的なキ一ワードを設定した辞書を利用することで、「旅」に関する番組を検索'分類することが可能になっている。さらに、ユーザ力もの操作情報を利用して嗜好に関するプロフアイルを構築することで、そのユーザにあった番組提供を目指して、る。

[0008] また、あら力じめ設定されたテーマ（ジャンル）によって、番組表の番組の色を変化させ、ユーザにとってわかりやすく番組表示するデジタル放送受信装置が提案されている（例えば、特許文献 2参照。 )₀

特許文献 1：特開 2002-320159号公報

特許文献 2 :特開 2003—134412号公報

発明の開示

発明が解決しょうとする課題

[0009] し力しながら、従来の辞書作成方法では、切り出し辞書も不要語辞書もあらかじめ対象となるテキスト情報群のサンプルデータ力作成する固定的なものであるため、対象となるテキスト情報群の変化に対応することができな力た。

[0010] 例えば、政治における総理大臣の名前等は、その時代によって異なり、また、プロ野球の選手においても、トレード等により時代によってチームが異なる場合がある。また、 EPGにおいて、出演者名は時代と共に変化していくものであり、辞書作成時には頻出していた出演者が数年後には全く出演しなくなったり、逆に辞書作成時には無名だった俳優が後に売れっ子になったりすることもある。さらに、大きなイベント (オリンピックなど）の時や、大事件が発生したときはそれに関連する番組が著しく増加し、出現するキーワードの傾向が大きく変わると考えられる。また、新しい放送形態の出現や放送文化の変化などにより EPGの記述内容に大きな変動が見られる可能性も今後考えられる。

[0011] また、上記特許文献 1で述べた「旅」に関しても、時代によって流行があり、各時代に応じた辞書の更新が必要な場合が多!、。

[0012] そのため、このようなテキスト情報群の内容の変化に伴い、テキストの分類、検索、または抽出に利用するための辞書を適切なものに構築し直さねばならないという課題がある。

[0013] そこで、本発明は上記の事情に鑑みてなされたものであり、テキスト情報群の内容の変化に対応して、テキスト情報を分類、検索、または抽出するための辞書を最適に作成、および更新することができる辞書作成装置および辞書作成方法を提供することを目的とする。

課題を解決するための手段

[0014] 上記目的を達成するため、本発明に係る辞書作成装置は、テキストで記述された情報を検索、分類、またはフィルタリングするために用いられる辞書を作成する辞書作成装置であって、テキスト情報力キーワードを抽出するキーワード抽出手段と、前記テキスト情報から抽出されたキーワードを前記辞書に登録または削除する辞書登録削除手段とを備えることを特徴とする。

[0015] これによつて、テキスト情報の内容の変化を対応して、キーワードを辞書力適宜入れ替えることにより、辞書を常に最適な状態に保つことができる。

[0016] また、前記辞書作成装置は、さらに、 1つ以上のテキスト情報力構成されるテキスト情報群における前記キーワードの出現に関する統計量を求めるキーワード統計手段と、前記統計量に基づいて前記キーワードの評価値を算出するキーワード評価値算出手段と、前記算出された評価値に基づいて前記キーワードを前記辞書に登録するか否か、または前記辞書力削除する力否かを判定する判定手段とを備え、前記キーワード抽出手段は、前記テキスト情報群からキーワードを抽出し、前記辞書登録削除手段は、前記判定の結果によって前記キーワードを前記辞書に登録または削除してもよい。

[0017] これによつて、テキスト情報群を構成するキーワードの出現傾向に応じて、効率的なキーワードが登録された辞書を適切に作成することができる。また、テキスト情報群の内容の変化を対応して、キーワードを辞書力適宜入れ替えることにより、辞書を常に最適な状態に保つことができる。

[0018] ここで、前記辞書作成装置は、さらに、前記キーワードおよび当該キーワードの前記評価値を組にして記憶するためのキーワード記憶手段を備え、前記キーワード評価値算出手段は、前記抽出されたキーワードと算出した評価値とを対応付けて前記キーワード記憶手段に記憶し、前記判定手段は、前記キーワード評価値算出手段により新たに算出された評価値と前記キーワード記憶手段に記憶されている評価値との変化量に基づいて、前記キーワードを前記辞書に登録するか否か、または前記辞書から削除する力否かを判定してもよい。

[0019] これによつて、前回の処理時の評価値が記憶されて!、るキーワードにつ、ては、前回の処理時の評価値と今回算出した評価値との変化値に基づいて、辞書の更新を行っているので、テキスト情報群を構成するキーワードの出現傾向の変化が著しいキ一ワードについて辞書の内容を更新することが可能になる。

[0020] また、前記キーワード評価値算出手段で算出される評価値は、前記テキスト情報群におけるテキスト情報の総数および前記キーワードを含むテキスト情報の数に基づくキーワードの idf (inverse document frequency)値であり、前記判定手段は、前記キーワードが前記辞書に登録されていなぐかつ前記算出された idf値が所定の閾値以上である場合に、前記キーワードを前記辞書に登録すると判定してもよい。

[0021] また、前記判定手段は、前記キーワードが前記辞書に登録されており、かつ前記算出された idf値が所定の閾値未満である場合に、前記キーワードを前記辞書力削除すると判定してもよい。

[0022] idf値は小さいほど、そのキーワードはどのテキスト情報にも出現する「めずらしくな V、」キーワードであり、逆に大き、ほど一部のテキスト情報にしか含まれな、キーヮードである。よって、テキスト検索や分類等を行うのに効率的なキーワードが登録された辞書を適切に作成することが可能になる。

[0023] また、前記テキスト情報群は、あらかじめ所属するカテゴリの情報が付与された 1つ以上のテキスト情報から構成され、前記キーワード統計手段は、前記テキスト情報群における前記カテゴリに関する統計量を求め、前記キーワード評価値算出手段は、前記抽出されたキーワードについて前記キーワードの出現に関する統計量および前記カテゴリに関する統計量に基づいて評価値を算出してもよい。

[0024] これによつて、あら力じめ付与されて、るカテゴリ分類に対して依存性の低、評価値を算出でき、辞書に登録すべきキーワードについて、テキスト情報のカテゴリ分類に対する依存性の影響を減少させることが可能になる。

[0025] また、前記辞書にはカテゴリ毎にキーワードが登録され、前記辞書登録削除手段は、前記カテゴリに対応したテキスト情報力も抽出されたキーワードを、当該カテゴリの時事的特徴キーワードとして前記辞書に登録してもよ、。

[0026] ここで、前記辞書には、あらかじめ前記カテゴリ毎に定常特徴キーワードが登録されており、前記辞書登録削除手段は、前記カテゴリに対応したテキスト情報から抽出されたキーワードの中で、当該カテゴリの定常特徴キーワードとして登録されていないキーワードを当該カテゴリの前記時事的特徴キーワードとして前記辞書に登録してちょい。

[0027] これによつて、時代の変化に対応した辞書、すなわち定常的な特徴キーワードとともに、例えばインターネットや電子新聞等のメディア力取得された時事的な固有名詞等の特徴キーワードを時事的特徴キーワードとして登録した辞書を作成することができる。さらに、このように作成された辞書を用いることによって、例えば EPG等で提供される番組情報を精度のよく実現することができる。

[0028] また、前記辞書にはカテゴリ毎にキーワードが登録され、前記辞書作成装置は、さらに、少なくとも 2つの情報源より前記カテゴリに関する分類情報およびテキスト情報を取得する分類情報取得手段を備え、前記辞書登録削除手段は、前記分類情報取得手段により取得された分類情報、および前記キーワード抽出手段により抽出されたキーワードに基づいて、それぞれ前記情報源に対応する辞書を作成してもよい。 [0029] これによつて、複数の情報源の分類情報に対応する複数の辞書を作成することができる。また、日常的に利用しているなどユーザにとって理解しやすい分類情報を用いて、例えば EPG等で提供される番組情報を分類することができ、統一的な分類で番組や情報を管理することができる。

[0030] また、前記辞書作成装置は、さらに、前記それぞれ作成された各情報源に対応する辞書を、編集して融合する辞書融合編集手段を備えてもよい。

[0031] これによつて、各分類辞書データベースの分類情報をまとめた新たな分類階層の辞書を構築することができる。また、このように作成された辞書を用いることによって、例えば EPGの番組表を新たな観点で分類することが可能になる。

[0032] なお、本発明は、このような辞書作成装置として実現することができるだけでなぐこのような辞書作成装置が備える特徴的な手段をステップとする辞書作成方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、 CD— ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。また、本発明は、このような辞書作成装置を備える EPG番組検索システムとして実現することもできる。

発明の効果

[0033] 以上の説明から明らかなように、本発明に係る辞書作成装置および辞書作成方法によれば、テキスト情報群を構成するキーワードの出現傾向に応じて、効率的なキーワードが登録された辞書を適切に作成することができる。また、テキスト情報群の内容の変化を対応して、キーワードを辞書力適宜入れ替えることにより、辞書を常に最適な状態に保つことができる。また、このように作成された辞書を用いることによって、例えば EPG等で提供される番組情報を効率的に検索、分類、またはフィルタリングすることができる。

図面の簡単な説明

[0034] [図 1]本発明の実施の形態 1に係る辞書作成装置の構成を示すブロック図である。

[図 2]本発明の実施の形態 1に係る辞書作成装置において辞書データベースとして切り出し辞書を作成する際の動作の流れを示すフローチャートである。 [図 3] (a)テキスト情報およびテキスト情報群を説明するための図であり、 (b)キーヮ一ドの出現に関する統計量を説明するための図であり、（c)キーワードの評価値の一例を示す図である。

[図 4]本発明の実施の形態 1に係る辞書作成装置において辞書データべ一スを更新する際の動作の流れを示すフローチャートである。

[図 5]本発明の実施の形態 1におけるキーワードの評価値の時間変化の例を示す図である。

[図 6]本発明の実施の形態 1に係る辞書作成装置を備えた EPG番組検索システムの構成を示すブロック図である。

[図 7]本発明の実施の形態 2に係る辞書作成装置の構成を示すブロック図である。函8]本発明の実施の形態 2に係る辞書作成装置において辞書データベースとして切り出し辞書を作成する際の動作の流れを示すフローチャートである。

[図 9]本発明の実施の形態 2に係る辞書作成装置において辞書データべ一スを更新する際の動作の流れを示すフローチャートである。

[図 10]本発明の実施の形態 2におけるキーワードの評価値の時間変化の例を示す図である。

[図 11]本発明の実施の形態 2におけるキーワードの評価値の時間変化の例を示す図である。

[図 12]本発明の実施の形態 4に係る辞書作成装置の構成を示すブロック図である。

[図 13]本発明の実施の形態 4に係る辞書作成装置を備えた EPG番組検索システムの構成を示すブロック図である。

[図 14]本発明の実施の形態 5に係る EPG番組検索システムの構成を示すブロック図である。

[図 15]本発明の実施の形態 5に係る EPG番組検索システムをテレビに備えた場合のシステム構成の例を示すノヽードウエア構成図である。

[図 16]本発明の実施の形態 5に係る EPG番組検索システムにおいて分類辞書デ一タベースを更新する際の動作の流れを示すフローチャートである。

[図 17]分類辞書データベースに記憶されているデータの一例を示す図である。

差替え用紙（規則 26) [図 18]各情報の分類例を示す図である。

差替え用紙（ま！ ^IJ26) [図 19] (a)ユーザによって分類する項目が選択される際の画面例、（b)インターネット上の URLを設定した際の画面例を示す図である。

[図 20]テキスト情報の一例を示す図であり、 (a)「映画」に関するテキスト情報の一例、 (b)「音楽」に関連するテキスト情報の一例である。

圆 21]テキスト情報力も特徴的なキーワードを抽出した結果の一例を示す図である。

[図 22]分類辞書データベースに記憶されているデータの一例を示す図である。

圆 23]ユーザによって録画設定するための分類が選択される際の画面例を示す図である。

[図 24]EPGデータ力取得した番組情報の一例を示す図である。

[図 25]時事的特徴キーワードの各期間毎の利用頻度の一例を示す図である。

[図 26]本発明の実施の形態 6に係る EPG番組検索システムの構成を示すブロック図である。

圆 27]ユーザによって分類辞書データベース (情報源のサイト）が選択される際の画面例を示す図であり、（a)情報源が 2つの場合の例、（b)情報源が 3つの場合の例である。

[図 28]分類辞書データベースの「分類」を示す図であり、（a)第 1の情報源力も取得された分類情報に基づく場合の例、 (b)第 2の情報源カゝら取得された分類情報に基づく場合の例、（c)第 3の情報源カゝら取得された分類情報に基づく場合の例である。

[図 29]本発明の実施の形態 7に係る EPG番組検索システムの構成を示すブロック図である。

圆 30]分類辞書データベースに記憶されているデータの一例を示す図であり、（a)第 1の情報源力も取得された分類情報に基づく場合の例、 (b)第 2の情報源力も取得された分類情報に基づく場合の例、（c)第 3の情報源カゝら取得された分類情報に基づく場合の例である。

圆 31]2つの分類に含まれる特徴キーワードの集合関係を示す概略図であり、（a)— 方の分類のほとんどの特徴キーワードが他方の分類に含まれる場合、 (b) 2つの分類に含まれる特徴キーワードがほとんど同じの場合である。

[図 32]3つの分類辞書データベースの分類情報をまとめて、 1つの分類辞書データベースに融合する際の分類の一例を示す図である。

[図 33]本発明の実施の形態 8に係る EPG番組検索システムの構成を示すブロック図である。

[図 34]分類辞書データベースに記憶されているデータの一例を示す図である。

[図 35]本発明の実施の形態 8における変形例の検索システムの構成を示す図である符号の説明

1 キーワード抽出部

2、 22 キーワード統計部

3、 12 キーワード評価値算出部

4、 13 判定部

5 辞書登録削除部

11 キーワードデータベース

21 第 2キーワード抽出部

100、 200 400 辞書作成装置

101、 201 401 辞書更新部

102 辞書データベース

103 EPG受信部

104 EPG記憶部

105 EPG選択部

106 文書ベクトル作成部

107 検索条件取得部

108 文書評定値算出部

109 検索結果出力部

110 CDDB受信部

1100、 1200、 1300、 1400 EPG番組検索システム

1101 分類情報取得部

1102 分類キーワード抽出部 1103 分類辞書更新部

1104 利用頻度集計部

1105 判定部

1106、 1402 分類辞書データベース

1107、 1208 EPG受信部

1108、 1209 分類部

1109、 1210 番組選択部

1201 第 1の情報源の分類情報取得部

1202 第 2の情報源の分類情報取得部

1203 分類キーワード抽出部

1204、 1401 分類辞書更新部

1205 第 1の情報源の分類辞書データべース

1206 第 2の情報源の分類辞書データべース

1207 分類辞書選択部

1301 第 3の情報源の分類情報取得部

1302 第 3の情報源の分類辞書データべース

1303 分類辞書融合編集部

1304 融合分類辞書データベース

1403 EPG蓄積部

発明を実施するための最良の形態

[0036] 以下、本発明の各実施の形態につ V、て、それぞれ図面を参照しながら説明する。

(実施の形態 1)

図 1は、本発明の実施の形態 1に係る辞書作成装置の構成を示すブロック図である

[0037] 辞書作成装置 100は、テキストで記述された情報を検索、分類、またはフィルタリング等を行うために用いられる辞書 (辞書データベース）を作成するための装置であり、入力されたテキスト情報群から、辞書データベースに登録すべきキーワード（単語)を抽出し登録する辞書更新部 101、および辞書データベース 102を備えている。辞書データベース 102は、その用途によって、切り出し辞書として用いられる場合と、不要語辞書として用いられる場合とがある。

[0038] まず、これらの辞書の用いられ方の例について説明する。

例えば、テキスト情報群がテレビ番組等に関する情報であるとすれば、視聴者が以前に見た番組のテキスト情報より特徴的なキーワードを抽出して視聴者の嗜好を表すプロファイル等を作成する際に、キーワード抽出用またはキーワード除外用の辞書として用いられる。また、これから放送される番組のテキスト情報より番組の特徴を表すキーワードを抽出する際に、キーワード抽出用またはキーワード除外用の辞書として用いられる。

[0039] また、例えばこれから放送される番組の中力視聴者の嗜好にあった番組を推薦するような場合に、上記のように作成されたプロファイルに基づいて、これから放送される番組の特徴を表すキーワードを検索することによって、視聴者の嗜好にあった番組を特定することができる。同様に、例えば HDD (ノヽードディスクドライブ)レコーダ等に大量に蓄積された番組から視聴者の嗜好にあった番組を特定することも可能である。

[0040] また、番組のテキスト情報を利用して、例えば「経済」、「スポーツ」、「生活」等のカテゴリに番組を分類する際に、カテゴリごとにそのカテゴリの特徴を表すキーワードが登録された分類辞書として用いられる。

[0041] 辞書更新部 101は、キーワード抽出部 1、キーワード統計部 2、キーワード評価値算出部 3、判定部 4、辞書登録削除部 5を備えている。

[0042] キーワード抽出部 1は、入力されたテキスト情報力もキーワードを抽出する。キーヮード統計部 2は、例えば入力されたテキスト情報群におけるテキスト情報の総数および抽出されたキーワードを含むテキスト情報の数等の抽出されたキーワードの出現に関する統計量を求める。キーワード評価値算出部 3は、キーワード統計部 2により求められたキーワードの出現に関する統計量に基づいて抽出されたキーワードの評価値を算出する。判定部 4は、キーワード評価値算出部 3により算出された評価値に基づぃてこのキーワードを辞書データベース 102に登録するか否力、または辞書データベース 102から削除する力否かを判定する。辞書登録削除部 5は、判定部 4が行つた判定の結果によってこのキーワードを辞書データベース 102に登録または辞書データベース 102から削除する。

[0043] 次に、上記のように構成された辞書作成装置 100の動作について説明する。

図 2は辞書作成装置 100において辞書データベース 102として切り出し辞書を作成する際の動作の流れを示すフローチャートであり、以下このフローチャートに従つて、切り出し辞書の作成動作について説明する。

[0044] 辞書更新部 101に例えば図 3 (a)に示すように 1つ以上のテキスト情報力も構成されるテキスト情報群 Bが入力されると、キーワード抽出部 1は、テキスト情報群の中の全てのテキスト情報からキーワードの抽出を行う（ステップ S101)。ここでのキーヮード抽出は、汎用的な形態素解析、文字種 (漢字、ひらがな、カタカナなど)の変わり目を端点とした切り出しルールによるものなど、一般に利用される方法で行えばょ、。

[0045] このとき、キーワード統計部 2は、キーワード抽出部 1により抽出されたキーワードの出現に関する統計量を求め、キーワード評価値算出部 3へ通知する (ステップ S102 )。ここでは、キーワード統計部 2は、入力されたテキスト情報群 Bにおけるテキスト情報 Aの総数、および例えば図 3 (b)に示すように抽出されたキーワードを含むテキスト情報の数を求める。

[0046] 次に、キーワード評価値算出部 3は、キーワード統計部 2より通知されたキーワードの出現に関する統計量に基づいて、キーワード抽出部 1により抽出されたキーワードについて、例えば図 3 (c)に示すように評価値を算出する (ステップ S103)。ここで、キーワード評価値算出部 3は、評価値として idf (inverse document frequency)値を算出する。キーワード tについての idf値 idf (t)は、次の式（1)に示すようにテキスト情報群中に含まれるテキスト情報の総数 Nと、 N個のテキスト情報のうち、キーワード tを含んでいるテキストの数 n(t)とから求められる。

[0047] [数 1]

idf値は、キーワード t力個のテキスト情報群の全てのテキスト情報に出現する場合に 1となり、キーワード tが出現するテキスト数 n (t)の減少に伴、単調増加する傾向がある。すなわち、この idf値が小さいほど、キーワード tはどのテキスト情報にも出現する「めずらしくな、」キーワードであり、逆に大き!/、ほど一部のテキスト情報にし力含まれな、キーワードであると言える。

[0048] 次に、判定部 4は、評価値として算出された idf値が所定のしき、値 C以上であるか否かの判定を行う（ステップ S104)。ここで、所定のしきい値 C以上であるキーワードを、切り出し辞書を構成するキーワードとして採用するものとしている。この切り出し辞書は、テキスト情報の検索や分類に利用するためのものであるから、テキスト情報群中に偏りを持って存在しており、テキスト情報群における個別のテキスト情報について相対的な特徴を表現して、るキーワード力も構成されて、る必要がある。したがつて、 idf (t)がある一定の値以上と、う判断基準を採用して!/、る。

[0049] よって、上記判定の結果、 idf値が所定のしき、値 C以上である場合 (ステップ S 10 4で YES)に、判定部 4は、そのキーワード tを辞書データベース 102 (本実施の形態では切り出し辞書）に登録するものとして、辞書登録削除部 5へ通知する。辞書登録削除部 5は、そのキーワード tを辞書データベース 102に登録する（ステップ S 105)。一方、上記判定の結果、 idf値が所定のしきい値 C未満である場合 (ステップ S 104で NO)に、判定部 4は、そのキーワード tを辞書データベース 102に登録するものする辞書登録削除部 5への通知は行わない。

[0050] 次に、判定部 4は、まだ評価を行って、な、キーワードが存在する力否かの判定を行う（ステップ S106)。この判定の結果、まだ評価を行っていないキーワードが存在する場合 (ステップ S 106で YES)には、判定部 4は、次のキーワードについての評価値の算出処理 (ステップ S 103)を行う。一方、評価を行っていないキーワードが存在しない場合、すなわちキーワード抽出部 1により抽出されたすベてのキーワードについてそれぞれ処理を終えた場合 (ステップ S 106で NO)には、一連の動作を終了する。

[0051] 以上のように、テキスト情報群力も抽出したキーワードの評価値に基づいてキーヮードを辞書に登録しているので、テキスト検索や分類等を行うのに効率的なキーヮードが登録された辞書データベース 102を適切に作成することが可能になる。

[0052] 図 4は辞書作成装置 100においてー且作成された辞書データベース 102を更新する際の動作の流れを示すフローチャートであり、以下このフローチャートに従って更新動作について説明する。なお、図 2に示す辞書データベース 102を作成する場合と同様の動作については説明を省略する。

[0053] まず、キーワード抽出部 1によるキーワードの抽出処理 (ステップ S201)力も判定部 4による評価値の判定処理 (ステップ S 204)については、図 2に示す辞書データべ一ス 102を作成する場合 (ステップ S 101一ステップ S 104)と同様である。

[0054] 次に、上記判定の結果、 idf値が所定のしき、値 C以上である場合 (ステップ S204 で YES)に、判定部 4は辞書データベース 102を検索し、そのキーワード tが辞書データベース 102に未登録であるか否かの判定を行う（ステップ S205)。ここで、そのキ一ワード tが辞書データベース 102に未登録である場合 (ステップ S 205で YES)、判定部 4は、そのキーワード tを辞書データベース 102に登録するものとして、辞書登録削除部 5へ通知する。辞書登録削除部 5は、そのキーワード tを辞書データベース 10 2に追加登録する（ステップ S206)。

[0055] 一方、上記判定の結果、 idf値が所定のしき、値 C未満である場合 (ステップ S 204 で NO)に、判定部 4は、評価値として算出された idf値が所定のしきい値 C'未満である力否かの判定を行う（ステップ S207)。この判定の結果、 idf値が所定のしきい値 C '未満である場合 (ステップ S 207で YES)に、判定部 4は辞書データベース 102を検索し、そのキーワード tが辞書データベース 102に既に登録されているか否かの判定を行う（ステップ S208)。ここで、そのキーワード tが辞書データベース 102にまだ登録されている場合 (ステップ S208で YES)、判定部 4は、そのキーワード tを辞書データベース 102から削除するものとして、辞書登録削除部 5へ通知する。辞書登録削除部 5は、そのキーワード tを辞書データベース 102から削除する（ステップ S 209)。

[0056] 次に、判定部 4は、まだ評価を行って、な、キーワードが存在する力否かの判定を行う（ステップ S210)。この判定の結果、まだ評価を行っていないキーワードが存在する場合 (ステップ S210で YES)には、判定部 4は、次のキーワードについての評価値の算出処理 (ステップ S203)を行う。一方、評価を行っていないキーワードが存在しない場合、すなわちキーワード抽出部 1により抽出されたすベてのキーワードについてそれぞれ処理を終えた場合 (ステップ S210で NO)に、一連の動作を終了する。

[0057] 図 5はキーワードの評価値の時間変化の例を示す図である。図 5において、評価値は次第に増加し、点 Eにおいて評価値がしきい値 Cを超え辞書データベース 102に登録される。その後、評価値は増加し続けるが、点 Gを境に減少傾向に転じ、ついに点 Fにおいてしきい値 Cを下回る。よってこの点 Fにおいてこのキーワードは辞書データベース 102から削除される。

[0058] 以上のように、テキスト情報群を構成するキーワードの出現傾向に応じて、既に存在して、る辞書データベース 102の内容を更新して、るので、テキスト情報群の内容の変化に伴った最適な辞書を構築することができる。

[0059] なお、図 4に示す辞書データベース 102を更新する際の動作において、キーワード登録の時のしきい値 Cとキーワード削除の時のしきい値 C，との関係は、 C = C，であつても C>C'であっても構わない。特に後者の場合、キーワード登録の基準よりも削除の規準のほうが低いので、ー且登録されたキーワードが削除されに《なる傾向がある。これにより、キーワードの一時的な出現傾向の変動により評価値が下がった場合でも、頻繁に登録削除を繰り返すのではなく安定した内容の辞書を維持することが可會になる。

[0060] また、本実施の形態では、辞書データベース 102として切り出し辞書の場合について説明したが、同様の手順で不要語辞書の作成、更新も可能である。ただし、この場合、キーワードの登録、削除についての評価値の判定基準が切り出し辞書の場合と異なる。具体的には、図 2に示す辞書データベース 102を作成する際の動作における評価値の判定処理 (ステップ S 104)では、辞書として登録すべきキーワードはしきい値 Cよりも評価値が小さい、すなわち idf (t) < Cである必要がある。また、同様に図 4に示す辞書データベース 102を更新する際の動作におけるキーワード登録時の評価値の判定処理 (ステップ S204)では、判定条件は idf (t) < C、キーワード削除時の評価値の判定処理 (ステップ S 207)では、判定条件は idf (t) >C 'である。

[0061] これによつて、テキスト情報の検索、分類には役立たな!、ような、個別のテキスト情報の特徴を表すことができないキーワードを登録しておく必要がある不要語辞書に対して、 idf値が小さい値であり、どのテキスト情報にも出現する特徴のないキーワードを登録することができる。

[0062] また、本実施の形態では、キーワードの評価値として idf値を用いた例にっヽて説明したが、テキスト情報群におけるキーワードの重要性、特異性、出現頻度等を示す指標であれば同様に実現可能である。ただし、採用した評価値の変化傾向（単調増カロ、単調減少）に応じて、辞書データベース 102への登録、更新のための判定条件は適宜設定する必要がある。

[0063] 例えば、キーワードのテキスト情報群における出現頻度 (tf値）と idf値を掛け合わせた tf 'idf値は、キーワードのテキスト情報群における出現の偏り（珍しさ）と出現頻度の双方を勘案した指標であり、これをキーワード評価値として用いることも可能である。あるいは、単に出現頻度をキーワード評価値として用いてもよい。

[0064] 次に、上記のように構成された辞書作成装置 100を EPG番組検索システムに組み込んだ例について、以下説明する。

[0065] 図 6は、本発明の実施の形態 1に係る辞書作成装置を備えた EPG番組検索システムの構成を示すブロック図である。

[0066] この EPG番組検索システムは、放送波から受信する EPG (Electric Program Guide )データを検索条件によって検索するシステムであり、辞書更新部 101、辞書データベース 102、 EPG受信部 103、 EPG記憶部 104、 EPG選択部 105、文書ベクトル作成部 106、検索条件取得部 107、文書評定値算出部 108、および検索結果出力部 109を備えている。

[0067] EPG受信部 103は、放送波から EPGデータを受信しデコードする。 EPG記憶部 1 04は、 EPG受信部 103で受信された EPGデータを記憶する。 EPG選択部 105は、 EPG記憶部 104に記憶している EPGデータを選択する。文書ベクトル作成部 106は、 EPG選択部 105で選択された EPGデータから辞書データベース 102を用いてキ一ワードと重みの組からなる文書ベクトルを作成する。検索条件取得部 107は、ユーザによって入力される EPGデータに対する検索条件をキーワードと重みの組からなるベクトル形式で取得する。文書評定値算出部 108は、検索条件取得部 107で取得された検索条件と、 EPG記憶部 104に記憶されている EPGデータの文書ベクトルとの余弦を取って評定値を算出し、その評定値に基づいて EPGデータを選択する。検索結果出力部 109は、文書評定値算出部 108で算出された評定値、またはその評定値に基づ、て選択された EPGデータを出力する。

[0068] 以上のように、このような構成の EPG番組検索システムによれば、検索条件取得部 107において取得された 1つ以上のベクトル形式の検索条件により、辞書データべース 102を用いて文書ベクトルィ匕された EPGデータに対する評定値を求め、評定値の高い順に出力することにより、ユーザ指定の検索条件に合った順に EPGデータを検索することが可能となる。

[0069] また、さらに辞書データベース 102は辞書更新部 101によって更新されるため、番組改編による放映番組の大幅な変更、大イベントや大事件による番組傾向の変動、さらには将来の放送スタイルの変化などによる EPG記述内容の大幅な変更などに柔軟に対応して、 EPGデータの検索、分類などに適切な辞書データベース 102を維持することが可能となる。

[0070] なお、本実施の形態では、検索条件取得部 107はユーザによって入力される検索条件を取得するとしている力これに限られるものではない。例えば、検索条件取得部 107は、ユーザが視聴した番組の EPGデータなどから生成された検索条件のベタトルを取得するように構成すると、ユーザ力の明示的な検索条件の指定を受けずに、視聴傾向にあった番組を検索して提示する、いわゆる「おすすめ番組提示」の機能が実現可能となる。

[0071] また、現在テレビ放送は、地上波放送、 BS放送、 CS放送など複数の放送波により提供されており、それぞれの放送波にぉ、て放送されて、る番組の中身や出演者など傾向は異なっている。したがって、辞書の作成や更新に当たっては放送波ごとに E PGデータを分割したものをテキスト情報群として用いても構わないし、さらに細分ィ匕して放送局ごとに分割してもよい。

[0072] また、同様に時間帯ごとで EPGを分割したものをテキスト情報群とし、時間帯別で辞書を作成，更新してもよい。例えば、放送時間帯を、朝、昼間、夕方、ゴールデン、深夜などに分割し、それぞれの時間帯で辞書を作成する。こうすることにより、例えば、全時間帯通してみればあまり出現しないが、午前中には頻出するキーワードなどに対して、時間帯ごとに異なる辞書として反映することが可能となる。

[0073] (実施の形態 2)

図 7は、本発明の実施の形態 2に係る辞書作成装置の構成を示すブロック図である。なお、実施の形態 1と同様の部分については同じ符号を付し、詳細な説明を省略する。

[0074] 辞書作成装置 200の辞書更新部 201は、実施の形態 1の辞書更新部 101の構成に加えてキーワードデータベース 11を備えて、る。

[0075] キーワード評価値算出部 12は、キーワード統計部 2により求められたキーワードの出現に関する統計量に基づいて抽出されたキーワードの評価値を算出し、キーヮードとその評価値を判定部 13に通知するとともに、キーワードデータベース 11に記憶する。

[0076] 判定部 13は、キーワード評価値算出部 12により新たに算出された評価値とキーヮードデータベース 11に記憶されて、る評価値との変化量に基づ、て、このキーヮードを辞書データベース 102に登録するか否力または辞書データベース 102から削除するカゝ否かを判定する。

[0077] キーワードデータベース 11は、辞書データベース 102に登録されているか否かに関係なぐ辞書データベース 102への前回のキーワード登録'更新時において、キーワード抽出部 1で抽出されたすベてのキーワードとその評価値を記憶している。

[0078] 次に、上記のように構成された辞書作成装置 200の動作について説明する。

図 8は辞書作成装置 200において辞書データベース 102として切り出し辞書を作成する際の動作の流れを示すフローチャートであり、以下このフローチャートに従つて、切り出し辞書の作成動作について説明する。なお、実施の形態 1と同様の動作については説明を省略する。 [0079] まず、キーワード抽出部 1によるキーワードの抽出処理 (ステップ S301)力も判定部 13による評価値の判定処理 (ステップ S 304)、および辞書登録削除部 5による辞書データベース 102への登録処理 (ステップ S305)については、図 2に示す辞書データベース 102を作成する場合 (ステップ S 101一ステップ S 105)と同様である。

[0080] 次に、キーワード評価値算出部 12は、抽出されたキーワードとその評価値との組をキーワードデータベース 11に記憶する（ステップ S306)。このとき、抽出されたキーヮードとその評価値との組は、そのキーワードが辞書データベース 102に登録されたか否かにかかわらず、すべてキーワードデータベース 11に記憶されることになる。

[0081] 次に、判定部 13は、まだ評価を行っていないキーワードが存在する力否かの判定を行う（ステップ S307)。この判定の結果、まだ評価を行っていないキーワードが存在する場合 (ステップ S 307で YES)には、判定部 13は、次のキーワードについての評価値の算出処理 (ステップ S303)を行う。一方、評価を行っていないキーワードが存在しない場合、すなわちキーワード抽出部 1により抽出されたすベてのキーワードについてそれぞれ処理を終えた場合 (ステップ S307で NO)には、一連の動作を終了する。

[0082] 図 9は辞書作成装置 200においてー且作成された辞書データベース 102を更新する際の動作の流れを示すフローチャートであり、以下このフローチャートに従って更新動作について説明する。なお、実施の形態 1と同様の動作については説明を省略する。

[0083] まず、キーワード抽出部 1によるキーワードの抽出処理 (ステップ S401)力もキーヮード評価値算出部 12による評価値の算出処理 (ステップ S403)については、図 2に示す辞書データベース 102を作成する場合 (ステップ S 101一ステップ S 103)と同様である。

[0084] 次に、キーワード評価値算出部 12は、評価値を算出したキーワード tについてキーワードデータベース 11を検索し、前回の処理時の評価値が記憶されている力否かを判定する（ステップ S404)。この判定の結果、キーワードデータベース 11に前回の処理時の評価値が記憶されている場合 (ステップ S404で YES)、キーワード評価値算出部 12は、前回の処理時の評価値をキーワードデータベース 11から読み出し、この前回の処理時の評価値と今回算出した評価値との微分値を算出する (ステップ S40 5)。この算出された微分値は、キーワード tについての評価値である idf (t)が前回よりも増加していれば正の値に、減少していれば負の値になり、かつその絶対値が大きいほど、その変化量が大きいといえる。

[0085] なお、この微分値の算出は、今回の評価値と前回の評価値の差分（1次おくれ）に限定するものではない。例えば、今回の評価値と前々回の評価値の差分（2次おくれ )やさらにそれ以前の評価値との差分 (n次おくれ)であってもよいし、キーワードの評価値の変化に起因する指標であれば構わない。

[0086] 次に、判定部 13は、算出された微分値が所定のしきい値 D以上である力否かの判定を行う（ステップ S406)。この判定の結果、微分値が所定のしきい値 D以上である場合 (ステップ S406で YES)に、判定部 13は辞書データベース 102を検索し、そのキーワード tが辞書データベース 102に未登録であるか否かの判定を行う（ステップ S 407)。ここで、そのキーワード tが辞書データベース 102に未登録である場合 (ステツプ S407で YES)、判定部 13は、そのキーワード tを辞書データベース 102に登録するものとして、辞書登録削除部 5へ通知する。辞書登録削除部 5は、そのキーワード t を辞書データベース 102に追加登録する（ステップ S408)。

[0087] 一方、上記判定の結果、微分値が所定のしき、値 D未満である場合 (ステップ S40 6で NO)に、判定部 13は、評価値として算出された微分値が所定のしきい値 D'未満であるか否かの判定を行う（ステップ S409)。この判定の結果、微分値が所定のしきい値 D'未満である場合 (ステップ S409で YES)に、判定部 13は辞書データべ一ス 102を検索し、そのキーワード tが辞書データベース 102に既に登録されているか否かの判定を行う（ステップ S410)。ここで、そのキーワード tが辞書データベース 10 2にまだ登録されている場合 (ステップ S410で YES)、判定部 13は、そのキーワード tを辞書データベース 102から削除するものとして、辞書登録削除部 5へ通知する。辞書登録削除部 5は、そのキーワード tを辞書データベース 102から削除する (ステツプ S411)。

[0088] 次に、キーワード評価値算出部 12は、抽出されたキーワードとその評価値 (微分値を求める前の段階の評価値）との組をキーワードデータベース 11に記憶する (ステツプ S412)。このとき、抽出されたキーワードとその評価値との組は、そのキーワードが辞書データベース 102に登録された力否力、または削除されたか否かにかかわらず、すべてキーワードデータベース 11に記憶されることになる。

[0089] 次に、判定部 13は、まだ評価を行っていないキーワードが存在する力否かの判定を行う（ステップ S413)。この判定の結果、まだ評価を行っていないキーワードが存在する場合 (ステップ S413で YES)には、判定部 13は、次のキーワードについての評価値の算出処理 (ステップ S403)を行う。一方、評価を行っていないキーワードが存在しない場合、すなわちキーワード抽出部 1により抽出されたすベてのキーワードについてそれぞれ処理を終えた場合 (ステップ S413で NO)には、一連の動作を終了する。

[0090] また、キーワードデータベース 11に前回の処理時の評価値が記憶されているか否力の判定 (ステップ S404)において、キーワードデータベース 11に前回の処理時の評価値が記憶されていない場合 (ステップ S404で NO)には、図 8に示す辞書データベース 102を作成する場合と同様に、判定部 13による評価値の判定処理 (ステップ S 414)、および辞書登録削除部 5による辞書データベース 102への登録処理 (ステツプ S415)の動作を行った後、キーワード評価値算出部 12によるキーワードとその評価値との組のキーワードデータベース 11への記憶処理 (ステップ S412)を行う。

[0091] 図 10はキーワードの評価値の時間変化の例を示す図である。図 10において、評価値は次第に増加し、点 Eにお、て評価値の微分値がしき!/、値 Dを超え辞書データベース 102に登録される。その後、評価値は増加し続けるが、点 Gを境に減少傾向に転じ、ついに点 Fにおいて評価値の微分値がしきい値 D，を下回る。よってこの点 F においてこのキーワードは辞書データベース 102から削除される。

[0092] 以上のように、テキスト情報群力も抽出したキーワードの評価値に基づいてキーヮードを辞書に登録しているので、テキスト検索や分類のための辞書データベース 102 を適切に作成することが可能になる。さらに、抽出したキーワードおよび評価値をキ一ワードデータベース 5に登録し、前回の処理時の評価値が記憶されているキーヮードについては、前回の処理時の評価値と今回算出した評価値との微分値に基づいて、辞書データベース 102の更新を行っているので、テキスト情報群を構成するキ一ワードの出現傾向の変化が著しいキーワードについて辞書の内容を更新することが可能になる。

[0093] なお、本実施の形態では、辞書データベース 102として切り出し辞書の場合について説明したが、同様の手順で不要語辞書の作成、更新も可能である。ただし、この場合、キーワードの登録、削除についての評価値の判定基準が切り出し辞書の場合と異なる。具体的には、図 8に示す辞書データベース 102を作成する際の動作における評価値の判定処理 (ステップ S 104)では、辞書として登録すべきキーワードはしきい値 Cよりも評価値が小さい、すなわち idf (t) < Cである必要がある。また、同様に図 9に示す辞書データベース 102を更新する際の動作におけるキーワード登録時の微分値の判定処理 (ステップ S406)では、判定条件は微分値 < D、キーワード削除時の微分値の判定処理 (ステップ S409)では、判定条件は微分値 > D 'である。

[0094] また、本実施の形態では、キーワード評価値算出部 12は、前回の処理時の評価値と今回算出した評価値との微分値を算出しているが、例えば前回の処理時の評価値と今回算出した評価値との差分値を算出しても構わない。

[0095] また、本実施の形態では、キーワードの評価値として idf値を用いた例にっヽて説明したが、テキスト情報群におけるキーワードの重要性、特異性、出現頻度等を示す指標であれば同様に実現可能である。ただし、採用した評価値の変化傾向（単調増カロ、単調減少）に応じて、辞書データベース 102への登録、更新のための判定条件は適宜設定する必要がある。

[0096] あるいは、実施の形態 1と実施の形態 2とを組み合わせ、辞書へのキーワードの登録 '削除の判断を、キーワードの評価値およびキーワードの評価値の変化量の双方を勘案して決定してもよ!/、。図 11はキーワードの評価値の時間変化の例を示す図である。図 11において、評価値は次第に増加し、点 Eにおいて評価値の微分値がしきい値 Dを超え辞書データベース 102に登録される。このとき、評価値の絶対値はしき V、値 Cに到達して、な、が、評価値が急激に増加し評価値の微分値がしき!/、値 Dを超えたため辞書データベース 102に登録をしている。その後、評価値は増加し続ける力点 Gを境に減少傾向に転じ、ついに点 Fにおいて評価値の絶対値がしきい値 Cを下回る。よってこの点 Fにおいてこのキーワードは辞書データベース 102から削除される。このとき、点 Gから点 Fにかけて評価値はなだらかに減少をしており、図 10 に示すような評価値の微分値による削除しき、値 D 'には到達して、な、。しかし、なだらかな減少ではあるものの時間とともに評価値の絶対値が十分減少して、るので、評価値の絶対値がしきい値 Cを下回ったことで辞書データベース 102から削除させる。以上のように、キーワード評価値の絶対値および微分値の両方を勘案することにより、さらに合理的なキーワード登録 ·削除の判断が可能になる。

[0097] また、例えばキーワードがテキスト情報群のどの項目（例えばジャンル、一般文等）に含まれているかによって、キーワード登録'削除の判断にキーワード評価値の絶対値を用いる力、またはキーワード評価値の微分値を用いるかを替えても構わない。これにより、効率的なキーワード登録 ·削除の判断が可能になる。

[0098] 以上の例ではキーワード評価値の絶対値と微分値との組み合わせであった力組み合わせ方はこの限りではなぐキーワードの重要性に関連する指標であれば任意のものが組み合わせ可能である。

[0099] (実施の形態 3)

ところで、取り扱うテキスト情報には、内容に応じたカテゴリ分類が与えられている（例えば、個別のテキスト情報に対してジャンル名が付与されている）場合があり、例えば EPGデータであれば、番組の内容に応じて、「ドラマ」、「映画」、「スポーツ」などジヤンル名が付与されて、る。

[0100] このカテゴリ分類に対する依存性について、「主演」というキーワードを例に説明する。ここで、 EPGデータが全部で 5000個あり、「主演」が出現する番組数は 50個であつたとする。一方、 5000個の EPGのうち、ジャンルが「映画」であるものが 60個あり、そのうちキーワード「主演」を含むもの力 5個であったとする。

[0101] このような場合、「主演」というキーワードは EPG全体においては多くはないが、実はそのほとんど力 ^映画」のジャンルの番組に出現していることになる。また、「主演」というキーワードのついた番組を選択することは、「映画」のジャンルを選択することにほぼ等しくなる。さらに、「映画」のジャンルの EPGデータ群においては「主演」というキーワードは、ほとんど特徴のないキーワードであると言える。

[0102] そこで、本実施の形態では、取り扱うテキスト情報に、内容に応じたカテゴリ分類が与えられて！/、る場合に、そのカテゴリ分類に対する依存性を考慮して辞書を作成する場合について説明する。

[0103] 本実施の形態の構成は、実施の形態 1と同様であるので図 1を用いて説明し、実施の形態 1と同様の部分については詳細な説明を省略する。

[0104] 本実施の形態では、キーワード統計部 2、キーワード評価値算出部 3、および判定部 4における動作が実施の形態 1と相違する。

[0105] キーワード統計部 2は、入力されたテキスト情報群におけるテキスト情報の総数、抽出されたキーワードを含むテキスト情報の数、抽出されたキーワードを含むテキスト情報が属するカテゴリにおけるテキスト情報の総数、およびこのカテゴリに属する抽出されたキーワードを含むテキスト情報の数等の抽出されたキーワードの出現に関する統計量を求める。

[0106] キーワード評価値算出部 3は、キーワード統計部 2により求められたキーワードの出現に関する統計量に基づいて抽出されたキーワードの評価値を算出する。実施の形態 1では、キーワード評価値算出部 3は、キーワードの評価値として、入力されるテキスト情報群全体においてこのキーワードが、重要性、特異性、出現頻度等の観点でどうであるかの指標を算出していた。 idf値はその一例であった。これに対して、本実施の形態では、キーワード評価値算出部 3は、テキスト情報群のカテゴリ分類 (ジヤンル）に対する依存性の低!、評価値を付与するために、評価値を次の式（2)を用いて算出する。

[0107] 評価値 = [テキスト情報群全体における評価値] Z [カテゴリ依存度] ……（2) この [テキスト情報群全体における評価値]として、本実施の形態では式（1)で定義した idf値を用いる。

[0108] また、 [カテゴリ依存度]として、テキスト情報群力もカテゴリごとに idf値を求め、それらの最小値の逆数を用いる。

[0109] カテゴリごとの idf値は、次の式（3)を用いて算出する。

[0110] [数 2] ヽ

/df₇{t) = log +1

ノ

Λ/= Λ/'- -(4) ここで、あるカテゴリ jにおいて、カテゴリ jに属するテキスト情報の総数が、キーヮード tが含まれるテキスト情報の数が n (t)である。ただし、 n (t)は 0の場合もあるので、その時は idf (t)は算出しないものとする。また、テキスト情報群中に含まれるテキスト情報の総数 Nと、カテゴリ jに属するテキスト情報の総数が Nとの関係は式 (4)のようになる。

[0111] このように求められたそれぞれのカテゴリ jにおけるキーワード tの idf値 idf (t)力、

j 次の式（5)を用いてカテゴリ依存度 f (t)を算出する。

[0112] [数 3]

り minUdfjit)) "' ^{( 5)}

判定部 4は、上記のようにキーワード評価値算出部 3により算出された評価値に基づぃてこのキーワードを辞書データベース 102に登録するか否力、または辞書データベース 102から削除するか否かを判定する。

[0113] 以上のように、あら力じめ付与されて、るカテゴリ分類に対して依存性の低、評価値を算出しているので、辞書データベース 102に登録すべきキーワードについて、テキスト情報のカテゴリ分類に対する依存性の影響を減少させることが可能になる。

[0114] なお、本実施の形態においては、カテゴリ依存度として、式 (4)で定義される f (t)を用いた例を説明したが、これに限られるものではない。例えば、カテゴリごとの idf値を式（3)に従って求め、それらの分散を求めるなども一例である。 [0115] (実施の形態 4)

図 12は、本発明の実施の形態 4に係る辞書作成装置の構成を示すブロック図である。なお、実施の形態 1と同様の部分については同じ符号を付し、詳細な説明を省略する。

[0116] 辞書作成装置 400の辞書更新部 401は、実施の形態 1の辞書更新部 101の構成に加えて第 2キーワード抽出部 21を備えている。辞書更新部 401には 2種類のテキスト情報群 (第 1のテキスト情報、第 2のテキスト情報)が入力され、キーワード抽出部 1に第 1のテキスト情報が、第 2キーワード抽出部 21に第 2のテキスト情報が入力されている。

[0117] 第 2キーワード抽出部 21は、キーワード抽出部 1と同様に入力されたテキスト情報力もキーワードを抽出する。キーワード統計部 22は、キーワードの出現に関する統計量として、入力されたテキスト情報群におけるテキスト情報の総数および抽出されたキーワードを含むテキスト情報の数を、第 1のテキスト情報および第 2のテキスト情報それぞれにつヽて求める。

[0118] 次に、上記のように構成された辞書作成装置 400を EPG番組検索システムに組み込んだ例について、以下説明する。

[0119] 図 13は、本発明の実施の形態 4に係る辞書作成装置を備えた EPG番組検索システムの構成を示すブロック図である。なお、実施の形態 1と同様の部分については同じ符号を付し、詳細な説明を省略する。

[0120] この EPG番組検索システムは、実施の形態 1の EPG番組検索システムの構成に加えて CDDB受信部 110を備えている。この CDDB受信部 110は、発売されている C

Dに関する情報である CDDB情報をインターネットを介して受信する。

[0121] この EPG番組検索システムでは、辞書更新部 101に EPGデータと、発売されている CDに関する情報である CDDB情報が入力される。すなわち、辞書データベース 1

02を構成するキーワードは EPGデータに出現したキーワードと CDDB情報に出現したキーワードとが存在する。

[0122] CDDB情報は、 CDや音楽に関する情報、具体的には最新のアルバムやアーチスト名などが、ち早く開示される情報であり、この情報を用いて辞書データベース 102 を構築することにより音楽情報に関してはいち早く最新の動向を反映させることが可能となる。

[0123] 一方、辞書データベース 102は、 EPGデータから番組を検索、分類などをするために用いられる力 CDDB情報も利用してキーワードを登録しているため、まだ EPG上ではあまり出てきて!/、な!/、最新の音楽に関する番組であっても、適切に文書ベクトルを付与することが可能であり、音楽番組に強い EPG検索が実現可能になる。

[0124] 以上のように、異種情報源力辞書データベース 102を構築することにより、単一情報源だけでは不足がちなキーワードを補完したり、最新動向をいち早く反映させたりすることが可能となる。

[0125] (実施の形態 5)

ところで、 EPG番組検索システム等にぉ、て番組情報を分類するために用いる分類辞書には、例えば図 17に示すように「映画」の分類であれば、「映画」、「洋画」、「邦画」等と、うように、各分類 (カテゴリ）とその分類に含まれる特徴的なキーワードが記載されている。従来、このようにあらかじめ設定された分類辞書の分類情報を利用して番組表の表示形式を変更したり、番組表の内容を分類したりしてヽる。

[0126] 一方、外部の情報サーバにおいては、近年、インターネットのディレクトリサービスやメールマガジンの情報、電子新聞の情報等において、ユーザが簡単に自ら必要な情報を見つけやすくするために、各情報を分類して蓄積しておくサービスがある。そこでは、例えば、図 18 (a)に示すように「エンターテイメント」、「スポーツ」、「生活」等による分類でホームページのアドレスが分類され、さらに、「エンターテイメント」の中には「映画」、「音楽」、「芸能人」等のさらに詳細の分類されている。最下層の例えば「映画」の分類にぉ、ては、「映画」に関する情報（ホームページ）につ、てのアドレスが蓄積されている。インターネットを利用するユーザは、これらの分類情報をたどることにより、必要な情報のアドレス (URL)を取得することができている。また、電子新聞等においても、例えば図 18 (b)に示すように「経済」、「政治」、「サイエンス」等で電子的な新聞記事が分類され、ユーザにとって必要な情報を探しやすくしている。

[0127] そこで、本実施の形態では、図 17で示したような分類辞書の分類情報を、さらに、図 18で示したような他のメディアで利用されている分類情報を用いて、更新する場合について説明する。

[0128] 図 14は、本発明の実施の形態 5に係る EPG番組検索システムの構成を示すブロック図である。

[0129] この EPG番組検索システム 1100は、分類情報取得部 1101、分類キーワード抽出部 1102、分類辞書更新部 1103、利用頻度集計部 1104、判定部 1105、分類辞書データベース 1106、 EPG受信部 1107、分類部 1108、および番組選択部 1109を備えている。

[0130] 分類情報取得部 1101は、ユーザによって指定された、すでに分類されているテキスト情報のアドレス (URL)からインターネットのディレクトリサービスや電子新聞等のテキスト情報を取得する。分類キーワード抽出部 1102は、分類情報取得部 1101で取得されたテキスト情報力分類するためのキーワードを抽出する。分類辞書更新部 1103は、分類キーワード抽出部 1102により取得されたキーワードを用いて分類辞書データベース 1106で記憶されて、るキーワードを更新する。利用頻度集計部 11 04は、分類辞書データベース 1106に登録されている時事的キーワードについて利用頻度を求める。判定部 1105は、時事的キーワードが分類辞書データベース 1106 に登録されて力所定期間経過後に、計測された利用頻度に基づいて時事的キーワードを分類辞書データベース 1106から削除するか否かを判定する。

[0131] 分類辞書データベース 1106は、各分類に含まれる特徴的なキーワードを記憶しているデータベースであり、例えば図 22に示すように「分類」ごとに、あら力じめ設定されているキーワードである「定常特徴キーワード」、所定の条件により登録および削除が行われる「時事的特徴キーワード」が登録されている。 EPG受信部 1107は、放送波またはインターネット等力も番組情報を取得する。分類部 1108は、分類辞書データベース 1106に登録されて!、るキーワードを用いて、 EPG受信部 1107で取得された番組情報を分類する。番組選択部 1109は、分類部 1108で分類された番組情報を提示するとともに、提示された番組情報カゝらユーザが選択した番組を受け付け、選択する。

[0132] 図 15は、上記 EPG番組検索システムをテレビに備えた場合のシステム構成の例を示すノ、一ドウエア構成図である。 [0133] このシステムは、外部情報サーバ 1201、この外部情報サーバ 1201とインターネット等のネットワーク 1204およびルータ 1202を介して接続されるテレビ 1203を備えている。外部情報サーバ 1201は、ネットワーク 1204に接続され、各分類に関する記事やホームページのアドレスを蓄積している。ルータ 1202は、家庭内の機器を外部のネットワーク 1204に接続する。テレビ 1203は、上記 EPG番組検索システムを備え、放送局 1205から出力された放送波を受信することで番組情報を取得でき、さらにルータ 1202によって外部のインターネットコンテンツにもアクセス可能である。

[0134] 次に、上記のように構成された EPG番組検索システムの動作について説明する。

図 16は EPG番組検索システムにお!/、て分類辞書データベース 1106を更新する際の動作の流れを示すフローチャートであり、以下このフローチャートに従って、分類辞書データベース 1106の更新動作にっ、て説明する。

[0135] 例えば図 19 (a)に示すような番組表を分類する項目が表示された画面上力もユーザによって、分類する項目が選択され、例えば「映画」の分類に関して、図 19 (b)に示すようにインターネット上の URLが設定されると、分類情報取得部 1101は、設定された URLから、例えば図 20 (a)に示すような「映画」に関するテキスト情報を取得する（ステップ S1301)。インターネットは即時性の高いコンテンツが掲載されるため、「映画」等の場合には、一般に公開される前の情報等も掲載されることが多い。また、例えば図 20 (b)に示すような「音楽」に関連するテキスト情報についても、ユーザの設定により取得することができるようになる。なお、テレビ 1203を用いて URLを入力するのが難しい場合には、あら力じめ URLの候補が設定され、ユーザがその URLの候補を選択するインタフェースを用いてもよい。また、この URLの設定は、あらかじめテレビ 1203を出荷するときに、行っておいてもよい。

[0136] 分類キーワード抽出部 1102は、分類情報取得部 1101により取得されたテキスト情報に対して、形態素解析や文字種によるキーワード抽出を行うことにより、代表的なキーワードを選択する (ステップ S 1302)。ここでは、例えば所定期間の出現数（出現頻度）が所定の閾値 (例えば 20回）を超えた場合にキーワードを選択ものとする。なお、ここでのキーワードの選択手法は、これに限られるものではなぐ実施の形態 1等に記載した統計情報を利用することもできる。 [0137] 図 21は、「映画」、「音楽」に関して、特徴的なキーワードを抽出した結果の一例を示す図である。ここで抽出されたキーワードは、固有名詞が多いことが特徴的である。これらのキーワードは、分類辞書データベース 1106にあらかじめ登録されている図 17に示されるような定常的なキーワードに含まれない場合が多い。そこで、分類辞書更新部 1103は、定常的なキーワードに含まれていないキーワードを時事的特徴キ一ワードとして図 22に示すように分類辞書データベース 1106に登録する（ステップ S 1303)。

[0138] EPG受信部 1107は、例えば図 24に示すような番組に関する EPG情報を放送波またはインターネット等から取得する (ステップ S 1304)。

[0139] 番組選択部 1109は、分類辞書データベース 1106に登録されているキーワードが、 EPG情報として取得されたテキスト情報に含まれるか否かをチェックすることで、 EP G情報を取得した番組がどの分類に該当するかを求める (ステップ S1305)。例えば、図 24に示す番組の例の場合、「メトリタス」、「力ァヌ」という語句と、分類辞書データベース 1106の「映画」の分類の時事的特徴キーワードとが一致する。このため、番組選択部 1109は、「あっしのトレンド情報」という番組は、映画に関する番組であると判断する。このとき、図 17に示すような定常的な特徴キーワードでは、「映画」の情報として判断できないが、図 22に示すような時事的特徴キーワードが抽出されていることで、「映画」に関する番組であると判断することができるようになる。

[0140] 利用頻度集計部 1104は、 EPG情報として取得されたテキスト情報に分類辞書データベース 1106の時事的特徴キーワードが含まれていた場合、時事的特徴キーヮードの利用頻度のカウントを増加させる (ステップ S1306)。上記の例では、利用頻度集計部 1104は、「メトリタス」と「力ァヌ」というキーワードに関して、利用頻度を 1増加させること〖こなる。

[0141] 判定部 1105は、時事的特徴キーワードの元になつたテキスト情報を取得してから、すなわち時事的キーワードが分類辞書データベース 1106に登録されて力所定期間（例えば 2ヶ月）が経過したか否かを判定する (ステップ S1307)。ここで、所定期間が経過していない場合 (ステップ S 1307で NO)は、さらに EPG情報を取得し、利用頻度集計部 1104による時事的特徴キーワードの利用頻度の集計を行う (ステップ S 1304— S1306)。すなわち、時事的特徴キーワードは、所定期間が経過するまでは分類辞書データベース 1106に保持されることになる。なお、ここでは所定期間が経過したカゝ否かを判定してヽるが、例えば EPG番組データの取得数が所定数に到達した力否かを判定したり、登録された時事的特徴キーワードの個数が所定数に到達した力否かを判定したりしてもよ!、。

[0142] 一方、所定期間が経過している場合 (ステップ S 1307で NO)には、判定部 1105は、集計された利用頻度があらかじめ設定された削除下限閾値を下回った時事的特徴キーワードを分類辞書データベース 1106から削除すると判定する。分類辞書更新部 1103は、削除と判定された時事的特徴キーワードを分類辞書データベース 1106 から削除する（ステップ S 1308)。

[0143] 図 25は、時事的特徴キーワードの各期間毎の利用頻度の一例を示す図である。図 25において、「メトリタス」というキーワードは、設定された URLのテキスト情報力も取得されて時事的特徴キーワードに設定された後、頻繁に EPG情報に出現していたため、キーワードの出現頻度回数が多くなつている。一方、同時に抽出された「マシン軍団」というキーワードは、 EPG情報として利用されることが少な力たため、キーヮードの出現頻度回数が少なくなつている。この例では、「メトリタス」というキーワードに関しては、削除下限閾値としてあらかじめ設定された 5の値を超えているため、今後も「映画」分類の時事的特徴キーワードとして登録されたままである。一方、「マシン軍団」というキーワードに関しては、削除下限閾値としてあらかじめ設定された 5の値を下回ったため、「映画」分類の時事的特徴キーワードから削除されることになる。

[0144] 以上の処理により、番組を分類する際に、定常的な特徴キーワードを利用すると同時に、時事的な固有名詞等の特徴キーワードをインターネットや電子新聞等のメディァから取得し、時事的特徴キーワードとして分類辞書データベース 1106へ登録することによって、時代の変化に対応した分類辞書データベース 1106を作成することができる。さらに、このように作成された分類辞書データベース 1106を用いることによつて、精度の高い番組の分類を実現することができる。また、この分類辞書データべ一ス 1106を利用して、例えば図 23に示すようにユーザは分類を選択だけで、 EPG情報力ユーザが所望する番組を録画設定することが可能になる。 [0145] なお、本実施の形態では、分類辞書データベース 1106に図 17に示すような分類するための定常的な特徴キーワードがあら力じめ登録されていた力これらのキーヮードもインターネットや電子新聞等の EPG以外のメディアから自動的に構築してもよい。

[0146] (実施の形態 6)

ところで、インターネット上のディレクトリサービスや電子新聞の分類等、電子的なテキスト情報を分類したものが、ユーザに多く利用されている。ユーザは、自らの気に入つた分類パターンを利用して、配信されてくる情報や自らが管理しなければならない情報を分類して、ることがある。

[0147] これらの分類情報は、各サービス会社毎に異なっており、同じインターネットの分類サービスを行っているサービス会社においても、異なっている。また、新聞やメルマガ等のサービス会社とも異なっている。また、テレビ番組の電子番組の配信においても、放送局が付与した映画、ドラマ等の分類情報によって番組が分類されている。しかしながら、放送局で分類されているものは、必ずしも、ユーザが普段利用しているような分類でないことが多い。同様に、番組情報に関しても、放送局等で番組に付与されたタグ情報を用いて番組を分類していることがある。し力しながら、ユーザが普段から利用している分類とは異なる場合がある。

[0148] 例えば、「株価」に関する-ユースが放映されたとき、番組情報の分類では「ニュース」の分類に帰属するが、インターネットの分類情報を利用すると、「経済」というカテゴリに分類されることがある。普段からインターネットの分類情報を利用しているユーザにとっては、たとえ「株価」に関する-ユースの番組情報であっても、その動画を蓄積する場合には、「経済」の分類に帰属させたいものである。

[0149] そこで、本実施の形態では、ユーザが普段利用している分類情報を利用して、 EP Gの番組情報を分類する場合につヽて説明する。

[0150] 図 26は、本発明の実施の形態 6に係る EPG番組検索システムの構成を示すブロック図である。なお、本実施の形態のハードウェア構成は、実施の形態 5の図 15に示すノヽードウエア構成と同様であるため説明を省略する。

[0151] この EPG番組検索システム 1200は、第 1の情報源の分類情報取得部 1201、第 2 の情報源の分類情報取得部 1202、分類キーワード抽出部 1203、分類辞書更新部 1204、第 1の情報源の分類辞書データベース 1205、第 2の情報源の分類辞書データベース 1206、分類辞書選択部 1207、 EPG受信部 1208、分類部 1209、および番組選択部 1210を備えて、る。

[0152] 第 1の情報源の分類情報取得部 1201は、ユーザによって指定された第 1の情報源力分類情報を取得し、この分類情報により分類されているテキスト情報のアドレス（ URL)からテキスト情報を取得する。第 2の情報源の分類情報取得部 1202は、ユーザによって指定された、第 1の情報源とは異なる第 2の情報源力分類情報を取得し、この分類情報により分類されて、るテキスト情報のアドレス (URL)力テキスト情報を取得する。分類キーワード抽出部 1203は、第 1の情報源の分類情報取得部 1201 および第 2の情報源の分類情報取得部 1202で取得されたテキスト情報力も分類するためのキーワードをそれぞれ抽出する。

[0153] 分類辞書更新部 1204は、第 1の情報源および第 2の情報源力も取得された分類情報をそれぞれ第 1の情報源の分類辞書データベース 1205および第 2の情報源の分類辞書データベース 1206に登録する。さらに、分類辞書更新部 1204は、分類キ一ワード抽出部 1203により取得されたキーワードを、第 1の情報源および第 2の情報源力も取得された分類情報に対応させて第 1の情報源の分類辞書データベース 120 5および第 2の情報源の分類辞書データベース 1206に登録する。

[0154] 第 1の情報源の分類辞書データベース 1205は、例えば図 28 (a)に示すように第 1 の情報源カゝら取得された分類情報に基づく「分類」（分類をさらに分けたサブ分類を含む)ごとに、テキスト情報力も抽出されたキーワードを記憶しているデータベースである。第 2の情報源の分類辞書データベース 1206は、例えば図 28 (b)に示すように第 2の情報源力取得された分類情報に基づく「分類」ごとに、テキスト情報力抽出されたキーワードを記憶しているデータベースである。なお、図 28では、分類 (サブ分類）に含まれるキーワードにつ、ては記載を省略して、る。

[0155] 分類辞書選択部 1207は、ユーザによる指示を受け付け、第 1の情報源の分類辞書データベース 1205および第 2の情報源の分類辞書データベース 1206のいずれ力 1つを、番組情報を分類するために用いる分類辞書データベースとして選択する。 [0156] EPG受信部 1208は、放送波またはインターネット等力も番組情報を取得する。分類部 1209は、分類辞書選択部 1207により選択された分類辞書データベースを用いて、 EPG受信部 1208で取得された番組情報を分類する。番組選択部 1210は、分類部 1209で分類された番組情報を提示するとともに、提示された番組情報からュ一ザが選択した番組を受け付け、選択する。

[0157] 次に、上記のように構成された EPG番組検索システムの動作について説明する。

なお、本実施の形態において、すでに分類されたテキスト情報を取得し、そのテキスト情報力分類のためのキーワードを抽出し分類辞書データベースを構築するまでの動作は、実施の形態 5とほぼ同様であるため、説明を省略する。

[0158] 本実施の形態では、分類辞書選択部 1207が、第 1の情報源の分類情報に対応する第 1の情報源の分類辞書データベース 1205および第 2の情報源の分類情報に対応する第 2の情報源の分類辞書データベース 1206のいずれの分類辞書データべースを用いて分類を行うかの指示を、例えば図 27に示すようにユーザより受け付けている。そして、分類辞書選択部 1207は、受け付けた指示により分類に用いる分類辞書データベースを選択する。

[0159] 以上のように、複数の情報源の分類情報に対応する複数の分類辞書データベースを作成することによって、日常的に利用しているなどユーザにとって理解しやすい分類情報を用いて、 EPG等で提供される番組情報を分類することができ、統一的な分類で番組や情報を管理することができる。

[0160] なお、本実施の形態では、図 27 (a)に示すようにユーザによって分類辞書データベース (情報源のサイト）が選択されたが、これに限られるものではなぐ分類辞書選択部 1207が分類辞書データベースを選択してもよい。例えば、分類辞書選択部 12 07は、すでに EPGの分類情報に近い分類を行っているサイトが情報源である分類辞書データベースを選択することもできるし、分類数が最も多、サイトが情報源である分類辞書データベースを選択することも可能である。

[0161] また、本実施の形態では、 EPGのテキスト情報を利用した番組の分類にっ、て述ベたが、分類をユーザが指定することにより自動録画機能の実現にも利用することができる。これにより、従来までは、放送局から提供される分類情報でしか番組の自動録画を設定できな力つたが、普段力も利用しているサイトの分類情報を利用して番組を自動的に録画することができるようになる。

[0162] また、本実施の形態では、分類情報を取得する情報源が 2つである場合にっ、て説明したが、これに限られるものではない。例えば、情報源が 3つである場合には、第 3の情報源の分類情報取得部、第 3の情報源の分類辞書データベースを備えればよい。この場合、この第 3の情報源の分類辞書データベースには、例えば図 28 (c) に示すような情報が登録され、図 27 (b)に示すような画面からユーザによって分類辞書データベース (情報源のサイト）が選択されることになる。また、情報源が 4つ以上である場合についても同様である。

[0163] (実施の形態 7)

情報の分類に関しては、専門的な分類を用いているサイトや一般的な分類を用いて、るサイト等があり、各サイトによってそれぞれの特色で分類を構築して、る場合が多い。ユーザは、その中から、自らの用途に応じて、適当な分類を参照し、管理すベき情報を分類して、ることがある。

[0164] そこで、本実施の形態では、インターネット等で利用されて、る分類に関する情報を統合する場合につ!ヽて説明する。

[0165] 図 29は、本発明の実施の形態 7に係る EPG番組検索システムの構成を示すブロック図である。なお、実施の形態 6と同様の部分については同じ符号を付し、詳細な説明を省略する。また、本実施の形態のハードウェア構成は、実施の形態 5の図 15〖こ示すノヽードウエア構成と同様であるため説明を省略する。

[0166] 本実施の形態の EPG番組検索システム 1300は、実施の形態 6の構成に加えて第 3の情報源の分類情報取得部 1301、第 3の情報源の分類辞書データベース 1302、および融合分類辞書データベース 1304を、また、実施の形態 6の分類辞書選択部 1 207に替えて分類辞書融合編集部 1303を備えている。

[0167] 分類辞書融合編集部 1303は、第 1の情報源の分類辞書データベース 1205に記憶されている分類情報、第 2の情報源の分類辞書データベース 1206に記憶されている分類情報、および第 3の情報源の分類辞書データベース 1302に記憶されている分類情報に基づいて、新たに編集 '融合した融合分類辞書データベース 1304を生成する。

[0168] 次に、上記のように構成された EPG番組検索システムの動作について説明する。

なお、各分類辞書データベースを構築する過程は、実施の形態 5、 6と同様であるため説明を省略する。

[0169] ここで、第 1の情報源の分類辞書データベース 1205には例えば図 30 (a)に示すようなディレクトリ Aの分類力第 2の情報源の分類辞書データベース 1206には例えば図 30 (b)に示すようなディレクトリ Bの分類が、第 3の情報源の分類辞書データベース 1302には、例えば図 30 (c)に示すようなディレクトリ Cの分類が構築されているとする。図 30に示すように、ディレクトリお Cに関しては、一般的な分類情報が用いられており、ディレクトリ Bに関しては、スポーツ関連で詳細な分類情報が用いられている

[0170] 分類辞書融合編集部 1303は、各分類情報が特徴キーワードで表現されることになるため、各分類間の階層の上下関係、同値 (同意味)の関係を特徴キーワードの集合で評価する。具体的には、例えば分類 P、 Qが与えられ、それぞれの分類に対する特徴キーワードの集合を P、 Qとする。このとき、 P fl Qは分類 Pと分類 Qの特徴キーヮードの共通集合を表現し、 P U Qは分類 Pと分類 Qの和集合を表現する。さらに、 I P Iは集合 Pの要素の数、 I P Q Iは集合 (P fl Q)の要素の数を表現する。

[0171] ここで、次の式（6)および式（7)が成立するとき、図 31 (a)に示すように分類 Qのほとんどの特徴キーワードが分類 Pに含まれることを示している。そこで、分類 Pの階層の下に分類 Qをおくことにする。例えば、「野球」の分類の特徴キーワードが「スポーッ」の分類の特徴キーワードに含まれる場合には、「スポーツ」の分類の下の階層に「野球」の分類をおくことになる。

[0172] [数 4] 0.9 , ¾^ .-(6)

0-9. ¾ …

一方、式 (6)および式 (8)が成立するときには、図 31 (b)に示すように分類 Pの特徴キーワードと分類 Qの特徴キーワードがほとんど同じものであることが多い。この場合、同じ意味を表現する分類として扱うこととする。例えば、図 30に示すディレクトリ Aの「経済」とディレクトリ Cの「ビジネス」の特徴キーワードがほぼ同じ場合には、これらの分類は同じものを示していることとなる。

[0173] 分類辞書融合編集部 1303は、図 30に示すような各分類辞書データベースに対して、上記の評価を行い、階層構造を構築するとともに、同じ内容の分類を表現するものを抽出し、新たな分類階層を構築する。その結果、図 32に示すように 3つの分類辞書データベースの分類情報をまとめて、 1つの分類階層を構築することができるようになる。

[0174] 以上のように、各分類間の関係を各分類に含まれる特徴キーワードの集合で評価してヽるので、各分類辞書データベースの分類情報をまとめた新たな分類階層の分類辞書データベースを構築することができ、 EPGの番組表を新たな観点で分類することが可能になる。

[0175] なお、本実施の形態では、融合を行う分類辞書データベースが 3つである場合について説明したが、これに限られるものではない。例えば、分類辞書データベースが 2つであっても構わな!/、し、 4つ以上であっても構わな!/、。

[0176] (実施の形態 8)

上記でも述べたように、分類に関する情報は時々刻々と変化している。例えば、話題になっている映画の情報は、年代や月によって異なるため、「映画」に関する情報を抽出するためには、その時代ごとに分類に利用されている特徴キーワードを保持しておく必要がある。また、プロ野球等の情報であれば、「星野監督」という特徴キーヮードは、 2000年以降であれば、「阪神」に関する情報であるのに対して、 1990年代であれば、「中日」に関する情報となるなど、時代に応じて特徴キーワードが異なるものがある。

[0177] そこで、本実施の形態では、特徴キーワードが登録されるときに、その時刻情報も登録する場合にっヽて説明する。

[0178] 図 33は、本発明の実施の形態 8に係る EPG番組検索システムの構成を示すブロック図である。なお、実施の形態 5と同様の部分については同じ符号を付し、詳細な説明を省略する。また、本実施の形態のハードウェア構成は、実施の形態 5の図 15〖こ示すノヽードウエア構成と同様であるため説明を省略する。

[0179] EPG番組検索システム 1400は、実施の形態 5の構成にカ卩えて EPG蓄積部 1403 を備えている。また、分類辞書更新部 1401における動作、および分類辞書データべース 1402の構成が実施の形態 5と相違する。

[0180] 分類辞書データベース 1402は、各分類に含まれる特徴的なキーワードを記憶しているデータベースであり、例えば図 34に示すように「分類」ごとに、あら力じめ設定されているキーワードである「定常特徴キーワード」、所定の条件により登録および削除が行われる「時事的特徴キーワード」、この時事的特徴キーワード力インターネットや電子新聞等で利用されて、た時期 (期間）の情報である「期間」が登録されて、る。

[0181] 分類辞書更新部 1401は、分類キーワード抽出部 1102により取得されたキーヮードを用いて分類辞書データベース 1106に時事的特徴キーワードを登録する際に、時期 (期間）の情報に対応させて時事的特徴キーワードを登録する。

[0182] EPG蓄積部 1403は、 EPG受信部 1107で取得された過去の EPG情報を蓄積している。

[0183] 次に、上記のように構成された EPG番組検索システムの動作について説明する。

なお、本実施の形態は、実施の形態 5と同様の処理であるため、同様の部分については説明を省略する。 [0184] 分類部 1108は、例えば、図 34に示すような分類辞書データベース 1402を用いると、 2003年 11月には、「メトリタス」の映画に関する情報が多く流通していたため、その時期に放送される番組においては、「メトリタス」というキーワードが含まれていると、「映画」関連の情報であると判断することになる。一方、 2003年 10月の時点では、「メトリタス」と、うキーワードはなく、「ナーミネータ」 t 、うキーワードが含まれて、た場合には、「映画」関連の情報と判断することになる。

[0185] また、分類部 1108は、 EPG蓄積部 1403に蓄積されている過去に受信された EP

Gの番組情報を検索'分類する場合、分類辞書データベース 1402に登録されている時事的特徴キーワードの中で、番組情報が受信された時期に対応する時事的特徴キーワードを用いて検索 ·分類を行う。

[0186] 以上のように、分類辞書データベース 1402に時期（期間）の情報に対応させて時事的特徴キーワードを登録しているので、例えば番組が放映される時期と、その時期に使われているキーワードとを用いることにより、従来までの番組の分類に比べ精度よく分類することが可能になり、時刻（時代）に応じた分類を実現することができる。

[0187] なお、本実施の形態においては、 EPG受信部 1105で取得された過去の EPG情報を蓄積することで、分類辞書データベース 1402に時期 (期間）の情報を対応させて、時事的特徴キーワードを登録した。さらに、電子新聞の配信日時の情報を利用して、時事的キーワードと日時情報を対応付けてもよい。また、インターネットのテキスト情報を利用する場合においては、インターネットの各コンテンツのファイルの更新時期の情報や、 HTML内に記述されている日時の情報を利用することで、時事的キーワードと日時情報とを対応付けすることが可能である。特に、放送コンテンツや電子新聞の情報とは異なり、インターネットのコンテンツは、更新されずに残っているホームページ等が存在するため、過去に流行した時事的キーワードを取得するのに適している。

[0188] また、インターネットのテキスト情報は、ホームページが削除されたり、同一の URL のコンテンツ内容が更新されたりする。そこで、あるキーワードが抽出されたホームべージが、過去に公開されていたが削除された場合には、その時事的キーワードを分類辞書データベースから削除してもよい。また、その削除されたホームページの数が、所定の閾値より多くなつた場合に、時事的キーワードを分類辞書データベースから削除してもよい。

[0189] また、本実施の形態で説明したように、図 34に示すように時刻情報とともに、時事的キーワードを登録しておくことにより、例えば、「2003年 11月に流行していた映画」というような検索質問により、映画情報を検索することが可能になる。これにより、年代毎に、映画情報を分類することが可能になる。映画の封切り情報を利用して年代毎に分類することも可能である力本実施の形態では、一般に流行したものだけにフィルタリングすることが可能になる。なお、検索するときに、定常特徴キーワードと時事的特徴キーワードとに分類されて蓄積されているため、時事的特徴キーワードに重みをつけて検索を行うことにより、より時代を反映したコンテンツを検索することが可能になる。

[0190] また、本実施の形態では、時事的キーワードを期間情報とともに抽出する手法について説明した。さらに、抽出されたキーワード辞書を利用することで、ある映画情報をユーザが選択したときに、その映画が流行していた時代を、時事的キーワードから推定し、同時代に流行して、た映画を検索することも可能である。

[0191] 図 35はこの場合の検索システムの構成を示す図である。この検索システムは、図 3 5に示すように、コンテンツテキスト情報入力部 3201、分類辞書データベース 3202、時代情報判定部 3203、関連コンテンツ検索部 3205、および関連情報提示部 3206 を備える例えばデジタルテレビ等の家庭内情報端末 3200が、インターネット等のネットワーク 3400を介してコンテンツテキスト情報蓄積部 3300と接続されている。

[0192] 具体的には、ある映画の説明情報がコンテンツテキスト情報入力部 3201に入力されると、時代情報判定部 3203は、分類辞書データベース 3202に蓄積されている例えば図 34に示すような時事的特徴キーワードと比較し、どの時期のキーワードが最も多く含まれるかを計算する。その結果、例えば、 2003年 11月が選択されると、関連コンテンッ情報検索部 3205は、その時期の時事的キーワードを利用して、さらにインタ一ネット等の外部ネットワーク上に蓄積されたコンテンツテキスト情報蓄積部 3400に蓄積されている他の映画情報を検索する。そして、検索された結果を関連情報提示部 3206においてユーザに提示する。これにより、同時代に流行していた映画を時刻情報が付加された分類辞書データベースを用いて検索することが可能になる。同様のことは、音楽情報や一般のニュースに関する情報についても行うことが可能になる

[0193] また、実施の形態 7において、分類辞書を融合する方法について説明した。さらに、本実施の形態で述べたように、時事的キーワードの時刻情報を利用して、所定の期間の時事的キーワードを融合することにより、さらに、所定の時期に流行していた時事的キーワードを幅広く抽出することが可能になる。これにより、期間に応じて分類の階層構造が異なる場合も生じる。このように、分類辞書の時事的キーワードの内容だけでなぐ分類の階層構造も時期に応じて変更することが可能である。また、実施の形態 7においては、登録されたキーワードの集合間の要素の数を用いて融合編集を行っているが、さらに、登録されたキーワードが所定の期間に利用された頻度の情報を用いて融合編集を行ってもよい。これにより、あらかじめ分類されたテキスト情報による分類だけでなぐさらに、時事的キーワードが反映された融合辞書を構築することが可能になる。

[0194] また、本実施の形態にお!ヽては、番組に付与された EPGのテキスト情報を利用して、番組単位で分類'フィルタリングを行っている。さらに、番組に対してメタ情報が付与され、番組内の各コーナーや画像のフレーム単位で、テキスト情報が付与された場合でも、本分類手法を適用することが可能である。

[0195] なお、本実施の形態では、定常特徴キーワードと時事的特徴キーワードを分類して蓄積して、るが、時事的特徴キーワードのみで分類を定義してもよ、。

産業上の利用可能性

[0196] 以上のように、本発明に係る辞書作成装置は、テキスト情報の検索、分類、フィルタリングなどに用いる辞書を、テキスト情報群を構成するキーワードの出現傾向に応じて、適切に作成および更新するのに有用である。また、例えば EPG番組検索システム、インターネット検索システムなどに適応が可能である。

Claims

請求の範囲

[1] テキストで記述された情報を検索、分類、またはフィルタリングするために用いられる辞書を作成する辞書作成装置であって、

テキスト情報力キーワードを抽出するキーワード抽出手段と、

前記テキスト情報から抽出されたキーワードを前記辞書に登録または削除する辞書登録削除手段と

を備えることを特徴とする辞書作成装置。

[2] 前記辞書作成装置は、さらに、

1つ以上のテキスト情報力構成されるテキスト情報群における前記キーワードの出現に関する統計量を求めるキーワード統計手段と、

前記統計量に基づいて前記キーワードの評価値を算出するキーワード評価値算出手段と、

前記算出された評価値に基づいて前記キーワードを前記辞書に登録するか否か、または前記辞書から削除するか否かを判定する判定手段とを備え、

前記キーワード抽出手段は、前記テキスト情報群力キーワードを抽出し、前記辞書登録削除手段は、前記判定の結果によって前記キーワードを前記辞書に登録または削除する

ことを特徴とする請求項 1記載の辞書作成装置。

[3] 前記辞書作成装置は、さらに、

前記キーワードおよび当該キーワードの前記評価値を組にして記憶するためのキ一ワード記憶手段を備え、

前記キーワード評価値算出手段は、前記キーワードと算出した評価値とを対応付けて前記キーワード記憶手段に記憶し、

前記判定手段は、前記キーワード評価値算出手段により新たに算出された評価値と前記キーワード記憶手段に記憶されて、る評価値との変化量に基づ、て、前記キ一ワードを前記辞書に登録するか否か、または前記辞書から削除するか否かを判定する

ことを特徴とする請求項 2記載の辞書作成装置。

[4] 前記辞書作成装置は、さらに、

前記判定手段は、前記キーワード評価値算出手段により新たに算出された評価値、および、前記キーワード評価値算出手段により新たに算出された評価値と前記キ一ワード記憶手段に記憶されている評価値との変化量に基づいて、前記キーワードを前記辞書に登録するか否か、または前記辞書から削除するか否かを判定することを特徴とする請求項 2記載の辞書作成装置。

[5] 前記辞書作成装置は、さらに、

1つ以上のテキスト情報力構成される第 2のテキスト情報群力キーワードを抽出する第 2のキーワード抽出手段を備え、

前記キーワード統計手段は、さらに、前記第 2のテキスト情報群における前記抽出されたキーワードの出現に関する統計量を求め、

前記キーワード評価値算出手段は、前記キーワード抽出手段および前記第 2のキ一ワード抽出手段により抽出されたキーワードの評価値を、前記それぞれの統計量に基づいて算出する

ことを特徴とする請求項 2記載の辞書作成装置。

[6] 前記キーワード評価値算出手段で算出される評価値は、前記テキスト情報群におけるテキスト情報の総数および前記キーワードを含むテキスト情報の数に基づくキーヮ ~~トの idf unverse document frequency)値で &)り、

前記判定手段は、前記キーワードが前記辞書に登録されていなぐかつ前記算出された idf値が所定の閾値以上である場合に、前記キーワードを前記辞書に登録すると判定する

ことを特徴とする請求項 2記載の辞書作成装置。

[7] 前記判定手段は、前記キーワードが前記辞書に登録されており、かつ前記算出された idf値が所定の閾値未満である場合に、前記キーワードを前記辞書力も削除すると判定する

ことを特徴とする請求項 6記載の辞書作成装置。

[8] 前記キーワード評価値算出手段で算出される評価値は、前記テキスト情報群におけるテキスト情報の総数および前記キーワードを含むテキスト情報の数に基づくキーヮ ~~トの idf unverse document frequency)値で &)り、

前記辞書は、不要語辞書であり、

前記判定手段は、前記キーワードが前記不要語辞書に登録されていなぐかつ前記算出された idf値が所定の閾値未満である場合に、前記キーワードを前記不要語辞書に登録すると判定する

ことを特徴とする請求項 2記載の辞書作成装置。

[9] 前記判定手段は、前記キーワードが前記不要語辞書に登録されており、かつ前記算出された idf値が所定の閾値以上である場合に、前記キーワードを前記不要語辞書から削除すると判定する

ことを特徴とする請求項 8記載の辞書作成装置。

[10] 前記キーワード評価値算出手段で算出される評価値は、前記テキスト情報群における前記キーワードの出現頻度であり、

前記判定手段は、前記キーワードが前記辞書に登録されていなぐかつ前記算出された出現頻度が所定の閾値未満である場合に、前記キーワードを前記辞書に登録すると判定する

ことを特徴とする請求項 2記載の辞書作成装置。

[11] 前記判定手段は、前記キーワードが前記辞書に登録されており、かつ前記算出された出現頻度が所定の閾値以上である場合に、前記キーワードを前記辞書力削除すると判定する

ことを特徴とする請求項 10記載の辞書作成装置。

[12] 前記キーワード評価値算出手段で算出される評価値は、前記テキスト情報群における前記キーワードの出現頻度であり、

前記辞書は、不要語辞書であり、

前記判定手段は、前記キーワードが前記不要語辞書に登録されていなぐかつ前記算出された出現頻度が所定の閾値以上である場合に、前記キーワードを前記不要語辞書に登録すると判定する

ことを特徴とする請求項 2記載の辞書作成装置。

[13] 前記判定手段は、前記キーワードが前記不要語辞書に登録されており、かつ前記算出された出現頻度が所定の閾値未満である場合に、前記キーワードを前記不要語辞書から削除すると判定する

ことを特徴とする請求項 12記載の辞書作成装置。

[14] 前記テキスト情報群は、あらかじめ所属するカテゴリの情報が付与された 1つ以上のテキスト情報力構成され、

前記キーワード統計手段は、前記テキスト情報群における前記カテゴリに関する統計量を求め、

前記キーワード評価値算出手段は、前記抽出されたキーワードについて前記キーワードの出現に関する統計量および前記カテゴリに関する統計量に基づいて評価値を算出する

ことを特徴とする請求項 2記載の辞書作成装置。

[15] 前記キーワード評価値算出手段は、前記テキスト情報群におけるテキスト情報の総数、前記テキスト情報群における前記キーワードを含むテキスト情報の数、前記テキスト情報群における前記カテゴリに含まれるテキスト情報の数、および前記カテゴリにおける前記キーワードを含むテキスト情報の数に基づいて、前記評価値を算出し、前記判定手段は、前記キーワードが前記辞書に登録されていなぐかつ前記評価値が所定の閾値以上である場合に、前記キーワードを前記辞書に登録すると判定する

ことを特徴とする請求項 14記載の辞書作成装置。

[16] 前記判定手段は、前記キーワードが前記辞書に登録されており、かつ前記評価値が所定の閾値未満である場合に、前記キーワードを前記辞書力削除すると判定する

ことを特徴とする請求項 15記載の辞書作成装置。

[17] 前記テキスト情報は、 EPG (Electric Program Guide)データであり、前記辞書は放送波の種類ごとにそれぞれ作成され、

前記キーワード抽出手段は、前記放送波の種類ごとの前記テキスト情報群からキーワードを抽出し、

前記辞書登録削除手段は、前記放送波の種類ごとに前記キーワードをそれぞれの前記辞書に登録または削除する

ことを特徴とする請求項 2記載の辞書作成装置。

[18] 前記テキスト情報は、 EPG (Electric Program Guide)データであり、

前記辞書は放送の時間帯ごとにそれぞれ作成され、

前記キーワード抽出手段は、前記放送の時間帯ごとの前記テキスト情報群力キーワードを抽出し、

前記辞書登録削除手段は、前記放送の時間帯ごとに前記キーワードをそれぞれの前記辞書に登録または削除する

ことを特徴とする請求項 2記載の辞書作成装置。

[19] 前記辞書にはカテゴリ毎にキーワードが登録され、

前記辞書登録削除手段は、前記カテゴリに対応したテキスト情報力抽出されたキ一ワードを、当該カテゴリの時事的特徴キーワードとして前記辞書に登録することを特徴とする請求項 1記載の辞書作成装置。

[20] 前記辞書には、あらかじめ前記カテゴリ毎に定常特徴キーワードが登録されており前記辞書登録削除手段は、前記カテゴリに対応したテキスト情報力抽出されたキ一ワードの中で、当該カテゴリの定常特徴キーワードとして登録されていないキーヮードを当該カテゴリの前記時事的特徴キーワードとして前記辞書に登録することを特徴とする請求項 19記載の辞書作成装置。

[21] 前記辞書登録削除手段は、前記時事的特徴キーワードとともに対応する時間情報を前記辞書に登録する

ことを特徴とする請求項 19記載の辞書作成装置。

[22] 前記テキスト情報は、インターネットを介して取得された情報であり、

前記辞書登録削除手段は、前記時間情報として前記テキスト情報ともに取得された時間情報を前記辞書に登録する

ことを特徴とする請求項 21記載の辞書作成装置。

[23] 前記テキスト情報は、インターネットを介して取得された情報であり、

前記辞書登録削除手段は、前記テキスト情報の取得先の更新情報に基づ!、て前記時事的特徴キーワードを登録または削除する

ことを特徴とする請求項 19記載の辞書作成装置。

[24] 前記辞書作成装置は、さらに、

前記辞書に登録された前記時事的特徴キーワードについて利用頻度を求める利用頻度集計手段と、

前記求められた利用頻度に基づいて前記時事的特徴キーワードを前記辞書から削除するか否かを判定する判定手段とを備え、

前記辞書登録削除手段は、前記判定の結果によって前記時事的特徴キーワードを前記辞書から削除する

ことを特徴とする請求項 19記載の辞書作成装置。

[25] 前記判定手段は、前記時事的特徴キーワードが前記辞書に登録されてから所定期間経過後に、前記利用頻度に基づいて前記時事的特徴キーワードを前記辞書から削除する力否かを判定する

ことを特徴とする請求項 24記載の辞書作成装置。

[26] 前記辞書にはカテゴリ毎にキーワードが登録され、

前記辞書作成装置は、さらに、

少なくとも 2つの情報源より前記カテゴリに関する分類情報およびテキスト情報を取得する分類情報取得手段を備え、

前記辞書登録削除手段は、前記分類情報取得手段により取得された分類情報、および前記キーワード抽出手段により抽出されたキーワードに基づいて、それぞれ前記情報源に対応する辞書を作成する

ことを特徴とする請求項 1記載の辞書作成装置。

[27] 前記辞書作成装置は、さらに、

前記それぞれ作成された各情報源に対応する辞書を、編集して融合する辞書融合編集手段

を備えることを特徴とする請求項 26記載の辞書作成装置。

[28] 前記辞書融合編集手段は、前記各情報源に対応する辞書の有する分類情報の各カテゴリに対応するキーワードに基づいて、前記各情報源に対応する辞書の各カテゴリの対応関係を決定する

ことを特徴とする請求項 27記載の辞書作成装置。

[29] 前記分類情報取得手段は、前記情報源の 1つとしてインターネットを介して、前記カテゴリに関する分類情報およびテキスト情報を取得する

ことを特徴とする請求項 26記載の辞書作成装置。

[30] EPG (Electric Program Guide)データを検索する EPG番組検索装置であって、請求項 1一請求項 23のいずれか 1項に記載の辞書作成装置と、

前記辞書作成装置により作成された辞書を格納する辞書記憶手段と、前記 EPGデータを前記辞書を用いて検索し、検索結果を出力する検索手段とを備えることを特徴とする EPG番組検索装置。

[31] EPG (Electric Program Guide)データを検索する EPG番組検索システムであって、請求項 1一請求項 23のいずれか 1項に記載の辞書作成装置と、

前記辞書作成装置により作成された辞書を格納する辞書記憶手段と、前記 EPGデータから前記辞書を用いてキーワードと重みの組からなる文書ベクトルを作成する文書ベクトル作成手段と、

検索条件を取得する検索条件取得手段と、

前記検索条件および前記文書ベクトルに基づ、て、前記 EPGデータの評定値を算出する文書評定値算出手段と、

前記算出された評定値、または前記評価値に基づいて選択された EPGデータを出力する検索結果出力手段と

を備えることを特徴とする EPG番組検索システム。

[32] EPG (Electric Program Guide)データの分類を行う EPG番組検索システムであつて、

請求項 26記載の辞書作成装置と、前記辞書作成装置により作成された前記情報源に対応する辞書を格納する辞書記憶手段と、

前記情報源に対応する辞書の中から使用する辞書を選択する分類辞書選択手段と、

前記選択された辞書を用いて前記 EPGデータの分類を行う分類手段とを備えることを特徴とする EPG番組検索システム。

[33] テキストで記述された情報を検索、分類、またはフィルタリングするために用いられる辞書を作成する辞書作成方法であって、

テキスト情報力キーワードを抽出するキーワード抽出ステップと、

前記テキスト情報から抽出されたキーワードを前記辞書に登録または削除する辞書登録削除ステップと

を含むことを特徴とする辞書作成方法。

[34] 前記辞書作成方法は、さらに、

1つ以上のテキスト情報力構成されるテキスト情報群における前記キーワードの出現に関する統計量を求めるキーワード統計ステップと、

前記統計量に基づいて前記キーワードの評価値を算出するキーワード評価値算出ステップと、

前記算出された評価値に基づいて前記キーワードを前記辞書に登録するか否か、または前記辞書から削除する力否かを判定する判定ステップとを含み、

前記キーワード抽出ステップでは、前記テキスト情報群力もキーワードを抽出し、前記辞書登録削除ステップでは、前記判定の結果によって前記キーワードを前記辞書に登録または削除する

ことを特徴とする請求項 33記載の辞書作成方法。

[35] 前記辞書はカテゴリ毎にキーワードが登録され、

前記辞書登録削除ステップでは、前記カテゴリに対応したテキスト情報力抽出されたキーワードを、当該カテゴリの時事的特徴キーワードとして前記辞書に登録することを特徴とする請求項 33記載の辞書作成方法。

[36] 前記辞書にはカテゴリ毎にキーワードが登録され、前記辞書作成方法は、さらに、

少なくとも 2つの情報源より前記カテゴリに関する分類情報およびテキスト情報を取得する分類情報取得ステップを含み、

前記辞書登録削除ステップでは、前記分類情報取得ステップにより取得された分類情報、および前記キーワード抽出ステップにより抽出されたキーワードに基づいて、それぞれ前記情報源に対応する辞書を作成する

ことを特徴とする請求項 33記載の辞書作成方法。

[37] テキストで記述された情報を検索、分類、またはフィルタリングするために用いられる辞書を作成するためのプログラムであって、

をコンピュータに実行させることを特徴とするプログラム。

[38] 前記プログラムは、さらに、

前記算出された評価値に基づいて前記キーワードを前記辞書に登録するか否か、または前記辞書から削除する力否かを判定する判定ステップとをコンピュータに実行させ、

ことを特徴とする請求項 36記載のプログラム。

[39] 前記辞書にはカテゴリ毎にキーワードが登録され、

前記辞書登録削除ステップでは、前記カテゴリに対応したテキスト情報力抽出されたキーワードを、当該カテゴリの時事的特徴キーワードとして前記辞書に登録することを特徴とする請求項 36記載のプログラム。

前記辞書にはカテゴリ毎にキーワードが登録され、

前記プログラムは、さらに、

少なくとも 2つの情報源より前記カテゴリに関する分類情報およびテキスト情報を取得する分類情報取得ステップをコンピュータに実行させ、

ことを特徴とする請求項 36記載のプログラム。