JP2004199273A - Information automatic classification device - Google Patents
Information automatic classification device Download PDFInfo
- Publication number
- JP2004199273A JP2004199273A JP2002365482A JP2002365482A JP2004199273A JP 2004199273 A JP2004199273 A JP 2004199273A JP 2002365482 A JP2002365482 A JP 2002365482A JP 2002365482 A JP2002365482 A JP 2002365482A JP 2004199273 A JP2004199273 A JP 2004199273A
- Authority
- JP
- Japan
- Prior art keywords
- information
- site
- classification
- bookmark
- directory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、情報自動分類装置に関し、特に、複数のWebサイト情報を所定の分類規則に則って分類してディレクトリ情報を提供するディレクトリサービスサーバ及びクライアント装置を含むネットワーク環境に接続された情報自動分類装置に関する。
【0002】
【従来の技術】
電子計算機の進歩とインターネットの普及により、大量の情報がWebサイトから発信されるようになってきた。インターネットで提供される情報は莫大であるため、これを効率的に分類・整理することが求められている。
【0003】
従来、こうした要請に応える1つの手法としてディレクトリサービスがある。ディレクトリサービスとは、多数のWebサイトからそれぞれ発信される情報を人手によって認識し、これを適切な分類カテゴリに分類して整理し、提供するようにしたものである。一般の使用者は、ディレクトリサービスを利用して、適切なカテゴリをたどることで目的とする情報に容易にたどり着くことができる。
【0004】
ただし、このディレクトリサービスでは、経験・知識を有する専門の人員がWebサイトの情報を吟味し、その内容に基づいて適切なカテゴリを決定するようにしているため、生成された分類情報の分類精度が高いという長所がある反面、多数のWebサイトの情報を人手によって分類する作業が非常に煩雑であり、また、頻繁に更新されるWebサイトの情報に対する適切なカテゴリの維持が困難であり、さらに、新しく生成される情報のカテゴリ判定がスムーズに行われにくいという欠点も有している。
【0005】
上記の要請に応える別の手法として、従来、検索サービスがある。検索サービスとは、Webロボットと呼称される手法を用いて、Webサイトの情報を自動的、定期的に収集し、得られた情報を対象にして検索を実施できるようにしたものである。この検索サービスでは、自動的にWebサイトの情報を収集するので、ディレクトリサービスにあったようなWebサイトからの提供情報の更新の高頻度に伴う問題は解消できるが、使用者が所望する情報を得るために適切な検索語を与える必要があり、そのため、特に検索行為に不慣れな一般の使用者が、所望する情報を簡単に得ることが難しいという問題がある。
【0006】
また、こうしたインターネット上で提供される上記2つのサービスでは、サービスを利用する際にセキュリティリスクの問題があるとともに、サービス停止の問題などがある。
【0007】
ところで、こうしたインターネット上で提供されるサービスではなく、しかも前述の要請に応える簡便な手法として、従来、ブックマークという手法がある。この手法は、Webサイトを閲覧するソフトウエアに一般に装備されている。このブックマークによれば、Webサイトへのアクセス情報であるURL(Uniform Resource Locator)を階層的に分類し、Webサイトに任意の命名を行って保持しておくことができる。
【0008】
しかし、上記ブックマークという手法では、ブックマークの生成や整理はすべて使用者が行わなければならないため、適切な分類状態の維持や、不要なブックマークの削除といった管理を全て使用者が行わねばならず、使用者にとって煩雑であるという問題があった。
【0009】
それに対し、例えば特許文献1に記載の技術では、ユーザがURLを登録しようとしたときに該URLのHTMLソース中のキーワード指定タグを検索し、そのキーワード指定タグによって指定されたキーワードに基づいて該URLを分類して登録するものが考案されている。
【0010】
【特許文献1】
特開平11−167580号公報
【0011】
【発明が解決しようとする課題】
しかしながら、特許文献1に記載の技術では、Web上のHTMLソースの作成者が設定したキーワード指定タグに従って分類するので、適切なキーワードが指定されていない場合があり得、その場合には正確な分類がなされないという問題点がある。
【0012】
本発明はこのような問題点に鑑みてなされたものであって、多数のブックマークを使用する場合に発生するブックマーク管理の煩雑さをなくし、且つ正確な分類を行うようにして、ブックマークという機能のもつ簡便性を損なわずに有用性を向上させた情報自動分類装置を提供することを目的とする。
【0013】
【課題を解決するための手段】
上記目的を達成するために、本発明によれば、複数のWebサイト情報を所定の分類規則に則って分類してディレクトリ情報を提供するディレクトリサービスサーバ及びクライアント装置を含むネットワーク環境に接続された情報自動分類装置において、前記ディレクトリサービスサーバが提供するディレクトリ情報を、ネットワークを介して取得するディレクトリ情報取得手段と、前記取得されたディレクトリ情報から、分類項目情報と各分類項目に対応するWebサイトへのアクセス情報とを抽出する抽出手段と、前記抽出されたアクセス情報を用いて、該アクセス情報が対応するWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する第1のサイト情報取得手段と、前記第1のサイト情報取得手段によって取得されたサイト情報を解析して、該サイト情報の特徴を抽出する第1の特徴抽出手段と、前記第1の特徴抽出手段によってそれぞれ抽出された複数のサイト情報の特徴情報を分類項目ごとに積算して学習情報を生成する学習手段と、前記クライアント装置が保持するブックマーク情報を、前記ネットワークを介して取得するブックマーク情報取得手段と、前記取得されたブックマーク情報を用いて、該ブックマーク情報が対応するWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する第2のサイト情報取得手段と、前記第2のサイト情報取得手段によって取得されたサイト情報を解析して、該サイト情報の特徴を抽出する第2の特徴抽出手段と、前記第2の特徴抽出手段によって抽出された特徴情報を、前記学習手段によって生成された分類項目ごとの学習情報とそれぞれ比較し、該特徴情報と各学習情報との類似性をそれぞれ算出する算出手段と、前記算出手段によって算出された各類似性のうち最大の類似性に関連する学習情報に対応する分類項目を、前記第2のサイト情報取得手段が取得したサイト情報に関連するブックマーク情報に対する分類項目と決定する分類項目決定手段とを有することを特徴とする情報自動分類装置が提供される。
【0014】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照して説明する。
【0015】
[第1の実施の形態]
図1は、本発明の第1の実施の形態に係る情報自動分類装置を含むネットワークシステムの基本構成を示すブロック図である。
【0016】
同図において、101は情報クライアントである。情報クライアント101は、使用者からWebサイトの検索要求を受け付けたり、検索結果に対する使用者からの操作に応じた処理を実施したりするための機能を提供する。
【0017】
102は情報サーバである。HTTP(Hypertext Transfer Protocol)などのプロトコルを用いてWebサイト情報を提供するものである。
【0018】
103はディレクトリサービスを提供するディレクトリサービスサーバである。ディレクトリサービスサーバ103は、多数のWebサイトからそれぞれ発信される情報を所定の分類カテゴリに分類して整理し、ディレクトリ情報を提供する。このディレクトリ情報は、情報クライアント101の使用者が、所望のサイト情報に対応する分類項目を指定して、複数のWebサイトの中から適切なWebサイトを探す際に用いられるものである。
【0019】
104は本発明に係る情報自動分類装置である。情報自動分類装置104は、ブックマークの適切な管理を行うものであり、詳しくは図3及び図4を参照して後述する。なお、本実施の形態における情報自動分類装置104は、情報クライアント101と独立して存在するが、これに代わって、情報クライアント101内に設けられてもよい。
【0020】
情報クライアント101、情報サーバ102、ディレクトリサービスサーバ103、及び情報自動分類装置104はそれぞれ、電子計算機で構成され、ネットワーク105によって互いに接続されている。図1では便宜上、情報クライアント及び情報サーバをそれぞれ1つしか図示していないが、一般に、これらはネットワーク103に複数台存在し得る。
【0021】
図2は、情報クライアント101の機能構成を示すブロック図である。
【0022】
図中201は対話部であり、使用者からの検索要求や編集操作を受け付けるものである。対話部201は、電子計算機のキーボード、ポインティングデバイス、タッチパネル、ジョイスティック、ペン、タブレット等といった各種入力装置と、ビットマップディスプレイなどの表示装置と、電子計算機上の基本操作システム(オペレーティングシステム)とによって実現され、入力装置を経由して使用者からの指示を受け付け、また表示装置を経由して情報を使用者に提示する。
【0023】
202は制御部である。制御部202はWebブラウザに相当し、Webブラウザは、特定の形式の情報の解釈及び実行を行うためのプログラムである。Webブラウザには、Webサイトへのアクセスに必要な情報であるURL(ブックマーク)を保存するブックマーク機能がある。このブックマーク機能では、Webブラウザが現在閲覧しているWebサイトのURLを保存することができる。
【0024】
203は通信部である。制御部202は、ネットワーク105上に存在する情報サーバ102、ディレクトリサービスサーバ103、及び情報自動分類装置104との間で通信を実施する。
【0025】
図3は、情報自動分類装置104の基本構成を示す図である。
【0026】
302はサーバ情報処理部であり、各種のサーバ(情報サーバ102、ディレクトリサービスサーバ103を含む)がそれぞれ提供する情報を、ネットワーク105を介して取得するものである。
【0027】
301はディレクトリ情報処理部であり、ディレクトリ情報処理部301は、サーバ情報処理部302を用いて、ディレクトリサービスサーバ103が提供するディレクトリ情報を取得し、このディレクトリ情報のデータ形式を所定の形式に変換し、これを解析して分類識別情報(分類カテゴリ名)と、各分類カテゴリに対応する参照情報(インターネット上のWebサイトを識別するURL)とを抽出する。また、サーバ情報処理部302を用いて、抽出した参照情報(URL)に対応するWebサイトにアクセスしてサイト情報を取得する。
【0028】
306は特徴情報抽出処理部であり、与えられたWebサイト情報に対して特徴抽出処理を行い、分類識別情報に対応する特徴情報の生成を行う。具体的には、サイト情報から文書情報だけを抽出し、該文書情報に含有される単語を少なくとも抽出し、該単語を成分としたベクトルを作成し、これを特徴情報とする。
【0029】
303は学習処理部であり、特徴情報抽出処理部306によって抽出された複数の特徴情報に対して学習処理を実行する。すなわち、分類項目ごとに多数の特徴情報を積算することによって学習情報を生成する。
【0030】
304は参照情報処理部であり、情報クライアント101の制御部202(Webブラウザ)が保持するブックマーク情報(URL)を、ネットワーク105を介して取得し、サーバ情報処理部302に依頼して、ブックマーク情報に対応する情報サーバにアクセスしてWebサイト情報を取得する。
【0031】
305は分類処理部であり、分類処理部305は、ブックマーク情報に関連する特徴情報を、ディレクトリ情報に関連する分類項目ごとの各学習情報と比較し、上記特徴情報に最も類似性の高い学習情報を算出する。この算出された学習情報に関連する分類項目を、上記特徴情報に関連するブックマーク情報に対する分類項目に決定することによってブックマーク情報を分類する。
【0032】
図4は、情報自動分類装置104で実行されるブックマーク情報分類処理の手順を示すフローチャートである。
【0033】
ステップS1からステップS5までは学習処理であり、概略すると、ネットワーク105上にあるディレクトリサービスサーバ103からディレクトリ情報を取得し、これを解析することにより分類識別情報(分類カテゴリ名)と参照情報(URL)とを獲得し、さらに当該参照情報に対応するWebサイトのサイト情報を取得し、その内容を解析することによって、分類項目ごとの学習情報を生成する。
【0034】
まずステップS1で、ディレクトリ情報処理部301がサーバ情報処理部302を用いて、ディレクトリサービスサーバ103が提供するディレクトリ情報を、ネットワーク105を介して取得する。
【0035】
次にステップS2で、ディレクトリ情報処理部301は、ディレクトリサービスサーバ103から取得したディレクトリ情報を解析し、分類識別情報(分類カテゴリ名)と分類カテゴリごとの参照情報(URL)とを抽出する。
【0036】
ステップS3で、ディレクトリ情報処理部301はサーバ情報処理部302を用いて、ステップS2で抽出された参照情報(URL)に対応するWebサイトのサイト情報を、ネットワーク105を介して取得する。
【0037】
ステップS4では、ステップS3で取得したWebサイト情報を基に、特徴抽出処理部306が特徴抽出処理を実施して、Webサイトの特徴を抽出する。次に学習処理部303が、分類項目(分類カテゴリ)ごとに多数の特徴情報の積算を行って分類項目に対応する学習情報の生成を行う。
【0038】
ステップS5においては、ステップS1〜S4の処理を継続して実行すべきディレクトリ情報がまだ存在するかを判別し、継続して実行すべき場合はステップS1へ戻る。
【0039】
ステップS6からステップS9までは分類処理であり、今度は情報クライアント101に固有に保存されている参照情報(ブックマークURL)を取得し、対応するWebサイト情報の特徴抽出処理を行う。そして、得られた特徴情報をステップS1〜S4の学習処理で生成された分類項目ごとの学習情報と比較することで、参照情報(ブックマークURL)によく対応する分類項目を自動的に決定するものである。
【0040】
まずステップS6で、参照情報処理部304が、情報クライアント101の制御部202(Webブラウザ)が保持するブックマーク情報(参照情報)を取得する。
【0041】
次にステップS7で、参照情報処理部304がサーバ情報処理部302を用いて、ステップS3と同様に、ステップS6で取得されたブックマーク情報(参照情報、URL)に対応するWebサイトのサイト情報を、ネットワーク105を介して取得する。
【0042】
ステップS8では先ず、ステップS7で取得したWebサイト情報を基に、特徴抽出処理部306が特徴抽出処理を実施し、特徴情報を抽出する。ついで、分類処理部305が、このブックマーク情報に関連する特徴情報を、ステップS4で生成された分類項目ごとの各学習情報と比較し、該特徴情報と各学習情報との類似性をそれぞれ算出する。そして、算出された各類似性のうち最大の類似性に関連する学習情報に対応する分類項目を、上記ブックマーク情報に対する分類項目と決定する。
【0043】
ステップS9では、ステップS6〜S8の処理を、情報クライアント101の制御部202(Webブラウザ)が保持するブックマーク情報の全てに対して実行したか否かを判別し、全てに対して実行した場合にはステップS10に進み、まだ実行されていないブックマーク情報がある場合にはステップS6に戻る。
【0044】
ステップS10では、ステップS8で得られたブックマーク情報ごとの分類項目を情報クライアント101に送って、情報クライアント101におけるブックマーク情報の分類管理に供する。
【0045】
以上のようにして、ブックマークの分類が自動的に行われるので、多数のブックマークを使用する場合に発生するブックマーク管理の煩雑さが無くなり、もってブックマークという機能のもつ簡便性を損なわずに有用性を向上させることが可能となる。
【0046】
また、ディレクトリサービスを提供しているサーバでの分類の特徴を用いて、ユーザが利用している装置に格納されているブックマークを分類するので、適切で正確な分類がなされる。
【0047】
[他の実施の形態]
上記実施の形態では、ディレクトリサービスを提供するディレクトリサービスサーバは1つだけ存在したが、複数のディレクトリサービスサーバが存在してもよく、その場合に、複数のディレクトリサービスの内容をそれぞれ個別の学習データとして扱っても、また全てのディレクトリサービスの情報をまとめて仮想的な一つのディレクトリサービスと見なして単一の学習データとして扱ってもよい。
【0048】
また、上記実施の形態では、ステップS8において、最も類似性の高い単一の分類識別情報を算出したが、これに代わって、複数個の分類識別情報を算出し、それぞれに分類してもよい。
【0049】
また、上記実施の形態では、ステップS8において、最も類似性の高い単一の分類識別情報を算出したが、これに代わって、一定の閾値を設け、これを超える値の類似度を得られなかった場合には、どの分類識別情報にも合致しなかったという結果を算出してもよい。
【0050】
また、本発明は複数の機器(例えばホストコンピュータ、インタフェース機器など)から構成される装置に適用しても、一つの機器からなる装置に適用してもよい。すなわち、情報自動分類装置104は、情報クライアント101、情報サーバ102、ディレクトリサービスサーバ103の少なくとも1つと、同一の機器として構成してもかまわない。
【0051】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した媒体を、システムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPUやMPU)が、記憶媒体に格納されたプログラムコードを読みだし実行することによっても達成される。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することとなる。
【0052】
なお、プログラムコードを供給するための記憶媒体としては、例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって実施形態の機能が実現される場合も含まれる。
【0053】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれたあと、そのプログラムコードの支持に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【0054】
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応する処理を実行するプログラムコードを格納することになる。
【0055】
以上のように、本発明の各種の実施の形態を示して説明したが、以下に本発明の実施態様の例を列挙する。
【0056】
〔実施態様1〕 複数のWebサイト情報を所定の分類規則に則って分類してディレクトリ情報を提供するディレクトリサービスサーバ及びクライアント装置を含むネットワーク環境に接続された情報自動分類装置において、
前記ディレクトリサービスサーバが提供するディレクトリ情報を、ネットワークを介して取得するディレクトリ情報取得手段と、
前記取得されたディレクトリ情報から、分類項目情報と各分類項目に対応するWebサイトへのアクセス情報とを抽出する抽出手段と、
前記抽出されたアクセス情報を用いて、該アクセス情報が対応するWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する第1のサイト情報取得手段と、
前記第1のサイト情報取得手段によって取得されたサイト情報を解析して、該サイト情報の特徴を抽出する第1の特徴抽出手段と、
前記第1の特徴抽出手段によってそれぞれ抽出された複数のサイト情報の特徴情報を分類項目ごとに積算して学習情報を生成する学習手段と、
前記クライアント装置が保持するブックマーク情報を、前記ネットワークを介して取得するブックマーク情報取得手段と、
前記取得されたブックマーク情報を用いて、該ブックマーク情報が対応するWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する第2のサイト情報取得手段と、
前記第2のサイト情報取得手段によって取得されたサイト情報を解析して、該サイト情報の特徴を抽出する第2の特徴抽出手段と、
前記第2の特徴抽出手段によって抽出された特徴情報を、前記学習手段によって生成された分類項目ごとの学習情報とそれぞれ比較し、該特徴情報と各学習情報との類似性をそれぞれ算出する算出手段と、
前記算出手段によって算出された各類似性のうち最大の類似性に関連する学習情報に対応する分類項目を、前記第2のサイト情報取得手段が取得したサイト情報に関連するブックマーク情報に対する分類項目と決定する分類項目決定手段と
を有することを特徴とする情報自動分類装置。
【0057】
〔実施態様2〕 前記ディレクトリサービスサーバが提供するディレクトリ情報は、前記クライアント装置の使用者が、所望のサイト情報に対応する分類項目を指定して、複数のWebサイトの中から適切なWebサイトを探す際に用いられるものであり、
前記ディレクトリ情報取得手段は、前記ディレクトリサービスサーバが提供するディレクトリ情報のデータ形式を所定の形式に変換することを特徴とする実施態様1に記載の情報自動分類装置。
【0058】
〔実施態様3〕 前記第1及び第2の特徴抽出手段はそれぞれ、前記第1及び第2のサイト情報取得手段によってそれぞれ取得されたサイト情報から文書情報を抽出し、該文書情報を解析することによって前記サイト情報の特徴を抽出することを特徴とする実施態様1に記載の情報自動分類装置。
【0059】
〔実施態様4〕 前記第1及び第2の特徴抽出手段はそれぞれ、前記抽出された文書情報に含有される単語を少なくとも抽出し、該単語を成分としたベクトルを用いることによって前記解析を行うことを特徴とする実施態様3に記載の情報自動分類装置。
【0060】
〔実施態様5〕 複数のWebサイト情報を所定の分類規則に則って分類してディレクトリ情報を提供するディレクトリサービスサーバ及びクライアント装置を含むネットワーク環境に接続された情報自動分類装置に適用される情報自動分類方法において、
前記ディレクトリサービスサーバが提供するディレクトリ情報を、ネットワークを介して取得するディレクトリ情報取得ステップと、
前記取得されたディレクトリ情報から、分類項目情報と各分類項目に対応するWebサイトへのアクセス情報とを抽出する抽出ステップと、
前記抽出されたアクセス情報を用いて、該アクセス情報が対応するWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する第1のサイト情報取得ステップと、
前記第1のサイト情報取得ステップによって取得されたサイト情報を解析して、該サイト情報の特徴を抽出する第1の特徴抽出ステップと、
前記第1の特徴抽出ステップによってそれぞれ抽出された複数のサイト情報の特徴情報を分類項目ごとに積算して学習情報を生成する学習ステップと、
前記クライアント装置が保持するブックマーク情報を、前記ネットワークを介して取得するブックマーク情報取得ステップと、
前記取得されたブックマーク情報を用いて、該ブックマーク情報が対応するWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する第2のサイト情報取得ステップと、
前記第2のサイト情報取得ステップによって取得されたサイト情報を解析して、該サイト情報の特徴を抽出する第2の特徴抽出ステップと、
前記第2の特徴抽出ステップによって抽出された特徴情報を、前記学習ステップによって生成された分類項目ごとの学習情報とそれぞれ比較し、該特徴情報と各学習情報との類似性をそれぞれ算出する算出ステップと、
前記算出ステップによって算出された各類似性のうち最大の類似性に関連する学習情報に対応する分類項目を、前記第2のサイト情報取得ステップで取得されたサイト情報に関連するブックマーク情報に対する分類項目と決定する分類項目決定ステップと
を有することを特徴とする情報自動分類方法。
【0061】
〔実施態様6〕 前記ディレクトリサービスサーバが提供するディレクトリ情報は、前記クライアント装置の使用者が、所望のサイト情報に対応する分類項目を指定して、複数のWebサイトの中から適切なWebサイトを探す際に用いられるものであり、
前記ディレクトリ情報取得ステップは、前記ディレクトリサービスサーバが提供するディレクトリ情報のデータ形式を所定の形式に変換することを特徴とする実施態様5に記載の情報自動分類方法。
【0062】
〔実施態様7〕 前記第1及び第2の特徴抽出ステップはそれぞれ、前記第1及び第2のサイト情報取得ステップによってそれぞれ取得されたサイト情報から文書情報を抽出し、該文書情報を解析することによって前記サイト情報の特徴を抽出することを特徴とする実施態様5に記載の情報自動分類方法。
【0063】
〔実施態様8〕 前記第1及び第2の特徴抽出ステップはそれぞれ、前記抽出された文書情報に含有される単語を少なくとも抽出し、該単語を成分としたベクトルを用いることによって前記解析を行うことを特徴とする実施態様7に記載の情報自動分類方法。
【0064】
〔実施態様9〕 複数のWebサイト情報を所定の分類規則に則って分類してディレクトリ情報を提供するディレクトリサービスサーバ及びクライアント装置を含むネットワーク環境に接続された情報自動分類装置に適用される情報自動分類方法を、コンピュータに実行させるためのプログラムにおいて、
前記情報自動分類方法が、
前記ディレクトリサービスサーバが提供するディレクトリ情報を、ネットワークを介して取得するディレクトリ情報取得ステップと、
前記取得されたディレクトリ情報から、分類項目情報と各分類項目に対応するWebサイトへのアクセス情報とを抽出する抽出ステップと、
前記抽出されたアクセス情報を用いて、該アクセス情報が対応するWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する第1のサイト情報取得ステップと、
前記第1のサイト情報取得ステップによって取得されたサイト情報を解析して、該サイト情報の特徴を抽出する第1の特徴抽出ステップと、
前記第1の特徴抽出ステップによってそれぞれ抽出された複数のサイト情報の特徴情報を分類項目ごとに積算して学習情報を生成する学習ステップと、
前記クライアント装置が保持するブックマーク情報を、前記ネットワークを介して取得するブックマーク情報取得ステップと、
前記取得されたブックマーク情報を用いて、該ブックマーク情報が対応するWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する第2のサイト情報取得ステップと、
前記第2のサイト情報取得ステップによって取得されたサイト情報を解析して、該サイト情報の特徴を抽出する第2の特徴抽出ステップと、
前記第2の特徴抽出ステップによって抽出された特徴情報を、前記学習ステップによって生成された分類項目ごとの学習情報とそれぞれ比較し、該特徴情報と各学習情報との類似性をそれぞれ算出する算出ステップと、
前記算出ステップによって算出された各類似性のうち最大の類似性に関連する学習情報に対応する分類項目を、前記第2のサイト情報取得ステップで取得されたサイト情報に関連するブックマーク情報に対する分類項目と決定する分類項目決定ステップと
を有することを特徴とするプログラム。
【0065】
〔実施態様10〕 前記ディレクトリサービスサーバが提供するディレクトリ情報は、前記クライアント装置の使用者が、所望のサイト情報に対応する分類項目を指定して、複数のWebサイトの中から適切なWebサイトを探す際に用いられるものであり、
前記ディレクトリ情報取得ステップは、前記ディレクトリサービスサーバが提供するディレクトリ情報のデータ形式を所定の形式に変換することを特徴とする実施態様9に記載のプログラム。
【0066】
〔実施態様11〕 前記第1及び第2の特徴抽出ステップはそれぞれ、前記第1及び第2のサイト情報取得ステップによってそれぞれ取得されたサイト情報から文書情報を抽出し、該文書情報を解析することによって前記サイト情報の特徴を抽出することを特徴とする実施態様9に記載のプログラム。
【0067】
〔実施態様12〕 前記第1及び第2の特徴抽出ステップはそれぞれ、前記抽出された文書情報に含有される単語を少なくとも抽出し、該単語を成分としたベクトルを用いることによって前記解析を行うことを特徴とする実施態様11に記載のプログラム。
【0068】
〔実施態様13〕 複数のWebサイト情報を所定の分類規則に則って分類してディレクトリ情報を提供するディレクトリサービスサーバ及びクライアント装置を含むネットワーク環境に接続された情報自動分類装置に適用される情報自動分類方法をプログラムとして記憶した、コンピュータにより読み出し可能な記憶媒体において、
前記情報自動分類方法が、
前記ディレクトリサービスサーバが提供するディレクトリ情報を、ネットワークを介して取得するディレクトリ情報取得ステップと、
前記取得されたディレクトリ情報から、分類項目情報と各分類項目に対応するWebサイトへのアクセス情報とを抽出する抽出ステップと、
前記抽出されたアクセス情報を用いて、該アクセス情報が対応するWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する第1のサイト情報取得ステップと、
前記第1のサイト情報取得ステップによって取得されたサイト情報を解析して、該サイト情報の特徴を抽出する第1の特徴抽出ステップと、
前記第1の特徴抽出ステップによってそれぞれ抽出された複数のサイト情報の特徴情報を分類項目ごとに積算して学習情報を生成する学習ステップと、
前記クライアント装置が保持するブックマーク情報を、前記ネットワークを介して取得するブックマーク情報取得ステップと、
前記取得されたブックマーク情報を用いて、該ブックマーク情報が対応するWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する第2のサイト情報取得ステップと、
前記第2のサイト情報取得ステップによって取得されたサイト情報を解析して、該サイト情報の特徴を抽出する第2の特徴抽出ステップと、
前記第2の特徴抽出ステップによって抽出された特徴情報を、前記学習ステップによって生成された分類項目ごとの学習情報とそれぞれ比較し、該特徴情報と各学習情報との類似性をそれぞれ算出する算出ステップと、
前記算出ステップによって算出された各類似性のうち最大の類似性に関連する学習情報に対応する分類項目を、前記第2のサイト情報取得ステップで取得されたサイト情報に関連するブックマーク情報に対する分類項目と決定する分類項目決定ステップと
を有することを特徴とする記憶媒体。
【0069】
〔実施態様14〕 前記ディレクトリサービスサーバが提供するディレクトリ情報は、前記クライアント装置の使用者が、所望のサイト情報に対応する分類項目を指定して、複数のWebサイトの中から適切なWebサイトを探す際に用いられるものであり、
前記ディレクトリ情報取得ステップは、前記ディレクトリサービスサーバが提供するディレクトリ情報のデータ形式を所定の形式に変換することを特徴とする実施態様13に記載の記憶媒体。
【0070】
〔実施態様15〕 前記第1及び第2の特徴抽出ステップはそれぞれ、前記第1及び第2のサイト情報取得ステップによってそれぞれ取得されたサイト情報から文書情報を抽出し、該文書情報を解析することによって前記サイト情報の特徴を抽出することを特徴とする実施態様13に記載の記憶媒体。
【0071】
〔実施態様16〕 前記第1及び第2の特徴抽出ステップはそれぞれ、前記抽出された文書情報に含有される単語を少なくとも抽出し、該単語を成分としたベクトルを用いることによって前記解析を行うことを特徴とする実施態様15に記載の記憶媒体。
【0072】
【発明の効果】
以上詳述したように本発明によれば、ディレクトリサービスサーバが提供するディレクトリ情報から、分類項目情報と各分類項目に対応するWebサイトへのアクセス情報とを抽出し、このアクセス情報を用いてWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する。この取得されたサイト情報を解析して、該サイト情報の特徴を抽出し、これを繰り返してそれぞれ抽出された複数のサイト情報の特徴情報を分類項目ごとに積算して学習情報を生成する。一方、クライアント装置が保持するブックマーク情報を用いてWebサイトにアクセスしてサイト情報を取得し、取得されたサイト情報を解析して、該サイト情報の特徴を抽出する。この抽出された特徴情報を、前記生成された分類項目ごとの学習情報とそれぞれ比較し、該特徴情報と各学習情報との類似性をそれぞれ算出する。この算出された各類似性のうち最大の類似性に関連する学習情報に対応する分類項目を、前記ブックマーク情報に対する分類項目と決定する。
【0073】
かくして、ブックマークの分類が自動的に行われるので、多数のブックマークを使用する場合に発生するブックマーク管理の煩雑さが無くなり、且つ正確な分類がなされるので、ブックマークという機能のもつ簡便性を損なわずに有用性を向上させることが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る情報自動分類装置を含むネットワークシステムの基本構成を示すブロック図である。
【図2】情報クライアントの機能構成を示すブロック図である。
【図3】情報自動分類装置の基本構成を示す図である。
【図4】情報自動分類装置で実行されるブックマーク情報分類処理の手順を示すフローチャートである。
【符号の説明】
101 情報クライアント(クライアント装置)
102 情報サーバ(Webサイトサーバ)
103 ディレクトリサービスサーバ
104 情報自動分類装置
105 ネットワーク[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an automatic information classification apparatus, and more particularly, to an automatic information classification apparatus connected to a network environment including a directory service server and a client apparatus for providing directory information by classifying a plurality of website information according to a predetermined classification rule. Equipment related.
[0002]
[Prior art]
With the advance of electronic computers and the spread of the Internet, a large amount of information has been transmitted from Web sites. Since the information provided on the Internet is enormous, it is required to efficiently classify and organize the information.
[0003]
Conventionally, there is a directory service as one method for responding to such a request. The directory service manually recognizes information transmitted from a large number of Web sites, classifies the information into appropriate classification categories, organizes the information, and provides the classified information. A general user can easily reach desired information by tracing an appropriate category using a directory service.
[0004]
However, in this directory service, specialized personnel having experience and knowledge examine Web site information and determine an appropriate category based on the content, so that the classification accuracy of the generated classification information is low. Although it has the advantage of being expensive, the task of manually classifying information on a large number of websites is extremely complicated, and it is difficult to maintain appropriate categories for frequently updated website information. There is also a drawback that category determination of newly generated information is difficult to be performed smoothly.
[0005]
As another method for responding to the above request, there is a search service. The search service is a service that automatically and regularly collects information on a Web site using a technique called a Web robot, and enables a search to be performed on the obtained information. This search service automatically collects information on a Web site, so that the problem associated with a high frequency of updating information provided from a Web site as in a directory service can be solved. In order to obtain the information, it is necessary to provide an appropriate search word, and therefore, there is a problem that it is difficult for a general user who is unfamiliar with the search act to easily obtain desired information.
[0006]
In addition, the above two services provided on the Internet have a problem of security risk when using the service, and a problem of stopping the service.
[0007]
By the way, there is a bookmarking method as a simple method that does not provide the service provided on the Internet and that meets the above-mentioned request. This technique is generally included in software for browsing Web sites. According to this bookmark, URLs (Uniform Resource Locators), which are access information to Web sites, can be classified hierarchically, and Web sites can be arbitrarily named and stored.
[0008]
However, in the above-mentioned method of bookmarks, since the creation and organization of bookmarks must all be performed by the user, the user must perform all management such as maintaining an appropriate classification state and deleting unnecessary bookmarks. There is a problem that it is complicated for the person.
[0009]
On the other hand, for example, in the technology described in Patent Document 1, when a user attempts to register a URL, a keyword specifying tag in an HTML source of the URL is searched, and the keyword is specified based on the keyword specified by the keyword specifying tag. One that categorizes and registers URLs has been devised.
[0010]
[Patent Document 1]
JP-A-11-167580
[0011]
[Problems to be solved by the invention]
However, according to the technology described in Patent Document 1, classification is performed according to a keyword specification tag set by the creator of the HTML source on the Web. Therefore, an appropriate keyword may not be specified. There is a problem that is not done.
[0012]
The present invention has been made in view of such a problem, and eliminates the complexity of bookmark management that occurs when a large number of bookmarks are used, and performs accurate classification so that a bookmark function is provided. It is an object of the present invention to provide an automatic information classification device which has improved usefulness without impairing the simplicity.
[0013]
[Means for Solving the Problems]
In order to achieve the above object, according to the present invention, information connected to a network environment including a directory service server and a client device that classify a plurality of website information according to a predetermined classification rule and provide directory information In the automatic classification device, directory information acquisition means for acquiring the directory information provided by the directory service server via a network, and classification item information and a Web site corresponding to each classification item from the acquired directory information. Extracting means for extracting access information, and first site information obtaining means for accessing a Web site corresponding to the access information and obtaining site information provided by the Web site using the extracted access information And obtained by the first site information obtaining means. Analyzing the extracted site information to extract the characteristics of the site information, and integrating the characteristic information of the plurality of site information extracted by the first characteristic extracting unit for each classification item. Learning means for generating learning information through the network, bookmark information obtaining means for obtaining the bookmark information held by the client device via the network, and a Web corresponding to the bookmark information using the obtained bookmark information. A second site information acquisition unit that accesses the site to acquire site information provided by the Web site, and analyzes the site information acquired by the second site information acquisition unit to determine the characteristics of the site information. A second feature extraction unit to be extracted, and feature information extracted by the second feature extraction unit, the feature information extracted by the learning unit. Calculating means for comparing each of the pieces of learning information generated for each classification item with each other and calculating the similarity between the feature information and each piece of learning information; and the largest similarity among the similarities calculated by the calculating means. And a classification item corresponding to the learning information related to the bookmark information related to the site information acquired by the second site information acquisition unit. A classification device is provided.
[0014]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0015]
[First Embodiment]
FIG. 1 is a block diagram showing a basic configuration of a network system including an automatic information classification device according to the first embodiment of the present invention.
[0016]
In FIG. 1,
[0017]
102 is an information server. Web site information is provided using a protocol such as HTTP (Hypertext Transfer Protocol).
[0018]
[0019]
[0020]
The
[0021]
FIG. 2 is a block diagram showing a functional configuration of the
[0022]
In the figure,
[0023]
202 is a control unit. The
[0024]
203 is a communication unit. The
[0025]
FIG. 3 is a diagram showing a basic configuration of the automatic
[0026]
[0027]
[0028]
[0029]
A
[0030]
[0031]
[0032]
FIG. 4 is a flowchart illustrating a procedure of bookmark information classification processing executed by the information
[0033]
Steps S1 to S5 are a learning process. Briefly, directory information is obtained from the
[0034]
First, in step S1, the directory
[0035]
Next, in step S2, the directory
[0036]
In step S3, the directory
[0037]
In step S4, the feature
[0038]
In step S5, it is determined whether or not there is still directory information to be continuously executed in steps S1 to S4, and if it is to be executed continuously, the process returns to step S1.
[0039]
Steps S6 to S9 are a classification process. This time, the reference information (bookmark URL) uniquely stored in the
[0040]
First, in step S6, the reference
[0041]
Next, in step S7, the reference
[0042]
In step S8, first, the feature
[0043]
In step S9, it is determined whether or not the processing of steps S6 to S8 has been executed for all of the bookmark information held by the control unit 202 (Web browser) of the
[0044]
In step S10, the classification item for each bookmark information obtained in step S8 is sent to the
[0045]
As described above, since the classification of bookmarks is performed automatically, the complexity of bookmark management that occurs when a large number of bookmarks are used is eliminated, and the usefulness is maintained without impairing the simplicity of the bookmark function. It can be improved.
[0046]
In addition, since the bookmarks stored in the device used by the user are classified using the classification characteristics of the server providing the directory service, appropriate and accurate classification is performed.
[0047]
[Other embodiments]
In the above embodiment, there is only one directory service server that provides a directory service. However, a plurality of directory service servers may exist. In this case, the contents of the plurality of directory services are individually stored in individual learning data. Or all the directory service information may be collectively regarded as one virtual directory service and treated as a single learning data.
[0048]
Further, in the above-described embodiment, the single classification identification information having the highest similarity is calculated in step S8. Instead, a plurality of classification identification information may be calculated and classified into each. .
[0049]
Further, in the above-described embodiment, the single classification identification information having the highest similarity is calculated in step S8. However, instead of this, a certain threshold value is provided, and a similarity value exceeding this value cannot be obtained. In this case, a result that no classification identification information is matched may be calculated.
[0050]
In addition, the present invention may be applied to an apparatus including a plurality of devices (for example, a host computer, an interface device, and the like) or an apparatus including a single device. That is, the information
[0051]
Further, an object of the present invention is to supply a medium recording a program code of software for realizing the functions of the above-described embodiments to a system or an apparatus, and a computer (or CPU or MPU) of the system or apparatus to store the medium. It is also achieved by reading and executing the program code stored in the medium. In this case, the program code itself read from the storage medium implements the functions of the above-described embodiment, and the storage medium storing the program code constitutes the present invention.
[0052]
Examples of the storage medium for supplying the program code include a floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, CD-ROM, CD-R, magnetic tape, nonvolatile memory card, and ROM. Can be used. When the computer executes the readout program code, not only the functions of the above-described embodiment are realized, but also an OS (Operating System) running on the computer based on the instruction of the program code. Performs part or all of the actual processing, and the processing realizes the functions of the embodiments.
[0053]
Further, after the program code read from the storage medium is written into a memory provided on a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the support of the program code. This includes the case where the CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments.
[0054]
When the present invention is applied to the storage medium, the storage medium stores program codes for executing processing corresponding to the flowcharts described above.
[0055]
As described above, various embodiments of the present invention have been shown and described. Examples of the embodiments of the present invention are listed below.
[0056]
[Embodiment 1] In an information automatic classification device connected to a network environment including a directory service server and a client device that classify a plurality of website information according to a predetermined classification rule and provide directory information,
Directory information obtaining means for obtaining directory information provided by the directory service server via a network;
Extracting means for extracting classification item information and access information to a Web site corresponding to each classification item from the obtained directory information;
A first site information acquisition unit that accesses a website corresponding to the access information and acquires site information provided by the website using the extracted access information;
A first feature extracting unit that analyzes the site information acquired by the first site information acquiring unit and extracts features of the site information;
A learning unit for generating learning information by integrating feature information of a plurality of site information extracted by the first feature extracting unit for each classification item;
Bookmark information acquisition means for acquiring the bookmark information held by the client device via the network;
A second site information acquisition unit that accesses the website corresponding to the bookmark information using the acquired bookmark information and acquires site information provided by the website;
A second feature extraction unit that analyzes the site information acquired by the second site information acquisition unit and extracts a feature of the site information;
Calculating means for comparing the feature information extracted by the second feature extracting means with the learning information for each classification item generated by the learning means, and calculating the similarity between the feature information and each learning information, respectively; When,
A classification item corresponding to the learning information related to the maximum similarity among the similarities calculated by the calculation unit is defined as a classification item corresponding to the bookmark information related to the site information acquired by the second site information acquisition unit. Classification item determination means to be determined
An information automatic classification device, comprising:
[0057]
[Embodiment 2] The directory information provided by the directory service server is such that the user of the client device specifies a classification item corresponding to desired site information, and selects an appropriate Web site from a plurality of Web sites. Which is used when searching,
The apparatus according to claim 1, wherein the directory information obtaining unit converts a data format of directory information provided by the directory service server into a predetermined format.
[0058]
[Embodiment 3] The first and second feature extracting means respectively extract document information from the site information acquired by the first and second site information acquiring means, and analyze the document information. The information automatic classifying apparatus according to the first embodiment, wherein a feature of the site information is extracted by using the information.
[0059]
[Embodiment 4] Each of the first and second feature extraction means extracts at least a word contained in the extracted document information, and performs the analysis by using a vector having the word as a component. The information automatic classification device according to
[0060]
[Embodiment 5] An automatic information classification apparatus applied to an information classification apparatus connected to a network environment including a directory service server and a client apparatus for providing directory information by classifying a plurality of Web site information according to a predetermined classification rule. In the classification method,
Directory information obtaining step of obtaining directory information provided by the directory service server via a network;
An extraction step of extracting classification item information and access information to a Web site corresponding to each classification item from the obtained directory information;
A first site information obtaining step of using the extracted access information to access a Web site corresponding to the access information to obtain site information provided by the Web site;
A first feature extraction step of analyzing the site information acquired by the first site information acquisition step and extracting features of the site information;
A learning step of generating learning information by integrating feature information of a plurality of site information extracted by the first feature extraction step for each classification item;
Bookmark information acquisition step of acquiring the bookmark information held by the client device via the network,
A second site information obtaining step of using the obtained bookmark information to access a Web site corresponding to the bookmark information to obtain site information provided by the Web site;
A second feature extraction step of analyzing the site information acquired by the second site information acquisition step and extracting features of the site information;
A calculating step of comparing the feature information extracted in the second feature extracting step with learning information for each classification item generated in the learning step, and calculating a similarity between the feature information and each learning information, respectively; When,
A classification item corresponding to the learning information related to the largest similarity among the similarities calculated in the calculation step is classified into a classification item corresponding to the bookmark information related to the site information acquired in the second site information acquisition step. And the classification item determination step to determine
An automatic information classification method, comprising:
[0061]
[Sixth Embodiment] The directory information provided by the directory service server is such that the user of the client device specifies a classification item corresponding to desired site information, and selects an appropriate Web site from a plurality of Web sites. Which is used when searching,
The information automatic classification method according to embodiment 5, wherein the directory information obtaining step converts a data format of directory information provided by the directory service server into a predetermined format.
[0062]
[Embodiment 7] The first and second feature extraction steps include extracting document information from the site information acquired by the first and second site information acquisition steps, respectively, and analyzing the document information. The method for automatically classifying information according to embodiment 5, wherein the feature of the site information is extracted by the following.
[0063]
[Eighth Embodiment] In the first and second feature extraction steps, at least a word contained in the extracted document information is extracted, and the analysis is performed by using a vector including the word as a component. The information automatic classification method according to
[0064]
[Embodiment 9] An automatic information classification apparatus applied to an automatic information classification apparatus connected to a network environment including a directory service server and a client apparatus for providing directory information by classifying a plurality of Web site information according to a predetermined classification rule. In a program for causing a computer to execute the classification method,
The information automatic classification method,
Directory information obtaining step of obtaining directory information provided by the directory service server via a network;
An extraction step of extracting classification item information and access information to a Web site corresponding to each classification item from the obtained directory information;
A first site information obtaining step of using the extracted access information to access a Web site corresponding to the access information to obtain site information provided by the Web site;
A first feature extraction step of analyzing the site information acquired by the first site information acquisition step and extracting features of the site information;
A learning step of generating learning information by integrating feature information of a plurality of site information extracted by the first feature extraction step for each classification item;
Bookmark information acquisition step of acquiring the bookmark information held by the client device via the network,
A second site information obtaining step of using the obtained bookmark information to access a Web site corresponding to the bookmark information to obtain site information provided by the Web site;
A second feature extraction step of analyzing the site information acquired by the second site information acquisition step and extracting features of the site information;
A calculating step of comparing the feature information extracted in the second feature extracting step with learning information for each classification item generated in the learning step, and calculating a similarity between the feature information and each learning information, respectively; When,
A classification item corresponding to the learning information related to the largest similarity among the similarities calculated in the calculation step is classified into a classification item corresponding to the bookmark information related to the site information acquired in the second site information acquisition step. And the classification item determination step to determine
A program characterized by having:
[0065]
[Embodiment 10] The directory information provided by the directory service server is such that the user of the client device specifies a classification item corresponding to desired site information, and selects an appropriate Web site from a plurality of Web sites. Which is used when searching,
The program according to embodiment 9, wherein the directory information obtaining step converts a data format of directory information provided by the directory service server into a predetermined format.
[0066]
[Embodiment 11] The first and second feature extraction steps include extracting document information from the site information acquired by the first and second site information acquisition steps, respectively, and analyzing the document information. The program according to the ninth embodiment, wherein the feature of the site information is extracted by the following.
[0067]
[Embodiment 12] The first and second feature extraction steps each include extracting at least a word contained in the extracted document information and performing the analysis by using a vector having the word as a component. 12. The program according to embodiment 11, wherein
[0068]
[Thirteenth embodiment] An automatic information classification apparatus applied to an automatic information classification device connected to a network environment including a directory service server and a client device that classifies a plurality of Web site information in accordance with a predetermined classification rule and provides directory information. In a computer-readable storage medium storing a classification method as a program,
The information automatic classification method,
Directory information obtaining step of obtaining directory information provided by the directory service server via a network;
An extraction step of extracting classification item information and access information to a Web site corresponding to each classification item from the obtained directory information;
A first site information obtaining step of using the extracted access information to access a Web site corresponding to the access information to obtain site information provided by the Web site;
A first feature extraction step of analyzing the site information acquired by the first site information acquisition step and extracting features of the site information;
A learning step of generating learning information by integrating feature information of a plurality of site information extracted by the first feature extraction step for each classification item;
Bookmark information acquisition step of acquiring the bookmark information held by the client device via the network,
A second site information obtaining step of using the obtained bookmark information to access a Web site corresponding to the bookmark information to obtain site information provided by the Web site;
A second feature extraction step of analyzing the site information acquired by the second site information acquisition step and extracting features of the site information;
A calculating step of comparing the feature information extracted in the second feature extracting step with learning information for each classification item generated in the learning step, and calculating a similarity between the feature information and each learning information, respectively; When,
A classification item corresponding to the learning information related to the largest similarity among the similarities calculated in the calculation step is classified into a classification item corresponding to the bookmark information related to the site information acquired in the second site information acquisition step. And the classification item determination step to determine
A storage medium comprising:
[0069]
[Embodiment 14] In the directory information provided by the directory service server, a user of the client device specifies a classification item corresponding to desired site information, and selects an appropriate Web site from a plurality of Web sites. Which is used when searching,
The storage medium according to embodiment 13, wherein the directory information obtaining step converts a data format of directory information provided by the directory service server into a predetermined format.
[0070]
[Embodiment 15] The first and second feature extraction steps include extracting document information from the site information acquired by the first and second site information acquisition steps, respectively, and analyzing the document information. The storage medium according to embodiment 13, wherein the feature of the site information is extracted by using the following.
[0071]
[Embodiment 16] The first and second feature extraction steps each include extracting at least a word contained in the extracted document information, and performing the analysis by using a vector including the word as a component. The storage medium according to embodiment 15, wherein:
[0072]
【The invention's effect】
As described in detail above, according to the present invention, classification item information and access information to a Web site corresponding to each classification item are extracted from the directory information provided by the directory service server, and the Web information is extracted using the access information. The user accesses the site to obtain site information provided by the Web site. The acquired site information is analyzed to extract the features of the site information, and by repeating this, the feature information of each of the plurality of extracted site information is integrated for each classification item to generate learning information. On the other hand, the client accesses the Web site using the bookmark information held by the client device, acquires the site information, analyzes the acquired site information, and extracts the features of the site information. The extracted feature information is compared with the generated learning information for each classification item, and the similarity between the feature information and each learning information is calculated. The classification item corresponding to the learning information related to the maximum similarity among the calculated similarities is determined as the classification item for the bookmark information.
[0073]
Thus, since the bookmarks are automatically classified, the complexity of bookmark management that occurs when a large number of bookmarks are used is eliminated, and accurate classification is performed, so that the simplicity of the bookmark function is not impaired. It is possible to improve the usefulness.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a basic configuration of a network system including an automatic information classification device according to a first embodiment of the present invention.
FIG. 2 is a block diagram illustrating a functional configuration of an information client.
FIG. 3 is a diagram showing a basic configuration of an automatic information classification device.
FIG. 4 is a flowchart illustrating a procedure of bookmark information classification processing executed by the information automatic classification device.
[Explanation of symbols]
101 Information client (client device)
102 Information server (Web site server)
103 Directory service server
104 Automatic Information Classifier
105 Network
Claims (1)
前記ディレクトリサービスサーバが提供するディレクトリ情報を、ネットワークを介して取得するディレクトリ情報取得手段と、
前記取得されたディレクトリ情報から、分類項目情報と各分類項目に対応するWebサイトへのアクセス情報とを抽出する抽出手段と、
前記抽出されたアクセス情報を用いて、該アクセス情報が対応するWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する第1のサイト情報取得手段と、
前記第1のサイト情報取得手段によって取得されたサイト情報を解析して、該サイト情報の特徴を抽出する第1の特徴抽出手段と、
前記第1の特徴抽出手段によってそれぞれ抽出された複数のサイト情報の特徴情報を分類項目ごとに積算して学習情報を生成する学習手段と、
前記クライアント装置が保持するブックマーク情報を、前記ネットワークを介して取得するブックマーク情報取得手段と、
前記取得されたブックマーク情報を用いて、該ブックマーク情報が対応するWebサイトにアクセスして該Webサイトが提供するサイト情報を取得する第2のサイト情報取得手段と、
前記第2のサイト情報取得手段によって取得されたサイト情報を解析して、該サイト情報の特徴を抽出する第2の特徴抽出手段と、
前記第2の特徴抽出手段によって抽出された特徴情報を、前記学習手段によって生成された分類項目ごとの学習情報とそれぞれ比較し、該特徴情報と各学習情報との類似性をそれぞれ算出する算出手段と、
前記算出手段によって算出された各類似性のうち最大の類似性に関連する学習情報に対応する分類項目を、前記第2のサイト情報取得手段が取得したサイト情報に関連するブックマーク情報に対する分類項目と決定する分類項目決定手段とを有することを特徴とする情報自動分類装置。An information automatic classification device connected to a network environment including a directory service server and a client device that classify a plurality of website information according to a predetermined classification rule and provide directory information,
Directory information obtaining means for obtaining directory information provided by the directory service server via a network;
Extracting means for extracting classification item information and access information to a Web site corresponding to each classification item from the obtained directory information;
A first site information acquisition unit that accesses a website corresponding to the access information and acquires site information provided by the website using the extracted access information;
A first feature extracting unit that analyzes the site information acquired by the first site information acquiring unit and extracts features of the site information;
A learning unit for generating learning information by integrating feature information of a plurality of site information extracted by the first feature extracting unit for each classification item;
Bookmark information acquisition means for acquiring the bookmark information held by the client device via the network;
A second site information acquisition unit that accesses the website corresponding to the bookmark information using the acquired bookmark information and acquires site information provided by the website;
A second feature extraction unit that analyzes the site information acquired by the second site information acquisition unit and extracts a feature of the site information;
Calculating means for comparing the feature information extracted by the second feature extracting means with the learning information for each classification item generated by the learning means, and calculating the similarity between the feature information and each learning information, respectively; When,
A classification item corresponding to the learning information related to the maximum similarity among the similarities calculated by the calculation unit is defined as a classification item corresponding to the bookmark information related to the site information acquired by the second site information acquisition unit. An automatic information classification apparatus, comprising: a classification item determining means for determining.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002365482A JP2004199273A (en) | 2002-12-17 | 2002-12-17 | Information automatic classification device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002365482A JP2004199273A (en) | 2002-12-17 | 2002-12-17 | Information automatic classification device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004199273A true JP2004199273A (en) | 2004-07-15 |
Family
ID=32763022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002365482A Pending JP2004199273A (en) | 2002-12-17 | 2002-12-17 | Information automatic classification device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004199273A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006293742A (en) * | 2005-04-12 | 2006-10-26 | Canon Inc | Image forming system, image forming apparatus, service cooperation processing method, storage medium for storing computer readable program, and program |
CN110020954A (en) * | 2019-03-26 | 2019-07-16 | 阿里巴巴集团控股有限公司 | A kind of income distribution method, device and computer equipment |
-
2002
- 2002-12-17 JP JP2002365482A patent/JP2004199273A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006293742A (en) * | 2005-04-12 | 2006-10-26 | Canon Inc | Image forming system, image forming apparatus, service cooperation processing method, storage medium for storing computer readable program, and program |
CN110020954A (en) * | 2019-03-26 | 2019-07-16 | 阿里巴巴集团控股有限公司 | A kind of income distribution method, device and computer equipment |
CN110020954B (en) * | 2019-03-26 | 2023-09-05 | 创新先进技术有限公司 | Revenue distribution method and device and computer equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5727512B2 (en) | Cluster and present search suggestions | |
US9489401B1 (en) | Methods and systems for object recognition | |
US8161059B2 (en) | Method and apparatus for collecting entity aliases | |
US8458198B1 (en) | Document analysis and multi-word term detector | |
US8965894B2 (en) | Automated web page classification | |
US7823065B2 (en) | Lexicon-based new idea detector | |
WO2000068833A2 (en) | Categorising data | |
US20080168049A1 (en) | Automatic acquisition of a parallel corpus from a network | |
US20110307479A1 (en) | Automatic Extraction of Structured Web Content | |
US11709880B2 (en) | Method of image searching based on artificial intelligence and apparatus for performing the same | |
CN111475603A (en) | Enterprise identifier identification method and device, computer equipment and storage medium | |
CN112035723A (en) | Resource library determination method and device, storage medium and electronic device | |
KR20120058544A (en) | Image element searching | |
US8954438B1 (en) | Structured metadata extraction | |
Li | Internet tourism resource retrieval using PageRank search ranking algorithm | |
US20100082594A1 (en) | Building a topic based webpage based on algorithmic and community interactions | |
JP5079642B2 (en) | History processing apparatus, history processing method, and history processing program | |
US9984104B2 (en) | Indexing content and source code of a software application | |
CN114117242A (en) | Data query method and device, computer equipment and storage medium | |
WO2017000659A1 (en) | Enriched uniform resource locator (url) identification method and apparatus | |
JP2007164633A (en) | Content retrieval method, system thereof, and program thereof | |
JP3683687B2 (en) | Information filtering apparatus and information filtering method | |
CN115186240A (en) | Social network user alignment method, device and medium based on relevance information | |
JP2004199273A (en) | Information automatic classification device | |
KR100659370B1 (en) | Method for constructing a document database and method for searching information by matching thesaurus |