JP2004341942A

JP2004341942A - コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体

Info

Publication number: JP2004341942A
Application number: JP2003139281A
Authority: JP
Inventors: Hironori Takagi; 浩則高木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-05-16
Filing date: 2003-05-16
Publication date: 2004-12-02

Abstract

【課題】明示的にコンテンツの分類情報を付与しない場合でも、コンテンツを分類できるようにする。
【解決手段】ネットワーク上のコンテンツを、コンピュータを用いて分類する方法において、前記コンピュータが、複数の前記コンテンツのネットワーク上の位置情報であるＵＲＬを取得し、前記ＵＲＬに記載された前記コンテンツを格納するサーバのドメイン名から、分類項目を抽出し、前記ＵＲＬに記載された前記コンテンツを格納するサーバにおける当該コンテンツの格納場所を示すディレクトリ名から、分類項目を抽出し、前記ＵＲＬに記載されたコンテンツのファイル名から、分類項目を抽出する。そして、各階層において各文字列の一部が共通する場合にも、その文字の一部を分類項目として抽出する構成とした。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、ネットワーク上で提供されるコンテンツの分類方法、コンテンツの分類装置、コンテンツの分類用プログラムおよびコンテンツの分類用プログラムを記憶した記憶媒体に関する。
【０００２】
【従来の技術】
従来、インターネット等の閲覧者に対し閲覧者の嗜好にあわせた情報を提供するため、各閲覧者がどのようなＷｅｂサイト（コンテンツ）を頻繁に利用しているかを分析するコンテンツアクセス履歴分析方法が検討されてきた。
このコンテンツアクセス履歴分析方法として、あらかじめ用意されたコンテンツの分類情報をコンテンツアクセス履歴分析装置等に登録してコンテンツを分類し、この分類結果を分析する方法があった（例えば特許文献１参照）。
【０００３】
【特許文献１】
特開２００２−１６３２７４号公報（［００２８］〜［００２９］）
【０００４】
【発明が解決しようとする課題】
しかしながら、従来のコンテンツアクセス履歴分析方法では、あらかじめ管理者等がコンテンツの分類情報を作成する等して明示的に分類情報を付与し、これをコンテンツアクセス履歴分析ツール等に登録しなければ、履歴分析を行うことが困難であった。また、例えば、前記した分類情報に基づきコンテンツを分類した場合に、異なる分類に属することになったコンテンツ間の相関等の分析も行うことができない等、管理者（ユーザ）が様々な視点や分類項目によりコンテンツの分類や分析をすることが困難であった。
【０００５】
そこで、本発明は、コンテンツアクセス履歴の分類や分析を行うための分類項目を自動的に抽出し、管理者（ユーザ）等が様々な分類項目によりコンテンツの分類や分析を行うことができるコンテンツ分類手段を提供することを目的とする。
【課題を解決するための手段】
【０００６】
請求項１に係る発明は、ネットワーク上のコンテンツを、コンピュータを用いて分類する方法において、前記コンピュータが、複数の前記コンテンツのネットワーク上の位置情報であるＵＲＬを取得するステップと、前記ＵＲＬに記載された前記コンテンツを格納するサーバのドメイン名から、分類項目を抽出するステップと、前記ＵＲＬに記載された前記コンテンツを格納するサーバにおける当該コンテンツの格納場所を示すディレクトリ名から、分類項目を抽出するステップと、前記ＵＲＬに記載されたコンテンツのファイル名から、分類項目を抽出するステップとを実行することを特徴とする。
【０００７】
この方法によれば、管理者がコンテンツの分類情報を付与しない場合でも、コンテンツのＵＲＬに記載されたドメイン名（Ｗｅｂコンテンツのサーバ名）、ディレクトリ名およびファイル名を解析することにより、自動的にコンテンツの分類項目を抽出することができる。
【０００８】
請求項２に係る発明は、請求項１に記載のコンテンツ分類方法において、前記ファイル名に含まれる、ファイルの種類を表す拡張子から、分類項目を抽出するステップをさらに実行することを特徴とする。
【０００９】
この方法によれば、前記したコンテンツのＵＲＬに記載されたドメイン名（Ｗｅｂコンテンツのサーバ名）、ディレクトリ名、ファイル名のほかに、ファイルの拡張子からもコンテンツの分類項目を抽出する。したがって、コンテンツのファイルの種類や性質を示す項目も分類項目として抽出することができる。
【００１０】
請求項３に係る発明は、請求項２に記載のコンテンツ分類方法において、前記ドメイン名から抽出された分類項目と、前記ディレクトリ名から抽出された分類項目と、前記ファイル名から抽出された分類項目と、前記ファイルの拡張子から抽出された分類項目とのうち、少なくともいずれか一つの分類項目に基づいて前記ＵＲＬの分類をすることを特徴とする。
【００１１】
この方法によれば、コンテンツのＵＲＬに記載されたドメイン名（Ｗｅｂコンテンツのサーバ名）、ディレクトリ名、ファイル名およびファイルの拡張子からコンテンツの分類項目を抽出し、この項目に基づくコンテンツ（ＵＲＬ）の分類結果が示される。
【００１２】
請求項４に係る発明は、請求項１または請求項２のいずれか１項に記載のコンテンツ分類方法において、前記複数のＵＲＬのそれぞれに記載された前記ドメイン名、前記ディレクトリ名、前記ファイル名または前記ファイルの拡張子の文字列の全部または一部が、各階層において一致する場合に、その文字列の全部または一部を分類項目として抽出することを特徴とする。
【００１３】
この方法によれば、複数のＵＲＬに記載された、ドメイン名、ディレクトリ名、ファイル名を示す単語の先頭の文字列のみが一致（共通）する場合も分類項目として抽出することにより、単語全体にのみ着目した場合には抽出されない、コンテンツの内容や性質を示す略語や接頭語も分類項目として抽出することができる。
【００１４】
また、「各階層において一致する」とは、例えば複数のＵＲＬのうち、ＵＲＬに記載されたドメイン名同士が共通する場合や、第１ディレクトリ階層（サーバの直下のディレクトリ）のディレクトリ名同士が共通する場合や、第２ディレクトリ階層（第１ディレクトリ階層の下のディレクトリ）のディレクトリ名同士が共通する場合や、ファイル名同士が共通する場合のことをいう。
【００１５】
請求項５に係る発明は、ネットワーク上のコンテンツを分類する装置であって、複数のコンテンツのネットワーク上の位置情報であるＵＲＬを取得するＵＲＬ取得部と、前記取得した複数のＵＲＬから、このコンテンツを分類するための項目を抽出し、前記複数のＵＲＬを分類するＵＲＬ解析部とを含むことを特徴とする。
【００１６】
請求項６に係る発明は、コンピュータにインストールされることにより、請求項１ないし請求項４のいずれか１項に記載のコンテンツ分類方法を実行することを特徴とする。
【００１７】
請求項７に係る発明は、コンピュータにより読取り可能な記憶媒体であって、請求項６に記載のプログラムを記憶したことを特徴とする。
【００１８】
以上によれば、管理者がコンテンツの分類情報を付与しない場合でも、コンテンツのＵＲＬに記載されたドメイン名（Ｗｅｂコンテンツのサーバ名）、ディレクトリ名、ファイル名およびファイルの拡張子から、自動的にコンテンツの分類項目を抽出し、この項目に基づいてコンテンツを分類することができる。
また、ドメイン名、ディレクトリ名、ファイル名を示す単語の先頭の文字列のみが共通する場合のほかに、ファイルの種類を示す拡張子が共通する場合も分類項目として抽出し、ドメイン名、ディレクトリ名、ファイル名の単語全体にのみ着目した場合には抽出することができない、コンテンツの内容や性質を示す略語や接頭語も分類項目として抽出できる。
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して詳細に説明する。
【００１９】
≪第１の実施の形態≫
図１は、本発明の第１の実施の形態であるコンテンツ分類装置１００が組み込まれるシステムの全体構成とコンテンツ分類装置４００の構成を示した図である。図１に示されるように、コンテンツ分類装置１００は、ネットワーク６００を介して端末装置３００と接続されている。
ここで、コンテンツとは、ネットワーク上のサーバに格納されているテキスト文書やグラフィック等の内容を指す。
ネットワーク６００は、端末装置３００からデータが受信できるネットワークであればよく、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットであってもよい。端末装置３００は、ネットワークに接続可能な情報端末であれば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）のほか、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）であってもよい。
【００２０】
コンテンツ分類装置１００は、ネットワーク６００を介して、端末装置３００から複数のＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）が記載されたコンテンツアクセス履歴を受信する。そして、このコンテンツアクセス履歴に記載されたＵＲＬから分類項目が抽出し、その分類項目が抽出される過程、すなわち各分類項目とその項目に基づくコンテンツ（ＵＲＬ）の分類結果（以下、分類結果とする）を、アクセス履歴分析装置２００へ出力する。
その後、アクセス履歴分析装置２００は、この分類結果を読み込み、各端末装置３００のコンテンツアクセス履歴の分析を行う。
【００２１】
（ＵＲＬ）
ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）とは、ネットワーク上のコンテンツの位置を指し示すものであり、プロトコル名、ドメイン名（サーバ名）、ディレクトリ名、ファイル名から構成される。
【００２２】
以下に、ＵＲＬを例示する。
ｈｔｔｐ：／／ｗｗｗ．ａａ＊．ｃｏｍ／ｓｔｒｅａｍ／ｎｅｗｓ／ｉｎｄｅｘ．ｈｔｍｌ
「ｈｔｔｐ」は、プロトコル名であり、前記した「ｈｔｔｐ：／／ｗｗｗ．ａａ．ｃｏｍ／ｓｔｒｅａｍ／ｉｎｄｅｘ．ｈｔｍｌ」のコンテンツへアクセスするためのプロトコル（通信規約）を示す。「ｗｗｗ．ａａ＊．ｃｏｍ」は、サーバ名（請求項におけるドメイン名）であり、「ｉｎｄｅｘ．ｈｔｍｌ」のコンテンツを格納するサーバの名前を示す。サーバ名は、「ａａ＊．ｃｏｍ」というドメイン名を含んで構成される。「ｓｔｒｅａｍ」と「ｎｅｗｓ」は、ディレクトリ名であり、「ｗｗｗ．ａａ＊．ｃｏｍ」サーバ内におけるコンテンツの格納場所を示す。
【００２３】
なお、「ｓｔｒｅａｍ」は、「ｗｗｗ．ａａ＊．ｃｏｍ」というサーバの直下のディレクトリなので、第１ディレクトリ階層のディレクトリと呼ばれる。サーバとディレクトリとは「／」で区切られている。また、「ｎｅｗｓ」は、「ｓｔｒｅａｍ」のディレクトリの下層（配下）のディレクトリなので第２ディレクトリ階層のディレクトリと呼ばれる。異なる階層のディレクトリは「／」で区切られる。「ｉｎｄｅｘ．ｈｔｍｌ」は、このコンテンツのファイル名を示す。ファイル名とディレクトリは「／」で区切られる。
【００２４】
したがって、前記したＵＲＬの示すコンテンツは、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）で送受信されるコンテンツで、「ｗｗｗ．ａａ＊．ｃｏｍ」というサーバの、「ｓｔｒｅａｍ」というディレクトリの中にある「ｎｅｗｓ」というディレクトリの中の、「ｉｎｄｅｘ．ｈｔｍｌ」というファイルであることを示している。
なお、ファイル名「ｉｎｄｅｘ．ｈｔｍｌ」の「．ｈｔｍｌ」は拡張子であり、そのファイルの種類を示す。ここで、「．ｈｔｍｌ」は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）形式のファイルであることを示している。
【００２５】
次に、コンテンツ分類装置１００の説明をする。コンテンツ分類装置１００は、前記したとおり、ネットワーク６００を介して端末装置３００と接続されている。コンテンツ分類装置１００は、ネットワーク６００を介して、端末装置３００から複数のＵＲＬが記載されたコンテンツアクセス履歴を取得する。そして、このコンテンツアクセス履歴に記載されたＵＲＬの分類結果を、アクセス履歴分析装置２００へ出力する機能を有する。
【００２６】
したがって、コンテンツ分類装置１００は、ネットワーク６００を介して、端末装置３００からコンテンツアクセス履歴を取得するＵＲＬ取得部１１０と、このコンテンツアクセス履歴のＵＲＬに記載された内容から、コンテンツ（ＵＲＬ）の分類項目を抽出し、その項目に基づくＵＲＬの分類を行うＵＲＬ解析部１２０と、その分類結果を出力する出力部１３０とを含んで構成される。
【００２７】
次に、コンテンツ分類装置１００の動作を図１、図３ないし図１０を参照しつつ、図２のフローチャートに沿って説明する。
【００２８】
（ステップＳ１０１）
ステップＳ１０１では、ＵＲＬ取得部１１０が、端末装置３００からコンテンツアクセス履歴データ（ＵＲＬ群）を取得する。
図３は、コンテンツアクセス履歴データを例示したものである。図３に例示されるように、コンテンツアクセス履歴データには、端末装置３００がアクセスしたコンテンツのＵＲＬが列挙されている。例えば、図３の場合、端末装置３００のユーザは、
「ｈｔｔｐ：／／ｗｗｗ．ａａ＊．ｃｏｍ／ｓｔｒｅａｍ／ｎｅｗｓ／ｓｐｏｒｔｓ００１／ｓｏｃ００１＿００１．ａｓｘ」
「ｈｔｔｐ：／／ｗｗｗ．ａａ＊．ｃｏｍ／ｓｔｒｅａｍ／ｎｅｗｓ／ｓｐｏｒｔｓ００１／ｓｏｃ００１＿００２．ａｓｘ」
「ｈｔｔｐ：／／ｗｗｗ．ａａ＊．ｃｏｍ／ｓｔｒｅａｍ／ｎｅｗｓ／ｓｐｏｒｔｓ００１／ｓｏｃ００１＿００３．ａｓｘ」
・・・・・
のコンテンツにアクセスしたことを示している。
なお、このコンテンツアクセス履歴データは、端末装置３００の利用者を示す利用者識別子や、各コンテンツのアクセス時間等を含んで構成されていてもよい。
【００２９】
（ステップＳ１０２）
ステップＳ１０２では、ＵＲＬ解析部１２０が、ステップＳ１０１で取得したコンテンツアクセス履歴データの各ＵＲＬを、サーバ名を示す部分と、ディレクトリ名を示す部分と、ファイル名を示す部分とに分割する。
【００３０】
図４は、分割された図３のコンテンツアクセス履歴データを例示した図である。図４に例示されるように、例えば
「ｈｔｔｐ：／／ｗｗｗ．ａａ＊．ｃｏｍ／ｓｔｒｅａｍ／ｎｅｗｓ／ｓｐｏｒｔｓ００１／ｓｏｃ００１＿００１．ａｓｘ」
というＵＲＬは、サーバ名を示す「ｗｗｗ．ａａ＊．ｃｏｍ」と、ディレクトリ名を示す「ｓｔｒｅａｍ」と「ｎｅｗｓ」と「ｓｐｏｒｔｓ００１」と、ファイル名を示す「ｓｏｃ００１＿００１．ａｓｘ」とに分割される。
【００３１】
（ステップＳ１０３）
ステップＳ１０３では、ＵＲＬ解析部１２０が、ステップＳ１０２で分割したＵＲＬのうちサーバ名（ドメイン名）から、コンテンツの分類項目を抽出する。
【００３２】
図５は、図４のコンテンツアクセス履歴データのＵＲＬのち、サーバ名から分類項目を抽出し、その項目によりＵＲＬを分類した結果を例示した図である。
図５に例示されるように、図４のコンテンツアクセス履歴データから、「ｗｗｗ．ａａ＊．ｃｏｍ」と「ｗｗｗ．ｂｂ＊．ｃｏｍ」とが分類項目として抽出され、「ｗｗｗ．ａａ＊．ｃｏｍ」を含むＵＲＬ群と「ｗｗｗ．ｂｂ＊．ｃｏｍ」を含むＵＲＬ群とに分類される。
なお、括弧内の数字は、その項目に分類されるＵＲＬの数を示す。「ｗｗｗ．ａａ＊．ｃｏｍ（１３）」は、「ｗｗｗ．ａａ＊．ｃｏｍ」に分類されるＵＲＬの数は１３個であることを示し、「ｗｗｗ．ｂｂ＊．ｃｏｍ（３）」は、「ｗｗｗ．ｂｂ＊．ｃｏｍ」に分類されたＵＲＬの数は３個であることを示す。
【００３３】
（ステップＳ１０４）
ステップＳ１０４では、ＵＲＬ解析部１２０が、ステップＳ１０３の分類結果に基づき、コンテンツ（ＵＲＬ）のディレクトリ名から分類項目を抽出する。コンテンツのファイルが複数階層のディレクトリの下にある場合には、サーバの直下のディレクトリ（第１ディレクトリ階層）から順に分類項目を抽出する。
【００３４】
図６は、図５の分類結果に基づいて、ＵＲＬの分類項目を第１ディレクトリ階層のディレクトリ名から抽出し、この項目によりＵＲＬを分類した結果を例示した図である。
図６に例示されるように「ｗｗｗ．ａａ＊．ｃｏｍ」配下の第１ディレクトリ階層のディレクトリ名から「ｓｔｒｅａｍ」という項目が抽出され、この項目に基づき、「ｗｗｗ．ａａ＊．ｃｏｍ」配下のＵＲＬが分類されている。「ｗｗｗ．ｂｂ＊．ｃｏｍ」配下の第１ディレクトリ階層のディレクトリ名から「ｗｗｗ」という項目が抽出され、この項目に基づき「ｗｗｗ．ｂｂ＊．ｃｏｍ」配下のＵＲＬが分類されている。
【００３５】
つまり、図６の
ｗｗｗ．ａａ＊．ｃｏｍ（１３）［ｓｔｒｅａｍ］
＋ｓｔｒｅａｍ（１３） −
という表記のうち、「［ｓｔｒｅａｍ］」は、「ｗｗｗ．ａａ＊．ｃｏｍ」配下のＵＲＬから抽出された分類項目が「ｓｔｒｅａｍ」であることを示す。
「＋ｓｔｒｅａｍ（１３）」は、この「ｓｔｒｅａｍ」というディレクトリ名を含むＵＲＬが、そのすぐ上に書かれた階層（「ｗｗｗ．ａａ＊．ｃｏｍ（１３）」）から１３個抽出された、すなわち分類されたことを示す。
なお、「−」は、「＋ｓｔｒｅａｍ（１３）」配下のＵＲＬから項目の抽出（分類）がまだ終了していないことを示す。
【００３６】
次に、第２ディレクトリ階層のＵＲＬから分類項目を抽出し、第２ディレクトリ階層の配下のＵＲＬを分類する。
【００３７】
図７は、図６の分類結果に基づいて、分類項目となる単語（文字列）を第２階ディレクトリ階層のディレクトリ名から抽出し、この項目によりＵＲＬを分類した結果を例示した図である。
図７に例示されるように、「＋ｓｔｒｅａｍ（１３）」配下の第２ディレクトリ階層のディレクトリ名からは、先頭の一部の文字が共通する「ａｎｉｍａ」という項目が抽出され、先頭から終わりまでが一致する単語（文字列）として「ｎｅｗｓ」という項目が抽出されている。そして、「ａｎｉｍａ」と「ｎｅｗｓ」という項目によりＵＲＬが分類されている。また、「ａｎｉｍａ」を先頭に含む単語として「ａｎｉｍａｔｉｏｎ」と「ａｎｉｍａｌ」という項目が抽出され、この項目によりＵＲＬが分類されている。
なお、「［”ａｎｉｍａ”−ｔｉｏｎ，”ａｎｉｍａ”−ｌ］」は、「ａｎｉｍａ」を先頭に含むディレクトリから抽出された分類項目は「ａｎｉｍａｔｉｏｎ」と「ａｎｉｍａｌ」であることと、この２つの分類項目は「ａｎｉｍａ」という文字列が共通していることを示す。
また、「ｗｗｗ」配下の第２階層のディレクトリ名からは、「ｄｅｍｏ」という項目が抽出され、この項目によりＵＲＬが分類されている。
【００３８】
ＵＲＬ解析部１２０が、同様の動作をＵＲＬのすべてのディレクトリ階層について行うと、ステップＳ１０４は終了する。
【００３９】
図８は、図７の分類結果に基づいて、第３ディレクトリ階層のディレクトリまでのＵＲＬから分類項目を抽出し、この項目によりＵＲＬを分類した結果を例示した図である。
図８に例示されるように、コンテンツアクセス履歴データのＵＲＬのディレクトリ名から抽出された分類項目の文字列が［］内に列挙され、その分類項目の文字列でＵＲＬが分類された結果が示される。また、各分類項目がどのＵＲＬやディレクトリ等から抽出されたかも示される。
【００４０】
（ステップＳ１０５）
ステップＳ１０５では、ＵＲＬ解析部１２０が、ステップＳ１０４の分類結果に基づき、コンテンツ（ＵＲＬ）のファイル名から分類項目を抽出し、この項目によりＵＲＬを分類する。図９は、図８の分類結果に基づいて、分類項目を抽出し、この項目によりＵＲＬを分類した結果を例示した図である。
【００４１】
図９の領域９０１の、
＋ｙｏｕｎｇ００１（２）［ｙｎｇ００１］
＊＊＊ｙｎｇ００１（２）［］：（”ｙｎｇ００１”＿００１．ａｓｘ，”ｙｎｇ００１”＿００２．ａｓｘ）
という表記は、ディレクトリ名「ｙｏｕｎｇ００１」配下の２個のＵＲＬから抽出された分類項目は「ｙｎｇ００１」であることを示す。
そして、「＊＊＊ｙｎｇ００１（２）」は、先頭に「ｙｎｇ００１」という文字列を含むＵＲＬ（ファイル名）が２個分類されたことを示す。
「［］」は、「＊＊ｙｎｇ００１」配下のＵＲＬからは、分類項目が抽出できなかったことを示す。「（”ｙｎｇ００１”＿００１．ａｓｘ，”ｙｎｇ００１”＿００２．ａｓｘ）」は、この分類項目に分類されたファイル名が「ｙｎｇ００１＿００１．ａｓｘ」と「ｙｎｇ００１＿００２．ａｓｘ」であることと、この２つのファイルは「ｙｎｇ００１」という文字列が共通していることを示す。
【００４２】
（ステップＳ１０６）
ステップＳ１０６では、ＵＲＬ解析部１２０が、ステップＳ１０１で取得したコンテンツアクセス履歴データの各ＵＲＬに記載されたファイル名から、ファイルの拡張子を分割する。
【００４３】
例えば、
ｓｏｃ００１＿００１．ａｓｘ
というファイル名は、「ｓｏｃ００１＿００１」と、拡張子を示す「．ａｓｘ」とに分割される。
【００４４】
（ステップＳ１０７）
ステップＳ１０７では、ＵＲＬ解析部１２０が、ステップＳ１０６でＵＲＬから分割した拡張子を分類項目として抽出し、この項目に基づいてＵＲＬに記載されたファイルの分類を行う。
【００４５】
図１０は、図４のコンテンツアクセス履歴データのＵＲＬから、分類項目となるファイルの拡張子を抽出し、この項目によりファイルを分類した結果を例示した図である。
図１０に例示されるように、図４のコンテンツアクセス履歴データのファイル名から「．ａｓｘ」と「．ｈｔｍｌ」とが分類項目として抽出され、これに基づき「．ａｓｘ」を含むファイル群と、「．ｈｔｍｌ」を含むファイル群とに分類される。
なお、（）内は、ステップＳ１０６までと同様に、その分類項目に該当するファイル名を示している。
【００４６】
（ステップＳ１０８）
ステップＳ１０８では、出力部１３０がステップＳ１０２からステップＳ１０７で作成された分類結果を出力する。
【００４７】
以上、第１の実施の形態における、コンテンツ分類装置１００の動作を説明した。この実施の形態によれば、コンテンツアクセス履歴データのＵＲＬをサーバ名（ドメイン名）やディレクトリ名やファイル名から、自動的に分類項目を抽出するとともに、各分類項目に基づいたコンテンツのＵＲＬの分類結果を出力することができる。
また、サーバ名（ドメイン名）やディレクトリ名の単語のみに着目した場合には抽出することができない、コンテンツの内容や性質を示す略語や接頭語、例えば「＊＊＊ｓｏｃ００１」、「＊＊＊ｓｗｍ００１」、「＊＊＊ｅｃｏ００１」、「＊＊＊ｋｉｄ００１」、「＊＊＊ｙｎｇ００１」、「＊＊＊ｍｏｖｉｅｄｅｍｏ」等を分類項目として抽出することができる。また、「．ｈｔｍｌ」（ｈｔｍｌ形式のファイル）、「．ａｓｘ」（ストリーミング配信用のファイル）といったファイルの種類も分類項目として抽出することができる。
【００４８】
なお、これらの分類項目の抽出後、コンテンツ分類装置１００は、「＊＊＊ｓｏｃ００１」は、サッカーに関するコンテンツ、「＊＊＊ｓｗｍ００１」は、水泳に関するコンテンツ、「＊＊＊ｅｃｏ００１」は、経済に関するコンテンツ、「＊＊＊ｋｉｄ００１」は、子供に関するコンテンツ、「＊＊＊ｙｎｇ００１」は、若者に関するコンテンツ、「＊＊＊ｍｏｖｉｅｄｅｍｏ」は、映画の予告編に関するコンテンツといったように略語や接頭語に対して、その語が意味する内容を記憶する辞書を保持し、これにもとづく分類を行ってもよい。
【００４９】
≪第２の実施の形態≫
次に、図１１を用いて本発明の第２の実施の形態を説明する。図１１は、本発明の第２の実施の形態であるコンテンツ分類装置が組み込まれるシステムの全体構成とコンテンツ分類装置の構成を示した図である。
なお、第１実施の形態と同様の構成要素は、同じ符号を付して説明を省略する。
【００５０】
第２の実施の形態は、コンテンツ分類装置が、コンテンツアクセス履歴を分析する機能を有していることを特徴とする。
図１１に示されるように、コンテンツ分類装置４００は、ＵＲＬ解析部１２０がコンテンツアクセス履歴データから分類項目を抽出し、この項目により分類された結果を記憶するＵＲＬ解析結果記憶部４３０と、この分類結果を用いてコンテンツアクセス履歴の分析を行うアクセス履歴分析部４４０と、ユーザからの各種入力を受け付ける入力部４５０と、コンテンツアクセス履歴データの分析結果等を表示する表示部４６０とを含んで構成される。
【００５１】
ＵＲＬ解析結果記憶部４３０に記憶される分析結果は、前記した第１の実施の形態で説明した図９のＵＲＬの分類結果のデータと、図１０のファイルの分類結果のデータとを組み合わせたものである。
【００５２】
次に、アクセス履歴分析部４４０の動作を説明する。アクセス履歴分析部４４０は、ユーザにより入力されたコンテンツアクセス履歴データの選択を受け付け、ＵＲＬ解析結果記憶部４３０から、コンテンツアクセス履歴データのＵＲＬの記載に基づいて抽出された分類項目と、この分類項目により分類されたＵＲＬとを取得する。
【００５３】
図１２は、コンテンツ分類装置４００の操作画面を例示した図である。図１２に示されるように、領域５００には、ユーザが選択したコンテンツアクセス履歴データのＵＲＬから抽出された分類項目と、この分類項目により分類されたＵＲＬとが示される。
例えば、ユーザが、コンテンツアクセス履歴データから「ａｎｉｍａ」を含むストリーミングファイル（拡張子「．ａｓｘ」を含む）を分類し、表示させたい場合には、領域５１０の「ａｎｉｍａ」をクリックし、領域５３０の「ａｓｘファイル」のチェックボックスにチェックを入れる。このとき、この入力を受け付けたコンテンツ分類装置４００が、コンテンツアクセス履歴データから「ａｎｉｍａ」を含みかつ拡張子「．ａｓｘ」を含むＵＲＬを検索し、その検索したＵＲＬを領域５４０に表示する。
【００５４】
以上、本発明の第２の実施の形態について説明した。この実施の形態によれば、コンテンツアクセス履歴データから抽出された分類項目を用いて、コンテンツアクセス履歴データ（ＵＲＬ）の分類や分析を行い、かつユーザの選択により様々な視点から分析をしやすくすることができる。
【００５５】
なお、本発明の各実施の形態に係るコンテンツ分類装置は、コンピュータ及びプログラムによって実現することができ、そのプログラムをコンピュータによる読み取り可能な記録媒体に記録することでその記録媒体によって提供することが可能である。また、そのプログラムを、ネットワークを介して提供することも可能である。
【００５６】
以上、本発明について好適な実施の形態の例を示したが、本発明は前記実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、前記実施の形態において、コンテンツはインターネット上で提供されるコンテンツを想定して説明したが、ＬＡＮ内で提供されるコンテンツであってもよい。その他についても、本発明の趣旨を逸脱しない範囲で種々に変更可能である。
【００５７】
【発明の効果】
請求項１および請求項２に係る発明によれば、明示的にコンテンツの分類情報を付与しない場合でも、自動的に様々なコンテンツの分類項目を抽出することができるため、管理者等が各ユーザのコンテンツアクセス履歴の分類や分析をする際に便宜となる。
【００５８】
請求項３ないし請求項７に係る発明によれば、明示的にコンテンツの分類情報を付与しない場合でも、自動的にコンテンツの分類項目を抽出することができる。また、コンテンツの内容や性質を示す略語や接頭語も分類項目として抽出し、これらの分類項目に基づいてコンテンツを分類するので、管理者等がコンテンツのアクセス履歴分析装置等を用いて各ユーザのコンテンツアクセス履歴の分析をする際、よりコンテンツの内容や性質に適合した分類や分析をしやすくなる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態であるコンテンツ分類装置が組み込まれるシステムの全体構成を例示した図である。
【図２】本発明の第１の実施の形態に係るコンテンツ分類装置の動作を示すフローチャートである。
【図３】本発明の各実施の形態に係るコンテンツアクセス履歴データを例示した図である。
【図４】本発明の各実施の形態に係る分割された図３のコンテンツアクセス履歴データを例示した図である。
【図５】本発明の各実施の形態に係る図４のコンテンツアクセス履歴データのＵＲＬのち、サーバ名から分類項目を抽出し、その項目によりＵＲＬを分類した結果を例示した図である。
【図６】本発明の各実施の形態に係る図５の分類結果に基づいて、ＵＲＬの分類項目を第１ディレクトリ階層のディレクトリ名から抽出し、この項目によりＵＲＬを分類した結果を例示した図である。
【図７】本発明の各実施の形態に係る図６の分類結果に基づいて、分類項目を第２ディレクトリ階層のディレクトリ名から抽出し、この項目によりＵＲＬを分類した結果を例示した図である。
【図８】本発明の各実施の形態に係る図７の分類結果に基づいて、第３ディレクトリ階層のディレクトリまでのＵＲＬから分類項目を抽出し、この項目によりＵＲＬを分類した結果を例示した図である。
【図９】本発明の各実施の形態に係る図８の分類結果に基づいて、分類項目を抽出し、この項目によりＵＲＬを分類した結果を例示した図である。
【図１０】本発明の各実施の形態に係る図４のコンテンツアクセス履歴データのＵＲＬから、分類項目となるファイルの拡張子を抽出し、この項目によりファイルを分類した結果を例示した図である。
【図１１】本発明の第２の実施の形態に係るコンテンツ分類装置が組み込まれるシステムの全体構成とコンテンツ分類装置の構成を示した図である。
【図１２】本発明の第２の実施の形態に係るコンテンツ分類装置の操作画面を例示した図である。
【符号の説明】
１００…コンテンツ分類装置
１１０…ＵＲＬ取得部
１２０…ＵＲＬ解析部

Claims

ネットワーク上のコンテンツを、コンピュータを用いて分類する方法において、
前記コンピュータが、
複数の前記コンテンツのネットワーク上の位置情報であるＵＲＬを取得するステップと、
前記ＵＲＬに記載された前記コンテンツを格納するサーバのドメイン名から、分類項目を抽出するステップと、
前記ＵＲＬに記載された前記コンテンツを格納するサーバにおける当該コンテンツの格納場所を示すディレクトリ名から、分類項目を抽出するステップと、
前記ＵＲＬに記載されたコンテンツのファイル名から、分類項目を抽出するステップと、
を実行することを特徴とするコンテンツ分類方法。
前記ファイル名に含まれる、ファイルの種類を表す拡張子から、分類項目を抽出するステップをさらに実行することを特徴とする請求項１に記載のコンテンツ分類方法。
前記ドメイン名から抽出された分類項目と、
前記ディレクトリ名から抽出された分類項目と、
前記ファイル名から抽出された分類項目と、
前記ファイルの拡張子から抽出された分類項目とのうち、
少なくともいずれか一つの分類項目に基づいて前記ＵＲＬの分類をすることを特徴とする請求項２に記載のコンテンツ分類方法。
前記複数のＵＲＬのそれぞれに記載された前記ドメイン名、前記ディレクトリ名、前記ファイル名または前記ファイルの拡張子の文字列の全部または一部が、各階層において一致する場合に、その文字列の全部または一部を分類項目として抽出することを特徴とする請求項１または請求項２のいずれか１項に記載のコンテンツ分類方法。
ネットワーク上のコンテンツを分類する装置であって、
複数のコンテンツのネットワーク上の位置情報であるＵＲＬを取得するＵＲＬ取得部と、
前記取得した複数のＵＲＬから、このコンテンツを分類するための項目を抽出し、前記複数のＵＲＬを分類するＵＲＬ解析部と、
を含むことを特徴とするコンテンツ分類装置。
コンピュータに、請求項１ないし請求項４のいずれか１項に記載の各ステップを実行させることを特徴とするコンテンツ分類用プログラム。
請求項６に記載のプログラムを記憶したことを特徴とするコンピュータにより読取り可能な記憶媒体。