JP2004341942A - コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体 - Google Patents

コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体 Download PDF

Info

Publication number
JP2004341942A
JP2004341942A JP2003139281A JP2003139281A JP2004341942A JP 2004341942 A JP2004341942 A JP 2004341942A JP 2003139281 A JP2003139281 A JP 2003139281A JP 2003139281 A JP2003139281 A JP 2003139281A JP 2004341942 A JP2004341942 A JP 2004341942A
Authority
JP
Japan
Prior art keywords
content
classification
url
item
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003139281A
Other languages
English (en)
Inventor
Hironori Takagi
浩則 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003139281A priority Critical patent/JP2004341942A/ja
Publication of JP2004341942A publication Critical patent/JP2004341942A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】明示的にコンテンツの分類情報を付与しない場合でも、コンテンツを分類できるようにする。
【解決手段】ネットワーク上のコンテンツを、コンピュータを用いて分類する方法において、前記コンピュータが、複数の前記コンテンツのネットワーク上の位置情報であるURLを取得し、前記URLに記載された前記コンテンツを格納するサーバのドメイン名から、分類項目を抽出し、前記URLに記載された前記コンテンツを格納するサーバにおける当該コンテンツの格納場所を示すディレクトリ名から、分類項目を抽出し、前記URLに記載されたコンテンツのファイル名から、分類項目を抽出する。そして、各階層において各文字列の一部が共通する場合にも、その文字の一部を分類項目として抽出する構成とした。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワーク上で提供されるコンテンツの分類方法、コンテンツの分類装置、コンテンツの分類用プログラムおよびコンテンツの分類用プログラムを記憶した記憶媒体に関する。
【0002】
【従来の技術】
従来、インターネット等の閲覧者に対し閲覧者の嗜好にあわせた情報を提供するため、各閲覧者がどのようなWebサイト(コンテンツ)を頻繁に利用しているかを分析するコンテンツアクセス履歴分析方法が検討されてきた。
このコンテンツアクセス履歴分析方法として、あらかじめ用意されたコンテンツの分類情報をコンテンツアクセス履歴分析装置等に登録してコンテンツを分類し、この分類結果を分析する方法があった(例えば特許文献1参照)。
【0003】
【特許文献1】
特開2002−163274号公報([0028]〜[0029])
【0004】
【発明が解決しようとする課題】
しかしながら、従来のコンテンツアクセス履歴分析方法では、あらかじめ管理者等がコンテンツの分類情報を作成する等して明示的に分類情報を付与し、これをコンテンツアクセス履歴分析ツール等に登録しなければ、履歴分析を行うことが困難であった。また、例えば、前記した分類情報に基づきコンテンツを分類した場合に、異なる分類に属することになったコンテンツ間の相関等の分析も行うことができない等、管理者(ユーザ)が様々な視点や分類項目によりコンテンツの分類や分析をすることが困難であった。
【0005】
そこで、本発明は、コンテンツアクセス履歴の分類や分析を行うための分類項目を自動的に抽出し、管理者(ユーザ)等が様々な分類項目によりコンテンツの分類や分析を行うことができるコンテンツ分類手段を提供することを目的とする。
【課題を解決するための手段】
【0006】
請求項1に係る発明は、ネットワーク上のコンテンツを、コンピュータを用いて分類する方法において、前記コンピュータが、複数の前記コンテンツのネットワーク上の位置情報であるURLを取得するステップと、前記URLに記載された前記コンテンツを格納するサーバのドメイン名から、分類項目を抽出するステップと、前記URLに記載された前記コンテンツを格納するサーバにおける当該コンテンツの格納場所を示すディレクトリ名から、分類項目を抽出するステップと、前記URLに記載されたコンテンツのファイル名から、分類項目を抽出するステップとを実行することを特徴とする。
【0007】
この方法によれば、管理者がコンテンツの分類情報を付与しない場合でも、コンテンツのURLに記載されたドメイン名(Webコンテンツのサーバ名)、ディレクトリ名およびファイル名を解析することにより、自動的にコンテンツの分類項目を抽出することができる。
【0008】
請求項2に係る発明は、請求項1に記載のコンテンツ分類方法において、前記ファイル名に含まれる、ファイルの種類を表す拡張子から、分類項目を抽出するステップをさらに実行することを特徴とする。
【0009】
この方法によれば、前記したコンテンツのURLに記載されたドメイン名(Webコンテンツのサーバ名)、ディレクトリ名、ファイル名のほかに、ファイルの拡張子からもコンテンツの分類項目を抽出する。したがって、コンテンツのファイルの種類や性質を示す項目も分類項目として抽出することができる。
【0010】
請求項3に係る発明は、請求項2に記載のコンテンツ分類方法において、前記ドメイン名から抽出された分類項目と、前記ディレクトリ名から抽出された分類項目と、前記ファイル名から抽出された分類項目と、前記ファイルの拡張子から抽出された分類項目とのうち、少なくともいずれか一つの分類項目に基づいて前記URLの分類をすることを特徴とする。
【0011】
この方法によれば、コンテンツのURLに記載されたドメイン名(Webコンテンツのサーバ名)、ディレクトリ名、ファイル名およびファイルの拡張子からコンテンツの分類項目を抽出し、この項目に基づくコンテンツ(URL)の分類結果が示される。
【0012】
請求項4に係る発明は、請求項1または請求項2のいずれか1項に記載のコンテンツ分類方法において、前記複数のURLのそれぞれに記載された前記ドメイン名、前記ディレクトリ名、前記ファイル名または前記ファイルの拡張子の文字列の全部または一部が、各階層において一致する場合に、その文字列の全部または一部を分類項目として抽出することを特徴とする。
【0013】
この方法によれば、複数のURLに記載された、ドメイン名、ディレクトリ名、ファイル名を示す単語の先頭の文字列のみが一致(共通)する場合も分類項目として抽出することにより、単語全体にのみ着目した場合には抽出されない、コンテンツの内容や性質を示す略語や接頭語も分類項目として抽出することができる。
【0014】
また、「各階層において一致する」とは、例えば複数のURLのうち、URLに記載されたドメイン名同士が共通する場合や、第1ディレクトリ階層(サーバの直下のディレクトリ)のディレクトリ名同士が共通する場合や、第2ディレクトリ階層(第1ディレクトリ階層の下のディレクトリ)のディレクトリ名同士が共通する場合や、ファイル名同士が共通する場合のことをいう。
【0015】
請求項5に係る発明は、ネットワーク上のコンテンツを分類する装置であって、複数のコンテンツのネットワーク上の位置情報であるURLを取得するURL取得部と、前記取得した複数のURLから、このコンテンツを分類するための項目を抽出し、前記複数のURLを分類するURL解析部とを含むことを特徴とする。
【0016】
請求項6に係る発明は、コンピュータにインストールされることにより、請求項1ないし請求項4のいずれか1項に記載のコンテンツ分類方法を実行することを特徴とする。
【0017】
請求項7に係る発明は、コンピュータにより読取り可能な記憶媒体であって、請求項6に記載のプログラムを記憶したことを特徴とする。
【0018】
以上によれば、管理者がコンテンツの分類情報を付与しない場合でも、コンテンツのURLに記載されたドメイン名(Webコンテンツのサーバ名)、ディレクトリ名、ファイル名およびファイルの拡張子から、自動的にコンテンツの分類項目を抽出し、この項目に基づいてコンテンツを分類することができる。
また、ドメイン名、ディレクトリ名、ファイル名を示す単語の先頭の文字列のみが共通する場合のほかに、ファイルの種類を示す拡張子が共通する場合も分類項目として抽出し、ドメイン名、ディレクトリ名、ファイル名の単語全体にのみ着目した場合には抽出することができない、コンテンツの内容や性質を示す略語や接頭語も分類項目として抽出できる。
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して詳細に説明する。
【0019】
≪第1の実施の形態≫
図1は、本発明の第1の実施の形態であるコンテンツ分類装置100が組み込まれるシステムの全体構成とコンテンツ分類装置400の構成を示した図である。図1に示されるように、コンテンツ分類装置100は、ネットワーク600を介して端末装置300と接続されている。
ここで、コンテンツとは、ネットワーク上のサーバに格納されているテキスト文書やグラフィック等の内容を指す。
ネットワーク600は、端末装置300からデータが受信できるネットワークであればよく、LAN(Local Area Network)やインターネットであってもよい。端末装置300は、ネットワークに接続可能な情報端末であれば、PC(Personal Computer)のほか、PDA(Personal Digital Assistant)であってもよい。
【0020】
コンテンツ分類装置100は、ネットワーク600を介して、端末装置300から複数のURL(Uniform Resource Locator)が記載されたコンテンツアクセス履歴を受信する。そして、このコンテンツアクセス履歴に記載されたURLから分類項目が抽出し、その分類項目が抽出される過程、すなわち各分類項目とその項目に基づくコンテンツ(URL)の分類結果(以下、分類結果とする)を、アクセス履歴分析装置200へ出力する。
その後、アクセス履歴分析装置200は、この分類結果を読み込み、各端末装置300のコンテンツアクセス履歴の分析を行う。
【0021】
(URL)
URL(Uniform Resource Locator)とは、ネットワーク上のコンテンツの位置を指し示すものであり、プロトコル名、ドメイン名(サーバ名)、ディレクトリ名、ファイル名から構成される。
【0022】
以下に、URLを例示する。
http://www.aa*.com/stream/news/index.html
「http」は、プロトコル名であり、前記した「http://www.aa.com/stream/index.html」のコンテンツへアクセスするためのプロトコル(通信規約)を示す。「www.aa*.com」は、サーバ名(請求項におけるドメイン名)であり、「index.html」のコンテンツを格納するサーバの名前を示す。サーバ名は、「aa*.com」というドメイン名を含んで構成される。「stream」と「news」は、ディレクトリ名であり、「www.aa*.com」サーバ内におけるコンテンツの格納場所を示す。
【0023】
なお、「stream」は、「www.aa*.com」というサーバの直下のディレクトリなので、第1ディレクトリ階層のディレクトリと呼ばれる。サーバとディレクトリとは「/」で区切られている。また、「news」は、「stream」のディレクトリの下層(配下)のディレクトリなので第2ディレクトリ階層のディレクトリと呼ばれる。異なる階層のディレクトリは「/」で区切られる。「index.html」は、このコンテンツのファイル名を示す。ファイル名とディレクトリは「/」で区切られる。
【0024】
したがって、前記したURLの示すコンテンツは、HTTP(HyperText Transfer Protocol)で送受信されるコンテンツで、「www.aa*.com」というサーバの、「stream」というディレクトリの中にある「news」というディレクトリの中の、「index.html」というファイルであることを示している。
なお、ファイル名「index.html」の「.html」は拡張子であり、そのファイルの種類を示す。ここで、「.html」は、HTML(HyperText Markup Language)形式のファイルであることを示している。
【0025】
次に、コンテンツ分類装置100の説明をする。コンテンツ分類装置100は、前記したとおり、ネットワーク600を介して端末装置300と接続されている。コンテンツ分類装置100は、ネットワーク600を介して、端末装置300から複数のURLが記載されたコンテンツアクセス履歴を取得する。そして、このコンテンツアクセス履歴に記載されたURLの分類結果を、アクセス履歴分析装置200へ出力する機能を有する。
【0026】
したがって、コンテンツ分類装置100は、ネットワーク600を介して、端末装置300からコンテンツアクセス履歴を取得するURL取得部110と、このコンテンツアクセス履歴のURLに記載された内容から、コンテンツ(URL)の分類項目を抽出し、その項目に基づくURLの分類を行うURL解析部120と、その分類結果を出力する出力部130とを含んで構成される。
【0027】
次に、コンテンツ分類装置100の動作を図1、図3ないし図10を参照しつつ、図2のフローチャートに沿って説明する。
【0028】
(ステップS101)
ステップS101では、URL取得部110が、端末装置300からコンテンツアクセス履歴データ(URL群)を取得する。
図3は、コンテンツアクセス履歴データを例示したものである。図3に例示されるように、コンテンツアクセス履歴データには、端末装置300がアクセスしたコンテンツのURLが列挙されている。例えば、図3の場合、端末装置300のユーザは、
「http://www.aa*.com/stream/news/sports001/soc001_001.asx」
「http://www.aa*.com/stream/news/sports001/soc001_002.asx」
「http://www.aa*.com/stream/news/sports001/soc001_003.asx」
・・・・・
のコンテンツにアクセスしたことを示している。
なお、このコンテンツアクセス履歴データは、端末装置300の利用者を示す利用者識別子や、各コンテンツのアクセス時間等を含んで構成されていてもよい。
【0029】
(ステップS102)
ステップS102では、URL解析部120が、ステップS101で取得したコンテンツアクセス履歴データの各URLを、サーバ名を示す部分と、ディレクトリ名を示す部分と、ファイル名を示す部分とに分割する。
【0030】
図4は、分割された図3のコンテンツアクセス履歴データを例示した図である。図4に例示されるように、例えば
「http://www.aa*.com/stream/news/sports001/soc001_001.asx」
というURLは、サーバ名を示す「www.aa*.com」と、ディレクトリ名を示す「stream」と「news」と「sports001」と、ファイル名を示す「soc001_001.asx」とに分割される。
【0031】
(ステップS103)
ステップS103では、URL解析部120が、ステップS102で分割したURLのうちサーバ名(ドメイン名)から、コンテンツの分類項目を抽出する。
【0032】
図5は、図4のコンテンツアクセス履歴データのURLのち、サーバ名から分類項目を抽出し、その項目によりURLを分類した結果を例示した図である。
図5に例示されるように、図4のコンテンツアクセス履歴データから、「www.aa*.com」と「www.bb*.com」とが分類項目として抽出され、「www.aa*.com」を含むURL群と「www.bb*.com」を含むURL群とに分類される。
なお、括弧内の数字は、その項目に分類されるURLの数を示す。「www.aa*.com(13)」は、「www.aa*.com」に分類されるURLの数は13個であることを示し、「www.bb*.com(3)」は、「www.bb*.com」に分類されたURLの数は3個であることを示す。
【0033】
(ステップS104)
ステップS104では、URL解析部120が、ステップS103の分類結果に基づき、コンテンツ(URL)のディレクトリ名から分類項目を抽出する。コンテンツのファイルが複数階層のディレクトリの下にある場合には、サーバの直下のディレクトリ(第1ディレクトリ階層)から順に分類項目を抽出する。
【0034】
図6は、図5の分類結果に基づいて、URLの分類項目を第1ディレクトリ階層のディレクトリ名から抽出し、この項目によりURLを分類した結果を例示した図である。
図6に例示されるように「www.aa*.com」配下の第1ディレクトリ階層のディレクトリ名から「stream」という項目が抽出され、この項目に基づき、「www.aa*.com」配下のURLが分類されている。「www.bb*.com」配下の第1ディレクトリ階層のディレクトリ名から「www」という項目が抽出され、この項目に基づき「www.bb*.com」配下のURLが分類されている。
【0035】
つまり、図6の
www.aa*.com(13) [stream]
+ stream(13) −
という表記のうち、「[stream]」は、「www. aa*.com」配下のURLから抽出された分類項目が「stream」であることを示す。
「+ stream(13)」は、この「stream」というディレクトリ名を含むURLが、そのすぐ上に書かれた階層(「www.aa*.com(13)」)から13個抽出された、すなわち分類されたことを示す。
なお、「−」は、「+ stream(13)」配下のURLから項目の抽出(分類)がまだ終了していないことを示す。
【0036】
次に、第2ディレクトリ階層のURLから分類項目を抽出し、第2ディレクトリ階層の配下のURLを分類する。
【0037】
図7は、図6の分類結果に基づいて、分類項目となる単語(文字列)を第2階ディレクトリ階層のディレクトリ名から抽出し、この項目によりURLを分類した結果を例示した図である。
図7に例示されるように、「+ stream(13)」配下の第2ディレクトリ階層のディレクトリ名からは、先頭の一部の文字が共通する「anima」という項目が抽出され、先頭から終わりまでが一致する単語(文字列)として「news」という項目が抽出されている。そして、「anima」と「news」という項目によりURLが分類されている。また、「anima」を先頭に含む単語として「animation」と「animal」という項目が抽出され、この項目によりURLが分類されている。
なお、「[”anima”−tion,”anima”−l]」は、「anima」を先頭に含むディレクトリから抽出された分類項目は「animation」と「animal」であることと、この2つの分類項目は「anima」という文字列が共通していることを示す。
また、「www」配下の第2階層のディレクトリ名からは、「demo」という項目が抽出され、この項目によりURLが分類されている。
【0038】
URL解析部120が、同様の動作をURLのすべてのディレクトリ階層について行うと、ステップS104は終了する。
【0039】
図8は、図7の分類結果に基づいて、第3ディレクトリ階層のディレクトリまでのURLから分類項目を抽出し、この項目によりURLを分類した結果を例示した図である。
図8に例示されるように、コンテンツアクセス履歴データのURLのディレクトリ名から抽出された分類項目の文字列が[]内に列挙され、その分類項目の文字列でURLが分類された結果が示される。また、各分類項目がどのURLやディレクトリ等から抽出されたかも示される。
【0040】
(ステップS105)
ステップS105では、URL解析部120が、ステップS104の分類結果に基づき、コンテンツ(URL)のファイル名から分類項目を抽出し、この項目によりURLを分類する。図9は、図8の分類結果に基づいて、分類項目を抽出し、この項目によりURLを分類した結果を例示した図である。
【0041】
図9の領域901の、
+ young001(2) [yng001]
*** yng001 (2) [ ]:(”yng001”_001.asx,”yng001”_002.asx)
という表記は、ディレクトリ名「young001」配下の2個のURLから抽出された分類項目は「yng001」であることを示す。
そして、「***yng001 (2)」は、先頭に「yng001」という文字列を含むURL(ファイル名)が2個分類されたことを示す。
「[ ]」は、「**yng001」配下のURLからは、分類項目が抽出できなかったことを示す。「(”yng001”_001.asx,”yng001”_002.asx)」は、この分類項目に分類されたファイル名が「yng001_001.asx」と「yng001_002.asx」であることと、この2つのファイルは「yng001」という文字列が共通していることを示す。
【0042】
(ステップS106)
ステップS106では、URL解析部120が、ステップS101で取得したコンテンツアクセス履歴データの各URLに記載されたファイル名から、ファイルの拡張子を分割する。
【0043】
例えば、
soc001_001.asx
というファイル名は、「soc001_001」と、拡張子を示す「.asx」とに分割される。
【0044】
(ステップS107)
ステップS107では、URL解析部120が、ステップS106でURLから分割した拡張子を分類項目として抽出し、この項目に基づいてURLに記載されたファイルの分類を行う。
【0045】
図10は、図4のコンテンツアクセス履歴データのURLから、分類項目となるファイルの拡張子を抽出し、この項目によりファイルを分類した結果を例示した図である。
図10に例示されるように、図4のコンテンツアクセス履歴データのファイル名から「.asx」と「.html」とが分類項目として抽出され、これに基づき「.asx」を含むファイル群と、「.html」を含むファイル群とに分類される。
なお、()内は、ステップS106までと同様に、その分類項目に該当するファイル名を示している。
【0046】
(ステップS108)
ステップS108では、出力部130がステップS102からステップS107で作成された分類結果を出力する。
【0047】
以上、第1の実施の形態における、コンテンツ分類装置100の動作を説明した。この実施の形態によれば、コンテンツアクセス履歴データのURLをサーバ名(ドメイン名)やディレクトリ名やファイル名から、自動的に分類項目を抽出するとともに、各分類項目に基づいたコンテンツのURLの分類結果を出力することができる。
また、サーバ名(ドメイン名)やディレクトリ名の単語のみに着目した場合には抽出することができない、コンテンツの内容や性質を示す略語や接頭語、例えば「***soc001」、「***swm001」、「***eco001」、「***kid001」、「***yng001」、「***moviedemo」等を分類項目として抽出することができる。また、「.html」(html形式のファイル)、「.asx」(ストリーミング配信用のファイル)といったファイルの種類も分類項目として抽出することができる。
【0048】
なお、これらの分類項目の抽出後、コンテンツ分類装置100は、「***soc001」は、サッカーに関するコンテンツ、「***swm001」は、水泳に関するコンテンツ、「***eco001」は、経済に関するコンテンツ、「***kid001」は、子供に関するコンテンツ、「***yng001」は、若者に関するコンテンツ、「***moviedemo」は、映画の予告編に関するコンテンツといったように略語や接頭語に対して、その語が意味する内容を記憶する辞書を保持し、これにもとづく分類を行ってもよい。
【0049】
≪第2の実施の形態≫
次に、図11を用いて本発明の第2の実施の形態を説明する。図11は、本発明の第2の実施の形態であるコンテンツ分類装置が組み込まれるシステムの全体構成とコンテンツ分類装置の構成を示した図である。
なお、第1実施の形態と同様の構成要素は、同じ符号を付して説明を省略する。
【0050】
第2の実施の形態は、コンテンツ分類装置が、コンテンツアクセス履歴を分析する機能を有していることを特徴とする。
図11に示されるように、コンテンツ分類装置400は、URL解析部120がコンテンツアクセス履歴データから分類項目を抽出し、この項目により分類された結果を記憶するURL解析結果記憶部430と、この分類結果を用いてコンテンツアクセス履歴の分析を行うアクセス履歴分析部440と、ユーザからの各種入力を受け付ける入力部450と、コンテンツアクセス履歴データの分析結果等を表示する表示部460とを含んで構成される。
【0051】
URL解析結果記憶部430に記憶される分析結果は、前記した第1の実施の形態で説明した図9のURLの分類結果のデータと、図10のファイルの分類結果のデータとを組み合わせたものである。
【0052】
次に、アクセス履歴分析部440の動作を説明する。アクセス履歴分析部440は、ユーザにより入力されたコンテンツアクセス履歴データの選択を受け付け、URL解析結果記憶部430から、コンテンツアクセス履歴データのURLの記載に基づいて抽出された分類項目と、この分類項目により分類されたURLとを取得する。
【0053】
図12は、コンテンツ分類装置400の操作画面を例示した図である。図12に示されるように、領域500には、ユーザが選択したコンテンツアクセス履歴データのURLから抽出された分類項目と、この分類項目により分類されたURLとが示される。
例えば、ユーザが、コンテンツアクセス履歴データから「anima」を含むストリーミングファイル(拡張子「.asx」を含む)を分類し、表示させたい場合には、領域510の「anima」をクリックし、領域530の「asxファイル」のチェックボックスにチェックを入れる。このとき、この入力を受け付けたコンテンツ分類装置400が、コンテンツアクセス履歴データから「anima」を含みかつ拡張子「.asx」を含むURLを検索し、その検索したURLを領域540に表示する。
【0054】
以上、本発明の第2の実施の形態について説明した。この実施の形態によれば、コンテンツアクセス履歴データから抽出された分類項目を用いて、コンテンツアクセス履歴データ(URL)の分類や分析を行い、かつユーザの選択により様々な視点から分析をしやすくすることができる。
【0055】
なお、本発明の各実施の形態に係るコンテンツ分類装置は、コンピュータ及びプログラムによって実現することができ、そのプログラムをコンピュータによる読み取り可能な記録媒体に記録することでその記録媒体によって提供することが可能である。また、そのプログラムを、ネットワークを介して提供することも可能である。
【0056】
以上、本発明について好適な実施の形態の例を示したが、本発明は前記実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、前記実施の形態において、コンテンツはインターネット上で提供されるコンテンツを想定して説明したが、LAN内で提供されるコンテンツであってもよい。その他についても、本発明の趣旨を逸脱しない範囲で種々に変更可能である。
【0057】
【発明の効果】
請求項1および請求項2に係る発明によれば、明示的にコンテンツの分類情報を付与しない場合でも、自動的に様々なコンテンツの分類項目を抽出することができるため、管理者等が各ユーザのコンテンツアクセス履歴の分類や分析をする際に便宜となる。
【0058】
請求項3ないし請求項7に係る発明によれば、明示的にコンテンツの分類情報を付与しない場合でも、自動的にコンテンツの分類項目を抽出することができる。また、コンテンツの内容や性質を示す略語や接頭語も分類項目として抽出し、これらの分類項目に基づいてコンテンツを分類するので、管理者等がコンテンツのアクセス履歴分析装置等を用いて各ユーザのコンテンツアクセス履歴の分析をする際、よりコンテンツの内容や性質に適合した分類や分析をしやすくなる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態であるコンテンツ分類装置が組み込まれるシステムの全体構成を例示した図である。
【図2】本発明の第1の実施の形態に係るコンテンツ分類装置の動作を示すフローチャートである。
【図3】本発明の各実施の形態に係るコンテンツアクセス履歴データを例示した図である。
【図4】本発明の各実施の形態に係る分割された図3のコンテンツアクセス履歴データを例示した図である。
【図5】本発明の各実施の形態に係る図4のコンテンツアクセス履歴データのURLのち、サーバ名から分類項目を抽出し、その項目によりURLを分類した結果を例示した図である。
【図6】本発明の各実施の形態に係る図5の分類結果に基づいて、URLの分類項目を第1ディレクトリ階層のディレクトリ名から抽出し、この項目によりURLを分類した結果を例示した図である。
【図7】本発明の各実施の形態に係る図6の分類結果に基づいて、分類項目を第2ディレクトリ階層のディレクトリ名から抽出し、この項目によりURLを分類した結果を例示した図である。
【図8】本発明の各実施の形態に係る図7の分類結果に基づいて、第3ディレクトリ階層のディレクトリまでのURLから分類項目を抽出し、この項目によりURLを分類した結果を例示した図である。
【図9】本発明の各実施の形態に係る図8の分類結果に基づいて、分類項目を抽出し、この項目によりURLを分類した結果を例示した図である。
【図10】本発明の各実施の形態に係る図4のコンテンツアクセス履歴データのURLから、分類項目となるファイルの拡張子を抽出し、この項目によりファイルを分類した結果を例示した図である。
【図11】本発明の第2の実施の形態に係るコンテンツ分類装置が組み込まれるシステムの全体構成とコンテンツ分類装置の構成を示した図である。
【図12】本発明の第2の実施の形態に係るコンテンツ分類装置の操作画面を例示した図である。
【符号の説明】
100…コンテンツ分類装置
110…URL取得部
120…URL解析部

Claims (7)

  1. ネットワーク上のコンテンツを、コンピュータを用いて分類する方法において、
    前記コンピュータが、
    複数の前記コンテンツのネットワーク上の位置情報であるURLを取得するステップと、
    前記URLに記載された前記コンテンツを格納するサーバのドメイン名から、分類項目を抽出するステップと、
    前記URLに記載された前記コンテンツを格納するサーバにおける当該コンテンツの格納場所を示すディレクトリ名から、分類項目を抽出するステップと、
    前記URLに記載されたコンテンツのファイル名から、分類項目を抽出するステップと、
    を実行することを特徴とするコンテンツ分類方法。
  2. 前記ファイル名に含まれる、ファイルの種類を表す拡張子から、分類項目を抽出するステップをさらに実行することを特徴とする請求項1に記載のコンテンツ分類方法。
  3. 前記ドメイン名から抽出された分類項目と、
    前記ディレクトリ名から抽出された分類項目と、
    前記ファイル名から抽出された分類項目と、
    前記ファイルの拡張子から抽出された分類項目とのうち、
    少なくともいずれか一つの分類項目に基づいて前記URLの分類をすることを特徴とする請求項2に記載のコンテンツ分類方法。
  4. 前記複数のURLのそれぞれに記載された前記ドメイン名、前記ディレクトリ名、前記ファイル名または前記ファイルの拡張子の文字列の全部または一部が、各階層において一致する場合に、その文字列の全部または一部を分類項目として抽出することを特徴とする請求項1または請求項2のいずれか1項に記載のコンテンツ分類方法。
  5. ネットワーク上のコンテンツを分類する装置であって、
    複数のコンテンツのネットワーク上の位置情報であるURLを取得するURL取得部と、
    前記取得した複数のURLから、このコンテンツを分類するための項目を抽出し、前記複数のURLを分類するURL解析部と、
    を含むことを特徴とするコンテンツ分類装置。
  6. コンピュータに、請求項1ないし請求項4のいずれか1項に記載の各ステップを実行させることを特徴とするコンテンツ分類用プログラム。
  7. 請求項6に記載のプログラムを記憶したことを特徴とするコンピュータにより読取り可能な記憶媒体。
JP2003139281A 2003-05-16 2003-05-16 コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体 Pending JP2004341942A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003139281A JP2004341942A (ja) 2003-05-16 2003-05-16 コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003139281A JP2004341942A (ja) 2003-05-16 2003-05-16 コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体

Publications (1)

Publication Number Publication Date
JP2004341942A true JP2004341942A (ja) 2004-12-02

Family

ID=33528420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003139281A Pending JP2004341942A (ja) 2003-05-16 2003-05-16 コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体

Country Status (1)

Country Link
JP (1) JP2004341942A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331089A (ja) * 2005-05-26 2006-12-07 Toshiba Corp Webページから時系列データを生成する方法及び装置
JP2008537809A (ja) * 2005-03-04 2008-09-25 チョンヌン インコーポレイテッド ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
JP2008538021A (ja) * 2005-03-04 2008-10-02 チョンヌン インコーポレイテッド 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供サーバー、方法及びシステム
EP2083363A1 (en) 2008-01-07 2009-07-29 Funai Electric Co., Ltd. Content display apparatus for displaying media according to media categories
JP2010033377A (ja) * 2008-07-29 2010-02-12 Yahoo Japan Corp Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム
JP2010123000A (ja) * 2008-11-20 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> Webページグループ抽出方法及び装置及びプログラム
JP2011248762A (ja) * 2010-05-28 2011-12-08 Ntt Docomo Inc 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム
JP2014119838A (ja) * 2012-12-13 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> ユーザ行動可視化情報付与装置及び方法及びプログラム及びアクセスログ分析装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008537809A (ja) * 2005-03-04 2008-09-25 チョンヌン インコーポレイテッド ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
JP2008538021A (ja) * 2005-03-04 2008-10-02 チョンヌン インコーポレイテッド 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供サーバー、方法及びシステム
JP2011146059A (ja) * 2005-03-04 2011-07-28 Chutnoon Inc 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法
JP4769822B2 (ja) * 2005-03-04 2011-09-07 チョンヌン インコーポレイテッド ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
JP2006331089A (ja) * 2005-05-26 2006-12-07 Toshiba Corp Webページから時系列データを生成する方法及び装置
EP2083363A1 (en) 2008-01-07 2009-07-29 Funai Electric Co., Ltd. Content display apparatus for displaying media according to media categories
JP2010033377A (ja) * 2008-07-29 2010-02-12 Yahoo Japan Corp Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム
JP2010123000A (ja) * 2008-11-20 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> Webページグループ抽出方法及び装置及びプログラム
JP2011248762A (ja) * 2010-05-28 2011-12-08 Ntt Docomo Inc 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム
JP2014119838A (ja) * 2012-12-13 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> ユーザ行動可視化情報付与装置及び方法及びプログラム及びアクセスログ分析装置

Similar Documents

Publication Publication Date Title
CN109033358B (zh) 新闻聚合与智能实体关联的方法
Marine-Roig et al. A detailed method for destination image analysis using user-generated content
US8694680B2 (en) Methods and apparatus for enabling use of web content on various types of devices
KR101409673B1 (ko) 지속 저장 포탈
CN108052632B (zh) 一种网络信息获取方法、系统及企业信息搜索系统
US20070288477A1 (en) Information processing apparatus, information processing system, information processing method, and computer program
CN108090104B (zh) 用于获取网页信息的方法和装置
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
JP2005535039A (ja) 地理的なテキスト検索システムを備えたデスクトップクライアントとの対話
CN108021598B (zh) 页面抽取模板匹配方法、装置及服务器
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
CN106874502A (zh) 一种视频搜索的方法、装置及终端
US7975218B2 (en) Apparatus and method for forming document group structure data and storage medium
JP2003271584A (ja) 文書管理装置、クライアント装置、文書管理システム、プログラム及び記憶媒体
WO2005121982A1 (ja) 情報提供システム、方法、プログラム、情報通信端末、および情報表示切り替えプログラム
JP2004341942A (ja) コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体
US20090313558A1 (en) Semantic Image Collection Visualization
JP4728063B2 (ja) 興味情報生成装置、興味情報生成方法および興味情報生成プログラム
JP2007122398A (ja) フラグメントの同一性判定方法およびコンピュータプログラム
CN110955855B (zh) 一种信息拦截的方法、装置及终端
KR101248186B1 (ko) 검색 결과 페이지에서 개별 컨텐츠를 이용하여 블로그를 생성하는 검색 시스템 및 검색 방법
JP2012501490A (ja) コンテンツの参照から標準の文書識別子を生成するための方法および装置
JP4189387B2 (ja) 知識検索システム、知識検索方法及びプログラム
JP4751430B2 (ja) 最新情報提供方法及びそのシステム