JP2011248762A - 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム - Google Patents

分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム Download PDF

Info

Publication number
JP2011248762A
JP2011248762A JP2010123275A JP2010123275A JP2011248762A JP 2011248762 A JP2011248762 A JP 2011248762A JP 2010123275 A JP2010123275 A JP 2010123275A JP 2010123275 A JP2010123275 A JP 2010123275A JP 2011248762 A JP2011248762 A JP 2011248762A
Authority
JP
Japan
Prior art keywords
search
content
classification
category
history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010123275A
Other languages
English (en)
Other versions
JP2011248762A5 (ja
Inventor
Jun Sasaki
純 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2010123275A priority Critical patent/JP2011248762A/ja
Publication of JP2011248762A publication Critical patent/JP2011248762A/ja
Publication of JP2011248762A5 publication Critical patent/JP2011248762A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】コンテンツを、当該コンテンツの内容によらないで分類できるようにする。
【解決手段】分類情報格納部330は、カテゴリが既知のコンテンツに対応するカテゴリの情報を格納する。履歴受信部310は、コンテンツの検索履歴を受信する。検索履歴は、コンテンツを検索するために用いられた検索語を含む。コンテンツ情報格納部320は、検索履歴を格納するとともに、コンテンツが検索された頻度を検索語毎に集計し、その集計結果を格納する。分類部340は、分類情報格納部330に格納された情報と、コンテンツ情報格納部320に格納された情報とを用いて、カテゴリが未知のコンテンツを分類する。分類部340は、カテゴリが未知のコンテンツの検索に用いられた検索語とカテゴリが既知のコンテンツの検索に用いられた検索語(及びそのカテゴリ)とに基づいて、カテゴリが未知のコンテンツを分類する。
【選択図】図3

Description

本発明は、コンテンツを分類し、又は検索するための技術に関する。
インターネットを介して所望のコンテンツを得るために、サーチエンジン(検索エンジン)が利用されている。Webページの検索は、例えば、ユーザが検索語(キーワード)を入力し、その検索語を文字列として含んでいるWebページをユーザに検索結果として提示する、といった手順で行われる。なお、検索語に対応するWebページが複数ある場合には、サーチエンジン毎の規則やアルゴリズムに従って順位付けが行われる。このような検索手法は、「キーワード検索」と呼ばれている。また、キーワード検索のほかにも、あらかじめ設定されたカテゴリに従ってWebサイトやWebページを検索する、いわゆる「カテゴリ検索」も知られている。
特許文献1には、検索に必要なキーワードを抽出するための技術が記載されている。また、特許文献2、3には、形態素解析等の自然言語処理を用いて文書を分類するための技術が記載されている。
特開2002−149683号公報 特開平2−158871号公報 特開平11−328211号公報
ところで、コンテンツを検索する場合には、1語や2語の検索語で検索することも多い。この傾向は、ユーザが文字入力に不慣れな場合や、文字入力に特化していないデバイス(例えば、携帯電話機など)で文字を入力する場合に、より顕著である。検索語そのものの情報量が少ない場合には、ユーザが意図していないコンテンツまでもが検索結果に含まれてしまうことも多い。
また、カテゴリ検索には、あらかじめ分類されているコンテンツでなければ検索結果として利用できないという問題があり、コンテンツの頻繁な追加や更新に対応することが困難である。さらに、自然言語処理のように、コンテンツの内容そのものを解析する場合には、その処理に時間を要するだけでなく、一つ一つのコンテンツの情報量(文字数)が増えるほど処理時間も増加してしまう。
そこで、本発明は、コンテンツを、当該コンテンツの内容によらないで分類できるようにすることを目的とする。
本発明の一態様に係る分類装置は、所定のカテゴリに従って分類された第1のコンテンツと、当該コンテンツを検索するために用いられた検索語とを対応付けた検索履歴を取得する第1の取得部と、前記カテゴリが未知である第2のコンテンツを検索するために用いられた検索語を取得する第2の取得部と、前記第1の取得部により取得された検索履歴と前記第2の取得部により取得された検索語とを比較することによって、前記第2のコンテンツを前記カテゴリに従って分類する分類部とを備える。
好ましい態様において、前記分類部は、前記検索語毎の検索された頻度に基づいて前記第2のコンテンツを分類する。
さらに好ましい態様において、前記分類部は、検索された頻度に応じたスコアを前記検索語毎に算出し、当該スコアを用いて前記第2のコンテンツを分類する。
他の好ましい態様において、前記分類装置は、URL(Uniform Resource Locator)の少なくとも一部が共通する前記第1のコンテンツ又は前記第2のコンテンツどうしが同一のカテゴリに分類されることを特徴とする。
本発明の他の態様に係るコンテンツ検索システムは、前記分類装置と、ユーザにより入力された検索語に対応するコンテンツを当該ユーザに提示する検索装置とを有し、前記検索装置が、前記入力された検索語に対応するコンテンツを前記カテゴリ毎に分類した態様で提示するための提示部を備える。
本発明の他の態様に係るコンテンツ分類方法は、所定のカテゴリに従って分類された第1のコンテンツと、当該コンテンツを検索するために用いられた検索語とを対応付けた検索履歴を取得するステップと、前記カテゴリが未知である第2のコンテンツを検索するために用いられた検索語を取得するステップと、前記取得された検索履歴と前記取得された検索語とを比較することによって、前記第2のコンテンツを前記カテゴリに従って分類するステップとを有する。
本発明の他の態様に係るコンテンツ検索方法は、所定のカテゴリに従って分類された第1のコンテンツと、当該コンテンツを検索するために用いられた検索語とを対応付けた検索履歴を取得するステップと、前記カテゴリが未知である第2のコンテンツを検索するために用いられた検索語を取得するステップと、前記取得された検索履歴と前記取得された検索語とを比較することによって、前記第2のコンテンツを前記カテゴリに従って分類するステップと、入力された検索語に対応する前記第1のコンテンツ又は前記第2のコンテンツを前記カテゴリ毎に分類した態様でユーザに提示するステップとを有する。
本発明の他の態様に係るプログラムは、コンピュータに、所定のカテゴリに従って分類された第1のコンテンツと、当該コンテンツを検索するために用いられた検索語とを対応付けた検索履歴を取得するステップと、前記カテゴリが未知である第2のコンテンツを検索するために用いられた検索語を取得するステップと、前記取得された検索履歴と前記取得された検索語とを比較することによって、前記第2のコンテンツを前記カテゴリに従って分類するステップとを実行させるためのものである。
本発明によれば、コンテンツを、当該コンテンツの内容によらないで分類することが可能である。
本発明の一実施形態の全体構成を示す図 コンテンツ検索システムのハードウェア構成を示すブロック図 分類装置の機能的構成を示す機能ブロック図 検索履歴情報のデータ構造を例示する図 頻度情報のデータ構造を例示する図 分類情報のデータ構造を例示する図 分類装置によるコンテンツの分類方法を示すフローチャート 検索装置によるコンテンツの検索方法を示すフローチャート 分類装置及び記憶装置の構成(変形例)を示すブロック図
[実施形態]
図1は、本発明の一実施形態の全体構成を示す図である。本実施形態のコンテンツ検索システム110は、ユーザがコンテンツを検索するために用いられるものであり、複数のユーザのクライアント端末120によってアクセスされる。クライアント端末120は、通信ネットワーク130を介してコンテンツ検索システム110にアクセスするコンピュータ装置であり、例えば、パーソナルコンピュータ、携帯電話機、スマートフォンなどである。クライアント端末120は、通信ネットワーク130と通信を行う手段と、文字入力等の操作を受け付ける手段と、検索結果を表示する手段とを少なくとも備える。通信ネットワーク130は、インターネット、イントラネット、移動体通信網などであり、また、これらを組み合わせた複合的なネットワークであってもよい。
本実施形態において、コンテンツとは、ユーザが視覚的に閲覧可能な情報を含むひとまとまりのデータをいい、ここでは、文字コード(ASCII、Unicode、Shift_JIS等)によって記述された文字列を少なくとも含むものとする。コンテンツは、例えば、HTML(HyperText Markup Language)形式のWebページであるが、PDF(Portable Document Format)データをはじめ、通信ネットワーク130を介してやりとりが可能なさまざまなデータを含み得る。ここでいうWebページは、あらかじめ記憶されているものに限らず、CGI(Common Gateway Interface)などによって動的に生成されたものであってもよい。コンテンツは、通信ネットワーク130に接続された図示せぬWebサーバに記憶されている。また、コンテンツは、音楽データのような視覚的なデータ以外のデータを含んでいてもよい。
コンテンツ検索システム110は、検索装置111と、分類装置112とを備える。検索装置111は、サーチエンジンの機能を有し、クライアント端末120から受け付けた検索クエリに応じた検索結果をクライアント端末120に提示する。検索クエリは、コンテンツを検索するために用いられる1又は複数の検索語を少なくとも含む。また、検索クエリは、クライアント端末120(又はそのユーザ)を識別する情報や、検索語以外の検索条件(検索の態様を指定する条件。前方一致検索、アンド検索など。)を含んでもよい。検索結果は、検索語に対応するコンテンツにリンクするURLを含んだWebページによってクライアント端末120に提供される。
分類装置112は、クライアント端末120のユーザによって検索されたコンテンツを当該コンテンツの特徴によって分類する機能を有する。分類装置112による分類は、あらかじめ決められたカテゴリを用いて行われる。本実施形態におけるカテゴリは、例えば、「スポーツ」、「映画」、「ギャンブル」、「音楽」、「占い」、「グルメ」といったものである。なお、カテゴリは、コンテンツ検索システム110の利用目的や利用するユーザに応じて適宜定められればよい。
図2は、コンテンツ検索システム110のハードウェア構成を示すブロック図である。検索装置111は、図2に示すように、制御部211と、記憶部212と、第1通信部213と、第2通信部214とを備える。制御部211は、検索装置111の各部の動作を制御する手段である。制御部211は、CPU(Central Processing Unit)等の演算処理装置や主記憶装置に相当する記憶手段(メインメモリ)を備え、プログラムを実行することによって検索機能を実現する。ここにおいて、検索機能とは、検索語に応じた検索結果を提示する機能をいい、本発明に係る提示部に相当するものである。記憶部212は、HDD(Hard Disk Drive)等の補助記憶装置に相当する記憶手段を備え、検索機能に必要なデータ(例えば、いわゆるインデクス等)を記憶する。第1通信部213は、分類装置112と通信するためのインターフェースを備える。第2通信部214は、通信ネットワーク130と通信するためのインターフェースである。
分類装置112は、図2に示すように、制御部221と、記憶部222と、第1通信部223とを備える。これらの各部は、検索装置111の同名の構成要素と同様のハードウェア構成を有する。ただし、記憶部222は、その記憶するデータが記憶部212とは相違し、コンテンツの分類に必要なデータを記憶している。
図3は、分類装置112の機能的構成を示す機能ブロック図である。分類装置112は、プログラムを実行することにより、図3に示す履歴受信部310、コンテンツ情報格納部320、分類情報格納部330及び分類部340の各部に相当する機能を実現する。また、コンテンツ情報格納部320は、より詳細には、検索履歴格納部321、検索履歴集計部322及び頻度格納部323に機能的に分類される。
履歴受信部310は、検索装置111から検索履歴を受信する。ここにおいて、検索履歴とは、検索語と、その検索語を用いて検索され、ユーザが閲覧するためにクライアント端末120で選択したコンテンツとを対応付けたものをいう。ここでいう「選択」とは、ユーザの操作(クリック等)に基づくものである。履歴受信部310により受信されるコンテンツは、分類の対象であるコンテンツ、すなわち、まだ分類されておらず、カテゴリが未知であるコンテンツと、カテゴリが既知であるコンテンツの双方が含まれ得る。
コンテンツ情報格納部320は、記憶部222にコンテンツ情報を格納する。コンテンツ情報は、検索履歴情報と頻度情報の総称である。検索履歴情報は、検索履歴を表すデータである。検索履歴格納部321は、履歴受信部310により受信された検索履歴に基づき、記憶部222に検索履歴情報を格納する。
頻度情報は、あるコンテンツがどの検索語によって何回検索されたかを表すデータである。本実施形態において、頻度情報は、コンテンツを表すURLと、当該URLに対応する検索語と、その検索された頻度とを対応付けたデータである。なお、ここでいう「頻度」は、検索クエリとして得られた延べ回数ではなく、例えば、同一のユーザが同一の検索語で同一のコンテンツを繰り返し何回も検索した場合には、これらを1回の検索とみなした値であってもよい。この場合、頻度の値は、単位時間当たりにあるコンテンツをある検索語で検索したユーザの人数に相当する。
頻度情報は、検索履歴集計部322によって集計され、頻度格納部323によって記憶部222に格納される。検索履歴集計部322は、検索履歴格納部321によって格納された検索履歴情報を読み出し、その検索履歴情報の中で重複しているコンテンツを検索語毎に集計し、頻度を算出する。頻度格納部323は、検索履歴集計部322による集計結果を記憶部222に格納する。
図4は、検索履歴情報のデータ構造を例示する図である。この例において、検索履歴情報は、ユーザIDと、タイムスタンプと、検索語と、URLとを対応付けて記述したデータである。ユーザIDは、ユーザを一意的に識別するためのデータである。ユーザの識別は、パスワード等による認証やCookieの利用など、周知の適当な技術によって実現されればよい。タイムスタンプは、ユーザが検索を行った時刻(以下「検索時刻」という。)を表すデータである。検索時刻は、クライアント端末120で検索クエリの送信時に計測されてもよいし、検索クエリの受信時に検索装置111で計測されてもよい。
図5は、頻度情報のデータ構造を例示する図である。この例において、頻度情報は、URLと、検索語と、頻度とを対応付けて記述したデータである。
なお、検索履歴情報又は頻度情報は、コンテンツが分類済みであるか否か(すなわち、カテゴリが既知か未知か)を表すフラグを含んでいてもよい。
分類情報格納部330は、コンテンツの分類結果を表す分類情報を記憶部222に格納する。分類情報は、記憶部222にあらかじめ記憶されているものと、分類部340による分類結果として事後的に格納されるものとがある。本実施形態の分類情報は、URLと、カテゴリIDと、スコアとを対応付けて記述したデータである。カテゴリIDは、既知のカテゴリを一意的に識別するために割り当てられるデータである。また、スコアは、URLによって表されるコンテンツがそれぞれのカテゴリに適合する度合いを示す値であり、本実施形態においては、「1」が最大(最も適合する)で「0」が最小であるとする。
図6は、分類情報のデータ構造を例示する図である。この例においては、URL「http://aaa.com/aaa.cgi?a1=1&a2=2」で表されるコンテンツは、カテゴリID「24」で表されるカテゴリに最も適合している(相応しい)ということになる。なお、カテゴリは、一つのコンテンツにつき1種類でなくてもよい。例えば、コンテンツは、所定のスコア以上のカテゴリのすべてに属するとしてもよいし、スコアの大きい順に所定数のカテゴリに属するとしてもよい。また、図6においては、スコアが「0」である分類情報の表示を省略しているが、実際のデータは、各URLと各カテゴリによって考えられる組み合わせのそれぞれについて、「0」かそれ以外のスコアが付与されているものとする。
分類部340は、分類情報格納部330に格納された分類情報を用いて、カテゴリが未知であるコンテンツを分類し、その分類結果を分類情報格納部330に供給する。分類部340は、カテゴリが既知のコンテンツの検索履歴とカテゴリが未知のコンテンツを検索するために用いられた検索語とを比較することによって、カテゴリが未知のコンテンツを分類する。
本実施形態において、分類部340は、コンテンツ情報格納部320に格納されたコンテンツ情報からカテゴリが未知であるコンテンツに関するデータを取得し、これを分類の対象とする。次に、分類部340は、分類情報格納部330を介して分類情報を取得し、分類モデルを生成する。ここにおいて、分類モデルとは、コンテンツがどのカテゴリに属するのが適当であるかを数学的にモデル化したものである。分類部340は、分類モデルを用いて、分類対象のコンテンツのそれぞれにどのカテゴリが適しているかを算出し、その算出結果を分類情報として分類情報格納部330に供給する。分類モデルは、例えば、SVM(Support Vector Machine)やニューラルネットワークを用いて実現可能である。
以上の構成のもと、コンテンツ検索システム110は、クライアント端末120からの要求(すなわち検索クエリ)に応じて検索を実行し、検索結果をクライアント端末120に提示する。また、コンテンツ検索システム110は、適当なタイミングで、カテゴリが未知のコンテンツに関する情報を取得し、コンテンツの分類を繰り返し実行する。
また、コンテンツ検索システム110は、周知のキーワード検索による検索結果と、コンテンツをカテゴリ毎に分類して表示する検索結果とをユーザに提供することができる。コンテンツ検索システム110は、これらの検索結果を両方提示してもよいし、ユーザによる事前の設定に応じていずれかの検索結果を択一的に提示するようにしてもよい。
図7は、分類装置112によるコンテンツの分類方法を示すフローチャートである。図7に示すように、分類装置112の制御部221は、最初に既知の分類情報を格納する(ステップS11)。ステップS11において、制御部221は、カテゴリに関する既存の情報源を利用して分類情報を得る。かかる情報源としては、例えば、ODP(Open Directory Project)に登録されているWebサイトを利用可能である。あるいは、周知の代表的なサーチエンジンを用いてカテゴリ名によって検索を実行し、その検索結果の上位に提示されるWebサイトを分類情報に利用したり、既存のポータルサイトによって分類されているカテゴリを分類情報に利用したりすることも可能である。なお、分類装置112が用いるカテゴリと既存の情報源によるカテゴリとに相違がある場合には、あらかじめ対応表を作成しておき、そのときに用いるカテゴリに置き換えられるようにすることが望ましい。また、分類情報のうち、スコアは、適当な値があらかじめ機械的に(あるいは手作業で)設定される。
次に、制御部221は、検索履歴を検索装置111から受信し、これを検索履歴情報として格納する(ステップS12)。制御部221は、検索クエリが発生する毎に検索履歴を受信してもよいし、検索履歴を所定時間毎又は所定数毎に一括して受信する動作を繰り返してもよい。このような動作が繰り返されることにより、検索履歴情報が徐々に蓄積される。一定量の検索履歴情報が蓄積されると、制御部221は、頻度情報をコンテンツ毎に集計し、格納する(ステップS13)。
続いて、制御部221は、このようにして格納された分類情報と頻度情報とに基づき、分類モデルを生成する(ステップS14)。分類モデルの具体的な生成方法の一例は、SVMによる回帰分析を行う場合であれば、以下のとおりである。
制御部221は、カテゴリが既知であるコンテンツの特徴量として、頻度情報をベクトル形式で表現したXiを用いる。Xiは、具体的には、以下の(1)式で表される。ここにおいて、xijは、各コンテンツ及び検索語を一意的に識別するためのIDをそれぞれi、jとした場合の頻度の値であり、コンテンツの総数をN、検索語の総数をVとすると、1≦i≦N、1≦j≦Vをそれぞれ満たす。つまり、Xiは、コンテンツの検索語毎の頻度をコンテンツ毎に表すものである。
i=(xi1,xi2,xi3,…,xiV) …(1)
なお、制御部221は、必要に応じて、Xiに対数化や正規化を行ってもよい。対数化や正規化は、xijのそれぞれの差が大きすぎ、大小関係の特徴が強く現れすぎる場合に有効である。対数化は、例えば、xijをlog10(xij+1)、すなわち10を底とする(xij+1)の対数に置き換えることで実現可能である。また、正規化は、Xiの絶対値が1となるように、各要素(xij)を要素の二乗和で除算することで実現可能である。
また、制御部221は、カテゴリの特徴量として、分類情報をベクトル形式で表現したYiを用いる。Yiは、具体的には、以下の(2)式で表される。ここにおいて、yikは、コンテンツのIDをi、カテゴリIDをkとした場合のスコアである。カテゴリIDは、カテゴリの総数をLとすると、1≦k≦Lを満たす。つまり、Yiは、コンテンツのカテゴリ毎のスコアをコンテンツ毎に表すものである。
i=(yi1,yi2,yi3,…,yiL) …(2)
制御部221は、これらの特徴量から分類モデルを生成する。分類モデルは、Xiを説明変数、Yiを目的変数とするものであり、以下においてはFk(Xi)と表現する。Fk(Xi)は、カテゴリ毎(すなわちカテゴリID毎)に生成される。制御部221は、このようにして生成される分類モデル(Fk(Xi))に対して、カテゴリが未知であるコンテンツの特徴量であるXi’を入力する(なお、XiとXi’の相違点は、カテゴリが既知であるか未知であるかの1点のみである。)。そうすると、制御部221は、カテゴリが未知であるコンテンツの目的変数として、上述したYiに相当する特徴量を得ることができる。
制御部221は、このようにして生成された分類モデルを用いて、カテゴリが未知であるコンテンツについてカテゴリ毎のスコアを算出し、その算出結果を分類情報として格納する(ステップS15)。なお、制御部221は、スコアに対して閾値を設定し、閾値を下回るスコアをすべて「0」であるとみなしてもよい。このようにすることで、実態に即していない分類がされることを防ぐことが可能である。また、制御部221は、タイムスタンプに基づいて頻度又はスコアに対して重み付けを行い、より新しい検索履歴ほど分類に強い影響を与えるようにしてもよい。
制御部221は、一定量の検索履歴が新たに蓄積される毎に、あるいは一定間隔で、図7に示す分類処理を繰り返す。ただし、制御部221は、いったん分類情報が格納された後には、ステップS11の処理をスキップし、ステップS12の処理から実行すればよい。また、ステップS15の処理によって分類情報が新たに格納されたコンテンツは、その後はカテゴリが既知のコンテンツとして扱われる。
図8は、検索装置111によるコンテンツの検索方法を示すフローチャートである。図8に示すように、検索装置111の制御部211は、ユーザから検索クエリを受信することにより、検索語を取得する(ステップS21)。制御部211は、取得した検索語に基づき、周知のキーワード検索によってコンテンツのリストを生成する(ステップS22)。ステップS22において生成されるリストは、検索語を含むコンテンツを適当に順位付けしたものである。
次に、制御部211は、分類装置112に格納されている分類情報を参照することにより、ステップS22において生成されたリストに含まれるコンテンツをカテゴリ毎に分類する(ステップS23)。そして、制御部211は、ユーザが入力した検索語に対応するコンテンツをカテゴリ毎に分類した態様で表示するための検索結果情報を当該ユーザのクライアント端末120に送信する(ステップS24)。検索結果情報の表示態様は、例えば、各カテゴリのコンテンツのリストをスコアが高い順に表示するものであってもよいし、各カテゴリのコンテンツのリストをタブで切り替えて表示するものであってもよい。なお、制御部211は、コンテンツに対応する要約文を検索結果情報に含めてもよい。このようにすれば、ユーザによる各コンテンツの取捨選択を容易にすることができる。また、制御部211は、カテゴリが未知のコンテンツが検索結果に含まれる場合などには、必要に応じて、キーワード検索を行っただけの(未分類の)リストを検索結果情報に含めてもよい。
検索結果情報には、目的のコンテンツに直接リンクするURLではなく、いったんコンテンツ検索システム110を経由して目的のコンテンツにリンクするURL(いわゆるリダイレクトURL)が記述されている。このURLには、パラメータとして、目的のコンテンツのURLに加え、ユーザが入力した検索語が含まれる。このようにすることで、コンテンツ検索システム110は、コンテンツを検索するために用いられた検索語を特定し、検索履歴を取得することが可能である。
以上のとおり、本実施形態によれば、コンテンツを検索するために用いられた検索語を利用することで、コンテンツの内容によらない分類を行うことが可能となる。よって、本実施形態によれば、コンテンツに対して自然言語処理を実行することなくコンテンツを分類することが可能となる。ただし、コンテンツの内容によらない分類が有効に機能するためには、当該コンテンツの検索が既にある程度行われていることが条件となる。
また、本実施形態によれば、コンテンツを検索するために実際に用いられた検索語を利用することで、各ユーザの意図に即した分類を行うことが可能であるともいえる。例えば、携帯電話機向けのコンテンツにおいては、画面サイズ等の表示上の制約から、文字の情報量が比較的少ない場合がある。かかるコンテンツをその内容(すなわち、コンテンツに含まれる文字列)に基づいて分類した場合、その分類結果にユーザの意図を的確に反映させられず、分類の精度・確度が低下する可能性がある。よって、コンテンツ検索システム110は、文字列としての情報量が比較的少ないコンテンツの検索に適用するのに好適であるといえる。
[変形例]
上述した実施形態は、本発明の実施の一態様である。本発明は、上述した実施形態に対して以下の変形を適用した態様で実施することも可能である。なお、以下に示す変形例は、必要に応じて、各々を適当に組み合わせて実施されてもよいものである。
(変形例1)
上述したとおり、本発明に係るコンテンツは、その分類に際して自然言語処理が不要である。すなわち、本発明に係るコンテンツは、文字列を含まないデータであっても分類可能である。したがって、本発明は、文字列を含むか否かを問わず、ユーザが検索可能なあらゆるデータを分類の対象にすることができる。
(変形例2)
本発明に係る分類装置は、URLの少なくとも一部が共通する複数のコンテンツがある場合に、これらが同一のカテゴリに分類されるように動作するものであってもよい。このようにすれば、カテゴリが未知のコンテンツをより高速に分類することが可能であるとともに、検索されたことが一度もないコンテンツであっても分類が可能になる場合がある。なお、本例において、カテゴリの共通化は、ドメイン名、ホスト名、FQDN(Fully Qualified Domain Name)などを単位として行われる。また、URLがパス名(ディレクトリ名)によって階層分けされている場合には、かかる階層がカテゴリに対応付けられていてもよい。さらに、URLにパラメータ部(図4等の例における「?」以降の文字列)が含まれる場合には、パラメータ部以外の部分が共通しているURLのカテゴリを共通化することも可能である。
(変形例3)
上述した実施形態においては、コンテンツの分類処理は、カテゴリが未知のコンテンツに対してのみ実行された。しかし、本発明は、カテゴリが既知のコンテンツにも分類処理を実行し、必要に応じて、コンテンツのカテゴリを変更できるようにしてもよい。このようにすれば、コンテンツの内容が時間の経過に応じて(URLは変えずに)変更されたとしても、より適切なカテゴリに再分類することが可能となる。具体的には、制御部221は、カテゴリが既知のコンテンツに対して上述した分類モデルを適用し、既に算出されたスコアと新たに算出されたスコアとの間に一定以上の乖離がある場合に、既に算出されたスコアを新たに算出されたスコアに書き換えるようにしてもよい。
(変形例4)
本発明は、コンテンツ情報や分類情報の記憶手段を分類装置から分離した態様でも実施可能である。すなわち、本発明に係る分類装置は、コンテンツ情報や分類情報を格納する手段を別体に構成したものであってもよい。
図9は、本例に係る分類装置及び記憶装置の構成を示すブロック図である。図9に示すように、分類装置910は、第1取得部911と、第2取得部912と、分類部913と、供給部914とを備える。また、記憶装置920は、コンテンツ情報を記憶する手段であり、上述した実施形態のコンテンツ情報格納部320に相当する機能を少なくとも備える。記憶装置930は、分類情報を記憶する手段であり、上述した実施形態の分類情報格納部330に相当する機能を少なくとも備える。なお、記憶装置920は、分類装置910を実施する事業者とは異なる事業者のサーチエンジンであってもよい。
第1取得部911は、記憶装置920からコンテンツ情報(検索履歴情報、頻度情報)を取得する。第2取得部912は、記憶装置930から分類情報を取得する。分類部913は、上述した実施形態の分類部340に相当する機能を備える。供給部914は、分類部913による分類結果を記憶装置930に供給する。
(変形例5)
本発明は、上述した実施形態のように分類装置と検索装置とを別体にするのではなく、これらを単一のコンピュータ装置で実現することも可能である。また、本発明は、コンテンツを分類し、又は検索するための方法や、コンピュータ装置を上述した分類装置や検索装置として機能させるためのプログラムとしても提供可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることも可能である。
110…コンテンツ検索システム、111…検索装置、112…分類装置、120…クライアント端末、130…通信ネットワーク、211、221…制御部、212、222…記憶部、213、223…第1通信部、214…第2通信部、310…履歴受信部、320…コンテンツ情報格納部、321…検索履歴格納部、322…検索履歴集計部、323…頻度格納部、330…分類情報格納部、340…分類部、910…分類装置、911…第1取得部、912…第2取得部、913…分類部、914…供給部、920、930…記憶装置

Claims (8)

  1. 所定のカテゴリに従って分類された第1のコンテンツと、当該コンテンツを検索するために用いられた検索語とを対応付けた検索履歴を取得する第1の取得部と、
    前記カテゴリが未知である第2のコンテンツを検索するために用いられた検索語を取得する第2の取得部と、
    前記第1の取得部により取得された検索履歴と前記第2の取得部により取得された検索語とを比較することによって、前記第2のコンテンツを前記カテゴリに従って分類する分類部と
    を備える分類装置。
  2. 前記分類部は、前記検索語毎の検索された頻度に基づいて前記第2のコンテンツを分類する
    ことを特徴とする請求項1に記載の分類装置。
  3. 前記分類部は、検索された頻度に応じたスコアを前記検索語毎に算出し、当該スコアを用いて前記第2のコンテンツを分類する
    ことを特徴とする請求項2に記載の分類装置。
  4. URL(Uniform Resource Locator)の少なくとも一部が共通する前記第1のコンテンツ又は前記第2のコンテンツどうしが同一のカテゴリに分類されることを特徴とする請求項1ないし3のいずれかに記載の分類装置。
  5. 請求項1ないし4のいずれかに記載の分類装置と、ユーザにより入力された検索語に対応するコンテンツを当該ユーザに提示する検索装置とを有し、
    前記検索装置が、前記入力された検索語に対応するコンテンツを前記カテゴリ毎に分類した態様で提示するための提示部を備える
    ことを特徴とするコンテンツ検索システム。
  6. 所定のカテゴリに従って分類された第1のコンテンツと、当該コンテンツを検索するために用いられた検索語とを対応付けた検索履歴を取得するステップと、
    前記カテゴリが未知である第2のコンテンツを検索するために用いられた検索語を取得するステップと、
    前記取得された検索履歴と前記取得された検索語とを比較することによって、前記第2のコンテンツを前記カテゴリに従って分類するステップと
    を有することを特徴とするコンテンツ分類方法。
  7. 所定のカテゴリに従って分類された第1のコンテンツと、当該コンテンツを検索するために用いられた検索語とを対応付けた検索履歴を取得するステップと、
    前記カテゴリが未知である第2のコンテンツを検索するために用いられた検索語を取得するステップと、
    前記取得された検索履歴と前記取得された検索語とを比較することによって、前記第2のコンテンツを前記カテゴリに従って分類するステップと、
    入力された検索語に対応する前記第1のコンテンツ又は前記第2のコンテンツを前記カテゴリ毎に分類した態様でユーザに提示するステップと
    を有することを特徴とするコンテンツ検索方法。
  8. コンピュータに、
    所定のカテゴリに従って分類された第1のコンテンツと、当該コンテンツを検索するために用いられた検索語とを対応付けた検索履歴を取得するステップと、
    前記カテゴリが未知である第2のコンテンツを検索するために用いられた検索語を取得するステップと、
    前記取得された検索履歴と前記取得された検索語とを比較することによって、前記第2のコンテンツを前記カテゴリに従って分類するステップと
    を実行させるためのプログラム。
JP2010123275A 2010-05-28 2010-05-28 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム Pending JP2011248762A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010123275A JP2011248762A (ja) 2010-05-28 2010-05-28 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010123275A JP2011248762A (ja) 2010-05-28 2010-05-28 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011248762A true JP2011248762A (ja) 2011-12-08
JP2011248762A5 JP2011248762A5 (ja) 2013-04-11

Family

ID=45413915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010123275A Pending JP2011248762A (ja) 2010-05-28 2010-05-28 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2011248762A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012198710A (ja) * 2011-03-18 2012-10-18 Fujitsu Ltd カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム
US20210303718A1 (en) * 2020-03-31 2021-09-30 Citrix Systems, Inc. Context based data leak prevention of sensitive information
US11539709B2 (en) 2019-12-23 2022-12-27 Citrix Systems, Inc. Restricted access to sensitive content
US11544415B2 (en) 2019-12-17 2023-01-03 Citrix Systems, Inc. Context-aware obfuscation and unobfuscation of sensitive content
US11582266B2 (en) 2020-02-03 2023-02-14 Citrix Systems, Inc. Method and system for protecting privacy of users in session recordings
US11627102B2 (en) 2020-08-29 2023-04-11 Citrix Systems, Inc. Identity leak prevention

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341942A (ja) * 2003-05-16 2004-12-02 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体
JP2006139382A (ja) * 2004-11-10 2006-06-01 Canon Inc 情報処理装置及びその制御方法、プログラム
JP2008217157A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 操作履歴を利用した自動情報整理装置、方法、およびプログラム
JP2010061213A (ja) * 2008-09-01 2010-03-18 Nec Corp 情報処理装置、情報分類方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341942A (ja) * 2003-05-16 2004-12-02 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体
JP2006139382A (ja) * 2004-11-10 2006-06-01 Canon Inc 情報処理装置及びその制御方法、プログラム
JP2008217157A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 操作履歴を利用した自動情報整理装置、方法、およびプログラム
JP2010061213A (ja) * 2008-09-01 2010-03-18 Nec Corp 情報処理装置、情報分類方法及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012198710A (ja) * 2011-03-18 2012-10-18 Fujitsu Ltd カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム
US11544415B2 (en) 2019-12-17 2023-01-03 Citrix Systems, Inc. Context-aware obfuscation and unobfuscation of sensitive content
US11539709B2 (en) 2019-12-23 2022-12-27 Citrix Systems, Inc. Restricted access to sensitive content
US11582266B2 (en) 2020-02-03 2023-02-14 Citrix Systems, Inc. Method and system for protecting privacy of users in session recordings
US20210303718A1 (en) * 2020-03-31 2021-09-30 Citrix Systems, Inc. Context based data leak prevention of sensitive information
US11627102B2 (en) 2020-08-29 2023-04-11 Citrix Systems, Inc. Identity leak prevention

Similar Documents

Publication Publication Date Title
US10289618B2 (en) Third party search applications for a search system
US8751466B1 (en) Customizable answer engine implemented by user-defined plug-ins
RU2696230C2 (ru) Поиск, основанный на комбинировании пользовательских данных отношений
CN102073699B (zh) 用于基于用户行为来改善搜索结果的方法、装置和设备
US20160179816A1 (en) Near Real Time Auto-Suggest Search Results
CN107862022B (zh) 文化资源推荐系统
US20110307432A1 (en) Relevance for name segment searches
US8639687B2 (en) User-customized content providing device, method and recorded medium
US20060190446A1 (en) Web search system and method thereof
US20160283952A1 (en) Ranking information providers
KR102454954B1 (ko) 검색 동작 출력 엘리먼트에 대한 액션 표시자
JP2011248762A (ja) 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム
CN106462613A (zh) 基于用户属性来对建议进行排名
US11144555B2 (en) Keyword reporting for mobile applications
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
US20170323019A1 (en) Ranking information providers
KR101346927B1 (ko) 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체
JP5271952B2 (ja) サーバ装置、評価方法、及び評価プログラム
JP2020067700A (ja) 情報収集方法、情報収集処理装置および情報収集プログラム
JP2012113348A (ja) 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2015026345A (ja) 検索装置、検索システムおよびプログラム
JP4571648B2 (ja) Web情報提供装置及びその方法、プログラム
JP6916136B2 (ja) 検索支援装置、検索支援方法、及び検索支援プログラム
JP2011221877A (ja) 関連語抽出装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130222

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140114

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140715