JP4891638B2 - 目的データをカテゴリに分類する方法 - Google Patents

目的データをカテゴリに分類する方法 Download PDF

Info

Publication number
JP4891638B2
JP4891638B2 JP2006071958A JP2006071958A JP4891638B2 JP 4891638 B2 JP4891638 B2 JP 4891638B2 JP 2006071958 A JP2006071958 A JP 2006071958A JP 2006071958 A JP2006071958 A JP 2006071958A JP 4891638 B2 JP4891638 B2 JP 4891638B2
Authority
JP
Japan
Prior art keywords
data
category
target data
candidate
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006071958A
Other languages
English (en)
Other versions
JP2007249600A (ja
JP2007249600A5 (ja
Inventor
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006071958A priority Critical patent/JP4891638B2/ja
Publication of JP2007249600A publication Critical patent/JP2007249600A/ja
Publication of JP2007249600A5 publication Critical patent/JP2007249600A5/ja
Application granted granted Critical
Publication of JP4891638B2 publication Critical patent/JP4891638B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、端末装置のユーザに閲覧させる目的データをカテゴリに分類する方法、サーバ、およびプログラムに関する。
従来、インターネットにおいて情報(目的データ)を検索する方法としては、様々なものが提供されているが、その一つに、ツリー状に構成されたカテゴリをユーザが辿っていくことによって目的の情報(目的データ)に至る、ディレクトリ型と呼ばれる検索エンジンがある。この方法は、通常人手によりカテゴリ分けがなされた目的データを検索するもので、同種類の情報をまとめて閲覧することが可能であり、例えば商品情報の検索等に用いられている。
この方法を実現するためには、予め商品等の情報提供項目に対してカテゴリ情報を記憶しておく必要がある。更に、ユーザによる検索が効果的に行われるためには、カテゴリに分類する際の精度の高さが求められる。こうした状況の中で、情報の分類に関しては、その精度を向上させる技術が知られている。
例えば、特許文献1には、各クラス(カテゴリ)間の情報の重なりによる誤分類を少なくする為に、各クラスについて着目クラスには現れるが他のクラスでは現れにくい特徴、および他のクラスでは現れるが着目クラスでは現れにくい特徴を求め、そのデータを使って類似度の補正を行う方法が開示されている。
特開2003−256441号公報
しかしながら、上記方法によっても、分類の精度は学習事例(目的データを特徴付けるキーワード等とカテゴリとの組)の正確さ、あるいは分類の際の類似度評価の正確さに左右されるため、誤った分類がされる可能性は依然として残る。そのため、通常人手により行っている各目的データに対するカテゴリ情報の付与を自動で行うと、自動で分類された学習事例に含まれる誤分類が蓄積されることによって、次第に分類精度が悪化していくことが懸念される。
そこで本発明は、人手で行うのと近い精度で自動的に目的データをカテゴリに分類することができ、更には、そうした信頼度の高い分類サンプル(学習事例)を継続的に取得し、次回以降の新たな目的データの分類に利用できる方法を提供することを目的とする。
具体的には、以下のようなものを提供する。
(1) 端末装置と通信ネットワークを介して接続されたサーバが、前記端末装置のユーザに閲覧させる目的データをカテゴリに分類する方法であって、
前記目的データを複数の候補カテゴリデータと関連付けて記憶するステップと、
前記端末装置から、前記ユーザによる前記複数の候補カテゴリデータのうち一の選択を表すデータを受信したことに応じて、前記選択をした候補カテゴリデータに関連付けられた目的データを送信するステップと、
前記端末装置から前記ユーザによる前記目的データの選択を表すデータを受け付けたことに応じて、前記ユーザが前記選択をした候補カテゴリデータの選択回数データをカウントアップして、前記選択をした目的データおよび前記選択をした候補カテゴリデータに関連付けて記憶するステップと、
所定の期間における前記選択回数データに基づき、前記目的データを分類する前記カテゴリの決定をするステップと、
を含む方法。
(1)の発明によれば、サーバは、端末装置のユーザに閲覧させる目的データを複数の候補カテゴリデータと関連付けて記憶し、前記端末装置から、前記ユーザによる前記複数の候補カテゴリデータのうち一の選択を表すデータを受信したことに応じて、前記選択をした候補カテゴリデータに関連付けられた目的データを送信し、前記端末装置から前記ユーザによる前記目的データの選択を表すデータを受け付けたことに応じて、前記ユーザが前記選択をした候補カテゴリデータの選択回数データをカウントアップして、前記選択をした目的データおよび前記選択をした候補カテゴリデータに関連付けて記憶し、所定の期間における前記選択回数データに基づき、前記目的データを分類する前記カテゴリの決定をする。
このことにより、前記サーバは、複数の候補カテゴリについて、実際のユーザのアクセス履歴(どのカテゴリから当該目的データに辿り着いたか)を記憶できるので、当該アクセス履歴に基づいてカテゴリを選択することにより、仮に候補カテゴリの中に相応しくないものが混在していた場合にも、そのようなカテゴリは自動的に排除され、実際のユーザの思いに近い(精度の良い)カテゴリに対して自動的に分類できる可能性がある。
(2) 前記決定をするカテゴリは、前記候補カテゴリデータの選択回数が所定の回数以上のものであることを特徴とする(1)に記載の方法。
(2)の発明によれば、前記サーバは、前記目的データを選択回数が所定の回数以上のカテゴリに分類する。
このことにより、前記サーバは、数多く(所定の回数以上)選択された実績のあるカテゴリに分類するので、実際のユーザが選択しやすいカテゴリに対して自動的に分類できる可能性がある。
(3) 前記決定をするカテゴリは、前記候補カテゴリデータの選択回数が所定の順位以上のものであることを特徴とする(1)に記載の方法。
(3)の発明によれば、前記サーバは、前記目的データを前記選択回数が所定の順位以上のものに対応するカテゴリに分類する。
このことにより、前記サーバは、選択される頻度が高いカテゴリを一または複数選択するので、多くのユーザが考える(思いつきやすい)カテゴリに対して自動的に分類できる可能性がある。
(4) 前記決定をするカテゴリは、前記候補カテゴリデータの選択回数の相対評価により決定するものであることを特徴とする(1)に記載の方法。
(4)の発明によれば、前記サーバは、前記カテゴリデータの選択回数の相対評価により前記目的データを分類するカテゴリを決定する。
このことにより、前記サーバは、関連付けた複数のカテゴリの中から、例えば他と比べて選択される割合が突出するカテゴリを選択できるため、ユーザの志向により近いカテゴリに対して自動的に分類できる可能性がある。また、所定の期間において、どの候補カテゴリも所定の選択回数に達しなかった場合や、所定の順位以内の候補カテゴリ間で選択回数に大きな差がある場合にも適切にカテゴリを選択できる。
(5) 前記決定をしたカテゴリデータと関連付けて、前記目的データに含まれるキーワードデータを抽出して記憶するステップを更に含む(1)から(4)のいずれかに記載の方法。
(5)の発明によれば、前記サーバは、前記決定をしたカテゴリデータと関連付けて、前記目的データに含まれるキーワードデータを抽出して記憶する。
このことにより、前記サーバは、前記カテゴリデータと前記キーワードデータとの対応付けを記憶するため、後に、分類の事例として利用することができる。
(6) 前記目的データとは別の新たな目的データの登録を受け付けたことに応じて、前記新たな目的データと前記キーワードデータとの類似度の算出をするステップと、
前記算出をした類似度に基づくカテゴリの評価に従い、前記新たな目的データを分類するカテゴリを決定するステップと、
を更に含む(5)に記載の方法。
(6)の発明によれば、前記サーバは、前記目的データとは別の新たな目的データの登録を受け付けたことに応じて、前記新たな目的データと前記キーワードデータとの類似度の算出をし、前記算出をした類似度に基づき、前記新たな目的データを分類するカテゴリを決定する。
このことにより、前記サーバは、記憶した前記キーワードデータと前記カテゴリデータとの関連付けに基づき、キーワードが類似する前記目的データについて、対応するカテゴリに自動的に分類することができる。
(7) 前記目的データを複数の前記カテゴリデータと関連付けて記憶するステップが、前記目的データと前記キーワードデータとの類似度の算出をし、当該算出をした類似度に基づくカテゴリの評価に従い前記候補カテゴリデータを選択することを特徴とする(5)または(6)に記載の方法。
(7)の発明によれば、前記サーバは、前記目的データと前記キーワードデータとの類似度の算出をし、当該算出をした類似度に基づき前記候補カテゴリデータを選択する。
このことにより、前記サーバは、記憶したキーワードデータとカテゴリデータとの関連付けに基づき、学習を行う(分類するカテゴリをアクセス履歴により決定する)データについてキーワードが類似する複数のカテゴリを、分類する候補として前記目的データに関連付けることができる。よって、ユーザのアクセス履歴を取得する対象のカテゴリを自動的に抽出することができる。
(8) 前記決定をしたカテゴリデータと関連付けて前記目的データに含まれるキーワードデータを抽出して記憶するステップが、前記カテゴリの選択回数に基づく選択確率データを更に関連付けて記憶し、
前記キーワードデータに関連付くカテゴリの評価が、前記類似度および前記選択確率データに基づくことを特徴とする(6)または(7)に記載の方法。
(8)の発明によれば、前記サーバは、前記決定をしたカテゴリデータと関連付けて前記カテゴリの選択回数に基づく選択確率データを更に記憶し、前記キーワードデータに関連付くカテゴリの評価を、前記類似度および前記選択確率データに基づいて行う。
このことにより、前記サーバは、例えば、類似度に基づいて抽出された分類候補となるカテゴリの中から、ユーザによる選択確率の高かったカテゴリに対して優先的に分類できる。よって、ユーザの志向に沿った、より自然な分類ができる可能性がある。
(9) 端末装置と通信ネットワークを介して接続され、前記端末装置のユーザに閲覧させる目的データをカテゴリに分類するサーバであって、
前記目的データを複数の候補カテゴリデータと関連付けて記憶する手段と、
前記端末装置から、前記ユーザによる前記複数の候補カテゴリデータのうち一の選択を表すデータを受信したことに応じて、前記選択をした候補カテゴリデータに関連付けられた目的データを送信する手段と、
前記端末装置から前記ユーザによる前記目的データの選択を表すデータを受け付けたことに応じて、前記ユーザが前記選択をした候補カテゴリデータの選択回数データをカウントアップして、前記選択をした目的データおよび前記選択をした候補カテゴリデータに関連付けて記憶する手段と、
所定の期間における前記選択回数データに基づき、前記目的データを分類する前記カテゴリの決定をする手段と、
を備えるサーバ。
(9)の発明によれば、当該サーバを運用することにより、(1)と同様の効果が期待できる。
(10) 前記決定をするカテゴリは、前記候補カテゴリデータの選択回数が所定の回数以上のものであることを特徴とする(9)に記載のサーバ。
(10)の発明によれば、当該サーバを運用することにより、(2)と同様の効果が期待できる。
(11) 前記決定をするカテゴリは、前記候補カテゴリデータの選択回数が所定の順位以上のものであることを特徴とする(9)に記載のサーバ。
(11)の発明によれば、当該サーバを運用することにより、(3)と同様の効果が期待できる。
(12) 前記決定をするカテゴリは、前記候補カテゴリデータの選択回数の相対評価により決定するものであることを特徴とする(9)に記載のサーバ。
(12)の発明によれば、当該サーバを運用することにより、(4)と同様の効果が期待できる。
(13) 前記決定をしたカテゴリデータと関連付けて、前記目的データに含まれるキーワードデータを抽出して記憶する手段を更に備える(9)から(12)のいずれかに記載のサーバ。
(13)の発明によれば、当該サーバを運用することにより、(5)と同様の効果が期待できる。
(14) 前記目的データとは別の新たな目的データの登録を受け付けたことに応じて、前記新たな目的データと前記キーワードデータとの類似度の算出をする手段と、
前記算出をした類似度に基づくカテゴリの評価に従い、前記新たな目的データを分類するカテゴリを決定する手段と、
を更に備える(13)に記載のサーバ。
(14)の発明によれば、当該サーバを運用することにより、(6)と同様の効果が期待できる。
(15) 前記目的データを複数の前記カテゴリデータと関連付けて記憶する手段が、前記目的データと前記キーワードデータとの類似度の算出をし、当該算出をした類似度に基づくカテゴリの評価に従い前記候補カテゴリデータを選択することを特徴とする(13)または(14)に記載のサーバ。
(15)の発明によれば、当該サーバを運用することにより、(7)と同様の効果が期待できる。
(16) 前記決定をしたカテゴリデータと関連付けて前記目的データに含まれるキーワードデータを抽出して記憶する手段が、前記カテゴリの選択回数に基づく選択確率データを更に関連付けて記憶し、
前記キーワードデータに関連付くカテゴリの評価が、前記類似度および前記選択確率データに基づくことを特徴とする(14)または(15)に記載のサーバ。
(16)の発明によれば、当該サーバを運用することにより、(8)と同様の効果が期待できる。
(17) 端末装置と通信ネットワークを介して接続されたサーバに、前記端末装置のユーザに閲覧させる目的データをカテゴリに分類させるプログラムであって、
前記目的データを複数の候補カテゴリデータと関連付けて記憶させるステップと、
前記端末装置から、前記ユーザによる前記複数の候補カテゴリデータのうち一の選択を表すデータを受信したことに応じて、前記選択をした候補カテゴリデータに関連付けられた目的データを送信させるステップと、
前記端末装置から前記ユーザによる前記目的データの選択を表すデータを受け付けたことに応じて、前記ユーザが前記選択をした候補カテゴリデータの選択回数データをカウントアップして、前記選択をした目的データおよび前記選択をした候補カテゴリデータに関連付けて記憶させるステップと、
所定の期間における前記選択回数データに基づき、前記目的データを分類する前記カテゴリの決定をさせるステップと、
を実行させるプログラム。
(17)の発明によれば、当該プログラムを当該サーバ上で実行することにより、(1)と同様の効果が期待できる。
(18) 前記決定をするカテゴリは、前記候補カテゴリデータの選択回数が所定の回数以上のものであることを特徴とする(17)に記載のプログラム。
(18)の発明によれば、当該プログラムを当該サーバ上で実行することにより、(2)と同様の効果が期待できる。
(19) 前記決定をするカテゴリは、前記候補カテゴリデータの選択回数が所定の順位以上のものであることを特徴とする(17)に記載のプログラム。
(19)の発明によれば、当該プログラムを当該サーバ上で実行することにより、(3)と同様の効果が期待できる。
(20) 前記決定をするカテゴリは、前記候補カテゴリデータの選択回数の相対評価により決定するものであることを特徴とする(17)に記載のプログラム。
(20)の発明によれば、当該プログラムを当該サーバ上で実行することにより、(4)と同様の効果が期待できる。
(21) 前記決定をしたカテゴリデータと関連付けて、前記目的データに含まれるキーワードデータを抽出して記憶させるステップを更に含む(17)から(20)のいずれかに記載のプログラム。
(21)の発明によれば、当該プログラムを当該サーバ上で実行することにより、(5)と同様の効果が期待できる。
(22) 前記目的データとは別の新たな目的データの登録を受け付けたことに応じて、前記新たな目的データと前記キーワードデータとの類似度の算出をさせるステップと、
前記算出をした類似度に基づくカテゴリの評価に従い、前記新たな目的データを分類するカテゴリを決定させるステップと、
を更に含む(21)に記載のプログラム。
(22)の発明によれば、当該プログラムを当該サーバ上で実行することにより、(6)と同様の効果が期待できる。
(23) 前記目的データを複数の前記カテゴリデータと関連付けて記憶させるステップが、前記目的データと前記キーワードデータとの類似度の算出をさせ、当該算出をした類似度に基づくカテゴリの評価に従い前記候補カテゴリデータを選択させることを特徴とする(21)または(22)に記載のプログラム。
(23)の発明によれば、当該プログラムを当該サーバ上で実行することにより、(7)と同様の効果が期待できる。
(24) 前記決定をしたカテゴリデータと関連付けて前記目的データに含まれるキーワードデータを抽出して記憶させるステップが、前記カテゴリの選択回数に基づく選択確率データを更に関連付けて記憶させ、
前記キーワードデータに関連付くカテゴリの評価が、前記類似度および前記選択確率データに基づくことを特徴とする(22)または(23)に記載のプログラム。
(24)の発明によれば、当該プログラムを当該サーバ上で実行することにより、(8)と同様の効果が期待できる。
本発明によれば、人手で行う場合と近い精度で自動的に目的データをカテゴリに分類できる可能性がある。更には、そうした信頼度の高い分類サンプル(学習事例)を継続的に取得し、次回以降の新たな目的データの分類に利用することで、分類の精度を高く維持できる可能性がある。
本発明に係る好適な実施形態の一例について、図面に基づいて以下に説明する。
[全体構成]
図1は、本発明の好適な実施形態の一例に係るデータ分類方法の概念図である。
カテゴリ分類を実施するサーバ10は、ユーザが目的データを閲覧するために使用する端末装置20と、通信ネットワーク30を介して接続され、端末装置20のユーザに対する情報提供サービスを運用する。
端末装置20では、ユーザがサーバ10に記憶されている商品等の情報提供項目(目的データ)を検索する場合に、ツリー状にカテゴリ分けされたリンクを辿って、希望する種類の目的データ(商品データ等)群を閲覧する。目的データとカテゴリとの関連付けについてはサーバ10が記憶している。
サーバ10は、分類するカテゴリを学習するデータ(商品A)を受け付けた際、分類の候補となるカテゴリ(分類1、分類2)を付与する。端末装置20のユーザは、付与されたカテゴリのうち、いずれかを選択して目的のデータ(商品A)に辿り着くが、このときに選択されたカテゴリをサーバ10は記憶する。
このようなカテゴリ選択の履歴を所定の期間記憶することにより、サーバ10は、ユーザの考えに近いカテゴリ分類を学習することができる(処理の詳細は後述する)。その結果、サーバ10は、新たな目的データ(商品B)を受け付けた際に、学習したカテゴリ(例えば分類2)に分類する。
[コンピュータの構成]
図2は、本発明の好適な実施形態の一例に係るコンピュータシステムを構成する各コンピュータ(サーバ10、または端末装置20)の構成を示すブロック図である。
制御部110、記憶部120、入力部130、表示部140、通信制御部150は、バス160を介して接続されている。
制御部110は、情報の演算、処理を行う情報演算処理装置(CPU)であり、当該コンピュータ全体の制御を行う。制御部110は、記憶部120に記憶された各種プログラムを適宜読み出して実行することにより、上述のハードウエアと協働し、本発明に係る各種機能を実現している。
記憶部120は、制御部110と組み合わせてプログラムの実行に使用するローカルメモリ、大容量のバルクメモリ、および当該バルクメモリの検索を効率的に行うために使用するキャッシュメモリを含んでよい。記憶部120を実現するコンピュータ可読媒体としては、電気的、磁気的、光学的、電磁的に実現するものを含んでよい。より具体的には、半導体記憶装置、磁気テープ、フロッピー(登録商標)ディスク、ランダム・アクセス・メモリ(RAM)、リードオンリー・メモリ(ROM)、CD−ROMとCD−R/WとDVDとを含む光ディスクが含まれる。
入力部130は、ユーザによる入力の受付を行うものであり、キーボード、ポインティング・デバイス等を含んでよい。入力部130は、直接または介在I/Oコントローラを介して当該コンピュータと接続することができる。
表示部140は、ユーザにデータの入力を受け付ける画面を表示したり、当該コンピュータによる演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。表示部140は、直接または介在I/Oコントローラを介して当該コンピュータと接続することができる。
通信制御部150は、当該コンピュータを専用ネットワークまたは公共ネットワークを介して別の演算処理システムまたは記憶装置と接続できるようにするためのネットワーク・アダプタである。通信制御部150は、モデム、ケーブル・モデムおよびイーサネット(登録商標)・アダプタを含んでよい。
[学習処理フロー]
図3は、本発明の好適な実施形態の一例に係るデータ分類の学習処理フローを示す図である。
ステップS105では、サーバ10は、学習用の目的データを受け付ける。当該目的データは入力部130から受け付けることとしてもよいし、通信制御部150を介して別の演算処理システムあるいは記憶装置から受信することとしてもよい。目的データは、例えば商品に関するデータの場合には、商品名や商品説明等の情報を含んでおり、本学習処理を通じて、分類すべきカテゴリを付与する。
ステップS110では、サーバ10は、受け付けた目的データに対して、分類の候補となる複数のカテゴリを付与する。このカテゴリの付与については、人手によってもよいが、既に分類済みのサンプルが存在すればサーバが自動で行う(詳細は図4にて後述する)ことが望ましい。
ステップS105およびS110の結果、例えば商品データの場合には、図5に示すような商品分類テーブル40に、候補となるカテゴリ、商品名、商品説明を記憶する。これらのデータを基に、端末装置20においてカテゴリに紐付けて商品データを表示し、ユーザに対する情報提供サービスを運用する。
ステップS115では、サーバ10は、端末装置20からカテゴリ選択を表すデータを受信する。具体的には、サーバ10は、端末装置20のユーザが辿ってきたカテゴリ(リンク)を示すデータを受信し、当該ユーザが目的データを選択(閲覧)した際に、ステップS110にて付与された候補カテゴリの中から選択されたカテゴリデータを判別する。
ステップS120では、サーバ10は、候補カテゴリのそれぞれが選択された回数をカウントアップして記憶する。具体的には、例えば図6に示すアクセス履歴テーブル50を利用する。目的データ(商品名フィールド)に対してステップS110にて付与した候補カテゴリ(カテゴリフィールド)のそれぞれについて、ステップS115にて受信したカテゴリ選択を表すデータを受信する毎に選択回数フィールドの値をカウントアップして記憶する。
ステップS125では、サーバ10は、目的データを分類するカテゴリを決定するか否かを判別する。具体的には、例えば、目的データに候補カテゴリを付与してユーザへの閲覧を開始してから所定の期間が経った場合に分類するカテゴリを決定することとしてもよいし、選択回数が所定の数に達した場合に決定することとしてもよい。
あるいは、サーバ10は、この時点で分類するカテゴリを決定せず、後に新たな目的データを受け付けたときの選択回数に基づいて分類するカテゴリを決定することとしてもよい。その場合には、サーバ10は、より長期間にわたってユーザの傾向を記憶し、カテゴリ分類に利用することができる。なお、このときには、ステップS125およびS130は不要となる。
ステップS130では、サーバ10は、目的データを分類するカテゴリを決定する。具体的には、例えば以下のような方法で決定することができる。
(1)選択回数の最も多いカテゴリにする。この場合、サーバ10は、目的データに付与した候補カテゴリの中から、最も選択回数の多いものを選択して目的データに関連付ける。
(2)選択回数の上位複数のカテゴリにする。この場合、サーバ10は、目的データに付与した候補カテゴリのうち、選択回数の多いものから順に所定の数を選択して目的データに関連付ける。
(3)選択回数が他と比べて多いカテゴリにする。この場合、サーバ10は、例えば各候補カテゴリについての選択回数の偏差値を算出し、当該偏差値が所定の値以上のものを選択して目的データに関連付ける。
分類するカテゴリの決定方法は、以上に限られないが、このような方法によれば、サーバ10は、多くのユーザが選択する傾向にあるカテゴリに対して目的データを効果的に分類することができる。このことにより、ユーザが辿りやすいカテゴリのみを残して、選択されにくい(精度の悪い)カテゴリを排除することもできる。
なお、所定の期間が経ってもなお、分類すべきカテゴリが決定できないと判断した場合には、サーバ10はその旨を管理者の端末に表示して候補カテゴリの再設定を促してもよい。
ステップS135では、サーバ10は、ステップS130にて決定したカテゴリ(ステップS125およびステップS130を行わない場合には全候補カテゴリ)と関連付けて、目的データに含まれるキーワードと、カテゴリの選択回数に基づいて計算する当該カテゴリの選択確率データを記憶する。具体的には、例えば、図7に示す分類学習テーブル60を利用する。
分類学習テーブル60には、目的データの名称(例えば商品名等)、目的データに含まれるキーワード、ステップS130にて決定したカテゴリ、カテゴリの選択確率を関連付けて記憶する。ここで、キーワードは、目的データを特徴付ける単語であって、例えば商品データの場合には、商品分類テーブル40(図5)の商品説明を、形態素解析等によって語句に分解し、TF*IDFや確率言語モデルといった手法を用いることにより抽出することができる。
なお、記憶手段はテーブルには限られず、転置索引ファイルとして記憶することもできる。更に、記憶するキーワードには、出現場所や出現回数、あるいは他の分類サンプル(学習事例)とあわせた中での出現頻度等を関連付けて記憶することとしてもよい。これらは後述する類似度の算出において利用することができる。
なお、ステップS135は、本処理フローにおいては、分類カテゴリの決定後に行うこととしたが、タイミングはこれに限られず、例えばキーワードについては、ステップS105にて目的データを受け付けた際に記憶してもよいし、選択確率は、ステップS120の選択回数とあわせて記憶することもできる。
[分類処理フロー]
図4は、本発明の好適な実施形態の一例に係るカテゴリへの分類処理フローを示す図である。当該分類処理は、学習処理フロー(図3)において学習したカテゴリ分類に基づいて、新たな目的データを分類する処理であるが、当該学習処理フローのステップS110における候補カテゴリの付与においても用いることができる。
ステップS205では、サーバ10は、カテゴリ分類を行う新たな目的データを受け付ける。当該新たな目的データは入力部130から受け付けることとしてもよいし、通信制御部150を介して別の演算処理システムあるいは記憶装置から受信することとしてもよい。
ステップS210では、サーバ10は、学習処理フロー(図3)のステップS135において記憶した分類学習テーブル60または転置索引ファイル等に基づいて、当該新たな目的データとカテゴリ毎のキーワード群との類似度を算出する。具体的には、例えば、TF*IDF、あるいはkNN法やNaive Bayes法といった手法を用いることにより、類似度を算出することができる。このとき、キーワードと関連付けて出現頻度等のデータを前もって記憶していれば、これらを用いることができる。このことにより、サーバ10は、当該新たな目的データと類似度の高いキーワード群と、それに対応するカテゴリを抽出することができる。
ステップS215では、サーバ10は、ステップS210にて算出した類似度に基づいて、分類するカテゴリを決定する。具体的には、サーバ10は当該類似度を用いて、対応するカテゴリそれぞれについて分類すべきか否かを評価する。このとき、サーバ10は、例えば以下のように分類するカテゴリを一つまたは複数決定する。
(1)類似度が最も高いキーワード群に対応するカテゴリ、あるいは類似度の高い順に所定の個数のカテゴリに分類する(Naive Bayes法等)。この場合、例えば「バッグ」、「ヌメ革」を商品説明に含んだ目的データは、分類学習テーブル60(図7)の例によれば、1行目の学習事例のキーワードとの類似度が高くなり、サーバ10は、当該目的データを「ハンドバッグ」のカテゴリに分類する。
このように、サーバ10は、当該新たな目的データを受け付けた時点で記憶している最新のキーワードとカテゴリの組み合わせを参照して、当該新たな目的データの分類に活用する。なお、この分類学習テーブル60は、前述のように学習処理フロー(図3)のステップS130において実際のユーザによる選択実績に基づいて、不要と考えられる候補カテゴリは排除されているため、特許文献1のように誤分類が蓄積されることによる精度の悪化も抑止できる。
(2)類似度の高い適切な個数のサンプル中で分類するカテゴリを多数決する(kNN法)。この場合、例えば、目的データとキーワードの類似する学習事例が3件あったとき、対応するカテゴリが「ハンドバッグ」2件、「トートバッグ」1件であれば、サーバ10は、当該目的データを多数決により「ハンドバッグ」に分類する。
(3)類似度による重み付けをした上で、適切な個数のサンプル中で分類するカテゴリを多数決する(kNN法)。この場合、上記(2)の例では、「トートバッグ」よりも「ハンドバッグ」の方がキーワードの類似する学習事例の件数は多いが、「トートバッグ」の類似度が勝っていれば、サーバ10は、重み付けの結果「トートバッグ」をより高く評価して分類する可能性がある。
(4)同一カテゴリに対応付けられたキーワード群との類似度の平均が最も高いカテゴリ、あるいは高い順に所定の個数のカテゴリに分類する。この場合は、サーバ10は、同じカテゴリに分類される学習事例の中で、目的データとの類似度にばらつきがあるものよりも、最高の類似度でなくても偏りがないものに分類する可能性がある。
(5)類似度に対して選択確率の重み付けをした上で、上述の(1)〜(4)の方法により分類する。この場合は、選択確率が高ければ分類の精度が高いと仮定し、サーバ10は、例えば分類学習テーブル60(図7)の選択確率を類似度に掛け合わせて評価することにより、精度の高い学習事例に基づいたカテゴリに分類することができる。
以上のように、本発明の実施形態によれば、情報提供サービスを運用することで目的データを分類するカテゴリの学習ができ、学習したカテゴリに対して新たな目的データを自動で分類することができる。
ここで、学習の結果(学習事例)については、数多く、そして新しい方がより精度が高く、ユーザの意見を反映していることが期待できる。そこで、学習処理については定期的に行うことが好ましく、例えば、新たな目的データを自動で分類する際にも複数のカテゴリを付与し、学習を行うこととしてもよい。
このようにして、サーバ10は、情報提供サービスを運用する中で学習事例を継続的に取得・利用することができ、カテゴリ分類の精度を高く維持することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本発明の好適な実施形態の一例に係るデータ分類方法の概念図である。 本発明の好適な実施形態の一例に係るコンピュータシステムを構成する各コンピュータの構成を示すブロック図である。 本発明の好適な実施形態の一例に係るデータ分類の学習処理フローを示す図である。 本発明の好適な実施形態の一例に係るカテゴリへの分類処理フローを示す図である。 本発明の好適な実施形態の一例に係る商品分類テーブルを示す図である。 本発明の好適な実施形態の一例に係るアクセス履歴テーブルを示す図である。 本発明の好適な実施形態の一例に係る分類学習テーブルを示す図である。
符号の説明
10 サーバ
20 端末装置
30 通信ネットワーク
40 商品分類テーブル
50 アクセス履歴テーブル
60 分類学習テーブル
110 制御部
120 記憶部
130 入力部
140 表示部
150 通信制御部
160 バス

Claims (8)

  1. 端末装置と通信ネットワークを介して接続され、前記端末装置のユーザに閲覧させる目的データをカテゴリに分類するサーバであって、
    前記目的データを複数の候補カテゴリデータと関連付けて商品分類テーブルに記憶する手段と、
    (a)前記端末装置から、前記ユーザによる前記複数の候補カテゴリデータのうち一の選択を表すデータを受信したことに応じて、前記選択をした候補カテゴリデータに関連付けられた目的データを送信する手段と、
    (b)前記端末装置から前記ユーザによる前記目的データの選択を表すデータを受け付けたことに応じて、前記ユーザが前記選択をした候補カテゴリデータの選択回数データをカウントアップして、前記選択をした目的データ前記選択をした候補カテゴリデータに関連付けて記憶する手段と、
    (c)所定の期間における前記選択回数データに基づき、前記目的データを分類する前記カテゴリの決定をする手段と、
    (d)前記決定をしたカテゴリデータと関連付けて、前記目的データに含まれるキーワードデータを抽出して記憶する手段と、
    前記目的データとは別の新たな目的データの登録を受け付けたことに応じて、前記新たな目的データと前記キーワードデータとの類似度の算出をする手段と、
    前記算出をした類似度に基づくカテゴリの評価に従い、前記新たな目的データを分類する前記複数の候補カテゴリを決定して前記新たな目的データと関連付けて前記商品分類テーブルに記憶する手段と、
    前記(a)から(d)の処理を繰り返す手段と、
    を備えるサーバ。
  2. 前記決定をするカテゴリは、前記候補カテゴリデータの選択回数が所定の回数以上のものであることを特徴とする請求項1に記載のサーバ。
  3. 前記決定をするカテゴリは、前記候補カテゴリデータの選択回数が所定の順位以上のものであることを特徴とする請求項1に記載のサーバ。
  4. 前記決定をするカテゴリは、前記候補カテゴリデータの選択回数の相対評価により決定するものであることを特徴とする請求項1に記載のサーバ。
  5. 前記目的データを複数の前記候補カテゴリデータと関連付けて記憶する手段が、前記目的データと前記キーワードデータとの類似度の算出をし、当該算出をした類似度に基づくカテゴリの評価に従い前記候補カテゴリデータを選択することを特徴とする請求項1から4のいずれかに記載のサーバ。
  6. 前記決定をしたカテゴリデータと関連付けて前記目的データに含まれるキーワードデータを抽出して記憶する手段が、前記カテゴリの選択回数に基づく選択確率データを更に関連付けて記憶し、
    前記キーワードデータに関連付くカテゴリの評価が、前記類似度および前記選択確率データに基づくことを特徴とする請求項1から5のいずれかに記載のサーバ。
  7. 端末装置と通信ネットワークを介して接続されたサーバが、前記端末装置のユーザに閲覧させる目的データをカテゴリに分類する方法であって、
    前記目的データを複数の候補カテゴリデータと関連付けて商品分類テーブルに記憶するステップと、
    (a)前記端末装置から、前記ユーザによる前記複数の候補カテゴリデータのうち一の選択を表すデータを受信したことに応じて、前記選択をした候補カテゴリデータに関連付けられた目的データを送信するステップと、
    (b)前記端末装置から前記ユーザによる前記目的データの選択を表すデータを受け付けたことに応じて、前記ユーザが前記選択をした候補カテゴリデータの選択回数データをカウントアップして、前記選択をした目的データ前記選択をした候補カテゴリデータに関連付けて記憶するステップと、
    (c)所定の期間における前記選択回数データに基づき、前記目的データを分類する前記カテゴリの決定をするステップと、
    (d)前記決定をしたカテゴリデータと関連付けて、前記目的データに含まれるキーワードデータを抽出して記憶するステップと、
    前記目的データとは別の新たな目的データの登録を受け付けたことに応じて、前記新たな目的データと前記キーワードデータとの類似度の算出をするステップと、
    前記算出をした類似度に基づくカテゴリの評価に従い、前記新たな目的データを分類する前記複数の候補カテゴリを決定して前記新たな目的データと関連付けて前記商品分類テーブルに記憶するステップと、
    前記(a)から(d)の処理を繰り返すステップと、
    を含む方法。
  8. 端末装置と通信ネットワークを介して接続されたサーバに、前記端末装置のユーザに閲覧させる目的データをカテゴリに分類させるプログラムであって、
    前記目的データを複数の候補カテゴリデータと関連付けて商品分類テーブルに記憶させるステップと、
    (a)前記端末装置から、前記ユーザによる前記複数の候補カテゴリデータのうち一の選択を表すデータを受信したことに応じて、前記選択をした候補カテゴリデータに関連付けられた目的データを送信させるステップと、
    (b)前記端末装置から前記ユーザによる前記目的データの選択を表すデータを受け付けたことに応じて、前記ユーザが前記選択をした候補カテゴリデータの選択回数データをカウントアップして、前記選択をした目的データ前記選択をした候補カテゴリデータに関連付けて記憶させるステップと、
    (c)所定の期間における前記選択回数データに基づき、前記目的データを分類する前記カテゴリの決定をさせるステップと、
    (d)前記決定をしたカテゴリデータと関連付けて、前記目的データに含まれるキーワードデータを抽出して記憶させるステップと、
    前記目的データとは別の新たな目的データの登録を受け付けたことに応じて、前記新たな目的データと前記キーワードデータとの類似度の算出をさせるステップと、
    前記算出をした類似度に基づくカテゴリの評価に従い、前記新たな目的データを分類する前記複数の候補カテゴリを決定して前記新たな目的データと関連付けて前記商品分類テーブルに記憶させるステップと、
    前記(a)から(d)の処理を繰り返させるステップと、
    を実行させるプログラム。
JP2006071958A 2006-03-16 2006-03-16 目的データをカテゴリに分類する方法 Active JP4891638B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006071958A JP4891638B2 (ja) 2006-03-16 2006-03-16 目的データをカテゴリに分類する方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006071958A JP4891638B2 (ja) 2006-03-16 2006-03-16 目的データをカテゴリに分類する方法

Publications (3)

Publication Number Publication Date
JP2007249600A JP2007249600A (ja) 2007-09-27
JP2007249600A5 JP2007249600A5 (ja) 2009-03-05
JP4891638B2 true JP4891638B2 (ja) 2012-03-07

Family

ID=38593822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006071958A Active JP4891638B2 (ja) 2006-03-16 2006-03-16 目的データをカテゴリに分類する方法

Country Status (1)

Country Link
JP (1) JP4891638B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5272585B2 (ja) * 2008-09-01 2013-08-28 日本電気株式会社 情報処理装置、情報分類方法及びプログラム
US9600468B2 (en) 2009-12-11 2017-03-21 Nec Corporation Dictionary creation device, word gathering method and recording medium
CN102253936B (zh) * 2010-05-18 2013-07-24 阿里巴巴集团控股有限公司 记录用户访问商品信息的方法及搜索方法和服务器
CN103368986B (zh) 2012-03-27 2017-04-26 阿里巴巴集团控股有限公司 一种信息推荐方法及信息推荐装置
US9141707B2 (en) 2012-07-19 2015-09-22 Facebook, Inc. Context-based object retrieval in a social networking system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4756762B2 (ja) * 2001-03-30 2011-08-24 富士通株式会社 変更支援装置及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2007249600A (ja) 2007-09-27

Similar Documents

Publication Publication Date Title
CN110163647B (zh) 一种数据处理方法及装置
CN104834729B (zh) 题目推荐方法和题目推荐装置
CN109271574A (zh) 一种热词推荐方法及装置
US8019754B2 (en) Method of searching text to find relevant content
JP3225912B2 (ja) 情報検索装置、方法及び記録媒体
US7693904B2 (en) Method and system for determining relation between search terms in the internet search system
WO2016180270A1 (zh) 网页分类方法和装置、计算设备以及机器可读存储介质
US20140229476A1 (en) System for Information Discovery & Organization
US20100205198A1 (en) Search query disambiguation
US20090319449A1 (en) Providing context for web articles
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
US20110184946A1 (en) Applying synonyms to unify text search with faceted browsing classification
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
WO2016187705A1 (en) System and method for ranking search results
KR20100107610A (ko) 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
CN110347701B (zh) 一种面向实体检索查询的目标类型标识方法
CN111460251A (zh) 数据内容个性化推送冷启动方法、装置、设备和存储介质
CN111444304A (zh) 搜索排序的方法和装置
KR101472451B1 (ko) 디지털 콘텐츠 관리 시스템 및 방법
US9971782B2 (en) Document tagging and retrieval using entity specifiers
CN106462644B (zh) 标识来自多个结果页面标识的优选结果页面
CN113869034B (zh) 基于强化依赖图的方面情感分类方法
CN110008396B (zh) 对象信息推送方法、装置、设备及计算机可读存储介质
CN118246540B (zh) 一种交互方法、装置、设备及存储介质
JP4891638B2 (ja) 目的データをカテゴリに分類する方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111216

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4891638

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250