JP2008242689A - Content classification system, server, terminal device, program, and recording medium - Google Patents
Content classification system, server, terminal device, program, and recording medium Download PDFInfo
- Publication number
- JP2008242689A JP2008242689A JP2007080554A JP2007080554A JP2008242689A JP 2008242689 A JP2008242689 A JP 2008242689A JP 2007080554 A JP2007080554 A JP 2007080554A JP 2007080554 A JP2007080554 A JP 2007080554A JP 2008242689 A JP2008242689 A JP 2008242689A
- Authority
- JP
- Japan
- Prior art keywords
- classification rule
- rule information
- server
- classification
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、ネットニュース等のコンテンツ情報の分類規則を示す分類規則情報に基づいてコンテンツ情報を分類する技術に関する。 The present invention relates to a technique for classifying content information based on classification rule information indicating a classification rule for content information such as net news.
コンテンツ情報の自動分類システムの動作は、分類規則情報の生成と、分類規則情報に基づいたコンテンツ情報の分類との2ステップで構成される。分類規則情報の生成には十分な量の教師データ(学習データ)が必要となる。例えば、PHPNaiveBaysianFilter(非特許文献1参照)に代表される自動分類システムは、ユーザ自身による教師データを利用して分類規則情報を生成し、その分類規則情報に基づいて自動分類を行う。
しかし、従来の自動分類システムでは、ユーザ自身による大量の教師データがないと実用的な分類精度を実現することができないという問題があった。 However, the conventional automatic classification system has a problem that practical classification accuracy cannot be realized without a large amount of teacher data by the user.
本発明は、上述した課題に鑑みてなされたものであって、ユーザ側の教師データの量によらず、実用的な分類精度でコンテンツ情報の分類を実行することができるコンテンツ分類システム、サーバ、端末装置、プログラム、および記録媒体を提供することを目的とする。 The present invention has been made in view of the above-described problems, and is a content classification system, a server, and a server capable of performing classification of content information with practical classification accuracy regardless of the amount of user-side teacher data. It is an object to provide a terminal device, a program, and a recording medium.
本発明は、上記の課題を解決するためになされたもので、複数のユーザによるコンテンツ情報の分類結果に基づいた前記コンテンツ情報の分類規則を示す分類規則情報を記憶するサーバと、前記コンテンツ情報の分類を実行する端末装置とを備えたコンテンツ分類システムであって、前記サーバは、前記分類規則情報を記憶するサーバ側分類規則情報記憶手段と、前記分類規則情報を前記端末装置へ送信するサーバ側分類規則情報送信手段とを備え、前記端末装置は、前記コンテンツ情報を記憶する端末側コンテンツ情報記憶手段と、前記サーバから前記分類規則情報を受信する端末側分類規則情報受信手段と、受信された前記分類規則情報を記憶する端末側分類規則情報記憶手段と、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類する端末側分類手段とを備えたことを特徴とするコンテンツ分類システムである。 The present invention has been made in order to solve the above-described problem. A server that stores classification rule information indicating a classification rule of the content information based on a result of classification of content information by a plurality of users, A content classification system including a terminal device that executes classification, wherein the server is a server-side classification rule information storage unit that stores the classification rule information, and a server side that transmits the classification rule information to the terminal device A classification rule information transmitting means, wherein the terminal device has received a terminal side content information storage means for storing the content information, a terminal side classification rule information receiving means for receiving the classification rule information from the server, Terminal-side classification rule information storage means for storing the classification rule information, and the information stored in the terminal-side classification rule information storage means. A content classification system characterized in that a terminal-side classifying means for classifying the content information based on the rule information.
また、本発明のコンテンツ分類システムにおいて、前記サーバから前記分類規則情報が受信される前に前記端末側分類規則情報記憶手段に前記分類規則情報が記憶されている場合に、前記サーバから受信された前記分類規則情報と前記端末側分類規則情報記憶手段に記憶されている前記分類規則情報とを合成して新たな前記分類規則情報として前記端末側分類規則情報記憶手段に記憶させる合成手段を前記端末装置が備えたことを特徴とする。 In the content classification system of the present invention, the classification rule information received from the server when the classification rule information is stored in the terminal-side classification rule information storage means before the classification rule information is received from the server. Combining means for combining the classification rule information and the classification rule information stored in the terminal-side classification rule information storage means and storing the new classification rule information in the terminal-side classification rule information storage means as the terminal A device is provided.
また、本発明のコンテンツ分類システムにおいて、前記端末装置は、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する端末側更新手段と、更新による前記分類規則情報の差分を示す差分情報を前記サーバへ送信する差分情報送信手段とを備え、前記サーバは、前記端末装置から前記差分情報を受信する差分情報受信手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記差分情報に基づいて更新する第1のサーバ側更新手段とを備えたことを特徴とする。 In the content classification system of the present invention, the terminal device updates the classification rule information stored in the terminal-side classification rule information storage unit based on a classification result of the content information; Difference information transmitting means for transmitting difference information indicating a difference of the classification rule information by update to the server, the server receiving difference information receiving means from the terminal device, and the server side classification And a first server-side updating unit that updates the classification rule information stored in the rule information storage unit based on the difference information.
また、本発明のコンテンツ分類システムにおいて、前記端末装置は、ユーザが希望するカテゴリを示すカテゴリ情報を前記サーバへ送信するカテゴリ情報送信手段を備え、前記サーバは、前記端末装置から前記カテゴリ情報を受信するカテゴリ情報受信手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記カテゴリ情報が示すカテゴリと類似したカテゴリの前記分類規則情報を検索する検索手段とを備え、前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信することを特徴とする。 In the content classification system of the present invention, the terminal device includes category information transmission means for transmitting category information indicating a category desired by a user to the server, and the server receives the category information from the terminal device. Category information receiving means, and search means for searching the classification rule information of a category similar to the category indicated by the category information from the classification rule information stored in the server-side classification rule information storage means. The server-side classification rule information transmitting unit transmits the classification rule information searched by the search unit to the terminal device.
また、本発明のコンテンツ分類システムにおいて、前記端末装置は、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記サーバへ送信する端末側分類規則情報送信手段を備え、前記サーバは、前記端末装置から前記分類規則情報を受信するサーバ側分類規則情報受信手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記サーバ側分類規則情報受信手段によって受信された前記分類規則情報と類似した前記分類規則情報を検索する検索手段とを備え、前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信することを特徴とする。 In the content classification system of the present invention, the terminal device includes terminal-side classification rule information transmitting means for transmitting the classification rule information stored in the terminal-side classification rule information storage means to the server, and the server The server side classification rule information receiving means receives the classification rule information from the terminal device, and the server side classification rule information is received from the classification rule information stored in the server side classification rule information storage means. Search means for searching for the classification rule information similar to the classification rule information received by the means, and the server-side classification rule information transmission means sends the classification rule information searched by the search means to the terminal device. It is characterized by transmitting to.
また、本発明のコンテンツ分類システムにおいて、前記サーバ側分類規則情報記憶手段がユーザクラスタ毎に前記分類規則情報を記憶することを特徴とする。 In the content classification system of the present invention, the server-side classification rule information storage unit stores the classification rule information for each user cluster.
また、本発明のコンテンツ分類システムにおいて、前記サーバは、前記コンテンツ情報を記憶するサーバ側コンテンツ情報記憶手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類するサーバ側分類手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する第2のサーバ側更新手段とを備えたことを特徴とする。 In the content classification system according to the present invention, the server may include a server-side content information storage unit that stores the content information, and the content based on the classification rule information stored in the server-side classification rule information storage unit. Server-side classification means for classifying information; and second server-side update means for updating the classification rule information stored in the server-side classification rule information storage means based on the result of classification of the content information. It is characterized by that.
また、本発明は、複数のユーザによるコンテンツ情報の分類結果に基づいた前記コンテンツ情報の分類規則を示す分類規則情報を記憶するサーバ側分類規則情報記憶手段と、前記コンテンツ情報の分類を実行する端末装置へ前記分類規則情報を送信するサーバ側分類規則情報送信手段とを備えたことを特徴とするサーバである。 The present invention also provides a server-side classification rule information storage unit that stores classification rule information indicating a classification rule of the content information based on a result of classification of content information by a plurality of users, and a terminal that executes the classification of the content information A server comprising server-side classification rule information transmitting means for transmitting the classification rule information to an apparatus.
また、本発明のサーバにおいて、前記端末装置が前記分類規則情報に基づいて前記コンテンツ情報を分類し、前記コンテンツ情報の分類結果に基づいて前記分類規則情報を更新し、更新による前記分類規則情報の差分を示す差分情報を前記サーバへ送信した場合に、前記差分情報を前記端末装置から受信する差分情報受信手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記差分情報に基づいて更新する第1のサーバ側更新手段とを備えたことを特徴とする。 In the server of the present invention, the terminal device classifies the content information based on the classification rule information, updates the classification rule information based on the classification result of the content information, and updates the classification rule information by the update. When the difference information indicating the difference is transmitted to the server, the difference information receiving means for receiving the difference information from the terminal device and the classification rule information stored in the server-side classification rule information storage means are the difference. And a first server side updating means for updating based on the information.
また、本発明のサーバにおいて、ユーザが希望するカテゴリを示すカテゴリ情報を前記端末装置から受信するカテゴリ情報受信手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記カテゴリ情報が示すカテゴリと類似したカテゴリの前記分類規則情報を検索する検索手段とを備え、前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信することを特徴とする。 In the server of the present invention, the category information receiving means for receiving category information indicating the category desired by the user from the terminal device, and the classification rule information stored in the server-side classification rule information storage means. Search means for searching for the classification rule information of a category similar to the category indicated by the category information, wherein the server-side classification rule information transmission means uses the classification rule information searched by the search means as the terminal device. It is characterized by transmitting to.
また、本発明のサーバにおいて、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記端末装置から受信するサーバ側分類規則情報受信手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記サーバ側分類規則情報受信手段によって受信された前記分類規則情報と類似した前記分類規則情報を検索する検索手段とを備え、前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信することを特徴とする。 In the server of the present invention, server-side classification rule information receiving means for receiving the classification rule information stored in the terminal-side classification rule information storage means from the terminal device, and the server-side classification rule information storage means Searching means for searching the classification rule information similar to the classification rule information received by the server-side classification rule information receiving means from the stored classification rule information, and the server-side classification rule information The transmission means transmits the classification rule information searched by the search means to the terminal device.
また、本発明のサーバにおいて、前記サーバ側分類規則情報記憶手段がユーザクラスタ毎に前記分類規則情報を記憶することを特徴とする。 In the server of the present invention, the server-side classification rule information storage unit stores the classification rule information for each user cluster.
また、本発明のサーバにおいて、前記コンテンツ情報を記憶するサーバ側コンテンツ情報記憶手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類するサーバ側分類手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する第2のサーバ側更新手段とを備えたことを特徴とする。 In the server of the present invention, a server-side content information storage unit that stores the content information, and a server side that classifies the content information based on the classification rule information stored in the server-side classification rule information storage unit It is characterized by comprising: classifying means; and second server side updating means for updating the classification rule information stored in the server side classification rule information storage means based on the classification result of the content information.
また、本発明は、コンテンツ情報を記憶する端末側コンテンツ情報記憶手段と、複数のユーザによるコンテンツ情報の分類結果に基づいた前記コンテンツ情報の分類規則を示す分類規則情報をサーバから受信する端末側分類規則情報受信手段と、受信された前記分類規則情報を記憶する端末側分類規則情報記憶手段と、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類する端末側分類手段とを備えたことを特徴とする端末装置である。 The present invention also provides terminal-side content information storage means for storing content information, and terminal-side classification that receives classification rule information indicating a classification rule for the content information based on the result of classification of content information by a plurality of users from a server. The content information is classified based on the rule information receiving means, the terminal-side classification rule information storage means for storing the received classification rule information, and the classification rule information stored in the terminal-side classification rule information storage means The terminal device is characterized by comprising a terminal-side classification means.
また、本発明の端末装置において、前記サーバから前記分類規則情報が受信される前に前記端末側分類規則情報記憶手段に前記分類規則情報が記憶されている場合に、前記サーバから受信された前記分類規則情報と前記端末側分類規則情報記憶手段に記憶されている前記分類規則情報とを合成して新たな前記分類規則情報として前記端末側分類規則情報記憶手段に記憶させる合成手段を備えたことを特徴とする。 Further, in the terminal device of the present invention, when the classification rule information is stored in the terminal-side classification rule information storage means before the classification rule information is received from the server, the classification rule information received from the server is received. Combining means for combining the classification rule information and the classification rule information stored in the terminal-side classification rule information storage means and storing the new classification rule information in the terminal-side classification rule information storage means is provided. It is characterized by.
また、本発明の端末装置において、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する端末側更新手段と、更新による前記分類規則情報の差分を示す差分情報を前記サーバへ送信する差分情報送信手段とを備えたことを特徴とする。 Further, in the terminal device of the present invention, terminal side update means for updating the classification rule information stored in the terminal side classification rule information storage means based on a classification result of the content information, and the classification rule information by update And difference information transmitting means for transmitting difference information indicating the difference to the server.
また、本発明の端末装置において、ユーザが希望するカテゴリを示すカテゴリ情報を前記サーバへ送信するカテゴリ情報送信手段を備えたことを特徴とする。 The terminal device of the present invention is characterized by comprising category information transmitting means for transmitting category information indicating a category desired by the user to the server.
また、本発明の端末装置において、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記サーバへ送信する端末側分類規則情報送信手段を備えたことを特徴とする。 The terminal device according to the present invention further includes terminal-side classification rule information transmitting means for transmitting the classification rule information stored in the terminal-side classification rule information storage means to the server.
また、本発明は、上記のサーバとしてコンピュータを機能させるためのプログラムである。 Moreover, this invention is a program for functioning a computer as said server.
また、本発明は、上記の端末装置としてコンピュータを機能させるためのプログラムである。 Moreover, this invention is a program for functioning a computer as said terminal device.
また、本発明は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。 The present invention is a computer-readable recording medium on which the above program is recorded.
本発明によれば、サーバから端末装置へ分類規則情報が送信され、端末装置がその分類規則情報をコンテンツ情報の分類に利用することが可能となるので、端末装置における教師データの量によらず、実用的な分類精度でコンテンツ情報の分類を実行することができるという効果が得られる。 According to the present invention, the classification rule information is transmitted from the server to the terminal device, and the terminal device can use the classification rule information for content information classification. Therefore, regardless of the amount of teacher data in the terminal device. Thus, it is possible to obtain an effect that the content information can be classified with practical classification accuracy.
以下、図面を参照し、本発明の実施形態を説明する。図1は、本発明の一実施形態によるニュース分類システム(コンテンツ分類システム)の構成を示している。本ニュース分類システムは、ニュース配信装置1、サーバ2、およびユーザ端末3(端末装置)を備え、これらがネットワーク4に接続されている。ニュース配信装置1は、ネットワーク4を介してニュースデータを配信する。サーバ2は、ニュースデータの分類規則を示す分類規則情報を管理し、ユーザ端末3によるニュースデータの分類結果およびサーバ2自身によるニュースデータの分類結果に基づいて自身の分類規則情報を更新する。ユーザ端末3はユーザが所持する端末である。図1には1台だけユーザ端末3が図示されているが、ユーザ端末3と同様のユーザ端末が複数存在しているものとする。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 shows the configuration of a news classification system (content classification system) according to an embodiment of the present invention. The news classification system includes a
サーバ2において通信部20は、ネットワーク4を介してニュース配信装置1およびユーザ端末3と通信を行う。ニュース保存部21は、通信部20によってニュース配信装置1から受信されたニュースデータをニュース記憶部22に格納する。ニュース記憶部22はニュースデータを記憶する。分類規則情報管理部23は、分類規則情報記憶部24に保存される分類規則情報を管理する。以下、サーバ2で管理される分類規則情報をサーバ用分類規則情報と記す。
In the
分類規則情報記憶部24はサーバ用分類規則情報、および後述する類義語辞書を記憶する。ニュース分類部25は、サーバ用分類規則情報に基づいてニュースデータを分類する。ニュースデータの分類はカテゴリラベル(車、グルメ、ビジネス、エンターテイメント等)への関連付けとして行われる。ニュース記憶部22および分類規則情報記憶部24は、別個の記録媒体により構成してもよいし、同一の記録媒体内の別個の記録領域により構成してもよい。
The classification rule
ユーザ端末3において通信部30は、ネットワーク4を介してニュース配信装置1およびサーバ2と通信を行う。ニュース保存部31は、通信部30によってニュース配信装置1から受信されたニュースデータをニュース記憶部32に格納する。ニュース記憶部32はニュースデータを記憶する。分類規則情報管理部33は、分類規則情報記憶部34に保存される分類規則情報を管理する。以下、ユーザ端末3で管理される分類規則情報をユーザ用分類規則情報と記す。
In the
分類規則情報記憶部34はユーザ用分類規則情報を記憶する。ニュース分類部35は、ユーザ用分類規則情報に基づいてニュースデータを分類する。サーバ2と同様にユーザ端末3においても、ニュースデータの分類はカテゴリラベルへの関連付けとして行われる。情報入力部36は、後述するようにユーザが手動によりニュースデータを分類する際や、サーバ2からサーバ用分類規則情報を取得するために希望するカテゴリラベルを入力する際などに、ユーザによって入力された情報を処理する。ニュース記憶部32および分類規則情報記憶部34は、別個の記録媒体により構成してもよいし、同一の記録媒体内の別個の記録領域により構成してもよい。
The classification rule
次に、本実施形態で利用されるデータを説明する。図2は、ニュース配信装置1におけるニュースデータの一例を示している。ニュース配信装置1によって管理されるニュースデータは、ニュースの提供元(新聞社等)により定期的に更新される。ニュースID200は、各ニュースに付与される識別符号である。各ニュースIDがユニークであるとは限らない。ニュースタイトル210およびニュース本文220はテキストデータである。
Next, data used in the present embodiment will be described. FIG. 2 shows an example of news data in the
図3は、サーバ2で管理されるユーザデータの一例を示している。ユーザID300は、ニュース分類システムを利用するユーザに付与される識別符号である。クラスタID310はユーザが所属するクラスタのIDである。各ユーザは、複数のユーザクラスタ(ユーザグループ)のいずれかに所属している。ユーザクラスタには男性用クラスタ、女性用クラスタ等がある。同じユーザクラスタに所属するユーザ同士の嗜好は、異なるユーザクラスタに属するユーザ同士の嗜好よりも近い。
FIG. 3 shows an example of user data managed by the
図4は、サーバ2におけるニュースデータの一例を示している。ニュースID400およびニュースタイトル410は、図2に示したニュースID200およびニュースタイトル210と同様である。単語420は、ニュース本文に含まれる単語である。ニュース配信装置1から受信されたニュースデータがニュース記憶部22に保存されるときに、ニュース保存部21によってニュース本文のデータから単語が抽出される。
FIG. 4 shows an example of news data in the
図5は、サーバ2における類義語辞書の一例を示している。1つの代表語500に対して、その代表語500に関連する意味を有する1または複数の関連語510が関連付けられている。類義語辞書の具体的な使用方法は後述する。
FIG. 5 shows an example of a synonym dictionary in the
図6および図7は、サーバ2におけるサーバ用分類規則情報の一例を示している。サーバ用分類規則情報は、最初に複数のユーザのユーザ用分類規則情報を合成することにより生成された後、サーバ2またはユーザ端末3でのニュースデータの分類結果に基づいて更新される。本実施形態におけるサーバ用分類規則情報はユーザクラスタ毎に用意されている。また、各ユーザクラスタのサーバ用分類規則情報は、集計元データ、単語頻度テーブル、および文書頻度テーブルから構成される。
6 and 7 show an example of server classification rule information in the
集計元データは、分類対象となるニュースデータから抽出したデータであり、ユーザ端末3においてニュースデータの分類時に生成され、定期的にサーバ2へ送信される。また、図示しないが、サーバ2におけるニュースデータの分類時にも集計元データが生成される。図6(a)は、クラスタIDがUC1であるユーザクラスタUC1に所属するユーザのユーザ端末3から取得した集計元データを示し、図7(a)は、クラスタIDがUC2であるユーザクラスタUC2に所属するユーザのユーザ端末3から取得した集計元データを示している。集計元データは、ユーザID600(ユーザID700)、ニュースID610(ニュースID710)ニュース本文に含まれる単語620a,620b,620c(単語720a,720b,720c)の頻度、およびニュースデータの分類先のカテゴリラベル630(カテゴリラベル730)から構成されている。
The aggregation source data is data extracted from the news data to be classified, is generated when the news data is classified in the
単語頻度テーブルは、所定のカテゴリラベルに分類されたニュースデータのニュース本文に含まれる各単語の頻度を示している。図6(b)はユーザクラスタUC1の単語頻度テーブルを示し、図7(b)はユーザクラスタUC2の単語頻度テーブルを示している。単語頻度テーブルは、カテゴリラベル640(カテゴリラベル740)、単語650a,650b,650c,650d(単語750a,750b,750c)の頻度、および各単語の頻度の合計660(合計760)から構成されている。
The word frequency table shows the frequency of each word included in the news body of news data classified into a predetermined category label. FIG. 6B shows a word frequency table of the user cluster UC1, and FIG. 7B shows a word frequency table of the user cluster UC2. The word frequency table includes a category label 640 (category label 740),
文書頻度テーブルは、所定のカテゴリラベルに分類されたニュースデータの数(文書数)を示している。図6(c)はユーザクラスタUC1の文書頻度テーブルを示し、図7(c)はユーザクラスタUC2の文書頻度テーブルを示している。文書頻度テーブルは、カテゴリラベル670(カテゴリラベル770)および文書数680(文書数780)から構成されている。 The document frequency table indicates the number of news data (number of documents) classified into a predetermined category label. FIG. 6C shows a document frequency table of the user cluster UC1, and FIG. 7C shows a document frequency table of the user cluster UC2. The document frequency table includes a category label 670 (category label 770) and a document number 680 (document number 780).
図6および図7に示したように、サーバ用分類規則情報はカテゴリラベルと関連付けられている。このことから、後述するように、カテゴリラベル毎にサーバ用分類規則情報をユーザに提示することが可能となっている。 As shown in FIGS. 6 and 7, the server classification rule information is associated with the category label. Thus, as will be described later, it is possible to present server classification rule information to the user for each category label.
図8は、ユーザ端末3におけるニュースデータの一例を示している。種別800は、ニュースの既読・未読の種別を示している。種別810はニュースデータの分類方法を示している。ニュースデータの分類が実行された場合には“自動”または“手動”が種別810としてニュースデータに付与され、ニュースデータの分類が実行されていない場合には“未分類”が種別810としてニュースデータに付与される。“自動”は、ユーザ用分類規則情報に基づいてニュースデータの自動分類が実行されたことを示している。“手動”は、ユーザ用分類規則情報に基づいてニュースデータの自動分類が実行されたか否かにかかわらず、最終的にユーザの手動操作によってニュースデータの分類が実行されたことを示している。
FIG. 8 shows an example of news data in the
カテゴリラベル820は、ニュースデータの分類先のカテゴリラベルを示している。ニュースデータの分類が一度も実行されていない場合には、“未分類”がカテゴリラベル820として付与される。ニュースID830、ニュースタイトル840、およびニュース本文850は、図2に示したニュースID200、ニュースタイトル210、およびニュース本文220と同様である。
The
図9は、ユーザ端末3におけるユーザ用分類規則情報の一例を示している。ユーザ用分類規則情報は、図9(a)に示す集計元データと、図9(b)に示す単語頻度テーブルと、図9(c)に示す文書頻度テーブルと、図9(d)に示す差分単語頻度テーブルと、図9(e)に示す差分文書頻度テーブルとから構成される。
FIG. 9 shows an example of user classification rule information in the
図9(a)に示す集計元データは、分類対象となるニュースデータから抽出したデータであり、ニュースデータの分類時にニュース分類部35によって生成される。集計元データは、ニュースID900、ニュース本文に含まれる単語910a,910b,910cの頻度、およびニュースデータの分類先のカテゴリラベル920から構成されている。
Aggregation source data shown in FIG. 9A is data extracted from news data to be classified, and is generated by the
図9(b)に示す単語頻度テーブルは、図6(b)および図7(b)に示した単語頻度テーブルと同様である。図9(c)に示す文書頻度テーブルは、図6(c)および図7(c)に示した文書頻度テーブルと同様である。上記の単語頻度テーブルおよび文書頻度テーブルは、ニュースデータの分類が実行される毎に集計元データに基づいて更新される。 The word frequency table shown in FIG. 9B is the same as the word frequency table shown in FIGS. 6B and 7B. The document frequency table shown in FIG. 9C is the same as the document frequency table shown in FIGS. 6C and 7C. The word frequency table and the document frequency table are updated based on the aggregation source data every time news data is classified.
図9(d)に示す差分単語頻度テーブル、および図9(e)に示す差分文書頻度テーブルは、ユーザ端末3がユーザ用分類規則情報を更新することにより発生するユーザ用分類規則情報の変化の差分を示す差分情報を構成している。図9(d)に示す差分単語頻度テーブルは、単語頻度テーブルに関する差分情報を示している。また、図9(e)に示す差分文書頻度テーブルは、文書頻度テーブルに関する差分情報を示している。
The difference word frequency table shown in FIG. 9D and the difference document frequency table shown in FIG. 9E show changes in user classification rule information that occur when the
これらの差分情報は、サーバ2におけるサーバ用分類規則情報の更新のためにサーバ2へ送信される。本実施形態では、最後に差分情報がサーバ2へ送信されたときのユーザ用分類規則情報と最新のユーザ用分類規則情報との差分により差分情報が構成される。このため、最後に差分情報がサーバ2へ送信されたときのユーザ用分類規則情報が、ニュースデータの分類に用いられる最新のユーザ用分類規則情報とは別個に分類規則情報記憶部34に保存される。
The difference information is transmitted to the
次に、サーバ2におけるカテゴリラベルの管理方法を説明する。カテゴリラベル数の爆発的増加を抑えるため、および各ユーザが独自に付与したカテゴリラベル同士の対応付けを行うために、カテゴリラベルを妥当な数のカテゴリラベルに集約することが望ましい。このため、本実施形態では以下のようにしてカテゴリラベルが管理される。以下、カテゴリラベルの管理方法の一例として、2つの方法を説明する。
Next, a method for managing category labels in the
まず、類義語辞書を利用する方法を説明する。前述したように、代表語と類義語のリストをペアとする類義語辞書がサーバ2の分類規則情報記憶部24に保存される。類義語辞書は、ユーザによって付与されたカテゴリラベルを、サーバ用分類規則情報に用いるカテゴリラベルに変換する場合に利用される。その場合、ユーザにより付与されたカテゴリラベルを類義語としてその代表語が検索され、ユーザにより付与されたカテゴリラベルが代表語に置き換えられる。類義語辞書を更新するには、例えば類義語辞書にない単語を別途保存し、これを用いて定期的に手動により類義語辞書を更新すればよい。
First, a method using a synonym dictionary will be described. As described above, a synonym dictionary having a pair of a representative word and a synonym list is stored in the classification rule
次に、統計的手法によりカテゴリラベルをクラスタリングする方法を説明する。公知の統計的手法により、サーバ2が管理するカテゴリラベルの属するカテゴリラベルクラスタおよびその代表カテゴリラベルを決定する。より具体的には、カテゴリラベルのペアそれぞれのラベルの条件付き単語頻度分布同士を比較し、条件付き単語頻度分布間の距離(カルバックラブラー距離等)を算出する。カテゴリラベルの条件付き単語頻度分布の詳細は、ユーザ端末3によるニュースデータの分類時の動作を説明する際に説明する。
Next, a method for clustering category labels by a statistical method will be described. The category label cluster to which the category label managed by the
上記のようにして算出した距離をカテゴリラベル間の類似度とし、任意のクラスタ数でカテゴリラベル群をクラスタリングし、さらに各カテゴリラベルクラスタについて代表カテゴリラベルを決定する。ユーザによって付与されたカテゴリラベルを、サーバ用分類規則情報に用いるカテゴリラベルに変換する場合、ユーザによって付与されたカテゴリラベルが代表カテゴリラベルに変換される。 The distance calculated as described above is used as the similarity between category labels, the category label group is clustered by an arbitrary number of clusters, and a representative category label is determined for each category label cluster. When converting the category label given by the user into the category label used for the server classification rule information, the category label given by the user is converted into the representative category label.
次に、本実施形態におけるニュースデータの分類方法を説明する。まず、ユーザ端末3のニュース分類部35(サーバ2のニュース分類部25)はカテゴリラベルci(i=1,2,・・・,m)の頻度分布P(ci)を算出する。P(ci)は、ニュースデータの文書全体に対する各カテゴリラベルの文書の出現頻度の推定値を表しており、文書頻度テーブルに基づいて以下の(1)式に従って算出される。ただし、#d’は全文書の数であり、#d’()は()内の条件を満たす文書の数(#d’(ci)はカテゴリラベルciに分類された文書の数)である。
Next, a news data classification method according to the present embodiment will be described. First, the
続いて、ニュース分類部35(ニュース分類部25)は、カテゴリラベルciの条件付き単語wj(j=1,2,・・・,n)の頻度分布P(wj|ci)を算出する。P(wj|ci)は、特定のカテゴリラベルにおける特定の単語の出現頻度の推定値を表しており、単語頻度テーブルに基づいて以下の(2)式に従って算出される。ただし、Fは、カテゴリラベルciに分類された文書の単語ベクトル、|F|はその長さであり、#d’(wj,ci)は、カテゴリラベルciに分類され、単語wjを文書内に有する文書の数である。 Subsequently, the news classification unit 35 (news classification unit 25) obtains the frequency distribution P (w j | c i ) of the conditional word w j (j = 1, 2,..., N) of the category label c i. calculate. P (w j | c i ) represents an estimated value of the appearance frequency of a specific word in a specific category label, and is calculated according to the following equation (2) based on the word frequency table. However, F is a word vector of the document classified into the category label c i , | F | is its length, and #d ′ (w j , c i ) is classified into the category label c i , and the word w The number of documents that have j in the document.
続いて、ニュース分類部35(ニュース分類部25)は、文書dがカテゴリラベルciに分類される確率P(ci,d)を算出する。P(ci,d)は以下の(3)式に従って算出される。ただし、N(wj,d)は文書d中の単語wjの数である。 Subsequently, the news classification unit 35 (news classification unit 25) calculates the probability P (c i , d) that the document d is classified into the category label c i . P (c i , d) is calculated according to the following equation (3). Here, N (w j , d) is the number of words w j in the document d.
また、ニュース分類部35(ニュース分類部25)は、以下の(4)式に従って確率P(ci|d)を算出する。 Also, the news classification unit 35 (news classification unit 25) calculates a probability P (c i | d) according to the following equation (4).
全てのカテゴリラベルciについてP(ci|d)を算出した後、ニュース分類部35(ニュース分類部25)は、以下の(5)式のようにP(ci|d)が最大となるカテゴリラベルcを分類先のカテゴリラベルとする。続いて、ニュース分類部35(ニュース分類部25)は、ニュース記憶部32(ニュース記憶部22)に格納されている分類対象のニュースデータを読み出し、分類先のカテゴリラベルと関連付けてニュース記憶部32(ニュース記憶部22)に再度格納する。上述した(1)式〜(5)式の計算方法に関する情報もユーザ用分類規則情報(サーバ用分類規則情報)の一部として分類規則情報記憶部34(分類規則情報記憶部24)に格納されている。上述した分類方法による具体的な分類例は後述する。
After calculating P (c i | d) for all category labels c i , the news classification unit 35 (news classification unit 25) determines that P (c i | d) is the maximum as shown in the following equation (5). This category label c is a category label of the classification destination. Subsequently, the news classification unit 35 (news classification unit 25) reads the news data to be classified stored in the news storage unit 32 (news storage unit 22), associates it with the category label of the classification destination, and stores the
次に、本実施形態によるニュース分類システムの動作を説明する。まず、図10を参照しながら、ユーザに適したサーバ用分類規則情報をサーバ2が検索する動作を説明する。図10(a)は、ユーザが希望するカテゴリラベルと類似したカテゴリラベルのサーバ用分類規則情報を検索する動作を示している。また、図10(b)は、ユーザ用分類規則情報と類似したサーバ用分類規則情報を検索する動作を示している。
Next, the operation of the news classification system according to the present embodiment will be described. First, the operation in which the
図10(a)において、ニュース分類システムによるサービスを初めて利用する場合などに、ユーザが希望するカテゴリラベルの一覧(カテゴリラベルリスト)がユーザ端末3の情報入力部36に入力される(ステップS100)。情報入力部36は、入力されたカテゴリラベルリストを通信部30へ出力する。通信部30はカテゴリラベルリストをサーバ2へ送信する(ステップS110)。
In FIG. 10A, when using the service by the news classification system for the first time, a list of category labels desired by the user (category label list) is input to the
サーバ2の通信部20はユーザ端末3からのカテゴリラベルリストを受信し、分類規則情報管理部23へ出力する。分類規則情報管理部23は、分類規則情報記憶部24が記憶しているサーバ用分類規則情報の中から、ユーザが希望するカテゴリラベルと類似したカテゴリラベルのサーバ用分類規則情報を検索する(ステップS120)。
The
この検索の方法の一例として、2つの方法を説明する。まず、カテゴリラベルリストと類義語辞書を利用する方法を説明する。分類規則情報管理部23は、類義語辞書を用いて、ユーザが希望するカテゴリラベルリストの各要素をその代表語で置き換えたとき、その代表語からなるカテゴリラベルリストがサーバ用分類規則情報のカテゴリラベルの集合に含まれる割合を算出する。この割合がユーザのカテゴリラベルリストとサーバ用分類規則情報中のカテゴリラベルとの間の類似度である。そして、分類規則情報管理部23は、類似度が高いカテゴリラベルと関連付けられているサーバ用分類規則情報を検索する。
As an example of this search method, two methods will be described. First, a method of using a category label list and a synonym dictionary will be described. The classification rule
次に、サーバ用分類規則情報中のカテゴリラベルの条件付き単語頻度分布((2)式を参照)およびそれに含まれる単語群を利用する方法を説明する。分類規則情報管理部23はサーバ用分類規則情報中の各カテゴリラベルに含まれる単語群と、ユーザが希望するカテゴリラベルリストに含まれる単語群とを照合し、共通する単語群を抽出する。続いて、分類規則情報管理部23は共通単語群のカテゴリラベルの条件付き単語頻度分布を合算し、それをユーザのカテゴリラベルリストとサーバ用分類規則情報中のカテゴリラベルとの間の類似度とする。そして、分類規則情報管理部23は、類似度が高いカテゴリラベルと関連付けられているサーバ用分類規則情報を検索する。
Next, a method of using a conditional word frequency distribution (see equation (2)) of category labels in the server classification rule information and a word group included therein will be described. The classification rule
図10(a)の説明に戻る。ステップS120に続いて、分類規則情報管理部23は、検索された(検索によって見つかった)サーバ用分類規則情報のカテゴリラベルの候補をユーザに提示するため、カテゴリラベルの候補からなるカテゴリラベルリストを通信部20へ出力する。通信部20はカテゴリラベルリストをユーザ端末3へ送信する(ステップS130)。
Returning to the description of FIG. Subsequent to step S120, the classification rule
ユーザ端末3の通信部30はサーバ2からのカテゴリラベルリストを受信し、分類規則情報管理部33へ出力する。分類規則情報管理部33は図示せぬ表示部にカテゴリラベルリストを表示する処理を実行する(ステップS140)。その表示を確認したユーザによって、希望するカテゴリラベルが選択され、選択結果が情報入力部36に入力される(ステップS150)。情報入力部36は、ユーザの選択結果を示す情報を通信部30へ出力する。通信部30はその情報をサーバ2へ送信する(ステップS160)。
The
ユーザがニュース分類システムを初めて利用する場合には、ユーザはまだユーザクラスタに所属しておらず、図10(a)に示した処理の終了後にユーザIDがユーザに付与され、そのユーザが所属するユーザクラスタが決定される。 When the user uses the news classification system for the first time, the user does not yet belong to the user cluster, and the user ID is given to the user after the process shown in FIG. A user cluster is determined.
以下、上記の動作の具体例を説明する。ユーザがニュース分類システムによる分類を初めて利用するものとする。図10(a)のステップS100において、ユーザが希望するカテゴリラベルとして、“車”と“ゴルフ”が入力されたとする。ステップS120において、サーバ2は、それらのカテゴリラベルに類似したサーバ用分類規則中のカテゴリラベルを検索する。
Hereinafter, a specific example of the above operation will be described. It is assumed that the user uses the classification by the news classification system for the first time. Assume that “car” and “golf” are input as category labels desired by the user in step S100 of FIG. In step S120, the
カテゴリラベルリストと類義語辞書を利用する方法では、カテゴリラベルの検索結果は以下のようになる。ユーザによって入力されたカテゴリラベル(“車”と“ゴルフ”)が類義語辞書内の代表語と同一であるものとすると、代表語への変換の必要はない。サーバ2は、ユーザが希望するカテゴリラベルリストについて、サーバ用分類規則情報のカテゴリラベルの集合に含まれる割合(類似度)を算出する。図11(a)は、サーバ用分類規則情報の各カテゴリラベルについて、ユーザが希望するカテゴリラベルリストとの類似度(括弧書きで示す)を示している。
In the method using the category label list and the synonym dictionary, the search result of the category label is as follows. If the category labels ("car" and "golf") entered by the user are the same as the representative words in the synonym dictionary, there is no need to convert them into representative words. The
この結果、ユーザ端末3において、図11(b)に示すカテゴリラベルリストの候補が表示される。ユーザが希望するカテゴリラベルとの類似度が高いカテゴリラベルリストの候補の1位はユーザクラスタUC1のカテゴリラベルリストであり、候補の2位はユーザクラスタUC2のカテゴリラベルリストである。各ユーザクラスタにおいてカテゴリラベルリストは、ユーザが希望するカテゴリラベルとの類似度が高い順に表示される。
As a result, the category label list candidates shown in FIG. 11B are displayed on the
また、サーバ用分類規則情報中のカテゴリラベルの条件付き単語頻度分布およびそれらに含まれる単語群を利用する方法では、サーバ2は、サーバ用分類規則情報中の各カテゴリラベルに含まれる単語群と、ユーザが希望するカテゴリラベルリストに含まれる単語群とに共通する単語群のカテゴリラベルの条件付き頻度分布を合算し、それをカテゴリラベルリストとサーバ用分類規則情報中のカテゴリラベルとの間の類似度とする。
Further, in the method of using the conditional word frequency distribution of the category labels in the server classification rule information and the word groups included therein, the
図11(c)は、サーバ用分類規則情報の各カテゴリラベルについて、ユーザが希望するカテゴリラベルリストとの類似度(括弧書きで示す)を示している。この類似度の算出結果に基づいて、ユーザ端末3においてカテゴリラベルリストの候補が表示される。表示されるカテゴリラベルリストは、図11(b)に示したものと同様である。
FIG. 11C shows the similarity (shown in parentheses) with the category label list desired by the user for each category label of the server classification rule information. Based on the similarity calculation result, category label list candidates are displayed on the
上記のようにしてカテゴリラベルリストの候補が提示された後、それらの候補の中から、ユーザが希望するカテゴリラベルが選択される。例えば、図11(d)に示すユーザクラスタUC1のカテゴリラベル(“車”と“ゴルフ”)が選択される。 After the category label list candidates are presented as described above, the category label desired by the user is selected from these candidates. For example, the category labels (“car” and “golf”) of the user cluster UC1 shown in FIG. 11 (d) are selected.
次に、図10(b)に示す動作を説明する。ユーザ端末3の分類規則情報管理部33は分類規則情報記憶部34からユーザ用分類規則情報を読み出し、通信部30へ出力する。通信部30はユーザ用分類規則情報をサーバ2へ送信する(ステップS200)。サーバ2の通信部20はユーザ端末3からのユーザ用分類規則情報を受信し、分類規則情報管理部23へ出力する。分類規則情報管理部23は、分類規則情報記憶部24が記憶しているサーバ用分類規則情報の中から、ユーザ用分類規則情報と類似したサーバ用分類規則情報を検索する(ステップS210)。
Next, the operation shown in FIG. 10B will be described. The classification rule
このとき、分類規則情報管理部23は、ユーザ用分類規則情報中の各カテゴリラベルの条件付き単語頻度分布((2)式を参照)とサーバ用分類規則情報中の各カテゴリラベルの条件付き単語頻度分布を算出する。さらに、分類規則情報管理部23は、算出したユーザ側とサーバ側の条件付き単語頻度分布同士を比較し、条件付き単語頻度分布間の距離(カルバックライブラー距離等)を算出し、この距離をカテゴリラベル毎のユーザ用分類規則情報とサーバ用分類規則情報の類似度とする。この類似度が高いカテゴリラベルの順に、カテゴリラベルがユーザに提示される。
At this time, the classification rule
続いて、分類規則情報管理部23は、検索された(検索によって見つかった)サーバ用分類規則情報のカテゴリラベルの候補をユーザに提示するため、カテゴリラベルの候補からなるカテゴリラベルリストを通信部20へ出力する。通信部20は分類規則情報リストをユーザ端末3へ送信する(ステップS220)。
Subsequently, the classification rule
ユーザ端末3の通信部30はサーバ2からのカテゴリラベルリストを受信し、分類規則情報管理部33へ出力する。分類規則情報管理部33は図示せぬ表示部にカテゴリラベルリストを表示する処理を実行する(ステップS230)。その表示を確認したユーザによって、希望するカテゴリラベルが選択され、選択結果が情報入力部36に入力される(ステップS240)。情報入力部36は、ユーザの選択結果を示す情報を通信部30へ出力する。通信部30はその情報をサーバ2へ送信する(ステップS250)。
The
以下、上記の動作の具体例を説明する。図10(b)のステップS200において、ユーザ用分類規則情報として、カテゴリラベル“車”と“グルメ”に関するユーザ用分類規則情報がサーバ2へ送信されたとする。ステップS210において、サーバ2は、そのユーザ用分類規則情報に類似したサーバ用分類規則情報を検索する。その結果、図12(a)に示すカテゴリラベルリストが候補として提示されたとする。それらの候補の中から、ユーザは例えば図12(b)に示すカテゴリラベル(“車”と“グルメ”)を選択する。
Hereinafter, a specific example of the above operation will be described. Assume that user classification rule information related to the category labels “car” and “gourmet” is transmitted to the
次に、図13を参照しながら、ユーザ端末3によるサーバ用分類規則情報の取得動作を説明する。サーバ2の通信部20は、図10に示したステップS160またはステップS250でユーザ端末3から送信された情報を受信し、分類規則情報管理部23へ出力する。分類規則情報管理部23は、分類規則情報記憶部24に格納されているサーバ用分類規則情報の中から、ユーザの選択結果に対応したサーバ用分類規則情報を抽出し、通信部20へ出力する(ステップS300)。通信部20はサーバ用分類規則情報をユーザ端末3へ送信する(ステップS310)。
Next, an operation of acquiring server classification rule information by the
ユーザ端末3の通信部30はサーバ2からのサーバ用分類規則情報を受信し、分類規則情報管理部33へ出力する。分類規則情報管理部33は、分類規則情報記憶部34からユーザ用分類規則情報を読み出してそのユーザ用分類規則情報とサーバ用分類規則情報を合成し、合成後の分類規則情報を新たなユーザ用分類規則情報として分類規則情報記憶部34に格納する。また、ユーザがニュース分類システムを始めて利用する場合など、分類規則情報記憶部34にユーザ用分類規則情報が格納されていないときには、サーバ用分類規則情報がそのままユーザ用分類規則情報として分類規則情報記憶部34に格納される(ステップS320)。
The
ユーザ用分類規則情報とサーバ用分類規則情報の合成は以下のようにして行われる。カテゴリラベルについては、ユーザ用分類規則情報とサーバ用分類規則情報に含まれるカテゴリラベルの和集合が合成後のカテゴリラベルとなる。また、単語頻度テーブルにおける単語の頻度、および文書頻度テーブルにおける文書の頻度については、以下のようになる。すなわち、ユーザ用分類規則情報に含まれ、サーバ用分類規則情報には含まれないカテゴリラベルに関する合成後の頻度には、ユーザ用分類規則情報に含まれるカテゴリラベルに関する頻度が用いられる。 The user classification rule information and the server classification rule information are combined as follows. For the category label, the union of the category labels included in the user classification rule information and the server classification rule information becomes the combined category label. The word frequency in the word frequency table and the document frequency in the document frequency table are as follows. That is, the frequency relating to the category label included in the user classification rule information is used as the frequency after combination relating to the category label included in the user classification rule information and not included in the server classification rule information.
また、サーバ用分類規則情報に含まれ、ユーザ用分類規則情報には含まれないカテゴリラベルに関する合成後の頻度には、サーバ用分類規則情報に含まれるカテゴリラベルに関する頻度が用いられる。また、ユーザ用分類規則情報とサーバ用分類規則情報の両方に含まれる(両者に共通する)カテゴリラベルに関する合成後の頻度には、ユーザ用分類規則情報の頻度とサーバ用分類規則情報の頻度を所定の割合で重み付けしたものが用いられる。この重み付けの割合をユーザが指定することが可能である。単語頻度テーブルにおいて、ユーザ用分類規則情報とサーバ用分類規則情報の両方に含まれるカテゴリラベルに関して、そのカテゴリラベルに属する単語がユーザ側とサーバ側のいずれか一方の単語頻度テーブルのみに存在する場合には、その単語の頻度が合成後のその単語の頻度に用いられる。ただし下記の通り、ユーザ用分類規則情報とサーバ用分類規則情報の共通するカテゴリラベルについても、そのカテゴリラベルのサーバ用分類規則情報が合成対象となる場合とならない場合がある。 In addition, the frequency related to the category label included in the server classification rule information is used as the frequency after combination related to the category label included in the server classification rule information and not included in the user classification rule information. In addition, the frequency of combination of category labels included in both the user classification rule information and the server classification rule information (common to both) includes the frequency of the user classification rule information and the frequency of the server classification rule information. What is weighted at a predetermined ratio is used. The weighting ratio can be specified by the user. In the word frequency table, when a category label is included in both the user classification rule information and the server classification rule information, the word belonging to the category label exists only in either the user side or the server side word frequency table The frequency of the word is used as the frequency of the word after synthesis. However, as described below, for the category label common to the user classification rule information and the server classification rule information, the server classification rule information of the category label may not be the target of synthesis.
ユーザ用分類規則情報とサーバ用分類規則情報の共通するカテゴリラベルについては、ユーザ側とサーバ側で単語頻度分布(各カテゴリラベルにおける各単語の頻度を合算し正規化した(各カテゴリラベルの総単語数で割った)もの)が類似している場合に、そのカテゴリラベルのサーバ用分類規則情報が合成対象となる。ユーザ側とサーバ側で単語頻度分布が類似していない場合には、そのカテゴリラベルについては、サーバ用分類規則情報は合成対象から除外される。 For the category labels common to the user classification rule information and the server classification rule information, the word frequency distribution on the user side and the server side (the total frequency of each category label is summed and normalized) (The one divided by the number) is similar), the server classification rule information of the category label becomes the synthesis target. When the word frequency distribution is not similar between the user side and the server side, the server classification rule information is excluded from the synthesis targets for the category label.
以下、上記の動作の具体例を説明する。ユーザID“U1”を有するユーザU1がユーザクラスタUC1のサーバ用分類規則情報から、車およびグルメ関係のサーバ用分類規則情報だけを選択したものとする。図14(a)および(b)はそれぞれ、ユーザ端末3がサーバ2から取得した単語頻度テーブルおよび文書頻度テーブルを示している。図14(a)に示す単語頻度テーブルは、図6(b)に示したサーバ用の単語頻度テーブルの中から、ユーザが選択したカテゴリラベル(“車”と“グルメ”)の単語頻度テーブルを抽出したものである。また、図14(b)に示す文書頻度テーブルは、図6(c)に示したサーバ用の文書頻度テーブルの中から、ユーザが選択したカテゴリラベル(“車”と“グルメ”)の文書頻度テーブルを抽出したものである。
Hereinafter, a specific example of the above operation will be described. It is assumed that the user U1 having the user ID “U1” selects only the server and the gourmet-related server classification rule information from the server classification rule information of the user cluster UC1. 14A and 14B show a word frequency table and a document frequency table acquired by the
サーバ2から単語頻度テーブルおよび文書頻度テーブルを取得する前のユーザ端末3の分類規則情報記憶部34に格納されている単語頻度テーブルおよび文書頻度テーブルはそれぞれ図9(b)および(c)に示した通りであるものとする。図15(a)は合成後の単語頻度テーブルを示している。各カテゴリラベルの各単語について、図14(a)に示した単語頻度テーブル内の頻度と、図6(b)に示した単語頻度テーブル内の頻度とを加算した値が合成後の単語頻度テーブル内の頻度となっている。また、図15(b)は合成後の文書頻度テーブルを示している。各カテゴリラベルについて、図14(b)に示した単語頻度テーブル内の頻度(文書数)と、図6(c)に示した文書頻度テーブル内の頻度(文書数)とを加算した値が合成後の文書頻度テーブル内の頻度(文書数)となっている。
The word frequency table and the document frequency table stored in the classification rule
次に、図16を参照しながら、ユーザ端末3によるニュースデータの分類動作を説明する。ニュース配信装置1からニュースデータが送信される(ステップS400)と、ユーザ端末3の通信部30はニュースデータを受信し、ニュース保存部31へ出力する。ニュース保存部31はニュースデータをニュース記憶部32に格納する(ステップS410)。
Next, the news data classification operation by the
続いて、ニュース分類部35はニュース記憶部32からニュースデータを読み出す。ニュース分類部35は、読み出したニュースデータに含まれるニュース本文のデータから単語を抽出し、その単語の頻度を算出し、集計元データを生成する。また、ニュース分類部35は分類規則情報記憶部34からユーザ用分類規則情報を読み出し、集計元データおよびユーザ用分類規則情報に基づいてニュースデータの分類を実行する(ステップS420)。集計元データは、ニュースデータの分類先のカテゴリラベルが決定した後、分類先のカテゴリラベルの情報が付加されて分類規則情報記憶部34に格納される。
Subsequently, the
以下、ニュースデータの具体的な分類例を説明する。以下の説明では、ユーザ用分類規則情報として、図15に示した単語頻度テーブルと文書頻度テーブルが用いられるものとする。図17(a)は分類対象のニュースデータを示している。また、図17(b)は、このニュースデータから生成された集計元データを示している。 Hereinafter, specific examples of classification of news data will be described. In the following description, the word frequency table and the document frequency table shown in FIG. 15 are used as the user classification rule information. FIG. 17A shows news data to be classified. FIG. 17 (b) shows the aggregation source data generated from the news data.
ニュースデータ“N5”がカテゴリラベル“車”に分類される確率P(車|N5)(上記のP(ci|d))は以下のようにして算出される。カテゴリラベル“車”の頻度分布P(車)(上記のP(ci))は以下の(6)式となる。
P(車)=(103+1)/(607+2)=0.17 ・・・(6)
The probability P (car | N5) (the above P (c i | d)) that the news data “N5” is classified into the category label “car” is calculated as follows. The frequency distribution P (vehicle) (the above P (c i )) of the category label “car” is expressed by the following equation (6).
P (car) = (103 + 1) / (607 + 2) = 0.17 (6)
また、ニュース本文に含まれる単語“自動車”、“ベンツ”、“フレンチ”、“和食”のそれぞれの頻度分布P(自動車|車),P(ベンツ|車),P(フレンチ|車),P(和食|車)(上記のP(wj|ci))は以下の(7)式〜(10)式となる。
P(自動車|車)=(502+1)/(527+4)=0.95 ・・・(7)
P(ベンツ|車)=(23+1)/(527+4)=0.05 ・・・(8)
P(フレンチ|車)=(2+1)/(527+4)=0.01 ・・・(9)
P(和食|車)=(1+1)/(527+4)=0.00 ・・・(10)
Also, the frequency distributions P (car | car), P (benz | car), P (french | car), P for the words "car", "benz", "French", and "Japanese food" included in the news text. (Japanese food | car) (above mentioned P (w j | c i )) is expressed by the following equations (7) to (10).
P (automobile | car) = (502 + 1) / (527 + 4) = 0.95 (7)
P (Benz | car) = (23 + 1) / (527 + 4) = 0.05 (8)
P (French | Car) = (2 + 1) / (527 + 4) = 0.01 (9)
P (Japanese food | car) = (1 + 1) / (527 + 4) = 0.00 (10)
したがって、確率P(車,N5)は以下の(11)式となる。
P(車,N5)=P(車)×P(自動車|車)0×P(ベンツ|車)0×P(フレンチ|車)0×P(和食|車)2
≒0.0% ・・・(11)
Therefore, the probability P (car, N5) is expressed by the following equation (11).
P (car, N5) = P (car) x P (car | car) 0 xP (Benz | car) 0 xP (French | car) 0 xP (Japanese food | car) 2
≒ 0.0% (11)
同様に、確率P(料理,N5)は以下の(12)式となる。
P(料理,N5)=P(料理)×P(自動車|料理)0×P(ベンツ|料理)0×P(フレンチ|料理)0×P(和食|料理)2
≒20.5% ・・・(12)
Similarly, the probability P (dish, N5) is expressed by the following equation (12).
P (Cooking, N5) = P (Cooking) x P (Automobile | Cooking) 0 x P (Benz | Cooking) 0 x P (French | Cooking) 0 x P (Japanese cooking | Cooking) 2
≒ 20.5% (12)
また、この場合、前述した(5)式は以下の(13)式のようになる。この(13)式とP(車,N5)<P(料理,N5)とから、ニュースデータ“N5”はカテゴリラベル“料理”に分類される。 Further, in this case, the above-described equation (5) becomes the following equation (13). From this equation (13) and P (car, N5) <P (dish, N5), the news data “N5” is classified into the category label “dish”.
以下、ユーザ端末3において、図示せぬ表示部に表示される画面の一例を説明する。図18(a)は、未読のニュースデータを自動分類する場合の画面を示している。ニュースデータが受信されると、ニュースデータがニュース記憶部32の分類用フォルダに一旦格納された後、自動分類によってニュース記憶部32の未読フォルダに格納される。画面には未読フォルダの内容として、カテゴリラベル1800とそれに分類されたニュースデータ1810とが表示されている。
Hereinafter, an example of a screen displayed on a display unit (not shown) in the
また、未読フォルダに格納されたニュースデータのうち、ユーザが保存を希望するものはニュース記憶部32の保存フォルダに格納される。画面には保存フォルダの内容として、カテゴリラベル1820とそれに分類されたニュースデータ1830とが表示されている。ユーザが保存フォルダに新規のカテゴリラベルを作成することが可能である。また、未読フォルダのカテゴリラベルは保存フォルダと同期するようになっている。
Of the news data stored in the unread folder, the data that the user desires to store is stored in the storage folder of the
ユーザがニュースデータ1810をマウス等でクリックすると、ニュースの内容がニュース表示画面1840に表示される。表示したニュースデータを廃棄する場合には、ユーザが表示画面1840をマウス等で右クリックし、続いて表示されるプルダウンメニューの中から「廃棄」を選択すれば、ニュースデータはニュース記憶部32から削除される。また、自動分類されたカテゴリラベルのままでニュースデータを保存する場合には、ユーザが表示画面1840をマウス等で右クリックし、続いて表示されるプルダウンメニューの中から「XXXに保存」(「XXX」は自動分類先のカテゴリラベルを表す)を選択すれば、ニュースデータはニュース記憶部32の保存フォルダ内のカテゴリラベル「XXX」の領域に格納される。
When the user clicks news data 1810 with a mouse or the like, the content of the news is displayed on
自動分類されたカテゴリラベルを変更して手動分類を行うことも可能である。手動分類によりニュースデータを保存する場合には、ユーザが表示画面1840をマウス等でクリックし、保存フォルダ内の希望するカテゴリラベルへドラッグすれば、ニュースデータはニュース記憶部32の保存フォルダ内の該当カテゴリラベルの領域に格納される。
Manual classification can also be performed by changing automatically classified category labels. When storing news data by manual classification, the user clicks the
図18(b)は、既読のニュースデータを自動分類する場合の画面を示している。ニュースデータが受信されると、ニュースデータがニュース記憶部32の未読フォルダに一旦格納された後、閲覧後に自動分類または手動分類によってニュース記憶部32の保存フォルダに格納される。画面には未読フォルダの内容として、未分類のニュースデータ1850が表示されている。
FIG. 18B shows a screen for automatically classifying already read news data. When the news data is received, the news data is temporarily stored in an unread folder of the
また、未読フォルダに格納されたニュースデータのうち、ユーザが保存を希望するものはニュース記憶部32の保存フォルダに格納される。画面には保存フォルダの内容として、カテゴリラベル1860とそれに分類されたニュースデータ1870とが表示されている。ユーザが保存フォルダに新規のカテゴリラベルを作成することが可能である。
Of the news data stored in the unread folder, the data that the user desires to store is stored in the storage folder of the
ユーザがニュースデータ1850をマウス等でクリックすると、ニュースの内容がニュース表示画面1880に表示される。表示したニュースデータを廃棄する場合には、ユーザが表示画面1880をマウス等で右クリックし、続いて表示されるプルダウンメニューの中から「廃棄」を選択すれば、ニュースデータはニュース記憶部32から削除される。また、ニュースデータを自動分類により保存する場合には、ユーザが表示画面1880をマウス等で右クリックし、続いて表示されるプルダウンメニューの中から「XXXに保存」(「XXX」は自動分類先のカテゴリラベルを表す)を選択すれば、ニュースデータはニュース記憶部32の保存フォルダ内のカテゴリラベル「XXX」の領域に格納される。
When the user clicks
手動分類を行うことも可能である。手動分類によりニュースデータを保存する場合には、ユーザが表示画面1880をマウス等でクリックし、保存フォルダ内の希望するカテゴリラベルへドラッグすれば、ニュースデータはニュース記憶部32の保存フォルダ内の該当カテゴリラベルの領域に格納される。
Manual classification is also possible. When news data is stored by manual classification, the user clicks the
次に、図19を参照しながら、ユーザ端末3によるユーザ用分類規則情報の更新動作を説明する。自動分類または手動分類によってニュースデータが分類された後、分類規則情報管理部33は、分類されたニュースデータに含まれる単語の頻度を示す集計元データとユーザ用分類規則情報を分類規則情報記憶部34から読み出し、集計元データに基づいてユーザ用分類規則情報を更新し、更新後のユーザ用分類規則情報を分類規則情報記憶部34に格納する(ステップS500)。より具体的には、分類規則情報管理部33は、集計元データに含まれる各単語の頻度に基づいて、単語頻度テーブルに含まれる各単語の頻度を更新すると共に、文書頻度テーブルの頻度(文書数)を更新する。
Next, the update operation of the user classification rule information by the
続いて、分類規則情報管理部33は、ユーザ用分類規則情報の変更分(差分情報)を最後にサーバ2に通知したときのユーザ用分類規則情報と最新のユーザ用分類規則情報を分類規則情報記憶部34から読み出し、それらの差分を示す差分情報を生成し、通信部30へ出力する(ステップS510)。この差分情報には、前述した差分単語頻度テーブル、差分文書頻度テーブル、およびユーザIDが含まれる。通信部30は差分情報をサーバ2へ送信する(ステップS520)。
Subsequently, the classification rule
以下、上記の動作の具体例を説明する。ユーザID“U1”を有するユーザU1のユーザ端末3が、ニュースID“N5”を有するニュースデータの分類を手動分類により行ったものとする。また、更新前の単語頻度テーブルおよび文書頻度テーブルはそれぞれ図15(a)および(b)に示した通りであるものとする。さらに、ユーザ用分類規則情報の変更分を最後にサーバ2に通知したときの単語頻度テーブルおよび文書頻度テーブルもそれぞれ図15(a)および(b)に示した通りであるものとする。図20(a)は手動分類後のニュースデータを示している。未読・既読を示す種別2000は「既読」を示しており、分類方法を示す種別2010は「手動」を示している。また、カテゴリラベルリ2020は、ニュースデータが手動により「料理」に分類されたことを示している。
Hereinafter, a specific example of the above operation will be described. It is assumed that the
図20(b)は、分類規則情報記憶部34に格納されている集計元データを示している。この集計元データに基づいて単語頻度テーブルと文書頻度テーブルが更新される。図20(c)は更新後の単語頻度テーブルを示し、図20(d)は更新後の文書頻度テーブルを示している。図20(b)に示す集計元データにおいて、単語“和食”の頻度が2であり、その他の単語の頻度は0である。また、ニュースデータはカテゴリラベル“料理”に分類されている。このため、図15(a)と図20(c)に示す単語頻度テーブルを比較して分かるように、カテゴリラベル“料理”の単語“和食”の頻度に2が加算されている(合計にも2が加算されている)。また、図15(b)と図20(d)に示す文書頻度テーブルを比較して分かるように、カテゴリラベル“料理”の文書数に1が加算されている(合計にも1が加算されている)。
FIG. 20B shows the aggregation source data stored in the classification rule
図15(a)と図20(c)に示す単語頻度テーブルの頻度の差分が差分単語頻度テーブルとなる。図21(a)は差分単語頻度テーブルを示している。また、図15(b)と図20(d)に示す文書頻度テーブルの頻度の差分が差分文書頻度テーブルとなる。図21(b)は差分文書頻度テーブルを示している。 The difference between the frequencies of the word frequency tables shown in FIGS. 15A and 20C is the difference word frequency table. FIG. 21A shows a difference word frequency table. Further, the difference between the frequencies of the document frequency tables shown in FIGS. 15B and 20D is the difference document frequency table. FIG. 21B shows a difference document frequency table.
次に、図22を参照しながら、サーバ2によるサーバ用分類規則情報の更新動作を説明する。図22(a)は、ユーザ端末3から受信した差分情報に基づいてサーバ用分類規則情報を更新する動作を示している。また、図22(b)は、ニュース配信装置1から受信したニュースデータに基づいてサーバ用分類規則情報を更新する動作を示している。
Next, the update operation of the server classification rule information by the
図22(a)において、サーバ2の通信部20は、図19に示したステップS520でユーザ端末3から送信された差分情報を受信し、分類規則情報管理部23へ出力する。分類規則情報管理部23は、差分情報に含まれるユーザIDに基づいて、ユーザが所属するユーザクラスタの判定を行う(ステップS600)。この判定の際には、ユーザIDとユーザクラスタIDが関連付けられたユーザデータ(図3参照)も参照される。
22A, the
差分情報に含まれるユーザIDと一致するユーザIDがユーザデータの中にある場合には、そのユーザIDと関連付けられているユーザクラスタIDを有するユーザクラスタが、ユーザの所属するユーザクラスタである。また、差分情報に含まれるユーザIDと一致するユーザIDがユーザデータの中にない場合には、前述したカテゴリラベル間の類似度に応じて、ユーザが所属するユーザクラスタが判定される。 When the user ID that matches the user ID included in the difference information is in the user data, the user cluster having the user cluster ID associated with the user ID is the user cluster to which the user belongs. When the user ID that matches the user ID included in the difference information is not included in the user data, the user cluster to which the user belongs is determined according to the similarity between the category labels described above.
ユーザクラスタの判定に続いて、分類規則情報管理部23は、ユーザが所属すると判定されたユーザクラスタのサーバ用分類規則情報を分類規則情報記憶部24から読み出し、ユーザ端末3からの差分情報に基づいてサーバ用分類規則情報を更新し、更新後のサーバ用分類規則情報を分類規則情報記憶部24に格納する(ステップS610)。より具体的には、分類規則情報管理部23は、差分単語頻度テーブルに含まれる各単語の頻度に基づいて、単語頻度テーブルに含まれる各単語の頻度を更新し、差分文書頻度テーブルに含まれる頻度(文書数)に基づいて文書頻度テーブルの頻度(文書数)を更新する。これは、ユーザ端末3において、サーバ2から受信したサーバ用分類規則情報に基づいてユーザ用分類規則情報を更新する動作と同様である。ただし下記の通り、差分情報とサーバ用分類規則情報の共通するカテゴリラベルについても、差分情報がそのまま合成対象となる場合とならない場合がある。
Following the determination of the user cluster, the classification rule
差分情報とサーバ用分類規則情報の共通するカテゴリラベルについては、ユーザ側とサーバ側で単語頻度分布(各カテゴリラベルにおける各単語の頻度を合算し正規化した(各カテゴリラベルの総単語数で割った)もの)が類似している場合に、差分情報がそのまま合成対象となる。一方、ユーザ側とサーバ側で単語頻度分布が類似していない場合には、サーバ用分類規則情報に新たなカテゴリラベルが追加され、差分情報に含まれる情報がそのまま、そのカテゴリラベルについてのサーバ用分類規則情報となる。 For category labels common to difference information and server classification rule information, the word frequency distribution (the frequency of each word in each category label is summed and normalized (divided by the total number of words in each category label). ))) Are similar, the difference information becomes the synthesis target as it is. On the other hand, when the word frequency distribution is not similar between the user side and the server side, a new category label is added to the server classification rule information, and the information included in the difference information is left as it is for the server for the category label. This is classification rule information.
以下、上記の動作の具体例を説明する。ユーザID“U1”を有するユーザU1のユーザ端末3がサーバ2へ差分情報を送信したものとする。ユーザ端末3から送信された差分単語頻度テーブルおよび差分文書頻度テーブルはそれぞれ図21(a)および(b)に示した通りであるものとする。また、更新前のサーバ用分類規則情報の単語頻度テーブルおよび文書頻度テーブルはそれぞれ図6(b)および(c)に示した通りであるものとする。ステップS600におけるユーザクラスタの判定では、図3に示したユーザデータの内容から、ユーザU1はユーザクラスタUC1に所属すると判定される。したがって、ユーザクラスタUC1のユーザ用分類規則情報が更新される。
Hereinafter, a specific example of the above operation will be described. It is assumed that the
図21(a)に示す単語頻度テーブルにおいて、カテゴリラベル“料理”の単語“和食”の頻度が2であり、その他の単語の頻度は0である。このため、カテゴリラベル“料理”の単語の頻度のみが更新に反映される。ユーザ側のカテゴリラベル“料理”はサーバ2において、類義語辞書を用いて代表語“グルメ”に変換される。カテゴリラベル“グルメ”について、ユーザ側とサーバ側で単語頻度分布がほぼ同一の場合、更新後の単語頻度テーブルは図23(a)のようになり、更新後の文書頻度テーブルは図23(b)のようになる。図6(b)と図23(a)に示す単語頻度テーブルを比較して分かるように、カテゴリラベル“グルメ”の単語“和食”の頻度に2が加算されている(合計にも2が加算されている)。また、図6(c)と図23(b)に示す文書頻度テーブルを比較して分かるように、カテゴリラベル“グルメ”の文書数に1が加算されている(合計にも1が加算されている)。
In the word frequency table shown in FIG. 21A, the frequency of the word “Japanese food” of the category label “Cooking” is 2, and the frequency of the other words is 0. For this reason, only the frequency of the word of the category label “cooking” is reflected in the update. The user-side category label “cooking” is converted into the representative word “gourmet” in the
また、カテゴリラベル“グルメ”について、ユーザ側とサーバ側で単語頻度分布が異なる場合、更新後の単語頻度テーブルは図23(c)のようになり、更新後の文書頻度テーブルは図23(d)のようになる。図6(b)と図23(c)に示す単語頻度テーブルを比較して分かるように、カテゴリラベル“グルメ(2)”が追加され、単語“和食”の頻度が2となっている。また、図6(c)と図23(d)に示す文書頻度テーブルを比較して分かるように、カテゴリラベル“グルメ(2)”が追加され、その文書数が1となっている(さらに合計に1が加算される)。 For the category label “gourmet”, when the word frequency distribution is different between the user side and the server side, the updated word frequency table is as shown in FIG. 23C, and the updated document frequency table is shown in FIG. )become that way. As can be seen by comparing the word frequency tables shown in FIG. 6B and FIG. 23C, the category label “Gourmet (2)” is added, and the frequency of the word “Japanese food” is 2. Further, as can be seen by comparing the document frequency tables shown in FIG. 6C and FIG. 23D, the category label “Gourmet (2)” is added and the number of documents is 1 (the total is further). Is added to 1).
次に、図22(b)に示す動作を説明する。ニュース配信装置1からニュースデータが送信される(ステップS700)と、サーバ2の通信部20はニュースデータを受信し、ニュース保存部21へ出力する。ニュース保存部21はニュースデータをニュース記憶部22に格納する(ステップS710)。
Next, the operation shown in FIG. 22B will be described. When news data is transmitted from the news distribution apparatus 1 (step S700), the
続いて、図16のステップS420と同様にして、ニュース分類部25はニュースデータの分類を実行する(ステップS720)。続いて、図19のステップS500と同様にして、分類規則情報管理部23はサーバ用分類規則情報を更新する(ステップS730)。
Subsequently, as in step S420 of FIG. 16, the
以下、上記の動作の具体例を説明する。更新前の単語頻度テーブルおよび文書頻度テーブルはそれぞれ図23(a)および(b)に示した通りであるものとする。図24(a)は分類対象のニュースデータを示している。また、図24(b)は、このニュースデータから生成された集計元データを示している。この集計元データに基づいて単語頻度テーブルと文書頻度テーブルが更新される。 Hereinafter, a specific example of the above operation will be described. It is assumed that the word frequency table and the document frequency table before update are as shown in FIGS. 23 (a) and 23 (b), respectively. FIG. 24A shows news data to be classified. FIG. 24 (b) shows the aggregation source data generated from the news data. The word frequency table and the document frequency table are updated based on the total data.
図24(c)は更新後の単語頻度テーブルを示し、図24(d)は更新後の文書頻度テーブルを示している。図24(b)に示す集計元データにおいて、単語“フレンチ”の頻度が3であり、その他の単語の頻度は0である。また、ニュースデータはカテゴリラベル“グルメ”に分類される。このため、図23(a)と図24(c)に示す単語頻度テーブルを比較して分かるように、カテゴリラベル“グルメ”の単語“フレンチ”の頻度に3が加算されている(合計にも3が加算されている)。また、図23(b)と図24(d)に示す文書頻度テーブルを比較して分かるように、カテゴリラベル“グルメ”の文書数に1が加算されている(合計にも1が加算されている)。 FIG. 24C shows the updated word frequency table, and FIG. 24D shows the updated document frequency table. In the aggregation source data shown in FIG. 24B, the frequency of the word “French” is 3, and the frequency of the other words is 0. The news data is classified into the category label “Gourmet”. Therefore, as can be seen by comparing the word frequency tables shown in FIGS. 23A and 24C, 3 is added to the frequency of the word “French” of the category label “Gourmet” (also in the total) 3 is added). Further, as can be seen by comparing the document frequency tables shown in FIGS. 23B and 24D, 1 is added to the number of documents of the category label “Gourmet” (1 is also added to the total). )
次に、図25を参照しながら、サーバ2によるユーザクラスタの生成動作および更新動作を説明する。初期状態として、N人分(Nは複数)のユーザ用分類規則情報が分類規則情報記憶部24に格納されているものとする。分類規則情報管理部23は、このユーザ用分類規則情報に基づいてユーザクラスタを生成する(ステップS800)。
Next, a user cluster generation operation and an update operation by the
ユーザクラスタの生成は以下のようにして行われる。まず、分類規則情報管理部23は、各ユーザ用分類規則情報について、ユーザ用分類規則情報中の全てのカテゴリラベルにおける各単語の頻度を合算し正規化した(ユーザ用分類規則情報中の総単語数で割った)ユーザの単語頻度分布を生成する。続いて、分類規則情報管理部23は、異なるユーザの単語頻度分布同士を比較し、単語頻度分布間の距離(カルバックライブラー距離等)を算出する。分類規則情報管理部23はこの距離をユーザ間の類似度とし、任意のクラスタ数でユーザ群をクラスタリングする。これによって、類似度の高いユーザ同士は同じユーザクラスタに所属するようになる。
The user cluster is generated as follows. First, the classification rule
また、分類規則情報管理部23は、ユーザクラスタに含まれる各ユーザのユーザ分類規則中の単語群を合算し正規化する(ユーザクラスタに含まれる総単語数で割る)ことによってユーザクラスタの単語頻度分布を生成する。さらに、分類規則情報管理部23は各ユーザクラスタに所属するユーザのユーザ用分類規則情報を合成し、各ユーザクラスタについての初期サーバ用分類規則情報を生成する。
Further, the classification rule
続いて、分類規則情報管理部23は任意のタイミングでユーザクラスタの更新を行う(ステップS810)。ユーザクラスタの更新動作はユーザクラスタの生成動作と同様である。ただし、サーバ2は、ユーザ端末3から受信した集計元データと、サーバ2自身がニュースデータを分類したときに生成した集計元データとに基づいて、上記の単語頻度分布を生成する。ユーザクラスタの更新に伴って各ユーザクラスタのサーバ用分類規則情報も更新されるが、その更新も集計元データに基づいて行われる。
Subsequently, the classification rule
上述したように、本実施形態によれば、サーバ2からユーザ端末3へサーバ用分類規則情報が送信され、ユーザ端末3がそのサーバ用分類規則情報をニュースデータの分類に利用することが可能となるので、ユーザ端末3における教師データの量によらず、実用的な分類精度でニュースデータの分類を実行することができる。特に、ユーザ端末3がユーザ用分類規則情報を所持していない場合でも、サーバ用分類規則情報を利用してニュースデータの分類を実行することができる。
As described above, according to the present embodiment, server classification rule information is transmitted from the
また、ユーザ端末3が予めユーザ用分類規則情報を所持している場合に、サーバ2のサーバ用分類規則情報と自身のユーザ用分類規則情報とを合成して新たなユーザ用分類規則情報とすることによって、ユーザ端末3におけるニュースデータの分類精度を向上することができる。
Further, when the
また、ユーザ端末3から送信された差分情報に基づいて、サーバ2が自身のサーバ用分類規則情報を更新することによって、ユーザ端末3による分類の結果がサーバ用分類規則情報に反映されるので、ユーザの嗜好に追従させながらサーバ用分類規則情報を更新することができる。
In addition, since the
また、サーバ2が、ユーザの希望するカテゴリラベルと類似したカテゴリラベルのサーバ用分類規則情報を検索し、検索により見つかったサーバ用分類規則情報をユーザ端末3へ送信することによって、ユーザ端末3が、ユーザの嗜好により近いサーバ用分類規則情報を取得することが可能になるので、ユーザ端末3におけるニュースデータの分類精度を向上することができる。
Further, the
同様に、サーバ2が、ユーザ用分類規則情報と類似したサーバ用分類規則情報を検索し、検索により見つかったサーバ用分類規則情報をユーザ端末3へ送信することによって、ユーザ端末3が、ユーザの嗜好により近いサーバ用分類規則情報を取得することが可能になるので、ユーザ端末3におけるニュースデータの分類精度を向上することができる。
Similarly, the
また、サーバ2がユーザクラスタ毎にサーバ用分類規則情報を所持することによって、嗜好の異なるユーザ群毎に適したサーバ用分類規則情報を提供することができる。
Further, the
また、サーバ2が自身の分類結果に基づいてサーバ用分類規則情報を更新することによって、随時更新されるニュースデータの分類に適したサーバ用分類規則情報を提供することができる。
In addition, the
以上、図面を参照して本発明の実施形態について詳述してきたが、具体的な構成は上記の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。 As described above, the embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to the above-described embodiments, and includes design changes and the like without departing from the gist of the present invention. .
1・・・ニュース配信装置、2・・・サーバ、3・・・ユーザ端末、4・・・ネットワーク、20,30・・・通信部、21,31・・・ニュース保存部、22,32・・・ニュース記憶部、23,33・・・分類規則情報管理部、24,34・・・分類規則情報記憶部、25,35・・・ニュース分類部、36・・・情報入力部
DESCRIPTION OF
Claims (21)
前記サーバは、
前記分類規則情報を記憶するサーバ側分類規則情報記憶手段と、
前記分類規則情報を前記端末装置へ送信するサーバ側分類規則情報送信手段とを備え、
前記端末装置は、
前記コンテンツ情報を記憶する端末側コンテンツ情報記憶手段と、
前記サーバから前記分類規則情報を受信する端末側分類規則情報受信手段と、
受信された前記分類規則情報を記憶する端末側分類規則情報記憶手段と、
前記端末側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類する端末側分類手段とを備えた
ことを特徴とするコンテンツ分類システム。 A content classification system comprising: a server that stores classification rule information indicating a classification rule of the content information based on a result of classification of content information by a plurality of users; and a terminal device that executes the classification of the content information,
The server
Server-side classification rule information storage means for storing the classification rule information;
Server-side classification rule information transmitting means for transmitting the classification rule information to the terminal device,
The terminal device
Terminal-side content information storage means for storing the content information;
Terminal-side classification rule information receiving means for receiving the classification rule information from the server;
Terminal-side classification rule information storage means for storing the received classification rule information;
A content classification system comprising: terminal side classification means for classifying the content information based on the classification rule information stored in the terminal side classification rule information storage means.
前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する端末側更新手段と、
更新による前記分類規則情報の差分を示す差分情報を前記サーバへ送信する差分情報送信手段とを備え、
前記サーバは、
前記端末装置から前記差分情報を受信する差分情報受信手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記差分情報に基づいて更新する第1のサーバ側更新手段とを備えた
ことを特徴とする請求項1または請求項2に記載のコンテンツ分類システム。 The terminal device
Terminal-side update means for updating the classification rule information stored in the terminal-side classification rule information storage means based on the classification result of the content information;
Difference information transmission means for transmitting difference information indicating the difference of the classification rule information by update to the server,
The server
Difference information receiving means for receiving the difference information from the terminal device;
The server-side classification rule information storage means comprises first server-side update means for updating the classification rule information stored based on the difference information. The content classification system described.
前記サーバは、
前記端末装置から前記カテゴリ情報を受信するカテゴリ情報受信手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記カテゴリ情報が示すカテゴリと類似したカテゴリの前記分類規則情報を検索する検索手段とを備え、
前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信する
ことを特徴とする請求項1〜請求項3のいずれかに記載のコンテンツ分類システム。 The terminal device includes category information transmission means for transmitting category information indicating a category desired by a user to the server,
The server
Category information receiving means for receiving the category information from the terminal device;
Search means for searching the classification rule information of a category similar to the category indicated by the category information from the classification rule information stored in the server-side classification rule information storage means,
The content classification system according to any one of claims 1 to 3, wherein the server-side classification rule information transmission unit transmits the classification rule information searched by the search unit to the terminal device.
前記サーバは、
前記端末装置から前記分類規則情報を受信するサーバ側分類規則情報受信手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記サーバ側分類規則情報受信手段によって受信された前記分類規則情報と類似した前記分類規則情報を検索する検索手段とを備え、
前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信する
ことを特徴とする請求項1〜請求項3のいずれかに記載のコンテンツ分類システム。 The terminal device comprises terminal-side classification rule information transmitting means for transmitting the classification rule information stored in the terminal-side classification rule information storage means to the server,
The server
Server-side classification rule information receiving means for receiving the classification rule information from the terminal device;
Search means for retrieving the classification rule information similar to the classification rule information received by the server-side classification rule information receiving means from among the classification rule information stored in the server-side classification rule information storage means; With
The content classification system according to any one of claims 1 to 3, wherein the server-side classification rule information transmission unit transmits the classification rule information searched by the search unit to the terminal device.
前記コンテンツ情報を記憶するサーバ側コンテンツ情報記憶手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類するサーバ側分類手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する第2のサーバ側更新手段と、
を備えたことを特徴とする請求項1〜請求項6のいずれかに記載のコンテンツ分類システム。 The server
Server-side content information storage means for storing the content information;
Server-side classification means for classifying the content information based on the classification rule information stored in the server-side classification rule information storage means;
Second server-side update means for updating the classification rule information stored in the server-side classification rule information storage means based on the classification result of the content information;
The content classification system according to any one of claims 1 to 6, further comprising:
前記コンテンツ情報の分類を実行する端末装置へ前記分類規則情報を送信するサーバ側分類規則情報送信手段と、
を備えたことを特徴とするサーバ。 Server-side classification rule information storage means for storing classification rule information indicating a classification rule of the content information based on a result of classification of content information by a plurality of users;
Server-side classification rule information transmitting means for transmitting the classification rule information to a terminal device for performing classification of the content information;
A server characterized by comprising:
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記差分情報に基づいて更新する第1のサーバ側更新手段と、
を備えたことを特徴とする請求項8に記載のサーバ。 The terminal device classifies the content information based on the classification rule information, updates the classification rule information based on a classification result of the content information, and stores difference information indicating a difference of the classification rule information due to the update. Difference information receiving means for receiving the difference information from the terminal device,
First server side updating means for updating the classification rule information stored in the server side classification rule information storage means based on the difference information;
The server according to claim 8, comprising:
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記カテゴリ情報が示すカテゴリと類似したカテゴリの前記分類規則情報を検索する検索手段とを備え、
前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信する
ことを特徴とする請求項8または請求項9に記載のサーバ。 Category information receiving means for receiving category information indicating a category desired by the user from the terminal device;
Search means for searching the classification rule information of a category similar to the category indicated by the category information from the classification rule information stored in the server-side classification rule information storage means,
The server according to claim 8 or 9, wherein the server-side classification rule information transmission unit transmits the classification rule information searched by the search unit to the terminal device.
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記サーバ側分類規則情報受信手段によって受信された前記分類規則情報と類似した前記分類規則情報を検索する検索手段とを備え、
前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信する
ことを特徴とする請求項8または請求項9に記載のサーバ。 Server-side classification rule information receiving means for receiving the classification rule information stored in the terminal-side classification rule information storage means from the terminal device;
Search means for retrieving the classification rule information similar to the classification rule information received by the server-side classification rule information receiving means from among the classification rule information stored in the server-side classification rule information storage means; With
The server according to claim 8 or 9, wherein the server-side classification rule information transmission unit transmits the classification rule information searched by the search unit to the terminal device.
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類するサーバ側分類手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する第2のサーバ側更新手段と、
を備えたことを特徴とする請求項8〜請求項12のいずれかに記載のサーバ。 Server-side content information storage means for storing the content information;
Server-side classification means for classifying the content information based on the classification rule information stored in the server-side classification rule information storage means;
Second server-side update means for updating the classification rule information stored in the server-side classification rule information storage means based on the classification result of the content information;
The server according to any one of claims 8 to 12, further comprising:
複数のユーザによるコンテンツ情報の分類結果に基づいた前記コンテンツ情報の分類規則を示す分類規則情報をサーバから受信する端末側分類規則情報受信手段と、
受信された前記分類規則情報を記憶する端末側分類規則情報記憶手段と、
前記端末側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類する端末側分類手段と、
を備えたことを特徴とする端末装置。 Terminal-side content information storage means for storing content information;
Terminal-side classification rule information receiving means for receiving, from a server, classification rule information indicating a classification rule of the content information based on a result of classification of content information by a plurality of users;
Terminal-side classification rule information storage means for storing the received classification rule information;
Terminal-side classification means for classifying the content information based on the classification rule information stored in the terminal-side classification rule information storage means;
A terminal device comprising:
更新による前記分類規則情報の差分を示す差分情報を前記サーバへ送信する差分情報送信手段と、
を備えたことを特徴とする請求項14または請求項15に記載の端末装置。 Terminal-side update means for updating the classification rule information stored in the terminal-side classification rule information storage means based on the classification result of the content information;
Difference information transmitting means for transmitting difference information indicating a difference of the classification rule information by update to the server;
16. The terminal device according to claim 14 or 15, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007080554A JP5000351B2 (en) | 2007-03-27 | 2007-03-27 | Content classification system, server, terminal device, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007080554A JP5000351B2 (en) | 2007-03-27 | 2007-03-27 | Content classification system, server, terminal device, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008242689A true JP2008242689A (en) | 2008-10-09 |
JP5000351B2 JP5000351B2 (en) | 2012-08-15 |
Family
ID=39913980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007080554A Active JP5000351B2 (en) | 2007-03-27 | 2007-03-27 | Content classification system, server, terminal device, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5000351B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010198498A (en) * | 2009-02-26 | 2010-09-09 | Mitsubishi Electric Corp | Information processor and information processing method and program |
JP2011165131A (en) * | 2010-02-15 | 2011-08-25 | Sony Corp | Information processor, method, and program |
CN111209390A (en) * | 2020-01-06 | 2020-05-29 | 北大方正集团有限公司 | News display method and system, and computer readable storage medium |
JP2020144612A (en) * | 2019-03-06 | 2020-09-10 | 日本電信電話株式会社 | Labeling support method, labeling support device, and program |
WO2023079747A1 (en) * | 2021-11-08 | 2023-05-11 | パイオニア株式会社 | Information processing device, information processing method, and information processing program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003150589A (en) * | 2001-11-19 | 2003-05-23 | Sharp Corp | Dictionary data distributing system |
JP2004054303A (en) * | 2002-07-16 | 2004-02-19 | Ntt Data Corp | System for making electronic dictionary for document classification and system using it for classifying document |
-
2007
- 2007-03-27 JP JP2007080554A patent/JP5000351B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003150589A (en) * | 2001-11-19 | 2003-05-23 | Sharp Corp | Dictionary data distributing system |
JP2004054303A (en) * | 2002-07-16 | 2004-02-19 | Ntt Data Corp | System for making electronic dictionary for document classification and system using it for classifying document |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010198498A (en) * | 2009-02-26 | 2010-09-09 | Mitsubishi Electric Corp | Information processor and information processing method and program |
JP2011165131A (en) * | 2010-02-15 | 2011-08-25 | Sony Corp | Information processor, method, and program |
JP2020144612A (en) * | 2019-03-06 | 2020-09-10 | 日本電信電話株式会社 | Labeling support method, labeling support device, and program |
WO2020179537A1 (en) * | 2019-03-06 | 2020-09-10 | 日本電信電話株式会社 | Labeling support method, labeling support device, and program |
US11967135B2 (en) | 2019-03-06 | 2024-04-23 | Nippon Telegraph And Telephone Corporation | Labeling support method, labeling support apparatus and program |
CN111209390A (en) * | 2020-01-06 | 2020-05-29 | 北大方正集团有限公司 | News display method and system, and computer readable storage medium |
CN111209390B (en) * | 2020-01-06 | 2023-09-05 | 新方正控股发展有限责任公司 | News display method and system and computer readable storage medium |
WO2023079747A1 (en) * | 2021-11-08 | 2023-05-11 | パイオニア株式会社 | Information processing device, information processing method, and information processing program |
Also Published As
Publication number | Publication date |
---|---|
JP5000351B2 (en) | 2012-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200336778A1 (en) | Contextual based information aggregation system | |
CN111782965A (en) | Intention recommendation method, device, equipment and storage medium | |
JP4906846B2 (en) | Scoring user compatibility in social networks | |
TWI636416B (en) | Method and system for multi-phase ranking for content personalization | |
JP5997350B2 (en) | Structured search query based on social graph information | |
CN104254852B (en) | Method and system for mixed information inquiry | |
CN102073699B (en) | For improving the method for Search Results, device and equipment based on user behavior | |
JP4947477B1 (en) | RECOMMENDATION DEVICE, RECOMMENDATION METHOD, AND RECOMMENDATION PROGRAM | |
US10831847B2 (en) | Multimedia search using reshare text on online social networks | |
US8484083B2 (en) | Method and apparatus for targeting messages to users in a social network | |
KR20160057475A (en) | System and method for actively obtaining social data | |
EP2511869A2 (en) | Method and system for providing user-customized content | |
CN104794145A (en) | Connecting people based on content and relational distance | |
JP5000351B2 (en) | Content classification system, server, terminal device, program, and recording medium | |
KR20170089364A (en) | Search system preferences based on a interesting field | |
CN113934941A (en) | User recommendation system and method based on multi-dimensional information | |
KR101346927B1 (en) | Search device, search method, and computer-readable memory medium for recording search program | |
US20120271844A1 (en) | Providng relevant information for a term in a user message | |
CN116414968A (en) | Information searching method, device, equipment, medium and product | |
JP2019531516A (en) | Interest search guide system by field of interest | |
US20150170035A1 (en) | Real time personalization and categorization of entities | |
JP5989157B2 (en) | Information presenting apparatus, method, and program | |
KR20190010278A (en) | Search system preferences based on a interesting field | |
KR101592509B1 (en) | Method and system for managing personal career | |
Madisetty et al. | A reranking-based tweet retrieval approach for planned events |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110531 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120508 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120516 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5000351 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150525 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |