JP2008242689A - Content classification system, server, terminal device, program, and recording medium - Google Patents

Content classification system, server, terminal device, program, and recording medium Download PDF

Info

Publication number
JP2008242689A
JP2008242689A JP2007080554A JP2007080554A JP2008242689A JP 2008242689 A JP2008242689 A JP 2008242689A JP 2007080554 A JP2007080554 A JP 2007080554A JP 2007080554 A JP2007080554 A JP 2007080554A JP 2008242689 A JP2008242689 A JP 2008242689A
Authority
JP
Japan
Prior art keywords
classification rule
rule information
server
classification
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007080554A
Other languages
Japanese (ja)
Other versions
JP5000351B2 (en
Inventor
Toshihiro Ono
智弘 小野
Akihito Sakurai
彰人 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2007080554A priority Critical patent/JP5000351B2/en
Publication of JP2008242689A publication Critical patent/JP2008242689A/en
Application granted granted Critical
Publication of JP5000351B2 publication Critical patent/JP5000351B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a content classification system capable of classifying content information at a practical classifying accuracy regardless of the amount of teacher data on the user side, a server, a terminal device, a program, and a recording medium. <P>SOLUTION: A classification rule information storage part 24 of a server 2 stores server-oriented classification rule information that is based on the result of classifying content information by a plurality of users. A communication part 20 sends the server-oriented classification rule information to a user terminal 3. A communication part 30 of the user terminal 3 receives the server-oriented classification rule information from the server 2. A classification rule information storage part 34 stores the received server-oriented classification rule information as user-oriented classification rule information. A news classifying part 35 classifies news data according to the user-oriented classification rule information. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、ネットニュース等のコンテンツ情報の分類規則を示す分類規則情報に基づいてコンテンツ情報を分類する技術に関する。   The present invention relates to a technique for classifying content information based on classification rule information indicating a classification rule for content information such as net news.

コンテンツ情報の自動分類システムの動作は、分類規則情報の生成と、分類規則情報に基づいたコンテンツ情報の分類との2ステップで構成される。分類規則情報の生成には十分な量の教師データ(学習データ)が必要となる。例えば、PHPNaiveBaysianFilter(非特許文献1参照)に代表される自動分類システムは、ユーザ自身による教師データを利用して分類規則情報を生成し、その分類規則情報に基づいて自動分類を行う。
“PHP Naive Bayesian Filter”,[online],[平成19年2月23日検索],インターネット<URL:http://www.xhtml.net/php/PHPNaiveBayesianFilter>
The operation of the content information automatic classification system is composed of two steps: generation of classification rule information and classification of content information based on the classification rule information. A sufficient amount of teacher data (learning data) is required to generate the classification rule information. For example, an automatic classification system represented by PHPNaiveBaysianFilter (see Non-Patent Document 1) generates classification rule information using teacher data by the user himself and performs automatic classification based on the classification rule information.
“PHP Naive Bayesian Filter”, [online], [Search February 23, 2007], Internet <URL: http://www.xhtml.net/php/PHPNaiveBayesianFilter>

しかし、従来の自動分類システムでは、ユーザ自身による大量の教師データがないと実用的な分類精度を実現することができないという問題があった。   However, the conventional automatic classification system has a problem that practical classification accuracy cannot be realized without a large amount of teacher data by the user.

本発明は、上述した課題に鑑みてなされたものであって、ユーザ側の教師データの量によらず、実用的な分類精度でコンテンツ情報の分類を実行することができるコンテンツ分類システム、サーバ、端末装置、プログラム、および記録媒体を提供することを目的とする。   The present invention has been made in view of the above-described problems, and is a content classification system, a server, and a server capable of performing classification of content information with practical classification accuracy regardless of the amount of user-side teacher data. It is an object to provide a terminal device, a program, and a recording medium.

本発明は、上記の課題を解決するためになされたもので、複数のユーザによるコンテンツ情報の分類結果に基づいた前記コンテンツ情報の分類規則を示す分類規則情報を記憶するサーバと、前記コンテンツ情報の分類を実行する端末装置とを備えたコンテンツ分類システムであって、前記サーバは、前記分類規則情報を記憶するサーバ側分類規則情報記憶手段と、前記分類規則情報を前記端末装置へ送信するサーバ側分類規則情報送信手段とを備え、前記端末装置は、前記コンテンツ情報を記憶する端末側コンテンツ情報記憶手段と、前記サーバから前記分類規則情報を受信する端末側分類規則情報受信手段と、受信された前記分類規則情報を記憶する端末側分類規則情報記憶手段と、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類する端末側分類手段とを備えたことを特徴とするコンテンツ分類システムである。   The present invention has been made in order to solve the above-described problem. A server that stores classification rule information indicating a classification rule of the content information based on a result of classification of content information by a plurality of users, A content classification system including a terminal device that executes classification, wherein the server is a server-side classification rule information storage unit that stores the classification rule information, and a server side that transmits the classification rule information to the terminal device A classification rule information transmitting means, wherein the terminal device has received a terminal side content information storage means for storing the content information, a terminal side classification rule information receiving means for receiving the classification rule information from the server, Terminal-side classification rule information storage means for storing the classification rule information, and the information stored in the terminal-side classification rule information storage means. A content classification system characterized in that a terminal-side classifying means for classifying the content information based on the rule information.

また、本発明のコンテンツ分類システムにおいて、前記サーバから前記分類規則情報が受信される前に前記端末側分類規則情報記憶手段に前記分類規則情報が記憶されている場合に、前記サーバから受信された前記分類規則情報と前記端末側分類規則情報記憶手段に記憶されている前記分類規則情報とを合成して新たな前記分類規則情報として前記端末側分類規則情報記憶手段に記憶させる合成手段を前記端末装置が備えたことを特徴とする。   In the content classification system of the present invention, the classification rule information received from the server when the classification rule information is stored in the terminal-side classification rule information storage means before the classification rule information is received from the server. Combining means for combining the classification rule information and the classification rule information stored in the terminal-side classification rule information storage means and storing the new classification rule information in the terminal-side classification rule information storage means as the terminal A device is provided.

また、本発明のコンテンツ分類システムにおいて、前記端末装置は、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する端末側更新手段と、更新による前記分類規則情報の差分を示す差分情報を前記サーバへ送信する差分情報送信手段とを備え、前記サーバは、前記端末装置から前記差分情報を受信する差分情報受信手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記差分情報に基づいて更新する第1のサーバ側更新手段とを備えたことを特徴とする。   In the content classification system of the present invention, the terminal device updates the classification rule information stored in the terminal-side classification rule information storage unit based on a classification result of the content information; Difference information transmitting means for transmitting difference information indicating a difference of the classification rule information by update to the server, the server receiving difference information receiving means from the terminal device, and the server side classification And a first server-side updating unit that updates the classification rule information stored in the rule information storage unit based on the difference information.

また、本発明のコンテンツ分類システムにおいて、前記端末装置は、ユーザが希望するカテゴリを示すカテゴリ情報を前記サーバへ送信するカテゴリ情報送信手段を備え、前記サーバは、前記端末装置から前記カテゴリ情報を受信するカテゴリ情報受信手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記カテゴリ情報が示すカテゴリと類似したカテゴリの前記分類規則情報を検索する検索手段とを備え、前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信することを特徴とする。   In the content classification system of the present invention, the terminal device includes category information transmission means for transmitting category information indicating a category desired by a user to the server, and the server receives the category information from the terminal device. Category information receiving means, and search means for searching the classification rule information of a category similar to the category indicated by the category information from the classification rule information stored in the server-side classification rule information storage means. The server-side classification rule information transmitting unit transmits the classification rule information searched by the search unit to the terminal device.

また、本発明のコンテンツ分類システムにおいて、前記端末装置は、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記サーバへ送信する端末側分類規則情報送信手段を備え、前記サーバは、前記端末装置から前記分類規則情報を受信するサーバ側分類規則情報受信手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記サーバ側分類規則情報受信手段によって受信された前記分類規則情報と類似した前記分類規則情報を検索する検索手段とを備え、前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信することを特徴とする。   In the content classification system of the present invention, the terminal device includes terminal-side classification rule information transmitting means for transmitting the classification rule information stored in the terminal-side classification rule information storage means to the server, and the server The server side classification rule information receiving means receives the classification rule information from the terminal device, and the server side classification rule information is received from the classification rule information stored in the server side classification rule information storage means. Search means for searching for the classification rule information similar to the classification rule information received by the means, and the server-side classification rule information transmission means sends the classification rule information searched by the search means to the terminal device. It is characterized by transmitting to.

また、本発明のコンテンツ分類システムにおいて、前記サーバ側分類規則情報記憶手段がユーザクラスタ毎に前記分類規則情報を記憶することを特徴とする。   In the content classification system of the present invention, the server-side classification rule information storage unit stores the classification rule information for each user cluster.

また、本発明のコンテンツ分類システムにおいて、前記サーバは、前記コンテンツ情報を記憶するサーバ側コンテンツ情報記憶手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類するサーバ側分類手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する第2のサーバ側更新手段とを備えたことを特徴とする。   In the content classification system according to the present invention, the server may include a server-side content information storage unit that stores the content information, and the content based on the classification rule information stored in the server-side classification rule information storage unit. Server-side classification means for classifying information; and second server-side update means for updating the classification rule information stored in the server-side classification rule information storage means based on the result of classification of the content information. It is characterized by that.

また、本発明は、複数のユーザによるコンテンツ情報の分類結果に基づいた前記コンテンツ情報の分類規則を示す分類規則情報を記憶するサーバ側分類規則情報記憶手段と、前記コンテンツ情報の分類を実行する端末装置へ前記分類規則情報を送信するサーバ側分類規則情報送信手段とを備えたことを特徴とするサーバである。   The present invention also provides a server-side classification rule information storage unit that stores classification rule information indicating a classification rule of the content information based on a result of classification of content information by a plurality of users, and a terminal that executes the classification of the content information A server comprising server-side classification rule information transmitting means for transmitting the classification rule information to an apparatus.

また、本発明のサーバにおいて、前記端末装置が前記分類規則情報に基づいて前記コンテンツ情報を分類し、前記コンテンツ情報の分類結果に基づいて前記分類規則情報を更新し、更新による前記分類規則情報の差分を示す差分情報を前記サーバへ送信した場合に、前記差分情報を前記端末装置から受信する差分情報受信手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記差分情報に基づいて更新する第1のサーバ側更新手段とを備えたことを特徴とする。   In the server of the present invention, the terminal device classifies the content information based on the classification rule information, updates the classification rule information based on the classification result of the content information, and updates the classification rule information by the update. When the difference information indicating the difference is transmitted to the server, the difference information receiving means for receiving the difference information from the terminal device and the classification rule information stored in the server-side classification rule information storage means are the difference. And a first server side updating means for updating based on the information.

また、本発明のサーバにおいて、ユーザが希望するカテゴリを示すカテゴリ情報を前記端末装置から受信するカテゴリ情報受信手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記カテゴリ情報が示すカテゴリと類似したカテゴリの前記分類規則情報を検索する検索手段とを備え、前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信することを特徴とする。   In the server of the present invention, the category information receiving means for receiving category information indicating the category desired by the user from the terminal device, and the classification rule information stored in the server-side classification rule information storage means. Search means for searching for the classification rule information of a category similar to the category indicated by the category information, wherein the server-side classification rule information transmission means uses the classification rule information searched by the search means as the terminal device. It is characterized by transmitting to.

また、本発明のサーバにおいて、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記端末装置から受信するサーバ側分類規則情報受信手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記サーバ側分類規則情報受信手段によって受信された前記分類規則情報と類似した前記分類規則情報を検索する検索手段とを備え、前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信することを特徴とする。   In the server of the present invention, server-side classification rule information receiving means for receiving the classification rule information stored in the terminal-side classification rule information storage means from the terminal device, and the server-side classification rule information storage means Searching means for searching the classification rule information similar to the classification rule information received by the server-side classification rule information receiving means from the stored classification rule information, and the server-side classification rule information The transmission means transmits the classification rule information searched by the search means to the terminal device.

また、本発明のサーバにおいて、前記サーバ側分類規則情報記憶手段がユーザクラスタ毎に前記分類規則情報を記憶することを特徴とする。   In the server of the present invention, the server-side classification rule information storage unit stores the classification rule information for each user cluster.

また、本発明のサーバにおいて、前記コンテンツ情報を記憶するサーバ側コンテンツ情報記憶手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類するサーバ側分類手段と、前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する第2のサーバ側更新手段とを備えたことを特徴とする。   In the server of the present invention, a server-side content information storage unit that stores the content information, and a server side that classifies the content information based on the classification rule information stored in the server-side classification rule information storage unit It is characterized by comprising: classifying means; and second server side updating means for updating the classification rule information stored in the server side classification rule information storage means based on the classification result of the content information.

また、本発明は、コンテンツ情報を記憶する端末側コンテンツ情報記憶手段と、複数のユーザによるコンテンツ情報の分類結果に基づいた前記コンテンツ情報の分類規則を示す分類規則情報をサーバから受信する端末側分類規則情報受信手段と、受信された前記分類規則情報を記憶する端末側分類規則情報記憶手段と、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類する端末側分類手段とを備えたことを特徴とする端末装置である。   The present invention also provides terminal-side content information storage means for storing content information, and terminal-side classification that receives classification rule information indicating a classification rule for the content information based on the result of classification of content information by a plurality of users from a server. The content information is classified based on the rule information receiving means, the terminal-side classification rule information storage means for storing the received classification rule information, and the classification rule information stored in the terminal-side classification rule information storage means The terminal device is characterized by comprising a terminal-side classification means.

また、本発明の端末装置において、前記サーバから前記分類規則情報が受信される前に前記端末側分類規則情報記憶手段に前記分類規則情報が記憶されている場合に、前記サーバから受信された前記分類規則情報と前記端末側分類規則情報記憶手段に記憶されている前記分類規則情報とを合成して新たな前記分類規則情報として前記端末側分類規則情報記憶手段に記憶させる合成手段を備えたことを特徴とする。   Further, in the terminal device of the present invention, when the classification rule information is stored in the terminal-side classification rule information storage means before the classification rule information is received from the server, the classification rule information received from the server is received. Combining means for combining the classification rule information and the classification rule information stored in the terminal-side classification rule information storage means and storing the new classification rule information in the terminal-side classification rule information storage means is provided. It is characterized by.

また、本発明の端末装置において、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する端末側更新手段と、更新による前記分類規則情報の差分を示す差分情報を前記サーバへ送信する差分情報送信手段とを備えたことを特徴とする。   Further, in the terminal device of the present invention, terminal side update means for updating the classification rule information stored in the terminal side classification rule information storage means based on a classification result of the content information, and the classification rule information by update And difference information transmitting means for transmitting difference information indicating the difference to the server.

また、本発明の端末装置において、ユーザが希望するカテゴリを示すカテゴリ情報を前記サーバへ送信するカテゴリ情報送信手段を備えたことを特徴とする。   The terminal device of the present invention is characterized by comprising category information transmitting means for transmitting category information indicating a category desired by the user to the server.

また、本発明の端末装置において、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記サーバへ送信する端末側分類規則情報送信手段を備えたことを特徴とする。   The terminal device according to the present invention further includes terminal-side classification rule information transmitting means for transmitting the classification rule information stored in the terminal-side classification rule information storage means to the server.

また、本発明は、上記のサーバとしてコンピュータを機能させるためのプログラムである。   Moreover, this invention is a program for functioning a computer as said server.

また、本発明は、上記の端末装置としてコンピュータを機能させるためのプログラムである。   Moreover, this invention is a program for functioning a computer as said terminal device.

また、本発明は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。   The present invention is a computer-readable recording medium on which the above program is recorded.

本発明によれば、サーバから端末装置へ分類規則情報が送信され、端末装置がその分類規則情報をコンテンツ情報の分類に利用することが可能となるので、端末装置における教師データの量によらず、実用的な分類精度でコンテンツ情報の分類を実行することができるという効果が得られる。   According to the present invention, the classification rule information is transmitted from the server to the terminal device, and the terminal device can use the classification rule information for content information classification. Therefore, regardless of the amount of teacher data in the terminal device. Thus, it is possible to obtain an effect that the content information can be classified with practical classification accuracy.

以下、図面を参照し、本発明の実施形態を説明する。図1は、本発明の一実施形態によるニュース分類システム(コンテンツ分類システム)の構成を示している。本ニュース分類システムは、ニュース配信装置1、サーバ2、およびユーザ端末3(端末装置)を備え、これらがネットワーク4に接続されている。ニュース配信装置1は、ネットワーク4を介してニュースデータを配信する。サーバ2は、ニュースデータの分類規則を示す分類規則情報を管理し、ユーザ端末3によるニュースデータの分類結果およびサーバ2自身によるニュースデータの分類結果に基づいて自身の分類規則情報を更新する。ユーザ端末3はユーザが所持する端末である。図1には1台だけユーザ端末3が図示されているが、ユーザ端末3と同様のユーザ端末が複数存在しているものとする。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 shows the configuration of a news classification system (content classification system) according to an embodiment of the present invention. The news classification system includes a news distribution device 1, a server 2, and a user terminal 3 (terminal device), which are connected to a network 4. The news distribution device 1 distributes news data via the network 4. The server 2 manages the classification rule information indicating the news data classification rule, and updates its own classification rule information based on the news data classification result by the user terminal 3 and the news data classification result by the server 2 itself. The user terminal 3 is a terminal owned by the user. Although only one user terminal 3 is illustrated in FIG. 1, it is assumed that there are a plurality of user terminals similar to the user terminal 3.

サーバ2において通信部20は、ネットワーク4を介してニュース配信装置1およびユーザ端末3と通信を行う。ニュース保存部21は、通信部20によってニュース配信装置1から受信されたニュースデータをニュース記憶部22に格納する。ニュース記憶部22はニュースデータを記憶する。分類規則情報管理部23は、分類規則情報記憶部24に保存される分類規則情報を管理する。以下、サーバ2で管理される分類規則情報をサーバ用分類規則情報と記す。   In the server 2, the communication unit 20 communicates with the news distribution apparatus 1 and the user terminal 3 via the network 4. The news storage unit 21 stores the news data received from the news distribution device 1 by the communication unit 20 in the news storage unit 22. The news storage unit 22 stores news data. The classification rule information management unit 23 manages the classification rule information stored in the classification rule information storage unit 24. Hereinafter, the classification rule information managed by the server 2 is referred to as server classification rule information.

分類規則情報記憶部24はサーバ用分類規則情報、および後述する類義語辞書を記憶する。ニュース分類部25は、サーバ用分類規則情報に基づいてニュースデータを分類する。ニュースデータの分類はカテゴリラベル(車、グルメ、ビジネス、エンターテイメント等)への関連付けとして行われる。ニュース記憶部22および分類規則情報記憶部24は、別個の記録媒体により構成してもよいし、同一の記録媒体内の別個の記録領域により構成してもよい。   The classification rule information storage unit 24 stores server classification rule information and a synonym dictionary described later. The news classification unit 25 classifies the news data based on the server classification rule information. The news data is classified as a category label (car, gourmet, business, entertainment, etc.). The news storage unit 22 and the classification rule information storage unit 24 may be configured by separate recording media, or may be configured by separate recording areas in the same recording medium.

ユーザ端末3において通信部30は、ネットワーク4を介してニュース配信装置1およびサーバ2と通信を行う。ニュース保存部31は、通信部30によってニュース配信装置1から受信されたニュースデータをニュース記憶部32に格納する。ニュース記憶部32はニュースデータを記憶する。分類規則情報管理部33は、分類規則情報記憶部34に保存される分類規則情報を管理する。以下、ユーザ端末3で管理される分類規則情報をユーザ用分類規則情報と記す。   In the user terminal 3, the communication unit 30 communicates with the news distribution apparatus 1 and the server 2 via the network 4. The news storage unit 31 stores the news data received from the news distribution device 1 by the communication unit 30 in the news storage unit 32. The news storage unit 32 stores news data. The classification rule information management unit 33 manages the classification rule information stored in the classification rule information storage unit 34. Hereinafter, the classification rule information managed by the user terminal 3 is referred to as user classification rule information.

分類規則情報記憶部34はユーザ用分類規則情報を記憶する。ニュース分類部35は、ユーザ用分類規則情報に基づいてニュースデータを分類する。サーバ2と同様にユーザ端末3においても、ニュースデータの分類はカテゴリラベルへの関連付けとして行われる。情報入力部36は、後述するようにユーザが手動によりニュースデータを分類する際や、サーバ2からサーバ用分類規則情報を取得するために希望するカテゴリラベルを入力する際などに、ユーザによって入力された情報を処理する。ニュース記憶部32および分類規則情報記憶部34は、別個の記録媒体により構成してもよいし、同一の記録媒体内の別個の記録領域により構成してもよい。   The classification rule information storage unit 34 stores user classification rule information. The news classification unit 35 classifies the news data based on the user classification rule information. In the user terminal 3 as well as the server 2, the news data is classified as being associated with the category label. The information input unit 36 is input by the user when the user manually categorizes the news data, as described later, or when inputting a desired category label for acquiring server classification rule information from the server 2. Process information. The news storage unit 32 and the classification rule information storage unit 34 may be configured by separate recording media, or may be configured by separate recording areas in the same recording medium.

次に、本実施形態で利用されるデータを説明する。図2は、ニュース配信装置1におけるニュースデータの一例を示している。ニュース配信装置1によって管理されるニュースデータは、ニュースの提供元(新聞社等)により定期的に更新される。ニュースID200は、各ニュースに付与される識別符号である。各ニュースIDがユニークであるとは限らない。ニュースタイトル210およびニュース本文220はテキストデータである。   Next, data used in the present embodiment will be described. FIG. 2 shows an example of news data in the news distribution apparatus 1. News data managed by the news distribution apparatus 1 is periodically updated by a news provider (newspaper company or the like). The news ID 200 is an identification code given to each news. Each news ID is not necessarily unique. The news title 210 and the news body 220 are text data.

図3は、サーバ2で管理されるユーザデータの一例を示している。ユーザID300は、ニュース分類システムを利用するユーザに付与される識別符号である。クラスタID310はユーザが所属するクラスタのIDである。各ユーザは、複数のユーザクラスタ(ユーザグループ)のいずれかに所属している。ユーザクラスタには男性用クラスタ、女性用クラスタ等がある。同じユーザクラスタに所属するユーザ同士の嗜好は、異なるユーザクラスタに属するユーザ同士の嗜好よりも近い。   FIG. 3 shows an example of user data managed by the server 2. The user ID 300 is an identification code given to a user who uses the news classification system. The cluster ID 310 is the ID of the cluster to which the user belongs. Each user belongs to one of a plurality of user clusters (user groups). The user cluster includes a male cluster and a female cluster. The preference between users belonging to the same user cluster is closer than the preference between users belonging to different user clusters.

図4は、サーバ2におけるニュースデータの一例を示している。ニュースID400およびニュースタイトル410は、図2に示したニュースID200およびニュースタイトル210と同様である。単語420は、ニュース本文に含まれる単語である。ニュース配信装置1から受信されたニュースデータがニュース記憶部22に保存されるときに、ニュース保存部21によってニュース本文のデータから単語が抽出される。   FIG. 4 shows an example of news data in the server 2. News ID 400 and news title 410 are the same as news ID 200 and news title 210 shown in FIG. The word 420 is a word included in the news text. When news data received from the news distribution device 1 is stored in the news storage unit 22, the news storage unit 21 extracts words from the data of the news text.

図5は、サーバ2における類義語辞書の一例を示している。1つの代表語500に対して、その代表語500に関連する意味を有する1または複数の関連語510が関連付けられている。類義語辞書の具体的な使用方法は後述する。   FIG. 5 shows an example of a synonym dictionary in the server 2. One representative word 500 is associated with one or more related words 510 having a meaning related to the representative word 500. A specific method of using the synonym dictionary will be described later.

図6および図7は、サーバ2におけるサーバ用分類規則情報の一例を示している。サーバ用分類規則情報は、最初に複数のユーザのユーザ用分類規則情報を合成することにより生成された後、サーバ2またはユーザ端末3でのニュースデータの分類結果に基づいて更新される。本実施形態におけるサーバ用分類規則情報はユーザクラスタ毎に用意されている。また、各ユーザクラスタのサーバ用分類規則情報は、集計元データ、単語頻度テーブル、および文書頻度テーブルから構成される。   6 and 7 show an example of server classification rule information in the server 2. The server classification rule information is generated by first combining the user classification rule information of a plurality of users, and then updated based on the news data classification result in the server 2 or the user terminal 3. The server classification rule information in this embodiment is prepared for each user cluster. Further, the server classification rule information of each user cluster is composed of aggregation source data, a word frequency table, and a document frequency table.

集計元データは、分類対象となるニュースデータから抽出したデータであり、ユーザ端末3においてニュースデータの分類時に生成され、定期的にサーバ2へ送信される。また、図示しないが、サーバ2におけるニュースデータの分類時にも集計元データが生成される。図6(a)は、クラスタIDがUC1であるユーザクラスタUC1に所属するユーザのユーザ端末3から取得した集計元データを示し、図7(a)は、クラスタIDがUC2であるユーザクラスタUC2に所属するユーザのユーザ端末3から取得した集計元データを示している。集計元データは、ユーザID600(ユーザID700)、ニュースID610(ニュースID710)ニュース本文に含まれる単語620a,620b,620c(単語720a,720b,720c)の頻度、およびニュースデータの分類先のカテゴリラベル630(カテゴリラベル730)から構成されている。   The aggregation source data is data extracted from the news data to be classified, is generated when the news data is classified in the user terminal 3, and is periodically transmitted to the server 2. Although not shown in the figure, the aggregation source data is also generated when the news data is classified in the server 2. FIG. 6A shows the aggregation source data acquired from the user terminal 3 of the user belonging to the user cluster UC1 whose cluster ID is UC1, and FIG. 7A shows the user cluster UC2 whose cluster ID is UC2. The aggregation source data acquired from the user terminal 3 of the user to which the user belongs is shown. The aggregation source data includes user ID 600 (user ID 700), news ID 610 (news ID 710), the frequency of words 620a, 620b, and 620c (words 720a, 720b, and 720c) included in the news body, and the category label 630 of the news data classification destination. (Category label 730).

単語頻度テーブルは、所定のカテゴリラベルに分類されたニュースデータのニュース本文に含まれる各単語の頻度を示している。図6(b)はユーザクラスタUC1の単語頻度テーブルを示し、図7(b)はユーザクラスタUC2の単語頻度テーブルを示している。単語頻度テーブルは、カテゴリラベル640(カテゴリラベル740)、単語650a,650b,650c,650d(単語750a,750b,750c)の頻度、および各単語の頻度の合計660(合計760)から構成されている。   The word frequency table shows the frequency of each word included in the news body of news data classified into a predetermined category label. FIG. 6B shows a word frequency table of the user cluster UC1, and FIG. 7B shows a word frequency table of the user cluster UC2. The word frequency table includes a category label 640 (category label 740), words 650a, 650b, 650c, and 650d (words 750a, 750b, and 750c), and a total frequency 660 (total 760) of each word. .

文書頻度テーブルは、所定のカテゴリラベルに分類されたニュースデータの数(文書数)を示している。図6(c)はユーザクラスタUC1の文書頻度テーブルを示し、図7(c)はユーザクラスタUC2の文書頻度テーブルを示している。文書頻度テーブルは、カテゴリラベル670(カテゴリラベル770)および文書数680(文書数780)から構成されている。   The document frequency table indicates the number of news data (number of documents) classified into a predetermined category label. FIG. 6C shows a document frequency table of the user cluster UC1, and FIG. 7C shows a document frequency table of the user cluster UC2. The document frequency table includes a category label 670 (category label 770) and a document number 680 (document number 780).

図6および図7に示したように、サーバ用分類規則情報はカテゴリラベルと関連付けられている。このことから、後述するように、カテゴリラベル毎にサーバ用分類規則情報をユーザに提示することが可能となっている。   As shown in FIGS. 6 and 7, the server classification rule information is associated with the category label. Thus, as will be described later, it is possible to present server classification rule information to the user for each category label.

図8は、ユーザ端末3におけるニュースデータの一例を示している。種別800は、ニュースの既読・未読の種別を示している。種別810はニュースデータの分類方法を示している。ニュースデータの分類が実行された場合には“自動”または“手動”が種別810としてニュースデータに付与され、ニュースデータの分類が実行されていない場合には“未分類”が種別810としてニュースデータに付与される。“自動”は、ユーザ用分類規則情報に基づいてニュースデータの自動分類が実行されたことを示している。“手動”は、ユーザ用分類規則情報に基づいてニュースデータの自動分類が実行されたか否かにかかわらず、最終的にユーザの手動操作によってニュースデータの分類が実行されたことを示している。   FIG. 8 shows an example of news data in the user terminal 3. A type 800 indicates a read / unread type of news. A type 810 indicates a news data classification method. When news data classification is performed, “automatic” or “manual” is assigned to the news data as type 810, and when news data classification is not performed, “unclassified” is classified as type 810 in the news data. To be granted. “Automatic” indicates that automatic classification of news data is executed based on the user classification rule information. “Manual” indicates that the news data is finally classified by the manual operation of the user regardless of whether or not the news data is automatically classified based on the user classification rule information.

カテゴリラベル820は、ニュースデータの分類先のカテゴリラベルを示している。ニュースデータの分類が一度も実行されていない場合には、“未分類”がカテゴリラベル820として付与される。ニュースID830、ニュースタイトル840、およびニュース本文850は、図2に示したニュースID200、ニュースタイトル210、およびニュース本文220と同様である。   The category label 820 indicates a category label to which news data is classified. If the news data has never been classified, “unclassified” is assigned as the category label 820. News ID 830, news title 840, and news body 850 are the same as news ID 200, news title 210, and news body 220 shown in FIG.

図9は、ユーザ端末3におけるユーザ用分類規則情報の一例を示している。ユーザ用分類規則情報は、図9(a)に示す集計元データと、図9(b)に示す単語頻度テーブルと、図9(c)に示す文書頻度テーブルと、図9(d)に示す差分単語頻度テーブルと、図9(e)に示す差分文書頻度テーブルとから構成される。   FIG. 9 shows an example of user classification rule information in the user terminal 3. The user classification rule information includes the aggregation source data shown in FIG. 9A, the word frequency table shown in FIG. 9B, the document frequency table shown in FIG. 9C, and the FIG. 9D. It is composed of a difference word frequency table and a difference document frequency table shown in FIG.

図9(a)に示す集計元データは、分類対象となるニュースデータから抽出したデータであり、ニュースデータの分類時にニュース分類部35によって生成される。集計元データは、ニュースID900、ニュース本文に含まれる単語910a,910b,910cの頻度、およびニュースデータの分類先のカテゴリラベル920から構成されている。   Aggregation source data shown in FIG. 9A is data extracted from news data to be classified, and is generated by the news classification unit 35 when the news data is classified. The aggregation source data includes a news ID 900, the frequencies of words 910a, 910b, and 910c included in the news body, and a category label 920 to which the news data is classified.

図9(b)に示す単語頻度テーブルは、図6(b)および図7(b)に示した単語頻度テーブルと同様である。図9(c)に示す文書頻度テーブルは、図6(c)および図7(c)に示した文書頻度テーブルと同様である。上記の単語頻度テーブルおよび文書頻度テーブルは、ニュースデータの分類が実行される毎に集計元データに基づいて更新される。   The word frequency table shown in FIG. 9B is the same as the word frequency table shown in FIGS. 6B and 7B. The document frequency table shown in FIG. 9C is the same as the document frequency table shown in FIGS. 6C and 7C. The word frequency table and the document frequency table are updated based on the aggregation source data every time news data is classified.

図9(d)に示す差分単語頻度テーブル、および図9(e)に示す差分文書頻度テーブルは、ユーザ端末3がユーザ用分類規則情報を更新することにより発生するユーザ用分類規則情報の変化の差分を示す差分情報を構成している。図9(d)に示す差分単語頻度テーブルは、単語頻度テーブルに関する差分情報を示している。また、図9(e)に示す差分文書頻度テーブルは、文書頻度テーブルに関する差分情報を示している。   The difference word frequency table shown in FIG. 9D and the difference document frequency table shown in FIG. 9E show changes in user classification rule information that occur when the user terminal 3 updates the user classification rule information. The difference information indicating the difference is configured. The difference word frequency table shown in FIG. 9D shows difference information regarding the word frequency table. Further, the difference document frequency table shown in FIG. 9E shows difference information regarding the document frequency table.

これらの差分情報は、サーバ2におけるサーバ用分類規則情報の更新のためにサーバ2へ送信される。本実施形態では、最後に差分情報がサーバ2へ送信されたときのユーザ用分類規則情報と最新のユーザ用分類規則情報との差分により差分情報が構成される。このため、最後に差分情報がサーバ2へ送信されたときのユーザ用分類規則情報が、ニュースデータの分類に用いられる最新のユーザ用分類規則情報とは別個に分類規則情報記憶部34に保存される。   The difference information is transmitted to the server 2 for updating the server classification rule information in the server 2. In this embodiment, difference information is comprised by the difference of the classification rule information for users when the difference information was last transmitted to the server 2, and the latest classification rule information for users. Therefore, the user classification rule information when the difference information was last transmitted to the server 2 is stored in the classification rule information storage unit 34 separately from the latest user classification rule information used for news data classification. The

次に、サーバ2におけるカテゴリラベルの管理方法を説明する。カテゴリラベル数の爆発的増加を抑えるため、および各ユーザが独自に付与したカテゴリラベル同士の対応付けを行うために、カテゴリラベルを妥当な数のカテゴリラベルに集約することが望ましい。このため、本実施形態では以下のようにしてカテゴリラベルが管理される。以下、カテゴリラベルの管理方法の一例として、2つの方法を説明する。   Next, a method for managing category labels in the server 2 will be described. In order to suppress the explosive increase in the number of category labels and to associate the category labels uniquely assigned by each user, it is desirable to aggregate the category labels into an appropriate number of category labels. For this reason, in this embodiment, category labels are managed as follows. In the following, two methods will be described as examples of category label management methods.

まず、類義語辞書を利用する方法を説明する。前述したように、代表語と類義語のリストをペアとする類義語辞書がサーバ2の分類規則情報記憶部24に保存される。類義語辞書は、ユーザによって付与されたカテゴリラベルを、サーバ用分類規則情報に用いるカテゴリラベルに変換する場合に利用される。その場合、ユーザにより付与されたカテゴリラベルを類義語としてその代表語が検索され、ユーザにより付与されたカテゴリラベルが代表語に置き換えられる。類義語辞書を更新するには、例えば類義語辞書にない単語を別途保存し、これを用いて定期的に手動により類義語辞書を更新すればよい。   First, a method using a synonym dictionary will be described. As described above, a synonym dictionary having a pair of a representative word and a synonym list is stored in the classification rule information storage unit 24 of the server 2. The synonym dictionary is used when a category label given by a user is converted into a category label used for server classification rule information. In that case, the representative word is retrieved using the category label given by the user as a synonym, and the category label given by the user is replaced with the representative word. In order to update the synonym dictionary, for example, words that are not in the synonym dictionary may be separately stored, and the synonym dictionary may be manually updated periodically using this.

次に、統計的手法によりカテゴリラベルをクラスタリングする方法を説明する。公知の統計的手法により、サーバ2が管理するカテゴリラベルの属するカテゴリラベルクラスタおよびその代表カテゴリラベルを決定する。より具体的には、カテゴリラベルのペアそれぞれのラベルの条件付き単語頻度分布同士を比較し、条件付き単語頻度分布間の距離(カルバックラブラー距離等)を算出する。カテゴリラベルの条件付き単語頻度分布の詳細は、ユーザ端末3によるニュースデータの分類時の動作を説明する際に説明する。   Next, a method for clustering category labels by a statistical method will be described. The category label cluster to which the category label managed by the server 2 belongs and its representative category label are determined by a known statistical method. More specifically, the conditional word frequency distributions of the labels of each pair of category labels are compared with each other, and the distance between the conditional word frequency distributions (Calbachlabler distance or the like) is calculated. Details of the conditional word frequency distribution of the category label will be described when the operation at the time of news data classification by the user terminal 3 is described.

上記のようにして算出した距離をカテゴリラベル間の類似度とし、任意のクラスタ数でカテゴリラベル群をクラスタリングし、さらに各カテゴリラベルクラスタについて代表カテゴリラベルを決定する。ユーザによって付与されたカテゴリラベルを、サーバ用分類規則情報に用いるカテゴリラベルに変換する場合、ユーザによって付与されたカテゴリラベルが代表カテゴリラベルに変換される。   The distance calculated as described above is used as the similarity between category labels, the category label group is clustered by an arbitrary number of clusters, and a representative category label is determined for each category label cluster. When converting the category label given by the user into the category label used for the server classification rule information, the category label given by the user is converted into the representative category label.

次に、本実施形態におけるニュースデータの分類方法を説明する。まず、ユーザ端末3のニュース分類部35(サーバ2のニュース分類部25)はカテゴリラベルc(i=1,2,・・・,m)の頻度分布P(c)を算出する。P(c)は、ニュースデータの文書全体に対する各カテゴリラベルの文書の出現頻度の推定値を表しており、文書頻度テーブルに基づいて以下の(1)式に従って算出される。ただし、#d’は全文書の数であり、#d’()は()内の条件を満たす文書の数(#d’(c)はカテゴリラベルcに分類された文書の数)である。 Next, a news data classification method according to the present embodiment will be described. First, the news classification unit 35 of the user terminal 3 (news classification unit 25 of the server 2) calculates the frequency distribution P (c i ) of the category label c i (i = 1, 2,..., M). P (c i ) represents an estimated value of the appearance frequency of each category label document for the entire news data document, and is calculated according to the following equation (1) based on the document frequency table. However, #d ′ is the number of all documents, and #d ′ () is the number of documents satisfying the condition in () (#d ′ (c i ) is the number of documents classified into the category label c i ). It is.

Figure 2008242689
Figure 2008242689

続いて、ニュース分類部35(ニュース分類部25)は、カテゴリラベルcの条件付き単語w(j=1,2,・・・,n)の頻度分布P(w|c)を算出する。P(w|c)は、特定のカテゴリラベルにおける特定の単語の出現頻度の推定値を表しており、単語頻度テーブルに基づいて以下の(2)式に従って算出される。ただし、Fは、カテゴリラベルcに分類された文書の単語ベクトル、|F|はその長さであり、#d’(w,c)は、カテゴリラベルcに分類され、単語wを文書内に有する文書の数である。 Subsequently, the news classification unit 35 (news classification unit 25) obtains the frequency distribution P (w j | c i ) of the conditional word w j (j = 1, 2,..., N) of the category label c i. calculate. P (w j | c i ) represents an estimated value of the appearance frequency of a specific word in a specific category label, and is calculated according to the following equation (2) based on the word frequency table. However, F is a word vector of the document classified into the category label c i , | F | is its length, and #d ′ (w j , c i ) is classified into the category label c i , and the word w The number of documents that have j in the document.

Figure 2008242689
Figure 2008242689

続いて、ニュース分類部35(ニュース分類部25)は、文書dがカテゴリラベルcに分類される確率P(c,d)を算出する。P(c,d)は以下の(3)式に従って算出される。ただし、N(w,d)は文書d中の単語wの数である。 Subsequently, the news classification unit 35 (news classification unit 25) calculates the probability P (c i , d) that the document d is classified into the category label c i . P (c i , d) is calculated according to the following equation (3). Here, N (w j , d) is the number of words w j in the document d.

Figure 2008242689
Figure 2008242689

また、ニュース分類部35(ニュース分類部25)は、以下の(4)式に従って確率P(c|d)を算出する。 Also, the news classification unit 35 (news classification unit 25) calculates a probability P (c i | d) according to the following equation (4).

Figure 2008242689
Figure 2008242689

全てのカテゴリラベルcについてP(c|d)を算出した後、ニュース分類部35(ニュース分類部25)は、以下の(5)式のようにP(c|d)が最大となるカテゴリラベルcを分類先のカテゴリラベルとする。続いて、ニュース分類部35(ニュース分類部25)は、ニュース記憶部32(ニュース記憶部22)に格納されている分類対象のニュースデータを読み出し、分類先のカテゴリラベルと関連付けてニュース記憶部32(ニュース記憶部22)に再度格納する。上述した(1)式〜(5)式の計算方法に関する情報もユーザ用分類規則情報(サーバ用分類規則情報)の一部として分類規則情報記憶部34(分類規則情報記憶部24)に格納されている。上述した分類方法による具体的な分類例は後述する。 After calculating P (c i | d) for all category labels c i , the news classification unit 35 (news classification unit 25) determines that P (c i | d) is the maximum as shown in the following equation (5). This category label c is a category label of the classification destination. Subsequently, the news classification unit 35 (news classification unit 25) reads the news data to be classified stored in the news storage unit 32 (news storage unit 22), associates it with the category label of the classification destination, and stores the news storage unit 32. Store again in (news storage unit 22). Information on the calculation methods of the above-described equations (1) to (5) is also stored in the classification rule information storage unit 34 (classification rule information storage unit 24) as part of the user classification rule information (server classification rule information). ing. A specific classification example by the above-described classification method will be described later.

Figure 2008242689
Figure 2008242689

次に、本実施形態によるニュース分類システムの動作を説明する。まず、図10を参照しながら、ユーザに適したサーバ用分類規則情報をサーバ2が検索する動作を説明する。図10(a)は、ユーザが希望するカテゴリラベルと類似したカテゴリラベルのサーバ用分類規則情報を検索する動作を示している。また、図10(b)は、ユーザ用分類規則情報と類似したサーバ用分類規則情報を検索する動作を示している。   Next, the operation of the news classification system according to the present embodiment will be described. First, the operation in which the server 2 searches for server classification rule information suitable for the user will be described with reference to FIG. FIG. 10A shows an operation of searching server classification rule information having a category label similar to the category label desired by the user. FIG. 10B shows an operation for searching server classification rule information similar to the user classification rule information.

図10(a)において、ニュース分類システムによるサービスを初めて利用する場合などに、ユーザが希望するカテゴリラベルの一覧(カテゴリラベルリスト)がユーザ端末3の情報入力部36に入力される(ステップS100)。情報入力部36は、入力されたカテゴリラベルリストを通信部30へ出力する。通信部30はカテゴリラベルリストをサーバ2へ送信する(ステップS110)。   In FIG. 10A, when using the service by the news classification system for the first time, a list of category labels desired by the user (category label list) is input to the information input unit 36 of the user terminal 3 (step S100). . The information input unit 36 outputs the input category label list to the communication unit 30. The communication unit 30 transmits the category label list to the server 2 (step S110).

サーバ2の通信部20はユーザ端末3からのカテゴリラベルリストを受信し、分類規則情報管理部23へ出力する。分類規則情報管理部23は、分類規則情報記憶部24が記憶しているサーバ用分類規則情報の中から、ユーザが希望するカテゴリラベルと類似したカテゴリラベルのサーバ用分類規則情報を検索する(ステップS120)。   The communication unit 20 of the server 2 receives the category label list from the user terminal 3 and outputs it to the classification rule information management unit 23. The classification rule information management unit 23 searches the server classification rule information stored in the classification rule information storage unit 24 for server classification rule information having a category label similar to the category label desired by the user (step S31). S120).

この検索の方法の一例として、2つの方法を説明する。まず、カテゴリラベルリストと類義語辞書を利用する方法を説明する。分類規則情報管理部23は、類義語辞書を用いて、ユーザが希望するカテゴリラベルリストの各要素をその代表語で置き換えたとき、その代表語からなるカテゴリラベルリストがサーバ用分類規則情報のカテゴリラベルの集合に含まれる割合を算出する。この割合がユーザのカテゴリラベルリストとサーバ用分類規則情報中のカテゴリラベルとの間の類似度である。そして、分類規則情報管理部23は、類似度が高いカテゴリラベルと関連付けられているサーバ用分類規則情報を検索する。   As an example of this search method, two methods will be described. First, a method of using a category label list and a synonym dictionary will be described. The classification rule information management unit 23 uses the synonym dictionary to replace each element of the category label list desired by the user with the representative word, and the category label list including the representative word becomes the category label of the server classification rule information. The ratio included in the set of is calculated. This ratio is the similarity between the category label list of the user and the category label in the server classification rule information. Then, the classification rule information management unit 23 searches the server classification rule information associated with the category label having a high similarity.

次に、サーバ用分類規則情報中のカテゴリラベルの条件付き単語頻度分布((2)式を参照)およびそれに含まれる単語群を利用する方法を説明する。分類規則情報管理部23はサーバ用分類規則情報中の各カテゴリラベルに含まれる単語群と、ユーザが希望するカテゴリラベルリストに含まれる単語群とを照合し、共通する単語群を抽出する。続いて、分類規則情報管理部23は共通単語群のカテゴリラベルの条件付き単語頻度分布を合算し、それをユーザのカテゴリラベルリストとサーバ用分類規則情報中のカテゴリラベルとの間の類似度とする。そして、分類規則情報管理部23は、類似度が高いカテゴリラベルと関連付けられているサーバ用分類規則情報を検索する。   Next, a method of using a conditional word frequency distribution (see equation (2)) of category labels in the server classification rule information and a word group included therein will be described. The classification rule information management unit 23 collates the word group included in each category label in the server classification rule information with the word group included in the category label list desired by the user, and extracts a common word group. Subsequently, the classification rule information management unit 23 adds the conditional word frequency distribution of the category labels of the common word group, and calculates the similarity between the category label list of the user and the category label in the server classification rule information. To do. Then, the classification rule information management unit 23 searches the server classification rule information associated with the category label having a high similarity.

図10(a)の説明に戻る。ステップS120に続いて、分類規則情報管理部23は、検索された(検索によって見つかった)サーバ用分類規則情報のカテゴリラベルの候補をユーザに提示するため、カテゴリラベルの候補からなるカテゴリラベルリストを通信部20へ出力する。通信部20はカテゴリラベルリストをユーザ端末3へ送信する(ステップS130)。   Returning to the description of FIG. Subsequent to step S120, the classification rule information management unit 23 displays a category label list made up of category label candidates in order to present to the user the category label candidates of the server classification rule information searched (found by the search). Output to the communication unit 20. The communication unit 20 transmits the category label list to the user terminal 3 (step S130).

ユーザ端末3の通信部30はサーバ2からのカテゴリラベルリストを受信し、分類規則情報管理部33へ出力する。分類規則情報管理部33は図示せぬ表示部にカテゴリラベルリストを表示する処理を実行する(ステップS140)。その表示を確認したユーザによって、希望するカテゴリラベルが選択され、選択結果が情報入力部36に入力される(ステップS150)。情報入力部36は、ユーザの選択結果を示す情報を通信部30へ出力する。通信部30はその情報をサーバ2へ送信する(ステップS160)。   The communication unit 30 of the user terminal 3 receives the category label list from the server 2 and outputs it to the classification rule information management unit 33. The classification rule information management unit 33 executes a process of displaying a category label list on a display unit (not shown) (step S140). The user who confirms the display selects the desired category label and inputs the selection result to the information input unit 36 (step S150). The information input unit 36 outputs information indicating the user selection result to the communication unit 30. The communication unit 30 transmits the information to the server 2 (step S160).

ユーザがニュース分類システムを初めて利用する場合には、ユーザはまだユーザクラスタに所属しておらず、図10(a)に示した処理の終了後にユーザIDがユーザに付与され、そのユーザが所属するユーザクラスタが決定される。   When the user uses the news classification system for the first time, the user does not yet belong to the user cluster, and the user ID is given to the user after the process shown in FIG. A user cluster is determined.

以下、上記の動作の具体例を説明する。ユーザがニュース分類システムによる分類を初めて利用するものとする。図10(a)のステップS100において、ユーザが希望するカテゴリラベルとして、“車”と“ゴルフ”が入力されたとする。ステップS120において、サーバ2は、それらのカテゴリラベルに類似したサーバ用分類規則中のカテゴリラベルを検索する。   Hereinafter, a specific example of the above operation will be described. It is assumed that the user uses the classification by the news classification system for the first time. Assume that “car” and “golf” are input as category labels desired by the user in step S100 of FIG. In step S120, the server 2 searches for category labels in the server classification rules similar to those category labels.

カテゴリラベルリストと類義語辞書を利用する方法では、カテゴリラベルの検索結果は以下のようになる。ユーザによって入力されたカテゴリラベル(“車”と“ゴルフ”)が類義語辞書内の代表語と同一であるものとすると、代表語への変換の必要はない。サーバ2は、ユーザが希望するカテゴリラベルリストについて、サーバ用分類規則情報のカテゴリラベルの集合に含まれる割合(類似度)を算出する。図11(a)は、サーバ用分類規則情報の各カテゴリラベルについて、ユーザが希望するカテゴリラベルリストとの類似度(括弧書きで示す)を示している。   In the method using the category label list and the synonym dictionary, the search result of the category label is as follows. If the category labels ("car" and "golf") entered by the user are the same as the representative words in the synonym dictionary, there is no need to convert them into representative words. The server 2 calculates the ratio (similarity) included in the set of category labels of the server classification rule information for the category label list desired by the user. FIG. 11A shows the similarity (shown in parentheses) with the category label list desired by the user for each category label of the server classification rule information.

この結果、ユーザ端末3において、図11(b)に示すカテゴリラベルリストの候補が表示される。ユーザが希望するカテゴリラベルとの類似度が高いカテゴリラベルリストの候補の1位はユーザクラスタUC1のカテゴリラベルリストであり、候補の2位はユーザクラスタUC2のカテゴリラベルリストである。各ユーザクラスタにおいてカテゴリラベルリストは、ユーザが希望するカテゴリラベルとの類似度が高い順に表示される。   As a result, the category label list candidates shown in FIG. 11B are displayed on the user terminal 3. The first place of the category label list candidate having a high similarity to the category label desired by the user is the category label list of the user cluster UC1, and the second place of the candidate is the category label list of the user cluster UC2. In each user cluster, the category label list is displayed in descending order of similarity to the category label desired by the user.

また、サーバ用分類規則情報中のカテゴリラベルの条件付き単語頻度分布およびそれらに含まれる単語群を利用する方法では、サーバ2は、サーバ用分類規則情報中の各カテゴリラベルに含まれる単語群と、ユーザが希望するカテゴリラベルリストに含まれる単語群とに共通する単語群のカテゴリラベルの条件付き頻度分布を合算し、それをカテゴリラベルリストとサーバ用分類規則情報中のカテゴリラベルとの間の類似度とする。   Further, in the method of using the conditional word frequency distribution of the category labels in the server classification rule information and the word groups included therein, the server 2 includes the word groups included in each category label in the server classification rule information and , The conditional frequency distribution of the category labels of the word group common to the word group included in the category label list desired by the user is added, and it is added between the category label list and the category label in the server classification rule information. Similarity.

図11(c)は、サーバ用分類規則情報の各カテゴリラベルについて、ユーザが希望するカテゴリラベルリストとの類似度(括弧書きで示す)を示している。この類似度の算出結果に基づいて、ユーザ端末3においてカテゴリラベルリストの候補が表示される。表示されるカテゴリラベルリストは、図11(b)に示したものと同様である。   FIG. 11C shows the similarity (shown in parentheses) with the category label list desired by the user for each category label of the server classification rule information. Based on the similarity calculation result, category label list candidates are displayed on the user terminal 3. The displayed category label list is the same as that shown in FIG.

上記のようにしてカテゴリラベルリストの候補が提示された後、それらの候補の中から、ユーザが希望するカテゴリラベルが選択される。例えば、図11(d)に示すユーザクラスタUC1のカテゴリラベル(“車”と“ゴルフ”)が選択される。   After the category label list candidates are presented as described above, the category label desired by the user is selected from these candidates. For example, the category labels (“car” and “golf”) of the user cluster UC1 shown in FIG. 11 (d) are selected.

次に、図10(b)に示す動作を説明する。ユーザ端末3の分類規則情報管理部33は分類規則情報記憶部34からユーザ用分類規則情報を読み出し、通信部30へ出力する。通信部30はユーザ用分類規則情報をサーバ2へ送信する(ステップS200)。サーバ2の通信部20はユーザ端末3からのユーザ用分類規則情報を受信し、分類規則情報管理部23へ出力する。分類規則情報管理部23は、分類規則情報記憶部24が記憶しているサーバ用分類規則情報の中から、ユーザ用分類規則情報と類似したサーバ用分類規則情報を検索する(ステップS210)。   Next, the operation shown in FIG. 10B will be described. The classification rule information management unit 33 of the user terminal 3 reads the user classification rule information from the classification rule information storage unit 34 and outputs it to the communication unit 30. The communication unit 30 transmits the user classification rule information to the server 2 (step S200). The communication unit 20 of the server 2 receives the user classification rule information from the user terminal 3 and outputs it to the classification rule information management unit 23. The classification rule information management unit 23 searches server classification rule information similar to the user classification rule information from the server classification rule information stored in the classification rule information storage unit 24 (step S210).

このとき、分類規則情報管理部23は、ユーザ用分類規則情報中の各カテゴリラベルの条件付き単語頻度分布((2)式を参照)とサーバ用分類規則情報中の各カテゴリラベルの条件付き単語頻度分布を算出する。さらに、分類規則情報管理部23は、算出したユーザ側とサーバ側の条件付き単語頻度分布同士を比較し、条件付き単語頻度分布間の距離(カルバックライブラー距離等)を算出し、この距離をカテゴリラベル毎のユーザ用分類規則情報とサーバ用分類規則情報の類似度とする。この類似度が高いカテゴリラベルの順に、カテゴリラベルがユーザに提示される。   At this time, the classification rule information management unit 23 performs conditional word frequency distribution for each category label in the user classification rule information (see equation (2)) and conditional words for each category label in the server classification rule information. Calculate the frequency distribution. Further, the classification rule information management unit 23 compares the calculated conditional word frequency distributions on the user side and the server side, calculates a distance between the conditional word frequency distributions (such as a Cullback library distance), and calculates this distance. The similarity between the user classification rule information and the server classification rule information for each category label. The category labels are presented to the user in the order of the category labels having the highest similarity.

続いて、分類規則情報管理部23は、検索された(検索によって見つかった)サーバ用分類規則情報のカテゴリラベルの候補をユーザに提示するため、カテゴリラベルの候補からなるカテゴリラベルリストを通信部20へ出力する。通信部20は分類規則情報リストをユーザ端末3へ送信する(ステップS220)。   Subsequently, the classification rule information management unit 23 presents the category label list of the category label candidates to the user in order to present the category label candidates of the searched server classification rule information (found by the search) to the communication unit 20. Output to. The communication unit 20 transmits the classification rule information list to the user terminal 3 (step S220).

ユーザ端末3の通信部30はサーバ2からのカテゴリラベルリストを受信し、分類規則情報管理部33へ出力する。分類規則情報管理部33は図示せぬ表示部にカテゴリラベルリストを表示する処理を実行する(ステップS230)。その表示を確認したユーザによって、希望するカテゴリラベルが選択され、選択結果が情報入力部36に入力される(ステップS240)。情報入力部36は、ユーザの選択結果を示す情報を通信部30へ出力する。通信部30はその情報をサーバ2へ送信する(ステップS250)。   The communication unit 30 of the user terminal 3 receives the category label list from the server 2 and outputs it to the classification rule information management unit 33. The classification rule information management unit 33 executes processing for displaying a category label list on a display unit (not shown) (step S230). The user who confirms the display selects a desired category label, and the selection result is input to the information input unit 36 (step S240). The information input unit 36 outputs information indicating the user selection result to the communication unit 30. The communication unit 30 transmits the information to the server 2 (step S250).

以下、上記の動作の具体例を説明する。図10(b)のステップS200において、ユーザ用分類規則情報として、カテゴリラベル“車”と“グルメ”に関するユーザ用分類規則情報がサーバ2へ送信されたとする。ステップS210において、サーバ2は、そのユーザ用分類規則情報に類似したサーバ用分類規則情報を検索する。その結果、図12(a)に示すカテゴリラベルリストが候補として提示されたとする。それらの候補の中から、ユーザは例えば図12(b)に示すカテゴリラベル(“車”と“グルメ”)を選択する。   Hereinafter, a specific example of the above operation will be described. Assume that user classification rule information related to the category labels “car” and “gourmet” is transmitted to the server 2 as the user classification rule information in step S200 of FIG. In step S210, the server 2 searches for server classification rule information similar to the user classification rule information. As a result, the category label list shown in FIG. 12A is presented as a candidate. The user selects, for example, the category labels (“car” and “gourmet”) shown in FIG.

次に、図13を参照しながら、ユーザ端末3によるサーバ用分類規則情報の取得動作を説明する。サーバ2の通信部20は、図10に示したステップS160またはステップS250でユーザ端末3から送信された情報を受信し、分類規則情報管理部23へ出力する。分類規則情報管理部23は、分類規則情報記憶部24に格納されているサーバ用分類規則情報の中から、ユーザの選択結果に対応したサーバ用分類規則情報を抽出し、通信部20へ出力する(ステップS300)。通信部20はサーバ用分類規則情報をユーザ端末3へ送信する(ステップS310)。   Next, an operation of acquiring server classification rule information by the user terminal 3 will be described with reference to FIG. The communication unit 20 of the server 2 receives the information transmitted from the user terminal 3 in step S160 or step S250 illustrated in FIG. 10 and outputs the information to the classification rule information management unit 23. The classification rule information management unit 23 extracts server classification rule information corresponding to the user selection result from the server classification rule information stored in the classification rule information storage unit 24 and outputs the server classification rule information to the communication unit 20. (Step S300). The communication unit 20 transmits server classification rule information to the user terminal 3 (step S310).

ユーザ端末3の通信部30はサーバ2からのサーバ用分類規則情報を受信し、分類規則情報管理部33へ出力する。分類規則情報管理部33は、分類規則情報記憶部34からユーザ用分類規則情報を読み出してそのユーザ用分類規則情報とサーバ用分類規則情報を合成し、合成後の分類規則情報を新たなユーザ用分類規則情報として分類規則情報記憶部34に格納する。また、ユーザがニュース分類システムを始めて利用する場合など、分類規則情報記憶部34にユーザ用分類規則情報が格納されていないときには、サーバ用分類規則情報がそのままユーザ用分類規則情報として分類規則情報記憶部34に格納される(ステップS320)。   The communication unit 30 of the user terminal 3 receives server classification rule information from the server 2 and outputs it to the classification rule information management unit 33. The classification rule information management unit 33 reads out the user classification rule information from the classification rule information storage unit 34, combines the user classification rule information and the server classification rule information, and uses the combined classification rule information for the new user. The classification rule information is stored in the classification rule information storage unit 34. Further, when the user uses the news classification system for the first time and the classification rule information for the user is not stored in the classification rule information storage unit 34, the classification rule information for the server is directly stored as the classification rule information for the user. Stored in the unit 34 (step S320).

ユーザ用分類規則情報とサーバ用分類規則情報の合成は以下のようにして行われる。カテゴリラベルについては、ユーザ用分類規則情報とサーバ用分類規則情報に含まれるカテゴリラベルの和集合が合成後のカテゴリラベルとなる。また、単語頻度テーブルにおける単語の頻度、および文書頻度テーブルにおける文書の頻度については、以下のようになる。すなわち、ユーザ用分類規則情報に含まれ、サーバ用分類規則情報には含まれないカテゴリラベルに関する合成後の頻度には、ユーザ用分類規則情報に含まれるカテゴリラベルに関する頻度が用いられる。   The user classification rule information and the server classification rule information are combined as follows. For the category label, the union of the category labels included in the user classification rule information and the server classification rule information becomes the combined category label. The word frequency in the word frequency table and the document frequency in the document frequency table are as follows. That is, the frequency relating to the category label included in the user classification rule information is used as the frequency after combination relating to the category label included in the user classification rule information and not included in the server classification rule information.

また、サーバ用分類規則情報に含まれ、ユーザ用分類規則情報には含まれないカテゴリラベルに関する合成後の頻度には、サーバ用分類規則情報に含まれるカテゴリラベルに関する頻度が用いられる。また、ユーザ用分類規則情報とサーバ用分類規則情報の両方に含まれる(両者に共通する)カテゴリラベルに関する合成後の頻度には、ユーザ用分類規則情報の頻度とサーバ用分類規則情報の頻度を所定の割合で重み付けしたものが用いられる。この重み付けの割合をユーザが指定することが可能である。単語頻度テーブルにおいて、ユーザ用分類規則情報とサーバ用分類規則情報の両方に含まれるカテゴリラベルに関して、そのカテゴリラベルに属する単語がユーザ側とサーバ側のいずれか一方の単語頻度テーブルのみに存在する場合には、その単語の頻度が合成後のその単語の頻度に用いられる。ただし下記の通り、ユーザ用分類規則情報とサーバ用分類規則情報の共通するカテゴリラベルについても、そのカテゴリラベルのサーバ用分類規則情報が合成対象となる場合とならない場合がある。   In addition, the frequency related to the category label included in the server classification rule information is used as the frequency after combination related to the category label included in the server classification rule information and not included in the user classification rule information. In addition, the frequency of combination of category labels included in both the user classification rule information and the server classification rule information (common to both) includes the frequency of the user classification rule information and the frequency of the server classification rule information. What is weighted at a predetermined ratio is used. The weighting ratio can be specified by the user. In the word frequency table, when a category label is included in both the user classification rule information and the server classification rule information, the word belonging to the category label exists only in either the user side or the server side word frequency table The frequency of the word is used as the frequency of the word after synthesis. However, as described below, for the category label common to the user classification rule information and the server classification rule information, the server classification rule information of the category label may not be the target of synthesis.

ユーザ用分類規則情報とサーバ用分類規則情報の共通するカテゴリラベルについては、ユーザ側とサーバ側で単語頻度分布(各カテゴリラベルにおける各単語の頻度を合算し正規化した(各カテゴリラベルの総単語数で割った)もの)が類似している場合に、そのカテゴリラベルのサーバ用分類規則情報が合成対象となる。ユーザ側とサーバ側で単語頻度分布が類似していない場合には、そのカテゴリラベルについては、サーバ用分類規則情報は合成対象から除外される。   For the category labels common to the user classification rule information and the server classification rule information, the word frequency distribution on the user side and the server side (the total frequency of each category label is summed and normalized) (The one divided by the number) is similar), the server classification rule information of the category label becomes the synthesis target. When the word frequency distribution is not similar between the user side and the server side, the server classification rule information is excluded from the synthesis targets for the category label.

以下、上記の動作の具体例を説明する。ユーザID“U1”を有するユーザU1がユーザクラスタUC1のサーバ用分類規則情報から、車およびグルメ関係のサーバ用分類規則情報だけを選択したものとする。図14(a)および(b)はそれぞれ、ユーザ端末3がサーバ2から取得した単語頻度テーブルおよび文書頻度テーブルを示している。図14(a)に示す単語頻度テーブルは、図6(b)に示したサーバ用の単語頻度テーブルの中から、ユーザが選択したカテゴリラベル(“車”と“グルメ”)の単語頻度テーブルを抽出したものである。また、図14(b)に示す文書頻度テーブルは、図6(c)に示したサーバ用の文書頻度テーブルの中から、ユーザが選択したカテゴリラベル(“車”と“グルメ”)の文書頻度テーブルを抽出したものである。   Hereinafter, a specific example of the above operation will be described. It is assumed that the user U1 having the user ID “U1” selects only the server and the gourmet-related server classification rule information from the server classification rule information of the user cluster UC1. 14A and 14B show a word frequency table and a document frequency table acquired by the user terminal 3 from the server 2, respectively. The word frequency table shown in FIG. 14A is a word frequency table of category labels (“car” and “gourmet”) selected by the user from the server word frequency table shown in FIG. Extracted. Also, the document frequency table shown in FIG. 14B is the document frequency of the category label (“car” and “gourmet”) selected by the user from the server document frequency table shown in FIG. 6C. The table is extracted.

サーバ2から単語頻度テーブルおよび文書頻度テーブルを取得する前のユーザ端末3の分類規則情報記憶部34に格納されている単語頻度テーブルおよび文書頻度テーブルはそれぞれ図9(b)および(c)に示した通りであるものとする。図15(a)は合成後の単語頻度テーブルを示している。各カテゴリラベルの各単語について、図14(a)に示した単語頻度テーブル内の頻度と、図6(b)に示した単語頻度テーブル内の頻度とを加算した値が合成後の単語頻度テーブル内の頻度となっている。また、図15(b)は合成後の文書頻度テーブルを示している。各カテゴリラベルについて、図14(b)に示した単語頻度テーブル内の頻度(文書数)と、図6(c)に示した文書頻度テーブル内の頻度(文書数)とを加算した値が合成後の文書頻度テーブル内の頻度(文書数)となっている。   The word frequency table and the document frequency table stored in the classification rule information storage unit 34 of the user terminal 3 before obtaining the word frequency table and the document frequency table from the server 2 are shown in FIGS. 9B and 9C, respectively. It shall be as it was. FIG. 15A shows a word frequency table after synthesis. For each word of each category label, a value obtained by adding the frequency in the word frequency table shown in FIG. 14A and the frequency in the word frequency table shown in FIG. The frequency is within. FIG. 15B shows a document frequency table after synthesis. For each category label, a value obtained by adding the frequency (number of documents) in the word frequency table shown in FIG. 14B and the frequency (number of documents) in the document frequency table shown in FIG. This is the frequency (number of documents) in the later document frequency table.

次に、図16を参照しながら、ユーザ端末3によるニュースデータの分類動作を説明する。ニュース配信装置1からニュースデータが送信される(ステップS400)と、ユーザ端末3の通信部30はニュースデータを受信し、ニュース保存部31へ出力する。ニュース保存部31はニュースデータをニュース記憶部32に格納する(ステップS410)。   Next, the news data classification operation by the user terminal 3 will be described with reference to FIG. When news data is transmitted from the news distribution apparatus 1 (step S400), the communication unit 30 of the user terminal 3 receives the news data and outputs it to the news storage unit 31. The news storage unit 31 stores the news data in the news storage unit 32 (step S410).

続いて、ニュース分類部35はニュース記憶部32からニュースデータを読み出す。ニュース分類部35は、読み出したニュースデータに含まれるニュース本文のデータから単語を抽出し、その単語の頻度を算出し、集計元データを生成する。また、ニュース分類部35は分類規則情報記憶部34からユーザ用分類規則情報を読み出し、集計元データおよびユーザ用分類規則情報に基づいてニュースデータの分類を実行する(ステップS420)。集計元データは、ニュースデータの分類先のカテゴリラベルが決定した後、分類先のカテゴリラベルの情報が付加されて分類規則情報記憶部34に格納される。   Subsequently, the news classification unit 35 reads news data from the news storage unit 32. The news classification unit 35 extracts words from the news body data included in the read news data, calculates the frequency of the words, and generates aggregation source data. Further, the news classification unit 35 reads the user classification rule information from the classification rule information storage unit 34, and executes news data classification based on the aggregation source data and the user classification rule information (step S420). The aggregation source data is stored in the classification rule information storage unit 34 after adding the category label information of the classification destination after the classification label category label of the news data is determined.

以下、ニュースデータの具体的な分類例を説明する。以下の説明では、ユーザ用分類規則情報として、図15に示した単語頻度テーブルと文書頻度テーブルが用いられるものとする。図17(a)は分類対象のニュースデータを示している。また、図17(b)は、このニュースデータから生成された集計元データを示している。   Hereinafter, specific examples of classification of news data will be described. In the following description, the word frequency table and the document frequency table shown in FIG. 15 are used as the user classification rule information. FIG. 17A shows news data to be classified. FIG. 17 (b) shows the aggregation source data generated from the news data.

ニュースデータ“N5”がカテゴリラベル“車”に分類される確率P(車|N5)(上記のP(c|d))は以下のようにして算出される。カテゴリラベル“車”の頻度分布P(車)(上記のP(c))は以下の(6)式となる。
P(車)=(103+1)/(607+2)=0.17 ・・・(6)
The probability P (car | N5) (the above P (c i | d)) that the news data “N5” is classified into the category label “car” is calculated as follows. The frequency distribution P (vehicle) (the above P (c i )) of the category label “car” is expressed by the following equation (6).
P (car) = (103 + 1) / (607 + 2) = 0.17 (6)

また、ニュース本文に含まれる単語“自動車”、“ベンツ”、“フレンチ”、“和食”のそれぞれの頻度分布P(自動車|車),P(ベンツ|車),P(フレンチ|車),P(和食|車)(上記のP(w|c))は以下の(7)式〜(10)式となる。
P(自動車|車)=(502+1)/(527+4)=0.95 ・・・(7)
P(ベンツ|車)=(23+1)/(527+4)=0.05 ・・・(8)
P(フレンチ|車)=(2+1)/(527+4)=0.01 ・・・(9)
P(和食|車)=(1+1)/(527+4)=0.00 ・・・(10)
Also, the frequency distributions P (car | car), P (benz | car), P (french | car), P for the words "car", "benz", "French", and "Japanese food" included in the news text. (Japanese food | car) (above mentioned P (w j | c i )) is expressed by the following equations (7) to (10).
P (automobile | car) = (502 + 1) / (527 + 4) = 0.95 (7)
P (Benz | car) = (23 + 1) / (527 + 4) = 0.05 (8)
P (French | Car) = (2 + 1) / (527 + 4) = 0.01 (9)
P (Japanese food | car) = (1 + 1) / (527 + 4) = 0.00 (10)

したがって、確率P(車,N5)は以下の(11)式となる。
P(車,N5)=P(車)×P(自動車|車)×P(ベンツ|車)×P(フレンチ|車)×P(和食|車)
≒0.0% ・・・(11)
Therefore, the probability P (car, N5) is expressed by the following equation (11).
P (car, N5) = P (car) x P (car | car) 0 xP (Benz | car) 0 xP (French | car) 0 xP (Japanese food | car) 2
≒ 0.0% (11)

同様に、確率P(料理,N5)は以下の(12)式となる。
P(料理,N5)=P(料理)×P(自動車|料理)×P(ベンツ|料理)×P(フレンチ|料理)×P(和食|料理)
≒20.5% ・・・(12)
Similarly, the probability P (dish, N5) is expressed by the following equation (12).
P (Cooking, N5) = P (Cooking) x P (Automobile | Cooking) 0 x P (Benz | Cooking) 0 x P (French | Cooking) 0 x P (Japanese cooking | Cooking) 2
≒ 20.5% (12)

また、この場合、前述した(5)式は以下の(13)式のようになる。この(13)式とP(車,N5)<P(料理,N5)とから、ニュースデータ“N5”はカテゴリラベル“料理”に分類される。   Further, in this case, the above-described equation (5) becomes the following equation (13). From this equation (13) and P (car, N5) <P (dish, N5), the news data “N5” is classified into the category label “dish”.

Figure 2008242689
Figure 2008242689

以下、ユーザ端末3において、図示せぬ表示部に表示される画面の一例を説明する。図18(a)は、未読のニュースデータを自動分類する場合の画面を示している。ニュースデータが受信されると、ニュースデータがニュース記憶部32の分類用フォルダに一旦格納された後、自動分類によってニュース記憶部32の未読フォルダに格納される。画面には未読フォルダの内容として、カテゴリラベル1800とそれに分類されたニュースデータ1810とが表示されている。   Hereinafter, an example of a screen displayed on a display unit (not shown) in the user terminal 3 will be described. FIG. 18A shows a screen for automatically classifying unread news data. When the news data is received, the news data is temporarily stored in the classification folder of the news storage unit 32 and then stored in the unread folder of the news storage unit 32 by automatic classification. A category label 1800 and news data 1810 classified into the category label 1800 are displayed on the screen as the contents of the unread folder.

また、未読フォルダに格納されたニュースデータのうち、ユーザが保存を希望するものはニュース記憶部32の保存フォルダに格納される。画面には保存フォルダの内容として、カテゴリラベル1820とそれに分類されたニュースデータ1830とが表示されている。ユーザが保存フォルダに新規のカテゴリラベルを作成することが可能である。また、未読フォルダのカテゴリラベルは保存フォルダと同期するようになっている。   Of the news data stored in the unread folder, the data that the user desires to store is stored in the storage folder of the news storage unit 32. A category label 1820 and news data 1830 classified into the category label 1820 are displayed on the screen as the contents of the storage folder. The user can create a new category label in the storage folder. The category label of the unread folder is synchronized with the storage folder.

ユーザがニュースデータ1810をマウス等でクリックすると、ニュースの内容がニュース表示画面1840に表示される。表示したニュースデータを廃棄する場合には、ユーザが表示画面1840をマウス等で右クリックし、続いて表示されるプルダウンメニューの中から「廃棄」を選択すれば、ニュースデータはニュース記憶部32から削除される。また、自動分類されたカテゴリラベルのままでニュースデータを保存する場合には、ユーザが表示画面1840をマウス等で右クリックし、続いて表示されるプルダウンメニューの中から「XXXに保存」(「XXX」は自動分類先のカテゴリラベルを表す)を選択すれば、ニュースデータはニュース記憶部32の保存フォルダ内のカテゴリラベル「XXX」の領域に格納される。   When the user clicks news data 1810 with a mouse or the like, the content of the news is displayed on news display screen 1840. When discarding the displayed news data, the user right-clicks the display screen 1840 with a mouse or the like and selects “Discard” from the pull-down menu that is subsequently displayed. Deleted. When the news data is stored with the automatically classified category label, the user right-clicks the display screen 1840 with a mouse or the like, and “Save to XXX” (“ If “XXX” indicates the category label of the automatic classification destination, news data is stored in the area of the category label “XXX” in the storage folder of the news storage unit 32.

自動分類されたカテゴリラベルを変更して手動分類を行うことも可能である。手動分類によりニュースデータを保存する場合には、ユーザが表示画面1840をマウス等でクリックし、保存フォルダ内の希望するカテゴリラベルへドラッグすれば、ニュースデータはニュース記憶部32の保存フォルダ内の該当カテゴリラベルの領域に格納される。   Manual classification can also be performed by changing automatically classified category labels. When storing news data by manual classification, the user clicks the display screen 1840 with a mouse or the like and drags it to a desired category label in the storage folder, so that the news data is stored in the storage folder of the news storage unit 32. Stored in the category label area.

図18(b)は、既読のニュースデータを自動分類する場合の画面を示している。ニュースデータが受信されると、ニュースデータがニュース記憶部32の未読フォルダに一旦格納された後、閲覧後に自動分類または手動分類によってニュース記憶部32の保存フォルダに格納される。画面には未読フォルダの内容として、未分類のニュースデータ1850が表示されている。   FIG. 18B shows a screen for automatically classifying already read news data. When the news data is received, the news data is temporarily stored in an unread folder of the news storage unit 32, and then stored in a storage folder of the news storage unit 32 by automatic classification or manual classification after browsing. On the screen, uncategorized news data 1850 is displayed as the contents of the unread folder.

また、未読フォルダに格納されたニュースデータのうち、ユーザが保存を希望するものはニュース記憶部32の保存フォルダに格納される。画面には保存フォルダの内容として、カテゴリラベル1860とそれに分類されたニュースデータ1870とが表示されている。ユーザが保存フォルダに新規のカテゴリラベルを作成することが可能である。   Of the news data stored in the unread folder, the data that the user desires to store is stored in the storage folder of the news storage unit 32. A category label 1860 and news data 1870 classified into the category label are displayed on the screen as the contents of the storage folder. The user can create a new category label in the storage folder.

ユーザがニュースデータ1850をマウス等でクリックすると、ニュースの内容がニュース表示画面1880に表示される。表示したニュースデータを廃棄する場合には、ユーザが表示画面1880をマウス等で右クリックし、続いて表示されるプルダウンメニューの中から「廃棄」を選択すれば、ニュースデータはニュース記憶部32から削除される。また、ニュースデータを自動分類により保存する場合には、ユーザが表示画面1880をマウス等で右クリックし、続いて表示されるプルダウンメニューの中から「XXXに保存」(「XXX」は自動分類先のカテゴリラベルを表す)を選択すれば、ニュースデータはニュース記憶部32の保存フォルダ内のカテゴリラベル「XXX」の領域に格納される。   When the user clicks news data 1850 with a mouse or the like, the content of the news is displayed on news display screen 1880. When discarding the displayed news data, the user right-clicks the display screen 1880 with a mouse or the like and selects “Discard” from the pull-down menu that is subsequently displayed. Deleted. When news data is stored by automatic classification, the user right-clicks the display screen 1880 with a mouse or the like, and “Save to XXX” (“XXX” is an automatic classification destination) from the pull-down menu displayed subsequently. News data is stored in the area of category label “XXX” in the storage folder of the news storage unit 32.

手動分類を行うことも可能である。手動分類によりニュースデータを保存する場合には、ユーザが表示画面1880をマウス等でクリックし、保存フォルダ内の希望するカテゴリラベルへドラッグすれば、ニュースデータはニュース記憶部32の保存フォルダ内の該当カテゴリラベルの領域に格納される。   Manual classification is also possible. When news data is stored by manual classification, the user clicks the display screen 1880 with a mouse or the like and drags it to a desired category label in the storage folder, so that the news data is stored in the storage folder of the news storage unit 32. Stored in the category label area.

次に、図19を参照しながら、ユーザ端末3によるユーザ用分類規則情報の更新動作を説明する。自動分類または手動分類によってニュースデータが分類された後、分類規則情報管理部33は、分類されたニュースデータに含まれる単語の頻度を示す集計元データとユーザ用分類規則情報を分類規則情報記憶部34から読み出し、集計元データに基づいてユーザ用分類規則情報を更新し、更新後のユーザ用分類規則情報を分類規則情報記憶部34に格納する(ステップS500)。より具体的には、分類規則情報管理部33は、集計元データに含まれる各単語の頻度に基づいて、単語頻度テーブルに含まれる各単語の頻度を更新すると共に、文書頻度テーブルの頻度(文書数)を更新する。   Next, the update operation of the user classification rule information by the user terminal 3 will be described with reference to FIG. After the news data is classified by the automatic classification or the manual classification, the classification rule information management unit 33 displays the aggregation source data indicating the frequency of words included in the classified news data and the user classification rule information as a classification rule information storage unit. 34, the user classification rule information is updated based on the aggregation source data, and the updated user classification rule information is stored in the classification rule information storage unit 34 (step S500). More specifically, the classification rule information management unit 33 updates the frequency of each word included in the word frequency table based on the frequency of each word included in the aggregation source data, and the frequency (document Number).

続いて、分類規則情報管理部33は、ユーザ用分類規則情報の変更分(差分情報)を最後にサーバ2に通知したときのユーザ用分類規則情報と最新のユーザ用分類規則情報を分類規則情報記憶部34から読み出し、それらの差分を示す差分情報を生成し、通信部30へ出力する(ステップS510)。この差分情報には、前述した差分単語頻度テーブル、差分文書頻度テーブル、およびユーザIDが含まれる。通信部30は差分情報をサーバ2へ送信する(ステップS520)。   Subsequently, the classification rule information management unit 33 displays the classification rule information for the user and the latest classification rule information for the user when the change (difference information) of the classification rule information for the user is finally notified to the server 2. It reads from the memory | storage part 34, produces | generates the difference information which shows those differences, and outputs it to the communication part 30 (step S510). This difference information includes the above-described difference word frequency table, difference document frequency table, and user ID. The communication unit 30 transmits the difference information to the server 2 (Step S520).

以下、上記の動作の具体例を説明する。ユーザID“U1”を有するユーザU1のユーザ端末3が、ニュースID“N5”を有するニュースデータの分類を手動分類により行ったものとする。また、更新前の単語頻度テーブルおよび文書頻度テーブルはそれぞれ図15(a)および(b)に示した通りであるものとする。さらに、ユーザ用分類規則情報の変更分を最後にサーバ2に通知したときの単語頻度テーブルおよび文書頻度テーブルもそれぞれ図15(a)および(b)に示した通りであるものとする。図20(a)は手動分類後のニュースデータを示している。未読・既読を示す種別2000は「既読」を示しており、分類方法を示す種別2010は「手動」を示している。また、カテゴリラベルリ2020は、ニュースデータが手動により「料理」に分類されたことを示している。   Hereinafter, a specific example of the above operation will be described. It is assumed that the user terminal 3 of the user U1 having the user ID “U1” has classified news data having the news ID “N5” by manual classification. Further, it is assumed that the word frequency table and the document frequency table before the update are as shown in FIGS. 15 (a) and 15 (b), respectively. Further, it is assumed that the word frequency table and the document frequency table when the change of the user classification rule information is finally notified to the server 2 are as shown in FIGS. 15 (a) and 15 (b), respectively. FIG. 20A shows the news data after manual classification. A type 2000 indicating unread / read indicates “read”, and a type 2010 indicating a classification method indicates “manual”. The category label 2020 indicates that the news data is manually classified as “dishes”.

図20(b)は、分類規則情報記憶部34に格納されている集計元データを示している。この集計元データに基づいて単語頻度テーブルと文書頻度テーブルが更新される。図20(c)は更新後の単語頻度テーブルを示し、図20(d)は更新後の文書頻度テーブルを示している。図20(b)に示す集計元データにおいて、単語“和食”の頻度が2であり、その他の単語の頻度は0である。また、ニュースデータはカテゴリラベル“料理”に分類されている。このため、図15(a)と図20(c)に示す単語頻度テーブルを比較して分かるように、カテゴリラベル“料理”の単語“和食”の頻度に2が加算されている(合計にも2が加算されている)。また、図15(b)と図20(d)に示す文書頻度テーブルを比較して分かるように、カテゴリラベル“料理”の文書数に1が加算されている(合計にも1が加算されている)。   FIG. 20B shows the aggregation source data stored in the classification rule information storage unit 34. The word frequency table and the document frequency table are updated based on the total data. FIG. 20C shows an updated word frequency table, and FIG. 20D shows an updated document frequency table. In the aggregation source data shown in FIG. 20B, the frequency of the word “Japanese food” is 2, and the frequency of other words is 0. The news data is classified into the category label “Cooking”. Therefore, as can be seen by comparing the word frequency tables shown in FIG. 15A and FIG. 20C, 2 is added to the frequency of the word “Japanese food” of the category label “Cooking” (also in the total). 2 is added). Further, as can be seen by comparing the document frequency tables shown in FIG. 15B and FIG. 20D, 1 is added to the number of documents of the category label “Cooking” (1 is also added to the total). )

図15(a)と図20(c)に示す単語頻度テーブルの頻度の差分が差分単語頻度テーブルとなる。図21(a)は差分単語頻度テーブルを示している。また、図15(b)と図20(d)に示す文書頻度テーブルの頻度の差分が差分文書頻度テーブルとなる。図21(b)は差分文書頻度テーブルを示している。   The difference between the frequencies of the word frequency tables shown in FIGS. 15A and 20C is the difference word frequency table. FIG. 21A shows a difference word frequency table. Further, the difference between the frequencies of the document frequency tables shown in FIGS. 15B and 20D is the difference document frequency table. FIG. 21B shows a difference document frequency table.

次に、図22を参照しながら、サーバ2によるサーバ用分類規則情報の更新動作を説明する。図22(a)は、ユーザ端末3から受信した差分情報に基づいてサーバ用分類規則情報を更新する動作を示している。また、図22(b)は、ニュース配信装置1から受信したニュースデータに基づいてサーバ用分類規則情報を更新する動作を示している。   Next, the update operation of the server classification rule information by the server 2 will be described with reference to FIG. FIG. 22A shows an operation of updating the server classification rule information based on the difference information received from the user terminal 3. FIG. 22B shows an operation of updating the server classification rule information based on the news data received from the news distribution apparatus 1.

図22(a)において、サーバ2の通信部20は、図19に示したステップS520でユーザ端末3から送信された差分情報を受信し、分類規則情報管理部23へ出力する。分類規則情報管理部23は、差分情報に含まれるユーザIDに基づいて、ユーザが所属するユーザクラスタの判定を行う(ステップS600)。この判定の際には、ユーザIDとユーザクラスタIDが関連付けられたユーザデータ(図3参照)も参照される。   22A, the communication unit 20 of the server 2 receives the difference information transmitted from the user terminal 3 in step S520 illustrated in FIG. 19 and outputs the difference information to the classification rule information management unit 23. The classification rule information management unit 23 determines the user cluster to which the user belongs based on the user ID included in the difference information (step S600). In this determination, user data (see FIG. 3) in which the user ID and the user cluster ID are associated is also referred to.

差分情報に含まれるユーザIDと一致するユーザIDがユーザデータの中にある場合には、そのユーザIDと関連付けられているユーザクラスタIDを有するユーザクラスタが、ユーザの所属するユーザクラスタである。また、差分情報に含まれるユーザIDと一致するユーザIDがユーザデータの中にない場合には、前述したカテゴリラベル間の類似度に応じて、ユーザが所属するユーザクラスタが判定される。   When the user ID that matches the user ID included in the difference information is in the user data, the user cluster having the user cluster ID associated with the user ID is the user cluster to which the user belongs. When the user ID that matches the user ID included in the difference information is not included in the user data, the user cluster to which the user belongs is determined according to the similarity between the category labels described above.

ユーザクラスタの判定に続いて、分類規則情報管理部23は、ユーザが所属すると判定されたユーザクラスタのサーバ用分類規則情報を分類規則情報記憶部24から読み出し、ユーザ端末3からの差分情報に基づいてサーバ用分類規則情報を更新し、更新後のサーバ用分類規則情報を分類規則情報記憶部24に格納する(ステップS610)。より具体的には、分類規則情報管理部23は、差分単語頻度テーブルに含まれる各単語の頻度に基づいて、単語頻度テーブルに含まれる各単語の頻度を更新し、差分文書頻度テーブルに含まれる頻度(文書数)に基づいて文書頻度テーブルの頻度(文書数)を更新する。これは、ユーザ端末3において、サーバ2から受信したサーバ用分類規則情報に基づいてユーザ用分類規則情報を更新する動作と同様である。ただし下記の通り、差分情報とサーバ用分類規則情報の共通するカテゴリラベルについても、差分情報がそのまま合成対象となる場合とならない場合がある。   Following the determination of the user cluster, the classification rule information management unit 23 reads the server classification rule information of the user cluster determined to belong to the user from the classification rule information storage unit 24, and based on the difference information from the user terminal 3. The server classification rule information is updated, and the updated server classification rule information is stored in the classification rule information storage unit 24 (step S610). More specifically, the classification rule information management unit 23 updates the frequency of each word included in the word frequency table based on the frequency of each word included in the difference word frequency table, and is included in the difference document frequency table. The frequency (number of documents) in the document frequency table is updated based on the frequency (number of documents). This is the same as the operation of updating the user classification rule information on the user terminal 3 based on the server classification rule information received from the server 2. However, as described below, even for the category label common to the difference information and the server classification rule information, the difference information may or may not be directly combined.

差分情報とサーバ用分類規則情報の共通するカテゴリラベルについては、ユーザ側とサーバ側で単語頻度分布(各カテゴリラベルにおける各単語の頻度を合算し正規化した(各カテゴリラベルの総単語数で割った)もの)が類似している場合に、差分情報がそのまま合成対象となる。一方、ユーザ側とサーバ側で単語頻度分布が類似していない場合には、サーバ用分類規則情報に新たなカテゴリラベルが追加され、差分情報に含まれる情報がそのまま、そのカテゴリラベルについてのサーバ用分類規則情報となる。   For category labels common to difference information and server classification rule information, the word frequency distribution (the frequency of each word in each category label is summed and normalized (divided by the total number of words in each category label). ))) Are similar, the difference information becomes the synthesis target as it is. On the other hand, when the word frequency distribution is not similar between the user side and the server side, a new category label is added to the server classification rule information, and the information included in the difference information is left as it is for the server for the category label. This is classification rule information.

以下、上記の動作の具体例を説明する。ユーザID“U1”を有するユーザU1のユーザ端末3がサーバ2へ差分情報を送信したものとする。ユーザ端末3から送信された差分単語頻度テーブルおよび差分文書頻度テーブルはそれぞれ図21(a)および(b)に示した通りであるものとする。また、更新前のサーバ用分類規則情報の単語頻度テーブルおよび文書頻度テーブルはそれぞれ図6(b)および(c)に示した通りであるものとする。ステップS600におけるユーザクラスタの判定では、図3に示したユーザデータの内容から、ユーザU1はユーザクラスタUC1に所属すると判定される。したがって、ユーザクラスタUC1のユーザ用分類規則情報が更新される。   Hereinafter, a specific example of the above operation will be described. It is assumed that the user terminal 3 of the user U1 having the user ID “U1” has transmitted the difference information to the server 2. Assume that the difference word frequency table and the difference document frequency table transmitted from the user terminal 3 are as shown in FIGS. 21 (a) and 21 (b), respectively. Further, it is assumed that the word frequency table and the document frequency table of the server classification rule information before the update are as shown in FIGS. 6B and 6C, respectively. In the determination of the user cluster in step S600, it is determined from the contents of the user data shown in FIG. 3 that the user U1 belongs to the user cluster UC1. Therefore, the user classification rule information of the user cluster UC1 is updated.

図21(a)に示す単語頻度テーブルにおいて、カテゴリラベル“料理”の単語“和食”の頻度が2であり、その他の単語の頻度は0である。このため、カテゴリラベル“料理”の単語の頻度のみが更新に反映される。ユーザ側のカテゴリラベル“料理”はサーバ2において、類義語辞書を用いて代表語“グルメ”に変換される。カテゴリラベル“グルメ”について、ユーザ側とサーバ側で単語頻度分布がほぼ同一の場合、更新後の単語頻度テーブルは図23(a)のようになり、更新後の文書頻度テーブルは図23(b)のようになる。図6(b)と図23(a)に示す単語頻度テーブルを比較して分かるように、カテゴリラベル“グルメ”の単語“和食”の頻度に2が加算されている(合計にも2が加算されている)。また、図6(c)と図23(b)に示す文書頻度テーブルを比較して分かるように、カテゴリラベル“グルメ”の文書数に1が加算されている(合計にも1が加算されている)。   In the word frequency table shown in FIG. 21A, the frequency of the word “Japanese food” of the category label “Cooking” is 2, and the frequency of the other words is 0. For this reason, only the frequency of the word of the category label “cooking” is reflected in the update. The user-side category label “cooking” is converted into the representative word “gourmet” in the server 2 using a synonym dictionary. When the word frequency distribution is almost the same on the user side and the server side for the category label “gourmet”, the updated word frequency table is as shown in FIG. 23A, and the updated document frequency table is shown in FIG. )become that way. As can be seen by comparing the word frequency tables shown in FIG. 6B and FIG. 23A, 2 is added to the frequency of the word “Japanese food” of the category label “Gourmet” (2 is also added to the total). Have been). Further, as can be seen by comparing the document frequency tables shown in FIG. 6C and FIG. 23B, 1 is added to the number of documents of the category label “Gourmet” (1 is also added to the total). )

また、カテゴリラベル“グルメ”について、ユーザ側とサーバ側で単語頻度分布が異なる場合、更新後の単語頻度テーブルは図23(c)のようになり、更新後の文書頻度テーブルは図23(d)のようになる。図6(b)と図23(c)に示す単語頻度テーブルを比較して分かるように、カテゴリラベル“グルメ(2)”が追加され、単語“和食”の頻度が2となっている。また、図6(c)と図23(d)に示す文書頻度テーブルを比較して分かるように、カテゴリラベル“グルメ(2)”が追加され、その文書数が1となっている(さらに合計に1が加算される)。   For the category label “gourmet”, when the word frequency distribution is different between the user side and the server side, the updated word frequency table is as shown in FIG. 23C, and the updated document frequency table is shown in FIG. )become that way. As can be seen by comparing the word frequency tables shown in FIG. 6B and FIG. 23C, the category label “Gourmet (2)” is added, and the frequency of the word “Japanese food” is 2. Further, as can be seen by comparing the document frequency tables shown in FIG. 6C and FIG. 23D, the category label “Gourmet (2)” is added and the number of documents is 1 (the total is further). Is added to 1).

次に、図22(b)に示す動作を説明する。ニュース配信装置1からニュースデータが送信される(ステップS700)と、サーバ2の通信部20はニュースデータを受信し、ニュース保存部21へ出力する。ニュース保存部21はニュースデータをニュース記憶部22に格納する(ステップS710)。   Next, the operation shown in FIG. 22B will be described. When news data is transmitted from the news distribution apparatus 1 (step S700), the communication unit 20 of the server 2 receives the news data and outputs it to the news storage unit 21. The news storage unit 21 stores the news data in the news storage unit 22 (step S710).

続いて、図16のステップS420と同様にして、ニュース分類部25はニュースデータの分類を実行する(ステップS720)。続いて、図19のステップS500と同様にして、分類規則情報管理部23はサーバ用分類規則情報を更新する(ステップS730)。   Subsequently, as in step S420 of FIG. 16, the news classification unit 25 executes news data classification (step S720). Subsequently, as in step S500 of FIG. 19, the classification rule information management unit 23 updates the server classification rule information (step S730).

以下、上記の動作の具体例を説明する。更新前の単語頻度テーブルおよび文書頻度テーブルはそれぞれ図23(a)および(b)に示した通りであるものとする。図24(a)は分類対象のニュースデータを示している。また、図24(b)は、このニュースデータから生成された集計元データを示している。この集計元データに基づいて単語頻度テーブルと文書頻度テーブルが更新される。   Hereinafter, a specific example of the above operation will be described. It is assumed that the word frequency table and the document frequency table before update are as shown in FIGS. 23 (a) and 23 (b), respectively. FIG. 24A shows news data to be classified. FIG. 24 (b) shows the aggregation source data generated from the news data. The word frequency table and the document frequency table are updated based on the total data.

図24(c)は更新後の単語頻度テーブルを示し、図24(d)は更新後の文書頻度テーブルを示している。図24(b)に示す集計元データにおいて、単語“フレンチ”の頻度が3であり、その他の単語の頻度は0である。また、ニュースデータはカテゴリラベル“グルメ”に分類される。このため、図23(a)と図24(c)に示す単語頻度テーブルを比較して分かるように、カテゴリラベル“グルメ”の単語“フレンチ”の頻度に3が加算されている(合計にも3が加算されている)。また、図23(b)と図24(d)に示す文書頻度テーブルを比較して分かるように、カテゴリラベル“グルメ”の文書数に1が加算されている(合計にも1が加算されている)。   FIG. 24C shows the updated word frequency table, and FIG. 24D shows the updated document frequency table. In the aggregation source data shown in FIG. 24B, the frequency of the word “French” is 3, and the frequency of the other words is 0. The news data is classified into the category label “Gourmet”. Therefore, as can be seen by comparing the word frequency tables shown in FIGS. 23A and 24C, 3 is added to the frequency of the word “French” of the category label “Gourmet” (also in the total) 3 is added). Further, as can be seen by comparing the document frequency tables shown in FIGS. 23B and 24D, 1 is added to the number of documents of the category label “Gourmet” (1 is also added to the total). )

次に、図25を参照しながら、サーバ2によるユーザクラスタの生成動作および更新動作を説明する。初期状態として、N人分(Nは複数)のユーザ用分類規則情報が分類規則情報記憶部24に格納されているものとする。分類規則情報管理部23は、このユーザ用分類規則情報に基づいてユーザクラスタを生成する(ステップS800)。   Next, a user cluster generation operation and an update operation by the server 2 will be described with reference to FIG. As an initial state, it is assumed that the classification rule information for N users (N is a plurality) is stored in the classification rule information storage unit 24. The classification rule information management unit 23 generates a user cluster based on the user classification rule information (step S800).

ユーザクラスタの生成は以下のようにして行われる。まず、分類規則情報管理部23は、各ユーザ用分類規則情報について、ユーザ用分類規則情報中の全てのカテゴリラベルにおける各単語の頻度を合算し正規化した(ユーザ用分類規則情報中の総単語数で割った)ユーザの単語頻度分布を生成する。続いて、分類規則情報管理部23は、異なるユーザの単語頻度分布同士を比較し、単語頻度分布間の距離(カルバックライブラー距離等)を算出する。分類規則情報管理部23はこの距離をユーザ間の類似度とし、任意のクラスタ数でユーザ群をクラスタリングする。これによって、類似度の高いユーザ同士は同じユーザクラスタに所属するようになる。   The user cluster is generated as follows. First, the classification rule information management unit 23 sums and normalizes the frequency of each word in all category labels in the user classification rule information for each user classification rule information (total words in the user classification rule information). Generate user word frequency distribution (divided by number). Subsequently, the classification rule information management unit 23 compares the word frequency distributions of different users and calculates the distance between the word frequency distributions (such as a Cullback library distance). The classification rule information management unit 23 uses this distance as a similarity between users, and clusters a user group with an arbitrary number of clusters. As a result, users with high similarity belong to the same user cluster.

また、分類規則情報管理部23は、ユーザクラスタに含まれる各ユーザのユーザ分類規則中の単語群を合算し正規化する(ユーザクラスタに含まれる総単語数で割る)ことによってユーザクラスタの単語頻度分布を生成する。さらに、分類規則情報管理部23は各ユーザクラスタに所属するユーザのユーザ用分類規則情報を合成し、各ユーザクラスタについての初期サーバ用分類規則情報を生成する。   Further, the classification rule information management unit 23 adds and normalizes the word groups in the user classification rules of each user included in the user cluster (by dividing by the total number of words included in the user cluster) to thereby increase the word frequency of the user cluster. Generate a distribution. Further, the classification rule information management unit 23 synthesizes user classification rule information for users belonging to each user cluster, and generates initial server classification rule information for each user cluster.

続いて、分類規則情報管理部23は任意のタイミングでユーザクラスタの更新を行う(ステップS810)。ユーザクラスタの更新動作はユーザクラスタの生成動作と同様である。ただし、サーバ2は、ユーザ端末3から受信した集計元データと、サーバ2自身がニュースデータを分類したときに生成した集計元データとに基づいて、上記の単語頻度分布を生成する。ユーザクラスタの更新に伴って各ユーザクラスタのサーバ用分類規則情報も更新されるが、その更新も集計元データに基づいて行われる。   Subsequently, the classification rule information management unit 23 updates the user cluster at an arbitrary timing (step S810). The user cluster update operation is the same as the user cluster generation operation. However, the server 2 generates the word frequency distribution based on the aggregation source data received from the user terminal 3 and the aggregation source data generated when the server 2 classifies the news data. As the user cluster is updated, the server classification rule information of each user cluster is also updated, but the update is also performed based on the aggregation source data.

上述したように、本実施形態によれば、サーバ2からユーザ端末3へサーバ用分類規則情報が送信され、ユーザ端末3がそのサーバ用分類規則情報をニュースデータの分類に利用することが可能となるので、ユーザ端末3における教師データの量によらず、実用的な分類精度でニュースデータの分類を実行することができる。特に、ユーザ端末3がユーザ用分類規則情報を所持していない場合でも、サーバ用分類規則情報を利用してニュースデータの分類を実行することができる。   As described above, according to the present embodiment, server classification rule information is transmitted from the server 2 to the user terminal 3, and the user terminal 3 can use the server classification rule information for news data classification. Therefore, news data can be classified with practical classification accuracy regardless of the amount of teacher data in the user terminal 3. In particular, even when the user terminal 3 does not have user classification rule information, the news data can be classified using the server classification rule information.

また、ユーザ端末3が予めユーザ用分類規則情報を所持している場合に、サーバ2のサーバ用分類規則情報と自身のユーザ用分類規則情報とを合成して新たなユーザ用分類規則情報とすることによって、ユーザ端末3におけるニュースデータの分類精度を向上することができる。   Further, when the user terminal 3 has user classification rule information in advance, the server classification rule information of the server 2 and its own user classification rule information are combined to form new user classification rule information. Thereby, the classification accuracy of news data in the user terminal 3 can be improved.

また、ユーザ端末3から送信された差分情報に基づいて、サーバ2が自身のサーバ用分類規則情報を更新することによって、ユーザ端末3による分類の結果がサーバ用分類規則情報に反映されるので、ユーザの嗜好に追従させながらサーバ用分類規則情報を更新することができる。   In addition, since the server 2 updates its server classification rule information based on the difference information transmitted from the user terminal 3, the classification result by the user terminal 3 is reflected in the server classification rule information. The server classification rule information can be updated while following the user's preference.

また、サーバ2が、ユーザの希望するカテゴリラベルと類似したカテゴリラベルのサーバ用分類規則情報を検索し、検索により見つかったサーバ用分類規則情報をユーザ端末3へ送信することによって、ユーザ端末3が、ユーザの嗜好により近いサーバ用分類規則情報を取得することが可能になるので、ユーザ端末3におけるニュースデータの分類精度を向上することができる。   Further, the server 2 searches the server classification rule information of the category label similar to the category label desired by the user, and transmits the server classification rule information found by the search to the user terminal 3, whereby the user terminal 3 Since the server classification rule information closer to the user's preference can be acquired, the accuracy of news data classification in the user terminal 3 can be improved.

同様に、サーバ2が、ユーザ用分類規則情報と類似したサーバ用分類規則情報を検索し、検索により見つかったサーバ用分類規則情報をユーザ端末3へ送信することによって、ユーザ端末3が、ユーザの嗜好により近いサーバ用分類規則情報を取得することが可能になるので、ユーザ端末3におけるニュースデータの分類精度を向上することができる。   Similarly, the server 2 searches the server classification rule information similar to the user classification rule information, and transmits the server classification rule information found by the search to the user terminal 3, whereby the user terminal 3 Since it becomes possible to acquire server classification rule information closer to the preference, the accuracy of news data classification in the user terminal 3 can be improved.

また、サーバ2がユーザクラスタ毎にサーバ用分類規則情報を所持することによって、嗜好の異なるユーザ群毎に適したサーバ用分類規則情報を提供することができる。   Further, the server 2 possesses server classification rule information for each user cluster, whereby server classification rule information suitable for each user group having different preferences can be provided.

また、サーバ2が自身の分類結果に基づいてサーバ用分類規則情報を更新することによって、随時更新されるニュースデータの分類に適したサーバ用分類規則情報を提供することができる。   In addition, the server 2 can update server classification rule information based on its own classification result, thereby providing server classification rule information suitable for the classification of news data updated as needed.

以上、図面を参照して本発明の実施形態について詳述してきたが、具体的な構成は上記の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。   As described above, the embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to the above-described embodiments, and includes design changes and the like without departing from the gist of the present invention. .

本発明の一実施形態によるニュース分類システムの構成を示すブロック図である。It is a block diagram which shows the structure of the news classification system by one Embodiment of this invention. 本発明の一実施形態において、ニュース配信装置におけるニュースデータを示す参考図である。In one Embodiment of this invention, it is a reference figure which shows the news data in a news delivery apparatus. 本発明の一実施形態において、サーバによって管理されるユーザデータを示す参考図である。FIG. 6 is a reference diagram showing user data managed by a server in an embodiment of the present invention. 本発明の一実施形態において、サーバにおけるニュースデータを示す参考図である。In one Embodiment of this invention, it is a reference figure which shows the news data in a server. 本発明の一実施形態において、サーバにおける類義語辞書を示す参考図である。In one Embodiment of this invention, it is a reference figure which shows the synonym dictionary in a server. 本発明の一実施形態におけるサーバ用分類規則情報を示す参考図である。It is a reference figure which shows the classification rule information for servers in one Embodiment of this invention. 本発明の一実施形態におけるサーバ用分類規則情報を示す参考図である。It is a reference figure which shows the classification rule information for servers in one Embodiment of this invention. 本発明の一実施形態において、ユーザ端末におけるニュースデータを示す参考図である。In one Embodiment of this invention, it is a reference figure which shows the news data in a user terminal. 本発明の一実施形態におけるユーザ用分類規則情報を示す参考図である。It is a reference figure which shows the classification rule information for users in one Embodiment of this invention. 本発明の一実施形態によるニュース分類システムの動作(サーバ2によるサーバ用分類規則情報の検索動作)の手順を示すシーケンス図である。It is a sequence diagram which shows the procedure of operation | movement (search operation | movement of the classification rule information for servers by the server 2) of the news classification system by one Embodiment of this invention. 本発明の一実施形態において、サーバによって検索されたサーバ用分類規則情報のカテゴリラベルリストを示す参考図である。In one Embodiment of this invention, it is a reference figure which shows the category label list | wrist of the classification rule information for servers searched by the server. 本発明の一実施形態において、サーバによって検索されたサーバ用分類規則情報のカテゴリラベルリストを示す参考図である。In one Embodiment of this invention, it is a reference figure which shows the category label list | wrist of the classification rule information for servers searched by the server. 本発明の一実施形態によるニュース分類システムの動作(ユーザ端末によるサーバ用分類規則情報の取得動作)の手順を示すシーケンス図である。It is a sequence diagram which shows the procedure of the operation | movement (acquisition operation | movement of the classification rule information for servers by a user terminal) of the news classification system by one Embodiment of this invention. 本発明の一実施形態において、サーバからユーザ端末が取得したサーバ用分類規則情報を示す参考図である。In one Embodiment of this invention, it is a reference figure which shows the classification | category rule information for servers which the user terminal acquired from the server. 本発明の一実施形態において、ユーザ用分類規則情報とサーバ用分類規則情報を合成することにより生成(更新)したユーザ用分類規則情報を示す参考図である。FIG. 6 is a reference diagram showing user classification rule information generated (updated) by combining user classification rule information and server classification rule information in an embodiment of the present invention. 本発明の一実施形態によるニュース分類システムの動作(ユーザ端末によるニュースデータの分類動作)の手順を示すシーケンス図である。It is a sequence diagram which shows the procedure of the operation | movement (news data classification operation by a user terminal) of the news classification system by one Embodiment of this invention. 本発明の一実施形態において、ユーザ端末によるニュースデータの分類動作を説明するための参考図である。In one Embodiment of this invention, it is a reference figure for demonstrating the classification | category operation | movement of the news data by a user terminal. 本発明の一実施形態において、ユーザ端末3の表示画面を示す参考図である。In one Embodiment of this invention, it is a reference figure which shows the display screen of the user terminal 3. FIG. 本発明の一実施形態によるニュース分類システムの動作(ユーザ端末によるユーザ用分類規則情報の更新動作)の手順を示すシーケンス図である。It is a sequence diagram which shows the procedure of the operation | movement (update operation | movement of the classification rule information for users by a user terminal) of the news classification system by one Embodiment of this invention. 本発明の一実施形態において、ユーザ端末によるユーザ用分類規則情報の更新動作を説明するための参考図である。In one Embodiment of this invention, it is a reference figure for demonstrating the update operation | movement of the classification rule information for users by a user terminal. 本発明の一実施形態において、ユーザ端末による差分情報を示す参考図である。In one Embodiment of this invention, it is a reference figure which shows the difference information by a user terminal. 本発明の一実施形態によるニュース分類システムの動作(サーバによるサーバ用分類規則情報の更新動作)の手順を示すシーケンス図である。It is a sequence diagram which shows the procedure of the operation | movement (update operation | movement of the server classification rule information by a server) of the news classification system by one Embodiment of this invention. 本発明の一実施形態において、サーバによるサーバ用分類規則情報の更新動作を説明するための参考図である。In one Embodiment of this invention, it is a reference figure for demonstrating the update operation | movement of the classification rule information for servers by the server. 本発明の一実施形態において、サーバによるサーバ用分類規則情報の更新動作を説明するための参考図である。In one Embodiment of this invention, it is a reference figure for demonstrating the update operation | movement of the classification rule information for servers by the server. 本発明の一実施形態によるニュース分類システムの動作(サーバによるユーザクラスタの生成動作および更新動作)の手順を示すシーケンス図である。It is a sequence diagram which shows the procedure of the operation | movement (The production | generation operation | movement and update operation of a user cluster by a server) of the news classification system by one Embodiment of this invention.

符号の説明Explanation of symbols

1・・・ニュース配信装置、2・・・サーバ、3・・・ユーザ端末、4・・・ネットワーク、20,30・・・通信部、21,31・・・ニュース保存部、22,32・・・ニュース記憶部、23,33・・・分類規則情報管理部、24,34・・・分類規則情報記憶部、25,35・・・ニュース分類部、36・・・情報入力部   DESCRIPTION OF SYMBOLS 1 ... News distribution apparatus, 2 ... Server, 3 ... User terminal, 4 ... Network, 20, 30 ... Communication part, 21, 31 ... News preservation | save part, 22, 32. ..News storage unit, 23, 33 ... Classification rule information management unit, 24, 34 ... Classification rule information storage unit, 25, 35 ... News classification unit, 36 ... Information input unit

Claims (21)

複数のユーザによるコンテンツ情報の分類結果に基づいた前記コンテンツ情報の分類規則を示す分類規則情報を記憶するサーバと、前記コンテンツ情報の分類を実行する端末装置とを備えたコンテンツ分類システムであって、
前記サーバは、
前記分類規則情報を記憶するサーバ側分類規則情報記憶手段と、
前記分類規則情報を前記端末装置へ送信するサーバ側分類規則情報送信手段とを備え、
前記端末装置は、
前記コンテンツ情報を記憶する端末側コンテンツ情報記憶手段と、
前記サーバから前記分類規則情報を受信する端末側分類規則情報受信手段と、
受信された前記分類規則情報を記憶する端末側分類規則情報記憶手段と、
前記端末側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類する端末側分類手段とを備えた
ことを特徴とするコンテンツ分類システム。
A content classification system comprising: a server that stores classification rule information indicating a classification rule of the content information based on a result of classification of content information by a plurality of users; and a terminal device that executes the classification of the content information,
The server
Server-side classification rule information storage means for storing the classification rule information;
Server-side classification rule information transmitting means for transmitting the classification rule information to the terminal device,
The terminal device
Terminal-side content information storage means for storing the content information;
Terminal-side classification rule information receiving means for receiving the classification rule information from the server;
Terminal-side classification rule information storage means for storing the received classification rule information;
A content classification system comprising: terminal side classification means for classifying the content information based on the classification rule information stored in the terminal side classification rule information storage means.
前記サーバから前記分類規則情報が受信される前に前記端末側分類規則情報記憶手段に前記分類規則情報が記憶されている場合に、前記サーバから受信された前記分類規則情報と前記端末側分類規則情報記憶手段に記憶されている前記分類規則情報とを合成して新たな前記分類規則情報として前記端末側分類規則情報記憶手段に記憶させる合成手段を前記端末装置が備えたことを特徴とする請求項1に記載のコンテンツ分類システム。   When the classification rule information is stored in the terminal-side classification rule information storage means before the classification rule information is received from the server, the classification rule information received from the server and the terminal-side classification rule The terminal device includes combining means for combining the classification rule information stored in the information storage means and storing the new classification rule information in the terminal-side classification rule information storage means. Item 4. The content classification system according to Item 1. 前記端末装置は、
前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する端末側更新手段と、
更新による前記分類規則情報の差分を示す差分情報を前記サーバへ送信する差分情報送信手段とを備え、
前記サーバは、
前記端末装置から前記差分情報を受信する差分情報受信手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記差分情報に基づいて更新する第1のサーバ側更新手段とを備えた
ことを特徴とする請求項1または請求項2に記載のコンテンツ分類システム。
The terminal device
Terminal-side update means for updating the classification rule information stored in the terminal-side classification rule information storage means based on the classification result of the content information;
Difference information transmission means for transmitting difference information indicating the difference of the classification rule information by update to the server,
The server
Difference information receiving means for receiving the difference information from the terminal device;
The server-side classification rule information storage means comprises first server-side update means for updating the classification rule information stored based on the difference information. The content classification system described.
前記端末装置は、ユーザが希望するカテゴリを示すカテゴリ情報を前記サーバへ送信するカテゴリ情報送信手段を備え、
前記サーバは、
前記端末装置から前記カテゴリ情報を受信するカテゴリ情報受信手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記カテゴリ情報が示すカテゴリと類似したカテゴリの前記分類規則情報を検索する検索手段とを備え、
前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信する
ことを特徴とする請求項1〜請求項3のいずれかに記載のコンテンツ分類システム。
The terminal device includes category information transmission means for transmitting category information indicating a category desired by a user to the server,
The server
Category information receiving means for receiving the category information from the terminal device;
Search means for searching the classification rule information of a category similar to the category indicated by the category information from the classification rule information stored in the server-side classification rule information storage means,
The content classification system according to any one of claims 1 to 3, wherein the server-side classification rule information transmission unit transmits the classification rule information searched by the search unit to the terminal device.
前記端末装置は、前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記サーバへ送信する端末側分類規則情報送信手段を備え、
前記サーバは、
前記端末装置から前記分類規則情報を受信するサーバ側分類規則情報受信手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記サーバ側分類規則情報受信手段によって受信された前記分類規則情報と類似した前記分類規則情報を検索する検索手段とを備え、
前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信する
ことを特徴とする請求項1〜請求項3のいずれかに記載のコンテンツ分類システム。
The terminal device comprises terminal-side classification rule information transmitting means for transmitting the classification rule information stored in the terminal-side classification rule information storage means to the server,
The server
Server-side classification rule information receiving means for receiving the classification rule information from the terminal device;
Search means for retrieving the classification rule information similar to the classification rule information received by the server-side classification rule information receiving means from among the classification rule information stored in the server-side classification rule information storage means; With
The content classification system according to any one of claims 1 to 3, wherein the server-side classification rule information transmission unit transmits the classification rule information searched by the search unit to the terminal device.
前記サーバ側分類規則情報記憶手段がユーザクラスタ毎に前記分類規則情報を記憶することを特徴とする請求項1〜請求項5のいずれかに記載のコンテンツ分類システム。   6. The content classification system according to claim 1, wherein the server-side classification rule information storage unit stores the classification rule information for each user cluster. 前記サーバは、
前記コンテンツ情報を記憶するサーバ側コンテンツ情報記憶手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類するサーバ側分類手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する第2のサーバ側更新手段と、
を備えたことを特徴とする請求項1〜請求項6のいずれかに記載のコンテンツ分類システム。
The server
Server-side content information storage means for storing the content information;
Server-side classification means for classifying the content information based on the classification rule information stored in the server-side classification rule information storage means;
Second server-side update means for updating the classification rule information stored in the server-side classification rule information storage means based on the classification result of the content information;
The content classification system according to any one of claims 1 to 6, further comprising:
複数のユーザによるコンテンツ情報の分類結果に基づいた前記コンテンツ情報の分類規則を示す分類規則情報を記憶するサーバ側分類規則情報記憶手段と、
前記コンテンツ情報の分類を実行する端末装置へ前記分類規則情報を送信するサーバ側分類規則情報送信手段と、
を備えたことを特徴とするサーバ。
Server-side classification rule information storage means for storing classification rule information indicating a classification rule of the content information based on a result of classification of content information by a plurality of users;
Server-side classification rule information transmitting means for transmitting the classification rule information to a terminal device for performing classification of the content information;
A server characterized by comprising:
前記端末装置が前記分類規則情報に基づいて前記コンテンツ情報を分類し、前記コンテンツ情報の分類結果に基づいて前記分類規則情報を更新し、更新による前記分類規則情報の差分を示す差分情報を前記サーバへ送信した場合に、前記差分情報を前記端末装置から受信する差分情報受信手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記差分情報に基づいて更新する第1のサーバ側更新手段と、
を備えたことを特徴とする請求項8に記載のサーバ。
The terminal device classifies the content information based on the classification rule information, updates the classification rule information based on a classification result of the content information, and stores difference information indicating a difference of the classification rule information due to the update. Difference information receiving means for receiving the difference information from the terminal device,
First server side updating means for updating the classification rule information stored in the server side classification rule information storage means based on the difference information;
The server according to claim 8, comprising:
ユーザが希望するカテゴリを示すカテゴリ情報を前記端末装置から受信するカテゴリ情報受信手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記カテゴリ情報が示すカテゴリと類似したカテゴリの前記分類規則情報を検索する検索手段とを備え、
前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信する
ことを特徴とする請求項8または請求項9に記載のサーバ。
Category information receiving means for receiving category information indicating a category desired by the user from the terminal device;
Search means for searching the classification rule information of a category similar to the category indicated by the category information from the classification rule information stored in the server-side classification rule information storage means,
The server according to claim 8 or 9, wherein the server-side classification rule information transmission unit transmits the classification rule information searched by the search unit to the terminal device.
前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記端末装置から受信するサーバ側分類規則情報受信手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報の中から、前記サーバ側分類規則情報受信手段によって受信された前記分類規則情報と類似した前記分類規則情報を検索する検索手段とを備え、
前記サーバ側分類規則情報送信手段は、前記検索手段によって検索された前記分類規則情報を前記端末装置へ送信する
ことを特徴とする請求項8または請求項9に記載のサーバ。
Server-side classification rule information receiving means for receiving the classification rule information stored in the terminal-side classification rule information storage means from the terminal device;
Search means for retrieving the classification rule information similar to the classification rule information received by the server-side classification rule information receiving means from among the classification rule information stored in the server-side classification rule information storage means; With
The server according to claim 8 or 9, wherein the server-side classification rule information transmission unit transmits the classification rule information searched by the search unit to the terminal device.
前記サーバ側分類規則情報記憶手段がユーザクラスタ毎に前記分類規則情報を記憶することを特徴とする請求項8〜請求項11のいずれかに記載のサーバ。   12. The server according to claim 8, wherein the server-side classification rule information storage unit stores the classification rule information for each user cluster. 前記コンテンツ情報を記憶するサーバ側コンテンツ情報記憶手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類するサーバ側分類手段と、
前記サーバ側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する第2のサーバ側更新手段と、
を備えたことを特徴とする請求項8〜請求項12のいずれかに記載のサーバ。
Server-side content information storage means for storing the content information;
Server-side classification means for classifying the content information based on the classification rule information stored in the server-side classification rule information storage means;
Second server-side update means for updating the classification rule information stored in the server-side classification rule information storage means based on the classification result of the content information;
The server according to any one of claims 8 to 12, further comprising:
コンテンツ情報を記憶する端末側コンテンツ情報記憶手段と、
複数のユーザによるコンテンツ情報の分類結果に基づいた前記コンテンツ情報の分類規則を示す分類規則情報をサーバから受信する端末側分類規則情報受信手段と、
受信された前記分類規則情報を記憶する端末側分類規則情報記憶手段と、
前記端末側分類規則情報記憶手段が記憶している前記分類規則情報に基づいて前記コンテンツ情報を分類する端末側分類手段と、
を備えたことを特徴とする端末装置。
Terminal-side content information storage means for storing content information;
Terminal-side classification rule information receiving means for receiving, from a server, classification rule information indicating a classification rule of the content information based on a result of classification of content information by a plurality of users;
Terminal-side classification rule information storage means for storing the received classification rule information;
Terminal-side classification means for classifying the content information based on the classification rule information stored in the terminal-side classification rule information storage means;
A terminal device comprising:
前記サーバから前記分類規則情報が受信される前に前記端末側分類規則情報記憶手段に前記分類規則情報が記憶されている場合に、前記サーバから受信された前記分類規則情報と前記端末側分類規則情報記憶手段に記憶されている前記分類規則情報とを合成して新たな前記分類規則情報として前記端末側分類規則情報記憶手段に記憶させる合成手段を備えたことを特徴とする請求項14に記載の端末装置。   When the classification rule information is stored in the terminal-side classification rule information storage means before the classification rule information is received from the server, the classification rule information received from the server and the terminal-side classification rule 15. The apparatus according to claim 14, further comprising a combining unit that combines the classification rule information stored in the information storage unit and stores it in the terminal-side classification rule information storage unit as new classification rule information. Terminal equipment. 前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記コンテンツ情報の分類結果に基づいて更新する端末側更新手段と、
更新による前記分類規則情報の差分を示す差分情報を前記サーバへ送信する差分情報送信手段と、
を備えたことを特徴とする請求項14または請求項15に記載の端末装置。
Terminal-side update means for updating the classification rule information stored in the terminal-side classification rule information storage means based on the classification result of the content information;
Difference information transmitting means for transmitting difference information indicating a difference of the classification rule information by update to the server;
16. The terminal device according to claim 14 or 15, further comprising:
ユーザが希望するカテゴリを示すカテゴリ情報を前記サーバへ送信するカテゴリ情報送信手段を備えたことを特徴とする請求項14〜請求項16のいずれかに記載の端末装置。   The terminal device according to any one of claims 14 to 16, further comprising category information transmission means for transmitting category information indicating a category desired by a user to the server. 前記端末側分類規則情報記憶手段が記憶している前記分類規則情報を前記サーバへ送信する端末側分類規則情報送信手段を備えたことを特徴とする請求項14〜請求項16のいずれかに記載の端末装置。   The terminal-side classification rule information transmission means for transmitting the classification rule information stored in the terminal-side classification rule information storage means to the server. Terminal equipment. 請求項8〜請求項13に記載のサーバとしてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the server according to claim 8. 請求項14〜請求項18に記載の端末装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the terminal device according to claim 14. 請求項19または請求項20に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium on which the program according to claim 19 or 20 is recorded.
JP2007080554A 2007-03-27 2007-03-27 Content classification system, server, terminal device, program, and recording medium Active JP5000351B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007080554A JP5000351B2 (en) 2007-03-27 2007-03-27 Content classification system, server, terminal device, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007080554A JP5000351B2 (en) 2007-03-27 2007-03-27 Content classification system, server, terminal device, program, and recording medium

Publications (2)

Publication Number Publication Date
JP2008242689A true JP2008242689A (en) 2008-10-09
JP5000351B2 JP5000351B2 (en) 2012-08-15

Family

ID=39913980

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007080554A Active JP5000351B2 (en) 2007-03-27 2007-03-27 Content classification system, server, terminal device, program, and recording medium

Country Status (1)

Country Link
JP (1) JP5000351B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198498A (en) * 2009-02-26 2010-09-09 Mitsubishi Electric Corp Information processor and information processing method and program
JP2011165131A (en) * 2010-02-15 2011-08-25 Sony Corp Information processor, method, and program
CN111209390A (en) * 2020-01-06 2020-05-29 北大方正集团有限公司 News display method and system, and computer readable storage medium
JP2020144612A (en) * 2019-03-06 2020-09-10 日本電信電話株式会社 Labeling support method, labeling support device, and program
WO2023079747A1 (en) * 2021-11-08 2023-05-11 パイオニア株式会社 Information processing device, information processing method, and information processing program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003150589A (en) * 2001-11-19 2003-05-23 Sharp Corp Dictionary data distributing system
JP2004054303A (en) * 2002-07-16 2004-02-19 Ntt Data Corp System for making electronic dictionary for document classification and system using it for classifying document

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003150589A (en) * 2001-11-19 2003-05-23 Sharp Corp Dictionary data distributing system
JP2004054303A (en) * 2002-07-16 2004-02-19 Ntt Data Corp System for making electronic dictionary for document classification and system using it for classifying document

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198498A (en) * 2009-02-26 2010-09-09 Mitsubishi Electric Corp Information processor and information processing method and program
JP2011165131A (en) * 2010-02-15 2011-08-25 Sony Corp Information processor, method, and program
JP2020144612A (en) * 2019-03-06 2020-09-10 日本電信電話株式会社 Labeling support method, labeling support device, and program
WO2020179537A1 (en) * 2019-03-06 2020-09-10 日本電信電話株式会社 Labeling support method, labeling support device, and program
US11967135B2 (en) 2019-03-06 2024-04-23 Nippon Telegraph And Telephone Corporation Labeling support method, labeling support apparatus and program
CN111209390A (en) * 2020-01-06 2020-05-29 北大方正集团有限公司 News display method and system, and computer readable storage medium
CN111209390B (en) * 2020-01-06 2023-09-05 新方正控股发展有限责任公司 News display method and system and computer readable storage medium
WO2023079747A1 (en) * 2021-11-08 2023-05-11 パイオニア株式会社 Information processing device, information processing method, and information processing program

Also Published As

Publication number Publication date
JP5000351B2 (en) 2012-08-15

Similar Documents

Publication Publication Date Title
US20200336778A1 (en) Contextual based information aggregation system
CN111782965A (en) Intention recommendation method, device, equipment and storage medium
JP4906846B2 (en) Scoring user compatibility in social networks
TWI636416B (en) Method and system for multi-phase ranking for content personalization
JP5997350B2 (en) Structured search query based on social graph information
CN104254852B (en) Method and system for mixed information inquiry
CN102073699B (en) For improving the method for Search Results, device and equipment based on user behavior
JP4947477B1 (en) RECOMMENDATION DEVICE, RECOMMENDATION METHOD, AND RECOMMENDATION PROGRAM
US10831847B2 (en) Multimedia search using reshare text on online social networks
US8484083B2 (en) Method and apparatus for targeting messages to users in a social network
KR20160057475A (en) System and method for actively obtaining social data
EP2511869A2 (en) Method and system for providing user-customized content
CN104794145A (en) Connecting people based on content and relational distance
JP5000351B2 (en) Content classification system, server, terminal device, program, and recording medium
KR20170089364A (en) Search system preferences based on a interesting field
CN113934941A (en) User recommendation system and method based on multi-dimensional information
KR101346927B1 (en) Search device, search method, and computer-readable memory medium for recording search program
US20120271844A1 (en) Providng relevant information for a term in a user message
CN116414968A (en) Information searching method, device, equipment, medium and product
JP2019531516A (en) Interest search guide system by field of interest
US20150170035A1 (en) Real time personalization and categorization of entities
JP5989157B2 (en) Information presenting apparatus, method, and program
KR20190010278A (en) Search system preferences based on a interesting field
KR101592509B1 (en) Method and system for managing personal career
Madisetty et al. A reranking-based tweet retrieval approach for planned events

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110531

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120508

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120516

R150 Certificate of patent or registration of utility model

Ref document number: 5000351

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250