JP2013003797A - Interest analytic method and interest analyzer - Google Patents

Interest analytic method and interest analyzer Download PDF

Info

Publication number
JP2013003797A
JP2013003797A JP2011133593A JP2011133593A JP2013003797A JP 2013003797 A JP2013003797 A JP 2013003797A JP 2011133593 A JP2011133593 A JP 2011133593A JP 2011133593 A JP2011133593 A JP 2011133593A JP 2013003797 A JP2013003797 A JP 2013003797A
Authority
JP
Japan
Prior art keywords
concept
content
list
user
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011133593A
Other languages
Japanese (ja)
Other versions
JP5504213B2 (en
Inventor
Masanari Fujita
将成 藤田
Koji Ito
浩二 伊藤
Hirohisa Tezuka
博久 手塚
Nobuhiro Muto
伸洋 武藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011133593A priority Critical patent/JP5504213B2/en
Publication of JP2013003797A publication Critical patent/JP2013003797A/en
Application granted granted Critical
Publication of JP5504213B2 publication Critical patent/JP5504213B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

PROBLEM TO BE SOLVED: To estimate interest of a user with high accuracy by using the scarcity of concept appearance.SOLUTION: A feature score calculating part 120 clusters a first content list obtained by browsing a plurality of contents as a list and a second content list obtained by browsing a content body from the first content list, calculates analysis parameters S, N, a, n from the first content list and the second content list in each cluster, calculates a first probability that the number of contents whose concept appears in the second content list is n or more and a second probability that the number of contents is n or less under the condition of S, N, a, and calculates a feature score by an inverse function of a cumulative distribution function of a standard normal distribution on the basis of the first probability and the second probability. A concept system update processing part 130 uses the feature score calculated in each cluster to update a user interest score to a concept.

Description

この発明は、コンテンツ閲覧履歴等からユーザの興味を分析する興味分析方法及び興味分析装置に関する。   The present invention relates to an interest analysis method and an interest analysis device that analyze a user's interest from a content browsing history or the like.

ユーザの行動や状況に合わせて適切なサービス・コンテンツをレコメンドする技術が望まれている。このため、書籍通販サイトにて、サイト内での書籍情報閲覧履歴からユーザの興味を推定して書籍をレコメンドする等、履歴情報からユーザの興味を推定する技術が提案されている。このような方法において、各コンテンツに内容をサマライズするメタ情報が付与されていることを前提として、ユーザ履歴において出現する概念等の頻度からユーザの興味を推定する方法は、内容ベースフィルタリング手法(Content Based Filtering: CBF)で、特にメモリベース手法として研究が進められている。   There is a demand for a technique for recommending appropriate services and contents in accordance with user behavior and situations. For this reason, a technique has been proposed for estimating a user's interest from history information, such as estimating a user's interest from a book information browsing history in the site and recommending a book at a book sales site. In such a method, assuming that meta information for summarizing the contents is given to each content, a method for estimating the user's interest from the frequency of concepts appearing in the user history is a content-based filtering technique (Content Based Filtering (CBF), research is being conducted especially as a memory-based method.

具体的に、内容ベースフィルタリング技術とは、例えば特定ブランド(ブランドを示す情報を概念タグとして保持)の商品を閲覧した場合に、同じブランドの商品(同じ概念タグを保持)を提示する。この場合の、メモリベース手法は、過去に閲覧した履歴から、特定ブランドを頻繁に閲覧していれば、特定ブランドの商品を提示することとなる。単純な方法では、閲覧履歴により多く出現した概念タグに関連する商品を提示することとなる。このような手法においてタクソノミ(オントロジ)を利用した方法としては、例えば、非特許文献1の「操作履歴を用いた多面的嗜好把握方法の提案」がある。   Specifically, the content-based filtering technique presents products of the same brand (holding the same concept tag) when browsing products of a specific brand (holding information indicating the brand as a concept tag). In this case, the memory-based method presents a product of a specific brand if the specific brand is frequently browsed from the history of browsing in the past. In a simple method, products related to concept tags that appear more frequently in the browsing history are presented. As a method using a taxonomy (ontology) in such a method, for example, there is “Proposal of a multifaceted preference grasping method using an operation history” in Non-Patent Document 1.

「操作履歴を用いた多面的嗜好把握方法の提案」,信学技報,vol. 110, no. 450, LOIS2010-76, pp. 67-72, 2011年3月"Proposal of multifaceted preference grasp method using operation history", IEICE Technical Report, vol. 110, no. 450, LOIS2010-76, pp. 67-72, March 2011

ところが、従来技術では、ユーザのコンテンツ閲覧履歴において、当該概念のコンテンツ出現数を指標化した数値によって推定を行っていた。しかし、この場合、コンテンツを選択した事実のみが入力となるため、ユーザが特定概念を持つコンテンツを比較的“選ばない”という特徴を活かすことができなかった。   However, in the prior art, in the content browsing history of the user, the estimation is performed by a numerical value obtained by indexing the content appearance number of the concept. However, in this case, since only the fact that the content has been selected is input, it has not been possible to take advantage of the feature that the user does not relatively select content having a specific concept.

この発明は上記事情に着目してなされたもので、その目的とするところは、概念出現の希少性を利用してユーザの興味を高精度に推定できる興味分析方法及び興味分析装置を提供することにある。   The present invention has been made paying attention to the above circumstances, and an object of the present invention is to provide an interest analysis method and an interest analysis device that can estimate the user's interest with high accuracy using the scarcity of concept appearance. It is in.

本発明は、上記目的を達成するために、以下のような手段を講じている。
本発明の第1の態様は、コンピュータによって複数の概念に対するユーザ興味スコアを体系化した概念体系を用いてユーザの興味を分析する方法及び装置であって、複数のコンテンツを一覧として閲覧した第1のコンテンツリストと、前記第1のコンテンツリストからコンテンツの本体を閲覧した第2のコンテンツリストとをクラスタ化し、前記クラスタ毎に、前記第1のコンテンツリストのコンテンツの総数を第1の総数と、前記第1のコンテンツリストにおいて前記概念が出現するコンテンツの数を第1の出現数と、前記第2のコンテンツリストのコンテンツの総数を第2の総数と、前記第2のコンテンツリストにおいて前記概念が出現するコンテンツの数を第2の出現数としたとき、前記第1の総数、前記第1の出現数、及び前記第2の総数の条件下で、前記第2のコンテンツリストに前記概念が出現するコンテンツの数が、前記第2の出現数以上となる第1の確率及び前記第2の出現数以下となる第2の確率を算出し、前記第1の確率及び前記第2の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出し、前記第1の確率及び前記第2の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する算出し、前記クラスタ毎に算出した特徴スコアを用いて前記概念に対する前記ユーザ興味スコアを更新することを特徴とする。
In order to achieve the above object, the present invention takes the following measures.
According to a first aspect of the present invention, there is provided a method and apparatus for analyzing user interests using a concept system in which user interest scores for a plurality of concepts are systematized by a computer. And a second content list obtained by browsing the main body of content from the first content list, and for each cluster, the total number of contents in the first content list is set to the first total number, The number of contents in which the concept appears in the first content list is the first appearance number, the total number of contents in the second content list is the second total number, and the concept is in the second content list. When the number of appearing contents is the second number of appearances, the first total number, the first number of appearances, and the second number A first probability that the number of contents in which the concept appears in the second content list is greater than or equal to the second occurrence number and a second probability that is less than or equal to the second occurrence number under the condition of the total number And calculating a feature score by an inverse function of a cumulative distribution function of a standard normal distribution based on the first probability and the second probability, and based on the first probability and the second probability The feature score is calculated by an inverse function of the cumulative distribution function of the standard normal distribution, and the user interest score for the concept is updated using the feature score calculated for each cluster.

すなわち、第1の態様によれば、ユーザの選択候補となる第1のコンテンツリストにおける各概念が出現する第1のコンテンツ数と、第1のコンテンツリストからユーザが選択した第2のコンテンツリストにおける各概念が出現する第2のコンテンツ数とを算出し、この第1のコンテンツ数および第2のコンテンツ数を比較分析することで、各概念の出現の希少性を考慮し、且つ選択候補のコンテンツに付与されている概念が、比較的に「選ばれる」という事象だけでなく、比較的に「選ばれない」という事象の出現数の特徴を活用することができるため、ユーザの興味を高精度に推定することが可能となる。   That is, according to the first aspect, in the second content list selected by the user from the first content list, the first number of contents in which each concept appears in the first content list that is a user selection candidate By calculating the second content number in which each concept appears and comparing and analyzing the first content number and the second content number, the rareness of the appearance of each concept is considered, and the content of the selection candidate Since the concept given to can utilize not only the relatively “chosen” event but also the relatively “unchosen” event appearance feature, the user's interest is highly accurate. Can be estimated.

本発明の第2の態様は、前記第1の態様の前記更新ステップにおいて、前記第2コンテンツに関するユーザの操作履歴、前記コンテンツの閲覧時間及び閲覧状況、並びに前記第2コンテンツと前記概念との関連度の少なくとも1つに応じて前記特徴スコアを重み付けすることをさらに特徴とするものである。
第2の態様によれば、ユーザ興味スコアの算出に際し、閲覧時のユーザの状況や閲覧操作の特徴(お気に入り登録、長時間閲覧等)などを反映することで、ユーザの行動や状況に基づいてユーザ興味スコアをさらに的確に求めることが可能となる。
According to a second aspect of the present invention, in the updating step of the first aspect, a user operation history related to the second content, a browsing time and a browsing status of the content, and a relationship between the second content and the concept Further, the characteristic score is weighted according to at least one of the degrees.
According to the second aspect, the user interest score is calculated based on the user's behavior and situation by reflecting the user's situation at the time of browsing and features of the browsing operation (favorite registration, long-time browsing, etc.). The user interest score can be obtained more accurately.

本発明の第3の態様は、前記第1の態様の前記算出ステップにおいて、前記第1の確率及び前記第2の確率を超幾何分布により求めることを特徴とするものである。
第3の態様によれば、前記第2の確率を超幾何分布により求めることで、ユーザが特定概念を持つコンテンツを偶然と比べて比較的”選ぶ”という特徴だけでなく、ユーザが特定概念を持つコンテンツを偶然と比べて比較的“選ばない”という特徴を活用して、精度良くユーザの興味スコアを求めることが可能となる。
According to a third aspect of the present invention, in the calculation step of the first aspect, the first probability and the second probability are obtained by a hypergeometric distribution.
According to the third aspect, by obtaining the second probability by a hypergeometric distribution, not only the feature that the user relatively “selects” content having a specific concept compared to chance, but also the user selects a specific concept. It is possible to obtain the user's interest score with high accuracy by utilizing the feature that the content possessed is relatively “not selected” compared to chance.

本発明の第4の態様は、前記第1の態様において、前記概念体系が前記概念間の上位概念、下位概念の関係情報を有する場合に、前記第1のコンテンツリスト及び前記第2のコンテンツリストのコンテンツに出現する出現概念の上位概念を前記概念体系から抽出し、前記上位概念が当該コンテンツに出現するものとみなして前記上位概念に対するユーザ興味スコアを更新することをさらに特徴とするものである。なお、前記概念体系の前記関係情報は、多数の前記概念が相互に関連を持つことでグラフ構造を持つことができる。グラフ構造を持つ場合は、各前記概念の直接の上位概念を「親概念」、直接の下位概念を「子概念」とよぶ。   According to a fourth aspect of the present invention, in the first aspect, the first content list and the second content list are obtained when the concept system has relationship information of a superordinate concept and a subordinate concept between the concepts. It is further characterized in that a superordinate concept of appearance concepts appearing in the content is extracted from the concept system, and the user interest score for the superordinate concept is updated assuming that the superordinate concept appears in the content. . The relation information of the concept system can have a graph structure because a large number of the concepts are related to each other. In the case of having a graph structure, a direct superordinate concept of each concept is called a “parent concept”, and a direct subordinate concept is called a “child concept”.

第4の態様によれば、タクソノミ(オントロジ)などとして定義された概念関係性を表現する体系を用いたコンテンツ閲覧履歴分析において、コンテンツに出現した概念だけでなく、上位概念が付与されたコンテンツについても統計的な観点で合理的かつ的確に分析可能となる。   According to the fourth aspect, in content browsing history analysis using a system that expresses conceptual relationships defined as taxonomies (ontologies) or the like, not only the concepts that appear in the content but also the content that is given a superordinate concept Can be analyzed reasonably and accurately from a statistical point of view.

本発明の第5の態様は、前記第4の態様において、前記出現概念の下位概念及び前記上位概念の下位概念を前記概念体系から抽出し、前記出現概念のユーザ興味スコア及び前記上位概念のユーザ興味スコアを用いて前記下位概念のユーザ興味スコアを更新することをさらに特徴とするものである。
第5の態様によれば、さらに、コンテンツに出現した概念及び上位概念だけでなく、これらの下位概念についても合理的かつ的確に分析可能となる。
According to a fifth aspect of the present invention, in the fourth aspect, the subordinate concept of the appearing concept and the subordinate concept of the superordinate concept are extracted from the concept system, and the user interest score of the appearing concept and the user of the superordinate concept It is further characterized in that the user interest score of the subordinate concept is updated using the interest score.
According to the fifth aspect, it is possible to reasonably and accurately analyze not only the concept and superordinate concept that appear in the content, but also these subordinate concepts.

本発明の第6の態様は、前記第1の態様において、1つ以上の概念が出現するコンテンツについて、前記コンテンツに出現する各概念の前記ユーザ興味スコアを用いて、前記コンテンツに対するユーザの評価スコアを算出する評価ステップをさらに有することを特徴とするものである。
第6の態様によれば、前記ユーザ興味スコアを用いてコンテンツに対するユーザの評価スコアを算出することで、ユーザの興味に合ったコンテンツを推薦することが可能となる。
According to a sixth aspect of the present invention, in the first aspect, with respect to content in which one or more concepts appear, a user evaluation score for the content using the user interest score of each concept that appears in the content The method further includes an evaluation step for calculating.
According to the sixth aspect, it is possible to recommend content that matches the user's interest by calculating the user's evaluation score for the content using the user interest score.

本発明の第7の態様は、前記第6の態様の前記評価ステップにおいて、前記コンテンツと各概念との関連度及び各概念の重要度の少なくとも1つに応じて前記ユーザ興味スコアを重み付けすることをさらに特徴とするものである。
第7の態様によれば、前記評価スコアの算出に際し、コンテンツと各概念との関連度や及び各概念の重要度などを反映することで、さらに精度良く評価スコアを算出することが可能となる。
In a seventh aspect of the present invention, in the evaluation step of the sixth aspect, the user interest score is weighted according to at least one of the degree of association between the content and each concept and the importance of each concept. Is further characterized.
According to the seventh aspect, when the evaluation score is calculated, the evaluation score can be calculated with higher accuracy by reflecting the degree of association between the content and each concept and the importance of each concept. .

すなわちこの発明によれば、概念出現の希少性を利用してユーザの興味を高精度に推定可能な興味分析方法及び興味分析装置を提供することができる。   That is, according to the present invention, it is possible to provide an interest analysis method and an interest analysis device that can estimate the user's interest with high accuracy by utilizing the scarcity of concept appearance.

本実施形態に係る興味分析装置を用いたシステム全体図。The whole system figure using the interest analysis device concerning this embodiment. 図1の各装置の機能構成を示すブロック図。The block diagram which shows the function structure of each apparatus of FIG. 興味分析装置の処理概要を示す図。The figure which shows the process outline | summary of an interest analyzer. クライアント端末上でのコンテンツ閲覧操作の一例を示す図。The figure which shows an example of content browsing operation on a client terminal. 一覧閲覧コンテンツリストのデータ構成例を示す図。The figure which shows the data structural example of a list browsing content list. 詳細閲覧コンテンツのデータ構成例を示す図。The figure which shows the data structural example of detailed browsing content. 提示コンテンツリストのデータ構成例を示す図。The figure which shows the data structural example of a presentation content list. コンテンツデータベースの一例を示す図。The figure which shows an example of a content database. 概念体系/ユーザ興味スコアデータベースの一例を示す図。The figure which shows an example of a concept system / user interest score database. 履歴情報受信部の処理フローを示す図。The figure which shows the processing flow of a log | history information receiving part. 特徴スコア算出部の処理フローを示す図。The figure which shows the processing flow of a characteristic score calculation part. 分析パラメータリストのデータ構成例を示す図。The figure which shows the data structural example of an analysis parameter list. 特徴スコア算出部の動作を説明するための模式図。The schematic diagram for demonstrating operation | movement of a characteristic score calculation part. 特徴スコア算出処理の詳細を示す図。The figure which shows the detail of a characteristic score calculation process. 概念体系更新処理部の処理フローを示す図。The figure which shows the processing flow of a concept system update process part. 概念体系更新処理の詳細を示す図。The figure which shows the detail of a concept system update process. コンテンツ評価処理部の処理フローを示す図。The figure which shows the processing flow of a content evaluation process part. コンテンツスコアリストの一例を示す図。The figure which shows an example of a content score list. コンテンツ評価処理の詳細を示す図。The figure which shows the detail of a content evaluation process. コンテンツ要求データの一例を示す図。The figure which shows an example of content request data.

以下、図面を参照してこの発明の実施の形態について詳細に説明する。
図1は、本実施形態に係る興味分析装置を用いたシステム全体図である。このシステムは、クライアント端末200と、コンテンツサーバ300と、興味分析装置100を備える。クライアント端末200とコンテンツサーバ300との間、及びコンテンツサーバ300と興味分析装置100との間はそれぞれ通信ネットワークで接続される。ユーザは、クライアント端末200上での閲覧操作により、所望のコンテンツをコンテンツサーバ300から取得し、取得したコンテンツをクライアント端末200の画面に提示して閲覧する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is an overall system diagram using the interest analysis apparatus according to the present embodiment. This system includes a client terminal 200, a content server 300, and an interest analysis device 100. The client terminal 200 and the content server 300, and the content server 300 and the interest analysis device 100 are connected to each other via a communication network. The user acquires desired content from the content server 300 through a browsing operation on the client terminal 200 and presents the acquired content on the screen of the client terminal 200 for browsing.

クライアント端末200は、ユーザ操作によるコンテンツ閲覧履歴を収集し、複数のコンテンツを一覧として閲覧した一覧閲覧コンテンツリスト(第1のコンテンツリスト)と、コンテンツの一覧からコンテンツの本体を閲覧した詳細閲覧コンテンツリスト(第2のコンテンツリスト)とをコンテンツサーバ300に送信する。コンテンツサーバ300は、この一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを、通信ネットワークを介して興味分析装置100に転送する。   The client terminal 200 collects a content browsing history by a user operation, browses a plurality of content as a list, a list browsing content list (first content list), and a detailed browsing content list that browses the content body from the content list (Second content list) is transmitted to the content server 300. The content server 300 transfers the list browsing content list and the detailed browsing content list to the interest analysis device 100 via the communication network.

興味分析装置100は、この一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストをもとに、コンテンツに出現する各概念に対する特徴スコア及びユーザ興味スコアを算出し、ユーザの興味を推定する。興味分析装置100は、このユーザ興味スコアに基づいて、コンテンツサーバ300から受け取った「提示コンテンツリスト」から、ユーザの興味に合わせてソートを行ったコンテンツのリスト(ソート済み提示コンテンツリスト)を生成し、コンテンツサーバ300に送信する。   The interest analysis apparatus 100 calculates a feature score and a user interest score for each concept appearing in the content based on the list browsing content list and the detailed browsing content list, and estimates the user's interest. Based on this user interest score, the interest analysis apparatus 100 generates a list of contents sorted according to the user's interest (sorted presented content list) from the “presentation content list” received from the content server 300. To the content server 300.

図2は、図1の各装置の機能構成を示すブロック図である。
興味分析装置100は、履歴情報受信部110、特徴スコア算出部120、概念体系更新処理部130、概念体系/ユーザ興味スコアデータベース140、提示コンテンツリスト受信部150、コンテンツデータベース160、コンテンツ評価処理部170、及びソート済みコンテンツスコアリスト送信部180を備える。
FIG. 2 is a block diagram showing a functional configuration of each device in FIG.
The interest analysis apparatus 100 includes a history information reception unit 110, a feature score calculation unit 120, a concept system update processing unit 130, a concept system / user interest score database 140, a presented content list reception unit 150, a content database 160, and a content evaluation processing unit 170. , And a sorted content score list transmission unit 180.

図3は、興味分析装置100の処理概要を示したものである。
履歴情報受信部110は、クライアント端末200からの一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストをコンテンツサーバ300を介して受信する。一覧閲覧コンテンツリストとは、例えば、ユーザがコンテンツのタイトルのみを一覧で閲覧したコンテンツのリストである。詳細閲覧コンテンツリストとは、ユーザがコンテンツ本体の内容(詳細)を閲覧したコンテンツのリストである。例えば、図3において、一覧閲覧コンテンツリストには、コンテンツ1〜8が含まれ、詳細閲覧コンテンツリストには、コンテンツ1,3,4が含まれる。また、図3において、斜線パターンで示すコンテンツは、概念Bがコンテンツ1,6,7,8に出現することを示す。
FIG. 3 shows an outline of processing of the interest analysis apparatus 100.
The history information receiving unit 110 receives the list browsing content list and the detailed browsing content list from the client terminal 200 via the content server 300. The list browsing content list is, for example, a list of content in which the user browses only the content titles in a list. The detailed browsing content list is a list of content that the user has viewed the content (details) of the content body. For example, in FIG. 3, the list browsing content list includes contents 1 to 8, and the detailed browsing content list includes contents 1, 3, and 4. In FIG. 3, the content indicated by the hatched pattern indicates that the concept B appears in the content 1, 6, 7, and 8.

特徴スコア算出部120は、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを利用して概念選択の統計モデルにより各概念の特徴スコア(後述するZ値)を算出する。
概念体系更新処理部130は、上記特徴スコアを用いて概念体系における概念間の関係情報(上位概念及び下位概念)に基づいて各概念に対するユーザ興味スコアを更新する。概念体系のグラフに含まれるノードは概念を表し、リンクは概念間の関係を表す。ユーザ興味スコアは、概念体系における各概念に対応するノードの値として保持する。概念体系において、上位に位置するノードほど抽象的な概念を表し、下位に位置するノードほど具体的な概念を表す。概念体系及び概念ID(ノード毎に付与される識別子)は、サービス運用者等が事前に設計し定義するものとする。
The feature score calculation unit 120 calculates a feature score (Z value to be described later) of each concept by a statistical model of concept selection using the list browsing content list and the detailed browsing content list.
The concept system update processing unit 130 updates the user interest score for each concept based on the relationship information (superordinate concept and subordinate concept) in the concept system using the feature score. Nodes included in the graph of the concept system represent concepts, and links represent relationships between concepts. The user interest score is held as a value of a node corresponding to each concept in the concept system. In the concept system, the nodes located at the higher level represent the abstract concept, and the nodes located at the lower level represent the specific concept. The concept system and concept ID (identifier assigned to each node) are designed and defined in advance by a service operator or the like.

コンテンツ評価処理部170は、評価コンテンツに出現する各概念のユーザ興味スコアを利用して確率結合によってコンテンツに対するユーザの評価スコアを算出する。図3の例では、コンテンツ1に出現する概念E,F,Dのユーザ興味スコアを用いてコンテンツ1の評価スコアを求めている。興味分析装置100の詳しい動作説明は後述する。   The content evaluation processing unit 170 calculates the user's evaluation score for the content by probability combining using the user interest score of each concept appearing in the evaluation content. In the example of FIG. 3, the evaluation score of the content 1 is obtained using the user interest scores of the concepts E, F, and D that appear in the content 1. Detailed operation description of the interest analysis apparatus 100 will be described later.

図2において、クライアント端末200は、履歴収集部210、履歴情報送信部220、コンテンツ提示部230、及びコンテンツ要求送信部240を備える。
コンテンツ要求送信部240は、ユーザの指示(入力)によりコンテンツサーバ300に対して、コンテンツの提示要求を行う。具体的には図20のようなコンテンツ要求データをコンテンツサーバ300に送信する。例えば、コンテンツ要求データは、クライアント端末ID(もしくはユーザID)及び要求時刻を有する。なお、要求時刻は、コンテンツサーバ300において追加するようにしてもよい。クライアント端末ID(もしくはユーザID)は、端末(もしくはユーザ)毎に一意に付与される数字であって、後述する概念体系/ユーザ興味スコアデータベース140のユーザ興味スコアテーブルのユーザIDと一致するIDである。
2, the client terminal 200 includes a history collection unit 210, a history information transmission unit 220, a content presentation unit 230, and a content request transmission unit 240.
The content request transmission unit 240 makes a content presentation request to the content server 300 in accordance with a user instruction (input). Specifically, content request data as shown in FIG. 20 is transmitted to the content server 300. For example, the content request data has a client terminal ID (or user ID) and a request time. The request time may be added in the content server 300. The client terminal ID (or user ID) is a number uniquely assigned to each terminal (or user), and is an ID that matches the user ID of the user interest score table of the conceptual system / user interest score database 140 described later. is there.

図4は、クライアント端末200上でのユーザによるコンテンツ閲覧操作の一例を示したものである。
コンテンツ提示部230は、コンテンツサーバ300から受信したソート済み提示コンテンツリストをもとに、クライアント端末200の表示画面サイズが許容する範囲でソート順の上位から一覧として表示を行う。
FIG. 4 shows an example of a content browsing operation by the user on the client terminal 200.
Based on the sorted presentation content list received from the content server 300, the content presentation unit 230 displays a list from the top of the sort order within the range allowed by the display screen size of the client terminal 200.

図4の例では、10個のコンテンツ(コンテンツ1〜10)が一覧表示されている。ユーザのフリック、スクロールバーの操作等で一覧によりソート順下位のコンテンツが表示することができる。このように実際にクライアント端末200に表示されたコンテンツのリストを一覧閲覧コンテンツリストとする。つまり、ソート済み提示コンテンツリスト内のすべてのコンテンツがクライアント端末200で表示されるとは限らないため、一覧閲覧コンテンツリストに含まれるとは限らない。ユーザがこの一覧から各コンテンツのタイトルをクリック操作等で選択すると、選択されたタイトルのコンテンツ(図4のコンテンツ3,5,6)の本体(詳細)を閲覧することができる。この詳細を閲覧したコンテンツを、詳細閲覧コンテンツリストに含む。   In the example of FIG. 4, ten contents (contents 1 to 10) are displayed in a list. The content in the lower order of the sort order can be displayed by the list by the user's flick, scroll bar operation or the like. The list of contents actually displayed on the client terminal 200 in this way is referred to as a list browsing content list. That is, not all the contents in the sorted presentation content list are displayed on the client terminal 200, and thus are not necessarily included in the list browsing content list. When the user selects a title of each content from this list by clicking or the like, the main body (details) of the content of the selected title (contents 3, 5, and 6 in FIG. 4) can be viewed. The content whose details are browsed is included in the detailed browsing content list.

履歴収集部210は、上述したように、ユーザの操作履歴を収集して一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを作成する。履歴情報送信部220は、履歴収集部210により作成された一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストをコンテンツサーバ300に送信する。   As described above, the history collection unit 210 collects user operation histories and creates a list browsing content list and a detailed browsing content list. The history information transmission unit 220 transmits the list browsing content list and the detailed browsing content list created by the history collection unit 210 to the content server 300.

図5に、上記図4の場合の一覧閲覧コンテンツリストのデータ構成例を示す。一覧閲覧コンテンツリストは、クラスタID、コンテンツID、及び閲覧時刻を有する。クラスタとは、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストに一意に付与される識別子(図5では“1”)である。別の時刻(時間帯)に表示した一覧閲覧コンテンツをユーザが閲覧した場合は、別のクラスタIDが付与される。なお、時刻以外の条件でクラスタIDを新たに付与する条件としては、一覧閲覧コンテンツリスト表示中に一定時間操作が無かった場合や、閲覧するユーザ(ユーザID)を切り替えた場合、一覧閲覧コンテンツリストに対して、コンテンツジャンル等を観点に絞り込み検索を掛けた場合、その他閲覧アプリケーションにおいて閲覧モードを切り替えた場合がある。コンテンツIDは、一覧閲覧コンテンツの各コンテンツに一意に付与された識別子であり、後述するコンテンツデータベース160が保持する値と一致するものとする。   FIG. 5 shows a data configuration example of the list browsing content list in the case of FIG. The list browsing content list has a cluster ID, a content ID, and a browsing time. The cluster is an identifier ("1" in FIG. 5) uniquely assigned to the list browsing content list and the detailed browsing content list. When the user browses the list browsing content displayed at another time (time zone), another cluster ID is given. The conditions for newly assigning the cluster ID under conditions other than the time include when there is no operation for a certain period of time while the list browsing content list is displayed, or when the browsing user (user ID) is switched, the list browsing content list On the other hand, when a narrow search is performed from the viewpoint of the content genre or the like, the browsing mode may be switched in other browsing applications. The content ID is an identifier uniquely assigned to each content of the list browsing content, and is assumed to match a value held in a content database 160 described later.

図6は、上記図4の場合の詳細閲覧コンテンツリストのデータ構成例を示したものである。詳細閲覧コンテンツリストは、上記一覧閲覧コンテンツリストと同様に、クラスタID、コンテンツID、及び閲覧時刻を有する。クラスタIDは、一覧閲覧コンテンツリストと同一の値とする(図6では“1”)。コンテンツID及び閲覧時刻は、詳細閲覧コンテンツリストでは、ユーザが一覧閲覧コンテンツから選択して詳細を閲覧したコンテンツ(図6ではコンテンツ3,5,6)の識別子及び当該コンテンツを閲覧した時刻となる。   FIG. 6 shows a data configuration example of the detailed browsing content list in the case of FIG. The detailed browsing content list has a cluster ID, a content ID, and a browsing time, like the list browsing content list. The cluster ID is set to the same value as the list browsing content list (“1” in FIG. 6). In the detailed browsing content list, the content ID and browsing time are the identifier of the content (contents 3, 5, and 6 in FIG. 6) that the user has selected from the browsing content and browsed the content and the time when the content was browsed.

上記図2において、コンテンツサーバ300は、コンテンツ送信処理部310、ソート済み提示コンテンツリスト受信部320、提示コンテンツリスト送信部330、提示コンテンツリスト入力部340、履歴情報転送部350、及びコンテンツ要求転送部360を備える。   In FIG. 2, the content server 300 includes a content transmission processing unit 310, a sorted presentation content list reception unit 320, a presentation content list transmission unit 330, a presentation content list input unit 340, a history information transfer unit 350, and a content request transfer unit. 360 is provided.

履歴情報転送部350は、クライアント端末200から受信した一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを通信ネットワークを介して興味分析装置100に転送する。
提示コンテンツリスト入力部340には、サービス運用者により、ユーザの利用するクライアント端末200に提示するコンテンツを一覧にした提示コンテンツリストが入力される。提示コンテンツリスト送信部330は、上記入力された提示コンテンツリストを興味分析装置100へ通信ネットワークを介して送信する。
The history information transfer unit 350 transfers the list browsing content list and the detailed browsing content list received from the client terminal 200 to the interest analysis device 100 via the communication network.
The presentation content list input unit 340 receives a presentation content list that lists contents to be presented to the client terminal 200 used by the user by the service operator. The presented content list transmission unit 330 transmits the input presented content list to the interest analysis apparatus 100 via the communication network.

図7に、提示コンテンツリストのデータ構成例を示す。提示コンテンツリストは、コンテンツID、概念ID/関連度リスト、コンテンツ本体、及びコンテンツ登録時刻を有する。コンテンツIDは、各コンテンツに対してコンテンツサーバ300にて付与される一意のIDである。概念ID/関連度リストは、コンテンツに出現する概念の概念ID及び当該概念とコンテンツと関連性の程度を示す値のセットが格納される。概念ID/関連度リストは、コンテンツ毎に予め設定されており、具体例としては、コンテンツ1(スポーツ記事)には、{“野球”の概念ID=1,関連度=0.5}、{“サッカー”の概念ID=2,関連度=0.8}、{“ゴルフ”の概念ID=3、関連度=0.6}…のように、概念IDと関連度のセットが格納される。   FIG. 7 shows a data configuration example of the presented content list. The presented content list has a content ID, a concept ID / relevance list, a content body, and a content registration time. The content ID is a unique ID assigned by the content server 300 to each content. The concept ID / relationship degree list stores a concept ID of a concept that appears in content and a set of values indicating the degree of relevance between the concept and the content. The concept ID / relevance degree list is set in advance for each content. As a specific example, content 1 (sports article) includes {“baseball” concept ID = 1, relevance = 0.5}, { A set of concept ID and degree of association is stored as “soccer” concept ID = 2, degree of association = 0.8}, {“golf” concept ID = 3, degree of association = 0.6}. .

なお、概念IDは、概念体系/ユーザ興味スコアデータベース140に格納される値と一致する。関連度は、例えば、0から1までの値とし、大きいほど関連性が強いものとする。関連度は、サービス運用者がコンテンツ登録時に設定する値、若しくは別システムにより算出される値を利用する。   The concept ID matches the value stored in the concept system / user interest score database 140. For example, the relevance is a value from 0 to 1, and the larger the relevance, the stronger the relevance. As the relevance, a value set by the service operator at the time of content registration or a value calculated by another system is used.

ソート済み提示コンテンツリスト受信部320は、興味分析装置100から提示コンテンツリストの一部又は全部をソートしたソート済み提示コンテンツリストとクライアント端末ID(もしくはユーザID)を受信する。コンテンツ送信処理部310は、ソート済み提示コンテンツリストをクライアント端末ID(もしくはユーザID)に該当するクライアント端末200に送信する。
コンテンツ要求転送部360は、クライアント端末200のコンテンツ要求送信部240からのコンテンツ提示要求であるコンテンツ要求データ(図20)を興味分析装置100に転送する。
The sorted presentation content list receiving unit 320 receives a sorted presentation content list and a client terminal ID (or user ID) obtained by sorting a part or all of the presentation content list from the interest analysis device 100. The content transmission processing unit 310 transmits the sorted presentation content list to the client terminal 200 corresponding to the client terminal ID (or user ID).
The content request transfer unit 360 transfers content request data (FIG. 20), which is a content presentation request from the content request transmission unit 240 of the client terminal 200, to the interest analysis device 100.

次に、興味分析装置100の各部の詳細について説明する。
[コンテンツデータベース160]
図8にコンテンツデータベース160のデータ構造の一例を示す。コンテンツデータベース160は、コンテンツテーブルと、ユーザ履歴テーブルとを有する。
Next, the detail of each part of the interest analysis apparatus 100 is demonstrated.
[Content database 160]
FIG. 8 shows an example of the data structure of the content database 160. The content database 160 has a content table and a user history table.

コンテンツテーブルは、コンテンツID、概念ID/関連度リスト、コンテンツ本体、及びコンテンツ登録時刻を格納する。提示コンテンツリスト受信部150で受信した値が格納される。
ユーザ履歴テーブルは、コンテンツID、ユーザID(クライアント端末ID)、詳細閲覧総数、詳細閲覧時刻、一覧閲覧総数、一覧閲覧時刻、及び一覧非表示フラグを格納する。詳細閲覧時刻は、詳細閲覧総数が0の場合はnull、1以上であれば各閲覧の時系列による閲覧時刻のリストを格納する。一覧閲覧時刻は、一覧閲覧総数が0の場合はnull、1以上であれば各閲覧の時系列による閲覧時刻のリストを格納する。一覧非表示フラグは、まだユーザにクライアント端末の画面上で一覧としても表示/視認していない場合はfalse、一度でも閲覧した場合はtrueを格納する。ユーザ履歴テーブルおいては、ユーザID毎に全コンテンツIDの値を保持する。詳細閲覧総数及び一覧閲覧総数は、上記クラスタIDで示される一覧閲覧コンテンツリストが多数受信された場合には過去の履歴の累計を格納する。
The content table stores a content ID, a concept ID / relevance list, a content body, and a content registration time. The value received by the presented content list receiving unit 150 is stored.
The user history table stores content ID, user ID (client terminal ID), detailed browsing total number, detailed browsing time, list browsing total number, list browsing time, and list non-display flag. The detailed browsing time is null when the total number of detailed browsing is 0, and if it is 1 or more, a list of browsing times in a time series of each browsing is stored. The list browsing time is null when the total number of browsing the list is 0, and if it is 1 or more, a list of browsing times according to the time series of each browsing is stored. The list non-display flag stores false if the user has not yet displayed / viewed as a list on the screen of the client terminal, and stores true if the user has viewed the list once. In the user history table, all content ID values are held for each user ID. As the detailed browsing total number and the list browsing total number, when a large number of list browsing content lists indicated by the cluster ID are received, a cumulative total of past histories is stored.

例えば、このユーザ履歴テーブルのデータを利用することで、ユーザの閲覧回数に応じて、コンテンツについて、今後の評価(コンテンツ評価処理部170での処理時)で評価スコアを下げるようにする。評価スコアの低減方法としては、あるコンテンツに対する閲覧回数をkとしたとき、当該コンテンツの評価スコアをk+1で割る、或いは評価スコアに重み(例えば0.9)のk乗を乗算するなどがある。この処理により、同じコンテンツの反復提示を興味との一致度を加味して低減することができるためユーザの推薦に対する満足度を向上することができる。   For example, by using the data of the user history table, the evaluation score of the content is lowered in the future evaluation (during processing in the content evaluation processing unit 170) according to the number of times the user browses. As a method for reducing the evaluation score, when the number of browsing for a certain content is k, the evaluation score of the content is divided by k + 1, or the evaluation score is multiplied by a weight (for example, 0.9) to the kth power. By this process, it is possible to reduce the repeated presentation of the same content in consideration of the degree of coincidence with the interest, so that the satisfaction with the user's recommendation can be improved.

[概念体系/ユーザ興味スコアデータベース140]
図9に概念体系/ユーザ興味スコアデータベース140のデータ構造の一例を示す。概念体系/ユーザ興味スコア160は、ルート概念ノードIDと、概念体系テーブルと、ユーザ興味スコアテーブルとを有する。
[Conceptual System / User Interest Score Database 140]
FIG. 9 shows an example of the data structure of the conceptual system / user interest score database 140. The concept system / user interest score 160 includes a root concept node ID, a concept system table, and a user interest score table.

ルート概念ノードIDとは、概念体系構造において最上位にある概念ノードIDである。システム内に1つだけ存在する。
概念体系テーブルは、自概念ID、親概念IDリスト、及び子概念IDリストを格納する。概念体系内の全ての自概念IDは、親概念ID及び子概念ID(ただし、自概念が最下位の場合には子概念IDは無し)と紐付けて保存されており、これにより概念構造が定義される。
ユーザ興味スコアテーブルは、概念ID、ユーザID(クライアント端末ID)、TotalZ(ユーザ興味スコア)、X、及びYの値を格納する。TotalZ、X、及びYの定義及び算出方法は後述する。
The root concept node ID is a concept node ID at the highest level in the concept system structure. There is only one in the system.
The concept system table stores a self-concept ID, a parent concept ID list, and a child concept ID list. All the self-concept IDs in the concept system are stored in association with a parent concept ID and a child concept ID (however, if the self-concept is the lowest, there is no child concept ID). Defined.
The user interest score table stores values of concept ID, user ID (client terminal ID), TotalZ (user interest score), X, and Y. The definition and calculation method of TotalZ, X, and Y will be described later.

[提示コンテンツリスト受信部150]
提示コンテンツリスト受信部150は、コンテンツサーバ300から上記図7のような提示コンテンツリストを受信し、コンテンツデータベース160に保存する。
[Presentation content list receiving unit 150]
The presented content list receiving unit 150 receives the presented content list as shown in FIG. 7 from the content server 300 and stores it in the content database 160.

[履歴情報受信部110]
図10に、履歴情報受信部110の処理フローを示す。
(ステップS11:履歴データ受信)
履歴情報受信部110は、コンテンツサーバ300の履歴情報転送部350から通信ネットワークを介してクライアント端末ID(もしくはユーザID)、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを受信し、特徴スコア算出部120へ出力する。
[History information receiving unit 110]
FIG. 10 shows a processing flow of the history information receiving unit 110.
(Step S11: History data reception)
The history information receiving unit 110 receives the client terminal ID (or user ID), the list browsing content list, and the detailed browsing content list from the history information transfer unit 350 of the content server 300 via the communication network, and sends the client information to the feature score calculation unit 120. Output.

[特徴スコア算出部120]
図11に、特徴スコア算出部120の処理フローを示す。特徴スコア算出部120には、履歴情報受信部110からクライアント端末ID(もしくはユーザID)、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストが入力される。
[Feature score calculator 120]
FIG. 11 shows a processing flow of the feature score calculation unit 120. A client terminal ID (or user ID), a list browsing content list, and a detailed browsing content list are input from the history information receiving unit 110 to the feature score calculation unit 120.

(ステップS12:出現概念抽出)
特徴スコア算出部120は、詳細閲覧コンテンツリスト内の各コンテンツに出現する概念IDをコンテンツデータベース160から抽出する。具体的には、図6の詳細閲覧コンテンツリストにおいて、各コンテンツIDに紐付けされている「概念ID」を図8のコンテンツデータベース160のコンテンツテーブルから検索する。特徴スコア算出部120は、クラスタデータ{クラスタID,一覧閲覧コンテンツリスト,詳細閲覧コンテンツリスト}と、コンテンツID/概念ID関連づけリスト{{コンテンツID,{関連づいている概念ID,…}},…}と、出現概念リスト{概念ID}とを生成する。「コンテンツID/概念ID関連付けリスト」とは、コンテンツIDをもとに検索された概念IDのリストである。「出現概念リスト」とは、一覧閲覧コンテンツリスト、及び詳細閲覧コンテンツリストに含まれる各コンテンツに出現する概念の概念IDを全て列挙したものである。
(Step S12: Appearance concept extraction)
The feature score calculation unit 120 extracts a concept ID that appears in each content in the detailed browsing content list from the content database 160. Specifically, the “concept ID” associated with each content ID in the detailed browsing content list of FIG. 6 is searched from the content table of the content database 160 of FIG. The feature score calculation unit 120 includes cluster data {cluster ID, list browsing content list, detailed browsing content list} and content ID / concept ID association list {{content ID, {related concept ID, ...}}, ... } And the appearance concept list {concept ID}. The “content ID / concept ID association list” is a list of concept IDs searched based on the content ID. The “appearance concept list” is a list of all concept IDs of concepts that appear in each content included in the list browsing content list and the detailed browsing content list.

(ステップS13:出現概念抽出)
特徴スコア算出部120は、「出現概念リスト」の各概念IDについて、図9の概念体系/ユーザ興味スコアデータベース140から上位概念を抽出し、上位概念の概念IDを「出現概念リスト」及び「コンテンツID/概念ID関連づけリスト」に追加する。
(Step S13: Appearance concept extraction)
For each concept ID in the “appearance concept list”, the feature score calculation unit 120 extracts a superordinate concept from the concept system / user interest score database 140 of FIG. 9, and sets the superordinate concept IDs as “appearance concept list” and “content”. To the “ID / concept ID association list”.

具体的には、特徴スコア算出部120は、「出現概念リスト」の概念IDが、図9の概念体系テーブルから「自概念ID」と一致するものを検索し、その「親概念ID」を抽出する。例えば、上記抽出された「親概念ID」が図9の概念体系テーブルの「自概念ID」と一致するものをさがし、その「親概念ID」も上位概念として抽出する。そして、特徴スコア算出部120は、上位概念の概念IDを抽出の元になった出現概念の概念IDを有するコンテンツIDに関連づける。すなわち、上記抽出された「上位概念」を「元になった概念IDを持っていたコンテンツID」に対して上位概念が付与されていたと見なして、「出現概念リスト」「コンテンツID/概念ID関連づけリスト」に追加する。なお、概念体系階層におけるルート概念の抽出は除外する。   Specifically, the feature score calculation unit 120 searches the concept system table in FIG. 9 for the concept ID of the “appearance concept list” that matches the “own concept ID”, and extracts the “parent concept ID”. To do. For example, a search is made for a case where the extracted “parent concept ID” matches the “own concept ID” in the concept system table of FIG. 9, and the “parent concept ID” is also extracted as a superordinate concept. Then, the feature score calculation unit 120 associates the concept ID of the superordinate concept with the content ID having the concept ID of the appearance concept that is the source of extraction. That is, the extracted “superior concept” is regarded as having been assigned a superordinate concept with respect to “content ID having the original concept ID”, and “appearance concept list” “content ID / concept ID association” Add to list. The extraction of the root concept in the concept system hierarchy is excluded.

(ステップS14:分析パラメータ抽出)
特徴スコア算出部120は、「出現概念リスト」の各概念について出現数を算出し、特徴スコアの算出に必要な分析パラメータを抽出し、分析パラメータリストを生成する。
図12に、分析パラメータリストのデータ構成例を示す。分析パラメータリストは、クラスタID毎に、一覧閲覧コンテンツリストのコンテンツ総数S(第1の総数)、詳細閲覧コンテンツリストのコンテンツ総数a(第2の総数)、クラスタIDに紐づいた出現概念リスト内の概念ID毎に算出するNとnがある。N(第1の出現数)は、一覧閲覧コンテンツリストにおいて当該概念IDが付与されているコンテンツ数とする。n(第2の出現数)は詳細閲覧コンテンツリストにおける当該概念IDが付与されているコンテンツ数とする。なお、ステップS13にて追加した上位概念も含めて出現概念リスト内の概念IDすべてについて、Nとnを算出する。
(Step S14: Analysis parameter extraction)
The feature score calculation unit 120 calculates the number of appearances for each concept in the “appearance concept list”, extracts analysis parameters necessary for calculating the feature score, and generates an analysis parameter list.
FIG. 12 shows a data configuration example of the analysis parameter list. The analysis parameter list includes, for each cluster ID, the total content S (first total) of the list browsing content list, the total content a (second total) of the detailed browsing content list, and the appearance concept list associated with the cluster ID. N and n are calculated for each concept ID. N (first appearance number) is the number of contents to which the concept ID is assigned in the list browsing content list. n (second appearance number) is the number of contents to which the concept ID is assigned in the detailed browsing content list. Note that N and n are calculated for all concept IDs in the appearance concept list including the superordinate concept added in step S13.

図13(a)に分析パラメータ抽出処理の模式図を示す。例えば、50個(=S)のコンテンツが一覧表示されている中から、ユーザが10個(=a)のコンテンツの詳細を閲覧した場合を示す。ここで、一覧表示されている50個のコンテンツのうち「野球」という概念が含まれている記事が15個(=N)あり、ユーザが閲覧した10個のコンテンツのうち、「野球」という概念が含まれているコンテンツが5個(=n)あったことを示す。   FIG. 13A shows a schematic diagram of the analysis parameter extraction process. For example, a case where the user browses details of 10 (= a) contents from a list of 50 (= S) contents is shown. Here, there are 15 articles (= N) that contain the concept of “baseball” among the 50 contents displayed in a list, and the concept of “baseball” among the 10 contents viewed by the user. This indicates that there are five (= n) contents including “”.

(ステップS15:特徴スコア算出)
特徴スコア算出部120は、上記分析パラメータS,a,N,nを利用して概念ID毎に特徴スコアZを算出する。図14に特徴スコア算出処理の詳細を示す。図14において、iは概念の識別子、jは、クラスタIDを示す。H1(第1の確率)は、一覧閲覧コンテンツリストに含まれる一覧閲覧コンテンツの総数S、一覧閲覧コンテンツのうち概念iが出現するコンテンツ数Nのとき、詳細閲覧コンテンツをa個ランダム選択して閲覧した場合に、概念iが出現する詳細閲覧コンテンツの数がn以上となる累積確率である。H2(第2の確率)は、一覧閲覧コンテンツリストに含まれる一覧閲覧コンテンツの総数S、一覧閲覧コンテンツのうち概念iが出現するコンテンツ数Nのとき、詳細閲覧コンテンツをa個ランダム選択して閲覧した場合に、概念iが出現する詳細閲覧コンテンツの数がn以下となる累積確率である。なお、本実施形態では、累積確率H1及びH2は、超幾何分布により求めるが、この手法に限定するものではない。他の分布の例としては、二項分布、正規分布が存在する。
(Step S15: feature score calculation)
The feature score calculation unit 120 calculates a feature score Z for each concept ID using the analysis parameters S, a, N, and n. FIG. 14 shows details of the feature score calculation process. In FIG. 14, i is a concept identifier, and j is a cluster ID. When H1 (first probability) is the total number S of the list browsing contents included in the list browsing content list and the number N of the contents of the list browsing content where the concept i appears, a detailed browsing content is randomly selected and viewed. In this case, the cumulative probability that the number of detailed browsing contents in which the concept i appears is n or more. When H2 (second probability) is the total number S of the list browsing contents included in the list browsing content list and the number of contents N in which the concept i appears in the list browsing contents, a detailed browsing content is randomly selected and viewed. In this case, the cumulative probability that the number of detailed browsing contents in which the concept i appears is n or less. In the present embodiment, the cumulative probabilities H1 and H2 are obtained by the hypergeometric distribution, but are not limited to this method. Examples of other distributions include a binomial distribution and a normal distribution.

図13(b)に示すように、例えば、上記の分析パラメータS、N、a、nを用いて、ユーザが閲覧した10個のコンテンツのうち、「野球」という概念が含まれるコンテンツが5以上である確率が、「0.12」であることを示す。ここで、「0.12」は、累積確率H1の値に相当する。   As shown in FIG. 13B, for example, there are five or more contents including the concept of “baseball” among the ten contents viewed by the user using the analysis parameters S, N, a, and n described above. It is shown that the probability of being “0.12”. Here, “0.12” corresponds to the value of the cumulative probability H1.

なお、H2の値を使う例として、上記の分析パラメータでnが0である場合を考える。この場合は、出現数が0以下の場合の確率を算出する。具体的には、図13(b)において横軸が0の項目の値となるため「0.02」となる。
そして、特徴スコア算出部120は、図14に示すように、上記算出した累積確率H1及びH2を用いて、標準正規分布の累積分布関数の逆関数により特徴スコアZを算出する。図13(c)に示すように、上記H1を累積確率とする標準正規分布の累積分布関数の逆関数により特徴スコアZを求める。なお、累積確率としてH2を利用する場合には、標準正規分布の累積分布関数の逆関数の返値の符号を負にして特徴スコアZを求める。この特徴スコアZを用いて、後述する概念体系更新処理部130は、「野球」という概念に対するユーザ興味スコア(TotalZ)を求める。
As an example of using the value of H2, consider the case where n is 0 in the above analysis parameters. In this case, the probability when the number of appearances is 0 or less is calculated. Specifically, in FIG. 13B, the horizontal axis is the value of the item of 0, so “0.02”.
Then, as shown in FIG. 14, the feature score calculation unit 120 calculates the feature score Z by the inverse function of the standard normal distribution cumulative distribution function using the calculated cumulative probabilities H1 and H2. As shown in FIG. 13C, the feature score Z is obtained by the inverse function of the cumulative distribution function of the standard normal distribution with H1 as the cumulative probability. When H2 is used as the cumulative probability, the feature score Z is obtained with the sign of the return value of the inverse function of the standard normal distribution cumulative distribution function being negative. Using this feature score Z, a concept system update processing unit 130, which will be described later, obtains a user interest score (TotalZ) for the concept of “baseball”.

特徴スコア算出部120は、更新対象概念リストを生成し、概念体系更新処理部130に出力する。「更新対象概念リスト」とは、概念ID、前記で算出した特徴スコアZ、及び重みwのセットである。なお、この更新対象概念リストに出現する概念IDが、次の概念体系更新処理で更新対象のノード(概念)となる。上位概念を追加した出現概念リスト内の概念IDすべてについて、特徴スコアZと重みwを算出する。重みwは、各クラスタIDにおいて概念毎に設定される値である。   The feature score calculation unit 120 generates an update target concept list and outputs it to the concept system update processing unit 130. The “update target concept list” is a set of a concept ID, the characteristic score Z calculated above, and a weight w. The concept ID appearing in the update target concept list becomes a node (concept) to be updated in the next concept system update process. The feature score Z and the weight w are calculated for all the concept IDs in the appearance concept list to which the superordinate concept is added. The weight w is a value set for each concept in each cluster ID.

なお、重みwは、初期値w=1とし、ユーザの特徴的な操作等が有った場合に、以下のように値を変化させることができる。例えば、クライアント端末200において、ユーザに提示されたコンテンツについて、ユーザは、お気に入りコンテンツとして登録や、他ユーザへのお勧め、又はコンテンツへの評価入力ができる。クライアント端末200が、このような閲覧操作以外の操作履歴を興味分析装置100に送信できる場合には以下の処理を行う。   Note that the weight w can be changed as follows when the initial value w = 1 and a user's characteristic operation is performed. For example, with respect to the content presented to the user at the client terminal 200, the user can register as favorite content, recommend to other users, or input evaluations for the content. When the client terminal 200 can transmit an operation history other than the browsing operation to the interest analysis apparatus 100, the following processing is performed.

特徴スコア算出部120は、例えば、コンテンツがお気に入りに登録されたとき、そのコンテンツが含む全ての概念IDについて重みwをw=1.5のように増加させる。その他にも、コンテンツ閲覧時刻、閲覧時の天気、気温、湿度、季節、曜日、休日、余暇かどうか、閲覧時のユーザ位置情報、スケジューラ、日記等から収集したイベント情報に応じて重みwの値を変えることもできる。   For example, when the content is registered as a favorite, the feature score calculation unit 120 increases the weight w such that w = 1.5 for all the concept IDs included in the content. In addition to the content browsing time, browsing weather, temperature, humidity, season, day of the week, holiday, leisure time, user location information at browsing, scheduler, diary, etc., the value of weight w Can also be changed.

[概念体系更新処理部130]
図15に、概念体系更新処理部130の処理フローを示す。概念体系更新処理部130には、特徴スコア算出部120から、クライアント端末ID(もしくはユーザID)及び更新対象概念リスト{クラスタID,{概念ID,特徴スコア=Z,重み=w},…}が入力される。
[Concept System Update Processing Unit 130]
FIG. 15 shows a processing flow of the concept system update processing unit 130. The concept system update processing unit 130 receives from the feature score calculation unit 120 the client terminal ID (or user ID) and the update target concept list {cluster ID, {concept ID, feature score = Z, weight = w},. Entered.

(ステップS16:概念ノード値更新)
概念体系更新処理部130は、「更新対象概念リスト」の各概念IDのノード値を更新する。図16に概念体系更新処理部130の処理の詳細を示す。概念体系更新処理部130は、コンテンツに出現した概念(出現概念)、及びこの出現概念の上位概念の概念IDについて、図16に示す各概念iに対するユーザ興味スコア更新式を用いて、ユーザ興味スコアTotalZin,及びXi(n−1),Yi(n−1)の値を求め、図9の概念体系/ユーザ興味スコアデータベース140の、クラスタIDに対応する図11のステップS12に入力されたユーザID(クライアント端末ID)のカラムに対応するユーザ興味スコアテーブルに格納されている各値を更新する。
(Step S16: Concept node value update)
The concept system update processing unit 130 updates the node value of each concept ID in the “update target concept list”. FIG. 16 shows details of the processing of the conceptual system update processing unit 130. The concept system update processing unit 130 uses the user interest score update formula for each concept i shown in FIG. 16 for the concept that appeared in the content (appearance concept) and the concept ID of the superordinate concept of this appearance concept, and the user interest score. TotalZ in , X i (n−1) , Y i (n−1) are obtained and input to step S 12 of FIG. 11 corresponding to the cluster ID in the conceptual system / user interest score database 140 of FIG. Each value stored in the user interest score table corresponding to the user ID (client terminal ID) column is updated.

ここで、Xi(n−1)は、各概念ID(ここでは識別子iで表現)に対する、過去の(前回までの)前記更新対象概念リストの重みwの二乗の合計である。Yi(n−1)は、同様に各概念ID(ここでは識別子iで表現)に対する、過去の前記更新対象概念リストの重みwと特徴スコアZの乗算の合計である。 Here, X i (n−1) is the sum of the squares of the weights w of the update target concept list in the past (up to the previous time) for each concept ID (represented by the identifier i here). Similarly, Y i (n−1) is the sum of multiplication of the weight w of the past update target concept list and the feature score Z for each concept ID (represented by identifier i here).

この、X,Yはユーザ興味スコア(TotalZ)計算過程における中間結果を保持することとなり、省メモリ/ストレージを優先させる場合、最低限では各ノードの変数としてTotalZ,X,Yの3つの実数値を保持することで実現可能である。省メモリ/ストレージを優先させない場合は、算出した各概念、各クラスタの特徴スコアZをすべて保存することとなる。この場合は、X,Yの保存は不要となる。   X and Y hold intermediate results in the user interest score (TotalZ) calculation process. When prioritizing memory saving / storage, at least three real values of TotalZ, X, and Y are used as variables of each node. It can be realized by holding. When priority is not given to memory saving / storage, all the calculated concept scores and feature scores Z of the respective clusters are stored. In this case, storage of X and Y is not necessary.

図16において、nは、概念体系更新処理が何度目かを示す識別子である。ユーザ興味スコアTotalZを求める一連の処理は、クラスタID単位で行なわれ、この一連の処理が行なわれる単位を1度と数えるとき、nはこの一連の処理が何度目に行なわれたものであるかを示す識別子である。iは、概念IDの識別子である。Zinは、概念iの各更新処理に利用するZ値である。なお、上記Zijは一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリスト毎のZ値であり、Zij∈Zinの関係である。重みwinは、概念iの各更新処理に利用する重みである。上記重みwと同じであり、上記特徴スコア算出部120で設定したものと同様である。 In FIG. 16, n is an identifier indicating how many times the concept system update process is performed. A series of processes for obtaining the user interest score TotalZ is performed in units of cluster IDs. When the unit in which this series of processes is performed is counted once, n is the number of times this series of processes has been performed. Is an identifier. i is an identifier of a concept ID. Z in is a Z value used for each update process of concept i. Note that Z ij is a Z value for each of the list browsing content list and the detailed browsing content list, and has a relationship of Z ij εZ in . Weight w in is the weight to be used in each process of updating the concept i. The weight w is the same as that set by the feature score calculation unit 120.

例えば、winは、お気に入り登録、他ユーザとの共有等の閲覧以外の特殊な操作をユーザが行った場合、及びコンテンツ閲覧時間(閲覧開始から終了までの間隔)、コンテンツと概念の関連度合い、コンテンツ閲覧時刻、閲覧時の天気・気温・湿度・季節・曜日・休日・余暇かどうか、閲覧時のユーザ位置情報、スケジューラ・日記等から収集したイベント情報に応じて値を変化させる。その他サービス利用者、サービス運用者が特に指定した場合にも変化させる。 For example, w in the favorite registration, if the user a special operation other than the inspection of the public, such as with the other user has performed, and (interval to the end from the viewing start) content viewing time, related the degree of content and concepts, The value is changed in accordance with the content browsing time, weather / temperature / humidity / season / day of the week / holiday / leisure at the time of browsing, user location information at the time of browsing, event information collected from a scheduler / diary and the like. It is also changed when specified by other service users and service operators.

なお、一定期間過ぎた履歴の影響を低減させるため等のユーザ興味スコアの忘却は、最終更新時から現在の時刻までの時間間隔の閾値を超えた場合に、TotalZ,X,Yをそれぞれ減衰させることで実現する。
減衰の計算式の例を示す。例えば、kを減衰率(例えばk=0・8)と設定し、以下のように算出することができる。
TotalZ(減衰後)=k×TotalZ(現在)
X(減衰後)=k×X(現在)
Y(減衰後)=k×Y(現在)
Note that the forgetting of the user interest score, such as to reduce the influence of the history after a certain period, attenuates TotalZ, X, and Y, respectively, when the threshold of the time interval from the last update time to the current time is exceeded. It will be realized.
An example of an attenuation calculation formula is shown. For example, k can be set as an attenuation rate (for example, k = 0 · 8), and can be calculated as follows.
TotalZ (after attenuation) = k × TotalZ (current)
X (after attenuation) = k 2 × X (current)
Y (after attenuation) = k 2 × Y (current)

(ステップS17:下位概念ノード値更新)
さらに、概念体系更新処理部130は、「更新対象概念リスト」の各概念ID(出現概念及び上位概念)の下位概念を抽出し、下位概念のノード値を更新する。下位概念の抽出では、「更新対象概念リスト」の各概念IDについて、図9の概念体系/興味度データベース140の概念体系テーブルを参照し、子概念IDリストから概念IDのリストを抽出し、さらに各子概念IDリストの概念IDについて概念体系テーブルを参照して子概念リストを抽出する処理を繰り返す。
(Step S17: Lower concept node value update)
Further, the concept system update processing unit 130 extracts the subordinate concept of each concept ID (appearance concept and superordinate concept) in the “update target concept list”, and updates the node value of the subordinate concept. In the extraction of the subordinate concepts, for each concept ID of the “update target concept list”, the concept system table of the concept system / interest degree database 140 in FIG. 9 is referred to, and a list of concept IDs is extracted from the child concept ID list. The process of extracting the child concept list with reference to the concept system table for the concept ID of each child concept ID list is repeated.

下位概念の興味度の更新に利用する特徴スコアZは、例えば、隣接した親ノードのうち特徴スコアの絶対値が最も大きい値を利用、最も近い上位ノードの値を利用、親ノードの値を平均、または確率結合した値とする。なお、「更新対象概念リスト」のうち、上記ステップS16で更新済みの概念(コンテンツに出現した概念、及び上位概念)のユーザ興味スコアは更新しない。   The feature score Z used to update the interest level of the lower concept is, for example, the value having the largest absolute value of the feature score among the adjacent parent nodes, the value of the closest higher node, the average of the values of the parent nodes Or a probability-coupled value. In the “update target concept list”, the user interest scores of the concepts updated in step S16 (concepts that appear in the content and higher-level concepts) are not updated.

[コンテンツ評価処理部170]
図17にコンテンツ評価処理部170の処理フローを示す。コンテンツ評価処理部170には、コンテンツサーバ300のコンテンツ要求転送部360からの通知を入力として、コンテンツデータベース160のコンテンツテーブルから図7のような形式の提示コンテンツリストを読み出して以下のコンテンツ評価処理を行う。コンテンツ要求転送部360からはクライアント端末ID(もしくはユーザID)を含む、図20に示すようなコンテンツ要求データを受信する。また、上記提示コンテンツリストについては、サービス運用者もしくはサービス利用者(クライアント端末利用者)の事前設定により、過去何日以内に登録されたコンテンツのみを評価対象とするか(提示コンテンツリストに含めるか)を設定することができる。
[Content Evaluation Processing Unit 170]
FIG. 17 shows a processing flow of the content evaluation processing unit 170. The content evaluation processing unit 170 receives the notification from the content request transfer unit 360 of the content server 300, reads a presentation content list in the format shown in FIG. 7 from the content table of the content database 160, and performs the following content evaluation processing. Do. The content request transfer unit 360 receives the content request data as shown in FIG. 20 including the client terminal ID (or user ID). In addition, with regard to the above-mentioned presented content list, whether the content registered within the past number of days is to be evaluated based on the prior setting of the service operator or service user (client terminal user) (whether it is included in the presented content list) ) Can be set.

(ステップS21:分析対象概念フィルタリング)
分析対象概念フィルタリングでは、サービス運用者又はサービス利用者が、事前設定や手動等で特に分析対象の概念IDを指定した場合は、概念体系/興味度データベース140を参照し、指定された分析対象の概念IDおよび下位の概念IDのみを評価対象とする。コンテンツ評価処理部170は、入力された提示コンテンツリストが保持する概念IDについて、事前にサービス運用者又はサービス利用者が設定した条件にしたがって分析対象外とし、「フィルタリング済みコンテンツリスト」を生成する。
(Step S21: Analysis object concept filtering)
In analysis target concept filtering, when a service operator or a service user designates a concept ID of an analysis target particularly in advance or manually, the concept system / interest degree database 140 is referred to, and the specified analysis target Only concept IDs and subordinate concept IDs are evaluated. The content evaluation processing unit 170 excludes the concept ID held in the input presentation content list from the analysis target according to the conditions set in advance by the service operator or the service user, and generates a “filtered content list”.

例えば、ユーザが、野球に関するコンテンツのレコメンドを求めた場合には、図9の概念体系テーブルを参照し、野球に対応する概念IDの下位概念のみを分析対象とする。「フィルタリング済みコンテンツリスト」とは上記処理によって、各コンテンツIDに紐付けされている概念IDを事前にサービス運用者又はユーザが設定した条件にしたがって削除したコンテンツリストである。「フィルタリング済みコンテンツリスト」は、上記図7の提示コンテンツリストと同じデータ構成である。   For example, when the user requests a recommendation for content related to baseball, the concept system table in FIG. 9 is referred to, and only the subordinate concepts of the concept ID corresponding to baseball are analyzed. The “filtered content list” is a content list obtained by deleting the concept ID associated with each content ID according to the conditions set in advance by the service operator or the user by the above processing. The “filtered content list” has the same data configuration as the presented content list of FIG.

(ステップS22:スコア評価)
コンテンツ評価処理部170は、「フィルタリング済みコンテンツリスト」に含まれるコンテンツの評価スコアを算出し、図18に示すようなコンテンツスコアリストを生成する。コンテンツスコアリストは、コンテンツID、評価スコア、コンテンツ本体、及びコンテンツ登録時刻を有する。
(Step S22: Score evaluation)
The content evaluation processing unit 170 calculates the evaluation score of the content included in the “filtered content list” and generates a content score list as shown in FIG. The content score list has a content ID, an evaluation score, a content body, and a content registration time.

図19に評価スコアの算出方法の一例を示す。例えば、図19に示すコンテンツ評価式により、コンテンツxに対する評価スコアEntityZを概念iのユーザ興味スコアTotalZ、コンテンツxと概念iとの関連度w(もしくは、概念iの重要度)、及びコンテンツxに出現する概念IDの集合pを用いて算出することができる。なお、概念の識別子iは集合p内の概念IDに対応する。 FIG. 19 shows an example of a method for calculating the evaluation score. For example, according to the content evaluation formula shown in FIG. 19, the evaluation score EntityZ x for the content x is changed to the user interest score TotalZ i of the concept i, the relevance w i between the content x and the concept i (or the importance of the concept i), and It can be calculated using a set p of concept IDs appearing in the content x. The concept identifier i corresponds to the concept ID in the set p.

図19の算出で利用するユーザ興味スコア(TotalZ)は、各コンテンツに関連した概念IDについて、概念体系/ユーザ興味スコアデータベース140のユーザ興味スコアテーブル(図9)から、クライアント端末ID(もしくは、ユーザID)をもとに読み出し利用する。図19において、概念K、概念B及び概念Dが出現するコンテンツ1を評価コンテンツとした場合、概念K、概念B及び概念DのTotalZ,wを利用して評価スコアEntityZ=0.18と算出できる。一方、概念Bのみが出現するコンテンツ2を評価コンテンツとした場合、概念BのTotalZ,wを利用して評価スコアEntityZ=−0.3と算出できる。評価スコアEntityZの値が大きいコンテンツ1が優先して表示される。 The user interest score (TotalZ) used in the calculation of FIG. 19 is the client terminal ID (or user) from the user interest score table (FIG. 9) of the concept system / user interest score database 140 for the concept ID related to each content. Read out based on (ID). In FIG. 19, when the content 1 in which the concept K, the concept B, and the concept D appear is the evaluation content, the evaluation score EntityZ x = 0.18 is calculated using the TotalZ, w of the concept K, the concept B, and the concept D. it can. On the other hand, when the content 2 in which only the concept B appears is set as the evaluation content, the evaluation score EntityZ x = −0.3 can be calculated using the TotalZ, w of the concept B. Content 1 with a large value of evaluation score EntityZ x is displayed preferentially.

その他にも、評価スコアEntityZは、以下の変形例1〜3の方法により求めることができる。
変形例1としては、EntityZ=MAX(TotalZ*w)により求める。MAX(TotalZ*w)は、i∈pのTotalZ*wの最大値を返す関数とする。
In addition, the evaluation score EntityZ x can be obtained by the following methods 1 to 3.
As a first modification, it is obtained by EntityZ x = MAX (TotalZ i * w i ). MAX (TotalZ i * w i ) is a function that returns the maximum value of TotalZ i * w i for i∈p.

変形例2としては、EntityZの値は、MAX(TotalZ*w)の値が閾値を超えた場合には、MAX(TotalZ*w)の返り値とする。MAX(TotalZ*w)はi∈pのTotalZ*wの最大値を返す関数とする。閾値を超えない場合は、図19のコンテンツ評価式の結果をEntityZとする。MAX()は、はi∈pのTotalZ*wで最大値を返す関数とする。閾値はサービス運用者が設定する値とする。 The second modification, the value of EntityZ x When the value of the MAX (TotalZ i * w i) exceeds the threshold value, the return value of MAX (TotalZ i * w i) . MAX (TotalZ i * w i ) is a function that returns the maximum value of TotalZ i * w i for i∈p. If the threshold is not exceeded, the result of the content evaluation formula in FIG. 19 is set to EntityZ x . MAX () is, is a function that returns the maximum value in TotalZ i * w i of i∈p. The threshold is a value set by the service operator.

変形例3としては、TotalZが正の値のi∈pについてのみ取り出し、図19のコンテンツ評価式で統合した値をEntityZとする。
(ステップS23:コンテンツをスコア順にソート)
コンテンツ評価処理部170は、コンテンツスコアリストに含まれるコンテンツを評価スコアEntityZの降順にソートし、ソート済みコンテンツスコアリストをコンテンツスコアリスト送信部180に出力する。
As a third modified example, only the value iεp where TotalZ i is a positive value is extracted, and the value integrated by the content evaluation formula of FIG. 19 is defined as EntityZ x .
(Step S23: Sort contents in score order)
The content evaluation processing unit 170 sorts the content included in the content score list in descending order of the evaluation score EntityZ x and outputs the sorted content score list to the content score list transmission unit 180.

[ソート済みコンテンツスコアリスト送信部180]
ソート済みコンテンツスコアリスト送信部180は、コンテンツ評価処理部170から入力されるソート済みコンテンツスコアリストとクライアント端末ID(もしくはユーザID)を通信ネットワークを介してコンテンツサーバ300に送信する。
[Sorted content score list transmission unit 180]
The sorted content score list transmission unit 180 transmits the sorted content score list and client terminal ID (or user ID) input from the content evaluation processing unit 170 to the content server 300 via the communication network.

以上述べたように、上記実施形態によれば、ユーザの選択候補となる一覧リストを定義し、そこからのコンテンツ選択における概念の出現数を分析することで、各概念の出現の希少性を考慮し、且つ一覧から選ばれない概念の履歴特徴を利用することができるため、ユーザの興味を高精度に推定することが可能となる。   As described above, according to the above-described embodiment, the list of candidates for user selection is defined, and the number of appearances of concepts in content selection from there is analyzed, thereby taking into account the rarity of appearance of each concept. In addition, since it is possible to use history features of concepts that are not selected from the list, it is possible to estimate the user's interest with high accuracy.

さらに、上記ステップS15、ステップS16に示したように、特徴スコアの算出やステユーザ興味スコアの算出に際し、閲覧時のユーザの状況や閲覧操作の特徴(お気に入り登録、長時間閲覧等)などを重み係数(重みw)を介して反映することができるため、ユーザ興味スコアをさらに精度良く求めることが可能となる。   Further, as shown in steps S15 and S16, when calculating the feature score and the steer user interest score, the weighting factor is used to calculate the user's situation at the time of browsing and the characteristics of browsing operation (favorite registration, long-time browsing, etc.). Since it can reflect via (weight w), it becomes possible to obtain | require a user interest score still more accurately.

また、タクソノミ(オントロジ)等で定義された概念をメタタグとして付与したコンテンツ閲覧履歴分析において、概念出現の希少性を合理的に分析に反映することが難しかったため、従来はタクソノミ(オントロジ)構造の深さを一定する等によりコンテンツに付与する概念の抽象度を統一する等のオントロジ構造側の調整が必要があったが、本実施形態のでは概念出現の希少性を考慮するオントロジ構造によるユーザ興味スコアの更新処理により上位概念が付与されたコンテンツと、下位概念が付与されたコンテンツの閲覧履歴を統合して分析可能となるため、分析に利用するタクソノミ(オントロジ)への制約低減し、タクソノミ(オントロジ)の維持・運用・管理コストを低減することが可能となる。   In addition, in the content browsing history analysis in which the concept defined by taxonomy (ontology) etc. was added as a meta tag, it was difficult to rationally reflect the rareness of concept appearance in the analysis. Although it was necessary to adjust the ontology structure side such as unifying the abstraction level of the concept to be given to the content by fixing the thickness, etc., in this embodiment, the user interest score by the ontology structure that takes into account the rarity of concept appearance Because it is possible to integrate and analyze the browsing history of the content with the higher level concept and the content with the lower level level by the update process, the restriction on the taxonomy (ontology) used for analysis is reduced, and the taxonomy (ontology) ) Maintenance, operation, and management costs can be reduced.

さらに、ユーザ興味スコアを用いてコンテンツに対するユーザの評価スコアを算出することで、ユーザの興味に合ったコンテンツを推薦することが可能となる。
なお、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
Furthermore, by calculating the user's evaluation score for content using the user interest score, it is possible to recommend content that matches the user's interest.
Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.

100…興味分析装置、200…クライアント端末、300…コンテンツサーバ、110…履歴情報受信部、120…特徴スコア算出部、130…概念体系更新処理部、140…概念体系/ユーザ興味スコアデータベース、150…提示コンテンツリスト受信部、160…コンテンツデータベース、170…コンテンツ評価処理部、180…ソート済みコンテンツスコアリスト送信部、210…履歴情報送信部、220…履歴収集部、230…コンテンツ提示部、240…コンテンツ要求送信部、310…コンテンツ送信処理部、320…ソート済み提示コンテンツリスト受信部、330…提示コンテンツリスト送信部、340…提示コンテンツリスト入力部、350…履歴情報転送部、360…コンテンツ要求転送部。   DESCRIPTION OF SYMBOLS 100 ... Interest analysis apparatus, 200 ... Client terminal, 300 ... Content server, 110 ... History information receiving part, 120 ... Feature score calculation part, 130 ... Concept system update processing part, 140 ... Concept system / user interest score database, 150 ... Presented content list receiving unit, 160 ... content database, 170 ... content evaluation processing unit, 180 ... sorted content score list transmitting unit, 210 ... history information transmitting unit, 220 ... history collecting unit, 230 ... content presenting unit, 240 ... content Request transmission unit, 310 ... content transmission processing unit, 320 ... sorted presentation content list reception unit, 330 ... presentation content list transmission unit, 340 ... presentation content list input unit, 350 ... history information transfer unit, 360 ... content request transfer unit .

Claims (8)

コンピュータによって複数の概念に対するユーザ興味スコアを体系化した概念体系を用いてユーザの興味を分析する方法であって、
複数のコンテンツを一覧として閲覧した第1のコンテンツリストと、前記第1のコンテンツリストからコンテンツの本体を閲覧した第2のコンテンツリストとをクラスタ化するステップと、
前記クラスタ毎に、前記第1のコンテンツリストのコンテンツの総数を第1の総数と、前記第1のコンテンツリストにおいて前記概念が出現するコンテンツの数を第1の出現数と、前記第2のコンテンツリストのコンテンツの総数を第2の総数と、前記第2のコンテンツリストにおいて前記概念が出現するコンテンツの数を第2の出現数としたとき、前記第1の総数、前記第1の出現数、及び前記第2の総数の条件下で、前記第2のコンテンツリストに前記概念が出現するコンテンツの数が、前記第2の出現数以上となる第1の確率及び前記第2の出現数以下となる第2の確率を算出し、前記第1の確率及び前記第2の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する算出ステップと、
前記クラスタ毎に算出した特徴スコアを用いて前記概念に対する前記ユーザ興味スコアを更新する更新ステップと
を有することを特徴とする興味分析方法。
A method of analyzing a user's interest using a concept system in which user interest scores for a plurality of concepts are systematized by a computer,
Clustering a first content list browsing a plurality of contents as a list and a second content list browsing a content body from the first content list;
For each cluster, the total number of contents in the first content list is the first total number, the number of contents in which the concept appears in the first content list is the first appearance number, and the second content When the total number of contents in the list is the second total number and the number of contents in which the concept appears in the second content list is the second appearance number, the first total number, the first appearance number, And under the condition of the second total number, a first probability that the number of contents in which the concept appears in the second content list is greater than or equal to the second occurrence number and less than or equal to the second occurrence number. Calculating a second probability, and calculating a feature score by an inverse function of a cumulative distribution function of a standard normal distribution based on the first probability and the second probability;
And an updating step of updating the user interest score for the concept using a feature score calculated for each cluster.
前記更新ステップにおいて、前記第2のコンテンツリストのコンテンツに関するユーザの操作履歴、当該コンテンツの閲覧時間及び閲覧状況、並びに当該コンテンツと前記概念との関連度の少なくとも1つに応じて前記特徴スコアを重み付けすることをさらに特徴とする請求項1に記載の興味分析方法。   In the updating step, the feature score is weighted according to at least one of a user operation history related to the content of the second content list, a browsing time and a browsing status of the content, and a degree of association between the content and the concept. The interest analysis method according to claim 1, further comprising: 前記算出ステップにおいて、前記第1の確率及び前記第2の確率を超幾何分布により求めることを特徴とする請求項1に記載の興味分析方法。   The interest analysis method according to claim 1, wherein, in the calculating step, the first probability and the second probability are obtained by a hypergeometric distribution. 前記概念体系が前記概念間の上位概念、下位概念の関係情報を有する場合に、前記第1のコンテンツリスト及び前記第2のコンテンツリストのコンテンツに出現する出現概念の上位概念を前記概念体系から抽出し、前記上位概念が当該コンテンツに出現するものとみなして前記上位概念に対するユーザ興味スコアを更新することをさらに特徴とする請求項1記載の興味分析方法。   When the concept system has information related to the superordinate concept and subordinate concept between the concepts, the superordinate concept of the appearing concept that appears in the contents of the first content list and the second content list is extracted from the concept system. The interest analysis method according to claim 1, further comprising: updating a user interest score for the superordinate concept on the assumption that the superordinate concept appears in the content. 前記更新ステップにおいて、前記出現概念の下位概念及び前記上位概念の下位概念を前記概念体系から抽出し、前記出現概念のユーザ興味スコア及び前記上位概念のユーザ興味スコアを用いて前記下位概念のユーザ興味スコアを更新することをさらに特徴とする請求項4記載の興味分析方法。   In the updating step, the subordinate concept of the appearance concept and the subordinate concept of the superordinate concept are extracted from the concept system, and the user interest score of the subordinate concept is extracted using the user interest score of the appearance concept and the user interest score of the superordinate concept. The interest analysis method according to claim 4, further comprising updating the score. 1つ以上の概念が出現するコンテンツについて、当該コンテンツに出現する各概念の前記ユーザ興味スコアを用いて、当該コンテンツに対するユーザの評価スコアを算出する評価ステップをさらに有することを特徴とする請求項1記載の興味分析方法。   The content further includes an evaluation step of calculating a user evaluation score for the content using the user interest score of each concept that appears in the content for the content in which one or more concepts appear. The interest analysis method described. 前記評価ステップにおいて、前記コンテンツと各概念との関連度及び各概念の重要度の少なくとも1つに応じて前記ユーザ興味スコアを重み付けすることをさらに特徴とする請求項6に記載の興味分析方法。   The interest analysis method according to claim 6, wherein, in the evaluation step, the user interest score is weighted according to at least one of a degree of association between the content and each concept and an importance level of each concept. 複数の概念に対するユーザ興味スコアを体系化したデータ概念体系を用いてユーザの興味を分析する装置であって、
複数のコンテンツを一覧として閲覧した第1のコンテンツリストと、前記第1のコンテンツリストからコンテンツの本体を閲覧した第2のコンテンツリストとをクラスタ化する手段と、
前記クラスタ毎に、前記第1のコンテンツリストのコンテンツの総数を第1の総数と、前記第1のコンテンツリストにおいて前記概念が出現するコンテンツの数を第1の出現数と、前記第2のコンテンツリストのコンテンツの総数を第2の総数と、前記第2のコンテンツリストにおいて前記概念が出現するコンテンツの数を第2の出現数としたとき、前記第1の総数、前記第1の出現数、及び前記第2の総数の条件下で、前記第2のコンテンツリストに前記概念が出現するコンテンツの数が、前記第2の出現数以上となる第1の確率及び前記第2の出現数以下となる第2の確率を算出し、前記第1の確率及び前記第2の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する算出手段と、
前記クラスタ毎に算出した特徴スコアを用いて前記概念に対する前記ユーザ興味スコアを更新する更新手段と
を具備することを特徴とする興味分析装置。
An apparatus for analyzing user interests using a data concept system that systematizes user interest scores for a plurality of concepts,
Means for clustering a first content list in which a plurality of contents are browsed as a list and a second content list in which content bodies are browsed from the first content list;
For each cluster, the total number of contents in the first content list is the first total number, the number of contents in which the concept appears in the first content list is the first appearance number, and the second content When the total number of contents in the list is the second total number and the number of contents in which the concept appears in the second content list is the second appearance number, the first total number, the first appearance number, And under the condition of the second total number, a first probability that the number of contents in which the concept appears in the second content list is greater than or equal to the second occurrence number and less than or equal to the second occurrence number. Calculating means for calculating a feature score by an inverse function of a cumulative distribution function of a standard normal distribution based on the first probability and the second probability;
An interest analysis apparatus comprising: update means for updating the user interest score for the concept using a feature score calculated for each cluster.
JP2011133593A 2011-06-15 2011-06-15 Interest analysis method and interest analysis apparatus Active JP5504213B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011133593A JP5504213B2 (en) 2011-06-15 2011-06-15 Interest analysis method and interest analysis apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011133593A JP5504213B2 (en) 2011-06-15 2011-06-15 Interest analysis method and interest analysis apparatus

Publications (2)

Publication Number Publication Date
JP2013003797A true JP2013003797A (en) 2013-01-07
JP5504213B2 JP5504213B2 (en) 2014-05-28

Family

ID=47672308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011133593A Active JP5504213B2 (en) 2011-06-15 2011-06-15 Interest analysis method and interest analysis apparatus

Country Status (1)

Country Link
JP (1) JP5504213B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5519824B1 (en) * 2013-04-24 2014-06-11 日本電信電話株式会社 Interest analysis method, interest analysis apparatus, and interest analysis program
JP2014225067A (en) * 2013-05-15 2014-12-04 日本電信電話株式会社 Information selection behavior analysis apparatus, method and program
JP2014229118A (en) * 2013-05-23 2014-12-08 日本電信電話株式会社 Interest analysis system, and interest analysis device, method and program for the same
JP2016540331A (en) * 2013-11-07 2016-12-22 スキップストーン エルエルシー System and method for automatically activating reactive responses in live or stored video, audio or text content

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5519824B1 (en) * 2013-04-24 2014-06-11 日本電信電話株式会社 Interest analysis method, interest analysis apparatus, and interest analysis program
JP2014225067A (en) * 2013-05-15 2014-12-04 日本電信電話株式会社 Information selection behavior analysis apparatus, method and program
JP2014229118A (en) * 2013-05-23 2014-12-08 日本電信電話株式会社 Interest analysis system, and interest analysis device, method and program for the same
JP2016540331A (en) * 2013-11-07 2016-12-22 スキップストーン エルエルシー System and method for automatically activating reactive responses in live or stored video, audio or text content

Also Published As

Publication number Publication date
JP5504213B2 (en) 2014-05-28

Similar Documents

Publication Publication Date Title
JP5668007B2 (en) Interest analysis method, apparatus and program
JP5778255B2 (en) Method, system, and apparatus for query based on vertical search
CN105701216B (en) A kind of information-pushing method and device
CN107526807B (en) Information recommendation method and device
CN111782965A (en) Intention recommendation method, device, equipment and storage medium
JP5668010B2 (en) Information recommendation method, apparatus and program
CN111143655B (en) Method for calculating news popularity
JP5615857B2 (en) Analysis apparatus, analysis method, and analysis program
CN102667761A (en) Scalable cluster database
JP2015509222A (en) Provision of information recommendation based on the determined user group
CN105718184A (en) Data processing method and apparatus
CN101401062A (en) Method and system for determining relevant sources, querying and merging results from multiple content sources
CN102855309A (en) Information recommendation method and device based on user behavior associated analysis
JP5556711B2 (en) Category classification processing apparatus, category classification processing method, category classification processing program recording medium, category classification processing system
JP5723835B2 (en) Interest analysis method, interest analysis apparatus and program thereof
CN103365904A (en) Advertising information searching method and system
JP5504213B2 (en) Interest analysis method and interest analysis apparatus
CN113850649A (en) Customized recommendation method and recommendation system based on multi-platform user data
JP7166116B2 (en) Information processing device, information processing method, and program
JP5836210B2 (en) Influence estimation method, apparatus and program
Yigit et al. Extended topology based recommendation system for unidirectional social networks
US8700625B1 (en) Identifying alternative products
JP2013084208A (en) Method and device for analysis of degree of influence and program therefor
CN107239495A (en) Commodity and searching order methods of exhibiting based on relation chain weight
JP5723830B2 (en) Interest analysis method

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130515

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140317

R150 Certificate of patent or registration of utility model

Ref document number: 5504213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150