JP2006048287A - Information processing device and method, and program - Google Patents

Information processing device and method, and program Download PDF

Info

Publication number
JP2006048287A
JP2006048287A JP2004226789A JP2004226789A JP2006048287A JP 2006048287 A JP2006048287 A JP 2006048287A JP 2004226789 A JP2004226789 A JP 2004226789A JP 2004226789 A JP2004226789 A JP 2004226789A JP 2006048287 A JP2006048287 A JP 2006048287A
Authority
JP
Japan
Prior art keywords
metadata
matrix
vector
content
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004226789A
Other languages
Japanese (ja)
Inventor
Hiroshi Tateno
啓 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004226789A priority Critical patent/JP2006048287A/en
Publication of JP2006048287A publication Critical patent/JP2006048287A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To widely recommend contents such as contents that a user is inexperienced in. <P>SOLUTION: A matrix generation part 18 generates a meta-data matrix consisting of rows corresponding to N meta-data and columns corresponding to M contents. An LSA arithmetic part 20 subjects the meta-data matrix to singular value decomposition processing to generate its approximate matrix. A vector arithmetic part 22 clusters M column components of the approximate matrix into S clusters to generate an UPV for every S clusters. The vector arithmetic part 22 selects one or more groups of representative vectors of two clusters out of representative vectors of S clusters and generates a difference UPV between UPVs of the two clusters as to the selected one or more groups. A content recommendation part 23 recommends contents by using the difference UPV. This invention is applicable to an information processor recommending contents. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、UPVを単に使用する従来のコンテンツの推薦に比較して、より幅のあるコンテンツの推薦と、ユーザが未経験のコンテンツの推薦とを実現できる、情報処理装置および方法、並びに、プログラムに関する。   The present invention relates to an information processing apparatus and method, and a program, and in particular, realizes a wider range of content recommendation and content recommendation that the user has never experienced compared to conventional content recommendation simply using UPV. The present invention relates to an information processing apparatus and method, and a program.

近年、情報処理システムのひとつとして、ユーザにコンテンツを推薦するシステム(以下、コンテンツ推薦システムと称する)が普及してきている。   In recent years, as one of information processing systems, a system for recommending content to users (hereinafter referred to as a content recommendation system) has become widespread.

以下、従来のコンテンツ推薦システムが、コンテンツを推薦するまでの一連の処理(以下、コンテンツ推薦処理と称する)の概略について説明する。   Hereinafter, an outline of a series of processing (hereinafter referred to as content recommendation processing) until the conventional content recommendation system recommends content will be described.

ただし、説明の簡略上、1台の情報処理装置がコンテンツ推薦処理の全てを実行するとする。   However, for simplicity of explanation, it is assumed that one information processing apparatus executes all of the content recommendation processing.

はじめに、情報処理装置は、とあるコンテンツに付与されているメタデータを基底ベクトルとして、そのコンテンツをベクトル化する。なお、以下、このようなベクトルを、コンテンツベクトルと称する。   First, the information processing apparatus vectorizes the content using the metadata assigned to the content as a base vector. Hereinafter, such a vector is referred to as a content vector.

次に、情報処理装置は、このようなコンテンツベクトルを複数生成し、複数のコンテンツベクトルのそれぞれを所定の方向に順番に並べた行列、即ち、複数のコンテンツベクトルを行成分または列成分として有する行列を生成する。なお、以下、このような行列をメタデータ行列と称する。また、メタデータを基底ベクトルとして全メタデータによって張られる空間をメタデータ空間と称する。   Next, the information processing apparatus generates a plurality of such content vectors and arranges each of the plurality of content vectors in order in a predetermined direction, that is, a matrix having a plurality of content vectors as row components or column components. Is generated. Hereinafter, such a matrix is referred to as a metadata matrix. A space spanned by all metadata using the metadata as a base vector is referred to as a metadata space.

次に、情報処理装置は、このメタデータ行列の各成分のそれぞれに対して、所定の重み付け手法を利用して重み付けを行う(重み値を与える)。なお、重み付け手法としては、例えば、メタデータのコンテンツ内の登場頻度や、メタデータのコンテンツ内での網羅性や特定性によるTF/IDF法(コンテンツに含まれるメタデータの頻度:TFと、そのメタデータを含むコンテンツの個数の逆数:IDFを乗じたものを利用する手法)などを利用する重み付け手法が幅広く使用されている。   Next, the information processing apparatus weights each component of the metadata matrix using a predetermined weighting method (gives a weight value). As the weighting method, for example, the appearance frequency in the metadata content, the TF / IDF method based on the completeness and specificity in the metadata content (frequency of metadata included in the content: TF, and its A weighting method using a reciprocal of the number of contents including metadata: a method using an IDF multiplied) is widely used.

このようにして、メタデータ行列の各列成分または各行成分、即ち、コンテンツベクトルは、メタデータによって適切に重み付けされたコンテンツベクトルになる。   In this manner, each column component or each row component of the metadata matrix, that is, the content vector becomes a content vector appropriately weighted by the metadata.

さらに、情報処理装置は必要に応じて、重み付けされた1以上のコンテンツベクトルを利用して、ユーザの嗜好を示すベクトルを生成する。なお、以下、ユーザの嗜好を示すベクトルを、ユーザ嗜好ベクトル、または、UPV(User Preference Vector)と称する。   Furthermore, the information processing apparatus generates a vector indicating the user's preference by using one or more weighted content vectors as necessary. Hereinafter, a vector indicating the user's preference is referred to as a user preference vector or UPV (User Preference Vector).

そして、情報処理装置は、このUPVと、ユーザが未経験の複数のコンテンツのそれぞれに対応する特徴ベクトルとの余弦相関などの類似度をそれぞれ求め(マッチング処理を行い)、例えば、類似度の高い順にコンテンツを推薦していく。   Then, the information processing apparatus obtains similarities such as cosine correlation between the UPV and feature vectors corresponding to each of the plurality of contents that the user has not experienced (performs matching processing), for example, in descending order of similarity. Recommend content.

以上、従来のコンテンツ推薦システムにおけるコンテンツ推薦処理の概略について説明した。   The outline of the content recommendation process in the conventional content recommendation system has been described above.

ところで、近年、LSA(Latent Semantci Analysis)と呼ばれる手法を用いて次元の圧縮された空間においてマッチングを行う技術が確立されている(非特許文献1乃至3、および特許文献1参照)。このようなLSAを用いる技術は、単語間の意味的なまとまりを考慮した文書の分類や検索に関する技術として実績がある。   By the way, in recent years, a technique for performing matching in a dimension-compressed space using a technique called LSA (Latent Semantci Analysis) has been established (see Non-Patent Documents 1 to 3 and Patent Document 1). Such a technique using LSA has a track record as a technique related to document classification and retrieval in consideration of semantic grouping between words.

このようなLSAを用いる技術をコンテンツ推薦処理に適用することも可能である。   It is also possible to apply such a technique using LSA to content recommendation processing.

即ち、情報処理装置が、上述したメタデータ行列に対して特異値分解を施すと、その結果として、上述したメタデータ空間から、関連性の深いメタデータ同士がひとつの次元にまとまった概念空間が生成される。概念空間の各基底には特異値(基底の重要度)が結びついている。そこで、情報処理装置が、特異値の大きい上位の基底のみを使用(次元圧縮)してメタデータ空間への逆射影を行うと、その結果として、メタデータ間の関連性が浮かび上がった行列が生成される。なお、以下、このような行列を、近似行列と称する。   In other words, when the information processing apparatus performs singular value decomposition on the above-described metadata matrix, as a result, a conceptual space in which highly related metadata are grouped into one dimension from the above-described metadata space. Generated. Each base in the concept space is associated with a singular value (the importance of the base). Therefore, when the information processing device uses only the upper base with a large singular value (dimension compression) and performs the back projection to the metadata space, as a result, a matrix in which the relationship between the metadata is revealed Generated. Hereinafter, such a matrix is referred to as an approximate matrix.

以上の一連の処理がLSAと称されており、情報処理装置は、LSAにより生成された近似行列をメタデータ行列の変わりに利用して、コンテンツのマッチング処理を行うこともできる。
米国特許第4839853号公報 米国特許第5301109号公報 S. C. Deerwester, S. T. Dumais, T. K. Landauer, G. W. Furnas, and R. A. Harshman. “Indexing by latent semantic analysis.” Journal of the American Society of Information Science, 41 (6):391-407, 1990. 特開平11-296552号公報
The above-described series of processing is called LSA, and the information processing apparatus can also perform content matching processing by using the approximate matrix generated by LSA instead of the metadata matrix.
U.S. Pat. US Patent No. 5301109 SC Deerwester, ST Dumais, TK Landauer, GW Furnas, and RA Harshman. “Indexing by latent semantic analysis.” Journal of the American Society of Information Science, 41 (6): 391-407, 1990. Japanese Patent Laid-Open No. 11-296552

しかしながら、以上説明したような、ベクトル空間法をベースにした従来のコンテンツ推薦システムのUPV(ユーザ嗜好ベクトル)の生成手法として、ユーザが高評価を与えたコンテンツ群のコンテンツベクトルの平均によりUPVを生成する生成手法が採用されていることが多い。このような生成手法で生成されたUPVは、ユーザの多様な嗜好をなまらせたベクトルとなっており、このようなUPVを用いてコンテンツの推薦を行っても、幅のある推薦が難しいという課題があった。また、高い評価を与えたコンテンツ群を複数のグループにクラスタリングしてたとえバラエティを出したとしても、やはりユーザがまったく経験したことの無いようなコンテンツの推薦は困難であるという課題があった。   However, as described above, the UPV (user preference vector) generation method of the conventional content recommendation system based on the vector space method is used to generate the UPV based on the average of the content vectors of the content group that the user gave high evaluation. In many cases, a generation method is employed. The UPV generated by such a generation method is a vector that imitates the user's various preferences, and even if content recommendation is performed using such UPV, it is difficult to make a wide range of recommendations was there. In addition, even if a highly evaluated content group is clustered into a plurality of groups to produce a variety, there is a problem that it is difficult to recommend content that the user has never experienced.

本発明は、このような状況に鑑みてなされたものであり、UPVを単に使用する従来のコンテンツの推薦に比較して、より幅のあるコンテンツの推薦と、ユーザが未経験のコンテンツの推薦とを実現できるようにするものである。   The present invention has been made in view of such a situation. Compared to the conventional content recommendation that simply uses UPV, the present invention recommends a wider range of content recommendation and a content recommendation not experienced by the user. It can be realized.

本発明の情報処理装置は、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数のコンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成手段と、行列生成手段により生成されたメタデータ行列に対して特異値分解を施すことで、メタデータ行列の近似行列を生成する近似行列生成手段と、近似行列生成手段により生成された近似行列のうちのM個のコンテンツのそれぞれを示すM個の列成分または行成分のそれぞれをベクトルとして区分し、M個に区分されたベクトルのそれぞれを、S個(Sは、M以下の整数値)のクラスタのうちの所定の1つに分類する分類手段と、S個のクラスタのそれぞれについて、分類手段により対応するクラスタに分類されたベクトルに基づいて、対応するクラスタを代表する代表ベクトルであって、N個のメタデータを基底とする代表ベクトルを生成する代表ベクトル生成手段と、代表ベクトル生成手段により生成されたS個のクラスタの代表ベクトルの中から、2つのクラスタの代表ベクトルの組を1以上選択し、選択された1組以上のそれぞれについて、2つのクラスタの代表ベクトルの差分ベクトルを生成する差分ベクトル生成手段と、M個のコンテンツとは異なる他のコンテンツをN個のメタデータを基底としてベクトル化し、その結果得られるベクトルと、差分ベクトル生成手段により生成された1以上の差分ベクトルのうちの少なくとも1つとの類似度を演算する類似度演算手段とを備えることを特徴とする。   The information processing apparatus of the present invention is based on N (N is an integer value of 1 or more) metadata associated with at least one of a plurality of contents, and M (M is A matrix generating unit that vectorizes each of the contents of (an integer value of 1 or more) and generates a matrix having the resulting M vectors as column components or row components as a metadata matrix, and generated by the matrix generating unit By performing singular value decomposition on the metadata matrix, an approximate matrix generating means for generating an approximate matrix of the metadata matrix and each of M contents of the approximate matrix generated by the approximate matrix generating means are shown. Each of the M column components or row components is partitioned as a vector, and each of the M partitioned vectors is divided into S (S is an integer value less than or equal to M) clusters. A representative vector representing the corresponding cluster based on the vector classified into the corresponding cluster by the classification means for each of the S classification clusters and the S clusters, A representative vector generating means for generating a representative vector based on the metadata of the first and a representative vector generating means for selecting one or more pairs of representative vectors of two clusters from among the representative vectors of the S clusters generated by the representative vector generating means. For each of one or more selected sets, difference vector generation means for generating a difference vector of representative vectors of two clusters, and other contents different from M contents are vectorized based on N metadata Of the resulting vector and one or more difference vectors generated by the difference vector generation means Characterized in that it comprises a similarity calculation means for calculating at least one of similarity.

類似度演算手段により演算された1以上の類似度のうちの少なくとも1つに基づいて、他のコンテンツは、ユーザに推薦すべきコンテンツであるか否かを決定する推薦手段と、推薦手段により他のコンテンツがユーザに推薦すべきであると決定された場合、他のコンテンツをユーザに呈示する呈示手段とをさらに設けるようにすることができる。   Based on at least one of the one or more similarities calculated by the similarity calculation means, the other content is determined by the recommendation means and the recommendation means determines whether or not the content should be recommended to the user. When it is determined that the content should be recommended to the user, it is possible to further provide a presentation means for presenting the other content to the user.

本発明の情報処理方法は、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数のコンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップと、行列生成ステップの処理により生成されたメタデータ行列に対して特異値分解を施すことで、メタデータ行列の近似行列を生成する近似行列生成ステップと、近似行列生成ステップの処理により生成された近似行列のうちのM個のコンテンツのそれぞれを示す列成分または行成分のそれぞれをベクトルとして区分し、M個に区分されたベクトルのそれぞれを、S個(Sは、M以下の整数値)のクラスタのうちの所定の1つに分類する分類ステップと、S個のクラスタのそれぞれについて、分類ステップの処理により対応するクラスタに分類されたベクトルに基づいて、対応するクラスタを代表する代表ベクトルであって、N個のメタデータを基底とする代表ベクトルを生成する代表ベクトル生成ステップと、代表ベクトル生成ステップの処理により生成されたS個のクラスタの代表ベクトルの中から、2つのクラスタの代表ベクトルの組を1以上選択し、選択された1組以上のそれぞれについて、2つのクラスタの代表ベクトルの差分ベクトルを生成する差分ベクトル生成ステップと、M個のコンテンツとは異なる他のコンテンツをN個のメタデータを基底としてベクトル化し、その結果得られるベクトルと、差分ベクトル生成ステップの処理により生成された1以上の差分ベクトルのうちの少なくとも1つとの類似度を演算する類似度演算ステップとを含むことを特徴とする。   The information processing method of the present invention is based on N (N is an integer value of 1 or more) metadata associated with at least one of a plurality of contents, and M (M is A matrix generation step for vectorizing each of the contents having an integer value of 1 or more) and generating a matrix having the resulting M vectors as column components or row components as a metadata matrix, and generation by processing of the matrix generation step An approximate matrix generation step for generating an approximate matrix of the metadata matrix by performing singular value decomposition on the generated metadata matrix, and M contents of the approximate matrix generated by the processing of the approximate matrix generation step Each of the column component or the row component indicating each of the vectors is partitioned as a vector, and each of the M partitioned vectors is divided into S (S is equal to or less than M A classifying step for classifying a predetermined one of the clusters of (integer value of) and representing the corresponding cluster for each of the S clusters based on the vectors classified into the corresponding cluster by the processing of the classifying step. A representative vector generation step of generating a representative vector based on N pieces of metadata, and two representative vectors of S clusters generated by the processing of the representative vector generation step. A difference vector generation step of selecting one or more sets of cluster representative vectors, and generating a difference vector of representative vectors of two clusters for each of the selected one or more sets, and other contents different from the M contents Is vectorized using N metadata as a basis, and the resulting vector and the difference vector Characterized in that it comprises a similarity calculation step of calculating at least one of similarity of the one or more difference vectors generated by the processing of Le generating step.

本発明のプログラムは、コンピュータに実行させるプログラムであって、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数のコンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップと、行列生成ステップの処理により生成されたメタデータ行列に対して特異値分解を施すことで、メタデータ行列の近似行列を生成する近似行列生成ステップと、近似行列生成ステップの処理により生成された近似行列のうちのM個のコンテンツのそれぞれを示す列成分または行成分のそれぞれをベクトルとして区分し、M個に区分されたベクトルのそれぞれを、S個(Sは、M以下の整数値)のクラスタのうちの所定の1つに分類する分類ステップと、S個のクラスタのそれぞれについて、分類ステップの処理により対応するクラスタに分類されたベクトルに基づいて、対応するクラスタを代表する代表ベクトルであって、N個のメタデータを基底とする代表ベクトルを生成する代表ベクトル生成ステップと、代表ベクトル生成ステップの処理により生成されたS個のクラスタの代表ベクトルの中から、2つのクラスタの代表ベクトルの組を1以上選択し、選択された1組以上のそれぞれについて、2つのクラスタの代表ベクトルの差分ベクトルを生成する差分ベクトル生成ステップと、M個のコンテンツとは異なる他のコンテンツをN個のメタデータを基底としてベクトル化し、その結果得られるベクトルと、差分ベクトル生成ステップの処理により生成された1以上の差分ベクトルのうちの少なくとも1つとの類似度を演算する類似度演算ステップとを含むことを特徴とする。   The program of the present invention is a program to be executed by a computer, and is based on N (N is an integer value of 1 or more) metadata associated with at least one of the plurality of contents. A matrix generation step of vectorizing each of M contents (M is an integer value of 1 or more), and generating a matrix having the resulting M vectors as column components or row components as a metadata matrix; An approximate matrix generation step for generating an approximate matrix of the metadata matrix by performing singular value decomposition on the metadata matrix generated by the matrix generation step processing, and an approximation matrix generated by the processing of the approximate matrix generation step Each of the column component or row component indicating each of the M contents is divided into a vector and divided into M pieces. A classification step for classifying each of the vectors into a predetermined one of S clusters (S is an integer value less than or equal to M), and a cluster corresponding to each of the S clusters by processing of the classification step Based on the vectors classified into the above, the representative vector representing the corresponding cluster, which is generated by the representative vector generation step for generating the representative vector based on the N pieces of metadata and the processing of the representative vector generation step. A difference vector that selects one or more pairs of representative vectors of two clusters from the representative vectors of S clusters and generates a difference vector of representative vectors of the two clusters for each of the selected one or more sets. Generation step and other content different from M content vectors based on N metadata And, to the resulting and vector, characterized in that it comprises a similarity calculation step of calculating at least one of similarity of the one or more difference vectors generated by the processing of the difference vector generation step.

本発明の情報処理装置および方法、並びにプログラムにおいては、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータが基底とされて、複数のコンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれがベクトル化され、その結果得られるM個のベクトルを列成分または行成分とする行列がメタデータ行列として生成される。また、そのメタデータ行列に対して特異値分解が施されて、メタデータ行列の近似行列が生成される。次に、近似行列のうちのM個のコンテンツのそれぞれを示す列成分または行成分のそれぞれがベクトルとして区分され、M個に区分されたベクトルのそれぞれが、S個(Sは、M以下の整数値)のクラスタのうちの所定の1つに分類され、さらに、S個のクラスタのそれぞれについて、対応するクラスタに分類されたベクトルに基づいて、対応するクラスタを代表する代表ベクトルであって、N個のメタデータを基底とする代表ベクトルが生成される。そして、S個のクラスタの代表ベクトルの中から、2つのクラスタの代表ベクトルの組が1以上選択され、選択された1組以上のそれぞれについて、2つのクラスタの代表ベクトルの差分ベクトルが生成される。そして、M個のコンテンツとは異なる他のコンテンツがN個のメタデータを基底としてベクトル化され、その結果得られるベクトルと、1以上の差分ベクトルのうちの少なくとも1つとの類似度が演算される。   In the information processing apparatus, method, and program of the present invention, a plurality of contents are based on N (N is an integer value of 1 or more) metadata associated with at least one of the plurality of contents. Each of the M contents (M is an integer value of 1 or more) is vectorized, and a matrix having the resulting M vectors as column components or row components is generated as a metadata matrix. In addition, singular value decomposition is performed on the metadata matrix to generate an approximate matrix of the metadata matrix. Next, each of the column component or row component indicating each of the M contents in the approximate matrix is partitioned as a vector, and each of the M partitioned vectors is S (S is an integer equal to or less than M). A representative vector representing a corresponding cluster based on a vector classified into a corresponding cluster for each of the S clusters, and N A representative vector based on each piece of metadata is generated. Then, one or more pairs of representative vectors of two clusters are selected from the representative vectors of S clusters, and a difference vector of the representative vectors of the two clusters is generated for each of the selected one or more sets. . Then, other contents different from the M contents are vectorized based on the N metadata, and the similarity between the resulting vector and at least one of the one or more difference vectors is calculated. .

以上のごとく、本発明によれば、コンテンツのメタデータを取り扱うことができる。特に、コンテンツベクトルがクラスタリングされ、各クラスタの代表ベクトルが例えばUPVとして生成された場合、2つのクラスタのUPVの差分ベクトル(後述する差分UPV)を生成することができる。従って、この差分ベクトルを使用して類似度を演算することで、UPVを単に使用する従来のコンテンツの推薦に比較して、より幅のあるコンテンツの推薦と、ユーザが未経験のコンテンツの推薦とを実現できる。   As described above, according to the present invention, content metadata can be handled. In particular, when the content vectors are clustered and the representative vector of each cluster is generated as, for example, a UPV, a difference vector of UPVs of two clusters (a difference UPV described later) can be generated. Therefore, by calculating the degree of similarity using this difference vector, a wider range of content recommendations and a user inexperienced content recommendation are compared with the conventional content recommendation that simply uses UPV. realizable.

以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。   Embodiments of the present invention will be described below. Correspondences between constituent elements described in the claims and specific examples in the embodiments of the present invention are exemplified as follows. This description is to confirm that specific examples supporting the invention described in the claims are described in the embodiments of the invention. Therefore, even though there are specific examples that are described in the embodiment of the invention but are not described here as corresponding to the configuration requirements, the specific examples are not included in the configuration. It does not mean that it does not correspond to a requirement. On the contrary, even if a specific example is described here as corresponding to a configuration requirement, this means that the specific example does not correspond to a configuration requirement other than the configuration requirement. not.

さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。   Further, this description does not mean that all the inventions corresponding to the specific examples described in the embodiments of the invention are described in the claims. In other words, this description is an invention corresponding to the specific example described in the embodiment of the invention, and the existence of an invention not described in the claims of this application, that is, in the future, a divisional application will be made. Nor does it deny the existence of an invention added by amendment.

本発明によれば、情報処理装置が提供される。この情報処理装置(図1の情報処理装置であって、後述する第3実施形態の情報処理装置)は、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数の前記コンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成手段(例えば、図1(図9)の行列生成部18。重み付け処理部19を加えてもよい)と、前記行列生成手段により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成手段(例えば、図1(図9)のLSA演算部20)と、前記近似行列生成手段により生成された前記近似行列のうちのM個の前記コンテンツのそれぞれを示すM個の列成分または行成分のそれぞれをベクトルとして区分し、M個に区分された前記ベクトルのそれぞれを、S個(Sは、M以下の整数値)のクラスタのうちの所定の1つに分類する分類手段(図10のステップS44の処理を実行する図1(図9)のベクトル演算部(クラスタリング部)22)と、S個の前記クラスタのそれぞれについて、前記分類手段により対応するクラスタに分類されたベクトルに基づいて、対応する前記クラスタを代表する代表ベクトルであって、N個の前記メタデータを基底とする前記代表ベクトルを生成する代表ベクトル生成手段(図10のステップS45の処理を実行する図1(図9)のベクトル演算部(クラスタリング部)22)と、前記代表ベクトル生成手段により生成されたS個の前記クラスタの前記代表ベクトルの中から、2つのクラスタの代表ベクトルの組を1以上選択し、選択された1組以上のそれぞれについて、2つのクラスタの代表ベクトルの差分ベクトル(例えば、後述する差分UPV)を生成する差分ベクトル生成手段(図10のステップS45の処理を実行する図1(図9)のベクトル演算部(クラスタリング部)22)と、M個の前記コンテンツとは異なる他のコンテンツをN個の前記メタデータを基底としてベクトル化し、その結果得られるベクトルと、前記差分ベクトル生成手段により生成された1以上の前記差分ベクトルのうちの少なくとも1つとの類似度を演算する類似度演算手段(例えば、後述する差分UPV)を生成する差分ベクトル生成手段(図10のステップS47の処理を実行する図1(図9)のベクトル演算部(マッチング部)22)とを備えることを特徴とする。   According to the present invention, an information processing apparatus is provided. This information processing apparatus (the information processing apparatus of FIG. 1 and the information processing apparatus of the third embodiment described later) is associated with at least one of a plurality of contents (N is an integer of 1 or more). Each of the M contents (M is an integer value of 1 or more) of the plurality of contents is vectorized based on the (numerical) metadata, and the resulting M vectors are column components or row components. Matrix generating means for generating a matrix to be processed as a metadata matrix (for example, the matrix generating section 18 in FIG. 1 (FIG. 9), the weighting processing section 19 may be added), and the metadata generated by the matrix generating means By performing singular value decomposition on the matrix, approximate matrix generation means (for example, the LSA operation unit 20 in FIG. 1 (FIG. 9)) that generates an approximate matrix of the metadata matrix, and the approximate matrix generation means Each of M column components or row components indicating each of the M pieces of the contents of the generated approximate matrix is partitioned as a vector, and each of the M partitioned vectors is defined as S (S Is a classifying means for classifying into a predetermined one of clusters having an integer value less than or equal to M (the vector calculation unit (clustering unit) 22 in FIG. 1 (FIG. 9) executing the processing of step S44 in FIG. 10) and , For each of the S clusters, a representative vector representing the corresponding cluster based on the vector classified into the corresponding cluster by the classification means, the N based on the metadata Representative vector generation means for generating a representative vector (vector operation unit (clustering unit) 22 in FIG. 1 (FIG. 9) that executes the processing of step S45 in FIG. 10) , One or more representative vector sets of two clusters are selected from the representative vectors of the S number of clusters generated by the representative vector generating means, and two clusters are selected for each of the selected one or more sets. Difference vector generation means for generating a difference vector (for example, a difference UPV described later) of the representative vector (vector operation unit (clustering unit) 22 of FIG. 1 (FIG. 9) that executes the process of step S45 of FIG. 10); Another content different from the M content is vectorized based on the N metadata, and the resulting vector and at least one of the one or more difference vectors generated by the difference vector generation means A difference vector generator for generating a similarity calculation means (for example, a differential UPV described later) for calculating the similarity with one Characterized in that it comprises (vector arithmetic unit of FIG. 1 which executes a process at step S47 in FIG. 10 (9) (matching section) 22) and.

この情報処理装置は、前記類似度演算手段により演算された1以上の前記類似度のうちの少なくとも1つに基づいて、前記他のコンテンツは、ユーザに推薦すべきコンテンツであるか否かを決定する推薦手段(例えば、図1(図9)のコンテンツ推薦部23)と、前記推薦手段により前記他のコンテンツが前記ユーザに推薦すべきであると決定された場合、前記他のコンテンツを前記ユーザに呈示する呈示手段(例えば、図1(図9)のユーザインタフェース部11)とをさらに設けるようにすることができる。   The information processing apparatus determines whether or not the other content is content to be recommended to a user based on at least one of the one or more similarities calculated by the similarity calculating means. Recommending means (for example, the content recommending unit 23 in FIG. 1 (FIG. 9)) and the recommending means determine that the other content should be recommended to the user, the other content is selected by the user. Presenting means (for example, the user interface unit 11 in FIG. 1 (FIG. 9)) to be presented can be further provided.

本発明によれば、情報処理方法が提供される。この情報処理方法(例えば、図10の「クラスタリングされたUPV群の差分を利用した推薦処理」に対応する方法は、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数の前記コンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップ(例えば、図10のステップS41の処理。ステップS42の処理を含めてもよい)と、前記行列生成ステップの処理により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成ステップ(例えば、図10のステップS43の処理)と、前記近似行列生成ステップの処理により生成された前記近似行列のうちのM個の前記コンテンツのそれぞれを示す列成分または行成分のそれぞれをベクトルとして区分し、M個に区分された前記ベクトルのそれぞれを、S個(Sは、M以下の整数値)のクラスタのうちの所定の1つに分類する分類ステップ(例えば、図10のステップS44の処理)と、S個の前記クラスタのそれぞれについて、前記分類ステップの処理により対応するクラスタに分類されたベクトルに基づいて、対応する前記クラスタを代表する代表ベクトルであって、N個の前記メタデータを基底とする前記代表ベクトルを生成する代表ベクトル生成ステップ(例えば、図10のステップS45の処理)と、前記代表ベクトル生成ステップの処理により生成されたS個の前記クラスタの前記代表ベクトルの中から、2つのクラスタの代表ベクトルの組を1以上選択し、選択された1組以上のそれぞれについて、2つのクラスタの代表ベクトルの差分ベクトルを生成する差分ベクトル生成ステップ(例えば、図10のステップS46の処理)と、M個の前記コンテンツとは異なる他のコンテンツをN個の前記メタデータを基底としてベクトル化し、その結果得られるベクトルと、前記差分ベクトル生成ステップの処理により生成された1以上の前記差分ベクトルのうちの少なくとも1つとの類似度を演算する類似度演算ステップ(例えば、図10のステップS47の処理)とを含むことを特徴とする。   According to the present invention, an information processing method is provided. A method corresponding to this information processing method (for example, the “recommendation process using a difference between clustered UPV groups” in FIG. 10) is N (N is 1 or more) associated with at least one of a plurality of contents. Of the plurality of contents (M is an integer value of 1 or more), and the resulting M vectors are column components or rows. A matrix generation step for generating a matrix as a component as a metadata matrix (for example, the process of step S41 in FIG. 10 may include the process of step S42), and the metadata generated by the process of the matrix generation step An approximate matrix generating step for generating an approximate matrix of the metadata matrix by performing singular value decomposition on the matrix (for example, step S4 in FIG. 10). 3) and the column component or the row component indicating each of the M contents of the approximate matrix generated by the process of the approximate matrix generation step as a vector and divided into M elements. A classification step (for example, the process of step S44 in FIG. 10) for classifying each of the vectors into a predetermined one of S clusters (S is an integer value less than or equal to M), and S For each of the clusters, a representative vector representing the corresponding cluster based on the vector classified into the corresponding cluster by the processing of the classification step, wherein the representative vector based on N pieces of the metadata is A representative vector generation step to be generated (for example, the process of step S45 in FIG. 10) and the process of the representative vector generation step One or more sets of representative vectors of two clusters are selected from the representative vectors of the S number of clusters, and a difference vector of representative vectors of the two clusters is generated for each of the selected one or more sets. A difference vector generation step (for example, the process of step S46 of FIG. 10), and other contents different from the M pieces of content are vectorized based on the N pieces of metadata, and the resulting vector, A similarity calculation step (for example, the process of step S47 in FIG. 10) for calculating the similarity with at least one of the one or more difference vectors generated by the process of the difference vector generation step. To do.

本発明によれば、プログラムが提供される。このプログラムは、上述した本発明の情報処理方法に対応するプログラムであって、例えば、図19のコンピュータにより実行される。   According to the present invention, a program is provided. This program is a program corresponding to the information processing method of the present invention described above, and is executed by, for example, the computer of FIG.

以上説明したように、本発明においては、コンテンツとそのメタデータとが処理対象になる。   As described above, in the present invention, content and its metadata are to be processed.

ここで注目すべき点は、本発明におけるコンテンツとメタデータとは、即ち、本発明で処理可能なコンテンツとメタデータとは、一般的に称されるコンテンツとメタデータと比較して広義な概念であるという点である。   What should be noted here is that the contents and metadata in the present invention, that is, the contents and metadata that can be processed in the present invention are broad concepts compared to the contents and metadata that are generally called. It is a point.

即ち、本発明におけるコンテンツとは、一般的にコンテンツと称されているテレビジョン放送番組、映画、写真、楽曲等(動画像、静止画像、若しくは音声、または、それらの組合せ等)の他、文書、商品(物品含)、会話等のユーザが使用可能なソフトウエアまたはハードウエアの全てを指す広い概念である。ただし、コンテンツが物品(ハードウエア)の場合、例えば、その物品が動画像や静止画像等に射影されてデータ化されたものが、コンテンツデータとして使用される。   In other words, the content in the present invention includes a television broadcast program, a movie, a photograph, a song, etc. (moving image, still image, audio, or a combination thereof) generally called a content, a document It is a broad concept that refers to all software or hardware that can be used by a user, such as goods (including articles) and conversation. However, when the content is an article (hardware), for example, data obtained by projecting the article onto a moving image or a still image is used as the content data.

なお、ここでは、コンテンツとコンテンツデータとを個々に区別する必要がない場合、それらをまとめてコンテンツと称する。   Here, when there is no need to distinguish content and content data individually, they are collectively referred to as content.

また、本発明におけるメタデータとは次のような情報を指す。即ち、本発明におけるコンテンツとは、上述したように、一般的なコンテンツのみならず、ユーザの私的な文書(例えばメール)等も含まれる。従って、本発明におけるメタデータとは、番組メタデータ等の一般的なメタデータを単に指すのではなく、本発明におけるコンテンツ(幅広い概念のコンテンツ)自身若しくはその一部分、またはそのコンテンツの属性等が単語化された情報(数値も単語化された情報の1つとして捉える)等も指す広い概念である。換言すると、本発明におけるコンテンツの1以上の特徴を示す情報であれば、その情報の全てがメタデータになり得る。   The metadata in the present invention refers to the following information. That is, as described above, the content in the present invention includes not only general content but also a user's private document (for example, mail). Therefore, the metadata in the present invention does not simply indicate general metadata such as program metadata, but the content (a broad concept of content) in the present invention itself or a part thereof, or the attribute of the content is a word. It is a broad concept that refers to digitized information (numerical values are also regarded as one of worded information). In other words, if it is information indicating one or more characteristics of the content in the present invention, all of the information can be metadata.

具体的には例えば、コンテンツの中には、上述したテレビジョン放送番組、映画、音楽の他、Webページ、メール、Web掲示板、書籍なども含まれる。   Specifically, for example, the content includes a web page, mail, a web bulletin board, a book, and the like in addition to the above-described television broadcast program, movie, and music.

この場合、テレビジョン放送番組のメタデータの種類としては、例えば、放送時間、出演者、スタッフ、ジャンル、チャンネルなどが挙げられる。映画のメタデータの種類としては、例えば、放映時間、出演者、スタッフ、ジャンル、配給元などが挙げられる。音楽のメタデータの種類としては、例えば、アーティスト名、ジャンル・楽器・リズム・ムードなどが挙げられる。Webページのメタデータの種類としては、例えば、作成者、リンク、被リンク、URL(地域etc.)、出現単語などが挙げられる。メールのメタデータの種類としては、送受信者、送受信日時、出現単語などが挙げられる。Web掲示板のメタデータの種類としては、書き込み者、書き込み日時、出現単語など、書籍であれば著者、出版社、出版日時、出現単語などが挙げられる。   In this case, examples of the metadata type of the television broadcast program include broadcast time, performers, staff, genre, and channel. Examples of movie metadata include airing time, performers, staff, genres, distributors, and the like. Examples of music metadata include artist names, genres, musical instruments, rhythms, moods, and the like. Examples of web page metadata include creators, links, linked links, URLs (regions etc.), appearance words, and the like. Examples of mail metadata include sender / receiver, transmission / reception date and time, and appearance words. The types of metadata on the Web bulletin board include authors, publishers, publication dates, and appearance words in the case of books.

次に、図面を参照して、以上のような広義のコンテンツとメタデータとを取り扱うことが可能な、本発明が適用される情報処理システムの実施の形態例について説明する。   Next, an exemplary embodiment of an information processing system to which the present invention is applicable, which can handle content and metadata in a broad sense as described above, will be described with reference to the drawings.

図1は、本発明が適用される情報処理システムの機能的構成例を示している。   FIG. 1 shows a functional configuration example of an information processing system to which the present invention is applied.

図1に示されるように、この情報処理システムには、ユーザインタフェース部11乃至情報伝送部24が設けられている。   As shown in FIG. 1, the information processing system includes a user interface unit 11 to an information transmission unit 24.

ユーザインタフェース部11は、ユーザがコンテンツを経験するための出力装置と、コンテンツに対する操作をユーザが行うための入力装置とで構成される。具体的には例えば、出力装置としては、ディスプレイやスピーカなどが挙げられる。入力装置としては、キーボード、マウス、リモコン、タッチパネルなどが挙げられる。   The user interface unit 11 includes an output device for a user to experience content and an input device for the user to perform operations on the content. Specifically, examples of the output device include a display and a speaker. Examples of the input device include a keyboard, a mouse, a remote controller, and a touch panel.

ユーザプロファイル記憶部12は、ユーザが過去に経験したコンテンツへのポインタ(ID番号など)と、それに対する評価などの情報を記憶する。なお、この評価は、ユーザがユーザインタフェース部11を利用して入力したものである。   The user profile storage unit 12 stores information such as pointers (ID numbers and the like) to contents that the user has experienced in the past and evaluations on the pointers. This evaluation is input by the user using the user interface unit 11.

従って、他のブロックは、ユーザプロファイル記憶部12に記憶された各種情報を参照することで、所望のコンテンツをコンテンツ記憶部17から読み出したり、それに関連付けられたメタデータをメタデータ記憶部18から読み出すことができる。   Therefore, the other blocks refer to various types of information stored in the user profile storage unit 12 to read out desired content from the content storage unit 17 and read out metadata associated therewith from the metadata storage unit 18. be able to.

ユーザ辞書記憶部13は、ユーザが経験したコンテンツの頻出メタデータや、不要なメタデータを記憶する。なお、頻出メタデータと不要なメタデータとの詳細については後述する。また、ユーザ辞書記憶部13には、ユーザ固有のメタデータに対する重みなどが記憶されることもある。このユーザ辞書記憶部13においては、ユーザインタフェース部11、コンテンツ推薦部16、メタデータ抽出部22などとデータの授受が行われ、任意の数の任意のデータの追加、削除、および参照のいずれもが自在に可能であるとする。   The user dictionary storage unit 13 stores frequent metadata of content experienced by the user and unnecessary metadata. Details of frequent metadata and unnecessary metadata will be described later. In addition, the user dictionary storage unit 13 may store a weight for user-specific metadata. In the user dictionary storage unit 13, data is exchanged with the user interface unit 11, the content recommendation unit 16, the metadata extraction unit 22, and the like, and any addition, deletion, or reference of any number of arbitrary data is performed. Is freely possible.

一般辞書記憶部14は、ユーザ共通のメタデータとして、例えば、全出現メタデータや、全ユーザに共通して不要なメタデータを記憶する。また、一般辞書記憶部14には、ユーザ共通のメタデータに対する重みなどが記憶されることもある。この一般辞書記憶部14も、ユーザインタフェース部11、コンテンツ推薦部16、メタデータ抽出部22などとデータをやり取りし、任意のデータの追加、削除、および参照のいずれもが自在に可能であるとする。   The general dictionary storage unit 14 stores, for example, all appearance metadata and unnecessary metadata common to all users as metadata common to users. Further, the general dictionary storage unit 14 may store weights for metadata common to users. The general dictionary storage unit 14 also exchanges data with the user interface unit 11, the content recommendation unit 16, the metadata extraction unit 22, and the like, and can freely add, delete, and refer to arbitrary data. To do.

コンテンツ記憶部15は、ユーザに提供可能なコンテンツ、即ち例えば、映像、音楽、文章、Web等などを記憶する。コンテンツ記憶部15の主機能は、コンテンツ推薦部18からの要求に対して、データをコンテンツ推薦部18に提供する機能である。コンテンツ記憶部15に記憶される各コンテンツにはID番号などの識別子が付加されている。また、コンテンツ記憶部15においては、任意の数の任意のコンテンツの追加、削除、および参照が自在に可能であるとする。   The content storage unit 15 stores content that can be provided to the user, for example, video, music, text, Web, and the like. The main function of the content storage unit 15 is a function of providing data to the content recommendation unit 18 in response to a request from the content recommendation unit 18. An identifier such as an ID number is added to each content stored in the content storage unit 15. In addition, it is assumed that the content storage unit 15 can freely add, delete, and refer to an arbitrary number of arbitrary contents.

メタデータ記憶部16は、コンテンツ記憶部15に記憶されたコンテンツに対応するメタデータを記憶する。なお、メタデータを記憶するとは、メタデータそのものを単に記憶するだけではなく、上述したID番号などの識別子で識別可能な各コンテンツに対して任意個数のメタデータが関連付けられており、そのコンテンツにおける各メタデータのそれぞれの頻度やヒューリスティックに決められた重みのそれぞれを記憶することも指す。   The metadata storage unit 16 stores metadata corresponding to the content stored in the content storage unit 15. Note that storing metadata not only stores the metadata itself but also associates an arbitrary number of metadata with each content that can be identified by an identifier such as the ID number described above. It also refers to storing each frequency of each metadata and each heuristically determined weight.

以上説明したユーザプロファイル記憶部12乃至メタデータ記憶部16のそれぞれは、例えばハードディスク等のメモリの一領域として構成される。   Each of the user profile storage unit 12 to the metadata storage unit 16 described above is configured as an area of a memory such as a hard disk.

これに対して、次に説明するメタデータ取得部17乃至コンテンツ推薦部23のそれぞれは、構成が可能であれば、ソフトウエアで構成してもよいし、ハードウエアで構成してもよいし、或いは、それらの組合せで構成してもよい。   On the other hand, each of the metadata acquisition unit 17 to the content recommendation unit 23 to be described below may be configured by software or hardware if possible. Or you may comprise by those combination.

メタデータ取得部17は、上述したメタデータ記憶部16に記憶させるべきメタデータを取得し、メタデータ記憶部16に記憶させる。例えば、コンテンツが文章の場合には、メタデータ取得部15は、例えば、その文章に登場している単語を抽出し、その単語の出現頻度などを解析し、各単語のそれぞれとそれらの出現頻度とを関連付けてメタデータ記憶部16に記憶させる。   The metadata acquisition unit 17 acquires metadata to be stored in the metadata storage unit 16 described above and stores the metadata in the metadata storage unit 16. For example, when the content is a sentence, the metadata acquisition unit 15 extracts, for example, a word appearing in the sentence, analyzes the appearance frequency of the word, and each of the words and their appearance frequencies. Are stored in the metadata storage unit 16 in association with each other.

行列生成部18は、複数のコンテンツのそれぞれを表す上述したコンテンツベクトルを集積し、各コンテンツベクトルを例えば列成分として有するメタデータ行列を生成する。なお、行列生成部18では、重み付けなどの処理は行われない。   The matrix generation unit 18 accumulates the above-described content vectors representing each of a plurality of contents, and generates a metadata matrix having each content vector as a column component, for example. Note that the matrix generation unit 18 does not perform processing such as weighting.

重み付け処理部19は、行列生成部18により生成されたメタデータ行列に対して、TF/IDFなどの各種アルゴリズムによって重み付けを行う。なお、重み付け処理部19の重み付け処理のタイミングは、特に限定されず、後述するLSA演算部20のLSA演算処理の前でもよいし後でもよい。   The weighting processing unit 19 weights the metadata matrix generated by the matrix generating unit 18 using various algorithms such as TF / IDF. Note that the timing of the weighting process of the weighting processing unit 19 is not particularly limited, and may be before or after the LSA calculation process of the LSA calculation unit 20 described later.

LSA演算部20は、行列生成部18により生成されたメタデータ行列、または、重み付け処理部19により各成分が重み付けされたメタデータ行列に対して、LSA演算を実行する。ここでのLSA演算とは、次の第1の処理乃至第3の処理を指す。   The LSA operation unit 20 performs an LSA operation on the metadata matrix generated by the matrix generation unit 18 or the metadata matrix in which each component is weighted by the weighting processing unit 19. Here, the LSA calculation refers to the following first to third processes.

第1の処理とは、特異値分解を実行して射影行列を生成する処理である。   The first process is a process for generating a projection matrix by performing singular value decomposition.

第2の処理とは、第1の処理により生成された射影行列によって、メタデータ行列の各列成分、即ち、各コンテンツベクトル(群)を概念空間に射影するである。   The second process is to project each column component of the metadata matrix, that is, each content vector (group), into the concept space by the projection matrix generated by the first process.

第3の処理とは、メタデータ行列の近似行列、即ち、メタデータ行列に対して、次元が適切に圧縮された近似行列を生成する処理である。   The third process is a process for generating an approximate matrix of a metadata matrix, that is, an approximate matrix whose dimensions are appropriately compressed with respect to the metadata matrix.

以下、LSA演算についてさらに詳しく説明する。   Hereinafter, the LSA calculation will be described in more detail.

例えばいま、N行M列のメタデータ行列Dが、行列生成部18または重み付け処理部19からLSA演算部20に供給されたとする。   For example, suppose that a metadata matrix D with N rows and M columns is supplied from the matrix generation unit 18 or the weighting processing unit 19 to the LSA calculation unit 20.

この場合、LSA演算部20は、第1の処理のひとつとして、N行M列のメタデータ行列Dに対して特異値分解を施すことで、メタデータ行列Dを次の式(1)を満たす成分行列U,Σ,Vのそれぞれに分解する。なお、式(1)において、成分行列UはN行N列の左特異ベクトルを、成分行列VはM行M列の右特異ベクトルを、成分行列ΣはN行M列の特異行列を、それぞれ示している。また、V〜は成分行列Vの転置行列を示している。   In this case, as one of the first processes, the LSA computing unit 20 performs singular value decomposition on the metadata matrix D of N rows and M columns, thereby satisfying the following equation (1) for the metadata matrix D. Decompose into component matrices U, Σ, and V. In Equation (1), the component matrix U is an N-row N-column left singular vector, the component matrix V is an M-row M-column right singular vector, and the component matrix Σ is an N-row M-column singular matrix. Show. V˜ represents a transposed matrix of the component matrix V.

D = UΣV~ ・・・(1)   D = UΣV ~ (1)

ここで、メタデータ行列Dのランクをr(rは、N,M以下の整数値)とすると、成分行列Σは、r個の特異値が対角線上の要素として並び、他の要素は全て0の行列となる。また、成分行列Uの最初のr個の列成分(左特異ベクトル)が正規直交基底であり、左から順に重要な列成分であるので、k個(kは、rより小さい整数値)の左特異ベクトルを使って、各コンテンツベクトルを表現する(射影する)ことで最良の近似ができる。   Here, if the rank of the metadata matrix D is r (r is an integer value less than or equal to N, M), the component matrix Σ has r singular values arranged as diagonal elements, and the other elements are all 0. Is a matrix of In addition, since the first r column components (left singular vectors) of the component matrix U are orthonormal basis and are important column components in order from the left, k (k is an integer value smaller than r) left The best approximation can be achieved by expressing (projecting) each content vector using a singular vector.

そこで、LSA演算部20は、第1の処理のひとつとして、成分行列Uの先頭のk個の列成分(左特異ベクトル)からなる射影行列(以下、Ukと記述する)、即ち、N行k列の射影行列Ukを生成する。 Therefore, as one of the first processes, the LSA arithmetic unit 20 performs a projection matrix (hereinafter referred to as U k ) composed of the first k column components (left singular vectors) of the component matrix U, that is, N rows. A k-column projection matrix U k is generated.

次に、LSA演算部20は、第2の処理として、メタデータ行列Dの各列成分のそれぞれ、即ち、各コンテンツベクトル(N次元)に対して、この射影行列Ukの転置行列を左から掛けることで、k次元に次元削減された各コンテンツベクトルのそれぞれ(各コンテンツベクトルの近似ベクトルのそれぞれ)を生成する。即ち、LSA演算部20は、各コンテンツベクトルをk次元の概念空間に射影する。換言すると、LSA演算部20は、第1の処理で射影行列Ukを生成することで、概念空間を生成しているとも言える。 Next, as a second process, the LSA computing unit 20 applies the transposed matrix of the projection matrix U k from the left to each column component of the metadata matrix D, that is, each content vector (N dimension). By multiplying, each content vector reduced in dimension to k dimensions (each approximate vector of each content vector) is generated. That is, the LSA computing unit 20 projects each content vector onto a k-dimensional conceptual space. In other words, it can be said that the LSA operation unit 20 generates the concept space by generating the projection matrix U k in the first process.

また、LSA演算部20は、第3の処理のひとつとして、成分行列Vについても同様に、最初のk 個の右特異ベクトルを用いるとして、成分行列Vの先頭のk個の列成分(右特異ベクトル)からなる行列(以下、Vkと称する)、即ち、M行k列の行列Vkを生成する。 In addition, as one of the third processes, the LSA arithmetic unit 20 similarly uses the first k right singular vectors for the component matrix V, and uses the first k column components (right singular) of the component matrix V. A matrix (hereinafter referred to as “V k ”), that is, a matrix V k having M rows and k columns is generated.

さらに、LSA演算部20は、第3の処理のひとつとして、成分行列Σの先頭のk個の列成分のうちの1行乃至k行までの要素(成分行列Σのうちの、k×k個の要素からなる左上成分)からなる行列(以下、Σと称する)、即ち、k行k列の行列Σを生成する。 Further, as one of the third processes, the LSA arithmetic unit 20 performs the elements from 1 to k rows (k × k of the component matrix Σ) of the first k column components of the component matrix Σ. Matrix (hereinafter referred to as Σ k ), that is, a matrix Σ k having k rows and k columns.

そして、LSA演算部20は、第3の処理のひとつとして、次の式(2)の右辺を演算することで、ランクがkに縮退した近似行列Dkを生成する。なお、式(2)において、Vk~は成分行列Vkの転置行列を示している。 Then, as one of the third processes, the LSA computing unit 20 computes the right side of the following equation (2) to generate an approximate matrix D k whose rank is reduced to k . In Equation (2), V k ~ represents a transposed matrix of the component matrix V k .

Dk= UkΣkk~ ・・・(2) D k = U k Σ k V k ~ (2)

以上、LSA演算部20により実行されるLSA演算について説明した。   The LSA calculation executed by the LSA calculation unit 20 has been described above.

メタデータ抽出部21は、重み付け処理部19で各成分が重み付けされたメタデータ行列Dの各成分値、或いは、LSA演算部20のLSA演算により生成された近似行列Dの各成分値に対して、所定の演算を施し、その演算結果に基づいて、特徴のあるメタデータを抽出しする。メタデータ抽出部21は、さらに、抽出されたメタデータのID番号などを他のブロックに適宜通知する。 The metadata extraction unit 21 applies each component value of the metadata matrix D to which each component is weighted by the weighting processing unit 19 or each component value of the approximate matrix Dk generated by the LSA operation of the LSA operation unit 20. Then, a predetermined calculation is performed, and characteristic metadata is extracted based on the calculation result. The metadata extraction unit 21 further notifies other blocks of the extracted metadata ID number and the like as appropriate.

ベクトル演算部22は、重み付け処理部19やLSA演算部20で適切に処理が施されたコンテンツベクトル群、即ち、メタデータ行列Dまたは近似行列Dの各列成分のうちの1以上の列成分の集合体に対して、余弦相関などによるベクトル同士の類似度の演算を行う処理(マッチング処理)や、複数のグループに分類するクラスタリング処理などを実行する。なお、これらの処理の制御は、コンテンツ推薦部23により行われるとする。 The vector calculation unit 22 is a content vector group appropriately processed by the weighting processing unit 19 and the LSA calculation unit 20, that is, one or more column components of each column component of the metadata matrix D or the approximate matrix Dk. A process (matching process) for calculating similarity between vectors by cosine correlation or the like, a clustering process for classifying into a plurality of groups, and the like are executed. Note that control of these processes is performed by the content recommendation unit 23.

コンテンツ推薦部23は、重み付け処理部19で各成分が重み付けされたメタデータ行列Dの各成分値、或いは、LSA演算部20のLSA演算により生成された近似行列Dを用いて、ベクトル演算部22に対する適切な処理(上述したマッチング処理やクラスタリング処理)の依頼処理、コンテンツ記憶部15からの所定のコンテンツの読み出し処理、ユーザインタフェース部11を介するコンテンツのユーザへの呈示処理などを実行する。 The content recommendation unit 23 uses each component value of the metadata matrix D to which each component is weighted by the weighting processing unit 19 or the approximate matrix D k generated by the LSA calculation of the LSA calculation unit 20 to use the vector calculation unit. Processing for requesting appropriate processing (matching processing and clustering processing described above) for 22, processing for reading predetermined content from the content storage unit 15, processing for presenting content to the user via the user interface unit 11, and the like are executed.

情報伝送部24は、以上説明したユーザインタフェース部11乃至コンテンツ推薦部23のうちの所定のブロックから送信された各種情報を、ユーザインタフェース部11乃至コンテンツ推薦部23のうちの適切なブロックに伝送する。   The information transmission unit 24 transmits various information transmitted from a predetermined block of the user interface unit 11 to the content recommendation unit 23 described above to an appropriate block of the user interface unit 11 to the content recommendation unit 23. .

以上、図1を参照して、本発明の情報処理システムについて説明した。   The information processing system of the present invention has been described above with reference to FIG.

本発明の情報処理システムが、例えば、クライアントとサーバとから構成される場合、図1のユーザインタフェース部11はクライアントに配置されるが、その他のユーザプロファイル記憶部12乃至コンテンツ推薦部23のそれぞれは、サーバ側に配置されてもよいし、クライアント側に配置されても構わない。   When the information processing system of the present invention is composed of, for example, a client and a server, the user interface unit 11 of FIG. 1 is arranged in the client, but each of the other user profile storage unit 12 to content recommendation unit 23 is It may be arranged on the server side or on the client side.

また、この場合、情報伝送部24には、ネットワークを介する他の情報処理装置との通信を行う通信機器が含まれ、この通信機器が、サーバとクライアントとのそれぞれに設けられる。即ち、サーバとクライアントとは、内蔵する通信機器を利用して、ネットワークを介する通信を相互に行う。   In this case, the information transmission unit 24 includes a communication device that communicates with another information processing apparatus via the network, and the communication device is provided in each of the server and the client. That is, the server and the client communicate with each other via a network using a built-in communication device.

さらに、この場合、情報伝送部24には、サーバとクラインとのそれぞれに設けられる各種バスが含まれることも。即ち、クライアント内に、ユーザインタフェース部11乃至コンテンツ推薦部23のうちの少なくとも2つのブロックが配置されている場合、これらのブロック間の情報のやり取りは、クライアント内の各種バスを介して行われる。同様に、サーバ内に、ユーザプロファイル記憶部12乃至コンテンツ推薦部23のうちの少なくとも2つのブロックが配置されている場合、これらのブロック間の情報のやり取りは、サーバ内の各種バスを介して行われる。   Further, in this case, the information transmission unit 24 may include various buses provided in each of the server and the client. That is, when at least two blocks of the user interface unit 11 to the content recommendation unit 23 are arranged in the client, information exchange between these blocks is performed via various buses in the client. Similarly, when at least two blocks of the user profile storage unit 12 to the content recommendation unit 23 are arranged in the server, information exchange between these blocks is performed via various buses in the server. Is called.

具体的には例えば、ユーザインタフェース部11と、ユーザのプライバシーに関連するユーザプロファイル記憶部12、および、ユーザ辞書記憶部13はクライアント側に配置させ、その他の一般辞書記憶部14乃至コンテンツ推薦部23はサーバ側に配置させることが可能である。   Specifically, for example, the user interface unit 11, the user profile storage unit 12 related to user privacy, and the user dictionary storage unit 13 are arranged on the client side, and the other general dictionary storage unit 14 to content recommendation unit 23. Can be placed on the server side.

また例えば、大量の記憶容量を必要とするコンテンツ記憶部15とメタデータ記憶16とは、サーバ側に配置させ、その他のブロック、即ち、ユーザインタフェース部11乃至一般辞書記憶部14、およびメタデータ取得部17乃至コンテンツ推薦部23は、クライアント側に配置させることが可能である。   Further, for example, the content storage unit 15 and the metadata storage 16 that require a large amount of storage capacity are arranged on the server side, and other blocks, that is, the user interface unit 11 to the general dictionary storage unit 14, and the metadata acquisition The unit 17 to the content recommendation unit 23 can be arranged on the client side.

また例えば、計算負荷を分散するように、ユーザインタフェース部11乃至コンテンツ推薦部23のそれぞれは、サーバ側とクライアント側に適切に分散させて配置させることも可能である。   Further, for example, each of the user interface unit 11 to the content recommendation unit 23 can be appropriately distributed on the server side and the client side so as to distribute the calculation load.

さらに例えば、ユーザインタフェース部11乃至コンテンツ推薦部23の全てがクライアント側に配置される形態を取ることも可能である。即ち、1台の情報処理装置内に、ユーザインタフェース部11乃至コンテンツ推薦部23の全てが配置されてもよい。   Further, for example, it is possible to take a form in which all of the user interface unit 11 to the content recommendation unit 23 are arranged on the client side. That is, all of the user interface unit 11 to the content recommendation unit 23 may be arranged in one information processing apparatus.

かかる構成を有する図1の情報処理システムは、上述したように、各種コンテンツのそれぞれを、対応するメタデータを基底ベクトルとしてベクトル化し、その結果得られる各コンテンツベクトルを例えば列成分として有するメタデータ行列Dを生成することができる。さらに、図1の情報処理システムは、そのメタデータに対して、重み付け処理を施したり、LSA演算を施すことができる。これにより、各成分の重み付けがなされたメタデータ行列Dや、その近似行列Dを得ることが可能になる。 The information processing system of FIG. 1 having such a configuration, as described above, vectorizes each of various contents as corresponding metadata as a base vector, and a metadata matrix having each content vector obtained as a result, for example, as a column component D can be generated. Furthermore, the information processing system in FIG. 1 can perform weighting processing or LSA calculation on the metadata. This makes it possible to obtain a metadata matrix D in which each component is weighted and an approximate matrix Dk thereof.

従って、図1の情報処理システムは、各成分の重み付けがなされたメタデータ行列Dや、その近似行列Dを利用する様々な処理を施すことができる。例えば、図1の情報処理システムは、次の第1の処理乃至第5の処理といった、本発明人が発明した処理を実行することができる。 Therefore, the information processing system in FIG. 1 can perform various processes using the metadata matrix D weighted with each component and the approximate matrix Dk . For example, the information processing system in FIG. 1 can execute processes invented by the present inventor, such as the following first to fifth processes.

即ち、本発明人は、次の第1の処理乃至第5の処理のそれぞれを実行可能な情報処理システムまたは情報処理装置を新たに発明したとも言える。そして、本発明人は、その構成の一実施形態として、図1の構成の情報処理システムを開示したと言える。従って、次の第1の処理乃至第5の処理のそれぞれを実行可能な情報処理システムまたは情報処理装置であれば、その形態は図1の例に限定されないのは言うまでもない。   That is, it can be said that the inventor newly invented an information processing system or an information processing apparatus capable of executing each of the following first to fifth processes. And it can be said that this inventor disclosed the information processing system of the structure of FIG. 1 as one Embodiment of the structure. Accordingly, it is needless to say that the form is not limited to the example of FIG. 1 as long as it is an information processing system or information processing apparatus capable of executing each of the following first to fifth processes.

第1の処理とは、「共起関係を考慮した不要メタデータ抽出処理」である。第2の処理とは、「共起関係を考慮した推薦処理」である。第3の処理とは、「クラスタリングされたUPV(ユーザ嗜好ベクトル)群の差分を利用した推薦処理」である。第4の処理とは、「LSAによるコンテンツの再評価処理」である。第5の処理とは、「LSAと他手法とのハイブリッドによる推薦処理」である。   The first process is “unnecessary metadata extraction process considering co-occurrence relation”. The second process is a “recommendation process considering the co-occurrence relationship”. The third process is a “recommendation process using a difference between clustered UPV (user preference vectors) groups”. The fourth processing is “content re-evaluation processing by LSA”. The fifth processing is “recommendation processing by hybrid of LSA and other methods”.

以下、第1の処理乃至第5の処理の詳細について、その順番に個別に説明していく。即ち、以下、第1の処理乃至第5の処理のそれれぞれを実行する情報処理システムまたは情報処理装置の実施の形態について、その順番に個別に説明していく。なお、以下、第1の処理乃至第5の処理のそれれぞれを実行する情報処理システムまたは情報処理装置の実施の形態のそれぞれを、説明の簡略上、第1実施形態乃至第5実施形態と称する。   Hereinafter, the details of the first to fifth processes will be individually described in that order. That is, hereinafter, an embodiment of an information processing system or an information processing apparatus that executes each of the first to fifth processes will be described individually in that order. In the following description, each of the embodiments of the information processing system or the information processing apparatus that executes each of the first to fifth processes will be described for the sake of simplicity. Called.

(第1実施形態)   (First embodiment)

はじめに、第1実施形態について説明する。   First, the first embodiment will be described.

例えば、コンテンツが文章である場合、そのメタデータとして、その文書に出現する単語の頻度(あるいはそれに応じた適切な重み値)を採用することができる。   For example, when the content is a sentence, the frequency of words appearing in the document (or an appropriate weight value corresponding thereto) can be adopted as the metadata.

この場合、新規の処理対象となる新たな文書が追加されたとき、その新たな文章に出現する各単語のうちの、これまでに出現しなかった新規単語は新たなメタデータの基底ベクトルとしてメタデータ空間に追加される。   In this case, when a new document to be processed is added, new words that have not appeared so far among the words that appear in the new sentence are meta-data as new metadata base vectors. Added to the data space.

即ち、メタデータ空間の次元数は、即ち、コンテンツベクトルの次元数は、これまでに処理対象とされた全文章に出現した単語の種類数と等しくなる。従って、処理対象とされた文章の数が増えれば増えるほど、即ち、ユーザがこれまでに作成または閲覧した文章の数が増えれば増えるほど、メタデータ空間の次元数も増えていく。具体的には、メタデータ空間の次元数は、一般に数千から数万にまでなってしまう。   That is, the number of dimensions of the metadata space, that is, the number of dimensions of the content vector is equal to the number of types of words that have appeared in all sentences that have been processed so far. Therefore, as the number of sentences to be processed increases, that is, as the number of sentences created or browsed by the user increases, the number of dimensions in the metadata space also increases. Specifically, the number of dimensions of the metadata space is generally several thousand to several tens of thousands.

その結果、その後段の計算、例えばマッチング処理やクラスタリング処理の計算が困難になる問題があった。このとき、従来においても、単語重みに基づく単語数の削減は試みられているが、TF/IDFなどを利用している場合は、メタデータ(単語)の共起関係(あるいは同義性)は考慮されず、削除すべきではない単語が削除されてしまう場合が多々ある、という課題があった。   As a result, there is a problem that subsequent calculations such as matching processing and clustering processing become difficult. At this time, attempts have been made to reduce the number of words based on word weights in the past, but when using TF / IDF, etc., the co-occurrence relationship (or synonym) of metadata (words) is considered However, there is a problem that words that should not be deleted are often deleted.

そこで、この課題を解決するために、本発明人は、上述した第1の処理、即ち、「共起関係を考慮した不要メタデータの抽出処理」を発明した。   In order to solve this problem, the present inventor has invented the above-described first processing, that is, “unnecessary metadata extraction processing considering co-occurrence relationships”.

この第1の処理は、LSAによって生成された近似行列Dkを利用する。近似行列Dkが、共起関係を考慮して生成される行列だからである。ただし、近似行列Dkと共起関係との関連性については後述する。 This first process uses an approximate matrix D k generated by LSA. This is because the approximate matrix D k is a matrix generated in consideration of the co-occurrence relationship. However, the relationship between the approximate matrix D k and the co-occurrence relationship will be described later.

以下、図2乃至図6を参照して、第1実施形態の情報処理システムまたは情報処理装置、即ち、「共起関係を考慮した不要メタデータ抽出処理」を実行する情報処理システムまたは情報処理装置について説明する。   Hereinafter, with reference to FIG. 2 to FIG. 6, the information processing system or information processing apparatus of the first embodiment, that is, the information processing system or information processing apparatus that executes “unnecessary metadata extraction processing considering co-occurrence relationships” Will be described.

図2は、第1実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。   FIG. 2 illustrates a functional configuration example of the information processing system or the information processing apparatus according to the first embodiment.

換言すると、図1のユーザインタフェース部11乃至コンテンツ推薦部23の全ブロックの中から「共起関係を考慮した不要メタデータの抽出処理」の実行に必要なブロックが抽出され、それらのブロックが、「共起関係を考慮した不要メタデータの抽出処理」の実行時の情報の流れに従って並べられた図が、図2である。従って、図2に示される各ブロックの説明については、図1を参照して上述しているので、ここでは省略する。   In other words, blocks necessary for the execution of “unnecessary metadata extraction processing considering co-occurrence relation” are extracted from all the blocks of the user interface unit 11 to the content recommendation unit 23 of FIG. FIG. 2 is a diagram arranged according to the flow of information when executing the “unnecessary metadata extraction process considering co-occurrence relationships”. Therefore, the description of each block shown in FIG. 2 has been described above with reference to FIG.

なお、図2の例では省略されているが、実際には、2つのブロックを結ぶ各矢印内には、即ち、2つのブロックの間には、図1の情報伝送部24が配置されることになる。   Although omitted in the example of FIG. 2, the information transmission unit 24 of FIG. 1 is actually arranged in each arrow connecting the two blocks, that is, between the two blocks. become.

図3は、「共起関係を考慮した不要メタデータ抽出処理」の例を説明するフローチャートである。そこで、以下、図3のフローチャートを参照して、「共起関係を考慮した不要メタデータ抽出処理」の例について説明する。   FIG. 3 is a flowchart for explaining an example of “unnecessary metadata extraction processing considering the co-occurrence relationship”. Therefore, an example of “unnecessary metadata extraction processing considering co-occurrence relations” will be described below with reference to the flowchart of FIG.

なお、この「共起関係を考慮した不要メタデータ抽出処理」の理解を容易なものとするために、以下、図4乃至図6を適宜参照しながら説明していく。即ち、図4乃至図6は、「共起関係を考慮した不要メタデータ抽出処理」の処理結果の具体例を示している。   In order to facilitate understanding of the “unnecessary metadata extraction process considering the co-occurrence relationship”, the following description will be given with reference to FIGS. 4 to 6 as appropriate. That is, FIGS. 4 to 6 show specific examples of processing results of “unnecessary metadata extraction processing considering co-occurrence relationships”.

図3のステップS1において、行列生成部18は、メタデータ行列Dを生成する。   In step S <b> 1 of FIG. 3, the matrix generation unit 18 generates a metadata matrix D.

詳細には、ステップS1において、行列演算部18は、ユーザが経験済みの1以上のコンテンツへのそれぞれのポインタ(ID番号など)をユーザプロファイル記憶部12から取得する。次に、行列演算部18は、各ポインタのそれぞれが付されたメタデータ、即ち、ユーザが経験済みの各コンテンツのそれぞれに対応するメタデータをメタデータ記憶部16から取得し、取得されたメタデータを基底ベクトルとして、ユーザが経験済みの各コンテンツのそれぞれをベクトル化する。これにより、ユーザが経験済みの各コンテンツのそれぞれに対応するコンテンツベクトルが生成される。そして、行列演算部18は、各コンテンツベクトルのそれぞれを列成分とするメタデータ行列Dを生成する。   Specifically, in step S <b> 1, the matrix calculation unit 18 acquires, from the user profile storage unit 12, each pointer (ID number or the like) to one or more contents that the user has experienced. Next, the matrix calculation unit 18 acquires metadata to which each pointer is attached, that is, metadata corresponding to each content that the user has experienced from the metadata storage unit 16, and acquires the acquired metadata. Using the data as a basis vector, each content that the user has experienced is vectorized. Thereby, a content vector corresponding to each content that the user has experienced is generated. Then, the matrix calculation unit 18 generates a metadata matrix D having each content vector as a column component.

なお、ステップS1の処理で集積されるメタデータは、1ユーザが経験済みのコンテンツに対応するメタデータの他、全コンテンツに対応するメタデータでもよいし、複数のユーザが経験済みのコンテンツに対応するメタデータでもよい。ただし、メタデータ取得処理の処理対象となるコンテンツに応じて、後述するステップS6の不要メタデータの登録先が異なることになる。   Note that the metadata accumulated in the process of step S1 may be metadata corresponding to all content in addition to metadata corresponding to content experienced by a single user, or corresponding to content experienced by a plurality of users. The metadata to be used may be used. However, the registration destination of unnecessary metadata in step S6 to be described later differs depending on the content to be processed in the metadata acquisition process.

ステップS2において、重み付け処理部19は、所定の重み付け手法を利用して、ステップS1の処理で行列生成部18により生成されたメタデータ行列Dに対して、重み付けを行う。   In step S2, the weighting processing unit 19 performs weighting on the metadata matrix D generated by the matrix generation unit 18 in the processing of step S1, using a predetermined weighting method.

ステップS2の処理で利用される重み付け手法は、上述したように、特に限定されず、TF/IDFを利用する手法、正規化TFを利用する手法、あるいはコンテンツまたはメタデータごとに時間経過などを反映したヒューリスティックな重み付けを行う手法等が採用可能である。   As described above, the weighting method used in the process of step S2 is not particularly limited, and the method using TF / IDF, the method using normalized TF, or the passage of time for each content or metadata is reflected. A heuristic weighting method or the like can be employed.

ただし、ここでは例えば、コンテンツとして5つの文章d1乃至文章d5が処理対象とされ、メタデータとして、文書d1乃至文章d5に出現する単語が採用されており、重み付け手法として、文章内の単語頻度をそのまま重み値とする手法が採用されているとする。   However, here, for example, five sentences d1 to d5 are processed as contents, words appearing in the documents d1 to d5 are adopted as metadata, and the word frequency in the sentence is used as a weighting method. It is assumed that the method of using the weight value as it is is adopted.

具体的には、例えば、文章d1においては、“京都”,”豆腐”,”温泉”,”紅葉”,”USB”,”ソフトウエア”,”価格”のそれぞれの単語の頻度が、3,4,1,0,0,0,1であったとする。文章d2においては、“京都”,”豆腐”,”温泉”,”紅葉”,”USB”,”ソフトウエア”,”価格”のそれぞれの単語の頻度が、1,0,3,3,0,0,1であったとする。文章d3においては、“京都”,”豆腐”,”温泉”,”紅葉”,”USB”,”ソフトウエア”,”価格”のそれぞれの単語の頻度が、4,1,0,0,0,0,2であったとする。文章d4においては、“京都”,”豆腐”,”温泉”,”紅葉”,”USB”,”ソフトウエア”,”価格”のそれぞれの単語の頻度が、0,1,0,4,0,0,0であったとする。文章d5においては、“京都”,”豆腐”,”温泉”,”紅葉”,”USB”,”ソフトウエア”,”価格”のそれぞれの単語の頻度が、0,0,0,0,2,1,1であったとする。   Specifically, for example, in the sentence d1, the frequency of each word of “Kyoto”, “Tofu”, “Onsen”, “Autumn leaves”, “USB”, “Software”, “Price” is 3, Suppose that it was 4, 1, 0, 0, 0, 1. In the sentence d2, the frequencies of the words “Kyoto”, “Tofu”, “Hot spring”, “Autumn leaves”, “USB”, “Software”, “Price” are 1, 0, 3, 3, 0 , 0, 1. In the sentence d3, the frequencies of the words “Kyoto”, “Tofu”, “Hot spring”, “Autumn leaves”, “USB”, “Software”, “Price” are 4, 1, 0, 0, 0. , 0, 2. In the sentence d4, the frequencies of the words “Kyoto”, “Tofu”, “Hot spring”, “Autumn leaves”, “USB”, “Software”, “Price” are 0, 1, 0, 4, 0. , 0, 0. In the sentence d5, the frequencies of the words “Kyoto”, “Tofu”, “Onsen”, “Autumn leaves”, “USB”, “Software”, “Price” are 0, 0, 0, 0, 2 , 1, 1.

この場合、ステップS2の処理の結果、図4に示されるような、重み付けがなされたメタデータ行列Dが生成されることになる。即ち、ステップS2の処理の結果、文章d1乃至文章d5の各コンテンツベクトル(頻度による重み付けがなされたコンテンツベクトルであり、いわゆる特徴ベクトルである)のそれぞれを、1列目乃至5列目のそれぞれの列成分とする7行5列のメタデータ行列Dが生成されることになる。   In this case, a weighted metadata matrix D as shown in FIG. 4 is generated as a result of the process of step S2. That is, as a result of the processing in step S2, each of the content vectors of the sentences d1 to d5 (content vectors weighted by frequency, which are so-called feature vectors) is changed to the first to fifth columns. A 7 × 5 metadata matrix D as a column component is generated.

なお、文章d1のコンテンツベクトル(“京都”,”豆腐”,”温泉”,”紅葉”,”USB”,”ソフトウエア”,”価格”)とは(3,4,1,0,0,0,1)である。文章d2のコンテンツベクトルとは(1,0,3,3,0,0,1)である。文章d3のコンテンツベクトルとは(4,1,0,0,0,0,2)である。文章d4のコンテンツベクトルとは(0,1,0,4,0,0,0)である。文章d5のコンテンツベクトルとは(0,0,0,0,2,1,1)である。   The content vector (“Kyoto”, “Tofu”, “Hot spring”, “Autumn leaves”, “USB”, “Software”, “Price”) of text d1 is (3,4,1,0,0, 0,1). The content vector of the sentence d2 is (1,0,3,3,0,0,1). The content vector of the sentence d3 is (4,1,0,0,0,0,2). The content vector of the sentence d4 is (0,1,0,4,0,0,0). The content vector of the sentence d5 is (0,0,0,0,2,1,1).

図3に戻り、ステップS3において、LSA演算部20は、ステップS2の処理で重み付け処理部19により適切な重み付けがなされたメタデータ行列Dに対して、LSA演算を実行する。   Returning to FIG. 3, in step S <b> 3, the LSA operation unit 20 performs an LSA operation on the metadata matrix D appropriately weighted by the weighting processing unit 19 in the process of step S <b> 2.

なお、ここでは、ステップS3の処理として、LSA演算のうちの第1の処理と第3の処理が実行されて、その結果、適切に次元圧縮された近似行列Dが生成される。 Here, as the process of step S3, the first process and the third process of the LSA calculation are executed, and as a result, the approximate matrix Dk appropriately dimensionally compressed is generated.

具体的にはいまの場合、図4の行列Dに対して、ステップS3の処理が施されると、例えば、2次元に圧縮された図5に示される近似行列Dが生成される。 Specifically, in this case, when the process of step S3 is performed on the matrix D of FIG. 4, for example, an approximate matrix Dk shown in FIG. 5 that is two-dimensionally compressed is generated.

即ち、ステップS3の処理の結果、次のように更新された文章d1乃至文章d5の各コンテンツベクトルのそれぞれを、1列目乃至5列目のそれぞれの列成分とする7行5列の近似行列Dが生成されることになる。 In other words, as a result of the processing in step S3, the approximated matrix of 7 rows and 5 columns having the respective content vectors of the sentences d1 to d5 updated as follows as the respective column components of the first column to the fifth column. D k will be generated.

即ち、文章d1の更新されたコンテンツベクトルとは(3.6999,2.6836,0.7968,0.1194,0.0846,0.0423,1.6540)である。文章d2の更新されたコンテンツベクトルとは(0.8301,0.8297,1.6489,3.5394,0.0168,0.0084,0.6448)である。文章d3の更新されたコンテンツベクトルとは(3.2099,2.3044,0.5377,-0.2633,0.0736,0.0368,1.4063)である。文章d4の更新されたコンテンツベクトルとは(0.0886,0.2855,1.4478,3.4166,-0.0001,-0.0001,0.3057)である。文章d5の更新されたコンテンツベクトルとは(0.2824,0.2058,0.0674,0.0249,0.0064,0.0032,0.1275)である。   That is, the updated content vector of the sentence d1 is (3.6999, 2.6836, 0.7968, 0.1194, 0.0846, 0.0423, 1.6540). The updated content vector of the sentence d2 is (0.8301, 0.8297, 1.6489, 3.5394, 0.0168, 0.0084, 0.6448). The updated content vector of the sentence d3 is (3.2099, 2.3044, 0.5377, -0.2633, 0.0736, 0.0368, 1.4063). The updated content vector of the sentence d4 is (0.0886, 0.2855, 1.4478, 3.4166, -0.0001, -0.0001, 0.3057). The updated content vector of the sentence d5 is (0.2824, 0.2058, 0.0674, 0.0249, 0.0064, 0.0032, 0.1275).

図3に戻り、メタデータ抽出部21は、ステップS4において、ステップS3の処理でLSA演算部15により演算された近似行列Dを用いて、各メタデータの特徴差分のそれぞれを演算する。 Returning to FIG. 3, in step S4, the metadata extraction unit 21 calculates each feature difference of each metadata by using the approximate matrix Dk calculated by the LSA calculation unit 15 in the process of step S3.

特徴差分とは、メタデータ行列Dと近似行列Dとの差異(変化)を利用して生成される、メタデータの重要度の指標値を指す。 The feature difference indicates an index value of the importance level of metadata generated by using a difference (change) between the metadata matrix D and the approximate matrix Dk .

例えば、図5の近似行列Dの例では、”↑↑”といった2つの上向き矢印が示されている成分においては、図4のメタデータ行列Dに比較して1以上重み値(成分値)が増加したことを示している。同様に、”↑” といった1つ上向きの矢印が示されている成分においては、図4のメタデータ行列Dに比較して0.5以上重み値が増加したことを示している。”↓↓”といった2つの下向き矢印が示されている成分においては、図4のメタデータ行列Dに比較して1以上重み値が減少したことを示している。同様に、”↓”といった1つ下向きの矢印が示されている成分においては、図4のメタデータ行列Dに比較して0.5以上重み値が減少したことを示している。 For example, in the example of the approximate matrix Dk in FIG. 5, the component indicated by two upward arrows such as “↑↑” has a weight value (component value) of 1 or more compared to the metadata matrix D in FIG. 4. Indicates an increase. Similarly, the component indicated by one upward arrow such as “↑” indicates that the weight value has increased by 0.5 or more compared to the metadata matrix D of FIG. The components indicated by two downward arrows such as “↓↓” indicate that the weight value has decreased by 1 or more compared to the metadata matrix D of FIG. Similarly, the component indicated by one downward arrow such as “↓” indicates that the weight value has decreased by 0.5 or more compared to the metadata matrix D of FIG.

ここで、近似行列Dの成分値が、メタデータ行列Dのそれよりも増加する意味について説明する。 Here, the meaning that the component value of the approximate matrix Dk increases from that of the metadata matrix D will be described.

即ち、所定のコンテンツ内での所定のメタデータの重要度は本来高いものであるにも係らず、各コンテンツにまたがるメタデータの共起性が考慮されずに生成されたメタデータ行列Dの時点では重要度は低いとみなされ、その結果、メタデータ行列Dの対応する成分値が低い値となっている場合がある。   That is, the time point of the metadata matrix D generated without considering the co-occurrence of the metadata across the respective contents although the importance of the predetermined metadata in the predetermined content is originally high. In this case, the degree of importance is regarded as low, and as a result, the corresponding component value of the metadata matrix D may be a low value.

この場合、近似行列Dが生成されると、そのコンテンツ内でのそのメタデータの本来の高い重要度が浮き彫りになり、その結果、近似行列Dの対応する成分値は高い値に更新されるのである。 In this case, when the approximate matrix D k is generated, the original high importance of the metadata in the content is highlighted, and as a result, the corresponding component value of the approximate matrix D k is updated to a high value. It is.

なぜならば、近似行列Dは、概念空間において主成分として重要で無いとされた(特異値が小さかった)基底成分が削減されて再演算された結果得られるからである。即ち、近似行列Dとは、各コンテンツにまたがるメタデータの共起性が考慮されて各成分値が更新された行列だからである。 This is because the approximate matrix D k is obtained as a result of reduction and recalculation of base components that are considered to be unimportant as a principal component in the concept space (having a small singular value). That is, the approximate matrix D k is a matrix in which each component value is updated in consideration of the co-occurrence of metadata across each content.

以上の内容が、成分値がLSA演算により大きくなる意味である。   The above contents mean that the component value is increased by the LSA calculation.

同様に、近似行列Dの成分値が、メタデータ行列Dのそれよりも減少する意味とは次の通りである。 Similarly, the meaning that the component value of the approximate matrix D k is smaller than that of the metadata matrix D is as follows.

即ち、所定のコンテンツ内での所定のメタデータの重要度は本来低いものであるにも係らず、各コンテンツにまたがるメタデータの共起性が考慮されずに生成されたメタデータ行列Dの時点では重要度は高いとみなされ、その結果、メタデータ行列Dの対応する成分値が高い値となっている場合がある。   That is, the time point of the metadata matrix D generated without considering the co-occurrence of the metadata across the respective contents although the importance of the predetermined metadata in the predetermined content is originally low. In this case, the degree of importance is considered high, and as a result, the corresponding component value of the metadata matrix D may be a high value.

この場合、近似行列Dが生成されると、そのコンテンツ内でのそのメタデータの本来の低い重要度が浮き彫りになり、その結果、近似行列Dの対応する成分値は低い値に更新されるのである。 In this case, when the approximate matrix D k is generated, the inherent low importance of the metadata in the content is highlighted, and as a result, the corresponding component value of the approximate matrix D k is updated to a low value. It is.

このように、メタデータ行列Dと近似行列Dとの差異(変化)とは、各コンテンツにまたがるメタデータの共起性が考慮される前と後とにおける、メタデータの重要度の捉え方の差異を表現していると言える。 As described above, the difference (change) between the metadata matrix D and the approximate matrix Dk is how to grasp the importance of the metadata before and after the co-occurrence of the metadata across the contents is considered. It can be said that the difference is expressed.

従って、メタデータ行列Dと近似行列Dとの差異(変化)を利用することで、メタデータの重要度の指標値、即ち、メタデータの特徴差分を演算することが可能になるのである。 Therefore, by using the difference (change) between the metadata matrix D and the approximate matrix Dk , it is possible to calculate an index value of the importance of the metadata, that is, a feature difference of the metadata.

換言すると、メタデータの特徴差分の演算手法は、メタデータ行列Dと近似行列Dとの差異(変化)を利用する手法であれば特に限定されず、様々な手法を適用することができる。 In other words, the metadata feature difference calculation method is not particularly limited as long as it uses a difference (change) between the metadata matrix D and the approximated matrix Dk, and various methods can be applied.

例えば、メタデータの特徴差分は、次の第1の特徴差分演算手法乃至第3の特徴差分演算手法により算出可能である。   For example, the feature difference of metadata can be calculated by the following first feature difference calculation method to third feature difference calculation method.

第1の特徴差分演算手法とは、近似行列Dの成分値自身を利用して特徴差分を演算する手法である。 The first feature difference calculation method is a method for calculating a feature difference using the component values of the approximate matrix Dk .

近似行列Dの成分値自身を利用することも、メタデータ行列Dと近似行列Dとの差異(変化)を利用していると言えるからである。 It is also because it can be said that using the difference (change) between the approximated matrix D k metadata matrix D utilizing component value itself in the approximated matrix D k.

具体的には、メタデータ行列Dと近似行列Dとのそれぞれにおいて、所定のメタデータは1つの行に対応する。例えば、上述した図4のメタデータ行列Dと図5の近似行列Dとの例では、“京都”というメタデータ(単語)は、1行目に対応する。即ち、所定の各成分値のそれぞれは、各コンテンツ(文章)のそれぞれについての、その行に対応するメタデータの重み値を指す。例えば、上述した図4のメタデータ行列Dと図5の近似行列Dとの例では、1行目の各成分値のそれぞれは、文章d1乃至文章d5のそれぞれについての、“京都”というメタデータ(単語)の重み値を指す。 Specifically, the predetermined metadata corresponds to one row in each of the metadata matrix D and the approximate matrix Dk . For example, in the example of the metadata matrix D in FIG. 4 and the approximate matrix Dk in FIG. 5 described above, the metadata (word) “Kyoto” corresponds to the first row. That is, each of the predetermined component values indicates a metadata weight value corresponding to the row for each content (sentence). For example, in the example of the metadata matrix D in FIG. 4 and the approximate matrix D k in FIG. 5 described above, each component value in the first row is a meta-data “Kyoto” for each of the sentences d1 to d5. Refers to the weight value of data (word).

従って、例えば、N個のメタデータとM個のコンテンツからメタデータ行列Dが生成されている場合、即ち、メタデータ行列DがN行M列の行列である場合、N個のメタデータのそれぞれを、処理の対象として注目すべきメタデータ(以下、注目メタデータと称する)として順次設定し、注目メタデータを示す行のM個の成分値、即ち、注目メタデータのM個のコンテンツについての各重み値の平均値または最大値を演算し、その演算結果を注目メタデータの特徴差分とするという手法が、第1の特徴差分演算手法の一例である。   Therefore, for example, when a metadata matrix D is generated from N pieces of metadata and M pieces of content, that is, when the metadata matrix D is a matrix of N rows and M columns, each of the N pieces of metadata Are sequentially set as metadata to be noted as a processing target (hereinafter referred to as “notable metadata”), and M component values in a row indicating the notable metadata, that is, M contents of the notable metadata. A method of calculating an average value or a maximum value of each weight value and using the calculation result as a feature difference of the target metadata is an example of a first feature difference calculation method.

第2の特徴差分演算手法とは、近似行列Dの各成分の値のそれぞれと、メタデータ行列Dの対応する成分の値との差分値のそれぞれを利用して特徴差分を演算する手法である。 The second feature difference calculation method is a method of calculating a feature difference using each of the difference values between the values of the respective components of the approximate matrix D k and the values of the corresponding components of the metadata matrix D. is there.

具体的には例えば、メタデータ行列DがN行M列の行列である場合、N個のメタデータのそれぞれを注目メタデータとして順次設定し、近似行列Dのうちの注目メタデータを示す行のM個の成分値のそれぞれと、メタデータ行列Dのうちの対応する成分値との差分値のそれぞれを演算し、演算されたM個の差分値の平均値または最大値を演算し、その演算結果を注目メタデータの特徴差分とするという手法が、第2の特徴差分演算手法の一例である。 Specifically, for example, when the metadata matrix D is a matrix of N rows and M columns, each of the N pieces of metadata is sequentially set as attention metadata, and a row indicating attention metadata in the approximated matrix Dk. Each of the M component values and the corresponding component value of the metadata matrix D are calculated, and an average value or a maximum value of the calculated M difference values is calculated. A technique of setting the calculation result as a feature difference of the target metadata is an example of a second feature difference calculation technique.

所定の成分値がLSA演算により大きくなった場合、即ち、所定の成分において、近似行列Dよりもメタデータ行列Dの方が大きい値となっている場合、その成分についての、近似行列Dとメタデータ行列Dとの差分値は、当然ながら正値となる。 If the predetermined component value is increased by LSA computing, i.e., in a given component, if it is a value larger metadata matrix D than the approximated matrix D k, for that component, approximated matrix D k Naturally, the difference value between the metadata matrix D is a positive value.

以上の内容と、成分値がLSA演算により大きくなる上述した意味とを考慮すると、結局、第2の特徴差分演算手法により演算される注目メタデータの特徴差分が正値になることとは、注目メタデータは、各コンテンツにまたがるメタデータの共起性が考慮された結果、重要であると判断されたことを指す。正確には、正値になることとは、注目メタデータの本来の高い重要度が浮き彫りになったことを指す。   Considering the above contents and the above-mentioned meaning that the component value becomes larger by the LSA calculation, the feature difference of the metadata of interest calculated by the second feature difference calculation method eventually becomes a positive value. Metadata indicates that the metadata is determined to be important as a result of considering the co-occurrence of metadata across contents. To be precise, being positive means that the original high importance of the metadata of interest has been highlighted.

また、正値になることの理由と逆の理由で、第2の特徴差分演算手法により演算される注目メタデータの特徴差分が負値になることとは、そのメタデータは、各コンテンツにまたがるメタデータの共起性が考慮された結果、重要度が低いと判断されたことを指す。正確には、負値になることとは、注目メタデータの本来の低い重要度が浮き彫りになったことを指す。   In addition, when the feature difference of the target metadata calculated by the second feature difference calculation method becomes a negative value for the reason opposite to the reason of becoming a positive value, the metadata spans each content. As a result of considering the co-occurrence of metadata, it means that the importance is determined to be low. To be precise, becoming negative means that the original low importance of the metadata of interest has been highlighted.

具体的には例えば、図5の近似行列Dを用いて、第2の特徴差分演算手法により演算された特徴差分の演算結果が図6に示されている。より正確には、“京都”、“豆腐”,“温泉”,“紅葉”,“USB”,“ソフトウエア”,“価格”のそれぞれの単語を注目メタデータとして順次設定し、図5の近似行列Dのうちの注目メタデータを示す行の5個の成分値、即ち、文章d1乃至d5における注目メタデータの重み値のそれぞれと、図4のメタデータ行列Dのうちの対応する成分値との差分値のそれぞれを演算し、これら5個の差分値の平均値を注目メタデータの特徴差分として演算した場合の、その演算結果が図6に示されている。 Specifically, for example, the calculation result of the feature difference calculated by the second feature difference calculation method using the approximate matrix Dk of FIG. 5 is shown in FIG. More precisely, the words “Kyoto”, “Tofu”, “Onsen”, “Autumn leaves”, “USB”, “Software”, “Price” are set as attention metadata in order, and the approximation of FIG. Five component values of the row indicating the target metadata in the matrix D k , that is, each of the weight values of the target metadata in the sentences d1 to d5, and the corresponding component value in the metadata matrix D of FIG. FIG. 6 shows the calculation result when each of the difference values is calculated and the average value of these five difference values is calculated as the feature difference of the metadata of interest.

詳細には、図6に示されるように、“京都”の特徴差分値は0.022になる。また、“豆腐”,“温泉”,“紅葉”,“USB”,“ソフトウエア”,“価格”のそれぞれの特徴差分値は、0.0618,0.0997,-0.326,-0.3638,-0.1819,-0.1723のそれぞれになる。   Specifically, as shown in FIG. 6, the feature difference value of “Kyoto” is 0.022. In addition, the characteristic difference values of “tofu”, “hot spring”, “colored leaves”, “USB”, “software”, “price” are 0.0618, 0.0997, -0.326, -0.3638, -0.1819, -0.1723, respectively. Become each.

従って、“京都”,“豆腐”,“温泉”のそれぞれは、文章d1乃至文章d5にまたがる単語の共起性が考慮された結果、重要度が高いと判断された、正確には、本来の高い重要度が浮き彫りになったと言える。   Therefore, each of “Kyoto”, “Tofu”, and “Hot Spring” was determined to have high importance as a result of considering the co-occurrence of words across sentences d1 to d5. It can be said that high importance has been highlighted.

これに対して、“紅葉”,“USB”,“ソフトウエア”,“価格”のそれぞれは、文章d1乃至文章d5にまたがる単語の共起性が考慮された結果、重要度が低いと判断された、正確には、本来の低い重要度が浮き彫りになったと言える。   On the other hand, “Autumn Leaves”, “USB”, “Software”, and “Price” are determined to be low in importance as a result of considering the co-occurrence of words across sentences d1 to d5. To be precise, it can be said that the original low importance is highlighted.

より具体的には、図6の各メタデータの特徴差分値から次のことがわかる。即ち、他の文書とは関連の薄い文章d5にのみ出現する”USB”や”ソフトウエア”といった、お互いを除き他の単語との関連が薄い単語の重要度は非常に低くなる(重みが大きく下がる)ことがわかる。また、“価格”といった、どの文章にも出現しやすい一般的な単語の重要度も低くなる(重みが下がる)ことがわかる。これに対して、“温泉”や”豆腐”といった、文書を特徴づけ、かつ似たような文書が複数あるような単語の重要度は高くなる(重みが大きくなる)ことがわかる。   More specifically, the following can be understood from the feature difference value of each metadata in FIG. That is, the importance of words that are not related to other words except for each other, such as “USB” and “software” that appear only in the sentence d5 that is not related to other documents, is very low (the weight is large). You can see). It can also be seen that the importance of general words that tend to appear in any sentence, such as “price”, is reduced (the weight is reduced). On the other hand, it can be seen that the importance of words such as “hot spring” and “tofu” that characterize the document and that have a plurality of similar documents becomes high (weight increases).

以上、第2の特徴差分演算手法について説明した。次に、第3の特徴差分演算手法について説明する。   The second feature difference calculation method has been described above. Next, a third feature difference calculation method will be described.

第3の特徴差分演算手法とは、近似行列Dの各成分の値のそれぞれを、メタデータ行列Dの対応する成分の値で除算した除算値のそれぞれを利用して特徴差分を演算する手法である。 The third feature difference calculation method is a method of calculating a feature difference using each of the division values obtained by dividing the values of the respective components of the approximate matrix D k by the values of the corresponding components of the metadata matrix D. It is.

具体的には例えば、メタデータ行列DがN行M列の行列である場合、N個のメタデータのそれぞれを注目メタデータとして順次設定し、近似行列Dのうちの注目メタデータを示す行のM個の成分値のそれぞれを、メタデータ行列Dのうちの対応する成分値で除算した除算値のそれぞれを演算し、演算されたM個の除算値の平均値または最大値を演算し、その演算結果を注目メタデータの特徴差分とするという手法が、第3の特徴差分演算手法の一例である。 Specifically, for example, when the metadata matrix D is a matrix of N rows and M columns, each of the N pieces of metadata is sequentially set as attention metadata, and a row indicating attention metadata in the approximated matrix Dk. Each of the M component values is divided by the corresponding component value in the metadata matrix D, and the average or maximum value of the calculated M divided values is calculated. A technique of setting the calculation result as a feature difference of the target metadata is an example of a third feature difference calculation technique.

所定の成分値がLSA演算により大きくなった場合、即ち、所定の成分において、近似行列Dよりもメタデータ行列Dの方が大きい値となっている場合、その成分についての、近似行列Dに対するメタデータ行列Dの除算値は、当然ながら1より大きくなる。 If the predetermined component value is increased by LSA computing, i.e., in a given component, if it is a value larger metadata matrix D than the approximated matrix D k, for that component, approximated matrix D k The division value of the metadata matrix D with respect to is naturally larger than 1.

以上の内容と、成分値がLSA演算により大きくなる上述した意味とを考慮すると、結局、第3の特徴差分演算手法により演算される注目メタデータの特徴差分が1より大きくなることとは、注目メタデータは、各コンテンツにまたがるメタデータの共起性が考慮された結果、重要であると判断されたことを指す。正確には、1より大きくなることとは、注目メタデータの本来の高い重要度が浮き彫りになったことを指す。   Considering the above contents and the above-mentioned meaning that the component value is increased by the LSA calculation, the feature difference of the target metadata calculated by the third feature difference calculation method is eventually larger than 1. Metadata indicates that the metadata is determined to be important as a result of considering the co-occurrence of metadata across contents. To be precise, being larger than 1 means that the original high importance of the metadata of interest has been highlighted.

また、1より大きくなることの理由と逆の理由で、第2の特徴差分演算手法により演算される注目メタデータの特徴差分が1より小さくなることとは、注目メタデータは、各コンテンツにまたがるメタデータの共起性が考慮された結果、重要度が低いと判断されたことを指す。正確には、1より小さくなることとは、注目メタデータの本来の低い重要度が浮き彫りになったことを指す。   In addition, the feature difference of the target metadata calculated by the second feature difference calculation method is smaller than 1 for the reason opposite to the reason that the target metadata is greater than 1. The target metadata spans each content. As a result of considering the co-occurrence of metadata, it means that the importance is determined to be low. To be precise, being smaller than 1 means that the original low importance of the metadata of interest has been highlighted.

以上、図3のステップS4におけるメタデータの特徴差分の演算手法の例として、第1の特徴差分演算手法乃至第3の特徴差分演算手法について説明した。   As described above, the first feature difference calculation method to the third feature difference calculation method have been described as examples of the metadata feature difference calculation method in step S4 of FIG.

このようにして、ステップS4の処理により各メタデータの特徴差分のそれぞれが演算されると、処理はステップS5に進む。   In this manner, when each feature difference of each metadata is calculated by the process of step S4, the process proceeds to step S5.

ステップS5において、メタデータ抽出部21は、メタデータの特徴差分が閾値以下であるか否かを判定する。   In step S5, the metadata extraction unit 21 determines whether or not the metadata feature difference is equal to or less than a threshold value.

各メタデータの特徴差分の全てが閾値を超えている場合、ステップS5でNOであると判定されて、処理は終了となる。   If all of the feature differences of each metadata exceed the threshold value, it is determined as NO in step S5, and the process ends.

これに対して、各メタデータの特徴差分の中に閾値以下の特徴差分が1つでも存在する場合、ステップS5でYESであると判定されて、処理はステップS6に進む。   On the other hand, if at least one feature difference equal to or less than the threshold exists among the feature differences of each metadata, it is determined as YES in Step S5, and the process proceeds to Step S6.

ステップS6において、メタデータ抽出部21は、不要メタデータの登録や呈示を行う。詳細には、ステップS6において、メタデータ抽出部21は、各メタデータの特徴差分のうちの閾値以下の特徴差分を有するメタデータを不要メタデータであると特定し、不要メタデータをメタデータ記憶部16から抽出する。そして、メタデータ抽出部21は、抽出された不要メタデータを、ユーザ辞書記憶部13または一般辞書記憶部14に登録(記憶)させたり、ユーザインタフェース部11を介してユーザに呈示する。これにより、「共起関係を考慮した不要メタデータ抽出処理」は終了となる。   In step S6, the metadata extraction unit 21 registers and presents unnecessary metadata. Specifically, in step S6, the metadata extraction unit 21 specifies that metadata having a feature difference equal to or less than a threshold among the feature differences of each metadata is unnecessary metadata, and stores the unnecessary metadata in the metadata. Extract from part 16. The metadata extraction unit 21 registers (stores) the extracted unnecessary metadata in the user dictionary storage unit 13 or the general dictionary storage unit 14 or presents it to the user via the user interface unit 11. Thereby, the “unnecessary metadata extraction process considering the co-occurrence relationship” is completed.

このように、ステップS5の処理で利用される閾値は、各コンテンツのそれぞれを不要メタデータに分類するか否かを判定するために、メタデータの特徴差分と比較される値である。即ち、閾値を超える特徴差分を有するメタデータとは、不要メタデータに分類されない重要度の高いメタデータである。これに対して、閾値未満の特徴差分を有するメタデータとは、不要メタデータに分類される重要度の低いメタデータである。   As described above, the threshold used in the process of step S5 is a value that is compared with the feature difference of metadata in order to determine whether or not each content is classified as unnecessary metadata. That is, metadata having a feature difference exceeding a threshold is highly important metadata that is not classified as unnecessary metadata. On the other hand, metadata having a feature difference that is less than the threshold is metadata with low importance that is classified as unnecessary metadata.

従って、この閾値は、ステップS4の処理に採用される特徴差分演算手法に応じて異なる値になることが多い。   Therefore, this threshold value is often different depending on the feature difference calculation method employed in the process of step S4.

例えば、差分値を使用する上述した第2の特徴差分演算手法が採用されている場合には、閾値として例えば0未満の値を設定すると好適である。具体的には例えば、閾値として-0.1が設定された場合、上述した図6の例では、”USB”,”ソフトウエア”,”価格”が不要メタデータとして抽出されることになる。   For example, when the above-described second feature difference calculation method using a difference value is adopted, it is preferable to set a value less than 0 as the threshold value, for example. Specifically, for example, when −0.1 is set as the threshold value, “USB”, “software”, and “price” are extracted as unnecessary metadata in the example of FIG. 6 described above.

これに対して、例えば、除算値を使用する上述した第3の特徴差分演算手法が採用されている場合には、閾値として例えば1未満の値を設定すると好適である。   On the other hand, for example, when the above-described third feature difference calculation method using a division value is adopted, it is preferable to set a value less than 1, for example, as the threshold value.

以上、図2乃至図6を参照して、第1実施形態の情報処理システムまたは情報処理装置、即ち、「共起関係を考慮した不要メタデータ抽出処理」を実行する情報処理システムまたは情報処理装置について説明した。   2 to 6, the information processing system or information processing apparatus according to the first embodiment, that is, the information processing system or information processing apparatus that executes “unnecessary metadata extraction processing considering the co-occurrence relationship”. Explained.

第1実施形態においては、近似行列Dkや、近似行列Dkと元のメタデータ行列Dとの差異などを利用することによって、潜在的な意味レベルでのメタデータ間の関連性(共起関係)を考慮した重み付けがなされる。即ち、特徴差分といった、共起関係を考慮した重要度の指標値が得られる。 In the first embodiment, by utilizing the approximate matrix D k or the difference between the approximate matrix D k and the original metadata matrix D, the relationship (co-occurrence) between the metadata at the potential semantic level is used. The weight is taken into consideration. That is, an index value of importance that takes into account the co-occurrence relationship such as a feature difference is obtained.

従って、このような共起関係を考慮した重要度の指標値(重み値)を利用することで、一見他と関係のないようなメタデータや、一見他と関係があるようで実際には関連性が低いメタデータを発見し、それに基づいた取捨選択が可能となる。   Therefore, by using the importance index value (weight value) considering such a co-occurrence relationship, it seems that it is related to metadata that does not seem to be related to others, or is seemingly related to others. It is possible to discover metadata that has low reliability and make selections based on it.

即ち、一見他と関係のないようなメタデータであるが、本来重要度の高いメタデータを、不要メタデータに誤分類してしまうことを防止することが可能になる。また、一見他と関係があるようで実際には関連性が低いメタデータ、即ち、一見重要度が高そうで実際には重要度が低いメタデータを、不要メタデータに確実に分類することが可能になる。   In other words, it is possible to prevent metadata that is seemingly unrelated to others but that is originally highly important metadata from being misclassified as unnecessary metadata. Also, metadata that seems to be related to others at first glance and is actually less relevant, that is, metadata that seems to be highly important at first glance but is actually less important can be reliably classified as unnecessary metadata. It becomes possible.

(第2実施形態)   (Second Embodiment)

次に、第2実施形態について説明する。   Next, a second embodiment will be described.

従来のコンテンツの推薦では、メタデータの共起関係は考慮されずに、単にTF/IDFによるメタデータ行列Dにおける重みか、あるいはLSAによってメタデータ行列Dが次元圧縮された結果得られる近似行列Dにおける重みが使われており、いずれの方法でも既知の(ユーザが経験した、あるいは高い評価を与えた)ものに類似したコンテンツの推薦しか実現できなかった、という課題があった。 In the conventional content recommendation, the co-occurrence relationship of metadata is not considered, but the weight in the metadata matrix D by TF / IDF, or the approximate matrix D obtained as a result of dimension compression of the metadata matrix D by LSA. The weight in k was used, and there was a problem that any method could only recommend content similar to what was known (experienced or highly rated by the user).

そこで、この課題を解決するために、本発明人は、上述した第2の処理、即ち、「共起関係を考慮した推薦処理」を発明した。   In order to solve this problem, the present inventor has invented the above-described second process, that is, the “recommendation process considering the co-occurrence relationship”.

この第2の処理は、LSAによって生成された近似行列Dk、または、第1実施形態で説明したメタデータの特徴差分を利用する。上述したように、近似行列Dkは、メタデータの共起関係を考慮して生成される行列だからであり、メタデータの特徴差分は、そのメタデータについての共起関係を考慮した重要度の指標値だからである。 This second processing uses the approximate matrix D k generated by the LSA or the feature difference of the metadata described in the first embodiment. As described above, the approximate matrix D k is a matrix generated in consideration of the co-occurrence relationship of metadata, and the feature difference of the metadata has an importance level considering the co-occurrence relationship for the metadata. This is because it is an index value.

以下、この第2の処理の概略について説明する。   The outline of the second process will be described below.

第2実施形態の情報処理システムまたは情報処理装置(以下、第2の処理の概略の説明においては、単に装置と称する)は、とあるコンテンツ(列ベクトル)に着目したときに、特徴差分または近似行列Dの成分値の値に基づいて、コンテンツ推薦に使用するメタデータを1以上抽出する。 The information processing system or information processing apparatus of the second embodiment (hereinafter simply referred to as “device” in the description of the outline of the second processing) has a feature difference or approximation when focusing on a certain content (column vector). One or more metadata used for content recommendation are extracted based on the component value of the matrix Dk .

詳細には、上述したように、特徴差分が大きいメタデータは、元のメタデータ行列Dではそれほど重みが大きくなかったものの、他のメタデータとの共起関係を考慮すると重要であると判断されたメタデータ(以下、重要メタデータと称する)である。従って、ここで言う重要メタデータとは、ユーザがこれまで気がつかなかった創発性の高いメタデータであると考えられる。   Specifically, as described above, the metadata having a large feature difference is determined to be important in consideration of the co-occurrence relationship with other metadata, although the weight is not so large in the original metadata matrix D. Metadata (hereinafter referred to as important metadata). Therefore, the important metadata mentioned here is considered to be highly emergent metadata that the user has not noticed before.

そこで、装置は、例えば特徴差分が大きい上位数個のメタデータを重要メタデータとして抽出することができる。   Therefore, for example, the apparatus can extract the top few metadata having a large feature difference as important metadata.

また、近似行列Dkのうちの大きな成分値に対応するメタデータもまた、重要メタデータであると言える。 Also, it can be said that metadata corresponding to a large component value in the approximate matrix D k is also important metadata.

そこで、装置は、例えば、近似行列Dkの成分値うちの上位数個に対応するメタデータを重要メタデータとして抽出することができる。 Therefore, the apparatus can extract, for example, metadata corresponding to the top several component values of the approximate matrix D k as important metadata.

或いは、装置は、特徴差分に基づいて重要メタデータを抽出するとともに、近似行列Dkの成分値に基づいて重要メタデータを抽出することもできる。即ち、コンテンツ推薦に使用する1以上の重要メタデータとして、特徴差分に基づいて抽出された重要メタデータのみを用いてもよいし、近似行列Dkの成分値に基づいて抽出された重要メタデータのみを用いてもよいし、或いは、特徴差分に基づいて抽出された重要メタデータと、近似行列Dkの成分値に基づいて抽出された重要メタデータとを組み合わせて用いてもよい。 Alternatively, the device can extract the important metadata based on the feature difference and also extract the important metadata based on the component values of the approximate matrix Dk . That is, as the one or more important metadata used for content recommendation, only the important metadata extracted based on the feature difference may be used, or the important metadata extracted based on the component values of the approximate matrix D k. Or the important metadata extracted based on the feature difference and the important metadata extracted based on the component values of the approximate matrix D k may be used in combination.

その後、装置は、このようにして抽出された1以上の重要メタデータそのものを、ユーザがコンテンツを選択するためのきっかけとなる情報として推薦する。或いは、装置は、このようにして抽出された1以上の重要メタデータからなるメタデータ群をひとつのコンテンツ(列ベクトル)とみなして、メタデータ群(列ベクトル)と他のコンテンツ(列ベクトル)とのマッチング処理を行い、そのマッチング処理の結果に基づいて、他のコンテンツを推薦する。   After that, the apparatus recommends the one or more important metadata itself extracted in this way as information that is a trigger for the user to select content. Alternatively, the apparatus regards a metadata group including one or more important metadata extracted in this way as one content (column vector), and the metadata group (column vector) and other content (column vector). And recommends other content based on the result of the matching process.

以上、第2の処理、即ち、「共起関係を考慮した推薦処理」の概略について説明した。   The outline of the second process, that is, the “recommendation process considering the co-occurrence relationship” has been described above.

次に、図7と図8を参照して、第2実施形態の情報処理システムまたは情報処理装置、即ち、「共起関係を考慮した推薦処理」を実行する情報処理システムまたは情報処理装置について説明する。   Next, the information processing system or information processing apparatus according to the second embodiment, that is, the information processing system or information processing apparatus that executes the “recommendation process considering the co-occurrence relationship” will be described with reference to FIGS. To do.

図7は、第2実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。   FIG. 7 illustrates a functional configuration example of the information processing system or the information processing apparatus according to the second embodiment.

換言すると、図1のユーザインタフェース部11乃至コンテンツ推薦部23の全ブロックの中から「共起関係を考慮した推薦処理」の実行に必要なブロックが抽出され、それらのブロックが、「共起関係を考慮した推薦処理」の実行時の情報の流れに従って並べられた図が、図7である。従って、図7に示される各ブロックの説明については、図1を参照して上述しているので、ここでは省略する。   In other words, blocks necessary for executing the “recommendation process considering the co-occurrence relationship” are extracted from all the blocks of the user interface unit 11 to the content recommendation unit 23 in FIG. FIG. 7 is a diagram arranged in accordance with the information flow at the time of the “recommendation process taking into account”. Accordingly, the description of each block shown in FIG. 7 has been described above with reference to FIG.

なお、図7の例では省略されているが、実際には、2つのブロックを結ぶ各矢印内には、即ち、2つのブロックの間には、図1の情報伝送部24が配置されることになる。   Although omitted in the example of FIG. 7, the information transmission unit 24 of FIG. 1 is actually arranged in each arrow connecting the two blocks, that is, between the two blocks. become.

図8は、「共起関係を考慮した推薦処理」の例を説明するフローチャートである。そこで、以下、図8のフローチャートを参照して、「共起関係を考慮した推薦処理」の例について説明する。   FIG. 8 is a flowchart for explaining an example of the “recommendation process considering the co-occurrence relationship”. Therefore, an example of “recommendation processing considering co-occurrence relations” will be described below with reference to the flowchart of FIG.

図8のステップS21乃至S23のそれぞれは、上述した図3のステップS1乃至S3のそれぞれと基本的に同様の処理である。従って、ステップS21乃至S23の処理の説明については省略する。   Each of steps S21 to S23 in FIG. 8 is basically the same processing as each of steps S1 to S3 in FIG. 3 described above. Therefore, the description of the processing in steps S21 to S23 is omitted.

ただし、ステップS21の処理で生成されるメタデータ行列Dに、ユーザの経験と無関係なコンテンツ(コンテンツベクトル)が多く含まれれば含まれるるほど、ステップS23の処理の結果得られる近似行列Dkは、ユーザ特有のメタデータの共起関係の偏りが薄まった行列となり、一般的な意味での共起関係が考慮された行列となる。従って、このような近似行列Dkの各成分値、或いは、このような近似行列Dkから得られる特徴差分に基づいて、後述するステップS24の処理で抽出されるメタデータは、ユーザにとっての創発性は低下したメタデータとなるので、その点注意を要する。即ち、ユーザにとっての創発性が高いメタデータの抽出を所望する場合、ステップS21の処理で生成されるメタデータ行列Dに、ユーザの経験済みのコンテンツ(コンテンツベクトル)を可能な限り多く含めるとよい。 However, the more the content (content vector) irrelevant to the user experience is included in the metadata matrix D generated in the process of step S21, the more the approximate matrix D k obtained as a result of the process of step S23 is. This is a matrix in which the bias of the co-occurrence relationship of user-specific metadata is thinned, and the matrix in which the co-occurrence relationship in a general sense is taken into consideration. Therefore, the metadata extracted in the process of step S24 described later based on each component value of the approximate matrix Dk or the feature difference obtained from the approximate matrix Dk is generated for the user. Note that this is a degraded metadata, so be careful. That is, when it is desired to extract metadata that has high emergence for the user, it is preferable to include as much content (content vector) that the user has experienced in the metadata matrix D generated in the process of step S21 as much as possible. .

ステップS23の処理でLSA演算部20により近似行列Dkが生成されると、処理はステップS24に進む。 When the approximate matrix D k is generated by the LSA calculation unit 20 in the process of step S23, the process proceeds to step S24.

ステップS24において、LSA演算部20は、メタデータ抽出部21により実行される後述するステップS26の処理において、特徴差分を利用するか否かを判定する。   In step S24, the LSA calculation unit 20 determines whether or not to use the feature difference in the process of step S26 described later executed by the metadata extraction unit 21.

LSA演算部20は、ステップS24において、特徴差分を利用すると判定した場合、ステップS25において、各メタデータの特徴差分を演算する。なお、ステップS25の処理は、上述した図3のステップS4の処理と基本的に同様の処理である。従って、ステップS25の処理の詳細については省略する。   If it is determined in step S24 that the feature difference is used, the LSA calculation unit 20 calculates the feature difference of each metadata in step S25. Note that the process of step S25 is basically the same process as the process of step S4 of FIG. 3 described above. Therefore, the details of the process in step S25 are omitted.

その後、近似行列Dkと各メタデータの特徴差分とが、LSA演算部20からメタデータ抽出部21に供給されると、処理はステップS26に進む。 Thereafter, when the approximate matrix D k and the feature difference of each metadata are supplied from the LSA calculation unit 20 to the metadata extraction unit 21, the process proceeds to step S26.

これに対して、ステップS24において、特徴差分を利用しないと判定された場合、近似行列DkのみがLSA演算部20からメタデータ抽出部21に供給されて、処理はステップS26に進む。 On the other hand, when it is determined in step S24 that the feature difference is not used, only the approximate matrix Dk is supplied from the LSA calculation unit 20 to the metadata extraction unit 21, and the process proceeds to step S26.

ステップS26において、メタデータ抽出部21は、近似行列Dkの成分値と、各メタデータの特徴差分とのうちの少なくとも一方を利用して推薦に利用するメタデータ、即ち、重要メタデータを1以上特定し、特定された1以上のメタデータをメタデータ記憶部16から抽出する。 In step S < b> 26, the metadata extraction unit 21 sets metadata to be used for recommendation using at least one of the component value of the approximate matrix D k and the feature difference of each metadata, that is, important metadata as 1. As described above, one or more specified metadata is extracted from the metadata storage unit 16.

ステップS26における重要メタデータの抽出手法(特定手法)は、特に限定されないが、例えば、次のような抽出手法が採用可能である。   The extraction method (specific method) of important metadata in step S26 is not particularly limited. For example, the following extraction method can be employed.

即ち、例えば、近似行列Dkの全列成分、即ち、全コンテンツベクトルの平均ベクトル、あるいはユーザが指定する特定のコンテンツベクトルにおいて、最も高い成分値に対応するメタデータ(または高い方から任意個数のメタデータ)を重要メタデータとして抽出する、といった抽出手法、要約すると、近似行列Dkの成分値を利用する抽出手法を適用することが可能である。 That is, for example, in all column components of the approximate matrix D k , that is, an average vector of all content vectors or a specific content vector specified by the user, metadata corresponding to the highest component value (or an arbitrary number from the higher one) It is possible to apply an extraction method that extracts (metadata) as important metadata, or an extraction method that uses the component values of the approximate matrix Dk .

また、例えば、最も高い特徴差分を有するメタデータ(または高い方から任意個数のメタデータ)を重要メタデータとして抽出する、即ち、重み値が上昇したメタデータを重要メタデータとして抽出する、といった抽出手法、要約すると、特徴差分を利用する抽出手法を適用することが可能である。   Also, for example, extraction of metadata having the highest feature difference (or an arbitrary number of metadata from the highest) as important metadata, that is, extracting metadata with an increased weight value as important metadata To summarize the technique, it is possible to apply an extraction technique that uses feature differences.

具体的には、例えばいま、上述したステップS21乃至S23の処理で、第1実施形態で説明した図4のメタデータ行列Dから、図5の近似行列Dが生成されたとする。また、ステップS25の処理で、図5の近似行列Dと図4のメタデータ行列Dとの差分値を利用する上述した第2の特徴差分演算手法により、図6の各メタデータの特徴差分が演算されたとする。 Specifically, for example, it is assumed that the approximate matrix Dk of FIG. 5 is generated from the metadata matrix D of FIG. 4 described in the first embodiment in the processes of steps S21 to S23 described above. Further, in the process of step S25, the feature difference of each metadata in FIG. 6 is obtained by the above-described second feature difference calculation method using the difference value between the approximate matrix Dk in FIG. 5 and the metadata matrix D in FIG. Is calculated.

この場合、ステップS26の処理で、0.05以上の特徴差分を有するメタデータが重要メタデータとして抽出されるとすれば、”豆腐”と”温泉”とが抽出されることになる。   In this case, if metadata having a feature difference of 0.05 or more is extracted as important metadata in the process of step S26, "tofu" and "hot spring" are extracted.

メタデータ抽出部21により抽出された1以上の重要メタデータがコンテンツ推薦部23に供給されると、処理はステップS27に進む。   When one or more important metadata extracted by the metadata extraction unit 21 is supplied to the content recommendation unit 23, the process proceeds to step S27.

ステップS27において、コンテンツ推薦部23は、コンテンツの推薦を行うか否かを判定する。   In step S27, the content recommendation unit 23 determines whether or not to recommend content.

ステップS27において、コンテンツの推薦を行わないと判定された場合、処理はステップS28に進む。   If it is determined in step S27 that no content is recommended, the process proceeds to step S28.

ステップS28において、コンテンツ推薦部23は、ステップS26の処理でメタデータ抽出部21により抽出された1以上の重要メタデータを、ユーザインタフェース部11を介してユーザに呈示する。   In step S28, the content recommendation unit 23 presents one or more important metadata extracted by the metadata extraction unit 21 in the process of step S26 to the user via the user interface unit 11.

これにより、「共起関係を考慮した推薦処理」は終了となる。   Thereby, the “recommendation process considering the co-occurrence relationship” is completed.

これに対して、ステップS27において、コンテンツの推薦を行うと判定された場合、処理はステップS29に進む。正確には、コンテンツ推薦部23は、ステップS27において、コンテンツの推薦を行うと判定した場合、ステップS26の処理でメタデータ抽出部21により抽出された1以上の重要メタデータをベクトル演算部22に供給するとともに、マッチング処理の依頼を行うことで、処理はステップS29に進む。   On the other hand, if it is determined in step S27 that the content is recommended, the process proceeds to step S29. To be exact, when it is determined in step S27 that content recommendation is to be performed, the content recommendation unit 23 supplies one or more important metadata extracted by the metadata extraction unit 21 in the process of step S26 to the vector calculation unit 22. By supplying and requesting the matching process, the process proceeds to step S29.

ステップS29において、ベクトル演算部22は、ステップS26の処理でメタデータ抽出部21により抽出された1以上の重要メタデータからなるメタデータ群を用いて、コンテンツのマッチング処理を行う。即ち、ステップS29において、ベクトル演算部22は、ステップS26の処理でメタデータ抽出部21により抽出された1以上の重要メタデータからなるメタデータ群を1つのコンテンツ(コンテンツベクトル)とみなし、それと、コンテンツ記憶部15に記憶されている他のコンテンツ(コンテンツベクトル)との類似度を演算し、もっとも類似度の高いコンテンツ(または高い方から任意個数のコンテンツ)を選択し、コンテンツ推薦部23に供給する。   In step S29, the vector calculation unit 22 performs content matching processing using a metadata group including one or more important metadata extracted by the metadata extraction unit 21 in step S26. That is, in step S29, the vector calculation unit 22 regards a metadata group including one or more important metadata extracted by the metadata extraction unit 21 in the process of step S26 as one content (content vector), and The degree of similarity with other content (content vector) stored in the content storage unit 15 is calculated, and the content with the highest similarity (or any number of content from the highest) is selected and supplied to the content recommendation unit 23 To do.

すると、ステップS28において、コンテンツ推薦部23は、ステップS29の処理でベクトル演算部22により選択された1以上のコンテンツの推薦を行う。即ち、ステップS28において、コンテンツ推薦部23は、1以上のそれらのコンテンツのメタデータ(或いは、その関連情報)をユーザインタフェース部11を介してユーザに呈示する。   In step S28, the content recommendation unit 23 recommends one or more contents selected by the vector calculation unit 22 in step S29. That is, in step S28, the content recommendation unit 23 presents one or more pieces of metadata (or related information) of the content to the user via the user interface unit 11.

これにより、「共起関係を考慮した推薦処理」は終了となる。   Thereby, the “recommendation process considering the co-occurrence relationship” is completed.

以上、図7と図8を参照して、第2実施形態の情報処理システムまたは情報処理装置、即ち、「共起関係を考慮した推薦処理」を実行する情報処理システムまたは情報処理装置について説明した。   The information processing system or information processing apparatus according to the second embodiment, that is, the information processing system or information processing apparatus that executes the “recommendation process considering the co-occurrence relationship” has been described above with reference to FIGS. 7 and 8. .

第2実施形態においては、近似行列Dkが得られ、その近似行列Dkや、その近似行列Dkと元のメタデータ行列Dとの差異などを利用することによって、潜在的な意味レベルでのメタデータ間の関連性(共起関係)を考慮した重み付けがなされる。即ち、メタデータの共起関係を考慮した近似行列Dkが得られ、また、メタデータについての共起関係を考慮した重要度の指標値である特徴差分が得られる。 In the second embodiment, an approximate matrix D k is obtained. By using the approximate matrix D k and the difference between the approximate matrix D k and the original metadata matrix D, etc., at a potential semantic level. Are weighted in consideration of the relationship (co-occurrence relationship) between the metadata. That is, an approximate matrix D k that takes into account the co-occurrence relationship of metadata is obtained, and a feature difference that is an index value of importance taking into account the co-occurrence relationship of metadata is obtained.

従って、このような共起関係を考慮した近似行列Dkの成分値や、共起関係を考慮した重要度の指標値(重み値)を利用することで、一見他と関係のないようなメタデータや、一見他と関係があるようで実際には関連性が低いメタデータを発見し、それに基づいた取捨選択が可能となる。 Therefore, by using the component values of the approximate matrix D k considering such a co-occurrence relationship and the importance index values (weight values) considering the co-occurrence relationship, a meta that has no relation to others at first glance is used. It is possible to find metadata and metadata that seem to be related to others at first glance and actually have low relevance, and make selections based on it.

即ち、一見他と関係のないようなメタデータであるが、本来重要度の高いメタデータとは、上述したように、ユーザがこれまで気がつかなかった創発性の高いメタデータ、即ち、重要メタデータであると考えられる。従って、このような重要メタデータに基づいて推薦されるコンテンツも、ユーザがこれまで気がつかなかった創発性の高いコンテンツであると考えられる。   In other words, it is metadata that seems to be unrelated to others at first glance. However, as described above, metadata with high importance is, as described above, highly emergent metadata that has not been noticed by the user, that is, important metadata. It is thought that. Therefore, the content recommended based on such important metadata is also considered to be highly emergent content that the user has not noticed before.

なお、以上説明した第1実施形態や第2実施形態の情報処理システムまたは情報処理装置を、データマイニングや文書分類などの分野における、Feature Selectionなどと呼ばれる属性(メタデータ)の選別処理に適用することもできる。即ち、メタデータの共起関係を考慮した属性(メタデータ)の選別処理の実現も容易に可能である。   The information processing system or information processing apparatus according to the first embodiment or the second embodiment described above is applied to attribute (metadata) selection processing called feature selection or the like in fields such as data mining and document classification. You can also. That is, an attribute (metadata) selection process considering the co-occurrence relationship of metadata can be easily realized.

(第3実施形態)   (Third embodiment)

次に、第3実施形態について説明する。   Next, a third embodiment will be described.

[発明が解決しようとする課題]で上述したように、従来、ベクトル空間法をベースにしたコンテンツ推薦システムのユーザ嗜好ベクトル(User Preference Vector:UPV)の生成手法として、ユーザが高評価を与えたコンテンツ群のコンテンツベクトルの平均によりUPVを生成する生成手法が採用されていることが多い。このような生成手法で生成されたUPVは、ユーザの多様な嗜好をなまらせたベクトルとなっており、このようなUPVを用いてコンテンツの推薦を行っても、幅のある推薦が難しいという課題があった。また、高い評価を与えたコンテンツ群を複数のグループにクラスタリングしてたとえバラエティを出したとしても、やはりユーザがまったく経験したことの無いようなコンテンツの推薦は困難であるという課題があった。   As described above in [Problems to be Solved by the Invention], a user has received high evaluation as a method for generating a user preference vector (UPV) of a content recommendation system based on the vector space method. In many cases, a generation method for generating a UPV based on an average of content vectors of content groups is employed. The UPV generated by such a generation method is a vector that imitates the user's various preferences, and even if content recommendation is performed using such UPV, it is difficult to make a wide range of recommendations was there. In addition, even if a highly evaluated content group is clustered into a plurality of groups to produce a variety, there is a problem that it is difficult to recommend content that the user has never experienced.

そこで、この課題を解決するために、本発明人は、上述した第3の処理、即ち、「クラスタリングされたUPV群の差分を利用した推薦処理」を発明した。   In order to solve this problem, the present inventor invented the above-described third processing, that is, “recommendation processing using a difference between clustered UPV groups”.

以下、この第3の処理の概略について説明する。   The outline of the third process will be described below.

第3実施形態の情報処理システムまたは情報処理装置(以下、第3の処理の概略の説明においては、単に装置と称する)は、メタデータ空間あるいは概念空間において、ユーザが高評価を与えたコンテンツベクトルを、任意のアルゴリズムを用いて複数のグループにクラスタリングする。   The information processing system or information processing apparatus of the third embodiment (hereinafter simply referred to as “device” in the description of the outline of the third processing) is a content vector that is highly evaluated by the user in the metadata space or the concept space. Are clustered into a plurality of groups using an arbitrary algorithm.

装置は、各グループのそれぞれについて、対応するグループに属する1以上のコンテンツベクトルの平均などにより代表となるベクトル(以下、代表ベクトルと称する)を求め、さらに、各グループの代表ベクトル同士の差分を求め、差分を成分とするベクトル(以下、差分UPVと称する)を生成する。   For each group, the apparatus obtains a representative vector (hereinafter referred to as a representative vector) by averaging one or more content vectors belonging to the corresponding group, and further obtains a difference between representative vectors of each group. Then, a vector having the difference as a component (hereinafter referred to as difference UPV) is generated.

即ち、第3実施形態における各グループの代表ベクトルからなるベクトル群とは、クラスタリングされた従来のUPV群であり、差分UPVとは、クラスタリングされた従来のUPV群の差分により生成されるベクトルを指す。   That is, the vector group composed of the representative vectors of each group in the third embodiment is a clustered conventional UPV group, and the difference UPV is a vector generated by the difference of the clustered conventional UPV group. .

装置は、差分UPVを利用してコンテンツのマッチング処理を行い、そのマッチング処理の結果に基づいて、コンテンツの推薦を行う。   The apparatus performs content matching processing using the differential UPV, and recommends content based on the result of the matching processing.

ここで注目すべき点は、差分UPVとは、コンテンツベクトルの平均としては表れなかった(計算し得なかった)嗜好を表すベクトルである点である。従って、差分UPVを利用することで、ユーザがこれまで気がつかなかったコンテンツの推薦が可能になる。   What should be noted here is that the difference UPV is a vector that represents a preference that cannot be calculated as an average of content vectors (it cannot be calculated). Therefore, by using the differential UPV, it is possible to recommend content that the user has not noticed before.

以上、第3の処理、即ち、「クラスタリングされたUPV群の差分を利用した推薦処理」の概略について説明した。   The outline of the third process, that is, the “recommendation process using the difference between clustered UPV groups” has been described above.

次に、図9と図10を参照して、第3実施形態の情報処理システムまたは情報処理装置、即ち、「クラスタリングされたUPV群の差分を利用した推薦処理」を実行する情報処理システムまたは情報処理装置について説明する。   Next, referring to FIG. 9 and FIG. 10, the information processing system or information processing apparatus of the third embodiment, that is, the information processing system or information that executes “recommendation processing using the difference between clustered UPV groups” The processing apparatus will be described.

図9は、第3実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。   FIG. 9 illustrates a functional configuration example of the information processing system or the information processing apparatus according to the third embodiment.

換言すると、図1のユーザインタフェース部11乃至コンテンツ推薦部23の全ブロックの中から「クラスタリングされたUPV群の差分を利用した推薦処理」の実行に必要なブロックが抽出され、それらのブロックが、「クラスタリングされたUPV群の差分を利用した推薦処理」の実行時の情報の流れに従って並べられた図が、図9である。従って、図9に示される各ブロックの説明については、図1を参照して上述しているので、ここでは省略する。   In other words, blocks necessary for executing the “recommendation process using the difference between clustered UPV groups” are extracted from all the blocks of the user interface unit 11 to the content recommendation unit 23 in FIG. FIG. 9 is a diagram arranged according to the information flow when executing the “recommendation process using the difference between clustered UPV groups”. Therefore, the description of each block shown in FIG. 9 has been described above with reference to FIG.

なお、図9の例では省略されているが、実際には、2つのブロックを結ぶ各矢印内には、即ち、2つのブロックの間には、図1の情報伝送部24が配置されることになる。   Although omitted in the example of FIG. 9, the information transmission unit 24 of FIG. 1 is actually arranged in each arrow connecting the two blocks, that is, between the two blocks. become.

図10は、「クラスタリングされたUPV群の差分を利用した推薦処理」の例を説明するフローチャートである。そこで、以下、図10のフローチャートを参照して、「クラスタリングされたUPV群の差分を利用した抽出処理」の例について説明する。   FIG. 10 is a flowchart for explaining an example of the “recommendation process using a difference between clustered UPV groups”. Therefore, an example of “extraction processing using a difference between clustered UPV groups” will be described below with reference to the flowchart of FIG.

図10のステップS41とS42のそれぞれは、上述した図3のステップS1とS2のそれぞれと基本的に同様の処理である。従って、ステップS41とS42の処理の説明については省略する。   Each of steps S41 and S42 in FIG. 10 is basically the same processing as each of steps S1 and S2 in FIG. 3 described above. Therefore, the description of the processes in steps S41 and S42 is omitted.

例えばいま、ステップS41とS42の処理で重み付けがなされたメタデータ行列Dとして、ユーザ評価が高いコンテンツベクトルを集めた行列Aが生成されたとする。なお、以下、Aの各列成分、即ち、各コンテンツベクトルをai(i=0,1,・・・,m-1)と記述する。即ち、行列Aは、次の式(3)で示される。   For example, it is assumed that a matrix A in which content vectors with high user evaluation are collected is generated as the metadata matrix D weighted in the processes of steps S41 and S42. Hereinafter, each column component of A, that is, each content vector is described as ai (i = 0, 1,..., M−1). That is, the matrix A is expressed by the following equation (3).

A = ( a0, a1, ・・・ , am-1) ・・・(3)   A = (a0, a1,..., Am-1) (3)

この場合、ステップS43において、LSA演算部20は、ステップS42の処理で重み付け処理部19により適切な重み付けがなされたメタデータ行列Aに対して、LSA演算を実行する。   In this case, in step S43, the LSA calculation unit 20 performs an LSA calculation on the metadata matrix A appropriately weighted by the weighting processing unit 19 in the process of step S42.

ただし、第3実施形態のステップS43の処理では、LSA演算のうちの第1の処理と第2の処理が実行される。   However, in the process of step S43 of the third embodiment, the first process and the second process of the LSA calculation are executed.

具体的には例えば、ステップS43のLSA演算において、上述した式(1)で示される特異値分解によって、行列Aは、3つの成分行列U,Σ,Vのそれぞれに分解される。   Specifically, for example, in the LSA calculation in step S43, the matrix A is decomposed into each of the three component matrices U, Σ, and V by the singular value decomposition expressed by the above-described equation (1).

次に、ステップS43のLSA演算において、成分行列Uがk次元に圧縮され、その結果、射影行列Ukが得られる。即ち、射影行列Ukとは、成分行列Uのうちの、特異値の大きい方からk個の列成分(列ベクトル)のみを残し、それ以外の成分が0である行列を指す。 Next, in the LSA calculation in step S43, the component matrix U is compressed to k dimensions, and as a result, a projection matrix U k is obtained. That is, the projection matrix U k refers to a matrix in which only k column components (column vectors) from the component matrix U having the largest singular value are left and the other components are zero.

次に、ステップS43のLSA演算において、射影行列Ukによって行列Aが概念空間に射影される。なお、その結果得られる行列を、例えば、行列Bと記述するとする。この場合、、射影行列Ukによって行列Aが概念空間に射影されるとは、次の式(4)に従った演算がなされたことを指す。なお、式(4)において、行列Uk Tは、射影行列Ukの転置行列を表している。 Next, in the LSA calculation of step S43, the matrix A is projected onto the concept space by the projection matrix U k . Note that a matrix obtained as a result is described as a matrix B, for example. In this case, the fact that the matrix A is projected onto the concept space by the projection matrix U k indicates that an operation according to the following equation (4) has been performed. In Equation (4), the matrix U k T represents a transposed matrix of the projection matrix U k .

B = Uk TA ・・・(4) B = U k T A (4)

また、行列Bの各列成分(列ベクトル)をbi(i=0,1,・・・,m-1)と記述する。即ち、行列Bは、次の式(5)で表される。   Each column component (column vector) of the matrix B is described as bi (i = 0, 1,..., M−1). That is, the matrix B is expressed by the following equation (5).

B = ( b0, b1, ・・・ , bm-1) ・・・(5)   B = (b0, b1, ..., bm-1) (5)

この列ベクトルbiが、k次元に圧縮されたコンテンツベクトル、即ち、概念空間に射影されたコンテンツベクトルである。   This column vector bi is a content vector compressed in the k dimension, that is, a content vector projected onto the concept space.

即ち、ステップS43の処理では、概念空間に射影された各コンテンツベクトルbiが得られることになる。なお、以下、概念空間に射影された各コンテンツベクトルbiの集合体、即ち、行列Bを、概念空間に射影されたコンテンツベクトル群と称する。   That is, in the process of step S43, each content vector bi projected into the concept space is obtained. Hereinafter, an aggregate of each content vector bi projected onto the concept space, that is, the matrix B is referred to as a content vector group projected onto the concept space.

そこで、ステップS44において、ベクトル演算部22は、ステップS43のLSA演算部20の処理により概念空間に射影されたコンテンツベクトル群のクラスタリングを行う。即ち、ステップS44において、ベクトル演算部22は、概念空間に射影された各コンテンツベクトルbiのそれぞれを、任意のアルゴリズムで、任意の数の任意の種類のクラスタのうちのいずれかに分類する。   Therefore, in step S44, the vector calculation unit 22 performs clustering of content vector groups projected onto the concept space by the processing of the LSA calculation unit 20 in step S43. That is, in step S44, the vector calculation unit 22 classifies each content vector bi projected onto the concept space into one of an arbitrary number of arbitrary types of clusters using an arbitrary algorithm.

なお、ステップS44の処理を実行するベクトル演算部22は、クラスタリング部22であると言える。そこで、図9のLSA演算部20の下方に示されるベクトル演算部22は、クラスタリング部22と括弧書きで示されているのである。   It can be said that the vector calculation unit 22 that executes the process of step S44 is the clustering unit 22. Therefore, the vector calculation unit 22 shown below the LSA calculation unit 20 in FIG. 9 is shown in parentheses with the clustering unit 22.

具体的には例えばいま、ステップS44において、概念空間に射影された各コンテンツベクトルbiのそれぞれが、s個のクラスタのうちのいずれかに分類されたとする。   Specifically, for example, it is now assumed that each content vector bi projected onto the concept space is classified into one of s clusters in step S44.

次に、ステップS45において、ベクトル演算部22は、代表ベクトル(UPV)をそれぞれ生成する。即ち、いまの場合、ステップS45において、ベクトル演算部22は、s個のクラスタのそれぞれについて、対応するクラスタに属する1以上のコンテンツベクトルbiの平均ベクトル、即ち、1以上のコンテンツベクトルbiの各成分の平均値を、その成分値として有するベクトルを生成し、その平均ベクトルを代表ベクトル(UPV)とする。   Next, in step S45, the vector calculation unit 22 generates a representative vector (UPV). That is, in this case, in step S45, the vector calculation unit 22 calculates, for each of the s clusters, an average vector of one or more content vectors bi belonging to the corresponding cluster, that is, each component of the one or more content vectors bi. Is generated as a component value, and the average vector is used as a representative vector (UPV).

なお、以下、この代表ベクトルを、cj’( j = 0,1,・・・,s-1)と記述するとする。   Hereinafter, this representative vector is described as cj ′ (j = 0, 1,..., S−1).

ステップS46において、ベクトル演算部22は、代表ベクトル(UPV)同士の差分である差分UPVを生成する。即ち、ステップS46において、ベクトル演算部22は、s個のクラスタの代表ベクトルcj’のうちの任意の2個の組み合わせの差分を求めることで、1つの差分ベクトルを生成する。   In step S46, the vector calculation unit 22 generates a difference UPV that is a difference between representative vectors (UPV). That is, in step S46, the vector calculation unit 22 generates one difference vector by obtaining a difference between two arbitrary combinations of the representative vectors cj ′ of the s clusters.

なお、このような2個のクラスタの組合せの総数は、クラスタの個数sに応じて異なるが、クラスタの個数sが3以上の場合、当然ながら複数になる。従って、この場合、仮に全ての組み合わせについて、差分UPVがそれぞれ生成されるとすると、複数の差分UPVが生成されることになる。   The total number of such combinations of two clusters differs depending on the number of clusters s. However, when the number of clusters s is 3 or more, it is naturally plural. Accordingly, in this case, if the difference UPVs are generated for all the combinations, a plurality of difference UPVs are generated.

具体的には例えばいまの場合、ステップS46の処理で、次の式(6)の右辺が演算され、ベクトルd’p,qのそれぞれが、各差分UPVとして生成されることになる。なお、式(6)において、p,q = 0,1,・・・,s-1である。ただしp≠qである。   Specifically, for example, in the present case, in the process of step S46, the right side of the following equation (6) is calculated, and each of the vectors d'p, q is generated as each difference UPV. In Equation (6), p, q = 0, 1,..., S−1. However, p ≠ q.

d’p,q = c’p - c’q ・・・(6)   d’ p, q = c’p−c’q (6)

なお、差分UPVを生成するための組合せは、全ての組合せである必要は特になく、任意の数の任意の組合せでよい。いずれにしても、ステップS46の処理で1以上の差分UPVが生成されることになる。そこで、以下、1以上の差分UPVを、差分UPV群とする。即ち、ステップS46の処理で差分UPV群が生成されることになる。   Note that the combinations for generating the differential UPV need not be all combinations, and may be an arbitrary number of arbitrary combinations. In any case, one or more differential UPVs are generated in the process of step S46. Therefore, hereinafter, one or more differential UPVs are defined as a differential UPV group. That is, the difference UPV group is generated in the process of step S46.

また、ステップS46の処理としてさらに、ベクトル演算部22は、概念空間の第1主成分(特異値分解によって最も高い特異値とペアとなるベクトル基底値)の値が高い順などの所定の規則に従って、差分UPV群に属する各差分UPVのそれぞれの順序付けをすることもできる。   Further, as the processing of step S46, the vector calculation unit 22 further follows a predetermined rule such as the descending order of the value of the first principal component (vector basis value paired with the highest singular value by singular value decomposition) in the concept space. Each differential UPV belonging to the differential UPV group can also be ordered.

ベクトル演算部22は、差分UPV群を生成すると、その旨コンテンツ推薦部23に通知する。その後、コンテンツ推薦部23からマッチング処理の依頼がベクトル演算部22に通知されると、処理はステップS47に進む。   When generating the difference UPV group, the vector calculation unit 22 notifies the content recommendation unit 23 to that effect. Thereafter, when a request for matching processing is notified from the content recommendation unit 23 to the vector calculation unit 22, the process proceeds to step S47.

ステップS47において、ベクトル演算部22は、ステップS46の処理で生成された差分UPV群を利用して、コンテンツのマッチング処理を行う。   In step S47, the vector calculation unit 22 performs content matching processing using the differential UPV group generated in step S46.

即ち、ステップS47において、ベクトル演算部22は、差分UPV群に属する各差分UPVのそれぞれと、コンテンツ記憶部15に記憶されている他のコンテンツ(コンテンツベクトル)との類似度を演算し、もっとも類似度の高いコンテンツ(または高い方から任意個数のコンテンツ)を選択し、コンテンツ推薦部23に供給する。   That is, in step S47, the vector calculation unit 22 calculates the similarity between each difference UPV belonging to the difference UPV group and the other content (content vector) stored in the content storage unit 15, and the most similar A content with a higher degree (or an arbitrary number of contents from the higher one) is selected and supplied to the content recommendation unit 23.

具体的には例えばいまの場合、差分UPV群には、各ベクトルd’p,q ( p,q = 0,1,・・・,s-1、ただしp≠q )が属しているので、ステップS47の処理で、全てのp,qについて(あるいは順位付けされていれば上位の数個について)、対応するベクトルd’p,qと新たなコンテンツベクトルとの類似度が演算される。   Specifically, for example, in this case, each vector d'p, q (p, q = 0,1, ..., s-1, where p ≠ q) belongs to the differential UPV group. In the process of step S47, the similarity between the corresponding vector d'p, q and the new content vector is calculated for all p, q (or for the top several if ranked).

なお、ステップS44の処理を実行するベクトル演算部22に対して、このステップS47の処理を実行するベクトル演算部22は、マッチング部22であると言える。そこで、図9のコンテンツ推薦部23の右隣に示されるベクトル演算部22は、マッチング部22と括弧書きで示されているのである。   In addition, it can be said that the vector calculation part 22 which performs this process of step S47 is the matching part 22 with respect to the vector calculation part 22 which performs the process of step S44. Therefore, the vector calculation unit 22 shown on the right side of the content recommendation unit 23 in FIG. 9 is shown in parentheses with the matching unit 22.

ステップS48において、コンテンツ推薦部23は、ステップS47の処理でベクトル演算部22により選択された1以上のコンテンツの推薦を行う。即ち、ステップS48において、コンテンツ推薦部23は、1以上のそれらのコンテンツのメタデータ(或いは、その関連情報)をユーザインタフェース部11を介してユーザに呈示する。   In step S48, the content recommendation unit 23 recommends one or more contents selected by the vector calculation unit 22 in the process of step S47. That is, in step S48, the content recommendation unit 23 presents one or more pieces of metadata (or related information) of the content to the user via the user interface unit 11.

これにより、「クラスタリングされたUPV群の差分を利用した推薦処理」は終了となる。   Thus, the “recommendation process using the difference between clustered UPV groups” is completed.

以上、図9と図10を参照して、第3実施形態の情報処理システムまたは情報処理装置、即ち、「クラスタリングされたUPV群の差分を利用した推薦処理」を実行する情報処理システムまたは情報処理装置について説明した。   As described above, with reference to FIGS. 9 and 10, the information processing system or information processing apparatus according to the third embodiment, that is, the information processing system or information processing that executes the “recommendation process using the difference between clustered UPV groups”. The apparatus has been described.

第3実施形態においては、次のような効果を奏することが可能になる。即ち、従来においては、上述したように、UPVは、ユーザ評価の高いコンテンツベクトルの平均などから生成される。従って、そのようなUPVと類似度の高いコンテンツは必然的にユーザが経験したコンテンツに似たものになり、コンテンツ推薦のバリエーションが狭いという課題があった。これに対して、第3の実施形態においては、差分UPVを利用したマッチング処理の結果に基づいてコンテンツ推薦が行われるので、ユーザが経験したことが無く、かつユーザの好みをある程度反映したコンテンツの推薦ができる、という効果を奏することが可能になる。   In the third embodiment, the following effects can be obtained. That is, conventionally, as described above, the UPV is generated from the average of content vectors having a high user evaluation. Therefore, content having a high degree of similarity with UPV inevitably resembles the content experienced by the user, and there is a problem that variations in content recommendation are narrow. On the other hand, in the third embodiment, content recommendation is performed based on the result of the matching process using the differential UPV, so that the content of the content that has never experienced the user and reflects the user's preference to some extent It is possible to produce an effect that recommendation can be made.

以下、第3実施形態のこの効果についてさらに説明する。なお、理解を容易なものとするために、上述した図10のフローチャートに示される各ステップを適宜参照しながら説明していく。   Hereinafter, this effect of the third embodiment will be further described. In addition, in order to make an understanding easy, it demonstrates, referring suitably each step shown by the flowchart of FIG. 10 mentioned above.

射影前のメタデータ空間においては、即ち、ステップS43の処理の前においては、例えば文書における単語頻度などを利用してメタデータ行列Dが生成されている場合、その列成分、即ち、コンテンツベクトルの負のベクトル要素(負の成分値であり、以下、負要素と称する)は意味を持たない。   In the metadata space before projection, that is, before the processing in step S43, if the metadata matrix D is generated using, for example, the word frequency in the document, its column component, that is, the content vector Negative vector elements (negative component values, hereinafter referred to as negative elements) have no meaning.

従って、メタデータ空間においては、コンテンツベクトル群がクラスタリングされ、各クラスタの代表ベクトル(UPV)が生成され、代表ベクトルUPV同士の差分がとられたとしても、その結果得られるベクトルとコンテンツとのマッチング処理では、負要素は情報として利用できない   Therefore, in the metadata space, content vector groups are clustered, representative vectors (UPV) of each cluster are generated, and even if the difference between representative vectors UPV is taken, matching between the resulting vector and content is performed. In processing, negative elements cannot be used as information

これに対して、ステップS43の処理後においては、即ち、特異値分解によりメタデータ空間が射影された結果得られる概念空間においては、上述したように、各コンテンツベクトルは、負要素を持つようになる。   On the other hand, after the process of step S43, that is, in the concept space obtained as a result of projecting the metadata space by singular value decomposition, as described above, each content vector has a negative element. Become.

従って、概念空間においては、上述したステップS44乃至S46の結果得られた差分UPVがステップS47のマッチング処理で利用される場合、即ち、概念空間に射影されたコンテンツベクトル群がクラスタリングされ、各クラスタの代表ベクトル(UPV)が生成され、代表ベクトルUPV同士の差分がとられて生成された差分UPVがマッチング処理に利用される場合、負要素を含めた全ての要素が有効になる。   Therefore, in the concept space, when the difference UPV obtained as a result of steps S44 to S46 described above is used in the matching process in step S47, that is, the content vector group projected on the concept space is clustered, and each cluster When the representative vector (UPV) is generated and the difference UPV generated by taking the difference between the representative vectors UPV is used for the matching process, all the elements including the negative element are valid.

具体的には例えば、ステップS44の処理で、概念空間においてユーザの好みによりクラスタリングが行われ、第1の好みを示すクラスタの代表ベクトルc1ではe1,e2,e3という概念基底で高い重みがついており、第1の好みとは別の第2の好みを示すクラスタの代表ベクトルc2ではe2,e3,e4という概念基底で高い重みがついているとする。なお、説明の簡略上、e1乃至e4の重み値(成分値)は全て正値とする。   Specifically, for example, in the process of step S44, clustering is performed according to the user's preference in the concept space, and the cluster representative vector c1 indicating the first preference has a high weight on the concept basis e1, e2, e3. The representative vector c2 of the cluster indicating the second preference different from the first preference is assumed to have a high weight on the conceptual basis of e2, e3, e4. For simplicity of explanation, the weight values (component values) of e1 to e4 are all positive values.

なお、概念基底とは、概念空間を張る基底を指し、具体的には例えば、メタデータ行列Dを上述した式(1)に従って特異値分解したときの成分行列Uの各列成分(列ベクトル)を指す。   Note that the concept basis refers to a basis that extends the concept space. Specifically, for example, each column component (column vector) of the component matrix U when the metadata matrix D is subjected to singular value decomposition according to the above-described equation (1). Point to.

この場合、代表ベクトルc1と代表ベクトルc2の差分UPVであるベクトル(c1-c2)においては、概念基底e1の正の高い重み値と、概念基底e4の負の高い重み値とが残る。即ち、概念基底e2と概念基底e3においては、高い重み値と高い重み値との差分が取られた結果、両者の重み値は相殺しあって、その重み値の絶対値は、概念基底e1,e4の重み値の絶対値に比較して遥かに低い値になる。   In this case, in the vector (c1-c2) which is the difference UPV between the representative vector c1 and the representative vector c2, the positive high weight value of the concept base e1 and the negative high weight value of the concept base e4 remain. That is, in the concept base e2 and the concept base e3, as a result of taking the difference between the high weight value and the high weight value, the weight values of the two cancel each other, and the absolute value of the weight value is the concept base e1, The value is much lower than the absolute value of the weight value of e4.

従って、ステップS47において、このような差分UPVにマッチするコンテンツとは、概念基底e1に射影されるメタデータに高い重みがあり、かつ概念基底e4に関して負方向に射影されるメタデータに高い重みがあるものであると言える。概念基底e4に負方向に射影されるメタデータは、概念基底e1乃至e4の正方向に射影されるメタデータと何かしらの関連があったっとしても、ユーザが経験したコンテンツには付加されていない可能性がある。このため、概念基底e4に負方向に射影されるメタデータもマッチング処理の対象に加えることで、ユーザの新たな興味の触発を図ることが可能なコンテンツ推薦を行うことが可能になる。   Accordingly, in step S47, such content that matches the difference UPV has a high weight on the metadata projected onto the concept base e1 and a high weight on the metadata projected in the negative direction with respect to the concept base e4. It can be said that there is something. The metadata projected in the negative direction on the concept base e4 may not be added to the content experienced by the user, even if there is something related to the metadata projected in the positive direction of the concept bases e1 to e4 There is sex. For this reason, by adding the metadata projected in the negative direction to the concept base e4 to the target of the matching process, it is possible to perform content recommendation that can trigger a new interest of the user.

(第4実施形態)   (Fourth embodiment)

次に、第4実施形態について説明する。   Next, a fourth embodiment will be described.

従来においても、ユーザ評価値を利用したコンテンツの推薦が行われている。例えば、P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, and J. Riedl. “GroupLens: Open Architecture for Collaborative Filtering of Newnews.” Conference on Computer Supported Cooperative Work, pp. 175-186, 1994.などには、協調フィルタリングとユーザ評価値とを利用したコンテンツの推薦の手法が開示されている。また、特開2002-269143号公報には、LSAとユーザ評価値とを利用したコンテンツの推薦の手法が開示されている。   Conventionally, content recommendation using user evaluation values has been performed. For example, P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, and J. Riedl. “GroupLens: Open Architecture for Collaborative Filtering of Newnews.” Conference on Computer Supported Cooperative Work, pp. 175-186, 1994. Discloses a content recommendation technique using collaborative filtering and user evaluation values. Japanese Patent Laid-Open No. 2002-269143 discloses a content recommendation method using LSA and a user evaluation value.

しかしながら、これらの手法では、異なるユーザ間の評価の類似性を単に利用しているだけであり、1ユーザ内での同じような傾向を持つコンテンツに対する評価の時間的な変化と、その把握内容とは考慮されていない。このため、このような手法で推薦されるコンテンツは現在のユーザの嗜好に必ずしも適したものではない、という課題があった。   However, these methods simply use the similarity of evaluation between different users, and the temporal change of evaluation for content having the same tendency within one user and the grasped contents Is not considered. Therefore, there is a problem that the content recommended by such a method is not necessarily suitable for the current user's preference.

そこで、この課題を解決するために、本発明人は、上述した第4の処理、即ち、「LSAによるコンテンツの再評価処理」を発明した。   Therefore, in order to solve this problem, the present inventors have invented the above-described fourth processing, that is, “content re-evaluation processing by LSA”.

以下、この第4の処理の概略について説明する。   The outline of the fourth process will be described below.

例えばいま、ユーザの経験したコンテンツ(新規コンテンツ)が増え、それに伴い、第4実施形態の情報処理システムまたは情報処理装置(以下、第4の処理の概略の説明においては、単に装置と称する)が、新規コンテンツのコンテンツベクトルを元のメタデータ行列Dに加えることでメタデータ行列Dを更新し、更新後のメタデータ行列Dの近似行列Dを生成したとする。即ち、近似行列Dが更新されたとする。 For example, now the content (new content) experienced by the user has increased, and accordingly, the information processing system or information processing apparatus of the fourth embodiment (hereinafter simply referred to as “device” in the outline of the fourth process). Assume that the metadata matrix D is updated by adding the content vector of the new content to the original metadata matrix D, and an approximate matrix D k of the updated metadata matrix D is generated. That is, it is assumed that the approximate matrix Dk has been updated.

この場合、更新前の近似行列Dに含まれていたコンテンツベクトル(列成分)の成分は、更新後の近似行列Dにおいてはその成分値が変化することになる。 In this case, the component value of the content vector (column component) included in the approximate matrix D k before the update changes in the approximate matrix D k after the update.

そこで、第4実施形態においては、メタデータの他にユーザの評価値も基底として有するコンテンツベクトルが利用され、このようなコンテンツベクトルからメタデータ行列Dが生成される。   Therefore, in the fourth embodiment, a content vector having a user evaluation value as a base in addition to metadata is used, and a metadata matrix D is generated from such content vector.

その後、ユーザの経験したコンテンツ(新規コンテンツ)が増え、新規コンテンツに対するユーザの評価値も入力された場合、装置は、新規コンテンツを、そのメタデータとユーザの評価値とを基底としてベクトル化する。これにより、新規コンテンツのコンテンツベクトルが生成される。そして、装置は、新規コンテンツのコンテンツベクトルを元のメタデータ行列Dに加えることでメタデータ行列Dを更新し、更新後のメタデータ行列Dの近似行列Dを生成する。即ち、近似行列Dが更新される。 Thereafter, when the content experienced by the user (new content) increases and the user's evaluation value for the new content is also input, the apparatus vectorizes the new content based on the metadata and the user's evaluation value. Thereby, a content vector of the new content is generated. Then, the device updates the metadata matrix D by adding the content vector of the new content to the original metadata matrix D, and generates an approximate matrix Dk of the updated metadata matrix D. That is, the approximate matrix Dk is updated.

この場合、上述したように、新規コンテンツのコンテンツベクトルの評価値(更新後のメタデータ行列Bの対応する成分値)によって、新規コンテンツと類似する既存のコンテンツの評価値(更新後の近似行列Dの対応する評価値)も変化することになる。 In this case, as described above, the evaluation value of the existing content similar to the new content (updated approximate matrix D) is determined by the evaluation value of the content vector of the new content (corresponding component value of the updated metadata matrix B). The corresponding evaluation value of k ) will also change.

換言すると、装置は、近似行列Dを、新規コンテンツのコンテンツベクトルを含むように更新することで、既存のコンテンツの再評価(評価値の更新)を行っていると言える。 In other words, it can be said that the apparatus is performing reevaluation (update of the evaluation value) of the existing content by updating the approximate matrix D k so as to include the content vector of the new content.

このような既存のコンテンツの再評価により、かつてはユーザ推薦対象の基準値に達していなかったコンテンツの評価値がLSA実行後に基準値に達する場合がでてくる。このような場合、装置は、LSA実行後に基準値に達した評価値を有するコンテンツをユーザに推薦することができる。即ち、装置は、過去においては推薦の対象外であったコンテンツ、即ち、過去においては推薦されずに切り捨てられていたたコンテンツの中から、現在のユーザの嗜好にあった推薦を行うことが可能となる。換言すると、嗜好の時間変化への対応が可能となる。   As a result of such re-evaluation of existing content, the evaluation value of content that has not reached the reference value of the user recommendation target may reach the reference value after LSA execution. In such a case, the apparatus can recommend to the user content having an evaluation value that has reached the reference value after execution of LSA. In other words, the device can make recommendations according to the current user's preference from contents that were not recommended in the past, that is, contents that were not recommended in the past and were discarded. It becomes. In other words, it is possible to cope with a change in preference over time.

以上、第4の処理、即ち、「LSAによるコンテンツの再評価処理」の概略について説明した。   The outline of the fourth process, that is, the “content re-evaluation process by LSA” has been described above.

次に、図11と図12を参照して、第4実施形態の情報処理システムまたは情報処理装置、即ち、「LSAによるコンテンツの再評価処理」を実行する情報処理システムまたは情報処理装置について説明する。   Next, an information processing system or information processing apparatus according to the fourth embodiment, that is, an information processing system or information processing apparatus that executes “content reevaluation processing by LSA” will be described with reference to FIGS. 11 and 12. .

図11は、第4実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。   FIG. 11 illustrates a functional configuration example of the information processing system or the information processing apparatus according to the fourth embodiment.

換言すると、図1のユーザインタフェース部11乃至コンテンツ推薦部23の全ブロックの中から「LSAによるコンテンツの再評価処理」の実行に必要なブロックが抽出され、それらのブロックが、「LSAによるコンテンツの再評価処理」の実行時の情報の流れに従って並べられた図が、図11である。従って、図11に示される各ブロックの説明については、図1を参照して上述しているので、ここでは省略する。   In other words, blocks necessary for executing the “content re-evaluation process by LSA” are extracted from all the blocks of the user interface unit 11 to the content recommendation unit 23 of FIG. FIG. 11 is a diagram arranged in accordance with the information flow at the time of executing the “re-evaluation process”. Therefore, the description of each block shown in FIG. 11 has been described above with reference to FIG.

なお、図11の例では省略されているが、実際には、2つのブロックを結ぶ各矢印内には、即ち、2つのブロックの間には、図1の情報伝送部24が配置されることになる。   Although omitted in the example of FIG. 11, the information transmission unit 24 of FIG. 1 is actually arranged in each arrow connecting the two blocks, that is, between the two blocks. become.

図12は、「LSAによるコンテンツの再評価処理」の例を説明するフローチャートである。そこで、以下、図12のフローチャートを参照して、「LSAによるコンテンツの再評価処理」の例について説明する。   FIG. 12 is a flowchart for explaining an example of “content re-evaluation processing by LSA”. Accordingly, an example of “content reevaluation processing by LSA” will be described below with reference to the flowchart of FIG.

なお、この「LSAによるコンテンツの再評価処理」の理解を容易なものとするために、以下、図13乃至図15を適宜参照しながら説明していく。即ち、図13乃至図15は、「共起関係を考慮した不要メタデータ抽出処理」の処理結果の具体例を示している。   In order to facilitate understanding of the “content re-evaluation process by LSA”, the following description will be given with reference to FIGS. 13 to 15 as appropriate. That is, FIGS. 13 to 15 show specific examples of processing results of “unnecessary metadata extraction processing considering co-occurrence relationships”.

ここでは例えば、図13乃至図15に示されるように、コンテンツとして楽曲が処理対象とされ、メタデータとして、その楽曲の特徴量が採用されているとする。具体的には例えば、図13乃至図15に示されるように、“テンポ”,“明るさ”,“緩急”,“音量”,“音の密度”といった5つの特徴量が採用されているとする。また、コンテンツベクトルの基底は、これらの5つの特徴量の他に、音楽に対するユーザの評価値である“評価”が加えられているとする。即ち、図13乃至図15に示されるように、ここでは、コンテンツベクトルとは、(“テンポ”,“明るさ”,“緩急”,“音量”,“音の密度”,“評価”)といった形式のベクトルとなる。   Here, for example, as shown in FIGS. 13 to 15, it is assumed that a piece of music is a processing target and the feature amount of the piece of music is adopted as metadata. Specifically, for example, as shown in FIGS. 13 to 15, five feature amounts such as “tempo”, “brightness”, “slow / slow”, “volume”, and “sound density” are employed. To do. Further, it is assumed that “evaluation” which is a user evaluation value for music is added to the base of the content vector in addition to these five feature amounts. That is, as shown in FIG. 13 to FIG. 15, here, the content vector is (“tempo”, “brightness”, “slow / slow”, “volume”, “sound density”, “evaluation”). Is a vector of the form.

また、4つの楽曲t1乃至t4が処理対象となる「LSAによるコンテンツの再評価処理」が過去に行われ、その際に、図13のメタデータ行列D0が生成され、また、そのメタデータ行列D0がLSA演算により2次元に圧縮された結果として、図14の近似行列D0kが生成されたとする。 In addition, the “content re-evaluation process by LSA” in which the four music pieces t1 to t4 are processed is performed in the past. At this time, the metadata matrix D0 of FIG. 13 is generated, and the metadata matrix D0 is also generated. There as a result of being compressed in two dimensions by LSA computing, and approximated matrix D0 k in FIG. 14 is generated.

図13に示されるように、メタデータ行列D0とは、楽曲t1乃至t4の各コンテンツベクトルのそれぞれを、1列目乃至4列目のそれぞれの列成分とする6行4列の行列である。楽曲t1のコンテンツベクトルとは(3,4,1,1,1,2)である。楽曲t2のコンテンツベクトルとは(1,1,3,3,1,3)である。楽曲t3のコンテンツベクトルとは(1,1,1,4,3,4)である。楽曲t4のコンテンツベクトルとは(1,1,3,1,2,1)である。   As illustrated in FIG. 13, the metadata matrix D0 is a 6 × 4 matrix in which each content vector of the music pieces t1 to t4 is each column component of the first column to the fourth column. The content vector of the music t1 is (3,4,1,1,1,2). The content vector of the music piece t2 is (1,1,3,3,1,3). The content vector of the music t3 is (1,1,1,4,3,4). The content vector of the music t4 is (1,1,3,1,2,1).

また、図14に示されるように、近似行列D0kとは、次のように更新された楽曲t1乃至楽曲t4の各コンテンツベクトルのそれぞれを、1列目乃至4列目のそれぞれの列成分とする6行4列の行列である。楽曲t1の更新されたコンテンツベクトルとは(2.9829,3.9135,1,1460,0.9474,1.3666,1.8780)である。楽曲t2の更新されたコンテンツベクトルとは(1.0413,1.0535,1.8432,3.2809,1.1293,3.2931)である。楽曲t3の更新されたコンテンツベクトルとは(0.9531,0.8869,2.0439,3,7325,1.1950,3.6664)である。楽曲t4の更新されたコンテンツベクトルとは(1.0503,1.2953,0.7850,1.1136,0.6536,1.3586)である。 Further, as shown in FIG. 14, the approximate matrix D0 k represents the content vectors of the music pieces t1 to t4 updated as follows and the respective column components of the first to fourth columns. This is a 6 × 4 matrix. The updated content vector of the music t1 is (2.9829,3.9135,1,1460,0.9474,1.3666,1.8780). The updated content vector of the music piece t2 is (1.0413, 1.0535, 1.8432, 3.2809, 1.1293, 3.2931). The updated content vector of the musical piece t3 is (0.9531, 0.8869, 2.0439, 3, 7325, 1.1950, 3.6664). The updated content vector of the music t4 is (1.0503, 1.2953, 0.7850, 1.1136, 0.6536, 1.3586).

その後、ユーザは、新規楽曲t5を視聴し、図11のユーザインタフェース部11を利用して新規楽曲t5の評価を行ったとする。この場合、新規楽曲t5のIDと評価値とはユーザプロファイル記憶部12に記憶され、新規楽曲t5のメタデータ、即ち、新規楽曲t5についての“テンポ”,“明るさ”,“緩急”,“音量”,“音の密度”はメタデータ記憶部16に記憶される。   Thereafter, it is assumed that the user views the new music t5 and evaluates the new music t5 using the user interface unit 11 of FIG. In this case, the ID and evaluation value of the new song t5 are stored in the user profile storage unit 12, and the metadata of the new song t5, that is, “tempo”, “brightness”, “slow”, “ The “volume” and “sound density” are stored in the metadata storage unit 16.

そして、それに伴い、図12の「LSAによるコンテンツの再評価処理」が開始されたとする。   As a result, it is assumed that the “content re-evaluation process by LSA” in FIG. 12 is started.

この場合、ステップS61とS62において、図3のステップS1とS2と同様の処理が実行されて、例えば図15に示されるようなメタデータ行列Dが行列生成部18により生成される。   In this case, in steps S61 and S62, processing similar to that in steps S1 and S2 in FIG. 3 is executed, and for example, the matrix matrix D as shown in FIG.

詳細には例えば、楽曲t5のコンテンツベクトルとして(4,2,1,1,1,5)が生成され、その楽曲t5のコンテンツベクトルが、図13のメタデータ行列D0に付加されて、図15のメタデータ行列Dが生成される。   Specifically, for example, (4, 2, 1, 1, 1, 5) is generated as the content vector of the music t5, and the content vector of the music t5 is added to the metadata matrix D0 in FIG. Metadata matrix D is generated.

このようにして、ステップS61とS62の処理により、楽曲t1乃至t5の各コンテンツベクトルのそれぞれを、1列目乃至5列目のそれぞれの列成分とする6行5列の行列が、メタデータ行列Dとして生成される。このメタデータ行列Dが重み付け処理部19からLSA演算部20に供給されると、処理はステップS63に進む。   In this way, by the processing in steps S61 and S62, a 6-row and 5-column matrix in which each content vector of the music pieces t1 to t5 is a column component in each of the first to fifth columns is a metadata matrix. Generated as D. When the metadata matrix D is supplied from the weighting processing unit 19 to the LSA calculation unit 20, the process proceeds to step S63.

図12に戻り、ステップS63において、LSA演算部20は、図15のメタデータ行列Dに対して、LSA演算を実行する。   Returning to FIG. 12, in step S63, the LSA operation unit 20 performs the LSA operation on the metadata matrix D of FIG.

いまの場合、ステップS63の処理として、LSA演算のうちの第1の処理と第3の処理が実行されて、その結果、例えば、2次元に圧縮された図16に示される近似行列Dkが生成される。   In this case, as the process of step S63, the first process and the third process of the LSA calculation are executed, and as a result, for example, the approximate matrix Dk shown in FIG. 16 compressed in two dimensions is generated. Is done.

即ち、いまの場合、ステップS63の処理の結果、次のように更新された楽曲t1乃至楽曲t5の各コンテンツベクトルのそれぞれを、1列目乃至5列目のそれぞれの列成分とする6行5列の近似行列Dkが生成されることになる。   In other words, in this case, as a result of the process of step S63, the content vectors of the music pieces t1 to t5 updated as follows are used as the respective column components of the first column to the fifth column. An approximate matrix Dk of columns is generated.

即ち、楽曲t1の更新されたコンテンツベクトルとは(3.3622,2.9437,0.7306,0.4177,0.9981,2.8258)である。楽曲t2の更新されたコンテンツベクトルとは(1.0252,0.7929,1.8142,3.2245,1.0748,3.4327)である。楽曲t3の更新されたコンテンツベクトルとは(1.0908,0.8379,2.0166,3.5988,1.1854,3.7918)である。楽曲t4の更新されたコンテンツベクトルとは(1.0652,0.9030,0.6816,1.0083,0.5341,1.6224)である。楽曲t5の更新されたコンテンツベクトルとは(3.6087,3.1206,1.3746,1.5976,1.3572,3.9869)である。   That is, the updated content vector of the music t1 is (3.3622, 2.9437, 0.7306, 0.4177, 0.9981, 2.8258). The updated content vector of the music piece t2 is (1.0252, 0.7929, 1.8142, 3.2245, 1.0748, 3.4327). The updated content vector of the music t3 is (1.0908, 0.8379, 2.0166, 3.5988, 1.1854, 3.7918). The updated content vector of the musical piece t4 is (1.0652, 0.9030, 0.6816, 1.0083, 0.5341, 1.6224). The updated content vector of the musical piece t5 is (3.6087, 3.1206, 1.3746, 1.5976, 1.3572, 3.9869).

この図16の近似行列DkがLSA演算部20からコンテンツ推薦部23に供給されると、処理はステップS64に進む。   When the approximate matrix Dk of FIG. 16 is supplied from the LSA computing unit 20 to the content recommendation unit 23, the process proceeds to step S64.

ステップS64において、コンテンツ推薦部23は、各コンテンツの評価値の判定を行う。そして、ステップS65において、コンテンツ推薦部23は、その判定結果に基づいてコンテンツの推薦を行う。これにより、「LSAによるコンテンツの再評価処理」は終了となる。   In step S64, the content recommendation unit 23 determines the evaluation value of each content. In step S65, the content recommendation unit 23 recommends content based on the determination result. Thus, the “content re-evaluation process by LSA” is completed.

なお、ステップS64のコンテンツの評価値の判定手法は、特に限定されず様々な判定手法を採用可能である。例えば、各コンテンツベクトルのそれぞれについて、近似行列Dk中の“評価”成分が次の第1の条件乃至第3の条件を満たした場合、対応するコンテンツをユーザに推薦すべであると判定する、といった判定手法が採用可能である。さらに、この判定手法を基にして、ユーザの時間的な嗜好の変化の度合いを考慮し、あまり直近に経験したコンテンツが推薦されないようにある程度古いコンテンツに重みを付ける、といった判定手法が採用可能である。   Note that the determination method of the evaluation value of the content in step S64 is not particularly limited, and various determination methods can be employed. For example, for each content vector, if the “evaluation” component in the approximate matrix Dk satisfies the following first to third conditions, it is determined that the corresponding content should be recommended to the user. A determination method can be adopted. Furthermore, based on this determination method, it is possible to adopt a determination method that considers the degree of change in user's temporal preference and weights some old content to avoid recommending the most recently experienced content. is there.

なお、第1の条件とは、近似行列Dk中の“評価”成分の値が、もとのメタデータ行列Dの対応する成分値よりも大きくなった、という条件を指す。   The first condition refers to a condition that the value of the “evaluation” component in the approximate matrix Dk is larger than the corresponding component value of the original metadata matrix D.

第2の条件とは、近似行列Dk中の“評価”成分の値が、所定の閾値より大きくなったという条件を指す。   The second condition refers to a condition that the value of the “evaluation” component in the approximate matrix Dk is greater than a predetermined threshold value.

第3の条件とは、近似行列Dk中の“評価”成分の値から演算される上述した特徴差分、または、近似行列Dk中の評価値成分の値と、もとのメタデータ行列Dの対応する成分値との差分値若しくは除算値から演算される上述した特徴差分が、所定の閾値より大きいという条件を指す。   The third condition is the correspondence between the above-described feature difference calculated from the value of the “evaluation” component in the approximate matrix Dk or the value of the evaluation value component in the approximate matrix Dk and the original metadata matrix D This indicates a condition that the above-described feature difference calculated from the difference value or the division value with respect to the component value is larger than a predetermined threshold value.

具体的には例えばいまの場合、第2の条件が採用され、閾値として2.5が設定されているとする。この場合、近似行列Dk中の“評価”成分の値が2.5より大きいコンテンツ(楽曲)は、楽曲t1,楽曲t2,楽曲t3,楽曲t5である。従って、ステップS64において、楽曲t1,楽曲t2,楽曲t3,楽曲t5が推薦すべきコンテンツであると判定され、ステップS65において、楽曲t1,楽曲t2,楽曲t3,楽曲t5の推薦が行われるのである。   Specifically, for example, in this case, it is assumed that the second condition is adopted and 2.5 is set as the threshold value. In this case, the contents (songs) whose “evaluation” component value in the approximate matrix Dk is larger than 2.5 are the music t1, the music t2, the music t3, and the music t5. Therefore, in step S64, it is determined that the music t1, the music t2, the music t3, and the music t5 are contents to be recommended, and in step S65, the music t1, the music t2, the music t3, and the music t5 are recommended. .

ここで注目すべき点は次の点である。   The points to be noted here are as follows.

即ち、例えば楽曲t1に着目すると、図13に示されるように、この楽曲t1の評価値、即ち、“評価”成分の値は2と低い値になっている。また、楽曲t1は、楽曲t2乃至t4と特に類似しているわけではないため、図14に示されるように、LSA演算により更新された後の楽曲t1の“評価”成分の値も1.8780と、閾値2.5より小さい値になっている。従って、ユーザが新規楽曲t5を視聴する前においては、この楽曲t1は推薦されなかった、という点である。   That is, for example, when attention is paid to the music piece t1, the evaluation value of the music piece t1, that is, the value of the “evaluation” component is a low value of 2, as shown in FIG. Also, since the music t1 is not particularly similar to the music t2 to t4, as shown in FIG. 14, the value of the “evaluation” component of the music t1 after being updated by the LSA calculation is 1.8780, The value is smaller than the threshold 2.5. Therefore, the music t1 was not recommended before the user viewed the new music t5.

ところが、その後、ユーザが新規楽曲t5を視聴したところその新規楽曲t5に高い評価を与えており、即ち、図15に示されるように、楽曲t5の“評価”の成分値は5と高い値となっており、また、この楽曲t5は、楽曲t1乃至楽曲t4の中では楽曲t1に最も類似している。従って、この楽曲t5を含む図15のメタデータ行列に対してLSA演算が施されると、楽曲t5の高い評価値によって、メタデータ(音楽特徴量)の関連性に基づいて、楽曲t5と類似している楽曲t1の“評価”の成分値も2.83と高い値に更新される。従って、上述したように、かつて低い評価が与えられていたために推薦されなかった(推薦が忘れられていた可能性が高い)楽曲t1が、最近のユーザの興味に基づいて、即ち、楽曲t5へのユーザの高評価に基づいて、再度ユーザに推薦することが可能になる、という点である。   However, after that, when the user views the new music t5, the new music t5 is highly evaluated. That is, as shown in FIG. 15, the component value of the “evaluation” of the music t5 is a high value of 5. The music t5 is most similar to the music t1 among the music t1 to the music t4. Therefore, when the LSA calculation is performed on the metadata matrix of FIG. 15 including the music t5, the high evaluation value of the music t5 is similar to the music t5 based on the relevance of the metadata (music feature). The component value of “evaluation” of the music t1 being played is also updated to a high value of 2.83. Therefore, as described above, the music t1 that was not recommended because it was once given a low evaluation (the possibility that the recommendation was forgotten is high) is based on the recent user interest, that is, the music t5. It is possible to recommend to the user again based on the high evaluation of the user.

以上説明したように、第4実施形態においては、近似行列Dkが、新規コンテンツのコンテンツベクトルを含むように更新されることで、既存のコンテンツの再評価(評価値の更新)が行われる。これにより、過去においては推薦の対象外であったコンテンツ、即ち、過去においては推薦されずに切り捨てられていたたコンテンツの中から、現在のユーザの嗜好にあった推薦を行うことが可能となる。換言すると、嗜好の時間変化への対応が可能となる。   As described above, in the fourth embodiment, the approximate matrix Dk is updated so as to include the content vector of the new content, whereby the existing content is reevaluated (evaluation value is updated). As a result, it is possible to make a recommendation according to the current user's preference from content that has not been recommended in the past, that is, content that has not been recommended and has been discarded in the past. . In other words, it is possible to cope with a change in preference over time.

(第5実施形態)   (Fifth embodiment)

次に、第5実施形態について説明する。   Next, a fifth embodiment will be described.

上述したように、コンテンツのコンテンツベクトルは、メタデータを基底とするベクトルである。コンテンツベクトルの基底として多数のメタデータを使用すると、当然ながら性質が異なるメタデータが混在することが多々ある。例えば、その性質上、他からは影響を受けないメタデータが存在する等、他に与える影響の度合い、或いは、他から受ける影響の度合いが異なるメタデータが混在することが多々ある。   As described above, the content vector of content is a vector based on metadata. When a large number of metadata is used as the basis of the content vector, naturally, metadata having different properties are often mixed. For example, in many cases, there are metadata with different degrees of influence on others or different degrees of influence from others, such as metadata that is not affected by others due to its nature.

しかしながら、従来のコンテンツの推薦では、これらのメタデータの性質の違い、例えば、他に与える影響の度合いや他から受ける影響の度合いは考慮しておらず、その結果、ユーザにとって適切なコンテンツを必ずしも推薦できていない、という課題があった。   However, the conventional content recommendation does not take into account the difference in the properties of these metadata, for example, the degree of influence on others and the degree of influence from others, and as a result, it is not always necessary to select content appropriate for the user. There was a problem of not being able to recommend.

例えば、メタデータの重み付けに使用する各種アルゴリズムは、全性質のメタデータに適している訳ではなく、ある性質のメタデータには適しているが、別の性質のメタデータには適していないという場合が大半である。しかしながら、従来においては、性質の違いによらず、全メタデータに対して同一のアルゴリズムが使用されて重み付けがなされており、そのような重み付けがなされたメタデータを利用してコンテンツの推薦が行われた場合、そのコンテンツは、ユーザにとって必ずしも適しているとは限らない、という課題があった。   For example, the various algorithms used for metadata weighting are not suitable for metadata of all properties, but are suitable for metadata of one property, but not suitable for metadata of another property. Most cases. However, conventionally, all metadata is weighted using the same algorithm regardless of the difference in properties, and content recommendation is performed using such weighted metadata. In such a case, there is a problem that the content is not always suitable for the user.

そこで、この課題を解決するために、本発明人は、上述した第5の処理、即ち、「LSAと他手法とのハイブリッドによる推薦処理」を発明した。   In order to solve this problem, the present inventor has invented the above-described fifth processing, that is, “recommendation processing by hybrid of LSA and other methods”.

以下、この第5の処理の概略について説明する。   The outline of the fifth process will be described below.

上述したように、メタデータがその特性によって何種類かに分類できて、各種類毎に、適切な重み付けアルゴリズムがそれぞれ異なる場合がある。   As described above, the metadata can be classified into several types according to the characteristics, and an appropriate weighting algorithm may be different for each type.

このような場合、第5実施形態の情報処理システムまたは情報処理装置(以下、第5の処理の概略の説明においては、単に装置と称する)は、マッチングに使用する行列の重み付け処理を、メタデータの種類毎に個別に実行する。   In such a case, the information processing system or information processing apparatus of the fifth embodiment (hereinafter simply referred to as “device” in the description of the outline of the fifth processing) performs the matrix weighting process used for matching with the metadata. Execute separately for each type.

装置は、このようにして重み付けがなされた行列を利用して、コンテンツのマッチング処理を行う。これにより、従来に比較してより適切なマッチング処理が可能となる。   The apparatus performs content matching processing using the matrix thus weighted. This makes it possible to perform a more appropriate matching process as compared to the conventional case.

また、装置は、2以上のアルゴリズム毎に、対応するアルゴリズムにより計算された成分値に所定の係数を乗じて重み付けを変えることもできる。   The apparatus can also change the weight by multiplying the component value calculated by the corresponding algorithm by a predetermined coefficient for every two or more algorithms.

例えば、コンテンツが電子メールとされ、メタデータとしては、電子メール内の単語、送受信時間帯、やり取りした相手、場所が採用されているとする。この場合、装置は、例えば、これらのメタデータのうちの、電子メール内の単語を第1の種類に分類し、それ以外の3要素、即ち、送受信時間帯、やり取りした相手、場所を第2の種類に分類する。   For example, it is assumed that the content is an e-mail, and the words in the e-mail, the transmission / reception time zone, the exchange partner, and the location are adopted as the metadata. In this case, for example, the device classifies the words in the e-mail among the metadata into the first type, and sets the other three elements, that is, the transmission / reception time zone, the exchange partner, and the location to the second type. Classify the type.

次に、装置は、メタデータ行列を生成し、それを、第1の種類のメタデータに対応する成分からなる第1の部分行列と、第2の種類のメタデータに対応する成分からなる第2の部分行列とに区分する。   Next, the apparatus generates a metadata matrix, which is divided into a first submatrix composed of components corresponding to the first type of metadata and a first submatrix composed of components corresponding to the second type of metadata. Partition into 2 sub-matrices.

次に、装置は、例えば、第1の部分行列に対しては、TF/IDFなど一般の重み付けアルゴリズムで重み付けを行う重み付け処理を実行する一方、第2の部分行列に対しては、例えばLSAなどの第2の重み付けアルゴリズムで重み付け処理を実行する。なお、このときのアルゴリズムの組み合わせは、この例に限定されず、任意の組み合わせでいいことは言うまでもない。   Next, for example, the apparatus executes a weighting process for weighting with a general weighting algorithm such as TF / IDF for the first submatrix, while for example the LSA for the second submatrix. The weighting process is executed by the second weighting algorithm. Note that the combination of algorithms at this time is not limited to this example, and it goes without saying that any combination may be used.

そして、装置は、このように異なるアルゴリズムで重み付けされた第1の部分行列と第2の部分行列を合成し、その結果得られる行列(以下、近似合成行列と称する)を利用してマッチング処理を行う。   Then, the apparatus combines the first partial matrix and the second partial matrix weighted with different algorithms as described above, and performs a matching process using a matrix obtained as a result (hereinafter referred to as an approximate composite matrix). Do.

以上、第5の処理、即ち、「LSAと他手法とのハイブリッドによるによる推薦処理」の概略について説明した。   The outline of the fifth process, that is, the “recommendation process using a hybrid of LSA and another method” has been described above.

なお、以下、第2の種類に分類されるようなメタデータを、コンテクストと称する。即ち、本明細書においては、コンテクスト(context)とは、ユーザの内的状態および外的状態の全てを指す。ユーザの内的状態とは、ユーザの体調、または、情動(気分や心理状態)等を指す。また、ユーザの外的状態とは、ユーザの空間的または時間的な配置位置(時間的な配置位置とは、例えば、現在時刻を指す)の他、ユーザの周囲の空間方向若しくは時間方向に分布する(または、いずれの方向にも分布する)所定の状態も指す。   Hereinafter, metadata that is classified into the second type is referred to as a context. That is, in this specification, the context refers to all of the internal state and external state of the user. The user's internal state refers to the user's physical condition, emotion (feeling or psychological state), or the like. Further, the external state of the user is distributed in the spatial direction or the temporal direction around the user in addition to the spatial or temporal arrangement position of the user (the temporal arrangement position indicates, for example, the current time). It also refers to a predetermined state (or distributed in any direction).

次に、図17と図18を参照して、第5実施形態の情報処理システムまたは情報処理装置、即ち、「LSAと他手法とのハイブリッドによる推薦処理」を実行する情報処理システムまたは情報処理装置について説明する。   Next, referring to FIG. 17 and FIG. 18, the information processing system or information processing apparatus of the fifth embodiment, that is, the information processing system or information processing apparatus that executes “recommendation processing by hybrid of LSA and other methods” Will be described.

図17は、第5実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。   FIG. 17 illustrates a functional configuration example of the information processing system or the information processing apparatus according to the fifth embodiment.

換言すると、図1のユーザインタフェース部11乃至コンテンツ推薦部23の全ブロックの中から「LSAと多手法とのハイブリッドによる推薦処理」の実行に必要なブロックが抽出され、それらのブロックが、「LSAと多手法とのハイブリッドによる推薦処理」の実行時の情報の流れに従って並べられた図が、図17である。従って、図17に示される各ブロックの説明については、図1を参照して上述しているので、ここでは省略する。   In other words, blocks necessary for executing the “recommendation process by hybrid of LSA and multi-method” are extracted from all the blocks of the user interface unit 11 to the content recommendation unit 23 in FIG. FIG. 17 is a diagram arranged according to the flow of information during the execution of the “recommendation process using a hybrid method and multi-method”. Therefore, the description of each block shown in FIG. 17 has been described above with reference to FIG.

なお、図17の例では省略されているが、実際には、2つのブロックを結ぶ各矢印内には、即ち、2つのブロックの間には、図1の情報伝送部24が配置されることになる。   Although omitted in the example of FIG. 17, the information transmission unit 24 of FIG. 1 is actually arranged in each arrow connecting the two blocks, that is, between the two blocks. become.

図18は、「LSAと他手法とのハイブリッドによる推薦処理」の例を説明するフローチャートである。そこで、以下、図18のフローチャートを参照して、「LSAと多手法とのハイブリッドによる推薦処理」の例について説明する。   FIG. 18 is a flowchart for explaining an example of “recommendation processing by hybrid of LSA and other methods”. Therefore, an example of “recommendation process by hybrid of LSA and multi-method” will be described below with reference to the flowchart of FIG.

ここでは例えば、第1の種類のメタデータ群M1と、第1の種類とは異質な第2の種類のメタデータ群M2とが採用され、かつ、メタデータ群M1とメタデータ群M2のうちの一方から他方へは影響を与えるが、その逆方向への影響は無いとされているとする。   Here, for example, a first type of metadata group M1 and a second type of metadata group M2 that is different from the first type are adopted, and among the metadata group M1 and the metadata group M2 It is assumed that there is no influence in the opposite direction, although one is affected from the other.

具体的には例えば、コンテンツとして楽曲が処理対象とされた場合には、例えば、その楽曲の特徴量がメタデータ群M1として採用可能であり、また、ユーザがコンテンツを経験する場所、時間、状況、感情などのコンテクストがメタデータ群M1として採用可能である。なぜならば、特徴量とコンテクストとは当然ながら異質なものであり、かつ、コンテクストが音楽の印象(特徴量)に影響しても、音楽(特徴量)がコンテクストに直接作用することは無いからである。   Specifically, for example, when a song is processed as content, for example, the feature amount of the song can be adopted as the metadata group M1, and the place, time, and situation where the user experiences the content A context such as emotion can be adopted as the metadata group M1. This is because features and contexts are naturally different, and even if the context affects the impression (features) of music, the music (features) does not directly affect the context. is there.

なお、ここでは、影響の与え方の方向は、例えばコンテンツと特徴量との例に従って、メタデータ群M2からメタデータ群M1に向かう方向とされる。この場合、全メタデータのうちの、メタデータ群M1に分類される種類がs種類存在し、メタデータ群M2に分類される種類がt種類存在するとする。   Here, the direction of influence is set to the direction from the metadata group M2 to the metadata group M1, for example, according to the example of the content and the feature amount. In this case, of all the metadata, there are s types classified into the metadata group M1, and t types classified into the metadata group M2.

また、処理の対象のコンテンツがn個存在するとする。即ち、n個のコンテンツのそれぞれについて、s+k個のメタデータが付与されているとする。   Further, it is assumed that there are n contents to be processed. That is, it is assumed that s + k pieces of metadata are assigned to each of the n pieces of content.

この場合、図18のステップS81の行列生成部18の処理の結果、メタデータ行列Dとして、次の式(7)に示される行列Aが生成されることになる。   In this case, as a result of the processing of the matrix generation unit 18 in step S81 of FIG. 18, the matrix A represented by the following equation (7) is generated as the metadata matrix D.

Figure 2006048287
・・・(7)
Figure 2006048287
... (7)

式(7)において、m1u,v(u=0乃至s-1,v=0乃至n-1)は、v番目のコンテンツに付加されたメタデータであって、メタデータ群M1に分類されるs種類のメタデータのうちの、u番目のメタデータに対応する成分値を示している。また、m2w,x(w=0乃至t-1,x=0乃至n-1)は、x番目のコンテンツに付加されたメタデータであって、メタデータ群M2に分類されるt種類のメタデータのうちの、w番目のメタデータに対応する成分値を示している。   In Expression (7), m1u, v (u = 0 to s-1, v = 0 to n-1) is metadata added to the v-th content, and is classified into the metadata group M1. Of the s types of metadata, component values corresponding to the u-th metadata are shown. M2w, x (w = 0 to t−1, x = 0 to n−1) is metadata added to the x-th content, and t types of metadata classified into the metadata group M2. Of the data, the component value corresponding to the w-th metadata is shown.

ステップS82において、行列生成部18は、メタデータ行列を2つの部分行列に区分する。即ち、いまの場合、ステップS82において、行列生成部18は、式(7)の最右辺に示されるように、部分行列Mt1と部分行列Mt2に区分する。   In step S82, the matrix generation unit 18 partitions the metadata matrix into two partial matrices. That is, in this case, in step S82, the matrix generation unit 18 divides the matrix into the partial matrix Mt1 and the partial matrix Mt2 as shown in the rightmost side of Expression (7).

部分行列Mt1とは、行列Aのうちの上からs行分の行列成分から構成される行列、即ち、m1u,v(u=0乃至s-1,v=0乃至n-1)を成分値として有する行列である。従って、部分行列Mt1は、s行n列の行列になる。   The partial matrix Mt1 is a matrix composed of matrix components for s rows from the top of the matrix A, that is, m1u, v (u = 0 to s-1, v = 0 to n-1) as component values. As a matrix. Therefore, the partial matrix Mt1 is a matrix of s rows and n columns.

これに対して、部分行列Mt2とは、行列Aのうちの下からt行分の行列成分から構成される行列、即ち、m2w,x(w=0乃至t-1,x=0乃至n-1)を成分値として有する行列である。従って、部分行列Mt1は、t行n列の行列になる。   On the other hand, the partial matrix Mt2 is a matrix composed of matrix components for t rows from the bottom of the matrix A, that is, m2w, x (w = 0 to t−1, x = 0 to n− 1) as a component value. Therefore, the partial matrix Mt1 is a matrix with t rows and n columns.

ステップS83において、重み付け処理部19は、2つの部分行列のそれぞれに対して重み付けをそれぞれ実行する。   In step S83, the weighting processing unit 19 performs weighting on each of the two sub-matrices.

ステップS84において、LSA演算部20は、2つの部分行列のうちの少なくとも1つに対してLSA演算を実行する。   In step S84, the LSA calculation unit 20 performs an LSA calculation on at least one of the two partial matrices.

なお、ここで言う部分行列に対してLSA演算を実行するとは、部分行列単体に対してLSA演算を施して、部分行列単体の近似行列を生成することを当然ながら含む他、メタデータ行列全体に対してLSA演算を実行し、その結果得られるメタデータ行列の近似行列のうちの、対象となる部分行列に対応する成分のみを使用することを指す。   Note that performing LSA operation on a submatrix here includes naturally performing an LSA operation on a single submatrix to generate an approximate matrix of a single submatrix, and the entire metadata matrix. The LSA operation is performed on the result, and only the component corresponding to the target submatrix is used in the approximated matrix of the metadata matrix obtained as a result.

後者について具体的に説明する。例えばいまの場合、式(7)のメタデータ行列A全体に対してLSA演算が施されると、次の式(8)に示される行列A’が、メタデータ行列Aの近似行列として生成されることになる。   The latter will be specifically described. For example, in this case, when the LSA operation is performed on the entire metadata matrix A of Expression (7), a matrix A ′ represented by the following Expression (8) is generated as an approximate matrix of the metadata matrix A. It will be.

Figure 2006048287
・・・(8)
Figure 2006048287
... (8)

この場合、行列生成部18が、ステップS82の処理と全く同様に近似行列A’も区分すると、即ち、メタデータ行列Aを2つの部分行列Mt1,Mt2に区分したのと同様に近似行列A’も区分すると、式(8)に示されるように、2つの部分行列Mt1’,Mt2’が得られる。   In this case, the matrix generation unit 18 partitions the approximate matrix A ′ in exactly the same manner as the processing in step S82, that is, the approximate matrix A ′ is similar to the partition of the metadata matrix A into two partial matrices Mt1 and Mt2. Is also divided, two sub-matrices Mt1 ′ and Mt2 ′ are obtained as shown in Expression (8).

部分行列Mt1’とは、近似行列A’のうちの上からs行分の行列成分から構成される行列、即ち、LSA演算により値が更新されたm1u,v(u=0乃至s-1,v=0乃至n-1)を成分値として有する行列である。従って、部分行列Mt1’も、s行n列の行列になる。   The partial matrix Mt1 ′ is a matrix composed of matrix components for s rows from the top of the approximate matrix A ′, that is, m1u, v (u = 0 to s−1, values updated by LSA calculation). It is a matrix having v = 0 to n-1) as component values. Accordingly, the partial matrix Mt1 'is also a matrix of s rows and n columns.

これに対して、部分行列Mt2’とは、近似行列A’のうちの下からt行分の行列成分から構成される行列、即ち、LSA演算により値が更新されたm2w,x(w=0乃至t-1,x=0乃至n-1)を成分値として有する行列である。従って、部分行列Mt1’も、t行n列の行列になる。   On the other hand, the submatrix Mt2 ′ is a matrix composed of matrix components for t rows from the bottom of the approximate matrix A ′, that is, m2w, x (w = 0) whose value is updated by the LSA operation. To t-1, x = 0 to n-1) as component values. Therefore, the partial matrix Mt1 'is also a matrix of t rows and n columns.

この場合、例えば、部分行列Mt1が対象にされているとすると、ステップS84の処理とは、式(8)の部分行列Mt1’が得られることになる。   In this case, for example, if the partial matrix Mt1 is targeted, the process of step S84 results in the partial matrix Mt1 'of Expression (8).

ステップS85において、行列生成部18は、2つの部分行列を合成することで、近似合成行列を生成する。   In step S85, the matrix generation unit 18 generates an approximate composite matrix by combining the two partial matrices.

例えばいまの場合、次の式(9)に示される行列Bが、近似合成行列として生成されることになる。   For example, in this case, a matrix B represented by the following equation (9) is generated as an approximate synthesis matrix.

Figure 2006048287
・・・(9)
Figure 2006048287
... (9)

式(9)において、部分行列Mt1’は、上述した式(8)のそれと同一の行列である。部分行列Mt2は、上述した式(7)のそれに対して、ステップS83の処理で重み付けされた行列である。   In Equation (9), the submatrix Mt1 'is the same matrix as that of Equation (8) described above. The partial matrix Mt2 is a matrix weighted by the process of step S83 with respect to that of the above-described equation (7).

この近似合成行列Bがコンテンツ推薦部23に供給され、コンテンツ推薦部23からベクトル演算部22に対してマッチング処理の要求がなされると、処理はステップS86に進む。   When the approximate composition matrix B is supplied to the content recommendation unit 23 and the content recommendation unit 23 requests the vector calculation unit 22 to perform a matching process, the process proceeds to step S86.

ステップS86において、ベクトル演算部22は、近似合成行列Bを利用して、コンテンツのマッチング処理を行う。具体的には例えば、ステップS86において、ベクトル演算部22は、近似合成行列の各列成分、即ち、各コンテンツベクトルのうちの、ユーザが高評価を与えたコンテンツベクトルから、UPVを生成する。ベクトル演算部22は、このUPVと既存のコンテンツベクトルとで類似度を計算し、もっとも類似度の高いコンテンツ(または高い方から任意個数のコンテンツ)を選択し、その選択結果をコンテンツ推薦部23に通知する。   In step S86, the vector calculation unit 22 performs content matching processing using the approximate synthesis matrix B. Specifically, for example, in step S86, the vector calculation unit 22 generates a UPV from each column component of the approximate synthesis matrix, that is, from the content vector that the user gave a high evaluation of among the content vectors. The vector calculation unit 22 calculates the similarity between the UPV and the existing content vector, selects the content with the highest similarity (or an arbitrary number of content from the highest), and sends the selection result to the content recommendation unit 23. Notice.

すると、ステップS87において、コンテンツ推薦部23は、ベクトル演算部22から通知されたそのコンテンツの推薦を行う。即ち、ステップS87において、コンテンツ推薦部23は、推薦すべきそのコンテンツをコンテンツ記録部15から取得し、ユーザインタフェース部11を介してユーザに呈示する。   Then, in step S87, the content recommendation unit 23 recommends the content notified from the vector calculation unit 22. That is, in step S87, the content recommendation unit 23 acquires the content to be recommended from the content recording unit 15, and presents it to the user via the user interface unit 11.

これにより、「LSAと他手法とのハイブリッドによる推薦処理」は終了となる。   Thus, the “recommendation process by hybrid of LSA and other methods” is completed.

以下、「LSAと他手法とのハイブリッドによる推薦処理」についてさらに説明する。   In the following, “recommendation processing by hybrid of LSA and other methods” will be further described.

上述したように、式(7)のメタデータ行列Aの近似行列が、式(8)の行列A’である。この近似行列A’から区分される2つの部分行列Mt1’、Mt2’は、式(7)のメタデータ行列Aに対する次元圧縮によりお互いに影響しあっている。   As described above, the approximate matrix of the metadata matrix A in Expression (7) is the matrix A ′ in Expression (8). The two partial matrices Mt1 'and Mt2' partitioned from the approximated matrix A 'influence each other by dimensional compression on the metadata matrix A in Expression (7).

即ち、例えば、メタデータ行列Aのc列に対応するコンテンツにおいて、メタデータ群M1内のi番目のメタデータの重み(成分値)m1i,cと、メタデータ群M2のj番目のメタデータの重み(成分値)m2j,cがともに大きいとする。即ち、これらの2つのメタデータは共起しているとする。この場合、他のコンテンツにおいて、メタデータ群M1内のi番目のメタデータの重み(成分値)が大きく、メタデータ群M2内のj番目のメタデータの重み(成分値)が小さいと、LSA演算の特異値分解による次元圧縮の性質によって、j番目のメタデータの重み(成分値)が引き上げられる。なお、メタデータ群M1とメタデータ群M2との関係が逆の場合も同様である。 That is, for example, in the content corresponding to column c of the metadata matrix A, the i-th metadata weight (component value) m1 i, c in the metadata group M1 and the j-th metadata in the metadata group M2 Assume that both of the weights (component values) m2 j, c are large. That is, assume that these two metadata co-occur. In this case, if the weight (component value) of the i-th metadata in the metadata group M1 is large and the weight (component value) of the j-th metadata in the metadata group M2 is small in other content, the LSA The weight (component value) of the jth metadata is raised due to the nature of dimension compression by singular value decomposition of the operation. The same applies when the relationship between the metadata group M1 and the metadata group M2 is reversed.

このメタデータ群M1とメタデータ群M2との相互の影響は、例えば文書をコンテンツとして、単語をメタデータとした場合には、上述した第1実施形態と第2実施形態で説明したように、単語の共起関係を考慮した重み付けとして有用であることが示されている。   For example, when the document is content and the word is metadata, the mutual influence between the metadata group M1 and the metadata group M2 is as described in the first embodiment and the second embodiment. It is shown to be useful as a weighting considering the co-occurrence relationship of words.

しかしながら、この第5実施形態においては、メタデータ群M2からメタデータ群M1への影響のみが存在し、その逆方向への影響は存在しないことが前提とされている。従って、このような前提がなされる場合、メタデータ群M2からメタデータM1への影響だけを重み付けに利用したいという要望が挙げられることになる。   However, in the fifth embodiment, it is assumed that only the influence from the metadata group M2 to the metadata group M1 exists and there is no influence in the opposite direction. Therefore, when such a premise is made, there is a desire to use only the influence from the metadata group M2 to the metadata M1 for weighting.

そこで、この要請を実現するために、第5実施形態においては、重み付けされたメタデータ行列として、上述した式(9)で示される近似合成行列Bが利用されるのである。   Therefore, in order to realize this requirement, in the fifth embodiment, the approximate synthesis matrix B represented by the above-described equation (9) is used as the weighted metadata matrix.

式(9)の近似合成行列Bにおいて、その下部の部分行列Mt2は、上述したように、次元圧縮前のメタデータ行列A、即ち、式(7)のメタデータ行列Aに対してステップS83の処理で重み付けされた行列の上部の部分行列である。また、式(9)の近似合成行列Bにおいて、その上部の部分行列Mt1’は、式(8)の近似行列Bの上部の部分行列である。   In the approximate composite matrix B of Equation (9), the lower partial matrix Mt2 is the same as that of step S83 with respect to the metadata matrix A before dimension compression, that is, the metadata matrix A of Equation (7), as described above. It is a submatrix at the top of a matrix weighted by processing. Further, in the approximate synthesis matrix B of Expression (9), the upper partial matrix Mt1 'is the upper partial matrix of the approximate matrix B of Expression (8).

即ち、式(9)の近似合成行列Bにおいて、上部の部分行列Mt1’は、メタデータ群M1のメタデータ群M2からの影響が考慮された重み付け行列となっている一方、下部の部分行列Mt2は、メタデータ群M1から影響を受けない重み付け行列となっている。   That is, in the approximate synthesis matrix B of Equation (9), the upper partial matrix Mt1 ′ is a weighting matrix in consideration of the influence of the metadata group M1 from the metadata group M2, while the lower partial matrix Mt2 Is a weighting matrix that is not affected by the metadata group M1.

従って、近似合成行列Bとは、メタデータ群M2からメタデータ群M1へという片方向への影響のみが考慮された、重み付けメタデータ近似行列であると言える。   Accordingly, it can be said that the approximate synthesis matrix B is a weighted metadata approximation matrix in which only the one-way influence from the metadata group M2 to the metadata group M1 is considered.

なお、行列生成部18は、ここでさらに、近似合成行列Bの下部の部分行列Mt2に対してtf・idfなどの重み付けを行ったり、部分行列Mt2をさらに区分した詳細部分行列を生成し、詳細部分行列のそれぞれに対して別の重み付けを行うこともできる。なお、この場合の重み付けは、上述したような片方の影響のみを実現する特異値分解の再帰的な適用を含む。   Here, the matrix generation unit 18 further performs weighting such as tf · idf on the partial matrix Mt2 below the approximate synthesis matrix B, or generates a detailed partial matrix further dividing the partial matrix Mt2. Different weights can be applied to each of the sub-matrices. Note that the weighting in this case includes recursive application of singular value decomposition that realizes only one influence as described above.

ところで、上述した例では、メタデータ群M1とメタデータ群M2とのうちの一方から他方といった片方向にのみ影響をおよぼすことが前提とされたが、メタデータ群M1とメタデータ群M2とが完全に独立で、かつそれぞれの内部では共起関係を考慮したい場合も多々ある。   By the way, in the above-described example, it is assumed that the metadata group M1 and the metadata group M2 affect only one direction from one to the other, but the metadata group M1 and the metadata group M2 are There are many cases where you want to consider co-occurrence relationships completely independently.

このような場合、ステップS84の処理で、LSA演算部20は、ステップS83の処理で重み付けがなされた式(7)の部分行列Mt1と部分行列Mt2とのそれぞれに対して個別に特異値分解を施すことができる。このことが、ステップS84の「2つの部分行列のうちの少なくとも1つに対して」の「少なくとも」の意味である。   In such a case, in the process of step S84, the LSA computing unit 20 performs singular value decomposition individually on each of the partial matrix Mt1 and the partial matrix Mt2 of the equation (7) weighted in the process of step S83. Can be applied. This is the meaning of “at least” in “at least one of the two sub-matrices” in step S84.

即ち、ステップS84の処理で、LSA演算部20は、次の式(10)と式(11)に示される特異値分解のそれぞれを個別に実行する。   That is, in the process of step S84, the LSA operation unit 20 individually executes each of the singular value decompositions shown in the following equations (10) and (11).

Figure 2006048287
・・・(10)
Figure 2006048287
... (10)

Figure 2006048287
・・・(11)
Figure 2006048287
(11)

そして、LSA演算部20は、次の式(12)と式(13)に示されるように、部分行列Mt1と部分行列Mt2のそれぞれを、k1次元とk2次元のそれぞれ圧縮した近似部分行列Mt1k1’’と近似部分行列Mt2k2’’のそれぞれを生成することができる。 Then, as shown in the following formulas (12) and (13), the LSA calculation unit 20 compresses the partial matrix Mt1 and the partial matrix Mt2 into the approximate partial matrix Mt1 k1 compressed in the k1 dimension and the k2 dimension, respectively. Each of '' and approximate submatrix Mt2 k2 '' can be generated.

Figure 2006048287
・・・(12)
Figure 2006048287
(12)

Figure 2006048287
・・・(13)
Figure 2006048287
(13)

従って、行列生成部18は、ステップS85の処理で、次の式(14)で示される近似合成行列A’’を生成することができる。   Therefore, the matrix generation unit 18 can generate the approximate synthesis matrix A ″ represented by the following equation (14) by the process of step S85.

Figure 2006048287
・・・(14)
Figure 2006048287
(14)

これにより、近似合成行列A’’は、メタデータ群M1とメタデータ群M2とは互いに影響しあわないが、それぞれの内部では共起関係等が考慮された、重み付けメタデータ近似行列となる。   Thus, the approximate synthesis matrix A ″ is a weighted metadata approximation matrix in which the metadata group M1 and the metadata group M2 do not affect each other, but the co-occurrence relationship and the like are taken into account in each of them.

以上、図17と図18を参照して、第5実施形態の情報処理システムまたは情報処理装置、即ち、「LSAと他手法とのハイブリッドによる推薦処理」を実行する情報処理システムまたは情報処理装置について説明した。   As described above, with reference to FIGS. 17 and 18, the information processing system or information processing apparatus according to the fifth embodiment, that is, the information processing system or information processing apparatus that executes “recommendation processing by hybrid of LSA and other methods”. explained.

第5実施形態においては、メタデータ群M1とメタデータ群M2において、それぞれの内部だけでの相互関係を考慮した重み付け、または、メタデータ群M2からメタデータ群M1への影響だけ若しくはメタデータ群M1からメタデータ群M2への影響だけを前提とした重み付けを行うことができる。これにより、従来に比較してより適切なマッチング処理が実行でき、それに伴い、従来に比較してより適切なコンテンツ推薦が行えるようになる。   In the fifth embodiment, the metadata group M1 and the metadata group M2 are weighted in consideration of the interrelationships inside each other, or only the influence from the metadata group M2 on the metadata group M1 or the metadata group It is possible to perform weighting based on only the influence from M1 to the metadata group M2. As a result, more appropriate matching processing can be executed as compared with the conventional case, and accordingly, more appropriate content recommendation can be performed as compared with the conventional case.

以上、第1実施形態乃至第5実施形態について説明した。   The first to fifth embodiments have been described above.

ところで、第1実施形態乃至第5実施形態等で上述した一連の処理は、ハードウエアにより実行させることもできるが、ソフトウエアにより実行させることができる。   By the way, the series of processes described in the first to fifth embodiments can be executed by hardware, but can also be executed by software.

この場合、図1の情報処理装置は、例えば、図19に示されるようなパーソナルコンピュータで構成することができる。   In this case, the information processing apparatus of FIG. 1 can be configured by, for example, a personal computer as shown in FIG.

図19において、CPU(Central Processing Unit)101は、ROM(Read Only Memory)102に記録されているプログラム、または記憶部108からRAM(Random Access Memory)103にロードされたプログラムに従って各種の処理を実行する。RAM103にはまた、CPU101が各種の処理を実行する上において必要なデータなども適宜記憶される。   In FIG. 19, a CPU (Central Processing Unit) 101 executes various processes according to a program recorded in a ROM (Read Only Memory) 102 or a program loaded from a storage unit 108 to a RAM (Random Access Memory) 103. To do. The RAM 103 also appropriately stores data necessary for the CPU 101 to execute various processes.

CPU101、ROM102、およびRAM103は、バス104を介して相互に接続されている。このバス104にはまた、入出力インタフェース105も接続されている。   The CPU 101, ROM 102, and RAM 103 are connected to each other via a bus 104. An input / output interface 105 is also connected to the bus 104.

入出力インタフェース105には、キーボード、マウスなどよりなる入力部106、ディスプレイなどよりなる出力部107、ハードディスクなどより構成される記憶部108、および、モデム、ターミナルアダプタなどより構成される通信部109が接続されている。通信部109は、インターネットを含むネットワークを介して他の情報処理装置との通信処理を行う。   The input / output interface 105 includes an input unit 106 including a keyboard and a mouse, an output unit 107 including a display, a storage unit 108 including a hard disk, and a communication unit 109 including a modem and a terminal adapter. It is connected. The communication unit 109 performs communication processing with other information processing apparatuses via a network including the Internet.

入出力インタフェース105にはまた、必要に応じてドライブ110が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブル記録媒体111が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部108にインストールされる。   A drive 110 is also connected to the input / output interface 105 as necessary, and a removable recording medium 111 made of a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor memory, or the like is appropriately installed, and a computer program read from them is read. Are installed in the storage unit 108 as necessary.

一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。   When a series of processing is executed by software, a program constituting the software executes various functions by installing a computer incorporated in dedicated hardware or various programs. For example, a general-purpose personal computer is installed from a network or a recording medium.

このようなプログラムを含む記録媒体は、図19に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フロッピディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)を含む)、もしくは半導体メモリなどよりなるリムーバブル記録媒体(パッケージメディア)111により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM102や、記憶部108に含まれるハードディスクなどで構成される。   As shown in FIG. 19, the recording medium including such a program is distributed to provide a program to the user separately from the main body of the apparatus, and includes a magnetic disk (including a floppy disk) on which the program is recorded. , Removable recording media (packages) consisting of optical disks (including compact disk-read only memory (CD-ROM), DVD (digital versatile disk)), magneto-optical disks (including MD (mini-disk)), or semiconductor memory (Media) 111, but also a ROM 102 on which a program is recorded and a hard disk included in the storage unit 108 provided to the user in a state of being incorporated in the apparatus main body in advance.

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。   In the present specification, the step of describing the program recorded on the recording medium is not limited to the processing performed in time series along the order, but is not necessarily performed in time series, either in parallel or individually. The process to be executed is also included.

また、本明細書において、システムとは、複数の装置や処理部により構成される装置全体を表すものである。   Further, in the present specification, the system represents the entire apparatus including a plurality of apparatuses and processing units.

本発明が適用される情報処理システムの機能的構成例を示す機能ブロック図である。It is a functional block diagram which shows the functional structural example of the information processing system to which this invention is applied. 「共起関係を考慮した不要メタデータ抽出処理」を実行する場合の情報の流れの観点で図1の情報処理システムを示した機能ブロック図である。FIG. 2 is a functional block diagram showing the information processing system of FIG. 1 from the viewpoint of information flow when executing “unnecessary metadata extraction processing considering co-occurrence relation”. 図2の情報処理システムが実行する「共起関係を考慮した不要メタデータ抽出処理」を説明するフローチャートである。3 is a flowchart for explaining “unnecessary metadata extraction processing considering co-occurrence relations” executed by the information processing system of FIG. 2. 図3の「共起関係を考慮した不要メタデータ抽出処理」の処理結果を示す例である。It is an example which shows the process result of the "unnecessary metadata extraction process which considered the co-occurrence relation" of FIG. 図3の「共起関係を考慮した不要メタデータ抽出処理」の処理結果を示す例である。It is an example which shows the process result of the "unnecessary metadata extraction process which considered the co-occurrence relation" of FIG. 図3の「共起関係を考慮した不要メタデータ抽出処理」の処理結果を示す例である。It is an example which shows the process result of the "unnecessary metadata extraction process which considered the co-occurrence relation" of FIG. 「共起関係を考慮した推薦処理」を実行する場合の情報の流れの観点で図1の情報処理システムを示した機能ブロック図である。FIG. 2 is a functional block diagram illustrating the information processing system of FIG. 1 from the viewpoint of information flow when executing a “recommendation process considering co-occurrence relationships”. 図7の情報処理システムが実行する「共起関係を考慮した推薦抽出処理」を説明するフローチャートである。It is a flowchart explaining the "recommendation extraction process in consideration of the co-occurrence relation" performed by the information processing system of FIG. 「クラスタリングされたUPV群の差分を利用した推薦処理」を実行する場合の情報の流れの観点で図1の情報処理システムを示した機能ブロック図である。FIG. 2 is a functional block diagram illustrating the information processing system of FIG. 1 from the viewpoint of information flow when executing “recommendation processing using a difference between clustered UPV groups”. 図9の情報処理システムが実行する「クラスタリングされたUPV群の差分を利用した推薦処理」を説明するフローチャートである。10 is a flowchart illustrating “recommendation processing using a difference between clustered UPV groups” executed by the information processing system of FIG. 9. 「LSAによるコンテンツの再評価処理」を実行する場合の情報の流れの観点で図1の情報処理システムを示した機能ブロック図である。FIG. 2 is a functional block diagram illustrating the information processing system of FIG. 1 from the viewpoint of information flow when executing “content re-evaluation processing by LSA”. 図11の情報処理システムが実行する「LSAによるコンテンツの再評価処理」を説明するフローチャートである。12 is a flowchart for explaining “content reevaluation processing by LSA” executed by the information processing system of FIG. 11; 図11の「LSAによるコンテンツの再評価処理」の処理結果を示す例である。12 is an example showing a processing result of “content re-evaluation processing by LSA” in FIG. 図11の「LSAによるコンテンツの再評価処理」の処理結果を示す例である。12 is an example showing a processing result of “content re-evaluation processing by LSA” in FIG. 図11の「LSAによるコンテンツの再評価処理」の処理結果を示す例である。12 is an example showing a processing result of “content re-evaluation processing by LSA” in FIG. 図11の「LSAによるコンテンツの再評価処理」の処理結果を示す例である。12 is an example showing a processing result of “content re-evaluation processing by LSA” in FIG. 「LSAと他手法とのハイブリッドによる推薦処理」を実行する場合の情報の流れの観点で図1の情報処理システムを示した機能ブロック図である。FIG. 2 is a functional block diagram showing the information processing system of FIG. 1 from the viewpoint of information flow when executing “recommendation processing by hybrid of LSA and other methods”. 図17の情報処理システムが実行する「LSAと他手法とのハイブリッドによる推薦処理」を説明するフローチャートである。18 is a flowchart for explaining “recommendation processing by hybrid of LSA and other method” executed by the information processing system of FIG. 本発明が適用される情報処理装置(図1の情報処理システムの少なくとも一部)のハードウエアの構成例を示すブロック図である。It is a block diagram which shows the structural example of the hardware of the information processing apparatus (at least one part of the information processing system of FIG. 1) to which this invention is applied.

符号の説明Explanation of symbols

11 ユーザインタフェース部, 12 ユーザプロファイル記憶部, 13 ユーザ辞書記憶部, 14 一般辞書記憶部, 15 コンテンツ記憶部, 16 メタデータ記憶部, 17 メタデータ取得部, 18 行列生成部, 19 重み付け処理部, 20 LSA演算部, 21 メタデータ抽出部, 22 ベクトル演算部, 101 CPU, 102 ROM, 103 RAM, 108 記憶部, 111 リムーバブル記録媒体   11 user interface unit, 12 user profile storage unit, 13 user dictionary storage unit, 14 general dictionary storage unit, 15 content storage unit, 16 metadata storage unit, 17 metadata acquisition unit, 18 matrix generation unit, 19 weighting processing unit, 20 LSA operation unit, 21 metadata extraction unit, 22 vector operation unit, 101 CPU, 102 ROM, 103 RAM, 108 storage unit, 111 removable recording medium

Claims (4)

複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数の前記コンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成手段と、
前記行列生成手段により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成手段と、
前記近似行列生成手段により生成された前記近似行列のうちのM個の前記コンテンツのそれぞれを示すM個の列成分または行成分のそれぞれをベクトルとして区分し、M個に区分された前記ベクトルのそれぞれを、S個(Sは、M以下の整数値)のクラスタのうちの所定の1つに分類する分類手段と、
S個の前記クラスタのそれぞれについて、前記分類手段により対応するクラスタに分類されたベクトルに基づいて、対応する前記クラスタを代表する代表ベクトルであって、N個の前記メタデータを基底とする前記代表ベクトルを生成する代表ベクトル生成手段と、
前記代表ベクトル生成手段により生成されたS個の前記クラスタの前記代表ベクトルの中から、2つのクラスタの代表ベクトルの組を1以上選択し、選択された1組以上のそれぞれについて、2つのクラスタの代表ベクトルの差分ベクトルを生成する差分ベクトル生成手段と、
M個の前記コンテンツとは異なる他のコンテンツをN個の前記メタデータを基底としてベクトル化し、その結果得られるベクトルと、前記差分ベクトル生成手段により生成された1以上の前記差分ベクトルのうちの少なくとも1つとの類似度を演算する類似度演算手段と
を備えることを特徴とする情報処理装置。
Based on N (N is an integer value of 1 or more) metadata associated with at least one of the plurality of contents, M (M is an integer value of 1 or more) of the plurality of contents. Matrix generating means for vectorizing each of the contents and generating a matrix having M vectors obtained as a result thereof as column components or row components as a metadata matrix;
Approximate matrix generation means for generating an approximate matrix of the metadata matrix by performing singular value decomposition on the metadata matrix generated by the matrix generation means;
Each of the M column components or row components indicating each of the M contents of the approximate matrix generated by the approximate matrix generation means is divided as a vector, and each of the vectors divided into M pieces Classifying means for classifying S into a predetermined one of S clusters (S is an integer less than or equal to M);
For each of the S clusters, a representative vector representing the corresponding cluster based on the vector classified into the corresponding cluster by the classification means, and the representative based on the N metadata Representative vector generation means for generating a vector;
One or more sets of representative vectors of two clusters are selected from the representative vectors of the S clusters generated by the representative vector generation means, and two clusters are selected for each of the selected one or more sets. Difference vector generation means for generating a difference vector of the representative vector;
Another content different from the M content is vectorized based on the N metadata, and the resulting vector and at least one of the one or more difference vectors generated by the difference vector generation means An information processing apparatus comprising: similarity calculation means for calculating similarity with one.
前記類似度演算手段により演算された1以上の前記類似度のうちの少なくとも1つに基づいて、前記他のコンテンツは、ユーザに推薦すべきコンテンツであるか否かを決定する推薦手段と、
前記推薦手段により前記他のコンテンツが前記ユーザに推薦すべきであると決定された場合、前記他のコンテンツを前記ユーザに呈示する呈示手段と
をさらに備えることを特徴とする請求項1に記載の情報処理装置。
Recommendation means for determining whether or not the other content is content to be recommended to a user based on at least one of the one or more similarities calculated by the similarity calculation means;
The presentation unit according to claim 1, further comprising: a presenting unit that presents the other content to the user when the other unit determines that the other content should be recommended to the user. Information processing device.
複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数の前記コンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップと、
前記行列生成ステップの処理により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成ステップと、
前記近似行列生成ステップの処理により生成された前記近似行列のうちのM個の前記コンテンツのそれぞれを示す列成分または行成分のそれぞれをベクトルとして区分し、M個に区分された前記ベクトルのそれぞれを、S個(Sは、M以下の整数値)のクラスタのうちの所定の1つに分類する分類ステップと、
S個の前記クラスタのそれぞれについて、前記分類ステップの処理により対応するクラスタに分類されたベクトルに基づいて、対応する前記クラスタを代表する代表ベクトルであって、N個の前記メタデータを基底とする前記代表ベクトルを生成する代表ベクトル生成ステップと、
前記代表ベクトル生成ステップの処理により生成されたS個の前記クラスタの前記代表ベクトルの中から、2つのクラスタの代表ベクトルの組を1以上選択し、選択された1組以上のそれぞれについて、2つのクラスタの代表ベクトルの差分ベクトルを生成する差分ベクトル生成ステップと、
M個の前記コンテンツとは異なる他のコンテンツをN個の前記メタデータを基底としてベクトル化し、その結果得られるベクトルと、前記差分ベクトル生成ステップの処理により生成された1以上の前記差分ベクトルのうちの少なくとも1つとの類似度を演算する類似度演算ステップと
を含むことを特徴とする情報処理方法。
Based on N (N is an integer value of 1 or more) metadata associated with at least one of the plurality of contents, M (M is an integer value of 1 or more) of the plurality of contents. A matrix generation step of generating each of the contents as a metadata matrix by vectorizing each of the contents, and generating a matrix having the M vectors obtained as a result thereof as column components or row components;
An approximate matrix generation step of generating an approximate matrix of the metadata matrix by performing singular value decomposition on the metadata matrix generated by the processing of the matrix generation step;
Each of the column component or the row component indicating each of the M contents of the approximate matrix generated by the processing of the approximate matrix generation step is partitioned as a vector, and each of the M partitioned vectors is determined. , A classification step for classifying into a predetermined one of S clusters (S is an integer value less than or equal to M);
For each of the S clusters, a representative vector representing the corresponding cluster based on the vector classified into the corresponding cluster by the processing of the classification step, and based on the N metadata A representative vector generation step of generating the representative vector;
One or more sets of representative vectors of two clusters are selected from the representative vectors of the S clusters generated by the processing of the representative vector generation step, and each of the selected one or more sets includes two A difference vector generation step for generating a difference vector of the representative vector of the cluster;
Other contents different from the M contents are vectorized based on the N pieces of metadata, and the resulting vector and one or more of the difference vectors generated by the processing of the difference vector generation step A similarity calculation step of calculating a similarity with at least one of the information processing method.
コンピュータに実行させるプログラムであって、
複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数の前記コンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップと、
前記行列生成ステップの処理により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成ステップと、
前記近似行列生成ステップの処理により生成された前記近似行列のうちのM個の前記コンテンツのそれぞれを示す列成分または行成分のそれぞれをベクトルとして区分し、M個に区分された前記ベクトルのそれぞれを、S個(Sは、M以下の整数値)のクラスタのうちの所定の1つに分類する分類ステップと、
S個の前記クラスタのそれぞれについて、前記分類ステップの処理により対応するクラスタに分類されたベクトルに基づいて、対応する前記クラスタを代表する代表ベクトルであって、N個の前記メタデータを基底とする前記代表ベクトルを生成する代表ベクトル生成ステップと、
前記代表ベクトル生成ステップの処理により生成されたS個の前記クラスタの前記代表ベクトルの中から、2つのクラスタの代表ベクトルの組を1以上選択し、選択された1組以上のそれぞれについて、2つのクラスタの代表ベクトルの差分ベクトルを生成する差分ベクトル生成ステップと、
M個の前記コンテンツとは異なる他のコンテンツをN個の前記メタデータを基底としてベクトル化し、その結果得られるベクトルと、前記差分ベクトル生成ステップの処理により生成された1以上の前記差分ベクトルのうちの少なくとも1つとの類似度を演算する類似度演算ステップと
を含むことを特徴とするプログラム。
A program to be executed by a computer,
Based on N (N is an integer value of 1 or more) metadata associated with at least one of the plurality of contents, M (M is an integer value of 1 or more) of the plurality of contents. A matrix generation step of generating each of the contents as a metadata matrix by vectorizing each of the contents, and generating a matrix having the M vectors obtained as a result thereof as column components or row components;
An approximate matrix generation step of generating an approximate matrix of the metadata matrix by performing singular value decomposition on the metadata matrix generated by the processing of the matrix generation step;
Each of the column component or the row component indicating each of the M contents of the approximate matrix generated by the processing of the approximate matrix generation step is partitioned as a vector, and each of the M partitioned vectors is determined. , A classification step for classifying into a predetermined one of S clusters (S is an integer value less than or equal to M);
For each of the S clusters, a representative vector representing the corresponding cluster based on the vector classified into the corresponding cluster by the processing of the classification step, and based on the N metadata A representative vector generation step of generating the representative vector;
One or more sets of representative vectors of two clusters are selected from the representative vectors of the S clusters generated by the processing of the representative vector generation step, and each of the selected one or more sets includes two A difference vector generation step for generating a difference vector of the representative vector of the cluster;
Other contents different from the M contents are vectorized based on the N pieces of metadata, and the resulting vector and one or more of the difference vectors generated by the processing of the difference vector generation step A similarity calculation step for calculating a similarity with at least one of the program.
JP2004226789A 2004-08-03 2004-08-03 Information processing device and method, and program Withdrawn JP2006048287A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004226789A JP2006048287A (en) 2004-08-03 2004-08-03 Information processing device and method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004226789A JP2006048287A (en) 2004-08-03 2004-08-03 Information processing device and method, and program

Publications (1)

Publication Number Publication Date
JP2006048287A true JP2006048287A (en) 2006-02-16

Family

ID=36026778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004226789A Withdrawn JP2006048287A (en) 2004-08-03 2004-08-03 Information processing device and method, and program

Country Status (1)

Country Link
JP (1) JP2006048287A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478781B2 (en) 2005-12-05 2013-07-02 Sony Corporation Information processing apparatus, information processing method and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478781B2 (en) 2005-12-05 2013-07-02 Sony Corporation Information processing apparatus, information processing method and program

Similar Documents

Publication Publication Date Title
JP2006048286A (en) Information processing device and method, and program
US11151145B2 (en) Tag selection and recommendation to a user of a content hosting service
Sánchez-Moreno et al. A collaborative filtering method for music recommendation using playing coefficients for artists and users
Konstas et al. On social networks and collaborative recommendation
JP4650541B2 (en) RECOMMENDATION DEVICE AND METHOD, PROGRAM, AND RECORDING MEDIUM
JP4678546B2 (en) RECOMMENDATION DEVICE AND METHOD, PROGRAM, AND RECORDING MEDIUM
Celma et al. A new approach to evaluating novel recommendations
US7953735B2 (en) Information processing apparatus, method and program
JP4622589B2 (en) Information processing apparatus and method, program, and recording medium
US20090277322A1 (en) Scalable Music Recommendation by Search
US20150242750A1 (en) Asymmetric Rankers for Vector-Based Recommendation
JP2007122683A (en) Information processing device, information processing method and program
JP2010067175A (en) Hybrid content recommendation server, recommendation system, and recommendation method
EP2208149A2 (en) Classifying a set of content items
JP2007241888A (en) Information processor, processing method, and program
JP2008117222A (en) Information processor, information processing method, and program
JP2011145742A (en) Apparatus and method for processing information, and program
Lalmas et al. Evaluating XML retrieval effectiveness at INEX
Tatli et al. A tag-based hybrid music recommendation system using semantic relations and multi-domain information
JP2004240887A (en) Retrieval information display system, retrieval keyword information display method and retrieval keyword information display program
JP2004287835A (en) Object table preparation method, object recommendation method, object table preparation program and object recommendation method
JP2006048288A (en) Information processing device and method, and program
JP2004157649A (en) Hierarchized user profile creation method and system, hierarchized user profile creation program and record medium recorded therewith
JP2006048289A (en) Information processing device and method, and program
JP2008171336A (en) Document cluster processing apparatus, document cluster processing method, and program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071106