JP6607691B2 - Evaluation value calculation device and program - Google Patents

Evaluation value calculation device and program Download PDF

Info

Publication number
JP6607691B2
JP6607691B2 JP2015079427A JP2015079427A JP6607691B2 JP 6607691 B2 JP6607691 B2 JP 6607691B2 JP 2015079427 A JP2015079427 A JP 2015079427A JP 2015079427 A JP2015079427 A JP 2015079427A JP 6607691 B2 JP6607691 B2 JP 6607691B2
Authority
JP
Japan
Prior art keywords
value
information
content
vector
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015079427A
Other languages
Japanese (ja)
Other versions
JP2016200908A (en
Inventor
俊彦 山崎
峻平 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2015079427A priority Critical patent/JP6607691B2/en
Publication of JP2016200908A publication Critical patent/JP2016200908A/en
Application granted granted Critical
Publication of JP6607691B2 publication Critical patent/JP6607691B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、評価値演算装置、及びプログラムに関する。   The present invention relates to an evaluation value calculation device and a program.

近年ではインターネット等を用いた通信サービスにより、さまざまなユーザが、写真や動画、文書など種々の情報の共有を図ったり、商品の売買を行ったりといった活動を行っている。   In recent years, various users have been engaged in activities such as sharing various kinds of information such as photographs, moving images, and documents, and buying and selling products through communication services using the Internet and the like.

こうした通信サービスのうちには、ユーザが所望の情報をより簡便に見つけ出すことができるように、写真や商品等に対してタイトルや商品名、アップロードしたユーザの情報などのほか、タグ情報などとして検索可能な文字列情報を自由に登録させ、対象となった写真や商品等に関連付けて記憶しているものがある。   Among these communication services, search for tag information, etc. in addition to titles, product names, uploaded user information, etc. for photos and products, etc., so that users can more easily find the desired information. Some character string information can be freely registered and stored in association with a target photograph or product.

このように、公衆が自由にタグ付け等して情報の分類を支援する方法はフォクソノミー(folksonomy)と呼ばれ、近年広く利用されている。   As described above, a method for supporting the classification of information by freely tagging the public is called folksonomy and has been widely used in recent years.

例えば写真の共有サイトにおいて、フクロウの写真を探したいユーザは、タイトルに「フクロウ」を含むものを検索するのではなく、「フクロウ」の文字列のタグを検索することによって、例えばタイトルに直接「フクロウ」が含まれなくても、所望の写真を検索できるようになる。   For example, in a photo sharing site, a user who wants to search for a picture of an owl does not search for a title containing “Owl” in the title, but by searching for a tag with the string “Owl”, for example, “ Even if “owl” is not included, a desired photo can be searched.

また商品についてはその説明文を検索の対象とすることにより、例えば消費電力の低い家電製品を求めるユーザが「低消費電力」なるキーワードで検索を行ったときに、商品名に「低消費電力」なる文言が含まれなくても、「低消費電力」なる文言を説明文に含む商品を検索できるようになる。   In addition, for a product, when the user seeking a home appliance with low power consumption performs a search with a keyword “low power consumption”, for example, when the user searches for a home appliance with low power consumption, the product name is “low power consumption”. Even if the wording is not included, a product including the wording “low power consumption” in the description can be searched.

A. Hotho, et. al., "Information retrieval in folksonomies: Search and ranking," The Semantic Web: Research and Applications, pp.411-426, 2006A. Hotho, et. Al., "Information retrieval in folksonomies: Search and ranking," The Semantic Web: Research and Applications, pp.411-426, 2006

しかしながら、上記従来の通信サービスにおいては、タグや説明文に含める単語によって写真や商品等の検索のされやすさが変わり、あるいはユーザの興味を惹く度合が変化するにも関わらず、タグや説明文等については登録者の自由に任されているのが現状で、より有効な、つまりより閲覧数を多くできるような単語の使用を案内することは行われていない。   However, in the conventional communication service described above, the tags and explanations are changed even though the ease of searching for photos and products changes depending on the words included in the tags and explanations, or the degree of interest of the user changes. Currently, it is up to the registrant to provide information on the use of words that are more effective, that is, can increase the number of browsing.

非特許文献1には、画像等のリソースに関するユーザの関係やタグの付与状況を分析し、ページランク(よりリンク数の多いものがより重要度が高いとする基準によるランキング)に類似した方法でユーザやタグの重要度を求める試みが開示されている。   Non-Patent Document 1 analyzes the user relationship and tagging status regarding resources such as images, and uses a method similar to page rank (a ranking based on a criterion that a higher number of links is more important). Attempts to determine the importance of users and tags have been disclosed.

しかし、この非特許文献1の方法では、例えば「フクロウ」の画像等についてより広い概念である「鳥」等のタグがより重要であると判断される蓋然性が高い(「鳥」が付与されるリソースの数は「フクロウ」よりも一般に数が多いと考えられるためである)。このように非特許文献1の方法では、より閲覧数を多くできるようなタグ等が必ずしも評価されず、より閲覧数を多くするために付与すべきタグ等として評価されることもないという問題点があった。   However, in the method of Non-Patent Document 1, there is a high probability that a tag such as “bird”, which is a broader concept for an “owl” image or the like, is more important (“bird” is given). This is because the number of resources is generally considered to be greater than the number of “owls”). As described above, in the method of Non-Patent Document 1, a tag or the like that can increase the number of browsing is not necessarily evaluated, and it is not evaluated as a tag or the like that should be given to increase the number of browsing. was there.

本発明は上記実情に鑑みて為されたもので、タグや説明文等の情報要素を有効性の観点で評価でき、有効なタグや説明文の付与を支援できる評価値演算装置、及びプログラムを提供することを、その目的の一つとする。   The present invention has been made in view of the above circumstances, and an evaluation value calculation device and a program that can evaluate information elements such as tags and explanations from the viewpoint of effectiveness and can support the provision of effective tags and explanations. One of its purposes is to provide it.

上記従来例の問題点を解決するための評価値演算装置は、情報通信手段を介して配信可能に設定された複数のコンテンツと、各コンテンツに関するポイント値とを保持する保持手段にアクセス可能に接続され、前記複数のコンテンツのそれぞれについてのポイント値を取得するポイント値取得手段と、前記複数のコンテンツのそれぞれに係る所定の情報要素を処理対象として、各コンテンツから得た処理対象の情報要素を、重複を除いて列挙し、(1)当該列挙した情報要素の各々についての評価値を表す要素を配列したベクトルPの各要素を所定値に初期化し、前記列挙した情報要素の各々を注目要素として、注目要素と注目要素を含むコンテンツ情報とをリンクした無向グラフの前記注目要素についての隣接行列Aの各列の値を、対応するコンテンツのポイント値を重みとして定め、当該隣接行列Aの各列について要素の総和が既定値となるよう定めた確率行列tAを求め、(2)当該確率行列tAに右側から前記ベクトルPを乗じて得たベクトルP′により、前記ベクトルPを更新し、(3)前記ベクトルPが所定の収束条件を満足するまで(2)の処理を繰り返し、(4)前記所定の収束条件を満足したときの前記ベクトルPの各要素の値を、対応する情報要素の評価値として出力する評価値演算手段と、を含むこととしたものである。   An evaluation value computing device for solving the problems of the conventional example is connected to a holding unit that holds a plurality of contents set to be distributable via an information communication unit and a point value related to each content. And a point value acquisition means for acquiring a point value for each of the plurality of contents, and a predetermined information element relating to each of the plurality of contents as a processing target, an information element of a processing target obtained from each content, (1) Initializing each element of the vector P in which elements representing evaluation values for each of the listed information elements are arranged to a predetermined value, and using each of the listed information elements as a target element , The value of each column of the adjacency matrix A for the attention element of the undirected graph in which the attention element and the content information including the attention element are linked. A point value of content is determined as a weight, a probability matrix tA is determined so that the sum of elements becomes a predetermined value for each column of the adjacency matrix A, and (2) the probability matrix tA is multiplied by the vector P from the right side. The vector P ′ is updated with the obtained vector P ′, (3) the process of (2) is repeated until the vector P satisfies a predetermined convergence condition, and (4) when the predetermined convergence condition is satisfied. Evaluation value calculation means for outputting the value of each element of the vector P as the evaluation value of the corresponding information element.

また本発明の別の態様に係る評価値演算装置は、情報通信手段を介して配信可能に設定された複数のコンテンツと、各コンテンツに関するポイント値とを保持する保持手段にアクセス可能に接続され、前記複数のコンテンツのそれぞれについてのポイント値を取得するポイント値取得手段と、前記複数のコンテンツのそれぞれに係る所定の情報要素を処理対象として、各コンテンツから得た処理対象の情報要素を、重複を除いて列挙し、各コンテンツを注目コンテンツとして、(1)注目コンテンツに係る情報要素に対応する要素を第1の所定値、含まれない情報要素に対応する要素を第2の所定値とした特徴ベクトルxと、注目コンテンツに関するポイント値yとを用いて注目コンテンツごとに数式y=w・x(ここでwは重みベクトルであり、「・」は内積を表す)を得て、(2)前記コンテンツごとに得られた数式に基づく回帰分析処理により前記重みベクトルを求め、(3)当該求められた重みベクトルの値と、情報要素ごとの複数のコンテンツ内での出現頻度の値とに基づいて、情報要素の評価値を演算して出力する評価値演算手段と、を含むこととしたものである。   In addition, the evaluation value calculation device according to another aspect of the present invention is connected to a holding unit that holds a plurality of contents set to be distributable via an information communication unit and a point value related to each content, and is accessible. A point value acquisition means for acquiring a point value for each of the plurality of contents, a predetermined information element related to each of the plurality of contents as a processing target, and information elements to be processed obtained from the respective contents are duplicated (1) The element corresponding to the information element related to the content of interest is the first predetermined value, and the element corresponding to the information element not included is the second predetermined value. Formula y = w · x (where w is a weight vector) for each content of interest using vector x and point value y related to the content of interest “·” Represents an inner product), (2) the weight vector is obtained by regression analysis based on the mathematical formula obtained for each content, and (3) the value of the obtained weight vector, Evaluation value calculation means for calculating and outputting an evaluation value of the information element based on the value of the appearance frequency in the plurality of contents for each information element.

本発明によると、タグや説明文等の情報要素を有効性の観点で評価でき、有効なタグや説明文の付与を支援できる。   According to the present invention, information elements such as tags and explanatory texts can be evaluated from the viewpoint of effectiveness, and the provision of effective tags and explanatory texts can be supported.

本発明の実施の形態に係る評価値演算装置とその接続例を表す構成ブロック図である。1 is a configuration block diagram illustrating an evaluation value calculation device according to an embodiment of the present invention and a connection example thereof. 本発明の実施の形態に係る評価値演算装置におけるポイント値の情報の保持例を表す説明図である。It is explanatory drawing showing the holding example of the information of the point value in the evaluation value calculating apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る評価値演算装置の例を表す機能ブロック図である。It is a functional block diagram showing the example of the evaluation value calculating apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る評価値演算装置の動作例を表すフローチャート図である。It is a flowchart figure showing the operation example of the evaluation value calculating apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る評価値演算装置による演算に用いられる仮想的なグラフの例を表す説明図である。It is explanatory drawing showing the example of the virtual graph used for the calculation by the evaluation value calculating apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る評価値演算装置のもう一つの例を表す機能ブロック図である。It is a functional block diagram showing another example of the evaluation value calculating apparatus which concerns on embodiment of this invention.

本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る評価値演算装置1は、図1に例示するように、制御部11と記憶部12と操作部13と表示部14と通信部15とを含んで構成され、ネットワーク等の情報通信手段を介して、サーバ2(複数あってもよい)等との間で通信可能に接続されている。   Embodiments of the present invention will be described with reference to the drawings. As illustrated in FIG. 1, the evaluation value calculation apparatus 1 according to the embodiment of the present invention includes a control unit 11, a storage unit 12, an operation unit 13, a display unit 14, and a communication unit 15. Or the like via a communication device such as a server 2 (a plurality of servers may be connected).

ここでサーバ2は、図2に例示するように、ネットワーク等の情報通信手段を介して配信可能に設定された複数のコンテンツ(C)と、当該複数のコンテンツの各々に関するポイント値(P)と、当該コンテンツ(C)に関係するユーザ(コンテンツを登録したユーザ、あるいはコンテンツの連絡先や発注先であるユーザ等)を特定するユーザ特定情報(U)とを関連付けて保持している。またここでコンテンツ(C)は例えば写真や楽曲等のメディアデータ等、主たる情報であるリソース情報(R)のほか、このコンテンツ情報に関連して検索の対象となる文字列情報(タグ情報や説明文の情報)等(G)とを含むものとする。ここで当該文字列情報に含まれる単語やタグ等(G)が本発明の情報要素の一例に相当する。なお、ここではコンテンツ(C)に情報要素であるタグ等(G)が含まれるものとしているが、タグ等はコンテンツ(C)に関連付けて記憶されていれば(コンテンツ(C)に係るものであれば)、必ずしもコンテンツ(C)に含まれている必要はない。   Here, as illustrated in FIG. 2, the server 2 has a plurality of contents (C) set to be distributable via information communication means such as a network, and a point value (P) regarding each of the plurality of contents. In addition, user specification information (U) for specifying a user related to the content (C) (a user who has registered the content or a user who is a contact or ordering user for the content) is stored in association with each other. Here, the content (C) is, for example, resource information (R), which is the main information such as media data such as photographs and music, and character string information (tag information and description) to be searched in relation to the content information. Sentence information) etc. (G). Here, words, tags, etc. (G) included in the character string information correspond to an example of information elements of the present invention. Here, it is assumed that the tag (G), which is an information element, is included in the content (C). However, if the tag or the like is stored in association with the content (C) (the content is related to the content (C)). It is not necessarily included in the content (C).

またポイント値(P)は、コンテンツ(C)ごとの評価値に相当するものであり、例えば閲覧者が任意に付した評価点の合計点であってもよいし、閲覧数であってもよい。   The point value (P) corresponds to an evaluation value for each content (C), and may be, for example, a total score of evaluation points arbitrarily given by a viewer, or may be the number of browsing. .

なお、本実施の形態においてサーバ2は、ウェブサーバであり、コンテンツ(C)はそれぞれ参照情報(URL:Uniform Resource Locator)によって識別されるものとする。   In the present embodiment, the server 2 is a web server, and the content (C) is identified by reference information (URL: Uniform Resource Locator).

制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態では、この制御部11は、情報要素の評価値を演算する処理を実行する。この制御部11の詳しい処理の内容については後に述べる。   The control unit 11 is a program control device such as a CPU, and operates according to a program stored in the storage unit 12. In the present embodiment, the control unit 11 executes processing for calculating the evaluation value of the information element. Details of the processing of the control unit 11 will be described later.

記憶部12は、メモリデバイス等であり、制御部11によって実行されるプログラムを保持する。このプログラムは、DVD−ROM等のコンピュータ可読、かつ持続的(non-transitory)な記録媒体によって提供され、この記憶部12に複写されたものであってもよいし、ネットワーク等の通信回線を介して提供され、この記憶部12に複写されたものであってもよい。またこの記憶部12は、制御部11のワークメモリとしても動作する。   The storage unit 12 is a memory device or the like and holds a program executed by the control unit 11. This program may be provided by a computer-readable and non-transitory recording medium such as a DVD-ROM and copied to the storage unit 12 or via a communication line such as a network. Provided and copied to the storage unit 12. The storage unit 12 also operates as a work memory for the control unit 11.

操作部13は、マウスやキーボード等であり、ユーザの指示操作を受け入れて、当該受け入れた指示操作の内容を表す情報を制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11から入力される指示に従って情報を表示する。   The operation unit 13 is a mouse, a keyboard, or the like. The operation unit 13 accepts a user instruction operation and outputs information representing the content of the accepted instruction operation to the control unit 11. The display unit 14 is a display or the like, and displays information according to an instruction input from the control unit 11.

通信部15は、ネットワーク等の情報通信手段に接続される。この通信部15は、ネットワーク等を介して情報を受信し、当該受信した情報を制御部11に出力する。またこの通信部15は、制御部11から入力される指示に従い、指示された情報(情報の取得要求等を含む)を、ネットワークを介して送出する。   The communication unit 15 is connected to information communication means such as a network. The communication unit 15 receives information via a network or the like and outputs the received information to the control unit 11. The communication unit 15 transmits the instructed information (including an information acquisition request) via the network in accordance with an instruction input from the control unit 11.

ここで制御部11の動作について述べるが、本実施の形態では、情報要素の評価値を演算する方法として、
(1)関連付けに基づく方法
(2)単語の重要度に基づく方法
との二通りの方法で情報要素の評価値を演算できるので、以下、これらを分けて説明する。
Here, the operation of the control unit 11 will be described. In the present embodiment, as a method of calculating the evaluation value of the information element,
Since the evaluation value of the information element can be calculated by two methods, (1) a method based on association and (2) a method based on word importance, these will be described separately below.

[関連付けに基づく方法]
関連付けに基づく方法で情報要素の評価値を演算する本実施の形態の制御部11は、図3に例示するように、記憶部12に格納されたプログラムを実行することにより、ポイント値取得部21と、情報要素列挙部22と、繰り返し演算部23と、収束判定部24と、評価値出力部25とを機能的に実現する。
Association-based method
As illustrated in FIG. 3, the control unit 11 according to the present embodiment that calculates the evaluation value of the information element by the association-based method executes the program stored in the storage unit 12, thereby performing the point value acquisition unit 21. The information element listing unit 22, the iterative calculation unit 23, the convergence determination unit 24, and the evaluation value output unit 25 are functionally realized.

ポイント値取得部21は、サーバ2に格納されているコンテンツ(C)ごとのポイント値を取得する。ポイント値取得部21は、各コンテンツを識別する情報(例えばそのURL等でよい)と、当該情報で識別されるコンテンツに関連付けてサーバ2が保持していたポイント値(取得した値)とを関連付けて記憶部12にポイント値データベースとして格納する。   The point value acquisition unit 21 acquires a point value for each content (C) stored in the server 2. The point value acquisition unit 21 associates information for identifying each content (for example, the URL thereof) and the point value (acquired value) held by the server 2 in association with the content identified by the information. And stored in the storage unit 12 as a point value database.

情報要素列挙部22は、サーバ2に格納されているコンテンツ(C)ごとに、当該コンテンツに含まれる所定の情報要素を取得する。具体的にここでは、コンテンツに含まれる検索対象の文字列情報(説明文やタグ等)を取得する。ここで情報要素列挙部22は、取得した文字列情報がタグであれば、各タグを処理対象として以下の処理を行う。また、取得した文字列情報が説明文等の自然文であれば、所定の方法(広く知られた形態素解析等でよい)を用いて単語に分割し、分割して得た各単語を処理対象として以下の処理を行う。   For each content (C) stored in the server 2, the information element listing unit 22 acquires a predetermined information element included in the content. Specifically, here, the character string information (description, tag, etc.) to be searched included in the content is acquired. Here, if the acquired character string information is a tag, the information element listing unit 22 performs the following processing for each tag as a processing target. Moreover, if the acquired character string information is a natural sentence such as an explanatory sentence, it is divided into words using a predetermined method (a widely known morphological analysis or the like), and each word obtained by the division is processed. The following processing is performed.

情報要素列挙部22は、各コンテンツのそれぞれから得られた、処理対象となった情報要素を、重複を除いて列挙し、情報要素列を生成する。具体的に、あるコンテンツαについて「鳥」,「フクロウ」といったタグが含まれ、さらに別のコンテンツγについて「鳥」,「飛ぶ」といったタグが含まれる場合、これらから得られた、重複を除いて情報要素(タグ)を列挙した結果は、「鳥」,「フクロウ」,「飛ぶ」の3つの要素を含む情報要素のセットとなる。なお、ここで重複は完全一致を条件とし、「鳥」と「大きい鳥」とは異なる情報要素として列挙してもよいし、部分一致(例えば名詞が一致するなど)あるいは、予め用意されたシソーラスを用いて同一概念を表すものと判断される情報要素を重複しているものとして扱うようにしてもよい(その場合は同一概念を表す情報要素のいずれかを代表として、同じ概念の情報要素については当該代表の情報要素で置き換えて以下の処理を行う)。   The information element enumeration unit 22 enumerates information elements obtained from each content, which are processing targets, without duplication, and generates an information element string. Specifically, when a tag such as “bird” or “owl” is included for a certain content α and a tag such as “bird” or “fly” is included for another content γ, the duplication obtained from these is removed. The result of enumerating the information elements (tags) is a set of information elements including three elements “bird”, “owl”, and “fly”. It should be noted that here, duplication is subject to complete matching, and “bird” and “large bird” may be listed as different information elements, partially matched (for example, nouns match), or a thesaurus prepared in advance. Information elements that are judged to represent the same concept may be treated as duplicates (in this case, one of the information elements representing the same concept is used as a representative for information elements of the same concept) Is replaced with the representative information element and the following processing is performed).

制御部11は、繰り返し演算部23及び収束判定部24の動作として、次の図4に例示する処理を行う。まず、繰り返し演算部23が、情報要素列挙部22が列挙した情報要素Ei(i=1,2,…,N)の各々についての評価値wi(i=1,2,…,N)を表す要素を配列したベクトルPを生成し、その各要素を所定値(例えば「1」)に初期化する。つまり、wi=1(i=1,2,…,N)とする(S1)。   The control unit 11 performs the processing illustrated in FIG. 4 as the operation of the iterative calculation unit 23 and the convergence determination unit 24. First, the iterative calculation unit 23 represents an evaluation value w i (i = 1, 2,..., N) for each of the information elements E i (i = 1, 2,..., N) enumerated by the information element listing unit 22. A vector P in which elements are arranged is generated, and each element is initialized to a predetermined value (for example, “1”). That is, wi = 1 (i = 1, 2,..., N) is set (S1).

繰り返し演算部23は、情報要素列挙部22が列挙した情報要素の各々を注目要素として、注目要素と注目要素を含むコンテンツとをそれぞれノードとしてリンクした無向グラフを生成し(S2)、当該無向グラフの各情報要素についての隣接行列Aを求める(S3)。具体的に上述のコンテンツα,γに「鳥」,「フクロウ」,「飛ぶ」といったタグが含まれるコンテンツβを加えた、コンテンツα,β,γを例とする場合、図5に例示する無向グラフが得られる。図5では、情報要素のノードを円、コンテンツのノードを矩形で図示している。この図5の例に対応する隣接行列Aは、

Figure 0006607691
となる。この隣接行列Aにおいては、各行は列挙された各情報要素に対応し、各列はコンテンツに対応する。そしてこの隣接行列Aは、「情報要素がコンテンツに含まれる」リンクについての隣接行列であり、ある情報要素がコンテンツに含まれる場合に対応する要素を「1」、含まれない場合に対応する要素を「0」としている。繰り返し演算部23は、この隣接行列Aの各列の値に、対応するコンテンツについてポイント値取得部21が得ているポイント値の重みを乗じる(S4)。 The iterative calculation unit 23 generates an undirected graph in which each of the information elements enumerated by the information element listing unit 22 is used as a target element, and the target element and the content including the target element are linked as nodes (S2). An adjacency matrix A is obtained for each information element of the directed graph (S3). Specifically, when the contents α, γ, and the contents β including the tags “bird”, “owl”, and “fly” are added to the contents α, γ described above, the contents α, β, γ are exemplified as shown in FIG. A direction graph is obtained. In FIG. 5, nodes of information elements are shown as circles and nodes of contents are shown as rectangles. The adjacency matrix A corresponding to the example of FIG.
Figure 0006607691
It becomes. In this adjacency matrix A, each row corresponds to each listed information element, and each column corresponds to content. This adjacency matrix A is an adjacency matrix for the link “information element is included in content”, “1” is an element corresponding to a case where an information element is included in the content, and an element corresponding to a case where it is not included Is set to “0”. The iterative calculation unit 23 multiplies the value of each column of the adjacency matrix A by the weight of the point value obtained by the point value acquisition unit 21 for the corresponding content (S4).

そして繰り返し演算部23は、このポイントの重みを乗じた後の隣接行列Aの各列について要素の総和が既定値(ここでは「1」)となるよう定めた確率行列tAを求める(S5)。具体的にこの確率行列tAは、コンテンツα,β,γのそれぞれに対応して取得されたポイント値を40,7,3とすると、次のようになる。

Figure 0006607691
なお、ここでの要素の値は、行方向に要素の数で正規化したもので、例えば第1行目について要素の数が
Figure 0006607691
となるので、当該行の各値にこの値1/2を乗じて正規化したものである。
Then, the iterative operation unit 23 obtains a probability matrix tA that is determined so that the sum of elements becomes a predetermined value (here, “1”) for each column of the adjacency matrix A after being multiplied by the weight of this point (S5). Specifically, the probability matrix tA is as follows when the point values acquired corresponding to the contents α, β, and γ are 40, 7, and 3, respectively.
Figure 0006607691
The value of the elements of this case is obtained by normalizing the row direction by the number of elements, for example, the number of elements for the first row,
Figure 0006607691
Therefore, each value of the row is normalized by multiplying this value ½.

この行列tAは、次の行確率行列Bw及び列確率行列Btとを用いて演算できる。これらの行列Bw,Btは、N×M(ただしNは情報要素の数であり、Mはコンテンツの数である)の行列であり、行列Bwは、そのi番目の行ベクトルが、i番目の情報要素が付されたコンテンツのポイント値を正規化したもの(行内でのポイント値の総和が「1」となるよう演算したもの)となるよう設定したもので、上述の例のようにコンテンツα,β,γのそれぞれに対応して取得されたポイント値が40,7,3であれば、

Figure 0006607691
となる。 This matrix tA can be calculated using the next row probability matrix Bw and column probability matrix Bt. These matrices Bw and Bt are N × M (where N is the number of information elements and M is the number of contents), and the i-th row vector of the matrix Bw is the i-th row vector. It is set so that the point value of the content to which the information element is added is normalized (calculated so that the sum of the point values in the row is “1”), and the content α as in the above example If the point values acquired corresponding to each of, β, and γ are 40, 7, and 3,
Figure 0006607691
It becomes.

またBtは、j番目の列ベクトルのi番目の要素が、j番目のコンテンツにi番目の情報要素が付されている場合に、1/s、付されていない場合に0としたものである。ここでsは、j番目のコンテンツに付されている情報要素の数であり、従ってこの行列Btのj番目の列ベクトルの要素の和は「1」となる。具体的に上述の例であれば、Btは、

Figure 0006607691
となる。 Bt is 1 / s when the i-th element of the j-th column vector is attached with the i-th information element, and 0 when it is not attached. . Here, s is the number of information elements attached to the j-th content, and therefore the sum of the elements of the j-th column vector of this matrix Bt is “1”. Specifically, in the above example, Bt is
Figure 0006607691
It becomes.

繰り返し演算部23は、そして行列tAを、tA=Bw×Btとして演算する。なお、Btは行列Btの転置行列を意味する。 The iterative calculation unit 23 calculates the matrix tA as tA = Bw × Bt T. Bt T means a transposed matrix of the matrix Bt.

繰り返し演算部23は、繰り返し演算を開始し(S6:ループ始)、当該確率行列tAに右側から前記ベクトルPを乗じて得たベクトルP′により、ベクトルPを更新する(S7)。   The iterative calculation unit 23 starts the iterative calculation (S6: start of loop), and updates the vector P with a vector P ′ obtained by multiplying the probability matrix tA by the vector P from the right side (S7).

つまり、

Figure 0006607691
として、第n世代目のベクトルPnを求めていく。ここでIは、ベクトルPと同じ次元で、各要素が「1」であるようなベクトルである。またaは実験的あるいは経験的方法により定められるダンピングファクターである。ダンピングファクターとその設定の方法は、ページランクの演算における同種の方法で広く知られているので、ここでの詳しい説明を省略する。 That means
Figure 0006607691
Then, the nth generation vector Pn is obtained. Here, I is a vector having the same dimension as the vector P and each element being “1”. A is a damping factor determined by an experimental or empirical method. The damping factor and its setting method are widely known as the same kind of method for calculating the page rank, and thus detailed description thereof is omitted here.

次に収束判定部24が、ベクトルPnが収束したか否かを、所定の収束条件を満足しているか否かにより判断する(S8)。ここで収束条件は、ベクトルPnと、ベクトルPn-1との差のノルム(ユークリッドノルムでよい)が所定のしきい値未満である、などの条件としておけばよい。収束判定部24は、ベクトルPnが収束したと判断すると、その時点でのベクトルPnの値を評価値出力部25に出力する(S9)。またこの収束判定部24は、処理S8において収束条件を満足していないと判断すると、繰り返し演算部23に対してベクトルPを更新させる処理(処理S7)を繰り返させる(ループ)。   Next, the convergence determination unit 24 determines whether or not the vector Pn has converged based on whether or not a predetermined convergence condition is satisfied (S8). Here, the convergence condition may be a condition such that the norm (which may be the Euclidean norm) of the difference between the vector Pn and the vector Pn−1 is less than a predetermined threshold. When determining that the vector Pn has converged, the convergence determination unit 24 outputs the value of the vector Pn at that time to the evaluation value output unit 25 (S9). If the convergence determination unit 24 determines that the convergence condition is not satisfied in step S8, the convergence determination unit 24 causes the iterative calculation unit 23 to repeat the process of updating the vector P (processing S7) (loop).

具体的に上述の例の場合、ダンピングファクターa=0.15とすると、初回の更新でベクトルPの各要素は1.28,1.13,0.58となり、繰り返し演算の後、1.07,1.00,0.93に収束する。   Specifically, in the case of the above example, assuming that the damping factor a = 0.15, the elements of the vector P are 1.28, 1.13, 0.58 in the first update, and converge to 1.07, 1.00, 0.93 after repeated operations.

評価値出力部25は、収束判定部24が出力するベクトルPの値を得て、この値に基づく表示を行う。このベクトルPは、各要素の値が各情報要素の評価値を表す値となっている。そこで評価値出力部25は例えば、この要素の値を降順(大きいものから小さいものの順)に並べ替え、その上位所定数までの要素の値に対応する情報要素を高評価値の情報要素として表示することとしてもよい。   The evaluation value output unit 25 obtains the value of the vector P output from the convergence determination unit 24 and performs display based on this value. In this vector P, the value of each element is a value representing the evaluation value of each information element. Therefore, for example, the evaluation value output unit 25 rearranges the values of the elements in descending order (from the largest to the smallest), and displays the information elements corresponding to the element values up to the upper predetermined number as the information elements of the high evaluation value. It is good to do.

上記の例では、「鳥」に対応する値が1.07、「フクロウ」に対応する値が1.00、「飛ぶ」に対応する値が0.93であるので、例えば上位2つまでの「鳥」,「フクロウ」を有効な情報要素として提示する。   In the above example, the value corresponding to “Bird” is 1.07, the value corresponding to “Owl” is 1.00, and the value corresponding to “Fly” is 0.93. For example, the top two “Birds” and “Owls” As a valid information element.

[単語の重要度に基づく方法]
また本実施の形態の制御部11は単語の重要度に基づいて情報要素の評価値を演算してもよい。この例の制御部11は、図6に例示するように、記憶部12に格納されたプログラムを実行することにより、ポイント値取得部21と、情報要素列挙部22と、回帰演算部31と、出現頻度演算部32と、評価値演算部33と、評価値出力部25とを機能的に実現する。なお、既に説明したものと同様の構成をとるものについては、同じ符号を付して説明を簡略にする。
[Method based on word importance]
Moreover, the control part 11 of this Embodiment may calculate the evaluation value of an information element based on the importance of a word. As illustrated in FIG. 6, the control unit 11 in this example executes a program stored in the storage unit 12, thereby obtaining a point value acquisition unit 21, an information element listing unit 22, a regression calculation unit 31, The appearance frequency calculation unit 32, the evaluation value calculation unit 33, and the evaluation value output unit 25 are functionally realized. In addition, about the thing which has the structure similar to what was already demonstrated, the same code | symbol is attached | subjected and description is simplified.

ポイント値取得部21は、サーバ2に格納されているコンテンツ(C)ごとのポイント値を取得する。ポイント値取得部21は、各コンテンツを識別する情報(例えばそのURL等でよい)と、当該情報で識別されるコンテンツに関連付けてサーバ2が保持していたポイント値(取得した値)とを関連付けて記憶部12にポイント値データベースとして格納する。   The point value acquisition unit 21 acquires a point value for each content (C) stored in the server 2. The point value acquisition unit 21 associates information for identifying each content (for example, the URL thereof) and the point value (acquired value) held by the server 2 in association with the content identified by the information. And stored in the storage unit 12 as a point value database.

情報要素列挙部22は、サーバ2に格納されているコンテンツ(C)ごとに、当該コンテンツに含まれる所定の情報要素を取得する。具体的にここでは、コンテンツに含まれる検索対象の文字列情報(説明文やタグ等)を取得する。ここで情報要素列挙部22は、取得した文字列情報がタグであれば、各タグを処理対象として以下の処理を行う。また、取得した文字列情報が説明文等の自然文であれば、所定の方法(広く知られた形態素解析等でよい)を用いて単語に分割し、分割して得た各単語を処理対象として、各コンテンツのそれぞれから得られた、処理対象となった情報要素を、重複を除いて列挙し、情報要素列を生成する。以下の説明ではここで生成した情報要素列に含まれる情報要素の個数をNとする。   For each content (C) stored in the server 2, the information element listing unit 22 acquires a predetermined information element included in the content. Specifically, here, the character string information (description, tag, etc.) to be searched included in the content is acquired. Here, if the acquired character string information is a tag, the information element listing unit 22 performs the following processing for each tag as a processing target. Moreover, if the acquired character string information is a natural sentence such as an explanatory sentence, it is divided into words using a predetermined method (a widely known morphological analysis or the like), and each word obtained by the division is processed. As described above, information elements obtained from the respective contents and listed as processing targets are listed without duplication to generate an information element string. In the following description, the number of information elements included in the generated information element sequence is N.

回帰演算部31は、各コンテンツj(j=1,2…,M)のいずれかを注目コンテンツjnとして、注目コンテンツjnに含まれる情報要素に対応する要素を第1の所定値(例えば「1」)、含まれない情報要素に対応する要素を第2の所定値(例えば「0」)としたN次元の特徴ベクトルxjnと、注目コンテンツjに関するポイント値yjn(jn=1,2…,M)とを用いて注目コンテンツごとに数式yjn=w・xjn(ここでw=(w1,w2,…,wN)は重みベクトルであり、「・」は内積を表す)を得る。そして回帰演算部31は、コンテンツごとに得られた数式yj=w・xj(j=1,2…,M)に基づく回帰分析処理により重みベクトルwを求める。この回帰分析処理は、SVR(Support Vector Regression)等の広く知られた処理を用いることができるので、ここでの詳しい説明を省略する。   The regression calculation unit 31 sets any one of the contents j (j = 1, 2,..., M) as the attention content jn, and sets an element corresponding to the information element included in the attention content jn to a first predetermined value (for example, “1”). )), An N-dimensional feature vector xjn having elements corresponding to information elements not included as a second predetermined value (for example, “0”), and point values yjn (jn = 1, 2,..., M for the content of interest j). ) To obtain a mathematical expression yjn = w · xjn (where w = (w 1, w 2,..., WN) is a weight vector and “·” represents an inner product) for each content of interest. Then, the regression calculation unit 31 obtains the weight vector w by regression analysis processing based on the mathematical formula yj = w · xj (j = 1, 2,..., M) obtained for each content. Since this regression analysis process can use a widely known process such as SVR (Support Vector Regression), a detailed description thereof is omitted here.

出現頻度演算部32は、情報要素列挙部22が生成した情報要素列に含まれる各情報要素のコンテンツごとの出現頻度Freq[t,j](t=1,2,…N、j=1,2,…M)を演算し、その総和を求める。つまり出現頻度演算部32は、各情報要素t(t=1,2,…N)のすべてのコンテンツ内での出現頻度
Freq[t]=ΣFreq[t,j](t=1,2,…N)
(ただしΣは、jについて和をとることを意味する)を求める。
The appearance frequency calculation unit 32 generates an appearance frequency Freq [t, j] (t = 1, 2,... N, j = 1, for each content of each information element included in the information element sequence generated by the information element listing unit 22. 2,... M) is calculated and the sum is obtained. That is, the appearance frequency calculation unit 32 generates an appearance frequency Freq [t] = ΣFreq [t, j] (t = 1, 2,...) In all contents of each information element t (t = 1, 2,... N). N)
(Where Σ means summing over j).

評価値演算部33は、回帰演算部31が求めた重みベクトルw=(w1,w2,…,wN)の各成分について、当該成分に対応する情報要素の出現頻度の情報(出現頻度演算部32にて演算された情報)を乗じて、情報要素p(p=1,2,…N)についての評価値Vpを、Vp=wp×Freq[p](p=1,2,…N)として求めて出力する。   For each component of the weight vector w = (w 1, w 2,..., W N) obtained by the regression calculation unit 31, the evaluation value calculation unit 33 is information on the appearance frequency of the information element corresponding to the component (appearance frequency calculation unit 32. And the evaluation value Vp for the information element p (p = 1, 2,... N) is Vp = wp × Freq [p] (p = 1, 2,... N). Find and output.

評価値出力部25は、評価値演算部33が出力する情報要素p(p=1,2,…N)についての評価値を得て、この評価値に基づく表示を行う。評価値出力部25は例えば、この評価値Vpを降順(大きいものから小さいものの順)に並べ替え、その上位所定数までの評価値Vpに対応する情報要素pを高評価値の情報要素として表示することとしてもよい。   The evaluation value output unit 25 obtains an evaluation value for the information element p (p = 1, 2,... N) output by the evaluation value calculation unit 33 and performs display based on the evaluation value. For example, the evaluation value output unit 25 rearranges the evaluation values Vp in descending order (in order from large to small), and displays the information elements p corresponding to the evaluation values Vp up to the upper predetermined number as information elements of high evaluation values. It is good to do.

[動作例]
本実施の形態の評価値演算装置1は、以上の構成を備えており、次のように動作する。すなわち本実施の形態の評価値演算装置1は、ユーザから処理の対象とするデータセットの指定を受け入れる。本実施の形態の評価値演算装置1はデータセットとして、データセットコンテンツと、コンテンツに与えられたポイント情報(評価点や閲覧数等の情報)とを含むデータを選択する。
[Operation example]
The evaluation value calculation device 1 of the present embodiment has the above configuration and operates as follows. That is, the evaluation value calculation apparatus 1 according to the present embodiment accepts designation of a data set to be processed from the user. The evaluation value calculation apparatus 1 according to the present embodiment selects data including data set content and point information (information such as evaluation points and the number of views) given to the content as a data set.

この指定は処理の対象となるコンテンツのURLのリスト、あるいは当該リストを入手可能なURLを入力することで行う。具体的に、写真共有サイトであるflickr(登録商標)においては、flickr.phots.search APIを用いて、所定の期間にアップロードされたコンテンツのURLのリストを得ることができる。本実施の形態の評価値演算装置1は、こうしたサイトにおいてはサイトごとに規定されたAPI(Application Program Interface)を用いてコンテンツのURLのリストを得る。   This designation is performed by inputting a list of URLs of contents to be processed or URLs from which the list can be obtained. Specifically, in the flickr (registered trademark), which is a photo sharing site, a list of URLs of content uploaded during a predetermined period can be obtained using the flickr.phots.search API. In such a site, the evaluation value calculation apparatus 1 according to the present embodiment obtains a list of content URLs using an API (Application Program Interface) defined for each site.

また評価値演算装置1は、得られたリストに含まれるURLで特定される複数のコンテンツのそれぞれから、少なくとも処理の対象とする情報要素であるテキスト等(例えばタグ等)を取得するとともに、各コンテンツのポイント情報を取得する。一例としてここではタグを処理対象の情報要素として取得することとするが、説明文等、複数の単語を含むテキストを処理対象とする場合は、既に述べたように、形態素解析処理により単語に分割し、分割により得られた各単語を処理対象の情報要素として取得することとしてもよい。   In addition, the evaluation value calculation device 1 acquires at least text or the like (for example, a tag) that is an information element to be processed from each of a plurality of contents specified by URLs included in the obtained list, Get content point information. As an example, the tag is acquired as an information element to be processed here. However, when text including multiple words such as explanatory text is processed, it is divided into words by morphological analysis processing as described above. Then, each word obtained by the division may be acquired as an information element to be processed.

評価値演算装置1は、そして、(1)関連付けに基づく方法、または(2)単語の重要度に基づく方法のいずれかの方法によって、コンテンツのポイント情報を用いて、取得した処理対象の情報要素であるタグごとの評価値を演算する。そして演算した評価値を例えば降順に並べ替えて、その上位所定数までの評価値に対応するタグを高評価値の情報要素として表示する。   The evaluation value calculation device 1 uses the content point information to obtain the information element to be processed by either the (1) method based on association or (2) the method based on word importance The evaluation value for each tag is calculated. Then, the calculated evaluation values are rearranged, for example, in descending order, and tags corresponding to the evaluation values up to the upper predetermined number are displayed as high evaluation value information elements.

ユーザは、これにより、比較的高いポイント情報(評価が高い、あるいは閲覧数の多い)を得やすいタグの一覧を得ることができる。そしてユーザは、コンテンツにどのようなタグを含めればより高い評価が得られるか、あるいは閲覧数を多くできるかを知ることができるようになる。   Thus, the user can obtain a list of tags from which it is easy to obtain relatively high point information (high evaluation or a large number of browsing). Then, the user can know what kind of tag is included in the content so that a higher evaluation can be obtained or the number of browsing can be increased.

[関連付けるべき情報要素の案内]
また本実施の形態の評価値演算装置1は、ユーザにより指定されたコンテンツ等の対象コンテンツに含めることにより、コンテンツのポイント情報を向上できると判断される情報要素を案内する処理を行ってもよい。
[Guidance of information elements to be associated]
Moreover, the evaluation value calculation apparatus 1 of this Embodiment may perform the process which guides the information element judged that the point information of a content can be improved by including it in object content, such as the content designated by the user. .

具体的にこの例の評価値演算装置1は、処理の対象とするデータセットの指定とともに対象コンテンツの指定をユーザから受け入れる。ここで対象コンテンツの指定は、そのURLを指定することで行うことができる。評価値演算装置1は、指定されたURLから対象コンテンツに含まれる所定の情報要素を重複を除いて列挙した対象情報要素群を求める。   Specifically, the evaluation value calculation apparatus 1 in this example accepts designation of target content from the user together with designation of a data set to be processed. Here, the target content can be specified by specifying the URL. The evaluation value calculation device 1 obtains a target information element group in which predetermined information elements included in the target content are listed from the specified URL without duplication.

評価値演算装置1は、処理の対象とするデータセットである複数のコンテンツ(対象コンテンツを含んでもよい。以下、区別のためデータセットコンテンツと呼ぶ)のそれぞれから、少なくとも処理の対象とする情報要素であるテキスト等(例えばタグ等)を取得するとともに、各データセットコンテンツに係るポイント情報を取得する。この処理は既に述べた例と同様のものであるので、繰り返しての説明を省略する。   The evaluation value computing device 1 includes at least information elements to be processed from each of a plurality of contents (which may include target contents; hereinafter referred to as data set contents for distinction) that are data sets to be processed. And the like (for example, a tag) and the point information related to each data set content. Since this processing is the same as the example already described, repeated description is omitted.

評価値演算装置1は、そして、上記(2)単語の重要度に基づく方法等によって、処理対象の情報要素ごとの評価値を演算する。また評価値演算装置1は、複数のデータセットコンテンツのそれぞれについて、各データセットコンテンツに含まれる情報要素の重複を除いたリスト(比較情報要素群)を生成する。そして評価値演算装置1は、対象コンテンツから列挙された対象情報要素群を参照し、対象情報要素群と、各データセットコンテンツに係る比較情報要素群とを比較して、相関性に係る情報が、予め定めた基準より高い相関を表すものとなっているデータセットコンテンツに係る比較情報要素群を少なくとも一つ取り出す(協調フィルタリング処理)。   The evaluation value calculation device 1 calculates the evaluation value for each information element to be processed by the method (2) based on the importance of the word. Further, the evaluation value calculation apparatus 1 generates a list (comparison information element group) excluding duplication of information elements included in each data set content for each of the plurality of data set contents. Then, the evaluation value calculation device 1 refers to the target information element group enumerated from the target content, compares the target information element group with the comparison information element group related to each data set content, and information related to the correlation is obtained. Then, at least one comparison information element group related to the data set content representing a correlation higher than a predetermined criterion is extracted (collaborative filtering process).

具体的にここで相関性に係る情報は、対象情報要素群と、比較情報要素群とに共通して含まれる情報要素の数で構わない。例えば対象情報要素群に含まれる情報要素が{x1,x2,x3,x4}であり、ある比較情報要素群に含まれる情報要素が{x1,x3,x5,x7}であれば、これらに共通して含まれる情報要素は{x1,x3}であり、これらの相関性に係る情報は、当該共通して含まれる情報要素の数「2」とする。この場合、上記基準は、対象情報要素群に含まれる情報要素の数に基づいて定められるしきい値(例えば対象情報要素群に含まれる情報要素の数のr%)とすればよい。   Specifically, the information relating to the correlation here may be the number of information elements included in common in the target information element group and the comparison information element group. For example, if the information elements included in the target information element group are {x1, x2, x3, x4} and the information elements included in a certain comparison information element group are {x1, x3, x5, x7}, they are common to these. The information elements included are {x1, x3}, and the information related to these correlations is the number “2” of the information elements included in common. In this case, the reference may be a threshold value determined based on the number of information elements included in the target information element group (for example, r% of the number of information elements included in the target information element group).

評価値演算装置1は、協調フィルタリング処理で取り出した比較情報要素群に含まれる情報要素を重複なく列挙し、当該列挙した情報要素から、対象情報要素群に含まれる情報要素を除いて候補情報要素群とする。これにより、対象情報要素群に含まれる情報要素と類似の情報要素が含まれている比較情報要素群から取り出された情報要素であって、対象情報要素群に含まれていない情報要素が得られる。   The evaluation value computing device 1 enumerates information elements included in the comparison information element group extracted in the collaborative filtering process without duplication, and excludes information elements included in the target information element group from the enumerated information elements, and candidate information elements A group. As a result, information elements extracted from the comparison information element group including information elements similar to the information elements included in the target information element group and not included in the target information element group are obtained. .

評価値演算装置1は、候補情報要素群が空であれば、推薦できる情報要素がない旨表示して処理を終了してもよい。また候補情報要素群が空でなければ、候補情報要素群に含まれる情報要素についての評価値(先に演算したもの)を参照し、当該評価値が予め定めたしきい値を超えている情報要素を提示する。なお、ここで当該評価値が予め定めたしきい値を超えている情報要素のうち、評価値が上位である所定数個の情報要素を列挙して提示してもよい。   If the candidate information element group is empty, the evaluation value calculation device 1 may display that there is no information element that can be recommended and end the process. If the candidate information element group is not empty, the evaluation value (information calculated previously) for the information element included in the candidate information element group is referred to and the evaluation value exceeds a predetermined threshold value. Present the element. Here, among information elements whose evaluation value exceeds a predetermined threshold value, a predetermined number of information elements having higher evaluation values may be listed and presented.

また評価値演算装置1は協調フィルタリング処理を行うことなく、関連付けに基づく情報要素の評価方法を用いてコンテンツのポイント情報を向上できると判断される情報要素を案内する処理を行ってもよい。   Further, the evaluation value calculation apparatus 1 may perform a process of guiding an information element that is determined to be able to improve the point information of the content by using an information element evaluation method based on association without performing a collaborative filtering process.

この例の評価値演算装置1は、図4に例示した処理を行うものであるが、処理S1に代えて、各データセットコンテンツから取り出して列挙した情報要素Ei(i=1,2,…,N)の各々についての評価値wi(i=1,2,…,N)を表す要素を配列したベクトルPを生成し、その各要素のうち、対象情報要素群に含まれる情報要素に対応するベクトルPの要素を第1の所定値(例えば「0」)に初期化し、対象情報要素群に含まれない情報要素に対応するベクトルPの要素を、第1の所定値とは異なる第2の所定値(例えば「1」)に初期化する点が異なる。この例の評価値演算装置1は、処理S2以下の処理については、図4に例示した例と同様に実行する。   The evaluation value calculation device 1 of this example performs the processing illustrated in FIG. 4, but instead of the processing S1, information elements Ei (i = 1, 2,...) Extracted from each data set content and listed. N) generates a vector P in which elements representing evaluation values w i (i = 1, 2,..., N) are arranged, and corresponds to the information elements included in the target information element group among the elements. An element of the vector P is initialized to a first predetermined value (for example, “0”), and an element of the vector P corresponding to an information element not included in the target information element group is set to a second value different from the first predetermined value. The difference is that it is initialized to a predetermined value (eg, “1”). The evaluation value calculation apparatus 1 of this example executes the processes after the process S2 in the same manner as the example illustrated in FIG.

この例では、評価値演算装置1は、対象情報要素群に含まれていない情報要素についての評価値を演算することとなる。そして評価値演算装置1は、当該演算された評価値に基づく表示を行う。例えば、この評価値を降順(大きいものから小さいものの順)に並べ替え、その上位所定数までの評価値に対応する情報要素を、対象コンテンツに含めるべき情報要素として表示することとしてもよい。   In this example, the evaluation value calculation device 1 calculates an evaluation value for an information element that is not included in the target information element group. Then, the evaluation value calculation device 1 performs display based on the calculated evaluation value. For example, the evaluation values may be rearranged in descending order (from the largest to the smallest), and information elements corresponding to the upper predetermined number of evaluation values may be displayed as information elements to be included in the target content.

[負の評価]
また本実施の形態に係る評価値演算装置1は、情報要素ごとの評価値を、降順で(評価が高いものから順に)提示するだけでなく、所定のしきい値よりも評価が低いことを表す評価値に対応する情報要素を提示するようにしてもよい。これによると情報要素ごとの評価値の情報に基づいて、避けるべき情報要素が案内されることとなる。
[Negative evaluation]
Moreover, the evaluation value calculation device 1 according to the present embodiment not only presents the evaluation values for each information element in descending order (in descending order of evaluation), but also indicates that the evaluation is lower than a predetermined threshold value. An information element corresponding to the evaluation value to be represented may be presented. According to this, based on the information of the evaluation value for each information element, the information element to be avoided is guided.

[説明文への応用例]
またここまでの説明において述べたように、情報要素は、タグのみならず、説明文等から形態素解析等の処理によって抽出された単語であってもよい。この場合、データセットを所定種類の商品を販売するウェブページのコンテンツとし、ポイント情報を各コンテンツでの販売実績とする。
[Example of application to explanatory text]
In addition, as described in the above description, the information element may be a word extracted by a process such as morphological analysis from not only a tag but also an explanatory text. In this case, the data set is the content of a web page that sells a predetermined type of product, and the point information is the sales record for each content.

この例によると、販売実績が比較的高いウェブページ(コンテンツ)に含まれる説明文で用いられる単語が提示されることとなり、ユーザは説明文の推敲に当該提示された情報を役立てることが可能となる。   According to this example, a word used in an explanatory text included in a web page (content) with a relatively high sales record is presented, and the user can use the presented information for refining the explanatory text. Become.

[文字列以外の情報への応用例]
さらにここまでの説明では情報要素はタグや、説明文から抽出された単語等文字列であるとしたが、本実施の形態の情報要素はこれだけに限られない。本実施の形態の情報要素は、符号化でき、コンテンツとの関係が定められるものであれば、どのようなものであっても構わない。例えば、コンテンツに含まれる写真画像の数や、サイズ(ウェブページに占める面積を10%単位で分類した結果(0%以上10%未満、10%以上20%未満…のいずれかなど))等の値を情報要素としても構わない。
[Example of application to information other than character strings]
Further, in the above description, the information element is a tag or a character string such as a word extracted from the explanatory text. However, the information element of the present embodiment is not limited to this. The information element of this embodiment may be any information element as long as it can be encoded and the relationship with the content is determined. For example, the number of photograph images included in the content, the size (the result of classifying the area occupied by the web page in units of 10% (any of 0% to less than 10%, 10% to less than 20%, etc.)) A value may be used as an information element.

1 評価値演算装置、2 サーバ、11 制御部、12 記憶部、13 操作部、14 表示部、15 通信部、21 ポイント値取得部、22 情報要素列挙部、23 繰り返し演算部、24 収束判定部、25 評価値出力部、31 回帰演算部、32 出現頻度演算部、33 評価値演算部。
DESCRIPTION OF SYMBOLS 1 Evaluation value calculation apparatus, 2 server, 11 Control part, 12 Storage part, 13 Operation part, 14 Display part, 15 Communication part, 21 Point value acquisition part, 22 Information element enumeration part, 23 Repetition calculation part, 24 Convergence determination part , 25 evaluation value output unit, 31 regression calculation unit, 32 appearance frequency calculation unit, 33 evaluation value calculation unit.

Claims (6)

情報通信手段を介して配信可能に設定された複数のコンテンツと、各コンテンツに関するポイント値とを保持する保持手段にアクセス可能に接続され、
前記複数のコンテンツのそれぞれについてのポイント値を取得するポイント値取得手段と、
前記複数のコンテンツのそれぞれに係る所定の情報要素を処理対象として、各コンテンツから得た処理対象の情報要素を、重複を除いて列挙し、
(1)当該列挙した情報要素の各々についての評価値を表す要素を配列したベクトルPの各要素を所定値に初期化し、
前記列挙した情報要素の各々を注目要素として、
注目要素と注目要素を含むコンテンツ情報とをリンクした無向グラフの前記注目要素についての隣接行列Aの各値を、各値に対応するコンテンツのポイント値を重みとして定め、注目要素に対応する当該隣接行列Aの各値の総和が既定値となるよう定め確率行列tAを求め、
(2)当該確率行列tAに右側から前記ベクトルPを乗じて得たベクトルP′により、前記ベクトルPを更新し、
(3)前記ベクトルPが所定の収束条件を満足するまで(2)の処理を繰り返し、
(4)前記所定の収束条件を満足したときの前記ベクトルPの各要素の値を、対応する情報要素の評価値として出力する評価値演算手段と、
を含む評価値演算装置。
A plurality of contents set to be distributable via the information communication means and a holding means for holding a point value related to each content are connected to be accessible,
Point value acquisition means for acquiring a point value for each of the plurality of contents;
The predetermined information elements related to each of the plurality of contents are set as processing targets, and the processing target information elements obtained from the respective contents are listed without duplication,
(1) Initializing each element of the vector P in which elements representing evaluation values for each of the listed information elements are arranged to a predetermined value,
Each of the listed information elements as a target element,
Each value of the adjacency matrix A for the target element of the undirected graph that links the target element and the content information including the target element is determined with the point value of the content corresponding to each value as a weight, and the value corresponding to the target element A probability matrix tA is determined by determining that the sum of values of the adjacency matrix A is a predetermined value,
(2) Update the vector P by a vector P ′ obtained by multiplying the probability matrix tA by the vector P from the right side,
(3) The process of (2) is repeated until the vector P satisfies a predetermined convergence condition,
(4) evaluation value calculation means for outputting the value of each element of the vector P when the predetermined convergence condition is satisfied as an evaluation value of the corresponding information element;
An evaluation value calculation device including
情報通信手段を介して配信可能に設定された複数のコンテンツと、各コンテンツに関するポイント値とを保持する保持手段にアクセス可能に接続され、
前記複数のコンテンツのそれぞれについてのポイント値を取得するポイント値取得手段と、
前記複数のコンテンツのそれぞれに係る所定の情報要素を処理対象として、各コンテンツから得た処理対象の情報要素を、重複を除いて列挙し、
各コンテンツを注目コンテンツとして、
(1)注目コンテンツに係る情報要素に対応する要素を第1の所定値、含まれない情報要素に対応する要素を第2の所定値とした特徴ベクトルxと、注目コンテンツに関するポイント値yとを用いて注目コンテンツごとに数式y=w・x(ここでwは重みベクトルであり、「・」は内積を表す)を得て、
(2)前記コンテンツごとに得られた数式に基づく回帰分析処理により前記重みベクトルを求め、
(3)当該求められた重みベクトルの値と、情報要素ごとの複数のコンテンツ内での出現頻度の値とに基づいて、情報要素の評価値を演算して出力する評価値演算手段と、
を含む評価値演算装置。
A plurality of contents set to be distributable via the information communication means and a holding means for holding a point value related to each content are connected to be accessible,
Point value acquisition means for acquiring a point value for each of the plurality of contents;
The predetermined information elements related to each of the plurality of contents are set as processing targets, and the processing target information elements obtained from the respective contents are listed without duplication,
Each content is featured content,
(1) A feature vector x having an element corresponding to an information element related to the content of interest as a first predetermined value and an element corresponding to an information element not included as a second predetermined value, and a point value y related to the content of attention To obtain the formula y = w · x (where w is a weight vector and “·” represents an inner product) for each content of interest,
(2) Obtain the weight vector by regression analysis processing based on the mathematical formula obtained for each content,
(3) an evaluation value calculating means for calculating and outputting an evaluation value of the information element based on the value of the obtained weight vector and the value of the appearance frequency in the plurality of contents for each information element;
An evaluation value calculation device including
情報通信手段を介して配信可能に設定された複数のコンテンツと、各コンテンツに関するポイント値とを保持する保持手段にアクセス可能に接続され、
前記複数のコンテンツのそれぞれについてのポイント値を取得するポイント値取得手段と、
指定されたコンテンツを対象コンテンツとして、当該対象コンテンツに係る所定の情報要素を、重複を除いて列挙した対象情報要素群を求める手段と、
前記複数のコンテンツのそれぞれに係る所定の情報要素を処理対象として、各コンテンツから得た処理対象の情報要素を、重複を除いて列挙し、
(1)当該列挙した情報要素の各々についての評価値を表す要素を配列したベクトルPの各要素のうち、前記対象情報要素群に係る情報要素に対応するベクトルPの要素を第1の所定値に初期化し、前記対象情報要素群に含まれない情報要素に対応するベクトルPの要素を、前記第1の所定値とは異なる第2の所定値に初期化し、
前記列挙した情報要素の各々を注目要素として、
注目要素と注目要素を含むコンテンツ情報とをリンクした無向グラフの前記注目要素についての隣接行列Aの各値を、各値に対応するコンテンツのポイント値を重みとして定め、注目要素に対応する当該隣接行列Aの各値の総和が既定値となるよう定め確率行列tAを求め、
(2)当該確率行列tAに右側から前記ベクトルPを乗じて得たベクトルP′により、前記ベクトルPを更新し、
(3)前記ベクトルPが所定の収束条件を満足するまで(2)の処理を繰り返し、
(4)前記所定の収束条件を満足したときの前記ベクトルPの各要素のうち、所定の条件を満足する要素に対応する情報要素を提示する手段と、
を含む評価値演算装置。
A plurality of contents set to be distributable via the information communication means and a holding means for holding a point value related to each content are connected to be accessible,
Point value acquisition means for acquiring a point value for each of the plurality of contents;
Means for obtaining a target information element group in which the specified content is listed as target content and the predetermined information elements related to the target content are listed excluding duplication;
The predetermined information elements related to each of the plurality of contents are set as processing targets, and the processing target information elements obtained from the respective contents are listed without duplication,
(1) Among the elements of the vector P in which elements representing evaluation values for each of the listed information elements are arranged, the element of the vector P corresponding to the information element related to the target information element group is set to the first predetermined value. And initializing an element of the vector P corresponding to an information element not included in the target information element group to a second predetermined value different from the first predetermined value,
Each of the listed information elements as a target element,
Each value of the adjacency matrix A for the target element of the undirected graph that links the target element and the content information including the target element is determined with the point value of the content corresponding to each value as a weight, and the value corresponding to the target element A probability matrix tA is determined by determining that the sum of values of the adjacency matrix A is a predetermined value,
(2) Update the vector P by a vector P ′ obtained by multiplying the probability matrix tA by the vector P from the right side,
(3) The process of (2) is repeated until the vector P satisfies a predetermined convergence condition,
(4) means for presenting an information element corresponding to an element satisfying a predetermined condition among the elements of the vector P when the predetermined convergence condition is satisfied;
An evaluation value calculation device including
請求項1または3に記載の評価値演算装置であって、The evaluation value calculation device according to claim 1 or 3,
前記確率行列tAを求める手段は、確率行列tAの各値をさらに、各値に対応するコンテンツ情報ごとに付されている情報要素の数sを用いて得られる1/sを乗じて正規化し、当該正規化した確率行列tAを、用いて前記ベクトルPの更新を行う評価値演算装置。The means for obtaining the probability matrix tA further normalizes each value of the probability matrix tA by multiplying by 1 / s obtained using the number s of information elements attached to each content information corresponding to each value, An evaluation value calculation device that updates the vector P using the normalized probability matrix tA.
情報通信手段を介して配信可能に設定された複数のコンテンツと、各コンテンツに関するポイント値とを保持する保持手段にアクセス可能に接続されるコンピュータを、
前記複数のコンテンツのそれぞれについてのポイント値を取得するポイント値取得手段と、
前記複数のコンテンツのそれぞれに係る所定の情報要素を処理対象として、各コンテンツから得た処理対象の情報要素を、重複を除いて列挙し、
(1)当該列挙した情報要素の各々についての評価値を表す要素を配列したベクトルPの各要素を所定値に初期化し、
前記列挙した情報要素の各々を注目要素として、
注目要素と注目要素を含むコンテンツ情報とをリンクした無向グラフの前記注目要素についての隣接行列Aの各値を、各値に対応するコンテンツのポイント値を重みとして定め、注目要素に対応する当該隣接行列Aの各値の総和が既定値となるよう定め確率行列tAを求め、
(2)当該確率行列tAに右側から前記ベクトルPを乗じて得たベクトルP′により、前記ベクトルPを更新し、
(3)前記ベクトルPが所定の収束条件を満足するまで(2)の処理を繰り返し、
(4)前記所定の収束条件を満足したときの前記ベクトルPの各要素の値を、対応する情報要素の評価値として出力する評価値演算手段と、
として機能させるプログラム。
A computer that is connected so as to be accessible to a holding unit that holds a plurality of contents set to be distributable via an information communication unit and a point value related to each content,
Point value acquisition means for acquiring a point value for each of the plurality of contents;
The predetermined information elements related to each of the plurality of contents are set as processing targets, and the processing target information elements obtained from the respective contents are listed without duplication,
(1) Initializing each element of the vector P in which elements representing evaluation values for each of the listed information elements are arranged to a predetermined value,
Each of the listed information elements as a target element,
Each value of the adjacency matrix A for the target element of the undirected graph that links the target element and the content information including the target element is determined with the point value of the content corresponding to each value as a weight, and the value corresponding to the target element A probability matrix tA is determined by determining that the sum of values of the adjacency matrix A is a predetermined value,
(2) Update the vector P by a vector P ′ obtained by multiplying the probability matrix tA by the vector P from the right side,
(3) The process of (2) is repeated until the vector P satisfies a predetermined convergence condition,
(4) evaluation value calculation means for outputting the value of each element of the vector P when the predetermined convergence condition is satisfied as an evaluation value of the corresponding information element;
Program to function as.
情報通信手段を介して配信可能に設定された複数のコンテンツと、各コンテンツに関するポイント値とを保持する保持手段にアクセス可能に接続されるコンピュータを、
前記複数のコンテンツのそれぞれについてのポイント値を取得するポイント値取得手段と、
前記複数のコンテンツのそれぞれに係る所定の情報要素を処理対象として、各コンテンツから得た処理対象の情報要素を、重複を除いて列挙し、
各コンテンツを注目コンテンツとして、
(1)注目コンテンツに係る情報要素に対応する要素を第1の所定値、含まれない情報要素に対応する要素を第2の所定値とした特徴ベクトルxと、注目コンテンツに関するポイント値yとを用いて注目コンテンツごとに数式y=w・x(ここでwは重みベクトルであり、「・」は内積を表す)を得て、
(2)前記コンテンツごとに得られた数式に基づく回帰分析処理により前記重みベクトルを求め、
(3)当該求められた重みベクトルの値と、情報要素ごとの複数のコンテンツ内での出現頻度の値とに基づいて、情報要素の評価値を演算して出力する評価値演算手段と、
として機能させるプログラム。
A computer that is connected so as to be accessible to a holding unit that holds a plurality of contents set to be distributable via an information communication unit and a point value related to each content,
Point value acquisition means for acquiring a point value for each of the plurality of contents;
The predetermined information elements related to each of the plurality of contents are set as processing targets, and the processing target information elements obtained from the respective contents are listed without duplication,
Each content is featured content,
(1) A feature vector x having an element corresponding to an information element related to the content of interest as a first predetermined value and an element corresponding to an information element not included as a second predetermined value, and a point value y related to the content of attention To obtain the formula y = w · x (where w is a weight vector and “·” represents an inner product) for each content of interest,
(2) Obtain the weight vector by regression analysis processing based on the mathematical formula obtained for each content,
(3) an evaluation value calculating means for calculating and outputting an evaluation value of the information element based on the value of the obtained weight vector and the value of the appearance frequency in the plurality of contents for each information element;
Program to function as.
JP2015079427A 2015-04-08 2015-04-08 Evaluation value calculation device and program Active JP6607691B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015079427A JP6607691B2 (en) 2015-04-08 2015-04-08 Evaluation value calculation device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015079427A JP6607691B2 (en) 2015-04-08 2015-04-08 Evaluation value calculation device and program

Publications (2)

Publication Number Publication Date
JP2016200908A JP2016200908A (en) 2016-12-01
JP6607691B2 true JP6607691B2 (en) 2019-11-20

Family

ID=57424349

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015079427A Active JP6607691B2 (en) 2015-04-08 2015-04-08 Evaluation value calculation device and program

Country Status (1)

Country Link
JP (1) JP6607691B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528409A (en) * 2022-04-18 2022-05-24 北京北大软件工程股份有限公司 Method and device for evaluating extraction result of element information of letter and visit article
CN114756692A (en) * 2022-04-25 2022-07-15 平安普惠企业管理有限公司 Label validity management method, device, equipment and medium based on multiple rounds of conversations

Also Published As

Publication number Publication date
JP2016200908A (en) 2016-12-01

Similar Documents

Publication Publication Date Title
JP5727512B2 (en) Cluster and present search suggestions
US20190370397A1 (en) Artificial intelligence based-document processing
US9535960B2 (en) Context-sensitive search using a deep learning model
US9323827B2 (en) Identifying key terms related to similar passages
US9135350B2 (en) Computer-generated sentiment-based knowledge base
JP6745384B2 (en) Method and apparatus for pushing information
Beel et al. The architecture and datasets of Docear's Research paper recommender system
US20150254346A1 (en) Presentation of search results based on the size of the content sources from which they are obtained
JP6381775B2 (en) Information processing system and information processing method
US8332426B2 (en) Indentifying referring expressions for concepts
US20110055238A1 (en) Methods and systems for generating non-overlapping facets for a query
JP6033697B2 (en) Image evaluation device
JP2008545196A (en) Determining the desired repository
US20130204835A1 (en) Method of extracting named entity
US9507805B1 (en) Drawing based search queries
KR101355945B1 (en) On line context aware advertising apparatus and method
Kang et al. Learning to rank related entities in web search
CN109952571B (en) Context-based image search results
US8121970B1 (en) Method for identifying primary product objects
CN112740202A (en) Performing image search using content tags
JP2016018286A (en) Action type discrimination system, action type discrimination method, and action type discrimination program
JP5194731B2 (en) Document relevance calculation system, document relevance calculation method, and document relevance calculation program
JP6607691B2 (en) Evaluation value calculation device and program
JP2017134675A (en) Device and program for searching for information
JP6521931B2 (en) Model generation device, click log correct likelihood calculation device, document search device, method, and program

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20150501

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190507

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191021

R150 Certificate of patent or registration of utility model

Ref document number: 6607691

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250