JP2017201535A - Determination device, learning device, determination method, and determination program - Google Patents
Determination device, learning device, determination method, and determination program Download PDFInfo
- Publication number
- JP2017201535A JP2017201535A JP2017113031A JP2017113031A JP2017201535A JP 2017201535 A JP2017201535 A JP 2017201535A JP 2017113031 A JP2017113031 A JP 2017113031A JP 2017113031 A JP2017113031 A JP 2017113031A JP 2017201535 A JP2017201535 A JP 2017201535A
- Authority
- JP
- Japan
- Prior art keywords
- content
- information
- feature information
- contents
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000000284 extract Substances 0.000 claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 13
- 238000009826 distribution Methods 0.000 claims description 306
- 238000012937 correction Methods 0.000 claims description 23
- 239000010410 layer Substances 0.000 description 51
- 230000008569 process Effects 0.000 description 45
- 238000012545 processing Methods 0.000 description 37
- 238000010586 diagram Methods 0.000 description 26
- 210000002569 neuron Anatomy 0.000 description 23
- 230000010365 information processing Effects 0.000 description 13
- 239000013598 vector Substances 0.000 description 12
- 238000004891 communication Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000002344 surface layer Substances 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
Images
Abstract
Description
本発明は、判定装置、学習装置、判定方法及び判定プログラムに関する。 The present invention relates to a determination device, a learning device, a determination method, and a determination program.
近年、インターネットを介して、ニュースや広告等のコンテンツを配信する技術が知られている。このようなコンテンツを配信する場合は、コンテンツ同士が類似するか否かを判定し、類似するコンテンツの配信を防ぐデデュープが行われる場合がある。例えば、コンテンツに含まれる単語のtf(Term Frequency)ベクトルやKey-Value形式の値を算出し、算出したベクトルや値の比較結果に基づいてコンテンツ同士の類似度を判定し、他のコンテンツと類似するコンテンツをデデュープの対象とする技術が知られている。 In recent years, techniques for distributing content such as news and advertisements via the Internet are known. When distributing such content, it may be determined whether or not the content is similar, and deduplication may be performed to prevent the distribution of similar content. For example, a tf (Term Frequency) vector of a word included in the content or a value in a key-value format is calculated, the similarity between the content is determined based on the comparison result of the calculated vector and value, and similar to other content A technique for deduplicating content to be reproduced is known.
しかしながら、上記の従来技術では、コンテンツ同士の類似度を適切に判定することができるとは限らないという問題がある。例えば、上記の従来技術では、コンテンツに含まれる単語のtfベクトルやKey-Value形式の値を比較する。このため、上記の従来技術では、類似する内容を異なる単語で表したコンテンツ同士をデデュープの対象から除外したり、異なる内容を同様の単語で表したコンテンツをデデュープの対象にする場合がある。 However, the above-described conventional technique has a problem that the similarity between contents cannot be appropriately determined. For example, in the above-described conventional technology, the tf vectors of the words included in the content and the values in the key-value format are compared. For this reason, in the above-described conventional technology, there are cases where contents expressing similar contents in different words are excluded from the object of deduplication, or contents expressing different contents in the same word are targeted for deduplication.
本願は、上記に鑑みてなされたものであって、コンテンツ同士の類似度の判定精度を向上させることを目的とする。 The present application has been made in view of the above, and an object thereof is to improve the accuracy of determining the similarity between contents.
本願に係る判定装置は、コンテンツに含まれる複数の情報から当該コンテンツの内容を示す内容情報として複数次元の情報を生成し、当該内容情報が入力された場合に当該内容情報の次元数を圧縮することで当該コンテンツの内容が有する特徴を示す特徴情報を抽出するとともに、当該特徴情報の次元数を拡張することで入力された前記内容情報を復元する機能を有する学習器であって、入力された内容情報と復元された内容情報とが同じとなり、かつ、同一カテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度が、異なるカテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度よりも大きくなるように学習が行われた学習器を用いて、当該内容情報が示す内容を抽象化することで、前記コンテンツの内容が有する特徴を示す特徴情報を抽出する抽出部と、複数のコンテンツから抽出された特徴情報が類似するか否かを判定する判定部と、前記特徴情報が類似するか否かに基づいて、前記複数のコンテンツのうち配信対象とするコンテンツを決定する決定部とを有することを特徴とする。 The determination apparatus according to the present application generates multi-dimensional information as content information indicating the content of the content from the plurality of information included in the content, and compresses the number of dimensions of the content information when the content information is input This is a learning device having a function of extracting the feature information indicating the feature of the content of the content and restoring the content information input by expanding the number of dimensions of the feature information. The similarity between feature information extracted from multiple contents belonging to different categories is similar to the content information extracted from multiple contents belonging to the same category. By using a learning device that has been trained so as to be larger than the degree, the content indicated by the content information is abstracted, so that Based on whether the feature information is similar, an extraction unit that extracts feature information indicating the characteristics of the feature information, a determination unit that determines whether or not feature information extracted from a plurality of contents is similar, and And a determination unit that determines a content to be distributed among a plurality of contents.
実施形態の一態様によれば、コンテンツ同士の類似度の判定精度を向上させることができるという効果を奏する。 According to one aspect of the embodiment, there is an effect that it is possible to improve the accuracy of determining the similarity between contents.
以下に、本願に係る判定装置、学習装置、判定方法及び判定プログラムを実施するための形態(以下、「実施形態」と呼ぶ。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る判定装置、学習装置、判定方法及び判定プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Hereinafter, a mode for carrying out a determination device, a learning device, a determination method, and a determination program according to the present application (hereinafter referred to as “embodiment”) will be described in detail with reference to the drawings. Note that the determination device, the learning device, the determination method, and the determination program according to the present application are not limited to the embodiment. In the following embodiments, the same portions are denoted by the same reference numerals, and redundant description is omitted.
〔1.情報配信装置の一例〕
まず、図1を用いて、判定装置、学習装置、および情報配信装置の一例である情報配信装置10の一例について説明する。図1は、実施形態に係る情報配信処理が実行する処理の一例を示す図である。図1では、情報配信装置10が実行する処理の一例として、学習器Leの学習を行う学習処理の一例と、学習器Leを用いてコンテンツを利用者U01が使用する端末装置100へと配信する情報配信処理の一例とについて説明する。
[1. Example of information distribution device)
First, an example of an
ここで、情報配信装置10が配信するコンテンツとは、所定のクライアントが情報配信装置10に登録するコンテンツであり、例えば、ニュースやコラム等のテキストを含むコンテンツである。なお、以下の説明では、情報配信装置10がテキストを含むコンテンツの配信を行う例について説明するが、実施形態はこれに限定されるものではない。すなわち、以下に説明する情報配信処理は、例えば、画像や動画像等のテキストを含まないコンテンツや営利若しくは非営利の広告に関するコンテンツ、ゲーム、メール、ツイート、ブログの記事等、端末装置100に対して配信可能な任意のコンテンツに対して適用可能である。
Here, the content distributed by the
図1に示すように、情報配信装置10は、図示しないネットワーク(例えば、インターネット)を介して、利用者U01が使用する端末装置100と、クライアントが使用するクライアント端末200と通信可能に接続される。なお、情報配信装置10がコンテンツを配信する端末装置100や、クライアント端末200の数は、図1に示した例に限るものではない。すなわち、情報配信装置10は、任意の数の端末装置100およびクライアント端末200と通信可能である。
As shown in FIG. 1, the
端末装置100は、利用者によって利用される情報処理装置であり、ユーザがニュースやコラム等のコンテンツを閲覧するために利用される。具体例を挙げると、端末装置100は、スマートフォンやタブレット端末やPDA(Personal Digital Assistant)等の移動端末や、デスクトップ型PC(Personal Computer)や、ノート型PC等である。
The
クライアント端末200は、配信対象となるコンテンツを情報配信装置10に登録する端末装置である。例えば、クライアント端末200は、コンテンツの生成、編集、配信等を行うクライアントが使用する情報処理装置であり、PDA等の移動端末や、PC、サーバ等である。
The
情報配信装置10は、クライアント端末200から登録されたコンテンツを記憶し、端末装置100からコンテンツの配信要求を受付けると、記憶したコンテンツを端末装置100に対して配信する情報処理装置である。例えば、情報配信装置10は、PC、サーバ、クラウドシステム等の物理的若しくは仮想的な情報処理装置により実現される。
The
また、同一または類似する内容のコンテンツを配信した場合、各コンテンツが選択若しくは閲覧される可能性が低下する。このため、情報配信装置10は、端末装置100に配信済みのコンテンツ同一又は類似する内容のコンテンツや、同時に配信される複数のコンテンツのうち、他のコンテンツと同一又は類似する内容のコンテンツを配信対象から除外するデデュープを行う。
In addition, when content having the same or similar content is distributed, the possibility that each content is selected or browsed decreases. For this reason, the
〔1−1.情報配信処理〕
ここで、従来技術では、配信対象となるコンテンツに含まれる単語のtfベクトルや、コンテンツのプロパティに基づくKey-Value形式の値を算出し、算出した値が類似するか否かに基づいて、コンテンツが他のコンテンツと類似するか否かを判定していた。しかしながら、このような技術では、コンテンツ同士の類似度を適切に判定できない場合がある。
[1-1. Information distribution process)
Here, in the prior art, a value in a key-value format based on a tf vector of a word included in content to be distributed or a property of the content is calculated, and the content is determined based on whether the calculated values are similar. Was determined to be similar to other content. However, with such a technique, there is a case where the similarity between contents cannot be appropriately determined.
例えば、同一人物を本名で示す場合と通名や芸名等で示す場合とでは、テキスト上の表記が相違する。このため、同一人物について説明する複数のコンテンツであっても、人物の表記が異なる場合には、単語のtfベクトルや、コンテンツのプロパティに基づくKey-Value形式の値が異なる結果、非類似のコンテンツであると判断される場合がある。この結果、従来技術では、同一若しくは類似する複数のコンテンツを配信対象にしてしまうお場合がある。 For example, the notation on the text is different between the case where the same person is indicated by a real name and the case where the same person is indicated by a common name or a stage name. For this reason, even if there are a plurality of contents explaining the same person, if the notation of the person is different, the tf vector of the word and the value of the key-value format based on the property of the contents are different, resulting in dissimilar contents May be determined. As a result, in the prior art, there are cases where a plurality of identical or similar contents are targeted for distribution.
また、内容が類似しない複数のコンテンツであっても、使用する単語が同一若しくは類似する場合には、テキスト上の表記が類似する。このため、内容が異なる複数のコンテンツであっても、表記が類似する場合には、単語のtfベクトルや、コンテンツのプロパティに基づくKey-Value形式の値が類似する結果、類似のコンテンツであると判断される場合がある。この結果、従来技術では、内容が類似しない複数のコンテンツをデデュープの対象にしてしまう場合がある。 In addition, even in the case of a plurality of contents whose contents are not similar, if the words used are the same or similar, the descriptions on the text are similar. For this reason, even in the case of a plurality of contents having different contents, if the notations are similar, the result is that the tf vector of the word and the value of the key-value format based on the property of the contents are similar, and the similar contents May be judged. As a result, in the prior art, there are cases where a plurality of contents whose contents are not similar are targeted for deduplication.
そこで、情報配信装置10は、以下の情報配信処理を実行する。まず、情報配信装置10は、コンテンツに含まれる複数の情報からコンテンツの内容を示す内容情報を生成し、内容情報が示す内容を抽象化することで、コンテンツの内容が有する特徴を示す特徴情報を抽出する。そして、情報配信装置10は、複数のコンテンツから抽出された特徴情報が類似するか否かを判定し、特徴情報が類似するか否かに基づいて、複数のコンテンツのうち配信対象とするコンテンツを決定する。
Therefore, the
例えば、情報配信装置10は、コンテンツがテキストからなるコンテンツである場合、形態素解析等の技術を用いて、コンテンツに含まれる単語を抽出し、tf−idf(Term Frequency - Inverse Document Frequency)等を用いて、抽出した各単語を数値に置き換えることで、すなわち、単語の局所表現を用いて、コンテンツの内容を示す複数次元の数値に置き換えた情報を内容情報として生成する。なお、情報配信装置10は、各単語を示すベクトルを用いて、すなわち、各単語の分散表現を用いて、コンテンツの内容を複数次元の数値に置き換えた情報を、コンテンツの内容情報として生成してもよい。
For example, when the content is content composed of text, the
続いて、情報配信装置10は、内容情報が有する次元数を圧縮することで、内容情報が示す内容を抽象化し、コンテンツの内容を示す特徴情報を抽出する。そして、情報配信装置10は、抽出した特徴情報を比較し、2つのコンテンツから抽出された特徴情報が類似すると判定された場合は、いずれか一方のコンテンツを配信対象とし、2つのコンテンツから抽出された特徴情報が類似しないと判定した場合は、両方のコンテンツを配信対象とする。
Subsequently, the
例えば、図2は、実施形態に係る情報配信装置がコンテンツの内容が有する特徴を比較する処理を説明する図である。なお、図2に示す例では、コンテンツAの内容とコンテンツBの内容とか類似するか否か比較する処理の一例について記載した。例えば、従来の技術では、内容情報同士を比較することで、コンテンツAの内容とコンテンツBの内容とか類似するか否かを比較する。すなわち、従来の技術では、図2中(A)に示すように、表層空間上でコンテンツAおよびコンテンツBが類似するか否かを判定する。 For example, FIG. 2 is a diagram illustrating a process in which the information distribution apparatus according to the embodiment compares the characteristics of the content. In the example illustrated in FIG. 2, an example of the process of comparing whether the content A and the content B are similar is described. For example, in the conventional technique, the contents information is compared to compare whether the contents A and B are similar or not. That is, in the conventional technique, as shown in FIG. 2A, it is determined whether or not the content A and the content B are similar in the surface layer space.
しかしながら、図2中(B)に示すように、コンテンツAから抽出された内容情報Aには、「野球」、「開幕」、「サッカー」等といったコンテンツAに含まれる単語を示す複数次元の数値が含まれる。一方、図2中(C)に示すように、コンテンツBから抽出された内容情報Bには、「野球」、「開幕」、「投手」等といったコンテンツBに含まれる単語を示す複数次元の数値が含まれる。このため、表層空間上では、コンテンツAの表記と、コンテンツBの表記とが類似する場合は、内容情報Aと内容情報Bとが類似することとなる。 However, as shown in FIG. 2B, the content information A extracted from the content A includes multi-dimensional numerical values indicating words included in the content A, such as “baseball”, “opening”, “soccer”, etc. Is included. On the other hand, as shown in FIG. 2C, the content information B extracted from the content B includes multi-dimensional numerical values indicating words included in the content B such as “baseball”, “opening”, “pitcher”, and the like. Is included. For this reason, on the surface layer space, when the notation of the content A and the notation of the content B are similar, the content information A and the content information B are similar.
この結果、従来の技術では、図2中(D)に示すように、コンテンツAの内容とコンテンツBの内容とが相違しても、コンテンツAの表記とコンテンツBの表記とが類似する場合には、コンテンツAの内容とコンテンツBの内容とが類似すると判定してしまう。また、従来の技術では、コンテンツAの内容とコンテンツBの内容とが類似しても、コンテンツAの表記とコンテンツBの表記とが相違する場合には、コンテンツAの内容とコンテンツBの内容とが相違すると判定してしまう。このように、表層空間上でコンテンツAおよびコンテンツBが類似するか否かを判定した場合には、図2中(E)に示すように、判定精度の低下を招いてしまう。 As a result, in the conventional technique, as shown in FIG. 2D, even when the contents A and B are different, the notation of the contents A and the notation of the contents B are similar. Determines that the contents A and B are similar. In the conventional technique, even if the contents A and B are similar, if the contents A and B are different, the contents A and B are Are determined to be different. As described above, when it is determined whether or not the content A and the content B are similar in the surface layer space, the determination accuracy is lowered as shown in FIG.
一方、情報配信装置10は、図2中(F)に示すように、特徴空間上でコンテンツAの内容とコンテンツBの内容とが類似するか否かを判定する。すなわち、情報配信装置10は、コンテンツAの内容が有する意味と、コンテンツBの内容が有する意味とが定義される意味空間上で、コンテンツAの内容とコンテンツBの内容とが類似するか否かを判定する。
On the other hand, as shown in FIG. 2F, the
具体的には、情報配信装置10は、図2中(G)に示すように、内容情報Aをさらに抽象化することで、コンテンツAの内容が有する特徴を示す特徴情報Aを抽出する。また、情報配信装置10は、図2中(H)に示すように、内容情報Bをさらに抽象化することで、コンテンツBの内容が有する特徴を示す特徴情報Bを抽出する。すなわち、情報配信装置10は、コンテンツAやコンテンツBの記事素性を抽出する。
Specifically, as illustrated in FIG. 2G, the
ここで、抽象化が適切に行われた場合には、特徴情報Aおよび特徴情報Bは、元のコンテンツAおよびコンテンツBの特徴、すなわち内容を示していると考えられる。このため、図2中(I)に示すように、特徴情報Aと特徴情報Bとが類似する場合には、コンテンツAおよびコンテンツBの特徴、すなわち内容が類似すると考えられる。また、図2中(I)に示すように、特徴情報Aと特徴情報Bとが相違する場合には、コンテンツAおよびコンテンツBの特徴、すなわち内容が相違すると考えられる。 Here, when the abstraction is appropriately performed, the feature information A and the feature information B are considered to indicate the features, that is, the contents of the original content A and the content B. Therefore, as shown in FIG. 2I, when the feature information A and the feature information B are similar, it is considered that the features, that is, the contents of the content A and the content B are similar. In addition, as shown in (I) of FIG. 2, when the feature information A and the feature information B are different, it is considered that the features, that is, the contents of the content A and the content B are different.
そこで、情報配信装置10は、特徴情報Aおよび特徴情報Bの比較結果に基づいて、コンテンツAの内容とコンテンツBの内容とが類似するか否かを判定する。このように、情報配信装置10は、コンテンツの内容情報が定義される表層空間ではなく、コンテンツの内容が有する特徴が定義される特徴空間(すなわち、コンテンツの内容が有する意味が定義される意味空間)上で、コンテンツが類似するか否かを判定する。
Therefore, the
〔1−2.学習器について〕
ここで、情報配信装置10は、ニューラルネットワークやディープラーニング等、入力データに対する演算結果を出力する複数のノードを多層に接続し、入力された情報の次元数を圧縮することで、入力された情報が有する特徴を抽出する学習器Leを用いて、内容情報が示す内容の抽象化を行う。このような学習器Leは、入力された内容情報の次元数を圧縮して特徴情報を抽出し、抽出した特徴情報から元の内容情報を復元するように学習が行われたニューラルネットワークである。さらに、学習器Leは、類似する複数のコンテンツから抽出された各特徴情報が類似し、類似しない複数のコンテンツから抽出された各特徴情報が類似しないように学習が行われたニューラルネットワークである。
[1-2. About the learning device)
Here, the
例えば、図3は、情報配信装置が使用する学習器の一例を説明する図である。例えば、情報配信装置10は、オートエンコーダといわれる学習器Leを生成する。このような学習器Leは、図3中(A)に示す入力層と、図3中(B)に示す中間層と、図3中(C)に示す出力層とを有する。ここで、入力層には、複数次元の情報の入力を受付ける複数のノードが配置され、入力される情報のうち、自ノードに対応する次元の値が入力される。また、中間層には、入力層よりも少ない数のノードが配置される。また、出力層には、入力層と同数のノードが配置される。
For example, FIG. 3 is a diagram illustrating an example of a learning device used by the information distribution apparatus. For example, the
このような学習器Leのノードは、隣接する層に含まれる全て(若しくは一部)のノードと接続されており、自ノードが含まれる層よりも入力層に近い層のノードからデータを受付けると、受付けたデータに基づいた出力データを生成し、自ノードが含まれる層よりも出力層に近い層のノードへと生成したデータを出力する。そして、各ノードが出力したデータは、データを伝達する経路に対して設定された接続係数を考慮した値に変換され、変換後の値のデータが接続先のノードへと伝達される。 Such nodes of the learning device Le are connected to all (or a part of) nodes included in the adjacent layers, and when data is received from nodes in the layer closer to the input layer than the layer including the own node. Then, output data based on the received data is generated, and the generated data is output to a node in a layer closer to the output layer than the layer including the own node. The data output by each node is converted into a value that takes into account the connection coefficient set for the data transmission path, and the converted value data is transmitted to the connection destination node.
例えば、図3中(D)に示すように、入力層のノードが出力したデータを「x」とし、図3中(E)に示すように、接続係数の値を「W」とすると、中間層のノードに入力されるデータは、「Wx」となる。この結果、ノードに対する入力xと出力yとの関係が「y=σ(x+b)」で表されるとすると、中間層のノードが出力するデータは、図3中(F)に示すように、「σ(Wx+b)」となり、図3中(G)で示すように、「W^T」で示される接続係数が設定された経路を介して、出力層のノードに伝達される。その後、出力層のノードは、中間層のノードから伝達されたデータに基づく値のデータを出力する。 For example, as shown in FIG. 3D, if the data output by the node in the input layer is “x” and the connection coefficient value is “W” as shown in FIG. The data input to the layer node is “Wx”. As a result, if the relationship between the input x and the output y to the node is expressed by “y = σ (x + b)”, the data output by the node in the intermediate layer is as shown in FIG. It becomes “σ (Wx + b)”, and as shown by (G) in FIG. 3, it is transmitted to the node of the output layer through the path in which the connection coefficient indicated by “W ^ T” is set. Thereafter, the node of the output layer outputs value data based on the data transmitted from the node of the intermediate layer.
ここで、中間層には、入力層よりも少ない数のノードが配置される。このため、中間層が出力するデータは、学習器Leに入力されるデータの次元数を圧縮したデータとなり、出力層が出力するデータは、次元数を圧縮したデータから再現されたデータであって、入力されたデータと同じ次元数を有するデータとなる。なお、中間層が出力する特徴情報は、例えば、コンテンツの内容の分散表現になりうる。 Here, fewer nodes than the input layer are arranged in the intermediate layer. For this reason, the data output from the intermediate layer is data obtained by compressing the number of dimensions of the data input to the learning device Le, and the data output from the output layer is data reproduced from the data obtained by compressing the number of dimensions. The data has the same number of dimensions as the input data. Note that the feature information output by the intermediate layer can be, for example, a distributed representation of the content content.
このため、図3中(H)に示すように、内容情報Aを入力した際に学習器Leが出力するする内容情報aが、内容情報Aと同一となるように接続係数Wを修正した場合、学習器Leは、内容情報Aを再現するために暗に必要な情報、すなわち内容情報Aが示す内容の特徴を中間層で抽出することとなる。このため、情報配信装置10は、図3中(I)に示すように、学習器Leに内容情報Aを入力した際の中間層の出力を、内容情報Aが示す内容、すなわち、コンテンツAの内容の特徴を示す特徴情報Aとして抽出する。
Therefore, as shown in FIG. 3H, when the connection coefficient W is corrected so that the content information a output from the learning device Le when the content information A is input is the same as the content information A The learning device Le extracts information that is implicitly necessary to reproduce the content information A, that is, features of the content indicated by the content information A in the intermediate layer. For this reason, as shown in (I) of FIG. 3, the
また、学習器Leがコンテンツの内容情報から特徴を上手く抽出できたとしても、類似しないコンテンツ同士の特徴情報が類似するような抽出を行った場合には、デデュープに利用することができない。そこで、情報配信装置10は、以下の学習処理を行う。
Even if the learning device Le can successfully extract the features from the content information of the content, it cannot be used for de-duplication if the extraction is performed so that the feature information of similar content is similar. Therefore, the
具体的には、情報配信装置10は、学習器Leに入力されたコンテンツの内容情報と再現された内容情報とが一致するように、学習器Leが有する各ノード間の接続係数を修正する。このような処理と同時に、情報配信装置10は、類似する複数のコンテンツの内容情報から学習部Leが抽出する各特徴情報が類似し、類似しない複数のコンテンツの内容情報から学習器Leが抽出する各特徴情報が類似しなくなるように、学習器Leが有する各ノード間の接続係数Wを修正する。この結果、学習器Leは、コンテンツの内容情報が有する特徴を適切に示す情報であって、コンテンツの類似性に応じた値の情報を特徴情報として抽出することができる。
Specifically, the
以下、図1を用いて、上述した処理を実行する情報配信装置10が実行する学習処理の一例と情報配信処理の一例とについて説明する。
Hereinafter, an example of a learning process and an example of an information distribution process executed by the
〔1−3.学習処理の一例〕
まず、情報配信装置10が実行する学習処理について説明する。例えば、情報配信装置10は、クライアント端末200からコンテンツと、コンテンツが属するカテゴリおよびサブカテゴリとの登録を受付ける(ステップS1)。かかる場合、情報配信装置10は、登録されたコンテンツと、カテゴリ及びサブカテゴリとを対応付けて記憶する。
[1-3. Example of learning process)
First, the learning process executed by the
ここで、コンテンツが属するカテゴリとは、例えば、「スポーツ」、「芸能」、「ニュース」等といったコンテンツの内容が属する分野を示す情報である。また、サブカテゴリとは、例えば、「サッカー」、「野球」、「テニス」等といったあるカテゴリ(例えば、「スポーツ」)に属する分野をさらに細かく分類する情報である。なお、以下の説明では、同一若しくは類似するカテゴリを「類似カテゴリ」と記載し、類似しないカテゴリを「非類似カテゴリ」と記載する場合がある。 Here, the category to which the content belongs is information indicating a field to which the content content belongs, such as “sports”, “entertainment”, “news”, and the like. The subcategory is information for further classifying a field belonging to a certain category (for example, “sports”) such as “soccer”, “baseball”, “tennis”, and the like. In the following description, the same or similar category may be described as “similar category” and the dissimilar category may be described as “non-similar category”.
続いて、情報配信装置10は、記憶したコンテンツに含まれる複数の単語からコンテンツの内容情報を抽出し、抽出した内容情報が示す内容を抽象化することで、特徴情報を抽出する(ステップS2)。具体的には、情報配信装置10は、類似カテゴリに属するコンテンツAおよびコンテンツBを抽出するとともに、コンテンツBが属するカテゴリとは類似しないカテゴリに属するコンテンツCを抽出する。すなわち、情報配信装置10は、相互に類似する複数のコンテンツAおよびコンテンツBと、相互に類似しない複数のコンテンツBおよびコンテンツCを抽出する。
Subsequently, the
続いて、情報配信装置10は、図1中(A)に示すように、コンテンツAから内容情報Aを生成し、生成した内容情報Aを学習器Leに入力する。かかる場合、学習器Leは、内容情報Aの次元数を圧縮することで、コンテンツAの内容が有する特徴を示す特徴情報Aを抽出するとともに、特徴情報Aから復元した内容情報aを出力する。
Subsequently, the
同様に、情報配信装置10は、図1中(B)に示すように、コンテンツBから内容情報Bを生成し、生成した内容情報Bを入力情報として学習器Leに入力することで、コンテンツBの内容が有する特徴を示す特徴情報Bを抽出し、特徴情報Bから復元された内容情報bを生成する。また、情報配信装置10は、図1中(C)に示すように、コンテンツCから内容情報Cを生成し、生成した内容情報Cを入力情報として学習器Leに入力することで、コンテンツCの内容が有する特徴を示す特徴情報Cを抽出し、特徴情報Cから復元された内容情報cを生成する。
Similarly, as shown in FIG. 1B, the
ここで、入力された情報の特徴を失わないように、学習器Leが入力情報の次元数を圧縮できるのであれば、学習器Leに入力された情報と、学習器Leが復元した情報とは、同一若しくは類似する情報になると考えられる。このため、学習器Leは、内容情報Aと内容情報a、内容情報Bと内容情報b、および、内容情報Cと内容情報cとが類似するように学習されるのが望ましい。 Here, if the learning device Le can compress the number of dimensions of the input information so as not to lose the characteristics of the input information, the information input to the learning device Le and the information restored by the learning device Le It is considered that the information is the same or similar. Therefore, it is desirable that the learning device Le learns so that the content information A and the content information a, the content information B and the content information b, and the content information C and the content information c are similar.
また、入力された情報の特徴が適切に抽出されるのであれば、類似する情報から抽出された特徴情報は類似し、類似しない情報から抽出された特徴情報は類似しないと考えられる。一方、類似カテゴリに属するコンテンツの内容は類似し、非類似カテゴリに属するコンテンツの内容は類似しないと考えられる。このため、学習器Leは、特徴情報Aと特徴情報Bとが類似し、特徴情報Bと特徴情報Cとが類似しないように学習されるのが望ましい。 Further, if the features of the input information are appropriately extracted, it is considered that feature information extracted from similar information is similar and feature information extracted from dissimilar information is not similar. On the other hand, it is considered that the contents belonging to the similar category are similar and the contents belonging to the dissimilar category are not similar. For this reason, it is desirable that the learning device Le learns so that the feature information A and the feature information B are similar and the feature information B and the feature information C are not similar.
ここで、特徴情報A〜Cは、複数次元の数値、すなわちベクトルとして表現される。このため、類似する特徴情報同士の内積の値は、類似しない特徴情報同士の内積の値よりも大きくなる。そこで、情報配信装置10は、図1中(D)に示す制約条件を満たすように、学習器Leの接続係数Wを修正する(ステップS3)。すなわち、情報配信装置10は、内容情報Aと内容情報a、内容情報Bと内容情報b、および内容情報Cと内容情報cが同一となり、かつ、特徴情報Aと特徴情報Bの内積が、特徴情報Bと特徴情報Cとの内積よりも大きくなるように、接続係数Wを修正する。
Here, the feature information A to C is expressed as a multi-dimensional numerical value, that is, a vector. For this reason, the inner product value between similar feature information is larger than the inner product value between dissimilar feature information. Therefore, the
例えば、情報配信装置10は、内容情報Aと内容情報aとの二乗誤差、内容情報Bと内容情報bとの二乗誤差、および内容情報Cと内容情報cとの二乗誤差がそれぞれ最小となり、かつ、特徴情報Aと特徴情報Bの内積が、特徴情報Bと特徴情報Cとの内積よりも大きくなるように、接続係数Wをバックプロパゲーション法により修正する。かかる処理の結果、学習器Leは、特徴の損失を最小限に抑えつつ内容情報A〜Cの次元数を圧縮するとともに、各コンテンツA〜Cの内容が類似するか否かを判定することができる特徴情報A〜Cを抽出することができる。なお、情報配信装置10は、ソフトマックス手法や線形計画法を用いて、上述した制約条件を示す評価関数の値が最大となるように、接続係数Wを修正してもよい。
For example, the
このように、情報配信装置10は、学習器Leに入力されたコンテンツの内容情報と再現された内容情報とが一致するように、学習器Leが有する各ノード間の接続係数を修正する。また、情報配信装置10は、類似する複数のコンテンツの内容情報から学習部Leが抽出する各特徴情報が類似し、類似しない複数のコンテンツの内容情報から学習器Leが抽出する各特徴情報が類似しなくなるように、学習器Leが有する各ノード間の接続係数Wを修正する。
In this way, the
この結果、情報配信装置10は、コンテンツが有する特徴を示す特徴情報を適切に抽出することができると同時に、抽出した特徴情報同士の比較結果に基づいて、コンテンツの内容同士が類似するか否かを判定することができる。この結果、情報配信装置10は、コンテンツ同士が類似するか否かを判定精度を向上させ、デデュープの性能を向上させることができる。
As a result, the
〔1−4.情報配信処理の一例〕
次に、情報配信装置10が実行する情報配信処理について説明する。例えば、情報配信装置10は、端末装置100からコンテンツの配信要求を受付ける(ステップS4)。このような場合、情報配信装置10は、配信対象コンテンツの特徴情報を抽出する(ステップS5)。例えば、情報配信装置10は、利用者U01のユーザ属性、各コンテンツが登録された日時、各コンテンツのカテゴリやサブカテゴリ等の各種条件に基づいて、登録されたコンテンツの中から配信対象となるコンテンツを配信対象コンテンツとして選択する。続いて、情報配信装置10は、配信対象コンテンツの内容情報を学習器Leに入力することで、各コンテンツの特徴情報を抽出する。
[1-4. Example of information distribution process)
Next, information distribution processing executed by the
そして、情報配信装置10は、抽出した特徴情報に基づいて、デデュープを行う(ステップS6)。例えば、情報配信装置10は、コンテンツA〜Dから特徴情報A〜Dを抽出した場合、各特徴情報A〜Dが類似するか否かを判定する。そして、情報配信装置10は、特徴情報が他のコンテンツの特徴情報と類似しないコンテンツを配信する(ステップS7)。
Then, the
例えば、情報配信装置10は、例えば、図1中(E)に示すように、特徴情報Bと特徴情報Cとが類似する場合は、コンテンツBの内容とコンテンツCの内容とが類似すると判定する。そして、情報配信装置10は、コンテンツBとコンテンツCとのいずれか1方を配信対象とする。例えば、情報配信装置10は、図1中(F)に示すように、コンテンツA、B、Dを配信対象とし、コンテンツCを配信対象から除外する。
For example, when the feature information B and the feature information C are similar, for example, as shown in FIG. 1E, the
このように、情報配信装置10は、コンテンツに含まれる複数の情報(例えば、単語等)からコンテンツの内容を示す内容情報(例えば、コンテンツに含まれる単語の局所表現や分散表現を用いて表されたコンテンツの内容を示す情報)を生成する。また、情報配信装置10は、内容情報が示す内容を抽象化することで、コンテンツの内容が有する特徴を示す特徴情報を抽出する。そして、情報配信装置10は、複数のコンテンツから抽出された特徴情報が類似するか否かを判定し、特徴情報が類似するか否かに基づいて、複数のコンテンツのうち配信対象とするコンテンツを決定する。この結果、情報配信装置10は、コンテンツ同士が類似するか否かを判定精度を向上させ、デデュープの性能を向上させることができる。
As described above, the
ここで、同様の内容のコンテンツを複数表示するよりは、ある程度内容が異なるコンテンツを複数表示した方が、CTR(Click Through Rate)等のコンテンツの選択率やインプレッション数等の閲覧率が向上することが経験的に知られている。このため、情報配信装置10は、上述した配信処理を実行することにより、配信したコンテンツの選択率や閲覧率を向上させることができる。
Here, the content selection rate such as CTR (Click Through Rate) and the viewing rate such as the number of impressions are improved by displaying a plurality of contents that differ to some extent rather than displaying a plurality of contents having the same content. Is known empirically. For this reason, the
〔2.情報配信装置の構成〕
次に、図4を用いて、実施形態にかかる情報配信装置10の構成について説明する。図4は、実施形態に係る情報配信装置が有する機能構成の一例を示す図である。図4に示すように、情報配信装置10は、通信部11と、記憶部12と、制御部13とを有する。通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、ネットワークNと有線または無線で接続され、端末装置100やクライアント端末200との間で情報の送受信を行う。
[2. Configuration of information distribution device]
Next, the configuration of the
〔2−1.記憶部が記憶するデータベース〕
記憶部12は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部12は、接続係数データベース14、コンテンツデータベース15、内容情報データベース16、特徴情報データベース17とを記憶する。
[2-1. Database stored in storage unit)
The
接続係数データベース14には、学習器が有する各ノード間の接続係数が登録される。例えば、図5は、実施形態に係る接続係数データベースに登録される情報の一例を示す図である。図5に示すように、接続係数データベース14には、「ニューロンID」、「結合先ニューロンID」、「接続係数」といった項目を有する。「ニューロンID」は、学習器Leに含まれるノードであるニューロンを識別するための識別情報を示す。「結合先ニューロンID」は、「ニューロンID」に対応するニューロンと結合する他のニューロンを識別するための識別情報を示す。「接続係数」は、「ニューロンID」が示すニューロンと、「結合先ニューロンID」が示すニューロンとを接続する経路に設定された結合係数を示す。
In the
例えば、図5に示す例では、接続係数データベース14には、ニューロンID「N11」、ニューロンID「N21」、および結合係数「WA」が対応付けて登録されている。この情報は、ニューロンID「N11」に対応するニューロンが、ニューロンID「N21」に対応するニューロンと結合係数「WA」が設定された経路で接続されている旨を示す。このため、ニューロンID「N21」に対応するニューロンには、ニューロンID「N11」の出力に接続係数「WA」を積算した値が入力として伝達される。
For example, in the example illustrated in FIG. 5, the neuron ID “N 11 ”, the neuron ID “N 21 ”, and the coupling coefficient “W A ” are associated and registered in the
コンテンツデータベース15は、クライアント端末200から登録を受付けたコンテンツが登録される。例えば、図6は、実施形態にかかるコンテンツデータベースに登録される情報の一例を示す図である。図6に示すように、コンテンツデータベース15は、「カテゴリ」、「サブカテゴリ」、「コンテンツID」、「コンテンツ」といった項目を有する。
In the
「カテゴリ」は、コンテンツが属するカテゴリを示す情報である。また、「サブカテゴリ」は、コンテンツが属するサブカテゴリを示す情報である。また、「コンテンツID」は、登録されたコンテンツを識別する情報である。また、「コンテンツ」とは、登録されたコンテンツのデータである。 “Category” is information indicating the category to which the content belongs. The “subcategory” is information indicating the subcategory to which the content belongs. The “content ID” is information for identifying the registered content. The “content” is data of registered content.
例えば、図6に示す例では、カテゴリ「カテゴリ1」、サブカテゴリ「カテゴリ1−1」、コンテンツID「ID1」、コンテンツ「コンテンツA」が対応付けて登録されている。この情報は、コンテンツID「ID1」で示されるコンテンツ「コンテンツA」が、カテゴリ「カテゴリ1」に含まれるサブカテゴリ「カテゴリ1−1」に属する旨を示す。このように、各コンテンツは、階層構造を有するカテゴリと対応付けて登録される。 For example, in the example illustrated in FIG. 6, the category “category 1”, the subcategory “category 1-1”, the content ID “ID1”, and the content “content A” are registered in association with each other. This information indicates that the content “content A” indicated by the content ID “ID1” belongs to the subcategory “category 1-1” included in the category “category 1”. Thus, each content is registered in association with a category having a hierarchical structure.
内容情報データベース16は、コンテンツから生成された内容情報が登録される。例えば、図7は、実施形態にかかる内容情報データベースに登録される情報の一例を示す図である。図7に示すように、内容情報データベース16には、「コンテンツID」と「内容情報」といった項目を有する。
In the
ここで、図7に示す「コンテンツID」は、内容情報の抽出元となったコンテンツを示す「コンテンツID」である。また、「内容情報」は、コンテンツから抽出された内容情報のデータである。例えば、図6に示す例では、コンテンツID「ID1」および内容情報「内容情報A」が対応付けて登録される。この情報は、コンテンツID「ID1」が示すコンテンツ、すなわちコンテンツAから抽出された内容情報が「内容情報A」である旨を示す。 Here, the “content ID” illustrated in FIG. 7 is a “content ID” indicating the content from which the content information is extracted. “Content information” is data of content information extracted from the content. For example, in the example illustrated in FIG. 6, the content ID “ID1” and the content information “content information A” are registered in association with each other. This information indicates that the content indicated by the content ID “ID1”, that is, the content information extracted from the content A is “content information A”.
特徴情報データベース17は、コンテンツから抽出された特徴情報が登録される。例えば、図8は、実施形態にかかる特徴情報データベースに登録される情報の一例を示す図である。図8に示すように、特徴情報データベース17には、「コンテンツID」と「特徴情報」といった項目を有する。
In the
ここで、図8に示す「コンテンツID」は、特徴情報の抽出元となったコンテンツを示す「コンテンツID」である。また、「特徴情報」は、コンテンツから抽出された特徴情報、すなわち、コンテンツから抽出された内容情報を抽象化することで抽出された特徴情報のデータであり、例えば、コンテンツの内容を示す分散表現である。例えば、図8に示す例では、コンテンツID「ID1」および特徴情報「特徴情報A」が対応付けて登録される。この情報は、コンテンツID「ID1」が示すコンテンツ、すなわちコンテンツAから抽出された特徴情報が「特徴情報A」である旨を示す。 Here, the “content ID” illustrated in FIG. 8 is a “content ID” indicating the content from which the feature information is extracted. “Feature information” is feature information extracted from content, that is, feature information data extracted by abstracting content information extracted from the content. For example, a distributed expression indicating the content content It is. For example, in the example illustrated in FIG. 8, the content ID “ID1” and the feature information “feature information A” are registered in association with each other. This information indicates that the content indicated by the content ID “ID1”, that is, the feature information extracted from the content A is “feature information A”.
〔2−2.制御部が有する構成の一例〕
図4に戻って、説明を続ける。制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等によって、情報配信装置10内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。
[2-2. Example of configuration of control unit]
Returning to FIG. 4, the description will be continued. The
図4に示すように、制御部13は、受付部20、学習部30、配信部40を有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部13の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部13が有する各処理部の接続関係は、図4に示した接続関係に限られず、他の接続関係であってもよい。
As illustrated in FIG. 4, the
受付部20は、クライアントからコンテンツの登録を受付ける。例えば、受付部20は、コンテンツのデータと、コンテンツが属するカテゴリおよびサブカテゴリの通知とをクライアント端末200から受付ける。かかる場合、受付部20は、受付けたコンテンツに対してコンテンツIDを付与し、受付けたコンテンツのデータと、受付けたカテゴリと、受付けたサブカテゴリと、付与したコンテンツIDとを対応付けてコンテンツデータベース15に登録する。
The accepting
〔2−3.学習部が有する構成の一例〕
学習部30は、上述した学習処理を実行する。具体的には、学習部30は、内容情報抽出部31、特徴情報抽出部32、および接続係数修正部33を有する。内容情報抽出部31は、コンテンツの内容を示す内容情報として、コンテンツの内容を示す複数次元の情報である内容情報を抽出する。
[2-3. Example of configuration of learning unit]
The
例えば、内容情報抽出部31は、コンテンツAがテキスト等である場合は、形態素解析を用いて、コンテンツAに含まれる単語を抽出する。続いて、内容情報抽出部31は、ti−idfやW2V(Word 2 Vector)等の技術を用いて、抽出した各単語をベクトル化し、各単語のベクトルの総和を算出することで、コンテンツAの内容を示すベクトルを生成する。
For example, when the content A is text or the like, the content
そして、内容情報抽出部31は、生成したベクトルをコンテンツAの内容情報である内容情報Aとして、コンテンツAのコンテンツIDと対応付けて内容情報データベース16に登録する。なお、内容情報抽出部31は、コンテンツAの内容を示すことができるのであれば、任意の手法で内容情報を生成してよい。
Then, the content
特徴情報抽出部32は、内容情報が示す内容を抽象化することで、内容情報の抽出元となったコンテンツの内容が有する特徴を示す特徴情報を抽出する。具体的には、特徴情報抽出部31は、コンテンツから生成された内容情報の次元数を圧縮することで、コンテンツの内容が有する特徴を示す特徴情報を抽出する学習器Leを用いて、コンテンツの特徴情報を抽出する。
The feature
例えば、特徴情報抽出部32は、接続係数データベース14からニューロンの接続関係と、接続係数Wとを読み出して、学習器Leを生成する。また、特徴情報抽出部32は、内容情報データベース16から内容情報を読出し、読み出した内容情報を学習器Leの入力層に入力する。そして、特徴情報抽出部32は、学習器Leの中間層が出力した情報を特徴情報として特徴情報データベース17に登録する。
For example, the feature
接続係数修正部33は、類似する複数のコンテンツと、類似しない複数のコンテンツとを教師データとして、学習器Leの学習を行う。例えば、接続係数修正部33は、コンテンツデータベース15から、同一のカテゴリに属する2つのコンテンツを類似する複数のコンテンツとして特定し、異なるカテゴリに属する2つのコンテンツを類似しない複数のコンテンツとして特定する。なお、類似する複数のコンテンツの一部と類似しない複数のコンテンツの一部とは、同一のコンテンツであってもよい。
The connection
続いて、接続係数修正部33は、接続係数データベース14からニューロンの接続関係と、接続係数Wとを読み出して、学習器Leを生成する。そして、接続係数修正部33は、特定した各コンテンツの内容情報を学習器Leに入力し、学習器Leの出力層が出力した情報を再現された内容情報として取得する。すなわち、接続係数修正部33は、学習器Leが、内容情報の次元数を圧縮することで抽出した特徴情報から復元された内容情報を取得する。また、接続係数修正部33は、特徴情報データベース17から、特定したコンテンツの特徴情報を取得する。
Subsequently, the connection
そして、接続係数修正部33は、バックプロパゲーション法等を用いて、以下の学習処理を実行する。すなわち、接続係数修正部33は、入力されたコンテンツの内容情報と、学習器Leによって再現された内容情報とが一致するように、接続係数Wを修正する。同時に、接続係数修正部33は、類似する複数のコンテンツの内容情報から抽出された特徴情報同士が類似し、類似しない複数のコンテンツの内容情報から抽出された特徴情報同士が類似しなくなるように、接続係数Wの値を修正する。
Then, the connection
例えば、図9は、実施形態にかかる情報配信装置が実行する学習処理の一例を説明する図である。例えば、接続係数修正部33は、コンテンツAを学習器Leに入力した際に学習器Leの中間層が出力した情報、すなわち、特徴情報Aを取得する。また、接続係数修正部33は、コンテンツAと同一カテゴリに属するコンテンツBを学習器Leに入力した際に学習器Leの中間層が出力した情報、すなわち、特徴情報Bを取得する。また、接続係数修正部33は、コンテンツBと異なるカテゴリに属するコンテンツCを学習器Leに入力した際に学習器Leの中間層が出力した情報、すなわち、特徴情報Cを取得する。
For example, FIG. 9 is a diagram illustrating an example of learning processing executed by the information distribution apparatus according to the embodiment. For example, the connection
そして、接続係数修正部33は、図9中(A)に示すように、特徴情報Aと特徴情報Bとの内積である内積ABを算出する。また、接続係数修正部33は、図9中(B)に示すように、特徴情報Bと特徴情報Cとの内積である内積BCを算出する。ここで、特徴情報Aと特徴情報Bとが類似し、特徴情報Bと特徴情報Cとが類似しないように学習器Leの学習を行うのであれば、接続係数修正部33は、図9中(C)に示すように、内積ABの値が内積BCの値よりも大きくなるように学習器Leの接続係数Wを修正すればよい。
Then, as shown in FIG. 9A, the connection
そこで、接続係数修正部33は、図9中(D)に示すように、「−log(σ(内積AB−内積AC))」の値が小さくなるように、接続係数Wを再調整する。なお、接続係数修正部33は、特徴情報同士の集合類似度(Jaccard係数)やコサイン類似度に基づいて、特徴情報同士が類似するか否かを判定し、判定結果に応じて、接続係数Wの値を再調整してもよい。例えば、接続係数修正部33は、特徴情報Aと特徴情報Bとの集合類似度が、特徴情報Bと特徴情報Cとの集合類似度よりも大きくなるように、接続係数Wの値を再調整してもよい。
Therefore, the connection
また、接続係数修正部33は、内容情報Aを学習器Leに入力した際に学習器Leが出力した内容情報a、内容情報Bを学習器Leに入力した際に学習器Leが出力した内容情報b、内容情報Cを学習器Leに入力した際に学習器Leが出力した内容情報cを取得する。そして、接続係数修正部33は、上述した再調整と同時に、内容情報Aと内容情報a、内容情報Bと内容情報b、および内容情報Cと内容情報cとが同一となる様に、接続係数Wを再調整する。
The connection
このように、接続係数修正部33は、内容情報の次元数を圧縮することで特徴情報を抽出し、抽出した特徴情報から元の内容情報を復元することができるように、学習器Leの接続係数Wを再調整する。同時に、接続係数修正部33は、同一カテゴリに属する複数のコンテンツから抽出された各特徴情報が類似し、異なるカテゴリに属する複数のコンテンツから抽出された各特徴情報がが類似しないように、学習器Leの接続係数Wを再調整する。
In this way, the connection
なお、接続係数修正部33は、内積以外の指標を用いて、内容が類似するコンテンツの特徴情報が類似し、内容が類似しないコンテンツの特徴情報が類似しなくなるように、学習器Leの学習を行ってもよい。例えば、接続係数修正部33は、同一のカテゴリに属するコンテンツから抽出された各特徴情報の集合類似度やコサイン類似度の値が、異なるカテゴリに属するコンテンツから抽出された各特徴情報の集合類似度やコサイン類似度の値よりも大きくなるように、接続係数Wを修正してもよい。
Note that the connection
また、接続係数修正部33は、同一のサブカテゴリに属する複数のコンテンツから抽出された各特徴情報が類似し、異なるサブカテゴリに属する複数のコンテンツから抽出された各特徴情報が類似しないように、学習器Leの学習を行ってもよい。このような学習を行った場合、学習器Leは、異なるサブカテゴリに属するコンテンツから類似しない特徴情報を抽出することができる。
In addition, the connection
また、接続係数修正部33は、コンテンツデータベース15に登録されたコンテンツを用いて、上述した学習処理を繰り返すことで、学習器Leの精度を向上させることができる。また、接続係数修正部33は、学習処理の度に、教師データとして用いるコンテンツを変更することで、学習器Leの精度を向上させることができる。
Further, the connection
なお、内容情報抽出部31、および特徴情報抽出部32は、接続係数修正部33が学習器Leの接続係数Wを修正する度に、コンテンツの内容情報や特徴情報を新たに抽出し、抽出した内容情報や特徴情報を内容情報データベース16や特徴情報データベース17に登録することとなる。
The content
〔2−4.配信部40が有する構成の一例〕
図4に戻り、説明を続ける。配信部40は、上述した配信処理を実行する。例えば、配信部40は、判定部41と決定部42とを有する。なお、配信部40は、内容情報抽出部31および特徴情報抽出部32を有し、コンテンツデータベース15に登録されたコンテンツの特徴情報を抽出する機能を有していてもよい。
[2-4. Example of configuration of distribution unit 40]
Returning to FIG. 4, the description will be continued. The
判定部41は、複数のコンテンツから抽出された特徴情報が類似するか否かを判定する。例えば、判定部41は、端末装置100からコンテンツの配信要求を受付けると、端末装置100を使用する利用者U01のユーザ属性、各コンテンツが登録された日時、各コンテンツのカテゴリやサブカテゴリ等の各種条件に基づいて、配信対象の候補となる複数のコンテンツを選択する。なお、判定部41は、各コンテンツのCTR(Click Through Rate)や配信数、インプレッション数、配信に応じてクライアントから支払われる料金の額、インプレッション保証数等に基づいて、配信対象の候補となるコンテンツを選択してもよい。
The
続いて、判定部41は、選択したコンテンツの特徴情報を、特徴情報データベース17から特定し、特定した特徴情報同士を比較する。すなわち、判定部41は、コンテンツの内容情報の次元数を圧縮して特徴情報を抽出し、抽出した特徴情報から元の内容情報を復元するとともに、類似する複数のコンテンツから抽出された各特徴情報が類似し、類似しない複数のコンテンツから抽出された各特徴情報が類似しないように学習が行われた学習器Leを用いて、コンテンツの内容情報から抽出された特徴情報を比較する。
Subsequently, the
より具体的には、判定部41は、2つの特徴情報の内積を算出し、算出した内積の値が所定の閾値よりも小さい場合には、特徴情報同士が類似しないと判定し、算出した内積の値が所定の閾値よりも大きい場合には、特徴情報同士が類似すると判定する。例えば、判定部41は、特徴情報Aと特徴情報Bとの内積の値が所定の閾値よりも大きい場合は、特徴情報Aと特徴情報Bとが類似すると判定する。一方、判定部41は、特徴情報Bと特徴情報Cとの内積の値が所定の閾値よりも小さい場合は、特徴情報Bと特徴情報Cとが類似しないと判定する。なお、判定部41は、特徴情報同士の集合類似度(Jaccard係数)やコサイン類似度に基づいて、特徴情報同士が類似するか否かを判定してもよい。
More specifically, the
決定部42は、判定部41による判定結果に基づいて、判定部41が選択した複数のコンテンツのうち配信対象とするコンテンツを決定する。例えば、決定部42は、判定部41により特徴情報Aと特徴情報Bとが類似すると判定された場合は、特徴情報Aの抽出元であるコンテンツAと、特徴情報Bの抽出元であるコンテンツBとのうち、いずれか一方のコンテンツを配信対象とする。
Based on the determination result by the
一方、決定部42は、判定部41により特徴情報Bと特徴情報Cとが類似すると判定された場合は、特徴情報Bの抽出元であるコンテンツBと、特徴情報Cの抽出元であるコンテンツCとを配信対象とする。すなわち、決定部42は、特徴情報Aと特徴情報Bとが類似し、特徴情報Bと特徴情報Cとが類似しない場合は、コンテンツAを配信対象から除外し、コンテンツBとコンテンツCとを端末装置100に対して配信することとなる。
On the other hand, when the determining
〔2−5.情報配信装置による判定の一例〕
次に、図10を用いて、情報配信装置10により、コンテンツが類似するか否かの判定精度について説明する。図10は、実施形態にかかる情報配信装置による判定結果の一例を示す図である。例えば、図10に示す例では、2つのコンテンツを含む組を複数用意し、内容情報同士の類似度を横軸とし、特徴情報同士(すなわち、分散表現同士)の類似度を縦軸にとり、各組ごとに、コンテンツの内容情報同士の類似度と特徴情報同士の類似度とをプロットした。
[2-5. Example of determination by information distribution device]
Next, with reference to FIG. 10, the accuracy of determining whether or not the content is similar by the
また、図10に示す例では、各組に含まれる2つのコンテンツを4人の利用者に閲覧してもらい、4人の利用者によって2つのコンテンツが類似すると判定された組をバツ印で示した。また、図10に示す例では、2人もしくは3人の利用者によって2つのコンテンツが類似すると判定された組を三角印で、1人の利用者によって2つのコンテンツが類似すると判定された組を四角印で、全ての利用者によって2つのコンテンツが類似しないと判定された組を丸印でプロットした。 In the example shown in FIG. 10, two users included in each group are browsed by four users, and the groups determined by the four users to be similar to each other are indicated by crosses. It was. In the example shown in FIG. 10, a pair in which two contents are determined to be similar by two or three users is indicated by a triangle, and a pair in which two contents are determined to be similar by one user A set of square marks and a set determined by all users that the two contents are not similar are plotted with circle marks.
図10に示すように、内容情報同士の類似度を基準とした場合は、コンテンツの組の類似度に広がりが存在するため、類似するコンテンツの組と類似しないコンテンツの組とを上手く切り分ける閾値を設定するのが困難である。このため、情報配信装置10は、内容情報同士の類似度を用いた場合は、各コンテンツが類似するか否かを精度良く判定することができない。
As shown in FIG. 10, when the similarity between the content information is used as a reference, there is a spread in the similarity between the content sets. Therefore, a threshold value for successfully separating a similar content set and a dissimilar content set is set. Difficult to set. For this reason, the
一方、特徴情報同士の類似度を基準とした場合は、バツ印で示されるコンテンツの組、三角印で示されるコンテンツの組、四角印で示されるコンテンツの組、および丸印で示されるコンテンツの組のそれぞれの類似度が同程度の範囲内に収まる。このため、情報配信装置10は、特徴情報同士の類似度を用いることで、各コンテンツが類似するか否かを精度良く判定することができる。
On the other hand, when the similarity between feature information is used as a reference, a set of content indicated by a cross mark, a set of content indicated by a triangle mark, a set of content indicated by a square mark, and a content set indicated by a circle mark The similarity of each pair falls within the same range. For this reason, the
〔3.学習処理の手順〕
次に、図11を用いて、実施形態に係る情報配信装置10が実行する学習処理の流れの一例について説明する。図11は、実施形態に係る情報配信装置による学習処理の一例を示すフローチャートである。例えば、情報配信装置10は、同一カテゴリに属するコンテンツの組と、異なるカテゴリに属するコンテンツの組とを抽出する(ステップS101)。続いて、情報配信装置10は、既存の学習器Leを用いて、抽出したコンテンツの内容情報から特徴情報を抽出する(ステップS102)。
[3. (Learning procedure)
Next, an example of the flow of the learning process executed by the
そして、情報配信装置10は、学習器Leに入力した内容情報と学習器Leが復元した内容情報とが一致し、かつ、同一カテゴリに属するコンテンツの特徴情報同士が類似し、異なるカテゴリに属するコンテンツの特徴情報同士が類似しないように、学習器Leの接続係数Wを修正する(ステップS103)。そして、情報配信装置10は、学習処理を終了する。
Then, the
〔4.情報配信処理の手順〕
次に、図12を用いて、実施形態に係る情報配信装置10が実行する情報配信処理の流れの一例について説明する。図12は、実施形態に係る情報配信装置による情報配信処理の一例を示すフローチャートである。例えば、情報配信装置10は、端末装置100から配信要求を受信したか否かを判定する(ステップS201)。そして、情報配信装置10は、配信要求を受信していない場合は(ステップS201:No)、受信するまで待機する。
[4. (Information distribution processing procedure)
Next, an example of the flow of information distribution processing executed by the
一方、情報配信装置10は、配信要求を受信した場合は(ステップS201:Yes)、配信対象の候補となるコンテンツを選択する(ステップS202)。また、情報配信装置10は、選択したコンテンツの内容情報を抽出し(ステップS203)、内容情報が示す内容を抽象化することで、コンテンツの内容の特徴を示す特徴情報を抽出する(ステップS204)。なお、ステップS203およびステップS204の処理は、配信要求を受信する前に、図11に示した学習処理によって学習が行われた学習器Leにより、予め行われていてもよい。
On the other hand, when receiving a distribution request (step S201: Yes), the
続いて、情報配信装置10は、抽出された特徴情報が類似するか否かを判定する(ステップS205)。そして、情報配信装置10は、判定結果に基づいて、配信対象となるコンテンツを選択する(ステップS206)。例えば、情報配信装置10は、特徴情報Aと特徴情報Bとが類似する場合は、コンテンツAとコンテンツBとのどちらか一方を、配信対象とする。そして、情報配信装置10は、配信対象として選択したコンテンツを配信し(ステップS207)、処理を終了する。
Subsequently, the
〔5.変形例〕
上述した実施形態に係る情報配信装置10は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、上記の情報配信装置10の他の実施形態について説明する。
[5. (Modification)
The
〔5−1.学習器について〕
上述した説明では、情報配信装置10は、入力層、中間層および出力層の3層を有するオートエンコーダである学習器Leを用いて、特徴情報の抽出を行った。しかしながら、実施形態は、これに限定されるものではない。例えば、情報配信装置10は、複数の中間層を有する学習器Le、すなわち、任意の数の層を有する学習器Leを用いて、特徴情報の抽出を行ってよい。
[5-1. About the learning device)
In the above description, the
ここで、学習器Leが複数の中間層を有する場合、ノードの数が最も少ない中間層、すなわち、出力する情報の次元数が最も少ない中間層が、コンテンツの内容の特徴を端的に示していると考えられる。そこで、情報配信装置10は、複数の中間層を有する学習器Leを用いる場合、出力する情報の次元数が最も少ない中間層が出力する情報を特徴情報とすればよい。また、情報配信装置10は、出力する情報の次元数が最も少ない中間層が出力する情報を特徴情報とし、上述した学習処理や配信処理を実行してもよい。
Here, when the learning device Le has a plurality of intermediate layers, the intermediate layer having the smallest number of nodes, that is, the intermediate layer having the smallest number of dimensions of information to be output, directly indicates the characteristics of the content. it is conceivable that. Therefore, when using the learning device Le having a plurality of intermediate layers, the
また、情報配信装置10は、オートエンコーダ以外にも、任意の学習器Leを用いて上述した情報配信処理を実行してもよい。また、情報配信装置10は、コンテンツの内容を示す内容情報を抽象化することで、コンテンツの内容が有する特徴を示す特徴情報を適切に抽出することができるのあれば、ニューラルネットワークやディープラーニング以外にも、任意のモデルを学習してよく、かかるモデルを用いて、上述した情報配信処理を実行してよい。例えば、情報配信装置10は、入力の一部をランダムにマスクし、出力をマウスクする前の入力に近くなるように学習を行ったDAE(Denoising Auto Encoder)を用いてもよい。このようなDAEでは、マスクされた情報をマスクされなかった情報から復元するように特徴を学習するので、一般的に、オートエンコーダよりも特徴情報の精度が高くなる。このため、情報配信装置10は、学習器LeとしてDAEを用いることで、より精度の高いデデュープを行うことができる。
In addition to the auto encoder, the
〔5−2.構成について〕
また、上述した説明では、情報配信装置10は、学習処理と情報配信処理と実行した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報配信装置10は、学習処理を実行する学習装置と、情報配信処理を実行する配信装置とにより実現されてもよい。このような学習装置は、例えば、図4に示す受付部20および学習部30を有し、登録されたコンテンツを教師データとして、学習器Leの学習を行う。
[5-2. About the configuration)
In the above description, the
一方、配信装置は、図4に示す配信部40に加え、特徴情報抽出部32と接続係数修正部33とを有する。また、配信装置は、配信対象となるコンテンツと、学習装置により学習された学習器Leを取得する。そして、配信装置は、取得した学習器Leを用いて、配信するコンテンツの選択、すなわち、デデュープを行い、デデュープの結果選択されたコンテンツを端末装置100に配信する。
On the other hand, the distribution apparatus includes a feature
このように、学習処理と情報配信処理とは、それぞれ個別の情報処理装置により実現されてもよい。また、学習処理と情報配信処理とは、それぞれ個別の情報処理装置により実現される場合、記憶部12が記憶する各データベース14〜17は、各情報処理装置に保持されていてもよく、各情報処理装置がアクセス可能な共有ストレージ等に保持されていてもよい。
Thus, the learning process and the information distribution process may be realized by individual information processing apparatuses, respectively. In addition, when the learning process and the information distribution process are realized by individual information processing devices, the
また、学習処理と情報配信処理とは、それぞれ個別の情報処理装置により実現される場合、情報配信そりを実行する情報処理装置においては、学習器Leが有するノードのうち、中間層以降のノードが不要となる。そこで、情報配信処理を実行する情報処理装置は、学習処理を実行する情報処理装置によって学習された学習器Leのうち、入力層から中間層までの範囲を有する学習器Leを保持し、保持した学習器Leを用いて、情報配信処理を実行してもよい。 In addition, when the learning process and the information distribution process are realized by individual information processing apparatuses, in the information processing apparatus that executes the information distribution sled, among the nodes of the learning device Le, the nodes after the intermediate layer are It becomes unnecessary. Therefore, the information processing device that executes the information distribution process holds and holds the learning device Le having a range from the input layer to the intermediate layer among the learning devices Le learned by the information processing device that executes the learning process. Information distribution processing may be executed using the learning device Le.
〔5−3.学習器の利用について〕
上述した説明では、情報配信装置10は、学習処理によって学習された学習器Leを用いて、内容が類似するコンテンツの配信を防ぐデデュープを行った。しかしながら、実施形態は、これに限定されるものではない。すなわち、情報配信装置10は、学習器Leを任意の用途で利用してよい。
[5-3. About the use of learning devices)
In the above description, the
例えば、情報配信装置10は、学習器Leを用いて、コンテンツが属するカテゴリを特定してもよい。例えば、情報配信装置10は、新たなコンテンツDの登録を受付けた場合、コンテンツDから抽出した特徴情報と、登録済みのコンテンツAから抽出した特徴情報とを比較する。そして、情報配信装置10は、コンテンツAの特徴情報とコンテンツDの特徴情報とが類似する場合は、コンテンツAのカテゴリと同一のカテゴリにコンテンツDが属すると判定してもよい。
For example, the
また、情報配信装置10は、学習器Leの学習時に、同一カテゴリに含まれる各サブカテゴリに属する複数のコンテンツから抽出された特徴情報と、新たに登録されるコンテンツから抽出された特徴情報との内積がそれぞれ所定の範囲に収まる場合は、新たに登録されるコンテンツを、そのカテゴリに含まれる新たなサブカテゴリに属するコンテンツであると判定してもよい。
In addition, the
例えば、図13は、実施形態にかかる情報配信装置がコンテンツのサブカテゴリを特定する処理の一例を説明するための図である。例えば、図13中(A)に示す例では、「カテゴリ1」に「サブカテゴリ1−1」および「サブカテゴリ1−2」が含まれている。また、図13中(B)に示すように、「カテゴリ2」には、「サブカテゴリ2−1」および「サブカテゴリ2−2」が含まれている。 For example, FIG. 13 is a diagram for explaining an example of processing in which the information distribution apparatus according to the embodiment specifies a content subcategory. For example, in the example shown in FIG. 13A, “category 1” includes “subcategory 1-1” and “subcategory 1-2”. As shown in FIG. 13B, “category 2” includes “subcategory 2-1” and “subcategory 2-2”.
ここで、情報配信装置10は、「カテゴリ1」に属するコンテンツの特徴情報と、「カテゴリ2」に属するコンテンツの特徴情報とが類似しないように学習器Leの学習を行う。このような学習を行った場合、図1中(C)に示すように、「カテゴリ1」に属するコンテンツの特徴情報と、「カテゴリ2」に属するコンテンツの特徴情報と間の類似度(例えば、内積の値)は、「α」以下の値となる。
Here, the
ここで、情報配信装置10は、異なるカテゴリのコンテンツから抽出された特徴情報が類似せず、かつ、入力された内容情報と出力する内容情報とが同一となるように、学習器Leの学習を行う。このような学習を行った場合、学習器Leは、コンテンツに含まれる単語等の内容を復元するために暗に必要な情報を残しつつ次元数を削減するとともに、カテゴリが異なるコンテンツの特徴情報同士が類似しないように、内容情報の次元数を圧縮するようになる。
Here, the
すなわち、学習器Leは、単語が有する意味単位でのコンテンツの情報欠損を防ぎつつ、コンテンツ同士の類似度を判定可能な特徴情報を抽出することができる。この結果、学習器Leは、例えば、「日本の野球」についてのコンテンツと、「米国の野球」についてのコンテンツとが「野球」という同一のカテゴリに属していたとしても、ある程度異なる特徴情報を各コンテンツから抽出するようになる。すなわち、学習器Leは、図13中(D)に示すように、同一のカテゴリに属するが、異なるサブカテゴリに属する2つのコンテンツから、「α」よりも値が大きい類似度「β」よりも類似度が小さくなる特徴情報を抽出するようになる。 That is, the learning device Le can extract feature information that can determine the degree of similarity between contents while preventing information loss of the contents in the semantic unit of the word. As a result, the learning device Le may, for example, provide feature information that differs to some extent even if the content about “Japanese baseball” and the content about “US baseball” belong to the same category “baseball”. Extract from content. That is, as shown in FIG. 13D, the learning device Le is similar to the similarity “β” having a value larger than “α” from two contents belonging to the same category but belonging to different subcategories. Feature information with a reduced degree is extracted.
そこで、情報配信装置10は、新たに登録されたコンテンツの特徴情報と、登録済みのコンテンツの特徴情報との間の類似度が、「α」より大きく「β」よりも小さい場合は、新たに登録されたコンテンツが、登録済みのコンテンツと同一カテゴリ内の異なるサブカテゴリに属するコンテンツであると判定する。
Therefore, when the similarity between the newly registered content feature information and the registered content feature information is greater than “α” and smaller than “β”, the
例えば、情報配信装置10は、13中(E)に示すように、新たなコンテンツFを受付ける。かかる場合、情報配信装置10は、図13中(F)に示すように、「サブカテゴリ1−1」に属するコンテンツAの特徴情報とコンテンツFの特徴情報との類似度「γ」を算出する。また、情報配信装置10は、図13中(G)に示すように、「サブカテゴリ1−2」に属するコンテンツBの特徴情報とコンテンツFの特徴情報との類似度「δ」を算出する。
For example, the
そして、情報配信装置10は、図13中(H)に示すように、算出された類似度「γ」および「δ」が、「α」よりも大きく「β」よりも小さい場合は、コンテンツFが「カテゴリ1」に属し、「サブカテゴリ1−1」および「サブカテゴリ1−2」以外のサブカテゴリに属すると判定する。この結果、情報配信装置10は、図13中(I)に示すように、「カテゴリ1」に属する新たな「サブカテゴリ1−3」を生成し、コンテンツFを「サブカテゴリ1−3」に属するコンテンツとする。
Then, as shown in (H) in FIG. 13, the
このように、情報配信装置10は、異なるカテゴリに属するコンテンツの特徴情報同士や、異なるサブカテゴリに属するコンテンツの特徴情報同士が類似しないように学習処理を実行した場合は、コンテンツが属するカテゴリやサブカテゴリの類似性を特徴情報に反映させることができる。この結果、情報配信装置10は、新たなコンテンツが、設定されていない新規なサブカテゴリに属するコンテンツ(すなわち、中途半端なコンテンツ)であっても、適切に、コンテンツのカテゴリ分けを行うことができる。
As described above, when the learning process is executed so that the feature information of the contents belonging to different categories or the feature information of the contents belonging to different subcategories are not similar, the
なお、情報配信装置10は、同一のサブカテゴリに属するコンテンツの特徴情報同士がより類似するように、学習器Leの学習を行ってもよい。このような処理を実行した場合、情報配信装置10は、新たなコンテンツが既存のサブカテゴリに属するか否か、属しない場合いは、どのカテゴリに属する新たなサブカテゴリに属するかといった判定を実現することができる。
Note that the
〔5−4.ストリームデデュープ〕
ここで、上述した例では、情報配信装置10は、配信対象となる複数のコンテンツをデデュープの対象とした。しかしながら、実施形態は、これに限定されるものではない。例えば、端末装置100は、画面上に複数のコンテンツを並べて表示し、利用者が画面をスクロールさせると、新たに表示するコンテンツの配信を要求し、新たに配信されたコンテンツを表示済みのコンテンツに続けて配置することで、あたかもコンテンツが無限に続くような表示(以下、ストリーム表示と記載する。)を行う場合がある。このため、情報配信装置10は、端末装置100がストリーム表示を行う場合、配信要求を受付ける度に配信対象となるコンテンツのデデュープを行った場合は、既に配信されたコンテンツと類似するコンテンツを配信してしまう恐れがある。
[5-4. (Stream Deduplication)
Here, in the above-described example, the
そこで、情報配信装置10は、以下のストリームデデュープ処理を実行してもよい。例えば、情報配信装置10は、端末装置100に配信済みのコンテンツから抽出した特徴情報を保持する。また、情報配信装置10は、配信要求を受信すると、配信対象として新たに選択したコンテンツから特徴情報を抽出する。そして、情報配信装置10は、端末装置100に配信済みのコンテンツから抽出された特徴情報と、新たに選択したコンテンツから抽出された特徴情報とが類似するか否かを判定する。
Therefore, the
ここで、情報配信装置10は、配信済みのコンテンツから抽出された特徴情報と、新たなコンテンツから抽出された特徴情報とが類似する場合は、新たなコンテンツを配信対象から除外する。一方、情報配信装置10は、配信済みのコンテンツから抽出された特徴情報と、新たなコンテンツから抽出された特徴情報とが類似しない場合は、新たなコンテンツを配信対象とする。
Here, if the feature information extracted from the distributed content is similar to the feature information extracted from the new content, the
例えば、図14は、実施形態に係る情報配信装置10が実行するストリームデデュープ処理の一例を示す図である。なお、図14に示す例では、情報配信装置10からコンテンツA〜Dが端末装置100に配信済みであるものとする。例えば、図14に示す例では、端末装置100は、情報配信装置10から配信されたコンテンツA〜Dを並べて表示する(ステップS10)。そして、端末装置100は、利用者がスクロール操作を行なうことで、コンテンツA〜Dに続けて表示するコンテンツを取得する必要がある場合は、情報配信装置10に対して配信要求を送信する(ステップS11)。
For example, FIG. 14 is a diagram illustrating an example of a stream deduplication process executed by the
このような場合、情報配信装置10は、端末装置100に配信済みのコンテンツとは特徴情報が類似しない新たなコンテンツを選択する(ステップS12)。例えば、情報配信装置10は、図14中(A)に示すように、配信済みコンテンツA〜Dの特徴情報A〜Dを特徴情報群として保持する。また、情報配信装置10は、図14中(B)に示すように、新たな配信対象コンテンツとしてコンテンツEを選択し、コンテンツEの内容情報Eから特徴情報Eを抽出する。同様に、情報配信装置10は、新たな配信対象コンテンツとしてコンテンツFを選択し、コンテンツFの内容情報Fから特徴情報Fを抽出する。
In such a case, the
そして、情報配信装置10は、特徴情報Eおよび特徴情報Fと、特徴情報群に含まれる特徴情報A〜Dとが類似するか否かを判定する。そして、例えば、情報配信装置10は、図14中(C)に示すように、特徴情報Eと特徴情報A〜Dのいずれかが類似する場合は、コンテンツEを配信対象から除外する。一方、情報配信装置10は、図14中(D)に示すように、特徴情報Fと特徴情報A〜Dとがいずれも類似しない場合は、コンテンツFを配信対象とする。
Then, the
この結果、情報配信装置10は、コンテンツFを端末装置100へと配信する(ステップS13)。すると、情報配信装置100は、コンテンツFを配信済みのコンテンツA〜Dに続けて表示する。
As a result, the
〔5−5.デデュープの対象について〕
上述した説明では、情報配信装置10は、内容が類似しないコンテンツを配信した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報配信装置10は、2つのコンテンツから抽出された特徴情報の内積の値が所定の閾値よりも大きい場合には、いずれか一方のコンテンツをデデュープの対象とした。ここで、情報配信装置10は、特徴情報が類似するか否かを判定するための閾値を、任意の値に設定することができる。
[5-5. (Deduplication target)
In the above description, the
例えば、情報配信装置10は、2つのコンテンツを閲覧した利用者のうち、半数が類似すると判断し、残りの半数が類似しないと判定するようなコンテンツについては、配信されるように、特徴情報が類似するか否かを判定するための閾値を設定してもよい。また、情報配信装置10は、2つのコンテンツを閲覧した利用者のうち、全員が類似すると判定するようなコンテンツのみを、デデュープの対象とするように、閾値を設定してもよい。
For example, the
このように、類似するか否かの判断が利用者によって異なるような複数のコンテンツ、すなわち、人によってとらえ方が異なるコンテンツは、並べて表示した際に選択率や閲覧率が上昇することが経験的に知られている。このため、情報配信装置10は、類似するか否かの判断が利用者によって異なるような複数のコンテンツをデデュープの対象から除外することで、コンテンツの選択率や閲覧率を上昇させることができる。
In this way, it is experiential that the selection rate and browsing rate of multiple contents that have different judgments on whether or not they are different, that is, contents that differ in how they are viewed by people, increase when displayed side by side. Known to. For this reason, the
〔5−6.ターゲティングについて〕
ここで、情報配信装置10は、配信対象となるコンテンツの選択に、学習器Leを利用してもよい。例えば、情報配信装置10は、収入、職業、学歴等のデモグラフィック属性や、ライフスタイルや利用者の好み等のサイコグラフィック属性等、利用者U01の属性情報を示す内容情報を求め、学習器Leを用いて、利用者U01の属性情報の特徴を示す特徴情報を抽出する。そして、情報配信装置10は、特徴情報が、利用者U01の属性情報から抽出した特徴情報と類似するコンテンツ、すなわち、利用者U01の属性情報の内容に合致する内容のコンテンツを配信対象としてもよい。
[5-6. About targeting)
Here, the
このような処理を実行することで、情報配信装置10は、ターゲティングの精度を向上させることができる。なお、このような処理を実行する場合、情報配信装置10は、コンテンツだけではなく、利用者U01の属性情報を示す内容情報が、特徴情報から上手く復元されるように、学習器Leの学習を行えばよい。
By executing such processing, the
〔5−7.コンテンツについて〕
上述した説明では、情報配信装置10は、ニュースやコラムなどのテキストを含むコンテンツの内容情報から特徴情報を抽出した。しかしながら、実施形態は、これに限定されるものではない。すなわち、情報配信装置10は、画像や動画像等のコンテンツから特徴情報を抽出を行い、抽出した特徴情報から元の画像や動画像を復元するとともに、類似する画像や動画像から類似する特徴情報を抽出し、類似しない画像や動画像から類似しない特徴情報を抽出する学習器Leの学習を行ってもよい。また、情報配信装置10は、このような学習器Leを用いて、画像や動画像等が類似するか否かを判定してもよい。
[5-7. About content)
In the above description, the
すなわち、情報配信装置10は、テキスト情報のみならず、画像や動画像等、情報の次元数を圧縮することで特徴情報を抽出することができるコンテンツであれば、任意のコンテンツについて、上述した学習処理や情報配信処理を採用することができる。例えば、情報配信装置10は、音楽等のコンテンツについて、上述した学習処理や情報配信処理を採用することができる。より具体的には、情報配信装置10は、コンテンツが画像や動画像である場合は、各画素のグレースケールや色彩を示す値を、コンテンツに含まれる情報の局所表現や分散表現として用いることで、コンテンツの内容を示す内容情報を生成すればよい。また、情報配信装置10は、コンテンツが音声である場合は、各時間帯における音声の周波数や振幅等を数値化した値をコンテンツに含まれる情報の局所表現や分散表現として用いることで、コンテンツの内容を示す内容情報を生成すればよい。
That is, the
〔5−8.広告の入稿〕
なお、コンテンツが広告である場合、広告主は、広告コンテンツの入稿を代理店に依頼する場合もある。この場合、情報配信装置10に広告コンテンツを入稿するのは代理店となる。本明細書では、コンテンツが広告である場合、「クライアント」といった表記は、広告コンテンツによって広告が行われるクライアント等、広告主だけでなく代理店を含む概念であり、「クライアント端末」といった表記は、広告主が使用する装置だけでなく代理店によって利用される装置を含む概念であるものとする。
[5-8. Ad trafficking)
When the content is an advertisement, the advertiser may request an agency to submit the advertisement content. In this case, it is the agency that submits the advertising content to the
〔5−9.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[5-9. Others]
In addition, among the processes described in the above embodiment, all or part of the processes described as being automatically performed can be performed manually, or the processes described as being performed manually can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedures, specific names, and information including various data and parameters shown in the document and drawings can be arbitrarily changed unless otherwise specified.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.
例えば、図4に示した各データベース14〜17は、情報配信装置10が保持せずに、ストレージサーバ等に保持されていてもよい。この場合、情報配信装置10は、ストレージサーバにアクセスすることで、コンテンツ等を取得することとなる。
For example, each of the
また、例えば、上述してきた情報配信装置10は、端末装置100から配信要求を受け付けたり、コンテンツを配信したりといった、ユーザとのやりとりを中心に実行するフロントエンドサーバ側と、広告コンテンツの情報配信処理などを実行するバックエンドサーバ側に分散されてもよい。すなわち、情報配信装置10は、学習器Leの学習を行う学習装置と、コンテンツの配信を行う配信装置とによって実現されてもよい。
Further, for example, the
〔5−10.ハードウェア構成〕
また、上述してきた実施形態に係る情報配信装置10は、例えば図15に示すような構成のコンピュータ1000によって実現される。図15は、情報配信装置の機能を実現するコンピュータのハードウェア構成の一例を示す図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
[5-10. Hardware configuration)
Further, the
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
The
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、また、ネットワークNを介してCPU1100が生成したデータを他の機器へ送信する。CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
The
メディアインターフェイス1700は、記録媒体1800に格納されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
The
例えば、コンピュータ1000が情報配信装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部13の機能を実現する。また、HDD1400には、記憶部12内の各データが格納される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網を介してこれらのプログラムを取得してもよい。
For example, when the
〔6.効果〕
上述したように、情報配信装置10は、コンテンツに含まれる複数の情報からコンテンツの内容を示す分散情報を生成し、分散情報が示す内容を抽象化することで、コンテンツの内容が有する特徴を示す特徴情報を抽出する。そして、情報配信装置10は、複数のコンテンツから抽出された特徴情報が類似するか否かに基づいて、複数のコンテンツのうち配信対象とするコンテンツを決定する。
[6. effect〕
As described above, the
このように、情報配信装置10は、コンテンツの内容を示す特徴情報を用いて、コンテンツが類似するか否かを判定するので、コンテンツ同士が類似するか否かを判定精度を向上させ、デデュープの性能を向上させることができる。例えば、情報配信装置10は、表記が類似するが内容が異なる複数のコンテンツを、類似しないコンテンツと判定し、表記が異なるが内容が類似する複数のコンテンツを、類似すると判定することができる。
As described above, the
また、情報配信装置10は、コンテンツのに含まれる情報の分散表現又は局所表現から内容情報を生成し、生成した内容情報を抽象化することで、コンテンツの内容が有する特徴を示す特徴情報を抽出する。このため、情報配信装置10は、テキスト等、内容情報に変換可能なコンテンツ同士が類似するか否かを適切に判定することができる。
Further, the
また、情報配信装置10は、内容情報として複数次元の情報を生成し、生成した内容情報の次元数を圧縮することでコンテンツの内容が有する特徴を示す特徴情報を抽出する学習器Leを用いて、複数のコンテンツの特徴情報をそれぞれ抽出する。このため、情報配信装置10は、コンテンツの表記等ではなく、コンテンツの内容が有する特徴同士を比較することができるので、コンテンツ同士が類似するか否かを適切に判定することができる。
In addition, the
また、情報配信装置10は、学習器Leとして、コンテンツの内容情報の次元数を圧縮して特徴情報を抽出し、抽出した特徴情報から元の内容情報を復元するとともに、類似する複数のコンテンツから抽出された各特徴情報が類似し、類似しない複数のコンテンツから抽出された各特徴情報が類似しないように学習が行われた学習器Leを用いる。このため、情報配信装置10は、コンテンツの内容が有する特徴同士を比較することができるので、コンテンツ同士が類似するか否かを適切に判定することができる。
Further, the
また、情報配信装置10は、学習器Leとして、類似する複数のコンテンツから抽出された各特徴情報の内積が、類似しない複数のコンテンツから抽出された各特徴情報の内積よりも大きくなるように学習が行われた学習器Leを用いる。このため、情報配信装置10は、コンテンツ同士が類似するか否かを適切に判定することができる。
Further, the
また、情報配信装置10は、学習器Leとして、同一カテゴリに属する複数のコンテンツから抽出された各特徴情報が類似し、異なるカテゴリに属する複数のコンテンツから抽出された各特徴情報がが類似しないように学習が行われた学習器Leを用いる。このため、情報配信装置10は、教師データとするコンテンツを個別に用意せずとも、配信対象として登録されたコンテンツを用いて、学習器Leの学習できるとともに、コンテンツ同士が類似するか否かを適切に判定することができる。
Further, the
また、情報配信装置10は、学習器Leとして、同一のカテゴリに含まれる複数のサブカテゴリのうち、同一のサブカテゴリに属する複数のコンテンツから抽出された各特徴情報が類似し、異なるサブカテゴリに属する複数のコンテンツから抽出された各特徴情報が類似しないように学習が行われた学習器Leを用いる。このため、情報配信装置10は、コンテンツ同士が類似するか否かの判定精度をさらに向上させることができる。
Further, the
また、情報配信装置10は、同一のカテゴリに含まれる各サブカテゴリに属する複数のコンテンツから抽出された各特徴情報と、比較対象となるコンテンツから抽出された特徴情報との内積が、それぞれ所定の範囲に収まる場合は、比較対象となるコンテンツを、所定のカテゴリに含まれる新たなサブカテゴリに属するコンテンツとする。このため、情報配信装置10は、新たなコンテンツを新規なサブカテゴリに分類することができる。
Further, the
また、情報配信装置10は、2つのコンテンツから抽出された特徴情報が類似すると判定された場合は、いずれか一方のコンテンツを配信対象とし、当該2つのコンテンツから抽出された特徴情報が類似しないと判定した場合は、両方のコンテンツを配信対象とする。このため、情報配信装置10は、デデュープを実現することができる。
Further, when it is determined that the feature information extracted from the two contents is similar, the
また、情報配信装置10は、学習器Leの教師データとして、類似する複数のコンテンツと、類似しない複数のコンテンツとを受付ける。そして、情報配信装置10は、入力されたコンテンツの内容情報と再現された内容情報とが一致するように、学習器Leが有する各ノード間の接続係数を修正する。同時に、情報配信装置10は、類似する複数のコンテンツの内容情報から学習部が抽出する各特徴情報が類似し、類似しない複数のコンテンツの内容情報から学習器Leが抽出する各特徴情報が類似しなくなるように、学習器Leが有する各ノード間の接続係数を修正する。
Further, the
このため、情報配信装置10は、コンテンツが類似するか否かを適切に判定することができる学習器Leを学習することができる。また、情報配信装置10は、詳細に分類された教師データを容易せずとも、新たなコンテンツを新規なサブカテゴリに属するコンテンツであると判定することができる程度に、コンテンツから特徴情報を抽出することができる学習器Leを学習することができる。
For this reason, the
また、情報配信装置10は、類似する複数のコンテンツから抽出された各特徴情報の集合類似度、コサイン類似度、又は内積の値が、類似しない複数のコンテンツから抽出された各特徴情報の集合類似度、コサイン類似度、又は内積の値よりも大きくなるように、学習器Leが有する各ノード間の接続係数を修正する。このため、情報配信装置10は、類似するコンテンツの各特徴情報が類似し、類似しないコンテンツの各特徴情報が類似しなないように、学習器Leの学習を行うことができる。
Also, the
また、情報配信装置10は、学習器Leが有する層のうち、出力する情報の次元数が最少となる中間層から出力された情報を特徴情報とする。このため、情報配信装置10は、コンテンツの表記等に現れる情報を除いた特徴情報、すなわち、コンテンツの内容が有する意味の特徴を最も適切に示した特徴情報を用いて、コンテンツが類似するか否かを判定することができる。
Further, the
また、情報配信装置10は、端末装置100へと順次配信されるコンテンツの特徴情報を抽出する。また、情報配信装置10は、配信済みのコンテンツから抽出された特徴情報と、新たなコンテンツから抽出された特徴情報とが類似するか否かを判定する。そして、情報配信装置10は、配信済みのコンテンツから抽出された特徴情報と、新たなコンテンツから抽出された特徴情報とが類似する場合は、新たなコンテンツを配信対象から除外する。一方、情報配信装置10は、配信済みのコンテンツから抽出された特徴情報と、新たなコンテンツから抽出された特徴情報とが類似しない場合は、新たなコンテンツを配信対象とする。
In addition, the
この結果、情報配信装置10は、配信済みのコンテンツの特徴情報とは類似しない特徴情報のコンテンツを配信できる。このため、情報配信装置10は、端末装置100がストリーム表示を行う場合にも、配信済みのコンテンツとは類似しないコンテンツを配信することができる。
As a result, the
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 As described above, some of the embodiments of the present application have been described in detail based on the drawings. It is possible to implement the present invention in other forms with improvements.
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、配信部は、配信手段や配信回路に読み替えることができる。 Moreover, the above-mentioned “section (module, unit)” can be read as “means”, “circuit”, and the like. For example, the distribution unit can be read as distribution means or a distribution circuit.
10 情報配信装置
11 通信部
12 記憶部
13 制御部
14 接続係数データベース
15 コンテンツデータベース
16 内容情報データベース
17 特徴情報データベース
20 受付部
30 学習部
31 内容情報抽出部
32 特徴情報抽出部
33 接続係数修正部
40 配信部
41 判定部
42 決定部
DESCRIPTION OF
Claims (11)
複数のコンテンツから抽出された特徴情報が類似するか否かを判定する判定部と、
前記特徴情報が類似するか否かに基づいて、前記複数のコンテンツのうち配信対象とするコンテンツを決定する決定部と
を有することを特徴とする判定装置。 By generating multi-dimensional information as content information indicating the content of the content from the multiple pieces of information included in the content, and when the content information is input, the number of dimensions of the content information is compressed so that the content of the content is A learning device having a function of extracting feature information indicating features and restoring the content information input by expanding the number of dimensions of the feature information, the input content information and the restored content The similarity between feature information extracted from a plurality of contents belonging to the same category and the same information is larger than the similarity between feature information extracted from a plurality of contents belonging to different categories By using the learning device in which learning is performed, the content indicated by the content information is abstracted, thereby indicating the characteristics of the content. An extraction unit to extract the information,
A determination unit for determining whether or not feature information extracted from a plurality of contents is similar;
And a determination unit that determines content to be distributed among the plurality of contents based on whether the feature information is similar.
ことを特徴とする請求項1に記載の判定装置。 The extraction unit generates the content information from the distributed representation or local representation of the information included in the content, and extracts the feature information indicating the characteristics of the content by abstracting the generated content information The determination apparatus according to claim 1, wherein:
ことを特徴とする請求項2に記載の判定装置。 The extraction unit generates, as the content information, information of a plurality of dimensions, and compresses the number of dimensions of the content information to extract feature information indicating the characteristics of the content, thereby using the learning device. The determination apparatus according to claim 2, wherein feature information of each of a plurality of contents is extracted.
ことを特徴とする請求項3に記載の判定装置。 The extraction unit, as the learning device, extracts feature information by compressing the dimensionality of the content information of the content, restores original content information from the extracted feature information, and extracts from the plurality of similar content The determination apparatus according to claim 3, wherein a learning device is used in which learning is performed such that each feature information is similar and each feature information extracted from a plurality of dissimilar contents is not similar.
ことを特徴とする請求項4に記載の判定装置。 The extraction unit, as the learning device, performs learning so that the inner product of each feature information extracted from a plurality of similar contents is larger than the inner product of each feature information extracted from a plurality of similar contents. The determination device according to claim 4, wherein a learning device is used.
ことを特徴とする請求項1〜5のうちいずれか1つに記載の判定装置。 When the determination unit determines that the feature information extracted from the two contents is similar, determines that one of the contents is a distribution target and the feature information extracted from the two contents is not similar The determination apparatus according to any one of claims 1 to 5, wherein both contents are to be distributed.
入力された内容情報と復元された内容情報とが同じとなり、かつ、同一カテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度が、異なるカテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度よりも大きくなるように、前記学習器が有する各ノード間の接続係数を修正する修正部と
を有することを特徴とする学習装置。 A learning device in which a plurality of nodes that output operation results for input data are connected in multiple layers, and when content information indicating the content of the input content is input, by compressing the number of dimensions of the content information A plurality of similar contents as teacher data of a learning device having a function of extracting feature information indicating features of content contents and restoring the content information input by expanding the number of dimensions of the feature information And a reception unit for receiving a plurality of dissimilar contents,
Feature information extracted from a plurality of contents belonging to different categories in which the input content information is the same as the restored content information and the similarity between the feature information extracted from the plurality of contents belonging to the same category A learning device comprising: a correction unit that corrects a connection coefficient between the nodes included in the learning device so that the degree of similarity is greater than each other.
ことを特徴とする請求項7に記載の学習装置。 The correction unit includes a set similarity, cosine of each feature information extracted from a plurality of contents whose set similarity, cosine similarity, or inner product value of each feature information extracted from a plurality of similar contents is not similar. The learning apparatus according to claim 7, wherein a connection coefficient between the nodes included in the learning device is corrected so as to be larger than a similarity or an inner product value.
ことを特徴とする請求項7または8に記載の学習装置。 The said correction | amendment part makes the information output from the intermediate | middle layer from which the dimension number of the information output among the layers which the said learning device has the minimum becomes the said feature information. Learning device.
コンテンツに含まれる複数の情報から当該コンテンツの内容を示す内容情報として複数次元の情報を生成し、当該内容情報が入力された場合に当該内容情報の次元数を圧縮することで当該コンテンツの内容が有する特徴を示す特徴情報を抽出するとともに、当該特徴情報の次元数を拡張することで入力された前記内容情報を復元する機能を有する学習器であって、入力された内容情報と復元された内容情報とが同じとなり、かつ、同一カテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度が、異なるカテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度よりも大きくなるように学習が行われた学習器を用いて、当該内容情報が示す内容を抽象化することで、前記コンテンツの内容が有する特徴を示す特徴情報を抽出する抽出工程と、
複数のコンテンツから抽出された特徴情報が類似するか否かを判定する判定工程と、
前記特徴情報が類似するか否かに基づいて、前記複数のコンテンツのうち配信対象とするコンテンツを決定する決定工程と
を含むことを特徴とする判定方法。 A determination method executed by a determination device,
By generating multi-dimensional information as content information indicating the content of the content from the multiple pieces of information included in the content, and when the content information is input, the number of dimensions of the content information is compressed so that the content of the content is A learning device having a function of extracting feature information indicating features and restoring the content information input by expanding the number of dimensions of the feature information, the input content information and the restored content The similarity between feature information extracted from a plurality of contents belonging to the same category and the same information is larger than the similarity between feature information extracted from a plurality of contents belonging to different categories By using the learning device in which learning is performed, the content indicated by the content information is abstracted, thereby indicating the characteristics of the content. An extraction step of extracting information,
A determination step of determining whether or not feature information extracted from a plurality of contents is similar;
And a determining step of determining content to be distributed among the plurality of contents based on whether the feature information is similar.
コンテンツに含まれる複数の情報から当該コンテンツの内容を示す内容情報として複数次元の情報を生成し、当該内容情報が入力された場合に当該内容情報の次元数を圧縮することで当該コンテンツの内容が有する特徴を示す特徴情報を抽出するとともに、当該特徴情報の次元数を拡張することで入力された前記内容情報を復元する機能を有する学習器であって、入力された内容情報と復元された内容情報とが同じとなり、かつ、同一カテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度が、異なるカテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度よりも大きくなるように学習が行われた学習器を用いて、当該内容情報が示す内容を抽象化することで、前記コンテンツの内容が有する特徴を示す特徴情報を抽出する抽出手順と、
複数のコンテンツから抽出された特徴情報が類似するか否かを判定する判定手順と、
前記特徴情報が類似するか否かに基づいて、前記複数のコンテンツのうち配信対象とするコンテンツを決定する決定手順と
を実行させることを特徴とする判定プログラム。 On the computer,
By generating multi-dimensional information as content information indicating the content of the content from the multiple pieces of information included in the content, and when the content information is input, the number of dimensions of the content information is compressed so that the content of the content is A learning device having a function of extracting feature information indicating features and restoring the content information input by expanding the number of dimensions of the feature information, the input content information and the restored content The similarity between feature information extracted from a plurality of contents belonging to the same category and the same information is larger than the similarity between feature information extracted from a plurality of contents belonging to different categories By using the learning device in which learning is performed, the content indicated by the content information is abstracted, thereby indicating the characteristics of the content. And the extraction procedure to extract the information,
A determination procedure for determining whether or not feature information extracted from a plurality of contents is similar;
A determination program for determining a content to be distributed among the plurality of contents based on whether the feature information is similar.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017113031A JP6522050B2 (en) | 2017-06-07 | 2017-06-07 | Determination device, learning device, determination method and determination program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017113031A JP6522050B2 (en) | 2017-06-07 | 2017-06-07 | Determination device, learning device, determination method and determination program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015176169A Division JP6261547B2 (en) | 2015-09-07 | 2015-09-07 | Determination device, determination method, and determination program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017201535A true JP2017201535A (en) | 2017-11-09 |
JP6522050B2 JP6522050B2 (en) | 2019-05-29 |
Family
ID=60264593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017113031A Active JP6522050B2 (en) | 2017-06-07 | 2017-06-07 | Determination device, learning device, determination method and determination program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6522050B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144639A (en) * | 2018-02-16 | 2019-08-29 | 株式会社日立製作所 | Method for training model outputting vector indicating tag set corresponding to image |
JP2020115289A (en) * | 2019-01-17 | 2020-07-30 | 富士通株式会社 | Learning method, learning program, and learning device |
US11145062B2 (en) | 2019-03-19 | 2021-10-12 | Fujitsu Limited | Estimation apparatus, estimation method, and non-transitory computer-readable storage medium for storing estimation program |
WO2023166745A1 (en) * | 2022-03-04 | 2023-09-07 | 日本電気株式会社 | Learning device, learning method, and recording medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012164049A (en) * | 2011-02-04 | 2012-08-30 | Nippon Telegr & Teleph Corp <Ntt> | Document retrieval device, document retrieval method and document retrieval program |
US20120330955A1 (en) * | 2011-06-27 | 2012-12-27 | Nec Corporation | Document similarity calculation device |
-
2017
- 2017-06-07 JP JP2017113031A patent/JP6522050B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012164049A (en) * | 2011-02-04 | 2012-08-30 | Nippon Telegr & Teleph Corp <Ntt> | Document retrieval device, document retrieval method and document retrieval program |
US20120330955A1 (en) * | 2011-06-27 | 2012-12-27 | Nec Corporation | Document similarity calculation device |
JP2013008255A (en) * | 2011-06-27 | 2013-01-10 | Nec Corp | Document similarity calculation device |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144639A (en) * | 2018-02-16 | 2019-08-29 | 株式会社日立製作所 | Method for training model outputting vector indicating tag set corresponding to image |
JP2020115289A (en) * | 2019-01-17 | 2020-07-30 | 富士通株式会社 | Learning method, learning program, and learning device |
JP7163786B2 (en) | 2019-01-17 | 2022-11-01 | 富士通株式会社 | LEARNING METHOD, LEARNING PROGRAM AND LEARNING DEVICE |
US11145062B2 (en) | 2019-03-19 | 2021-10-12 | Fujitsu Limited | Estimation apparatus, estimation method, and non-transitory computer-readable storage medium for storing estimation program |
WO2023166745A1 (en) * | 2022-03-04 | 2023-09-07 | 日本電気株式会社 | Learning device, learning method, and recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP6522050B2 (en) | 2019-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6261547B2 (en) | Determination device, determination method, and determination program | |
US11853354B2 (en) | Override of automatically shared meta-data of media | |
JP7154334B2 (en) | Using machine learning to recommend livestream content | |
US11601703B2 (en) | Video recommendation based on video co-occurrence statistics | |
US10635952B2 (en) | Cognitive analysis and classification of apparel images | |
Cufoglu | User profiling-a short review | |
US10685375B2 (en) | Digital media environment for analysis of components of content in a digital marketing campaign | |
US20160188661A1 (en) | Multilingual business intelligence for actions | |
An et al. | Automatic generation of personas using youtube social media data | |
JP6522050B2 (en) | Determination device, learning device, determination method and determination program | |
JP6767342B2 (en) | Search device, search method and search program | |
JP6059314B1 (en) | Estimation apparatus, estimation method, and estimation program | |
Dezfouli et al. | Deep neural review text interaction for recommendation systems | |
US20180025364A1 (en) | Information processing apparatus, information processing method, and program | |
WO2023231542A1 (en) | Representation information determination method and apparatus, and device and storage medium | |
CN106447419A (en) | Visitor identification based on feature selection | |
Monechi et al. | Significance and popularity in music production | |
US11681737B2 (en) | Electronic media retrieval | |
US20200183994A1 (en) | Online networking platform for personal and professional relationship management | |
Su et al. | Link prediction in recommender systems with confidence measures | |
Ma et al. | Image-mining: exploring the impact of video content on the success of crowdfunding | |
JP6692739B2 (en) | Extraction device, extraction method, and extraction program | |
JP6310529B1 (en) | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM | |
US20150170035A1 (en) | Real time personalization and categorization of entities | |
KR101985603B1 (en) | Recommendation method based on tripartite graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190326 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190423 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6522050 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |