JP2017201535A - Determination device, learning device, determination method, and determination program - Google Patents

Determination device, learning device, determination method, and determination program Download PDF

Info

Publication number
JP2017201535A
JP2017201535A JP2017113031A JP2017113031A JP2017201535A JP 2017201535 A JP2017201535 A JP 2017201535A JP 2017113031 A JP2017113031 A JP 2017113031A JP 2017113031 A JP2017113031 A JP 2017113031A JP 2017201535 A JP2017201535 A JP 2017201535A
Authority
JP
Japan
Prior art keywords
content
information
feature information
contents
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017113031A
Other languages
Japanese (ja)
Other versions
JP6522050B2 (en
Inventor
俊平 大倉
Shumpei Okura
俊平 大倉
一真 村尾
Kazuma Murao
一真 村尾
秀平 宇野
Shuhei Uno
秀平 宇野
真吾 星野
Shingo Hoshino
真吾 星野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017113031A priority Critical patent/JP6522050B2/en
Publication of JP2017201535A publication Critical patent/JP2017201535A/en
Application granted granted Critical
Publication of JP6522050B2 publication Critical patent/JP6522050B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a determination device capable of improving determination accuracy of similarities between contents, a learning device, a determination method, and a determination program.SOLUTION: A determination device includes: an extraction unit which extracts feature information of a content by abstracting content information using a learning unit so that input content information matches restored content information and the similarity between a plurality of feature information in the same category becomes larger than the similarity between a plurality of feature information in different categories; a determination unit which determines whether or not the feature information extracted from a plurality of contents is similar; and a decision unit which decides a content to be distributed on the basis of whether or not the feature information is similar. The learning unit has functions to generate content information from a plurality of information included in the content, extract feature information of the content by compressing the number of dimensions of the content information when the content information is input, and restore the input content information by expanding the number of dimensions of the feature information.SELECTED DRAWING: Figure 1

Description

本発明は、判定装置、学習装置、判定方法及び判定プログラムに関する。   The present invention relates to a determination device, a learning device, a determination method, and a determination program.

近年、インターネットを介して、ニュースや広告等のコンテンツを配信する技術が知られている。このようなコンテンツを配信する場合は、コンテンツ同士が類似するか否かを判定し、類似するコンテンツの配信を防ぐデデュープが行われる場合がある。例えば、コンテンツに含まれる単語のtf(Term Frequency)ベクトルやKey-Value形式の値を算出し、算出したベクトルや値の比較結果に基づいてコンテンツ同士の類似度を判定し、他のコンテンツと類似するコンテンツをデデュープの対象とする技術が知られている。   In recent years, techniques for distributing content such as news and advertisements via the Internet are known. When distributing such content, it may be determined whether or not the content is similar, and deduplication may be performed to prevent the distribution of similar content. For example, a tf (Term Frequency) vector of a word included in the content or a value in a key-value format is calculated, the similarity between the content is determined based on the comparison result of the calculated vector and value, and similar to other content A technique for deduplicating content to be reproduced is known.

特開平09−101990号公報JP 09-101990 A

しかしながら、上記の従来技術では、コンテンツ同士の類似度を適切に判定することができるとは限らないという問題がある。例えば、上記の従来技術では、コンテンツに含まれる単語のtfベクトルやKey-Value形式の値を比較する。このため、上記の従来技術では、類似する内容を異なる単語で表したコンテンツ同士をデデュープの対象から除外したり、異なる内容を同様の単語で表したコンテンツをデデュープの対象にする場合がある。   However, the above-described conventional technique has a problem that the similarity between contents cannot be appropriately determined. For example, in the above-described conventional technology, the tf vectors of the words included in the content and the values in the key-value format are compared. For this reason, in the above-described conventional technology, there are cases where contents expressing similar contents in different words are excluded from the object of deduplication, or contents expressing different contents in the same word are targeted for deduplication.

本願は、上記に鑑みてなされたものであって、コンテンツ同士の類似度の判定精度を向上させることを目的とする。   The present application has been made in view of the above, and an object thereof is to improve the accuracy of determining the similarity between contents.

本願に係る判定装置は、コンテンツに含まれる複数の情報から当該コンテンツの内容を示す内容情報として複数次元の情報を生成し、当該内容情報が入力された場合に当該内容情報の次元数を圧縮することで当該コンテンツの内容が有する特徴を示す特徴情報を抽出するとともに、当該特徴情報の次元数を拡張することで入力された前記内容情報を復元する機能を有する学習器であって、入力された内容情報と復元された内容情報とが同じとなり、かつ、同一カテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度が、異なるカテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度よりも大きくなるように学習が行われた学習器を用いて、当該内容情報が示す内容を抽象化することで、前記コンテンツの内容が有する特徴を示す特徴情報を抽出する抽出部と、複数のコンテンツから抽出された特徴情報が類似するか否かを判定する判定部と、前記特徴情報が類似するか否かに基づいて、前記複数のコンテンツのうち配信対象とするコンテンツを決定する決定部とを有することを特徴とする。   The determination apparatus according to the present application generates multi-dimensional information as content information indicating the content of the content from the plurality of information included in the content, and compresses the number of dimensions of the content information when the content information is input This is a learning device having a function of extracting the feature information indicating the feature of the content of the content and restoring the content information input by expanding the number of dimensions of the feature information. The similarity between feature information extracted from multiple contents belonging to different categories is similar to the content information extracted from multiple contents belonging to the same category. By using a learning device that has been trained so as to be larger than the degree, the content indicated by the content information is abstracted, so that Based on whether the feature information is similar, an extraction unit that extracts feature information indicating the characteristics of the feature information, a determination unit that determines whether or not feature information extracted from a plurality of contents is similar, and And a determination unit that determines a content to be distributed among a plurality of contents.

実施形態の一態様によれば、コンテンツ同士の類似度の判定精度を向上させることができるという効果を奏する。   According to one aspect of the embodiment, there is an effect that it is possible to improve the accuracy of determining the similarity between contents.

図1は、実施形態に係る情報配信処理が実行する処理の一例を示す図である。FIG. 1 is a diagram illustrating an example of processing executed by the information distribution processing according to the embodiment. 図2は、実施形態に係る情報配信装置がコンテンツの内容が有する特徴を比較する処理を説明する図である。FIG. 2 is a diagram illustrating processing in which the information distribution apparatus according to the embodiment compares the characteristics of the content. 図3は、情報配信装置が使用する学習器の一例を説明する図である。FIG. 3 is a diagram illustrating an example of a learning device used by the information distribution apparatus. 図4は、実施形態に係る情報配信装置が有する機能構成の一例を示す図である。FIG. 4 is a diagram illustrating an example of a functional configuration of the information distribution apparatus according to the embodiment. 図5は、実施形態に係る接続係数データベースに登録される情報の一例を示す図である。FIG. 5 is a diagram illustrating an example of information registered in the connection coefficient database according to the embodiment. 図6は、実施形態にかかるコンテンツデータベースに登録される情報の一例を示す図である。FIG. 6 is a diagram illustrating an example of information registered in the content database according to the embodiment. 図7は、実施形態にかかる内容情報データベースに登録される情報の一例を示す図である。FIG. 7 is a diagram illustrating an example of information registered in the content information database according to the embodiment. 図8は、実施形態にかかる特徴情報データベースに登録される情報の一例を示す図である。FIG. 8 is a diagram illustrating an example of information registered in the feature information database according to the embodiment. 図9は、実施形態にかかる情報配信装置が実行する学習処理の一例を説明する図である。FIG. 9 is a diagram illustrating an example of a learning process executed by the information distribution apparatus according to the embodiment. 図10は、実施形態にかかる情報配信装置による判定結果の一例を示す図である。FIG. 10 is a diagram illustrating an example of a determination result by the information distribution apparatus according to the embodiment. 図11は、実施形態に係る情報配信装置による学習処理の一例を示すフローチャートである。FIG. 11 is a flowchart illustrating an example of learning processing performed by the information distribution apparatus according to the embodiment. 図12は、実施形態に係る情報配信装置による情報配信処理の一例を示すフローチャートである。FIG. 12 is a flowchart illustrating an example of information distribution processing by the information distribution apparatus according to the embodiment. 図13は、実施形態にかかる情報配信装置がコンテンツのサブカテゴリを特定する処理の一例を説明するための図である。FIG. 13 is a diagram for explaining an example of processing in which the information distribution apparatus according to the embodiment specifies a content subcategory. 図14は、実施形態に係る情報配信装置10が実行するストリームデデュープ処理の一例を示す図である。FIG. 14 is a diagram illustrating an example of a stream deduplication process executed by the information distribution apparatus 10 according to the embodiment. 図15は、情報配信装置の機能を実現するコンピュータのハードウェア構成の一例を示す図である。FIG. 15 is a diagram illustrating an example of a hardware configuration of a computer that realizes the function of the information distribution apparatus.

以下に、本願に係る判定装置、学習装置、判定方法及び判定プログラムを実施するための形態(以下、「実施形態」と呼ぶ。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る判定装置、学習装置、判定方法及び判定プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。   Hereinafter, a mode for carrying out a determination device, a learning device, a determination method, and a determination program according to the present application (hereinafter referred to as “embodiment”) will be described in detail with reference to the drawings. Note that the determination device, the learning device, the determination method, and the determination program according to the present application are not limited to the embodiment. In the following embodiments, the same portions are denoted by the same reference numerals, and redundant description is omitted.

〔1.情報配信装置の一例〕
まず、図1を用いて、判定装置、学習装置、および情報配信装置の一例である情報配信装置10の一例について説明する。図1は、実施形態に係る情報配信処理が実行する処理の一例を示す図である。図1では、情報配信装置10が実行する処理の一例として、学習器Leの学習を行う学習処理の一例と、学習器Leを用いてコンテンツを利用者U01が使用する端末装置100へと配信する情報配信処理の一例とについて説明する。
[1. Example of information distribution device)
First, an example of an information distribution device 10 that is an example of a determination device, a learning device, and an information distribution device will be described with reference to FIG. FIG. 1 is a diagram illustrating an example of processing executed by the information distribution processing according to the embodiment. In FIG. 1, as an example of processing executed by the information distribution device 10, an example of learning processing for learning the learning device Le, and content is distributed to the terminal device 100 used by the user U01 using the learning device Le. An example of information distribution processing will be described.

ここで、情報配信装置10が配信するコンテンツとは、所定のクライアントが情報配信装置10に登録するコンテンツであり、例えば、ニュースやコラム等のテキストを含むコンテンツである。なお、以下の説明では、情報配信装置10がテキストを含むコンテンツの配信を行う例について説明するが、実施形態はこれに限定されるものではない。すなわち、以下に説明する情報配信処理は、例えば、画像や動画像等のテキストを含まないコンテンツや営利若しくは非営利の広告に関するコンテンツ、ゲーム、メール、ツイート、ブログの記事等、端末装置100に対して配信可能な任意のコンテンツに対して適用可能である。   Here, the content distributed by the information distribution device 10 is content registered by the predetermined client in the information distribution device 10, for example, content including text such as news and columns. In the following description, an example in which the information distribution apparatus 10 distributes content including text will be described, but the embodiment is not limited to this. That is, the information distribution processing described below is performed on the terminal device 100 such as content not including text such as images and moving images, content related to commercial or non-profit advertisements, games, emails, tweets, blog articles, and the like. And can be applied to any content that can be distributed.

図1に示すように、情報配信装置10は、図示しないネットワーク(例えば、インターネット)を介して、利用者U01が使用する端末装置100と、クライアントが使用するクライアント端末200と通信可能に接続される。なお、情報配信装置10がコンテンツを配信する端末装置100や、クライアント端末200の数は、図1に示した例に限るものではない。すなわち、情報配信装置10は、任意の数の端末装置100およびクライアント端末200と通信可能である。   As shown in FIG. 1, the information distribution apparatus 10 is communicably connected to a terminal apparatus 100 used by a user U01 and a client terminal 200 used by a client via a network (not shown) (for example, the Internet). . The number of terminal devices 100 and client terminals 200 to which the information distribution device 10 distributes content is not limited to the example illustrated in FIG. That is, the information distribution device 10 can communicate with an arbitrary number of terminal devices 100 and client terminals 200.

端末装置100は、利用者によって利用される情報処理装置であり、ユーザがニュースやコラム等のコンテンツを閲覧するために利用される。具体例を挙げると、端末装置100は、スマートフォンやタブレット端末やPDA(Personal Digital Assistant)等の移動端末や、デスクトップ型PC(Personal Computer)や、ノート型PC等である。   The terminal device 100 is an information processing device used by a user, and is used by a user to browse content such as news and columns. As a specific example, the terminal device 100 is a mobile terminal such as a smartphone, a tablet terminal, or a PDA (Personal Digital Assistant), a desktop PC (Personal Computer), a notebook PC, or the like.

クライアント端末200は、配信対象となるコンテンツを情報配信装置10に登録する端末装置である。例えば、クライアント端末200は、コンテンツの生成、編集、配信等を行うクライアントが使用する情報処理装置であり、PDA等の移動端末や、PC、サーバ等である。   The client terminal 200 is a terminal device that registers content to be distributed in the information distribution device 10. For example, the client terminal 200 is an information processing apparatus used by a client that generates, edits, and distributes content, and is a mobile terminal such as a PDA, a PC, a server, or the like.

情報配信装置10は、クライアント端末200から登録されたコンテンツを記憶し、端末装置100からコンテンツの配信要求を受付けると、記憶したコンテンツを端末装置100に対して配信する情報処理装置である。例えば、情報配信装置10は、PC、サーバ、クラウドシステム等の物理的若しくは仮想的な情報処理装置により実現される。   The information distribution device 10 is an information processing device that stores content registered from the client terminal 200 and distributes the stored content to the terminal device 100 when a content distribution request is received from the terminal device 100. For example, the information distribution apparatus 10 is realized by a physical or virtual information processing apparatus such as a PC, a server, or a cloud system.

また、同一または類似する内容のコンテンツを配信した場合、各コンテンツが選択若しくは閲覧される可能性が低下する。このため、情報配信装置10は、端末装置100に配信済みのコンテンツ同一又は類似する内容のコンテンツや、同時に配信される複数のコンテンツのうち、他のコンテンツと同一又は類似する内容のコンテンツを配信対象から除外するデデュープを行う。   In addition, when content having the same or similar content is distributed, the possibility that each content is selected or browsed decreases. For this reason, the information distribution device 10 distributes content having the same or similar content distributed to the terminal device 100, or content having the same or similar content to other content among a plurality of content distributed simultaneously. Deduplication is excluded.

〔1−1.情報配信処理〕
ここで、従来技術では、配信対象となるコンテンツに含まれる単語のtfベクトルや、コンテンツのプロパティに基づくKey-Value形式の値を算出し、算出した値が類似するか否かに基づいて、コンテンツが他のコンテンツと類似するか否かを判定していた。しかしながら、このような技術では、コンテンツ同士の類似度を適切に判定できない場合がある。
[1-1. Information distribution process)
Here, in the prior art, a value in a key-value format based on a tf vector of a word included in content to be distributed or a property of the content is calculated, and the content is determined based on whether the calculated values are similar. Was determined to be similar to other content. However, with such a technique, there is a case where the similarity between contents cannot be appropriately determined.

例えば、同一人物を本名で示す場合と通名や芸名等で示す場合とでは、テキスト上の表記が相違する。このため、同一人物について説明する複数のコンテンツであっても、人物の表記が異なる場合には、単語のtfベクトルや、コンテンツのプロパティに基づくKey-Value形式の値が異なる結果、非類似のコンテンツであると判断される場合がある。この結果、従来技術では、同一若しくは類似する複数のコンテンツを配信対象にしてしまうお場合がある。   For example, the notation on the text is different between the case where the same person is indicated by a real name and the case where the same person is indicated by a common name or a stage name. For this reason, even if there are a plurality of contents explaining the same person, if the notation of the person is different, the tf vector of the word and the value of the key-value format based on the property of the contents are different, resulting in dissimilar contents May be determined. As a result, in the prior art, there are cases where a plurality of identical or similar contents are targeted for distribution.

また、内容が類似しない複数のコンテンツであっても、使用する単語が同一若しくは類似する場合には、テキスト上の表記が類似する。このため、内容が異なる複数のコンテンツであっても、表記が類似する場合には、単語のtfベクトルや、コンテンツのプロパティに基づくKey-Value形式の値が類似する結果、類似のコンテンツであると判断される場合がある。この結果、従来技術では、内容が類似しない複数のコンテンツをデデュープの対象にしてしまう場合がある。   In addition, even in the case of a plurality of contents whose contents are not similar, if the words used are the same or similar, the descriptions on the text are similar. For this reason, even in the case of a plurality of contents having different contents, if the notations are similar, the result is that the tf vector of the word and the value of the key-value format based on the property of the contents are similar, and the similar contents May be judged. As a result, in the prior art, there are cases where a plurality of contents whose contents are not similar are targeted for deduplication.

そこで、情報配信装置10は、以下の情報配信処理を実行する。まず、情報配信装置10は、コンテンツに含まれる複数の情報からコンテンツの内容を示す内容情報を生成し、内容情報が示す内容を抽象化することで、コンテンツの内容が有する特徴を示す特徴情報を抽出する。そして、情報配信装置10は、複数のコンテンツから抽出された特徴情報が類似するか否かを判定し、特徴情報が類似するか否かに基づいて、複数のコンテンツのうち配信対象とするコンテンツを決定する。   Therefore, the information distribution apparatus 10 executes the following information distribution process. First, the information distribution apparatus 10 generates content information indicating the content content from a plurality of pieces of information included in the content, and abstracts the content indicated by the content information, thereby obtaining feature information indicating the characteristics of the content content. Extract. Then, the information distribution device 10 determines whether or not the feature information extracted from the plurality of contents is similar. Based on whether or not the feature information is similar, the information distribution device 10 selects the content to be distributed among the plurality of contents. decide.

例えば、情報配信装置10は、コンテンツがテキストからなるコンテンツである場合、形態素解析等の技術を用いて、コンテンツに含まれる単語を抽出し、tf−idf(Term Frequency - Inverse Document Frequency)等を用いて、抽出した各単語を数値に置き換えることで、すなわち、単語の局所表現を用いて、コンテンツの内容を示す複数次元の数値に置き換えた情報を内容情報として生成する。なお、情報配信装置10は、各単語を示すベクトルを用いて、すなわち、各単語の分散表現を用いて、コンテンツの内容を複数次元の数値に置き換えた情報を、コンテンツの内容情報として生成してもよい。   For example, when the content is content composed of text, the information distribution apparatus 10 extracts a word included in the content using a technique such as morphological analysis and uses tf-idf (Term Frequency-Inverse Document Frequency) or the like. Thus, by replacing each extracted word with a numerical value, that is, using the local representation of the word, information replaced with a multi-dimensional numerical value indicating the content content is generated as content information. Note that the information distribution apparatus 10 generates information that replaces the content content with a multi-dimensional numerical value as content content information using a vector indicating each word, that is, using a distributed representation of each word. Also good.

続いて、情報配信装置10は、内容情報が有する次元数を圧縮することで、内容情報が示す内容を抽象化し、コンテンツの内容を示す特徴情報を抽出する。そして、情報配信装置10は、抽出した特徴情報を比較し、2つのコンテンツから抽出された特徴情報が類似すると判定された場合は、いずれか一方のコンテンツを配信対象とし、2つのコンテンツから抽出された特徴情報が類似しないと判定した場合は、両方のコンテンツを配信対象とする。   Subsequently, the information distribution apparatus 10 abstracts the content indicated by the content information by compressing the dimensionality of the content information, and extracts feature information indicating the content content. Then, the information distribution device 10 compares the extracted feature information, and if it is determined that the feature information extracted from the two contents is similar, either one of the contents is targeted for distribution and is extracted from the two contents. If it is determined that the feature information is not similar, both contents are targeted for distribution.

例えば、図2は、実施形態に係る情報配信装置がコンテンツの内容が有する特徴を比較する処理を説明する図である。なお、図2に示す例では、コンテンツAの内容とコンテンツBの内容とか類似するか否か比較する処理の一例について記載した。例えば、従来の技術では、内容情報同士を比較することで、コンテンツAの内容とコンテンツBの内容とか類似するか否かを比較する。すなわち、従来の技術では、図2中(A)に示すように、表層空間上でコンテンツAおよびコンテンツBが類似するか否かを判定する。   For example, FIG. 2 is a diagram illustrating a process in which the information distribution apparatus according to the embodiment compares the characteristics of the content. In the example illustrated in FIG. 2, an example of the process of comparing whether the content A and the content B are similar is described. For example, in the conventional technique, the contents information is compared to compare whether the contents A and B are similar or not. That is, in the conventional technique, as shown in FIG. 2A, it is determined whether or not the content A and the content B are similar in the surface layer space.

しかしながら、図2中(B)に示すように、コンテンツAから抽出された内容情報Aには、「野球」、「開幕」、「サッカー」等といったコンテンツAに含まれる単語を示す複数次元の数値が含まれる。一方、図2中(C)に示すように、コンテンツBから抽出された内容情報Bには、「野球」、「開幕」、「投手」等といったコンテンツBに含まれる単語を示す複数次元の数値が含まれる。このため、表層空間上では、コンテンツAの表記と、コンテンツBの表記とが類似する場合は、内容情報Aと内容情報Bとが類似することとなる。   However, as shown in FIG. 2B, the content information A extracted from the content A includes multi-dimensional numerical values indicating words included in the content A, such as “baseball”, “opening”, “soccer”, etc. Is included. On the other hand, as shown in FIG. 2C, the content information B extracted from the content B includes multi-dimensional numerical values indicating words included in the content B such as “baseball”, “opening”, “pitcher”, and the like. Is included. For this reason, on the surface layer space, when the notation of the content A and the notation of the content B are similar, the content information A and the content information B are similar.

この結果、従来の技術では、図2中(D)に示すように、コンテンツAの内容とコンテンツBの内容とが相違しても、コンテンツAの表記とコンテンツBの表記とが類似する場合には、コンテンツAの内容とコンテンツBの内容とが類似すると判定してしまう。また、従来の技術では、コンテンツAの内容とコンテンツBの内容とが類似しても、コンテンツAの表記とコンテンツBの表記とが相違する場合には、コンテンツAの内容とコンテンツBの内容とが相違すると判定してしまう。このように、表層空間上でコンテンツAおよびコンテンツBが類似するか否かを判定した場合には、図2中(E)に示すように、判定精度の低下を招いてしまう。   As a result, in the conventional technique, as shown in FIG. 2D, even when the contents A and B are different, the notation of the contents A and the notation of the contents B are similar. Determines that the contents A and B are similar. In the conventional technique, even if the contents A and B are similar, if the contents A and B are different, the contents A and B are Are determined to be different. As described above, when it is determined whether or not the content A and the content B are similar in the surface layer space, the determination accuracy is lowered as shown in FIG.

一方、情報配信装置10は、図2中(F)に示すように、特徴空間上でコンテンツAの内容とコンテンツBの内容とが類似するか否かを判定する。すなわち、情報配信装置10は、コンテンツAの内容が有する意味と、コンテンツBの内容が有する意味とが定義される意味空間上で、コンテンツAの内容とコンテンツBの内容とが類似するか否かを判定する。   On the other hand, as shown in FIG. 2F, the information distribution apparatus 10 determines whether the contents A and B are similar in the feature space. That is, the information distribution apparatus 10 determines whether the content of the content A and the content of the content B are similar in a semantic space in which the meaning of the content of the content A and the meaning of the content of the content B are defined. Determine.

具体的には、情報配信装置10は、図2中(G)に示すように、内容情報Aをさらに抽象化することで、コンテンツAの内容が有する特徴を示す特徴情報Aを抽出する。また、情報配信装置10は、図2中(H)に示すように、内容情報Bをさらに抽象化することで、コンテンツBの内容が有する特徴を示す特徴情報Bを抽出する。すなわち、情報配信装置10は、コンテンツAやコンテンツBの記事素性を抽出する。   Specifically, as illustrated in FIG. 2G, the information distribution apparatus 10 further abstracts the content information A, thereby extracting feature information A indicating the characteristics of the content A. Further, as shown in (H) of FIG. 2, the information distribution apparatus 10 further abstracts the content information B, thereby extracting the feature information B indicating the characteristics of the content B. That is, the information distribution apparatus 10 extracts the article features of the content A and the content B.

ここで、抽象化が適切に行われた場合には、特徴情報Aおよび特徴情報Bは、元のコンテンツAおよびコンテンツBの特徴、すなわち内容を示していると考えられる。このため、図2中(I)に示すように、特徴情報Aと特徴情報Bとが類似する場合には、コンテンツAおよびコンテンツBの特徴、すなわち内容が類似すると考えられる。また、図2中(I)に示すように、特徴情報Aと特徴情報Bとが相違する場合には、コンテンツAおよびコンテンツBの特徴、すなわち内容が相違すると考えられる。   Here, when the abstraction is appropriately performed, the feature information A and the feature information B are considered to indicate the features, that is, the contents of the original content A and the content B. Therefore, as shown in FIG. 2I, when the feature information A and the feature information B are similar, it is considered that the features, that is, the contents of the content A and the content B are similar. In addition, as shown in (I) of FIG. 2, when the feature information A and the feature information B are different, it is considered that the features, that is, the contents of the content A and the content B are different.

そこで、情報配信装置10は、特徴情報Aおよび特徴情報Bの比較結果に基づいて、コンテンツAの内容とコンテンツBの内容とが類似するか否かを判定する。このように、情報配信装置10は、コンテンツの内容情報が定義される表層空間ではなく、コンテンツの内容が有する特徴が定義される特徴空間(すなわち、コンテンツの内容が有する意味が定義される意味空間)上で、コンテンツが類似するか否かを判定する。   Therefore, the information distribution apparatus 10 determines whether the content A and the content B are similar based on the comparison result between the feature information A and the feature information B. As described above, the information distribution apparatus 10 is not a surface layer space in which content content information is defined, but a feature space in which the characteristics of the content content are defined (that is, a semantic space in which the meaning of the content content is defined). ) In the above, it is determined whether or not the contents are similar.

〔1−2.学習器について〕
ここで、情報配信装置10は、ニューラルネットワークやディープラーニング等、入力データに対する演算結果を出力する複数のノードを多層に接続し、入力された情報の次元数を圧縮することで、入力された情報が有する特徴を抽出する学習器Leを用いて、内容情報が示す内容の抽象化を行う。このような学習器Leは、入力された内容情報の次元数を圧縮して特徴情報を抽出し、抽出した特徴情報から元の内容情報を復元するように学習が行われたニューラルネットワークである。さらに、学習器Leは、類似する複数のコンテンツから抽出された各特徴情報が類似し、類似しない複数のコンテンツから抽出された各特徴情報が類似しないように学習が行われたニューラルネットワークである。
[1-2. About the learning device)
Here, the information distribution apparatus 10 connects a plurality of nodes that output calculation results for input data, such as a neural network and deep learning, in multiple layers, and compresses the number of dimensions of the input information, thereby inputting the input information. The content indicated by the content information is abstracted using the learning device Le that extracts the features of the. Such a learning device Le is a neural network in which learning is performed so as to extract feature information by compressing the dimensionality of input content information and restore the original content information from the extracted feature information. Further, the learning device Le is a neural network in which learning is performed such that each feature information extracted from a plurality of similar contents is similar and each feature information extracted from a plurality of dissimilar contents is not similar.

例えば、図3は、情報配信装置が使用する学習器の一例を説明する図である。例えば、情報配信装置10は、オートエンコーダといわれる学習器Leを生成する。このような学習器Leは、図3中(A)に示す入力層と、図3中(B)に示す中間層と、図3中(C)に示す出力層とを有する。ここで、入力層には、複数次元の情報の入力を受付ける複数のノードが配置され、入力される情報のうち、自ノードに対応する次元の値が入力される。また、中間層には、入力層よりも少ない数のノードが配置される。また、出力層には、入力層と同数のノードが配置される。   For example, FIG. 3 is a diagram illustrating an example of a learning device used by the information distribution apparatus. For example, the information distribution apparatus 10 generates a learning device Le called an auto encoder. Such a learning device Le has an input layer shown in FIG. 3A, an intermediate layer shown in FIG. 3B, and an output layer shown in FIG. Here, in the input layer, a plurality of nodes that accept input of information of a plurality of dimensions are arranged, and a value of a dimension corresponding to the own node is input among the input information. In the intermediate layer, fewer nodes than the input layer are arranged. Further, the same number of nodes as the input layer are arranged in the output layer.

このような学習器Leのノードは、隣接する層に含まれる全て(若しくは一部)のノードと接続されており、自ノードが含まれる層よりも入力層に近い層のノードからデータを受付けると、受付けたデータに基づいた出力データを生成し、自ノードが含まれる層よりも出力層に近い層のノードへと生成したデータを出力する。そして、各ノードが出力したデータは、データを伝達する経路に対して設定された接続係数を考慮した値に変換され、変換後の値のデータが接続先のノードへと伝達される。   Such nodes of the learning device Le are connected to all (or a part of) nodes included in the adjacent layers, and when data is received from nodes in the layer closer to the input layer than the layer including the own node. Then, output data based on the received data is generated, and the generated data is output to a node in a layer closer to the output layer than the layer including the own node. The data output by each node is converted into a value that takes into account the connection coefficient set for the data transmission path, and the converted value data is transmitted to the connection destination node.

例えば、図3中(D)に示すように、入力層のノードが出力したデータを「x」とし、図3中(E)に示すように、接続係数の値を「W」とすると、中間層のノードに入力されるデータは、「Wx」となる。この結果、ノードに対する入力xと出力yとの関係が「y=σ(x+b)」で表されるとすると、中間層のノードが出力するデータは、図3中(F)に示すように、「σ(Wx+b)」となり、図3中(G)で示すように、「W^T」で示される接続係数が設定された経路を介して、出力層のノードに伝達される。その後、出力層のノードは、中間層のノードから伝達されたデータに基づく値のデータを出力する。   For example, as shown in FIG. 3D, if the data output by the node in the input layer is “x” and the connection coefficient value is “W” as shown in FIG. The data input to the layer node is “Wx”. As a result, if the relationship between the input x and the output y to the node is expressed by “y = σ (x + b)”, the data output by the node in the intermediate layer is as shown in FIG. It becomes “σ (Wx + b)”, and as shown by (G) in FIG. 3, it is transmitted to the node of the output layer through the path in which the connection coefficient indicated by “W ^ T” is set. Thereafter, the node of the output layer outputs value data based on the data transmitted from the node of the intermediate layer.

ここで、中間層には、入力層よりも少ない数のノードが配置される。このため、中間層が出力するデータは、学習器Leに入力されるデータの次元数を圧縮したデータとなり、出力層が出力するデータは、次元数を圧縮したデータから再現されたデータであって、入力されたデータと同じ次元数を有するデータとなる。なお、中間層が出力する特徴情報は、例えば、コンテンツの内容の分散表現になりうる。   Here, fewer nodes than the input layer are arranged in the intermediate layer. For this reason, the data output from the intermediate layer is data obtained by compressing the number of dimensions of the data input to the learning device Le, and the data output from the output layer is data reproduced from the data obtained by compressing the number of dimensions. The data has the same number of dimensions as the input data. Note that the feature information output by the intermediate layer can be, for example, a distributed representation of the content content.

このため、図3中(H)に示すように、内容情報Aを入力した際に学習器Leが出力するする内容情報aが、内容情報Aと同一となるように接続係数Wを修正した場合、学習器Leは、内容情報Aを再現するために暗に必要な情報、すなわち内容情報Aが示す内容の特徴を中間層で抽出することとなる。このため、情報配信装置10は、図3中(I)に示すように、学習器Leに内容情報Aを入力した際の中間層の出力を、内容情報Aが示す内容、すなわち、コンテンツAの内容の特徴を示す特徴情報Aとして抽出する。   Therefore, as shown in FIG. 3H, when the connection coefficient W is corrected so that the content information a output from the learning device Le when the content information A is input is the same as the content information A The learning device Le extracts information that is implicitly necessary to reproduce the content information A, that is, features of the content indicated by the content information A in the intermediate layer. For this reason, as shown in (I) of FIG. 3, the information distribution apparatus 10 outputs the output of the intermediate layer when the content information A is input to the learning device Le, the content indicated by the content information A, that is, the content A Extracted as feature information A indicating the feature of the content.

また、学習器Leがコンテンツの内容情報から特徴を上手く抽出できたとしても、類似しないコンテンツ同士の特徴情報が類似するような抽出を行った場合には、デデュープに利用することができない。そこで、情報配信装置10は、以下の学習処理を行う。   Even if the learning device Le can successfully extract the features from the content information of the content, it cannot be used for de-duplication if the extraction is performed so that the feature information of similar content is similar. Therefore, the information distribution apparatus 10 performs the following learning process.

具体的には、情報配信装置10は、学習器Leに入力されたコンテンツの内容情報と再現された内容情報とが一致するように、学習器Leが有する各ノード間の接続係数を修正する。このような処理と同時に、情報配信装置10は、類似する複数のコンテンツの内容情報から学習部Leが抽出する各特徴情報が類似し、類似しない複数のコンテンツの内容情報から学習器Leが抽出する各特徴情報が類似しなくなるように、学習器Leが有する各ノード間の接続係数Wを修正する。この結果、学習器Leは、コンテンツの内容情報が有する特徴を適切に示す情報であって、コンテンツの類似性に応じた値の情報を特徴情報として抽出することができる。   Specifically, the information distribution apparatus 10 corrects the connection coefficient between the nodes included in the learning device Le so that the content information of the content input to the learning device Le matches the reproduced content information. At the same time as such processing, the information distribution apparatus 10 has the feature information extracted by the learning unit Le similar from the content information of a plurality of similar contents, and the learner Le extracts the content information of the plurality of similar contents. The connection coefficient W between the nodes included in the learning device Le is corrected so that the feature information is not similar. As a result, the learning device Le is information that appropriately indicates the characteristics of the content information of the content, and can extract information having a value corresponding to the similarity of the content as the feature information.

以下、図1を用いて、上述した処理を実行する情報配信装置10が実行する学習処理の一例と情報配信処理の一例とについて説明する。   Hereinafter, an example of a learning process and an example of an information distribution process executed by the information distribution apparatus 10 that executes the above-described process will be described with reference to FIG.

〔1−3.学習処理の一例〕
まず、情報配信装置10が実行する学習処理について説明する。例えば、情報配信装置10は、クライアント端末200からコンテンツと、コンテンツが属するカテゴリおよびサブカテゴリとの登録を受付ける(ステップS1)。かかる場合、情報配信装置10は、登録されたコンテンツと、カテゴリ及びサブカテゴリとを対応付けて記憶する。
[1-3. Example of learning process)
First, the learning process executed by the information distribution apparatus 10 will be described. For example, the information distribution apparatus 10 accepts registration of content, a category to which the content belongs, and a subcategory from the client terminal 200 (step S1). In such a case, the information distribution apparatus 10 stores the registered content, the category, and the subcategory in association with each other.

ここで、コンテンツが属するカテゴリとは、例えば、「スポーツ」、「芸能」、「ニュース」等といったコンテンツの内容が属する分野を示す情報である。また、サブカテゴリとは、例えば、「サッカー」、「野球」、「テニス」等といったあるカテゴリ(例えば、「スポーツ」)に属する分野をさらに細かく分類する情報である。なお、以下の説明では、同一若しくは類似するカテゴリを「類似カテゴリ」と記載し、類似しないカテゴリを「非類似カテゴリ」と記載する場合がある。   Here, the category to which the content belongs is information indicating a field to which the content content belongs, such as “sports”, “entertainment”, “news”, and the like. The subcategory is information for further classifying a field belonging to a certain category (for example, “sports”) such as “soccer”, “baseball”, “tennis”, and the like. In the following description, the same or similar category may be described as “similar category” and the dissimilar category may be described as “non-similar category”.

続いて、情報配信装置10は、記憶したコンテンツに含まれる複数の単語からコンテンツの内容情報を抽出し、抽出した内容情報が示す内容を抽象化することで、特徴情報を抽出する(ステップS2)。具体的には、情報配信装置10は、類似カテゴリに属するコンテンツAおよびコンテンツBを抽出するとともに、コンテンツBが属するカテゴリとは類似しないカテゴリに属するコンテンツCを抽出する。すなわち、情報配信装置10は、相互に類似する複数のコンテンツAおよびコンテンツBと、相互に類似しない複数のコンテンツBおよびコンテンツCを抽出する。   Subsequently, the information distribution apparatus 10 extracts the content information of the content from the plurality of words included in the stored content, and extracts the feature information by abstracting the content indicated by the extracted content information (step S2). . Specifically, the information distribution apparatus 10 extracts content A and content B belonging to a similar category, and extracts content C belonging to a category that is not similar to the category to which content B belongs. That is, the information distribution apparatus 10 extracts a plurality of contents A and contents B that are similar to each other and a plurality of contents B and contents C that are not similar to each other.

続いて、情報配信装置10は、図1中(A)に示すように、コンテンツAから内容情報Aを生成し、生成した内容情報Aを学習器Leに入力する。かかる場合、学習器Leは、内容情報Aの次元数を圧縮することで、コンテンツAの内容が有する特徴を示す特徴情報Aを抽出するとともに、特徴情報Aから復元した内容情報aを出力する。   Subsequently, the information distribution apparatus 10 generates the content information A from the content A and inputs the generated content information A to the learning device Le as shown in FIG. In such a case, the learning device Le compresses the number of dimensions of the content information A to extract the feature information A indicating the characteristics of the content A and outputs the content information a restored from the feature information A.

同様に、情報配信装置10は、図1中(B)に示すように、コンテンツBから内容情報Bを生成し、生成した内容情報Bを入力情報として学習器Leに入力することで、コンテンツBの内容が有する特徴を示す特徴情報Bを抽出し、特徴情報Bから復元された内容情報bを生成する。また、情報配信装置10は、図1中(C)に示すように、コンテンツCから内容情報Cを生成し、生成した内容情報Cを入力情報として学習器Leに入力することで、コンテンツCの内容が有する特徴を示す特徴情報Cを抽出し、特徴情報Cから復元された内容情報cを生成する。   Similarly, as shown in FIG. 1B, the information distribution apparatus 10 generates content information B from the content B, and inputs the generated content information B as input information to the learning device Le, so that the content B The feature information B indicating the features of the contents of the content information B is extracted, and the content information b restored from the feature information B is generated. Further, as shown in FIG. 1C, the information distribution apparatus 10 generates content information C from the content C, and inputs the generated content information C to the learning device Le as input information. Feature information C indicating the features of the content is extracted, and content information c restored from the feature information C is generated.

ここで、入力された情報の特徴を失わないように、学習器Leが入力情報の次元数を圧縮できるのであれば、学習器Leに入力された情報と、学習器Leが復元した情報とは、同一若しくは類似する情報になると考えられる。このため、学習器Leは、内容情報Aと内容情報a、内容情報Bと内容情報b、および、内容情報Cと内容情報cとが類似するように学習されるのが望ましい。   Here, if the learning device Le can compress the number of dimensions of the input information so as not to lose the characteristics of the input information, the information input to the learning device Le and the information restored by the learning device Le It is considered that the information is the same or similar. Therefore, it is desirable that the learning device Le learns so that the content information A and the content information a, the content information B and the content information b, and the content information C and the content information c are similar.

また、入力された情報の特徴が適切に抽出されるのであれば、類似する情報から抽出された特徴情報は類似し、類似しない情報から抽出された特徴情報は類似しないと考えられる。一方、類似カテゴリに属するコンテンツの内容は類似し、非類似カテゴリに属するコンテンツの内容は類似しないと考えられる。このため、学習器Leは、特徴情報Aと特徴情報Bとが類似し、特徴情報Bと特徴情報Cとが類似しないように学習されるのが望ましい。   Further, if the features of the input information are appropriately extracted, it is considered that feature information extracted from similar information is similar and feature information extracted from dissimilar information is not similar. On the other hand, it is considered that the contents belonging to the similar category are similar and the contents belonging to the dissimilar category are not similar. For this reason, it is desirable that the learning device Le learns so that the feature information A and the feature information B are similar and the feature information B and the feature information C are not similar.

ここで、特徴情報A〜Cは、複数次元の数値、すなわちベクトルとして表現される。このため、類似する特徴情報同士の内積の値は、類似しない特徴情報同士の内積の値よりも大きくなる。そこで、情報配信装置10は、図1中(D)に示す制約条件を満たすように、学習器Leの接続係数Wを修正する(ステップS3)。すなわち、情報配信装置10は、内容情報Aと内容情報a、内容情報Bと内容情報b、および内容情報Cと内容情報cが同一となり、かつ、特徴情報Aと特徴情報Bの内積が、特徴情報Bと特徴情報Cとの内積よりも大きくなるように、接続係数Wを修正する。   Here, the feature information A to C is expressed as a multi-dimensional numerical value, that is, a vector. For this reason, the inner product value between similar feature information is larger than the inner product value between dissimilar feature information. Therefore, the information distribution apparatus 10 corrects the connection coefficient W of the learning device Le so as to satisfy the constraint condition shown in FIG. 1D (step S3). That is, the information distribution device 10 has the same content information A and content information a, content information B and content information b, content information C and content information c, and the inner product of the feature information A and the feature information B The connection coefficient W is corrected so as to be larger than the inner product of the information B and the feature information C.

例えば、情報配信装置10は、内容情報Aと内容情報aとの二乗誤差、内容情報Bと内容情報bとの二乗誤差、および内容情報Cと内容情報cとの二乗誤差がそれぞれ最小となり、かつ、特徴情報Aと特徴情報Bの内積が、特徴情報Bと特徴情報Cとの内積よりも大きくなるように、接続係数Wをバックプロパゲーション法により修正する。かかる処理の結果、学習器Leは、特徴の損失を最小限に抑えつつ内容情報A〜Cの次元数を圧縮するとともに、各コンテンツA〜Cの内容が類似するか否かを判定することができる特徴情報A〜Cを抽出することができる。なお、情報配信装置10は、ソフトマックス手法や線形計画法を用いて、上述した制約条件を示す評価関数の値が最大となるように、接続係数Wを修正してもよい。   For example, the information distribution apparatus 10 minimizes the square error between the content information A and the content information a, the square error between the content information B and the content information b, and the square error between the content information C and the content information c. The connection coefficient W is corrected by the back propagation method so that the inner product of the feature information A and the feature information B becomes larger than the inner product of the feature information B and the feature information C. As a result of such processing, the learning device Le compresses the number of dimensions of the content information A to C while minimizing the loss of features, and determines whether the contents A to C are similar. Feature information A to C that can be extracted. Note that the information distribution apparatus 10 may correct the connection coefficient W by using a softmax method or a linear programming method so that the value of the evaluation function indicating the constraint condition described above is maximized.

このように、情報配信装置10は、学習器Leに入力されたコンテンツの内容情報と再現された内容情報とが一致するように、学習器Leが有する各ノード間の接続係数を修正する。また、情報配信装置10は、類似する複数のコンテンツの内容情報から学習部Leが抽出する各特徴情報が類似し、類似しない複数のコンテンツの内容情報から学習器Leが抽出する各特徴情報が類似しなくなるように、学習器Leが有する各ノード間の接続係数Wを修正する。   In this way, the information distribution device 10 corrects the connection coefficient between the nodes included in the learning device Le so that the content information of the content input to the learning device Le matches the reproduced content information. The information distribution apparatus 10 also has similar feature information extracted by the learning unit Le from the content information of a plurality of similar contents, and similar feature information extracted by the learning device Le from the content information of a plurality of dissimilar contents. The connection coefficient W between the nodes included in the learning device Le is corrected so that it does not occur.

この結果、情報配信装置10は、コンテンツが有する特徴を示す特徴情報を適切に抽出することができると同時に、抽出した特徴情報同士の比較結果に基づいて、コンテンツの内容同士が類似するか否かを判定することができる。この結果、情報配信装置10は、コンテンツ同士が類似するか否かを判定精度を向上させ、デデュープの性能を向上させることができる。   As a result, the information distribution apparatus 10 can appropriately extract the feature information indicating the features of the content, and at the same time, whether the content contents are similar based on the comparison result between the extracted feature information. Can be determined. As a result, the information distribution apparatus 10 can improve the determination accuracy as to whether or not the contents are similar, and improve the deduplication performance.

〔1−4.情報配信処理の一例〕
次に、情報配信装置10が実行する情報配信処理について説明する。例えば、情報配信装置10は、端末装置100からコンテンツの配信要求を受付ける(ステップS4)。このような場合、情報配信装置10は、配信対象コンテンツの特徴情報を抽出する(ステップS5)。例えば、情報配信装置10は、利用者U01のユーザ属性、各コンテンツが登録された日時、各コンテンツのカテゴリやサブカテゴリ等の各種条件に基づいて、登録されたコンテンツの中から配信対象となるコンテンツを配信対象コンテンツとして選択する。続いて、情報配信装置10は、配信対象コンテンツの内容情報を学習器Leに入力することで、各コンテンツの特徴情報を抽出する。
[1-4. Example of information distribution process)
Next, information distribution processing executed by the information distribution apparatus 10 will be described. For example, the information distribution device 10 receives a content distribution request from the terminal device 100 (step S4). In such a case, the information distribution apparatus 10 extracts feature information of the distribution target content (step S5). For example, the information distribution apparatus 10 selects the content to be distributed from the registered content based on the user attribute of the user U01, the date and time when each content was registered, and various conditions such as the category and subcategory of each content. Select as distribution target content. Subsequently, the information distribution apparatus 10 extracts the feature information of each content by inputting the content information of the distribution target content to the learning device Le.

そして、情報配信装置10は、抽出した特徴情報に基づいて、デデュープを行う(ステップS6)。例えば、情報配信装置10は、コンテンツA〜Dから特徴情報A〜Dを抽出した場合、各特徴情報A〜Dが類似するか否かを判定する。そして、情報配信装置10は、特徴情報が他のコンテンツの特徴情報と類似しないコンテンツを配信する(ステップS7)。   Then, the information distribution apparatus 10 performs deduplication based on the extracted feature information (step S6). For example, when the feature information A to D is extracted from the contents A to D, the information distribution apparatus 10 determines whether the feature information A to D are similar. Then, the information distribution device 10 distributes content whose feature information is not similar to the feature information of other content (step S7).

例えば、情報配信装置10は、例えば、図1中(E)に示すように、特徴情報Bと特徴情報Cとが類似する場合は、コンテンツBの内容とコンテンツCの内容とが類似すると判定する。そして、情報配信装置10は、コンテンツBとコンテンツCとのいずれか1方を配信対象とする。例えば、情報配信装置10は、図1中(F)に示すように、コンテンツA、B、Dを配信対象とし、コンテンツCを配信対象から除外する。   For example, when the feature information B and the feature information C are similar, for example, as shown in FIG. 1E, the information distribution apparatus 10 determines that the content B and the content C are similar. . Then, the information distribution apparatus 10 sets one of content B and content C as a distribution target. For example, as illustrated in (F) in FIG. 1, the information distribution apparatus 10 sets the contents A, B, and D as distribution targets and excludes the content C from the distribution targets.

このように、情報配信装置10は、コンテンツに含まれる複数の情報(例えば、単語等)からコンテンツの内容を示す内容情報(例えば、コンテンツに含まれる単語の局所表現や分散表現を用いて表されたコンテンツの内容を示す情報)を生成する。また、情報配信装置10は、内容情報が示す内容を抽象化することで、コンテンツの内容が有する特徴を示す特徴情報を抽出する。そして、情報配信装置10は、複数のコンテンツから抽出された特徴情報が類似するか否かを判定し、特徴情報が類似するか否かに基づいて、複数のコンテンツのうち配信対象とするコンテンツを決定する。この結果、情報配信装置10は、コンテンツ同士が類似するか否かを判定精度を向上させ、デデュープの性能を向上させることができる。   As described above, the information distribution apparatus 10 is expressed by using content information (for example, local expression or distributed expression of a word included in the content) indicating the content content from a plurality of information (for example, words) included in the content. Information indicating the contents of the content). Further, the information distribution apparatus 10 extracts the feature information indicating the characteristics of the content by abstracting the content indicated by the content information. Then, the information distribution device 10 determines whether or not the feature information extracted from the plurality of contents is similar. Based on whether or not the feature information is similar, the information distribution device 10 selects the content to be distributed among the plurality of contents. decide. As a result, the information distribution apparatus 10 can improve the determination accuracy as to whether or not the contents are similar, and improve the deduplication performance.

ここで、同様の内容のコンテンツを複数表示するよりは、ある程度内容が異なるコンテンツを複数表示した方が、CTR(Click Through Rate)等のコンテンツの選択率やインプレッション数等の閲覧率が向上することが経験的に知られている。このため、情報配信装置10は、上述した配信処理を実行することにより、配信したコンテンツの選択率や閲覧率を向上させることができる。   Here, the content selection rate such as CTR (Click Through Rate) and the viewing rate such as the number of impressions are improved by displaying a plurality of contents that differ to some extent rather than displaying a plurality of contents having the same content. Is known empirically. For this reason, the information delivery apparatus 10 can improve the selection rate and browsing rate of the delivered content by executing the delivery process described above.

〔2.情報配信装置の構成〕
次に、図4を用いて、実施形態にかかる情報配信装置10の構成について説明する。図4は、実施形態に係る情報配信装置が有する機能構成の一例を示す図である。図4に示すように、情報配信装置10は、通信部11と、記憶部12と、制御部13とを有する。通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、ネットワークNと有線または無線で接続され、端末装置100やクライアント端末200との間で情報の送受信を行う。
[2. Configuration of information distribution device]
Next, the configuration of the information distribution apparatus 10 according to the embodiment will be described with reference to FIG. FIG. 4 is a diagram illustrating an example of a functional configuration of the information distribution apparatus according to the embodiment. As illustrated in FIG. 4, the information distribution apparatus 10 includes a communication unit 11, a storage unit 12, and a control unit 13. The communication unit 11 is realized by, for example, a NIC (Network Interface Card). The communication unit 11 is connected to the network N by wire or wireless, and transmits / receives information to / from the terminal device 100 and the client terminal 200.

〔2−1.記憶部が記憶するデータベース〕
記憶部12は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部12は、接続係数データベース14、コンテンツデータベース15、内容情報データベース16、特徴情報データベース17とを記憶する。
[2-1. Database stored in storage unit)
The storage unit 12 is realized by, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk. The storage unit 12 stores a connection coefficient database 14, a content database 15, a content information database 16, and a feature information database 17.

接続係数データベース14には、学習器が有する各ノード間の接続係数が登録される。例えば、図5は、実施形態に係る接続係数データベースに登録される情報の一例を示す図である。図5に示すように、接続係数データベース14には、「ニューロンID」、「結合先ニューロンID」、「接続係数」といった項目を有する。「ニューロンID」は、学習器Leに含まれるノードであるニューロンを識別するための識別情報を示す。「結合先ニューロンID」は、「ニューロンID」に対応するニューロンと結合する他のニューロンを識別するための識別情報を示す。「接続係数」は、「ニューロンID」が示すニューロンと、「結合先ニューロンID」が示すニューロンとを接続する経路に設定された結合係数を示す。   In the connection coefficient database 14, connection coefficients between nodes included in the learning device are registered. For example, FIG. 5 is a diagram illustrating an example of information registered in the connection coefficient database according to the embodiment. As shown in FIG. 5, the connection coefficient database 14 includes items such as “neuron ID”, “joining neuron ID”, and “connection coefficient”. “Neuron ID” indicates identification information for identifying a neuron that is a node included in the learning device Le. “Destination neuron ID” indicates identification information for identifying another neuron coupled to the neuron corresponding to “neuron ID”. The “connection coefficient” indicates a connection coefficient set in a path connecting the neuron indicated by “neuron ID” and the neuron indicated by “connection destination neuron ID”.

例えば、図5に示す例では、接続係数データベース14には、ニューロンID「N11」、ニューロンID「N21」、および結合係数「W」が対応付けて登録されている。この情報は、ニューロンID「N11」に対応するニューロンが、ニューロンID「N21」に対応するニューロンと結合係数「W」が設定された経路で接続されている旨を示す。このため、ニューロンID「N21」に対応するニューロンには、ニューロンID「N11」の出力に接続係数「W」を積算した値が入力として伝達される。 For example, in the example illustrated in FIG. 5, the neuron ID “N 11 ”, the neuron ID “N 21 ”, and the coupling coefficient “W A ” are associated and registered in the connection coefficient database 14. This information indicates that the neuron corresponding to the neuron ID “N 11 ” is connected to the neuron corresponding to the neuron ID “N 21 ” through a path in which the coupling coefficient “W A ” is set. For this reason, to the neuron corresponding to the neuron ID “N 21 ”, a value obtained by integrating the connection coefficient “W A ” to the output of the neuron ID “N 11 ” is transmitted as an input.

コンテンツデータベース15は、クライアント端末200から登録を受付けたコンテンツが登録される。例えば、図6は、実施形態にかかるコンテンツデータベースに登録される情報の一例を示す図である。図6に示すように、コンテンツデータベース15は、「カテゴリ」、「サブカテゴリ」、「コンテンツID」、「コンテンツ」といった項目を有する。   In the content database 15, the content accepted from the client terminal 200 is registered. For example, FIG. 6 is a diagram illustrating an example of information registered in the content database according to the embodiment. As shown in FIG. 6, the content database 15 includes items such as “category”, “subcategory”, “content ID”, and “content”.

「カテゴリ」は、コンテンツが属するカテゴリを示す情報である。また、「サブカテゴリ」は、コンテンツが属するサブカテゴリを示す情報である。また、「コンテンツID」は、登録されたコンテンツを識別する情報である。また、「コンテンツ」とは、登録されたコンテンツのデータである。   “Category” is information indicating the category to which the content belongs. The “subcategory” is information indicating the subcategory to which the content belongs. The “content ID” is information for identifying the registered content. The “content” is data of registered content.

例えば、図6に示す例では、カテゴリ「カテゴリ1」、サブカテゴリ「カテゴリ1−1」、コンテンツID「ID1」、コンテンツ「コンテンツA」が対応付けて登録されている。この情報は、コンテンツID「ID1」で示されるコンテンツ「コンテンツA」が、カテゴリ「カテゴリ1」に含まれるサブカテゴリ「カテゴリ1−1」に属する旨を示す。このように、各コンテンツは、階層構造を有するカテゴリと対応付けて登録される。   For example, in the example illustrated in FIG. 6, the category “category 1”, the subcategory “category 1-1”, the content ID “ID1”, and the content “content A” are registered in association with each other. This information indicates that the content “content A” indicated by the content ID “ID1” belongs to the subcategory “category 1-1” included in the category “category 1”. Thus, each content is registered in association with a category having a hierarchical structure.

内容情報データベース16は、コンテンツから生成された内容情報が登録される。例えば、図7は、実施形態にかかる内容情報データベースに登録される情報の一例を示す図である。図7に示すように、内容情報データベース16には、「コンテンツID」と「内容情報」といった項目を有する。   In the content information database 16, content information generated from the content is registered. For example, FIG. 7 is a diagram illustrating an example of information registered in the content information database according to the embodiment. As shown in FIG. 7, the content information database 16 has items such as “content ID” and “content information”.

ここで、図7に示す「コンテンツID」は、内容情報の抽出元となったコンテンツを示す「コンテンツID」である。また、「内容情報」は、コンテンツから抽出された内容情報のデータである。例えば、図6に示す例では、コンテンツID「ID1」および内容情報「内容情報A」が対応付けて登録される。この情報は、コンテンツID「ID1」が示すコンテンツ、すなわちコンテンツAから抽出された内容情報が「内容情報A」である旨を示す。   Here, the “content ID” illustrated in FIG. 7 is a “content ID” indicating the content from which the content information is extracted. “Content information” is data of content information extracted from the content. For example, in the example illustrated in FIG. 6, the content ID “ID1” and the content information “content information A” are registered in association with each other. This information indicates that the content indicated by the content ID “ID1”, that is, the content information extracted from the content A is “content information A”.

特徴情報データベース17は、コンテンツから抽出された特徴情報が登録される。例えば、図8は、実施形態にかかる特徴情報データベースに登録される情報の一例を示す図である。図8に示すように、特徴情報データベース17には、「コンテンツID」と「特徴情報」といった項目を有する。   In the feature information database 17, feature information extracted from the content is registered. For example, FIG. 8 is a diagram illustrating an example of information registered in the feature information database according to the embodiment. As shown in FIG. 8, the feature information database 17 has items such as “content ID” and “feature information”.

ここで、図8に示す「コンテンツID」は、特徴情報の抽出元となったコンテンツを示す「コンテンツID」である。また、「特徴情報」は、コンテンツから抽出された特徴情報、すなわち、コンテンツから抽出された内容情報を抽象化することで抽出された特徴情報のデータであり、例えば、コンテンツの内容を示す分散表現である。例えば、図8に示す例では、コンテンツID「ID1」および特徴情報「特徴情報A」が対応付けて登録される。この情報は、コンテンツID「ID1」が示すコンテンツ、すなわちコンテンツAから抽出された特徴情報が「特徴情報A」である旨を示す。   Here, the “content ID” illustrated in FIG. 8 is a “content ID” indicating the content from which the feature information is extracted. “Feature information” is feature information extracted from content, that is, feature information data extracted by abstracting content information extracted from the content. For example, a distributed expression indicating the content content It is. For example, in the example illustrated in FIG. 8, the content ID “ID1” and the feature information “feature information A” are registered in association with each other. This information indicates that the content indicated by the content ID “ID1”, that is, the feature information extracted from the content A is “feature information A”.

〔2−2.制御部が有する構成の一例〕
図4に戻って、説明を続ける。制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等によって、情報配信装置10内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。
[2-2. Example of configuration of control unit]
Returning to FIG. 4, the description will be continued. The control unit 13 is stored in a storage device inside the information distribution apparatus 10 by, for example, a central processing unit (CPU), a micro processing unit (MPU), an application specific integrated circuit (ASIC), or a field programmable gate array (FPGA). The various programs are executed by using the RAM as a work area.

図4に示すように、制御部13は、受付部20、学習部30、配信部40を有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部13の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部13が有する各処理部の接続関係は、図4に示した接続関係に限られず、他の接続関係であってもよい。   As illustrated in FIG. 4, the control unit 13 includes a reception unit 20, a learning unit 30, and a distribution unit 40, and realizes or executes information processing functions and operations described below. Note that the internal configuration of the control unit 13 is not limited to the configuration illustrated in FIG. 4, and may be another configuration as long as information processing described later is performed. Further, the connection relationship between the processing units included in the control unit 13 is not limited to the connection relationship illustrated in FIG. 4, and may be another connection relationship.

受付部20は、クライアントからコンテンツの登録を受付ける。例えば、受付部20は、コンテンツのデータと、コンテンツが属するカテゴリおよびサブカテゴリの通知とをクライアント端末200から受付ける。かかる場合、受付部20は、受付けたコンテンツに対してコンテンツIDを付与し、受付けたコンテンツのデータと、受付けたカテゴリと、受付けたサブカテゴリと、付与したコンテンツIDとを対応付けてコンテンツデータベース15に登録する。   The accepting unit 20 accepts content registration from the client. For example, the receiving unit 20 receives from the client terminal 200 content data and notification of the category and subcategory to which the content belongs. In this case, the reception unit 20 assigns a content ID to the received content, associates the received content data, the received category, the received subcategory, and the provided content ID with the content database 15. sign up.

〔2−3.学習部が有する構成の一例〕
学習部30は、上述した学習処理を実行する。具体的には、学習部30は、内容情報抽出部31、特徴情報抽出部32、および接続係数修正部33を有する。内容情報抽出部31は、コンテンツの内容を示す内容情報として、コンテンツの内容を示す複数次元の情報である内容情報を抽出する。
[2-3. Example of configuration of learning unit]
The learning unit 30 executes the learning process described above. Specifically, the learning unit 30 includes a content information extraction unit 31, a feature information extraction unit 32, and a connection coefficient modification unit 33. The content information extraction unit 31 extracts content information that is multi-dimensional information indicating the content as content information indicating the content.

例えば、内容情報抽出部31は、コンテンツAがテキスト等である場合は、形態素解析を用いて、コンテンツAに含まれる単語を抽出する。続いて、内容情報抽出部31は、ti−idfやW2V(Word 2 Vector)等の技術を用いて、抽出した各単語をベクトル化し、各単語のベクトルの総和を算出することで、コンテンツAの内容を示すベクトルを生成する。   For example, when the content A is text or the like, the content information extraction unit 31 extracts a word included in the content A using morphological analysis. Subsequently, the content information extraction unit 31 vectorizes each extracted word using a technique such as ti-idf or W2V (Word 2 Vector), and calculates the sum of the vectors of the respective words, thereby Generate a vector indicating the contents.

そして、内容情報抽出部31は、生成したベクトルをコンテンツAの内容情報である内容情報Aとして、コンテンツAのコンテンツIDと対応付けて内容情報データベース16に登録する。なお、内容情報抽出部31は、コンテンツAの内容を示すことができるのであれば、任意の手法で内容情報を生成してよい。   Then, the content information extraction unit 31 registers the generated vector in the content information database 16 in association with the content ID of the content A as the content information A that is the content information of the content A. The content information extraction unit 31 may generate the content information by an arbitrary method as long as the content A can be shown.

特徴情報抽出部32は、内容情報が示す内容を抽象化することで、内容情報の抽出元となったコンテンツの内容が有する特徴を示す特徴情報を抽出する。具体的には、特徴情報抽出部31は、コンテンツから生成された内容情報の次元数を圧縮することで、コンテンツの内容が有する特徴を示す特徴情報を抽出する学習器Leを用いて、コンテンツの特徴情報を抽出する。   The feature information extraction unit 32 abstracts the content indicated by the content information, thereby extracting feature information indicating the characteristics of the content content from which the content information is extracted. Specifically, the feature information extraction unit 31 compresses the dimensionality of the content information generated from the content, thereby using the learning device Le that extracts the feature information indicating the characteristics of the content, and using the learning device Le. Extract feature information.

例えば、特徴情報抽出部32は、接続係数データベース14からニューロンの接続関係と、接続係数Wとを読み出して、学習器Leを生成する。また、特徴情報抽出部32は、内容情報データベース16から内容情報を読出し、読み出した内容情報を学習器Leの入力層に入力する。そして、特徴情報抽出部32は、学習器Leの中間層が出力した情報を特徴情報として特徴情報データベース17に登録する。   For example, the feature information extraction unit 32 reads the neuron connection relation and the connection coefficient W from the connection coefficient database 14 to generate the learning device Le. The feature information extraction unit 32 reads the content information from the content information database 16 and inputs the read content information to the input layer of the learning device Le. Then, the feature information extraction unit 32 registers the information output from the intermediate layer of the learning device Le as feature information in the feature information database 17.

接続係数修正部33は、類似する複数のコンテンツと、類似しない複数のコンテンツとを教師データとして、学習器Leの学習を行う。例えば、接続係数修正部33は、コンテンツデータベース15から、同一のカテゴリに属する2つのコンテンツを類似する複数のコンテンツとして特定し、異なるカテゴリに属する2つのコンテンツを類似しない複数のコンテンツとして特定する。なお、類似する複数のコンテンツの一部と類似しない複数のコンテンツの一部とは、同一のコンテンツであってもよい。   The connection coefficient correcting unit 33 performs learning by the learning device Le using a plurality of similar contents and a plurality of dissimilar contents as teacher data. For example, the connection coefficient modification unit 33 identifies two contents belonging to the same category as a plurality of similar contents, and identifies two contents belonging to different categories as a plurality of dissimilar contents. Note that a part of a plurality of similar contents and a part of a plurality of dissimilar contents may be the same content.

続いて、接続係数修正部33は、接続係数データベース14からニューロンの接続関係と、接続係数Wとを読み出して、学習器Leを生成する。そして、接続係数修正部33は、特定した各コンテンツの内容情報を学習器Leに入力し、学習器Leの出力層が出力した情報を再現された内容情報として取得する。すなわち、接続係数修正部33は、学習器Leが、内容情報の次元数を圧縮することで抽出した特徴情報から復元された内容情報を取得する。また、接続係数修正部33は、特徴情報データベース17から、特定したコンテンツの特徴情報を取得する。   Subsequently, the connection coefficient correction unit 33 reads the connection relation of neurons and the connection coefficient W from the connection coefficient database 14 to generate a learning device Le. Then, the connection coefficient correction unit 33 inputs the content information of each identified content to the learning device Le, and acquires the information output from the output layer of the learning device Le as reproduced content information. That is, the connection coefficient correction unit 33 acquires content information restored from the feature information extracted by the learning device Le compressing the number of dimensions of the content information. Further, the connection coefficient correction unit 33 acquires the feature information of the identified content from the feature information database 17.

そして、接続係数修正部33は、バックプロパゲーション法等を用いて、以下の学習処理を実行する。すなわち、接続係数修正部33は、入力されたコンテンツの内容情報と、学習器Leによって再現された内容情報とが一致するように、接続係数Wを修正する。同時に、接続係数修正部33は、類似する複数のコンテンツの内容情報から抽出された特徴情報同士が類似し、類似しない複数のコンテンツの内容情報から抽出された特徴情報同士が類似しなくなるように、接続係数Wの値を修正する。   Then, the connection coefficient correction unit 33 performs the following learning process using the back propagation method or the like. In other words, the connection coefficient correction unit 33 corrects the connection coefficient W so that the content information of the input content matches the content information reproduced by the learning device Le. At the same time, the connection coefficient correction unit 33 is similar so that feature information extracted from the content information of a plurality of similar contents is similar, and feature information extracted from the content information of a plurality of dissimilar contents is not similar. Correct the value of the connection coefficient W.

例えば、図9は、実施形態にかかる情報配信装置が実行する学習処理の一例を説明する図である。例えば、接続係数修正部33は、コンテンツAを学習器Leに入力した際に学習器Leの中間層が出力した情報、すなわち、特徴情報Aを取得する。また、接続係数修正部33は、コンテンツAと同一カテゴリに属するコンテンツBを学習器Leに入力した際に学習器Leの中間層が出力した情報、すなわち、特徴情報Bを取得する。また、接続係数修正部33は、コンテンツBと異なるカテゴリに属するコンテンツCを学習器Leに入力した際に学習器Leの中間層が出力した情報、すなわち、特徴情報Cを取得する。   For example, FIG. 9 is a diagram illustrating an example of learning processing executed by the information distribution apparatus according to the embodiment. For example, the connection coefficient correction unit 33 acquires information output by the intermediate layer of the learning device Le when the content A is input to the learning device Le, that is, the feature information A. Further, the connection coefficient correction unit 33 acquires information output by the intermediate layer of the learning device Le when content B belonging to the same category as the content A is input to the learning device Le, that is, feature information B. Further, the connection coefficient correction unit 33 acquires information output by the intermediate layer of the learning device Le when the content C belonging to a different category from the content B is input to the learning device Le, that is, the feature information C.

そして、接続係数修正部33は、図9中(A)に示すように、特徴情報Aと特徴情報Bとの内積である内積ABを算出する。また、接続係数修正部33は、図9中(B)に示すように、特徴情報Bと特徴情報Cとの内積である内積BCを算出する。ここで、特徴情報Aと特徴情報Bとが類似し、特徴情報Bと特徴情報Cとが類似しないように学習器Leの学習を行うのであれば、接続係数修正部33は、図9中(C)に示すように、内積ABの値が内積BCの値よりも大きくなるように学習器Leの接続係数Wを修正すればよい。   Then, as shown in FIG. 9A, the connection coefficient correcting unit 33 calculates an inner product AB that is an inner product of the feature information A and the feature information B. Further, the connection coefficient correcting unit 33 calculates an inner product BC, which is an inner product of the feature information B and the feature information C, as shown in FIG. Here, if learning of the learning device Le is performed so that the feature information A and the feature information B are similar and the feature information B and the feature information C are not similar, the connection coefficient correcting unit 33 in FIG. As shown in C), the connection coefficient W of the learning device Le may be corrected so that the value of the inner product AB is larger than the value of the inner product BC.

そこで、接続係数修正部33は、図9中(D)に示すように、「−log(σ(内積AB−内積AC))」の値が小さくなるように、接続係数Wを再調整する。なお、接続係数修正部33は、特徴情報同士の集合類似度(Jaccard係数)やコサイン類似度に基づいて、特徴情報同士が類似するか否かを判定し、判定結果に応じて、接続係数Wの値を再調整してもよい。例えば、接続係数修正部33は、特徴情報Aと特徴情報Bとの集合類似度が、特徴情報Bと特徴情報Cとの集合類似度よりも大きくなるように、接続係数Wの値を再調整してもよい。   Therefore, the connection coefficient correction unit 33 readjusts the connection coefficient W so that the value of “−log (σ (inner product AB−inner product AC))” becomes smaller as shown in FIG. The connection coefficient correction unit 33 determines whether or not the feature information is similar based on the set similarity (Jaccard coefficient) or the cosine similarity between the feature information, and the connection coefficient W is determined according to the determination result. The value of may be readjusted. For example, the connection coefficient correcting unit 33 readjusts the value of the connection coefficient W so that the set similarity between the feature information A and the feature information B is larger than the set similarity between the feature information B and the feature information C. May be.

また、接続係数修正部33は、内容情報Aを学習器Leに入力した際に学習器Leが出力した内容情報a、内容情報Bを学習器Leに入力した際に学習器Leが出力した内容情報b、内容情報Cを学習器Leに入力した際に学習器Leが出力した内容情報cを取得する。そして、接続係数修正部33は、上述した再調整と同時に、内容情報Aと内容情報a、内容情報Bと内容情報b、および内容情報Cと内容情報cとが同一となる様に、接続係数Wを再調整する。   The connection coefficient correction unit 33 also outputs the content information a output from the learning device Le when the content information A is input to the learning device Le and the content output from the learning device Le when the content information B is input to the learning device Le. The content information c output by the learning device Le when the information b and the content information C are input to the learning device Le is acquired. At the same time as the above-described readjustment, the connection coefficient correcting unit 33 connects the connection coefficient so that the content information A and the content information a, the content information B and the content information b, and the content information C and the content information c are the same. Readjust W.

このように、接続係数修正部33は、内容情報の次元数を圧縮することで特徴情報を抽出し、抽出した特徴情報から元の内容情報を復元することができるように、学習器Leの接続係数Wを再調整する。同時に、接続係数修正部33は、同一カテゴリに属する複数のコンテンツから抽出された各特徴情報が類似し、異なるカテゴリに属する複数のコンテンツから抽出された各特徴情報がが類似しないように、学習器Leの接続係数Wを再調整する。   In this way, the connection coefficient correcting unit 33 extracts the feature information by compressing the number of dimensions of the content information, and connects the learning device Le so that the original content information can be restored from the extracted feature information. Readjust the coefficient W. At the same time, the connection coefficient correcting unit 33 is configured so that the feature information extracted from the plurality of contents belonging to the same category is similar and the feature information extracted from the plurality of contents belonging to different categories is not similar. Readjust the connection coefficient W of Le.

なお、接続係数修正部33は、内積以外の指標を用いて、内容が類似するコンテンツの特徴情報が類似し、内容が類似しないコンテンツの特徴情報が類似しなくなるように、学習器Leの学習を行ってもよい。例えば、接続係数修正部33は、同一のカテゴリに属するコンテンツから抽出された各特徴情報の集合類似度やコサイン類似度の値が、異なるカテゴリに属するコンテンツから抽出された各特徴情報の集合類似度やコサイン類似度の値よりも大きくなるように、接続係数Wを修正してもよい。   Note that the connection coefficient correction unit 33 uses an index other than the inner product to perform learning by the learning device Le so that the feature information of the content with similar content is similar and the feature information of the content with similar content is not similar. You may go. For example, the connection coefficient correcting unit 33 uses the set similarity of each feature information extracted from content belonging to the same category or the value of the cosine similarity as the set similarity of each feature information extracted from content belonging to a different category. Alternatively, the connection coefficient W may be modified so as to be larger than the value of the cosine similarity.

また、接続係数修正部33は、同一のサブカテゴリに属する複数のコンテンツから抽出された各特徴情報が類似し、異なるサブカテゴリに属する複数のコンテンツから抽出された各特徴情報が類似しないように、学習器Leの学習を行ってもよい。このような学習を行った場合、学習器Leは、異なるサブカテゴリに属するコンテンツから類似しない特徴情報を抽出することができる。   In addition, the connection coefficient correction unit 33 is configured so that the feature information extracted from the plurality of contents belonging to the same subcategory is similar and the feature information extracted from the plurality of contents belonging to different subcategories is not similar. You may learn Le. When such learning is performed, the learning device Le can extract dissimilar feature information from contents belonging to different subcategories.

また、接続係数修正部33は、コンテンツデータベース15に登録されたコンテンツを用いて、上述した学習処理を繰り返すことで、学習器Leの精度を向上させることができる。また、接続係数修正部33は、学習処理の度に、教師データとして用いるコンテンツを変更することで、学習器Leの精度を向上させることができる。   Further, the connection coefficient correction unit 33 can improve the accuracy of the learning device Le by repeating the learning process described above using the content registered in the content database 15. In addition, the connection coefficient correction unit 33 can improve the accuracy of the learning device Le by changing the content used as the teacher data at each learning process.

なお、内容情報抽出部31、および特徴情報抽出部32は、接続係数修正部33が学習器Leの接続係数Wを修正する度に、コンテンツの内容情報や特徴情報を新たに抽出し、抽出した内容情報や特徴情報を内容情報データベース16や特徴情報データベース17に登録することとなる。   The content information extraction unit 31 and the feature information extraction unit 32 newly extract and extract content content information and feature information each time the connection coefficient correction unit 33 corrects the connection coefficient W of the learning device Le. Content information and feature information are registered in the content information database 16 and the feature information database 17.

〔2−4.配信部40が有する構成の一例〕
図4に戻り、説明を続ける。配信部40は、上述した配信処理を実行する。例えば、配信部40は、判定部41と決定部42とを有する。なお、配信部40は、内容情報抽出部31および特徴情報抽出部32を有し、コンテンツデータベース15に登録されたコンテンツの特徴情報を抽出する機能を有していてもよい。
[2-4. Example of configuration of distribution unit 40]
Returning to FIG. 4, the description will be continued. The distribution unit 40 executes the distribution process described above. For example, the distribution unit 40 includes a determination unit 41 and a determination unit 42. The distribution unit 40 includes a content information extraction unit 31 and a feature information extraction unit 32, and may have a function of extracting feature information of content registered in the content database 15.

判定部41は、複数のコンテンツから抽出された特徴情報が類似するか否かを判定する。例えば、判定部41は、端末装置100からコンテンツの配信要求を受付けると、端末装置100を使用する利用者U01のユーザ属性、各コンテンツが登録された日時、各コンテンツのカテゴリやサブカテゴリ等の各種条件に基づいて、配信対象の候補となる複数のコンテンツを選択する。なお、判定部41は、各コンテンツのCTR(Click Through Rate)や配信数、インプレッション数、配信に応じてクライアントから支払われる料金の額、インプレッション保証数等に基づいて、配信対象の候補となるコンテンツを選択してもよい。   The determination unit 41 determines whether or not feature information extracted from a plurality of contents is similar. For example, when the determination unit 41 receives a content distribution request from the terminal device 100, the user attribute of the user U01 who uses the terminal device 100, the date and time when each content was registered, and various conditions such as the category and subcategory of each content Based on the above, a plurality of contents that are candidates for distribution are selected. The determination unit 41 is a candidate content to be distributed based on CTR (Click Through Rate) of each content, the number of distributions, the number of impressions, the amount paid from the client according to the distribution, the number of guaranteed impressions, etc. May be selected.

続いて、判定部41は、選択したコンテンツの特徴情報を、特徴情報データベース17から特定し、特定した特徴情報同士を比較する。すなわち、判定部41は、コンテンツの内容情報の次元数を圧縮して特徴情報を抽出し、抽出した特徴情報から元の内容情報を復元するとともに、類似する複数のコンテンツから抽出された各特徴情報が類似し、類似しない複数のコンテンツから抽出された各特徴情報が類似しないように学習が行われた学習器Leを用いて、コンテンツの内容情報から抽出された特徴情報を比較する。   Subsequently, the determination unit 41 identifies feature information of the selected content from the feature information database 17 and compares the identified feature information. That is, the determination unit 41 extracts feature information by compressing the number of dimensions of content information of content, restores original content information from the extracted feature information, and extracts feature information extracted from a plurality of similar contents The feature information extracted from the content information of the content is compared by using the learning device Le that has been learned so that the feature information extracted from the plurality of contents that are similar but not similar to each other.

より具体的には、判定部41は、2つの特徴情報の内積を算出し、算出した内積の値が所定の閾値よりも小さい場合には、特徴情報同士が類似しないと判定し、算出した内積の値が所定の閾値よりも大きい場合には、特徴情報同士が類似すると判定する。例えば、判定部41は、特徴情報Aと特徴情報Bとの内積の値が所定の閾値よりも大きい場合は、特徴情報Aと特徴情報Bとが類似すると判定する。一方、判定部41は、特徴情報Bと特徴情報Cとの内積の値が所定の閾値よりも小さい場合は、特徴情報Bと特徴情報Cとが類似しないと判定する。なお、判定部41は、特徴情報同士の集合類似度(Jaccard係数)やコサイン類似度に基づいて、特徴情報同士が類似するか否かを判定してもよい。   More specifically, the determination unit 41 calculates the inner product of two feature information, and determines that the feature information is not similar when the calculated inner product value is smaller than a predetermined threshold, and calculates the inner product When the value is larger than a predetermined threshold, it is determined that the feature information is similar. For example, when the value of the inner product of the feature information A and the feature information B is larger than a predetermined threshold, the determination unit 41 determines that the feature information A and the feature information B are similar. On the other hand, when the value of the inner product of the feature information B and the feature information C is smaller than a predetermined threshold, the determination unit 41 determines that the feature information B and the feature information C are not similar. Note that the determination unit 41 may determine whether the feature information is similar based on the set similarity (Jaccard coefficient) between the feature information and the cosine similarity.

決定部42は、判定部41による判定結果に基づいて、判定部41が選択した複数のコンテンツのうち配信対象とするコンテンツを決定する。例えば、決定部42は、判定部41により特徴情報Aと特徴情報Bとが類似すると判定された場合は、特徴情報Aの抽出元であるコンテンツAと、特徴情報Bの抽出元であるコンテンツBとのうち、いずれか一方のコンテンツを配信対象とする。   Based on the determination result by the determination unit 41, the determination unit 42 determines content to be distributed among the plurality of contents selected by the determination unit 41. For example, if the determination unit 41 determines that the feature information A and the feature information B are similar, the determination unit 42 extracts the content A from which the feature information A is extracted and the content B from which the feature information B is extracted. Of these, one of the contents is targeted for distribution.

一方、決定部42は、判定部41により特徴情報Bと特徴情報Cとが類似すると判定された場合は、特徴情報Bの抽出元であるコンテンツBと、特徴情報Cの抽出元であるコンテンツCとを配信対象とする。すなわち、決定部42は、特徴情報Aと特徴情報Bとが類似し、特徴情報Bと特徴情報Cとが類似しない場合は、コンテンツAを配信対象から除外し、コンテンツBとコンテンツCとを端末装置100に対して配信することとなる。   On the other hand, when the determining unit 41 determines that the feature information B and the feature information C are similar, the determining unit 42 and the content C from which the feature information B is extracted and the content C from which the feature information C is extracted To be distributed. That is, when the feature information A and the feature information B are similar and the feature information B and the feature information C are not similar, the determination unit 42 excludes the content A from the distribution target and sets the content B and the content C to the terminal. This is distributed to the device 100.

〔2−5.情報配信装置による判定の一例〕
次に、図10を用いて、情報配信装置10により、コンテンツが類似するか否かの判定精度について説明する。図10は、実施形態にかかる情報配信装置による判定結果の一例を示す図である。例えば、図10に示す例では、2つのコンテンツを含む組を複数用意し、内容情報同士の類似度を横軸とし、特徴情報同士(すなわち、分散表現同士)の類似度を縦軸にとり、各組ごとに、コンテンツの内容情報同士の類似度と特徴情報同士の類似度とをプロットした。
[2-5. Example of determination by information distribution device]
Next, with reference to FIG. 10, the accuracy of determining whether or not the content is similar by the information distribution apparatus 10 will be described. FIG. 10 is a diagram illustrating an example of a determination result by the information distribution apparatus according to the embodiment. For example, in the example shown in FIG. 10, a plurality of sets including two contents are prepared, the similarity between the content information is set on the horizontal axis, the similarity between the feature information (that is, distributed representations) is set on the vertical axis, For each set, the similarity between content information of contents and the similarity between feature information were plotted.

また、図10に示す例では、各組に含まれる2つのコンテンツを4人の利用者に閲覧してもらい、4人の利用者によって2つのコンテンツが類似すると判定された組をバツ印で示した。また、図10に示す例では、2人もしくは3人の利用者によって2つのコンテンツが類似すると判定された組を三角印で、1人の利用者によって2つのコンテンツが類似すると判定された組を四角印で、全ての利用者によって2つのコンテンツが類似しないと判定された組を丸印でプロットした。   In the example shown in FIG. 10, two users included in each group are browsed by four users, and the groups determined by the four users to be similar to each other are indicated by crosses. It was. In the example shown in FIG. 10, a pair in which two contents are determined to be similar by two or three users is indicated by a triangle, and a pair in which two contents are determined to be similar by one user A set of square marks and a set determined by all users that the two contents are not similar are plotted with circle marks.

図10に示すように、内容情報同士の類似度を基準とした場合は、コンテンツの組の類似度に広がりが存在するため、類似するコンテンツの組と類似しないコンテンツの組とを上手く切り分ける閾値を設定するのが困難である。このため、情報配信装置10は、内容情報同士の類似度を用いた場合は、各コンテンツが類似するか否かを精度良く判定することができない。   As shown in FIG. 10, when the similarity between the content information is used as a reference, there is a spread in the similarity between the content sets. Therefore, a threshold value for successfully separating a similar content set and a dissimilar content set is set. Difficult to set. For this reason, the information delivery apparatus 10 cannot determine accurately whether each content is similar, when the similarity of content information is used.

一方、特徴情報同士の類似度を基準とした場合は、バツ印で示されるコンテンツの組、三角印で示されるコンテンツの組、四角印で示されるコンテンツの組、および丸印で示されるコンテンツの組のそれぞれの類似度が同程度の範囲内に収まる。このため、情報配信装置10は、特徴情報同士の類似度を用いることで、各コンテンツが類似するか否かを精度良く判定することができる。   On the other hand, when the similarity between feature information is used as a reference, a set of content indicated by a cross mark, a set of content indicated by a triangle mark, a set of content indicated by a square mark, and a content set indicated by a circle mark The similarity of each pair falls within the same range. For this reason, the information delivery apparatus 10 can determine accurately whether each content is similar by using the similarity of feature information.

〔3.学習処理の手順〕
次に、図11を用いて、実施形態に係る情報配信装置10が実行する学習処理の流れの一例について説明する。図11は、実施形態に係る情報配信装置による学習処理の一例を示すフローチャートである。例えば、情報配信装置10は、同一カテゴリに属するコンテンツの組と、異なるカテゴリに属するコンテンツの組とを抽出する(ステップS101)。続いて、情報配信装置10は、既存の学習器Leを用いて、抽出したコンテンツの内容情報から特徴情報を抽出する(ステップS102)。
[3. (Learning procedure)
Next, an example of the flow of the learning process executed by the information distribution apparatus 10 according to the embodiment will be described using FIG. FIG. 11 is a flowchart illustrating an example of learning processing performed by the information distribution apparatus according to the embodiment. For example, the information distribution apparatus 10 extracts a set of contents belonging to the same category and a set of contents belonging to different categories (step S101). Subsequently, the information distribution apparatus 10 extracts feature information from the content information of the extracted content using the existing learning device Le (step S102).

そして、情報配信装置10は、学習器Leに入力した内容情報と学習器Leが復元した内容情報とが一致し、かつ、同一カテゴリに属するコンテンツの特徴情報同士が類似し、異なるカテゴリに属するコンテンツの特徴情報同士が類似しないように、学習器Leの接続係数Wを修正する(ステップS103)。そして、情報配信装置10は、学習処理を終了する。   Then, the information distribution device 10 matches the content information input to the learning device Le and the content information restored by the learning device Le, and the content information belonging to the same category is similar and the content information belongs to a different category. The connection coefficient W of the learning device Le is corrected so that the feature information is not similar to each other (step S103). And the information delivery apparatus 10 complete | finishes a learning process.

〔4.情報配信処理の手順〕
次に、図12を用いて、実施形態に係る情報配信装置10が実行する情報配信処理の流れの一例について説明する。図12は、実施形態に係る情報配信装置による情報配信処理の一例を示すフローチャートである。例えば、情報配信装置10は、端末装置100から配信要求を受信したか否かを判定する(ステップS201)。そして、情報配信装置10は、配信要求を受信していない場合は(ステップS201:No)、受信するまで待機する。
[4. (Information distribution processing procedure)
Next, an example of the flow of information distribution processing executed by the information distribution apparatus 10 according to the embodiment will be described with reference to FIG. FIG. 12 is a flowchart illustrating an example of information distribution processing by the information distribution apparatus according to the embodiment. For example, the information distribution apparatus 10 determines whether a distribution request has been received from the terminal apparatus 100 (step S201). If the information distribution apparatus 10 has not received a distribution request (step S201: No), the information distribution apparatus 10 stands by until it is received.

一方、情報配信装置10は、配信要求を受信した場合は(ステップS201:Yes)、配信対象の候補となるコンテンツを選択する(ステップS202)。また、情報配信装置10は、選択したコンテンツの内容情報を抽出し(ステップS203)、内容情報が示す内容を抽象化することで、コンテンツの内容の特徴を示す特徴情報を抽出する(ステップS204)。なお、ステップS203およびステップS204の処理は、配信要求を受信する前に、図11に示した学習処理によって学習が行われた学習器Leにより、予め行われていてもよい。   On the other hand, when receiving a distribution request (step S201: Yes), the information distribution apparatus 10 selects content that is a candidate for distribution (step S202). Further, the information distribution apparatus 10 extracts the content information of the selected content (step S203), and abstracts the content indicated by the content information, thereby extracting the feature information indicating the feature of the content (step S204). . Note that the processing in step S203 and step S204 may be performed in advance by the learning device Le that has been learned by the learning processing shown in FIG. 11 before receiving the distribution request.

続いて、情報配信装置10は、抽出された特徴情報が類似するか否かを判定する(ステップS205)。そして、情報配信装置10は、判定結果に基づいて、配信対象となるコンテンツを選択する(ステップS206)。例えば、情報配信装置10は、特徴情報Aと特徴情報Bとが類似する場合は、コンテンツAとコンテンツBとのどちらか一方を、配信対象とする。そして、情報配信装置10は、配信対象として選択したコンテンツを配信し(ステップS207)、処理を終了する。   Subsequently, the information distribution apparatus 10 determines whether or not the extracted feature information is similar (step S205). And the information delivery apparatus 10 selects the content used as delivery object based on a determination result (step S206). For example, when the characteristic information A and the characteristic information B are similar, the information distribution apparatus 10 sets one of the content A and the content B as a distribution target. Then, the information distribution apparatus 10 distributes the content selected as the distribution target (step S207) and ends the process.

〔5.変形例〕
上述した実施形態に係る情報配信装置10は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、上記の情報配信装置10の他の実施形態について説明する。
[5. (Modification)
The information distribution apparatus 10 according to the above-described embodiment may be implemented in various different forms other than the above-described embodiment. Therefore, in the following, another embodiment of the information distribution apparatus 10 will be described.

〔5−1.学習器について〕
上述した説明では、情報配信装置10は、入力層、中間層および出力層の3層を有するオートエンコーダである学習器Leを用いて、特徴情報の抽出を行った。しかしながら、実施形態は、これに限定されるものではない。例えば、情報配信装置10は、複数の中間層を有する学習器Le、すなわち、任意の数の層を有する学習器Leを用いて、特徴情報の抽出を行ってよい。
[5-1. About the learning device)
In the above description, the information distribution apparatus 10 extracts feature information using the learning device Le that is an auto encoder having three layers of an input layer, an intermediate layer, and an output layer. However, the embodiment is not limited to this. For example, the information distribution apparatus 10 may extract feature information using a learning device Le having a plurality of intermediate layers, that is, a learning device Le having an arbitrary number of layers.

ここで、学習器Leが複数の中間層を有する場合、ノードの数が最も少ない中間層、すなわち、出力する情報の次元数が最も少ない中間層が、コンテンツの内容の特徴を端的に示していると考えられる。そこで、情報配信装置10は、複数の中間層を有する学習器Leを用いる場合、出力する情報の次元数が最も少ない中間層が出力する情報を特徴情報とすればよい。また、情報配信装置10は、出力する情報の次元数が最も少ない中間層が出力する情報を特徴情報とし、上述した学習処理や配信処理を実行してもよい。   Here, when the learning device Le has a plurality of intermediate layers, the intermediate layer having the smallest number of nodes, that is, the intermediate layer having the smallest number of dimensions of information to be output, directly indicates the characteristics of the content. it is conceivable that. Therefore, when using the learning device Le having a plurality of intermediate layers, the information distribution apparatus 10 may use the information output from the intermediate layer with the smallest number of dimensions of output information as the feature information. Further, the information distribution apparatus 10 may execute the learning process and the distribution process described above using the information output from the intermediate layer with the smallest number of dimensions of the output information as the feature information.

また、情報配信装置10は、オートエンコーダ以外にも、任意の学習器Leを用いて上述した情報配信処理を実行してもよい。また、情報配信装置10は、コンテンツの内容を示す内容情報を抽象化することで、コンテンツの内容が有する特徴を示す特徴情報を適切に抽出することができるのあれば、ニューラルネットワークやディープラーニング以外にも、任意のモデルを学習してよく、かかるモデルを用いて、上述した情報配信処理を実行してよい。例えば、情報配信装置10は、入力の一部をランダムにマスクし、出力をマウスクする前の入力に近くなるように学習を行ったDAE(Denoising Auto Encoder)を用いてもよい。このようなDAEでは、マスクされた情報をマスクされなかった情報から復元するように特徴を学習するので、一般的に、オートエンコーダよりも特徴情報の精度が高くなる。このため、情報配信装置10は、学習器LeとしてDAEを用いることで、より精度の高いデデュープを行うことができる。   In addition to the auto encoder, the information distribution apparatus 10 may execute the above-described information distribution process using an arbitrary learning device Le. In addition, the information distribution apparatus 10 abstracts the content information indicating the content content, and can appropriately extract the feature information indicating the characteristic of the content content, so long as it is not a neural network or deep learning. In addition, an arbitrary model may be learned, and the information distribution process described above may be executed using such a model. For example, the information distribution apparatus 10 may use a DAE (Denoising Auto Encoder) in which part of the input is randomly masked and learning is performed so that the output is close to the input before the mouse is masked. In such DAE, the feature information is learned so that the masked information is restored from the unmasked information. Therefore, the accuracy of the feature information is generally higher than that of the auto encoder. For this reason, the information delivery apparatus 10 can perform more accurate deduplication by using DAE as the learning device Le.

〔5−2.構成について〕
また、上述した説明では、情報配信装置10は、学習処理と情報配信処理と実行した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報配信装置10は、学習処理を実行する学習装置と、情報配信処理を実行する配信装置とにより実現されてもよい。このような学習装置は、例えば、図4に示す受付部20および学習部30を有し、登録されたコンテンツを教師データとして、学習器Leの学習を行う。
[5-2. About the configuration)
In the above description, the information distribution device 10 performs the learning process and the information distribution process. However, the embodiment is not limited to this. For example, the information distribution device 10 may be realized by a learning device that executes learning processing and a distribution device that executes information distribution processing. Such a learning apparatus includes, for example, the reception unit 20 and the learning unit 30 illustrated in FIG. 4 and performs learning of the learning device Le using the registered content as teacher data.

一方、配信装置は、図4に示す配信部40に加え、特徴情報抽出部32と接続係数修正部33とを有する。また、配信装置は、配信対象となるコンテンツと、学習装置により学習された学習器Leを取得する。そして、配信装置は、取得した学習器Leを用いて、配信するコンテンツの選択、すなわち、デデュープを行い、デデュープの結果選択されたコンテンツを端末装置100に配信する。   On the other hand, the distribution apparatus includes a feature information extraction unit 32 and a connection coefficient correction unit 33 in addition to the distribution unit 40 shown in FIG. Further, the distribution device acquires the content to be distributed and the learning device Le learned by the learning device. Then, using the acquired learning device Le, the distribution device performs selection of content to be distributed, that is, deduplication, and distributes the content selected as a result of deduplication to the terminal device 100.

このように、学習処理と情報配信処理とは、それぞれ個別の情報処理装置により実現されてもよい。また、学習処理と情報配信処理とは、それぞれ個別の情報処理装置により実現される場合、記憶部12が記憶する各データベース14〜17は、各情報処理装置に保持されていてもよく、各情報処理装置がアクセス可能な共有ストレージ等に保持されていてもよい。   Thus, the learning process and the information distribution process may be realized by individual information processing apparatuses, respectively. In addition, when the learning process and the information distribution process are realized by individual information processing devices, the databases 14 to 17 stored in the storage unit 12 may be held in each information processing device. It may be held in a shared storage or the like accessible by the processing device.

また、学習処理と情報配信処理とは、それぞれ個別の情報処理装置により実現される場合、情報配信そりを実行する情報処理装置においては、学習器Leが有するノードのうち、中間層以降のノードが不要となる。そこで、情報配信処理を実行する情報処理装置は、学習処理を実行する情報処理装置によって学習された学習器Leのうち、入力層から中間層までの範囲を有する学習器Leを保持し、保持した学習器Leを用いて、情報配信処理を実行してもよい。   In addition, when the learning process and the information distribution process are realized by individual information processing apparatuses, in the information processing apparatus that executes the information distribution sled, among the nodes of the learning device Le, the nodes after the intermediate layer are It becomes unnecessary. Therefore, the information processing device that executes the information distribution process holds and holds the learning device Le having a range from the input layer to the intermediate layer among the learning devices Le learned by the information processing device that executes the learning process. Information distribution processing may be executed using the learning device Le.

〔5−3.学習器の利用について〕
上述した説明では、情報配信装置10は、学習処理によって学習された学習器Leを用いて、内容が類似するコンテンツの配信を防ぐデデュープを行った。しかしながら、実施形態は、これに限定されるものではない。すなわち、情報配信装置10は、学習器Leを任意の用途で利用してよい。
[5-3. About the use of learning devices)
In the above description, the information distribution apparatus 10 performs de-duplication that prevents distribution of content with similar contents using the learning device Le learned by the learning process. However, the embodiment is not limited to this. That is, the information distribution apparatus 10 may use the learning device Le for any purpose.

例えば、情報配信装置10は、学習器Leを用いて、コンテンツが属するカテゴリを特定してもよい。例えば、情報配信装置10は、新たなコンテンツDの登録を受付けた場合、コンテンツDから抽出した特徴情報と、登録済みのコンテンツAから抽出した特徴情報とを比較する。そして、情報配信装置10は、コンテンツAの特徴情報とコンテンツDの特徴情報とが類似する場合は、コンテンツAのカテゴリと同一のカテゴリにコンテンツDが属すると判定してもよい。   For example, the information distribution apparatus 10 may specify the category to which the content belongs using the learning device Le. For example, when the information distribution apparatus 10 accepts registration of a new content D, the information distribution device 10 compares the feature information extracted from the content D with the feature information extracted from the registered content A. Then, when the feature information of the content A and the feature information of the content D are similar, the information distribution apparatus 10 may determine that the content D belongs to the same category as the category of the content A.

また、情報配信装置10は、学習器Leの学習時に、同一カテゴリに含まれる各サブカテゴリに属する複数のコンテンツから抽出された特徴情報と、新たに登録されるコンテンツから抽出された特徴情報との内積がそれぞれ所定の範囲に収まる場合は、新たに登録されるコンテンツを、そのカテゴリに含まれる新たなサブカテゴリに属するコンテンツであると判定してもよい。   In addition, the information distribution device 10 performs the inner product of the feature information extracted from a plurality of contents belonging to each subcategory included in the same category and the feature information extracted from the newly registered content during learning by the learning device Le. May fall within a predetermined range, the newly registered content may be determined as content belonging to a new subcategory included in the category.

例えば、図13は、実施形態にかかる情報配信装置がコンテンツのサブカテゴリを特定する処理の一例を説明するための図である。例えば、図13中(A)に示す例では、「カテゴリ1」に「サブカテゴリ1−1」および「サブカテゴリ1−2」が含まれている。また、図13中(B)に示すように、「カテゴリ2」には、「サブカテゴリ2−1」および「サブカテゴリ2−2」が含まれている。   For example, FIG. 13 is a diagram for explaining an example of processing in which the information distribution apparatus according to the embodiment specifies a content subcategory. For example, in the example shown in FIG. 13A, “category 1” includes “subcategory 1-1” and “subcategory 1-2”. As shown in FIG. 13B, “category 2” includes “subcategory 2-1” and “subcategory 2-2”.

ここで、情報配信装置10は、「カテゴリ1」に属するコンテンツの特徴情報と、「カテゴリ2」に属するコンテンツの特徴情報とが類似しないように学習器Leの学習を行う。このような学習を行った場合、図1中(C)に示すように、「カテゴリ1」に属するコンテンツの特徴情報と、「カテゴリ2」に属するコンテンツの特徴情報と間の類似度(例えば、内積の値)は、「α」以下の値となる。   Here, the information distribution apparatus 10 learns the learning device Le so that the feature information of the content belonging to “category 1” and the feature information of the content belonging to “category 2” are not similar. When such learning is performed, as shown in FIG. 1C, the similarity between the feature information of the content belonging to “category 1” and the feature information of the content belonging to “category 2” (for example, The value of the inner product is equal to or less than “α”.

ここで、情報配信装置10は、異なるカテゴリのコンテンツから抽出された特徴情報が類似せず、かつ、入力された内容情報と出力する内容情報とが同一となるように、学習器Leの学習を行う。このような学習を行った場合、学習器Leは、コンテンツに含まれる単語等の内容を復元するために暗に必要な情報を残しつつ次元数を削減するとともに、カテゴリが異なるコンテンツの特徴情報同士が類似しないように、内容情報の次元数を圧縮するようになる。   Here, the information distribution device 10 learns the learning device Le so that the feature information extracted from the content of different categories is not similar, and the input content information and the output content information are the same. Do. When such learning is performed, the learning device Le reduces the number of dimensions while leaving information that is implicitly necessary for restoring the content of words and the like included in the content, and also features feature information of content with different categories. The number of dimensions of the content information is compressed so that they are not similar.

すなわち、学習器Leは、単語が有する意味単位でのコンテンツの情報欠損を防ぎつつ、コンテンツ同士の類似度を判定可能な特徴情報を抽出することができる。この結果、学習器Leは、例えば、「日本の野球」についてのコンテンツと、「米国の野球」についてのコンテンツとが「野球」という同一のカテゴリに属していたとしても、ある程度異なる特徴情報を各コンテンツから抽出するようになる。すなわち、学習器Leは、図13中(D)に示すように、同一のカテゴリに属するが、異なるサブカテゴリに属する2つのコンテンツから、「α」よりも値が大きい類似度「β」よりも類似度が小さくなる特徴情報を抽出するようになる。   That is, the learning device Le can extract feature information that can determine the degree of similarity between contents while preventing information loss of the contents in the semantic unit of the word. As a result, the learning device Le may, for example, provide feature information that differs to some extent even if the content about “Japanese baseball” and the content about “US baseball” belong to the same category “baseball”. Extract from content. That is, as shown in FIG. 13D, the learning device Le is similar to the similarity “β” having a value larger than “α” from two contents belonging to the same category but belonging to different subcategories. Feature information with a reduced degree is extracted.

そこで、情報配信装置10は、新たに登録されたコンテンツの特徴情報と、登録済みのコンテンツの特徴情報との間の類似度が、「α」より大きく「β」よりも小さい場合は、新たに登録されたコンテンツが、登録済みのコンテンツと同一カテゴリ内の異なるサブカテゴリに属するコンテンツであると判定する。   Therefore, when the similarity between the newly registered content feature information and the registered content feature information is greater than “α” and smaller than “β”, the information distribution apparatus 10 newly It is determined that the registered content belongs to a different subcategory within the same category as the registered content.

例えば、情報配信装置10は、13中(E)に示すように、新たなコンテンツFを受付ける。かかる場合、情報配信装置10は、図13中(F)に示すように、「サブカテゴリ1−1」に属するコンテンツAの特徴情報とコンテンツFの特徴情報との類似度「γ」を算出する。また、情報配信装置10は、図13中(G)に示すように、「サブカテゴリ1−2」に属するコンテンツBの特徴情報とコンテンツFの特徴情報との類似度「δ」を算出する。   For example, the information distribution apparatus 10 accepts new content F as indicated by (E) in 13. In this case, the information distribution apparatus 10 calculates the similarity “γ” between the feature information of the content A belonging to “subcategory 1-1” and the feature information of the content F, as shown in FIG. Further, the information distribution apparatus 10 calculates the similarity “δ” between the feature information of the content B belonging to “subcategory 1-2” and the feature information of the content F, as shown in FIG.

そして、情報配信装置10は、図13中(H)に示すように、算出された類似度「γ」および「δ」が、「α」よりも大きく「β」よりも小さい場合は、コンテンツFが「カテゴリ1」に属し、「サブカテゴリ1−1」および「サブカテゴリ1−2」以外のサブカテゴリに属すると判定する。この結果、情報配信装置10は、図13中(I)に示すように、「カテゴリ1」に属する新たな「サブカテゴリ1−3」を生成し、コンテンツFを「サブカテゴリ1−3」に属するコンテンツとする。   Then, as shown in (H) in FIG. 13, the information distribution apparatus 10 determines that the content F is similar when the calculated similarities “γ” and “δ” are larger than “α” and smaller than “β”. Belongs to “category 1” and belongs to a subcategory other than “subcategory 1-1” and “subcategory 1-2”. As a result, as shown in (I) of FIG. 13, the information distribution apparatus 10 generates a new “subcategory 1-3” belonging to “category 1”, and content F belongs to “subcategory 1-3”. And

このように、情報配信装置10は、異なるカテゴリに属するコンテンツの特徴情報同士や、異なるサブカテゴリに属するコンテンツの特徴情報同士が類似しないように学習処理を実行した場合は、コンテンツが属するカテゴリやサブカテゴリの類似性を特徴情報に反映させることができる。この結果、情報配信装置10は、新たなコンテンツが、設定されていない新規なサブカテゴリに属するコンテンツ(すなわち、中途半端なコンテンツ)であっても、適切に、コンテンツのカテゴリ分けを行うことができる。   As described above, when the learning process is executed so that the feature information of the contents belonging to different categories or the feature information of the contents belonging to different subcategories are not similar, the information distribution apparatus 10 determines the category or subcategory to which the content belongs. Similarity can be reflected in the feature information. As a result, the information distribution apparatus 10 can appropriately categorize content even if the new content is content belonging to a new subcategory that is not set (that is, halfway content).

なお、情報配信装置10は、同一のサブカテゴリに属するコンテンツの特徴情報同士がより類似するように、学習器Leの学習を行ってもよい。このような処理を実行した場合、情報配信装置10は、新たなコンテンツが既存のサブカテゴリに属するか否か、属しない場合いは、どのカテゴリに属する新たなサブカテゴリに属するかといった判定を実現することができる。   Note that the information distribution device 10 may perform learning by the learning device Le so that feature information of contents belonging to the same subcategory are more similar to each other. When such processing is executed, the information distribution apparatus 10 realizes a determination as to whether or not the new content belongs to an existing subcategory, and if not, to which category a new subcategory belongs. Can do.

〔5−4.ストリームデデュープ〕
ここで、上述した例では、情報配信装置10は、配信対象となる複数のコンテンツをデデュープの対象とした。しかしながら、実施形態は、これに限定されるものではない。例えば、端末装置100は、画面上に複数のコンテンツを並べて表示し、利用者が画面をスクロールさせると、新たに表示するコンテンツの配信を要求し、新たに配信されたコンテンツを表示済みのコンテンツに続けて配置することで、あたかもコンテンツが無限に続くような表示(以下、ストリーム表示と記載する。)を行う場合がある。このため、情報配信装置10は、端末装置100がストリーム表示を行う場合、配信要求を受付ける度に配信対象となるコンテンツのデデュープを行った場合は、既に配信されたコンテンツと類似するコンテンツを配信してしまう恐れがある。
[5-4. (Stream Deduplication)
Here, in the above-described example, the information distribution apparatus 10 sets a plurality of contents to be distributed as targets for deduplication. However, the embodiment is not limited to this. For example, the terminal device 100 displays a plurality of contents side by side on the screen, and when the user scrolls the screen, the terminal apparatus 100 requests distribution of the newly displayed content and sets the newly distributed content to the displayed content. By arranging them continuously, there is a case where a display (hereinafter referred to as a stream display) is performed as if the content continues indefinitely. For this reason, when the terminal device 100 performs stream display, the information distribution device 10 distributes content that is similar to content that has already been distributed, when the content to be distributed is deduplicated each time a distribution request is received. There is a risk that.

そこで、情報配信装置10は、以下のストリームデデュープ処理を実行してもよい。例えば、情報配信装置10は、端末装置100に配信済みのコンテンツから抽出した特徴情報を保持する。また、情報配信装置10は、配信要求を受信すると、配信対象として新たに選択したコンテンツから特徴情報を抽出する。そして、情報配信装置10は、端末装置100に配信済みのコンテンツから抽出された特徴情報と、新たに選択したコンテンツから抽出された特徴情報とが類似するか否かを判定する。   Therefore, the information distribution apparatus 10 may execute the following stream deduplication process. For example, the information distribution device 10 holds feature information extracted from content that has already been distributed to the terminal device 100. Further, when receiving the distribution request, the information distribution apparatus 10 extracts feature information from the content newly selected as a distribution target. Then, the information distribution device 10 determines whether or not the feature information extracted from the content already distributed to the terminal device 100 is similar to the feature information extracted from the newly selected content.

ここで、情報配信装置10は、配信済みのコンテンツから抽出された特徴情報と、新たなコンテンツから抽出された特徴情報とが類似する場合は、新たなコンテンツを配信対象から除外する。一方、情報配信装置10は、配信済みのコンテンツから抽出された特徴情報と、新たなコンテンツから抽出された特徴情報とが類似しない場合は、新たなコンテンツを配信対象とする。   Here, if the feature information extracted from the distributed content is similar to the feature information extracted from the new content, the information distribution device 10 excludes the new content from the distribution target. On the other hand, if the feature information extracted from the distributed content is not similar to the feature information extracted from the new content, the information distribution device 10 sets the new content as a distribution target.

例えば、図14は、実施形態に係る情報配信装置10が実行するストリームデデュープ処理の一例を示す図である。なお、図14に示す例では、情報配信装置10からコンテンツA〜Dが端末装置100に配信済みであるものとする。例えば、図14に示す例では、端末装置100は、情報配信装置10から配信されたコンテンツA〜Dを並べて表示する(ステップS10)。そして、端末装置100は、利用者がスクロール操作を行なうことで、コンテンツA〜Dに続けて表示するコンテンツを取得する必要がある場合は、情報配信装置10に対して配信要求を送信する(ステップS11)。   For example, FIG. 14 is a diagram illustrating an example of a stream deduplication process executed by the information distribution apparatus 10 according to the embodiment. In the example illustrated in FIG. 14, it is assumed that the contents A to D have been distributed from the information distribution device 10 to the terminal device 100. For example, in the example illustrated in FIG. 14, the terminal device 100 displays the contents A to D distributed from the information distribution device 10 side by side (step S10). Then, when it is necessary for the terminal device 100 to acquire the content to be displayed following the content A to D by the user performing a scroll operation, the terminal device 100 transmits a distribution request to the information distribution device 10 (step). S11).

このような場合、情報配信装置10は、端末装置100に配信済みのコンテンツとは特徴情報が類似しない新たなコンテンツを選択する(ステップS12)。例えば、情報配信装置10は、図14中(A)に示すように、配信済みコンテンツA〜Dの特徴情報A〜Dを特徴情報群として保持する。また、情報配信装置10は、図14中(B)に示すように、新たな配信対象コンテンツとしてコンテンツEを選択し、コンテンツEの内容情報Eから特徴情報Eを抽出する。同様に、情報配信装置10は、新たな配信対象コンテンツとしてコンテンツFを選択し、コンテンツFの内容情報Fから特徴情報Fを抽出する。   In such a case, the information distribution device 10 selects new content whose feature information is not similar to the content already distributed to the terminal device 100 (step S12). For example, as illustrated in FIG. 14A, the information distribution apparatus 10 holds the characteristic information A to D of the distributed contents A to D as a characteristic information group. Further, as shown in FIG. 14B, the information distribution apparatus 10 selects the content E as a new distribution target content, and extracts the feature information E from the content information E of the content E. Similarly, the information distribution apparatus 10 selects the content F as a new distribution target content, and extracts the feature information F from the content information F of the content F.

そして、情報配信装置10は、特徴情報Eおよび特徴情報Fと、特徴情報群に含まれる特徴情報A〜Dとが類似するか否かを判定する。そして、例えば、情報配信装置10は、図14中(C)に示すように、特徴情報Eと特徴情報A〜Dのいずれかが類似する場合は、コンテンツEを配信対象から除外する。一方、情報配信装置10は、図14中(D)に示すように、特徴情報Fと特徴情報A〜Dとがいずれも類似しない場合は、コンテンツFを配信対象とする。   Then, the information distribution device 10 determines whether or not the feature information E and the feature information F are similar to the feature information A to D included in the feature information group. For example, as shown in (C) of FIG. 14, the information distribution apparatus 10 excludes the content E from the distribution target when any one of the characteristic information E and the characteristic information A to D is similar. On the other hand, as shown in (D) in FIG. 14, the information distribution device 10 sets the content F as a distribution target when the feature information F and the feature information A to D are not similar to each other.

この結果、情報配信装置10は、コンテンツFを端末装置100へと配信する(ステップS13)。すると、情報配信装置100は、コンテンツFを配信済みのコンテンツA〜Dに続けて表示する。   As a result, the information distribution device 10 distributes the content F to the terminal device 100 (step S13). Then, the information distribution apparatus 100 displays the content F following the distributed content A to D.

〔5−5.デデュープの対象について〕
上述した説明では、情報配信装置10は、内容が類似しないコンテンツを配信した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報配信装置10は、2つのコンテンツから抽出された特徴情報の内積の値が所定の閾値よりも大きい場合には、いずれか一方のコンテンツをデデュープの対象とした。ここで、情報配信装置10は、特徴情報が類似するか否かを判定するための閾値を、任意の値に設定することができる。
[5-5. (Deduplication target)
In the above description, the information distribution apparatus 10 distributes content whose contents are not similar. However, the embodiment is not limited to this. For example, when the value of the inner product of the feature information extracted from the two contents is larger than a predetermined threshold, the information distribution apparatus 10 sets one of the contents as a deduplication target. Here, the information distribution apparatus 10 can set a threshold for determining whether or not the feature information is similar to an arbitrary value.

例えば、情報配信装置10は、2つのコンテンツを閲覧した利用者のうち、半数が類似すると判断し、残りの半数が類似しないと判定するようなコンテンツについては、配信されるように、特徴情報が類似するか否かを判定するための閾値を設定してもよい。また、情報配信装置10は、2つのコンテンツを閲覧した利用者のうち、全員が類似すると判定するようなコンテンツのみを、デデュープの対象とするように、閾値を設定してもよい。   For example, the information distribution device 10 determines that half of the users who have browsed two contents are similar, and the content information that is determined that the other half is not similar is distributed so that the characteristic information is distributed. A threshold for determining whether or not they are similar may be set. In addition, the information distribution apparatus 10 may set a threshold value so that only content that is determined to be similar among all users who have viewed two content items is subject to deduplication.

このように、類似するか否かの判断が利用者によって異なるような複数のコンテンツ、すなわち、人によってとらえ方が異なるコンテンツは、並べて表示した際に選択率や閲覧率が上昇することが経験的に知られている。このため、情報配信装置10は、類似するか否かの判断が利用者によって異なるような複数のコンテンツをデデュープの対象から除外することで、コンテンツの選択率や閲覧率を上昇させることができる。   In this way, it is experiential that the selection rate and browsing rate of multiple contents that have different judgments on whether or not they are different, that is, contents that differ in how they are viewed by people, increase when displayed side by side. Known to. For this reason, the information distribution apparatus 10 can raise the selection rate and browsing rate of a content by excluding the some content from which the judgment whether it is similar differs by the user from the object of a deduplication.

〔5−6.ターゲティングについて〕
ここで、情報配信装置10は、配信対象となるコンテンツの選択に、学習器Leを利用してもよい。例えば、情報配信装置10は、収入、職業、学歴等のデモグラフィック属性や、ライフスタイルや利用者の好み等のサイコグラフィック属性等、利用者U01の属性情報を示す内容情報を求め、学習器Leを用いて、利用者U01の属性情報の特徴を示す特徴情報を抽出する。そして、情報配信装置10は、特徴情報が、利用者U01の属性情報から抽出した特徴情報と類似するコンテンツ、すなわち、利用者U01の属性情報の内容に合致する内容のコンテンツを配信対象としてもよい。
[5-6. About targeting)
Here, the information distribution device 10 may use the learning device Le for selecting content to be distributed. For example, the information distribution apparatus 10 obtains content information indicating attribute information of the user U01 such as demographic attributes such as income, occupation, educational background, psychographic attributes such as lifestyle and user preferences, and the learning device Le. Is used to extract the feature information indicating the feature of the attribute information of the user U01. Then, the information distribution apparatus 10 may target content whose feature information is similar to the feature information extracted from the attribute information of the user U01, that is, content whose content matches the content of the attribute information of the user U01. .

このような処理を実行することで、情報配信装置10は、ターゲティングの精度を向上させることができる。なお、このような処理を実行する場合、情報配信装置10は、コンテンツだけではなく、利用者U01の属性情報を示す内容情報が、特徴情報から上手く復元されるように、学習器Leの学習を行えばよい。   By executing such processing, the information distribution apparatus 10 can improve the accuracy of targeting. When performing such processing, the information distribution device 10 learns the learning device Le so that not only the content but also the content information indicating the attribute information of the user U01 can be successfully restored from the feature information. Just do it.

〔5−7.コンテンツについて〕
上述した説明では、情報配信装置10は、ニュースやコラムなどのテキストを含むコンテンツの内容情報から特徴情報を抽出した。しかしながら、実施形態は、これに限定されるものではない。すなわち、情報配信装置10は、画像や動画像等のコンテンツから特徴情報を抽出を行い、抽出した特徴情報から元の画像や動画像を復元するとともに、類似する画像や動画像から類似する特徴情報を抽出し、類似しない画像や動画像から類似しない特徴情報を抽出する学習器Leの学習を行ってもよい。また、情報配信装置10は、このような学習器Leを用いて、画像や動画像等が類似するか否かを判定してもよい。
[5-7. About content)
In the above description, the information distribution apparatus 10 extracts feature information from the content information of content including text such as news and columns. However, the embodiment is not limited to this. That is, the information distribution apparatus 10 extracts feature information from content such as an image or a moving image, restores the original image or moving image from the extracted feature information, and similar feature information from a similar image or moving image. And learning by a learning device Le that extracts feature information that is not similar from a dissimilar image or moving image. Moreover, the information distribution apparatus 10 may determine whether an image, a moving image, etc. are similar using such a learning device Le.

すなわち、情報配信装置10は、テキスト情報のみならず、画像や動画像等、情報の次元数を圧縮することで特徴情報を抽出することができるコンテンツであれば、任意のコンテンツについて、上述した学習処理や情報配信処理を採用することができる。例えば、情報配信装置10は、音楽等のコンテンツについて、上述した学習処理や情報配信処理を採用することができる。より具体的には、情報配信装置10は、コンテンツが画像や動画像である場合は、各画素のグレースケールや色彩を示す値を、コンテンツに含まれる情報の局所表現や分散表現として用いることで、コンテンツの内容を示す内容情報を生成すればよい。また、情報配信装置10は、コンテンツが音声である場合は、各時間帯における音声の周波数や振幅等を数値化した値をコンテンツに含まれる情報の局所表現や分散表現として用いることで、コンテンツの内容を示す内容情報を生成すればよい。   That is, the information distribution apparatus 10 can learn not only text information but also any content as long as the content information can be extracted by compressing the dimensionality of information such as an image or a moving image. Processing and information distribution processing can be adopted. For example, the information distribution apparatus 10 can employ the learning process and the information distribution process described above for content such as music. More specifically, when the content is an image or a moving image, the information distribution apparatus 10 uses a value indicating the gray scale or color of each pixel as a local representation or distributed representation of information included in the content. What is necessary is just to produce | generate the content information which shows the content of a content. In addition, when the content is audio, the information distribution apparatus 10 uses values obtained by quantifying the frequency and amplitude of audio in each time zone as local representation and distributed representation of information included in the content. What is necessary is just to produce | generate the content information which shows the content.

〔5−8.広告の入稿〕
なお、コンテンツが広告である場合、広告主は、広告コンテンツの入稿を代理店に依頼する場合もある。この場合、情報配信装置10に広告コンテンツを入稿するのは代理店となる。本明細書では、コンテンツが広告である場合、「クライアント」といった表記は、広告コンテンツによって広告が行われるクライアント等、広告主だけでなく代理店を含む概念であり、「クライアント端末」といった表記は、広告主が使用する装置だけでなく代理店によって利用される装置を含む概念であるものとする。
[5-8. Ad trafficking)
When the content is an advertisement, the advertiser may request an agency to submit the advertisement content. In this case, it is the agency that submits the advertising content to the information distribution apparatus 10. In this specification, when the content is an advertisement, a notation such as “client” is a concept including not only an advertiser but also an agency such as a client in which an advertisement is performed by the advertisement content, and a notation such as “client terminal” It is assumed that the concept includes a device used by an agency as well as a device used by an advertiser.

〔5−9.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[5-9. Others]
In addition, among the processes described in the above embodiment, all or part of the processes described as being automatically performed can be performed manually, or the processes described as being performed manually can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedures, specific names, and information including various data and parameters shown in the document and drawings can be arbitrarily changed unless otherwise specified.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。   Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.

例えば、図4に示した各データベース14〜17は、情報配信装置10が保持せずに、ストレージサーバ等に保持されていてもよい。この場合、情報配信装置10は、ストレージサーバにアクセスすることで、コンテンツ等を取得することとなる。   For example, each of the databases 14 to 17 illustrated in FIG. 4 may be held by a storage server or the like without being held by the information distribution apparatus 10. In this case, the information distribution apparatus 10 acquires content and the like by accessing the storage server.

また、例えば、上述してきた情報配信装置10は、端末装置100から配信要求を受け付けたり、コンテンツを配信したりといった、ユーザとのやりとりを中心に実行するフロントエンドサーバ側と、広告コンテンツの情報配信処理などを実行するバックエンドサーバ側に分散されてもよい。すなわち、情報配信装置10は、学習器Leの学習を行う学習装置と、コンテンツの配信を行う配信装置とによって実現されてもよい。   Further, for example, the information distribution apparatus 10 described above receives information from the terminal apparatus 100, distributes content, and the front-end server side that mainly executes interaction with the user, such as information distribution, and advertisement content information distribution. It may be distributed on the back-end server side that executes processing or the like. That is, the information distribution device 10 may be realized by a learning device that learns the learning device Le and a distribution device that distributes content.

〔5−10.ハードウェア構成〕
また、上述してきた実施形態に係る情報配信装置10は、例えば図15に示すような構成のコンピュータ1000によって実現される。図15は、情報配信装置の機能を実現するコンピュータのハードウェア構成の一例を示す図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
[5-10. Hardware configuration)
Further, the information distribution apparatus 10 according to the embodiment described above is realized by a computer 1000 having a configuration as shown in FIG. 15, for example. FIG. 15 is a diagram illustrating an example of a hardware configuration of a computer that realizes the function of the information distribution apparatus. The computer 1000 includes a CPU 1100, RAM 1200, ROM 1300, HDD 1400, communication interface (I / F) 1500, input / output interface (I / F) 1600, and media interface (I / F) 1700.

CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。   The CPU 1100 operates based on a program stored in the ROM 1300 or the HDD 1400 and controls each unit. The ROM 1300 stores a boot program executed by the CPU 1100 when the computer 1000 is started up, a program depending on the hardware of the computer 1000, and the like.

HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、また、ネットワークNを介してCPU1100が生成したデータを他の機器へ送信する。CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。   The HDD 1400 stores a program executed by the CPU 1100, data used by the program, and the like. The communication interface 1500 receives data from other devices via the network N and sends the data to the CPU 1100, and transmits data generated by the CPU 1100 to other devices via the network N. The CPU 1100 controls an output device such as a display and a printer and an input device such as a keyboard and a mouse via the input / output interface 1600. The CPU 1100 acquires data from the input device via the input / output interface 1600. Further, the CPU 1100 outputs the data generated via the input / output interface 1600 to the output device.

メディアインターフェイス1700は、記録媒体1800に格納されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。   The media interface 1700 reads a program or data stored in the recording medium 1800 and provides it to the CPU 1100 via the RAM 1200. The CPU 1100 loads such a program from the recording medium 1800 onto the RAM 1200 via the media interface 1700, and executes the loaded program. The recording medium 1800 is, for example, an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory. Etc.

例えば、コンピュータ1000が情報配信装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部13の機能を実現する。また、HDD1400には、記憶部12内の各データが格納される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網を介してこれらのプログラムを取得してもよい。   For example, when the computer 1000 functions as the information distribution apparatus 10, the CPU 1100 of the computer 1000 implements the function of the control unit 13 by executing a program loaded on the RAM 1200. In addition, each data in the storage unit 12 is stored in the HDD 1400. The CPU 1100 of the computer 1000 reads and executes these programs from the recording medium 1800. However, as another example, these programs may be acquired from other devices via a communication network.

〔6.効果〕
上述したように、情報配信装置10は、コンテンツに含まれる複数の情報からコンテンツの内容を示す分散情報を生成し、分散情報が示す内容を抽象化することで、コンテンツの内容が有する特徴を示す特徴情報を抽出する。そして、情報配信装置10は、複数のコンテンツから抽出された特徴情報が類似するか否かに基づいて、複数のコンテンツのうち配信対象とするコンテンツを決定する。
[6. effect〕
As described above, the information distribution device 10 generates shared information indicating the content content from a plurality of pieces of information included in the content, and abstracts the content indicated by the shared information, thereby indicating the characteristics of the content content. Extract feature information. And the information delivery apparatus 10 determines the content made into distribution object among several content based on whether the feature information extracted from several content is similar.

このように、情報配信装置10は、コンテンツの内容を示す特徴情報を用いて、コンテンツが類似するか否かを判定するので、コンテンツ同士が類似するか否かを判定精度を向上させ、デデュープの性能を向上させることができる。例えば、情報配信装置10は、表記が類似するが内容が異なる複数のコンテンツを、類似しないコンテンツと判定し、表記が異なるが内容が類似する複数のコンテンツを、類似すると判定することができる。   As described above, the information distribution apparatus 10 determines whether or not the contents are similar by using the feature information indicating the contents of the content. Therefore, it is possible to improve the determination accuracy whether or not the contents are similar and Performance can be improved. For example, the information distribution apparatus 10 can determine a plurality of contents with similar notation but different contents as dissimilar contents, and determine a plurality of contents with different notation but similar contents as similar.

また、情報配信装置10は、コンテンツのに含まれる情報の分散表現又は局所表現から内容情報を生成し、生成した内容情報を抽象化することで、コンテンツの内容が有する特徴を示す特徴情報を抽出する。このため、情報配信装置10は、テキスト等、内容情報に変換可能なコンテンツ同士が類似するか否かを適切に判定することができる。   Further, the information distribution device 10 generates content information from the distributed representation or local representation of the information included in the content, and extracts the feature information indicating the characteristics of the content by abstracting the generated content information To do. For this reason, the information distribution apparatus 10 can appropriately determine whether contents such as text that can be converted into content information are similar to each other.

また、情報配信装置10は、内容情報として複数次元の情報を生成し、生成した内容情報の次元数を圧縮することでコンテンツの内容が有する特徴を示す特徴情報を抽出する学習器Leを用いて、複数のコンテンツの特徴情報をそれぞれ抽出する。このため、情報配信装置10は、コンテンツの表記等ではなく、コンテンツの内容が有する特徴同士を比較することができるので、コンテンツ同士が類似するか否かを適切に判定することができる。   In addition, the information distribution apparatus 10 generates multi-dimensional information as content information, and uses a learning device Le that extracts feature information indicating the characteristics of the content by compressing the number of dimensions of the generated content information. The feature information of a plurality of contents is extracted. For this reason, since the information distribution apparatus 10 can compare the characteristics of the content, not the content notation or the like, it can appropriately determine whether or not the content is similar.

また、情報配信装置10は、学習器Leとして、コンテンツの内容情報の次元数を圧縮して特徴情報を抽出し、抽出した特徴情報から元の内容情報を復元するとともに、類似する複数のコンテンツから抽出された各特徴情報が類似し、類似しない複数のコンテンツから抽出された各特徴情報が類似しないように学習が行われた学習器Leを用いる。このため、情報配信装置10は、コンテンツの内容が有する特徴同士を比較することができるので、コンテンツ同士が類似するか否かを適切に判定することができる。   Further, the information distribution apparatus 10 extracts, as the learning device Le, the feature information by compressing the number of dimensions of the content information of the content, restores the original content information from the extracted feature information, and extracts a plurality of similar contents. A learning device Le in which learning is performed so that the extracted feature information is similar and the feature information extracted from a plurality of dissimilar contents is not similar is used. For this reason, since the information distribution apparatus 10 can compare the characteristics of the contents, it can appropriately determine whether the contents are similar.

また、情報配信装置10は、学習器Leとして、類似する複数のコンテンツから抽出された各特徴情報の内積が、類似しない複数のコンテンツから抽出された各特徴情報の内積よりも大きくなるように学習が行われた学習器Leを用いる。このため、情報配信装置10は、コンテンツ同士が類似するか否かを適切に判定することができる。   Further, the information distribution apparatus 10 learns as a learning device Le so that the inner product of each feature information extracted from a plurality of similar contents is larger than the inner product of each feature information extracted from a plurality of similar contents. The learning device Le is used. For this reason, the information distribution apparatus 10 can appropriately determine whether or not the contents are similar to each other.

また、情報配信装置10は、学習器Leとして、同一カテゴリに属する複数のコンテンツから抽出された各特徴情報が類似し、異なるカテゴリに属する複数のコンテンツから抽出された各特徴情報がが類似しないように学習が行われた学習器Leを用いる。このため、情報配信装置10は、教師データとするコンテンツを個別に用意せずとも、配信対象として登録されたコンテンツを用いて、学習器Leの学習できるとともに、コンテンツ同士が類似するか否かを適切に判定することができる。   Further, the information distribution apparatus 10 serves as the learning device Le so that the feature information extracted from the plurality of contents belonging to the same category is similar and the feature information extracted from the plurality of contents belonging to different categories is not similar. The learning device Le in which learning is performed is used. For this reason, the information distribution apparatus 10 can learn the learning device Le using the content registered as the distribution target without separately preparing the content as the teacher data, and determine whether the content is similar to each other. It can be judged appropriately.

また、情報配信装置10は、学習器Leとして、同一のカテゴリに含まれる複数のサブカテゴリのうち、同一のサブカテゴリに属する複数のコンテンツから抽出された各特徴情報が類似し、異なるサブカテゴリに属する複数のコンテンツから抽出された各特徴情報が類似しないように学習が行われた学習器Leを用いる。このため、情報配信装置10は、コンテンツ同士が類似するか否かの判定精度をさらに向上させることができる。   Further, the information distribution device 10 uses the plurality of subcategories included in the same category as the learning device Le, and the feature information extracted from the plurality of contents belonging to the same subcategory is similar, and a plurality of subcategories belonging to different subcategories A learning device Le in which learning is performed so that the feature information extracted from the content is not similar is used. For this reason, the information distribution apparatus 10 can further improve the determination accuracy of whether or not the contents are similar.

また、情報配信装置10は、同一のカテゴリに含まれる各サブカテゴリに属する複数のコンテンツから抽出された各特徴情報と、比較対象となるコンテンツから抽出された特徴情報との内積が、それぞれ所定の範囲に収まる場合は、比較対象となるコンテンツを、所定のカテゴリに含まれる新たなサブカテゴリに属するコンテンツとする。このため、情報配信装置10は、新たなコンテンツを新規なサブカテゴリに分類することができる。   Further, the information distribution apparatus 10 has a predetermined range in which the inner product of each feature information extracted from a plurality of contents belonging to each subcategory included in the same category and the feature information extracted from the content to be compared is within a predetermined range. If it falls within the range, the content to be compared is set as content belonging to a new subcategory included in a predetermined category. For this reason, the information distribution apparatus 10 can classify new contents into new subcategories.

また、情報配信装置10は、2つのコンテンツから抽出された特徴情報が類似すると判定された場合は、いずれか一方のコンテンツを配信対象とし、当該2つのコンテンツから抽出された特徴情報が類似しないと判定した場合は、両方のコンテンツを配信対象とする。このため、情報配信装置10は、デデュープを実現することができる。   Further, when it is determined that the feature information extracted from the two contents is similar, the information distribution apparatus 10 sets one of the contents as a distribution target and the feature information extracted from the two contents is not similar. If determined, both contents are targeted for distribution. For this reason, the information distribution apparatus 10 can implement deduplication.

また、情報配信装置10は、学習器Leの教師データとして、類似する複数のコンテンツと、類似しない複数のコンテンツとを受付ける。そして、情報配信装置10は、入力されたコンテンツの内容情報と再現された内容情報とが一致するように、学習器Leが有する各ノード間の接続係数を修正する。同時に、情報配信装置10は、類似する複数のコンテンツの内容情報から学習部が抽出する各特徴情報が類似し、類似しない複数のコンテンツの内容情報から学習器Leが抽出する各特徴情報が類似しなくなるように、学習器Leが有する各ノード間の接続係数を修正する。   Further, the information distribution apparatus 10 accepts a plurality of similar contents and a plurality of dissimilar contents as teacher data of the learning device Le. Then, the information distribution device 10 corrects the connection coefficient between the nodes included in the learning device Le so that the content information of the input content matches the reproduced content information. At the same time, in the information distribution apparatus 10, the feature information extracted by the learning unit from the content information of a plurality of similar contents is similar, and the feature information extracted by the learning device Le from the content information of a plurality of similar contents is similar. The connection coefficient between the nodes included in the learning device Le is corrected so that it disappears.

このため、情報配信装置10は、コンテンツが類似するか否かを適切に判定することができる学習器Leを学習することができる。また、情報配信装置10は、詳細に分類された教師データを容易せずとも、新たなコンテンツを新規なサブカテゴリに属するコンテンツであると判定することができる程度に、コンテンツから特徴情報を抽出することができる学習器Leを学習することができる。   For this reason, the information distribution apparatus 10 can learn the learning device Le that can appropriately determine whether or not the contents are similar. Further, the information distribution apparatus 10 extracts feature information from the content to such an extent that it is possible to determine that the new content belongs to a new subcategory without facilitating detailed classified teacher data. It is possible to learn a learning device Le that can

また、情報配信装置10は、類似する複数のコンテンツから抽出された各特徴情報の集合類似度、コサイン類似度、又は内積の値が、類似しない複数のコンテンツから抽出された各特徴情報の集合類似度、コサイン類似度、又は内積の値よりも大きくなるように、学習器Leが有する各ノード間の接続係数を修正する。このため、情報配信装置10は、類似するコンテンツの各特徴情報が類似し、類似しないコンテンツの各特徴情報が類似しなないように、学習器Leの学習を行うことができる。   Also, the information distribution apparatus 10 collects similarities of feature information extracted from a plurality of contents whose set similarity, cosine similarity, or inner product values of the feature information extracted from a plurality of similar contents are not similar. The connection coefficient between the nodes included in the learning device Le is corrected so as to be larger than the value of the degree, the cosine similarity, or the inner product. For this reason, the information distribution apparatus 10 can learn the learning device Le so that the feature information of similar content is similar and the feature information of dissimilar content is not similar.

また、情報配信装置10は、学習器Leが有する層のうち、出力する情報の次元数が最少となる中間層から出力された情報を特徴情報とする。このため、情報配信装置10は、コンテンツの表記等に現れる情報を除いた特徴情報、すなわち、コンテンツの内容が有する意味の特徴を最も適切に示した特徴情報を用いて、コンテンツが類似するか否かを判定することができる。   Further, the information distribution apparatus 10 uses, as feature information, information output from an intermediate layer in which the number of dimensions of information to be output is the smallest among the layers included in the learning device Le. For this reason, the information distribution apparatus 10 uses the feature information excluding information appearing in the content description or the like, that is, the feature information that most appropriately indicates the semantic feature of the content, and determines whether the content is similar. Can be determined.

また、情報配信装置10は、端末装置100へと順次配信されるコンテンツの特徴情報を抽出する。また、情報配信装置10は、配信済みのコンテンツから抽出された特徴情報と、新たなコンテンツから抽出された特徴情報とが類似するか否かを判定する。そして、情報配信装置10は、配信済みのコンテンツから抽出された特徴情報と、新たなコンテンツから抽出された特徴情報とが類似する場合は、新たなコンテンツを配信対象から除外する。一方、情報配信装置10は、配信済みのコンテンツから抽出された特徴情報と、新たなコンテンツから抽出された特徴情報とが類似しない場合は、新たなコンテンツを配信対象とする。   In addition, the information distribution device 10 extracts feature information of content that is sequentially distributed to the terminal device 100. Further, the information distribution apparatus 10 determines whether or not the feature information extracted from the distributed content is similar to the feature information extracted from the new content. Then, when the feature information extracted from the distributed content is similar to the feature information extracted from the new content, the information distribution device 10 excludes the new content from the distribution target. On the other hand, if the feature information extracted from the distributed content is not similar to the feature information extracted from the new content, the information distribution device 10 sets the new content as a distribution target.

この結果、情報配信装置10は、配信済みのコンテンツの特徴情報とは類似しない特徴情報のコンテンツを配信できる。このため、情報配信装置10は、端末装置100がストリーム表示を行う場合にも、配信済みのコンテンツとは類似しないコンテンツを配信することができる。   As a result, the information distribution apparatus 10 can distribute the content of feature information that is not similar to the feature information of the distributed content. For this reason, even when the terminal device 100 performs stream display, the information distribution device 10 can distribute content that is not similar to the distributed content.

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。   As described above, some of the embodiments of the present application have been described in detail based on the drawings. It is possible to implement the present invention in other forms with improvements.

また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、配信部は、配信手段や配信回路に読み替えることができる。   Moreover, the above-mentioned “section (module, unit)” can be read as “means”, “circuit”, and the like. For example, the distribution unit can be read as distribution means or a distribution circuit.

10 情報配信装置
11 通信部
12 記憶部
13 制御部
14 接続係数データベース
15 コンテンツデータベース
16 内容情報データベース
17 特徴情報データベース
20 受付部
30 学習部
31 内容情報抽出部
32 特徴情報抽出部
33 接続係数修正部
40 配信部
41 判定部
42 決定部
DESCRIPTION OF SYMBOLS 10 Information delivery apparatus 11 Communication part 12 Storage part 13 Control part 14 Connection coefficient database 15 Content database 16 Content information database 17 Feature information database 20 Reception part 30 Learning part 31 Content information extraction part 32 Feature information extraction part 33 Connection coefficient correction part 40 Distribution unit 41 Determination unit 42 Determination unit

Claims (11)

コンテンツに含まれる複数の情報から当該コンテンツの内容を示す内容情報として複数次元の情報を生成し、当該内容情報が入力された場合に当該内容情報の次元数を圧縮することで当該コンテンツの内容が有する特徴を示す特徴情報を抽出するとともに、当該特徴情報の次元数を拡張することで入力された前記内容情報を復元する機能を有する学習器であって、入力された内容情報と復元された内容情報とが同じとなり、かつ、同一カテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度が、異なるカテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度よりも大きくなるように学習が行われた学習器を用いて、当該内容情報が示す内容を抽象化することで、前記コンテンツの内容が有する特徴を示す特徴情報を抽出する抽出部と、
複数のコンテンツから抽出された特徴情報が類似するか否かを判定する判定部と、
前記特徴情報が類似するか否かに基づいて、前記複数のコンテンツのうち配信対象とするコンテンツを決定する決定部と
を有することを特徴とする判定装置。
By generating multi-dimensional information as content information indicating the content of the content from the multiple pieces of information included in the content, and when the content information is input, the number of dimensions of the content information is compressed so that the content of the content is A learning device having a function of extracting feature information indicating features and restoring the content information input by expanding the number of dimensions of the feature information, the input content information and the restored content The similarity between feature information extracted from a plurality of contents belonging to the same category and the same information is larger than the similarity between feature information extracted from a plurality of contents belonging to different categories By using the learning device in which learning is performed, the content indicated by the content information is abstracted, thereby indicating the characteristics of the content. An extraction unit to extract the information,
A determination unit for determining whether or not feature information extracted from a plurality of contents is similar;
And a determination unit that determines content to be distributed among the plurality of contents based on whether the feature information is similar.
前記抽出部は、前記コンテンツに含まれる情報の分散表現又は局所表現から前記内容情報を生成し、生成した内容情報を抽象化することで、当該コンテンツの内容が有する特徴を示す特徴情報を抽出する
ことを特徴とする請求項1に記載の判定装置。
The extraction unit generates the content information from the distributed representation or local representation of the information included in the content, and extracts the feature information indicating the characteristics of the content by abstracting the generated content information The determination apparatus according to claim 1, wherein:
前記抽出部は、前記内容情報として、複数次元の情報を生成し、当該内容情報の次元数を圧縮することで当該コンテンツの内容が有する特徴を示す特徴情報を抽出する学習器を用いて、前記複数のコンテンツの特徴情報をそれぞれ抽出する
ことを特徴とする請求項2に記載の判定装置。
The extraction unit generates, as the content information, information of a plurality of dimensions, and compresses the number of dimensions of the content information to extract feature information indicating the characteristics of the content, thereby using the learning device. The determination apparatus according to claim 2, wherein feature information of each of a plurality of contents is extracted.
前記抽出部は、前記学習器として、前記コンテンツの内容情報の次元数を圧縮して特徴情報を抽出し、抽出した特徴情報から元の内容情報を復元するとともに、類似する複数のコンテンツから抽出された各特徴情報が類似し、類似しない複数のコンテンツから抽出された各特徴情報が類似しないように学習が行われた学習器を用いる
ことを特徴とする請求項3に記載の判定装置。
The extraction unit, as the learning device, extracts feature information by compressing the dimensionality of the content information of the content, restores original content information from the extracted feature information, and extracts from the plurality of similar content The determination apparatus according to claim 3, wherein a learning device is used in which learning is performed such that each feature information is similar and each feature information extracted from a plurality of dissimilar contents is not similar.
前記抽出部は、前記学習器として、類似する複数のコンテンツから抽出された各特徴情報の内積が、類似しない複数のコンテンツから抽出された各特徴情報の内積よりも大きくなるように学習が行われた学習器を用いる
ことを特徴とする請求項4に記載の判定装置。
The extraction unit, as the learning device, performs learning so that the inner product of each feature information extracted from a plurality of similar contents is larger than the inner product of each feature information extracted from a plurality of similar contents. The determination device according to claim 4, wherein a learning device is used.
前記決定部は、2つのコンテンツから抽出された特徴情報が類似すると判定された場合は、いずれか一方のコンテンツを配信対象とし、当該2つのコンテンツから抽出された特徴情報が類似しないと判定した場合は、両方のコンテンツを配信対象とする
ことを特徴とする請求項1〜5のうちいずれか1つに記載の判定装置。
When the determination unit determines that the feature information extracted from the two contents is similar, determines that one of the contents is a distribution target and the feature information extracted from the two contents is not similar The determination apparatus according to any one of claims 1 to 5, wherein both contents are to be distributed.
入力データに対する演算結果を出力する複数のノードを多層に接続した学習器であって、入力されたコンテンツの内容を示す内容情報が入力された場合に当該内容情報の次元数を圧縮することで当該コンテンツの内容が有する特徴を示す特徴情報を抽出するとともに、当該特徴情報の次元数を拡張することで入力された前記内容情報を復元する機能を有する学習器の教師データとして、類似する複数のコンテンツと、類似しない複数のコンテンツとを受付ける受付部と、
入力された内容情報と復元された内容情報とが同じとなり、かつ、同一カテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度が、異なるカテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度よりも大きくなるように、前記学習器が有する各ノード間の接続係数を修正する修正部と
を有することを特徴とする学習装置。
A learning device in which a plurality of nodes that output operation results for input data are connected in multiple layers, and when content information indicating the content of the input content is input, by compressing the number of dimensions of the content information A plurality of similar contents as teacher data of a learning device having a function of extracting feature information indicating features of content contents and restoring the content information input by expanding the number of dimensions of the feature information And a reception unit for receiving a plurality of dissimilar contents,
Feature information extracted from a plurality of contents belonging to different categories in which the input content information is the same as the restored content information and the similarity between the feature information extracted from the plurality of contents belonging to the same category A learning device comprising: a correction unit that corrects a connection coefficient between the nodes included in the learning device so that the degree of similarity is greater than each other.
前記修正部は、類似する複数のコンテンツから抽出された各特徴情報の集合類似度、コサイン類似度、又は内積の値が、類似しない複数のコンテンツから抽出された各特徴情報の集合類似度、コサイン類似度、又は内積の値よりも大きくなるように、前記学習器が有する各ノード間の接続係数を修正する
ことを特徴とする請求項7に記載の学習装置。
The correction unit includes a set similarity, cosine of each feature information extracted from a plurality of contents whose set similarity, cosine similarity, or inner product value of each feature information extracted from a plurality of similar contents is not similar. The learning apparatus according to claim 7, wherein a connection coefficient between the nodes included in the learning device is corrected so as to be larger than a similarity or an inner product value.
前記修正部は、前記学習器が有する層のうち、出力する情報の次元数が最少となる中間層から出力された情報を前記特徴情報とする
ことを特徴とする請求項7または8に記載の学習装置。
The said correction | amendment part makes the information output from the intermediate | middle layer from which the dimension number of the information output among the layers which the said learning device has the minimum becomes the said feature information. Learning device.
判定装置が実行する判定方法であって、
コンテンツに含まれる複数の情報から当該コンテンツの内容を示す内容情報として複数次元の情報を生成し、当該内容情報が入力された場合に当該内容情報の次元数を圧縮することで当該コンテンツの内容が有する特徴を示す特徴情報を抽出するとともに、当該特徴情報の次元数を拡張することで入力された前記内容情報を復元する機能を有する学習器であって、入力された内容情報と復元された内容情報とが同じとなり、かつ、同一カテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度が、異なるカテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度よりも大きくなるように学習が行われた学習器を用いて、当該内容情報が示す内容を抽象化することで、前記コンテンツの内容が有する特徴を示す特徴情報を抽出する抽出工程と、
複数のコンテンツから抽出された特徴情報が類似するか否かを判定する判定工程と、
前記特徴情報が類似するか否かに基づいて、前記複数のコンテンツのうち配信対象とするコンテンツを決定する決定工程と
を含むことを特徴とする判定方法。
A determination method executed by a determination device,
By generating multi-dimensional information as content information indicating the content of the content from the multiple pieces of information included in the content, and when the content information is input, the number of dimensions of the content information is compressed so that the content of the content is A learning device having a function of extracting feature information indicating features and restoring the content information input by expanding the number of dimensions of the feature information, the input content information and the restored content The similarity between feature information extracted from a plurality of contents belonging to the same category and the same information is larger than the similarity between feature information extracted from a plurality of contents belonging to different categories By using the learning device in which learning is performed, the content indicated by the content information is abstracted, thereby indicating the characteristics of the content. An extraction step of extracting information,
A determination step of determining whether or not feature information extracted from a plurality of contents is similar;
And a determining step of determining content to be distributed among the plurality of contents based on whether the feature information is similar.
コンピュータに、
コンテンツに含まれる複数の情報から当該コンテンツの内容を示す内容情報として複数次元の情報を生成し、当該内容情報が入力された場合に当該内容情報の次元数を圧縮することで当該コンテンツの内容が有する特徴を示す特徴情報を抽出するとともに、当該特徴情報の次元数を拡張することで入力された前記内容情報を復元する機能を有する学習器であって、入力された内容情報と復元された内容情報とが同じとなり、かつ、同一カテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度が、異なるカテゴリに属する複数のコンテンツから抽出された特徴情報同士の類似度よりも大きくなるように学習が行われた学習器を用いて、当該内容情報が示す内容を抽象化することで、前記コンテンツの内容が有する特徴を示す特徴情報を抽出する抽出手順と、
複数のコンテンツから抽出された特徴情報が類似するか否かを判定する判定手順と、
前記特徴情報が類似するか否かに基づいて、前記複数のコンテンツのうち配信対象とするコンテンツを決定する決定手順と
を実行させることを特徴とする判定プログラム。
On the computer,
By generating multi-dimensional information as content information indicating the content of the content from the multiple pieces of information included in the content, and when the content information is input, the number of dimensions of the content information is compressed so that the content of the content is A learning device having a function of extracting feature information indicating features and restoring the content information input by expanding the number of dimensions of the feature information, the input content information and the restored content The similarity between feature information extracted from a plurality of contents belonging to the same category and the same information is larger than the similarity between feature information extracted from a plurality of contents belonging to different categories By using the learning device in which learning is performed, the content indicated by the content information is abstracted, thereby indicating the characteristics of the content. And the extraction procedure to extract the information,
A determination procedure for determining whether or not feature information extracted from a plurality of contents is similar;
A determination program for determining a content to be distributed among the plurality of contents based on whether the feature information is similar.
JP2017113031A 2017-06-07 2017-06-07 Determination device, learning device, determination method and determination program Active JP6522050B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017113031A JP6522050B2 (en) 2017-06-07 2017-06-07 Determination device, learning device, determination method and determination program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017113031A JP6522050B2 (en) 2017-06-07 2017-06-07 Determination device, learning device, determination method and determination program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015176169A Division JP6261547B2 (en) 2015-09-07 2015-09-07 Determination device, determination method, and determination program

Publications (2)

Publication Number Publication Date
JP2017201535A true JP2017201535A (en) 2017-11-09
JP6522050B2 JP6522050B2 (en) 2019-05-29

Family

ID=60264593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017113031A Active JP6522050B2 (en) 2017-06-07 2017-06-07 Determination device, learning device, determination method and determination program

Country Status (1)

Country Link
JP (1) JP6522050B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144639A (en) * 2018-02-16 2019-08-29 株式会社日立製作所 Method for training model outputting vector indicating tag set corresponding to image
JP2020115289A (en) * 2019-01-17 2020-07-30 富士通株式会社 Learning method, learning program, and learning device
US11145062B2 (en) 2019-03-19 2021-10-12 Fujitsu Limited Estimation apparatus, estimation method, and non-transitory computer-readable storage medium for storing estimation program
WO2023166745A1 (en) * 2022-03-04 2023-09-07 日本電気株式会社 Learning device, learning method, and recording medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164049A (en) * 2011-02-04 2012-08-30 Nippon Telegr & Teleph Corp <Ntt> Document retrieval device, document retrieval method and document retrieval program
US20120330955A1 (en) * 2011-06-27 2012-12-27 Nec Corporation Document similarity calculation device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164049A (en) * 2011-02-04 2012-08-30 Nippon Telegr & Teleph Corp <Ntt> Document retrieval device, document retrieval method and document retrieval program
US20120330955A1 (en) * 2011-06-27 2012-12-27 Nec Corporation Document similarity calculation device
JP2013008255A (en) * 2011-06-27 2013-01-10 Nec Corp Document similarity calculation device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144639A (en) * 2018-02-16 2019-08-29 株式会社日立製作所 Method for training model outputting vector indicating tag set corresponding to image
JP2020115289A (en) * 2019-01-17 2020-07-30 富士通株式会社 Learning method, learning program, and learning device
JP7163786B2 (en) 2019-01-17 2022-11-01 富士通株式会社 LEARNING METHOD, LEARNING PROGRAM AND LEARNING DEVICE
US11145062B2 (en) 2019-03-19 2021-10-12 Fujitsu Limited Estimation apparatus, estimation method, and non-transitory computer-readable storage medium for storing estimation program
WO2023166745A1 (en) * 2022-03-04 2023-09-07 日本電気株式会社 Learning device, learning method, and recording medium

Also Published As

Publication number Publication date
JP6522050B2 (en) 2019-05-29

Similar Documents

Publication Publication Date Title
JP6261547B2 (en) Determination device, determination method, and determination program
US11853354B2 (en) Override of automatically shared meta-data of media
JP7154334B2 (en) Using machine learning to recommend livestream content
US11601703B2 (en) Video recommendation based on video co-occurrence statistics
US10635952B2 (en) Cognitive analysis and classification of apparel images
Cufoglu User profiling-a short review
US10685375B2 (en) Digital media environment for analysis of components of content in a digital marketing campaign
US20160188661A1 (en) Multilingual business intelligence for actions
An et al. Automatic generation of personas using youtube social media data
JP6522050B2 (en) Determination device, learning device, determination method and determination program
JP6767342B2 (en) Search device, search method and search program
JP6059314B1 (en) Estimation apparatus, estimation method, and estimation program
Dezfouli et al. Deep neural review text interaction for recommendation systems
US20180025364A1 (en) Information processing apparatus, information processing method, and program
WO2023231542A1 (en) Representation information determination method and apparatus, and device and storage medium
CN106447419A (en) Visitor identification based on feature selection
Monechi et al. Significance and popularity in music production
US11681737B2 (en) Electronic media retrieval
US20200183994A1 (en) Online networking platform for personal and professional relationship management
Su et al. Link prediction in recommender systems with confidence measures
Ma et al. Image-mining: exploring the impact of video content on the success of crowdfunding
JP6692739B2 (en) Extraction device, extraction method, and extraction program
JP6310529B1 (en) SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM
US20150170035A1 (en) Real time personalization and categorization of entities
KR101985603B1 (en) Recommendation method based on tripartite graph

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190423

R150 Certificate of patent or registration of utility model

Ref document number: 6522050

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350