JP6160018B1 - Information analysis apparatus, information analysis method, and information analysis program - Google Patents

Information analysis apparatus, information analysis method, and information analysis program Download PDF

Info

Publication number
JP6160018B1
JP6160018B1 JP2016165503A JP2016165503A JP6160018B1 JP 6160018 B1 JP6160018 B1 JP 6160018B1 JP 2016165503 A JP2016165503 A JP 2016165503A JP 2016165503 A JP2016165503 A JP 2016165503A JP 6160018 B1 JP6160018 B1 JP 6160018B1
Authority
JP
Japan
Prior art keywords
content
information
query
search
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016165503A
Other languages
Japanese (ja)
Other versions
JP2018032304A (en
Inventor
進一郎 安井
進一郎 安井
カウステューブ クルカルニ
カウステューブ クルカルニ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016165503A priority Critical patent/JP6160018B1/en
Application granted granted Critical
Publication of JP6160018B1 publication Critical patent/JP6160018B1/en
Publication of JP2018032304A publication Critical patent/JP2018032304A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】コンテンツに対して適切なメタ情報を付与することができる情報解析装置、情報解析方法、および情報解析プログラムを提供する。【解決手段】情報解析装置は、コンテンツの検索時に入力された検索クエリと、検索クエリの入力に応じて選択されたコンテンツとが対応付けられた履歴情報に基づいて、履歴情報に含まれる着目コンテンツに関して、着目コンテンツに対応付けられた検索クエリを抽出する抽出部と、抽出部により抽出された検索クエリがベクトルに変換されたクエリベクトルに対して、着目コンテンツが選択されたことへの寄与度を示す指標値に基づく重みを付与する付与部と、付与部により重みが付与されたクエリベクトルに基づいて、着目コンテンツに関連付けるメタ情報を生成する生成部と、を備える。【選択図】図2An information analysis apparatus, an information analysis method, and an information analysis program capable of giving appropriate meta information to content are provided. An information analysis apparatus includes a content of interest included in history information based on history information in which a search query input at the time of content search is associated with content selected in response to the input of the search query. The extraction unit that extracts the search query associated with the content of interest, and the contribution to the selection of the content of interest with respect to the query vector obtained by converting the search query extracted by the extraction unit into a vector An assigning unit that assigns a weight based on the indicated index value, and a generation unit that generates meta information associated with the content of interest based on the query vector to which the weight is assigned by the assigning unit. [Selection] Figure 2

Description

本発明は、情報解析装置、情報解析方法、および情報解析プログラムに関する。   The present invention relates to an information analysis device, an information analysis method, and an information analysis program.

従来、画像などの複数のコンテンツの中から、あるコンテンツに類似したコンテンツを、近似最近傍探索手法などを用いて検索する技術が知られている(例えば、特許文献1参照)。この技術では、コンテンツを高次元の特徴ベクトルで表現し、特徴ベクトル間の距離に基づいて類似検索を行っている。   2. Description of the Related Art Conventionally, a technique for searching for content similar to a certain content from a plurality of content such as images using an approximate nearest neighbor search method or the like is known (see, for example, Patent Document 1). In this technology, content is expressed by a high-dimensional feature vector, and a similarity search is performed based on the distance between feature vectors.

特開2012−78930号公報JP 2012-78930 A

しかしながら、従来の技術では、コンテンツ自体を特徴ベクトルに変換するため、特定のニューラルネットワーク(Convolutional Neural Network:CNN)での利用に制限されたり、機械学習モデルの素性として利用する利便性が低下したりする場合があった。また、コンテンツ自体の特徴ベクトルをコンテンツのメタ情報として用いる場合、利用者の意図が反映されず、メタ情報が適切でなくなる場合があった。   However, in the conventional technology, since the content itself is converted into a feature vector, it is limited to use in a specific neural network (Convolutional Neural Network: CNN), or the convenience to use as a feature of a machine learning model is reduced. There was a case. Further, when the feature vector of the content itself is used as the meta information of the content, the user's intention is not reflected and the meta information may not be appropriate.

本発明は、上記の課題に鑑みてなされたものであって、コンテンツに対して適切なメタ情報を付与することができる情報解析装置、情報解析方法、および情報解析プログラムを提供することを目的としている。   The present invention has been made in view of the above problems, and an object of the present invention is to provide an information analysis device, an information analysis method, and an information analysis program that can give appropriate meta information to content. Yes.

本発明の一態様は、コンテンツの検索時に入力された検索クエリと、前記検索クエリの入力に応じて選択されたコンテンツとが対応付けられた履歴情報に基づいて、前記履歴情報に含まれる着目コンテンツに関して、前記着目コンテンツに対応付けられた検索クエリを抽出する抽出部と、前記抽出部により抽出された検索クエリがベクトルに変換されたクエリベクトルに対して、前記着目コンテンツが選択されたことへの寄与度を示す指標値に基づく重みを付与する付与部と、前記付与部により重みが付与されたクエリベクトルに基づいて、前記着目コンテンツに関連付けるメタ情報を生成する生成部と、を備える情報解析装置である。   One aspect of the present invention is the content of interest included in the history information based on the history information in which the search query input when searching for content and the content selected in response to the input of the search query are associated with each other The extraction unit that extracts the search query associated with the content of interest, and the query content obtained by converting the search query extracted by the extraction unit into a vector An information analysis apparatus comprising: an assigning unit that assigns a weight based on an index value indicating a degree of contribution; and a generation unit that generates meta information associated with the content of interest based on a query vector to which a weight is assigned by the assigning unit It is.

本発明の一態様によれば、コンテンツに対して適切なメタ情報を付与することができる。   According to one embodiment of the present invention, appropriate meta information can be given to content.

第1実施形態における情報解析装置100を含む情報解析システム1の一例を示す図である。It is a figure showing an example of information analysis system 1 including information analysis device 100 in a 1st embodiment. 第1実施形態における情報解析装置100の一例を示す図である。It is a figure showing an example of information analysis device 100 in a 1st embodiment. ログ情報131の一例を示す図である。It is a figure which shows an example of the log information 131. FIG. コーパス132の一例を示す図である。3 is a diagram illustrating an example of a corpus 132. FIG. ベクトル変換情報133の一例を示す図である。It is a figure which shows an example of the vector conversion information 133. FIG. 画像ベクトルの生成方法を説明するための図である。It is a figure for demonstrating the production | generation method of an image vector. コンテンツベクトル情報135の一例を示す図である。It is a figure which shows an example of the content vector information 135. FIG. 第1実施形態における情報解析システム1による一連の処理の流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of a series of processes by the information analysis system 1 in 1st Embodiment. サービス提供装置20による分析処理結果の一例を示す図である。It is a figure which shows an example of the analysis process result by the service provision apparatus. 第2実施形態における情報解析装置100Aの一例を示す図である。It is a figure which shows an example of 100 A of information-analysis apparatuses in 2nd Embodiment. ショッピングログ情報140の一例を示す図である。It is a figure which shows an example of the shopping log information. コーパス132の他の例を示す図である。It is a figure which shows the other example of corpus. 転置アイテム検索ログ情報134bの一例を示す図である。It is a figure which shows an example of the transposition item search log information 134b. コンテンツベクトルのクラスタリングの様子を示す図である。It is a figure which shows the mode of clustering of a content vector. 画像と位置情報との関連性について分析した分析結果の利用例を模式的に示す図である。It is a figure which shows typically the usage example of the analysis result analyzed about the relationship between an image and position information. 第3実施形態における情報解析装置100Bの一例を示す図である。It is a figure which shows an example of the information analysis apparatus 100B in 3rd Embodiment. 実施形態のサービス提供装置20および情報解析装置100、100A、100Bのハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the service provision apparatus 20 and information analysis apparatus 100, 100A, 100B of embodiment.

以下、本発明を適用した情報解析装置、情報解析方法、および情報解析プログラムを、図面を参照して説明する。   Hereinafter, an information analysis apparatus, an information analysis method, and an information analysis program to which the present invention is applied will be described with reference to the drawings.

[概要]
情報解析装置は、一以上のプロセッサによって実現される。情報解析装置は、コンテンツの検索時に入力された検索クエリが、ベクトルに変換されたクエリベクトルを取得または導出し、当該クエリベクトルに対してコンテンツの選択に寄与した程度に基づく重みを付与し、重みを付与したクエリベクトルに基づいて、メタ情報を生成してコンテンツに付与する装置である。コンテンツに付与されたメタ情報は、コンテンツ間の類似検索や、検索クエリ−コンテンツ間の類似検索など、種々の類似検索に利用することができる。
[Overview]
The information analysis device is realized by one or more processors. The information analysis device acquires or derives a query vector converted into a vector by a search query input at the time of content search, and assigns a weight based on the degree of contribution to content selection to the query vector. This is a device that generates meta information based on a query vector to which is added and assigns it to content. The meta information given to the content can be used for various similar searches such as a similar search between contents and a similar search between search queries and contents.

検索クエリとは、例えば、インターネット上のウェブ画像、或いは端末装置により表示されるアプリ画像の検索窓に入力された、単語や文章(複合語)のことをいう。また、コンテンツは、例えば、画像や、音声、動画などであってもよいし、画像などを参照するための参照子(例えばURL(Uniform Resource Locator))であってもよい。   A search query refers to, for example, a word or a sentence (compound word) input to a web image on the Internet or an application image search window displayed by a terminal device. Further, the content may be, for example, an image, sound, a moving image, or the like, or a reference (for example, URL (Uniform Resource Locator)) for referring to the image.

また、ウェブ画像やアプリ画像が、ショッピングサイトやオークションサイトなどのように、商品またはサービス(以下、アイテムと称する)を販売するための画像である場合、コンテンツは、その画像で販売されるアイテムそのもの、或いはアイテムの画像などであってもよい。そして、上述したクエリベクトルは、例えば、検索クエリに対して分散表現の考え方に基づいて導出されたものである。以下、検索クエリは画像検索サイトに入力され、コンテンツは画像検索サイトで提供される画像であるものとして説明する。   In addition, when the web image or the application image is an image for selling a product or service (hereinafter referred to as an item) such as a shopping site or an auction site, the content is the item itself that is sold with the image. Or an image of an item may be used. And the query vector mentioned above is derived | led-out based on the view of distributed expression with respect to a search query, for example. In the following description, it is assumed that the search query is input to the image search site and the content is an image provided on the image search site.

<第1実施形態>
[全体構成]
図1は、第1実施形態における情報解析装置100を含む情報解析システム1の一例を示す図である。第1実施形態における情報解析システム1は、例えば、ログ取得装置10と、サービス提供装置20と、クエリ‐ベクトル変換装置30と、情報解析装置100とを備える。これらの装置は、ネットワークNWを介して接続される。なお、情報解析システム1に含まれる複数の装置の一部または全部は、一つの情報解析装置100内に集約されていてもよい。
<First Embodiment>
[overall structure]
FIG. 1 is a diagram illustrating an example of an information analysis system 1 including an information analysis apparatus 100 according to the first embodiment. The information analysis system 1 in the first embodiment includes, for example, a log acquisition device 10, a service providing device 20, a query-vector conversion device 30, and an information analysis device 100. These devices are connected via a network NW. Note that some or all of the plurality of devices included in the information analysis system 1 may be integrated into one information analysis device 100.

図1に示す各装置は、ネットワークNWを介して種々の情報を送受信する。ネットワークNWは、例えば、無線基地局、Wi‐Fiアクセスポイント、通信回線、プロバイダ、インターネットなどを含む。なお、図1に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークNWは、一部にローカルなネットワークを含んでもよい。   Each apparatus shown in FIG. 1 transmits and receives various information via the network NW. The network NW includes, for example, a radio base station, a Wi-Fi access point, a communication line, a provider, the Internet, and the like. Note that it is not necessary for all combinations of the devices shown in FIG. 1 to be able to communicate with each other, and the network NW may partially include a local network.

ログ取得装置10は、画像検索サイトにおいて入力された検索クエリ、検索結果として提示された画像の中から選択された画像などを含むログを取得する。ログには、入力または選択された時刻、或いは、取得された時刻が付与されていてよい。ログ取得装置10は、自らが画像検索サイトを提供するウェブサーバ装置であってもよいし、別体のウェブサーバ装置(不図示)からログを取得する装置であってもよい。ログ取得装置10は、取得したログに基づくログ情報を、情報解析装置100に送信する。   The log acquisition device 10 acquires a log including a search query input at an image search site, an image selected from images presented as search results, and the like. The log may be given an input or selected time or an acquired time. The log acquisition device 10 may be a web server device that provides an image search site, or may be a device that acquires logs from a separate web server device (not shown). The log acquisition device 10 transmits log information based on the acquired log to the information analysis device 100.

サービス提供装置20は、情報解析装置100により送信された情報を分析して、種々のサービスを提供する。例えば、サービス提供装置20は、端末装置に広告を表示させる広告サービスを提供してもよいし、ウェブサイトのアクセスログを分析する分析サービスを提供してもよい。また、サービス提供装置20は、地図情報などを提供する地図検索サービスを提供してもよい。サービス提供装置20は、例えば、画像検索サイトに検索クエリを入力したユーザと、検索クエリの入力によって提示された画像との関連性を分析したり、情報解析装置100により送信された情報を機械学習したり、画像同士の関連性を分析したりすることで、自身が提供するサービスに分析結果を反映させてもよい。   The service providing device 20 analyzes the information transmitted by the information analyzing device 100 and provides various services. For example, the service providing apparatus 20 may provide an advertisement service that displays an advertisement on a terminal device, or may provide an analysis service that analyzes an access log of a website. The service providing apparatus 20 may provide a map search service that provides map information and the like. For example, the service providing apparatus 20 analyzes the relevance between the user who inputs the search query to the image search site and the image presented by the input of the search query, or machine-learns the information transmitted by the information analysis apparatus 100 Or analyzing the relationship between images, the analysis result may be reflected in the service provided by the user.

クエリ‐ベクトル変換装置30は、情報解析装置100から受信したコーパスに含まれる検索クエリを、例えば分散表現としてのクエリベクトルに変換する。例えば、クエリ‐ベクトル変換装置30は、word2vecと称されているツール(プログラム)を利用して、検索クエリをクエリベクトルに変換する。word2vecとは、ニューラルネットワークと呼ばれるモデルを利用したツールであり、入力されたコーパスに含まれる単語(検索クエリ)を、その単語の特徴を示す特徴ベクトルに変換して出力するものである。コーパスとは、複数の単語などが記載されたテキスト情報である。   The query-vector conversion device 30 converts the search query included in the corpus received from the information analysis device 100 into, for example, a query vector as a distributed expression. For example, the query-vector conversion device 30 converts a search query into a query vector using a tool (program) called word2vec. word2vec is a tool using a model called a neural network, which converts a word (search query) included in an input corpus into a feature vector indicating the feature of the word and outputs the converted feature vector. The corpus is text information in which a plurality of words are described.

情報解析装置100は、画像検索サイトにおいて検索された画像に、当該画像を検索する際に入力された検索クエリから変換されたクエリベクトルに基づいて多次元のコンテンツベクトルを生成し、検索クエリの入力に応じて検索されたコンテンツに対して、生成したコンテンツベクトルをメタ情報として関連付ける。   The information analysis apparatus 100 generates a multidimensional content vector for an image searched on an image search site based on a query vector converted from a search query input when searching for the image, and inputs the search query The generated content vector is associated as meta information with respect to the content searched according to the above.

[情報解析装置の構成]
以下、図を参照して情報解析装置100の構成について説明する。図2は、第1実施形態における情報解析装置100の一例を示す図である。図示のように、情報解析装置100は、例えば、通信部102と、制御部110と、記憶部130とを備える。
[Configuration of information analysis device]
Hereinafter, the configuration of the information analysis apparatus 100 will be described with reference to the drawings. FIG. 2 is a diagram illustrating an example of the information analysis apparatus 100 according to the first embodiment. As illustrated, the information analysis apparatus 100 includes a communication unit 102, a control unit 110, and a storage unit 130, for example.

通信部102は、例えば、NIC(Network Interface Card)等の通信インターフェースやDMA(Direct Memory Access)コントローラを含む。通信部102は、ネットワークNWを介して、ログ取得装置10、サービス提供装置20、またはクエリ‐ベクトル変換装置30と通信する。例えば、通信部102は、ログ取得装置10からログ情報を受信し、記憶部130にログ情報131として記憶させる。ログ情報131は、「履歴情報」の一例である。また、通信部102は、クエリ‐ベクトル変換装置30により送信された情報を受信し、ベクトル変換情報133として記憶部130に記憶させる。通信部102は、「取得部」の一例である。   The communication unit 102 includes, for example, a communication interface such as a NIC (Network Interface Card) or a DMA (Direct Memory Access) controller. The communication unit 102 communicates with the log acquisition device 10, the service providing device 20, or the query-vector conversion device 30 via the network NW. For example, the communication unit 102 receives log information from the log acquisition device 10 and stores the log information as log information 131 in the storage unit 130. The log information 131 is an example of “history information”. Further, the communication unit 102 receives the information transmitted by the query-vector conversion device 30 and stores it in the storage unit 130 as the vector conversion information 133. The communication unit 102 is an example of an “acquisition unit”.

図3は、ログ情報131の一例を示す図である。ログ情報131は、例えば、一つの検索クエリに対して、一以上の画像の識別子(図中画像ID)と、時刻とが対応付けられた情報である。ログ情報131において検索クエリに対応付けられる画像の識別子は、検索クエリの入力に応じて提示された複数の画像のうち、クリックやタップなどのユーザの操作によって選択された画像の識別子である。   FIG. 3 is a diagram illustrating an example of the log information 131. The log information 131 is information in which one or more image identifiers (image IDs in the figure) and time are associated with one search query, for example. The identifier of the image associated with the search query in the log information 131 is the identifier of the image selected by the user's operation such as click or tap among the plurality of images presented in response to the input of the search query.

また、ログ情報131において検索クエリに対応付けられる時刻は、検索クエリが入力された時刻であってもよいし、検索クエリの入力に応じて提示された画像が選択された時刻であってもよい。一つの検索クエリの入力に応じて提示された複数の画像から、ユーザの操作によって複数の画像が選択された場合には、図示のように、複数の検索クエリに対して同じ画像の識別子が対応付けられてよい。その逆に、複数の単語から構成される文章が検索クエリとして入力された場合は、複数の単語すなわち複数の検索クエリに対して一つの画像の識別子が対応付けられてよい。   Further, the time associated with the search query in the log information 131 may be the time when the search query is input, or may be the time when the image presented in response to the input of the search query is selected. . When multiple images are selected by a user's operation from multiple images presented in response to a single search query input, the same image identifier corresponds to multiple search queries as shown in the figure. May be attached. On the contrary, when a sentence composed of a plurality of words is input as a search query, an identifier of one image may be associated with the plurality of words, that is, the plurality of search queries.

なお、ログ情報131は、検索クエリや画像IDを示す情報であるものとしたが、画像IDに代えて(或いは、加えて)、その画像IDを参照するための参照子(例えばURL)や画像データそのものがログ情報131に格納されてもよい。   The log information 131 is information indicating a search query and an image ID, but instead of (or in addition to) the image ID, a reference (for example, URL) or an image for referring to the image ID. The data itself may be stored in the log information 131.

ここで、図2の説明に戻る。制御部110は、例えば、コーパス生成部112と、抽出部114と、重み付与部116と、コンテンツベクトル生成部118と、コンテンツ関連付部120とを備える。   Returning to the description of FIG. The control unit 110 includes, for example, a corpus generation unit 112, an extraction unit 114, a weight assignment unit 116, a content vector generation unit 118, and a content association unit 120.

これらの構成要素は、例えば、CPU(Central Processing Unit)などのプロセッサが記憶部130に格納されたプログラムを実行することにより実現される。また制御部110の構成要素の一部または全部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などのハードウェア(回路部;circuitry)により実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。   These components are realized, for example, when a processor such as a CPU (Central Processing Unit) executes a program stored in the storage unit 130. Some or all of the components of the control unit 110 are realized by hardware (circuit unit: circuit) such as LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), or FPGA (Field-Programmable Gate Array). It may be realized by cooperation of software and hardware.

記憶部130は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)、或いはこれらのうち複数を組み合わせたハイブリッド型記憶装置により実現される。記憶部130は、ファームウェアやアプリケーションプログラムなどの各種プログラムなどを記憶する他、ログ情報131、コーパス132、ベクトル変換情報133、転置ログ情報134、コンテンツベクトル情報135などの情報を記憶する。   The storage unit 130 is, for example, an HDD (Hard Disc Drive), a flash memory, an EEPROM (Electrically Erasable Programmable Read Only Memory), a ROM (Read Only Memory), a RAM (Random Access Memory), or a combination of these. This is realized by a hybrid storage device. In addition to storing various programs such as firmware and application programs, the storage unit 130 stores information such as log information 131, corpus 132, vector conversion information 133, transposition log information 134, and content vector information 135.

コーパス生成部112は、記憶部130に記憶されたログ情報131を参照して、クエリ‐ベクトル変換装置30に送信するコーパス132を生成する。図4は、コーパス132の一例を示す図である。例えば、コーパス生成部112は、ログ情報131に含まれる検索クエリを、画像検索サイトにおいて検索クエリを入力した一人のユーザのセッションごとに集約することで、一つのコーパス132を生成する。   The corpus generation unit 112 refers to the log information 131 stored in the storage unit 130 and generates a corpus 132 to be transmitted to the query-vector conversion device 30. FIG. 4 is a diagram illustrating an example of the corpus 132. For example, the corpus generation unit 112 generates one corpus 132 by aggregating the search queries included in the log information 131 for each session of one user who has input the search query at the image search site.

セッションとは、例えば、クッキー等の状態管理機能の有効期間である。例えば、画像検索サイト内のあるウェブページにアクセスしてから所定時間経過(タイムアウト)するまでの期間が一つのセッションとして扱われる。また、セッションとは、画像検索サイト内のあるウェブページにアクセスしてから、当該画像検索サイト内の他のウェブページ、または他のウェブサイト内のウェブページに切り替わるまでの期間であってもよい。また、セッションとは、画像検索サイト内のあるウェブページにアクセスしてから、当該ウェブページを表示するウェブブラウザを閉じるまでの期間であってもよい。   A session is a valid period of a state management function such as a cookie. For example, a period from when a certain web page in the image search site is accessed until a predetermined time elapses (timeout) is treated as one session. In addition, the session may be a period from when a certain web page in the image search site is accessed until another web page in the image search site or a web page in another website is switched to. . Further, the session may be a period from when a certain web page in the image search site is accessed to when the web browser displaying the web page is closed.

コーパス生成部112は、例えば、ログ情報131の各検索クエリの入力時刻を参照して各セッションの期間を導出することで、セッションごとに検索クエリを集約する。そして、コーパス生成部112は、一人のユーザの各セッションにおいて入力された検索クエリを集約したコーパス132を、通信部102を用いてクエリ‐ベクトル変換装置30に送信する。これを受けて、クエリ‐ベクトル変換装置30は、コーパス132に含まれる検索クエリを示す単語をクエリベクトルに変換して、検索クエリとクエリベクトルとの組み合わせ(ペア)を複数含むベクトル変換情報133を、情報解析装置100に送信する。   The corpus generation unit 112 aggregates the search queries for each session by deriving the period of each session with reference to the input time of each search query in the log information 131, for example. Then, the corpus generation unit 112 transmits the corpus 132 in which the search queries input in each session of one user are aggregated to the query-vector conversion device 30 using the communication unit 102. In response to this, the query-vector conversion device 30 converts a word indicating the search query included in the corpus 132 into a query vector, and generates vector conversion information 133 including a plurality of combinations (pairs) of the search query and the query vector. To the information analysis apparatus 100.

図5は、ベクトル変換情報133の一例を示す図である。図示のように、ベクトル変換情報133は、検索クエリに対して、その検索クエリから変換されたクエリベクトルが対応付けられている。   FIG. 5 is a diagram illustrating an example of the vector conversion information 133. As illustrated, in the vector conversion information 133, a query vector converted from the search query is associated with the search query.

抽出部114は、例えば、まず、記憶部130に記憶されたログ情報131に基づいて、転置ログ情報134を生成する。なお、抽出部114による転置ログ情報134の生成機能は、ログ取得装置10が備えてもよく、この場合、情報解析装置100は、ログ取得装置10から、転置ログ情報134と同等の情報を取得する。転置ログ情報134は、「履歴情報」の他の例である。   For example, the extraction unit 114 first generates transposition log information 134 based on the log information 131 stored in the storage unit 130. Note that the log acquisition device 10 may have a function of generating the transposition log information 134 by the extraction unit 114. In this case, the information analysis device 100 acquires information equivalent to the transposition log information 134 from the log acquisition device 10. To do. The transposition log information 134 is another example of “history information”.

図6は、転置ログ情報134の一例を示す図である。転置ログ情報134は、例えば、ログ情報131における検索クエリおよび画像の識別子のフィールド情報(列の情報)を入れ替え、一つの画像の識別子に対して、一以上の検索クエリと、時刻とが対応付けられた情報である。ログ情報131において複数の検索クエリにそれぞれ、共通する一つの画像の識別子が対応付けられている場合、転置ログ情報134において、当該一つの画像の識別子に複数の検索クエリが対応付けられてよい。   FIG. 6 is a diagram illustrating an example of the transposition log information 134. In the transposition log information 134, for example, the field information (column information) of the search query and the image identifier in the log information 131 is replaced, and one or more search queries and the time are associated with one image identifier. Information. When a common identifier of one image is associated with each of a plurality of search queries in the log information 131, a plurality of search queries may be associated with the identifier of the one image in the transposed log information 134.

そして、抽出部114は、転置ログ情報134に含まれる複数の画像の識別子のうち、着目する画像の識別子(以下、着目画像IDと称する)を選択して、着目画像IDに対応付けられた検索クエリ(以下、着目検索クエリと称する)を転置ログ情報134から抽出する。なお、抽出部114は、転置ログ情報134を生成する処理を省略してもよい。この場合、抽出部114は、ログ情報131から直接、着目画像IDに対応付けられた着目検索クエリを抽出する。着目画像IDが示す画像は、「着目コンテンツ」の一例である。   Then, the extraction unit 114 selects a target image identifier (hereinafter referred to as a target image ID) from among a plurality of image identifiers included in the transposition log information 134, and performs a search associated with the target image ID. A query (hereinafter referred to as a focused search query) is extracted from the transposition log information 134. Note that the extraction unit 114 may omit the process of generating the transposition log information 134. In this case, the extraction unit 114 extracts the target search query associated with the target image ID directly from the log information 131. The image indicated by the target image ID is an example of “target content”.

重み付与部116は、通信部102によってクエリ‐ベクトル変換装置30から受信されたベクトル変換情報133を検索し、抽出部114により抽出された着目検索クエリに対応付けられたクエリベクトルに対して、所定の評価値に基づく重みを付与する。   The weighting unit 116 searches the vector conversion information 133 received from the query-vector conversion device 30 by the communication unit 102, and performs a predetermined search on the query vector associated with the target search query extracted by the extraction unit 114. A weight based on the evaluation value is assigned.

所定の評価値とは、検索クエリのそれぞれに関する、着目画像IDにより示される着目画像が選択されたことへの寄与の程度を示す指標値である。具体的には、評価値は、例えば、セッション中において、着目検索クエリが入力されることに応じた着目画像の選択回数を、全ての検索クエリが入力されることに応じた着目画像の選択回数で除算した値である。また、評価値は、本実施例がショッピングサイトやオークションサイトに適用される場合、セッション中において、着目検索クエリが入力されることに応じた着目アイテム(着目画像をアイテムに置き換えたもの)のコンバージョン回数を、セッション中において、全ての検索クエリが入力されることに応じた着目アイテムのコンバージョン回数で除算した値であってもよい。なお、コンバージョンとは、アイテムの購買や詳細情報の問い合わせなど、アイテムの提供主が期待する所定の行動をとったことを意味する。   The predetermined evaluation value is an index value indicating the degree of contribution to the selection of the target image indicated by the target image ID for each of the search queries. Specifically, the evaluation value is, for example, the number of times of selection of the target image according to the input of the target search query during the session, and the number of times of selection of the target image according to the input of all the search queries. The value divided by. In addition, when the present embodiment is applied to a shopping site or an auction site, the evaluation value is a conversion of a focused item (a focused image replaced with an item) in response to a focused search query being input during a session. A value obtained by dividing the number of times by the number of conversions of the item of interest according to the input of all the search queries during the session may be used. Note that conversion means that a predetermined action expected by the item provider, such as purchase of an item or inquiry of detailed information, is taken.

また、これらはCTR(Click Through Rate)やCVR(Conversion Rate)の考え方に準じた評価値であるが、これらに限らず、インプレッション数やCPA(Cost Per Acquisition)、CPO(Cost per Order)など、他の観点からコンテンツが選択されたことへの寄与の程度が評価されてもよい。   In addition, these are evaluation values according to the concept of CTR (Click Through Rate) and CVR (Conversion Rate), but not limited to these, the number of impressions, CPA (Cost Per Acquisition), CPO (Cost per Order), etc. The degree of contribution to the selection of content from another viewpoint may be evaluated.

例えば、重み付与部116は、転置ログ情報134を参照して、着目検索クエリに対応付けられている着目画像の一セッション中の選択回数をカウントし、カウントした着目画像の選択回数を、検索クエリを問わない一セッション中の着目画像の選択回数で除算することで、評価値を導出する。そして、重み付与部116は、着目クエリのクエリベクトルに対して、導出した評価値を重みとして付与する。   For example, the weight assigning unit 116 refers to the transposition log information 134, counts the number of selections of the target image associated with the target search query in one session, and uses the counted number of selections of the target image as the search query. The evaluation value is derived by dividing by the number of times of selection of the image of interest in one session regardless of whether or not. Then, the weight assigning unit 116 assigns the derived evaluation value as a weight to the query vector of the query of interest.

コンテンツベクトル生成部118は、重み付与部116によって重みが付与されたクエリベクトルに基づいて、コンテンツベクトルを生成する。本実施形態では、コンテンツが画像であることを前提としているため、コンテンツベクトルを特に「画像ベクトル」と称して説明する。   The content vector generation unit 118 generates a content vector based on the query vector to which the weight is given by the weight assignment unit 116. In the present embodiment, since it is assumed that the content is an image, the content vector will be specifically referred to as an “image vector”.

図7は、画像ベクトルの生成方法を説明するための図である。例えば、一セッション中に、Q1からQ3のそれぞれの検索クエリが画像検索サイトに入力されて、各検索クエリが入力される度に画像IMと画像IMが提示されたとする。このとき、図示のように、画像IMのクリック回数が、「人工衛星」という単語が検索クエリQ1として入力されたときには50回、「地球」という単語が検索クエリQ2として入力されたときには10回、「宇宙」という単語が検索クエリQ3として入力されたときには1回であった場合、画像ベクトルは、以下の数式(1)に基づいて生成される。 FIG. 7 is a diagram for explaining a method of generating an image vector. For example, assume that search queries Q1 to Q3 are input to the image search site during one session, and the images IM a and IM b are presented each time each search query is input. At this time, as shown in the figure, the number of clicks of the image IM a is 50 times when the word “artificial satellite” is input as the search query Q1, and 10 times when the word “earth” is input as the search query Q2. When the word “universe” is input as the search query Q3, the image vector is generated based on the following formula (1).

数式中、vec(IM)は、画像IMの画像ベクトルを表している。また、vec(人工衛星)は、検索クエリQ1のクエリベクトルを表し、vec(地球)は、検索クエリQ2のクエリベクトルを表し、vec(宇宙)は、検索クエリQ3のクエリベクトルを表している。数式(1)に示すように、画像ベクトルは、重みが付与された複数のクエリベクトルを加算した多次元ベクトルである。また、式中w1は、検索クエリQ1が入力されたことに応じた画像IMのクリック回数(上述した例では50)を表し、w2は、検索クエリQ2が入力されたことに応じた画像IMのクリック回数(上述した例では10)を表し、w3は、検索クエリQ3が入力されたことに応じた画像IMのクリック回数(上述した例では1)を表している。数式(1)に示すように、各検索クエリQのクエリベクトルvec(Q)は、全てのクエリベクトルに対して乗算されるクリック回数の総和で除算されている。すなわち、数式(1)は、クエリベクトルに対して上述した評価値を重みとして付与(乗算)し、加重和を求めた式である。 In the equation, vec (IM a ) represents an image vector of the image IM a . Further, vec (satellite) represents the query vector of the search query Q1, vec (earth) represents the query vector of the search query Q2, and vec (space) represents the query vector of the search query Q3. As shown in Equation (1), the image vector is a multidimensional vector obtained by adding a plurality of query vectors to which weights are given. In addition, w1 in the formula represents the number of clicks of the image IM a (50 in the above example) corresponding to the input of the search query Q1, and w2 is an image IM corresponding to the input of the search query Q2. represents a of clicks (10 in the example described above), w3 (in the above-described example 1) search query Q3 image IM a click number of times corresponding to the inputted represent. As shown in Equation (1), the query vector vec (Q) of each search query Q is divided by the total number of clicks multiplied by all the query vectors. That is, Expression (1) is an expression in which the weighted sum is obtained by assigning (multiplying) the above-described evaluation value as a weight to the query vector.

なお、上述した数式(1)は、画像IMの画像ベクトルの導出式を表すものであるが、他の画像についても同様に画像ベクトルを導出してよい。この際、各クエリベクトルに乗算するw1からw3の値は、適宜変更するものとする。例えば、画像IMの画像ベクトルvec(IM)の導出時には、w1からw3に対して、各検索クエリが入力されたときの画像IMのクリック回数が代入される。また、上述した例では、検索クエリが3種類の場合について説明したがこれに限られず、1、2種類、あるいは4種類以上であってもよい。この場合、数式(1)の右辺の分子におけるクエリベクトルの数を変更してよい。 Note that, the above-described mathematical expression (1) represents the derivation formula of the image vector of the image IM a , but the image vector may be similarly derived for other images. At this time, the values of w1 to w3 multiplied by each query vector are changed as appropriate. For example, when deriving the image vector vec image IM b (IM b), with respect to the w1 w3, each search query is the number of clicks on the image IM b when input is assigned. Moreover, although the example mentioned above demonstrated the case where there were three types of search queries, it is not restricted to this, One, two types, or four or more types may be sufficient. In this case, the number of query vectors in the numerator on the right side of Equation (1) may be changed.

コンテンツ関連付部120は、コンテンツベクトル生成部118により生成された画像ベクトルを、その画像ベクトルが示す画像(すなわち着目画像)にメタ情報として関連付ける。例えば、コンテンツ関連付部120は、画像に対して画像ベクトルを関連付けた情報を生成し、生成した当該情報をコンテンツベクトル情報135として記憶部130に記憶させる。   The content association unit 120 associates the image vector generated by the content vector generation unit 118 with the image indicated by the image vector (that is, the image of interest) as meta information. For example, the content association unit 120 generates information in which an image vector is associated with an image, and stores the generated information in the storage unit 130 as content vector information 135.

図8は、コンテンツベクトル情報135の一例を示す図である。例えば、コンテンツベクトル情報135は、画像の識別子に対して画像ベクトルが対応付けられた情報である。コンテンツ関連付部120は、例えば、画像に対して画像ベクトルを関連付けたコンテンツベクトル情報135を、通信部102を用いてサービス提供装置20に送信する。これを受けて、サービス提供装置20は、コンテンツベクトル情報135を種々のサービスに利用する。   FIG. 8 is a diagram illustrating an example of the content vector information 135. For example, the content vector information 135 is information in which an image vector is associated with an image identifier. The content association unit 120 transmits, for example, content vector information 135 in which an image vector is associated with an image to the service providing apparatus 20 using the communication unit 102. In response to this, the service providing apparatus 20 uses the content vector information 135 for various services.

[情報解析システム全体の処理フロー]
以下、情報解析システム1による処理についてフローチャートを用いて説明する。図9は、第1実施形態における情報解析システム1による一連の処理の流れの一例を示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われる。
[Processing flow of the entire information analysis system]
Hereinafter, processing by the information analysis system 1 will be described with reference to flowcharts. FIG. 9 is a flowchart illustrating an example of a flow of a series of processes by the information analysis system 1 in the first embodiment. The processing of this flowchart is repeatedly performed at a predetermined cycle, for example.

まず、ログ取得装置10は、画像検索サイトにおいて入力された検索クエリのログを取得し(S100)、取得したログに基づくログ情報を情報解析装置100に送信する。これを受けて、情報解析装置100の通信部102は、ログ取得装置10からログ情報を受信し、記憶部130にログ情報131として記憶させる。   First, the log acquisition device 10 acquires a log of a search query input at an image search site (S100), and transmits log information based on the acquired log to the information analysis device 100. In response to this, the communication unit 102 of the information analysis apparatus 100 receives the log information from the log acquisition apparatus 10 and stores the log information as the log information 131 in the storage unit 130.

次に、情報解析装置100のコーパス生成部112は、ログ情報131を参照して、コーパス132を生成し(S102)、生成したコーパス132をクエリ‐ベクトル変換装置30に送信する。   Next, the corpus generation unit 112 of the information analysis apparatus 100 generates a corpus 132 with reference to the log information 131 (S102), and transmits the generated corpus 132 to the query-vector conversion apparatus 30.

次に、クエリ‐ベクトル変換装置30は、情報解析装置100から受信したコーパス132に含まれる検索クエリをクエリベクトルに変換し(S104)、変換したクエリベクトルと検索クエリとの組み合わせを複数含むベクトル変換情報133を情報解析装置100に送信する。これを受けて、情報解析装置100の通信部102は、クエリ‐ベクトル変換装置30からベクトル変換情報133を受信し、記憶部130に記憶させる。   Next, the query-vector conversion device 30 converts the search query included in the corpus 132 received from the information analysis device 100 into a query vector (S104), and vector conversion including a plurality of combinations of the converted query vector and search query. Information 133 is transmitted to the information analysis apparatus 100. In response to this, the communication unit 102 of the information analysis apparatus 100 receives the vector conversion information 133 from the query-vector conversion apparatus 30 and stores it in the storage unit 130.

次に、情報解析装置100の抽出部114は、ログ情報131を参照して、検索クエリと画像の識別子との対応関係を反転させた転置ログ情報134を生成する(S106)。次に、抽出部114は、生成した転置ログ情報134に含まれる複数の画像の識別子の中から、着目画像IDを選択して、当該着目画像IDに対応付けられた着目検索クエリを転置ログ情報134から抽出する(S108)。   Next, the extraction unit 114 of the information analysis apparatus 100 refers to the log information 131 and generates transposed log information 134 in which the correspondence between the search query and the image identifier is reversed (S106). Next, the extraction unit 114 selects a target image ID from among the identifiers of a plurality of images included in the generated transposition log information 134, and converts the target search query associated with the target image ID into the transposition log information. It extracts from 134 (S108).

次に、情報解析装置100の重み付与部116は、ベクトル変換情報133を検索し、抽出部114により抽出された着目検索クエリに対応付けられたクエリベクトルに対して、所定の評価値に基づく重みを付与する(S110)。   Next, the weight assigning unit 116 of the information analyzing apparatus 100 searches the vector conversion information 133, and the weight based on a predetermined evaluation value is applied to the query vector associated with the target search query extracted by the extracting unit 114. Is given (S110).

次に、情報解析装置100のコンテンツベクトル生成部118は、重み付与部116によって重みが付与されたクエリベクトルに基づいて、画像ベクトルを生成する(S112)。   Next, the content vector generation unit 118 of the information analysis apparatus 100 generates an image vector based on the query vector given the weight by the weight assignment unit 116 (S112).

次に、情報解析装置100のコンテンツ関連付部120は、コンテンツベクトル生成部118により生成された画像ベクトルを、その画像ベクトルが示す画像にメタ情報として関連付け(S114)、画像に対して画像ベクトルを関連付けたコンテンツベクトル情報135を、通信部102を用いてサービス提供装置20に送信する。   Next, the content association unit 120 of the information analysis apparatus 100 associates the image vector generated by the content vector generation unit 118 as meta information with the image indicated by the image vector (S114), and associates the image vector with the image. The associated content vector information 135 is transmitted to the service providing apparatus 20 using the communication unit 102.

次に、サービス提供装置20は、コンテンツベクトル情報135に含まれる画像ベクトルに基づいて種々の分析を行い(S116)、その分析結果を、例えばウェブサービス上で提供するサービスに反映させる。これによって、本フローチャートの処理が終了する。   Next, the service providing apparatus 20 performs various analyzes based on the image vector included in the content vector information 135 (S116), and reflects the analysis result on, for example, a service provided on the web service. Thereby, the process of this flowchart is complete | finished.

[第1実施形態におけるコンテンツベクトルの利用例]
以下、第1実施形態において生成されたコンテンツベクトルの利用例について説明する。例えば、サービス提供装置20は、あるユーザが画像検索サイトに入力した検索クエリを、クエリ‐ベクトル変換装置30に依頼する等してベクトル(以下、ユーザベクトルと称する)に変換し、ユーザベクトルと、画像などのコンテンツをベクトル化したコンテンツベクトル(上述した画像ベクトルに相当するベクトル)との類似性について分析する。ユーザベクトルは、例えば、ユーザを識別することが可能な情報(例えば氏名や電話番号など)をベクトルに変換したものである。
[Usage example of content vector in the first embodiment]
Hereinafter, a usage example of the content vector generated in the first embodiment will be described. For example, the service providing apparatus 20 converts a search query input by a certain user to the image search site into a vector (hereinafter referred to as a user vector) by requesting the query-vector conversion apparatus 30 or the like, The similarity with a content vector obtained by vectorizing content such as an image (a vector corresponding to the above-described image vector) is analyzed. The user vector is, for example, information obtained by identifying a user (for example, a name or a telephone number) converted into a vector.

例えば、サービス提供装置20は、ユーザベクトルおよびコンテンツベクトルのノルムと、これらのベクトルの内積とを用いて、コサイン類似度を導出する。以下の数式(2)は、コサイン類似度の導出式を表す。式中x、yのいずれか一方はユーザベクトルを表し、他方はコンテンツベクトルを表している。   For example, the service providing apparatus 20 derives the cosine similarity using the norm of the user vector and the content vector and the inner product of these vectors. The following formula (2) represents a derivation formula for cosine similarity. In the formula, either one of x and y represents a user vector, and the other represents a content vector.

図10は、サービス提供装置20による分析処理結果の一例を示す図である。図示のように、分析処理結果を示す情報において、ユーザベクトルに対し、コンテンツベクトルと、コサイン類似度を示す値とが対応付けられている。例えば、サービス提供装置20は、ユーザベクトルに対して、最も類似度の高いコンテンツベクトルや、類似度が所定値(例えば平均値)以上のコンテンツベクトルなどを抽出する。このようなコンテンツベクトルによって表されるコンテンツは、他のコンテンツに比べてユーザの関心の高いコンテンツであると評価することができる。例えば、「サッカー」に高い関心を示すユーザが入力する検索クエリは、「サッカー」に関連した単語であることが多く、また「サッカー」に関連した単語の入力頻度は他の単語の入力頻度に比べて高くなりやすい。そのため、「サッカー」に関連した単語が検索クエリとして入力されると、この検索クエリから変換されたクエリベクトルを用いて生成されたコンテンツベクトルは、他の検索クエリ(例えば野球やバスケットボールなどの検索クエリ)から変換されたクエリベクトルを用いて生成されたコンテンツベクトルに比して、ユーザベクトルとの類似度が高く導出される傾向がある。従って、類似度の高いコンテンツベクトルを抽出して、その抽出したコンテンツベクトルが関連付けられたコンテンツを分析することにより、ユーザの趣味嗜好に合ったコンテンツを特定することができる。例えば、「サッカー」に関連した単語を検索クエリとして頻繁に入力するユーザには、サッカーの試合のチケットの購入案内などを広告することにより、チケットの販売事業の収益をより向上させることができる。   FIG. 10 is a diagram illustrating an example of an analysis processing result by the service providing apparatus 20. As illustrated, in the information indicating the analysis processing result, the content vector and the value indicating the cosine similarity are associated with the user vector. For example, the service providing apparatus 20 extracts a content vector having the highest similarity to the user vector, a content vector having a similarity higher than a predetermined value (for example, an average value), and the like. The content represented by such a content vector can be evaluated as content of higher user interest than other content. For example, a search query input by a user who has a high interest in “soccer” is often a word related to “soccer”, and the frequency of input of words related to “soccer” is the frequency of input of other words. Compared to high price. Therefore, when a word related to “soccer” is input as a search query, a content vector generated using a query vector converted from the search query is used as another search query (for example, a search query such as baseball or basketball). There is a tendency that the degree of similarity with the user vector is higher than the content vector generated using the query vector converted from (1). Therefore, by extracting a content vector having a high degree of similarity and analyzing the content associated with the extracted content vector, it is possible to specify content that meets the user's hobbies and preferences. For example, a user who frequently inputs a word related to “soccer” as a search query can advertise a ticket purchase guide for a soccer game to improve the revenue of the ticket sales business.

また、サービス提供装置20は、情報解析装置100により生成されたコンテンツベクトルを素性として機械学習を行ってもよい。例えば、サービス提供装置20は、GBDT(Gradient Boosting Decision Tree)やSVM(Support Vector Machine)などの機械学習モデルを利用して、コンテンツベクトルを素性ベクトルとして機械学習モデルに入力する。これによって、例えば、入力されたコンテンツベクトルが二値に分類される。例えば、「きれい」、「美しい」といったポジティブな内容の検索クエリで検索された画像を正例として学習させ、「汚い」、「醜い」といったネガティブな内容の検索クエリで検索された画像を負例として学習させる。これによって、画像そのものの特徴量などから画像を評価するのではなく、その画像の検索時に入力された検索クエリの内容から画像を評価することができる。   The service providing apparatus 20 may perform machine learning using the content vector generated by the information analysis apparatus 100 as a feature. For example, the service providing apparatus 20 uses a machine learning model such as GBDT (Gradient Boosting Decision Tree) or SVM (Support Vector Machine) to input a content vector as a feature vector into the machine learning model. Thereby, for example, the input content vector is classified into binary values. For example, an image searched with a positive search query such as “beautiful” or “beautiful” is learned as a positive example, and an image searched with a negative search query such as “dirty” or “ugly” is negative. Let them learn as. As a result, the image can be evaluated from the contents of the search query input when searching for the image, instead of evaluating the image from the feature amount of the image itself.

以上説明した第1実施形態によれば、コンテンツの検索時に入力された検索クエリと、検索クエリの入力に応じて選択されたコンテンツとが対応付けられたログ情報131或いは転置ログ情報134に基づいて、これらのログ情報に含まれる着目するコンテンツに関して、着目するコンテンツに対応付けられた着目検索クエリを抽出し、着目検索クエリがベクトルに変換されたクエリベクトルに対して、着目するコンテンツが選択されたことへの寄与度を示す指標値に基づく重みを付与し、重みが付与されたクエリベクトルに基づいて、着目するコンテンツに関連付けるメタ情報を生成することにより、コンテンツに対して適切なメタ情報を付与することができる。この結果、コンテンツに付与されたメタ情報を基に、コンテンツとそのコンテンツを検索したユーザとの関係性について分析したり、メタ情報に含まれる検索クエリを基に、コンテンツそのものを評価したりすることができる。   According to the first embodiment described above, based on the log information 131 or the transposed log information 134 in which the search query input at the time of content search is associated with the content selected in response to the input of the search query. The target search query associated with the target content is extracted for the target content included in the log information, and the target content is selected for the query vector obtained by converting the target search query into a vector. Appropriate meta information is given to content by assigning a weight based on an index value indicating the degree of contribution to the content, and generating meta information associated with the content of interest based on the query vector to which the weight is given can do. As a result, analyze the relationship between the content and the user who searched the content based on the meta information given to the content, or evaluate the content itself based on the search query included in the meta information Can do.

<第2実施形態>
以下、第2実施形態について説明する。第2実施形態における情報解析システム1Aでは、提供するコンテンツが互いに異なる複数のウェブサービスの各々において検索クエリが入力された場合に、各ウェブサービスで提供されるコンテンツのそれぞれについて、コンテンツベクトルを生成する点で上述した第1実施形態と相違する。第2実施形態では、一例として、画像およびアイテムの2つのコンテンツについてコンテンツベクトルを生成するものとして説明するが、種類の異なる3つ以上のコンテンツについてコンテンツベクトルが生成されてもよい。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。
Second Embodiment
Hereinafter, a second embodiment will be described. In the information analysis system 1A according to the second embodiment, when a search query is input in each of a plurality of web services having different contents to be provided, a content vector is generated for each of the contents provided by each web service. This is different from the first embodiment described above. In the second embodiment, as an example, description will be made on the assumption that content vectors are generated for two contents of an image and an item, but content vectors may be generated for three or more types of contents. Hereinafter, differences from the first embodiment will be mainly described, and description of points common to the first embodiment will be omitted. In the description of the second embodiment, the same parts as those in the first embodiment will be described with the same reference numerals.

第2実施形態におけるログ取得装置10は、例えば、画像検索サイトにおいて入力された検索クエリや、検索クエリの入力に対する検索結果として提示された画像の中から選択された画像(或いは画像の識別子)などを含むログを取得する。また、ログ取得装置10は、ショッピングサイトにおいて入力された検索クエリや、検索クエリの入力に対する検索結果として提示されたアイテムの中から選択されたアイテム(或いはアイテムの識別子)などを含むログを取得する。そして、ログ取得装置10は、取得したログに基づく複数のログ情報を情報解析装置100に送信する。   The log acquisition device 10 according to the second embodiment includes, for example, a search query input at an image search site, an image selected from images presented as a search result for the input of the search query (or an image identifier), and the like. Get logs including In addition, the log acquisition device 10 acquires a log including an item (or an item identifier) selected from a search query input on a shopping site and an item presented as a search result for the input of the search query. . Then, the log acquisition device 10 transmits a plurality of log information based on the acquired log to the information analysis device 100.

図11は、第2実施形態における情報解析装置100Aの一例を示す図である。第2実施形態における通信部102は、ログ取得装置10から2つのウェブサイトのログ情報を受信する。そして、通信部102は、受信したログ情報のうち、画像検索サイトにおけるログ情報を、画像検索ログ情報131aとして記憶部130Aに記憶させると共に、ショッピングサイトにおけるログ情報を、アイテム検索ログ情報131bとして記憶部130Aに記憶させる。   FIG. 11 is a diagram illustrating an example of an information analysis apparatus 100A according to the second embodiment. The communication unit 102 in the second embodiment receives log information of two websites from the log acquisition device 10. And the communication part 102 memorize | stores the log information in an image search site in the memory | storage part 130A as image search log information 131a among the received log information, and memorize | stores the log information in a shopping site as item search log information 131b. Store in unit 130A.

第2実施形態における情報解析装置100Aのコーパス生成部112は、記憶部130に記憶された画像検索ログ情報131aとアイテム検索ログ情報131bを参照して、コーパス132を生成する。   The corpus generation unit 112 of the information analysis apparatus 100A in the second embodiment generates the corpus 132 with reference to the image search log information 131a and the item search log information 131b stored in the storage unit 130.

図12は、コーパス132の他の例を示す図である。図中(a)に示すコーパスは、画像検索ログ情報131aに基づくコーパスを表し、図中(b)に示すコーパスは、アイテム検索ログ情報131bに基づくコーパスを表している。これらのコーパスのうち、図中(a)のコーパスの方が(b)のコーパスを包含している。例えば、画像検索サイトで検索される画像に、ショッピングサイト上で掲載されるアイテムの画像が含まれ得る場合には、図中(a)のコーパスが(b)のコーパスを包含することになる。第2実施形態におけるコーパス生成部112は、これらのコーパスのうち、他のコーパスに含まれる検索クエリを包含するコーパス(図示の例では(a)のコーパス)を、クエリ‐ベクトル変換装置30に送信する対象のコーパスとして選択する。これによって、クエリ‐ベクトル変換装置30により生成されるベクトル変換情報133は、画像検索サイトで入力された検索クエリを変換したクエリベクトルと、ショッピングサイトで入力された検索クエリを変換したクエリベクトルとの双方を兼ねることになる。この結果、ショッピングサイト上で掲載されるアイテムに関連付けるメタ情報も、画像検索サイトで入力された検索クエリを用いて生成することができる。   FIG. 12 is a diagram illustrating another example of the corpus 132. The corpus shown in (a) in the figure represents a corpus based on the image search log information 131a, and the corpus shown in (b) in the figure represents a corpus based on the item search log information 131b. Of these corpora, the corpus (a) in the figure includes the corpus (b). For example, when an image searched on an image search site can include an image of an item posted on a shopping site, the corpus (a) in the figure includes the corpus (b). The corpus generation unit 112 according to the second embodiment transmits a corpus including a search query included in another corpus (in the illustrated example, the corpus (a)) to the query-vector conversion device 30 among these corpora. Select as the target corpus. As a result, the vector conversion information 133 generated by the query-vector conversion device 30 includes a query vector obtained by converting a search query input at an image search site and a query vector obtained by converting a search query input at a shopping site. It will be both. As a result, the meta information associated with the item posted on the shopping site can also be generated using the search query input on the image search site.

すなわち、コーパス生成部112が、複数のコーパスのうち、他のコーパスに含まれる検索クエリを包含するコーパスを、クエリ‐ベクトル変換装置30に送信する対象のコーパスとして選択することにより、コーパスが共通する複数のサービスにおける指標値に基づいて生成したメタ情報(コンテンツベクトル)を、互いに関連する情報として出力することができる。なお、送信対象のコーパス132として選択されるコーパスは、他のコーパスに含まれる全ての検索クエリを包含している必要はなく、例えば、9割程度以上同じ検索クエリを包含していればよい。   That is, the corpus generation unit 112 selects a corpus including a search query included in another corpus as a corpus to be transmitted to the query-vector conversion device 30 from among a plurality of corpora, so that the corpus is common. Meta information (content vector) generated based on index values in a plurality of services can be output as mutually related information. Note that the corpus selected as the transmission target corpus 132 need not include all search queries included in other corpuses, and may include, for example, about 90% or more of the same search query.

第2実施形態における情報解析装置100Aの抽出部114は、画像検索ログ情報131aに基づいて、画像検索ログ情報131a内の情報を入れ替えた転置画像検索ログ情報134aを生成すると共に、アイテム検索ログ情報131bに基づいて、アイテム検索ログ情報131b内の情報を入れ替えた転置アイテム検索ログ情報134bを生成する。転置画像検索ログ情報134aについては、上述した図6の転置ログ情報134と同様であるため説明を省略する。   The extraction unit 114 of the information analysis apparatus 100A according to the second embodiment generates transposed image search log information 134a in which information in the image search log information 131a is replaced based on the image search log information 131a, and item search log information. Based on 131b, transposed item search log information 134b in which information in item search log information 131b is replaced is generated. The transposed image search log information 134a is the same as the transposed log information 134 of FIG.

図13は、転置アイテム検索ログ情報134bの一例を示す図である。図示のように、転置アイテム検索ログ情報134bは、アイテムの識別子(図中アイテムID)に対して、検索クエリとして入力された単語と、検索クエリが入力された時刻などが対応付けられている。例えば、ある検索クエリがショッピングサイト上に入力されて、当該検索クエリの入力に対する応答として複数のアイテムが提示された場合に、ユーザが提示された複数のアイテムの中から一つのアイテムを選択すると、その選択されたアイテムの識別子には、検索時に入力された検索クエリが対応付けられる。なお、アイテムが選択された後にさらにそのアイテムが購入された場合に、購入されたアイテムの識別子に対して、そのアイテムの検索時に入力された検索クエリが対応付けられてもよい。   FIG. 13 is a diagram illustrating an example of the transposed item search log information 134b. As illustrated, in the transposed item search log information 134b, a word input as a search query, a time when the search query is input, and the like are associated with an item identifier (item ID in the figure). For example, when a certain search query is input on a shopping site and a plurality of items are presented in response to the input of the search query, when the user selects one item from the plurality of presented items, The identifier of the selected item is associated with the search query input during the search. In addition, when the item is further purchased after the item is selected, the search query input when searching for the item may be associated with the identifier of the purchased item.

そして、抽出部114は、転置画像検索ログ情報134aと転置アイテム検索ログ情報134bとの各々から、着目するコンテンツの識別子に対応付けられた着目検索クエリを抽出する。   Then, the extraction unit 114 extracts a focused search query associated with the identifier of the focused content from each of the transposed image search log information 134a and the transposed item search log information 134b.

第2実施形態における情報解析装置100Aの重み付与部116は、ベクトル変換情報133を検索し、抽出部114により転置画像検索ログ情報134aから抽出された着目検索クエリに対応付けられたクエリベクトルと、転置アイテム検索ログ情報134bから抽出された着目検索クエリに対応付けられたクエリベクトルとのそれぞれに対して、ウェブサイトごとの評価値に基づく重みを付与する。   The weighting unit 116 of the information analysis apparatus 100A in the second embodiment searches the vector conversion information 133, and a query vector associated with the target search query extracted from the transposed image search log information 134a by the extraction unit 114, A weight based on the evaluation value for each website is assigned to each of the query vectors associated with the target search query extracted from the transposed item search log information 134b.

例えば、重み付与部116は、画像検索サイト上で入力された検索クエリから変換されたクエリベクトルに対しては、CTRに基づく重みを付与する。また、重み付与部116は、ショッピングサイト上で入力された検索クエリから変換されたクエリベクトルに対しては、CVRに基づく重みを付与する。   For example, the weight assigning unit 116 assigns a weight based on CTR to a query vector converted from a search query input on the image search site. The weight assigning unit 116 assigns a weight based on the CVR to a query vector converted from a search query input on the shopping site.

第2実施形態における情報解析装置100Aのコンテンツベクトル生成部118は、例えば、以下の数式(3)に基づき、画像のコンテンツベクトルである画像ベクトルvec(IM)と、アイテムのコンテンツベクトルであるアイテムベクトルvec(Item)とを生成する。式中vec(IM)は、画像ベクトルを表し、vec(Item)は、アイテムベクトルを表している。また、例えば、wIMは、検索クエリが入力されたときの画像のクリック回数を表し、wItemは、検索クエリが入力されたときのアイテムのコンバージョン数(例えば購入数など)を表している。なお、数式(3)として例示したコンテンツベクトルの導出式は、あくまでも一例であり、クエリベクトルの数に応じて適時変更してよい。 The content vector generation unit 118 of the information analysis apparatus 100A in the second embodiment, for example, based on the following formula (3), an image vector vec (IM) that is an image content vector and an item vector that is an item content vector: vec (Item) is generated. In the formula, vec (IM) represents an image vector, and vec (Item) represents an item vector. Further, for example, w IM represents the number of clicks of the image when the search query is input, w Item represents the conversions of items when the search query is entered (e.g., cart, etc.). Note that the content vector derivation formula illustrated as Equation (3) is merely an example, and may be changed as appropriate according to the number of query vectors.

[第2実施形態におけるコンテンツベクトルの利用例]
以下、第2実施形態において生成されたコンテンツベクトルの利用例について説明する。例えば、第2実施形態におけるサービス提供装置20は、クエリ‐ベクトル変換装置30によって、一つのコーパス132から作成された複数のクエリベクトルに基づいて生成された複数のコンテンツベクトルを、そのコンテンツベクトル同士の関連性に基づいてクラスタリング処理を行って分類する。第2実施形態におけるサービス提供装置20は、「分類部」の一例である。
[Usage example of content vector in the second embodiment]
Hereinafter, a usage example of the content vector generated in the second embodiment will be described. For example, the service providing apparatus 20 according to the second exemplary embodiment includes a plurality of content vectors generated based on a plurality of query vectors created from one corpus 132 by the query-vector conversion apparatus 30, and Based on the relevance, classification is performed by performing clustering processing. The service providing apparatus 20 in the second embodiment is an example of a “classification unit”.

図14は、コンテンツベクトルのクラスタリングの様子を示す図である。例えば、サービス提供装置20は、一つのコーパス132から作成された複数のクエリベクトルのそれぞれを次元とした特徴空間において、k−means法などのクラスタリング手法を用いてコンテンツベクトルをクラスタリングする。   FIG. 14 is a diagram illustrating how the content vectors are clustered. For example, the service providing apparatus 20 clusters content vectors using a clustering technique such as a k-means method in a feature space in which each of a plurality of query vectors generated from one corpus 132 is a dimension.

具体的には、サービス提供装置20は、特徴空間上において、複数の重心G(図中G1、G2)を設定して、各コンテンツベクトルについて最短距離の重心Gを探索する。そして、サービス提供装置20は、最短距離の重心Gが共通するコンテンツベクトルを、互いに関連したコンテンツベクトルの集合としてクラスタ化する。図示の例では、コンテンツベクトルが2つのクラスタC1、C2に分類されている。このような処理によって、例えば、動画およびアイテムといったように異なる種類のコンテンツの関連性について一括して評価することができる。例えば、あるアイテムが販売されるショッピングサイトに、当該アイテムと同カテゴリに属する画像(或いは動画など)を合わせて掲載することによって、ユーザの購買意欲をより向上させることができる。   Specifically, the service providing apparatus 20 sets a plurality of centroids G (G1 and G2 in the figure) on the feature space, and searches for the centroid G with the shortest distance for each content vector. Then, the service providing apparatus 20 clusters the content vectors having the same center G of the shortest distance as a set of content vectors related to each other. In the illustrated example, the content vector is classified into two clusters C1 and C2. By such processing, for example, relevance of different types of content such as moving images and items can be collectively evaluated. For example, the user's willingness to purchase can be further improved by posting an image (or a moving image or the like) belonging to the same category as the item on a shopping site where a certain item is sold.

なお、上述した第2実施形態では、コンテンツが画像およびアイテムの組み合わせであるものとして説明したがこれ限られず、例えば、画像と位置情報の組み合わせであってもよい。この場合、コンテンツベクトル生成部118は、画像ベクトルと、位置情報のコンテンツベクトルである位置情報ベクトルとを生成する。これを受けて、サービス提供装置20は、画像ベクトルと位置情報ベクトルとに基づいて、画像と位置情報との関連性について分析する。例えば、サービス提供装置20は、上述したクラスタリング手法を用いて、画像および位置情報の2つのコンテンツを関連付ける。   In the second embodiment described above, the content is described as a combination of an image and an item. However, the present invention is not limited to this, and may be a combination of an image and position information, for example. In this case, the content vector generation unit 118 generates an image vector and a position information vector that is a content vector of position information. In response to this, the service providing apparatus 20 analyzes the relevance between the image and the position information based on the image vector and the position information vector. For example, the service providing apparatus 20 associates two contents of an image and position information using the clustering method described above.

図15は、画像と位置情報との関連性について分析した分析結果の利用例を模式的に示す図である。図示のように、サービス提供装置20は、地図検索ウェブサービスなどにおいて、位置情報ベクトルによって表される地図上の座標に、同カテゴリに属する画像を表示させる。これによって、サービス提供装置20は、位置情報をユーザに提供すると共に、その位置での景観やその位置の建物に関連した画像(例えば購入可能な商品の画像など)を合わせて提供することができる。この結果、ユーザの利便性をより向上させることができる。   FIG. 15 is a diagram schematically illustrating an example of use of an analysis result obtained by analyzing the relationship between an image and position information. As shown in the figure, the service providing apparatus 20 displays an image belonging to the same category at coordinates on a map represented by a position information vector in a map search web service or the like. As a result, the service providing apparatus 20 can provide the position information to the user and also provide an image (for example, an image of a product that can be purchased) related to the landscape at the position and the building at the position. . As a result, user convenience can be further improved.

以上説明した第2実施形態によれば、提供するコンテンツが互いに異なる複数のウェブサービスの各々において検索クエリが入力された場合に、各ウェブサービスで提供されるコンテンツのそれぞれについて、コンテンツベクトルを生成することにより、互いに異なるコンテンツのそれぞれに対して適切なメタ情報を付与することができる。この結果、画像やアイテム、位置情報など、異なるコンテンツ同士でも互いに関連付けることができる。   According to the second embodiment described above, when a search query is input in each of a plurality of web services having different contents to be provided, a content vector is generated for each of the contents provided by each web service. Thus, appropriate meta information can be given to each of different contents. As a result, different contents such as images, items, and position information can be associated with each other.

<第3実施形態>
以下、第3実施形態について説明する。第3実施形態における情報解析装置100Bは、クエリ‐ベクトル変換装置30の機能を有する点で上述した第1および第2実施形態と相違する。以下、第1および第2実施形態との相違点を中心に説明し、これらの実施形態と共通する点については説明を省略する。
<Third Embodiment>
Hereinafter, the third embodiment will be described. The information analysis apparatus 100B in the third embodiment is different from the first and second embodiments described above in that it has the function of the query-vector conversion apparatus 30. In the following, differences from the first and second embodiments will be mainly described, and description of points common to these embodiments will be omitted.

図16は、第3実施形態における情報解析装置100Bの一例を示す図である。第3実施形態における制御部110Bは、上述したコーパス生成部112、抽出部114、重み付与部116、コンテンツベクトル生成部118、およびコンテンツ関連付部120の他に、クエリ‐ベクトル変換部122を備える。   FIG. 16 is a diagram illustrating an example of an information analysis apparatus 100B according to the third embodiment. The control unit 110B in the third embodiment includes a query-vector conversion unit 122 in addition to the corpus generation unit 112, the extraction unit 114, the weight assignment unit 116, the content vector generation unit 118, and the content association unit 120 described above. .

クエリ‐ベクトル変換部122は、コーパス生成部112により生成されたコーパス132に含まれる検索クエリをクエリベクトルに変換して、検索クエリとクエリベクトルの組み合わせを複数含むベクトル変換情報133を生成し、記憶部130に記憶させる。   The query-vector conversion unit 122 converts the search query included in the corpus 132 generated by the corpus generation unit 112 into a query vector, generates vector conversion information 133 including a plurality of combinations of the search query and the query vector, and stores it. Stored in the unit 130.

重み付与部116は、ベクトル変換情報133を検索することで、クエリ‐ベクトル変換部122により変換されたクエリベクトルの中から、抽出部114により抽出された着目検索クエリに対応するクエリベクトル(着目クエリから変換されたクエリベクトル)を選び出し、当該クエリベクトルに対して重みを付与する。   The weighting unit 116 searches the vector conversion information 133 to search a query vector (target query) corresponding to the target search query extracted by the extraction unit 114 from the query vectors converted by the query-vector conversion unit 122. The query vector converted from is selected, and a weight is given to the query vector.

これによって、第3実施形態における情報解析装置100Bは、上述した第1および第2実施形態と同様に、コンテンツに対して適切なメタ情報を付与することができる。   As a result, the information analysis apparatus 100B according to the third embodiment can give appropriate meta information to the content, as in the first and second embodiments described above.

<ハードウェア構成>
上述した実施形態の情報解析システムに含まれる複数の装置のうち、少なくともサービス提供装置20および情報解析装置100、100A、100Bは、例えば、図17に示すようなハードウェア構成により実現される。図17は、実施形態のサービス提供装置20および情報解析装置100、100A、100Bのハードウェア構成の一例を示す図である。
<Hardware configuration>
Of the plurality of devices included in the information analysis system of the above-described embodiment, at least the service providing device 20 and the information analysis devices 100, 100A, and 100B are realized by a hardware configuration as shown in FIG. FIG. 17 is a diagram illustrating an example of a hardware configuration of the service providing apparatus 20 and the information analysis apparatuses 100, 100A, and 100B according to the embodiment.

サービス提供装置20は、NIC20−1、CPU20−2、RAM20−3、ROM20−4、フラッシュメモリやHDDなどの二次記憶装置20−5、およびドライブ装置20−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置20−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置20−5、またはドライブ装置20−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM20−3に展開され、CPU20−2によって実行される。CPU20−2が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。   The service providing apparatus 20 includes an NIC 20-1, a CPU 20-2, a RAM 20-3, a ROM 20-4, a secondary storage device 20-5 such as a flash memory and an HDD, and a drive device 20-6, which are connected to an internal bus or a dedicated communication line. Are connected to each other. The drive device 20-6 is loaded with a portable storage medium such as an optical disk. A program stored in a portable storage medium attached to the secondary storage device 20-5 or the drive device 20-6 is expanded in the RAM 20-3 by a DMA controller (not shown) or the like and executed by the CPU 20-2. . The program referred to by the CPU 20-2 may be downloaded from another device via the network NW.

情報解析装置100、100A、100Bは、NIC100−1、CPU100−2、RAM100−3、ROM100−4、フラッシュメモリやHDDなどの二次記憶装置100−5、およびドライブ装置100−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置100−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置100−5、またはドライブ装置100−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM100−3に展開され、CPU100−2によって実行されることで、制御部110が実現される。制御部110が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
The information analysis apparatuses 100, 100A, and 100B include an NIC 100-1, a CPU 100-2, a RAM 100-3, a ROM 100-4, a secondary storage device 100-5 such as a flash memory and an HDD, and a drive device 100-6. Or it is the structure mutually connected by the exclusive communication line. The drive device 100-6 is loaded with a portable storage medium such as an optical disk. A program stored in a portable storage medium attached to the secondary storage device 100-5 or the drive device 100-6 is expanded in the RAM 100-3 by a DMA controller (not shown) or the like and executed by the CPU 100-2. Thus, the control unit 110 is realized. The program referred to by the control unit 110 may be downloaded from another device via the network NW.
As mentioned above, although the form for implementing this invention was demonstrated using embodiment, this invention is not limited to such embodiment at all, In the range which does not deviate from the summary of this invention, various deformation | transformation and substitution Can be added.

1…情報解析システム、10…ログ取得装置、20…サービス提供装置、30…クエリ‐ベクトル変換装置、100…情報解析装置、102…通信部、110…制御部、112…コーパス生成部、114…抽出部、116…重み付与部、118…コンテンツベクトル生成部、120…コンテンツ関連付部、130…記憶部、131…ログ情報、132…コーパス、133…ベクトル変換情報、134…転置ログ情報、135…コンテンツベクトル情報、NW…ネットワーク   DESCRIPTION OF SYMBOLS 1 ... Information analysis system, 10 ... Log acquisition apparatus, 20 ... Service provision apparatus, 30 ... Query-vector conversion apparatus, 100 ... Information analysis apparatus, 102 ... Communication part, 110 ... Control part, 112 ... Corpus generation part, 114 ... Extraction unit 116 ... weight assigning unit 118 ... content vector generation unit 120 ... content association unit 130 130 storage unit 131 log information 132 corpus 133 conversion information 134 transposition log information 135 ... content vector information, NW ... network

Claims (12)

コンテンツの検索時に入力された検索クエリと、前記検索クエリの入力に応じて選択されたコンテンツとが対応付けられた履歴情報に基づいて、前記履歴情報に含まれる着目コンテンツに関して、前記着目コンテンツの検索時に入力された一以上の検索クエリを抽出する抽出部と、
前記抽出部により抽出された一以上の検索クエリが、予め与えられたテキスト情報内におけるワード同士の共起性に基づいてそれぞれベクトルに変換されたクエリベクトルに対して、前記着目コンテンツが選択されたことへの寄与度を示す指標値に基づく重みを付与する付与部と、
前記付与部により重みが付与されたクエリベクトルに基づいて、前記着目コンテンツに関連付けるメタ情報を生成する生成部と、
を備える情報解析装置。
Based on the history information in which the search query input at the time of content search and the content selected in response to the input of the search query are associated with each other, the search for the content of interest is performed with respect to the content of interest included in the history information. An extractor that extracts one or more search queries entered at times,
The content of interest is selected for a query vector in which one or more search queries extracted by the extraction unit are converted into vectors based on co-occurrence of words in text information given in advance. A granting unit for giving a weight based on an index value indicating a degree of contribution to
A generating unit that generates meta information associated with the content of interest based on a query vector to which a weight is given by the granting unit;
An information analysis apparatus comprising:
前記クエリベクトルは、前記着目コンテンツの内容に依存せずに、前記検索クエリから変換されたベクトルである、
請求項1に記載の情報解析装置。
The query vector is a vector converted from the search query without depending on the content of the content of interest.
The information analysis apparatus according to claim 1.
前記検索クエリと、前記検索クエリが変換されたクエリベクトルとが対応付けられた組み合わせを複数含むベクトル変換情報を取得する取得部を更に備え、
前記抽出部は、前記取得部により取得された前記ベクトル変換情報を検索することで、前記抽出した検索クエリに対応付けられている前記クエリベクトルを抽出する、
請求項1または2に記載の情報解析装置。
An acquisition unit for acquiring vector conversion information including a plurality of combinations in which the search query and a query vector into which the search query is converted are associated;
The extraction unit extracts the query vector associated with the extracted search query by searching the vector conversion information acquired by the acquisition unit.
The information analysis apparatus according to claim 1 or 2.
前記履歴情報に含まれる前記検索クエリを前記クエリベクトルに変換する変換部を更に備え、
前記付与部は、前記変換部により変換された前記クエリベクトルの中から、前記抽出部により抽出された検索クエリから変換されたクエリベクトルを検索し、前記検索して得られたクエリベクトルに対して前記重みを付与する、
請求項1または2に記載の情報解析装置。
A conversion unit that converts the search query included in the history information into the query vector;
The assigning unit searches a query vector converted from the search query extracted by the extraction unit from the query vectors converted by the conversion unit, and for the query vector obtained by the search Giving the weight,
The information analysis apparatus according to claim 1 or 2.
前記抽出部は、前記履歴情報において、前記着目コンテンツに複数の検索クエリが対応付けられている場合、前記複数の検索クエリを抽出し、
前記付与部は、前記抽出部により抽出された前記複数の検索クエリの各々がベクトルに変換された複数のクエリベクトルに対して前記重みを付与し、
前記生成部は、前記付与部により前記重みが付与された前記複数のクエリベクトルを加算したベクトルを、前記メタ情報として生成する、
請求項1から4のうちいずか1項に記載の情報解析装置。
The extraction unit extracts the plurality of search queries when the search information is associated with the content of interest in the history information,
The assigning unit assigns the weight to a plurality of query vectors in which each of the plurality of search queries extracted by the extracting unit is converted into a vector,
The generation unit generates a vector obtained by adding the plurality of query vectors to which the weight is given by the grant unit as the meta information.
The information analysis apparatus according to any one of claims 1 to 4.
前記履歴情報は、提供するコンテンツが互いに異なる複数のウェブサービスの各々において前記検索クエリが入力される場合に、前記複数のウェブサービスの各々に基づいて生成され、
前記検索クエリが前記クエリベクトルに変換される際に、前記複数のウェブサービスの各々に基づいて生成された履歴情報のうち、他の履歴情報に含まれる内容を包含する履歴情報が用いられる、
請求項1から5のうちいずれか1項に記載の情報解析装置。
The history information is generated based on each of the plurality of web services when the search query is input in each of the plurality of web services having different contents to be provided.
When the search query is converted into the query vector, history information including contents included in other history information is used among the history information generated based on each of the plurality of web services.
The information analysis apparatus according to any one of claims 1 to 5.
前記付与部は、前記抽出部により抽出された検索クエリがベクトルに変換されたクエリベクトルに対して、前記検索クエリが入力された対象のサービスにおいて前記着目コンテンツが選択されたことへの寄与度を示す指標値に基づく重みを付与する、
請求項1から6のうちいずれか1項に記載の情報解析装置。
The granting unit determines a contribution degree to the selection of the content of interest in a target service to which the search query is input with respect to a query vector obtained by converting the search query extracted by the extraction unit into a vector. A weight based on the index value shown,
The information analysis apparatus according to any one of claims 1 to 6.
前記生成部は、前記抽出部により抽出された検索クエリがベクトルに変換される際に用いられるコーパスが共通する複数のサービスにおける、前記着目コンテンツが選択されたことへの寄与度を示す指標値に基づいて生成したメタ情報を、前記複数のサービスのそれぞれにより提供される前記着目コンテンツに関連付けるための情報として出力する、
請求項1から7のうちいずれか1項に記載の情報解析装置。
The generating unit sets an index value indicating a degree of contribution to the selected content of interest in a plurality of services having a common corpus used when the search query extracted by the extracting unit is converted into a vector. Meta-information generated based on the information is output as information for associating with the content of interest provided by each of the plurality of services;
The information analysis apparatus according to any one of claims 1 to 7.
前記着目コンテンツに関連付けられた前記メタ情報に対してクラスタリング処理を行って、前記着目コンテンツを分類する分類部を更に備える、
請求項1から8のうちいずれか1項に記載の情報解析装置。
A clustering unit that performs a clustering process on the meta information associated with the content of interest and further classifies the content of interest;
The information analysis apparatus according to any one of claims 1 to 8.
コンテンツの検索時に入力された検索クエリの集合と、前記集合に含まれる一以上の検索クエリが、予め与えられたテキスト情報内におけるワード同士の共起性に基づいてそれぞれベクトルに変換されたクエリベクトルに基づいて、前記コンテンツにメタ情報を付与する、
情報解析装置。
A query vector in which a set of search queries input at the time of content search and one or more search queries included in the set are respectively converted into vectors based on co-occurrence of words in given text information To provide meta information to the content based on
Information analysis device.
コンピュータが、
コンテンツの検索時に入力された検索クエリと、前記検索クエリの入力に応じて選択されたコンテンツとが対応付けられた履歴情報に基づいて、前記履歴情報に含まれる着目コンテンツに関して、前記着目コンテンツの検索時に入力された一以上の検索クエリを抽出し、
前記抽出部により抽出された一以上の検索クエリが、予め与えられたテキスト情報内におけるワード同士の共起性に基づいてそれぞれベクトルに変換されたクエリベクトルに対して、前記着目コンテンツが選択されたことへの寄与度を示す指標値に基づく重みを付与し、
前記重みを付与したクエリベクトルに基づいて、前記着目コンテンツに関連付けるメタ情報を生成する、
情報解析方法。
Computer
Based on the history information in which the search query input at the time of content search and the content selected in response to the input of the search query are associated with each other, the search for the content of interest is performed with respect to the content of interest included in the history information. Extract one or more search queries entered at times,
The content of interest is selected for a query vector in which one or more search queries extracted by the extraction unit are converted into vectors based on co-occurrence of words in text information given in advance. A weight based on an index value indicating the degree of contribution to
Based on the weighted query vector, generates meta information to be associated with the content of interest.
Information analysis method.
コンピュータに、
コンテンツの検索時に入力された検索クエリと、前記検索クエリの入力に応じて選択されたコンテンツとが対応付けられた履歴情報に基づいて、前記履歴情報に含まれる着目コンテンツに関して、前記着目コンテンツの検索時に入力された一以上の検索クエリを抽出させ、
前記抽出部により抽出された一以上の検索クエリが、予め与えられたテキスト情報内におけるワード同士の共起性に基づいてそれぞれベクトルに変換されたクエリベクトルに対して、前記着目コンテンツが選択されたことへの寄与度を示す指標値に基づく重みを付与させ、
前記重みを付与させたクエリベクトルに基づいて、前記着目コンテンツに関連付けるメタ情報を生成させる、
情報解析プログラム。
On the computer,
Based on the history information in which the search query input at the time of content search and the content selected in response to the input of the search query are associated with each other, the search for the content of interest is performed with respect to the content of interest included in the history information. Let us extract one or more search queries that are sometimes entered,
The content of interest is selected for a query vector in which one or more search queries extracted by the extraction unit are converted into vectors based on co-occurrence of words in text information given in advance. Giving a weight based on an index value indicating the degree of contribution to
Based on the query vector to which the weight is given, meta information associated with the content of interest is generated.
Information analysis program.
JP2016165503A 2016-08-26 2016-08-26 Information analysis apparatus, information analysis method, and information analysis program Active JP6160018B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016165503A JP6160018B1 (en) 2016-08-26 2016-08-26 Information analysis apparatus, information analysis method, and information analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016165503A JP6160018B1 (en) 2016-08-26 2016-08-26 Information analysis apparatus, information analysis method, and information analysis program

Publications (2)

Publication Number Publication Date
JP6160018B1 true JP6160018B1 (en) 2017-07-12
JP2018032304A JP2018032304A (en) 2018-03-01

Family

ID=59308890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016165503A Active JP6160018B1 (en) 2016-08-26 2016-08-26 Information analysis apparatus, information analysis method, and information analysis program

Country Status (1)

Country Link
JP (1) JP6160018B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210056149A1 (en) * 2018-03-16 2021-02-25 Rakuten, Inc. Search system, search method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009266096A (en) * 2008-04-28 2009-11-12 Sony Corp Information processing apparatus and presenting method of related item
JP2010033377A (en) * 2008-07-29 2010-02-12 Yahoo Japan Corp Search device for automatically estimating search request attribute to web query, and retrieving method and program
JP2010123036A (en) * 2008-11-21 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> Document retrieval device, document retrieval method and document retrieval program
US20160085860A1 (en) * 2013-05-14 2016-03-24 Telefonaktiebolaget L M Ericsson (Publ) Search engine for textual content and non-textual content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009266096A (en) * 2008-04-28 2009-11-12 Sony Corp Information processing apparatus and presenting method of related item
JP2010033377A (en) * 2008-07-29 2010-02-12 Yahoo Japan Corp Search device for automatically estimating search request attribute to web query, and retrieving method and program
JP2010123036A (en) * 2008-11-21 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> Document retrieval device, document retrieval method and document retrieval program
US20160085860A1 (en) * 2013-05-14 2016-03-24 Telefonaktiebolaget L M Ericsson (Publ) Search engine for textual content and non-textual content

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
村田 眞哉,他: ""クリックログ解析による情報要求ベースの検索結果ランキング"", 日本データベース学会論文誌, vol. 第7巻,第4号, JPN6016046781, 27 March 2009 (2009-03-27), pages p.37−42 *

Also Published As

Publication number Publication date
JP2018032304A (en) 2018-03-01

Similar Documents

Publication Publication Date Title
KR102056822B1 (en) Method for providing learning service and apparatus thereof
US9818142B2 (en) Ranking product search results
CN105247507B (en) Method, system and storage medium for the influence power score for determining brand
JP2021533450A (en) Identification and application of hyperparameters for machine learning
CN105045799A (en) Searchable index
US20100079464A1 (en) Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products
US20140095308A1 (en) Advertisement distribution apparatus and advertisement distribution method
US10754896B2 (en) Transforming a description of services for web services
US9128988B2 (en) Search result ranking by department
CN101496003A (en) Compatibility scoring of users in a social network
CN109564573A (en) Platform from computer application metadata supports cluster
WO2018227930A1 (en) Method and device for intelligently prompting answers
JP2018005662A (en) Information analysis device, information analysis method, and information analysis program
JP6434954B2 (en) Information processing apparatus, information processing method, and program
WO2017203672A1 (en) Item recommendation method, item recommendation program, and item recommendation apparatus
CN110209780B (en) Question template generation method and device, server and storage medium
US10394804B1 (en) Method and system for increasing internet traffic to a question and answer customer support system
JP6160018B1 (en) Information analysis apparatus, information analysis method, and information analysis program
JP2024028172A (en) Service providing device and method for providing search path
US20130332440A1 (en) Refinements in Document Analysis
JP6258246B2 (en) Analysis device, analysis method, and program
JP6985181B2 (en) Information processing equipment, information processing methods, and programs
Liu et al. Minimizing required user effort for cold-start recommendation by identifying the most important latent factors
JP7297855B2 (en) Keyword extraction device, keyword extraction method, and program
CN111597220B (en) Data mining method and device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170526

R150 Certificate of patent or registration of utility model

Ref document number: 6160018

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250