JP2018072983A - Retrieval device, retrieval method and retrieval program - Google Patents

Retrieval device, retrieval method and retrieval program Download PDF

Info

Publication number
JP2018072983A
JP2018072983A JP2016209605A JP2016209605A JP2018072983A JP 2018072983 A JP2018072983 A JP 2018072983A JP 2016209605 A JP2016209605 A JP 2016209605A JP 2016209605 A JP2016209605 A JP 2016209605A JP 2018072983 A JP2018072983 A JP 2018072983A
Authority
JP
Japan
Prior art keywords
content
search
query
index value
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016209605A
Other languages
Japanese (ja)
Inventor
山下 勝司
Katsuji Yamashita
勝司 山下
幸史 牧山
Koji Makiyama
幸史 牧山
尚樹 平井
Naoki Hirai
尚樹 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016209605A priority Critical patent/JP2018072983A/en
Publication of JP2018072983A publication Critical patent/JP2018072983A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a device, a method and a program that retrieve a content as intended by a user.SOLUTION: A retrieval device 100 has an extraction section 132, a calculation section 134, and a retrieval section 138. The extraction section 132 extracts features to be used for retrieval processing from a content. The calculation section 134 calculates a prescribed index value set for each feature on the basis of a cooccurrence relation on a combination of the features extracted by the extraction section 132, and associates the calculated index value with the content, then stores it in a prescribed storage section 120. The retrieval section 138 retrieves a content suitable for a query sent from a user on the basis of the calculated prescribed index value calculated by the calculation section 134.SELECTED DRAWING: Figure 4

Description

本発明は、検索装置、検索方法および検索プログラムに関する。   The present invention relates to a search device, a search method, and a search program.

近年、通信ネットワークの発達とともに、様々なサービスがネットワークを介して提供されている。これに関連して、ネットワーク上に存在するサービスを検索したり、サービス内において所望の商品や記事を検索したりするための様々な検索技術が提案されている。   In recent years, with the development of communication networks, various services are provided via networks. In relation to this, various search techniques for searching for a service existing on a network or searching for a desired product or article in the service have been proposed.

例えば、検索に利用する広告指標の予測値を高速に求めることによって、ユーザに配信する広告を検索する(抽出する)処理を効率的に行うことのできる技術が知られている。   For example, a technique is known that can efficiently perform a process of searching (extracting) an advertisement to be distributed to a user by obtaining a predicted value of an advertisement index used for search at high speed.

特開2015−225549号公報JP2015-225549A

しかしながら、上記の従来技術では、ユーザの意図に沿ったコンテンツを効率よく検索することができるとは限らない。具体的には、上記の従来技術は、所定の指標の予測値を高速に求めることで検索効率を向上させるものであり、クエリを送信するユーザの意図に沿ったコンテンツを検索するための処理に応用できるとは限らない。   However, with the above-described conventional technology, it is not always possible to efficiently search for content according to the user's intention. Specifically, the above-described conventional technology improves search efficiency by obtaining a predicted value of a predetermined index at a high speed, and is a process for searching for content according to the intention of a user who transmits a query. Not always applicable.

本願は、上記に鑑みてなされたものであって、ユーザの意図に沿ったコンテンツを効率よく検索することができる検索装置、検索方法、及び検索プログラムを提供することを目的とする。   The present application has been made in view of the above, and an object of the present invention is to provide a search device, a search method, and a search program that can efficiently search for content that matches a user's intention.

本願に係る検索装置は、検索処理に利用するための素性をコンテンツから抽出する抽出部と、前記抽出部によって抽出された素性の組み合わせにおける共起関係に基づいて、前記素性ごとに設定される所定の指標値を算出し、算出された指標値と前記コンテンツとを対応付けて所定の記憶部に格納する算出部と、前記算出部によって算出された所定の指標値に基づいて、ユーザから送信されるクエリに適合するコンテンツを検索する検索部と、を備えたことを特徴とする。   The search device according to the present application is a predetermined set for each feature based on a co-occurrence relationship in an extraction unit that extracts features to be used for search processing from content and a combination of features extracted by the extraction unit. Based on the predetermined index value calculated by the calculation unit, the calculation unit that calculates the index value of the image, and stores the calculated index value and the content in association with each other in the predetermined storage unit And a search unit for searching for content that matches the query.

実施形態の一態様によれば、ユーザの意図に沿ったコンテンツを効率よく検索することができるという効果を奏する。   According to one aspect of the embodiment, there is an effect that it is possible to efficiently search for content according to the user's intention.

図1は、実施形態に係る検索処理の一例を示す図(1)である。FIG. 1 is a diagram (1) illustrating an example of a search process according to the embodiment. 図2は、実施形態に係る検索処理の一例を示す図(2)である。FIG. 2 is a diagram (2) illustrating an example of a search process according to the embodiment. 図3は、実施形態に係る検索システムの構成例を示す図である。FIG. 3 is a diagram illustrating a configuration example of the search system according to the embodiment. 図4は、実施形態に係る検索装置の構成例を示す図である。FIG. 4 is a diagram illustrating a configuration example of the search device according to the embodiment. 図5は、実施形態に係るコンテンツ記憶部の一例を示す図である。FIG. 5 is a diagram illustrating an example of a content storage unit according to the embodiment. 図6は、実施形態に係る検索情報記憶部の一例を示す図である。FIG. 6 is a diagram illustrating an example of a search information storage unit according to the embodiment. 図7は、実施形態に係る指標値記憶部の一例を示す図である。FIG. 7 is a diagram illustrating an example of an index value storage unit according to the embodiment. 図8は、実施形態に係るウェブサーバの構成例を示す図である。FIG. 8 is a diagram illustrating a configuration example of the web server according to the embodiment. 図9は、実施形態に係る処理手順を示すフローチャート(1)である。FIG. 9 is a flowchart (1) illustrating a processing procedure according to the embodiment. 図10は、実施形態に係る処理手順を示すフローチャート(2)である。FIG. 10 is a flowchart (2) illustrating a processing procedure according to the embodiment. 図11は、検索装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。FIG. 11 is a hardware configuration diagram illustrating an example of a computer that realizes the function of the search device.

以下に、本願に係る検索装置、検索方法および検索プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る検索装置、検索方法および検索プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。   Hereinafter, embodiments for carrying out a search device, a search method, and a search program according to the present application (hereinafter referred to as “embodiments”) will be described in detail with reference to the drawings. Note that the search device, the search method, and the search program according to the present application are not limited by this embodiment. In addition, the embodiments can be appropriately combined within a range that does not contradict processing contents. In the following embodiments, the same portions are denoted by the same reference numerals, and redundant description is omitted.

〔1.検索処理の一例〕
まず、図1及び図2を用いて、実施形態に係る検索処理の一例について説明する。図1は、実施形態に係る検索処理の一例を示す図(1)である。図1では、本願に係る検索装置100によって、検索対象であるコンテンツに対して、検索処理に利用される所定の指標値が算出される処理の一例を示している。なお、実施形態では、検索対象のコンテンツとして、オークションサイトにおける出品物(より厳密には、コンテンツとは、出品者が出品物を紹介するための紹介ページに関するデータを意味する。以下では、オークションサイトにおける商品のような出品物自体を示す場合には、「コンテンツに関連付けられた商品」のように表記する。)を例に挙げる。
[1. Example of search process)
First, an example of search processing according to the embodiment will be described with reference to FIGS. 1 and 2. FIG. 1 is a diagram (1) illustrating an example of a search process according to the embodiment. FIG. 1 shows an example of processing in which a predetermined index value used for search processing is calculated for content to be searched by the search device 100 according to the present application. In the embodiment, the content to be searched is an item on the auction site (more precisely, the content means data related to an introduction page for the exhibitor to introduce the item. In the following, the auction site. In the case of showing an exhibit itself such as a product in the above, it is expressed as “product related to content”).

図1に示す検索装置100は、出品者から入稿されるコンテンツを保持するサーバ装置である。検索装置100は、例えば、オークションサイトを提供するウェブサーバ30(図3参照)と連動し、オークションサイトに出品された出品物を検索するための処理を行う。すなわち、実施形態に係る検索装置100は、オークションサイトを利用するユーザからクエリを受信し、受信したクエリに対する検索結果として、クエリに適合するコンテンツをユーザに送信する。具体的には、検索装置100は、ユーザが操作する情報処理端末であるユーザ端末10(図2参照)からコンテンツ検索の要求を受け付けた場合に、保持しているコンテンツの中から、クエリに適合するコンテンツを検索する。そして、検索装置100は、検索したコンテンツを検索結果としてユーザ端末10に送信する。   A search device 100 shown in FIG. 1 is a server device that holds content submitted by exhibitors. For example, the search device 100 works in conjunction with the web server 30 (see FIG. 3) that provides an auction site to search for items that have been exhibited on the auction site. That is, the search device 100 according to the embodiment receives a query from a user who uses an auction site, and transmits content that matches the query to the user as a search result for the received query. Specifically, when the search device 100 receives a content search request from the user terminal 10 (see FIG. 2), which is an information processing terminal operated by the user, the search device 100 matches the query from the held content. Search for content. Then, the search device 100 transmits the searched content to the user terminal 10 as a search result.

図1に示す入稿端末20は、オークションサイトに商品を出品する出品者によって利用される情報処理端末である。例えば、入稿端末20は、出品者による操作に従って、コンテンツを検索装置100に入稿する。実施形態において、出品者が入稿するコンテンツとは、コンテンツに関連付けられた商品(出品物)を紹介するための紹介文(テキストデータ)や、商品を撮像した画像データ等を含むデータ群である。また、コンテンツには、コンテンツのタイトルや、コンテンツを出品した出品者を識別する情報等も含まれる。なお、実施形態では説明の簡略化のため、検索装置100が、コンテンツのタイトルに含まれるテキストデータを利用して検索を行う例を示すが、検索装置100は、コンテンツのタイトル以外の説明文や、画像の説明として付与されたテキストデータ等を用いて検索を行ってもよい。   A submission terminal 20 shown in FIG. 1 is an information processing terminal used by a seller who sells a product on an auction site. For example, the submission terminal 20 submits content to the search device 100 in accordance with an operation by the exhibitor. In the embodiment, the content submitted by the exhibitor is a data group including an introduction sentence (text data) for introducing a product (exhibit) associated with the content, image data obtained by capturing the product, and the like. . The content also includes the title of the content and information for identifying the exhibitor who has exhibited the content. In the embodiment, for the sake of simplification of description, an example in which the search device 100 performs a search using text data included in the content title is described. A search may be performed using text data or the like given as an image description.

ここで、オークションサイト等におけるコンテンツの検索では、検索に用いられるクエリに適合したコンテンツであって、ユーザの意図に沿ったコンテンツを検索結果の上位としてユーザに返すことが望ましい。例えば、検索処理におけるクエリには、同一表記の単語であっても異なる意図を含むクエリが存在する。このような場合に、クエリに含まれるユーザの意図を加味して、検索結果に反映できることが望ましい。   Here, when searching for content on an auction site or the like, it is desirable to return content that conforms to the query used for the search and that matches the user's intention to the user as a higher rank of the search results. For example, queries in search processing include queries that have different intentions even if they have the same notation. In such a case, it is desirable that the user's intention included in the query can be taken into account and reflected in the search results.

例えば、オークションサイトの出品物を検索しようとするユーザが、検索クエリとして「カニ」と「送料込」という2つの単語を組み合わせたクエリを送信したものとする。この場合、通常、検索対象となるコンテンツに含まれる単語とクエリとの相関を指標値として算出する手法が採用される。そして、算出したスコアに基づいてコンテンツがランク付けされ、ランク付けされた順番に検索結果がユーザ端末10に表示される。   For example, it is assumed that a user who wants to search for items on an auction site transmits a query combining two words “crab” and “shipping included” as a search query. In this case, usually, a method of calculating a correlation between a word included in the content to be searched and a query as an index value is employed. Then, the content is ranked based on the calculated score, and the search results are displayed on the user terminal 10 in the ranked order.

しかしながら、オークションサイトに出品される出品物の中には、例えば、食品としての「カニ」と、カニの形状に似たバイク用品である「ブレーキキャリパー」とが含まれる可能性がある。この場合、検索手法によっては、ユーザが意図しないコンテンツが検索結果の上位として検索されるおそれがある。例えば、検索を行ったユーザは、食品としての「カニ」を検索しようとして「カニ」と「送料込」という2つの単語を組み合わせたクエリを送信したにもかかわらず、バイク用品である「ブレーキキャリパー」を検索結果として受信する可能性がある。   However, there is a possibility that the items to be exhibited on the auction site include, for example, “crabs” as foods and “brake calipers” which are motorcycle articles similar to crab shapes. In this case, depending on the search method, content unintended by the user may be searched as a higher rank of the search result. For example, the user who performed the search sends a query combining two words “crab” and “shipping included” in an attempt to search for “crab” as food, but the “brake caliper” is a motorcycle article. "May be received as a search result.

なお、従来から、tf−idf(Term Frequency、Inverse Document Frequency)等を用いることで、ユーザの意図に近付けた検索結果を返す手法が提案されている。しかし、これらを検索手法に利用する場合、検索クエリに示される検索の意図を表現するには表現力が弱く、これらの手法でランク付けされた検索結果では、ユーザの意図を反映するための精度が出ない場合がある。また、従来手法を利用する場合、ユーザからクエリが送信された後に単語の一致率等の算出を行うことになるため、検索結果をユーザに迅速に返すことが困難になる可能性がある。   Conventionally, a method for returning a search result closer to the user's intention by using tf-idf (Term Frequency, Inverse Document Frequency) or the like has been proposed. However, when these are used as search methods, the expressiveness is weak to express the intention of the search indicated in the search query, and the search results ranked by these methods are accurate to reflect the user's intention. May not appear. Further, when the conventional method is used, since the word matching rate and the like are calculated after the query is transmitted from the user, it may be difficult to quickly return the search result to the user.

また、クエリに含まれる単語と、コンテンツに含まれる単語との共起度(例えば、コサイン類似度)を利用して検索を行う手法も想定される。この場合、クエリに含まれる単語と、コンテンツに含まれる単語とが共起しやすいものであるほど、検索結果を示すスコアが高くなるため、ユーザの意図に近い検索結果が導出され易くなる。しかしながら、かかる手法も、ユーザから受信したクエリに含まれる単語とコンテンツに含まれる単語との共起度を、ユーザからクエリを受信するたびに算出しなければならない。このため、検索対象となるコンテンツが膨大な量となるオークションサイト等では算出に費やす時間が長くなることから、現実的には、かかる手法を採用することは難しい。   Also, a method of performing a search using the co-occurrence degree (for example, cosine similarity) between a word included in the query and a word included in the content is also assumed. In this case, the more easily the words included in the query and the words included in the content co-occur, the higher the score indicating the search result, so that it is easier to derive a search result closer to the user's intention. However, also in this method, the co-occurrence degree of the word included in the query received from the user and the word included in the content must be calculated every time the query is received from the user. For this reason, in an auction site or the like where the amount of content to be searched for is large, the time spent for calculation becomes long, so it is practically difficult to adopt such a method.

そこで、実施形態に係る検索装置100は、検索対象となるコンテンツが入稿され、記憶部に格納される時点において、予めコンテンツに含まれる単語同士の共起度を算出する手法を採用する。かかる手法により、検索装置100は、クエリを送信したユーザの意図に沿ったコンテンツを的確に検索することができるとともに、検索処理を効率よく迅速に行うことを可能にする。以下、図1及び図2を用いて、検索装置100によって行われる検索処理の一例を流れに沿って説明する。   Therefore, the search device 100 according to the embodiment employs a method of calculating the co-occurrence degree of words included in the content in advance when the content to be searched is submitted and stored in the storage unit. With this technique, the search device 100 can accurately search for content that matches the intention of the user who transmitted the query, and can efficiently perform the search process quickly. Hereinafter, an example of a search process performed by the search device 100 will be described along the flow with reference to FIGS. 1 and 2.

まず、出品者は、入稿端末20を介して、検索装置100にコンテンツを入稿する(ステップS01)。例えば、出品者は、図1に示すコンテンツC01と、コンテンツC02とを入稿したとする。コンテンツC01は、食品としてのカニを商品とするコンテンツであり、コンテンツのタイトルは、「北海道の新鮮なカニをお届けします(送料込)!」である。また、コンテンツC02は、バイク用品としてのブレーキキャリパーを商品とするコンテンツであり、コンテンツのタイトルは、「ブレーキキャリパーを販売しています(カニタイプ、チタン製、送料込)。」である。   First, the exhibitor submits content to the search device 100 via the submission terminal 20 (step S01). For example, it is assumed that the exhibitor has submitted the content C01 and the content C02 shown in FIG. The content C01 is a content that uses crab as food as a product, and the title of the content is “I will deliver fresh crab from Hokkaido (shipping included)!”. The content C02 is a content that uses a brake caliper as a motorcycle article as a product, and the title of the content is “Brake caliper is sold (crab type, made of titanium, including shipping fee)”.

検索装置100は、出品者からコンテンツの入稿を受け付けた場合、メモリ等の記憶部にコンテンツを格納する段階において、検索処理に用いるための素性をコンテンツから抽出する。具体的には、検索装置100は、素性として、コンテンツに含まれる単語のうち、クエリになりうる単語の抽出を行う(ステップS02)。なお、実施形態に係る検索装置100は、「コンテンツのタイトル」を検索処理に用いるため、コンテンツのタイトルに含まれるテキストデータのなかから、クエリになりうる単語の抽出を行うものとする。   When receiving a content submission from an exhibitor, the search device 100 extracts features to be used for search processing from the content at the stage of storing the content in a storage unit such as a memory. Specifically, as a feature, the search device 100 extracts a word that can be a query from words included in the content (step S02). Note that the search device 100 according to the embodiment uses “content title” for search processing, and therefore extracts a word that can be a query from text data included in the content title.

クエリになりうる単語は、例えば、実際にクエリとして利用された回数等を学習した結果に基づいて、検索装置100の管理者によって適宜設定されるものとする。例えば、検索装置100は、コンテンツのタイトルを形態素解析し、含まれる単語のうち、実際にクエリとして利用された回数の多い単語を所定数(例えば4つ)だけ抽出する。なお、検索装置100は、例えば検索対象となるコンテンツにおけるtf−idf等の重み値を利用して、クエリになりうる単語を抽出するようにしてもよい。例えば、検索装置100は、所定のコンテンツにおいて形態素解析された単語に対して、各単語のtf−idf等の重み値を算出し、算出した値の上位から順に単語を抽出する。これにより、検索装置100は、例えばコンテンツに特有の単語を抽出しやすくなるとともに、一般に広く用いられる単語については、抽出される単語から排除することができる。   A word that can be a query is appropriately set by an administrator of the search device 100 based on, for example, a result of learning the number of times it is actually used as a query. For example, the search device 100 performs a morphological analysis on the title of the content, and extracts a predetermined number (for example, four) of words that are frequently used as a query from the included words. Note that the search device 100 may extract a word that can be a query using a weight value such as tf-idf in the content to be searched, for example. For example, the search device 100 calculates a weight value such as tf-idf of each word with respect to a word subjected to morphological analysis in a predetermined content, and extracts words in order from the top of the calculated value. Accordingly, the search device 100 can easily extract, for example, a word unique to the content, and can exclude a word that is widely used from the extracted word.

図1の例では、検索装置100は、コンテンツC01については、「カニ」、「北海道」、「新鮮」、「送料込」をクエリになりうる単語として抽出したものとする。また、検索装置100は、コンテンツC02については、「カニ」、「ブレーキ」、「チタン」、「送料込」をクエリになりうる単語として抽出したものとする。   In the example of FIG. 1, for the content C01, the search apparatus 100 extracts “crab”, “Hokkaido”, “fresh”, and “shipping included” as words that can be a query. In addition, for the content C02, the search device 100 extracts “crab”, “brake”, “titanium”, and “shipping included” as words that can be a query.

続いて、検索装置100は、クエリになりうる単語として抽出した単語について、各々を組み合わせる。そして、検索装置100は、組み合わせられた単語同士の共起度に基づいて、各々の単語について、所定の指標値を算出する(ステップS03)。ここで、所定の指標値とは、検索装置100がコンテンツを検索する際に利用する数値であり、クエリとのマッチングスコアを算出するために利用する数値である。かかる指標値は、コンテンツごと、かつ、抽出された単語ごとに設定される。具体的には、実施形態に係る指標値とは、コンテンツC01について、クエリが「カニ」である場合に、コンテンツC01に含まれる「カニ」という単語がどのような重みを持つ単語であるかが数値化されたものである。   Subsequently, the search device 100 combines the extracted words as words that can be a query. Then, the search device 100 calculates a predetermined index value for each word based on the co-occurrence degree of the combined words (step S03). Here, the predetermined index value is a numerical value used when the search device 100 searches for content, and is a numerical value used for calculating a matching score with a query. Such an index value is set for each content and for each extracted word. Specifically, the index value according to the embodiment is the weight of the word “crab” included in the content C01 when the query is “crab” for the content C01. It has been digitized.

検索装置100は、例えば所定の学習処理を経て、2つの単語の組み合わせの共起度に基づいて、各単語の指標値を求める。例えば、検索装置100は、クエリとしての「カニ」が所定ユーザから送信された場合に、所定コンテンツに含まれる「カニ」という単語が、ユーザが検索結果として表示されたコンテンツをクリック(選択)することにどれくらい寄与したかという結果を学習する。この場合、ユーザがクリックしたコンテンツとは、検索結果としてユーザ端末10に表示された複数のコンテンツのうち、ユーザが自らの意図に沿ったコンテンツであると考え、選択したコンテンツであることを示す。いわば、クリックされたコンテンツ(あるいは、コンテンツに含まれる単語)とは、学習処理における正解データを示す。   The search device 100 obtains an index value of each word based on the co-occurrence degree of the combination of two words through a predetermined learning process, for example. For example, when “crab” as a query is transmitted from a predetermined user, the search device 100 clicks (selects) the word “crab” included in the predetermined content, which is displayed as a search result by the user. Learn the results of how much they contributed. In this case, the content clicked by the user indicates that the content selected by the user is considered to be content in line with his / her intention among a plurality of content displayed on the user terminal 10 as a search result. In other words, the clicked content (or a word included in the content) indicates correct answer data in the learning process.

すなわち、検索装置100は、「カニ」というクエリでコンテンツが検索され、さらに検索されたコンテンツがユーザからクリックされた場合に、クエリ「カニ」という単語と、クリックされたコンテンツに含まれる単語とが共起性を有すると判定する。例えば、「カニ」というクエリで検索されたコンテンツのうち、ユーザからクリックされたコンテンツに「カニ」や「北海道」や「新鮮」等が含まれる割合が高い場合、〈クエリ「カニ」、単語「カニ」〉というペアや、〈クエリ「カニ」、単語「北海道」〉というペアや、〈クエリ「カニ」、単語「新鮮」〉というペアは、各々の単語同士が共起性を有する(共起度が高い)と判定される。一方、「カニ」というクエリで検索されたコンテンツのうち、ユーザからクリックされたコンテンツに「送料込」等が含まれる割合が低い場合、〈クエリ「カニ」、単語「送料込」〉というペアの単語同士は、共起性を有さない(共起度が低い)と判定される。   That is, when the content is searched for by the query “crab” and the searched content is clicked by the user, the search device 100 includes the word “query” and the word included in the clicked content. Determined to have co-occurrence. For example, if the content searched for by the query “crab” contains a high percentage of “crab”, “Hokkaido”, “fresh”, etc. in the content clicked by the user, <query “crab”, word “ "Crab">, <Query "Crab", word "Hokkaido">, and <Query "Crab", word "Fresh"> have co-occurrence between each word (co-occurrence) The degree is high). On the other hand, if the percentage of content searched for by the query “crab” includes “shipping included” in the content clicked by the user is low, the pair of <query “crab” and word “shipping included”> It is determined that the words do not have co-occurrence (low co-occurrence).

このように、検索装置100は、クエリとして用いられた単語が、どのくらい「ユーザからクリックされるコンテンツ(言い換えれば、ユーザが意図していたコンテンツ)を検索する」という事象に対して寄与したか、という傾向を数値化する。より具体的には、検索装置100は、検索処理におけるクエリとして所定の単語(例えば「カニ」)が用いられた場合に、検索結果として出力されるコンテンツに含まれる単語(例えば「カニ」や「北海道」や「新鮮」や「送料込」)と、当該クエリとして用いられた単語(「カニ」)とが共起関係を有すると判定し、その共起関係を学習に基づき数値化する。   In this way, the search device 100 contributes to how much the word used as the query contributes to the event of “searching for content clicked by the user (in other words, content intended by the user)”, This trend is quantified. More specifically, when a predetermined word (for example, “crab”) is used as a query in the search process, the search apparatus 100 uses a word (for example, “crab” or “crab” included in the content that is output as the search result. (Hokkaido ”,“ fresh ”,“ shipping included ”) and the word (“ crab ”) used as the query are determined to have a co-occurrence relationship, and the co-occurrence relationship is digitized based on learning.

図1の例を用いて、具体的に説明する。図1の例のコンテンツC01について、検索装置100は、クエリになりうる単語として、「カニ」、「北海道」、「新鮮」、「送料込」を抽出している。このとき、検索装置100は、クエリが「カニ」であった場合に、各単語の共起度を示す数値を上記機械学習により算出する。すなわち、検索装置100は、コンテンツC01における「カニ」という単語に対応する指標値を算出するために、〈クエリ「カニ」、単語「カニ」〉、〈クエリ「カニ」、単語「北海道」〉、〈クエリ「カニ」、単語「新鮮」〉、〈クエリ「カニ」、単語「送料込」〉という4つのペアを作成する。そして、検索装置100は、4つ各々のペアに対して、上記機械学習により求められる数値を算出する。そして、検索装置100は、4つ各々のペアの数値を足した数値を、「コンテンツC01における単語「カニ」」の指標値として算出する。   This will be specifically described with reference to the example of FIG. For the content C01 in the example of FIG. 1, the search device 100 extracts “crab”, “Hokkaido”, “fresh”, and “shipping included” as words that can be a query. At this time, when the query is “crab”, the search device 100 calculates a numerical value indicating the co-occurrence degree of each word by the machine learning. That is, the search device 100 calculates <index “crab”, word “crab”>, <query “crab”, word “Hokkaido”>, in order to calculate an index value corresponding to the word “crab” in the content C01. Four pairs are created: <query “crab”, word “fresh”>, <query “crab”, word “shipping included”>. And the search device 100 calculates the numerical value calculated | required by the said machine learning with respect to each of four pairs. Then, the search device 100 calculates a numerical value obtained by adding the numerical values of each of the four pairs as an index value of “the word“ crab ”in the content C01”.

仮に、〈クエリ「カニ」、単語「カニ」〉というペアに対して算出された数値が「5」であり、〈クエリ「カニ」、単語「北海道」〉というペアに対して算出された数値が「3」であり、〈クエリ「カニ」、単語「新鮮」〉というペアに対して算出された数値が「2」であり、〈クエリ「カニ」、単語「送料込」〉というペアに対して算出された数値が「0」であったとする。この場合、検索装置100は、4つ各々のペアの数値を足した数値である「5+3+2+0」、すなわち、「10」という数値を、「コンテンツC01における単語「カニ」」の指標値として算出する。   For example, the numerical value calculated for the pair <query “crab”, word “crab”> is “5”, and the numerical value calculated for the pair <query “crab”, word “Hokkaido”> “3”, the value calculated for the pair <query “crab”, word “fresh”> is “2” and for the pair <query “crab”, word “shipping included”> Assume that the calculated numerical value is “0”. In this case, the search device 100 calculates a numerical value “5 + 3 + 2 + 0” that is a numerical value obtained by adding the numerical values of each of the four pairs, that is, a numerical value “10” as an index value of “the word“ crab ”in the content C01”.

同様にして、検索装置100は、コンテンツC01における「カニ」以外の単語について指標値を算出する。例えば、検索装置100は、コンテンツC01における「北海道」という単語に対応する指標値を算出するため、〈クエリ「北海道」、単語「カニ」〉、〈クエリ「北海道」、単語「北海道」〉、〈クエリ「北海道」、単語「新鮮」〉、〈クエリ「北海道」、単語「送料込」〉という4つのペアを作成する。そして、検索装置100は、4つ各々のペアに対して、上記機械学習により求められる数値を算出する。そして、検索装置100は、4つ各々のペアの数値を足した数値を、「コンテンツC01における単語「北海道」」の指標値として算出する。   Similarly, the search device 100 calculates an index value for words other than “crab” in the content C01. For example, since the search device 100 calculates an index value corresponding to the word “Hokkaido” in the content C01, <query “Hokkaido”, word “crab”>, <query “Hokkaido”, word “Hokkaido”>, < Four pairs are created: query “Hokkaido”, word “fresh”>, <query “Hokkaido”, word “shipping included”>. And the search device 100 calculates the numerical value calculated | required by the said machine learning with respect to each of four pairs. Then, the search device 100 calculates a numerical value obtained by adding the numerical values of each of the four pairs as an index value of “the word“ Hokkaido ”in the content C01”.

このようにして、検索装置100は、コンテンツC01における各単語の指標値として、「カニ」について「10」を算出し、「北海道」について「8」を算出し、「新鮮」について「5」を算出し、「送料込」について「0.1」を算出したものとする。これらの指標値は、検索装置100が検索対象とするコンテンツ群において、例えばクエリが「カニ」である場合には、「カニ」や「北海道」や「新鮮」といった単語をタイトルに含むコンテンツが、比較的ユーザからクリックされ易い傾向であることを示している。言い換えれば、クエリ「カニ」を送信したユーザは、「カニ」や「北海道」や「新鮮」といった単語をタイトルに含むコンテンツを比較的クリックし易い傾向であることを示す。すなわち、クエリ「カニ」とは、「カニ」や「北海道」や「新鮮」といった単語をタイトルに含むコンテンツがユーザからクリックされる事象に対して、比較的寄与が大きい単語といえる。   In this way, the search device 100 calculates “10” for “crab”, “8” for “Hokkaido”, and “5” for “fresh” as the index value of each word in the content C01. It is assumed that “0.1” is calculated for “shipping included”. For example, when the query is “crab” in the content group to be searched by the search device 100, these index values include content that includes words such as “crab”, “Hokkaido”, and “fresh” in the title. This indicates that the user tends to be easily clicked. In other words, the user who transmitted the query “crab” has a tendency to be relatively easy to click on content including words such as “crab”, “Hokkaido”, and “fresh” in the title. That is, the query “crab” can be said to be a word that has a relatively large contribution to an event in which a user clicks on content including words such as “crab”, “Hokkaido”, and “fresh” in the title.

一方、図1に示す例では、例えばクエリが「送料込」である場合には、「カニ」や「北海道」や「新鮮」といった単語をタイトルに含むコンテンツがユーザからクリックされ易い傾向になる、とはいえないものであることを示す。言い換えれば、クエリ「送料込」を送信したユーザは、クエリ「送料込」によって、「カニ」や「北海道」や「新鮮」といった単語をタイトルに含むコンテンツを積極的に検索しようとする意図が薄いことを示す。すなわち、クエリ「送料込」とは、「カニ」や「北海道」や「新鮮」といった単語をタイトルに含むコンテンツがユーザからクリックされる事象に対して寄与の小さい単語といえる。このことは、ユーザが「送料込」というクエリを送信したからといって、「カニ」や「北海道」や「新鮮」といった単語をタイトルに含むコンテンツを検索しようとしているとはいえない、という傾向を示すものである。   On the other hand, in the example shown in FIG. 1, for example, when the query is “shipping included”, content that includes words such as “crab”, “Hokkaido”, and “fresh” in the title tends to be clicked by the user. It shows that it cannot be said. In other words, the user who sent the query “shipping included” does not intend to actively search for content that includes the words “crab”, “Hokkaido”, or “fresh” in the title by the query “shipping included”. It shows that. In other words, the query “shipping included” can be said to be a word that contributes little to an event in which content including words such as “crab”, “Hokkaido”, and “fresh” is clicked by the user. This means that just because a user sends a query “shipping included”, it cannot be said that the user is trying to search for content that includes words such as “crab”, “Hokkaido”, or “fresh” in the title. Is shown.

続いて、コンテンツC02について説明する。図1におけるコンテンツC02について、検索装置100は、クエリになりうる単語として、「カニ」、「ブレーキ」、「チタン」、「送料込」を抽出している。検索装置100は、クエリが「カニ」であった場合に、各単語の共起度を示す数値を上記機械学習により算出する。すなわち、検索装置100は、コンテンツC02における「カニ」という単語に対応する指標値を算出するために、〈クエリ「カニ」、単語「カニ」〉、〈クエリ「カニ」、単語「ブレーキ」〉、〈クエリ「カニ」、単語「チタン」〉、〈クエリ「カニ」、単語「送料込」〉という4つのペアを作成する。そして、検索装置100は、4つ各々のペアに対して、上記機械学習により求められる数値を算出する。そして、検索装置100は、4つ各々のペアの数値を足した数値を、「コンテンツC02における単語「カニ」」の指標値として算出する。   Next, the content C02 will be described. For the content C02 in FIG. 1, the search device 100 extracts “crab”, “brake”, “titanium”, and “shipping included” as words that can be a query. When the query is “crab”, the search device 100 calculates a numerical value indicating the co-occurrence degree of each word by the machine learning. That is, the search device 100 calculates <index “crab”, word “crab”>, <query “crab”, word “brake”>, in order to calculate an index value corresponding to the word “crab” in the content C02. Four pairs are created: <query “crab”, word “titanium”>, <query “crab”, word “shipping included”>. And the search device 100 calculates the numerical value calculated | required by the said machine learning with respect to each of four pairs. Then, the search device 100 calculates a numerical value obtained by adding the numerical values of each of the four pairs as an index value of “the word“ crab ”in the content C02”.

なお、図1の例においては、クエリ「カニ」を送信したユーザ全体の傾向として、「カニ」や「北海道」や「新鮮」といった単語をタイトルに含むコンテンツと比較して、「カニ」や「ブレーキ」や「チタン」といった単語をタイトルに含むコンテンツを目的として検索を行なったユーザは少数であるものとする。このことは、「カニ」をクエリとして、「ブレーキ」のようなコンテンツ(商品)を検索するユーザは、「カニ」をクエリとして、「カニ」のようなコンテンツ(商品)を検索するユーザに比べて、極めて少数であることを意味する。   In the example of FIG. 1, as a tendency of the entire user who transmitted the query “crab”, “crab” or “crab” or “fresh” is compared with content including words such as “crab”, “Hokkaido”, or “fresh” in the title. It is assumed that a small number of users have made a search for content that includes words such as “brake” and “titanium” in the title. This means that a user who searches for content (products) such as “brake” using “crab” as a query compared to a user who searches for content (products) such as “crab” using “crab” as a query. Means very few.

このため、コンテンツC02における「カニ」は、コンテンツC01における「カニ」よりも、低い指標値が算出される。具体的には、〈クエリ「カニ」、単語「カニ」〉というペアに対して算出された数値が「5」であり、〈クエリ「カニ」、単語「ブレーキ」〉というペアに対して算出された数値が「−3」であり、〈クエリ「カニ」、単語「チタン」〉というペアに対して算出された数値が「−5」であり、〈クエリ「カニ」、単語「送料込」〉というペアに対して算出された数値が「0」であったとする。この場合、検索装置100は、4つ各々のペアの数値を足した数値である「5+(−3)+(−5)+0」、すなわち、「−3」という数値を、「コンテンツC02における単語「カニ」」の指標値として算出する。なお、図1では、指標値が負の値をとる例を示しているが、これらの数値は相対的な値を示すものであり、数値そのものは意味をなさない。例えば、検索装置100は、正規化によって、算出する指標値の値がすべて正の値になるよう調整してもよい。   Therefore, a lower index value is calculated for “crab” in the content C02 than for “crab” in the content C01. Specifically, the numerical value calculated for the pair <query “crab”, word “crab”> is “5”, and calculated for the pair <query “crab”, word “brake”>. The numerical value calculated for the pair <query “crab”, word “titanium”> is “−5”, and <query “crab”, word “shipping included”> Assume that the numerical value calculated for the pair is “0”. In this case, the search device 100 sets “5 + (− 3) + (− 5) +0”, which is a numerical value obtained by adding the numerical values of each of the four pairs, that is, the numerical value “−3” to the “word in the content C02. Calculated as the index value for “crab”. Although FIG. 1 shows an example in which the index value takes a negative value, these numerical values indicate relative values, and the numerical values themselves do not make sense. For example, the search device 100 may adjust the values of the calculated index values to be all positive values by normalization.

同様にして、検索装置100は、コンテンツC02における「カニ」以外の単語についても指標値を算出する。すなわち、検索装置100は、コンテンツC02における「ブレーキ」という単語に対応する指標値を算出するため、〈クエリ「ブレーキ」、単語「カニ」〉、〈クエリ「ブレーキ」、単語「ブレーキ」〉、〈クエリ「ブレーキ」、単語「チタン」〉、〈クエリ「ブレーキ」、単語「送料込」〉という4つのペアを作成する。そして、検索装置100は、4つ各々のペアに対して、上記機械学習により求められる数値を算出する。そして、検索装置100は、4つ各々のペアの数値を足した数値を、「コンテンツC02における単語「ブレーキ」」の指標値として算出する。   Similarly, the search device 100 calculates an index value for words other than “crab” in the content C02. That is, since the search device 100 calculates an index value corresponding to the word “brake” in the content C02, <query “brake”, word “crab”>, <query “brake”, word “brake”>, < Four pairs are created: query "brake", word "titanium">, <query "brake", word "shipping included">. And the search device 100 calculates the numerical value calculated | required by the said machine learning with respect to each of four pairs. Then, the search device 100 calculates a numerical value obtained by adding the numerical values of each of the four pairs as an index value of “the word“ brake ”in the content C02”.

このようにして、検索装置100は、コンテンツC02における各単語の指標値として、「カニ」について「−3」を算出し、「ブレーキ」について「1」を算出し、「チタン」について「1」を算出し、「送料込」について「0.2」を算出したものとする。この数値は、検索装置100が検索対象とするコンテンツ群において、例えばクエリが「カニ」である場合には、「ブレーキ」や「チタン」や「送料込」といった単語をタイトルに含むコンテンツは、「カニ」や「北海道」や「新鮮」といった単語をタイトルに含むコンテンツに比べて、ユーザからクリックされにくい傾向であることを示す。すなわち、クエリ「カニ」とは、「ブレーキ」や「チタン」や「送料込」といった単語をタイトルに含むコンテンツがユーザからクリックされる事象に対して、寄与が比較的小さい単語といえる。   In this way, the search device 100 calculates “−3” for “crab”, “1” for “brake”, and “1” for “titanium” as the index value of each word in the content C02. And “0.2” is calculated for “shipping included”. For example, if the query is “crab” in the content group to be searched by the search device 100, the content including words such as “brake”, “titanium”, and “shipping included” in the title is “ Compared to content that includes words such as “crab”, “Hokkaido”, and “fresh” in the title, it indicates that it is less likely to be clicked by the user. That is, the query “crab” can be said to be a word that has a relatively small contribution to an event in which a user clicks on content including words such as “brake”, “titanium”, and “shipping included” in the title.

このように、検索装置100は、出品者から入稿されたコンテンツC01やコンテンツC02に対して、実際の検索処理に先立ち、検索に用いられると想定される単語に対して予め指標値を算出しておく。そして、検索装置100は、算出した指標値と対応付けてコンテンツを所定の記憶部に格納する(ステップS04)。   As described above, the search device 100 calculates an index value in advance for the word C01 and the content C02 submitted by the exhibitor for a word that is assumed to be used for the search prior to the actual search process. Keep it. Then, the search device 100 stores the content in a predetermined storage unit in association with the calculated index value (step S04).

続いて、図2を用いて、検索装置100が行う実際の検索処理について説明する。図2は、実施形態に係る検索処理の一例を示す図(2)である。具体的には、図2では、検索装置100が、保持しているコンテンツの中から、ユーザが送信したクエリに適合するコンテンツを検索する処理について説明する。   Next, an actual search process performed by the search device 100 will be described with reference to FIG. FIG. 2 is a diagram (2) illustrating an example of a search process according to the embodiment. Specifically, FIG. 2 illustrates a process in which the search device 100 searches for content that matches the query transmitted by the user from the content held.

図2に示すユーザ端末10は、ユーザによって利用される情報処理端末である。ユーザ端末10は、ユーザの操作に従い、オークションサイト画面を表示したり、オークションサイトにおいてユーザから入力されたクエリを送信したりする処理を行う。   A user terminal 10 shown in FIG. 2 is an information processing terminal used by a user. The user terminal 10 performs a process of displaying an auction site screen or transmitting a query input by the user on the auction site in accordance with a user operation.

図2において、ユーザは、オークションサイトを訪問したとする(ステップS10)。そして、ユーザは、「カニ」と「送料込」という2つの単語をクエリとして送信する(ステップS11)すなわち、ユーザは、「カニ」と「送料込」という2つの単語をクエリとして、オークションサイトに出品された出品物を検索する。具体的には、ユーザは、ユーザ端末10に表示されたオークションサイトのウェブページ内の検索窓に「カニ」と「送料込」という単語を入力する。   In FIG. 2, it is assumed that the user visits the auction site (step S10). Then, the user transmits two words “crab” and “shipping included” as a query (step S11). That is, the user uses the two words “crab” and “shipping included” as a query to the auction site. Search for exhibited items. Specifically, the user inputs the words “crab” and “shipping included” in the search window in the web page of the auction site displayed on the user terminal 10.

検索装置100は、保持しているコンテンツに対して、予め算出しておいた指標値とクエリとをマッチングさせ、マッチングスコアを算出する(ステップS12)。図1で説明したように、検索装置100は、コンテンツC01に含まれる単語について、既に、「カニ:10、北海道:8、新鮮:5、送料込:0.1」という指標値を算出している。そして、検索装置100は、コンテンツに含まれる単語のうち、クエリに含まれる単語とマッチングした単語に対応付けられた指標値を合計する。この場合、検索装置100は、例えば下記のような検索モデル(下記式(1))を用いてもよい。   The search device 100 matches the index value calculated in advance with the query for the stored content, and calculates a matching score (step S12). As described with reference to FIG. 1, the search device 100 has already calculated an index value of “crab: 10, Hokkaido: 8, fresh: 5, shipping included: 0.1” for the words included in the content C01. Yes. And the search device 100 totals the index value matched with the word matched with the word contained in a query among the words contained in a content. In this case, the search device 100 may use, for example, the following search model (the following formula (1)).

Figure 2018072983
Figure 2018072983

上記式(1)において、「q」は「クエリ(query)」を示し、「D」は「ドキュメント(Document、実施形態ではドキュメントとは、検索対象となるコンテンツのことを意味する)」を示し、「t」は「クエリとドキュメント(コンテンツ)に共通して存在する単語(term)」を示し、w(t)は「単語の重み(term weight)」を示し、f(t,D)は「マッチングスコア」を示すものとする。なお、説明を簡略化するため、実施形態ではw(t)は「1」であるものとする。   In the above formula (1), “q” indicates “query”, and “D” indicates “document (in the embodiment, the document means content to be searched)”. , “T” indicates “a word (term) that exists in common in the query and document (content)”, w (t) indicates “term weight”, and f (t, D) indicates “Matching score” shall be indicated. In order to simplify the description, w (t) is assumed to be “1” in the embodiment.

上記式(1)が示すように、検索装置100は、クエリと共通した単語(マッチングした単語)についての指標値を全て加算することにより、クエリとコンテンツのマッチングスコアを算出する。例えば、検索装置100は、コンテンツC01については、「カニ」と「送料込」がマッチングし、そのマッチングスコアは「10+0.1=10.1」であると算出する。また、検索装置100は、コンテンツC02については、「カニ」と「送料込」がマッチングし、そのマッチングスコアは「−3+0.2=−2.8」であると算出する。   As indicated by the above formula (1), the search device 100 calculates the matching score between the query and the content by adding all the index values for the words common to the query (matched words). For example, for the content C01, the search device 100 calculates that “crab” and “shipping included” match, and the matching score is “10 + 0.1 = 10.1”. In addition, for the content C02, the search device 100 calculates that “crab” and “shipping included” match and the matching score is “−3 + 0.2 = −2.8”.

そして、検索装置100は、マッチングスコアに基づいてコンテンツにランクを付与する(ステップS13)。例えば、検索装置100は、検索対象がコンテンツC01とコンテンツC02である場合、マッチングスコアに基づいて、コンテンツC01に「1」をランク付けし、コンテンツC02に「2」をランク付けする。   Then, the search device 100 gives a rank to the content based on the matching score (step S13). For example, when the search target is the content C01 and the content C02, the search device 100 ranks the content C01 as “1” and ranks the content C02 as “2” based on the matching score.

そして、検索装置100は、ユーザ端末10に対して、ランク順に検索結果を送信する(ステップS14)。すなわち、検索装置100は、検索結果として、コンテンツC01をコンテンツC02よりも優先的にユーザ端末10に送信する。ユーザ端末10は、検索装置100から送信されたコンテンツを検索結果として表示する。なお、ユーザ端末10は、検索結果として表示したコンテンツがユーザからクリックされたことや、クリックされなかったことなどの結果情報を検索装置100に送信するようにしてもよい。かかる情報に基づいて、検索装置100は、さらに指標値算出のための学習処理を繰り返す。   And the search device 100 transmits a search result with respect to the user terminal 10 in the rank order (step S14). That is, the search device 100 transmits the content C01 to the user terminal 10 with priority over the content C02 as a search result. The user terminal 10 displays the content transmitted from the search device 100 as a search result. Note that the user terminal 10 may transmit result information such as that the content displayed as the search result is clicked by the user or not clicked to the search device 100. Based on such information, the search device 100 further repeats a learning process for calculating an index value.

図1および図2において説明してきたように、実施形態に係る検索装置100は、検索処理に利用するための素性(図1の例では、コンテンツのタイトルが含む単語)をコンテンツから抽出する。また、検索装置100は、抽出された単語の組み合わせにおける共起関係に基づいて、単語ごとに設定される所定の指標値を算出し、算出された指標値とコンテンツとを対応付けて所定の記憶部に格納する。さらに、検索装置100は、算出された所定の指標値に基づいて、ユーザから送信されるクエリに適合するコンテンツを検索する。   As described with reference to FIGS. 1 and 2, the search device 100 according to the embodiment extracts features (words included in the content title in the example of FIG. 1) to be used for search processing from the content. In addition, the search device 100 calculates a predetermined index value set for each word based on the co-occurrence relationship in the extracted word combination, associates the calculated index value with the content, and stores the predetermined index value. Store in the department. Furthermore, the search device 100 searches for content that matches the query transmitted from the user based on the calculated predetermined index value.

これにより、検索装置100は、コンテンツのタイトルに同じ単語(「カニ」や「送料込」)が含まれるコンテンツC01とコンテンツC02であって、ユーザから送信されたクエリが「カニ」と「送料込」であったとしても、ユーザが意図していると想定される可能性が高いコンテンツC01を優先的に検索することができる。また、検索装置100は、予めコンテンツからクエリになりうる単語を抽出して、抽出した単語に関して指標値を予め算出しておくことにより、高速に検索処理を行うことができる。また、検索装置100は、コンテンツのインデックス作成時点において、予め検索処理に用いる指標値を算出する。この場合、検索装置100は、ユーザから送信されるクエリを用いずに、コンテンツ内の単語のみで作成する組み合わせで指標値を算出する手法を採ることで、処理する単語の組み合わせを有限にすることができる。このようにして、実施形態に係る検索装置100は、ユーザの意図に沿ったコンテンツを効率よく検索することができる。   As a result, the search apparatus 100 includes the content C01 and the content C02 that include the same word (“crab” or “shipping included”) in the content title, and the query transmitted from the user is “crab” and “shipping included”. ”, It is possible to preferentially search for the content C01 that is likely to be assumed by the user. In addition, the search device 100 can perform a search process at high speed by extracting a word that can be a query from the content in advance and calculating an index value in advance for the extracted word. In addition, the search device 100 calculates an index value to be used for search processing in advance at the time of content index creation. In this case, the search device 100 uses a method of calculating an index value with a combination created only with words in the content without using a query transmitted from the user, thereby limiting the combinations of words to be processed. Can do. In this way, the search device 100 according to the embodiment can efficiently search for content according to the user's intention.

上述してきたように、検索装置100は、コンテンツの入稿時(検索対象とするコンテンツのインデックス作成時)において指標値を算出することで、検索処理の効率化を図る。以下、このような処理を行う検索装置100、及び、検索装置100を含む検索システム1の構成等について、詳細に説明する。   As described above, the search device 100 increases the efficiency of search processing by calculating an index value at the time of content submission (at the time of index creation of content to be searched). Hereinafter, the configuration of the search device 100 that performs such processing and the search system 1 including the search device 100 will be described in detail.

〔2.検索システムの構成〕
図3を用いて、実施形態に係る検索装置100が含まれる検索システム1の構成について説明する。図3は、実施形態に係る検索システム1の構成例を示す図である。図3に例示するように、実施形態に係る検索システム1には、ユーザ端末10と、入稿端末20と、ウェブサーバ30と、検索装置100とが含まれる。これらの各種装置は、ネットワークN(例えば、インターネット)を介して、有線又は無線により通信可能に接続される。なお、図3に示した検索システム1には、複数台のユーザ端末10や、複数台の入稿端末20や、複数台のウェブサーバ30が含まれてもよい。
[2. Search system configuration)
The configuration of the search system 1 including the search device 100 according to the embodiment will be described with reference to FIG. FIG. 3 is a diagram illustrating a configuration example of the search system 1 according to the embodiment. As illustrated in FIG. 3, the search system 1 according to the embodiment includes a user terminal 10, a submission terminal 20, a web server 30, and a search device 100. These various apparatuses are communicably connected via a network N (for example, the Internet) in a wired or wireless manner. Note that the search system 1 shown in FIG. 3 may include a plurality of user terminals 10, a plurality of submission terminals 20, and a plurality of web servers 30.

ユーザ端末10は、例えば、スマートフォンや、デスクトップ型PC(Personal Computer)や、ノート型PCや、タブレット型端末や、携帯電話機、PDA(Personal Digital Assistant)、ウェアラブルデバイス(Wearable Device)等の情報処理装置である。ユーザ端末10は、ユーザによる操作に従って、ウェブサーバ30にアクセスすることで、ウェブサーバ30から提供されるウェブサイトからウェブページを取得する。そして、ユーザ端末10は、取得したウェブページを表示装置(例えば、液晶ディスプレイ)に表示する。なお、本明細書中においては、ユーザとユーザ端末10とを同一視する場合がある。例えば、「ユーザにコンテンツを送信する」とは、実際には、「ユーザが利用するユーザ端末10にコンテンツを送信する」ことを意味する場合がある。   The user terminal 10 is, for example, an information processing apparatus such as a smartphone, a desktop PC (Personal Computer), a notebook PC, a tablet terminal, a mobile phone, a PDA (Personal Digital Assistant), or a wearable device. It is. The user terminal 10 acquires the web page from the website provided from the web server 30 by accessing the web server 30 according to the operation by the user. Then, the user terminal 10 displays the acquired web page on a display device (for example, a liquid crystal display). In the present specification, the user and the user terminal 10 may be identified with each other. For example, “transmit content to the user” may actually mean “transmit content to the user terminal 10 used by the user”.

入稿端末20は、検索装置100にコンテンツを入稿する出品者によって利用される情報処理装置である。入稿端末20は、出品者による操作に従って、検索装置100にコンテンツを入稿する処理を実行する。   The submission terminal 20 is an information processing device used by an exhibitor who submits content to the search device 100. The submission terminal 20 executes processing for submitting content to the search device 100 according to an operation by the exhibitor.

なお、出品者は、入稿端末20を用いて検索装置100にコンテンツを入稿せずに、かかる入稿等を代理店に依頼する場合もある。この場合、検索装置100にコンテンツを入稿等するのは代理店となる。以下では、「出品者」といった表記は、出品者だけでなく代理店を含む概念であり、「入稿端末」といった表記は、入稿端末だけでなく代理店によって利用される代理店装置を含む概念であるものとする。   In addition, an exhibitor may request an agency for such submission without submitting content to the search device 100 using the submission terminal 20. In this case, it is the agency that submits the content to the search device 100. In the following, the notation “exhibitor” is a concept that includes not only the seller but also the agency, and the expression “traffic terminal” includes the agency device used by the agency as well as the trafficking terminal. It is assumed to be a concept.

ウェブサーバ30は、ユーザ端末10からアクセスされた場合に、各種ウェブページを提供するサーバ装置である。実施形態では、ウェブサーバ30は、オークションサイトを提供しているものとする。なお、ウェブサーバ30は、例えば、ニュースサイト、天気予報サイト、ショッピングサイト、ファイナンス(株価)サイト、路線検索サイト、地図提供サイト、旅行サイト、飲食店紹介サイト、ウェブブログなどに関する各種ウェブページを提供してもよい。   The web server 30 is a server device that provides various web pages when accessed from the user terminal 10. In the embodiment, it is assumed that the web server 30 provides an auction site. The web server 30 provides various web pages related to, for example, news sites, weather forecast sites, shopping sites, finance (stock price) sites, route search sites, map providing sites, travel sites, restaurant introduction sites, web blogs, and the like. May be.

ウェブサーバ30によって提供されるウェブページには、ウェブサイト内を検索するための検索窓が含まれるものとする。ユーザは、検索窓にクエリを入力することにより、ウェブサイト内のコンテンツを検索する。なお、実施形態では、ウェブページを提供する処理はウェブサーバ30により行われ、コンテンツを検索する処理は検索装置100により行われる例を示しているが、ウェブサーバ30と検索装置100とは一体であってもよい。   The web page provided by the web server 30 includes a search window for searching the website. The user searches the content in the website by entering a query in the search window. In the embodiment, an example in which the process of providing a web page is performed by the web server 30 and the process of searching for content is performed by the search apparatus 100 is shown. However, the web server 30 and the search apparatus 100 are integrated. There may be.

検索装置100は、入稿端末20から受け付けたコンテンツに含まれる素性を抽出し、素性に対して指標値を算出し、算出した指標値に基づいてコンテンツの検索を行うサーバ装置である。   The search device 100 is a server device that extracts features included in the content received from the submission terminal 20, calculates an index value for the feature, and searches for the content based on the calculated index value.

〔3.検索装置の構成〕
次に、図4を用いて、実施形態に係る検索装置100の構成について説明する。図4は、実施形態に係る検索装置100の構成例を示す図である。図4に示すように、検索装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、検索装置100は、検索装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
[3. (Configuration of search device)
Next, the configuration of the search device 100 according to the embodiment will be described with reference to FIG. FIG. 4 is a diagram illustrating a configuration example of the search device 100 according to the embodiment. As illustrated in FIG. 4, the search device 100 includes a communication unit 110, a storage unit 120, and a control unit 130. The search device 100 includes an input unit (for example, a keyboard and a mouse) that receives various operations from an administrator who uses the search device 100, and a display unit (for example, a liquid crystal display) for displaying various types of information. You may have.

(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。かかる通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、ユーザ端末10や、入稿端末20や、ウェブサーバ30との間で情報の送受信を行う。
(About the communication unit 110)
The communication unit 110 is realized by, for example, a NIC (Network Interface Card). The communication unit 110 is connected to the network N by wire or wirelessly, and transmits / receives information to / from the user terminal 10, the submission terminal 20, and the web server 30 via the network N.

(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、コンテンツ記憶部121と、検索情報記憶部122と、指標値記憶部123とを有する。
(About the storage unit 120)
The storage unit 120 is realized by, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk. The storage unit 120 includes a content storage unit 121, a search information storage unit 122, and an index value storage unit 123.

(コンテンツ記憶部121について)
コンテンツ記憶部121は、入稿端末20から入稿されるコンテンツに関する情報を記憶する。ここで、図5に、実施形態に係るコンテンツ記憶部121の一例を示す。図5は、実施形態に係るコンテンツ記憶部121の一例を示す図である。図5に示した例では、コンテンツ記憶部121は、「出品者ID」、「コンテンツID」、「タイトル」、「商品」、「価格帯」、「商品カテゴリ」といった項目を有する。
(About the content storage unit 121)
The content storage unit 121 stores information related to content submitted from the submission terminal 20. Here, FIG. 5 shows an example of the content storage unit 121 according to the embodiment. FIG. 5 is a diagram illustrating an example of the content storage unit 121 according to the embodiment. In the example illustrated in FIG. 5, the content storage unit 121 includes items such as “exhibitor ID”, “content ID”, “title”, “product”, “price range”, and “product category”.

「出品者ID」は、出品者又は入稿端末20を識別するための識別情報を示す。「コンテンツID」は、出品者から入稿されたコンテンツを識別するための識別情報を示す。なお、本明細書中では、図5に示したような識別情報を参照符号として用いる場合がある。例えば、出品者ID「A01」によって識別される出品者を「出品者A01」と、コンテンツID「C01」によって識別されるコンテンツを「コンテンツC01」と、それぞれ表記する場合がある。   “Exhibitor ID” indicates identification information for identifying the exhibitor or the submission terminal 20. “Content ID” indicates identification information for identifying content submitted by the exhibitor. In this specification, identification information as shown in FIG. 5 may be used as a reference symbol. For example, the exhibitor identified by the exhibitor ID “A01” may be referred to as “exhibitor A01”, and the content identified by the content ID “C01” may be denoted as “content C01”.

「タイトル」は、コンテンツに設定されるタイトルを示す。「商品」は、コンテンツに関連付けられた商品(出品物)を示す。「価格帯」は、出品者によって商品に設定された価格が属する価格帯を示す。例えば、出品者によって商品に設定された出品価格が「1500」円である商品は、「1000〜2000」円の価格帯に属する。「商品カテゴリ」は、商品が属するカテゴリを示す。   “Title” indicates a title set in the content. “Product” indicates a product (exhibit) associated with the content. “Price range” indicates the price range to which the price set for the product by the exhibitor belongs. For example, a product whose exhibition price set for the product by the seller is “1500” yen belongs to the price range of “1000 to 2000” yen. “Product category” indicates the category to which the product belongs.

すなわち、図5に示したデータの一例は、出品者ID「A01」によって識別される出品者A01が、コンテンツID「C01」によって識別されるコンテンツC01を入稿したことを示している。また、コンテンツC01のタイトルは「北海道の新鮮なカニをお届けします(送料込)!」であり、商品は「カニ」であり、価格帯は「1000〜2000」円であり、商品カテゴリは「生鮮食品」であることを示している。   That is, the example of the data shown in FIG. 5 indicates that the seller A01 identified by the seller ID “A01” has submitted the content C01 identified by the content ID “C01”. The title of content C01 is “I will deliver fresh crab from Hokkaido (including shipping!)”, The product is “crab”, the price range is “1000-2000” yen, and the product category is It shows that it is “fresh food”.

なお、図5での図示は省略したが、コンテンツ記憶部121には、コンテンツに設定された商品の説明文や、商品を撮像した画像データや、入稿日時等の情報が記憶されてもよい。   Although not shown in FIG. 5, the content storage unit 121 may store information such as a description of a product set in the content, image data obtained by capturing the product, and date and time of submission. .

また、実際にユーザ端末10に送信されるコンテンツのコンテンツデータ(テキストデータや、画像データ等)は、検索装置100とは別に備えられた所定のストレージサーバに記憶されてもよい。この場合、検索装置100は、コンテンツ記憶部121に記憶されたコンテンツIDに基づいて、外部のストレージサーバに記憶されたコンテンツを特定する。そして、検索装置100は、ストレージサーバに対して、特定されたコンテンツをユーザ端末10に対して送信するよう制御する。   Further, content data (text data, image data, etc.) of content that is actually transmitted to the user terminal 10 may be stored in a predetermined storage server provided separately from the search device 100. In this case, the search device 100 specifies the content stored in the external storage server based on the content ID stored in the content storage unit 121. Then, the search device 100 controls the storage server to transmit the specified content to the user terminal 10.

(検索情報記憶部122について)
検索情報記憶部122は、ユーザによって検索されたコンテンツに関する情報を記憶する。具体的には、検索情報記憶部122は、検索結果として送信されたコンテンツに対するユーザの反応に関する情報(クリックログ)等を記憶する。ここで、図6に、実施形態に係る検索情報記憶部122の一例を示す。図6は、実施形態に係る検索情報記憶部122の一例を示す図である。図6に示した例では、検索情報記憶部122は、「検索ID」、「検索クエリ」、「クリックされたコンテンツID」、「コンテンツが含む単語」といった項目を有する。
(Search information storage unit 122)
The search information storage unit 122 stores information related to content searched by the user. Specifically, the search information storage unit 122 stores information (click log) on the user's reaction to the content transmitted as the search result. Here, FIG. 6 illustrates an example of the search information storage unit 122 according to the embodiment. FIG. 6 is a diagram illustrating an example of the search information storage unit 122 according to the embodiment. In the example illustrated in FIG. 6, the search information storage unit 122 includes items such as “search ID”, “search query”, “clicked content ID”, and “word included in content”.

「検索ID」は、実行された検索処理を識別する識別情報を示す。「検索クエリ」は、検索処理においてユーザから送信されたクエリを示す。「クリックされたコンテンツID」は、検索結果としてユーザ端末10に送信された複数のコンテンツ(例えば、検索結果ページに一覧表示された複数のコンテンツ)のうち、実際にユーザからクリックされたコンテンツの識別情報を示す。なお、図6に示すコンテンツIDは、図5に示したコンテンツIDと一致するものとする。「コンテンツが含む単語」は、ユーザからクリックされたコンテンツのタイトルに含まれる単語を示す。なお、この場合のコンテンツが含む単語とは、図1で示した、コンテンツが含む「クエリになりうる単語」として抽出された単語に対応するものとする。   “Search ID” indicates identification information for identifying the executed search process. The “search query” indicates a query transmitted from the user in the search process. “Clicked content ID” is the identification of the content actually clicked by the user among the plurality of contents (for example, the plurality of contents displayed in a list on the search result page) transmitted to the user terminal 10 as the search result. Indicates information. It is assumed that the content ID shown in FIG. 6 matches the content ID shown in FIG. “Word included in content” indicates a word included in the title of the content clicked by the user. Note that the word included in the content in this case corresponds to the word extracted as the “word that can be a query” included in the content shown in FIG.

すなわち、図6に示したデータの一例は、検索ID「F01」によって識別される検索F01のログデータであり、検索クエリは「新鮮」と「カニ」であり、クリックされたコンテンツIDは「C01」であり、コンテンツC01が含む単語は、「カニ」、「北海道」、「新鮮」、「送料込」であることを示している。   6 is log data of the search F01 identified by the search ID “F01”, the search query is “fresh” and “crab”, and the clicked content ID is “C01”. ”And the word included in the content C01 indicates“ crab ”,“ Hokkaido ”,“ fresh ”,“ shipping included ”.

(指標値記憶部123について)
指標値記憶部123は、検索装置100によって算出された指標値と、コンテンツとを対応付けて記憶する。ここで、図7に、実施形態に係る指標値記憶部123の一例を示す。図7は、実施形態に係る指標値記憶部123の一例を示す図である。図7に示した例では、指標値記憶部123は、「コンテンツID」、「抽出された単語」、「指標値」といった項目を有する。
(About the index value storage unit 123)
The index value storage unit 123 stores the index value calculated by the search device 100 and the content in association with each other. Here, FIG. 7 shows an example of the index value storage unit 123 according to the embodiment. FIG. 7 is a diagram illustrating an example of the index value storage unit 123 according to the embodiment. In the example illustrated in FIG. 7, the index value storage unit 123 includes items such as “content ID”, “extracted word”, and “index value”.

「コンテンツID」は、図5及び図6に示した同様の項目に対応する。「抽出された単語」は、コンテンツのタイトルに含まれる単語のうち、「クエリになりうる単語」として抽出された単語を示す。「指標値」は、各コンテンツにおいて、抽出された単語の各々に対して算出された指標値を示す。   The “content ID” corresponds to the same item shown in FIGS. The “extracted word” indicates a word extracted as “a word that can be a query” among the words included in the title of the content. The “index value” indicates an index value calculated for each extracted word in each content.

すなわち、図7に示したデータの一例は、コンテンツID「C01」によって識別されるコンテンツC01において、抽出された単語は、「カニ」、「北海道」、「新鮮」、「送料込」であり、各々に対して算出された指標値は、「10」、「8」、「5」、「0.1」であることを示している。   That is, in the example of the data shown in FIG. 7, in the content C01 identified by the content ID “C01”, the extracted words are “crab”, “Hokkaido”, “fresh”, “shipping included”, The index values calculated for each of these are “10”, “8”, “5”, and “0.1”.

(制御部130について)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、検索装置100内部の記憶装置に記憶されている各種プログラム(検索プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
(About the control unit 130)
The control unit 130 is a controller, for example, various programs (an example of a search program) stored in a storage device inside the search device 100 by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like. This is realized by executing the RAM as a work area. The control unit 130 is a controller, and is realized by an integrated circuit such as an application specific integrated circuit (ASIC) or a field programmable gate array (FPGA).

図4に示すように、制御部130は、入稿受付部131と、抽出部132と、取得部133と、算出部134と、受信部135と、検索制御部136と、生成部137と、検索部138と、送信部139とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図4に示した接続関係に限られず、他の接続関係であってもよい。   As shown in FIG. 4, the control unit 130 includes a submission receiving unit 131, an extraction unit 132, an acquisition unit 133, a calculation unit 134, a reception unit 135, a search control unit 136, a generation unit 137, It has a search unit 138 and a transmission unit 139, and realizes or executes information processing functions and operations described below. Note that the internal configuration of the control unit 130 is not limited to the configuration illustrated in FIG. 4, and may be another configuration as long as the information processing described below is performed. In addition, the connection relationship between the processing units included in the control unit 130 is not limited to the connection relationship illustrated in FIG. 4, and may be another connection relationship.

(入稿受付部131について)
入稿受付部131は、入稿端末20からコンテンツの入稿を受け付ける。そして、入稿受付部131は、入稿元の出品者を識別する出品者IDと、コンテンツを識別するコンテンツIDとを対応付けて、コンテンツ記憶部121に記憶する。また、入稿受付部131は、コンテンツに関連付けられた商品に対する出品価格の設定や、商品カテゴリの設定等を入稿端末20から受け付けてもよい。
(About the submission acceptance part 131)
The submission accepting unit 131 accepts content submission from the submission terminal 20. Then, the submission receiving unit 131 stores the seller ID for identifying the exhibitor as the submission source in association with the content ID for identifying the content in the content storage unit 121. Further, the submission accepting unit 131 may accept the setting of the exhibition price for the product associated with the content, the setting of the product category, and the like from the submission terminal 20.

(抽出部132について)
抽出部132は、検索処理に利用するための素性をコンテンツから抽出する。例えば、抽出部132は、素性として、コンテンツに含まれる単語を抽出する。実施形態では、抽出部132は、コンテンツのタイトルに含まれる単語の中から、クエリになりうる単語を抽出する例を示している。
(About the extraction unit 132)
The extraction unit 132 extracts features to be used for search processing from the content. For example, the extraction unit 132 extracts words included in the content as the feature. In the embodiment, the extraction unit 132 shows an example of extracting a word that can be a query from words included in the title of the content.

抽出部132は、例えばコンテンツのタイトルを構成するテキストデータを形態素解析する。そして、抽出部132は、形態素解析した単語のうち、過去にクエリとして用いられた回数の多い単語を、当該コンテンツにおけるクエリになりうる単語として抽出する。   For example, the extraction unit 132 performs morphological analysis on text data constituting the title of the content. And the extraction part 132 extracts the word with many frequency used as a query in the past among the words which carried out the morphological analysis as a word which can become a query in the said content.

なお、抽出部132は、tf−idf等の重み値を利用してクエリになりうる単語を抽出してもよい。例えば、抽出部132は、過去にクエリとして用いられた回数の多い単語であっても、当該単語が広く一般に使用される単語であり、当該コンテンツの特徴を示す単語でないと判定される単語(例えば、重み値が低い単語)については抽出しないようにしてもよい。   Note that the extraction unit 132 may extract a word that can be a query using a weight value such as tf-idf. For example, the extraction unit 132 is a word that is widely used in general in the past even if it is a word that has been frequently used as a query, and is determined not to be a word indicating the characteristics of the content (for example, , A word having a low weight value) may not be extracted.

(取得部133について)
取得部133は、各種情報を取得する。例えば、取得部133は、コンテンツの検索結果を受信したユーザ端末10において、いずれのコンテンツがクリックされたかといった、検索処理におけるユーザの反応に関する情報を取得する。例えば、取得部133は、後述する送信部139によってコンテンツがユーザ端末10に送信される度に、ユーザ端末10においていずれのコンテンツがクリックされたかといったユーザの反応に関する情報を取得する。そして、取得部133は、検索処理に関するログデータとして、取得した情報を検索情報記憶部122に記憶する。
(About the acquisition unit 133)
The acquisition unit 133 acquires various types of information. For example, the acquisition unit 133 acquires information regarding the user's reaction in the search process, such as which content is clicked on the user terminal 10 that has received the content search result. For example, every time content is transmitted to the user terminal 10 by the transmission unit 139 described later, the acquisition unit 133 acquires information regarding a user reaction such as which content is clicked on the user terminal 10. Then, the acquisition unit 133 stores the acquired information in the search information storage unit 122 as log data related to the search process.

また、取得部133は、抽出部132によってコンテンツの素性が抽出された後には、当該コンテンツにおける指標値の算出処理に用いるために、これまでに取得した検索ログを検索情報記憶部122から取得する。例えば、取得部133は、図6に示すように、どのようなクエリによって検索された場合にどのようなコンテンツが実際にユーザにクリックされたか、また、クリックされたコンテンツに含まれる単語に関する情報を取得する。すなわち、取得部133は、検索処理におけるクエリ、また、当該クエリによって検索されたコンテンツがクリックされた回数、また、クリックされたコンテンツに含まれる単語の登場回数等に関する情報を取得する。   In addition, after the feature of the content is extracted by the extraction unit 132, the acquisition unit 133 acquires the search log acquired so far from the search information storage unit 122 for use in the index value calculation process for the content. . For example, as illustrated in FIG. 6, the acquisition unit 133 displays information regarding what kind of content is actually clicked by the user when the query is searched, and information on a word included in the clicked content. get. That is, the acquisition unit 133 acquires information related to the query in the search process, the number of times the content searched by the query is clicked, the number of appearances of words included in the clicked content, and the like.

なお、取得部133は、ユーザ端末10に表示された検索結果ページに含まれる複数のコンテンツに関する情報(いずれのランクまでのコンテンツが検索結果ページに表示されたかなど)や、ユーザ端末10においてコンテンツがクリックされたか否かといった情報を取得する手法については、既知の種々の手法により実現してもよい。例えば、取得部133は、ウェブビーコン(web beacon)等によって実現される通知機能を利用して、コンテンツに関する情報や、ユーザ端末10における操作情報を取得してもよい。   Note that the acquisition unit 133 includes information on a plurality of contents included in the search result page displayed on the user terminal 10 (eg, up to which rank the content has been displayed on the search result page), and the content on the user terminal 10. The method for acquiring information such as whether or not the button has been clicked may be realized by various known methods. For example, the acquisition unit 133 may acquire information on content and operation information on the user terminal 10 using a notification function realized by a web beacon or the like.

(算出部134について)
算出部134は、抽出部132によって抽出された素性の組み合わせにおける共起関係に基づいて、素性ごとに設定される所定の指標値を算出し、算出された指標値とコンテンツとを対応付けて所定の記憶部に格納する。
(About the calculation unit 134)
The calculation unit 134 calculates a predetermined index value set for each feature based on the co-occurrence relationship in the combination of features extracted by the extraction unit 132, associates the calculated index value with the content, and sets the predetermined index value. Stored in the storage unit.

具体的には、算出部134は、取得部133によって取得された検索情報に基づいて、抽出部132によって抽出された単語の組み合わせにおける共起関係を数値化する。そして、算出部134は、数値化された共起関係に基づいて、コンテンツにおける単語ごとに設定される指標値を算出する。   Specifically, the calculation unit 134 quantifies the co-occurrence relationship in the word combination extracted by the extraction unit 132 based on the search information acquired by the acquisition unit 133. Then, the calculation unit 134 calculates an index value set for each word in the content based on the digitized co-occurrence relationship.

図1において説明したように、算出部134は、検索処理におけるクエリとして単語が用いられた場合に、検索処理における検索結果として出力されたコンテンツに含まれる単語と、クエリとして用いられた単語とが共起関係を有すると判定する。   As described with reference to FIG. 1, when a word is used as a query in the search process, the calculation unit 134 calculates a word included in the content output as the search result in the search process and a word used as the query. It is determined that there is a co-occurrence relationship.

そして、算出部134は、所定の単語が検索処理におけるクエリとして用いられた場合に、検索結果として、クエリを送信したユーザの所望するコンテンツが検索されたか否かを示す結果を学習することにより、当該単語に設定される所定の指標値を算出する。   Then, when the predetermined word is used as a query in the search process, the calculation unit 134 learns a result indicating whether or not the content desired by the user who transmitted the query is searched as a search result. A predetermined index value set for the word is calculated.

例えば、算出部134は、クエリを送信したユーザから検索結果としてコンテンツが選択される回数が多いほど、当該コンテンツにおけるクエリとして用いられた単語に設定される所定の指標値が高くなるよう学習した処理の結果に基づいて、所定の指標値を算出する。   For example, the calculation unit 134 learns that the predetermined index value set for the word used as the query in the content increases as the number of times the content is selected as the search result from the user who transmitted the query increases. Based on the result, a predetermined index value is calculated.

具体的な算出処理の流れとしては、まず算出部134は、取得部133によって取得された検索結果に関する情報を学習することにより、クエリとして用いられた単語が、どのくらい「ユーザからクリックされるコンテンツを検索する」という事象に対して寄与したか、という傾向を数値化する。そして、算出部134は、検索処理におけるクエリとしての単語と、検索結果として出力されるコンテンツに含まれる単語とが共起関係を有すると判定する。例えば、算出部134は、ある程度のサンプル数を有する検索結果のうち、クエリとしての単語と、当該クエリによって検索されたコンテンツに含まれる単語との組み合わせが多く観測されるほど、それらの組み合わせにおける単語同士の共起度が高いものとして、高い数値を算出する。なお、単語同士の共起関係を数値化する処理は、既知の機械学習処理を様々に組み合わせて行われてもよい。   As a specific flow of calculation processing, first, the calculation unit 134 learns information about the search result acquired by the acquisition unit 133, so that the word used as the query “how much the content clicked by the user is determined. The tendency of whether or not it contributed to the event “search” is quantified. Then, the calculation unit 134 determines that the word as the query in the search process and the word included in the content output as the search result have a co-occurrence relationship. For example, the calculation unit 134 increases the number of combinations of the word as a query and the word included in the content searched by the query from among the search results having a certain number of samples. A high numerical value is calculated assuming that the degree of co-occurrence between them is high. Note that the process of digitizing the co-occurrence relationship between words may be performed by variously combining known machine learning processes.

そして、算出部134は、コンテンツにおいて抽出された単語同士でペアを作成し、コンテンツにおける単語ごとの指標値を算出する。図1に示したコンテンツC01の例では、算出部134は、コンテンツC01における単語「カニ」の指標値として、〈クエリ「カニ」、単語「カニ」〉というペアの数値「5」と、〈クエリ「カニ」、単語「北海道」〉というペアの数値「3」と、〈クエリ「カニ」、単語「新鮮」〉というペアの数値「2」と、〈クエリ「カニ」、単語「送料込」〉というペアの数値「0」とを全て加算し、「10」を算出する。   Then, the calculation unit 134 creates a pair with the words extracted in the content, and calculates an index value for each word in the content. In the example of the content C01 illustrated in FIG. 1, the calculation unit 134 uses the numerical value “5” of the pair <query “crab” and word “crab”> as the index value of the word “crab” in the content C01, and <query The number “3” for the pair “crab” and the word “Hokkaido”>, the number “2” for the pair “query“ crab ”and the word“ fresh ””, and <query “crab” and the word “shipping included”> All the numerical values “0” of the pair are added to calculate “10”.

このように、算出部134は、実際に送信されたクエリを用いて検索を行う前の段階、すなわち、検索対象であるコンテンツを記憶部内にインデクシング(indexing)する段階において、検索処理のための指標値を算出する。そして、算出部134は、算出された指標値とコンテンツとを対応付けて指標値記憶部123に格納する。   In this way, the calculation unit 134 is an index for search processing in a stage before performing a search using an actually transmitted query, that is, in a stage of indexing content to be searched in the storage unit. Calculate the value. Then, the calculation unit 134 associates the calculated index value with the content and stores them in the index value storage unit 123.

(受信部135について)
受信部135は、ユーザ端末10から送信されるクエリに関する情報を受信する。具体的には、受信部135は、ウェブページを表示するユーザ端末10から送信されるクエリであって、ウェブページに含まれるコンテンツを検索するための検索クエリを受信する。例えば、受信部135は、クエリとして、単語や単語同士の組み合わせを受信する。なお、受信部135は、クエリとして、コンテンツに関連付けられた商品に設定された価格や、商品のカテゴリ等を受信してもよい。
(Receiver 135)
The receiving unit 135 receives information related to the query transmitted from the user terminal 10. Specifically, the reception unit 135 receives a search query that is transmitted from the user terminal 10 that displays a web page and is used to search for content included in the web page. For example, the receiving unit 135 receives a word or a combination of words as a query. The receiving unit 135 may receive the price set for the product associated with the content, the category of the product, and the like as a query.

(検索制御部136について)
検索制御部136は、コンテンツの検索に関する処理を制御する。実施形態では、検索制御部136には、算出部134が算出した指標値を利用して検索を行うためのモデルを生成する生成部137と、生成部137が生成したモデルを利用してコンテンツを検索する検索部138とを含む。
(About the search control unit 136)
The search control unit 136 controls processing related to content search. In the embodiment, the search control unit 136 uses the index value calculated by the calculation unit 134 to generate a model for performing a search, and the content generated using the model generated by the generation unit 137. A search unit 138 for searching.

(生成部137について)
生成部137は、算出部134によって算出された指標値に基づいて、検索対象のコンテンツの中からクエリに適合するコンテンツを検索するためのモデルを生成する。具体的には、生成部137は、上記式(1)で示すように、コンテンツに含まれる単語とクエリとがマッチングした場合に、マッチングした単語の指標値を総和して指標値を算出するような検索モデルを生成する。
(About the generation unit 137)
Based on the index value calculated by the calculation unit 134, the generation unit 137 generates a model for searching for content that matches the query from the search target content. Specifically, as shown in the above formula (1), when the word included in the content matches the query, the generating unit 137 calculates the index value by summing the index values of the matched words. A simple search model.

なお、上記式(1)で示したモデルは一例であり、生成部137は、コンテンツに含まれる単語とクエリとがマッチングした場合に、マッチングした単語の指標値に基づいて、コンテンツにおけるマッチングスコアを出力するモデルであれば、上記式(1)とは異なるモデルを生成してもよい。   Note that the model expressed by the above formula (1) is an example, and when the word included in the content matches the query, the generation unit 137 calculates the matching score in the content based on the index value of the matched word. If it is a model to be output, a model different from the above equation (1) may be generated.

(検索部138について)
検索部138は、算出部134によって算出された所定の指標値に基づいて、ユーザから送信されるクエリに適合するコンテンツを検索する。具体的には、検索部138は、生成部137によって生成されたモデルにユーザから送信されるクエリと検索対象のコンテンツとを入力し、入力に応じてモデルから出力されるマッチングスコアに基づいて、クエリに適合するコンテンツを検索する。
(About the search unit 138)
The search unit 138 searches for content that matches the query transmitted from the user, based on the predetermined index value calculated by the calculation unit 134. Specifically, the search unit 138 inputs the query transmitted from the user and the search target content to the model generated by the generation unit 137, and based on the matching score output from the model according to the input, Search for content that matches the query.

具体的には、検索部138は、出力したマッチングスコアの順にコンテンツをランク付けする。そして、検索部138は、ランクが上位のコンテンツから順に検索結果として表示されるよう、検索結果としてのコンテンツを整列させる。すなわち、検索部138によってマッチングスコアが高く算出されたコンテンツほど、検索結果における上位のコンテンツとして扱われる。   Specifically, the search unit 138 ranks the content in the order of the output matching score. And the search part 138 arranges the content as a search result so that a rank may be displayed as a search result in an order from a high-order content. That is, the content having a higher matching score by the search unit 138 is treated as a higher content in the search result.

(送信部139について)
送信部139は、各種情報を送信する。例えば、送信部139は、受信部135によって受信されたクエリに応答して、検索部138によって検索されたコンテンツを検索結果としてユーザ端末10に送信する。
(About transmitter 139)
The transmission unit 139 transmits various information. For example, in response to the query received by the reception unit 135, the transmission unit 139 transmits the content searched by the search unit 138 to the user terminal 10 as a search result.

なお、上述のように、実際にユーザ端末10に送信されるコンテンツのデータ自体は、検索装置100に係るコンテンツ記憶部121内に記憶されていなくてもよい。例えば、送信部139は、外部に備えられた所定のストレージサーバに制御命令を送信することで、コンテンツをユーザ端末10に送信させてもよい。   Note that, as described above, content data itself that is actually transmitted to the user terminal 10 may not be stored in the content storage unit 121 of the search device 100. For example, the transmission unit 139 may cause the content to be transmitted to the user terminal 10 by transmitting a control command to a predetermined storage server provided outside.

〔4.ウェブサーバの構成〕
次に、図8を用いて、実施形態に係るウェブサーバ30の構成について説明する。図8は、実施形態に係るウェブサーバ30の構成例を示す図である。図8に示すように、ウェブサーバ30は、通信部31と、ウェブページ記憶部32と、制御部33とを有する。
[4. Web server configuration]
Next, the configuration of the web server 30 according to the embodiment will be described with reference to FIG. FIG. 8 is a diagram illustrating a configuration example of the web server 30 according to the embodiment. As illustrated in FIG. 8, the web server 30 includes a communication unit 31, a web page storage unit 32, and a control unit 33.

通信部31は、例えば、NIC等によって実現される。そして、通信部31は、ネットワークNと有線または無線で接続され、ユーザ端末10や検索装置100との間で情報の送受信を行う。   The communication part 31 is implement | achieved by NIC etc., for example. The communication unit 31 is connected to the network N by wire or wireless, and transmits / receives information to / from the user terminal 10 or the search device 100.

ウェブページ記憶部32は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。そして、ウェブページ記憶部32は、ウェブページに関する情報を記憶する。例えば、ウェブページ記憶部32は、ウェブページを形成するHTMLファイルや、ウェブページに表示される静止画像や動画像を記憶する。なお、ウェブページ記憶部32に記憶されるウェブページには、ウェブページ上のコンテンツを検索する検索窓や、価格帯やカテゴリを設定してコンテンツ(商品)を検索するための検索枠が含まれてもよい。   The web page storage unit 32 is realized by, for example, a semiconductor memory device such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk. And the web page memory | storage part 32 memorize | stores the information regarding a web page. For example, the web page storage unit 32 stores an HTML file forming a web page, a still image or a moving image displayed on the web page. The web page stored in the web page storage unit 32 includes a search window for searching for content on the web page and a search frame for searching for content (products) by setting a price range and category. May be.

制御部33は、例えば、CPUやMPU等によって、ウェブサーバ30内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部33は、例えば、ASICやFPGA等の集積回路により実現される。   The control unit 33 is realized, for example, by executing various programs stored in a storage device inside the web server 30 using the RAM as a work area by a CPU, an MPU, or the like. The control unit 33 is realized by an integrated circuit such as an ASIC or FPGA, for example.

図8に示すように、制御部33は、受付部34と、配信部35とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部33の内部構成は、図8に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部33が有する各処理部の接続関係は、図8に示した接続関係に限られず、他の接続関係であってもよい。   As illustrated in FIG. 8, the control unit 33 includes a reception unit 34 and a distribution unit 35, and realizes or executes information processing functions and operations described below. The internal configuration of the control unit 33 is not limited to the configuration illustrated in FIG. 8, and may be another configuration as long as the information processing described later is performed. In addition, the connection relationship between the processing units included in the control unit 33 is not limited to the connection relationship illustrated in FIG. 8 and may be another connection relationship.

受付部34は、ユーザ端末10からウェブページの取得要求を受け付ける。例えば、受付部34は、ウェブページの取得要求として、HTTPリクエストを受け付ける。   The accepting unit 34 accepts a web page acquisition request from the user terminal 10. For example, the reception unit 34 receives an HTTP request as a web page acquisition request.

配信部35は、受付部34によってウェブページの取得要求が受け付けられた場合に、ウェブページをユーザ端末10に配信する。具体的には、配信部35は、ウェブページ記憶部32から取得要求対象のウェブページを取得し、取得したウェブページをユーザ端末10に配信する。また、配信部35は、ユーザ端末10から検索クエリの入力を受け付けた場合は、入力された内容を検索装置100に送信してもよい。あるいは、配信部35は、ユーザ端末10から検索クエリの入力を受け付けた場合は、ユーザ端末10と検索装置100との通信を制御し、ユーザ端末10から検索装置100に検索クエリが送信されるよう制御してもよい。   The distribution unit 35 distributes the web page to the user terminal 10 when the reception unit 34 receives a web page acquisition request. Specifically, the distribution unit 35 acquires an acquisition request target web page from the web page storage unit 32 and distributes the acquired web page to the user terminal 10. In addition, when receiving a search query input from the user terminal 10, the distribution unit 35 may transmit the input content to the search device 100. Alternatively, when receiving a search query input from the user terminal 10, the distribution unit 35 controls communication between the user terminal 10 and the search device 100 so that the search query is transmitted from the user terminal 10 to the search device 100. You may control.

〔5.処理手順〕
次に、図9及び図10を用いて、実施形態に係る検索装置100による処理の手順について説明する。まず、図9を用いて、検索装置100が、コンテンツの入稿時に指標値を算出し、コンテンツと指標値とを対応付けて記憶部に格納する処理の手順を説明する。図9は、実施形態に係る処理手順を示すフローチャート(1)である。
[5. Processing procedure)
Next, a processing procedure performed by the search device 100 according to the embodiment will be described with reference to FIGS. 9 and 10. First, referring to FIG. 9, a description will be given of a processing procedure in which the search device 100 calculates an index value when content is submitted, and stores the content and the index value in association with each other in the storage unit. FIG. 9 is a flowchart (1) illustrating a processing procedure according to the embodiment.

図9に示すように、検索装置100は、入稿端末20からコンテンツの入稿を受け付けたか否かを判定する(ステップS101)。コンテンツの入稿を受け付けていない場合(ステップS101;No)、検索装置100は、コンテンツの入稿を受け付けるまで待機する。   As shown in FIG. 9, the search apparatus 100 determines whether or not content submission has been received from the submission terminal 20 (step S101). When content submission is not received (step S101; No), the search device 100 stands by until content submission is received.

一方、コンテンツの入稿を受け付けた場合(ステップS101;Yes)、検索装置100は、コンテンツのタイトルの中から、クエリになりうる素性(単語)を抽出する(ステップS102)。   On the other hand, when the content submission is received (step S101; Yes), the search device 100 extracts a feature (word) that can be a query from the title of the content (step S102).

そして、検索装置100は、抽出した素性に関する検索情報を取得する(ステップS103)。例えば、検索装置100は、検索情報として、抽出した素性がクエリとして用いられた場合に、どのようなコンテンツが検索され、どのようなコンテンツがクリックされ、どのような単語がクリックされたコンテンツに含まれていたかといった情報を取得する。   And the search device 100 acquires the search information regarding the extracted feature (step S103). For example, when the extracted feature is used as a query as the search information, the search device 100 includes what content is searched, what content is clicked, and what word is clicked. Get information such as if it was.

続いて、検索装置100は、取得した検索情報に基づいて、素性に関する指標値を算出する(ステップS104)。そして、検索装置100は、コンテンツと、コンテンツにおける素性ごとに算出した指標値とを対応付けて、指標値記憶部123に格納する(ステップS105)。   Subsequently, the search device 100 calculates an index value related to the feature based on the acquired search information (step S104). Then, the search device 100 associates the content with the index value calculated for each feature in the content and stores it in the index value storage unit 123 (step S105).

次に、図10を用いて、検索装置100がコンテンツを検索する処理の手順を説明する。図10は、実施形態に係る処理手順を示すフローチャート(2)である。   Next, the procedure of the process in which the search device 100 searches for content will be described with reference to FIG. FIG. 10 is a flowchart (2) illustrating a processing procedure according to the embodiment.

図10に示すように、検索装置100は、ユーザ端末10からクエリを受信したか否かを判定する(ステップS201)。クエリを受信していない場合(ステップS201;No)、検索装置100は、クエリを受信するまで待機する。   As illustrated in FIG. 10, the search device 100 determines whether a query is received from the user terminal 10 (step S201). If no query has been received (step S201; No), the search device 100 waits until a query is received.

一方、クエリを受信した場合(ステップS201;Yes)、検索装置100は、クエリと指標値とに基づいてマッチングスコアを算出する(ステップS202)。そして、検索装置100は、マッチングスコアに基づいてコンテンツにランクを付与する(ステップS203)。   On the other hand, when a query is received (step S201; Yes), the search device 100 calculates a matching score based on the query and the index value (step S202). Then, the search device 100 gives a rank to the content based on the matching score (step S203).

続いて、検索装置100は、ランク順に整列されたコンテンツを検索結果としてユーザ端末10に送信する(ステップS204)。さらに、検索装置100は、コンテンツに対するユーザの反応に関する情報を取得する(ステップS205)。具体的には、検索装置100は、ユーザの反応に関する情報として、検索結果として送信されたコンテンツのうちいずれのコンテンツがクリックされたかといった情報を取得する。   Subsequently, the search device 100 transmits the contents arranged in the rank order to the user terminal 10 as a search result (step S204). Further, the search device 100 acquires information related to the user's reaction to the content (step S205). Specifically, the search device 100 acquires information regarding which of the contents transmitted as a search result has been clicked as information related to the user's reaction.

そして、検索装置100は、コンテンツに対するユーザの反応に関する情報を取得したのち、取得した情報に基づいて学習処理を行い、コンテンツに関する情報を更新する(ステップS206)。例えば、検索装置100は、単語の共起関係に関する数値や、コンテンツにおける単語の指標値を再計算し、指標値を最適化させる。   Then, after acquiring information related to the user's reaction to the content, the search device 100 performs learning processing based on the acquired information and updates the information related to the content (step S206). For example, the search device 100 recalculates numerical values related to word co-occurrence relationships and index values of words in content, and optimizes index values.

〔6.変形例〕
上述した検索装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、検索装置100の他の実施形態について説明する。
[6. (Modification)
The search device 100 described above may be implemented in various different forms other than the above embodiment. Therefore, in the following, another embodiment of the search device 100 will be described.

〔6−1.単語の重み〕
上記実施形態では、検索装置100が生成するモデルにおいて、単語の重み(w(t))の値が「1」である例を示した。しかし、検索装置100は、単語の重みとして、「1」以外の数値を用いてもよい。例えば、検索装置100は、クエリに頻繁に用いられる傾向にある単語ほど、単語としての重みを与えるようにしてもよい。
[6-1. (Word weight)
In the above embodiment, an example in which the value of the word weight (w (t)) is “1” in the model generated by the search device 100 has been described. However, the search device 100 may use a numerical value other than “1” as the word weight. For example, the search device 100 may give a weight as a word to a word that tends to be frequently used in a query.

例えば、検索装置100は、検索情報記憶部122を参照し、ユーザから送信されるクエリの単語のうち、クエリとして用いられる回数の多い単語ほど、単語としての重みが重くなるように設定する。例えば、「カニ」と「送料込」という2つの単語について、各々がクエリとして用いられた回数が「9:1」であったと仮定する。この場合に、ユーザが「カニ」と「送料込」という2つの単語の組み合わせをクエリとして送信した場合、検索装置100は、単語の重みとして、「カニ」に「0.9」を設定し、「送料込」に「0.1」を設定してもよい。   For example, the search device 100 refers to the search information storage unit 122 and sets a word with a higher weight as a word used more frequently as a query among words of a query transmitted from the user. For example, it is assumed that the number of times each of the two words “crab” and “shipping included” is used as a query is “9: 1”. In this case, when the user transmits a combination of two words “crab” and “shipping included” as a query, the search apparatus 100 sets “0.9” to “crab” as the weight of the word, “0.1” may be set in “shipping included”.

この場合、図1及び図2で示したコンテンツC01を例にすると、マッチングスコアの算出において、検索装置100は、「カニ」と「送料込」がマッチングし、そのマッチングスコアは「10*0.9+0.1*0.1=9.01」であると算出する。また、コンテンツC02を例にすると、マッチングスコアの算出において、検索装置100は、「カニ」と「送料込」がマッチングし、そのマッチングスコアは「−3*0.9+0.2*0.1=−2.68」であると算出する。すなわち、検索装置100は、よりユーザにクエリとして用いられ易い単語(クエリ)に重み値を与えることで、クエリとして用いられる頻度の高い単語に関して算出されるマッチングスコアが、クエリとして用いられる頻度の低い単語に関して算出されるマッチングスコアよりも高く算出されるように調整できる。これにより、検索装置100は、ユーザの意図を検索結果により一層反映させることができる。   In this case, taking the content C01 shown in FIGS. 1 and 2 as an example, in calculating the matching score, the search apparatus 100 matches “crab” and “shipping included”, and the matching score is “10 * 0. 9 + 0.1 * 0.1 = 9.01 ”. Taking the content C02 as an example, in calculating the matching score, the search apparatus 100 matches “crab” and “shipping included”, and the matching score is “−3 * 0.9 + 0.2 * 0.1 = -2.68 ". That is, the search device 100 gives weight values to words (queries) that are more likely to be used as queries to the user, so that the matching score calculated for words that are frequently used as queries is less frequently used as queries. Adjustment can be made so that it is calculated higher than the matching score calculated for the word. Thereby, the search device 100 can further reflect the user's intention in the search result.

〔6−2.特徴情報〕
上記実施形態では、検索装置100は、コンテンツのタイトルに含まれる単語を素性として、指標値の算出処理や、指標値を利用した検索処理を行う例を示した。ここで、検索装置100は、単語以外の情報を素性として用いてもよい。
[6-2. (Feature information)
In the embodiment described above, the search apparatus 100 has shown an example in which the index value calculation process and the search process using the index value are performed using the word included in the content title as a feature. Here, the search device 100 may use information other than words as features.

例えば、検索装置100は、素性として、コンテンツと関連付けられている商品に設定された特徴情報を抽出してもよい。そして、検索装置100は、抽出された単語又は特徴情報のいずれかの組み合わせにおける共起関係に基づいて、単語又は特徴情報ごとに設定される指標値を算出してもよい。例えば、検索装置100は、特徴情報として、商品の価格又は商品のカテゴリを抽出する。この場合、検索装置100は、抽出された単語、商品の価格又は商品のカテゴリのいずれかの組み合わせにおける共起関係に基づいて、単語、商品の価格又は商品のカテゴリごとに設定される指標値を算出する。   For example, the search device 100 may extract feature information set for a product associated with the content as the feature. Then, the search device 100 may calculate an index value set for each word or feature information based on the co-occurrence relationship in any combination of extracted words or feature information. For example, the search device 100 extracts a product price or a product category as the feature information. In this case, the search device 100 calculates an index value set for each word, product price, or product category based on the co-occurrence relationship in any combination of the extracted word, product price, or product category. calculate.

図5を例にすると、検索装置100は、コンテンツC01と関連付けられている商品「カニ」に設定された特徴情報として、価格帯が「1000〜2000」円であり、商品カテゴリが「生鮮食品」であることを参照し、これらの特徴情報を素性として用いる。すなわち、オークションサイト等において、ユーザは、クエリとして検索窓に入力する単語のみならず、価格やカテゴリで商品を検索する場合がありうる。この場合、検索装置100は、クエリとして、価格やカテゴリを受信する。そして、検索装置100は、上記実施形態で説明した処理と同様に、単語や価格やカテゴリといった情報のうち、ペアとなった情報同士の共起情報を数値化した値を取得する。これにより、検索装置100は、単語のみならず、価格や、カテゴリ等についての指標値を算出することができる。   Taking FIG. 5 as an example, the search device 100 has a price range of “1000-2000” yen as feature information set for the product “crab” associated with the content C01, and the product category is “fresh food”. Therefore, the feature information is used as a feature. That is, in an auction site or the like, a user may search for a product by price or category as well as words input to the search window as a query. In this case, the search device 100 receives a price and a category as a query. And the search device 100 acquires the value which digitized the co-occurrence information of the paired information among information, such as a word, a price, and a category similarly to the process demonstrated by the said embodiment. Thereby, the search device 100 can calculate index values for not only words but also prices, categories, and the like.

そして、検索装置100は、コンテンツのうち、単語ごとや、価格や、カテゴリ等について算出した指標値と対応付けてコンテンツを格納する。そして、ユーザがクエリとして価格やカテゴリを送信した場合には、クエリと、コンテンツの素性(すなわち、単語や、価格やカテゴリといった特徴情報)とのマッチングを判定し、マッチングスコアを算出する。これにより、検索装置100は、クエリとして、単語や価格やカテゴリを組み合わせて送信したユーザに応答して、よりクエリに適合するコンテンツを検索結果として送信することができる。   Then, the search device 100 stores the content in association with the index value calculated for each word, price, category, and the like. When the user transmits a price or category as a query, matching between the query and the content feature (that is, characteristic information such as a word or price or category) is determined, and a matching score is calculated. As a result, the search device 100 can transmit, as a search result, content that better matches the query in response to a user who transmits a query by combining words, prices, and categories.

〔6−3.素性〕
また、検索装置100は、コンテンツの素性として、コンテンツのタイトルに含まれる単語や、コンテンツに関連付けられた商品の価格やカテゴリのみならず、様々な情報を利用してもよい。例えば、検索装置100は、コンテンツのタイトルのみならず、コンテンツに含まれる全てのテキストデータから単語を抽出してもよい。また、検索装置100は、コンテンツに関連付けられた商品の特徴情報として、商品のサイズや重さなどの情報、オークション終了までの日数や時間、色や形状、模様など、種々の情報を素性として用いてもよい。
[6-3. (Feature)
Further, the search device 100 may use not only the word included in the title of the content and the price and category of the product associated with the content but also various information as the content features. For example, the search device 100 may extract words from all text data included in the content as well as the title of the content. Further, the search device 100 uses various information such as information on the size and weight of the product, the number of days and time until the end of the auction, color, shape, and pattern as features as the feature information of the product associated with the content. May be.

〔6−4.マッチングスコア〕
また、検索装置100は、指標値やマッチングスコアを算出する際に、コンテンツに含まれる素性(単語)の頻度を加味した算出を行ってもよい。例えば、検索装置100は、コンテンツのタイトルに登場する単語の頻度に応じて、単語に重みを与えるなどの調整を行ってもよい。例えば、図1に示したコンテンツC01において、コンテンツのタイトルに含まれる単語のうち、「北海道」が、他の単語よりも2倍多く出現するものとする。この場合、検索装置100は、頻度を加味し、例えば〈クエリ「カニ」、単語「北海道」〉というペアに対して算出される数値を「3」の2倍である「6」として算出する、などの調整を行ってもよい。なお、かかる数値は一例であり、検索装置100は、例えばコンテンツに出願する単語の頻度を正規化したり、対数として示したりすることで、数値の調整を適宜行ってもよい。
[6-4. (Matching score)
In addition, when calculating the index value or the matching score, the search device 100 may perform calculation in consideration of the frequency of features (words) included in the content. For example, the search device 100 may perform adjustment such as giving a weight to the word according to the frequency of the word appearing in the title of the content. For example, in the content C01 shown in FIG. 1, among the words included in the content title, “Hokkaido” appears twice as many as other words. In this case, the search device 100 considers the frequency and calculates, for example, the numerical value calculated for the pair <query “crab”, word “Hokkaido”> as “6”, which is twice “3”. Such adjustments may be made. Note that such a numerical value is an example, and the search device 100 may appropriately adjust the numerical value by, for example, normalizing the frequency of words applied to the content or indicating the frequency as a logarithm.

〔6−5.媒体〕
上記実施形態では、ウェブサーバ30が提供するウェブページを例に挙げて検索処理が行われる例を示した。しかし、コンテンツを表示する媒体は、オークションサイト等のウェブページに限られない。例えば、検索装置100は、所定のアプリを介して提供されるサービスにおいてコンテンツを検索する処理や、所定のドキュメント(文書)を検索する処理等に、上記で説明した処理手法を用いてもよい。
[6-5. (Medium)
In the above-described embodiment, an example in which search processing is performed using a web page provided by the web server 30 as an example has been described. However, a medium for displaying content is not limited to a web page such as an auction site. For example, the search device 100 may use the processing method described above for processing for searching for content in a service provided via a predetermined application, processing for searching for a predetermined document (document), and the like.

〔6−6.学習〕
上記実施形態では、検索装置100が、検索結果として送信されたコンテンツがユーザからクリックされる傾向を学習することで指標値の算出処理等を行う例を示した。しかし、検索装置100は、クリックされる傾向のみならず、例えば、ユーザが当該コンテンツを閲覧した傾向や、ユーザが当該コンテンツに関連付けられた商品を購買するなどのコンバージョン(conversion)に至った傾向を学習してもよい。
[6-6. Learning)
In the above-described embodiment, the example in which the search device 100 performs the index value calculation process by learning the tendency that the content transmitted as the search result is clicked by the user has been described. However, the search device 100 has not only a tendency to click, but also a tendency that the user has browsed the content, or a tendency that the user has converted (conversion) such as purchasing a product associated with the content. You may learn.

また、検索装置100は、学習の結果を用いて、コンテンツに含まれる単語から、コンテンツに対応した単語ベクトルを生成し、ベクトル空間を用いることにより、コンテンツの検索を行ってもよい。例えば、検索装置100は、ユーザから送信されたクエリと、コンテンツに対応する単語ベクトルとの空間関係性を計算し、クエリが示す空間方向と近い空間方向を有する単語ベクトルに対応するコンテンツを検索結果としてユーザに送信するようにしてもよい。   Further, the search device 100 may search for content by generating a word vector corresponding to the content from words included in the content using the learning result and using a vector space. For example, the search device 100 calculates the spatial relationship between the query transmitted from the user and the word vector corresponding to the content, and searches the content corresponding to the word vector having a spatial direction close to the spatial direction indicated by the query. May be transmitted to the user.

〔7.ハードウェア構成〕
上述してきた実施形態に係る検索装置100やユーザ端末10やウェブサーバ30は、例えば図11に示すような構成のコンピュータ1000によって実現される。以下、検索装置100を例に挙げて説明する。図11は、検索装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
[7. Hardware configuration)
The search device 100, the user terminal 10, and the web server 30 according to the above-described embodiments are realized by a computer 1000 having a configuration as shown in FIG. 11, for example. Hereinafter, the search device 100 will be described as an example. FIG. 11 is a hardware configuration diagram illustrating an example of a computer 1000 that implements the functions of the search device 100. The computer 1000 includes a CPU 1100, RAM 1200, ROM 1300, HDD 1400, communication interface (I / F) 1500, input / output interface (I / F) 1600, and media interface (I / F) 1700.

CPU1100は、ROM1300又はHDD1400に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を記憶する。   The CPU 1100 operates based on a program stored in the ROM 1300 or the HDD 1400 and controls each unit. The ROM 1300 stores a boot program executed by the CPU 1100 when the computer 1000 is started up, a program depending on the hardware of the computer 1000, and the like.

HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(図3に示したネットワークNに対応)を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網500を介して他の機器へ送信する。   The HDD 1400 stores a program executed by the CPU 1100, data used by the program, and the like. The communication interface 1500 receives data from other devices via the communication network 500 (corresponding to the network N shown in FIG. 3), sends the data to the CPU 1100, and transmits the data generated by the CPU 1100 to the other devices via the communication network 500. Send to device.

CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。   The CPU 1100 controls an output device such as a display and a printer and an input device such as a keyboard and a mouse via the input / output interface 1600. The CPU 1100 acquires data from the input device via the input / output interface 1600. Further, the CPU 1100 outputs the data generated via the input / output interface 1600 to the output device.

メディアインターフェイス1700は、記録媒体1800に記憶されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。   The media interface 1700 reads a program or data stored in the recording medium 1800 and provides it to the CPU 1100 via the RAM 1200. The CPU 1100 loads such a program from the recording medium 1800 onto the RAM 1200 via the media interface 1700, and executes the loaded program. The recording medium 1800 is, for example, an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory. Etc.

例えば、コンピュータ1000が実施形態に係る検索装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。   For example, when the computer 1000 functions as the search device 100 according to the embodiment, the CPU 1100 of the computer 1000 implements the function of the control unit 130 by executing a program loaded on the RAM 1200. The HDD 1400 stores data in the storage unit 120. The CPU 1100 of the computer 1000 reads these programs from the recording medium 1800 and executes them, but as another example, these programs may be acquired from other devices via the communication network 500.

〔8.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
[8. Others]
In addition, among the processes described in the above embodiment, all or part of the processes described as being automatically performed can be performed manually, or the processes described as being performed manually can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedures, specific names, and information including various data and parameters shown in the document and drawings can be arbitrarily changed unless otherwise specified. For example, the various types of information illustrated in each drawing is not limited to the illustrated information.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図4に示した取得部133と受信部135とは統合されてもよい。また、例えば、記憶部120に記憶される情報は、ネットワークNを介して、外部に備えられた所定の記憶装置に記憶されてもよい。   Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. For example, the acquisition unit 133 and the reception unit 135 illustrated in FIG. 4 may be integrated. Further, for example, information stored in the storage unit 120 may be stored in a predetermined storage device provided outside via the network N.

また、上記実施形態では、検索装置100が、例えば、コンテンツの入稿を受け付ける受付処理と、指標値を算出する算出処理と、コンテンツを検索する検索処理とを行う例を示した。しかし、上述した検索装置100は、受付処理を行う受付装置と、算出処理を行う算出装置と、検索処理を行う検索装置とに分離されてもよい。この場合、受付装置は、少なくとも入稿受付部131を有する。算出装置は、少なくとも算出部134を有する。検索装置は、少なくとも検索部138を有する。そして、上記の検索装置100による処理は、受付装置と、算出装置と、検索装置との各装置を有する検索システム1によって実現される。   Further, in the above-described embodiment, an example has been described in which the search device 100 performs, for example, a reception process that accepts content submission, a calculation process that calculates an index value, and a search process that searches for content. However, the search device 100 described above may be separated into a reception device that performs reception processing, a calculation device that performs calculation processing, and a search device that performs search processing. In this case, the reception device has at least a submission reception unit 131. The calculation device has at least a calculation unit 134. The search device has at least a search unit 138. And the process by said search device 100 is implement | achieved by the search system 1 which has each apparatus of a reception apparatus, a calculation apparatus, and a search apparatus.

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。   In addition, the above-described embodiments and modifications can be combined as appropriate within a range that does not contradict processing contents.

〔9.効果〕
上述してきたように、実施形態に係る検索装置100は、抽出部132と、算出部134と、検索部138とを有する。抽出部132は、検索処理に利用するための素性をコンテンツから抽出する。算出部134は、抽出部132によって抽出された素性の組み合わせにおける共起関係に基づいて、素性ごとに設定される所定の指標値を算出し、算出された指標値とコンテンツとを対応付けて所定の記憶部(実施形態では、指標値記憶部123)に格納する。検索部138は、算出部134によって算出された所定の指標値に基づいて、ユーザから送信されるクエリに適合するコンテンツを検索する。
[9. effect〕
As described above, the search device 100 according to the embodiment includes the extraction unit 132, the calculation unit 134, and the search unit 138. The extraction unit 132 extracts features to be used for search processing from the content. The calculation unit 134 calculates a predetermined index value set for each feature based on the co-occurrence relationship in the combination of features extracted by the extraction unit 132, associates the calculated index value with the content, and sets the predetermined index value. In the storage unit (in the embodiment, the index value storage unit 123). The search unit 138 searches for content that matches the query transmitted from the user, based on the predetermined index value calculated by the calculation unit 134.

このように、実施形態に係る検索装置100は、ユーザからクエリが送信された時点で検索処理に用いる指標値を算出するのではなく、コンテンツの格納時点において、検索処理に用いる指標値を算出する。また、検索装置100は、コンテンツの素性同士の組み合わせにおける共起関係に基づいて指標値を算出する。これにより、検索装置100は、ユーザの意図に沿ったコンテンツを効率よく検索することができる。   As described above, the search device 100 according to the embodiment does not calculate the index value used for the search process when the query is transmitted from the user, but calculates the index value used for the search process at the time of storing the content. . Further, the search device 100 calculates an index value based on a co-occurrence relationship in a combination of content features. Thereby, the search device 100 can search efficiently the content according to the user's intention.

また、実施形態に係る検索装置100は、所定の指標値に基づいて、検索対象のコンテンツの中からクエリに適合するコンテンツを検索するためのモデルを生成する生成部137をさらに備える。検索部138は、生成部137によって生成されたモデルにユーザから送信されるクエリと検索対象のコンテンツとを入力し、入力に応じてモデルから出力されるマッチングスコアに基づいて、クエリに適合するコンテンツを検索する。   In addition, the search device 100 according to the embodiment further includes a generation unit 137 that generates a model for searching for content that matches the query from the search target content based on a predetermined index value. The search unit 138 inputs the query transmitted from the user and the search target content to the model generated by the generation unit 137, and matches the query based on the matching score output from the model in response to the input. Search for.

このように、実施形態に係る検索装置100は、指標値に基づいてマッチングスコアを出力する検索モデルを利用して検索を行う。また、上記のように検索装置100は、指標値をコンテンツが含む素性ごとに予め算出しておく。これにより、検索装置100は、ユーザからクエリを受信した場合に、迅速にマッチングスコアを出力することができるため、検索処理を高速化することができる。   Thus, the search device 100 according to the embodiment performs a search using a search model that outputs a matching score based on the index value. In addition, as described above, the search device 100 calculates the index value for each feature included in the content in advance. Thereby, when the search device 100 receives a query from a user, the search device 100 can output a matching score quickly, and thus the search process can be speeded up.

また、算出部134は、検索処理におけるクエリとして所定の素性が用いられた場合に、検索処理における検索結果として出力されたコンテンツに含まれる素性と、クエリとして用いられた素性とが共起関係を有すると判定する。   In addition, when a predetermined feature is used as a query in the search process, the calculation unit 134 establishes a co-occurrence relationship between the feature included in the content output as the search result in the search process and the feature used as the query. It is determined that it has.

このように、実施形態に係る検索装置100は、クエリとして用いられた素性と、その検索結果として出力されたコンテンツに含まれる素性とを共起関係が有するものとして判定する。ある素性によって検索されたコンテンツは、当該素性と関係性を有するものと推測できるため、検索装置100は、上記処理によって、コンテンツにおいて抽出される素性同士の共起関係を適切に数値化することができる。   Thus, the search device 100 according to the embodiment determines that the feature used as the query and the feature included in the content output as the search result have a co-occurrence relationship. Since the content searched by a certain feature can be assumed to have a relationship with the feature, the search device 100 can appropriately quantify the co-occurrence relationship between the features extracted in the content by the above processing. it can.

また、算出部134は、素性が検索処理におけるクエリとして用いられた場合に、検索結果として、クエリを送信したユーザの所望するコンテンツが検索されたか否かを示す結果を学習することにより、素性に設定される所定の指標値を算出する。   Further, when the feature is used as a query in the search process, the calculation unit 134 learns a result indicating whether or not the content desired by the user who transmitted the query has been searched as a search result. A predetermined index value to be set is calculated.

このように、実施形態に係る検索装置100は、実際にコンテンツが検索された結果に対してユーザの反応を取得し、取得した情報に基づいて素性同士の共起関係を判定することによって、各素性に設定される指標値を算出する。このため、検索装置100は、指標値に対して、ユーザの反応、すなわち、クエリによって示されるユーザの意図を反映させた指標値を算出することができる。これにより、検索装置100は、よりユーザの意図に沿ったコンテンツを検索することを可能にする。   As described above, the search device 100 according to the embodiment acquires the user's reaction to the result of the actual content search, and determines the co-occurrence relationship between the features based on the acquired information. The index value set for the feature is calculated. Therefore, the search device 100 can calculate an index value reflecting the user's reaction, that is, the user's intention indicated by the query, with respect to the index value. As a result, the search device 100 can search for content more in line with the user's intention.

また、算出部134は、クエリを送信したユーザから検索結果としてコンテンツが選択される回数が多いほど、コンテンツにおけるクエリとして用いられた素性に設定される所定の指標値が高くなるよう学習した処理の結果に基づいて、所定の指標値を算出する。   In addition, the calculation unit 134 learns that the predetermined index value set for the feature used as the query in the content increases as the number of times the content is selected as the search result from the user who transmitted the query increases. Based on the result, a predetermined index value is calculated.

このように、実施形態に係る検索装置100は、実際にコンテンツが検索された結果に対するユーザの反応として、コンテンツが選択される回数(例えば、クリックされる回数)を取得する。ユーザは、自身が意図していたコンテンツが検索結果に含まれていた場合に、当該コンテンツをクリックすることにより詳細情報等をユーザ端末10に表示させることが想定される。このため、検索装置100は、ユーザから検索結果としてコンテンツが選択される回数に基づいて指標値を算出することにより、ユーザの意図を反映させた指標値を精度良く算出することができる。   As described above, the search device 100 according to the embodiment acquires the number of times content is selected (for example, the number of clicks) as the user's response to the result of the actual content search. When the content intended by the user is included in the search result, it is assumed that the user terminal 10 displays detailed information or the like by clicking the content. For this reason, the search device 100 can calculate the index value that reflects the user's intention with high accuracy by calculating the index value based on the number of times content is selected as a search result from the user.

また、抽出部132は、素性として、コンテンツに含まれる単語を抽出する。算出部134は、抽出部132によって抽出された単語の組み合わせにおける共起関係に基づいて、単語ごとに設定される所定の指標値を算出する。   Moreover, the extraction part 132 extracts the word contained in a content as a feature. The calculation unit 134 calculates a predetermined index value set for each word based on the co-occurrence relationship in the word combination extracted by the extraction unit 132.

このように、実施形態に係る検索装置100は、コンテンツに含まれる単語を用いて処理を行う。これにより、検索装置100は、コンテンツに同じ単語が含まれるような複数のコンテンツを検索対象とする場合でも、クエリにおいてユーザが意図していると想定される可能性が高いコンテンツをより正確に検索することができる。   Thus, the search device 100 according to the embodiment performs processing using the words included in the content. As a result, the search device 100 more accurately searches for content that is likely to be assumed by the user in the query even when the search target is a plurality of content that includes the same word in the content. can do.

また、抽出部132は、素性として、コンテンツと関連付けられている商品に設定された特徴情報を抽出する。算出部134は、抽出部132によって抽出された単語又は特徴情報のいずれかの組み合わせにおける共起関係に基づいて、単語又は特徴情報ごとに設定される所定の指標値を算出する。   Moreover, the extraction part 132 extracts the feature information set to the goods linked | related with the content as a feature. The calculation unit 134 calculates a predetermined index value set for each word or feature information based on the co-occurrence relationship in any combination of the words or feature information extracted by the extraction unit 132.

このように、実施形態に係る検索装置100は、単語のみならず、コンテンツに含まれる商品の特徴情報を用いて処理を行ってもよい。これにより、検索装置100は、単語に限られず、様々な情報をクエリとして用いるような状況においても、ユーザに意図に沿った適切なコンテンツを検索することができる。   As described above, the search device 100 according to the embodiment may perform processing using not only the word but also the feature information of the product included in the content. Thereby, the search device 100 can search the user for appropriate content according to the intention even in a situation where various information is used as a query, not limited to words.

また、抽出部132は、特徴情報として、商品の価格又は商品のカテゴリを抽出する。算出部134は、抽出部132によって抽出された単語、商品の価格又は商品のカテゴリのいずれかの組み合わせにおける共起関係に基づいて、単語、商品の価格又は商品のカテゴリごとに設定される所定の指標値を算出する。   Further, the extraction unit 132 extracts a product price or a product category as the feature information. The calculation unit 134 is a predetermined unit set for each word, product price, or product category based on the co-occurrence relationship in any combination of the word, product price, or product category extracted by the extraction unit 132. An index value is calculated.

このように、実施形態に係る検索装置100は、コンテンツに含まれる商品の価格やカテゴリ等の情報を用いて処理を行ってもよい。これにより、検索装置100は、価格やカテゴリを指定して検索を行うオークションサイトやショッピングサイト等の検索において、よりユーザの意図を適切に反映させた検索結果をユーザに提供することができる。   Thus, the search device 100 according to the embodiment may perform processing using information such as the price and category of the product included in the content. Thereby, the search device 100 can provide the user with a search result that more appropriately reflects the user's intention in the search of an auction site, a shopping site, or the like that performs a search by specifying a price or a category.

以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。   The embodiment of the present application has been described in detail with reference to the drawings. However, this is an exemplification, and various modifications and improvements are made based on the knowledge of those skilled in the art including the aspects described in the column of the disclosure of the invention. The present invention can be implemented in other forms.

また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。   In addition, the “section (module, unit)” described above can be read as “means” or “circuit”. For example, the acquisition unit can be read as acquisition means or an acquisition circuit.

1 検索システム
10 ユーザ端末
20 入稿端末
30 ウェブサーバ
100 検索装置
110 通信部
120 記憶部
121 コンテンツ記憶部
122 検索情報記憶部
123 指標値記憶部
130 制御部
131 入稿受付部
132 抽出部
133 取得部
134 算出部
135 受信部
136 検索制御部
137 生成部
138 検索部
139 送信部
DESCRIPTION OF SYMBOLS 1 Search system 10 User terminal 20 Submission terminal 30 Web server 100 Search apparatus 110 Communication part 120 Storage part 121 Content storage part 122 Search information storage part 123 Index value storage part 130 Control part 131 Submission reception part 132 Extraction part 133 Acquisition part 134 Calculation Unit 135 Reception Unit 136 Search Control Unit 137 Generation Unit 138 Search Unit 139 Transmission Unit

Claims (10)

検索処理に利用するための素性をコンテンツから抽出する抽出部と、
前記抽出部によって抽出された素性の組み合わせにおける共起関係に基づいて、前記素性ごとに設定される所定の指標値を算出し、算出された指標値と前記コンテンツとを対応付けて所定の記憶部に格納する算出部と、
前記算出部によって算出された所定の指標値に基づいて、ユーザから送信されるクエリに適合するコンテンツを検索する検索部と、
を備えたことを特徴とする検索装置。
An extraction unit that extracts features to be used for search processing from the content;
Based on the co-occurrence relationship in the combination of features extracted by the extraction unit, a predetermined index value set for each of the features is calculated, and the calculated index value and the content are associated with each other and a predetermined storage unit A calculation unit to be stored in
A search unit that searches for content that matches a query transmitted from the user based on the predetermined index value calculated by the calculation unit;
A search device comprising:
前記所定の指標値に基づいて、検索対象のコンテンツの中からクエリに適合するコンテンツを検索するためのモデルを生成する生成部、
をさらに備え、
前記検索部は、
前記生成部によって生成されたモデルに前記ユーザから送信されるクエリと前記検索対象のコンテンツとを入力し、入力に応じて当該モデルから出力されるマッチングスコアに基づいて、当該クエリに適合するコンテンツを検索する、
ことを特徴とする請求項1に記載の検索装置。
A generating unit that generates a model for searching for content that matches a query from search target content based on the predetermined index value;
Further comprising
The search unit
The query transmitted from the user and the search target content are input to the model generated by the generation unit, and content matching the query is obtained based on the matching score output from the model in response to the input. Search for,
The search device according to claim 1.
前記算出部は、
検索処理におけるクエリとして所定の素性が用いられた場合に、当該検索処理における検索結果として出力されたコンテンツに含まれる素性と、当該クエリとして用いられた素性とが共起関係を有すると判定する、
ことを特徴とする請求項1又は2に記載の検索装置。
The calculation unit includes:
When a predetermined feature is used as a query in the search process, it is determined that the feature included in the content output as the search result in the search process and the feature used as the query have a co-occurrence relationship.
The search device according to claim 1 or 2, wherein
前記算出部は、
前記素性が検索処理におけるクエリとして用いられた場合に、検索結果として、クエリを送信したユーザの所望するコンテンツが検索されたか否かを示す結果を学習することにより、前記素性に設定される所定の指標値を算出する、
ことを特徴とする請求項1〜3のいずれか一つに記載の検索装置。
The calculation unit includes:
When the feature is used as a query in the search process, a result indicating whether or not the content desired by the user who transmitted the query has been searched is learned as a search result. Calculate the index value,
The search device according to any one of claims 1 to 3, wherein
前記算出部は、
前記クエリを送信したユーザから検索結果としてコンテンツが選択される回数が多いほど、当該コンテンツにおける当該クエリとして用いられた素性に設定される所定の指標値が高くなるよう学習した処理の結果に基づいて、当該所定の指標値を算出する、
ことを特徴とする請求項4に記載の検索装置。
The calculation unit includes:
Based on the result of processing learned that the predetermined index value set for the feature used as the query in the content increases as the number of times the content is selected as the search result from the user who transmitted the query increases. Calculating the predetermined index value,
The search device according to claim 4, wherein:
前記抽出部は、
前記素性として、前記コンテンツに含まれる単語を抽出し、
前記算出部は、
前記抽出部によって抽出された単語の組み合わせにおける共起関係に基づいて、前記単語ごとに設定される所定の指標値を算出する、
ことを特徴とする請求項1〜5のいずれか一つに記載の検索装置。
The extraction unit includes:
As the feature, a word included in the content is extracted,
The calculation unit includes:
Calculating a predetermined index value set for each word based on the co-occurrence relationship in the combination of words extracted by the extraction unit;
The search device according to any one of claims 1 to 5, wherein
前記抽出部は、
前記素性として、前記コンテンツと関連付けられている商品に設定された特徴情報を抽出し、
前記算出部は、
前記抽出部によって抽出された前記単語又は前記特徴情報のいずれかの組み合わせにおける共起関係に基づいて、当該単語又は当該特徴情報ごとに設定される所定の指標値を算出する、
ことを特徴とする請求項6に記載の検索装置。
The extraction unit includes:
As the feature, feature information set for the product associated with the content is extracted,
The calculation unit includes:
Based on the co-occurrence relationship in any combination of the word or the feature information extracted by the extraction unit, a predetermined index value set for each word or the feature information is calculated.
The search device according to claim 6.
前記抽出部は、
前記特徴情報として、前記商品の価格又は前記商品のカテゴリを抽出し、
前記算出部は、
前記抽出部によって抽出された前記単語、前記商品の価格又は前記商品のカテゴリのいずれかの組み合わせにおける共起関係に基づいて、前記単語、前記商品の価格又は前記商品のカテゴリごとに設定される所定の指標値を算出する、
ことを特徴とする請求項7に記載の検索装置。
The extraction unit includes:
As the feature information, extract the price of the product or the category of the product,
The calculation unit includes:
A predetermined value set for each of the word, the price of the product, or the category of the product based on a co-occurrence relationship in any combination of the word, the price of the product, or the category of the product extracted by the extraction unit. Calculate the index value of
The search device according to claim 7.
コンピュータによって実行される検索方法であって、
検索処理に利用するための素性をコンテンツから抽出する抽出工程と、
前記抽出工程によって抽出された素性の組み合わせにおける共起関係に基づいて、前記素性ごとに設定される所定の指標値を算出し、算出された指標値と前記コンテンツとを対応付けて所定の記憶部に格納する算出工程と、
前記算出工程によって算出された所定の指標値に基づいて、ユーザから送信されるクエリに適合するコンテンツを検索する検索工程と、
を含んだことを特徴とする検索方法。
A search method executed by a computer,
An extraction process for extracting features for use in search processing from the content;
Based on the co-occurrence relationship in the feature combination extracted by the extraction step, a predetermined index value set for each of the features is calculated, and the calculated index value and the content are associated with each other and a predetermined storage unit A calculation process to be stored in
A search step of searching for content that matches a query transmitted from the user based on the predetermined index value calculated by the calculation step;
The search method characterized by including.
検索処理に利用するための素性をコンテンツから抽出する抽出手順と、
前記抽出手順によって抽出された素性の組み合わせにおける共起関係に基づいて、前記素性ごとに設定される所定の指標値を算出し、算出された指標値と前記コンテンツとを対応付けて所定の記憶部に格納する算出手順と、
前記算出手順によって算出された所定の指標値に基づいて、ユーザから送信されるクエリに適合するコンテンツを検索する検索手順と、
をコンピュータに実行させることを特徴とする検索プログラム。
An extraction procedure for extracting features for use in search processing from the content;
Based on the co-occurrence relationship in the combination of features extracted by the extraction procedure, a predetermined index value set for each of the features is calculated, and the calculated index value and the content are associated with each other and a predetermined storage unit The calculation procedure to store in
A search procedure for searching for content that matches a query transmitted from the user based on the predetermined index value calculated by the calculation procedure;
A search program characterized by causing a computer to execute.
JP2016209605A 2016-10-26 2016-10-26 Retrieval device, retrieval method and retrieval program Pending JP2018072983A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016209605A JP2018072983A (en) 2016-10-26 2016-10-26 Retrieval device, retrieval method and retrieval program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016209605A JP2018072983A (en) 2016-10-26 2016-10-26 Retrieval device, retrieval method and retrieval program

Publications (1)

Publication Number Publication Date
JP2018072983A true JP2018072983A (en) 2018-05-10

Family

ID=62114190

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016209605A Pending JP2018072983A (en) 2016-10-26 2016-10-26 Retrieval device, retrieval method and retrieval program

Country Status (1)

Country Link
JP (1) JP2018072983A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7239775B1 (en) 2022-09-06 2023-03-14 ヤフー株式会社 Information processing device, information processing method and information processing program

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003132085A (en) * 2001-10-19 2003-05-09 Pioneer Electronic Corp Information selection device and method, information selection reproducing device and computer program for information selection
JP2005122515A (en) * 2003-10-17 2005-05-12 Sony Corp Electronic equipment device, method for calculating similarity between texts, and program
JP2009193219A (en) * 2008-02-13 2009-08-27 Nippon Telegr & Teleph Corp <Ntt> Indexing apparatus, method thereof, program, and recording medium
JP2010009307A (en) * 2008-06-26 2010-01-14 Kyoto Univ Feature word automatic learning system, content linkage type advertisement distribution computer system, retrieval linkage type advertisement distribution computer system and text classification computer system, and computer program and method for them
JP2010218216A (en) * 2009-03-17 2010-09-30 Chugoku Electric Power Co Inc:The Similar document retrieval system, method and program
JP2012003603A (en) * 2010-06-18 2012-01-05 Hitachi Systems & Services Ltd Information retrieval system
JP2012018615A (en) * 2010-07-09 2012-01-26 Nippon Hoso Kyokai <Nhk> Broadcast program searching device and broadcast program searching program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003132085A (en) * 2001-10-19 2003-05-09 Pioneer Electronic Corp Information selection device and method, information selection reproducing device and computer program for information selection
JP2005122515A (en) * 2003-10-17 2005-05-12 Sony Corp Electronic equipment device, method for calculating similarity between texts, and program
JP2009193219A (en) * 2008-02-13 2009-08-27 Nippon Telegr & Teleph Corp <Ntt> Indexing apparatus, method thereof, program, and recording medium
JP2010009307A (en) * 2008-06-26 2010-01-14 Kyoto Univ Feature word automatic learning system, content linkage type advertisement distribution computer system, retrieval linkage type advertisement distribution computer system and text classification computer system, and computer program and method for them
JP2010218216A (en) * 2009-03-17 2010-09-30 Chugoku Electric Power Co Inc:The Similar document retrieval system, method and program
JP2012003603A (en) * 2010-06-18 2012-01-05 Hitachi Systems & Services Ltd Information retrieval system
JP2012018615A (en) * 2010-07-09 2012-01-26 Nippon Hoso Kyokai <Nhk> Broadcast program searching device and broadcast program searching program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7239775B1 (en) 2022-09-06 2023-03-14 ヤフー株式会社 Information processing device, information processing method and information processing program
JP2024037023A (en) * 2022-09-06 2024-03-18 ヤフー株式会社 Information processing device, information processing method and information processing program

Similar Documents

Publication Publication Date Title
JP6814298B2 (en) Methods and equipment for warning
CN109145280B (en) Information pushing method and device
JP7117826B2 (en) SEARCH DEVICE, SEARCH METHOD AND SEARCH PROGRAM
JP6745384B2 (en) Method and apparatus for pushing information
JP6023129B2 (en) Extraction apparatus, extraction method, and extraction program
JP6698040B2 (en) Generation device, generation method, and generation program
US20150006333A1 (en) Generating websites and online stores from seed input
US20140149846A1 (en) Method for collecting offline data
JP6250106B1 (en) Information analysis apparatus, information analysis method, and information analysis program
JP6235443B2 (en) Extraction apparatus, extraction method and extraction program
JP6865045B2 (en) Search device, search method and search program
WO2016162843A1 (en) Processing a search query and retrieving targeted records from a networked database system
JP6833540B2 (en) Extractor, extraction method and extraction program
CN108280081B (en) Method and device for generating webpage
JP2018088282A (en) Extracting apparatus, extracting method, and extracting program
US20170193539A1 (en) Time-value estimation method and system for sharing environment
KR20180031342A (en) Method and Apparatus for Searching Things for Sale
JPWO2020129527A1 (en) Receipt processing device, control method, and program
JP2018072983A (en) Retrieval device, retrieval method and retrieval program
JP6311052B1 (en) Extraction apparatus, extraction method, and extraction program
JP7031041B2 (en) Information processing equipment, information processing methods, and programs
JP6100741B2 (en) Extraction apparatus, extraction method and extraction program
JP2017076376A (en) Calculation device, calculation method and calculation program
JP7413423B2 (en) Information processing system and information processing method
KR20210059000A (en) Plug-in enable identification and display of alternative products for purchase

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200910

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210308

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210308

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210315

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210316

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20210604

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20210608

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20210706

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20211102

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220214

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220412

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20220712

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20220809

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20220809