JP2017228114A - Query analysis device, query analysis method and program - Google Patents

Query analysis device, query analysis method and program Download PDF

Info

Publication number
JP2017228114A
JP2017228114A JP2016124367A JP2016124367A JP2017228114A JP 2017228114 A JP2017228114 A JP 2017228114A JP 2016124367 A JP2016124367 A JP 2016124367A JP 2016124367 A JP2016124367 A JP 2016124367A JP 2017228114 A JP2017228114 A JP 2017228114A
Authority
JP
Japan
Prior art keywords
query
searched
time difference
search time
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016124367A
Other languages
Japanese (ja)
Other versions
JP6779047B2 (en
Inventor
田村 健
Takeshi Tamura
健 田村
伸次 池宮
Shinji Ikemiya
伸次 池宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016124367A priority Critical patent/JP6779047B2/en
Publication of JP2017228114A publication Critical patent/JP2017228114A/en
Application granted granted Critical
Publication of JP6779047B2 publication Critical patent/JP6779047B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a query analysis device, a query analysis method and a program capable of analyzing needs of a user who performs search and/or change of the user's needs over time using queries.SOLUTION: A query analysis device comprises: a query information acquisition unit for acquiring query information in which a searched query and a time when the query was searched are associated for each user; an overlap level score calculation unit for, based on the query information, calculating an overlap level score indicating a degree of overlapping of a user who searched a first query and a user who searched a second query; a search time difference calculation unit for, based on the query information, calculating a search time difference which is a difference between a time when the first query was searched and a time when the second query was searched; and a display information generation unit for generating information for displaying the overlap level score and the search time difference in association with the first query and the second query.SELECTED DRAWING: Figure 1

Description

本発明は、クエリ分析装置、クエリ分析方法、およびプログラムに関する。   The present invention relates to a query analysis device, a query analysis method, and a program.

従来、検索サイトに入力されたクエリに基づき、シソーラス辞書を作成する技術が用いられてきた。具体的には、検索時刻の間隔が所定時間以内の検索ワードから、検索時刻が先の検索ワードと検索時刻が後の検索ワードとをペアにしたペア検索ワードを生成し、生成したペア検索ワードを用いてシソーラス辞書を生成する技術が知られている(特許文献1参照)。   Conventionally, a technique for creating a thesaurus dictionary based on a query input to a search site has been used. Specifically, a pair search word is generated by pairing a search word with a search time earlier and a search word with a later search time from a search word having a search time interval within a predetermined time. There is known a technique for generating a thesaurus dictionary by using (see Patent Document 1).

特開2013−109701号公報JP 2013-109701 A

しかしながら、特許文献1に開示された技術は、生成したシソーラス辞書を用いて検索ワードの変換処理を行うことができるものの、検索するユーザのニーズや、時間経過によるユーザのニーズの変化を、検索サイトに入力されたクエリを用いて分析することができなかった。   However, although the technique disclosed in Patent Document 1 can perform a search word conversion process using the generated thesaurus dictionary, it is possible to detect changes in user needs over time and user needs over time. Could not be analyzed using the query entered in.

本発明は、このような事情を考慮してなされたものであり、検索するユーザのニーズや、時間経過によるユーザのニーズの変化を、クエリを用いて分析することができるクエリ分析装置、クエリ分析方法、およびプログラムを提供することを目的の一つとする。   The present invention has been made in view of such circumstances, and a query analysis apparatus and query analysis that can analyze a user's needs to be searched and changes in the user's needs over time using a query. An object is to provide a method and a program.

本発明の一態様は、検索されたクエリと、前記クエリが検索された時間とがユーザごとに関連付けられたクエリ情報を取得するクエリ情報取得部と、前記クエリ情報取得部によって取得された前記クエリ情報に基づいて、第1のクエリを検索したユーザと、第2のクエリを検索したユーザとの重複の度合いを示す重複度スコアを算出する重複度スコア算出部と、前記クエリ情報取得部によって取得された前記クエリ情報に基づいて、前記第1のクエリが検索された時間と、前記第2のクエリが検索された時間との差である検索時間差を算出する検索時間差算出部と、前記重複度スコア算出部によって算出された前記重複度スコアと、前記検索時間差算出部によって算出された前記検索時間差とを、前記第1のクエリおよび前記第2のクエリに関連付けて表示するための情報を生成する表示情報生成部と、を備えるクエリ分析装置である。   One aspect of the present invention is a query information acquisition unit that acquires query information in which a searched query and a time when the query is searched are associated for each user, and the query acquired by the query information acquisition unit. Based on the information, acquired by the query information acquisition unit, the redundancy score calculation unit that calculates the redundancy score indicating the degree of overlap between the user who searched the first query and the user who searched the second query A search time difference calculating unit that calculates a search time difference that is a difference between a time when the first query is searched and a time when the second query is searched based on the query information that has been searched; The redundancy score calculated by the score calculation unit and the search time difference calculated by the search time difference calculation unit in the first query and the second query. A display information generator for generating information for display with continuous, a query analyzing device comprising a.

本発明の一態様によれば、検索するユーザのニーズや、時間経過によるユーザのニーズの変化を、クエリを用いて分析することができる。   According to one embodiment of the present invention, it is possible to analyze a user's needs to be searched and changes in the user's needs over time using a query.

実施形態に係るクエリ分析システム10の構成を示す図である。1 is a diagram illustrating a configuration of a query analysis system 10 according to an embodiment. 実施形態に係るウェブページの検索処理を示すシーケンス図である。It is a sequence diagram which shows the search process of the web page which concerns on embodiment. 実施形態に係る記憶部120に記憶されたクエリ情報の一例を示す図である。It is a figure which shows an example of the query information memorize | stored in the memory | storage part 120 which concerns on embodiment. 実施形態に係る重複度スコアの算出処理を説明するための図である。It is a figure for demonstrating the calculation process of the duplication degree score which concerns on embodiment. 実施形態に係る検索時間差の算出処理を説明するための図である。It is a figure for demonstrating the calculation process of the search time difference which concerns on embodiment. 実施形態に係る分析開始前のクエリ分析ウィンドウWの一例を示す図である。It is a figure which shows an example of the query analysis window W before the analysis start which concerns on embodiment. 実施形態に係る分析終了後のクエリ分析ウィンドウWの一例を示す図である。It is a figure showing an example of query analysis window W after the end of analysis concerning an embodiment. 実施形態に係るクラスタリング処理を説明するための図である。It is a figure for demonstrating the clustering process which concerns on embodiment. 実施形態に係るヒートマップMの一例を示す図である。It is a figure which shows an example of the heat map M which concerns on embodiment. 実施形態に係るクエリ分析処理を示すフローチャートである。It is a flowchart which shows the query analysis process which concerns on embodiment.

以下、図面を参照して、クエリ分析装置、クエリ分析方法、およびプログラムの実施形態について説明する。クエリ分析装置は、ネットワークなどを介して行われた検索の履歴を取得し、第1のクエリに対して相関の高い一以上の第2のクエリを抽出し、第1のクエリと第2のクエリとの関係を可視化する装置である。クエリ分析装置は、コンピュータにツール(プログラム)がインストールされることで実現されてもよいし、クラウドサービスによって分析結果を提供する装置であってもよい。クエリ分析装置によって、検索するユーザのニーズや、時間経過によるユーザのニーズの変化を分析することができる。   Hereinafter, embodiments of a query analysis device, a query analysis method, and a program will be described with reference to the drawings. The query analysis device acquires a history of searches performed via a network or the like, extracts one or more second queries having a high correlation with the first query, and extracts the first query and the second query. It is a device that visualizes the relationship. The query analysis apparatus may be realized by installing a tool (program) in a computer, or may be an apparatus that provides an analysis result by a cloud service. The query analysis device can analyze the needs of users to be searched and the changes in user needs over time.

<1.クエリ分析システムの構成>
図1は、実施形態に係るクエリ分析システム10の構成を示す図である。実施形態のクエリ分析システム10は、ウェブサーバ100と、クエリ分析装置200と、ユーザ端末300とを備える。
<1. Configuration of query analysis system>
FIG. 1 is a diagram illustrating a configuration of a query analysis system 10 according to the embodiment. The query analysis system 10 according to the embodiment includes a web server 100, a query analysis device 200, and a user terminal 300.

ウェブサーバ100、クエリ分析装置200、およびユーザ端末300は、ネットワークNWに接続される。ネットワークNWは、例えば、WAN(Wide Area Network)、LAN(Local Area Network)、インターネット、プロバイダ装置、無線基地局、専用回線などのうち一部または全部を含む。   Web server 100, query analysis device 200, and user terminal 300 are connected to network NW. The network NW includes, for example, a part or all of a wide area network (WAN), a local area network (LAN), the Internet, a provider device, a wireless base station, a dedicated line, and the like.

ウェブサーバ100は、制御部110と、記憶部120とを備える。制御部110は、例えば、ウェブサーバ100のプロセッサがプログラムを実行することで実現されてもよいし、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)などのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。   The web server 100 includes a control unit 110 and a storage unit 120. For example, the control unit 110 may be realized by a processor of the web server 100 executing a program, LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), or the like. It may be realized by hardware, or may be realized by cooperation of software and hardware.

記憶部120は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部120の一部または全部は、NAS(Network Attached Storage)や外部のストレージサーバなど、ウェブサーバ100がアクセス可能な外部装置であってもよい。   The storage unit 120 is realized by, for example, a random access memory (RAM), a read only memory (ROM), a hard disk drive (HDD), a flash memory, or a hybrid storage device in which a plurality of these are combined. Further, part or all of the storage unit 120 may be an external device accessible by the web server 100, such as NAS (Network Attached Storage) or an external storage server.

クエリ分析装置200は、クエリを分析する分析者によって使用される装置であり、ノート型のコンピュータまたはデスクトップ型のコンピュータであるが、これに限られない。例えば、クエリ分析装置200は、スマートフォンなどの携帯電話、タブレット端末、またはPDA(Personal Digital Assistant)であってもよい。   The query analysis apparatus 200 is an apparatus used by an analyst who analyzes a query, and is a notebook computer or a desktop computer, but is not limited thereto. For example, the query analysis device 200 may be a mobile phone such as a smartphone, a tablet terminal, or a PDA (Personal Digital Assistant).

クエリ分析装置200は、入力部210と、表示部220と、クエリ情報取得部230と、重複度スコア算出部240と、検索時間差算出部250と、クラスタリング部260と、ヒートマップ生成部270と、表示情報生成部280と、記憶部290とを備える。入力部210は、キーボードやマウスなどの入力装置である。クエリ分析装置200がスマートフォンなどの携帯電話またはタブレット端末である場合には、入力部210はタッチパネルなどの入力装置であってもよい。表示部220は、液晶表示装置などの表示装置である。   The query analysis device 200 includes an input unit 210, a display unit 220, a query information acquisition unit 230, a redundancy score calculation unit 240, a search time difference calculation unit 250, a clustering unit 260, a heat map generation unit 270, A display information generation unit 280 and a storage unit 290 are provided. The input unit 210 is an input device such as a keyboard or a mouse. When the query analysis device 200 is a mobile phone such as a smartphone or a tablet terminal, the input unit 210 may be an input device such as a touch panel. The display unit 220 is a display device such as a liquid crystal display device.

クエリ情報取得部230、重複度スコア算出部240、検索時間差算出部250、クラスタリング部260、ヒートマップ生成部270、および表示情報生成部280は、例えば、クエリ分析装置200のプロセッサがプログラムを実行することで実現されてもよいし、LSI、ASIC、FPGAなどのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。   The query information acquisition unit 230, the redundancy score calculation unit 240, the search time difference calculation unit 250, the clustering unit 260, the heat map generation unit 270, and the display information generation unit 280, for example, are executed by the processor of the query analysis device 200. May be realized by hardware such as LSI, ASIC, FPGA, or may be realized by cooperation of software and hardware.

記憶部290は、例えば、RAM、ROM、HDD、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部290の一部または全部は、NASや外部のストレージサーバなど、クエリ分析装置200がアクセス可能な外部装置であってもよい。   The storage unit 290 is realized by, for example, a RAM, ROM, HDD, flash memory, or a hybrid storage device in which a plurality of these are combined. Further, a part or all of the storage unit 290 may be an external device accessible by the query analysis device 200, such as a NAS or an external storage server.

ユーザ端末300は、ユーザによって使用される端末であり、スマートフォンなどの携帯電話やタブレット端末であるが、これに限られない。例えば、ユーザ端末300は、ノート型のコンピュータ、デスクトップ型のコンピュータ、またはPDAであってもよい。   The user terminal 300 is a terminal used by a user and is a mobile phone such as a smartphone or a tablet terminal, but is not limited thereto. For example, the user terminal 300 may be a notebook computer, a desktop computer, or a PDA.

ユーザ端末300は、制御部310と、入力部320と、表示部330とを備える。制御部310は、例えば、ユーザ端末300のプロセッサがプログラムを実行することで実現されてもよいし、LSI、ASIC、FPGAなどのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。   The user terminal 300 includes a control unit 310, an input unit 320, and a display unit 330. For example, the control unit 310 may be realized by a processor of the user terminal 300 executing a program, or may be realized by hardware such as an LSI, an ASIC, or an FPGA, or software and hardware cooperate with each other. It may be realized by doing.

入力部320は、タッチパネルなどの入力装置である。ユーザ端末300がノート型のコンピュータまたはデスクトップ型のコンピュータである場合には、入力部320はキーボードやマウスなどの入力装置であってもよい。表示部330は、液晶表示装置などの表示装置である。   The input unit 320 is an input device such as a touch panel. When the user terminal 300 is a notebook computer or a desktop computer, the input unit 320 may be an input device such as a keyboard or a mouse. The display unit 330 is a display device such as a liquid crystal display device.

<2.ウェブページの検索処理>
図2は、実施形態に係るウェブページの検索処理を示すシーケンス図である。まず、ユーザは、ユーザ端末300の入力部320を用いて、検索ページを表示部330に表示させるための指示を入力する。検索ページとは、ウェブサーバ100の運営者によって提供される検索サイトのページである。ユーザ端末300の制御部310は、入力された指示に基づき、HTTP(Hypertext Transfer Protocol)リクエストをウェブサーバ100に送信する(S10)。
<2. Web page search processing>
FIG. 2 is a sequence diagram illustrating web page search processing according to the embodiment. First, the user uses the input unit 320 of the user terminal 300 to input an instruction for displaying the search page on the display unit 330. A search page is a page of a search site provided by the operator of the web server 100. The control unit 310 of the user terminal 300 transmits an HTTP (Hypertext Transfer Protocol) request to the web server 100 based on the input instruction (S10).

ウェブサーバ100の制御部110は、ユーザ端末300からHTTPリクエストを受信すると、予め記憶部120に記憶された検索ページ生成情報を読み出す(S11)。次に、ウェブサーバ100の制御部110は、読み出した検索ページ生成情報をユーザ端末300に送信する(S12)。検索ページ生成情報は、例えば、HTML(HyperText Markup Language)等が記述されたテキストデータや、スタイルシート、画像データ、動画データ、音声データである。   When receiving the HTTP request from the user terminal 300, the control unit 110 of the web server 100 reads the search page generation information stored in the storage unit 120 in advance (S11). Next, the control unit 110 of the web server 100 transmits the read search page generation information to the user terminal 300 (S12). The search page generation information is, for example, text data describing HTML (HyperText Markup Language), style sheets, image data, moving image data, and audio data.

ユーザ端末300の制御部310は、ウェブサーバ100から検索ページ生成情報を受信すると、受信した検索ページ生成情報を用いて、表示部330に検索ページを表示させる(S13)。ユーザは、ユーザ端末300の入力部320を用いて、表示部330に表示された検索ページにクエリを入力する。クエリとは、検索ページに入力された一つの検索ワードまたは複数の検索ワードの組み合わせである。   When receiving the search page generation information from the web server 100, the control unit 310 of the user terminal 300 causes the display unit 330 to display the search page using the received search page generation information (S13). The user uses the input unit 320 of the user terminal 300 to input a query to the search page displayed on the display unit 330. A query is a single search word or a combination of multiple search words entered on the search page.

ユーザ端末300の制御部310は、ユーザによって入力されたクエリに基づいて、クエリ情報を生成する。クエリ情報には、ユーザによって入力されたクエリの他、ユーザの識別情報および検索日時等が含まれる。制御部310は、生成したクエリ情報をウェブサーバ100に送信する(S14)。   The control unit 310 of the user terminal 300 generates query information based on the query input by the user. The query information includes user identification information, search date and time, in addition to the query input by the user. The control unit 310 transmits the generated query information to the web server 100 (S14).

ウェブサーバ100の制御部110は、ユーザ端末300からクエリ情報を受信すると、受信したクエリ情報を記憶部120に記憶する(S15)。具体的に、制御部110は、ユーザ端末300から受信したクエリ情報に含まれるユーザの識別情報に基づき、ユーザごとにクエリ情報を分類して記憶部120に記憶する。   When receiving the query information from the user terminal 300, the control unit 110 of the web server 100 stores the received query information in the storage unit 120 (S15). Specifically, the control unit 110 classifies the query information for each user based on the user identification information included in the query information received from the user terminal 300 and stores the query information in the storage unit 120.

次に、制御部110は、受信したクエリ情報に含まれるクエリに基づいて検索処理を行う(S16)。制御部110は、検索処理において、クエリによって示される検索ワードが含まれるページの一覧を、検索結果として生成する。その後、制御部110は、生成した検索結果をユーザ端末300に送信する(S17)。   Next, the control unit 110 performs a search process based on the query included in the received query information (S16). In the search process, the control unit 110 generates a list of pages including the search word indicated by the query as a search result. Thereafter, the control unit 110 transmits the generated search result to the user terminal 300 (S17).

ユーザ端末300の制御部310は、ウェブサーバ100から検索結果を受信すると、受信した検索結果を表示部330に表示させる(S18)。このように、ユーザによって入力されたクエリに基づく検索処理が行われる。   When receiving the search result from the web server 100, the control unit 310 of the user terminal 300 displays the received search result on the display unit 330 (S18). Thus, the search process based on the query input by the user is performed.

なお、本実施形態においては、説明の簡略化のためにウェブサーバ100に検索機能を持たせることとしたが、これに限られない。例えば、クエリ分析システム10は、ウェブサーバと検索サーバとを別々に備えてもよい。   In the present embodiment, the web server 100 is provided with a search function for the sake of simplification of explanation, but the present invention is not limited to this. For example, the query analysis system 10 may include a web server and a search server separately.

<3.重複度スコアの算出処理>
次に、重複度スコアの算出処理について説明する。重複度スコアは、あるクエリを検索したユーザと、他のクエリを検索したユーザとの重複の度合いを示す値であり、クエリ分析の指標として用いられる。クエリ分析装置200の重複度スコア算出部240は、クエリ情報に用いて重複度スコアを算出する。
<3. Duplication score calculation processing>
Next, the calculation process of the redundancy score will be described. The duplication degree score is a value indicating the degree of duplication between a user who searches for a certain query and a user who searches for another query, and is used as an index for query analysis. The multiplicity score calculation unit 240 of the query analysis device 200 calculates a multiplicity score using the query information.

図3は、実施形態に係る記憶部120に記憶されたクエリ情報の一例を示す図である。図3に示されるように、記憶部120には、ユーザごとに分類されたクエリ情報Q1からQn(n:ユーザの総数)が格納されている。例えば、クエリ情報Q1はユーザ1のクエリ情報であり、クエリ情報Q2はユーザ2のクエリ情報であり、・・・、クエリ情報Qn
はユーザnのクエリ情報である。クエリ情報Q1からQnのそれぞれにおいて、ユーザによって入力されたクエリおよび検索日時が関連付けられている。
FIG. 3 is a diagram illustrating an example of query information stored in the storage unit 120 according to the embodiment. As shown in FIG. 3, the storage unit 120 stores query information Q1 to Qn (n: total number of users) classified for each user. For example, the query information Q1 is query information of the user 1, the query information Q2 is query information of the user 2, ..., query information Qn
Is the query information of user n. In each of the query information Q1 to Qn, the query input by the user and the search date and time are associated.

図4は、実施形態に係る重複度スコアの算出処理を説明するための図である。図4において、ALLuserは全ユーザ数を示し、AuserはクエリAを入力したユーザ数を示し、BuserはクエリBを入力したユーザ数を示す。ここで、ALLuser、Auser、およびBuserはユーザ数であることとしたが、検索回数であってもよい。ALLuser、Auser、およびBuserのそれぞれの値は、クエリ情報に基づいて算出される。   FIG. 4 is a diagram for explaining the calculation process of the redundancy score according to the embodiment. In FIG. 4, ALLuser indicates the total number of users, Auser indicates the number of users who input the query A, and Buser indicates the number of users who input the query B. Here, ALLuser, Auser, and Buser are the number of users, but may be the number of searches. The values of ALLuser, Auser, and Buser are calculated based on the query information.

クエリ分析装置200のクエリ情報取得部230は、ウェブサーバ100にクエリ情報要求を送信する。ウェブサーバ100の制御部110は、クエリ情報取得部230からクエリ情報要求を受信すると、記憶部120からクエリ情報Q1からQn(図3)を読み出す。その後、制御部110は、読み出したクエリ情報Q1からQnをクエリ分析装置200に送信する。   The query information acquisition unit 230 of the query analysis device 200 transmits a query information request to the web server 100. When receiving the query information request from the query information acquisition unit 230, the control unit 110 of the web server 100 reads the query information Q1 to Qn (FIG. 3) from the storage unit 120. Thereafter, the control unit 110 transmits the read query information Q1 to Qn to the query analysis device 200.

クエリ情報取得部230は、ウェブサーバ100の制御部110から送信されたクエリ情報Q1からQnを取得する。また、クエリ情報取得部230は、取得したクエリ情報Q1からQnを記憶部290に記憶する。重複度スコア算出部240は、記憶部290からクエリ情報Q1からQnを読み出し、読み出したクエリ情報Q1からQnに基づき、全ユーザ数ALLuserと、クエリAのユーザ数Auserと、クエリBのユーザ数Buserとを算出する。   The query information acquisition unit 230 acquires the query information Q1 to Qn transmitted from the control unit 110 of the web server 100. Further, the query information acquisition unit 230 stores the acquired query information Q1 to Qn in the storage unit 290. The duplication degree score calculation unit 240 reads the query information Q1 to Qn from the storage unit 290, and based on the read query information Q1 to Qn, the total number of users ALLuser, the number of users A of the query A, and the number of users B of the query B And calculate.

また、重複度スコア算出部240は、以下の式(1)に基づき、クエリAに対するクエリBの重複度スコアScore(A,B)を算出する。すなわち、重複度スコア算出部240は、クエリAおよびクエリBの両方を検索したユーザの数(Auser∩Buser)をクエリAを検索したユーザの数(Auser)で除算した値と、クエリBを検索したユーザの数(Buser)を全ユーザの数(ALLuser)で除算した値とに基づいて、重複度スコアScore(A,B)を算出する。   Further, the redundancy score calculation unit 240 calculates the redundancy score Score (A, B) of the query B with respect to the query A based on the following formula (1). That is, the redundancy score calculation unit 240 searches the query B by a value obtained by dividing the number of users who searched both the query A and the query B (Auser∩Buser) by the number of users who searched the query A (Auser). Based on the value obtained by dividing the number of users (Buser) by the number of all users (ALLuser), the multiplicity score Score (A, B) is calculated.

Figure 2017228114
Figure 2017228114

重複度スコアScore(A,B)は、クエリAを検索したユーザと、クエリBを検索したユーザとの重複の度合いを示す値である。重複度スコアScore(A,B)が大きいほど、クエリAとクエリBの関連性が高いといえる。逆に、重複度スコアScore(A,B)が小さいほど、クエリAとクエリBの関連性が低いといえる。   The redundancy score Score (A, B) is a value indicating the degree of overlap between the user who searched the query A and the user who searched the query B. It can be said that the greater the redundancy score Score (A, B), the higher the relevance between query A and query B. Conversely, it can be said that the smaller the multiplicity score Score (A, B), the lower the relevance between the query A and the query B.

例えば、車種1は軽自動車であり、車種2は軽自動車であり、車種3はスポーツカーであるとする。この場合において、クエリAが「車種1」であり、クエリBが「車種2」である場合、重複度スコアScore(A,B)は大きな値であった。一方、クエリAが「車種1」であり、クエリBが「車種3」である場合、重複度スコアScore(A,B)は小さな値であった。これは、軽自動車同士の関連性は高く、軽自動車とスポーツカーとの関連性は低いためである。このように、重複度スコアScore(A,B)を用いることで、例えば、競合製品の抽出や製品のニーズを分析することができる。   For example, it is assumed that the vehicle type 1 is a light vehicle, the vehicle type 2 is a light vehicle, and the vehicle type 3 is a sports car. In this case, when the query A is “vehicle type 1” and the query B is “vehicle type 2”, the multiplicity score Score (A, B) is a large value. On the other hand, when the query A is “vehicle type 1” and the query B is “vehicle type 3”, the multiplicity score Score (A, B) is a small value. This is because the relationship between light vehicles is high, and the relationship between light vehicles and sports cars is low. In this way, by using the redundancy score Score (A, B), for example, it is possible to extract competitive products and analyze product needs.

<4.検索時間差の算出処理>
次に、検索時間差の算出処理について説明する。検索時間差は、あるクエリが検索された時間と、他のクエリが検索された時間との差を示す値であり、クエリ分析の指標として用いられる。クエリ分析装置200の検索時間差算出部250は、クエリ情報に用いて検索時間差を算出する。
<4. Search time difference calculation processing>
Next, search time difference calculation processing will be described. The search time difference is a value indicating the difference between the time when a certain query is searched and the time when another query is searched, and is used as an index for query analysis. The search time difference calculation unit 250 of the query analysis device 200 calculates the search time difference using the query information.

図5は、実施形態に係る検索時間差の算出処理を説明するための図である。図5において、横軸は検索が行われた時間を示し、縦軸はクエリを入力したユーザ数を示す。クエリ分布QAはクエリAのユーザ数の分布を示し、クエリ分布QBはクエリBのユーザ数の分布を示す。時間T1はクエリ分布QAの検索時間の中央値を示し、時間T2はクエリ分布QBの検索時間の中央値を示す。   FIG. 5 is a diagram for explaining search time difference calculation processing according to the embodiment. In FIG. 5, the horizontal axis indicates the time when the search is performed, and the vertical axis indicates the number of users who input the query. The query distribution QA indicates the distribution of the number of users of the query A, and the query distribution QB indicates the distribution of the number of users of the query B. Time T1 indicates the median search time of the query distribution QA, and time T2 indicates the median search time of the query distribution QB.

検索時間差算出部250は、クエリ情報取得部230によって取得されたクエリ情報Q1からQnに基づき、時間T1および時間T2を導出する。具体的には、検索時間差算出部250は、クエリ情報Q1からQnに基づいてクエリAの検索日時を集計し、集計した検索日時の中央値を時間T1として導出する。また、検索時間差算出部250は、クエリ情報Q1からQnに基づいてクエリBの検索日時を集計し、集計した検索日時の中央値を時間T2として導出する。   The search time difference calculation unit 250 derives the time T1 and the time T2 based on the query information Q1 to Qn acquired by the query information acquisition unit 230. Specifically, the search time difference calculation unit 250 aggregates the search date / time of the query A based on the query information Q1 to Qn, and derives the median of the aggregated search date / time as the time T1. In addition, the search time difference calculation unit 250 aggregates the search date and time of the query B based on the query information Q1 to Qn, and derives the median of the aggregated search date and time as time T2.

さらに、検索時間差算出部250は、導出した時間T2から時間T1を減算することによって、クエリ分布QAとクエリ分布QBとの間の検索時間差D(A,B)を算出する。検索時間差D(A,B)がプラスの値の場合、クエリAの検索よりも後にクエリBの検索が行われた頻度が高いといえる。検索時間差D(A,B)がマイナスの値の場合、クエリAの検索よりも前にクエリBの検索が行われた頻度が高いといえる。また、検索時間差D(A,B)が0に近いほど、クエリAの検索が行われた時期と同時期にクエリBの検索が行われた頻度が高いといえる。   Further, the search time difference calculation unit 250 calculates the search time difference D (A, B) between the query distribution QA and the query distribution QB by subtracting the time T1 from the derived time T2. When the search time difference D (A, B) is a positive value, it can be said that the search for the query B is performed more frequently than the search for the query A. When the search time difference D (A, B) is a negative value, it can be said that the frequency of the search for the query B before the search for the query A is high. Further, it can be said that the closer the search time difference D (A, B) is to 0, the higher the frequency of the search for the query B at the same time as the search for the query A.

例えば、クエリAが「咳止め薬」であり、クエリBが「喉の痛み」である場合、検索時間差はマイナスの値であった。これは、喉の痛みは初期症状であるためである。一方、クエリAが「咳止め薬」であり、クエリBが「肺炎」である場合、検索時間差はプラスの値であった。これは、肺炎は症状が進行した状態であるためである。このように、検索時間差を用いることで、例えば、時間経過によるユーザのニーズの変化を把握することができる。   For example, when query A is “cough medicine” and query B is “throat pain”, the search time difference is a negative value. This is because sore throat is an early symptom. On the other hand, when query A is “cough medicine” and query B is “pneumonia”, the search time difference is a positive value. This is because pneumonia is a state in which symptoms have progressed. In this way, by using the search time difference, for example, it is possible to grasp a change in the user's needs over time.

<5.クエリ分析ウィンドウ>
図6は、実施形態に係る分析開始前のクエリ分析ウィンドウWの一例を示す図である。クエリ分析装置200の表示情報生成部280は、クエリ分析ウィンドウWの表示情報を生成する。表示部220は、表示情報生成部280によって生成された表示情報に従って、クエリ分析ウィンドウWを表示する。図6に示されるように、クエリ分析ウィンドウWには、クエリ選択領域221と、データソース選択領域222と、閾値入力領域223と、開始ボタン224と、結果表示領域225とが表示されている。
<5. Query analysis window>
FIG. 6 is a diagram illustrating an example of the query analysis window W before the analysis start according to the embodiment. The display information generation unit 280 of the query analysis device 200 generates display information for the query analysis window W. The display unit 220 displays the query analysis window W according to the display information generated by the display information generation unit 280. As shown in FIG. 6, the query analysis window W displays a query selection area 221, a data source selection area 222, a threshold value input area 223, a start button 224, and a result display area 225.

クエリ選択領域221は、クエリ分析装置200を使用する分析者が、分析対象のクエリを選択するための領域である。データソース選択領域222は、分析者がクエリ情報のデータソースを選択するための領域である。図6に示される例においては、分析対象のクエリとしてクエリAが選択され、データソースとして2015年1月1日から2015年12月31日のデータソースが選択されている。   The query selection area 221 is an area for an analyst using the query analysis apparatus 200 to select a query to be analyzed. The data source selection area 222 is an area for an analyst to select a data source of query information. In the example shown in FIG. 6, the query A is selected as the query to be analyzed, and the data source from January 1, 2015 to December 31, 2015 is selected as the data source.

閾値入力領域223は、重複度スコアの閾値の入力を受け付ける入力部として機能する。開始ボタン224は、分析者が分析開始を指示するためのボタンである。結果表示領域225は、分析結果が表示される領域である。結果表示領域225には、分析結果として、クエリと、ユーザ数と、重複度スコアと、検索時間差とが表示される。   The threshold value input area 223 functions as an input unit that receives an input of the threshold value of the redundancy score. The start button 224 is a button for the analyst to instruct the start of analysis. The result display area 225 is an area where the analysis result is displayed. In the result display area 225, the query, the number of users, the redundancy score, and the search time difference are displayed as analysis results.

検索時間差算出部250は、重複度スコア算出部240によって算出されたクエリAに対する重複度スコアが閾値入力領域223に入力された閾値未満のクエリに対しては、検索時間差を算出しない。図6に示される例においては、閾値として4が入力されている。このため、重複度スコアが4未満のクエリに対しては検索時間差が算出されないこととなり、結果表示領域225から分析結果が省かれることとなる。   The search time difference calculation unit 250 does not calculate a search time difference for a query in which the redundancy score for the query A calculated by the redundancy score calculation unit 240 is less than the threshold value input to the threshold value input area 223. In the example shown in FIG. 6, 4 is input as the threshold value. For this reason, a search time difference is not calculated for a query having a multiplicity score of less than 4, and the analysis result is omitted from the result display area 225.

分析者が、クエリ分析装置200の入力部210を用いて開始ボタン224をクリックすると、クエリ分析処理が開始される。クエリ分析処理において、重複度スコア算出部240は重複度スコアを算出し、検索時間差算出部250は検索時間差を算出する。算出された重複度スコアおよび検索時間差は、結果表示領域225に表示される。   When the analyst clicks the start button 224 using the input unit 210 of the query analysis device 200, the query analysis process is started. In the query analysis process, the redundancy score calculation unit 240 calculates a redundancy score, and the search time difference calculation unit 250 calculates a search time difference. The calculated redundancy score and search time difference are displayed in the result display area 225.

図7は、実施形態に係る分析終了後のクエリ分析ウィンドウWの一例を示す図である。クエリ分析処理において、重複度スコア算出部240は、クエリ情報取得部230によって取得されたクエリ情報のうち、データソース選択領域222に示されるデータソースを用いて重複度スコアを算出する。具体的には、重複度スコア算出部240は、前述の式(1)に基づいて、クエリ選択領域221に示されるクエリに対する、他のクエリの重複度スコアを算出する。   FIG. 7 is a diagram illustrating an example of the query analysis window W after the analysis according to the embodiment. In the query analysis process, the multiplicity score calculation unit 240 calculates a multiplicity score using the data source indicated in the data source selection area 222 among the query information acquired by the query information acquisition unit 230. Specifically, the multiplicity score calculation unit 240 calculates the multiplicity score of another query for the query indicated in the query selection area 221 based on the above-described equation (1).

ただし、重複度スコア算出部240は、算出した重複度スコアが閾値入力領域223に入力された閾値未満である場合、重複度スコアが閾値未満であるクエリについての分析結果を結果表示領域225から除外する。これによって、分析対象のクエリと関連性の低いクエリの分析結果を除外することができ、クエリ分析の精度を向上させることができる。   However, if the calculated redundancy score is less than the threshold value input to the threshold value input area 223, the redundancy score calculation unit 240 excludes the analysis result for the query having the redundancy score less than the threshold value from the result display area 225. To do. As a result, it is possible to exclude the analysis result of the query that is less relevant to the query to be analyzed, and to improve the accuracy of the query analysis.

クエリ分析処理において、検索時間差算出部250は、クエリ情報取得部230によって取得されたクエリ情報のうち、データソース選択領域222に示されるデータソースを用いて、検索時間差を算出する。具体的には、検索時間差算出部250は、クエリ選択領域221に示されるクエリと他のクエリとの間の検索時間差を算出する。   In the query analysis process, the search time difference calculation unit 250 calculates a search time difference using the data source indicated in the data source selection area 222 among the query information acquired by the query information acquisition unit 230. Specifically, the search time difference calculation unit 250 calculates a search time difference between the query indicated in the query selection area 221 and another query.

図7に示されるように、結果表示領域225には、重複度スコア算出部240によって算出された重複度スコアと、検索時間差算出部250によって算出された検索時間差とが、クエリごとに関連付けられて表示される。これによって、分析者は、各クエリについての重複度スコアと検索時間差とを容易に把握することができる。   As shown in FIG. 7, in the result display area 225, the redundancy score calculated by the redundancy score calculation unit 240 and the search time difference calculated by the search time difference calculation unit 250 are associated with each query. Is displayed. Thus, the analyst can easily grasp the redundancy score and the search time difference for each query.

なお、図7において、表示部220は、ユーザ数、重複度スコア、または検索時間差について、昇順または降順に並び替えるためのボタンをクエリ分析ウィンドウW内に表示してもよい。これらの値を並び替えることで、分析者は、分析結果をより容易に把握することができる。   In FIG. 7, the display unit 220 may display a button for rearranging the number of users, the redundancy score, or the search time difference in ascending order or descending order in the query analysis window W. By rearranging these values, the analyst can more easily grasp the analysis result.

<6.ヒートマップ生成処理>
クエリ分析処理が完了すると、クエリ分析ウィンドウW内にヒートマップ表示ボタン226が表示される。分析者が、クエリ分析装置200の入力部210を用いてヒートマップ表示ボタン226をクリックすると、ヒートマップ生成部270はヒートマップ生成処理を開始する。ヒートマップ生成処理において、クエリ分析装置200のクラスタリング部260は、複数のクエリをグループ化してクラスタを生成する。
<6. Heat map generation process>
When the query analysis process is completed, a heat map display button 226 is displayed in the query analysis window W. When the analyst clicks the heat map display button 226 using the input unit 210 of the query analysis device 200, the heat map generation unit 270 starts the heat map generation process. In the heat map generation process, the clustering unit 260 of the query analysis device 200 generates a cluster by grouping a plurality of queries.

図8は、実施形態に係るクラスタリング処理を説明するための図である。クラスタリング部260は、クエリ情報取得部230によって取得されたクエリ情報に基づき、類似する複数のクエリをグループ化してクラスタを生成する。図8に示される例において、クラスタリング部260は、クエリAからクエリCをグループ化してクラスタAを生成し、クエリDからクエリGをグループ化してクラスタBを生成し、クエリHからクエリKをグループ化してクラスタCを生成している。   FIG. 8 is a diagram for explaining clustering processing according to the embodiment. The clustering unit 260 generates a cluster by grouping a plurality of similar queries based on the query information acquired by the query information acquisition unit 230. In the example illustrated in FIG. 8, the clustering unit 260 groups the query C from the query A to generate the cluster A, groups the query G from the query D to generate the cluster B, and groups the query K from the query H. To generate cluster C.

例えば、クラスタリング部260は、同一の検索ワードを所定数以上含むクエリをグループ化してクラスタを生成してもよいし、シソーラス辞書を用いて検索ワードが類似するか否かを判定し、類似する検索ワードを所定数以上含むクエリをグループ化してクラスタを生成してもよい。   For example, the clustering unit 260 may generate a cluster by grouping queries including a predetermined number or more of the same search word, or determine whether or not the search word is similar using a thesaurus dictionary. A cluster may be generated by grouping queries including a predetermined number of words.

クラスタリング部260は、生成したクラスタをヒートマップ生成部270に出力する。ヒートマップ生成部270は、クエリ情報取得部230によって取得されたクエリ情報と、クラスタリング部260から入力されたクラスタとに基づいて、ヒートマップMを生成する。   The clustering unit 260 outputs the generated cluster to the heat map generation unit 270. The heat map generation unit 270 generates the heat map M based on the query information acquired by the query information acquisition unit 230 and the cluster input from the clustering unit 260.

図9は、実施形態に係るヒートマップMの一例を示す図である。ヒートマップMの横軸は検索時間差を示し、縦軸はクラスタを示す。図9に示される例において、横軸の検索時間差の単位を日(day)として示しているが、これに限られない。例えば、より細かく分析する必要があれば、横軸の検索時間差の単位を時間(hour)として示してもよい。また、より長期間の分析結果が必要とされる場合は、横軸の検索時間差の単位を月(month)として示してもよい。   FIG. 9 is a diagram illustrating an example of the heat map M according to the embodiment. The horizontal axis of the heat map M indicates a search time difference, and the vertical axis indicates a cluster. In the example shown in FIG. 9, the unit of the search time difference on the horizontal axis is shown as a day, but is not limited to this. For example, if more detailed analysis is required, the unit of the search time difference on the horizontal axis may be indicated as time. When a longer-term analysis result is required, the unit of the search time difference on the horizontal axis may be indicated as a month.

各セル内に記載された数値は、横一列の合計を1とした場合のユーザ数(検索数)の割合を示す。すなわち、ヒートマップMは、検索時間差算出部250によって算出された検索時間差と、検索時間差に対応する検索数とが、クラスタリング部260によってグループ化されたクラスタごとに関連づけられた一覧情報である。このように、ヒートマップ生成部270は、横軸において検索時間差の分布を表現し、縦軸において検索時間差ごとにユーザ数(検索数)を正規化した値を表現したヒートマップMを生成する。   The numerical value described in each cell indicates the ratio of the number of users (the number of searches) when the sum of one horizontal row is 1. That is, the heat map M is list information in which the search time difference calculated by the search time difference calculation unit 250 and the number of searches corresponding to the search time difference are associated with each cluster grouped by the clustering unit 260. As described above, the heat map generation unit 270 generates a heat map M that expresses the distribution of the search time difference on the horizontal axis and expresses the value obtained by normalizing the number of users (search number) for each search time difference on the vertical axis.

ヒートマップ内の各セルは、ユーザ数(検索数)に応じた色でハッチングされる。図9に示される例においては、縦一列の値の合計に対する割合が高いセルほど、濃い色でハッチングされているが、これに限られない。例えば、縦一列の値の合計に対する割合が高いセルほど、薄い色でハッチングされてもよい。   Each cell in the heat map is hatched with a color corresponding to the number of users (number of searches). In the example shown in FIG. 9, cells having a higher ratio with respect to the sum of the values in one vertical column are hatched in a darker color, but are not limited thereto. For example, a cell having a higher ratio with respect to the sum of the values in one column may be hatched with a lighter color.

クエリ分析装置200の表示部220は、クエリ分析ウィンドウW内にヒートマップMを表示してもよいし、クエリ分析ウィンドウWとは別のウィンドウにヒートマップMを表示してもよい。このように、表示部220がヒートマップMを表示することによって、分析者は、各クラスタについての検索時間差と検索数とを容易に把握することができる。   The display unit 220 of the query analysis device 200 may display the heat map M in the query analysis window W or display the heat map M in a window different from the query analysis window W. Thus, the display unit 220 displays the heat map M, so that the analyst can easily grasp the search time difference and the number of searches for each cluster.

<7.クエリ分析処理>
図10は、実施形態に係るクエリ分析処理を示すフローチャートである。本フローチャートによる処理は、クエリ分析装置200によって実行される。
<7. Query analysis processing>
FIG. 10 is a flowchart illustrating query analysis processing according to the embodiment. The processing according to this flowchart is executed by the query analysis device 200.

まず、表示部220は、前述の図6に示されるクエリ分析ウィンドウWを表示する(S20)。次に、クエリ分析装置200は、開始ボタン224がクリックされたか否かを判定する(S21)。開始ボタン224がクリックされたと判定された場合、重複度スコア算出部240は、クエリ情報取得部230によって取得されたクエリ情報に基づいて、クエリごとの重複度スコアを算出する(S22)。次に、検索時間差算出部250は、クエリ情報取得部230によって取得されたクエリ情報に基づいて、クエリごとの検索時間差を算出する(S23)。   First, the display unit 220 displays the query analysis window W shown in FIG. 6 (S20). Next, the query analysis device 200 determines whether or not the start button 224 has been clicked (S21). When it is determined that the start button 224 is clicked, the redundancy score calculation unit 240 calculates a redundancy score for each query based on the query information acquired by the query information acquisition unit 230 (S22). Next, the search time difference calculation unit 250 calculates a search time difference for each query based on the query information acquired by the query information acquisition unit 230 (S23).

その後、前述の図7に示されるように、表示情報生成部280は、重複度スコア算出部240によって算出された重複度スコアと、検索時間差算出部250によって算出された検索時間差とを、クエリごとに関連付けて表示するための表示情報を生成する。表示部220は、表示情報生成部280によって生成された表示情報を表示する(S24)。また、表示部220は、クエリ分析ウィンドウWにヒートマップ表示ボタン226を表示する。   Thereafter, as shown in FIG. 7 described above, the display information generation unit 280 calculates the redundancy score calculated by the redundancy score calculation unit 240 and the search time difference calculated by the search time difference calculation unit 250 for each query. Display information to be displayed in association with. The display unit 220 displays the display information generated by the display information generation unit 280 (S24). Further, the display unit 220 displays a heat map display button 226 in the query analysis window W.

次に、クエリ分析装置200は、ヒートマップ表示ボタン226がクリックされたか否かを判定する(S25)。ヒートマップ表示ボタン226がクリックされたと判定された場合、ヒートマップ生成部270は、前述の図9に示されるヒートマップMを生成する(S26)。その後、表示部220は、ヒートマップ生成部270によって生成されたヒートマップMを表示し(S27)、本フローチャートによる処理を終了する。   Next, the query analysis device 200 determines whether or not the heat map display button 226 has been clicked (S25). When it is determined that the heat map display button 226 is clicked, the heat map generation unit 270 generates the heat map M shown in FIG. 9 (S26). Thereafter, the display unit 220 displays the heat map M generated by the heat map generation unit 270 (S27), and ends the processing according to this flowchart.

以上説明したように、重複度スコア算出部240は、クエリ情報に基づいて、クエリAを検索したユーザと、クエリBを検索したユーザとの重複の度合いを示す重複度スコアScore(A,B)を算出する。検索時間差算出部250は、クエリ情報に基づいて、クエリAが検索された時間と、クエリBが検索された時間との差である検索時間差D(A,B)を算出する。表示情報生成部280は、重複度スコア算出部240によって算出された重複度スコアScore(A,B)と、検索時間差算出部250によって算出された検索時間差D(A,B)とを、クエリAおよびクエリBに関連付けて表示するための情報を生成する。これによって、検索するユーザのニーズや、時間経過によるユーザのニーズの変化を、クエリを用いて分析することができる。   As described above, the multiplicity score calculation unit 240, based on the query information, the multiplicity score Score (A, B) indicating the degree of duplication between the user who searched the query A and the user who searched the query B. Is calculated. The search time difference calculation unit 250 calculates a search time difference D (A, B) that is a difference between the time when the query A is searched and the time when the query B is searched based on the query information. The display information generation unit 280 uses the redundancy score Score (A, B) calculated by the redundancy score calculation unit 240 and the search time difference D (A, B) calculated by the search time difference calculation unit 250 as the query A. And information to be displayed in association with the query B. This makes it possible to analyze the needs of users to be searched and changes in user needs over time using queries.

なお、上記実施形態によるクエリ分析装置200は、内部にコンピュータシステムを有している。そして、上述したクエリ分析装置200の各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって上記各種処理が行われる。ここで、コンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。   Note that the query analysis apparatus 200 according to the above embodiment has a computer system therein. Each process of the query analysis apparatus 200 described above is stored in a computer-readable recording medium in the form of a program, and the above-described various processes are performed by the computer reading and executing the program. Here, the computer-readable recording medium refers to a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, and the like. Alternatively, the computer program may be distributed to the computer via a communication line, and the computer that has received the distribution may execute the program.

また、クエリ分析装置200は、表示部220および表示情報生成部280の両方を備えることとしたが、これに限られない。例えば、クエリ分析装置200をクラウドサービスとして提供する場合、表示部220を省略することができる。この場合、表示情報生成部280は、分析結果を表示するための表示情報を生成し、生成した表示情報を外部からの要求に応じて送信してもよい。   The query analysis device 200 includes both the display unit 220 and the display information generation unit 280, but is not limited thereto. For example, when the query analysis device 200 is provided as a cloud service, the display unit 220 can be omitted. In this case, the display information generation unit 280 may generate display information for displaying the analysis result, and transmit the generated display information in response to a request from the outside.

また、検索時間差算出部250は、検索時間の中央値を導出し、導出した中央値を用いて検索時間差を算出することとしたが、これに限られない。例えば、検索時間差算出部250は、検索時間の平均値を算出し、算出した平均値を用いて検索時間差を算出してもよい。   Further, although the search time difference calculation unit 250 derives the median value of the search time and calculates the search time difference using the derived median value, the present invention is not limited to this. For example, the search time difference calculation unit 250 may calculate an average value of search times and calculate a search time difference using the calculated average value.

また、ヒートマップ生成部270は、クラスタリング部260によってグループ化されたクラスタごとに、検索時間差と検索数とが関連づけられたヒートマップを生成するとしたが、これに限られない。例えば、ヒートマップ生成部270は、クエリごとに、検索時間差と検索数とが関連づけられたヒートマップを生成してもよい。これによって、分析者は、クエリごとのヒートマップMを確認することができる。   Moreover, although the heat map production | generation part 270 produced | generated the heat map with which the search time difference and the number of searches were linked | related for every cluster grouped by the clustering part 260, it is not restricted to this. For example, the heat map generation unit 270 may generate a heat map in which a search time difference and the number of searches are associated with each query. Thus, the analyst can check the heat map M for each query.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。   As mentioned above, although the form for implementing this invention was demonstrated using embodiment, this invention is not limited to such embodiment at all, In the range which does not deviate from the summary of this invention, various deformation | transformation and substitution Can be added.

10…クエリ分析システム
100…ウェブサーバ
110…制御部
120…記憶部
200…クエリ分析装置
210…入力部
220…表示部
230…クエリ情報取得部
240…重複度スコア算出部
250…検索時間差算出部
260…クラスタリング部
270…ヒートマップ生成部
280…表示情報生成部
290…記憶部
300…ユーザ端末
310…制御部
320…入力部
330…表示部
DESCRIPTION OF SYMBOLS 10 ... Query analysis system 100 ... Web server 110 ... Control part 120 ... Memory | storage part 200 ... Query analysis apparatus 210 ... Input part 220 ... Display part 230 ... Query information acquisition part 240 ... Duplication degree score calculation part 250 ... Search time difference calculation part 260 ... clustering part 270 ... heat map generation part 280 ... display information generation part 290 ... storage part 300 ... user terminal 310 ... control part 320 ... input part 330 ... display part

Claims (10)

検索されたクエリと、前記クエリが検索された時間とがユーザごとに関連付けられたクエリ情報を取得するクエリ情報取得部と、
前記クエリ情報取得部によって取得された前記クエリ情報に基づいて、第1のクエリを検索したユーザと、第2のクエリを検索したユーザとの重複の度合いを示す重複度スコアを算出する重複度スコア算出部と、
前記クエリ情報取得部によって取得された前記クエリ情報に基づいて、前記第1のクエリが検索された時間と、前記第2のクエリが検索された時間との差である検索時間差を算出する検索時間差算出部と、
前記重複度スコア算出部によって算出された前記重複度スコアと、前記検索時間差算出部によって算出された前記検索時間差とを、前記第1のクエリおよび前記第2のクエリに関連付けて表示するための情報を生成する表示情報生成部と、
を備えるクエリ分析装置。
A query information acquisition unit that acquires query information in which a searched query and a time when the query is searched are associated for each user;
Based on the query information acquired by the query information acquisition unit, a redundancy score for calculating a redundancy score indicating a degree of overlap between a user who has searched for the first query and a user who has searched for the second query A calculation unit;
Based on the query information acquired by the query information acquisition unit, a search time difference that calculates a search time difference that is a difference between a time when the first query is searched and a time when the second query is searched A calculation unit;
Information for displaying the redundancy score calculated by the redundancy score calculation unit and the search time difference calculated by the search time difference calculation unit in association with the first query and the second query A display information generation unit for generating
A query analysis apparatus comprising:
前記重複度スコア算出部は、前記第1のクエリおよび前記第2のクエリの両方を検索したユーザの数を前記第1のクエリを検索したユーザの数で除算した値と、前記第2のクエリを検索したユーザの数を全ユーザの数で除算した値とに基づいて、前記重複度スコアを算出する
請求項1記載のクエリ分析装置。
The multiplicity score calculation unit includes a value obtained by dividing the number of users who have searched both the first query and the second query by the number of users who have searched the first query, and the second query. The query analysis device according to claim 1, wherein the redundancy score is calculated based on a value obtained by dividing the number of users who have searched for the number of users by the number of all users.
前記検索時間差算出部は、前記第1のクエリが検索された時間の中央値と、前記第2のクエリが検索された時間の中央値との差分を、前記検索時間差として算出する
請求項1または2記載のクエリ分析装置。
The search time difference calculation unit calculates, as the search time difference, a difference between a median time when the first query is searched and a median time when the second query is searched. 2. The query analysis device according to 2.
前記重複度スコアの閾値の入力を受け付ける入力部を更に備え、
前記検索時間差算出部は、前記重複度スコア算出部によって算出された前記第1のクエリに対する前記重複度スコアが前記閾値未満の第2のクエリに対しては、前記検索時間差を算出しない
請求項1から3の何れか1項に記載のクエリ分析装置。
An input unit for receiving an input of a threshold value of the multiplicity score;
The search time difference calculation unit does not calculate the search time difference for a second query in which the redundancy score for the first query calculated by the redundancy score calculation unit is less than the threshold. 4. The query analysis device according to any one of items 1 to 3.
前記検索時間差算出部によって算出された前記検索時間差と、前記検索時間差に対応する検索数とが関連づけられた一覧情報を生成する一覧情報生成部を更に備える
請求項1から4の何れか1項に記載のクエリ分析装置。
The list information generation part which produces | generates the list information with which the said search time difference calculated by the said search time difference calculation part and the number of searches corresponding to the said search time difference were linked | related is provided. The query analysis device described.
複数のクエリをグループ化してクラスタを生成するクラスタリング部を更に備え、
前記一覧情報生成部は、前記クラスタリング部によってグループ化された前記クラスタごとに、前記検索時間差と前記検索数とが関連づけられた一覧情報を生成する
請求項5記載のクエリ分析装置。
A clustering unit for grouping a plurality of queries to generate a cluster;
The query analysis device according to claim 5, wherein the list information generation unit generates list information in which the search time difference and the number of searches are associated with each cluster grouped by the clustering unit.
前記一覧情報生成部は、前記クエリごとに、前記検索時間差と前記検索数とが関連づけられた一覧情報を生成する
請求項5記載のクエリ分析装置。
The query analysis device according to claim 5, wherein the list information generation unit generates list information in which the search time difference and the number of searches are associated with each query.
前記一覧情報生成部は、第1の軸において前記検索時間差の分布を表現し、第2の軸において前記検索時間差ごとに検索数を正規化した値を表現した前記一覧情報を生成する
請求項5から7の何れか1項に記載のクエリ分析装置。
The list information generation unit generates the list information that expresses a distribution of the search time difference on a first axis and expresses a value obtained by normalizing the number of searches for each search time difference on a second axis. The query analysis device according to any one of 1 to 7.
検索されたクエリと、前記クエリが検索された時間とがユーザごとに関連付けられたクエリ情報を取得するクエリ情報取得工程と、
前記クエリ情報取得工程で取得された前記クエリ情報に基づいて、第1のクエリを検索したユーザと、第2のクエリを検索したユーザとの重複の度合いを示す重複度スコアを算出する重複度スコア算出工程と、
前記クエリ情報取得工程で取得された前記クエリ情報に基づいて、前記第1のクエリが検索された時間と、前記第2のクエリが検索された時間との差である検索時間差を算出する検索時間差算出工程と、
前記重複度スコア算出工程で算出された前記重複度スコアと、前記検索時間差算出工程で算出された前記検索時間差とを、前記第1のクエリおよび前記第2のクエリに関連付けて表示するための情報を生成する表示情報生成工程と、
を備えるクエリ分析方法。
A query information acquisition step of acquiring query information in which a searched query and a time when the query is searched are associated for each user;
Based on the query information acquired in the query information acquisition step, a redundancy score for calculating a redundancy score indicating a degree of overlap between the user who has searched for the first query and the user who has searched for the second query A calculation process;
Based on the query information acquired in the query information acquisition step, a search time difference for calculating a search time difference that is a difference between a time when the first query is searched and a time when the second query is searched A calculation process;
Information for displaying the redundancy score calculated in the redundancy score calculation step and the search time difference calculated in the search time difference calculation step in association with the first query and the second query A display information generation step for generating
A query analysis method comprising:
コンピュータに
検索されたクエリと、前記クエリが検索された時間とがユーザごとに関連付けられたクエリ情報を取得させ、
取得された前記クエリ情報に基づいて、第1のクエリを検索したユーザと、第2のクエリを検索したユーザとの重複の度合いを示す重複度スコアを算出させ、
取得された前記クエリ情報に基づいて、前記第1のクエリが検索された時間と、前記第2のクエリが検索された時間との差である検索時間差を算出させ、
算出された前記重複度スコアと、算出された前記検索時間差とを、前記第1のクエリおよび前記第2のクエリに関連付けて表示するための情報を生成させる、
プログラム。
Query information obtained by associating each query with a query searched by a computer and a time when the query was searched,
Based on the acquired query information, a redundancy score indicating a degree of overlap between the user who searched the first query and the user who searched the second query is calculated,
Based on the acquired query information, a search time difference that is a difference between a time when the first query is searched and a time when the second query is searched is calculated,
Generating information for displaying the calculated redundancy score and the calculated search time difference in association with the first query and the second query,
program.
JP2016124367A 2016-06-23 2016-06-23 Query analyzer, query analysis method, and program Active JP6779047B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016124367A JP6779047B2 (en) 2016-06-23 2016-06-23 Query analyzer, query analysis method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016124367A JP6779047B2 (en) 2016-06-23 2016-06-23 Query analyzer, query analysis method, and program

Publications (2)

Publication Number Publication Date
JP2017228114A true JP2017228114A (en) 2017-12-28
JP6779047B2 JP6779047B2 (en) 2020-11-04

Family

ID=60891704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016124367A Active JP6779047B2 (en) 2016-06-23 2016-06-23 Query analyzer, query analysis method, and program

Country Status (1)

Country Link
JP (1) JP6779047B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020046990A (en) * 2018-09-19 2020-03-26 Zホールディングス株式会社 Generation apparatus, generation method, and generation program
JP2021149551A (en) * 2020-03-19 2021-09-27 ヤフー株式会社 Information processor, information processing method, and information processing program
JP7088795B2 (en) 2018-09-19 2022-06-21 ヤフー株式会社 Information processing equipment, information processing methods, and programs

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079454A (en) * 2004-09-10 2006-03-23 Fujitsu Ltd Search keyword analysis method, search keyword analysis program and search keyword analysis apparatus
JP2013030113A (en) * 2011-07-29 2013-02-07 Rakuten Inc Information processor, information processing method, information processing program, and recording medium having information processing program recorded therein

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079454A (en) * 2004-09-10 2006-03-23 Fujitsu Ltd Search keyword analysis method, search keyword analysis program and search keyword analysis apparatus
JP2013030113A (en) * 2011-07-29 2013-02-07 Rakuten Inc Information processor, information processing method, information processing program, and recording medium having information processing program recorded therein

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020046990A (en) * 2018-09-19 2020-03-26 Zホールディングス株式会社 Generation apparatus, generation method, and generation program
JP7088795B2 (en) 2018-09-19 2022-06-21 ヤフー株式会社 Information processing equipment, information processing methods, and programs
JP2021149551A (en) * 2020-03-19 2021-09-27 ヤフー株式会社 Information processor, information processing method, and information processing program

Also Published As

Publication number Publication date
JP6779047B2 (en) 2020-11-04

Similar Documents

Publication Publication Date Title
US11797595B2 (en) Method, apparatus, and computer program product for user-specific contextual integration for a searchable enterprise platform
WO2020182122A1 (en) Text matching model generation method and device
US20090083261A1 (en) Information display apparatus, information display method, and computer program product
US20170300862A1 (en) Machine learning algorithm for classifying companies into industries
JP6415619B2 (en) Analysis device, analysis method, and program
US10157348B2 (en) Related data generating apparatus, related data generating method, and program
JP6506489B1 (en) Patent evaluation judgment method, patent evaluation judgment device, and patent evaluation judgment program
WO2016014124A1 (en) Determining suggested facets
JP6728178B2 (en) Method and apparatus for processing search data
CN106462613A (en) Ranking suggestions based on user attributes
EP3782048A1 (en) Action indicators for search operation output elements
WO2023273598A1 (en) Text search method and apparatus, and readable medium and electronic device
JP6779047B2 (en) Query analyzer, query analysis method, and program
JP6714268B1 (en) Question sentence output method, computer program, and information processing apparatus
US9336330B2 (en) Associating entities based on resource associations
JP6479239B1 (en) Information processing apparatus, information processing system, information processing method, and program
JP6680663B2 (en) Information processing apparatus, information processing method, prediction model generation apparatus, prediction model generation method, and program
JP5490082B2 (en) Internet site information analysis method and apparatus
JP2015121858A (en) Data processing device and data processing method
Rajkumar et al. Dynamic web page segmentation based on detecting reappearance and layout of tag patterns for small screen devices
JP2013200862A (en) Method and device for diversifying query results
JP2018072873A (en) Information processing apparatus, information processing method, and program
JP2013238939A (en) Recommended retrieval word presentation system
JP6246271B1 (en) Attribute evaluation apparatus, sales system, attribute evaluation method, and attribute evaluation program
JP2020035072A (en) Device, method, and program for processing information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201013

R150 Certificate of patent or registration of utility model

Ref document number: 6779047

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350