JP2017228114A - Query analysis device, query analysis method and program - Google Patents
Query analysis device, query analysis method and program Download PDFInfo
- Publication number
- JP2017228114A JP2017228114A JP2016124367A JP2016124367A JP2017228114A JP 2017228114 A JP2017228114 A JP 2017228114A JP 2016124367 A JP2016124367 A JP 2016124367A JP 2016124367 A JP2016124367 A JP 2016124367A JP 2017228114 A JP2017228114 A JP 2017228114A
- Authority
- JP
- Japan
- Prior art keywords
- query
- searched
- time difference
- search time
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 95
- 238000004364 calculation method Methods 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 23
- 238000009826 distribution Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 abstract description 2
- 238000003860 storage Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 11
- 206010011224 Cough Diseases 0.000 description 2
- 206010068319 Oropharyngeal pain Diseases 0.000 description 2
- 206010035664 Pneumonia Diseases 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 201000007100 Pharyngitis Diseases 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000023409 throat pain Diseases 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、クエリ分析装置、クエリ分析方法、およびプログラムに関する。 The present invention relates to a query analysis device, a query analysis method, and a program.
従来、検索サイトに入力されたクエリに基づき、シソーラス辞書を作成する技術が用いられてきた。具体的には、検索時刻の間隔が所定時間以内の検索ワードから、検索時刻が先の検索ワードと検索時刻が後の検索ワードとをペアにしたペア検索ワードを生成し、生成したペア検索ワードを用いてシソーラス辞書を生成する技術が知られている(特許文献1参照)。 Conventionally, a technique for creating a thesaurus dictionary based on a query input to a search site has been used. Specifically, a pair search word is generated by pairing a search word with a search time earlier and a search word with a later search time from a search word having a search time interval within a predetermined time. There is known a technique for generating a thesaurus dictionary by using (see Patent Document 1).
しかしながら、特許文献1に開示された技術は、生成したシソーラス辞書を用いて検索ワードの変換処理を行うことができるものの、検索するユーザのニーズや、時間経過によるユーザのニーズの変化を、検索サイトに入力されたクエリを用いて分析することができなかった。
However, although the technique disclosed in
本発明は、このような事情を考慮してなされたものであり、検索するユーザのニーズや、時間経過によるユーザのニーズの変化を、クエリを用いて分析することができるクエリ分析装置、クエリ分析方法、およびプログラムを提供することを目的の一つとする。 The present invention has been made in view of such circumstances, and a query analysis apparatus and query analysis that can analyze a user's needs to be searched and changes in the user's needs over time using a query. An object is to provide a method and a program.
本発明の一態様は、検索されたクエリと、前記クエリが検索された時間とがユーザごとに関連付けられたクエリ情報を取得するクエリ情報取得部と、前記クエリ情報取得部によって取得された前記クエリ情報に基づいて、第1のクエリを検索したユーザと、第2のクエリを検索したユーザとの重複の度合いを示す重複度スコアを算出する重複度スコア算出部と、前記クエリ情報取得部によって取得された前記クエリ情報に基づいて、前記第1のクエリが検索された時間と、前記第2のクエリが検索された時間との差である検索時間差を算出する検索時間差算出部と、前記重複度スコア算出部によって算出された前記重複度スコアと、前記検索時間差算出部によって算出された前記検索時間差とを、前記第1のクエリおよび前記第2のクエリに関連付けて表示するための情報を生成する表示情報生成部と、を備えるクエリ分析装置である。 One aspect of the present invention is a query information acquisition unit that acquires query information in which a searched query and a time when the query is searched are associated for each user, and the query acquired by the query information acquisition unit. Based on the information, acquired by the query information acquisition unit, the redundancy score calculation unit that calculates the redundancy score indicating the degree of overlap between the user who searched the first query and the user who searched the second query A search time difference calculating unit that calculates a search time difference that is a difference between a time when the first query is searched and a time when the second query is searched based on the query information that has been searched; The redundancy score calculated by the score calculation unit and the search time difference calculated by the search time difference calculation unit in the first query and the second query. A display information generator for generating information for display with continuous, a query analyzing device comprising a.
本発明の一態様によれば、検索するユーザのニーズや、時間経過によるユーザのニーズの変化を、クエリを用いて分析することができる。 According to one embodiment of the present invention, it is possible to analyze a user's needs to be searched and changes in the user's needs over time using a query.
以下、図面を参照して、クエリ分析装置、クエリ分析方法、およびプログラムの実施形態について説明する。クエリ分析装置は、ネットワークなどを介して行われた検索の履歴を取得し、第1のクエリに対して相関の高い一以上の第2のクエリを抽出し、第1のクエリと第2のクエリとの関係を可視化する装置である。クエリ分析装置は、コンピュータにツール(プログラム)がインストールされることで実現されてもよいし、クラウドサービスによって分析結果を提供する装置であってもよい。クエリ分析装置によって、検索するユーザのニーズや、時間経過によるユーザのニーズの変化を分析することができる。 Hereinafter, embodiments of a query analysis device, a query analysis method, and a program will be described with reference to the drawings. The query analysis device acquires a history of searches performed via a network or the like, extracts one or more second queries having a high correlation with the first query, and extracts the first query and the second query. It is a device that visualizes the relationship. The query analysis apparatus may be realized by installing a tool (program) in a computer, or may be an apparatus that provides an analysis result by a cloud service. The query analysis device can analyze the needs of users to be searched and the changes in user needs over time.
<1.クエリ分析システムの構成>
図1は、実施形態に係るクエリ分析システム10の構成を示す図である。実施形態のクエリ分析システム10は、ウェブサーバ100と、クエリ分析装置200と、ユーザ端末300とを備える。
<1. Configuration of query analysis system>
FIG. 1 is a diagram illustrating a configuration of a
ウェブサーバ100、クエリ分析装置200、およびユーザ端末300は、ネットワークNWに接続される。ネットワークNWは、例えば、WAN(Wide Area Network)、LAN(Local Area Network)、インターネット、プロバイダ装置、無線基地局、専用回線などのうち一部または全部を含む。
ウェブサーバ100は、制御部110と、記憶部120とを備える。制御部110は、例えば、ウェブサーバ100のプロセッサがプログラムを実行することで実現されてもよいし、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)などのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。
The
記憶部120は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部120の一部または全部は、NAS(Network Attached Storage)や外部のストレージサーバなど、ウェブサーバ100がアクセス可能な外部装置であってもよい。
The
クエリ分析装置200は、クエリを分析する分析者によって使用される装置であり、ノート型のコンピュータまたはデスクトップ型のコンピュータであるが、これに限られない。例えば、クエリ分析装置200は、スマートフォンなどの携帯電話、タブレット端末、またはPDA(Personal Digital Assistant)であってもよい。
The
クエリ分析装置200は、入力部210と、表示部220と、クエリ情報取得部230と、重複度スコア算出部240と、検索時間差算出部250と、クラスタリング部260と、ヒートマップ生成部270と、表示情報生成部280と、記憶部290とを備える。入力部210は、キーボードやマウスなどの入力装置である。クエリ分析装置200がスマートフォンなどの携帯電話またはタブレット端末である場合には、入力部210はタッチパネルなどの入力装置であってもよい。表示部220は、液晶表示装置などの表示装置である。
The
クエリ情報取得部230、重複度スコア算出部240、検索時間差算出部250、クラスタリング部260、ヒートマップ生成部270、および表示情報生成部280は、例えば、クエリ分析装置200のプロセッサがプログラムを実行することで実現されてもよいし、LSI、ASIC、FPGAなどのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。
The query
記憶部290は、例えば、RAM、ROM、HDD、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部290の一部または全部は、NASや外部のストレージサーバなど、クエリ分析装置200がアクセス可能な外部装置であってもよい。
The
ユーザ端末300は、ユーザによって使用される端末であり、スマートフォンなどの携帯電話やタブレット端末であるが、これに限られない。例えば、ユーザ端末300は、ノート型のコンピュータ、デスクトップ型のコンピュータ、またはPDAであってもよい。
The
ユーザ端末300は、制御部310と、入力部320と、表示部330とを備える。制御部310は、例えば、ユーザ端末300のプロセッサがプログラムを実行することで実現されてもよいし、LSI、ASIC、FPGAなどのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。
The
入力部320は、タッチパネルなどの入力装置である。ユーザ端末300がノート型のコンピュータまたはデスクトップ型のコンピュータである場合には、入力部320はキーボードやマウスなどの入力装置であってもよい。表示部330は、液晶表示装置などの表示装置である。
The
<2.ウェブページの検索処理>
図2は、実施形態に係るウェブページの検索処理を示すシーケンス図である。まず、ユーザは、ユーザ端末300の入力部320を用いて、検索ページを表示部330に表示させるための指示を入力する。検索ページとは、ウェブサーバ100の運営者によって提供される検索サイトのページである。ユーザ端末300の制御部310は、入力された指示に基づき、HTTP(Hypertext Transfer Protocol)リクエストをウェブサーバ100に送信する(S10)。
<2. Web page search processing>
FIG. 2 is a sequence diagram illustrating web page search processing according to the embodiment. First, the user uses the
ウェブサーバ100の制御部110は、ユーザ端末300からHTTPリクエストを受信すると、予め記憶部120に記憶された検索ページ生成情報を読み出す(S11)。次に、ウェブサーバ100の制御部110は、読み出した検索ページ生成情報をユーザ端末300に送信する(S12)。検索ページ生成情報は、例えば、HTML(HyperText Markup Language)等が記述されたテキストデータや、スタイルシート、画像データ、動画データ、音声データである。
When receiving the HTTP request from the
ユーザ端末300の制御部310は、ウェブサーバ100から検索ページ生成情報を受信すると、受信した検索ページ生成情報を用いて、表示部330に検索ページを表示させる(S13)。ユーザは、ユーザ端末300の入力部320を用いて、表示部330に表示された検索ページにクエリを入力する。クエリとは、検索ページに入力された一つの検索ワードまたは複数の検索ワードの組み合わせである。
When receiving the search page generation information from the
ユーザ端末300の制御部310は、ユーザによって入力されたクエリに基づいて、クエリ情報を生成する。クエリ情報には、ユーザによって入力されたクエリの他、ユーザの識別情報および検索日時等が含まれる。制御部310は、生成したクエリ情報をウェブサーバ100に送信する(S14)。
The
ウェブサーバ100の制御部110は、ユーザ端末300からクエリ情報を受信すると、受信したクエリ情報を記憶部120に記憶する(S15)。具体的に、制御部110は、ユーザ端末300から受信したクエリ情報に含まれるユーザの識別情報に基づき、ユーザごとにクエリ情報を分類して記憶部120に記憶する。
When receiving the query information from the
次に、制御部110は、受信したクエリ情報に含まれるクエリに基づいて検索処理を行う(S16)。制御部110は、検索処理において、クエリによって示される検索ワードが含まれるページの一覧を、検索結果として生成する。その後、制御部110は、生成した検索結果をユーザ端末300に送信する(S17)。
Next, the
ユーザ端末300の制御部310は、ウェブサーバ100から検索結果を受信すると、受信した検索結果を表示部330に表示させる(S18)。このように、ユーザによって入力されたクエリに基づく検索処理が行われる。
When receiving the search result from the
なお、本実施形態においては、説明の簡略化のためにウェブサーバ100に検索機能を持たせることとしたが、これに限られない。例えば、クエリ分析システム10は、ウェブサーバと検索サーバとを別々に備えてもよい。
In the present embodiment, the
<3.重複度スコアの算出処理>
次に、重複度スコアの算出処理について説明する。重複度スコアは、あるクエリを検索したユーザと、他のクエリを検索したユーザとの重複の度合いを示す値であり、クエリ分析の指標として用いられる。クエリ分析装置200の重複度スコア算出部240は、クエリ情報に用いて重複度スコアを算出する。
<3. Duplication score calculation processing>
Next, the calculation process of the redundancy score will be described. The duplication degree score is a value indicating the degree of duplication between a user who searches for a certain query and a user who searches for another query, and is used as an index for query analysis. The multiplicity
図3は、実施形態に係る記憶部120に記憶されたクエリ情報の一例を示す図である。図3に示されるように、記憶部120には、ユーザごとに分類されたクエリ情報Q1からQn(n:ユーザの総数)が格納されている。例えば、クエリ情報Q1はユーザ1のクエリ情報であり、クエリ情報Q2はユーザ2のクエリ情報であり、・・・、クエリ情報Qn
はユーザnのクエリ情報である。クエリ情報Q1からQnのそれぞれにおいて、ユーザによって入力されたクエリおよび検索日時が関連付けられている。
FIG. 3 is a diagram illustrating an example of query information stored in the
Is the query information of user n. In each of the query information Q1 to Qn, the query input by the user and the search date and time are associated.
図4は、実施形態に係る重複度スコアの算出処理を説明するための図である。図4において、ALLuserは全ユーザ数を示し、AuserはクエリAを入力したユーザ数を示し、BuserはクエリBを入力したユーザ数を示す。ここで、ALLuser、Auser、およびBuserはユーザ数であることとしたが、検索回数であってもよい。ALLuser、Auser、およびBuserのそれぞれの値は、クエリ情報に基づいて算出される。 FIG. 4 is a diagram for explaining the calculation process of the redundancy score according to the embodiment. In FIG. 4, ALLuser indicates the total number of users, Auser indicates the number of users who input the query A, and Buser indicates the number of users who input the query B. Here, ALLuser, Auser, and Buser are the number of users, but may be the number of searches. The values of ALLuser, Auser, and Buser are calculated based on the query information.
クエリ分析装置200のクエリ情報取得部230は、ウェブサーバ100にクエリ情報要求を送信する。ウェブサーバ100の制御部110は、クエリ情報取得部230からクエリ情報要求を受信すると、記憶部120からクエリ情報Q1からQn(図3)を読み出す。その後、制御部110は、読み出したクエリ情報Q1からQnをクエリ分析装置200に送信する。
The query
クエリ情報取得部230は、ウェブサーバ100の制御部110から送信されたクエリ情報Q1からQnを取得する。また、クエリ情報取得部230は、取得したクエリ情報Q1からQnを記憶部290に記憶する。重複度スコア算出部240は、記憶部290からクエリ情報Q1からQnを読み出し、読み出したクエリ情報Q1からQnに基づき、全ユーザ数ALLuserと、クエリAのユーザ数Auserと、クエリBのユーザ数Buserとを算出する。
The query
また、重複度スコア算出部240は、以下の式(1)に基づき、クエリAに対するクエリBの重複度スコアScore(A,B)を算出する。すなわち、重複度スコア算出部240は、クエリAおよびクエリBの両方を検索したユーザの数(Auser∩Buser)をクエリAを検索したユーザの数(Auser)で除算した値と、クエリBを検索したユーザの数(Buser)を全ユーザの数(ALLuser)で除算した値とに基づいて、重複度スコアScore(A,B)を算出する。
Further, the redundancy
重複度スコアScore(A,B)は、クエリAを検索したユーザと、クエリBを検索したユーザとの重複の度合いを示す値である。重複度スコアScore(A,B)が大きいほど、クエリAとクエリBの関連性が高いといえる。逆に、重複度スコアScore(A,B)が小さいほど、クエリAとクエリBの関連性が低いといえる。 The redundancy score Score (A, B) is a value indicating the degree of overlap between the user who searched the query A and the user who searched the query B. It can be said that the greater the redundancy score Score (A, B), the higher the relevance between query A and query B. Conversely, it can be said that the smaller the multiplicity score Score (A, B), the lower the relevance between the query A and the query B.
例えば、車種1は軽自動車であり、車種2は軽自動車であり、車種3はスポーツカーであるとする。この場合において、クエリAが「車種1」であり、クエリBが「車種2」である場合、重複度スコアScore(A,B)は大きな値であった。一方、クエリAが「車種1」であり、クエリBが「車種3」である場合、重複度スコアScore(A,B)は小さな値であった。これは、軽自動車同士の関連性は高く、軽自動車とスポーツカーとの関連性は低いためである。このように、重複度スコアScore(A,B)を用いることで、例えば、競合製品の抽出や製品のニーズを分析することができる。
For example, it is assumed that the
<4.検索時間差の算出処理>
次に、検索時間差の算出処理について説明する。検索時間差は、あるクエリが検索された時間と、他のクエリが検索された時間との差を示す値であり、クエリ分析の指標として用いられる。クエリ分析装置200の検索時間差算出部250は、クエリ情報に用いて検索時間差を算出する。
<4. Search time difference calculation processing>
Next, search time difference calculation processing will be described. The search time difference is a value indicating the difference between the time when a certain query is searched and the time when another query is searched, and is used as an index for query analysis. The search time
図5は、実施形態に係る検索時間差の算出処理を説明するための図である。図5において、横軸は検索が行われた時間を示し、縦軸はクエリを入力したユーザ数を示す。クエリ分布QAはクエリAのユーザ数の分布を示し、クエリ分布QBはクエリBのユーザ数の分布を示す。時間T1はクエリ分布QAの検索時間の中央値を示し、時間T2はクエリ分布QBの検索時間の中央値を示す。 FIG. 5 is a diagram for explaining search time difference calculation processing according to the embodiment. In FIG. 5, the horizontal axis indicates the time when the search is performed, and the vertical axis indicates the number of users who input the query. The query distribution QA indicates the distribution of the number of users of the query A, and the query distribution QB indicates the distribution of the number of users of the query B. Time T1 indicates the median search time of the query distribution QA, and time T2 indicates the median search time of the query distribution QB.
検索時間差算出部250は、クエリ情報取得部230によって取得されたクエリ情報Q1からQnに基づき、時間T1および時間T2を導出する。具体的には、検索時間差算出部250は、クエリ情報Q1からQnに基づいてクエリAの検索日時を集計し、集計した検索日時の中央値を時間T1として導出する。また、検索時間差算出部250は、クエリ情報Q1からQnに基づいてクエリBの検索日時を集計し、集計した検索日時の中央値を時間T2として導出する。
The search time
さらに、検索時間差算出部250は、導出した時間T2から時間T1を減算することによって、クエリ分布QAとクエリ分布QBとの間の検索時間差D(A,B)を算出する。検索時間差D(A,B)がプラスの値の場合、クエリAの検索よりも後にクエリBの検索が行われた頻度が高いといえる。検索時間差D(A,B)がマイナスの値の場合、クエリAの検索よりも前にクエリBの検索が行われた頻度が高いといえる。また、検索時間差D(A,B)が0に近いほど、クエリAの検索が行われた時期と同時期にクエリBの検索が行われた頻度が高いといえる。
Further, the search time
例えば、クエリAが「咳止め薬」であり、クエリBが「喉の痛み」である場合、検索時間差はマイナスの値であった。これは、喉の痛みは初期症状であるためである。一方、クエリAが「咳止め薬」であり、クエリBが「肺炎」である場合、検索時間差はプラスの値であった。これは、肺炎は症状が進行した状態であるためである。このように、検索時間差を用いることで、例えば、時間経過によるユーザのニーズの変化を把握することができる。 For example, when query A is “cough medicine” and query B is “throat pain”, the search time difference is a negative value. This is because sore throat is an early symptom. On the other hand, when query A is “cough medicine” and query B is “pneumonia”, the search time difference is a positive value. This is because pneumonia is a state in which symptoms have progressed. In this way, by using the search time difference, for example, it is possible to grasp a change in the user's needs over time.
<5.クエリ分析ウィンドウ>
図6は、実施形態に係る分析開始前のクエリ分析ウィンドウWの一例を示す図である。クエリ分析装置200の表示情報生成部280は、クエリ分析ウィンドウWの表示情報を生成する。表示部220は、表示情報生成部280によって生成された表示情報に従って、クエリ分析ウィンドウWを表示する。図6に示されるように、クエリ分析ウィンドウWには、クエリ選択領域221と、データソース選択領域222と、閾値入力領域223と、開始ボタン224と、結果表示領域225とが表示されている。
<5. Query analysis window>
FIG. 6 is a diagram illustrating an example of the query analysis window W before the analysis start according to the embodiment. The display
クエリ選択領域221は、クエリ分析装置200を使用する分析者が、分析対象のクエリを選択するための領域である。データソース選択領域222は、分析者がクエリ情報のデータソースを選択するための領域である。図6に示される例においては、分析対象のクエリとしてクエリAが選択され、データソースとして2015年1月1日から2015年12月31日のデータソースが選択されている。
The
閾値入力領域223は、重複度スコアの閾値の入力を受け付ける入力部として機能する。開始ボタン224は、分析者が分析開始を指示するためのボタンである。結果表示領域225は、分析結果が表示される領域である。結果表示領域225には、分析結果として、クエリと、ユーザ数と、重複度スコアと、検索時間差とが表示される。
The threshold
検索時間差算出部250は、重複度スコア算出部240によって算出されたクエリAに対する重複度スコアが閾値入力領域223に入力された閾値未満のクエリに対しては、検索時間差を算出しない。図6に示される例においては、閾値として4が入力されている。このため、重複度スコアが4未満のクエリに対しては検索時間差が算出されないこととなり、結果表示領域225から分析結果が省かれることとなる。
The search time
分析者が、クエリ分析装置200の入力部210を用いて開始ボタン224をクリックすると、クエリ分析処理が開始される。クエリ分析処理において、重複度スコア算出部240は重複度スコアを算出し、検索時間差算出部250は検索時間差を算出する。算出された重複度スコアおよび検索時間差は、結果表示領域225に表示される。
When the analyst clicks the start button 224 using the
図7は、実施形態に係る分析終了後のクエリ分析ウィンドウWの一例を示す図である。クエリ分析処理において、重複度スコア算出部240は、クエリ情報取得部230によって取得されたクエリ情報のうち、データソース選択領域222に示されるデータソースを用いて重複度スコアを算出する。具体的には、重複度スコア算出部240は、前述の式(1)に基づいて、クエリ選択領域221に示されるクエリに対する、他のクエリの重複度スコアを算出する。
FIG. 7 is a diagram illustrating an example of the query analysis window W after the analysis according to the embodiment. In the query analysis process, the multiplicity
ただし、重複度スコア算出部240は、算出した重複度スコアが閾値入力領域223に入力された閾値未満である場合、重複度スコアが閾値未満であるクエリについての分析結果を結果表示領域225から除外する。これによって、分析対象のクエリと関連性の低いクエリの分析結果を除外することができ、クエリ分析の精度を向上させることができる。
However, if the calculated redundancy score is less than the threshold value input to the threshold
クエリ分析処理において、検索時間差算出部250は、クエリ情報取得部230によって取得されたクエリ情報のうち、データソース選択領域222に示されるデータソースを用いて、検索時間差を算出する。具体的には、検索時間差算出部250は、クエリ選択領域221に示されるクエリと他のクエリとの間の検索時間差を算出する。
In the query analysis process, the search time
図7に示されるように、結果表示領域225には、重複度スコア算出部240によって算出された重複度スコアと、検索時間差算出部250によって算出された検索時間差とが、クエリごとに関連付けられて表示される。これによって、分析者は、各クエリについての重複度スコアと検索時間差とを容易に把握することができる。
As shown in FIG. 7, in the
なお、図7において、表示部220は、ユーザ数、重複度スコア、または検索時間差について、昇順または降順に並び替えるためのボタンをクエリ分析ウィンドウW内に表示してもよい。これらの値を並び替えることで、分析者は、分析結果をより容易に把握することができる。
In FIG. 7, the
<6.ヒートマップ生成処理>
クエリ分析処理が完了すると、クエリ分析ウィンドウW内にヒートマップ表示ボタン226が表示される。分析者が、クエリ分析装置200の入力部210を用いてヒートマップ表示ボタン226をクリックすると、ヒートマップ生成部270はヒートマップ生成処理を開始する。ヒートマップ生成処理において、クエリ分析装置200のクラスタリング部260は、複数のクエリをグループ化してクラスタを生成する。
<6. Heat map generation process>
When the query analysis process is completed, a heat
図8は、実施形態に係るクラスタリング処理を説明するための図である。クラスタリング部260は、クエリ情報取得部230によって取得されたクエリ情報に基づき、類似する複数のクエリをグループ化してクラスタを生成する。図8に示される例において、クラスタリング部260は、クエリAからクエリCをグループ化してクラスタAを生成し、クエリDからクエリGをグループ化してクラスタBを生成し、クエリHからクエリKをグループ化してクラスタCを生成している。
FIG. 8 is a diagram for explaining clustering processing according to the embodiment. The
例えば、クラスタリング部260は、同一の検索ワードを所定数以上含むクエリをグループ化してクラスタを生成してもよいし、シソーラス辞書を用いて検索ワードが類似するか否かを判定し、類似する検索ワードを所定数以上含むクエリをグループ化してクラスタを生成してもよい。
For example, the
クラスタリング部260は、生成したクラスタをヒートマップ生成部270に出力する。ヒートマップ生成部270は、クエリ情報取得部230によって取得されたクエリ情報と、クラスタリング部260から入力されたクラスタとに基づいて、ヒートマップMを生成する。
The
図9は、実施形態に係るヒートマップMの一例を示す図である。ヒートマップMの横軸は検索時間差を示し、縦軸はクラスタを示す。図9に示される例において、横軸の検索時間差の単位を日(day)として示しているが、これに限られない。例えば、より細かく分析する必要があれば、横軸の検索時間差の単位を時間(hour)として示してもよい。また、より長期間の分析結果が必要とされる場合は、横軸の検索時間差の単位を月(month)として示してもよい。 FIG. 9 is a diagram illustrating an example of the heat map M according to the embodiment. The horizontal axis of the heat map M indicates a search time difference, and the vertical axis indicates a cluster. In the example shown in FIG. 9, the unit of the search time difference on the horizontal axis is shown as a day, but is not limited to this. For example, if more detailed analysis is required, the unit of the search time difference on the horizontal axis may be indicated as time. When a longer-term analysis result is required, the unit of the search time difference on the horizontal axis may be indicated as a month.
各セル内に記載された数値は、横一列の合計を1とした場合のユーザ数(検索数)の割合を示す。すなわち、ヒートマップMは、検索時間差算出部250によって算出された検索時間差と、検索時間差に対応する検索数とが、クラスタリング部260によってグループ化されたクラスタごとに関連づけられた一覧情報である。このように、ヒートマップ生成部270は、横軸において検索時間差の分布を表現し、縦軸において検索時間差ごとにユーザ数(検索数)を正規化した値を表現したヒートマップMを生成する。
The numerical value described in each cell indicates the ratio of the number of users (the number of searches) when the sum of one horizontal row is 1. That is, the heat map M is list information in which the search time difference calculated by the search time
ヒートマップ内の各セルは、ユーザ数(検索数)に応じた色でハッチングされる。図9に示される例においては、縦一列の値の合計に対する割合が高いセルほど、濃い色でハッチングされているが、これに限られない。例えば、縦一列の値の合計に対する割合が高いセルほど、薄い色でハッチングされてもよい。 Each cell in the heat map is hatched with a color corresponding to the number of users (number of searches). In the example shown in FIG. 9, cells having a higher ratio with respect to the sum of the values in one vertical column are hatched in a darker color, but are not limited thereto. For example, a cell having a higher ratio with respect to the sum of the values in one column may be hatched with a lighter color.
クエリ分析装置200の表示部220は、クエリ分析ウィンドウW内にヒートマップMを表示してもよいし、クエリ分析ウィンドウWとは別のウィンドウにヒートマップMを表示してもよい。このように、表示部220がヒートマップMを表示することによって、分析者は、各クラスタについての検索時間差と検索数とを容易に把握することができる。
The
<7.クエリ分析処理>
図10は、実施形態に係るクエリ分析処理を示すフローチャートである。本フローチャートによる処理は、クエリ分析装置200によって実行される。
<7. Query analysis processing>
FIG. 10 is a flowchart illustrating query analysis processing according to the embodiment. The processing according to this flowchart is executed by the
まず、表示部220は、前述の図6に示されるクエリ分析ウィンドウWを表示する(S20)。次に、クエリ分析装置200は、開始ボタン224がクリックされたか否かを判定する(S21)。開始ボタン224がクリックされたと判定された場合、重複度スコア算出部240は、クエリ情報取得部230によって取得されたクエリ情報に基づいて、クエリごとの重複度スコアを算出する(S22)。次に、検索時間差算出部250は、クエリ情報取得部230によって取得されたクエリ情報に基づいて、クエリごとの検索時間差を算出する(S23)。
First, the
その後、前述の図7に示されるように、表示情報生成部280は、重複度スコア算出部240によって算出された重複度スコアと、検索時間差算出部250によって算出された検索時間差とを、クエリごとに関連付けて表示するための表示情報を生成する。表示部220は、表示情報生成部280によって生成された表示情報を表示する(S24)。また、表示部220は、クエリ分析ウィンドウWにヒートマップ表示ボタン226を表示する。
Thereafter, as shown in FIG. 7 described above, the display
次に、クエリ分析装置200は、ヒートマップ表示ボタン226がクリックされたか否かを判定する(S25)。ヒートマップ表示ボタン226がクリックされたと判定された場合、ヒートマップ生成部270は、前述の図9に示されるヒートマップMを生成する(S26)。その後、表示部220は、ヒートマップ生成部270によって生成されたヒートマップMを表示し(S27)、本フローチャートによる処理を終了する。
Next, the
以上説明したように、重複度スコア算出部240は、クエリ情報に基づいて、クエリAを検索したユーザと、クエリBを検索したユーザとの重複の度合いを示す重複度スコアScore(A,B)を算出する。検索時間差算出部250は、クエリ情報に基づいて、クエリAが検索された時間と、クエリBが検索された時間との差である検索時間差D(A,B)を算出する。表示情報生成部280は、重複度スコア算出部240によって算出された重複度スコアScore(A,B)と、検索時間差算出部250によって算出された検索時間差D(A,B)とを、クエリAおよびクエリBに関連付けて表示するための情報を生成する。これによって、検索するユーザのニーズや、時間経過によるユーザのニーズの変化を、クエリを用いて分析することができる。
As described above, the multiplicity
なお、上記実施形態によるクエリ分析装置200は、内部にコンピュータシステムを有している。そして、上述したクエリ分析装置200の各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって上記各種処理が行われる。ここで、コンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。
Note that the
また、クエリ分析装置200は、表示部220および表示情報生成部280の両方を備えることとしたが、これに限られない。例えば、クエリ分析装置200をクラウドサービスとして提供する場合、表示部220を省略することができる。この場合、表示情報生成部280は、分析結果を表示するための表示情報を生成し、生成した表示情報を外部からの要求に応じて送信してもよい。
The
また、検索時間差算出部250は、検索時間の中央値を導出し、導出した中央値を用いて検索時間差を算出することとしたが、これに限られない。例えば、検索時間差算出部250は、検索時間の平均値を算出し、算出した平均値を用いて検索時間差を算出してもよい。
Further, although the search time
また、ヒートマップ生成部270は、クラスタリング部260によってグループ化されたクラスタごとに、検索時間差と検索数とが関連づけられたヒートマップを生成するとしたが、これに限られない。例えば、ヒートマップ生成部270は、クエリごとに、検索時間差と検索数とが関連づけられたヒートマップを生成してもよい。これによって、分析者は、クエリごとのヒートマップMを確認することができる。
Moreover, although the heat map production |
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 As mentioned above, although the form for implementing this invention was demonstrated using embodiment, this invention is not limited to such embodiment at all, In the range which does not deviate from the summary of this invention, various deformation | transformation and substitution Can be added.
10…クエリ分析システム
100…ウェブサーバ
110…制御部
120…記憶部
200…クエリ分析装置
210…入力部
220…表示部
230…クエリ情報取得部
240…重複度スコア算出部
250…検索時間差算出部
260…クラスタリング部
270…ヒートマップ生成部
280…表示情報生成部
290…記憶部
300…ユーザ端末
310…制御部
320…入力部
330…表示部
DESCRIPTION OF
Claims (10)
前記クエリ情報取得部によって取得された前記クエリ情報に基づいて、第1のクエリを検索したユーザと、第2のクエリを検索したユーザとの重複の度合いを示す重複度スコアを算出する重複度スコア算出部と、
前記クエリ情報取得部によって取得された前記クエリ情報に基づいて、前記第1のクエリが検索された時間と、前記第2のクエリが検索された時間との差である検索時間差を算出する検索時間差算出部と、
前記重複度スコア算出部によって算出された前記重複度スコアと、前記検索時間差算出部によって算出された前記検索時間差とを、前記第1のクエリおよび前記第2のクエリに関連付けて表示するための情報を生成する表示情報生成部と、
を備えるクエリ分析装置。 A query information acquisition unit that acquires query information in which a searched query and a time when the query is searched are associated for each user;
Based on the query information acquired by the query information acquisition unit, a redundancy score for calculating a redundancy score indicating a degree of overlap between a user who has searched for the first query and a user who has searched for the second query A calculation unit;
Based on the query information acquired by the query information acquisition unit, a search time difference that calculates a search time difference that is a difference between a time when the first query is searched and a time when the second query is searched A calculation unit;
Information for displaying the redundancy score calculated by the redundancy score calculation unit and the search time difference calculated by the search time difference calculation unit in association with the first query and the second query A display information generation unit for generating
A query analysis apparatus comprising:
請求項1記載のクエリ分析装置。 The multiplicity score calculation unit includes a value obtained by dividing the number of users who have searched both the first query and the second query by the number of users who have searched the first query, and the second query. The query analysis device according to claim 1, wherein the redundancy score is calculated based on a value obtained by dividing the number of users who have searched for the number of users by the number of all users.
請求項1または2記載のクエリ分析装置。 The search time difference calculation unit calculates, as the search time difference, a difference between a median time when the first query is searched and a median time when the second query is searched. 2. The query analysis device according to 2.
前記検索時間差算出部は、前記重複度スコア算出部によって算出された前記第1のクエリに対する前記重複度スコアが前記閾値未満の第2のクエリに対しては、前記検索時間差を算出しない
請求項1から3の何れか1項に記載のクエリ分析装置。 An input unit for receiving an input of a threshold value of the multiplicity score;
The search time difference calculation unit does not calculate the search time difference for a second query in which the redundancy score for the first query calculated by the redundancy score calculation unit is less than the threshold. 4. The query analysis device according to any one of items 1 to 3.
請求項1から4の何れか1項に記載のクエリ分析装置。 The list information generation part which produces | generates the list information with which the said search time difference calculated by the said search time difference calculation part and the number of searches corresponding to the said search time difference were linked | related is provided. The query analysis device described.
前記一覧情報生成部は、前記クラスタリング部によってグループ化された前記クラスタごとに、前記検索時間差と前記検索数とが関連づけられた一覧情報を生成する
請求項5記載のクエリ分析装置。 A clustering unit for grouping a plurality of queries to generate a cluster;
The query analysis device according to claim 5, wherein the list information generation unit generates list information in which the search time difference and the number of searches are associated with each cluster grouped by the clustering unit.
請求項5記載のクエリ分析装置。 The query analysis device according to claim 5, wherein the list information generation unit generates list information in which the search time difference and the number of searches are associated with each query.
請求項5から7の何れか1項に記載のクエリ分析装置。 The list information generation unit generates the list information that expresses a distribution of the search time difference on a first axis and expresses a value obtained by normalizing the number of searches for each search time difference on a second axis. The query analysis device according to any one of 1 to 7.
前記クエリ情報取得工程で取得された前記クエリ情報に基づいて、第1のクエリを検索したユーザと、第2のクエリを検索したユーザとの重複の度合いを示す重複度スコアを算出する重複度スコア算出工程と、
前記クエリ情報取得工程で取得された前記クエリ情報に基づいて、前記第1のクエリが検索された時間と、前記第2のクエリが検索された時間との差である検索時間差を算出する検索時間差算出工程と、
前記重複度スコア算出工程で算出された前記重複度スコアと、前記検索時間差算出工程で算出された前記検索時間差とを、前記第1のクエリおよび前記第2のクエリに関連付けて表示するための情報を生成する表示情報生成工程と、
を備えるクエリ分析方法。 A query information acquisition step of acquiring query information in which a searched query and a time when the query is searched are associated for each user;
Based on the query information acquired in the query information acquisition step, a redundancy score for calculating a redundancy score indicating a degree of overlap between the user who has searched for the first query and the user who has searched for the second query A calculation process;
Based on the query information acquired in the query information acquisition step, a search time difference for calculating a search time difference that is a difference between a time when the first query is searched and a time when the second query is searched A calculation process;
Information for displaying the redundancy score calculated in the redundancy score calculation step and the search time difference calculated in the search time difference calculation step in association with the first query and the second query A display information generation step for generating
A query analysis method comprising:
検索されたクエリと、前記クエリが検索された時間とがユーザごとに関連付けられたクエリ情報を取得させ、
取得された前記クエリ情報に基づいて、第1のクエリを検索したユーザと、第2のクエリを検索したユーザとの重複の度合いを示す重複度スコアを算出させ、
取得された前記クエリ情報に基づいて、前記第1のクエリが検索された時間と、前記第2のクエリが検索された時間との差である検索時間差を算出させ、
算出された前記重複度スコアと、算出された前記検索時間差とを、前記第1のクエリおよび前記第2のクエリに関連付けて表示するための情報を生成させる、
プログラム。 Query information obtained by associating each query with a query searched by a computer and a time when the query was searched,
Based on the acquired query information, a redundancy score indicating a degree of overlap between the user who searched the first query and the user who searched the second query is calculated,
Based on the acquired query information, a search time difference that is a difference between a time when the first query is searched and a time when the second query is searched is calculated,
Generating information for displaying the calculated redundancy score and the calculated search time difference in association with the first query and the second query,
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016124367A JP6779047B2 (en) | 2016-06-23 | 2016-06-23 | Query analyzer, query analysis method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016124367A JP6779047B2 (en) | 2016-06-23 | 2016-06-23 | Query analyzer, query analysis method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017228114A true JP2017228114A (en) | 2017-12-28 |
JP6779047B2 JP6779047B2 (en) | 2020-11-04 |
Family
ID=60891704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016124367A Active JP6779047B2 (en) | 2016-06-23 | 2016-06-23 | Query analyzer, query analysis method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6779047B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020046990A (en) * | 2018-09-19 | 2020-03-26 | Zホールディングス株式会社 | Generation apparatus, generation method, and generation program |
JP2021149551A (en) * | 2020-03-19 | 2021-09-27 | ヤフー株式会社 | Information processor, information processing method, and information processing program |
JP7088795B2 (en) | 2018-09-19 | 2022-06-21 | ヤフー株式会社 | Information processing equipment, information processing methods, and programs |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006079454A (en) * | 2004-09-10 | 2006-03-23 | Fujitsu Ltd | Search keyword analysis method, search keyword analysis program and search keyword analysis apparatus |
JP2013030113A (en) * | 2011-07-29 | 2013-02-07 | Rakuten Inc | Information processor, information processing method, information processing program, and recording medium having information processing program recorded therein |
-
2016
- 2016-06-23 JP JP2016124367A patent/JP6779047B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006079454A (en) * | 2004-09-10 | 2006-03-23 | Fujitsu Ltd | Search keyword analysis method, search keyword analysis program and search keyword analysis apparatus |
JP2013030113A (en) * | 2011-07-29 | 2013-02-07 | Rakuten Inc | Information processor, information processing method, information processing program, and recording medium having information processing program recorded therein |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020046990A (en) * | 2018-09-19 | 2020-03-26 | Zホールディングス株式会社 | Generation apparatus, generation method, and generation program |
JP7088795B2 (en) | 2018-09-19 | 2022-06-21 | ヤフー株式会社 | Information processing equipment, information processing methods, and programs |
JP2021149551A (en) * | 2020-03-19 | 2021-09-27 | ヤフー株式会社 | Information processor, information processing method, and information processing program |
Also Published As
Publication number | Publication date |
---|---|
JP6779047B2 (en) | 2020-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11797595B2 (en) | Method, apparatus, and computer program product for user-specific contextual integration for a searchable enterprise platform | |
WO2020182122A1 (en) | Text matching model generation method and device | |
US20090083261A1 (en) | Information display apparatus, information display method, and computer program product | |
US20170300862A1 (en) | Machine learning algorithm for classifying companies into industries | |
JP6415619B2 (en) | Analysis device, analysis method, and program | |
US10157348B2 (en) | Related data generating apparatus, related data generating method, and program | |
JP6506489B1 (en) | Patent evaluation judgment method, patent evaluation judgment device, and patent evaluation judgment program | |
WO2016014124A1 (en) | Determining suggested facets | |
JP6728178B2 (en) | Method and apparatus for processing search data | |
CN106462613A (en) | Ranking suggestions based on user attributes | |
EP3782048A1 (en) | Action indicators for search operation output elements | |
WO2023273598A1 (en) | Text search method and apparatus, and readable medium and electronic device | |
JP6779047B2 (en) | Query analyzer, query analysis method, and program | |
JP6714268B1 (en) | Question sentence output method, computer program, and information processing apparatus | |
US9336330B2 (en) | Associating entities based on resource associations | |
JP6479239B1 (en) | Information processing apparatus, information processing system, information processing method, and program | |
JP6680663B2 (en) | Information processing apparatus, information processing method, prediction model generation apparatus, prediction model generation method, and program | |
JP5490082B2 (en) | Internet site information analysis method and apparatus | |
JP2015121858A (en) | Data processing device and data processing method | |
Rajkumar et al. | Dynamic web page segmentation based on detecting reappearance and layout of tag patterns for small screen devices | |
JP2013200862A (en) | Method and device for diversifying query results | |
JP2018072873A (en) | Information processing apparatus, information processing method, and program | |
JP2013238939A (en) | Recommended retrieval word presentation system | |
JP6246271B1 (en) | Attribute evaluation apparatus, sales system, attribute evaluation method, and attribute evaluation program | |
JP2020035072A (en) | Device, method, and program for processing information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190325 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200421 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200915 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201013 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6779047 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |