JP6924450B2 - Search needs evaluation device, search needs evaluation system, and search needs evaluation method - Google Patents

Search needs evaluation device, search needs evaluation system, and search needs evaluation method Download PDF

Info

Publication number
JP6924450B2
JP6924450B2 JP2020049266A JP2020049266A JP6924450B2 JP 6924450 B2 JP6924450 B2 JP 6924450B2 JP 2020049266 A JP2020049266 A JP 2020049266A JP 2020049266 A JP2020049266 A JP 2020049266A JP 6924450 B2 JP6924450 B2 JP 6924450B2
Authority
JP
Japan
Prior art keywords
search
search term
similarity
search terms
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020049266A
Other languages
Japanese (ja)
Other versions
JP2020109689A5 (en
JP2020109689A (en
Inventor
直也 榊原
直也 榊原
祐樹 廣部
祐樹 廣部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DATASCIENTIST INC.
Original Assignee
DATASCIENTIST INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2019527489A external-priority patent/JP6680956B1/en
Application filed by DATASCIENTIST INC. filed Critical DATASCIENTIST INC.
Priority to JP2020049266A priority Critical patent/JP6924450B2/en
Publication of JP2020109689A publication Critical patent/JP2020109689A/en
Publication of JP2020109689A5 publication Critical patent/JP2020109689A5/ja
Application granted granted Critical
Publication of JP6924450B2 publication Critical patent/JP6924450B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、検索エンジンの検索語とされるワードの検索意図(以下、適宜「検索ニーズ」という)を評価する技術に関する。 The present invention relates to a technique for evaluating a search intention (hereinafter, appropriately referred to as "search needs") of a word used as a search term of a search engine.

Google(登録商標)の技術は、検索結果や検索結果に表示される様々な行動データ(具体的には、クリック率、サイト内滞在時間など)を検索順位の決定に活かすものである。この技術に基づいたサービスである検索エンジンでは、より多くクリックされたり、より長時間滞在されているサイトほど、検索順位が上昇し易くなる。この技術の詳細は、特許文献1(特に、段落0088〜0090)に開示されている。SEO(Search Engine Optimization)は、検索エンジンの検索結果において特定のウェブサイトが上位に表示されるようWebサイトの構成などを調整する手法の1つである。SEOに関わる技術を開示した文献として、特許文献2がある。特許文献2のWebページ解析装置は、あるワードがターゲットキーワードとして入力された場合に、ターゲットキーワードについての検索結果内の複数のWebページデータの各々を解析対象Webページとし、解析対象Webページデータに形態素解析処理を施し、形態素解析処理により得られた形態素群における同じ種類の形態素毎の含有数を集計し、検索結果に占める解析対象Webページの順位に対する各形態素の寄与の度合いを示す形態素別評価値を求め、形態素別評価値を解析対象Webページ毎に並べたリストを解析結果として提示する。特許文献2の技術によると、SEO効果の高い形態素を効率よく見出すことができる。 Google® technology utilizes search results and various behavioral data displayed in the search results (specifically, click rate, time spent on the site, etc.) to determine the search ranking. In a search engine, which is a service based on this technology, the more clicks and longer the site stays, the easier it is for the search ranking to rise. Details of this technique are disclosed in Patent Document 1 (particularly, paragraphs 0088-0090). SEO (Search Engine Optimization) is one of the methods for adjusting the configuration of a website so that a specific website is displayed at the top in the search results of a search engine. Patent Document 2 is a document that discloses a technique related to SEO. When a certain word is input as a target keyword, the Web page analysis device of Patent Document 2 sets each of a plurality of Web page data in the search result for the target keyword as the analysis target Web page, and uses the analysis target Web page data as the analysis target Web page data. Morphological analysis processing is performed, the content of each morphological element of the same type in the morphological element group obtained by the morphological analysis processing is aggregated, and evaluation by morphological element indicating the degree of contribution of each morphological element to the ranking of the analysis target Web page in the search results. The values are obtained, and a list in which the evaluation values for each morphological element are arranged for each analysis target Web page is presented as the analysis result. According to the technique of Patent Document 2, a morpheme having a high SEO effect can be efficiently found.

US 2012/0209838A1US 2012/0209838A1 特許6164436号Patent No. 6164436

しかし、この技術(特許文献2)においては、1つのターゲット検索キーワードが、複数の異なる検索ニーズで用いられる場合に、それら複数の検索ニーズごとの明瞭な分析結果を得ることはできない。すなわち、複数の異なる検索ニーズの存在を考慮せずに、検索結果内の複数のWebページデータを一緒くたに分析することになるため、検索ニーズごとの適切な形態素別評価値を得ることができないという課題があった。 However, in this technique (Patent Document 2), when one target search keyword is used in a plurality of different search needs, it is not possible to obtain a clear analysis result for each of the plurality of search needs. That is, since multiple Web page data in the search results are analyzed together without considering the existence of a plurality of different search needs, it is not possible to obtain an appropriate morpheme-specific evaluation value for each search need. There was a challenge.

本発明は、このような課題に鑑みて為されたものであり、本発明は、検索のニーズの性質の解析を支援する技術的手段を提供することを目的とする。 The present invention has been made in view of such problems, and an object of the present invention is to provide a technical means for assisting analysis of the nature of search needs.

本発明の一態様によれば、複数の検索語のそれぞれに対する検索結果に基づいて、各検索語間の検索ニーズの類似度を取得する類似度取得手段と、各検索語が関連付けられたノードと、ノード間を結合するエッジと、を含む画面を表示させる表示制御手段と、を備え、前記エッジの長さは、当該エッジを介して結合されるノードに関連付けられた検索語間の類似度に対応する、検索ニーズ評価装置が提供される。 According to one aspect of the present invention, a similarity acquisition means for acquiring the similarity of search needs between each search term based on the search results for each of the plurality of search terms, and a node associated with each search term. , And a display control means for displaying a screen including, the length of the edge is the degree of similarity between the search terms associated with the nodes connected via the edge. A corresponding search needs evaluation device is provided.

前記表示制御手段は、ユーザ操作に応じて特定のノードを移動させ、前記特定のノードの移動に応じて、エッジを介して前記特定のノードに結合された少なくとも1つのノードを移動させてもよい。 The display control means may move a specific node according to a user operation, and may move at least one node connected to the specific node via an edge according to the movement of the specific node. ..

前記複数の検索語のそれぞれに対する検索結果に基づいて、各検索語をクラスタに分類する分類手段を備え、前記表示制御手段は、各検索語が分類されたクラスタに応じた表示態様でノードを表示させてもよい。 A classification means for classifying each search term into clusters based on the search results for each of the plurality of search terms is provided, and the display control means displays the nodes in a display mode according to the cluster in which each search term is classified. You may let me.

前記分類手段は、各検索語を2以上のクラスタのそれぞれにどの程度近いかを算出可能であり、前記表示制御手段は、各検索語がどのクラスタにどの程度近いかに応じた表示態様でノードを表示させてもよい。 The classification means can calculate how close each search term is to each of two or more clusters, and the display control means displays nodes in a display mode according to how close each search term is to which cluster. It may be displayed.

前記分類手段は、複数段階の粒度で各検索語をクラスタに分類可能であり、ユーザ操作に応じて粒度が設定される都度、設定された粒度に応じて各検索語をクラスタに分類してもよい。 The classification means can classify each search term into a cluster with a plurality of levels of particle size, and even if each search term is classified into a cluster according to the set particle size each time the particle size is set according to the user operation. good.

前記表示制御手段は、ユーザ操作に応じて粒度が変更されて各検索語が分類されるクラスタが変わると、ノードの表示態様を変更してもよい。 The display control means may change the display mode of the node when the particle size is changed according to the user operation and the cluster into which each search term is classified changes.

前記表示制御手段は、ある期間における各検索語の検索数に応じた表示態様でノードを表示させてもよい。 The display control means may display the nodes in a display mode according to the number of searches for each search term in a certain period.

複数の検索語のそれぞれに対する検索結果である文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化手段を備え、前記類似度取得手段は、検索語毎の前記特徴ベクトルデータ間の類似度に基づいて各検索語間の類似度を取得してもよい。 A quantification means for converting at least one of the content and structure of the document data which is a search result for each of a plurality of search terms into multidimensional feature vector data is provided, and the similarity acquisition means is the feature vector for each search term. The similarity between each search term may be acquired based on the similarity between data.

本発明の別の態様によれば、類似度取得手段が、複数の検索語のそれぞれに対する検索結果に基づいて、各検索語間の検索ニーズの類似度を取得するステップと、表示制御手段が、各検索語が関連付けられたノードと、ノード間を結合するエッジと、を含む画面を表示させるステップと、を備え、前記エッジの長さは、当該エッジを介して結合されるノードに関連付けられた検索語間の類似度に対応する、検索ニーズ評価方法が提供される。 According to another aspect of the present invention, the step of acquiring the similarity of the search needs between the search terms by the similarity acquisition means based on the search results for each of the plurality of search terms, and the display control means. Each search term comprises a node associated with it, an edge connecting the nodes, and a step of displaying a screen including, and the length of the edge was associated with the node connected through the edge. A search needs evaluation method corresponding to the similarity between search terms is provided.

本発明の別の態様によれば、コンピュータを、複数の検索語のそれぞれに対する検索結果に基づいて、各検索語間の検索ニーズの類似度を取得する類似度取得手段と、各検索語が関連付けられたノードと、ノード間を結合するエッジと、を含む画面を表示させる表示制御手段と、として機能させ、前記エッジの長さは、当該エッジを介して結合されるノードに関連付けられた検索語間の類似度に対応する、検索ニーズ評価プログラムが提供される。 According to another aspect of the present invention, each search term is associated with a similarity acquisition means for acquiring the similarity of search needs between each search term based on the search results for each of a plurality of search terms. It functions as a display control means for displaying a screen including a connected node and an edge connecting the nodes, and the length of the edge is a search term associated with the node connected via the edge. A search needs evaluation program is provided that corresponds to the degree of similarity between the two.

本発明の別の態様によれば、ある検索語に基づく検索結果内の複数の文書データを取得する取得手段と、前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化手段と、前記特徴ベクトルデータに基づいて前記複数の文書データを複数の部分集合に分類する分類手段と、前記複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する解析結果出力手段とを具備することを特徴とする検索ニーズ評価装置が提供される。 According to another aspect of the present invention, at least one of the acquisition means for acquiring a plurality of document data in the search result based on a certain search term and the content and structure of the plurality of document data is converted into multidimensional feature vector data. Analysis of the nature of the search needs based on the quantification means to be converted, the classification means for classifying the plurality of document data into a plurality of subsets based on the feature vector data, and the relationship between the plurality of subsets. A search needs evaluation device is provided, which comprises an analysis result output means for outputting a result.

前記分類手段は、前記特徴ベクトルデータにクラスタリングのアルゴリズムあるいはクラス分類のアルゴリズムに従った処理を施し、前記複数の文書データを複数の部分集合に分類してもよい。 The classification means may process the feature vector data according to a clustering algorithm or a classification algorithm, and classify the plurality of document data into a plurality of subsets.

前記取得手段は、複数の検索語の各々について、検索語毎の検索結果内の文書データを取得し、前記定量化手段は、検索語毎の検索結果内の複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換し、前記定量化手段によって得られた文書毎の特徴ベクトルデータに所定の統計処理を施し、検索語毎の特徴ベクトルデータを合成する合成手段を具備してもよい。 The acquisition means acquires the document data in the search result for each search term for each of the plurality of search terms, and the quantification means obtains the content and structure of the plurality of document data in the search result for each search term. It is provided with a synthesis means for converting at least one of the feature vector data into multidimensional feature vector data, performing predetermined statistical processing on the feature vector data for each document obtained by the quantification means, and synthesizing the feature vector data for each search term. You may.

前記取得手段は、複数の検索語の各々について、検索語毎の検索結果内の文書データを取得し、前記定量化手段は、検索語毎の検索結果内の複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換し、前記分類手段は、文書毎の特徴ベクトルデータに基づいて複数の文書データを複数の部分集合に分類し、前記分類手段による処理結果に所定の統計処理を施し、検索語毎の処理結果を合成する合成手段を具備してもよい。 The acquisition means acquires the document data in the search result for each search term for each of the plurality of search terms, and the quantification means obtains the content and structure of the plurality of document data in the search result for each search term. At least one of them is converted into multidimensional feature vector data, and the classification means classifies a plurality of document data into a plurality of subsets based on the feature vector data for each document, and predetermined statistics are obtained based on the processing result by the classification means. A synthesis means for performing processing and synthesizing the processing results for each search term may be provided.

前記特徴ベクトルデータをより低次元の特徴ベクトルデータに次元縮約する次元縮約手段を具備し、前記分類手段は、前記次元縮約手段の次元縮約を経た特徴ベクトルデータにより、前記複数の文書データを複数の部分集合に分類してもよい。 The plurality of documents are provided with dimensional reduction means for dimensionally reducing the feature vector data to lower-dimensional feature vector data, and the classification means is based on the feature vector data that has undergone dimensional reduction of the dimensional reduction means. The data may be classified into multiple subsets.

本発明の別の態様によれば、ある検索語に基づく検索結果内の複数の文書データを取得する取得手段と、前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化手段と、前記複数の文書データの特徴ベクトルデータ間の類似度を特定する類似度特定手段と、前記類似度に基づいて、前記複数の文書データを複数のコミュニティに分類するコミュニティ検出手段と、前記複数のコミュニティ間の関係に基づいて、検索のニーズの解析結果を出力する解析結果出力手段とを具備することを特徴とする検索ニーズ評価装置が提供される。 According to another aspect of the present invention, at least one of the acquisition means for acquiring a plurality of document data in the search result based on a certain search term and the content and structure of the plurality of document data is converted into multidimensional feature vector data. A quantification means to be converted, a similarity identification means for specifying the similarity between the feature vector data of the plurality of document data, and a community detection for classifying the plurality of document data into a plurality of communities based on the similarity. A search needs evaluation device is provided, which comprises means and analysis result output means for outputting an analysis result of search needs based on the relationship between the plurality of communities.

前記取得手段は、複数の検索語の各々について、検索語毎の検索結果内の文書データを取得し、前記定量化手段は、検索語毎の検索結果内の複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換し、前記類似度特定手段は、検索語毎の複数の文書データの特徴ベクトルデータ間の類似度を特定し、前記コミュニティ検出手段は、検索語毎の複数の文書データの特徴ベクトルデータ間の類似度に基づいて、検索語毎の複数の文書データを複数のコミュニティに分類し、前記コミュニティ検出手段による検索語毎のコミュニティ検出の処理結果に所定の統計処理を施し、検索語毎のコミュニティ検出の処理結果を合成する合成手段を具備してもよい。 The acquisition means acquires the document data in the search result for each search term for each of the plurality of search terms, and the quantification means obtains the content and structure of the plurality of document data in the search result for each search term. At least one of them is converted into multidimensional feature vector data, the similarity specifying means identifies the similarity between the feature vector data of a plurality of document data for each search term, and the community detecting means is for each search term. Features of a plurality of document data Based on the similarity between vector data, a plurality of document data for each search term is classified into a plurality of communities, and predetermined statistics are obtained in the processing result of community detection for each search term by the community detection means. A synthesis means may be provided which performs processing and synthesizes the processing result of community detection for each search term.

本発明の別の態様によれば、ある検索語に基づく検索結果内の複数の文書データを取得する取得ステップと、前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化ステップと、前記特徴ベクトルデータに基づいて前記複数の文書データを複数の部分集合に分類する分類ステップと、前記複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する解析結果出力ステップとを具備することを特徴とする検索ニーズ評価方法が提供される。 According to another aspect of the present invention, at least one of the acquisition step of acquiring a plurality of document data in the search result based on a certain search term and the content and structure of the plurality of document data is converted into multidimensional feature vector data. Analysis of the nature of the search needs based on the quantification step to be transformed, the classification step of classifying the plurality of document data into a plurality of subsets based on the feature vector data, and the relationship between the plurality of subsets. A search needs evaluation method is provided, which comprises an analysis result output step for outputting a result.

本発明の別の態様によれば、ある検索語に基づく検索結果内の複数の文書データを取得する取得ステップと、前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化ステップと、前記複数の文書データの特徴ベクトルデータ間の類似度を特定する類似度特定ステップと、前記類似度に基づいて、前記複数の文書データを複数のコミュニティに分類するコミュニティ検出ステップと、前記複数のコミュニティ間の関係に基づいて、検索のニーズの解析結果を出力する解析結果出力ステップとを具備することを特徴とする検索ニーズ評価方法が提供される。 According to another aspect of the present invention, at least one of the acquisition step of acquiring a plurality of document data in the search result based on a certain search term and the content and structure of the plurality of document data is converted into multidimensional feature vector data. A quantification step to be converted, a similarity identification step for specifying the similarity between feature vector data of the plurality of document data, and a community detection for classifying the plurality of document data into a plurality of communities based on the similarity. A search needs evaluation method is provided, which comprises a step and an analysis result output step for outputting an analysis result of the search needs based on the relationship between the plurality of communities.

本発明の別の態様によれば、コンピュータに、ある検索語に基づく検索結果内の複数の文書データを取得する取得ステップと、前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化ステップと、前記特徴ベクトルデータに基づいて前記複数の文書データを複数の部分集合に分類する分類ステップと、前記複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する解析結果出力ステップとを実行させることを特徴とする検索ニーズ評価方法が提供される。 According to another aspect of the present invention, a computer has a multidimensional feature of at least one of an acquisition step of acquiring a plurality of document data in a search result based on a certain search term and at least one of the contents and structure of the plurality of document data. A quantification step for converting to vector data, a classification step for classifying the plurality of document data into a plurality of subsets based on the feature vector data, and a search need based on the relationship between the plurality of subsets. A search needs evaluation method is provided, which comprises executing an analysis result output step that outputs an analysis result of a property.

コンピュータに、ある検索語に基づく検索結果内の複数の文書データを取得する取得ステップと、前記複数の文書データの内容及び構造の少なくとも一方を多次元の特徴ベクトルデータに変換する定量化ステップと、前記複数の文書データの特徴ベクトルデータ間の類似度を特定する類似度特定ステップと、前記類似度に基づいて、前記複数の文書データを複数のコミュニティに分類するコミュニティ検出ステップと、前記複数のコミュニティ間の関係に基づいて、検索のニーズの解析結果を出力する解析結果出力ステップとを実行させることを特徴とする検索ニーズ評価方法が提供される。 An acquisition step of acquiring a plurality of document data in a search result based on a certain search term on a computer, and a quantification step of converting at least one of the contents and structures of the plurality of document data into multidimensional feature vector data. A similarity identification step for specifying the similarity between feature vector data of the plurality of document data, a community detection step for classifying the plurality of document data into a plurality of communities based on the similarity, and the plurality of communities. A search needs evaluation method is provided, which comprises executing an analysis result output step that outputs an analysis result of search needs based on the relationship between the two.

本発明によると、検索語ごとの検索ニーズの多様さを定量的に評価あるいは表示することができる。また、従来技術では、検索語ごとにしか評価できなかった検索結果Webページに含まれる形態素の評価を、検索ニーズごとに評価できるようになるため、より検索ニーズに合致した解説文の作成やwebページ等の制作を行いやすくなる。 According to the present invention, it is possible to quantitatively evaluate or display the variety of search needs for each search term. In addition, in the conventional technology, the evaluation of morphemes contained in the search result Web page, which could be evaluated only for each search term, can be evaluated for each search need. It will be easier to create pages, etc.

本発明の第1実施形態である検索ニーズ評価装置を含む評価システムの全体構成を示す図である。It is a figure which shows the whole structure of the evaluation system including the search needs evaluation apparatus which is 1st Embodiment of this invention. 本発明の第1実施形態である検索ニーズ評価装置のCPUが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。It is a flowchart which shows the flow of the evaluation method which the CPU of the search needs evaluation apparatus which is 1st Embodiment of this invention executes according to an evaluation program. 本発明の第1実施形態である検索ニーズ評価装置のクラスタリング処理の手順を示す図である。It is a figure which shows the procedure of the clustering process of the search needs evaluation apparatus which is 1st Embodiment of this invention. 本発明の第1実施形態である検索ニーズ評価装置の評価軸の設定の手順を示す図である。It is a figure which shows the procedure of setting the evaluation axis of the search needs evaluation apparatus which is 1st Embodiment of this invention. 本発明の第1実施形態である検索ニーズ評価装置の処理の概要を示す図である。It is a figure which shows the outline of the process of the search needs evaluation apparatus which is 1st Embodiment of this invention. 本発明の第2実施形態である検索ニーズ評価装置のCPUが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。It is a flowchart which shows the flow of the evaluation method which the CPU of the search needs evaluation apparatus which is 2nd Embodiment of this invention executes according to the evaluation program. 本発明の第2実施形態である検索ニーズ評価装置のクラス分類処理の手順を示す図である。It is a figure which shows the procedure of the classification process of the search needs evaluation apparatus which is 2nd Embodiment of this invention. 本発明の第2実施形態である検索ニーズ評価装置の処理の概要を示す図である。It is a figure which shows the outline of the process of the search needs evaluation apparatus which is 2nd Embodiment of this invention. 本発明の第3実施形態である検索ニーズ評価装置のCPUが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。It is a flowchart which shows the flow of the evaluation method which the CPU of the search needs evaluation apparatus which is 3rd Embodiment of this invention executes according to the evaluation program. 本発明の第3実施形態である検索ニーズ評価装置の処理の概要を示す図である。It is a figure which shows the outline of the process of the search needs evaluation apparatus which is 3rd Embodiment of this invention. 本発明の第4実施形態である検索ニーズ評価装置のCPUが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。It is a flowchart which shows the flow of the evaluation method which the CPU of the search needs evaluation apparatus which is 4th Embodiment of this invention executes according to the evaluation program. 本発明の第4実施形態である検索ニーズ評価装置の処理の概要を示す図である。It is a figure which shows the outline of the process of the search needs evaluation apparatus which is 4th Embodiment of this invention. 本発明の第5実施形態である検索ニーズ評価装置のCPUが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。It is a flowchart which shows the flow of the evaluation method which the CPU of the search needs evaluation apparatus which is 5th Embodiment of this invention executes according to the evaluation program. 本発明の第5実施形態である検索ニーズ評価装置の処理の概要を示す図である。It is a figure which shows the outline of the process of the search needs evaluation apparatus which is 5th Embodiment of this invention. 本発明の第6実施形態である検索ニーズ評価装置のCPUが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。It is a flowchart which shows the flow of the evaluation method which the CPU of the search needs evaluation apparatus which is 6th Embodiment of this invention executes according to the evaluation program. 本発明の第6実施形態である検索ニーズ評価装置の処理の概要を示す図である。It is a figure which shows the outline of the process of the search needs evaluation apparatus which is 6th Embodiment of this invention. 本発明の第7実施形態である検索ニーズ評価装置のCPUが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。It is a flowchart which shows the flow of the evaluation method which the CPU of the search needs evaluation apparatus which is 7th Embodiment of this invention executes according to the evaluation program. 本発明の第7実施形態である検索ニーズ評価装置の処理の概要を示す図である。It is a figure which shows the outline of the process of the search needs evaluation apparatus which is 7th Embodiment of this invention. 本発明の第8実施形態である検索ニーズ評価装置のCPUが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。It is a flowchart which shows the flow of the evaluation method which the CPU of the search needs evaluation apparatus which is 8th Embodiment of this invention executes according to the evaluation program. 本発明の第8実施形態である検索ニーズ評価装置の処理の概要を示す図である。It is a figure which shows the outline of the process of the search needs evaluation apparatus which is 8th Embodiment of this invention. 本発明の第9実施形態である検索ニーズ評価装置のCPUが評価プログラムに従って実行する評価方法の流れを示すフローチャートである。It is a flowchart which shows the flow of the evaluation method which the CPU of the search needs evaluation apparatus which is 9th Embodiment of this invention executes according to the evaluation program. 本発明の第9実施形態である検索ニーズ評価装置の処理の概要を示す図である。It is a figure which shows the outline of the process of the search needs evaluation apparatus which is 9th Embodiment of this invention. 本発明の変形例である検索ニーズ評価装置の処理内容を示す図である。It is a figure which shows the processing content of the search needs evaluation apparatus which is a modification of this invention. 本発明の変形例である検索ニーズ評価装置の処理内容を示す図である。It is a figure which shows the processing content of the search needs evaluation apparatus which is a modification of this invention. 図11のマッピング画像7をより具体的に示す図である。It is a figure which shows the mapping image 7 of FIG. 11 more concretely. 図25における「ABCビジネス」に関連付けられたノードn3を移動させた状態を示す図である。It is a figure which shows the state which moved the node n3 associated with "ABC business" in FIG. 検索語がクラスタに分類され、分類されたクラスタに応じた表示態様でノードを表示したマッピング画像7を示す図である。It is a figure which shows the mapping image 7 which the search term is classified into a cluster, and the node is displayed in the display mode corresponding to the classified cluster. 検索語が1つのクラスタに分類に確定されるのではなく、複数のクラスタに分類され得る場合のマッピング画像7を示す図である。It is a figure which shows the mapping image 7 in the case where the search term is not fixed in the classification into one cluster, but can be classified into a plurality of clusters. ユーザが粒度を設定可能なマッピング画像7を示す図である。It is a figure which shows the mapping image 7 which a user can set the particle size. 図29より粒度が細かく設定された状態を示す図である。FIG. 29 is a diagram showing a state in which the particle size is finely set as compared with FIG. 29. 粒度調節のインターフェースの例を示す図である。It is a figure which shows the example of the interface of particle size adjustment. 粒度調節のインターフェースの例を示す図である。It is a figure which shows the example of the interface of particle size adjustment. 粒度調節のインターフェースの例を示す図である。It is a figure which shows the example of the interface of particle size adjustment. 粒度調節のインターフェースの例を示す図である。It is a figure which shows the example of the interface of particle size adjustment. 粒度調節のインターフェースの例を示す図である。It is a figure which shows the example of the interface of particle size adjustment. 各検索語の検索数に応じた態様でノードが表示されたマッピング画像7を示す図である。It is a figure which shows the mapping image 7 which displayed the node in the mode corresponding to the search number of each search term. 表形式で解析結果を表示する場合の画面例を示す図である。It is a figure which shows the screen example at the time of displaying the analysis result in a table format. 図37の粒度を粗くした状態を示す図である。FIG. 37 is a diagram showing a state in which the particle size of FIG. 37 is coarsened. 相関行列形式で解析結果を表示する場合の画面例を示す図である。It is a figure which shows the screen example at the time of displaying the analysis result in the correlation matrix format. 図39の検索語を並べ替えた状態を示す図である。It is a figure which shows the state in which the search term of FIG. 39 is rearranged. デンドログラム形式で解析結果を表示する場合の画面例を示す図である。It is a figure which shows the screen example at the time of displaying the analysis result in the dendrogram format. 図41の粒度設定バー36を移動させた状態を示す図である。It is a figure which shows the state which moved the particle size setting bar 36 of FIG. 41. ツリーマップ形式で解析結果を表示する場合の画面例を示す図である。It is a figure which shows the screen example at the time of displaying the analysis result in the tree map format. サンバースト形式で解析結果を表示する場合の画面例を示す図である。It is a figure which shows the screen example at the time of displaying the analysis result in the sunburst format.

以下、図面を参照しつつ本発明の実施形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.

<第1実施形態>
図1は、本発明の第1実施形態である検索ニーズ評価装置20を含む評価システム1の全体構成を示す図である。図1示すように、評価システム1は、利用者端末10、及び検索ニーズ評価装置20を有する。利用者端末10、及び検索ニーズ評価装置20は、インターネット90を介して接続されている。インターネット90には、検索エンジンサーバ装置50が接続されている。
<First Embodiment>
FIG. 1 is a diagram showing an overall configuration of an evaluation system 1 including a search needs evaluation device 20 according to a first embodiment of the present invention. As shown in FIG. 1, the evaluation system 1 includes a user terminal 10 and a search needs evaluation device 20. The user terminal 10 and the search needs evaluation device 20 are connected via the Internet 90. A search engine server device 50 is connected to the Internet 90.

検索エンジンサーバ装置50は、検索エンジンサービスを提供する役割を果たす装置である。検索エンジンサーバ装置50は、インターネット90を巡回し、インターネット90上に文書データ(HTML(Hyper Text Markup Language)などのマークアップ言語により記述されたデータ)として散在するwebページから得た情報をインデクシングする巡回処理と、検索者のコンピュータから検索語を含むHTTP(Hyper Text Transfer Protocol)リクエスト(検索クエリ)を受信し、検索クエリ内の検索語を用いて検索したwebページのタイトル、URL(Uniform Resource Locator)、スニペット(Snippet)のセットを上位(順位が高い)のものから順に配した検索結果を返信する検索処理とを行う。図1では、検索エンジンサーバ装置50が1つだけ図示されているが、検索エンジンサーバ装置50の数は複数であってもよい。 The search engine server device 50 is a device that plays a role of providing a search engine service. The search engine server device 50 patrolls the Internet 90 and indexes information obtained from web pages scattered on the Internet 90 as document data (data described in a markup language such as HTML (Hyper Text Markup Language)). The title and URL (Uniform Resource Locator) of the web page searched by receiving the HTTP (Hyper Text Transfer Protocol) request (search query) including the search term from the searcher's computer and using the search term in the search query. ), The search process of returning the search result in which the set of snippets is arranged in order from the highest (highest ranking) is performed. Although only one search engine server device 50 is shown in FIG. 1, the number of search engine server devices 50 may be plural.

利用者端末10は、パーソナルコンピュータである。利用者端末10のユーザには、固有のIDとパスワードが付与されている。ユーザは、自らの利用者端末10から検索ニーズ評価装置20にアクセスして認証手続を行い、検索ニーズ評価装置20のサービスを利用する。図1では、利用者端末10が1つだけ図示されているが、評価システム1における利用者端末10の数は複数であってもよい。 The user terminal 10 is a personal computer. A unique ID and password are assigned to the user of the user terminal 10. The user accesses the search needs evaluation device 20 from his / her own user terminal 10 to perform an authentication procedure, and uses the service of the search needs evaluation device 20. Although only one user terminal 10 is shown in FIG. 1, the number of user terminals 10 in the evaluation system 1 may be plural.

検索ニーズ評価装置20は、検索ニーズ評価サービスを提供する役割を果たす装置である。検索ニーズ評価サービスは、ユーザから評価対象の検索語を受け取り、その検索語の検索結果内の上位d(dは2以上の自然数)個のwebページを、所定の統計的分類処理のアルゴリズムにより分類し、この分類により得られた複数のwebページの集合を解析結果として提示するサービスである。 The search needs evaluation device 20 is a device that plays a role of providing a search needs evaluation service. The search needs evaluation service receives the search term to be evaluated from the user, and classifies the top d (d is a natural number of 2 or more) web pages in the search result of the search term by a predetermined statistical classification processing algorithm. However, it is a service that presents a set of a plurality of web pages obtained by this classification as an analysis result.

図1に示すように、検索ニーズ評価装置20は、通信インターフェース21、CPU(Central Processing Unit)22、RAM(Random Access Memory)23、ROM(Read Only Memory)24、ハードディスク25を有する。通信インターフェース21は、インターネット90に接続された装置との間でデータを送受信する。CPU22は、RAM23をワークエリアとして利用しつつ、ROM24やハードディスク25に記憶された各種プログラムを実行する。ROM24には、IPL(Initial Program Loader)などが記憶されている。ハードディスク25には、本実施形態に特有の機能を有する評価プログラム26が記憶されている。 As shown in FIG. 1, the search needs evaluation device 20 includes a communication interface 21, a CPU (Central Processing Unit) 22, a RAM (Random Access Memory) 23, a ROM (Read Only Memory) 24, and a hard disk 25. The communication interface 21 transmits / receives data to / from a device connected to the Internet 90. The CPU 22 executes various programs stored in the ROM 24 and the hard disk 25 while using the RAM 23 as a work area. IPL (Initial Program Loader) and the like are stored in the ROM 24. The hard disk 25 stores an evaluation program 26 having a function peculiar to the present embodiment.

次に、本実施形態の動作について説明する。図2は、検索ニーズ評価装置20のCPU22が評価プログラム26に従って実行する評価方法の流れを示すフローチャートである。CPU22は、評価プログラム26を実行することで、取得処理(S100)を実行する取得手段、定量化処理(S200)を実行する定量化手段、加算処理を実行する加算手段(S210)、次元縮約処理(S300)を実行する次元縮約手段、クラスタリング処理(S310)を実行する分類手段、解析結果出力処理(S400)を実行する解析結果出力手段、及び評価軸設定処理(S450)を実行する評価軸設定手段として機能する。 Next, the operation of this embodiment will be described. FIG. 2 is a flowchart showing a flow of an evaluation method executed by the CPU 22 of the search needs evaluation device 20 according to the evaluation program 26. By executing the evaluation program 26, the CPU 22 executes the acquisition process (S100), the quantification means for executing the quantification process (S200), the addition means for executing the addition process (S210), and the dimension reduction. Quantification means for executing processing (S300), classification means for executing clustering processing (S310), analysis result output means for executing analysis result output processing (S400), and evaluation for executing evaluation axis setting processing (S450). Functions as an axis setting means.

ステップS100の取得処理では、CPU22は、利用者端末10から評価対象の検索語を受け取り、評価対象の検索語に基づく検索結果内の上位d個のwebページの文書データD(k=1〜d、kは順位を示すインデックス)を取得する。文書データD(k=1〜d)は、検索結果内の第k位のwebページの内容及び構造をHTMLにより記述したものである。以下では、書データD(k=1〜d)を、適宜、文書データD、D・・・Dと記す。 In the acquisition process of step S100, the CPU 22 receives the search term to be evaluated from the user terminal 10, and the document data D k (k = 1 to 1) of the top d web pages in the search result based on the search term to be evaluated. d and k are indexes indicating the ranking). The document data D k (k = 1 to d) describes the content and structure of the k-th web page in the search result by HTML. In the following, the document data D k (k = 1 to d ) will be appropriately referred to as document data D 1, D 2 ... D d.

ステップS200の定量化処理は、文書内容定量化処理(S201)と文書構造定量化処理(S202)とを有する。文書内容定量化処理は、文書データD、D・・・Dの内容をn(nは2以上の自然数)次元の特徴ベクトルデータに変換する処理である。文書構造定量化処理は、文書データD、D・・・Dの構造をm(mは2以上の自然数)次元の特徴ベクトルデータに変換する処理である。以下では、文書データD、D・・・Dの各々の内容のn次元の特徴ベクトルデータを、特徴ベクトルデータx={x11、x12・・・x1n}、x={x21、x22・・・x2n}・・・x={xd1、xd2・・・xdn}と記す。また、文書データD、D・・・Dの各々の構造のm次元の特徴ベクトルデータを、特徴ベクトルデータy={y11、y12・・・y1m}、y={y21、y22・・・y2m}・・・y={yd1、yd2・・・ydm}と記す。 The quantification process in step S200 includes a document content quantification process (S201) and a document structure quantification process (S202). The document content quantification process is a process of converting the contents of the document data D 1 , D 2 ... D d into n (n is a natural number of 2 or more) dimensional feature vector data. The document structure quantification process is a process of converting the structure of the document data D 1 , D 2 ... D d into m (m is a natural number of 2 or more) dimensional feature vector data. In the following, the n-dimensional feature vector data of each content of the document data D 1 , D 2 ... D d is referred to as the feature vector data x 1 = {x 11 , x 12 ... x 1n }, x 2 =. It is described as {x 21 , x 22 ... x 2n } ... x d = {x d1 , x d2 ... x dn }. Further, the m-dimensional feature vector data of each structure of the document data D 1 , D 2 ... D d can be used as the feature vector data y 1 = {y 11 , y 12 ... y 1 m }, y 2 = {. y 21 , y 22 ... y 2m } ... y d = {y d1 , y d2 ... y dm }.

より詳細に説明すると、文書内容定量化処理では、CPU22は、文書データDを、Bag of Words(BoW)、dmpv(Distributed Memory)、DBoW(Distributed BoW)などのアルゴリズムに従って多次元ベクトル化し、この処理結果を、特徴ベクトルデータx={x11、x12・・・x1n}、x={x21、x22・・・x2n}・・・x={xd1、xd2・・・xdn}とする。CPU22は、文書データD・・Dについて、同様のアルゴリズムに従って多次元ベクトル化し、この処理結果を、文書データD・・Dの各々の特徴ベクトルデータx={x21、x22・・・x2n}・・・x={xd1、xd2・・・xdn}とする。ここで、dmpv、及びDBoWは、Doc2Vecの一種である。 More specifically, in the document content quantification process, the CPU 22 converts the document data D 1 into a multidimensional vector according to algorithms such as Bag of Words (BoW), dmpv (Distributed Memory), and DBoW (Distributed BoW). The processing result is the feature vector data x 1 = {x 11 , x 12 ... x 1n }, x 2 = {x 21 , x 22 ... x 2n } ... x d = {x d1 , x d2. ... x dn }. The CPU 22 multidimensionally vectorizes the document data D 2 ... D d according to the same algorithm, and converts this processing result into the feature vector data x 2 = {x 21 , x 22 of each of the document data D 2 ... D d. ... x 2n } ... x d = {x d1 , x d2 ... x dn }. Here, dmpv and DBoW are a kind of Doc2Vec.

文書構造定量化処理では、CPU22は、文書データDを、隠れマルコフモデル(HMM)、確率的文脈自由文法(PCFGP)、Recurrent Neural Network、Recursive Neural Networkなどのアルゴリズムに従って多次元ベクトル化し、この処理結果を、文書データDの特徴ベクトルデータy={y11、y12・・・y1m}とする。CPU22は、文書データD・・Dについて、同様のアルゴリズムに従って多次元ベクトル化し、この処理結果を、文書データD・・Dの各々の特徴ベクトルデータy={y21、y22・・・y2m}・・・y={yd1、yd2・・・ydm}とする。 In the document structure quantification process, the CPU 22 converts the document data D 1 into a multidimensional vector according to algorithms such as Hidden Markov Model (HMM), Probabilistic Context Free Grammar (PCFGP), Recurrent Neural Network, and Recursive Neural Network, and this process. Let the result be the feature vector data y 1 = {y 11 , y 12 ... y 1 m } of the document data D 1. The CPU 22 multidimensionally vectorizes the document data D 2 ... D d according to the same algorithm, and converts this processing result into the feature vector data y 2 = {y 21 and y 22 of each of the document data D 2 ... D d. ... y 2m } ... y d = {y d1 , y d2 ... y dm }.

ステップS210の加算処理は、ステップS201の処理結果とステップS202の処理結果を加算し、l(l=n+m)次元の特徴ベクトルデータを出力する処理である。以下では、文書データD、D・・・Dの各々についての加算処理により得られるl次元の特徴ベクトルデータを、特徴ベクトルデータz={z11、z12・・・z1l}、z={z21、z22・・・z2l}・・・z={zd1、zd2・・・zdl}と記す。 The addition process of step S210 is a process of adding the processing result of step S201 and the processing result of step S202 and outputting the feature vector data of l (l = n + m) dimension. In the following, the l-dimensional feature vector data obtained by the addition processing for each of the document data D 1 , D 2 ... D d is the feature vector data z 1 = {z 11 , z 12 ... z 1l }. , Z 2 = {z 21 , z 22 ... z 2l } ... z d = {z d1 , z d2 ... z dl }.

ステップS300の次元縮約処理は、特徴ベクトルデータz={z11、z12・・・z1l}、z={z21、z22・・・z2l}・・・z={zd1、zd2・・・zdl}を、オートエンコーダや主成分分析などのアルゴリズムに従って、より次元数の少ないl’次元の特徴ベクトルデータに次元縮約する処理である。以下では、文書データD、D・・・Dの各々についての次元縮約により得られるl’次元の特徴ベクトルデータを、特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}と記す。 In the dimension reduction process of step S300, the feature vector data z 1 = {z 11 , z 12 ... z 1l }, z 2 = {z 21 , z 22 ... z 2l } ... z d = { This is a process of dimensionally reducing z d1 , z d2 ... z dl } to l'dimensional feature vector data having a smaller number of dimensions according to an algorithm such as an autoencoder or principal component analysis. In the following, the l'dimensional feature vector data obtained by dimensional reduction for each of the document data D 1 , D 2 ... D d is referred to as the feature vector data z 1 = {z 11 , z 12 ... z. 1 l' }, z 2 = {z 21 , z 22 ... z 2l' } ... z d = {z d1 , z d2 ... z dl' }.

ステップS310のクラスタリング処理は、文書データD、D・・・Dをクラスタと称する複数の部分集合(塊)に分類する統計的分類処理である。クラスタリング処理では、CPU22は、文書データD、D・・・Dの特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}にクラスタリングの最短距離法のアルゴリズムに従った処理を施し、文書データD、D・・・Dを複数のクラスタに分類する。 The clustering process in step S310 is a statistical classification process for classifying document data D 1 , D 2 ... D d into a plurality of subsets (lumps) called clusters. In the clustering process, the CPU 22 uses the feature vector data z 1 = {z 11 , z 12 ... z 1l' }, z 2 = {z 21 , z 22 · of the document data D 1 , D 2 ... D d.・ ・ Z 2l' } ・ ・ ・ z d = {z d1 , z d2・ ・ ・ z dl' } is processed according to the algorithm of the shortest distance method of clustering, and the document data D 1 , D 2 ... Classify D d into multiple clusters.

クラスタリングの最短距離法の詳細を説明する。図3(A)、図3(B)、図3(C)、及び図3(D)は、文書データDの数dがd=9であり、次元数l’がl’=2の場合の分類例を示す図である。クラスタリングでは、文書データD(k=1〜d)内における2つの文書データDの全ての組み合わせについて、当該2つの文書データD間の距離を求める。2つの文書データD間の距離は、ユークリッド距離であってもよいし、ミンコフスキー距離であってもよいし、マハラノビス距離であってもよい。 The details of the shortest distance method of clustering will be described. In FIGS. 3 (A), 3 (B), 3 (C), and 3 (D), the number d of the document data D k is d = 9, and the number of dimensions l'is l'= 2. It is a figure which shows the classification example of the case. Clustering, for all combinations of two document data D k in the document data D k (k = 1 to d), determine the distance between the two document data D k. The distance between the two document data Dk may be the Euclidean distance, the Minkowski distance, or the Mahalanobis distance.

図3(A)に示すように、互いの距離が最も近い2つの文書データD(図3(A)の例ではDとD)を第1のクラスタとして括る。クラスタを括った後、そのクラスタの代表点R(重心)を求め、代表点Rとクラスタ外の文書データD(図3(A)の例では、文書データD、D、D、D、D、D、D)との距離を求める。 As shown in FIG. 3 (A), the two document data D k (D 1 and D 2 in the example of FIG. 3 (A)) that are closest to each other are grouped as the first cluster. After bundling the cluster, the representative point R (center of gravity) of the cluster is obtained, and the representative point R and the document data D k outside the cluster (in the example of FIG. 3 (A), the document data D 3 , D 4 , D 5 ,, Find the distance to D 6 , D 7 , D 8 , D 9).

図3(B)に示すように、クラスタ外の2つの文書データDであって互いの距離が代表点Rとの距離よりも短いもの(図3(B)の例では、文書データD、D)があれば、その2つの文書データDを新たなクラスタとして括る。また、図3(C)に示すように、2つのクラスタであって互いの代表点Rの距離がクラスタ外の文書データDとの距離よりも短いもの(図3(C)の例では、文書データD及びDのクラスタと文書データD及びDのクラスタ)があれば、その2つのクラスタを新たなクラスタとして括る。図3(D)に示すように、以上の処理を再帰的に繰り返し、階層構造をもった複数のクラスタを生成する。 As shown in FIG. 3 (B), two document data D k outside the cluster whose distance from each other is shorter than the distance from the representative point R (in the example of FIG. 3 (B), the document data D 3). , D 4 ), the two document data D k are bundled as a new cluster. Further, as shown in FIG. 3C, two clusters in which the distance between the representative points R of each other is shorter than the distance from the document data Dk outside the cluster (in the example of FIG. 3C, If there is a cluster of document data D 1 and D 2 and a cluster of document data D 3 and D 4 , the two clusters are grouped as a new cluster. As shown in FIG. 3D, the above processing is recursively repeated to generate a plurality of clusters having a hierarchical structure.

図2において、ステップS400の解析結果出力処理は、クラスタ間の関係に基づいて、評価対象の検索語に関わる検索のニーズの性質の解析結果を出力する処理である。図2に示すように、解析結果出力処理では、CPU22は、利用者端末10に解析結果画面のHTMLデータを送信し、利用者端末10のディスプレイに解析結果画面を表示させる。解析結果画面は、上位ページ分類とデンドログラム8とを有する。上位ページ分類は、評価対象の検索語に基づく検索結果内の上位d個のwebページの要約(タイトル、スニペット)を内部に記した枠F(k=1〜d)を5つずつマトリクス状に並べたものである。図2では、第1位〜第10位のwebページの枠F〜F10だけが表示されているが、スクロールバーの操作により、第11位以降のwebページの枠Fを出現させることもできる。上位ページ分類におけるwebページの枠F(k=1〜d)は、クラスタリングにより同じクラスタに振り分けられたものが同じ色になるように、色分け表示されている。簡便のため、図2では、第1の色の枠F(図2の例では、1位の枠F、3位の枠F、4位の枠F、5位の枠F、7位の枠F、10位の枠F10)を細線で、第2の色の枠F(図2の例では、2位の枠F、8位の枠F、9位の枠F)を太線で、第3の色の枠F(図2の例では、6位の枠F)を鎖線で示している。デンドログラム8は、クラスタリングの処理過程において得られたクラスタの階層構造を示すものである。 In FIG. 2, the analysis result output process of step S400 is a process of outputting the analysis result of the nature of the search needs related to the search term to be evaluated based on the relationship between the clusters. As shown in FIG. 2, in the analysis result output processing, the CPU 22 transmits HTML data of the analysis result screen to the user terminal 10 and causes the user terminal 10 to display the analysis result screen on the display. The analysis result screen has a high-level page classification and a denogram 8. The upper page classification is a matrix of five frames F k (k = 1 to d) in which a summary (title, snippet) of the top d web pages in the search results based on the search term to be evaluated is written. It is arranged in. In Figure 2, only the frame F 1 to F 10 of web pages of the positions 1 to # 10 is displayed, the scroll bar operation, causing the appearance of the frame F k of web pages of # 11 and subsequent You can also. The frame F k (k = 1 to d) of the web page in the upper page classification is color-coded so that the ones distributed to the same cluster by clustering have the same color. For convenience, in FIG. 2, the first color frame F k (in the example of FIG. 2, the first frame F 1 , the third frame F 3 , the fourth frame F 4 , and the fifth frame F 5). , 7th frame F 7 , 10th frame F 10 ) with a thin line, 2nd color frame F k (in the example of Fig. 2, 2nd frame F 2 , 8th frame F 8 , 9th place The frame F 9 ) of is indicated by a thick line, and the frame F k of the third color (in the example of FIG. 2, the frame F 6 at the 6th position) is indicated by a chain line. The dendrogram 8 shows the hierarchical structure of the clusters obtained in the process of clustering.

ステップS450の評価軸設定処理は、クラスタリング処理の評価軸を設定する処理である。図4(A)に示すように、解析結果画面のデンドログラム8上には、評価軸設定バー9がある。評価軸設定バー9は、クラスタリング処理におけるクラスタの数を指定する役割を果たすものである。評価軸設定バー9は、利用者端末10のポインティングデバイスの操作により、上下に移動できるようになっている。ユーザは、分類の粒度を粗くした解析結果を得たい場合は、評価軸設定バー9を上(上位階層)側に移動させる。また、ユーザは、分類の粒度を細かくした解析結果を得たい場合は、評価軸設定バー9を下(下位階層)側に移動させる。ユーザにより、評価軸設定バー9を移動させる操作が行われると、CPU22は、移動後の評価軸設定バー9とデンドログラム8の縦線との交差位置を新たな設定とし、この新たな設定に基づいてクラスタリング処理を実行し、クラスタリング処理の処理結果を含む解析結果を出力する。 The evaluation axis setting process in step S450 is a process for setting the evaluation axis of the clustering process. As shown in FIG. 4A, there is an evaluation axis setting bar 9 on the denogram 8 of the analysis result screen. The evaluation axis setting bar 9 serves to specify the number of clusters in the clustering process. The evaluation axis setting bar 9 can be moved up and down by operating the pointing device of the user terminal 10. When the user wants to obtain an analysis result with coarser classification, the user moves the evaluation axis setting bar 9 to the upper (upper layer) side. Further, the user moves the evaluation axis setting bar 9 to the lower (lower layer) side when he / she wants to obtain the analysis result with the finer classification particle size. When the user performs an operation to move the evaluation axis setting bar 9, the CPU 22 sets the intersection position of the evaluation axis setting bar 9 and the vertical line of the dendrogram 8 after the movement as a new setting, and sets the new setting. Based on this, the clustering process is executed, and the analysis result including the process result of the clustering process is output.

以上が、本実施形態の詳細である。本実施形態によると、次の効果が得られる。
第1に、本実施形態では、図5に示すように、CPU22は、評価対象である1つの検索語の検索結果内の上位d個の文書データD、D・・・Dの内容及び構造を特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}に変換し、特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}にクラスタリングの処理を施し、文書データD、D・・・Dを複数の部分集合(クラスタ)に分類する。CPU22は、文書データD、D・・・Dのクラスタリングの処理結果である複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。よって、本実施形態によると、検索語の言葉に異なるニーズがどの程度混在していて、ニーズの性質がどのようなものであるか、ということの解析を効率よく行うことができる。
The above is the details of this embodiment. According to this embodiment, the following effects can be obtained.
First, in the present embodiment, as shown in FIG. 5, the CPU 22 contains the contents of the top d document data D 1 , D 2 ... D d in the search result of one search term to be evaluated. And the structure features vector data z 1 = {z 11 , z 12 ... z 1l' }, z 2 = {z 21 , z 22 ... z 2l' } ... z d = {z d1 , z Converted to d2 ... z dl' }, feature vector data z 1 = {z 11 , z 12 ... z 1l' }, z 2 = {z 21 , z 22 ... z 2l' } ... -Z d = {z d1 , z d2 ... z dl' } is subjected to clustering processing, and the document data D 1 , D 2 ... D d are classified into a plurality of subsets (clusters). The CPU 22 outputs an analysis result of the nature of the search needs based on the relationship between a plurality of subsets which are the processing results of clustering of the document data D 1 , D 2 ... D d. Therefore, according to the present embodiment, it is possible to efficiently analyze how much different needs are mixed in the search term and what the nature of the needs is.

第2に、本実施形態では、上位ページ分類が解析結果として出力される。上位ページ分類におけるwebページの情報は、クラスタリングにより同じ部分集合(クラスタ)に振り分けられたものが同じ色になるように、色分け表示されている。本実施形態では、この上位ページ分類により、評価対象の検索語についてのニーズの性質のばらつき度合を可視化することができる。本実施形態によると、検索結果内の上位のwebページと下位のwebページとの相違点から上位のwebページがなぜ上位になっているのかを検証する場合において、検索のニーズの性質が同じwebページ同士を比較することができる。従って、本実施形態では、上位のwebページをより効率的に検証することができる。 Secondly, in the present embodiment, the upper page classification is output as the analysis result. The information on the web page in the upper page classification is color-coded so that the information distributed to the same subset (cluster) by clustering has the same color. In the present embodiment, the degree of variation in the nature of the needs of the search term to be evaluated can be visualized by this upper page classification. According to the present embodiment, in the case of verifying why the upper web page is higher due to the difference between the upper web page and the lower web page in the search result, the nature of the search needs is the same web. You can compare pages. Therefore, in the present embodiment, the upper web page can be verified more efficiently.

第3に、本実施形態では、デンドログラム8が解析結果として出力される。このデンドログラム8における評価軸設定バー9を動かす操作がされると、評価軸設定バー9とデンドログラム8の縦線との交差位置を新たな設定とし、この新たな設定に基づいてクラスタリング処理を実行し、クラスタリング処理の処理結果を含む解析結果を出力する。従って、本実施形態によると、ユーザは、上位ページ分類における分類の粒度を自らの意向にマッチするように調整できる。 Third, in the present embodiment, the dendrogram 8 is output as an analysis result. When the operation to move the evaluation axis setting bar 9 in the denogram 8 is performed, the intersection position between the evaluation axis setting bar 9 and the vertical line of the denogram 8 is set as a new setting, and the clustering process is performed based on this new setting. Execute and output the analysis result including the processing result of the clustering process. Therefore, according to the present embodiment, the user can adjust the particle size of the classification in the upper page classification so as to match his / her intention.

<第2実施形態>
本発明の第2実施形態を説明する。図6は、第2実施形態の検索ニーズ評価装置20のCPU22が評価プログラム26に従って実行する評価方法の流れを示すフローチャートである。CPU22は、評価プログラム26を実行することで、取得処理(S100)を実行する取得手段、定量化処理(S200)を実行する定量化手段、加算処理を実行する加算手段(S210)、次元縮約処理(S300)を実行する次元縮約手段、クラス分類処理(S311)を実行する分類手段、及び解析結果出力処理(S400)を実行する解析結果出力手段として機能する。取得処理、定量化処理、加算処理、及び次元縮約処理の内容は、第1実施形態と同様である。
<Second Embodiment>
A second embodiment of the present invention will be described. FIG. 6 is a flowchart showing a flow of an evaluation method executed by the CPU 22 of the search needs evaluation device 20 of the second embodiment according to the evaluation program 26. The CPU 22 executes the evaluation program 26 to execute the acquisition process (S100), the quantification means for executing the quantification process (S200), the addition means for executing the addition process (S210), and the dimension reduction. It functions as a dimension reduction means for executing the process (S300), a classification means for executing the class classification process (S311), and an analysis result output means for executing the analysis result output process (S400). The contents of the acquisition process, the quantification process, the addition process, and the dimension reduction process are the same as those in the first embodiment.

図6と第1実施形態の図2とを比較すると、図6では、ステップS310のクラスタリング処理がステップS311のクラス分類処理に置き換わっている。 Comparing FIG. 6 with FIG. 2 of the first embodiment, in FIG. 6, the clustering process of step S310 is replaced with the classification process of step S311.

ステップS311のクラス分類処理は、文書データD、D・・・Dをクラスと称する複数の部分集合(塊)に分類する統計的分類処理である。クラス分類処理では、CPU22は、文書データD、D・・・Dの特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}にクラス分類のアルゴリズムに従った処理を施し、文書データD、D・・・Dを複数のクラスに分類する。 The classification process of step S311 is a statistical classification process for classifying document data D 1 , D 2 ... D d into a plurality of subsets (lumps) called classes. In the classification process, the CPU 22 uses the feature vector data z 1 = {z 11 , z 12 ... z 1l' }, z 2 = {z 21 , z 22 of the document data D 1 , D 2 ... D d. ... z 2l' } ... z d = {z d1 , z d2 ... z dl' } is processed according to the classification algorithm, and the document data D 1 , D 2 ... D d Is classified into multiple classes.

クラス分類の詳細を説明する。クラス分類では、次式(1)に示す線形分類器f(z)の重み係数w、w、w・・・wを既知のクラスの特徴ベクトルデータ群を用いた機械学習により設定し、線形分類器f(z)に文書データD、D・・・Dの特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}を代入し、この結果に基づいて、文書データD、D・・・Dのクラスを決定する。 The details of classification will be explained. In classification, set by the machine learning the weighting coefficients w 0, w 1, w 2 ··· w d using the feature vector data group known classes of linear classifier f (z) shown in the following equation (1) Then, in the linear classifier f (z), the feature vector data of the document data D 1 , D 2 ... D d z 1 = {z 11 , z 12 ... z 1l' }, z 2 = {z 21 , z 22 ... z 2l' } ... z d = {z d1 , z d2 ... z dl' }, and based on this result, the document data D 1 , D 2 ... D d Determine the class of.

f(z)=w+w+w+・・・+w・・・(1) f (z) = w 0 + w 1 z 1 + w 2 z 2 + ... + w d z d ... (1)

図7(A)は、クラスの数がクラスAとクラスBの2つであり、次元数l’がl’=2の場合におけるクラス分類の例を示す図である。機械学習では、教師データとなる特徴ベクトルデータ群(図7(A)の例では、クラスAの教師データであることを示すラベル情報と対応付けられた特徴ベクトルデータ群、及びクラスBの教師データであることを示すラベル情報と対応付けられた特徴ベクトルデータ群)を準備する。 FIG. 7A is a diagram showing an example of class classification when the number of classes is two, class A and class B, and the number of dimensions l'is l'= 2. In machine learning, feature vector data group that becomes teacher data (in the example of FIG. 7A, feature vector data group associated with label information indicating that it is class A teacher data, and class B teacher data. Prepare a feature vector data group) associated with the label information indicating that.

次に、線形分類器f(z)(図7(A)の例では、2次元の線形分類器f(z)=w+w+w)の重み係数を初期化する。その後、教師データを線形分類器f(z)に代入し、代入結果がラベル情報の示すクラスと違っていれば、重み係数を更新し、代入結果がラベル情報の示すクラスと合っていれば、線形分類器f(z)への代入が済んでいない別の教師データを選択する、という処理を繰り返し、重み係数を最適化する。 Next, the weighting coefficients of the linear classifier f (z) (in the example of FIG. 7A, the two-dimensional linear classifier f (z) = w 0 + w 1 z 1 + w 2 z 2) are initialized. After that, the teacher data is assigned to the linear classifier f (z), and if the assignment result is different from the class indicated by the label information, the weighting coefficient is updated, and if the assignment result matches the class indicated by the label information, the weight coefficient is updated. The process of selecting another teacher data that has not been assigned to the linear classifier f (z) is repeated to optimize the weighting coefficient.

機械学習による重み係数の最適化の後、CPU22は、文書データDの特徴ベクトルデータz={z11、z12}を線形分類器f(z)に代入して文書データDが属するクラスを決定し、文書データDの特徴ベクトルデータz={z21、z22}を線形分類器f(z)に代入して文書データDが属するクラスを決定し・・・文書データDの特徴ベクトルデータz={zd1、zd2}を線形分類器f(z)に代入して文書データDが属するクラスを決定する、というようにして、文書データD、D・・・Dを複数のクラスに分類する。 After optimization of the weighting coefficient by the machine learning, CPU 22 may belong document data D 1 by substituting the feature vector data z 1 = document data D 1 {z 11, z 12 } to linear classifier f (z) determine the class, the feature vector data z of the document data D 2 2 = {z 21, z 22} to determine the belonging class document data D 2 is substituted into the linear classifier f (z) · · · document data Features of D d Document data D 1 , D by substituting the vector data z d = {z d1 , z d2 } into the linear classifier f (z) to determine the class to which the document data D n belongs. 2 ... Classify D d into a plurality of classes.

図6におけるステップS400の解析結果出力処理は、クラス間の関係に基づいて、評価対象の検索語に関わる検索のニーズの解析結果を出力する処理である。図6に示すように、解析結果出力処理では、CPU22は、利用者端末10に解析結果画面のHTMLデータを送信し、利用者端末10のディスプレイに解析結果画面を表示させる。解析結果画面は、上位ページ分類を有する。図6の上位ページ分類におけるwebページの枠F(k=1〜d)は、同じクラスに属するものの枠Fが同じ色になるように、色分け表示されている。 The analysis result output process of step S400 in FIG. 6 is a process of outputting the analysis result of the search needs related to the search term to be evaluated based on the relationship between the classes. As shown in FIG. 6, in the analysis result output processing, the CPU 22 transmits HTML data of the analysis result screen to the user terminal 10 and causes the user terminal 10 to display the analysis result screen on the display. The analysis result screen has a higher page classification. The frame F k (k = 1 to d) of the web page in the upper page classification of FIG. 6 is color-coded so that the frame F k of those belonging to the same class has the same color.

ステップS450の評価軸設定処理は、クラス分類処理の評価軸を設定する処理である。図7(B)及び図7(C)に示すように、ユーザは、線形分類器f(z)の教師データを別のもの(図7(B)の例では、クラスA、クラスB1、及びクラスB2の教師データ、図7(C)の例では、クラスC及びクラスDの教師データ)に置き換える。ユーザにより、教師データを置き換える操作が行われると、CPU22は、置き換え後の教師データを用いた機械学習により線形分類器f(z)の重み係数を最適化し、線形分類器f(z)により、文書データD、D・・・Dが属するクラスを決定する。 The evaluation axis setting process in step S450 is a process of setting the evaluation axis of the classification process. As shown in FIGS. 7 (B) and 7 (C), the user sets the teacher data of the linear classifier f (z) to another (in the example of FIG. 7 (B), class A, class B1, and The teacher data of class B2, in the example of FIG. 7C, the teacher data of class C and class D) is replaced. When the user performs an operation to replace the teacher data, the CPU 22 optimizes the weight coefficient of the linear classifier f (z) by machine learning using the replaced teacher data, and the linear classifier f (z) uses the linear classifier f (z). The class to which the document data D 1 , D 2 ... D d belongs is determined.

以上が、本実施形態の詳細である。本実施形態では、図8に示すように、CPU22は、評価対象である1つの検索語の検索結果内の上位d個の文書データD、D・・・Dの内容及び構造を特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}に変換し、特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}にクラス分類の処理を施し、文書データD、D・・・Dを複数の部分集合(クラス)に分類する。CPU22は、文書データD、D・・・Dのクラス分類の処理結果である複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第1実施形態と同様の効果が得られる。 The above is the details of this embodiment. In the present embodiment, as shown in FIG. 8, the CPU 22 is characterized by the content and structure of the top d document data D 1 , D 2 ... D d in the search result of one search term to be evaluated. Vector data z 1 = {z 11 , z 12 ... z 1l' }, z 2 = {z 21 , z 22 ... z 2l' } ... z d = {z d1 , z d2 ... Converted to z dl' }, feature vector data z 1 = {z 11 , z 12 ... z 1l' }, z 2 = {z 21 , z 22 ... z 2l' } ... z d = The {z d1 , z d2 ... z dl' } is subjected to the classification process, and the document data D 1 , D 2 ... D d are classified into a plurality of subsets (classes). The CPU 22 outputs an analysis result of the nature of the search needs based on the relationship between a plurality of subsets which are the processing results of the classification of the document data D 1 , D 2 ... D d. The same effect as that of the first embodiment can be obtained by this embodiment as well.

<第3実施形態>
本発明の第3実施形態を説明する。図9は、第3実施形態の検索ニーズ評価装置20のCPU22が評価プログラム26に従って実行する評価方法の流れを示すフローチャートである。CPU22は、評価プログラム26を実行することで、取得処理(S100)を実行する取得手段、定量化処理(S200)を実行する定量化手段、加算処理を実行する加算手段(S210)、類似度特定処理(S320)を実行する類似度特定手段、コミュニティ検出処理(S330)を実行するコミュニティ検出手段、解析結果出力処理(S400)を実行する解析結果出力手段、及び評価軸設定処理(S450)を実行する評価軸設定手段として機能する。
<Third Embodiment>
A third embodiment of the present invention will be described. FIG. 9 is a flowchart showing a flow of an evaluation method executed by the CPU 22 of the search needs evaluation device 20 of the third embodiment according to the evaluation program 26. By executing the evaluation program 26, the CPU 22 executes the acquisition process (S100), the quantification means for executing the quantification process (S200), the addition means for executing the addition process (S210), and the similarity identification. The similarity identification means for executing the process (S320), the community detection means for executing the community detection process (S330), the analysis result output means for executing the analysis result output process (S400), and the evaluation axis setting process (S450) are executed. It functions as an evaluation axis setting means.

図9と第1実施形態の図2とを比較すると、図9では、図2のステップS330の次元縮約処理が無い。本実施形態では、文書データD、D・・・Dの特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}を処理対象として、ステップS320の類似度特定処理及びステップS330のコミュニティ検出処理を実行する。 Comparing FIG. 9 with FIG. 2 of the first embodiment, in FIG. 9, there is no dimension reduction process in step S330 of FIG. In the present embodiment, document data D 1, D 2 ··· D d of the feature vector data z 1 = {z 11, z 12 ··· z 1l '}, z 2 = {z 21, z 22 ··· With z 2l' } ... z d = {z d1 , z d2 ... z dl' } as the processing target, the similarity identification processing in step S320 and the community detection processing in step S330 are executed.

ステップS320の類似度特定処理は、文書データD間の類似度を求める処理である。類似度特定処理では、文書データD(k=1〜d)内における2つの文書データDの全ての組み合わせについて、文書データD間の相関係数を求め、この相関係数を文書データD間の類似度とする。相関係数は、ピアソンの相関係数であってもよいし、スパース性を考慮した相関係数であってもよい。また、文書データD間の分散共分散行列、ユークリッド距離、ミンコフスキー距離、又は、COS類似度を、文書データD間の類似度としてもよい。 The similarity identification process in step S320 is a process for obtaining the similarity between document data Dk. In the similarity identification process, the correlation coefficient between the document data D k is obtained for all combinations of the two document data D k in the document data D k (k = 1 to d), and this correlation coefficient is used as the document data. Let it be the similarity between D k. The correlation coefficient may be a Pearson's correlation coefficient or a correlation coefficient in consideration of sparsity. Further, the variance-covariance matrix between the document data D k , the Euclidean distance, the Minkowski distance, or the COS similarity may be used as the similarity between the document data D k.

ステップS330のコミュニティ検出処理は、文書データD、D・・・Dをコミュニティと称する複数の部分集合に分類する統計的分類処理である。コミュニティ検出処理では、CPU22は、文書データD、D・・・Dの特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}にコミュニティ検出のアルゴリズムに従った処理を施し、文書データD、D・・・Dを複数のコミュニティに分類する。 The community detection process in step S330 is a statistical classification process for classifying document data D 1 , D 2 ... D d into a plurality of subsets called communities. In the community detection process, the CPU 22 uses the feature vector data z 1 = {z 11 , z 12 ... z 1l' }, z 2 = {z 21 , z 22 of the document data D 1 , D 2 ... D d. ... z 2l' } ... z d = {z d1 , z d2 ... z dl' } is processed according to the community detection algorithm, and the document data D 1 , D 2 ... D d Is categorized into multiple communities.

コミュニティ検出の詳細を説明する。コミュニティ検出は、クラスタリングの一種である。コミュニティ検出では、文書データD、D・・・Dの各々をノードとし、文書データD間の類似度を重みとしたエッジを持つ重み付き無向グラフを生成する。その上で、重み付き無向グラフにおける各ノードの媒介中心性の算出と、媒介中心性が最大のエッジの除去とを繰り返すことにより、文書データD、D・・・Dを階層構造をもった複数のコミュニティに分類する。 The details of community detection will be explained. Community detection is a type of clustering. In the community detection, each of the document data D 1 , D 2 ... D d is used as a node, and a weighted undirected graph having an edge weighted by the similarity between the document data D k is generated. Then, by repeating the calculation of the mediation centrality of each node in the weighted undirected graph and the removal of the edge having the maximum mediation centrality, the document data D 1 , D 2 ... D d are hierarchically structured. Classify into multiple communities with.

ステップS400の解析結果出力処理は、コミュニティ間の関係に基づいて、評価対象の検索語に関わる検索のニーズの解析結果を出力する処理である。図9に示すように、解析結果出力処理では、CPU22は、利用者端末10に解析結果画面のHTMLデータを送信し、利用者端末10のディスプレイに解析結果画面を表示させる。解析結果画面は、上位ページ分類とデンドログラム8とを有する。図9の上位ページ分類におけるwebページの枠F(k=1〜d)は、同じコミュニティに属するものの枠Fが同じ色になるように、色分け表示されている。デンドログラム8は、コミュニティ検出処理の処理過程において得られたコミュニティの階層構造を示すものである。 The analysis result output process of step S400 is a process of outputting the analysis result of the search needs related to the search term to be evaluated based on the relationship between the communities. As shown in FIG. 9, in the analysis result output processing, the CPU 22 transmits HTML data of the analysis result screen to the user terminal 10 and causes the user terminal 10 to display the analysis result screen on the display. The analysis result screen has a high-level page classification and a denogram 8. The frame F k (k = 1 to d) of the web page in the upper page classification of FIG. 9 is color-coded so that the frame F k of those belonging to the same community has the same color. The denogram 8 shows the hierarchical structure of the community obtained in the processing process of the community detection process.

ステップS450の評価軸設定処理の内容は、第1実施形態と同様である。 The content of the evaluation axis setting process in step S450 is the same as that of the first embodiment.

以上が、本実施形態の詳細である。本実施形態では、図10に示すように、CPU22は、評価対象である1つの検索語の検索結果内の上位d個の文書データD、D・・・Dの内容及び構造を特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}に変換し、特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}に類似度特定とコミュニティ検出の処理を施し、文書データD、D・・・Dを複数の部分集合(コミュニティ)に分類する。CPU22は、文書データD、D・・・Dのコミュニティ検出の処理結果である複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第1実施形態と同様の効果が得られる。 The above is the details of this embodiment. In the present embodiment, as shown in FIG. 10, the CPU 22 is characterized by the content and structure of the top d document data D 1 , D 2 ... D d in the search result of one search term to be evaluated. Vector data z 1 = {z 11 , z 12 ... z 1l' }, z 2 = {z 21 , z 22 ... z 2l' } ... z d = {z d1 , z d2 ... Converted to z dl' }, feature vector data z 1 = {z 11 , z 12 ... z 1l' }, z 2 = {z 21 , z 22 ... z 2l' } ... z d = The {z d1 , z d2 ... z dl' } is subjected to the processing of similarity identification and community detection, and the document data D 1 , D 2 ... D d are classified into a plurality of subsets (communities). The CPU 22 outputs the analysis result of the nature of the search needs based on the relationship between the plurality of subsets which are the processing results of the community detection of the document data D 1 , D 2 ... D d. The same effect as that of the first embodiment can be obtained by this embodiment as well.

<第4実施形態>
本実施形態の第4実施形態を説明する。上記第1〜第3実施形態の検索ニーズ評価サービスは、ユーザから1つの検索語を受け取り、その検索語の検索結果内の上位d個のwebページを、所定の統計的分類処理のアルゴリズムにより分類し、この分類により得られた複数のwebページの集合を解析結果として提示するものであった。これに対し、本実施形態は、ユーザから、核ワードと様々なサブワードとを組み合わせた複数の検索語A、B、C・・・(例えば、「AI 知能」、「AI 人工」、「AI データ」・・・など)受け取り、受け取った複数の検索語A、B、C・・・の各々の上位d個の文書データ群を、所定の統計的分類処理のアルゴリズムにより分類し、この分類により得られた複数の文書データの集合を、核ワードである検索語自体の検索のニーズの性質の解析結果として提示するものである。
<Fourth Embodiment>
A fourth embodiment of the present embodiment will be described. The search needs evaluation service of the first to third embodiments receives one search term from the user, and classifies the top d web pages in the search result of the search term by a predetermined statistical classification processing algorithm. However, a set of a plurality of web pages obtained by this classification was presented as an analysis result. On the other hand, in the present embodiment, a plurality of search terms A, B, C ... (For example, "AI intelligence", "AI artificial", "AI data") in which a nuclear word and various subwords are combined are used by the user. "... etc.) The upper d document data groups of each of the received and received multiple search terms A, B, C ... are classified by a predetermined statistical classification processing algorithm, and obtained by this classification. The set of a plurality of document data obtained is presented as an analysis result of the nature of the search needs of the search term itself, which is the core word.

図11は、第4実施形態の検索ニーズ評価装置20のCPU22が評価プログラム26に従って実行する評価方法の流れを示すフローチャートである。CPU22は、評価プログラム26を実行することで、取得処理(S100)を実行する取得手段、定量化処理(S200)を実行する定量化手段、加算処理を実行する加算手段(S210)、合成処理(S250)を実行する合成手段、次元縮約処理(S300)を実行する次元縮約手段、クラスタリング処理(S310)を実行する分類手段、解析結果出力処理(S401)を実行する解析結果出力手段として機能する。 FIG. 11 is a flowchart showing a flow of an evaluation method executed by the CPU 22 of the search needs evaluation device 20 of the fourth embodiment according to the evaluation program 26. The CPU 22 executes the evaluation program 26 to execute the acquisition process (S100), the quantification means for executing the quantification process (S200), the addition means for executing the addition process (S210), and the synthesis process (S210). Functions as a synthesis means for executing S250), a dimension reduction means for executing dimension reduction processing (S300), a classification means for executing clustering processing (S310), and an analysis result output means for executing analysis result output processing (S401). do.

図11と第1実施形態の図2とを比較すると、図11では、ステップS100の取得処理において、CPU22は、利用者端末10から、複数の検索語A、B、C・・・を受け取り、複数の検索語A、B、C・・・の各々について、検索語毎の検索結果内の上位d個のwebページの文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・を取得する。この後、CPU22は、検索語毎の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・について、ステップS200の定量化処理、及びステップS210の加算処理を実行し、検索語Aの上位文書についての処理結果である特徴ベクトルデータzA1={zA11、zA12・・・zA1l}、zA2={zA21、zA22・・・zA2l}・・・zAd={zAd1、zAd2・・・zAdl}、検索語Bの上位文書についての処理結果である特徴ベクトルデータzB1={zB11、zB12・・・zB1l}、zB2={zB21、zB22・・・zB2l}・・・zBd={zBd1、zBd2・・・zBdl}、検索語Cの上位文書についての処理結果である特徴ベクトルデータzC1={zC11、zC12・・・zC1l}、zC2={zC21、zC22・・・zC2l}・・・zCd={zCd1、zCd2・・・zCdl}・・・を個別に生成する。 Comparing FIG. 11 with FIG. 2 of the first embodiment, in FIG. 11, in the acquisition process of step S100, the CPU 22 receives a plurality of search terms A, B, C ... From the user terminal 10. For each of the plurality of search terms A, B, C ..., the document data of the top d web pages in the search results for each search term D Ak (k = 1 to d), D Bk (k = 1 to 1). d), to obtain a D Ck (k = 1~d) ··· . Thereafter, CPU 22 is document data D Ak (k = 1~d) for each search term, D Bk (k = 1~d) , the D Ck (k = 1~d) ··· , Determination of step S200 The feature vector data z A1 = {z A11 , z A12 ... z A1l }, z A2 = {z A21, which is the processing result of the higher-level document of the search term A by executing the conversion process and the addition process of step S210. , Z A22 ... z A2l } ... z Ad = {z Ad1 , z Ad2 ... z Adl }, Feature vector data z B1 = {z B11 , which is the processing result of the higher-level document of the search term B. z B12 ... z B1l }, z B2 = {z B21 , z B22 ... z B2l } ... z Bd = {z Bd1 , z Bd2 ... z Bdl } Feature vector data z C1 = {z C11 , z C12 ... z C1l }, z C2 = {z C21 , z C22 ... z C2l } ... z Cd = {z Cd1 , z Cd2 ... z Cdl } ... Are generated individually.

図11では、ステップS210の加算処理とステップS300の次元縮約処理の間にステップS250の合成処理がある。合成処理では、CPU22は、検索語Aの上位文書特徴ベクトルデータzA1={zA11、zA12・・・zA1l}、zA2={zA21、zA22・・・zA2l}・・・zAd={zAd1、zAd2・・・zAdl}、検索語Bの上位文書特徴ベクトルデータzB1={zB11、zB12・・・zB1l}、zB2={zB21、zB22・・・zB2l}・・・zBd={zBd1、zBd2・・・zBdl}、検索語Cの上位文書特徴ベクトルデータzC1={zC11、zC12・・・zC1l}、zC2={zC21、zC22・・・zC2l}・・・zCd={zCd1、zCd2・・・zCdl}・・・に所定の統計処理を施し、検索語Aの上位文書特徴ベクトルデータzA1={zA11、zA12・・・zA1l}、zA2={zA21、zA22・・・zA2l}・・・zAd={zAd1、zAd2・・・zAdl}を合成した特徴ベクトルデータz={zA1、zA2・・・zAl}、検索語Bの上位文書特徴ベクトルデータzB1={zB11、zB12・・・zB1l}、zB2={zB21、zB22・・・zB2l}・・・zBd={zBd1、zBd2・・・zBdl}を合成した特徴ベクトルデータz={zB1、zB2・・・zBl}、検索語Cの上位文書特徴ベクトルデータzC1={zC11、zC12・・・zC1l}、zC2={zC21、zC22・・・zC2l}・・・zCd={zCd1、zCd2・・・zCdl}を合成した特徴ベクトルデータz={zC1、zC2・・・zCl}・・・を個別に生成する。 In FIG. 11, there is a synthesis process of step S250 between the addition process of step S210 and the dimension reduction process of step S300. In the synthesis process, the CPU 22 uses the higher-level document feature vector data z A1 = {z A11 , z A12 ... z A1l }, z A2 = {z A21 , z A22 ... z A2l } ... z Ad = {z Ad1 , z Ad2 ... z Adl }, higher-level document feature vector data of search term B z B1 = {z B11 , z B12 ... z B1l }, z B2 = {z B21 , z B22 ... z B2l } ... z Bd = {z Bd1 , z Bd2 ... z Bdl }, higher-level document feature vector data of search term C z C1 = {z C11 , z C12 ... z C1l }, z C2 = {z C21 , z C22 ... z C2l } ... z Cd = {z Cd1 , z Cd2 ... z Cdl } ... Feature vector data z A1 = {z A11 , z A12 ... z A1l }, z A2 = {z A21 , z A22 ... z A2l } ... z Ad = {z Ad1 , z Ad2 ... z Feature vector data z A = {z A1 , z A2 ... z Al }, which is a composite of Adl }, higher-level document feature vector data z B1 = {z B11 , z B12 ... z B1l }, z B2 = {z B21, z B22 ··· z B2l} ··· z Bd = {z Bd1, z Bd2 ··· z Bdl} the combined feature vector data z B = {z B1, z B2 ··· z Bl }, higher-level document feature vector data of search term C z C1 = {z C11 , z C12 ... z C1l }, z C2 = {z C21 , z C22 ... z C2l } ... z Cd = Feature vector data z C = {z C1 , z C2 ... z Cl } ... Combining {z Cd1 , z Cd2 ... z Cdl} ... is individually generated.

この後、CPU22は、検索語Aの特徴ベクトルデータz={zA1、zA2・・・zAl’}、検索語Bの特徴ベクトルデータz={zB1、zB2・・・zBl’}、検索語Cの特徴ベクトルデータz={zC1、zC2・・・zCl’}・・・を処理対象として、ステップS310のクラスタリング処理、及びステップS401の解析結果出力処理を実行する。すなわち、本実施形態では、検索語毎にクラスタリングをするのではなく、全ての文書をまとめてクラスタリングを行う。 After that, the CPU 22 uses the feature vector data z A = {z A1 , z A2 ... z Al' } of the search term A, and the feature vector data z B = {z B1 , z B2 ... z of the search term B. Bl' }, feature vector data of search term C z C = {z C1 , z C2 ... z Cl' } ... The clustering process in step S310 and the analysis result output process in step S401 are performed. Run. That is, in the present embodiment, all documents are collectively clustered instead of clustering for each search term.

図11のステップS401の解析結果出力処理では、利用者端末10のディスプレイに解析結果画面を表示させる。解析結果画面は、マッピング画像7を有する。マッピング画像7は、2次元平面に、複数の検索語A、B、C・・・の各々の位置を示すマークMK、MK・・・MKを配置したものである。マッピング画像7は、ステップS250、S300、及びS310の処理結果に基づいて生成される。 In the analysis result output process of step S401 of FIG. 11, the analysis result screen is displayed on the display of the user terminal 10. The analysis result screen has a mapping image 7. Mapping image 7, a two-dimensional plane, in which a plurality of search terms A, B, and C marks MK 1 indicating the location of each of the ···, MK 2 ··· MK L arranged. The mapping image 7 is generated based on the processing results of steps S250, S300, and S310.

以上が、本実施形態の詳細である。本実施形態では、図12に示すように、CPU22は、評価対象である複数の検索語A、B、C・・・の各々について、検索語毎の検索結果内の上位d個の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・を取得し、検索語毎の検索結果内の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・の内容及び構造を多次元の特徴ベクトルデータzA1、zA2・・・zAd、zB1、zB2・・・zBd、zC1、zC2・・・zCd・・・に変換し、文書毎の特徴ベクトルデータに所定の統計処理を施し、検索語毎の特徴ベクトルデータを合成する。その上で、合成した特徴ベクトルデータz、z、z・・・にクラスタリングの処理を施し、検索語A、検索語B、検索語C・・・を複数の部分集合(クラスタ)に分類し、クラスタリングの処理結果である複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果であるマッピング画像7を出力する。よって、本実施形態によると、マッピング画像7を参照することにより、共通の言葉を含む様々な検索語に関わる検索のニーズの性質がどの程度近いのかを直感的に把握することができる。よって、本実施形態によっても、検索語の言葉に異なるニーズがどの程度混在していて、ニーズの性質がどのようなものであるか、ということの解析を効率よく行うことができる。 The above is the details of this embodiment. In the present embodiment, as shown in FIG. 12, the CPU 22 has the top d document data D in the search result for each search term for each of the plurality of search terms A, B, C ... Ak (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) to get the ..., document data D Ak in the search results for each search term (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) the contents and structure of ... multidimensional feature vector data z A1, z A2 ··· z Ad , z Converted to B1 , z B2 ... z Bd , z C1 , z C2 ... z Cd ..., the feature vector data for each document is subjected to predetermined statistical processing, and the feature vector data for each search term is synthesized. do. Then, the synthesized feature vector data z A , z B , z C ... are subjected to clustering processing, and the search term A, search term B, search term C ... are combined into a plurality of subsets (clusters). The mapping image 7 which is the analysis result of the nature of the search need is output based on the relationship between a plurality of subsets which are the result of classification and the clustering process. Therefore, according to the present embodiment, by referring to the mapping image 7, it is possible to intuitively grasp how close the nature of the search needs related to various search terms including common words is. Therefore, even in this embodiment, it is possible to efficiently analyze how much different needs are mixed in the words of the search term and what the nature of the needs is.

<第5実施形態>
本発明の第5実施形態を説明する。図13は、第5実施形態の検索ニーズ評価装置20のCPU22が評価プログラム26に従って実行する評価方法の流れを示すフローチャートである。CPU22は、評価プログラム26を実行することで、取得処理(S100)を実行する取得手段、定量化処理(S200)を実行する定量化手段、加算処理を実行する加算手段(S210)、次元縮約処理(S300)を実行する次元縮約手段、クラスタリング処理(S310)を実行する分類手段、合成処理(S350)を実行する合成手段、解析結果出力処理(S401)を実行する解析結果出力手段として機能する。
<Fifth Embodiment>
A fifth embodiment of the present invention will be described. FIG. 13 is a flowchart showing a flow of an evaluation method executed by the CPU 22 of the search needs evaluation device 20 of the fifth embodiment according to the evaluation program 26. By executing the evaluation program 26, the CPU 22 executes the acquisition process (S100), the quantification means for executing the quantification process (S200), the addition means for executing the addition process (S210), and the dimension reduction. Functions as a quantification means for executing the process (S300), a classification means for executing the clustering process (S310), a synthesis means for executing the synthesis process (S350), and an analysis result output means for executing the analysis result output process (S401). do.

図13と第4実施形態の図11とを比較すると、図13では、図11のステップS250の合成処理が無く、ステップS310とステップS401の間にステップS350の合成処理がある。本実施形態では、CPU22は、検索語Aの上位文書特徴ベクトルデータzA1={zA11、zA12・・・zA1l}、zA2={zA21、zA22・・・zA2l}・・・zAd={zAd1、zAd2・・・zAdl}、検索語Bの上位文書特徴ベクトルデータzB1={zB11、zB12・・・zB1l}、zB2={zB21、zB22・・・zB2l}・・・zBd={zBd1、zBd2・・・zBdl}、検索語Cの上位文書特徴ベクトルデータzC1={zC11、zC12・・・zC1l}、zC2={zC21、zC22・・・zC2l}・・・zCd={zCd1、zCd2・・・zCdl}・・・を処理対象として、ステップS300の次元縮約処理及びステップS310のクラスタリング処理を実行し、文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・のクラスタリング処理の処理結果を取得する。ステップS350の合成処理では、CPU22は、文書毎のクラスタリングの処理結果に所定の統計処理を施し、検索語毎のクラスタリングの処理結果を合成する。 Comparing FIG. 13 with FIG. 11 of the fourth embodiment, in FIG. 13, there is no synthesis process of step S250 of FIG. 11, and there is a synthesis process of step S350 between steps S310 and S401. In the present embodiment, the CPU 22 uses the higher-level document feature vector data z A1 = {z A11 , z A12 ... z A1l }, z A2 = {z A21 , z A22 ... z A2l } of the search term A ... · Z Ad = {z Ad1 , z Ad2 ... z Adl }, higher-level document feature vector data of search term B z B1 = {z B11 , z B12 ... z B1l }, z B2 = {z B21 , z B22 ... z B2l } ... z Bd = {z Bd1 , z Bd2 ... z Bdl }, higher-level document feature vector data of search term C z C1 = {z C11 , z C12 ... z C1l } , Z C2 = {z C21 , z C22 ... z C2l } ... z Cd = {z Cd1 , z Cd2 ... z Cdl } ... clustering process of step S310 is executed, the document data D Ak (k = 1~d), D Bk (k = 1~d), the D Ck (k = 1~d) processing result of the clustering process.. get. In the synthesis process of step S350, the CPU 22 performs a predetermined statistical process on the clustering process result for each document, and synthesizes the clustering process result for each search term.

図13のステップS401の解析結果出力処理では、利用者端末10のディスプレイに解析結果画面を表示させる。図19の解析結果画面のマッピング画像7は、ステップS300、S310、及びS350の処理結果に基づいて生成される。 In the analysis result output process of step S401 of FIG. 13, the analysis result screen is displayed on the display of the user terminal 10. The mapping image 7 of the analysis result screen of FIG. 19 is generated based on the processing results of steps S300, S310, and S350.

以上が、本実施形態の構成の詳細である。本実施形態では、図14に示すように、CPU22は、評価対象である複数の検索語A、B、C・・・の各々について、検索語毎の検索結果内の上位d個の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・を取得し、検索語毎の検索結果内の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・の内容及び構造を多次元の特徴ベクトルデータzA1、zA2・・・zAd、zB1、zB2・・・zBd、zC1、zC2・・・zCd・・・に変換し、文書毎の特徴ベクトルデータにクラスタリングのアルゴリズムに従った処理を施し、複数の文書データを複数の部分集合に分類する。その上で、クラスタリングの処理結果に所定の統計処理を施し、検索語毎のクラスタリングの処理結果を合成し、合成した部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第4実施形態と同様の効果が得られる。 The above is the details of the configuration of the present embodiment. In the present embodiment, as shown in FIG. 14, the CPU 22 has the top d document data D in the search result for each search term for each of the plurality of search terms A, B, C ... Ak (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) to get the ..., document data D Ak in the search results for each search term (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) the contents and structure of ... multidimensional feature vector data z A1, z A2 ··· z Ad , z Converted to B1 , z B2 ... z Bd , z C1 , z C2 ... z Cd ..., and processed the feature vector data for each document according to the clustering algorithm to generate multiple document data. Classify into a subset of. After that, the clustering processing result is subjected to predetermined statistical processing, the clustering processing result for each search term is synthesized, and the analysis result of the nature of the search needs is output based on the relationship between the synthesized subsets. .. The same effect as that of the fourth embodiment can be obtained by this embodiment as well.

<第6実施形態>
本実施形態の第6実施形態を説明する。図15は、第6実施形態の検索ニーズ評価装置20のCPU22が評価プログラム26に従って実行する評価方法の流れを示すフローチャートである。CPU22は、評価プログラム26を実行することで、取得処理(S100)を実行する取得手段、定量化処理(S200)を実行する定量化手段、加算処理を実行する加算手段(S210)、合成処理(S250)を実行する合成手段、次元縮約処理(S300)を実行する次元縮約手段、クラス分類処理(S311)を実行する分類手段、解析結果出力処理(S401)を実行する解析結果出力手段として機能する。
<Sixth Embodiment>
A sixth embodiment of the present embodiment will be described. FIG. 15 is a flowchart showing a flow of an evaluation method executed by the CPU 22 of the search needs evaluation device 20 of the sixth embodiment according to the evaluation program 26. By executing the evaluation program 26, the CPU 22 executes the acquisition process (S100), the quantification means for executing the quantification process (S200), the addition means for executing the addition process (S210), and the synthesis process (S210). As a synthesis means for executing S250), a dimension reduction means for executing dimension reduction processing (S300), a classification means for executing classification processing (S311), and an analysis result output means for executing analysis result output processing (S401). Function.

図15と第2実施形態の図6とを比較すると、図15では、ステップS100の取得処理において、CPU22は、利用者端末10から、複数の検索語A、B、C・・・を受け取り、複数の検索語A、B、C・・・の各々について、検索語毎の検索結果内の上位d個のwebページの文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・を取得する。この後、CPU22は、検索語毎の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・について、ステップS200の定量化処理、及びステップS210の加算処理を実行し、検索語Aの上位文書についての処理結果である特徴ベクトルデータzA1={zA11、zA12・・・zA1l}、zA2={zA21、zA22・・・zA2l}・・・zAd={zAd1、zAd2・・・zAdl}、検索語Bの上位文書についての処理結果である特徴ベクトルデータzB1={zB11、zB12・・・zB1l}、zB2={zB21、zB22・・・zB2l}・・・zBd={zBd1、zBd2・・・zBdl}、検索語Cの上位文書についての処理結果である特徴ベクトルデータzC1={zC11、zC12・・・zC1l}、zC2={zC21、zC22・・・zC2l}・・・zCd={zCd1、zCd2・・・zCdl}・・・を個別に生成する。 Comparing FIG. 15 with FIG. 6 of the second embodiment, in FIG. 15, in the acquisition process of step S100, the CPU 22 receives a plurality of search terms A, B, C ... From the user terminal 10. For each of the plurality of search terms A, B, C ..., the document data of the top d web pages in the search results for each search term D Ak (k = 1 to d), D Bk (k = 1 to 1). d), to obtain a D Ck (k = 1~d) ··· . Thereafter, CPU 22 is document data D Ak (k = 1~d) for each search term, D Bk (k = 1~d) , the D Ck (k = 1~d) ··· , Determination of step S200 The feature vector data z A1 = {z A11 , z A12 ... z A1l }, z A2 = {z A21, which is the processing result of the higher-level document of the search term A by executing the conversion process and the addition process of step S210. , Z A22 ... z A2l } ... z Ad = {z Ad1 , z Ad2 ... z Adl }, Feature vector data z B1 = {z B11 , which is the processing result of the higher-level document of the search term B. z B12 ... z B1l }, z B2 = {z B21 , z B22 ... z B2l } ... z Bd = {z Bd1 , z Bd2 ... z Bdl } Feature vector data z C1 = {z C11 , z C12 ... z C1l }, z C2 = {z C21 , z C22 ... z C2l } ... z Cd = {z Cd1 , z Cd2 ... z Cdl } ... Are generated individually.

図15では、ステップS210の加算処理とステップS300の次元縮約処理の間にステップS250の合成処理がある。合成処理では、CPU22は、検索語Aの上位文書特徴ベクトルデータzA1={zA11、zA12・・・zA1l}、zA2={zA21、zA22・・・zA2l}・・・zAd={zAd1、zAd2・・・zAdl}、検索語Bの上位文書特徴ベクトルデータzB1={zB11、zB12・・・zB1l}、zB2={zB21、zB22・・・zB2l}・・・zBd={zBd1、zBd2・・・zBdl}、検索語Cの上位文書特徴ベクトルデータzC1={zC11、zC12・・・zC1l}、zC2={zC21、zC22・・・zC2l}・・・zCd={zCd1、zCd2・・・zCdl}・・・に所定の統計処理を施し、検索語Aの上位文書特徴ベクトルデータzA1={zA11、zA12・・・zA1l}、zA2={zA21、zA22・・・zA2l}・・・zAd={zAd1、zAd2・・・zAdl}を合成した検索語Aの特徴ベクトルデータz={zA1、zA2・・・zAl}、検索語Bの上位文書特徴ベクトルデータzB1={zB11、zB12・・・zB1l}、zB2={zB21、zB22・・・zB2l}・・・zBd={zBd1、zBd2・・・zBdl}を合成した検索語Bの特徴ベクトルデータz={zB1、zB2・・・zBl}、検索語Cの上位文書特徴ベクトルデータzC1={zC11、zC12・・・zC1l}、zC2={zC21、zC22・・・zC2l}・・・zCd={zCd1、zCd2・・・zCdl}を合成した検索語Cの特徴ベクトルデータz={zC1、zC2・・・zCl}・・・を個別に生成する。 In FIG. 15, there is a synthesis process of step S250 between the addition process of step S210 and the dimension reduction process of step S300. In the synthesis process, the CPU 22 uses the higher-level document feature vector data z A1 = {z A11 , z A12 ... z A1l }, z A2 = {z A21 , z A22 ... z A2l } ... z Ad = {z Ad1 , z Ad2 ... z Adl }, higher-level document feature vector data of search term B z B1 = {z B11 , z B12 ... z B1l }, z B2 = {z B21 , z B22 ... z B2l } ... z Bd = {z Bd1 , z Bd2 ... z Bdl }, higher-level document feature vector data of search term C z C1 = {z C11 , z C12 ... z C1l }, z C2 = {z C21 , z C22 ... z C2l } ... z Cd = {z Cd1 , z Cd2 ... z Cdl } ... Feature vector data z A1 = {z A11 , z A12 ... z A1l }, z A2 = {z A21 , z A22 ... z A2l } ... z Ad = {z Ad1 , z Ad2 ... z Feature vector data of search term A synthesized from Adl } z A = {z A1 , z A2 ... z Al }, higher-level document feature vector data of search term B z B1 = {z B11 , z B12 ... z B1l}, z B2 = {z B21, z B22 ··· z B2l} ··· z Bd = {z Bd1, z Bd2 ··· z Bdl} feature vector a synthesized search word B data z B = { z B1 , z B2 ... z Bl }, higher-level document feature vector data of search term C z C1 = {z C11 , z C12 ... z C1l }, z C2 = {z C21 , z C22 ... z C2l } ・ ・ ・ z Cd = {z Cd1 , z Cd2・ ・ ・ z Cdl } ・ ・ ・ Characteristic vector data of search term C synthesized z C = {z C1 , z C2・ ・ ・ z Cl } ・ ・ ・To generate.

この後、CPU22は、検索語Aの特徴ベクトルデータz={zA1、zA2・・・zAl’}、検索語Bの特徴ベクトルデータz={zB1、zB2・・・zBl’}、検索語Cの特徴ベクトルデータz={zC1、zC2・・・zCl’}・・・を処理対象として、ステップS311のクラス分類処理、及びステップS401の解析結果出力処理を実行する。すなわち、本実施形態では、検索語毎にクラス分類をするのではなく、全ての文書をまとめてクラス分類を行う。 After that, the CPU 22 uses the feature vector data z A = {z A1 , z A2 ... z Al' } of the search term A, and the feature vector data z B = {z B1 , z B2 ... z of the search term B. Bl' }, feature vector data of search term C z C = {z C1 , z C2 ... z Cl' } ..., the classification process of step S311 and the analysis result output process of step S401. To execute. That is, in the present embodiment, all documents are collectively classified, instead of being classified for each search term.

図15のステップS401の解析結果出力処理では、利用者端末10のディスプレイに解析結果画面を表示させる。図15の解析結果画面のマッピング画像7は、ステップS250、S300、及びS311の処理結果に基づいて生成される。 In the analysis result output process of step S401 of FIG. 15, the analysis result screen is displayed on the display of the user terminal 10. The mapping image 7 of the analysis result screen of FIG. 15 is generated based on the processing results of steps S250, S300, and S311.

以上が、本実施形態の詳細である。本実施形態では、図16に示すように、CPU22は、評価対象である複数の検索語A、B、C・・・の各々について、検索語毎の検索結果内の上位d個の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・を取得し、検索語毎の検索結果内の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・の内容及び構造を多次元の特徴ベクトルデータzA1、zA2・・・zAd、zB1、zB2・・・zBd、zC1、zC2・・・zCd・・・に変換し、文書毎の特徴ベクトルデータに所定の統計処理を施し、検索語毎の特徴ベクトルデータを合成する。その上で、合成した特徴ベクトルデータz、z、z・・・にクラス分類の処理を施し、検索語A、B、C・・・を複数の部分集合(クラス)に分類し、クラス分類の処理結果である複数の部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第4実施形態と同様の効果が得られる。 The above is the details of this embodiment. In the present embodiment, as shown in FIG. 16, the CPU 22 has the top d document data D in the search result for each search term for each of the plurality of search terms A, B, C ... Ak (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) to get the ..., document data D Ak in the search results for each search term (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) the contents and structure of ... multidimensional feature vector data z A1, z A2 ··· z Ad , z Converted to B1 , z B2 ... z Bd , z C1 , z C2 ... z Cd ..., the feature vector data for each document is subjected to predetermined statistical processing, and the feature vector data for each search term is synthesized. do. Then, the synthesized feature vector data z A , z B , z C ... Is subjected to classification processing, and the search terms A, B, C ... Are classified into a plurality of subsets (classes). The analysis result of the nature of the search needs is output based on the relationship between a plurality of subsets which is the processing result of the classification. The same effect as that of the fourth embodiment can be obtained by this embodiment as well.

<第7実施形態>
本発明の第7実施形態を説明する。図17は、第7実施形態の検索ニーズ評価装置20のCPU22が評価プログラム26に従って実行する評価方法の流れを示すフローチャートである。CPU22は、評価プログラム26を実行することで、取得処理(S100)を実行する取得手段、定量化処理(S200)を実行する定量化手段、加算処理を実行する加算手段(S210)、次元縮約処理(S300)を実行する次元縮約手段、クラス分類処理(S311)を実行する分類手段、合成処理(S350)を実行する合成手段、解析結果出力処理(S401)を実行する解析結果出力手段として機能する。
<7th Embodiment>
A seventh embodiment of the present invention will be described. FIG. 17 is a flowchart showing a flow of an evaluation method executed by the CPU 22 of the search needs evaluation device 20 of the seventh embodiment according to the evaluation program 26. The CPU 22 executes the evaluation program 26 to execute the acquisition process (S100), the quantification means for executing the quantification process (S200), the addition means for executing the addition process (S210), and the dimension reduction. As a dimension reduction means for executing the process (S300), a classification means for executing the class classification process (S311), a synthesis means for executing the synthesis process (S350), and an analysis result output means for executing the analysis result output process (S401). Function.

図17と第6実施形態の図15とを比較すると、図17では、図15のステップS250の合成処理が無く、ステップS311とステップS401の間にステップS350の合成処理がある。本実施形態では、CPU22は、検索語Aの上位文書特徴ベクトルデータzA1={zA11、zA12・・・zA1l}、zA2={zA21、zA22・・・zA2l}・・・zAd={zAd1、zAd2・・・zAdl}、検索語Bの上位文書特徴ベクトルデータzB1={zB11、zB12・・・zB1l}、zB2={zB21、zB22・・・zB2l}・・・zBd={zBd1、zBd2・・・zBdl}、検索語Cの上位文書特徴ベクトルデータzC1={zC11、zC12・・・zC1l}、zC2={zC21、zC22・・・zC2l}・・・zCd={zCd1、zCd2・・・zCdl}・・・を処理対象として、ステップS300の次元縮約処理及びステップS311のクラス分類処理を実行し、文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・のクラス分類処理の処理結果を取得する。ステップS350の合成処理では、CPU22は、文書毎のクラス分類の処理結果に所定の統計処理を施し、検索語毎のクラス分類の処理結果を合成する。 Comparing FIG. 17 with FIG. 15 of the sixth embodiment, in FIG. 17, there is no synthesis process of step S250 of FIG. 15, and there is a synthesis process of step S350 between steps S311 and S401. In the present embodiment, the CPU 22 uses the higher-level document feature vector data z A1 = {z A11 , z A12 ... z A1l }, z A2 = {z A21 , z A22 ... z A2l } of the search term A ... · Z Ad = {z Ad1 , z Ad2 ... z Adl }, higher-level document feature vector data of search term B z B1 = {z B11 , z B12 ... z B1l }, z B2 = {z B21 , z B22 ... z B2l } ... z Bd = {z Bd1 , z Bd2 ... z Bdl }, higher-level document feature vector data of search term C z C1 = {z C11 , z C12 ... z C1l } , Z C2 = {z C21 , z C22 ... z C2l } ... z Cd = {z Cd1 , z Cd2 ... z Cdl } ... run the classification processing in step S311, the document data D Ak (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) processing classification process ... Get the result. In the synthesis process of step S350, the CPU 22 performs a predetermined statistical process on the processing result of the class classification for each document, and synthesizes the processing result of the class classification for each search term.

図17のステップS401の解析結果出力処理では、利用者端末10のディスプレイに解析結果画面を表示させる。図17の解析結果画面のマッピング画像7は、ステップS300、S311、及びS350の処理結果に基づいて生成される。 In the analysis result output process of step S401 of FIG. 17, the analysis result screen is displayed on the display of the user terminal 10. The mapping image 7 of the analysis result screen of FIG. 17 is generated based on the processing results of steps S300, S311, and S350.

以上が、本実施形態の構成の詳細である。本実施形態では、図18に示すように、CPU22は、評価対象である複数の検索語A、B、C・・・の各々について、検索語毎の検索結果内の上位d個の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・を取得し、検索語毎の検索結果内の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・の内容及び構造を多次元の特徴ベクトルデータzA1、zA2・・・zAd、zB1、zB2・・・zBd、zC1、zC2・・・zCd・・・に変換し、文書毎の特徴ベクトルデータにクラス分類のアルゴリズムに従った処理を施し、検索語毎の検索結果内の複数の文書データを複数の部分集合に分類する。その上で、クラス分類の処理結果に所定の統計処理を施し、検索語毎のクラス分類の処理結果を合成し、合成した部分集合間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第4実施形態と同様の効果が得られる。 The above is the details of the configuration of the present embodiment. In the present embodiment, as shown in FIG. 18, the CPU 22 has the top d document data D in the search result for each search term for each of the plurality of search terms A, B, C ... Ak (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) to get the ..., document data D Ak in the search results for each search term (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) the contents and structure of ... multidimensional feature vector data z A1, z A2 ··· z Ad , z Converted to B1 , z B2 ... z Bd , z C1 , z C2 ... z Cd ..., processed the feature vector data for each document according to the classification algorithm, and searched for each search term. Classify multiple document data in the result into multiple subsets. After that, the processing result of the classification is subjected to predetermined statistical processing, the processing result of the classification for each search term is synthesized, and the analysis result of the nature of the search needs is analyzed based on the relationship between the synthesized subsets. Output. The same effect as that of the fourth embodiment can be obtained by this embodiment as well.

<第8実施形態>
本実施形態の第8実施形態を説明する。図19は、第8実施形態の検索ニーズ評価装置20のCPU22が評価プログラム26に従って実行する評価方法の流れを示すフローチャートである。CPU22は、評価プログラム26を実行することで、取得処理(S100)を実行する取得手段、定量化処理(S200)を実行する定量化手段、加算処理を実行する加算手段(S210)、合成処理(S250)を実行する合成手段、類似度特定処理(S320)を実行する類似度特定手段、コミュニティ検出処理(S330)を実行するコミュニティ検出手段、解析結果出力処理(S401)を実行する解析結果出力手段として機能する。
<8th Embodiment>
An eighth embodiment of the present embodiment will be described. FIG. 19 is a flowchart showing a flow of an evaluation method executed by the CPU 22 of the search needs evaluation device 20 of the eighth embodiment according to the evaluation program 26. By executing the evaluation program 26, the CPU 22 executes the acquisition process (S100), the quantification means for executing the quantification process (S200), the addition means for executing the addition process (S210), and the synthesis process (S210). Synthesis means for executing S250), similarity identification means for executing similarity identification processing (S320), community detection means for executing community detection processing (S330), analysis result output means for executing analysis result output processing (S401). Functions as.

図19と第3実施形態の図9とを比較すると、図19では、図19では、ステップS100の取得処理において、CPU22は、利用者端末10から、複数の検索語A、B、C・・・を受け取り、複数の検索語A、B、C・・・の各々について、検索語毎の検索結果内の上位d個のwebページの文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・を取得する。この後、CPU22は、検索語毎の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・について、ステップS200の定量化処理、及びステップS210の加算処理を実行し、検索語Aの上位文書についての処理結果である特徴ベクトルデータzA1={zA11、zA12・・・zA1l}、zA2={zA21、zA22・・・zA2l}・・・zAd={zAd1、zAd2・・・zAdl}、検索語Bの上位文書についての処理結果である特徴ベクトルデータzB1={zB11、zB12・・・zB1l}、zB2={zB21、zB22・・・zB2l}・・・zBd={zBd1、zBd2・・・zBdl}、検索語Cの上位文書についての処理結果である特徴ベクトルデータzC1={zC11、zC12・・・zC1l}、zC2={zC21、zC22・・・zC2l}・・・zCd={zCd1、zCd2・・・zCdl}・・・を個別に生成する。 Comparing FIG. 19 with FIG. 9 of the third embodiment, in FIG. 19, in FIG. 19, in the acquisition process of step S100, the CPU 22 receives a plurality of search terms A, B, C ... -Received, and for each of the plurality of search terms A, B, C ..., the document data of the top d web pages in the search results for each search term D Ak (k = 1 to d), D Bk ( k = 1~d), to get the D Ck (k = 1~d) ··· . Thereafter, CPU 22 is document data D Ak (k = 1~d) for each search term, D Bk (k = 1~d) , the D Ck (k = 1~d) ··· , Determination of step S200 The feature vector data z A1 = {z A11 , z A12 ... z A1l }, z A2 = {z A21, which is the processing result of the higher-level document of the search term A by executing the conversion process and the addition process of step S210. , Z A22 ... z A2l } ... z Ad = {z Ad1 , z Ad2 ... z Adl }, Feature vector data z B1 = {z B11 , which is the processing result of the higher-level document of the search term B. z B12 ... z B1l }, z B2 = {z B21 , z B22 ... z B2l } ... z Bd = {z Bd1 , z Bd2 ... z Bdl } Feature vector data z C1 = {z C11 , z C12 ... z C1l }, z C2 = {z C21 , z C22 ... z C2l } ... z Cd = {z Cd1 , z Cd2 ... z Cdl } ... Are generated individually.

図19では、ステップS210の加算処理とステップS300の次元縮約処理の間にステップS250の合成処理がある。合成処理では、CPU22は、検索語Aの上位文書特徴ベクトルデータzA1={zA11、zA12・・・zA1l}、zA2={zA21、zA22・・・zA2l}・・・zAd={zAd1、zAd2・・・zAdl}、検索語Bの上位文書特徴ベクトルデータzB1={zB11、zB12・・・zB1l}、zB2={zB21、zB22・・・zB2l}・・・zBd={zBd1、zBd2・・・zBdl}、検索語Cの上位文書特徴ベクトルデータzC1={zC11、zC12・・・zC1l}、zC2={zC21、zC22・・・zC2l}・・・zCd={zCd1、zCd2・・・zCdl}・・・に所定の統計処理を施し、検索語Aの上位文書特徴ベクトルデータzA1={zA11、zA12・・・zA1l}、zA2={zA21、zA22・・・zA2l}・・・zAd={zAd1、zAd2・・・zAdl}を合成した検索語Aの特徴ベクトルデータz={zA1、zA2・・・zAl}、検索語Bの上位文書特徴ベクトルデータzB1={zB11、zB12・・・zB1l}、zB2={zB21、zB22・・・zB2l}・・・zBd={zBd1、zBd2・・・zBdl}を合成した検索語Bの特徴ベクトルデータz={zB1、zB2・・・zBl}、検索語Cの上位文書特徴ベクトルデータzC1={zC11、zC12・・・zC1l}、zC2={zC21、zC22・・・zC2l}・・・zCd={zCd1、zCd2・・・zCdl}を合成した検索語Cの特徴ベクトルデータz={zC1、zC2・・・zCl}・・・を個別に生成する。 In FIG. 19, there is a synthesis process of step S250 between the addition process of step S210 and the dimension reduction process of step S300. In the synthesis process, the CPU 22 uses the higher-level document feature vector data z A1 = {z A11 , z A12 ... z A1l }, z A2 = {z A21 , z A22 ... z A2l } ... z Ad = {z Ad1 , z Ad2 ... z Adl }, higher-level document feature vector data of search term B z B1 = {z B11 , z B12 ... z B1l }, z B2 = {z B21 , z B22 ... z B2l } ... z Bd = {z Bd1 , z Bd2 ... z Bdl }, higher-level document feature vector data of search term C z C1 = {z C11 , z C12 ... z C1l }, z C2 = {z C21 , z C22 ... z C2l } ... z Cd = {z Cd1 , z Cd2 ... z Cdl } ... Feature vector data z A1 = {z A11 , z A12 ... z A1l }, z A2 = {z A21 , z A22 ... z A2l } ... z Ad = {z Ad1 , z Ad2 ... z Feature vector data of search term A synthesized from Adl } z A = {z A1 , z A2 ... z Al }, higher-level document feature vector data of search term B z B1 = {z B11 , z B12 ... z B1l}, z B2 = {z B21, z B22 ··· z B2l} ··· z Bd = {z Bd1, z Bd2 ··· z Bdl} feature vector a synthesized search word B data z B = { z B1 , z B2 ... z Bl }, higher-level document feature vector data of search term C z C1 = {z C11 , z C12 ... z C1l }, z C2 = {z C21 , z C22 ... z C2l } ・ ・ ・ z Cd = {z Cd1 , z Cd2・ ・ ・ z Cdl } ・ ・ ・ Characteristic vector data of search term C synthesized z C = {z C1 , z C2・ ・ ・ z Cl } ・ ・ ・To generate.

この後、CPU22は、検索語Aの特徴ベクトルデータz={zA1、zA2・・・zAl}、検索語Bの特徴ベクトルデータz={zB1、zB2・・・zBl}、検索語Cの特徴ベクトルデータz={zC1、zC2・・・zCl}・・・を処理対象として、ステップS320の類似度特定処理、ステップS330のコミュニティ検出処理、及びステップS401の解析結果出力処理を実行する。すなわち、本実施形態では、検索語毎に類似度特定及びコミュニティ検出をするのではなく、全ての文書をまとめて類似度特定及びコミュニティ検出を行う。 After that, the CPU 22 uses the feature vector data z A = {z A1 , z A2 ... z Al } of the search term A, and the feature vector data z B = {z B1 , z B2 ... z Bl of the search term B. }, Feature vector data of search term C z C = {z C1 , z C2 ... z Cl } ..., Similarity identification processing in step S320, community detection processing in step S330, and step S401. Executes the analysis result output processing of. That is, in the present embodiment, the similarity is specified and the community is detected for each search term, but all the documents are collectively specified and the community is detected.

図19のステップS401の解析結果出力処理では、利用者端末10のディスプレイに解析結果画面を表示させる。図19の解析結果画面のマッピング画像7は、ステップS250、S320、及びS330の処理結果に基づいて生成される。 In the analysis result output process of step S401 of FIG. 19, the analysis result screen is displayed on the display of the user terminal 10. The mapping image 7 of the analysis result screen of FIG. 19 is generated based on the processing results of steps S250, S320, and S330.

以上が、本実施形態の詳細である。本実施形態では、図20に示すように、CPU22は、評価対象である複数の検索語A、B、C・・・の各々について、検索語毎の検索結果内の上位d個の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・を取得し、検索語毎の検索結果内の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・の内容及び構造を多次元の特徴ベクトルデータzA1、zA2・・・zAd、zB1、zB2・・・zBd、zC1、zC2・・・zCd・・・に変換し、文書毎の特徴ベクトルデータに所定の統計処理を施し、検索語毎の特徴ベクトルデータを合成する。その上で、合成した特徴ベクトルデータz、z、z・・・に類似度特定とコミュニティ検出の処理を施し、検索語A、B、C・・・を複数のコミュニティに分類し、コミュニティ検出の処理結果である複数のコミュニティ間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第4実施形態と同様の効果が得られる。 The above is the details of this embodiment. In the present embodiment, as shown in FIG. 20, the CPU 22 has the top d document data D in the search result for each search term for each of the plurality of search terms A, B, C ... Ak (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) to get the ..., document data D Ak in the search results for each search term (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) the contents and structure of ... multidimensional feature vector data z A1, z A2 ··· z Ad , z Converted to B1 , z B2 ... z Bd , z C1 , z C2 ... z Cd ..., the feature vector data for each document is subjected to predetermined statistical processing, and the feature vector data for each search term is synthesized. do. Then, the synthesized feature vector data z A , z B , z C ... are processed for similarity identification and community detection, and the search terms A, B, C ... Are classified into a plurality of communities. Outputs the analysis result of the nature of the search needs based on the relationship between multiple communities, which is the processing result of community detection. The same effect as that of the fourth embodiment can be obtained by this embodiment as well.

<第9実施形態>
本発明の第9実施形態を説明する。図21は、第9実施形態の検索ニーズ評価装置20のCPU22が評価プログラム26に従って実行する評価方法の流れを示すフローチャートである。CPU22は、評価プログラム26を実行することで、取得処理(S100)を実行する取得手段、定量化処理(S200)を実行する定量化手段、加算処理を実行する加算手段(S210)、類似度特定処理(S320)を実行する類似度特定手段、コミュニティ検出処理(S330)を実行するコミュニティ検出手段、合成処理(S350)を実行する合成手段、解析結果出力処理(S401)を実行する解析結果出力手段として機能する。
<9th embodiment>
A ninth embodiment of the present invention will be described. FIG. 21 is a flowchart showing a flow of an evaluation method executed by the CPU 22 of the search needs evaluation device 20 of the ninth embodiment according to the evaluation program 26. By executing the evaluation program 26, the CPU 22 executes the acquisition process (S100), the quantification means for executing the quantification process (S200), the addition means for executing the addition process (S210), and the similarity identification. Similarity specifying means for executing processing (S320), community detecting means for executing community detection processing (S330), synthesis means for executing synthesis processing (S350), analysis result output means for executing analysis result output processing (S401). Functions as.

図21と第8実施形態の図19とを比較すると、図21では、図19のステップS250の合成処理が無く、ステップS330とステップS401の間にステップS350の合成処理がある。本実施形態では、CPU22は、検索語Aの上位文書の特徴ベクトルデータzA1={zA11、zA12・・・zA1l}、zA2={zA21、zA22・・・zA2l}・・・zAd={zAd1、zAd2・・・zAdl}、検索語Bの上位文書の特徴ベクトルデータzB1={zB11、zB12・・・zB1l}、zB2={zB21、zB22・・・zB2l}・・・zBd={zBd1、zBd2・・・zBdl}、検索語Cの上位文書の特徴ベクトルデータzC1={zC11、zC12・・・zC1l}、zC2={zC21、zC22・・・zC2l}・・・zCd={zCd1、zCd2・・・zCdl}・・・を処理対象として、ステップS320の類似度特定処理及びステップS330のコミュニティ検出処理を実行し、文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・のコミュニティ検出処理の処理結果を取得する。ステップS350の合成処理では、CPU22は、文書毎のコミュニティ検出の処理結果に所定の統計処理を施し、検索語毎のコミュニティ検出の処理結果を合成する。 Comparing FIG. 21 with FIG. 19 of the eighth embodiment, in FIG. 21, there is no synthesis process of step S250 of FIG. 19, and there is a synthesis process of step S350 between steps S330 and S401. In the present embodiment, the CPU 22 uses the feature vector data z A1 = {z A11 , z A12 ... z A1l }, z A2 = {z A21 , z A22 ... z A2l } of the higher-level document of the search term A. .. z Ad = {z Ad1, z Ad2 ... z Adl }, feature vector data of the higher-level document of the search term B z B1 = {z B11 , z B12 ... z B1l }, z B2 = {z B21 , Z B22 ... z B2l } ... z Bd = {z Bd1 , z Bd2 ... z Bdl }, Feature vector data of higher-level document of search term C z C1 = {z C11 , z C12 ... z C1l }, z C2 = {z C21 , z C22 ... z C2l } ... z Cd = {z Cd1 , z Cd2 ... z Cdl } ... run the community detection processing of a particular process and step S330, the document data D Ak (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) ··· community detection Get the processing result of the processing. In the synthesis process of step S350, the CPU 22 performs a predetermined statistical process on the community detection process result for each document, and synthesizes the community detection process result for each search term.

図21のステップS401の解析結果出力処理では、利用者端末10のディスプレイに解析結果画面を表示させる。図21の解析結果画面のマッピング画像7は、ステップS320、S330、及びS350の処理結果に基づいて生成される。 In the analysis result output process of step S401 of FIG. 21, the analysis result screen is displayed on the display of the user terminal 10. The mapping image 7 of the analysis result screen of FIG. 21 is generated based on the processing results of steps S320, S330, and S350.

以上が、本実施形態の構成の詳細である。本実施形態では、図14に示すように、CPU22は、評価対象である複数の検索語A、B、C・・・の各々について、検索語毎の検索結果内の上位d個の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・を取得し、検索語毎の検索結果内の文書データDAk(k=1〜d)、DBk(k=1〜d)、DCk(k=1〜d)・・・の内容及び構造を多次元の特徴ベクトルデータzA1、zA2・・・zAd、zB1、zB2・・・zBd、zC1、zC2・・・zCd・・・に変換し、文書毎の特徴ベクトルデータに類似度特定処理とコミュニティ検出の処理を施し、複数の文書データを複数のコミュニティに分類する。その上で、処理結果に所定の統計処理を施し、検索語毎の処理結果を合成し、合成したコミュニティ間の関係に基づいて、検索のニーズの性質の解析結果を出力する。本実施形態によっても、第4実施形態と同様の効果が得られる。 The above is the details of the configuration of the present embodiment. In the present embodiment, as shown in FIG. 14, the CPU 22 has the top d document data D in the search result for each search term for each of the plurality of search terms A, B, C ... Ak (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) to get the ..., document data D Ak in the search results for each search term (k = 1~d), D Bk (k = 1~d), D Ck (k = 1~d) the contents and structure of ... multidimensional feature vector data z A1, z A2 ··· z Ad , z Converted to B1 , z B2 ... z Bd , z C1 , z C2 ... z Cd ..., and subjected to similarity identification processing and community detection processing on the feature vector data for each document, and multiple document data. Is categorized into multiple communities. Then, the processing result is subjected to predetermined statistical processing, the processing result for each search term is synthesized, and the analysis result of the nature of the search needs is output based on the relationship between the synthesized communities. The same effect as that of the fourth embodiment can be obtained by this embodiment as well.

<第10実施形態>
第10実施形態では、重み付き無向グラフを用いた解析結果の表示例を具体的に説明する。
<10th Embodiment>
In the tenth embodiment, a display example of the analysis result using the weighted undirected graph will be specifically described.

図25は、図11のマッピング画像7をより具体的に示す図である。このマッピング画像7は共通の語「ABC」を含む検索語に関する解析結果を例示している。なお、「ABC」なる技術用語があり、「ABC」なる電子ファイルの拡張子があり、「ABC」なる歌手がいるものと仮定している。 FIG. 25 is a diagram showing the mapping image 7 of FIG. 11 more specifically. This mapping image 7 exemplifies the analysis result regarding the search term including the common word "ABC". It is assumed that there is a technical term "ABC", an electronic file extension "ABC", and a singer "ABC".

図25のマッピング画像7は、ノード(例えば、符号n1,n2)と、ノード間を結合するエッジ(例えば、符号e)とからなるグラフ(無向グラフ)で解析結果を示すものである。ノードには各検索語が関連づけられている。エッジの長さは、その一端のノードに関連付けられた検索語と、他端のノードに関連付けられた検索語との検索ニーズの類似度に対応する。具体的には、ある検索語と別の検索語との類似度が高いほどエッジは短い。そのため、検索ニーズの類似度が高い検索語に関連付けられたノードどうしが近くに配置される。なお、2つの検索語間の類似度が所定値より低い場合、両検索語に関連付けられたノード間のエッジを省略してもよい。 The mapping image 7 of FIG. 25 shows an analysis result as a graph (undirected graph) including nodes (for example, reference numerals n1 and n2) and edges connecting the nodes (for example, reference numeral e). Each search term is associated with the node. The edge length corresponds to the similarity of the search needs between the search term associated with the node at one end and the search term associated with the node at the other end. Specifically, the higher the similarity between one search term and another search term, the shorter the edge. Therefore, the nodes associated with the search terms having high similarities in the search needs are arranged close to each other. If the similarity between the two search terms is lower than the predetermined value, the edge between the nodes associated with both search terms may be omitted.

ここで、類似度は、例えば第8実施形態などで上述したものであってもよいし、検索語に対する検索結果に基づく他の手法で算出したものであってもよい。 Here, the similarity may be the one described above in, for example, the eighth embodiment, or may be calculated by another method based on the search result for the search term.

このように表示することで、関連性が高い検索語が一目瞭然となる。図25によれば、「ABCセミナー」、「ABCビジネス」、「ABCベンチャー」の関連性が高いこと、「ABCライブ」、「ABCアルバム」、「ABCコンサート」の関連性が高いこと、「ABC拡張子」、「ABCデータ」、「ABCファイル」の関連性が高いことがわかる。これは、「ABCセミナー」なる検索語で訪問されるWebサイトは、「ABCビジネス」や「ABCベンチャー」なる検索語で訪問されることが多いが、その他の「ABCライブ」や「ABCデータ」なる検索語で訪問されることは少ないことを意味する。 By displaying in this way, highly relevant search terms become clear at a glance. According to FIG. 25, "ABC seminar", "ABC business", and "ABC venture" are highly related, "ABC live", "ABC album", and "ABC concert" are highly related, and "ABC". It can be seen that the "extension", "ABC data", and "ABC file" are highly related. This is because websites visited with the search term "ABC Seminar" are often visited with the search term "ABC Business" or "ABC Venture", but other "ABC Live" or "ABC Data" It means that it is rarely visited by the search term.

例えば、「ABC」という技術に関するWebページを作成しようとする場合、「ABCセミナー」、「ABCビジネス」、「ABCベンチャー」といった検索語でユーザが訪問されることを念頭に置いてWebページを作成すればよいこととなる。 For example, when trying to create a web page related to the technology "ABC", create a web page with the search terms such as "ABC seminar", "ABC business", and "ABC venture" in mind. You just have to do it.

また、図25に示す無向グラフにおいて、ユーザがノードを移動させることができてもよい。ノードの移動は、例えばマウスで所望のノードをクリックしたり、タッチパネルで所望のノードをタップしたりしてノードを選択し、選択した状態で任意の別の場所にドラッグする方式が考えられる。 Further, in the undirected graph shown in FIG. 25, the user may be able to move the node. To move a node, for example, a method of clicking a desired node with a mouse or tapping a desired node with a touch panel to select a node and dragging the selected node to an arbitrary other location can be considered.

図26は、図25における「ABCビジネス」に関連付けられたノードn3を移動させた状態を示す図である。 FIG. 26 is a diagram showing a state in which the node n3 associated with the “ABC business” in FIG. 25 is moved.

ユーザ操作によるノードn3の移動に伴い、少なくともノードn3と近い(類似度が所定値以上)の他のノード(図26ではノードn4,n5)をノードn3に引き付けられるように自動的に移動させるのがよい。このとき、エッジの長さはバネやクーロン力などの力学モデルにより決定される。具体的には、ノードの移動によりエッジが引っ張られると、エッジが伸び、伸びた分だけ引き寄せる力が強くなり、時間の経過により力のバランスがとれる短さに収束する。 As the node n3 is moved by the user operation, other nodes (nodes n4 and n5 in FIG. 26) that are at least close to the node n3 (similarity is equal to or higher than a predetermined value) are automatically moved so as to be attracted to the node n3. Is good. At this time, the length of the edge is determined by a mechanical model such as a spring or a Coulomb force. Specifically, when the edge is pulled by the movement of the node, the edge is stretched, the pulling force is strengthened by the stretched force, and the force converges to a shortness in which the force can be balanced over time.

図25や図26には少数のノード(検索語)しか描いていないが、実際には多数のノード(検索語)が表示される。そのため、場合によっては1か所にノードが密集することもあり得る。この場合、着目する検索語が関連付けられたノードを任意の場所に移動させることで、類似度が高い検索語をより見やすく表示可能となる。 Although only a small number of nodes (search terms) are drawn in FIGS. 25 and 26, a large number of nodes (search terms) are actually displayed. Therefore, in some cases, nodes may be concentrated in one place. In this case, by moving the node associated with the search term of interest to an arbitrary location, the search term having a high degree of similarity can be displayed more easily.

図27は、検索語がクラスタに分類され、分類されたクラスタに応じた表示態様でノードを表示したマッピング画像7を示す図である。なお、クラスタ分類は、例えば第4実施形態などで上述した手法を適用してもよいし、検索語に対する検索結果に基づく他の手法を適用してもよい。なお、図27などでは検索語そのものを省略している。 FIG. 27 is a diagram showing a mapping image 7 in which search terms are classified into clusters and nodes are displayed in a display mode according to the classified clusters. For cluster classification, for example, the method described above may be applied in the fourth embodiment, or another method based on the search result for the search term may be applied. In addition, in FIG. 27 and the like, the search term itself is omitted.

同図では、各検索語が2クラスタA,B,Cのいずれか1つに分類される例を示している。クラスタAに分類された検索語が関連付けられたノードは黒で表示され、クラスタBに分類された検索語が関連付けられたノードは白で、クラスタCに分類された検索語が関連付けられたノードは斜線で表示される。その他、クラスタに応じて色分けするなどでもよい。 The figure shows an example in which each search term is classified into any one of two clusters A, B, and C. Nodes associated with search terms classified in cluster A are displayed in black, nodes associated with search terms classified in cluster B are displayed in white, and nodes associated with search terms classified in cluster C are associated. It is displayed as a diagonal line. In addition, color coding may be performed according to the cluster.

図28は、検索語が1つのクラスタに分類に確定されるのではなく、複数のクラスタに分類され得る場合のマッピング画像7を示す図である。各検索語は、どのクラスタにどの程度近いか(どのクラスタの性質をどの程度有するか)が算出される。図28の例では、ある検索語はクラスタAが6割、クラスタBが3割、クラスタCが1割と判定されている。この場合、その検索語が関連付けられたノードn6は、円グラフ同様、6割が黒、3割が白、1割が斜線で表示される。 FIG. 28 is a diagram showing a mapping image 7 in a case where the search term is not determined to be classified into one cluster but can be classified into a plurality of clusters. It is calculated how close each search term is to which cluster (how much the properties of which cluster are). In the example of FIG. 28, it is determined that a certain search term is 60% for cluster A, 30% for cluster B, and 10% for cluster C. In this case, the node n6 to which the search term is associated is displayed with 60% black, 30% white, and 10% diagonal lines, as in the pie chart.

さらに、第1実施形態で説明したように、分類の粒度を細かくしたり粗くしたりすることができる。粒度が細かいほど、多くのクラスタに分類される。そして、この粒度をユーザが可変設定できてもよい。 Further, as described in the first embodiment, the particle size of the classification can be made finer or coarser. The finer the particle size, the more clusters are classified. Then, the user may be able to variably set this particle size.

図29は、ユーザが粒度を設定可能なマッピング画像7を示す図である。水平方向に延びるスライドバー30が表示されており、ユーザはバー31を左に移動させることにより粒度を粗く、右に移動させることにより粒度を細かく設定できる。なお、粒度は複数段階あればよく、特に段階数に制限はない。 FIG. 29 is a diagram showing a mapping image 7 in which the user can set the particle size. A slide bar 30 extending in the horizontal direction is displayed, and the user can set the grain size coarser by moving the bar 31 to the left and finer grain size by moving the bar 31 to the right. The particle size may be a plurality of stages, and the number of stages is not particularly limited.

図29は粒度が粗く設定された状態を示している。この例では、各検索語は2クラスタA,Bのいずれか1つに分類され、ノードの表示態様が2種類(A,Bの順に黒および斜線)ある。 FIG. 29 shows a state in which the particle size is coarsely set. In this example, each search term is classified into any one of two clusters A and B, and there are two types of node display modes (black and diagonal lines in the order of A and B).

図30は、図29より粒度が細かく設定された状態を示す図である。この例では、各検索語は4クラスタラスタA1,A2,B1,B2のいずれか1つに分類される。なお、クラスタAをさらに細かく分類したのがクラスタA1,A2であり、クラスタBをさらに細かく分類したのがクラスタB1,B2である。この場合、ノードの表示態様は4種類(A1,A2,B1,B2の順に黒、白、斜線および波線)となる。 FIG. 30 is a diagram showing a state in which the particle size is set more finely than in FIG. 29. In this example, each search term is classified into any one of four cluster rasters A1, A2, B1, and B2. Clusters A1 and A2 are further classified into cluster A, and clusters B1 and B2 are further classified into cluster B. In this case, there are four types of node display modes (black, white, diagonal lines, and wavy lines in the order of A1, A2, B1, B2).

このように、ユーザ操作に応じて粒度が設定(変更)される都度、設定された粒度に応じて各検索語がクラスタに分類される。そして、各検索語が分類されるクラスタが変わると、ノードの表示態様も自動的に更新される。 In this way, each time the particle size is set (changed) according to the user operation, each search term is classified into a cluster according to the set particle size. Then, when the cluster into which each search term is classified changes, the display mode of the node is also automatically updated.

例えば、「ABC」という技術全般に関するWebページを作成しようとする場合、粒度を粗く設定することで関連性が比較的高い検索語を幅広く把握することができる。一方、「ABC」という技術のうちのさらに特定の技術に特化したWebページを作成しようとする場合、粒度を細かく設定することで関連性が特に高い少数の検索語を高精度に把握できる。 For example, when creating a Web page related to the technology "ABC" in general, it is possible to grasp a wide range of relatively highly relevant search terms by setting the particle size coarsely. On the other hand, when creating a Web page specialized in a more specific technology among the technologies called "ABC", it is possible to grasp a small number of highly relevant search terms with high accuracy by setting the particle size finely.

粒度調整のインターフェースは図29および図30に示すスライドバー30に限られない。図31に示すように、鉛直方向に延びるスライドバー30でもよい。図32に示すようにユーザが粒度を示す数値を入力する欄32を設けてもよい。図33に示すように、粒度が示されたボタン(アイコン)33をユーザが選択するようにしてもよい。図34に示すようなプルダウン34や、図35に示すようなラジオボタン35からユーザが選択するようにしてもよい。例示しない他のインターフェースであってもよいが、望ましくは複数段階のうちの1つをユーザが択一的に選択できるインターフェースがよい。 The interface for adjusting the particle size is not limited to the slide bar 30 shown in FIGS. 29 and 30. As shown in FIG. 31, a slide bar 30 extending in the vertical direction may be used. As shown in FIG. 32, a field 32 may be provided in which the user inputs a numerical value indicating the particle size. As shown in FIG. 33, the user may select the button (icon) 33 showing the particle size. The user may select from the pull-down 34 as shown in FIG. 34 or the radio button 35 as shown in FIG. 35. Other interfaces not illustrated may be used, but preferably an interface in which the user can selectively select one of a plurality of steps is preferable.

さらに、各検索語の検索数をマッピング画面7に示してもよい。
図36は、各検索語の検索数に応じた態様でノードが表示されたマッピング画像7を示す図である。ノードに関連付けられた検索語の検索数が多いほど、ノードが大きく表示される。大きく表示されるノードに関連付けられた検索語を重視すべきことが容易かつ直感的ににわかる。なお、検索数は任意のある期間(例えば、直近1か月)における検索数とすればよい。もちろん、ユーザが期間を可変設定できてもよく、例えば直近1か月と、2か月前とでどのような変化があったかを比較できてもよい。
Further, the number of searches for each search term may be shown on the mapping screen 7.
FIG. 36 is a diagram showing a mapping image 7 in which nodes are displayed in an manner corresponding to the number of searches for each search term. The larger the number of searches for the search term associated with the node, the larger the node will be displayed. It is easy and intuitive to understand that the search term associated with the large node should be emphasized. The number of searches may be the number of searches in an arbitrary period (for example, the latest one month). Of course, the user may be able to set the period variably, for example, it may be possible to compare what kind of change has occurred between the last one month and two months ago.

上述した各例を組み合わせ、ある検索語に対応するノードを、当該検索語が分類されたクラスタに応じた態様で、かつ、当該検索語の検索数に応じた大きさで表示するなどしてもよい。また、無向グラフに別のさらなる情報を付与してもよい。 By combining each of the above examples, the node corresponding to a certain search term may be displayed in a mode corresponding to the cluster in which the search term is classified and in a size corresponding to the number of searches of the search term. good. In addition, other additional information may be added to the undirected graph.

以上述べたように、本実施形態では、検索語についての解析結果を無向グラフで表示する。そのため、ユーザは、検索語間の類似度や、どのようにクラスタリングされるかといった解析結果を直感的に理解でき、ターゲットとすべき検索語の取捨選択が容易となる。 As described above, in the present embodiment, the analysis result for the search term is displayed as an undirected graph. Therefore, the user can intuitively understand the analysis results such as the similarity between the search terms and how they are clustered, and it becomes easy to select the search terms to be targeted.

<第11実施形態>
以下は、解析結果の表示態様の変形例である。
<11th Embodiment>
The following is a modified example of the display mode of the analysis result.

図37は、表形式で解析結果を表示する場合の画面例を示す図である。各検索語が4つのクラスタA〜Dのいずれかに分類されており、各クラスタに分類される検索語をクラスタと対応付けた表形式で表示する。同図では、例えばクラスタAに検索語a〜cが分類されていることがわかる。 FIG. 37 is a diagram showing a screen example when the analysis result is displayed in a table format. Each search term is classified into one of four clusters A to D, and the search term classified into each cluster is displayed in a table format associated with the cluster. In the figure, it can be seen that, for example, the search terms a to c are classified into cluster A.

この場合も、粒度をユーザが調整できるのが望ましい。例えば、図37では4つのクラスタに分類されていたが、スライドバー30を用いてユーザが粒度を粗くすると、図38に示すように2つのクラスタE,Fに分類されて表示される。無向グラフの場合と同様であるが、ユーザ操作に応じて粒度が設定(変更)される都度、設定された粒度に応じて各検索語がクラスタに分類される。そして、各検索語が分類されるクラスタが変わると、表も自動的に更新される。 Again, it is desirable for the user to be able to adjust the particle size. For example, in FIG. 37, the clusters were classified into four clusters, but when the user coarsens the particle size using the slide bar 30, the clusters E and F are classified and displayed as shown in FIG. 38. Similar to the case of the undirected graph, but each time the particle size is set (changed) according to the user operation, each search term is classified into clusters according to the set particle size. Then, when the cluster into which each search term is classified changes, the table is automatically updated.

また、図37および図38に示すように、各検索語に検索数を対応付けて表示してもよい。この場合、検索数が多い検索語ほど上方に配置するのが望ましい。 Further, as shown in FIGS. 37 and 38, the number of searches may be associated with each search term and displayed. In this case, it is desirable that the search term having a large number of searches is placed above.

図39は、相関行列形式で解析結果を表示する場合の画面例を示す図である。検索語a〜dが縦方向および横方向に並んで配置される。そして、縦方向と横方向の交点のセルに検索語間の類似度が示される。類似度として、セル内に数値を表示してもよいし、セルを類似度に応じた態様(類似度が高いほど濃くするなど。図39ではスポットの密度で疑似的に濃度を示している)で表示してもよい。また、各検索語に検索数を対応付けて表示してもよい。 FIG. 39 is a diagram showing a screen example when the analysis result is displayed in the correlation matrix format. The search terms a to d are arranged side by side in the vertical direction and the horizontal direction. Then, the similarity between the search terms is shown in the cell at the intersection of the vertical direction and the horizontal direction. As the degree of similarity, a numerical value may be displayed in the cell, or the cell may be arranged according to the degree of similarity (the higher the degree of similarity, the darker the cell, etc. In FIG. 39, the density of the spots indicates the pseudo-concentration). It may be displayed with. Further, the number of searches may be associated with each search term and displayed.

さらに、ユーザが検索語の並び順を入れ替えられてもよい。一例として、ユーザが所望の検索語を選択すると、選択された検索語を最上位に配置し、当該検索語と類似度が高い順に他の検索語を上から配置してもよい。図39においてユーザが検索語cを選択したとする。その場合、図40に示すように、検索語cが最上位に配置され、その下方には検索語cと類似度が高い順に検索語b,d,aが配置される。 Further, the user may change the order of the search terms. As an example, when the user selects a desired search term, the selected search term may be placed at the top, and other search terms may be placed from the top in descending order of similarity with the search term. It is assumed that the user selects the search term c in FIG. 39. In that case, as shown in FIG. 40, the search term c is arranged at the highest level, and the search terms b, d, and a are arranged below the search term c in descending order of similarity with the search term c.

図41は、デンドログラム形式で解析結果を表示する場合の画面例を示す図である。検索語が縦方向に並んでおり、類似度が高い検索語どうしが近くに配置される。そして、右(検索語から離れる方向)に向かって段階的に検索語がクラスタに分類される様子が示される。 FIG. 41 is a diagram showing a screen example when the analysis result is displayed in the dendrogram format. The search terms are arranged vertically, and the search terms with high similarity are placed close to each other. Then, it is shown that the search terms are gradually classified into clusters toward the right (direction away from the search terms).

段階的なクラスタ分類をより見やすくすべく、図4と同様、デンドログラム上に、デンドログラムと直交する方向(縦方向、検索語が並ぶ方向)に延びる粒度設定バー(評価軸設定バー)36が表示されるのが望ましい。ユーザは粒度設定バー36を左右に移動させることができ、粒度設定バー36を右に移動するほど(検索語から離れるほど)粒度は粗くなる。 In order to make the stepwise cluster classification easier to see, as in FIG. 4, a particle size setting bar (evaluation axis setting bar) 36 extending in a direction orthogonal to the dendrogram (vertical direction, direction in which search terms are lined up) is provided on the dendrogram. It is desirable to be displayed. The user can move the particle size setting bar 36 left and right, and the particle size becomes coarser as the particle size setting bar 36 is moved to the right (the farther away from the search term).

例えば、図41に示す位置に粒度設定バー36を移動されると検索語が3つのクラスタA,B,Cのいずれかに分類され、図42に示す位置に粒度設定バー36を移動されると検索語が2つのクラスタD,Eのいずれかに分類される。 For example, when the particle size setting bar 36 is moved to the position shown in FIG. 41, the search term is classified into any of the three clusters A, B, and C, and when the particle size setting bar 36 is moved to the position shown in FIG. 42, the search term is classified into one of the three clusters A, B, and C. The search term is classified into one of two clusters D and E.

なお、図41および図42に示すように、各検索語に検索数を対応付けて表示してもよい。また、デンドログラムは検索語が横方向に並ぶものであってもよい。さらに、粒度設定は粒度設定バー36が直感的ではあるが、第10実施形態で説明したような他のインターフェースで粒度を設定できてもよい。 As shown in FIGS. 41 and 42, the number of searches may be associated with each search term and displayed. Further, the dendrogram may have search terms arranged in the horizontal direction. Further, although the particle size setting bar 36 is intuitive for setting the particle size, the particle size may be set by another interface as described in the tenth embodiment.

図43は、ツリーマップ形式で解析結果を表示する場合の画面例を示す図である。各検索語a〜nが4つのクラスタA〜Dのいずれかに分類されている。1つの矩形のセルが1つの検索語に対応しており、セルの表示態様(例えば、セルの色。同図ではスポット、斜線、波線で疑似的に色を示している)が分類されたクラスタを示し、セルの面積が所定期間における検索数を示す。 FIG. 43 is a diagram showing a screen example when the analysis result is displayed in the tree map format. Each search term a to n is classified into any of four clusters A to D. A cluster in which one rectangular cell corresponds to one search term, and the display mode of the cell (for example, the color of the cell. In the figure, the spot, the diagonal line, and the wavy line indicate the pseudo color). Indicates that the cell area indicates the number of searches in a predetermined period.

図44は、サンバースト形式で解析結果を表示する場合の画面例を示す図である。最も外側における1つのバームクーヘン型のセルが検索語a〜hにそれぞれ対応している。そして、内側におけるセルは各検索語が分類されたクラスタを示しており、同層の内側が同じ粒度でのクラスタである。例えば、最も内側の層は粒度が粗い3つのクラスタA〜Cがあり、検索語a〜eがクラスタAに分類され、検索語f,gがクラスタBに分類され、検索語hがクラスタCに分類されている。内側から2番目の層にはクラスタA1,A2があり、クラスタAがより細かい2つのクラスタA1,A2に分かれ、合計で4つのクラスタA1,A2,B,Cに各検索語が分類される様子が示されている。セルの表示態様(例えば、セルの色。同図ではスポット、斜線、波線で疑似的に色を示している)が分類された(ある特定の粒度における)クラスタを示し、セルの大きさが所定期間における検索数を示すようにしてもよい。 FIG. 44 is a diagram showing a screen example when the analysis result is displayed in the sunburst format. One Baumkuchen-type cell on the outermost side corresponds to each of the search terms a to h. The cells inside show the clusters in which each search term is classified, and the inside of the same layer is the clusters with the same particle size. For example, the innermost layer has three coarse-grained clusters A to C, search terms a to e are classified into cluster A, search terms f and g are classified into cluster B, and search term h is classified into cluster C. It is classified. The second layer from the inside has clusters A1 and A2, and cluster A is divided into two finer clusters A1 and A2, and each search term is classified into four clusters A1, A2, B, and C in total. It is shown. Indicates clusters (at a certain particle size) in which cell display modes (eg, cell color; spots, diagonal lines, and wavy lines are pseudo-colored in the figure) are classified, and the cell size is predetermined. It may indicate the number of searches in the period.

ツリーマップ形式やサンバースト形式によれば、分類結果と検索数とを直感的に把握することができる。これらの形式においても、ユーザが粒度を可変設定できるのが望ましい。 According to the treemap format and the sunburst format, it is possible to intuitively grasp the classification result and the number of searches. Even in these formats, it is desirable that the user can set the particle size variably.

<変形例>
以上本発明の第1〜第11実施形態について説明したが、この実施形態に以下の説明を加えてもよい。
<Modification example>
Although the first to eleventh embodiments of the present invention have been described above, the following description may be added to the embodiments.

(1)上記第1〜第3実施形態の解析結果出力処理では、上位ページ分類を解析結果として出力した。しかし、以下にあげる4種類の情報のうちの1つ又は複数の組み合わせを解析結果として出力してもよい。 (1) In the analysis result output processing of the first to third embodiments, the upper page classification is output as the analysis result. However, one or a combination of one or more of the following four types of information may be output as the analysis result.

第1に、クラスタリング、クラス分類、コミュニティ検出などの分類処理により文書データD(k=1〜d)を複数の部分集合に分類した後、複数の部分集合に基づいて、評価対象の検索のニーズ純度を求め、ニーズ純度を解析結果として出力してもよい。ここで、ニーズ純度は、検索結果内におけるニーズ純度の性質のばらつきが小さいのかそれとも大きいのかを示す指標である。ある検索語の検索結果が同様の性質のwebページで占められていれば、その検索語のニーズ純度は高い値となる。ある検索語の検索語が異なる性質のwebページで占められていれば、その検索語のニーズ純度は低い値となる。分類処理がクラスタリング・クラス分類である場合、及び分類処理がコミュニティ検出である場合におけるニーズ純度の算出の手順は以下のとおりである。 First, after classifying the document data Dk (k = 1 to d) into a plurality of subsets by classification processing such as clustering, classification, and community detection, the search for the evaluation target is performed based on the plurality of subsets. The needs purity may be obtained and the needs purity may be output as an analysis result. Here, the needs purity is an index indicating whether the variation in the properties of the needs purity in the search results is small or large. If the search result of a certain search term is occupied by web pages having similar properties, the needs purity of the search term is high. If the search term of a certain search term is occupied by web pages having different properties, the needs purity of the search term is low. The procedure for calculating the needs purity when the classification process is clustering class classification and when the classification process is community detection is as follows.

a1.分類処理がクラスタリング・クラス分類である場合
この場合、文書データD(k=1〜d)の分散を算出し、この分散に基づいてニーズ純度を算出する。より具体的には、文書データD、D・・・Dの特徴ベクトルデータz={z11、z12・・・z1l}、z={z21、z22・・・z2l}・・・z={zd1、zd2・・・zdl}の全座標平均を求める。次に、文書データDの特徴ベクトルデータz={z11、z12・・・z1l}の全座標平均からの距離、文書データDの特徴ベクトルデータz={z21、z22・・・z2l}の全座標平均からの距離・・・文書データDの特徴ベクトルデータz={zd1、zd2・・・zdl}の全座標平均からの距離を求める。次に、文書データD、D・・・Dの全座標平均からの距離の分散を求め、この分散をニーズ純度とする。文書データD、D・・・Dの全座標平均からの距離の分散ではなく、クラスタ内分散・クラス内分散に基づいてニーズ純度を算出してもよい。
a1. When the classification process is clustering class classification In this case, the variance of the document data D k (k = 1 to d) is calculated, and the needs purity is calculated based on this variance. More specifically, the feature vector data z 1 = {z 11 , z 12 ... z 1l }, z 2 = {z 21 , z 22 ... Of the document data D 1 , D 2 ... D d ... z 2l } ... z d = {z d1 , z d2 ... z dl }, and find the average of all coordinates. Next, the feature vector data z 1 = {z 11, z 12 ··· z 1l} of the document data D 1 distance from all coordinate average of the feature vector data z of the document data D 2 2 = {z 21, z 22 ... Distance from all coordinate averages of z 2l } ... Features of document data D d Find the distance from all coordinate averages of vector data z d = {z d1 , z d2 ... z dl }. Next, the variance of the distance from the average of all coordinates of the document data D 1 , D 2 ... D d is obtained, and this variance is defined as the required purity. The required purity may be calculated based on the intra-cluster variance / intra-class variance instead of the variance of the distance from the average of all coordinates of the document data D 1 , D 2 ... D d.

b1.分類処理がコミュニティ検出である場合
この場合、無向グラフ内における文書データDのノード間の平均経路長を算出し、この平均経路長に基づいてニーズ純度を算出する。より具体的には、文書データD間の類似度の閾値を設定し、閾値以下のエッジを除去した重み無し無向グラフを生成する。次に、この重み無し無向グラフ内におけるノード間の平均経路長を算出し、平均経路長の逆数をニーズ純度とする。同様に、クラスタ係数、同類選択性、中心性の分布、エッジ強度の分布を求め、クラスタ係数、同類選択性、中心性の分布、エッジ強度の分布を所定の関数に作用させて得た値をニーズ純度としてもよい。
b1. When the classification process is community detection In this case, the average path length between the nodes of the document data Dk in the undirected graph is calculated, and the needs purity is calculated based on this average path length. More specifically, a threshold of similarity between document data Dk is set, and an unweighted undirected graph is generated by removing edges below the threshold. Next, the average path length between the nodes in this unweighted undirected graph is calculated, and the reciprocal of the average path length is used as the required purity. Similarly, the cluster coefficient, similarity selectivity, centrality distribution, and edge intensity distribution are obtained, and the values obtained by applying the cluster coefficient, similarity selectivity, centrality distribution, and edge intensity distribution to a predetermined function are obtained. It may be the required purity.

この変形例によると、例えば、図23に示すように、第1の検索語(図23の例では、storage)と、第1の検索語を含む第2の検索語(図23の例では、cube storage)がSEOの候補となっており、2つの検索語の1月あたりの検索数に開きがある、という場合に、第1の検索語の検索数及びニーズ純度と、第2の検索語の検索数及びニーズ純度とを比較することにより、いずれの検索語のSEOを優先するかの判断が容易になる。 According to this variant, for example, as shown in FIG. 23, a first search term (storage in the example of FIG. 23) and a second search term including the first search term (in the example of FIG. 23, in the example of FIG. 23). cube storage) is a candidate for SEO, and if there is a difference in the number of searches per month for two search terms, the number of searches and needs purity of the first search term and the second search term By comparing the number of searches and the purity of needs, it becomes easy to determine which search term SEO is prioritized.

第2に、図24に示すように、第1の検索語(図24の例では、storage)と、第1の検索語を含む複数個の第2の検索語(図24の例では、storage near me、storage sheds、cube storage、storage bins、storage boxes、mini storage、storage solutions、san storage、data storage)を評価対象とし、複数の検索語の各々における1か月あたりの検索数と文書データD(k=1〜d)全体に占める各部分集合の割合との各積を纏めた一覧表を解析結果として出力してもよい。 Second, as shown in FIG. 24, a first search term (storage in the example of FIG. 24) and a plurality of second search terms including the first search term (storage in the example of FIG. 24). Near me, storage sheds, cube storage, storage bins, storage boxes, mini storage, storage solutions, san storage, data storage) are evaluated, and the number of searches per month and document data D for each of multiple search terms. A list summarizing each product with the ratio of each subset to the entire k (k = 1 to d) may be output as an analysis result.

この変形例によると、第1の検索語と、第1の検索語を含む複数の第2の検索語がSEOの候補となっており、複数の検索語の1月あたりの検索数に開きがある、という場合に、いずれの検索語のSEOを優先するかの判断が容易になる。この変形例は、ニーズ純度が低い検索語の評価に好適である。 According to this variant, the first search term and a plurality of second search terms including the first search term are candidates for SEO, and there is a difference in the number of searches of the plurality of search terms per month. If there is, it becomes easy to determine which search term SEO is prioritized. This variant is suitable for evaluating search terms with low needs purity.

また、この第2の変形例を、検索連動型広告に適用してもよい。第2の変形例を検索連動型広告に適用すると、1つの検索語に複数の検索ニーズが存在している場合における当該検索語に関わる広告の精度を良くすることができる。例えば、図24の例に示す「storage」に関わる検索連動型広告をする場合に、facility系の広告を何割表示すべきか、furniture系の広告を何割表示すべきか、computer系の広告を何割表示すべきか、といった判断ができるようになる。 Further, this second modification may be applied to the search-linked advertisement. When the second modification is applied to the search-linked advertisement, it is possible to improve the accuracy of the advertisement related to the search term when a plurality of search needs exist in one search term. For example, when performing search-linked advertisements related to "storage" shown in the example of FIG. 24, what percentage of facility-type advertisements should be displayed, what percentage of furniture-type advertisements should be displayed, and what percentage of computer-type advertisements should be displayed. You will be able to judge whether it should be displayed in a split manner.

第3に、評価対象の検索語の上位webページがどの程度ビジネスニーズを満たすかを示す指標であるB度、及び評価対象の検索語の上位webページがどの程度コンシューマニーズを満たすかを示す指標であるC度を求め、B度及びC度を解析結果として出力してもよい。分類処理がクラス分類である場合におけるB度及びC度の算出の手順は以下の通りである。 Thirdly, the B degree, which is an index showing how much the top web page of the search term to be evaluated meets the business needs, and the index showing how much the top web page of the search term to be evaluated meets the consumer needs. The C degree is obtained, and the B degree and the C degree may be output as the analysis result. The procedure for calculating the B degree and the C degree when the classification process is class classification is as follows.

まず、BtoBの教師データであることを示すラベル情報と対応付けられた特徴ベクトルデータ群、BtoCの教師データであることを示すラベル情報と対応付けられた特徴ベクトルデータ群、及びCtoCの教師データであることを示すラベル情報と対応付けられた特徴ベクトルデータ群を準備し、これらを用いた機械学習により線形分類器f(z)の重み係数をBtoB、BtoC、及びCtoCの分類に好適なものに設定する。 First, the feature vector data group associated with the label information indicating that it is BtoB teacher data, the feature vector data group associated with the label information indicating that it is BtoC teacher data, and the CtoC teacher data. A group of feature vector data associated with label information indicating that there is is prepared, and the weighting coefficient of the linear classifier f (z) is made suitable for classification of BtoB, BtoC, and CtoC by machine learning using these. Set.

機械学習による重み係数の最適化の後、文書データDの特徴ベクトルデータz={z11、z12・・・z1l’}を線形分類器f(z)に代入して文書データDがいずれのクラスに属するかを決定し、文書データDの特徴ベクトルデータz={z21、z22・・・z2l’}を線形分類器f(z)に代入して文書データDがいずれのクラスに属するかを決定し・・・文書データDの特徴ベクトルデータz={zd1、zd2・・・zdl’}を線形分類器f(z)に代入して文書データDがいずれのクラスに属するかを決定する、というようにして、文書データD、D・・・Dを、BtoBのクラス、BtoCのクラス、及びCtoCのクラスに分類する。その上で、文書データD(k=1〜d)全体に占める、BtoB、BtoC、及びCtoCの各クラスの割合の関係に基づいて、B度及びC度を算出する。 After optimizing the weighting coefficient by machine learning, the feature vector data z 1 = {z 11 , z 12 ... z 1l' } of the document data D 1 is substituted into the linear classifier f (z), and the document data D Determine which class 1 belongs to, and substitute the feature vector data z 2 = {z 21 , z 22 ... z 2l' } of the document data D 2 into the linear classifier f (z) to create the document data. Determine which class D 2 belongs to ... Substitute the feature vector data z d = {z d1 , z d2 ... z dl' } of the document data D n into the linear classifier f (z). The document data D 1 , D 2 ... D d is classified into a BtoB class, a BtoC class, and a CtoC class by determining which class the document data D n belongs to. .. Then, the B degree and the C degree are calculated based on the relationship of the ratio of each class of BtoB, BtoC, and CtoC to the entire document data D k (k = 1 to d).

同様の手順により、評価対象の検索語の上位webページがどの程度学術的ニーズを満たすかを示す指標である学術度や、評価対象の検索語の上位webページがどの程度会話的ニーズを満たすかを示す会話度を求め、これらの指標を解析結果として出力してもよい。 By the same procedure, the academic degree, which is an index showing how much the top web page of the search term to be evaluated meets the academic needs, and how much the top web page of the search term to be evaluated meets the conversational needs. The degree of conversation indicating the above may be obtained, and these indexes may be output as the analysis result.

(2)上記第1〜第9実施形態では、検索結果内のwebページを解析対象とした。しかし、解析対象にwebサイトやwebコンテンツを解析対象に含めてもよい。 (2) In the first to ninth embodiments, the web page in the search result is analyzed. However, a web site or web content may be included in the analysis target.

(3)上記第1〜第9実施形態の定量化処理において、文書データD(k=1〜d)の内容だけを定量化し、この内容を定量化した特徴ベクトルデータに分類処理を施してもよい。また、定量化処理において、文書データD(k=1〜d)の構造だけを定量化し、この内容を定量化した特徴ベクトルデータに分類処理を施してもよい。 (3) In the quantification process of the first to ninth embodiments, only the content of the document data D k (k = 1 to d) is quantified, and the feature vector data obtained by quantifying the content is classified. May be good. Further, in the quantification process, only the structure of the document data D k (k = 1 to d) may be quantified, and the feature vector data obtained by quantifying the contents may be classified.

(4)上記第1〜第9実施形態の文書内容定量化処理において、文書データD(k=1〜d)を、自動文章要約のアルゴリズムにより要約し、この要約した文書データを多次元ベクトル化し、この多次元ベクトル化した特徴ベクトルデータに対してステップS210以降の全部または一部の処理を行ってもよい。 (4) In the document content quantification processing of the first to ninth embodiments, the document data Dk (k = 1 to d) is summarized by an automatic sentence summarization algorithm, and the summarized document data is summarized as a multidimensional vector. The multidimensional vectorized feature vector data may be processed in whole or in part after step S210.

(5)上記第1〜第9実施形態の文書構造定量化処理において、文書データD(k=1〜d)の構造を、品詞構成率、HTMLタグ構造、係り受け構造、及び構造複雑度(Structure Complexity)に基づいた定量化をしてもよい。 (5) In the document structure quantification processing of the first to ninth embodiments, the structure of the document data D k (k = 1 to d) is divided into the part lyrics composition ratio, the HTML tag structure, the dependency structure, and the structural complexity. Quantification based on (Structure Complexity) may be performed.

(6)上記第1及び第3実施形態の評価軸設定処理では、評価軸設定バー9を上位階層側又は下位階層側に移動させることにより、分類数(クラスタやコミュニティの数)を設定した。これに対し、図4(B)に示すように、同じ階層の複数の部分集合のうち一部(図4(B)の例では、鎖線が指し示す部分)を分類対象から除く、といった設定により、分類数を設定するようにしてもよい。 (6) In the evaluation axis setting process of the first and third embodiments, the number of classifications (number of clusters and communities) is set by moving the evaluation axis setting bar 9 to the upper layer side or the lower layer side. On the other hand, as shown in FIG. 4 (B), a part (in the example of FIG. 4 (B), the portion indicated by the chain line) is excluded from the classification target among the plurality of subsets of the same hierarchy. The number of classifications may be set.

(7)上記第1、第4、及び第5実施形態のクラスタリング処理では、文書データD、D・・・Dの特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}にクラスタリングの最短距離法の処理を施した。しかし、最短距離法でない処理を施してもよい。例えば、文書データD、D・・・Dの特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}に、ウォード法(Ward法)、群平均法、最短距離法、最長距離法、又は、Fuzzy C-meaps法のアルゴリズムに従った処理を施してもよい。 (7) In the clustering processing of the first, fourth, and fifth embodiments, the feature vector data z 1 = {z 11 , z 12 ... z 1l of the document data D 1 , D 2 ... D d. ' }, Z 2 = {z 21 , z 22 ... z 2l' } ... z d = {z d1 , z d2 ... z dl' } were subjected to the processing of the shortest distance method for clustering. However, processing other than the shortest distance method may be performed. For example, the feature vector data z 1 = {z 11 , z 12 ... z 1l' }, z 2 = {z 21 , z 22 ... z 2l'of the document data D 1 , D 2 ... D d. } in ··· z d = {z d1, z d2 ··· z dl '}, Ward's method (Ward method), group average method, nearest neighbor method, the maximum distance method, or algorithm of Fuzzy C-meaps method The processing may be performed according to the above.

また、文書データD、D・・・Dの特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}に、ディープラーニングを用いたクラスタリング処理を施してもよい。 Further, the feature vector data z 1 = {z 11 , z 12 ... z 1l' } of the document data D 1 , D 2 ... D d , z 2 = {z 21 , z 22 ... z 2l' } ... Z d = {z d1 , z d2 ... z dl' } may be subjected to a clustering process using deep learning.

また、文書データD、D・・・Dの特徴ベクトルデータz={z11、z12・・・z1l’}、z={z21、z22・・・z2l’}・・・z={zd1、zd2・・・zdl’}に、k−meansなどの非階層のクラスタ分類のアルゴリズムに従った処理を施してもよい。ここで、k−meansは非階層のクラスタ分類であるから、解析結果としてデンドログラム8を提示することができない。k−meansのクラスタリングをする場合、評価軸設定処理では、ユーザから、クラスタ数の値kの入力を受け付け、指定されたクラスタ数を新たな設定としてクラスタリング処理を行うようにするとよい。 Further, the feature vector data z 1 = {z 11 , z 12 ... z 1l' } of the document data D 1 , D 2 ... D d , z 2 = {z 21 , z 22 ... z 2l' } ... Z d = {z d1 , z d2 ... z dl' } may be processed according to a non-hierarchical cluster classification algorithm such as k-means. Here, since k-means is a non-hierarchical cluster classification, the dendrogram 8 cannot be presented as an analysis result. In the case of clustering k-means, in the evaluation axis setting process, it is preferable to accept the input of the value k of the number of clusters from the user and perform the clustering process with the specified number of clusters as a new setting.

(8)上記第2、第6、及び第7実施形態のクラス分類処理では、CPU22は、いわゆるパーセプトロンの線形分類器f(z)により、文書データD(k=1〜d)の各々をどのクラスに振り分けるかを決定した。しかし、別の手法によりによりクラスの振り分けをしてもよい。例えば、パーセプトロン、ナイーブベイズ法、テンプレートマッチング、k−最近傍識別法、決定木、ランダムフォレスト、AdaBoost、Support Vector Machine(SVM)、又は、ディープラーニングにより、文書データD(k=1〜d)を複数のクラスに分類してもよい。また、線形分類器ではなく、非線形分類器により分類をしてもよい。 (8) In the classification processing of the second, sixth, and seventh embodiments, the CPU 22 uses the so-called perceptron linear classifier f (z) to perform each of the document data D k (k = 1 to d). I decided which class to assign. However, the classes may be sorted by another method. For example, by perceptron, naive bays method, template matching, k-nearest neighbor identification method, decision tree, random forest, AdaBoost, Support Vector Machine (SVM), or deep learning, document data D k (k = 1 to d). May be classified into multiple classes. Further, the classification may be performed by a non-linear classifier instead of the linear classifier.

(9)上記第3、第8、及び第9実施形態のコミュニティ検出処理では、文書データD(k=1〜d)を重み付き無向グラフ化し、重み付き無向グラフにおける各ノードの媒介中心性の算出と、媒介中心性が最大のエッジの除去とを繰り返すことにより、文書データD(k=1〜d)を複数のコミュニティに分類した。しかし、媒介中心性に基づくもの以外の手法により、文書データD(k=1〜d)を複数のコミュニティに分類してもよい。例えば、ランダムウォークに基づくコミュニティ検出、貪欲法、固有ベクトルに基づくコミュニティ検出、多段階最適化に基づくコミュニティ検出、スピングラス法に基づくコミュニティ検出、Infomap法、又は、Overlapping Community Detectionに基づくコミュニティ検出により、文書データD(k=1〜d)を複数のコミュニティに分類してもよい。 (9) In the community detection processing of the third, eighth, and ninth embodiments, the document data D k (k = 1 to d) is made into a weighted undirected graph, and mediation of each node in the weighted undirected graph. By repeating the calculation of the centrality and the removal of the edge having the maximum mediation centrality, the document data Dk (k = 1 to d) was classified into a plurality of communities. However, the document data D k (k = 1 to d) may be classified into a plurality of communities by a method other than that based on mediation centrality. For example, a document by community detection based on random walk, greedy method, community detection based on eigenvector, community detection based on multi-step optimization, community detection based on spin glass method, Infomap method, or community detection based on Overlapping Community Detection. Data D k (k = 1 to d) may be classified into a plurality of communities.

(10)上記第5〜第6実施形態のコミュニティ検出処理において、文書データD(k=1〜d)の各々をノードとする重み無し無向グラフを生成し、この重み無し無向グラフに基づいて、文書データD(k=1〜d)を複数のコミュニティに分類してもよい。 (10) In the community detection process of the fifth to sixth embodiments , an unweighted undirected graph having each of the document data D k (k = 1 to d) as a node is generated, and the unweighted undirected graph is used. Based on this, the document data D k (k = 1 to d) may be classified into a plurality of communities.

(11)上記第4及び第5実施形態の解析結果出力処理において、クラスタリング処理の処理結果に基づく上位ページ分類とマッピング画像7とを解析結果画面として出力してもよい。また、上記第6及び第7実施形態の解析結果出力処理において、クラス分類処理の処理結果に基づく上位ページ分類とマッピング画像7とを解析結果画面として出力してもよい。また、上記第8及び第9実施形態の解析結果出力処理において、コミュニティ検出処理の処理結果に基づく上位ページ分類とマッピング画像7とを解析結果画面として出力してもよい。 (11) In the analysis result output processing of the fourth and fifth embodiments, the upper page classification based on the processing result of the clustering processing and the mapping image 7 may be output as the analysis result screen. Further, in the analysis result output processing of the sixth and seventh embodiments, the upper page classification based on the processing result of the classification processing and the mapping image 7 may be output as the analysis result screen. Further, in the analysis result output processing of the eighth and ninth embodiments, the upper page classification based on the processing result of the community detection processing and the mapping image 7 may be output as the analysis result screen.

(12)上記第1、第2、第4、第5、第6、及び第7実施形態において、次元縮約処理を実行せずに、加算処理の処理結果にクラスタリングやクラス分類などの分類処理を施してもよい。また、第3、第8、及び第9実施形態において、次元縮約処理を実行し、次元縮約処理による次元縮約を経た特徴ベクトルデータに類似度特定処理及びコミュニティ検出処理を施し、次元縮約処理を経た特徴ベクトルデータにより、複数の文書データを複数の部分集合に分類してもよい。 (12) In the first, second, fourth, fifth, sixth, and seventh embodiments described above, classification processing such as clustering or classification is performed on the processing result of the addition processing without executing the dimension reduction processing. May be given. Further, in the third, eighth, and ninth embodiments, the dimension reduction process is executed, and the feature vector data that has undergone the dimension reduction by the dimension reduction process is subjected to the similarity identification process and the community detection process to perform the dimension reduction process. A plurality of document data may be classified into a plurality of subsets based on the feature vector data that has undergone about processing.

1…評価システム、10…利用者端末、20…検索ニーズ評価装置、21…通信インターフェース、22…CPU、23…RAM、24…ROM、25…ハードディスク、26…評価プログラム、50…検索エンジンサーバ装置。 1 ... Evaluation system, 10 ... User terminal, 20 ... Search needs evaluation device, 21 ... Communication interface, 22 ... CPU, 23 ... RAM, 24 ... ROM, 25 ... Hard disk, 26 ... Evaluation program, 50 ... Search engine server device ..

Claims (10)

複数の検索語のそれぞれに対する検索結果であって、検索エンジンから取得される検索結果のうち上位所定数に基づいて、前記複数の検索語のそれぞれの多次元特徴量を生成する手段と、
1の検索語と他の複数の検索語間の前記多次元特徴量の類似度を特定する手段と、
特定された類似度に基づいて、前記複数の検索語のそれぞれを複数の部分集合の1以上に分類することによって、各検索語がどの部分集合にどの程度近いかの度合いを取得する手段と、
前記検索語に対応する図形において、前記検索語がどの部分集合にどの程度近いかの度合いを表示させる第2表示制御手段と、を備え、
図形は複数の部分に分割され、そのそれぞれが前記部分集合に対応する、評価装置。
A means for generating a multidimensional feature amount of each of the plurality of search terms based on a high-order predetermined number of search results obtained from a search engine, which is a search result for each of the plurality of search terms.
A means for identifying the similarity of the multidimensional features between one search term and a plurality of other search terms, and
A means for obtaining the degree of how close each search term is to which subset by classifying each of the plurality of search terms into one or more of a plurality of subsets based on the identified similarity.
A second display control means for displaying the degree to which the search term is close to which subset in the figure corresponding to the search term is provided.
Figure is divided into a plurality of portions, the corresponding each of which in the subset, the evaluation device.
前記複数の検索語のそれぞれと、他の検索語との前記多次元特徴量の類似度と、を表形式で表示させる第1表示制御手段を備える、請求項1に記載の評価装置。 The evaluation device according to claim 1, further comprising a first display control means for displaying each of the plurality of search terms and the similarity of the multidimensional feature amount with the other search terms in a tabular form. 前記第1表示制御手段は、
前記複数の検索語を、所定方向と、前記所定方向に直交する方向と、に配置し、
各方向の交点において、対応する検索語間の前記多次元特徴量の類似度を表示させる、請求項2に記載の評価装置。
The first display control means
The plurality of search terms are arranged in a predetermined direction and in a direction orthogonal to the predetermined direction.
The evaluation device according to claim 2, wherein the similarity of the multidimensional features between the corresponding search terms is displayed at the intersection in each direction.
前記第1表示制御手段は、
前記複数の検索語を、所定方向と、前記所定方向に直交する方向と、に配置し、
各方向の交点を、対応する検索語間の類似度に応じた態様で表示させる、請求項2に記載の評価装置。
The first display control means
The plurality of search terms are arranged in a predetermined direction and in a direction orthogonal to the predetermined direction.
The evaluation device according to claim 2, wherein the intersections in each direction are displayed in an manner corresponding to the degree of similarity between the corresponding search terms.
前記第1表示制御手段は、前記複数の検索語を、他の検索語との前記多次元特徴量の類似度に応じた順で前記所定方向に配置する、請求項3または4に記載の評価装置。 The evaluation according to claim 3 or 4, wherein the first display control means arranges the plurality of search terms in the predetermined direction in an order according to the similarity of the multidimensional feature amount with other search terms. Device. 前記複数の検索語のうちの1つがユーザによって選択されると、前記第1表示制御手段は、選択された検索語との前記多次元特徴量の類似度が高い順で、前記複数の検索語を前記所定方向に配置する、請求項5に記載の評価装置。 When one of the plurality of search terms is selected by the user, the first display control means performs the plurality of search terms in descending order of similarity of the multidimensional feature amount with the selected search term. The evaluation device according to claim 5, wherein the device is arranged in the predetermined direction. 前記複数の検索語は、共通する語を含む、請求項1乃至6のいずれかに記載の評価装置。 The evaluation device according to any one of claims 1 to 6, wherein the plurality of search terms include common words. 前記部分集合が検索ニーズに対応する、請求項1乃至7のいずれかに記載の評価装置。 The evaluation device according to any one of claims 1 to 7, wherein the subset corresponds to a search need. コンピュータを、
複数の検索語のそれぞれに対する検索結果であって、検索エンジンから取得される検索結果のうち上位所定数に基づいて、前記複数の検索語のそれぞれの多次元特徴量を生成する手段と、
1の検索語と他の複数の検索語間の前記多次元特徴量の類似度を特定する手段と、
特定された類似度に基づいて、前記複数の検索語のそれぞれを複数の部分集合の1以上に分類することによって、各検索語がどの部分集合にどの程度近いかの度合いを取得する手段と、
前記検索語に対応する図形において、前記検索語がどの部分集合にどの程度近いかの度合いを表示させる表示制御手段と、として機能させ、
図形は複数の部分に分割され、そのそれぞれが前記部分集合に対応する、評価プログラム。
Computer,
A means for generating a multidimensional feature amount of each of the plurality of search terms based on a high-order predetermined number of search results obtained from a search engine, which is a search result for each of the plurality of search terms.
A means for identifying the similarity of the multidimensional features between one search term and a plurality of other search terms, and
A means for obtaining the degree of how close each search term is to which subset by classifying each of the plurality of search terms into one or more of a plurality of subsets based on the identified similarity.
In the figure corresponding to the search term, it functions as a display control means for displaying the degree of how close the search term is to which subset.
An evaluation program in which a figure is divided into a plurality of parts, each of which corresponds to the subset.
多次元特徴量生成手段が、複数の検索語のそれぞれに対する検索結果であって、検索エンジンから取得される検索結果のうち上位所定数に基づいて、前記複数の検索語のそれぞれの多次元特徴量を生成するステップと、
類似度特定手段が、1の検索語と他の複数の検索語間の前記多次元特徴量の類似度を特定するステップと、
分類手段が、特定された類似度に基づいて、前記複数の検索語のそれぞれを複数の部分集合の1以上に分類することによって、各検索語がどの部分集合にどの程度近いかの度合いを取得するステップと、
表示制御手段が、前記検索語に対応する図形において、前記検索語がどの部分集合にどの程度近いかの度合いを表示させるステップと、を含み、
図形は複数の部分に分割され、そのそれぞれが前記部分集合に対応する評価方法。
The multidimensional feature amount generating means is a search result for each of a plurality of search terms, and is a multidimensional feature amount of each of the plurality of search terms based on a high-order predetermined number of the search results acquired from the search engine. And the steps to generate
The similarity identification means includes a step of identifying the similarity of the multidimensional feature amount between one search term and a plurality of other search terms.
The classification means obtains the degree of how close each search term is to which subset by classifying each of the plurality of search terms into one or more of a plurality of subsets based on the identified similarity. the method comprising the steps of,
Display control means, in figure corresponding to the search word, look including the steps of: displaying a degree of how close to the search word which subsets,
An evaluation method in which a figure is divided into a plurality of parts, each of which corresponds to the subset.
JP2020049266A 2018-11-06 2020-03-19 Search needs evaluation device, search needs evaluation system, and search needs evaluation method Active JP6924450B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020049266A JP6924450B2 (en) 2018-11-06 2020-03-19 Search needs evaluation device, search needs evaluation system, and search needs evaluation method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019527489A JP6680956B1 (en) 2018-11-06 2018-11-06 Search needs evaluation device, search needs evaluation system, and search needs evaluation method
JP2020049266A JP6924450B2 (en) 2018-11-06 2020-03-19 Search needs evaluation device, search needs evaluation system, and search needs evaluation method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019527489A Division JP6680956B1 (en) 2018-11-06 2018-11-06 Search needs evaluation device, search needs evaluation system, and search needs evaluation method

Publications (3)

Publication Number Publication Date
JP2020109689A JP2020109689A (en) 2020-07-16
JP2020109689A5 JP2020109689A5 (en) 2020-08-27
JP6924450B2 true JP6924450B2 (en) 2021-08-25

Family

ID=71570511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020049266A Active JP6924450B2 (en) 2018-11-06 2020-03-19 Search needs evaluation device, search needs evaluation system, and search needs evaluation method

Country Status (1)

Country Link
JP (1) JP6924450B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7410066B2 (en) * 2021-02-18 2024-01-09 Lineヤフー株式会社 Information provision device, information provision method, and information provision program

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09245100A (en) * 1996-03-06 1997-09-19 Fujitsu Ltd Document printer
DE1233365T1 (en) * 1999-06-25 2003-03-20 Genaissance Pharmaceuticals Method for producing and using haplotype data
JP3959938B2 (en) * 2000-06-29 2007-08-15 富士ゼロックス株式会社 Connection relation display method and apparatus
JP3602084B2 (en) * 2001-09-28 2004-12-15 株式会社東芝 Database management device
JP2004348554A (en) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> Retrieval keyword information providing device, method, and program for same
JP2006113733A (en) * 2004-10-13 2006-04-27 Matsushita Electric Ind Co Ltd Search method, search program and search device
US8606786B2 (en) * 2009-06-22 2013-12-10 Microsoft Corporation Determining a similarity measure between queries
JP5471372B2 (en) * 2009-12-01 2014-04-16 富士ゼロックス株式会社 Program and information processing system
JP5265610B2 (en) * 2010-04-13 2013-08-14 ヤフー株式会社 Related word extractor
JP6299596B2 (en) * 2012-09-28 2018-03-28 日本電気株式会社 Query similarity evaluation system, evaluation method, and program
JP6248444B2 (en) * 2013-07-19 2017-12-20 富士通株式会社 Information processing program, apparatus, and method
JP6203304B2 (en) * 2016-02-19 2017-09-27 ヤフー株式会社 Information processing apparatus, information processing method, and information processing program
JP6635899B2 (en) * 2016-09-02 2020-01-29 株式会社日立製作所 Comprehension calculating device and comprehension calculating method

Also Published As

Publication number Publication date
JP2020109689A (en) 2020-07-16

Similar Documents

Publication Publication Date Title
CN108628971B (en) Text classification method, text classifier and storage medium for unbalanced data set
WO2022116537A1 (en) News recommendation method and apparatus, and electronic device and storage medium
US20230409645A1 (en) Search needs evaluation apparatus, search needs evaluation system, and search needs evaluation method
US8683314B2 (en) Tree pruning of icon trees via subtree selection using tree functionals
CN109783635A (en) Use machine learning and fuzzy matching AUTOMATIC ZONING classifying documents and identification metadata
JP6782858B2 (en) Literature classification device
Da Silva et al. Active learning paradigms for CBIR systems based on optimum-path forest classification
JP6378855B1 (en) Image search system, image search method and program
JP2005317018A (en) Method and system for calculating importance of block in display page
JP2006179002A (en) Dynamic document icon
US11689507B2 (en) Privacy preserving document analysis
Aeini et al. Supervised hierarchical neighborhood graph construction for manifold learning
JP6924450B2 (en) Search needs evaluation device, search needs evaluation system, and search needs evaluation method
Shi et al. Topical network embedding
TW201243627A (en) Multi-label text categorization based on fuzzy similarity and k nearest neighbors
JP2011003156A (en) Data classification device, data classification method, and data classification program
CN112182451A (en) Webpage content abstract generation method, equipment, storage medium and device
US11907307B1 (en) Method and system for event prediction via causal map generation and visualization
JP2004086262A (en) Visual information classification method, visual information classification device, visual information classification program, and recording medium storing the program
US20230267175A1 (en) Systems and methods for sample efficient training of machine learning models
Wang et al. An efficient refinement algorithm for multi-label image annotation with correlation model
CN113988149A (en) Service clustering method based on particle swarm fuzzy clustering
Langenkämper et al. Ake-the accelerated k-mer exploration web-tool for rapid taxonomic classification and visualization
JPWO2017168601A1 (en) Similar image retrieval method and system
Lu et al. A multimedia information fusion framework for web image categorization

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200709

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200709

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200709

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210720

R150 Certificate of patent or registration of utility model

Ref document number: 6924450

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150