JP6325132B2 - Data collection device and data collection method - Google Patents

Data collection device and data collection method Download PDF

Info

Publication number
JP6325132B2
JP6325132B2 JP2016562135A JP2016562135A JP6325132B2 JP 6325132 B2 JP6325132 B2 JP 6325132B2 JP 2016562135 A JP2016562135 A JP 2016562135A JP 2016562135 A JP2016562135 A JP 2016562135A JP 6325132 B2 JP6325132 B2 JP 6325132B2
Authority
JP
Japan
Prior art keywords
search
data collection
data
collection device
search condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016562135A
Other languages
Japanese (ja)
Other versions
JPWO2016088212A1 (en
Inventor
裕 早矢仕
裕 早矢仕
石黒 正雄
正雄 石黒
直史 冨田
直史 冨田
和重 廣井
和重 廣井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2016088212A1 publication Critical patent/JPWO2016088212A1/en
Application granted granted Critical
Publication of JP6325132B2 publication Critical patent/JP6325132B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Description

本発明は、データ収集装置、及びデータ収集方法に関する。   The present invention relates to a data collection device and a data collection method.

特許文献1には、「利用者が関連記事を検索したい記事を選択すると、基準検索件数に最も近いヒット件数となるような検索式を動的に変化させながら自動的に生成し、関連記事を表示する」と記載されている。   Patent Document 1 states that “When a user selects an article for which a related article is to be searched, a search expression that dynamically matches the number of hits closest to the reference search number is automatically generated while dynamically changing the related article. It is displayed.

特許文献2には、「ユーザのキーワード入力を受け付けるキーワード入力受付手段と、受け付けられたユーザ入力のキーワードで定まる検索式が対象の文書内で成立する件数を求めて該検索式と求めた件数とをユーザに提示する検索結果提示手段と、検索結果提示手段が提示した検索式の関連語を生成する関連語生成手段と、提示されたキーワードと生成された関連語とを含む検索式が対象の文書内で成立する件数を求めて該件数と生成された関連語とをユーザに提示する検索結果予想提示手段とを有する」と記載されている。   Patent Document 2 discloses that “a keyword input accepting unit that accepts a keyword input by a user, a number of cases in which a search expression determined by the accepted user input keyword is established in a target document, A search result presenting means for presenting to a user, a related word generating means for generating a related word of the search expression presented by the search result presenting means, and a search expression including the presented keyword and the generated related word It has a search result prediction presenting means for obtaining the number of cases established in the document and presenting the number of cases and the generated related words to the user.

特開2005−100136号公報JP 2005-100136 A 特開平5−314182号公報JP-A-5-314182

特許文献1では、基準検索件数に最も近いヒット件数となるような検索式を動的に変化させるため、検索結果にユーザが想定していた情報とは異なる情報が含まれてしまう場合や検索結果にユーザが想定していた情報が含まれない場合が生じうる。また特許文献2では、提示された情報に基づきユーザが関連語を選択して新たなキーワードを指示するので、特許文献1と同様の問題が生じうる。   In Patent Document 1, a search expression that dynamically matches the number of hits that is closest to the reference number of searches is dynamically changed. May not include information that the user is expecting. Further, in Patent Document 2, since the user selects a related word and designates a new keyword based on the presented information, the same problem as in Patent Document 1 may occur.

本発明は、検索条件を指定して行われるデータの収集に際し、ユーザが目的としている情報を精度よく収集することが可能な、データ収集装置、及びデータ収集方法を提供することを目的としている。   An object of the present invention is to provide a data collection apparatus and a data collection method capable of accurately collecting information intended by a user when collecting data performed by specifying a search condition.

上記目的を達成するための本発明の一つは、検索条件を満たす情報をデータ群から収集する情報収集装置であって、複数の検索条件の夫々を用いて前記データ群を検索し、前記複数の検索条件の夫々のヒット件数に応じて前記複数の検索条件を複数のクラスタに分類した結果に基づき、前記検索に用いる前記検索条件の候補を特定する。   One aspect of the present invention for achieving the above object is an information collection apparatus that collects information satisfying a search condition from a data group, and searches the data group using each of a plurality of search conditions, Based on the result of classifying the plurality of search conditions into a plurality of clusters according to the number of hits of each of the search conditions, the search condition candidates used for the search are specified.

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。   In addition, the subject which this application discloses, and its solution method are clarified by the column of the form for inventing, and drawing.

本発明によれば、検索条件を指定して行われるデータの収集に際し、ユーザが目的としている情報を精度よく収集することができる。   According to the present invention, it is possible to accurately collect information intended by a user when collecting data performed by specifying a search condition.

データ収集システム1の概略的な構成を示す図である。1 is a diagram illustrating a schematic configuration of a data collection system 1. FIG. データ収集装置10の処理の概念を説明する図である。3 is a diagram for explaining a concept of processing of the data collection device 10. FIG. データ収集装置10及びサーバ装置20の実現に用いられる情報処理装置100のハードウェアの一例である。It is an example of the hardware of the information processing apparatus 100 used for implementation | achievement of the data collection device 10 and the server apparatus 20. FIG. データ収集装置10が備える機能及びデータ収集装置10が管理するデータを説明するデータフロー図である。It is a data flow figure explaining the function with which data collection device 10 is provided, and the data which data collection device 10 manages. 収集データ402の一例である。3 is an example of collected data 402; 設定検索ワード403の一例である。It is an example of a setting search word 403. 同義語辞書405の一例である。It is an example of a synonym dictionary 405. 対義語辞書406の一例である。It is an example of an antonym dictionary 406. ヒット件数データ408の一例である。This is an example of hit count data 408. 検索条件データ411の一例である。It is an example of the search condition data 411. 検索条件生成処理S1100を説明するフローチャートである。It is a flowchart explaining search condition generation processing S1100. 収集データ取得処理S1200を説明するフローチャートである。It is a flowchart explaining collection data acquisition processing S1200. 検索処理S1300を説明するフローチャートである。It is a flowchart explaining search processing S1300. クラスタ生成処理S1400を説明するフローチャートである。It is a flowchart explaining cluster generation processing S1400. 除外条件判定処理S1500を説明するフローチャートである。It is a flowchart explaining exclusion condition determination processing S1500. 除外条件設定画面1600の一例である。It is an example of an exclusion condition setting screen 1600. 第2実施例におけるヒット件数データ408Aの一例である。It is an example of hit number data 408A in 2nd Example. 第3実施例のクラスタ生成部409が行う類似度の判定例を示す図である。It is a figure which shows the example of determination of the similarity which the cluster production | generation part 409 of 3rd Example performs.

以下、本発明の一実施形態について図面とともに説明する。尚、以下の説明において、同一の機能及び構成を有する構成要素について同一の符号を付して重複した説明を省略することがある。   Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In the following description, components having the same function and configuration may be denoted by the same reference numerals and redundant description may be omitted.

=第1実施例=
図1は一実施形態として説明するデータ収集システム1の概略的な構成を示す図である。同図に示すように、データ収集システム1は、データ収集装置10とサーバ装置20を含む。データ収集装置10とサーバ装置20とは、通信ネットワーク5を介して通信可能に接続されている。通信ネットワーク5は、例えば、インターネットや専用回線等である。
= First embodiment =
FIG. 1 is a diagram showing a schematic configuration of a data collection system 1 described as an embodiment. As shown in FIG. 1, the data collection system 1 includes a data collection device 10 and a server device 20. The data collection device 10 and the server device 20 are connected to be communicable via the communication network 5. The communication network 5 is, for example, the Internet or a dedicated line.

サーバ装置20は、通信ネットワーク5を介してアクセスしてくる他の装置に対して情報(データ)を提供する装置(例えば、Webサーバ、SNSサーバ(SNS:Social Network Service)、オープンデータサーバ等)として機能する。   The server device 20 is a device that provides information (data) to other devices accessed via the communication network 5 (for example, a Web server, an SNS server (SNS: Social Network Service), an open data server, etc.) Function as.

データ収集装置10は、通信ネットワーク5を介してサーバ装置20にアクセスし、サーバ装置20からデータを取得する。データ収集装置10によって取得されるデータは、例えば、特定の話題に関する傾向分析や因果関係分析等に役立てられる。   The data collection device 10 accesses the server device 20 via the communication network 5 and acquires data from the server device 20. The data acquired by the data collection device 10 is useful for, for example, trend analysis and causal relationship analysis regarding a specific topic.

データ収集装置10は、検索条件(検索式)を満たす情報(ヒットする情報)を、サーバ装置20から取得されるデータ群から収集する。上記収集に際し、データ収集装置10は、複数の検索条件を用いてデータ群を検索し、複数の検索条件の夫々のヒット件数に応じて複数の検索条件を複数のクラスタに分類した結果に基づき、上記データ群の検索に用いる検索条件の候補を特定する。   The data collection device 10 collects information (hit information) that satisfies the search condition (search formula) from the data group acquired from the server device 20. In the above collection, the data collection device 10 searches the data group using a plurality of search conditions, and based on the result of classifying the plurality of search conditions into a plurality of clusters according to the number of hits of each of the plurality of search conditions, A search condition candidate used for searching the data group is specified.

図2に示すように、データ収集装置10は、上記特定に際し、平均値が予め設定された範囲に含まれないクラスタに属している検索条件を検索条件の候補から除外する。例えば、データ収集装置10は、平均値が予め設定された範囲を超えるクラスタ(同図におけるクラスタC)に属する検索条件(h,i,j)を上記候補の対象から除外する。   As shown in FIG. 2, the data collection device 10 excludes, from the search condition candidates, search conditions belonging to a cluster whose average value is not included in a preset range in the above specification. For example, the data collection device 10 excludes the search condition (h, i, j) belonging to a cluster (cluster C in the figure) whose average value exceeds a preset range from the candidate targets.

このようにデータ収集装置10は、検索条件を複数のクラスタに分類し、クラスタを単位として検索条件の候補を特定するので、ヒット件数が非常に大きなクラスタに属する検索条件を有効に除外することができ、ユーザが目的としない情報(以下、ノイズ(noise)とも称する。)を含まない検索結果を取得可能な検索条件を特定することができる。尚、ヒット件数が非常に大きなクラスタに属する検索条件には、例えば多義性を持ったキーワードが検索条件に含まれており、ユーザが目的としない情報が多く含まれることとなるので、候補から除外する。   As described above, the data collection apparatus 10 classifies the search conditions into a plurality of clusters and specifies search condition candidates in units of clusters. Therefore, it is possible to effectively exclude search conditions belonging to clusters with a very large number of hits. It is possible to specify a search condition that can obtain a search result that does not include information that is not intended by the user (hereinafter also referred to as noise). Note that search conditions belonging to clusters with a very large number of hits are excluded from candidates because, for example, keywords with ambiguousness are included in the search conditions and a large amount of information not intended by the user is included. To do.

尚、図2に示しているように、データ収集装置10は、上記複数の検索条件を、例えば、ある検索条件に含まれるワードの関連語を関連語辞書(同義語辞書、対義語辞書、具体化辞書等)から検索して置換することにより生成する。そのため、ユーザに負担を強いることなく、検索に用いる検索条件の候補の選択対象となる検索条件を効率よく生成することができる。   As shown in FIG. 2, the data collection device 10 uses the related word dictionary (synonym dictionary, synonym dictionary, materialization) for the plurality of search conditions, for example, related words of words included in a certain search condition. It is generated by searching from a dictionary etc. and replacing it. Therefore, it is possible to efficiently generate a search condition that is a selection target of search condition candidates used for the search without imposing a burden on the user.

データ収集装置10は、検索条件の上記複数のクラスタの分類を、例えば、k−means法により行う。またデータ収集装置10は、検索に用いる検索条件の候補として特定した検索条件を提示して指定させるユーザインタフェースを備えており、ユーザから検索に用いる検索条件の指定を受け付ける。そのため、ユーザは目的とする情報を効率よく取得するのに適した検索条件を自ら最終的に決定することができる。   The data collection device 10 classifies the plurality of clusters of the search condition by, for example, the k-means method. In addition, the data collection device 10 includes a user interface that presents and specifies a search condition specified as a search condition candidate used for search, and accepts specification of the search condition used for search from the user. Therefore, the user can finally determine the search condition suitable for efficiently acquiring the target information.

図3はデータ収集装置10やサーバ装置20の実現に用いられる、情報処理装置100のハードウェアの一例である。同図に示すように、情報処理装置100は、プロセッサ101、記憶装置102、入力装置104、出力装置105、及び通信装置106を備える。これらはバス等の通信手段を介して通信可能に接続されている。   FIG. 3 is an example of hardware of the information processing apparatus 100 used for realizing the data collection apparatus 10 and the server apparatus 20. As illustrated in FIG. 1, the information processing apparatus 100 includes a processor 101, a storage device 102, an input device 104, an output device 105, and a communication device 106. These are connected to be communicable via a communication means such as a bus.

プロセッサ101は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)を用いて構成されている。記憶装置102は、プログラムやデータを記憶する装置であり、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、NVRAM(Non Volatile RAM)、ハードディスクドライブ、SSD(Solid State Drive)、光学式記憶装置等である。入力装置104は、ユーザから情報や指示の入力を受け付けるユーザインタフェースであり、例えば、キーボード、マウス、タッチパネル等である。出力装置105は、ユーザに情報を提供するユーザインタフェースであり、例えば、グラフィックカード、液晶モニタ等である。通信装置106は、通信ネットワーク5を介して他の装置と通信する通信インタフェースであり、例えば、NIC(Network Interface Card)や無線LANインタフェースである。   The processor 101 is configured using, for example, a CPU (Central Processing Unit) and an MPU (Micro Processing Unit). The storage device 102 is a device that stores programs and data. For example, ROM (Read Only Memory), RAM (Random Access Memory), NVRAM (Non Volatile RAM), hard disk drive, SSD (Solid State Drive), optical type A storage device or the like. The input device 104 is a user interface that receives input of information and instructions from the user, and is a keyboard, a mouse, a touch panel, or the like, for example. The output device 105 is a user interface that provides information to the user, such as a graphic card or a liquid crystal monitor. The communication device 106 is a communication interface that communicates with other devices via the communication network 5, and is, for example, a NIC (Network Interface Card) or a wireless LAN interface.

図4はデータ収集装置10が備える機能及びデータ収集装置10が管理するデータを説明するデータフロー図である。   FIG. 4 is a data flow diagram for explaining functions provided in the data collection device 10 and data managed by the data collection device 10.

同図に示すように、データ収集装置10は、データ取得部401、検索条件生成部404、データ検索部407、クラスタ生成部409、除外条件判定部410、及び除外条件選択部412の各機能を備える。これらの機能は、プロセッサ101が、主記憶装置102に格納されているプログラムを読み出して実行することにより実現される。尚、これらの機能はハードウェア(ASIC(Application Specific Integrated Circuit)等)によって実現されるものであってもよい。またこれらの機能の複数が一つのハードウェアによって実現される構成としてもよいし、これらの機能が複数のハードウェアによって分散もしくは強調して実現される構成としてもよい。また同図に示す各機能は、データ収集装置10の機能の理解を容易にするために便宜的に設定したものに過ぎず、各機能の分類の仕方や名称はここに示した態様に限定されない。   As shown in the figure, the data collection device 10 includes functions of a data acquisition unit 401, a search condition generation unit 404, a data search unit 407, a cluster generation unit 409, an exclusion condition determination unit 410, and an exclusion condition selection unit 412. Prepare. These functions are realized by the processor 101 reading and executing a program stored in the main storage device 102. These functions may be realized by hardware (ASIC (Application Specific Integrated Circuit) or the like). Further, a plurality of these functions may be realized by a single piece of hardware, or a configuration in which these functions are distributed or emphasized by a plurality of pieces of hardware. Each function shown in the figure is merely set for convenience in order to facilitate understanding of the function of the data collection device 10, and the classification method and name of each function are not limited to the modes shown here. .

同図に示すように、データ収集装置10は、収集データ402、設定検索ワード403、同義語辞書405、対義語辞書406、ヒット件数データ408、及び検索条件データ411等を管理する。データ収集装置10は、これらのデータを、例えば、DBMS(DataBase Management System)が提供するデータベースのテーブルとして管理する。尚、以下では、複数の検索条件の生成に用いる関連語辞書として、同義語辞書405並びに対義語辞書406を例示するが、関連語辞書として他の種類の辞書(例えば、あるワードの下位概念となるワードを記載した具体化辞書等)を用いてもよい。   As shown in the figure, the data collection device 10 manages collected data 402, a setting search word 403, a synonym dictionary 405, a synonym dictionary 406, hit count data 408, search condition data 411, and the like. The data collection device 10 manages these data as, for example, a database table provided by a DBMS (DataBase Management System). In the following, the synonym dictionary 405 and the synonym dictionary 406 are exemplified as related word dictionaries used for generating a plurality of search conditions, but other types of dictionaries (for example, subordinate concepts of a word) are used as related word dictionaries. A materialized dictionary describing words may be used.

同図に示す機能のうち、データ取得部401は、通信ネットワーク5を介してサーバ装置20からデータ(SNSの投稿データ、ニュース記事等の記事データ、オープンデータ等)を取得する。具体的には、データ取得部401は、API(Application Programming Interface)やクローリング(Crawling)等の手法により、サーバ装置20から定期的に(例えば1週間に1度)データを取得する。データ取得部401は、取得したデータ群を、収集データ402として管理する。   Among the functions shown in the figure, the data acquisition unit 401 acquires data (SNS post data, article data such as news articles, open data, etc.) from the server device 20 via the communication network 5. Specifically, the data acquisition unit 401 acquires data periodically (for example, once a week) from the server device 20 by a technique such as API (Application Programming Interface) or crawling. The data acquisition unit 401 manages the acquired data group as collected data 402.

図5に収集データ402の一例を示す。同図に示す一行分(1レコード分)のデータが一つの収集データ402に相当する。同図に示すように、収集データ402は、提供日時4021、ソース4022、提供者ID4023、及び本文4024の各項目を含む。このうち提供日時4021には、当該収集データ402が提供された日時(例えば、収集データ402がSNSに投稿された日時等)が格納される。ソース4022には、当該収集データ402の取得元の種類を示す情報が格納される。例えば、取得元がSNSサーバであれば「SNS」が、取得元がニュース記事を提供するWebサーバであれば「ニュース」が格納される。提供者ID4023には、当該収集データ402の提供者(投稿者、寄稿者等)を示す情報(ユーザ名、アカウント名等)が格納される。本文4024には、当該収集データ402の本文に相当する情報が格納される。   FIG. 5 shows an example of the collected data 402. The data for one line (one record) shown in FIG. As shown in the figure, the collected data 402 includes items of a provision date and time 4021, a source 4022, a provider ID 4023, and a body text 4024. Among these, the provision date 4021 stores the date when the collected data 402 was provided (for example, the date when the collected data 402 was posted to the SNS). The source 4022 stores information indicating the type of acquisition source of the collected data 402. For example, “SNS” is stored if the acquisition source is an SNS server, and “news” is stored if the acquisition source is a Web server providing a news article. In the provider ID 4023, information (user name, account name, etc.) indicating the provider (contributor, contributor, etc.) of the collected data 402 is stored. In the body 4024, information corresponding to the body of the collected data 402 is stored.

図4に戻り、検索条件生成部404は、例えば、ユーザが事前に登録した検索条件のワード群を設定検索ワード403から取得し、同義語辞書405からは検索条件の各ワードに関する同義語を、対義語辞書406からは検索条件の各ワードに関する対義語を、夫々取得し、ユーザが設定した検索条件のワードと、取得した同義語及び対義語とを組み合わせて複数の検索条件を生成する。   Returning to FIG. 4, for example, the search condition generation unit 404 acquires a search condition word group registered in advance by the user from the set search word 403, and from the synonym dictionary 405, synonyms for each word of the search condition are From the antonym dictionary 406, an antonym for each word of the search condition is acquired, and a plurality of search conditions are generated by combining the word of the search condition set by the user with the acquired synonym and antonym.

図6に設定検索ワード403の一例を示す。同図に示す一行分(1レコード分)のデータが一つの設定検索ワード403に相当する。設定検索ワード403には、ユーザが事前に設定した、検索条件として用いるワードが格納される。同図に示すように、設定検索ワード403は、検索条件ID4031、及び検索条件(検索ワード1(4032),検索ワード2(4033),検索ワード3(4034),・・・)の各項目を含む。このうち検索条件ID4031には、検索条件を特定する識別情報が格納される。検索条件(検索ワード1(4032),検索ワード2(4033),検索ワード3(4034),・・・)には、ユーザが事前に設定した、検索条件として用いるワードが格納される。   FIG. 6 shows an example of the setting search word 403. The data for one line (for one record) shown in the figure corresponds to one setting search word 403. The set search word 403 stores words used as search conditions set in advance by the user. As shown in the figure, the set search word 403 includes items of a search condition ID 4031 and search conditions (search word 1 (4032), search word 2 (4033), search word 3 (4034),...)). Including. Among these, the search condition ID 4031 stores identification information for specifying the search condition. In search conditions (search word 1 (4032), search word 2 (4033), search word 3 (4034),...)), Words used as search conditions set in advance by the user are stored.

図7に同義語辞書405(類義語辞書)の一例を示す。同図に示す一行分(1レコード分)のデータが一つの同義語辞書405に相当する。同義語辞書405は、一つのワード(対象語4051)とそのワードについての一つ以上の同義語(同義語4052,4053,4054,・・・)とを含む。例えば、同図における1行目のレコードの同義語辞書405は、対象語4051「将来」と、同義語4052「今後」及び同義語4053「未来」とを含む。   FIG. 7 shows an example of the synonym dictionary 405 (synonym dictionary). The data for one line (one record) shown in the figure corresponds to one synonym dictionary 405. The synonym dictionary 405 includes one word (target word 4051) and one or more synonyms (synonyms 4052, 4053, 4054,...) About the word. For example, the synonym dictionary 405 of the record on the first line in the figure includes the target word 4051 “future”, the synonym 4052 “future”, and the synonym 4053 “future”.

図8に対義語辞書406(反対語辞書)の一例を示す。同図に示す一行分(1レコード分)のデータが一つの対義語辞書406に相当する。対義語辞書406は、一つのワード(対象語4061)とそのワードについての一つ以上の対義語(対義語4062,4063,4064,・・・)とを含む。例えば、同図における2行目のレコードの対義語辞書406は、対象語4061「安心」と、対義語4062「不安」及び対義語4063「心配」とを含む。   FIG. 8 shows an example of the antonym dictionary 406 (antonym dictionary). The data for one line (one record) shown in the figure corresponds to one synonym dictionary 406. The antonym dictionary 406 includes one word (target word 4061) and one or more antonyms (antonyms 4062, 4063, 4064,...) For the word. For example, the antonym dictionary 406 of the record on the second line in the figure includes an object word 4061 “relief”, an antonym 4062 “anxiety”, and an antonym 4063 “anxiety”.

図4に戻り、データ検索部407は、検索条件生成部404が生成した複数の検索条件を用いて収集データ402を検索し、複数の検索条件の夫々のヒット件数をヒット件数データ408として管理する。   Returning to FIG. 4, the data search unit 407 searches the collected data 402 using the plurality of search conditions generated by the search condition generation unit 404 and manages the number of hits of each of the plurality of search conditions as hit number data 408. .

図9にヒット件数データ408の一例を示す。同図に示す一行分(1レコード分)のデータが一つのヒット件数データ408に相当する。ヒット件数データ408は、データ検索部407によって集計された検索条件(検索ワード候補1(4081),検索ワード候補2(4082),検索ワード候補3(4083),・・・)と、当該検索条件によるヒット件数4084とを含む。このうち検索条件(検索ワード候補1(4081),検索ワード候補2(4082),検索ワード候補3(4083),・・・)には、設定検索ワード403における検索条件のワード群と、設定検索ワード403に格納された検索条件のワード群の各ワードの同義語や対義語との組合せが格納される。例えば、同図では、設定検索ワード403に含まれる検索条件のワード群である(電話,休止)と、「休止」を同義語に置き換えた(電話,中止)、(電話,停止)、(電話,ポーズ)と、「電話」を同義語に置き換えた(テレホン,休止)が格納されている。   FIG. 9 shows an example of hit count data 408. The data for one line (for one record) shown in the figure corresponds to one hit number data 408. The hit count data 408 includes search conditions (search word candidate 1 (4081), search word candidate 2 (4082), search word candidate 3 (4083),...)) Counted by the data search unit 407, and the search conditions. And the number of hits 4084. Among these, the search condition (search word candidate 1 (4081), search word candidate 2 (4082), search word candidate 3 (4083),...)) Includes the search condition word group in the set search word 403 and the set search. A combination of synonyms and synonyms of each word in the word group of the search condition stored in the word 403 is stored. For example, in the same figure, the search condition word group included in the setting search word 403 (telephone, pause), “pause” is replaced with a synonym (telephone, abort), (telephone, pause), (telephone , Pause) and “telephone” (pause) in which “telephone” is replaced with a synonym are stored.

図4に戻り、クラスタ生成部409は、検索条件生成部404によって生成された複数の検索条件を夫々のヒット件数データ408のヒット件数4084に応じてクラスタに分類する。   Returning to FIG. 4, the cluster generation unit 409 classifies the plurality of search conditions generated by the search condition generation unit 404 into clusters according to the hit count 4084 of the respective hit count data 408.

除外条件判定部410は、検索条件をクラスタに分類した結果に基づき検索条件の候補を特定(候補から除外する検索条件を特定)する。   The exclusion condition determination unit 410 identifies search condition candidates (identifies search conditions to be excluded from candidates) based on the result of classifying the search conditions into clusters.

除外条件選択部412は、検索条件データ411の内容(候補とする検索条件、候補から除外する検索条件)をユーザに提示するとともに、ユーザから検索に用いる検索条件の指定を受け付ける。   The exclusion condition selection unit 412 presents the contents of the search condition data 411 (search conditions to be candidates, search conditions to be excluded from candidates) to the user, and accepts specification of search conditions used for the search from the user.

図10に検索条件データ411の一例を示している。同図に示す一行分(1レコード分)のデータが一つの検索条件データ411に相当する。同図に示すように、検索条件データ411は、検索条件ID4111、検索条件(検索ワード候補1(4112),検索ワード候補2(4113),検索ワード候補3(4114),・・・)、除外対象判定結果4115、及び除外選択結果4116を含む。このうち検索条件ID4111には、検索条件を特定する識別情報が格納される。検索条件(検索ワード候補1(4112),検索ワード候補2(4113),検索ワード候補3(4114),・・・)には、ヒット件数データ408における検索条件(検索ワード候補1(4081),検索ワード候補2(4082),検索ワード候補3(4083),・・・)が格納される。除外対象判定結果4115には、除外条件判定部410が除外対象であるかを判定した結果が格納される。例えば、当該検索条件が除外対象と判定された場合、除外対象判定結果4115には「1」が、それ以外の場合に「0」が格納される。除外選択結果4116には、除外条件選択部412のユーザインタフェースを通じて、除外対象と判定された検索条件を除外するかをユーザが選択した結果が格納される。例えば、当該検索条件が除外対象とされていない場合は「−」が格納される。また当該検索条件が除外対象とされており、かつ、ユーザが除外を選択した場合は「1」が格納される。また当該検索条件が除外対象とされており、かつ、ユーザが除外を選択していない場合は「0」が格納される。   FIG. 10 shows an example of the search condition data 411. The data for one line (for one record) shown in the figure corresponds to one search condition data 411. As shown in the figure, the search condition data 411 includes a search condition ID 4111, search conditions (search word candidate 1 (4112), search word candidate 2 (4113), search word candidate 3 (4114),...), Exclusion. An object determination result 4115 and an exclusion selection result 4116. Among these, the search condition ID 4111 stores identification information for specifying the search condition. For the search conditions (search word candidate 1 (4112), search word candidate 2 (4113), search word candidate 3 (4114),...), The search conditions (search word candidate 1 (4081), Search word candidate 2 (4082), search word candidate 3 (4083),...) Are stored. The exclusion target determination result 4115 stores the result of determining whether the exclusion condition determination unit 410 is an exclusion target. For example, when the search condition is determined to be an exclusion target, “1” is stored in the exclusion target determination result 4115, and “0” is stored otherwise. The exclusion selection result 4116 stores the result of the user selecting whether to exclude the search condition determined to be excluded through the user interface of the exclusion condition selection unit 412. For example, if the search condition is not excluded, “-” is stored. Further, when the search condition is an exclusion target and the user selects exclusion, “1” is stored. If the search condition is an exclusion target and the user has not selected exclusion, “0” is stored.

続いて、データ収集装置10が行う処理について説明する。   Next, processing performed by the data collection device 10 will be described.

<検索条件生成処理>
図11は、データ収集装置10の検索条件生成部404が、設定検索ワード403、同義語辞書405、及び対義語辞書406に基づき、収集データ402の検索条件を生成する処理(以下、検索条件生成処理S1100と称する。)を説明するフローチャートである。データ収集装置10は、例えば、入力装置14に対して当該処理の開始操作が行われたことを契機として検索条件生成処理S1100を開始する。以下、同図とともに検索条件生成処理S1100について説明する。尚、以下では、検索ワード501が2つである場合(図6において、検索ワード4032及び検索ワード4033が設定されている場合)を例として説明する。
<Search condition generation process>
FIG. 11 illustrates a process in which the search condition generation unit 404 of the data collection apparatus 10 generates a search condition for the collected data 402 based on the set search word 403, the synonym dictionary 405, and the synonym dictionary 406 (hereinafter referred to as a search condition generation process). This is a flowchart for explaining (referred to as S1100). For example, the data collection device 10 starts the search condition generation processing S1100 when a start operation of the processing is performed on the input device 14. Hereinafter, the search condition generation processing S1100 will be described with reference to FIG. In the following description, a case where there are two search words 501 (when search word 4032 and search word 4033 are set in FIG. 6) will be described as an example.

同図に示すように、検索条件生成部404は、まず1つ目の検索ワード1(4032)を設定検索ワード403から取得する(S1101)。以下、1つ目の検索ワード1(4032)の関連語のリストを関連語リストW1、関連語リストW1に含まれるn番目の関連語をW1[n]と表記する。   As shown in the figure, the search condition generation unit 404 first acquires the first search word 1 (4032) from the set search word 403 (S1101). Hereinafter, a list of related words of the first search word 1 (4032) is expressed as a related word list W1, and an nth related word included in the related word list W1 is expressed as W1 [n].

続いて、検索条件生成部404は、同義語辞書405から1つ目の検索ワード1(4032)の同義語を取得し(以下、取得した同義語の総数をW1SNと表記する。)、取得した同義語を、検索ワード1関連語リストW1[1]〜W1[W1SN]に登録する(S1102)。尚、W1[0]には1つ目の検索ワード1(4032)が登録されるものとする。   Subsequently, the search condition generation unit 404 acquires the synonym of the first search word 1 (4032) from the synonym dictionary 405 (hereinafter, the total number of acquired synonyms is expressed as W1SN). Synonyms are registered in the search word 1 related word list W1 [1] to W1 [W1SN] (S1102). It is assumed that the first search word 1 (4032) is registered in W1 [0].

続いて、検索条件生成部404は、対義語辞書406から1つ目の検索ワード1(4032)の対義語を取得し(以下、取得した対義語の総数をW1ANと表記する。)、取得した対義語を、検索ワード1関連語リストW1[W1SN+1]〜W1[W1SN+W1AN]に登録する(S1103)。   Subsequently, the search condition generation unit 404 acquires the antonym of the first search word 1 (4032) from the antonym dictionary 406 (hereinafter, the total number of acquired antonyms is expressed as W1AN), and the acquired antonym is The search word 1 related word list W1 [W1SN + 1] to W1 [W1SN + W1AN] is registered (S1103).

次に、検索条件生成部404は、2つ目の検索ワード2(4033)を、設定検索ワード403から取得する(S1104)。以下、2つ目の検索ワード2(4033)の関連語のリストを関連語リストW2、関連語リストW2に含まれるn番目の関連語をW2[n]と表記する。   Next, the search condition generation unit 404 acquires the second search word 2 (4033) from the set search word 403 (S1104). Hereinafter, a list of related words of the second search word 2 (4033) is expressed as a related word list W2, and an nth related word included in the related word list W2 is expressed as W2 [n].

続いて、検索条件生成部404は、同義語辞書405から2つ目の検索ワード2(4033)の同義語を取得し(以下、取得した同義語の総数をW2SNと表記する。)、取得した同義語を、検索ワード1関連語リストW2[1]〜W2[W2SN]に登録する(S1105)。尚、W2[0]には2つ目の検索ワード2(4033)が登録されるものとする。   Subsequently, the search condition generation unit 404 acquires the synonym of the second search word 2 (4033) from the synonym dictionary 405 (hereinafter, the total number of acquired synonyms is expressed as W2SN). Synonyms are registered in the search word 1 related word list W2 [1] to W2 [W2SN] (S1105). It is assumed that the second search word 2 (4033) is registered in W2 [0].

続いて、検索条件生成部404は、対義語辞書406から2つ目の検索ワード2(4033)の対義語を取得し(以下、取得した対義語の総数をW2ANと表記する。)、取得した対義語を、検索ワード2関連語リストW2[W2SN+1]〜W2[W2SN+W2AN]に登録する(S1106)。   Subsequently, the search condition generation unit 404 acquires an antonym of the second search word 2 (4033) from the antonym dictionary 406 (hereinafter, the total number of acquired antonyms is expressed as W2AN). The search word 2 related word lists W2 [W2SN + 1] to W2 [W2SN + W2AN] are registered (S1106).

S1107では、検索条件生成部404は、関連語リストにおける関連語を指定するインデックスとして用いる変数I1に0を代入する。   In S1107, the search condition generation unit 404 substitutes 0 for a variable I1 used as an index for specifying a related word in the related word list.

S1108では、検索条件生成部404は、関連語リストにおける関連語を指定するインデックスとして用いる変数I2に0を代入する。   In S1108, the search condition generation unit 404 substitutes 0 for a variable I2 used as an index for specifying a related word in the related word list.

続いて、検索条件生成部404は、関連語の組(W1[I1],W2[I2])をヒット件数データ408の検索条件(検索ワード候補1(4081)、検索ワード候補2(4082)、検索ワード候補3(4083),・・・)として、もしくは検索条件データ411として登録する(S1109)。   Subsequently, the search condition generation unit 404 uses the search condition (search word candidate 1 (4081), search word candidate 2 (4082)) of the hit number data 408 as a set of related words (W1 [I1], W2 [I2]). The search word candidate 3 (4083),...) Or the search condition data 411 is registered (S1109).

続いて、検索条件生成部404は、I2がW2SN+W2ANとなるまで(S1110の条件が成立(S1110:YES)するまで)、I2を繰り返しインクリメントしつつ(S1111)、S1109の処理を繰り返す。   Subsequently, the search condition generation unit 404 repeats the process of S1109 while repeatedly incrementing I2 (S1111) until I2 becomes W2SN + W2AN (until the condition of S1110 is satisfied (S1110: YES)).

またS1110の条件が成立すると(S1110:YES)、検索条件生成部404は、I1がW1SN+W1ANとなるまで(S1112の条件が成立(S1112:YES)するまで)、I1を繰り返しインクリメントしつつ(S1113)、S1108〜S1111の処理を繰り返す。   When the condition of S1110 is satisfied (S1110: YES), the search condition generation unit 404 repeatedly increments I1 until I1 becomes W1SN + W1AN (until the condition of S1112 is satisfied (S1112: YES)) (S1113). , S1108 to S1111 are repeated.

ここでS1107〜S1113の処理は、各検索ワード(検索ワード1,検索ワード2)の関連語リストから1つずつ関連語を選択し、これらの関連語の組を検索条件データ411として登録する処理を、全ての関連語の組み合わせについて実施していることに相当する。従って、例えば、1つ目の検索ワード1(4032)の関連語リストが(安心,安堵)であり、2つ目の検索ワード2(4033)の関連語リストが(将来,今後)である場合、(安心,将来)、(安堵,将来)、(安心,今後)、(安堵,今後)の4つが検索条件として登録される。   Here, the processing of S1107 to S1113 is a process of selecting related words one by one from the related word list of each search word (search word 1, search word 2) and registering a set of these related words as search condition data 411. Is equivalent to executing for all combinations of related terms. Thus, for example, when the related word list of the first search word 1 (4032) is (safe, relief) and the related word list of the second search word 2 (4033) is (future, future). , (Reliable, Future), (Anhui, Future), (Reliable, Future), and (Anhui, Future) are registered as search conditions.

ところで、以上では、検索ワード501が2つである場合を例として説明したが、検索ワード501の数はいくつであってもよい。尚、検索ワード501の数がnである場合、例えば、各検索ワードについて関連語リストW1〜Wnを作成し、関連語の組(W1[I1],W2[I2],…,Wn[In])を検索条件に登録することになる。   By the way, although the case where there are two search words 501 has been described above as an example, the number of search words 501 may be any number. When the number of search words 501 is n, for example, related word lists W1 to Wn are created for each search word, and a set of related words (W1 [I1], W2 [I2],..., Wn [In] ) Is registered as a search condition.

<収集データ取得処理>
図12は、データ収集装置10のデータ取得部401が、通信ネットワーク5を介してサーバ装置20からデータ(収集データ402)を取得する処理(以下、収集データ取得処理S1200と称する。)を説明するフローチャートである。データ収集装置10は、例えば、検索条件生成処理S1100の終了後に収集データ取得処理S1200を実行する。以下、同図とともに収集データ取得処理S1200について説明する。
<Collecting data acquisition process>
FIG. 12 illustrates processing in which the data acquisition unit 401 of the data collection device 10 acquires data (collected data 402) from the server device 20 via the communication network 5 (hereinafter referred to as collected data acquisition processing S1200). It is a flowchart. For example, the data collection device 10 executes the collected data acquisition process S1200 after the search condition generation process S1100 ends. Hereinafter, the collected data acquisition process S1200 will be described with reference to FIG.

同図に示すように、データ取得部401は、通信ネットワーク5を通じてサーバ装置20からデータを取得し、収集データ402として記憶する(S1101)。例えば、データ取得部401は、予めユーザが指定したサーバ装置20が提供するデータを取得する。また例えば、データ取得部401は、サーバ装置20に含まれるデータのうち、ユーザが指定した期間におけるデータを取得する。   As shown in the figure, the data acquisition unit 401 acquires data from the server device 20 through the communication network 5 and stores it as collected data 402 (S1101). For example, the data acquisition unit 401 acquires data provided by the server device 20 specified in advance by the user. Further, for example, the data acquisition unit 401 acquires data in a period specified by the user among the data included in the server device 20.

<検索処理>
図13は、データ収集装置10のデータ検索部407が収集データ402を検索する処理(以下、検索処理S1300と称する。)を説明するフローチャートである。データ収集装置10は、例えば、収集データ取得処理S1200の終了後に検索処理S1300を実行する。以下、同図とともに検索処理S1300について説明する。
<Search process>
FIG. 13 is a flowchart illustrating a process in which the data search unit 407 of the data collection device 10 searches the collected data 402 (hereinafter referred to as search process S1300). For example, the data collection device 10 executes the search process S1300 after the collection data acquisition process S1200 ends. Hereinafter, the search processing S1300 will be described with reference to FIG.

同図に示すように、まずデータ検索部407は、検索条件生成部404により生成された検索条件データ411から検索条件のリスト及び当該リストに含まれている検索条件の総数を取得する(S1301)。以降では、検索条件のリストをS,検索条件のリストにおけるI番目の検索条件をS[I]、上記総数をSCNと表記する。   As shown in the figure, first, the data search unit 407 obtains a list of search conditions and the total number of search conditions included in the list from the search condition data 411 generated by the search condition generation unit 404 (S1301). . Hereinafter, the search condition list is denoted by S, the I-th search condition in the search condition list is denoted by S [I], and the total number is denoted by SCN.

続いて、データ検索部407は、変数Iに0を代入する(S1302)。尚、変数Iは、検索条件を指定するためのインデックスである。   Subsequently, the data search unit 407 substitutes 0 for the variable I (S1302). The variable I is an index for designating a search condition.

続いて、データ検索部407は、収集データ402から検索条件S[I]にヒットするものを取得する(S1303)。   Subsequently, the data search unit 407 acquires from the collected data 402 what hits the search condition S [I] (S1303).

続いて、データ検索部407は、S1303にて取得した収集データ402の数(ヒット件数)を求め、求めた値をヒット件数4084に設定して現在選択中の検索条件S[I]のヒット件数データ408を生成する(S1305)。   Subsequently, the data search unit 407 obtains the number (hit number) of the collected data 402 acquired in S1303, sets the obtained value as the hit number 4084, and hits the currently selected search condition S [I]. Data 408 is generated (S1305).

データ検索部407は、Iをインクリメントしつつ(S1306)、S1303〜S1304の処理を、I=SCNとなるまで、即ち検索条件のリスト(S)の全ての検索条件を対象として(S1305:YES)繰り返し実行する。   The data search unit 407 increments I (S1306) and performs the processing of S1303 to S1304 until I = SCN, that is, for all search conditions in the search condition list (S) (S1305: YES). Run repeatedly.

以上の検索処理S1300が実行されることにより、検索条件生成部404によって生成された複数の検索条件の夫々について、検索条件にヒットする収集データ402の件数(ヒット件数)を取得することができる。   By executing the above search processing S1300, the number of collected data 402 (number of hits) that hit the search condition can be acquired for each of the plurality of search conditions generated by the search condition generating unit 404.

<クラスタ生成処理>
図14は、データ収集装置10のクラスタ生成部409が、ヒット件数データ408に登録されている検索条件(検索ワード候補1(4081),検索ワード候補2(4082),検索ワード候補3(4083),・・・)をクラスタに分類する処理(以下、クラスタ生成処理S1400と称する。)を説明するフローチャートである。データ収集装置10は、例えば、検索処理S1300の終了後にクラスタ生成処理S1400を実行する。以下、クラスタリング手法として「k−means法」を用いた場合を例として説明する。
<Cluster generation processing>
In FIG. 14, the cluster generation unit 409 of the data collection device 10 uses the search conditions (search word candidate 1 (4081), search word candidate 2 (4082), search word candidate 3 (4083)) registered in the hit count data 408. ,... Is a flowchart for explaining a process of classifying a cluster (hereinafter referred to as a cluster generation process S1400). For example, the data collection device 10 executes the cluster generation process S1400 after the search process S1300 ends. Hereinafter, a case where the “k-means method” is used as a clustering method will be described as an example.

同図に示すように、まずクラスタ生成部409は、ヒット件数データ408の各ヒット件数4084(ヒット件数データ408の各レコード)をK個のクラスタのいずれかに(ランダムに)割り当てる(S1401)。クラスタの数Kは、例えば、ユーザが予め設定することができる。尚、ユーザはクラスタの数Kを調節することで、目的とする情報を精度よく取得するのにより適した検索条件を探ることができる。以下、ヒット件数データ408のヒット件数4084のリストに含まれるI番目のヒット件数をv[I]、ヒット件数4084のリストに含まれるヒット件数(レコード)の総数をNと表記する。   As shown in the figure, first, the cluster generation unit 409 assigns (randomly) each hit number 4084 (each record of the hit number data 408) of the hit number data 408 to any of the K clusters (S1401). The number K of clusters can be preset by the user, for example. It should be noted that the user can search for a search condition more suitable for acquiring the target information with high accuracy by adjusting the number K of clusters. Hereinafter, the number of I-th hits included in the list of hit counts 4084 of the hit count data 408 is denoted as v [I], and the total number of hits (records) included in the list of hit counts 4084 is denoted as N.

続いて、クラスタ生成部409は、クラスタを特定するインデックスである変数kに0を代入する(S1402)。   Subsequently, the cluster generation unit 409 substitutes 0 for a variable k which is an index for specifying a cluster (S1402).

続いて、クラスタ生成部409は、インデックスkで特定されるクラスタに属する件数v[n]の平均値を求め、これをインデックスkで特定されるクラスタの中心値C[k]とする(S1403)。   Subsequently, the cluster generation unit 409 obtains an average value of the number v [n] belonging to the cluster specified by the index k, and sets this as the center value C [k] of the cluster specified by the index k (S1403). .

続いて、クラスタ生成部409は、変数kをインクリメントしつつ(S1405)、変数kがKとなるまでS1403の処理を繰り返し実行し、各クラスタの中心値C[k](k=0〜K)を算出する。   Subsequently, the cluster generation unit 409 repeatedly executes the processing of S1403 while incrementing the variable k (S1405) until the variable k becomes K, and the center value C [k] (k = 0 to K) of each cluster. Is calculated.

続いて、クラスタ生成部409は、ヒット件数4084のリストの一つを特定するインデックスである変数nに0を代入する(S1406)。   Subsequently, the cluster generation unit 409 substitutes 0 for a variable n that is an index for specifying one of the lists of hit counts 4084 (S1406).

続いて、クラスタ生成部409は、クラスタの中心値C[k]とv[n]との距離が最短となるクラスタkにヒット件数v[n]を割り当てる(S1407)。尚、クラスタの中心値C[k]とヒット件数v[n]との距離は、例えば、C[k]―v[n]の絶対値として求められる。   Subsequently, the cluster generation unit 409 assigns the hit count v [n] to the cluster k having the shortest distance between the cluster center value C [k] and v [n] (S1407). The distance between the cluster center value C [k] and the number of hits v [n] is obtained as an absolute value of C [k] −v [n], for example.

続いて、クラスタ生成部409は、変数nをインクリメントしつつ(S1409)、変数nがNとなるまでS1407の処理を繰り返し実行し(S1408)、全てのヒット件数v[n](即ち検索条件(検索ワード候補1(4081),検索ワード候補2(4082),検索ワード候補3(4083),・・・))をクラスタの中心値C[k]との距離が最短となるクラスタに割り当て直す。   Subsequently, the cluster generation unit 409 increments the variable n (S1409), repeatedly executes the process of S1407 until the variable n becomes N (S1408), and the number of hits v [n] (that is, the search condition ( Search word candidate 1 (4081), search word candidate 2 (4082), search word candidate 3 (4083),...)) Are reassigned to the cluster having the shortest distance from the cluster center value C [k].

次に、クラスタ生成部409は、上記S1407の処理の繰り返しの実行中にクラスタの割り当てに変更が生じたか否かを判定する(S1410)。クラスタの割り当てに変更が生じた場合(S1410:Yes)、クラスタ生成部409は、S1402〜S1410の処理を再度実行する。一方、上記S1407の処理の繰り返しの実行中に検索条件のクラスタの割り当てに変更が生じていない場合(S1410:No)、クラスタ生成処理S1400は終了する。   Next, the cluster generation unit 409 determines whether or not a change in cluster assignment has occurred during the repeated execution of the processing of S1407 (S1410). When the cluster assignment is changed (S1410: Yes), the cluster generation unit 409 executes the processes of S1402 to S1410 again. On the other hand, if the search condition cluster assignment has not been changed during the repeated execution of the process of S1407 (S1410: No), the cluster generation process S1400 ends.

以上の仕組みによれば、ヒット件数データ408に登録されているヒット件数(即ち検索条件(検索ワード候補1(4081),検索ワード候補2(4082),検索ワード候補3(4083),・・・))を、件数の近い検索条件で構成される複数のクラスタに分類することができる。尚、以上では「k−means法」を用いたが、他のクラスタリング手法を用いてもよい。   According to the above mechanism, the number of hits registered in the hit number data 408 (that is, the search condition (search word candidate 1 (4081), search word candidate 2 (4082), search word candidate 3 (4083),... )) Can be classified into a plurality of clusters composed of search conditions with a close number of cases. In the above, the “k-means method” is used, but other clustering methods may be used.

<除外条件判定処理>
図15は、データ収集装置10の除外条件判定部410が、所属する検索件数が多いクラスタに属する検索条件を除外することを目的として行う処理(以下、除外条件判定処理S1500と称する。)を説明するフローチャートである。データ収集装置10は、例えば、クラスタ生成処理S1400の終了後に除外条件判定処理S1500を実行する。以下、同図とともに除外条件判定処理S1500について説明する。
<Exclusion condition judgment processing>
FIG. 15 illustrates a process (hereinafter referred to as “exclusion condition determination process S1500”) performed by the exclusion condition determination unit 410 of the data collection apparatus 10 for the purpose of excluding search conditions belonging to a cluster to which many search cases belong. It is a flowchart to do. For example, the data collection device 10 executes the exclusion condition determination process S1500 after the cluster generation process S1400 ends. Hereinafter, the exclusion condition determination processing S1500 will be described with reference to FIG.

同図に示すように、まず除外条件判定部410は、クラスタを特定するインデックスである変数kに0を代入する(S1501)。   As shown in the figure, the exclusion condition determination unit 410 first substitutes 0 for a variable k that is an index for specifying a cluster (S1501).

次に、除外条件判定部410は、クラスタの中心値C[k]が変数pより大きいか否かを判定する(S1502)。ここで変数pは、検索条件を除外するか否かを判定する閾値である。例えば、変数pは、全クラスタの中心値C[k]の平均値をCm、分散Cv、ユーザがあらかじめ定めたパラメータをαとして次式から求められる。

Figure 0006325132
尚、クラスタの内容をユーザが確認してユーザが変数pを指定する構成としてもよい。ユーザは変数pを調節することで、目的とする情報を取得するのにより適した検索条件を抽出することができる。Next, the exclusion condition determination unit 410 determines whether or not the cluster center value C [k] is larger than the variable p (S1502). Here, the variable p is a threshold value for determining whether to exclude the search condition. For example, the variable p is obtained from the following equation, where Cm is an average value of the center values C [k] of all clusters, variance Cv, and α is a parameter predetermined by the user.
Figure 0006325132
A configuration in which the user confirms the contents of the cluster and the user designates the variable p may be adopted. By adjusting the variable p, the user can extract a search condition that is more suitable for acquiring target information.

クラスタの中心値C[k]が変数pより大きい場合(S1502:Yes)、除外条件判定部410は、クラスタkに含まれる件数v[n]に対応する検索条件を除外対象と判定し、判定結果を検索条件データ411の除外対象判定結果4115として設定する(S1503)。除外条件判定部410は、kをインクリメントしつつ(S1505)、S1502〜S1503の処理をk=Kとなるまで繰り返し実行する(S1504)。   When the center value C [k] of the cluster is larger than the variable p (S1502: Yes), the exclusion condition determination unit 410 determines that the search condition corresponding to the number v [n] included in the cluster k is an exclusion target and determines The result is set as an exclusion target determination result 4115 of the search condition data 411 (S1503). The exclusion condition determination unit 410 increments k (S1505), and repeatedly executes the processing of S1502 to S1503 until k = K (S1504).

以上の除外条件判定処理S1500により、検索件数が多いクラスタに属する検索条件を除外対象として特定することができる。例えば、ヒット件数データ408が図9の内容である場合、(電話,ポーズ)、(テレホン,休止)等の検索条件が除外対象となる。尚、この例では「ポーズ」というワードが多義性を有しており、検索結果に本来収集したい話題とは異なるデータ(ノイズ)が多く含まれているため除外対象とされている。このように除外条件判定処理S1500を行うことで、検索結果にユーザが目的としないデータ(ノイズ)が多く含まれてしまうような検索条件を効率よく除外することができる。   Through the above exclusion condition determination processing S1500, search conditions belonging to a cluster with a large number of searches can be specified as exclusion targets. For example, when the hit count data 408 has the contents shown in FIG. 9, search conditions such as (phone, pause) and (telephone, pause) are excluded. In this example, the word “pause” is ambiguous, and the search result includes a lot of data (noise) that is different from the topic to be originally collected. By performing the exclusion condition determination processing S1500 in this way, it is possible to efficiently exclude a search condition that includes a lot of data (noise) that the user does not intend in the search result.

図16は、除外条件選択部412が、ユーザに最終的に除外する検索条件を決定させる際に表示装置205に表示する画面(以下、除外条件設定画面1600と称する。)の一例である。同図に示すように、除外条件設定画面1600は、検索条件の表示欄1601、検索条件の除外指定欄1602、及び除外実行指示ボタン1603を有する。検索条件の表示欄1601には、除外条件判定部410によって除外対象と判定された検索条件のワード群が表示される。検索条件の除外指定欄1602には、ユーザが検索条件表示部1601に表示された検索条件を除外するか否かを指定する欄(例えば、チェックボックス)が表示される。除外実行指示ボタン1603は、ユーザがデータ収集装置10に対して検索条件の除外指定欄1602にて除外指定した検索条件を除外するための処理の実行を指示するためのユーザインタフェースである。除外条件設定画面1600を介して行われた除外指定の内容は、図10の検索条件データ411の除外選択結果4116に反映される。   FIG. 16 is an example of a screen (hereinafter, referred to as an exclusion condition setting screen 1600) displayed on the display device 205 when the exclusion condition selection unit 412 allows the user to determine a search condition to be finally excluded. As shown in the figure, the exclusion condition setting screen 1600 includes a search condition display field 1601, a search condition exclusion designation field 1602, and an exclusion execution instruction button 1603. The search condition display field 1601 displays a group of search condition words determined to be excluded by the exclusion condition determination unit 410. In the search condition exclusion designation field 1602, a field (for example, a check box) for designating whether or not the user excludes the search condition displayed on the search condition display unit 1601 is displayed. The exclusion execution instruction button 1603 is a user interface for instructing the data collection device 10 to execute processing for excluding the search condition specified in the search condition exclusion specification field 1602. The contents of the exclusion designation made via the exclusion condition setting screen 1600 are reflected in the exclusion selection result 4116 of the search condition data 411 in FIG.

ユーザは除外条件設定画面1600を介して除外条件判定部410によって除外判定された検索条件(逆に言えばデータ収集装置10が提示する検索条件の候補)を容易に確認することができる。またユーザは除外条件設定画面1600を介して除外する検索条件を自ら決定することができる。   The user can easily confirm the search condition (in other words, the search condition candidate presented by the data collection device 10) determined to be excluded by the exclusion condition determination unit 410 via the exclusion condition setting screen 1600. Further, the user can determine the search condition to be excluded through the exclusion condition setting screen 1600 by himself / herself.

以上に説明したように、本実施形態のデータ収集装置10は、検索条件を複数のクラスタに分類し、クラスタを単位として検索条件の候補を特定するので、ヒット件数が非常に大きなクラスタに属する検索条件を除外することができ、ユーザが目的としない情報(ノイズ)を含まない検索結果を得ることが可能な検索条件の候補を特定することができる。   As described above, the data collection device 10 according to the present embodiment classifies search conditions into a plurality of clusters, and specifies search condition candidates in units of clusters. Therefore, a search belonging to a cluster having a very large number of hits. Conditions can be excluded, and search condition candidates that can obtain a search result that does not include information (noise) that is not intended by the user can be specified.

=第2実施例=
第2実施例は、基本的な構成は第1実施例と同様であるが、検索件数の集計に際し、データの取得元に応じて検索件数に重み付けを行っている。以下、第1実施例と構成が相違する部分を中心として説明する。
= Second Example =
The basic structure of the second embodiment is the same as that of the first embodiment, but the number of search cases is weighted according to the data acquisition source when the number of search cases is tabulated. In the following, description will be made centering on the parts that differ from the first embodiment.

図17は、第2実施例におけるヒット件数データ408(以下、ヒット件数データ408Aと称する。)の一例である。同図に示すように、第2実施例におけるヒット件数データ408Aは、前述した検索条件(検索ワード候補1(4081)、検索ワード候補2(4082)、検索ワード候補3(4083),・・・)に加えて、取得元別検索件数1(1701),取得元別検索件数2(1702),・・・、及び検索スコア1703の各項目を有する。   FIG. 17 is an example of hit count data 408 (hereinafter referred to as hit count data 408A) in the second embodiment. As shown in the figure, the hit number data 408A in the second embodiment is based on the search conditions (search word candidate 1 (4081), search word candidate 2 (4082), search word candidate 3 (4083),...). ), The number of searches by acquisition source 1 (1701), the number of searches by acquisition source 2 (1702), and the search score 1703.

このうち取得元別検索件数1(1701),取得元別検索件数2(1702),・・・は、収集データ402において、検索条件(検索ワード候補1(4081)、検索ワード候補2(4082)、検索ワード候補3(4083),・・・)を含む収集データ402の件数を、収集データ402の取得元毎に集計したものである。例えば、同図における取得元別検索件数1(1701)は、SNSサーバから取得した収集データ402のうち、検索ワード候補1(4081)及び検索ワード候補2(4082)を含むデータの件数であり、取得元別検索件数2(1702)は、ニュース記事を提供するWebサーバから取得した収集データ402のうち、検索ワード候補1(4081)及び検索ワード候補2(4082)を含むデータの件数である。検索スコア1703は、取得元別検索件数1(1701),取得元別検索件数2(1702),・・・の夫々を、取得元に応じて夫々に重み付けをして加算した値である。   Of these, the number of searches by acquisition source 1 (1701), the number of searches by acquisition source 2 (1702),... Are the search conditions (search word candidate 1 (4081), search word candidate 2 (4082)) in the collected data 402. , The search word candidate 3 (4083),...) Is totaled for each acquisition source of the collection data 402. For example, the number of search cases 1 (1701) by acquisition source in the figure is the number of data including the search word candidate 1 (4081) and the search word candidate 2 (4082) in the collected data 402 acquired from the SNS server. The number of searches by acquisition source 2 (1702) is the number of data including search word candidate 1 (4081) and search word candidate 2 (4082) in the collected data 402 acquired from the Web server that provides the news article. The search score 1703 is a value obtained by weighting and adding each of the number of searches by acquisition source 1 (1701), the number of searches by acquisition source 2 (1702),... According to the acquisition source.

クラスタ生成部409は、検索スコア1703をヒット件数としてクラスタ生成処理S1400を行い、検索条件をクラスタに分類する。このように、収集データ402の取得元に応じて重みを設定して各検索条件のヒット件数を調整し、その上で検索条件をクラスタに分類することで、取得元の性質等を考慮しつつ、検索条件の候補を得ることができる。例えば、収集データ402の取得元が提供する情報の信頼性(信憑性)が高い程、取得元に高い重みを設定することで、信頼性(信憑性)の高い情報を収集するといったことが可能になる。   The cluster generation unit 409 performs cluster generation processing S1400 using the search score 1703 as the number of hits, and classifies the search conditions into clusters. In this way, by setting the weight according to the acquisition source of the collected data 402 and adjusting the number of hits of each search condition, and then classifying the search conditions into clusters, the characteristics of the acquisition source are taken into consideration The search condition candidate can be obtained. For example, the higher the reliability (credibility) of the information provided by the acquisition source of the collected data 402, the higher the reliability (credibility) information can be collected by setting a higher weight to the acquisition source. become.

=第3実施例=
第3実施例では、複数の検索条件に対して、定められた時間範囲毎に検索条件にヒットする収集データ402の件数を集計し、これらの件数の推移の類似度を算出し、求めた類似度に基づき検索条件を複数のクラスタに分類する。
= Third Example =
In the third embodiment, for a plurality of search conditions, the number of collected data 402 that hit the search condition is counted for each predetermined time range, the degree of similarity of the transition of these numbers is calculated, and the obtained similarity The search condition is classified into a plurality of clusters based on the degree.

第3実施例において、データ検索部407は、ヒット件数データ408に格納されている検索条件(検索ワード候補1(4081)、検索ワード候補2(4082)、検索ワード候補3(4083),・・・)を読み込み、各検索条件に対し、定められた時間範囲毎に検索条件にヒットする収集データ402の件数を集計する。例えば、定められた時間範囲を年単位とした場合、指定された検索条件に対して、2011年に投稿された収集データ402のうち検索条件にヒットする収集データ402の件数、2012年に投稿された収集データ402のうち検索条件にヒットする収集データ402の件数、というように、各年度において検索条件にヒットする収集データ402の件数を夫々集計する。第3実施例におけるヒット件数データ408には、定められた時間範囲毎に検索条件にヒットする収集データ402の件数が格納される。   In the third embodiment, the data search unit 407 includes search conditions (search word candidate 1 (4081), search word candidate 2 (4082), search word candidate 3 (4083),...) Stored in the hit count data 408. (1) is read, and the number of collected data 402 hitting the search condition is counted for each search condition for each predetermined time range. For example, when a predetermined time range is assumed to be a year unit, the number of collection data 402 that hit the search condition out of the collection data 402 posted in 2011 for the specified search condition, posted in 2012. The number of collected data 402 that hit the search condition in each fiscal year, such as the number of collected data 402 that hit the search condition in the collected data 402, is totaled. In the hit number data 408 in the third embodiment, the number of collected data 402 hitting the search condition for each predetermined time range is stored.

第3実施例のクラスタ生成部409は、2つの検索条件について、夫々にヒットする収集データ402の件数の推移の類似度を測定する。例えば、クラスタ生成部409は、検索条件aと検索条件bの夫々にヒットする収集データ402の件数の推移の類似度を次式から求める。

Figure 0006325132
上式において、a(t)は、時間範囲tにおいて検索条件aに合致する収集データ402の件数であり、b(t)は時間範囲tにおいて検索条件bに合致する収集データ402の件数であり、kは時間ずれに対応するパラメータである。kは、例えば、ユーザが予め指定してもよいし、ヒット件数データ408から推定してもよい。The cluster generation unit 409 of the third embodiment measures the degree of similarity in the number of collected data 402 that hit each other for two search conditions. For example, the cluster generation unit 409 obtains the similarity of the transition of the number of collected data 402 that hits the search condition a and the search condition b from the following expression.
Figure 0006325132
In the above formula, a (t) is the number of collected data 402 that matches the search condition a in the time range t, and b (t) is the number of collected data 402 that matches the search condition b in the time range t. , K are parameters corresponding to the time lag. For example, k may be designated in advance by the user or may be estimated from the hit number data 408.

図18に第3実施例のクラスタ生成部409が行う類似度の判定例を示す。同図において、符号1801で示す枠内は、類似度が大きい検索条件の組の例であり、符号1802で示す枠内は、類似度が小さい検索条件の組の例である。符号1801で示す枠内の検索条件の組では、商品Aという商品名に、「東京」、「大阪」という異なる地名を加えた検索条件間の類似度が大きいことを示している。一方、符号1802で示す枠内の検索条件の組では、商品Bという商品名に、「東京」、「大阪」という異なる地名を加えた検索条件間の類似度が小さいことを示している。   FIG. 18 shows a similarity determination example performed by the cluster generation unit 409 of the third embodiment. In the figure, the frame indicated by reference numeral 1801 is an example of a set of search conditions having a high degree of similarity, and the frame indicated by reference numeral 1802 is an example of a set of search conditions having a low degree of similarity. The set of search conditions in the frame indicated by reference numeral 1801 indicates that the similarity between the search conditions in which different place names such as “Tokyo” and “Osaka” are added to the product name “Product A” is large. On the other hand, the set of search conditions within the frame denoted by reference numeral 1802 indicates that the similarity between the search conditions is small, in which different place names such as “Tokyo” and “Osaka” are added to the product name of the product B.

この例の場合、例えば、類似度が予め定められた閾値を超えている検索条件の組については同じクラスタに所属させ、類似度が上記閾値未満の検索条件の組については異なるクラスタに所属させるようにする。このように、検索条件の類似度に応じて検索条件をクラスタに分類することで、各検索条件のヒット件数の時間変化の類似性を考慮しつつ検索条件をクラスタに分類することができ、ヒット件数の時間変化の類似性を考慮した上で検索条件を決定することができる。尚、ヒット件数の時間変化の類似性を判定することについて他の効果として、例えば、検索条件ごとのヒット件数の推移の類似度に基づき、特定の話題について情報の伝播が発生しているか否かを判定することができる。   In this example, for example, a group of search conditions whose similarity exceeds a predetermined threshold value belongs to the same cluster, and a group of search conditions whose similarity is less than the above threshold value belongs to a different cluster. To. In this way, by classifying search conditions into clusters according to the similarity of search conditions, it is possible to classify search conditions into clusters while taking into account the similarity of the number of hits in each search condition over time. The search condition can be determined in consideration of the similarity of the number of cases with time. As another effect of determining the similarity of the number of hits over time, for example, whether or not information propagation has occurred on a specific topic based on the similarity of the transition of the number of hits for each search condition. Can be determined.

ところで、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。   By the way, this invention is not limited to above-described embodiment, Various modifications are included. For example, the above-described embodiment has been described in detail for easy understanding of the present invention, and is not necessarily limited to one having all the configurations described. Further, a part of the configuration of an embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of an embodiment. In addition, it is possible to add, delete, and replace other configurations for a part of the configuration of each embodiment.

上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサが夫々の機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD等の記録装置や、ICカード、SDカード、DVD等の記録媒体に置くことができる。   Each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit. In addition, each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor. Information such as programs, tables, and files for realizing each function can be stored in a recording device such as a memory, a hard disk, or an SSD, or a recording medium such as an IC card, an SD card, or a DVD.

制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。   The control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.

1 データ収集システム、5 通信ネットワーク、10 データ収集装置、20 サーバ装置、100 情報処理装置、401 データ取得部、402 収集データ、403 設定検索ワード、404 検索条件生成部、405 同義語辞書、406 対義語辞書
407 データ検索部、408 ヒット件数データ、409 クラスタ生成部、410 除外条件判定部、411 検索条件データ、412 除外条件選択部、S1100 検索条件生成処理、S1200 収集データ取得処理、S1300 検索処理、S1400 クラスタ生成処理、S1500 除外条件判定処理、S1600 除外条件設定画面
DESCRIPTION OF SYMBOLS 1 Data collection system, 5 Communication network, 10 Data collection apparatus, 20 Server apparatus, 100 Information processing apparatus, 401 Data acquisition part, 402 Collection data, 403 Setting search word, 404 Search condition generation part, 405 Synonym dictionary, 406 Synonym Dictionary 407 Data search unit, 408 hit count data, 409 cluster generation unit, 410 exclusion condition determination unit, 411 search condition data, 412 exclusion condition selection unit, S1100 search condition generation process, S1200 collection data acquisition process, S1300 search process, S1400 Cluster generation process, S1500 exclusion condition determination process, S1600 exclusion condition setting screen

Claims (15)

検索条件を満たす情報をデータ群から収集する情報処理装置であり、
複数の検索条件の夫々を用いて前記データ群を検索し、
前記複数の検索条件の夫々のヒット件数に応じて前記複数の検索条件を複数のクラスタに分類した結果に基づき、前記検索に用いる前記検索条件の候補を特定する
データ収集装置。
An information processing apparatus that collects information satisfying a search condition from a data group,
Search the data group using each of a plurality of search conditions,
A data collection device that identifies candidates for the search condition used for the search based on a result of classifying the plurality of search conditions into a plurality of clusters according to the number of hits of each of the plurality of search conditions.
請求項1に記載のデータ収集装置であって、
前記クラスタの夫々について、夫々に属する前記検索条件の夫々の前記ヒット件数の平均値を求め、前記平均値に基づき前記検索条件の候補を特定する
データ収集装置。
The data collection device according to claim 1,
A data collection device for obtaining an average value of the number of hits for each of the search conditions belonging to each of the clusters, and identifying the search condition candidates based on the average value.
請求項2に記載のデータ収集装置であって、
前記平均値が予め設定された範囲に含まれない前記クラスタに属している前記検索条件を前記候補の対象から除外する
データ収集装置。
The data collection device according to claim 2,
A data collection device that excludes, from the candidate targets, the search condition belonging to the cluster whose average value is not included in a preset range.
請求項1乃至3のいずれか一項に記載のデータ収集装置であって、
前記検索条件に含まれるワードの関連語を関連語辞書から検索して置換することにより、前記検索条件とは異なる検索条件を自動生成する
データ収集装置。
The data collection device according to any one of claims 1 to 3,
A data collection device that automatically generates a search condition different from the search condition by searching for a related word of a word included in the search condition from a related word dictionary and replacing it.
請求項4に記載のデータ収集装置であって、
前記関連語辞書は、同義語辞書、対義語辞書、及び具体化辞書のうちの少なくともいずれかである
データ収集装置。
The data collection device according to claim 4,
The data collection device, wherein the related word dictionary is at least one of a synonym dictionary, an antonym dictionary, and an instantiation dictionary.
請求項1に記載のデータ収集装置であって、
前記複数の検索条件のクラスタへの分類をk−means法により行う
データ収集装置。
The data collection device according to claim 1,
A data collection device that classifies the plurality of search conditions into clusters by a k-means method.
請求項1に記載のデータ収集装置であって、
前記検索に用いる前記検索条件の候補として特定した検索条件を提示して選択させるユーザインタフェースを備える
データ収集装置。
The data collection device according to claim 1,
A data collection device comprising a user interface for presenting and selecting a search condition specified as a candidate for the search condition used for the search.
請求項1に記載のデータ収集装置であって、
前記データ群のデータの取得元別に前記ヒット件数を集計し、
前記取得元毎に前記ヒット件数を重み付けした上で前記取得元毎の前記ヒット件数の合計値を求め、
前記複数の検索条件の夫々の前記合計値に応じて前記複数の検索条件を複数のクラスタに分類した結果に基づき、前記検索に用いる前記検索条件の候補を特定する
データ収集装置。
The data collection device according to claim 1,
Total the number of hits by data acquisition source of the data group,
After obtaining the total number of hits for each acquisition source after weighting the number of hits for each acquisition source,
A data collection device that identifies candidates for the search condition used for the search based on a result of classifying the plurality of search conditions into a plurality of clusters according to the total value of each of the plurality of search conditions.
請求項1に記載のデータ収集装置であって、
前記複数の検索条件の夫々のヒット数の時系列変化の類似度に応じて、前記複数の検索条件のクラスタへの分類を行う
データ収集装置。
The data collection device according to claim 1,
A data collection device that classifies the plurality of search conditions into clusters according to the similarity of time-series changes in the number of hits of each of the plurality of search conditions.
請求項1に記載のデータ収集装置であって、
インターネットと通信可能に接続し、前記データ群にインターネットを介してアクセスする
データ収集装置。
The data collection device according to claim 1,
A data collection device that is communicably connected to the Internet and accesses the data group via the Internet.
検索条件を満たす情報をデータ群から収集する情報収集方法であって、
情報処理装置が、
複数の検索条件の夫々を用いて前記データ群を検索する第1ステップ、
前記複数の検索条件の夫々のヒット件数に応じて前記複数の検索条件を複数のクラスタに分類した結果に基づき前記検索に用いる前記検索条件の候補を特定する第2ステップ
を含む、データ収集方法。
An information collection method for collecting information satisfying a search condition from a data group,
Information processing device
A first step of searching the data group using each of a plurality of search conditions;
A data collection method comprising: a second step of identifying candidates for the search condition used for the search based on a result of classifying the plurality of search conditions into a plurality of clusters according to the number of hits of each of the plurality of search conditions.
請求項11に記載のデータ収集方法であって、
前記情報処理装置が、前記第2ステップにおいて、前記クラスタの夫々について、夫々に属する前記検索条件の夫々の前記ヒット件数の平均値を求め、前記平均値に基づき前記検索条件の候補を特定する
データ収集方法。
The data collection method according to claim 11, comprising:
In the second step, the information processing apparatus obtains an average value of the number of hits of each of the search conditions belonging to each of the clusters, and specifies the search condition candidates based on the average value. Collection method.
請求項12に記載のデータ収集方法であって、
前記情報処理装置が、前記第2ステップにおいて、前記平均値が予め設定された範囲に含まれない前記クラスタに属している前記検索条件を前記候補の対象から除外する
データ収集方法。
The data collection method according to claim 12, comprising:
The data collection method, wherein, in the second step, the information processing apparatus excludes the search condition belonging to the cluster that is not included in a preset range from the candidates.
請求項11に記載のデータ収集方法であって、
前記情報処理装置が、
前記データ群のデータの取得元別に前記ヒット件数を集計するステップ、及び、
前記取得元毎に前記ヒット件数を重み付けした上で前記取得元毎の前記ヒット件数の合計値を求めるステップ、
を更に含み、
前記第2ステップにおいて、前記複数の検索条件の夫々の前記合計値に応じて前記複数の検索条件を複数のクラスタに分類した結果に基づき、前記検索に用いる前記検索条件の候補を特定する
データ収集方法。
The data collection method according to claim 11, comprising:
The information processing apparatus is
A step of counting the number of hits by data acquisition source of the data group; and
Calculating the total number of hits for each acquisition source after weighting the number of hits for each acquisition source;
Further including
In the second step, based on a result of classifying the plurality of search conditions into a plurality of clusters according to the total value of each of the plurality of search conditions, the search condition candidates used for the search are specified. Method.
請求項11に記載のデータ収集方法であって、
前記情報処理装置が、前記第2ステップにおいて、前記複数の検索条件の夫々のヒット数の時系列変化の類似度に応じて、前記複数の検索条件のクラスタへの分類を行う
データ収集方法。
The data collection method according to claim 11, comprising:
The data collection method, wherein the information processing apparatus classifies the plurality of search conditions into clusters according to the similarity of time-series changes in the number of hits of the plurality of search conditions in the second step.
JP2016562135A 2014-12-03 2014-12-03 Data collection device and data collection method Expired - Fee Related JP6325132B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/081937 WO2016088212A1 (en) 2014-12-03 2014-12-03 Data collection device and data collection method

Publications (2)

Publication Number Publication Date
JPWO2016088212A1 JPWO2016088212A1 (en) 2017-06-15
JP6325132B2 true JP6325132B2 (en) 2018-05-16

Family

ID=56091186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016562135A Expired - Fee Related JP6325132B2 (en) 2014-12-03 2014-12-03 Data collection device and data collection method

Country Status (2)

Country Link
JP (1) JP6325132B2 (en)
WO (1) WO2016088212A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7069810B2 (en) * 2018-02-22 2022-05-18 カシオ計算機株式会社 Information processing equipment, personnel analysis support methods and programs
JP7276525B2 (en) * 2018-02-22 2023-05-18 カシオ計算機株式会社 Information processing device, personnel analysis support method and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041540A (en) * 2000-07-28 2002-02-08 Shinichiro Okude Retrieval system with associating and inferring function and recording medium money contribution used for the same
JP4535765B2 (en) * 2004-04-23 2010-09-01 富士通株式会社 Content navigation program, content navigation method, and content navigation apparatus
JP5250709B1 (en) * 2012-03-12 2013-07-31 楽天株式会社 Information processing apparatus, information processing method, information processing apparatus program, and recording medium

Also Published As

Publication number Publication date
JPWO2016088212A1 (en) 2017-06-15
WO2016088212A1 (en) 2016-06-09

Similar Documents

Publication Publication Date Title
US11263240B2 (en) Organizing survey text responses
JP6408081B2 (en) Blending search results on online social networks
US10572524B2 (en) Content categorization
US9881037B2 (en) Method for systematic mass normalization of titles
KR102139029B1 (en) Generalized graph, rule, and spatial structure based recommendation engine
US10535106B2 (en) Selecting user posts related to trending topics on online social networks
US20150161633A1 (en) Trend identification and reporting
KR102466489B1 (en) Method and system for providing information to a user relating to a point-of-interest
AU2017250467B2 (en) Query optimizer for combined structured and unstructured data records
US20160070748A1 (en) Method and apparatus for improved searching of digital content
JP5494126B2 (en) Document recommendation system, document recommendation device, document recommendation method, and program
US20140181192A1 (en) Ranking Test Framework for Search Results on an Online Social Network
US9996529B2 (en) Method and system for generating dynamic themes for social data
US9336330B2 (en) Associating entities based on resource associations
US20140114982A1 (en) Automatic taxonomy merge
JP6325132B2 (en) Data collection device and data collection method
CN104462556B (en) Question and answer page relevant issues recommend method and apparatus
US20140067812A1 (en) Systems and methods for ranking document clusters
JP2016045552A (en) Feature extraction program, feature extraction method, and feature extraction device
JP6364086B2 (en) Self-produced information processing system and method
JP2013109514A (en) Related word display controller, related word display method, and program
KR101686764B1 (en) Apparatus for substituting predicate and ranking method for verb predicate thereof
TWM508168U (en) Server for web-to-extract processing rating

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180411

R150 Certificate of patent or registration of utility model

Ref document number: 6325132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees