JP2015026103A - Data gathering apparatus, data gathering method, and program - Google Patents
Data gathering apparatus, data gathering method, and program Download PDFInfo
- Publication number
- JP2015026103A JP2015026103A JP2013153441A JP2013153441A JP2015026103A JP 2015026103 A JP2015026103 A JP 2015026103A JP 2013153441 A JP2013153441 A JP 2013153441A JP 2013153441 A JP2013153441 A JP 2013153441A JP 2015026103 A JP2015026103 A JP 2015026103A
- Authority
- JP
- Japan
- Prior art keywords
- search
- cycle
- unit
- long
- acquired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、ネットワーク上のデータを効率よく収集するデータ収集装置、データ収集方法、およびプログラムに関する。 The present invention relates to a data collection device, a data collection method, and a program that efficiently collect data on a network.
ネットワーク上に存在するSNS(social networking service)や掲示板等のデータをマーケティング等に利用しようとした場合、システム内に一度データを蓄積し、蓄積したデータに対し検索等を行う必要がある。なぜなら、ネットワーク上の情報は永続性が保証されていないため、SNSや掲示板等において、古いデータは削除されていってしまうからである。 When data such as an SNS (social networking service) or a bulletin board existing on a network is used for marketing or the like, it is necessary to store the data once in the system and perform a search or the like on the stored data. This is because the information on the network is not guaranteed to be permanent, and old data is deleted on the SNS, bulletin board, and the like.
そこで、データをSNSや掲示板等から収集し蓄積する方法として先ず考えられるのは、SNSや掲示板等上の全データを収集し、検索用DB(DataBase)に蓄積することである。例えば、非特許文献1に示されるTwitter等のサービスは、これらの要望に応えるため、SNSや掲示板等から収集し蓄積するシステム側に、サーバ側がリアルタイムでデータ配信を行うStreamAPIを提供している。さらに、データをSNSや掲示板等から収集し蓄積するシステムの検索用DBが、SNSや掲示板等のサーバと間でデータベース間連携が可能であれば、非特許文献2に示されるような既存のレプリケーション技術を用いて、全データを高速にコピーすることが可能である。 Therefore, a possible method for collecting and storing data from an SNS or a bulletin board is to collect all data on the SNS or the bulletin board and store it in a search DB (DataBase). For example, a service such as Twitter shown in Non-Patent Document 1 provides a Stream API in which the server side distributes data in real time on the system side that collects and stores from SNS, bulletin boards, and the like in order to meet these demands. Furthermore, if a database for searching a system that collects and stores data from an SNS or bulletin board can be linked with a database such as an SNS or bulletin board, an existing replication as shown in Non-Patent Document 2 can be used. Using technology, it is possible to copy all data at high speed.
上述したStreamAPIは、SNSや掲示板等のデータが更新されたこと、すなわち、ユーザから新しい書き込みがあったことに応じて即座にデータを送信することにより、完全なデータをリアルタイムにシステム側に送信することが可能であった。しかしながら、多くのサービスは商業上・パフォーマンス上の見地からこれらの全データのコピーは許可しておらず、また、SNSや掲示板等からデータを収集し蓄積するシステムにとっても、ユーザが使用しない大量のデータを保持することになり、膨大なコストが発生するという問題点があった。 The above-mentioned StreamAPI transmits complete data to the system side in real time by immediately transmitting data when data such as SNS or bulletin board is updated, that is, when there is a new writing from the user. It was possible. However, many services do not permit copying of all of these data from a commercial and performance standpoint, and for a system that collects and stores data from SNS, bulletin boards, etc. There is a problem that enormous costs occur because data is held.
そのため、特許文献1や特許文献2に示すように、キーワードを指定することでユーザが必要とするデータのみを収集するといった方法が提案されている。特許文献1では、該当するキーワードを持ったページのリンクを巡回しデータを収集する技術が、特許文献2では助詞に着目することで日本語のデータのみを効率よく収集する技術が提案されている。 Therefore, as shown in Patent Document 1 and Patent Document 2, a method has been proposed in which only data required by the user is collected by specifying a keyword. Patent Document 1 proposes a technique for collecting data by visiting links of pages having corresponding keywords. Patent Document 2 proposes a technique for efficiently collecting only Japanese data by paying attention to particles. .
しかしながら、特許文献1や特許文献2に示す方法では、未取得のデータがないように時間をかけてデータを全検索するが、SNS・掲示板等はユーザの書き込みにより新しいデータが逐次発生するため、検索開始後に発生したデータを取得することはできなかった。そのため、特許文献1や特許文献2に示す方法では、データのリアルタイム性と完全性とを両立することができないといった問題点があった。 However, in the methods shown in Patent Document 1 and Patent Document 2, all data is searched over time so that there is no unacquired data, but new data is sequentially generated by SNS / bulletin board, etc. The data that occurred after the start of the search could not be obtained. For this reason, the methods shown in Patent Document 1 and Patent Document 2 have a problem that it is impossible to achieve both real-time property and completeness of data.
そこで本発明は、上記課題に鑑みて、データのリアルタイム性と完全性とを両立して、ネットワーク上のデータを効率よく収集するデータ収集装置、およびデータ収集方法を提供することを目的とする。 In view of the above problems, an object of the present invention is to provide a data collection device and a data collection method that efficiently collect data on a network while achieving both real-time property and completeness of data.
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。 The present invention proposes the following matters in order to solve the above problems. In addition, in order to make an understanding easy, although the code | symbol corresponding to embodiment of this invention is attached | subjected and demonstrated, it is not limited to this.
(1) 本発明は、ネットワーク上のデータを収集するデータ収集装置であって、ユーザにより設定された検索条件を記憶する検索条件記憶手段(例えば、図1の検索条件記憶部110)と、前記ネットワーク上のデータサーバを、前記検索条件に基づいて、全検索を実行する長周期検索手段(例えば、図1の長周期検索部120)と、前記ネットワーク上のデータサーバを、前記検索条件に基づいて、前記長周期検索手段より高頻度に、最新のデータを優先する検索を実行する短周期検索手段(例えば、図1の短周期検索部130)と、前記長周期検索手段および前記短周期検索手段で取得された検索結果に、当該検索結果を取得した検索手段と当該検索結果が取得された時間とを対応付けて記憶する検索付随情報記憶手段(例えば、図1の検索付随情報記憶部141)と、前記長周期検索手段および前記短周期検索手段で取得された検索結果を、重複を排除して記憶する検索結果記憶手段(例えば、図1の検索結果記憶部142)と、前記検索付随情報記憶手段を参照し、前記長周期検索手段で単位時間当たりに取得する検索結果の件数として求められる、前記データベースサーバにおいて前記検索条件に一致するデータの単位時間当たりの平均増加数と、前記短周期検索手段で単位時間当たりに取得した検索結果数とに基づいて、当該短周期検索手段が行う検索の周期を決定する短周期調整手段(例えば、図1の短周期調整部150)と、前記検索付随情報記憶手段を参照し、前記短周期検索手段で取得された検索結果に対する、前記長周期検索手段で取得された検索結果の重複度合に基づいて、前記長周期検索手段が実行する検索の周期を調整する長周期調整手段(例えば、図1の長周期調整部160)と、を備えるデータ収集装置を提案している。
(1) The present invention is a data collection device that collects data on a network, and includes search condition storage means (for example, the search
(2) 本発明は、(1)のデータ収集装置について、前記長周期調整手段が、前記検索付随情報記憶手段を参照し、前記長周期検索手段において、前後の検索により取得された検索結果の重複度合に基づいて、前記長周期検索手段が実行する検索の周期を調整するデータ収集装置を提案している。 (2) In the data collection device according to (1), the long cycle adjustment unit refers to the search-accompanying information storage unit, and the long cycle search unit stores search results obtained by previous and subsequent searches. A data collection device is proposed that adjusts the search cycle executed by the long cycle search means based on the degree of overlap.
(3) 本発明は、(1)または(2)のデータ収集装置について、前記短周期調整手段が、前記検索付随情報記憶手段を参照し、前記長周期検索手段で取得された検索結果に対する、前記短周期検索手段で取得された検索結果の重複度合に基づいて、前記短周期検索手段が実行する検索の周期を調整するデータ収集装置を提案している。 (3) In the data collection device according to (1) or (2), the short cycle adjustment unit refers to the search accompanying information storage unit, and with respect to the search result acquired by the long cycle search unit, A data collection device is proposed that adjusts the search cycle executed by the short cycle search unit based on the degree of duplication of the search results acquired by the short cycle search unit.
(4) 本発明は、(1)から(3)のデータ収集装置について、前記短周期調整手段が、前記検索付随情報記憶手段を参照し、前記短周期検索手段において、前後の検索により取得された検索結果の重複度合に基づいて、前記短周期検索手段が実行する検索の周期を調整するデータ収集装置を提案している。 (4) According to the present invention, in the data collection device of (1) to (3), the short cycle adjustment means is acquired by a previous and subsequent search in the short cycle search means with reference to the search accompanying information storage means. A data collection device is proposed that adjusts the search cycle executed by the short cycle search means based on the degree of duplication of the search results.
(5) 本発明は、(1)から(4)のデータ収集装置について、前記検索条件記憶手段が、前記検索条件を複数記憶している際に、前記検索付随情報記憶手段を参照し、前記検索条件記憶手段に記憶されている各検索条件の検索結果の取得率と取得量とに基づいて、当該各検索条件へのリソースの配分割合を決定するリソース配分決定手段(例えば、図3のリソース配分決定部180)と、前記短周期検索手段および前記長周期検索手段における、前記各検索条件の検索を実行するプロセスに、前記各検索条件へのリソースの配分割合に基づいてリソースを割り当てるリソース制御手段(例えば、図3のリソース制御部190)と、を備えるデータ収集装置を提案している。
(5) In the data collection device of (1) to (4), the present invention refers to the search associated information storage unit when the search condition storage unit stores a plurality of the search conditions, Based on the acquisition rate and acquisition amount of the search results of each search condition stored in the search condition storage means, resource allocation determining means (for example, the resource shown in FIG. 3) determines the resource allocation ratio to each search condition. Resource determining unit 180), and resource control for allocating resources based on the distribution ratio of resources to each search condition to the process for executing the search for each search condition in the short cycle search means and the long cycle search means A data collection device including means (for example, the
(6) 本発明は、(1)から(5)のデータ収集装置について、前記短周期検索手段が、前記長周期検索手段による検索が実行開始された以降に前記データベースサーバに蓄積されたデータを検索対象とすることを特徴とするデータ収集装置を提案している。 (6) According to the present invention, in the data collection device of (1) to (5), the short-cycle search unit stores data accumulated in the database server after the search by the long-cycle search unit is started. A data collection device characterized by being a search target has been proposed.
(7) 本発明は、(1)から(6)のデータ収集装置について、前記ユーザから検索条件を受け付けたことに応じて、前記ネットワーク上のデータサーバに対し、当該受け付けた検索条件に基づいて検索を行うオンデマンド検索手段(例えば、図1のオンデマンド検索部170)を備え、前記検索結果記憶手段が、前記オンデマンド検索手段で取得された検索結果を、重複を排除して記憶することを特徴とするデータ収集装置を提案している。
(7) The present invention relates to the data collection device according to (1) to (6), in response to receiving the search condition from the user, to the data server on the network based on the received search condition. An on-demand search unit (for example, on-
(8) 本発明は、ユーザにより設定された検索条件を記憶する検索条件記憶手段、長周期検索手段、短周期検索手段、検索付随情報記憶手段、検索結果記憶手段、短周期調整手段、および長周期調整手段を備えるデータ収集装置におけるデータ収集方法であって、前記長周期検索手段が、ネットワーク上のデータベースサーバを、前記検索条件に基づいて、全検索を実行する第1のステップ(例えば、図2のステップS1)と、前記短周期検索手段が、前記ネットワーク上のデータベースサーバを、前記検索条件に基づいて、前記長周期検索手段より高頻度に、最新のデータを優先する検索を実行する第2のステップ(例えば、図2のステップS2)と、前記検索付随情報記憶手段が、前記第1のステップおよび前記第2のステップで取得された検索結果に、当該検索結果を取得した検索手段と当該検索結果が取得された時間とを対応付けて記憶する第3のステップ(例えば、図2のステップS3)と、前記検索結果記憶手段が、前記第1のステップおよび前記第2のステップで取得された検索結果を、重複を排除して記憶する第4のステップ(例えば、図2のステップS4)と、前記短周期調整手段が、前記検索付随情報記憶手段を参照し、前記長周期検索手段で単位時間当たりに取得する検索結果の件数として求められる、前記データベースサーバにおいて前記検索条件に一致するデータの単位時間当たりの平均増加数と、前記短周期検索手段で単位時間当たりに取得した検索結果数とに基づいて、当該短周期検索手段が行う検索の周期を決定する第5のステップ(例えば、図2のステップS6)と、前記長周期調整手段が、前記検索付随情報記憶手段を参照し、前記短周期検索手段で取得された検索結果に対する、前記長周期検索手段で取得された検索結果の重複度合に基づいて、前記長周期検索手段が実行する検索の周期を調整する第6のステップ(例えば、図2のステップS7)と、を含むデータ収集方法を提案している。 (8) The present invention provides a search condition storage means for storing search conditions set by a user, a long cycle search means, a short cycle search means, a search associated information storage means, a search result storage means, a short cycle adjustment means, and a long A data collection method in a data collection apparatus including a cycle adjustment unit, wherein the long cycle search unit performs a full search for a database server on a network based on the search condition (for example, FIG. Step S1), and the short cycle search means executes a search for giving priority to the latest data to the database server on the network more frequently than the long cycle search means based on the search condition. 2 (for example, step S2 in FIG. 2) and the search-accompanying information storage means are acquired in the first step and the second step. A third step (for example, step S3 in FIG. 2) for storing the search result obtained by acquiring the search result and the time when the search result was acquired in association with the search result obtained, and the search result storage unit However, a fourth step (for example, step S4 in FIG. 2) for storing the search results obtained in the first step and the second step by eliminating duplication, and the short cycle adjusting means, An average increase in data per unit time that matches the search condition in the database server, which is obtained as the number of search results acquired per unit time by the long-cycle search means with reference to the search accompanying information storage means And a fifth step of determining a search cycle performed by the short cycle search unit based on the number of search results acquired per unit time by the short cycle search unit (for example, FIG. Step S6) of 2 and the long cycle adjustment means refer to the search accompanying information storage means, and the search results obtained by the long cycle search means overlap with the search results obtained by the short cycle search means A data collection method including a sixth step (for example, step S7 in FIG. 2) for adjusting a search cycle executed by the long cycle search means based on the degree is proposed.
(9) 本発明は、ユーザにより設定された検索条件を記憶する検索条件記憶手段、長周期検索手段、短周期検索手段、検索付随情報記憶手段、検索結果記憶手段、短周期調整手段、および長周期調整手段を備えるデータ収集装置におけるデータ収集方法をコンピュータに実行させるためのプログラムであって、前記長周期検索手段が、ネットワーク上のデータベースサーバを、前記検索条件に基づいて、全検索を実行する第1のステップ(例えば、図2のステップS1)と、前記短周期検索手段が、前記ネットワーク上のデータベースサーバを、前記検索条件に基づいて、前記長周期検索手段より高頻度に、最新のデータを優先する検索を実行する第2のステップ(例えば、図2のステップS2)と、前記検索付随情報記憶手段が、前記第1のステップおよび前記第2のステップで取得された検索結果に、当該検索結果を取得した検索手段と当該検索結果が取得された時間とを対応付けて記憶する第3のステップ(例えば、図2のステップS3)と、前記検索結果記憶手段が、前記第1のステップおよび前記第2のステップで取得された検索結果を、重複を排除して記憶する第4のステップ(例えば、図2のステップS4)と、前記短周期調整手段が、前記検索付随情報記憶手段を参照し、前記長周期検索手段で単位時間当たりに取得する検索結果の件数として求められる、前記データベースサーバにおいて前記検索条件に一致するデータの単位時間当たりの平均増加数と、前記短周期検索手段で単位時間当たりに取得した検索結果数とに基づいて、当該短周期検索手段が行う検索の周期を決定する第5のステップ(例えば、図2のステップS6)と、前記長周期調整手段が、前記検索付随情報記憶手段を参照し、前記短周期検索手段で取得された検索結果に対する、前記長周期検索手段で取得された検索結果の重複度合に基づいて、前記長周期検索手段が実行する検索の周期を調整する第6のステップ(例えば、図2のステップS7)と、をコンピュータに実行させるためのプログラムを提案している。 (9) The present invention provides a search condition storage means for storing a search condition set by a user, a long cycle search means, a short cycle search means, a search associated information storage means, a search result storage means, a short cycle adjustment means, and a long A program for causing a computer to execute a data collection method in a data collection apparatus including a cycle adjustment unit, wherein the long cycle search unit executes a full search for a database server on a network based on the search condition. The first step (for example, step S1 in FIG. 2), and the short cycle search means causes the database server on the network to update the latest data more frequently than the long cycle search means based on the search conditions. And a second step (for example, step S2 in FIG. 2) for executing a search that prioritizes the search, and the search accompanying information storage means The third step (for example, FIG. 2) stores the search result acquired in the step 2 and the second step in association with the search means that acquired the search result and the time when the search result was acquired. Step S3) and a fourth step (for example, step S4 in FIG. 2) in which the search result storage means stores the search results obtained in the first step and the second step with duplicates eliminated. ) And the short cycle adjusting unit refers to the search accompanying information storage unit, and the long cycle search unit finds the number of search results acquired per unit time, and matches the search condition in the database server A search performed by the short cycle search unit based on the average increase number of data per unit time and the number of search results acquired per unit time by the short cycle search unit A fifth step (for example, step S6 in FIG. 2) for determining the period of the search, and the long cycle adjustment means refer to the search associated information storage means, and for the search result acquired by the short cycle search means, A sixth step (for example, step S7 in FIG. 2) for adjusting a search cycle executed by the long cycle search unit based on the degree of duplication of the search results acquired by the long cycle search unit. A program to execute it is proposed.
本発明によれば、データのリアルタイム性と完全性とを両立して、ネットワーク上のデータを効率よく収集することができる。 According to the present invention, it is possible to efficiently collect data on a network while achieving both real-time property and completeness of data.
以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that the constituent elements in the present embodiment can be appropriately replaced with existing constituent elements and the like, and various variations including combinations with other existing constituent elements are possible. Therefore, the description of the present embodiment does not limit the contents of the invention described in the claims.
<第1の実施形態>
<データ収集装置の構成>
図1は、本発明の第1の実施形態に係るデータ収集装置100の構成を示す図である。ここで、データ収集装置100は、ネットワーク上のデータベースサーバ、例えば、SNSや掲示板等のデータを記憶しているデータベースサーバから、データを効率よく収集する装置である。図1に示すように、データ収集装置100は、検索条件記憶部110、長周期検索部120、短周期検索部130、データ記憶部140、短周期調整部150、長周期調整部160、およびオンデマンド検索部170から構成される。
<First Embodiment>
<Configuration of data collection device>
FIG. 1 is a diagram showing a configuration of a
検索条件記憶部110は、ネットワーク上のデータベースサーバから、ユーザが収集したいデータの検索条件を記憶する。
The search
長周期検索部120は、短周期検索部130の検索周期と比較して長い周期で、ネットワーク上のデータベースサーバを、検索条件記憶部110に記憶されている検索条件に基づいて全検索する。なお、長周期検索部120は、検索対象のデータ数や検索対象の期間が予め設定されている場合には、設定された検索対象のデータ数や検索対象の期間の範囲で全検索を実行する。なお、長周期検索部120は、最初はユーザ等によって設定された検索周期により検索を実行し、長周期調整部160によって検索周期が調整されると、調整された検索周期で検索を実行する。
The long
ここで、本実施形態において、長周期検索部120は、ウェブページ中のリンクを辿り、別のウェブページを収集するという動作を繰り返すことで検索結果を得る、リンクを辿る検索方式、または、HTTPのGETコマンドを用いてキーワードによりウェブページを検索し、キーワードに一致するウェブページを検索結果として得る、キーワード検索方式のいずれかにより検索を行う。キーワード検索方式の場合には、例えば、Twitter(登録商標)が提供しているAPIを利用することができる。
Here, in the present embodiment, the long-
短周期検索部130は、秒単位といった短い周期で、高頻度に、ネットワーク上のデータベースサーバを、検索条件記憶部110に記憶されている検索条件に基づいて、最新のデータを優先する検索を実行する。短周期検索部130も長周期検索部120と同様に、リンクを辿る検索方式またはキーワード検索方式により検索を実行する。なお、短周期検索部130も長周期検索部120と同様に、最初はユーザ等によって設定された検索周期により検索を実行し、短周期調整部150によって検索周期が調整されると、調整された検索周期で検索を実行する。
The short
短周期検索部130は、データベースサーバの全データを検索対象としてもよいし、長周期検索部120による検索が実行開始された以降にデータベースサーバに蓄積されたデータを検索対象としてもよい。長周期検索部120による検索が実行開始された以降にデータベースサーバに蓄積されたデータを検索対象とすると、データ収集装置100のリソースが限られている場合に、効率的に長周期検索部120による検索と短周期検索部130による検索とが実行できる。
The short
データ記憶部140は、検索付随情報記憶部141、および検索結果記憶部142を備える。
The
検索付随情報記憶部141は、長周期調整部160および短周期調整部150で周期を調整する際に用いる情報を記憶する。具体的には、検索付随情報記憶部141は、長周期検索部120および短周期検索部130で取得された検索結果を、検索結果を取得した検索部を特定する情報および検索結果を取得した時間と、対応付けて記憶する。検索付随情報記憶部141のデータは、長周期調整部160および短周期調整部150で周期が調整された後や、予め設定された間隔や、容量がオーバーした際に削除される。
The search accompanying
検索結果記憶部142は、長周期検索部120および短周期検索部130で取得された検索結果を、重複を排除して記憶する。検索結果記憶部142には、例えば、入出力が高速なインメモリDBを用いる。検索結果記憶部142に記憶されているデータはリアルタイム性と完全性とが兼ね備えているので、マーケティングやビジネス計画に有効に利用することができる。
The search
短周期調整部150は、検索付随情報記憶部141に記憶されている短周期検索部130で取得された検索結果を参照し、単位時間当たりの検索条件の出現頻度[回/s]と、1回の検索で取得する平均検索結果の件数[件数/回]とを算出する。そして、短周期調整部150は、検索条件の単位時間当たりの出現頻度[回/s]を、1回の検索で取得する平均検索結果の件数[件数/回]で割り、短周期検索部130で単位時間当たりに取得する検索結果の件数(以下、短周期取得件数)[件数/s]を算出する。
The short
また、短周期調整部150は、検索付随情報記憶部141に記憶されている長周期検索部120で取得された検索結果を参照し、単位時間当たりの検索条件の出現頻度[回/s]と、1回の検索で取得する平均検索結果の件数[件数/回]とを算出する。そして、短周期調整部150は、検索条件の単位時間当たりの出現頻度[回/s]を、1回の検索で取得する平均検索結果の件数[件数/回]で割り、長周期検索部120で単位時間当たりに取得する検索結果の件数[件数/s]を算出する。このようにして算出される、長周期検索部120で単位時間当たりに取得する検索結果の件数は、データベースサーバにおいて、検索条件に一致するデータの単位時間当たりの平均増加件数に当たる。
In addition, the short
そして、短周期調整部150は、短周期取得件数と平均増加件数とが、同じになるように、短周期検索部130の周期を調整する。具体的には、短周期取得件数が平均増加件数よりも大きい場合には、周期を短くし、一方、短周期取得件数が平均増加件数よりも小さい場合には、検索周期を長くする。それにより、短周期検索部130の周期を、取得された検索結果の件数から決定することにより、最適な周期にすることができる。
Then, the short
また、短周期調整部150は、検索付随情報記憶部141を参照し、長周期検索部120で取得された検索結果に対する、短周期検索部130で取得された検索結果の重複度合に基づいて、短周期検索部130が実行する検索周期を調整する。具体的には、短周期検索部130で取得された検索結果と重複しない長周期検索部120で取得された検索結果、すなわち、長周期検索部120では取得されているが、短周期検索部130で取得できていない検索結果がある場合には、短周期検索部130の検索周期を短くする。それにより、検索結果漏れが生じない検索周期に調整することができる。
Further, the short
さらに、短周期調整部150は、検索付随情報記憶部141を参照し、短周期検索部130において、前後の検索により取得された検索結果の重複度合に基づいて、短周期検索部130が実行する検索周期を調整する。具体的には、短周期検索部130において、前の検索で取得された検索結果と、後の検索で取得された検索結果とが重複している場合には、短周期検索部130の検索周期を長くする。なお、前の検索で取得された検索結果と後の検索で取得された検索結果との重複が多い程、検索周期を長くする。それにより、リソースを効率的に使用できる、適切な検索周期に調整することができる。
Further, the short
このようにして、短周期検索部130の検索周期を短周期調整部150で調整することにより、曜日や時刻、内容によって生じる、データベースサーバのデータ量や検索条件の出現頻度の変動に対応可能に、短周期検索部130の検索周期に調整することができる。
In this way, by adjusting the search cycle of the short
長周期調整部160は、検索付随情報記憶部141を参照し、短周期検索部130で取得された検索結果に対する、長周期検索部120で取得された検索結果の重複度合に基づいて、長周期検索部120が実行する検索の周期を調整する。具体的には、長周期検索部120で取得された検索結果と重複しない短周期検索部130で取得された検索結果、すなわち、短周期検索部130では取得されているが、長周期検索部120で取得できていない検索結果がある場合には、長周期検索部120の検索周期を短くする。それにより、時間経過によりデータベースサーバから削除されてしまったために、長周期検索部120で取得できなかったデータを発見することができ、データの完全性を保つことができる。
The long
また、長周期調整部160は、検索付随情報記憶部141を参照し、長周期検索部120において、前後の検索により取得された検索結果の重複度合に基づいて、長周期検索部120が実行する検索周期を調整する。具体的には、長周期検索部120において、後の検索で取得された検索結果に、前の検索で取得された検索結果が全て含まれる場合には、検索周期を長くする。それにより、リソースを効率的に使用できる、適切な検索周期に調整することができる。
Further, the long
なお、短周期調整部150および長周期調整部160は、予め設定された曜日や日時、間隔によって、検索周期の調整を行う。
Note that the short
オンデマンド検索部170は、ユーザから入力された検索条件を受け付けたことに応じて、ネットワーク上のデータベースサーバに対し、受け付けた検索条件に基づいて検索を行う。そして、オンデマンド検索部170は、検索結果を検索結果記憶部142に記憶させる。それにより、検索条件記憶部110に記憶されていない検索条件についても、検索を行うことができる。なお、オンデマンド検索部170は、データ収集装置100に備えられなくてもよい。
The on-
図2を用いて、本発明の第1の実施形態に係るデータ収集装置100における、データ収集処理のフローチャートについて説明する。なお、ステップS1とステップS2とは互いに独立しており、検索開始の指示を受け付けるとそれぞれ開始する。
The flowchart of the data collection process in the
まず、ステップS1において、長周期検索部120が、短周期検索部130の検索周期と比較して長い周期で、ネットワーク上のデータサーバを、検索条件記憶部110に記憶されている検索条件に基づいて全検索する。
First, in step S <b> 1, the long
次に、ステップS2において、短周期検索部130が、秒単位といった短い周期で、高頻度に、ネットワーク上のデータサーバを、検索条件記憶部110に記憶されている検索条件に基づいて、最新のデータを優先して検索する。
Next, in step S2, the short
次に、ステップS3において、検索付随情報記憶部141は、長周期検索部120および短周期検索部130で取得された検索結果を、検索結果を取得した検索部を特定する情報および検索結果を取得した時間情報と、対応付けて記憶する。
Next, in step S3, the search-accompanying
次に、ステップS4において、検索結果記憶部142は、長周期検索部120および短周期検索部130で取得された検索結果を、重複を排除して記憶する。なお、ステップS3とステップS4の順は逆であってもよいし、同時であってもよい。
Next, in step S4, the search
次に、ステップS5において、短周期調整部150および長周期調整部160は、検索周期の調整を行うか否かを判断する。検索周期の調整を行うと判断した場合(YES)には、ステップS6に処理を進め、一方、検索周期の調整を行わないと判断した場合(NO)には、ステップS8に処理を進める。
Next, in step S5, the short
次に、ステップS6において、短周期調整部150が、検索付随情報記憶部141に記憶されている検索結果を参照し、短周期検索部130の検索周期を調整する。
Next, in step S <b> 6, the short
次に、ステップS7において、長周期調整部160が、検索付随情報記憶部141に記憶されている検索結果を参照し、長周期検索部120の検索周期を調整する。なお、ステップS6とステップS7の順は逆であってもよいし、同時であってもよい。
Next, in step S <b> 7, the long
次に、ステップS8において、長周期検索部120および短周期検索部130は、終了指示があったか否か判断する。終了指示があったと判断した場合(YES)には、処理を終了し、一方、終了指示がなかったと判断した場合(NO)には、ステップS1およびS2に処理を戻す。
Next, in step S8, the long
以上、説明したように、本実施形態によれば、長周期検索部120による全検索と合わせて、短周期検索部130により短い周期で高頻度に最新データを検索することにより、従来取得できなかった、長周期検索部120で検索が開始された後にデータベースサーバに蓄積されたデータを取得することができる。それにより、データのリアルタイム性と完全性とを両立して、ネットワーク上のデータを効率よく収集することができる。また、収集した検索結果に基づいて、長周期検索部120および短周期検索部130の検索周期を調整することにより、よりデータのリアルタイム性と完全性とを両立して、ネットワーク上のデータを効率よく収集することができる。
As described above, according to the present embodiment, it is impossible to acquire the latest data by searching the latest data frequently in a short cycle with the short
<第2の実施形態>
図3を用いて、本発明の第2の実施形態について説明する。なお、本実施形態におけるデータ収集装置は、検索条件が複数の場合に、各検索条件に割り当てるリソースを制御して、ネットワーク上のデータベースサーバ、例えば、SNSや掲示板等のデータを記憶しているデータベースサーバから、データを効率よく収集する装置である。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
<Second Embodiment>
A second embodiment of the present invention will be described with reference to FIG. Note that the data collection device according to the present embodiment controls a resource allocated to each search condition when there are a plurality of search conditions, and stores a database server such as an SNS or a bulletin board on the network. A device that efficiently collects data from a server. In addition, about the component which attaches | subjects the same code | symbol as 1st Embodiment, since it has the same function, the detailed description is abbreviate | omitted.
<データ収集装置の構成>
図3は、本発明の第2の実施形態に係るデータ収集装置101の構成を示す図である。図3に示すように、データ収集装置101は、検索条件記憶部110、長周期検索部121、短周期検索部131、データ記憶部140、長周期調整部160、短周期調整部150、リソース配分決定部180、およびリソース制御部190から構成される。
<Configuration of data collection device>
FIG. 3 is a diagram showing the configuration of the
長周期検索部121および短周期検索部131は、検索条件記憶部110に記憶されている検索条件が複数である場合に、各検索条件の検索プロセスを並列に実行する。なお、長周期検索部121および短周期検索部131は、第1の実施形態に記述した機能を備えている。
When there are a plurality of search conditions stored in the search
リソース配分決定部180は、検索条件記憶部110に記憶されている検索条件が複数である場合に、検索付随情報記憶部141を参照し、各検索条件の検索結果の取得率と取得量とに基づいて、各検索条件へのリソースの配分割合を決定する。具体的には、リソース配分決定部180は、各検索条件の検索結果の取得率Tiが同じになるように、下記の(1)式と(2)式によりN個のrを変数とするN次連立方程式を解くことにより、各検索条件へのリソース配分を決定する。
When there are a plurality of search conditions stored in the search
リソース制御部190は、各検索条件の検索を実行するプロセスに、リソース配分決定部180で決定された各検索条件へのリソース配分に基づいてリソースを割り当てる。具体的には、リソース制御部190は、各検索条件の検索プロセスは割り当てられたリソースに基づいて、検索プロセスの数や検索頻度を調整する。
The
ところで、検索条件が複数の場合に、各検索条件に同じリソースを配分すると効率的でないことがある。例えば、ワードA、B、Cが図4に示すようなデータ集合をもつデータベースサーバを検索対象とする場合に、ワードA、B、Cにリソースを等分で割り当てるとワードA、Bについては十分にデータを得ることができたにも関わらず、ワードCについては、リソース不足で十分にデータを得ることができないことがあった。 By the way, when there are a plurality of search conditions, it may not be efficient to allocate the same resource to each search condition. For example, when searching for a database server in which words A, B, and C have a data set as shown in FIG. 4, if resources are equally allocated to words A, B, and C, words A and B are sufficient. In some cases, however, data could not be sufficiently obtained for word C due to insufficient resources.
本実施形態においては、上述したリソース配分決定部180およびリソース制御部190をデータ収集装置100に備えることにより、検索条件が複数の場合に、各検索条件により得られる検索結果の件数が同じになるように、リソースを配分することができる。その結果、検索条件が複数の場合にも効率的に、データを収集することができる。
In the present embodiment, by providing the above-described resource
<実施例>
本実施形態のデータ収集装置101をTwitterに適用した例について説明する。なお、第1の実施形態および第2の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
<Example>
An example in which the
本例において、図5に示すように、データ収集装置200は、検索条件記憶部110、検索部210、データ記憶部140、Srream処理部220、検索エンジン230、および高度解析器240から構成される。なお、Srream処理部220、検索エンジン230、および高度解析器240は、データ記憶部140に記憶されているデータをマーケティング等のための解析を行う処理部であって、別装置に備えられてもよい。
In this example, as shown in FIG. 5, the
検索部210は、キーワード指定の検索を行うキーワード検索部211と、ユーザ指定の検索を行うユーザ検索部212とを備える。Twitterの全Tweetに対して、マーケティング等に利用するTweetは、主にキーワードやユーザによって収集することができるので、本例においては、キーワード検索とユーザ検索との2つの検索方法によりデータ収集を行う。
The
検索部210の各処理部は、それぞれ最低1プロセスずつ並列に動作し、例えば、Twitter REST APIを利用してTwitterのデータベースサーバからTweetを収集する。ユーザの要望により複数のキーワードやユーザについてデータを取得する場合には、必要に応じて、各処理部のプロセス数を増加する。
Each processing unit of the
キーワード検索部211は、キーワード長周期検索部211a、キーワード短周期検索部211b、ひらがな検索部211c、およびキーワードオンデマンド検索部211dを備える。
The
キーワード長周期検索部211aは、Twitterのデータベースサーバから、検索条件記憶部110に記憶されているキーワードを含むTweetを全検索する。キーワード長周期検索部211aが検索する範囲を、検索対象数や検索期間を限定してもよい。キーワード短周期検索部211bは、秒単位といった短い周期で、高頻度に、Twitterのデータベースサーバから、検索条件記憶部110に記憶されている検索条件に基づいて、最新のTweetを優先して検索する。
The keyword long
ひらがな検索部211cは、特許文献2に記載の技術を用いて、ひらがなをキーワードに、日本語のTweetを検索する。キーワードオンデマンド検索部211dは、検索条件記憶部110に記憶されていないキーワードに関するTweetをユーザが収集したい場合に、Twitterのデータベースサーバから、ユーザから入力を受け付けたキーワードに基づいてTweetを検索する。
The
ユーザ検索部212は、既存ユーザ検索部212a、新規ユーザ検出部212b、およびユーザオンデマンド検索部212cを備える。
The
既存ユーザ検索部212aは、Twitterのデータベースサーバから、検索条件記憶部110に記憶されているユーザIDに基づいて、Tweetを全検索する。また、新規ユーザ検出部212bで検出されたユーザのユーザIDに基づいて、Tweetを全検索する。この場合、特許文献3(特開2012−216168号公報)の方法によりユーザの優先度に応じて、Tweetを検索してもよい。このようにして、ユーザがTweetの収集を要求している、Twitterのユーザについて、日単位でリアルタイム性を保証することができる。
The existing
新規ユーザ検出部212bは、キーワード検索部211で取得したTweetを投稿したユーザであって、検索条件記憶部110に記憶されていないユーザを検出し、ユーザIDを取得する。新規ユーザ検出部212bで取得されたユーザIDに基づいて、上述した既存ユーザ検索部212aが、Twitterのデータベースサーバから、Tweetを検索する。
The new
ユーザオンデマンド検索部212cは、Twitterのデータベースサーバから、ユーザから入力を受け付けたユーザIDに基づいて、Tweetを検索する。
The user on-
インメモリDB142は、検索結果記憶部142に該当し、検索部210の各検索部211a〜d、212a〜cの検索結果を記憶する。インメモリDB142としては、例えば、Redis[2013年5月15日検索、インターネット<URL:http://redis.iohttp://>]が挙げられる。なお、インメモリDB142は、並列化可能である。
The in-
各検索部211a〜d、212a〜cはデータの完全性とリアルタイム性を実現するため、並列に動作し、また、検索条件が複数である場合に、各検索部211a〜d、212a〜cはそれぞれ複数並列のプロセスを持つ。Twitterのように、個々は小さなデータであっても、データベースに非同期並列で挿入すると、データベースの挿入性能が大きく低下してしまう。さらには、各検索部211a〜d、212a〜cの検索結果には、重複するTweetが含まれるため、挿入パフォーマンスの低下を招きやすい。これらの問題を解消するために、検索結果記憶部142に入出力が高速なインメモリDBを用いることで、データを一度ストアすることで、重複したTweetの除去とデータの1ストリーム化を行うことができる。
Each
Stream処理部220は、インメモリDB142を参照し、件数のカウント等1件のTweet毎に処理可能な解析処理を実施する。なお、Stream処理部220も並列化が可能である。
The
検索エンジン230は、高度解析器240からの指示に基づいて、インメモリDB142を検索し、検索結果を高度解析器240に検索結果を渡す。検索エンジン230には、例えば、Apatch Solr[2013年5月15日検索 インターネット<URL:http://lucene.apache.org/solr/>]が挙げられる。
The
高度解析器240は、Twitterのデータベースサーバから収集したTweetを記憶しているインメモリDB142から検索エンジン230を介して必要なTweetを取得し、マーケティング等のための解析を行う。高度解析器240には、例えば、非特許文献5[池田和史,服部元,小野智弘,東野輝夫,”マーケット分析のためのTwitter投稿者プロフィール推定手法”,情処研報 IPSJ−CDS Vol.2,No.1,pp.82−93(2012)]、非特許文献6[池田和史,服部元,小野智弘,麻生英樹,”Twitter解析による通信品質低下傾向の早期検出手法の提案”,FIT2012]に示されるような高度な解析処理が実装される。
The
このようにして、データ収集装置をTwitterのTweetの収集に用いると、Tweetを、リアルタイム性と完全性とを両立した上で、効率よく収集することができる。それにより、収集したTweetを利用してマーケティング等のための解析を行うことができる。 In this way, when the data collection device is used for collecting Twitter's Tweet, it is possible to efficiently collect Tweet while achieving both real-time performance and completeness. Thereby, the analysis for marketing etc. can be performed using collected Tweet.
以上、説明したように、本実施形態によれば、複数の検索条件がある場合に、各検索条件に割り当てるリソースの配分を決定し、決定された配分に各検索条件のリソースを制御することにより、検索条件が複数の場合にも効率的に、データを収集することができる。 As described above, according to the present embodiment, when there are a plurality of search conditions, the allocation of resources to be allocated to each search condition is determined, and the resources of each search condition are controlled according to the determined allocation. Even when there are a plurality of search conditions, data can be efficiently collected.
なお、データ収集装置の処理をコンピュータシステムが読み取り可能な記録媒体に記録し、この記録媒体に記録されたデータ収集装置に読み込ませ、実行することによって本発明のデータ収集装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。 The data collection device of the present invention can be realized by recording the processing of the data collection device on a recording medium readable by a computer system, causing the data collection device recorded on the recording medium to read and execute the processing. . The computer system here includes an OS and hardware such as peripheral devices.
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。 Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW (World Wide Web) system is used. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to the embodiments, and includes designs and the like that do not depart from the gist of the present invention.
100 データ収集装置
110 検索条件記憶部
120 長周期検索部
130 短周期検索部
140 データ記憶部
141 検索付随情報記憶部
142 検索結果記憶部
150 短周期調整部
160 長周期調整部
170 画像データ管理部
DESCRIPTION OF
Claims (9)
ユーザにより設定された検索条件を記憶する検索条件記憶手段と、
前記ネットワーク上のデータベースサーバを、前記検索条件に基づいて、全検索を実行する長周期検索手段と、
前記データベースサーバを、前記検索条件に基づいて、前記長周期検索手段より高頻度に、最新のデータを優先する検索を実行する短周期検索手段と、
前記長周期検索手段および前記短周期検索手段で取得された検索結果に、当該検索結果を取得した検索手段と当該検索結果が取得された時間とを対応付けて記憶する検索付随情報記憶手段と、
前記長周期検索手段および前記短周期検索手段で取得された検索結果を、重複を排除して記憶する検索結果記憶手段と、
前記検索付随情報記憶手段を参照し、前記長周期検索手段で単位時間当たりに取得する検索結果の件数として求められる、前記データベースサーバにおいて前記検索条件に一致するデータの単位時間当たりの平均増加数と、前記短周期検索手段で単位時間当たりに取得した検索結果数とに基づいて、当該短周期検索手段が行う検索の周期を決定する短周期調整手段と、
前記検索付随情報記憶手段を参照し、前記短周期検索手段で取得された検索結果に対する、前記長周期検索手段で取得された検索結果の重複度合に基づいて、前記長周期検索手段が実行する検索の周期を調整する長周期調整手段と、
を備えるデータ収集装置。 A data collection device for collecting data on a network,
Search condition storage means for storing search conditions set by the user;
Long-term search means for performing a full search on the database server on the network based on the search conditions;
A short-cycle search unit that executes a search that prioritizes the latest data more frequently than the long-cycle search unit based on the search condition;
Search associated information storage means for storing the search results acquired by the long cycle search means and the short cycle search means in association with the search means that acquired the search results and the time when the search results were acquired;
Search result storage means for storing the search results acquired by the long cycle search means and the short cycle search means by eliminating duplication;
An average increase in data per unit time that matches the search condition in the database server, which is obtained as the number of search results acquired per unit time by the long-cycle search means with reference to the search accompanying information storage means A short cycle adjusting unit that determines a search cycle performed by the short cycle search unit based on the number of search results acquired per unit time by the short cycle search unit;
A search performed by the long-period search unit with reference to the search-accompanying information storage unit and based on the degree of duplication of the search result acquired by the long-cycle search unit with respect to the search result acquired by the short-cycle search unit Long cycle adjusting means for adjusting the cycle of
A data collection device comprising:
前記検索付随情報記憶手段を参照し、前記検索条件記憶手段に記憶されている各検索条件の検索結果の取得率と取得量とに基づいて、当該各検索条件へのリソースの配分割合を決定するリソース配分決定手段と、
前記短周期検索手段および前記長周期検索手段における、前記各検索条件の検索を実行するプロセスに、前記各検索条件へのリソースの配分割合に基づいてリソースを割り当てるリソース制御手段と、を備える請求項1から請求項4のいずれかに記載のデータ収集装置。 When the search condition storage unit stores a plurality of the search conditions,
Referring to the search-accompanying information storage unit, the distribution ratio of resources to each search condition is determined based on the acquisition rate and acquisition amount of the search result of each search condition stored in the search condition storage unit Resource allocation determination means;
The resource control means for allocating resources to the process of executing the search of each search condition in the short cycle search means and the long cycle search means based on a distribution ratio of resources to each search condition. The data collection device according to any one of claims 1 to 4.
前記検索結果記憶手段が、前記オンデマンド検索手段で取得された検索結果を、重複を排除して記憶することを特徴とする請求項1から請求項6のいずれかに記載のデータ収集装置。 In response to receiving a search condition from the user, the database server on the network includes an on-demand search means for performing a search based on the received search condition,
The data collection device according to claim 1, wherein the search result storage unit stores the search result acquired by the on-demand search unit without duplication.
前記長周期検索手段が、ネットワーク上のデータベースサーバを、前記検索条件に基づいて、全検索を実行する第1のステップと、
前記短周期検索手段が、前記ネットワーク上のデータベースサーバを、前記検索条件に基づいて、前記長周期検索手段より高頻度に、最新のデータを優先する検索を実行する第2のステップと、
前記検索付随情報記憶手段が、前記第1のステップおよび前記第2のステップで取得された検索結果に、当該検索結果を取得した検索手段と当該検索結果が取得された時間とを対応付けて記憶する第3のステップと、
前記検索結果記憶手段が、前記第1のステップおよび前記第2のステップで取得された検索結果を、重複を排除して記憶する第4のステップと、
前記短周期調整手段が、前記検索付随情報記憶手段を参照し、前記長周期検索手段で単位時間当たりに取得する検索結果の件数として求められる、前記データベースサーバにおいて前記検索条件に一致するデータの単位時間当たりの平均増加数と、前記短周期検索手段で単位時間当たりに取得した検索結果数とに基づいて、当該短周期検索手段が実行する検索の周期を決定する第5のステップと、
前記長周期調整手段が、前記検索付随情報記憶手段を参照し、前記短周期検索手段で取得された検索結果に対する、前記長周期検索手段で取得された検索結果の重複度合に基づいて、前記長周期検索手段が実行する検索の周期を調整する第6のステップと、
を含むデータ収集方法。 Data collection comprising search condition storage means for storing search conditions set by the user, long cycle search means, short cycle search means, search accompanying information storage means, search result storage means, short cycle adjustment means, and long cycle adjustment means A data collection method in an apparatus, comprising:
A first step in which the long-period search means performs a full search on a database server on a network based on the search conditions;
A second step in which the short cycle search means performs a search for giving priority to the latest data to the database server on the network more frequently than the long cycle search means based on the search condition;
The search accompanying information storage means stores the search results acquired in the first step and the second step in association with the search means that acquired the search results and the time when the search results were acquired. A third step,
A fourth step in which the search result storage means stores the search results acquired in the first step and the second step by eliminating duplication; and
A unit of data that matches the search condition in the database server, wherein the short cycle adjustment unit is obtained as the number of search results acquired per unit time by the long cycle search unit with reference to the search accompanying information storage unit A fifth step of determining a search cycle to be executed by the short cycle search unit based on the average increase number per time and the number of search results acquired per unit time by the short cycle search unit;
The long cycle adjustment means refers to the search-accompanying information storage means, and based on the degree of duplication of the search results acquired by the long cycle search means with respect to the search results acquired by the short cycle search means, A sixth step of adjusting a search cycle executed by the cycle search means;
Data collection method including.
前記長周期検索手段が、ネットワーク上のデータベースサーバを、前記検索条件に基づいて、全検索を実行する第1のステップと、
前記短周期検索手段が、前記ネットワーク上のデータベースサーバを、前記検索条件に基づいて、前記長周期検索手段より高頻度に、最新のデータを優先する検索を実行する第2のステップと、
前記検索付随情報記憶手段が、前記第1のステップおよび前記第2のステップで取得された検索結果に、当該検索結果を取得した検索手段と当該検索結果が取得された時間とを対応付けて記憶する第3のステップと、
前記検索結果記憶手段が、前記第1のステップおよび前記第2のステップで取得された検索結果を、重複を排除して記憶する第4のステップと、
前記短周期調整手段が、前記検索付随情報記憶手段を参照し、前記長周期検索手段で単位時間当たりに取得する検索結果の件数として求められる、前記データベースサーバにおいて前記検索条件に一致するデータの単位時間当たりの平均増加数と、前記短周期検索手段で単位時間当たりに取得した検索結果数とに基づいて、当該短周期検索手段が実行する検索の周期を決定する第5のステップと、
前記長周期調整手段が、前記検索付随情報記憶手段を参照し、前記短周期検索手段で取得された検索結果に対する、前記長周期検索手段で取得された検索結果の重複度合に基づいて、前記長周期検索手段が実行する検索の周期を調整する第6のステップと、
をコンピュータに実行させるためのプログラム。 Data collection comprising search condition storage means for storing search conditions set by the user, long cycle search means, short cycle search means, search accompanying information storage means, search result storage means, short cycle adjustment means, and long cycle adjustment means A program for causing a computer to execute a data collection method in an apparatus,
A first step in which the long-period search means performs a full search on a database server on a network based on the search conditions;
A second step in which the short cycle search means performs a search for giving priority to the latest data to the database server on the network more frequently than the long cycle search means based on the search condition;
The search accompanying information storage means stores the search results acquired in the first step and the second step in association with the search means that acquired the search results and the time when the search results were acquired. A third step,
A fourth step in which the search result storage means stores the search results acquired in the first step and the second step by eliminating duplication; and
A unit of data that matches the search condition in the database server, wherein the short cycle adjustment unit is obtained as the number of search results acquired per unit time by the long cycle search unit with reference to the search accompanying information storage unit A fifth step of determining a search cycle to be executed by the short cycle search unit based on the average increase number per time and the number of search results acquired per unit time by the short cycle search unit;
The long cycle adjustment means refers to the search-accompanying information storage means, and based on the degree of duplication of the search results acquired by the long cycle search means with respect to the search results acquired by the short cycle search means, A sixth step of adjusting a search cycle executed by the cycle search means;
A program that causes a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013153441A JP6103228B2 (en) | 2013-07-24 | 2013-07-24 | Data collection device, data collection method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013153441A JP6103228B2 (en) | 2013-07-24 | 2013-07-24 | Data collection device, data collection method, and program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2015026103A true JP2015026103A (en) | 2015-02-05 |
JP2015026103A5 JP2015026103A5 (en) | 2016-05-19 |
JP6103228B2 JP6103228B2 (en) | 2017-03-29 |
Family
ID=52490748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013153441A Active JP6103228B2 (en) | 2013-07-24 | 2013-07-24 | Data collection device, data collection method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6103228B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322430A (en) * | 1999-05-12 | 2000-11-24 | Hitachi Building Systems Co Ltd | Information retrieval supporting device |
JP2002288214A (en) * | 2001-03-28 | 2002-10-04 | Hitachi Ltd | Search system and search service |
JP2005327297A (en) * | 2005-05-16 | 2005-11-24 | Toshiba Corp | Knowledge information collecting system and knowledge information collecting method |
JP2011070523A (en) * | 2009-09-28 | 2011-04-07 | Nec Corp | System, method and program for collection of document information |
-
2013
- 2013-07-24 JP JP2013153441A patent/JP6103228B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322430A (en) * | 1999-05-12 | 2000-11-24 | Hitachi Building Systems Co Ltd | Information retrieval supporting device |
JP2002288214A (en) * | 2001-03-28 | 2002-10-04 | Hitachi Ltd | Search system and search service |
JP2005327297A (en) * | 2005-05-16 | 2005-11-24 | Toshiba Corp | Knowledge information collecting system and knowledge information collecting method |
JP2011070523A (en) * | 2009-09-28 | 2011-04-07 | Nec Corp | System, method and program for collection of document information |
Also Published As
Publication number | Publication date |
---|---|
JP6103228B2 (en) | 2017-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9652538B2 (en) | Web crawler optimization system | |
US9367257B2 (en) | Techniques for resource location and migration across data centers | |
US9949149B2 (en) | Online and distributed optimization framework for wireless analytics | |
US9374375B2 (en) | Systems and methods for publishing datasets | |
CN106790487B (en) | Method, device and system for displaying help information | |
US20120150833A1 (en) | Using social-network data for identification and ranking of urls | |
JP2009211211A (en) | Analysis system, information processor, activity analysis method and program | |
US20200159764A1 (en) | Method for Processing and Displaying Real-Time Social Data on Map | |
CN105183873A (en) | Malicious clicking behavior detection method and device | |
US20160321367A1 (en) | Federated search page construction based on machine learning | |
US11720824B1 (en) | Visualizing outliers from timestamped event data using machine learning-based models | |
CN111782692A (en) | Frequency control method and device | |
US20120254760A1 (en) | System and method for accelerating content generation for selected content | |
US11115338B2 (en) | Intelligent conversion of internet domain names to vector embeddings | |
US8935285B2 (en) | Searchable and size-constrained local log repositories for tracking visitors' access to web content | |
US8700628B1 (en) | Personalized aggregation of annotations | |
JP6103228B2 (en) | Data collection device, data collection method, and program | |
US20150331917A1 (en) | Recording medium having stored therein transmission order determination program, transmission order determination device, and transmission order determination method | |
US9619498B2 (en) | Method and apparatus for adjusting an indexing frequency based on monitored parameters | |
JP2015026103A5 (en) | ||
Horincar et al. | Online refresh strategies for content based feed aggregation | |
JP2012147272A (en) | Traffic cache system, cache replacement method, cache device, and cache program | |
US9787564B2 (en) | Algorithm for latency saving calculation in a piped message protocol on proxy caching engine | |
CN105426422B (en) | The data processing method and device of Distributed Services | |
CN109302297B (en) | Method and device for processing network access record and computer readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160322 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170117 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6103228 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |