JP2013077272A - Method, apparatus and computer program for obtaining keyword appearance frequency ranking - Google Patents
Method, apparatus and computer program for obtaining keyword appearance frequency ranking Download PDFInfo
- Publication number
- JP2013077272A JP2013077272A JP2011218226A JP2011218226A JP2013077272A JP 2013077272 A JP2013077272 A JP 2013077272A JP 2011218226 A JP2011218226 A JP 2011218226A JP 2011218226 A JP2011218226 A JP 2011218226A JP 2013077272 A JP2013077272 A JP 2013077272A
- Authority
- JP
- Japan
- Prior art keywords
- keywords
- frequency
- order
- computer
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数のコンピュータでキーワードが出現する頻度の計数を分散処理する場合に、キーワードが出現する頻度順を効率良く求める方法、装置及びコンピュータプログラムに関する。 The present invention relates to a method, an apparatus, and a computer program for efficiently obtaining a frequency order in which keywords appear when a frequency count of keywords appearing in a plurality of computers is distributed.
いわゆるテキストマイニングのように、大量のデータ(テキストマイニングの場合は文書データ)の中から、頻度順上位k(kは自然数)個のデータ(テキストマイニングの場合はキーワード)及び出現頻度のリストを求めるシステムでは、演算処理負荷が過大となる。特に対話的なテキスト分析を行う場合、上位k個のキーワードから次の検索キーワードを選択し、選択されたキーワードによる検索結果に対して新たに上位k個のキーワードリストを求める、というように繰り返し上位k個のキーワードを求める処理を実行するので、レスポンスタイムをいかに短くするかが重要な課題となる。 Like so-called text mining, a list of k data (keyword in the case of text mining) and appearance frequency and a frequency of appearance are obtained from a large amount of data (document data in the case of text mining). In the system, the calculation processing load becomes excessive. In particular, when performing interactive text analysis, the next search keyword is selected from the top k keywords, and the top k keyword list is newly obtained for the search result based on the selected keyword. Since a process for obtaining k keywords is executed, how to shorten the response time is an important issue.
文書数が膨大である場合、一般に複数のコンピュータに処理を分割して並列処理を行う。例えば文書集合を分割して小さな集合の集まりにして、複数のコンピュータに各小集合を配置・記憶させておき、各コンピュータで頻度順上位k個のキーワードを求める。そして、全てのコンピュータで求めたキーワードの出現頻度を集約することにより頻度順上位k個のキーワードを求める。すなわち、コンピュータ数がn(nは自然数)の場合、k×n個から頻度順上位k個を選ぶ。 When the number of documents is enormous, the processing is generally divided into a plurality of computers to perform parallel processing. For example, the document set is divided into small sets, each small set is arranged and stored in a plurality of computers, and the top k keywords in order of frequency are obtained by each computer. Then, the top k keywords in order of frequency are obtained by aggregating the appearance frequencies of the keywords obtained by all computers. That is, when the number of computers is n (n is a natural number), the top k in order of frequency are selected from k × n.
しかし、上述した方法では、全体として正しい頻度順上位k個のキーワードを求めているという保証は無い。そこで、文書集合を複数のコンピュータに分割して記憶するのではなく、例えば特許文献1のように、出現頻度を求めるキーワードに関する情報を複数のコンピュータに分割して記憶させておくことで、各コンピュータでは記憶してあるキーワードについてのみ頻度順上位k個のキーワードを求めることができ、それらを集約することで全体として正しい頻度順上位k個のキーワードを求めることができる。
However, in the above-described method, there is no guarantee that the top k keywords in the correct frequency order are obtained as a whole. Therefore, rather than dividing a document set into a plurality of computers and storing the information, for example, as in
しかし、n(nは自然数)個のコンピュータで分散処理する場合、頻度順上位k個のキーワードを算出するためにはn×k個のキーワードについて出現頻度を求める必要がある。例えばn=32、k=100である場合、最終的に求めたいキーワードの個数は100個であるのに対して、32×100−100=3100個の不要なキーワードについても出現頻度を求める必要があり、効率が悪い。 However, when distributed processing is performed with n (n is a natural number) computers, in order to calculate the top k keywords in the order of frequency, it is necessary to obtain the appearance frequency for n × k keywords. For example, when n = 32 and k = 100, the number of keywords to be finally obtained is 100, but it is necessary to obtain the appearance frequency of 32 × 100−100 = 3100 unnecessary keywords. Yes, efficiency is poor.
本発明は斯かる事情に鑑みてなされたものであり、複数のコンピュータで分散処理する場合に、キーワードが出現する頻度順を効率良く算出する方法、装置及びコンピュータプログラムを提供することを目的とする。 The present invention has been made in view of such circumstances, and an object thereof is to provide a method, an apparatus, and a computer program for efficiently calculating the frequency order in which keywords appear when distributed processing is performed by a plurality of computers. .
上記目的を達成するために第1発明に係る方法は、複数のコンピュータを用いて頻度順上位のキーワードを求める装置で実行することが可能な方法であって、前記装置は、n(nは自然数)個のコンピュータに、互いに重なり合わないキーワードを割り当てるステップと、各コンピュータに割り当てられたキーワードから頻度順上位t個(tは自然数、t<k)のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数)個のキーワードを選択する場合に、選択されたk個が真の頻度順上位k個となる確率P(n、k、t)を算出するステップと、算出した確率P(n、k、t)に基づいて、各コンピュータから頻度順上位のキーワードとして取得するキーワードの個数t(tは自然数、t<k)を推定するステップとを有し、各コンピュータから頻度順上位t個のキーワードを取得して、取得したすべてのキーワードから全体として頻度順上位k個のキーワードを選択する。 In order to achieve the above object, the method according to the first aspect of the present invention is a method that can be executed by a device that obtains a keyword in order of frequency using a plurality of computers, wherein the device has n (n is a natural number). ) Assigning non-overlapping keywords to the computers, and acquiring the top t keywords (t is a natural number, t <k) in order of frequency from the keywords assigned to each computer, and from all the acquired keywords A step of calculating a probability P (n, k, t) that the selected k items are the top k in the true frequency order when selecting k keywords in the order of frequency as a whole (k is a natural number); Based on the calculated probability P (n, k, t), the number t of keywords to be acquired from each computer as the top keyword in frequency order (t is a natural number, t <k) is estimated. That has a step, to obtain the frequency-ordered upper t keyword (s) from each computer, to select the frequency order top k keyword as a whole from all the keywords acquired.
また、第2発明に係る方法は、第1発明において、確率P(n、k、t)は、「n×t個のキーワードから頻度順上位k個のキーワードを選択する場合に、選択するコンピュータごとのキーワード数の組み合わせにおいて、いずれのコンピュータからも多くとも(t−1)個のキーワードを選択する」確率である。 Further, in the method according to the second invention, in the first invention, the probability P (n, k, t) is “a computer to be selected when selecting k keywords in order of frequency from n × t keywords. The probability of selecting at most (t−1) keywords from any computer in the combination of the number of keywords for each.
また、第3発明に係る方法は、第1発明において、確率P(n、k、t)は、「n×t個のキーワードから頻度順上位k個のキーワードを頻度順序を含めて選択する場合に、選択するコンピュータごとのキーワード数の組み合わせにおいて、いずれのコンピュータからも多くとも(t−1)個のキーワードを選択する」確率である。 In the method according to the third invention, in the first invention, the probability P (n, k, t) is “when the top k keywords in the frequency order are selected from the n × t keywords including the frequency order”. In addition, in the combination of the number of keywords for each computer to be selected, the probability is that at most (t−1) keywords are selected from any computer.
また、第4発明に係る方法は、第1発明において、確率P(n、k、t)は、「n個のコンピュータから頻度順上位k個のキーワードを選択する組み合わせを選んだ場合に、選んだ組み合わせにおいて、いずれのコンピュータからも多くともt個のキーワードを選択する」確率である。 In the method according to the fourth invention, in the first invention, the probability P (n, k, t) is selected when “a combination that selects k keywords in order of frequency from n computers is selected”. The probability of selecting at most t keywords from any computer in the combination.
次に、上記目的を達成するために第5発明に係る方法は、複数のコンピュータを用いて頻度順上位のキーワードを求める装置で実行することが可能な方法であって、前記装置は、n(nは自然数)個のコンピュータに、互いに重なり合わないキーワードを割り当てるステップと、各コンピュータから頻度順上位t(tは自然数)個のキーワードを取得するステップと、各コンピュータに割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数、t<k)個のキーワードを選択する場合に、各コンピュータで頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアントにおいて選択されたキーワードのうち最小の頻度とそのクライアントのt番目のキーワードの頻度が異なるか否かを判断するステップとを有し、各コンピュータで頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアントにおいて選択されたキーワードのうち最小の頻度とそのクライアントのt番目のキーワードの頻度が異なると判断した場合、各コンピュータから取得したすべてのキーワードのうち、各コンピュータの頻度順上位(t−1)個のキーワードから全体として頻度順上位k個のキーワードを選択する。 Next, in order to achieve the above object, a method according to the fifth aspect of the present invention is a method that can be executed by a device that obtains a keyword in order of frequency using a plurality of computers, and the device includes n ( n is a natural number) assigning non-overlapping keywords to each computer, obtaining the top t (t is a natural number) keywords in order of frequency from each computer, and the order of frequency from the keywords assigned to each computer Keywords acquired as top keywords in order of frequency in each computer when top keywords are acquired and k keywords (k is a natural number, t <k) in order of frequency are selected from all the acquired keywords as a whole The number of keywords is (t-1) or less and the smallest of the keywords selected in each client And the step of determining whether or not the frequency of the t-th keyword of the client is different, and the number of keywords acquired as a top-order keyword in each computer is (t−1) or less. And when it is determined that the minimum frequency among the keywords selected in each client is different from the frequency of the t-th keyword of the client, among all the keywords acquired from each computer, -1) Select the top k keywords in order of frequency from the keywords.
次に、上記目的を達成するために第6発明に係る装置は、複数のコンピュータを用いて頻度順上位のキーワードを求める装置であって、n(nは自然数)個のコンピュータに、互いに重なり合わないキーワードを割り当てるキーワード割当部と、各コンピュータに割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数)個のキーワードを選択する場合に、各コンピュータの頻度順上位のキーワードが頻度順上位k個となる確率P(n、k、t)を算出する確率算出部と、算出した確率P(n、k、t)に基づいて、各コンピュータから頻度順上位のキーワードとして取得するキーワードの個数t(tは自然数、t<k)を推定する推定部とを備え、各コンピュータから頻度順上位t個のキーワードを取得して、取得したすべてのキーワードから全体として頻度順上位k個のキーワードを選択する。 Next, in order to achieve the above object, an apparatus according to the sixth aspect of the present invention is an apparatus that uses a plurality of computers to obtain keywords in order of frequency and overlaps n (n is a natural number) computers. When a keyword assigning unit for assigning non-keywords and keywords assigned to each computer are acquired from the keywords assigned to each computer in the order of frequency, and k keywords (k is a natural number) as a whole are selected from all the acquired keywords. In addition, based on the probability calculation unit for calculating the probability P (n, k, t) that the top keyword in the frequency order of each computer is the top k in the frequency order, and the calculated probability P (n, k, t), An estimation unit for estimating the number of keywords t (t is a natural number, t <k) to be acquired from each computer as a keyword in order of frequency. To get the order of frequency of the upper t number of keywords from over data, to select the order of frequency of top k keyword as a whole from all of the keywords you get.
また、第7発明に係る装置は、第6発明において、確率P(n、k、t)は、「n×t個のキーワードから頻度順上位k個のキーワードを選択する場合に、選択するコンピュータごとのキーワード数の組み合わせにおいて、いずれのコンピュータからも多くとも(t−1)個のキーワードを選択する」確率である。 According to a seventh aspect of the present invention, in the sixth aspect of the invention, the probability P (n, k, t) is “a computer to be selected when selecting the top k keywords in order of frequency from the n × t keywords. The probability of selecting at most (t−1) keywords from any computer in the combination of the number of keywords for each.
また、第8発明に係る装置は、第6発明において、確率P(n、k、t)は、「n×t個のキーワードから頻度順上位k個のキーワードを頻度順序を含めて選択する場合に、選択するコンピュータごとのキーワード数の組み合わせにおいて、いずれのコンピュータからも多くとも(t−1)個のキーワードを選択する」確率である。 In the device according to the eighth invention, in the sixth invention, the probability P (n, k, t) is “when the top k keywords in order of frequency are selected from the n × t keywords including the frequency order”. In addition, in the combination of the number of keywords for each computer to be selected, the probability is that at most (t−1) keywords are selected from any computer.
また、第9発明に係る装置は、第6発明において、確率P(n、k、t)は、「n個のコンピュータから頻度順上位k個のキーワードを選択する組み合わせを選んだ場合に、選んだ組み合わせにおいて、いずれのコンピュータからも多くともt個のキーワードを選択する」確率である。 In the device according to the ninth invention, in the sixth invention, the probability P (n, k, t) is selected when “a combination that selects k keywords in order of frequency from n computers is selected”. The probability of selecting at most t keywords from any computer in the combination.
次に、上記目的を達成するために第10発明に係る装置は、複数のコンピュータを用いて頻度順上位のキーワードを求める装置であって、n(nは自然数)個のコンピュータに、互いに重なり合わないキーワードを割り当てるキーワード割当部と、各コンピュータから頻度順上位t(tは自然数)個のキーワードを取得するキーワード取得部と、各コンピュータに割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数、t<k)個のキーワードを選択する場合に、各コンピュータで頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアントにおいて選択されたキーワードのうち最小の頻度とそのクライアントのt番目のキーワードの頻度が異なるか否かを判断する判断部とを備え、各コンピュータで頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアントにおいて選択されたキーワードのうち最小の頻度とそのクライアントのt番目のキーワードの頻度が異なると判断した場合、各コンピュータから取得したすべてのキーワードのうち、各コンピュータの頻度順上位(t−1)個のキーワードから全体として頻度順上位k個のキーワードを選択する。
Next, in order to achieve the above object, an apparatus according to the tenth aspect of the present invention is an apparatus that uses a plurality of computers to obtain keywords in order of frequency and overlaps n (n is a natural number) computers. A keyword assigning unit that assigns no keywords, a keyword obtaining unit that obtains the top t (t is a natural number) keywords in order of frequency from each computer, and a keyword in the order of frequency obtained from the keywords assigned to each computer. In the case where the top k (k is a natural number, t <k) keywords in order of frequency are selected from all the keywords as a whole, the number of keywords acquired as the top keywords in frequency order by each computer is (t−1). The minimum frequency of keywords selected by each client and their clients A determination unit for determining whether or not the frequency of the t-th keyword is different, and the number of keywords acquired as top-ranked keywords in each computer is (t−1) or less, and each client If it is determined that the minimum frequency among the keywords selected in
次に、上記目的を達成するために第11発明に係るコンピュータプログラムは、複数のコンピュータを用いて頻度順上位のキーワードを求める装置で実行することが可能なコンピュータプログラムであって、前記装置を、n(nは自然数)個のコンピュータに、互いに重なり合わないキーワードを割り当てるキーワード割当手段、各コンピュータに割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数)個のキーワードを選択する場合に、各コンピュータの頻度順上位のキーワードが頻度順上位k個となる確率P(n、k、t)を算出する確率算出手段、算出した確率P(n、k、t)に基づいて、各コンピュータから頻度順上位のキーワードとして取得するキーワードの個数t(tは自然数、t<k)を推定する推定手段、及び各コンピュータから頻度順上位t個のキーワードを取得して、取得したすべてのキーワードから全体として頻度順上位k個のキーワードを選択する手段として機能させる。 Next, in order to achieve the above object, a computer program according to an eleventh aspect of the present invention is a computer program that can be executed by a device that obtains a keyword in order of frequency using a plurality of computers, Keyword assigning means for assigning non-overlapping keywords to n (n is a natural number) computers, keywords in higher frequency order are obtained from the keywords assigned to each computer, and the overall frequency order is obtained from all the obtained keywords. Probability calculating means for calculating the probability P (n, k, t) that the top keyword in the frequency order of each computer is k when selecting k (k is a natural number) keywords, the calculated probability Based on P (n, k, t), obtain from each computer as the top keyword in frequency order Estimating means for estimating the number of keywords t (t is a natural number, t <k), and the top t keywords in frequency order from each computer, and the top k keywords in frequency order as a whole from all the acquired keywords It functions as a means for selecting.
また、第12発明に係るコンピュータプログラムは、第11発明において、確率P(n、k、t)は、「n×t個のキーワードから頻度順上位k個のキーワードを選択する場合に、選択するコンピュータごとのキーワード数の組み合わせにおいて、いずれのコンピュータからも多くとも(t−1)個のキーワードを選択する」確率である。 In the computer program according to the twelfth aspect, in the eleventh aspect, the probability P (n, k, t) is selected when “k keywords having the highest frequency order are selected from n × t keywords”. The probability of selecting at most (t−1) keywords from any computer in the combination of the number of keywords for each computer.
また、第13発明に係るコンピュータプログラムは、第11発明において、確率P(n、k、t)は、「n×t個のキーワードから頻度順上位k個のキーワードを頻度順序を含めて選択する場合に、選択するコンピュータごとのキーワード数の組み合わせにおいて、いずれのコンピュータからも多くとも(t−1)個のキーワードを選択する」確率である。 In the computer program according to the thirteenth aspect, in the eleventh aspect, the probability P (n, k, t) selects “k keywords including the frequency order from the n × t keywords in the order of frequency”. In this case, the probability of selecting at most (t−1) keywords from any computer in the combination of the number of keywords for each computer to be selected.
また、第14発明に係るコンピュータプログラムは、第11発明において、確率P(n、k、t)は、「n個のコンピュータから頻度順上位k個のキーワードを選択する組み合わせを選んだ場合に、選んだ組み合わせにおいて、いずれのコンピュータからも多くともt個のキーワードを選択する」確率である。 Further, in the computer program according to the fourteenth invention, in the eleventh invention, the probability P (n, k, t) is “when a combination that selects k keywords in order of frequency from n computers is selected, It is the probability of selecting at most t keywords from any computer in the selected combination.
次に、上記目的を達成するために第15発明に係るコンピュータプログラムは、複数のコンピュータを用いて頻度順上位のキーワードを求める装置で実行することが可能なコンピュータプログラムであって、前記装置を、n(nは自然数)個のコンピュータに、互いに重なり合わないキーワードを割り当てるキーワード割当手段、各コンピュータから頻度順上位t(tは自然数)個のキーワードを取得するキーワード取得手段、各コンピュータに割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数、t<k)個のキーワードを選択する場合に、各コンピュータで頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアントにおいて選択されたキーワードのうち最小の頻度とそのクライアントのt番目のキーワードの頻度が異なるか否かを判断する判断手段、及び各コンピュータで頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアントにおいて選択されたキーワードのうち最小の頻度とそのクライアントのt番目のキーワードの頻度が異なると判断した場合、各コンピュータから取得したすべてのキーワードのうち、各コンピュータの頻度順上位(t−1)個のキーワードから全体として頻度順上位k個のキーワードを選択する手段として機能させる。 Next, in order to achieve the above object, a computer program according to the fifteenth aspect of the present invention is a computer program that can be executed by a device that obtains keywords in order of frequency using a plurality of computers, Keyword assignment means for assigning non-overlapping keywords to n (n is a natural number) computers, keyword acquisition means for obtaining top t (t is a natural number) keywords in order of frequency from each computer, assigned to each computer When keywords with the highest frequency order are acquired from the keywords and k keywords with the highest frequency order (k is a natural number, t <k) are selected as a whole from all the acquired keywords, The number of acquired keywords is (t-1) or less, and The judging means for judging whether or not the minimum frequency among the keywords selected in the client is different from the frequency of the t-th keyword of the client, and the number of keywords acquired by each computer as the top keywords in the frequency order ( t-1) or less, and if it is determined that the minimum frequency of the keywords selected in each client is different from the frequency of the t-th keyword of the client, among all the keywords acquired from each computer, It is made to function as means for selecting the top k keywords in order of frequency from the top (t−1) keywords in order of frequency of each computer.
本発明によれば、頻度順上位k個のキーワードを求めるために、複数のコンピュータすべてにおいて頻度順上位k個のキーワードを求める必要がなく、k個より少ないt個のキーワードのみを求めれば良いので、各コンピュータでの演算処理負荷を軽減することができるとともに、全体として頻度順上位k個のキーワードを求めるために各コンピュータで求める頻度順上位キーワードの個数を絞り込むことができるので、検索結果のレスポンスタイムを大きく短縮することが可能となる。 According to the present invention, in order to obtain the top k keywords in the order of frequency, it is not necessary to obtain the top k keywords in the order of frequency in all the computers, and only t keywords less than k need to be obtained. The calculation processing load on each computer can be reduced, and the number of top keywords in order of frequency in each computer can be narrowed down in order to obtain the top k keywords in order of frequency. Time can be greatly reduced.
以下、本発明の実施の形態に係る、頻度順上位のキーワードを求める装置について、図面に基づいて具体的に説明する。以下の実施の形態は、特許請求の範囲に記載された発明を限定するものではなく、実施の形態の中で説明されている特徴的事項の組み合わせの全てが解決手段の必須事項であるとは限らないことは言うまでもない。 Hereinafter, an apparatus for obtaining keywords in order of frequency according to an embodiment of the present invention will be specifically described with reference to the drawings. The following embodiments do not limit the invention described in the claims, and all combinations of characteristic items described in the embodiments are essential to the solution. It goes without saying that it is not limited.
また、本発明は多くの異なる態様にて実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。実施の形態を通じて同じ要素には同一の符号を付している。 The present invention can be implemented in many different modes and should not be construed as being limited to the description of the embodiment. The same symbols are attached to the same elements throughout the embodiments.
以下の実施の形態では、コンピュータシステムにコンピュータプログラムを導入した装置について説明するが、当業者であれば明らかな通り、本発明はその一部をコンピュータで実行することが可能なコンピュータプログラムとして実施することができる。したがって、本発明は、キーワードが出現する頻度順を算出する装置というハードウェアとしての実施の形態、ソフトウェアとしての実施の形態、又はソトウェアとハードウェアとの組み合わせの実施の形態をとることができる。コンピュータプログラムは、ハードディスク、DVD、CD、光記憶装置、磁気記憶装置等の任意のコンピュータで読み取ることが可能な記録媒体に記録することができる。 In the following embodiments, an apparatus in which a computer program is introduced into a computer system will be described. As will be apparent to those skilled in the art, the present invention is implemented as a computer program that can be partially executed by a computer. be able to. Therefore, the present invention can take the form of hardware as an apparatus for calculating the frequency order in which keywords appear, the form of software, or the combination of software and hardware. The computer program can be recorded on any computer-readable recording medium such as a hard disk, DVD, CD, optical storage device, magnetic storage device or the like.
本発明の実施の形態によれば、頻度順上位k個のキーワードを求めるために、複数のコンピュータすべてにおいて頻度順上位k個のキーワードを求める必要がなく、k個より少ないt個のキーワードのみを求めれば良いので、各コンピュータでの演算処理負荷を軽減することができるとともに、全体として頻度順上位k個のキーワードを求めるために各コンピュータで求める頻度順上位キーワードの個数を絞り込むことができるので、検索結果のレスポンスタイムを大きく短縮することが可能となる。 According to the embodiment of the present invention, in order to obtain the top k keywords in the frequency order, it is not necessary to obtain the top k keywords in the frequency order in all the plurality of computers, and only t keywords less than k are obtained. Since the calculation processing load on each computer can be reduced, the number of top keywords in order of frequency in each computer can be narrowed down to obtain the top k keywords in order of frequency as a whole. The response time of the search result can be greatly shortened.
図1は、本発明の実施の形態に係る頻度順キーワード抽出システムの構成を模式的に示すブロック図である。本発明の実施の形態に係る頻度順キーワード抽出システムは、複数のクライアント(コンピュータ)2と、ネットワーク網3を介してデータ通信することが可能に接続されている情報処理装置1で構成されている。情報処理装置1は、少なくともCPU(中央演算装置)11、メモリ12、記憶装置13、I/Oインタフェース14、ビデオインタフェース15、可搬型ディスクドライブ16、通信インタフェース17及び上述したハードウェアを接続する内部バス18で構成されている。
FIG. 1 is a block diagram schematically showing the configuration of a frequency-order keyword extraction system according to an embodiment of the present invention. A frequency-order keyword extraction system according to an embodiment of the present invention includes an
CPU11は、内部バス18を介して情報処理装置1の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置13に記憶されたコンピュータプログラム100に従って、種々のソフトウェア的機能を実行する。メモリ12は、SRAM、SDRAM等の揮発性メモリで構成され、コンピュータプログラム100の実行時にロードモジュールが展開され、コンピュータプログラム100の実行時に発生する一時的なデータ等を記憶する。
The
記憶装置13は、内蔵される固定型記憶装置(ハードディスク)、ROM等で構成されている。記憶装置13に記憶されたコンピュータプログラム100は、プログラム及びデータ等の情報を記録したDVD、CD−ROM等の可搬型記録媒体90から、可搬型ディスクドライブ16によりダウンロードされ、実行時には記憶装置13からメモリ12へ展開して実行される。もちろん、通信インタフェース17を介して接続されている外部コンピュータからダウンロードされたコンピュータプログラムであっても良い。
The
通信インタフェース17は内部バス18に接続されており、インターネット、LAN、WAN等の外部のネットワークに接続されることにより、外部コンピュータ等とデータ送受信を行うことが可能となっている。
The
I/Oインタフェース14は、キーボード21、マウス22等の入力装置と接続され、データの入力を受け付ける。ビデオインタフェース15は、CRTディスプレイ、液晶ディスプレイ等の表示装置23と接続され、所定の画像を表示する。
The I /
図2は、本発明の実施の形態に係る情報処理装置1の機能ブロック図である。図2において、情報処理装置1のキーワード割当部201は、n(nは自然数)個のクライアント2に、互いに重なり合わないキーワードを割り当てる。
FIG. 2 is a functional block diagram of the
図3は、本発明の実施の形態に係る頻度順キーワード抽出システムのキーワード割り当ての例示図である。図3では、頻度順上位k個(k=4)のキーワードを算出するためにn個(n=3)のクライアント2にキーワードを割り当てた状態を示している。具体的には、クライアントS1には、キーワードA、B、C、・・・を、クライアントS2にはクライアントS1のキーワードと重なり合わないキーワードE、F、G、・・・を、クライアントS3にはクライアントS1及びS2のキーワードと重なり合わないキーワードP、Q、R、・・・を、それぞれ割り当てる。
FIG. 3 is an exemplary diagram of keyword assignment in the frequency-order keyword extraction system according to the embodiment of the present invention. FIG. 3 shows a state in which keywords are assigned to n (n = 3)
各クライアント2は、割り当てられたキーワードについて出現頻度を求め、頻度順にキーワードを列挙する。そして、全てのクライアント2で列挙されたキーワードと出現頻度とを情報処理装置1が取得し、全体として頻度順上位4個(k=4)のキーワード、図3の例では頻度順上位4つのキーワードE、A、P、Fを頻度順に求める。
Each
図2に戻って、確率算出部202は、各クライアント2に割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数)個のキーワードを選択する場合に、各クライアント2の頻度順上位のキーワードが頻度順上位k個となる確率P(n、k、t)を算出する。確率P(n、k、t)の算出方法は特に限定するものではない。
Returning to FIG. 2, the
例えば、確率P(n、k、t)を、n×t個のキーワードから頻度順上位k個のキーワードを選択する場合に、「n×t個のキーワードから頻度順上位k個のキーワードを選択する場合に、選択するコンピュータごとのキーワード数の組み合わせにおいて、いずれのコンピュータからも多くとも(t−1)個のキーワードを選択する」確率として求めても良い(確率算出方法(1))。各クライアント2で取得したt個のキーワードを集約したn×t個のキーワードからk個を選ぶ組み合わせをf(n、k、t)とした場合、確率P(n、k、t)は(式1)に示すように定義される。
For example, when selecting the top k keywords in order of frequency from n × t keywords with probability P (n, k, t), “select top k keywords in order of frequency from n × t keywords In this case, in the combination of the number of keywords for each computer to be selected, it may be obtained as a probability of “selecting at most (t−1) keywords from any computer” (probability calculation method (1)). When a combination of selecting k keywords from n × t keywords obtained by aggregating t keywords acquired by each
(式1)において、組み合わせf(n、k、t)は、(式2)で与えられる。したがって、(式2)のn、k、tに値を代入することで、確率P(n、k、t)は直接算出することができる。 In (Expression 1), the combination f (n, k, t) is given by (Expression 2). Accordingly, the probability P (n, k, t) can be directly calculated by substituting values for n, k, and t in (Expression 2).
(式2)に基づく演算処理の計算量は、0.5×n×(k/t)2 と算出される。一方、動的計画法を用いてf(n、k、t)を算出することもできる。(式3)は、動的計画法を用いてf(n、k、t)を算出する場合の漸化式である。 The calculation amount of the arithmetic processing based on (Equation 2) is calculated as 0.5 × n × (k / t) 2. On the other hand, f (n, k, t) can also be calculated using dynamic programming. (Equation 3) is a recurrence formula when f (n, k, t) is calculated using dynamic programming.
また、(式3)に基づく演算処理の計算量は、n×kと算出される。したがって、例えばtの値がkの5%である場合、(k/t)2 は400となるので、k>200であれば(式2)の方が演算処理の計算量が少なくて済む。 Further, the calculation amount of the arithmetic processing based on (Equation 3) is calculated as n × k. Therefore, for example, when the value of t is 5% of k, (k / t) 2 is 400. Therefore, if k> 200, the amount of calculation processing is smaller in (Equation 2).
また、確率P(n、k、t)を、n×t個のキーワードから頻度順上位k個のキーワードを頻度順に選択する場合に、「n×t個のキーワードから頻度順上位k個のキーワードを頻度順序を含めて選択する場合に、選択するコンピュータごとのキーワード数の組み合わせにおいて、いずれのコンピュータからも多くとも(t−1)個のキーワードを選択する」確率として求めても良い(確率算出方法(2))。この場合、頻度順上位k個のキーワードの頻度順を考慮するので、k個のキーワードを区別して割り当てる割り当て方の組み合わせを用いて、確率P(n、k、t)を求めることができる。すなわち、正しい頻度順上位k個のキーワードをn個のクライアント2へ順次割り当てる組み合わせのうち、各クライアント2へ順次割り当てられるキーワードの個数がt個以下である割り当て方の組み合わせをg(n、k、t)とした場合、確率P(n、k、t)は(式4)に示すように定義される。
Further, when the probability P (n, k, t) is selected in order of frequency from the n × t keywords in the order of frequency, “k keywords in the order of frequency from the n × t keywords” are selected. May be determined as a probability of selecting (t−1) keywords from any computer in a combination of the number of keywords for each computer to be selected (probability calculation). Method (2)). In this case, since the frequency order of the top k keywords in the frequency order is taken into consideration, the probability P (n, k, t) can be obtained using a combination of assignment methods that distinguish and assign k keywords. That is, among the combinations that sequentially assign the top k keywords in the correct frequency order to the
(式4)において、動的計画法を用いてg(n、k、t)を算出することができる。(式5)は、動的計画法を用いてg(n、k、t)を算出する場合の漸化式である。 In (Expression 4), g (n, k, t) can be calculated using dynamic programming. (Formula 5) is a recurrence formula when g (n, k, t) is calculated using dynamic programming.
なお、確率P(n、k、t)を、「n個のコンピュータから頻度順上位k個のキーワードを選択する組み合わせを選んだ場合に、選んだ組み合わせにおいて、いずれのコンピュータからも多くともt個のキーワードを選択する」確率として求めても良い(確率算出方法(3))。正しい頻度順上位k個のキーワードをn個のクライアント2へ割り当てる場合に、各クライアント2へ割り当てられるキーワードの個数がt個以下である組み合わせg(n、k、t)を用いて、確率P(n、k、t)は(式6)に示すように定義される。なお、g(n、k、∞)は、tの制限がない場合の組み合わせの個数を示すため、nのk乗に等しい。
The probability P (n, k, t) is set to “when a combination that selects k keywords in order of frequency from n computers is selected, at most t from any computer in the selected combination. As a probability of “selecting a keyword” (probability calculation method (3)). When the top k keywords in the correct frequency order are assigned to
(式6)において、動的計画法を用いてg(n、k、t)を算出する場合の漸化式は(式5)と同様となる。 In (Expression 6), the recurrence formula when g (n, k, t) is calculated using dynamic programming is the same as (Expression 5).
図4は、本発明の実施の形態に係る頻度順キーワード抽出システムの確率P(n、k、t)の算出方法を説明するための模式図である。図4(a)は、n個のクライアントS1、S2、・・・、Snから頻度順上位t個ずつ取得したn×t個のキーワードを示している。 FIG. 4 is a schematic diagram for explaining a method of calculating the probability P (n, k, t) of the frequency-order keyword extraction system according to the embodiment of the present invention. FIG. 4A shows n × t keywords acquired from the n clients S1, S2,...
図4(b)は、図4(a)に示すn×t個のキーワードの中から、頻度順上位k個を選択した状態を示している。図4(b)のハッチング部分が、選択されたキーワードを示している。図4(b)の例では、クライアントS2から取得したキーワードが最も多いt個選択されており、この場合、すべてのクライアントから頻度順上位t個ずつキーワードを取得しないと、全体として頻度順上位k個のキーワードを正しく選択することができない。 FIG. 4B shows a state where the top k items in the order of frequency are selected from the n × t keywords shown in FIG. The hatched portion in FIG. 4B indicates the selected keyword. In the example of FIG. 4B, t keywords having the largest number of keywords acquired from the client S2 are selected. In this case, if the top t keywords in frequency order are not acquired from all clients, the top k in order of frequency as a whole. Keywords cannot be selected correctly.
図4(c)も、図4(a)に示すn×t個のキーワードの中から、頻度順上位k個を選択した状態を示している。図4(c)のハッチング部分が、選択されたキーワードを示している。図4(c)の例では、クライアントSnから取得したキーワードが最も多い(t−1)個選択されており、t個のキーワードが選択されたクライアントは存在しない。この場合は、全体として頻度順上位k個のキーワードを正しく選択することができる。 FIG. 4C also shows a state in which the top k items in the order of frequency are selected from the n × t keywords shown in FIG. The hatched portion in FIG. 4C indicates the selected keyword. In the example of FIG. 4C, (t−1) keywords having the largest number of keywords acquired from the client Sn are selected, and there are no clients for which t keywords have been selected. In this case, the top k keywords in order of frequency can be correctly selected as a whole.
確率算出方法(1)では、ハッチング部分の総数を、キーワードの頻度順序を区別することなく選択する。つまり、一のクライアントSiから選択されている限り、頻度順序が何位であろうと区別することはない。一方、確率算出方法(2)、(3)では、キーワードの頻度順序を区別して選択する。 In the probability calculation method (1), the total number of hatched portions is selected without distinguishing the keyword frequency order. That is, as long as it is selected from one client Si, it does not distinguish what the frequency order is. On the other hand, in the probability calculation methods (2) and (3), the keyword frequency order is distinguished and selected.
キーワードの頻度順序を区別せずに選択する場合、どのクライアントからも均等にキーワードが選択される場合とクライアントごとに選択されるキーワードの個数に偏りがある場合とを同じ重みで考慮することになる。k個のキーワードをクライアントへランダムに割り当てる場合、均等にキーワードが選択される可能性の方が高い。したがって、キーワードの頻度順序を区別せずに選択する確率算出方法(1)の方が、より大きくtの値を見積もることになる。 When selecting without distinguishing the frequency order of keywords, the case where keywords are selected equally from all clients and the case where the number of keywords selected for each client is biased are considered with the same weight. . When k keywords are randomly assigned to clients, there is a higher possibility that keywords will be selected equally. Therefore, the probability calculation method (1) in which the keyword frequency order is selected without distinction will estimate the value of t larger.
図2に戻って、キーワード取得個数推定部(推定手段)203は、算出した確率P(n、k、t)に基づいて、各クライアント2から頻度順上位のキーワードとして取得するキーワードの個数t(tは自然数、t<k)を推定する。具体的には、確率算出部202で算出した確率P(n、k、t)が、所定の閾値確率p以上であるtを推定する。
Returning to FIG. 2, the keyword acquisition number estimating unit (estimating means) 203 acquires the number t () of keywords to be acquired from each
キーワード取得部204は、各クライアント2から頻度順上位t個のキーワードを取得する。キーワード選択部205は、n個のクライアント2から取得したすべてのキーワードから頻度順上位k(kは自然数)個のキーワードを選択する。
The
結果通知部206は、選択したキーワードが正確であるか否かに関する情報をユーザに通知する。ユーザへの通知方法は特に限定されるものではなく、表示装置23に表示出力しても良いし、固定されたメッセージを所定のアドレスへメール送信しても良い。
The
具体的には、選択された頻度順上位k個のキーワードが、各クライアント2の頻度順上位(t−1)個から選択されていて、かつ各クライアント2において選択されたキーワードのうち最小の頻度とそのクライアント2のt番目のキーワードの頻度が異なる場合、結果通知部206は、選択結果が正確である旨を通知する。それ以外の場合、すなわちいずれかのクライアント2で頻度順上位t個の中からキーワードが選択されている場合、頻度順上位t個のキーワードのうち最も出現頻度が大きいキーワードの頻度よりも大きい頻度を有するキーワードについては、選択結果が正確である旨を通知する。
Specifically, the selected top k keywords in the frequency order are selected from the top (t−1) keywords in the order of frequency of each
図5は、本発明の実施の形態に係る情報処理装置1のCPU11の処理手順を示すフローチャートである。図5において、情報処理装置1のCPU11は、データ通信することが可能に接続してあるn(nは自然数)個のクライアント2に、互いに重なり合わないキーワードを割り当てる(ステップS501)。
FIG. 5 is a flowchart showing the processing procedure of the
CPU11は、各クライアント2に割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数)個のキーワードを選択する場合に、各クライアント2の頻度順上位のキーワードが頻度順上位k個となる確率P(n、k、t)を算出する(ステップS502)。確率P(n、k、t)の算出方法は上述した確率算出方法(1)乃至(3)のいずれかを用いる。
When the
CPU11は、算出した確率P(n、k、t)に基づいて、各クライアント2から頻度順上位のキーワードとして取得するキーワードの個数t(tは自然数、t<k)を推定する(ステップS503)。具体的には、確率算出部202で算出した確率P(n、k、t)が、所定の閾値確率p以上であるtを推定する。
Based on the calculated probability P (n, k, t), the
CPU11は、各クライアント2から頻度順上位t個のキーワードを取得する(ステップS504)。CPU11は、n個のクライアント2から取得したn×t個のキーワードから全体として頻度順上位k(kは自然数)個のキーワードを選択する(ステップS505)。
The
CPU11は、選択された頻度順上位k個のキーワードが、各クライアント2の頻度順上位(t−1)個から選択され、かつ各クライアント2において選択されたキーワードのうち最小の頻度とそのクライアント2のt番目のキーワードの頻度が異なっているか否かを判断する(ステップS506)。CPU11が、各クライアント2の頻度順上位(t−1)個から選択されており、かつ各クライアント2において選択されたキーワードのうち最小の頻度とそのクライアント2のt番目のキーワードの頻度が異なっていると判断した場合(ステップS506:YES)、CPU11は、選択結果が正確である旨を示すメッセージを表示出力する(ステップS507)。CPU11が、いずれかのクライアント2では、頻度順上位t個の中から選択されており、又は各クライアント2において選択されたキーワードのうち最小の頻度とそのクライアント2のt番目のキーワードの頻度が同じであると判断した場合(ステップS506:NO)、CPU11は、t番目のキーワードの頻度よりも大きい頻度を有するキーワードについては、選択結果が正確である旨を示すメッセージを表示出力する(ステップS508)。
The
上述した処理を換言すれば、頻度順上位k個のキーワードが、各クライアント2の頻度順上位(t−1)個から選択され、かつ各クライアント2において選択されたキーワードのうち最小の頻度とそのクライアント2のt番目のキーワードの頻度が異なっている場合には、選択された頻度順上位k個のキーワードが正確であるという事実を利用している。したがって、各クライアント2からキーワードの頻度順上位t(tは自然数)個のキーワードを取得して、全体として選択された頻度順上位k個のキーワードが、各クライアント2の頻度順上位(t−1)個から選択され、かつ各クライアント2において選択されたキーワードのうち最小の頻度とそのクライアント2のt番目のキーワードの頻度が異なっているか否かを判断することにより、正確にキーワードを選択したか否かを判断することができる。図6は、本発明の実施の形態に係る情報処理装置1の、確率を算出しない場合の機能ブロック図である。図6において、情報処理装置1のキーワード割当部601は、n(nは自然数)のクライアント2に、互いに重なり合わないキーワードを割り当てる。
In other words, the top k keywords in the frequency order are selected from the top (t−1) keywords in the frequency order of each
キーワード取得部602は、各クライアント2から頻度順上位t個のキーワードを取得する。判断部603は、各クライアント2に割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数、t<k)個のキーワードを選択する場合に、各クライアント2で頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であるか否かを判断する。
The
キーワード選択部604は、判断部603で各クライアント2で頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であると判断した場合、各クライアント2から取得したすべてのキーワードのうち、各クライアント2の頻度順上位(t−1)個のキーワードから全体として頻度順上位k個のキーワードを選択する。
When the
結果通知部605は、選択したキーワードを頻度順上位から順に表示装置23に表示出力する。
The
図7は、本発明の実施の形態に係る情報処理装置1のCPU11の、確率を算出しない場合の処理手順を示すフローチャートである。図7において、情報処理装置1のCPU11は、データ通信することが可能に接続してあるn(nは自然数)個のクライアント2に、互いに重なり合わないキーワードを割り当てる(ステップS701)。
FIG. 7 is a flowchart showing a processing procedure when the
CPU11は、各クライアント2から頻度順上位t個のキーワードを取得し(ステップS702)、各クライアント2に割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数、t<k)個のキーワードを選択する場合に、各クライアント2で頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアント2において選択されたキーワードのうち最小の頻度とそのクライアント2のt番目のキーワードの頻度が異なっているか否かを判断する(ステップS703)。
The
CPU11が、各クライアント2で頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアント2において選択されたキーワードのうち最小の頻度とそのクライアント2のt番目のキーワードの頻度が異なっていると判断した場合(ステップS703:YES)、CPU11は、各クライアント2から取得したすべてのキーワードのうち、各クライアント2の頻度順上位(t−1)個のキーワードから全体として頻度順上位k個のキーワードを選択する(ステップS704)。CPU11は、選択されたキーワードを頻度順上位から順に表示装置23に表示出力する(ステップS705)。
The number of keywords acquired by the
CPU11が、いずれかのクライアント2で頻度順上位として取得されたキーワードの個数がt個である、又は各クライアント2において選択されたキーワードのうち最小の頻度とそのクライアント2のt番目のキーワードの頻度が同じであると判断した場合(ステップS703:NO)、CPU11は、t番目のキーワードの頻度よりも大きい頻度を有するキーワードについては、選択結果が正確である旨を示すメッセージを表示出力する(ステップS706)。
The number of keywords acquired by the
上述した頻度順キーワード抽出システムを、いわゆるテキストマイニングにおける、文書データからの頻度順キーワードの抽出に適用する。例えば図1と同様の構成の頻度順キーワード抽出システムにおいて、n個のクライアント2をクライアントS1、S2、・・・、Snと区別しておく。そして、キーワードごとに周知の方法でハッシュ値を算出しておき、算出してあるハッシュ値をクライアント数n(nは自然数)で除算した剰余に1を加算した値を引数iとしてクライアントS1、S2、・・・、Snにキーワードを割り当てる。
The frequency order keyword extraction system described above is applied to the extraction of frequency order keywords from document data in so-called text mining. For example, in the frequency-order keyword extraction system having the same configuration as in FIG. 1,
ユーザは、頻度順上位k個を抽出するために、選択個数k及び所定の閾値確率pを指定する。図8は、選択個数k及び閾値確率pの指定を受け付ける画面の例示図である。図8の例では、選択個数kの指定を受け付ける選択個数受付領域81と、閾値確率pの指定を受け付ける確率指定領域82とを有している。指定を受け付けた状態で「検索」ボタン83の選択を受け付けることにより、頻度順上位k個のキーワードを抽出することができる。
The user designates the selected number k and a predetermined threshold probability p in order to extract the top k in order of frequency. FIG. 8 is a view showing an example of a screen for accepting designation of the selected number k and the threshold probability p. The example of FIG. 8 includes a selection
もちろん、指定を受け付けた選択個数k及び閾値確率pに応じて、P(n、k、t)>pを満たすtの値を、上述した確率算出方法(1)乃至(3)のいずれかを用いて事前に算出しておくことは言うまでもない。 Of course, the value of t satisfying P (n, k, t)> p is set to any one of the above probability calculation methods (1) to (3) according to the selected number k and the threshold probability p received. Needless to say, use and calculate in advance.
図9は、確率算出方法ごとのtの計算値の例を示す表である。例えばn=32、k=100である場合、確率90%以上で正しい頻度順上位k個のキーワードを選択することができるtの値は、確率算出方法(1)ではt=16であり、確率算出方法(2)及び(3)ではt=9である。また、確率95%以上で正しい頻度順上位k個のキーワードを選択することができるtの値は、確率算出方法(1)ではt=18であり、確率算出方法(2)及び(3)ではt=10である。いずれの場合もtの値は、k=100に比べて少ない。 FIG. 9 is a table showing an example of a calculated value of t for each probability calculation method. For example, when n = 32 and k = 100, the value of t that can select the top k keywords in the correct frequency order with a probability of 90% or more is t = 16 in the probability calculation method (1), and the probability In the calculation methods (2) and (3), t = 9. In addition, the value of t that can select the top k keywords in the correct frequency order with a probability of 95% or more is t = 18 in the probability calculation method (1), and in the probability calculation methods (2) and (3). t = 10. In either case, the value of t is smaller than k = 100.
図10は、n=32、p=90%である場合の頻度順上位k個のキーワードを選択する処理の実行時間(秒)を示す表である。図10では、k=100、1000、10000とした場合の実行時間を、それぞれ示している。「従来」とあるのは従来手法での実行時間を示し、「1」とあるのは確率算出方法(1)での実行時間を示している。図10からもわかるように、本実施の形態に係る頻度順キーワード抽出システムを用いることにより、演算処理速度は1.5倍から2.5倍高速化されている。 FIG. 10 is a table showing the execution time (seconds) of the process of selecting the top k keywords in order of frequency when n = 32 and p = 90%. FIG. 10 shows execution times when k = 100, 1000, and 10000, respectively. “Conventional” indicates the execution time in the conventional method, and “1” indicates the execution time in the probability calculation method (1). As can be seen from FIG. 10, by using the frequency order keyword extraction system according to the present embodiment, the calculation processing speed is increased from 1.5 times to 2.5 times.
以上のように本実施の形態によれば、頻度順上位k個のキーワードを求めるために、複数のクライアント2すべてにおいて頻度順上位k個のキーワードを求める必要がなく、k個より少ないt個のキーワードのみを求めれば良いので、各クライアント2での演算処理負荷を軽減することができるとともに、全体として頻度順上位k個のキーワードを求めるために各クライアント2で求める頻度順上位のキーワードの個数を絞り込むことができるので、検索結果のレスポンスタイムを大きく短縮することが可能となる。
As described above, according to the present embodiment, in order to obtain the top k keywords in the frequency order, it is not necessary to obtain the top k keywords in the frequency order in all of the plurality of
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨の範囲内であれば多種の変更、改良等が可能である。例えば、情報処理装置1を別個に設けるのではなく、クライアント2の内の1台を頻度順上位のキーワードを求める装置としても良い。
The present invention is not limited to the above-described embodiments, and various changes and improvements can be made within the scope of the present invention. For example, instead of providing the
1 情報処理装置
2 クライアント
11 CPU
12 メモリ
13 記憶装置
14 I/Oインタフェース
15 ビデオインタフェース
16 可搬型ディスクドライブ
17 通信インタフェース
18 内部バス
90 可搬型記録媒体
100 コンピュータプログラム
1
12
Claims (15)
前記装置は、
n(nは自然数)個のコンピュータに、互いに重なり合わないキーワードを割り当てるステップと、
各コンピュータに割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数)個のキーワードを選択する場合に、各コンピュータの頻度順上位のキーワードが頻度順上位k個となる確率P(n、k、t)を算出するステップと、
算出した確率P(n、k、t)に基づいて、各コンピュータから頻度順上位のキーワードとして取得するキーワードの個数t(tは自然数、t<k)を推定するステップと
を有し、
各コンピュータから頻度順上位t個のキーワードを取得して、取得したすべてのキーワードから全体として頻度順上位k個のキーワードを選択する方法。 It is a method that can be executed by a device that obtains keywords in order of frequency using a plurality of computers,
The device is
assigning non-overlapping keywords to n (n is a natural number) computers;
When a keyword with the highest frequency order is acquired from the keywords assigned to each computer and k keywords with the highest frequency order (k is a natural number) are selected as a whole from all the acquired keywords, Calculating a probability P (n, k, t) that the keyword is the top k in frequency order;
Based on the calculated probability P (n, k, t), estimating the number t of keywords (t is a natural number, t <k) to be acquired from each computer as the top keyword in the order of frequency, and
A method of acquiring the top t keywords in frequency order from each computer and selecting the top k keywords in order of frequency from all the acquired keywords.
前記装置は、
n(nは自然数)個のコンピュータに、互いに重なり合わないキーワードを割り当てるステップと、
各コンピュータから頻度順上位t(tは自然数)個のキーワードを取得するステップと、
各コンピュータに割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数、t<k)個のキーワードを選択する場合に、各コンピュータで頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアントにおいて選択されたキーワードのうち最小の頻度とそのクライアントのt番目のキーワードの頻度が異なるか否かを判断するステップと
を有し、
各コンピュータで頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアントにおいて選択されたキーワードのうち最小の頻度とそのクライアントのt番目のキーワードの頻度が異なると判断した場合、各コンピュータから取得したすべてのキーワードのうち、各コンピュータの頻度順上位(t−1)個のキーワードから全体として頻度順上位k個のキーワードを選択する方法。 It is a method that can be executed by a device that obtains keywords in order of frequency using a plurality of computers,
The device is
assigning non-overlapping keywords to n (n is a natural number) computers;
Obtaining t keywords (t is a natural number) in order of frequency from each computer;
When acquiring the top keywords in the order of frequency from the keywords assigned to each computer, and selecting all k keywords (k is a natural number, t <k) in order of frequency from all the acquired keywords, Whether or not the number of keywords acquired as the top keywords in the frequency order is (t-1) or less, and the minimum frequency among the keywords selected in each client is different from the frequency of the t-th keyword of the client A step of determining whether or not
The number of keywords acquired as high-order keywords in each computer is (t−1) or less, and the minimum frequency among the keywords selected in each client and the frequency of the t-th keyword of that client are A method of selecting the top k keywords in order of frequency from the top (t−1) keywords in order of frequency among all the keywords acquired from each computer when it is determined that they are different.
n(nは自然数)個のコンピュータに、互いに重なり合わないキーワードを割り当てるキーワード割当部と、
各コンピュータに割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数)個のキーワードを選択する場合に、各コンピュータの頻度順上位のキーワードが頻度順上位k個となる確率P(n、k、t)を算出する確率算出部と、
算出した確率P(n、k、t)に基づいて、各コンピュータから頻度順上位のキーワードとして取得するキーワードの個数t(tは自然数、t<k)を推定する推定部と
を備え、
各コンピュータから頻度順上位t個のキーワードを取得して、取得したすべてのキーワードから全体として頻度順上位k個のキーワードを選択する装置。 A device that uses a plurality of computers to obtain keywords in order of frequency,
a keyword assigning unit for assigning non-overlapping keywords to n (n is a natural number) computers;
When a keyword with the highest frequency order is acquired from the keywords assigned to each computer and k keywords with the highest frequency order (k is a natural number) are selected as a whole from all the acquired keywords, A probability calculating unit that calculates the probability P (n, k, t) that the keyword is the top k in frequency order;
An estimation unit that estimates the number of keywords t (t is a natural number, t <k) to be acquired from each computer as a top keyword in order of frequency based on the calculated probability P (n, k, t);
An apparatus that acquires the top t keywords in order of frequency from each computer, and selects the top k keywords in order of frequency from all the acquired keywords.
n(nは自然数)個のコンピュータに、互いに重なり合わないキーワードを割り当てるキーワード割当部と、
各コンピュータから頻度順上位t(tは自然数)個のキーワードを取得するキーワード取得部と、
各コンピュータに割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数、t<k)個のキーワードを選択する場合に、各コンピュータで頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアントにおいて選択されたキーワードのうち最小の頻度とそのクライアントのt番目のキーワードの頻度が異なるか否かを判断する判断部と
を備え、
各コンピュータで頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアントにおいて選択されたキーワードのうち最小の頻度とそのクライアントのt番目のキーワードの頻度が異なると判断した場合、各コンピュータから取得したすべてのキーワードのうち、各コンピュータの頻度順上位(t−1)個のキーワードから全体として頻度順上位k個のキーワードを選択する装置。 A device that uses a plurality of computers to obtain keywords in order of frequency,
a keyword assigning unit for assigning non-overlapping keywords to n (n is a natural number) computers;
A keyword acquisition unit that acquires the top t (t is a natural number) keywords in order of frequency from each computer;
When acquiring the top keywords in the order of frequency from the keywords assigned to each computer, and selecting all k keywords (k is a natural number, t <k) in order of frequency from all the acquired keywords, Whether or not the number of keywords acquired as the top keywords in the frequency order is (t-1) or less, and the minimum frequency among the keywords selected in each client is different from the frequency of the t-th keyword of the client And a determination unit for determining whether
The number of keywords acquired as high-order keywords in each computer is (t−1) or less, and the minimum frequency among the keywords selected in each client and the frequency of the t-th keyword of that client are An apparatus that selects k keywords as a whole in order of frequency from the top (t−1) keywords in order of frequency among all keywords acquired from each computer when it is determined that they are different.
前記装置を、
n(nは自然数)個のコンピュータに、互いに重なり合わないキーワードを割り当てるキーワード割当手段、
各コンピュータに割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数)個のキーワードを選択する場合に、各コンピュータの頻度順上位のキーワードが頻度順上位k個となる確率P(n、k、t)を算出する確率算出手段、
算出した確率P(n、k、t)に基づいて、各コンピュータから頻度順上位のキーワードとして取得するキーワードの個数t(tは自然数、t<k)を推定する推定手段、及び
各コンピュータから頻度順上位t個のキーワードを取得して、取得したすべてのキーワードから全体として頻度順上位k個のキーワードを選択する手段
として機能させるコンピュータプログラム。 A computer program that can be executed by a device that determines a keyword in order of frequency using a plurality of computers,
Said device,
keyword assigning means for assigning non-overlapping keywords to n (n is a natural number) computers;
When a keyword with the highest frequency order is acquired from the keywords assigned to each computer and k keywords with the highest frequency order (k is a natural number) are selected as a whole from all the acquired keywords, A probability calculating means for calculating a probability P (n, k, t) that the keyword has the top k in the frequency order;
Based on the calculated probability P (n, k, t), an estimation means for estimating the number t of keywords to be acquired from each computer as the top keyword in the order of frequency (t is a natural number, t <k), and the frequency from each computer A computer program that obtains the top t keywords in order and functions as means for selecting the top k keywords in order of frequency from all the obtained keywords.
前記装置を、
n(nは自然数)個のコンピュータに、互いに重なり合わないキーワードを割り当てるキーワード割当手段、
各コンピュータから頻度順上位t(tは自然数)個のキーワードを取得するキーワード取得手段、
各コンピュータに割り当てられたキーワードから頻度順上位のキーワードを取得し、取得したすべてのキーワードから全体として頻度順上位k(kは自然数、t<k)個のキーワードを選択する場合に、各コンピュータで頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアントにおいて選択されたキーワードのうち最小の頻度とそのクライアントのt番目のキーワードの頻度が異なるか否かを判断する判断手段、及び
各コンピュータで頻度順上位のキーワードとして取得されたキーワードの個数が(t−1)個以下であり、かつ各クライアントにおいて選択されたキーワードのうち最小の頻度とそのクライアントのt番目のキーワードの頻度が異なると判断した場合、各コンピュータから取得したすべてのキーワードのうち、各コンピュータの頻度順上位(t−1)個のキーワードから全体として頻度順上位k個のキーワードを選択する手段
として機能させるコンピュータプログラム。 A computer program that can be executed by a device that determines a keyword in order of frequency using a plurality of computers,
Said device,
keyword assigning means for assigning non-overlapping keywords to n (n is a natural number) computers;
Keyword acquisition means for acquiring t keywords (t is a natural number) in order of frequency from each computer;
When acquiring the top keywords in the order of frequency from the keywords assigned to each computer, and selecting all k keywords (k is a natural number, t <k) in order of frequency from all the acquired keywords, Whether or not the number of keywords acquired as the top keywords in the frequency order is (t-1) or less, and the minimum frequency among the keywords selected in each client is different from the frequency of the t-th keyword of the client A determination means for determining whether or not the number of keywords acquired as top-ranked keywords in each computer is (t-1) or less, and the minimum frequency among the keywords selected in each client and the client If it is determined that the frequency of the t th keyword is different from each computer, A computer program that functions as means for selecting, from all acquired keywords, the top k keywords in order of frequency from the top (t-1) keywords in order of frequency of each computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011218226A JP2013077272A (en) | 2011-09-30 | 2011-09-30 | Method, apparatus and computer program for obtaining keyword appearance frequency ranking |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011218226A JP2013077272A (en) | 2011-09-30 | 2011-09-30 | Method, apparatus and computer program for obtaining keyword appearance frequency ranking |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013077272A true JP2013077272A (en) | 2013-04-25 |
Family
ID=48480661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011218226A Pending JP2013077272A (en) | 2011-09-30 | 2011-09-30 | Method, apparatus and computer program for obtaining keyword appearance frequency ranking |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013077272A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020181367A (en) * | 2019-04-25 | 2020-11-05 | みずほ情報総研株式会社 | Relevant word dictionary creating system, relevant word dictionary creating method and relevant word dictionary creating program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4172801B2 (en) * | 2005-12-02 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Efficient system and method for retrieving keywords from text |
-
2011
- 2011-09-30 JP JP2011218226A patent/JP2013077272A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4172801B2 (en) * | 2005-12-02 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Efficient system and method for retrieving keywords from text |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020181367A (en) * | 2019-04-25 | 2020-11-05 | みずほ情報総研株式会社 | Relevant word dictionary creating system, relevant word dictionary creating method and relevant word dictionary creating program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2014109388A1 (en) | Text mining device, text mining system, text mining method, and recording medium | |
JP6442918B2 (en) | Expert search device, expert search method and expert search program | |
US20150269161A1 (en) | Similarity and ranking of databases based on database metadata | |
JP2018518764A (en) | Object search method, apparatus and server | |
JP6696568B2 (en) | Item recommendation method, item recommendation program and item recommendation device | |
JP2019503014A (en) | Method and apparatus for processing user behavior data | |
JP6713136B2 (en) | Causal sentence analysis device, causal sentence analysis system, program, and causal sentence analysis method | |
CN103984754A (en) | Search system and search method | |
US20150221014A1 (en) | Clustered browse history | |
US10339559B2 (en) | Associating social comments with individual assets used in a campaign | |
JP2015108983A (en) | Item recommendation device, item recommendation method and item recommendation program | |
US10331739B2 (en) | Video search apparatus, video search method, and non-transitory computer readable medium | |
JP2013077272A (en) | Method, apparatus and computer program for obtaining keyword appearance frequency ranking | |
JP5718866B2 (en) | ICT service environmental impact assessment system and method | |
JP5528388B2 (en) | Information recommendation apparatus, method and program | |
JP6034584B2 (en) | Patent search support device, patent search support method, and program | |
US10372694B2 (en) | Structured information differentiation in naming | |
JP2006338508A (en) | Relevant content searching device and method | |
JPWO2012101700A1 (en) | UI (UserInterface) creation support apparatus, UI creation support method, and program | |
US10878049B2 (en) | Search apparatus and search system | |
JP6955161B2 (en) | Information processing program, information processing device and information processing method | |
JP6644572B2 (en) | Content presentation device, method and program | |
JP5644558B2 (en) | Document relevance calculation device | |
WO2024195099A1 (en) | Prediction device, prediction method, and prediction program | |
JP2012141905A (en) | Document search device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140507 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150127 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20150130 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150707 |