JP5605730B2 - Extraction apparatus, extraction method and extraction program - Google Patents
Extraction apparatus, extraction method and extraction program Download PDFInfo
- Publication number
- JP5605730B2 JP5605730B2 JP2011032415A JP2011032415A JP5605730B2 JP 5605730 B2 JP5605730 B2 JP 5605730B2 JP 2011032415 A JP2011032415 A JP 2011032415A JP 2011032415 A JP2011032415 A JP 2011032415A JP 5605730 B2 JP5605730 B2 JP 5605730B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- information indicating
- word
- degree
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、抽出装置、抽出方法および抽出プログラムに関する。 The present invention relates to an extraction apparatus, an extraction method, and an extraction program.
現在、既存の単語を組み合わせることによって作られた造語を新商品の名前に用いることが行われている。その造語が流行するかどうかは、その造語を構成する単語の組み合わせによって変わってくるが、世の中には用いる単語の組み合わせの候補がたくさんあるので、どの単語を組み合わせればよいのかは一見しただけでは分からない。また、あらゆる単語の組み合わせに対して造語が流行するか否かを検証することは難しい。 Currently, coined words created by combining existing words are used as names for new products. Whether the coined word is prevalent or not depends on the combination of words that make up the coined word, but there are many word combinations that can be used in the world. I do not understand. Also, it is difficult to verify whether coined words are popular for all word combinations.
その問題に対して、非特許文献1では、組み合わせ評価システムがWEBページ上におけるキーワードの登場回数から、単語の組み合わせの斬新さと大衆に受け入られる可能性とを推定し、それによって組み合わせの有効度を定めることが示されている。 To deal with this problem, in Non-Patent Document 1, the combination evaluation system estimates the novelty of a combination of words and the possibility of being accepted by the public from the number of appearances of the keyword on the WEB page, and thereby the effectiveness of the combination It is shown to determine.
しかしながら、非特許文献1における組み合わせ評価システムは、WEBページなどの文章に活字として掲載されているキーワードを抽出することはできるが、その文章には活字として掲載されていないが、その文章の一部あるいは全体から捉えられる概念を抽出することができず、意外性のある概念の組み合わせを提供できないという問題があった。 However, although the combination evaluation system in Non-Patent Document 1 can extract a keyword that is listed as a type in a text such as a WEB page, it is not listed as a type in the text, but part of the text Or, there is a problem that it is impossible to extract a concept that can be captured from the whole, and it is impossible to provide an unexpected combination of concepts.
そこで本発明は、上記問題に鑑みてなされたものであり、意外性のある概念の組み合わせを提供することを可能とする抽出装置、抽出方法および抽出プログラムを提供することを課題とする。 Therefore, the present invention has been made in view of the above problems, and an object thereof is to provide an extraction apparatus, an extraction method, and an extraction program that can provide a combination of unexpected concepts.
上記の課題を解決するために、本発明の一態様である抽出装置は、単語を示す情報と該単語がクラスタに所属している程度である所属度を示す情報とが関連付けられ、前記単語を示す情報と該単語の位置を示す情報とが関連付けられて記憶されているクラスタ記憶部と、前記クラスタ記憶部から所属度が所定値以上の単語を示す情報に関連付けられている単語の位置の情報を3つ以上のクラスタ分読み出し、該単語の位置の情報に基づいて、対象となる2つのクラスタ以外の第3のクラスタを経由した該2つのクラスタ間の間接関連度と、該2つのクラスタを組み合わせることの意外度とを乗じることにより、発見性指数を算出する発見性指数算出部と、前記クラスタ記憶部から前記クラスタ毎に所属度を示す情報を読み出し、該読み出された所属度を示す情報と、自装置の外部から入力されたターゲットの特性を示す情報とに基づいて、前記対象となる2つのクラスタおよび前記第3のクラスタとターゲットとの関連性を示すターゲット関連性指数を算出するターゲット関連性指数算出部と、前記算出された発見性指数と前記ターゲット関連性指数とに基づいて、前記クラスタの組み合わせを抽出するクラスタ組抽出部と、を備えることを特徴とする。
In order to solve the above problem, an extraction device according to an aspect of the present invention relates to information indicating a word and information indicating an affiliation degree to which the word belongs to a cluster. Cluster storage unit in which information indicating and information indicating the position of the word are stored in association with each other, and information on the position of the word associated with information indicating a word having an affiliation degree equal to or greater than a predetermined value from the
上記抽出装置は、所定の期間毎に、前記単語を示す情報と該単語の重要度を示す情報とが関連付けられて記憶されている重要度記憶部と、前記重要度記憶部から所定の期間毎に前記単語の重要度を示す情報を読み出し、前記クラスタ記憶部からクラスタ毎に前記所属度を示す情報を読み出し、該単語の重要度を示す情報と該所属度を示す情報とに基づいて、所定の期間毎に各クラスタの活性化を予測する活性化予測部を更に備え、前記クラスタ組抽出部は、前記活性化予測部による予測により前記クラスタの組み合わせのうち少なくとも1つのクラスタの活性化が予測された場合、前記発見性指数とターゲット関連性指数とに基づいて、前記クラスタの組み合わせを抽出することを特徴とするものであってもよい。 The extraction device includes, for each predetermined period, information indicating the word and information indicating the importance of the word in association with each other, and an importance storage unit that stores the associated information from the importance storage unit for each predetermined period. Information indicating the degree of importance of the word, reading information indicating the degree of belonging for each cluster from the cluster storage unit, and based on information indicating the degree of importance of the word and information indicating the degree of belonging An activation prediction unit that predicts activation of each cluster for each period of time, and the cluster set extraction unit predicts activation of at least one cluster of the cluster combinations by prediction by the activation prediction unit If so, the combination of the clusters may be extracted based on the heuristic index and the target relevance index.
上記抽出装置の前記活性化予測部は、所定の期間毎に、単語が所定のクラスタへ所属している所属度を示す情報と、前記重要度記憶部から読み出された該期間における前記単語の重要度を示す情報とに基づいて、該クラスタの活性度を算出する活性度算出部と、前記算出された活性度に基づき、各クラスタの活性度の上昇が期待される度合いである活性度上昇期待値を算出する活性度上昇期待値算出部と、を備え、前記算出された活性度と、前記算出された活性度上昇期待値とに基づいて、前記クラスタの活性化を予測することを特徴とするものであってもよい。 The activation prediction unit of the extraction apparatus includes, for each predetermined period, information indicating the degree of affiliation that a word belongs to a predetermined cluster, and the word in the period read from the importance storage unit. An activity level calculation unit that calculates the activity level of the cluster based on the information indicating the importance level, and an activity level increase that is an expected increase in the activity level of each cluster based on the calculated activity level An activity increase expected value calculation unit for calculating an expected value, and predicting activation of the cluster based on the calculated activity and the calculated activity increase expected value It may be.
上記抽出装置の前記発見性指数は、前記間接関連度と前記意外度が高くなるほど高くなり、前記クラスタ組抽出部は、前記発見性指数と前記ターゲット関連性指数との重み付き和に基づいて、前記クラスタの組み合わせを抽出することを特徴とするものであってもよい。 The heuristic index of the extraction device becomes higher as the indirect relevance and the unexpectedness are higher, and the cluster set extraction unit is based on a weighted sum of the heuristic index and the target relevance index, A combination of the clusters may be extracted.
本発明の一態様である抽出方法は、単語を示す情報と該単語がクラスタに所属している程度である所属度を示す情報とが関連付けられ、前記単語を示す情報と該単語の位置を示す情報とが関連付けられて記憶されているクラスタ記憶部を備える抽出装置が実行する抽出方法であって、前記クラスタ記憶部から所属度が所定値以上の単語を示す情報に関連付けられている単語の位置の情報を3つ以上のクラスタ分読み出し、該単語の位置の情報に基づいて、対象となる2つのクラスタ以外の第3のクラスタを経由した該2つのクラスタ間の間接関連度と、該2つのクラスタを組み合わせることの意外度とを乗じることにより、発見性指数を算出する発見性指数算出手順と、前記クラスタ記憶部から前記クラスタ毎に所属度を示す情報を読み出し、該読み出された所属度を示す情報と、自装置の外部から入力されたターゲットの特性を示す情報とに基づいて、前記対象となる2つのクラスタおよび前記第3のクラスタとターゲットとの関連性を示すターゲット関連性指数を算出するターゲット関連性指数算出手順と、前記算出された発見性指数と前記ターゲット関連性指数とに基づいて、前記クラスタの組み合わせを抽出するクラスタ組抽出手順と、を有することを特徴とする。 In the extraction method according to one aspect of the present invention, information indicating a word is associated with information indicating a degree of belonging to which the word belongs to a cluster, and the information indicating the word and the position of the word are indicated A position of a word associated with information indicating a word having an affiliation degree equal to or greater than a predetermined value from the cluster storage unit, which is an extraction method executed by an extraction apparatus including a cluster storage unit stored in association with information Information for three or more clusters, and based on the information on the position of the word, the degree of indirect association between the two clusters via a third cluster other than the two target clusters, and the two by multiplying the surprising degree of combining clusters, reading and finding index calculation step of calculating a discovery index information indicating the appertaining to each of the clusters from the cluster storage section Based on the information indicating the degree of belonging that has been read and information indicating the characteristics of the target input from the outside of the device, the relevance between the two target clusters and the third cluster and the target And a target relevance index calculation procedure for calculating a target relevance index indicating a cluster combination extraction procedure for extracting a combination of the clusters based on the calculated heuristic index and the target relevance index. It is characterized by that.
本発明の一態様である抽出プログラムは、単語を示す情報と該単語がクラスタに所属している程度である所属度を示す情報とが関連付けられ、前記単語を示す情報と該単語の位置を示す情報とが関連付けられて記憶されているクラスタ記憶部を備える抽出装置のコンピュータに、前記クラスタ記憶部から所属度が所定値以上の単語を示す情報に関連付けられている単語の位置の情報を3つ以上のクラスタ分読み出し、該単語の位置の情報に基づいて、対象となる2つのクラスタ以外の第3のクラスタを経由した該2つのクラスタ間の間接関連度と、該2つのクラスタを組み合わせることの意外度とを乗じることにより、発見性指数を算出する発見性指数算出ステップと、前記クラスタ記憶部から前記クラスタ毎に所属度を示す情報を読み出し、該読み出された所属度を示す情報と、自装置の外部から入力されたターゲットの特性を示す情報とに基づいて、前記対象となる2つのクラスタおよび前記第3のクラスタとターゲットとの関連性を示すターゲット関連性指数を算出するターゲット関連性指数算出ステップと、前記算出された発見性指数と前記ターゲット関連性指数とに基づいて、前記クラスタの組み合わせを抽出するクラスタ組抽出ステップと、を実行させるための抽出プログラムである。 An extraction program according to an aspect of the present invention relates to information indicating a word and information indicating an affiliation degree to which the word belongs to a cluster, and indicates the information indicating the word and the position of the word Information on the position of a word associated with information indicating a word having an affiliation degree equal to or greater than a predetermined value from the cluster storage unit is stored in a computer of an extraction apparatus including a cluster storage unit stored in association with information. Based on the information of the above-mentioned cluster reading and the position of the word, the indirect association degree between the two clusters via the third cluster other than the two target clusters can be combined with the two clusters. by multiplying the surprising degree, reading and finding index calculation step of calculating a discovery index information indicating the appertaining to each of the clusters from the cluster storage section Based on the information indicating the degree of belonging that has been read and information indicating the characteristics of the target input from the outside of the device, the relevance between the two target clusters and the third cluster and the target A target relevance index calculating step for calculating a target relevance index indicating a cluster, and a cluster set extraction step for extracting a combination of the clusters based on the calculated heuristic index and the target relevance index This is an extraction program.
本発明によれば、意外性のある概念の組み合わせを提供することができる。 According to the present invention, an unexpected combination of concepts can be provided.
以下、本発明の実施形態について、図面を参照して詳細に説明する。まず、本発明の実施形態における抽出装置100の概要について説明する。抽出装置100は、流行語の重要要素である流行に乗っていることと、新しい驚きがあることとを両立する概念を、その概念を提供する対象であるターゲット(人)の特性と関連性がある、複数の概念を組み合わせる事によって生成する。これにより、抽出装置100は、ターゲットの特性に応じて、世間で流行している概念であって、ターゲットにとって意外性がある概念(ヒットコンセプト)を提示することができる。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. First, the outline | summary of the
ここで、概念は、データに出現する語の集合として表される。その特殊な場合として1語による概念も存在する。
組合せ要素となる概念として、2つの概念C1、C2をつなぐ役目をする概念Cnが存在する。抽出装置100は、C1、C2、Cnそれぞれの概念を、新聞やウェブ上の時系列データなどから、流行要因(ヒット要因)として定められた特徴を測る測度を測定することで抽出する。
Here, the concept is expressed as a set of words appearing in the data. As a special case, there is a one word concept.
As a concept that becomes a combination element, there is a concept Cn that serves to connect the two concepts C1 and C2. The
抽出装置100は、概念C1と概念C2の直接の関連度は低いが、概念Cnを経由したC1−Cn−C2の間接関連度は高くなる組合せを抽出する。例えば、抽出装置100は、ターゲットがゴルフクラブ(C1)と関連がある所定の雑誌の読者だとすると、概念C1、概念Cn、概念C2の組み合わせとして、ゴルフクラブ(C1)、口紅(C2)、Cn(プレゼント)を抽出する。一見、ゴルフクラブと口紅の関連度は低いが、プレゼントという概念Cnを経由すると両者の間接関連度は高くなるので、ゴルフクラブ(C1)と口紅(C2)の組み合わせを抽出する価値は高い。
The
さらに、抽出装置100は、それら概念が対象とする期間において活性化傾向にあることと、それらの概念の少なくとも1つがターゲットの特性と関連があることも概念の抽出の条件とする。例えば、クリスマス時期において、プレゼントという概念の活性化傾向は強くなり、ターゲットとしての所定の雑誌の読者にとってゴルフクラブの関連度は高い。
Furthermore, the
抽出装置100は、上記概念C1、C2、Cnの組合せを、ターゲットにとって目新しい概念を示す情報とし出力する。これにより、抽出装置100は、ターゲットに対して、ターゲットと関連している概念(例えば、概念C1)と、接続概念Cnを介して関連している概念C2を示す情報を提供することができる。これにより、例えば、ターゲットであるゴルフクラブ(概念C1)と関連している所定の雑誌の読者に対して、クリスマス時期の流行概念(ヒットコンセプト)として、プレゼント(概念Cn)のための口紅(概念C2)特集を提供することができる。
The
図1は、本発明の実施形態における抽出装置100のブロック構成図である。抽出装置100は、重要度算出部101と、重要度記憶部102と、クラスタ生成部103と、クラスタ記憶部104と、発見性指数算出部110と、ターゲット関連性指数算出部114と、活性化予測部120と、クラスタ組抽出部130とを備える。
また、発見性指数算出部110は、間接関連度算出部111と、意外度算出部112と、積算部113とを備える。活性化予測部120は、活性度算出部121と、相対力指数算出部(活性度上昇期待値算出部)122とを備える。
FIG. 1 is a block configuration diagram of an
The heuristic
重要度算出部101は、自装置の外部から入力された記事集合Dを受け付ける。ここで、入力される記事集合Dは新聞のような世相を表すドキュメントや雑誌のような市場の特性を表すドキュメントの時系列データである。そして、重要度算出部101は、記事集合Dから所定期間のドキュメントを一区切りとし、それを時系列順にならべたものを生成する。ここで、一区切りのドキュメントを1つのドキュメント、全期間のドキュメントを全ドキュメントと称する。
The
重要度算出部101は、各期間における単語の重要度を示す情報を算出する。具体的には、例えば、重要度算出部101は、期間毎にドキュメント中に注目語が出現した頻度tfを、当該ドキュメント中の総単語数で割ることにより、各期間における各語のtf−idf値を算出する。ここで、tf−idf値とは、情報検索で一般的に語の重要度として使用されている指標である。
The
重要度算出部101は、このtf−idf値を事前に定められた語順に並べたものであるワードベクトルを当該所定期間毎に算出する。このワードベクトルは、各語のtf−idf値のリストであり、その期間の特徴を表している。重要度算出部101は、算出したワードベクトルを示す情報を該単語と関連付けて、期間毎に重要度記憶部102のワードベクトルテーブルT1に記憶させる。
The
図2は、重要度記憶部102に記憶されているワードベクトルテーブルT1の一例である。同図において、上記所定期間を1日と定め、1日毎の単語のtf−idf値が予め決められた単語の順番で示されている。また、各列はワードベクトル(W_1、W_2、W_3、…、W_30)を表している。
このように、このワードベクトルを時系列順に並べることによって、時間順に所定期間毎の記事の特徴が示される。
FIG. 2 is an example of the word vector table T1 stored in the
In this way, by arranging the word vectors in time series order, the feature of the article for each predetermined period is shown in time order.
図1に戻って、重要度算出部101は、ワードベクトルの情報の集合(以下、ワードベクトル集合と称する)をクラスタ生成部103に出力する。
クラスタ生成部103は、重要度算出部101から入力されたワードベクトル集合を用いて、単語を所定のまとまりであるクラスタに分類し、クラスタ毎にラベルを付与する。
Returning to FIG. 1, the
The
本実施形態では、概念は何らかの共通性や関連性によって類似の語の集合で表されると仮定する。ここで言う集合とは、その集合の要素であるかどうかの所属度が0または1で決まる通常の集合の場合も、要素の所属度を0から1までの間の任意の値で表すファジィ集合の場合の、両方の可能性がある。 In the present embodiment, it is assumed that the concept is represented by a set of similar words due to some commonality or relationship. The set mentioned here is a fuzzy set that represents the affiliation of an element by an arbitrary value between 0 and 1 even in the case of a normal set in which the affiliation of whether or not it is an element of the set is 0 or 1. In the case of both.
そこで、クラスタ生成部103は、所定のクラスタリング方法に従って、記事集合Dに出現する単語をクラスタリングする。通常1つのクラスタには数万の単語が含まれ、それぞれの単語はクラスタに所属する値である所属度Mem C(w)を有する。ここで、所属度Mem C(w)は、単語wがクラスタCに所属する値を表している。この値は、クラスタが対応している概念に所属する程度を意味する。
Therefore, the
クラスタリングにはすでに様々な手法が提案されているが、クラスタ生成部103は、
一例として、k−means法によって、記事集合Dに出現する単語をクラスタリングする。具体的には、クラスタ生成部103は、下記式(1)で表される評価値を最小化するクラスタを算出する。ここで、kは事前に与えられるものとする。
Various methods have already been proposed for clustering, but the
As an example, words appearing in the article set D are clustered by the k-means method. Specifically, the
但し、以下の条件式(2)を満たすものとする。 However, the following conditional expression (2) is satisfied.
ここで、xiはi番目の単語データ(iは1からIまでの整数)で、xi=(xi1,xi2)、Kはクラスタ数、vkはk番目のクラスタの重心(kは1からKまでの整数)で、vk=(vk1,vk2)、gikはi番目のデータのk番目のクラスタへの所属度である。 Here, x i is the i-th word data (i is an integer from 1 to I), x i = (x i1 , x i2 ), K is the number of clusters, and v k is the centroid of the k-th cluster (k Is an integer from 1 to K), and v k = (v k1 , v k2 ), g ik is the degree of affiliation of the i-th data to the k-th cluster.
なお、クラスタ生成部103は、k−means法を用いたがこれに限らず、fuzzy c−means法を用いてもよい。その場合、具体的には、クラスタ生成部103は、下記式(3)で表される評価値を最小化するクラスタを算出する。ここで、kは事前に与えられるものとする。
The
但し、以下の条件式(4)を満たすものとする。 However, the following conditional expression (4) is satisfied.
ここで、xiはi番目の単語データ(iは1からIまでの整数)で、xi=(xi1,xi2)、Kはクラスタ数、vkはk番目のクラスタの重心(kは1からKまでの整数)で、vi=(vi1,vi2)、gikはi番目のデータのk番目のクラスタへの所属度である。
このように、クラスタ生成部103は、k−means法、fuzzy c−means法のいずれを用いても、要素毎にクラスタに所属する所属度を算出する。
Here, x i is the i-th word data (i is an integer from 1 to I), x i = (x i1 , x i2 ), K is the number of clusters, and v k is the centroid of the k-th cluster (k Is an integer from 1 to K), and v i = (v i1 , v i2 ), and g ik is the degree of affiliation of the i-th data to the k-th cluster.
As described above, the
クラスタ生成部103は、得られたクラスタ1つずつに1つの概念を割り当てるためにラベルを付与する。具体的には、クラスタ生成部103は、クラスタ重心に最も近い語をそのクラスタの代表として、そのクラスタのラベルとする。なお、クラスタ生成部103は、クラスタ中の最大の所属度を持つ語をそのクラスタの代表としてそのクラスタのラベルとしてもよい。
The
図3は、クラスタ生成部103による処理を説明するための図である。図3(a)は、クラスタ生成部103によって生成されるクラスタを説明するための図である。同図において、向かって左側に記事集合Dが示されている。向かって右側には、xyの2次元平面上にクラスタの1例が示されている。
FIG. 3 is a diagram for explaining processing by the
その2次元平面上で、クラスタの各要素である各単語は、×印で示されている。3つのクラスタC_1、C_2、C_3が示されており、各クラスタは円内の×印で示された単語を含むものとする。クラスタC_1は農産物のラベルが付与されたクラスタであり、その要素にはprocessorとorangeを含む。一方、クラスタC_2はコンピュータのラベルが付与されたクラスタであり、要素にはprocessor、memoryを含む。すなわち、processorは、食品加工機(フードプロセッサ)という意味でクラスタC_1に所属し、コンピュータのプロセッサの意味でクラスタC_2に所属している。 On the two-dimensional plane, each word that is each element of the cluster is indicated by a cross. Three clusters C_1, C_2, and C_3 are shown, and each cluster includes a word indicated by a cross in the circle. The cluster C_1 is a cluster to which the label of the agricultural product is given, and its elements include processor and orange. On the other hand, the cluster C_2 is a cluster to which a computer label is assigned, and the elements include processor and memory. That is, the processor belongs to the cluster C_1 in the sense of a food processing machine (food processor), and belongs to the cluster C_2 in the sense of a computer processor.
クラスタC_3は脳のラベルが付与されたクラスタであり、要素にはmemoryを含む。すなわち、memoryは、コンピュータのメモリという意味でクラスタC_2に所属し、脳の記憶という意味でクラスタC_3に所属している。 The cluster C_3 is a cluster to which a brain label is assigned, and the element includes memory. In other words, memory belongs to cluster C_2 in the sense of computer memory, and belongs to cluster C_3 in the sense of brain memory.
図3(b)は、クラスタ記憶部104に記憶されている概念テーブルT2の1例である。概念テーブルT2には、図3(a)に示されたクラスタを識別する識別情報C_i(iは正の整数)と、図3(a)に示されたクラスタ毎に付与されたラベルを示す情報とが関連付けられている。
FIG. 3B is an example of the concept table T <b> 2 stored in the
図3(c)は、クラスタ記憶部104に記憶されている所属度テーブルT3の1例である。所属度テーブルT3には、図3(a)に示された単語を示す情報と、該単語がクラスタに所属している程度である所属度を示す情報とが該クラスタを識別する識別情報C_i毎に関連付けられている。
FIG. 3C is an example of the affiliation
図3(d)は、クラスタ記憶部104に記憶されている座標テーブルT4の1例である。座標テーブルT4には、図3(a)に示された単語を示す情報と、該単語の位置を示す情報である座標を示す情報とが関連付けられている。
FIG. 3D is an example of a coordinate table T4 stored in the
図1に戻って、クラスタ生成部103は、クラスタ識別情報C_i(これ以降、iはクラスタのインデックスを表す1からnまでの正の整数)と、クラスタ毎に付与されたラベルを示す情報とを関連付けてクラスタ記憶部104に記憶させる。また、クラスタ生成部103は、単語を示す情報と、該単語がクラスタに所属している程度である所属度を示す情報とを該クラスタを識別する識別情報C_i毎に関連付けてクラスタ記憶部104に記憶させる。また、クラスタ生成部103は、クラスタ記憶部104に、単語を示す情報と当該単語の位置を示す情報とを関連付けて記憶させる。
Returning to FIG. 1, the
またクラスタ記憶部104には、図3(b)に示されたように、クラスタ生成部103による処理の結果、クラスタを識別する識別情報C_iと、クラスタ毎に付与されたラベルを示す情報とが関連付けられて記憶されている。
またクラスタ記憶部104には、図3(c)に示されたように、クラスタ生成部103による処理の結果、単語を示す情報と該単語がクラスタに所属している程度である所属度を示す情報とが該クラスタ毎に関連付けられて記憶されている。
Further, as shown in FIG. 3B, the
Further, as shown in FIG. 3C, the
クラスタ記憶部104には、クラスタ生成部103による処理の結果、図3(d)に示されるように、単語を示す情報と、当該単語の位置を示す情報とが関連付けられて記憶されている。ここで、例えば、クラスタ生成部103によるクラスタリングにより2次元平面上に、各単語の位置が割り当てられている場合、当該各単語の位置を示す情報は、2次元平面上における座標を示す情報である。
As a result of processing by the
発見性指数算出部110は、クラスタ記憶部104から異なるクラスタに関連付けられている所属度を示す情報を所定の数(例えば、3つ)のクラスタ分読み出し、当該読み出された所属度を示す情報に基づいて、対象となる2つのクラスタ以外の第3のクラスタを経由した当該2つのクラスタ間の関連度と、該2つのクラスタを組み合わせことの意外度とを反映する発見性指数を算出する。
ここで、発見性指数は2つのクラスタ同士の直接の関連性が低くなるほど高くなり、該2つのクラスタが残りの第3のクラスタと関連性が高くなるほど高くなる。
The heuristic
Here, the heuristic index increases as the direct relationship between the two clusters decreases, and increases as the relationship between the two clusters and the remaining third cluster increases.
間接関連度算出部111は、クラスタ記憶部104から所属度が所定値以上の単語を示す情報に関連付けられている単語の位置の情報を3つ以上のクラスタ分読み出し、該単語の位置の情報に基づいて、対象となる2つのクラスタ以外の第3のクラスタを経由した該2つのクラスタ間の間接関連度を算出する。一例として、間接関連度算出部111は、対象となる2つのクラスタ以外の第3のクラスタを経由したクラスタ間の関連度のうち最大となる最大間接関連度MIRを算出する。
The indirect degree-of-
具体的には、例えば、間接関連度算出部111は、クラスタC_iとクラスタC_j(これ以降、jはクラスタのインデックスを表す1からnまでの整数)が、接続クラスタCNを経由して関連している程度を示す間接関連度のうち、接続クラスタCNをC_1からC_nまで変化させながら間接関連度を算出し、算出されたn個の間接関連度のうち最大となる最大間接関連度MIRを、下記式(5)を用いて算出する。ここで、接続クラスタCNは、C_1からC_Nまでのクラスタを取りうる。
Specifically, for example, the indirect
MIR(C_i,C_j)=MAXCN{A(C_i,CN)×A(CN,C_j)} (5) MIR (C_i, C_j) = MAX CN {A (C_i, CN) × A (CN, C_j)} (5)
ここで、MAXCNは、引数である右辺の間接関連度が最大となる接続クラスタCNを抽出し、そのときの引数の値を出力する関数で、Aは第1の引数と第2の引数の関連度を算出する関数である。
なお、間接関連度算出部111は、クラスタC_iとクラスタC_jが、接続クラスタCNを経由して関連している程度を示す最大間接関連度MIRを、下記式(6)を用いて算出してもよい。
Here, MAX CN is a function that extracts the connection cluster CN that maximizes the indirect relevance of the right side that is an argument, and outputs the value of the argument at that time. A is the first argument and the second argument. It is a function for calculating relevance.
The indirect
MIR(C_i,C_j)=MAXCN{A(C_i,CN)+A(CN,C_j)} (6) MIR (C_i, C_j) = MAX CN {A (C_i, CN) + A (CN, C_j)} (6)
間接関連度算出部111は、式(5)または式(6)の中の関連度Aを、コサイン類似度を用いて算出する。
The indirect
一例として、間接関連度算出部111がコサイン類似度を用いて関連度Aを算出する方法について説明する。
ベクトルxは原点からクラスタC_iの重心へのベクトル、ベクトルyを原点からクラスタC_jの重心へのベクトルである。例えば、間接関連度算出部111は、以下の式(7)に従って、関連度Aを算出する。
As an example, a method in which the indirect
The vector x is a vector from the origin to the center of gravity of the cluster C_i, and the vector y is a vector from the origin to the center of gravity of the cluster C_j. For example, the indirect
A(C_i,C_j)=x・y/(|x|×|y|) (7) A (C_i, C_j) = x · y / (| x | × | y |) (7)
ここで、x・yはベクトルx、yの内積であり、(x1×y1+x2×y2+…+xm×ym)で表される(mは正の整数)。また、|x|はベクトルxのノルム=√(x・x)である。式(7)の右辺は、ベクトルx、yのなす角θの余弦cosθを表し、コサイン類似度と呼ばれ、ベクトルの向きの近さ類似性を表す。 Here, x · y is an inner product of vectors x and y, and is represented by (x1 × y1 + x2 × y2 +... + Xm × ym) (m is a positive integer). | X | is the norm of the vector x = √ (x · x). The right side of Equation (7) represents the cosine cos θ of the angle θ formed by the vectors x and y, which is called cosine similarity and represents the closeness similarity in the direction of the vector.
なお、間接関連度算出部111は、式(5)または式(6)の中の関連度Aを、ジャカード係数または相互情報量などの方法を用いて算出してもよい。
ジャカード係数を用いる場合には、間接関連度算出部111は、C_i、C_jが通常のクラスタの場合、2つのクラスタC_i、C_jのどちらかに出現した単語の出現回数によって関連度Aを算出する。具体的には、間接関連度算出部111は、以下の式(8)に従って関連度Aを算出する。
The indirect
When Jacquard coefficients are used, the indirect
ここで、|C|はクラスタCに含まれる要素(単語)数である。この関連度Aが大きいほど、二つのクラスタの類似性は高い。
クラスタC_i、クラスタC_jがfuzzy c−means法で算出されたファジィ集合である場合、間接関連度算出部111は、xpをクラスタC_iのワードベクトルxのp番目要素(pは1からPまでの整数)、yqをクラスタC_jのワードベクトルyのq番目の要素とすると(qは1からQまでの整数)、クラスタC_i、クラスタC_jの関連度を次式(9)で算出する。
Here, | C | is the number of elements (words) included in cluster C. The greater the degree of association A, the higher the similarity between the two clusters.
When the cluster C_i and the cluster C_j are fuzzy sets calculated by the fuzzy c-means method, the indirect
一方、相互情報量を用いる場合には、間接関連度算出部111は、下記の式(10)に従って、クラスタC_i、クラスタC_jの相互情報量MI(C_i,C_j)を関連度Aとして算出する。ここで、相互情報量は、ある2つの単語が共起する割合によって求められる関連性の指標である。
On the other hand, when the mutual information amount is used, the indirect association
ここで、xpはC_iのワードベクトルxのp番目の要素、yqはC_jのワードベクトルyのq番目の要素、P(xp,yq)はxpとyqの同時出現確率、P(xp)、P(yq)は、それぞれxp、yqの周辺出現確率である。 Where x p is the p th element of the word vector x of C_i, y q is the q th element of the word vector y of C_j, P (x p , y q ) is the probability of simultaneous occurrence of x p and y q , P (x p), P ( y q) is a peripheral probability of occurrence of each x p, y q.
間接関連度算出部111は、クラスタC_iとクラスタC_jの全ての組み合わせで、最大間接関連度MIR(C_i,CN_(i,j),C_j)を算出する。ここで、CN_(i,j)は、クラスタC_iとクラスタC_jとの間接関連度が最大となるときに選択されたクラスタであり、クラスタC_iとクラスタC_jの組み合わせ毎にクラスタC_1〜C_Nまでの中から選択されたクラスタである。
間接関連度算出部111は、算出した全ての最大間接関連度MIR(C_i,CN_(i,j),C_j)を示す情報と、その各最大間接関連度MIRを算出する際に用いたクラスタC_i、CN_(i,j)、C_jの組み合わせを示す情報とを積算部113に出力する。
The indirect
The indirect
意外度算出部112は、クラスタ記憶部104から所属度が所定値以上の単語を示す情報を3つ以上のクラスタ分読み出し、該読み出された単語の位置を示す情報に基づき、クラスタの組み合わせの意外度Uを算出する。具体的には、例えば、意外度算出部112は、式(7)の関連度の式の逆数を意外度として使用し、以下の式に従って、クラスタC_iとクラスタC_j間の意外度U(C_i,C_j)を算出する。
The unexpectedness
U(C_i,C_j)=(|x|×|y|)/x・y (11) U (C_i, C_j) = (| x | × | y |) / x · y (11)
ここで、ベクトルxは原点からクラスタC_iの重心へのベクトル、ベクトルyを原点からクラスタC_jの重心へのベクトルである。 Here, the vector x is a vector from the origin to the center of gravity of the cluster C_i, and the vector y is a vector from the origin to the center of gravity of the cluster C_j.
なお、意外度算出部112は、ジャッカード係数の逆数(式(7)の右辺の逆数)を用いて、意外度を算出してもよい。その場合、具体的には、意外度算出部112は、下記の式(12)に従って、クラスタC_iとクラスタC_j間の意外度U(C_i,C_j)を算出する。
Note that the unexpectedness
ここで、クラスタC_iとクラスタC_jの関連性が低いほど、意外度U(C_i,C_j)は高くなり、両クラスタの組み合わせが意外であることを反映している。
また、意外度算出部112は、相互情報量MIの逆数((式(10)の右辺の逆数))を用いて、意外度を算出してもよい。その場合、具体的には、意外度算出部112は、下記の式(13)に従って、クラスタC_iとクラスタC_j間の意外度U(C_i,C_j)を算出する。
Here, the lower the relationship between the cluster C_i and the cluster C_j, the higher the unexpectedness U (C_i, C_j), reflecting that the combination of both clusters is unexpected.
Moreover, the unexpected
U(C_i,C_j)=1/MI(C_i,C_j) (13) U (C_i, C_j) = 1 / MI (C_i, C_j) (13)
意外度算出部112は、クラスタC_iとクラスタC_jの全ての組み合わせで、意外度U(C_i,C_j)を算出する。
意外度算出部112は、算出した全ての意外度U(C_i,C_j)を示す情報と、その各意外度U(C_i,C_j)が算出された際に用いられたクラスタC_iの識別情報とクラスタC_jの識別情報とを積算部113に出力する。
The unexpectedness
The unexpectedness
続いて、積算部113は、最大間接関連度MIRと意外度Uに基づいて、発見性指数を算出する。具体的には、積算部113は、対象となる2つのクラスタ(C_i、C_j)以外の第3のクラスタCNを経由した該2つのクラスタ(C_i、C_j)間の関連度と、該2つのクラスタ(C_i、C_j)を組み合わせることの意外度とを反映するクラスタ発見性指標Sを下記式(14)に従って、算出する。
Subsequently, the integrating
S(C_i,C_j)=MIR(C_i,C_j)×U(C_i,C_j) (14) S (C_i, C_j) = MIR (C_i, C_j) × U (C_i, C_j) (14)
発見性指標Sは、クラスタC_iとクラスタC_jとの間でクラスタCNを経由した関連性が必要なこと、また同時にクラスタC_iとクラスタC_jとの組み合わせに新たな意外性が必要なことを両立させるための指標である。すなわち、発見性指標Sは、2つのクラスタ(C_i、C_j)同士の直接の関連性が低くなるほど高くなり、該2つのクラスタが残りの第3のクラスタ(CN_(i,j))と関連性が高くなるほど高くなる。 The heuristic index S is used to make it necessary to have a relationship between the cluster C_i and the cluster C_j via the cluster CN and at the same time a combination of the cluster C_i and the cluster C_j needs a new surprise. It is an indicator. That is, the heuristic index S increases as the direct relationship between the two clusters (C_i, C_j) decreases, and the two clusters are related to the remaining third cluster (CN_ (i, j)). The higher the is, the higher it is.
積算部113は、クラスタC_iとクラスタC_jの全ての組み合わせで、発見性指標Sを算出し、算出した発見性指標Sを示す情報をクラスタ組抽出部130に出力する。また、積算部113は、クラスタC_iを示す情報とクラスタC_jを示す情報と接続クラスタCN_(i,j)を示す情報とをターゲット関連性指数算出部114に出力する。
The accumulating
ターゲット関連性指数算出部114は、自装置の外部から入力されたターゲットの特性(例えば、ターゲットとなる世相、市場、個人の特性)Tを示す情報を受け付ける。また、ターゲット関連性指数算出部114は、積算部113から入力されたクラスタC_iを示す情報とクラスタC_jを示す情報と接続クラスタCN_(i,j)を示す情報とを受け付ける。
The target relevance
ターゲット関連性指数算出部114は、クラスタ記憶部104からクラスタ(C_i、C_j、CN_(i,j))毎に所属度を示す情報を読み出し、該読み出された所属度を示す情報と、自装置の外部から入力されたターゲットの特性を示す情報Tとに基づいて、前記異なる3つのクラスタ(C_i、C_j、CN_(i,j))とターゲットとの関連性を示すターゲット関連性指数Nを算出する。
The target relevance
具体的には、例えば、ターゲット関連性指数算出部114は、下記の式(15)に従って、ターゲット関連性指数Nを算出する。
Specifically, for example, the target relevance
N(C_i,C_j,CN_(i,j),T)=min(A(C_i,T),A(C_j,T),A(CN_(i,j),T)) (15) N (C_i, C_j, CN_ (i, j), T) = min (A (C_i, T), A (C_j, T), A (CN_ (i, j), T)) (15)
ターゲット関連性指数算出部114は、算出したターゲット関連性指数Nを示す情報をクラスタ組抽出部130に出力する。
The target relevance
活性度算出部121は、各期間のワードベクトルを示す情報を重要度記憶部102から読み出し、該読み出された各期間のワードベクトルを示す情報に基づいて、各期間における各クラスタの活性度を算出する。
具体的には、例えば、活性度算出部121は、k番目の期間においてi番目のクラスタC_iの活性度をR(C_i,k)とすると、下記の式(16)に従って、活性度を算出する。
The
Specifically, for example, when the activity of the i-th cluster C_i is R (C_i, k) in the k-th period, the
R(C_i,k)=sim(Y_i,W_k) (16) R (C_i, k) = sim (Y_i, W_k) (16)
ここで、Y_iはクラスタC_iに所属する単語の所属度から構成される所属度ベクトルであり、W_kは、k番目(kは正の整数)の期間の文書のワードベクトルである。
上記の式(15)は、活性度算出部121は、k番目の期間の文書のワードベクトルW_kと、クラスタC_iを表す所属度ベクトルY_iとの類似度を、そのままそのクラスタC_iの活性度として求めるものである。
また、関数simは類似度を表す関数で、コサイン類似度を用いた下記の式(17)で表される。
Here, Y_i is an affiliation vector composed of affiliations of words belonging to the cluster C_i, and W_k is a word vector of a document in the k-th period (k is a positive integer).
In the above equation (15), the
The function sim is a function representing the degree of similarity, and is represented by the following formula (17) using the cosine similarity.
sim(Y_i,W_k)=Y_i・W_k/(|Y_i|×|W_k|) (17) sim (Y_i, W_k) = Y_i · W_k / (| Y_i | × | W_k |) (17)
図4は、活性度の算出方法を説明するための図である。同図において、所属度ベクトル401の各要素は、そのクラスタに属する単語(Word 1〜Word M)の所属度が示されている(Mは正の整数)。また、k番目の期間の文書のワードベクトル402の各要素は、k番目の期間の文書におけるそのクラスタに属する単語(Word 1〜Word M)のtf−idf値が示されている。
FIG. 4 is a diagram for explaining a method of calculating the activity. In the figure, each element of the degree-of-
なお、活性度算出部121は、関数simとしてジャカード係数を用いてもよい。また、活性度算出部121は、下記の式(18)に従って、クラスタC_iの活性度R(C_i)を算出してもよい。
The
ここで、mem C_i(yq)は単語yqのクラスタC_iへの所属度である。MI(xp,yq)は,単語xpと単語yqとの相互情報量である。tfidf(x)はワードベクトル中の単語xpのtf‐idf値である。 Here, mem C_i (y q ) is the degree of affiliation of the word y q to the cluster C_i. MI (x p , y q ) is a mutual information amount between the word x p and the word y q . tfidf (x) is the tfidf value word x p in word vectors.
なお、活性度算出部121は、各概念に含まれる語すべてを用いて計算する代わりに、tf‐idf値の高い一定数の上位単語またはtf‐idf値が所定の値を超えた単語のtf‐idf値から構成されるワードベクトルに基づいて活性度を算出してもよい。これにより、活性度算出部121は、計算回数を少なくすることができるので、計算に係る時間を短縮することができる。
Instead of calculating using all the words included in each concept, the
活性度算出部121は、算出した各期間のクラスタC_iの活性度R(C_i,k)を示す情報を相対力指数算出部122に出力する。
相対力指数算出部122は、活性度算出部121から入力された各期間のクラスタC_iの活性度R(C_i,k)に基づいて、それぞれのクラスタの活性度の時間的変化に注目し、世の中一般やターゲット市場さらには個人で、各クラスタの活性度の上昇が期待される度合い(活性度上昇期待値)を算出する。
The
Based on the activity R (C_i, k) of the cluster C_i of each period input from the
具体的には、例えば、相対力指数算出部122は、活性度上昇期待値の一例として、相対力指数RSI(C_i)を算出する。ここで、相対力指数(RSI)とは、過去の値の動きに対する上昇幅の割合を求めたもので、一般にRSI値が30を切ると、上昇傾向になると言われている。相対力指数算出部122は相対力指数(RSI)を算出する際に、例えば1カ月あるいは1日のような所定の長さのサンプリング期間を設けて、そのサンプリング期間内の活性度の上昇値と下降値から、相対力指数(RSI)を算出する。
例えば、相対力指数算出部122は、下記の式(19)に従って、相対力指数(RSI)を算出する。
Specifically, for example, the relative force
For example, the relative force
RSI=u/(u+d)×100 (19) RSI = u / (u + d) × 100 (19)
ここで、uは所定のサンプリング期間の活性度の上昇値の合計、dは所定のサンプリング期間の活性度の下降値の合計である。
なお、相対力指数算出部122は、活性度上昇期待値として相対力指数RSIを用いたが、これに限らず、他の経済指標を用いてもよい。
Here, u is the sum of the increase values of the activity during the predetermined sampling period, and d is the sum of the decrease values of the activity during the predetermined sampling period.
Although the relative force
そして、活性化予測部120は、算出された活性度と、算出された活性度上昇期待値とに基づいて、クラスタの活性化を予測する。
具体的には、活性化予測部120は、上記の30という値を一般化して閾値Lとし、上昇を予測する条件を下記の2つとする。1つ目は、(i)過去の一定期間の間に相対力指数(RSI)が閾値Lを下回ったことがあること、2つ目は、(ii)現在の活性値Rが上限Ru、下限RLの間にあることである。活性化予測部120は、これら2つの条件を満たしたときに、これからのクラスタの活性化を予測し、それ以外の場合、これからクラスタが活性化しないと予測する。
Then, the activation prediction unit 120 predicts the activation of the cluster based on the calculated activity and the calculated activity increase expected value.
Specifically, the activation predicting unit 120 generalizes the value of 30 as the threshold L, and sets the following two conditions for predicting the increase. The first is that (i) the relative force index (RSI) may have fallen below a threshold L during a certain period in the past, and the second is that (ii) the current activity value R is an upper limit Ru and a lower limit. It is between RL. The activation predicting unit 120 predicts the future activation of the cluster when these two conditions are satisfied, and otherwise predicts that the cluster will not be activated from now on.
活性化予測部120は、予測結果を示す情報をクラスタ組抽出部130に出力する。
クラスタ組抽出部130は、積算部113から発見性指標Sを示す情報を、ターゲット関連性指数算出部114からターゲット関連性指数Nを示す情報を、活性化予測部120から予測結果を示す情報を受け取る。
The activation prediction unit 120 outputs information indicating the prediction result to the cluster set
The cluster set
クラスタ組抽出部130は、活性化予測部120による予測により前記クラスタの組み合わせのうち少なくとも1つのクラスタの活性化が予測された場合、発見性指数Sとターゲット関連性指数Nとに基づいて、クラスタの組み合わせを抽出する。
具体的には、クラスタ組抽出部130は、下記の3つの条件に基づいて、クラスタの組み合わせ(C_i、C_j、CN(i,j))を抽出する。
When the activation prediction unit 120 predicts the activation of at least one cluster among the cluster combinations, the cluster set
Specifically, the cluster set
(1)新規発見性指数Sの条件として、クラスタの組C_i、C_j、CN(i,j)の発見性指標Sが所定の値以上であること、
(2)活性化予測の条件として、クラスタC_i、クラスタC_j、クラスタCN(i,j)のいずれかの相対力指数(RSI)と活性度Rが、それぞれ上述のクラスタの活性化予測条件(i)および(ii)を満足していること、
(3)ターゲット関連性指数Nの条件として、クラスタの組C_i、C_j、CN(i,j)のいずれかが、ターゲットの特性Tと所定の値以上の関連度を持つことである。
(1) As a condition of the new heuristic index S, the heuristic index S of the cluster set C_i, C_j, CN (i, j) is greater than or equal to a predetermined value;
(2) As a condition for the activation prediction, the relative force index (RSI) and the activity R of any one of the cluster C_i, the cluster C_j, and the cluster CN (i, j) are respectively set as the activation prediction condition (i ) And (ii)
(3) As a condition of the target relevance index N, any one of the cluster sets C_i, C_j, and CN (i, j) has a relevance greater than a predetermined value with the target characteristic T.
例えば、クラスタ組抽出部130は、あるターゲットの特性Tが存在した時、特性Tにとっての最適なクラスタの組み合わせ(C_i、C_j、CN(i,j))を、下記の式(20)から算出する。
For example, the cluster set
arg max{aS(C_i,C_j,CN(i,j))+bN(C_i,C_j,CN(i,j),T)} (20) arg max {aS (C_i, C_j, CN (i, j)) + bN (C_i, C_j, CN (i, j), T)} (20)
ここで、a、bはS、Nに対する重みを表す係数であり、arg maxは、引数が最大となる値を求める関数である。この式(18)により、クラスタ組抽出部130は、引数の値が最大となるクラスタの組み合わせを抽出することができる。ただし,C_i、C_j、CN(i,j)のうちいずれかの相対力指数(RSI)と活性度Rが、それぞれクラスタの活性化予測条件(i)および(ii)を満足していることとする。
Here, a and b are coefficients representing weights for S and N, and arg max is a function for obtaining a value that maximizes the argument. From this equation (18), the cluster set
なお、本実施形態では、クラスタ組抽出部130は、一例として、式(20)の引数が最大となるクラスタの組み合わせを1つ抽出したが、これに限ったものではない。クラスタ組抽出部130は、式(20)の引数の値が所定の値以上となる1つ以上のクラスタの組み合わせすべてを抽出してもよい。また、クラスタ組抽出部130は、式(20)の引数の値が高いほうからトップM(Mは正の整数)のクラスタの組み合わせすべてを抽出してもよい。
In the present embodiment, the cluster set
そして、クラスタ組抽出部130は、抽出したクラスタの組み合わせを構成するクラスタC_iを示す情報とクラスタC_jを示す情報とクラスタCN_(i,j)を示す情報とを自装置の外部に出力する。
なお、クラスタ組抽出部130は、抽出したクラスタの組み合わせを構成する各クラスタに関連付けられたラベルをそれぞれクラスタ記憶部104のテーブルT2から読み出し、読み出した各ラベルを示す情報をヒットコンセプトの組み合わせを示す情報として自装置の外部に出力してもよい。
Then, the cluster set
The cluster set
図5は、本実施形態の抽出装置100がクラスタを生成する処理の流れを示したフローチャートである。まず、重要度算出部101は、所定期間毎の一区切りのドキュメント中に掲載された各単語のtf−idf値の算出する(ステップS101)。次に、重要度算出部101は、所定期間毎に、各単語のtf−idf値が予め決められた単語順に並べられたワードベクトルを算出する(ステップS102)。
FIG. 5 is a flowchart showing a flow of processing in which the
重要度算出部101は、全期間のドキュメントでワードベクトルを算出したか判定する(ステップS103)。重要度算出部101は、全期間のドキュメントでワードベクトルを算出していない場合(ステップS103 NO)、ステップS101の処理に戻る。一方、重要度算出部101が、全期間のドキュメントでワードベクトルを算出した場合(ステップS103 YES)、クラスタ生成部103は、クラスタを生成する(ステップS104)。
The
次に、クラスタ生成部103は、単語毎にクラスタへの所属度を算出する(ステップS105)。次に、クラスタ生成部103は、クラスタ毎にクラスタのラベルを抽出する(ステップS106)。次に、クラスタ生成部103は、クラスタの識別情報とクラスタのラベルを示す情報とを関連付けて、クラスタ記憶部104に記憶させる(ステップS107)。次に、クラスタ生成部103は、単語を示す情報と各クラスタへの所属度を示す情報とをクラスタ毎に関連付けてクラスタ記憶部104に記憶させる(ステップS108)。以上で、本フローチャートの処理を終了する。
Next, the
以上により、抽出装置100は、記事集合Dから所定期間毎の一区切りのドキュメント中に掲載された各単語の重要度を算出することができる。また、抽出装置100は、記事集合Dからクラスタを生成することができる。
As described above, the
図6は、本実施形態の抽出装置100がクラスタの組み合わせを抽出する処理の流れを示したフローチャートである。まず、間接関連度算出部111は、最大間接関連度MIRを算出する(ステップS201)。次に、間接関連度算出部111は、全てのクラスタの組み合わせで最大間接関連度MIRを算出したか否か判定する(ステップS202)。間接関連度算出部111は、全てのクラスタの組み合わせで最大間接関連度MIRを算出していない場合(ステップS202 NO)、ステップS201の処理に戻る。
FIG. 6 is a flowchart showing a flow of processing in which the
一方、間接関連度算出部111が全てのクラスタの組み合わせで最大間接関連度MIRを算出した場合(ステップS202 YES)、意外度算出部112は、意外度Uを算出する(ステップS203)。次に、意外度算出部112は、全てのクラスタの組み合わせで意外度Uを算出したか否か判定する(ステップS204)。意外度算出部112は、全てのクラスタの組み合わせで意外度Uを算出していない場合(ステップS204 NO)、ステップS203の処理に戻る。
On the other hand, when the indirect association
一方、意外度算出部112が全てのクラスタの組み合わせで意外度Uを算出した場合(ステップS204 YES)、積算部113は、発見性指標を算出する(ステップS205)。次に、積算部113は、全期間のドキュメントで発見性指標を算出したか否か判定する(ステップS206)。積算部113は、全期間のドキュメントで発見性指標を算出していない場合(ステップS206 NO)、ステップS201の処理に戻る。
On the other hand, when the unexpectedness
一方、積算部113が全期間のドキュメントで発見性指標を算出した場合(ステップS206 YES)、ターゲット関連性指数算出部114は、ターゲット関連性指数を算出する(ステップS207)。
On the other hand, when the integrating
ステップS201〜ステップS207までの処理に並行して、抽出装置100は、ステップS208〜ステップS215までの処理を行う。その際、始めに抽出装置100は、i、j、kを初期化する。次に、処理活性度算出部121は、k番目の期間においてi番目のクラスタC_iの活性度を算出する(ステップS208)。次に、活性度算出部121は、全てのクラスタの活性度を算出したか否か判定する(ステップS209)。活性度算出部121は、全てのクラスタの活性度を算出していない場合(ステップS209 NO)、iを1増やし(ステップS210)、ステップS208の処理に戻る。
In parallel with the processing from step S201 to step S207, the
一方、活性度算出部121が全てのクラスタの活性度を算出した場合(ステップS209 YES)、活性度算出部121は、全期間のドキュメントで活性度を算出したか否か判定する(ステップS211)。活性度算出部121は、全期間のドキュメントで活性度を算出していない場合(ステップS211 NO)、kを1増やし(ステップS212)、ステップS208の処理に戻る。
一方、活性度算出部121が全期間のドキュメントで活性度を算出した場合(ステップS211 YES)、相対力指数算出部122は、j番目のクラスタC_jの相対力指数(RSI)を算出する(ステップS213)。
On the other hand, when the
On the other hand, when the
次に、相対力指数算出部122は、全てのクラスタの相対力指数(RSI)を算出したか否か判定する(ステップS214)。相対力指数算出部122は、全てのクラスタの相対力指数(RSI)を算出していない場合(ステップS214 NO)、jを1増やし(ステップS215)、ステップS213の処理に戻る。
一方、相対力指数算出部122が、全てのクラスタの相対力指数(RSI)を算出した場合(ステップS214 YES)、抽出装置100は、ステップS216の処理に進む。
Next, the relative force
On the other hand, when the relative force
次に、ステップS216において、クラスタ組抽出部130は、活性化予測条件を満たす下で、新規発見性指数とターゲット関連性指数とに基づいた評価値が最大になるクラスタの組み合わせを抽出する(ステップS216)。以上で、本フローチャートの処理を終了する。
Next, in step S216, the cluster set
以上により、本実施形態の抽出装置100は、抽出された3つのクラスタのうち少なくとも1つが活性化されていること、抽出された2つのクラスタの組み合わせに意外性があること、その2つのクラスタの組み合わせは直接の関連性は薄いが、抽出されたもう1つのクラスタ(第3のクラスタ)を経由すると結び付けられるものであること、そのクラスタの組み合わせを提供する対象であるターゲットの特性と抽出されたクラスタのうち少なくとも1つとが関連性があることという条件下で、クラスタの組み合わせを提供することができる。各クラスタは1つの概念と対応しているので、抽出装置100は、所定の期間において、そのターゲットにとって意外性があり、第3のクラスタに対応する第3の概念を介して結び付けられる概念の組み合わせを提供することができる。
As described above, the
また、本実施形態の抽出装置100の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、抽出装置100に係る上述した種々の処理を行ってもよい。
In addition, by recording a program for executing each process of the
なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。 Here, the “computer system” may include an OS and hardware such as peripheral devices. Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. The “computer-readable recording medium” means a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a CD-ROM, a hard disk built in a computer system, etc. This is a storage device.
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 Further, the “computer-readable recording medium” refers to a volatile memory (for example, DRAM (Dynamic) in a computer system serving as a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. Random Access Memory)) that holds a program for a certain period of time is also included. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the concrete structure is not restricted to this embodiment, The design etc. of the range which does not deviate from the summary of this invention are included.
100 抽出装置
101 重要度算出部
102 重要度記憶部
103 クラスタ生成部
104 クラスタ記憶部
110 発見性指数算出部
111 間接関連度算出部
112 意外度算出部
113 積算部
114 ターゲット関連性指数算出部
120 活性化予測部
121 活性度算出部
122 相対力指数算出部(活性度上昇期待値算出部)
130 クラスタ組抽出部
100
130 Cluster group extraction unit
Claims (6)
前記クラスタ記憶部から所属度が所定値以上の単語を示す情報に関連付けられている単語の位置の情報を3つ以上のクラスタ分読み出し、該単語の位置の情報に基づいて、対象となる2つのクラスタ以外の第3のクラスタを経由した該2つのクラスタ間の間接関連度と、該2つのクラスタを組み合わせることの意外度とを乗じることにより、発見性指数を算出する発見性指数算出部と、
前記クラスタ記憶部から前記クラスタ毎に所属度を示す情報を読み出し、該読み出された所属度を示す情報と、自装置の外部から入力されたターゲットの特性を示す情報とに基づいて、前記対象となる2つのクラスタおよび前記第3のクラスタとターゲットとの関連性を示すターゲット関連性指数を算出するターゲット関連性指数算出部と、
前記算出された発見性指数と前記ターゲット関連性指数とに基づいて、前記クラスタの組み合わせを抽出するクラスタ組抽出部と、
を備えることを特徴とする抽出装置。 A cluster in which information indicating a word is associated with information indicating the degree of affiliation to which the word belongs to the cluster, and the information indicating the word and the information indicating the position of the word are stored in association with each other A storage unit;
The information on the position of the word associated with the information indicating the word whose degree of belonging is a predetermined value or more is read from the cluster storage unit for three or more clusters, and based on the information on the position of the word, A heuristic index calculator that calculates a heuristic index by multiplying an indirect association degree between the two clusters via a third cluster other than the cluster and an unexpected degree of combining the two clusters;
Read the information indicating the degree of affiliation for each cluster from the cluster storage unit, and based on the information indicating the degree of affiliation read out and the information indicating the characteristics of the target input from the outside of the own device A target relevance index calculating unit for calculating a target relevance index indicating relevance between the two clusters and the third cluster and the target;
A cluster set extraction unit that extracts a combination of the clusters based on the calculated discoverability index and the target relevance index ;
An extraction device comprising:
前記重要度記憶部から所定の期間毎に前記単語の重要度を示す情報を読み出し、前記クラスタ記憶部からクラスタ毎に前記所属度を示す情報を読み出し、該単語の重要度を示す情報と該所属度を示す情報とに基づいて、所定の期間毎に各クラスタの活性化を予測する活性化予測部を更に備え、
前記クラスタ組抽出部は、前記活性化予測部による予測により前記クラスタの組み合わせのうち少なくとも1つのクラスタの活性化が予測された場合、前記発見性指数とターゲット関連性指数とに基づいて、前記クラスタの組み合わせを抽出することを特徴とする請求項1に記載の抽出装置。 An importance storage unit that stores information indicating the word and information indicating the importance of the word in association with each other for each predetermined period;
Information indicating the importance of the word is read from the importance storage unit for each predetermined period, information indicating the affiliation for each cluster is read from the cluster storage unit, and information indicating the importance of the word and the affiliation And an activation prediction unit that predicts activation of each cluster every predetermined period based on the information indicating the degree,
When the activation of at least one cluster of the cluster combinations is predicted by the prediction by the activation prediction unit, the cluster set extraction unit is configured to use the cluster based on the heuristic index and the target relevance index. The combination according to claim 1 is extracted.
所定の期間毎に、単語が所定のクラスタへ所属している所属度を示す情報と、前記重要度記憶部から読み出された該期間における前記単語の重要度を示す情報とに基づいて、該クラスタの活性度を算出する活性度算出部と、
前記算出された活性度に基づき、各クラスタの活性度の上昇が期待される度合いである活性度上昇期待値を算出する活性度上昇期待値算出部と、
を備え、
前記算出された活性度と、前記算出された活性度上昇期待値とに基づいて、前記クラスタの活性化を予測することを特徴とする請求項2に記載の抽出装置。 The activation prediction unit
For each predetermined period, based on information indicating the degree of affiliation of a word belonging to a predetermined cluster and information indicating the importance of the word in the period read from the importance storage unit, An activity calculation unit for calculating the activity of the cluster;
Based on the calculated activity, an activity increase expectation value calculation unit that calculates an activity increase expectation value that is a degree in which an increase in activity of each cluster is expected;
With
The extraction apparatus according to claim 2 , wherein the activation of the cluster is predicted based on the calculated activity and the calculated activity increase expected value.
前記クラスタ組抽出部は、前記発見性指数と前記ターゲット関連性指数との重み付き和に基づいて、前記クラスタの組み合わせを抽出することを特徴とする請求項1から請求項3のいずれか1項に記載の抽出装置。 The heuristic index increases as the indirect relevance and the unexpectedness increase.
The cluster set extraction unit, the said discovery index based on the weighted sum of the target-related index, any one of claims 1 to 3, characterized in that extracts a combination of the cluster The extraction device described in 1.
前記クラスタ記憶部から所属度が所定値以上の単語を示す情報に関連付けられている単語の位置の情報を3つ以上のクラスタ分読み出し、該単語の位置の情報に基づいて、対象となる2つのクラスタ以外の第3のクラスタを経由した該2つのクラスタ間の間接関連度と、該2つのクラスタを組み合わせることの意外度とを乗じることにより、発見性指数を算出する発見性指数算出手順と、
前記クラスタ記憶部から前記クラスタ毎に所属度を示す情報を読み出し、該読み出された所属度を示す情報と、自装置の外部から入力されたターゲットの特性を示す情報とに基づいて、前記対象となる2つのクラスタおよび前記第3のクラスタとターゲットとの関連性を示すターゲット関連性指数を算出するターゲット関連性指数算出手順と、
前記算出された発見性指数と前記ターゲット関連性指数とに基づいて、前記クラスタの組み合わせを抽出するクラスタ組抽出手順と、
を有することを特徴とする抽出方法。 A cluster in which information indicating a word is associated with information indicating the degree of affiliation to which the word belongs to the cluster, and the information indicating the word and the information indicating the position of the word are stored in association with each other An extraction method executed by an extraction device including a storage unit,
The information on the position of the word associated with the information indicating the word whose degree of belonging is a predetermined value or more is read from the cluster storage unit for three or more clusters, and based on the information on the position of the word, A heuristic index calculation procedure for calculating a heuristic index by multiplying an indirect association degree between the two clusters via a third cluster other than the cluster and an unexpected degree of combining the two clusters;
Read the information indicating the degree of affiliation for each cluster from the cluster storage unit, and based on the information indicating the degree of affiliation read out and the information indicating the characteristics of the target input from the outside of the own device A target relevance index calculating procedure for calculating a target relevance index indicating relevance between the two clusters and the third cluster and the target;
A cluster set extraction procedure for extracting a combination of the clusters based on the calculated discoverability index and the target relevance index ;
The extraction method characterized by having.
前記クラスタ記憶部から所属度が所定値以上の単語を示す情報に関連付けられている単語の位置の情報を3つ以上のクラスタ分読み出し、該単語の位置の情報に基づいて、対象となる2つのクラスタ以外の第3のクラスタを経由した該2つのクラスタ間の間接関連度と、該2つのクラスタを組み合わせることの意外度とを乗じることにより、発見性指数を算出する発見性指数算出ステップと、
前記クラスタ記憶部から前記クラスタ毎に所属度を示す情報を読み出し、該読み出された所属度を示す情報と、自装置の外部から入力されたターゲットの特性を示す情報とに基づいて、前記対象となる2つのクラスタおよび前記第3のクラスタとターゲットとの関連性を示すターゲット関連性指数を算出するターゲット関連性指数算出ステップと、
前記算出された発見性指数と前記ターゲット関連性指数とに基づいて、前記クラスタの組み合わせを抽出するクラスタ組抽出ステップと、
を実行させるための抽出プログラム。 A cluster in which information indicating a word is associated with information indicating the degree of affiliation to which the word belongs to the cluster, and the information indicating the word and the information indicating the position of the word are stored in association with each other In the computer of the extraction device comprising a storage unit,
The information on the position of the word associated with the information indicating the word whose degree of belonging is a predetermined value or more is read from the cluster storage unit for three or more clusters, and based on the information on the position of the word, A discoverability index calculating step of calculating a discoverability index by multiplying the indirect association degree between the two clusters via a third cluster other than the cluster and the unexpectedness of combining the two clusters;
Read the information indicating the degree of affiliation for each cluster from the cluster storage unit, and based on the information indicating the degree of affiliation read out and the information indicating the characteristics of the target input from the outside of the own device A target relevance index calculating step for calculating a target relevance index indicating relevance between the two clusters and the third cluster and the target;
A cluster set extraction step of extracting a combination of the clusters based on the calculated discoverability index and the target relevance index ;
Extraction program to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032415A JP5605730B2 (en) | 2011-02-17 | 2011-02-17 | Extraction apparatus, extraction method and extraction program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032415A JP5605730B2 (en) | 2011-02-17 | 2011-02-17 | Extraction apparatus, extraction method and extraction program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012173800A JP2012173800A (en) | 2012-09-10 |
JP5605730B2 true JP5605730B2 (en) | 2014-10-15 |
Family
ID=46976684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011032415A Expired - Fee Related JP5605730B2 (en) | 2011-02-17 | 2011-02-17 | Extraction apparatus, extraction method and extraction program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5605730B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023238288A1 (en) * | 2022-06-08 | 2023-12-14 | 日本電信電話株式会社 | Precedence relationship extraction device, precedence relationship extraction method, and precedence relationship extraction program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07143463A (en) * | 1993-11-19 | 1995-06-02 | Fujitsu General Ltd | Teletext program retrieval device |
US20090313017A1 (en) * | 2006-07-07 | 2009-12-17 | Satoshi Nakazawa | Language model update device, language Model update method, and language model update program |
WO2010026900A1 (en) * | 2008-09-03 | 2010-03-11 | 日本電気株式会社 | Relationship detector, relationship detection method, and recording medium |
JP4678546B2 (en) * | 2008-09-08 | 2011-04-27 | ソニー株式会社 | RECOMMENDATION DEVICE AND METHOD, PROGRAM, AND RECORDING MEDIUM |
-
2011
- 2011-02-17 JP JP2011032415A patent/JP5605730B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012173800A (en) | 2012-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10726208B2 (en) | Consumer insights analysis using word embeddings | |
Van Everdingen et al. | Modeling global spillover of new product takeoff | |
Shtok et al. | Predicting query performance by query-drift estimation | |
US10685183B1 (en) | Consumer insights analysis using word embeddings | |
US11182806B1 (en) | Consumer insights analysis by identifying a similarity in public sentiments for a pair of entities | |
KR102378062B1 (en) | Method for constructing an investment portfolio, providing an investment portfolio service, and apparatus supporting the same | |
US10558759B1 (en) | Consumer insights analysis using word embeddings | |
CN104077279B (en) | A kind of parallel communities discovery method and apparatus | |
US10803248B1 (en) | Consumer insights analysis using word embeddings | |
Zieliński et al. | Persistence codebooks for topological data analysis | |
US10289624B2 (en) | Topic and term search analytics | |
Sainaghi et al. | Destination events, stability, and turning points of development | |
Perles-Ribes et al. | The typological classification of tourist destinations: The region of Valencia, a case study | |
JP6079270B2 (en) | Information provision device | |
KR102351879B1 (en) | Method and device for classifying unstructured item data automatically for goods or services | |
Yang et al. | Adaptive initialization method for K-means algorithm | |
JP5605730B2 (en) | Extraction apparatus, extraction method and extraction program | |
Lu et al. | Coupling feature selection and machine learning methods for navigational query identification | |
Chen et al. | Supervised Multiview Feature Selection Exploring Homogeneity and Heterogeneity With $\ell_ {1, 2} $-Norm and Automatic View Generation | |
Assam et al. | Context-based location clustering and prediction using conditional random fields | |
Chen et al. | Spatially aware feature selection and weighting for object retrieval | |
US20220277008A1 (en) | Supporting database queries using unsupervised vector embedding approaches over unseen data | |
US10339564B2 (en) | System and method for providing an adaptively ordered presentation of objects | |
Abinaya et al. | Effective Feature Selection For High Dimensional Data using Fast Algorithm | |
Babaie | Implementation of two stages k-means algorithm to apply a payment system provider framework in banking systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140527 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140722 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5605730 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |