JP5955817B2 - Extraction apparatus, extraction method and program - Google Patents
Extraction apparatus, extraction method and program Download PDFInfo
- Publication number
- JP5955817B2 JP5955817B2 JP2013154872A JP2013154872A JP5955817B2 JP 5955817 B2 JP5955817 B2 JP 5955817B2 JP 2013154872 A JP2013154872 A JP 2013154872A JP 2013154872 A JP2013154872 A JP 2013154872A JP 5955817 B2 JP5955817 B2 JP 5955817B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- appearance frequency
- frequency
- burst
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 76
- 238000010606 normalization Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 14
- 230000007774 longterm Effects 0.000 description 13
- 238000000034 method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 8
- YMHOBZXQZVXHBM-UHFFFAOYSA-N 2,5-dimethoxy-4-bromophenethylamine Chemical compound COC1=CC(CCN)=C(OC)C=C1Br YMHOBZXQZVXHBM-UHFFFAOYSA-N 0.000 description 6
- 241000545067 Venus Species 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、抽出装置、抽出方法及びプログラムに関する。 The present invention relates to an extraction device, an extraction method, and a program.
近年、スマートフォン等の携帯型情報機器の普及により、ソーシャル・ネットワーキング・サービス(以降、SNS)を介してのコミュニケーションが人々の日常生活に浸透し、爆発的に普及している。このSNSにおいては、ユーザが自分の近況や感じたことなどを、携帯型情報機器を介して気軽に投稿し共有する。したがって、SNSからは一般大衆の意見がタイムリーに得られるため、マーケティング施策への活用が注目されている。 In recent years, with the spread of portable information devices such as smartphones, communication via social networking services (hereinafter referred to as SNS) has permeated people's daily lives and has exploded. In this SNS, the user can easily post and share his / her recent situation and feeling through the portable information device. Therefore, since the general public's opinions can be obtained in a timely manner from the SNS, the use for marketing measures is attracting attention.
例えば、SNSでは、投稿されたデータを取得するAPI(Application Programming Interface)が公開されており、SNSで投稿されたデータを用いての分析や予測が行われ始めている。このSNSで投稿されたデータは、多数のユーザが書き込むため、全体のデータ量が膨大であり、その内容は書き込む対象のユーザによって異なった時系列データの集合(以下、ストリームデータと呼ぶ)となる。そして、ストリームデータのデータ量、ストリームデータの内容(ストリームデータに含まれるキーワード(単語))は、ユーザのライフサイクルや、世間一般のイベント・トピック等によって変化する。 For example, in SNS, an API (Application Programming Interface) for obtaining posted data is disclosed, and analysis and prediction using data posted in SNS is starting to be performed. Since data posted by this SNS is written by a large number of users, the total amount of data is enormous, and the content is a set of time-series data (hereinafter referred to as stream data) that differs depending on the user to be written. . The amount of stream data and the content of the stream data (keywords (words) included in the stream data) vary depending on the life cycle of the user, general event topics, etc.
これらの膨大なストリームデータに含まれるキーワード(単語)の出現頻度の時間推移や時系列の変化幅を計算・検出することで、注目度の高いキーワードを抽出する抽出方法(特許文献1参照)や、潜在的なキーワードを抽出する抽出方法(特許文献2参照)がある。 An extraction method (see Patent Document 1) for extracting a keyword with a high degree of attention by calculating / detecting the time transition of the frequency of appearance of keywords (words) included in these enormous stream data and the time series change width, There is an extraction method for extracting potential keywords (see Patent Document 2).
しかしながら、上述した従来の抽出方法では、長期的には無関係であっても、何らかのトリガー(要因)によって特定期間内に強い関連性が生じるキーワードが存在する場合に、そのキーワードを潜在的なキーワードとしても抽出することができなかった。そして、このようなキーワードの抽出もれにより、マーケティング施策における解析精度が低下することがあった。 However, in the conventional extraction method described above, even if there is a keyword that has a strong relationship within a specific period due to some trigger (factor) even if it is irrelevant in the long term, that keyword is regarded as a potential keyword. Also could not be extracted. In addition, due to the extraction of such keywords, the analysis accuracy in marketing measures may be reduced.
本発明は、上記に鑑みてなされたものであって、ストリームデータから関連性のあるキーワードを精度よく抽出することを可能とする抽出装置、抽出方法及びプログラムを提供することを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to provide an extraction device, an extraction method, and a program capable of accurately extracting relevant keywords from stream data.
上述した課題を解決し、目的を達成するために、実施形態にかかる抽出装置は、予め定められた各単語について、入力されたストリームデータに当該単語が出現する出現頻度を所定時間ごとに集計する集計部と、前記集計された各単語の所定時間ごとの出現頻度を蓄積し、各単語における現在までの出現頻度を記録する出現頻度記録部と、前記集計された各単語の所定時間ごとの出現頻度と、前記記録された各単語における現在までの出現頻度とに基づいて、前記所定時間における前記単語のバーストを検出するバースト検出部と、前記バーストが検出された単語ごとに、前記所定時間における出現頻度を含むバースト特徴量情報を記憶するバースト特徴量情報記録部と、抽出条件とする期間と、基準単語とを受け付けて、前記期間内の前記バースト特徴量情報における各単語の出現頻度を正規化し、正規化後の出現頻度が前記基準単語の正規化後の出現頻度と類似する単語を関連単語として抽出する関連単語抽出部と、を備えることを特徴とする。 In order to solve the above-described problem and achieve the object, the extraction device according to the embodiment totals the appearance frequency of the word appearing in the input stream data for each predetermined time for each predetermined word. A totaling unit, an appearance frequency recording unit that accumulates the frequency of appearance of each of the aggregated words for each predetermined time, and records the frequency of appearance of each word up to the present, and the occurrence of each of the aggregated words for every predetermined time A burst detection unit for detecting a burst of the word at the predetermined time based on the frequency and the frequency of appearance of each recorded word up to the present; and for each word at which the burst is detected, at the predetermined time Receiving a burst feature amount information recording unit that stores burst feature amount information including the appearance frequency, a period as an extraction condition, and a reference word; A related word extraction unit that normalizes the appearance frequency of each word in the first feature amount information and extracts a word whose appearance frequency after normalization is similar to the appearance frequency after normalization of the reference word as a related word It is characterized by.
実施形態にかかる抽出装置によれば、ストリームデータから関連性のある単語を精度よく抽出することを可能とする、という効果を奏する。 According to the extraction device according to the embodiment, there is an effect that it is possible to accurately extract related words from stream data.
以下、添付図面を参照して実施形態にかかる抽出装置、抽出方法及びプログラムを詳細に説明する。なお、以下の説明において、同様の構成要素には共通の符号を付与するとともに、重複する説明を省略する。 Hereinafter, an extraction apparatus, an extraction method, and a program according to embodiments will be described in detail with reference to the accompanying drawings. In the following description, common constituent elements are given common reference numerals, and redundant description is omitted.
以下で説明する実施形態にかかる抽出装置では、SNSなどで絶え間なくエントリされるデータの集合であるストリームデータに対して、そのストリームデータに出現する各単語の短時間の出現頻度を集計し、その集計結果に基づいて単語毎の最新の長時間の出現頻度を更新し記録する。そして、長時間の出現頻度と短時間毎の出現頻度に基づいて、その短時間において所定の単語の出現頻度が急激に増加するという現象である、単語のバーストを検出する。そして、検出したバーストの発生時刻と出現頻度とを含むバースト特徴量情報を記録する。そして、抽出条件とする期間と、基準単語とを受け付けて、その期間内で出現頻度を正規化したバースト特徴量情報をベースに、基準単語との関連性(正規化後の出現頻度が基準単語の正規化後の出現頻度と類似する単語)を分析し、関連単語を抽出する。 In the extraction device according to the embodiment described below, for the stream data that is a set of data that is continuously entered in SNS and the like, the appearance frequency of each word appearing in the stream data is tabulated, The latest long-term appearance frequency for each word is updated and recorded based on the counting result. And based on the appearance frequency for a long time and the appearance frequency for every short time, the burst of a word which is a phenomenon in which the appearance frequency of a predetermined word increases rapidly in the short time is detected. Then, burst feature information including the detected burst occurrence time and appearance frequency is recorded. Then, based on the burst feature amount information obtained by normalizing the appearance frequency within the period, and receiving the period as the extraction condition and the reference word, the relationship with the reference word (the appearance frequency after normalization is the reference word) And the related words are extracted.
なお、上述した「短時間」は、装置において適切な値として設定される所定時間であればよく、本実施形態では10分として設定されるものとする。また、「長時間」は、「短時間」よりも長い一定期間の時間帯という意味ではなく、抽出を行う抽出時点である現在までに記録していた単語の時間の合計を意味するものである。また、「抽出条件とする期間」、「基準単語」については、装置のメモリなどに事前に設定された値、又はキーボード、マウスなどの操作装置を介してユーザが指定した値などであってよい。 The “short time” described above may be a predetermined time set as an appropriate value in the apparatus, and is set as 10 minutes in the present embodiment. In addition, “long time” does not mean a time period of a certain period longer than “short time”, but means the total time of words recorded so far, which is the extraction time point at which extraction is performed. . The “period as the extraction condition” and “reference word” may be values set in advance in the memory of the device or values specified by the user via an operation device such as a keyboard or a mouse. .
図1は、実施形態にかかる抽出装置の機能構成を例示するブロック図である。図1に示すように、抽出装置100は、コンピュータを用いて実現される機能構成として(詳細は後述する)、短時間頻度集計部101と、バースト検出・判定部102と、長時間頻度情報記録部103と、長時間頻度計算・更新部104と、バースト特徴量情報記録部105と、関連単語抽出部106とを備える。
FIG. 1 is a block diagram illustrating a functional configuration of the extraction device according to the embodiment. As shown in FIG. 1, the
短時間頻度集計部101は、辞書情報300に予め定められた各単語について、入力されたストリームデータ200にその単語が出現する出現頻度を短時間ごとに集計する。短時間頻度集計部101は、各単語について集計した出現頻度を、短時間頻度情報500としてバースト検出・判定部102へ出力する。
The short-time
バースト検出・判定部102は、短時間頻度集計部101で集計された短時間頻度情報500と、長時間頻度情報記録部103に記録された長時間頻度情報400とに基づいて、短時間における単語のバーストを検出する。バースト検出・判定部102は、バーストが検出された単語ごとの出現頻度を含むバースト特徴量情報510をバースト特徴量情報記録部105へ出力する。
The burst detection / determination unit 102 uses the short-
長時間頻度情報記録部103は、集計された各単語の短時間毎の出現頻度(短時間毎の頻度情報)を蓄積した長時間頻度情報400を記録する。長時間頻度計算・更新部104は、各単語の短時間毎の出現頻度(短時間毎の頻度情報)と、長時間頻度情報記録部103が現時点までに記録しているカレントの長時間頻度情報400とをもとに、各単語における現在までの出現頻度を計算し、長時間頻度情報記録部103が記録する長時間頻度情報400を更新する。
The long-time frequency
バースト特徴量情報記録部105は、バースト検出・判定部102より出力されたバースト特徴量情報510を記録する。関連単語抽出部106は、抽出条件(期間、基準単語)とを受け付けて、バースト特徴量情報記録部105が記録するバースト特徴量情報510の中から期間内の全てのバースト特徴量情報を取得する。次いで、関連単語抽出部106は、期間内のバースト特徴量情報における各単語の出現頻度を正規化し、正規化後の出現頻度が基準単語の正規化後の出現頻度と類似する単語を関連単語として抽出する。
The burst feature amount
図2は、ストリームデータ200のデータ構造を説明する図である。図2に示すように、ストリームデータ200は、文書を識別するためにユニークに割り当てられた文書ID201と、SNSなどにエントリされた期間である文書発表期間202と、エントリされた文書内容203とを有する。
FIG. 2 is a diagram for explaining the data structure of the
図3は、辞書情報300のデータ構造を説明する図である。図3に示すように、辞書情報300には、大量の単語302が事前に登録されている。具体的には、辞書情報300は、ユニークに割り当てられた単語ID301ごとに、単語302を有する。
FIG. 3 is a diagram for explaining the data structure of the
図4は、長時間頻度情報400のデータ構造を説明する図である。図4に示すように、長時間頻度情報400は、ユニークに割り当てられた単語ID401ごとに、単語402と、短時間毎の出現頻度を集計した平均頻度403と、単語402についての集計を行った期間を示す観察時間404とを有する。
FIG. 4 is a diagram for explaining the data structure of the long-
図5は、短時間頻度情報500のデータ構造を説明する図である。図5に示すように、短時間頻度情報500は、ユニークに割り当てられた単語ID501ごとに、単語502と、期間503と、出現頻度である出現回数504と、正規化値505とを有する。なお、正規化値505は空欄(N/A(Not Available))とされている。
FIG. 5 is a diagram for explaining the data structure of the short-
図6は、バースト特徴量情報510のデータ構造を説明する図である。図6に示すように、バースト特徴量情報510は、ユニークに割り当てられた単語ID511ごとに、単語512と、期間513と、出現頻度である出現回数514と、正規化値515とを有する。なお、正規化値515には、関連単語抽出部106により正規化された際の値が記述される。
FIG. 6 is a diagram for explaining the data structure of the
ここで、上述した機能構成による抽出装置100の動作について図7〜9を参照して詳細に説明する。図7〜9は、実施形態にかかる抽出装置の動作の一例を示すフローチャートである。
Here, operation | movement of the
より具体的には、図7は、リアルタイムでの単語のバースト特徴量の算出を示すフローチャートである。図8は、抽出条件(期間、基準単語)による関連単語の抽出処理を示すフローチャートである。図9は、バースト特徴量情報における各単語の出現頻度の正規化を示すフローチャートである。 More specifically, FIG. 7 is a flowchart showing calculation of word burst feature values in real time. FIG. 8 is a flowchart showing related word extraction processing based on extraction conditions (period, reference word). FIG. 9 is a flowchart showing normalization of the appearance frequency of each word in the burst feature information.
図7に示すように、リアルタイムでの単語のバースト特徴量の算出を行う処理が開始されると、短時間頻度集計部101はストリームデータ200を読み込む(S11)。次いで、短時間頻度集計部101は、読み込んだストリームデータ200を形態素解析し、ストリームデータ200内の単語リストを抽出する(S12)。
As shown in FIG. 7, when the processing for calculating the burst feature amount of the word in real time is started, the short-time
例えば、図2の例では、文書ID「0001」の文書内容203において「明日」、「金環」、「日食」、「期待」などの単語リストが抽出される。
For example, in the example of FIG. 2, a word list such as “Tomorrow”, “Ring”, “Eclipse”, “Expectation” is extracted from the
なお、図7〜9に例示する本処理は時間がかかることを考慮し、リアルタイムでの分散処理が可能なフレームワーク(例えば、Jubatus(登録商標))の利用を想定している。 In consideration of the time required for the processing illustrated in FIGS. 7 to 9, it is assumed that a framework (for example, Jubatus (registered trademark)) capable of distributed processing in real time is used.
次いで、S12で抽出された単語リストの個々の単語に対して、S13〜S21のループ処理が行われる。 Next, the loop processing of S13 to S21 is performed for each word in the word list extracted in S12.
ループ処理が開始されると(S13)、短時間頻度集計部101は、辞書情報300を読み出し、単語リスト内でループ処理における処理対象となっている単語が辞書に存在するか否かを判定する(S14)。単語が辞書に存在しない場合(S14:NO)、短時間頻度集計部101は、S21へ処理を進め、次の単語のループ処理に移行する。
When the loop process is started (S13), the short-time
単語が辞書に存在する場合(S14:YES)、短時間頻度集計部101は、指定された短時間内の単語の出現回数を計算し、その単語の単語ID、単語、指定された短時間、計算した出現回数を、短時間頻度情報500としてメモリに保持する(S15)。
When the word is present in the dictionary (S14: YES), the short-time
なお、本実施形態では、短時間を10分の部分期間とし、ストリームデータ200の文書発表期間202が単語の短時間頻度情報500の期間503と一致する場合、その単語の短時間の出現頻度に追加する。例えば、文書ID「0001」のストリームデータ200において、その文書発表期間202は「2012/05/20 18:31:01〜2012/05/20 18:40:00」であるため(図2参照)、単語の短時間頻度情報500内の単語「日食」の「2012/05/20 18:31:01〜2012/05/20 18:40:00」の出現回数504を1増やす。なお、本実施例で短時間の値を10分にしているが、これは短時間の指定の一例であり、適用先システムにより適切な値を選択可能である。
In the present embodiment, when the short period is a partial period of 10 minutes and the
次いで、長時間頻度計算・更新部104は、長時間頻度情報記録部103に記録された長時間頻度情報400から該当単語のカレントの長時間頻度情報を取得する(S16)。具体的には、単語が「日食」である場合には、単語ID「0001」の「日食」についての平均頻度403、観察時間404が取得される(図4参照)。
Next, the long-time frequency calculation /
次いで、長時間頻度計算・更新部104は、S15で計算された短時間の出現回数と、S16で取得した長時間頻度情報とに基づいて、次の式(1)、(2)を用いて、該当単語の最新の長時間の出現頻度及び最新の観測時間(最新の長時間頻度情報)を計算する(S17)。
Next, the long-time frequency calculation /
次いで、長時間頻度計算・更新部104は、S17で計算した最新の長時間頻度情報を長時間頻度情報記録部103へ出力し、長時間頻度情報記録部103は最新の長時間頻度情報を長時間頻度情報400として保管する(S18)。
Next, the long-term frequency calculation /
次いで、バースト検出・判定部102は、単語について、短時間の出現回数と、カレントの長時間の出現頻度(出現回数)とを用いて、短時間における単語のバーストを検出する。具体的には、バースト検出・判定部102は、次の式(3)を満たすか否かを判定することで(S19)、その短時間の出現回数が単語のバーストであるかどうかを判断する。ここで、式(3)を満たし、短時間の出現回数が単語のバーストである場合(S19:YES)は、S20に進む。式(3)を満たさない場合(S19:NO)は、S21に進む。 Next, the burst detection / determination unit 102 detects a burst of words in a short time using the short-time appearance count and the current long-time appearance frequency (appearance count). Specifically, the burst detection / determination unit 102 determines whether or not the following expression (3) is satisfied (S19), thereby determining whether or not the short-time appearance count is a word burst. . If the expression (3) is satisfied and the number of appearances in a short time is a burst of words (S19: YES), the process proceeds to S20. When Expression (3) is not satisfied (S19: NO), the process proceeds to S21.
なお、式(3)内のαは、本実施形態では「2」としているが、適用先システムにより適切な値を選択可能である。 Note that α in Expression (3) is “2” in the present embodiment, but an appropriate value can be selected by the application destination system.
S20において、バースト検出・判定部102は、バーストとして判定された単語の短時間の出現回数をバースト特徴量とするバースト特徴量情報510をバースト特徴量情報記録部105へ出力し、バースト特徴量情報記録部105は出力されたバースト特徴量情報510を保管する。
In S20, the burst detection / determination unit 102 outputs burst
図8に示すように、抽出条件(期間、基準単語)による関連単語の抽出処理が開始されると、関連単語抽出部106は、抽出装置100の利用者(他のシステムまたはユーザ)によって抽出条件として指定された期間と基準単語とを取得する(S31)。
As illustrated in FIG. 8, when the related word extraction process based on the extraction condition (period, reference word) is started, the related
本実施形態では、対象とする期間を「2012/05/19 00:00:00〜2012/06/09 24:00:00」、基準単語を「サングラス」として抽出条件を指定したものとして、処理を説明する。 In the present embodiment, it is assumed that the target period is “2012/05/19 00: 00: 00-2012 / 06/09 24:00:00”, the reference word is “sunglasses”, and the extraction condition is designated. Will be explained.
次いで、関連単語抽出部106は、バースト特徴量情報記録部105のバースト特徴量情報510から抽出条件として指定された該当期間内の全ての単語のバースト特徴量情報(レコード)を取得する(S32)。次いで、関連単語抽出部106は、該当期間内における単語毎のバースト特徴量を正規化する(S33)。
Next, the related
具体的には、図9に示すように、S33において処理が開始されると、単語毎にS41〜S48の第1のループ処理が行われる。 Specifically, as shown in FIG. 9, when the process is started in S33, the first loop process of S41 to S48 is performed for each word.
第1のループ処理が開始されると(S41)、関連単語抽出部106は、該当単語の全てのレコードの中から、期間513の最小値であるレコードを基準レコードとする(S42)。例えば、図6の例では、単語ID「0001」の単語「日食」について、期間「2012/05/19 00:00:00〜2012/06/09 24:00:00」として指定された期間内の最小値が1番目のレコードであることから、単語「日食」についてはバースト特徴量情報510の1番目のレコードを基準レコードとする。なお、「月食」、「金星」、「サングラス」なども同様に基準レコードが定められる。
When the first loop process is started (S41), the related
次いで、関連単語抽出部106は、基準レコードの正規化値515を「1」にする(S43)。例えば、単語「日食」についてはバースト特徴量情報510の1番目のレコードの正規化値515を「1」にする。
Next, the related
次いで、関連単語抽出部106は、基準レコードを「1」とした場合の出現回数を正規化するため、基準レコード以外のレコード毎に、S44〜S47の第2のループ処理を行う。
Next, the related
具体的には、関連単語抽出部106は、「現在レコードの出現回数/基準レコードの出現回数」の割り算を計算する(S45)。例えば、図6の例では、バースト特徴量情報510の2番目レコードの出現回数514は「250」であり、基準レコード(1番目)の出現回数514は「230」である。この現在レコードの「250」と基準レコードの「230」とで割り算を計算し、250/230 = 1.087と算出する。
Specifically, the related
次いで、関連単語抽出部106は、S45の計算結果を、現在のレコードの正規化値515に設定する(S46)。よって、上述した例では、バースト特徴量情報510の2番目レコードの正規化値515に「1.087」を設定する。
Next, the related
図8に戻り、S33に次いで、関連単語抽出部106は、基準単語以外の単語(以降、非基準単語)に対して、各単語の短時間毎のバースト特徴量の正規化値を用いて、次の式(4)に基づいて、非基準単語と基準単語の類似度を計算する(S34)。
Returning to FIG. 8, after S <b> 33, the related
具体的には、上述した式(4)に示すように、短時間を示す変数kを1〜nとし、非基準単語の短時間kの正規化値と、基準単語の短時間kの正規化値とを時系列順に比較して、非基準単語と基準単語との時系列的な推移の類似度を算出する。 Specifically, as shown in Equation (4) described above, the variable k indicating the short time is set to 1 to n, the normalized value of the short time k of the non-reference word, and the normalization of the short time k of the reference word The values are compared in time series order to calculate the similarity of the time series transition between the non-reference word and the reference word.
次いで、関連単語抽出部106は、S34で計算した類似度に基づいて、類似度の高い順で単語をソートする(S35)。次いで、関連単語抽出部106は、ソート後の単語を抽出した関連単語として返す(S36)。具体的には、ソートされた単語リストから、先頭から一定個数(例えば、30個)の単語を抽出条件とした期間内の基準単語と関連のある関連単語として返す。なお、本実施形態では、ソートされた単語リストの先頭30個の単語を関連単語として出力する設定としているが、これは指定の一例であり、適用先システムにより適切な値を選択可能である。S36により関連単語がシステムに返されることで、返された関連単語がシステム上に表示されるなどしてユーザに通知されることとなる。
Next, the related
以上のように、抽出装置100は、予め定められた各単語について、入力されたストリームデータ200にその単語が出現する出現頻度を短時間ごとに集計する。そして、集計された各単語の短時間ごとの出現頻度を蓄積し、各単語における現在までの長時間頻度情報400を記録する。そして、集計された各単語の短時間ごとの出現頻度と、記録された各単語における現在までの出現頻度とに基づいて、短時間における単語のバーストを検出し、バーストが検出された単語ごとに、短時間における出現頻度を含むバースト特徴量情報510を記録する。そして、抽出条件とする期間と、基準単語とを受け付けて、受け付けた期間内のバースト特徴量情報510における各単語の出現頻度を正規化し、正規化後の出現頻度が基準単語の正規化後の出現頻度と類似する単語を関連単語として抽出する。
As described above, the
このため、抽出装置100では、抽出装置100から基準単語と関連性のあるキーワード(単語)を精度よく抽出することができる。また、ストリームデータ200は大容量のデータであることから、ストリームデータ200に含まれる単語に対して、観察している期間内の時系列の変化情報を全て記録する場合は、関連単語の発見の際に時間がかかり、時系列解析処理のボトルネックとなることがある。しかしながら、短時間における単語の出現頻度をバースト特徴量情報510として記録していることから、潜在的な関連単語を効率的に発見することが可能である。
Therefore, the
また、抽出装置100では、正規化後の出現頻度の時系列順の推移が基準単語の正規化後の出現頻度の時系列順の推移と類似する単語を関連単語として抽出することから、ストリームデータ200に含まれる単語の出現頻度の時系列の変化率を分析することにより、たくさんの単語が存在している場合にも、一時的な関連のある単語の中の、言語上の関連性がないために通常は埋もれてしまう関連単語を効果的に抽出することができる。
In addition, the
例えば、世間一般のイベント・トピック等の一例として「日食」、「月食」、「金星の太陽面通過」が3ヶ月などの一期間にあるものとする。この場合、従来の抽出方法では、「日食」に直接的に関連する「月食」については関連単語として抽出できる。しかしながら、直接的には関連しないものの、「日食」と同様に「サングラス」を用いて観測するという「金星の太陽面通過」にかかる「金星」を関連単語として抽出することはできなかった。 For example, it is assumed that “sun eclipse”, “lunar eclipse”, and “passing the sun on Venus” are in one period such as three months as examples of general events and topics. In this case, with the conventional extraction method, “lunar eclipse” directly related to “eclipse” can be extracted as a related word. However, although not directly related, it was not possible to extract “Venus” related to “Venus's passage through the sun”, which is observed using “sunglasses” in the same way as “eclipse”, as a related word.
これに対し、上述した実施形態では、「サングラス」を用いて観測する「日食」の出現回数と、同じく「サングラス」を用いて観測する「金星」の出現回数とに生じている時系列的な類似性をもとに、「金星」を関連単語として抽出することが可能である。 On the other hand, in the above-described embodiment, the time series of occurrences of the occurrence number of “sun eclipse” observed using “sunglasses” and the appearance number of “Venus” observed similarly using “sunglasses”. Based on similar similarity, it is possible to extract “Venus” as a related word.
図10は、実施形態にかかる抽出装置100における処理がコンピュータを用いて具体的に実現されることを示す図である。図10に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
FIG. 10 is a diagram illustrating that the processing in the
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブに挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
The
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、図1に例示した機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
The hard disk drive 1031 stores, for example, an
また、上述した実施形態での処理に必要な設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
In addition, setting data necessary for processing in the above-described embodiment is stored as
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
The
100…抽出装置、101…短時間頻度集計部、102…バースト検出・判定部、103…長時間頻度情報記録部、104…長時間頻度計算・更新部、105…バースト特徴量情報記録部、106…関連単語抽出部、200…ストリームデータ、201…文書ID、202…文書発表期間、203…文書内容、300…辞書情報、301、401、501、511…単語ID、302、402、502、512…単語、400…長時間頻度情報、403…平均頻度、404…観察時間、500…短時間頻度情報、503、513…期間、504、514…出現回数、505、515…正規化値、510…バースト特徴量情報、1000…コンピュータ。
DESCRIPTION OF
Claims (5)
前記集計された各単語の所定時間ごとの出現頻度を蓄積し、各単語における現在までの出現頻度を記録する出現頻度記録部と、
前記集計された各単語の所定時間ごとの出現頻度と、前記記録された各単語における現在までの出現頻度とに基づいて、前記所定時間における前記単語のバーストを検出するバースト検出部と、
前記バーストが検出された単語ごとに、前記所定時間における出現頻度を含むバースト特徴量情報を記録するバースト特徴量情報記録部と、
抽出条件とする期間と、基準単語とを受け付けて、前記期間内の前記バースト特徴量情報における各単語の出現頻度を正規化し、正規化後の出現頻度が前記基準単語の正規化後の出現頻度と類似する単語を関連単語として抽出する関連単語抽出部と、
を備えることを特徴とする抽出装置。 For each predetermined word, a counting unit that counts the appearance frequency of the word in the input stream data every predetermined time;
Appearance frequency recording unit for accumulating the appearance frequency of each of the aggregated words every predetermined time, and recording the appearance frequency of each word up to the present,
A burst detection unit that detects a burst of the word at the predetermined time based on the frequency of occurrence of each of the counted words at a predetermined time and the frequency of appearance of the recorded words up to the present;
A burst feature amount information recording unit that records burst feature amount information including an appearance frequency in the predetermined time for each word in which the burst is detected;
Accepting a period as an extraction condition and a reference word, normalizing the appearance frequency of each word in the burst feature information within the period, and the appearance frequency after normalization is the appearance frequency after normalization of the reference word A related word extraction unit that extracts words similar to
An extraction device comprising:
予め定められた各単語について、入力されたストリームデータに当該単語が出現する出現頻度を所定時間ごとに集計する集計ステップと、
前記集計された各単語の所定時間ごとの出現頻度を蓄積し、各単語における現在までの出現頻度を記録する出現頻度記録ステップと、
前記集計された各単語の所定時間ごとの出現頻度と、前記記録された各単語における現在までの出現頻度とに基づいて、前記所定時間における前記単語のバーストを検出するバースト検出ステップと、
前記バーストが検出された単語ごとに、前記所定時間における出現頻度を含むバースト特徴量情報を記録するバースト特徴量情報記録ステップと、
抽出条件とする期間と、基準単語とを受け付けて、前記期間内の前記バースト特徴量情報における各単語の出現頻度を正規化し、正規化後の出現頻度が前記基準単語の正規化後の出現頻度と類似する単語を関連単語として抽出する関連単語抽出ステップと、
を含むことを特徴とする抽出方法。 An extraction method executed by an extraction device,
For each predetermined word, a counting step of counting the frequency of appearance of the word in the input stream data every predetermined time;
Appearance frequency recording step of accumulating the appearance frequency of each of the counted words for each predetermined time, and recording the appearance frequency of each word up to the present,
A burst detection step of detecting a burst of the word at the predetermined time based on the frequency of occurrence of the totaled words for each predetermined time and the frequency of occurrence of the recorded words up to the present;
Burst feature amount information recording step for recording burst feature amount information including the appearance frequency in the predetermined time for each word in which the burst is detected;
Accepting a period as an extraction condition and a reference word, normalizing the appearance frequency of each word in the burst feature information within the period, and the appearance frequency after normalization is the appearance frequency after normalization of the reference word A related word extraction step of extracting a word similar to as a related word;
The extraction method characterized by including.
予め定められた各単語について、入力されたストリームデータに当該単語が出現する出現頻度を所定時間ごとに集計する集計ステップと、
前記集計された各単語の所定時間ごとの出現頻度を蓄積し、各単語における現在までの出現頻度を記録する出現頻度記録ステップと、
前記集計された各単語の所定時間ごとの出現頻度と、前記記録された各単語における現在までの出現頻度とに基づいて、前記所定時間における前記単語のバーストを検出するバースト検出ステップと、
前記バーストが検出された単語ごとに、前記所定時間における出現頻度を含むバースト特徴量情報を記録するバースト特徴量情報記録ステップと、
抽出条件とする期間と、基準単語とを受け付けて、前記期間内の前記バースト特徴量情報における各単語の出現頻度を正規化し、正規化後の出現頻度が前記基準単語の正規化後の出現頻度と類似する単語を関連単語として抽出する関連単語抽出ステップと、
を実行させるプログラム。 In the computer of the extraction device,
For each predetermined word, a counting step of counting the frequency of appearance of the word in the input stream data every predetermined time;
Appearance frequency recording step of accumulating the appearance frequency of each of the counted words for each predetermined time, and recording the appearance frequency of each word up to the present,
A burst detection step of detecting a burst of the word at the predetermined time based on the frequency of occurrence of the totaled words for each predetermined time and the frequency of occurrence of the recorded words up to the present;
Burst feature amount information recording step for recording burst feature amount information including the appearance frequency in the predetermined time for each word in which the burst is detected;
Accepting a period as an extraction condition and a reference word, normalizing the appearance frequency of each word in the burst feature information within the period, and the appearance frequency after normalization is the appearance frequency after normalization of the reference word A related word extraction step of extracting a word similar to as a related word;
A program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013154872A JP5955817B2 (en) | 2013-07-25 | 2013-07-25 | Extraction apparatus, extraction method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013154872A JP5955817B2 (en) | 2013-07-25 | 2013-07-25 | Extraction apparatus, extraction method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015026206A JP2015026206A (en) | 2015-02-05 |
JP5955817B2 true JP5955817B2 (en) | 2016-07-20 |
Family
ID=52490824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013154872A Expired - Fee Related JP5955817B2 (en) | 2013-07-25 | 2013-07-25 | Extraction apparatus, extraction method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5955817B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7186080B2 (en) * | 2018-12-18 | 2022-12-08 | 日本放送協会 | Text information judgment device and its program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000194745A (en) * | 1998-12-25 | 2000-07-14 | Nec Corp | Trend evaluating device and method |
US7940672B2 (en) * | 2005-09-30 | 2011-05-10 | International Business Machines Corporation | Systems and methods for correlation of burst events among data streams |
JP2008250975A (en) * | 2007-03-08 | 2008-10-16 | Just Syst Corp | Time-series information processor, method and program |
-
2013
- 2013-07-25 JP JP2013154872A patent/JP5955817B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015026206A (en) | 2015-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108170692B (en) | Hotspot event information processing method and device | |
WO2017020451A1 (en) | Information push method and device | |
KR100544514B1 (en) | Method and system for determining relation between search terms in the internet search system | |
RU2517368C2 (en) | Method and apparatus for determining and evaluating significance of words | |
US11755841B2 (en) | Method for updating a knowledge base of a sentiment analysis system | |
US8949242B1 (en) | Semantic document analysis | |
Krstajic et al. | Getting there first: Real-time detection of real-world incidents on Twitter | |
Pervin et al. | Fast, scalable, and context-sensitive detection of trending topics in microblog post streams | |
US9245035B2 (en) | Information processing system, information processing method, program, and non-transitory information storage medium | |
WO2012111226A1 (en) | Time-series document summarization device, time-series document summarization method and computer-readable recording medium | |
US11640420B2 (en) | System and method for automatic summarization of content with event based analysis | |
US10049380B2 (en) | Controversy detector | |
US11036818B2 (en) | Method and system for detecting graph based event in social networks | |
WO2022267325A1 (en) | News popularity calculation method, device and storage medium | |
CN104881447A (en) | Searching method and device | |
Kanhabua et al. | Identifying relevant temporal expressions for real-world events | |
JP5952756B2 (en) | Prediction server, program and method for predicting future number of comments in prediction target content | |
JP6027781B2 (en) | Term extraction device, term extraction method and program | |
CN110019763B (en) | Text filtering method, system, equipment and computer readable storage medium | |
US20160162930A1 (en) | Associating Social Comments with Individual Assets Used in a Campaign | |
JP5955817B2 (en) | Extraction apparatus, extraction method and program | |
WO2016027364A1 (en) | Topic cluster selection device, and search method | |
JP2017188004A (en) | Computing for analyzing time series variation of submission of specific theme in social media in tracing manner | |
Ansah et al. | Sensortree: bursty propagation trees as sensors for protest event detection | |
KR101614551B1 (en) | System and method for extracting keyword using category matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150715 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20151001 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5955817 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |