JP2010020731A - Information analyzing device and information analyzing program - Google Patents
Information analyzing device and information analyzing program Download PDFInfo
- Publication number
- JP2010020731A JP2010020731A JP2008183244A JP2008183244A JP2010020731A JP 2010020731 A JP2010020731 A JP 2010020731A JP 2008183244 A JP2008183244 A JP 2008183244A JP 2008183244 A JP2008183244 A JP 2008183244A JP 2010020731 A JP2010020731 A JP 2010020731A
- Authority
- JP
- Japan
- Prior art keywords
- information
- trend
- natural language
- category
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000007704 transition Effects 0.000 claims abstract description 68
- 238000001514 detection method Methods 0.000 claims abstract description 53
- 238000000605 extraction Methods 0.000 claims description 48
- 238000004458 analytical method Methods 0.000 claims description 42
- 238000011156 evaluation Methods 0.000 claims description 39
- 230000008859 change Effects 0.000 claims description 18
- 238000012544 monitoring process Methods 0.000 abstract description 27
- 230000002596 correlated effect Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 43
- 238000012545 processing Methods 0.000 description 43
- 230000001186 cumulative effect Effects 0.000 description 39
- 230000008569 process Effects 0.000 description 27
- 230000009193 crawling Effects 0.000 description 6
- 238000012854 evaluation process Methods 0.000 description 5
- 239000003607 modifier Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、WEB上にてブログを公開するブロガーの如き情報提供者から提供される情報を分析するための情報分析装置及び情報分析プログラムに関する。 The present invention relates to an information analysis apparatus and an information analysis program for analyzing information provided from an information provider such as a blogger who publishes a blog on the WEB.
従来から、大規模な流行に発展することが期待される物、人、あるいはサービスを流行の初期段階で抽出することにより、新規市場の開拓や、適切な需要予測に基づく物流管理、投資情報としての活用等が可能となり、ビジネス活動を一層効果的に推進し得るものと考えられている。 Conventionally, by extracting goods, people, or services that are expected to develop into a large-scale epidemic at an early stage of the epidemic, new market development, logistics management based on appropriate demand forecasts, and investment information It is considered that business activities can be promoted more effectively.
近年では、一般の人々がインターネットを利用して情報を入手するだけでなく、ブログやSNS(Social Network Service)を介して、仕事、趣味、あるいは社会等に関する様々な情報を発信するようになっていることから、流行に対するインターネットの影響力が注目されている。これに伴い、Web上の情報に基づいて流行アイテムを発見するための方法が提案されている。 In recent years, the general public has not only obtained information using the Internet, but has also transmitted various information related to work, hobbies, society, etc. via blogs and SNS (Social Network Service). As such, the influence of the Internet on the epidemic is drawing attention. Along with this, a method for discovering trendy items based on information on the Web has been proposed.
例えば、所定のWebサーバに利用者がアクセスして情報を取得するサービスにおいて、既に流行したアイテムに関する情報にいち早くアクセスしていた利用者群を把握し、当該利用者群が現在アクセスしている情報を次期流行アイテムとして予測する流行アイテム予測方法が提案されている(例えば、特許文献1参照)。 For example, in a service in which a user accesses a predetermined Web server to acquire information, the user group that has quickly accessed information on items that have already been popular is grasped, and the information that the user group is currently accessing A trendy item prediction method has been proposed that predicts as the next trendy item (see, for example, Patent Document 1).
また、ブログ記事等の情報から抽出したキーワードの注目度、出現頻度、及び、当該キーワードに対する肯定的な意見の割合に基づき、近い将来の流行に関連するキーワードを選定するトレンド予測装置も提案されている(例えば、特許文献2参照)。 In addition, a trend prediction device has been proposed that selects keywords related to a trend in the near future based on the degree of attention of keywords extracted from information such as blog articles, the frequency of appearance, and the proportion of positive opinions about the keywords. (For example, refer to Patent Document 2).
一般的に、マーケティング理論において、あるアイテムが大きな流行に至るには、当該アイテムが属するカテゴリに興味を有する人のみならず、他のカテゴリに興味を有する人の注目をも集める必要があると言われている。 In general, in marketing theory, it is said that in order for an item to become a big fashion, it is necessary to attract not only those who are interested in the category to which the item belongs, but also those who are interested in other categories. It has been broken.
しかし、特許文献1に記載の方法では、過去に流行したアイテムにいち早く着目した利用者群が新たに着目したアイテムが、当該利用者群の注目を集めるのみの小流行に留まるのか、カテゴリの枠を越えた注目を集めて大流行に至るのかまでは判定できない。
However, according to the method described in
また、特許文献2に記載の方法では、キーワードの提供者が誰なのか、キーワードが誰に注目されているのか、キーワードが誰の記事に出現しているのか、キーワードに対して誰が肯定的で誰が否定的なのか等、キーワードに関する情報の発信者の属性を考慮していない。従って、全カテゴリにわたって注目度や出現頻度が上昇しなければ流行の可能性を検出できず、所定のカテゴリから他のカテゴリに注目が波及し始めた状況を把握することも不可能である。
Further, in the method described in
このように、従来の方法では、早期かつ確実に流行アイテムを発見する為の仕組みが不十分であった。 Thus, in the conventional method, the mechanism for discovering a fashion item early and surely was insufficient.
本発明は、上記に鑑みてなされたものであって、将来的に流行につながる可能性の高い情報を、早期かつ確実に発見することができる、情報分析装置及び情報分析プログラムを提供することを目的とする。 The present invention has been made in view of the above, and provides an information analysis apparatus and an information analysis program that can quickly and reliably find information that is likely to lead to a trend in the future. Objective.
この請求項1又は5に記載の情報分析装置又は情報分析プログラムによれば、分析対象の自然言語が属するカテゴリとは異なるカテゴリに属する第1情報提供者によって提供された提供情報における当該自然言語の出現数累積値の変化率が一定の閾値を超えた場合、当該自然言語が流行の初期段階にあると検知手段が判定するので、当該自然言語が属する分野とは異なる他の分野への波及をいち早く検知することができる。これにより、複数分野にわたり注目され始めた段階、かつ、雑誌やテレビ等のマスメディアに取り上げられることで広く一般に流行する前の段階で、当該自然言語を早期かつ確実に発見することができる。
According to the information analysis apparatus or the information analysis program according to
また、今日では、アイテムに対する肯定的な意見が拡大する場合のみでなく、否定的な意見(ネガティブキャンペーン)が拡大することについても、これを早期に発見して防止することが、企業の情報リスクの管理上重要となっている。このような否定的意見の拡大を早期かつ確実に発見することに関しても、本情報分析装置又は情報分析プログラムは有効である。すなわち、分析対象の自然言語が否定的な態様で出現することに関する出現数累積値の変化率が一定の閾値を超えた場合、当該自然言語がネガティブキャンペーンの初期段階にあると検知手段が判定することができ、ネガティブキャンペーンの拡大をも早期かつ確実に発見することができる。 Today, not only when positive opinions about items increase, but also when negative opinions (negative campaigns) expand, it is important to detect and prevent this early on to prevent information risk It is important for management. The present information analysis apparatus or information analysis program is also effective in detecting such an expansion of negative opinions early and reliably. That is, when the rate of change in the number of appearances related to the appearance of the natural language to be analyzed exceeds a certain threshold, the detection means determines that the natural language is in the initial stage of the negative campaign. And the expansion of negative campaigns can be detected early and reliably.
また、請求項2に記載の情報分析装置によれば、情報提供者によって提供された全ての提供情報における自然言語の出現数累積値の変化率が一定の閾値を超えた場合、当該自然言語が流行の初期段階にあると検知手段が判定するので、広く一般的に流行し始めた段階にある自然言語を確実に発見することができる。
Further, according to the information analysis device of
また、請求項3に記載の情報分析装置によれば、自然言語が属するカテゴリと同一のカテゴリに属する第1情報提供者によって提供された提供情報における当該自然言語の出現数累積値の変化率が一定の閾値を超えた場合、当該自然言語が流行の初期段階にあると検知手段が判定するので、同一の分野を得意とする第1情報提供者達によって注目され始めた自然言語を早期に発見することができる。 In addition, according to the information analysis apparatus of the third aspect, the rate of change of the natural language appearance number cumulative value in the provided information provided by the first information provider belonging to the same category as the category to which the natural language belongs is obtained. When a certain threshold is exceeded, the detection means determines that the natural language is in the early stage of the epidemic, so early discovery of the natural language that has begun to attract attention by the first information providers who are good at the same field can do.
また、請求項4に記載の情報分析装置によれば、流行の特定段階にあることが検知された自然言語が提供情報に含まれていたか否かによって、当該提供情報を提供した情報提供者の情報提供における影響度を評価するので、常に最新の流行に対応しながら第1情報提供者を特定し、当該第1情報提供者が提供する情報に基づき次に流行する可能性の高い自然言語を抽出することができる。 In addition, according to the information analysis apparatus of the fourth aspect, depending on whether or not the provided information includes a natural language detected to be in a specific stage of fashion, the information provider who provided the provided information Since the degree of influence in information provision is evaluated, the first information provider is identified while always responding to the latest fashion, and the natural language that is likely to be the next fashion based on the information provided by the first information provider is selected. Can be extracted.
以下に添付図面を参照して、この発明に係る情報分析装置、及び情報分析プログラムの実施の形態を詳細に説明する。 Embodiments of an information analysis apparatus and an information analysis program according to the present invention will be described below in detail with reference to the accompanying drawings.
(構成)
まず、情報分析システムの構成を説明する。図1は情報分析システムの全体構成を機能概念的に示す説明図である。この情報分析システム1は、インターネット等のネットワーク2を介して、情報分析装置3、複数の情報提供装置4、マスメディアデータサーバ5、及び、POS(Point of Sale)データサーバ6、及び端末装置7を相互に通信可能に接続して構成されている。
(Constitution)
First, the configuration of the information analysis system will be described. FIG. 1 is an explanatory diagram conceptually showing the overall configuration of the information analysis system. The
(構成−情報分析装置)
情報分析装置3の構成について説明する。情報分析装置3は、記憶部30、ネットワークインタフェース(以下「ネットワークIF」)31、及び制御部32をバス33にて通信可能に接続して構成されている。
(Configuration-Information analyzer)
The configuration of the
記憶部30は、例えばハードディスクやその他の記録媒体によって構成されており、抽出元テーブル30a、推移データベース(以下「DB」)30b、ランキングDB30c、マスメディアDB30d、及びPOSデータDB30eを備えている。
The storage unit 30 is configured by, for example, a hard disk or other recording medium, and includes an extraction source table 30a, a transition database (hereinafter “DB”) 30b, a ranking
ネットワークIF31は、情報分析装置3がネットワーク2を介した通信を行うための通信制御インターフェースであり、入力手段及び出力手段である。このネットワークIF31は、例えばネットワークボードとして構成されている。
The network IF 31 is a communication control interface for the
制御部32は、情報分析装置3の各部を制御する制御手段であり、機能概念的に、トレンドワード候補抽出部32a、出現数監視部32b、流行検知部32c、推移推測部32d、抽出元評価処理部32e、及び、抽出元更新部32fを備えている。この制御部32は、具体的には、CPU(Central Processing Unit)や、このCPU上で解釈実行される各種のプログラム(OSなどの制御プログラムや、各種の処理手順などを規定したプログラム)、及び、所要プログラムや所要データを格納するための内部メモリを備えて構成される。
The control unit 32 is a control unit that controls each unit of the
次に、上述した記憶部30に格納されている情報の具体的な内容について説明する。抽出元テーブル30aは、情報分析装置3が情報提供装置4から抽出する自然言語の抽出元に関する情報を格納するための抽出元情報格納手段であり、図2(a)に例示するように、テーブル項目として「ブロガID」「URL」「得意カテゴリ」「クラス」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「ブロガID」に対応して格納される情報は、自然言語の抽出元となる情報提供者を一意に識別するための識別情報であり、例えば情報提供者毎に割り当てられた「BID001」等の識別記号を用いることができる。項目「URL」に対応して格納される情報は、各情報提供者から提供される提供情報の格納先を示す情報であり、例えばURLアドレスや、RSS(Rich Site Summary 又は RDF Site Summary)情報等を用いることができる。項目「得意カテゴリ」に対応して格納される情報は、提供する提供情報の内容に応じて各情報提供者が属するカテゴリを特定するための情報であり、例えば「グルメ」、「音楽」等のカテゴリ情報を用いることができ、一つのブロガIDに対して複数のカテゴリ情報を対応付けて格納することもできる。項目「クラス」に対応して格納される情報は、情報提供者の情報提供における影響度を特定するための情報であり、例えば、流行に至る可能性のあるアイテムにいち早く着目するサイバーブロガであることを示す「サイバー」、サイバーブロガと比較して流行に至る可能性のあるアイテムに着目するタイミングは遅いものの、他の情報提供者に対してサイバーブロガよりも強い影響力を有するオピニオンリーダであることを示す「OP」、オピニオンリーダやサイバーブロガに該当しない一般ブロガであることを示す「一般」等の情報を用いることができる。
Next, specific contents of the information stored in the storage unit 30 described above will be described. The extraction source table 30a is extraction source information storage means for storing information about the extraction source of the natural language extracted from the
図1の推移DB30bは、分析対象の自然言語と当該自然言語が属するカテゴリとを相互に対応付けたトレンド候補情報、及び提供情報における自然言語の出現数の推移に関する情報を格納するための推移情報格納手段であり、図3に例示するように、DB項目として「トレンドワード候補」「ワードカテゴリ」「登録日」「計数日」「出現数」「流行検知フラグ」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「トレンドワード候補」に対応して格納される情報は、情報分析装置3によって出現数の推移の監視や流行の特定段階の検知等の分析対象となる自然言語(名詞、動詞、形容詞、文節、あるいは文章を含む。以下「トレンドワード候補」と呼ぶ)を特定するための情報であり、例えば図3に示したように「B級グルメ」「タンバリン」等を格納することができる。項目「ワードカテゴリ」に対応して格納される情報は、各トレンドワード候補が属するカテゴリを特定するカテゴリ情報である。項目「登録日」に対応して格納される情報は、項目「トレンドワード候補」に対応付けて各トレンドワード候補が格納された日を特定する情報である。項目「計数日」に対応して格納される情報は、提供情報における各トレンドワード候補の出現数を計数した日を特定する情報である。項目「出現数」に対応して格納される情報は、提供情報において各トレンドワード候補が出現した数を特定する情報である。例えば、提供情報を提供した第1情報提供者が属するカテゴリ毎(図3における項目「グルメ」「音楽」等に対応)に、各計数日における出現数(図3では出現数)及び登録日から各計数日までの累積出現数(図3では累積)を、各トレンドワード候補に対する肯定的(ポジティブ)な評価がされた場合(図3ではポジ)、及び否定的(ネガティブ)な評価がされた場合(図3ではネガ)の各々の場合について格納させる。さらに、全カテゴリの合計の出現数及び当該合計の累積出現数を格納させる。項目「流行検知フラグ」に対応付けて格納される情報は、各トレンドワード候補がポジティブ又はネガティブな流行の特定段階にあることが流行検知部32cによって検知されているか否かを一意に特定するための情報であり、例えば検知されていない場合は「0」、検知された場合は「1」を格納させることができる。この推移DB30bに格納される各情報は、後述する発見処理、監視処理、及び検知処理において、情報提供装置4からネットワーク2を介して制御部32によって取得され、当該推移DB30bに格納される。
The transition DB 30b of FIG. 1 is trend information for storing trend candidate information in which the natural language to be analyzed and the category to which the natural language belongs are associated with each other, and information regarding the transition of the number of appearances of the natural language in the provided information. As illustrated in FIG. 3, the storage means includes “trend word candidates”, “word categories”, “registration dates”, “counting dates”, “appearance counts”, and “fashion detection flags” as DB items, and information corresponding thereto. Are stored in association with each other. The information stored corresponding to the item “trend word candidate” is the natural language (nouns, verbs, adjectives, phrases) to be analyzed by the
図1のランキングDB30cは、トレンドワード候補の出現数の順位に関する情報を格納するためのランキング情報格納手段であり、図2(b)に例示するように、DB項目として「取得日」「順位」「トレンドワード候補」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「取得日」に対応して格納される情報は、トレンドワード候補のランキングを取得した日を特定する情報である。項目「順位」に対応して格納される情報は、各ランキング取得日における順位を特定する情報である。項目「トレンドワード候補」は、図3の項目「トレンドワード候補」に対応する。これらの各情報をランキングDB30cに格納するタイミングや方法は任意であり、例えば後述する監視処理において出現数監視部32bが各トレンドワード候補の出現数を計数した場合において、計数結果に基づき出現数順にトレンドワード候補を順位付けさせ、当該順位に応じて各情報を格納させることができる。
The
図1のマスメディアDB30dは、マスメディアデータサーバ5から取得した自然言語に関する情報を格納するためのマスメディア情報格納手段であり、図4に例示するように、DB項目として「トレンドワード候補」「ワードカテゴリ」「計数日」「出現数」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「出現数」に対応して格納される情報は、雑誌やテレビ等のマスメディアにおいて各トレンドワード候補が出現した数を特定する情報であり、例えば、マスメディアが属するカテゴリ毎に、各計数日における出現数(図4では時系列)及び登録日から各計数日までの累積出現数(図4では累積)を格納させることができる。これらの各情報をマスメディアDB30dに格納するタイミングや方法は任意であり、例えば後述する監視処理において、マスメディアデータサーバ5からネットワーク2を介して制御部32によって取得され、当該マスメディアDB30dに格納される。
The
図1のPOSデータDB30eは、POSデータサーバ6から取得した自然言語に関する情報を格納するためのPOSデータ情報格納手段であり、図5に例示したように、DB項目として「トレンドワード候補」「ワードカテゴリ」「関連商品」「計上日」「売上高」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「トレンドワード候補」及び項目「ワードカテゴリ」は、図3の項目「トレンドワード候補」及び項目「ワードカテゴリ」に対応する。項目「関連商品」に対応して格納される情報は、各トレンドワード候補に関連付けて連想される商品を特定するための情報であり、図5に例示したように、一つのトレンドワード候補に対して複数の関連商品を特定する情報を格納することもできる(例えば「B級グルメ」に対して「ラーメン」、「餃子」等)。項目「計上日」に対応して格納される情報は、各関連商品についての売上高の計上日を特定するための情報である。項目「売上高」に対応して格納される情報は、各トレンドワード候補に関連する商品の売上高を特定する情報であり、例えば、関連商品毎に、各計上日における売上高(図5では時系列)及び登録日から各計上日までの累積売上高(図5では累積)を格納させることができる。これらの各情報をPOSデータDB30eに格納するタイミングや方法は任意であり、例えば後述する監視処理において、POSデータサーバ6からネットワーク2を介して制御部32によって取得され、当該POSデータDB30eに格納される。
The
(構成−情報提供装置)
図1の情報提供装置4は、例えば、SNS(Social Network Service)サーバや、各種ブログサイトのサーバの如き公知のWebサーバとして構成することができ、その具体的な提供情報の内容は任意である。この情報提供装置4は、情報提供者から提供された情報を格納し、当該格納した情報を情報分析装置3や端末装置7からの要求に応じて当該情報分析装置3に送信する機能を有する。
(Configuration-Information provision device)
The
(構成−端末装置)
図1の端末装置7は、情報提供者が情報分析装置3又は情報提供装置4との間において情報の入出力を行うための端末である。
(Configuration-terminal device)
The
(構成−マスメディアデータサーバ、及びPOSデータサーバ)
図1のマスメディアデータサーバ5は、雑誌やテレビ等のマスメディアにおいて各トレンドワード候補が出現した数を、ワードカテゴリや出現日等と相互に対応付けて特定する情報を格納する。POSデータサーバ6は、各トレンドワード候補に関連する商品の売上高の推移を、ワードカテゴリや売上計上日等と対応付けて特定する情報を格納する。なお、これらのサーバは、格納した情報を、情報分析装置3からの要求に応じて当該情報分析装置3や端末装置7に送信する機能を有するものであり、例えばマスメディアの出現ログデータを記録するデータサーバやWebサーバ等の公知のサーバとして構成することができるためにその詳細な説明は省略する。
(Configuration-Mass Media Data Server and POS Data Server)
The mass
(処理内容)
次に、図1に示した情報分析装置3にて行われる処理について、抽出元更新処理、発見処理、監視処理、検知処理、推測処理、及び、評価処理に大別して説明する。
(Processing content)
Next, the processing performed in the
(処理内容−抽出元更新処理)
まず、抽出元テーブル30aに格納されている情報の内容を更新するための抽出元更新処理について説明する。図6は抽出元更新処理の流れを示したフローチャートである。この抽出元更新処理を、後述する発見処理や監視処理とは非同期に並行して繰り返し実行することにより、発見処理や監視処理において常に最新の情報に基づく抽出元テーブル30aを参照することが可能となる。
(Processing content-Extraction source update process)
First, extraction source update processing for updating the contents of information stored in the extraction source table 30a will be described. FIG. 6 is a flowchart showing the flow of the extraction source update process. By repeatedly executing this extraction source update processing in parallel with the discovery processing and monitoring processing described later, it is possible to always refer to the extraction source table 30a based on the latest information in the discovery processing and monitoring processing. Become.
この抽出元更新処理の前提として、管理者等は、著名な情報提供者のブログを任意の方法で特定した後、この情報提供者及びブログに関する情報を抽出元テーブル30aに設定する。例えば、この情報提供者にブロガIDを付与して項目「ブロガID」の情報とし、このブログのURLアドレスやRSSを項目「URL」の情報として設定し、このブログのカテゴリ及びクラスを特定してそれぞれを項目「得意カテゴリ」と項目「クラス」の情報として設定する。以下、このように初期設定されたブログを「初期設定ブログ」と称する。 As a premise of this extraction source update process, an administrator or the like specifies a blog of a famous information provider by an arbitrary method, and then sets information on the information provider and the blog in the extraction source table 30a. For example, a blogger ID is given to this information provider to make the information of the item “Blogger ID”, the URL address and RSS of this blog are set as the information of the item “URL”, and the category and class of this blog are specified. Each is set as information on the item “special category” and the item “class”. Hereinafter, the blog initialized in this way is referred to as “initial blog”.
このような前提の下、情報提供装置が起動されると、抽出元更新部32fは、抽出元テーブル30aを参照し、情報提供装置4に対するクローリングを行うことで、項目「URL」に対応して格納されているURLアドレスやRSSにて特定される初期設定ブログに対してリンクしている他のブログ(以下、「1次リンク元ブログ」)や、この1次リンク元に対してリンクしている他のブログ(以下、「2次リンク元ブログ」)を特定する。以降同様に、さらにクローリング対象のリンクの階層を深め、n−1次リンク元に対してリンクを張っている他のブログ(以下、「n次リンク元ブログ」)を特定する(ステップSA−1)。以下、これら1次リンク元ブログからn次リンク元ブログを「リンク元ブログ」と総称する。
Under such a premise, when the information providing apparatus is activated, the extraction source update unit 32f refers to the extraction source table 30a and performs crawling with respect to the
続いて、抽出元更新部32fは、リンク元ブログの中から、当該リンク元ブログに対するアクセス数が所定値以上であるリンク元ブログ(以下、「アクセス多数リンク元ブログ」)を特定する(ステップSA−2)。 Subsequently, the extraction source update unit 32f identifies, from among the link source blogs, link source blogs (hereinafter referred to as “access multiple link source blogs”) in which the number of accesses to the link source blog is a predetermined value or more (step SA). -2).
そして、抽出元更新部32fは、このアクセス多数リンク元ブログに関する情報を抽出元テーブル30aに追加等することで、抽出元テーブル30aを更新する。具体的には、抽出元更新部32fは、アクセス多数リンク元ブログの情報提供者にブロガIDを所定方法で発行し、このブロガIDと、アクセス多数リンク元ブログのURLアドレスやRSSを、それぞれ項目「ブロガID」と項目「URL」に対応する情報として追加する(ステップSA−3)。また、初期設定ブログの項目「得意カテゴリ」に設定されている情報を、当該アクセス多数リンク元ブログの項目「得意カテゴリ」にそのまま設定することで、初期設定ブログのカテゴリをアクセス多数リンク元ブログのカテゴリに伝播する(ステップSA−4)。 Then, the extraction source update unit 32f updates the extraction source table 30a by, for example, adding information related to the accessed multiple link source blog to the extraction source table 30a. Specifically, the extraction source update unit 32f issues a blogger ID to the information provider of the access multiple link source blog by a predetermined method, and sets the blogger ID and the URL address and RSS of the access multiple link source blog as items. Information corresponding to “blogger ID” and item “URL” is added (step SA-3). In addition, by setting the information set in the item “good category” of the initial blog as it is in the item “special category” of the accessed many link source blog, the category of the initial setting blog is changed to the Propagate to category (step SA-4).
続いて、抽出元更新部32fは、アクセス多数リンク元ブログのクラスを特定して、抽出元テーブル30aの項目「クラス」に設定する(ステップSA−5)。このため、最初に、過去に実際に流行したアイテムに関して、当該アイテムを特定する自然言語(具体例としてはアイテムの名称)と流行日を取得する。これらの情報は、例えば、推移DB30bにおいて流行検知フラグ「1」が立っているレコードから取得できる。そして、クローリングによって取得したアクセス多数リンク元ブログの情報を自然言語解析し、当該アイテムを特定する自然言語がアクセス多数リンク元ブログにおいて最初に出現した日を特定し、当該特定した日と、先に推移DB30bから取得した実際の流行日との前後関係に応じて、項目「クラス」に設定すべき情報を「サイバー」、「OP」、又は「一般」のいずれかに決定する。例えば、特定した日が実際の流行日より3日以上前である場合には「サイバー」、3日前から3日後である場合には「OP」、4日以降である場合には「一般」とする。このように更新された抽出元テーブル30aに設定されているブログを初期設定ブログとして、以降同様に、ステップSA−1からSA−5を再帰的に行う。 Subsequently, the extraction source update unit 32f specifies the class of the accessed many link source blog, and sets it to the item “class” of the extraction source table 30a (step SA-5). For this reason, first, regarding an item that has actually been popular in the past, a natural language (specifically, the name of the item) that identifies the item and a trend date are acquired. Such information can be acquired from, for example, a record in which the trend detection flag “1” is set in the transition DB 30b. Then, the information of the access multiple link source blog acquired by crawling is analyzed in natural language, the day when the natural language for specifying the item first appears in the access multiple link source blog, the specified date, Information to be set in the item “class” is determined to be “cyber”, “OP”, or “general” according to the context with the actual epidemic date acquired from the transition DB 30b. For example, “Cyber” if the specified date is 3 days or more before the actual epidemic date, “OP” if it is 3 days before or after 3 days, and “General” if it is 4 days or later. To do. The blog set in the extraction source table 30a updated in this way is set as an initial setting blog, and thereafter, similarly, steps SA-1 to SA-5 are recursively performed.
(処理内容−発見処理)
次に、提供情報の中からトレンドワード候補を発見するための発見処理について説明する。図7は発見処理の流れを示したフローチャートである。情報分析装置3に定期的に発見処理を実行させることにより、常に最新の情報に基づいて流行可能性を有するトレンドワード候補を発見することができる。
(Processing content-discovery processing)
Next, a discovery process for discovering trend word candidates from provided information will be described. FIG. 7 is a flowchart showing the flow of the discovery process. By causing the
トレンドワード候補抽出部32aは、情報分析装置3が起動されると、情報提供装置4に対するクローリングを行う(ステップSB−1)。この場合において、トレンドワード候補抽出部32aは抽出元テーブル30aを参照し(ステップSB−2)、項目「クラス」に対応して格納されている情報が「OP」あるいは「サイバー」に該当する情報提供者(以下、第1情報提供者)について、項目「URL」に対応して格納されている情報によって特定される格納先に格納されている提供情報を、トレンドワード候補の抽出元となる情報として取得する(ステップSB−3)。
When the
続いて、トレンドワード候補抽出部32aは、取得した提供情報の内容を、例えば形態素解析や構文解析等の公知の自然言語処理手法を用いて解析する(ステップSB−4)。その結果、提供情報に未知語が含まれていた場合(ステップSB−5、Yes)、当該未知語をトレンドワード候補として推移DB30bの項目「トレンドワード候補」に対応づけて格納するとともに、当該未知語のワードカテゴリ、当該未知語を発見した日時を、それぞれ項目「ワードカテゴリ」及び「登録日」に対応付けて推移DB30bに格納する(ステップSB−6)。未知語の判定方法は任意で、例えば推移DB30bに格納されてない言葉を全て未知語を判定してもよく、あるいは管理者が判断してもよい。未知語のワードカテゴリを特定する方法は任意であり、例えば、抽出元テーブル30aを参照させ、当該未知語を含む提供情報を提供した第1情報提供者が属するカテゴリをワードカテゴリとして特定させてもよく、あるいは、トレンドワード候補抽出部32aによって既存のキーワード分類サイトを参照させ、当該未知語が属するカテゴリを判定させてもよい。
Subsequently, the trend word
ステップSB−5において提供情報に未知語が含まれていなかった場合(ステップSB−5、No)、あるいはステップSB−6において未知語に関する情報を推移DB30bに格納した場合、トレンドワード候補抽出部32aは、クローリング可能な情報提供装置4の全てを巡回したか否かを判定し(ステップSB−7)、全てを巡回したと判定した場合は(ステップSB−7、Yes)、処理を終了する。
When an unknown word is not included in the provided information at step SB-5 (step SB-5, No), or when information about the unknown word is stored in the transition DB 30b at step SB-6, the trend word
(処理内容−監視処理)
次に、提供情報におけるトレンドワード候補の出現数を監視するための監視処理について説明する。図8は監視処理の流れを示したフローチャートである。
(Processing content-Monitoring processing)
Next, a monitoring process for monitoring the number of trend word candidates in the provided information will be described. FIG. 8 is a flowchart showing the flow of the monitoring process.
出現数監視部32bは、情報分析装置3が起動されると、情報提供装置4に対するクローリングを行い、提供情報を取得する(ステップSC−1)。
When the
続いて、出現数監視部32bは推移DB30bを参照してトレンドワード候補を特定し、ステップSC−1で取得した各提供情報において各トレンドワード候補が肯定的(ポジティブ)に評価されているのか、否定的(ネガティブ)に評価されているのかを判定する(ステップSC−2)。この判定については、公知の形態素解析や係り受け解析等の言語解析技術を用いることができ、例えば、トレンドワード候補に対する修飾語が肯定的な意味の所定の修飾語(「おいしい」「楽しい」「お勧め」等)である場合には、当該トレンドワード候補が肯定的に評価されていると判定し、修飾語が否定的な意味の所定の修飾語(「まずい」「つまらない」等)である場合には、当該トレンドワード候補が否定的に評価されていると判定する。 Subsequently, the appearance number monitoring unit 32b identifies the trend word candidate with reference to the transition DB 30b, and whether each trend word candidate is evaluated positively (positive) in each provision information acquired in Step SC-1. It is determined whether the evaluation is negative (negative) (step SC-2). For this determination, a language analysis technique such as a known morphological analysis or dependency analysis can be used. For example, a predetermined modifier (“delicious”, “fun”, “ It is determined that the trend word candidate is positively evaluated, and the modifier is a predetermined modifier having a negative meaning (such as “bad” or “dull”). In this case, it is determined that the trend word candidate is negatively evaluated.
そして、ポジティブな評価に係る出現数、及びネガティブな評価に係る出現数を計数し、各計数結果を全提供情報に含まれている出現数として計数日と対応付けて推移DB30bの項目「出現数」に格納する(ステップSC−3)。 Then, the number of appearances related to the positive evaluation and the number of appearances related to the negative evaluation are counted, and each count result is associated with the counting date as the number of appearances included in all the provided information, and the item “number of appearances” in the transition DB 30b. (Step SC-3).
また、第1情報提供者によって提供された提供情報に含まれていたトレンドワード候補のポジティブな評価に係る出現数、及びネガティブな評価に係る出現数の計数結果については、当該提供情報を提供した各第1情報提供者が属するカテゴリを抽出元テーブル30aに基づき特定し、当該特定したカテゴリ毎に計数結果を推移DB30bの項目「出現数」に格納する(ステップSC−4)。 In addition, for the number of occurrences related to positive evaluation of trend word candidates included in the provision information provided by the first information provider and the count result of the number of occurrences related to negative evaluation, the provision information was provided. The category to which each first information provider belongs is specified based on the extraction source table 30a, and the count result for each specified category is stored in the item “number of appearances” in the transition DB 30b (step SC-4).
さらに、ステップSC−3及びSC−4にて推移DB30bに格納した出現数に基づき、カテゴリ毎及び全ての提供情報に含まれている各トレンドワード候補のポジティブな評価に係る累積出現数、及びネガティブな評価に係る累積出現数を算出し、各々の「累積出現数」を「計数日」と対応付けて推移DB30bに格納し(ステップSC−5)、監視処理を終了する。 Further, based on the number of appearances stored in the transition DB 30b in steps SC-3 and SC-4, the cumulative number of appearances related to the positive evaluation of each trend word candidate included in each category and in all provided information, and negative The cumulative number of appearances related to the evaluation is calculated, each “cumulative number of appearances” is stored in the transition DB 30b in association with the “counting date” (step SC-5), and the monitoring process is terminated.
なお、監視処理において出現数監視部32bによって計数されたトレンドワード候補の出現数推移をグラフ化し、公知の表示手段によって表示させることもできる。図9は、ワードカテゴリ「グルメ」に属する一つのトレンドワード候補について出現数監視部32bによって計数された出現数及び累積出現数の推移を示したグラフであり、横軸は日付、縦軸は出現数又は累積出現数を示す。図9(a)は全ての提供情報に含まれているトレンドワード候補の合計出現数推移を示すグラフであり、上方のグラフは出現数、下方のグラフは累積出現数の推移を示し、実線がポジティブな評価に係る出現数、破線がネガティブな評価に係る出現数の推移を示している。一方、図9(b)は第1情報提供者によって提供された提供情報に含まれているトレンドワード候補のカテゴリ毎の出現数推移を示すグラフであり、実線がポジティブな評価に係る出現数、破線がネガティブな評価に係る出現数、白抜きの棒グラフがポジティブな評価に係る累積出現数、黒塗りの棒グラフがポジティブな評価に係る累積出現数の推移を示している。 It should be noted that the transition of the number of appearances of trend word candidates counted by the number-of-appearance monitoring unit 32b in the monitoring process can be graphed and displayed by known display means. FIG. 9 is a graph showing changes in the number of appearances and the cumulative number of appearances counted by the appearance number monitoring unit 32b for one trend word candidate belonging to the word category “gourmet”, with the horizontal axis representing the date and the vertical axis representing the appearance. Indicates the number or cumulative number of occurrences. FIG. 9A is a graph showing the total number of appearances of trend word candidates included in all provided information. The upper graph shows the number of appearances, the lower graph shows the change in the cumulative number of appearances, and the solid line indicates The number of appearances related to positive evaluations and the broken line show the transition of the number of appearances related to negative evaluations. On the other hand, FIG. 9B is a graph showing changes in the number of appearances of each category of trend word candidates included in the provision information provided by the first information provider, and the solid line represents the number of appearances related to positive evaluation, A broken line indicates the transition of the number of appearances related to the negative evaluation, a white bar graph indicates the cumulative number of appearances related to the positive evaluation, and a black bar graph indicates the transition of the cumulative number of appearances related to the positive evaluation.
(処理内容−検知処理)
次に、トレンドワード候補が流行の特定段階にあることを検知する検知処理について説明する。図10は検知処理の流れを示したフローチャートである。
(Processing content-detection processing)
Next, a detection process for detecting that a trend word candidate is in a specific stage of a trend will be described. FIG. 10 is a flowchart showing the flow of detection processing.
流行検知部32cは、例えば検知処理実行のコマンド入力が行われたり、所定時間が経過したことにより検知処理の開始タイミングであるものと判定した場合(ステップSD−1、Yes)、推移DB30bを参照し(ステップSD−2)、各トレンドワード候補について、ポジティブな評価及びネガティブな評価の各々について、カテゴリ毎の出現数推移及び提供情報全体における合計出現数の推移を取得する(ステップSD−3)。そして、取得した出現数推移に基づき、各トレンドワード候補がポジティブまたはネガティブな流行の特定段階にあるか否かを判定する(ステップSD−4)。 For example, when a detection process execution command is input or a predetermined time has elapsed and it is determined that the detection process start timing is reached (Yes at step SD-1), the fashion detection unit 32c refers to the transition DB 30b. (Step SD-2) For each trend word candidate, for each of the positive evaluation and the negative evaluation, obtain the transition of the number of appearances for each category and the transition of the total number of appearances in the entire provided information (Step SD-3). . Then, based on the acquired number-of-appearance transition, it is determined whether each trend word candidate is in a specific stage of positive or negative epidemic (step SD-4).
流行の特定段階にあるか否かの判定は、具体的には、トレンドワード候補の出現数推移における少なくとも一種以上の判定基準に基づき、当該トレンドワード候補が流行の初期段階にあるか否かを判定する。この判定基準の具体例について以下に示す。 Specifically, the determination as to whether or not the trend word is in a specific stage is based on whether or not the trend word candidate is in the initial stage of the trend based on at least one or more criteria in the trend word candidate appearance transition. judge. A specific example of this criterion will be shown below.
推移DB30bの項目「合計」に対応して格納されているトレンドワード候補の合計出現数の累積値に関して流行検知部32cによって算出させた当該検知処理の実行日までの一定期間における変化率が、予め設定されている閾値を超えている場合には、社会全体における当該トレンドワード候補の注目度が上昇し始めているものと判断することができるので、当該トレンドワード候補が流行の初期段階にあると判定させることができる。例えば、図9(a)に示した例では、2008年3月31日以降において特にポジティブな評価に係る累積出現数の変化率(傾き)が大きくなっており、当該変化率が所定の閾値を超えている場合、当該グラフに対応するトレンドワード候補がポジティブな流行の初期段階にあると判定させることができる。 The rate of change in a certain period until the execution date of the detection process calculated by the trend detection unit 32c with respect to the cumulative value of the total number of occurrences of trend word candidates stored corresponding to the item “total” in the transition DB 30b is If the set threshold value is exceeded, it can be determined that the attention level of the trend word candidate in society as a whole has begun to rise, so it is determined that the trend word candidate is in the early stage of the epidemic. Can be made. For example, in the example shown in FIG. 9A, the rate of change (slope) of the cumulative number of occurrences related to positive evaluation has increased since March 31, 2008, and the rate of change exceeds a predetermined threshold. When it exceeds, it can be determined that the trend word candidate corresponding to the graph is in the initial stage of positive fashion.
また、当該トレンドワード候補が属するワードカテゴリと同一のカテゴリについて計数された当該トレンドワード候補の出現数の累積値に関して流行検知部32cによって算出させた変化率が予め設定されている閾値を超えている場合には、関心のある分野に関して高い同質性を有する第1情報提供者の集団において、当該トレンドワード候補の注目度が上昇し始めているものと判断することができるので、流行の初期段階にあると判定させることができる。例えば、図9はワードカテゴリ「グルメ」に属するトレンドワード候補の出現数推移を示したものであるが、図9(b)では、カテゴリ「グルメ」に属する第1提供情報者によって提供された提供情報おけるポジティブな評価に係る累積出現数の変化率は2008年2月9日の時点から既に高いレベルにある。すなわち、トレンドワード候補のワードカテゴリ「グルメ」と同一のカテゴリに属する第1情報提供者に肯定的に注目され始めていると考えられることから、ポジティブな流行の初期段階にあると判定させることができる。 Further, the rate of change calculated by the trend detection unit 32c with respect to the cumulative value of the number of appearances of the trend word candidate counted for the same category as the word category to which the trend word candidate belongs exceeds a preset threshold. In this case, in the group of first information providers who have high homogeneity in the field of interest, it can be determined that the trend word candidate's attention has begun to rise, so it is in the early stage of the epidemic Can be determined. For example, FIG. 9 shows the transition of the number of trend word candidates belonging to the word category “gourmet”. In FIG. 9B, the provision provided by the first providing information person belonging to the category “gourmet”. The rate of change in the number of cumulative appearances related to positive evaluation in information has already been at a high level since February 9, 2008. That is, since it is considered that the first information provider belonging to the same category as the word category “gourmet” of the trend word candidates is beginning to be positively attracted, it can be determined that the current stage is in the early stage of a positive trend. .
さらに、当該トレンドワード候補が属するワードカテゴリとは異なるいずれかのカテゴリについて計数された当該トレンドワード候補の出現数の累積値に関して流行検知部32cによって算出させた変化率が予め設定されている閾値を超えている場合には、当該トレンドワード候補が属する分野とは異なる他の分野への波及が始まったものと考えられるので、流行の初期段階にあると判定させることができる。例えば、図9(b)では、トレンドワード候補が属するワードカテゴリ「グルメ」とは異なるカテゴリである「芸能」に属する第1提供情報者によって提供された提供情報おけるポジティブな評価に係る累積出現数の変化率が、2008年3月8日の時点で大きくなっている。すなわち、「グルメ」に属するトレンドワード候補への注目が他分野にも波及し、本来は芸能分野のアイテムを得意とする第1情報提供者の間で、肯定的な注目を集め始めていると考えることができる。従って、ポジティブな流行の初期段階にあると判定させることができる。また、カテゴリ「音楽」に属する第1提供情報者によって提供された提供情報おけるネガティブな評価に係る累積出現数の変化率が、2008年3月8日の時点で大きくなっている。従って、本来は音楽分野のアイテムを得意とする第1情報提供者の間では、否定的な注目を集め始めていると考えることができる。従って、ネガティブな流行の初期段階にも該当していると判定させることができる。このような判定結果を利用することで、ポジティブな流行のみならず、ネガティブな流行をも早期に発見し、ネガティブな流行の拡大前に必要な対策を講じることが可能となる。 Further, a threshold value at which the rate of change calculated by the trend detection unit 32c with respect to the cumulative value of the number of occurrences of the trend word candidate counted for any category different from the word category to which the trend word candidate belongs is set in advance. If it exceeds, it is considered that the spread to other fields different from the field to which the trend word candidate belongs has started, so that it can be determined that the trend is in the initial stage. For example, in FIG. 9B, the cumulative number of appearances related to positive evaluation in the provided information provided by the first provided information person belonging to “entertainment” which is a category different from the word category “gourmet” to which the trend word candidate belongs. The rate of change has increased as of March 8, 2008. In other words, attention to the trend word candidates belonging to “gourmet” has spread to other fields, and it is considered that the first information providers who are good at items in the performing arts field are beginning to attract positive attention. be able to. Therefore, it can be determined that the positive epidemic is in the initial stage. In addition, the rate of change of the cumulative number of appearances related to negative evaluation in the provided information provided by the first provided information person belonging to the category “music” is large as of March 8, 2008. Therefore, it can be considered that negative attention has begun to be gathered among first information providers who are good at items in the music field. Therefore, it can be determined that the initial stage of the negative epidemic is also applicable. By using such a determination result, it is possible to detect not only a positive epidemic but also a negative epidemic at an early stage, and take necessary measures before the spread of the negative epidemic.
なお、上記に例示した三種類の判定基準のうち、いずれか一種類のみの判定基準を用いて判定させてもよく、あるいは、任意に組合わせて判定させてもよい。 In addition, you may make it determine using only one type of determination criteria among the three types of determination criteria illustrated above, or you may make it determine combining arbitrarily.
図10に戻り、流行検知部32cは、いずれかのトレンドワード候補がポジティブまたはネガティブな流行の特定段階にあると判定した場合(ステップSD−4、Yes)、当該トレンドワード候補に対応する推移DB30bの項目「流行検知フラグ」に、ポジティブ又はネガティブ流行の特定段階であることを示す情報としてフラグ「1」を格納し(ステップSD−5)、処理を終了する。一方、いずれのトレンドワード候補も流行の特定段階にない場合(ステップSD−4、No)、流行検知部32cは推移DB30bの内容を更新することなく、処理を終了する。 Returning to FIG. 10, when the trend detection unit 32c determines that any trend word candidate is in a positive or negative trend specific stage (step SD-4, Yes), the transition DB 30b corresponding to the trend word candidate. In the item “Fashion detection flag”, the flag “1” is stored as information indicating that the positive or negative trend is in a specific stage (step SD-5), and the process is terminated. On the other hand, when none of the trend word candidates is in the trend specific stage (step SD-4, No), the trend detection unit 32c ends the process without updating the content of the transition DB 30b.
(処理内容−推測処理)
次に、各トレンドワード候補について将来の出現数推移を推測する推測処理について説明する。図11は推測処理の流れを示したフローチャートである。
(Processing content-guess processing)
Next, the estimation process for estimating the future appearance number transition for each trend word candidate will be described. FIG. 11 is a flowchart showing the flow of the estimation process.
推移推測部32dは、例えば特定のトレンドワード候補を推測対象とする推測処理実行のコマンド入力が行われることにより推測処理の開始タイミングであるものと判定すると(ステップSE−1、Yes)、推移DB30bを参照し、推測対象のトレンドワード候補について項目「合計」に対応して格納されている合計出現数の累積値の一定期間の推移を取得する(ステップSE−2)。続いて推移推測部32dは、推測対象以外のトレンドワード候補についての合計出現数の累積値推移を参照し、ステップSE−2で取得した推測対象のトレンドワード候補の累積値推移と類似する推移を有するトレンドワード候補を検索する(ステップSE−3)。累積値推移の類似判断方法としては、時系列データの類似検索を行うための公知の手法を用いることができる。 If the transition estimation unit 32d determines that it is the start timing of the estimation process by performing, for example, a command input for executing the estimation process targeting a specific trend word candidate (step SE-1, Yes), the transition DB 30b , The transition of the accumulated value of the total number of appearances stored corresponding to the item “total” for the trend word candidate to be estimated is acquired over a certain period (step SE-2). Subsequently, the transition estimation unit 32d refers to the cumulative value transition of the total number of appearances for the trend word candidates other than the estimation target, and displays a transition similar to the cumulative value transition of the estimation target trend word candidate acquired in step SE-2. A trend word candidate is searched (step SE-3). As the similarity determination method of the cumulative value transition, a known method for performing similarity search of time series data can be used.
検索の結果、類似する累積値推移を有するトレンドワード候補が抽出された場合(ステップSE−4、Yes)、推移推測部32dは、抽出されたトレンドワード候補の累積値推移に基づき、推測対象のトレンドワード候補の出現数累積値の推測値を特定する(ステップSE−5)。 As a result of the search, when trend word candidates having similar cumulative value transitions are extracted (step SE-4, Yes), the transition estimation unit 32d performs estimation based on the cumulative value transitions of the extracted trend word candidates. An estimated value of the cumulative number of occurrences of trend word candidates is specified (step SE-5).
一方、検索の結果、類似する累積値推移を有するトレンドワード候補が抽出されなかった場合は、(ステップSE−4、No)、累積値推移を取得する期間を変更した上で(ステップSE−6)、再度推測対象のトレンドワード候補について当該変更後の期間の推移を取得する(ステップSE−2)。 On the other hand, if a trend word candidate having a similar cumulative value transition is not extracted as a result of the search (step SE-4, No), the period for acquiring the cumulative value transition is changed (step SE-6). ) Again, the transition of the period after the change is acquired for the trend word candidate to be estimated (step SE-2).
図12は、推測処理において推移推測部32dによって推測された累積値推移を示したグラフである。図12においては、推測対象のトレンドワード候補の累積値推移の実績を実線、推移推測部32dによって推測された累積値推移を点線で表している。図12に示したように、ステップSE−5において、類似する累積値推移を有するトレンドワード候補が複数抽出された場合、各累積値推移の平均値を平均推測値としてもよく、さらに各累積値推移の最大値と最小値を最大推測値及び最小推測値として特定することもできる。 FIG. 12 is a graph showing the cumulative value transition estimated by the transition estimation unit 32d in the estimation process. In FIG. 12, the cumulative value transition of the trend word candidate to be estimated is represented by a solid line, and the cumulative value transition estimated by the transition estimating unit 32d is represented by a dotted line. As shown in FIG. 12, when a plurality of trend word candidates having similar cumulative value transitions are extracted in step SE-5, the average value of each cumulative value transition may be used as the average guess value, and each cumulative value The maximum value and the minimum value of the transition can be specified as the maximum estimated value and the minimum estimated value.
(処理内容−評価処理)
最後に、第1情報提供者の情報提供における影響度を評価する評価処理について説明する。図13は評価処理の流れを示したフローチャートである。
(Processing content-Evaluation processing)
Finally, an evaluation process for evaluating the degree of influence in providing information by the first information provider will be described. FIG. 13 is a flowchart showing the flow of the evaluation process.
抽出元評価処理部32eは、例えば定期的な評価処理実行のコマンド入力が行われることにより評価処理の開始タイミングであるものと判定すると(ステップSF−1)、推移DB30bを参照し、ポジティブの流行検知フラグが「1」であるトレンドワード候補(以下、検知ワード)を特定すると共に、当該検知ワードの登録日、及び流行検知フラグが「1」となったときの計数日を特定する(ステップSF−2)。次に、抽出元評価処理部32eは、検知ワードの登録日から流行検知フラグが「1」となった日までの期間において提供された提供情報を情報提供装置4から取得し、当該取得した提供情報の中から、検知ワードを含む提供情報を抽出し、当該提供情報を提供した情報提供者を特定する(ステップSF−3)。
When the extraction source
続いて、抽出元評価処理部32eは抽出元テーブル30aを参照し(ステップSF−4)、特定した情報提供者について項目「クラス」に対応して格納されている情報が「一般」に該当するか否かを判定する(ステップSF−5)。その結果、「一般」に該当する場合(ステップSF−5、Yes)、当該情報提供者を新たにサイバーブロガであると認定し、項目「クラス」に対応する情報を「一般」から「サイバー」に更新すると共に、項目「得意カテゴリ」に対応する情報として、検知ワードが属するワードカテゴリを追加する(ステップSF−6)。一方、「一般」該当しない場合は(ステップSF−5、No)、項目「クラス」に対応する情報についての更新は行わず、項目「得意カテゴリ」に対応する情報について、検知ワードが属するワードカテゴリの追加のみを行う(ステップSF−7)。
Subsequently, the extraction source
さらに、抽出元評価処理部32eは、抽出元テーブル30aに格納されている情報に基づき、検知ワードが属するワードカテゴリと同一のカテゴリを得意カテゴリとするサイバーブロガを特定し、検知ワードの登録日から流行検知フラグが「1」となった日までの期間において提供した提供情報に当該検知ワードが含まれていないサイバーブロガを抽出する(ステップSF−8)。抽出されたサイバーブロガについては、流行に至る可能性のあるアイテムにいち早く着目する能力が低下したものと判断し、当該ブロガについて項目「クラス」に対応する情報を「サイバー」から「一般」に更新する(ステップSF−9)。このように更新されたブロガのクラスを用いて、次回以降の発見処理が行われる。
Furthermore, based on the information stored in the extraction source table 30a, the extraction source
〔実施の形態に対する変形例〕
以上、本発明に係る実施の形態について説明したが、本発明の具体的な構成及び手段は、特許請求の範囲に記載した各発明の技術的思想の範囲内において、任意に改変及び改良することができる。以下、このような変形例について説明する。
[Modifications to Embodiment]
Although the embodiments of the present invention have been described above, the specific configuration and means of the present invention can be arbitrarily modified and improved within the scope of the technical idea of each invention described in the claims. Can do. Hereinafter, such a modification will be described.
(発見処理について)
実施の形態では、情報分析装置3にて行われる処理について、発見処理、監視処理、検知処理、推測処理、及び評価処理に大別して説明したが、これらのうち発見、監視、検知処理を一つの処理として同時に実行させることもできる。すなわち、情報提供装置4に対するクローリングを行う中で、新たな未知語の発見や、トレンドワード候補の出現数の計数、あるいはトレンドワード候補の流行段階の特定等を並行して制御部32に実行させることができる。
(About discovery processing)
In the embodiment, the processing performed in the
(検知処理について)
実施の形態では、流行検知部32cは、トレンドワード候補に対するポジティブな評価及びネガティブな評価の各々についての提供情報の出現数推移に基づき、ポジティブまたはネガティブな流行の特定段階にあることを検知すると説明したが、他の基準に基づいて検知を行わせてもよい。例えば、ポジティブな評価及びネガティブな評価の合計出現数の推移に基づいて流行の特定段階にあることの検知を行わせるとともに、検知時のポジティブな評価とネガティブな評価の各々の累積出現数を比較し、検知した流行がポジティブ又はネガティブの何れの流行かを判断させてもよい。あるいは、ポジティブ及びネガティブな評価の合計出現数推移に基づいて検知を行い、検知時におけるポジティブな評価の出現数とネガティブな評価の出現数との比率に基づき、検知した流行がポジティブ又はネガティブの何れの流行かを判断させてもよい。
(About detection processing)
In the embodiment, the epidemic detection unit 32c is described as detecting that it is in a specific stage of a positive or negative epidemic based on the transition of the number of appearances of the provided information for each of the positive evaluation and the negative evaluation for the trend word candidate. However, the detection may be performed based on other criteria. For example, based on the transition of the total number of positive evaluations and negative evaluations, it is detected that there is a specific stage of the epidemic, and the cumulative number of occurrences of positive evaluation and negative evaluation at the time of detection is compared. Then, it may be determined whether the detected fashion is positive or negative. Alternatively, detection is performed based on the transition of the total number of occurrences of positive and negative evaluations, and the detected epidemic is either positive or negative based on the ratio between the number of positive evaluations and the number of negative evaluations at the time of detection. You may be able to judge whether it is a fashion.
(変形例−分散や統合について)
また、上述した各電気的構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成できる。例えば、情報分析装置3と情報提供装置4を相互に統合してもよい。
(Modification-About distribution and integration)
Further, each of the electrical components described above is functionally conceptual and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each part is not limited to the one shown in the figure, and all or a part thereof may be functionally or physically distributed / integrated in arbitrary units according to various loads and usage conditions. Can be configured. For example, the
1 情報分析システム
2 ネットワーク
3 情報分析装置
4 情報提供装置
5 マスメディアデータサーバ
6 POSデータサーバ
7 端末装置
30 記憶部
30a 抽出元テーブル
30b 推移DB
30c ランキングDB
30d マスメディアDB
30e POSデータDB
31 ネットワークIF
32 制御部
32a トレンドワード候補抽出部
32b 出現数監視部
32c 流行検知部
32d 推移推測部
32e 抽出元評価処理部
32f 抽出元更新部
33 バス
DESCRIPTION OF
30c ranking DB
30d Mass Media DB
30e POS data DB
31 Network IF
32
Claims (5)
分析対象の自然言語と当該自然言語が属するカテゴリとを相互に対応付けたトレンド候補情報を取得し、前記提供情報を前記情報提供装置から前記ネットワークを介して取得し、当該取得した提供情報に含まれる前記自然言語の出現数の時系列推移を、当該提供情報を提供した前記第1情報提供者が属するカテゴリ毎に計数する計数手段と、
前記トレンド候補情報に基づき特定される前記自然言語に対応する前記カテゴリとは異なるカテゴリについて前記計数手段によって計数された当該自然言語の出現数の変化に基づき、当該自然言語が流行の特定段階にあることを検知する検知手段と、
を備えることを特徴とする情報分析装置。 An information analysis apparatus connected to an information providing apparatus for storing provided information provided by a first information provider so as to be communicable via a network,
Obtain trend candidate information in which a natural language to be analyzed and a category to which the natural language belongs are associated with each other, obtain the provision information from the information provision apparatus via the network, and include in the obtained provision information Counting means for counting the time-series transition of the number of occurrences of the natural language for each category to which the first information provider that provided the provision information belongs,
Based on a change in the number of occurrences of the natural language counted by the counting means for a category different from the category corresponding to the natural language identified based on the trend candidate information, the natural language is in a trend identification stage. Detection means for detecting
An information analysis apparatus comprising:
前記計数手段は、前記情報提供者によって提供された全ての提供情報に含まれている前記自然言語の合計出現数の時系列推移を計数し、
前記検知手段は、前記計数手段によって計数された前記合計出現数の変化に基づき、前記自然言語が流行の特定段階にあることを検知すること、
を特徴とする請求項1に記載の情報分析装置。 The information providing device stores provision information provided by the first information provider and information providers including the first information provider;
The counting means counts a time-series transition of the total number of appearances of the natural language included in all provided information provided by the information provider,
The detecting means detects that the natural language is in a specific stage of fashion based on a change in the total number of appearances counted by the counting means;
The information analysis apparatus according to claim 1.
を特徴とする請求項1又は2に記載の情報分析装置。 The detection means detects that the natural language is in a trend identification stage based on a change in the number of occurrences of the natural language counted for the category corresponding to the natural language specified based on the trend candidate information. To do,
The information analysis apparatus according to claim 1 or 2, characterized by the above.
前記計数手段による当該自然言語の計数開始から前記検知手段による検知までの間に提供された前記提供情報における当該自然言語の有無を、当該提供情報を提供した前記第1情報提供者毎に判定し、当該判定結果に基づき当該第1情報提供者の情報提供における影響度を評価する評価手段と、
前記評価手段によって評価された前記第1情報提供者の影響度に基づき、前記トレンド候補情報の取得対象となる前記第1情報提供者を選定し、当該選定した第1情報提供者により提供された前記提供情報を前記情報提供装置から前記ネットワークを介して取得し、当該取得した提供情報に基づき前記トレンド候補情報を取得するトレンド候補抽出手段と、
を備えること特徴とする請求項1から3のいずれか一項に記載の情報分析装置。 In the case where the detection means detects that the natural language is in a specific stage of fashion,
The presence or absence of the natural language in the provided information provided between the start of counting of the natural language by the counting unit and the detection by the detecting unit is determined for each first information provider who provides the provided information. , An evaluation means for evaluating the degree of influence in the information provision of the first information provider based on the determination result,
Based on the degree of influence of the first information provider evaluated by the evaluation means, the first information provider that is the acquisition target of the trend candidate information is selected and provided by the selected first information provider. Trend candidate extraction means for acquiring the provided information from the information providing apparatus via the network and acquiring the trend candidate information based on the acquired provided information;
The information analysis apparatus according to any one of claims 1 to 3, further comprising:
分析対象の自然言語と当該自然言語が属するカテゴリとを相互に対応付けたトレンド候補情報を取得し、前記提供情報を前記情報提供装置から前記ネットワークを介して取得し、当該取得した提供情報に含まれる前記自然言語の出現数の時系列推移を、当該提供情報を提供した前記第1情報提供者が属するカテゴリ毎に計数する計数ステップと、
前記トレンド候補情報に基づき特定される前記自然言語に対応する前記カテゴリとは異なるカテゴリについて前記計数手段によって計数された当該自然言語の出現数の変化に基づき、当該自然言語が流行の特定段階にあることを検知する検知ステップと、
を前記情報分析装置に実行させることを特徴とする情報分析プログラム。 An information analysis program for operating an information analysis apparatus as a computer communicably connected via a network with respect to an information provision apparatus storing provision information provided by a first information provider,
Obtain trend candidate information in which a natural language to be analyzed and a category to which the natural language belongs are associated with each other, obtain the provision information from the information provision apparatus via the network, and include in the obtained provision information Counting a time-series transition of the number of appearances of the natural language for each category to which the first information provider that provided the provision information belongs,
Based on a change in the number of occurrences of the natural language counted by the counting means for a category different from the category corresponding to the natural language identified based on the trend candidate information, the natural language is in a trend identification stage. A detection step for detecting
Is executed by the information analysis apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008183244A JP2010020731A (en) | 2008-07-14 | 2008-07-14 | Information analyzing device and information analyzing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008183244A JP2010020731A (en) | 2008-07-14 | 2008-07-14 | Information analyzing device and information analyzing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010020731A true JP2010020731A (en) | 2010-01-28 |
Family
ID=41705521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008183244A Withdrawn JP2010020731A (en) | 2008-07-14 | 2008-07-14 | Information analyzing device and information analyzing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010020731A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013196141A (en) * | 2012-03-16 | 2013-09-30 | Ntt Docomo Inc | Terminal device, information display system and information display method |
JP2014081882A (en) * | 2012-10-18 | 2014-05-08 | Hitachi Ltd | Trend analysis device, method and program |
WO2014174797A1 (en) * | 2013-04-23 | 2014-10-30 | 日本電気株式会社 | Information processing system, information processing method, and storage medium |
US9195735B2 (en) | 2012-12-28 | 2015-11-24 | Kabushiki Kaisha Toshiba | Information extracting server, information extracting client, information extracting method, and information extracting program |
JP2015534180A (en) * | 2012-09-28 | 2015-11-26 | ソニー コンピュータ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー | Discover trends by identifying influential consumers |
CN110223092A (en) * | 2018-03-01 | 2019-09-10 | 北京京东尚科信息技术有限公司 | Selection method, apparatus and computer readable storage medium |
JP2019152931A (en) * | 2018-02-28 | 2019-09-12 | ヤフー株式会社 | Information processing device, information processing method, and information processing program |
JP2021093223A (en) * | 2021-03-18 | 2021-06-17 | ヤフー株式会社 | Information processing device, information processing method, and information processing program |
JP6978134B1 (en) * | 2021-06-30 | 2021-12-08 | 祥平 吉岡 | Undeveloped needs Information gathering methods, programs, and systems |
-
2008
- 2008-07-14 JP JP2008183244A patent/JP2010020731A/en not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013196141A (en) * | 2012-03-16 | 2013-09-30 | Ntt Docomo Inc | Terminal device, information display system and information display method |
JP2015534180A (en) * | 2012-09-28 | 2015-11-26 | ソニー コンピュータ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー | Discover trends by identifying influential consumers |
JP2014081882A (en) * | 2012-10-18 | 2014-05-08 | Hitachi Ltd | Trend analysis device, method and program |
US9195735B2 (en) | 2012-12-28 | 2015-11-24 | Kabushiki Kaisha Toshiba | Information extracting server, information extracting client, information extracting method, and information extracting program |
WO2014174797A1 (en) * | 2013-04-23 | 2014-10-30 | 日本電気株式会社 | Information processing system, information processing method, and storage medium |
JP2019152931A (en) * | 2018-02-28 | 2019-09-12 | ヤフー株式会社 | Information processing device, information processing method, and information processing program |
CN110223092A (en) * | 2018-03-01 | 2019-09-10 | 北京京东尚科信息技术有限公司 | Selection method, apparatus and computer readable storage medium |
JP2021093223A (en) * | 2021-03-18 | 2021-06-17 | ヤフー株式会社 | Information processing device, information processing method, and information processing program |
JP7119154B2 (en) | 2021-03-18 | 2022-08-16 | ヤフー株式会社 | Information processing device, information processing method, and information processing program |
JP2022153632A (en) * | 2021-03-18 | 2022-10-12 | ヤフー株式会社 | Information processing device, information processing method, and information processing program |
JP7414906B2 (en) | 2021-03-18 | 2024-01-16 | Lineヤフー株式会社 | Information processing device, information processing method, and information processing program |
JP6978134B1 (en) * | 2021-06-30 | 2021-12-08 | 祥平 吉岡 | Undeveloped needs Information gathering methods, programs, and systems |
JP2023005926A (en) * | 2021-06-30 | 2023-01-18 | 祥平 吉岡 | Undeveloped demand information collection method, program therefor, and system therefor |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010020731A (en) | Information analyzing device and information analyzing program | |
US11134094B2 (en) | Detection of potential security threats in machine data based on pattern detection | |
US10678807B1 (en) | Generating real-time search results | |
US8429177B2 (en) | Using exceptional changes in webgraph snapshots over time for internet entity marking | |
US8352396B2 (en) | Systems and methods for improving web site user experience | |
US9300755B2 (en) | System and method for determining information reliability | |
US9934315B2 (en) | Method and system for web searching | |
US8244752B2 (en) | Classifying search query traffic | |
US8630972B2 (en) | Providing context for web articles | |
US20150347420A1 (en) | Performing Application Searches | |
JP2006146882A (en) | Content evaluation | |
Aggarwal et al. | Using lexical semantic analysis to derive online brand positions: An application to retail marketing research | |
KR20110040147A (en) | Apparatus for question answering based on answer trustworthiness and method thereof | |
Amitay et al. | Trend detection through temporal link analysis | |
JP4962980B2 (en) | Search result classification apparatus and method using click log | |
CN110546633A (en) | Named entity based category tag addition for documents | |
JP5139493B2 (en) | Question answer search apparatus, method and program | |
KR100856916B1 (en) | Information providing method and system of extracting a personalized issue | |
Byers et al. | Searching for privacy: Design and implementation of a P3P-enabled search engine | |
Ramaciotti Morales et al. | Role of the website structure in the diversity of browsing behaviors | |
CN108280102A (en) | Internet behavior recording method, device and user terminal | |
JP2018067193A (en) | Extraction device, extraction method, and extraction program | |
US20150319162A1 (en) | Electronic arrangement and method for entity-specific token set management and related mechanism for offering personalized digital content based on interactions between entities | |
JP4869292B2 (en) | Server, method, and program for recommending search keywords | |
JP4286828B2 (en) | Web page patrol device and web page patrol program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20111004 |