JP2010020731A - Information analyzing device and information analyzing program - Google Patents

Information analyzing device and information analyzing program Download PDF

Info

Publication number
JP2010020731A
JP2010020731A JP2008183244A JP2008183244A JP2010020731A JP 2010020731 A JP2010020731 A JP 2010020731A JP 2008183244 A JP2008183244 A JP 2008183244A JP 2008183244 A JP2008183244 A JP 2008183244A JP 2010020731 A JP2010020731 A JP 2010020731A
Authority
JP
Japan
Prior art keywords
information
trend
natural language
category
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008183244A
Other languages
Japanese (ja)
Inventor
Hiroshi Sawa
博史 澤
Taketo Hayashi
健人 林
Shunsuke Ikegami
俊介 池上
Daiya Hashimoto
大也 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DATASECTION Inc
Original Assignee
DATASECTION Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DATASECTION Inc filed Critical DATASECTION Inc
Priority to JP2008183244A priority Critical patent/JP2010020731A/en
Publication of JP2010020731A publication Critical patent/JP2010020731A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information analyzing device and an information analyzing program which quickly and surely allow a user to find out information that highly likely leads to the trend in the future. <P>SOLUTION: The information analyzing device 3 is provided with a monitoring part 32b for number of appearance times and a trend detection part 32c. The monitoring part 32b acquires trend-candidate information that a trend-word candidate and a category, to which the trend-word candidate belongs, are correlated with each other while acquiring information from an information providing device 4 via a network 2 so as to count a time-series transition of the number of appearance times of the trend-word candidate included in the acquired information for each category to which a first information provider providing the information belongs. The trend detection part 32c detects that the trend-word candidate is in a specific stage of the trend on the basis of changes in the number of appearance times of the trend-word candidate counted by the monitoring part 32b about a category different from the category corresponding to the trend-word candidate specified on the basis of the trend-candidate information. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、WEB上にてブログを公開するブロガーの如き情報提供者から提供される情報を分析するための情報分析装置及び情報分析プログラムに関する。   The present invention relates to an information analysis apparatus and an information analysis program for analyzing information provided from an information provider such as a blogger who publishes a blog on the WEB.

従来から、大規模な流行に発展することが期待される物、人、あるいはサービスを流行の初期段階で抽出することにより、新規市場の開拓や、適切な需要予測に基づく物流管理、投資情報としての活用等が可能となり、ビジネス活動を一層効果的に推進し得るものと考えられている。   Conventionally, by extracting goods, people, or services that are expected to develop into a large-scale epidemic at an early stage of the epidemic, new market development, logistics management based on appropriate demand forecasts, and investment information It is considered that business activities can be promoted more effectively.

近年では、一般の人々がインターネットを利用して情報を入手するだけでなく、ブログやSNS(Social Network Service)を介して、仕事、趣味、あるいは社会等に関する様々な情報を発信するようになっていることから、流行に対するインターネットの影響力が注目されている。これに伴い、Web上の情報に基づいて流行アイテムを発見するための方法が提案されている。   In recent years, the general public has not only obtained information using the Internet, but has also transmitted various information related to work, hobbies, society, etc. via blogs and SNS (Social Network Service). As such, the influence of the Internet on the epidemic is drawing attention. Along with this, a method for discovering trendy items based on information on the Web has been proposed.

例えば、所定のWebサーバに利用者がアクセスして情報を取得するサービスにおいて、既に流行したアイテムに関する情報にいち早くアクセスしていた利用者群を把握し、当該利用者群が現在アクセスしている情報を次期流行アイテムとして予測する流行アイテム予測方法が提案されている(例えば、特許文献1参照)。   For example, in a service in which a user accesses a predetermined Web server to acquire information, the user group that has quickly accessed information on items that have already been popular is grasped, and the information that the user group is currently accessing A trendy item prediction method has been proposed that predicts as the next trendy item (see, for example, Patent Document 1).

また、ブログ記事等の情報から抽出したキーワードの注目度、出現頻度、及び、当該キーワードに対する肯定的な意見の割合に基づき、近い将来の流行に関連するキーワードを選定するトレンド予測装置も提案されている(例えば、特許文献2参照)。   In addition, a trend prediction device has been proposed that selects keywords related to a trend in the near future based on the degree of attention of keywords extracted from information such as blog articles, the frequency of appearance, and the proportion of positive opinions about the keywords. (For example, refer to Patent Document 2).

特開2001−350875号公報(段落0043〜0046)JP 2001-350875 A (paragraphs 0043-0046) 特開2006−227965号公報(段落0042〜0054)JP 2006-227965 A (paragraphs 0042-0054)

一般的に、マーケティング理論において、あるアイテムが大きな流行に至るには、当該アイテムが属するカテゴリに興味を有する人のみならず、他のカテゴリに興味を有する人の注目をも集める必要があると言われている。   In general, in marketing theory, it is said that in order for an item to become a big fashion, it is necessary to attract not only those who are interested in the category to which the item belongs, but also those who are interested in other categories. It has been broken.

しかし、特許文献1に記載の方法では、過去に流行したアイテムにいち早く着目した利用者群が新たに着目したアイテムが、当該利用者群の注目を集めるのみの小流行に留まるのか、カテゴリの枠を越えた注目を集めて大流行に至るのかまでは判定できない。   However, according to the method described in Patent Document 1, whether an item newly focused on by a user group that has quickly focused on an item that has been popular in the past remains a small trend that only attracts the attention of the user group, It is not possible to judge whether it has attracted attention beyond the level of a pandemic.

また、特許文献2に記載の方法では、キーワードの提供者が誰なのか、キーワードが誰に注目されているのか、キーワードが誰の記事に出現しているのか、キーワードに対して誰が肯定的で誰が否定的なのか等、キーワードに関する情報の発信者の属性を考慮していない。従って、全カテゴリにわたって注目度や出現頻度が上昇しなければ流行の可能性を検出できず、所定のカテゴリから他のカテゴリに注目が波及し始めた状況を把握することも不可能である。   Further, in the method described in Patent Document 2, who is the keyword provider, who is attracting attention to the keyword, who the keyword appears in, and who is positive about the keyword. It does not consider the attribute of the sender of information about keywords, such as who is negative. Therefore, if the attention level and appearance frequency do not increase over all categories, the possibility of a fashion cannot be detected, and it is impossible to grasp the situation where attention starts to spread from a predetermined category to another category.

このように、従来の方法では、早期かつ確実に流行アイテムを発見する為の仕組みが不十分であった。   Thus, in the conventional method, the mechanism for discovering a fashion item early and surely was insufficient.

本発明は、上記に鑑みてなされたものであって、将来的に流行につながる可能性の高い情報を、早期かつ確実に発見することができる、情報分析装置及び情報分析プログラムを提供することを目的とする。   The present invention has been made in view of the above, and provides an information analysis apparatus and an information analysis program that can quickly and reliably find information that is likely to lead to a trend in the future. Objective.

この請求項1又は5に記載の情報分析装置又は情報分析プログラムによれば、分析対象の自然言語が属するカテゴリとは異なるカテゴリに属する第1情報提供者によって提供された提供情報における当該自然言語の出現数累積値の変化率が一定の閾値を超えた場合、当該自然言語が流行の初期段階にあると検知手段が判定するので、当該自然言語が属する分野とは異なる他の分野への波及をいち早く検知することができる。これにより、複数分野にわたり注目され始めた段階、かつ、雑誌やテレビ等のマスメディアに取り上げられることで広く一般に流行する前の段階で、当該自然言語を早期かつ確実に発見することができる。   According to the information analysis apparatus or the information analysis program according to claim 1 or 5, the natural language in the provided information provided by the first information provider belonging to a category different from the category to which the natural language to be analyzed belongs. When the rate of change in the cumulative number of occurrences exceeds a certain threshold, the detection means determines that the natural language is in the early stage of the epidemic, so it can spread to other fields different from the field to which the natural language belongs. It can be detected quickly. As a result, the natural language can be discovered early and reliably at a stage where attention has been paid in a plurality of fields and before it is widely popularized by being taken up by mass media such as magazines and television.

また、今日では、アイテムに対する肯定的な意見が拡大する場合のみでなく、否定的な意見(ネガティブキャンペーン)が拡大することについても、これを早期に発見して防止することが、企業の情報リスクの管理上重要となっている。このような否定的意見の拡大を早期かつ確実に発見することに関しても、本情報分析装置又は情報分析プログラムは有効である。すなわち、分析対象の自然言語が否定的な態様で出現することに関する出現数累積値の変化率が一定の閾値を超えた場合、当該自然言語がネガティブキャンペーンの初期段階にあると検知手段が判定することができ、ネガティブキャンペーンの拡大をも早期かつ確実に発見することができる。   Today, not only when positive opinions about items increase, but also when negative opinions (negative campaigns) expand, it is important to detect and prevent this early on to prevent information risk It is important for management. The present information analysis apparatus or information analysis program is also effective in detecting such an expansion of negative opinions early and reliably. That is, when the rate of change in the number of appearances related to the appearance of the natural language to be analyzed exceeds a certain threshold, the detection means determines that the natural language is in the initial stage of the negative campaign. And the expansion of negative campaigns can be detected early and reliably.

また、請求項2に記載の情報分析装置によれば、情報提供者によって提供された全ての提供情報における自然言語の出現数累積値の変化率が一定の閾値を超えた場合、当該自然言語が流行の初期段階にあると検知手段が判定するので、広く一般的に流行し始めた段階にある自然言語を確実に発見することができる。   Further, according to the information analysis device of claim 2, when the rate of change of the accumulated number of occurrences of natural language in all provided information provided by the information provider exceeds a certain threshold, the natural language is Since the detection means determines that it is in the early stage of the epidemic, it is possible to reliably find a natural language that is in a stage where it has begun to prevail widely and generally.

また、請求項3に記載の情報分析装置によれば、自然言語が属するカテゴリと同一のカテゴリに属する第1情報提供者によって提供された提供情報における当該自然言語の出現数累積値の変化率が一定の閾値を超えた場合、当該自然言語が流行の初期段階にあると検知手段が判定するので、同一の分野を得意とする第1情報提供者達によって注目され始めた自然言語を早期に発見することができる。   In addition, according to the information analysis apparatus of the third aspect, the rate of change of the natural language appearance number cumulative value in the provided information provided by the first information provider belonging to the same category as the category to which the natural language belongs is obtained. When a certain threshold is exceeded, the detection means determines that the natural language is in the early stage of the epidemic, so early discovery of the natural language that has begun to attract attention by the first information providers who are good at the same field can do.

また、請求項4に記載の情報分析装置によれば、流行の特定段階にあることが検知された自然言語が提供情報に含まれていたか否かによって、当該提供情報を提供した情報提供者の情報提供における影響度を評価するので、常に最新の流行に対応しながら第1情報提供者を特定し、当該第1情報提供者が提供する情報に基づき次に流行する可能性の高い自然言語を抽出することができる。   In addition, according to the information analysis apparatus of the fourth aspect, depending on whether or not the provided information includes a natural language detected to be in a specific stage of fashion, the information provider who provided the provided information Since the degree of influence in information provision is evaluated, the first information provider is identified while always responding to the latest fashion, and the natural language that is likely to be the next fashion based on the information provided by the first information provider is selected. Can be extracted.

以下に添付図面を参照して、この発明に係る情報分析装置、及び情報分析プログラムの実施の形態を詳細に説明する。   Embodiments of an information analysis apparatus and an information analysis program according to the present invention will be described below in detail with reference to the accompanying drawings.

(構成)
まず、情報分析システムの構成を説明する。図1は情報分析システムの全体構成を機能概念的に示す説明図である。この情報分析システム1は、インターネット等のネットワーク2を介して、情報分析装置3、複数の情報提供装置4、マスメディアデータサーバ5、及び、POS(Point of Sale)データサーバ6、及び端末装置7を相互に通信可能に接続して構成されている。
(Constitution)
First, the configuration of the information analysis system will be described. FIG. 1 is an explanatory diagram conceptually showing the overall configuration of the information analysis system. The information analysis system 1 includes an information analysis device 3, a plurality of information providing devices 4, a mass media data server 5, a POS (Point of Sale) data server 6, and a terminal device 7 via a network 2 such as the Internet. Are connected so that they can communicate with each other.

(構成−情報分析装置)
情報分析装置3の構成について説明する。情報分析装置3は、記憶部30、ネットワークインタフェース(以下「ネットワークIF」)31、及び制御部32をバス33にて通信可能に接続して構成されている。
(Configuration-Information analyzer)
The configuration of the information analysis device 3 will be described. The information analysis apparatus 3 is configured by connecting a storage unit 30, a network interface (hereinafter “network IF”) 31, and a control unit 32 so that they can communicate with each other via a bus 33.

記憶部30は、例えばハードディスクやその他の記録媒体によって構成されており、抽出元テーブル30a、推移データベース(以下「DB」)30b、ランキングDB30c、マスメディアDB30d、及びPOSデータDB30eを備えている。   The storage unit 30 is configured by, for example, a hard disk or other recording medium, and includes an extraction source table 30a, a transition database (hereinafter “DB”) 30b, a ranking DB 30c, a mass media DB 30d, and a POS data DB 30e.

ネットワークIF31は、情報分析装置3がネットワーク2を介した通信を行うための通信制御インターフェースであり、入力手段及び出力手段である。このネットワークIF31は、例えばネットワークボードとして構成されている。   The network IF 31 is a communication control interface for the information analysis apparatus 3 to perform communication via the network 2, and is an input unit and an output unit. The network IF 31 is configured as a network board, for example.

制御部32は、情報分析装置3の各部を制御する制御手段であり、機能概念的に、トレンドワード候補抽出部32a、出現数監視部32b、流行検知部32c、推移推測部32d、抽出元評価処理部32e、及び、抽出元更新部32fを備えている。この制御部32は、具体的には、CPU(Central Processing Unit)や、このCPU上で解釈実行される各種のプログラム(OSなどの制御プログラムや、各種の処理手順などを規定したプログラム)、及び、所要プログラムや所要データを格納するための内部メモリを備えて構成される。   The control unit 32 is a control unit that controls each unit of the information analysis device 3, and functionally conceptually, the trend word candidate extraction unit 32a, the appearance number monitoring unit 32b, the trend detection unit 32c, the transition estimation unit 32d, and the extraction source evaluation A processing unit 32e and an extraction source update unit 32f are provided. Specifically, the control unit 32 includes a CPU (Central Processing Unit), various programs interpreted on the CPU (control programs such as an OS, programs that define various processing procedures, and the like), and And an internal memory for storing required programs and required data.

次に、上述した記憶部30に格納されている情報の具体的な内容について説明する。抽出元テーブル30aは、情報分析装置3が情報提供装置4から抽出する自然言語の抽出元に関する情報を格納するための抽出元情報格納手段であり、図2(a)に例示するように、テーブル項目として「ブロガID」「URL」「得意カテゴリ」「クラス」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「ブロガID」に対応して格納される情報は、自然言語の抽出元となる情報提供者を一意に識別するための識別情報であり、例えば情報提供者毎に割り当てられた「BID001」等の識別記号を用いることができる。項目「URL」に対応して格納される情報は、各情報提供者から提供される提供情報の格納先を示す情報であり、例えばURLアドレスや、RSS(Rich Site Summary 又は RDF Site Summary)情報等を用いることができる。項目「得意カテゴリ」に対応して格納される情報は、提供する提供情報の内容に応じて各情報提供者が属するカテゴリを特定するための情報であり、例えば「グルメ」、「音楽」等のカテゴリ情報を用いることができ、一つのブロガIDに対して複数のカテゴリ情報を対応付けて格納することもできる。項目「クラス」に対応して格納される情報は、情報提供者の情報提供における影響度を特定するための情報であり、例えば、流行に至る可能性のあるアイテムにいち早く着目するサイバーブロガであることを示す「サイバー」、サイバーブロガと比較して流行に至る可能性のあるアイテムに着目するタイミングは遅いものの、他の情報提供者に対してサイバーブロガよりも強い影響力を有するオピニオンリーダであることを示す「OP」、オピニオンリーダやサイバーブロガに該当しない一般ブロガであることを示す「一般」等の情報を用いることができる。   Next, specific contents of the information stored in the storage unit 30 described above will be described. The extraction source table 30a is extraction source information storage means for storing information about the extraction source of the natural language extracted from the information providing device 4 by the information analysis device 3, and as illustrated in FIG. “Blogger ID”, “URL”, “special category”, and “class” are provided as items, and information corresponding to these items is stored in association with each other. The information stored corresponding to the item “blogger ID” is identification information for uniquely identifying the information provider from which the natural language is extracted, for example, “BID001” assigned to each information provider. The identification symbol can be used. The information stored corresponding to the item “URL” is information indicating the storage location of the provision information provided from each information provider. For example, URL address, RSS (Rich Site Summary or RDF Site Summary) information, etc. Can be used. The information stored corresponding to the item “special category” is information for specifying the category to which each information provider belongs according to the content of the provided information to be provided. For example, “Gourmet”, “Music”, etc. Category information can be used, and a plurality of category information can be stored in association with one blogger ID. The information stored in correspondence with the item “class” is information for specifying the degree of influence of the information provider in providing information, for example, a cyber blogger that pays attention to items that may lead to epidemic. "Cyber", an opinion leader that has a stronger influence on other information providers than cyber bloggers, although the timing of focusing on items that may become more popular than cyber bloggers is late The information such as “OP” indicating that it is a general blogger not corresponding to an opinion reader or cyber blogger can be used.

図1の推移DB30bは、分析対象の自然言語と当該自然言語が属するカテゴリとを相互に対応付けたトレンド候補情報、及び提供情報における自然言語の出現数の推移に関する情報を格納するための推移情報格納手段であり、図3に例示するように、DB項目として「トレンドワード候補」「ワードカテゴリ」「登録日」「計数日」「出現数」「流行検知フラグ」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「トレンドワード候補」に対応して格納される情報は、情報分析装置3によって出現数の推移の監視や流行の特定段階の検知等の分析対象となる自然言語(名詞、動詞、形容詞、文節、あるいは文章を含む。以下「トレンドワード候補」と呼ぶ)を特定するための情報であり、例えば図3に示したように「B級グルメ」「タンバリン」等を格納することができる。項目「ワードカテゴリ」に対応して格納される情報は、各トレンドワード候補が属するカテゴリを特定するカテゴリ情報である。項目「登録日」に対応して格納される情報は、項目「トレンドワード候補」に対応付けて各トレンドワード候補が格納された日を特定する情報である。項目「計数日」に対応して格納される情報は、提供情報における各トレンドワード候補の出現数を計数した日を特定する情報である。項目「出現数」に対応して格納される情報は、提供情報において各トレンドワード候補が出現した数を特定する情報である。例えば、提供情報を提供した第1情報提供者が属するカテゴリ毎(図3における項目「グルメ」「音楽」等に対応)に、各計数日における出現数(図3では出現数)及び登録日から各計数日までの累積出現数(図3では累積)を、各トレンドワード候補に対する肯定的(ポジティブ)な評価がされた場合(図3ではポジ)、及び否定的(ネガティブ)な評価がされた場合(図3ではネガ)の各々の場合について格納させる。さらに、全カテゴリの合計の出現数及び当該合計の累積出現数を格納させる。項目「流行検知フラグ」に対応付けて格納される情報は、各トレンドワード候補がポジティブ又はネガティブな流行の特定段階にあることが流行検知部32cによって検知されているか否かを一意に特定するための情報であり、例えば検知されていない場合は「0」、検知された場合は「1」を格納させることができる。この推移DB30bに格納される各情報は、後述する発見処理、監視処理、及び検知処理において、情報提供装置4からネットワーク2を介して制御部32によって取得され、当該推移DB30bに格納される。   The transition DB 30b of FIG. 1 is trend information for storing trend candidate information in which the natural language to be analyzed and the category to which the natural language belongs are associated with each other, and information regarding the transition of the number of appearances of the natural language in the provided information. As illustrated in FIG. 3, the storage means includes “trend word candidates”, “word categories”, “registration dates”, “counting dates”, “appearance counts”, and “fashion detection flags” as DB items, and information corresponding thereto. Are stored in association with each other. The information stored corresponding to the item “trend word candidate” is the natural language (nouns, verbs, adjectives, phrases) to be analyzed by the information analysis device 3 such as monitoring the transition of the number of occurrences and detecting the specific stage of the fashion. Or a sentence (hereinafter referred to as “trend word candidate”), for example, “Class B gourmet”, “tambourine”, etc. can be stored as shown in FIG. The information stored corresponding to the item “word category” is category information that identifies the category to which each trend word candidate belongs. The information stored in association with the item “registration date” is information specifying the date on which each trend word candidate is stored in association with the item “trend word candidate”. The information stored corresponding to the item “counting date” is information that identifies the date on which the number of occurrences of each trend word candidate in the provided information is counted. The information stored corresponding to the item “number of appearances” is information that specifies the number of occurrences of each trend word candidate in the provided information. For example, for each category (corresponding to the items “gourmet”, “music”, etc. in FIG. 3) to which the first information provider who provided the provision information belongs, from the number of appearances (number of appearances in FIG. 3) and the registration date The cumulative number of occurrences up to each counting date (cumulative in FIG. 3) was evaluated when each trend word candidate was positively evaluated (positive in FIG. 3) and negatively evaluated (negative). Each case (negative in FIG. 3) is stored. Furthermore, the total number of appearances of all categories and the total number of appearances are stored. The information stored in association with the item “fashion detection flag” uniquely identifies whether or not each trend word candidate is detected by the fashion detection unit 32c to be in a positive or negative fashion specification stage. For example, “0” can be stored when not detected, and “1” can be stored when detected. Each information stored in the transition DB 30b is acquired by the control unit 32 from the information providing apparatus 4 via the network 2 in the discovery process, the monitoring process, and the detection process described later, and stored in the transition DB 30b.

図1のランキングDB30cは、トレンドワード候補の出現数の順位に関する情報を格納するためのランキング情報格納手段であり、図2(b)に例示するように、DB項目として「取得日」「順位」「トレンドワード候補」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「取得日」に対応して格納される情報は、トレンドワード候補のランキングを取得した日を特定する情報である。項目「順位」に対応して格納される情報は、各ランキング取得日における順位を特定する情報である。項目「トレンドワード候補」は、図3の項目「トレンドワード候補」に対応する。これらの各情報をランキングDB30cに格納するタイミングや方法は任意であり、例えば後述する監視処理において出現数監視部32bが各トレンドワード候補の出現数を計数した場合において、計数結果に基づき出現数順にトレンドワード候補を順位付けさせ、当該順位に応じて各情報を格納させることができる。   The ranking DB 30c in FIG. 1 is ranking information storage means for storing information related to the ranking of the number of occurrences of trend word candidates. As illustrated in FIG. “Trend word candidates” are provided, and information corresponding to these is stored in association with each other. The information stored corresponding to the item “acquisition date” is information specifying the date on which the ranking of the trend word candidate is acquired. The information stored corresponding to the item “ranking” is information that identifies the rank on each ranking acquisition date. The item “trend word candidate” corresponds to the item “trend word candidate” in FIG. The timing and method for storing these pieces of information in the ranking DB 30c are arbitrary. For example, when the number-of-appearance monitoring unit 32b counts the number of appearances of each trend word candidate in the monitoring process to be described later, the order of appearance is based on the count result. Trend word candidates can be ranked and each information can be stored according to the ranking.

図1のマスメディアDB30dは、マスメディアデータサーバ5から取得した自然言語に関する情報を格納するためのマスメディア情報格納手段であり、図4に例示するように、DB項目として「トレンドワード候補」「ワードカテゴリ」「計数日」「出現数」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「出現数」に対応して格納される情報は、雑誌やテレビ等のマスメディアにおいて各トレンドワード候補が出現した数を特定する情報であり、例えば、マスメディアが属するカテゴリ毎に、各計数日における出現数(図4では時系列)及び登録日から各計数日までの累積出現数(図4では累積)を格納させることができる。これらの各情報をマスメディアDB30dに格納するタイミングや方法は任意であり、例えば後述する監視処理において、マスメディアデータサーバ5からネットワーク2を介して制御部32によって取得され、当該マスメディアDB30dに格納される。   The mass media DB 30d in FIG. 1 is mass media information storage means for storing information on natural language acquired from the mass media data server 5. As illustrated in FIG. It has word categories, “counting dates”, and “number of appearances”, and information corresponding to these is stored in association with each other. The information stored corresponding to the item “number of appearances” is information for specifying the number of each trend word candidate appearing in mass media such as magazines and televisions. For example, each count is counted for each category to which the mass media belongs. The number of appearances in a day (time series in FIG. 4) and the cumulative number of appearances from the registration date to each counting date (cumulative in FIG. 4) can be stored. The timing and method for storing these pieces of information in the mass media DB 30d are arbitrary. For example, in the monitoring process described later, the information is acquired from the mass media data server 5 via the network 2 by the control unit 32 and stored in the mass media DB 30d. Is done.

図1のPOSデータDB30eは、POSデータサーバ6から取得した自然言語に関する情報を格納するためのPOSデータ情報格納手段であり、図5に例示したように、DB項目として「トレンドワード候補」「ワードカテゴリ」「関連商品」「計上日」「売上高」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「トレンドワード候補」及び項目「ワードカテゴリ」は、図3の項目「トレンドワード候補」及び項目「ワードカテゴリ」に対応する。項目「関連商品」に対応して格納される情報は、各トレンドワード候補に関連付けて連想される商品を特定するための情報であり、図5に例示したように、一つのトレンドワード候補に対して複数の関連商品を特定する情報を格納することもできる(例えば「B級グルメ」に対して「ラーメン」、「餃子」等)。項目「計上日」に対応して格納される情報は、各関連商品についての売上高の計上日を特定するための情報である。項目「売上高」に対応して格納される情報は、各トレンドワード候補に関連する商品の売上高を特定する情報であり、例えば、関連商品毎に、各計上日における売上高(図5では時系列)及び登録日から各計上日までの累積売上高(図5では累積)を格納させることができる。これらの各情報をPOSデータDB30eに格納するタイミングや方法は任意であり、例えば後述する監視処理において、POSデータサーバ6からネットワーク2を介して制御部32によって取得され、当該POSデータDB30eに格納される。   The POS data DB 30e shown in FIG. 1 is a POS data information storage unit for storing information related to natural language acquired from the POS data server 6. As illustrated in FIG. “Category”, “Related Products”, “Record Date”, and “Sales”, and information corresponding to these items are stored in association with each other. The item “trend word candidate” and the item “word category” correspond to the item “trend word candidate” and the item “word category” in FIG. 3. The information stored corresponding to the item “related product” is information for specifying a product associated with each trend word candidate, and as illustrated in FIG. 5, for one trend word candidate. It is also possible to store information for specifying a plurality of related products (for example, “Ramen”, “Gyoza”, etc. for “Class B gourmet”). The information stored corresponding to the item “recording date” is information for specifying the recording date of sales for each related product. The information stored in correspondence with the item “sales” is information for specifying the sales of the products related to each trend word candidate. For example, the sales on each recording date for each related product (in FIG. 5). (Time series) and cumulative sales (accumulated in FIG. 5) from the registration date to each recording date can be stored. The timing and method for storing these pieces of information in the POS data DB 30e are arbitrary. For example, in the monitoring process described later, the information is acquired from the POS data server 6 by the control unit 32 via the network 2 and stored in the POS data DB 30e. The

(構成−情報提供装置)
図1の情報提供装置4は、例えば、SNS(Social Network Service)サーバや、各種ブログサイトのサーバの如き公知のWebサーバとして構成することができ、その具体的な提供情報の内容は任意である。この情報提供装置4は、情報提供者から提供された情報を格納し、当該格納した情報を情報分析装置3や端末装置7からの要求に応じて当該情報分析装置3に送信する機能を有する。
(Configuration-Information provision device)
The information providing device 4 in FIG. 1 can be configured as a known Web server such as an SNS (Social Network Service) server or a server of various blog sites, and the specific content of the provided information is arbitrary. . The information providing device 4 has a function of storing information provided by an information provider and transmitting the stored information to the information analyzing device 3 in response to a request from the information analyzing device 3 or the terminal device 7.

(構成−端末装置)
図1の端末装置7は、情報提供者が情報分析装置3又は情報提供装置4との間において情報の入出力を行うための端末である。
(Configuration-terminal device)
The terminal device 7 in FIG. 1 is a terminal for an information provider to input and output information with the information analysis device 3 or the information providing device 4.

(構成−マスメディアデータサーバ、及びPOSデータサーバ)
図1のマスメディアデータサーバ5は、雑誌やテレビ等のマスメディアにおいて各トレンドワード候補が出現した数を、ワードカテゴリや出現日等と相互に対応付けて特定する情報を格納する。POSデータサーバ6は、各トレンドワード候補に関連する商品の売上高の推移を、ワードカテゴリや売上計上日等と対応付けて特定する情報を格納する。なお、これらのサーバは、格納した情報を、情報分析装置3からの要求に応じて当該情報分析装置3や端末装置7に送信する機能を有するものであり、例えばマスメディアの出現ログデータを記録するデータサーバやWebサーバ等の公知のサーバとして構成することができるためにその詳細な説明は省略する。
(Configuration-Mass Media Data Server and POS Data Server)
The mass media data server 5 in FIG. 1 stores information that specifies the number of occurrences of each trend word candidate in a mass media such as a magazine or a television in association with a word category, an appearance date, or the like. The POS data server 6 stores information for specifying the transition of sales of products related to each trend word candidate in association with the word category, sales record date, and the like. These servers have a function of transmitting stored information to the information analysis device 3 or the terminal device 7 in response to a request from the information analysis device 3, and record, for example, mass media appearance log data. Since it can be configured as a known server such as a data server or a Web server, detailed description thereof is omitted.

(処理内容)
次に、図1に示した情報分析装置3にて行われる処理について、抽出元更新処理、発見処理、監視処理、検知処理、推測処理、及び、評価処理に大別して説明する。
(Processing content)
Next, the processing performed in the information analysis apparatus 3 shown in FIG. 1 will be described broadly as extraction source update processing, discovery processing, monitoring processing, detection processing, estimation processing, and evaluation processing.

(処理内容−抽出元更新処理)
まず、抽出元テーブル30aに格納されている情報の内容を更新するための抽出元更新処理について説明する。図6は抽出元更新処理の流れを示したフローチャートである。この抽出元更新処理を、後述する発見処理や監視処理とは非同期に並行して繰り返し実行することにより、発見処理や監視処理において常に最新の情報に基づく抽出元テーブル30aを参照することが可能となる。
(Processing content-Extraction source update process)
First, extraction source update processing for updating the contents of information stored in the extraction source table 30a will be described. FIG. 6 is a flowchart showing the flow of the extraction source update process. By repeatedly executing this extraction source update processing in parallel with the discovery processing and monitoring processing described later, it is possible to always refer to the extraction source table 30a based on the latest information in the discovery processing and monitoring processing. Become.

この抽出元更新処理の前提として、管理者等は、著名な情報提供者のブログを任意の方法で特定した後、この情報提供者及びブログに関する情報を抽出元テーブル30aに設定する。例えば、この情報提供者にブロガIDを付与して項目「ブロガID」の情報とし、このブログのURLアドレスやRSSを項目「URL」の情報として設定し、このブログのカテゴリ及びクラスを特定してそれぞれを項目「得意カテゴリ」と項目「クラス」の情報として設定する。以下、このように初期設定されたブログを「初期設定ブログ」と称する。   As a premise of this extraction source update process, an administrator or the like specifies a blog of a famous information provider by an arbitrary method, and then sets information on the information provider and the blog in the extraction source table 30a. For example, a blogger ID is given to this information provider to make the information of the item “Blogger ID”, the URL address and RSS of this blog are set as the information of the item “URL”, and the category and class of this blog are specified. Each is set as information on the item “special category” and the item “class”. Hereinafter, the blog initialized in this way is referred to as “initial blog”.

このような前提の下、情報提供装置が起動されると、抽出元更新部32fは、抽出元テーブル30aを参照し、情報提供装置4に対するクローリングを行うことで、項目「URL」に対応して格納されているURLアドレスやRSSにて特定される初期設定ブログに対してリンクしている他のブログ(以下、「1次リンク元ブログ」)や、この1次リンク元に対してリンクしている他のブログ(以下、「2次リンク元ブログ」)を特定する。以降同様に、さらにクローリング対象のリンクの階層を深め、n−1次リンク元に対してリンクを張っている他のブログ(以下、「n次リンク元ブログ」)を特定する(ステップSA−1)。以下、これら1次リンク元ブログからn次リンク元ブログを「リンク元ブログ」と総称する。   Under such a premise, when the information providing apparatus is activated, the extraction source update unit 32f refers to the extraction source table 30a and performs crawling with respect to the information providing apparatus 4, thereby corresponding to the item “URL”. Link to the stored URL address or other blog linked to the initial setting blog specified by RSS (hereinafter referred to as “primary link source blog”), or link to this primary link source. Identify other blogs (hereinafter referred to as “secondary link source blogs”). Thereafter, in the same manner, the hierarchy of links to be crawled is further deepened, and another blog (hereinafter referred to as “nth-order link source blog”) that links to the n−1th order link source is specified (step SA-1). ). Hereinafter, n-order link source blogs from these primary link source blogs are collectively referred to as “link source blogs”.

続いて、抽出元更新部32fは、リンク元ブログの中から、当該リンク元ブログに対するアクセス数が所定値以上であるリンク元ブログ(以下、「アクセス多数リンク元ブログ」)を特定する(ステップSA−2)。   Subsequently, the extraction source update unit 32f identifies, from among the link source blogs, link source blogs (hereinafter referred to as “access multiple link source blogs”) in which the number of accesses to the link source blog is a predetermined value or more (step SA). -2).

そして、抽出元更新部32fは、このアクセス多数リンク元ブログに関する情報を抽出元テーブル30aに追加等することで、抽出元テーブル30aを更新する。具体的には、抽出元更新部32fは、アクセス多数リンク元ブログの情報提供者にブロガIDを所定方法で発行し、このブロガIDと、アクセス多数リンク元ブログのURLアドレスやRSSを、それぞれ項目「ブロガID」と項目「URL」に対応する情報として追加する(ステップSA−3)。また、初期設定ブログの項目「得意カテゴリ」に設定されている情報を、当該アクセス多数リンク元ブログの項目「得意カテゴリ」にそのまま設定することで、初期設定ブログのカテゴリをアクセス多数リンク元ブログのカテゴリに伝播する(ステップSA−4)。   Then, the extraction source update unit 32f updates the extraction source table 30a by, for example, adding information related to the accessed multiple link source blog to the extraction source table 30a. Specifically, the extraction source update unit 32f issues a blogger ID to the information provider of the access multiple link source blog by a predetermined method, and sets the blogger ID and the URL address and RSS of the access multiple link source blog as items. Information corresponding to “blogger ID” and item “URL” is added (step SA-3). In addition, by setting the information set in the item “good category” of the initial blog as it is in the item “special category” of the accessed many link source blog, the category of the initial setting blog is changed to the Propagate to category (step SA-4).

続いて、抽出元更新部32fは、アクセス多数リンク元ブログのクラスを特定して、抽出元テーブル30aの項目「クラス」に設定する(ステップSA−5)。このため、最初に、過去に実際に流行したアイテムに関して、当該アイテムを特定する自然言語(具体例としてはアイテムの名称)と流行日を取得する。これらの情報は、例えば、推移DB30bにおいて流行検知フラグ「1」が立っているレコードから取得できる。そして、クローリングによって取得したアクセス多数リンク元ブログの情報を自然言語解析し、当該アイテムを特定する自然言語がアクセス多数リンク元ブログにおいて最初に出現した日を特定し、当該特定した日と、先に推移DB30bから取得した実際の流行日との前後関係に応じて、項目「クラス」に設定すべき情報を「サイバー」、「OP」、又は「一般」のいずれかに決定する。例えば、特定した日が実際の流行日より3日以上前である場合には「サイバー」、3日前から3日後である場合には「OP」、4日以降である場合には「一般」とする。このように更新された抽出元テーブル30aに設定されているブログを初期設定ブログとして、以降同様に、ステップSA−1からSA−5を再帰的に行う。   Subsequently, the extraction source update unit 32f specifies the class of the accessed many link source blog, and sets it to the item “class” of the extraction source table 30a (step SA-5). For this reason, first, regarding an item that has actually been popular in the past, a natural language (specifically, the name of the item) that identifies the item and a trend date are acquired. Such information can be acquired from, for example, a record in which the trend detection flag “1” is set in the transition DB 30b. Then, the information of the access multiple link source blog acquired by crawling is analyzed in natural language, the day when the natural language for specifying the item first appears in the access multiple link source blog, the specified date, Information to be set in the item “class” is determined to be “cyber”, “OP”, or “general” according to the context with the actual epidemic date acquired from the transition DB 30b. For example, “Cyber” if the specified date is 3 days or more before the actual epidemic date, “OP” if it is 3 days before or after 3 days, and “General” if it is 4 days or later. To do. The blog set in the extraction source table 30a updated in this way is set as an initial setting blog, and thereafter, similarly, steps SA-1 to SA-5 are recursively performed.

(処理内容−発見処理)
次に、提供情報の中からトレンドワード候補を発見するための発見処理について説明する。図7は発見処理の流れを示したフローチャートである。情報分析装置3に定期的に発見処理を実行させることにより、常に最新の情報に基づいて流行可能性を有するトレンドワード候補を発見することができる。
(Processing content-discovery processing)
Next, a discovery process for discovering trend word candidates from provided information will be described. FIG. 7 is a flowchart showing the flow of the discovery process. By causing the information analysis device 3 to periodically perform a discovery process, it is possible to always find a trend word candidate having a fashion possibility based on the latest information.

トレンドワード候補抽出部32aは、情報分析装置3が起動されると、情報提供装置4に対するクローリングを行う(ステップSB−1)。この場合において、トレンドワード候補抽出部32aは抽出元テーブル30aを参照し(ステップSB−2)、項目「クラス」に対応して格納されている情報が「OP」あるいは「サイバー」に該当する情報提供者(以下、第1情報提供者)について、項目「URL」に対応して格納されている情報によって特定される格納先に格納されている提供情報を、トレンドワード候補の抽出元となる情報として取得する(ステップSB−3)。   When the information analysis device 3 is activated, the trend word candidate extraction unit 32a performs crawling on the information providing device 4 (step SB-1). In this case, the trend word candidate extraction unit 32a refers to the extraction source table 30a (step SB-2), and information stored corresponding to the item “class” corresponds to “OP” or “cyber”. Information about the provider (hereinafter referred to as the first information provider), which is the source of trend word candidate extraction, from the provision information stored in the storage location specified by the information stored corresponding to the item “URL” (Step SB-3).

続いて、トレンドワード候補抽出部32aは、取得した提供情報の内容を、例えば形態素解析や構文解析等の公知の自然言語処理手法を用いて解析する(ステップSB−4)。その結果、提供情報に未知語が含まれていた場合(ステップSB−5、Yes)、当該未知語をトレンドワード候補として推移DB30bの項目「トレンドワード候補」に対応づけて格納するとともに、当該未知語のワードカテゴリ、当該未知語を発見した日時を、それぞれ項目「ワードカテゴリ」及び「登録日」に対応付けて推移DB30bに格納する(ステップSB−6)。未知語の判定方法は任意で、例えば推移DB30bに格納されてない言葉を全て未知語を判定してもよく、あるいは管理者が判断してもよい。未知語のワードカテゴリを特定する方法は任意であり、例えば、抽出元テーブル30aを参照させ、当該未知語を含む提供情報を提供した第1情報提供者が属するカテゴリをワードカテゴリとして特定させてもよく、あるいは、トレンドワード候補抽出部32aによって既存のキーワード分類サイトを参照させ、当該未知語が属するカテゴリを判定させてもよい。   Subsequently, the trend word candidate extraction unit 32a analyzes the content of the acquired provided information using a known natural language processing method such as morphological analysis or syntax analysis (step SB-4). As a result, when an unknown word is included in the provided information (step SB-5, Yes), the unknown word is stored as a trend word candidate in association with the item “trend word candidate” in the transition DB 30b, and the unknown The word category of the word and the date and time when the unknown word was found are stored in the transition DB 30b in association with the items “word category” and “registration date”, respectively (step SB-6). The unknown word determination method is arbitrary. For example, all the words not stored in the transition DB 30b may be determined as unknown words, or the administrator may determine them. The method for specifying the word category of the unknown word is arbitrary. For example, by referring to the extraction source table 30a, the category to which the first information provider that provides the provision information including the unknown word belongs may be specified as the word category. Alternatively, the trend word candidate extraction unit 32a may refer to an existing keyword classification site and determine the category to which the unknown word belongs.

ステップSB−5において提供情報に未知語が含まれていなかった場合(ステップSB−5、No)、あるいはステップSB−6において未知語に関する情報を推移DB30bに格納した場合、トレンドワード候補抽出部32aは、クローリング可能な情報提供装置4の全てを巡回したか否かを判定し(ステップSB−7)、全てを巡回したと判定した場合は(ステップSB−7、Yes)、処理を終了する。   When an unknown word is not included in the provided information at step SB-5 (step SB-5, No), or when information about the unknown word is stored in the transition DB 30b at step SB-6, the trend word candidate extraction unit 32a Determines whether or not all of the crawling information providing apparatuses 4 have been visited (step SB-7), and if it is determined that all have been visited (step SB-7, Yes), the process is terminated.

(処理内容−監視処理)
次に、提供情報におけるトレンドワード候補の出現数を監視するための監視処理について説明する。図8は監視処理の流れを示したフローチャートである。
(Processing content-Monitoring processing)
Next, a monitoring process for monitoring the number of trend word candidates in the provided information will be described. FIG. 8 is a flowchart showing the flow of the monitoring process.

出現数監視部32bは、情報分析装置3が起動されると、情報提供装置4に対するクローリングを行い、提供情報を取得する(ステップSC−1)。   When the information analysis device 3 is activated, the appearance number monitoring unit 32b performs crawling with respect to the information providing device 4 and acquires the provided information (step SC-1).

続いて、出現数監視部32bは推移DB30bを参照してトレンドワード候補を特定し、ステップSC−1で取得した各提供情報において各トレンドワード候補が肯定的(ポジティブ)に評価されているのか、否定的(ネガティブ)に評価されているのかを判定する(ステップSC−2)。この判定については、公知の形態素解析や係り受け解析等の言語解析技術を用いることができ、例えば、トレンドワード候補に対する修飾語が肯定的な意味の所定の修飾語(「おいしい」「楽しい」「お勧め」等)である場合には、当該トレンドワード候補が肯定的に評価されていると判定し、修飾語が否定的な意味の所定の修飾語(「まずい」「つまらない」等)である場合には、当該トレンドワード候補が否定的に評価されていると判定する。   Subsequently, the appearance number monitoring unit 32b identifies the trend word candidate with reference to the transition DB 30b, and whether each trend word candidate is evaluated positively (positive) in each provision information acquired in Step SC-1. It is determined whether the evaluation is negative (negative) (step SC-2). For this determination, a language analysis technique such as a known morphological analysis or dependency analysis can be used. For example, a predetermined modifier (“delicious”, “fun”, “ It is determined that the trend word candidate is positively evaluated, and the modifier is a predetermined modifier having a negative meaning (such as “bad” or “dull”). In this case, it is determined that the trend word candidate is negatively evaluated.

そして、ポジティブな評価に係る出現数、及びネガティブな評価に係る出現数を計数し、各計数結果を全提供情報に含まれている出現数として計数日と対応付けて推移DB30bの項目「出現数」に格納する(ステップSC−3)。   Then, the number of appearances related to the positive evaluation and the number of appearances related to the negative evaluation are counted, and each count result is associated with the counting date as the number of appearances included in all the provided information, and the item “number of appearances” in the transition DB 30b. (Step SC-3).

また、第1情報提供者によって提供された提供情報に含まれていたトレンドワード候補のポジティブな評価に係る出現数、及びネガティブな評価に係る出現数の計数結果については、当該提供情報を提供した各第1情報提供者が属するカテゴリを抽出元テーブル30aに基づき特定し、当該特定したカテゴリ毎に計数結果を推移DB30bの項目「出現数」に格納する(ステップSC−4)。   In addition, for the number of occurrences related to positive evaluation of trend word candidates included in the provision information provided by the first information provider and the count result of the number of occurrences related to negative evaluation, the provision information was provided. The category to which each first information provider belongs is specified based on the extraction source table 30a, and the count result for each specified category is stored in the item “number of appearances” in the transition DB 30b (step SC-4).

さらに、ステップSC−3及びSC−4にて推移DB30bに格納した出現数に基づき、カテゴリ毎及び全ての提供情報に含まれている各トレンドワード候補のポジティブな評価に係る累積出現数、及びネガティブな評価に係る累積出現数を算出し、各々の「累積出現数」を「計数日」と対応付けて推移DB30bに格納し(ステップSC−5)、監視処理を終了する。   Further, based on the number of appearances stored in the transition DB 30b in steps SC-3 and SC-4, the cumulative number of appearances related to the positive evaluation of each trend word candidate included in each category and in all provided information, and negative The cumulative number of appearances related to the evaluation is calculated, each “cumulative number of appearances” is stored in the transition DB 30b in association with the “counting date” (step SC-5), and the monitoring process is terminated.

なお、監視処理において出現数監視部32bによって計数されたトレンドワード候補の出現数推移をグラフ化し、公知の表示手段によって表示させることもできる。図9は、ワードカテゴリ「グルメ」に属する一つのトレンドワード候補について出現数監視部32bによって計数された出現数及び累積出現数の推移を示したグラフであり、横軸は日付、縦軸は出現数又は累積出現数を示す。図9(a)は全ての提供情報に含まれているトレンドワード候補の合計出現数推移を示すグラフであり、上方のグラフは出現数、下方のグラフは累積出現数の推移を示し、実線がポジティブな評価に係る出現数、破線がネガティブな評価に係る出現数の推移を示している。一方、図9(b)は第1情報提供者によって提供された提供情報に含まれているトレンドワード候補のカテゴリ毎の出現数推移を示すグラフであり、実線がポジティブな評価に係る出現数、破線がネガティブな評価に係る出現数、白抜きの棒グラフがポジティブな評価に係る累積出現数、黒塗りの棒グラフがポジティブな評価に係る累積出現数の推移を示している。   It should be noted that the transition of the number of appearances of trend word candidates counted by the number-of-appearance monitoring unit 32b in the monitoring process can be graphed and displayed by known display means. FIG. 9 is a graph showing changes in the number of appearances and the cumulative number of appearances counted by the appearance number monitoring unit 32b for one trend word candidate belonging to the word category “gourmet”, with the horizontal axis representing the date and the vertical axis representing the appearance. Indicates the number or cumulative number of occurrences. FIG. 9A is a graph showing the total number of appearances of trend word candidates included in all provided information. The upper graph shows the number of appearances, the lower graph shows the change in the cumulative number of appearances, and the solid line indicates The number of appearances related to positive evaluations and the broken line show the transition of the number of appearances related to negative evaluations. On the other hand, FIG. 9B is a graph showing changes in the number of appearances of each category of trend word candidates included in the provision information provided by the first information provider, and the solid line represents the number of appearances related to positive evaluation, A broken line indicates the transition of the number of appearances related to the negative evaluation, a white bar graph indicates the cumulative number of appearances related to the positive evaluation, and a black bar graph indicates the transition of the cumulative number of appearances related to the positive evaluation.

(処理内容−検知処理)
次に、トレンドワード候補が流行の特定段階にあることを検知する検知処理について説明する。図10は検知処理の流れを示したフローチャートである。
(Processing content-detection processing)
Next, a detection process for detecting that a trend word candidate is in a specific stage of a trend will be described. FIG. 10 is a flowchart showing the flow of detection processing.

流行検知部32cは、例えば検知処理実行のコマンド入力が行われたり、所定時間が経過したことにより検知処理の開始タイミングであるものと判定した場合(ステップSD−1、Yes)、推移DB30bを参照し(ステップSD−2)、各トレンドワード候補について、ポジティブな評価及びネガティブな評価の各々について、カテゴリ毎の出現数推移及び提供情報全体における合計出現数の推移を取得する(ステップSD−3)。そして、取得した出現数推移に基づき、各トレンドワード候補がポジティブまたはネガティブな流行の特定段階にあるか否かを判定する(ステップSD−4)。   For example, when a detection process execution command is input or a predetermined time has elapsed and it is determined that the detection process start timing is reached (Yes at step SD-1), the fashion detection unit 32c refers to the transition DB 30b. (Step SD-2) For each trend word candidate, for each of the positive evaluation and the negative evaluation, obtain the transition of the number of appearances for each category and the transition of the total number of appearances in the entire provided information (Step SD-3). . Then, based on the acquired number-of-appearance transition, it is determined whether each trend word candidate is in a specific stage of positive or negative epidemic (step SD-4).

流行の特定段階にあるか否かの判定は、具体的には、トレンドワード候補の出現数推移における少なくとも一種以上の判定基準に基づき、当該トレンドワード候補が流行の初期段階にあるか否かを判定する。この判定基準の具体例について以下に示す。   Specifically, the determination as to whether or not the trend word is in a specific stage is based on whether or not the trend word candidate is in the initial stage of the trend based on at least one or more criteria in the trend word candidate appearance transition. judge. A specific example of this criterion will be shown below.

推移DB30bの項目「合計」に対応して格納されているトレンドワード候補の合計出現数の累積値に関して流行検知部32cによって算出させた当該検知処理の実行日までの一定期間における変化率が、予め設定されている閾値を超えている場合には、社会全体における当該トレンドワード候補の注目度が上昇し始めているものと判断することができるので、当該トレンドワード候補が流行の初期段階にあると判定させることができる。例えば、図9(a)に示した例では、2008年3月31日以降において特にポジティブな評価に係る累積出現数の変化率(傾き)が大きくなっており、当該変化率が所定の閾値を超えている場合、当該グラフに対応するトレンドワード候補がポジティブな流行の初期段階にあると判定させることができる。   The rate of change in a certain period until the execution date of the detection process calculated by the trend detection unit 32c with respect to the cumulative value of the total number of occurrences of trend word candidates stored corresponding to the item “total” in the transition DB 30b is If the set threshold value is exceeded, it can be determined that the attention level of the trend word candidate in society as a whole has begun to rise, so it is determined that the trend word candidate is in the early stage of the epidemic. Can be made. For example, in the example shown in FIG. 9A, the rate of change (slope) of the cumulative number of occurrences related to positive evaluation has increased since March 31, 2008, and the rate of change exceeds a predetermined threshold. When it exceeds, it can be determined that the trend word candidate corresponding to the graph is in the initial stage of positive fashion.

また、当該トレンドワード候補が属するワードカテゴリと同一のカテゴリについて計数された当該トレンドワード候補の出現数の累積値に関して流行検知部32cによって算出させた変化率が予め設定されている閾値を超えている場合には、関心のある分野に関して高い同質性を有する第1情報提供者の集団において、当該トレンドワード候補の注目度が上昇し始めているものと判断することができるので、流行の初期段階にあると判定させることができる。例えば、図9はワードカテゴリ「グルメ」に属するトレンドワード候補の出現数推移を示したものであるが、図9(b)では、カテゴリ「グルメ」に属する第1提供情報者によって提供された提供情報おけるポジティブな評価に係る累積出現数の変化率は2008年2月9日の時点から既に高いレベルにある。すなわち、トレンドワード候補のワードカテゴリ「グルメ」と同一のカテゴリに属する第1情報提供者に肯定的に注目され始めていると考えられることから、ポジティブな流行の初期段階にあると判定させることができる。   Further, the rate of change calculated by the trend detection unit 32c with respect to the cumulative value of the number of appearances of the trend word candidate counted for the same category as the word category to which the trend word candidate belongs exceeds a preset threshold. In this case, in the group of first information providers who have high homogeneity in the field of interest, it can be determined that the trend word candidate's attention has begun to rise, so it is in the early stage of the epidemic Can be determined. For example, FIG. 9 shows the transition of the number of trend word candidates belonging to the word category “gourmet”. In FIG. 9B, the provision provided by the first providing information person belonging to the category “gourmet”. The rate of change in the number of cumulative appearances related to positive evaluation in information has already been at a high level since February 9, 2008. That is, since it is considered that the first information provider belonging to the same category as the word category “gourmet” of the trend word candidates is beginning to be positively attracted, it can be determined that the current stage is in the early stage of a positive trend. .

さらに、当該トレンドワード候補が属するワードカテゴリとは異なるいずれかのカテゴリについて計数された当該トレンドワード候補の出現数の累積値に関して流行検知部32cによって算出させた変化率が予め設定されている閾値を超えている場合には、当該トレンドワード候補が属する分野とは異なる他の分野への波及が始まったものと考えられるので、流行の初期段階にあると判定させることができる。例えば、図9(b)では、トレンドワード候補が属するワードカテゴリ「グルメ」とは異なるカテゴリである「芸能」に属する第1提供情報者によって提供された提供情報おけるポジティブな評価に係る累積出現数の変化率が、2008年3月8日の時点で大きくなっている。すなわち、「グルメ」に属するトレンドワード候補への注目が他分野にも波及し、本来は芸能分野のアイテムを得意とする第1情報提供者の間で、肯定的な注目を集め始めていると考えることができる。従って、ポジティブな流行の初期段階にあると判定させることができる。また、カテゴリ「音楽」に属する第1提供情報者によって提供された提供情報おけるネガティブな評価に係る累積出現数の変化率が、2008年3月8日の時点で大きくなっている。従って、本来は音楽分野のアイテムを得意とする第1情報提供者の間では、否定的な注目を集め始めていると考えることができる。従って、ネガティブな流行の初期段階にも該当していると判定させることができる。このような判定結果を利用することで、ポジティブな流行のみならず、ネガティブな流行をも早期に発見し、ネガティブな流行の拡大前に必要な対策を講じることが可能となる。   Further, a threshold value at which the rate of change calculated by the trend detection unit 32c with respect to the cumulative value of the number of occurrences of the trend word candidate counted for any category different from the word category to which the trend word candidate belongs is set in advance. If it exceeds, it is considered that the spread to other fields different from the field to which the trend word candidate belongs has started, so that it can be determined that the trend is in the initial stage. For example, in FIG. 9B, the cumulative number of appearances related to positive evaluation in the provided information provided by the first provided information person belonging to “entertainment” which is a category different from the word category “gourmet” to which the trend word candidate belongs. The rate of change has increased as of March 8, 2008. In other words, attention to the trend word candidates belonging to “gourmet” has spread to other fields, and it is considered that the first information providers who are good at items in the performing arts field are beginning to attract positive attention. be able to. Therefore, it can be determined that the positive epidemic is in the initial stage. In addition, the rate of change of the cumulative number of appearances related to negative evaluation in the provided information provided by the first provided information person belonging to the category “music” is large as of March 8, 2008. Therefore, it can be considered that negative attention has begun to be gathered among first information providers who are good at items in the music field. Therefore, it can be determined that the initial stage of the negative epidemic is also applicable. By using such a determination result, it is possible to detect not only a positive epidemic but also a negative epidemic at an early stage, and take necessary measures before the spread of the negative epidemic.

なお、上記に例示した三種類の判定基準のうち、いずれか一種類のみの判定基準を用いて判定させてもよく、あるいは、任意に組合わせて判定させてもよい。   In addition, you may make it determine using only one type of determination criteria among the three types of determination criteria illustrated above, or you may make it determine combining arbitrarily.

図10に戻り、流行検知部32cは、いずれかのトレンドワード候補がポジティブまたはネガティブな流行の特定段階にあると判定した場合(ステップSD−4、Yes)、当該トレンドワード候補に対応する推移DB30bの項目「流行検知フラグ」に、ポジティブ又はネガティブ流行の特定段階であることを示す情報としてフラグ「1」を格納し(ステップSD−5)、処理を終了する。一方、いずれのトレンドワード候補も流行の特定段階にない場合(ステップSD−4、No)、流行検知部32cは推移DB30bの内容を更新することなく、処理を終了する。   Returning to FIG. 10, when the trend detection unit 32c determines that any trend word candidate is in a positive or negative trend specific stage (step SD-4, Yes), the transition DB 30b corresponding to the trend word candidate. In the item “Fashion detection flag”, the flag “1” is stored as information indicating that the positive or negative trend is in a specific stage (step SD-5), and the process is terminated. On the other hand, when none of the trend word candidates is in the trend specific stage (step SD-4, No), the trend detection unit 32c ends the process without updating the content of the transition DB 30b.

(処理内容−推測処理)
次に、各トレンドワード候補について将来の出現数推移を推測する推測処理について説明する。図11は推測処理の流れを示したフローチャートである。
(Processing content-guess processing)
Next, the estimation process for estimating the future appearance number transition for each trend word candidate will be described. FIG. 11 is a flowchart showing the flow of the estimation process.

推移推測部32dは、例えば特定のトレンドワード候補を推測対象とする推測処理実行のコマンド入力が行われることにより推測処理の開始タイミングであるものと判定すると(ステップSE−1、Yes)、推移DB30bを参照し、推測対象のトレンドワード候補について項目「合計」に対応して格納されている合計出現数の累積値の一定期間の推移を取得する(ステップSE−2)。続いて推移推測部32dは、推測対象以外のトレンドワード候補についての合計出現数の累積値推移を参照し、ステップSE−2で取得した推測対象のトレンドワード候補の累積値推移と類似する推移を有するトレンドワード候補を検索する(ステップSE−3)。累積値推移の類似判断方法としては、時系列データの類似検索を行うための公知の手法を用いることができる。   If the transition estimation unit 32d determines that it is the start timing of the estimation process by performing, for example, a command input for executing the estimation process targeting a specific trend word candidate (step SE-1, Yes), the transition DB 30b , The transition of the accumulated value of the total number of appearances stored corresponding to the item “total” for the trend word candidate to be estimated is acquired over a certain period (step SE-2). Subsequently, the transition estimation unit 32d refers to the cumulative value transition of the total number of appearances for the trend word candidates other than the estimation target, and displays a transition similar to the cumulative value transition of the estimation target trend word candidate acquired in step SE-2. A trend word candidate is searched (step SE-3). As the similarity determination method of the cumulative value transition, a known method for performing similarity search of time series data can be used.

検索の結果、類似する累積値推移を有するトレンドワード候補が抽出された場合(ステップSE−4、Yes)、推移推測部32dは、抽出されたトレンドワード候補の累積値推移に基づき、推測対象のトレンドワード候補の出現数累積値の推測値を特定する(ステップSE−5)。   As a result of the search, when trend word candidates having similar cumulative value transitions are extracted (step SE-4, Yes), the transition estimation unit 32d performs estimation based on the cumulative value transitions of the extracted trend word candidates. An estimated value of the cumulative number of occurrences of trend word candidates is specified (step SE-5).

一方、検索の結果、類似する累積値推移を有するトレンドワード候補が抽出されなかった場合は、(ステップSE−4、No)、累積値推移を取得する期間を変更した上で(ステップSE−6)、再度推測対象のトレンドワード候補について当該変更後の期間の推移を取得する(ステップSE−2)。   On the other hand, if a trend word candidate having a similar cumulative value transition is not extracted as a result of the search (step SE-4, No), the period for acquiring the cumulative value transition is changed (step SE-6). ) Again, the transition of the period after the change is acquired for the trend word candidate to be estimated (step SE-2).

図12は、推測処理において推移推測部32dによって推測された累積値推移を示したグラフである。図12においては、推測対象のトレンドワード候補の累積値推移の実績を実線、推移推測部32dによって推測された累積値推移を点線で表している。図12に示したように、ステップSE−5において、類似する累積値推移を有するトレンドワード候補が複数抽出された場合、各累積値推移の平均値を平均推測値としてもよく、さらに各累積値推移の最大値と最小値を最大推測値及び最小推測値として特定することもできる。   FIG. 12 is a graph showing the cumulative value transition estimated by the transition estimation unit 32d in the estimation process. In FIG. 12, the cumulative value transition of the trend word candidate to be estimated is represented by a solid line, and the cumulative value transition estimated by the transition estimating unit 32d is represented by a dotted line. As shown in FIG. 12, when a plurality of trend word candidates having similar cumulative value transitions are extracted in step SE-5, the average value of each cumulative value transition may be used as the average guess value, and each cumulative value The maximum value and the minimum value of the transition can be specified as the maximum estimated value and the minimum estimated value.

(処理内容−評価処理)
最後に、第1情報提供者の情報提供における影響度を評価する評価処理について説明する。図13は評価処理の流れを示したフローチャートである。
(Processing content-Evaluation processing)
Finally, an evaluation process for evaluating the degree of influence in providing information by the first information provider will be described. FIG. 13 is a flowchart showing the flow of the evaluation process.

抽出元評価処理部32eは、例えば定期的な評価処理実行のコマンド入力が行われることにより評価処理の開始タイミングであるものと判定すると(ステップSF−1)、推移DB30bを参照し、ポジティブの流行検知フラグが「1」であるトレンドワード候補(以下、検知ワード)を特定すると共に、当該検知ワードの登録日、及び流行検知フラグが「1」となったときの計数日を特定する(ステップSF−2)。次に、抽出元評価処理部32eは、検知ワードの登録日から流行検知フラグが「1」となった日までの期間において提供された提供情報を情報提供装置4から取得し、当該取得した提供情報の中から、検知ワードを含む提供情報を抽出し、当該提供情報を提供した情報提供者を特定する(ステップSF−3)。   When the extraction source evaluation processing unit 32e determines that it is the start timing of the evaluation process, for example, by performing a command input for periodic evaluation process execution (step SF-1), the positive epidemic is referred to the transition DB 30b. A trend word candidate whose detection flag is “1” (hereinafter, detection word) is specified, and a registration date of the detection word and a count date when the trend detection flag is “1” are specified (step SF). -2). Next, the extraction source evaluation processing unit 32e acquires provided information provided from the information providing apparatus 4 in a period from the registration date of the detection word to the date when the trend detection flag becomes “1”, and the acquired provision Provided information including a detection word is extracted from the information, and an information provider who provides the provided information is specified (step SF-3).

続いて、抽出元評価処理部32eは抽出元テーブル30aを参照し(ステップSF−4)、特定した情報提供者について項目「クラス」に対応して格納されている情報が「一般」に該当するか否かを判定する(ステップSF−5)。その結果、「一般」に該当する場合(ステップSF−5、Yes)、当該情報提供者を新たにサイバーブロガであると認定し、項目「クラス」に対応する情報を「一般」から「サイバー」に更新すると共に、項目「得意カテゴリ」に対応する情報として、検知ワードが属するワードカテゴリを追加する(ステップSF−6)。一方、「一般」該当しない場合は(ステップSF−5、No)、項目「クラス」に対応する情報についての更新は行わず、項目「得意カテゴリ」に対応する情報について、検知ワードが属するワードカテゴリの追加のみを行う(ステップSF−7)。   Subsequently, the extraction source evaluation processing unit 32e refers to the extraction source table 30a (step SF-4), and information stored in association with the item “class” for the specified information provider corresponds to “general”. It is determined whether or not (step SF-5). As a result, if it falls under “general” (step SF-5, Yes), the information provider is newly recognized as a cyber blogger, and the information corresponding to the item “class” is changed from “general” to “cyber”. The word category to which the detected word belongs is added as information corresponding to the item “special category” (step SF-6). On the other hand, if “general” does not apply (step SF-5, No), the information corresponding to the item “class” is not updated, and the word category to which the detection word belongs for the information corresponding to the item “special category”. Is added only (step SF-7).

さらに、抽出元評価処理部32eは、抽出元テーブル30aに格納されている情報に基づき、検知ワードが属するワードカテゴリと同一のカテゴリを得意カテゴリとするサイバーブロガを特定し、検知ワードの登録日から流行検知フラグが「1」となった日までの期間において提供した提供情報に当該検知ワードが含まれていないサイバーブロガを抽出する(ステップSF−8)。抽出されたサイバーブロガについては、流行に至る可能性のあるアイテムにいち早く着目する能力が低下したものと判断し、当該ブロガについて項目「クラス」に対応する情報を「サイバー」から「一般」に更新する(ステップSF−9)。このように更新されたブロガのクラスを用いて、次回以降の発見処理が行われる。   Furthermore, based on the information stored in the extraction source table 30a, the extraction source evaluation processing unit 32e identifies a cyber blogger that is good at the same category as the word category to which the detection word belongs, and from the registration date of the detection word Cyber bloggers that do not include the detection word in the provided information provided during the period up to the date when the trend detection flag becomes “1” are extracted (step SF-8). Regarding the extracted cyber bloggers, it is judged that the ability to quickly focus on items that may become epidemic has declined, and the information corresponding to the item “class” for the bloggers is updated from “cyber” to “general” (Step SF-9). The next and subsequent discovery processes are performed using the blogger class updated in this way.

〔実施の形態に対する変形例〕
以上、本発明に係る実施の形態について説明したが、本発明の具体的な構成及び手段は、特許請求の範囲に記載した各発明の技術的思想の範囲内において、任意に改変及び改良することができる。以下、このような変形例について説明する。
[Modifications to Embodiment]
Although the embodiments of the present invention have been described above, the specific configuration and means of the present invention can be arbitrarily modified and improved within the scope of the technical idea of each invention described in the claims. Can do. Hereinafter, such a modification will be described.

(発見処理について)
実施の形態では、情報分析装置3にて行われる処理について、発見処理、監視処理、検知処理、推測処理、及び評価処理に大別して説明したが、これらのうち発見、監視、検知処理を一つの処理として同時に実行させることもできる。すなわち、情報提供装置4に対するクローリングを行う中で、新たな未知語の発見や、トレンドワード候補の出現数の計数、あるいはトレンドワード候補の流行段階の特定等を並行して制御部32に実行させることができる。
(About discovery processing)
In the embodiment, the processing performed in the information analysis device 3 has been broadly described as discovery processing, monitoring processing, detection processing, estimation processing, and evaluation processing. Of these, discovery, monitoring, and detection processing are performed as one. It can also be executed simultaneously as a process. That is, while performing crawling with respect to the information providing device 4, the control unit 32 is caused to execute in parallel a discovery of a new unknown word, a count of the number of appearances of trend word candidates, or a trend word candidate's trend stage specification. be able to.

(検知処理について)
実施の形態では、流行検知部32cは、トレンドワード候補に対するポジティブな評価及びネガティブな評価の各々についての提供情報の出現数推移に基づき、ポジティブまたはネガティブな流行の特定段階にあることを検知すると説明したが、他の基準に基づいて検知を行わせてもよい。例えば、ポジティブな評価及びネガティブな評価の合計出現数の推移に基づいて流行の特定段階にあることの検知を行わせるとともに、検知時のポジティブな評価とネガティブな評価の各々の累積出現数を比較し、検知した流行がポジティブ又はネガティブの何れの流行かを判断させてもよい。あるいは、ポジティブ及びネガティブな評価の合計出現数推移に基づいて検知を行い、検知時におけるポジティブな評価の出現数とネガティブな評価の出現数との比率に基づき、検知した流行がポジティブ又はネガティブの何れの流行かを判断させてもよい。
(About detection processing)
In the embodiment, the epidemic detection unit 32c is described as detecting that it is in a specific stage of a positive or negative epidemic based on the transition of the number of appearances of the provided information for each of the positive evaluation and the negative evaluation for the trend word candidate. However, the detection may be performed based on other criteria. For example, based on the transition of the total number of positive evaluations and negative evaluations, it is detected that there is a specific stage of the epidemic, and the cumulative number of occurrences of positive evaluation and negative evaluation at the time of detection is compared. Then, it may be determined whether the detected fashion is positive or negative. Alternatively, detection is performed based on the transition of the total number of occurrences of positive and negative evaluations, and the detected epidemic is either positive or negative based on the ratio between the number of positive evaluations and the number of negative evaluations at the time of detection. You may be able to judge whether it is a fashion.

(変形例−分散や統合について)
また、上述した各電気的構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成できる。例えば、情報分析装置3と情報提供装置4を相互に統合してもよい。
(Modification-About distribution and integration)
Further, each of the electrical components described above is functionally conceptual and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each part is not limited to the one shown in the figure, and all or a part thereof may be functionally or physically distributed / integrated in arbitrary units according to various loads and usage conditions. Can be configured. For example, the information analysis device 3 and the information providing device 4 may be integrated with each other.

情報分析システムの全体構成を機能概念的に示す説明図である。It is explanatory drawing which shows the whole structure of an information analysis system functionally conceptually. 図2(a)は抽出元テーブルに格納されている情報を示す表、図2(b)はランキングDBに格納されている情報を示す表である。2A is a table showing information stored in the extraction source table, and FIG. 2B is a table showing information stored in the ranking DB. 推移DBに格納されている情報を示す表である。It is a table | surface which shows the information stored in transition DB. マスメディアDBに格納されている情報を示す表である。It is a table | surface which shows the information stored in mass media DB. POSデータDBに格納されている情報を示す表である。It is a table | surface which shows the information stored in POS data DB. 抽出元更新処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the extraction source update process. 発見処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the discovery process. 監視処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the monitoring process. トレンドワード候補の出現数及び累積出現数の推移を示したグラフであり、図9(a)は全ての提供情報に含まれているトレンドワード候補の合計出現数推移を示すグラフ、図9(b)は第1情報提供者によって提供された提供情報に含まれているトレンドワード候補のカテゴリ毎の出現数推移を示すグラフである。FIG. 9A is a graph showing changes in the number of appearances of trend word candidates and the cumulative number of appearances, and FIG. 9A is a graph showing changes in the total number of appearances of trend word candidates included in all provided information. ) Is a graph showing changes in the number of appearances for each category of trend word candidates included in the provision information provided by the first information provider. 検知処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the detection process. 推測処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the estimation process. 推測処理において推移推測部によって推測された累積値推移を示したグラフである。It is the graph which showed the cumulative value transition estimated by the transition estimation part in the estimation process. 評価処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the evaluation process.

符号の説明Explanation of symbols

1 情報分析システム
2 ネットワーク
3 情報分析装置
4 情報提供装置
5 マスメディアデータサーバ
6 POSデータサーバ
7 端末装置
30 記憶部
30a 抽出元テーブル
30b 推移DB
30c ランキングDB
30d マスメディアDB
30e POSデータDB
31 ネットワークIF
32 制御部
32a トレンドワード候補抽出部
32b 出現数監視部
32c 流行検知部
32d 推移推測部
32e 抽出元評価処理部
32f 抽出元更新部
33 バス
DESCRIPTION OF SYMBOLS 1 Information analysis system 2 Network 3 Information analysis apparatus 4 Information provision apparatus 5 Mass media data server 6 POS data server 7 Terminal apparatus 30 Memory | storage part 30a Extraction source table 30b Transition DB
30c ranking DB
30d Mass Media DB
30e POS data DB
31 Network IF
32 Control Unit 32a Trend Word Candidate Extraction Unit 32b Appearance Number Monitoring Unit 32c Epidemic Detection Unit 32d Transition Estimation Unit 32e Extraction Source Evaluation Processing Unit 32f Extraction Source Update Unit 33 Bus

Claims (5)

第1情報提供者によって提供された提供情報を格納する情報提供装置に対して、ネットワークを介して通信可能に接続された情報分析装置であって、
分析対象の自然言語と当該自然言語が属するカテゴリとを相互に対応付けたトレンド候補情報を取得し、前記提供情報を前記情報提供装置から前記ネットワークを介して取得し、当該取得した提供情報に含まれる前記自然言語の出現数の時系列推移を、当該提供情報を提供した前記第1情報提供者が属するカテゴリ毎に計数する計数手段と、
前記トレンド候補情報に基づき特定される前記自然言語に対応する前記カテゴリとは異なるカテゴリについて前記計数手段によって計数された当該自然言語の出現数の変化に基づき、当該自然言語が流行の特定段階にあることを検知する検知手段と、
を備えることを特徴とする情報分析装置。
An information analysis apparatus connected to an information providing apparatus for storing provided information provided by a first information provider so as to be communicable via a network,
Obtain trend candidate information in which a natural language to be analyzed and a category to which the natural language belongs are associated with each other, obtain the provision information from the information provision apparatus via the network, and include in the obtained provision information Counting means for counting the time-series transition of the number of occurrences of the natural language for each category to which the first information provider that provided the provision information belongs,
Based on a change in the number of occurrences of the natural language counted by the counting means for a category different from the category corresponding to the natural language identified based on the trend candidate information, the natural language is in a trend identification stage. Detection means for detecting
An information analysis apparatus comprising:
前記情報提供装置が、前記第1情報提供者、及び前記第1情報提供者を含む情報提供者によって提供された提供情報を格納し、
前記計数手段は、前記情報提供者によって提供された全ての提供情報に含まれている前記自然言語の合計出現数の時系列推移を計数し、
前記検知手段は、前記計数手段によって計数された前記合計出現数の変化に基づき、前記自然言語が流行の特定段階にあることを検知すること、
を特徴とする請求項1に記載の情報分析装置。
The information providing device stores provision information provided by the first information provider and information providers including the first information provider;
The counting means counts a time-series transition of the total number of appearances of the natural language included in all provided information provided by the information provider,
The detecting means detects that the natural language is in a specific stage of fashion based on a change in the total number of appearances counted by the counting means;
The information analysis apparatus according to claim 1.
前記検知手段は、前記トレンド候補情報に基づき特定される前記自然言語に対応する前記カテゴリについて計数された当該自然言語の出現数の変化に基づき、当該自然言語が流行の特定段階にあることを検知すること、
を特徴とする請求項1又は2に記載の情報分析装置。
The detection means detects that the natural language is in a trend identification stage based on a change in the number of occurrences of the natural language counted for the category corresponding to the natural language specified based on the trend candidate information. To do,
The information analysis apparatus according to claim 1 or 2, characterized by the above.
前記自然言語が流行の特定段階にあることが前記検知手段によって検知された場合において、
前記計数手段による当該自然言語の計数開始から前記検知手段による検知までの間に提供された前記提供情報における当該自然言語の有無を、当該提供情報を提供した前記第1情報提供者毎に判定し、当該判定結果に基づき当該第1情報提供者の情報提供における影響度を評価する評価手段と、
前記評価手段によって評価された前記第1情報提供者の影響度に基づき、前記トレンド候補情報の取得対象となる前記第1情報提供者を選定し、当該選定した第1情報提供者により提供された前記提供情報を前記情報提供装置から前記ネットワークを介して取得し、当該取得した提供情報に基づき前記トレンド候補情報を取得するトレンド候補抽出手段と、
を備えること特徴とする請求項1から3のいずれか一項に記載の情報分析装置。
In the case where the detection means detects that the natural language is in a specific stage of fashion,
The presence or absence of the natural language in the provided information provided between the start of counting of the natural language by the counting unit and the detection by the detecting unit is determined for each first information provider who provides the provided information. , An evaluation means for evaluating the degree of influence in the information provision of the first information provider based on the determination result,
Based on the degree of influence of the first information provider evaluated by the evaluation means, the first information provider that is the acquisition target of the trend candidate information is selected and provided by the selected first information provider. Trend candidate extraction means for acquiring the provided information from the information providing apparatus via the network and acquiring the trend candidate information based on the acquired provided information;
The information analysis apparatus according to any one of claims 1 to 3, further comprising:
第1情報提供者によって提供された提供情報を格納する情報提供装置に対して、ネットワークを介して通信可能に接続されたコンピュータとしての情報分析装置を動作させる情報分析プログラムであって、
分析対象の自然言語と当該自然言語が属するカテゴリとを相互に対応付けたトレンド候補情報を取得し、前記提供情報を前記情報提供装置から前記ネットワークを介して取得し、当該取得した提供情報に含まれる前記自然言語の出現数の時系列推移を、当該提供情報を提供した前記第1情報提供者が属するカテゴリ毎に計数する計数ステップと、
前記トレンド候補情報に基づき特定される前記自然言語に対応する前記カテゴリとは異なるカテゴリについて前記計数手段によって計数された当該自然言語の出現数の変化に基づき、当該自然言語が流行の特定段階にあることを検知する検知ステップと、
を前記情報分析装置に実行させることを特徴とする情報分析プログラム。
An information analysis program for operating an information analysis apparatus as a computer communicably connected via a network with respect to an information provision apparatus storing provision information provided by a first information provider,
Obtain trend candidate information in which a natural language to be analyzed and a category to which the natural language belongs are associated with each other, obtain the provision information from the information provision apparatus via the network, and include in the obtained provision information Counting a time-series transition of the number of appearances of the natural language for each category to which the first information provider that provided the provision information belongs,
Based on a change in the number of occurrences of the natural language counted by the counting means for a category different from the category corresponding to the natural language identified based on the trend candidate information, the natural language is in a trend identification stage. A detection step for detecting
Is executed by the information analysis apparatus.
JP2008183244A 2008-07-14 2008-07-14 Information analyzing device and information analyzing program Withdrawn JP2010020731A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008183244A JP2010020731A (en) 2008-07-14 2008-07-14 Information analyzing device and information analyzing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008183244A JP2010020731A (en) 2008-07-14 2008-07-14 Information analyzing device and information analyzing program

Publications (1)

Publication Number Publication Date
JP2010020731A true JP2010020731A (en) 2010-01-28

Family

ID=41705521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008183244A Withdrawn JP2010020731A (en) 2008-07-14 2008-07-14 Information analyzing device and information analyzing program

Country Status (1)

Country Link
JP (1) JP2010020731A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196141A (en) * 2012-03-16 2013-09-30 Ntt Docomo Inc Terminal device, information display system and information display method
JP2014081882A (en) * 2012-10-18 2014-05-08 Hitachi Ltd Trend analysis device, method and program
WO2014174797A1 (en) * 2013-04-23 2014-10-30 日本電気株式会社 Information processing system, information processing method, and storage medium
US9195735B2 (en) 2012-12-28 2015-11-24 Kabushiki Kaisha Toshiba Information extracting server, information extracting client, information extracting method, and information extracting program
JP2015534180A (en) * 2012-09-28 2015-11-26 ソニー コンピュータ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー Discover trends by identifying influential consumers
CN110223092A (en) * 2018-03-01 2019-09-10 北京京东尚科信息技术有限公司 Selection method, apparatus and computer readable storage medium
JP2019152931A (en) * 2018-02-28 2019-09-12 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP2021093223A (en) * 2021-03-18 2021-06-17 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP6978134B1 (en) * 2021-06-30 2021-12-08 祥平 吉岡 Undeveloped needs Information gathering methods, programs, and systems

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196141A (en) * 2012-03-16 2013-09-30 Ntt Docomo Inc Terminal device, information display system and information display method
JP2015534180A (en) * 2012-09-28 2015-11-26 ソニー コンピュータ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー Discover trends by identifying influential consumers
JP2014081882A (en) * 2012-10-18 2014-05-08 Hitachi Ltd Trend analysis device, method and program
US9195735B2 (en) 2012-12-28 2015-11-24 Kabushiki Kaisha Toshiba Information extracting server, information extracting client, information extracting method, and information extracting program
WO2014174797A1 (en) * 2013-04-23 2014-10-30 日本電気株式会社 Information processing system, information processing method, and storage medium
JP2019152931A (en) * 2018-02-28 2019-09-12 ヤフー株式会社 Information processing device, information processing method, and information processing program
CN110223092A (en) * 2018-03-01 2019-09-10 北京京东尚科信息技术有限公司 Selection method, apparatus and computer readable storage medium
JP2021093223A (en) * 2021-03-18 2021-06-17 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP7119154B2 (en) 2021-03-18 2022-08-16 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP2022153632A (en) * 2021-03-18 2022-10-12 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP7414906B2 (en) 2021-03-18 2024-01-16 Lineヤフー株式会社 Information processing device, information processing method, and information processing program
JP6978134B1 (en) * 2021-06-30 2021-12-08 祥平 吉岡 Undeveloped needs Information gathering methods, programs, and systems
JP2023005926A (en) * 2021-06-30 2023-01-18 祥平 吉岡 Undeveloped demand information collection method, program therefor, and system therefor

Similar Documents

Publication Publication Date Title
JP2010020731A (en) Information analyzing device and information analyzing program
US11134094B2 (en) Detection of potential security threats in machine data based on pattern detection
US10678807B1 (en) Generating real-time search results
US8429177B2 (en) Using exceptional changes in webgraph snapshots over time for internet entity marking
US8352396B2 (en) Systems and methods for improving web site user experience
US9300755B2 (en) System and method for determining information reliability
US9934315B2 (en) Method and system for web searching
US8244752B2 (en) Classifying search query traffic
US8630972B2 (en) Providing context for web articles
US20150347420A1 (en) Performing Application Searches
JP2006146882A (en) Content evaluation
Aggarwal et al. Using lexical semantic analysis to derive online brand positions: An application to retail marketing research
KR20110040147A (en) Apparatus for question answering based on answer trustworthiness and method thereof
Amitay et al. Trend detection through temporal link analysis
JP4962980B2 (en) Search result classification apparatus and method using click log
CN110546633A (en) Named entity based category tag addition for documents
JP5139493B2 (en) Question answer search apparatus, method and program
KR100856916B1 (en) Information providing method and system of extracting a personalized issue
Byers et al. Searching for privacy: Design and implementation of a P3P-enabled search engine
Ramaciotti Morales et al. Role of the website structure in the diversity of browsing behaviors
CN108280102A (en) Internet behavior recording method, device and user terminal
JP2018067193A (en) Extraction device, extraction method, and extraction program
US20150319162A1 (en) Electronic arrangement and method for entity-specific token set management and related mechanism for offering personalized digital content based on interactions between entities
JP4869292B2 (en) Server, method, and program for recommending search keywords
JP4286828B2 (en) Web page patrol device and web page patrol program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20111004