JP5642058B2 - Attention word analysis method and attention word analysis system - Google Patents

Attention word analysis method and attention word analysis system Download PDF

Info

Publication number
JP5642058B2
JP5642058B2 JP2011284329A JP2011284329A JP5642058B2 JP 5642058 B2 JP5642058 B2 JP 5642058B2 JP 2011284329 A JP2011284329 A JP 2011284329A JP 2011284329 A JP2011284329 A JP 2011284329A JP 5642058 B2 JP5642058 B2 JP 5642058B2
Authority
JP
Japan
Prior art keywords
word
text data
attention
comparison
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011284329A
Other languages
Japanese (ja)
Other versions
JP2013134612A (en
Inventor
裕也 小松
裕也 小松
森田 豊久
豊久 森田
英志 木村
英志 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2011284329A priority Critical patent/JP5642058B2/en
Publication of JP2013134612A publication Critical patent/JP2013134612A/en
Application granted granted Critical
Publication of JP5642058B2 publication Critical patent/JP5642058B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、収集したテキストデータ内で注目されている単語を分析する注目単語分析方法および注目単語分析システムに関し、特に、Webページ等の時刻により収集する量が変化していくテキストデータを対象する場合の分析に関するものである。   The present invention relates to an attention word analysis method and attention word analysis system for analyzing a word attracting attention in collected text data, and particularly to text data whose amount to be collected changes depending on time such as a web page. It is about analysis of the case.

テキストデータ群から有用な情報を抽出する手法として、テキストマイニング処理を行い、テキストデータ群内で単語の注目度合を得る方法がある。   As a method of extracting useful information from a text data group, there is a method of performing a text mining process and obtaining the attention level of a word in the text data group.

広く使われている手法としては、テキストデータ群に含まれる各単語の出現回数をカウントし、出現回数の大きい単語をテキストデータ群における注目単語として表す手法がある。   As a widely used technique, there is a technique in which the number of appearances of each word included in a text data group is counted, and a word with a large number of appearances is represented as an attention word in the text data group.

これに加えて、単なる出現回数だけではなく、同一文書に含まれる付加的情報も加えて、単語を評価する手法もある。例えば、特開2011−70252号公報(特許文献1)では、ユーザが発信したブログやSNS(Social Networking Service)などのCGM(Consumer Generated Media)に蓄積された文書データ群について、各単語の出現回数と、予め用意した評価や感想に係わる単語との隣接の程度を考慮して、単語の評価を定め、市場全体のニーズやその変化を分析する手法を紹介している。   In addition to this, there is a method of evaluating words by adding not only the number of appearances but also additional information included in the same document. For example, in Japanese Patent Application Laid-Open No. 2011-70252 (Patent Document 1), the number of times each word appears in a document data group stored in a CGM (Consumer Generated Media) such as a blog or SNS (Social Networking Service) sent by a user. In addition, it introduces a method that determines the evaluation of words in consideration of the degree of adjacency with words related to evaluations and impressions prepared in advance, and analyzes the needs and changes of the market as a whole.

また、特開2005−258678号公報(特許文献2)では、ある期間とそれ以前の期間で収集したWebページ内の単語の出現頻度と単語の出現している文書数を数え、その出現頻度と出現している文書数から文書内の単語の重みを計算する。その後、ある期間とそれ以前の期間の単語の重みの変化量から話題度を計算し、話題度により話題となっている単語リストを得る手法を述べている。   Japanese Patent Laid-Open No. 2005-258678 (Patent Document 2) counts the appearance frequency of words in a Web page and the number of documents in which words appear in a certain period and the previous period, The weight of the word in the document is calculated from the number of appearing documents. After that, a technique is described in which the topic level is calculated from the amount of change in the weight of the word in a certain period and the previous period, and a topic word list is obtained based on the topic level.

特開2011−70252号公報JP 2011-70252 A 特開2005−258678号公報JP 2005-258678 A

特許文献1では、Web上のテキストデータを収集して、各単語の出現回数に、予め用意した評価を持つ単語と近辺に出現する単語との関係を加えて、ユーザの嗜好や市場ニーズに関する情報を得る方法が示されている。   Patent Document 1 collects text data on the Web, adds the relationship between a word having an evaluation prepared in advance and a word appearing in the vicinity to the number of appearances of each word, and information on user preferences and market needs The way to get it is shown.

しかし、Web上で、ある期間に更新されたテキストデータを収集して分析するとした場合、期間ごとの更新されるテキストデータ数は大きく変化するため、更新されたテキストデータ数の影響を受け、単純に単語出現頻度を数えただけでは、市場で注目されている単語が得られるとは言い難い。   However, on the Web, if text data updated during a certain period is collected and analyzed, the number of text data updated for each period varies greatly. It is hard to say that the word attracting attention in the market can be obtained only by counting the word appearance frequency.

特許文献2は、ある時点での話題語のリストを得ることはできる。しかし、話題語リストを抽出するために計算される指標は、単語出現頻度を用いているため、対象とした文書数の影響を受ける。そのため、期間ごとに収集される文書数が変化する場合、話題語の時系列変化を評価することはできない。   Patent Document 2 can obtain a list of topic words at a certain point in time. However, since the index calculated for extracting the topic word list uses the word appearance frequency, it is affected by the number of target documents. Therefore, when the number of documents collected for each period changes, it is not possible to evaluate the time series change of the topic word.

そこで、本発明の目的は、期間ごとに分析の対象とするテキストデータ数が変化する集合に対して、テキストデータ数の影響を受けずに、単語の注目度合の時系列変化を評価することができる注目単語分析方法および注目単語分析システムを提供することにある。   Therefore, an object of the present invention is to evaluate a time series change of the degree of attention of a word without being affected by the number of text data, for a set in which the number of text data to be analyzed changes every period. An object of the present invention is to provide an attention word analysis method and attention word analysis system.

本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。   The above and other objects and novel features of the present invention will be apparent from the description of this specification and the accompanying drawings.

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次の通りである。   Of the inventions disclosed in the present application, the outline of typical ones will be briefly described as follows.

すなわち、代表的なものの概要は、テキストデータ分析部により、入力部から入力されたユーザからの分析対象単語リストを取得し、テキストデータ群から分析対象単語リスト内の複数の単語の出現頻度を数え、複数の単語の単語間の出現頻度から単語出現割合を計算し、相対的に注目されている単語を分析するものである。   In other words, the outline of a typical one is obtained by obtaining an analysis target word list from a user input from the input unit by the text data analysis unit and counting the appearance frequency of a plurality of words in the analysis target word list from the text data group. The word appearance ratio is calculated from the appearance frequency between words of a plurality of words, and the word that is relatively focused is analyzed.

また、ユーザからの分析対象単語リストが入力される入力部と、テキストデータ群から分析対象単語リスト内の複数の単語の出現頻度を数え、複数の単語の単語間の出現頻度から単語出現割合を計算し、相対的に注目されている単語を分析するテキストデータ分析部とを備えたものである。   In addition, the frequency of appearance of a plurality of words in the analysis target word list is counted from the input unit to which the analysis target word list from the user is input, and the text data group, and the word appearance ratio is calculated from the appearance frequency of the plurality of words. And a text data analysis unit for calculating and analyzing relatively attention words.

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下の通りである。   The effects obtained by typical ones of the inventions disclosed in the present application will be briefly described as follows.

すなわち、代表的なものによって得られる効果は、テキストデータ群内の注目単語を分析する際に、テキストデータ数の影響を少なくして、単語の注目度合の時系列変化を評価することが可能である。   In other words, the effect obtained by a typical one is that when analyzing a word of interest in a text data group, it is possible to reduce the influence of the number of text data and evaluate the time series change of the degree of attention of the word. is there.

本発明の一実施の形態に係る注目単語分析システムの構成を示す構成図である。It is a block diagram which shows the structure of the attention word analysis system which concerns on one embodiment of this invention. 本発明の一実施の形態に係る注目単語分析システムがテキストデータ分析を行う際のデータの流れを示す図である。It is a figure which shows the data flow when the attention word analysis system which concerns on one embodiment of this invention performs text data analysis. 本発明の一実施の形態に係る注目単語分析システムの分析対象テキストデータ集合決定部の処理を示すフローチャートである。It is a flowchart which shows the process of the analysis object text data set determination part of the attention word analysis system which concerns on one embodiment of this invention. 本発明の一実施の形態に係る注目単語分析システムで使用される注目単語と比較単語リストの一例を示す図である。It is a figure which shows an example of the attention word used by the attention word analysis system which concerns on one embodiment of this invention, and a comparison word list | wrist. 本発明の一実施の形態に係る注目単語分析システムで使用される分析対象単語リストの一例を示す図である。It is a figure which shows an example of the analysis object word list used with the attention word analysis system which concerns on one embodiment of this invention. 本発明の一実施の形態に係る注目単語分析システムで使用される分析対象テキストデータ集合の一例を示す図である。It is a figure which shows an example of the analysis object text data set used with the attention word analysis system which concerns on one embodiment of this invention. 本発明の一実施の形態に係る注目単語分析システムの単語頻度計算部の処理を示すフローチャートである。It is a flowchart which shows the process of the word frequency calculation part of the attention word analysis system which concerns on one embodiment of this invention. 本発明の一実施の形態に係る注目単語分析システムの相対的単語出現割合計算部の処理を示すフローチャートである。It is a flowchart which shows the process of the relative word appearance ratio calculation part of the attention word analysis system which concerns on one embodiment of this invention. 本発明の一実施の形態に係る注目単語分析システムの単語頻度計算部で作成される表の一例を示す図である。It is a figure which shows an example of the table produced in the word frequency calculation part of the attention word analysis system which concerns on one embodiment of this invention. 本発明の一実施の形態に係る注目単語分析システムの単語出現割合を計算した一例を示す図である。It is a figure which shows an example which calculated the word appearance ratio of the attention word analysis system which concerns on one embodiment of this invention. 本発明の一実施の形態に係る注目単語分析システムの出力例を示す図である。It is a figure which shows the example of an output of the attention word analysis system which concerns on one embodiment of this invention.

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that components having the same function are denoted by the same reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted.

<注目単語分析システムの構成>
図1により、本発明の一実施の形態に係る注目単語分析システムの構成について説明する。図1は本発明の一実施の形態に係る注目単語分析システムの構成を示す構成図である。
<Configuration of attention word analysis system>
With reference to FIG. 1, the structure of the attention word analysis system which concerns on one embodiment of this invention is demonstrated. FIG. 1 is a block diagram showing a configuration of a focused word analysis system according to an embodiment of the present invention.

図1において、注目単語分析システム101は、中央演算処理装置などの計算能力を有する1つ以上の計算機で構成される計算機システム上で動作しており、分析管理サブシステム200、テキストデータ分析部であるテキストデータ分析サブシステム300、テキストデータ群400から構成されている。   In FIG. 1, an attention word analysis system 101 operates on a computer system composed of one or more computers having a calculation capability such as a central processing unit, and includes an analysis management subsystem 200 and a text data analysis unit. A text data analysis subsystem 300 and a text data group 400 are included.

分析管理サブシステム200は、入力部201、表示部202から構成され、入力部201を介して得たユーザ100からの要求をテキストデータ分析サブシステム300に送信し、表示部202に結果を表示するシステムである。   The analysis management subsystem 200 includes an input unit 201 and a display unit 202. The request from the user 100 obtained through the input unit 201 is transmitted to the text data analysis subsystem 300, and the result is displayed on the display unit 202. System.

テキストデータ分析サブシステム300は、分析対象テキストデータ集合決定部301、単語頻度計算部302、相対的単語出現割合計算部303から構成され、ユーザ100から入力された要求に応じてテキストデータ内で注目されている単語を分析するシステムである。   The text data analysis subsystem 300 includes an analysis target text data set determination unit 301, a word frequency calculation unit 302, and a relative word appearance ratio calculation unit 303. In the text data in response to a request input from the user 100, It is a system that analyzes the words that are being used.

分析対象テキストデータ集合決定部301は、テキストデータ群400から注目単語および比較単語を含むテキストデータの集合(分析対象テキストデータ集合)を抽出する機能を有する。単語頻度計算部302は、分析対象テキストデータ集合内に含まれる単語の出現頻度を数える機能を有する。相対的単語出現割合計算部303は、注目単語の出現頻度と比較単語の出現頻度から単語の出現割合を計算する機能を有する。   The analysis target text data set determination unit 301 has a function of extracting a set of text data (analysis target text data set) including the attention word and the comparison word from the text data group 400. The word frequency calculation unit 302 has a function of counting the appearance frequency of words included in the analysis target text data set. The relative word appearance rate calculation unit 303 has a function of calculating the word appearance rate from the appearance frequency of the attention word and the appearance frequency of the comparison word.

テキストデータ群400は、更新時間とテキストデータを紐付けて格納しているデータベースであり、分析対象テキストデータ集合決定部301においてテキストデータ集合抽出の対象となる。   The text data group 400 is a database that stores the update time and the text data in association with each other, and is an object of text data set extraction in the analysis target text data set determination unit 301.

<注目単語分析システムの処理>
次に、図2〜図11により、本発明の一実施の形態に係る注目単語分析システムの処理について説明する。図2は本発明の一実施の形態に係る注目単語分析システムがテキストデータ分析を行う際のデータの流れを示す図、図3は本発明の一実施の形態に係る注目単語分析システムの分析対象テキストデータ集合決定部の処理を示すフローチャート、図4は本発明の一実施の形態に係る注目単語分析システムで使用される注目単語と比較単語リストの一例を示す図、図5は本発明の一実施の形態に係る注目単語分析システムで使用される分析対象単語リストの一例を示す図、図6は本発明の一実施の形態に係る注目単語分析システムで使用される分析対象テキストデータ集合の一例を示す図である。
<Process of attention word analysis system>
Next, processing of the attention word analysis system according to the embodiment of the present invention will be described with reference to FIGS. FIG. 2 is a diagram showing a data flow when the attention word analysis system according to the embodiment of the present invention performs text data analysis, and FIG. 3 is an analysis target of the attention word analysis system according to the embodiment of the present invention. FIG. 4 is a flowchart showing the processing of the text data set determination unit, FIG. 4 is a diagram showing an example of the attention word and comparison word list used in the attention word analysis system according to the embodiment of the present invention, and FIG. FIG. 6 is a diagram showing an example of an analysis target word list used in the attention word analysis system according to the embodiment. FIG. 6 is an example of an analysis target text data set used in the attention word analysis system according to the embodiment of the present invention. FIG.

図7は本発明の一実施の形態に係る注目単語分析システムの単語頻度計算部の処理を示すフローチャート、図8は本発明の一実施の形態に係る注目単語分析システムの相対的単語出現割合計算部の処理を示すフローチャート、図9は本発明の一実施の形態に係る注目単語分析システムの単語頻度計算部で作成される表の一例を示す図、図10は本発明の一実施の形態に係る注目単語分析システムの単語出現割合を計算した一例を示す図、図11は本発明の一実施の形態に係る注目単語分析システムの出力例を示す図である。   FIG. 7 is a flowchart showing processing of the word frequency calculation unit of the attention word analysis system according to the embodiment of the present invention, and FIG. 8 is a relative word appearance ratio calculation of the attention word analysis system according to the embodiment of the present invention. FIG. 9 is a diagram showing an example of a table created by the word frequency calculation unit of the attention word analysis system according to the embodiment of the present invention, and FIG. 10 is an embodiment of the present invention. The figure which shows an example which calculated the word appearance ratio of the attention word analysis system which concerns, FIG. 11 is a figure which shows the example of an output of the attention word analysis system which concerns on one embodiment of this invention.

まず、注目単語分析システム全体のデータの流れとしては、図2に示すように、入力部201は、ユーザ100から受け取った注目単語と比較単語リストを分析対象テキストデータ集合決定部301に送信する(S201)。   First, as a data flow of the entire attention word analysis system, as illustrated in FIG. 2, the input unit 201 transmits the attention word and the comparison word list received from the user 100 to the analysis target text data set determination unit 301 ( S201).

分析対象テキストデータ集合決定部301は、受信した注目単語、比較単語リストに基づいて、テキストデータ群400から分析対象テキストデータ集合を抽出する(S202)。   The analysis target text data set determination unit 301 extracts an analysis target text data set from the text data group 400 based on the received attention word and comparison word list (S202).

また、分析対象テキストデータ集合決定部301は、分析対象テキストデータ集合を単語頻度計算部302に送信する(S203)。単語頻度計算部302は、受信した分析対象テキストデータ集合から単語出現頻度を数えて、単語頻度を相対的単語出現割合計算部303に送信する(S204)。相対的単語出現割合計算部303は、単語出現割合を表示部202に送信する(S205)。   Further, the analysis target text data set determination unit 301 transmits the analysis target text data set to the word frequency calculation unit 302 (S203). The word frequency calculation unit 302 counts the word appearance frequency from the received analysis target text data set, and transmits the word frequency to the relative word appearance rate calculation unit 303 (S204). The relative word appearance ratio calculation unit 303 transmits the word appearance ratio to the display unit 202 (S205).

以下、各処理の詳細を説明する。   Details of each process will be described below.

まず、分析対象テキストデータ集合決定部301の処理は、図3に示すように、入力部201を介してユーザ100から注目単語と1つ以上の比較単語(比較単語リスト)を取得する(S301)。   First, as shown in FIG. 3, the processing of the analysis target text data set determination unit 301 acquires the attention word and one or more comparison words (comparison word list) from the user 100 via the input unit 201 (S301). .

入力する注目単語と比較単語リストの一例を図4に示す。図4においては、一例として、注目単語401を「ブラックコーヒー」、比較単語402のリストを「加糖コーヒー」、「微糖コーヒー」とする。「ブラックコーヒー」はユーザが市場で注目されているかを知りたい製品名で、「加糖コーヒー」、「微糖コーヒー」はユーザが考えるコーヒー市場において「ブラックコーヒー」の競合となる製品名である。   An example of the attention word and the comparison word list to be input is shown in FIG. In FIG. 4, as an example, the word of interest 401 is “black coffee”, and the list of comparison words 402 is “sweetened coffee” and “slightly sugared coffee”. “Black coffee” is a product name that the user wants to know whether the user is paying attention in the market, and “sweetened coffee” and “fine sugar coffee” are product names that compete with “black coffee” in the coffee market considered by the user.

そして、注目単語と比較単語リストを合わせたリストを分析対象単語リストとして保持する。分析対象単語リストには、注目単語であるか、比較単語であるかの分類も追加する。分析対象単語リストの一例を図5に示す。図5に示す分析対象単語リストは、「ブラックコーヒー」、「加糖コーヒー」、「微糖コーヒー」が記載され、また、それぞれの単語が注目単語であるか比較単語であるかの分類が同時に記載される。   A list in which the attention word and the comparison word list are combined is held as an analysis target word list. A classification as to whether the word is the attention word or the comparison word is also added to the analysis target word list. An example of the analysis target word list is shown in FIG. The analysis target word list shown in FIG. 5 describes “black coffee”, “sweetened coffee”, and “fine sugar coffee”, and simultaneously describes whether each word is a focus word or a comparison word. Is done.

次に、分析対象単語リスト内の単語を含んでいるテキストデータをテキストデータ群400から抽出する(S302)。抽出されたテキストデータを分析対象テキストデータ集合とする。分析対象テキストデータ集合の一例を図6に示す。注目単語を「ブラックコーヒー」、比較単語リストを「加糖コーヒー」、「微糖コーヒー」として、テキストデータの抽出を行う。   Next, text data including words in the analysis target word list is extracted from the text data group 400 (S302). The extracted text data is set as an analysis target text data set. An example of the analysis target text data set is shown in FIG. Text data is extracted with the word of interest as “black coffee”, the comparison word list as “sweetened coffee”, and “fine sugared coffee”.

図6に示す例では、更新月日が2011/4のテキストデータ群と2011/5のテキストデータ群の2つから分析対象テキストデータ集合を抽出している。図6の601は2011/4分の分析対象テキストデータ集合、図6の602は2011/5分の分析対象テキストデータ集合である。   In the example illustrated in FIG. 6, an analysis target text data set is extracted from two text data groups whose update date is 2011/4 and 2011/5 text data group. 601 in FIG. 6 is an analysis target text data set for 2011/4, and 602 in FIG. 6 is an analysis target text data set for 2011/5.

最後に、それぞれの期間の分析対象テキストデータ集合を単語頻度計算部302に送信する(S303)。   Finally, the analysis target text data set for each period is transmitted to the word frequency calculation unit 302 (S303).

また、分析対象テキストデータ集合決定部301からの分析対象テキストデータ集合を受信した単語頻度計算部302の処理は、図7に示すように、分析対象テキストデータ集合決定部301から取得した分析対象テキストデータ集合に出現する単語の回数(単語出現頻度)を数える(S701)。単語出現頻度は、分析対象単語リスト内の単語ごとに数える。   In addition, the processing of the word frequency calculation unit 302 that has received the analysis target text data set from the analysis target text data set determination unit 301 includes the analysis target text acquired from the analysis target text data set determination unit 301 as shown in FIG. The number of words appearing in the data set (word appearance frequency) is counted (S701). The word appearance frequency is counted for each word in the analysis target word list.

その後、単語の出現頻度を相対的単語出現割合計算部303に送信する(S702)。   Thereafter, the appearance frequency of the word is transmitted to the relative word appearance ratio calculation unit 303 (S702).

また、単語頻度計算部302からの単語の出現頻度を受信した相対的単語出現割合計算部303の処理は、図8に示すように、まず、単語出現割合計算のために分析対象単語表と単語出現頻度表を作成する(S801)。   In addition, as shown in FIG. 8, the processing of the relative word appearance rate calculating unit 303 that has received the word appearance frequency from the word frequency calculating unit 302 is performed by first calculating the analysis target word table and the word to calculate the word appearance rate. An appearance frequency table is created (S801).

分析対象単語表と単語出現頻度表の一例を図9に示す。図9において、分析対象単語表901は、分析対象単語リストID、単語名、分類、単語IDの属性を持ち、単語出現頻度表902は、分析対象単語リストID、単語ID、測定期間、出現頻度の属性を持っている。   An example of an analysis object word table and a word appearance frequency table is shown in FIG. 9, the analysis target word table 901 has attributes of analysis target word list ID, word name, classification, and word ID, and the word appearance frequency table 902 includes analysis target word list ID, word ID, measurement period, and appearance frequency. Has the attributes of

分析対象単語リストIDは、例えば「1」などの分析対象単語リストを一意に識別する値が格納される。単語名は、例えば「ブラックコーヒー」、「加糖コーヒー」、「微糖コーヒー」などのユーザが入力した注目単語か比較単語が格納される。分類は、「注目単語」、「比較単語」のいずれかが格納される。単語IDは、例えば「1」、「2」、「3」など単語を一意に識別する値が格納される。   The analysis target word list ID stores a value for uniquely identifying the analysis target word list such as “1”, for example. The word name stores, for example, a word of interest or a comparison word input by the user, such as “black coffee”, “sweetened coffee”, and “fine sugar coffee”. As the classification, either “attention word” or “comparison word” is stored. The word ID stores a value for uniquely identifying the word, such as “1”, “2”, “3”, for example.

また、測定期間は、例えば「2011/4」、「2011/5」など分析対象としたテキストデータが更新された年月が格納される。出現頻度は、例えば「1」、「2」、「3」、「5」など単語頻度計算部302から取得した単語出現頻度が格納される。   The measurement period stores the date when the text data to be analyzed such as “2011/4” and “2011/5” is updated. As the appearance frequency, for example, the word appearance frequency acquired from the word frequency calculation unit 302 such as “1”, “2”, “3”, and “5” is stored.

次に、単語出現割合を計算する(S802)。   Next, the word appearance ratio is calculated (S802).

注目単語の単語出現割合は、注目単語を含むテキストデータ集合をA、比較単語がN個の場合の比較単語を含むテキストデータ集合をB1、B2、…、BNとしたとき、|A|/|A∪B1∪B2∪…∪BN|で計算される。 Word appearance proportion of attention words, the text data set including the target word A, the text data set, including the comparison word of when the comparison words of the N B 1, B 2, ..., when the B N, | A | / | A∪B 1 ∪B 2 ∪... ∪B N |

例として、「ブラックコーヒー」の単語出現割合は、「ブラックコーヒー」を含むテキストデータの集合をA、「加糖コーヒー」を含むテキストデータの集合をB1、「微糖コーヒー」を含むテキストデータの集合をB2とした場合、|A|/|A∪B1∪B2|で計算される。 As an example, the word appearance ratio of “black coffee” is A for a set of text data including “black coffee”, B 1 for a set of text data including “sweetened coffee”, and for text data including “fine sugar coffee”. If the aggregate and B 2, | is calculated by | a | / | A∪B 1 ∪B 2.

ここで、単語出現割合を計算して図10に示す表を作成する一例を説明する。   Here, an example of calculating the word appearance ratio and creating the table shown in FIG. 10 will be described.

単語名1001と分類1002の列は、図9に示す分析対象単語表901から、分析対象単語リストIDが1である単語名と分類を抽出して格納される。単語出現割合1003は、単語出現頻度表902から、分析対象単語リストID、単語ID、測定期間をキーに抽出した単語出現頻度を分析対象単語リストID、測定期間をキーに抽出した出現単語頻度の合計で割った値が格納される。   The columns of the word name 1001 and the classification 1002 are extracted from the analysis target word table 901 shown in FIG. The word appearance ratio 1003 is obtained by calculating the word appearance frequency extracted from the word appearance frequency table 902 using the analysis target word list ID, the word ID, and the measurement period as a key, and the appearance word frequency extracted using the analysis target word list ID and the measurement period as a key. Stores the value divided by the total.

最後に、単語出現割合を表示部202に送信する(S803)。   Finally, the word appearance ratio is transmitted to the display unit 202 (S803).

表示部202では、相対的単語出現割合計算部303で作成された図9に示す表を出力することができる。また、更新された期間の異なるテキストデータ群ごとに単語出現割合から時系列でのグラフを作成し、時系列での単語出現割合の変化を可視化することもできる。注目単語の単語出現頻度の出力と合わせて、比較単語の単語出現頻度を出力することもできる。   The display unit 202 can output the table shown in FIG. 9 created by the relative word appearance ratio calculation unit 303. It is also possible to create a time-series graph from the word appearance ratio for each text data group with different updated periods, and to visualize changes in the word appearance ratio in the time series. Along with the output of the word appearance frequency of the attention word, the word appearance frequency of the comparison word can also be output.

単語出現割合の出力例を図11に示す。図11に示す例は、2011/4、2011/5、2011/6と年月ごとに収集したテキストデータ群に対して、出現頻度割合を計算して、計算した結果を時系列でグラフ化して出力した例である。   An output example of the word appearance ratio is shown in FIG. In the example shown in FIG. 11, the appearance frequency ratio is calculated for the text data group collected every year, such as 2011/4, 2011/5, 2011/6, and the calculated result is graphed in time series. This is an output example.

図11に示す例では、注目単語「ブラックコーヒー」の出現単語頻度の出力に加えて、比較単語「加糖コーヒー」、「微糖コーヒー」の出現単語頻度を合わせて出力している。   In the example shown in FIG. 11, in addition to the appearance word frequency of the attention word “black coffee”, the appearance word frequencies of the comparison words “sweetened coffee” and “slight sugar coffee” are output together.

以上のように、本実施の形態では、テキストデータ群から注目単語と比較単語を含むテキストデータを抽出して、その単語出現割合を比較することにより相対的に単語の注目度合を得ることにより、期間ごとに変化するテキストデータ数の影響を受けずにユーザが指定した単語の注目度合の時系列変化を評価することができる。   As described above, in the present embodiment, by extracting the text data including the attention word and the comparison word from the text data group, and comparing the word appearance ratio, relatively obtaining the attention degree of the word, It is possible to evaluate a time-series change in the degree of attention of a word designated by the user without being affected by the number of text data that changes every period.

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。   As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Needless to say.

本発明は、収集したテキストデータ内で注目されている単語を分析する注目単語分析方法および注目単語分析システムに関し、企業がWeb上のブログやSNSなどのソーシャルメディアからテキストデータを収集して市場調査を行う際に、製品名などの特定のキーワードの市場での注目度合の変化を評価する装置やシステムなどに広く適用可能である。   The present invention relates to an attention word analysis method and attention word analysis system for analyzing a word attracting attention in collected text data, and a market research in which a company collects text data from social media such as a blog or SNS on the Web. Can be widely applied to devices and systems that evaluate changes in the degree of attention in the market for specific keywords such as product names.

100…ユーザ、101…注目単語分析システム、200…分析管理サブシステム、201…入力部、202…表示部、300…テキストデータ分析サブシステム、301…分析対象テキストデータ集合決定部、302…単語頻度計算部、303…相対的単語出現割合計算部、400…テキストデータ群、401…注目単語、402…比較単語、901…分析対象単語表、902…単語出現頻度表。   DESCRIPTION OF SYMBOLS 100 ... User, 101 ... Attention word analysis system, 200 ... Analysis management subsystem, 201 ... Input part, 202 ... Display part, 300 ... Text data analysis subsystem, 301 ... Analysis object text data set determination part, 302 ... Word frequency Calculation unit 303: Relative word appearance ratio calculation unit 400: Text data group 401: Attention word 402: Comparison word 901: Analysis target word table 902: Word appearance frequency table

Claims (6)

テキストデータ群から注目されている単語の情報を得る注目単語分析方法であって、
テキストデータ分析部により、入力部から入力されたユーザからの分析対象単語リストを取得し、前記テキストデータ群から前記分析対象単語リスト内の複数の単語の出現頻度を数え、前記複数の単語の単語間の出現頻度から単語出現割合を計算し、相対的に注目されている単語を分析し、
前記相対的に注目されている単語を分析する処理は、前記テキストデータ群で注目されているか計る注目単語、および前記注目単語と関連して比較対象とする複数の比較単語の少なくとも1つを含むテキストデータのみを対象とし、対象となった前記テキストデータの和集合と前記注目単語または前記比較単語を含む前記テキストデータの集合に基づいて行われることを特徴とする注目単語分析方法。
An attention word analysis method for obtaining information on a word attracting attention from a text data group,
The analysis target word list from the user input from the input unit is acquired by the text data analysis unit, the frequency of appearance of the plurality of words in the analysis target word list is counted from the text data group, and the words of the plurality of words Calculate the word appearance rate from the appearance frequency between, analyze the word that is relatively focused,
The process of analyzing the words that are relatively noted, at least one free multiple comparison word and a word of interest, and related to comparison with the target word measure whether it is focused by the text data groups Mute Kisutode targeting only data, a word of interest analysis method characterized in that it is performed based on the set of the text data including the target word or the comparison word with the union of the text data as the object .
請求項1に記載の注目単語分析方法において、
前記分析対象単語リストは、前記注目単語および前記複数の比較単語から構成され、
前記テキストデータ分析部により、前記テキストデータ群から前記注目単語および比較単語リストの前記比較単語を含むテキストデータを抽出し、抽出された前記テキストデータ内の前記注目単語および前記比較単語の出現頻度を数え、前記注目単語および前記比較単語の出現頻度から単語出現割合を計算し、前記注目単語の相対的な注目度合を分析することを特徴とする注目単語分析方法。
The attention word analysis method according to claim 1,
The analysis target word list includes the attention word and the plurality of comparison words,
The text data analysis unit extracts text data including the comparison word from the attention word and the comparison word list from the text data group, and determines the appearance frequency of the attention word and the comparison word in the extracted text data. A word-of-interest analysis method, comprising: counting a word appearance ratio from the appearance frequency of the word of interest and the comparison word, and analyzing a relative degree of attention of the word of interest.
テキストデータ群から注目されている単語の情報を得る注目単語分析方法であって、
ユーザからの前記テキストデータ群で注目されているか計る注目単語、および前記注目単語と関連して比較対象とする比較単語が分析対象単語リストとして入力部から入力され、
分析対象テキストデータ集合決定部により、前記テキストデータ群から前記注目単語および前記比較単語を含むテキストデータを抽出し、
単語頻度計算部により、前記分析対象テキストデータ集合決定部で抽出されたテキストデータ内の前記注目単語および前記比較単語の出現頻度を数え、
相対的単語出現割合計算部により、前記注目単語および前記比較単語の出現頻度から単語出現割合を計算し、計算結果を表示部に表示し、
前記分析対象テキストデータ集合決定部、前記単語頻度計算部、および前記相対的単語出現割合計算部による処理は、前記注目単語および前記複数の比較単語の少なくとも1つを含むテキストデータのみを対象とし、対象となった前記テキストデータの和集合と前記注目単語または前記比較単語を含む前記テキストデータの集合に基づいて行われることを特徴とする注目単語分析方法。
An attention word analysis method for obtaining information on a word attracting attention from a text data group,
A word of interest to be measured in the text data group from the user, and a comparison word to be compared in relation to the word of interest are input from the input unit as an analysis target word list,
The analysis target text data set determination unit extracts text data including the attention word and the comparison word from the text data group,
The word frequency calculation unit counts the appearance frequency of the attention word and the comparison word in the text data extracted by the analysis target text data set determination unit,
The relative word appearance ratio calculation unit calculates the word appearance ratio from the appearance frequency of the attention word and the comparison word, and displays the calculation result on the display unit.
The analyzed text data set decision unit, the word frequency calculating unit, and processing by the relative word appearance ratio computation unit, only the free Mute Kisutode data at least one of the word of interest and the plurality of comparison words An attention word analysis method, which is performed on the basis of a union of the text data as an object and the set of text data including the attention word or the comparison word .
テキストデータ群から注目されている単語の情報を得る注目単語分析システムであって、
ユーザからの分析対象単語リストが入力される入力部と、
前記テキストデータ群から前記分析対象単語リスト内の複数の単語の出現頻度を数え、前記複数の単語の単語間の出現頻度から単語出現割合を計算し、相対的に注目されている単語を分析するテキストデータ分析部とを備え、
前記テキストデータ分析部による相対的に注目されている単語を分析する処理は、前記テキストデータ群で注目されているか計る注目単語、および前記注目単語と関連して比較対象とする複数の比較単語の少なくとも1つを含むテキストデータのみを対象とし、対象となった前記テキストデータの和集合と前記注目単語または前記比較単語を含む前記テキストデータの集合に基づいて行われることを特徴とする注目単語分析システム。
An attention word analysis system that obtains information on a word that is attracting attention from a text data group,
An input unit for inputting a word list to be analyzed from a user;
The appearance frequency of a plurality of words in the analysis target word list is counted from the text data group, the word appearance ratio is calculated from the appearance frequencies between the words of the plurality of words, and the relatively attention word is analyzed. A text data analysis unit,
The process of analyzing the relatively focused word by the text data analysis unit includes a focused word that measures whether or not the focused text data is focused in the text data group, and a plurality of comparative words to be compared with the focused word . and characterized in that is carried out on the basis of at least one in the set of the text data intended for only including Mute Kisutode data includes the union of the text data as a target of the target word or the comparison word Attention word analysis system.
請求項4に記載の注目単語分析システムにおいて、
前記分析対象単語リストは、前記注目単語および前記複数の比較単語から構成され、
前記テキストデータ分析部は、前記テキストデータ群から前記注目単語および比較単語リストの前記比較単語を含むテキストデータを抽出し、抽出された前記テキストデータ内の前記注目単語および前記比較単語の出現頻度を数え、前記注目単語および前記比較単語の出現頻度から単語出現割合を計算し、前記注目単語の相対的な注目度合を分析することを特徴とする注目単語分析システム。
The attention word analysis system according to claim 4,
The analysis target word list includes the attention word and the plurality of comparison words,
The text data analysis unit extracts text data including the comparison word from the attention word and the comparison word list from the text data group, and determines the appearance frequency of the attention word and the comparison word in the extracted text data. An attention word analysis system that counts and calculates a word appearance ratio from appearance frequencies of the attention word and the comparison word, and analyzes a relative attention degree of the attention word.
テキストデータ群から注目されている単語の情報を得る注目単語分析システムであって、
ユーザからの前記テキストデータ群で注目されているか計る注目単語、および前記注目単語と関連して比較対象とする比較単語が分析対象単語リストとして入力される入力部と、
前記テキストデータ群から前記注目単語および前記比較単語を含むテキストデータを抽出する分析対象テキストデータ集合決定部と、
前記分析対象テキストデータ集合決定部で抽出されたテキストデータ内の前記注目単語および前記比較単語の出現頻度を数える単語頻度計算部と、
前記注目単語および前記比較単語の出現頻度から単語出現割合を計算する相対的単語出現割合計算部と、
前記相対的単語出現割合計算部の計算結果を表示する表示部とを備え、
前記分析対象テキストデータ集合決定部、前記単語頻度計算部、および前記相対的単語出現割合計算部による処理は、前記注目単語および前記比較単語の少なくとも1つを含むテキストデータのみを対象とし、対象となった前記テキストデータの和集合と前記注目単語または前記比較単語を含む前記テキストデータの集合に基づいて行われることを特徴とする注目単語分析システム。
An attention word analysis system that obtains information on a word that is attracting attention from a text data group,
An input unit for inputting a word of interest to be measured in the text data group from the user and a comparison word to be compared in relation to the word of interest as an analysis target word list;
An analysis target text data set determination unit that extracts text data including the attention word and the comparison word from the text data group;
A word frequency calculation unit that counts the appearance frequencies of the attention word and the comparison word in the text data extracted by the analysis target text data set determination unit;
A relative word appearance ratio calculating unit that calculates a word appearance ratio from the appearance frequencies of the attention word and the comparison word;
A display unit for displaying a calculation result of the relative word appearance ratio calculation unit,
The analyzed text data set decision unit, the word frequency calculating unit, and processing by the relative word appearance ratio calculation unit, and the target of the word of interest and only including Mute Kisutode data at least one of the comparison word Then, the attention word analysis system is performed based on a set of the text data including the union set of the text data as a target and the attention word or the comparison word .
JP2011284329A 2011-12-26 2011-12-26 Attention word analysis method and attention word analysis system Expired - Fee Related JP5642058B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011284329A JP5642058B2 (en) 2011-12-26 2011-12-26 Attention word analysis method and attention word analysis system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011284329A JP5642058B2 (en) 2011-12-26 2011-12-26 Attention word analysis method and attention word analysis system

Publications (2)

Publication Number Publication Date
JP2013134612A JP2013134612A (en) 2013-07-08
JP5642058B2 true JP5642058B2 (en) 2014-12-17

Family

ID=48911263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011284329A Expired - Fee Related JP5642058B2 (en) 2011-12-26 2011-12-26 Attention word analysis method and attention word analysis system

Country Status (1)

Country Link
JP (1) JP5642058B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016170750A (en) 2015-03-16 2016-09-23 富士通株式会社 Data management program, information processor and data management method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259529A (en) * 1999-03-09 2000-09-22 Fuji Xerox Co Ltd Personal profile managing device and storage medium
JP2002215647A (en) * 2001-01-24 2002-08-02 Nec Corp Text mining device, text mining method used therefor, and program used therefor
JP2005165754A (en) * 2003-12-03 2005-06-23 Nec Corp Text mining analysis apparatus, text mining analysis method, and text mining analysis program
JP4595692B2 (en) * 2005-06-15 2010-12-08 日本電信電話株式会社 Time-series document aggregation method and apparatus, program, and storage medium storing program
US20100153107A1 (en) * 2005-09-30 2010-06-17 Nec Corporation Trend evaluation device, its method, and program

Also Published As

Publication number Publication date
JP2013134612A (en) 2013-07-08

Similar Documents

Publication Publication Date Title
Kostkova et al. # swineflu: The use of twitter as an early warning and risk communication tool in the 2009 swine flu pandemic
US10650316B2 (en) Issue-manage-style internet public opinion information evaluation management system and method thereof
Zhang et al. A control chart for the Gamma distribution as a model of time between events
US20150269251A1 (en) Method and system of evaluating the impact of distributed digital content
Bendler et al. Taming uncertainty in big data: Evidence from social media in urban areas
Cheng et al. An ARL-unbiased design of time-between-events control charts with runs rules
US20150142520A1 (en) Crowd-based sentiment indices
JP5895052B2 (en) Information analysis system and information analysis method
US8965867B2 (en) Measuring and altering topic influence on edited and unedited media
Southall et al. Early warning signals of infectious disease transitions: a review
Noyons Measuring societal impact is as complex as ABC
US20220075797A1 (en) Systems and Methods for Enabling Situational Awareness for Events Via Data Visualization
Clermont et al. Does the citation period have any effect on the informative value of selected citation indicators in research evaluations?
Rocchetti et al. Estimating the size of undetected cases of the COVID-19 outbreak in Europe: an upper bound estimator
Ma et al. Covid-19 forecasts using internet search information in the united states
US10296924B2 (en) Document performance indicators based on referral context
Senevirathna et al. Influence cascades: Entropy-based characterization of behavioral influence patterns in social media
JP5642058B2 (en) Attention word analysis method and attention word analysis system
CN106156232B (en) Network information propagation monitoring method and device
Bornmann Redundancies in h index variants and the proposal of the number of top-cited papers as an attractive indicator
Horn et al. Population mobility data provides meaningful indicators of fast food intake and diet-related diseases in diverse populations
Thelwall et al. The research production of nations and departments: A statistical model for the share of publications
Huang et al. Particle filter–based data assimilation in dynamic data-driven simulation: sensitivity analysis of three critical experimental conditions
CN103761292B (en) User forward behavior based microblog reading probability calculation method
Kao et al. Assessing improvement in management research in Taiwan

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141014

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141028

R150 Certificate of patent or registration of utility model

Ref document number: 5642058

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees