JP5642058B2 - Attention word analysis method and attention word analysis system - Google Patents
Attention word analysis method and attention word analysis system Download PDFInfo
- Publication number
- JP5642058B2 JP5642058B2 JP2011284329A JP2011284329A JP5642058B2 JP 5642058 B2 JP5642058 B2 JP 5642058B2 JP 2011284329 A JP2011284329 A JP 2011284329A JP 2011284329 A JP2011284329 A JP 2011284329A JP 5642058 B2 JP5642058 B2 JP 5642058B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- text data
- attention
- comparison
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、収集したテキストデータ内で注目されている単語を分析する注目単語分析方法および注目単語分析システムに関し、特に、Webページ等の時刻により収集する量が変化していくテキストデータを対象する場合の分析に関するものである。 The present invention relates to an attention word analysis method and attention word analysis system for analyzing a word attracting attention in collected text data, and particularly to text data whose amount to be collected changes depending on time such as a web page. It is about analysis of the case.
テキストデータ群から有用な情報を抽出する手法として、テキストマイニング処理を行い、テキストデータ群内で単語の注目度合を得る方法がある。 As a method of extracting useful information from a text data group, there is a method of performing a text mining process and obtaining the attention level of a word in the text data group.
広く使われている手法としては、テキストデータ群に含まれる各単語の出現回数をカウントし、出現回数の大きい単語をテキストデータ群における注目単語として表す手法がある。 As a widely used technique, there is a technique in which the number of appearances of each word included in a text data group is counted, and a word with a large number of appearances is represented as an attention word in the text data group.
これに加えて、単なる出現回数だけではなく、同一文書に含まれる付加的情報も加えて、単語を評価する手法もある。例えば、特開2011−70252号公報(特許文献1)では、ユーザが発信したブログやSNS(Social Networking Service)などのCGM(Consumer Generated Media)に蓄積された文書データ群について、各単語の出現回数と、予め用意した評価や感想に係わる単語との隣接の程度を考慮して、単語の評価を定め、市場全体のニーズやその変化を分析する手法を紹介している。 In addition to this, there is a method of evaluating words by adding not only the number of appearances but also additional information included in the same document. For example, in Japanese Patent Application Laid-Open No. 2011-70252 (Patent Document 1), the number of times each word appears in a document data group stored in a CGM (Consumer Generated Media) such as a blog or SNS (Social Networking Service) sent by a user. In addition, it introduces a method that determines the evaluation of words in consideration of the degree of adjacency with words related to evaluations and impressions prepared in advance, and analyzes the needs and changes of the market as a whole.
また、特開2005−258678号公報(特許文献2)では、ある期間とそれ以前の期間で収集したWebページ内の単語の出現頻度と単語の出現している文書数を数え、その出現頻度と出現している文書数から文書内の単語の重みを計算する。その後、ある期間とそれ以前の期間の単語の重みの変化量から話題度を計算し、話題度により話題となっている単語リストを得る手法を述べている。 Japanese Patent Laid-Open No. 2005-258678 (Patent Document 2) counts the appearance frequency of words in a Web page and the number of documents in which words appear in a certain period and the previous period, The weight of the word in the document is calculated from the number of appearing documents. After that, a technique is described in which the topic level is calculated from the amount of change in the weight of the word in a certain period and the previous period, and a topic word list is obtained based on the topic level.
特許文献1では、Web上のテキストデータを収集して、各単語の出現回数に、予め用意した評価を持つ単語と近辺に出現する単語との関係を加えて、ユーザの嗜好や市場ニーズに関する情報を得る方法が示されている。
しかし、Web上で、ある期間に更新されたテキストデータを収集して分析するとした場合、期間ごとの更新されるテキストデータ数は大きく変化するため、更新されたテキストデータ数の影響を受け、単純に単語出現頻度を数えただけでは、市場で注目されている単語が得られるとは言い難い。 However, on the Web, if text data updated during a certain period is collected and analyzed, the number of text data updated for each period varies greatly. It is hard to say that the word attracting attention in the market can be obtained only by counting the word appearance frequency.
特許文献2は、ある時点での話題語のリストを得ることはできる。しかし、話題語リストを抽出するために計算される指標は、単語出現頻度を用いているため、対象とした文書数の影響を受ける。そのため、期間ごとに収集される文書数が変化する場合、話題語の時系列変化を評価することはできない。
そこで、本発明の目的は、期間ごとに分析の対象とするテキストデータ数が変化する集合に対して、テキストデータ数の影響を受けずに、単語の注目度合の時系列変化を評価することができる注目単語分析方法および注目単語分析システムを提供することにある。 Therefore, an object of the present invention is to evaluate a time series change of the degree of attention of a word without being affected by the number of text data, for a set in which the number of text data to be analyzed changes every period. An object of the present invention is to provide an attention word analysis method and attention word analysis system.
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。 The above and other objects and novel features of the present invention will be apparent from the description of this specification and the accompanying drawings.
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次の通りである。 Of the inventions disclosed in the present application, the outline of typical ones will be briefly described as follows.
すなわち、代表的なものの概要は、テキストデータ分析部により、入力部から入力されたユーザからの分析対象単語リストを取得し、テキストデータ群から分析対象単語リスト内の複数の単語の出現頻度を数え、複数の単語の単語間の出現頻度から単語出現割合を計算し、相対的に注目されている単語を分析するものである。 In other words, the outline of a typical one is obtained by obtaining an analysis target word list from a user input from the input unit by the text data analysis unit and counting the appearance frequency of a plurality of words in the analysis target word list from the text data group. The word appearance ratio is calculated from the appearance frequency between words of a plurality of words, and the word that is relatively focused is analyzed.
また、ユーザからの分析対象単語リストが入力される入力部と、テキストデータ群から分析対象単語リスト内の複数の単語の出現頻度を数え、複数の単語の単語間の出現頻度から単語出現割合を計算し、相対的に注目されている単語を分析するテキストデータ分析部とを備えたものである。 In addition, the frequency of appearance of a plurality of words in the analysis target word list is counted from the input unit to which the analysis target word list from the user is input, and the text data group, and the word appearance ratio is calculated from the appearance frequency of the plurality of words. And a text data analysis unit for calculating and analyzing relatively attention words.
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下の通りである。 The effects obtained by typical ones of the inventions disclosed in the present application will be briefly described as follows.
すなわち、代表的なものによって得られる効果は、テキストデータ群内の注目単語を分析する際に、テキストデータ数の影響を少なくして、単語の注目度合の時系列変化を評価することが可能である。 In other words, the effect obtained by a typical one is that when analyzing a word of interest in a text data group, it is possible to reduce the influence of the number of text data and evaluate the time series change of the degree of attention of the word. is there.
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that components having the same function are denoted by the same reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted.
<注目単語分析システムの構成>
図1により、本発明の一実施の形態に係る注目単語分析システムの構成について説明する。図1は本発明の一実施の形態に係る注目単語分析システムの構成を示す構成図である。
<Configuration of attention word analysis system>
With reference to FIG. 1, the structure of the attention word analysis system which concerns on one embodiment of this invention is demonstrated. FIG. 1 is a block diagram showing a configuration of a focused word analysis system according to an embodiment of the present invention.
図1において、注目単語分析システム101は、中央演算処理装置などの計算能力を有する1つ以上の計算機で構成される計算機システム上で動作しており、分析管理サブシステム200、テキストデータ分析部であるテキストデータ分析サブシステム300、テキストデータ群400から構成されている。
In FIG. 1, an attention
分析管理サブシステム200は、入力部201、表示部202から構成され、入力部201を介して得たユーザ100からの要求をテキストデータ分析サブシステム300に送信し、表示部202に結果を表示するシステムである。
The
テキストデータ分析サブシステム300は、分析対象テキストデータ集合決定部301、単語頻度計算部302、相対的単語出現割合計算部303から構成され、ユーザ100から入力された要求に応じてテキストデータ内で注目されている単語を分析するシステムである。
The text
分析対象テキストデータ集合決定部301は、テキストデータ群400から注目単語および比較単語を含むテキストデータの集合(分析対象テキストデータ集合)を抽出する機能を有する。単語頻度計算部302は、分析対象テキストデータ集合内に含まれる単語の出現頻度を数える機能を有する。相対的単語出現割合計算部303は、注目単語の出現頻度と比較単語の出現頻度から単語の出現割合を計算する機能を有する。
The analysis target text data
テキストデータ群400は、更新時間とテキストデータを紐付けて格納しているデータベースであり、分析対象テキストデータ集合決定部301においてテキストデータ集合抽出の対象となる。
The
<注目単語分析システムの処理>
次に、図2〜図11により、本発明の一実施の形態に係る注目単語分析システムの処理について説明する。図2は本発明の一実施の形態に係る注目単語分析システムがテキストデータ分析を行う際のデータの流れを示す図、図3は本発明の一実施の形態に係る注目単語分析システムの分析対象テキストデータ集合決定部の処理を示すフローチャート、図4は本発明の一実施の形態に係る注目単語分析システムで使用される注目単語と比較単語リストの一例を示す図、図5は本発明の一実施の形態に係る注目単語分析システムで使用される分析対象単語リストの一例を示す図、図6は本発明の一実施の形態に係る注目単語分析システムで使用される分析対象テキストデータ集合の一例を示す図である。
<Process of attention word analysis system>
Next, processing of the attention word analysis system according to the embodiment of the present invention will be described with reference to FIGS. FIG. 2 is a diagram showing a data flow when the attention word analysis system according to the embodiment of the present invention performs text data analysis, and FIG. 3 is an analysis target of the attention word analysis system according to the embodiment of the present invention. FIG. 4 is a flowchart showing the processing of the text data set determination unit, FIG. 4 is a diagram showing an example of the attention word and comparison word list used in the attention word analysis system according to the embodiment of the present invention, and FIG. FIG. 6 is a diagram showing an example of an analysis target word list used in the attention word analysis system according to the embodiment. FIG. 6 is an example of an analysis target text data set used in the attention word analysis system according to the embodiment of the present invention. FIG.
図7は本発明の一実施の形態に係る注目単語分析システムの単語頻度計算部の処理を示すフローチャート、図8は本発明の一実施の形態に係る注目単語分析システムの相対的単語出現割合計算部の処理を示すフローチャート、図9は本発明の一実施の形態に係る注目単語分析システムの単語頻度計算部で作成される表の一例を示す図、図10は本発明の一実施の形態に係る注目単語分析システムの単語出現割合を計算した一例を示す図、図11は本発明の一実施の形態に係る注目単語分析システムの出力例を示す図である。 FIG. 7 is a flowchart showing processing of the word frequency calculation unit of the attention word analysis system according to the embodiment of the present invention, and FIG. 8 is a relative word appearance ratio calculation of the attention word analysis system according to the embodiment of the present invention. FIG. 9 is a diagram showing an example of a table created by the word frequency calculation unit of the attention word analysis system according to the embodiment of the present invention, and FIG. 10 is an embodiment of the present invention. The figure which shows an example which calculated the word appearance ratio of the attention word analysis system which concerns, FIG. 11 is a figure which shows the example of an output of the attention word analysis system which concerns on one embodiment of this invention.
まず、注目単語分析システム全体のデータの流れとしては、図2に示すように、入力部201は、ユーザ100から受け取った注目単語と比較単語リストを分析対象テキストデータ集合決定部301に送信する(S201)。
First, as a data flow of the entire attention word analysis system, as illustrated in FIG. 2, the
分析対象テキストデータ集合決定部301は、受信した注目単語、比較単語リストに基づいて、テキストデータ群400から分析対象テキストデータ集合を抽出する(S202)。
The analysis target text data
また、分析対象テキストデータ集合決定部301は、分析対象テキストデータ集合を単語頻度計算部302に送信する(S203)。単語頻度計算部302は、受信した分析対象テキストデータ集合から単語出現頻度を数えて、単語頻度を相対的単語出現割合計算部303に送信する(S204)。相対的単語出現割合計算部303は、単語出現割合を表示部202に送信する(S205)。
Further, the analysis target text data set
以下、各処理の詳細を説明する。 Details of each process will be described below.
まず、分析対象テキストデータ集合決定部301の処理は、図3に示すように、入力部201を介してユーザ100から注目単語と1つ以上の比較単語(比較単語リスト)を取得する(S301)。
First, as shown in FIG. 3, the processing of the analysis target text data set
入力する注目単語と比較単語リストの一例を図4に示す。図4においては、一例として、注目単語401を「ブラックコーヒー」、比較単語402のリストを「加糖コーヒー」、「微糖コーヒー」とする。「ブラックコーヒー」はユーザが市場で注目されているかを知りたい製品名で、「加糖コーヒー」、「微糖コーヒー」はユーザが考えるコーヒー市場において「ブラックコーヒー」の競合となる製品名である。
An example of the attention word and the comparison word list to be input is shown in FIG. In FIG. 4, as an example, the word of
そして、注目単語と比較単語リストを合わせたリストを分析対象単語リストとして保持する。分析対象単語リストには、注目単語であるか、比較単語であるかの分類も追加する。分析対象単語リストの一例を図5に示す。図5に示す分析対象単語リストは、「ブラックコーヒー」、「加糖コーヒー」、「微糖コーヒー」が記載され、また、それぞれの単語が注目単語であるか比較単語であるかの分類が同時に記載される。 A list in which the attention word and the comparison word list are combined is held as an analysis target word list. A classification as to whether the word is the attention word or the comparison word is also added to the analysis target word list. An example of the analysis target word list is shown in FIG. The analysis target word list shown in FIG. 5 describes “black coffee”, “sweetened coffee”, and “fine sugar coffee”, and simultaneously describes whether each word is a focus word or a comparison word. Is done.
次に、分析対象単語リスト内の単語を含んでいるテキストデータをテキストデータ群400から抽出する(S302)。抽出されたテキストデータを分析対象テキストデータ集合とする。分析対象テキストデータ集合の一例を図6に示す。注目単語を「ブラックコーヒー」、比較単語リストを「加糖コーヒー」、「微糖コーヒー」として、テキストデータの抽出を行う。 Next, text data including words in the analysis target word list is extracted from the text data group 400 (S302). The extracted text data is set as an analysis target text data set. An example of the analysis target text data set is shown in FIG. Text data is extracted with the word of interest as “black coffee”, the comparison word list as “sweetened coffee”, and “fine sugared coffee”.
図6に示す例では、更新月日が2011/4のテキストデータ群と2011/5のテキストデータ群の2つから分析対象テキストデータ集合を抽出している。図6の601は2011/4分の分析対象テキストデータ集合、図6の602は2011/5分の分析対象テキストデータ集合である。 In the example illustrated in FIG. 6, an analysis target text data set is extracted from two text data groups whose update date is 2011/4 and 2011/5 text data group. 601 in FIG. 6 is an analysis target text data set for 2011/4, and 602 in FIG. 6 is an analysis target text data set for 2011/5.
最後に、それぞれの期間の分析対象テキストデータ集合を単語頻度計算部302に送信する(S303)。 Finally, the analysis target text data set for each period is transmitted to the word frequency calculation unit 302 (S303).
また、分析対象テキストデータ集合決定部301からの分析対象テキストデータ集合を受信した単語頻度計算部302の処理は、図7に示すように、分析対象テキストデータ集合決定部301から取得した分析対象テキストデータ集合に出現する単語の回数(単語出現頻度)を数える(S701)。単語出現頻度は、分析対象単語リスト内の単語ごとに数える。
In addition, the processing of the word
その後、単語の出現頻度を相対的単語出現割合計算部303に送信する(S702)。 Thereafter, the appearance frequency of the word is transmitted to the relative word appearance ratio calculation unit 303 (S702).
また、単語頻度計算部302からの単語の出現頻度を受信した相対的単語出現割合計算部303の処理は、図8に示すように、まず、単語出現割合計算のために分析対象単語表と単語出現頻度表を作成する(S801)。
In addition, as shown in FIG. 8, the processing of the relative word appearance
分析対象単語表と単語出現頻度表の一例を図9に示す。図9において、分析対象単語表901は、分析対象単語リストID、単語名、分類、単語IDの属性を持ち、単語出現頻度表902は、分析対象単語リストID、単語ID、測定期間、出現頻度の属性を持っている。 An example of an analysis object word table and a word appearance frequency table is shown in FIG. 9, the analysis target word table 901 has attributes of analysis target word list ID, word name, classification, and word ID, and the word appearance frequency table 902 includes analysis target word list ID, word ID, measurement period, and appearance frequency. Has the attributes of
分析対象単語リストIDは、例えば「1」などの分析対象単語リストを一意に識別する値が格納される。単語名は、例えば「ブラックコーヒー」、「加糖コーヒー」、「微糖コーヒー」などのユーザが入力した注目単語か比較単語が格納される。分類は、「注目単語」、「比較単語」のいずれかが格納される。単語IDは、例えば「1」、「2」、「3」など単語を一意に識別する値が格納される。 The analysis target word list ID stores a value for uniquely identifying the analysis target word list such as “1”, for example. The word name stores, for example, a word of interest or a comparison word input by the user, such as “black coffee”, “sweetened coffee”, and “fine sugar coffee”. As the classification, either “attention word” or “comparison word” is stored. The word ID stores a value for uniquely identifying the word, such as “1”, “2”, “3”, for example.
また、測定期間は、例えば「2011/4」、「2011/5」など分析対象としたテキストデータが更新された年月が格納される。出現頻度は、例えば「1」、「2」、「3」、「5」など単語頻度計算部302から取得した単語出現頻度が格納される。
The measurement period stores the date when the text data to be analyzed such as “2011/4” and “2011/5” is updated. As the appearance frequency, for example, the word appearance frequency acquired from the word
次に、単語出現割合を計算する(S802)。 Next, the word appearance ratio is calculated (S802).
注目単語の単語出現割合は、注目単語を含むテキストデータ集合をA、比較単語がN個の場合の比較単語を含むテキストデータ集合をB1、B2、…、BNとしたとき、|A|/|A∪B1∪B2∪…∪BN|で計算される。 Word appearance proportion of attention words, the text data set including the target word A, the text data set, including the comparison word of when the comparison words of the N B 1, B 2, ..., when the B N, | A | / | A∪B 1 ∪B 2 ∪... ∪B N |
例として、「ブラックコーヒー」の単語出現割合は、「ブラックコーヒー」を含むテキストデータの集合をA、「加糖コーヒー」を含むテキストデータの集合をB1、「微糖コーヒー」を含むテキストデータの集合をB2とした場合、|A|/|A∪B1∪B2|で計算される。 As an example, the word appearance ratio of “black coffee” is A for a set of text data including “black coffee”, B 1 for a set of text data including “sweetened coffee”, and for text data including “fine sugar coffee”. If the aggregate and B 2, | is calculated by | a | / | A∪B 1 ∪B 2.
ここで、単語出現割合を計算して図10に示す表を作成する一例を説明する。 Here, an example of calculating the word appearance ratio and creating the table shown in FIG. 10 will be described.
単語名1001と分類1002の列は、図9に示す分析対象単語表901から、分析対象単語リストIDが1である単語名と分類を抽出して格納される。単語出現割合1003は、単語出現頻度表902から、分析対象単語リストID、単語ID、測定期間をキーに抽出した単語出現頻度を分析対象単語リストID、測定期間をキーに抽出した出現単語頻度の合計で割った値が格納される。
The columns of the
最後に、単語出現割合を表示部202に送信する(S803)。 Finally, the word appearance ratio is transmitted to the display unit 202 (S803).
表示部202では、相対的単語出現割合計算部303で作成された図9に示す表を出力することができる。また、更新された期間の異なるテキストデータ群ごとに単語出現割合から時系列でのグラフを作成し、時系列での単語出現割合の変化を可視化することもできる。注目単語の単語出現頻度の出力と合わせて、比較単語の単語出現頻度を出力することもできる。
The
単語出現割合の出力例を図11に示す。図11に示す例は、2011/4、2011/5、2011/6と年月ごとに収集したテキストデータ群に対して、出現頻度割合を計算して、計算した結果を時系列でグラフ化して出力した例である。 An output example of the word appearance ratio is shown in FIG. In the example shown in FIG. 11, the appearance frequency ratio is calculated for the text data group collected every year, such as 2011/4, 2011/5, 2011/6, and the calculated result is graphed in time series. This is an output example.
図11に示す例では、注目単語「ブラックコーヒー」の出現単語頻度の出力に加えて、比較単語「加糖コーヒー」、「微糖コーヒー」の出現単語頻度を合わせて出力している。 In the example shown in FIG. 11, in addition to the appearance word frequency of the attention word “black coffee”, the appearance word frequencies of the comparison words “sweetened coffee” and “slight sugar coffee” are output together.
以上のように、本実施の形態では、テキストデータ群から注目単語と比較単語を含むテキストデータを抽出して、その単語出現割合を比較することにより相対的に単語の注目度合を得ることにより、期間ごとに変化するテキストデータ数の影響を受けずにユーザが指定した単語の注目度合の時系列変化を評価することができる。 As described above, in the present embodiment, by extracting the text data including the attention word and the comparison word from the text data group, and comparing the word appearance ratio, relatively obtaining the attention degree of the word, It is possible to evaluate a time-series change in the degree of attention of a word designated by the user without being affected by the number of text data that changes every period.
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。 As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Needless to say.
本発明は、収集したテキストデータ内で注目されている単語を分析する注目単語分析方法および注目単語分析システムに関し、企業がWeb上のブログやSNSなどのソーシャルメディアからテキストデータを収集して市場調査を行う際に、製品名などの特定のキーワードの市場での注目度合の変化を評価する装置やシステムなどに広く適用可能である。 The present invention relates to an attention word analysis method and attention word analysis system for analyzing a word attracting attention in collected text data, and a market research in which a company collects text data from social media such as a blog or SNS on the Web. Can be widely applied to devices and systems that evaluate changes in the degree of attention in the market for specific keywords such as product names.
100…ユーザ、101…注目単語分析システム、200…分析管理サブシステム、201…入力部、202…表示部、300…テキストデータ分析サブシステム、301…分析対象テキストデータ集合決定部、302…単語頻度計算部、303…相対的単語出現割合計算部、400…テキストデータ群、401…注目単語、402…比較単語、901…分析対象単語表、902…単語出現頻度表。 DESCRIPTION OF SYMBOLS 100 ... User, 101 ... Attention word analysis system, 200 ... Analysis management subsystem, 201 ... Input part, 202 ... Display part, 300 ... Text data analysis subsystem, 301 ... Analysis object text data set determination part, 302 ... Word frequency Calculation unit 303: Relative word appearance ratio calculation unit 400: Text data group 401: Attention word 402: Comparison word 901: Analysis target word table 902: Word appearance frequency table
Claims (6)
テキストデータ分析部により、入力部から入力されたユーザからの分析対象単語リストを取得し、前記テキストデータ群から前記分析対象単語リスト内の複数の単語の出現頻度を数え、前記複数の単語の単語間の出現頻度から単語出現割合を計算し、相対的に注目されている単語を分析し、
前記相対的に注目されている単語を分析する処理は、前記テキストデータ群で注目されているか計る注目単語、および前記注目単語と関連して比較対象とする複数の比較単語の少なくとも1つを含むテキストデータのみを対象とし、対象となった前記テキストデータの和集合と前記注目単語または前記比較単語を含む前記テキストデータの集合に基づいて行われることを特徴とする注目単語分析方法。 An attention word analysis method for obtaining information on a word attracting attention from a text data group,
The analysis target word list from the user input from the input unit is acquired by the text data analysis unit, the frequency of appearance of the plurality of words in the analysis target word list is counted from the text data group, and the words of the plurality of words Calculate the word appearance rate from the appearance frequency between, analyze the word that is relatively focused,
The process of analyzing the words that are relatively noted, at least one free multiple comparison word and a word of interest, and related to comparison with the target word measure whether it is focused by the text data groups Mute Kisutode targeting only data, a word of interest analysis method characterized in that it is performed based on the set of the text data including the target word or the comparison word with the union of the text data as the object .
前記分析対象単語リストは、前記注目単語および前記複数の比較単語から構成され、
前記テキストデータ分析部により、前記テキストデータ群から前記注目単語および比較単語リストの前記比較単語を含むテキストデータを抽出し、抽出された前記テキストデータ内の前記注目単語および前記比較単語の出現頻度を数え、前記注目単語および前記比較単語の出現頻度から単語出現割合を計算し、前記注目単語の相対的な注目度合を分析することを特徴とする注目単語分析方法。 The attention word analysis method according to claim 1,
The analysis target word list includes the attention word and the plurality of comparison words,
The text data analysis unit extracts text data including the comparison word from the attention word and the comparison word list from the text data group, and determines the appearance frequency of the attention word and the comparison word in the extracted text data. A word-of-interest analysis method, comprising: counting a word appearance ratio from the appearance frequency of the word of interest and the comparison word, and analyzing a relative degree of attention of the word of interest.
ユーザからの前記テキストデータ群で注目されているか計る注目単語、および前記注目単語と関連して比較対象とする比較単語が分析対象単語リストとして入力部から入力され、
分析対象テキストデータ集合決定部により、前記テキストデータ群から前記注目単語および前記比較単語を含むテキストデータを抽出し、
単語頻度計算部により、前記分析対象テキストデータ集合決定部で抽出されたテキストデータ内の前記注目単語および前記比較単語の出現頻度を数え、
相対的単語出現割合計算部により、前記注目単語および前記比較単語の出現頻度から単語出現割合を計算し、計算結果を表示部に表示し、
前記分析対象テキストデータ集合決定部、前記単語頻度計算部、および前記相対的単語出現割合計算部による処理は、前記注目単語および前記複数の比較単語の少なくとも1つを含むテキストデータのみを対象とし、対象となった前記テキストデータの和集合と前記注目単語または前記比較単語を含む前記テキストデータの集合に基づいて行われることを特徴とする注目単語分析方法。 An attention word analysis method for obtaining information on a word attracting attention from a text data group,
A word of interest to be measured in the text data group from the user, and a comparison word to be compared in relation to the word of interest are input from the input unit as an analysis target word list,
The analysis target text data set determination unit extracts text data including the attention word and the comparison word from the text data group,
The word frequency calculation unit counts the appearance frequency of the attention word and the comparison word in the text data extracted by the analysis target text data set determination unit,
The relative word appearance ratio calculation unit calculates the word appearance ratio from the appearance frequency of the attention word and the comparison word, and displays the calculation result on the display unit.
The analyzed text data set decision unit, the word frequency calculating unit, and processing by the relative word appearance ratio computation unit, only the free Mute Kisutode data at least one of the word of interest and the plurality of comparison words An attention word analysis method, which is performed on the basis of a union of the text data as an object and the set of text data including the attention word or the comparison word .
ユーザからの分析対象単語リストが入力される入力部と、
前記テキストデータ群から前記分析対象単語リスト内の複数の単語の出現頻度を数え、前記複数の単語の単語間の出現頻度から単語出現割合を計算し、相対的に注目されている単語を分析するテキストデータ分析部とを備え、
前記テキストデータ分析部による相対的に注目されている単語を分析する処理は、前記テキストデータ群で注目されているか計る注目単語、および前記注目単語と関連して比較対象とする複数の比較単語の少なくとも1つを含むテキストデータのみを対象とし、対象となった前記テキストデータの和集合と前記注目単語または前記比較単語を含む前記テキストデータの集合に基づいて行われることを特徴とする注目単語分析システム。 An attention word analysis system that obtains information on a word that is attracting attention from a text data group,
An input unit for inputting a word list to be analyzed from a user;
The appearance frequency of a plurality of words in the analysis target word list is counted from the text data group, the word appearance ratio is calculated from the appearance frequencies between the words of the plurality of words, and the relatively attention word is analyzed. A text data analysis unit,
The process of analyzing the relatively focused word by the text data analysis unit includes a focused word that measures whether or not the focused text data is focused in the text data group, and a plurality of comparative words to be compared with the focused word . and characterized in that is carried out on the basis of at least one in the set of the text data intended for only including Mute Kisutode data includes the union of the text data as a target of the target word or the comparison word Attention word analysis system.
前記分析対象単語リストは、前記注目単語および前記複数の比較単語から構成され、
前記テキストデータ分析部は、前記テキストデータ群から前記注目単語および比較単語リストの前記比較単語を含むテキストデータを抽出し、抽出された前記テキストデータ内の前記注目単語および前記比較単語の出現頻度を数え、前記注目単語および前記比較単語の出現頻度から単語出現割合を計算し、前記注目単語の相対的な注目度合を分析することを特徴とする注目単語分析システム。 The attention word analysis system according to claim 4,
The analysis target word list includes the attention word and the plurality of comparison words,
The text data analysis unit extracts text data including the comparison word from the attention word and the comparison word list from the text data group, and determines the appearance frequency of the attention word and the comparison word in the extracted text data. An attention word analysis system that counts and calculates a word appearance ratio from appearance frequencies of the attention word and the comparison word, and analyzes a relative attention degree of the attention word.
ユーザからの前記テキストデータ群で注目されているか計る注目単語、および前記注目単語と関連して比較対象とする比較単語が分析対象単語リストとして入力される入力部と、
前記テキストデータ群から前記注目単語および前記比較単語を含むテキストデータを抽出する分析対象テキストデータ集合決定部と、
前記分析対象テキストデータ集合決定部で抽出されたテキストデータ内の前記注目単語および前記比較単語の出現頻度を数える単語頻度計算部と、
前記注目単語および前記比較単語の出現頻度から単語出現割合を計算する相対的単語出現割合計算部と、
前記相対的単語出現割合計算部の計算結果を表示する表示部とを備え、
前記分析対象テキストデータ集合決定部、前記単語頻度計算部、および前記相対的単語出現割合計算部による処理は、前記注目単語および前記比較単語の少なくとも1つを含むテキストデータのみを対象とし、対象となった前記テキストデータの和集合と前記注目単語または前記比較単語を含む前記テキストデータの集合に基づいて行われることを特徴とする注目単語分析システム。 An attention word analysis system that obtains information on a word that is attracting attention from a text data group,
An input unit for inputting a word of interest to be measured in the text data group from the user and a comparison word to be compared in relation to the word of interest as an analysis target word list;
An analysis target text data set determination unit that extracts text data including the attention word and the comparison word from the text data group;
A word frequency calculation unit that counts the appearance frequencies of the attention word and the comparison word in the text data extracted by the analysis target text data set determination unit;
A relative word appearance ratio calculating unit that calculates a word appearance ratio from the appearance frequencies of the attention word and the comparison word;
A display unit for displaying a calculation result of the relative word appearance ratio calculation unit,
The analyzed text data set decision unit, the word frequency calculating unit, and processing by the relative word appearance ratio calculation unit, and the target of the word of interest and only including Mute Kisutode data at least one of the comparison word Then, the attention word analysis system is performed based on a set of the text data including the union set of the text data as a target and the attention word or the comparison word .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011284329A JP5642058B2 (en) | 2011-12-26 | 2011-12-26 | Attention word analysis method and attention word analysis system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011284329A JP5642058B2 (en) | 2011-12-26 | 2011-12-26 | Attention word analysis method and attention word analysis system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013134612A JP2013134612A (en) | 2013-07-08 |
JP5642058B2 true JP5642058B2 (en) | 2014-12-17 |
Family
ID=48911263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011284329A Expired - Fee Related JP5642058B2 (en) | 2011-12-26 | 2011-12-26 | Attention word analysis method and attention word analysis system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5642058B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016170750A (en) | 2015-03-16 | 2016-09-23 | 富士通株式会社 | Data management program, information processor and data management method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259529A (en) * | 1999-03-09 | 2000-09-22 | Fuji Xerox Co Ltd | Personal profile managing device and storage medium |
JP2002215647A (en) * | 2001-01-24 | 2002-08-02 | Nec Corp | Text mining device, text mining method used therefor, and program used therefor |
JP2005165754A (en) * | 2003-12-03 | 2005-06-23 | Nec Corp | Text mining analysis apparatus, text mining analysis method, and text mining analysis program |
JP4595692B2 (en) * | 2005-06-15 | 2010-12-08 | 日本電信電話株式会社 | Time-series document aggregation method and apparatus, program, and storage medium storing program |
US20100153107A1 (en) * | 2005-09-30 | 2010-06-17 | Nec Corporation | Trend evaluation device, its method, and program |
-
2011
- 2011-12-26 JP JP2011284329A patent/JP5642058B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013134612A (en) | 2013-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kostkova et al. | # swineflu: The use of twitter as an early warning and risk communication tool in the 2009 swine flu pandemic | |
US10650316B2 (en) | Issue-manage-style internet public opinion information evaluation management system and method thereof | |
Zhang et al. | A control chart for the Gamma distribution as a model of time between events | |
US20150269251A1 (en) | Method and system of evaluating the impact of distributed digital content | |
Bendler et al. | Taming uncertainty in big data: Evidence from social media in urban areas | |
Cheng et al. | An ARL-unbiased design of time-between-events control charts with runs rules | |
US20150142520A1 (en) | Crowd-based sentiment indices | |
JP5895052B2 (en) | Information analysis system and information analysis method | |
US8965867B2 (en) | Measuring and altering topic influence on edited and unedited media | |
Southall et al. | Early warning signals of infectious disease transitions: a review | |
Noyons | Measuring societal impact is as complex as ABC | |
US20220075797A1 (en) | Systems and Methods for Enabling Situational Awareness for Events Via Data Visualization | |
Clermont et al. | Does the citation period have any effect on the informative value of selected citation indicators in research evaluations? | |
Rocchetti et al. | Estimating the size of undetected cases of the COVID-19 outbreak in Europe: an upper bound estimator | |
Ma et al. | Covid-19 forecasts using internet search information in the united states | |
US10296924B2 (en) | Document performance indicators based on referral context | |
Senevirathna et al. | Influence cascades: Entropy-based characterization of behavioral influence patterns in social media | |
JP5642058B2 (en) | Attention word analysis method and attention word analysis system | |
CN106156232B (en) | Network information propagation monitoring method and device | |
Bornmann | Redundancies in h index variants and the proposal of the number of top-cited papers as an attractive indicator | |
Horn et al. | Population mobility data provides meaningful indicators of fast food intake and diet-related diseases in diverse populations | |
Thelwall et al. | The research production of nations and departments: A statistical model for the share of publications | |
Huang et al. | Particle filter–based data assimilation in dynamic data-driven simulation: sensitivity analysis of three critical experimental conditions | |
CN103761292B (en) | User forward behavior based microblog reading probability calculation method | |
Kao et al. | Assessing improvement in management research in Taiwan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140318 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140515 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141014 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141028 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5642058 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |