JP2017134787A - Device, program, and method for analyzing topic evaluation in multiple areas - Google Patents

Device, program, and method for analyzing topic evaluation in multiple areas Download PDF

Info

Publication number
JP2017134787A
JP2017134787A JP2016016582A JP2016016582A JP2017134787A JP 2017134787 A JP2017134787 A JP 2017134787A JP 2016016582 A JP2016016582 A JP 2016016582A JP 2016016582 A JP2016016582 A JP 2016016582A JP 2017134787 A JP2017134787 A JP 2017134787A
Authority
JP
Japan
Prior art keywords
topic
keyword
document
representative
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016016582A
Other languages
Japanese (ja)
Other versions
JP6529133B2 (en
Inventor
マイケ エルドマン
Erdmann Maike
マイケ エルドマン
一則 松本
Kazunori Matsumoto
一則 松本
広海 石先
Hiromi Ishisaki
広海 石先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2016016582A priority Critical patent/JP6529133B2/en
Publication of JP2017134787A publication Critical patent/JP2017134787A/en
Application granted granted Critical
Publication of JP6529133B2 publication Critical patent/JP6529133B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a device with which it is possible to more precisely grasp feeling about a topic, and analyze the evaluation state of the topic in mutually different areas in such a way that the cause of this feeling is easily understandable.SOLUTION: The present evaluation analysis device comprises: keyword group generation means for extracting, for each area, a representative keyword from a document retrieved using a query that includes a topic keyword, and collecting representative keywords together that are in different languages and will be translated and generating a keyword group; feeling information determination means for determining, for each area, feeling information related to a submitted document that is in a language used in the area and was retrieved using a query that includes a topic keyword related to the topic, the determination being made using a database of vocabularies related to feelings; and score addition means for adding a score to the generated keyword group on the basis of one or both of the number of occurrences of the representative keywords and the feeling information related to the submitted document.SELECTED DRAWING: Figure 2

Description

本発明は、インターネット上で流通する文書を解析して、目的とする情報を取得又は生成する技術に関する。   The present invention relates to a technique for acquiring or generating target information by analyzing a document distributed on the Internet.

従来、非常に多くのユーザが、Twitter(登録商標)等のソーシャルメディア(social media)を通して、様々な話題(トピック)についての感想や所感(sentiment)を表明している。例えば、話題となっている機器製品やアプリケーションに対して批評や論評を行ったり、話題の人物、会社や地域についての意見を述べたり、話題の出来事やニュースになった事件についての考察を提示したりすることがよく行われている。さらには、食べ物、住居、健康や犯罪といった日常の生活に関わる話題についての感想・所感が述べられることも多い。   Conventionally, a great number of users have expressed their opinions and sentiments about various topics (social media) through social media such as Twitter (registered trademark). For example, critique and commentary on a topical product or application, state an opinion about a topical person, company or region, and present a discussion of a topical event or news case. It is often done. In addition, there are often comments and feelings about topics related to daily life such as food, housing, health and crime.

このような感想・所感に係る情報は、企業や政府等において、現状の評価を行ったり今後の事業・施政方針を決定したりするための重要な判断材料となる。そのため、現在、このような感想・所感を自動的に取得して分析する、いわゆるオピニオン・マイニング(opinion mining)といわれる手法の開発が盛んに行われている。   Information related to such impressions and feelings is an important judgment material for companies, governments, etc. to evaluate the current situation and determine future business / government policies. Therefore, a technique called “opinion mining” that automatically acquires and analyzes such impressions and feelings is being actively developed.

例えば、非特許文献1には、過去10年間に開発された多数の感情分析(sentiment analysis)手法の調査結果が開示されている。その中には、非特許文献2に開示されたようなTwitter(登録商標)のメッセージについての感情分析も含まれている。   For example, Non-Patent Document 1 discloses a number of sentiment analysis techniques that have been developed over the past 10 years. It includes emotion analysis for Twitter (registered trademark) messages as disclosed in Non-Patent Document 2.

また、オピニオン・マイニングにおいて、最新のホットなトピックを検索する技術についても研究開発が進められている。例えば、非特許文献3には、通常は発生頻度の低いキーワードにおける急な発生頻度の上昇を認識することによって、人気のトピックを特定する手法が開示されている。   Research and development is also underway on techniques for searching the latest hot topics in opinion mining. For example, Non-Patent Document 3 discloses a technique for identifying a popular topic by recognizing a sudden increase in the frequency of occurrence of a keyword that is usually low in frequency.

さらに、非特許文献4には、対象についての特徴を利用した感情分析を行う特徴感情分析(feature-based sentiment analysis)の手法が開示されている。この手法では、例えば、対象となる機器製品「iPhone(登録商標)」について「display size」や「battery life」といった特徴が特定され利用される。   Further, Non-Patent Document 4 discloses a technique of feature-based sentiment analysis that performs emotion analysis using features of an object. In this method, for example, features such as “display size” and “battery life” are identified and used for the target device product “iPhone (registered trademark)”.

また、研究例は非常に少ないが、いわゆるクロスランゲージ感情分析(cross-language sentiment analysis)も行われている。例えば、非特許文献5には、クロスランゲージ感情分析と特徴感情分析とを結合させ、その際、1つの言語での特徴と他の言語での意味に関して類似する特徴とを合わせて利用する手法が開示されている。さらに、本願発明者等による研究を公表した非特許文献6では、互いに異なる言語において特徴感情分析を行い、言語間で分析結果を比較する技術が開示されている。   In addition, although there are very few research examples, so-called cross-language sentiment analysis is also performed. For example, Non-Patent Document 5 discloses a technique that combines cross-language emotion analysis and feature emotion analysis, and uses a feature in one language and a feature similar in meaning to another language. It is disclosed. Furthermore, Non-Patent Document 6 that published the research by the inventors of the present application discloses a technique for performing characteristic emotion analysis in different languages and comparing the analysis results between languages.

また、非特許文献7のアプリケーション" talkwalker "は、ポジティブ及びネガティブな感情のツイートを分析し、世界地図上において、そのような感情を表現しているツイートのパーセンテージを可視化している。さらに、非特許文献8のアプリケーション" Trendsmap "は、頻出語、ハッシュタグやユーザ名といったキーワードを、世界地図の各地域上に表示している。   The application “talkwalker” of Non-Patent Document 7 analyzes tweets of positive and negative emotions and visualizes the percentage of tweets expressing such emotions on a world map. Furthermore, the application “Trendsmap” of Non-Patent Document 8 displays keywords such as frequent words, hash tags, and user names on each region of the world map.

B. Liu,L. Zhang,"A Survey of Opinion Mining and Sentiment Analysis",Mining Text Data,2012年,415〜463頁B. Liu, L. Zhang, “A Survey of Opinion Mining and Sentiment Analysis”, Mining Text Data, 2012, 415-463. S. M. Mohammad,S. Kiritchenko,X. Zhu,"NRC-Canada: Building the State-of-the-Art in Sentiment Analysis of Tweets",Proceedings of International Workshop on Semantic Evaluation Exercises (SemEval), 2013年,321〜327頁SM Mohammad, S. Kiritchenko, X. Zhu, "NRC-Canada: Building the State-of-the-Art in Sentiment Analysis of Tweets", Proceedings of International Workshop on Semantic Evaluation Exercises (SemEval), 2013, 321-327 page M. Mathioudakis,N. Koudas,"TwitterMonitor: Trend Detection over the Twitter Stream", Proceedings of the ACM SIGMOD International Conference on Management of Data,2010年,1155〜1158頁M. Mathioudakis, N. Koudas, “TwitterMonitor: Trend Detection over the Twitter Stream”, Proceedings of the ACM SIGMOD International Conference on Management of Data, 2010, 1155-1158 N. Naveed,T. Gottron, S. Staab," Feature Sentiment Diversification of User Generated Reviews: The FREuD Approach",Proceedings of International AAAI Conference on Weblogs and Social Media (ICWSM),2013年N. Naveed, T. Gottron, S. Staab, "Feature Sentiment Diversification of User Generated Reviews: The FREuD Approach", Proceedings of International AAAI Conference on Weblogs and Social Media (ICWSM), 2013 H. Guo,H. Zhu,Z. Guo,X. Zhang,Z. Su,"OpinionIt: A Text Mining System for Cross-Lingual Opinion Analysis",Proceedings of the ACM international conference on Information and knowledge management (CIKM),2010年,1199〜1208頁H. Guo, H. Zhu, Z. Guo, X. Zhang, Z. Su, "OpinionIt: A Text Mining System for Cross-Lingual Opinion Analysis", Proceedings of the ACM international conference on Information and knowledge management (CIKM), 2010, 1199-1208 M. Erdmann,K. Ikeda,H. Ishizaki,G. Hattori,Y. Takishima,"Feature Based Sentiment Analysis of Tweets in Multiple Languages",Proceedings of Web Information Systems Engineering (WISE),2014年,109〜124頁M. Erdmann, K. Ikeda, H. Ishizaki, G. Hattori, Y. Takishima, "Feature Based Sentiment Analysis of Tweets in Multiple Languages", Proceedings of Web Information Systems Engineering (WISE), 2014, 109-124. Talkwalker社,"social data intelligence platform ",[online]、[平成27年12月4日検索]、インターネット<http://www.talkwalker.com>Talkwalker, "social data intelligence platform", [online], [December 4, 2015 search], Internet <http://www.talkwalker.com> "trendsmap",[online],[平成27年12月4日検索]、インターネット<http://trendsmap.com>"trendsmap", [online], [December 4, 2015 search], Internet <http://trendsmap.com>

しかしながら、以上に説明した感情分析手法のような従来技術は、以下に述べるような問題を抱えている。   However, conventional techniques such as the emotion analysis method described above have the following problems.

まず第1に、ソーシャルメディア上の1つの文書全体にわたって表現されている感情と、評価の対象となるトピックに対する感情とは、必ずしも一致しないことが問題となる。しかしながら、以上に説明したような従来の感情分析では、この両感情を区別して、トピックに基づく感情を的確に把握する、といったことはほとんど行われてこなかった。   First of all, there is a problem that emotions expressed throughout one document on social media do not necessarily match emotions for a topic to be evaluated. However, in the conventional emotion analysis as described above, it has been rarely performed to distinguish between these two emotions and accurately grasp the emotion based on the topic.

この両感情が一致しない1つの例として、「iPhone(登録商標)を持っていないなんてとても悲しい」との投稿文書は、全体としてネガティブな感情を表現したものと捉えることができる。しかしながら、「iPhone(登録商標)」というトピックに対しては、持っていたいものとしてのポジティブな感情を表している、と判断すべきである。即ち、トピックに基づく感情はしばしば、間接的なやり方で表現されるのである。さらに、投稿文書がトピックに係るキーワードを含んではいるものの、そこで表現されている感情はトピックとは無関係である場合も少なくない。例えば、「彼女は逆上して私にiPhone(登録商標)を投げつけた」との投稿文書での感情は、「iPhone(登録商標)」というトピックとは無関係であるといえる。   As one example where these emotions do not match, a posted document that says “It is very sad not to have an iPhone (registered trademark)” can be regarded as expressing negative emotions as a whole. However, it should be judged that the topic of “iPhone (registered trademark)” represents a positive feeling as to what it wants to have. That is, emotions based on topics are often expressed in an indirect manner. Furthermore, although the posted document includes keywords related to the topic, the emotion expressed there is often unrelated to the topic. For example, the sentiment that says “She turned up and threw me an iPhone (registered trademark)” can be said to be unrelated to the topic “iPhone (registered trademark)”.

このように、文書全体の感情と、対象となるトピックについての感情とを区別した感情分析や、感情分析結果を伴う特徴となるキーワードの抽出は、従来行われてこなかったのである。   As described above, emotion analysis that distinguishes emotions of the entire document from emotions about a target topic, and extraction of keywords that are characteristic with emotion analysis results have not been performed in the past.

また、第2の問題として、感情分析の結果を用い、例えばポジティブな投稿文書とネガティブな投稿文書との割合を算出するだけでは、評価対象のトピックに対する感情の背後にあるこの感情を引き起こす原因をも理解することは、依然として困難であることが挙げられる。   Also, as a second problem, using the result of emotion analysis, for example, simply calculating the ratio of positive and negative posted documents, the cause of this emotion behind the emotions for the topic being evaluated It is still difficult to understand.

例えば、感情分析結果としての感情がもたらされた原因を理解することを目的として、非特許文献2に記載されたTwitter(登録商標)メッセージの感情分析手法を用い、ツイートから代表キーワードを抽出することも考えられる。しかしながら、抽出元となる投稿文書は通常文長が短く、また正式な記載様式や構成が存在しないことから、代表キーワードの抽出は非常に難しい。このような事情から、非特許文献4に開示されたような特徴感情分析を除き、代表キーワードの抽出はほとんど行われてこなかったのである。   For example, for the purpose of understanding the cause of emotions as a result of emotion analysis, representative keywords are extracted from tweets using the Twitter (registered trademark) message emotion analysis method described in Non-Patent Document 2. It is also possible. However, since a posted document as an extraction source usually has a short sentence length and there is no formal description format or configuration, it is very difficult to extract representative keywords. Under such circumstances, the extraction of representative keywords has hardly been performed except for the characteristic emotion analysis disclosed in Non-Patent Document 4.

さらに、第3の問題として、従来の感情分析は、特定の1つの国又は地域において実施されるものであったことが挙げられる。これに対し、例えば、評価対象のトピックについての感情分析を互いに異なる国や地域において実施し、分析結果を比較することにより、文化的な障壁を超えて適切なグローバルビジネス戦略を立てる、といったことも可能となる。しかしながら、従来、そのようなグローバルな比較の手法は、感情分析を1つの国又は地域で実施してきた以上、当然、ほとんど検討されてこなかった。   Furthermore, as a third problem, it is mentioned that the conventional emotion analysis is performed in one specific country or region. In contrast, for example, sentiment analysis on the topic to be evaluated is conducted in different countries and regions, and by comparing the analysis results, an appropriate global business strategy can be established across cultural barriers. It becomes possible. However, in the past, such a global comparison method has, of course, hardly been studied since emotion analysis has been performed in one country or region.

例えば、非特許文献5に記載されたようなクロスランゲージ感情分析では、正確な翻訳を行って言語間における検索クエリ及び代表キーワードのマッチングをとることが依然として困難である。また、世界地図上で国・地域毎の結果比較を容易に行うことができるような感情分析結果の可視化も実施されてこなかった。   For example, in cross language sentiment analysis as described in Non-Patent Document 5, it is still difficult to perform accurate translation and match search queries and representative keywords between languages. There has also been no visualization of sentiment analysis results that can easily compare the results of each country / region on the world map.

また、非特許文献6に開示された特徴感情分析では、製品名に特化して分析が行われるのであり、また、例えば地図上に分析結果を可視化するようなことは行われてこなかった。さらに、自動的なトピック検出やトピックに基づく感情分析も実施されてこなかった。   Further, in the feature emotion analysis disclosed in Non-Patent Document 6, analysis is performed specifically for a product name, and for example, the analysis result is not visualized on a map. In addition, automatic topic detection and topic-based sentiment analysis have not been implemented.

さらに、非特許文献7のアプリケーションは、トピックを自動的に検出しているわけではなく、また、トピックに基づく感情を分析してもいない。また、非特許文献8のアプリケーションは、頻出語、ハッシュタグやユーザ名といったキーワードを世界地図上に表示してはいるが、これらのキーワードを含むツイートについて感情分析を行うといった機能は全く有していない。   Further, the application of Non-Patent Document 7 does not automatically detect a topic, nor does it analyze emotion based on the topic. The application of Non-Patent Document 8 displays keywords such as frequent words, hash tags, and user names on the world map, but has a function of performing emotion analysis on tweets including these keywords. Absent.

そこで、本発明は、トピックに対する感情をより的確に把握し、この感情の原因を理解しやすい形で、互いに異なる地域におけるトピックの評価の状況を分析することができる装置、プログラム及び方法を提供することを目的とする。   Therefore, the present invention provides an apparatus, a program, and a method capable of more accurately grasping emotions about a topic and analyzing the evaluation status of topics in different regions in a form that makes it easy to understand the cause of the emotions. For the purpose.

本発明によれば、複数の地域におけるトピックに対する評価を分析する評価分析装置であって、
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するキーワードグループ生成手段と、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情に係る語彙のデータベースを用いて、当該投稿文書に係る感情情報を決定する感情情報決定手段と、
生成されたキーワードグループに対し、このキーワードグループに属する代表キーワードの出現回数と、この代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するスコア付与手段と
を有する評価分析装置が提供される。
According to the present invention, an evaluation analyzer for analyzing evaluations on topics in a plurality of regions,
For each relevant region, a representative document is extracted from a document in a language used in the relevant region and searched using a query including a topic keyword related to the topic, and a language used in a different region. A keyword group generation means for generating a keyword group by collecting representative keywords that are representative keywords and are translated;
For each of the regions, a posted document in a language used in the region and searched for using a query including a topic keyword related to the topic, using a database of emotional vocabulary, Emotion information determination means for determining emotion information related to the posted document;
A score is assigned to a generated keyword group based on one or both of the number of appearances of a representative keyword belonging to the keyword group and emotion information related to a posted document related to the topic to the representative keyword. And an evaluation analyzer having means.

この本発明による評価分析装置は、一実施形態として、当該装置内又は当該装置外に設けられた表示デバイスに表示された画像における当該地域に対応する位置に、当該トピックに係るものとして生成されたキーワードグループのうちで所定の条件を満たすスコアを付与されたキーワードグループに含まれる当該地域の代表キーワードに係る情報と、当該トピックに係るものとして決定された当該地域の感情情報に係る情報とを表示させる表示制御手段を更に有することも好ましい。   This evaluation analysis apparatus according to the present invention is generated as an embodiment related to the topic at a position corresponding to the area in an image displayed on a display device provided inside or outside the apparatus. Display information related to the representative keyword of the region included in the keyword group given a score satisfying a predetermined condition among the keyword groups, and information related to emotion information of the region determined to be related to the topic It is also preferable to further include display control means for causing the display control means to be operated.

さらに、他の実施形態として、本評価分析装置は、当該地域毎に、当該トピックキーワードを含むクエリを用いて検索された当該投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するトピック特有文書決定手段を更に有し、
前記感情情報決定手段は、当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定する
ことも好ましい。
Furthermore, as another embodiment, the evaluation analysis apparatus searches for the value of the position of the topic keyword in the posted document searched using the query including the topic keyword and the posted document for each region. And using a feature amount including at least one of a value related to the distance between the query used to perform the predetermined emotion-inducing word and a value related to the number of nouns appearing in the posted document, A topic-specific document determining means for determining a topic-specific posted document that is a topic-specific posted document;
The emotion information determination means uses at least information related to a word appearing in the topic-specific posted document for each topic as a feature quantity element and uses a database of emotional vocabulary It is also preferable to determine emotion information related to the topic-specific posted document.

また、スコア付与手段は、一実施形態として、
(1)付与対象のキーワードグループに対し、該キーワードグループに属する地域の異なる代表キーワード間における感情情報の度合いの差であって、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合いの差が大きいほど、より高いスコアを付与すること、
(2)付与対象のキーワードグループに対し、該キーワードグループに属する地域の異なる代表キーワード間における出現回数の差であって、トピックについて関連するトピック特有投稿文書での出現回数の差が大きいほど、より高いスコアを付与すること、
(3)付与対象のキーワードグループに対し、該キーワードグループに含まれる代表キーワードの全てにおける、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合いの総和が大きいほど、より高いスコアを付与すること、及び
(4)付与対象のキーワードグループに対し、該キーワードグループに含まれる代表キーワードの総出現回数であって、トピックについて関連するトピック特有投稿文書に現れる総出現回数が多いほど、より高いスコアを付与すること
のうち少なくとも1つを採用することも好ましい。
In addition, the score giving means, as one embodiment,
(1) The difference in the degree of emotion information between representative keywords in different regions belonging to the keyword group for the keyword group to be assigned, and the degree of positive or negative in the emotion information of the topic-specific posted document related to the topic The greater the difference between, the higher the score,
(2) With respect to the keyword group to be assigned, the difference in the number of appearances between representative keywords in different regions belonging to the keyword group, and the larger the difference in the number of appearances in the topic-specific posted document related to the topic, the more Granting a high score,
(3) For a given keyword group, the higher the sum of the positive or negative degree in the emotion information of the topic-specific posted document related to the topic in all the representative keywords included in the keyword group, the higher the score. (4) For the keyword group to be assigned, the total number of appearances of the representative keywords included in the keyword group, and the more the total number of appearances appearing in the topic-specific posted document related to the topic, the more It is also preferable to employ at least one of giving a high score.

また、本評価分析装置は、さらなる他の実施形態として、当該地域毎に、当該地域で使用される言語の文書であって、当該投稿文書よりも情報量が多いと予め認定された文書種別の文書から、ワードの出現頻度及び/又はワードの出現する文書数に基づいて、当該トピックキーワードを抽出するトピックキーワード生成手段を更に有することも好ましい。   Further, as still another embodiment, the evaluation analysis apparatus is a document in a language used in the region for each region, and has a document type that has been previously recognized as having a larger amount of information than the posted document. It is also preferable to further include topic keyword generation means for extracting the topic keyword from the document based on the appearance frequency of the word and / or the number of documents in which the word appears.

さらに、キーワードグループ生成手段は、一実施形態として、
当該地域毎に、当該トピックキーワード及び抽出された当該代表キーワードの両方を含む投稿文書を収集し、収集された投稿文書に含まれる選別対象の代表キーワードと所定の感情誘発語との平均距離に係る値と、当該選別対象の代表キーワードが名詞か否かに係る値と、当該選別対象の代表キーワードと当該トピックキーワードとの距離に係る値と、当該選別対象の代表キーワードを含む収集された投稿文書について決定された感情情報がポジティブとネガティブとについて一方に偏っているか否かを示す偏り度合いに係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該キーワードグループを生成するための代表キーワードを選別する代表キーワード決定手段
を有することも好ましい。
Furthermore, the keyword group generation means, as one embodiment,
For each region, collect posted documents that include both the topic keyword and the extracted representative keyword, and relate to the average distance between the selected representative keyword included in the collected posted document and a predetermined emotion-inducing word. A collected post document including a value, a value related to whether or not the representative keyword of the selection target is a noun, a value related to the distance between the representative keyword of the selection target and the topic keyword, and the representative keyword of the selection target In order to generate the keyword group using a feature quantity having at least one of the values relating to the degree of bias indicating whether the emotion information determined for is biased to one of positive and negative It is also preferable to have representative keyword determining means for selecting the representative keywords.

本発明によれば、また、複数の地域におけるトピックに対する評価を分析する装置に搭載されたコンピュータを機能させるプログラムであって、
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するキーワードグループ生成手段と、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情に係る語彙のデータベースを用いて、当該投稿文書に係る感情情報を決定する感情情報決定手段と、
生成されたキーワードグループに対し、このキーワードグループに属する代表キーワードの出現回数と、この代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するスコア付与手段と
してコンピュータを機能させる評価分析プログラムが提供される。
According to the present invention, there is also provided a program for causing a computer mounted on an apparatus for analyzing evaluations on topics in a plurality of regions to function.
For each relevant region, a representative document is extracted from a document in a language used in the relevant region and searched using a query including a topic keyword related to the topic, and a language used in a different region. A keyword group generation means for generating a keyword group by collecting representative keywords that are representative keywords and are translated;
For each of the regions, a posted document in a language used in the region and searched for using a query including a topic keyword related to the topic, using a database of emotional vocabulary, Emotion information determination means for determining emotion information related to the posted document;
A score is assigned to a generated keyword group based on one or both of the number of appearances of a representative keyword belonging to the keyword group and emotion information related to a posted document related to the topic to the representative keyword. An evaluation analysis program for causing a computer to function as means is provided.

本発明によれば、さらに、当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するステップと、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情に係る語彙のデータベースを用いて、当該投稿文書に係る感情情報を決定するステップと、
生成されたキーワードグループに対し、このキーワードグループに属する代表キーワードの出現回数と、この代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するステップと
を有する評価分析方法が提供される。
According to the present invention, for each region, a representative keyword is extracted from a document in a language used in the region and searched using a query including a topic keyword related to the topic. Collecting representative keywords of languages used in different regions and related to each other to generate a keyword group;
For each of the regions, a posted document in a language used in the region and searched for using a query including a topic keyword related to the topic, using a database of emotional vocabulary, Determining emotion information related to the posted document;
A step of assigning a score to the generated keyword group based on one or both of the number of appearances of the representative keyword belonging to the keyword group and emotion information related to the posted document related to the topic to the representative keyword; An evaluation analysis method is provided.

本発明の評価分析装置、プログラム及び方法によれば、トピックに対する感情をより的確に把握し、この感情の原因を理解しやすい形で、互いに異なる地域におけるトピックに対する評価の状況を分析することができる。   According to the evaluation analysis apparatus, program, and method of the present invention, it is possible to more accurately grasp emotions for a topic and analyze the evaluation status for topics in different regions in a manner that makes it easy to understand the cause of the emotion. .

本発明による評価分析装置において実施される評価分析方法の一実施形態の概要を示したフローチャートである。It is the flowchart which showed the outline | summary of one Embodiment of the evaluation analysis method implemented in the evaluation analysis apparatus by this invention. 本発明による評価分析装置の一実施形態における機能構成を示す機能ブロック図である。It is a functional block diagram which shows the function structure in one Embodiment of the evaluation analysis apparatus by this invention. トピックキーワード(KW)生成部におけるトピックキーワード生成処理の一実施形態を示すフローチャートである。It is a flowchart which shows one Embodiment of the topic keyword production | generation process in a topic keyword (KW) production | generation part. トピック特有文書決定部及び感情情報決定部におけるトピック特有文書及び感情情報決定処理の一実施形態を示すフローチャートである。It is a flowchart which shows one Embodiment of the topic specific document and emotion information determination process in a topic specific document determination part and an emotion information determination part. 代表KW決定部における代表キーワード抽出・選別処理の一実施形態を示すフローチャートである。It is a flowchart which shows one Embodiment of the representative keyword extraction and selection process in a representative KW determination part. スコア付与部におけるスコア付与処理の一実施形態を示すプログラムコードである。It is a program code which shows one Embodiment of the score provision process in a score provision part. 表示制御部によってディスプレイに表示される感情世界地図の一実施形態を示す模式図である。It is a schematic diagram which shows one Embodiment of the emotion world map displayed on a display by a display control part.

以下、本発明の実施形態について、図面を用いて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明による評価分析装置において実施される評価分析方法の一実施形態の概要を示したフローチャートである。   FIG. 1 is a flowchart showing an outline of an embodiment of an evaluation analysis method implemented in an evaluation analysis apparatus according to the present invention.

図1に示された本実施形態における評価分析装置1は、複数の地域、例えば複数の国における、あるトピック(話題)に対する評価を分析し、分析結果を、例えばディスプレイに表示した世界地図上の該当位置に提示可能な装置である。具体的には、本発明による評価分析プログラムの搭載されたパーソナルコンピュータ(PC)、ノート型コンピュータ、スマートフォン、又はタブレット型コンピュータ等の情報機器とすることができる。   The evaluation analysis apparatus 1 according to the present embodiment shown in FIG. 1 analyzes evaluation on a certain topic (topic) in a plurality of regions, for example, a plurality of countries, and the analysis result is displayed on a world map displayed on a display, for example. It is a device that can be presented at the corresponding position. Specifically, it can be an information device such as a personal computer (PC), a notebook computer, a smartphone, or a tablet computer on which the evaluation analysis program according to the present invention is installed.

評価分析装置1は、本実施形態において、アクセスネットワークやインターネット等を介し、例えば複数の地域に設置された種々の文書管理・配信サーバ2から、
(a)Twitter(登録商標)等のミニブログ(Miniblog)や各種のブログ(blog,Weblog)を含むソーシャルメディア(social media)におけるユーザによる投稿文書、及び
(b)ニュース記事、新聞社社説や、各種分析記事等の、上記(a)に比べて通常、情報量(文字数)のより多い文書(大情報量文書)等
を取得することができる。ここで、大情報量文書は、Twitter(登録商標)等の投稿文書よりも一般的に情報量が多いと予め認定された種別の文書とすることができる。
In this embodiment, the evaluation / analysis apparatus 1 is connected to various document management / distribution servers 2 installed in a plurality of areas via an access network, the Internet, or the like.
(A) Documents submitted by users on social media including Twitter (registered trademark) miniblogs and various blogs (blogs, weblogs), and (b) news articles, newspaper editorials, It is possible to acquire a document (large information document) having a larger amount of information (number of characters) or the like, such as various analysis articles, as compared with the above (a). Here, the large information amount document can be a document of a type that is recognized in advance as having a larger amount of information than a posted document such as Twitter (registered trademark).

さらに、評価分析装置1は、具体的な機能構成として、分析対象に含まれる各地域において評価される「トピック」が決定された上で、
(A)分析対象に含まれる地域毎に、当該地域で使用される言語の文書(大情報量文書)であって、「トピック」に係るトピックキーワードを含むクエリを用いて検索された文書から「代表キーワード」を抽出し、
(B)互いに異なる地域で使用される言語の「代表キーワード」であって翻訳される関係にある「代表キーワード」同士を集めてキーワードグループを生成し、
(C)分析対象に含まれる地域毎に、当該地域で使用される言語の投稿文書であって、「トピック」に係るトピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情に係る語彙のデータベース(感情語彙DB)を用いて機械学習を行うことによって、当該投稿文書に係る「感情情報」を決定し、
(D)生成されたキーワードグループに対し、このキーワードグループに属する「代表キーワード」の出現回数と、このキーワードグループに属する「代表キーワード」にトピックについて関連する投稿文書に係る「感情情報」とのうちの一方又は両方に基づいて「スコア」を付与する
ことができる。
Furthermore, the evaluation analysis apparatus 1 determines, as a specific functional configuration, a “topic” to be evaluated in each region included in the analysis target,
(A) For each region included in the analysis target, a document (a large amount of information document) in a language used in the region and searched from a document searched using a query including a topic keyword related to “topic” Extract "representative keywords"
(B) A “representative keyword” of languages used in different regions and collecting “representative keywords” in a relation to be translated to generate a keyword group,
(C) For each region included in the analysis target, it is a posted document in a language used in the region, and is related to emotions for a posted document searched using a query including a topic keyword related to “topic” By performing machine learning using a vocabulary database (emotion vocabulary DB), “emotion information” related to the posted document is determined,
(D) For the generated keyword group, the number of appearances of the “representative keyword” belonging to this keyword group and “emotion information” related to the posted document related to the topic related to the “representative keyword” belonging to this keyword group A “score” can be assigned based on one or both of the above.

このような(A)〜(D)による処理の一実施例として、最初にトピックとして「iPhone(登録商標)」が決定された上で、
(a)分析対象の国である日本、米国、ブラジル、フランス及び中国の各国について抽出された代表キーワードから、
(b)「price」や「display size」といった代表キーワードを含むキーワードグループが生成され、
(c)日本、米国、ブラジル、フランス及び中国の各国におけるTwitter(登録商標)の(日本語、英語、ポルトガル語、フランス語及び中国語の)投稿文書に対する「感想・所感」(感情情報)が決定され、
(d)生成されたキーワードグループに属する「price」及び「display size」の出現回数と、これらの代表キーワードに「iPhone(登録商標)」について関連する投稿文書に対する「感想・所感」とに基づき、生成されたキーワードグループに対し「スコア」として、例えば百点満点のうちの数十何点が付与される。
As an example of such processing by (A) to (D), after “iPhone (registered trademark)” is first determined as a topic,
(A) From the representative keywords extracted for each country in Japan, the United States, Brazil, France, and China, which are the target countries for analysis,
(B) A keyword group containing representative keywords such as “price” and “display size”
(C) “Impressions / feelings” (emotion information) on Twitter (registered trademark) submission documents (in Japanese, English, Portuguese, French and Chinese) in Japan, the United States, Brazil, France and China And
(D) Based on the number of appearances of “price” and “display size” belonging to the generated keyword group and “impressions / comments” with respect to the posted document related to “iPhone (registered trademark)” as the representative keyword, As the “score” for the generated keyword group, for example, dozens of hundreds of points are given.

このように、本発明の評価分析装置1においては、トピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情語彙データベースを利用して機械学習を行うことによって「感情情報」を決定している。これにより、投稿文書全体にわたって表現されている感情と、評価対象の「トピック」に対する感情とが必ずしも一致しない問題を解決し、結果として、評価対象である「トピック」に対する感情をより的確に把握することが可能となる。例えば、「彼女は逆上して私にiPhone(登録商標)を投げつけた」との投稿文書に対する感情情報は、「iPhone(登録商標)」というトピックとは無関係であるとして、分析対象から排除することができるのである。   As described above, in the evaluation analysis apparatus 1 of the present invention, “emotion information” is determined by performing machine learning using a sentiment vocabulary database for a posted document searched using a query including a topic keyword. ing. This solves the problem that emotions expressed throughout the submitted document do not necessarily match the emotions of the “topic” to be evaluated, and as a result, more accurately grasps the emotion to the “topic” to be evaluated. It becomes possible. For example, emotional information for a document that says “She turned up and threw me an iPhone (registered trademark)” is excluded from the analysis because it is unrelated to the topic “iPhone (registered trademark)” It can be done.

また、本発明の評価分析装置1においては、キーワードグループに含まれる「代表キーワード」を決定する。この「代表キーワード」は、異なる言語によるものであって互いに翻訳される関係にあるものを含み、評価対象の「トピック」に対する感情の背後にある当該感情を引き起こす原因を理解するガイドとなる。例えば、評価対象トピックとしての1つの製品(名)に対し、ポジティブな「感情情報」(感想・所感)が決定されていて、代表キーワードとして「price」が決定されている場合、この製品に関してポジティブな感想・所感の生じた原因として、価格の安さが推察されるのである。このように、トピックに対する感情の原因を理解しやすい形で、トピック評価の状況を分析することが可能となる。   In the evaluation analysis apparatus 1 of the present invention, “representative keywords” included in the keyword group are determined. This “representative keyword” includes words that are in different languages and are translated into each other, and serves as a guide for understanding the cause of the emotion behind the emotion for the “topic” to be evaluated. For example, if positive “emotion information” (impression / feelings) is determined for one product (name) as an evaluation target topic and “price” is determined as a representative keyword, positive for this product The low price is presumed to be the cause of this feeling. In this way, it is possible to analyze the status of topic evaluation in a form that makes it easy to understand the cause of emotions for the topic.

さらに、本発明の評価分析装置1においては、分析対象に含まれる地域毎に「感情情報」を決定し、さらに、生成されたキーワードグループに対し、「代表キーワード」の出現回数と、「代表キーワード」にトピックについて関連する投稿文書に係る「感情情報」とのうちの一方又は両方に基づいて「スコア」を付与する。ここで、取り扱われる「代表キーワード」は、異なる地域で使用される言語毎に存在しており、互いに翻訳される関係にあるものである。これにより、分析・比較にふさわしいキーワードグループを選別し、互いに異なる地域におけるトピック評価の状況を効果的に理解することが可能となるのである。   Furthermore, in the evaluation analysis apparatus 1 of the present invention, “emotion information” is determined for each region included in the analysis target, and the number of occurrences of “representative keyword” and “representative keyword” are determined for the generated keyword group. "Score" is given based on one or both of "emotion information" related to the posted document related to the topic. Here, the “representative keywords” to be handled exist for each language used in different regions, and are in a relation to be translated from each other. This makes it possible to select keyword groups suitable for analysis and comparison, and to effectively understand the status of topic evaluation in different regions.

従って、特定の1つの地域(1つの国)における感情分析にとどまらず、例えば、互いに異なる言語を使用する国々にまたがった感情分析を行うことも可能となる。その結果、例えば、各国間において分析結果を比較することにより、ビジネスや政治等の分野において、文化的な障壁を超えた適切なグローバル戦略を立てる、といったことも可能となるのである。   Therefore, it is possible not only to analyze emotions in one specific region (one country) but also to perform emotion analysis across countries using different languages, for example. As a result, for example, by comparing analysis results between countries, it is possible to establish an appropriate global strategy that transcends cultural barriers in fields such as business and politics.

ちなみに、評価分析装置1は、1つの実施形態として、
(E)装置1内又は装置1外に設けられた表示デバイスに表示された画像(例えば、世界地図)における対象地域に対応する位置に、
(e1)評価対象トピックに係るものとして生成されたキーワードグループのうちで所定の条件を満たす「スコア」を付与されたキーワードグループに含まれるこの地域の「代表キーワード」に係る情報と、
(e2)評価対象トピックに係るものとして決定されたこの地域の「感情情報」に係る情報と
を表示させる
ことも好ましい。
Incidentally, the evaluation analysis apparatus 1 is one embodiment,
(E) In a position corresponding to a target area in an image (for example, a world map) displayed on a display device provided in the apparatus 1 or outside the apparatus 1,
(E1) Information related to the “representative keyword” of this region included in the keyword group assigned with the “score” that satisfies the predetermined condition among the keyword groups generated as related to the evaluation target topic;
(E2) It is also preferable to display information related to “emotional information” in this area determined as related to the evaluation target topic.

このような実施形態を採用した場合、例えば、世界地図上で、各国についての「代表キーワード」及び「感情情報」を当該国の位置に表示して感情分析結果の可視化を行うことによって、国(地域)毎の感情分析結果の比較を容易に行うことも可能となるのである。   When such an embodiment is adopted, for example, by displaying the “representative keyword” and “emotion information” for each country on the world map at the position of the country and visualizing the emotion analysis result, the country ( It is also possible to easily compare emotion analysis results for each region.

なお、本発明による評価分析装置は、例えば、ユーザの利用するユーザインタフェースとしてのPCとは別個の装置とすることもできる。この場合、評価分析装置は、当該PCと無線又は有線で通信接続されていて、当該PCから分析処理動作についての指示情報を入力し、当該PCのディスプレイ制御部に表示画像データを出力するものであってもよい。また、本発明による評価分析装置は、上記構成(C)における「感情情報」を決定するための機械学習処理部分を、外部の別サーバで行い、処理結果のデータベースのみを自身の内に格納するものであってもよい。   Note that the evaluation analysis apparatus according to the present invention may be an apparatus separate from a PC as a user interface used by a user, for example. In this case, the evaluation analysis apparatus is connected to the PC by wireless or wired communication, inputs instruction information about the analysis processing operation from the PC, and outputs display image data to the display control unit of the PC. There may be. Further, the evaluation analysis apparatus according to the present invention performs the machine learning processing part for determining the “emotion information” in the configuration (C) by using another external server, and stores only the processing result database therein. It may be a thing.

次に、図1に示したフローチャートを用いて、本実施形態の評価分析装置1におけるトピック評価分析処理の概要を、ステップS1〜S5に分けて説明する。   Next, the outline of the topic evaluation analysis process in the evaluation analysis apparatus 1 according to the present embodiment will be described in steps S1 to S5 using the flowchart shown in FIG.

(S1:トピック検出)最初に、グローバルな感情分析、さらには各地域(国)での感情分析結果の比較、を行うのに適した(行う価値のある)トピック、いわゆるホットトピックを検出する。
(S2:トピック固有感情分析)次いで、投稿文書全体の感情を評価するのではなく、検索クエリ(トピック)についての投稿文書の感情を分析する。
(S3:代表キーワード抽出)次いで、分析結果としての感情の偏りの原因をユーザに理解させることを目的として、感情についてポジティブな投稿文書及びネガティブな投稿文書の両方を用いて代表キーワードを抽出する。
(S1: Topic Detection) First, a topic that is suitable (worth worth performing), that is, a so-called hot topic, that is suitable for performing global sentiment analysis and comparison of sentiment analysis results in each region (country) is detected.
(S2: Topic-specific emotion analysis) Next, instead of evaluating the emotion of the entire posted document, the emotion of the posted document for the search query (topic) is analyzed.
(S3: Extraction of representative keywords) Next, for the purpose of making the user understand the cause of emotional bias as an analysis result, representative keywords are extracted using both a posted document positive for emotion and a negative posted document.

(S4:地域間での感情分析結果比較)(異なる言語使用国を含む)複数の国(地域)の間で、感情分析結果を比較し、最も興味深いと判断される結果の差異を強調してまとめる。
(S5:感情情報世界地図の生成・表示)分析を行った複数の国について、まとめた比較結果を含め、感情の偏りの度合いといった「感情情報」だけでなく、感情の生じた原因を理解するための「代表キーワード」をも世界地図上に表示する。
(S4: Comparison of emotional analysis results between regions) (including different language use countries) Compare emotional analysis results between multiple countries (regions) and emphasize differences in results judged to be the most interesting To summarize.
(S5: Generation and display of emotional information world map) Understand the causes of emotions as well as the “emotional information” such as the degree of emotional bias, including the comparison results, for the analyzed countries. "Representative keywords" are also displayed on the world map.

このように、本評価分析装置1によれば、複数の国(地域)におけるトピック特有感情分析を実施することができる。また、分析対象として価値のあるトピックを取り上げた上で、投稿文書全体の感情ではなく、まさに取り上げたトピックについての感情を分析することができる。さらに、感情の偏りの度合いといった「感情情報」とともに、この「感情情報」を説明可能な「代表キーワード」を抽出して表示し、あわせて国間での興味深い結果の差異を強調して表示することもできるのである。   Thus, according to the present evaluation analysis apparatus 1, topic-specific emotion analysis in a plurality of countries (regions) can be performed. In addition, after taking up a topic of value as an analysis target, it is possible to analyze the emotion of the topic just taken, not the emotion of the entire posted document. In addition to “emotional information” such as the degree of emotional bias, “representative keywords” that can explain this “emotional information” are extracted and displayed, and the differences in interesting results between countries are highlighted and displayed. It can also be done.

以下、概説した上記の処理ステップS1〜S5の各々について、当該処理ステップを担当する評価分析装置1の機能構成部を明示しつつ、詳細を説明する。   Hereinafter, details of each of the above-described processing steps S1 to S5 will be described in detail, while clearly showing the functional components of the evaluation analyzer 1 in charge of the processing steps.

図2は、本発明による評価分析装置の一実施形態における機能構成を示す機能ブロック図である。   FIG. 2 is a functional block diagram showing a functional configuration in an embodiment of the evaluation analyzer according to the present invention.

図2によれば、評価分析装置1は、通信インタフェース部101と、文書データベース(DB)102と、感情語彙DB103と、スコア付与キーワード(KW)グループ記録部104と、ディスプレイ105と、操作部106と、プロセッサ・メモリとを有する。ここで、プロセッサ・メモリは、評価分析装置1の主機能部であるコンピュータを機能させるプログラムを実行することによって、評価分析機能を実現させる。   According to FIG. 2, the evaluation analysis apparatus 1 includes a communication interface unit 101, a document database (DB) 102, an emotion vocabulary DB 103, a score assignment keyword (KW) group recording unit 104, a display 105, and an operation unit 106. And processor memory. Here, the processor memory realizes the evaluation analysis function by executing a program that causes the computer that is the main function unit of the evaluation analysis apparatus 1 to function.

さらに、プロセッサ・メモリは、機能構成部として、トピックKW生成部111と、トピック特有文書決定部112と、感情情報決定部113と、KWグループ生成部114と、スコア付与部116と、入出力制御部117とを有する。なお、図2によれば、各機能構成部を矢印で接続した処理の流れは、本発明による評価分析方法の一実施形態としても理解される。   Further, the processor memory includes a topic KW generation unit 111, a topic-specific document determination unit 112, an emotion information determination unit 113, a KW group generation unit 114, a score assignment unit 116, and input / output control as function components. Part 117. In addition, according to FIG. 2, the flow of the process which connected each function structure part with the arrow is understood also as one Embodiment of the evaluation analysis method by this invention.

通信インタフェース部101は、文書管理・配信サーバ2から、通信ネットワークを介し、Twitter(登録商標)等を含むソーシャルメディアにおけるユーザによる投稿文書や、ニュース記事等の大情報量文書等を受信する。また、後述する入出力制御部117から、分析結果としての感情情報や代表キーワードを含む感情情報世界地図に係る情報を入力して、外部の装置宛てに送信してもよい。また、文書DB102は、取得された投稿文書や大情報量文書等を、各種文書検索に対応可能な形で蓄積したデータベースである。   The communication interface unit 101 receives, from the document management / distribution server 2, via a communication network, a posted document by a user on social media including Twitter (registered trademark), a large information document such as a news article, and the like. In addition, information related to emotion information world map including emotion information and representative keywords as an analysis result may be input from an input / output control unit 117 described later, and transmitted to an external device. The document DB 102 is a database in which acquired posted documents, large information content documents, and the like are stored in a form that can be used for various document searches.

[トピックキーワード生成処理:S1]
トピックKW生成部111は、分析対象に含まれる国(地域)毎に、当該国(地域)で使用される言語の文書であって、投稿文書よりも情報量が多いと予め認定された文書種別の文書(大情報量文書)から、ワードの出現頻度及び/又はワードの出現する文書数に基づいて、トピックキーワードを抽出する。
[Topic Keyword Generation Processing: S1]
The topic KW generation unit 111 is a document of a language used in each country (region) included in the analysis target and is previously recognized as having a larger amount of information than the posted document. Topic keywords are extracted from the document (large information document) based on the appearance frequency of words and / or the number of documents in which words appear.

図3は、トピックKW生成部111におけるトピックキーワード生成処理の一実施形態を示すフローチャートである。   FIG. 3 is a flowchart showing an embodiment of topic keyword generation processing in the topic KW generation unit 111.

(S11)ニュース記事(大情報量文書)から、tf-idf(term frequency-inverse document frequency)法等のアルゴリズムを用いて、特徴度の高い順に例えば100個のキーワードを抽出する。
ここで、例えば、新聞で記事に取り上げられたトピック(話題)が、ソーシャルメディア上でも最新のホットなトピックになっているとは必ずしも限らない。そこで、次にステップS12を実行する。
(S11) For example, 100 keywords are extracted from a news article (large information document) in descending order of feature using an algorithm such as tf-idf (term frequency-inverse document frequency).
Here, for example, a topic (topic) taken up in an article in a newspaper is not necessarily the latest hot topic on social media. Then, next, step S12 is performed.

(S12)抽出されたキーワードをフィルタリングし、複数の投稿文書において特徴的でない(重みの小さい)キーワードを除外する。
ここで、フィルタリング処理として、各キーワードについて、複数の投稿文書におけるtf-idfスコアを算出し、所定閾値未満のスコアを有するキーワードを除外することも好ましい。このようなフィルタリング処理によって選別されたキーワードがトピックキーワードに決定され、決定されたトピックキーワードに係るトピックが、評価対象のトピックとなるのである。以後、このトピックキーワードを用いて、トピックに特有の文書であるトピック特有文書を決定する。
(S12) The extracted keywords are filtered to exclude keywords that are not characteristic (small weight) in a plurality of posted documents.
Here, as the filtering process, it is also preferable to calculate tf-idf scores in a plurality of posted documents for each keyword, and to exclude keywords having a score less than a predetermined threshold. A keyword selected by such filtering processing is determined as a topic keyword, and a topic related to the determined topic keyword becomes a topic to be evaluated. Thereafter, a topic-specific document that is a document specific to the topic is determined using the topic keyword.

(S13)、選別されたトピックキーワードを含むクエリを用いて、当該トピックキーワードを含む投稿文書を検索する。
以下、このように取得されたトピックに関係する投稿文書から、トピック特有文書が決定され、さらに、決定されたトピック特有文書において感情分析が行われるのである。
(S13) Using a query including the selected topic keyword, a posted document including the topic keyword is searched.
Hereinafter, a topic-specific document is determined from the posted documents related to the topic thus obtained, and emotion analysis is performed on the determined topic-specific document.

[トピック固有感情分析処理:S2]
図2に戻って、トピック特有文書決定部112は、分析対象に含まれる国(地域)毎に、当該地域で使用される言語の投稿文書であって、トピックキーワードを含むクエリを用いて検索された投稿文書について、
(a)当該投稿文書におけるトピックキーワードの位置に係る値と、
(b)当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、
(c)当該投稿文書に現れた名詞の数に係る値と
のうちの少なくとも1つを要素とする特徴量を用いて機械学習を行い、トピックに特有の投稿文書であるトピック特有投稿文書を決定する。図2に示したトピック特有文書決定部112では、上記特徴量要素(a)、(b)及び(c)はそれぞれ、KW位置解析部112a、クエリ距離解析部112b及び品詞解析部112cによって算出される。
[Topic-specific emotion analysis processing: S2]
Returning to FIG. 2, the topic-specific document determining unit 112 is searched for a country (region) included in the analysis target using a query that is a posted document in a language used in the region and includes a topic keyword. About posted documents
(A) a value related to the position of the topic keyword in the posted document;
(B) a value related to the distance between the query used to search the posted document and a predetermined emotion-inducing word;
(C) Machine learning is performed using a feature quantity having at least one of the values related to the number of nouns appearing in the posted document, and a topic-specific posted document that is a topic-specific posted document is determined. To do. In the topic specific document determination unit 112 shown in FIG. 2, the feature quantity elements (a), (b), and (c) are respectively calculated by the KW position analysis unit 112a, the query distance analysis unit 112b, and the part of speech analysis unit 112c. The

感情情報決定部113は、分析対象に含まれる国(地域)毎に、決定されたトピック特有投稿文書に対し、少なくともトピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、後述する感情語彙DB103を用いて機械学習を行うことによって、トピック特有投稿文書に係る感情情報を決定する。   For each country (region) included in the analysis target, the emotion information determination unit 113 uses at least information related to a word appearing in the topic-specific posted document as a feature element for the topic-specific posted document determined later. By performing machine learning using the emotion vocabulary DB 103, emotion information related to the topic-specific posted document is determined.

感情語彙DB103は、感情に係る語彙のデータベースである。感情に関係する語彙を、感情種別について整理して格納したレキシコン(語彙目録、lexicon)とすることができる。また、特に、ポジティブ及びネガティブの互いに対となる感情に対する偏り具合(両感情の間での位置)である感情のポラリティを、語彙に対応付けたポラリティ・レキシコン(polarity lexicon)であることも好ましい。   The emotion vocabulary DB 103 is a database of vocabulary related to emotion. Vocabulary related to emotion can be a lexicon (lexicon, lexicon) in which emotion types are organized and stored. In particular, it is also preferable that the polarity of the emotion, which is a biased state (position between both emotions) of positive and negative emotions, is a polarity lexicon associated with the vocabulary.

なお、変更態様として、トピック特有文書決定部112及び/又は感情情報決定部113における機械学習処理部分については、装置1の外部に設置された処理サーバ等において実施し、この処理結果のデータベースを、装置1が収容して利用することも可能である。   As a modification mode, the machine learning processing part in the topic specific document determination unit 112 and / or the emotion information determination unit 113 is performed in a processing server or the like installed outside the device 1, and a database of this processing result is The apparatus 1 can be accommodated and used.

図4は、トピック特有文書決定部112及び感情情報決定部113におけるトピック特有文書及び感情情報決定処理の一実施形態を示すフローチャートである。   FIG. 4 is a flowchart showing an embodiment of topic-specific document and emotion information determination processing in the topic-specific document determination unit 112 and the emotion information determination unit 113.

(S21)最初に、トピックキーワードを含むクエリを用いて検索された分析対象の投稿文書の中における、トピックキーワードの位置を解析して調べる。例えば、投稿文書全体を0から1までの数直線として、トピックキーワードがこの数直線上のどの値の位置に現れるかを調べてもよい。または、トピックキーワードが文書開始の位置から何番目の語に相当するか、におけるその番数を位置とすることも可能である。
これにより、例えば、トピックキーワードの位置が投稿文書の開始の位置に近ければ、当該投稿文書のキーワードがこのトピックキーワードと合致する可能性が高い、といった判断がされ易くなる。
(S21) First, the position of the topic keyword is analyzed and examined in the post document to be analyzed that is searched using the query including the topic keyword. For example, the entire posted document may be a number line from 0 to 1, and the value of the topic keyword appearing on the number line may be examined. Alternatively, the number of the topic keyword corresponding to the number of words from the document start position can be set as the position.
Accordingly, for example, if the topic keyword is close to the start position of the posted document, it is easy to determine that the keyword of the posted document is highly likely to match the topic keyword.

(S22)次いで、この分析対象の投稿文書における全ての感情誘発語を、感情語彙DB103を用いて特定し、検索に使用されたクエリ(トピックキーワード)と、特定された中で当該クエリに最も近い感情誘発語との距離、例えば語数又は文字数、を算出する。
これにより、例えば、算出された距離が所定未満の小さな値であれば、当該投稿文書に係る感情がこのトピックキーワードに関連している可能性が高い、といった判断がされ易くなる。ここで、感情誘発語とは、ある感情(sentiment)の発現を意味している語であり、感情語彙DB103において当該感情(のポラリティ)と対応付けられて記憶されている語となる。
(S22) Next, all emotion-inducing words in the post document to be analyzed are specified using the emotion vocabulary DB 103, and the query (topic keyword) used for the search and the specified query closest to the query The distance from the emotion-inducing word, for example, the number of words or the number of characters is calculated.
Thus, for example, if the calculated distance is a small value less than a predetermined value, it is easy to determine that the emotion related to the posted document is likely to be related to the topic keyword. Here, the emotion-inducing word is a word meaning the expression of a certain sentiment (sentiment), and is a word stored in the sentiment vocabulary DB 103 in association with the sentiment (its polarity).

(S23、S24)次に、POS(part of speech)tagger等のアプリケーションを用いて、この分析対象の投稿文書におけるクエリ(トピックキーワード)、感情誘発語及びその他全ての単語の品詞を同定し、当該投稿文書における名詞の数をカウントする。
これにより、投稿文書中の名詞の数によって、当該投稿文書の話題(トピック)がトピックキーワードとは異なっている可能性を測ることができる。
(S23, S24) Next, using an application such as a POS (part of speech) tagger, the query (topic keyword), emotion-inducing word and all other words of speech in the post document to be analyzed are identified, Count the number of nouns in the submitted document.
Thereby, the possibility that the topic (topic) of the posted document is different from the topic keyword can be measured by the number of nouns in the posted document.

具体的には、例えば、投稿文書中に多くの名詞が現れていれば、当該投稿文書の話題(トピック)がトピックキーワードとは異なっている可能性が高い、といった判断がされ易くなる。例えば、「iPhone(登録商標)が大好き!」との投稿文書は、名詞を1つだけ含んでいるが、この投稿文書の表す感情はiPhone(登録商標)に対する感情であるといえる。これに対し、「このお店のiPhone(登録商標)用のアプリ、コーヒーを注文するのにとってもいい!」との投稿文書は、名詞を4つ含んでおり、iPhone(登録商標)に対する感情を表現していないと判断される。   Specifically, for example, if many nouns appear in the posted document, it is easy to determine that the topic (topic) of the posted document is likely to be different from the topic keyword. For example, a posted document “I love iPhone (registered trademark)!” Contains only one noun, but the emotion represented by this posted document can be said to be an emotion for the iPhone (registered trademark). On the other hand, the posted document “It is also good to order coffee for this store's iPhone (registered trademark) app!” Contains four nouns, giving feelings about the iPhone (registered trademark). It is judged that it is not expressed.

ここで、以上に説明したステップS21〜S24で取得された、トピックキーワードの位置、感情誘発語との距離、及び名詞数に係る情報は、各ステップにおいてトピック特有文書決定部112の特徴量用メモリに記憶され、これらの情報を成分とした、分析対象の投稿文書についての特徴量ベクトルが生成される。   Here, the information relating to the position of the topic keyword, the distance from the emotion-inducing word, and the number of nouns acquired in steps S21 to S24 described above is stored in the feature amount memory of the topic-specific document determination unit 112 in each step. And a feature vector for the post document to be analyzed is generated using these pieces of information as components.

(S25、S26)分析対象の投稿文書について生成された特徴量ベクトルを用い、SVM(Support Vector Machine)やナイーブベイズといった機械学習アルゴリズムによって学習を行い、この投稿文書が、トピックに係る感情を表明したトピック特有文書であるか否かを決定する分類処理を実施する。ここで、トピック特有文書ではないと決定された場合、この投稿文書は、感情分析対象ではないとして、本分析処理は終了する。 (S25, S26) Using the feature vector generated for the posted document to be analyzed, learning was performed by a machine learning algorithm such as SVM (Support Vector Machine) or Naive Bayes, and this posted document expressed an emotion related to the topic. A classification process for determining whether the document is a topic-specific document is performed. If it is determined that the document is not a topic-specific document, the posted document is not an emotion analysis target, and the analysis process ends.

(S27)一方、この投稿文書はトピック特有文書であると決定された場合、この投稿文書について感情分析を行う。この感情分析は、例えばSVMやナイーブベイズといった機械学習をベースとした公知の標準的な感情分析アルゴリズムを用いて実施することができる。
ここで、感情分析結果としては、例えば、ネガティブ及びポジティブの両極の間における感情の偏り度合いである感情レシオ(Sentiment Ratio)rが出力されてもよく、各種感情空間における座標値が出力されてもよい。感情レシオrは、r=−1(ネガティブ),0(ニュートラル),1(ポジティブ)の3値をとってもよく、ネガティブ又はポジティブの2値をとってもよく、又は−1≦r≦1の範囲の値をとるように設定してもよい。
(S27) On the other hand, when it is determined that the posted document is a topic-specific document, emotion analysis is performed on the posted document. This emotion analysis can be performed using a known standard emotion analysis algorithm based on machine learning such as SVM or Naive Bayes.
Here, as the emotion analysis result, for example, an emotion ratio (rentiment ratio) r that is a degree of emotional bias between the negative and positive poles may be output, or coordinate values in various emotional spaces may be output. Good. The emotion ratio r may take three values of r = −1 (negative), 0 (neutral), and 1 (positive), may take a negative or positive value, or a value in a range of −1 ≦ r ≦ 1. You may set to take.

以上に説明した処理によって、表明する感情がトピック(キーワード)に対するものとなっているトピック特有文書を選別し、選別された感情分析の対象にふさわしいトピック特有文書に対してのみ感情分析を行うことによって、的を射た適切な感情情報を取得することが可能となる。例えば、「彼女は逆上して私にiPhone(登録商標)を投げつけた。」といった投稿文書は、iPhone(登録商標)に係る感情を表明していないので、トピック特有文書とせず、感情分析の対象から除外することができる。また、機械学習を用いて総合的に感情を判断するので、例えば、「iPhone(登録商標)がなくて残念。」といった感情の間接表現にも対応することが可能となる。   By selecting the topic-specific documents whose sentiments are related to the topic (keywords) by the processing described above, and performing emotion analysis only on the topic-specific documents suitable for the selected emotion analysis target It becomes possible to acquire appropriate emotion information that hit the target. For example, a posted document such as “She turned up and threw me an iPhone (registered trademark)” did not express an emotion related to the iPhone (registered trademark). Can be excluded from the target. In addition, since emotions are comprehensively determined using machine learning, for example, it is possible to handle indirect expressions of emotions such as “I am sorry that there is no iPhone (registered trademark)”.

[代表キーワード抽出及びキーワードグループ生成処理:S3]
図2に戻って、KWグループ生成部114は、代表KW決定部114aと、グルーピング部114fとを有する。このうち、代表KW決定部114aは、分析対象に含まれる国(地域)毎に、当該地域で使用される言語の文書であって、評価対象のトピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出する。
[Representative keyword extraction and keyword group generation processing: S3]
Returning to FIG. 2, the KW group generation unit 114 includes a representative KW determination unit 114 a and a grouping unit 114 f. Among these, the representative KW determination unit 114a performs a search for each country (region) included in the analysis target using a query including a topic keyword related to the topic to be evaluated, which is a language document used in the region. The representative keyword is extracted from the document.

代表KW決定部114aは、さらに、
(a)分析対象に含まれる国(地域)毎に、トピックキーワード及び抽出された代表キーワードの両方を含む投稿文書を収集し、
(b)収集した各投稿文書について、感情語距離解析部114b、品詞解析部114c、トピックKW距離解析部114d、及びKW出現頻度解析部114eで算出された値を要素とする特徴量ベクトルを生成し、
(c)生成した特徴量ベクトルを用いて機械学習を行い、キーワードグループを生成するための代表キーワードを選別する
ことも好ましい。
The representative KW determination unit 114a further
(A) Collect post documents containing both topic keywords and extracted representative keywords for each country (region) included in the analysis target,
(B) For each collected posted document, a feature vector having elements calculated by the emotion word distance analyzing unit 114b, the part of speech analyzing unit 114c, the topic KW distance analyzing unit 114d, and the KW appearance frequency analyzing unit 114e is generated. And
(C) It is also preferable to perform machine learning using the generated feature vector to select a representative keyword for generating a keyword group.

ここで、上記(b)において、
(b1)感情語距離解析部114bは、収集された投稿文書に含まれる選別対象の代表キーワードと所定の感情誘発語との平均距離に係る値を算出し、
(b2)品詞解析部114cは、選別対象の代表キーワードが名詞か否かに係る値を算出し、
(b3)トピックKW距離解析部114dは、選別対象の代表キーワードとトピックキーワードとの距離に係る値を算出し、
(b4)KW出現頻度解析部114eは、選別対象の代表キーワードを含む収集された投稿文書について決定された感情情報がポジティブとネガティブとについて一方に偏っているか否かを示す偏り度合いに係る値を算出する。
Here, in the above (b),
(B1) The emotion word distance analysis unit 114b calculates a value related to the average distance between the representative keyword to be selected included in the collected posted document and the predetermined emotion induction word,
(B2) The part-of-speech analysis unit 114c calculates a value related to whether the representative keyword to be selected is a noun,
(B3) The topic KW distance analysis unit 114d calculates a value related to the distance between the representative keyword to be selected and the topic keyword,
(B4) The KW appearance frequency analysis unit 114e calculates a value related to the degree of bias indicating whether the emotion information determined for the collected posted document including the representative keyword to be selected is biased to one of positive and negative. calculate.

代表KW決定部114aは、算出された上記(b1)〜(b4)の値のうちの少なくとも1つ、好ましくは全部、を要素とする特徴量を用いて機械学習を行うことができる。ちなみに、この代表キーワード抽出のための機械学習処理は、例えばSVMやナイーブベイズといった公知の標準的アルゴリズムを適用して実施することができ、処理結果としては、選別対象の代表キーワードを選択するか否かの情報が出力されてもよい。   The representative KW determination unit 114a can perform machine learning using a feature amount including at least one, preferably all, of the calculated values (b1) to (b4). Incidentally, the machine learning process for extracting the representative keyword can be performed by applying a known standard algorithm such as SVM or Naive Bayes, and the process result is whether or not the representative keyword to be selected is selected. Such information may be output.

また、変更態様として、この代表KW決定部114aにおける機械学習処理部分については、装置1の外部に設置された処理サーバ等において実施し、この処理結果のデータベースを、装置1が収容して利用することも可能である。   Further, as a change mode, the machine learning processing part in the representative KW determination unit 114a is performed in a processing server or the like installed outside the apparatus 1, and the apparatus 1 accommodates and uses the database of the processing results. It is also possible.

同じく図2において、グルーピング部114fは、評価対象に含まれる国(地域)の各々で選別された代表キーワードのうち、互いに異なる国(地域)で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成する。この際、キーワードグループは、翻訳される関係にある代表キーワードの集合を各々1つ以上含むものとして、複数生成されることも好ましい。   Similarly, in FIG. 2, the grouping unit 114 f is a representative keyword of a language used in a different country (region) among the representative keywords selected in each country (region) included in the evaluation target, and is translated. A keyword group is generated by collecting representative keywords that are related to each other. At this time, it is also preferable that a plurality of keyword groups are generated, each including one or more representative keyword sets having a relationship to be translated.

ここで、代表キーワードの翻訳は、公知の機械翻訳アプリケーションや言語間翻訳用のリンクを利用することができる。また、互いに翻訳される関係にある(異なる言語の)代表キーワードは、予め設定されたシソーラス(Thesaurus)を利用して決定されることも好ましい。このようなシソーラスとして、対象となる全ての言語及び当該言語間における通常辞書、スラング辞書、新語辞書等、種々のタイプの辞書を予め準備しておくことも好ましい。本実施形態では、充実したシソーラスを用いて適切なキーワードグループを生成することが、国(地域)間において分析結果を効果的に比較するために非常に重要となるのである。   Here, for the translation of the representative keyword, a known machine translation application or a link for translation between languages can be used. It is also preferable that representative keywords (in different languages) that are translated with each other are determined using a preset thesaurus. As such a thesaurus, it is also preferable to prepare in advance various types of dictionaries such as all target languages and normal dictionaries, slang dictionaries, new word dictionaries between the languages. In this embodiment, it is very important to generate an appropriate keyword group using a rich thesaurus in order to effectively compare analysis results between countries (regions).

図5は、代表KW決定部114aにおける代表キーワード抽出・選別処理の一実施形態を示すフローチャートである。   FIG. 5 is a flowchart showing an embodiment of representative keyword extraction / selection processing in the representative KW determination unit 114a.

(S31)最初に、各トピックキーワードについて、インターネット上に存在する文書(大情報量文書)から代表キーワード候補を抽出し、代表キーワード候補リストを生成する。この処理は、具体的に、
(a)公知であるウェブページの検索エンジンを使用し、トピックキーワードと適切なキーワード(例えば「ニュース」等)とを合わせた検索クエリをもって、ウェブページを検索・収集し、
(b)収集されたウェブページの本文を抽出し、抽出された本文から、tf-idfや、df-idf、LDA(Latent Dirichlet Allocation)、LSA(Latent Semantic Association)、AIC(Akaike Information Criterion)といった公知のアルゴリズムを用いて代表キーワード候補を抽出する
ことによって実施することができる。
(S31) First, for each topic keyword, representative keyword candidates are extracted from a document (large information amount document) existing on the Internet, and a representative keyword candidate list is generated. This process is specifically
(A) Search and collect web pages using a search query that combines a topic keyword and an appropriate keyword (for example, “news”) using a known web page search engine,
(B) Extract the body text of the collected web pages, and from the extracted text, tf-idf, df-idf, LDA (Latent Dirichlet Allocation), LSA (Latent Semantic Association), AIC (Akaike Information Criterion), etc. This can be implemented by extracting representative keyword candidates using a known algorithm.

(S32)次いで、抽出された代表キーワード候補の各々について、当該キーワードとトピックキーワードとの両方を含んでいる投稿文書を全て収集する。
ここで、さらに、感情誘発語を全く含んでおらず感情の分析には適さないような、雑音に相当する投稿文書を除外することも好ましい。さらに、宣伝広告といったスパム(spam)と言われるような投稿文書を除外することも好ましい。この場合、例えば、画像以外のウェブコンテンツのURL(Uniform Resource Locator)を含んでいたり、(例えば、英語の投稿文書の場合に)「win」、「deal」、「review」、「$」及び「offer」といった疑わしい単語・文字を含んでいたりする投稿文書を全て除外するとしてもよい。
(S32) Then, for each of the extracted representative keyword candidates, all the posted documents including both the keyword and the topic keyword are collected.
Here, it is also preferable to exclude a posted document corresponding to noise that does not include any emotion-inducing word and is not suitable for emotion analysis. Furthermore, it is also preferable to exclude posted documents such as advertisements that are said to be spam. In this case, for example, a URL (Uniform Resource Locator) of web content other than an image is included, or “win”, “deal”, “review”, “$”, and “$” All posted documents containing suspicious words / characters such as “offer” may be excluded.

次いで、機械学習を用いて不適当な代表キーワード候補を除外するため、以下のステップS33〜S36の処理を実施する。   Next, in order to exclude inappropriate representative keyword candidates using machine learning, the following steps S33 to S36 are performed.

(S33)ポラリティ・レキシコン(polarity lexicon)である感情語彙DB103を用いて、投稿文書の中にある感情誘発語を同定し、選別対象の代表キーワード候補とこの感情誘発語との平均距離を算出する。
これにより、代表キーワード候補が感情誘発語をより近くに伴っていればいるほど、代表キーワードとして選別される、といった判断がされ易くなる。
(S33) Using the emotion vocabulary DB 103, which is a polarity lexicon, the emotion-inducing word in the posted document is identified, and the average distance between the representative keyword candidate to be selected and the emotion-inducing word is calculated. .
This makes it easier to determine that the more representative keyword candidates are accompanied by emotion-inducing words, the more they are selected as representative keywords.

(S34)POS tagger等のアプリケーションを用いて、投稿文書の中の代表キーワード候補が名詞か否かを判定し、判定結果を出力する。
これにより、代表キーワード候補が名詞であるならば、動詞や形容詞である場合に比べて代表キーワードとして選別され易くなる。
(S34) Using an application such as a POS tagger, it is determined whether the representative keyword candidate in the posted document is a noun, and the determination result is output.
As a result, if the representative keyword candidate is a noun, it becomes easier to be selected as a representative keyword than when it is a verb or an adjective.

(S35)PMI(pointwise mutual information)や共起ベクトルのコサイン類似度等の手法を用いて、トピックキーワードと代表キーワード候補との意味的距離を算出する。
これにより、この意味的距離が大きいならば、この代表キーワード候補は一般的な単語に過ぎない可能性が高い、といった判断がされ易くなる。例えば、トピックキーワードが「Prius(登録商標)」である場合、代表キーワード候補である「engine」及び「people」のうちで代表キーワードに選別されるのは、意味的距離の小さい「engine」である、といった判断がされ易くなる。
(S35) The semantic distance between the topic keyword and the representative keyword candidate is calculated using a technique such as PMI (pointwise mutual information) or cosine similarity of co-occurrence vectors.
Thus, if the semantic distance is large, it is easy to determine that the representative keyword candidate is likely to be only a general word. For example, when the topic keyword is “Prius (registered trademark)”, “engine” having a small semantic distance is selected as the representative keyword among the representative keyword candidates “engine” and “people”. It becomes easy to be judged.

(S36)ポジティブな感情の投稿文書、ネガティブな感情の投稿文書及びニュートラルな感情の投稿文書の各々における代表キーワード候補の共起頻度を決定する。
これにより、ポジティブ及びネガティブな投稿文書のいずれか一方に出現する頻度が高いが両方に出現する頻度は低い代表キーワード候補は、代表キーワードに選別される可能性が高い、といった判断がされ易くなる。例えば、トピックキーワードが「iPhone(登録商標)」である場合に、代表キーワード候補である「app」がポジティブな投稿文書にもネガティブな投稿文書にも高い頻度で出現していれば、「app」は感情のポラリティを理解するのに適していないと判断され、代表キーワードに選別されない可能性が高くなる。
(S36) The co-occurrence frequency of representative keyword candidates in each of the posted document of positive emotion, the posted document of negative emotion, and the posted document of neutral emotion is determined.
As a result, it is easy to determine that a representative keyword candidate that appears frequently in one of the positive and negative posted documents but that appears in both has a low possibility of being selected as a representative keyword. For example, if the topic keyword is “iPhone (registered trademark)” and the representative keyword candidate “app” appears frequently in both positive and negative posted documents, “app” Is determined to be unsuitable for understanding the polarities of emotions, and there is a high possibility that it will not be selected as a representative keyword.

ここで、以上に説明したステップS33〜S36で取得された情報は、各ステップにおいて代表KW決定部114aの特徴量用メモリに記憶され、これらの情報を成分とした、選別対象の代表キーワード候補についての特徴量ベクトルが生成される。   Here, the information acquired in steps S33 to S36 described above is stored in the feature amount memory of the representative KW determination unit 114a in each step, and the representative keyword candidates to be selected using these pieces of information as components. Feature quantity vectors are generated.

(S37)選別対象の代表キーワード候補について生成された特徴量ベクトルを用い、SVMやナイーブベイズといった機械学習アルゴリズムによって学習を行い、この代表キーワード候補が、代表キーワードとして選別されるか否かを決定する分類処理を実施する。ここで、代表キーワードとして選別されると決定された代表キーワード候補のみを、代表キーワードに決定して、決定された代表キーワードのリストを生成し、本抽出・選別処理は終了する。 (S37) Using the feature vector generated for the representative keyword candidate to be selected, learning is performed by a machine learning algorithm such as SVM or Naive Bayes, and it is determined whether or not the representative keyword candidate is selected as the representative keyword. Perform classification process. Here, only representative keyword candidates determined to be selected as representative keywords are determined as representative keywords, a list of determined representative keywords is generated, and the main extraction / selection process ends.

以上の処理によって決定された代表キーワードは、評価対象に相応しいとされたトピック(トピックキーワード)に関連していることは勿論であるが、このトピックに対する感情(感想・所感)について特徴的なものとなっており、トピックに対する感情の地域差を際立てるものとなっている可能性が高いのである。   The representative keyword determined by the above processing is of course related to the topic (topic keyword) that is deemed appropriate for the evaluation target, but it is characterized by feelings about this topic (impression / feelings). It is likely that the regional differences in emotions for the topic are conspicuous.

[感情分析結果比較処理:S4] [Emotion analysis result comparison process: S4]

図2に戻って、スコア付与部116は、KWグループ生成部114から生成されたキーワードグループを、また、感情情報決定部113から決定された感情情報を入力し、生成されたキーワードグループに対し、このキーワードグループに属する代表キーワードの出現回数と、この代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方、好ましくは両方に基づいてスコアを付与する。   Returning to FIG. 2, the score assigning unit 116 inputs the keyword group generated from the KW group generating unit 114 and the emotion information determined from the emotion information determining unit 113. A score is assigned based on one or preferably both of the number of appearances of the representative keyword belonging to the keyword group and the emotion information related to the posted document related to the topic to the representative keyword.

ここで、キーワードグループに付与されるスコアは、情報を提示する際のランキングスコアであり、このスコアが所定以上であるキーワードグループに係る情報(代表キーワード等)が、評価分析結果として提示されるのである。   Here, the score given to the keyword group is a ranking score at the time of presenting information, and information (representative keyword etc.) related to the keyword group whose score is greater than or equal to a predetermined value is presented as an evaluation analysis result. is there.

次いで、スコア付与部116は、キーワードグループ毎に付与したスコアを対応付けた情報を、スコア付与KWグループ記録部104に記録する。以下、スコア付与の具体的な実施形態を、図6を用いて詳細に説明する。   Next, the score assigning unit 116 records information in which the score assigned for each keyword group is associated with the score giving KW group recording unit 104. Hereinafter, a specific embodiment of the score assignment will be described in detail with reference to FIG.

図6は、スコア付与部116におけるスコア付与処理の一実施形態を示すプログラムコードである。   FIG. 6 is a program code showing an embodiment of a score assignment process in the score assignment unit 116.

スコア付与部116は、具体的なスコア付与処理として、以下に説明する4つのスコア付与方針(a)〜(d)のうちの少なくとも1つの方針、好ましくは全部の方針を採用して、スコアを付与することができる。   The score assigning unit 116 adopts at least one of the four score assigning policies (a) to (d) described below as a specific score assigning process, preferably all the policies, and calculates the score. Can be granted.

(a)まず、付与対象のキーワードグループに対し、このキーワードグループに含まれる(全ての言語についての)代表キーワードの総出現回数であって、トピックについて関連するトピック特有投稿文書に現れる総出現回数が多いほど、より高いスコアを付与する
ことが挙げられる。この方針は、図6における
score=0
score=score+absolute no. of occurrences score
の処理に相当するが、これによれば、例えば、総出現回数が多いほど、対象のキーワードグループの情報を提示することがより相応しくなる。
(A) First, for the keyword group to be assigned, the total number of appearances of representative keywords (for all languages) included in the keyword group, and the total number of appearances appearing in the topic-specific post document related to the topic The higher the number, the higher the score. This policy is shown in FIG.
score = 0
score = score + absolute no. of occurrences score
According to this, for example, as the total number of appearances increases, it becomes more appropriate to present information on the target keyword group.

(b)また、付与対象のキーワードグループに対し、このキーワードグループに含まれる(全ての言語についての)代表キーワードの全てにおける、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合い(感情レシオ)の総和が大きいほど、より高いスコアを付与する
ことが挙げられる。この方針は、図6における
score=score+overall ratio of sentiment score
の処理に相当するが、これによれば、例えば、感情レシオの総和の大きいキーワードグループは、感情レシオについてバランスのとれたキーワードグループに比較して、その情報をより提示すべきことになる。
(B) Also, with respect to the keyword group to be given, the degree of positive or negative in the emotion information of the topic-specific posted document related to the topic in all of the representative keywords (for all languages) included in this keyword group ( The higher the sum of the emotion ratios, the higher the score. This policy is shown in FIG.
score = score + overall ratio of sentiment score
According to this, for example, a keyword group having a large sum of emotion ratios should be presented with more information than a keyword group that has a balanced emotion ratio.

(c)さらに、付与対象のキーワードグループに対し、このキーワードグループに属する国(地域)の異なる代表キーワード間における出現回数の差であって、トピックについて関連するトピック特有投稿文書での出現回数の差が大きいほど、より高いスコアを付与する
ことが挙げられる。この方針は、図6における
score=score+difference in no. of occurrences score
の処理に相当するが、これによれば、例えば、1つの言語について高い出現回数を有しつつ他の1つ又は複数の言語について低い出現回数を示すような代表キーワードは、提示されることがより相応しいことになる。
(C) Furthermore, for the keyword group to be given, the difference in the number of appearances between different representative keywords in the country (region) belonging to this keyword group, and the difference in the number of appearances in the topic-specific posted document related to the topic The higher the value, the higher the score. This policy is shown in FIG.
score = score + difference in no. of occurrences score
According to this, for example, a representative keyword that has a high number of appearances for one language and shows a low number of appearances for one or more other languages may be presented. It will be more appropriate.

(d)また、付与対象のキーワードグループに対し、このキーワードグループに属する国(地域)の異なる代表キーワード間における感情情報の度合い(感情レシオ)の差であって、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合い(感情レシオ)の差が大きいほど、より高いスコアを付与する
ことが挙げられる。この方針は、図6における
score=score+difference in ratio of sentiment score
の処理に相当するが、これによれば、例えば、1つの言語についての感情レシオが、他の1つ又は複数の言語についての感情レシオと大きく相違するような代表キーワードは、どの言語についての感情レシオも同程度であるような代表キーワードと比較して、提示されることがより相応しいことになる。
(D) Further, for a given keyword group, a topic-specific posted document related to a topic, which is a difference in the degree of emotion information (emotion ratio) between different representative keywords in countries (regions) belonging to the keyword group The higher the positive or negative degree (emotion ratio) in the emotion information, the higher the score. This policy is shown in FIG.
score = score + difference in ratio of sentiment score
According to this, for example, a representative keyword whose emotion ratio for one language is significantly different from the emotion ratio for one or more other languages is an emotion for which language. Compared to representative keywords that have the same ratio, it is more appropriate to be presented.

以上説明した4つのスコア付与方針(a)〜(d)を実施して、それぞれにおいて算出されたスコアを合算した値「score」が、付与対象のキーワードグループに付与される。この後、例えば、この合算されたスコア(ランキングスコア)の最も大きいキーワードグループに含まれる代表キーワードが、評価分析結果として提示されるのである。これは、図6における
rank according to score
output top ranked keyword groups
の処理に相当するが、実際には、以下に説明する入出力制御部117(図2)における処理となる。
The four score assignment policies (a) to (d) described above are executed, and a value “score” obtained by adding the scores calculated in each of them is assigned to the keyword group to be given. Thereafter, for example, representative keywords included in the keyword group having the largest combined score (ranking score) are presented as evaluation analysis results. This is shown in FIG.
rank according to score
output top ranked keyword groups
In practice, however, it is a process in the input / output control unit 117 (FIG. 2) described below.

[感情情報世界地図生成・表示処理:S5]
図2に戻って、入出力制御部117の表示制御部117aは、装置1内又は装置1外に設けられた表示デバイス(図2ではディスプレイ105)に表示される世界地図画像における、評価対象に含まれる国(地域)に対応する位置に、
(a)評価対象のトピックに係るものとして生成されたキーワードグループのうちで所定の条件を満たすスコアを付与されたキーワードグループに含まれる当該国(地域)の代表キーワードに係る情報(例えば、代表キーワードそのもの)と、
(b)評価対象のトピックに係るものとして決定された当該国(地域)の感情情報に係る情報(例えば、感情レシオ)と
を表示させる。ここで、上記(b)における「所定の条件を満たすスコア」は、例えば、複数のキーワードグループに付与されたスコアのうちで、最も大きな値のスコアとすることができる。また、所定閾値以上のスコアとしてもよい。この場合は、複数のキーワードグループに係る代表キーワード及び感情レシオが表示されることもあり得る。
[Emotion information world map generation / display processing: S5]
Returning to FIG. 2, the display control unit 117 a of the input / output control unit 117 serves as an evaluation target in the world map image displayed on the display device (display 105 in FIG. 2) provided inside or outside the device 1. In the position corresponding to the country (region) included,
(A) Information related to the representative keyword of the country (region) included in the keyword group that is given a score satisfying a predetermined condition among the keyword groups generated as related to the topic to be evaluated (for example, representative keyword Itself) and
(B) Information related to emotion information of the country (region) determined to be related to the topic to be evaluated (for example, emotion ratio) is displayed. Here, the “score satisfying the predetermined condition” in (b) can be, for example, the score having the largest value among the scores assigned to the plurality of keyword groups. Moreover, it is good also as a score more than a predetermined threshold value. In this case, representative keywords and emotion ratios related to a plurality of keyword groups may be displayed.

入出力制御部117は、さらに、ディスプレイ105に表示すべきその他の画面画像信号を生成し、ディスプレイ105に出力する。また、入力部101からユーザによる操作信号を入力し、この操作信号に応じた指令を装置1内各部に出力する。例えば、ユーザによる送信指示入力を受けて、世界地図画像上の位置に紐づけられた代表キーワード及び感情レシオ情報を、通信インタフェース101を介し、外部の情報処理装置へ送信させてもよい。   The input / output control unit 117 further generates other screen image signals to be displayed on the display 105 and outputs them to the display 105. In addition, an operation signal from the user is input from the input unit 101 and a command corresponding to the operation signal is output to each unit in the apparatus 1. For example, in response to a transmission instruction input by the user, the representative keyword and emotion ratio information associated with the position on the world map image may be transmitted to an external information processing apparatus via the communication interface 101.

ここで、操作部106は、ユーザによる入力操作を受け入れるデバイス又は当該デバイス用のインタフェースであり、例えばキーボード、押下ボタン、マウスやタッチパッド等のポインティングデバイス、若しくはタッチパネル、又はそれらのためのインタフェースとすることができる。なお、タッチパネル・ディスプレイを採用して、操作部106及びディスプレイ105の統合部とすることも可能である。   Here, the operation unit 106 is a device that accepts an input operation by a user or an interface for the device. For example, the operation unit 106 is a keyboard, a push button, a pointing device such as a mouse or a touch pad, a touch panel, or an interface for them. be able to. It is also possible to adopt a touch panel display as an integrated unit of the operation unit 106 and the display 105.

図7は、表示制御部117aによってディスプレイ105に表示される感情世界地図の一実施形態を示す模式図である。   FIG. 7 is a schematic diagram showing an embodiment of an emotion world map displayed on the display 105 by the display control unit 117a.

図7によれば、トピック(キーワード)として「iPhone(登録商標)」を採用した場合の感情世界地図が、ディスプレイ105に表示されている。具体的には、アジア、オセアニア、ヨーロッパ、アフリカ、北アメリカ、及び南アメリカの6つの地域(大陸)の各々に対応する位置に、当該地域において決定された代表キーワード群(キーワードグループ)と、これらの代表キーワード群に対する感情情報として感情レシオ(Sentiment ratio)とが表示されている。   According to FIG. 7, an emotion world map when “iPhone (registered trademark)” is adopted as a topic (keyword) is displayed on the display 105. Specifically, representative keyword groups (keyword groups) determined in each of the six regions (continents) in Asia, Oceania, Europe, Africa, North America, and South America, as well as these An emotion ratio (Sentiment ratio) is displayed as emotion information for the representative keyword group.

代表キーワードとしては、スコアの最も高かったキーワードグループにおける、「アクション」や「アクセス」等の10個のキーワードが採用されている。これらの代表キーワードは、それぞれの地域(大陸)において、当該地域を代表する言語に翻訳して表示されている。また、感情レシオは、ポジティブ(好感的)及びネガティブ(反感(悪感)的)のいずれかで表示されている。さらに、検索された投稿文書の数とともに、これらの投稿文書におけるポジティブとネガティブとの比率も円グラフとして表示されている。また、各代表キーワード(に係る投稿文書)もポジティブ又はネガティブに分類されている。   As representative keywords, ten keywords such as “action” and “access” in the keyword group having the highest score are employed. These representative keywords are displayed in each region (continent) translated into a language representative of the region. The emotion ratio is displayed as either positive (feeling good) or negative (antisense (bad feeling)). In addition to the number of retrieved posted documents, the ratio of positive and negative in these posted documents is also displayed as a pie chart. Each representative keyword (related document) is also classified as positive or negative.

これにより、トピックに対する感情(感想・所感(sentiment))を、互いに異なる地域におけるトピック評価の状況として、より的確に把握することができる。また、代表キーワード(に係る投稿文書)に対する(ポジティブ又はネガティブといった)感情を知ることができるので、その感情の生じた原因を理解することが容易となっている。   As a result, it is possible to more accurately grasp the feelings about the topic (impression / sentiment) as the topic evaluation status in different regions. In addition, since it is possible to know emotions (such as positive or negative) with respect to the representative keyword (post document), it is easy to understand the cause of the emotions.

なお、代表キーワード及び感情情報(感情レシオ)の表示は、図7に示したような、表示された世界地図において大陸(地域)毎に行われる形態に限定されるものではない。例えば、ユーザによるメニューの選択によって、表示された世界地図において国毎に行われたり、表示された1つの大陸(地域)において国毎に行われたりしてもよい。また、1つの国又は1つの地域における代表キーワード及び感情情報(感情レシオ)を詳細に表示することもできる。さらに、付加的な機能として、様々なトレンドや統計の情報を合わせて表示し、複数国(地域)の間で直接比較してみせてもよい。   The display of the representative keyword and emotion information (emotion ratio) is not limited to the form performed for each continent (region) on the displayed world map as shown in FIG. For example, it may be performed for each country in the displayed world map by selecting a menu by the user, or may be performed for each country in one displayed continent (region). In addition, representative keywords and emotion information (emotion ratio) in one country or one region can be displayed in detail. Furthermore, as an additional function, various trend and statistical information may be displayed together and directly compared among a plurality of countries (regions).

以上詳細に説明したように、本発明においては、トピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情語彙データベースを利用して機械学習を行うことによって感情情報を決定している。これにより、評価対象であるトピックに対する感情をより的確に把握することが可能となる。   As described above in detail, in the present invention, emotion information is determined by performing machine learning using a emotion vocabulary database for a posted document searched using a query including a topic keyword. Thereby, it becomes possible to grasp the feeling with respect to the topic to be evaluated more accurately.

また、キーワードグループに含まれる代表キーワードを決定している。この代表キーワードは、異なる言語によるものであって互いに翻訳される関係にあるものを含み、各地域(国)において評価対象のトピックに対する感情の背後にある当該感情を引き起こす原因を理解するガイドとなる。すなわち、代表キーワードを用いることによって、トピックに対する感情の原因を理解しやすい形で、各地域(国)におけるトピック評価の状況を分析することができるのである。   Further, representative keywords included in the keyword group are determined. These representative keywords include those that are in different languages and translated into each other, and serve as a guide to understand the cause of the emotion behind the emotions for the topic being evaluated in each region (country). . That is, by using the representative keyword, it is possible to analyze the topic evaluation status in each region (country) in a form that makes it easy to understand the cause of emotions for the topic.

さらに、分析対象に含まれる地域(国)毎に感情情報を決定し、生成されたキーワードグループに対しスコアを付与する。これにより、分析・比較にふさわしいキーワードグループを選別し、互いに異なる地域(国)におけるトピック評価の状況を効果的に理解することが可能となるのである。   Further, emotion information is determined for each region (country) included in the analysis target, and a score is assigned to the generated keyword group. This makes it possible to select keyword groups suitable for analysis and comparison, and to effectively understand the status of topic evaluation in different regions (countries).

また、これにより、特定の1つの地域(1つの国)における感情分析にとどまらず、例えば、互いに異なる言語を使用する国々にまたがった感情分析を行うことも可能となる。言い換えれば、世界的なトピック(話題)に対する感情についてのオピニオン・マイニングをグローバルに実施することができるのである。その結果、例えば、各国間において分析結果を比較することにより、ビジネスや政治等の分野において、文化的な障壁を超えた適切なグローバル戦略を立てる、といったことも可能となる。   In addition, this enables not only emotion analysis in a specific region (one country) but also emotion analysis across countries using different languages, for example. In other words, opinion mining on feelings for global topics can be implemented globally. As a result, for example, by comparing analysis results between countries, it is possible to establish an appropriate global strategy that transcends cultural barriers in fields such as business and politics.

以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。   For the various embodiments of the present invention described above, various changes, modifications, and omissions in the technical idea and scope of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.

1 評価分析装置
101 通信インタフェース部
102 文書データベース(DB)
103 感情語彙DB
104 スコア付与キーワード(KW)グループ記録部
105 ディスプレイ
106 操作部
111 トピックKW生成部
112 トピック特有文書決定部
112a KW位置
112b クエリ距離解析部
112c 品詞解析部
113 感情情報決定部
114 KWグループ生成部
114a 代表KW決定部
114b 感情語距離解析部
114c 品詞解析部
114d トピックKW距離解析部
114e KW出現頻度解析部
114f グルーピング部
116 スコア付与部
117 入出力制御部
117a 表示制御部117a
DESCRIPTION OF SYMBOLS 1 Evaluation analyzer 101 Communication interface part 102 Document database (DB)
103 Emotional Vocabulary DB
104 score assignment keyword (KW) group recording unit 105 display 106 operation unit 111 topic KW generation unit 112 topic specific document determination unit 112a KW position 112b query distance analysis unit 112c part of speech analysis unit 113 emotion information determination unit 114 KW group generation unit 114a representative KW determination unit 114b Emotion word distance analysis unit 114c Part of speech analysis unit 114d Topic KW distance analysis unit 114e KW appearance frequency analysis unit 114f Grouping unit 116 Score assigning unit 117 Input / output control unit 117a Display control unit 117a

Claims (8)

複数の地域におけるトピックに対する評価を分析する評価分析装置であって、
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するキーワードグループ生成手段と、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情に係る語彙のデータベースを用いて、当該投稿文書に係る感情情報を決定する感情情報決定手段と、
生成されたキーワードグループに対し、該キーワードグループに属する代表キーワードの出現回数と、該代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するスコア付与手段と
を有することを特徴とする評価分析装置。
An evaluation analyzer that analyzes evaluations on topics in multiple regions,
For each relevant region, a representative document is extracted from a document in a language used in the relevant region and searched using a query including a topic keyword related to the topic, and a language used in a different region. A keyword group generation means for generating a keyword group by collecting representative keywords that are representative keywords and are translated;
For each of the regions, a posted document in a language used in the region and searched for using a query including a topic keyword related to the topic, using a database of emotional vocabulary, Emotion information determination means for determining emotion information related to the posted document;
A score is assigned to a generated keyword group based on one or both of the number of appearances of a representative keyword belonging to the keyword group and emotion information related to a posted document related to the topic to the representative keyword. And an evaluation analysis apparatus.
当該装置内又は当該装置外に設けられた表示デバイスに表示された画像における当該地域に対応する位置に、当該トピックに係るものとして生成されたキーワードグループのうちで所定の条件を満たすスコアを付与されたキーワードグループに含まれる当該地域の代表キーワードに係る情報と、当該トピックに係るものとして決定された当該地域の感情情報に係る情報とを表示させる表示制御手段を更に有することを特徴とする請求項1に記載の評価分析装置。   A score that satisfies a predetermined condition among the keyword groups generated as related to the topic is given to a position corresponding to the region in an image displayed on a display device provided inside or outside the device. The display control means for displaying the information related to the representative keyword of the area included in the keyword group and the information related to the emotion information of the area determined as related to the topic. The evaluation analyzer according to 1. 当該地域毎に、当該トピックキーワードを含むクエリを用いて検索された当該投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するトピック特有文書決定手段を更に有し、
前記感情情報決定手段は、当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定する
ことを特徴とする請求項1又は2に記載の評価分析装置。
For each region, a value related to the position of the topic keyword in the posted document searched using a query including the topic keyword, a query used to search the posted document, and a predetermined emotion-inducing word A topic-specific posted document that is a posted document specific to the topic is determined using a feature quantity having at least one of a value related to the distance and a value related to the number of nouns appearing in the posted document. A topic-specific document determination means for
The emotion information determination means uses at least information related to a word appearing in the topic-specific posted document for each topic as a feature quantity element and uses a database of emotional vocabulary The evaluation analysis apparatus according to claim 1, wherein emotion information related to the topic-specific posted document is determined.
前記スコア付与手段は、
(1)付与対象のキーワードグループに対し、該キーワードグループに属する地域の異なる代表キーワード間における感情情報の度合いの差であって、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合いの差が大きいほど、より高いスコアを付与すること、
(2)付与対象のキーワードグループに対し、該キーワードグループに属する地域の異なる代表キーワード間における出現回数の差であって、トピックについて関連するトピック特有投稿文書での出現回数の差が大きいほど、より高いスコアを付与すること、
(3)付与対象のキーワードグループに対し、該キーワードグループに含まれる代表キーワードの全てにおける、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合いの総和が大きいほど、より高いスコアを付与すること、及び
(4)付与対象のキーワードグループに対し、該キーワードグループに含まれる代表キーワードの総出現回数であって、トピックについて関連するトピック特有投稿文書に現れる総出現回数が多いほど、より高いスコアを付与すること
のうち少なくとも1つを採用することを特徴とする請求項3に記載の評価分析装置。
The score giving means is
(1) The difference in the degree of emotion information between representative keywords in different regions belonging to the keyword group for the keyword group to be assigned, and the degree of positive or negative in the emotion information of the topic-specific posted document related to the topic The greater the difference between, the higher the score,
(2) With respect to the keyword group to be assigned, the difference in the number of appearances between representative keywords in different regions belonging to the keyword group, and the larger the difference in the number of appearances in the topic-specific posted document related to the topic, the more Granting a high score,
(3) For a given keyword group, the higher the sum of the positive or negative degree in the emotion information of the topic-specific posted document related to the topic in all the representative keywords included in the keyword group, the higher the score. (4) For the keyword group to be assigned, the total number of appearances of the representative keywords included in the keyword group, and the more the total number of appearances appearing in the topic-specific posted document related to the topic, the more The evaluation analyzer according to claim 3, wherein at least one of giving a high score is adopted.
当該地域毎に、当該地域で使用される言語の文書であって、当該投稿文書よりも情報量が多いと予め認定された文書種別の文書から、ワードの出現頻度及び/又はワードの出現する文書数に基づいて、当該トピックキーワードを抽出するトピックキーワード生成手段を更に有することを特徴とする請求項1から4のいずれか1項に記載の評価分析装置。   A document in a language used in the region for each region, and a word appearance frequency and / or a word appearance from a document of a document type that is recognized in advance as having a larger amount of information than the posted document. 5. The evaluation analysis apparatus according to claim 1, further comprising topic keyword generation means for extracting the topic keyword based on the number. 前記キーワードグループ生成手段は、
当該地域毎に、当該トピックキーワード及び抽出された当該代表キーワードの両方を含む投稿文書を収集し、収集された投稿文書に含まれる選別対象の代表キーワードと所定の感情誘発語との平均距離に係る値と、当該選別対象の代表キーワードが名詞か否かに係る値と、当該選別対象の代表キーワードと当該トピックキーワードとの距離に係る値と、当該選別対象の代表キーワードを含む収集された投稿文書について決定された感情情報がポジティブとネガティブとについて一方に偏っているか否かを示す偏り度合いに係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該キーワードグループを生成するための代表キーワードを選別する代表キーワード決定手段
を有することを特徴とする請求項1から5のいずれか1項に記載の評価分析装置。
The keyword group generation means includes
For each region, collect posted documents that include both the topic keyword and the extracted representative keyword, and relate to the average distance between the selected representative keyword included in the collected posted document and a predetermined emotion-inducing word. A collected post document including a value, a value related to whether or not the representative keyword of the selection target is a noun, a value related to the distance between the representative keyword of the selection target and the topic keyword, and the representative keyword of the selection target In order to generate the keyword group using a feature quantity having at least one of the values relating to the degree of bias indicating whether the emotion information determined for is biased to one of positive and negative The representative keyword determining means for selecting the representative keyword of any one of claims 1 to 5 is provided. Evaluation and analysis device.
複数の地域におけるトピックに対する評価を分析する装置に搭載されたコンピュータを機能させるプログラムであって、
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するキーワードグループ生成手段と、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情に係る語彙のデータベースを用いて、当該投稿文書に係る感情情報を決定する感情情報決定手段と、
生成されたキーワードグループに対し、該キーワードグループに属する代表キーワードの出現回数と、該代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するスコア付与手段と
してコンピュータを機能させることを特徴とする評価分析プログラム。
A program for operating a computer installed in a device for analyzing evaluations on topics in a plurality of regions,
For each relevant region, a representative document is extracted from a document in a language used in the relevant region and searched using a query including a topic keyword related to the topic, and a language used in a different region. A keyword group generation means for generating a keyword group by collecting representative keywords that are representative keywords and are translated;
For each of the regions, a posted document in a language used in the region and searched for using a query including a topic keyword related to the topic, using a database of emotional vocabulary, Emotion information determination means for determining emotion information related to the posted document;
A score is assigned to a generated keyword group based on one or both of the number of appearances of a representative keyword belonging to the keyword group and emotion information related to a posted document related to the topic to the representative keyword. An evaluation analysis program characterized by causing a computer to function as a means.
複数の地域におけるトピックに対する評価を分析する評価分析方法であって、
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するステップと、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情に係る語彙のデータベースを用いて、当該投稿文書に係る感情情報を決定するステップと、
生成されたキーワードグループに対し、該キーワードグループに属する代表キーワードの出現回数と、該代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するステップと
を有することを特徴とする評価分析方法。

An evaluation analysis method for analyzing evaluations on topics in a plurality of regions,
For each relevant region, a representative document is extracted from a document in a language used in the relevant region and searched using a query including a topic keyword related to the topic, and a language used in a different region. Collecting representative keywords that are representative keywords that are translated and generating a keyword group;
For each of the regions, a posted document in a language used in the region and searched for using a query including a topic keyword related to the topic, using a database of emotional vocabulary, Determining emotion information related to the posted document;
Assigning a score to the generated keyword group based on one or both of the number of appearances of a representative keyword belonging to the keyword group and emotion information related to a posted document related to the topic to the representative keyword; An evaluation analysis method characterized by comprising:

JP2016016582A 2016-01-29 2016-01-29 Apparatus, program and method for analyzing the evaluation of topics in multiple regions Active JP6529133B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016016582A JP6529133B2 (en) 2016-01-29 2016-01-29 Apparatus, program and method for analyzing the evaluation of topics in multiple regions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016016582A JP6529133B2 (en) 2016-01-29 2016-01-29 Apparatus, program and method for analyzing the evaluation of topics in multiple regions

Publications (2)

Publication Number Publication Date
JP2017134787A true JP2017134787A (en) 2017-08-03
JP6529133B2 JP6529133B2 (en) 2019-06-12

Family

ID=59504441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016016582A Active JP6529133B2 (en) 2016-01-29 2016-01-29 Apparatus, program and method for analyzing the evaluation of topics in multiple regions

Country Status (1)

Country Link
JP (1) JP6529133B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101871739B1 (en) * 2018-04-27 2018-06-27 주식회사 텐디 Method of determining representative keyword of application and system for determining representative keyword of application
JP2019212083A (en) * 2018-06-06 2019-12-12 Zホールディングス株式会社 Information providing apparatus, information providing method, and program
JP2020067831A (en) * 2018-10-24 2020-04-30 Solize株式会社 Text processing method and text processing device
JP2022517845A (en) * 2019-12-02 2022-03-10 ▲広▼州大学 Fine-grained emotion analysis method to support interlingual transition
JP7293457B1 (en) 2022-05-19 2023-06-19 ヤフー株式会社 Information processing device, information processing method and information processing program
CN117275752A (en) * 2023-11-20 2023-12-22 中国人民解放军总医院 Case clustering analysis method and system based on machine learning

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003888A (en) * 2007-06-25 2009-01-08 Toshiba Corp Device, method, and program for keyword presentation
JP2009116440A (en) * 2007-11-02 2009-05-28 Yahoo Japan Corp Information propagation extraction device and information propagation extraction method
JP2011070252A (en) * 2009-09-24 2011-04-07 Hitachi Solutions Ltd Document analysis system
JP2012073877A (en) * 2010-09-29 2012-04-12 Mitsubishi Space Software Kk Document retrieval device, document retrieval system, computer program and document retrieval method
US20140214819A1 (en) * 2013-01-25 2014-07-31 Adobe Systems Incorporated Correlating Social Media Data with Location Information
JP2015169969A (en) * 2014-03-04 2015-09-28 Nttコムオンライン・マーケティング・ソリューション株式会社 Conversation subject specification device and method
JP2015210700A (en) * 2014-04-28 2015-11-24 Kddi株式会社 Emotion analysis device for user to merchandise and program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003888A (en) * 2007-06-25 2009-01-08 Toshiba Corp Device, method, and program for keyword presentation
JP2009116440A (en) * 2007-11-02 2009-05-28 Yahoo Japan Corp Information propagation extraction device and information propagation extraction method
JP2011070252A (en) * 2009-09-24 2011-04-07 Hitachi Solutions Ltd Document analysis system
JP2012073877A (en) * 2010-09-29 2012-04-12 Mitsubishi Space Software Kk Document retrieval device, document retrieval system, computer program and document retrieval method
US20140214819A1 (en) * 2013-01-25 2014-07-31 Adobe Systems Incorporated Correlating Social Media Data with Location Information
JP2015169969A (en) * 2014-03-04 2015-09-28 Nttコムオンライン・マーケティング・ソリューション株式会社 Conversation subject specification device and method
JP2015210700A (en) * 2014-04-28 2015-11-24 Kddi株式会社 Emotion analysis device for user to merchandise and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中崎 寛之: "同一トピックの日英ブログにおける文化間差異の発見支援", 第1回データ工学と情報マネジメントに関するフォーラム−DEIMフォーラム−論文集 [ONLINE], JPN6019007389, 9 May 2009 (2009-05-09), ISSN: 0003988831 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101871739B1 (en) * 2018-04-27 2018-06-27 주식회사 텐디 Method of determining representative keyword of application and system for determining representative keyword of application
WO2019208872A1 (en) * 2018-04-27 2019-10-31 주식회사 텐디 Method and system for determining representative keyword of application
JP2019212083A (en) * 2018-06-06 2019-12-12 Zホールディングス株式会社 Information providing apparatus, information providing method, and program
JP2020067831A (en) * 2018-10-24 2020-04-30 Solize株式会社 Text processing method and text processing device
JP7324577B2 (en) 2018-10-24 2023-08-10 Solize株式会社 Text processing method and text processing device
JP2022517845A (en) * 2019-12-02 2022-03-10 ▲広▼州大学 Fine-grained emotion analysis method to support interlingual transition
JP7253848B2 (en) 2019-12-02 2023-04-07 ▲広▼州大学 Fine Grained Emotion Analysis Method for Supporting Interlanguage Transition
JP7293457B1 (en) 2022-05-19 2023-06-19 ヤフー株式会社 Information processing device, information processing method and information processing program
JP2023170602A (en) * 2022-05-19 2023-12-01 ヤフー株式会社 Information processing device, information processing method, and information processing program
CN117275752A (en) * 2023-11-20 2023-12-22 中国人民解放军总医院 Case clustering analysis method and system based on machine learning
CN117275752B (en) * 2023-11-20 2024-03-22 中国人民解放军总医院 Case clustering analysis method and system based on machine learning

Also Published As

Publication number Publication date
JP6529133B2 (en) 2019-06-12

Similar Documents

Publication Publication Date Title
Deng et al. Adapting sentiment lexicons to domain-specific social media texts
Kang et al. based measurement of customer satisfaction in mobile service: Sentiment analysis and VIKOR approach
Moussa et al. A survey on opinion summarization techniques for social media
JP6529133B2 (en) Apparatus, program and method for analyzing the evaluation of topics in multiple regions
US9852215B1 (en) Identifying text predicted to be of interest
JP2016045652A (en) Enquiry sentence generation device and computer program
Nair et al. SentiMa-sentiment extraction for Malayalam
US20110231448A1 (en) Device and method for generating opinion pairs having sentiment orientation based impact relations
KR20120108095A (en) System for analyzing social data collected by communication network
Kumar et al. Hashtag recommendation for short social media texts using word-embeddings and external knowledge
Balahur et al. Challenges and solutions in the opinion summarization of user-generated content
WO2011111038A2 (en) Method and system of providing completion suggestion to a partial linguistic element
Chen et al. ExpertSeer: a keyphrase based expert recommender for digital libraries
Haque et al. Opinion mining from bangla and phonetic bangla reviews using vectorization methods
Tumitan et al. Tracking Sentiment Evolution on User-Generated Content: A Case Study on the Brazilian Political Scene.
JP4631795B2 (en) Information search support system, information search support method, and information search support program
Silva et al. Evaluating topic models in Portuguese political comments about bills from brazil’s chamber of deputies
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
Sateli et al. Semantic user profiles: Learning scholars’ competences by analyzing their publications
JP2017117021A (en) Keyword extraction device, content generation system, keyword extraction method, and program
Teich et al. Scientific registers and disciplinary diversification: a comparable corpus approach
CN114741627B (en) Internet-oriented auxiliary information searching method
Bakar The development of an integrated corpus for Malay language
JP4428703B2 (en) Information retrieval method and system, and computer program
JP2016162357A (en) Analysis device and program of user&#39;s emotion to product

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190510

R150 Certificate of patent or registration of utility model

Ref document number: 6529133

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150