JP6373197B2 - Comment classification program, server, and method for extracting map route related comments from multiple comments - Google Patents

Comment classification program, server, and method for extracting map route related comments from multiple comments Download PDF

Info

Publication number
JP6373197B2
JP6373197B2 JP2015011657A JP2015011657A JP6373197B2 JP 6373197 B2 JP6373197 B2 JP 6373197B2 JP 2015011657 A JP2015011657 A JP 2015011657A JP 2015011657 A JP2015011657 A JP 2015011657A JP 6373197 B2 JP6373197 B2 JP 6373197B2
Authority
JP
Japan
Prior art keywords
comments
comment
route
topic
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015011657A
Other languages
Japanese (ja)
Other versions
JP2016136358A (en
Inventor
亮博 小林
亮博 小林
啓一郎 帆足
啓一郎 帆足
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Research Inc
Original Assignee
KDDI Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Research Inc filed Critical KDDI Research Inc
Priority to JP2015011657A priority Critical patent/JP6373197B2/en
Publication of JP2016136358A publication Critical patent/JP2016136358A/en
Application granted granted Critical
Publication of JP6373197B2 publication Critical patent/JP6373197B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、不特定多数の第三者から投稿されるコメントを分類する技術に関する。   The present invention relates to a technique for classifying comments posted from an unspecified number of third parties.

インターネット上には、ブログ(Web log)サーバやミニブログ(mini Web log)(例えばtwitter(登録商標)やfacebook(登録商標))サーバが接続されている。このようなブログサーバは、不特定多数の第三者からのコメントを受信し、他の第三者へ公開する。これらコメントは、時事的に発生する様々な話題について、公開を目的として記述されている。例えば、電車の運休や遅延、交通渋滞など、地図経路に密接に関わる話題について記述されていることも多い。   On the Internet, a blog (Web log) server or a mini blog (for example, twitter (registered trademark) or facebook (registered trademark)) server is connected. Such a blog server receives comments from an unspecified number of third parties and publishes them to other third parties. These comments are written for the purpose of publishing various topics that occur in current affairs. For example, topics that are closely related to map routes, such as train suspension and delays and traffic congestion, are often described.

従来、位置情報が付与されたコメント(文章)に対してのみトピック分類を実行し、その地域に関連するトピックや用語を抽出する技術がある(例えば非特許文献1参照)。この技術によれば、多数の位置情報付きコメントから、その地域に関連する話題を抽出し、様々な社会現象を発見することができるようにしたものである。   Conventionally, there is a technique of performing topic classification only on comments (sentences) to which position information is added and extracting topics and terms related to the area (see, for example, Non-Patent Document 1). According to this technology, topics related to the area are extracted from a large number of comments with position information, and various social phenomena can be discovered.

J. Eisenstein, et.al. A Latent Variable Model for Geographic Lexical Variation, EMNLP2010、[online]、[平成27年1月21日検索]、インターネット<URL:http://www.cs.cmu.edu/~nasmith/papers/eisenstein+oconnor+smith+xing.emnlp10.pdf>J. Eisenstein, et.al. A Latent Variable Model for Geographic Lexical Variation, EMNLP2010, [online], [searched on January 21, 2015], Internet <URL: http://www.cs.cmu.edu/ ~ nasmith / papers / eisenstein + oconnor + smith + xing.emnlp10.pdf> D. M. Blei, A. Y. Ng, and M. I. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993-1022, 2003、[online]、[平成27年1月21日検索]、インターネット<URL:http://machinelearning.wustl.edu/mlpapers/paper_files/BleiNJ03.pdf>DM Blei, AY Ng, and MI Jordan. Journal of Machine Learning Research, 3: 993-1022, 2003, [online], [Search January 21, 2015], Internet <URL: http: / /machinelearning.wustl.edu/mlpapers/paper_files/BleiNJ03.pdf>

しかしながら、全体のコメントの数に対する位置情報付きコメントの数は、わずか1%にも満たない。少数の投稿者のみから発信されたコメントの中から、その地域に関連する話題を抽出した場合、その情報自体がかなり偏在したものとなる恐れがある。実際に、非特許文献1に記載の技術によれば、地域固有の俗語や地元野球チームの名称は抽出できても、その地域で時事的に発生している話題を抽出することは難しい。また、交通機関や道路のように、地図経路で発生している交通麻痺や交通渋滞のような話題を抽出することも難しい。特に、極めて少ない位置情報付きコメントのみでは、情報信頼性の確度としても低く、有用的ではない。   However, the number of comments with position information relative to the total number of comments is less than 1%. If a topic related to the region is extracted from comments sent from only a small number of contributors, the information itself may be unevenly distributed. Actually, according to the technique described in Non-Patent Document 1, even if a slang term unique to a region and the name of a local baseball team can be extracted, it is difficult to extract a topic that is currently occurring in that region. It is also difficult to extract topics such as traffic paralysis and traffic congestion that occur in map routes, such as transportation and roads. In particular, only a very small number of comments with position information is not useful because the accuracy of information reliability is low.

一般に、同じ地図経路から投稿されたコメントは、位置が異なっていても、位置情報付き又は位置情報無しに拘わらず、その話題は類似したものとなると考えられる。これに対し、本願の発明者らは、時事的に発生するコメントにおける話題の類似性に応じて、その地図経路に関する話題を区別することができるのではないか?と考えた。   In general, comments posted from the same map route are considered to have similar topics regardless of position, with or without position information. On the other hand, the inventors of this application can distinguish the topic regarding the map route according to the similarity of the topic in the comment that occurs at present. I thought.

そこで、本発明は、位置情報付きコメントと位置情報無しコメントとが混在する大量のコメントから、地図経路関連コメントを抽出することができるコメント分類プログラム、サーバ及び方法を提供することを目的とする。   Therefore, an object of the present invention is to provide a comment classification program, a server, and a method capable of extracting a map route related comment from a large number of comments in which comments with position information and comments without position information are mixed.

本発明によれば、位置情報付きコメントと位置情報無しコメントとが混在する複数のコメントから、地図経路関連コメントを抽出するようにコンピュータを機能させるコメント分類プログラムであって、
地図経路毎に、経路上の複数の位置を記憶した経路位置記憶手段と、
複数のコメントを、単語の出現頻度の分布に基づいて複数個のトピックグループに分類し、各コメントにトピック番号を付与するトピック分類手段と、
複数の位置情報付きコメントを、当該コメントに付与された当該位置情報から所定範囲に含まれる経路位置記憶手段の地図経路毎に分類する位置情報付きコメント分類手段と、
地図経路毎に、複数の位置情報付きコメントの中で、当該地図経路への偏在度に基づく所定規準が最も高いトピック番号を地図経路トピック番号として抽出する地図経路トピック番号抽出手段と、
各地図経路の地図経路トピック番号に基づいて、位置情報付きコメント及び位置情報無しコメントを、当該地図経路関連コメントとして分類する地図経路コメント分類手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, a plurality of comments and positional information without comment and comment-located are mixed, a comment classification program that causes a computer to function so as to extract a map routing related comments,
Route position storage means for storing a plurality of positions on the route for each map route;
A topic classification means for classifying a plurality of comments into a plurality of topic groups based on a distribution of word frequencies, and assigning a topic number to each comment;
Comment classification means with position information for classifying a plurality of comments with position information for each map route of the route position storage means included in a predetermined range from the position information given to the comment;
For each map path, in commented positional information of multiple, and maps the route topic number extracting means for extracting a predetermined criterion highest topic number based on localization of to the map route as a map route topic number,
The computer is caused to function as a map route comment classification means for classifying comments with location information and comments without location information as comments related to the map route based on the map route topic number of each map route.

本発明のコメント分類プログラムにおける他の実施形態によれば、
トピック分類手段は、各コメントを、各トピックグループに属する確からしさ(トピック比率)を算出するLDA(Latent Dirichlet Allocation)アルゴリズムを用いて、いずれか1つのトピックグループに分類する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the comment classification program of the present invention,
The topic classification means causes the computer to function so as to classify each comment into any one topic group using an LDA (Latent Dirichlet Allocation) algorithm that calculates the probability (topic ratio) belonging to each topic group. Is also preferable.

本発明のコメント分類プログラムにおける他の実施形態によれば、
地図経路トピック番号抽出手段における偏在度に基づく所定規準は、赤池情報量基準であり、以下のいずれか一方の規準を用いる
(第1の規準:コメント数)
n11=トピック番号jに含まれる地図経路iのコメント数
n12=トピック番号j以外に含まれる地図経路iのコメント数
n21=トピック番号jに含まれる地図経路i以外のコメント数
n22=トピック番号j以外に含まれる地図経路i以外のコメント数
(第2の規準:評価値の合計)
n11=トピック番号jに含まれるコメントの地図経路iに対する評価値の合計
n12=トピック番号j以外に含まれるコメントの地図経路iに対する評価値の合計
n21=トピック番号jに含まれるコメントの地図経路i以外に対する評価値の合計
n22=トピック番号j以外に含まれるコメントの地図経路i以外に対する評価値の合計
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the comment classification program of the present invention,
The predetermined criterion based on the uneven distribution degree in the map route topic number extraction means is the Akaike information amount criterion, and one of the following criteria is used (first criterion: number of comments).
n11 = number of comments for map route i included in topic number j n12 = number of comments for map route i included other than topic number j n21 = number of comments other than map route i included in topic number j n22 = other than topic number j Number of comments other than map route i included in (second criterion: total evaluation value)
n11 = total evaluation value for map path i of comments included in topic number j n12 = total evaluation value for map path i of comments included other than topic number j n21 = map path i of comments included in topic number j Total of evaluation values for other than n22 = It is also preferable to make the computer function like a total of evaluation values for other than the map route i of comments included other than the topic number j.

本発明のコメント分類プログラムにおける他の実施形態によれば、
地図経路トピック番号抽出手段は、地図経路毎に抽出された地図経路トピック番号を持つ複数の位置情報付きコメントの位置座標の重心を算出し、当該重心から各コメントの位置座標に対する距離の平均値を算出し、当該平均値が所定閾値以下となる場合、地図経路では無いとして、地図経路トピック番号を抽出しない
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the comment classification program of the present invention,
The map route topic number extraction means calculates the centroid of the position coordinates of a plurality of comments with position information having map route topic numbers extracted for each map route, and calculates the average value of the distance from the centroid to the position coordinates of each comment. When the calculated average value is equal to or less than a predetermined threshold value, it is also preferable that the computer function so that the map route topic number is not extracted because it is not a map route.

本発明のコメント分類プログラムにおける他の実施形態によれば、
トピック分類手段は、位置情報付きコメント及び位置情報無しコメントの述語項構造を解析し、伝聞推定表現を含むコメントを除去する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the comment classification program of the present invention,
The topic classification means preferably analyzes the predicate term structure of the comment with position information and the comment without position information, and causes the computer to function so as to remove the comment including the hearing estimation expression.

本発明のコメント分類プログラムにおける他の実施形態によれば、
コメントは、不特定複数の第三者によって、ミニブログ(mini Web log)サーバに投稿されたものである
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the comment classification program of the present invention,
It is also preferable to make the computer function so that the comment is posted to a mini blog (mini Web log) server by an unspecified number of third parties.

本発明によれば、位置情報付きコメントと位置情報無しコメントとが混在する複数のコメントを収集し、地図経路関連コメントを抽出するコメント分類サーバであって、
地図経路毎に、経路上の複数の位置を記憶した経路位置記憶手段と、
複数のコメントを、単語の出現頻度の分布に基づいて複数個のトピックグループに分類し、各コメントにトピック番号を付与するトピック分類手段と、
複数の位置情報付きコメントを、当該コメントに付与された当該位置情報から所定範囲に含まれる経路位置記憶手段の地図経路毎に分類する位置情報付きコメント分類手段と、
地図経路毎に、複数の位置情報付きコメントの中で、当該地図経路への偏在度に基づく所定規準が最も高いトピック番号を地図経路トピック番号として抽出する地図経路トピック番号抽出手段と、
各地図経路の地図経路トピック番号に基づいて、位置情報付きコメント及び位置情報無しコメントを、当該地図経路関連コメントとして分類する地図経路コメント分類手段と
を有することを特徴とする。
According to the present invention, and collecting a plurality of comments and positional information without comment and comment-located are mixed, a comment classification server for extracting the map route associated comments,
Route position storage means for storing a plurality of positions on the route for each map route;
A topic classification means for classifying a plurality of comments into a plurality of topic groups based on a distribution of word frequencies, and assigning a topic number to each comment;
Comment classification means with position information for classifying a plurality of comments with position information for each map route of the route position storage means included in a predetermined range from the position information given to the comment;
For each map path, in commented positional information of multiple, and maps the route topic number extracting means for extracting a predetermined criterion highest topic number based on localization of to the map route as a map route topic number,
It has map route comment classification means for classifying comments with position information and comments without position information as comments related to the map route based on the map route topic number of each map route.

本発明によれば、位置情報付きコメントと位置情報無しコメントとが混在する複数のコメントを収集し、地図経路関連コメントを抽出する装置のコメント分類方法であって、
装置は、
地図経路毎に、経路上の複数の位置を記憶した経路位置記憶部を有し、
複数のコメントを、単語の出現頻度の分布に基づいて複数個のトピックグループに分類し、各コメントにトピック番号を付与する第1のステップと、
複数の位置情報付きコメントを、当該コメントに付与された当該位置情報から所定範囲に含まれる経路位置記憶の地図経路毎に分類する第2のステップと、
地図経路毎に、複数の位置情報付きコメントの中で、当該地図経路への偏在度に基づく所定規準が最も高いトピック番号を地図経路トピック番号として抽出する第3のステップと、
各地図経路の地図経路トピック番号に基づいて、位置情報付きコメント及び位置情報無しコメントを、当該地図経路関連コメントとして分類する第4のステップと
を有することを特徴とする。
According to the present invention, and collecting a plurality of comments and positional information without comment and comment-located are mixed, a comment classification method of the device for extracting the map route associated comments,
The device
Each map route has a route position storage unit that stores a plurality of positions on the route,
A first step of classifying a plurality of comments into a plurality of topic groups based on the distribution of word frequencies, and assigning a topic number to each comment;
A second step of classifying a plurality of comments with position information for each map route in the route position storage unit included in a predetermined range from the position information given to the comment;
For each map path, in commented positional information of multiple, a third step of extracting a predetermined criterion highest topic number based on localization of to the map route as a map route topic number,
And a fourth step of classifying comments with position information and comments without position information as comments related to the map path based on the map path topic number of each map path.

本発明のコメント分類プログラム、サーバ及び方法によれば、位置情報付きコメントと位置情報無しコメントとが混在する大量のコメントから、地図経路関連コメントを抽出することができる。   According to the comment classification program, server, and method of the present invention, map route-related comments can be extracted from a large number of comments in which comments with position information and comments without position information are mixed.

本発明におけるシステム構成図である。It is a system configuration diagram in the present invention. 本発明におけるコメント分類サーバの機能構成図である。It is a functional block diagram of the comment classification | category server in this invention. コメント蓄積部に蓄積されたコメントの例を表す説明図である。It is explanatory drawing showing the example of the comment accumulate | stored in the comment storage part. トピック分類部におけるコメントの分類を表す説明図である。It is explanatory drawing showing the classification | category of the comment in a topic classification | category part. 位置情報付きコメントと地図経路トピック番号と表す説明図である。It is explanatory drawing represented as a comment with position information and a map route topic number. 確率論的な情報量規準を用いた説明図である。It is explanatory drawing using the stochastic information criterion. 地図経路トピック番号によって分類されたコメントを明示する説明図である。It is explanatory drawing which specifies the comment classified by the map route topic number. 本発明におけるシーケンス図である。It is a sequence diagram in the present invention.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明におけるシステム構成図である。   FIG. 1 is a system configuration diagram according to the present invention.

図1によれば、インターネット上に、本発明におけるコメント分類サーバ1が接続されている。コメント分類サーバ1は、不特定多数の第三者から投稿されたコメントを公開するブログサーバ2から、大量のコメントを収集する。コメント分類サーバ1は、位置情報付きコメント(文章)と位置情報無しコメント(文章)とが混在する多数のコメントから、地図経路関連コメントを分類することができる。
ブログサーバ2は、例えばtwitter(登録商標)やfacebook(登録商標)のようなミニブログサーバである。
端末3は、不特定多数の第三者によって所持され、ミニブログサーバ2へコメントを自由に投稿することができる。
端末4は、閲覧者によって操作され、アクセスネットワーク及びインターネットを介してコメント分類サーバ1へアクセスし、所望の地図経路関連コメントを受信することができる。
According to FIG. 1, a comment classification server 1 according to the present invention is connected to the Internet. The comment classification server 1 collects a large number of comments from the blog server 2 that publishes comments posted by an unspecified number of third parties. The comment classification server 1 can classify map route related comments from a large number of comments in which comments with position information (sentences) and comments without position information (sentences) are mixed.
The blog server 2 is a mini blog server such as twitter (registered trademark) or facebook (registered trademark).
The terminal 3 is owned by an unspecified number of third parties, and can freely post comments to the miniblog server 2.
The terminal 4 is operated by the viewer, can access the comment classification server 1 via the access network and the Internet, and can receive a desired map route related comment.

大量のコメントは、同一の位置に基づくトピック(話題)であっても、大きく以下の3つのパターンに分類される。
(話題1)地域全体に広がったコメント群(例えば地域に特定されない話題)
(話題2)地図経路に沿って広がったコメント群(例えば交通機関に基づく話題)
(話題3)一箇所に固まったコメント群(例えば地域イベントに集まった人の話題)
ここで、本発明のコメント分類サーバ1は、(話題2)地図経路に沿って広がったコメント群について区分する。
A large number of comments are roughly classified into the following three patterns even if they are topics (topics) based on the same position.
(Topic 1) Comments spread throughout the region (for example, topics not specified in the region)
(Topic 2) Comments spread along the map route (for example, topics based on transportation)
(Topic 3) A group of comments in one place (for example, topics of people gathered at a local event)
Here, the comment classification server 1 of the present invention classifies the comment group that has spread along the (topic 2) map route.

図2は、本発明におけるコメント分類サーバの機能構成図である。   FIG. 2 is a functional configuration diagram of the comment classification server in the present invention.

図2によれば、コメント分類サーバ1は、通信インタフェース部10と、コメント収集部101と、コメント蓄積部102とを有する。   As shown in FIG. 2, the comment classification server 1 includes a communication interface unit 10, a comment collection unit 101, and a comment storage unit 102.

[コメント収集部101]
コメント収集部101は、ネットワークを介してブログサーバ2から、不特定多数の第三者から投稿されたコメントを受信し、コメント蓄積部102へ出力する。尚、コメント収集部101は、所望の用途に対応して、予め指定した複数のキーワードを含むコメントのみを収集するものであってよい。
[Comment Collection Unit 101]
The comment collection unit 101 receives comments posted from an unspecified number of third parties from the blog server 2 via the network, and outputs the comments to the comment storage unit 102. Note that the comment collection unit 101 may collect only comments including a plurality of keywords specified in advance corresponding to a desired application.

[コメント蓄積部102]
図3は、コメント蓄積部に蓄積されたコメントの例を表す説明図である。
[Comment storage unit 102]
FIG. 3 is an explanatory diagram illustrating an example of comments accumulated in the comment accumulation unit.

コメント蓄積部102は、コメント収集部101によって収集された大量のコメントを蓄積する。「コメント」とは、例えばtwitter(登録商標)で発信された、日本語の「つぶやき」(最大文字数:140文字)のようなものである。コメントは、少なくとも、ユーザid(from_user_id)、つぶやきID(id_str)、発信時刻(created_at)、つぶやき(texts)を含む。ここで、コメントは、「位置情報付き」であってもよいし、「位置情報無し」であってもよい。位置情報とは、一般に、コメント投稿者の端末におけるGPS(Global Positioning System)によって取得された緯度・経度情報である。尚、これに限られず、複数基地局測位に基づく位置情報であってもよいし、アクセスポイントに紐付けられた位置情報であってもよい。   The comment accumulation unit 102 accumulates a large amount of comments collected by the comment collection unit 101. The “comment” is, for example, a Japanese “tweet” (maximum number of characters: 140 characters) transmitted by twitter (registered trademark). The comment includes at least a user id (from_user_id), a tweet ID (id_str), a transmission time (created_at), and a tweet (texts). Here, the comment may be “with position information” or “without position information”. The position information is generally latitude / longitude information acquired by GPS (Global Positioning System) in the comment poster terminal. Note that the position information is not limited to this, and may be position information based on positioning by a plurality of base stations, or position information associated with an access point.

コメント蓄積部102は、大量のコメントを、発信時刻に応じて所定時間範囲毎のコメント群に区分しておくことも好ましい。例えば1時間毎であってもよい。これによって、1時間毎に、地図経路関連コメントの変化を知ることもできる。   The comment storage unit 102 preferably divides a large number of comments into comment groups for each predetermined time range according to the transmission time. For example, it may be every hour. Thereby, it is possible to know the change in the map route related comment every hour.

図2によれば、コメント分類サーバ1は更に、形態素解析部110と、トピック分類部111と、位置情報付きコメント分類部112と、経路位置記憶部103と、地図経路トピック番号抽出部113と、地図経路コメント分類部114とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置のコメント分類方法としても理解できる。   According to FIG. 2, the comment classification server 1 further includes a morphological analysis unit 110, a topic classification unit 111, a comment classification unit with position information 112, a route position storage unit 103, a map route topic number extraction unit 113, And a map route comment classification unit 114. These functional components are realized by executing a program that causes a computer mounted on the server to function. Further, the processing flow of these functional components can be understood as a comment classification method of the apparatus.

[形態素解析部110]
形態素解析部110は、コメント蓄積部102の多数のコメントを、形態素解析によって形態素に区分する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。区分された形態素は、トピック分類部111へ出力される。
[Morphological analyzer 110]
The morpheme analysis unit 110 classifies a large number of comments in the comment storage unit 102 into morphemes by morpheme analysis. “Morphological analysis” refers to a technique in which sentences are divided into meaningful words and the part of speech and contents are discriminated using a dictionary. The “morpheme” means the smallest unit having meaning among the elements of the sentence. The classified morphemes are output to the topic classification unit 111.

[トピック分類部111]
トピック分類部111は、多数のコメントを、単語の出現頻度の分布に基づいて複数個のトピックグループに分類し、各コメントにトピック番号を付与する。
[Topic classification unit 111]
The topic classification unit 111 classifies a large number of comments into a plurality of topic groups based on the distribution of word appearance frequencies, and assigns a topic number to each comment.

<トピック分類部111のLDA解析>
トピック分類部111は、各コメントを、各トピックグループに属する確からしさ(トピック比率)を算出するLDA(Latent Dirichlet Allocation)アルゴリズムを用いて、いずれか1つのトピックグループに分類する。トピック分類は、コメントを解析するために、bag-of-wordsで表現された文書生成過程を確率的にモデル化したものである(例えば非特許文献2参照)。
<LDA analysis of topic classification unit 111>
The topic classification unit 111 classifies each comment into any one topic group using an LDA (Latent Dirichlet Allocation) algorithm that calculates a probability (topic ratio) belonging to each topic group. Topic classification is a probabilistic model of a document generation process expressed in bag-of-words in order to analyze comments (see, for example, Non-Patent Document 2).

LDAは、単語文書行列を次元圧縮する技術(LSI(latent Semantic Indexin))に対して、単語の特徴ベクトルに揺らぎに基づく確率的な枠組みを導入したものである。その圧縮した次元の集合をトピックという。   LDA introduces a probabilistic framework based on fluctuations in a feature vector of a word to a technique (LSI (latent Semantic Indexin)) for dimensional compression of a word document matrix. The compressed set of dimensions is called a topic.

トピック分類部111は、以下のステップで処理を実行する。
(S1)多数のコメントから、単語毎の出現頻度(出現回数)をLDA処理へ入力する。そして、コメント毎に、各単語の出現頻度を計数する。
(S2)次に、トピック毎の単語分布や、コメント毎のトピック比率を取得する。このトピック比率によって、コメントが属するトピックグループに分類する。そして、トピックグループ毎に、全てのコメントに含まれる各単語の出現頻度を計数する。
(S3)最後に、コメント毎に、各トピックグループに属する単語を計数する。そして、コメントを計数値の高いトピックグループに分類する。
The topic classification unit 111 executes processing in the following steps.
(S1) From a large number of comments, the appearance frequency (number of appearances) for each word is input to the LDA process. And the appearance frequency of each word is counted for every comment.
(S2) Next, the word distribution for each topic and the topic ratio for each comment are acquired. This topic ratio classifies the topic group to which the comment belongs. And the appearance frequency of each word contained in all the comments is counted for every topic group.
(S3) Finally, the words belonging to each topic group are counted for each comment. Then, the comments are classified into topic groups with high count values.

図4は、トピック分類部におけるコメントの分類を表す説明図である。   FIG. 4 is an explanatory diagram showing the classification of comments in the topic classification unit.

図4によれば、トピック分類部111は、図3の多数のコメントを、結果的に3つのトピックグループに分類している。各コメントには、分類されたトピック番号が付与される。
そして、位置情報付きコメントは、位置情報付きコメント分類部112及び地図経路コメント分類部114へ出力される。
また、位置情報無しコメントは、地図経路コメント分類部114へ出力される。
According to FIG. 4, the topic classification unit 111 classifies the large number of comments in FIG. 3 into three topic groups as a result. Each comment is given a classified topic number.
Then, the comments with position information are output to the comment classification section with position information 112 and the map route comment classification section 114.
Further, the comment without position information is output to the map route comment classification unit 114.

<トピック分類部111の述語項構造解析>
トピック分類部111は更に、位置情報付きコメント及び位置情報無しコメントの述語項構造を解析し、伝聞推定表現を含むコメントを除去することも好ましい。
<Predicate term structure analysis of topic classifier 111>
It is also preferable that the topic classifying unit 111 further analyzes the predicate term structure of the comment with position information and the comment without position information, and removes the comment including the hearing estimation expression.

「述語項構造」とは、文章中の述語に対して「項」となる名詞句等を当てたものである。述語項構造を用いることによって、文章の意味の骨格を把握することができる。述語項構造は、「述語」に対する「目的語」とその格とから構成される。述語項構造解析として、例えばフリーソフトであるSyncha等の述語項構造解析器を用いることができる。   “Predicate term structure” refers to a noun phrase or the like that becomes a “term” to a predicate in a sentence. By using the predicate term structure, it is possible to grasp the skeleton of the meaning of the sentence. The predicate term structure is composed of “object” for “predicate” and its case. As the predicate term structure analysis, for example, a predicate term structure analyzer such as Syncha which is free software can be used.

文書をbug of words(BOW:単語の集合)で表現する代わりに、述語項構造を用いてトピック分類を実行する。各例文から以下のような述語項構造が取得される。
例えばコメントが、以下のように解析される。
コメント1「ヘリコプタが集まっている」
->述語「集まる(状況)」、ガ格「ヘリコプタ」
コメント2「ヘリコプタが集まってきている」
->述語「集まる(状況)」、ガ格「ヘリコプタ」
コメント3「ヘリコプタが集まっているそうだ」
->述語「集まる(伝聞)」、ガ格「ヘリコプタ」
コメント4「ヘリコプタが集まっているらしい」
->述語「集まる(推定)」、ガ格「ヘリコプタ」
Instead of expressing a document as a bug of words (BOW), topic classification is performed using a predicate term structure. The following predicate term structure is acquired from each example sentence.
For example, a comment is analyzed as follows.
Comment 1 “Helicopters are gathering”
-> Predicate “Gather (situation)”, Ga ’s “Helicopter”
Comment 2 “Helicopters are gathering”
-> Predicate “Gather (situation)”, Ga ’s “Helicopter”
Comment 3 “Helicopters are gathering”
-> Predicate “Gather (hearing)”, Ga ’s “Helicopter”
Comment 4 “Helicopters seem to be gathering”
-> Predicate “Gather (estimate)”, Ga ’s “Helicopter”

前述の例によれば、同じ述語「集まる」であっても、コメント1,2の「集まる(状況)」と、コメント3,4の「集まる(伝聞・推定)」とを区別することができる。尚、既存のトピック分類であるBOWを用いた場合、これらコメントの特徴量は同じであって、それらを区別して解析することができない。即ち、本発明によれば、コメント1,2とコメント3,4とを区別してトピック分類することができ、異なるトピック番号が付与されることなる。   According to the above-described example, even if the same predicate is “gather”, it is possible to distinguish between “gather (situation)” of comments 1 and 2 and “gather (hearing / estimation)” of comments 3 and 4. . If BOW, which is an existing topic classification, is used, the feature quantities of these comments are the same and cannot be analyzed separately. That is, according to the present invention, the comments 1 and 2 and the comments 3 and 4 can be distinguished and classified into topics, and different topic numbers are assigned.

述語項構造解析によれば、コメント1,2は、その現場の地図経路から投稿された状況表現であると解析できる。また、コメント3,4は、その現場の地図経路以外の位置から投稿された伝聞推定表現であると解析できる。この場合、伝聞推定表現を含むコメント3,4を除去する。これによって、その現場の地図経路から投稿されたコメント(位置情報付き又は位置情報無しに拘わらず)のみ、地図上に対応付けることができる。   According to the predicate term structure analysis, the comments 1 and 2 can be analyzed as situation expressions posted from the map path of the site. Moreover, the comments 3 and 4 can be analyzed to be hearing estimation expressions posted from positions other than the map route of the site. In this case, the comments 3 and 4 including the hearing estimation expression are removed. As a result, only comments posted from the map route of the site (with or without position information) can be associated on the map.

図5は、位置情報付きコメントと地図経路トピック番号と表す説明図である。   FIG. 5 is an explanatory diagram illustrating a comment with position information and a map route topic number.

[経路位置記憶部103]
経路位置記憶部103は、地図経路毎に、経路上の複数の位置を記憶する。図5によれば、経路毎に、その経路上で連続する複数の位置情報が記録されている。
[Route location storage unit 103]
The route position storage unit 103 stores a plurality of positions on the route for each map route. According to FIG. 5, for each route, a plurality of pieces of position information that are continuous on the route are recorded.

[位置情報付きコメント分類部112]
位置情報付きコメント分類部112は、複数の位置情報付きコメントを、当該位置情報が属する所定地図経路毎に分類する。
[Comment classification unit 112 with position information]
The comment classifier 112 with position information classifies a plurality of comments with position information for each predetermined map route to which the position information belongs.

図5によれば、位置情報付きコメントの位置情報が、地図上にプロットされている。地図は、予め所定地図経路毎に区分されている。これによって、所定地図経路毎に、その範囲に含まれる位置情報付きコメントが分類される。   According to FIG. 5, the position information of the comments with position information is plotted on the map. The map is divided in advance for each predetermined map route. As a result, the comments with position information included in the range are classified for each predetermined map route.

[地図経路トピック番号抽出部113]
地図経路トピック番号抽出部113は、所定の地図経路毎に、偏在度に基づく所定規準を用いて、複数の位置情報付きコメントの中で、最も多いトピック番号を地図経路トピック番号として抽出する。偏在度に基づく所定規準は、例えば赤池情報量基準(AIC:Akaike's Information Criterion)であってもよい。
[Map route topic number extraction unit 113]
The map route topic number extraction unit 113 extracts, for each predetermined map route, the largest topic number as a map route topic number from among a plurality of comments with position information using a predetermined criterion based on the uneven distribution degree. The predetermined criterion based on the uneven distribution degree may be, for example, Akaike's Information Criterion (AIC).

ここで、地図経路C1,C2,・・・に割り当てられた位置情報付きコメントのトピック番号を、t1,t2,・・・とする。以下では、トピック番号tが、地図経路Cの判別に役立つかどうかの指標Info(C,t)の算出方法を、以下に表す。   Here, the topic numbers of the comments with position information assigned to the map routes C1, C2,... Are t1, t2,. In the following, a method of calculating an index Info (C, t) for determining whether the topic number t is useful for determining the map route C will be described below.

(S1)地図経路に含まれるコメントの集合Uから、以下のいずれか一方の規準によって、以下の4種類の頻度を得る。
(第1の規準:コメント数)
n11=トピック番号jに含まれる地図経路iのコメント数
n12=トピック番号j以外に含まれる地図経路iのコメント数
n21=トピック番号jに含まれる地図経路i以外のコメント数
n22=トピック番号j以外に含まれる地図経路i以外のコメント数
第1の規準のようにコメント数を計数することは、従来のAICに基づくものであって、決定論的に判別するものである。
(第2の規準:評価値の合計)
n11=トピック番号jに含まれるコメントの地図経路iに対する評価値の合計
n12=トピック番号j以外に含まれるコメントの地図経路iに対する評価値の合計
n21=トピック番号jに含まれるコメントの地図経路i以外に対する評価値の合計
n22=トピック番号j以外に含まれるコメントの地図経路i以外に対する評価値の合計
第2の規準のように当該地図経路に該当する評価値に基づくものであって、確率論的に判別するものである。
(S1) From the set U of comments included in the map route, the following four types of frequencies are obtained according to any one of the following criteria.
(First criterion: number of comments)
n11 = number of comments for map route i included in topic number j n12 = number of comments for map route i included other than topic number j n21 = number of comments other than map route i included in topic number j n22 = other than topic number j The number of comments other than the map route i included in the number of comments as in the first criterion is based on the conventional AIC and is deterministically determined.
(Second criterion: total evaluation value)
n11 = total evaluation value for map path i of comments included in topic number j n12 = total evaluation value for map path i of comments included other than topic number j n21 = map path i of comments included in topic number j N22 = total evaluation value for comments other than topic number j other than map route i other than map number i Based on the evaluation value corresponding to the map route as in the second criterion, probability theory It is discriminate | determined automatically.

例えばトピック番号jにコメントa,b,cが含まれているとする。このとき、コメントa,cの投稿位置が地図経路iに非常に近い位置にあり、コメントbの投稿位置が地図経路iから離れているとする。尚、コメントaは地図経路iに極めて近く評価値0.9とし、コメントcは地図経路iに少し近く評価値0.8とする。また、コメントcは地図経路iから離れており評価値0.1とする。ここで、第1の規準及び第2の規準のn11は、例えば以下のように算出される。
第1の規準:n11=1+0+1=2
第2の規準:n11=0.9+0.1+0.8=1.8
For example, it is assumed that the topic number j includes comments a, b, and c. At this time, it is assumed that the posting positions of the comments a and c are very close to the map route i, and the posting position of the comment b is away from the map route i. Note that comment a is very close to map route i and has an evaluation value of 0.9, and comment c is close to map route i and has an evaluation value of 0.8. The comment c is away from the map route i and has an evaluation value of 0.1. Here, n11 of the first criterion and the second criterion is calculated as follows, for example.
First criterion: n11 = 1 + 0 + 1 = 2
Second criterion: n11 = 0.9 + 0.1 + 0.8 = 1.8

図6は、確率論的な情報量規準を用いた説明図である。   FIG. 6 is an explanatory diagram using a stochastic information criterion.

図6によれば、トピック番号jの位置情報付きコメントが、東上線と川越線との近郊から投稿されている。また、各地図経路上には、位置座標のポイントが配置されている。ここでは、トピック番号jについて、例えば、地図経路1(川越線)に該当する確率0.3と、地図経路2(東上線)に該当する確率0.7として評価することができる。例えばトピック番号jについて、70%は地図経路2に基づくものであると判定され、30%は地図経路1に基づくものであると判定される。
Li:あるコメントが持つ位置座標と地図経路iの位置座標との間の最短距離
Vi=1/Li:あるコメントが地図経路iに属するかどうかの評価値
即ち、その位置情報は、常に誤差が含まれ、1つの地図経路に必ずしも近いとは判定できないためである。また、トピック番号jについて、複数の地図経路に言及している可能性もある。
According to FIG. 6, the comment with the location information of the topic number j is posted from the suburbs of the Tojo Line and Kawagoe Line. Also, position coordinate points are arranged on each map route. Here, the topic number j can be evaluated as, for example, a probability 0.3 corresponding to the map route 1 (Kawagoe Line) and a probability 0.7 corresponding to the map route 2 (Tojo Line). For example, for topic number j, 70% is determined to be based on map route 2 and 30% is determined to be based on map route 1.
Li: The shortest distance between the position coordinates of a comment and the position coordinates of the map route i Vi = 1 / Li: Evaluation value of whether a comment belongs to the map route i That is, the position information always has an error. This is because it cannot be determined that it is included and is not necessarily close to one map route. There is also a possibility that the topic number j refers to a plurality of map routes.

(S2)次に、n11,n12,n21,n22に対して、赤池情報量規準を用いて、独立モデルに対する値MLL_IM(C,t)及び従属モデルに対する値MLL_DM(C,t)を算出する。これは、地図経路とトピック番号との組毎の不当割合を算出する。
MLL_IM(C,t)=(n11+n12) log(n11+n12)
+(n11+n21) log(n11+n21)
+(n21+n22) log(n21+n22)
+(n12+n22) log(n12+n22)−2N log N
MLL_DM(C,t)=n11 log n11+n12 log n12+n21 log n21+n22 log n22−N log N
但し、N=n11+n12+n21+n22
(S2) Next, with respect to n11, n12, n21, and n22, the value MLL_IM (C, t) for the independent model and the value MLL_DM (C, t) for the dependent model are calculated using the Akaike information criterion. This calculates an unreasonable ratio for each set of map route and topic number.
MLL_IM (C, t) = (n11 + n12) log (n11 + n12)
+ (N11 + n21) log (n11 + n21)
+ (N21 + n22) log (n21 + n22)
+ (N12 + n22) log (n12 + n22) -2N log N
MLL_DM (C, t) = n11 log n11 + n12 log n12 + n21 log n21 + n22 log n22−N log N
However, N = n11 + n12 + n21 + n22

(S3)前述のMLL_IM(C,t)及びMLL_DM(C,t)から、以下のInfo(C,t)を算出する。
AIC_IM(C,t)=-2 × MLL_IM(C,t) + 2×2
AIC_DM(C,t)=-2 × MLL_DM(C,t) + 2×3
Info(C,t)=AIC_IM(t, C) − AIC_DM(C,t)
(S3) The following Info (C, t) is calculated from the aforementioned MLL_IM (C, t) and MLL_DM (C, t).
AIC_IM (C, t) = -2 × MLL_IM (C, t) + 2 × 2
AIC_DM (C, t) = -2 × MLL_DM (C, t) + 2 × 3
Info (C, t) = AIC_IM (t, C) − AIC_DM (C, t)

前述で算出されたInfo(C,t)は、トピック番号tが地図経路Cに偏って出現する不当割合を表す。Info(C,t)は、赤池情報量基準に従って、地図経路Cの判別に役立つトピック番号tほど、Info(C,t)の値が高くなる。本発明によれば、各地図経路Ciに対し、Info(C,t)の値が大きい順に、m個のトピック番号tを抽出することができる。   Info (C, t) calculated above represents an unreasonable proportion in which the topic number t appears with a bias toward the map route C. Info (C, t) has a higher Info (C, t) value as the topic number t is useful for determining the map route C according to the Akaike information criterion. According to the present invention, for each map route Ci, m topic numbers t can be extracted in descending order of Info (C, t).

<地図経路トピック番号抽出部113の一箇所集中トピックの除去>
地図経路トピック番号抽出部113は、一箇所の位置座標に集中するようなトピック番号は、地図経路では無い(例えば交通機関ではない)として、地図経路トピック番号として抽出しないようにすることも好ましい。具体的には、以下のステップを実行する。
(S1)地図経路毎に抽出された地図経路トピック番号を持つ複数の位置情報付きコメントの位置座標の重心を算出する。
(S2)当該重心から各コメントの位置座標に対する距離の平均値を算出する。
(S3)当該平均値が所定閾値以下となる場合、地図経路では無いとして、地図経路トピック番号を抽出しない。
<Removal of Concentrated Topic at Map Route Topic Number Extraction Unit 113>
It is also preferable that the map route topic number extraction unit 113 does not extract topic numbers that concentrate on one position coordinate as a map route topic number because it is not a map route (for example, not a transportation facility). Specifically, the following steps are executed.
(S1) The center of gravity of position coordinates of a plurality of comments with position information having map path topic numbers extracted for each map path is calculated.
(S2) The average value of the distance to the position coordinates of each comment is calculated from the centroid.
(S3) If the average value is equal to or less than the predetermined threshold value, the map route topic number is not extracted because it is not a map route.

例えばある路線(地図経路)近郊で火災が発生したとき、その時間帯に投稿されたtwitterのコメントを大量に収集したとする。このとき、位置情報無しコメントであっても、実際の火災現場の位置に対応付けることができる。しかしながら、トピック番号は、一箇所の位置座標に集中することとなる。本発明によれば、この場合、そのトピック番号は、地図経路に基づくものではないとして、抽出しないようにする。   For example, when a fire breaks out near a certain route (map route), a large number of twitter comments posted during that time are collected. At this time, even a comment without position information can be associated with the actual position of the fire site. However, topic numbers are concentrated at one position coordinate. According to the present invention, in this case, the topic number is not extracted because it is not based on the map route.

[地図経路コメント分類部114]
地図経路コメント分類部114は、各地図経路の地図経路トピック番号に基づいて、位置情報付きコメント及び位置情報無しコメントを、地図経路関連コメントとして分類する。
[Map route comment classification unit 114]
Based on the map route topic number of each map route, the map route comment classification unit 114 classifies the comment with position information and the comment without position information as a map route related comment.

図7は、地図経路トピック番号によって分類されたコメントを明示する説明図である。   FIG. 7 is an explanatory diagram clearly showing comments classified by map route topic numbers.

図7によれば、例えば地図経路aに位置する位置情報付きコメントの中で、トピック番号1の数が最も多いとする。この場合、トピック番号1のコメントは、地図経路a内から投稿されたものと推定することができる。これによって、地図経路aに、トピック番号1の位置情報付きコメント及び位置情報無しコメントを、地図経路関連コメントとして分類することができる。   According to FIG. 7, for example, it is assumed that the number of topic numbers 1 is the largest among the comments with position information located in the map route a. In this case, it can be estimated that the comment of the topic number 1 is posted from within the map route a. Thereby, the comment with the location information of topic number 1 and the comment without the location information can be classified as a map route related comment on the map route a.

例えばある路線(地図経路)で車両故障が発生したとき、その時間帯に投稿されたtwitterのコメントを大量に収集したとする。このとき、約20,000件程度のコメントのうち、位置情報付きコメントはわずか50件程度に過ぎない。本発明を適用し、これら約20,000件のコメントに対してLDAのトピック分類を実行し、位置情報付きコメントの50件程度のトピック番号と同じコメントを、その位置情報に対応付けることができる。結果的に、位置情報無しコメントであっても、実際に麻痺した地図経路を特定し、そのコメント内容を閲覧することができる。コメント内容から、その交通麻痺の原因を知ることもできる。   For example, when a vehicle failure occurs on a certain route (map route), it is assumed that a large number of twitter comments posted during that time period are collected. At this time, out of about 20,000 comments, there are only about 50 comments with location information. By applying the present invention, topic classification of LDA is executed for about 20,000 comments, and the same comment as the topic number of about 50 comments with position information can be associated with the position information. As a result, even a comment without position information can identify a map path that is actually paralyzed and view the comment content. You can know the cause of the traffic paralysis from the comments.

図8は、本発明におけるシーケンス図である。   FIG. 8 is a sequence diagram in the present invention.

図8によれば、位置情報付きコメント(文章)と位置情報無しコメント(文章)とが混在する多数のコメントを収集し、地図経路関連コメントを抽出するコメント分類サーバの処理(装置のコメント分類方法)を表す。
(S111)コメント分類サーバ1は、最初に、多数のコメントを、単語の出現頻度の分布に基づいて複数個のトピックグループに分類し、各コメントにトピック番号を付与する(前述した図2のトピック分類部111参照)。
(S112)次に、コメント分類サーバ1は、複数の位置情報付きコメントを、当該コメントに付与された当該位置情報から所定範囲に含まれる経路位置記憶手段の地図経路毎に分類する(前述した図2の位置情報付きコメント分類部112参照)。
(S113)次に、コメント分類サーバ1は、地図経路毎に、偏在度に基づく所定規準を用いて、複数の位置情報付きコメントの中で、最も多いトピック番号を地図経路トピック番号として抽出する(前述した図2の地図経路トピック番号抽出部113参照)。
(S114)そして、コメント分類サーバ1は、各地図経路の地図経路トピック番号に基づいて、位置情報付きコメント及び位置情報無しコメントを、当該地図経路関連コメントとして分類する(前述した図2の地図経路コメント分類部114参照)。
そして、閲覧者が操作する端末4は、アクセスネットワーク及びインターネットを介して、コメント分類サーバ1へアクセスする。端末4は、地図経路をクエリとしてコメント分類サーバ1へ送信することによって、コメント分類サーバ1からその地図経路の地図経路関連コメントを受信することができる。
According to FIG. 8, a comment classification server process (a comment classification method of the apparatus) that collects a large number of comments in which comments (sentences) with position information and comments (sentences) without position information are mixed and extracts map route related comments. ).
(S111) First, the comment classification server 1 classifies a large number of comments into a plurality of topic groups based on the distribution of word appearance frequencies, and assigns topic numbers to the comments (topics in FIG. 2 described above). Classification unit 111).
(S112) Next, the comment classification server 1 classifies a plurality of comments with position information for each map route in the route position storage means included in a predetermined range from the position information given to the comment (the above-described figure). 2 (see comment classification unit 112 with position information).
(S113) Next, for each map route, the comment classification server 1 uses a predetermined criterion based on the degree of uneven distribution, and extracts the largest topic number as a map route topic number among a plurality of comments with position information ( (See the map route topic number extraction unit 113 in FIG. 2 described above).
(S114) Based on the map route topic number of each map route, the comment classification server 1 classifies the comment with position information and the comment without position information as the map route related comment (the map route in FIG. 2 described above). (See comment classification unit 114).
Then, the terminal 4 operated by the viewer accesses the comment classification server 1 via the access network and the Internet. The terminal 4 can receive the map route related comment of the map route from the comment classification server 1 by transmitting the map route as a query to the comment classification server 1.

以上、詳細に説明したように、本発明のコメント分類プログラム、サーバ及び方法によれば、位置情報付きコメントと位置情報無しコメントとが混在する大量のコメントから、地図経路関連コメントを抽出することができる。特に、本発明によれば、経路名や駅名等の位置を特定する単語を必ずしも含んでいないコメントであっても、トピック分類に基づいて、地図経路固有に偏在するトピックを検出することができる。   As described above in detail, according to the comment classification program, server, and method of the present invention, it is possible to extract map route related comments from a large number of comments in which comments with position information and comments without position information are mixed. it can. In particular, according to the present invention, even if a comment does not necessarily include a word specifying a position such as a route name or a station name, a topic that is unevenly distributed on a map route can be detected based on the topic classification.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。   Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.

1 コメント分類サーバ
10 通信インタフェース部
101 コメント収集部
102 コメント蓄積部
103 経路位置記憶部
110 形態素解析部
111 トピック分類部
112 位置情報付きコメント分類部
113 地図経路トピック番号抽出部
114 地図経路コメント分類部
2 ミニブログサーバ
3 投稿者用端末
4 閲覧者用端末
DESCRIPTION OF SYMBOLS 1 Comment classification | category server 10 Communication interface part 101 Comment collection part 102 Comment storage part 103 Path | route position memory | storage part 110 Morphological analysis part 111 Topic classification | category part 112 Comment classification | category part with location information 113 Map route topic number extraction part 114 Map route comment classification part 2 Mini-blog server 3 Terminal for contributors 4 Terminal for viewers

Claims (8)

位置情報付きコメントと位置情報無しコメントとが混在する複数のコメントから、地図経路関連コメントを抽出するようにコンピュータを機能させるコメント分類プログラムであって、
地図経路毎に、経路上の複数の位置を記憶した経路位置記憶手段と、
複数のコメントを、単語の出現頻度の分布に基づいて複数個のトピックグループに分類し、各コメントにトピック番号を付与するトピック分類手段と、
複数の位置情報付きコメントを、当該コメントに付与された当該位置情報から所定範囲に含まれる前記経路位置記憶手段の地図経路毎に分類する位置情報付きコメント分類手段と、
地図経路毎に、複数の位置情報付きコメントの中で、当該地図経路への偏在度に基づく所定規準が最も高いトピック番号を地図経路トピック番号として抽出する地図経路トピック番号抽出手段と、
各地図経路の前記地図経路トピック番号に基づいて、位置情報付きコメント及び位置情報無しコメントを、当該地図経路関連コメントとして分類する地図経路コメント分類手段と
してコンピュータを機能させることを特徴とするコメント分類プログラム。
A plurality of comments with position information comments and the positional information without comment are mixed, a comment classification program that causes a computer to function so as to extract a map routing related comments,
Route position storage means for storing a plurality of positions on the route for each map route;
A topic classification means for classifying a plurality of comments into a plurality of topic groups based on a distribution of word frequencies, and assigning a topic number to each comment;
Comment classification means with position information for classifying a plurality of comments with position information for each map route of the route position storage means included in a predetermined range from the position information given to the comment;
For each map path, in commented positional information of multiple, and maps the route topic number extracting means for extracting a predetermined criterion highest topic number based on localization of to the map route as a map route topic number,
A comment classification program for causing a computer to function as a map route comment classification means for classifying comments with location information and comments without location information as comments related to the map route based on the map route topic number of each map route .
前記トピック分類手段は、各コメントを、各トピックグループに属する確からしさ(トピック比率)を算出するLDA(Latent Dirichlet Allocation)アルゴリズムを用いて、いずれか1つのトピックグループに分類する
ようにコンピュータを機能させることを特徴とする請求項1に記載のコメント分類プログラム。
The topic classification means causes the computer to function so as to classify each comment into any one topic group using an LDA (Latent Dirichlet Allocation) algorithm that calculates a probability (topic ratio) belonging to each topic group. The comment classification program according to claim 1, wherein:
前記地図経路トピック番号抽出手段における偏在度に基づく所定規準は、赤池情報量基準であり、以下のいずれか一方の規準を用いる
(第1の規準:コメント数)
n11=トピック番号jに含まれる地図経路iのコメント数
n12=トピック番号j以外に含まれる地図経路iのコメント数
n21=トピック番号jに含まれる地図経路i以外のコメント数
n22=トピック番号j以外に含まれる地図経路i以外のコメント数
(第2の規準:評価値の合計)
n11=トピック番号jに含まれるコメントの地図経路iに対する評価値の合計
n12=トピック番号j以外に含まれるコメントの地図経路iに対する評価値の合計
n21=トピック番号jに含まれるコメントの地図経路i以外に対する評価値の合計
n22=トピック番号j以外に含まれるコメントの地図経路i以外に対する評価値の合計
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のコメント分類プログラム。
The predetermined criterion based on the degree of uneven distribution in the map route topic number extraction means is the Akaike information amount criterion, and uses one of the following criteria (first criterion: number of comments)
n11 = number of comments for map route i included in topic number j n12 = number of comments for map route i included other than topic number j n21 = number of comments other than map route i included in topic number j n22 = other than topic number j Number of comments other than map route i included in (second criterion: total evaluation value)
n11 = total evaluation value for map path i of comments included in topic number j n12 = total evaluation value for map path i of comments included other than topic number j n21 = map path i of comments included in topic number j 3. The comment classification program according to claim 1 or 2, wherein the computer is caused to function as a sum of evaluation values for other than the map path i of comments included other than the topic number j.
前記地図経路トピック番号抽出手段は、地図経路毎に抽出された前記地図経路トピック番号を持つ複数の位置情報付きコメントの位置座標の重心を算出し、当該重心から各コメントの位置座標に対する距離の平均値を算出し、当該平均値が所定閾値以下となる場合、地図経路では無いとして、地図経路トピック番号を抽出しない
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のコメント分類プログラム。
The map route topic number extraction means calculates the centroid of the position coordinates of a plurality of comments with position information having the map route topic number extracted for each map route, and averages the distance from the centroid to the position coordinates of each comment The computer is caused to function so as not to extract a map route topic number, assuming that the map route is not a map route when the value is calculated and the average value is a predetermined threshold value or less. Comment classification program described in.
前記トピック分類手段は、位置情報付きコメント及び位置情報無しコメントの述語項構造を解析し、伝聞推定表現を含むコメントを除去する
ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のコメント分類プログラム。
5. The topic classifying unit analyzes a predicate term structure of a comment with position information and a comment without position information, and causes the computer to function to remove a comment including a hearing estimation expression. The comment classification program according to item 1.
前記コメントは、不特定複数の第三者によって、ミニブログ(mini Web log)サーバに投稿されたものである
ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のコメント分類プログラム。
The computer according to any one of claims 1 to 5, wherein the computer functions so that the comment is posted to a mini blog (mini Web log) server by a plurality of unspecified third parties. The comment classification program described.
位置情報付きコメントと位置情報無しコメントとが混在する複数のコメントを収集し、地図経路関連コメントを抽出するコメント分類サーバであって、
地図経路毎に、経路上の複数の位置を記憶した経路位置記憶手段と、
複数のコメントを、単語の出現頻度の分布に基づいて複数個のトピックグループに分類し、各コメントにトピック番号を付与するトピック分類手段と、
複数の位置情報付きコメントを、当該コメントに付与された当該位置情報から所定範囲に含まれる前記経路位置記憶手段の地図経路毎に分類する位置情報付きコメント分類手段と、
地図経路毎に、複数の位置情報付きコメントの中で、当該地図経路への偏在度に基づく所定規準が最も高いトピック番号を地図経路トピック番号として抽出する地図経路トピック番号抽出手段と、
各地図経路の前記地図経路トピック番号に基づいて、位置情報付きコメント及び位置情報無しコメントを、当該地図経路関連コメントとして分類する地図経路コメント分類手段と
を有することを特徴とするコメント分類サーバ。
Location information with comments and the position information without comment to collect multiple comments are mixed, a comment classification server to extract the map route-related comments,
Route position storage means for storing a plurality of positions on the route for each map route;
A topic classification means for classifying a plurality of comments into a plurality of topic groups based on a distribution of word frequencies, and assigning a topic number to each comment;
Comment classification means with position information for classifying a plurality of comments with position information for each map route of the route position storage means included in a predetermined range from the position information given to the comment;
For each map path, in commented positional information of multiple, and maps the route topic number extracting means for extracting a predetermined criterion highest topic number based on localization of to the map route as a map route topic number,
A comment classification server comprising map route comment classification means for classifying comments with position information and comments without position information as comments related to the map route based on the map route topic number of each map route.
位置情報付きコメントと位置情報無しコメントとが混在する複数のコメントを収集し、地図経路関連コメントを抽出する装置のコメント分類方法であって、
前記装置は、
地図経路毎に、経路上の複数の位置を記憶した経路位置記憶部を有し、
複数のコメントを、単語の出現頻度の分布に基づいて複数個のトピックグループに分類し、各コメントにトピック番号を付与する第1のステップと、
複数の位置情報付きコメントを、当該コメントに付与された当該位置情報から所定範囲に含まれる前記経路位置記憶の地図経路毎に分類する第2のステップと、
地図経路毎に、複数の位置情報付きコメントの中で、当該地図経路への偏在度に基づく所定規準が最も高いトピック番号を地図経路トピック番号として抽出する第3のステップと、
各地図経路の前記地図経路トピック番号に基づいて、位置情報付きコメント及び位置情報無しコメントを、当該地図経路関連コメントとして分類する第4のステップと
を有することを特徴とするコメント分類方法。
Position information with comments and the positional information without comment collects a plurality of comments are mixed, a comment classification method of the device for extracting the map route associated comments,
The device is
Each map route has a route position storage unit that stores a plurality of positions on the route,
A first step of classifying a plurality of comments into a plurality of topic groups based on the distribution of word frequencies, and assigning a topic number to each comment;
A second step of classifying a plurality of comments with position information for each map route of the route position storage unit included in a predetermined range from the position information given to the comment;
For each map path, in commented positional information of multiple, a third step of extracting a predetermined criterion highest topic number based on localization of to the map route as a map route topic number,
A comment classification method comprising: a fourth step of classifying comments with location information and comments without location information as comments on the map route based on the map route topic number of each map route.
JP2015011657A 2015-01-23 2015-01-23 Comment classification program, server, and method for extracting map route related comments from multiple comments Active JP6373197B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015011657A JP6373197B2 (en) 2015-01-23 2015-01-23 Comment classification program, server, and method for extracting map route related comments from multiple comments

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015011657A JP6373197B2 (en) 2015-01-23 2015-01-23 Comment classification program, server, and method for extracting map route related comments from multiple comments

Publications (2)

Publication Number Publication Date
JP2016136358A JP2016136358A (en) 2016-07-28
JP6373197B2 true JP6373197B2 (en) 2018-08-15

Family

ID=56512584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015011657A Active JP6373197B2 (en) 2015-01-23 2015-01-23 Comment classification program, server, and method for extracting map route related comments from multiple comments

Country Status (1)

Country Link
JP (1) JP6373197B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6497657B2 (en) * 2014-08-20 2019-04-10 Kddi株式会社 Comment classification program, server, and method for extracting region-specific comments from a large number of comments
JP6796000B2 (en) * 2017-02-21 2020-12-02 セコム株式会社 Monitoring support device and monitoring system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014071011A (en) * 2012-09-28 2014-04-21 Navitime Japan Co Ltd Information processing system, information processing server, information processing method, and program
JP6497657B2 (en) * 2014-08-20 2019-04-10 Kddi株式会社 Comment classification program, server, and method for extracting region-specific comments from a large number of comments

Also Published As

Publication number Publication date
JP2016136358A (en) 2016-07-28

Similar Documents

Publication Publication Date Title
D'Andrea et al. Real-time detection of traffic from twitter stream analysis
CN103336766B (en) Short text garbage identification and modeling method and device
KR101695011B1 (en) System for Detecting and Tracking Topic based on Topic Opinion and Social-influencer and Method thereof
CN103455545A (en) Location estimation of social network users
Pandhare et al. Real time road traffic event detection using Twitter and spark
De Silva et al. User type classification of tweets with implications for event recognition
El Ballouli et al. Cat: Credibility analysis of arabic content on twitter
US8965867B2 (en) Measuring and altering topic influence on edited and unedited media
CN105183717A (en) OSN user emotion analysis method based on random forest and user relationship
Lundberg et al. Towards a language independent Twitter bot detector.
Granskogen et al. Fake news detection: Network data from social media used to predict fakes
Tiwari et al. Not everything you read is true! Fake news detection using machine learning algorithms
US20120030211A1 (en) Message processing method and system
Afzaal et al. A novel framework for aspect-based opinion classification for tourist places
EP3477575A1 (en) Computer implemented method and system for detecting a set of relevant communities
JP5098631B2 (en) Mail classification system, mail search system
JP6373197B2 (en) Comment classification program, server, and method for extracting map route related comments from multiple comments
Michailidis et al. Real time location based sentiment analysis on twitter: The airsent system
JP6497657B2 (en) Comment classification program, server, and method for extracting region-specific comments from a large number of comments
JP2016218512A (en) Information processing device and information processing program
JP5477910B2 (en) Text search program, device, server and method using search keyword dictionary and dependency keyword dictionary
US9940319B2 (en) Information analysis system, information analysis method, and information analysis program
ul Mustafa et al. Prediction of user’s interest based on urdu tweets
Yin et al. Research of integrated algorithm establishment of a spam detection system
Kausar et al. Understanding the role of political micro-influencers in Pakistan

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170831

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180628

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180717

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180717

R150 Certificate of patent or registration of utility model

Ref document number: 6373197

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150