JP2017204169A - Event determination device - Google Patents
Event determination device Download PDFInfo
- Publication number
- JP2017204169A JP2017204169A JP2016095938A JP2016095938A JP2017204169A JP 2017204169 A JP2017204169 A JP 2017204169A JP 2016095938 A JP2016095938 A JP 2016095938A JP 2016095938 A JP2016095938 A JP 2016095938A JP 2017204169 A JP2017204169 A JP 2017204169A
- Authority
- JP
- Japan
- Prior art keywords
- group
- event
- documents
- document
- appearance frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、事象判断装置に関する。 The present invention relates to an event determination device.
従来、マイクロブログサービスにおいて、予め用意された辞書とのキーワードマッチングにより、投稿された文書の中から任意のカテゴリに含まれる文書を抽出する手法がある。例えば、特許文献1には、地名データベースを参照し、投稿された文書の中から地名情報が含まれる文書を抽出する装置が記載されている。 Conventionally, in a microblog service, there is a method of extracting a document included in an arbitrary category from posted documents by keyword matching with a dictionary prepared in advance. For example, Patent Document 1 describes an apparatus that refers to a place name database and extracts a document including place name information from posted documents.
ユーザにより作成され、マイクロブログサービスに投稿された文書の中から、例えば治安に関連する希少な事象の発生を検出することが望まれている。上述の手法によれば、例えば治安に関連する事象を示す文書を抽出することはできる。しかしながら、事象の希少性は、その事象が発生する場所によって異なる。 It is desired to detect the occurrence of a rare event related to security, for example, from a document created by a user and posted to a microblog service. According to the above-described method, for example, a document indicating an event related to security can be extracted. However, the rarity of an event varies depending on where the event occurs.
本発明は、事象の希少性を判断可能な事象判断装置を提供することを目的とする。 An object of this invention is to provide the event judgment apparatus which can judge the rarity of an event.
上記の目的を達成するために、本発明に係る事象判断装置は、事象の希少性を判断する事象判断装置であって、事象を示す予め設定された単語を取得する単語取得手段と、事象が発生した位置を示す位置情報を取得する位置情報取得手段と、事象が発生した時刻を示す時刻情報を取得する時刻情報取得手段と、位置情報により示される位置、及び時刻情報により示される時刻に基づいて、位置及び時刻が設定された文書から、第1グループの文書を取得する第1グループ取得手段と、位置情報により示される位置に基づいて、第1グループの文書とは異なる第2グループの文書を取得する第2グループ取得手段と、第1グループの文書と第2グループの文書との類似性を示す類似度を計算する類似度計算手段と、第1グループの文書における単語の出現頻度を計算する出現頻度計算手段と、類似度と出現頻度とに基づき、事象の希少性を判断する判断手段と、判断手段の判断結果を出力する出力手段と、を備える。 In order to achieve the above object, an event determination apparatus according to the present invention is an event determination apparatus that determines the rarity of an event, a word acquisition unit that acquires a preset word indicating an event, and an event Based on position information acquisition means for acquiring position information indicating the position where it occurred, time information acquisition means for acquiring time information indicating the time when the event occurred, a position indicated by the position information, and a time indicated by the time information And a second group of documents different from the first group of documents based on the position indicated by the position information and the first group acquisition means for acquiring the first group of documents from the position and time set. A second group acquisition means for acquiring the similarity, a similarity calculation means for calculating a similarity indicating the similarity between the first group of documents and the second group of documents, and a first group of documents Comprising the occurrence frequency calculating means for calculating the frequency of occurrence of words, based on the appearance frequency and similarity determining means for determining the scarcity of events, and output means for outputting a determination result of the determination means.
本発明に係る事象判断装置は、事象が発生した位置及び時刻に基づいて取得した第1グループの文書と、同じ位置に基づいて取得した第2グループの文書との類似度を計算するとともに、第1グループの文書における事象を示す予め設定された単語の出現頻度を計算し、類似度及び出現頻度に基づき事象の希少性を判断する。希少性の高い事象が発生した場合、事象の発生した位置における文書中の事象を示す単語の出現頻度が上がることが考えられる。また、事象の発生した時刻の前後周辺の期間とそれ以外の期間とで、事象の発生した位置における文書の内容が変化することも考えられる。類似度によれば、事象の発生した位置における文書の内容の変化を把握することができる。このような出現頻度及び類似度に基づき事象の希少性を判断するので、事象の発生した位置に応じて事象の希少性を判断することができる。 The event determination apparatus according to the present invention calculates the similarity between the first group of documents acquired based on the position and time at which the event occurred and the second group of documents acquired based on the same position, and The appearance frequency of a preset word indicating an event in a group of documents is calculated, and the rarity of the event is determined based on the similarity and the appearance frequency. When a rare event occurs, the frequency of occurrence of a word indicating the event in the document at the position where the event occurred may increase. It is also conceivable that the content of the document at the position where the event occurred changes between the period around the time when the event occurred and the other periods. According to the similarity, it is possible to grasp the change in the content of the document at the position where the event has occurred. Since the rarity of the event is determined based on such appearance frequency and similarity, the rarity of the event can be determined according to the position where the event has occurred.
本発明に係る事象判断装置では、出現頻度計算手段は、予め設定されたリアクション語の第1グループの文書における出現頻度と、リアクション語の第2グループの文書における出現頻度とを計算して、判断手段は、リアクション語の第1グループ及び第2グループの文書における出現頻度を更に用いて、事象の希少性を判断してもよい。事象の希少性が高ければ、事象の発生した時刻及び位置における文書には、リアクション語が多く用いられることが考えられる。したがって、リアクション語の出現頻度を更に用いることにより、事象の希少性をより確実に判断することができる。 In the event determination device according to the present invention, the appearance frequency calculation means calculates and determines the appearance frequency of a preset reaction word in the first group of documents and the appearance frequency of the reaction word in the second group of documents. The means may further determine the rarity of the event by further using the appearance frequency of the reaction word in the first group and second group documents. If the rareness of an event is high, it is considered that many reaction words are used in the document at the time and position where the event occurred. Therefore, by further using the appearance frequency of the reaction word, it is possible to more reliably determine the rarity of the event.
本発明に係る事象判断装置では、第2グループ取得手段は、時刻情報により示される時刻に基づいて、第2グループの文書を取得してもよい。この場合、例えば第1グループの文書の直前の時刻が設定された文書を第2グループの文書とすることで、事象の発生前後における文書の変化が類似度により把握し易い。これにより、事象の希少性をより確実に判断することができる。 In the event determination apparatus according to the present invention, the second group acquisition unit may acquire the second group of documents based on the time indicated by the time information. In this case, for example, by setting a document in which the time immediately before the document of the first group is set as the document of the second group, it is easy to grasp the change of the document before and after the occurrence of the event based on the similarity. Thereby, the rarity of the event can be determined more reliably.
本発明では、事象の希少性を判断可能である。 In the present invention, the rarity of an event can be determined.
以下、図面と共に本発明に係る事象判断装置の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。 Hereinafter, embodiments of an event determination apparatus according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.
図1は、実施形態に係る事象判断装置1のブロック図である。事象判断装置1は、事象の希少性、つまりその事象がごく少ない確率で発生する事象であるか否かを判断(判定)するための装置である。希少性が高い事象であるには、普段その事象が発生しない場所で事象が発生する必要がある。本実施形態において、事象判断装置1の判断対象となる事象は、各ユーザにより作成され、Twitter(登録商標)等のマイクロブログサービスに投稿された文書、即ちマイクロブログから予め抽出された事象であって、特定のカテゴリに関連する特定カテゴリ関連事象である。マイクロブログとは、1行150文字程度の短い文章で記述されたブログである。以下では、特定カテゴリ関連事象は治安に関連する事象である治安関連事象であるとして説明する。 FIG. 1 is a block diagram of an event determination apparatus 1 according to the embodiment. The event determination device 1 is a device for determining (determining) whether or not an event is rare, that is, whether or not the event occurs with a very low probability. In order to be an event with high rarity, an event needs to occur in a place where the event does not normally occur. In the present embodiment, an event to be determined by the event determination device 1 is a document created by each user and posted to a microblog service such as Twitter (registered trademark), that is, an event extracted in advance from a microblog. Thus, it is a specific category related event related to a specific category. A microblog is a blog written in a short sentence of about 150 characters per line. In the following description, it is assumed that the specific category related event is a security related event that is an event related to security.
図1に示されるように、事象判断装置1は、単語取得部2、位置情報取得部3、時刻情報取得部4、第1グループ取得部5、第2グループ取得部6、類似度計算部7、出現頻度計算部8、判断部9、及び出力部10を備えている。事象判断装置1は、投稿データベース21、治安関連事象データベース22、リアクション語データベース23、及び希少治安関連事象データベース24のそれぞれとインターネット等のネットワークを介して接続されている。
As shown in FIG. 1, the event determination device 1 includes a
図2は、事象判断装置のハードウェア構成を示す図である。図2に示されるように、事象判断装置1は、1つ以上のCPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置等のハードウェア105を備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、図1の事象判断装置1の各機能要素による機能が発揮される。なお、事象判断装置1は複数台のコンピュータによるコンピュータシステムによって構成されていてもよい。以下、図1に示される各機能要素及び各データベースについて説明する。
FIG. 2 is a diagram illustrating a hardware configuration of the event determination apparatus. As shown in FIG. 2, the event determination device 1 communicates with one or more CPUs (Central Processing Units) 101, a main storage device such as a RAM (Random Access Memory) 102 and a ROM (Read Only Memory) 103. The
投稿データベース21は、位置及び時刻が設定された文書であって、各ユーザにより作成され、投稿された文書を記憶する装置である。図3に示されるように、投稿データベース21は、文書を示す文書IDと、文書と、文書が投稿された位置である投稿位置を示す投稿位置情報と、文書が投稿された時刻である投稿時刻を示す投稿時刻情報と、を対応付けて記憶している。投稿位置情報は、例えばポイントを示す緯度経度であってもよいし、メッシュを示すメッシュIDであってもよい。メッシュとは、地図上の領域を分割して得られる区画である。なお、投稿された文書にこのような投稿位置情報が付随していない場合、文書中の記載から投稿位置を設定してもよい。例えば、地名が予め登録された辞書を用意し、辞書とのキーワードマッチングにより文書中に地名が含まれていれば、当該地名を投稿位置に設定する。この場合、図3の「大門のあたり雨すごい!」という文書であれば、「大門」が投稿位置として設定される。
The
治安関連事象データベース22は、事象判断装置1の判断対象となる治安関連事象を示す情報を記憶する装置である。図4に示されるように、治安関連事象データベース22は、治安関連事象を示す治安関連事象IDと、治安関連事象を示す予め設定された単語である治安関連キーワードと、治安関連事象が発生した位置である発生位置を示す発生位置情報と、治安関連事象が発生した時刻である発生時刻を示す発生時刻情報と、を対応づけて記憶している。発生位置情報は、投稿位置情報と同様に、例えば緯度経度であってもよいし、メッシュIDであってもよい。
The security-
治安関連事象データベース22が記憶する治安関連事象をマイクロブログから抽出する方法は、特に限定されない。例えば、治安関連キーワードとのキーワードマッチングにより、投稿データベース21に記憶された複数の文書から治安関連事象を抽出してもよい。治安関連キーワードとして、例えば、爆破、火事、事故、テロ等が挙げられる。このような抽出処理は、例えば1時間ごとに行われ、治安関連事象がリアルタイムで抽出される。抽出の主体は、事象判断装置1であってもよいし、別の装置であってもよい。投稿データベース21に記憶された複数の文書から治安関連事象を抽出する場合、投稿データベース21に記憶された投稿位置及び投稿時刻をそれぞれ発生位置及び発生時刻として扱う。治安関連事象データベース22が記憶する内容は、例えば治安関連事象が抽出されるタイミングで更新される。図3に示されるように、投稿データベース21に記憶された「映画館Aで火事?」という文書は、治安関連キーワードである「火事」を含んでいる。したがって、この文書に基づき、「火事」という治安関連事象が抽出される。この文書の投稿位置及び投稿時刻は、治安関連事象の発生位置及び発生時刻として扱われ、図4に示されるように、これらの情報が治安関連キーワードの「火事」とともに、治安関連事象データベース22に記憶される。事象判断装置1は、例えば治安関連事象データベース22の内容が更新されるタイミングで治安関連事象の希少性を判断する処理を開始する。事象判断装置1は、治安関連事象データベース22に記憶された情報に基づき、治安関連事象の希少性を1件ずつ順に判断する。
The method for extracting the security related events stored in the security
リアクション語データベース23は、予め設定された複数のリアクション語からなるリアクション語集合を記憶する装置である。図5は、リアクション語データベース23が記憶しているデータの例を示す図である。リアクション語は、希少性の高い治安関連事象が発生した際に、その発生位置付近において投稿される文書に用いられる可能性が高い文字及び記号である。リアクション語は、例えば、実際に希少性の高い治安関連事象が発生した際に、その発生位置付近において投稿された文書を事後的に解析することにより設定することができる。
The
希少治安関連事象データベース24は、事象判断装置1により希少性が高いと判断された治安関連事象である希少治安関連事象を示す情報を記憶する装置である。図6に示されるように、希少治安関連事象データベース24は、希少治安関連事象を示す希少治安関連事象IDと、治安関連キーワードと、発生位置情報と、発生時刻情報と、を対応づけて記憶している。
The rare security-related
単語取得部2は、事象を示す予め設定された単語を取得する単語取得手段である。単語取得部2は、判断対象の治安関連事象を示す治安関連事象IDに対応付けられた治安関連キーワードを治安関連事象データベース22から取得する。単語取得部2は、取得した治安関連キーワードを出現頻度計算部8に送出する。
The
位置情報取得部3は、事象が発生した位置を示す位置情報を取得する位置情報取得手段である。位置情報取得部3は、判断対象の治安関連事象を示す治安関連事象IDに対応付けられた発生位置情報を治安関連事象データベース22から取得する。位置情報取得部3は、取得した発生位置情報を第1グループ取得部5及び第2グループ取得部6に送出する。
The position information acquisition unit 3 is position information acquisition means for acquiring position information indicating a position where an event has occurred. The location information acquisition unit 3 acquires the occurrence location information associated with the security related event ID indicating the security related event to be determined from the security related
時刻情報取得部4は、事象が発生した時刻を示す時刻情報を取得する時刻情報取得手段である。時刻情報取得部4は、判断対象の治安関連事象を示す治安関連事象IDに対応付けられた発生時刻情報を治安関連事象データベース22から取得する。時刻情報取得部4は、取得した発生時刻情報を第1グループ取得部5及び第2グループ取得部6に送出する。
The time
第1グループ取得部5は、位置情報により示される位置、及び時刻情報により示される時刻に基づいて、位置及び時刻が設定された文書から、第1グループの文書を取得する第1グループ取得手段である。第1グループ取得部5は、位置情報取得部3から発生位置情報を入力するとともに、時刻情報取得部4から発生時刻情報を入力する。第1グループ取得部5は、発生位置情報及び発生時刻情報を入力すると、発生位置情報により示される発生位置、及び発生時刻情報により示される発生時刻に基づいて、投稿データベース21から第1グループの文書を取得する。第1グループには、投稿データベースから治安関連事象を抽出する際に、抽出の根拠となった治安関連キーワードを含む文書が含まれることになる。
The first
第2グループ取得部6は、位置情報により示される位置に基づいて、第1グループの文書とは異なる第2グループの文書を取得する第2グループ取得手段である。第2グループ取得部6は、更に、発生時刻情報により示される発生時刻に基づいて、第2文書グループの文書を取得する。第2グループ取得部6は、位置情報取得部3から発生位置情報を入力するとともに、時刻情報取得部4から発生時刻情報を入力する。第2グループ取得部6は、発生位置情報及び発生時刻情報を入力すると、発生位置情報により示される発生位置、及び発生時刻情報により示される発生時刻に基づいて、投稿データベース21から第2グループの文書を取得する。
The second
図7は、第1グループ及び第2グループの文書を取得する方法を説明するための図である。図7の横軸は時刻を示している。第1グループは、例えば、発生位置に基づく位置範囲である発生位置範囲において、発生時刻を中心とする予め設定された長さの第1期間で投稿された文書から構成されている。発生位置範囲とは、例えば、発生位置情報がメッシュIDで示されている場合は、そのメッシュIDで示されるメッシュであり、発生位置情報が緯度経度で示されている場合は、その緯度経度で示されるポイントを中心とする予め設定された所定範囲(例えば、半径100mの範囲)である。第1期間は例えば2時間である。つまり、治安関連事象の発生時刻が18時である場合、第1期間は17時から19時までとなり、第1グループはこの第1期間に発生位置範囲で投稿された文書により構成される。第1グループの文書は、治安関連事象によりその内容に変化が生じたか否かの判断対象となる文書である。したがって、第1期間は、希少性の高い治安関連事象が発生したか否かの判断対象となる期間(判定時)と言える。また、第1グループの文書は、判定時投稿群と言える。 FIG. 7 is a diagram for explaining a method for acquiring the documents of the first group and the second group. The horizontal axis in FIG. 7 indicates time. The first group includes, for example, documents posted in a first period having a preset length around the occurrence time in the occurrence position range that is a position range based on the occurrence position. For example, when the generation position information is indicated by a mesh ID, the generation position range is a mesh indicated by the mesh ID. When the generation position information is indicated by a latitude and longitude, It is a predetermined range (for example, a range having a radius of 100 m) that is set in advance around the indicated point. The first period is, for example, 2 hours. That is, when the occurrence time of the security related event is 18:00, the first period is from 17:00 to 19:00, and the first group is composed of documents posted in the occurrence position range in the first period. The first group of documents is a document that is a target of determination as to whether or not the contents have changed due to a security-related event. Therefore, it can be said that the first period is a period (at the time of determination) that is a target for determining whether or not a highly rare security-related event has occurred. The first group of documents can be said to be a posting group at the time of determination.
第2グループは、例えば、発生位置範囲において、第1期間よりも前(過去)の第2期間に投稿された文書から構成されている。つまり、治安関連事象の発生時刻が18時である場合、第2期間は17時よりも前の期間となり、第2グループはこの第2期間に発生位置範囲で投稿された文書のうち、予め設定された所定数のランダムに選ばれた文書又は全ての文書により構成される。第2期間は、希少性の高い治安関連事象が発生したか否かの判断対象となっていない期間(非判定時)と言える。また、第2グループの文書は、非判定時投稿群と言える。第1グループ及び第2グループの文書は、いずれも同じ位置範囲で投稿された文書(POI(Point of Interest)関連投稿)である。 The second group includes, for example, documents posted in the second period before (the past) the first period in the generation position range. That is, when the occurrence time of the security related event is 18:00, the second period is a period before 17:00, and the second group is set in advance among the documents posted in the occurrence position range in the second period. A predetermined number of randomly selected documents or all documents. The second period can be said to be a period (when not determined) that is not subject to determination as to whether or not a highly rare security-related event has occurred. The second group of documents can be said to be a non-determination posting group. The documents of the first group and the second group are both documents (POI (Point of Interest) related posts) posted in the same position range.
類似度計算部7は、第1グループの文書と第2グループの文書との類似性を示す類似度を計算する類似度計算手段である。類似度計算部7は、第1グループ取得部5から第1グループの文書を入力し、第2グループ取得部6から第2グループの文書を入力し、単語取得部2から治安関連キーワードを入力する。類似度計算部7は、取得した第1グループの文書と第2グループの文書との類似性を示す類似度を周知の手法により計算する。類似度計算部7は、計算した類似度を判断部9に送出する。
The similarity calculator 7 is a similarity calculator that calculates a similarity indicating the similarity between the first group of documents and the second group of documents. The similarity calculation unit 7 inputs a first group document from the first
類似度計算部7は、例えば、第1グループの文書を1つの特徴ベクトルに変換するとともに、第2グループの文書を1つの特徴ベクトルに変換し、これら2つの特徴ベクトル同士のcos類似度を第1グループの文書と第2グループの文書との類似度として計算してもよい。特徴ベクトルは、文書に出現する単語の出現頻度を要素としたベクトルであり、例えば、各グループの文書をbag-of-wordsで表現したものである。なお、各単語は、例えば、形態素解析により抽出された形態素とすることができる。特徴ベクトルの要素の値、即ち、単語の出現頻度は、出現数(出現度数)としてもよいし、単語の出現数に正規化処理(例えば、それぞれの単語の出現数を全単語の出現数で割る処理)を施したもの(出現分布)としてもよい。正規化処理を行うことで単純な単語の出現数に左右されずに類似度を算出することができる。cos類似度が1に近いほど第1グループの文書と第2グループの文書とは類似しており、cos類似度が0に近いほど第1グループの文書と第2グループの文書とは類似していない。また、類似度計算部7は、第1グループの文書に出現する単語により構成される単語集合と、第2グループの文書に出現する単語により構成される単語集合との類似度を示すJaccard係数を、第1グループの文書と第2グループの文書との類似度として計算してもよい。Jaccard係数が1に近いほど第1グループの文書と第2グループの文書とは類似しており、Jaccard係数が0に近いほど第1グループの文書と第2グループの文書とは類似していない。 The similarity calculation unit 7 converts, for example, the first group of documents into one feature vector, converts the second group of documents into one feature vector, and determines the cos similarity between the two feature vectors. You may calculate as a similarity degree of a document of 1 group, and a document of a 2nd group. The feature vector is a vector having the frequency of occurrence of words appearing in the document as an element. For example, each group of documents is represented by bag-of-words. Each word can be, for example, a morpheme extracted by morphological analysis. The element value of the feature vector, that is, the word appearance frequency may be the number of appearances (appearance frequency), or normalized to the number of word appearances (for example, the number of occurrences of each word is the number of occurrences of all words). It is good also as what gave (processing to divide) (appearance distribution). By performing the normalization process, the similarity can be calculated regardless of the number of simple words appearing. The closer the cos similarity is to 1, the more similar the documents in the first group and the second group, and the closer the cos similarity is to 0, the more similar the documents in the first group and the second group are. Absent. Further, the similarity calculation unit 7 calculates a Jaccard coefficient indicating the similarity between a word set composed of words appearing in the first group of documents and a word set composed of words appearing in the second group of documents. The similarity between the first group of documents and the second group of documents may be calculated. The closer the Jaccard coefficient is to 1, the more similar the documents of the first group and the second group, and the closer the Jaccard coefficient is to 0, the more similar the documents of the first group and the second group are.
出現頻度計算部8は、第1グループの文書における事象を示す予め設定された単語の出現頻度を計算する出現頻度計算手段である。更に、出現頻度計算部8は、予め設定されたリアクション語の第1グループの文書における出現頻度と、リアクション語の第2グループの文書における出現頻度とを計算する。出現頻度計算部8は、第1グループ取得部5から第1グループの文書を入力し、第2グループ取得部6から第2グループの文書を入力し、リアクション語データベース23からリアクション語を入力し、単語取得部2から治安関連キーワードを入力する。
The appearance
出現頻度計算部8は、第1グループの文書における治安関連キーワードの出現頻度、第1グループの文書におけるリアクション語の出現頻度、及び第2グループの文書におけるリアクション語の出現頻度を計算する。例えば、出現頻度計算部8は、第1グループの文書における治安関連キーワードの出現数を第1グループの文書の全単語の出現数で割った値を、第1グループの文書における治安関連キーワードの出現頻度として計算する。また、出現頻度計算部8は、第1グループの文書における複数のリアクション語の出現数の総数を第1グループの文書の全単語の出現数で割った値を、第1グループの文書におけるリアクション語の出現頻度として計算する。更に、出現頻度計算部8は、第2グループの文書における複数のリアクション語の出現数の総数を第2グループの文書の全単語の出現数で割った値を、第2グループの文書におけるリアクション語の出現頻度として計算する。なお、各グループの文書の全単語の出現数は、例えば、形態素解析により抽出された形態素の総数とすることができる。出現頻度計算部8は、計算したこれらの出現頻度を判断部9に送出する。
The appearance
判断部9は、類似度と出現頻度とに基づき、事象の希少性を判断する判断手段である。判断部9は、リアクション語の第1グループ及び第2グループの文書における出現頻度を更に用いて、事象の希少性を判断する。判断部9は、第1グループの文書と第2グループの文書との類似度を類似度計算部7から入力し、第1グループの文書における治安関連キーワードの出現頻度、第1グループの文書におけるリアクション語の出現頻度、及び、第2グループの文書におけるリアクション語の出現頻度を出現頻度計算部8から入力する。判断部9は、例えば、希少度Rを下記式(1)により求める。ここで、simを第1グループの文書と第2グループの文書との類似度、pkを第1グループの文書における治安関連キーワードの出現頻度、p1を第1グループの文書におけるリアクション語の出現頻度(ただし、第1グループの文書におけるリアクション語の出現頻度が0の場合、p1を1)、p2を第2グループの文書におけるリアクション語の出現頻度(ただし、第2グループの文書におけるリアクション語の出現頻度が0の場合、p2を1)、α、β、γを正の数である任意のパラメータとする。なお、第1グループの文書には必ず治安関連キーワードが存在するため、pk>0である。
R=α(1/sim)・β(p1/p2)・γpk (1)
The determination unit 9 is a determination unit that determines the rarity of an event based on the similarity and the appearance frequency. The determination unit 9 determines the rarity of the event by further using the appearance frequency of the reaction word in the first group and second group documents. The determination unit 9 inputs the similarity between the first group document and the second group document from the similarity calculation unit 7, the appearance frequency of security related keywords in the first group document, and the reaction in the first group document. The appearance frequency of the word and the appearance frequency of the reaction word in the second group of documents are input from the appearance
R = α (1 / sim) · β (p1 / p2) · γpk (1)
判断部9は、上記式(1)により求められた希少度Rに基づいて治安関連事象の希少性を判断する。判断部9は、例えば、希少度Rが予め定められた閾値よりも大きければ、治安関連事象の希少性が高いと判断し、希少度Rが予め定められた閾値以下であれば、治安関連事象の希少性が低いと判断する。判断部9は、判断結果を出力部10に送出する。
The determination unit 9 determines the rarity of the security related event based on the rarity R obtained by the above formula (1). For example, the determination unit 9 determines that the rarity of the security-related event is high if the rarity R is greater than a predetermined threshold, and if the rarity R is equal to or less than the predetermined threshold, the security-related event Is judged to be low. The determination unit 9 sends the determination result to the
出力部10は、判断手段の判断結果を出力する出力手段である。出力部10は、判断部9から判断結果を入力する。出力部10は、希少性が高いという判断結果を入力すると、単語取得部2から治安関連キーワードを取得し、位置情報取得部3から発生位置情報を取得し、時刻情報取得部4から発生時刻情報を取得する。出力部10は、取得した治安関連キーワード、発生位置情報、及び発生時刻情報を希少治安関連事象データベース24に記憶させる。出力部10は、希少性が低いという判断結果を入力すると、これらの処理を行わない。なお、出力部10は、これ以外の手段で判断結果を出力してもよく、例えば、希少治安関連事象の発生位置に対応する位置に発生時刻と治安関連キーワードを表示させた地図を表示してもよい。
The
図8は、事象判断装置の動作を示すフローチャートである。図8に示されるように、事象判断装置1は、まず単語取得部2、位置情報取得部3、及び時刻情報取得部4により、治安関連キーワード、発生位置情報、及び発生時刻情報を治安関連事象データベース22から取得する(S11)。続いて、事象判断装置1は、第1グループ取得部5及び第2グループ取得部6により、第1グループの文書及び第2グループの文書を投稿データベース21から取得する(S12)。続いて、事象判断装置1は、類似度計算部7により、第1グループの文書と第2グループの文書との類似度を計算する(S13)。続いて、事象判断装置1は、出現頻度計算部8により、第1グループの文書における治安関連キーワードの出現頻度、第1グループの文書におけるリアクション語の出現頻度、及び第2グループの文書におけるリアクション語の出現頻度を計算する(S14)。続いて、事象判断装置1は、判断部9により、治安関連事象の希少性を判断する(S15)。事象判断装置1は、出力部10により、判断部9の判断結果を出力する(S16)。
FIG. 8 is a flowchart showing the operation of the event determination apparatus. As shown in FIG. 8, the event determination device 1 uses the
以上説明したように、事象判断装置1は、治安関連事象の発生位置範囲において、発生時刻を中心とした、発生時刻の前後周辺の期間である第1期間に投稿された文書を第1グループの文書として取得するとともに、第1期間よりも前の期間である第2期間に投稿された文書を第2グループの文書として取得する。事象判断装置1は、第1グループの文書と第2グループの文書との類似度を計算するとともに、第1グループの文書における治安関連キーワードの出現頻度を計算する。希少性の高い治安関連事象が発生した場合、その発生位置範囲において投稿される文書における治安関連キーワードの出現頻度が上がること、及び、発生位置範囲において投稿される文書の内容が第1期間と第2期間とで変化することが考えられる。文書の内容が大きく変化するほど、類似度は低下する。したがって、類似度によれば、発生位置範囲における文書の内容の変化の程度を把握することができる。事象判断装置1は、このような類似度及び出現頻度に基づき治安関連事象の希少性を判断するので、発生位置に応じた治安関連事象の希少性を判断することができる。また、類似度及び出現頻度の2つのパラメータを用いることにより、いずれか1つのパラメータを用いる場合よりも確実に治安関連事象の希少性を判断することができる。 As described above, the event determination apparatus 1 is configured so that documents posted in the first period, which is a period around the occurrence time, centered on the occurrence time in the occurrence position range of the security related event, The document is acquired as a document, and the document posted in the second period that is a period before the first period is acquired as a document of the second group. The event determination device 1 calculates the similarity between the first group of documents and the second group of documents, and calculates the appearance frequency of security related keywords in the first group of documents. When a security-related event with high rarity occurs, the frequency of appearance of security-related keywords in the document posted in the occurrence position range increases, and the contents of the document posted in the occurrence position range are the first period and the first It can be considered that the period changes in two periods. The similarity decreases as the content of the document changes greatly. Therefore, according to the similarity, it is possible to grasp the degree of change in the content of the document in the generation position range. Since the event determination device 1 determines the rarity of security related events based on such similarity and appearance frequency, it is possible to determine the rarity of security related events according to the occurrence position. In addition, by using two parameters of similarity and appearance frequency, the rarity of security related events can be determined more reliably than when any one of the parameters is used.
また、事象判断装置1は、リアクション語の第1グループの文書における出現頻度と、リアクション語の第2グループの文書における出現頻度とを計算し、リアクション語の第2グループの文書における出現頻度に対する、リアクション語の第1グループの文書における出現頻度の比(=p1/p2)を更に用いて、治安関連事象の希少性を判断する。事象判断装置1は、具体的には、β(p1/p2)で示されるリアクション係数を更に用いて、治安関連事象の希少性を判断する。治安関連事象の希少性が高ければ、第1期間に発生位置範囲において投稿される文書には、第2期間に発生位置範囲において投稿される文書よりも、リアクション語が多く用いられ、その結果、リアクション係数が1よりも大きくなることが考えられる。したがって、事象判断装置1は、リアクション係数を更に用いることにより、治安関連事象の希少性をより確実に判断することができる。 Further, the event determination apparatus 1 calculates the appearance frequency of the reaction word in the first group of documents and the appearance frequency of the reaction word in the second group of documents, The rarity of security related events is determined by further using the ratio of appearance frequencies (= p1 / p2) of documents in the first group of reaction words. Specifically, the event determination apparatus 1 further determines the rarity of security related events by further using a reaction coefficient represented by β (p1 / p2). If the rareness of security related events is high, more reaction words are used for documents posted in the occurrence position range in the first period than in documents posted in the occurrence position range in the second period. It is conceivable that the reaction coefficient becomes larger than 1. Therefore, the event determination apparatus 1 can more reliably determine the scarcity of security related events by further using the reaction coefficient.
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、各請求項に記載した要旨を変更しない範囲で変形し、または他のものに適用したものであってもよい。 As mentioned above, although embodiment of this invention was described, this invention is not limited to the said embodiment, It deform | transforms in the range which does not change the summary described in each claim, or applied to another thing. There may be.
例えば、判断部9は、リアクション係数を用いずに、事象の希少性を判断してもよい。この場合、判断部9は、希少度Rを下記式(2)により求める。
R=α(1/sim)・γpk (2)
For example, the determination unit 9 may determine the rarity of the event without using the reaction coefficient. In this case, the determination part 9 calculates | requires the rarity R by following formula (2).
R = α (1 / sim) · γpk (2)
また、第1グループ及び第2グループの文書の数が類似度の計算精度を保つため必要な数となるように、第1期間が設定されてもよい。また、第1グループは、1つの文書(即ち、治安関連キーワードを含む文書)のみで構成されていてもよく、同様に、第2グループは、1つの文書のみで構成されていてもよい。また、第1グループの文書及び第2グルーブの文書は、マイクロブログサービスに投稿された文書に限らず、位置及び時刻が設定された文書であればよい。また、第2グループの文書は、文書に設定された位置が、判断対象の治安関連事象の発生位置範囲に含まれる文書であって、第1グループの文書とは異なる文書であればよい。例えば、第2グループの文書は、第1グループの文書よりも前(過去)に投稿された文書に限らず、第1グループの文書よりも後に投稿された文書であってもよい。また、第1グループの文書の数は、第2グループの文書の数と一致していなくてもよい。また、事象判断装置1の判断対象となる事象は、治安関連事象に限られない。 Further, the first period may be set so that the number of documents in the first group and the second group becomes a number necessary for maintaining the accuracy of similarity calculation. Further, the first group may be composed of only one document (that is, a document including security related keywords), and similarly, the second group may be composed of only one document. In addition, the first group document and the second group document are not limited to documents posted to the microblog service, and may be any document in which a position and a time are set. The document of the second group may be a document in which the position set in the document is included in the range of the occurrence position of the security-related event to be determined and is different from the document of the first group. For example, the document of the second group is not limited to the document posted before (past) the document of the first group, and may be a document posted after the document of the first group. In addition, the number of documents in the first group may not match the number of documents in the second group. Moreover, the event which becomes the judgment object of the event judgment apparatus 1 is not restricted to a security related event.
1…事象判断装置、2…単語取得部、3…位置情報取得部、4…時刻情報取得部、5…第1グループ取得部、6…第2グループ取得部、7…類似度計算部、8…出現頻度計算部、9…判断部、10…出力部。 DESCRIPTION OF SYMBOLS 1 ... Event judgment apparatus, 2 ... Word acquisition part, 3 ... Position information acquisition part, 4 ... Time information acquisition part, 5 ... 1st group acquisition part, 6 ... 2nd group acquisition part, 7 ... Similarity calculation part, 8 ... appearance frequency calculation part, 9 ... judgment part, 10 ... output part.
Claims (3)
前記事象を示す予め設定された単語を取得する単語取得手段と、
前記事象が発生した位置を示す位置情報を取得する位置情報取得手段と、
前記事象が発生した時刻を示す時刻情報を取得する時刻情報取得手段と、
前記位置情報により示される位置、及び前記時刻情報により示される時刻に基づいて、位置及び時刻が設定された文書から、第1グループの文書を取得する第1グループ取得手段と、
前記位置情報により示される位置に基づいて、前記第1グループの文書とは異なる第2グループの文書を取得する第2グループ取得手段と、
前記第1グループの文書と前記第2グループの文書との類似性を示す類似度を計算する類似度計算手段と、
前記第1グループの文書における前記単語の出現頻度を計算する出現頻度計算手段と、
前記類似度と前記出現頻度とに基づき、前記事象の希少性を判断する判断手段と、
前記判断手段の判断結果を出力する出力手段と、
を備える、事象判断装置。 An event judgment device for judging the rarity of an event,
Word acquisition means for acquiring a preset word indicating the event;
Position information acquisition means for acquiring position information indicating a position where the event has occurred;
Time information acquisition means for acquiring time information indicating the time when the event occurred;
First group acquisition means for acquiring a first group of documents from a document in which the position and time are set based on the position indicated by the position information and the time indicated by the time information;
Second group acquisition means for acquiring a second group of documents different from the first group of documents based on the position indicated by the position information;
Similarity calculation means for calculating a similarity indicating the similarity between the first group of documents and the second group of documents;
Appearance frequency calculating means for calculating the appearance frequency of the word in the first group of documents;
Determination means for determining the rarity of the event based on the similarity and the appearance frequency;
Output means for outputting a judgment result of the judgment means;
An event determination device comprising:
前記判断手段は、前記リアクション語の前記第1グループ及び前記第2グループの文書における出現頻度を更に用いて、前記事象の希少性を判断する、請求項1に記載の事象判断装置。 The appearance frequency calculating means calculates an appearance frequency of a preset reaction word in the first group of documents and an appearance frequency of the reaction word in the second group of documents,
The event determination apparatus according to claim 1, wherein the determination unit determines the rarity of the event by further using the appearance frequency of the reaction word in the documents of the first group and the second group.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016095938A JP2017204169A (en) | 2016-05-12 | 2016-05-12 | Event determination device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016095938A JP2017204169A (en) | 2016-05-12 | 2016-05-12 | Event determination device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017204169A true JP2017204169A (en) | 2017-11-16 |
Family
ID=60322258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016095938A Pending JP2017204169A (en) | 2016-05-12 | 2016-05-12 | Event determination device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017204169A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019171803A1 (en) * | 2018-03-09 | 2019-09-12 | オムロン株式会社 | Image search device, image search method, electronic equipment, and control method |
WO2022269994A1 (en) * | 2021-06-22 | 2022-12-29 | シャープ株式会社 | Information assessment device, information assessment method, and program |
-
2016
- 2016-05-12 JP JP2016095938A patent/JP2017204169A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019171803A1 (en) * | 2018-03-09 | 2019-09-12 | オムロン株式会社 | Image search device, image search method, electronic equipment, and control method |
US11275780B2 (en) | 2018-03-09 | 2022-03-15 | Omron Corporation | Image search device, image search method, electronic device and control method therefor |
WO2022269994A1 (en) * | 2021-06-22 | 2022-12-29 | シャープ株式会社 | Information assessment device, information assessment method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443274B (en) | Abnormality detection method, abnormality detection device, computer device, and storage medium | |
US9047868B1 (en) | Language model data collection | |
CN107204960B (en) | Webpage identification method and device and server | |
CN105183761B (en) | Sensitive word replacing method and device | |
US9697819B2 (en) | Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis | |
US11755841B2 (en) | Method for updating a knowledge base of a sentiment analysis system | |
KR101541306B1 (en) | Computer enabled method of important keyword extraction, server performing the same and storage media storing the same | |
KR20190087949A (en) | Method and apparatus for generating information | |
KR102248843B1 (en) | Method for updating contact information in callee electronic device, and the electronic device | |
WO2018186235A1 (en) | Place popularity estimation system | |
CN111373386A (en) | Similarity index value calculation device, similarity search device, and similarity index value calculation program | |
CN110895587B (en) | Method and device for determining target user | |
JP2017204169A (en) | Event determination device | |
CN115204889A (en) | Text processing method and device, computer equipment and storage medium | |
CN107004167B (en) | Publication recruitment normalization and deduplication | |
WO2019095569A1 (en) | Financial analysis method based on financial and economic event on microblog, application server, and computer readable storage medium | |
US9092409B2 (en) | Smart scoring and filtering of user-annotated geocoded datasets | |
US20160196266A1 (en) | Inferring seniority based on canonical titles | |
US10423650B1 (en) | System and method for identifying predictive keywords based on generalized eigenvector ranks | |
CN114064859A (en) | Knowledge extraction method, apparatus, device, medium, and program product | |
KR20220024251A (en) | Method and apparatus for building event library, electronic device, and computer-readable medium | |
CN113191777A (en) | Risk identification method and device | |
JP6060039B2 (en) | Specific point name determination device, specific point name determination method, and specific point name determination program | |
JP2017215803A (en) | Feature word extraction device | |
US10296990B2 (en) | Verifying compliance of a land parcel to an approved usage |