JP7291100B2 - Anomaly/change estimation method, program and device using multiple posted time-series data - Google Patents

Anomaly/change estimation method, program and device using multiple posted time-series data Download PDF

Info

Publication number
JP7291100B2
JP7291100B2 JP2020081982A JP2020081982A JP7291100B2 JP 7291100 B2 JP7291100 B2 JP 7291100B2 JP 2020081982 A JP2020081982 A JP 2020081982A JP 2020081982 A JP2020081982 A JP 2020081982A JP 7291100 B2 JP7291100 B2 JP 7291100B2
Authority
JP
Japan
Prior art keywords
event
series data
abnormality
time
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020081982A
Other languages
Japanese (ja)
Other versions
JP2021177284A (en
Inventor
直人 武田
勇太朗 美嶋
敦宣 南川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020081982A priority Critical patent/JP7291100B2/en
Publication of JP2021177284A publication Critical patent/JP2021177284A/en
Application granted granted Critical
Publication of JP7291100B2 publication Critical patent/JP7291100B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、所定の事象に係る時系列データから、当該事象の異常又は変化を推定する技術に関する。 The present invention relates to a technique for estimating an abnormality or change in a given event from time-series data relating to the event.

近年、SNS(Social Networking Service)やミニブログ(mini-blog)等のネットワーキングサービスにおける投稿の情報から、様々な現象の発生を検出する技術が大きな注目を集めている。 In recent years, a great deal of attention has been focused on techniques for detecting the occurrence of various phenomena from information posted on networking services such as SNSs (Social Networking Services) and mini-blogs.

例えば、非特許文献1には、Twitter(登録商標)のストリームデータを用いて、イベント検出を行う技術が開示されている。この技術においては具体的に、Twitter(登録商標)のトレンド機能を利用して現在話題となっているハッシュタグを抽出し、それらに関するツイートを取得して、その出現回数に応じたベクトルを作成し、さらにクラスタリング処理を実施している。次いで、ここで得られたクラスタの大きさによってランキングを行い、現在話題となっているイベントとそのツイートとを決定するのである。 For example, Non-Patent Document 1 discloses a technique of detecting an event using Twitter (registered trademark) stream data. Specifically, this technology uses the trending function of Twitter (registered trademark) to extract hashtags that are currently hot topics, acquire tweets related to them, and create a vector according to the number of times they appear. , and a clustering process is performed. Next, ranking is performed according to the size of the cluster obtained here, and the event and its tweet that are currently being talked about are determined.

また、特許文献1は、電子地図上において混雑しているエリアと、そのエリアの混雑に関連する情報とを併せて提示する情報提示装置を開示している。具体的にはこの装置においては、(a)現在の人口動態と通常時の人口動態とのずれを標準偏差により算出したスコアと、(b)現在の人口動態と通常時の人口動態との倍率を算出したスコアとの和を混雑度指標とし、当該混雑度指標が閾値以上の場合に、人口動態異常が発生したとしている。 Further, Patent Literature 1 discloses an information presentation device that presents both a congested area on an electronic map and information related to the congestion in that area. Specifically, in this device, (a) a score calculated from the standard deviation of the difference between the current demographics and the normal demographics, and (b) the magnification of the current demographics and the normal demographics is used as a congestion degree index, and when the congestion degree index is equal to or greater than a threshold value, it is assumed that a demographic abnormality has occurred.

また、この情報提示装置においては、人口動態異常を検出したメッシュの周辺に存在するPOI(Point of Interest)の名称が本文に含まれたツイートを、POI毎に収集し、通常よりも投稿数の上昇しているPOIを含んだツイート群にフィルタリング処理を実施している。次いで、「(イベント名)が開催」や「(イベント名)に参加」といったような特定のパターンとマッチした部分文字列を抽出して、人口動態異常の原因となったイベント名称の表示を行っているのである。 In addition, in this information presentation device, tweets containing the names of POIs (Points of Interest) existing around the mesh where the demographic anomaly is detected are collected for each POI, and the number of posts is higher than usual. Filtering processing is performed on tweets containing rising POIs. Next, it extracts substrings that match specific patterns such as "(event name) is held" and "(event name) participates", and displays the name of the event that caused the demographic anomaly. -ing

特開2015-225128号公報JP 2015-225128 A

Mateusz Fedoryszak, Brent Frederick, Vijay Rajaram and Changtao Zhong, "Real-time Event Detection on Social Data Streams", KDD 2019: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp.2774-2782, <URL: https://doi.org/10.1145/3292500.3330689>, 2019年Mateusz Fedoryszak, Brent Frederick, Vijay Rajaram and Changtao Zhong, "Real-time Event Detection on Social Data Streams", KDD 2019: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp.2774-2782, <URL : https://doi.org/10.1145/3292500.3330689>, 2019

しかしながら、上述したような従来技術では依然、イベント等の現象の発生や異常について誤った判断をしてしまう場合も少なくないことが問題となっている。 However, the conventional technology as described above still poses a problem that there are still many cases in which an erroneous judgment is made regarding the occurrence of a phenomenon such as an event or an abnormality.

例えば、非特許文献1に記載された技術では、Twitter(登録商標)に係るデータのみに頼ってイベントの発生を推定しているので、実際には発生していないイベントを発生しているものとして検出してしまう可能性もある。1つの分かりやすい例として、人気アーティストのライブ開催に関し、その事前告知を受けて当該ライブに関連するツイートが大量に投稿された状況を、実際に当該ライブが行われイベント会場で混雑が発生している状況であると判断してしまうこともあり得るのである。 For example, in the technology described in Non-Patent Document 1, the occurrence of an event is estimated by relying only on data related to Twitter (registered trademark). It may be detected. One easy-to-understand example is the situation where a large number of tweets related to the live performance of a popular artist were posted in advance after receiving an advance notice of the live performance, and when the live event was actually held and the event venue was crowded. It is possible that you may judge that you are in a situation where

この点、特許文献1に記載された技術では、現実の人口動態を考慮しており、実際に混雑の発生したメッシュに対し投稿による意味づけを行っているので、実際には人が集まっていない状況に対し、人口動態の異常を伴うイベントの発生を紐づけてしまう事態は回避可能となっている。 In this regard, the technology described in Patent Document 1 takes into consideration the actual demographics and assigns meaning to the mesh that is actually congested by posting. It is possible to avoid associating events with demographic anomalies to situations.

しかしながら、この特許文献1に記載された技術において、上記の意味づけに用いられる手法は、単純なパターンマッチングにとどまっている。そのため、ツイート数の多い話題に結果が引っ張られがちとなり、異常発生の原因推定における精度がどうしても劣化してしまう。例えば、野球観戦による人口動態の異常が発生している状況において、同日に人気アーティストによるライブ開催の事前告知が行われた場合に、当該人口動態の異常をライブ開催によるものと誤って推定してしまう可能性が生じる。またさらに言えば、人口動態の異常発生の判定処理において一律の閾値を設定しているので、例えばイベントの規模の違いによっては誤検出や検出漏れの生じてしまう問題も抱えている。 However, in the technique described in this patent document 1, the method used for the above meaning is limited to simple pattern matching. As a result, the results tend to be influenced by topics with a large number of tweets, and the accuracy in estimating the cause of anomalies inevitably deteriorates. For example, in a situation where demographic abnormalities are occurring due to watching a baseball game, if a popular artist announces that a live performance will be held on the same day, the demographic abnormalities may be erroneously assumed to be due to the live performance. There is a possibility that it will be lost. Furthermore, since a uniform threshold value is set in the process of judging the occurrence of abnormalities in demographics, there is the problem of erroneous detection or omission of detection due to, for example, differences in the scale of events.

そこで、本発明は、所定の事象における異常又は変化に係る情報を、より精度良く推定することの可能な異常又は変化推定方法、プログラム及び装置を提供することを目的とする。 SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide an abnormality or change estimation method, a program, and an apparatus capable of more accurately estimating information related to an abnormality or change in a given event.

本発明によれば、所定の事象に係る事象時系列データと、当該事象の異常又は変化に関係し得る複数のトピック情報に係る複数の投稿群それぞれについての複数の投稿時系列データとから、当該事象時系列データ及び当該投稿時系列データの合成又は連結に係る特徴量を生成するステップと、
当該特徴量を構築済みの異常又は変化推定モデルに入力し、当該異常又は変化推定モデルからの出力に基づいて、当該事象の異常又は変化に係る情報を決定するステップと
を含むことを特徴とする、コンピュータにおける異常又は変化推定方法が提供される。
According to the present invention, from event time-series data relating to a predetermined event and a plurality of post time-series data for each of a plurality of posting groups relating to a plurality of topic information that may be related to an abnormality or change in the event, a step of generating a feature amount related to synthesizing or concatenating the event time-series data and the posted time-series data;
and inputting the feature amount into a built abnormality or change estimation model, and determining information related to the abnormality or change of the event based on the output from the abnormality or change estimation model. , an anomaly or change estimation method in a computer is provided.

この本発明による異常又は変化推定方法の一実施形態として、当該事象時系列データ及び当該投稿時系列データから、オートエンコーダ(auto-encoder)を用いて当該特徴量を生成することも好ましい。 As an embodiment of the abnormality or change estimation method according to the present invention, it is also preferable to generate the feature amount using an auto-encoder from the event time-series data and the posted time-series data.

また、当該オートエンコーダは、全結合型オートエンコーダ、再帰型ニューラルネットワーク(RNN,Recurrent Neural Networks)・オートエンコーダ、又は長・短期記憶(Long-Short Term Memory,LSTM)オートエンコーダであることも好ましい。 It is also preferred that the autoencoder is a fully connected autoencoder, a recurrent neural network (RNN) autoencoder, or a long-short term memory (LSTM) autoencoder.

さらに、上記のオートエンコーダを用いる実施形態において、当該事象時系列データ及び複数の投稿時系列データの全体から、当該オートエンコーダを用いて当該特徴量を生成することも好ましい。または、複数の投稿時系列データの各々と当該事象時系列データとの組である複数の組のそれぞれから、当該オートエンコーダを用いて複数の特徴量部分を生成し、これら複数の特徴量部分から当該特徴量を生成することも好ましい。 Furthermore, in the above-described embodiment using an autoencoder, it is also preferable to use the autoencoder to generate the feature amount from the event time-series data and the plurality of posted time-series data as a whole. Alternatively, from each of a plurality of sets of each of the plurality of posted time-series data and the event time-series data, using the autoencoder to generate a plurality of feature amount portions, and from these plurality of feature amount portions It is also preferable to generate the feature amount.

また、上記のオートエンコーダを用いる実施形態において、当該事象は所定のエリアに係る事象であって、当該エリアを含む所定範囲内に当該事象の異常又は変化に関係し得る地点が存在しており、
当該事象時系列データ及び当該投稿時系列データ、並びに、当該エリアと当該地点との離隔度合いに係る情報、及び/又は、当該地点の種別情報から、当該オートエンコーダを用いて当該特徴量を生成することも好ましい。
Further, in the embodiment using the above autoencoder, the event is an event related to a predetermined area, and there is a point that can be related to the abnormality or change of the event within a predetermined range including the area,
The feature amount is generated using the autoencoder from the event time-series data and the posted time-series data, information on the degree of separation between the area and the point, and/or type information on the point. is also preferred.

さらに、上記のオートエンコーダを用いる実施形態において、
(a)当該事象時系列データ及び当該投稿時系列データと、
(b)所定期間での当該投稿の数における当該投稿の数の統計値からの乖離度合い、当該投稿の投稿者の属性情報、及び/又は、当該投稿に添付された添付データに係る情報と
から、当該オートエンコーダを用いて当該特徴量を生成することも好ましい。
Further, in the above autoencoder embodiments,
(a) the event time-series data and the posted time-series data;
(b) from the degree of divergence from the statistical value of the number of posts in the number of posts in a predetermined period, the attribute information of the poster of the post, and/or information related to the attached data attached to the post; , it is also preferable to generate the feature using the autoencoder.

また、本発明による異常又は変化推定方法における複数のトピック情報は、当該投稿の投稿者の属性情報に係る1つの範囲と1つのトピック種別との組を含むことも好ましい。 Also, the plurality of topic information in the anomaly or change estimation method according to the present invention preferably include a set of one range and one topic type related to the attribute information of the contributor of the post.

さらに、本発明による異常又は変化推定方法における当該事象の異常又は変化に係る情報は、
(a)当該事象において異常若しくは変化が発生したか否かに係る情報、及び/又は、
(b)当該事象において発生した異常若しくは変化に関係すると推定される当該トピック情報
を含むことも好ましい。
Furthermore, the information related to the abnormality or change of the event in the abnormality or change estimation method according to the present invention is
(a) information as to whether an anomaly or change occurred in the event; and/or
(b) It is also preferable to include the topic information presumed to be related to the anomaly or change that occurred in the event.

本発明によれば、また、
所定の事象に係る事象時系列データと、当該事象の異常又は変化に関係し得る複数のトピック情報に係る複数の投稿群それぞれについての複数の投稿時系列データとから、当該事象時系列データ及び当該投稿時系列データの合成又は連結に係る特徴量を生成する特徴量生成手段と、
当該特徴量を構築済みの異常又は変化推定モデルに入力し、当該異常又は変化推定モデルからの出力に基づいて、当該事象の異常又は変化に係る情報を決定する異常又は変化情報決定手段と
してコンピュータを機能させる異常又は変化推定プログラムが提供される。
According to the present invention, also
From event time-series data related to a predetermined event and multiple posting time-series data for each of multiple posting groups related to multiple topic information that may be related to the abnormality or change of the event, the event time-series data and the relevant a feature quantity generating means for generating a feature quantity relating to synthesizing or concatenating posted time-series data;
A computer is used as an anomaly or change information determination means for inputting the feature quantity into a built anomaly or change estimation model and determining information related to the anomaly or change of the event based on the output from the anomaly or change estimation model. A functioning anomaly or change estimation program is provided.

本発明によれば、さらに、
所定の事象に係る事象時系列データと、当該事象の異常又は変化に関係し得る複数のトピック情報に係る複数の投稿群それぞれについての複数の投稿時系列データとから、当該事象時系列データ及び当該投稿時系列データの合成又は連結に係る特徴量を生成する特徴量生成手段と、
当該特徴量を構築済みの異常又は変化推定モデルに入力し、当該異常又は変化推定モデルからの出力に基づいて、当該事象の異常又は変化に係る情報を決定する異常又は変化情報決定手段と
を有する異常又は変化推定装置が提供される。
According to the present invention, furthermore,
From event time-series data related to a predetermined event and multiple posting time-series data for each of multiple posting groups related to multiple topic information that may be related to the abnormality or change of the event, the event time-series data and the relevant a feature quantity generating means for generating a feature quantity relating to synthesizing or concatenating posted time-series data;
an abnormality or change information determining means for inputting the feature quantity into a constructed abnormality or change estimation model and determining information related to the abnormality or change of the event based on the output from the abnormality or change estimation model; An anomaly or change estimator is provided.

本発明の異常又は変化推定方法、プログラム及び装置によれば、所定の事象における異常又は変化に係る情報を、より精度良く推定することができる。 According to the abnormality or change estimation method, program, and device of the present invention, it is possible to more accurately estimate information related to an abnormality or change in a predetermined event.

本発明に係る異常・変化推定モデルを用いて異常・変化推定処理を実施する異常・変化推定装置の一実施形態を示す模式図である。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a schematic diagram showing an embodiment of an abnormality/change estimating device that performs an abnormality/change estimating process using an abnormality/change estimating model according to the present invention; 投稿-トピック紐づけ処理を説明するためのテーブルを含む模式図であるFIG. 10 is a schematic diagram including a table for explaining post-topic linking processing; 本発明に係るオートエンコーダについての他の実施形態を説明するための模式図である。FIG. 4 is a schematic diagram for explaining another embodiment of an autoencoder according to the present invention; 本発明に係る合成特徴量の生成処理についての他の実施形態を説明するための模式図である。FIG. 10 is a schematic diagram for explaining another embodiment of the synthetic feature amount generation processing according to the present invention;

以下、本発明の実施形態について、図面を用いて詳細に説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

[異常・変化推定方法,装置]
図1は、本発明に係る異常・変化推定モデルを用いて異常・変化推定処理を実施する異常・変化推定装置の一実施形態を示す模式図である。
[Abnormality/change estimation method and device]
FIG. 1 is a schematic diagram showing an embodiment of an abnormality/change estimation device that performs abnormality/change estimation processing using an abnormality/change estimation model according to the present invention.

図1に示した本実施形態の異常・変化推定装置2は、
(A)全結合オートエンコーダ(auto-encoder)11Fと、
(B)異常・変化推定モデル12と
を備えており、取り込んだ所定の事象に係る事象時系列データに基づいて、当該事象における異常又は変化(以後「異常・変化」とも記載)の発生を推定可能な装置となっている。
The abnormality/change estimation device 2 of this embodiment shown in FIG.
(A) a fully coupled auto-encoder 11F;
(B) An anomaly/change estimation model 12, which estimates the occurrence of an anomaly or change (hereinafter also referred to as "abnormality/change") in the event based on event time-series data related to a predetermined event that has been captured. It is a possible device.

このうち上記(A)の全結合オートエンコーダ11Fは、
(a1)当該事象に係る事象時系列データ、例えば(人の集合離散との事象に係る)人口動態時系列データと、
(a2)当該事象の異常・変化に関係し得る複数の「トピック情報」に係る複数の「投稿」群それぞれについての複数の投稿時系列データと
から、当該事象時系列データ及び当該投稿時系列データの合成に係る特徴量である「合成特徴量」を生成する。
Of these, the above (A) fully coupled autoencoder 11F is
(a1) Event time-series data related to the event, for example, demographic time-series data (related to the event with the discrete set of people),
(a2) The event time-series data and the posted time-series data from the multiple post time-series data for each of the multiple "post" groups related to the multiple "topic information" that may be related to the abnormality/change of the event A "combined feature amount" is generated which is a feature amount related to the synthesis of .

ここで、上記(a1)の人口動態時系列データは例えば、予め設定された地域メッシュ(所定のエリア)における所定期間の単位時間毎の携帯端末(のユーザ)数のデータとすることができる。この場合、携帯端末数は、当該地域メッシュに係る基地局と通信接続した携帯端末の情報を収集可能な通信管理サーバから取得してもよい。または、ユーザの携帯端末に搭載されたGPS(Global Positioning System)による測位を行うアプリから、その旨の許諾を得た上で当該携帯端末の位置情報を取得し、当該位置情報に基づいて当該携帯端末数を導出することも可能である。 Here, the demographic time-series data of (a1) above can be, for example, data of the number of (users of) mobile terminals per unit time for a predetermined period in a preset regional mesh (predetermined area). In this case, the number of mobile terminals may be acquired from a communication management server capable of collecting information on mobile terminals connected for communication with the base station associated with the regional mesh. Alternatively, after obtaining permission to do so, obtain location information of the mobile terminal from an application installed in the user's mobile terminal that performs positioning using the GPS (Global Positioning System), and based on the location information It is also possible to derive the number of terminals.

また、上記(a2)における複数の「トピック情報」に係る複数の「投稿」群は、例えば、SNS(Social Networking Service)やミニブログ(mini-blog)等のネットワーキングサービスにおける投稿のうち、当該事象(例えば人口動態)の異常・変化に関係し得る所定のトピック、例えば"スポーツ観戦"、"ライブ"や、"電車遅延"等の紐づけられた「投稿」の集合とすることができる。 In addition, the plurality of "posts" groups related to the plurality of "topic information" in (a2) above is, for example, among the posts in networking services such as SNS (Social Networking Service) and mini-blogs, the event concerned It can be a set of linked "posts" such as "watching sports", "live", "train delay", etc., that can be related to anomalies/changes (for example, demographics).

ちなみに「投稿」群は例えば、事業者の管理する投稿管理サーバから、公開された検索用API(Application Programing Interface)を用いて収集することができる。また、投稿とトピックとの紐づけ処理については、後に図2を用いて詳細に説明する。 Incidentally, the group of “posts” can be collected from, for example, a post management server managed by an operator using a public search API (Application Programming Interface). Also, the process of associating a post with a topic will be described later in detail with reference to FIG.

上記(A)の全結合オートエンコーダ11Fは、このような事象時系列データ及び「トピック情報」毎の複数の投稿時系列データに対し特徴量合成処理を行って、その中間層から「合成特徴量」を出力することが可能となっているのである。 The above (A) fully-connected autoencoder 11F performs feature amount synthesis processing on such event time-series data and a plurality of posted time-series data for each "topic information", and from the intermediate layer, "synthesized feature amount ” can be output.

一方、上記(B)の異常・変化推定モデル12は、生成された「合成特徴量」を入力として、当該事象における「異常・変化に係る情報」を決定し出力する。ここで、この「異常・変化に係る情報」は、例えば、
(b1)当該事象(例えば人口動態)において異常・変化が発生したか否かに係る情報、例えば、ある日のある時間帯において当該地域メッシュでの人口(携帯端末ユーザ数)が所定以上の増大若しくは減少を示した旨の情報、及び
(b2)当該事象(例えば人口動態)において発生した異常・変化(例えばある日のある時間帯における人口の所定以上の増大若しくは減少)に関係すると推定される「トピック情報」、例えば"ライブ"が開催された旨の情報
のうちのいずれか一方又は両方を含む情報とすることができる。
On the other hand, the anomaly/change estimating model 12 of (B) receives the generated "combined feature quantity" as an input, and determines and outputs "information related to anomaly/change" in the event. Here, this "information related to anomaly/change" is, for example,
(b1) Information regarding whether or not an abnormality or change has occurred in the event (e.g. demographics), for example, the population (the number of mobile terminal users) in the area mesh in a certain time period on a certain day has increased by a predetermined amount or more or information to the effect that it showed a decrease, and (b2) presumed to be related to an abnormality or change that occurred in the event (e.g. demographics) (e.g., an increase or decrease above a predetermined level in a certain time period of a certain day) It can be information that includes either or both of "topic information", for example, information that a "live" was held.

このように、異常・変化推定装置2によれば、所定の事象に係る事象時系列データだけでもなく、ただ1つのトピックに係る投稿時系列データだけでもなく、当該異常・変化の原因・要因候補となる複数の「トピック情報」に係る投稿時系列データをも取り込んで特徴量を生成するので、当該特徴量に基づくことによって当該事象の「異常・変化に係る情報」をより精度良く推定することが可能となる。 In this way, according to the abnormality/change estimation device 2, not only event time-series data related to a predetermined event, but also post time-series data related to a single topic, cause/factor candidate of the abnormality/change Since the post time-series data related to multiple "topic information" is also captured to generate the feature amount, it is possible to more accurately estimate the "information related to anomalies and changes" of the event based on the feature amount. becomes possible.

また特に、当該異常・変化の原因・要因候補となる複数の「トピック情報」に係る投稿時系列データを勘案した特徴量を用いているので、「異常・変化に係る情報」の一態様とはなるが、当該事象の異常・変化の原因・要因が何であるかに係る情報、例えば、"ライブ"が開催されたために人口の所定以上の増大が生じた旨の情報を、より精度良く推定することも可能となる。言い換えると、候補となる複数のトピックの推移を勘案することによって、当該事象の異常・変化における原因・要因を特定することも叶うのである。 In particular, since it uses feature amounts that take into consideration the posted time-series data related to multiple "topic information" that are candidates for the cause or factor of the abnormality or change, one aspect of "information related to the abnormality or change" is used. However, it is possible to more accurately estimate information related to the causes and factors of the abnormalities and changes in the event, such as information that the population has increased more than a predetermined amount due to the holding of the "live". is also possible. In other words, by taking into consideration the transition of multiple candidate topics, it is also possible to identify the cause/factor of the anomaly/change of the phenomenon.

例えば、多種多様なイベントに対応し得るPOIとしての「多目的スタジアム」周辺の地域メッシュで、"野球観戦"による人口動態異常が発生した状況において、人気アーティストによるライブ開催の事前告知が同時に行われた場合を考える。このような場合であっても、異常・変化推定装置2によれば、人口動態推移と"野球観戦"推移との相関も、人口動態推移と"ライブ"推移との相関も共に学習済みとしたモデルを活用するので、より高い精度で、人口動態異常の原因・要因は"野球観戦"である旨の正しい推定を行うことも可能となるのである。 For example, in the area mesh around the "multi-purpose stadium" as a POI that can handle a wide variety of events, in a situation where demographic anomalies occurred due to "watching baseball", advance announcements of live performances by popular artists were made at the same time. Consider the case. Even in such a case, according to the abnormality/change estimation device 2, both the correlation between the demographic transition and the "watching baseball" transition and the correlation between the demographic transition and the "live" transition have already been learned. Since the model is used, it is possible to accurately estimate that the cause/factor of demographic anomalies is "watching baseball games" with higher accuracy.

さらに、異常・変化推定装置2においては、従来技術のように、事象時系列データのデータ値に対して一律の閾値を設定するようなことに頼らずに、当該事象における異常・変化の検出を可能としている。したがって、「トピック情報」に係る投稿を行う投稿者の属性によっては、そもそも投稿の絶対数が少ない場合も生じるが、そのような場合であっても、異常・変化の原因・要因を、各時系列データの推移パターンの関連性・類似性を勘案してより好適に推定することが可能となる。 Furthermore, in the abnormality/change estimating device 2, the abnormality/change in the event can be detected without relying on setting a uniform threshold value for the data values of the event time-series data as in the prior art. It is possible. Therefore, depending on the attributes of the contributor who posts related to "topic information", there may be cases where the absolute number of posts is small in the first place. It is possible to perform more suitable estimation in consideration of the relevance/similarity of transition patterns of series data.

ちなみに、異常・変化推定装置2における特徴量の生成においては、上述したようにオートエンコーダを用いて「合成特徴量」を生成する形態に限定されるものではない。例えば、上記(a1)の事象時系列データと、上記(a2)の複数の投稿時系列データとを連結して特徴量とし、異常・変化推定モデル12は、この特徴量を入力として当該事象の「異常・変化に係る情報」を出力するようなモデルとして構築されてもよい。 Incidentally, the generation of the feature amount in the abnormality/change estimation device 2 is not limited to the form of generating the "synthetic feature amount" using the autoencoder as described above. For example, the event time-series data of (a1) above and the plurality of posted time-series data of (a2) are connected to form a feature amount, and the abnormality/change estimation model 12 uses this feature amount as an input to determine the event. It may be constructed as a model that outputs "information related to abnormality/change".

しかしながら、異常・変化推定モデル12へ入力する特徴量として、上述したような各時系列データの特徴が作用し合い融合した(それ故、結果的に次元の圧縮された)「合成特徴量」を採用することによって、より少ない計算処理負担の下、より精度良く、当該事象における「異常・変化に係る情報」を推定することも可能となるのである。またさらに言えば、事象時系列データの特徴と各投稿時系列データの特徴との相関を反映させた「合成特徴量」を生成することによって、事象との間の相関性が高い「トピック情報」を特定可能ともなっているのである。 However, as the feature amount to be input to the abnormality/change estimation model 12, the "composite feature amount" in which the features of each time-series data as described above are interacted and fused (thus, the dimension is compressed as a result) is used. By adopting it, it becomes possible to estimate "information related to abnormalities and changes" in the event with higher accuracy under a smaller computational load. Furthermore, by generating a "synthetic feature amount" that reflects the correlation between the feature of the event time-series data and the feature of each posted time-series data, "topic information" that has a high correlation with the event can also be specified.

なお、このような「合成特徴量」を生成するオートエンコーダは、図1に示した全結合型オートエンコーダに限定されるものではない。例えば後に図3を用いて詳細に説明するが、再帰型ニューラルネットワーク(RNN,Recurrent Neural Networks)・オートエンコーダ、又は長・短期記憶(Long-Short Term Memory,LSTM)オートエンコーダが、この「合成特徴量」の生成に使用されてもよいのである。 Note that the autoencoder that generates such a "synthetic feature amount" is not limited to the fully coupled autoencoder shown in FIG. For example, a recurrent neural network (RNN, Recurrent Neural Networks) autoencoder or a long-short term memory (LSTM) autoencoder, which will be described in detail later with reference to FIG. It may be used to generate "amount".

また当然とはなるが、異常・変化推定装置2(における異常・変化推定方法)の適用可能なケースは、上述したように事象として人口動態を捉えるものに限定されるものではない。実際、それについての時系列データを取得可能な事象であって何らかの原因・要因によって変動し得る事象であれば、種々様々なものが、異常・変化推定装置2によって取り扱い可能となる。 Of course, the applicable case of the abnormality/change estimation device 2 (the abnormality/change estimation method in it) is not limited to the demographic movement as an event as described above. In fact, the anomaly/change estimating device 2 can handle a wide variety of events as long as they are events for which time-series data can be acquired and which can fluctuate due to some cause or factor.

例えば、異常・変化推定装置2(における異常・変化推定方法)の適用可能なケースとして以下の(a)~(e)を挙げることができる。
(a)ある世帯や地域での電力使用量における異常(急増又は急減)の原因を、複数の「トピック情報」に係る投稿時系列データを用いて、すなわち複数のトピック推移によって推定する。
(b)ある基地局でのネットワークトラフィック量における異常(急増又は急減)の原因を、複数の「トピック情報」に係る投稿時系列データを用いて、すなわち複数のトピック推移によって推定する。
For example, the following (a) to (e) can be given as applicable cases of (an abnormality/change estimation method in) the abnormality/change estimation device 2 .
(a) Estimate the cause of an abnormality (rapid increase or sudden decrease) in electricity usage in a certain household or region using posted time-series data relating to a plurality of "topic information", that is, by a plurality of topic transitions.
(b) Estimate the cause of an abnormality (rapid increase or sudden decrease) in the amount of network traffic at a certain base station using posted time-series data relating to a plurality of "topic information", that is, by a plurality of topic transitions.

(c)ある企業の株価における所定以上の変化(騰貴又は下落)の原因を、複数の「トピック情報」に係る投稿時系列データを用いて、すなわち複数のトピック推移によって推定する。
(d)ある政党の支持率や(選挙における)獲得議席数の変化(増加又は低下)の原因を、複数の「トピック情報」に係る投稿時系列データを用いて、すなわち複数のトピック推移によって推定する。
(e)ある地方公共団体による行政サービスの満足度を示す指標における変化(向上又は低下)の原因を、複数の「トピック情報」についての該当住民による投稿に係る投稿時系列データを用いて、すなわち該当住民における複数のトピック推移によって推定する。
(c) Estimate the cause of a predetermined change (rising or falling) in a company's stock price using posted time-series data relating to a plurality of "topic information", that is, based on a plurality of topic transitions.
(d) Estimate the cause of the change (increase or decrease) in the approval rating or the number of seats won (in elections) for a certain political party using the time-series data posted on multiple "topic information", that is, by the transition of multiple topics. do.
(e) The cause of change (improvement or decline) in the index indicating the satisfaction level of administrative services by a certain local government is determined using the posting time-series data related to posts by the relevant residents on multiple "topic information", i.e. It is estimated by multiple topic transitions in the corresponding residents.

ちなみに、上記(e)の指標としては例えば、「行政サービスに対する市民満足度」<URL: https://s-kantan.jp/city-ushiku-ibaraki-u/offer/userLoginDispNon.action?tempSeq=11892&accessFrom=>や、「市版SDGs指数」<URL: https://prtimes.jp/main/html/rd/p/000000011.000000266.html>等が挙げられる。 By the way, as an indicator of (e) above, for example, "Citizen satisfaction with administrative services" <URL: https://s-kantan.jp/city-ushiku-ibaraki-u/offer/userLoginDispNon.action?tempSeq=11892&accessFrom => and “city version SDGs index” <URL: https://prtimes.jp/main/html/rd/p/000000011.000000266.html>.

<投稿へのトピック紐づけ>
ここで、上述した「投稿」に対する「トピック情報」の紐づけ処理について、図2を用いて説明を行う。図2は、当該紐づけ処理を説明するためのテーブルを含む模式図である。
<Associating topics with posts>
Here, the process of linking the "topic information" to the "post" described above will be described with reference to FIG. FIG. 2 is a schematic diagram including a table for explaining the linking process.

図2に示した例によれば、2019年12月1日の正午あたりにおいて、xxx駅周辺の地域メッシュにおいて人口動態異常(例えば携帯端末数の増大)が発生しており、また、同時間帯の投稿群が、事業者の投稿管理サーバ3から取得されている。 According to the example shown in Figure 2, around noon on December 1, 2019, a demographic anomaly (for example, an increase in the number of mobile terminals) occurred in the regional grid around xxx station, and are obtained from the post management server 3 of the business operator.

次いで、これらの投稿群に含まれる各投稿に対し又は当該投稿群に対し、投稿-トピック紐づけ処理を実施し、当該投稿(群)に関係すると推察されるトピック(トピック情報)を付与しているのである。図2の例では、取得された投稿に対し、"電車遅延"とのトピックが付与されている。 Next, each post included in these post groups or the post group is subjected to post-topic linking processing, and a topic (topic information) that is inferred to be related to the post (group) is assigned. There is. In the example of FIG. 2, the topic "train delay" is assigned to the acquired post.

このようなトピック情報の付与を可能にする投稿-トピック紐づけ処理としては、例えば以下の(a)~(f)が挙げられる。
(a)予めトピック毎に単語を対応付けた単語辞書を用意しておき、取得された投稿群において所定以上の頻度で出現している単語を抽出し、当該単語の対応付けられたトピックを、付与するトピックとする。
(b)予めトピック毎にハッシュタグを対応付けたハッシュタグ辞書を用意しておき、取得された投稿群において所定以上の頻度で付されているハッシュタグを抽出し、当該ハッシュタグの対応付けられたトピックを、付与するトピックとする。
(c)大規模コーパスを用いて、LDA(Latent Dirichlet Allocation)やDTM(Dynamic Topic Model)等の、投稿からトピックを推定するトピックモデルを構築しておき、取得された投稿を当該トピックモデルへ入力して、付与すべきトピックを出力させる。
(d)上記(c)とは異なり、複数の投稿の結合系からトピック構成比を推定するトピックモデルを予め構築しておき、あるタイムスロット(例えば所定の1時間)に投稿された全ての投稿を結合した上で当該トピックモデルへ入力して、出力されたトピック構成比に基づき、所定以上の又は最大の構成比を有するトピックを、付与するトピックとする。
The following (a) to (f) are examples of post-topic linking processing that enables such topic information to be added.
(a) Preparing a word dictionary in which words are associated with each topic in advance, extracting words appearing at a frequency equal to or higher than a predetermined frequency in the obtained post group, and extracting the topic associated with the word Topic to be assigned.
(b) Preparing a hash tag dictionary in which hashtags are associated with each topic in advance, extracting hashtags attached with a frequency equal to or higher than a predetermined frequency in the acquired post group, The topic is the topic to be assigned.
(c) Using a large-scale corpus, build a topic model such as LDA (Latent Dirichlet Allocation) or DTM (Dynamic Topic Model) that infers topics from posts, and input the acquired posts into the topic model. to output the topic to be assigned.
(d) Different from (c) above, all posts posted in a certain time slot (for example, a predetermined hour) are created by building a topic model in advance that estimates the topic composition ratio from the combined system of multiple posts. are combined and input to the topic model, and based on the output topic composition ratio, a topic having a composition ratio equal to or greater than a predetermined composition ratio or the maximum composition ratio is set as a topic to be assigned.

(e)大規模コーパスを用いて、word2vec、doc2vecや、fastText等の単語ベクトル化手段によってベクトル化された投稿からトピックを推定するニューラルネットワーク(NN,Neural Networks)トピックモデルを構築しておき、取得された投稿を当該NNトピックモデルへ入力して、付与すべきトピックを出力させる。ここで、学習データにおける正解トピックは、当該投稿に付与されたラベルとし、当該NNトピックモデルの出力層は、正解に用いた全てのラベルと同数のニューロンを有する層に設定されることも好ましい。
(f)事前学習無しにトピック推定を行う場合(教師無し学習でモデルを設定する場合)として、実際に投稿された投稿群でトピックモデルを構築し、例えば「単語「電車」と単語「遅延」がともに含まれる投稿に係るトピックは"電車遅延"とする」といったようなルールを予め設けて、各投稿のトピックを同定した上で、構成比が所定以上の又は最大となるトピックを、付与するトピックとしてもよい。
(e) Using a large-scale corpus, build and acquire a neural network (NN) topic model that estimates topics from posts vectorized by word vectorization means such as word2vec, doc2vec, and fastText. The posted post is input to the NN topic model, and the topic to be assigned is output. Here, it is also preferable that the correct topic in the learning data is the label assigned to the post, and the output layer of the NN topic model is set to a layer having the same number of neurons as all the labels used for the correct answer.
(f) When estimating a topic without prior learning (when setting a model by unsupervised learning), build a topic model with a group of posts actually posted, for example, the word "train" and the word "delay" Topic related to posts that include both is set to "train delay"", identify the topic of each post, and assign a topic with a predetermined composition ratio or more or the maximum. It can be a topic.

[オートエンコーダ構成,モデル構成]
以下、本発明に係るオートエンコーダ及び異常・変化推定モデルの構成について詳細に説明を行う。
[Autoencoder configuration, model configuration]
The configuration of the autoencoder and the abnormality/change estimation model according to the present invention will be described in detail below.

同じく図1によれば、全結合オートエンコーダ11Fは、
(a)入力層、(b)中間層、及び(c)出力層
の3層からなる全結合型のニューラルネットワーク・アルゴリズムで構成されており、入力したデータを、そのまま出力するように学習した結果得られた上記(b)の中間層から、当該データの特徴量を抽出可能な符号器となっている。ちなみに、図1では、上記(b)の中間層は、分かり易い態様として1つの層から成っているが、当然これに限定されるものではない。この中間層を複数の層で構成し、そのうちの1つの層を、「合成特徴量」を取り出す層に設定してもよい。
Also according to FIG. 1, the fully coupled autoencoder 11F includes:
It consists of a fully-connected neural network algorithm consisting of three layers: (a) an input layer, (b) an intermediate layer, and (c) an output layer. The encoder is capable of extracting the feature quantity of the data from the obtained intermediate layer (b). Incidentally, in FIG. 1, the intermediate layer (b) is composed of one layer as an easy-to-understand aspect, but it is, of course, not limited to this. This intermediate layer may be composed of a plurality of layers, one of which may be set as a layer for extracting the "combined feature amount".

具体的に、全結合オートエンコーダ11Fは本実施形態において、上記(a)の入力層及び上記(c)の出力層の各々に対し、
(ア)「事象時系列データ」、図1では人口動態時系列データと、
(イ)複数の「投稿時系列データ」、図1では"スポーツ観戦"時系列データ、"ライブ"時系列データ、"電車遅延"時系列データ、・・・と
を連結した同一の「連結データ群」を用いて教師有り学習を行い、上記(b)の中間層から、この「連結データ群」を特徴づける量としての「合成特徴量」を取り出す、といった特徴量抽出処理を実施する。
Specifically, in this embodiment, the fully-connected autoencoder 11F, for each of the above (a) input layer and above (c) output layer,
(a) “Event time-series data”, which in Figure 1 is demographic time-series data,
(b) The same "consolidated data" that connects multiple "posted time-series data", such as "watching sports" time-series data, "live" time-series data, "train delay" time-series data in Fig. 1, ... Supervised learning is performed using the "group", and feature quantity extraction processing is performed to extract the "composite feature quantity" as the quantity that characterizes the "connected data group" from the intermediate layer of (b) above.

ここで、「事象時系列データ」は例えば、対象となる地域メッシュにおける所定のデータ収集期間(例えば1日間)の単位時間毎(例えば15分毎)の「事象に係る量」の多次元データ(例えば、96(=24×60/15)次元のデータ)とすることができる。ここで「事象に係る量」は、例えば人口動態時系列データであれば携帯端末(のユーザ)数としてもよい。 Here, "event time-series data" is, for example, multi-dimensional data of "quantity related to events" for each unit time (for example, every 15 minutes) during a predetermined data collection period (for example, one day) in the target regional mesh ( For example, it can be 96 (=24×60/15) dimensional data). Here, the "quantity related to the event" may be, for example, the number of (users of) mobile terminals in the case of demographic time-series data.

一方、「投稿時系列データ」は例えば、所定のデータ収集期間(例えば1日間)の単位時間毎(例えば60分毎)の「投稿に係る量」の多次元データ(例えば、24(=24×60/60)次元のデータ)とすることができる。ここで「投稿に係る量」は、(紐づけられたトピック毎の)投稿本数でもよく、または投稿出現確率値とすることもでき、その他、投稿がなされた度合いを表す量ならば種々の値が「投稿に係る量」として採用可能である。また、各「投稿時系列データ」の「投稿に係る量」は、(例えば0~1の値に)規格化されたものとすることもできる。勿論規格化せず、収集された投稿に係るデータのスケール情報をそのまま残しておくことも可能である。 On the other hand, "post time-series data" is, for example, multi-dimensional data (e.g., 24 (=24 × 60/60) dimensional data). Here, the "quantity of posts" may be the number of posts (for each linked topic), or it may be a post appearance probability value. can be adopted as the “quantity related to posting”. Also, the “amount related to posting” of each “posted time-series data” can be standardized (for example, to a value between 0 and 1). Of course, it is also possible to leave the scale information of the collected post-related data as it is without standardization.

さらに、「事象時系列データ」に係るデータ収集期間、及び複数のトピック毎の「投稿時系列データ」に係る複数のデータ収集期間は全て、同一期間であることがより好ましく、少なくとも互いに大部分が重畳する期間とすることが好ましい。例えば「事象時系列データ」及び複数の「投稿時系列データ」のデータ収集期間をいずれも同一日(例えば2019年12月1日の1日間)とするのがよいのである。これにより、両時系列データを同期させることができ、両時系列データの時間変化における現実に即した相関関係を、生成する「合成特徴量」に反映させることも可能となる。 Furthermore, it is more preferable that the data collection period for "event time-series data" and the multiple data collection periods for "post time-series data" for each of multiple topics are all the same period, and at least most of them are It is preferable to set it as the period which overlaps. For example, it is preferable to set the data collection period for both "event time-series data" and multiple "posted time-series data" to be the same day (for example, one day on December 1, 2019). As a result, both time-series data can be synchronized, and it is also possible to reflect a realistic correlation in the temporal change of both time-series data in the generated "synthetic feature amount".

また、単位時間(分割タイムスロット)については、「事象時系列データ」と「投稿時系列データ」との間で異なっていてもよい。例えばAPIリクエストの制限等の事情によって、「投稿時系列データ」に係る単位時間は、「事象時系列データ」に係る単位時間よりも長い時間に設定するのが好ましい場合も存在するのである。一方で、複数のトピック毎の「投稿時系列データ」の間では、同一の単位時間(例えば1時間)に揃えることが好ましい。 Also, the unit time (divided time slot) may be different between the "event time-series data" and the "posted time-series data". For example, there are cases where it is preferable to set the unit time related to "posted time-series data" to a longer time than the unit time related to "event time-series data" due to circumstances such as restrictions on API requests. On the other hand, it is preferable to align the same unit time (for example, one hour) among the "post time-series data" for each of a plurality of topics.

このように、データ収集期間や単位時間を揃えることによって、例えば、"スポーツ観戦"のイベントが発生したある1日での人口動態時系列データの推移と、トピック"スポーツ観戦"に係る投稿の盛り上がり具合の同日での推移との相関を、合成特徴量に含めて学習することができるので、例えば人気アーティストによる"ライブ"開催の事前告知が同日に行われた場合でも、高い精度で、"スポーツ観戦"による人口動態異常を推定可能となることが期待されるのである。 In this way, by aligning the data collection period and unit time, for example, changes in demographics time-series data in a single day when an event of "watching sports" occurred, and the excitement of posts related to the topic "watching sports" It is possible to learn the correlation with the transition of the condition on the same day by including it in the synthetic feature value. It is expected that it will be possible to estimate demographic anomalies due to "watching".

さらに、上記(a)の入力層及び上記(c)の出力層の各々に対して用いられる上述した「連結データ群」は、例えば「事象時系列データ」が96次元のデータであって、トピック数が5つで、さらに各「投稿時系列データ」が24次元のデータであるならば、216(=96+5*24)次元のデータとなる。またこの場合、上記(a)の入力層及び上記(c)の出力層の各々のニューロン数も、同数の216とすることができる。また勿論、上記(b)の中間層のニューロン数(合成特徴量としての次元数)は、この216未満の数、例えば54、に設定されるのである。 Furthermore, the above-mentioned "connected data group" used for each of the above (a) input layer and the above (c) output layer is, for example, the "event time series data" is 96-dimensional data, and the topic If the number is 5 and each piece of "posted time-series data" is 24-dimensional data, it becomes 216 (=96+5*24)-dimensional data. In this case, the number of neurons in each of the input layer (a) and the output layer (c) can also be 216, the same number. Of course, the number of neurons in the intermediate layer (b) above (the number of dimensions as a synthetic feature amount) is set to a number less than 216, for example, 54.

ここで変更態様として、対象となる事象が所定の地域メッシュに係る事象であって、当該地域メッシュを含む所定範囲内に当該事象の異常・変化に関係し得る地点としてのPOI(例えばイベント会場)が1つ又は複数存在している場合に、入出力層に用いられる上述した「連結データ群」は、上記(ア)の「事象時系列データ」、及び上記(イ)の複数の「投稿時系列データ」に加え、
(ウ)当該地域メッシュ(の例えば中心)と(各)POIとの離隔度合いに係る情報(例えば距離)、及び
(エ)(各)POIの種別情報(例えば予め分類・設定しておいた、"イベント会場"や"多目的グラウンド"等のような(各)POIのカテゴリ)
のうちのいずれか一方又は両方を連結したデータとすることも好ましい。
Here, as a modification mode, the target event is an event related to a predetermined regional mesh, and the POI (for example, event venue) as a point that can be related to the abnormality or change of the event within a predetermined range including the regional mesh When there are one or more of In addition to series data,
(C) Information (e.g., distance) regarding the degree of separation between (e.g., the center of) the relevant regional mesh and (each) POI, and (D) (Each) POI type information (e.g., previously classified and set Categories of (each) POI such as "event venue" or "multipurpose ground" etc.)
It is also preferable to use data in which either one or both of the above are linked.

これにより、当該事象の異常・変化に関係するPOIに係る情報も「合成特徴量」に盛り込むことができ、この後POIの存在も考慮した、より精度の高い推定処理を実施することも可能となる。例えば、上記(ウ)の離隔度合い情報は、POIが推定結果に影響する度合いを示す指標とも考えられ、また、上記(エ)の種別情報は、例えば人口動態異常を引き起こすような発生イベントの種別についてはPOIのカテゴリによって限定される可能性が高いことから、両者共に「合成特徴量」に反映させることも好ましいのである。 As a result, information related to POIs related to abnormalities and changes in the event can be included in the "combined feature amount", and it is possible to carry out more accurate estimation processing after taking into account the existence of POIs. Become. For example, the distance degree information (c) above can be considered as an index indicating the degree of influence of the POI on the estimation result, and the type information (d) above is the type of event that causes demographic anomaly, for example. is likely to be limited by the POI category, it is also preferable to reflect both of them in the "synthetic feature".

また更なる変更態様として、上述した「連結データ群」は、上記(ア)の「事象時系列データ」、及び上記(イ)の複数の「投稿時系列データ」に加え、または、さらにそれに上記(ウ)及び/又は上記(エ)を加えたものに対し、
(オ)所定期間(例えば1日間)での投稿の数における当該投稿の数の統計値(例えば1年間における1日当たりの投稿数の平均値)からの乖離度合い(例えば差や偏差値等)
(カ)取得された投稿の投稿者の属性情報(例えば性別や年齢層等)、及び
(キ)取得された投稿に添付された添付データ(例えば画像)に係る情報(例えば当該画像の特徴量)
のうちの少なくとも1つを連結したデータとすることも好ましい。
As a further modification, the above-mentioned "connected data group" is, in addition to the above (a) the "event time series data" and the above (b) a plurality of "posted time series data", or in addition to the above (C) and / or for those with the above (D) added,
(e) The degree of divergence (e.g., difference, deviation, etc.) from the statistical value of the number of posts in a predetermined period (e.g., one day) (e.g., the average number of posts per day for one year);
(f) attribute information of the poster of the acquired post (e.g., gender, age group, etc.); )
It is also preferable to use concatenated data of at least one of.

ここで、上記(オ)の乖離度合いは、当該事象に異常が生じた場合には通常よりも大きくなるものと考えられ、それを特徴量に組み込むことは、異常推定の精度向上の点で有効となり得る。 Here, the degree of divergence in (e) above is considered to be larger than usual when an abnormality occurs in the event, and incorporating it into the feature value is effective in improving the accuracy of abnormality estimation. can be.

また、上記(カ)の属性情報は、例えばあるライブには若年層が参加しやすい傾向にあり、また、あるスポーツ観戦には男性が参加しやすい傾向にある等、当該事象の異常・変化に対しその原因・要因によっては属性が影響することは十分に考えられ、それを特徴量に組み込むことも推定精度の向上に資するものとなり得る。なお、投稿者の属性情報は、例えば投稿された文章を機械学習等の公知の解析方法で解析することにより、当該文章から推定することが可能である。 In addition, the attribute information in (f) above is based on the fact that, for example, young people tend to participate in certain live performances, and men tend to participate more easily in spectating sports. On the other hand, it is fully conceivable that the attribute will have an effect depending on the cause or factor, and incorporating it into the feature amount can also contribute to the improvement of the estimation accuracy. It should be noted that the attribute information of the poster can be estimated from the posted text, for example, by analyzing the posted text using a known analysis method such as machine learning.

さらに、上記(キ)の添付データ情報は、例えば画像等の添付された情報が、投稿の内容、ひいては紐づけられたトピックに関係し得ることが考えられ、同じくこれを特徴量に組み込むことも、異常推定の精度向上の点で有効となり得る。なお、添付データに係る情報としての画像特徴量は、例えばCNN(Convolutional Neural Networks)を用いたYOLO(You Look Only Once)といったような公知のオブジェクト検出アルゴリズムを用いて算出することが可能である。 In addition, the attached data information in (g) above can be related to the content of the post and the linked topic, for example, the attached information such as an image, and can be incorporated into the feature amount. , can be effective in improving the accuracy of anomaly estimation. Note that the image feature amount as information related to the attached data can be calculated using a known object detection algorithm such as YOLO (You Look Only Once) using CNN (Convolutional Neural Networks).

同じく図1によれば、異常・変化推定モデル12は、入力層と、隠れ層と、出力層との多層からなるDNN(Deep Neural Networks)アルゴリズムで構成されており、全結合オートエンコーダ11Fで生成された「合成特徴量」を入力層に用い、出力層の各ニューロン値として、当該事象における「異常・変化に係る情報」を出力する推定器となっている。 Similarly, according to FIG. 1, the abnormality/change estimation model 12 is composed of a multi-layer DNN (Deep Neural Networks) algorithm consisting of an input layer, a hidden layer, and an output layer, and is generated by a fully connected autoencoder 11F. It is an estimator that uses the obtained "combined feature amount" in the input layer and outputs "information related to abnormality/change" in the event as each neuron value in the output layer.

勿論、異常・変化推定モデル12は、「合成特徴量」を入力とし得るものならば他の種々様々な機械学習アルゴリズムによって構築可能であるが、本実施形態では、異常・変化の検出と異常の原因・要因推定とを一挙に実施すべく、それに適したDNNを採用している。具体的には1つの好適な態様として、出力層の出力をOne-HotベクトルとしたDNNアルゴリズムを用いている。 Of course, the abnormality/change estimation model 12 can be constructed by various other machine learning algorithms as long as the "synthetic feature value" can be input. In order to carry out cause/factor estimation all at once, a suitable DNN is adopted. Specifically, as one preferred mode, a DNN algorithm is used in which the output of the output layer is a One-Hot vector.

すなわち、本実施形態での出力層の出力は、例えば「人口動態異常有り且つその原因・要因はスポーツ観戦」の場合、図1に示したように、
"異常無し" "スポーツ観戦" "ライブ" "電車遅延" ・・・
( 0, 1, 0, 0, ・・・)
となる。またこの場合、この出力(One-Hotベクトル)の次元数(出力層のニューロン数)は、(原因・要因候補のトピック数)+1となるのである。
That is, the output of the output layer in this embodiment is as shown in FIG.
"No problem""Watchingsports""Live""Traindelay" ・・・
(0, 1, 0, 0, ...)
becomes. In this case, the number of dimensions (the number of neurons in the output layer) of this output (one-hot vector) is (the number of topics of cause/factor candidates)+1.

ここで、異常・変化推定モデル12の構築には、生成された合成特徴量に対し、異常・変化の原因・要因を示すラベルを、例えば人手によって付与することにより作成した学習データを用いてもよい。ここで、付与するラベルとして例えば、上述した投稿-トピック紐づけ処理の際に決定されたトピックを採用することができる。また、異常・変化の検出と異常の原因・要因推定とを一挙に実施するべく、上記の"異常無し"ラベルを採用することも好ましい。 Here, in constructing the abnormality/change estimation model 12, it is possible to use learning data created by, for example, manually assigning a label indicating the cause/factor of an abnormality/change to the generated synthetic feature quantity. good. Here, for example, the topic determined during the post-topic linking process described above can be adopted as the label to be assigned. Moreover, it is also preferable to employ the above-described "no abnormality" label in order to detect an abnormality/change and estimate the cause/factor of the abnormality at once.

ちなみに当然ではあるが、異常・変化推定モデル12は、他の「異常・変化に係る情報」を出力するモデルであってもよい。例えば、異常・変化の原因・要因として予め設定された項目(例えば以上に述べたトピック)毎の尤度を出力してもよく、または、尤度の最も高い1つの原因・要因(例えば1つのトピック)を出力するものであってよい。 As a matter of course, the abnormality/change estimation model 12 may be a model that outputs other "information related to abnormality/change". For example, the likelihood for each item (for example, the topic described above) set in advance as the cause/factor of anomaly/change may be output, or one cause/factor with the highest likelihood (for example, one topic).

またトピック設定の変更態様として、各投稿時系列データに係る(さらには異常・変化推定モデル12構築のためのラベルとなる)複数のトピック(トピック情報)を、投稿者の属性情報に係る1つの範囲と1つのトピック種別との組を含むものとすることも可能である。例えば、複数のトピックとして
・「(投稿者は女性が50%を超える)ライブA」、
・「(投稿者は男性が50%を超える)ライブB」、
・「(投稿者は(例えば34歳以下の)若年層が50%を超える)スポーツ観戦A」、
・「スポーツ観戦B」、
・「電車遅延」、・・・
を設定してもよい。これにより、推定される原因・要因について、属性も関係するより詳細な情報を得ることも可能となる。
In addition, as a mode of changing the topic setting, multiple topics (topic information) related to each posted time-series data (further as a label for building the anomaly/change estimation model 12) are changed to one related to attribute information of the poster. It may also contain a set of scopes and one topic type. For example, as multiple topics ・"(More than 50% of the contributors are women) Live A",
・ “(More than 50% of contributors are men) Live B”,
・ "(Posters are over 50% young (for example, under the age of 34) watching sports A",
・"Sports Watching B",
·"train delay",···
may be set. As a result, it is possible to obtain more detailed information related to the attributes of the presumed cause/factor.

図3は、本発明に係るオートエンコーダについての他の実施形態を説明するための模式図である。 FIG. 3 is a schematic diagram for explaining another embodiment of the autoencoder according to the present invention.

ここまで「合成特徴量」を生成する手段として、全結合オートエンコーダ11F(図1)を説明してきたが、他の実施形態として、図3に示したRNNオートエンコーダ11Rや、LSTMオートエンコーダ11Lを採用することも可能である。 So far, the fully-connected autoencoder 11F (FIG. 1) has been described as a means for generating the "synthetic feature". It is also possible to adopt

図3によれば、RNNオートエンコーダ11R(及びLSTMオートエンコーダ11L)においても、全結合オートエンコーダ11Fと同様、事象時系列データと複数の投稿時系列データとを連結した「連結データ群」を入力層として、その際の出力層が当該「連結データ群」と同一となるように学習を行い、その結果得られた「中間層」から合成特徴量を取り出す処理が実施される。 According to FIG. 3, in the RNN autoencoder 11R (and the LSTM autoencoder 11L), similarly to the fully coupled autoencoder 11F, a "concatenated data group" in which event time-series data and a plurality of posted time-series data are connected is input. As a layer, learning is performed so that the output layer at that time is the same as the "connected data group", and a process of extracting a synthetic feature amount from the resulting "intermediate layer" is performed.

しかしながら、RNNオートエンコーダ11R(及びLSTMオートエンコーダ11L)においては、全結合オートエンコーダ11Fとは異なり、所定期間(例えば1日間)における単位時間毎(例えば15分間毎)に、入力層としての「連結データ群」における当該単位時間に対応する複数のニューロンからニューロン値を取り込んで、自らのニューロン値を決定する複数のニューロンからなる「中間層」が順次、生成されるのである。 However, in the RNN autoencoder 11R (and the LSTM autoencoder 11L), unlike the fully coupled autoencoder 11F, every unit time (for example, every 15 minutes) in a predetermined period (for example, one day), the "connected An "intermediate layer" consisting of a plurality of neurons that determine their own neuron values by taking in neuron values from a plurality of neurons corresponding to the unit time in the "data group" is sequentially generated.

より具体的には、「連結データ群」(事象時系列データ及び複数の投稿時系列データ)において設定されている単位時間をTi(i=1, 2, ・・・, n)とすると、単位時間Tj+1(j=1, 2, ・・・, n-1)について生成される中間層における各ニューロンは、
(a)入力層としての「連結データ群」における単位時間Tj+1に対応する複数のニューロンからのニューロン値と、
(b)1つ前の単位時間Tjの中間層における対応するニューロンのニューロン値と
を重み付け線形和した値に基づいて、自らのニューロン値を決定する。
More specifically, if the unit time set in the "consolidated data group" (event time-series data and multiple post time-series data) is Ti ( i = 1, 2, ..., n), Each neuron in the hidden layer generated for unit time T j+1 (j=1, 2, . . . , n-1) is
(a) neuron values from a plurality of neurons corresponding to unit time T j+1 in the "connected data group" as the input layer;
(b) Determining its own neuron value based on the weighted linear sum of the neuron values of the corresponding neurons in the intermediate layer of the previous unit time T j .

すなわち、RNNオートエンコーダ11R(及びLSTMオートエンコーダ11L)においては、ある単位時間の「中間層」は、1つ前の(過去の)「中間層」の出力も考慮して再帰的に生成されるのである。ここで、最終的に生成された「中間層」(単位時間Tnの「中間層」)が、合成特徴量として抽出・出力される。 That is, in the RNN autoencoder 11R (and the LSTM autoencoder 11L), the "intermediate layer" of a certain unit time is recursively generated considering the output of the previous (past) "intermediate layer" of. Here, the finally generated "intermediate layer"("intermediatelayer" of unit time Tn ) is extracted and output as a composite feature amount.

なお、LSTMオートエンコーダ11Lは、RNNオートエンコーダ11Rにおいて、
(a)「中間層」に設けられたメモリセルに記憶された各要素における保持/忘却の経時変化を制御する忘却ゲート、及び
(b)矛盾する重み更新を回避するための入力ゲート及び出力ゲート
を更に設けたものであり、例えば遠い過去の「中間層」の情報も反映して新たな「中間層」を生成するという長期依存(long-term dependencies)も実現可能としたエンコーダとなっている。
Note that the LSTM autoencoder 11L, in the RNN autoencoder 11R,
(a) Forget gates to control retention/forget aging in each element stored in memory cells located in the "middle tier" and (b) input and output gates to avoid conflicting weight updates. is further provided, and it is an encoder that can realize long-term dependencies, such as generating a new "intermediate layer" by reflecting the information of the "intermediate layer" in the distant past. .

このようなRNNオートエンコーダ11RやLSTMオートエンコーダ11Lを利用し、特徴抽出対象データ(事象時系列データ及び複数の投稿時系列データ)における、連続的な時間変化の情報(過去のデータとの関係に係る情報)も合成特徴量に反映させることによって、基本的に時間変化の中で発生する異常・変化をより精度良く推定することも可能となるのである。 Using such RNN autoencoder 11R and LSTM autoencoder 11L, continuous time change information (in relation to past data) in feature extraction target data (event time series data and multiple posted time series data) Such information) is also reflected in the synthetic feature quantity, basically, it becomes possible to more accurately estimate abnormalities and changes that occur over time.

ちなみに、RNNオートエンコーダ11RやLSTMオートエンコーダ11Lは、入力する「連結データ群」として、事象時系列データ及び複数の投稿時系列データに加え、すでに説明した上記の(ウ)~(キ)といったような情報をも連結したものを取り扱い、その合成特徴量を出力するように設定されてもよい。 By the way, the RNN autoencoder 11R and the LSTM autoencoder 11L input "concatenated data group", in addition to the event time series data and multiple post time series data, as described above (c) to (g). It may also be set to handle a concatenated piece of information, and output the combined feature amount.

図4は、本発明に係る合成特徴量の生成処理についての他の実施形態を説明するための模式図である。 4A and 4B are schematic diagrams for explaining another embodiment of the process of generating a combined feature amount according to the present invention.

ここまで、「合成特徴量」を生成する際にオートエンコーダ(11F、11R又は11L)へ入力するデータとして、事象時系列データ及び複数の投稿時系列データの全体からなる「連結データ群」を用いる形態を説明してきた。 So far, as the data to be input to the autoencoder (11F, 11R or 11L) when generating the "synthetic feature amount", the "connected data group" consisting of the entire event time-series data and multiple posted time-series data is used. form has been described.

これに対し、図4に示すように本実施形態では、
(a)事象時系列データと複数の投稿時系列データの各々との連結した組である複数の組(「事象・投稿連結ペア」)を生成し、
(b)生成した「事象・投稿連結ペア」のそれぞれに対し、個別に用意されたオートエンコーダ(11F、11R又は11L)による特徴量合成処理を行って複数の「合成特徴量部分」を生成し、
(c)生成した複数の「特徴量部分」を連結して「合成特徴量」を生成するのである。
On the other hand, as shown in FIG. 4, in this embodiment,
(a) generating a plurality of sets (“event/post concatenated pairs”) that are concatenated sets of event time-series data and each of a plurality of post time-series data;
(b) Each of the generated "event/post linked pairs" is subjected to feature synthesis processing by an individually prepared autoencoder (11F, 11R or 11L) to generate a plurality of "synthetic feature amount portions". ,
(c) A "composite feature amount" is generated by connecting a plurality of generated "feature amount portions".

このように、複数の「事象・投稿連結ペア」から一先ず、複数の「合成特徴量部分」を生成することによって、各「合成特徴量部分」に、事象時系列データの時間変化と1つの投稿時系列データの時間変化との相関を直接的に反映させることが可能となる。その結果、この後生成される「合成特徴量」を用いれば、いずれかの相関の度合いに強い影響を与えている異常・変化を、さらにはその原因・要因を、より精度良く推定することも可能となるのである。 In this way, by first generating a plurality of "synthetic feature amount portions" from a plurality of "event/post linked pairs", each "synthetic feature amount portion" can store changes in event time-series data and one post It is possible to directly reflect the correlation with the temporal change of the time-series data. As a result, by using the "synthetic feature value" generated later, it is possible to more accurately estimate anomalies and changes that have a strong influence on the degree of correlation, as well as their causes and factors. It becomes possible.

ちなみに本実施形態においても、複数の「事象・投稿連結ペア」のうちの少なくとも1つ又は全部は、事象時系列データ及び複数の投稿時系列データに加え、すでに説明した上記の(ウ)~(キ)といったような情報をも連結したものとすることもできる。 Incidentally, also in this embodiment, at least one or all of the plurality of "event/post linked pairs" are, in addition to the event time-series data and the plurality of post time-series data, the above (c) to ( It is also possible to concatenate information such as g).

例えば、「事象・投稿連結ペア」を構成する投稿時系列データに係るトピックや投稿者等によって、上記の(ウ)~(キ)といったような情報が収集可能か否かの事情が異なる場合も存在する。したがって、そのような収集が可能な投稿時系列データに係る「事象・投稿連結ペア」についてのみ、上記の(ウ)~(キ)といったような情報も取り入れることも可能となるのである。 For example, depending on the topic or contributor of the time-series data that constitutes the "event/post linked pair", the circumstances of whether or not the above information (c) to (g) can be collected may differ. exist. Therefore, it is also possible to incorporate information such as the above (c) to (g) only for "event/post linked pairs" related to post time-series data that can be collected in this way.

[異常・変化推定装置,異常・変化推定プログラム]
以下、図1に戻って、以上に説明したようなオートエンコーダ(11F、11R又は11L)と、異常・変化推定モデル12とを搭載しており、所定の事象における異常・変化発生の有無、及び発生した異常・変化の原因・要因に係る情報を、推定結果として出力可能とする異常・変化推定装置2について説明する。
[Abnormality/change estimation device, abnormality/change estimation program]
Hereinafter, returning to FIG. 1, the autoencoder (11F, 11R or 11L) as described above and the abnormality/change estimation model 12 are installed, and the presence or absence of abnormality/change occurrence in a predetermined event and An abnormality/change estimating device 2 capable of outputting information on the cause/factor of an abnormality/change that has occurred as an estimation result will be described.

図1に示したように、異常・変化推定装置2は、入力部21と、特徴量・モデル生成部22と、異常・変化決定部23と、出力部24とを備えている。このうち、特徴量・モデル生成部22、及び異常・変化決定部23は、本発明による異常・変化推定方法の一実施形態を実施する主要部であり、また、本発明による異常・変化推定プログラムの一実施形態を保存したプロセッサ・メモリの機能と捉えることもできる。 As shown in FIG. 1 , the abnormality/change estimation device 2 includes an input unit 21 , a feature amount/model generation unit 22 , an abnormality/change determination unit 23 , and an output unit 24 . Of these, the feature quantity/model generation unit 22 and the abnormality/change determination unit 23 are main parts for implementing an embodiment of the abnormality/change estimation method according to the present invention. can also be viewed as a function of a processor memory that stores an embodiment of .

またこのことから、異常・変化推定装置2は、異常・変化推定の専用装置であってもよいが、本発明による異常・変化推定プログラムを搭載した、例えばクラウドサーバ、非クラウドのサーバ装置、パーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等とすることも可能である。 For this reason, the abnormality/change estimating device 2 may be a dedicated device for estimating anomalies/changes.・It can be a computer (PC), a notebook or tablet computer, or a smart phone.

同じく図1において、異常・変化推定装置2の入力部21は、通信機能を備えていて、例えば外部に設置されたサーバ(例えば通信事業者の通信管理サーバ及びネットワーキングサービス事業者の投稿管理サーバ)から、所定の事象に係る情報(例えば携帯端末数)及び投稿に係る情報(例えば投稿データ)を受信し、所定のデータ形式を有する事象時系列データ(例えば人口動態時系列データ)及び複数の投稿時系列データ(例えばトピック毎の投稿数の時系列データ)を生成して、特徴量・モデル生成部22に保存させる。 Similarly, in FIG. 1, the input unit 21 of the abnormality/change estimation device 2 has a communication function, and for example, a server installed outside (for example, a communication management server of a telecommunications carrier and a post management server of a networking service provider). receives information (e.g. number of mobile terminals) and information related to posts (e.g. post data) from a given event, event time-series data (e.g. demographic time-series data) and multiple posts Time-series data (for example, time-series data of the number of posts for each topic) is generated and stored in the feature quantity/model generation unit 22 .

特徴量・モデル生成部22は、
(a)オートエンコーダ(11F、11R又は11)を用いて、事象時系列データ及び複数の投稿時系列データの合成特徴量を生成し、生成した合成特徴量に正解ラベルを付与した学習データをもって異常・変化推定モデル12を構築して、当該異常・変化推定モデル12を異常・変化決定部23に提供し、また、
(b)同じくオートエンコーダ(11F、11R又は11)を用いて、推定対象の事象時系列データを含む連結データ群(又は事象・投稿連結ペア)による合成特徴量を生成し、生成した合成特徴量を、異常・変化決定部23へ出力する。
The feature quantity/model generation unit 22
(a) Using an autoencoder (11F, 11R or 11), generate a synthetic feature value of event time-series data and a plurality of post time-series data, and use learning data with a correct label attached to the generated synthetic feature value building the change estimation model 12, providing the abnormality/change estimation model 12 to the abnormality/change determination unit 23;
(b) Similarly, using an autoencoder (11F, 11R or 11), a synthetic feature amount is generated from a concatenated data group (or an event/post concatenated pair) including the event time-series data to be estimated, and the generated synthetic feature amount is output to the abnormality/change determination unit 23 .

異常・変化決定部23は、受け取った異常・変化推定モデル12を用いて、同じく受け取った合成特徴量から、当該事象における「異常・変化発生の有無、及びその原因・要因に係る情報」を決定し、出力部24へ出力する。 The anomaly/change determination unit 23 uses the received anomaly/change estimation model 12 to determine "information on the presence or absence of an anomaly/change occurrence and its cause/factor" in the event from the synthetic feature quantity also received. and output to the output unit 24 .

出力部24は、受け取った「異常・変化発生の有無、及びその原因・要因に係る情報」を例えば、ディスプレイに表示させたり、(通信機能を備えている場合に)外部の情報処理装置に送信したりする。ここで、表示・送信される当該情報は、例えば「2019年12月1日xx時xx分あたりに、xxx駅周辺で、電車遅延による人口の急増(通常と比較して80%の増大)が発生」といったような情報となる。 The output unit 24 displays the received "whether or not an abnormality or change has occurred, and information about its cause or factor" on a display, or transmits it to an external information processing device (if it has a communication function). or Here, the information to be displayed/transmitted is, for example, "On December 1, 2019, around xx:xx minutes, there was a sudden increase in the population (80% increase compared to normal) around xxx station due to train delays. It becomes information such as "occurrence".

以上詳細に説明したように、本発明によれば、所定の事象に係る事象時系列データだけでもなく、ただ1つのトピックに係る投稿時系列データだけでもなく、当該事象の異常・変化の原因・要因候補となる複数のトピック情報に係る投稿時系列データをも取り込んで特徴量を生成するので、当該特徴量に基づくことによって当該事象の異常・変化に係る情報を、より精度良く推定することが可能となる。 As described in detail above, according to the present invention, not only event time-series data related to a predetermined event, but also posting time-series data related to a single topic, causes and Since the post time-series data related to multiple topic information as factor candidates is also taken in to generate the feature amount, it is possible to more accurately estimate the information related to the abnormality or change of the event based on the feature amount. It becomes possible.

また、本発明は、それについての時系列データを取得可能な事象であって何らかの原因・要因によって変動し得る事象であれば、種々様々な事象に対し、適用可能となっているのである。 In addition, the present invention can be applied to various events as long as they are events for which time-series data can be acquired and events that can fluctuate due to some cause or factor.

例えば、当該事象として人口動態(人の集合離散)を適用したケースについてではあるが、本発明によれば、複数の投稿時系列データも活用することによって、人口動態異常の発生の有無や、(その実施形態によっては)発生した人口動態異常の原因・要因も推定することが可能となる。またこのことから本発明は、例えばイベント発生時、災害時や緊急事態発令時における都市変動特性の正確な把握や、そこでの人流制御の適切な実施にも、大いに資するものと考えられる。さらに、今後各地で普及の見込まれるスマートシティにおけるそのような事態発生の際の好適な運営にも、貢献可能な発明になっていると考えられる。 For example, in the case of applying demographics (discrete set of people) as the event, according to the present invention, by utilizing multiple posted time-series data, the presence or absence of abnormal demographics, ( Depending on the embodiment, it is also possible to estimate the causes/factors of the demographic anomalies that have occurred. In addition, it is believed that the present invention will greatly contribute to the accurate grasping of urban fluctuation characteristics, for example, when an event occurs, when a disaster occurs, or when an emergency is announced, and for the appropriate implementation of people flow control there. Furthermore, it is considered that the invention can contribute to the appropriate management of smart cities, which are expected to spread in various places in the future, in the event of such a situation.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 For the various embodiments of the present invention described above, various changes, modifications and omissions within the spirit and scope of the present invention can be easily made by those skilled in the art. The foregoing description is exemplary only and is not intended to be limiting. The invention is to be limited only as limited by the claims and the equivalents thereof.

11F 全結合オートエンコーダ
11R RNNオートエンコーダ
11L LSTMオートエンコーダ
12 異常・変化推定モデル
2 異常・変化推定装置
21 入力部
22 特徴量・モデル生成部
23 異常・変化決定部
24 出力部
11F fully coupled autoencoder 11R RNN autoencoder 11L LSTM autoencoder 12 abnormality/change estimation model 2 abnormality/change estimation device 21 input unit 22 feature amount/model generation unit 23 abnormality/change determination unit 24 output unit

Claims (11)

所定の事象に係る事象時系列データと、当該事象の異常又は変化に関係し得る複数のトピック情報に係る複数の投稿群それぞれについての複数の投稿時系列データとから、当該事象時系列データ及び当該投稿時系列データの合成又は連結に係る特徴量を生成するステップと、
当該特徴量を構築済みの異常又は変化推定モデルに入力し、当該異常又は変化推定モデルからの出力に基づいて、当該事象の異常又は変化に係る情報を決定するステップと
を含むことを特徴とする、コンピュータにおける異常又は変化推定方法。
From event time-series data related to a predetermined event and multiple posting time-series data for each of multiple posting groups related to multiple topic information that may be related to the abnormality or change of the event, the event time-series data and the relevant a step of generating a feature amount related to synthesizing or concatenating posted time-series data;
and inputting the feature amount into a built abnormality or change estimation model, and determining information related to the abnormality or change of the event based on the output from the abnormality or change estimation model. , anomaly or change estimation methods in computers.
当該事象時系列データ及び当該投稿時系列データから、オートエンコーダ(auto-encoder)を用いて当該特徴量を生成することを特徴とする請求項1に記載の異常又は変化推定方法。 2. The abnormality or change estimation method according to claim 1, wherein the feature amount is generated from the event time-series data and the posted time-series data using an auto-encoder. 当該オートエンコーダは、全結合型オートエンコーダ、再帰型ニューラルネットワーク(RNN,Recurrent Neural Networks)・オートエンコーダ、又は長・短期記憶(Long-Short Term Memory,LSTM)オートエンコーダであることを特徴とする請求項2に記載の異常又は変化推定方法。 A claim characterized in that the autoencoder is a fully connected autoencoder, a recurrent neural network (RNN, Recurrent Neural Networks) autoencoder, or a long-short term memory (LSTM) autoencoder. Item 3. The abnormality or change estimation method according to Item 2. 当該事象時系列データ及び前記複数の投稿時系列データの全体から、当該オートエンコーダを用いて当該特徴量を生成することを特徴とする請求項2又は3に記載の異常又は変化推定方法。 4. The anomaly or change estimation method according to claim 2, wherein the feature amount is generated using the autoencoder from the event time-series data and the plurality of posted time-series data as a whole. 前記複数の投稿時系列データの各々と当該事象時系列データとの組である複数の組のそれぞれから、当該オートエンコーダを用いて複数の特徴量部分を生成し、該複数の特徴量部分から当該特徴量を生成することを特徴とする請求項2又は3に記載の異常又は変化推定方法。 generating a plurality of feature quantity portions using the autoencoder from each of a plurality of sets of each of the plurality of posted time-series data and the event time-series data; 4. The abnormality or change estimation method according to claim 2 or 3, wherein a feature amount is generated. 当該事象は所定のエリアに係る事象であって、当該エリアを含む所定範囲内に当該事象の異常又は変化に関係し得る地点が存在しており、
当該事象時系列データ及び当該投稿時系列データ、並びに、当該エリアと当該地点との離隔度合いに係る情報、及び/又は、当該地点の種別情報から、当該オートエンコーダを用いて当該特徴量を生成することを特徴とする請求項2から5のいずれか1項に記載の異常又は変化推定方法。
The event is an event related to a predetermined area, and there is a point that can be related to the abnormality or change of the event within a predetermined range including the area,
The feature amount is generated using the autoencoder from the event time-series data and the posted time-series data, information on the degree of separation between the area and the point, and/or type information on the point. The abnormality or change estimation method according to any one of claims 2 to 5, characterized in that:
当該事象時系列データ及び当該投稿時系列データと、
所定期間での当該投稿の数における当該投稿の数の統計値からの乖離度合い、当該投稿の投稿者の属性情報、及び/又は、当該投稿に添付された添付データに係る情報と
から、当該オートエンコーダを用いて当該特徴量を生成することを特徴とする請求項2から6のいずれか1項に記載の異常又は変化推定方法。
the event time-series data and the posted time-series data;
Based on the degree of divergence from the statistical value of the number of posts in the number of posts in a predetermined period, the attribute information of the poster of the post, and/or information related to the attached data attached to the post, the auto 7. The abnormality or change estimation method according to any one of claims 2 to 6, wherein the feature amount is generated using an encoder.
前記複数のトピック情報は、当該投稿の投稿者の属性情報に係る1つの範囲と1つのトピック種別との組を含むことを特徴とする請求項1から7のいずれか1項に記載の異常又は変化推定方法。 8. The abnormality or according to any one of claims 1 to 7, wherein the plurality of topic information includes a set of one range and one topic type related to the attribute information of the person who posted the post. Change estimation method. 当該事象の異常又は変化に係る情報は、当該事象において異常若しくは変化が発生したか否かに係る情報、及び/又は、当該事象において発生した異常若しくは変化に関係すると推定される当該トピック情報を含むことを特徴とする請求項1から8のいずれか1項に記載の異常又は変化推定方法。 Information relating to anomalies or changes in the event includes information relating to whether anomalies or changes have occurred in the event, and/or topic information presumed to be related to the anomaly or changes that occurred in the event. The abnormality or change estimation method according to any one of claims 1 to 8, characterized in that: 所定の事象に係る事象時系列データと、当該事象の異常又は変化に関係し得る複数のトピック情報に係る複数の投稿群それぞれについての複数の投稿時系列データとから、当該事象時系列データ及び当該投稿時系列データの合成又は連結に係る特徴量を生成する特徴量生成手段と、
当該特徴量を構築済みの異常又は変化推定モデルに入力し、当該異常又は変化推定モデルからの出力に基づいて、当該事象の異常又は変化に係る情報を決定する異常又は変化情報決定手段と
してコンピュータを機能させることを特徴とする異常又は変化推定プログラム。
From event time-series data related to a predetermined event and multiple posting time-series data for each of multiple posting groups related to multiple topic information that may be related to the abnormality or change of the event, the event time-series data and the relevant a feature quantity generating means for generating a feature quantity relating to synthesizing or concatenating posted time-series data;
A computer is used as an anomaly or change information determination means for inputting the feature quantity into a built anomaly or change estimation model and determining information related to the anomaly or change of the event based on the output from the anomaly or change estimation model. Abnormality or change estimation program characterized by functioning.
所定の事象に係る事象時系列データと、当該事象の異常又は変化に関係し得る複数のトピック情報に係る複数の投稿群それぞれについての複数の投稿時系列データとから、当該事象時系列データ及び当該投稿時系列データの合成又は連結に係る特徴量を生成する特徴量生成手段と、
当該特徴量を構築済みの異常又は変化推定モデルに入力し、当該異常又は変化推定モデルからの出力に基づいて、当該事象の異常又は変化に係る情報を決定する異常又は変化情報決定手段と
を有することを特徴とする異常又は変化推定装置。
From event time-series data related to a predetermined event and multiple posting time-series data for each of multiple posting groups related to multiple topic information that may be related to the abnormality or change of the event, the event time-series data and the relevant a feature quantity generating means for generating a feature quantity relating to synthesizing or concatenating posted time-series data;
an abnormality or change information determining means for inputting the feature quantity into a constructed abnormality or change estimation model and determining information related to the abnormality or change of the event based on the output from the abnormality or change estimation model; Abnormality or change estimating device characterized by:
JP2020081982A 2020-05-07 2020-05-07 Anomaly/change estimation method, program and device using multiple posted time-series data Active JP7291100B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020081982A JP7291100B2 (en) 2020-05-07 2020-05-07 Anomaly/change estimation method, program and device using multiple posted time-series data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020081982A JP7291100B2 (en) 2020-05-07 2020-05-07 Anomaly/change estimation method, program and device using multiple posted time-series data

Publications (2)

Publication Number Publication Date
JP2021177284A JP2021177284A (en) 2021-11-11
JP7291100B2 true JP7291100B2 (en) 2023-06-14

Family

ID=78409480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020081982A Active JP7291100B2 (en) 2020-05-07 2020-05-07 Anomaly/change estimation method, program and device using multiple posted time-series data

Country Status (1)

Country Link
JP (1) JP7291100B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023084874A1 (en) * 2021-11-15 2023-05-19 株式会社Nttドコモ Population state determination system and model generation system
WO2024024201A1 (en) * 2022-07-27 2024-02-01 株式会社Nttドコモ Population state determination system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231605A (en) 2009-03-27 2010-10-14 Denso It Laboratory Inc Event determination device
JP2019079088A (en) 2017-10-19 2019-05-23 ヤフー株式会社 Learning device, program parameter and learning method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231605A (en) 2009-03-27 2010-10-14 Denso It Laboratory Inc Event determination device
JP2019079088A (en) 2017-10-19 2019-05-23 ヤフー株式会社 Learning device, program parameter and learning method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山田 尚志、落合 桂一、横井 靖弘、神山 剛、鳥居 大祐,機械学習を用いたツイート解析と統計的異常検知による通信障害検出システム,情報処理学会 研究報告 コンシューマ・デバイス&システム(CDS) 2019-CDS-025 [online] ,日本,情報処理学会,2019年05月23日,pp. 1~7

Also Published As

Publication number Publication date
JP2021177284A (en) 2021-11-11

Similar Documents

Publication Publication Date Title
US11061946B2 (en) Systems and methods for cross-media event detection and coreferencing
Gloor et al. Web science 2.0: Identifying trends through semantic social network analysis
Toole et al. Tracking employment shocks using mobile phone data
Croitoru et al. Linking cyber and physical spaces through community detection and clustering in social media feeds
Shi et al. Predicting US primary elections with Twitter
US11048712B2 (en) Real-time and adaptive data mining
Dunkel et al. A conceptual framework for studying collective reactions to events in location-based social media
US9262438B2 (en) Geotagging unstructured text
Pereira et al. Why so many people? explaining nonhabitual transport overcrowding with internet data
US10769223B1 (en) Systems and methods for identification and classification of social media
CN108153824B (en) Method and device for determining target user group
Liu et al. Grounded emotions
CN107767153B (en) Data processing method and device
JP7291100B2 (en) Anomaly/change estimation method, program and device using multiple posted time-series data
Chen et al. Next POI recommendation based on location interest mining with recurrent neural networks
Williams et al. Improving geolocation of social media posts
WO2019055654A1 (en) Systems and methods for cross-media event detection and coreferencing
CN110046251A (en) Community content methods of risk assessment and device
Lamsal et al. Socially enhanced situation awareness from microblogs using artificial intelligence: A survey
Han et al. Linking social network accounts by modeling user spatiotemporal habits
KR102460209B1 (en) System for providing politics verse platform service
CN115204889A (en) Text processing method and device, computer equipment and storage medium
Dudas Cooperative, dynamic Twitter parsing and visualization for dark network analysis
CN116775815B (en) Dialogue data processing method and device, electronic equipment and storage medium
CN111177526A (en) Network opinion leader identification method and device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230602

R150 Certificate of patent or registration of utility model

Ref document number: 7291100

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150