JP2021177284A - Method, program, and device for estimating abnormality/change using multiple pieces of submission time series data - Google Patents

Method, program, and device for estimating abnormality/change using multiple pieces of submission time series data Download PDF

Info

Publication number
JP2021177284A
JP2021177284A JP2020081982A JP2020081982A JP2021177284A JP 2021177284 A JP2021177284 A JP 2021177284A JP 2020081982 A JP2020081982 A JP 2020081982A JP 2020081982 A JP2020081982 A JP 2020081982A JP 2021177284 A JP2021177284 A JP 2021177284A
Authority
JP
Japan
Prior art keywords
abnormality
event
series data
change
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020081982A
Other languages
Japanese (ja)
Other versions
JP7291100B2 (en
Inventor
直人 武田
Naoto Takeda
勇太朗 美嶋
Yutaro Mishima
敦宣 南川
Atsunobu Namikawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020081982A priority Critical patent/JP7291100B2/en
Publication of JP2021177284A publication Critical patent/JP2021177284A/en
Application granted granted Critical
Publication of JP7291100B2 publication Critical patent/JP7291100B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

To provide a method for estimating abnormality or change, capable of further accurately estimating information regarding the abnormality of change in a prescribed event.SOLUTION: A present method for estimating abnormality or change includes: a step for generating a feature quantity regarding composition or connection of event time series data and submission time series data from event time series data regarding a prescribed event and a plurality of pieces of submission time series data for each of a plurality of submission groups regarding a plurality of pieces of topic information that can be related to an abnormality or change of the event; and a step for inputting the generated feature quantity into a constructed model for estimating abnormality or change, and determining information regarding the abnormality or change of the event on the basis of the output from the model. In this case, it is preferable to generate the feature quantity from the event time series data and the submission time series data by using an auto encoder. Further, it is also preferable that the auto encoder is a full connection type, an RNN or an LSTM auto encoder.SELECTED DRAWING: Figure 1

Description

本発明は、所定の事象に係る時系列データから、当該事象の異常又は変化を推定する技術に関する。 The present invention relates to a technique for estimating an abnormality or change of a predetermined event from time series data related to the event.

近年、SNS(Social Networking Service)やミニブログ(mini-blog)等のネットワーキングサービスにおける投稿の情報から、様々な現象の発生を検出する技術が大きな注目を集めている。 In recent years, technology for detecting the occurrence of various phenomena from information posted on networking services such as SNS (Social Networking Service) and mini-blogs has attracted a great deal of attention.

例えば、非特許文献1には、Twitter(登録商標)のストリームデータを用いて、イベント検出を行う技術が開示されている。この技術においては具体的に、Twitter(登録商標)のトレンド機能を利用して現在話題となっているハッシュタグを抽出し、それらに関するツイートを取得して、その出現回数に応じたベクトルを作成し、さらにクラスタリング処理を実施している。次いで、ここで得られたクラスタの大きさによってランキングを行い、現在話題となっているイベントとそのツイートとを決定するのである。 For example, Non-Patent Document 1 discloses a technique for detecting an event using stream data of Twitter (registered trademark). Specifically, in this technology, the trend function of Twitter (registered trademark) is used to extract hashtags that are currently being talked about, get tweets about them, and create a vector according to the number of appearances. , Further clustering processing is performed. Next, ranking is performed according to the size of the cluster obtained here, and the event currently being talked about and its tweet are determined.

また、特許文献1は、電子地図上において混雑しているエリアと、そのエリアの混雑に関連する情報とを併せて提示する情報提示装置を開示している。具体的にはこの装置においては、(a)現在の人口動態と通常時の人口動態とのずれを標準偏差により算出したスコアと、(b)現在の人口動態と通常時の人口動態との倍率を算出したスコアとの和を混雑度指標とし、当該混雑度指標が閾値以上の場合に、人口動態異常が発生したとしている。 Further, Patent Document 1 discloses an information presenting device that presents a congested area on an electronic map and information related to the congestion in the area. Specifically, in this device, (a) the score calculated by the standard deviation of the difference between the current vital statistics and the normal vital statistics, and (b) the magnification between the current vital statistics and the normal vital statistics. The sum of the score and the calculated score is used as the congestion index, and when the congestion index is equal to or higher than the threshold value, it is assumed that a vital abnormality has occurred.

また、この情報提示装置においては、人口動態異常を検出したメッシュの周辺に存在するPOI(Point of Interest)の名称が本文に含まれたツイートを、POI毎に収集し、通常よりも投稿数の上昇しているPOIを含んだツイート群にフィルタリング処理を実施している。次いで、「(イベント名)が開催」や「(イベント名)に参加」といったような特定のパターンとマッチした部分文字列を抽出して、人口動態異常の原因となったイベント名称の表示を行っているのである。 In addition, this information presentation device collects tweets containing the name of the POI (Point of Interest) that exists around the mesh that detected the vital abnormality in the text for each POI, and the number of posts is larger than usual. Filtering is performed on the tweets containing the rising POI. Next, the substrings that match a specific pattern such as "(event name) is held" or "participate in (event name)" are extracted and the event name that caused the demographic abnormality is displayed. -ing

特開2015−225128号公報JP-A-2015-225128

Mateusz Fedoryszak, Brent Frederick, Vijay Rajaram and Changtao Zhong, "Real-time Event Detection on Social Data Streams", KDD 2019: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp.2774-2782, <URL: https://doi.org/10.1145/3292500.3330689>, 2019年Mateusz Fedoryszak, Brent Frederick, Vijay Rajaram and Changtao Zhong, "Real-time Event Detection on Social Data Streams", KDD 2019: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp.2774-2782, <URL : https://doi.org/10.1145/3292500.3330689>, 2019

しかしながら、上述したような従来技術では依然、イベント等の現象の発生や異常について誤った判断をしてしまう場合も少なくないことが問題となっている。 However, in the conventional technology as described above, there is still a problem that there are many cases where an erroneous judgment is made regarding the occurrence or abnormality of a phenomenon such as an event.

例えば、非特許文献1に記載された技術では、Twitter(登録商標)に係るデータのみに頼ってイベントの発生を推定しているので、実際には発生していないイベントを発生しているものとして検出してしまう可能性もある。1つの分かりやすい例として、人気アーティストのライブ開催に関し、その事前告知を受けて当該ライブに関連するツイートが大量に投稿された状況を、実際に当該ライブが行われイベント会場で混雑が発生している状況であると判断してしまうこともあり得るのである。 For example, in the technology described in Non-Patent Document 1, since the occurrence of an event is estimated by relying only on the data related to Twitter (registered trademark), it is assumed that an event that has not actually occurred is occurring. There is a possibility that it will be detected. As an easy-to-understand example, regarding the live holding of a popular artist, the situation where a large number of tweets related to the live were posted in response to the advance notice, the live was actually performed and congestion occurred at the event venue. It is possible to judge that the situation is present.

この点、特許文献1に記載された技術では、現実の人口動態を考慮しており、実際に混雑の発生したメッシュに対し投稿による意味づけを行っているので、実際には人が集まっていない状況に対し、人口動態の異常を伴うイベントの発生を紐づけてしまう事態は回避可能となっている。 In this regard, the technique described in Patent Document 1 takes into consideration the actual vital dynamics and gives meaning by posting to the mesh in which congestion actually occurs, so that people are not actually gathered. It is possible to avoid the situation where the occurrence of an event accompanied by an abnormal vital dynamics is linked to the situation.

しかしながら、この特許文献1に記載された技術において、上記の意味づけに用いられる手法は、単純なパターンマッチングにとどまっている。そのため、ツイート数の多い話題に結果が引っ張られがちとなり、異常発生の原因推定における精度がどうしても劣化してしまう。例えば、野球観戦による人口動態の異常が発生している状況において、同日に人気アーティストによるライブ開催の事前告知が行われた場合に、当該人口動態の異常をライブ開催によるものと誤って推定してしまう可能性が生じる。またさらに言えば、人口動態の異常発生の判定処理において一律の閾値を設定しているので、例えばイベントの規模の違いによっては誤検出や検出漏れの生じてしまう問題も抱えている。 However, in the technique described in Patent Document 1, the method used for the above meaning is limited to simple pattern matching. Therefore, the result tends to be pulled by the topic with a large number of tweets, and the accuracy in estimating the cause of the abnormality is inevitably deteriorated. For example, in a situation where a demographic anomaly occurs due to watching a baseball game, if a popular artist announces that a live event will be held on the same day, the demographic anomaly is mistakenly presumed to be due to the live event. There is a possibility that it will end up. Furthermore, since a uniform threshold value is set in the process of determining the occurrence of abnormal demographics, there is a problem that erroneous detection or omission of detection may occur depending on the difference in the scale of the event, for example.

そこで、本発明は、所定の事象における異常又は変化に係る情報を、より精度良く推定することの可能な異常又は変化推定方法、プログラム及び装置を提供することを目的とする。 Therefore, an object of the present invention is to provide an abnormality or change estimation method, a program, and an apparatus capable of more accurately estimating information relating to an abnormality or change in a predetermined event.

本発明によれば、所定の事象に係る事象時系列データと、当該事象の異常又は変化に関係し得る複数のトピック情報に係る複数の投稿群それぞれについての複数の投稿時系列データとから、当該事象時系列データ及び当該投稿時系列データの合成又は連結に係る特徴量を生成するステップと、
当該特徴量を構築済みの異常又は変化推定モデルに入力し、当該異常又は変化推定モデルからの出力に基づいて、当該事象の異常又は変化に係る情報を決定するステップと
を含むことを特徴とする、コンピュータにおける異常又は変化推定方法が提供される。
According to the present invention, the event time series data relating to a predetermined event and a plurality of posting time series data for each of a plurality of posting groups relating to a plurality of topic information that may be related to an abnormality or change of the event are used. A step to generate a feature amount related to the synthesis or concatenation of the event time series data and the posting time series data, and
It is characterized by including a step of inputting the feature amount into the constructed abnormality or change estimation model and determining information related to the abnormality or change of the event based on the output from the abnormality or change estimation model. , A method of estimating anomalies or changes in a computer is provided.

この本発明による異常又は変化推定方法の一実施形態として、当該事象時系列データ及び当該投稿時系列データから、オートエンコーダ(auto-encoder)を用いて当該特徴量を生成することも好ましい。 As an embodiment of the abnormality or change estimation method according to the present invention, it is also preferable to generate the feature amount from the event time series data and the posting time series data by using an auto-encoder.

また、当該オートエンコーダは、全結合型オートエンコーダ、再帰型ニューラルネットワーク(RNN,Recurrent Neural Networks)・オートエンコーダ、又は長・短期記憶(Long-Short Term Memory,LSTM)オートエンコーダであることも好ましい。 Further, the autoencoder is preferably a fully coupled autoencoder, a recurrent neural network (RNN) autoencoder, or a long-short term memory (LSTM) autoencoder.

さらに、上記のオートエンコーダを用いる実施形態において、当該事象時系列データ及び複数の投稿時系列データの全体から、当該オートエンコーダを用いて当該特徴量を生成することも好ましい。または、複数の投稿時系列データの各々と当該事象時系列データとの組である複数の組のそれぞれから、当該オートエンコーダを用いて複数の特徴量部分を生成し、これら複数の特徴量部分から当該特徴量を生成することも好ましい。 Further, in the embodiment using the autoencoder, it is also preferable to generate the feature amount by using the autoencoder from the whole of the event time series data and the plurality of posting time series data. Alternatively, a plurality of feature quantity portions are generated using the autoencoder from each of the plurality of sets that are a pair of each of the plurality of posting time series data and the event time series data, and from these plurality of feature quantity portions. It is also preferable to generate the feature amount.

また、上記のオートエンコーダを用いる実施形態において、当該事象は所定のエリアに係る事象であって、当該エリアを含む所定範囲内に当該事象の異常又は変化に関係し得る地点が存在しており、
当該事象時系列データ及び当該投稿時系列データ、並びに、当該エリアと当該地点との離隔度合いに係る情報、及び/又は、当該地点の種別情報から、当該オートエンコーダを用いて当該特徴量を生成することも好ましい。
Further, in the embodiment using the above autoencoder, the event is an event related to a predetermined area, and there is a point that may be related to an abnormality or change of the event within a predetermined range including the area.
The feature amount is generated by using the autoencoder from the event time series data, the posting time series data, the information related to the degree of separation between the area and the point, and / or the type information of the point. It is also preferable.

さらに、上記のオートエンコーダを用いる実施形態において、
(a)当該事象時系列データ及び当該投稿時系列データと、
(b)所定期間での当該投稿の数における当該投稿の数の統計値からの乖離度合い、当該投稿の投稿者の属性情報、及び/又は、当該投稿に添付された添付データに係る情報と
から、当該オートエンコーダを用いて当該特徴量を生成することも好ましい。
Further, in the embodiment using the above autoencoder,
(A) The event time series data, the posting time series data, and
(B) From the degree of deviation from the statistical value of the number of posts in the number of posts in a predetermined period, the attribute information of the poster of the post, and / or the information related to the attached data attached to the post. It is also preferable to generate the feature amount using the autoencoder.

また、本発明による異常又は変化推定方法における複数のトピック情報は、当該投稿の投稿者の属性情報に係る1つの範囲と1つのトピック種別との組を含むことも好ましい。 Further, it is preferable that the plurality of topic information in the abnormality or change estimation method according to the present invention includes a set of one range and one topic type related to the attribute information of the poster of the post.

さらに、本発明による異常又は変化推定方法における当該事象の異常又は変化に係る情報は、
(a)当該事象において異常若しくは変化が発生したか否かに係る情報、及び/又は、
(b)当該事象において発生した異常若しくは変化に関係すると推定される当該トピック情報
を含むことも好ましい。
Further, the information relating to the abnormality or change of the event in the abnormality or change estimation method according to the present invention can be obtained.
(A) Information on whether or not an abnormality or change has occurred in the event, and / or
(B) It is also preferable to include the topic information that is presumed to be related to the abnormality or change that occurred in the event.

本発明によれば、また、
所定の事象に係る事象時系列データと、当該事象の異常又は変化に関係し得る複数のトピック情報に係る複数の投稿群それぞれについての複数の投稿時系列データとから、当該事象時系列データ及び当該投稿時系列データの合成又は連結に係る特徴量を生成する特徴量生成手段と、
当該特徴量を構築済みの異常又は変化推定モデルに入力し、当該異常又は変化推定モデルからの出力に基づいて、当該事象の異常又は変化に係る情報を決定する異常又は変化情報決定手段と
してコンピュータを機能させる異常又は変化推定プログラムが提供される。
According to the present invention,
From the event time-series data related to a predetermined event and the multiple posting time-series data for each of the plurality of posting groups related to a plurality of topic information that may be related to the abnormality or change of the event, the event time-series data and the relevant event. A feature amount generation means for generating a feature amount related to the synthesis or concatenation of posted time series data, and
A computer is used as an abnormality or change information determining means for inputting the feature quantity into the constructed abnormality or change estimation model and determining information related to the abnormality or change of the event based on the output from the abnormality or change estimation model. An anomaly or change estimation program that works is provided.

本発明によれば、さらに、
所定の事象に係る事象時系列データと、当該事象の異常又は変化に関係し得る複数のトピック情報に係る複数の投稿群それぞれについての複数の投稿時系列データとから、当該事象時系列データ及び当該投稿時系列データの合成又は連結に係る特徴量を生成する特徴量生成手段と、
当該特徴量を構築済みの異常又は変化推定モデルに入力し、当該異常又は変化推定モデルからの出力に基づいて、当該事象の異常又は変化に係る情報を決定する異常又は変化情報決定手段と
を有する異常又は変化推定装置が提供される。
According to the present invention, further
From the event time-series data related to a predetermined event and the multiple posting time-series data for each of the plurality of posting groups related to a plurality of topic information that may be related to the abnormality or change of the event, the event time-series data and the relevant event. A feature amount generation means for generating a feature amount related to the synthesis or concatenation of posted time series data, and
It has an abnormality or change information determining means for inputting the feature quantity into the constructed abnormality or change estimation model and determining information related to the abnormality or change of the event based on the output from the abnormality or change estimation model. Anomalous or change estimators are provided.

本発明の異常又は変化推定方法、プログラム及び装置によれば、所定の事象における異常又は変化に係る情報を、より精度良く推定することができる。 According to the abnormality or change estimation method, program and apparatus of the present invention, information related to an abnormality or change in a predetermined event can be estimated more accurately.

本発明に係る異常・変化推定モデルを用いて異常・変化推定処理を実施する異常・変化推定装置の一実施形態を示す模式図である。It is a schematic diagram which shows one Embodiment of the abnormality / change estimation apparatus which performs the abnormality / change estimation processing using the abnormality / change estimation model which concerns on this invention. 投稿−トピック紐づけ処理を説明するためのテーブルを含む模式図であるIt is a schematic diagram including a table for explaining the post-topic linking process. 本発明に係るオートエンコーダについての他の実施形態を説明するための模式図である。It is a schematic diagram for demonstrating another embodiment about the autoencoder which concerns on this invention. 本発明に係る合成特徴量の生成処理についての他の実施形態を説明するための模式図である。It is a schematic diagram for demonstrating another embodiment about the generation processing of the synthetic feature amount which concerns on this invention.

以下、本発明の実施形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

[異常・変化推定方法,装置]
図1は、本発明に係る異常・変化推定モデルを用いて異常・変化推定処理を実施する異常・変化推定装置の一実施形態を示す模式図である。
[Abnormality / change estimation method, device]
FIG. 1 is a schematic diagram showing an embodiment of an abnormality / change estimation device that performs an abnormality / change estimation process using the abnormality / change estimation model according to the present invention.

図1に示した本実施形態の異常・変化推定装置2は、
(A)全結合オートエンコーダ(auto-encoder)11Fと、
(B)異常・変化推定モデル12と
を備えており、取り込んだ所定の事象に係る事象時系列データに基づいて、当該事象における異常又は変化(以後「異常・変化」とも記載)の発生を推定可能な装置となっている。
The abnormality / change estimation device 2 of the present embodiment shown in FIG. 1 is
(A) Fully coupled auto-encoder 11F and
(B) An abnormality / change estimation model 12 is provided, and the occurrence of an abnormality or change (hereinafter also referred to as “abnormality / change”) in the event is estimated based on the event time series data related to the captured predetermined event. It is a possible device.

このうち上記(A)の全結合オートエンコーダ11Fは、
(a1)当該事象に係る事象時系列データ、例えば(人の集合離散との事象に係る)人口動態時系列データと、
(a2)当該事象の異常・変化に関係し得る複数の「トピック情報」に係る複数の「投稿」群それぞれについての複数の投稿時系列データと
から、当該事象時系列データ及び当該投稿時系列データの合成に係る特徴量である「合成特徴量」を生成する。
Of these, the fully coupled autoencoder 11F of (A) above is
(A1) Event time-series data related to the event, for example, vital time-series data (related to an event with a set discrete person) and
(A2) From the plurality of posting time-series data for each of the plurality of "posting" groups related to the plurality of "topic information" that may be related to the abnormality / change of the event, the event time-series data and the posting time-series data. A "synthetic feature amount", which is a feature amount related to the synthesis of

ここで、上記(a1)の人口動態時系列データは例えば、予め設定された地域メッシュ(所定のエリア)における所定期間の単位時間毎の携帯端末(のユーザ)数のデータとすることができる。この場合、携帯端末数は、当該地域メッシュに係る基地局と通信接続した携帯端末の情報を収集可能な通信管理サーバから取得してもよい。または、ユーザの携帯端末に搭載されたGPS(Global Positioning System)による測位を行うアプリから、その旨の許諾を得た上で当該携帯端末の位置情報を取得し、当該位置情報に基づいて当該携帯端末数を導出することも可能である。 Here, the vital time series data of the above (a1) can be, for example, data on the number of mobile terminals (users) for each unit time in a predetermined period in a preset area mesh (predetermined area). In this case, the number of mobile terminals may be acquired from a communication management server capable of collecting information on mobile terminals that are connected to the base station related to the area mesh. Alternatively, the location information of the mobile terminal is acquired from the application that performs positioning by GPS (Global Positioning System) installed in the user's mobile terminal with the permission to that effect, and the mobile phone is based on the location information. It is also possible to derive the number of terminals.

また、上記(a2)における複数の「トピック情報」に係る複数の「投稿」群は、例えば、SNS(Social Networking Service)やミニブログ(mini-blog)等のネットワーキングサービスにおける投稿のうち、当該事象(例えば人口動態)の異常・変化に関係し得る所定のトピック、例えば"スポーツ観戦"、"ライブ"や、"電車遅延"等の紐づけられた「投稿」の集合とすることができる。 In addition, the plurality of "posts" group related to the plurality of "topic information" in the above (a2) is, for example, the event among posts in networking services such as SNS (Social Networking Service) and mini-blog (mini-blog). It can be a set of linked "posts" such as "watching sports", "live", "train delay", etc., which may be related to abnormalities / changes in (for example, demographics).

ちなみに「投稿」群は例えば、事業者の管理する投稿管理サーバから、公開された検索用API(Application Programing Interface)を用いて収集することができる。また、投稿とトピックとの紐づけ処理については、後に図2を用いて詳細に説明する。 Incidentally, the "posts" group can be collected from, for example, a post management server managed by a business operator using a public search API (Application Programming Interface). Further, the process of associating a post with a topic will be described in detail later with reference to FIG.

上記(A)の全結合オートエンコーダ11Fは、このような事象時系列データ及び「トピック情報」毎の複数の投稿時系列データに対し特徴量合成処理を行って、その中間層から「合成特徴量」を出力することが可能となっているのである。 The fully-coupled autoencoder 11F of the above (A) performs feature quantity synthesis processing on such event time series data and a plurality of posting time series data for each "topic information", and "composite feature quantity" from the intermediate layer. It is possible to output.

一方、上記(B)の異常・変化推定モデル12は、生成された「合成特徴量」を入力として、当該事象における「異常・変化に係る情報」を決定し出力する。ここで、この「異常・変化に係る情報」は、例えば、
(b1)当該事象(例えば人口動態)において異常・変化が発生したか否かに係る情報、例えば、ある日のある時間帯において当該地域メッシュでの人口(携帯端末ユーザ数)が所定以上の増大若しくは減少を示した旨の情報、及び
(b2)当該事象(例えば人口動態)において発生した異常・変化(例えばある日のある時間帯における人口の所定以上の増大若しくは減少)に関係すると推定される「トピック情報」、例えば"ライブ"が開催された旨の情報
のうちのいずれか一方又は両方を含む情報とすることができる。
On the other hand, the abnormality / change estimation model 12 of the above (B) uses the generated "composite feature amount" as an input to determine and output "information related to the abnormality / change" in the event. Here, this "information related to anomalies / changes" is, for example,
(B1) Information on whether or not an abnormality or change has occurred in the event (for example, vital statistics), for example, the population (number of mobile terminal users) in the area mesh increases by a predetermined amount or more in a certain time zone of a certain day. Or it is presumed to be related to the information indicating a decrease, and (b2) anomalies / changes (for example, an increase or decrease of the population in a certain time zone of a certain day or more) that occurred in the event (for example, vital statistics). It can be information that includes "topic information", for example, one or both of the information that a "live" has been held.

このように、異常・変化推定装置2によれば、所定の事象に係る事象時系列データだけでもなく、ただ1つのトピックに係る投稿時系列データだけでもなく、当該異常・変化の原因・要因候補となる複数の「トピック情報」に係る投稿時系列データをも取り込んで特徴量を生成するので、当該特徴量に基づくことによって当該事象の「異常・変化に係る情報」をより精度良く推定することが可能となる。 As described above, according to the abnormality / change estimation device 2, not only the event time series data related to a predetermined event but also the posting time series data related to only one topic, but also the cause / factor candidate of the abnormality / change. Since the feature amount is generated by incorporating the posting time series data related to a plurality of "topic information", the "information related to the abnormality / change" of the event should be estimated more accurately based on the feature amount. Is possible.

また特に、当該異常・変化の原因・要因候補となる複数の「トピック情報」に係る投稿時系列データを勘案した特徴量を用いているので、「異常・変化に係る情報」の一態様とはなるが、当該事象の異常・変化の原因・要因が何であるかに係る情報、例えば、"ライブ"が開催されたために人口の所定以上の増大が生じた旨の情報を、より精度良く推定することも可能となる。言い換えると、候補となる複数のトピックの推移を勘案することによって、当該事象の異常・変化における原因・要因を特定することも叶うのである。 In particular, since the feature amount is used in consideration of the posting time series data related to a plurality of "topic information" that are candidates for the cause / factor of the abnormality / change, what is one aspect of "information related to the abnormality / change"? However, it is possible to more accurately estimate information on what is the cause / factor of the abnormality / change of the event, for example, information that the population has increased more than a predetermined value due to the "live" being held. It is also possible. In other words, by considering the transition of a plurality of candidate topics, it is possible to identify the cause / factor in the abnormality / change of the event.

例えば、多種多様なイベントに対応し得るPOIとしての「多目的スタジアム」周辺の地域メッシュで、"野球観戦"による人口動態異常が発生した状況において、人気アーティストによるライブ開催の事前告知が同時に行われた場合を考える。このような場合であっても、異常・変化推定装置2によれば、人口動態推移と"野球観戦"推移との相関も、人口動態推移と"ライブ"推移との相関も共に学習済みとしたモデルを活用するので、より高い精度で、人口動態異常の原因・要因は"野球観戦"である旨の正しい推定を行うことも可能となるのである。 For example, in the area mesh around the "multipurpose stadium" as a POI that can handle a wide variety of events, in the situation where a vital abnormality occurred due to "watching a baseball game", a popular artist announced in advance that a live concert would be held at the same time. Consider the case. Even in such a case, according to the abnormality / change estimation device 2, both the correlation between the vital transition and the "watching baseball" transition and the correlation between the vital transition and the "live" transition have been learned. By utilizing the model, it is possible to accurately estimate that the cause / factor of the vital abnormality is "watching baseball" with higher accuracy.

さらに、異常・変化推定装置2においては、従来技術のように、事象時系列データのデータ値に対して一律の閾値を設定するようなことに頼らずに、当該事象における異常・変化の検出を可能としている。したがって、「トピック情報」に係る投稿を行う投稿者の属性によっては、そもそも投稿の絶対数が少ない場合も生じるが、そのような場合であっても、異常・変化の原因・要因を、各時系列データの推移パターンの関連性・類似性を勘案してより好適に推定することが可能となる。 Further, the abnormality / change estimation device 2 detects an abnormality / change in the event without relying on setting a uniform threshold value for the data value of the event time series data as in the prior art. It is possible. Therefore, depending on the attributes of the poster who posts the "topic information", the absolute number of posts may be small in the first place, but even in such a case, the cause / factor of the abnormality / change can be determined at each time. It is possible to make a more preferable estimation in consideration of the relevance / similarity of the transition pattern of the series data.

ちなみに、異常・変化推定装置2における特徴量の生成においては、上述したようにオートエンコーダを用いて「合成特徴量」を生成する形態に限定されるものではない。例えば、上記(a1)の事象時系列データと、上記(a2)の複数の投稿時系列データとを連結して特徴量とし、異常・変化推定モデル12は、この特徴量を入力として当該事象の「異常・変化に係る情報」を出力するようなモデルとして構築されてもよい。 Incidentally, the generation of the feature amount in the abnormality / change estimation device 2 is not limited to the form of generating the "composite feature amount" by using the autoencoder as described above. For example, the event time-series data of the above (a1) and the plurality of posting time-series data of the above (a2) are concatenated to form a feature amount, and the abnormality / change estimation model 12 uses this feature amount as an input for the event. It may be constructed as a model that outputs "information related to abnormalities / changes".

しかしながら、異常・変化推定モデル12へ入力する特徴量として、上述したような各時系列データの特徴が作用し合い融合した(それ故、結果的に次元の圧縮された)「合成特徴量」を採用することによって、より少ない計算処理負担の下、より精度良く、当該事象における「異常・変化に係る情報」を推定することも可能となるのである。またさらに言えば、事象時系列データの特徴と各投稿時系列データの特徴との相関を反映させた「合成特徴量」を生成することによって、事象との間の相関性が高い「トピック情報」を特定可能ともなっているのである。 However, as the feature amount to be input to the anomaly / change estimation model 12, the "composite feature amount" in which the features of each time series data as described above interact and are fused (and therefore, the dimension is compressed as a result) is used. By adopting it, it is possible to estimate "information related to anomalies / changes" in the event more accurately with less calculation processing load. Furthermore, by generating a "composite feature amount" that reflects the correlation between the characteristics of the event time series data and the characteristics of each posted time series data, "topic information" that is highly correlated with the event. It is also possible to identify.

なお、このような「合成特徴量」を生成するオートエンコーダは、図1に示した全結合型オートエンコーダに限定されるものではない。例えば後に図3を用いて詳細に説明するが、再帰型ニューラルネットワーク(RNN,Recurrent Neural Networks)・オートエンコーダ、又は長・短期記憶(Long-Short Term Memory,LSTM)オートエンコーダが、この「合成特徴量」の生成に使用されてもよいのである。 The autoencoder that generates such a "composite feature amount" is not limited to the fully coupled autoencoder shown in FIG. For example, as will be described in detail later with reference to FIG. 3, a recurrent neural network (RNN, Recurrent Neural Networks) autoencoder or a long-short term memory (LSTM) autoencoder has this “synthetic feature”. It may be used to generate a "quantity".

また当然とはなるが、異常・変化推定装置2(における異常・変化推定方法)の適用可能なケースは、上述したように事象として人口動態を捉えるものに限定されるものではない。実際、それについての時系列データを取得可能な事象であって何らかの原因・要因によって変動し得る事象であれば、種々様々なものが、異常・変化推定装置2によって取り扱い可能となる。 As a matter of course, the applicable cases of the abnormality / change estimation device 2 (the abnormality / change estimation method in the above) are not limited to those that capture vital statistics as an event as described above. In fact, if it is an event that can acquire time-series data about it and can change due to some cause / factor, various kinds of events can be handled by the abnormality / change estimation device 2.

例えば、異常・変化推定装置2(における異常・変化推定方法)の適用可能なケースとして以下の(a)〜(e)を挙げることができる。
(a)ある世帯や地域での電力使用量における異常(急増又は急減)の原因を、複数の「トピック情報」に係る投稿時系列データを用いて、すなわち複数のトピック推移によって推定する。
(b)ある基地局でのネットワークトラフィック量における異常(急増又は急減)の原因を、複数の「トピック情報」に係る投稿時系列データを用いて、すなわち複数のトピック推移によって推定する。
For example, the following (a) to (e) can be mentioned as applicable cases of the abnormality / change estimation device 2 (the abnormality / change estimation method in).
(A) The cause of an abnormality (rapid increase or decrease) in the amount of electricity used in a certain household or area is estimated using the posting time series data related to a plurality of "topic information", that is, by a plurality of topic transitions.
(B) The cause of an abnormality (rapid increase or decrease) in the network traffic volume at a certain base station is estimated using the posting time series data related to a plurality of "topic information", that is, by a plurality of topic transitions.

(c)ある企業の株価における所定以上の変化(騰貴又は下落)の原因を、複数の「トピック情報」に係る投稿時系列データを用いて、すなわち複数のトピック推移によって推定する。
(d)ある政党の支持率や(選挙における)獲得議席数の変化(増加又は低下)の原因を、複数の「トピック情報」に係る投稿時系列データを用いて、すなわち複数のトピック推移によって推定する。
(e)ある地方公共団体による行政サービスの満足度を示す指標における変化(向上又は低下)の原因を、複数の「トピック情報」についての該当住民による投稿に係る投稿時系列データを用いて、すなわち該当住民における複数のトピック推移によって推定する。
(C) The cause of a change (rise or fall) in the stock price of a certain company more than a predetermined value is estimated using the posting time series data related to a plurality of "topic information", that is, by a plurality of topic transitions.
(D) Estimate the cause of the change (increase or decrease) in the approval rating of a political party or the number of seats won (in elections) using the posting time series data related to multiple "topic information", that is, by multiple topic transitions. do.
(E) The cause of the change (improvement or decrease) in the index showing the satisfaction level of the administrative service by a local public body is determined by using the posting time series data related to the posting by the relevant residents regarding multiple "topic information", that is. Estimated from the transition of multiple topics in the relevant inhabitants.

ちなみに、上記(e)の指標としては例えば、「行政サービスに対する市民満足度」<URL: https://s-kantan.jp/city-ushiku-ibaraki-u/offer/userLoginDispNon.action?tempSeq=11892&accessFrom=>や、「市版SDGs指数」<URL: https://prtimes.jp/main/html/rd/p/000000011.000000266.html>等が挙げられる。 By the way, as the index of (e) above, for example, "citizen satisfaction with administrative services" <URL: https://s-kantan.jp/city-ushiku-ibaraki-u/offer/userLoginDispNon.action?tempSeq=11892&accessFrom =>, "City version SDGs index" <URL: https://prtimes.jp/main/html/rd/p/000000011.000000266.html>, etc. can be mentioned.

<投稿へのトピック紐づけ>
ここで、上述した「投稿」に対する「トピック情報」の紐づけ処理について、図2を用いて説明を行う。図2は、当該紐づけ処理を説明するためのテーブルを含む模式図である。
<Topic linking to posts>
Here, the process of associating the "topic information" with the above-mentioned "post" will be described with reference to FIG. FIG. 2 is a schematic diagram including a table for explaining the associating process.

図2に示した例によれば、2019年12月1日の正午あたりにおいて、xxx駅周辺の地域メッシュにおいて人口動態異常(例えば携帯端末数の増大)が発生しており、また、同時間帯の投稿群が、事業者の投稿管理サーバ3から取得されている。 According to the example shown in Fig. 2, a vital abnormality (for example, an increase in the number of mobile terminals) occurred in the regional mesh around xxx station around noon on December 1, 2019, and at the same time. Posts are acquired from the post management server 3 of the business operator.

次いで、これらの投稿群に含まれる各投稿に対し又は当該投稿群に対し、投稿−トピック紐づけ処理を実施し、当該投稿(群)に関係すると推察されるトピック(トピック情報)を付与しているのである。図2の例では、取得された投稿に対し、"電車遅延"とのトピックが付与されている。 Next, for each post included in these post groups or for the post group, a post-topic linking process is performed, and a topic (topic information) presumed to be related to the post (group) is given. There is. In the example of FIG. 2, the topic "train delay" is given to the acquired post.

このようなトピック情報の付与を可能にする投稿−トピック紐づけ処理としては、例えば以下の(a)〜(f)が挙げられる。
(a)予めトピック毎に単語を対応付けた単語辞書を用意しておき、取得された投稿群において所定以上の頻度で出現している単語を抽出し、当該単語の対応付けられたトピックを、付与するトピックとする。
(b)予めトピック毎にハッシュタグを対応付けたハッシュタグ辞書を用意しておき、取得された投稿群において所定以上の頻度で付されているハッシュタグを抽出し、当該ハッシュタグの対応付けられたトピックを、付与するトピックとする。
(c)大規模コーパスを用いて、LDA(Latent Dirichlet Allocation)やDTM(Dynamic Topic Model)等の、投稿からトピックを推定するトピックモデルを構築しておき、取得された投稿を当該トピックモデルへ入力して、付与すべきトピックを出力させる。
(d)上記(c)とは異なり、複数の投稿の結合系からトピック構成比を推定するトピックモデルを予め構築しておき、あるタイムスロット(例えば所定の1時間)に投稿された全ての投稿を結合した上で当該トピックモデルへ入力して、出力されたトピック構成比に基づき、所定以上の又は最大の構成比を有するトピックを、付与するトピックとする。
Examples of the post-topic linking process that enables the addition of such topic information include the following (a) to (f).
(A) A word dictionary in which words are associated with each topic is prepared in advance, words appearing at a frequency higher than a predetermined frequency in the acquired post group are extracted, and the associated topics of the words are referred to. Make it a topic to be given.
(B) Prepare a hashtag dictionary in which hashtags are associated with each topic in advance, extract hashtags attached to the acquired posts with a frequency equal to or higher than a predetermined frequency, and associate the hashtags with each other. The topic to be given is the topic to be given.
(C) Using a large-scale corpus, build a topic model that estimates topics from posts, such as LDA (Latent Dirichlet Allocation) and DTM (Dynamic Topic Model), and input the acquired posts into the topic model. And output the topic to be given.
(D) Unlike the above (c), a topic model that estimates the topic composition ratio from the combined system of a plurality of posts is constructed in advance, and all posts posted in a certain time slot (for example, a predetermined one hour). Is input to the topic model after combining the above, and based on the output topic composition ratio, the topic having the predetermined or more or the maximum composition ratio is set as the topic to be given.

(e)大規模コーパスを用いて、word2vec、doc2vecや、fastText等の単語ベクトル化手段によってベクトル化された投稿からトピックを推定するニューラルネットワーク(NN,Neural Networks)トピックモデルを構築しておき、取得された投稿を当該NNトピックモデルへ入力して、付与すべきトピックを出力させる。ここで、学習データにおける正解トピックは、当該投稿に付与されたラベルとし、当該NNトピックモデルの出力層は、正解に用いた全てのラベルと同数のニューロンを有する層に設定されることも好ましい。
(f)事前学習無しにトピック推定を行う場合(教師無し学習でモデルを設定する場合)として、実際に投稿された投稿群でトピックモデルを構築し、例えば「単語「電車」と単語「遅延」がともに含まれる投稿に係るトピックは"電車遅延"とする」といったようなルールを予め設けて、各投稿のトピックを同定した上で、構成比が所定以上の又は最大となるトピックを、付与するトピックとしてもよい。
(E) Using a large-scale corpus, build and acquire a neural network (NN, Neural Networks) topic model that estimates topics from posts vectorized by word vectorization means such as word2vec, doc2vec, and fastText. Input the posted post to the relevant NN topic model and output the topic to be assigned. Here, it is also preferable that the correct topic in the learning data is a label given to the post, and the output layer of the NN topic model is set to a layer having the same number of neurons as all the labels used for the correct answer.
(F) As a case of performing topic estimation without prior learning (when setting a model by unsupervised learning), a topic model is constructed from the actually posted posts, for example, "word" train "and word" delay ". A rule such as "Train delay" is set in advance for topics related to posts that include both, and after identifying the topics of each post, the topics whose composition ratio is equal to or greater than the specified ratio are assigned. It may be a topic.

[オートエンコーダ構成,モデル構成]
以下、本発明に係るオートエンコーダ及び異常・変化推定モデルの構成について詳細に説明を行う。
[Autoencoder configuration, model configuration]
Hereinafter, the configuration of the autoencoder and the abnormality / change estimation model according to the present invention will be described in detail.

同じく図1によれば、全結合オートエンコーダ11Fは、
(a)入力層、(b)中間層、及び(c)出力層
の3層からなる全結合型のニューラルネットワーク・アルゴリズムで構成されており、入力したデータを、そのまま出力するように学習した結果得られた上記(b)の中間層から、当該データの特徴量を抽出可能な符号器となっている。ちなみに、図1では、上記(b)の中間層は、分かり易い態様として1つの層から成っているが、当然これに限定されるものではない。この中間層を複数の層で構成し、そのうちの1つの層を、「合成特徴量」を取り出す層に設定してもよい。
Similarly, according to FIG. 1, the fully coupled autoencoder 11F is
It is composed of a fully connected neural network algorithm consisting of three layers (a) an input layer, (b) an intermediate layer, and (c) an output layer, and is the result of learning to output the input data as it is. It is a encoder that can extract the feature amount of the data from the obtained intermediate layer (b). Incidentally, in FIG. 1, the intermediate layer of the above (b) is composed of one layer in an easy-to-understand manner, but is not limited to this. This intermediate layer may be composed of a plurality of layers, and one of the layers may be set as a layer for extracting "synthetic features".

具体的に、全結合オートエンコーダ11Fは本実施形態において、上記(a)の入力層及び上記(c)の出力層の各々に対し、
(ア)「事象時系列データ」、図1では人口動態時系列データと、
(イ)複数の「投稿時系列データ」、図1では"スポーツ観戦"時系列データ、"ライブ"時系列データ、"電車遅延"時系列データ、・・・と
を連結した同一の「連結データ群」を用いて教師有り学習を行い、上記(b)の中間層から、この「連結データ群」を特徴づける量としての「合成特徴量」を取り出す、といった特徴量抽出処理を実施する。
Specifically, in the present embodiment, the fully coupled autoencoder 11F is used for each of the input layer (a) and the output layer (c).
(A) "Event time series data", in Fig. 1, vital time series data and
(B) Multiple "posted time series data", in Fig. 1, the same "concatenated data" that concatenates "sports watching" time series data, "live" time series data, "train delay" time series data, and so on. Supervised learning is performed using the "group", and a feature quantity extraction process such as extracting a "synthetic feature quantity" as a quantity that characterizes this "concatenated data group" from the intermediate layer of the above (b) is performed.

ここで、「事象時系列データ」は例えば、対象となる地域メッシュにおける所定のデータ収集期間(例えば1日間)の単位時間毎(例えば15分毎)の「事象に係る量」の多次元データ(例えば、96(=24×60/15)次元のデータ)とすることができる。ここで「事象に係る量」は、例えば人口動態時系列データであれば携帯端末(のユーザ)数としてもよい。 Here, the "event time series data" is, for example, multidimensional data (for example, every 15 minutes) of "amount related to an event" for each unit time (for example, every 15 minutes) of a predetermined data collection period (for example, one day) in the target area mesh. For example, it can be 96 (= 24 × 60/15) dimension data). Here, the "quantity related to the event" may be, for example, the number of mobile terminals (users) as long as it is vital time series data.

一方、「投稿時系列データ」は例えば、所定のデータ収集期間(例えば1日間)の単位時間毎(例えば60分毎)の「投稿に係る量」の多次元データ(例えば、24(=24×60/60)次元のデータ)とすることができる。ここで「投稿に係る量」は、(紐づけられたトピック毎の)投稿本数でもよく、または投稿出現確率値とすることもでき、その他、投稿がなされた度合いを表す量ならば種々の値が「投稿に係る量」として採用可能である。また、各「投稿時系列データ」の「投稿に係る量」は、(例えば0〜1の値に)規格化されたものとすることもできる。勿論規格化せず、収集された投稿に係るデータのスケール情報をそのまま残しておくことも可能である。 On the other hand, the "posting time series data" is, for example, multidimensional data (for example, 24 (= 24 ×)) of the “amount related to posting” for each unit time (for example, every 60 minutes) of a predetermined data collection period (for example, one day). It can be 60/60) dimensional data). Here, the "amount related to posting" may be the number of posts (for each linked topic), or may be a post appearance probability value, and various other values as long as it represents the degree of posting. Can be adopted as "amount related to posting". Further, the "amount related to posting" of each "posting time series data" may be standardized (for example, to a value of 0 to 1). Of course, it is also possible to leave the scale information of the data related to the collected posts as it is without standardizing.

さらに、「事象時系列データ」に係るデータ収集期間、及び複数のトピック毎の「投稿時系列データ」に係る複数のデータ収集期間は全て、同一期間であることがより好ましく、少なくとも互いに大部分が重畳する期間とすることが好ましい。例えば「事象時系列データ」及び複数の「投稿時系列データ」のデータ収集期間をいずれも同一日(例えば2019年12月1日の1日間)とするのがよいのである。これにより、両時系列データを同期させることができ、両時系列データの時間変化における現実に即した相関関係を、生成する「合成特徴量」に反映させることも可能となる。 Further, it is more preferable that the data collection period related to the "event time series data" and the plurality of data collection periods related to the "posting time series data" for each of the plurality of topics are all the same period, and at least most of each other. It is preferable to set the overlapping period. For example, it is preferable that the data collection period of the "event time series data" and the plurality of "posting time series data" is the same day (for example, one day on December 1, 2019). As a result, both time-series data can be synchronized, and the realistic correlation of the time-varying changes of both time-series data can be reflected in the generated "composite feature amount".

また、単位時間(分割タイムスロット)については、「事象時系列データ」と「投稿時系列データ」との間で異なっていてもよい。例えばAPIリクエストの制限等の事情によって、「投稿時系列データ」に係る単位時間は、「事象時系列データ」に係る単位時間よりも長い時間に設定するのが好ましい場合も存在するのである。一方で、複数のトピック毎の「投稿時系列データ」の間では、同一の単位時間(例えば1時間)に揃えることが好ましい。 Further, the unit time (divided time slot) may be different between the "event time series data" and the "posting time series data". For example, there are cases where it is preferable to set the unit time related to the "posted time series data" to be longer than the unit time related to the "event time series data" due to circumstances such as restrictions on API requests. On the other hand, it is preferable to arrange the same unit time (for example, 1 hour) among the "posting time series data" for each of a plurality of topics.

このように、データ収集期間や単位時間を揃えることによって、例えば、"スポーツ観戦"のイベントが発生したある1日での人口動態時系列データの推移と、トピック"スポーツ観戦"に係る投稿の盛り上がり具合の同日での推移との相関を、合成特徴量に含めて学習することができるので、例えば人気アーティストによる"ライブ"開催の事前告知が同日に行われた場合でも、高い精度で、"スポーツ観戦"による人口動態異常を推定可能となることが期待されるのである。 By aligning the data collection period and unit time in this way, for example, the transition of vital time series data in one day when the event of "watching sports" occurred and the excitement of posts related to the topic "watching sports" Since the correlation with the transition of the condition on the same day can be learned by including it in the synthetic feature amount, for example, even if a popular artist announces the "live" in advance on the same day, "sports" with high accuracy. It is expected that it will be possible to estimate vital abnormalities due to "watching games".

さらに、上記(a)の入力層及び上記(c)の出力層の各々に対して用いられる上述した「連結データ群」は、例えば「事象時系列データ」が96次元のデータであって、トピック数が5つで、さらに各「投稿時系列データ」が24次元のデータであるならば、216(=96+5*24)次元のデータとなる。またこの場合、上記(a)の入力層及び上記(c)の出力層の各々のニューロン数も、同数の216とすることができる。また勿論、上記(b)の中間層のニューロン数(合成特徴量としての次元数)は、この216未満の数、例えば54、に設定されるのである。 Further, in the above-mentioned "concatenated data group" used for each of the input layer of the above (a) and the output layer of the above (c), for example, the "event time series data" is 96-dimensional data and is a topic. If the number is 5, and each "posting time series data" is 24-dimensional data, it will be 216 (= 96 + 5 * 24) -dimensional data. In this case, the number of neurons in each of the input layer (a) and the output layer (c) can be set to 216, which is the same number. Of course, the number of neurons in the middle layer (number of dimensions as a synthetic feature amount) in the above (b) is set to a number less than 216, for example, 54.

ここで変更態様として、対象となる事象が所定の地域メッシュに係る事象であって、当該地域メッシュを含む所定範囲内に当該事象の異常・変化に関係し得る地点としてのPOI(例えばイベント会場)が1つ又は複数存在している場合に、入出力層に用いられる上述した「連結データ群」は、上記(ア)の「事象時系列データ」、及び上記(イ)の複数の「投稿時系列データ」に加え、
(ウ)当該地域メッシュ(の例えば中心)と(各)POIとの離隔度合いに係る情報(例えば距離)、及び
(エ)(各)POIの種別情報(例えば予め分類・設定しておいた、"イベント会場"や"多目的グラウンド"等のような(各)POIのカテゴリ)
のうちのいずれか一方又は両方を連結したデータとすることも好ましい。
Here, as a modification mode, the target event is an event related to a predetermined area mesh, and the POI (for example, an event venue) as a point that can be related to an abnormality / change of the event within a predetermined range including the area mesh. When one or more of the above are present, the above-mentioned "concatenated data group" used for the input / output layer is the "event time series data" of the above (a) and the plurality of "posting time" of the above (b). In addition to "series data"
(C) Information related to the degree of separation between the area mesh (for example, the center) and (each) POI (for example, distance), and (d) (each) POI type information (for example, classified and set in advance. (Each) POI category such as "event venue" or "multipurpose ground")
It is also preferable to use data in which either one or both of them are concatenated.

これにより、当該事象の異常・変化に関係するPOIに係る情報も「合成特徴量」に盛り込むことができ、この後POIの存在も考慮した、より精度の高い推定処理を実施することも可能となる。例えば、上記(ウ)の離隔度合い情報は、POIが推定結果に影響する度合いを示す指標とも考えられ、また、上記(エ)の種別情報は、例えば人口動態異常を引き起こすような発生イベントの種別についてはPOIのカテゴリによって限定される可能性が高いことから、両者共に「合成特徴量」に反映させることも好ましいのである。 As a result, information related to POI related to the abnormality / change of the event can be included in the "composite feature amount", and after that, it is possible to carry out more accurate estimation processing in consideration of the existence of POI. Become. For example, the separation degree information in (c) above can be considered as an index showing the degree of influence of POI on the estimation result, and the type information in (d) above is, for example, the type of event that causes vital abnormalities. Is likely to be limited by the POI category, so it is also preferable to reflect both in the "synthetic feature amount".

また更なる変更態様として、上述した「連結データ群」は、上記(ア)の「事象時系列データ」、及び上記(イ)の複数の「投稿時系列データ」に加え、または、さらにそれに上記(ウ)及び/又は上記(エ)を加えたものに対し、
(オ)所定期間(例えば1日間)での投稿の数における当該投稿の数の統計値(例えば1年間における1日当たりの投稿数の平均値)からの乖離度合い(例えば差や偏差値等)
(カ)取得された投稿の投稿者の属性情報(例えば性別や年齢層等)、及び
(キ)取得された投稿に添付された添付データ(例えば画像)に係る情報(例えば当該画像の特徴量)
のうちの少なくとも1つを連結したデータとすることも好ましい。
As a further modification, the above-mentioned "concatenated data group" is added to the above-mentioned "event time-series data" in (a) and the plurality of "posting time-series data" in (a) above, or further described above. (C) and / or the addition of the above (d)
(E) Degree of deviation from the statistical value of the number of posts in the number of posts in a predetermined period (for example, one day) (for example, the average value of the number of posts per day in one year) (for example, difference or deviation value)
(F) Attribute information of the poster of the acquired post (for example, gender, age group, etc.), and (g) Information related to the attached data (for example, image) attached to the acquired post (for example, the feature amount of the image). )
It is also preferable to concatenate at least one of the data.

ここで、上記(オ)の乖離度合いは、当該事象に異常が生じた場合には通常よりも大きくなるものと考えられ、それを特徴量に組み込むことは、異常推定の精度向上の点で有効となり得る。 Here, the degree of dissociation in (e) above is considered to be larger than usual when an abnormality occurs in the event, and incorporating it into the feature amount is effective in improving the accuracy of abnormality estimation. Can be.

また、上記(カ)の属性情報は、例えばあるライブには若年層が参加しやすい傾向にあり、また、あるスポーツ観戦には男性が参加しやすい傾向にある等、当該事象の異常・変化に対しその原因・要因によっては属性が影響することは十分に考えられ、それを特徴量に組み込むことも推定精度の向上に資するものとなり得る。なお、投稿者の属性情報は、例えば投稿された文章を機械学習等の公知の解析方法で解析することにより、当該文章から推定することが可能である。 In addition, the attribute information in (f) above indicates abnormalities / changes in the event, such as a tendency for young people to easily participate in a certain live performance and a tendency for men to easily participate in a certain sport watching. On the other hand, it is fully conceivable that the attributes will have an effect depending on the cause / factor, and incorporating it into the feature quantity can also contribute to the improvement of estimation accuracy. The attribute information of the poster can be estimated from the posted text by analyzing the posted text by a known analysis method such as machine learning.

さらに、上記(キ)の添付データ情報は、例えば画像等の添付された情報が、投稿の内容、ひいては紐づけられたトピックに関係し得ることが考えられ、同じくこれを特徴量に組み込むことも、異常推定の精度向上の点で有効となり得る。なお、添付データに係る情報としての画像特徴量は、例えばCNN(Convolutional Neural Networks)を用いたYOLO(You Look Only Once)といったような公知のオブジェクト検出アルゴリズムを用いて算出することが可能である。 Furthermore, regarding the attached data information in (g) above, it is conceivable that the attached information such as an image may be related to the content of the post and the topic associated with it, and this may also be incorporated into the feature quantity. , It can be effective in improving the accuracy of abnormality estimation. The image feature amount as information related to the attached data can be calculated by using a known object detection algorithm such as YOLO (You Look Only Once) using CNN (Convolutional Neural Networks).

同じく図1によれば、異常・変化推定モデル12は、入力層と、隠れ層と、出力層との多層からなるDNN(Deep Neural Networks)アルゴリズムで構成されており、全結合オートエンコーダ11Fで生成された「合成特徴量」を入力層に用い、出力層の各ニューロン値として、当該事象における「異常・変化に係る情報」を出力する推定器となっている。 Similarly, according to FIG. 1, the anomaly / change estimation model 12 is composed of a DNN (Deep Neural Networks) algorithm including a multi-layer of an input layer, a hidden layer, and an output layer, and is generated by a fully coupled autoencoder 11F. It is an estimator that uses the obtained "synthetic features" as the input layer and outputs "information related to abnormalities / changes" in the event as each neuron value in the output layer.

勿論、異常・変化推定モデル12は、「合成特徴量」を入力とし得るものならば他の種々様々な機械学習アルゴリズムによって構築可能であるが、本実施形態では、異常・変化の検出と異常の原因・要因推定とを一挙に実施すべく、それに適したDNNを採用している。具体的には1つの好適な態様として、出力層の出力をOne-HotベクトルとしたDNNアルゴリズムを用いている。 Of course, the anomaly / change estimation model 12 can be constructed by various other machine learning algorithms as long as the "composite feature amount" can be input, but in the present embodiment, the anomaly / change detection and the abnormality can be constructed. In order to estimate the cause / factor at once, a DNN suitable for it is adopted. Specifically, as one preferred embodiment, a DNN algorithm in which the output of the output layer is a One-Hot vector is used.

すなわち、本実施形態での出力層の出力は、例えば「人口動態異常有り且つその原因・要因はスポーツ観戦」の場合、図1に示したように、
"異常無し" "スポーツ観戦" "ライブ" "電車遅延" ・・・
( 0, 1, 0, 0, ・・・)
となる。またこの場合、この出力(One-Hotベクトル)の次元数(出力層のニューロン数)は、(原因・要因候補のトピック数)+1となるのである。
That is, the output of the output layer in the present embodiment is, for example, in the case of "there is an abnormal vitality and the cause / factor is watching sports", as shown in FIG.
"No abnormality""Watchingsports""Live""Traindelay" ・ ・ ・
(0, 1, 0, 0, ...)
Will be. In this case, the number of dimensions of this output (One-Hot vector) (the number of neurons in the output layer) is (the number of topic of cause / factor candidates) + 1.

ここで、異常・変化推定モデル12の構築には、生成された合成特徴量に対し、異常・変化の原因・要因を示すラベルを、例えば人手によって付与することにより作成した学習データを用いてもよい。ここで、付与するラベルとして例えば、上述した投稿−トピック紐づけ処理の際に決定されたトピックを採用することができる。また、異常・変化の検出と異常の原因・要因推定とを一挙に実施するべく、上記の"異常無し"ラベルを採用することも好ましい。 Here, in constructing the abnormality / change estimation model 12, for example, learning data created by manually assigning a label indicating the cause / factor of the abnormality / change to the generated synthetic feature amount may be used. good. Here, as the label to be given, for example, the topic determined at the time of the above-mentioned post-topic linking process can be adopted. It is also preferable to adopt the above-mentioned "no abnormality" label in order to detect an abnormality / change and estimate the cause / factor of the abnormality at once.

ちなみに当然ではあるが、異常・変化推定モデル12は、他の「異常・変化に係る情報」を出力するモデルであってもよい。例えば、異常・変化の原因・要因として予め設定された項目(例えば以上に述べたトピック)毎の尤度を出力してもよく、または、尤度の最も高い1つの原因・要因(例えば1つのトピック)を出力するものであってよい。 Incidentally, as a matter of course, the abnormality / change estimation model 12 may be a model that outputs other "information related to the abnormality / change". For example, the likelihood for each item (for example, the topic described above) preset as the cause / factor of the abnormality / change may be output, or one cause / factor with the highest likelihood (for example, one). It may output the topic).

またトピック設定の変更態様として、各投稿時系列データに係る(さらには異常・変化推定モデル12構築のためのラベルとなる)複数のトピック(トピック情報)を、投稿者の属性情報に係る1つの範囲と1つのトピック種別との組を含むものとすることも可能である。例えば、複数のトピックとして
・「(投稿者は女性が50%を超える)ライブA」、
・「(投稿者は男性が50%を超える)ライブB」、
・「(投稿者は(例えば34歳以下の)若年層が50%を超える)スポーツ観戦A」、
・「スポーツ観戦B」、
・「電車遅延」、・・・
を設定してもよい。これにより、推定される原因・要因について、属性も関係するより詳細な情報を得ることも可能となる。
In addition, as a change mode of the topic setting, a plurality of topics (topic information) related to each posting time series data (furthermore, a label for constructing the abnormality / change estimation model 12) are set as one related to the attribute information of the poster. It is also possible to include a set of a range and one topic type. For example, as multiple topics: "(Posters are more than 50% female) Live A",
・ "(Posters are more than 50% male) Live B",
・ "(Posted by more than 50% of young people (for example, 34 years old or younger)) Watching sports A",
・ "Watching sports B",
·"train delay",···
May be set. This makes it possible to obtain more detailed information related to the attributes of the estimated cause / factor.

図3は、本発明に係るオートエンコーダについての他の実施形態を説明するための模式図である。 FIG. 3 is a schematic diagram for explaining another embodiment of the autoencoder according to the present invention.

ここまで「合成特徴量」を生成する手段として、全結合オートエンコーダ11F(図1)を説明してきたが、他の実施形態として、図3に示したRNNオートエンコーダ11Rや、LSTMオートエンコーダ11Lを採用することも可能である。 Up to this point, the fully coupled autoencoder 11F (FIG. 1) has been described as a means for generating the "composite feature amount", but as another embodiment, the RNN autoencoder 11R and the LSTM autoencoder 11L shown in FIG. 3 have been used. It is also possible to adopt it.

図3によれば、RNNオートエンコーダ11R(及びLSTMオートエンコーダ11L)においても、全結合オートエンコーダ11Fと同様、事象時系列データと複数の投稿時系列データとを連結した「連結データ群」を入力層として、その際の出力層が当該「連結データ群」と同一となるように学習を行い、その結果得られた「中間層」から合成特徴量を取り出す処理が実施される。 According to FIG. 3, also in the RNN autoencoder 11R (and the LSTM autoencoder 11L), as in the fully coupled autoencoder 11F, a "concatenated data group" in which the event time series data and a plurality of posting time series data are concatenated is input. As a layer, learning is performed so that the output layer at that time is the same as the "connected data group", and a process of extracting a synthetic feature amount from the "intermediate layer" obtained as a result is performed.

しかしながら、RNNオートエンコーダ11R(及びLSTMオートエンコーダ11L)においては、全結合オートエンコーダ11Fとは異なり、所定期間(例えば1日間)における単位時間毎(例えば15分間毎)に、入力層としての「連結データ群」における当該単位時間に対応する複数のニューロンからニューロン値を取り込んで、自らのニューロン値を決定する複数のニューロンからなる「中間層」が順次、生成されるのである。 However, in the RNN autoencoder 11R (and LSTM autoencoder 11L), unlike the fully coupled autoencoder 11F, "connection" as an input layer is performed every unit time (for example, every 15 minutes) in a predetermined period (for example, one day). By taking in neuron values from a plurality of neurons corresponding to the unit time in the "data group", an "intermediate layer" consisting of a plurality of neurons that determines their own neuron values is sequentially generated.

より具体的には、「連結データ群」(事象時系列データ及び複数の投稿時系列データ)において設定されている単位時間をTi(i=1, 2, ・・・, n)とすると、単位時間Tj+1(j=1, 2, ・・・, n-1)について生成される中間層における各ニューロンは、
(a)入力層としての「連結データ群」における単位時間Tj+1に対応する複数のニューロンからのニューロン値と、
(b)1つ前の単位時間Tjの中間層における対応するニューロンのニューロン値と
を重み付け線形和した値に基づいて、自らのニューロン値を決定する。
More specifically, if the unit time set in the "concatenated data group" (event time series data and multiple posting time series data) is T i (i = 1, 2, ..., n), Each neuron in the middle layer generated for the unit time T j + 1 (j = 1, 2, ···, n-1)
(A) Neuron values from multiple neurons corresponding to the unit time T j + 1 in the "connected data group" as the input layer,
(B) Determines its own neuron value based on the weighted linear sum of the neuron values of the corresponding neurons in the middle layer of the previous unit time T j.

すなわち、RNNオートエンコーダ11R(及びLSTMオートエンコーダ11L)においては、ある単位時間の「中間層」は、1つ前の(過去の)「中間層」の出力も考慮して再帰的に生成されるのである。ここで、最終的に生成された「中間層」(単位時間Tnの「中間層」)が、合成特徴量として抽出・出力される。 That is, in the RNN autoencoder 11R (and LSTM autoencoder 11L), the "intermediate layer" for a certain unit time is recursively generated in consideration of the output of the previous (past) "intermediate layer". It is. Here, the finally generated "intermediate layer"("intermediatelayer" with a unit time T n ) is extracted and output as a composite feature amount.

なお、LSTMオートエンコーダ11Lは、RNNオートエンコーダ11Rにおいて、
(a)「中間層」に設けられたメモリセルに記憶された各要素における保持/忘却の経時変化を制御する忘却ゲート、及び
(b)矛盾する重み更新を回避するための入力ゲート及び出力ゲート
を更に設けたものであり、例えば遠い過去の「中間層」の情報も反映して新たな「中間層」を生成するという長期依存(long-term dependencies)も実現可能としたエンコーダとなっている。
The LSTM autoencoder 11L is used in the RNN autoencoder 11R.
(A) A forgetting gate that controls the time course of retention / forgetting in each element stored in a memory cell provided in the "intermediate layer", and (b) an input gate and an output gate for avoiding inconsistent weight updates. For example, it is an encoder that can realize long-term dependencies to generate a new "intermediate layer" by reflecting the information of the "intermediate layer" in the distant past. ..

このようなRNNオートエンコーダ11RやLSTMオートエンコーダ11Lを利用し、特徴抽出対象データ(事象時系列データ及び複数の投稿時系列データ)における、連続的な時間変化の情報(過去のデータとの関係に係る情報)も合成特徴量に反映させることによって、基本的に時間変化の中で発生する異常・変化をより精度良く推定することも可能となるのである。 Using such RNN autoencoder 11R and LSTM autoencoder 11L, continuous time change information (relationship with past data) in feature extraction target data (event time series data and a plurality of posting time series data) By reflecting the relevant information) in the composite feature amount, it is possible to estimate the anomaly / change that basically occurs over time with more accuracy.

ちなみに、RNNオートエンコーダ11RやLSTMオートエンコーダ11Lは、入力する「連結データ群」として、事象時系列データ及び複数の投稿時系列データに加え、すでに説明した上記の(ウ)〜(キ)といったような情報をも連結したものを取り扱い、その合成特徴量を出力するように設定されてもよい。 By the way, the RNN autoencoder 11R and the LSTM autoencoder 11L have the above-mentioned (c) to (g) described above in addition to the event time series data and the plurality of posting time series data as the input "concatenated data group". It may be set to handle a concatenated piece of information and output the combined feature amount.

図4は、本発明に係る合成特徴量の生成処理についての他の実施形態を説明するための模式図である。 FIG. 4 is a schematic diagram for explaining another embodiment of the synthetic feature amount generation process according to the present invention.

ここまで、「合成特徴量」を生成する際にオートエンコーダ(11F、11R又は11L)へ入力するデータとして、事象時系列データ及び複数の投稿時系列データの全体からなる「連結データ群」を用いる形態を説明してきた。 Up to this point, as the data to be input to the autoencoder (11F, 11R or 11L) when generating the "composite feature amount", the "concatenated data group" consisting of the entire event time series data and a plurality of posting time series data is used. I have explained the form.

これに対し、図4に示すように本実施形態では、
(a)事象時系列データと複数の投稿時系列データの各々との連結した組である複数の組(「事象・投稿連結ペア」)を生成し、
(b)生成した「事象・投稿連結ペア」のそれぞれに対し、個別に用意されたオートエンコーダ(11F、11R又は11L)による特徴量合成処理を行って複数の「合成特徴量部分」を生成し、
(c)生成した複数の「特徴量部分」を連結して「合成特徴量」を生成するのである。
On the other hand, as shown in FIG. 4, in the present embodiment,
(A) Generate a plurality of pairs (“event / post concatenation pair”) which are concatenated pairs of the event time series data and each of the plurality of post time series data.
(B) For each of the generated "event / post concatenated pairs", feature quantity synthesis processing is performed by an autoencoder (11F, 11R or 11L) prepared individually to generate a plurality of "composite feature quantity portions". ,
(C) A "composite feature amount" is generated by connecting a plurality of generated "feature amount portions".

このように、複数の「事象・投稿連結ペア」から一先ず、複数の「合成特徴量部分」を生成することによって、各「合成特徴量部分」に、事象時系列データの時間変化と1つの投稿時系列データの時間変化との相関を直接的に反映させることが可能となる。その結果、この後生成される「合成特徴量」を用いれば、いずれかの相関の度合いに強い影響を与えている異常・変化を、さらにはその原因・要因を、より精度良く推定することも可能となるのである。 In this way, by first generating a plurality of "synthetic feature parts" from a plurality of "event / post concatenated pairs", a time change of event time series data and one post are made in each "synthetic feature part". It is possible to directly reflect the correlation of time series data with time changes. As a result, by using the "composite features" generated after this, it is possible to more accurately estimate the abnormalities / changes that have a strong influence on the degree of correlation, and the causes / factors. It will be possible.

ちなみに本実施形態においても、複数の「事象・投稿連結ペア」のうちの少なくとも1つ又は全部は、事象時系列データ及び複数の投稿時系列データに加え、すでに説明した上記の(ウ)〜(キ)といったような情報をも連結したものとすることもできる。 Incidentally, also in the present embodiment, at least one or all of the plurality of "event / post concatenated pairs" is added to the event time series data and the plurality of post time series data, and the above-mentioned (c) to (c) to ( Information such as (g)) can also be linked.

例えば、「事象・投稿連結ペア」を構成する投稿時系列データに係るトピックや投稿者等によって、上記の(ウ)〜(キ)といったような情報が収集可能か否かの事情が異なる場合も存在する。したがって、そのような収集が可能な投稿時系列データに係る「事象・投稿連結ペア」についてのみ、上記の(ウ)〜(キ)といったような情報も取り入れることも可能となるのである。 For example, the circumstances of whether or not information such as (c) to (g) above can be collected may differ depending on the topic or contributor related to the posting time series data that constitutes the "event / posting concatenated pair". exist. Therefore, it is possible to incorporate information such as (c) to (g) above only for the "event / post concatenated pair" related to the posting time series data that can be collected in this way.

[異常・変化推定装置,異常・変化推定プログラム]
以下、図1に戻って、以上に説明したようなオートエンコーダ(11F、11R又は11L)と、異常・変化推定モデル12とを搭載しており、所定の事象における異常・変化発生の有無、及び発生した異常・変化の原因・要因に係る情報を、推定結果として出力可能とする異常・変化推定装置2について説明する。
[Abnormality / change estimation device, abnormality / change estimation program]
Hereinafter, returning to FIG. 1, the autoencoder (11F, 11R or 11L) as described above and the abnormality / change estimation model 12 are mounted, and the presence / absence of abnormality / change occurrence in a predetermined event and the presence / absence of abnormality / change occurrence in a predetermined event, and An abnormality / change estimation device 2 that enables output of information related to the cause / factor of an abnormality / change that has occurred as an estimation result will be described.

図1に示したように、異常・変化推定装置2は、入力部21と、特徴量・モデル生成部22と、異常・変化決定部23と、出力部24とを備えている。このうち、特徴量・モデル生成部22、及び異常・変化決定部23は、本発明による異常・変化推定方法の一実施形態を実施する主要部であり、また、本発明による異常・変化推定プログラムの一実施形態を保存したプロセッサ・メモリの機能と捉えることもできる。 As shown in FIG. 1, the abnormality / change estimation device 2 includes an input unit 21, a feature amount / model generation unit 22, an abnormality / change determination unit 23, and an output unit 24. Of these, the feature quantity / model generation unit 22 and the abnormality / change determination unit 23 are the main parts that implement one embodiment of the abnormality / change estimation method according to the present invention, and the abnormality / change estimation program according to the present invention. One embodiment can be regarded as a function of a stored processor memory.

またこのことから、異常・変化推定装置2は、異常・変化推定の専用装置であってもよいが、本発明による異常・変化推定プログラムを搭載した、例えばクラウドサーバ、非クラウドのサーバ装置、パーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等とすることも可能である。 From this, the abnormality / change estimation device 2 may be a dedicated device for abnormality / change estimation, but is equipped with the abnormality / change estimation program according to the present invention, for example, a cloud server, a non-cloud server device, or a personal computer. -It is also possible to use a computer (PC), a notebook type or tablet type computer, a smartphone, or the like.

同じく図1において、異常・変化推定装置2の入力部21は、通信機能を備えていて、例えば外部に設置されたサーバ(例えば通信事業者の通信管理サーバ及びネットワーキングサービス事業者の投稿管理サーバ)から、所定の事象に係る情報(例えば携帯端末数)及び投稿に係る情報(例えば投稿データ)を受信し、所定のデータ形式を有する事象時系列データ(例えば人口動態時系列データ)及び複数の投稿時系列データ(例えばトピック毎の投稿数の時系列データ)を生成して、特徴量・モデル生成部22に保存させる。 Similarly, in FIG. 1, the input unit 21 of the abnormality / change estimation device 2 has a communication function, and is, for example, an externally installed server (for example, a communication management server of a communication company and a posting management server of a networking service company). Receives information related to a predetermined event (for example, the number of mobile terminals) and information related to posting (for example, posted data), and event time series data (for example, demographic time series data) having a predetermined data format and a plurality of posts. Time-series data (for example, time-series data of the number of posts for each topic) is generated and stored in the feature amount / model generation unit 22.

特徴量・モデル生成部22は、
(a)オートエンコーダ(11F、11R又は11)を用いて、事象時系列データ及び複数の投稿時系列データの合成特徴量を生成し、生成した合成特徴量に正解ラベルを付与した学習データをもって異常・変化推定モデル12を構築して、当該異常・変化推定モデル12を異常・変化決定部23に提供し、また、
(b)同じくオートエンコーダ(11F、11R又は11)を用いて、推定対象の事象時系列データを含む連結データ群(又は事象・投稿連結ペア)による合成特徴量を生成し、生成した合成特徴量を、異常・変化決定部23へ出力する。
The feature amount / model generation unit 22
(A) Using an autoencoder (11F, 11R or 11), a composite feature amount of event time series data and a plurality of posted time series data is generated, and the generated composite feature amount is abnormal with the training data with a correct answer label. -The change estimation model 12 is constructed, the abnormality / change estimation model 12 is provided to the abnormality / change determination unit 23, and the abnormality / change estimation model 12 is provided.
(B) Similarly, using an autoencoder (11F, 11R or 11), a synthetic feature amount is generated by a concatenated data group (or event / post concatenated pair) including the event time series data to be estimated, and the generated synthetic feature amount is generated. Is output to the abnormality / change determination unit 23.

異常・変化決定部23は、受け取った異常・変化推定モデル12を用いて、同じく受け取った合成特徴量から、当該事象における「異常・変化発生の有無、及びその原因・要因に係る情報」を決定し、出力部24へ出力する。 The abnormality / change determination unit 23 uses the received abnormality / change estimation model 12 to determine "presence / absence of abnormality / change occurrence and information on its cause / factor" in the event from the similarly received synthetic features. Then, it is output to the output unit 24.

出力部24は、受け取った「異常・変化発生の有無、及びその原因・要因に係る情報」を例えば、ディスプレイに表示させたり、(通信機能を備えている場合に)外部の情報処理装置に送信したりする。ここで、表示・送信される当該情報は、例えば「2019年12月1日xx時xx分あたりに、xxx駅周辺で、電車遅延による人口の急増(通常と比較して80%の増大)が発生」といったような情報となる。 The output unit 24 displays, for example, the received "information on the presence / absence of an abnormality / change and its cause / factor" on a display or transmits it to an external information processing device (when a communication function is provided). To do. Here, the information displayed and transmitted is, for example, "Around xx: xx on December 1, 2019, there is a rapid increase in population due to train delays (80% increase compared to normal) around xxx station. Information such as "occurrence".

以上詳細に説明したように、本発明によれば、所定の事象に係る事象時系列データだけでもなく、ただ1つのトピックに係る投稿時系列データだけでもなく、当該事象の異常・変化の原因・要因候補となる複数のトピック情報に係る投稿時系列データをも取り込んで特徴量を生成するので、当該特徴量に基づくことによって当該事象の異常・変化に係る情報を、より精度良く推定することが可能となる。 As described in detail above, according to the present invention, not only the event time series data related to a predetermined event, but also the posting time series data related to only one topic, the cause of the abnormality / change of the event, Since the feature amount is generated by incorporating the posting time series data related to multiple topic information that is a factor candidate, it is possible to estimate the information related to the abnormality / change of the event more accurately based on the feature amount. It will be possible.

また、本発明は、それについての時系列データを取得可能な事象であって何らかの原因・要因によって変動し得る事象であれば、種々様々な事象に対し、適用可能となっているのである。 Further, the present invention can be applied to various events as long as it is an event for which time series data can be acquired and which can fluctuate due to some cause / factor.

例えば、当該事象として人口動態(人の集合離散)を適用したケースについてではあるが、本発明によれば、複数の投稿時系列データも活用することによって、人口動態異常の発生の有無や、(その実施形態によっては)発生した人口動態異常の原因・要因も推定することが可能となる。またこのことから本発明は、例えばイベント発生時、災害時や緊急事態発令時における都市変動特性の正確な把握や、そこでの人流制御の適切な実施にも、大いに資するものと考えられる。さらに、今後各地で普及の見込まれるスマートシティにおけるそのような事態発生の際の好適な運営にも、貢献可能な発明になっていると考えられる。 For example, in the case of applying vital statistics (collective dispersal of people) as the event, according to the present invention, the presence or absence of vital abnormalities can be determined by utilizing a plurality of posting time series data. Depending on the embodiment, it is possible to estimate the cause / factor of the vital abnormalities that have occurred. From this, it is considered that the present invention greatly contributes to the accurate grasp of the characteristics of urban fluctuations at the time of an event, a disaster, or the issuance of an emergency, and the appropriate implementation of the flow control there. Furthermore, it is considered that the invention can contribute to suitable operation in the event of such a situation in smart cities, which are expected to become widespread in various places in the future.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 With respect to the various embodiments of the present invention described above, various changes, modifications and omissions within the scope of the technical idea and viewpoint of the present invention can be easily made by those skilled in the art. The above explanation is just an example and does not attempt to restrict anything. The present invention is limited only to the scope of claims and their equivalents.

11F 全結合オートエンコーダ
11R RNNオートエンコーダ
11L LSTMオートエンコーダ
12 異常・変化推定モデル
2 異常・変化推定装置
21 入力部
22 特徴量・モデル生成部
23 異常・変化決定部
24 出力部
11F Fully coupled autoencoder 11R RNN autoencoder 11L RSTM autoencoder 12 Abnormality / change estimation model 2 Abnormality / change estimation device 21 Input unit 22 Feature / model generation unit 23 Abnormality / change determination unit 24 Output unit

Claims (11)

所定の事象に係る事象時系列データと、当該事象の異常又は変化に関係し得る複数のトピック情報に係る複数の投稿群それぞれについての複数の投稿時系列データとから、当該事象時系列データ及び当該投稿時系列データの合成又は連結に係る特徴量を生成するステップと、
当該特徴量を構築済みの異常又は変化推定モデルに入力し、当該異常又は変化推定モデルからの出力に基づいて、当該事象の異常又は変化に係る情報を決定するステップと
を含むことを特徴とする、コンピュータにおける異常又は変化推定方法。
From the event time-series data related to a predetermined event and the multiple posting time-series data for each of the plurality of posting groups related to a plurality of topic information that may be related to the abnormality or change of the event, the event time-series data and the relevant event. Steps to generate features related to composition or concatenation of posting time series data,
It is characterized by including a step of inputting the feature amount into the constructed abnormality or change estimation model and determining information related to the abnormality or change of the event based on the output from the abnormality or change estimation model. , Anomaly or change estimation method in a computer.
当該事象時系列データ及び当該投稿時系列データから、オートエンコーダ(auto-encoder)を用いて当該特徴量を生成することを特徴とする請求項1に記載の異常又は変化推定方法。 The abnormality or change estimation method according to claim 1, wherein the feature amount is generated from the event time series data and the posting time series data by using an auto-encoder. 当該オートエンコーダは、全結合型オートエンコーダ、再帰型ニューラルネットワーク(RNN,Recurrent Neural Networks)・オートエンコーダ、又は長・短期記憶(Long-Short Term Memory,LSTM)オートエンコーダであることを特徴とする請求項2に記載の異常又は変化推定方法。 The autoencoder is a fully coupled autoencoder, a recurrent neural network (RNN) autoencoder, or a long-short term memory (LSTM) autoencoder. Item 2. The method for estimating an abnormality or change according to Item 2. 当該事象時系列データ及び前記複数の投稿時系列データの全体から、当該オートエンコーダを用いて当該特徴量を生成することを特徴とする請求項2又は3に記載の異常又は変化推定方法。 The abnormality or change estimation method according to claim 2 or 3, wherein the feature amount is generated by using the autoencoder from the whole of the event time series data and the plurality of posting time series data. 前記複数の投稿時系列データの各々と当該事象時系列データとの組である複数の組のそれぞれから、当該オートエンコーダを用いて複数の特徴量部分を生成し、該複数の特徴量部分から当該特徴量を生成することを特徴とする請求項2又は3に記載の異常又は変化推定方法。 A plurality of feature quantity portions are generated from each of the plurality of pairs of the plurality of posted time series data and the event time series data by using the autoencoder, and the feature quantity portions are used to generate the feature quantity portions. The abnormality or change estimation method according to claim 2 or 3, wherein a feature amount is generated. 当該事象は所定のエリアに係る事象であって、当該エリアを含む所定範囲内に当該事象の異常又は変化に関係し得る地点が存在しており、
当該事象時系列データ及び当該投稿時系列データ、並びに、当該エリアと当該地点との離隔度合いに係る情報、及び/又は、当該地点の種別情報から、当該オートエンコーダを用いて当該特徴量を生成することを特徴とする請求項2から5のいずれか1項に記載の異常又は変化推定方法。
The event is an event related to a predetermined area, and there is a point within a predetermined range including the area that may be related to an abnormality or change of the event.
The feature amount is generated by using the autoencoder from the event time series data, the posting time series data, the information related to the degree of separation between the area and the point, and / or the type information of the point. The abnormality or change estimation method according to any one of claims 2 to 5, wherein the abnormality or change is estimated.
当該事象時系列データ及び当該投稿時系列データと、
所定期間での当該投稿の数における当該投稿の数の統計値からの乖離度合い、当該投稿の投稿者の属性情報、及び/又は、当該投稿に添付された添付データに係る情報と
から、当該オートエンコーダを用いて当該特徴量を生成することを特徴とする請求項2から6のいずれか1項に記載の異常又は変化推定方法。
The event time series data, the posting time series data, and
Based on the degree of deviation from the statistical value of the number of posts in the number of posts in a predetermined period, the attribute information of the poster of the post, and / or the information related to the attached data attached to the post, the autoencoder The abnormality or change estimation method according to any one of claims 2 to 6, wherein the feature amount is generated by using an encoder.
前記複数のトピック情報は、当該投稿の投稿者の属性情報に係る1つの範囲と1つのトピック種別との組を含むことを特徴とする請求項1から7のいずれか1項に記載の異常又は変化推定方法。 The abnormality or abnormality according to any one of claims 1 to 7, wherein the plurality of topic information includes a set of one range and one topic type related to the attribute information of the poster of the post. Change estimation method. 当該事象の異常又は変化に係る情報は、当該事象において異常若しくは変化が発生したか否かに係る情報、及び/又は、当該事象において発生した異常若しくは変化に関係すると推定される当該トピック情報を含むことを特徴とする請求項1から8のいずれか1項に記載の異常又は変化推定方法。 The information relating to the abnormality or change of the event includes information relating to whether or not the abnormality or change has occurred in the event and / or the topic information presumed to be related to the abnormality or change occurring in the event. The abnormality or change estimation method according to any one of claims 1 to 8, wherein the abnormality or change is estimated. 所定の事象に係る事象時系列データと、当該事象の異常又は変化に関係し得る複数のトピック情報に係る複数の投稿群それぞれについての複数の投稿時系列データとから、当該事象時系列データ及び当該投稿時系列データの合成又は連結に係る特徴量を生成する特徴量生成手段と、
当該特徴量を構築済みの異常又は変化推定モデルに入力し、当該異常又は変化推定モデルからの出力に基づいて、当該事象の異常又は変化に係る情報を決定する異常又は変化情報決定手段と
してコンピュータを機能させることを特徴とする異常又は変化推定プログラム。
From the event time-series data related to a predetermined event and the multiple posting time-series data for each of the plurality of posting groups related to a plurality of topic information that may be related to the abnormality or change of the event, the event time-series data and the relevant event. A feature amount generation means for generating a feature amount related to the synthesis or concatenation of posted time series data, and
A computer is used as an abnormality or change information determining means for inputting the feature quantity into the constructed abnormality or change estimation model and determining information related to the abnormality or change of the event based on the output from the abnormality or change estimation model. An anomaly or change estimation program characterized by functioning.
所定の事象に係る事象時系列データと、当該事象の異常又は変化に関係し得る複数のトピック情報に係る複数の投稿群それぞれについての複数の投稿時系列データとから、当該事象時系列データ及び当該投稿時系列データの合成又は連結に係る特徴量を生成する特徴量生成手段と、
当該特徴量を構築済みの異常又は変化推定モデルに入力し、当該異常又は変化推定モデルからの出力に基づいて、当該事象の異常又は変化に係る情報を決定する異常又は変化情報決定手段と
を有することを特徴とする異常又は変化推定装置。
From the event time-series data related to a predetermined event and the multiple posting time-series data for each of the plurality of posting groups related to a plurality of topic information that may be related to the abnormality or change of the event, the event time-series data and the relevant event. A feature amount generation means for generating a feature amount related to the synthesis or concatenation of posted time series data, and
It has an abnormality or change information determining means for inputting the feature quantity into the constructed abnormality or change estimation model and determining information related to the abnormality or change of the event based on the output from the abnormality or change estimation model. An abnormality or change estimation device.
JP2020081982A 2020-05-07 2020-05-07 Anomaly/change estimation method, program and device using multiple posted time-series data Active JP7291100B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020081982A JP7291100B2 (en) 2020-05-07 2020-05-07 Anomaly/change estimation method, program and device using multiple posted time-series data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020081982A JP7291100B2 (en) 2020-05-07 2020-05-07 Anomaly/change estimation method, program and device using multiple posted time-series data

Publications (2)

Publication Number Publication Date
JP2021177284A true JP2021177284A (en) 2021-11-11
JP7291100B2 JP7291100B2 (en) 2023-06-14

Family

ID=78409480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020081982A Active JP7291100B2 (en) 2020-05-07 2020-05-07 Anomaly/change estimation method, program and device using multiple posted time-series data

Country Status (1)

Country Link
JP (1) JP7291100B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023084874A1 (en) * 2021-11-15 2023-05-19 株式会社Nttドコモ Population state determination system and model generation system
WO2024024201A1 (en) * 2022-07-27 2024-02-01 株式会社Nttドコモ Population state determination system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231605A (en) * 2009-03-27 2010-10-14 Denso It Laboratory Inc Event determination device
JP2019079088A (en) * 2017-10-19 2019-05-23 ヤフー株式会社 Learning device, program parameter and learning method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231605A (en) * 2009-03-27 2010-10-14 Denso It Laboratory Inc Event determination device
JP2019079088A (en) * 2017-10-19 2019-05-23 ヤフー株式会社 Learning device, program parameter and learning method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山田 尚志、落合 桂一、横井 靖弘、神山 剛、鳥居 大祐: "機械学習を用いたツイート解析と統計的異常検知による通信障害検出システム", 情報処理学会 研究報告 コンシューマ・デバイス&システム(CDS) 2019−CDS−025 [ON, vol. pp. 1〜7, JPN6023022028, 23 May 2019 (2019-05-23), JP, ISSN: 0005073217 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023084874A1 (en) * 2021-11-15 2023-05-19 株式会社Nttドコモ Population state determination system and model generation system
WO2024024201A1 (en) * 2022-07-27 2024-02-01 株式会社Nttドコモ Population state determination system

Also Published As

Publication number Publication date
JP7291100B2 (en) 2023-06-14

Similar Documents

Publication Publication Date Title
Alam et al. Descriptive and visual summaries of disaster events using artificial intelligence techniques: case studies of Hurricanes Harvey, Irma, and Maria
US20190012374A1 (en) Systems and methods for cross-media event detection and coreferencing
Toole et al. Tracking employment shocks using mobile phone data
US10303731B2 (en) Social-based spelling correction for online social networks
Croitoru et al. Linking cyber and physical spaces through community detection and clustering in social media feeds
US8775429B2 (en) Methods and systems for analyzing data of an online social network
US11153253B2 (en) System and method for determining and delivering breaking news utilizing social media
US11048712B2 (en) Real-time and adaptive data mining
Dunkel et al. A conceptual framework for studying collective reactions to events in location-based social media
US10769223B1 (en) Systems and methods for identification and classification of social media
CN106126582A (en) Recommend method and device
CN103559207A (en) Financial behavior analyzing system based on social media calculation
CN109120719B (en) Information pushing method, information display method, computer equipment and storage medium
WO2019055654A1 (en) Systems and methods for cross-media event detection and coreferencing
JP7291100B2 (en) Anomaly/change estimation method, program and device using multiple posted time-series data
KR102460209B1 (en) System for providing politics verse platform service
Cheong et al. A literature review of recent microblogging developments
CN115545103A (en) Abnormal data identification method, label identification method and abnormal data identification device
Yu et al. Research on situational perception of power grid business based on user portrait
CN116775815B (en) Dialogue data processing method and device, electronic equipment and storage medium
US11138615B1 (en) Location-based place attribute prediction
CN115618079A (en) Session recommendation method, device, electronic equipment and storage medium
Khan et al. Exploring Links between Online Activism and Real‐World Events: A Case Study of the# FeesMustFall
Tao et al. Data-driven in-crisis community identification for disaster response and management
Chen et al. Predicting blogging behavior using temporal and social networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230602

R150 Certificate of patent or registration of utility model

Ref document number: 7291100

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150