JP7402932B1 - Fault detection device, fault detection method, and fault detection program - Google Patents

Fault detection device, fault detection method, and fault detection program Download PDF

Info

Publication number
JP7402932B1
JP7402932B1 JP2022112031A JP2022112031A JP7402932B1 JP 7402932 B1 JP7402932 B1 JP 7402932B1 JP 2022112031 A JP2022112031 A JP 2022112031A JP 2022112031 A JP2022112031 A JP 2022112031A JP 7402932 B1 JP7402932 B1 JP 7402932B1
Authority
JP
Japan
Prior art keywords
failure
posted
posts
user
occurred
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022112031A
Other languages
Japanese (ja)
Other versions
JP2024010601A (en
Inventor
銀河 宮田
貴史 石田
俊昭 廣橋
毅郎 嵯峨
拓真 辻
紀章 古平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2022112031A priority Critical patent/JP7402932B1/en
Application granted granted Critical
Publication of JP7402932B1 publication Critical patent/JP7402932B1/en
Publication of JP2024010601A publication Critical patent/JP2024010601A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】本発明の障害検知装置は、不特定多数のユーザからの投稿文を用いて、迅速に障害を検知することを目的とする。【解決手段】障害検知装置は、対象のインターネットサービスの通信障害の有無についてユーザが過去に投稿した投稿文の内容に基づいて、障害情報の提供に対する貢献度指数をユーザ毎に設定する貢献度指数設定部と、複数の投稿文の中から、インターネットサービスに関する障害の有無を判断するための所定の文言を含む投稿文を取得する投稿文取得部と、投稿文取得部が所定の期間内に取得した投稿文に関して、ユーザ毎に、ユーザが投稿した投稿文の数に当該ユーザの貢献度指数を乗じた実効投稿数を算出し、且つ、複数のユーザの実効投稿数を積算した積算値を算出する算出部と、積算値が所定の条件を満たした場合にインターネットサービスに障害が発生したと判断する障害判断部と、障害が発生したことを外部に通知する障害通知部と、を有する。【選択図】図1The object of the present invention is to provide a failure detection device that quickly detects failures using posted messages from an unspecified number of users. [Solution] A failure detection device sets a contribution index for providing failure information for each user based on the content of posts posted by the user in the past regarding the presence or absence of communication failures of the target Internet service. a setting unit, a posted text acquisition unit that acquires a posted text that includes a predetermined wording for determining whether there is a problem with the Internet service from among a plurality of posted texts, and the posted text acquisition unit acquires the posted text within a predetermined period. Regarding the posted texts, for each user, calculate the effective number of posts by multiplying the number of posts posted by the user by the user's contribution index, and calculate the cumulative value by integrating the effective number of posts by multiple users. A failure determination unit that determines that a failure has occurred in the Internet service when the integrated value satisfies a predetermined condition, and a failure notification unit that notifies an external party that a failure has occurred. [Selection diagram] Figure 1

Description

本発明は、障害検知装置、障害検知方法、及び障害検知プログラムに関する。 The present invention relates to a failure detection device, a failure detection method, and a failure detection program.

近年、ツイッター(登録商標)や、インスタグラム等、複数のユーザが情報を提供するSNSサービスが広く利用されている。SNSを利用するユーザの中には、AWSやAzure等のクラウドサービスや、携帯回線等の通信サービスを含むインターネットサービスに障害が発生したときに、障害について投稿する者が複数存在することが確認されている。 In recent years, SNS services such as Twitter (registered trademark) and Instagram, in which multiple users provide information, have been widely used. It has been confirmed that among users of SNS, there are multiple users who post about failures when a failure occurs in cloud services such as AWS or Azure, or internet services including communication services such as mobile lines. ing.

そこで、複数の投稿者によって記述された多数の投稿文を用いて、特定の異常を検知する異常検知装置が知られている(例えば、特許文献1)。特許文献1に記載された異常検知装置は、単位時間毎に、検知対象となるキーワードを含む投稿文を取得し、現在時間の投稿数が、過去所定時間における投稿数よりも所定閾値以上で増加した際に、異常発生を検知するものである。 Therefore, an anomaly detection device is known that detects a specific anomaly using a large number of posted texts written by a plurality of posters (for example, Patent Document 1). The anomaly detection device described in Patent Document 1 acquires posted texts containing keywords to be detected every unit time, and detects that the number of posts at the current time increases by a predetermined threshold or more than the number of posts at a predetermined time in the past. This is to detect the occurrence of an abnormality.

しかしながら、従来の異常検知装置は、SNSのユーザの属性を考慮しておらず、不正確な障害情報を投稿するユーザと、有益な障害情報を投稿するユーザを同等に扱っている。その結果、単に障害に関する投稿文を取得するだけでは、障害の発生を正確に把握することが難しく、障害の検知に長時間を要し、サーバの管理者が障害に対して迅速に対応することが難しいという問題があった。 However, conventional anomaly detection devices do not consider the attributes of SNS users, and treat users who post inaccurate fault information and users who post useful fault information equally. As a result, it is difficult to accurately grasp the occurrence of a failure simply by acquiring posts about the failure, and it takes a long time to detect the failure, making it difficult for server administrators to respond quickly to the failure. The problem was that it was difficult.

特開2014-10511号公報Japanese Patent Application Publication No. 2014-10511

本発明は、不特定多数のユーザからの投稿文を用いて、クラウドサービスや携帯回線等の通信サービスの両方を含むインターネットサービスにおける障害を迅速に検知することが可能な障害検知装置を提供することを目的とする。 The present invention provides a failure detection device that can quickly detect failures in Internet services, including both cloud services and communication services such as mobile lines, using posted messages from an unspecified number of users. With the goal.

本開示の一実施形態に係る障害検知装置は、対象のインターネットサービスにおける障害の有無についてユーザが過去に投稿した投稿文の内容に基づいて、障害情報の提供に対する貢献度を表す指数である貢献度指数をユーザ毎に設定する貢献度指数設定部と、投稿サイトへの複数の投稿文の中から、インターネットサービスに関する障害の有無を判断するための所定の文言を含む投稿文を取得する投稿文取得部と、投稿文取得部が所定の期間内に取得した投稿文に関して、ユーザ毎に、ユーザが投稿した投稿文の数に当該ユーザの貢献度指数を乗じた実効投稿数を算出し、且つ、複数のユーザの実効投稿数を積算した積算値を算出する算出部と、積算値が所定の条件を満たした場合にインターネットサービスに障害が発生したものと判断する障害判断部と、インターネットサービスに障害が発生したことを外部に通知する障害通知部と、を有することを特徴とする。 A failure detection device according to an embodiment of the present disclosure provides a contribution level, which is an index representing the degree of contribution to the provision of failure information, based on the content of posts posted by users in the past regarding the presence or absence of failures in a target Internet service. A contribution index setting unit that sets an index for each user, and a post text acquisition unit that obtains post texts that include predetermined text for determining whether there is a problem with internet services from among multiple posts on a posting site. For each user, calculate the effective number of posts by multiplying the number of posts posted by the user by the user's contribution index with respect to the posts acquired by the post acquisition unit and the post acquisition unit within a predetermined period, and A calculation unit that calculates an integrated value of the effective number of posts by multiple users; a failure determination unit that determines that a failure has occurred in the Internet service when the accumulated value satisfies a predetermined condition; and a failure notification unit that notifies the outside that a problem has occurred.

本開示の一実施形態に係る障害検知装置において、貢献度指数設定部は、過去に生じた障害に関して、障害が発生している期間にユーザが障害発生を通知する投稿を行った場合には、当該ユーザの貢献度指数に加点してよい。 In the failure detection device according to an embodiment of the present disclosure, the contribution index setting unit is configured to perform a contribution index setting unit, regarding a failure that occurred in the past, when a user posts a notification of failure occurrence during a period in which the failure occurred. Points may be added to the contribution index of the user.

本開示の一実施形態に係る障害検知装置において、貢献度指数設定部は、過去に生じた障害に関して、障害が発生してから投稿までの時間が短い程、貢献度指数に加点するポイント数を大きな値に設定してよい。 In the failure detection device according to an embodiment of the present disclosure, the contribution index setting unit sets the number of points to be added to the contribution index with respect to failures that have occurred in the past, the shorter the time from the occurrence of the failure until posting. You can set it to a large value.

本開示の一実施形態に係る障害検知装置において、貢献度指数設定部は、過去に生じた障害に関して、障害が発生していない期間にユーザが障害発生を通知する投稿を行った場合には、当該ユーザの貢献度指数から減点してよい。 In the failure detection device according to an embodiment of the present disclosure, the contribution index setting unit is configured to perform a contribution index setting unit, regarding a failure that occurred in the past, when a user posts a notification of failure occurrence during a period when no failure has occurred. Points may be subtracted from the contribution index of the user.

本開示の一実施形態に係る障害検知装置において、所定の条件は、所定の期間において連続して積算値が増加する第1条件、所定の期間における単位時間当たりの積算値である平均積算値が第1閾値を超える第2条件、所定の期間における単位時間当たりの投稿数である平均投稿数が第2閾値を超える第3条件、及び、所定の期間における投稿数に対する積算値の割合が第3閾値を超える第4条件のうちの少なくとも2つ以上の条件が満たされていることであってよい。 In the failure detection device according to an embodiment of the present disclosure, the predetermined conditions include a first condition in which the integrated value continuously increases in a predetermined period, and an average integrated value that is an integrated value per unit time in the predetermined period. a second condition in which the average number of posts, which is the number of posts per unit time in a predetermined period, exceeds the second threshold; and a third condition in which the ratio of the cumulative value to the number of posts in the predetermined period exceeds the second threshold; It may be that at least two or more of the fourth conditions exceeding the threshold are satisfied.

本開示の一実施形態に係る障害検知装置において、所定の条件は、所定の期間における積算値の累積値が所定の基準値を超えることであってよい。 In the failure detection device according to an embodiment of the present disclosure, the predetermined condition may be that the cumulative value of the integrated values in a predetermined period exceeds a predetermined reference value.

本開示の一実施形態に係る障害検知装置において、所定の条件は、所定の期間において連続して積算値が増加することであってよい。 In the failure detection device according to an embodiment of the present disclosure, the predetermined condition may be that the integrated value continuously increases in a predetermined period.

本開示の一実施形態に係る障害検知装置において、所定の条件は、所定の期間における単位時間当たりの積算値である平均積算値が第1閾値を超えることであってよい。 In the failure detection device according to an embodiment of the present disclosure, the predetermined condition may be that an average integrated value that is an integrated value per unit time in a predetermined period exceeds a first threshold value.

本開示の一実施形態に係る障害検知装置において、所定の条件は、所定の期間における投稿数に対する積算値の割合が第3閾値を超えることであってよい。 In the failure detection device according to an embodiment of the present disclosure, the predetermined condition may be that the ratio of the integrated value to the number of posts in a predetermined period exceeds a third threshold.

本開示の一実施形態に係る障害検知装置において、投稿文取得部から、障害に関する文言を含む投稿文を入力パラメータとして取得して、学習モデルに入力し、当該投稿文が障害の発生に関する投稿文である可能性を出力パラメータとして出力する学習部をさらに備え、学習モデルは、障害に関する文言を含む投稿文であって、障害発生時に投稿された投稿文、及び障害非発生時に投稿された投稿文を学習用入力パラメータとし、投稿文が障害の発生に関するものであるか否かの判定結果を学習用出力パラメータとした入出力データセットを用いて、機械学習によって生成された学習モデルであってよい。 In the failure detection device according to an embodiment of the present disclosure, a posted message including a message related to a failure is acquired as an input parameter from the posted message acquisition unit, and inputted to the learning model, and the posted message is changed to a posted message related to the occurrence of a failure. The learning model further includes a learning unit that outputs the possibility that It may be a learning model generated by machine learning using an input/output data set where is used as a learning input parameter and the result of determining whether the posted text is related to the occurrence of a failure is used as a learning output parameter. .

本開示の一実施形態に係る障害検知方法は、貢献度指数設定部が、対象のインターネットサービスにおける通信障害の有無についてユーザが過去に投稿した投稿文の内容に基づいて、障害情報の提供に対する貢献度を表す指数である貢献度指数をユーザ毎に設定し、投稿文取得部が、投稿サイトへの投稿文の中から、インターネットサービスについて、障害の有無を判断するための所定の文言を含む投稿文を取得し、算出部が、投稿文取得部が所定の期間内に取得した投稿文に関して、ユーザ毎に、ユーザが投稿した投稿文の数に当該ユーザの貢献度指数を乗じた実効投稿数を算出し、且つ、複数のユーザの実効投稿数を積算した積算値を算出し、障害判断部が、積算値が所定の条件を満たした場合にインターネットサービスに障害が発生したものと判断し、障害通知部が、インターネットサービスに障害が発生したことを外部に通知することを特徴とする。 In the failure detection method according to an embodiment of the present disclosure, the contribution index setting unit contributes to the provision of failure information based on the content of posts posted by users in the past regarding the presence or absence of communication failures in the target Internet service. A contribution index, which is an index representing the degree of failure, is set for each user, and the posted text acquisition unit selects posts that include predetermined text for determining whether or not there is a problem with an Internet service from among the posted texts on the posting site. The calculation unit calculates, for each user, the effective number of posts obtained by multiplying the number of posts posted by the user by the contribution index of the user, regarding the posted texts that the posted text acquisition unit acquired within a predetermined period. and calculates an integrated value by integrating the effective number of posts by multiple users, and the fault determination unit determines that a fault has occurred in the Internet service if the integrated value satisfies a predetermined condition; The failure notification unit is characterized in that it notifies the outside that a failure has occurred in the Internet service.

本開示の一実施形態に係る障害検知プログラムは、コンピュータに、対象のインターネットサービスにおける通信障害の有無についてユーザが過去に投稿した投稿文の内容に基づいて、障害情報の提供に対する貢献度を表す指数である貢献度指数をユーザ毎に設定するステップと、投稿サイトへの投稿文の中から、インターネットサービスについて、障害の有無を判断するための所定の文言を含む投稿文を取得するステップと、所定の期間内に取得した投稿文に関して、ユーザ毎に、ユーザが投稿した投稿文の数に当該ユーザの貢献度指数を乗じた実効投稿数を算出し、且つ、複数のユーザの実効投稿数を積算した積算値を算出するステップと、積算値が所定の条件を満たした場合にインターネットサービスに障害が発生したものと判断するステップと、インターネットサービスに障害が発生したことを外部に通知するステップと、を実行させることを特徴とする。 A failure detection program according to an embodiment of the present disclosure provides an index representing the degree of contribution to the provision of failure information based on the content of posts posted by users in the past regarding the presence or absence of communication failures in a target Internet service. a step of setting a contribution index for each user, a step of obtaining a posted text including a predetermined wording for determining the presence or absence of a failure regarding an Internet service from among posted texts on a posting site; Regarding posts obtained within the period, for each user, calculate the effective number of posts by multiplying the number of posts posted by the user by the user's contribution index, and add up the effective number of posts by multiple users. a step of determining that a failure has occurred in the Internet service if the cumulative value satisfies a predetermined condition; and a step of notifying an external party that a failure has occurred in the Internet service; It is characterized by causing the execution.

本開示の一実施形態に係る障害検知装置によれば、不特定多数のユーザからの投稿文を用いて、インターネットサービスにおける障害を迅速に検知することができる。 According to the failure detection device according to an embodiment of the present disclosure, it is possible to quickly detect a failure in an Internet service using posted messages from an unspecified number of users.

本開示の一実施形態に係る障害検知装置を含む障害検知システムの構成図である。1 is a configuration diagram of a failure detection system including a failure detection device according to an embodiment of the present disclosure. 本開示の一実施形態に係る障害検知装置の構成ブロック図である。FIG. 1 is a configuration block diagram of a failure detection device according to an embodiment of the present disclosure. 本開示の一実施形態に係る障害検知装置による貢献度指数データベースの更新手順を説明するためのフローチャートである。2 is a flowchart for explaining a procedure for updating a contribution index database by a failure detection device according to an embodiment of the present disclosure. 本開示の一実施形態に係る障害検知装置による障害発生から貢献度指数データベースの更新までの手順を説明するための図であって、(a)は障害日時情報を取得する手順、(b)は投稿文を取得する手順、(c)は貢献度指数データベースを更新する手順をそれぞれ説明するための図である。FIG. 2 is a diagram for explaining the procedure from the occurrence of a failure by the failure detection device according to an embodiment of the present disclosure to the update of the contribution index database, in which (a) is a procedure for acquiring failure date and time information; FIG. 6C is a diagram for explaining the procedure for acquiring a posted text and the procedure for updating the contribution index database. 本開示の一実施形態に係る障害検知装置を用いて、障害発生時及び障害非発生時において、それぞれ貢献度指数に加点及び減点を行う例を示す図である。FIG. 6 is a diagram illustrating an example of adding and subtracting points to a contribution index when a failure occurs and when a failure does not occur, using the failure detection device according to an embodiment of the present disclosure. 本開示の一実施形態に係る障害検知装置の貢献度指数設定部が設定する貢献度指数と障害発生からの経過時間との関係を示す表の例である。2 is an example of a table showing the relationship between the contribution index set by the contribution index setting unit of the failure detection device according to an embodiment of the present disclosure and the elapsed time from the occurrence of a failure. 本開示の一実施形態に係る障害検知装置を用いて、投稿数及び積算値を用いて障害発生の有無を判断する手順を説明するためのフローチャートである。2 is a flowchart for explaining a procedure for determining whether a failure has occurred using the number of posts and an integrated value using a failure detection device according to an embodiment of the present disclosure. 本開示の一実施形態に係る障害検知装置を用いて検出した積算値及び投稿数の時間的変化を示すグラフである。It is a graph showing a temporal change in the integrated value and the number of posts detected using the failure detection device according to an embodiment of the present disclosure. 本開示の一実施形態に係る障害検知装置を用いて検出した積算値及び累積障害投稿数の時間的変化を示すグラフである。It is a graph showing a temporal change in the integrated value and the cumulative number of failure posts detected using the failure detection device according to an embodiment of the present disclosure. 本開示の一実施形態に係る障害検知装置を用いて、障害発生時及び障害非発生時に投稿された投稿文を使用して学習モデルを作成する手順を示す図である。FIG. 3 is a diagram illustrating a procedure for creating a learning model using posted messages posted when a failure occurs and when a failure does not occur, using the failure detection device according to an embodiment of the present disclosure.

以下、図面を参照して、本発明に係る障害検知装置、障害検知方法、及び障害検知プログラムについて説明する。ただし、本発明の技術的範囲はそれらの実施の形態には限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。 Hereinafter, a failure detection device, a failure detection method, and a failure detection program according to the present invention will be described with reference to the drawings. However, it should be noted that the technical scope of the present invention is not limited to these embodiments, but extends to the invention described in the claims and equivalents thereof.

(障害検知装置の概要)
図1に本開示の一実施形態に係る障害検知装置を含む障害検知システムの構成図を示す。障害検知システム1000は、障害検知装置100と、投稿サイトサーバ200と、クラウドサービスサーバ300と、複数の端末400とを有し、これらはインターネットサービス500を介して接続されている。なお、本実施形態においては、インターネットサービスの一例としてクラウドサービスを例にとって説明するが、このような例には限定されず、インターネットサービスは携帯回線等を含んでよい。
(Overview of failure detection device)
FIG. 1 shows a configuration diagram of a failure detection system including a failure detection device according to an embodiment of the present disclosure. The failure detection system 1000 includes a failure detection device 100, a posting site server 200, a cloud service server 300, and a plurality of terminals 400, which are connected via an Internet service 500. Note that in this embodiment, a cloud service will be described as an example of an Internet service, but the present invention is not limited to such an example, and the Internet service may include a mobile line and the like.

ユーザは、端末400を利用してクラウドサービスサーバ300と通信を行い、クラウドサービスサーバ300が提供するサービスを利用する。端末400には、コンピュータや、携帯電話、スマートフォン、あるいはタブレット端末等の情報端末等を用いることができる。クラウドサービスサーバ300は、AWSやAzure等のサービスを提供するサーバである。ただし、クラウドサービスは、これらの例には限定されない。 The user uses the terminal 400 to communicate with the cloud service server 300 and utilizes the services provided by the cloud service server 300. As the terminal 400, a computer, a mobile phone, a smartphone, an information terminal such as a tablet terminal, etc. can be used. The cloud service server 300 is a server that provides services such as AWS and Azure. However, cloud services are not limited to these examples.

ユーザは、特定のクラウドサービスサーバ300に通信障害が発生したときに、投稿サイトサーバ200によって運用されている投稿サイトに、クラウドサービスサーバ300において障害が発生している旨の投稿を行うものとする。投稿サイトは、例えば、ツイッターやインスタグラム等であるが、これらの例には限定されない。 When a communication failure occurs in a specific cloud service server 300, the user shall post on the posting site operated by the posting site server 200 that a failure has occurred in the cloud service server 300. . Posting sites include, for example, Twitter and Instagram, but are not limited to these examples.

ユーザの中には、障害発生時に障害に関する投稿を頻繁に行う者が存在することが確認されている。このようなユーザの投稿数をカウントすれば、障害の発生を検知できる。特に、障害発生時点から短時間の間に投稿を行うユーザの投稿は、障害発生検知を迅速に行ううえで有用である。即ち、障害発生から短時間で投稿された投稿文は、長時間経過後の投稿文よりも重要性が高いとみなすことができる。そこで、本開示の一実施形態に係る障害検知装置においては、障害発生の検知に対する貢献度を表す指数(パラメータ)として貢献度指数を設定し、貢献度が高いユーザに対して高いポイントを付与する。 It has been confirmed that some users frequently post about failures when they occur. By counting the number of posts by such users, it is possible to detect the occurrence of a failure. In particular, posts by users who post within a short period of time after the occurrence of a fault are useful for quickly detecting the occurrence of a fault. In other words, a posted text posted within a short time after the occurrence of a failure can be considered to be more important than a posted text posted after a long period of time. Therefore, in the fault detection device according to an embodiment of the present disclosure, a contribution index is set as an index (parameter) representing the degree of contribution to the detection of the occurrence of a fault, and high points are awarded to users who make a high contribution. .

ユーザは、特定のクラウドサービスサーバ300に通信障害が発生した場合に、障害が発生したクラウドサービスサーバ300のサービス名と、障害が発生していることを示す所定の文言を含む投稿文を投稿サイトに投稿すると考えられる。障害の発生を表す「所定の文言」(障害ワード)とは、例えば、「障害」、「死」、「落ち」、「使えない」、「影響」、「遅い」、「停止」、「重」等であるが、これらの例には限定されない。 When a communication failure occurs in a specific cloud service server 300, the user posts a message to the posting site that includes the service name of the cloud service server 300 where the failure occurred and a predetermined wording indicating that a failure has occurred. It is thought that it will be posted on. “Predetermined words” (failure words) that indicate the occurrence of a failure include, for example, “failure,” “death,” “fall,” “unusable,” “impact,” “slow,” “stop,” and “severe.” ” etc., but are not limited to these examples.

ユーザが投稿する投稿文の内容は、例えば、「やっぱり障害出ているのか・・・AWS」や、「タイムラインを見る限りAWS障害?」といったものである。このような投稿文は、障害が継続している場合、障害発生から時間が経過するとともに増加すると考えられる。従って、障害を表す文言を含む投稿文を検出し、投稿数の増加傾向から障害の有無を検知することができると考えられる。例えば、障害の発生を通知する投稿の数が所定の閾値に達した場合に障害が発生したものと判断することができる。 The content of the message posted by the user is, for example, "Is there a problem with AWS after all?" or "As far as I can see from the timeline, is there a problem with AWS?" If the failure continues, the number of such posted messages is expected to increase as time passes from the occurrence of the failure. Therefore, it is considered possible to detect posted texts that include words expressing a fault, and to detect the presence or absence of a fault based on the increasing trend in the number of posts. For example, it can be determined that a failure has occurred when the number of posts notifying the occurrence of a failure reaches a predetermined threshold.

しかしながら、ユーザの投稿文の中には、障害ワードが含まれていても、必ずしも障害の発生を意味するものではない場合もあり得る。例えば、「AWSの資格落ちた」のように、「落ち」との文言が含まれていたとしても、サーバの障害を意味しない場合も考えられる。そのため、単に障害を表す文言(障害ワード)を含む投稿文の数を計数するだけでは、障害の有無を正確に判断することが難しい場合があり得る。 However, even if a user's posted text includes a fault word, it may not necessarily mean that a fault has occurred. For example, even if the wording ``failed'' is included, such as in ``failed AWS qualification,'' it may not mean a server failure. Therefore, it may be difficult to accurately determine the presence or absence of a disability by simply counting the number of posted texts that include words expressing a disability (disability word).

さらに、障害が発生してからの経過時間が長引くことによって、影響を受けるユーザの数も増加すると考えられるため、障害が発生したことをサーバの管理者に迅速に通知することが好ましい。 Furthermore, as the amount of time that has elapsed since the occurrence of a failure is prolonged, the number of affected users is likely to increase, so it is preferable to quickly notify the server administrator of the occurrence of a failure.

そこで、本開示の一実施形態に係る障害検知装置100は、ユーザの属性を考慮して障害ワードを含む投稿文の数を計数することにより、障害の発生を迅速に検知することを目的としている。即ち、本開示の一実施形態に係る障害検知装置100は、過去に発生した障害に対して投稿された投稿文を解析して、障害の発生を迅速、且つ、正確に伝えたユーザに対しては、障害発生の通知に対する貢献度が高いと判断し、高い重み付け(加点)を行い、実効的な投稿数を実際の投稿数よりも多く計数することによって、障害の発生を迅速に検知するものである。 Therefore, the failure detection device 100 according to an embodiment of the present disclosure aims to quickly detect the occurrence of a failure by counting the number of posts that include the failure word in consideration of user attributes. . That is, the failure detection device 100 according to an embodiment of the present disclosure analyzes posts posted in response to failures that occurred in the past, and quickly and accurately informs the user of the occurrence of the failure. is a method that quickly detects the occurrence of a failure by determining that the degree of contribution to failure notification is high, giving it a high weight (additional points), and counting the effective number of posts higher than the actual number of posts. It is.

さらに、過去の障害発生時において、障害が発生していないにも関わらず障害が発生した旨の投稿を行うなど、不正確、あるいは誤った障害情報を含む投稿を行ったユーザに対しては減点を行うことにより、このようなユーザによる影響を少なくすることにより、障害の発生を正確に検知するようにしてよい。 In addition, points will be deducted for users who have posted inaccurate or incorrect failure information, such as posting that a failure occurred when a failure did not occur in the past. By doing this, the influence caused by such a user can be reduced, and the occurrence of a failure may be accurately detected.

(障害検知装置の構成)
次に、本開示の一実施形態に係る障害検知装置について説明する。図2に、本開示の一実施形態に係る障害検知装置100の構成ブロック図を示す。障害検知装置100は、貢献度指数設定部1と、投稿文取得部2と、算出部3と、障害判断部4と、障害通知部5と、記憶部6と、学習部7と、通信部8とを有する。貢献度指数設定部1、投稿文取得部2、算出部3、障害判断部4、障害通知部5、及び学習部7は、プロセッサ(図示せず)が記憶部6に記憶されたプログラムを実行することにより実現される。
(Configuration of failure detection device)
Next, a failure detection device according to an embodiment of the present disclosure will be described. FIG. 2 shows a configuration block diagram of a failure detection device 100 according to an embodiment of the present disclosure. The failure detection device 100 includes a contribution index setting unit 1, a posted text acquisition unit 2, a calculation unit 3, a failure determination unit 4, a failure notification unit 5, a storage unit 6, a learning unit 7, and a communication unit. 8. Contribution index setting unit 1, posted text acquisition unit 2, calculation unit 3, failure determination unit 4, failure notification unit 5, and learning unit 7 are configured such that a processor (not shown) executes a program stored in storage unit 6. This is achieved by

貢献度指数設定部1は、対象のクラウドサービスの通信障害の有無についてユーザが過去に投稿した投稿文の内容に基づいて、障害情報の提供に対する貢献度を表す指数である貢献度指数をユーザ毎に設定する。貢献度指数は、過去に発生した障害について正確に投稿したユーザは、現在または将来発生する障害に対しても正確に投稿する可能性が高いとみなして、障害発生の通知に対する貢献度が高いと判断して、投稿数に重み付けを行うための係数である。例えば、通常のユーザが障害の発生を通知する投稿文の数を1件とカウントするとした場合に、信頼度が高いユーザが障害の発生を通知する投稿文の数を1回の投稿に対して、より多くの件数(例えば、2件等)とカウントすることにより、実効的な投稿数を増加させるようにしてよい。このようにすることで、障害の発生を通知する投稿数が、障害発生を検知するための判断基準である所定の閾値に達するまでの時間を短縮することができ、障害の発生を迅速に検知することができる。 The contribution index setting unit 1 sets a contribution index for each user, which is an index representing the degree of contribution to providing failure information, based on the content of posts posted by users in the past regarding the presence or absence of communication failures in the target cloud service. Set to . The contribution index assumes that users who have accurately posted about problems that have occurred in the past are likely to post accurately about problems that occur now or in the future, and are therefore more likely to contribute to failure notifications. This is a coefficient for determining and weighting the number of posts. For example, if the number of posts by a normal user notifying the occurrence of a failure is counted as one, then the number of posts by a user with high trust notifying the occurrence of a failure is counted as one post. , the effective number of posts may be increased by counting a larger number (for example, 2 posts, etc.). By doing this, it is possible to shorten the time it takes for the number of posts notifying the occurrence of a failure to reach a predetermined threshold value, which is the criterion for detecting the occurrence of a failure, and to quickly detect the occurrence of a failure. can do.

(貢献度指数の設定方法の概要)
次に、貢献度指数の設定方法について説明する。図3に、本開示の一実施形態に係る障害検知装置による貢献度指数データベースの更新手順を説明するためのフローチャートを示す。図4(a)~(c)に、本開示の一実施形態に係る障害検知装置による、障害発生から貢献度指数データベースの更新までの手順を説明するための図を示す。図4(a)は、障害日時情報を取得する手順を説明するための図である。図4(b)は、投稿文を取得する手順を説明するための図である。図4(c)は、貢献度指数データベースを更新する手順を説明するための図である。
(Overview of how to set the contribution index)
Next, a method of setting the contribution index will be explained. FIG. 3 shows a flowchart for explaining a procedure for updating the contribution index database by the failure detection device according to an embodiment of the present disclosure. FIGS. 4(a) to 4(c) are diagrams for explaining the procedure from the occurrence of a failure to the update of the contribution index database by the failure detection device according to an embodiment of the present disclosure. FIG. 4A is a diagram for explaining the procedure for acquiring failure date and time information. FIG. 4(b) is a diagram for explaining the procedure for acquiring posted text. FIG. 4(c) is a diagram for explaining the procedure for updating the contribution index database.

まず、ステップS101において、障害情報データベースから障害日時に関する正確な情報を取得する。例えば、図4(a)に示すように、2021年4月からの1年間で、特定のクラウドサービスにおいて、2021年6月において1回目の障害である「障害I」が発生し、2021年10月に2回目の障害である「障害II」が発生し、2022年1月に3回目の障害である「障害III」が生じていたものとする。 First, in step S101, accurate information regarding the date and time of the failure is acquired from the failure information database. For example, as shown in Figure 4(a), in one year from April 2021, in a specific cloud service, the first failure, "Failure I", occurred in June 2021, and the first failure occurred in October 2021. It is assumed that the second failure, “Failure II” occurs in the month, and the third failure, “Failure III” occurs in January 2022.

次に、ステップS102において、過去に投稿された障害発生に関する文言を含む投稿文を取得する。例えば、2021年4月からの1年間で、特定のクラウドサービスにおいて発生した障害に関して投稿された投稿文を取得する。例えば、投稿サイトがツイッターである場合は、ツイッターAPIを用いることにより、投稿文を取得することができる。 Next, in step S102, a previously posted message containing a message related to the occurrence of a failure is obtained. For example, messages posted regarding failures that occurred in a specific cloud service in one year from April 2021 are acquired. For example, if the posting site is Twitter, the posted text can be obtained by using the Twitter API.

投稿文には、投稿したユーザの識別情報であるアカウント、投稿日時、投稿内容が含まれる。例えば、図4(b)に示すように、2021年3月23日において、ユーザ「A1234」(以下、単に「ユーザA」と称する。)が「AWSの障害かと思ったけど正常っぽい」と投稿したものとする。同様に、2021年6月10日において、ユーザ「B5678」(以下、単に「ユーザB」と称する。)が「やっぱり障害出ているのか...AWS」と投稿したものとする。同様に、2021年9月20日において、ユーザ「C9012」(以下、単に「ユーザC」と称する。)が「PSNというかAWSで障害起こっているのかしら。」と投稿したものとする。このとき、ユーザA~Cが投稿した投稿文を取得することにより、ユーザA~Cのアカウント、投稿日時、投稿内容に関する情報を取得することができる。 The posted text includes the account that is the identification information of the user who posted, the date and time of posting, and the content of the post. For example, as shown in Figure 4(b), on March 23, 2021, user "A1234" (hereinafter simply referred to as "User A") said, "I thought it was an AWS problem, but it seems normal." It is assumed that it has been posted. Similarly, assume that on June 10, 2021, user “B5678” (hereinafter simply referred to as “User B”) posted “I guess there is a problem with AWS...”. Similarly, assume that on September 20, 2021, user "C9012" (hereinafter simply referred to as "User C") posted, "I wonder if there is a problem with PSN or AWS." At this time, by acquiring the posted texts posted by users A to C, information regarding the accounts, posting dates and times, and posting contents of users A to C can be obtained.

次に、ステップS103において、取得した投稿文が、障害発生時に投稿された投稿文か、あるいは、障害が発生していない非障害時に投稿された投稿文かを判断する。例えば、ユーザAの投稿文は、投稿された日時が2021年3月23日であり、これは障害Iが発生した期間(2021年6月)より前の日時であることから、障害が発生していない時に投稿されたものであることが分かる。また、ユーザBの投稿文は、投稿された日時が2021年6月10日であり、これは障害Iが発生した期間(2021年6月)に含まれることから、障害が発生している時に投稿されたものであることが分かる。さらに、ユーザCの投稿文は、投稿された日時が2021年9月20日であり、これは障害Iが発生した後であって障害IIが発生した期間(2021年10月)より前の日時であることから、障害が発生していない時に投稿されたものであることが分かる。 Next, in step S103, it is determined whether the acquired posted text is a posted text that was posted when a failure occurred or a posted text that was posted during a non-failure period when no failure occurred. For example, the posted date and time of user A's post is March 23, 2021, which is before the period in which failure I occurred (June 2021), so the failure has occurred. You can see that it was posted at a time when it was not posted. In addition, the date and time of user B's post is June 10, 2021, which is included in the period in which failure I occurred (June 2021), so when the failure occurred, I can see that it was posted. Furthermore, the posted date and time of User C's post is September 20, 2021, which is after Failure I occurred and before the period in which Failure II occurred (October 2021). , it can be seen that the post was posted when no failure occurred.

次に、ステップS104において、貢献度指数設定部1は、ユーザが障害発生時に投稿していた場合は、当該ユーザの貢献度指数に加点し、ユーザが非障害時に投稿していた場合は、当該ユーザの貢献度指数から減点する。即ち、貢献度指数設定部1は、過去に生じた障害に関して、障害が発生している期間にユーザが障害発生を通知する投稿を行った場合には、当該ユーザの貢献度指数に加点してよい。一方、貢献度指数設定部1は、過去に生じた障害に関して、障害が発生していない期間にユーザが障害発生を通知する投稿を行った場合には、当該ユーザの貢献度指数から減点してよい。例えば、上記のように、ユーザA及びCの投稿文は、障害が発生していない期間である障害非発生時(非障害時)に投稿されたものであるため、図4(c)に示すように、ユーザA及びCの貢献度指数から「0.1点」を減点する。一方、ユーザBの投稿文は、障害が発生している期間である障害発生時(障害時)に投稿されたものであるため、例えば、ユーザBの貢献度指数に対して「1.0点」だけ加点する。ただし、加点または減点するポイント数は上記のような例には限定されない。加点または減点する貢献度指数の具体的な例については後述する。 Next, in step S104, the contribution index setting unit 1 adds points to the contribution index of the user if the user was posting when the failure occurred, and adds points to the contribution index of the user if the user was posting when the failure occurred. Deduct points from the user's contribution index. That is, regarding a failure that occurred in the past, if a user posts a notification of the occurrence of a failure during the period when the failure occurred, the contribution index setting unit 1 adds points to the contribution index of the user. good. On the other hand, the contribution index setting unit 1 deducts points from the contribution index of the user if the user posts a notification of the occurrence of a failure during a period when no failure has occurred regarding a failure that occurred in the past. good. For example, as mentioned above, the posts by users A and C were posted during a period when no failure occurred (non-failure time), so the messages shown in FIG. 4(c) Thus, "0.1 point" is subtracted from the contribution index of users A and C. On the other hand, since User B's posted text was posted at the time of the failure (at the time of the failure), which is the period during which the failure occurred, for example, the contribution index of User B is ``1.0 points.'' ” will be added. However, the number of points to be added or subtracted is not limited to the above example. A specific example of the contribution index to which points are added or subtracted will be described later.

次に、ステップS105において、記憶部6(図2参照)に格納されたユーザの貢献度指数データベースを更新する。以上のようにして、ユーザ毎に貢献度指数を設定する。 Next, in step S105, the user contribution index database stored in the storage unit 6 (see FIG. 2) is updated. As described above, a contribution index is set for each user.

(貢献度指数の設定例)
次に、貢献度指数の設定手順の具体例について説明する。図5に、本開示の一実施形態に係る障害検知装置を用いて、障害発生時及び障害非発生時に投稿された投稿文を用いて、それぞれユーザ毎に貢献度指数に加点及び減点を行う例を示す。
(Example of setting contribution index)
Next, a specific example of the procedure for setting the contribution index will be explained. FIG. 5 shows an example of adding and subtracting points to the contribution index for each user using the failure detection device according to an embodiment of the present disclosure, using posts posted when a failure occurs and when a failure does not occur. shows.

一例として、時刻t1からt8の期間における貢献度指数の設定手順について説明する。特定のクラウドサービスサーバにおいて、時刻t2~t3、t4~t5、及びt6~t7において、それぞれ障害I~IIIが発生したものとする。 As an example, a procedure for setting the contribution index during the period from time t1 to t8 will be described. It is assumed that failures I to III occur in a specific cloud service server at times t2 to t3, t4 to t5, and t6 to t7, respectively.

ここで、例えば、時刻t1~t2の期間のいずれかの時点において、ユーザAが「AWSの障害かと思ったけど正常っぽい」といった投稿文を投稿したものとする。この場合、時刻t1~t2の期間は、障害Iが発生する前の期間であり、ユーザAの投稿は障害が発生していない期間(非障害時)に行われたものであるため、ユーザAの貢献度指数から減点する。減点するポイント数は、例えば「0.1点」としてよい。ただし、このような例には限定されない。 Here, for example, assume that user A posted a message such as "I thought it was an AWS failure, but it seems normal" at some point during the period from time t1 to time t2. In this case, the period from time t1 to t2 is the period before failure I occurs, and since user A's post was made during the period when no failure occurred (non-failure time), user A points will be deducted from the contribution index. The number of points to be deducted may be, for example, "0.1 point". However, the present invention is not limited to such an example.

また、本実施例では、ユーザAが時刻t1~t2の期間において1回のみ投稿した例を示したが、ユーザAが複数回投稿したような場合には、投稿の回数に応じて貢献度指数から減点してよい。例えば、ユーザAが時刻t1~t2の期間において、非障害時に障害ワードを含む投稿を3回行ったような場合には、1回目の投稿の減点分である「0.1点」に3を乗じた「0.3点」を貢献度指数から減点するようにしてよい。 In addition, in this embodiment, an example was shown in which user A posted only once during the period from time t1 to time t2, but if user A posted multiple times, the contribution index is determined according to the number of posts. You may deduct points from For example, in the period from time t1 to time t2, if user A posted three times including the problem word when there was no problem, 3 is added to the "0.1 point" that is the deduction for the first post. The multiplied "0.3 points" may be subtracted from the contribution index.

一方、例えば、時刻t2~t3の期間のいずれかの時点において、ユーザBが「やっぱり障害出ているのか...AWS」といった投稿文を投稿したものとする。この場合、時刻t2~t3の期間は、障害Iが発生している期間であり、ユーザBの投稿は障害が発生している期間(障害発生時)に行われたものであるため、ユーザBの貢献度指数に対して加点する。加点するポイントは、例えば「1.0点」としてよい。ただし、このような例には限定されない。また、本実施例では、ユーザBが時刻t2~t3の期間において1回のみ投稿した例を示したが、ユーザBが複数回投稿したような場合には、先に投稿された投稿文を優先してよい。例えば、ユーザBが時刻t2~t3の期間において、障害時に障害ワードを含む投稿を2回行ったような場合には、1回目の投稿の加点分である「1.0点」を貢献度指数に加点するようにしてよい。これは、同じユーザによる複数回の投稿に応じて、同一ユーザの貢献度指数をその都度加点してしまうと、障害発生期間中に何回も故意に投稿することで、1人のユーザに膨大な貢献度指数を与えてしまうことになり、好ましくないためである。 On the other hand, for example, assume that user B posted a message such as "I guess there is a problem with AWS..." at some point during the period from time t2 to time t3. In this case, the period from time t2 to time t3 is the period during which failure I occurs, and since user B's post was made during the period when the failure occurred (at the time of failure), user B Points will be added to the contribution index of The point to be added may be, for example, "1.0 point". However, the present invention is not limited to such an example. In addition, in this example, an example was shown in which user B posted only once during the period from time t2 to t3, but if user B posts multiple times, priority is given to the posted text that was posted first. You may do so. For example, in the period from time t2 to time t3, if user B posted twice including the trouble word at the time of the trouble, the additional point for the first post, ``1.0 point'', is used as the contribution index. You may add points to This means that if the same user's contribution index is added each time in response to multiple posts by the same user, one user will receive a huge amount of money by intentionally posting many times during the failure period. This is because it would give a contribution index that is undesirable.

ここで、ユーザ毎の貢献度指数に加点するポイント数は、障害発生に対する貢献度に応じて変えるようにしてよい。本開示の一実施形態に係る障害検知装置は、特定のクラウドサービスにおける障害の発生を迅速に検知することを目的としているため、障害が発生した時点から障害発生を通知する障害ワードを含む投稿文を投稿するまでの時間が短い程、大きな値を貢献度指数に加点するようにしてよい。図6に、本開示の一実施形態に係る障害検知装置の貢献度指数設定部が設定する貢献度指数と障害発生からの経過時間との関係を示す。貢献度指数設定部1は、過去に生じた障害に関して、障害が発生してから投稿までの時間が短い程、貢献度指数に加点するポイント数を大きな値に設定してよい。例えば、障害が発生してから10分以内に障害ワードを含む投稿を行ったユーザに対しては貢献度指数に1.0点を加点し、障害が発生してから10~20分の間に障害ワードを含む投稿を行ったユーザに対しては貢献度指数に0.9点を加点してよい。その後、障害が発生してからの時間の経過に伴って、ユーザの貢献度指数に加点するポイント数を減少させてよい。 Here, the number of points added to the contribution index for each user may be changed depending on the contribution to the failure occurrence. Since the failure detection device according to an embodiment of the present disclosure aims to quickly detect the occurrence of a failure in a specific cloud service, a posted message including a failure word that notifies the occurrence of a failure from the time the failure occurs. The shorter the time until posting, the larger the value may be added to the contribution index. FIG. 6 shows the relationship between the contribution index set by the contribution index setting unit of the failure detection device according to an embodiment of the present disclosure and the elapsed time from the occurrence of the failure. Regarding failures that occurred in the past, the contribution index setting unit 1 may set the number of points to be added to the contribution index to a larger value as the time from the occurrence of the failure to posting is shorter. For example, 1.0 points will be added to the contribution index for a user who posts a problem word within 10 minutes after the problem occurs, and For users who have made posts that include troublesome words, 0.9 points may be added to the contribution index. Thereafter, the number of points added to the user's contribution index may be decreased as time passes since the failure occurred.

例えば、図5に示した例では、障害IIが発生した時刻t4からの経過時間が50~60分の期間において、ユーザBが障害ワードを含む投稿を行った場合には、ユーザBの貢献度指数に0.5点を加点してよい。同様に、障害IIが発生した時刻t4からの経過時間が90~100分の期間において、ユーザCが障害ワードを含む投稿を行った場合には、ユーザCの貢献度指数に0.1点を加点してよい。 For example, in the example shown in FIG. 5, if user B posts a post that includes the fault word during a period of 50 to 60 minutes that has elapsed since time t4 when fault II occurred, the contribution level of user B You may add 0.5 points to the index. Similarly, if user C posts a post that includes a faulty word during a period of 90 to 100 minutes that has elapsed since time t4 when fault II occurred, 0.1 point will be added to user C's contribution index. You may add points.

以下、同様にして、障害発生後、110分が経過するまで10分経過するごとに貢献度指数に加点するポイント数を0.1点ずつ減少させてよい。ただし、このように、貢献度指数に加点するポイント数は、障害発生からの経過時間に対して単調に減少する例には限定されない。また、図6に示した例では障害発生からの経過時間を10分ごとに区切って貢献度指数に加点または減点するポイント数を規定する例を示したが、このような例には限られず、任意の時間に区切って貢献度指数を規定してよい。 Thereafter, in the same manner, the number of points added to the contribution index may be decreased by 0.1 points every 10 minutes until 110 minutes have passed since the failure occurred. However, the number of points added to the contribution index is not limited to the example in which the number of points added to the contribution index monotonically decreases with the elapsed time from the occurrence of the failure. Further, although the example shown in FIG. 6 shows an example in which the number of points to be added or subtracted from the contribution index is defined by dividing the elapsed time from the occurrence of a failure into every 10 minutes, this is not limited to such an example. The contribution index may be defined by dividing it into arbitrary time periods.

さらに、障害発生から一定の時間が経過した後においては、ユーザ毎の貢献度指数に加点するポイント数を一定としてよい。障害が発生してから所定の時間が経過すると障害の発生を迅速に通知するという点での貢献度は低下するが、一定程度は貢献しているからである。 Furthermore, after a certain period of time has passed since the occurrence of a failure, the number of points added to the contribution index for each user may be set constant. This is because, although the degree of contribution in terms of prompt notification of the occurrence of a failure decreases after a predetermined period of time has elapsed since the occurrence of a failure, it still contributes to a certain extent.

図6に示すように、ユーザAが非障害時に障害ワードを含む投稿を3回行った場合には、貢献度指数に0.3点を減点してよい。ユーザA~Cの貢献度指数の初期値を1点とした場合、ユーザAの貢献度指数を初期値の1点から0.3点を減点して0.7点としてよい。同様に、ユーザBが障害時に障害ワードを含む投稿を3回行い、それぞれの投稿に対して貢献度指数に加点するポイント数が1.0点、0.5点、0.2点である場合は、最終的な貢献度指数を2.7点としてよい。 As shown in FIG. 6, if user A posts including a problem word three times when there is no problem, 0.3 points may be subtracted from the contribution index. If the initial value of the contribution index of users A to C is 1 point, the contribution index of user A may be set to 0.7 points by subtracting 0.3 points from the initial value of 1 point. Similarly, if user B posts three times including the trouble word at the time of the trouble, and the number of points added to the contribution index for each post is 1.0, 0.5, and 0.2. may have a final contribution index of 2.7 points.

障害が発生してからの経過時間と貢献度指数の大きさとの関係については、機械学習を行って学習モデルを作成して決定するようにしてよい。 The relationship between the elapsed time since the occurrence of a failure and the size of the contribution index may be determined by performing machine learning to create a learning model.

以上のようにして、過去の投稿文を用いてユーザの貢献度指数を設定したのち、記憶部6(図2参照)に格納されたデータベースを更新してよい。後述するように、障害ワードを含む投稿がなされた場合は、データベースに記憶された貢献度指数を参照し、貢献度指数が大きく、信頼できるユーザの投稿数を多く計数することにより障害発生を迅速に検知することができる。 After setting the user's contribution index using past posted messages as described above, the database stored in the storage unit 6 (see FIG. 2) may be updated. As described later, when a post that includes a troublesome word is made, the occurrence of trouble can be quickly detected by referring to the contribution index stored in the database and counting the number of posts by reliable users with a large contribution index. can be detected.

(障害発生の検知方法)
次に、本開示の一実施形態に係る障害検知装置を用いて特定のクラウドサービスにおける障害の検知方法について説明する。図7に、本開示の一実施形態に係る障害検知装置を用いて、投稿数及び積算値を用いて障害発生の有無を判断する手順を説明するためのフローチャートを示す。まず、ステップS201において、投稿文取得部2が、投稿サイトへの複数の投稿文の中から、クラウドサービスに関する障害の有無を判断するための所定の文言を含む投稿文を取得する。
(Method of detecting failure occurrence)
Next, a method for detecting a failure in a specific cloud service using a failure detection device according to an embodiment of the present disclosure will be described. FIG. 7 shows a flowchart for explaining a procedure for determining whether a failure has occurred using the number of posts and an integrated value using the failure detection device according to an embodiment of the present disclosure. First, in step S201, the posted text acquisition unit 2 obtains a posted text that includes a predetermined wording for determining the presence or absence of a failure regarding the cloud service from among a plurality of posted texts on the posting site.

障害ワードを含む投稿文を取得する投稿サイトは、上述した貢献度指数データベースを作成する際に利用した投稿サイトと同一の投稿サイトであってよい。ただし、このような例には限定されず、両者は異なっていてもよい。例えば、ユーザが異なる投稿サイトに同じアカウントを利用して投稿している場合には、特定の投稿サイトの投稿文を用いて作成した貢献度指数データベースは、他の投稿サイトにおいても利用することができる。 The posting site from which the posted text including the obstacle word is acquired may be the same posting site used when creating the above-mentioned contribution index database. However, it is not limited to such an example, and the two may be different. For example, if a user posts to different posting sites using the same account, a contribution index database created using posts from a particular posting site can also be used on other posting sites. can.

障害発生の有無を判断するための所定の文言は、上述した、貢献度指数を設定する際に用いた文言と同一でよい。即ち、障害の発生を表す所定の文言(障害ワード)とは、例えば、「障害」、「死」、「落ち」、「使えない」、「影響」、「遅い」、「停止」、「重」等であるが、これらの例には限定されない。 The predetermined wording for determining whether a failure has occurred may be the same as the wording used when setting the contribution index described above. In other words, predetermined words (failure words) that indicate the occurrence of a fault include, for example, "failure," "death," "fall," "unusable," "impact," "slow," "stop," and "severe." ” etc., but are not limited to these examples.

投稿サイトがツイッターである場合は、ツイッターAPIを用いることにより、所定の期間における、障害を通知する所定の文言を含む投稿文を取得することができる。 When the posting site is Twitter, by using the Twitter API, it is possible to obtain posted texts that include predetermined words notifying a failure during a predetermined period.

次に、ステップS202において、所定の期間内に取得した投稿文に関して、ユーザ毎に、ユーザが投稿した投稿文の数に当該ユーザの貢献度指数を乗じた実効投稿数を算出する。 Next, in step S202, for each user, for posted texts acquired within a predetermined period, the effective number of posts is calculated by multiplying the number of posted texts by the user by the contribution index of the user.

ここで、「所定の期間」とは、例えば、5分間である。例えば、午前10時0分から、午前10時5分までを最初の所定期間とし、午前10時5分から午前10時10分までの期間を次の所定の期間(2回目の所定の期間)としてよい。ただし、このような例には限定されず、所定の期間は任意の長さの期間としてよい。 Here, the "predetermined period" is, for example, 5 minutes. For example, the first predetermined period may be from 10:00 a.m. to 10:05 a.m., and the next predetermined period (second predetermined period) may be from 10:05 a.m. to 10:10 a.m. . However, the present invention is not limited to such an example, and the predetermined period may be any length period.

実効投稿数は、ユーザが投稿した投稿文の数に当該ユーザの貢献度指数を乗じた値である。例えば、ユーザAが上記の最初の所定の期間内に3回の投稿を行い、ユーザAの貢献度指数が1.5である場合は、実効投稿数は4.5となる。また、ユーザAが上記の2回目の所定の期間内に4回の投稿を行った場合は、実効投稿数は6.0となる。同様に、ユーザBが上記の最初の所定の期間内に1回の投稿を行い、ユーザBの貢献度指数が0.8である場合は、実効投稿数は0.8となる。また、ユーザBが上記の2回目の所定の期間内に2回の投稿を行った場合は、実効投稿数は1.6となる。以下、同様に、所定の期間において障害の有無に関する投稿を行った他のユーザC及びDが存在する場合には、所定の期間内に取得した投稿文に関して、ユーザC及びDのそれぞれについて、ユーザC及びDが投稿した投稿文の数にユーザC及びDの貢献度指数を乗じた実効投稿数を算出する。 The effective number of posts is a value obtained by multiplying the number of posts posted by a user by the user's contribution index. For example, if user A posts three times within the first predetermined period, and user A's contribution index is 1.5, the effective number of posts is 4.5. Furthermore, if user A posts four times within the second predetermined period, the effective number of posts will be 6.0. Similarly, if user B makes one post within the first predetermined period and the contribution index of user B is 0.8, the effective number of posts will be 0.8. Furthermore, if user B posts twice within the second predetermined period, the effective number of posts will be 1.6. Similarly, if there are other users C and D who have posted regarding the presence or absence of a disorder within the predetermined period, the user The effective number of posts is calculated by multiplying the number of posts posted by users C and D by the contribution index of users C and D.

次に、ステップS203において、複数のユーザの実効投稿数を積算した積算値を算出する。例えば、上記の最初の所定の期間における、ユーザA~Dの実効投稿数が、それぞれ、「4.5」、「0.8」、「1.5」、「0.6」である場合は、積算値は「7.4」となる。同様に、上記の第2回目の所定の期間における、ユーザA~Dの実効投稿数が、それぞれ、「6.0」、「1.6」、「3.0」、「1.2」である場合は、積算値は「11.8」となる。 Next, in step S203, an integrated value is calculated by integrating the effective number of posts by a plurality of users. For example, if the effective number of posts by users A to D during the first predetermined period above is "4.5", "0.8", "1.5", and "0.6", respectively, , the integrated value is "7.4". Similarly, the effective number of posts by users A to D during the second predetermined period above is "6.0", "1.6", "3.0", and "1.2", respectively. If there is, the integrated value will be "11.8".

次に、ステップS204において、積算値が第1~第4条件を満たしているか否かを判断する。 Next, in step S204, it is determined whether the integrated value satisfies the first to fourth conditions.

第1条件は、所定の期間において連続して積算値が増加することである。具体的には、第1条件は、単位時間当たりの積算値が連続して増加する期間が基準回数を超過していることであってよい。図8に、本開示の一実施形態に係る障害検知装置を用いて検出した積算値及び投稿数の時間的変化を表すグラフを示す。図8において、横軸は時間を示し、縦軸は単位時間当たりの積算値及び投稿数を示している。図8に示した例では、2021年12月15日の19時から12月16日の9時までの期間において、クラウドサービスの障害が2回発生した例を示している。1回目は時刻t10において発生し、2回目は時刻t20において発生している。積算値は、時刻t12において増加し始め、この増加傾向が所定の期間において継続している場合に、第1条件が満たされていると判断する。例えば、時刻t14まで積算値の増加傾向が継続した場合に、第1条件が満たされたものと判断してよい。例えば、t12からt14までの期間は20分としてよい。ただし、このような例には限定されない。 The first condition is that the integrated value continuously increases during a predetermined period. Specifically, the first condition may be that the period during which the integrated value per unit time increases continuously exceeds a reference number of times. FIG. 8 shows a graph showing temporal changes in the integrated value and the number of posts detected using the failure detection device according to an embodiment of the present disclosure. In FIG. 8, the horizontal axis shows time, and the vertical axis shows the integrated value and the number of posts per unit time. The example shown in FIG. 8 shows an example in which a cloud service failure occurred twice in the period from 19:00 on December 15, 2021 to 9:00 on December 16, 2021. The first occurrence occurs at time t10, and the second occurrence occurs at time t20. The integrated value starts to increase at time t12, and if this increasing trend continues for a predetermined period, it is determined that the first condition is satisfied. For example, if the integrated value continues to increase until time t14, it may be determined that the first condition is satisfied. For example, the period from t12 to t14 may be 20 minutes. However, the present invention is not limited to such an example.

第2条件は、単位時間当たりの積算値が第1閾値を超過していることである。例えば、図8に示すように、時刻t13において単位時間当たりの積算値が第1閾値を超えている場合に、第2条件が満たされていると判断してよい。例えば、第1閾値は、10分当たりの投稿数が3件であってよい。ただし、このような例には限られない。 The second condition is that the integrated value per unit time exceeds the first threshold. For example, as shown in FIG. 8, if the integrated value per unit time exceeds the first threshold at time t13, it may be determined that the second condition is satisfied. For example, the first threshold may be 3 posts per 10 minutes. However, it is not limited to such an example.

第3条件は、単位時間当たりの投稿数(平均投稿数)が第2閾値を超過していることである。ここでいう「単位時間当たりの投稿数」とは、障害ワードを含む投稿に限られず、投稿サイトに投稿された投稿数を含む。このように障害ワードを含まない投稿が増加している場合には、何らかの異常な状態が生じていることが推定される。このように障害ワードを含まない投稿数をカウントするのは、予め登録しておいた障害に関する文言(キーワード)が含まれていない投稿であっても、そのような投稿を全くカウントしないとすると、障害の発生を見逃す恐れがあると考えられるためである。例えば、第2閾値は10分当たりの投稿数が50件であってよい。ただし、このような例には限られない。 The third condition is that the number of posts per unit time (average number of posts) exceeds the second threshold. The "number of posts per unit time" here is not limited to posts that include troublesome words, but also includes the number of posts posted to posting sites. If the number of posts that do not include the troublesome word is increasing in this way, it is presumed that some kind of abnormal condition is occurring. Counting the number of posts that do not include disability words in this way means that such posts are not counted at all, even if they do not include words (keywords) related to disabilities that have been registered in advance. This is because it is thought that the occurrence of a failure may be overlooked. For example, the second threshold may be 50 posts per 10 minutes. However, it is not limited to such an example.

第4条件は、投稿数に対する積算値の割合が第3閾値を超過することである。これは、障害が発生した場合は、障害ワードを含む投稿の数が、全体の投稿数に対して占める割合が増加すると考えられるためである。例えば、第3閾値は20%であってよい。ただし、このような例には限られない。 The fourth condition is that the ratio of the integrated value to the number of posts exceeds the third threshold. This is because when a failure occurs, the number of posts containing the failure word is considered to increase in proportion to the total number of posts. For example, the third threshold may be 20%. However, it is not limited to such an example.

次に、ステップS205において、第1~第4条件のうち2つ以上満足しているか否かを判断する。 Next, in step S205, it is determined whether two or more of the first to fourth conditions are satisfied.

障害判断部4は、積算値が所定の条件を満たした場合にクラウドサービスサーバ300に障害が発生したものと判断してよい。例えば、障害判断部4は、第1~第4条件のうち2つ以上満足している場合は、ステップS206において、障害が発生していると判断してよい。 The failure determination unit 4 may determine that a failure has occurred in the cloud service server 300 when the integrated value satisfies a predetermined condition. For example, if two or more of the first to fourth conditions are satisfied, the failure determination unit 4 may determine that a failure has occurred in step S206.

その後、障害通知部5は、クラウドサービスサーバ300に障害が発生したことを外部(例えば、クラウドサービスサーバ300の管理者等)に通知してよい。例えば、障害通知部5は、Slack等を用いて、ツイッター等の外部ソースからの情報をワークスペースと共有してよい。あるいは、障害通知部5は、電子メール等により、クラウドサービスサーバ300の管理者に障害発生を通知してもよい。本開示の実施形態に係る障害検知装置100により、障害の発生を従来に比べて30~90分早く検知することができた。 Thereafter, the failure notification unit 5 may notify the outside (for example, the administrator of the cloud service server 300, etc.) that a failure has occurred in the cloud service server 300. For example, the failure notification unit 5 may share information from an external source such as Twitter with the workspace using Slack or the like. Alternatively, the failure notification unit 5 may notify the administrator of the cloud service server 300 of the occurrence of the failure by e-mail or the like. The failure detection device 100 according to the embodiment of the present disclosure was able to detect the occurrence of a failure 30 to 90 minutes earlier than conventional methods.

一方、ステップS205において、第1~第4条件のうち、満足している条件がいずれか1つまたは何もない場合は、ステップS201に戻って、障害ワードを含む投稿文の取得を継続する。 On the other hand, in step S205, if any one or none of the first to fourth conditions are satisfied, the process returns to step S201 to continue acquiring posted texts containing the trouble word.

なお、特定のクラウドサービスにおいて、障害は複数回連続して発生する場合もあり得る。図8には、上述した障害(第1回目)に続けて、時刻t21からt23にかけて第2回目の障害が発生した例を示している。換言すると、第1回目の障害は、第2回目の障害が発生する前に解消されている。従って、第1回目の障害が発生した場合、障害検知装置100は、特定のクラウドサービスにおいて障害が発生したことを外部に通知するが、障害が解消した場合には、その旨を通知するようにしてよい。このようにすることで、クラウドサービスの管理者は、一旦発生した第1回目の障害に対しては対処する必要がなくなったことを認識することができる。 Note that in a specific cloud service, failures may occur multiple times in a row. FIG. 8 shows an example in which a second failure occurs from time t21 to time t23, following the above-mentioned failure (first time). In other words, the first failure is resolved before the second failure occurs. Therefore, when the first failure occurs, the failure detection device 100 notifies the outside that a failure has occurred in a specific cloud service, but when the failure is resolved, it notifies the outside. It's fine. By doing so, the cloud service administrator can recognize that it is no longer necessary to deal with the first failure that has occurred.

以上のようにして、第1~第4条件のうち、2つ以上の条件を満足している場合に障害が発生していると判断することにより、障害の発生の有無を正確に判断することができる。 As described above, by determining that a failure has occurred when two or more of the first to fourth conditions are satisfied, it is possible to accurately determine whether a failure has occurred. Can be done.

しかしながら、障害の発生の検知を迅速に行うという観点から、第1~第4条件のうちのいずれか1つの条件が満たされた場合に障害が発生したものと判断してよい。 However, from the viewpoint of quickly detecting the occurrence of a failure, it may be determined that a failure has occurred when any one of the first to fourth conditions is satisfied.

図7に示した例では、積算値が第1~第4条件のうちの2つ以上の条件を満たしているか否かに基づいて障害の発生の有無を検知する例について説明したが、積算値が第1、第2、第4条件をそれぞれ単独で満たしているかに基づいて障害発生の有無を判断してよい。 In the example shown in FIG. 7, the presence or absence of a failure is detected based on whether the integrated value satisfies two or more of the first to fourth conditions. The presence or absence of a failure may be determined based on whether each of the first, second, and fourth conditions is satisfied individually.

即ち、第1条件のみに基づく場合は、障害発生の有無を判断するための所定の条件は、所定の期間において連続して積算値が増加することであってよい。 That is, when based only on the first condition, the predetermined condition for determining whether a failure has occurred may be that the integrated value increases continuously in a predetermined period.

また、第2条件のみに基づく場合は、障害発生の有無を判断するための所定の条件は、所定の期間における単位時間当たりの積算値である平均積算値が第1閾値を超えることであってよい。 In addition, when based only on the second condition, the predetermined condition for determining whether a failure has occurred is that the average integrated value, which is the integrated value per unit time in a predetermined period, exceeds the first threshold value. good.

また、第4条件のみに基づく場合は、障害発生の有無を判断するための所定の条件は、所定の期間における投稿数に対する積算値の割合が第3閾値を超えることであってよい。 Further, when based only on the fourth condition, the predetermined condition for determining whether a failure has occurred may be that the ratio of the integrated value to the number of posts in a predetermined period exceeds a third threshold.

積算値が第1、第2、第4条件をそれぞれ単独で満たしているかに基づいて障害発生の有無を判断することにより、積算値が第1~第4条件のうちの2つ以上の条件を満たしているか否かに基づいて障害の発生の有無を検知する場合に比べて、迅速に障害の発生を検知することができる。ただし、このような例には限定されず、第1~第4条件のうちのうちの3つ、あるいは全てを満足している場合に、障害が発生していると判断してよい。 By determining whether a failure has occurred based on whether the integrated value satisfies the first, second, and fourth conditions independently, the integrated value satisfies two or more of the first to fourth conditions. The occurrence of a failure can be detected more quickly than in the case where the presence or absence of a failure is detected based on whether the conditions are met. However, the present invention is not limited to this example, and if three or all of the first to fourth conditions are satisfied, it may be determined that a failure has occurred.

次に、障害判断部4が積算値の累積値に基づいて障害の有無を判断する例について説明する。図9に、本開示の一実施形態に係る障害検知装置100を用いて検出した積算値の累積値及び累積障害投稿数の時間的変化を示す。累積障害投稿数は、障害ワードを含む投稿数の累積値である。即ち、累積障害投稿数は、本開示の実施形態に係る障害検知放置100とは異なり、ユーザの貢献度指数を考慮していない値である。これに対して、積算値の累積値は、本開示の実施形態に係る障害検知放置100を用いて、ユーザの貢献度指数を考慮した値である積算値の累積値である。 Next, an example in which the failure determination unit 4 determines the presence or absence of a failure based on the cumulative value of the integrated values will be described. FIG. 9 shows temporal changes in the cumulative value of integrated values and the cumulative number of failure postings detected using the failure detection device 100 according to an embodiment of the present disclosure. The cumulative number of failure posts is the cumulative value of the number of posts that include failure words. That is, the cumulative number of failure posts is a value that does not take into account the user's contribution index, unlike the failure detection and neglect 100 according to the embodiment of the present disclosure. On the other hand, the cumulative value of the integrated value is a cumulative value of the integrated value, which is a value that takes into account the user's contribution index using the fault detection and neglect 100 according to the embodiment of the present disclosure.

図9に示すように、時刻t30において、特定のクラウドサービスにおいて障害が発生したものとする。この場合、時刻t30までの期間が、障害が発生していない期間(非障害時)であり、時刻t30以降の期間が障害発生期間(障害発生時)である。積算値の累積値及び累積障害投稿数は、障害が発生した時刻t30以降において共に増加する。 As shown in FIG. 9, it is assumed that a failure occurs in a specific cloud service at time t30. In this case, the period up to time t30 is a period in which no failure occurs (when no failure occurs), and the period after time t30 is a failure period (when failure occurs). Both the cumulative value of the integrated value and the cumulative number of failure posts increase after time t30 when the failure occurs.

ここで、障害判断部4が障害の有無を判断するための所定の条件は、所定の期間における積算値の累積値が所定の基準値を超えることであってよい。そうすると、図9からわかるように、積算値の累積値が所定の基準値を超える時刻はt31であるのに対して、累積障害投稿数が所定の基準値を超える時刻はt31より遅い時刻t32である。即ち、本開示の実施形態に係る障害検知放置100によれば、積算値の累積値は従来の累積障害投稿数よりも早い時刻に所定の基準値を超えることになり、障害の発生を従来に比べて早く検知することができることが分かる。 Here, the predetermined condition for the fault determination unit 4 to judge the presence or absence of a fault may be that the cumulative value of the integrated values in a predetermined period exceeds a predetermined reference value. Then, as can be seen from FIG. 9, the time when the accumulated value exceeds the predetermined reference value is t31, whereas the time when the cumulative number of failure posts exceeds the predetermined reference value is at time t32, which is later than t31. be. That is, according to the failure detection and neglect 100 according to the embodiment of the present disclosure, the cumulative value of the integrated value exceeds the predetermined reference value at an earlier time than the conventional cumulative number of failure postings, and the occurrence of the failure is prevented from occurring as before. It can be seen that it can be detected faster.

(機械学習のモデル生成と障害発生の可能性の推測)
本開示の実施形態に係る障害検知装置においては、機械学習により投稿文の内容から障害発生の可能性を推測してよい。本開示の実施形態に係る障害検知装置は、投稿文取得部2から、障害に関する文言を含む投稿文を入力パラメータとして取得して、学習モデルに入力し、当該投稿文が障害の発生に関する投稿文である可能性を出力パラメータとして出力する学習部7(図2参照)をさらに備えてよい。ここで、学習モデルは、障害に関する文言を含む投稿文であって、障害発生時に投稿された投稿文、及び障害非発生時に投稿された投稿文を学習用入力パラメータとし、投稿文が障害の発生に関するものであるか否かの判定結果を学習用出力パラメータとした入出力データセットを用いて、機械学習によって生成された学習モデルであってよい。
(Machine learning model generation and estimation of possibility of failure)
In the failure detection device according to the embodiment of the present disclosure, the possibility of failure occurrence may be estimated from the content of the posted text using machine learning. The failure detection device according to the embodiment of the present disclosure acquires a posted message including a message related to a failure from the posted message acquisition unit 2 as an input parameter, inputs it to the learning model, and converts the posted message to a posted message related to the occurrence of a failure. The learning unit 7 may further include a learning unit 7 (see FIG. 2) that outputs the possibility that . Here, the learning model is a post that includes text related to a failure, a post that was posted when a failure occurred, and a post that was posted when a failure did not occur as input parameters for learning, and a post that was posted when a failure occurred. The learning model may be generated by machine learning using an input/output data set in which the learning output parameter is the determination result of whether or not the data is relevant.

図10に障害時及び非障害時に投稿された投稿文を使用して学習モデルを作成する手順を示す。図5に示すように、障害I~IIIの期間に投稿された障害ワードを含む投稿は障害発生を通知する投稿である可能性が高く、障害が発生していない期間に投稿された障害ワードを含む投稿は障害発生を通知する投稿ではない可能性が高いといえる。例えば、障害発生時に投稿された「aws落ちてない?」といった投稿文は障害発生を通知する投稿とし、非障害時に投稿された「awsの資格落ちた」といった投稿文は障害発生を通知する投稿ではないとして学習データを入力し、学習モデルを作成することができる。 FIG. 10 shows a procedure for creating a learning model using posted messages posted during failure and non-failure times. As shown in Figure 5, there is a high possibility that posts containing fault words posted during the period of faults I to III are posts notifying the occurrence of a fault, and posts containing fault words posted during periods when no fault has occurred are likely to be posts that notify the occurrence of a fault. It can be said that there is a high possibility that posts containing such information are not posts notifying the occurrence of a failure. For example, a post such as ``Isn't AWS down?'' posted when a failure occurs is a post that notifies the failure, while a post such as ``I failed my AWS qualification'' that is posted when there is no failure is a post that notifies the occurrence of a failure. It is possible to input learning data and create a learning model.

具体的には、まず、投稿文の文字種の統一や数字の置き換えを含む単語の正規化を行う。例えば、「AWS」や「AZURE」は「クラウド」に置き換える。次に、Mecabを用いて形態素解析を行う。例えば、「AWSに障害発生しているかも」といった投稿文を、「クラウド」、「に」、「障害」、「発生」、「して」、「いる」、「かも」に分解する。以上のような前処理を行った後、フェイスブック(登録商標)のfastTextを用いて、障害時及び非障害時にそれぞれ投稿された400個の投稿文を解析した結果、正答率88%で分類することができた。 Specifically, first, words are normalized, including unifying the character types of posted sentences and replacing numbers. For example, "AWS" and "AZURE" are replaced with "cloud." Next, morphological analysis is performed using Mecab. For example, a post such as ``There may be a problem with AWS'' is broken down into ``cloud,'' ``in,'' ``failure,'' ``occurrence,'' ``do,'' ``there,'' and ``might.'' After performing the above preprocessing, we used Facebook (registered trademark) fastText to analyze 400 posts posted during failure and non-failure times, and the results were classified with a correct answer rate of 88%. I was able to do that.

例えば、作成した学習モデルを用いると、ユーザAが投稿した「やっぱり障害出ているのか・・・AWS」といった投稿文が障害発生を通知している可能性(障害可能性)は95%と算出される。この場合は、障害の発生を通知する投稿であるとして、投稿数にユーザAの貢献度指数を乗算した値を用いて積算値を算出する。 For example, using the created learning model, the probability that a post posted by user A such as "I guess there is a problem with AWS..." is a notification of a problem (probability of problem) is 95%. be done. In this case, the cumulative value is calculated using a value obtained by multiplying the number of posts by user A's contribution index, assuming that the posts are notifications of the occurrence of a failure.

一方、例えば、作成した学習モデルを用いて、ユーザBが投稿した「AWSの障害かと思ったけど正常っぽい」といった投稿文が障害発生を通知している可能性(障害可能性)は15%と算出される。この場合は、障害の発生を通知する投稿ではないとして、ユーザBの投稿をカウントしないようにしてよい。 On the other hand, for example, using the created learning model, there is a 15% chance that a post posted by user B such as ``I thought it was an AWS problem, but it seems normal'' is notifying that a failure has occurred (probability of failure). It is calculated as follows. In this case, the post by user B may not be counted as it is not a post that notifies the occurrence of a failure.

以上のようにして、機械学習を用いて障害ワードの分類を行った結果、機械学習を行わない場合に比べて、適合率が20%以上増加し、障害が発生していることを示す正解率を90から98%に改善させることができた。このように、本開示の一実施形態によれば、障害検知の精度を向上しうる。 As a result of classifying faulty words using machine learning as described above, the precision rate increased by more than 20% compared to the case without machine learning, and the correct answer rate indicates that a fault has occurred. could be improved from 90 to 98%. In this way, according to an embodiment of the present disclosure, the accuracy of failure detection can be improved.

上述した本開示の一実施形態に係る障害検知装置100のプロセッサ(図示せず)が有する各部の機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読取り可能な記録媒体に記憶された形で提供されてよい。コンピュータによって読取り可能な記録媒体は、例えば、磁気記録媒体、光記録媒体、又は半導体メモリであってよい。 A computer program that causes a computer to realize the functions of each part of the processor (not shown) of the failure detection device 100 according to an embodiment of the present disclosure described above is provided in a form stored in a computer-readable recording medium. It's fine. The computer readable recording medium may be, for example, a magnetic recording medium, an optical recording medium, or a semiconductor memory.

1 貢献度指数設定部
2 投稿文取得部
3 算出部
4 障害判断部
5 障害通知部
6 記憶部
7 学習部
100 障害検知装置
200 投稿サイトサーバ
300 クラウドサービスサーバ
400 端末
500 インターネットサービス
1000 障害検知システム
1 Contribution index setting unit 2 Posted text acquisition unit 3 Calculation unit 4 Failure determination unit 5 Failure notification unit 6 Storage unit 7 Learning unit 100 Failure detection device 200 Posting site server 300 Cloud service server 400 Terminal 500 Internet service 1000 Failure detection system

Claims (12)

対象のインターネットサービスの通信障害の有無についてユーザが過去に投稿した投稿文の内容に基づいて、障害情報の提供に対する貢献度を表す指数である貢献度指数をユーザ毎に設定する貢献度指数設定部と、
投稿サイトへの複数の投稿文の中から、前記インターネットサービスに関する障害の有無を判断するための所定の文言を含む投稿文を取得する投稿文取得部と、
前記投稿文取得部が所定の期間内に取得した投稿文に関して、ユーザ毎に、ユーザが投稿した投稿文の数に当該ユーザの前記貢献度指数を乗じた実効投稿数を算出し、且つ、複数のユーザの実効投稿数を積算した積算値を算出する算出部と、
前記積算値が所定の条件を満たした場合に前記インターネットサービスに障害が発生したものと判断する障害判断部と、
前記インターネットサービスに障害が発生したことを外部に通知する障害通知部と、
を有することを特徴とする障害検知装置。
A contribution index setting unit that sets a contribution index for each user, which is an index representing the degree of contribution to providing failure information, based on the content of posts posted by the user in the past regarding the presence or absence of communication failures in the target Internet service. and,
a posted message acquisition unit that obtains a posted message including a predetermined wording for determining whether there is a problem with the Internet service from among a plurality of posted messages on the posting site;
Regarding the posted texts acquired by the posted text acquisition unit within a predetermined period, for each user, calculate the effective number of posts by multiplying the number of posted texts posted by the user by the contribution index of the user, and a calculation unit that calculates an integrated value of the effective number of posts by users;
a failure determination unit that determines that a failure has occurred in the Internet service when the integrated value satisfies a predetermined condition;
a failure notification unit that notifies an external party that a failure has occurred in the Internet service;
A failure detection device characterized by having:
前記貢献度指数設定部は、過去に生じた障害に関して、障害が発生した場合に障害発生を通知する投稿が行われた場合には、前記貢献度指数に加点する、請求項1に記載の障害検知装置。 2. The contribution index setting unit adds points to the contribution index when a post is made to notify the occurrence of a failure regarding a failure that occurred in the past. Detection device. 前記貢献度指数設定部は、過去に生じた障害に関して、障害が発生してから投稿までの時間が短い程、前記貢献度指数に加点するポイント数を大きな値に設定する、請求項2に記載の障害検知装置。 3. The contribution index setting unit sets the number of points to be added to the contribution index to a larger value as the time from the occurrence of a failure to posting is shorter with respect to failures that have occurred in the past. failure detection device. 前記貢献度指数設定部は、過去に生じた障害に関して、障害が発生していない場合に障害発生を通知する投稿が行われた場合には、前記貢献度指数から減点する、請求項1または2に記載の障害検知装置。 2. The contribution index setting unit subtracts points from the contribution index when a post is made to notify the occurrence of a failure when no failure has occurred in the past. The failure detection device described in . 前記所定の条件は、前記所定の期間における前記積算値の累積値が所定の基準値を超えることである、請求項1または2に記載の障害検知装置。 The failure detection device according to claim 1 or 2, wherein the predetermined condition is that the cumulative value of the integrated values in the predetermined period exceeds a predetermined reference value. 前記所定の条件は、
前記所定の期間において連続して前記積算値が増加する第1条件、
前記所定の期間における単位時間当たりの積算値である平均積算値が第1閾値を超える第2条件、
前記所定の期間における単位時間当たりの投稿数である平均投稿数が第2閾値を超える第3条件、及び、
前記所定の期間における投稿数に対する前記積算値の割合が第3閾値を超える第4条件のうちの少なくとも2つ以上の条件が満たされていることである、請求項1または2に記載の障害検知装置。
The predetermined conditions are:
a first condition that the integrated value increases continuously in the predetermined period;
a second condition in which the average integrated value, which is the integrated value per unit time in the predetermined period, exceeds a first threshold;
a third condition in which the average number of posts, which is the number of posts per unit time in the predetermined period, exceeds a second threshold; and
The failure detection according to claim 1 or 2, wherein at least two or more of a fourth condition in which the ratio of the integrated value to the number of posts in the predetermined period exceeds a third threshold value is satisfied. Device.
前記所定の条件は、前記所定の期間において連続して前記積算値が増加することである、請求項1または2に記載の障害検知装置。 The failure detection device according to claim 1 or 2, wherein the predetermined condition is that the integrated value continuously increases during the predetermined period. 前記所定の条件は、前記所定の期間における単位時間当たりの積算値である平均積算値が第1閾値を超えることである、請求項1または2に記載の障害検知装置。 3. The failure detection device according to claim 1, wherein the predetermined condition is that an average integrated value that is an integrated value per unit time in the predetermined period exceeds a first threshold value. 前記所定の条件は、前記所定の期間における投稿数に対する前記積算値の割合が第3閾値を超えることである、請求項1または2に記載の障害検知装置。 3. The failure detection device according to claim 1, wherein the predetermined condition is that a ratio of the integrated value to the number of posts in the predetermined period exceeds a third threshold. 前記投稿文取得部から、障害に関する文言を含む投稿文を入力パラメータとして取得して、学習モデルに入力し、当該投稿文が障害の発生に関する投稿文である可能性を出力パラメータとして出力する学習部をさらに備え、
前記学習モデルは、障害に関する文言を含む投稿文であって、障害発生時に投稿された投稿文、及び障害非発生時に投稿された投稿文を学習用入力パラメータとし、前記投稿文が障害の発生に関するものであるか否かの判定結果を学習用出力パラメータとした入出力データセットを用いて、機械学習によって生成された学習モデルである、
請求項1または2に記載の障害検知装置。
A learning unit that acquires a posted text including a phrase related to a disorder from the posted text acquisition unit as an input parameter, inputs it into a learning model, and outputs the possibility that the posted text is a posted text related to the occurrence of a disorder as an output parameter. Furthermore,
The learning model uses posted texts that include text related to a failure, posts posted when a fault occurs, and posted texts posted when a fault does not occur, as learning input parameters, and the posted texts are related to the occurrence of a fault. It is a learning model generated by machine learning using an input/output dataset with the learning output parameter as the determination result of whether or not it is a certain object.
The failure detection device according to claim 1 or 2.
貢献度指数設定部が、対象のインターネットサービスの通信障害の有無についてユーザが過去に投稿した投稿文の内容に基づいて、障害情報の提供に対する貢献度を表す指数である貢献度指数をユーザ毎に設定し、
投稿文取得部が、投稿サイトへの投稿文の中から、前記インターネットサービスについて、障害の有無を判断するための所定の文言を含む投稿文を取得し、
算出部が、前記投稿文取得部が所定の期間内に取得した投稿文に関して、ユーザ毎に、ユーザが投稿した投稿文の数に当該ユーザの前記貢献度指数を乗じた実効投稿数を算出し、且つ、複数のユーザの実効投稿数を積算した積算値を算出し、
障害判断部が、前記積算値が所定の条件を満たした場合に前記インターネットサービスに障害が発生したものと判断し、
障害通知部が、前記インターネットサービスに障害が発生したことを外部に通知する、
ことを特徴とする障害検知方法。
The contribution index setting unit sets a contribution index for each user, which is an index representing the degree of contribution to providing failure information, based on the content of posts posted by users in the past regarding the presence or absence of communication failures in the target Internet service. Set,
a posted text acquisition unit obtains a posted text that includes a predetermined wording for determining the presence or absence of a failure with respect to the Internet service from among posted texts on the posting site;
The calculation unit calculates, for each user, the effective number of posts by multiplying the number of posts posted by the user by the contribution index of the user, with respect to the posted texts acquired by the posted text acquisition unit within a predetermined period. , and calculate the cumulative value of the effective number of posts by multiple users,
a failure determination unit determines that a failure has occurred in the Internet service when the integrated value satisfies a predetermined condition;
a failure notification unit notifies an external party that a failure has occurred in the Internet service;
A fault detection method characterized by:
コンピュータに、
対象のインターネットサービスの通信障害の有無についてユーザが過去に投稿した投稿文の内容に基づいて、障害情報の提供に対する貢献度を表す指数である貢献度指数をユーザ毎に設定するステップと、
投稿サイトへの投稿文の中から、前記インターネットサービスについて、障害の有無を判断するための所定の文言を含む投稿文を取得するステップと、
所定の期間内に取得した投稿文に関して、ユーザ毎に、ユーザが投稿した投稿文の数に当該ユーザの前記貢献度指数を乗じた実効投稿数を算出し、且つ、複数のユーザの実効投稿数を積算した積算値を算出するステップと、
前記積算値が所定の条件を満たした場合に前記インターネットサービスに障害が発生したものと判断するステップと、
前記インターネットサービスに障害が発生したことを外部に通知するステップと、
を実行させることを特徴とする障害検知プログラム。
to the computer,
a step of setting a contribution index for each user, which is an index representing the degree of contribution to providing failure information, based on the content of posts posted by the user in the past regarding the presence or absence of communication failures of the target Internet service;
retrieving a post containing a predetermined wording for determining the presence or absence of a failure with respect to the Internet service from among the posts on the posting site;
Regarding posted texts obtained within a predetermined period, for each user, calculate the effective number of posts by multiplying the number of posts posted by the user by the contribution index of the user, and calculate the effective number of posts by multiple users. a step of calculating an integrated value by integrating the
determining that a failure has occurred in the Internet service if the integrated value satisfies a predetermined condition;
a step of notifying an external party that a failure has occurred in the Internet service;
A fault detection program characterized by causing the execution of.
JP2022112031A 2022-07-12 2022-07-12 Fault detection device, fault detection method, and fault detection program Active JP7402932B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022112031A JP7402932B1 (en) 2022-07-12 2022-07-12 Fault detection device, fault detection method, and fault detection program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022112031A JP7402932B1 (en) 2022-07-12 2022-07-12 Fault detection device, fault detection method, and fault detection program

Publications (2)

Publication Number Publication Date
JP7402932B1 true JP7402932B1 (en) 2023-12-21
JP2024010601A JP2024010601A (en) 2024-01-24

Family

ID=89190388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022112031A Active JP7402932B1 (en) 2022-07-12 2022-07-12 Fault detection device, fault detection method, and fault detection program

Country Status (1)

Country Link
JP (1) JP7402932B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170286857A1 (en) 2015-07-22 2017-10-05 Wisdo Ltd. Methods and systems for dynamically generating real-time recommendations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170286857A1 (en) 2015-07-22 2017-10-05 Wisdo Ltd. Methods and systems for dynamically generating real-time recommendations

Also Published As

Publication number Publication date
JP2024010601A (en) 2024-01-24

Similar Documents

Publication Publication Date Title
US10931766B2 (en) Data collecting method, system, terminal, and server
AU2017228584B2 (en) Multi-data analysis based proactive defect detection and resolution
JP2018005624A (en) Decision tree generation device, decision tree generation method, decision tree generation program and query system
US20130173333A1 (en) Prioritizing social activity postings
US9887944B2 (en) Detection of false message in social media
US10380117B2 (en) Event occurrence place estimation method, computer-readable recording medium storing event occurrence place estimation program, and event occurrence place estimation apparatus
US10210214B2 (en) Scalable trend detection in a personalized search context
US11755841B2 (en) Method for updating a knowledge base of a sentiment analysis system
US11972026B2 (en) Program products, methods, and systems for simulating and preventing the dissemination of sensitive information
CN109901968A (en) A kind of automation page data method of calibration and device
EP2994828A1 (en) Apps store with integrated test support
US10592602B2 (en) Shared user context for efficient conversations
US20190213117A1 (en) Regression testing of an application that uses big data as a source of data
JP6528532B2 (en) Disaster detection program, disaster detection device and disaster detection method
CN110781027B (en) Method, device and equipment for determining error reporting threshold of memory ECC (error correction code)
JP2014010511A (en) Abnormality detection device, program, and method for detecting specific abnormality by using texts posted by unspecified large number of users
JP7402932B1 (en) Fault detection device, fault detection method, and fault detection program
US20160269342A1 (en) Mediating messages with negative sentiments in a social network
CN109190862B (en) Operation risk linkage method, system, computer equipment and storage medium
CN110909992A (en) Risk prediction method, device and equipment
CN114581219A (en) Anti-telecommunication network fraud early warning method and system
CN110062023B (en) Safety education information pushing method, device and equipment
EP3131014A1 (en) Multi-data analysis based proactive defect detection and resolution
CN110457367B (en) Method and system for discovering data transaction
CN112966199A (en) Method and device for determining page adjustment income, electronic equipment and medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231211

R150 Certificate of patent or registration of utility model

Ref document number: 7402932

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150