JP2014010511A - 不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法 - Google Patents

不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法 Download PDF

Info

Publication number
JP2014010511A
JP2014010511A JP2012144845A JP2012144845A JP2014010511A JP 2014010511 A JP2014010511 A JP 2014010511A JP 2012144845 A JP2012144845 A JP 2012144845A JP 2012144845 A JP2012144845 A JP 2012144845A JP 2014010511 A JP2014010511 A JP 2014010511A
Authority
JP
Japan
Prior art keywords
posted
abnormality
abnormality detection
posts
negative expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012144845A
Other languages
English (en)
Inventor
Kazufumi Ikeda
和史 池田
Hajime Hattori
元 服部
Toshihiro Ono
智弘 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2012144845A priority Critical patent/JP2014010511A/ja
Publication of JP2014010511A publication Critical patent/JP2014010511A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

【課題】不特定多数のユーザからの投稿文を用いて、特定の異常を検知する異常検知装置等を提供する。
【解決手段】単位時間毎に、検知対象となるキーワードを含む投稿文を取得する投稿文取得手段と、現在時間の投稿数が、過去所定時間における投稿数よりも所定閾値以上で増加した際に、異常発生を検知する異常検知手段と、オペレータに対して「異常検知」を通知する異常検知通知手段とを有する。また、投稿文に含まれる形態素の組毎に否定表現と一致するか否かを判定し、当該否定表現を紐付けた投稿文を異常検知手段へ出力することも好ましい。これによって、異常検知手段によって異常発生が検知された時、否定表現毎に投稿文の数を計数することができ、異常検知通知手段は、「異常検知」と共に、否定表現を、当該投稿文の数が多い順に、オペレータに対して更に通知することができる。
【選択図】図2

Description

本発明は、例えばSNS(Social Networking Service)のようなコミュニケーションサイトサーバの技術に関する。
近年、不特定多数のユーザが、SNSサイトサーバを介して、自らのコメント文章(テキスト情報)を活発に発信することができる。「SNSサイトサーバ」は、複数のユーザからなるグループへ、1人のユーザによって投稿された投稿文を公開する。例えばfacebook(登録商標)やtwitter(登録商標)、google+(登録商標)、mixi(登録商標)があり、一般にミニブログサイトとも称される。また、各ユーザは、SNSサイトサーバに対してアカウントを登録し、アカウントと共に投稿文を公開する。
SNSサイトサーバによって発信される投稿文は、商品及び役務に関する批評情報である場合も多い。特定の商品等に対する感想であって、逆に口コミ情報としても有益なものとなる場合もある。マーケティングによれば、特定の商品等について、多数のユーザがどのような評価をしているかを分析することが所望される。特に、継続して提供されるようなサービス(役務)については、時間経過に応じて投稿文の内容の傾向が異なっていく。例えばテレビ放送に関する多数の投稿文の場合、大量の投稿文を時系列的に分析することによって、ある時間帯に多くのユーザが興味を持った内容を知ることもできる。例えば、SNSサイトサーバから、テレビ放送に関する投稿文を収集し、それら投稿文の内容を時系列に解析する技術がある(例えば非特許文献1参照)。この技術によれば、そのテレビ放送の中で急激に投稿数が増加するような重要なシーンを検出することができる。
中澤昌美、帆足啓一郎、小野智弘、「Twitterによるテレビ番組重要シーン検出及びラベル付与手法」、DEIM Forum2011 F5-6、[online]、[平成24年6月13日検索]、インターネット<URL:http://db-event.jpn.org/deim2011/proceedings/pdf/f5-6.pdf>
マーケティングの中で、サービス提供者は、SNSサイトサーバによって発信される多数の投稿文を分析することによって、当該サービスに対する否定的な投稿文をできる限り知りたいと考えている。例えば通信事業者によれば、その事業者網に障害が発生した時点から、通信不通に関する投稿文が増加していくという傾向がある。また、通信事業者は、安定した通信サービスを提供するために、通信品質の低下を早期に検知することが重要である。一般的には、通信事業者は、通信品質の低下を、通信設備からのアラートによって検知している。即ち、通信設備からのアラートが発生しない限り、通常、通信品質の低下を認識することはできない。
しかしながら、現在のように複雑な通信事業者網によれば、実際に通信設備からのアラートが発生していなくても、ユーザの体感に基づく通信品質が現実に低下している場合もある。このような場合、通信事業者としては、その傾向を直ちに把握できないという問題がある。
一方で、SNSサイトサーバには、多数の投稿者によって時々刻々と多数の投稿文が投稿されている。それら投稿文の中には、通信サービスに対する体感品質に関する記述も多い。例えば実際に通話できないような状況が発生した場合、通話不良である趣旨の投稿文が、SNSサイトサーバへ多数投稿されることとなる。ここで、本願の発明者らは、継続して提供されるサービスについて、時系列的に多数の投稿文を解析することによって、否定的な投稿文が増加した場合、何らかの異常が発生しているのではないか?と考えた。
そこで、本発明は、不特定多数のユーザからの投稿文を用いて、特定の異常を検知する異常検知装置、プログラム及び方法を提供することを目的とする。
本発明によれば、複数の投稿者によって記述された多数の投稿文を用いて、特定の異常を検知する異常検知装置であって、
検知対象となるキーワードを予め登録し、単位時間毎に、当該キーワードを含む投稿文を取得する投稿文取得手段と、
現在時間の投稿数が、過去所定時間における投稿数よりも所定閾値以上で増加した際に、異常発生を検知する異常検知手段と、
異常発生が検知された時、オペレータに対して「異常検知」を通知する異常検知通知手段と
を有することを特徴とする。
本発明の異常検知装置における他の実施形態によれば、
「(動詞、名詞、形容詞)+(否定/肯定極性)」の形態素の組み合わせから構成された否定表現を蓄積した否定表現蓄積手段と、
投稿文取得手段によって収集された投稿文を、形態素に区分する形態素解析手段と、
形態素の組毎に否定表現と一致するか否かを判定し、当該否定表現を紐付けた投稿文を異常検知手段へ出力する否定表現検出手段と、
異常検知手段によって異常発生が検知された時、否定表現毎に投稿文の数を計数する否定表現計数手段と
を更に有し、
異常検知通知手段は、「異常検知」と共に、否定表現を、当該投稿文の数が多い順に、オペレータに対して更に通知することも好ましい。
本発明の異常検知装置における他の実施形態によれば、
否定表現検出手段は、投稿文について当該否定表現に対する共起語を更に検出し、当該共起語を更に紐付けた投稿文を異常検知手段へ出力し、
否定表現計数手段は、異常検知手段によって異常発生が検知された時、否定表現及び共起語の組み合わせ毎に投稿文の数を計数し、
異常検知通知手段は、「異常検知」と共に、否定表現及び共起語の組み合わせを、当該投稿文の数が多い順に、オペレータに対して更に通知することも好ましい。
本発明の異常検知装置における他の実施形態によれば、
否定表現検出手段は、共起語として、
当該否定表現を含む投稿文に出現する語、
当該否定表現と係り受け関係にある語、又は、
TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)に基づく特徴的な重要語
を検出することも好ましい。
本発明の異常検知装置における他の実施形態によれば、
現在時間に、マスメディアから放送された情報に含まれる放送キーワードを蓄積した放送キーワード蓄積手段と、
否定表現検出手段によって検出された投稿文から、放送キーワードを含む投稿文を除去し、それ以外の投稿文を異常検知手段へ出力する影響投稿文除去手段と
を更に有することも好ましい。
本発明の異常検知装置における他の実施形態によれば、
異常検知手段は、キーワードに基づく投稿文の数が急増したことを検知するために、
現在時刻tを含む単位時間における投稿数xと、現在時刻tから過去の所定時間帯における単位時間毎の重み付き平均投稿数λとを用いて、ポアソン分布によって急増異常値Paを算出し、
急増異常値Paが所定閾値以下になった現在時刻tに、異常発生を検知したものとすることも好ましい。
本発明の異常検知装置における他の実施形態によれば、
現在日から過去の所定日数における単位時間毎の重み付き平均投稿数λを蓄積した学習投稿数蓄積手段を有し、
異常検知手段は、キーワードに基づく投稿文の数が漸増したことを検知するために、
現在時刻tを含む単位時間における投稿数xと、学習投稿数蓄積手段に蓄積された、現在日tから過去の所定日数における当該現在時刻tを含む単位時間の重み付き平均投稿数λとを用いて、ポアソン分布によって漸増異常値Pbを算出し、
漸増異常値Pbが所定閾値以下になった現在時刻tに、異常発生を検知したものとすることも好ましい。
本発明の異常検知装置における他の実施形態によれば、
現在日から過去の所定日数における単位時間毎の重み付き平均投稿数λを蓄積した学習投稿数蓄積手段を有し、
異常検知手段は、
キーワードに基づく投稿文の数が急増したことを検知するために、現在時刻tを含む単位時間における投稿数xと、現在時刻tから過去の所定時間帯における単位時間毎の重み付き平均投稿数λとを用いて、ポアソン分布によって急増異常値Paを算出し、
キーワードに基づく投稿文の数が漸増したことを検知するために、現在時刻tを含む単位時間における投稿数xと、学習投稿数蓄積手段に蓄積された、現在日tから過去の所定日数における当該現在時刻tを含む単位時間の重み付き平均投稿数λとを用いて、ポアソン分布によって漸増異常値Pbを算出し、
急増異常値Paと漸増異常値Pbとの和、又は、急増異常値Paと漸増異常値Pbとの積が、所定閾値以下になった現在時刻tに、異常発生を検知したものとすることも好ましい。
本発明の異常検知装置における他の実施形態によれば、
投稿文取得手段は、SNS(Social Networking Service)サイトサーバから、単位時間毎に、検知対象となるキーワードを含む投稿文を取得することも好ましい。
本発明の異常検知装置における他の実施形態によれば、
検知対象は、通信事業者網であり、
検知対象のキーワードは、通信事業者網の名称であり、
異常検知は、ユーザからの投稿文に基づく通信事業者網の障害発生を意味する
ことも好ましい。
本発明によれば、装置に搭載されたコンピュータを、複数の投稿者によって記述された多数の投稿文を用いて、特定の異常を検知するように機能させる異常検知プログラムであって、
検知対象となるキーワードを予め登録し、単位時間毎に、当該キーワードを含む投稿文を取得する投稿文取得手段と、
現在時間の投稿数が、過去所定時間における投稿数よりも所定閾値以上で増加した際に、異常発生を検知する異常検知手段と、
異常発生が検知された時、オペレータに対して「異常検知」を通知する異常検知通知手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、複数の投稿者によって記述された多数の投稿文を用いて、特定の異常を検知する装置における異常検知方法であって、
検知対象となるキーワードを予め登録し、単位時間毎に、当該キーワードを含む投稿文を取得する第1のステップと、
現在時間の投稿数が、過去所定時間における投稿数よりも所定閾値以上で増加した際に、異常発生を検知する第2のステップと、
異常発生が検知された時、オペレータに対して「異常検知」を通知する第3のステップと
を有することを特徴とする。
本発明の異常検知装置、プログラム及び方法によれば、不特定多数のユーザからの投稿文を用いて、特定の異常を早期に検知することができる。
本発明におけるシステム構成図である。 本発明における異常検知装置の機能構成図である。 投稿文取得部の動作を表す説明図である。 形態素解析部、否定表現蓄積部及び否定表現検出部の動作を表す説明図である。 放送キーワード蓄積部及び影響投稿文除去部の動作を表す説明図である。 異常検知部の動作を表す説明図である。 投稿数の漸増異常を表すグラフである。 否定表現計数部及び異常検知通知部の動作を表す説明図である。
以下では、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるシステム構成図である。
図1によれば、不特定多数のユーザは、各自の端末3を用いて、インターネットを介してコミュニケーションサイトサーバ2へ、投稿文を送信することができる。以下では、コミュニケーションサーバ2は、例えばSNSサイトサーバであるとして説明する。勿論、SNSサイトサーバに限られないが、複数の投稿者間でグループを構成し、投稿文を発信し且つ購読し合うことができる。
図1によれば、本発明における異常検知装置1が、インターネットに接続されている。異常検知装置1は、インターネットを介してSNSサイトサーバ2と通信し、多数の投稿者によって記述された多数の投稿文を収集することができる。異常検知装置1は、SNSサイトサーバ2のAPI(Application Programming Interface)を介して、多数の投稿文を取得することができる。APIは、アプリケーションサービスの機能を利用するための規則インタフェースであって、種々のサーバ毎に異なるものとして用意されたものである。異常検知装置1は、収集した多数の投稿文を分析することによって、特定の異常を検知する。
尚、異常検知装置1は、多数の投稿文を予めデータベースに蓄積したものであってもよい。即ち、異常検知装置1は、多数の投稿文を保持し又は取得することができればよく、SNSサイトサーバ2と通信することを必須とするものではない。
また、図1によれば、異常検知装置1が、例えば以下のような投稿文を収集することができたとする。
「a社のスマホで3G通信できない。他に同様の状態の人いませんか。」
・・・・・・・・・・・・・・・・・・・・・・・・
「え、なんかa社の携帯、緊急地震速報鳴ったんだけどなぜ?てかあの音怖い(´Д`)」
・・・・・・・・・・・・・・・・・・・・・・・・
「メールの送受信できない…a社どうした」
・・・・・・・・・・・・・・・・・・・・・・・・
「いま歩いたら、a社の携帯が急に地震の音が鳴り出して、めっちゃ困った( ;
; )」
・・・・・・・・・・・・・・・・・・・・・・・・
「スマホのメールが使えない… 私だけかなぁ?a社スマホ使ってる人どうだろうか」
・・・・・・・・・・・・・・・・・・・・・・・・
「a社かなんかしらんが地震予知の音かなり怖い」
・・・・・・・・・・・・・・・・・・・・・・・・
「a社通信障害?3Gがだめだな。WiMAXは平気だ。」
・・・・・・・・・・・・・・・・・・・・・・・・
「なんかa社メール受信おかしいらしいんだけど。イマココ東京ですが。」
・・・・・・・・・・・・・・・・・・・・・・・・
「久々の誤報かしら。a社の緊急音は心臓に悪い。」
・・・・・・・・・・・・・・・・・・・・・・・・
「K社の3G回線つながらない気がする。キャリアメールが送れない。」
・・・・・・・・・・・・・・・・・・・・・・・・
図2は、本発明における異常検知装置の機能構成図である。
本発明の異常検知装置1は、多数の投稿者によって記述された多数の投稿文を用いて、特定の異常を早期に検知することができる。異常検知装置1は、投稿文取得部11と、形態素解析部12と、否定表現蓄積部13と、否定表現検出部14と、放送キーワード蓄積部15と、影響投稿文除去部16と、異常検知部17と、否定表現計数部18と、異常検知通知部19とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
[投稿文取得部11]
投稿文取得部11は、検知対象となるキーワードを予め登録し、単位時間毎に、当該キーワードを含む投稿文を取得する。勿論、異常検知装置1自体が、多数の投稿文を予めデータベースに蓄積したものであってもよい。
図3は、投稿文取得部の動作を表す説明図である。
例えば投稿文取得部11には、キーワード「a社」「K社」を、検知対象として登録しているとする。ここでは、例えば「a社」「K社」が、自ら提供する通信事業者網について、ユーザの投稿文に基づく異常を検知したいものとする。従って、以下のように、キーワード「a社」「K社」を含む投稿文のみが収集される。
(投稿文1)「a社のスマホで3G通信できない。他に同様の状態の人いませんか。」
(投稿文2)「え、なんかa社の携帯、緊急地震速報鳴ったんだけどなぜ?てかあの音怖い(´Д`)」
(投稿文3)「メールの送受信できない…a社どうした」
(投稿文4)「いま歩いたら、a社の携帯が急に地震の音が鳴り出して、めっちゃ困った(
; ; )」
(投稿文5)「スマホのメールが使えない… 私だけかなぁ?a社スマホ使ってる人どうだろうか」
(投稿文6)「a社かなんかしらんが地震予知の音かなり怖い」
(投稿文7)「a社通信障害?3Gがだめだな。WiMAXは平気だ。」
(投稿文8)「なんかa社メール受信おかしいらしいんだけど。イマココ東京ですが。」
(投稿文9)「久々の誤報かしら。a社の緊急音は心臓に悪い。」
(投稿文10)「K社の3G回線つながらない気がする。キャリアメールが送れない。」
投稿文取得部11は、収集できた多数の投稿文を、形態素解析部12へ出力する。尚、最も簡単な方法としては、投稿文取得部11は、収集できた多数の投稿文をそのまま、異常検知部17へ出力するものであってもよい。この場合、異常検知部17では、検知対象のキーワードに基づく投稿数の変化によって異常が検知されることとなる。
図4は、形態素解析部、否定表現蓄積部及び否定表現検出部の動作を表す説明図である。
[形態素解析部12]
形態素解析部12は、投稿文取得部11から出力された投稿文を、形態素に区分する。「形態素」とは、文章の構成要素のうち、意味を持つ最小の単位をいう。投稿文毎に区分された形態素の群が、否定表現検出部14へ出力される。
[否定表現蓄積部13]
否定表現蓄積部13は、否定表現を蓄積していいる。ここでは、否定表現とは、「(動詞、名詞、形容詞)+(否定/肯定極性)」の形態素の組み合わせから構成されたものをいう。否定表現蓄積部13は、SNSサイトサーバ2へ投稿される文章の中で、通信サービスに対する否定的な意見として、一般的に頻出するであろう表現を蓄積したものである。
否定表現蓄積部13は、具体的には、例えば以下のような表現を蓄積している。
[蓄積された否定表現] [否定的な意味合い]
「つながる+否定極性」-> (つながらない)
「送る+否定極性」 -> (送れない)
「接続+否定極性」 -> (接続できない)
「遅い+肯定極性」 -> (遅い)
「だめ+肯定極性」 -> (だめ)
「動く+否定極性」 -> (動かない)
「通信+否定極性」 -> (通信できない)
「怖い+肯定極性」 -> (怖い)
「使う+否定極性」 -> (使えない)
「困る+肯定極性」 -> (困る)
「障害+肯定極性」 -> (障害)
「おかしい+肯定極性」-> (おかしい)
「悪い+肯定極性」 -> (悪い)
表現自体が肯定的なものは、否定極性が対応付けられ、表現自体が否定的なものは、肯定極性が対応付けられる。例えば「つながらない」という表現は、形態素解析によって、「つながる(動詞)」+「ます(助詞)」+「ぬ(否定極性)」に分解される。ここでは、「つながる+否定極性」として表される。
[否定表現検出部14]
否定表現検出部14は、形態素の組毎に否定表現と一致するか否かを判定する。図4の投稿文1〜10によれば、以下のような否定表現が検出される。
[否定表現]
(投稿文1) ->「通信できない」
(投稿文2) ->「怖い」
(投稿文3) ->「通信できない」
(投稿文4) ->「困った」
(投稿文5) ->「使えない」
(投稿文6) ->「怖い」
(投稿文7) ->「だめ」
「障害」
(投稿文8) ->「おかしい」
(投稿文9) ->「悪い」
(投稿文10)->「つながらない」
「送れない」
また、否定表現検出部14は、投稿文について当該否定表現に対する共起語を更に検出することも好ましい。「共起語」とは、文章中にある単語が出現したとき、その単語に前後して頻出する単語をいう。図4に基づく例文の場合、例えば「メールが使えない」の場合、否定表現「使えない」に対して、「メール」が共起語として抽出される可能性が高い。「共起語」としては、例えば以下のような語を検出する。
当該否定表現を含む投稿文に出現する語
当該否定表現と係り受け関係にある語
TF−IDF(Term Frequency - Inverse Document Frequency)
:単語の出現頻度−逆出現頻度)に基づく特徴的な重要語
図4によれば、前述したように検出された否定表現に対して、以下のような共起語が検出される。
[否定表現] [共起語]
(投稿文1) ->「通信できない」->「3G」
(投稿文2) ->「怖い」 ->「音」
(投稿文3) ->「通信できない」->「メール」
(投稿文4) ->「困った」 ->「音」
(投稿文5) ->「使えない」 ->「メール」
(投稿文6) ->「怖い」 ->「音」
(投稿文7) ->「だめ」 ->「3G」
「障害」 ->「3G」
(投稿文8) ->「おかしい」 ->「メール」
(投稿文9) ->「悪い」 ->「緊急音」
(投稿文10)->「つながらない」->「3G」
「送れない」 ->「メール」
そして、否定表現検出部14は、否定表現を紐付けた投稿文、又は、否定表現+共起語を紐付けた投稿文を、影響投稿文除去部16へ出力する。尚、簡単な方法として、否定表現検出部14は、否定表現等を紐付けた投稿文を、異常検知部17へ直接的に出力するものであってもよい。
図5は、放送キーワード蓄積部及び影響投稿文除去部の動作を表す説明図である。
[放送キーワード蓄積部15]
放送キーワード蓄積部15は、現在時間に、マスメディアから放送された情報に含まれる放送キーワードを蓄積している。図5によれば、放送キーワード蓄積部15は、例えば放送キーワード「地震」「緊急」を蓄積しているとする。この時点で、丁度、地震が発生し、緊急地震速報が放送されたとする。放送キーワードは、時々刻々と変化していくものである。通信事業者としては、ここでは、検知対象となる通信事業者網について、「地震」「緊急」に基づく否定表現を考慮したくないと考えている。
[影響投稿文除去部16]
影響投稿文除去部16は、否定表現検出部14によって検出された投稿文から、放送キーワードを含む投稿文を除去する。なぜなら、その時点で、マスメディアから放送された情報によって、投稿文の否定表現の内容も左右されているためである。図5によれば、例えば以下の投稿文が除去される。
[除去された投稿文]
(投稿文2)「え、なんかa社の携帯、緊急地震速報鳴ったんだけどなぜ?てかあの音怖い(´Д`)」
(投稿文4)「いま歩いたら、a社の携帯が急に地震の音が鳴り出して、めっちゃ困った(
; ; )」
(投稿文6)「a社かなんかしらんが地震予知の音かなり怖い」
(投稿文9)「久々の誤報かしら。a社の緊急音は心臓に悪い。」
これによって、マスメディアの放送に左右されていない否定表現を含む投稿文のみを抽出することができる。
尚、この実施形態によれば、最も簡易な方法として、放送キーワード蓄積部15を備えて、放送キーワードを含む投稿文を除去している。他の実施形態としては、多数の投稿文について、TF−IDFを用いて特徴語を抽出することも好ましい。ここで抽出された特徴語を用いて、マスメディアによる放送データ(ネット記事情報やテレビ字幕情報、緊急地震速報等)を検索する。その時間範囲の放送データに、その特徴語が含まれている場合、その特徴語を含む投稿文を除去することができる。
結果的に、影響投稿文除去部16は、以下の投稿文のみを、異常検知部17へ出力する。
[異常検知部17へ出力された投稿文]
(投稿文1)「a社のスマホで3G通信できない。他に同様の状態の人いませんか。」
(投稿文3)「メールの送受信できない…a社どうした」
(投稿文5)「スマホのメールが使えない… 私だけかなぁ?a社スマホ使ってる人どうだろうか」
(投稿文7)「a社通信障害?3Gがだめだな。WiMAXは平気だ。」
(投稿文8)「なんかa社メール受信おかしいらしいんだけど。イマココ東京ですが。」
(投稿文10)「K社の3G回線つながらない気がする。キャリアメールが送れない。」
図6は、異常検知部の動作を表す説明図である。
[異常検知部17]
異常検知部17は、現在時間の投稿数が、過去所定時間における投稿数よりも所定閾値以上で増加した際に、異常発生を検知する。ここで、異常状態(例えば通信障害)の種類によっては、直ちに利用者がその障害を認識することによって急激に投稿数が増加する場合と、直ちには利用者によってその障害が認識されず、漸増的に投稿数が増加する場合とがある。特に、漸増的に投稿数が増加する場合には、前述した非特許文献1に記載の技術でも検出することができない。
そこで、本発明の異常検知部17は、投稿数の「急増」検知及び/又は「漸増」検知の2つの方式を持つことができる。図6によれば、異常検知部17は、急増投稿検知部と、漸増投稿検知部及び学習投稿数蓄積部と、統合異常検知部とを有する。
<急増投稿検知部>
急増投稿検知部は、キーワードに基づく投稿文の数が急増したことを検知する。そのために、現在時刻tを含む単位時間における投稿数xと、現在時刻tから過去の所定時間帯における単位時間毎の重み付き平均投稿数λとを用いて、ポアソン分布によって急増異常値Paを算出する。
i=e-τi
τ:係数
λ=(Σi=1 Lit-i)/(Σi=1 Li)
t:現在時刻
x:現在時刻tを含む単位時間における投稿数
λ:単位時間毎の重み付き平均投稿数
L:係数
Pa=1−Σk=0 x-1-λM
Pa:ポアソン分布による急増異常値
M=λk/k!
急増異常値Paが所定閾値以下になった現在時刻tに、異常発生を検知したものとする。ここでの所定閾値とは、例えば0.01であってもよい。この場合、Pa≦0.01である場合、異常発生と判定する。
図6の急増投稿検知部によれば、単位時間を10分間隔とした場合における急増異常値Paを算出した例である。投稿数が急増することによって、急増異常値Paが0に近づいた時、異常発生(例えば通信事業者網における障害発生)と検知することができる。勿論、単位時間を短くすることによって早期に異常発生を検知することができるが、極端に短い場合、投稿数自体のばらつきが大きくなる。即ち、投稿数の少しの急増で、異常発生として検知してしまう。例えば1分間隔で投稿数を計数すると共に、現在時刻tから過去10分間に遡って投稿数を計数することも好ましい。
<漸増投稿検知部>
漸増投稿検知部は、キーワードに基づく投稿文の数が漸増したことを検知する。そのために、学習投稿数蓄積部を有する。学習投稿数蓄積部は、現在日から過去の所定日数における単位時間毎の重み付き平均投稿数λを蓄積したものである。漸増投稿検知部は、現在時刻tを含む単位時間における投稿数xと、学習投稿数蓄積部に蓄積された、現在日tから過去の所定日数における当該現在時刻tを含む単位時間の重み付き平均投稿数λとを用いて、ポアソン分布によって漸増異常値Pbを算出する。
Pb=1−Σk=0 x-1-λM
Pb:ポアソン分布による漸増異常値
M=λk/k!
漸増異常値Pbが所定閾値以下になった現在時刻tに、異常発生を検知したものとする。ここでの所定閾値とも、例えば0.01であってもよい。この場合、Pb≦0.01である場合、異常発生と判定する。
図6の漸増投稿検知部によれば、過去L日分の同一の時間帯(例えば10:00〜12:00)における投稿数から漸増異常値Pbを算出した例である。投稿数が漸増することによって、漸増異常値Pbが0に近づいた時、異常発生(例えば通信事業者網における障害発生)と検知することができる。
図7は、投稿数の漸増異常を表すグラフである。
図7(a)は、1日の各時間帯における投稿数の平均数を表す。これに対し、図7(b)は、現在日の各時間帯における投稿数を表す。図7(b)によれば、現在日の10:00〜12:00について、平均数よりも漸増している。この場合、漸増異常値Pbが0に近づき、異常発生が検知される。
図6における統合異常検知部は、急増異常値Paと漸増異常値Pbとの両方を用いて、異常発生を検知する。具体的には、急増異常値Paと漸増異常値Pbとの和、又は、急増異常値Paと漸増異常値Pbとの積が、所定閾値以下になった現在時刻tに、異常発生を検知したものとする。
前述したように、異常検知部17は、急増投稿検知、漸増投稿検知及び統合異常検知のいずれかの方法で、異常発生を検知することができる。
図8は、否定表現計数部及び異常検知通知部の動作を表す説明図である。
[否定表現計数部18]
否定表現計数部18は、異常検知部17によって異常発生が検知された時、否定表現毎に、投稿文の数(出現頻度)を計数する。また、否定表現検出部14が、共起語も抽出している場合、否定表現計数部18は、共起語毎に、投稿文の数を計数するものであってもよい。
図8によれば、否定表現計数部18は、6件の投稿文に対して、共起語として「3G」が3件、「メール」が4件、出現していることが理解できる。この場合、「3G」「メール」に関する異常が発生している可能性が高いことができる。
[異常検知通知部19]
異常検知通知部19は、異常発生が検知された時、オペレータに対して「異常検知」を通知する。また、異常検知通知部19は、「異常検知」と共に、否定表現を、当該投稿文の数が多い順に、オペレータに対して更に通知する。また、否定表現検出部14が、共起語も抽出している場合、否定表現及び共起語の組み合わせを、当該投稿文の数が多い順に、オペレータに対して更に通知する。逆に、投稿文の数が所定閾値以下である場合、その否定表現又は共起語は、異常検知の原因となる用語でないと考える。
図8によれば、異常検知通知部19は、異常検知の発生をオペレータに通知すると共に、以下のような内容を通知する。
「通信できない」->「3G」
「通信できない」->「メール」
「使えない」 ->「メール」
「障害」「だめ」->「3G」
「おかしい」 ->「メール」
「つながらない」->「3G」
「送れない」 ->「メール」
「3G」->3回
「メール」->4回
これによって、オペレータは、「3G」「メール」に関して、何らかの異常が発生した可能性があることを認識することができる。
以上、詳細に説明したように、本発明の異常検知装置、プログラム及び方法によれば、不特定多数のユーザからの投稿文を用いて、特定の異常を早期に検知することができる。
本発明によれば、異常検知を通知する際に、投稿文に含まれる否定表現及び共起語をオペレータに提示することができ、異常の原因を切り分けて認識することができる。また、投稿文の急増を検出するだけでなく、投稿文の漸増も検出することができるので、様々な異常の原因に対して投稿文の異なる増加傾向に対しても対応することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 異常検知装置
11 投稿文取得部
12 形態素解析部
13 否定表現蓄積部
14 否定表現検出部
15 放送キーワード蓄積部
16 影響投稿文除去部
17 異常検知部
18 否定表現計数部
19 異常検知通知部
2 SNSサイトサーバ、コミュニケーションサイトサーバ
3 端末

Claims (12)

  1. 複数の投稿者によって記述された多数の投稿文を用いて、特定の異常を検知する異常検知装置であって、
    検知対象となるキーワードを予め登録し、単位時間毎に、当該キーワードを含む投稿文を取得する投稿文取得手段と、
    現在時間の投稿数が、過去所定時間における投稿数よりも所定閾値以上で増加した際に、異常発生を検知する異常検知手段と、
    前記異常発生が検知された時、オペレータに対して「異常検知」を通知する異常検知通知手段と
    を有することを特徴とする異常検知装置。
  2. 「(動詞、名詞、形容詞)+(否定/肯定極性)」の形態素の組み合わせから構成された否定表現を蓄積した否定表現蓄積手段と、
    前記投稿文取得手段によって収集された投稿文を、形態素に区分する形態素解析手段と、
    前記形態素の組毎に前記否定表現と一致するか否かを判定し、当該否定表現を紐付けた投稿文を前記異常検知手段へ出力する否定表現検出手段と、
    前記異常検知手段によって異常発生が検知された時、前記否定表現毎に投稿文の数を計数する否定表現計数手段と
    を更に有し、
    前記異常検知通知手段は、「異常検知」と共に、前記否定表現を、当該投稿文の数が多い順に、オペレータに対して更に通知する
    ことを特徴とする請求項1に記載の異常検知装置。
  3. 前記否定表現検出手段は、前記投稿文について当該否定表現に対する共起語を更に検出し、当該共起語を更に紐付けた投稿文を前記異常検知手段へ出力し、
    前記否定表現計数手段は、前記異常検知手段によって異常発生が検知された時、前記否定表現及び前記共起語の組み合わせ毎に投稿文の数を計数し、
    前記異常検知通知手段は、「異常検知」と共に、前記否定表現及び前記共起語の組み合わせを、当該投稿文の数が多い順に、オペレータに対して更に通知する
    ことを特徴とする請求項2に記載の異常検知装置。
  4. 前記否定表現検出手段は、前記共起語として、
    当該否定表現を含む投稿文に出現する語、
    当該否定表現と係り受け関係にある語、又は、
    TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)に基づく特徴的な重要語
    を検出することを特徴とする請求項3に記載の異常検知装置。
  5. 現在時間に、マスメディアから放送された情報に含まれる放送キーワードを蓄積した放送キーワード蓄積手段と、
    前記否定表現検出手段によって検出された投稿文から、前記放送キーワードを含む投稿文を除去し、それ以外の投稿文を前記異常検知手段へ出力する影響投稿文除去手段と
    を更に有することを特徴とする請求項2から4のいずれか1項に記載の異常検知装置。
  6. 前記異常検知手段は、前記キーワードに基づく投稿文の数が急増したことを検知するために、
    現在時刻tを含む単位時間における投稿数xと、現在時刻tから過去の所定時間帯における単位時間毎の重み付き平均投稿数λとを用いて、ポアソン分布によって急増異常値Paを算出し、
    前記急増異常値Paが所定閾値以下になった現在時刻tに、異常発生を検知したものとする
    ことを特徴とする請求項1から5のいずれか1項に記載の異常検知装置。
  7. 現在日から過去の所定日数における単位時間毎の重み付き平均投稿数λを蓄積した学習投稿数蓄積手段を有し、
    前記異常検知手段は、前記キーワードに基づく投稿文の数が漸増したことを検知するために、
    現在時刻tを含む単位時間における投稿数xと、前記学習投稿数蓄積手段に蓄積された、現在日tから過去の所定日数における当該現在時刻tを含む単位時間の重み付き平均投稿数λとを用いて、ポアソン分布によって漸増異常値Pbを算出し、
    前記漸増異常値Pbが所定閾値以下になった現在時刻tに、異常発生を検知したものとする
    ことを特徴とする請求項1から5のいずれか1項に記載の異常検知装置。
  8. 現在日から過去の所定日数における単位時間毎の重み付き平均投稿数λを蓄積した学習投稿数蓄積手段を有し、
    前記異常検知手段は、
    前記キーワードに基づく投稿文の数が急増したことを検知するために、現在時刻tを含む単位時間における投稿数xと、現在時刻tから過去の所定時間帯における単位時間毎の重み付き平均投稿数λとを用いて、ポアソン分布によって急増異常値Paを算出し、
    前記キーワードに基づく投稿文の数が漸増したことを検知するために、現在時刻tを含む単位時間における投稿数xと、前記学習投稿数蓄積手段に蓄積された、現在日tから過去の所定日数における当該現在時刻tを含む単位時間の重み付き平均投稿数λとを用いて、ポアソン分布によって漸増異常値Pbを算出し、
    前記急増異常値Paと前記漸増異常値Pbとの和、又は、前記急増異常値Paと前記漸増異常値Pbとの積が、所定閾値以下になった現在時刻tに、異常発生を検知したものとする
    ことを特徴とする請求項1から5のいずれか1項に記載の異常検知装置。
  9. 前記投稿文取得手段は、SNS(Social Networking Service)サイトサーバから、単位時間毎に、検知対象となる前記キーワードを含む投稿文を取得することを特徴とする請求項1から8のいずれか1項に記載の異常検知装置。
  10. 前記検知対象は、通信事業者網であり、
    前記検知対象のキーワードは、前記通信事業者網の名称であり、
    前記異常検知は、ユーザからの投稿文に基づく前記通信事業者網の障害発生を意味する
    ことを特徴とする請求項1から9のいずれか1項に記載の異常検知装置。
  11. 装置に搭載されたコンピュータを、複数の投稿者によって記述された多数の投稿文を用いて、特定の異常を検知するように機能させる異常検知プログラムであって、
    検知対象となるキーワードを予め登録し、単位時間毎に、当該キーワードを含む投稿文を取得する投稿文取得手段と、
    現在時間の投稿数が、過去所定時間における投稿数よりも所定閾値以上で増加した際に、異常発生を検知する異常検知手段と、
    前記異常発生が検知された時、オペレータに対して「異常検知」を通知する異常検知通知手段と
    してコンピュータを機能させることを特徴とする異常検知プログラム。
  12. 複数の投稿者によって記述された多数の投稿文を用いて、特定の異常を検知する装置における異常検知方法であって、
    検知対象となるキーワードを予め登録し、単位時間毎に、当該キーワードを含む投稿文を取得する第1のステップと、
    現在時間の投稿数が、過去所定時間における投稿数よりも所定閾値以上で増加した際に、異常発生を検知する第2のステップと、
    前記異常発生が検知された時、オペレータに対して「異常検知」を通知する第3のステップと
    を有することを特徴とする異常検知方法。
JP2012144845A 2012-06-28 2012-06-28 不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法 Pending JP2014010511A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012144845A JP2014010511A (ja) 2012-06-28 2012-06-28 不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012144845A JP2014010511A (ja) 2012-06-28 2012-06-28 不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法

Publications (1)

Publication Number Publication Date
JP2014010511A true JP2014010511A (ja) 2014-01-20

Family

ID=50107209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012144845A Pending JP2014010511A (ja) 2012-06-28 2012-06-28 不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP2014010511A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015207106A (ja) * 2014-04-18 2015-11-19 富士通株式会社 イベント発生場所推定方法、イベント発生場所推定プログラムおよびイベント発生場所推定装置
JP2017004225A (ja) * 2015-06-09 2017-01-05 日本電信電話株式会社 サービス推定装置、サービス推定方法、及びプログラム
KR20170010148A (ko) * 2015-07-15 2017-01-26 주식회사 넥슨코리아 유저의 게시물 및 크래시 기반 버그감시방법, 버그감시장치 및 버그감시시스템
JP2017220086A (ja) * 2016-06-09 2017-12-14 富士ゼロックス株式会社 障害情報収集システム、情報処理装置、障害情報収集装置、及びプログラム
JP2019083076A (ja) * 2016-12-02 2019-05-30 本田技研工業株式会社 評価装置、評価方法、および評価プログラム
US11373198B2 (en) 2016-12-02 2022-06-28 Honda Motor Co., Ltd. Evaluation device, evaluation method, and evaluation program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271609A (ja) * 2002-03-12 2003-09-26 Mitsubishi Electric Corp 情報監視装置及び情報監視方法
JP2006072483A (ja) * 2004-08-31 2006-03-16 Toshiba Corp プログラム及び文書処理装置並びに文書処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271609A (ja) * 2002-03-12 2003-09-26 Mitsubishi Electric Corp 情報監視装置及び情報監視方法
JP2006072483A (ja) * 2004-08-31 2006-03-16 Toshiba Corp プログラム及び文書処理装置並びに文書処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015044991; 宅間 大介 Daisuke Takuma: 'テキストデータを用いた問題の早期発見手法 Early Problem Detection Using Text Data' 情報処理学会研究報告 Vol.2004 No.73 IPSJ SIG Technical Reports 第2004巻,第73号, 20040816, 19-26ページ, 社団法人情報処理学会 Information Processing Socie *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015207106A (ja) * 2014-04-18 2015-11-19 富士通株式会社 イベント発生場所推定方法、イベント発生場所推定プログラムおよびイベント発生場所推定装置
JP2017004225A (ja) * 2015-06-09 2017-01-05 日本電信電話株式会社 サービス推定装置、サービス推定方法、及びプログラム
KR20170010148A (ko) * 2015-07-15 2017-01-26 주식회사 넥슨코리아 유저의 게시물 및 크래시 기반 버그감시방법, 버그감시장치 및 버그감시시스템
KR102340923B1 (ko) * 2015-07-15 2021-12-17 주식회사 넥슨코리아 유저의 게시물 및 크래시 기반 버그감시방법, 버그감시장치 및 버그감시시스템
JP2017220086A (ja) * 2016-06-09 2017-12-14 富士ゼロックス株式会社 障害情報収集システム、情報処理装置、障害情報収集装置、及びプログラム
JP2019083076A (ja) * 2016-12-02 2019-05-30 本田技研工業株式会社 評価装置、評価方法、および評価プログラム
US11373198B2 (en) 2016-12-02 2022-06-28 Honda Motor Co., Ltd. Evaluation device, evaluation method, and evaluation program

Similar Documents

Publication Publication Date Title
US8838564B2 (en) Method to increase content relevance using insights obtained from user activity updates
US20200218747A1 (en) Systems and methods for compiling and dynamically updating a collection of frequently asked questions
Nematzadeh et al. Information overload in group communication: from conversation to cacophony in the Twitch chat
Liu et al. Reuters tracer: A large scale system of detecting & verifying real-time news events from twitter
Velasco et al. Social media and internet‐based data in global systems for public health surveillance: a systematic review
Zhao et al. Human as real-time sensors of social and physical events: A case study of twitter and sports games
Mathioudakis et al. Twittermonitor: trend detection over the twitter stream
US9424319B2 (en) Social media based content selection system
EP2753024B1 (en) System and method for continuously monitoring and searching social networking media
JP2014010511A (ja) 不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法
US20160019565A1 (en) Predicting the business impact of tweet conversations
US20140114978A1 (en) Method and system for social media burst classifications
US20130198204A1 (en) System and method determining online significance of content items and topics using social media
US20130124192A1 (en) Alert notifications in an online monitoring system
TWI582617B (zh) 社群文章影響力預測方法以及使用其的社群文章影響力預測裝置
US9111218B1 (en) Method and system for remediating topic drift in near-real-time classification of customer feedback
JP2012108916A (ja) ブロードキャストメッセージに対するオンラインユーザの反応を特定するためのデータマイニング
US9596205B2 (en) System and method for mailing list identification and representation
US20220374481A1 (en) System and method of content selection using selection activity in digital messaging
Chaudhary et al. Contextual feature based one-class classifier approach for detecting video response spam on youtube
AlMansour et al. A model for recalibrating credibility in different contexts and languages-a twitter case study
KR20140119269A (ko) 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법
Taufiq Nuruzzaman et al. Simple SMS spam filtering on independent mobile phone
Hon et al. Cyberbullying detection system on twitter
US20160269342A1 (en) Mediating messages with negative sentiments in a social network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160614