JP2015228189A - イベント検出装置およびプログラム - Google Patents
イベント検出装置およびプログラム Download PDFInfo
- Publication number
- JP2015228189A JP2015228189A JP2014114408A JP2014114408A JP2015228189A JP 2015228189 A JP2015228189 A JP 2015228189A JP 2014114408 A JP2014114408 A JP 2014114408A JP 2014114408 A JP2014114408 A JP 2014114408A JP 2015228189 A JP2015228189 A JP 2015228189A
- Authority
- JP
- Japan
- Prior art keywords
- series data
- data
- time
- residual
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 238000012545 processing Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 2
- 238000000034 method Methods 0.000 description 35
- 241001123248 Arma Species 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
Images
Abstract
【解決手段】自己回帰モデル適用部は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する。イベント検出部は、前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出する。
【選択図】図1
Description
本発明は、上記の課題認識に基づいて行なわれたものであり、異常値検出の精度の高い、イベント検出装置およびプログラムを提供するものである。
なお、除去処理部により、ノイズが除去される。また、除去処理部が発言件数の時系列データを調整した後に、自己回帰モデル適用部が、再度、自己回帰モデルまたは自己回帰移動平均モデルの適用をするところからの処理を行う。
図1は、本実施形態によるイベント検出装置の概略機能構成を示すブロック図である。同図において、符号1は、イベント検出装置である。図示するように、イベント検出装置1は、発言データ取得部10と、抽出部11と、系列データ生成部12と、自己回帰モデル適用部13と、イベント検出部14と、イベントリスト出力部15とを含んで構成される。
系列データ生成部12は、抽出部11によって出力された純粋状態発言データを取得し、時間区間ごとの純粋状態発言データの件数を表す発言件数の時系列データを生成するものである。
イベント検出部14は、自己回帰モデル適用部13によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、時系列データにおけるイベント候補として検出する。
イベント候補時刻検出部142は、残差時系列データ取得部141が取得した残差時系列データを基に、イベント候補の時刻を検出する。具体的には、イベント候補時刻検出部142は、各時間帯(時刻)について、残差の絶対値が所定の閾値以上の場合に、その時間帯をイベント候補として検出する。
除去処理部144は、前記継続時間判定部143によってノイズとして検出された箇所について、ノイズの箇所の残差の絶対値が小さくなるように発言件数の時系列データを調整する。発言件数の時系列データを調整するということは、正の残差の場合には発言件数を1件減らすことであり、負の残差の場合は、発言件数を1件増やすことである。除去処理部144によるこのデータの調整により、真のイベントではないイベント候補(つまり、ノイズ)を除去するような作用が生じる。
トピックの欄にデータが書き込まれた後は、条件を用いたデータ検索により、特定のトピックのデータのみを選択して抽出することができる。また、発言種別の欄にデータが書き込まれた後は、条件を用いたデータ検索により、特定の発言種別のデータのみを選択して抽出することができる。また、トピックの欄と発言種別の欄の両方にデータが書き込まれた後は、条件を用いたデータ検索により、特定のトピックで、且つ特定の発言種別のデータのみを選択して抽出することができる。特定のトピックや発言種別のみ抽出したデータは純粋状態の発言データとして利用できる。
トピックは、抽出部11によって分類され抽出されたトピックを表すラベルである。
発言種別は、前述の、発言内容を分類して得られた種別である。例えば、ある特定のトピックにおける発言種別は、「肯定」と「否定」の2種類である。
件数は、時間帯(日時)とトピックと発言種別に対応する発言データの件数を表す数値データである。
なお、この時系列データは、系列データ生成部12によって生成される。
図5は、イベント検出装置の動作手順を示すフローチャートである。以下、このフローチャートに沿って、イベント検出装置1の動作を説明する。
まずステップS101において、発言データ取得部10は、外部から発言データを取得する。この発言データは、図3に示したものである。
また、特定の発言種別のみを抽出するためには、文献[Michael W. Berry編,Survey of Text Mining,2004年版,Springer]にあるように、既存技術である評判分析技術を用いることができる。評判分析技術は、例えば、発言内に出現する語の頻度を表す多次元ベクトルを、そのベクトル空間内で分類する。また、評判分析技術は、必要に応じて、教師データを用いた機械学習の手法により、そのベクトル空間内での分類の仕方を学習する。
次数p(pは自然数)の自己回帰モデルは、下の式(1)で表される。
次数pの自己回帰と、次数qの移動平均を組み合わせたモデルは、下の式(2)で表される(p,qは、自然数)。
より具体的には、残差時系列データ取得部141が残差の値の時系列データを自己回帰モデル適用部13から取り込む。そして、イベント候補時刻検出部142がイベント候補の時間帯をすべて検出する。
例えば、時間帯の幅が5分の場合であって、20分間以上のイベント候補(閾値超え)が継続する場合に、そのイベント候補をイベントと認定する場合を考える。このとき、時系列のイベント候補が4個以上継続する場合にはイベントであると認定し、時系列のイベント候補が3個以下しか継続しない場合には、そのイベント候補は、イベントではなく、「所定時間継続しない箇所」であると認定する。
そして、閾値超えが所定時間継続しない箇所がある場合(ステップS106:YES)には、ステップS107に進む。一方、閾値超えが所定時間継続しない箇所がない場合(ステップS106:NO)には、ステップS108に進む。
なお、上述した処理において、2乗誤差の総和とは、対象としているすべての時間帯(閾値超えしているがイベントではない時間帯)についての総和である。
10 発言データ取得部
11 抽出部
12 系列データ生成部
13 自己回帰モデル適用部
14 イベント検出部
15 イベントリスト出力部
141 残差時系列データ取得部
142 イベント候補時刻検出部
143 継続時間判定部
144 除去処理部
145 検出結果出力部
Claims (5)
- 発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用部と、
前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出部と、
を具備することを特徴とするイベント検出装置。 - 発言内容と時刻情報とを含む発言データを取得し、取得した前記発言データから、特定のトピックに該当する前記発言内容を有する前記発言データのみまたは特定のトピックに該当するとともに特定の発言種別に該当する前記発言データのみを抽出した、純粋状態発言データを出力する抽出部と、
前記抽出部によって出力された前記純粋状態発言データを取得し、時間区間ごとの前記純粋状態発言データの件数を表す前記発言件数の時系列データを生成する系列データ生成部と、
をさらに具備し、
前記自己回帰モデル適用部は、前記系列データ生成部によって生成された前記発言件数の時系列データを取得して、自己回帰モデルまたは自己回帰移動平均モデルを適用する、
ことを特徴とする請求項1に記載のイベント検出装置。 - 前記イベント検出部は、
検出した前記イベント候補のうち、前記残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する継続時間判定部と、
前記継続時間判定部によって前記ノイズとして検出された箇所について、前記ノイズの箇所の残差の絶対値が小さくなるように前記発言件数の時系列データを調整する除去処理部と、
を具備することを特徴とする請求項1または請求項2のいずれか一項に記載のイベント検出装置。 - 前記除去処理部は、前記残差の時系列データにおける前記ノイズの総量に対する寄与の度合いを前記箇所ごとに求め、前記寄与の度合いが大きい前記箇所から優先して、前記発言件数の時系列データを調整する、
ことを特徴とする請求項3に記載のイベント検出装置。 - コンピューターを、
発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用手段、
前記自己回帰モデル適用手段によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出手段、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014114408A JP6395287B2 (ja) | 2014-06-02 | 2014-06-02 | イベント検出装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014114408A JP6395287B2 (ja) | 2014-06-02 | 2014-06-02 | イベント検出装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015228189A true JP2015228189A (ja) | 2015-12-17 |
JP6395287B2 JP6395287B2 (ja) | 2018-09-26 |
Family
ID=54885606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014114408A Active JP6395287B2 (ja) | 2014-06-02 | 2014-06-02 | イベント検出装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6395287B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112924619A (zh) * | 2021-01-15 | 2021-06-08 | 深圳市环思科技有限公司 | 一种提取环境空气污染特征方法、系统、终端及存储介质 |
JP2021135586A (ja) * | 2020-02-25 | 2021-09-13 | 株式会社日立製作所 | 時系列データ予測装置及び時系列データ予測方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805266B1 (en) * | 2001-07-17 | 2010-09-28 | At&T Corp. | Method for automated detection of data glitches in large data sets |
JP2012243032A (ja) * | 2011-05-18 | 2012-12-10 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2013140135A (ja) * | 2011-12-09 | 2013-07-18 | Tokyo Electron Ltd | 周期的駆動系の異常検知装置、周期的駆動系を有する処理装置、周期的駆動系の異常検知方法、およびコンピュータプログラム |
-
2014
- 2014-06-02 JP JP2014114408A patent/JP6395287B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805266B1 (en) * | 2001-07-17 | 2010-09-28 | At&T Corp. | Method for automated detection of data glitches in large data sets |
JP2012243032A (ja) * | 2011-05-18 | 2012-12-10 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2013140135A (ja) * | 2011-12-09 | 2013-07-18 | Tokyo Electron Ltd | 周期的駆動系の異常検知装置、周期的駆動系を有する処理装置、周期的駆動系の異常検知方法、およびコンピュータプログラム |
Non-Patent Citations (2)
Title |
---|
松村 冬子,他: ""選好商品のクラスタリングに基づく嗜好の変化の検出"", 情報処理学会研究報告 平成21年度▲3▼ [CD−ROM]、情報処理学会研究報告 数理モデル化と問題, vol. (27), JPN6018012581, 15 October 2009 (2009-10-15), pages 1 - 6, ISSN: 0003775518 * |
里 洋平, "異常行動検出入門(改)−行動データ時系列のデータマイニング−", JPN7018001072, 11 May 2012 (2012-05-11), pages 1 - 13, ISSN: 0003775517 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021135586A (ja) * | 2020-02-25 | 2021-09-13 | 株式会社日立製作所 | 時系列データ予測装置及び時系列データ予測方法 |
JP7393244B2 (ja) | 2020-02-25 | 2023-12-06 | 株式会社日立製作所 | 時系列データ予測装置及び時系列データ予測方法 |
CN112924619A (zh) * | 2021-01-15 | 2021-06-08 | 深圳市环思科技有限公司 | 一种提取环境空气污染特征方法、系统、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6395287B2 (ja) | 2018-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rauh | Validating a sentiment dictionary for German political language—a workbench note | |
US10691770B2 (en) | Real-time classification of evolving dictionaries | |
US9753916B2 (en) | Automatic generation of a speech by processing raw claims to a set of arguments | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
Kestemont et al. | Cross-genre authorship verification using unmasking | |
US8577155B2 (en) | System and method for duplicate text recognition | |
US10990616B2 (en) | Fast pattern discovery for log analytics | |
US11755841B2 (en) | Method for updating a knowledge base of a sentiment analysis system | |
JP5472640B2 (ja) | テキストマイニング装置、テキストマイニング方法、及びプログラム | |
US20170249388A1 (en) | Expert Detection in Social Networks | |
US20140297628A1 (en) | Text Information Processing Apparatus, Text Information Processing Method, and Computer Usable Medium Having Text Information Processing Program Embodied Therein | |
JP6719399B2 (ja) | 解析装置、解析方法、およびプログラム | |
US9734234B2 (en) | System and method for rectifying a typographical error in a text file | |
CN113094578A (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN107545505B (zh) | 保险理财产品信息的识别方法及系统 | |
JP2007241902A (ja) | テキストデータの分割システム及びテキストデータの分割及び階層化方法 | |
JP2019071089A (ja) | 情報提示装置、および情報提示方法 | |
CN110889451B (zh) | 事件审计方法、装置、终端设备以及存储介质 | |
Hernandez et al. | Constructing consumer profiles from social media data | |
Mayfield et al. | Analyzing wikipedia deletion debates with a group decision-making forecast model | |
JP6395287B2 (ja) | イベント検出装置およびプログラム | |
CN109213974B (zh) | 一种电子文档转换方法及装置 | |
JP5472641B2 (ja) | テキストマイニング装置、テキストマイニング方法、及びプログラム | |
Hu et al. | Quotatives indicate decline in objectivity in us political news | |
CN110941703A (zh) | 一种基于机器学习和模糊规则的集成简历信息抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170501 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180731 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180827 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6395287 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |