JP2020027540A - Labeling device, labeling method and program - Google Patents

Labeling device, labeling method and program Download PDF

Info

Publication number
JP2020027540A
JP2020027540A JP2018153166A JP2018153166A JP2020027540A JP 2020027540 A JP2020027540 A JP 2020027540A JP 2018153166 A JP2018153166 A JP 2018153166A JP 2018153166 A JP2018153166 A JP 2018153166A JP 2020027540 A JP2020027540 A JP 2020027540A
Authority
JP
Japan
Prior art keywords
data
time
labeling
label
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018153166A
Other languages
Japanese (ja)
Other versions
JP7029363B2 (en
Inventor
基至 大木
Motoyoshi Oki
基至 大木
悠介 斎藤
Yusuke Saito
悠介 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2018153166A priority Critical patent/JP7029363B2/en
Publication of JP2020027540A publication Critical patent/JP2020027540A/en
Application granted granted Critical
Publication of JP7029363B2 publication Critical patent/JP7029363B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To perform efficient labeling on time-series data.SOLUTION: A labeling device includes: input means for inputting time-series data {x} to be labeled; labeling means for labeling one or more data xincluded in the time series data {x} using one or more time series prediction algorithms selected by a user, out of a plurality of time series prediction algorithms; and output means for outputting the labeled time-series data {x}.SELECTED DRAWING: Figure 1

Description

本発明は、ラベリング装置、ラベリング方法及びプログラムに関する。   The present invention relates to a labeling device, a labeling method, and a program.

近年、データ収集技術の発展に伴い、時系列性を保持したデータ(以降、「時系列データ」と表す。)の収集が容易になってきている。このため、時系列データを分析することで、過去からのトレンド変化や季節性、周期性等の時間的傾向を把握することが可能となっている。例えば、データセンタに設置された各種センサから収集された時系列のセンサデータを分析して各種機器の異常発生を予測したり、店舗の日々の売上データを分析して顧客離脱の推移を予測したりすること等が行われている。このような時系列データ分析では、機械学習の手法を用いて、異常発生や顧客離脱の推移等の予測が行われる。   In recent years, with the development of data collection technology, it has become easier to collect data that retains time series (hereinafter, referred to as “time series data”). For this reason, by analyzing the time-series data, it is possible to grasp temporal trends such as trend changes from the past, seasonality, and periodicity. For example, it analyzes time-series sensor data collected from various sensors installed in data centers to predict the occurrence of abnormalities in various devices, and analyzes daily sales data of stores to predict the transition of customers. And so on. In such time-series data analysis, the occurrence of abnormalities and changes in customer withdrawal are predicted using a machine learning method.

ここで、機械学習の手法を用いて何等かの予測を行う場合、教師あり学習の手法によってモデルの学習が行われることが多い。この場合、モデルの学習や評価のために、時系列データに対応した正解ラベルデータが必要となる。例えば、特許文献1では、時系列のセンサデータを用いて、教師あり学習の手法により行動モデルを学習する技術が開示されている。   Here, when some prediction is performed using a machine learning method, model learning is often performed using a supervised learning method. In this case, correct label data corresponding to the time-series data is required for learning and evaluating the model. For example, Patent Literature 1 discloses a technique of learning a behavior model by a supervised learning method using time-series sensor data.

正解ラベルデータは、例えば、センサ等によって収集される場合もあるが、時系列データを確認しながら人手で作成される場合もある。人手で正解ラベルデータ(以降では、単に「ラベルデータ」とも表す。)を作成することは、ラベリングと称される。このようなラベリングは、例えば、時系列データのラベリングを行うためのツール(ソフトウェア)を用いて行われることが多い。   The correct label data may be collected by a sensor or the like, for example, or may be manually created while checking the time-series data. Manually creating correct label data (hereinafter, also simply referred to as “label data”) is referred to as labeling. Such labeling is often performed using, for example, a tool (software) for labeling time-series data.

特許第5520886号公報Japanese Patent No. 5520886

しかしながら、一般に、時系列データはデータ数が膨大であるため、人手でのラベリングには多くの時間を要していた。また、人手でのラベリングでは、或るデータに対するラベリングが漏れたり、適切でないラベリングが行われたりする場合がある。   However, in general, the time-series data has a huge number of data, so that much time is required for manual labeling. Also, in manual labeling, labeling of certain data may be omitted or improper labeling may be performed.

本発明の実施の形態は、上記の点に鑑みてなされたもので、時系列データに対して効率的なラベリングを行うことを目的とする。   An embodiment of the present invention has been made in view of the above points, and has as its object to perform efficient labeling on time-series data.

上記目的を達成するため、本発明の実施の形態は、ラベリング対象の時系列データ{x}を入力する入力手段と、複数の時系列予測アルゴリズムのうち、ユーザにより選択された1以上の時系列予測アルゴリズムを用いて、前記時系列データ{x}に含まれる1以上のデータxをラベリングするラベリング手段と、前記ラベリングされた時系列データ{x}を出力する出力手段と、を有することを特徴とする。 In order to achieve the above object, an embodiment of the present invention provides an input unit for inputting time-series data {x t } to be labeled, and one or more time-series prediction algorithms selected from a plurality of time-series prediction algorithms. using series prediction algorithm, one or more and labeling means for labeling the data x t of contained in the time-series data {x t}, and output means for outputting the time series data {x t} when the labeling and It is characterized by having.

時系列データに対して効率的なラベリングを行うことができる。   Efficient labeling can be performed on time-series data.

本発明の実施の形態におけるラベリング装置の機能構成の一例を示す図である。It is a figure showing an example of functional composition of a labeling device in an embodiment of the invention. 本発明の実施の形態におけるラベリング処理の流れの一例を示すフローチャートである。It is a flow chart which shows an example of the flow of labeling processing in an embodiment of the invention. ラベリング画面の一例を示す図(1/2)である。It is a figure (1/2) which shows an example of a labeling screen. ラベリング画面の一例を示す図(2/2)である。It is a figure (2/2) which shows an example of a labeling screen. 本発明の実施の形態におけるラベル付与又はラベル削除の流れの一例を示すフローチャートである。It is a flow chart which shows an example of a flow of label addition or label deletion in an embodiment of the invention. 本発明の実施の形態におけるラベリング装置のハードウェア構成の一例を示す図である。FIG. 2 is a diagram illustrating an example of a hardware configuration of a labeling device according to an embodiment of the present invention.

以下、本発明の実施の形態について説明する。本発明の実施の形態では、時系列データに対して自動又は手動でラベリングを行うと共に、ラベリングに関する情報(例えば、ラベリングの候補となるデータを示す情報や種々の統計量を示す情報等)をユーザに提供することで、効率的なラベリングを可能とするラベリング装置10について説明する。本発明の実施の形態では、ラベリングとは、時系列データに含まれるデータに対してラベルを付与する場合だけでなく、時系列データに含まれるデータに対して既に付与されているラベルを削除する場合も含まれるものとする。すなわち、本発明の実施の形態では、ラベリングは、時系列データに含まれるデータに対するラベルの付与又は削除を意味するものとする。   Hereinafter, embodiments of the present invention will be described. In the embodiment of the present invention, labeling is performed automatically or manually on time-series data, and information on labeling (for example, information indicating data that is a candidate for labeling, information indicating various statistics, or the like) is provided by a user. , A labeling apparatus 10 that enables efficient labeling will be described. In the embodiment of the present invention, labeling means not only the case where a label is assigned to data included in time-series data, but also the label already assigned to data included in time-series data is deleted. The case is also included. That is, in the embodiment of the present invention, labeling means adding or deleting a label to data included in the time-series data.

なお、或る所定の値のラベルがデータに付与されている場合、当該データを「ラベルが付与されていないデータ」(又は、「ラベル付与済みでないデータ」)と見做しても良い。例えば、ラベル値が「0」又は「1」の2値であり、ラベル値「0」が正常データを表し、ラベル値「1」が異常データを表すような場合、「0」のラベルが付与されているデータを「ラベルが付与されていないデータ」と見做しても良い。   When a label having a predetermined value is given to data, the data may be regarded as “data without a label” (or “data without a label”). For example, if the label value is a binary value of “0” or “1”, the label value “0” represents normal data, and the label value “1” represents abnormal data, a label of “0” is assigned. May be regarded as “data without a label”.

ここで、時系列データとは、時系列性を保持したデータのことである。時系列データは、例えば、日時(又は、時刻等であっても良い。)を表すインデックスをtとして、x={x}(t=1,・・・,T)で表される。このとき、各xは、スカラーで表されるデータであっても良いし、ベクトルで表されるデータ(すなわち、複数の変数で表されるデータ)であっても良い。例えば、各xが3つの変数v、v及びvで表されるベクトルデータである場合、各xは、x=(v,v,v)等の形式で表される。なお、Tは或る時間幅の日時を考えた場合における最終日時を表すインデックスである。 Here, the time-series data is data having a time-series property. The time-series data is represented by, for example, x = {x t } (t = 1,..., T), where t is an index representing date and time (or may be time or the like). In this case, each x t may be a data represented by a scalar, may be data that is represented by a vector (i.e., data represented by a plurality of variables). Table for example, when the x t is a vector data represented by three variables v 1, v 2 and v 3, each x t is, x t = (v 1, v 2, v 3) like format Is done. T is an index representing the last date and time when a date and time of a certain time width is considered.

また、ラベルデータとは、時系列データに含まれるデータに対するラベルを示すデータのことである。ラベルデータは、例えば、y={y}(t=1,・・・,T)で表される。なお、yは、時系列データに含まれるデータxに対応するラベルである。ただし、ラベルデータは、例えば、時系列データに付与されているラベル値の集合をCとして、y={y|y∈C}で表されるものであっても良い。 The label data is data indicating a label for data included in the time-series data. The label data is represented by, for example, y = {y t } (t = 1,..., T). Note that y t is a label corresponding to the data x t included in the time-series data. However, the label data may be represented by y = {y t | y t {C}, where C is a set of label values assigned to the time-series data.

なお、時系列データとラベルデータとが別々のデータで表されている必要はなく、1つのデータ(すなわち、ラベル付き時系列データ)で表されていても良い。ラベル付き時系列データに含まれる各xには、当該xに付与されたラベルが含まれる。例えば、各xが変数vで表されるスカラーデータである場合、ラベル付き時系列データに含まれる各xは、x=(v,y)等の形式で表される。又は、例えば、各xが3つの変数v、v及びvで表されるベクトルデータである場合、ラベル付き時系列データに含まれる各xは、x=(v,v,v,y)等の形式で表される。 Note that the time-series data and the label data need not be represented by separate data, but may be represented by one data (that is, labeled time-series data). Each x t included in the time-series data labeled, it includes labels that are applied to the x t. For example, if each x t is a scalar data represented by the variable v, the x t included in the time-series data with labels, x t = (v, y t) is represented in the form of such. Or, for example, when the x t is a vector data represented by three variables v 1, v 2 and v 3, each x t included in the time-series data with labels, x t = (v 1, v 2 , v 3 , y t ).

<ラベリング装置10の機能構成>
まず、本発明の実施の形態におけるラベリング装置10の機能構成について、図1を参照しながら説明する。図1は、本発明の実施の形態におけるラベリング装置10の機能構成の一例を示す図である。
<Functional configuration of labeling device 10>
First, a functional configuration of a labeling device 10 according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a diagram illustrating an example of a functional configuration of a labeling device 10 according to an embodiment of the present invention.

図1に示すように、本発明の実施の形態におけるラベリング装置10は、表示制御部101と、操作受付部102と、データ入力部103と、ラベル処理部104と、統計量計算部105と、ラベル付与候補抽出部106と、データ出力部107とを有する。これら各部は、例えば、ラベリング装置10にインストールされたラベリングプログラム100がCPU(Central Processing Unit)に実行させる処理により実現される。また、本発明の実施の形態におけるラベリング装置10は、記憶部201を有する。なお、ラベリングプログラム100は、1つのプログラムであっても良いし、複数のプログラムモジュールにより構成されていても良い。   As shown in FIG. 1, the labeling device 10 according to the embodiment of the present invention includes a display control unit 101, an operation reception unit 102, a data input unit 103, a label processing unit 104, a statistic calculation unit 105, It has a label assignment candidate extraction unit 106 and a data output unit 107. These units are realized, for example, by a process in which a labeling program 100 installed in the labeling apparatus 10 causes a CPU (Central Processing Unit) to execute. Further, the labeling device 10 according to the embodiment of the present invention has a storage unit 201. Note that the labeling program 100 may be a single program or may be composed of a plurality of program modules.

記憶部201は、ラベリングプログラム100が利用する記憶領域であり、各種データを記憶する。記憶部201に記憶されるデータとしては、例えば、時系列データやラベリングデータ等が挙げられる。   The storage unit 201 is a storage area used by the labeling program 100, and stores various data. Examples of data stored in the storage unit 201 include time-series data and labeling data.

表示制御部101は、表示に関する各種制御を行う。例えば、表示制御部101は、後述するラベリング画面を表示したり、このラベリング画面内における各種情報を表示したりする。   The display control unit 101 performs various controls related to display. For example, the display control unit 101 displays a labeling screen described later, and displays various information in the labeling screen.

操作受付部102は、ユーザからの各種操作の入力を受け付ける。例えば、操作受付部102は、表示制御部101により表示されたラベリング画面における各種操作等を受け付ける。   The operation receiving unit 102 receives input of various operations from a user. For example, the operation receiving unit 102 receives various operations on the labeling screen displayed by the display control unit 101.

データ入力部103は、時系列データ(ラベル付き時系列データも含む。)を入力する。ここで、データ入力部103は、例えばユーザ選択等に応じて、任意の形式の時系列データを入力することができる。   The data input unit 103 inputs time-series data (including time-series data with a label). Here, the data input unit 103 can input time-series data in an arbitrary format according to, for example, a user's selection.

例えば、データ入力部103は、ラベリング装置10の補助記憶装置等に記憶されているファイルを読み込むことで、このファイルに格納されている時系列データを入力しても良いし、ラベリング装置10と通信ネットワークを介して接続される端末装置等からアップロードされたファイルを読み込むことで、このファイルに格納されている時系列データを入力しても良い。又は、例えば、データ入力部103は、ユーザにより記述又は選択されたSQLクエリによりデータベースサーバ等から時系列データを入力しても良い。なお、このとき、データ入力部103は、例えばJOIN操作等により、複数のデータベースサーバ等から時系列データを入力しても良い。   For example, the data input unit 103 may input a time-series data stored in the file by reading a file stored in an auxiliary storage device or the like of the labeling device 10, or may communicate with the labeling device 10. By reading a file uploaded from a terminal device or the like connected via a network, time-series data stored in this file may be input. Alternatively, for example, the data input unit 103 may input time-series data from a database server or the like by an SQL query described or selected by a user. At this time, the data input unit 103 may input time-series data from a plurality of database servers or the like by, for example, a JOIN operation or the like.

ラベル処理部104は、データ入力部103により入力された時系列データに対して、自動ラベリング又は手動ラベリングを行う。ここで、手動ラベリングとは、例えば、ユーザの操作により設定されたデータ又はユーザの操作により設定された範囲に属するデータに対してラベリングすることである。また、自動ラベリングとは、例えば、ユーザの操作により選択された時系列予測アルゴリズムとパラメータとを用いて、この時系列予測アルゴリズム及びパラメータから抽出されるデータに対してラベリングすることである。   The label processing unit 104 performs automatic labeling or manual labeling on the time-series data input by the data input unit 103. Here, the manual labeling refers to, for example, labeling data set by a user operation or data belonging to a range set by a user operation. The automatic labeling is, for example, labeling data extracted from the time-series prediction algorithm and parameters using a time-series prediction algorithm and parameters selected by a user operation.

自動ラベリングを用いることで、ユーザは、複数の時系列予測アルゴリズムの中から所望の時系列予測アルゴリズムを選択すると共に、選択した時系列アルゴリズムのパラメータを設定するだけで、時系列データに対して自動的にラベリングを行うことができるようになる。   By using the automatic labeling, the user can select a desired time-series prediction algorithm from a plurality of time-series prediction algorithms and set parameters of the selected time-series algorithm, and can automatically generate the time-series data. Labeling can be performed effectively.

統計量計算部105は、時系列データやラベルデータ等から所定の統計量を計算する。ここで、所定の統計量としては、例えば、時系列データのうちのラベルが付与されているデータ数とラベルが付与されていないデータ数との割合(百分率等)が挙げられる、また、これ以外にも、所定の統計量としては、例えば、時系列データのうちのラベルが付与されているデータの最小値や中央値、平均値、最大値等が挙げられる。同様に、例えば、時系列データのうちのラベルが付与されていないデータの最小値や中央値、平均値、最大値等が挙げられる。   The statistic calculation unit 105 calculates a predetermined statistic from time-series data, label data, and the like. Here, as the predetermined statistic, for example, a ratio (percentage or the like) between the number of labeled data and the number of unlabeled data in the time-series data is exemplified. In addition, examples of the predetermined statistic include a minimum value, a median value, an average value, and a maximum value of data to which a label is assigned in time-series data. Similarly, for example, the minimum value, the median value, the average value, the maximum value, and the like of the unlabeled data in the time-series data are given.

統計量計算部105により計算された統計量を示す情報(以降、「統計量情報」とも表す。)は、表示制御部101により、ラベリング画面内に表示される。ラベリング画面内に表示された統計量情報を確認することで、ユーザは、時系列データをラベリングする際の参考とすることができる。   Information indicating the statistic calculated by the statistic calculation unit 105 (hereinafter, also referred to as “statistic information”) is displayed by the display control unit 101 in the labeling screen. By confirming the statistic information displayed in the labeling screen, the user can refer to when labeling the time-series data.

ラベル付与候補抽出部106は、ラベルが付与されているデータ(以降、「ラベル付与済みデータ」とも表す。)の選択とパラメータの設定とに応じて、データ入力部103により入力された時系列データの中からラベル付与の候補となるデータを抽出する。ラベル付与候補抽出部106は、例えば、時系列データの中から部分系列を作成した上で、この部分系列との距離に基づいて、ラベル付与の候補となるデータを抽出する。   The label assignment candidate extraction unit 106 selects the time-series data input by the data input unit 103 in accordance with the selection of data to which a label is assigned (hereinafter, also referred to as “labeled data”) and the setting of parameters. , Data that is a candidate for label assignment is extracted. The label assignment candidate extraction unit 106, for example, creates a partial series from the time-series data, and then extracts candidate data for label assignment based on the distance from the partial series.

ラベル付与候補抽出部106により抽出されたデータは、表示制御部101により、ラベル付与候補情報としてラベリング画面内に表示される。ラベリング画面内に表示されたラベル付与候補情報を確認することで、ユーザは、ラベル付与の候補となるデータを知ることができる。   The data extracted by the label assignment candidate extraction unit 106 is displayed on the labeling screen by the display control unit 101 as label assignment candidate information. By checking the label assignment candidate information displayed in the labeling screen, the user can know the data that is a candidate for label assignment.

データ出力部107は、時系列データ(ラベル付き時系列データも含む。)を出力する。ここで、データ出力部107は、例えばユーザの選択等に応じて、任意の形式で時系列データを出力することができる。   The data output unit 107 outputs time-series data (including labeled time-series data). Here, the data output unit 107 can output time-series data in an arbitrary format according to, for example, a user's selection or the like.

例えば、データ出力部107は、ラベリング装置10の補助記憶装置等に対して時系列データをファイルとして出力しても良いし、ラベリング装置10と通信ネットワークを介して接続されるサーバ装置等に時系列データをファイルとして出力しても良い。又は、例えば、データ出力部107は、データベースサーバ等に時系列データを出力しても良い。なお、データ出力部107は、時系列データ又はラベル付き時系列データではなく、ラベルデータのみを出力しても良い。   For example, the data output unit 107 may output time-series data as a file to an auxiliary storage device or the like of the labeling device 10, or may output the time-series data to a server device or the like connected to the labeling device 10 via a communication network. The data may be output as a file. Alternatively, for example, the data output unit 107 may output time-series data to a database server or the like. Note that the data output unit 107 may output only label data instead of time-series data or labeled time-series data.

<ラベリング処理>
以降では、本発明の実施の形態におけるラベリング装置10が実行するラベリング処理について、図2を参照しながら説明する。図2は、本発明の実施の形態におけるラベリング処理の流れの一例を示すフローチャートである。
<Labeling process>
Hereinafter, a labeling process performed by the labeling apparatus 10 according to the embodiment of the present invention will be described with reference to FIG. FIG. 2 is a flowchart illustrating an example of the flow of the labeling process according to the embodiment of the present invention.

ステップS101:まず、表示制御部101は、例えばラベリングプログラム100の起動等に応じて、時系列データをラベリングするためのラベリング画面G100を表示する。ここで、ラベリング画面G100について、図3及び図4を参照しながら説明する。図3及び図4は、ラベリング画面G100の一例を示す図である。なお、図3に示すラベリング画面G100と図4に示すラベリング画面G100とは、例えば、スクロールバー等により画面をスクロールさせることで相互に遷移させることができる。ただし、これに限られず、図3に示すラベリング画面G100と図4に示すラベリング画面G100とは、例えば、ボタンの押下等によって相互に遷移させることができるものであっても良い。   Step S101: First, the display control unit 101 displays a labeling screen G100 for labeling time-series data according to, for example, activation of the labeling program 100 or the like. Here, the labeling screen G100 will be described with reference to FIGS. 3 and 4 are diagrams illustrating an example of the labeling screen G100. Note that the labeling screen G100 shown in FIG. 3 and the labeling screen G100 shown in FIG. 4 can be transitioned to each other by, for example, scrolling the screen using a scroll bar or the like. However, the present invention is not limited thereto, and the labeling screen G100 shown in FIG. 3 and the labeling screen G100 shown in FIG.

ラベリング画面G100には、データ入力欄G110と、表示変数選択欄G120と、時系列データ(グラフ表示)欄G130と、拡大表示欄G140と、手動ラベリング(範囲指定)欄G150と、自動ラベリング欄G160と、ラベル付与又はラベル削除欄G170と、ラベル付与候補抽出欄G180と、データ出力欄G190と、時系列データ(リスト表示)欄G200と、統計量情報欄G210と、ラベル付与候補情報欄G220とが含まれる。   The labeling screen G100 includes a data input column G110, a display variable selection column G120, a time-series data (graph display) column G130, an enlarged display column G140, a manual labeling (range designation) column G150, and an automatic labeling column G160. , A label assignment or label deletion section G170, a label assignment candidate extraction section G180, a data output section G190, a time series data (list display) section G200, a statistic information section G210, and a label assignment candidate information section G220. Is included.

データ入力欄G110は、データ入力部103により時系列データを入力する際の入力方法の設定と実行とを行うためのエリアである。データ入力欄G110には、データ入力の方法を設定するための入力方法設定欄G111と、時系列データの入力を実行するための入力ボタンG112とが含まれる。ユーザは、入力方法設定欄G111において、例えば、ファイルを読み込んで時系列データを入力する、データベースから時系列データを入力する等の各種入力方法を設定することができる。   The data input field G110 is an area for setting and executing an input method when inputting time-series data by the data input unit 103. The data input field G110 includes an input method setting field G111 for setting a data input method, and an input button G112 for executing time-series data input. In the input method setting field G111, the user can set various input methods such as, for example, reading a file and inputting time-series data, and inputting time-series data from a database.

表示変数選択欄G120は、時系列データ(グラフ表示)欄G130にグラフとして表示される変数を選択するためのエリアである。ユーザは、表示変数選択欄G120において、時系列データに含まれる各データの変数のうち、時系列データ(グラフ表示)欄G130にグラフとして表示する変数(以降、「表示対象変数」とも表す。)を選択することができる。   The display variable selection field G120 is an area for selecting a variable displayed as a graph in the time series data (graph display) field G130. In the display variable selection field G120, the user displays variables as graphs in the time-series data (graph display) field G130 among variables of each data included in the time-series data (hereinafter, also referred to as “display target variables”). Can be selected.

時系列データ(グラフ表示)欄G130は、データ入力部103により入力された時系列データの或る変数(上記の表示変数選択欄G120で選択された表示対象変数)に関するグラフ(以降では、「時系列グラフ」とも表す。)が表示されるエリアである。拡大表示欄G140は、時系列データ(グラフ表示)欄G130に表示されている時系列グラフを拡大表示するためのエリアである。   The time-series data (graph display) column G130 includes a graph (hereinafter, “time”) relating to a certain variable (the display target variable selected in the display variable selection column G120) of the time-series data input by the data input unit 103. A series graph is also displayed.). The enlarged display section G140 is an area for enlarging and displaying the time series graph displayed in the time series data (graph display) section G130.

手動ラベリング(範囲指定)欄G150は、ラベル処理部104により日時の範囲指定で手動ラベリングを行う際の日時の範囲を設定するためのエリアである。自動ラベリング欄G160は、ラベル処理部104により自動ラベリングを行う際の時系列予測アルゴリズムの選択とパラメータの設定とを行うためのエリアである。ラベル付与又はラベル削除欄G170は、ラベル値の設定と、手動ラベリング又は自動ラベリングの実行とを行うためのエリアである。   The manual labeling (range specification) column G150 is an area for setting the range of date and time when performing manual labeling by specifying the range of date and time by the label processing unit 104. The automatic labeling section G160 is an area for selecting a time-series prediction algorithm and setting parameters when performing automatic labeling by the label processing unit 104. The label addition or label deletion column G170 is an area for setting a label value and performing manual labeling or automatic labeling.

ラベル付与候補抽出欄G180は、ラベル付与候補抽出部106によりラベル付与候補を抽出する際のパラメータの設定と実行とを行うためのエリアである。   The label assignment candidate extraction column G180 is an area for setting and executing parameters when the label assignment candidate extraction unit 106 extracts a label assignment candidate.

データ出力欄G190は、データ出力部107によりデータ(時系列データ、ラベル付き時系列データ又はラベルデータ等)を出力する際の出力方法の設定と実行とを行うためのエリアである。   The data output column G190 is an area for setting and executing an output method when data (time-series data, labeled time-series data, label data, or the like) is output by the data output unit 107.

時系列データ(リスト表示)欄G200は、データ入力部103により入力された時系列データに含まれる各データをリストとして表示されるエリアである。すなわち、時系列データ(リスト表示)欄G200は、時系列データに含まれる各データが、いわゆる生データとしてそのまま表示されるエリアである。   The time-series data (list display) column G200 is an area in which each data included in the time-series data input by the data input unit 103 is displayed as a list. That is, the time series data (list display) column G200 is an area in which each data included in the time series data is displayed as it is as raw data.

統計量情報欄G210は、統計量計算部105により計算された統計量が統計量情報として表示されるエリアである。ラベル付与候補情報欄G220は、ラベル付与候補抽出部106により抽出されたラベル付与候補がラベル付与候補情報として表示されるエリアである。   The statistic information column G210 is an area where the statistic calculated by the statistic calculation unit 105 is displayed as statistic information. The label assignment candidate information column G220 is an area where the label assignment candidates extracted by the label assignment candidate extraction unit 106 are displayed as label assignment candidate information.

以上のように、ラベリング画面G100には、複数のエリアが含まれており、これらのエリアにおいて種々の操作や情報の参照等を行うことができる。これらの各エリアの詳細については後述する。なお、ラベリング画面G100におけるユーザの各種操作(例えば、入力操作や選択操作、設定操作等)は、操作受付部102により受け付けられる。   As described above, the labeling screen G100 includes a plurality of areas, and various operations, information references, and the like can be performed in these areas. Details of each of these areas will be described later. Note that various operations (for example, an input operation, a selection operation, and a setting operation) of the user on the labeling screen G100 are received by the operation reception unit 102.

ステップS102:次に、データ入力部103は、ラベリング画面G100のデータ入力欄G110におけるユーザの操作に応じて、時系列データ(ラベル付き時系列データも含む。)を入力する。なお、データ入力部103により入力された時系列データは、記憶部201に記憶される。   Step S102: Next, the data input unit 103 inputs time-series data (including labeled time-series data) in accordance with a user operation in the data input field G110 of the labeling screen G100. Note that the time-series data input by the data input unit 103 is stored in the storage unit 201.

ユーザは、データ入力欄G110の入力方法設定欄G111で所望の入力方法を設定した上で、入力ボタンG112を押下する操作を行うことで、この入力方法によって時系列データを入力することができる。なお、ユーザは、入力方法設定欄G111において入力方法を設定する際に、この入力方法に応じたパラメータも設定する。例えば、入力方法として「データベースから入力」を設定した場合には、該当のデータベースから時系列データを入力するためのSQLを記述又は選択する。また、例えば、入力方法として「ファイルから入力」を設定した場合には、該当のファイルの格納先アドレス等を指定又は選択する。   The user sets a desired input method in the input method setting field G111 of the data input field G110, and then performs an operation of pressing the input button G112, whereby time-series data can be input by this input method. When setting the input method in the input method setting field G111, the user also sets parameters according to the input method. For example, when “input from database” is set as the input method, an SQL for inputting time-series data from the corresponding database is described or selected. Further, for example, when “input from file” is set as the input method, the storage destination address or the like of the file is specified or selected.

上記のステップS102で時系列データが入力されると、時系列データ(リスト表示)欄G200には、表示制御部101により時系列データに含まれる各データがリストとして表示される。   When the time-series data is input in step S102, the display control unit 101 displays each data included in the time-series data as a list in the time-series data (list display) column G200.

ステップS103:次に、操作受付部102は、ラベリング画面G100の表示対象変数の選択を受け付ける。ユーザは、表示変数選択欄G120に含まれる選択欄G121に変数を入力することで、表示対象変数を選択することができる。なお、選択欄G121に入力可能な変数は、上記のステップS102で入力された時系列データに含まれる各データの変数のうちのいずれか1つの変数である。例えば、時系列データに含まれる各データxがx=(v,v,v)と表される場合、選択欄G121に入力可能な変数は、v、v及びvのうちのいずれか1つの変数である。 Step S103: Next, the operation receiving unit 102 receives selection of a variable to be displayed on the labeling screen G100. The user can select a display target variable by inputting a variable in the selection column G121 included in the display variable selection column G120. The variable that can be input to the selection field G121 is any one of the variables of each data included in the time-series data input in step S102. For example, when the case where each data x t included in the sequence data is represented as = x t (v 1, v 2, v 3), is enterable variables selection column G121, v 1, v 2 and v 3 Is one of the variables.

また、時系列データがラベル付き時系列データある場合には、ラベル値を除く変数を選択欄G121に入力可能とする。例えば、ラベル付き時系列データに含まれる各データxがx=(v,v,v,y)で表される場合、選択欄G121に入力可能な変数は、v、v及びvのうちのいずれか1つの変数である。 When the time-series data is labeled time-series data, variables other than the label value can be input to the selection field G121. For example, if each data x t that is included in the time-series data labeled is represented by = x t (v 1, v 2, v 3, y t), it is enterable variables selection column G121, v 1, v is any one variable of 2 and v 3.

ただし、選択欄G121に対して2つ以上の変数を入力可能としても良い。この場合、時系列データ(グラフ表示)欄G130には、選択欄G121に入力された複数の表示対象変数に関するグラフがそれぞれ表示される。   However, two or more variables may be input to the selection field G121. In this case, in the time series data (graph display) column G130, graphs relating to the plurality of display target variables input to the selection column G121 are displayed.

上記のステップS103で表示対象変数が選択されると、時系列データ(グラフ表示)欄G130には、表示制御部101により時系列データの表示対象変数に関するグラフが表示される。すなわち、時系列データ(グラフ表示)欄G130には、当該時系列データの全時間区間のグラフG131と、或る時間区間のグラフG132とが含まれる。なお、グラフG131及びG132では、ラベル付与済みのデータに対して、例えば丸印等の目印が表示される。   When the display target variable is selected in step S103, the display control unit 101 displays a graph relating to the display target variable of the time-series data in the time-series data (graph display) column G130. That is, the time series data (graph display) column G130 includes a graph G131 of all time sections of the time series data and a graph G132 of a certain time section. In the graphs G131 and G132, for example, a mark such as a circle is displayed for the labeled data.

ここで、グラフG132は、グラフG131の或る時間区間(例えば、ユーザにより指定された時間区間)を拡大表示したグラフである。ユーザは、拡大表示欄G140に含まれる開始日時入力欄G141に所望の開始日時を入力すると共に、終了日時入力欄G142に所望の終了日時を入力した上で、表示ボタンG143を押下することで、入力した開始日時から終了時間までの時間区間の時系列データをグラフG132として表示させることができる。ただし、開始日時<終了日時である。例えば、上記のステップS102で入力された時系列データがx={x}(t=1,・・・,T)である場合、グラフG131は、x,・・・,xの隣接するデータ同士を線分で接続したグラフである。一方で、開始日時をts(≧1),終了日時をte(≦T)とした場合、グラフG132は、xts,・・・,xteの隣接するデータ同士を線分で接続したグラフである。なお、ユーザは、例えば、グラフG131から所望の時間区間を範囲指定等することにより、当該時間区間の時系列データをグラフG132として表示させることもできる。 Here, the graph G132 is a graph in which a certain time section (for example, a time section specified by the user) of the graph G131 is enlarged and displayed. The user inputs a desired start date and time in the start date and time input field G141 included in the enlarged display field G140, inputs a desired end date and time in the end date and time input field G142, and presses the display button G143. The time series data of the time section from the input start date and time to the end time can be displayed as a graph G132. However, start date / time <end date / time. For example, the time-series data x = {x t} input in step S102 described above (t = 1, ···, T ) if it is, graph G131 is, x 1, · · ·, adjacent x T 6 is a graph in which data to be connected are connected by line segments. Meanwhile, the start time ts (≧ 1), if the end time was te (≦ T), graph G132 is, x ts, · · ·, a graph are connected by line segments adjacent data between the x te is there. Note that the user can also display the time series data of the time section as a graph G132 by, for example, specifying a range of a desired time section from the graph G131.

以降のステップS104〜ステップS107は、表示対象変数が選択された後に、ユーザの操作に応じて実行される。すなわち、手動ラベリングを行うための操作又は自動ラベリングを行うための操作をユーザが行った場合はステップS104〜ステップS105が実行され、ラベル付与候補を抽出するための操作をユーザが行った場合はステップS106〜ステップS107が実行される。また、これらのステップS104〜ステップS107は、ラベリング後の時系列データを出力するための操作が行われるまで任意の回数繰り返し実行することができる。   The following steps S104 to S107 are executed in response to a user operation after a variable to be displayed is selected. That is, when the user performs an operation for performing manual labeling or an operation for performing automatic labeling, Steps S104 to S105 are performed, and when the user performs an operation for extracting a label assignment candidate, Step S104 to Step S105 are performed. Steps S106 to S107 are performed. Steps S104 to S107 can be repeatedly executed an arbitrary number of times until an operation for outputting time-series data after labeling is performed.

ステップS104:手動ラベリングを行うための操作(以降では、「手動ラベリング操作」と表す。)又は自動ラベリングを行うための操作(以降では、「自動ラベリング操作」と表す。)がユーザにより行われた場合、操作受付部102は、当該操作を受け付ける。そして、ラベル処理部104は、手動ラベリング又は自動ラベリングによりラベル付与又はラベル削除を行う。   Step S104: An operation for performing manual labeling (hereinafter, referred to as “manual labeling operation”) or an operation for performing automatic labeling (hereinafter, referred to as “automatic labeling operation”) is performed by the user. In this case, the operation receiving unit 102 receives the operation. Then, the label processing unit 104 performs label addition or label deletion by manual labeling or automatic labeling.

ここで、ユーザは、以下の操作により手動ラベリング操作又は自動ラベリング操作を行うことができる。   Here, the user can perform a manual labeling operation or an automatic labeling operation by the following operations.

(手動ラベリング操作)
ユーザは、手動ラベリング(範囲指定)欄G150に含まれる開始日時入力欄G151に所望の開始日時を入力すると共に、終了日時入力欄G152に所望の終了日時を入力する。ただし、開始日時<終了日時である。そして、ラベル付与を行う場合には、ユーザは、ラベル付与又はラベル削除欄G170に含まれる手動/自動区分選択欄G171で「手動」を選択すると共に、ラベル入力欄G172に所望のラベル値を入力した上で、ラベリングボタンG173を押下する。一方で、ラベル削除を行う場合には、ユーザは、ラベル付与又はラベル削除欄G170に含まれる手動/自動区分選択欄G171で「手動」を選択した上で、削除ボタンG174を押下する。
(Manual labeling operation)
The user inputs a desired start date and time in the start date and time input column G151 included in the manual labeling (range designation) column G150, and inputs a desired end date and time in the end date and time input column G152. However, start date / time <end date / time. Then, when performing label assignment, the user selects “manual” in the manual / automatic sorting selection field G171 included in the label assignment or label deletion field G170, and inputs a desired label value in the label input field G172. Then, the labeling button G173 is pressed. On the other hand, when performing label deletion, the user selects “manual” in the manual / automatic classification selection field G171 included in the label assignment or label deletion field G170, and then presses the delete button G174.

これにより、ユーザは、手動ラベリング操作を行うことができる。手動ラベリング操作が行われることで、時系列データに含まれる各データのうち、開始日時から終了日時までの時間区間に含まれるデータのラベリングが行われる。すなわち、ラベル付与の場合には、当該時間区間に含まれるデータに対して、当該ラベル値のラベルが付与される。一方で、ラベル削除の場合には、当該時間区間に含まれるデータからラベルが削除される。   This allows the user to perform a manual labeling operation. By performing the manual labeling operation, labeling of data included in the time section from the start date and time to the end date and time among the data included in the time-series data is performed. That is, in the case of labeling, the label of the label value is added to the data included in the time section. On the other hand, in the case of label deletion, the label is deleted from the data included in the time section.

なお、ユーザは、例えば、時系列データ(グラフ表示)欄G130に表示されているグラフG132中のデータを、マウス等のポインティングデバイスで選択することで手動ラベリング操作を行うことができても良い。このとき、ラベル付与の場合には、ユーザは、例えば、ラベル入力欄G172に所望のラベル値を入力した上で、グラフG132中の所望のデータを、ポインティングデバイスで選択すれば良い。一方で、ラベル削除の場合には、ユーザは、例えば、ラベル入力欄G172には何も入力されていない状態(ブランクの状態)で、グラフG132中の所望のデータを、ポインティングデバイスで選択すれば良い。又は、グラフG132中の所望のデータを、例えばポインティングデバイスでダブルクリックすること等によってラベル削除が行われても良い。   Note that the user may be able to perform a manual labeling operation by selecting, for example, data in the graph G132 displayed in the time-series data (graph display) column G130 with a pointing device such as a mouse. At this time, in the case of labeling, for example, after inputting a desired label value in the label input field G172, the user may select desired data in the graph G132 using a pointing device. On the other hand, in the case of label deletion, for example, the user selects desired data in the graph G132 with a pointing device in a state where nothing is input in the label input field G172 (blank state). good. Alternatively, label deletion may be performed by, for example, double-clicking desired data in the graph G132 with a pointing device.

(自動ラベリング操作)
ユーザは、自動ラベリング欄G160に含まれるアルゴリズム選択欄G161から所望の時系列予測アルゴリズム(又は時系列アルゴリズムの組み合わせ)を選択すると共に、選択した時系列予測アルゴリズム(又は時系列アルゴリズムの組み合わせ)でのデータ抽出に必要なパラメータをパラメータ設定欄G162に設定する。そして、ラベル付与を行う場合には、ユーザは、ラベル付与又はラベル削除欄G170に含まれる手動/自動区分選択欄G171で「自動」を選択すると共に、ラベル入力欄G172に所望のラベル値を入力した上で、ラベリングボタンG173を押下する。一方で、ラベル削除を行う場合には、ユーザは、ラベル付与又はラベル削除欄G170に含まれる手動/自動区分選択欄G171で「自動」を選択した上で、削除ボタンG174を押下する。
(Automatic labeling operation)
The user selects a desired time-series prediction algorithm (or a combination of time-series algorithms) from the algorithm selection field G161 included in the automatic labeling field G160, and selects a desired time-series prediction algorithm (or a combination of time-series algorithms). The parameters required for data extraction are set in the parameter setting column G162. Then, when performing label assignment, the user selects "automatic" in the manual / automatic sorting selection field G171 included in the label assignment or label deletion field G170, and inputs a desired label value in the label input field G172. Then, the labeling button G173 is pressed. On the other hand, when performing label deletion, the user selects “automatic” in the manual / automatic classification selection field G171 included in the label assignment or label deletion field G170, and then presses the delete button G174.

これにより、ユーザは、自動ラベリング操作を行うことができる。自動ラベリング操作が行われることで、ユーザにより選択された時系列予測アルゴリズム(又は時系列アルゴリズムの組み合わせ)によりデータが抽出された上で、時系列データに含まれる各データうち、抽出されたデータがラベリングされる。なお、アルゴリズム選択欄G161で選択可能な時系列予測アルゴリズムとしては、例えば、Prophet、ARIMA、Singular Spectrum Transformation、Moving Average等が挙げられる。ただし、アルゴリズム選択欄G161で選択可能な時系列予測アルゴリズムは、これらに限られず、時系列データを予測可能なアルゴリズムであれば任意のアルゴリズムがアルゴリズム選択欄G161で選択可能とすることができる。   Thereby, the user can perform an automatic labeling operation. By performing the automatic labeling operation, the data is extracted by the time-series prediction algorithm (or a combination of the time-series algorithms) selected by the user, and the extracted data is extracted from the data included in the time-series data. Labeled. The time series prediction algorithm selectable in the algorithm selection field G161 includes, for example, Prophet, ARIMA, Singular Spectrum Transformation, Moving Average, and the like. However, the time-series prediction algorithm selectable in the algorithm selection field G161 is not limited to these, and any algorithm can be selected in the algorithm selection field G161 as long as it is an algorithm that can predict time-series data.

なお、上記の手動ラベリング操作及び自動ラベリング操作では、手動/自動区分選択欄G171で「手動」又は「自動」のいずれかをユーザが選択したが、この選択操作を不要としても良い。この場合、例えば、ユーザによりラベリングボタンG173又は削除ボタンG174が押下された場合に、ラベル処理部104が「手動」又は「自動」のいずれであるかを判別すれば良い。このとき、例えば、手動ラベリング(範囲指定)欄G150に含まれる開始日時入力欄G151及び終了日時入力欄G152に開始日時及び終了日時がそれぞれ設定されている場合は「手動」と判別する一方で、アルゴリズム選択欄G161で時系列予測アルゴリズムが選択されていると共にパラメータ設定欄G162にパラメータが設定されている場合は「自動」と判別すれば良い。   In the manual labeling operation and the automatic labeling operation described above, the user selects either “manual” or “automatic” in the manual / automatic classification selection field G171, but this selection operation may be unnecessary. In this case, for example, when the user presses the labeling button G173 or the delete button G174, the label processing unit 104 may determine whether the operation is “manual” or “automatic”. At this time, for example, when the start date and time and the end date and time are respectively set in the start date and time input column G151 and the end date and time input column G152 included in the manual labeling (range designation) column G150, “manual” is determined. When the time-series prediction algorithm is selected in the algorithm selection field G161 and a parameter is set in the parameter setting field G162, it may be determined to be "automatic".

ここで、上記のステップS104のラベル付与又はラベル削除(すなわち、ラベリング)の処理の流れについて、図5を参照しながら説明する。図5は、本発明の実施の形態におけるラベル付与又はラベル削除の流れの一例を示すフローチャートである。この処理は、手動ラベリング操作又は自動ラベリング操作の何れかの操作を操作受付部102が受け付けた場合に実行される。   Here, the flow of processing for label addition or label deletion (that is, labeling) in step S104 will be described with reference to FIG. FIG. 5 is a flowchart illustrating an example of the flow of label addition or label deletion in the embodiment of the present invention. This processing is executed when the operation receiving unit 102 receives either the manual labeling operation or the automatic labeling operation.

ステップS201:まず、ラベル処理部104は、操作受付部102が受け付けた操作が手動ラベリング操作又は自動ラベリング操作のいずれであるかを判定する。この判定結果が手動ラベリング操作である場合、ラベル処理部104は、ステップS202に進む。一方で、この判定結果が自動ラベリング操作である場合、ラベル処理部104は、ステップS203に進む。   Step S201: First, the label processing unit 104 determines whether the operation received by the operation receiving unit 102 is a manual labeling operation or an automatic labeling operation. If the result of this determination is a manual labeling operation, the label processing unit 104 proceeds to step S202. On the other hand, if the result of this determination is an automatic labeling operation, the label processing unit 104 proceeds to step S203.

ステップS202:ラベル処理部104は、手動ラベリング操作で選択されたデータにしてラベル付与又はラベル削除を行う。すなわち、ラベル付与の場合、ラベル処理部104は、開始日時入力欄G151に入力された開始日時から、終了日時入力欄G152に入力された終了日時までの間の時間区間に含まれるデータに対して、ラベル入力欄G172に入力されたラベル値を付与する。これにより、ラベリング対象のデータx(すなわち、手動ラベリング操作で選択されたデータx)に対してラベルyが付与される。なお、このラベルyは記憶部201に記憶される。 Step S202: The label processing unit 104 performs label assignment or label deletion on the data selected by the manual labeling operation. That is, in the case of labeling, the label processing unit 104 performs processing on data included in a time section between the start date and time input in the start date and time input field G151 and the end date and time input in the end date and time input field G152. , The input label value is assigned to the label input field G172. Thus, the label y t is given to the labeling target data x t (i.e., data x t manually select labeling operation). Note that this label y t is stored in the storage unit 201.

一方で、ラベル削除の場合、ラベル処理部104は、開始日時入力欄G151に入力された開始日時から、終了日時入力欄G152に入力された終了日時までの間の時間区間に含まれるデータに付与されているラベルを削除する。これにより、ラベリング対象のデータx(すなわち、手動ラベリング操作で選択されたデータx)からラベルyが削除される。 On the other hand, in the case of label deletion, the label processing unit 104 adds the data included in the time section from the start date and time input in the start date and time input field G151 to the end date and time input in the end date and time input field G152. Remove the label that is being used. Thus, labeling target data x t (i.e., manual data selected by the labeling operation x t) label y t is removed from.

なお、ラベルを削除することは、ラベル値を所定の値に更新又は上書きすることであっても良い。例えば、ラベル値が「0」又は「1」の2値であり、ラベル値「0」が正常データを表し、ラベル値「1」が異常データを表すような場合、ラベルの削除は、ラベル値「1」のラベルが付与されているデータのラベル値を「0」に更新又は上書きすることであっても良い。   Note that deleting the label may be updating or overwriting the label value to a predetermined value. For example, if the label value is a binary value “0” or “1”, the label value “0” represents normal data, and the label value “1” represents abnormal data, the deletion of the label is The label value of the data to which the label of “1” is assigned may be updated or overwritten to “0”.

ステップS203:ラベル処理部104は、自動ラベリング操作で選択された時系列予測アルゴリズム(又は時系列アルゴリズムの組み合わせ)と、この時系列予測アルゴリズム(又は時系列アルゴリズムの組み合わせ)でのデータ抽出に必要なパラメータとによりラベリング対象のデータを抽出する。   Step S203: The label processing unit 104 is required to extract the time-series prediction algorithm (or a combination of the time-series algorithms) selected by the automatic labeling operation and to extract data with the time-series prediction algorithm (or the combination of the time-series algorithms). The data to be labeled is extracted based on the parameters.

ここで、時系列の予測値と信頼区間とが出力される時系列予測アルゴリズムが選択された場合に、ラベル処理部104がラベリング対象のデータを抽出する例について説明する。なお、時系列の予測値と信頼区間とが出力される時系列予測アルゴリズムとしては、例えば、Prophet等が挙げられる。   Here, an example will be described in which the label processing unit 104 extracts data to be labeled when a time-series prediction algorithm that outputs a time-series predicted value and a confidence interval is selected. In addition, as a time-series prediction algorithm for outputting a time-series prediction value and a confidence interval, for example, Prophet or the like is given.

この場合、時系列予測アルゴリズムは、時系列データx={x}(t=1,・・・,T)を入力として、予測値の時系列データ{^x}(t=1,・・・,T)と、信頼区間{u}及び{l}とを出力する。ここで、u及びlは、それぞれ予測値^xの信頼区間の上限及び下限である。また、予測値であることを示すハット「^」は、便宜上、文字の頭上ではなく、文字の直前に記載する。 In this case, the time-series prediction algorithm receives the time-series data x = {x t } (t = 1,..., T) as input, and the time-series data {x t } (t = 1,. ..., and T), and outputs the confidence interval {u t} and {l t}. Here, u t and l t are the upper and lower limits of the confidence interval for each estimated value ^ x t. In addition, for convenience, a hat “^” indicating a predicted value is described immediately before a character, not above the character.

このとき、ラベル処理部104は、例えば、x,・・・xのうち、x>u又はl>xのいずれかを満たすxをラベリング対象のデータとして抽出すれば良い。なお、この例の場合、ユーザは、パラメータの設定が不要である。 At this time, the label processing unit 104, for example, x 1, among · · · x T, may be extracted x t> u t or l t> x x t that satisfies any of t as labeling target data . In this case, the user does not need to set parameters.

ただし、これに限られず、例えば、当該時系列予測アルゴリズムのパラメータとして閾値θがユーザにより設定された場合には、この閾値を用いてラベリング対象のデータを抽出しても良い。例えば、x−u>θ又はl−x>θのいずれかを満たすxをラベリング対象のデータとして抽出しても良い。又は、例えば、|x−^x|>θを満たすxをラベリング対象のデータとして抽出しても良い。なお、このとき、パラメータとして重みが設定されても良い。例えば、重みa(0<a≦1)が設定された場合、|x−a×^x|>θを満たすxをラベリング対象のデータとして抽出するようにすれば良い。 However, the present invention is not limited to this. For example, when a threshold θ is set by a user as a parameter of the time-series prediction algorithm, data to be labeled may be extracted using the threshold. For example, it may be extracted x t -u t> θ or l t -x t> x t that satisfies any of theta as labeling target data. Or, for example, | x t - ^ x t |> θ may be extracted x t as labeling target data satisfying. At this time, a weight may be set as a parameter. For example, <if (a ≦ 1 is set, | x t -a × ^ x t | weight a 0)> θ may be to extract the x t as labeling target data satisfying.

また、時系列予測アルゴリズムの組み合わせがユーザにより選択された場合、複数の時系列予測アルゴリズムからラベリング対象のデータが抽出される。例えば、第1の時系列予測アルゴリズムと第2の時系列予測アルゴリズムとの組み合わせが選択された場合、第1の時系列予測アルゴリズムによる予測値の時系列データ{^x´}(t=1,・・・,T)と、第2の時系列予測アルゴリズムによる予測値の時系列データ{^x´´}(t=1,・・・,T)とを用いて、|x−(a×^x´+b×^x´´)|>θを満たすxをラベリング対象のデータとして抽出すれば良い。なお、a、b、θはユーザにより設定されたパラメータであり、a、bは第1の時系列予測アルゴリズムと第2の時系列予測アルゴリズムとの重みであり、例えば、a+b=1、a≧0、b≧0を満たすものである。 When a combination of the time-series prediction algorithms is selected by the user, data to be labeled is extracted from the plurality of time-series prediction algorithms. For example, when the combination of the first time-series prediction algorithm and the second time-series prediction algorithm is selected, the time-series data {x ′ t } (t = 1) of the predicted value by the first time-series prediction algorithm ,..., T) and the time-series data {x ″ t } (t = 1,..., T) of the prediction value by the second time-series prediction algorithm, | x t(a × ^ x't + b × ^ x'' t) |> θ may be extracted x t as labeling target data satisfying. Here, a, b, and θ are parameters set by the user, and a and b are weights of the first time series prediction algorithm and the second time series prediction algorithm, for example, a + b = 1, a ≧ 0, b ≧ 0.

上記以外にも、例えば、第1の時系列予測アルゴリズムと第2の時系列予測アルゴリズムとが信頼区間を出力する場合には、第1の時系列予測アルゴリズムが出力する信頼区間を{u´}及び{l´}、第2の時系列予測アルゴリズムが出力する信頼区間を{u´´}及び{l´´}として、x>(u´+u´´)/2又は(l´+l´´)/2>xのいずれかを満たすxをラベリング対象のデータとして抽出しても良い。また、時系列予測アルゴリズムの組み合わせは2つに限られず、3つ以上の時系列予測アルゴリズムの組み合わせであっても良い。 In addition to the above, for example, when the first time-series prediction algorithm and the second time-series prediction algorithm output a confidence interval, the confidence interval output by the first time-series prediction algorithm is set to {u ′ t } And {l ′ t }, and the confidence intervals output by the second time-series prediction algorithm are defined as {u ″ t } and {l ″ t }, and x t > (u ′ t + u ″ t ) / 2. or (l't + l'' t) / 2> x t that satisfies any of the x t may be extracted as the labeling target data. Further, the combination of the time-series prediction algorithms is not limited to two, and may be a combination of three or more time-series prediction algorithms.

なお、上記では、時系列予測アルゴリズムを用いてラベリング対象のデータを抽出する場合について説明したが、例えば、ユーザにより設定された閾値θと、時系列データx={x}(t=1,・・・,T)との比較によってラベリング対象のデータを抽出しても良い。例えば、x>θを満たすxをラベリング対象のデータとして抽出する(又は、x<θを満たすxをラベリング対象のデータとして抽出する)等としても良い。 In the above description, the case of extracting data to be labeled using the time-series prediction algorithm has been described. For example, the threshold θ set by the user and the time-series data x = {x t } (t = 1, .., T), the data to be labeled may be extracted. For example, to extract the x t satisfying x t> theta as labeling target data (or, to extract the x t satisfying x t <theta as labeling target data) may be like.

また、ラベル入力欄G172に設定されたラベル値に応じて、ラベリング対象のデータを抽出する条件を変更しても良い。例えば、上記の信頼区間が出力される時系列予測アルゴリズムを用いる場合に、ラベル値が「0」であるときはx>uを満たすか否かを判定し、ラベル値が「1」であるときはl>xを満たすか否かを判定する、等である。又は、例えば、予め決められた閾値と時系列データx={x}とを比較する場合に、ラベル値が「0」であるときは、閾値θを用いて、x>θを満たすか否かを判定し、ラベル値が「1」であるときは、閾値θを用いて、x>θを満たすか否かを判定する、等である。 ステップS204:ラベル処理部104は、上記のステップS203で抽出されたデータに対してラベル付与又はラベル削除を行う。すなわち、ラベル付与の場合、ラベル処理部104は、上記のステップS203で抽出されたデータに対して、ラベル入力欄G172に入力されたラベル値を付与する。これにより、ラベリング対象のデータx(すなわち、上記のステップS203で抽出されたデータx)に対してラベルyが付与される。なお、このラベルyは記憶部201に記憶される。 Further, the condition for extracting the data to be labeled may be changed according to the label value set in the label input field G172. For example, in the case of using the time-series prediction algorithm above confidence interval is output, it is determined whether or not satisfy x t> u t when the label value is "0", the label value is "1" At some point, it is determined whether or not l t > x t is satisfied. Alternatively, for example, when comparing a predetermined threshold value with the time-series data x = {x t }, if the label value is “0”, the threshold value θ 0 is used and x t > θ 0 is set. It determines whether they meet, when the label value is "1", using a threshold theta 1, determines whether or not satisfy x t> theta 1, and so on. Step S204: The label processing unit 104 performs label assignment or label deletion on the data extracted in step S203. That is, in the case of label assignment, the label processing unit 104 assigns the label value input to the label input field G172 to the data extracted in step S203. Thus, the label y t is given to the labeling target data x t (i.e., the data x t extracted in step S203 above). Note that this label y t is stored in the storage unit 201.

一方で、ラベル削除の場合、ラベル処理部104は、上記のステップS203で抽出されたデータに付与されているラベルを削除する。これにより、ラベリング対象のデータx(すなわち、上記のステップS203で抽出されたデータx)からラベルyが削除される。 On the other hand, in the case of label deletion, the label processing unit 104 deletes the label given to the data extracted in step S203. Thus, labeling target data x t (i.e., the extracted data x t at step S203 described above) label y t from is deleted.

なお、上記でラベル付与を行う際に、上記のステップS203で抽出されたデータに既にラベルが付与されている場合も有り得る。この場合、既に付与されているラベルを更新又は上書きしても良い。すなわち、ラベリングボタンG173の押下操作は、ラベル付与だけでなく、ラベルの更新又は上書きをするための操作を意味しても良い。また、ラベルの更新又は上書きだけでなく、上記のステップS203で抽出されたデータに対して追加でラベルを付与しても良い。また、既にラベルが付与されているデータは、上記のステップS203で抽出されないようにしても良い。この場合に、(1)既に付与されているラベルを更新又は上書きするか、(2)追加でラベルを付与するか、(3)既にラベルが付与されているデータが抽出されないようにするか、の(1)〜(3)のいずれとするかは、例えば、ユーザにより選択されても良い。   It should be noted that, when performing labeling as described above, there may be cases where a label has already been allocated to the data extracted in step S203. In this case, the already assigned label may be updated or overwritten. That is, the pressing operation of the labeling button G173 may mean not only the operation of giving the label but also the operation of updating or overwriting the label. Further, in addition to updating or overwriting the label, a label may be additionally provided to the data extracted in step S203. Further, data to which a label has already been assigned may not be extracted in step S203. In this case, (1) update or overwrite a label already assigned, (2) add a label additionally, (3) prevent data already labeled from being extracted, Which of (1) to (3) above may be selected by the user, for example.

また、上記でラベル付与を行う際に、上記のステップS203で抽出されたデータに対して、ラベル入力欄G172に設定されたラベル値を付与したが、これに限られず、例えば、ラベル入力欄G172へのラベル値の入力操作を不要とし、上記のステップS203で抽出されたデータに応じてラベル値を付与しても良い。この場合、例えば、信頼性区間が出力される時系列予測アルゴリズムでは、x−uの値又はl−xの値に応じたラベル値をxに付与することが考えられる。具体的には、例えば、δ=x−uとして、δが或る範囲内の場合はラベル値「1」、別の或る範囲内の場合はラベル値「2」等のように、データに付与するラベル値を決定することが考えられる。同様に、例えば、ユーザにより設定された閾値θとxとの比較によってラベル値を決定する場合もθとxとの差に応じたラベル値をxに付与することが考えられる。 In addition, when performing the label assignment as described above, the label value set in the label entry field G172 is assigned to the data extracted in step S203. However, the present invention is not limited thereto. The operation of inputting the label value to is unnecessary, and the label value may be assigned according to the data extracted in step S203. In this case, for example, in the time-series prediction algorithm reliability interval it is output, it is conceivable to impart a label value corresponding to the value of x t -u t values or l t -x t on x t. Specifically, for example, as δ t = x t -u t, label value when [delta] t is within a range "1", if in another a range as such label value "2" Next, it is conceivable to determine a label value to be assigned to data. Similarly, for example, it is conceivable to impart a label value corresponding to the difference between the even θ and x t when determining the label value by comparison with the set threshold θ and x t by the user x t.

また、上述したように、ラベルを削除することは、ラベル値を所定の値に更新又は上書きすることであっても良い。例えば、ラベル値が「0」又は「1」の2値であり、ラベル値「0」が正常データを表し、ラベル値「1」が異常データを表すような場合、ラベルの削除は、ラベル値「1」のラベルが付与されているデータのラベル値を「0」に更新又は上書きすることであっても良い。   As described above, deleting a label may be updating or overwriting a label value to a predetermined value. For example, if the label value is a binary value “0” or “1”, the label value “0” represents normal data, and the label value “1” represents abnormal data, the deletion of the label is The label value of the data to which the label of “1” is assigned may be updated or overwritten to “0”.

図2に戻る。ステップS105:統計量計算部105は、時系列データやラベルデータ等から所定の統計量を計算する。そして、表示制御部101は、統計量計算部105により計算された統計量で、統計量情報欄G210に表示されている統計量情報を更新する。   Return to FIG. Step S105: The statistic calculation unit 105 calculates a predetermined statistic from time-series data, label data, and the like. Then, the display control unit 101 updates the statistic information displayed in the statistic information column G210 with the statistic calculated by the statistic calculation unit 105.

ここで、図4に示す統計量情報欄G210には、時系列データのうちのラベル値「0」のラベルが付与されているデータ数と、ラベル値「1」のラベルが付与されているデータ数との割合が円グラフとして表示されているが、これは一例であって、統計量情報欄G210には、統計量計算部105により計算された任意の統計量が任意の形式で表示される。例えば、円グラフとして、ラベル値「0」のラベルが付与されているデータ数と、ラベル値「1」のラベルが付与されているデータ数と、ラベルが付与されていないデータ数(この場合のラベルが付与されていないデータとは、ラベル値自体が付与されていないデータのことである。)との割合が表示されても良い。また、円グラフ以外にも、例えば、統計量計算部105により計算された統計量が、ラベルが付与されているデータ及びラベルが付与されていないデータそれぞれの最小値、中央値、平均値、最大値等である場合、統計量情報欄G210には、ラベルが付与されているデータに関する箱ひげ図と、ラベルが付与されていないデータに関する箱ひげ図とが表示されていても良い。   Here, the statistic information column G210 shown in FIG. 4 includes, in the time series data, the number of data to which the label with the label value “0” is assigned and the data to which the label with the label value “1” is assigned. The ratio with the number is displayed as a pie chart, but this is an example, and an arbitrary statistic calculated by the statistic calculation unit 105 is displayed in an arbitrary format in the statistic information column G210. . For example, as a pie chart, the number of data items labeled with a label value “0”, the number of data items labeled with a label value “1”, and the number of data items without a label (in this case, The data with no label is data without the label value itself.). In addition to the pie chart, for example, the statistic calculated by the statistic calculation unit 105 is the minimum value, the median value, the average value, and the maximum value of the labeled data and the unlabeled data. In the case of a value or the like, the statistic information column G210 may display a boxplot for data with a label and a boxplot for data without a label.

ステップS106:ラベル付与候補を抽出するための操作(以降、「ラベル付与候補抽出操作」とも表す。)がユーザにより行われた場合、操作受付部102は、当該操作を受け付ける。そして、ラベル付与候補抽出部106は、データ入力部103により入力された時系列データの中からラベル付与の候補となるデータを抽出する。   Step S106: When an operation for extracting a label assignment candidate (hereinafter, also referred to as “label assignment candidate extraction operation”) is performed by the user, the operation accepting unit 102 accepts the operation. Then, the label assignment candidate extracting unit 106 extracts data that is a candidate for label assignment from the time-series data input by the data input unit 103.

ここで、ユーザは、ラベル付与候補抽出欄G180において、ラベル付与候補の抽出に必要なパラメータを設定すると共に、グラフG132の中から基準となるデータ(以降、「基準データ」と表す。)を選択した上で、抽出ボタンG185を押下することで、ラベル付与候補抽出操作を行うことができる。これらのパラメータは、例えば、距離選択欄G181と、ターゲットポイント選択欄G182と、時間長設定欄G183と、出力数設定欄G184とで設定することができる。また、基準データとしては、ラベル付与済みのデータの中から1つのデータが選択される。   Here, the user sets the parameters necessary for extracting the label assignment candidate in the label assignment candidate extraction column G180, and selects reference data (hereinafter, referred to as “reference data”) from the graph G132. Then, by pressing the extraction button G185, a label assignment candidate extraction operation can be performed. These parameters can be set, for example, in a distance selection column G181, a target point selection column G182, a time length setting column G183, and an output number setting column G184. Also, as the reference data, one data is selected from the data to which the label has been added.

距離選択欄G181では、ラベル付与候補の抽出に用いられる距離が選択される。距離選択欄G181で選択可能な距離としては、例えば、DTW(Dynamic Time Warping)やユークリッド距離等が挙げられる。これら以外にも、例えば、フーリエ変換距離や自己回帰係数距離等が選択可能であっても良い。   In the distance selection field G181, a distance used for extracting a label assignment candidate is selected. Examples of the distance that can be selected in the distance selection column G181 include DTW (Dynamic Time Warping) and Euclidean distance. Other than these, for example, a Fourier transform distance, an autoregressive coefficient distance, or the like may be selectable.

ターゲットポイント選択欄G182では、時間長設定欄G183で設定された時間長の部分系列を作成する際に、部分系列中の基準位置が選択される。ターゲットポイント選択欄G182で設定可能な基準位置としては、「First」、「Center」、「Last」等がある。   In the target point selection column G182, a reference position in the partial sequence is selected when a partial sequence having the time length set in the time length setting column G183 is created. Reference positions that can be set in the target point selection field G182 include “First”, “Center”, “Last”, and the like.

時間長設定欄G183には、部分系列の長さを示す時間長が設定される。ここで、本発明の実施の形態では、時間長は時系列データx={x}のインデックスの長さで表されるものとする。ただし、時間長は、インデックスの長さに限られず、例えば、時間幅等で表されても良い。 The time length indicating the length of the partial sequence is set in the time length setting column G183. Here, in the embodiment of the present invention, it is assumed that the time length is represented by the length of the index of the time-series data x = {x t }. However, the time length is not limited to the length of the index, and may be represented by, for example, a time width or the like.

出力数設定欄G184には、ラベル付与候補抽出部106により抽出されるデータ数が設定される。   In the output number setting column G184, the number of data extracted by the label assignment candidate extraction unit 106 is set.

ここで、上記のパラメータと基準データxt´とを用いて、時系列データx={x}(t=1,・・・,T)の中からラベル付与候補を抽出する場合について説明する。なお、一例として、上記のパラメータのうち、時間長はL、出力数はNであるものとする。 Here, a case will be described in which a label assignment candidate is extracted from the time-series data x = {x t } (t = 1,..., T) using the above parameters and the reference data x t ′. . Note that, as an example, among the above parameters, the time length is L and the number of outputs is N.

まず、ラベル付与候補抽出部106は、基準データxt´を基準位置に含む時間長Lの部分系列を作成する。例えば、基準位置が「First」である場合、ラベル付与候補抽出部106は、基準データxt´が先頭にある時間長Lの部分系列を作成する。また、例えば、基準位置が「Center」である場合、ラベル付与候補抽出部106は、基準データxt´が中心にある時間長Lの部分系列(すなわち、例えば、L/2(L:偶数)番目又は(L+1)/2(L:奇数)番目に基準データxt´がある時間長Lの部分系列)を作成する。また、例えば、基準位置が「Last」である場合、ラベル付与候補抽出部106は、基準データxt´が末尾にある時間長Lの部分系列を作成する。以降では、基準データxt´が含まれる部分系列を「基準部分系列」と表す。 First, the label assignment candidate extraction unit 106 creates a subsequence having a time length L including the reference data xt ' at the reference position. For example, when the reference position is “First”, the label assignment candidate extraction unit 106 creates a subsequence having a time length L in which the reference data xt ′ is at the head. Further, for example, when the reference position is “Center”, the label assignment candidate extraction unit 106 determines that the sub-sequence of the time length L centered on the reference data xt ′ (that is, for example, L / 2 (L: even number)) A (L + 1) / 2 (L: odd) -th reference sequence xt ' with a time length L is created. Further, for example, when the reference position is “Last”, the label assignment candidate extraction unit 106 creates a subsequence having a time length L ending with the reference data xt ′ . Hereinafter, the partial sequence including the reference data xt ' is referred to as "reference partial sequence".

次に、ラベル付与候補抽出部106は、時系列データのうちのラベル付与済みでないデータを基準位置に含む時間長Lの部分系列(以降、「対象部分系列」と表す。)と、基準部分系列との距離を計算する。例えば、時系列データのうちのラベル付与済みでないデータの日時tの集合をSとすれば、例えば、ラベル付与済みでないデータを基準位置「First」に含む対象部分系列は、t∈Sとして、x,・・・,xt+L−1で表される。同様に、例えば、ラベル付与済みでないデータを基準位置「Last」に含む対象部分系列は、t∈Sとして、xt−L+1,・・・,xで表される。したがって、ラベル付与候補抽出部106は、各t∈Sについて、これらの対象部分系列と基準部分系列との距離を計算する。 Next, the label assignment candidate extracting unit 106 includes a sub-sequence having a time length L (hereinafter, referred to as a “target sub-sequence”) that includes unlabeled data in the time-series data at the reference position, and a reference sub-sequence. Calculate the distance between For example, assuming that a set of date and time t of unlabeled data in the time-series data is S, for example, a target subsequence including unlabeled data at the reference position “First” is represented by t∈S, x t, ···, represented by x t + L-1. Similarly, for example, the target partial sequence containing data that is not the label applied to the reference position "Last" as t∈S, x t-L + 1 , ···, represented by x t. Therefore, the label assignment candidate extraction unit 106 calculates the distance between these target subsequences and the reference subsequences for each t∈S.

そして、ラベル付与候補抽出部106は、基準部分系列との距離が小さい順に上位N個の対象部分系列を特定し、特定した対象部分系列の基準位置にあるデータを抽出する。これにより、ラベル付与の候補となるデータが抽出される。これは、基準部分系列と距離が小さい対象部分系列の基準位置にあるデータには、基準データと同様のラベルを付与することができる(又は基準データと同様のラベルが付与される可能性が高い)と考えられるためである。   Then, the label assignment candidate extraction unit 106 specifies the top N target subsequences in ascending order of distance from the reference subsequence, and extracts data at the reference position of the specified target subsequence. As a result, data that is a candidate for label assignment is extracted. This is because the data at the reference position of the target subsequence whose distance from the reference subsequence is small can be given the same label as the reference data (or the same label as the reference data is likely to be given). ).

ステップS107:表示制御部101は、上記のステップS106で抽出されたデータ(ラベル付与候補)で、ラベル付与候補情報欄G220に表示されているラベル付与候補情報を更新する。   Step S107: The display control unit 101 updates the label assignment candidate information displayed in the label assignment candidate information column G220 with the data (label assignment candidates) extracted in step S106.

ここで、図4に示すラベル付与候補情報欄G220には、「候補」として、上記のステップS106で抽出された上位3件のデータが表示されている。なお、「距離」は、当該データが含まれる対象部分系列と基準部分系列との距離である。また、「基準データ日時」及び「基準データラベル」は、それぞれ基準データの日時及びラベル値である。   Here, in the label assignment candidate information column G220 shown in FIG. 4, the top three data extracted in step S106 are displayed as "candidates". The “distance” is the distance between the target partial sequence including the data and the reference partial sequence. The “reference data date and time” and the “reference data label” are the date and time and the label value of the reference data, respectively.

なお、表示制御部101は、更に、上記のステップS106で抽出されたデータを示す情報を時系列データ(グラフ表示)欄G130に表示しても良い。例えば、グラフG132において、当該抽出されたデータの日時に縦線を表示したり、目立つ態様のアイコン等を表示したりしても良い。これにより、ユーザは、ラベル付与候補を示すデータがグラフG132上のどのデータであるのかを視覚的に容易に知ることができるようになる。   Note that the display control unit 101 may further display information indicating the data extracted in step S106 in the time-series data (graph display) column G130. For example, in the graph G132, a vertical line may be displayed at the date and time of the extracted data, or an icon or the like in a prominent manner may be displayed. Accordingly, the user can easily and easily know which data on the graph G132 indicates the data indicating the label assignment candidate.

ステップS108:最後に、データ出力部107は、ラベリング画面G100のデータ出力欄G190におけるユーザの操作に応じて、ラベリング後の時系列データを記憶部201から出力する。   Step S108: Finally, the data output unit 107 outputs the time-series data after labeling from the storage unit 201 in accordance with a user operation in the data output column G190 of the labeling screen G100.

ユーザは、データ出力欄G190の出力方法設定欄G191で所望の出力方法を設定した上で、出力ボタンG192を押下する操作を行うことで、この出力方法によってラベリング後の時系列データを入力することができる。ここで、ラベリング後の時系列データは、ラベル付き時系列データであっても良いし、時系列データとラベルデータとの組であっても良い。また、データ出力部107は、ラベルデータのみを出力しても良い。   The user sets a desired output method in the output method setting field G191 of the data output field G190, and then performs an operation of pressing the output button G192 to input the time-series data after labeling by this output method. Can be. Here, the time-series data after labeling may be labeled time-series data, or may be a set of time-series data and label data. Further, the data output unit 107 may output only the label data.

なお、ユーザは、出力方法設定欄G191において出力方法を設定する際に、この出力方法に応じたパラメータも設定する。例えば、出力方法として「データベースへ出力」を設定した場合には、該当のデータベースを指定又は選択する。また、例えば、出力方法として「ファイルへ出力」を設定した場合には、該当のファイルの格納先アドレス等を指定又は選択する。   When setting the output method in the output method setting column G191, the user also sets parameters according to the output method. For example, when "output to database" is set as the output method, the corresponding database is designated or selected. Further, for example, when “output to file” is set as the output method, the storage destination address of the file is specified or selected.

<ラベリング装置10のハードウェア構成>
次に、本発明の実施の形態におけるラベリング装置10のハードウェア構成について、図6を参照しながら説明する。図6は、本発明の実施の形態におけるラベリング装置10のハードウェア構成の一例を示す図である。
<Hardware configuration of labeling device 10>
Next, a hardware configuration of the labeling device 10 according to the embodiment of the present invention will be described with reference to FIG. FIG. 6 is a diagram illustrating an example of a hardware configuration of the labeling device 10 according to the embodiment of the present invention.

図6に示すように、本発明の実施の形態におけるラベリング装置10は、入力装置301と、表示装置302と、外部I/F303と、RAM(Random Access Memory)304と、ROM(Read Only Memory)305と、CPU306と、通信I/F307と、補助記憶装置308とを有する。これら各ハードウェアは、それぞれがバスBを介して通信可能に接続されている。   As shown in FIG. 6, the labeling device 10 according to the embodiment of the present invention includes an input device 301, a display device 302, an external I / F 303, a RAM (Random Access Memory) 304, and a ROM (Read Only Memory). 305, a CPU 306, a communication I / F 307, and an auxiliary storage device 308. Each of these pieces of hardware is communicably connected via a bus B.

入力装置301は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置302は、例えばディスプレイ等であり、ラベリング装置10の処理結果を表示する。   The input device 301 is, for example, a keyboard, a mouse, a touch panel, or the like, and is used by a user to input various operations. The display device 302 is, for example, a display or the like, and displays a processing result of the labeling device 10.

外部I/F303は、外部装置とのインタフェースである。外部装置には、記録媒体303a等がある。ラベリング装置10は、外部I/F303を介して、記録媒体303a等の読み取りや書き込みを行うことができる。記録媒体303aには、ラベリングプログラム100等が記録されていても良い。   The external I / F 303 is an interface with an external device. The external device includes a recording medium 303a and the like. The labeling device 10 can read and write the recording medium 303a and the like via the external I / F 303. The labeling program 100 and the like may be recorded on the recording medium 303a.

記録媒体303aとしては、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。   Examples of the recording medium 303a include a flexible disk, a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital memory card), and a USB (Universal Serial Bus) memory card.

RAM304は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM305は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ROM305には、例えば、OS(Operating System)に関する設定情報や通信ネットワークに関する設定情報等が格納されている。   The RAM 304 is a volatile semiconductor memory that temporarily stores programs and data. The ROM 305 is a nonvolatile semiconductor memory that can retain programs and data even when the power is turned off. The ROM 305 stores, for example, setting information about an OS (Operating System), setting information about a communication network, and the like.

CPU306は、ROM305や補助記憶装置308等からプログラムやデータをRAM304上に読み出して、各種の処理を実行する演算装置である。   The CPU 306 is an arithmetic unit that reads out programs and data from the ROM 305 and the auxiliary storage device 308 onto the RAM 304 and executes various processes.

通信I/F307は、ラベリング装置10を通信ネットワークに接続するためのインタフェースである。ラベリングプログラム100は、通信I/F307を介して、所定のサーバ等から取得(ダウンロード)されても良い。   The communication I / F 307 is an interface for connecting the labeling device 10 to a communication network. The labeling program 100 may be obtained (downloaded) from a predetermined server or the like via the communication I / F 307.

補助記憶装置308は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置308に格納されているプログラムやデータには、例えば、OS、アプリケーションプログラム、ラベリングプログラム100等がある。なお、記憶部201は、例えば、補助記憶装置308等により実現される。   The auxiliary storage device 308 is, for example, a hard disk drive (HDD) or a solid state drive (SSD), and is a non-volatile storage device that stores programs and data. The programs and data stored in the auxiliary storage device 308 include, for example, an OS, an application program, a labeling program 100, and the like. Note that the storage unit 201 is realized by, for example, the auxiliary storage device 308 or the like.

本発明の実施の形態におけるラベリング装置10は、図6に示すハードウェア構成を有することにより、上述した各種処理を実現することができる。なお、図6に示す例では、ラベリング装置10が1台のコンピュータで実現される場合のハードウェア構成を示したが、これに限られず、ラベリング装置10は複数台のコンピュータで実現されていても良い。   The labeling device 10 according to the embodiment of the present invention has the hardware configuration shown in FIG. 6, so that the various processes described above can be realized. In the example illustrated in FIG. 6, the hardware configuration in the case where the labeling device 10 is realized by one computer has been described. However, the present invention is not limited thereto, and the labeling device 10 may be realized by a plurality of computers. good.

<まとめ>
以上のように、本発明の実施の形態におけるラベリング装置10は、ラベリング画面G100上で、ユーザの操作によって自動又は手動で時系列データのラベリング(ラベル付与又はラベル削除)を行うことができる。特に、本発明の実施の形態におけるラベリング装置10では、時系列予測アルゴリズムにより時系列データを自動でラベリングすることができる。このため、時系列データに対して効率的なラベリングを行うことができるようになる。すなわち、時系列データに対して、高速に高い精度でラベリングを行うことができるようになる。
<Summary>
As described above, the labeling device 10 according to the embodiment of the present invention can automatically or manually label (label or delete) time-series data on the labeling screen G100 by a user operation. In particular, the labeling device 10 according to the embodiment of the present invention can automatically label time-series data using a time-series prediction algorithm. Therefore, efficient labeling can be performed on the time-series data. That is, labeling can be performed on time-series data at high speed and with high accuracy.

また、本発明の実施の形態におけるラベリング装置10は、ラベリング画面G100内に統計量情報やラベル付与候補情報等を表示する。したがって、ユーザは、これらの情報を参考にして、時系列データに対するラベリング結果が妥当か否かを確認したり、ラベルの付与漏れが無いかを確認したりすること等ができるようになる。   Further, the labeling device 10 according to the embodiment of the present invention displays statistic information, label assignment candidate information, and the like in the labeling screen G100. Therefore, the user can refer to these pieces of information to check whether the labeling result for the time-series data is appropriate or not, and to check whether there is no omission of label addition.

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。   The present invention is not limited to the above-described embodiments specifically disclosed, and various modifications and changes can be made without departing from the scope of the claims.

10 ラベリング装置
100 ラベリングプログラム
101 表示制御部
102 操作受付部
103 データ入力部
104 ラベル処理部
105 統計量計算部
106 ラベル付与候補抽出部
107 データ出力部
201 記憶部
REFERENCE SIGNS LIST 10 labeling device 100 labeling program 101 display control unit 102 operation receiving unit 103 data input unit 104 label processing unit 105 statistic calculation unit 106 labeling candidate extraction unit 107 data output unit 201 storage unit

Claims (8)

ラベリング対象の時系列データ{x}を入力する入力手段と、
複数の時系列予測アルゴリズムのうち、ユーザにより選択された1以上の時系列予測アルゴリズムを用いて、前記時系列データ{x}に含まれる1以上のデータxをラベリングするラベリング手段と、
前記ラベリングされた時系列データ{x}を出力する出力手段と、
を有することを特徴とするラベリング装置。
Input means for inputting time-series data {x t } to be labeled;
Among a plurality of time-series prediction algorithm, and labeling means for using one or more time series prediction algorithm selected by the user, labeling one or more data x t that is included in the time-series data {x t},
Output means for outputting the labeled time-series data {x t };
A labeling device comprising:
前記ラベリング手段は、
前記1以上の時系列予測アルゴリズムによって前記時系列データ{x}から予測された1以上の予測系列と、前記時系列データ{x}とを用いて、前記時系列データ{x}に含まれるデータxと1以上の前記予測系列に含まれるインデックスtの予測データの重み付け和との差と、所定の閾値との比較結果により、前記データxをラベリングする、ことを特徴とする請求項1に記載のラベリング装置。
The labeling means,
The time series data {x t } is obtained by using one or more prediction series predicted from the time series data {x t } by the one or more time series prediction algorithms and the time series data {x t }. and the difference between the weighted sum of the predicted data of the index t in the data x t and one or more of the predicted sequences included, by comparison with a predetermined threshold value, labeling the data x t, wherein the The labeling device according to claim 1.
前記ラベリング手段は、
前記時系列予測アルゴリズムによって前記時系列データ{x}から予測された予測系列{^x}の信頼区間の上限値系列{u}及び下限値系列{l}と、前記時系列データ{x}とを用いて、前記時系列データ{x}に含まれるデータxと、前記上限値系列{u}に含まれる上限値u又は前記下限値系列{l}に含まれる下限値lとの比較結果により、前記データxをラベリングする、ことを特徴とする請求項1に記載のラベリング装置。
The labeling means,
The upper limit value sequence {u t} and the lower limit value sequence {l t} confidence interval of the time-series data {x t} predicted predicted sequence from {^ x t} by the time-series prediction algorithm, the time-series data by using the {x t}, and the data x t that is included in the time-series data {x t}, the upper limit value series limit u t or the lower limit value sequence contained in {u t} {l t} the result of comparison between the lower limit value l t contained, labeling apparatus according to claim 1, wherein the labeling data x t, it is characterized.
前記時系列データ{x}に含まれるデータxのうち、ラベルが付与されていないデータxを、ラベル付与の候補として抽出する抽出手段を有する、ことを特徴とする請求項1乃至3の何れか一項に記載のラベリング装置。 The time of data x t that is included in the series data {x t}, the data x t no label is applied, claims 1 to 3 having an extraction means for extracting as a candidate for labeling, characterized in that The labeling device according to any one of claims 1 to 4. 前記抽出手段は、
ユーザにより選択されたラベル付与済みのデータが含まれる第1の部分系列と、前記時系列データ{x}に含まれる第2の部分系列との距離を計算し、該計算した距離が小さい順に、上位所定の件数の第2の部分系列の所定の位置に含まれるデータを、前記ラベル付与の候補として抽出する、ことを特徴とする請求項4に記載のラベリング装置。
The extracting means,
The distance between the first subsequence including the data with the label selected by the user and the second subsequence included in the time-series data {x t } is calculated, and the calculated distance is in ascending order. The labeling apparatus according to claim 4, wherein data included in a predetermined position of a second predetermined number of second subsequences is extracted as the label assignment candidate.
前記ラベル付与の候補と、前記ラベリングされた時系列データ{x}の所定の統計量を示す情報とが少なくとも含まれる画面を表示する表示手段を有する、ことを特徴とする請求項4又は5に記載のラベリング装置。 6. The display device according to claim 4, further comprising a display unit configured to display a screen including at least the label assignment candidate and information indicating a predetermined statistic of the labeled time-series data {x t }. The labeling device according to item 1. コンピュータが、
ラベリング対象の時系列データ{x}を入力する入力手順と、
複数の時系列予測アルゴリズムのうち、ユーザにより選択された1以上の時系列予測アルゴリズムを用いて、前記時系列データ{x}に含まれる1以上のデータxをラベリングするラベリング手順と、
前記ラベリングされた時系列データ{x}を出力する出力手順と、
を実行することを特徴とするラベリング方法。
Computer
An input procedure for inputting time-series data {x t } to be labeled;
Among a plurality of time-series prediction algorithm, and labeling procedure using one or more time series prediction algorithm selected by the user, labeling one or more data x t that is included in the time-series data {x t},
An output procedure for outputting the labeled time-series data {x t };
A labeling method.
コンピュータを、請求項1乃至6の何れか一項に記載のラベリング装置における各手段として機能させるためのプログラム。   A program for causing a computer to function as each unit in the labeling device according to claim 1.
JP2018153166A 2018-08-16 2018-08-16 Labeling device, labeling method and program Active JP7029363B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018153166A JP7029363B2 (en) 2018-08-16 2018-08-16 Labeling device, labeling method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018153166A JP7029363B2 (en) 2018-08-16 2018-08-16 Labeling device, labeling method and program

Publications (2)

Publication Number Publication Date
JP2020027540A true JP2020027540A (en) 2020-02-20
JP7029363B2 JP7029363B2 (en) 2022-03-03

Family

ID=69620438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018153166A Active JP7029363B2 (en) 2018-08-16 2018-08-16 Labeling device, labeling method and program

Country Status (1)

Country Link
JP (1) JP7029363B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7086311B1 (en) * 2021-06-15 2022-06-17 三菱電機株式会社 Program, labeling support device and labeling support method
WO2023084712A1 (en) * 2021-11-11 2023-05-19 日本電気株式会社 Information processing device, information processing method, and information processing program
WO2023170912A1 (en) * 2022-03-11 2023-09-14 日本電気株式会社 Information processing device, generation method, information processing method, and computer-readable medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005285005A (en) * 2004-03-30 2005-10-13 Toshiba Corp Plant data processing unit, processing method and program
US20060036542A1 (en) * 2004-07-09 2006-02-16 Mcnair Douglas S System and method for behavioral finance
JP2013025367A (en) * 2011-07-15 2013-02-04 Wakayama Univ Facility state monitoring method and device of the same
JP2016076073A (en) * 2014-10-06 2016-05-12 日本電気株式会社 Data processing device, data processing method, and computer program
JP6317000B1 (en) * 2017-02-20 2018-04-25 三菱電機インフォメーションシステムズ株式会社 Labeling apparatus and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005285005A (en) * 2004-03-30 2005-10-13 Toshiba Corp Plant data processing unit, processing method and program
US20060036542A1 (en) * 2004-07-09 2006-02-16 Mcnair Douglas S System and method for behavioral finance
JP2013025367A (en) * 2011-07-15 2013-02-04 Wakayama Univ Facility state monitoring method and device of the same
JP2016076073A (en) * 2014-10-06 2016-05-12 日本電気株式会社 Data processing device, data processing method, and computer program
JP6317000B1 (en) * 2017-02-20 2018-04-25 三菱電機インフォメーションシステムズ株式会社 Labeling apparatus and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7086311B1 (en) * 2021-06-15 2022-06-17 三菱電機株式会社 Program, labeling support device and labeling support method
WO2023084712A1 (en) * 2021-11-11 2023-05-19 日本電気株式会社 Information processing device, information processing method, and information processing program
WO2023170912A1 (en) * 2022-03-11 2023-09-14 日本電気株式会社 Information processing device, generation method, information processing method, and computer-readable medium

Also Published As

Publication number Publication date
JP7029363B2 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
JP7029363B2 (en) Labeling device, labeling method and program
EP2677451B1 (en) License verification method and apparatus, and computer readable storage medium storing program therefor
JP6297466B2 (en) Wholesale electricity price prediction system and wholesale electricity price prediction method
US11281726B2 (en) System and methods for faster processor comparisons of visual graph features
US20210117863A1 (en) Systems and methods for machine learning interpretability
JP5790431B2 (en) Design support apparatus, design support method, and design support program
JP6237168B2 (en) Information processing apparatus and information processing program
JP5176206B2 (en) Process state similar case search method and process control method
JP2018026060A (en) Programmable display unit, update processing apparatus, update method, information processing method, and program
CN104699408A (en) Operation method and device of touch screen and touch device
JP6582527B2 (en) Alarm prediction device, alarm prediction method and program
JP2016058027A (en) Data processing device, data processing method, and program
CN101004687A (en) Plug and install system and method
JP6358401B1 (en) Alarm prediction device, alarm prediction method, and program
US9514256B1 (en) Method and system for modelling turbulent flows in an advection-diffusion process
JP6668699B2 (en) Monitoring support device, monitoring support method, and program
JP7230439B2 (en) Information processing device and program
EP3893124A1 (en) Data management method, data management system, and program
WO2019224909A1 (en) Parameter selection method, parameter selection program, and information processing device
CN114943156A (en) Power consumption evaluation method, device, equipment, medium and product
JP6638260B2 (en) Information providing apparatus, information providing method, and program
CN111221504A (en) Synchronized operation display system and non-transitory computer readable medium
KR100585176B1 (en) Method and apparatus for determining the load of the input/output in the input/output subsystem
JP6049647B2 (en) Plant monitoring device
JP7021401B1 (en) Logging support device, logging system, logging support method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220218

R150 Certificate of patent or registration of utility model

Ref document number: 7029363

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150