JP2018136589A - ラベリング装置およびプログラム - Google Patents
ラベリング装置およびプログラム Download PDFInfo
- Publication number
- JP2018136589A JP2018136589A JP2017028611A JP2017028611A JP2018136589A JP 2018136589 A JP2018136589 A JP 2018136589A JP 2017028611 A JP2017028611 A JP 2017028611A JP 2017028611 A JP2017028611 A JP 2017028611A JP 2018136589 A JP2018136589 A JP 2018136589A
- Authority
- JP
- Japan
- Prior art keywords
- data
- label
- session
- function
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 106
- 230000006870 function Effects 0.000 claims description 102
- 238000000605 extraction Methods 0.000 claims description 28
- 238000009826 distribution Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000001133 acceleration Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 description 47
- 239000013598 vector Substances 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000004040 coloring Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】様々な分野のデータ列をより適切にラベリングすることができるラベリング装置およびプログラムを提供する。【解決手段】ラベリング装置10は、データ列を構成する複数のデータをラベリングする。ラベリング装置10は、データ列に基づいて複数のデータセッションを形成する。各データセッションは、データ列において連続する2個以上のデータを含み、隣り合うデータセッションの先頭をなすデータはデータ列において互いに1個以上隔たっている。ラベリング装置10は、各データセッションに含まれるデータに基づき各データセッションにラベルを付与し、各データセッションに付与されたラベルに基づきラベル列を形成し、同一のラベルが連続する区間の始点および終点とラベルとを出力する。【選択図】図2
Description
本発明は、ラベリング装置およびプログラムに関する。
IoT時代に突入し、様々な機器がインターネットに繋がるようになり、様々なセンサーのデータをデータ列として大量に取得することができる環境が整いつつある。このようなデータを有効に活用できれば、様々な用途において有益な結果が得られる可能性がある。
用途の一例はディープラーニング技術である。近年、大量のデータを教師データにして、認識・分類・予測などを高精度で行うディープラーニングが流行している。また、特許文献1および2にも、ラベル付きデータの列を用いた学習技術が記載されている。
しかし、大量に取得されるデータ列は、ラベルが付加されていないものが大半であり、そのままでは活用できない場合がある。たとえばディープラーニングの教師データとすることはできない。このため、データ列にラベルを付与する作業が必要となるが、そのような作業は困難な場合がある。
一例として、ディープラーニングに用いる教師データを作成するには、たとえばウェアラブルデバイスの加速度データ列であれば、装着者が何をしていたかを逐次メモしておくか、第三者が装着者を撮影し続ける必要がある。また後ほど加速度データ列とメモまたはビデオを照合して、手動でラベル付けを行う必要がある。これらの作業を数千〜万単位の人を対象にして行うことはコストがかかり過ぎるため現実的ではない。
なお、自動的にラベリングを行う技術として、隠れマルコフモデルを利用するものが公知である。たとえば特許文献3に一例が開示される。
しかしながら、従来の技術では、様々な分野のデータ列を適切にラベリングすることが困難であるという問題があった。
たとえば、特許文献3のように隠れマルコフモデルを用いた場合には、波形データのラベリングには比較的良い精度が得られる可能性があるが、波形データ以外のものに対するラベリング精度は必ずしも十分ではない場合がある。
この発明は、このような問題点を解決するためになされたものであり、様々な分野のデータ列をより適切にラベリングすることができるラベリング装置およびプログラムを提供することを目的とする。
上述の問題点を解決するため、この発明に係るラベリング装置は、データ列を構成する複数のデータをラベリングする、ラベリング装置であって、
前記データ列に基づいて複数のデータセッションを形成する、データセッション形成機能であって、各前記データセッションは、データ列において連続するn1個(ただしn1は2以上の整数)のデータを含み、隣り合うデータセッションの先頭をなすデータはデータ列において互いにu1個(ただしu1は1以上の整数)だけ隔たっている、データセッション形成機能と、
各データセッションに含まれるデータに基づき、各データセッションにラベルを付与する、データセッションラベリング機能と、
各データセッションに付与されたラベルに基づき、ラベル列を形成する、ラベル列形成機能と、
同一のラベルが連続する区間について、当該区間の始点および終点を表す情報と、当該ラベルを表す情報とを出力する、区間出力機能と
を備える。
特定の態様によれば、
前記ラベル列に基づいて複数のラベルセッションを形成する、ラベルセッション形成機能であって、各前記ラベルセッションは、ラベル列において連続するn2個のラベルを含み、隣り合うラベルセッションの先頭をなすラベルはラベル列において互いにu2個(ただしu2は1以上の整数)だけ隔たっている、ラベルセッション形成機能と、
各ラベルセッションについてラベルの確率分布を算出する、確率分布算出機能と、
前記確率分布に基づき、各ラベルセッションにラベルを付与する、ラベルセッションラベリング機能と
をさらに備える。
特定の態様によれば、前記ラベルセッションラベリング機能によって付与されるラベルの種類の数は、前記データセッションラベリング機能によって付与されるラベルの種類の数よりも小さい。
特定の態様によれば、
前記ラベル列形成機能は、各ラベルセッションに付与されたラベルに基づき、ラベル列を形成する機能を含み、
前記ラベリング装置は、
前記ラベルセッション形成機能、前記確率分布算出機能、および、前記ラベルセッションラベリング機能を含むループを、複数回実行する機能と、
前記ループの2回目以降の実行のいずれかにおいて、n2≠1またはu2≠1とする機能と、
をさらに備える。
特定の態様によれば、各前記データは、それぞれ異なる時刻における加速度を表す情報を含む。
特定の態様によれば、
p個(ただしpは2以上の整数)の物理的変量の時間的変化をそれぞれ表すデータの系列に含まれるデータを、順繰りに配置することにより前記データ列を形成する機能と、
前記データセッション形成機能におけるu1の値を、pの整数倍に決定する機能と
をさらに備える。
特定の態様によれば、
前記区間出力機能は、
ラベル列において同一のラベルが連続するラベル列抽出区間を特定する機能と、
データ列において、前記ラベル列抽出区間に対応するデータ列抽出区間を特定する機能と、
を備え、
前記始点および前記終点は、データ列における前記データ列抽出区間の始点および終点を表す。
また、この発明に係るプログラムは、コンピュータを上述のラベリング装置として機能させる。
前記データ列に基づいて複数のデータセッションを形成する、データセッション形成機能であって、各前記データセッションは、データ列において連続するn1個(ただしn1は2以上の整数)のデータを含み、隣り合うデータセッションの先頭をなすデータはデータ列において互いにu1個(ただしu1は1以上の整数)だけ隔たっている、データセッション形成機能と、
各データセッションに含まれるデータに基づき、各データセッションにラベルを付与する、データセッションラベリング機能と、
各データセッションに付与されたラベルに基づき、ラベル列を形成する、ラベル列形成機能と、
同一のラベルが連続する区間について、当該区間の始点および終点を表す情報と、当該ラベルを表す情報とを出力する、区間出力機能と
を備える。
特定の態様によれば、
前記ラベル列に基づいて複数のラベルセッションを形成する、ラベルセッション形成機能であって、各前記ラベルセッションは、ラベル列において連続するn2個のラベルを含み、隣り合うラベルセッションの先頭をなすラベルはラベル列において互いにu2個(ただしu2は1以上の整数)だけ隔たっている、ラベルセッション形成機能と、
各ラベルセッションについてラベルの確率分布を算出する、確率分布算出機能と、
前記確率分布に基づき、各ラベルセッションにラベルを付与する、ラベルセッションラベリング機能と
をさらに備える。
特定の態様によれば、前記ラベルセッションラベリング機能によって付与されるラベルの種類の数は、前記データセッションラベリング機能によって付与されるラベルの種類の数よりも小さい。
特定の態様によれば、
前記ラベル列形成機能は、各ラベルセッションに付与されたラベルに基づき、ラベル列を形成する機能を含み、
前記ラベリング装置は、
前記ラベルセッション形成機能、前記確率分布算出機能、および、前記ラベルセッションラベリング機能を含むループを、複数回実行する機能と、
前記ループの2回目以降の実行のいずれかにおいて、n2≠1またはu2≠1とする機能と、
をさらに備える。
特定の態様によれば、各前記データは、それぞれ異なる時刻における加速度を表す情報を含む。
特定の態様によれば、
p個(ただしpは2以上の整数)の物理的変量の時間的変化をそれぞれ表すデータの系列に含まれるデータを、順繰りに配置することにより前記データ列を形成する機能と、
前記データセッション形成機能におけるu1の値を、pの整数倍に決定する機能と
をさらに備える。
特定の態様によれば、
前記区間出力機能は、
ラベル列において同一のラベルが連続するラベル列抽出区間を特定する機能と、
データ列において、前記ラベル列抽出区間に対応するデータ列抽出区間を特定する機能と、
を備え、
前記始点および前記終点は、データ列における前記データ列抽出区間の始点および終点を表す。
また、この発明に係るプログラムは、コンピュータを上述のラベリング装置として機能させる。
この発明に係るラベリング装置およびプログラムによれば、様々な分野のデータ列をより適切にラベリングすることができる。
以下、この発明の実施の形態を添付図面に基づいて説明する。
実施の形態1.
図1に、本発明の実施の形態1に係るラベリング装置10の構成の例を示す。ラベリング装置10は、データ列を構成する複数のデータをラベリングする装置である。「ラベリング」の定義は当業者に周知であるが、たとえば多数のデータを複数のクラスタに分類し、各データに、そのデータが分類されたクラスタに対応するラベルを付与する処理とすることができる。
実施の形態1.
図1に、本発明の実施の形態1に係るラベリング装置10の構成の例を示す。ラベリング装置10は、データ列を構成する複数のデータをラベリングする装置である。「ラベリング」の定義は当業者に周知であるが、たとえば多数のデータを複数のクラスタに分類し、各データに、そのデータが分類されたクラスタに対応するラベルを付与する処理とすることができる。
ラベリング装置10は公知のコンピュータとしての構成を備え、演算を行う演算手段11と、情報を格納する記憶手段12とを備える。また、とくに図示しないが、ラベリング装置10は、使用者の操作を受け付ける入力手段と、情報を出力する出力手段とを備える。さらに、ラベリング装置10は、外部の通信ネットワークに対し情報の入出力を行う通信手段とを備えてもよい。
記憶手段12は、ラベリング処理の対象となるデータと、ラベリング処理に伴って生成されるデータとを格納する。また、記憶手段12は、図示しないプログラムを格納する。コンピュータの演算手段11がこのプログラムを実行することにより、そのコンピュータはラベリング装置10として機能する。すなわち、このプログラムは、コンピュータを、本明細書に記載されるラベリング装置として機能させる。また、コンピュータは、このプログラムを実行することにより、本明細書に記載される機能を実現する。
図2を用いて、図1のラベリング装置10が扱うデータ等に係る用語を説明する。複数のデータがデータ列を構成している。データ列は、所定数L個(図2の例ではL=100)のデータからなる。各データはデータ列において順序付けられている。図2の例では、先頭のデータをデータ#0、2番目のデータをデータ#1、…、末尾のデータをデータ#99として参照する。各データは、図2の例では単一の数値(スカラー量)であるが、ベクトルであってもよく、その他の形式の情報であってもよい。
ラベリング装置10は、ラベリング処理の実行に伴い、データ列に基づいて複数のデータセッションを形成する。データセッションは互いに順序関係を有し、それぞれ複数のデータを含む。図2の例では、先頭のデータセッションをデータセッション#0、2番目のデータセッションをデータセッション#1、…、末尾のデータセッションをデータセッション#30として参照する。
各データセッションのセッション幅は所定値n1(ただしn1は2以上の整数。図2の例ではn1=10)である。すなわち、各データセッションは、データ列において連続する所定数n1個のデータを含む。図2の例では合計31個のデータセッションが形成されており、これらのデータセッションがデータセッション列を構成する。
n1の値は、データセッション列に含まれるすべてのデータセッションについて同一であるが、後述のように、データセッションまたはデータセッション列を形成する処理が複数回実行される場合には、その都度変化してもよい。
データセッションは等間隔に構成され、データセッション間隔は所定値u1(ただしu1は1以上の整数。図2の例ではu1=3)である。すなわち、隣り合うデータセッションの先頭をなすデータは、データ列において互いに所定数u1個だけ隔たっている。より具体的には、データセッション#0の先頭をなすデータ(すなわちデータ#0)と、データセッション#1の先頭をなすデータ(すなわちデータ#3)とは、データ列における順序が3だけ異なっている。なお、図2の例ではu1<n1であるが、u1=n1としてもよい。また、u1=1である場合には、隣り合うデータセッションの先頭をなすデータは、互いに隣り合うことになる。
u1の値は、データセッション列において一定である(すべてのデータセッションが等間隔に配置される)が、後述のように、データセッションまたはデータセッション列を形成する処理が複数回実行される場合には、その都度変化してもよい。
ここで、形成されるデータセッションの数mは、(u1+L−n1)/u1を超えない最大の整数となる。(図2の例ではデータセッション#0〜#30の合計31個)
なお、図2および上記の説明から明らかなように、場合によってはいずれのデータセッションにも含まれないデータが存在してもよい。
ラベリング装置10は、このようなデータ列に対し、後述のラベリング処理を行い、同一のラベルが連続する区間を抽出する。ラベルは、直接的にはデータそのものではなくデータセッション等を単位として付与されるものであるが、各ラベルに対応するデータの区間をデータ列において特定することは可能である。図2の例では、「ラベル#2」というラベルが付与された連続区間に対応するデータと、「ラベル#8」というラベルが付与された連続区間に対応するデータと、「ラベル#6」というラベルが付与された連続区間に対応するデータとが、示されている。
実施の形態1に係るラベリング装置10の動作を、以下に説明する。
図3は、ラベリング装置10の処理の流れの例を示すフローチャートである。まずラベリング装置10はデータ列を取得する(ステップS1)。次に、ラベリング装置10は、データ列に基づき、複数のデータセッションを形成する(ステップS2、データセッション形成機能)。ここで、セッション幅n1およびセッション間隔u1の値は、あらかじめ指定されていてもよく、ステップS2の実行に関連して使用者から入力されてもよい。
図3は、ラベリング装置10の処理の流れの例を示すフローチャートである。まずラベリング装置10はデータ列を取得する(ステップS1)。次に、ラベリング装置10は、データ列に基づき、複数のデータセッションを形成する(ステップS2、データセッション形成機能)。ここで、セッション幅n1およびセッション間隔u1の値は、あらかじめ指定されていてもよく、ステップS2の実行に関連して使用者から入力されてもよい。
図4に、ステップS2で形成されるデータセッションにおけるデータの並びの例を示す。この例は図2のデータ列に対応する。たとえばデータセッション#0について説明すると、先頭のデータは、データ#0すなわち「5」の値を持つデータであり、2番目のデータは、データ#1すなわち「4」の値を持つデータである。
次に、ラベリング装置10は、各データセッションに含まれるデータに基づき、各データセッションにラベルを付与する(ステップS3、データセッションラベリング機能)。ラベルはどのようなものを用いてもよいが、たとえば単にクラスタリング処理に用いるクラスタを識別する番号としてもよい。この場合には、図2に示すように「ラベル#2」「ラベル#8」等のラベルが付与されることになる。なお、説明の便宜上、図4ではアルファベットの大文字を用いてラベルを表している。
また、各データセッションに付与すべきラベルを決定する処理は、当業者が任意に設計することができるが、たとえば公知のクラスタリング処理を利用してもよい。たとえば、各データセッションについて、そのデータセッションに含まれる各データを成分とするn1次元のベクトルを形成し、k−means法またはk−means++法を用いて各ベクトルをクラスタリングしてもよい。クラスタリング処理を用いる場合には、クラスタの総数はあらかじめ指定されていてもよく、クラスタリング処理の進行に伴って動的に決定または変更されてもよく、ステップS3の実行に関連して使用者から入力されてもよい。
クラスタリング処理においては、適宜の最適化処理を行ってもよい。クラスタリング処理では、通常、計算効率を向上させるため重複するベクトルを削除するが、たとえば、データの有効桁数を決定し、四捨五入などを行い、重複するベクトルを削除してもよい。このようにすることで、集合が小さくなり、より計算効率が高くなる可能性がある。一方で、分類の粒度は低くなる可能性がある。
次に、ラベリング装置10は、各データセッションに付与されたラベルに基づき、ラベル列を形成する(ステップS4、ラベル列形成機能)。たとえば、各データセッションに付与されたラベルを、データセッションの順に並べたものをラベル列とする。図4の例では、「A,B,A,C,…」という内容のラベル列が形成されることになる。
ラベル列の表現形式はどのようなものであってもよい。たとえば、各データセッションの先頭のデータに、そのデータセッションと同一のラベルを付与し、ラベルが付与されたデータのラベルをデータの順序に並べた列を形成すれば、上記と実質的に同内容のラベル列を得ることができる。または、すべてのデータに、そのデータを含むデータセッションのうち末尾にあるものと同一のラベルを付与し、データのラベルをデータの順序に並べた列を形成してもよい。(たとえば、図2のデータ#4は、データセッション#0およびデータセッション#1の2つのデータセッションに含まれるが、このうちデータセッション#1のラベルが、データ#4に付与されることになる。)このようにすると、ラベルの並びがラベルごとにn1回だけ繰り返されるラベル列を得ることができ、図4の例では、「A,A,A,B,B,B,A,A,A,C,C,C,…」という内容のラベル列が形成されることになる。
次に、ラベリング装置10は、ラベル列に基づき、複数のラベルセッションを形成する(ステップS5、ラベルセッション形成機能)。ラベル列とラベルセッションとの関係は、以下に説明するように、図2に示すデータ列とデータセッションとの関係と同一である。
図5に、ステップS5で形成されるラベルセッションにおけるラベルの並びの例を示す。この例は図4のラベル列に対応する。たとえばラベルセッション#0について説明すると、先頭のラベルは、データセッション#0のラベルすなわち「A」であり、2番目のラベルは、データセッション#1のラベルすなわち「B」である。
ラベルセッションは互いに順序関係を有し、それぞれ複数のラベルを含む。各ラベルセッションのセッション幅は所定値n2(ただしn2>0であり、たとえばn2は1以上の整数としてもよい。図5の例ではn2=5)である。すなわち、各ラベルセッションは、ラベル列において連続する所定数n2個のラベルを含む。なお、この例ではn1>n2であるが、n1=n2であってもよいし、n1<n2であってもよい。
n2の値は、ラベルセッション列に含まれるすべてのラベルセッションについて同一であるが、後述のように、ラベルセッションまたはラベルセッション列を形成する処理が複数回実行される場合には、その都度変化してもよい。
ラベルセッションは等間隔に構成され、ラベルセッション間隔は所定値u2(ただしu2は1以上の整数。図2の例ではu2=1)である。すなわち、隣り合うラベルセッションの先頭をなすラベルは、ラベル列において互いに所定数u2個だけ隔たっている。たとえばu2<n2であるが、u2=n2としてもよい。また、図5のようにu2=1である場合には、隣り合うラベルセッションの先頭をなすラベルは、互いに隣り合うことになる。
u2の値は、ラベルセッション列において一定である(すべてのラベルセッションが等間隔に配置される)が、後述のように、ラベルセッションまたはラベルセッション列を形成する処理が複数回実行される場合には、その都度変化してもよい。
次に、ラベリング装置10は、各ラベルセッションについてラベルの確率分布を算出する(ステップS6、確率分布算出機能)。図5には、各ラベルセッションにおけるラベルの確率分布も示されている。たとえばラベルセッション#0では、5つのラベルのうち2つが「A」であるので、「A」に対応する確率は0.4となる。
次に、ラベリング装置10は、ステップS6で算出された各ラベルセッションの確率分布に基づき、各ラベルセッションにラベルを付与する(ステップS7、ラベルセッションラベリング機能)。図5には、各ラベルセッションに付与されたラベルも示されている。
ラベルはどのようなものを用いてもよい。ステップS7で用いるラベル(データセッションに付与されるもの)の集合は、一般的にはステップS3で用いるラベル(ラベルセッションに付与されるもの)の集合とは異なるが、同一のものを用いてもよい。たとえば単にクラスタリング処理に用いるクラスタを識別する番号としてもよい。この場合には、図2に示すように「ラベル#2」「ラベル#8」等のラベルが付与されることになる。なお、説明の便宜上、図5ではギリシャ文字を用いてラベルを表している。
また、各ラベルセッションに付与すべきラベルを決定する処理は、当業者が任意に設計することができるが、たとえば公知のクラスタリング処理を利用してもよい。たとえば、各ラベルセッションについて、そのラベルセッションに含まれる各ラベルの出現確率を成分とするn2次元のベクトルを形成し、k−means法またはk−means++法を用いて各ベクトルをクラスタリングしてもよい。クラスタリング処理を用いる場合には、クラスタの総数はあらかじめ指定されていてもよく、クラスタリング処理の進行に伴って動的に決定または変更されてもよく、ステップS7の実行に関連して使用者から入力されてもよい。
クラスタリング処理においては、適宜の最適化処理を行ってもよい。クラスタリング処理では、通常、計算効率を向上させるため重複するベクトルを削除するが、たとえば、確率の有効桁数を決定し、四捨五入などを行い、重複するベクトルを削除してもよい。このようにすることで、集合が小さくなり、より計算効率が高くなる可能性がある。一方で、分類の粒度は低くなる可能性がある。
次に、ラベリング装置10は、同一のラベルが連続する区間に関する情報を出力する(ステップS8、区間出力機能)。より具体的には、同一のラベルが連続する区間について、当該区間の始点および終点を表す情報と、当該ラベルを表す情報とを出力する。図5の例では、ラベルセッション#1とラベルセッション#2とに同一のラベル「α」が付与されているので、この部分に関する情報が出力されることになる。そのような区間が複数存在する場合には、そのそれぞれについて情報を出力してもよい。
ステップS8において出力される、区間の始点および終点を表す情報は、任意の形式であってよいが、たとえば次のように表現することができる。
ステップS8において、まずラベリング装置10は、ラベル列において同一のラベルが連続する区間(ラベル列抽出区間)を特定する。すなわち、図5の例ではラベルセッション#1〜#2に対応する区間である。
次に、ラベリング装置10は、データ列において、そのラベル列抽出区間に対応する区間(データ列抽出区間)を特定する。この対応関係は任意に設計可能である。たとえば、ラベル列抽出区間に含まれるすべてのラベルセッションについて、連続する所定数(たとえば先頭からu2個)のデータセッションを特定し、さらに、このようにして特定されたすべてのデータセッションについて、連続する所定数(たとえば先頭からu1個)のデータを特定し、このようにして特定されたデータからなる区間をデータ列抽出区間とする。このような対応関係を用いる場合、図4および図5の例では、ラベルセッション#1〜#2に対応するデータ列抽出区間はデータ#3〜#8となり、すなわちデータ#3が始点となり、データ#8が終点となる。
または、ラベル列抽出区間に含まれるすべてのデータセッションに含まれるすべてのデータからなる区間をデータ列抽出区間としてもよい。ラベルセッション#1〜#2の区間にはデータセッション#1〜#6が含まれ、データセッション#1〜#6にはデータ#3〜#27が含まれるので、この場合にはデータ#3が始点となり、データ#27が終点となる。なお、この場合において、先頭または末尾(あるいは双方)の所定長の部分については除外するようにしてもよい。たとえば、末尾19個のデータを除外するようにすると、データ列抽出区間は上の例と同じくデータ#3〜#8となる。ここで除外すべき所定長は、n1,n2,u1,u2のうち少なくとも1つに基づいて算出されてもよい。
ラベリング装置10は、ステップS8ではこのようにして、データ列におけるそのデータ列抽出区間の始点および終点を特定し、これらを表す情報を出力する。出力される情報の表現形式は任意に設計可能であるが、数値であってもよく(たとえば「3」および「8」)、画像内の座標であってもよい。画像内の座標とする場合には、たとえば、横軸にデータ番号、縦軸にデータの値を表すグラフとし、データ列抽出区間に対応する横方向区間を特定の色に着色することによって、情報を出力してもよい。着色を用いる場合には、データ列抽出区間とそれ以外の区間とを異なる色とし、データ列抽出区間が複数存在する場合には、それぞれラベルに応じて異なる色としてもよい(ラベル#2の区間は赤に着色し、ラベル#8の区間は黄色に着色する、等)。
以上説明するように、実施の形態1に係るラベリング装置10によれば、様々な分野のデータ列を、より適切にラベリングすることができる。
たとえば、ラベルのないデータ列にパターンや特徴がある場合に、それらを自動的に認識してラベルを付与することが可能となる。また、予めデータ列に正解としてラベルが付与されている場合であっても、その適切さを検証することができる。たとえば、ある区間にわたって同一のラベルが正解として(たとえば手動で)付与されているが、実際にはその区間の前半と後半とで異なる特徴が見いだされる場合等には、本発明によるラベリング装置10により、特徴が異なる区間に異なるラベルが付与される可能性がある。または、たとえば、よく似た特徴を示す区間に、互いに異なるラベルが正解として付与されている場合等には、本発明によるラベリング装置10により、それらの区間に共通するラベルが付与される可能性がある。
ラベリングの結果は、たとえばディープラーニングに用いる教師データとして利用することが可能である。
データ列の内容は任意であるが、たとえば加速度の時系列データであってもよい。言い換えると、各データは、それぞれ異なる時刻における加速度を表す情報を含んでもよい。時系列データの場合には、データの並びに意味があるので、ステップS3のようなデータの並びに基づくラベリング処理を行うことにより、より適切なラベリングが可能となる。
また、k−means法またはk−means++法によるクラスタリング処理を用いる場合には、隠れマルコフモデルを用いる従来技術と比較して、より広範な種類のデータに対応可能である。たとえば、楽譜やDNA配列等からもパターン(同一のラベルが連続する区間)を抽出できる可能性がある。
実施の形態1において、以下のような変形を施すことができる。
実施の形態1では、1回目のラベリング処理(ステップS3)はデータの並びに基づき、2回目のラベリング処理(ステップS7)はラベルの確率分布に基づいて行われる。変形例として、ラベリング処理の回数および内容を変更してもよい。このような変形例について、以下に具体的に説明する。
実施の形態1では、1回目のラベリング処理(ステップS3)はデータの並びに基づき、2回目のラベリング処理(ステップS7)はラベルの確率分布に基づいて行われる。変形例として、ラベリング処理の回数および内容を変更してもよい。このような変形例について、以下に具体的に説明する。
一例として、確率分布に基づくラベリング処理を省略してもよい。たとえばステップS4〜S7を省略してもよい。
別の例として、データの並びに基づくラベリング処理を省略してもよい。たとえばステップS3において、各データセッションに含まれる各データの値の出現確率を成分とするn1次元のベクトルを形成し、k−means法またはk−means++法を用いて各ベクトルをクラスタリングしてもよい。その場合には、ステップS4〜S7を省略してもよい。
追加のラベリング処理を実行してもよい。たとえば、ステップS7で付与されるラベルに基づき、さらにそのラベルについてステップS4〜S7の処理を実行してもよい。この場合には、ステップS4のラベル列形成機能は、各ラベルセッションに付与されたラベルに基づき、さらに別のラベル列を形成する機能を含むことになる。
このようなステップS4〜S7の処理は、任意の回数だけループして実行させることもできる。さらに、その場合において、n2の値またはu2の値を変化させてもよい。言い換えると、ラベリング装置10は、ステップS5のラベルセッション形成機能、ステップS6の確率分布算出機能、および、ステップS7のラベルセッションラベリング機能を含むループを、複数回実行する機能をさらに備えてもよい。
さらに、ラベリング装置10は、このようなループの実行(とくに2回目以降の実行)のいずれかにおいて、n2≠1またはu2≠1としてもよい。たとえばn2>1またはu2>1としてもよい。
たとえば、2回目以降の実行のいずれかにおいて、n2=1とした場合には、1つのラベルセッションに対応する区間に含まれるデータの数は変わらないが、n2>1とした場合には、1つのラベルセッションに対応する区間に含まれるデータの数が増加することになり、より規模の大きい特徴を重視したラベリング処理が行われる可能性がある。
また、2回目以降の実行のいずれかにおいて、u2=1とした場合には、隣り合うラベルセッションに対応する区間に含まれるデータの重複部分が比較的大きくなるが、u2>1とした場合には、隣り合うラベルセッションに対応する区間に含まれるデータの重複部分が比較的小さくなる。これによって、たとえば計算量が減少する可能性がある。
このような追加のラベリング処理は、ステップS8の後に配置してもよい。すなわち、特定されたデータ列抽出区間に基づいて各データにラベルを付与し(データ列抽出区間に属しないデータについては、いずれのデータ列抽出区間にも属しないことを表すラベルを付与する)、そのラベルに基づいてステップS4〜S7の処理を実行してもよい。
各ラベリング処理におけるラベルの種類の数(たとえばクラスタリング処理におけるクラスタの数)は、任意に設計可能であるが、処理が進むにつれて減少するように設計してもよい。たとえば、ステップS7のラベルセッションラベリング機能によって付与されるラベルの種類の数は、ステップS3のデータセッションラベリング機能によって付与されるラベルの種類の数より小さくなるようにしてもよい。また、ステップS7のラベルセッションラベリング機能が複数回実行される場合には、後に実行される処理において付与されるラベルの種類の数が、先に実行される処理において付与されるラベルの種類の数より小さくなるようにしてもよい。このようにすると、小さい特徴が集合してより大きい特徴を構成するような構造のデータ列について、より適切にラベリングを行うことができる。
実施の形態1では、データ列は1種類であるが、2以上の異なる種類のデータの系列を混合したデータ列を扱うこともできる。たとえば、加速度の系列(a1,a2,a3,…)と、角速度の系列(b1,b2,b3,…)とについて、これらを交互に配置することによりデータ列(a1,b1,a2,b2,a3,b3,…)を形成する処理を実行してもよい。さらに別の物理量の系列(c1,c2,c3,…)が存在する場合には、3つの系列のデータを順繰りに配置することにより、データ列(a1,b1,c1,a2,b2,c2,a3,b3,c3,…)を形成する処理を実行してもよい。このようなデータ列を形成する処理は、たとえばステップS1の後、ステップS2の前に挿入可能である。
より一般的に言い換えると、ラベリング装置10は、p個(ただしpは2以上の整数)の物理的変量の時間的変化をそれぞれ表すデータの系列に含まれるデータを、順繰りに配置することによりデータ列を形成してもよい。ここで「順繰りに配置する」とは、たとえば、系列間で対応する位置にあるデータを、特定の順序で配置し、これを各位置について繰り返すことをいう。系列の数が2である場合には交互に配置することになる。なお、このような場合には、異なる系列の同じ位置にあるデータは、同じ時刻に対応するデータであることが好ましい。
なお、そのような場合には、各データセッションにおいて対応する位置のデータが同じ物理量を表すようにデータセッションを形成すると好適である。たとえば、2種類のデータの系列を用いる場合には、u1を偶数とすると好適である。言い換えると、ラベリング装置10は、データセッション形成機能におけるu1の値を、pの整数倍に決定してもよい。同様に、n1も偶数とするとさらに好適である。
ステップS2およびS5において、一部のデータまたはラベルをセッションから除外する処理を行ってもよい。たとえば、データ列またはラベル列の一部が特定のラベルに対応することがわかっている場合には、その部分についてはセッションを形成する必要はない(その場合には、その部分について、別途ステップS8の出力処理を実行してもよい)。
10 ラベリング装置、S2 データセッション形成機能、S3 データセッションラベリング機能、S4 ラベル列形成機能、S5 ラベルセッション形成機能、S6 確率分布算出機能、S7 ラベルセッションラベリング機能、S8 区間出力機能。
上述の問題点を解決するため、この発明に係るラベリング装置は、データ列を構成する複数のデータをラベリングする、ラベリング装置であって、
前記データ列に基づいて複数のデータセッションを形成する、データセッション形成機能であって、各前記データセッションは、データ列において連続するn1個(ただしn1は2以上の整数)のデータを含み、隣り合うデータセッションの先頭をなすデータはデータ列において互いにu1個(ただしu1は1以上の整数)だけ隔たっている、データセッション形成機能と、
各データセッションに含まれるデータに基づき、各データセッションにラベルを付与する、データセッションラベリング機能と、
各データセッションに付与されたラベルに基づき、ラベル列を形成する、ラベル列形成機能と、
同一のラベルが連続する区間について、当該区間の始点および終点を表す情報と、当該ラベルを表す情報とを出力する、区間出力機能と、
前記ラベル列に基づいて複数のラベルセッションを形成する、ラベルセッション形成機能であって、各前記ラベルセッションは、ラベル列において連続するn2個のラベルを含み、隣り合うラベルセッションの先頭をなすラベルはラベル列において互いにu2個(ただしu2は1以上の整数)だけ隔たっている、ラベルセッション形成機能と、
各ラベルセッションについてラベルの確率分布を算出する、確率分布算出機能と、
前記確率分布に基づき、各ラベルセッションにラベルを付与する、ラベルセッションラベリング機能と
を備える。
特定の態様によれば、前記ラベルセッションラベリング機能によって付与されるラベルの種類の数は、前記データセッションラベリング機能によって付与されるラベルの種類の数よりも小さい。
特定の態様によれば、
前記ラベル列形成機能は、各ラベルセッションに付与されたラベルに基づき、ラベル列を形成する機能を含み、
前記ラベリング装置は、
前記ラベルセッション形成機能、前記確率分布算出機能、および、前記ラベルセッションラベリング機能を含むループを、複数回実行する機能と、
前記ループの2回目以降の実行のいずれかにおいて、n2≠1またはu2≠1とする機能と、
をさらに備える。
特定の態様によれば、各前記データは、それぞれ異なる時刻における加速度を表す情報を含む。
特定の態様によれば、
p個(ただしpは2以上の整数)の物理的変量の時間的変化をそれぞれ表すデータの系列に含まれるデータを、順繰りに配置することにより前記データ列を形成する機能と、
前記データセッション形成機能におけるu1の値を、pの整数倍に決定する機能と
をさらに備える。
特定の態様によれば、
前記区間出力機能は、
ラベル列において同一のラベルが連続するラベル列抽出区間を特定する機能と、
データ列において、前記ラベル列抽出区間に対応するデータ列抽出区間を特定する機能と、
を備え、
前記始点および前記終点は、データ列における前記データ列抽出区間の始点および終点を表す。
また、この発明に係るプログラムは、コンピュータを上述のラベリング装置として機能させる。
前記データ列に基づいて複数のデータセッションを形成する、データセッション形成機能であって、各前記データセッションは、データ列において連続するn1個(ただしn1は2以上の整数)のデータを含み、隣り合うデータセッションの先頭をなすデータはデータ列において互いにu1個(ただしu1は1以上の整数)だけ隔たっている、データセッション形成機能と、
各データセッションに含まれるデータに基づき、各データセッションにラベルを付与する、データセッションラベリング機能と、
各データセッションに付与されたラベルに基づき、ラベル列を形成する、ラベル列形成機能と、
同一のラベルが連続する区間について、当該区間の始点および終点を表す情報と、当該ラベルを表す情報とを出力する、区間出力機能と、
前記ラベル列に基づいて複数のラベルセッションを形成する、ラベルセッション形成機能であって、各前記ラベルセッションは、ラベル列において連続するn2個のラベルを含み、隣り合うラベルセッションの先頭をなすラベルはラベル列において互いにu2個(ただしu2は1以上の整数)だけ隔たっている、ラベルセッション形成機能と、
各ラベルセッションについてラベルの確率分布を算出する、確率分布算出機能と、
前記確率分布に基づき、各ラベルセッションにラベルを付与する、ラベルセッションラベリング機能と
を備える。
特定の態様によれば、前記ラベルセッションラベリング機能によって付与されるラベルの種類の数は、前記データセッションラベリング機能によって付与されるラベルの種類の数よりも小さい。
特定の態様によれば、
前記ラベル列形成機能は、各ラベルセッションに付与されたラベルに基づき、ラベル列を形成する機能を含み、
前記ラベリング装置は、
前記ラベルセッション形成機能、前記確率分布算出機能、および、前記ラベルセッションラベリング機能を含むループを、複数回実行する機能と、
前記ループの2回目以降の実行のいずれかにおいて、n2≠1またはu2≠1とする機能と、
をさらに備える。
特定の態様によれば、各前記データは、それぞれ異なる時刻における加速度を表す情報を含む。
特定の態様によれば、
p個(ただしpは2以上の整数)の物理的変量の時間的変化をそれぞれ表すデータの系列に含まれるデータを、順繰りに配置することにより前記データ列を形成する機能と、
前記データセッション形成機能におけるu1の値を、pの整数倍に決定する機能と
をさらに備える。
特定の態様によれば、
前記区間出力機能は、
ラベル列において同一のラベルが連続するラベル列抽出区間を特定する機能と、
データ列において、前記ラベル列抽出区間に対応するデータ列抽出区間を特定する機能と、
を備え、
前記始点および前記終点は、データ列における前記データ列抽出区間の始点および終点を表す。
また、この発明に係るプログラムは、コンピュータを上述のラベリング装置として機能させる。
Claims (8)
- データ列を構成する複数のデータをラベリングする、ラベリング装置であって、
前記データ列に基づいて複数のデータセッションを形成する、データセッション形成機能であって、各前記データセッションは、データ列において連続するn1個(ただしn1は2以上の整数)のデータを含み、隣り合うデータセッションの先頭をなすデータはデータ列において互いにu1個(ただしu1は1以上の整数)だけ隔たっている、データセッション形成機能と、
各データセッションに含まれるデータに基づき、各データセッションにラベルを付与する、データセッションラベリング機能と、
各データセッションに付与されたラベルに基づき、ラベル列を形成する、ラベル列形成機能と、
同一のラベルが連続する区間について、当該区間の始点および終点を表す情報と、当該ラベルを表す情報とを出力する、区間出力機能と
を備える、ラベリング装置。 - 前記ラベル列に基づいて複数のラベルセッションを形成する、ラベルセッション形成機能であって、各前記ラベルセッションは、ラベル列において連続するn2個のラベルを含み、隣り合うラベルセッションの先頭をなすラベルはラベル列において互いにu2個(ただしu2は1以上の整数)だけ隔たっている、ラベルセッション形成機能と、
各ラベルセッションについてラベルの確率分布を算出する、確率分布算出機能と、
前記確率分布に基づき、各ラベルセッションにラベルを付与する、ラベルセッションラベリング機能と
をさらに備える、請求項1の記載のラベリング装置。 - 前記ラベルセッションラベリング機能によって付与されるラベルの種類の数は、前記データセッションラベリング機能によって付与されるラベルの種類の数よりも小さい、請求項2に記載のラベリング装置。
- 前記ラベル列形成機能は、各ラベルセッションに付与されたラベルに基づき、ラベル列を形成する機能を含み、
前記ラベリング装置は、
前記ラベルセッション形成機能、前記確率分布算出機能、および、前記ラベルセッションラベリング機能を含むループを、複数回実行する機能と、
前記ループの2回目以降の実行のいずれかにおいて、n2≠1またはu2≠1とする機能と、
をさらに備える、
請求項2または3に記載のラベリング装置。 - 各前記データは、それぞれ異なる時刻における加速度を表す情報を含む、請求項1〜4のいずれか一項に記載のラベリング装置。
- p個(ただしpは2以上の整数)の物理的変量の時間的変化をそれぞれ表すデータの系列に含まれるデータを、順繰りに配置することにより前記データ列を形成する機能と、
前記データセッション形成機能におけるu1の値を、pの整数倍に決定する機能と
をさらに備える、請求項1〜5のいずれか一項に記載のラベリング装置。 - 前記区間出力機能は、
ラベル列において同一のラベルが連続するラベル列抽出区間を特定する機能と、
データ列において、前記ラベル列抽出区間に対応するデータ列抽出区間を特定する機能と、
を備え、
前記始点および前記終点は、データ列における前記データ列抽出区間の始点および終点を表す、
請求項1〜6のいずれか一項に記載のラベリング装置。 - コンピュータを、請求項1〜7のいずれか一項に記載のラベリング装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017028611A JP6317000B1 (ja) | 2017-02-20 | 2017-02-20 | ラベリング装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017028611A JP6317000B1 (ja) | 2017-02-20 | 2017-02-20 | ラベリング装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6317000B1 JP6317000B1 (ja) | 2018-04-25 |
JP2018136589A true JP2018136589A (ja) | 2018-08-30 |
Family
ID=62069310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017028611A Expired - Fee Related JP6317000B1 (ja) | 2017-02-20 | 2017-02-20 | ラベリング装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6317000B1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10318890B1 (en) * | 2018-05-23 | 2019-06-11 | Cognitive Systems Corp. | Training data for a motion detection system using data from a sensor device |
JP7029363B2 (ja) * | 2018-08-16 | 2022-03-03 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | ラベリング装置、ラベリング方法及びプログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003233625A (ja) * | 2002-02-06 | 2003-08-22 | Ntt Docomo Inc | 状況認識装置、状況認識方法 |
JP2006058874A (ja) * | 2004-08-20 | 2006-03-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
JP2006338373A (ja) * | 2005-06-02 | 2006-12-14 | Toshiba Corp | 多変数時系列データ分析装置、方法およびプログラム |
JP2009277136A (ja) * | 2008-05-16 | 2009-11-26 | Mitsubishi Electric Corp | 類似度分析評価システム |
JP2012117987A (ja) * | 2010-12-03 | 2012-06-21 | Hitachi Ltd | データ処理方法、データ処理システム、及びデータ処理装置 |
WO2012173027A1 (ja) * | 2011-06-13 | 2012-12-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびコンピュータプログラム |
WO2015145626A1 (ja) * | 2014-03-26 | 2015-10-01 | 株式会社日立製作所 | 時系列データ管理方法及び時系列データ管理システム |
-
2017
- 2017-02-20 JP JP2017028611A patent/JP6317000B1/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003233625A (ja) * | 2002-02-06 | 2003-08-22 | Ntt Docomo Inc | 状況認識装置、状況認識方法 |
JP2006058874A (ja) * | 2004-08-20 | 2006-03-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
JP2006338373A (ja) * | 2005-06-02 | 2006-12-14 | Toshiba Corp | 多変数時系列データ分析装置、方法およびプログラム |
JP2009277136A (ja) * | 2008-05-16 | 2009-11-26 | Mitsubishi Electric Corp | 類似度分析評価システム |
JP2012117987A (ja) * | 2010-12-03 | 2012-06-21 | Hitachi Ltd | データ処理方法、データ処理システム、及びデータ処理装置 |
WO2012173027A1 (ja) * | 2011-06-13 | 2012-12-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびコンピュータプログラム |
WO2015145626A1 (ja) * | 2014-03-26 | 2015-10-01 | 株式会社日立製作所 | 時系列データ管理方法及び時系列データ管理システム |
Also Published As
Publication number | Publication date |
---|---|
JP6317000B1 (ja) | 2018-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kong et al. | Deep sequential context networks for action prediction | |
TWI703458B (zh) | 資料處理模型構建方法、裝置、伺服器和用戶端 | |
JP6639700B2 (ja) | マルチモーダルデジタル画像を生成する方法及びシステム | |
CN107680580B (zh) | 文本转换模型训练方法和装置、文本转换方法和装置 | |
US10942711B2 (en) | Information processing method and information processing apparatus | |
WO2021027256A1 (zh) | 处理交互序列数据的方法及装置 | |
US10719741B2 (en) | Sensory information providing apparatus, video analysis engine, and method thereof | |
CN110245257B (zh) | 推送信息的生成方法及装置 | |
CN106384083A (zh) | 一种自动面部表情识别并进行信息推荐的方法 | |
CN110276456A (zh) | 一种机器学习模型辅助构建方法、系统、设备及介质 | |
CN112307974B (zh) | 跨数据信息知识模态的用户行为内容编解码方法 | |
US20200151561A1 (en) | Signal generation device, signal generation learning device, method, and program | |
JP6317000B1 (ja) | ラベリング装置およびプログラム | |
US20200184341A1 (en) | Program, information processing method, and information processing apparatus | |
CN103853792B (zh) | 一种图片语义自动标注方法与系统 | |
CN115374189B (zh) | 基于区块链的食品安全溯源方法、装置及设备 | |
CN110598869A (zh) | 基于序列模型的分类方法、装置、电子设备 | |
CN111191503A (zh) | 一种行人属性识别方法、装置、存储介质及终端 | |
CN113342489A (zh) | 任务处理方法及装置、电子设备和存储介质 | |
CN114140814A (zh) | 情绪识别能力的训练方法、装置及电子设备 | |
JP7287699B2 (ja) | 機械学習を通じての学習モデルを使った情報提供方法および装置 | |
Trinh et al. | Discovering contexts from observed human performance | |
CN108280746B (zh) | 一种基于双向循环神经网络的产品设计方法 | |
CN113591472A (zh) | 歌词生成方法、歌词生成模型训练方法、装置及电子设备 | |
KR102549937B1 (ko) | Sns 텍스트 기반의 사용자의 인테리어 스타일 분석 모델 제공 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180320 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6317000 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |