JP6181602B2 - ラベリング装置、ラベリング方法およびラベリングプログラム - Google Patents

ラベリング装置、ラベリング方法およびラベリングプログラム Download PDF

Info

Publication number
JP6181602B2
JP6181602B2 JP2014119114A JP2014119114A JP6181602B2 JP 6181602 B2 JP6181602 B2 JP 6181602B2 JP 2014119114 A JP2014119114 A JP 2014119114A JP 2014119114 A JP2014119114 A JP 2014119114A JP 6181602 B2 JP6181602 B2 JP 6181602B2
Authority
JP
Japan
Prior art keywords
label
calculation target
limit value
label set
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014119114A
Other languages
English (en)
Other versions
JP2015232781A (ja
Inventor
靖宏 藤原
靖宏 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014119114A priority Critical patent/JP6181602B2/ja
Publication of JP2015232781A publication Critical patent/JP2015232781A/ja
Application granted granted Critical
Publication of JP6181602B2 publication Critical patent/JP6181602B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ラベリング装置などに関する。
データポイントと、データポイント間の類似度からなるグラフにおいて、ラベルが付与されているデータポイントに基づき、ラベルが付与されていないデータポイントへラベルを付与する、半教師あり学習という技術がある。半教師あり学習は、機械学習において注目が集まっている技術の一つであり、様々な手法が提案されている。例えば、Label Propagationは、半教師あり学習において用いられる手法の一つである。
Dengyong Zhou,Olivier Bousquet,Thomas Navin Lal,JasonWeston,and Bernhard Schoelkopf,"Learning with Local and Global Consistency",Max Plank Institute for Biological Cybernetics,Germany,2003
上述の従来技術におけるLabel Propagationは、同じクラスタに属するデータポイントは同じ意味的なラベルを共有するという前提に基づき、データポイントへラベル付与をおこなう。具体的には、Label Propagationは、大量のデータポイントによって明らかになるクラスタ構造に基づき、ラベルが付与されたデータポイントからラベルが付与されていないデータポイントへスコアを伝搬させてラベル付与をおこなう。このため、Label Propagationは、データポイントの数が多いほど、より高い精度でラベル付与をおこなうことができる。
一方、Label Propagationは、データポイントの数が多いほど計算コストが高くなるという問題がある。すなわち、ラベル付与に用いるスコアは、コスト関数と呼ばれる関数を最小化する値に対応する。コスト関数に対する最適解は、データポイントから構成されるグラフ(例えばk-NN(k-Nearest Neighbor algorithm)グラフなど)の隣接行列の逆行列から求めることができる。
ここで、nをデータポイントの数とすると、グラフの隣接行列の大きさはO(n)のオーダであるため、逆行列を求めるにはO(n)の計算コストが必要になる。その結果、cをラベルの数とすると、データポイントへラベル付与をおこなうためには、O(n+cn)のオーダの計算コストが必要となる。そのため、データポイントの数が多くなると、ラベル付与の効率が低下する。なお、O(*)は、ランダウ記号である。
そこで、Label Propagationは、高速にスコア計算を行うために、ベキ乗法を用いてスコアを繰り返し計算する。ベキ乗法によるスコア計算は、最適スコアに収束する性質を有する。しかし、繰り返し計算はスコアの残差が事前に設定した値より小さくなると終了するため、ベキ乗法により計算されたスコアは残差を含む。よって、ベキ乗法により計算されたスコアは、理論的スコアから乖離するため、ラベル付与の精度に問題がある。
本願が開示する実施形態の一例は、上記に鑑みてなされたものであって、ラベルが付与されていないデータポイントへラベルを高速かつ精度よく付与することを目的とする。
本願が開示する実施形態の一例は、データポイントと、初期ラベル集合との入力を受け付ける。そして、実施形態の一例は、各データポイントに対する計算対象のラベル集合が含むラベルごとの所定スコアの下限値および上限値について、0回目の計算対象のラベル集合が含むラベルごとの所定スコアの下限値および上限値を、計算対象のラベル集合を初期ラベル集合として計算する。そして、実施形態の一例は、t回目(tは自然数)の計算対象のラベル集合が含むラベルごとの所定スコアの下限値および上限値を(t−1)回目の計算対象のラベル集合が含むラベルごとの所定スコアの下限値および上限値に基づき再帰的に計算する処理と、再帰的に計算したt回目の計算対象のラベル集合が含むラベルごとの所定スコアの下限値および上限値に対して、所定条件を満たすt回目の計算対象のラベル集合が含むラベルを(t+1)回の計算対象のラベル集合へ追加し、所定条件を満たさないt回目の計算対象のラベル集合が含むラベルを(t+1)回の計算対象のラベル集合への追加対象から除外する処理との各処理をt回目の計算対象のラベル集合もしくは(t+1)回の計算対象のラベル集合が空集合となるまでtについて再帰的に繰り返す。
本願が開示する実施形態の一例によれば、例えば、ラベルが付与されていないデータポイントへラベルを高速かつ精度よく付与することができる。
図1は、定義1を示す図である。 図2は、補助定理1を示す図である。 図3は、補助定理2を示す図である。 図4は、補助定理3を示す図である。 図5は、定義2を示す図である。 図6は、補助定理4を示す図である。 図7は、補助定理5を示す図である。 図8は、補助定理6を示す図である。 図9は、補助定理7を示す図である。 図10は、補助定理8を示す図である。 図11は、定義3を示す図である。 図12は、補助定理9を示す図である。 図13は、補助定理10を示す図である。 図14は、補助定理11を示す図である。 図15は、定理1を示す図である。 図16は、定理2を示す図である。 図17は、ラベリング装置の構成の一例を示すブロック図である。 図18は、ラベル付与処理の一例を示すフローチャートである。 図19は、ラベル付与処理アルゴリズムの一例を示す図である。 図20は、ラベル付与プログラムを実行するコンピュータの一例を示す図である。
実施形態の説明に先立ち、以下の説明で用いる主な記号の定義、従来手法の数理的背景の説明、実施形態の数理的背景の説明をおこなう。その後、実施形態を説明する。
[主な記号の定義]
実施形態で用いる主な記号を下表に示す。以下、従来手法の数理的背景、実施形態の数理的背景、実施形態の各説明において、同一の記号を用いる。
Figure 0006181602
[従来手法の数理的背景]
以下、従来手法の数理的背景を説明する。データポイントの集合XをX={X,・・・,X,Xm+1,・・・,X}(nは、Xの要素数、1<m<n)、ラベルの集合L={l,・・・,l}(cはLの要素数)とする。以下、Lを「初期ラベル集合」と呼ぶ。ここで、Xの部分集合{X,・・・,X}をラベル付与済みのデータポイントの集合とし、X\{X,・・・,X}={Xm+1,・・・,X}を、ラベル未付与のデータポイントの集合とする。従来手法であるLabel Propagationは、以下に述べる手順で、ラベル未付与のデータポイントに対してラベル付与する。
まず、データポイントの集合Xがノード集合Vに対応する、すなわちV=XとなるグラフG={V,E}を構築する。グラフGは、データポイントをノードとする。Eは、エッジの集合であり、各エッジの重みが、例えばデータポイント間の類似度に対応する。
グラフ構築の手法として種々の手法を用いることができるが、k−NN(k-Nearest Neighbor algorithm)グラフを用いるとする。k−NNグラフにおいて、2つのノードがk近傍であれば、この2つのノード間のエッジは無向エッジとなる。そのため、k−NNグラフは、対称グラフとなる。また、k−NNグラフにおけるエッジ数はO(n)のオーダである。なお、O(*)は、ランダウ記号である。
一般的に、エッジの重みは、ガウシアンカーネル(Gaussian Kernel)を用いて計算される。すなわち、データポイントxとxの間のエッジの重みWijは、これらのデータポイントがk近傍であればWij=exp{−||x−x||/2σ}となり、k近傍でなければWij=0となる。Wijは、k−NNグラフにおけるn×nの隣接行列Wのij成分となる。なお、||*||はLノルムであり、σはハイパーパラメータである。
そして、ラベル未付与のデータポイントに対して付与するラベルを決定するために、各データポイントのスコアを計算する。Label Propagationにおいて、ラベルのスコアは、後述するコスト関数を最小化する最適解として定義される。
n×cの行列F(以下、行列Fを分類行列と呼ぶ)は、各データポイントにおけるラベルごとのスコアを保持する。分類行列Fは、ラベル付与済みのデータポイントからラベル未付与のデータポイントへ、スコアを伝搬させてラベル付与するために用いられる。
そして、n×cの初期ラベル行列Yの各成分は、初期値として、データポイントxへy(x)=lとラベル付与されていればYij=1であり、ラベル付与されていなければYij=0である。ベクトルFを分類行列Fにおける第i行ベクトルとし、ベクトルYを初期ラベル行列Yにおける第i行ベクトルとすると、F=[F,F,・・・,Fであり、Y=[Y,Y,・・・,Yである。ただし、*は、行列もしくはベクトルの転置を表す。
分類行列Fに関するコスト関数C(F)は、式(1)のように定義される。コスト関数C(F)は、ラベルの推定の精度を向上させるように定義される。
Figure 0006181602
コスト関数C(F)の右辺第1項は、近傍のデータポイントであれば類似スコアを有するという条件に対応し、右辺第2項は最終的なラベリング結果が最初の付与ラベルと類似するという条件に対応する。コスト関数C(F)を最小にする最適スコアを与える分類行列Fは、式(2)のようになる。
Figure 0006181602
ここで、ラベルlに対応する分類行列Fの第i列ベクトルをベクトルf(1≦i≦c)とする。また、データポイントxに対応するベクトルfのi番目の要素をf(x|l)とする。データポイントxのラベルy(x)は、式(3)により求める。
Figure 0006181602
式(2)は、ラベルのスコアを求めるためには、逆行列の計算が必要であることを示す。分類行列Fは、行列(I−αS)−1と初期ラベル行列Yの行列積である。行列(I−αS)はn×nであることから、逆行列(I−αS)−1の計算は、O(n)のオーダの計算コストが必要となる。また、逆行列(I−αS)−1はn×nであり、初期ラベル行列Yはn×cであるため、行列(I−αS)−1と初期ラベル行列Yの行列積の計算は、O(cn)のオーダの計算コストが必要となる。よって、分類行列Fの計算は、O(n+cn)のオーダの計算コストが必要となる。すなわち、従来手法であるLabel Propagationは、O(n+cn)という非常に高い計算コストを必要とする。
そこで、Label Propagationは、ラベリングの計算速度を向上させるために、ベキ乗法を用いて分類行列Fを求める。Label Propagationにおいてベキ乗法を用いる手法は、標準的な手法となっている。ベキ乗法を用いて分類行列Fを求める手法は、式(4)において、分類行列Fを求める際のt回目の繰り返し計算における行列Fを、tについて再帰的に更新することにより求める。
Figure 0006181602
式(4)に基づき、ベキ乗法により行列Fにおいてt→∞とすると、Fは収束し、最適な分類行列Fになるという性質、すなわちF=Fとなる性質がある。しかし、実際は、ベキ乗法による分類行列Fの計算は、スコアの残差が所定値以下となるまで、有限回だけ繰り返されるに過ぎない。よって、ベキ乗法による分類行列Fの計算結果は、残差を含んだ結果となり、理論的に最適な分類行列Fから乖離する。このため、ラベル付与済みのデータポイントからラベル未付与のデータポイントへ、ベキ乗法により計算された分類行列Fによりスコアを伝搬させてラベル付与すると、ラベル付与の精度が低くなるというデメリットがある。
[実施形態の数理的背景]
次に、実施形態の数理的背景を説明する。実施形態は、全てのラベルに対して収束するまでスコアを計算するベキ乗法による従来手法とは異なり、全てのラベルに対してスコアを計算することはおこなわず、ラベルに対して選択的にスコアを計算する。実施形態における計算対象とラベルの選択は、ラベルのスコアの下限値と上限値を用いておこなう。
実施形態は、式(4)におけるt回目の繰り返し計算(t=0,1,2,・・・)における計算対象のラベル集合Lに対する下限値と上限値を計算する。ラベル集合Lの求め方については後述する。yを初期ラベル行列Yにおける第i列ベクトルとし、y(x|l)をベクトルyにおけるi番目の要素とする。ここで、ベクトルyは、初期値としてlとラベル付与されるデータポイントxのスコアに対応する。また、y(x|l)=Yijは、ラベルlに対するデータポイントxの初期ラベルのスコアに対応する。
ラベルのスコアの下限値と上限値を求めるために、ラベル付与済みのデータポイントからラベル未付与のデータポイントへ、スコアを伝搬させるための伝搬スコアp(x|l)を用いる。データポイントxのラベルlのt回目の繰り返し計算における伝搬スコアp(x|l)は、式(5)に基づき計算される。
Figure 0006181602
式(5)は、伝搬スコアは、t=0であればデータポイントxの初期ラベルのスコアに初期化され、t≠0であればk−NNグラフにおけるn×nの隣接行列Wの正規化行列S(表1参照)を用い、1つ前の繰り返し計算の結果から逐次的に更新されることを示す。ただし、Sijは正規化行列Sのij成分である。そして、データポイントxのラベルlに対するスコアの下限値は、伝搬スコアp(x|l)を用いて、図1の定義1における式(6)に基づき計算される。
そして、下記の(A)が成り立つことを示す前に、補助定理1および補助定理2が成り立つことを示す。補助定理1およびその証明は図2に示すとおりであり、補助定理2およびその証明は図3に示すとおりである。
Figure 0006181602
そして、補助定理1および補助定理2を用いて、上記の(A)が成り立つこと、すなわち補助定理3が成り立つことを示す。補助定理3およびその証明は、図4に示すとおりである。
また、データポイントxのラベルlに対するスコアの上限値は、伝搬スコアp(x|l)を用いて、図5の定義2における式(9)に基づき計算される。
Figure 0006181602
そして、上記の(B)が成り立つことを示す前に、補助定理4および補助定理5が成り立つことを示す。補助定理4およびその証明は図6に示すとおりであり、補助定理5およびその証明は図7に示すとおりである。
そして、補助定理4および補助定理5を用いて、上記の(B)が成り立つこと、すなわち補助定理6が成り立つことを示す。補助定理6およびその証明は、図8に示すとおりである。
実施形態は、下限値および上限値を逐次的に計算するが、下限値および上限値を計算するために、tについて、初回の計算時(t=0)にのみ上記の定義1および定義2をそれぞれ用い、2回目以降(t≧1)の逐次計算は、図9の補助定理7で示す性質を用いて、効率的に逐次計算をおこなう。
Figure 0006181602
補助定理7は、上記の(C)を図1の定義1および図5の定義2から計算することで得ることができる。
Figure 0006181602
そして、上記の(D)の収束値については、図10の補助定理8で示す性質がある。補助定理8は、補助定理4から得られるp(x|l)≦nという性質を用いて、式(6)と式(9)から求めることができる。補助定理8は、繰り返し計算回数が増えるほど下限値と上限値の精度が向上していくことを示す。さらに補助定理8は、実施形態による手法が、最適なスコアによる従来手法と同じラベル付与の結果を与えることを示す。
次に、t回目の繰り返し計算において計算対象となるラベルの集合について述べる。まず、ラベル集合Lの定義について述べ、次にラベル集合Lの性質について述べる。ラベル集合Lは、その下限値および上限値を用いて計算する。t回目の繰り返し計算におけるラベル集合Lは、図11の定義3のように定義される。
そして、ラベル集合Lの性質について、図12の補助定理9および図13の補助定理10が成り立つ。そして、補助定理9および補助定理10から、ラベル集合Lに関して、図14の補助定理11が成り立つ。
補助定理11から、実施形態は、最適なスコアによる従来手法と同様にラベル付与の結果を得ることができる。そして、以上の数理的考察から、実施形態におけるラベル付与の結果と計算量について、図15の定理1および図16の定理2が成り立つ。
すなわち、実施形態は、最適なスコアによる従来手法と同様に、ラベル付与済みのデータポイントのスコアに基づき、ラベル未付与のデータポイントに対してラベル付与する。また、実施形態における、ラベル未付与のデータポイントに対してラベル付与する際の計算量は、最適なスコアによる従来手法よりも削減される。
[実施形態]
上記の数理的議論を踏まえ、以下、本願が開示するラベリング装置などの実施形態を、図面に基づいて説明する。以下の実施形態は、データポイントと、データポイント間の類似度からなるグラフと、ラベル付けされた複数のデータポイントとを入力とし、ラベルごとのスコアを計算し、ラベル付けされていないデータポイントに対してラベル付与する。なお、以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。
(ラベリング装置の構成)
図17は、ラベリング装置の構成の一例を示すブロック図である。実施形態のラベリング装置10は、スコア計算部11、ラベル選択部12、ラベル決定部13を有する。ラベリング装置10は、データポイントおよびデータポイント間の類似度からなるグラフと、ラベル付与された複数のデータポイントを入力とし、ラベルごとのスコアを計算し、ラベル付与されていないデータポイントへ付与するラベルを出力する。
具体的には、スコア計算部11は、データポイントおよびデータポイント間の類似度からなるグラフと、計算対象のラベル集合とを入力とし、ラベルごとに各ノードにおけるスコアの下限値と上限値を計算する。そして、ラベル選択部12は、スコア計算部11により計算されたスコアの下限値と、上限値を入力とし、計算対象のラベルを出力する。スコア計算部11およびラベル選択部12は、計算対象のラベルの集合が空集合φとなるまで、繰り返し計算回数を示すカウンタtをインクリメントして上記処理を繰り返すことで、繰り返し計算の中で再帰的に各ノードのスコアの下限値と上限値を推定し、ラベル未付与のデータポイントへラベル付与をおこなうために不要なスコアの計算を枝刈り、つまり除外する。そして、ラベル決定部13は、全てのデータポイントについて、対応するスコアの下限値と、上限値を入力とし、ラベル未付与のデータポイントに対するラベルを決定する。
(ラベル付与処理)
図18は、ラベル付与処理の一例を示すフローチャートである。先ず、図17に示すラベリング装置10は、k−NNグラフにおけるn×nの隣接行列W、k−NNグラフにおいて既にラベル付与されているデータポイントの集合X={X,・・・,X}の入力を受け付ける(ステップS11)。そして、ラベリング装置10は、式(4)の繰り返し計算の繰り返し回数を示すカウンタtについてt=0と初期化し、式(4)におけるt回目の繰り返し計算(t=0,1,2,・・・)における計算対象のラベルの集合LについてL=L(Lは、初期ラベル集合)と初期化する(ステップS12)。
次に、ラベリング装置10のスコア計算部11は、ステップS13〜S23のループ処理を、l∈Lなる全てのラベルlについて順次繰り返して実行する。すなわち、スコア計算部11は、t=0ならば(ステップS14;Yes)、ステップS15〜S18のループ処理を、x∈Xなる全てのデータポイントxについて順次繰り返して実行する。
ステップS16では、スコア計算部11は、式(5)に基づき、l,xに関する伝搬スコアp(x|l)を計算する。そして、ステップS17では、スコア計算部11は、定義1の式(6)(図1参照)および定義2の式(9)(図5参照)に基づき、ラベルの伝搬スコアからスコアf(x|l)の下限値および上限値をそれぞれ計算する。
一方、スコア計算部11は、t≠0ならば(ステップS14;No)、ステップS19〜S22のループ処理を、x∈Xなる全てのデータポイントxについて順次繰り返して実行する。ステップS20では、スコア計算部11は、式(5)に基づき、l,xに関する伝搬スコアP(x|l)を、隣接行列Wの正規化行列Sのij成分Sijと、伝搬スコアPt−1(l|x)をもとに更新する。そして、ステップS21では、スコア計算部11は、補助定理7の式(12)および(13)(図9参照)に基づき、ラベルの伝搬スコアからスコアf(x|l)の下限値および上限値をそれぞれ更新する。
ステップS13〜S23のループ処理が終了すると、ラベリング装置10のラベル選択部12は、計算対象のラベルの集合Lの次回の繰り返し計算対象のラベルの集合Lt+1についてLt+1=φと初期化する(ステップS24)。
次に、ラベル選択部12は、ステップS25〜S31のループ処理を、x∈Xなる全てのデータポイントxについて順次繰り返して実行する。さらに、ラベル選択部12は、ステップS25〜S31のループ処理内において、ステップS26〜S30のループ処理を、l∈Lなる全てのラベルlについて順次繰り返して実行する。
ステップS27では、ラベル選択部12は、次の式(E)であるようなl∈L(Lは、初期ラベル集合)が存在するか否かを判定する。
Figure 0006181602
ラベル選択部12は、ステップS27の判定がYesのとき、ステップS28へ処理を移。ステップS28では、ラベル選択部12は、全てのl∈L(Lは、初期ラベル集合)について次の式(F)のような条件が満たれるか否かを判定する。
Figure 0006181602
なお、ステップS27またはステップS28のいずれかの判定がNoであることは、定義3(図11参照)に示す、l∈LなるラベルlがLt+1に含まれる条件(i)かつ(ii)の対偶である。
ラベル選択部12は、ステップS28の判定がYesの場合、ラベルlをラベルの集合Lt+1へ追加する(ステップS29)。一方、ラベル選択部12は、ステップS27またはステップS28のいずれかの判定がNoの場合、ステップS30へ処理を移す、すなわち、ステップS26〜S29のループ処理において、次のラベルl∈Lを選択して当該のループ処理を継続する。
ラベル選択部12は、ステップS26〜S30のループ処理が終了し、ステップS25〜S31のループ処理が終了すると、ステップS32へ処理を移す。ステップS32では、ラベリング装置10は、ラベル集合L≠φか否かを判定し、ステップS32の判定がYesの場合、t=t+1とtを1インクリメントし(ステップS33)、ステップS34へ処理を移す。一方、ラベリング装置10は、ステップS32の判定がNoの場合、ステップS34へ処理を移す。
ステップS34では、ラベリング装置10は、ラベル集合L=φか否かを判定し、ステップS34の判定がYesの場合、ステップS35へ処理を移し、ステップS34の判定がNoの場合、ステップS13へ処理を移す。
次に、ラベリング装置10のラベル決定部13は、ステップS35〜S37のループ処理を、x∈Xなる全てのデータポイントxについて順次繰り返して実行する。
ステップS36では、ラベル決定部13は、下記の式(14)に基づき、データポイントxのラベルy(x)を求める(ただし、l∈L)。
Figure 0006181602
ラベル決定部13は、ステップS35〜S37のループ処理が終了すると、ステップS38へ処理を移す。ステップS38では、ラベリング装置10は、全てがラベル付けされたデータポイントxおよび対応するラベルy(x)のデータセットを出力する。ステップS38が終了すると、ラベル付与処理は終了する。
(ラベル付与処理アルゴリズム)
図19は、ラベル付与処理アルゴリズムの一例を示す図である。図19に示すラベル付与処理アルゴリズムの第1〜2行目は、図18のステップS12に相当する。ラベル付与処理アルゴリズムの第3〜28行目のループ処理は、図18のステップS13〜S34に相当する。
ラベル付与処理アルゴリズムの第3〜28行目のループ処理のうち、第4〜16行目のループ処理は、図18のステップS13〜S23に相当する。また、ラベル付与処理アルゴリズムの第4〜16行目のループ処理のうち、第5、10、15行目は、図18のステップS14に相当する。また、ラベル付与処理アルゴリズムの第4〜16行目のループ処理のうち、第6〜9行目のループ処理は、図18のステップS15〜S18に相当する。また、ラベル付与処理アルゴリズムの第11〜14行目のループ処理は、図18のステップS19〜S22に相当する。
また、ラベル付与処理アルゴリズムの第3〜28行目のループ処理のうち、第17行目の処理は、図18のステップS24に相当する。また、ラベル付与処理アルゴリズムの第3〜28行目のループ処理のうち、第18〜24行目の処理は、図18のステップS25〜S31に相当する。また、ラベル付与処理アルゴリズムの第3〜28行目のループ処理のうち、第19〜23行目の処理は、図18のステップS26〜S30に相当する。また、ラベル付与処理アルゴリズムの第3〜28行目のループ処理のうち、第20〜22行目の処理は、図18のステップS27〜S29に相当する。また、ラベル付与処理アルゴリズムの第3〜28行目のループ処理のうち、第25〜27行目の処理は、図18のステップS32〜S33に相当する。
また、ラベル付与処理アルゴリズムの第29〜31行目のループ処理は、図18のステップS35〜S38に相当する。
(実施形態の効果)
実施形態は、データポイントと、初期ラベル集合との入力を受け付ける。そして、実施形態は、各データポイントに対する計算対象のラベル集合が含むラベルごとの所定スコアの下限値および上限値について、0回目の計算対象のラベル集合が含むラベルごとの所定スコアの下限値および上限値を、計算対象のラベル集合を初期ラベル集合として計算する。そして、実施形態は、t回目(tは自然数)の計算対象のラベル集合が含むラベルごとの所定スコアの下限値および上限値を(t−1)回目の計算対象のラベル集合が含むラベルごとの所定スコアの下限値および上限値に基づき再帰的に計算する処理と、再帰的に計算したt回目の計算対象のラベル集合が含むラベルごとの所定スコアの下限値および上限値に対して、所定条件を満たすt回目の計算対象のラベル集合が含むラベルを(t+1)回の計算対象のラベル集合へ追加し、所定条件を満たさないt回目の計算対象のラベル集合が含むラベルを(t+1)回の計算対象のラベル集合への追加対象から除外する処理との各処理をt回目の計算対象のラベル集合もしくは(t+1)回の計算対象のラベル集合が空集合となるまでtについて再帰的に繰り返す。
さらに、実施形態は、各データポイントに対して、t回目の計算対象のラベル集合が空集合となった際の(t−1)回目の計算対象のラベル集合が含むラベルのうち、もしくは、(t+1)回目の計算対象のラベル集合が空集合となった際のt回目の計算対象のラベル集合が含むラベルのうち、下限値に最大値を与えるラベルを、当該データポイントに付与するラベルと決定する。
実施形態は、計算対象のラベルが存在しなければ、ラベルのスコアが収束していなくても繰り返し計算を打ち切る。よって、無駄なラベルのスコア計算をおこなわず、計算量を削減できる。また、実施形態によるラベル付与の結果は、最適なスコアによってラベル付与する従来技術と全く同じになる。これは、ラベルのスコアの下限値および上限値により、スコアの計算が必要でないラベルを枝刈り、すなわち除外できるからである。また、実施形態は、ベキ乗法による従来手法のように繰り返し計算を打ち切るための閾値などのパラメータ設定を必要とせず、処理の高速性とラベル付与の精度との間にトレードオフが発生するという問題を回避できる。
(実施形態のシステム構成について)
図17に示したラベリング装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、ラベリング装置10の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
また、ラベリング装置10においておこなわれる各処理は、全部または任意の一部が、CPU(Central Processing Unit)およびCPUにより解析実行されるプログラムにて実現されてもよい。また、ラベリング装置10においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
また、実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
(プログラムについて)
また、実施形態において説明したラベリング装置10のCPUなどの制御装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、制御装置が実行する処理をコンピュータが実行可能な言語で記述したラベル付与プログラムを作成することもできる。この場合、コンピュータがラベル付与プログラムを実行することにより、実施形態と同様の効果を得ることができる。さらに、ラベル付与プログラムをコンピュータ読み取り可能な記録媒体に記録して、記録媒体に記録されたラベル付与プログラムをコンピュータに読み込ませて実行することにより実施形態と同様の処理を実現できる。以下に、図17に示したラベリング装置10と同様の機能を実現するプログラムを実行するコンピュータの一例を説明する。
図20は、ラベル付与プログラムを実行するコンピュータを示す図である。コンピュータ1000は、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらは、バス1080によって接続される。
図20に示すように、メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。また、ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。また、ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、磁気ディスクや光ディスクなどの着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。また、ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
ここで、図20に例示するように、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、ラベル付与プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1031に記憶される。
また、実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出す。そして、CPU1020が、ラベル付与プログラムの各手順を実行する。
なお、ラベル付与プログラムにかかるプログラムモジュール1093およびプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られない。すなわち、プログラムモジュール1093およびプログラムデータ1094は、着脱可能な記憶媒体に記憶され、ディスクドライブなどを介してCPU1020によって読み出されてもよい。
ラベル付与プログラムにかかるプログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)など)を介して接続された他のコンピュータに記憶されていてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、ネットワークインタフェース1070を介してCPU1020によって読み出され、実行されてもよい。
また、ラベル付与プログラムのモジュール分割は、例えば図17に示すスコア計算部11、ラベル選択部12、ラベル決定部13およびその他の処理を実行する機能部それぞれが実行する処理単位でおこなってもよい。しかし、モジュールの分割および統合は、これに限らず、処理効率や保守性などを考慮し、適宜なされてもよい。
以上の実施形態ならびにその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
10 ラベリング装置
11 スコア計算部
12 ラベル選択部
13 ラベル決定部
1000 コンピュータ
1010 メモリ
1020 CPU

Claims (5)

  1. 記憶部と協働して処理を実行する制御部を有するラベリング装置であって、
    前記制御部は、
    データポイントと、初期ラベル集合との入力を受け付け、
    各前記データポイントに対する計算対象のラベル集合が含むラベルごとの所定スコアの下限値および上限値について、0回目の計算対象のラベル集合が含むラベルごとの前記所定スコアの下限値および上限値を、前記計算対象のラベル集合を前記初期ラベル集合として計算し、t回目(tは自然数)の計算対象のラベル集合が含むラベルごとの前記所定スコアの下限値および上限値を(t−1)回目の計算対象のラベル集合が含むラベルごとの前記所定スコアの下限値および上限値に基づき再帰的に計算する処理と、
    再帰的に計算した前記t回目の計算対象のラベル集合が含むラベルごとの前記所定スコアの下限値および上限値に対して、所定条件を満たす前記t回目の計算対象のラベル集合が含むラベルを(t+1)回の計算対象のラベル集合へ追加し、前記所定条件を満たさない前記t回目の計算対象のラベル集合が含むラベルを前記(t+1)回の計算対象のラベル集合への追加対象から除外する処理と
    の各処理を前記t回目の計算対象のラベル集合もしくは前記(t+1)回の計算対象のラベル集合が空集合となるまでtについて再帰的に繰り返す
    ことを特徴とするラベリング装置。
  2. さらに、
    前記制御部は、
    各前記データポイントに対して、前記t回目の計算対象のラベル集合が空集合となった際の前記(t−1)回目の計算対象のラベル集合が含むラベルのうち、もしくは、前記(t+1)回目の計算対象のラベル集合が空集合となった際の前記t回目の計算対象のラベル集合が含むラベルのうち、前記下限値に最大値を与えるラベルを、当該データポイントに付与するラベルと決定する
    ことを特徴とする請求項1に記載のラベリング装置。
  3. ラベリング装置が実行するラベリング方法であって、
    前記ラベリング装置が、
    データポイントと、初期ラベル集合との入力を受け付け、
    各前記データポイントに対する計算対象のラベル集合が含むラベルごとの所定スコアの下限値および上限値について、0回目の計算対象のラベル集合が含むラベルごとの前記所定スコアの下限値および上限値を、前記計算対象のラベル集合を前記初期ラベル集合として計算し、t回目(tは自然数)の計算対象のラベル集合が含むラベルごとの前記所定スコアの下限値および上限値を(t−1)回目の計算対象のラベル集合が含むラベルごとの前記所定スコアの下限値および上限値に基づき再帰的に計算する処理と、
    再帰的に計算した前記t回目の計算対象のラベル集合が含むラベルごとの前記所定スコアの下限値および上限値に対して、所定条件を満たす前記t回目の計算対象のラベル集合が含むラベルを(t+1)回の計算対象のラベル集合へ追加し、前記所定条件を満たさない前記t回目の計算対象のラベル集合が含むラベルを前記(t+1)回の計算対象のラベル集合への追加対象から除外する処理と
    の各処理を前記t回目の計算対象のラベル集合もしくは前記(t+1)回の計算対象のラベル集合が空集合となるまでtについて再帰的に繰り返す
    こと含むことを特徴とするラベリング方法。
  4. さらに、
    前記ラベリング装置が、
    各前記データポイントに対して、前記t回目の計算対象のラベル集合が空集合となった際の前記(t−1)回目の計算対象のラベル集合が含むラベルのうち、もしくは、前記(t+1)回目の計算対象のラベル集合が空集合となった際の前記t回目の計算対象のラベル集合が含むラベルのうち、前記下限値に最大値を与えるラベルを、当該データポイントに付与するラベルと決定する
    ことを含むこと特徴とする請求項3に記載のラベリング方法。
  5. 請求項1または2に記載のラベリング装置としてコンピュータを機能させるラベリングプログラム。
JP2014119114A 2014-06-09 2014-06-09 ラベリング装置、ラベリング方法およびラベリングプログラム Active JP6181602B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014119114A JP6181602B2 (ja) 2014-06-09 2014-06-09 ラベリング装置、ラベリング方法およびラベリングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014119114A JP6181602B2 (ja) 2014-06-09 2014-06-09 ラベリング装置、ラベリング方法およびラベリングプログラム

Publications (2)

Publication Number Publication Date
JP2015232781A JP2015232781A (ja) 2015-12-24
JP6181602B2 true JP6181602B2 (ja) 2017-08-16

Family

ID=54934189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014119114A Active JP6181602B2 (ja) 2014-06-09 2014-06-09 ラベリング装置、ラベリング方法およびラベリングプログラム

Country Status (1)

Country Link
JP (1) JP6181602B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5547128B2 (ja) * 2011-05-17 2014-07-09 日本電信電話株式会社 クラスタリング装置及び方法及びプログラム

Also Published As

Publication number Publication date
JP2015232781A (ja) 2015-12-24

Similar Documents

Publication Publication Date Title
US11093826B2 (en) Efficient determination of optimized learning settings of neural networks
WO2018227800A1 (zh) 一种神经网络训练方法及装置
JP5734503B2 (ja) 語義推定装置、方法及びプログラム
US20150379075A1 (en) Maintaining diversity in multiple objective function solution optimization
US20160012202A1 (en) Predicting the risks of multiple healthcare-related outcomes via joint comorbidity discovery
US20210224447A1 (en) Grouping of pauli strings using entangled measurements
WO2019154411A1 (zh) 词向量更新方法和装置
US11449731B2 (en) Update of attenuation coefficient for a model corresponding to time-series input data
CN114897173B (zh) 基于变分量子线路确定PageRank的方法及装置
US11461694B2 (en) Machine learning implementation in processing systems
US20210034976A1 (en) Framework for Learning to Transfer Learn
CN113326852A (zh) 模型训练方法、装置、设备、存储介质及程序产品
CN114418103B (zh) 基态能量的确定方法、装置、设备及存储介质
JP6453785B2 (ja) 回帰分析装置、回帰分析方法および回帰分析プログラム
JP6662754B2 (ja) L1グラフ計算装置、l1グラフ計算方法及びl1グラフ計算プログラム
JP6181602B2 (ja) ラベリング装置、ラベリング方法およびラベリングプログラム
US20140310221A1 (en) Interpretable sparse high-order boltzmann machines
JP7118882B2 (ja) 変数変換装置、潜在パラメータ学習装置、潜在パラメータ生成装置、これらの方法及びプログラム
WO2020040007A1 (ja) 学習装置、学習方法及び学習プログラム
WO2020247731A1 (en) Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees
JP2010033213A (ja) 規則学習方法、プログラム及び装置
EP4198837A1 (en) Method and system for global explainability of neural networks
JP5538354B2 (ja) トピックモデル学習方法、装置、及びプログラム
US20230401361A1 (en) Generating and analyzing material structures based on neural networks
WO2022190221A1 (ja) データ解析装置、データ解析方法、及びプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20151001

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170720

R150 Certificate of patent or registration of utility model

Ref document number: 6181602

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150