JP2021111097A

JP2021111097A - ノイズ推定方法、ノイズ推定プログラム及びノイズ推定装置

Info

Publication number: JP2021111097A
Application number: JP2020002232A
Authority: JP
Inventors: 眞喜子此島; Makiko Konoshima
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2021-08-02
Also published as: CN113112414A; EP3848827A1; US20210216416A1; US11507476B2

Abstract

【課題】二値の行列を精度良く分解すること。【解決手段】分解部１３は、要素の値が二値で表される第１の行列を係数行列と基底行列に分解する。推定部１４は、係数行列と基底行列を合成した第２の行列を、第１の行列と比較した結果を基に、第１の行列の要素のうちノイズを含む要素を推定する。さらに、除去部１５は推定された誤差を二値行列から除去する。分析部１７は、ノイズが除去された二値行列を基にデータを分析する。【選択図】図４

Description

本発明は、ノイズ推定方法、ノイズ推定プログラム及びノイズ推定装置に関する。

従来、行列を分解する手法が知られている。例えば、収集したデータから生成された行列を、係数行列と基底行列に分解することで、当該データに関する所定のカテゴリごとのパターンを分析することができる。

特表２０１３−５２６２３７号公報特開２０１７−２０７５７７号公報

Z.Zhang and T.Li, et.al. "Binary matrix factorization with applications", In ICDM,2007

しかしながら、上記の技術では、二値の行列を精度良く分解することが困難な場合があるという問題がある。

例えば、顧客の商品の購入パターンの分析を目的として、顧客ごとの各商品を購入したか否かの履歴が二値の行列で表される場合がある。また、多肢選択式のアンケートへの回答のような離散値は、二値に変換される場合がある。

ここで、実数の連続値の行列を分解する手法として特異値分解が知られている。また、上記のような二値の行列について分析を行う場合、二値をいったん連続値として扱って特異値分解を行い、貪欲法で二値に戻すという手法がある。しかし、この手法では二値の行列に含まれるノイズを推定することが難しい。

１つの側面では、二値の行列の各要素に含まれるノイズを推定することを目的とする。

１つの態様において、ノイズ推定方法は、コンピュータが、要素の値が二値で表される第１の行列を係数行列と基底行列に分解する。また、ノイズ推定方法は、コンピュータが、係数行列と基底行列を合成した第２の行列を、第１の行列と比較した結果を基に、第１の行列の要素のうちノイズを含む要素を推定する。

１つの側面では、二値の行列の各要素に含まれるノイズを推定することができる。

図１は、行列の分解について説明する説明図である。図２は、二値行列、係数行列及び基底行列の一例を示す図である。図３は、二値行列の一例を示す図である。図４は、ノイズ推定装置の構成例を示すブロック図である。図５は、ノイズ推定装置の処理の流れを示すフローチャートである。図６は、ランク数を決定する処理の流れを示すフローチャートである。図７は、最適な記述長について説明する説明図である。図８は、行列を分解しノイズを計算する処理の流れを示すフローチャートである。図９は、ノイズを含む要素を推定し除去する処理の流れを示すフローチャートである。図１０は、実験におけるランク数ごとの記述長を示す図である。図１１は、実験における適合率及び再現率を示す図である。図１２は、実験における交差検証誤差を示す図である。図１３は、MCMCにより行列を分解する処理の流れを示すフローチャートである。図１４は、ハードウェア構成例を説明する図である。

以下に、本発明に係るノイズ推定方法、ノイズ推定プログラム及びノイズ推定装置の実施例を図面に基づいて詳細に説明する。なお、この実施例により本発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

まず、図１を用いて、行列の分解について説明する。図１は、行列の分解について説明する説明図である。図１に示すように、ｎ×ｍ行列Ｖは、ｒ×ｍの係数行列Ｗとｎ×ｒの基底行列Ｈに分解される。また、近似的に分解を行った場合、ｎ×ｍのノイズ行列ｅを仮定することができる。ｍ、ｎ、ｒは１以上の整数である。また、ｒは、計算のために指定されたランク数である。

本実施例では、行列の要素の値は二値（Boolean）で表されるものとする。以降の説明では、このような行列を二値行列と呼ぶ場合がある。二値行列の要素の値は、数値の０又は１で表されていてもよいし、TRUE又はFALSEで表されていてもよい。本実施例では、二値行列の要素の値を０又は１で表すが、乗算及び加算はBoolean演算規則に従って行われるものとする。また、二値行列とノイズの加算は、２の剰余系とする。

二値行列の分解は、様々なデータの分析に用いられる。図２は、二値行列、係数行列及び基底行列の一例を示す図である。二値行列Ｖ１は、顧客の商品の購買履歴を表している。二値行列Ｖ１の各行は顧客に対応している。また、二値行列Ｖ１の各列は商品に対応している。二値行列Ｖ１の要素の値が１であることは、対応する顧客が対応する商品を１回以上購入したことを意味している。また、二値行列Ｖ１の要素の値が０であることは、対応する顧客が対応する商品を１回も購入していないことを意味している。

例えば、二値行列Ｖ１には、顧客Ａが商品ｘ及び商品ｚを購入したことが示されている。また、例えば、二値行列Ｖ１には、商品ｙが顧客Ｂによって購入されたことが示されている。なお、二値行列Ｖ１においては、顧客が同じ商品を２回以上購入した場合であっても、該当する要素の値は、Boolean演算規則に従い１となる。

ここで、二値行列Ｖ１は、係数行列Ｗ１及び基底行列Ｈ１に分解される。このとき、係数行列Ｗ１は、顧客ごとの購買パターンを表している。一方、基底行列Ｈ１は、顧客セグメントごとの購買パターンを表している。

また、この場合、ノイズは、顧客が、「滅多に買わないものを買った」、「他の人からたまたま頼まれて買った」といった、本来の購買パターンから外れるような購買を行った場合に発生することが考えられる。そのため、係数行列Ｗ１及び基底行列Ｈ１を基に推定したノイズを二値行列Ｖ１から除去した上でモデルを生成することにより、各顧客がどの商品を購入する可能性が高いかを分析することができる。

図３に示すように、画像認識の対象の画像を二値行列で表すことができる。図３は、二値行列の一例を示す図である。例えば、図３の二値行列Ｖ２は、異なる書き手によって所定の数字が書かれた文字の画像を、左から右、上から下にラスタ走査して得た画素ごとの情報を示す値を、１次元にして行方向に並べたものである。

二値行列Ｖ２を分解して得られる係数行列は、圧縮された画像の特徴量ということができる。また、二値行列Ｖ２を分解して得られる基底行列は、基底ということができる。また、二値行列Ｖ２を分解した際に発生するノイズは、画像のノイズということができる。ノイズを除去した二値行列Ｖ２を基に、画像に表示された手書きの数字を分類（クラスタリング）するモデルを生成することで、ノイズを除去しない場合と比べてモデル分類精度を上げることができる。

なお、画像データがグレースケール８ビットの場合、画素値は０−２５５の範囲で表される。このとき、二値行列においては、例えば画素値が０ならば要素の値を０とし、画素値が０以外ならば要素の値を１とすることができる。

二値行列を分解して得られるモデルを用いて各種データを分析する場合、その精度は分解の際に指定されるランク数の影響を受けることになる。ランク数を決定するための方法をモデル選択と呼ぶ。例えば、モデル選択を記述長により評価する手法が知られている（参考文献１：Miettinen et al“MDL4BMF: Minimum Description Length for Boolean Matrix Factorization”,TKDD,Volume 8 Issue 4, October 2014 Article No. 18）。

本実施例のノイズ推定装置は、所定のランク数を用いて二値行列を分解する際のノイズを、もとの二値行列から除去することができる。これにより、二値行列を用いたデータ分析の精度が向上する。なお、ランク数は、既知の方法を含む任意の方法で決められるものであってもよい。

［機能構成］
図４を用いて、実施例に係るノイズ推定装置１０の構成を説明する。図４は、ノイズ推定装置の構成例を示すブロック図である。図４に示すように、ノイズ推定装置１０は、変換部１１、決定部１２、分解部１３、推定部１４、除去部１５、ノイズ情報１６及び分析部１７を有する。

変換部１１は、分析対象のデータを二値行列に変換する。例えば、変換部１１は、各要素を、グレースケール８ビットで表された画像の各画素に対応させた行列に変換する。このとき、変換部１１は、対応する画素の画素値が０であれば要素の値を０とし、対応する画素の画素値が０以外であれば要素の値を１とする。

決定部１２は、要素の値が二値で表される第１の行列、及び第１の行列を分解して得られる係数行列及び基底行列に基づく記述長が所定の条件を満たすようなランク数を決定する。

分解部１３は、要素の値が二値で表される第１の行列を係数行列と基底行列に分解する。このとき、分解部１３は、決定部１２によって決定されたランク数の下、第１の行列を近似的に分解する。また、分解部１３は、分解によって得られる係数行列及び基底行列に一意性のない手法により、第１の行列を複数回分解する。MCMC（Markov chain Monte Carlo methods）（参考文献２：特開2019-042543）は、分解によって得られる係数行列及び基底行列に一意性のない手法の一例である。

推定部１４は、係数行列と基底行列を合成して第２の行列を生成し、第２の行列と第１の行列と比較した結果を基に、第１の行列の要素のうちノイズを含む要素を推定する。また、推定部１４は、第２の行列と第１の行列との２の剰余系の加算によって得られる第３の行列の要素のうち、値が真である要素に対応する第１の行列の要素をノイズと推定する。本実施例では、１が真を表し、０が偽を表す。

具体的には、推定部１４は、複数の第２の行列のそれぞれと、第１の行列との２の剰余系の加算によって得られる第３の行列の要素のうち、値が真である割合が閾値以上である要素に対応する第１の行列の要素をノイズと推定する。複数の第２の行列は、分解部１３によって得られた係数行列と基底行列を合成したものである。

なお、本実施例では、決定部１２及び分解部１３は、参考文献１に記載のMCMCを使って行列分解を行うものとする。なお、決定部１２及び分解部１３は、参考文献２（中村他"二値行列分解のためのイジングモデルの定式化", FIT2017）に記載の方法で行列分解を行ってもよい。

ノイズ情報１６は、推定部１４が推定したノイズを蓄積した情報である。推定部１４は、ノイズの推定を複数回行う。そして、推定部１４は、ノイズを推定するたびに、推定したノイズをノイズ情報１６に蓄積していく。

除去部１５は、第１の行列の要素のうち、推定部１４によってノイズであると推定された要素の値を反転させることによりノイズを除去する。本実施例では、除去部１５はビット反転によりノイズを除去することができる。つまり、除去部１５は、ノイズであると推定された要素の値が１であれば、当該要素の値を０に変換する。また、除去部１５は、ノイズであると推定された要素の値が０であれば、当該要素の値を１に変換する。

また、分析部１７は、ノイズが除去された二値行列を使って、データの分析を行う。例えば、分析部１７は、ノイズが除去された二値行列を基に、データを分類するための分類モデルを生成してもよいし、データの異常検知を行ってもよい。

［全体の処理の流れ］
フローチャートを用いて、処理の流れを説明する。まず、図５を用いて、全体の処理の流れを説明する。図５は、ノイズ推定装置の処理の流れを示すフローチャートである。図５に示すように、まず、ノイズ推定装置１０の変換部１１は、入力されたデータ（以降、入力データ）を二値行列に変換する（ステップＳ１０）。

次に、決定部１２は、二値行列を分解するためのランク数を決定する（ステップＳ２０）。そして、分解部１３は、決定部１２によって決定されたランク数の下、行列の分解及びノイズの計算を行う（ステップＳ３０）。

さらに、推定部１４は、二値行列におけるノイズを含む要素を推定する。そして、除去部１５は、推定部１４によって推定されたノイズを除去する（ステップＳ４０）。そして、ノイズの除去が完了したか否かを示す除去完了フラグがTRUEであれば（ステップＳ５０、Yes）、除去部１５は、ノイズを含む要素を除去した二値行列を出力する（ステップＳ６０）。一方、ノイズの除去が完了したか否かを示す除去完了フラグがTRUEでなければ（ステップＳ５０、No）、ノイズ推定装置１０は、ステップＳ２０に戻り、処理を繰り返す。ステップＳ６０の後に、分析部１７は、二値行列を基にデータを分析する（ステップＳ７０）。

このように、ノイズ推定装置１０は、ノイズの除去が完了するまで処理を繰り返す。つまり、除去部１５は、推定部１４によってノイズを含む要素が推定されるたびに、当該ノイズであると推定された要素の数の合計が閾値より大きい場合、第１の行列からノイズを除去する。また、分解部１３は、除去部１５によってノイズが除去されるたびに、第１の行列をさらに分解する。さらに、推定部１４は、分解部１３によって第１の行列が分解されるたびに、第１の行列の要素のうちノイズを含む要素をさらに推定する。なお、決定部１２は、上記の除去部１５による処理と分解部１３による処理の間で、ランク数を決定し直してもよいし、決定し直さなくてもよい。

［各処理の詳細］
以降、図５の各処理（ステップＳ２０、Ｓ３０、Ｓ４０）の詳細を説明していく。まず入力データは、冗長な行列で表現が可能であり、かつノイズが存在することを仮定する。行列が冗長であるとは、その行列が２つ以上の行列に分解できる構造を持っていることである。

変換部１１による変換後のｎ×ｍの二値行列は、それぞれがｍ次元ベクトルで表されるｎ個のインスタンスｖ_１、ｖ_２・・・ｖ_ｎを連接させたものである。つまり、二値行列は、転置を意味するＴを使って、Ｖ＝｛ｖ_１、ｖ_２・・・ｖ_ｎ｝^Ｔと書くことがきる。

例えば、入力データは、カテゴリデータや離散値データ、二値データ等である。カテゴリデータには、例えばアンケートデータ、遺伝子塩基配列等がある。離散値データには、例えば車や人の流れのカウンタの値等の数え上げの数値がある。二値データは、例えば商品を購入した、しないといった２つの値で表せるデータである。変換部１１は、入力データを｛０，１｝に変換する。したがって、Ｖ∈｛０，１｝^ｎ×ｍである。

例えば、遺伝子塩基配列データは、t、c、g、aの４種類の文字の組み合わせによって表される。例えば、遺伝子塩基配列データには、「tactagcaatacgcttgcgttcggtggttaagtatgtataatgcgcgggcttgtcgt」、「tgctatcctgacagttgtcacgctgattggtgtcgttacaatctaacgcatcgccaa」のようなものがある。
出典：UCI Machine Learning Repository Molecular Biology (Promoter Gene Sequences) Data Set（URL:https://archive.ics.uci.edu/ml/datasets/Molecular+Biology+(Promoter+Gene+Sequences)）

ここで、変換部１１は、ｔ={0,0,0,1}、ｔ={0,0,1,0}、ｔ={0,1,0,0}、ｔ={1,0,0,0}のようにおくことで、遺伝子塩基配列データを二値行列に変換することができる。例えば、変換部１１は、「tactagc」を、{0,0,0,1,1,0,0,0,0,0,1,0,0,0,0,1,1,0,0,0,0,1,0,0,0,0,1,0}と変換する。

また、例えば、変換部１１は、回答の選択肢が１から５まであるアンケートの回答データについては、1={0,0,0,0,1}、2={0,0,0,1,0}、3={0,0,1,0,0}…のようにおくことで二値行列に変換できる。また、変換部１１は、カウンタの値（０及び自然数）については、２進展開を行うことで二値行列に変換できる。前述の画像の濃淡のような多値のデータについては、０以外を１とおくことで二値行列に変換できる。また、変換部１１は、ユーザのアクションを表す｛行った、行わない｝等のデータについては、そのまま｛１，０｝に変換できる。

入力データの特徴量は冗長であり、かつノイズが存在する可能性があるため、（１）式のような形式を仮定することができる。

Ｗ∈｛０，１｝^ｎ×ｒ、Ｈ∈｛０，１｝^ｒ×ｍ、ｅ∈｛０，１｝^ｎ×ｍである。また、Boolean演算規則に従う演算では、０＋０＝０、０＋１＝１、１＋０＝１、１＋１＝１となる。一方、２の剰余系の加算では、０＋０＝０、０＋１＝１、１＋０＝１、１＋１＝０となる。ノイズが存在する要素は、ｅの要素のうち値が１となる要素である。

（ランク数の決定）
ランク数を決定する処理（図５のステップＳ２０）の詳細を説明する。決定部１２は、ランク数の候補をいくつか与えて行列分解を行い、記述長ＤＬ（description length）が最小となるランク数ｒ_０を最適なランク数に決定する。ＤＬがランク数に対して単調増加であれば、二値行列が想定したモデルに従わないことが考えられる。そのような場合、決定部１２は、ランク数の決定を不可能とする結果を出力してもよいし、ＤＬを計算したランク数のうち最小のものを最適なランク数と仮定してもよい。

図６は、ランク数を決定する処理の流れを示すフローチャートである。図６に示すように、まず、決定部１２は、二値行列Ｖを受け取る（ステップＳ２０１）。ここで、決定部１２は、ランク数ｒの初期値を２に設定する（ステップＳ２０２）。そして、決定部１２は、ランク数ｒの下、（２）式の形式になるように行列分解を行う（ステップＳ２０３）。

決定部１２は、行列分解によって得られた係数行列及び基底行列を基に記述長を計算する（ステップＳ２０４）。決定部１２は、例えば参考文献１に記載の方法で記述長を計算することができる。決定部１２は、（３）式、（４）式、（５）式及び、（６）式のように記述長Ｌ（Ｖ，Ｗ，Ｈ）を計算する。

決定部１２は、ランク数ｒについて計算した記述長が最小であれば（ステップＳ２０５、Yes）、最適なランク数ｒ_０に設定したランク数ｒを代入する（ステップＳ２０６）。一方、決定部１２は、ランク数ｒについて計算した記述長が最小であれば（ステップＳ２０５、No）、最適なランク数ｒ_０を変更しない。

決定部１２は、ｒが２／ｍを超えていない場合（ステップＳ２０７、No）、ｒを１だけ増加させ（ステップＳ２０８）、ステップＳ２０３に戻り処理を繰り返す。一方、決定部１２は、ｒが２／ｍを超えている場合（ステップＳ２０７、Yes）、ｒ_０を出力し処理を終了する（ステップＳ２０９）。

図７を用いて、最適な記述長について説明する。図７は、最適な記述長について説明する説明図である。図７に示すように、記述長は、ランク数に対して下に凸な曲線となる。一方、記述長の曲線は非常になだらかになる場合がある。また、MCMCのようなモンテカルロ法に基づく手法で複数回の行列分解を行った場合、解に一意性がなく、試行ごとの記述長の最小値の平均と標準偏差σが得られる。そこで、決定部１２は、記述長が最小値の平均から最小値の平均＋標準偏差σまでの範囲となるような、複数のランク数を最適なランク数ｒ_０として選択してもよい。また、決定部１２は、記述長が最小値の平均から最小値の平均＋標準偏差σまでの範囲となるようなランク数の中で、最小のランク数を選択してもよい。

また、モンテカルロ法以外の手法で行列分解を行った場合、決定部１２は、記述長が最小値となるようなランク数をｒ_０に決定することができる。

（行列の分解及びノイズの計算）
行列の分解及びノイズの計算（図５のステップＳ３０）の詳細を説明する。分解部１３は、決定部１２によって決定されたランク数の下、二値行列を分解する。分解部１３は、決定部１２による行列分解の結果を流用してもよい。

図８は、行列を分解しノイズを計算する処理の流れを示すフローチャートである。図８に示すように、分解部１３は、二値行列Ｖ、ランク数ｒ_０、試行回数ｘ_１を受け取る（ステップＳ３０１）。ここで、分解部１３は、現在の試行回数を表すｘに１を代入する（ステップＳ３０２）。

そして、分解部１３は、ランク数をｒ_０として、二値行列Ｖに対しMCMCによる行列分解を行う（ステップＳ３０３）。そして、推定部１４は、（７）式のように、ノイズ行列ｅを計算する（ステップＳ３０４）。

推定部１４は、計算したノイズ行列ｅを、ノイズ情報ｈに累積する（ステップＳ３０５）。例えば、ノイズ情報ｈは、要素の値が多値である行列であってもよい。この場合、推定部１４は、処理が繰り返されるたびに、ノイズ情報ｈに計算したノイズ行列ｅを足していく。

そして、ｘがｘ_１以上でない場合（ステップＳ３０６、No）、推定部１４は、ｘを１だけ増加させ（ステップＳ３０７）、ステップＳ３０３に戻り、処理を繰り返す。また、ｘがｘ_１以上である場合（ステップＳ３０６、Yes）、推定部１４は、ノイズ情報ｈを出力する（ステップＳ３０８）。

なお、（７）式のＶは、第１の行列の一例である。また、（７）式のＷとＨを合成した行列は、第２の行列の一例である。また、（７）式のノイズ行列ｅは、第３の行列の一例である。

（ノイズを含む要素の推定及び除去）
ノイズを含む要素の推定及び除去（図５のステップＳ４０）の詳細を説明する。例えばノイズ行列ｅにおいて値が１になる頻度が高い要素は、ノイズ情報ｈにおいても値が大きくなることが考えられる。推定部１４は、このことを利用して、二値行列Ｖの要素のうち、ノイズを含む要素を推定する。

なお、ノイズ行列ｅ、二値行列Ｖ及びノイズ情報ｈは、いずれもｎ×ｍの行列である。このため、例えば、ノイズ行列ｅのｐ列目ｑ行目の要素は、二値行列Ｖ及びノイズ情報ｈのｐ列目ｑ行目の要素に対応する。

図９は、ノイズを含む要素を推定し除去する処理の流れを示すフローチャートである。図９に示すように、推定部１４は、二値行列Ｖ、ノイズ情報ｈ、個別閾値ＴＨ、合計閾値ＴＨ_ｓｕｍを受け取る（ステップＳ４０１）。

推定部１４は、ノイズ情報ｈの要素のうち、値がＴＨより大きい要素に対応するＶの要素をノイズを含む要素として推定する。除去部１５は、ノイズを含む要素の値を反転する（ステップＳ４０２）。次に、除去部１５は、ｈの要素の値の合計がＴＨ_ｓｕｍ以下であれば（ステップＳ４０３、Yes）、除去完了フラグをTRUEにする（ステップＳ４０４）。一方、除去部１５は、ｈの要素の値の合計がＴＨ_ｓｕｍ以下でなければ（ステップＳ４０３、No）、除去完了フラグをFALSEにする（ステップＳ４０５）。

図５に示すように、ノイズ推定装置１０は、除去完了フラグがTRUEになるまで、ステップＳ２０からＳ４０までの処理を繰り返す。このため、除去部１５は、ステップＳ４０５又はＳ４０６の後に、ノイズ情報ｈを初期化しておいてもよい。

個別閾値ＴＨ、合計閾値ＴＨ_ｓｕｍは、あらかじめ指定されているものとする。個別閾値ＴＨ、合計閾値ＴＨ_ｓｕｍは、絶対的な値であってもよいし、割合を表すものであってもよい。その場合、個別閾値ＴＨは、試行回数に対するノイズと判断された回数の割合ということができる。また、合計閾値ＴＨ_ｓｕｍは、行列の要素数ｎ×ｍに対するノイズと推定された要素の数の割合ということができる。

（データの分析）
分析部１７は、ノイズが除去された二値行列Ｖや、ノイズ情報ｈを基にデータの分析を行う。例えば、分析部１７は、異常検知を行う場合に、ノイズ情報ｈの要素の値が大きいものから順次、対応する二値行列Ｖの要素を異常な要素として出力することができる。

また、除去部１５は、ラベル付きのテストデータを用いて、個別閾値ＴＨ、合計閾値ＴＨ_ｓｕｍの初期値の候補をいくつか設定してもよい。その際、分析部１７は、ノイズが除去された二値行列Ｖ、又は行列分解や次元圧縮を行った係数行列Ｗを用いて、k-fold交差検証を行い、交差検証損失Ｌを計算する。

そして、分析部１７は、閾値ＴＨの候補の中で交差検証損失Ｌが最も低い閾値におけるノイズ除去後の二値行列を選択し、Ｖ_０とする。また、除去部１５は、分析部１７によって計算される交差検証損失Ｌが所定の基準を満たす程度に小さくなるまで、閾値ＴＨをノイズ情報ｈの要素の値の最大値から順次減少させていってもよい。なお、除去部１５は、閾値ＴＨを固定値としてノイズを除去してもよい。

［効果］
これまで説明してきたように、分解部１３は、要素の値が二値で表される第１の行列を係数行列と基底行列に分解する。推定部１４は、係数行列と基底行列を合成した第２の行列を、第１の行列と比較した結果を基に、第１の行列の要素のうちノイズを含む要素を推定する。このように、ノイズ推定装置１０は、二値行列を分解した結果を基にノイズを含む要素を推定する。このため、本実施例によれば、二値の行列を精度良く分解することができる。

また、決定部１２は、第１の行列、及び第１の行列を分解して得られる係数行列及び基底行列に基づく記述長が所定の条件を満たすようなランク数を決定する。分解部１３は、決定部１２によって決定されたランク数の下、第１の行列を近似的に分解する。このように、ノイズ推定装置１０は、最適なランク数を決定した上で二値行列を分解し、ノイズの推定を行う。このため、本実施例によれば、二値の行列を精度良く分解することができる。

また、推定部１４は、第２の行列と第１の行列との２の剰余系の加算によって得られる第３の行列の要素のうち、値が真である要素に対応する第１の行列の要素をノイズと推定する。このように、ノイズ推定装置１０は、もとの二値行列と同じサイズのノイズの行列を使って、ノイズを含む要素を容易に特定することができる。

また、分解部１３は、分解によって得られる係数行列及び基底行列に一意性のない手法により、第１の行列を複数回分解する。推定部１４は、分解部１３によって得られた係数行列と基底行列を合成した複数の第２の行列のそれぞれと、第１の行列との２の剰余系の加算によって得られる第３の行列の要素のうち、値が真である割合が閾値以上である要素に対応する第１の行列の要素をノイズと推定する。このように、ノイズ推定装置１０は、一意性のないランダムな複数の分解結果を得ることで、ノイズである確率が高い要素を特定することができる。

また、除去部１５は、第１の行列の要素のうち、推定部１４によってノイズであると推定された要素の値を反転させることによりノイズを除去する。これにより、ノイズ推定装置１０は、容易にノイズを除去することができる。

また、除去部１５は、推定部１４によってノイズを含む要素が推定されるたびに、当該ノイズであると推定された要素の数の合計が閾値より大きい場合、第１の行列からノイズを除去する。分解部１３は、除去部１５によってノイズが除去されるたびに、第１の行列をさらに分解する。推定部１４は、分解部１３によって第１の行列が分解されるたびに、第１の行列の要素のうちノイズを含む要素をさらに推定する。このように、ノイズ推定装置１０は、ノイズの除去を繰り返すことで、除去精度を向上させることができる。

［実験結果］
（実験１）
本実施例のノイズ推定装置１０を用いた実験の結果を示す。まず、実験１では、要素の値が１となる比率ρが５０％であり、１０×５０の行列と５０×１０の行列を合成したノイズなしの二値行列に、５％のノイズを付加した二値行列Ｖを用意した。この場合、図１０に示すように、平均記述長が最小のときに、ランク数は最適値の１０を取る。図１０は、実験におけるランク数ごとの記述長を示す図である。

実施例で説明した方法により、上記の二値行列Ｖのノイズを含む要素を推定した結果、適合率Ｐ及び再現率Ｒは図１１のようになった。図１１は、実験における適合率及び再現率を示す図である。図１１に示すように、適合率Ｐが高いため、ノイズでない要素をノイズを含む要素として推定する誤推定（誤検出）はほぼ発生しないことがいえる。

なお、適合率Ｐ及び再現率Ｒは下記のように計算される。
適合率Ｐ＝（推定したノイズのうち真のノイズの数）／（推定したノイズの個数）
再現率Ｒ＝（推定したノイズのうち真のノイズの数）／（真のノイズの数)

（実験２）
さらに、実験２では、実施例で説明した方法により手書き数字データ（データ取得元：https://archive.ics.uci.edu/ml/datasets/Multiple+Features）の二値行列からノイズを除去し、決定木による画像認識を行った。このとき、決定された最適なランク数は１０であった。図１２に、決定木学習の10-fold交差検証誤差を示す。交差検証誤差は、０から１の実数であり、小さい方が認識精度が高いといえる。図１２に示すように、ノイズ除去前は０．３２であった交差検証誤差が、ノイズ除去後は０．２５に減少している。

［MCMCに関する補足説明］
ノイズ推定装置１０がMCMCにより行列を分解する処理を説明する。本実施例では、ノイズ推定装置１０は、MCMCの一種であるシミュレーテッドアニーリングを用いる。また、MCMCによって行列Ｖを分解して得られた係数行列Ｗ及び基底行列Ｈについては、一意性がない。これは、ＷとＨの間に、ＷＸＸ^−１Ｈを満たすような正則行列Ｘが挟まっているかも知れないからである。また、例えばMCMCによる行列分解を１００回試行して得られた１００通りのＷ及びＨを合成して得た複数のＶ´は、互いに似ていると考えられる。そして、複数のＶ´の要素のうち、互いに似ていない要素がノイズに相当すると考えられる。

図１３は、MCMCにより行列を分解する処理の流れを示すフローチャートである。なお、ここでは分解部１３がMCMCの処理主体であるものとして説明するが、決定部１２もMCMCを行うことができる。図１３に示すように、まず、分解部１３は、ｎ×ｍの二値行列Ｖ、温度の初期値Ｔ_０、総ループ回数itermaxを受け取る（ステップＳ５０１）。

分解部１３は、二値行列Ｖを入力して、（８）式により行列分解用のエネルギー関数Ｅを生成する（ステップＳ５０２）。

そして、分解部１３は、スピンＷ、Ｈに任意の初期値Ｗ_０、Ｈ_０を設定する（ステップＳ５０３）。分解部１３は、エネルギー関数に従いエネルギーの初期値Ｅ_ｐｒｅｖを計算し、Ｅ_ｍｉｎ＝Ｅ_ｐｒｅｖ、Ｗ_ｍｉｎ＝Ｗ_０、Ｈ_ｍｉｎ＝Ｈ_０を設定する（ステップＳ５０４）。

ここで、分解部１３は、温度Ｔを計算する（ステップＳ５０５）。例えば、分解部１３は、温度Ｔを、Ｔ＝Ｔ_０／log（iter）のように計算する。そして、分解部１３は、Ｗ、Ｈを用いてフリップするスピンの候補を決定する（ステップＳ５０６）。

分解部１３は、スピンをフリップした場合のエネルギーＥ_{ａｆｔｅｒ}を求めてΔＥ＝Ｅ_{ａｆｔｅｒ}−Ｅ_ｐｒｅｖとして、ｅ^−ΔＥの確率で採否を決定する（ステップＳ５０７）。そして、分解部１３は、Ｗ_ｍｉｎ、Ｈ_ｍｉｎを出力する（ステップＳ５０８）。

［データ追加時の処理］
ノイズ推定装置１０は、入力済みの二値行列Ｖに新しいデータ（インスタンス）ｖ_ｊが追加された場合、計算済みの基底行列Ｈを用いて、MCMCにより係数行列Ｗ_ｊを計算し、ｖ_ｊに該当するｅ_ｊを算出することができる。

二値行列Ｖの大きさは不変であるので、１インスタンスのみ追加される場合、ノイズ推定装置１０は、二値行列Ｖに含まれる最も古いデータ（インスタンス）を上書きすることができる。また、追加されるインスタンスが多数ある場合は、ノイズ推定装置１０は、二値行列Ｖを新たに作成する。そして、ノイズ推定装置１０は、Ｗのスピンのみをフリップの対象とする。この場合、ノイズ推定装置１０は、Ｈを定数として扱いMCMCを行うことができる。

［システム］
上記文書中や図面中で示した処理手順、ノイズ推定手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］

ところで、上記の実施形態で説明した各種の処理は、あらかじめ用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ（ハードウエア）の一例を説明する。図１４は、ハードウェア構成例を説明する図である。

図１４に示すように、ノイズ推定装置１０は、入出力インタフェース１０ａと、ハードディスク１０ｂと、ＲＡＭ１０ｃ（ＲＡＭ：Random Access Memory）と、ＲＯＭ１０３（ＲＯＭ：Read Only Memory）と、ＣＰＵ１０ｅと、イジングマシン１０ｆとを有する。ノイズ推定装置１０内の各部は、バスに接続される。

入出力インタフェース１０ａは、ユーザからの入力操作を受け付けるキーボード、マウス等の入力装置、及び、各種処理結果を出力するディスプレイ等の出力装置である。ハードディスク１０ｂは、例えばハードディスク装置等であり、上記の実施形態で説明した各種の処理を実行するためのプログラムが記憶される。また、ハードディスク１０ｂには、プログラムが参照する各種データが記憶される。ＲＡＭ１０ｃは、ＣＰＵ１０ｅがプログラムを読み出して各種の処理を実行する際に用いられ、各種情報を一時記憶する。ＲＯＭ１０３は、例えばノイズ推定装置１０の起動時に実行されるブートプログラム等を記憶する不揮発性メモリである。

ＣＰＵ１０ｅは、ハードディスク１０ｂに記憶されたプログラムを読み出してＲＡＭ１０ｃに展開して実行することで、変換部１１、決定部１２、分解部１３、推定部１４、除去部１５及び分析部１７に関する各種の処理を行う。なお、プログラムは、ハードディスク１０ｂに記憶されていなくてもよい。例えば、ノイズ推定装置１０が読み取り可能な記憶媒体に記憶されたプログラムを、ノイズ推定装置１０が読み出して実行するようにしてもよい。ノイズ推定装置１０が読み取り可能な記憶媒体は、例えば、ＣＤ−ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこのプログラムを記憶させておき、ノイズ推定装置１０がこれらからプログラムを読み出して実行するようにしてもよい。

イジングマシン１０ｆは、シミュレーテッドアニーリング（ＳＡ）による処理を行い、イジング形式に変換したコスト関数の最小値が得られる各ビットの状態の組み合わせ（基底状態）を探索する装置である。

１０ノイズ推定装置
１１変換部
１２決定部
１３分解部
１４推定部
１５除去部
１６ノイズ情報
１７分析部

Claims

要素の値が二値で表される第１の行列を係数行列と基底行列に分解し、
前記係数行列と前記基底行列を合成した第２の行列を、前記第１の行列と比較した結果を基に、前記第１の行列の要素のうちノイズを含む要素を推定する
処理をコンピュータが実行することを特徴とするノイズ推定方法。
前記第１の行列、及び前記第１の行列を分解して得られる前記係数行列及び前記基底行列に基づく記述長が所定の条件を満たすようなランク数を決定する処理をさらに実行し、
前記分解する処理は、前記決定する処理によって決定されたランク数の下、前記第１の行列を分解する
ことを特徴とする請求項１に記載のノイズ推定方法。
前記推定する処理は、前記第２の行列と前記第１の行列との２の剰余系の加算によって得られる第３の行列の要素のうち、値が真である要素に対応する前記第１の行列の要素をノイズと推定する
ことを特徴とする請求項１に記載のノイズ推定方法。
前記分解する処理は、分解によって得られる前記係数行列及び前記基底行列に一意性のない手法により、前記第１の行列を複数回分解し、
前記推定する処理は、前記分解する処理によって得られた係数行列と基底行列を合成した複数の第２の行列のそれぞれと、前記第１の行列との２の剰余系の加算によって得られる第３の行列の要素のうち、値が真である割合が閾値以上である要素に対応する前記第１の行列の要素の値にノイズが含まれると推定する
ことを特徴とする請求項１に記載のノイズ推定方法。
前記第１の行列の要素のうち、前記推定する処理によってノイズを含むと推定された要素の値を反転させることによりノイズを除去する
処理をさらに実行させることを特徴とする請求項１に記載のノイズ推定方法。
前記除去する処理は、前記推定する処理によってノイズを含む要素が推定されるたびに、当該ノイズであると推定された要素の数の合計が閾値より大きい場合、前記第１の行列からノイズを除去し、
前記分解する処理は、前記除去する処理によってノイズが除去されるたびに、前記第１の行列をさらに分解し、
前記推定する処理は、前記分解する処理によって前記第１の行列が分解されるたびに、前記第１の行列の要素のうちノイズを含む要素をさらに推定する
ことを特徴とする請求項５に記載のノイズ推定方法。
要素の値が二値で表される第１の行列を係数行列と基底行列に分解し、
前記係数行列と前記基底行列を合成した第２の行列を、前記第１の行列と比較した結果を基に、前記第１の行列の要素のうちノイズを含む要素を推定する
処理をコンピュータに実行させることを特徴とするノイズ推定プログラム。
要素の値が二値で表される第１の行列を係数行列と基底行列に分解する分解部と、
前記係数行列と前記基底行列を合成した第２の行列を、前記第１の行列と比較した結果を基に、前記第１の行列の要素のうちノイズを含む要素を推定する推定部と、
を有することを特徴とするノイズ推定装置。