JP2022116866A

JP2022116866A - 複数の項目を関係付けるための方法、システム、およびプログラム

Info

Publication number: JP2022116866A
Application number: JP2021013264A
Authority: JP
Inventors: やよい夏目; Yayoi Natsume; 修功上田; Shuko Ueda
Original assignee: RIKEN Institute of Physical and Chemical Research; National Institutes of Biomedical Innovation Health and Nutrition
Current assignee: RIKEN Institute of Physical and Chemical Research; National Institutes of Biomedical Innovation Health and Nutrition
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-08-10
Also published as: WO2022163821A1

Abstract

【課題】複数の項目を関係付けるための方法、システム及びプログラムを提供する。【解決手段】複数の項目を関係付けるための方法は、異種の複数のデータ群を受信することであって、異種の複数のデータ群の各々は、複数の項目についての複数のデータを含むことと、異種の複数のデータ群の各々の複数のデータに基づいて、異種の複数のデータ群の各々からそれぞれの少なくとも１つの項目を抽出することと、異種の複数のデータ群の各々から抽出されたそれぞれの少なくとも１つの項目の間の関係を特定することと、を含む。【選択図】図６

Description

本開示は、複数の項目を関係付けるための方法、システム、およびプログラムに関する。さらに、本開示は、複数の項目を関係付けるための方法、システム、またはプログラム利用して複数のデータを層別化するための方法、システム、およびプログラムにも関する。

データをグループ化するための手法として、クラスタリングが知られている（例えば、特許文献１）。

特表２０１９－５３５０４６号公報

一つの局面において、本開示は、複数の項目を関係付けるための方法等を提供する。一つの実施形態では、本開示は、異種の複数のデータ群の各々から抽出されたそれぞれの少なくとも１つの項目を関係付けることを可能にする方法等を提供する。別の実施形態では、本開示は、特定された関係に従って、複数のデータを層別化するための方法等も提供する。

本開示の実施形態の例として、以下のものが挙げられる。
（項目１）
複数の項目を関係付けるための方法であって、
異種の複数のデータ群を受信することであって、前記異種の複数のデータ群の各々は、複数の項目についての複数のデータを含む、ことと、
前記異種の複数のデータ群の各々の複数のデータに基づいて、前記異種の複数のデータ群の各々からそれぞれの少なくとも１つの項目を抽出することと、
前記異種の複数のデータ群の各々から抽出されたそれぞれの少なくとも１つの項目の間の関係を特定することと
を含む方法。
（項目２）
前記関係は、
前記異種の複数のデータ群のうちの１つから抽出された少なくとも１つの項目を前提部とし、前記異種の複数のデータ群のうちの別の１つから抽出された少なくとも１つの項目を結論部とすることを含む、項目１に記載の方法。
（項目３）
前記関係を特定することは、
前記異種の複数のデータ群の各々について、
前記異種の複数のデータ群のうちの１つから抽出された少なくとも１つの項目を前提部とし、前記異種の複数のデータ群のうちの別の１つから抽出された少なくとも１つの項目を結論部としたときのスコアを算出することと、
前記スコアに基づいて、前記前提部とすべき少なくとも１つの項目と、前記結論部とすべき少なくとも１つの項目とを決定することと
を含む、項目２に記載の方法。
（項目４）
前記抽出することは、
前記異種の複数のデータ群の各々の複数の項目のうち、データが異常値を有する少なくとも１つの項目を抽出すること
を含む、項目１～３のいずれか一項に記載の方法。
（項目５）
前記抽出することは、再帰的反復アプローチを用いて少なくとも１つの項目を抽出することを含む、項目１～５のいずれか一項に記載の方法。
（項目６）
前記複数のデータ群は、定量的なデータを含む、項目１～５のいずれか一項に記載の方法。
（項目７）
前記定量的なデータを所定範囲内の値を有するデータに変換することをさらに含む、項目６に記載の方法。
（項目８）
前記変換することは、前記定量的なデータのうち、平均値または最頻値との差が閾値以内のデータを使用しないようにすることを含む、項目７に記載の方法。
（項目９）
前記変換することは、前記定量的なデータのうち、平均値または最頻値の値を前記所定範囲内の下限値とし、前記平均値または最頻値から離れるほど、前記所定範囲内の上限値に近づくようにすることを含む、項目７または項目８に記載の方法。
（項目１０）
前記変換することは、前記平均値または最頻値から閾値以上離れた値を前記所定範囲内の上限値とすることをさらに含む、項目９に記載の方法。
（項目１１）
前記変換することは、
前記定量的なデータからｚスコアを算出することと、
前記ｚスコアを所与の値で除算することと、
前記除算後の値のうち、１を超えるものを１とし、－１を下回るものを－１とすることとにより、値を得ることと、
前記得られた値のうち負の値の絶対値をとることと、
を含む、項目７に記載の方法。
（項目１２）
前記変換することは、
前記定量的なデータをヒストグラムに変換することと、
前記ヒストグラムの複数のビンのうちの最高頻度のビンの値で複数のビンの各々を除算することと、
１から前記除算後の値を減算することと
を含む、項目７に記載の方法。
（項目１３）
複数のデータを層別化するための方法であって、
項目１～１２のいずれか一項に記載の方法に従って特定された関係に従って、前記複数のデータ群内のデータを層別化すること
を含む方法。
（項目１４）
複数の項目を関係付けるためのシステムであって、
異種の複数のデータ群を受信する受信手段あって、前記異種の複数のデータ群の各々は、複数の項目についての複数のデータを含む、受信手段と、
前記異種の複数のデータ群の各々の複数のデータに基づいて、前記異種の複数のデータ群の各々からそれぞれの少なくとも１つの項目を抽出する抽出手段と、
前記異種の複数のデータ群の各々から抽出されたそれぞれの少なくとも１つの項目の間の関係を特定する特定手段と
を備えるシステム。
（項目１４Ａ）
項目１～１３のいずれか一項または複数の項に記載の特徴をさらに含む、項目１４に記載のシステム。
（項目１５）
複数の項目を関係付けるためのプログラムであって、前記プログラムは、プロセッサを備えるコンピュータシステムにおいて実行され、前記プログラムは、
異種の複数のデータ群を受信することであって、前記異種の複数のデータ群の各々は、複数の項目についての複数のデータを含む、ことと、
前記異種の複数のデータ群の各々の複数のデータに基づいて、前記異種の複数のデータ群の各々からそれぞれの少なくとも１つの項目を抽出することと、
前記異種の複数のデータ群の各々から抽出されたそれぞれの少なくとも１つの項目の間の関係を特定することと
を含む処理を前記プロセッサに行わせる、プログラム。
（項目１５Ａ）
項目１～１３のいずれか一項または複数の項に記載の特徴をさらに含む、項目１５に記載のプログラム。
（項目１６）
複数の項目を関係付けるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、プロセッサを備えるコンピュータシステムにおいて実行され、前記プログラムは、
異種の複数のデータ群を受信することであって、前記異種の複数のデータ群の各々は、複数の項目についての複数のデータを含む、ことと、
前記異種の複数のデータ群の各々の複数のデータに基づいて、前記異種の複数のデータ群の各々からそれぞれの少なくとも１つの項目を抽出することと、
前記異種の複数のデータ群の各々から抽出されたそれぞれの少なくとも１つの項目の間の関係を特定することと
を含む処理を前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。
（項目１６Ａ）
項目１～１３のいずれか一項または複数の項に記載の特徴をさらに含む、項目１６に記載のコンピュータ読み取り可能な記憶媒体。

本開示において、上記１または複数の特徴は、明示された組み合わせに加え、さらに組み合わせて提供され得ることが意図される。本開示のさらなる実施形態および利点は、必要に応じて以下の詳細な説明を読んで理解すれば、当業者に認識される。

本開示は、複数の項目を関係付けるための方法等を提供することができる。また、本開示は、特定された関係に従って、複数のデータを層別化するための方法等も提供することができる。特に、本開示は、異種の複数のデータ群間の関係を特定し、特定された関係に従って層別化することができる。

解析対象となるデータの一例を示す。ファジー論理による変換の一例を示す。ｚスコアベースの変換の概念を示す。ｚスコアベースの変換の概念を示す。ヒストグラムベースの変換の概念を示す。ヒストグラムベースの変換の概念を示す。複数の項目を関係付けるためのコンピュータシステム１００の構成の一例を示す。プロセッサ部１２０の構成の一例を示す。プロセッサ部１２０の代替実施形態であるプロセッサ部１２０’の構成の一例を示す。本開示のコンピュータシステム１００による処理６００の一例を示す。実施例１におけるサブセット結合アルゴリズムのワークフローおよび利用されたメンバーシップ関数である。図７ａ）は、サブセット結合アルゴリズムのワークフローを示す。入力データは、２つの対の行列（例えば、同一の患者からのオミクスデータおよび臨床情報。行が患者ＩＤを表し、列が臨床情報における生体分子または項目を表すとき、１つの行列内の行の数および他の行列内の行の数は、同一であることが予期される）である。これらの行列は、定量的であり得、かつ／または、カテゴリ的であり得る。第一に、これらの行列における定量的な属性が、メンバーシップ関数を用いて、ファジーなカテゴリ属性（「低」および「高」）に変換される。「低」カテゴリおよび「高」カテゴリのためのメンバーシップ値が各属性に対して取得されるため、このプロセスは、例えば、全項目が連続値の場合、２倍の列数を有する行列を生成する。第二に、これらの行列は、独立してファジーアプリオリアルゴリズムを用いて、ＦＩＳ（頻出項目セット）を検出するために用いられる。第三に、１つの行列から導出されたＦＩＳが前提部となり、他の行列から導出されたＦＩＳが結論部となるように、アソシエーションルールが生成される。ユーザ規定の閾値（例えば、lift）が取り除くために用いられ、対の（データ１からの前提部およびデータ２からの結論部）アソシエーションルールが出力として取得される。図７ｂ）は、ヒストグラムベースのメンバーシップ関数の例である。各属性（入力データの列）に対して、ユーザ規定の数のビンで、ヒストグラムが生成される。例として、属性Ａ１の５つのビンを有するヒストグラムが図７ｂ）に示される。各ビンの頻度をそれぞれx₁,x₂, x₃, x₄, x₅とし、x₃を最大とする。これらの値は、x₃で除算されることにより、各ビンの頻度は、０～１の範囲となる。この属性Ａ１に対して、２つの種類のカテゴリのメンバーシップ値が計算される：attributeA1_Low (データセットにおいて値が比較的に低い行のカテゴリ)およびattribute A1_High (データセットにおいて値が比較的に高い行のカテゴリ)。これらの２つのカテゴリのためのメンバーシップ値を計算するための式は、図７ｂ）の底部に示される。図７ｃ）は、ｚスコアベースのメンバーシップ関数の例である。各属性（入力データの列）に対して、値がｚスコアに変換される。このプロセスによって、変換された値は、標準正規分布に従い、これらの約９５％が－２～２に分布することが知られている。これらを－１～１にスケーリングするために、ｚスコアが２で除算され、１よりも大きい値および－１よりも小さい値が、それぞれ１または－１に変換される。取得された値は、（方法）のセクションで記載されるように、２つの種類のカテゴリのメンバーシップ値(“attributeA1_Low”および“attribute A1_High”)として用いられる。概して、取得された値が正である場合、取得された値は、attributeA1_High categoryのメンバーシップ値として用いられ、attribute A1_Low categoryのメンバーシップ値は０である。さらに、取得された値が負である場合、取得された値の絶対値は、attributeA1_Low categoryのメンバーシップ値として用いられ、attribute A1_High categoryのメンバーシップ値は０である。人工データの生成の概念図を示す。図８ａ）人工データ（小）の例を示す。標準正規分布に従う値を有する１００行および２００列を有する２つの行列が、各行が観測（例えば、患者）を表し、各列が属性（例えば、遺伝子または臨床測定値）を表すものとして生成された。図２ａにおいて、一方の行列をデータ１として、他方の行列をデータ２とする。第１の１０個の行について、データ１の列１、２、３の値およびデータ２の列１０、２０、３０の値がN(3, 0.5)に従った値と置換された。第２の１０個の行について、データ１の列２０、４０、６０の値およびデータ２の列４０、８０、１２０の値がN(-3,0.5)に従った値と置換された。第３の１０個の行について、データ１の列５０、７５、１００の値およびデータ２の列５０、１００の値がN(3,0.5)に従った値と置換され、データ１の列１２５、１５０の値およびデータ２の列１５０の値がN(-3, 0.5)に従った値と置換された。図８ｂ）人工データ（大）の例を示す。標準正規分布に従う値を有する１０００行および２０００列を有する２つの行列が生成され、図８ａにおける人工データ（小）と同一の手順によって、図８ｂに示されるように、いくつかの値が置換された肝毒性データセットを用いた実験の結果の概要を示す。図９Ａ）は、実験のために用いられた肝毒性データを示す。データは、公衆に利用可能である[(Bushel, et al., 2007)]。本発明者らは、本発明者らのアルゴリズムをこのデータセットに適用することにより、病理組織学的観測および／または臨床測定値（アセトアミノフェンの投与による肝毒性の程度のための評価基準）および／またはアセトアミノフェンの投与の実験的条件（データ２）と関連する遺伝子（データ１）を見出した。データ１は、６４行（ラット）および３１１６列（遺伝子）を有し、データ２は、６４行（ラット）および６０（＝４８＋１０＋２）列（４８個の病理組織学的観測、１０個の臨床測定値、２この実験的条件）を有していた。肝毒性データセットを用いた実験の結果の概要を示す。図９Ｂ）は、この実験によって検出された対のアソシエーションルールを示す。検出された３９８６個の対のアソシエーションルール（閾値：lift（データ１からの頻出項目セット→データ２からの頻出項目セット）＝４．８）のうち、最も説得力の高い１つのルールが、図３ｂに示される。１０個の遺伝子が、５つの臨床測定値、４つの病理組織学的観測、２つの実験的条件と関連した。アセトアミノフェンによる肝臓損傷の推測される分子基盤を示す。図９ｂにおける遺伝子のうち、４つの遺伝子が、肝臓損傷に関与するものとして見出された。これらの関係および関連する生体事象が描写される。Hsph1熱ショックタンパク質ファミリーH（heat shock protein family H；Hsp110)メンバー1、Mat2a:メチオニンアデノシルトランスフェラーゼ（methionine adenosyltransferase）2A、Pgs1: ホスファチジルグリセロホスフェートシンターゼ（phosphatidylglycerophosphatesynthase）1、Srm:スペルミジンシンターゼ（ spermidine synthase）, GSH:グルタチオン（glutathione）実施例２において作成した動作確認用の人工データを示す。実施例２の結果を示す。実施例２の結果を示す。実施例２の結果を示す。実施例２の結果を示す。実施例２の結果を示す。実施例２の結果を示す。

以下、本開示を説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞（例えば、英語の場合は「ａ」、「ａｎ」、「ｔｈｅ」など）は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用されるすべての専門用語および科学技術用語は、本開示の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書（定義を含めて）が優先する。

（定義）
本開示において使用される用語および一般的な技術を説明する。

本明細書において、「データ群」は、データの集合のことをいう。単一のデータを含む場合も、データ群と呼ぶ。データ群内の各データにはラベルが付されており、これは、項目と称され得る。すなわち、データ群は、１または複数の項目を有する。データは、定量的な値であってもよいし、定性的な値（例えば、０、１の二値）であってもよい。データは、連続値であってもよいし、離散値であってもよいし、連続値と離散値とが混在してもよい。例えば、データは、複数の成分を有するベクトルとして表現され、ベクトルの複数の成分のそれぞれは、複数の項目のそれぞれに対応する。例えば、或る成分が値Ｘを有する場合、そのデータは、その成分に対応する項目の値がＸであることを意味する。例えば、或る成分が値１を有する場合に、そのデータは、その成分に対応する項目を有することを意味し、或る成分が値０を有する場合に、その成分に対応する項目を有しないことを意味する。

一例において、データ群は、連続値のデータを含む。例えば、データ群は、表１に示すようなデータを含み得る。

別の例において、データ群は、離散値のデータを含む。例えば、データ群は、表２に示すようなデータを含み得る。

別の例において、データ群は、連続値のデータと離散値のデータとの組み合わせを含む。例えば、データ群は、表３に示すようなデータを含み得る。

本明細書において、２つのデータ群が「同種」であるとは、２つのデータ群間で、すべての項目が一致する場合のことをいう。すなわち、第１のデータ群および第２のデータ群が同種であるとは、第１のデータ群が有する１または複数の第１の項目のすべてと、第２のデータ群が有する１または複数の第２の項目のすべてとが一致する場合のことをいう。

本明細書において、２つのデータ群が「異種」であるとは、２つのデータ群間で、一致しない項目が存在する場合のことをいう。すなわち、第１のデータ群および第２のデータ群が異種であるとは、第１のデータ群が有する１または複数の第１の項目のうちの少なくとも１つと、第２のデータ群が有する１または複数の第２の項目の少なくとも１つとが一致しない場合のことをいう。

本明細書において、「異常値」とは、そのデータの平均値または最頻値から離れた出現確率の低い値のことをいう。例えば、「異常値」は、出現確率が約５０％未満、約４０％未満、約３０％未満、約２０％未満、約１５％未満、約１０％未満、約５％未満、約３％未満、約１％未満、約０．５％未満等の値であり得る。

本明細書において、「約」とは、後に続く数値の±１０％を意味する。

本明細書において、「項目の間の関係」とは、前提部－結論部の関係、すなわち、Ａ（前提部）であるならばＢ（結論部）である、という関係をいう。項目の間の関係は、例えば、事象Ａが発生すると事象Ｂも発生する、項目Ａが高い／低いと項目Ｂが高い／低い等を含むがこれらに限定されない。

（好ましい実施形態）
以下に本開示の好ましい実施形態を説明する。以下に提供される実施形態は、本開示のよりよい理解のために提供されるものであり、本開示の範囲は以下の記載に限定されるべきでないことが理解される。従って、当業者は、本明細書中の記載を参照して、本開示の範囲内で適宜改変を行うことができることは明らかである。また、本開示の以下の実施形態は単独でも使用されあるいはそれらを組み合わせて使用することができることが理解される。

一実施形態において、本開示の手法は、異種の複数のデータ群の各々の少なくとも１つの項目間の関係を見出すことが可能なアルゴリズムを利用する。このアルゴリズムは、共起する傾向がある項目（頻出項目セット）を探索するアソシエーションルールマイニングの一種であるが、異種の複数のデータ群を関連付けることができる点で、１つのデータ群を利用するアソシエーションルールマイニングとは異なっている。本開示のアソシエーションルールマイニングでは、異種の複数のデータ群から異常値の頻出項目セットを探索することができる。

例えば、１つのデータ群を利用するアソシエーションルールマイニングでは、以下のアプリオリアルゴリズムを利用する。

まず、ｎ個の２値属性Ｉ＝｛ｉ_１，ｉ_２，・・・，ｉ_ｎ｝を「項目」の組とする。Ｉは、「項目セット」と呼ばれる。Ｔ＝｛ｔ_１，ｔ_２，・・・，ｔ_ｍ｝をｍ個の観測の組とし、各ｔは、Ｉを有する。１つの観測がｋ個の項目を有する（Ｉがｋ個の１と、（ｎ－ｋ）個の０とを有する）場合、この項目セットは、ｋ長項目セットと呼ばれる。アソシエーションルールは、以下のように定義される。
Ｘ→Ｙ
ここで、Ｘ（前提部）およびＹ（結論部）は、

で、共起する。

次に、アプリオリアルゴリズムは、１長項目セット（１個の項目のみを含む項目セット）の頻度をカウントし、所定の最小supportを満足しない低い頻度を有する１長項目セットが取り除かれる。supportは、Ｘ、Ｙの頻度またはＸおよびＹの共起の頻度を表すスコアである。Ｘ→Ｙの場合、supportは、データがバイナリである場合、例えば、以下のように表現される。

次に、あり得る（ｋ＋１）長項目セットがｋ長項目セットから生成され、所定の最小supportよりも小さいsupportを有するｋ長項目セットを含むものが取り除かれる。これらのプロセスは、収束が達成されるまで繰り返される。この手順を用いて、頻出項目セット（所定の最小supportよりも高いsupportを有する項目セット）が検出される。

次に、各頻出項目セット内の前提部および結論部を探すことによって、アソシエーションルールが生成される。いくつかのスコア（例えば、lift）が一般的に用いられ、liftは、例えば、以下のように表現される。

例えば、販売データ分析を例に説明する。

例えば、１０人の消費者｛ｔ_１，ｔ_２，ｔ_３，ｔ_４，ｔ_５, ｔ_６，ｔ_７，ｔ_８，ｔ_９，ｔ_１０｝のそれぞれが、４つの項目（ｉ_１：おむつ、ｉ_２：ビール、ｉ_３：牛乳、ｉ_４：洗剤）のうちの少なくとも１つを購入したとする。このときのデータをアソシエーションルールマイニングで分析することにより、４つの項目（ｉ_１：おむつ、ｉ_２：ビール、ｉ_３：牛乳、ｉ_４：洗剤）間に存在し得る関係を推定することができる。
例えば、第１の消費者ｔ_１がおむつとビールとを購入した場合、
Ｉｔ_１＝｛１，１，０，０｝
となり、第２の消費者ｔ_２がおむつとビールと牛乳とを購入した場合、
Ｉｔ_２＝｛１，１，１，０｝
となり、第３の消費者ｔ_３が牛乳と洗剤とを購入した場合、
Ｉｔ_３＝｛０，０，１，１｝
となり、第４の消費者ｔ_４がおむつとビールと洗剤とを購入した場合、
Ｉｔ_４＝｛１，１，０，１｝
となり、第５の消費者ｔ_５がおむつとビールと牛乳と洗剤とを購入した場合、
Ｉｔ_５＝｛１，１，１，１｝
となり、第６の消費者ｔ_６がおむつを購入した場合、
Ｉｔ_６＝｛１，０，０，０｝
となり、第７の消費者ｔ_７がビールと牛乳とを購入した場合、
Ｉｔ_７＝｛０，１，１，０｝
となり、第８の消費者ｔ_８がビールと洗剤とを購入した場合、
Ｉｔ_８＝｛０，１，０，１｝
となり、第９の消費者ｔ_９がおむつとビールと牛乳と洗剤とを購入した場合、
Ｉｔ_９＝｛１，１，１，１｝
となり、第１０の消費者ｔ_１０がおむつと牛乳とを購入した場合、
Ｉｔ_１０＝｛１，０，１，０｝
となる。

まず、商品を一つ購入する際のSupportを計算する。設定するSupportの閾値は０.３５とする。例えば、Support（おむつ）はおむつを購入した人数（７）を総人数（１０）で除算し、０.７となる。同様に、Support（ビール）=０.７、Support(牛乳)=０.６、Support（洗剤）=０.５となる。全てのSupportは閾値を上回ることを確認することができる。

次に、商品を二つ購入する際のsupportを計算する。考えられる組み合わせは{おむつ、ビール}、{おむつ、牛乳}、{おむつ、洗剤}、{ビール、牛乳}、{ビール、洗剤}、{牛乳、洗剤}の６通りである。例えば、Support（おむつ、ビール）はおむつとビールを購入した人数（５）を総人数（１０）で除算し、０.５となる。同様に、Support（おむつ、牛乳）=０.４、Support（おむつ、洗剤）=０.３、Support（ビール、牛乳）=０.４、Support(ビール、洗剤)=０.４、Support(牛乳、洗剤)=０.３となる。Support(おむつ、洗剤)とSupport(牛乳、洗剤)はSupportの閾値を満たさないので、{おむつ、洗剤}と{牛乳、洗剤}の組み合わせは頻出項目セットの候補から外す。

次に、商品を三つ購入する際のsupportを計算する。考えられる組み合わせは{おむつ、ビール、牛乳}、{おむつ、ビール、洗剤}、{おむつ、牛乳、洗剤}、{ビール、牛乳、洗剤}の4通りである。しかし、{おむつ、洗剤}と{牛乳、洗剤}の組み合わせは頻出項目セットとなり得ないことから、{おむつ、洗剤}または{牛乳、洗剤}を含まない{おむつ、ビール、牛乳}の１通りのみSupportを計算する。例えば、Support(おむつ、ビール、牛乳)はおむつとビールと牛乳を購入した人数（３）を総人数（１０）で除算して０.３となる。Support(おむつ、ビール、牛乳)はSupportの閾値を満たさないので、{おむつ、ビール、牛乳}は頻出項目セットの候補から外す。以上の手順により、頻出項目セットが４つ（{おむつ、ビール}、{おむつ、牛乳}、{ビール、牛乳}、{ビール、洗剤}）得られる。

続いて、頻出項目セットからアソシエーションルールを作成する。例えば、{おむつ、ビール}から考えられるアソシエーションルールは、
・おむつ→ビール（おむつを買った人はビールも一緒に買う傾向がある）、
・ビール→おむつ（ビールを買った人はおむつも一緒に買う傾向がある）

の２通りである。これらのアソシエーションルールの妥当性を評価するためのスコア（例えば、lift）を計算する。例えば、lift(おむつ→ビール)は、support(おむつ→ビール)=０.５、support(おむつ)=０.７、support(ビール)=０.７であるため、[数２]より約１.０２となる。この値が高いほど、一緒に買われる傾向が強いと考えられる。

このようにして、例えば、「おむつ」と「ビール」とが一緒に買われる傾向があることを見出すことができた場合、「おむつ」と「ビール」との間に前提部－結論部の関係を見出すことができれば、「おむつを買った人はビールも一緒に買う傾向がある」という関係性を得ることができる。

このように、１つのデータ群を利用するアソシエーションルールマイニングでは、アソシエーションルールは、１つのデータ群内の各頻出項目セット内で生成される。本開示の後述する手法は、上述した１つのデータ群を利用するアソシエーションルールマイニングの手法とは異なり、アソシエーションルールが、異種の複数のデータ群を横断して生成される。例えば、アソシエーションルールは、アソシエーションルールの前提部が１つのデータセットから導出され、アソシエーションルールの結論部が別のデータセットから導出されるように生成される。これにより、生成されたアソシエーションルールは、相互に関連する異なるデータセットから導出された項目セットを表すことになる

本開示の手法は、異種の複数のデータ群の各々の少なくとも１つの項目間の関係を見出すために、例えば、以下のアルゴリズムを利用する。

まず、ｐ個の属性のＩ_１＝｛ｉ_１，１，ｉ_１，２，…，ｉ_１，ｐ｝およびｑ個の属性のＩ_２＝｛ｉ_２，１，ｉ_２，２，…，ｉ_２，ｑ｝を「項目」の組とし、Ｉ_１およびＩ_２は、「項目セット」と呼ばれる。Ｔ_１＝｛ｔ_１，１，ｔ_１，２，…，ｔ_１，ｍ｝およびＴ_２＝｛ｔ_２，１，ｔ_２，２，…，ｔ_２，ｍ｝をｍ個の観測の組とし、各ｔ_１、ｔ_２は、それぞれＩ_１、Ｉ_２を有する。Ｔ_１およびＴ_２が同数の観測を有し、ｔ_１，ａおよびｔ_２，ａ（ａ∈｛１，２，…，ｍ｝）が相互に関連付けられるものとする（例えば、患者の医療記録と、遺伝子発現プロファイルとを関連付ける場合、ｔ_１，ａ：患者ＩＤａの医療記録、ｔ_２，ａ：患者ＩＤａの遺伝子発現プロファイルとなり得る）。Ｔ_１および／またはＴ_２が定量的な属性を含む場合、本アルゴリズムで取り扱い可能な値とするために、後述するメンバーシップ関数を用いた前処理が行われ得る。

次に、本アルゴリズムでは、所定の最小supportを用いて、Ｔ_１およびＴ_２において別々に頻出項目セットが検出される。supportは、データが連続値である場合、例えば、以下のように表現される。

ここで、
Ｘ（ａ）：観測ａのＸのメンバーシップ値
Ｙ（ａ）：観測ａのＹのメンバーシップ値
である。

次に、前提部がＴ_１において検出された頻出項目セットから選択され、結論部がＴ_２において検出された頻出項目セットから選択されて、アソシエーションルールが生成される。さらに、前提部がＴ_２において検出された頻出項目セットから選択され、結論部がＴ_１において検出された頻出項目セットから選択されて、アソシエーションルールが生成される。出力されるべきアソシエーションルールの数を制限するために、いくつかのスコアが用いられることができる。スコアは、例えば、liftを含む。liftは、例えば、以下のように表現される。

ここで、
Ｘ：Ｉ_１で構成される頻出項目セット、
Ｙ：Ｉ_２で構成される頻出項目セット、

例えば、販売データ分析を例に説明する。

例えば、１０人の消費者｛ｔ_１，ｔ_２，ｔ_３，ｔ_４，ｔ_５,ｔ_６，ｔ_７，ｔ_８，ｔ_９，ｔ_１０｝のそれぞれが、６つの項目（j_１：２０代以下、j_２：３０代または４０代、j_３：５０代または６０代、j₄：７０代以上、j₅：男性、j₆：女性）のうちの少なくとも１つが当てはまるとする。さらに、４つの項目（ｉ_１：おむつ、ｉ_２：ビール、ｉ_３：牛乳、ｉ_４：洗剤）のうちの少なくとも１つを購入したとする。このときのデータを本開示の手法で分析することにより、６つの項目（j_１：２０代以下、j_２：３０代または４０代、j_３：５０代または６０代、j₄：７０代以上、j₅：男性、j₆：女性）と４つの項目（ｉ_１：おむつ、ｉ_２：ビール、ｉ_３：牛乳、ｉ_４：洗剤）との間に存在し得る関係を推定することができる。

例えば、第１の消費者ｔ_１が３０～４０代の男性である場合、
Ｊｔ_１＝｛０，１，０，０，１，０｝
となり、第２の消費者ｔ_２が２０代以下の女性である場合、
Ｊｔ_２＝｛１，０，０，０，０，１｝
となり、第３の消費者ｔ_３が５０～６０代の女性である場合、
Ｊｔ_３＝｛０，０，１，０，０，１｝
となり、第４の消費者ｔ_４が３０～４０代の男性である場合、
Ｊｔ_４＝｛０，１，０，０，１，０｝
となり、第５の消費者ｔ_５が３０～４０代の女性である場合、
Ｊｔ_５＝｛０，１，０，０，０，１｝
となり、第６の消費者ｔ_６が２０代以下の女性である場合、
Ｊｔ_６＝｛１，０，０，０，０，１｝
となり、第７の消費者ｔ_７が７０代以上の男性である場合、
Ｊｔ_７＝｛０，０，０，１，１，０｝
となり、第８の消費者ｔ_８が２０代以下の男性である場合、
Ｊｔ_８＝｛１，０，０，０，１，０｝
となり、第９の消費者ｔ_９が３０～４０代の男性である場合、
Ｊｔ_９＝｛０，１，０，０，１，０｝
となり、第１０の消費者ｔ_１０が２０代以下の女性である場合、
Ｊｔ_１０＝｛１，０，０，０，０，１｝
となる。

また、第１の消費者ｔ_１がおむつとビールとを購入した場合、
Ｉｔ_１＝｛１，１，０，０｝
となり、第２の消費者ｔ_２がおむつとビールと牛乳とを購入した場合、
Ｉｔ_２＝｛１，１，１，０｝
となり、第３の消費者ｔ_３が牛乳と洗剤とを購入した場合、
Ｉｔ_３＝｛０，０，１，１｝
となり、第４の消費者ｔ_４がおむつとビールと洗剤とを購入した場合、
Ｉｔ_４＝｛１，１，０，１｝
となり、第５の消費者ｔ_５がおむつとビールと牛乳と洗剤とを購入した場合、
Ｉｔ_５＝｛１，１，１，１｝
となり、第６の消費者ｔ_６がおむつを購入した場合、
Ｉｔ_６＝｛１，０，０，０｝
となり、第７の消費者ｔ_７がビールと牛乳とを購入した場合、
Ｉｔ_７＝｛０，１，１，０｝
となり、第８の消費者ｔ_８がビールと洗剤とを購入した場合、
Ｉｔ_８＝｛０，１，０，１｝
となり、第９の消費者ｔ_９がおむつとビールと牛乳と洗剤とを購入した場合、
Ｉｔ_９＝｛１，１，１，１｝
となり、第１０の消費者ｔ_１０がおむつと牛乳とを購入した場合、
Ｉｔ_１０＝｛１，０，１，０｝
となる。

始めに、データJの頻出項目セットを抽出する。まず、消費者の特徴についてsupportを計算する。設定するsupportの閾値は０.２５とする。例えば、Support（２０代以下）は２０代以下の人数（４）を総人数（１０）で除算し、０.４となる。同様に、Support（３０～４０代）=０.４、Support(５０～６０代)=０.１、Support（７０代以上）=０.１、Support(男性)=０.６、Support(女性)=０.４となる。Support(５０～６０代)とSupport(７０代以上)はSupportの閾値を満たさないので、{５０～６０代}と{７０代以上}は頻出項目セットの候補から外す。

次に、二つの特徴が当てはまる際のsupportを計算する。考えられる組み合わせは{２０代以下、男性}、{２０代以下、女性}、{２０代以下、３０～４０代}、{３０～４０代、男性}、{３０～４０代、女性}、{男性、女性}の６通りである。例えば、Support（２０代以下、男性）は２０代以下の男性の人数（１）を総人数（１０）で除算し、０.１となる。同様に、Support（２０代以下、女性）=０.３、Support（２０代以下、３０～４０代）=０、Support（３０～４０代、男性）=０.３、Support(３０～４０代、女性)=０.１、Support(男性、女性)=０となる。Support(２０代以下、男性)、Support(２０代、３０～４０代)、Support(３０～４０代、女性)、Support(男性、女性)はSupportの閾値を満たさないので、{２０代以下、男性}と{２０代、３０～４０代}と{３０～４０代、女性}と{男性、女性}の組み合わせは頻出項目セットの候補から外す。

次に、三つの特徴が当てはまる際のsupportを計算する。考えられる組み合わせは{２０代以下、３０～４０代、女性}、{２０代以下、３０～４０代、男性}、{２０代以下、女性、男性}、{３０～４０代、男性、女性}の4通りである。しかし、これらの組み合わせを満たす消費者はいないことから、頻出項目セットの候補から外す。

以上の手順により、頻出項目セットが２つ（{２０代以下、女性}、{３０～４０代、男性}）得られる。

次に、データIの頻出項目セットを抽出する。これは上述した販売データ分析の例と同じ手順・結果であり、頻出項目セットが４つ（{おむつ、ビール}、{おむつ、牛乳}、{ビール、牛乳}、{ビール、洗剤}）得られる。

続いて、頻出項目セットからアソシエーションルールを作成する。前提部にデータJ（消費者の特徴）から得られた頻出項目セット、結論部にデータI（消費者の購入商品）を持つアソシエーションルールを作成する場合に考えられるアソシエーションルールは、
・{２０代以下、女性}→{おむつ、ビール}（２０代以下の女性は、おむつおよびビールを一緒に買う傾向がある）、
・{２０代以下、女性}→{おむつ、牛乳}（２０代以下の女性は、おむつおよび牛乳を一緒に買う傾向がある）、
・{２０代以下、女性}→{ビール、牛乳}（２０代以下の女性は、ビールおよび牛乳を一緒に買う傾向がある）、
・{２０代以下、女性}→{ビール、洗剤}（２０代以下の女性は、ビールおよび洗剤を一緒に買う傾向がある）、
・{３０～４０代、男性}→{おむつ、ビール}（３０～４０代の男性は、おむつおよびビールを一緒に買う傾向がある）、
・{３０～４０代、男性}→{おむつ、牛乳}（３０～４０代の男性は、おむつおよび牛乳を一緒に買う傾向がある）、
・{３０～４０代、男性}→{ビール、牛乳}（３０～４０代の男性は、ビールおよび牛乳を一緒に買う傾向がある）、
・{３０～４０代、男性}→{ビール、洗剤}（３０～４０代の男性は、ビールおよび洗剤を一緒に買う傾向がある）
の８通りである。

これらのアソシエーションルールの妥当性を評価するためのスコア（例えば、lift）を計算する。例えば、lift({３０～４０代、男性}→{おむつ、ビール})は、support({３０～４０代、男性}→{おむつ、ビール})=０.３（t₁,t₄, t₉が「３０～４０代」、「男性」、「おむつ」、「ビール」を満たすため）、support({３０～４０代、男性})=０.３、support({おむつ、ビール})=０.５であるため、[数２]より２となる。この値が高いほど、消費者の特徴と購入商品の間の関係性が強いと考えられる。

このようにして、例えば、「おむつ」と「ビール」とが「３０～４０代」の「男性」によって一緒に買われる傾向があることを見出すことができた場合、「３０～４０代」および「男性」と「おむつ」および「ビール」との間に前提部－結論部の関係を見出すことができれば、「お客さんが３０～４０代男性であるとき、おむつおよびビールを一緒に買う傾向がある」という関係性を得ることができる。

上記アルゴリズムにより、相互に関連する異種のデータセット内の関連する項目の識別が可能となる。

上述したアルゴリズムを利用するに際し、解析対象となるデータに連続値が含まれる場合がある。例えば、図１Ａに示すように、解析対象となるデータに連続値および離散値が混在している場合がある。このような場合であっても、後述する手法を用いて、連続値を所定範囲内の値に変換することにより、解析対象となるデータに対して上述したアルゴリズムを適用することが可能である。

本例では、連続値を所定範囲内の値に変換するために、連続値をファジー論理で表現する。これにより、連続値を所定範囲［０，１］内の値に変換することができる。

例えば、図１Ｂに示されるように、気温という連続値がファジー論理で表現されることにより、所定範囲［０，１］内の値に変換され得る。ここでは、気温１３℃が「ｃｏｏｌという項目を０．６個有し、ｃｏｌｄという項目を０．４個有する」ものとして表現されている。

本例では、ファジー論理を用いて連続値を所定範囲内の値に変換するとき、平均値または最頻値から離れるほど所定範囲内の高い値に変換されるような変換式を用いて、連続値を変換することができる。これは、異種の複数のデータ群から異常値の頻出項目セットを探索することができる本開示のアソシエーションルールマイニングにとって重要である。異常値は、平均値または最頻値から離れた出現確率の低い値であることから、この変換により、連続値に含まれる異常値の情報を欠落することなく、むしろ、異常値の情報を増幅することができるからである。平均値または最頻値に近い値は、例えば、平均値または最頻値から遠い値を有さないという情報として扱われることになる。

例えば、平均値または最頻値から離れるほど所定範囲内の高い値に変換することに加えて、または、これに代えて、平均値または最頻値との差が閾値以内のデータを使用しないようにすることができる。これにより、異常値ではない分析に不要なデータを欠落させ、異常値の情報を相対的に増幅することができる。閾値は、任意の値であり得る。閾値は、所望の精度に応じて設定されることができる。

ファジー論理を用いて連続値を所定範囲内の値に変換するための手法は、いくつかの手法が存在する。

例えば、Ｍｉｎ－Ｍａｘスケーリング法、シグモイド関数、ランクベースの変換が挙げられる。

例えば、連続値vのためのＭｉｎ－Ｍａｘスケーリング法は、以下のとおりである。

例えば、連続値vのためのシグモイド関数の式は、以下のとおりである。

例えば、連続値vのためのランクベースの変換の式は、以下のとおりである。

ここで、ｒがランクであり、ｎが観測の数である。

Ｍｉｎ－Ｍａｘスケーリング法、シグモイド関数、ランクベースの変換等の手法は、平均値または最頻値から離れるほど所定範囲内の高い値に変換されるような変換式ではなく、むしろ、最も高い値と最も低い値との間の差を減少させ、異常値の情報を欠落させる傾向がある。本開示の発明者は、Ｍｉｎ－Ｍａｘスケーリング法、シグモイド関数、ランクベースの変換等の手法は、本開示のアルゴリズムのためには好ましくないことを見出した。そして、本開示の発明者は、本開示のアルゴリズムのために好ましいいくつかの手法を予想外に発見した。その手法は、平均値または最頻値から離れるほど所定範囲内の高い値に変換することができるため、本開示のアルゴリズムのために好適であった。

一例において、連続値を所定範囲内の値に変換する手法は、ｚスコアベースの変換である。

図２Ａ～図２Ｂは、ｚスコアベースの変換の概念を示す図である。

まず、図２Ａの左側に示されるように、ある項目についての定量的な値は、複数のビンを有するヒストグラムに変換される。ここで、ヒストグラムのビンの数は、２以上の任意の数であり得る。例えば、ビンの数は、データに応じて設定されてもよいし、複数のデータに対して固定されていてもよい。ビンの数は、ユーザによって指定されてもよい。

図２Ａに示される例では、ｍｉＲ－ｘｘｘの値が、１０個のビンを有するヒストグラムに変換されている。

次いで、図２Ａの右側に示されるように、ヒストグラムは、標準正規分布に変換される。標準正規分布における値は、その９５％が［－２，２］の範囲にある。

次いで、標準正規分布からｚスコアが算出される。そして、ｚスコアを所与の値（例えば、３または２）で除算することにより、値が算出される。この値が、ｚスコアベースの変換における指標となる。例えば、この値の絶対値が１よりも大きいか否かが判定される。

例えば、この値の絶対値が１よりも大きい場合に、この値の絶対値を１とみなし、この値の絶対値が１以下である場合に、この値をそのまま用いる。このようにして算出された値は、所定範囲内［－１，１］の範囲内の値となる。このような値の分布は、例えば、図２Ｂの右側に示される分布となる。メンバーシップ値は、［０，１］の値および、［－１，０］の値の絶対値であり、［０，１］の範囲内の値となる。

上記の所与の値は、例えば、全体の何％を１または０に変換するかに応じて決定され得る任意の値である。所与の値は、好ましくは３であり、より好ましくは２である。。所与の値が３である場合、全体の約０．３％が、変換後に１または０になることになり、所与の値が２である場合、全体の約５％は変換後に１または０になることになる。すなわち、所与の値が２である場合の方が所与の値が３である場合よりも多くの範囲が１または０に変換されることになり、［０，１］の範囲に分布する「その項目が当てはまるのか当てはまらないのか曖昧であることを表す値」が少なくなる。これにより、本開示のアソシエーションルールマイニングのアルゴリズムによってアソシエーションルールが検出しやすくなるため、有用である。

このようにｚスコアベースの変換後の値は、本開示のアルゴリズムにおける利用のために好適である。なぜなら、変換後の値は、最高値および最低値のみならず、平均値（上記分布での０）から閾値以上離れた値をすべて１または－１としており、異常値の情報を欠落することなく、むしろ増幅しているからである。

ある項目について、平均値（上記分布での０）よりも高い値をカテゴリ“高”に分類し、平均値よりも低い値をカテゴリ“低”に分類すると、カテゴリ“高”における値（メンバーシップ値）は、［０，１］の範囲内の値となり、カテゴリ“低”における値（メンバーシップ値）は、絶対値を取ることにより［０，１］の範囲内の値となり、このとき、０は、平均値に対応する値である。それぞれのカテゴリにおける連続値vのメンバーシップ値は、例えば、以下のとおりに表され得る。

上記変換では、平均値または最頻値の周辺の値は、カテゴリ“低”およびカテゴリ“高”のいずれにも属さない。これにより、平均値または最頻値の周辺の値は、本開示のアソシエーションルールマイニングにおいて使用されない。このようにして、平均値または最頻値の周辺の値を異常値ではない分析に不要なデータとして欠落させることで、異常値の情報を相対的に増幅することができる。

別の一例において、連続値を所定範囲内の値に変換する手法は、ヒストグラムベースの変換である。

図３Ａ～図３Ｂは、ヒストグラムベースの変換の概念を示す図である。

まず、図３Ａの左側に示されるように、ある項目についての定量的な値は、複数のビンを有するヒストグラムに変換される。ここで、ヒストグラムのビンの数は、２以上の任意の数であり得る。例えば、ビンの数は、データに応じて設定されてもよいし、複数のデータに対して固定されていてもよい。ビンの数は、ユーザによって指定されてもよい。

図３Ａに示される例では、ｍｉＲ－ｘｘｘの値が、１０個のビンを有するヒストグラムに変換されている。

次いで、図３Ａの右側に示されるように、ヒストグラムの各ビンの値は、その最高頻度のビンの値で除算される。図３Ａに示される例では、最高頻度のビンの値が５５であるため、各ビンの値が５５で除算されている。

次いで、１から除算後の値が減算される。このようにして算出された値は、所定範囲内［－１，１］の範囲内の値となる。メンバーシップ値は、［０，１］の値および、［－１，０］の値の絶対値であり、［０，１］の範囲内の値となる。例えば、図３Ｂに示されるように、最高頻度のビン（すなわち、最頻値）よりも高い値をカテゴリ“高”に分類し、最高頻度のビンよりも低い値をカテゴリ“低”に分類すると、カテゴリ“高”における値（メンバーシップ値）は、［０，１］の範囲内の値となり、カテゴリ“低”における値（メンバーシップ値）は、［０，１］の範囲内の値となり、このとき、０は、最頻値に対応する値である。

このようにヒストグラムベースの変換後の値は、本開示のアルゴリズムにおける利用のために好適である。なぜなら、変換後の値は、最頻値から閾値以内の値（すなわち、最高頻度のビン内の値）をゼロとすることで、平均値との差が閾値以内のデータを使用しないようにすることができ、これにより、異常値ではない不要なデータを欠落させ、異常値の情報を相対的に増幅することができるからである。

ある項目について、最頻値の上限ｂ_Ｈよりも高い値をカテゴリ“高”に分類し、最頻値の下限ｂ_Ｌよりも低い値をカテゴリ“低”に分類すると、それぞれのカテゴリにおける連続値vのメンバーシップ値は、例えば、以下のとおりに表され得る。

ここで、F_vは、vを含むビンの頻度であり、F_Hは、最高頻度のビンの頻度である。

このようにして、解析対象のデータが連続値であっても、本開示のアルゴリズムを適用することができ、異種の複数のデータ群の複数の項目を関係付けることができる。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

図４は、複数の項目を関係付けるためのコンピュータシステム１００の構成の一例を示す。

コンピュータシステム１００は、例えば、サービスプロバイダに設置されているコンピュータシステム（すなわち、サーバ装置）であってもよいし、ユーザが使用するコンピュータシステム（すなわち、ユーザ装置）であってもよい。以下では、サービスプロバイダに設置されているコンピュータシステムを例に説明する。

コンピュータシステム１００は、インターフェース部１１０と、プロセッサ部１２０と、メモリ１３０部とを備える。コンピュータシステム１００は、データベース部２００に接続されている。

インターフェース部１１０は、コンピュータシステム１００の外部と情報のやり取りを行う。コンピュータシステム１００のプロセッサ部１２０は、インターフェース部１１０を介して、コンピュータシステム１００の外部から情報を受信することが可能であり、コンピュータシステム１００の外部に情報を送信することが可能である。インターフェース部１１０は、任意の形式で情報のやり取りを行うことができる。第１の人物が使用する情報端末および第２の人物が使用する情報端末は、インターフェース部１１０を介して、コンピュータシステム１００と通信することができる。

インターフェース部１１０は、例えば、コンピュータシステム１００に情報を入力することを可能にする入力部を備える。入力部が、どのような態様でコンピュータシステム１００に情報を入力することを可能にするかは問わない。例えば、入力部がタッチパネルである場合には、ユーザがタッチパネルにタッチすることによって情報を入力するようにしてもよい。あるいは、入力部がマウスである場合には、ユーザがマウスを操作することによって情報を入力するようにしてもよい。あるいは、入力部がキーボードである場合には、ユーザがキーボードのキーを押下することによって情報を入力するようにしてもよい。あるいは、入力部がマイクである場合には、ユーザがマイクに音声を入力することによって情報を入力するようにしてもよい。あるいは、入力部がカメラである場合には、カメラが撮像した情報を入力するようにしてもよい。あるいは、入力部がデータ読み取り装置である場合には、コンピュータシステム１００に接続された記憶媒体から情報を読み取ることによって情報を入力するようにしてもよい。あるいは、入力部が受信器である場合、受信器がネットワークを介してコンピュータシステム１００の外部から情報を受信することにより入力してもよい。この場合、ネットワークの種類は問わない。例えば、受信器は、インターネットを介して情報を受信してもよいし、ＬＡＮを介して情報を受信してもよい。

インターフェース部１１０は、例えば、コンピュータシステム１００から情報を出力することを可能にする出力部を備える。出力部が、どのような態様でコンピュータシステム１００から情報を出力することを可能にするかは問わない。例えば、出力部が表示画面である場合、表示画面に情報を出力するようにしてもよい。あるいは、出力部がスピーカである場合には、スピーカからの音声によって情報を出力するようにしてもよい。あるいは、出力部がデータ書き込み装置である場合、コンピュータシステム１００に接続された記憶媒体に情報を書き込むことによって情報を出力するようにしてもよい。あるいは、出力部が送信器である場合、送信器がネットワークを介してコンピュータシステム１００の外部に情報を送信することにより出力してもよい。この場合、ネットワークの種類は問わない。例えば、送信器は、インターネットを介して情報を送信してもよいし、ＬＡＮを介して情報を送信してもよい。

プロセッサ部１２０は、コンピュータシステム１００の処理を実行し、かつ、コンピュータシステム１００全体の動作を制御する。プロセッサ部１２０は、メモリ部１３０に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、コンピュータシステム１００を所望のステップを実行するシステムとして機能させることが可能である。プロセッサ部１２０は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。

メモリ部１３０は、コンピュータシステム１００の処理を実行するために必要とされるプログラムやそのプログラムの実行に必要とされるデータ等を格納する。メモリ部１３０は、複数の項目を関連付けるための処理をプロセッサ部１２０に行わせるためのプログラム（例えば、後述する図６に示される処理を実現するプログラム）および／または複数のデータを層別化するための処理をプロセッサ部１２０に行わせるためのプログラムを格納してもよい。ここで、プログラムをどのようにしてメモリ部１３０に格納するかは問わない。例えば、プログラムは、メモリ部１３０にプリインストールされていてもよい。あるいは、プログラムは、ネットワークを経由してダウンロードされることによってメモリ部１３０にインストールされるようにしてもよい。この場合、ネットワークの種類は問わない。メモリ部１３０は、任意の記憶手段によって実装され得る。メモリ部１３０は、例えば、非一過性のコンピュータ読み取り可能な記憶媒体を含み得る。

データベース部２００には、例えば、解析対象の複数のデータ群が格納されている。また、データベース部２００には、例えば、コンピュータシステム１００によって特定された複数の項目間の関係を示すデータが格納され得る。例えば、データベース部２００には、特定された関係に従って層別化されたデータが格納されてもよい。

図４に示される例では、データベース部２００は、コンピュータシステム１００の外部に設けられているが、本発明はこれに限定されない。データベース部２００をコンピュータシステム１００の内部に設けることも可能である。このとき、データベース部２００は、メモリ部１３０を実装する記憶手段と同一の記憶手段によって実装されてもよいし、メモリ部１３０を実装する記憶手段とは別の記憶手段によって実装されてもよい。いずれにせよ、データベース部２００は、コンピュータシステム１００のための格納部として構成される。データベース部２００の構成は、特定のハードウェア構成に限定されない。例えば、データベース部２００は、単一のハードウェア部品で構成されてもよいし、複数のハードウェア部品で構成されてもよい。例えば、データベース部２００は、コンピュータシステム１００の外付けハードディスク装置として構成されてもよいし、ネットワークを介して接続されるクラウド上のストレージとして構成されてもよい。

図５Ａは、プロセッサ部１２０の構成の一例を示す。

プロセッサ部１２０は、受信手段１２１と、抽出手段１２２と、特定手段１２３とを備える。

受信手段１２１は、インターフェース部１１０から情報を受信するように構成されている。

受信手段１２１は、異種の複数のデータ群を受信するように構成されている。受信手段１２１は、例えば、インターフェース部１１０を介してコンピュータシステム１００に入力された異種の複数のデータ群をインターフェース部１１０から受信してもよい。例えば、複数のデータ群は、ユーザが操作するユーザ装置からネットワークを介してコンピュータシステム１００に入力されてもよいし、データベース部２００に格納されている複数のデータ群が、コンピュータシステム１００に入力されてもよい。

抽出手段１２２は、異種の複数のデータ群の各々の複数のデータに基づいて、異種の複数のデータ群の各々からそれぞれの少なくとも１つの項目を抽出するように構成されている。抽出手段１２２は、例えば、データが異常値を有する少なくとも１つの項目を抽出することができる。

抽出手段１２２は、任意の手法を利用して、少なくとも１つの項目を抽出することができる。例えば、処理速度、精度、マシン性能等に応じて、好適な手法で、少なくとも１つの項目を抽出することができる。

一例において、抽出手段１２２は、以下のアプリオリアルゴリズムを利用する。

で、共起する。

次に、アプリオリアルゴリズムは、１長項目セット（１個の項目のみを含む項目セット）の頻度をカウントし、所定の最小supportを満足しない低い頻度を有する１長項目セットが取り除かれる。supportは、Ｘ、Ｙの頻度またはＸおよびＹの共起の頻度を表すスコアである。Ｘ→Ｙの場合、supportは、例えば、以下のように表現される。

別の例において、抽出手段１２２は、上述したアプリオリアルゴリズムまたはその亜種に代えて、ｅｃｌａｔ、ＶＩＰＥＲ、ＭＡＦＩＡ、ＴＭ、ＦＰ－Ｇｒｏｗｔｈ、ＴＦＰ、ＳＳＲ、ＥＸＴＲＡＣＴ等のアルゴリズムを利用し得る。例えば、抽出手段１２２は、再帰的反復アプローチを用いて少なくとも１つの項目を抽出することができる。再帰的反復アプローチは、（ｋ＋１）個の項目を含むセットを探索するためにｋ個の項目を含むセットの情報を利用する。

特定手段１２３は、異種の複数のデータ群の各々から抽出されたそれぞれの少なくとも１つの項目の間の関係を特定するように構成されている。

関係は、例えば、前提部－結論部の関係であり得る。例えば、異種の２つのデータ群について関係を特定する場合、特定手段１２３は、第１のデータ群から抽出された少なくとも１つの項目または第２のデータ群から抽出された少なくとも１つの項目のいずれか一方を前提部とし、他方を結論部とする関係を特定することができる。例えば、異種のｎ個のデータ群について関係を特定する場合、特定手段１２３は、第１のデータ群から抽出された少なくとも１つの項目、第２のデータ群から抽出された少なくとも１つの項目、・・・第ｎのデータ群から抽出された少なくとも１つの項目の少なくとも１つを前提部とし、残りを結論部とする関係を特定することができる。

特定手段１２３は、例えば、２つのデータ群の各々から抽出されたそれぞれの項目の間の関係を特定するために、以下のアルゴリズムを利用することができる。

第１のデータ群から抽出された少なくとも１つの項目を前提部とし、第２のデータ群から抽出された少なくとも１つの項目を結論部として、アソシエーションルールが生成される。さらに、第２のデータ群から抽出された少なくとも１つの項目を前提部とし、第１のデータ群から抽出された少なくとも１つの項目を結論部として、アソシエーションルールが生成される。生成された複数のアソシエーションルールから、実際に出力されるべきアソシエーションルールの数を制限するために、いくつかのスコアが用いられることができる。スコアは、例えば、liftを含む。liftは、例えば、以下のように表現される。

ここで、
Ｘ：第１のデータ群から抽出された少なくとも１つの項目、
Ｙ：第２のデータ群から抽出された少なくとも１つの項目、

liftが所定の閾値以上のアソシエーションルールが、２つのデータ群の関係を示すルールとして出力されることができる。

コンピュータシステム１００によれば、従来のクラスタリングなどのグループ化手法では見いだせなかった関係を見出すことができる。見出された関係に従って、例えば、コンピュータシステム１００は、複数のデータ群内のデータを層別化することができる。これにより、従来見いだせなかった観点から、データを層別化することができるようになる。これは、種々の分析の幅を広げることにつながり得る。

図５Ｂは、プロセッサ部１２０の代替実施形態であるプロセッサ部１２０’の構成の一例を示す。プロセッサ部１２０’は、複数のデータ群のうちの少なくとも１つが、定量的なデータを有する場合に利用され得る。

プロセッサ部１２０’は、受信手段１２１と、変換手段１２４と、抽出手段１２２と、特定手段１２３とを備える。受信手段１２１と、抽出手段１２２と、特定手段１２３とは、図５Ａを参照して説明したものと同一であり、ここでは説明を省略する。

変換手段１２４は、定量的なデータを所定範囲内の値を有するデータに変換するように構成されている。所定範囲内の値は、例えば、［０，１］の範囲内の値であり得る。変換手段１２４は、定量的なデータのうち、平均値または最頻値との差が閾値以内のデータを使用しないようにすることができる。平均値または最頻値に近いデータは、関係を特定するうえで有用ではないので、これらのデータを排除することにより、特定される関係の精度を向上させることができる。閾値は、任意の値に設定され得る。閾値は可変値であってもよいし、固定値であってもよい。

変換手段１２４は、例えば、定量的なデータのうち、平均値または最頻値の値を所定範囲内の下限値（例えば、［０，１］の範囲内の「０」）とし、平均値または最頻値から離れるほど所定範囲内の上限値（例えば、［０，１］の「１」）に近づくように、定量的なデータを変換することができる。このとき、変換手段１２４は、平均値または最頻値から閾値以上離れた値を所定範囲内の上限値（例えば、［０，１］の「１」）とすることができる。

一例において、変換手段１２４は、ｚスコアベースの変換法を利用する。ｚスコアベースの変換法は、図２Ａ～図２Ｂを参照して上述した手法である。

ｚスコアベースの変換後の値は、抽出手段１２２および特定手段１２３による処理のために好適である。なぜなら、変換後の値は、最高値および最低値のみならず、平均値から閾値以上離れた値をすべて１または－１としており、異常値の情報を欠落することなく、むしろ増幅しているからである。

別の例において、変換手段１２４は、ヒストグラムベースの変換法を利用する。ヒストグラムベースの変換法は、図３Ａ～図３Ｂを参照して上述した手法である。

ヒストグラムベースの変換後の値は、抽出手段１２２および特定手段１２３による処理のために好適である。なぜなら、変換後の値は、最頻値から閾値以内の値をゼロとすることで、平均値との差が閾値以内のデータを使用しないようにすることができ、これにより、異常値ではない不要なデータを欠落させ、異常値の情報を相対的に増幅することができるからである。

変換手段１２４による変換により、複数のデータ群のうちの少なくとも１つが定量的なデータを有する場合であっても、抽出手段１２２および特定手段１２３による処理を行うことができ、異種の複数のデータ群の複数の項目を関係付けることができる。

なお、上述したコンピュータシステム１００の各構成要素は、単一のハードウェア部品で構成されていてもよいし、複数のハードウェア部品で構成されていてもよい。複数のハードウェア部品で構成される場合は、各ハードウェア部品が接続される態様は問わない。各ハードウェア部品は、無線で接続されてもよいし、有線で接続されてもよい。本発明のコンピュータシステム１００は、特定のハードウェア構成には限定されない。プロセッサ部１２０をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。本発明のコンピュータシステム１００の構成は、その機能を実現できる限りにおいて上述したものに限定されない。

図６は、本開示のコンピュータシステム１００による処理６００の一例を示す。処理６００は、コンピュータシステム１００のプロセッサ部１２０またはプロセッサ部１２０’において実行され得る。以下では、プロセッサ部１２０によって実行されるものとして説明する。

ステップＳ６０１では、プロセッサ部１２０の受信手段１２１が、異種の複数のデータ群を受信する。受信手段１２１は、例えば、インターフェース部１１０を介してコンピュータシステム１００に入力された異種の複数のデータ群をインターフェース部１１０から受信してもよい。例えば、複数のデータ群は、ユーザが操作するユーザ装置からネットワークを介してコンピュータシステム１００に入力されてもよいし、データベース部２００に格納されている複数のデータ群が、コンピュータシステム１００に入力されてもよい。

ステップＳ６０２では、プロセッサ部１２０の抽出手段１２２が、異種の複数のデータ群の各々の複数のデータに基づいて、異種の複数のデータ群の各々からそれぞれの少なくとも１つの項目を抽出する。抽出手段１２２は、例えば、データが異常値を有する少なくとも１つの項目を抽出することができる。抽出手段１２２は、任意の手法を利用して、少なくとも１つの項目を抽出することができる。

ステップＳ６０３では、プロセッサ部１２０の特定手段１２３が、異種の複数のデータ群の各々から抽出されたそれぞれの少なくとも１つの項目の間の関係を特定する。関係は、例えば、前提部－結論部の関係であり得る。例えば、異種の２つのデータ群について関係を特定する場合、特定手段１２３は、第１のデータ群から抽出された少なくとも１つの項目または第２のデータ群から抽出された少なくとも１つの項目のいずれか一方を前提部とし、他方を結論部とする関係を特定することができる。例えば、異種のｎ個のデータ群について関係を特定する場合、特定手段１２３は、第１のデータ群から抽出された少なくとも１つの項目、第２のデータ群から抽出された少なくとも１つの項目、・・・第ｎのデータ群から抽出された少なくとも１つの項目の少なくとも１つを前提部とし、残りを結論部とする関係を特定することができる。

このようにして、異種の複数のデータ群の複数の項目を関連付けることができる。このような関連付けは、例えば。データの層別化に利用されることができる。

例えば、複数のデータ群のうちの少なくとも１つが、定量的なデータを有する場合、処理６００は、プロセッサ部１２０’によって実行される。この場合、ステップＳ６０２の前に。定量的なデータを所定範囲内の値のデータに変換するステップＳ６０２１が行われる。

ステップＳ６０２１では、プロセッサ部１２０’の変換手段１２４が、定量的なデータを所定範囲内の値を有するデータに変換する。所定範囲内の値は、例えば、［０，１］の範囲内の値であり得る。変換手段１２４は、定量的なデータのうち、平均値または最頻値との差が閾値以内のデータを使用しないようにすることができる。平均値または最頻値に近いデータは、関係を特定するうえで有用ではないので、これらのデータを排除することにより、特定される関係の精度を向上させることができる。閾値は、任意の値に設定され得る。閾値は可変値であってもよいし、固定値であってもよい。

変換手段１２４は、例えば、ｚスコアベースの変換法、または、ヒストグラムベースの変換法を利用して、定量的なデータを変換することができる。

ステップＳ６０２１により、複数のデータ群のうちの少なくとも１つが定量的なデータを有する場合であっても、処理６００により、異種の複数のデータ群の複数の項目を関係付けることができるようになる。

なお、上述した処理は、特定の順序で行われることを説明したが、この順序は例示的であり、処理は、論理的に可能な任意の順序で行われることができる。また、上述した処理の少なくとも１つのステップを省略することが可能であり、上述した処理に少なくとも１つのステップを追加することも可能であることが理解される。

以上、本開示を、理解の容易のために好ましい実施形態を示して説明してきた。以下に、実施例に基づいて本開示を説明するが、上述の説明および以下の実施例は、例示の目的のみに提供され、本開示を限定する目的で提供したのではない。従って、本開示の範囲は、本明細書に具体的に記載された実施形態にも実施例にも限定されず、特許請求の範囲によってのみ限定される。

（人工データセットと生物学的データセットとを用いた例）
本実施例では、人工データセットとして、遺伝子発現プロファイルデータセットを用い、生物学的データセットとして、肝毒性データセットを用いて、種々のアルゴリズムの性能を実証した。概して、データセット内に検出されるべきパターンを人工的に追加し、本開示のアルゴリズムによってこれらのパターンを検出可能かどうかを判定した。

（方法）
アルゴリズムの一例
ＡＲＭの目的は、頻出項目セット（共起する傾向がある項目）を探し、アソシエーションルール（頻出項目セット内の項目間の共起のパターン）を見出すことである。本開示のアルゴリズムの目的は、ｉ）連続値を含む所与のデータセット内の頻出項目セットを探すことと、ｉｉ）異なる所与のデータセットにおいて検出された頻出項目セット間のアソシエーションルールを見出すこととを可能にし、これにより、２つの異種のデータセットを関連付けて、少数の項目に焦点を当てることを可能にすることである。このアルゴリズムのワークフローは、図７に示される。

・アプリオリアルゴリズム
ｎ個の２値属性I = {i₁, i₂,…, i_n}を「項目」の組とし、Iは、「項目セット」と呼ばれる。T = {t₁,t₂, …, t_m}をｍ個の観測の組とし、各ｔは、Ｉを有する。１つの観測がｋ個の項目を有する（Ｉがｋ個の１と、（ｎ－ｋ）個の０とを有する）場合、この項目セットは、ｋ長項目セットと呼ばれる。アソシエーションルールは、以下のように定義され、ここで、Ｘ（前提部と呼ばれる）およびＹ（結論部と呼ばれる）は、

で共起する。
Ｘ→Ｙ

第一に、アプリオリアルゴリズムは、１長項目セット（１個の項目のみを含む項目セット）の頻度をカウントし、ユーザ規定の最小supportを満足しない低い頻度を有する１長項目セットが取り除かれる。supportは、Ｘ，Ｙの頻度またはＸおよびＹの共起の頻度を表すスコアである。X→ Yの場合、supportは、以下のように表現される。

第二に、あり得る（ｋ＋１）長項目セットがｋ長項目セットから生成され、ユーザ規定の最小supportよりも小さいsupportを有するｋ長項目セットを含むものが取り除かれる。これらのプロセスは、収束が達成されるまで繰り返される。この手順を用いて、頻出項目セット（ユーザ規定の最小supportよりも高いsupportを有する項目セット）が検出される。

第三に、各頻出項目セット内の前提部および結論部を探すことによって、アソシエーションルールが生成される。いくつかのスコア（例えば、lift）が一般的に用いられ、以下のように表現される。

・ファジーアソシエーションルールマイニング
従来のＡＲＭアプローチは、入力データがカテゴリ属性を含むことを前提としている。しかしながら、本発明者らが現実に取り扱うデータは、定量的であり得るか、定量的データと定性的データとの混合であり得る。従って、定量的な属性は、カテゴリ属性に変換される定量化のための閾値を設けることによって、定量的な属性がカテゴリ値に変換される場合（例えば、閾値１および閾値２が与えられ、閾値１＜閾値２である場合）、定量的な属性は、以下のカテゴリのうちの１つを割り当てられる。
ｉ）≦閾値１
ｉｉ）閾値１と閾値２との間
ｉｉｉ）閾値２≦
これは、クリスプデータと呼ばれ、この手順は、情報の損失をもたらす。この問題を解決するために、アプリオリアルゴリズムにおいて、ファジーロジックが導入される。

ファジーロジックは、「メンバーシップのグレードの連続体を有するオブジェクトのクラス」として定義され、定量的な属性は、０～１の範囲の「メンバーシップ値」を有するいくつかのカテゴリに変換される（閾値１における定量的な属性は、０．５カテゴリｉ）および０．５カテゴリｉｉ）に変換される）。supportのようなアソシエーションルールマイニングにおけるいくつかの重要なスコアを計算するために用いられる和集合、共通部分、および補集合の概念は、ファジーセットにも拡張され得る。

・メンバーシップ値の計算のための関数
定量的な属性をファジーカテゴリセットに変換するために、主な問題は、メンバーシップ関数をどのように定義するかであり、ここで、メンバーシップ関数は、メンバーシップ値を計算するために用いられる。メンバーシップ値が０～１の範囲であるため、一般的に、min-maxスケーリング、シグモイド変換、ランクベースの変換が用いられる。しかしながら、これらの方法は、最も該当するカテゴリと最も該当しないカテゴリとの間のメンバーシップ値の差を減少させ、アプリオリアルゴリズムにとってファジーすぎるデータを取得する。この予備的な観測から、本発明者らは、後述するように、新規のメンバーシップ関数を設計した。

・ヒストグラムベースの変換（図７ｂ）
定量的データの頻度は、ユーザ規定の数のビンを有するヒストグラムに変換される。定量的な属性は、３つのカテゴリ、「低」、「平均」、「高」に変換される。定量的な属性vのためのこれらのメンバーシップ値は、以下のように表現され、ここで、定量的な属性vを含むビンの頻度がF_vであり、最高のビンの頻度がF_Hであり、最高のビンの下限がb_Lであり、最高のビンの上限がb_Hである。

カテゴリ、「低」、「平均」、または「高」のメンバーシップ値の合計は、１となることになっている。しかしながら、カテゴリ「平均」内の情報はアソシエーションルールマイニングには用いられない。なぜなら、それは、頻繁に発生する項目として扱われ、カテゴリ「低」またはカテゴリ「高」を含む、興味深いアソシエーションルールを検出することができないからである。

・ｚスコアベースの変換（図７ｃ）
定量的データの頻度は、ｚスコアを取得するために、標準正規分布に変換された。データの９５％が－２～２の範囲にあることになっている。定量的な属性は、３つのカテゴリ、「低」、「平均」、または「高」に変換される。定量的な属性vのためのメンバーシップ値は、以下のように表現される。

ヒストグラムベースの変換と同様に、カテゴリ、「低」、「平均」、および「高」のメンバーシップ値の合計は、１となることになっている。しかしながら、カテゴリ「平均」内の情報はアソシエーションルールマイニングには用いられない。なぜなら、それは、頻繁に発生する項目として扱われ、カテゴリ「低」またはカテゴリ「高」を含む、興味深いアソシエーションルールを検出することができないからである。

・比較のために用いられる他のメンバーシップ関数
定量的な属性vのためのmin-maxスケーリングのための式は、以下のとおりである。

定量的な属性vのためのシグモイド関数の式は、以下のとおりである。

定量的な属性vのためのランクベースの変換の式は、以下のとおりである。

ここで、rがランクであり、nが観測の数である。

・異種データセットの関連付け
従来のＡＲＭアプローチでは、アソシエーションルールは、各頻出項目セット“内”で生成される。本発明者らの方法の目的は、アソシエーションルールの前提部が１つのデータセットから導出され、アソシエーションルールの結論部が別のデータセットから導出されるようにアソシエーションルールを生成することであり、これにより、検出されたアソシエーションルールは、相互に関連する異なるデータセットから導出される項目セットを表す。この目的のために、本発明者らは、後述するように、新規なアルゴリズムを開発した。

ｐ個の属性のI₁ = {i_1,1,i_1,2, …, i_1,p}およびｑ個の属性のI₂= {i_2,1, i_2,2, …, i_2,q}を「項目」の組とし、I₁およびI₂は、「項目セット」と呼ばれる。T₁= {t_1,1, t_1,2, …, t_1,m}およびT₂= {t_2,1, t_2,2, …, t_2,m}をｍ個の観測の組とし、各t₁、t₂は、それぞれI₁、I₂を有する。T₁およびT₂が同数の観測を有し、t_1,aおよびt_2,a(a∈{1, 2, …, m})が相互に関連付けられる（例えば、t_1,a: 患者ＩＤａの医療記録、t_2,a:患者ＩＤａの遺伝子発現プロファイル）ものとする。T₁および／またはT₂が定量的な属性を含む場合、それらの属性のためのカテゴリ「低」およびカテゴリ「高」のメンバーシップ値の計算が前処理として必要とされる。

第一に、ファジーアプリオリアルゴリズムは、ユーザ規定の最小supportを用いて、T₁およびT₂において別々に頻出項目セットを検出する。supportは、以下のように表現される。

ここで、
Ｘ（ａ）：観測ａのＸのメンバーシップ値
Ｙ（ａ）：観測ａのＹのメンバーシップ値

第二に、前提部がT₁において検出された頻出項目セットから選択され、結論部がT₂において検出された頻出項目セットから選択され、逆もまた同様であるように、アソシエーションルールが生成される。出力されるべきルールの数を制限するために、いくつかのスコアが用いられることができる。例えば、liftは、以下のように表現される。

この新規のアルゴリズムは、相互に関連する異種のデータセット内の関連する項目の識別を可能にする。

実験のための肝毒性データセットの前処理および後処理
本発明者らが実験のために使用したオリジナルの生物学的データ（肝毒性データ）において、病理組織学的な観測が「最小」、「軽度」、「中程度」、または「顕著」として記載された。本実施例の実験のために、これらはそれぞれ、「０」、「１」、「２」、または「３」に変換された。参考とした論文（Bushel, P.R., Wolfinger, R. D., & Gibson, G. (2007). Simultaneous clustering of geneexpression data with clinical chemistry and pathological evaluations revealsphenotypic prototypes. BMC Systems Biology, 1(1), 15.）の著者Bushelは、５０ｍｇ／ｋｇ体重および１５０ｍｇ／ｋｇのアセトアミノフェンが準毒性であり、１５００ｍｇ／ｋｇ体重および２０００ｍｇ／ｋｇのアセトアミノフェンが極めて毒性が高いと報告した(Bushel,et al., 2007)。従って、データ２における用量レベルの列は、それらの毒性レベルを表す２値属性に変換された（５０ｍｇ／ｋｇ体重および１５０ｍｇ／ｋｇ：０、１５００ｍｇ／ｋｇ体重および２０００ｍｇ／ｋｇ：１）。さらに、データ２における時点の列が、それらの毒性レベルを表す２値属性に変換された（６、１８、４８ｈ：０、２４ｈ：１）。これは、２４ｈが毒性のピークであり、アセトアミノフェン処置の４８ｈ後はラットが回復期であったと報告されたからである(Bushel,et al., 2007)。データ１（遺伝子発現プロファイル）において、遺伝子がAgilentプローブＩＤによって示された。DAVID [(Dennis, et al.,2003)]は、AgilentプローブＩＤをEntrez遺伝子ＩＤおよび遺伝子名に変換するために用いた。

実験
産業技術総合研究所 (AIST；日本)において動作するAI Bridging Cloud Infrastructure (ABCI)を実験のために用いた。

実装
本実施例で用いた方法は、Python 3.0において実装され、pandas, joblib, およびos モジュールに依存する。頻出項目セットの検出において、mlxtendというpythonモジュールの中にあるaprioriという関数のコードに編集を加えて、ファジーロジックを扱えるように改変したものを用いた。

結果
本発明者らは、サブセット結合のための対の頻出項目セットを検出するための本実施例で用いたアルゴリズムの性能を確認するために、２つの人工データセットおよび１つの実世界生物学的データセットを用いて実験を行った。本実施例で使用したアルゴリズムは、任意の対のデータセットに適用されることができる。簡略化のために、本研究では、データセットは、１つの遺伝子発現プロファイルデータ（データ１）および１つの臨床測定データ（データ２）から成ると仮定する。

・人工データ（小）
図８に示されるように人工データを生成した。概して、遺伝子発現プロファイルデータは、１００行（例えば、１００人の患者）および２００列（例えば、２００個の遺伝子）を有し、ランダム値が標準正規分布に従って生成した。臨床測定データは、同一の手順で生成した。本発明者らは、検出されるべき頻出項目セットとして、これらの２つの行列内に異なる平均および標準偏差（Ｓ．Ｄ．）を有する正規分布に従ってランダムに生成されたいくつかの不規則パターンを追加した。本発明者らは、表４におけるパターンがうまく検出されたかどうかを確認することによって、アルゴリズムの性能を評価した。

このデータセットを用いて、本発明者らは、５個のメンバーシップ関数、min-maxスケーリング、シグモイド関数を用いた変換、ランクベースの変換、ヒストグラムベースの変換、ｚスコアベースの変換を比較した。これらの方法の説明は、上記（方法）のセクションに見ることができる。表５は、この結果を要約する。本発明者らが試験を行った特定の設定を用いて、ヒストグラムベースの関数およびｚスコアベースの関数のみが一対の頻出項目セットを生成し、本発明者らが追加した３つのパターンすべてが生成されたルールに含まれていた。他の３つの方法（min-maxスケーリング、シグモイド、ランクベース）は、本発明者らが試験したパターンでは、これらのいずれも検出しなかった。

・人工データ（大）
次に、本発明者らは、大きなデータセットで実験した。１０００行および２０００列を有する対の行列が、人工データ（小）と同じ手順で生成され、本発明者らは、図７ｂ）および表４に示されるように検出されるべき３つのパターンを追加した。再び、ヒストグラムベースの関数およびｚスコアベースの関数が、出力において、本発明者らが生成した３つのパターン全てをうまく検出した（表５）。

・実データ（肝毒性）
最後に、本発明者らは、実世界の生物学的データセット[(Bushel, et al., 2007)]を用いて実験した。高い用量で肝毒性をもたらすと知られているアセトアミノフェン（５、１５０、１５００、２００００ｍｇ／ｋｇ体重）を６４匹のラットに投与し、これらは、６、１８、２４、または４８ｈ後に屠殺された。肝遺伝子発現プロファイルを、Agilentマイクロアレイ分析によって取得し、３１１６の遺伝子を、アセトアミノフェン処置によって有意に発現量が異なるものとして選択した（図９Ａ、データ１）。さらに、４８個の病理組織学的観察および１０個の臨床測定値をこれらのラットから取得した（図９Ａ、データ２）。方法セクションで記載したように、実験条件（用量および時点）が、データ２に追加された。

本発明者らが試験したパラメータ設定（データ１およびデータ２に対する最小support：０．０２、データ１およびデータ２の最小項目：１０、lift：４．８）、３９８６対のアソシエーションルールが生成された。これらのうち、最高の説得力を有する対のアソシエーションルールは、図９Ｂに示される。結果は、低い値のコレステロールを伴う、高い値のalkalinephosphatase (ALP)、alanine aminotransferase (ALT)、aspartate aminotransferase(AST)、およびtotal bile acid (TBA)が、LLL_Centrilob_Necrosis、LLL_Hepato_Hypertrophy、LML_Centrilob_NecrosisおよびLML_Sinusoid_Cogestion等の病理組織学的観測と共起することを実証し、これらは、アセトアミノフェン処置の毒性用量および時点に関連していた。結果におけるこれらの属性は、その前提部において、１０個のプローブ('A_43_P10003_High'(gene name: Hsph1), 'A_42_P717602_High' (gene name: Mat2a), 'A_42_484423_High'(gene name: Pgs1), 'A_43_P17455_Low' (gene name: Dnah9), 'A_43_P14864_High'(gene name: Dynll1), 'A_43_P16523_High' (gene name: Nomo1), 'A_43_P19279_Low'(gene name: Lyzl4), 'A_43_P12811_High' (gene name: Srm), 'A_42_P655825_High'(gene name: Smg9), 'A_42_P804499_High' (n.d.))とペアにされた。この結果は、高い値のALP, ALT, AST,TBAおよび低い値のコレステロールが肝毒性のマーカーとしてみなされ、アセトアミノフェンの高い用量が肝毒性をもたらすという事実と整合している。

アセトアミノフェンの過剰用量が洞様毛細血管のうっ血および中心体壊死をもたらすことが報告されており[(Boyd and Bereczky, 1966)]、これは、中間代謝物によってもたらされ、致命的になり得ることが報告されている[(Prescott,1980)]。加えて、アセトアミノフェンは、ラットにおいて肝細胞肥大ももたらす[(Kishi, et al., 2020)]。さらに、前提部において検出された遺伝子のいくつかは、肝臓損傷に関与していることを示していた。Methionineadenosyltransferase (Mat)は、S-adenosylmethionine (AdoMet)の生合成の原因であり、哺乳類には、Mat1aおよびMat2aという２つのアイソフォームが存在する。Mat2aは、肝臓損傷に応答して誘導され、細胞分裂および肝細胞増殖を加速する[(Martinez-Chantar,et al., 2002)]。AdoMetは、antioxidative glutathione (GSH)の前駆体およびポリアミンとして機能し、細胞増殖およびアポトーシスに関与する。アセトアミノフェン処置によるＧＨＳ枯渇および肝細胞壊死に対するその影響は、十分に研究されてきた[(Martinez-Chantar,et al., 2002)]。加えて、Srmがポリアミン合成において重要な役割を果たしている。肝臓損傷の条件下で、Mat1aの下向き調節およびMat2aの上向き調節が観測され、これは、肝臓損傷に対する保護効果を有するAdoMetの減少をもたらす[(Luand Mato, 2012)]。データベースサーチは、Hsph1がMat2aと相互作用することを実証した[(Rouillard, et al.,2016)]。Pgs1は、ホスファチジルグリセロールおよびカルジオリピンの生合成の原因であり、これらは、内部ミトコンドリア膜に位置し、その活性酸素種（ＲＯＳ）誘導酸化は、ミトコンドリア機能不全と関連付けられる[(Paradies,et al., 2014)]。AdoMetは、慢性アルコール処置によって惹起されるミトコンドリア機能不全を防止することが報告されている[(Bailey,et al., 2006)]。

以上をまとめると、これらの結果は、メチオニン代謝の異常調節およびAdoMetの減少が、アセトアミノフェン処置によってもたらされた肝細胞壊死、ミトコンドリア異常調節、および細胞増殖と関連付けられることを示している。これらの報告の概要を、図１０に示す。

考察
本実施例では、本発明者らは、対のデータにおいて相互に関連する属性を見出すための新規のアプローチを提示し、本発明者らは、これをサブセット結合アプローチとも呼ぶ。相互合致を最大にするために複数の観点のデータを結合するのではなく、このアプローチは、それらの共起に従って、着目属性を見出す。このアプローチの利点は、共起の統計が容易に計算可能であり、これが出力を解釈可能にすることである。加えて、このアプローチは、事前知識に依存することなしに、データドリブンの手法で、異種データを関連付けることができ、入力データに応じて、バイオマーカー、事象の分子基盤の影響、または患者層別化等の多様な目的のために用いられることが可能である。

（実施例２）
以下の人工的な例を用いて、さらに解析する。

図１１に示されるように、動作確認用の人工データとして、異種の複数のデータ群に相当する２つの行列（ｔｒａｎｓａｃｔｉｏｎｓ＿ｍ、ｔｒａｎｓａｃｔｉｏｎｓ＿ｏ）を作成した。これらの行列はともに３６０×５００とし、平均０、標準偏差１の正規分布から発生させた乱数から構成される。これらの行列では行が一致しており、列は一致していない。さらに、ｔｒａｎｓａｃｔｉｏｎｓ＿ｍの１～３０行目、１～５列目については、平均－２、標準偏差０．５の正規分布から発生させた乱数に置換した。また、ｔｒａｎｓａｃｔｉｏｎｓ＿ｍの３１～６０行目、２，４，８，１０，１２列目については、平均２、標準偏差０．５の正規分布から発生させた乱数に置換した。同様に、ｔｒａｎｓａｃｔｉｏｎ＿ｏの１～３０行目、６０，７０，８０，９０，１００列目については、平均２、標準偏差０．５の正規分布から発生させた乱数に置換した。また、ｔｒａｎｓａｃｔｉｏｎｓ＿ｏの３１～６０行目、１００，２００，３００，４００列目については、平均－２、標準偏差０．５の正規分布から発生させた乱数に置換した。このようなデータ群から、「ｔｒａｎｓａｃｔｉｏｎｓ＿ｍの１～５列目が異常値（平均値または最頻値より低い）である場合、ｔｒａｎｓａｃｔｉｏｎｓ＿ｏの６０，７０，８０，９０，１００列目が異常値（平均値または最頻値より高い）である傾向がある」という関係と「ｔｒａｎｓａｃｔｉｏｎｓ＿ｍの２，４，８，１０，１２列目が異常値（平均値または最頻値より高い）である場合、ｔｒａｎｓａｃｔｉｏｎｓ＿ｏの１００，２００，３００，４００列目が異常値（平均値または最頻値より低い）である傾向がある」という関係を抽出することを目的とする。

次に、上記の方法で作成した人工データｔｒａｎｓａｃｔｉｏｎｓ＿ｍの数値の分布をヒートマップで可視化した。この結果を図１２に示す。値が低いほど青、０付近で赤、値が高いほど白で表示されている。意図的に生成されたパターン（ｔｒａｎｓａｃｔｉｏｎｓ＿ｍの１～５列目が異常値（平均値または最頻値より低い）、かつｔｒａｎｓａｃｔｉｏｎｓ＿ｍの２，４，８，１０，１２列目が異常値（平均値または最頻値より高い））が確認できる。

次に、データを所定範囲内の値に変換する式として、ｍｉｎ－ｍａｘスケーリングを用いた場合に得られる変換後の数値の分布をヒートマップで可視化した。この結果を図１３に示す。各値は「平均値または最頻値より低い項目」および「平均値または最頻値より高い項目」について変換後の値を算出するため列数は２倍となり、「ｔｒａｎｓａｃｔｉｏｎｓ＿ｍの１～５列目が平均値または最頻値より低い」という項目の値、かつ「ｔｒａｎｓａｃｔｉｏｎｓ＿ｍの２，４，８，１０，１２列目が平均値または最頻値より高い」という項目の値が高くなる（ヒートマップでは白で表示される）。全体的に赤く（値が０．５付近）、各項目について当てはまり具合が曖昧であることを意味する。

次に、データを所定範囲内の値に変換する式として、シグモイド関数を用いた場合に得られる変換後の数値の分布をヒートマップで可視化した。この結果を図１４に示す。ヒートマップの見方および解釈は、図１３と同様であり、各値は「平均値または最頻値より低い項目」および「平均値または最頻値より高い項目」について変換後の値を算出するため列数は２倍となり、「ｔｒａｎｓａｃｔｉｏｎｓ＿ｍの１～５列目が平均値または最頻値より低い」という項目の値、かつ「ｔｒａｎｓａｃｔｉｏｎｓ＿ｍの２，４，８，１０，１２列目が平均値または最頻値より高い」という項目の値が高くなる（ヒートマップでは白で表示される）。全体的に赤く（値が０．５付近）、各項目について当てはまり具合が曖昧であることを意味する。

次に、データを所定範囲内の値に変換する式として、数値の大小の順位を基にした式（ランクベースの変換）を用いた場合に得られる変換後の数値の分布をヒートマップで可視化した。この結果を図１５に示す。ヒートマップの見方および解釈は、図１３と同様であり、各値は「平均値または最頻値より低い項目」および「平均値または最頻値より高い項目」について変換後の値を算出するため列数は２倍となり、「ｔｒａｎｓａｃｔｉｏｎｓ＿ｍの１～５列目が平均値または最頻値より低い」という項目の値、かつ「ｔｒａｎｓａｃｔｉｏｎｓ＿ｍの２，４，８，１０，１２列目が平均値または最頻値より高い」という項目の値が高くなる（ヒートマップでは白で表示される）。全体的に赤く（値が０．５付近）、各項目について当てはまり具合が曖昧であることを意味する。

次に、データを所定範囲内の値に変換する式として、ｚスコアベースの変換を用いた場合に得られる変換後の数値の分布をヒートマップで可視化した。この結果を図１６に示す。ヒートマップの見方は図１３と同様である。全体的に黒く（値が０付近）、図１２～１５の方法と比較して各項目の当てはまり具合の曖昧さを許容しないことを意味する。

次に、データを所定範囲内の値に変換する式として、ヒストグラムベースの変換を用いた場合に得られる変換後の数値の分布をヒートマップで可視化した。この結果を図１７に示す。ヒートマップの見方および解釈は図１６と同様であり、全体的に黒く（値が０付近）、図１２～１５の方法と比較して各項目の当てはまり具合の曖昧さを許容しないことを意味する。

（実施例３）
（食料品購入データと人間ドックデータとを用いた例）

例えば、第１のデータ群として食料品購入データを入力し、第２のデータ群として人間ドックデータを入力して、本開示のアルゴリズムから出力を得ることができる。

例えば、第１のデータ群として食料品購入データを入力し、第２のデータ群として同一人物の人間ドックデータを入力して、本開示のアルゴリズムから出力を得ることができる。

食料品購入データは、１ヶ月にどのような食品（例えば、緑黄色野菜、根菜、牛肉、豚肉、鶏肉、魚、アルコール飲料、加工食品）を何回購入したかという購入頻度の情報を含む。人間ドックデータは、身体計測、血液検査、尿検査、便潜血検査を含む。

これらのデータに対して、本開示のアルゴリズムを適用すると、一例では、食品購入データからは「アルコール飲料“高”、加工食品“高”」が頻出項目セットとして抽出される。人間ドックデータからは、一例では、「中性脂肪“高”、ＬＤＬ－コレステロール“高”、血圧“高”」が頻出項目セットとして抽出される。

このように抽出された頻出項目セットからアソシエーションルールを特定すると、一例では、「アルコール飲料・加工食品の購入頻度が高い場合、中性脂肪・ＬＤＬ－コレステロール・血圧が高い傾向がある」というルールが特定され得る。これは、食生活が健康状態に影響を与えている（食生活の改善により健康状態の改善につながる可能性を示唆）ことを表していると考えられる。

以上のように、本開示の好ましい実施形態を用いて本開示を例示してきたが、本開示は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。本明細書において引用した特許、特許出願および他の文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。

本開示は、複数の項目を関係付けるための方法等を提供するものとして有用である。また、本開示は、特定された関係に従って、複数のデータを層別化するための方法等を提供するものとしても有用である。

１００コンピュータシステム
１１０インターフェース部
１２０プロセッサ部
１３０メモリ部

Claims

複数の項目を関係付けるための方法であって、
異種の複数のデータ群を受信することであって、前記異種の複数のデータ群の各々は、複数の項目についての複数のデータを含む、ことと、
前記異種の複数のデータ群の各々の複数のデータに基づいて、前記異種の複数のデータ群の各々からそれぞれの少なくとも１つの項目を抽出することと、
前記異種の複数のデータ群の各々から抽出されたそれぞれの少なくとも１つの項目の間の関係を特定することと
を含む方法。
前記関係は、
前記異種の複数のデータ群のうちの１つから抽出された少なくとも１つの項目を前提部とし、前記異種の複数のデータ群のうちの別の１つから抽出された少なくとも１つの項目を結論部とすることを含む、請求項１に記載の方法。
前記関係を特定することは、
前記異種の複数のデータ群の各々について、
前記異種の複数のデータ群のうちの１つから抽出された少なくとも１つの項目を前提部とし、前記異種の複数のデータ群のうちの別の１つから抽出された少なくとも１つの項目を結論部としたときのスコアを算出することと、
前記スコアに基づいて、前記前提部とすべき少なくとも１つの項目と、前記結論部とすべき少なくとも１つの項目とを決定することと
を含む、請求項２に記載の方法。
前記抽出することは、
前記異種の複数のデータ群の各々の複数の項目のうち、データが異常値を有する少なくとも１つの項目を抽出すること
を含む、請求項１～３のいずれか一項に記載の方法。
前記抽出することは、再帰的反復アプローチを用いて少なくとも１つの項目を抽出することを含む、請求項１～５のいずれか一項に記載の方法。
前記複数のデータ群は、定量的なデータを含む、請求項１～５のいずれか一項に記載の方法。
前記定量的なデータを所定範囲内の値を有するデータに変換することをさらに含む、請求項６に記載の方法。
前記変換することは、前記定量的なデータのうち、平均値または最頻値との差が閾値以内のデータを使用しないようにすることを含む、請求項７に記載の方法。
前記変換することは、前記定量的なデータのうち、平均値または最頻値の値を前記所定範囲内の下限値とし、前記平均値または最頻値から離れるほど、前記所定範囲内の上限値に近づくようにすることを含む、請求項７または請求項８に記載の方法。
前記変換することは、前記平均値または最頻値から閾値以上離れた値を前記所定範囲内の上限値とすることをさらに含む、請求項９に記載の方法。
前記変換することは、
前記定量的なデータからｚスコアを算出することと、
前記ｚスコアを所与の値で除算することと、
前記除算後の値のうち、１を超えるものを１とし、－１を下回るものを－１とすることとにより、値を得ることと、
前記得られた値のうち負の値の絶対値をとることと、
を含む、請求項７に記載の方法。
前記変換することは、
前記定量的なデータをヒストグラムに変換することと、
前記ヒストグラムの複数のビンのうちの最高頻度のビンの値で複数のビンの各々を除算することと、
１から前記除算後の値を減算することと
を含む、請求項７に記載の方法。
複数のデータを層別化するための方法であって、
請求項１～１２のいずれか一項に記載の方法に従って特定された関係に従って、前記複数のデータ群内のデータを層別化すること
を含む方法。
複数の項目を関係付けるためのシステムであって、
異種の複数のデータ群を受信する受信手段あって、前記異種の複数のデータ群の各々は、複数の項目についての複数のデータを含む、受信手段と、
前記異種の複数のデータ群の各々の複数のデータに基づいて、前記異種の複数のデータ群の各々からそれぞれの少なくとも１つの項目を抽出する抽出手段と、
前記異種の複数のデータ群の各々から抽出されたそれぞれの少なくとも１つの項目の間の関係を特定する特定手段と
を備えるシステム。
複数の項目を関係付けるためのプログラムであって、前記プログラムは、プロセッサを備えるコンピュータシステムにおいて実行され、前記プログラムは、
異種の複数のデータ群を受信することであって、前記異種の複数のデータ群の各々は、複数の項目についての複数のデータを含む、ことと、
前記異種の複数のデータ群の各々の複数のデータに基づいて、前記異種の複数のデータ群の各々からそれぞれの少なくとも１つの項目を抽出することと、
前記異種の複数のデータ群の各々から抽出されたそれぞれの少なくとも１つの項目の間の関係を特定することと
を含む処理を前記プロセッサに行わせる、プログラム。