本発明の実施形態において、因子価値抽出部は、前記モデル記録部に蓄積されたデータから、少なくとも1つの現象についてのモデルの回帰方程式における説明変数に対応する因子を示す因子データの遷移と、評価データの遷移とを検出することにより、モデルの回帰方程式に対して追加または削除された説明変数に対応する因子の当該モデルの予測精度向上に寄与する度合いを示す因子価値データを生成し、前記因子価値記録部に記録するモデル内因子価値抽出部と、前記モデル記録部に蓄積されたデータから、複数のモデルの回帰方程式それぞれに含まれる説明変数に対応する因子を示す因子データおよび評価データを参照することにより、複数のモデルに対する因子の予測精度向上への寄与度合いを示す因子価値データを生成し、前記因子価値記録部に記録するモデル間因子価値抽出部とを含むことが好ましい。
モデル内因子価値抽出部は、1つの現象についてのモデルの回帰方程式における説明変数に対応する因子データの遷移と、評価データの遷移とを検出することにより、回帰方程式に対して追加または削除された説明変数に対応する因子と、追加または削除の前後における評価データとを比べることができる。そのため、モデル内因子価値抽出部は、モデルに追加またはモデルから削除された説明変数に対応する因子のモデルに対する寄与度合いを得ることができる。
また、モデル間因子価値抽出部は、複数のモデルにおける説明変数に対応する因子を示す因子データと、評価データを参照することにより、複数のモデルに共通して含まれている説明変数(すなわち因子)を検出することができる。すなわち、複数のモデルの現象に対して共通して影響を与える因子が検出される。そのため、モデル間因子価値抽出部は、複数のモデルの予測精度向上に寄与する因子の、その寄与度合いを示す因子価値データを得ることができる。
このようにして、モデル内因子価値抽出部が、それぞれのモデルにおける因子と評価データの遷移に基づいて得られる因子の価値を計算し、モデル間因子価値抽出部が、複数のモデルにおける因子の情報に基づいて得られる因子の価値を計算する。これにより、モデル内因子価値抽出部と、モデル間因子価値抽出部は、それぞれ異なる観点から因子の価値を決定するので、より総合的な因子の価値を示すデータが得られる。
本発明の実施形態において、前記モデル内因子価値抽出部は、検出された前記因子データの遷移においてモデルの回帰方程式に追加または削除された説明変数に対応する因子について、追加または削除の前後における当該モデルの予測精度の変化を前記モデル記録部に蓄積された評価データから検出し、当該変化の度合いに基づいて当該説明変数に対応する因子の因子価値データを生成することが好ましい。
これにより、モデル内因子価値抽出部は、モデルの回帰方程式に対して説明変数(すなわち因子)が追加または削除された場合に、その因子の追加または削除によるモデルの予測精度の変化度合いに応じて、その因子の因子価値データを生成することができる。そのため、モデル内因子価値抽出部は、モデルにおける因子の追加または削除が予測精度にどのように影響を与えるかを示す情報を盛り込んだ因子価値データを生成することができる。
本発明の実施形態において、前記モデル管理部は、前記モデルの適用時期を示す適用時期データと、前記モデルの回帰方程式に含まれる各説明変数に対応する各因子の有意性を示す有意性データとをさらに取得して、前記モデル記録部に記録し、前記モデル内因子価値抽出部は、少なくとも1つの現象について、モデルの適用時期の変化を、前記モデル記録部に蓄積された適用時期データを基に検出し、前記適用時期の変化の前後における、前記モデルの予測精度の変化および前記モデルにおける各因子の有意性データの変化に基づいて、当該適用時期の変化に伴ってモデルの予測精度向上に寄与する因子を抽出し、抽出した因子のモデルへの寄与度合いを示す因子価値データを生成することが好ましい。
これにより、モデル内因子価値抽出部は、ある現象についてのモデルの適用時期が変化した場合に、モデルの予測精度の変化度合いおよび各因子の有意性の変化度合いに応じて、当該適用時期の変化に伴ってモデルの予測精度向上に寄与する因子を抽出することができる。そして、抽出された因子の因子価値データが生成される。そのため、モデル内因子価値抽出部は、適用時期の変化に伴ってモデルの因子が予測精度へどの程度寄与するかを示す情報を盛り込んだ因子価値データを生成することができる。
本発明の実施形態において、前記モデル管理部は、モデルの回帰方程式に含まれる各説明変数に対応する各因子の有意性を示す有意性データをさらに取得して、前記モデル記録部に記録し、前記モデル間因子価値抽出部は、前記モデル記録部に記録されたデータのうち、特定の現象を対象とする複数のモデルの回帰方程式それぞれに含まれる説明変数群に対応する因子群の因子データと当該因子群それぞれの有意性データとを参照して、前記複数のモデルに対して共有して影響を与える因子の寄与度合いを示す因子価値データを生成することが好ましい。
これにより、モデル間因子価値抽出部は、例えば、ある因子が、複数のモデルの予測精度向上に共通して寄与するのか、または、一部のモデルにのみ寄与するのか等といった複数のモデルにおいて寄与する因子の共通性または非共通性を示す情報を盛り込んだ因子価値データを生成することができる。
本発明の実施形態において、前記モデル管理部は、前記モデルの適用時期を示す適用時期データと、モデルの回帰方程式の説明変数に対応する因子の有意性を示す有意性データをさらに取得して、前記モデル記録部に記録し、前記モデル間因子価値抽出部は、前記モデル記録部に記録されたデータのうち、同じ現象を対象とする複数のモデルであって、適用時期の異なる複数のモデルそれぞれの回帰方程式における説明変数群に対応する因子群の因子データと当該因子群それぞれの有意性データを参照して、前記適用時期の異なる複数のモデルに対する因子の寄与度合いを示す因子価値データを生成することが好ましい。
モデル間因子価値抽出部は、同じ現象を対象とするが適用時期の異なる複数のモデルそれぞれに含まれる因子群と当該因子群それぞれの有意性を参照することにより、因子が、複数の適用時期にまたがってどのように予測精度向上に寄与したのかを示す情報を盛り込んだ因子価値データを生成することができる。例えば、モデルに含まれる因子が、長期にわたって安定して予測精度の向上に寄与しているか否か、すなわち長期安定性または不安定性を示す情報を、因子価値データに盛り込むことができる。
本発明の実施形態において、前記条件取得部は、前記情報処理装置で使われているまたは使われる予定の既存モデルの回帰方程式と、前記既存モデルの対象の現象を特定する情報とを、前記モデル条件データとして前記情報処理装置から取得し、前記モデル提案部は、前記因子価値記録部に記録された因子価値データで示される因子のうち、前記既存モデルの対象の現象と同じもしくは類似する現象を示す現象データと対応付けられた因子価値データを取得することにより、前記既存モデルの予測精度向上に寄与する推奨因子を抽出し、抽出した当該推奨因子に対応する説明変数を含む回帰方程式のモデルを作成して、前記既存モデルの代替モデルをとして前記支援データに含め、前記情報処理装置へ出力することが好ましい。
これにより、モデル作成支援システムは、情報処理装置の既存モデルの予測精度を向上させる、妥当性の高い代替モデルを作成することができる。
本発明の実施形態において、前記モデル提案部は、前記既存モデルの回帰方程式に含まれる説明変数に対応する因子を基準因子として、当該基準因子の因子価値データと、基準因子以外の他の複数の因子の因子価値データとを比較することにより、前記基準因子と前記他の複数の因子それぞれと間における予測精度向上に寄与する度合いの類似度を計算し、当該類似度を基に、前記既存モデルの予測精度向上に寄与しうる推奨因子を前記他の複数の因子から抽出して、前記代替モデルを作成することが好ましい。
これにより、前記モデル提案部は、既存モデルの因子の因子価値と近い因子価値を持つ因子を抽出し代替モデルの因子に含めることができる。そのため、既存モデルの予測精度向上に寄与しうる推奨因子を含む代替モデルが作成される。
本発明の実施形態において、前記モデル提案部は、前記代替モデルの候補となる代替モデル候補を複数抽出し、前記代替モデル候補と、前記既存モデルとの類似度を計算して、比較的類似度の高い代替モデル候補を代替モデルとして抽出することが好ましい。
これにより、因子価値間のみならず、モデル間の類似も考慮して代替モデルを作成することができる。そのため、既存モデルの予測精度を向上させ、かつ、既存モデルに適合しやすい妥当性の高い代替モデルが抽出される。
本発明の実施形態において、前記モデル管理部は、説明変数が、0または1を要素とするベクトルまたは行列によって因子の特性を表す特性種因子値である回帰方程式で表されたモデルについて、モデルの識別子と、当該モデルの対象の現象を示す現象データと、当該モデルの回帰方程式と、当該回帰方程式に含まれる説明変数に対応する因子を示す因子データと、当該モデルの予測精度を含む評価データとを前記モデル記録部に蓄積し、モデル作成支援システムは、イベントの特性を示すイベント情報を記録するイベント情報記録部と、前記イベント情報と、前記モデル記録部に記録されたモデルの回帰方程式における説明変数である特性種因子値とを照合し、イベントに対応する特性種因子値があれば、当該特性種因子値を基に、イベントの特性を示すイベント因子の因子データを生成し、前記モデル記録部に記録する、イベント因子作成部とをさらに備えることができる。
イベント因子作成部により、イベント情報に対応するイベント因子の因子データが作成されてモデル記録部に記録される。そのため、因子価値抽出部は、イベント因子の因子データも参照して、イベント因子の因子価値データを生成し因子価値記録部に記録することができる。そのため、モデル提案部は、因子価値記録部のイベント因子の因子価値データも参照して、支援データを生成し出力することになる。これにより、イベント情報も考慮したモデルの作成が可能になる。
本発明の実施形態において、前記モデル管理部は、説明変数が、0または1を要素とするベクトルまたは行列によって因子の時間特性を表す時間種因子値である回帰方程式で表されたモデルについて、モデルの識別子と、当該モデルの対象の現象を示す現象データと、当該モデルの回帰方程式と、当該回帰方程式に含まれる説明変数の時間種因子値を含む因子データと、当該モデルの予測精度を含む評価データとを前記モデル記録部に蓄積し、モデル作成支援システムは、前記情報処理装置または前記モデル提案部から、改良が要求される指定因子を示す指定因子データを取得し、当該指定因子の時間種因子値と、前記モデル記録部の因子データの時間種因子値とを照合することにより、指定因子と所定の関係を有する因子をモデル記録部から抽出し、抽出した因子の時間種因子値あるいは、当該抽出した因子の時間種因子値と前記指定因子の時間種因子との論理和または論理積により得られる複合時間種因子値で表される因子データを、前記指定因子の改良因子の因子データとして、前記モデル記録部に記録する、因子調達部をさらに備えることができる。
これにより、因子調達部は、モデル記録部に記録されたとモデルの時間種因子群から、有効な時間種因子の組み合わせを自動的に抽出し、複合時間種因子として新たに因子価値記録部に記録することができる。
本発明の実施形態は、予測または分析の対象となる現象を、前記現象に寄与する因子に対応する説明変数を用いた回帰方程式の目的変数として表したデータであるモデルを使って前記現象の予測または分析を行う情報処理装置にアクセス可能なコンピュータに処理を実行させるモデル作成支援プログラムであってもよい。当該モデル作成支援プログラムは、前記情報処理装置から、前記モデルの識別子と、当該モデルの対象となる現象を示す現象データと、当該モデルの回帰方程式と、当該回帰方程式に含まれる説明変数に対応する因子を示す因子データと、当該モデルの予測精度を含む評価データとを取得し、前記コンピュータがアクセス可能なモデル記録部に蓄積するモデル管理処理と、前記モデル記録部に蓄積されたデータから、少なくとも1つのモデルについて、当該モデルの回帰方程式の説明変数に対応する因子データと、当該モデルの評価データとを参照することにより、前記因子データで示される因子が当該モデルの予測精度向上に寄与する度合いを示す因子価値データを生成し、当該モデルの対象となる現象を示す現象データと対応付けて、前記コンピュータがアクセス可能な因子価値記録部に記録する因子価値抽出処理と、前記情報処理装置からモデル作成支援の要求を受け付け、さらに、要求されるモデルの対象となる現象を示すデータを含むモデル条件データの入力を受け付ける条件取得処理と、前記モデル条件データに含まれる要求されるモデルの対象となる現象を示すデータと、前記因子価値記録部の因子価値データに対応付けられた現象データとを照合することにより、前記要求されるモデルの予測精度向上に寄与しうる推奨因子を抽出し、抽出した推奨因子を示すデータを含む支援データを、前記情報処理装置に対して出力する、モデル提案処理とをコンピュータに実行させる。
本発明の実施形態は、予測または分析の対象となる現象を、前記現象に寄与する因子に対応する説明変数を用いた回帰方程式の目的変数として表したデータであるモデルを使って前記現象の予測または分析を行う情報処理装置にアクセス可能なコンピュータが実行するモデル作成支援方法であってもよい。当該モデル作成支援方法は、前記コンピュータが備えるモデル管理部が、前記情報処理装置から、前記モデルの識別子と、当該モデルの回帰方程式と、当該回帰方程式に含まれる説明変数に対応する因子を示す因子データと、当該モデルの予測精度を含む評価データとを取得し、前記コンピュータがアクセス可能なモデル記録部に蓄積する工程と、前記コンピュータが備える因子価値抽出部が、前記モデル記録部に蓄積されたデータから、少なくとも1つのモデルについて、当該モデルの回帰方程式の説明変数に対応する因子データと、当該モデルの評価データとを参照することにより、前記因子データで示される因子が当該モデルの予測精度向上に寄与する度合いを示す因子価値データを生成し、当該モデルの対象となる現象を示す現象データと対応付けて、前記コンピュータがアクセス可能な因子価値記録部に記録する工程と、前記コンピュータが備える条件取得部が、前記情報処理装置からモデル作成支援の要求を受け付け、さらに、要求されるモデルの対象となる現象を示すデータを含むモデル条件データの入力を受け付ける工程と、前記コンピュータが備えるモデル提案部が、前記モデル条件データが示す要求されるモデルの対象となる現象を示すデータと、前記因子価値記録部の因子価値データに対応付けられた現象データとを照合することにより、前記要求されるモデルの予測精度向上に寄与しうる推奨因子を抽出し、抽出した推奨因子を示すデータを含む支援データを、前記情報処理装置に対して出力する工程とを含む。
[第1の実施形態]
図1は、本実施形態にかかるモデル作成支援システムの構成を示す機能ブロック図である。図1に示すモデル作成支援システム1は、情報処理装置15a、15bおよび15cに接続されている。情報処理装置15a〜15cは、それぞれ、ある特定の現象を示すデータを分析してモデルを作成し、このモデルを用いて将来の現象を予測する装置である。このモデルは、対象となる現象に寄与する因子に対応する説明変数を用いた回帰方程式を表すデータである。情報処理装置15aは、モデルを作成または更新するモデル作成更新部151、およびモデルの評価データを生成するモデル評価部152を備える。
モデル作成支援システム1は、各情報処理装置15a〜15cで使用されるモデルの作成や更新を支援するためのシステムである。モデル作成支援システム1の概略動作は、各情報処理装置15a〜15cからモデルに関する情報を集めて記録しておき、その情報を使って情報処理装置15a〜15cそれぞれで有用なモデルを作成するための支援データを生成して、各情報処理装置15a〜15cに出力することである。
そのために、モデル作成支援システム1は、IF部2、モデル情報取得部3、条件取得部4、モデル管理部5、価値抽出部7、距離計算部8、空間作成部9、モデル提案部11、モデル記録部6a、因子価値記録部6bを備える。以下、モデル作成支援システム1および情報処理装置15aの各機能部について説明する。
(情報処理装置の具体例)
まず、情報処理装置15aの具体例を説明する。ここでは、一例として、情報処理装置15aが、ある金融機関のシステムトラブル回数を対象とするモデルを作成する場合について説明する。この場合、情報処理装置15aのモデル作成更新部151は、システムトラブル回数の時系列データを回帰分析することにより、回帰方程式を生成する。回帰方程式の一例を下記式(2)に示す。
Y = β0・X0 + β1・X1 + β2・X2 + β3・X3 ――(2)
上記式(2)において、Yはシステムトラブル回数を表す目的変数である。Yは、例えば、日ごとのシステムトラブル回数を各要素とするベクトルで表される。例えば、2007年1月1日から1年間(=365日)のシステムトラブル回数の遷移を示すYは、1列365行の行列(365次元ベクトル)となる。
X0は定数項である。X1〜X3は、システムトラブル回数に寄与する3つの因子にそれぞれ対応する説明変数である。β0〜β3は、X0〜X3の重み(パラメータ)を表す。ここでは、一例として、説明変数X1は因子「週明け」に、X2は「梅雨時」に、X1は「冬の水・木・金曜日」にそれぞれ対応するとする。これら「週明け」「梅雨時」「冬の水・木・金曜日」のように、ある特定の属性を持つ日を意味する日種で表される因子は、日種因子と呼ばれる。日種因子は、例えば、該当する日に対応する要素を1、該当しない日に対応する要素を0とするベクトルまたは行列で表すことができる。例えば、2007年1月1日から1年間(=365日)における日種因子「週明け」に対応する説明変数X1は、下記式(3)に示す1列365行の行列(365次元ベクトル)で表される。
なお、説明変数は日種因子に限られない。例えば、場所、イベント等で特徴づけられる特性である特性種因子を示す、0または1を要素とする行列またはベクトルを説明変数としてもよい。このように、因子を、0または1を要素とする行列またはベクトルの説明変数で表すことで、ある1つの因子を複数の異なるモデルで使用しやすくなり、因子が再利用されやすくなる。なお、説明変数は、このような行列およびベクトルに限られず、表現形式は任意である。
このように、例えば、1年間のシステムトラブル回数の回帰方程式を作成するには、説明変数X1〜X3を決定する必要がある。この説明変数X1〜X3の選択はユーザが行う。すなわち、情報処理装置15aに、ユーザが、システムトラブル回数に影響を与える因子(例えば、「週明け」「梅雨時」「冬の水・木・金曜日」)を示すデータを入力する。モデル作成更新部151は、ユーザから入力された因子から、例えば、2007年1月1日から1年間の説明変数X1〜X3の値(行列)を計算する。さらに、モデル作成更新部151は、説明変数X1〜X3の値と、2007年1月1日から1年間における各日のシステムトラブル数の実績値を用いて回帰分析を行い、上記式(2)の係数β0〜β2を計算する。これにより得られた上記式(2)で示される回帰方程式が、システムトラブル数のモデルとなる。
モデル評価部152は、モデル作成更新部151で作成されたモデルの予測精度を計算し、評価データとして情報処理装置15aに記録する。予測精度には、次の2種類が含まれる。1つは、モデルの作成に用いられた実績値に対するモデルによって計算される予測値のあてはまりのよさを示すものである。もう1つは、モデルを使って将来を予想した場合に、その予測値が、実際に起きた現象を示す結果値にどの程度当てはまっているかを示すものである。以下では、前者を「分析精度」、後者を「予測結果精度」と称することにする。
例えば、上記式(2)を使って、2007年1月1日から1年間のシステムトラブル回数の予測値Y2007を計算した場合、その予測値Y2007が、2007年1月1日から1年間のシステムトラブル回数の実績値にどの程度あてはまっているかを示すのが分析精度である。一方、例えば、2007年の12月に、上記式(2)を使って2008年1月1日から1年間のシステムトラブル回数Y2008を計算したとする。その後、時を経て2008年12月31日が終わった時点で、2008年1月1日から12月31日までのシステムトラブル回数の実績値が得られる。その2008年の実績値に、予測値Y2008がどの程度当てはまっていたかを示すのが予測結果精度である。
なお、以下では、上記の2007年1月1日から1年間のように、モデル作成時に用いられる実績値がカバーする時期を「分析適用時期」と称し、2008年1月1日から12月31日のように、予測の対象となる時期を「予測適用時期」と称する。適用時期には、分析適用時期および予測適用時期の双方が含まれる。
モデルの分析精度計算方法の代表例として、回帰方程式の決定係数の2乗を分析精度の値として計算することができる。予測結果精度については、例えば、予測誤差の実績値に対する絶対値的な割合を示す平均絶対誤差率を計算し、1から平均絶対誤差率を減じた値(平均説明率と称される)を、予測結果精度を示す値として用いることができる。なお、分析精度および予測結果精度の計算方法はこれらの例に限られない。
情報処理装置15aは、モデル作成更新部151が作成したモデルを用いて、将来の現象(例えば、向こう1年間のシステムトラブル回数)の予測値を計算する。この予測値は、例えば、金融機関のシステム保守をするユーザによって参照され、ビジネスに役立てられる。また、ユーザは、モデルが、日々移ろいやすい現実の現象に適合するように、モデル作成更新部151にモデルを更新させることができる。例えば、ユーザは、モデルに追加したい因子を入力し、モデル作成更新部151は、入力された因子に対応する説明変数を追加した回帰方程式を作成して、回帰分析計算を行って、モデルを更新することができる。
情報処理装置15b、15cもそれぞれ同様の構成とすることができるが、情報処理装置15a〜15cの構成は、上記の情報処理装置15aの構成に限られず、モデルを作成および更新する機能と、モデルの評価データを生成する機能を備えていればよい。また、図1では、モデル作成支援システム1に3台の情報処理装置が接続されているが、さらに多くの情報処理装置が接続されてもよい。
(モデル作成支援システム1の各機能部の説明)
次に、モデル作成支援システム1の各機能部について説明する。IF部2は、モデル作成支援システム1と情報処理装置15a〜15cとの通信を可能にする。ここでモデル作成支援システム1と情報処理装置15a〜15cとの接続形態は特に限定されず、例えば、有線であっても無線であってもよいし、また、インターネット経由でもよいし、イントラネット経由でもよい。
モデル情報取得部3は、IF部2を介して情報処理装置15a〜15cそれぞれに対して、モデル情報を要求することにより、それらからモデル情報を受信する。受信したモデル情報はモデル管理部5に渡される。モデル情報には、例えば、モデルの回帰方程式を表すデータ、モデルが対象とする現象および因子を表すデータ、モデルの評価データ、並びにモデルの分析適用時期および予測適用時期を示すデータ等が含まれる。モデルの評価データには、例えば、モデルの予測精度(分析精度および予測結果精度の少なくとも一方)、およびモデルの各因子の有意性を示すデータ等が含まれる。
なお、モデル情報取得部3は、例えば、定期的にモデル情報を要求し、受信してもよい。あるいは、情報処理装置15a〜15cそれぞれにおいて、モデルが作成または更新された際に、自動的に更新通知または新規作成通知とともにモデル情報がモデル情報取得部3へ送信される形態であってもよい。
モデル管理部5は、モデル情報取得部3が取得したモデル情報を、モデル記録部6aに記録する。モデル記録部6aには、一例として、目的変数DB61、説明変数DB62,モデルインスタンスDB63が構築されている。モデル管理部5は、例えば、モデル情報のうち、回帰方程式を示すデータ、分析適用時期および予測適用時期を示すデータ、評価データをモデルインスタンスDB63に記録し、モデルの現象を示すデータを目的変数DB61に、モデルの因子を示すデータを説明変数DB62に記録する。
図2は、モデルインスタンスDB63に記録されるデータの構成の一例を示す図である。図2に示す例では、インスタンスIDに、現象、目的変数ID、説明変数ID、モデル(回帰方程式)、分析適用時期、予測適用時期、分析精度、予測結果精度、および各因子の有意性が対応付けられて1つのレコードとして記録されている。
例えば、情報処理装置15a〜15cにおいて、モデルの因子の一部が変更された場合や、分析適用時期または予測適用時期が変更された場合等のように、情報処理装置15a〜15cにおけるモデルの態様が変化した場合には、モデル管理部5は、変更後のモデルの態様について、新たにインスタンスIDを割り当てて、モデルインスタンスDB63に新たなレコードとして記録することができる。これにより、現場の状況に合わせて変化するモデルの態様を、モデルインスタンスDB63に反映させることができる。
図3は、目的変数DB61に記録されるデータの構成の一例を示す図である。図3に示す例では、目的変数IDに、目的変数により表される現象、現象の場所、現象の種類、カテゴリー(地域)、カテゴリー(業界)、カテゴリー(組織)が、対応付けられて1つのレコードとして記録されている。
図4は、説明変数DB62に記録されるデータの構成の一例を示す図である。図4に示す例では、説明変数DB62には、レコードC1、C2を記録する因子テーブルと、レコードC100を記録する要素値テーブルとが含まれる。レコードC1、C2では、説明変数IDに、因子名称、および因子が共通に属する座標空間(例えば、暦、地図)等のカテゴリー情報が対応付けられて1つのレコードとして記録されている。
例えば、上記式(3)に示すように、日種因子の説明変数が1年の365日各々を要素とする1列365行の行列で表される場合、因子が共通に属する座標空間は「1年=365日」となる。このように、日種因子が共通に属する座標空間を定義することで、例えば、日種因子間の類似度等を計算することができる。なお、因子が共通に属する座標空間は、「1年=365日」のように時間的な空間に限られず、例えば、日本国地図など、地理的な空間でもよい。 また、要素値テーブルのレコードC100では、最上段の行に「月曜日」、「火曜日」、「水曜日」、「祝日/振替」、「寒の入り」、「五十日」、「一月」等の日種を示す因子名称が記録されている。各列には、それぞれの因子名称の日種で特性される日を表す日種因子値(要素値)が記録されている。日種因子値は、行方向に1月1日から12月31日まで日ごとに記録された離散的な値であり、日種に該当する日に「1」、それ以外の日に「0」が記録されている。
モデル管理部5は、さらに、価値抽出部7に対して、モデルインスタンスDB63に記録されたモデルにおける因子の価値を抽出することを指示する。価値抽出部7は、モデル記録部6aの目的変数DB61、説明変数DB62およびモデルインスタンスDB63のデータを参照して、各モデルに含まれる因子の価値を計算し、因子価値記録部6bに記録する。
因子の価値は、価値の属性と、価値の程度を示す値によって表される。価値の属性は、例えば、1つの現象を対象とするモデルの変化途上や、複数モデル間の比較により得られる因子の様々な性質により定義することができる。価値の属性の例として、例えば、因子変更による精度向上性、適用時期変更による精度向上性、長期安定性、共通性等が挙げられる。このように因子の価値の属性を定義することで、複数の観点から因子の価値を評価することができ、適切な評価が可能になる。なお因子の価値の属性は、上記例に限られない。
因子変更による精度向上性は、因子がモデルに追加または削除されることによってその因子がモデルの予測精度を向上させる度合いのことである。適用時期変更による精度向上性は、モデルの分析適用時期または予測適用時期の変更時に、モデルの因子がモデルの予測精度の向上させる度合いのことである。
長期安定性は、ある現象を表すモデルに対して、因子が時間の経過とともに長期にわたって与える影響度合いの安定性のことである。共通性とは、1つの因子が複数のモデルにどの程度共通して用いられ、かつ予測精度に寄与するかを示すものである。
価値抽出部7は、モデル内因子価値抽出部71と、モデル間因子価値抽出部72とを含む。モデル内因子価値抽出部71は、モデルインスタンスDB63を参照して、モデルの因子の変化や、分析適用時期または予測適用時期の変化等のモデルの態様変化を抽出する。そして、モデル内因子価値抽出部71は、その変化前と変化後のモデルの評価データを比較することにより、予測精度の向上に寄与する因子を抽出し、その因子の価値を計算する(計算方法の具体例については後述する)。これにより、因子変更による精度向上性や、適用時期変更による精度向上性等のような、モデルの態様変化に伴う予測精度向上に関する因子の価値の大きさを計算することができる。
モデル内因子価値抽出部71は、この計算によって得られる因子の価値の大きさを示すデータと、因子を識別する情報、その因子の価値の属性、および、その因子が予測精度向上に寄与するモデルの対象となる現象を示すデータと対応付けて因子価値DB65に記録する。
図5は、因子価値DB65に記録されるデータの構成の一例を示す図である。図5に示すレコードD1は、因子「6月下旬〜7月中旬」の価値(因子変更による精度向上性)を示すレコードの例である。レコードD2は、因子「梅雨時」の価値(適用時期変更による精度向上性)を示すレコードの例である。レコードD1およびレコードD2は、寄与因子(説明変数ID)、価値の属性、目的変数のID、目的変数のカテゴリー(業界)、変化前モデルおよび変化後モデルのインスタンスID、分析適用時期および向上性能が対応付けられて記録されるデータである。目的変数IDは、変化前モデルおよび変化後モデルの目的変数を示すIDである。この目的変数IDは、因子が予測精度向上に寄与するモデルの対象となる現象を示すデータの一例である。
モデル間因子価値抽出部72は、モデルインスタンスDB63における複数のレコードを参照し、それぞれのレコードにおける説明変数IDおよび評価データを取得する。そして、取得した情報を基に、それらの複数のレコードで表される複数のモデルに対して予測精度向上に寄与している因子(説明変数)を抽出し、その寄与度合いを計算する。これにより、例えば、長期安定性や、共通性のような、複数のモデルに対する因子の価値の大きさを計算することができる。因子の価値の大きさを示すデータは、因子の情報とともに、因子価値DB65に記録される。
図5に示すレコードD3は、説明変数ID「s−031、s−101、s−017」に対応するそれぞれの因子の価値(長期安定性)を示すレコードの一例である。レコードD3は、寄与因子(説明変数ID)、価値の属性、目的変数ID、目的変数のカテゴリー(業界)、代表モデルのインスタンスID、該当時期、予測精度が対応付けられて記録されたデータである。レコードD4は、説明変数ID「s−031、s−101」に対応するそれぞれの因子の価値(共通性)を示すレコードの一例である。レコードD4は、寄与因子(説明変数ID)、価値の属性、目的変数ID、目的変数のカテゴリー(業界)、代表モデルのインスタンスID、採用現場数、業界採用ランキング、モデル平均予測精度が対応付けられて記録されたデータである。
以上、説明したように、モデル情報取得部3およびモデル管理部5によって、情報処理装置15a〜15cそれぞれで作成されたモデルに関する情報が収集されてモデル記録部6aに蓄積される。そして、価値抽出部7によって、蓄積されたモデルの情報からモデルの因子の価値を示すデータが生成されて因子価値記録部6bに記録される。これらのデータは、次に述べるモデル提案部11、距離計算部8および空間作成部9が利用する。すなわち、上記例のように、因子価値を様々な観点から複数の属性に分類し因子価値DB65に記録することで、後に示す因子価値間の類似度の計算等が可能になる。
次に、条件取得部4、モデル提案部11、空間作成部9および距離計算部8について説明する。条件取得部4は、情報処理装置15a〜15cから、IF部2を介して、モデル作成支援の要求を受信する。また、条件取得部4は、モデル作成支援の要求とともに、要求されるモデルの条件を示すモデル条件データを受信する。モデル条件データは、少なくとも、要求されるモデルが対象とする現象を示すデータを含む。この現象を示すデータは、例えば、要求されるモデルの回帰方程式における目的変数を示すデータである。
条件取得部4が受信するモデル作成支援の要求は、要求元の情報処理装置で作成された既存モデルに予測精度向上させるように変更を加えた代替モデルまたは代替因子の作成の要求である場合と、新規モデルの作成の要求である場合がある。前者の場合、モデル条件データとして、例えば、要求元の情報処理装置で作成された既存モデルを示す情報や、既存モデルの因子のうち、残したい因子または変更したい因子を示す情報等が含まれる。条件取得部4は、このようなモデル条件データを、モデル作成要求と同時に受信するか、または、モデル作成要求を受信した後に、要求元の情報処理装置に要求することで取得することができる。
条件取得部4は、モデル提案部11にモデル条件データを渡す。モデル提案部11は、モデル条件データが示す条件に従ってモデルを生成し、情報処理装置に対して出力する。具体的には、モデル提案部11は、前記条件に従って要求されるモデルの回帰方程式に含める説明変数を決定する。その際、モデル提案部11は、因子価値DB65を参照し、要求されるモデルの予測精度向上に寄与しうる因子を抽出する。モデル条件データには、要求されるモデルの対象となる現象を示すデータが含まれているので、モデル提案部11は、その現象に対応付けられた因子価値データを検索することにより、要求されるモデルの予測精度向上に寄与しうる因子に関する情報を得ることができる。
また、モデル提案部11は、モデル記録部6aおよび因子価値記録部6bにおいて、所望の因子またはモデルに関する情報を探索するために、空間作成部9に情報収集を依頼する。空間作成部9は、類似因子空間作成部91と、類似モデル空間作成部92とを含む。
類似因子空間作成部91は、基準となる因子(以下、基準因子と称する)の価値に類似する価値を有する類似因子の情報と、その類似因子と基準因子との関係を示す情報とを含む類似因子空間データを作成する。類似因子空間データの一例として、類似因子を特定するデータと、その類似因子の因子価値と基準因子の因子価値との距離(類似度)を示すデータとが対応付けられて記録されたデータが挙げられる。
類似因子空間データを作成の際、類似因子空間作成部91は、距離計算部8に、因子価値間の距離(類似度)の計算を依頼する。距離計算部8は、計算対象となる2つの因子の因子価値データを因子価値DB65から取得し、これに基づいて前記2つの因子価値間の距離を計算する。
因子価値間の距離は、例えば、因子の価値属性の類似度、因子のモデルへの寄与度合いの類似度、因子が属するモデルの類似度、因子自体の類似度等、複数の観点それぞれについて数値で表すことができる。これらの数値を、予め決められた数式に代入することによって、因子価値間の距離を計算することができる。
この数式は特に限定されないが、複数の観点の類似度が総合的に反映される式であることが好ましい。例えば、他の観点の類似度はそのままで、ある1つの観点の類似度のみが上昇すると、計算される因子価値間の距離もその上昇の程度に応じて変化するような数式であることが好ましい。
類似モデル空間作成部92は、基準となるモデル(以下、基準モデル)に類似する類似モデルを、基準モデルとの類似度(距離)に応じて基準モデルの周りに配置した仮想的な空間を示す類似モデル空間データを作成する。類似モデル空間データの一例として、類似モデルを特定するデータと、その類似モデルと基準モデルとの距離とが対応付けられて記録されたデータが挙げられる。
モデル空間データ作成の際、類似モデル空間作成部92は、距離計算部8に、モデル間の類似度(距離)の計算を依頼する。距離計算部8は、計算対象となる2つのモデルに関するデータをモデルインスタンスDB63、目的変数DB61、説明変数DB62から取得し、これに基づいて前記2つのモデル間の距離を計算する。
モデル間の距離は、例えば、モデルの対象となる現象の類似度(回帰方程式の目的変数間の類似度)、モデルに含まれる因子間の類似度(説明変数間の類似度)等、複数の観点で数値化することができる。これらの数値を、予め決められた数式に代入することによって、モデル間の距離を計算することができる。この数式も特に限定されないが、複数の観点の類似度が総合的に反映される式であることが好ましい。
モデル提案部11は、モデルの作成要求およびモデル条件データに応じて、類似因子空間作成部91または、類似モデル空間作成部92に処理を依頼する。モデル提案部11は、その結果得られる類似因子空間データおよび類似モデル空間データに基づいて、情報処理装置へ出力する支援データを作成する。
上記のモデル作成支援システム1は、サーバマシン、パーソナルコンピュータ、ワークステーションなどのコンピュータ上に構築される。モデル作成支援システム1のIF部2、モデル情報取得部3、条件取得部4、モデル管理部5、価値抽出部7、距離計算部8、空間作成部9およびモデル提案部11の各機能部は、1台のコンピュータ上に構成されてもよいし、複数のコンピュータに分散して構成されてもよい。また、これらの各機能部は、コンピュータのCPUが所定のプログラムを実行することによって実現される。したがって、上記各機能を実行するためのプログラムおよびプログラムを記録した記録媒体も本発明の一実施形態である。また、モデル記録部6a、因子価値記録部6bは、コンピュータが備えるメモリ、ハードディスク等の記録媒体により具現化される。
(モデル作成支援システムの動作例)
モデル作成支援システム1が実行する処理には、主として、モデル情報および因子価値情報の蓄積処理と、モデル作成処理とが含まれる。前者の蓄積処理は、主に、モデル情報取得部3、モデル管理部5および価値抽出部7により実行される。後者のモデル作成処理は、主に、条件取得部4、モデル提案部11、距離計算部8、空間作成部9により実行される。以下では、蓄積処理およびモデル作成処理の概要について順に説明した後、それぞれの処理の詳細についてさらに説明する。
(蓄積処理の概要)
本実施形態において、モデル情報取得部3は、情報処理装置15a、15bおよび15cに対して、一定の周期で、モデル情報を要求する。情報処理装置15a、15bおよび15cは、モデル情報の要求を受けると、前回の要求後に新規作成したモデルまたは更新したモデルに関する情報をモデル情報取得部3に対して返信する。
なお、モデルに関する情報の取得タイミングはこれに限られない。モデル情報取得部3は、例えば、情報処理装置15a、15bまたは15cにおいてモデルの新規作成または更新が行われる度に、逐次情報を受信してもよい。
情報処理装置15a、15bまたは15cがモデルを新規作成した場合、モデル情報取得部3は、例えば、そのモデルの回帰方程式を示すデータ、モデルが対象とする現象および因子を表すデータ、モデルの評価データ、並びにモデルの分析適用時期および予測適用時期を示すデータを受信する。
情報処理装置15a、15bまたは15cがモデルを更新した場合、モデル情報取得部3は、更新した内容を受信する。モデルの更新には、例えば、モデルの因子の変更、適用時期の変更、評価データの変更が含まれる。本実施形態では、モデル情報取得部3は、因子の変更の場合は変更前後の回帰方程式および変更前後の評価データを、適用時期の変更の場合は変更前後の適用時期および変更前後の評価データを、評価データの変更の場合は変更後の評価データを受信する。
モデル情報取得部3は、例えば、情報処理装置15a、15bまたは15cでモデルが新規作成または更新された場合、モデル管理部5にモデル情報格納要求をモデル情報とともに通知する。モデル管理部5は、渡された情報に基づいて処理を実行する。
図6は、モデル管理部5の動作例を示すフローチャートである。モデル管理部5は、モデル情報取得部3からモデル情報格納要求を受けた場合(Op1でY)、モデル情報取得部3から格納する情報を受け取ってモデル記録部6aに記録する(Op2)。以下、モデルが新規作成された場合、モデルの因子変更または適用時期の変更された場合、および、モデルの評価データ(例えば、予測結果精度、分析精度または各因子の有意性)の更新がなされた場合の3つの場合のOp2の処理についてそれぞれ説明する。
モデルが新規作成された場合、Op2において、モデル管理部5は、インスタンスIDを新たに生成する。そして、モデル情報取得部3から、例えば、新規作成されたモデルの回帰方程式、予測対象の現象、現象の種類、現象のカテゴリー(地域、業界、組織)、因子の名称、分析適用時期、予測適用時期、分析精度および各因子の有意性等のデータを受け取って、インスタンスIDを対応付けてモデルインスタンスDB63、目的変数DB61および説明変数DB62に記録する。
モデルの因子変更または適用時期の変更がなされた場合は、モデル管理部5は、更新前のモデルを特定するための情報(更新前の回帰方程式、予測対象の現象等)と、更新内容に関する情報をモデル情報取得部3から取得する。そして、モデル管理部5は、インスタンスIDを新たに生成し、モデル情報取得部3から取得した更新内容に関する情報をインスタンスIDと対応付けてモデルインスタンスDB63に記録する。
モデルの評価データ(例えば、予測結果精度、分析精度または各因子の有意性)の更新がなされた場合、モデル管理部5は、モデル情報取得部3から更新後の評価データを受け取って、モデルインスタンスDB63中の、そのモデルのインスタンスIDに対応する評価データを更新する。
以上がOp2の処理である。次に、モデル情報取得部3からモデルの因子変更またはモデルの適用時期の変更通知がなされた場合(Op3でY)、モデル管理部5は、モデル内因子価値抽出部71へ、精度向上性を持つ因子の抽出およびその因子の因子価値データの記録を指示する(Op4)。精度向上性に、因子変更による精度向上性、および適用時期変更による精度向上性が含まれる。指示の際、モデル管理部5は、モデル情報取得部3から、変更前後の回帰方程式または変更前後の適用時期と、変更前後の評価データ(予測精度、各因子の有意性等)とを受け取って、モデル内因子価値抽出部71へ渡す。モデル内因子価値抽出部71は、変更後のモデルに含まれる因子の、因子変更による精度向上性または適用時期変更による精度向上性を計算し、因子価値DB65に記録する。モデル内因子価値抽出部71の詳細については後述する。
夜間バッチの開始時刻になると(Op5でY)、モデル管理部5は、モデル間因子価値抽出部72に対して、長期安定性または共通性を持つ因子の抽出およびその因子の因子価値データの記録を指示する(Op6)。これにより、定期的に、長期安定性および共通性を持つ因子が抽出され、その因子の因子価値データが因子価値DB65に記録される。モデル間因子価値抽出部72の詳細については後述する。
上記のOp1〜Op6の処理は、停止命令がない限り(Op7でNである限り)繰り返される。これにより、情報処理装置15a〜15cにおいて新規作成または更新されるモデルの情報が、逐次モデル記録部6aに反映される。さらに、モデル記録部6aに記録される情報の更新に連動して、因子価値データも更新される。
(モデル作成処理の概要)
条件取得部4は、情報処理装置15a〜15cからのモデル作成要求およびモデル条件データを受け付ける。本実施形態では、一例として、条件取得部4が、情報処理装置15aから代替モデル作成要求を受信した場合について説明する。この場合、条件取得部4は、この代替モデル作成要求とともに、モデル条件データを受信し、これらの受信したデータをモデル提案部11へ渡す。
モデル提案部11は、これらのデータを基に代替モデルを生成し、情報処理装置15aへ出力する。図7は、モデル提案部11が代替モデル作成要求を受けた際の動作例を示すフローチャートである。
図7のOp11において、モデル提案部11は、代替モデル作成要求およびモデル条件データを条件取得部4から取得する。モデル条件データには、例えば、情報処理装置15aにおいて代替が要求されている既存モデルの回帰方程式およびその既存モデル中の代替対象範囲を示すデータが含まれる。具体的に言えば、この代替対象範囲を示すデータには、既存モデルをモデルごと代替するのか因子ごとに代替するのかを示すデータが含まれる。また、代替対象の因子を特定するデータもこの代替対象範囲を示すデータに含まれる。
ここでは、既存モデルの回帰方程式が上記および下記式(2)と同じ式で表される場合を例にあげて説明する。
Y = β0・X0 + β1・X1 + β2・X2 + β3・X3 ――(2)
一例として、上記式(2)において目的変数Yは、A信用金庫S支店のシステムトラブル回数であり、説明変数X1は因子「週明け」に、X2は「梅雨時」に、X1は「冬の水・木・金曜日」にそれぞれ対応するとする。
モデル条件データにより、因子ごとに代替することが示されている場合(Op12で「因子ごと」)、モデル提案部11は、類似因子空間作成部91に対し、代替対象の因子を基準因子として、類似因子空間データの作成を指示する(Op13)。類似因子空間データは、基準因子と類似する価値を有する類似因子群で構成される仮想的な空間を示すデータである。
例えば、モデル条件データにより、代替対象の因子が、X2に対応する日種因子「梅雨時」であることが示されているとする。この場合、日種因子「梅雨時」を基準因子として、これに類似する価値を持つ類似因子群と、各類似因子と基準因子との関係を示す情報を含む類似因子空間データが作成される。そして、モデル提案部11は、類似因子空間データを類似因子空間作成部91から受け取る。類似因子空間データを生成する処理の詳細は後述する。なお、代替対象の因子が複数ある場合は、その複数の因子それぞれを基準因子として、基準因子ごとに類似因子空間データが生成される。
類似因子空間データは、例えば、類似因子を特定するデータと、基準因子と類似因子との距離(類似度)とが対応付けられて記録されたデータである。下記表1に、基準因子「梅雨時」の類似因子として日種因子「夏至or小暑」、「小暑or大暑」、「7月初旬」、「夏至」、「夏至or小暑」、「6月下旬〜7月中旬」、「7月」および「7月初旬〜中旬」が抽出された場合の、類似因子空間データの内容の一例を示す。下記表1に示す例では、類似因子の属するモデルの対象となる現象の場所、その現象の種類、基準因子と共通する因子価値、類似因子の名称および距離が対応付けられている。
なお、上記表1に示す例では、基準因子と類似因子との関係を示す情報として、距離(類似度)を示すスカラー値が記録されているが、これに限られない。例えば、複数の観点から計算された複数の因子間の類似度を、ベクトルまたは座標で表したデータが記録されてもよい。
モデル提案部11は、類似因子空間データを情報処理装置15aへ送信し、情報処理装置15aに、ユーザに対して類似因子を選択可能な態様で提示させる(Op14)。この際、基準因子(=代替対象の因子)との距離が把握できる態様で類似因子を提示することが好ましい。
図8は、情報処理装置15aにおける、上記表8に示す内容の類似因子空間データの画面表示例を示す図である。図8に示す例では、画面G1の中心付近に代替対象の因子の表示領域22があり、その周りに類似因子の表示領域21a〜21hが配置されている。代替対象の因子の表示領域22と類似因子の表示領域21a〜21hの各々を繋ぐ矢印は、因子価値間の距離に応じた長さになっている。そのため、ユーザは、図8に示す画面を見て、複数の類似因子と代替対象の因子との距離を把握することができる。また、類似因子の表示領域21a〜21hは、例えば、カーソルで選択可能となっている。
また、類似因子空間データには、類似因子どうしの距離(類似度)を示すデータが含まれてもよい。この場合、モデル提案部11は、類似因子どうしの距離も考慮して、表示領域21a〜21hの位置を決定することができる。これにより、例えば、類似因子間の距離に応じて、表示領域間の距離を設定することができる。これにより、距離が近い類似因子が近く表示されるので、ユーザは、代替因子を決定しやすくなる。
なお、代替対象の因子が複数ある場合は、因子ごとに類似因子を提示して選択させることが好ましい。あるいは、代替対象の因子が複数ある場合に、モデル提案部11は、次の2つの処理(1)(2)を複数の代替対象因子について繰り返してもよい。(1)複数の因子のうち1つを基準因子として、類似因子空間データを類似因子空間作成部91に生成させる。(2)類似因子を情報処理装置15aに提示してユーザに選択させる。
モデル提案部11は、ユーザが選択した類似因子を示すデータを情報処理装置15aから受信する。そして、既存モデルに含まれる因子のうち、代替対象の因子を、ユーザが選択した類似因子に置換したモデルを代替モデルとして作成する。代替モデルは、例えば、前記置換後の因子を示すデータおよびそれらの因子を用いた回帰方程式を示すデータにより構成される。モデル提案部11は、この代替モデルを、支援データとして、情報処理装置15aに送信する(Op15)。
以上のOp13、Op14、Op15は、モデル条件データで、因子ごとに代替を行うことが示されている場合の処理である。一方、モデル条件データにより、モデルごとに代替することが示された場合(Op12で「モデルごと」)、モデル提案部11は、類似モデル空間作成部92に、既存モデルを基準モデルとする類似モデル空間の作成を指示する(Op16)。そして、モデル提案部11は、類似モデル空間データを類似モデル空間作成部92から受け取る。類似モデル空間データは、例えば、基準モデルに類似するモデルを特定するデータと、その類似モデルの基準モデルに対する距離が対応付けられて記録されたデータである。
類似モデル空間作成部92による類似モデル空間データの生成処理は、様々なパターンがあるが、ここでは、その一例として、基準モデルのうち一部の因子を変更したモデルの作成が要求される場合について簡単に説明する。この場合、類似モデル空間作成部92は、前記一部の因子に類似する因子群を示す類似因子空間の作成を、類似因子空間作成部91に依頼する。類似モデル空間作成部92は、この類似因子空間を基に、基準モデルにおける一部の因子を類似する因子で置換した代替モデル候補を複数作成する。そして、モデル提案部11は、基準モデルと複数の代替モデル候補との距離(類似度)の計算を距離計算部8に依頼する。これにより、類似モデル空間作成部92は、基準モデルに近い代替モデル群と、距離とを示す情報を得て、類似モデル空間データを生成する。なお、類似モデル空間データを生成する処理の詳細は後述する。
モデル提案部11は、この類似モデルとその距離を表す類似モデル空間データを、支援データとして情報処理装置15aに送信し、情報処理装置15aに、表示装置(図示せず)を通じて類似モデルを代替モデルとしてユーザに対して提示させる(Op17)。この際、基準モデル(=既存モデル)との距離が把握できる態様で類似モデルを提示することが好ましい。これにより、ユーザは、代替モデルの選定にあたって既存モデルとの類似度を考慮することができる。
図9は、情報処理装置15aにおける、類似モデル空間データの画面表示例を示す図である。図9に示す例では、画面G2の中心付近に既存モデルの表示領域23があり、その周りに類似モデル(代替モデル1〜3)それぞれの表示領域24a〜24cが配置されている。既存モデルの表示領域23と類似モデルの表示領域24a〜24cの各々を繋ぐ実線の矢印は、モデル間の距離に応じた長さになっている。さらに、既存モデルの表示領域23、および代替モデル1〜3の表示領域24a〜24cは、それぞれのモデルの内容を示す領域33、34a〜34cと点線で結ばれている。それぞれの領域33、34a〜34cには、モデルの回帰方程式、対象とする現象の種類、各説明変数に対応する因子名称が表示されている。図9に示す画面を見たユーザは、各代替モデル1〜3と既存モデルとの距離と、これらのモデルの内容を把握することができる。
以上、図7に示した処理により、既存モデルの代替モデル作成要求を出した情報処理装置15aに対して、適切な代替因子または代替モデルを提案する支援データが出力される。同様の処理により、妥当性の高い代替モデルまたは代替因子が各情報処理装置15a〜15cに対して自動提供される。
なお、図7に示したモデル提案部11の処理は、一例であり、これに限られない。支援データとして、情報処理装置15aに出力されるデータは、上記の他に、代替因子の因子価値(予測精度向上性、長期安定性または共通性等)を示すデータ等が含まれてもよい。
また、Op17において、類似モデル空間データが示す類似モデルを全て出力するのではなく、例えば、既存モデルに最も近い類似モデルのみを出力してもよい。これにより、ユーザの選定作業が不要となる。同様に、Op14、Op15においても、類似因子を全て出力してユーザに選択させるのではなく、代替対象の因子に最も近い類似因子を示すデータのみを、代替因子を示すデータとして出力してもよい。
(蓄積処理の詳細:モデル内因子価値抽出)
次に、モデル内因子価値抽出部71による、因子価値データの蓄積処理の詳細について説明する。図10は、モデル内因子価値抽出部71の動作例を示すフローチャートである。図10に示す処理は、図6のOp4において、モデル管理部5から指示を受けたモデル内因子価値抽出部71の処理である。
まず、モデル内因子価値抽出部71は、モデル管理部5から特定の既存モデルにおける因子の変更に基づく因子価値抽出の指示が受ける(Op41でY)。そして、モデル内因子価値抽出部71は、その既存モデルの変更前に比べて分析精度または予測結果精度を向上させた因子があるか否かを判断する(Op42)。この時、モデル内因子価値抽出部71は、モデル管理部5から、因子変更前後のモデルに関する情報を取得する。モデルに関する情報には、例えば、モデルに含まれる因子、モデルの対象となる現象、回帰方程式、変更前後の分析精度または予測結果精度、変更前後の各因子の有意性等が含まれる。なお、Op42の判断処理の詳細については後述する。
モデル内因子価値抽出部71は、Op42でYes(Y)と判断すると、予測結果精度または分析精度を著しく向上させた因子の情報を、「因子変更による精度向上性」を有する因子として、因子の周辺情報とともに、因子価値DB65に記録する。因子の周辺情報として、例えば、因子変更前および変更後のモデルの対象となる現象を示す情報、変更前のモデルおよび変更後のモデルを示す情報、精度向上性の度合いを示す値等が記録される。
さらに、モデル内因子価値抽出部71は、モデル管理部5から特定の既存モデルにおける適用時期の変更に基づく因子価値抽出の指示があった場合(Op44でY)、その既存モデルの変更前に比べて分析精度または予測結果精度を向上させた因子があるか否かを判断する(Op45)。この時、モデル内因子価値抽出部71は、モデル管理部5から、因子変更前後のモデルに関する情報を取得する。なお、Op45の判断処理の詳細については後述する。
モデル内因子価値抽出部71は、Op45でYes(Y)と判断すると、予測結果精度または分析精度を著しく向上させた因子の情報を、「適用時期変更による精度向上性」を有する因子として、因子の周辺情報とともに、因子価値DB65に記録する(Op46)。因子の周辺情報として、例えば、因子変更前および変更後のモデルの対象となる現象を示す情報、変更後のモデルを示す情報、精度向上性の度合いを示す値等が記録される。
上記のOp41〜Op44の処理は、モデル管理部5からイベント待ちループを抜ける旨の指示があるまで(Op47でYとなるまで)、繰り返される。これにより、モデル管理部5から因子価値抽出の指示がある度に、因子変更による精度向上性を有する因子と、適用時期変更による精度向上性を有する因子が抽出されて、因子価値DB65に記録される。
ここで、Op42およびOp45の処理の詳細について順にそれぞれ説明する。図11は、Op42の処理の詳細を示すフローチャートである。図11に示す例では、まず、モデル内因子価値抽出部71は、因子価値を評価する際に用いる予測精度が、分析精度であるか、予測結果精度であるか、モデル管理部5から取得したデータを基に判断する(Op421)。
前記予測精度が分析精度である場合(Op421で「分析精度」)、下記のOp422〜Op424の処理が実行される。まず、モデル内因子価値抽出部71は、モデルの因子変更前と変更後で分析精度が大きく変更したか否かを判断する(Op422)。モデル内因子価値抽出部71は、因子変更前後のモデルにおける分析精度の変化を示すデータを、モデル管理部5から受け取ってもよいし、あるいは、モデルインスタンスDB63に記録された、変更前および変更後のモデルのインスタンスIDそれぞれに対応する分析精度を参照してもよい。分析精度の値が大きく変更したか否かは、例えば、予め決められた閾値を基に判断することができる。
分析精度が大きく変化した(Op422でY)と判断されると、モデル内因子価値抽出部71は、変更された因子(以下、変更因子と称する)の重み(パラメータ)のt検定値に大きな変化がないか判断する(Op423)。t検定値は、因子の有意性を示すデータの一例である。モデル内因子価値抽出部71は、各重みのt検定値を、分析精度と同様に、モデル管理部5から受け取ってもよいし、モデルインスタンスDB63から取得してもよい。
Op423でYes(Y)と判断されると、モデル内因子価値抽出部71は、変更されていない因子の重み(パラメータ)のt検定値は、変更前の因子と比べて著しく増加したか否かを判断する(Op424)。Op424でYes(Y)と判断された場合、モデル内因子価値抽出部71は、変更因子が、変更後のモデルの分析精度を著しく増加させた判断する(Op428)。これにより、変更後のモデルの分析精度精度の向上に寄与する因子が抽出されることになる。
このOp422〜Op424の処理の具体例を説明する。図12は、因子の変更前のモデルと因子の変更後のモデルを概念的に表した図である。図12において、M1が因子変更前のモデルを、M2が因子変更後のモデルを表す。M1、M2において、回帰方程式中のYは目的変数であり、その対象とする現象は信用金庫のシステムトラブル回数である。M1に示す変更前のモデルにおいて、β0は定数項X0の重み(パラメータ)であり、β1〜β3は説明変数X1〜X3それぞれの重みである。説明変数X1、X2、X3はそれぞれ日種因子「週明け」、「梅雨時」、「冬の水木金」を表している。各重みβ1〜β3の下の()内の数値は、各重みのt検定値を示している。このt検定値は、各因子の有意性を示す値の一例である。
M2に示す変更後のモデルでは、変更前のモデルの説明変数X2に対応する因子「梅雨時」が「6月下旬〜7月下旬」に変更されている。この因子の変更により、M2における各重みβ0〜β3の値もM1とは異なる値となる。そして、分析精度が「0.64」から「0.75」に向上している。これにより、モデルの因子の変更により分析精度が向上したと判断することができる。また、因子「梅雨時」の重みのt検定値「+1.8」に対し、因子「6月下旬〜7月下旬」の重みは「+13.2」に上昇している。この変化量「11.4」に比べて、他の因子「週明け」「冬の水木金」の重みのt検定値の変化量は0.1〜0.2であり、5分の1以下である。このような場合に、モデル内因子価値抽出部71は、モデルの因子変更による分析精度の向上は、因子「6月下旬〜7月下旬」によって生じたと判断することができる。
この場合、因子価値DB65には、例えば、図5に示すレコードD1のように、寄与因子(説明変数ID)として「6月下旬〜7月中旬(s−012)」、属性として「精度向上(因子価値変更)」、目的変数IDとして「m−002」(A信用金庫S支店のシステムトラブル回数に対応:図2のB2参照)、カテゴリー(業界)として「金融」、変更前モデルおよび変更後モデルそれぞれのモデルインスタンスID、適用時期として「2004年」、向上性能として「0.11」が記録される。ここで、向上性能の値「0.11」は、一例として、分析精度の変更量(0.75−0.64)を計算した値である。
次に、図11のOp421において、因子価値を評価する際に用いる予測精度が、予測結果精度であると判断された場合の処理Op425〜Op437について説明する。この場合、まず、モデル内因子価値抽出部71は、モデルの因子変更前と変更後で予測結果精度が大きく変更したか否かを判断する(Op425)。モデル内因子価値抽出部71は、因子変更前後のモデルにおける予測結果精度を示すデータを、モデル管理部5から受け取ってもよいし、あるいは、モデルインスタンスDB63から取得してもよい。
予測結果精度が大きく変化した(Op425でY)と判断されると、モデル内因子価値抽出部71は、変更された因子(以下、変更因子と称する)の追加精度に大きな変化がないか判断する(Op426)。追加精度は、因子の有意性を示す値の一例である。ある1つの因子の追加精度は、例えば、因子がモデルに含まれる場合と含まれない場合それぞれの場合についてモデルの予測結果精度を計算し、これらの予測結果精度の差分を「追加精度」とすることができる。モデル内因子価値抽出部71は、変更前後の各因子の追加精度を、モデル管理部5から受け取ってもよいし、モデルインスタンスDB63から取得してもよい。
Op426でYes(Y)と判断されると、モデル内因子価値抽出部71は、変更されていない因子の追加精度は、変更前の因子と比べて著しく増加したか否かを判断する(Op427)。Op427でYes(Y)と判断された場合、モデル内因子価値抽出部71は、変更因子が、変更後のモデルの予測結果精度を著しく増加させた判断する(Op428)。これにより、変更後のモデルの予測結果精度精度の向上に寄与する因子が抽出されることになる。
このOp425〜Op427の処理の具体例を説明する。図13は、因子の変更前のモデルと因子の変更後のモデルを概念的に表した図である。図13において、M3が因子変更前のモデルを、M4が因子変更後のモデルを表す。M3、M4において、各重みβ1〜β3の下の()内の数値は、各重みのt検定値を示している。M4に示す変更後のモデルでは、M3に示す変更前のモデルの説明変数X2に対応する因子「梅雨時」が「6月下旬〜7月下旬」に変更されている。また、変更前のモデルM3の予測適用時期2005年は、変更後のモデルM4では2006年になっている。そして、予測結果精度は「0.65」〜「0.72」に向上している。なお、これらの予測結果精度は、変更前後それぞれの予測適用時期である2005年、2006年の実績値である。
因子「梅雨時」の追加精度「0.24」に対し、因子「6月下旬〜7月下旬」の追加精度は「0.41」に上昇している。この追加精度の変化量「0.17」に比べて、他の因子「週明け」「冬の水木金」の追加精度の変化量は0.02〜0.04であり、3分の1以下である。このような場合に、モデル内因子価値抽出部71は、モデルの因子変更による予測結果精度の向上は、因子「6月下旬〜7月下旬」によって生じたと判断することができる。
以上が、図10のOp42の処理(因子変更による精度向上に寄与する因子の抽出処理)の詳細である。図11に示した上記処理により、分析精度および予測結果精度の両方の観点から、因子価値の抽出が可能になる。次に、Op45の処理、すなわち、適用時期変更による精度向上に寄与する因子の抽出処理の詳細について説明する。図14は、Op45の処理の詳細を示すフローチャートである。
図14に示す例では、まず、モデル内因子価値抽出部71は、変更された適用時期が予測適用時期のみであるか否かを、モデル管理部5から取得したデータを基に判断する(Op451)。予測適用時期のみが変更された場合は、Op456〜Op458に示す処理が実行される。
一方、変更されたのが予測適用時期のみでない場合、モデル内因子価値抽出部71は、因子価値を評価する際に用いる予測精度が、分析精度であるか、予測結果精度であるか、モデル管理部5から取得したデータを基に判断する(Op452)。予測結果精度の場合はOp456〜Op458の処理が、分析精度の場合は、Op453〜Op455が実行される。以下、それぞれの場合について具体例を挙げて説明する。
図15は、分析適用時期が変更された場合の、変更前後のモデルを概念的に表した図である。図15において、M5およびM6は、分析適用時期が2004年から2005年に変更された場合の変更前後のモデルをそれぞれ示す。この場合、分析適用時期が異なるので、M5の重みβ0〜β3と、M6の各β0〜β3は異なる値となり、分析精度も異なる値となる。これらの分析精度を評価する予測精度として用いられる場合について以下説明する。
この場合、Op452では、評価に用いる予測精度=「分析精度」と判断される。そして、モデル内因子価値抽出部71は、変更前後の分析精度「0.64」「0.72」を比較して、分析精度が所定値以上変化したか否かを判断し(Op453)、所定値以上変化していれば、適用時期の変更前後で、重みのt検定値が著しく増加した因子を抽出する(Op454)。ここでは、例えば、t検定値が0.1以上増加した重みβ2の因子「梅雨時」が抽出される。
さらに、モデル内因子価値抽出部71は、抽出した因子以外の因子「週明け」「冬の水木金」の重みβ1、β3の符号とt検定値に大きな変化がないか判断する(Op455)。例えば、重みの符号が変わっているか、または、t検定値の変化量が0.07以上でれば大きな変化ありと判断することができる。Op455でYes(Y)の場合、モデル内因子価値抽出部71は、抽出した因子「梅雨時」はモデルM6の分析精度を向上させる因子、すなわち、適用時期変更による精度向上性を有する因子であると判断する(Op459)。
一方、図15においてM7およびM8は、分析適用時期が2004年から2005年に変更され、さらに予測適用時期も2005年から2006年に変更された場合の適用時期の変更前後のモデルをそれぞれ示す。すなわち、M7に示すモデルの各重みβ0〜β3は、2004年(=分析適用時期)の実績値を基に計算されたものであり、この重みβ0〜β3の回帰方程式を使って翌年の2005年(=予測適用時期)の「信用金庫のシステムトラブル回数」の予測値が計算される。同様に、M8に示すモデルの各重みβ0〜β3は、2005年(=分析適用時期)の実績値を基に計算されたものであり、この重みβ0〜β3の回帰方程式を使って翌年の2006年(=予測適用時期)の予測値が計算される。M7およびM8の予測結果精度は、それぞれ2005年および2006年の予測値と実績値とに基づいて得られた値である。これらの予測結果精度を評価する予測精度として用いられる場合について以下説明する。
この場合、Op452では、評価に用いる予測精度=「予測結果精度」と判断される。モデル内因子価値抽出部71は、変更前後の予測結果精度「0.65」「0.72」を比較して、予測結果精度が所定値以上変化したか否かを判断し(Op456)、所定値以上変化していれば、適用時期の変更前後で、追加精度が著しく増加した因子を抽出する(Op457)。ここでは、例えば、追加精度が0.1以上増加した因子「梅雨時」が抽出される。
Op457でYes(Y)の場合、さらに、モデル内因子価値抽出部71は、抽出した因子以外の因子「週明け」、「冬の水木金」の追加精度に大きな変化がないか判断する(Op458)。例えば、追加精度の変化量が0.05以上でれば大きな変化ありと判断することができる。Op458でYes(Y)の場合、モデル内因子価値抽出部71は、抽出した因子「梅雨時」はモデルM8の予測結果精度を向上させる因子、すなわち、適用時期変更による精度向上性を有する因子であると判断する(Op459)。
図15に示した例は、分析適用時期が変更された場合の例であるのに対して、図16は、予測適用時期のみが変更された場合の変更前後のモデルを示す図である。図16において、M9の予測適用時期は2005年であり、M10の予測適用時期は2006年である。分析適用時期は両者とも2004年である。この場合、分析適用時期が変わらないので、M9の各重みβ0〜β3はM10の各重みβ0〜β3と同じ値である。この場合、予測結果精度でしか評価できないので、図14のOp451における判断により、予測結果精度を評価する場合の処理(Op456〜Op457)が実行される。
以上が、図10のOp45の処理(適用時期変更による精度向上に寄与する因子の抽出処理)の詳細である。図14に示した上記処理により、分析精度および予測結果精度の両方の観点から、因子価値の抽出が可能になる。
(蓄積処理の詳細:モデル間因子価値抽出)
次に、モデル間因子価値抽出部72による、因子価値データの蓄積処理の詳細について説明する。図17は、モデル内因子価値抽出部71の動作例を示すフローチャートである。図17に示す処理は、図6のOp6において、モデル管理部5からモデル間因子価値抽出部72への指示があった場合の、モデル間因子価値抽出処理である。
図17に示す例では、モデル間因子価値抽出部72は、モデル管理部5から指示を受けると(Op61でY)、1つの現象を対象とする、適用時期の異なる複数のモデルにおいて、モデルの予測精度情報に対する寄与率が複数の適用時期に渡って(長期間に渡って)所定値以上である因子はあるか否かを判断する(Op62)。
モデル間因子価値抽出部72は、この判断を、モデルインスタンスDB63のデータに基づいて行うことができる。例えば、モデル間因子価値抽出部72は、目的変数IDが同じレコードをモデルインスタンスDB63から全て参照し、それらのレコードが示すモデルに含まれる因子群、および各因子の有意性を上記判断に用いることができる。これにより、目的変数を同じくする複数のモデルにおいて、共通性が高く、かつ予測精度向上に寄与している因子を抽出することができる。
モデル間因子価値抽出部72は、Op62でYes(Y)と判断すると、Op62で抽出した因子を、長期安定性を有する因子として、因子の周辺情報とともに、因子価値DB65に記録する(Op63)。因子の周辺情報として、例えば、因子が長期間に渡って精度向上に寄与するモデルの対象となる現象を示す情報、精度向上性の度合いを示す値等が記録される。
モデル間因子価値抽出部72は、さらに、業種、地域および適用時期を同じくする複数のモデルにおいて、共通して、予測精度向上に寄与している因子があるか否かを判断する(Op64)。モデル間因子価値抽出部72は、この判断を、モデルインスタンスDB63および目的変数DB61のデータに基づいて行うことができる。例えば、モデル間因子価値抽出部72は、同じカテゴリー(業界)およびカテゴリー(地域)を持つ目的変数IDを目的変数DB61から取得し、モデルインスタンスDB63から、その目的変数IDを持ち、かつ適用時期が同じレコードを参照する。それらのレコードが示すモデルに含まれる因子群、および各因子の有意性を取得して、それらのモデルにおいて共通性が高く、かつ予測精度向上に寄与している因子を抽出することができる。
モデル間因子価値抽出部72は、Op64でYes(Y)と判断すると、Op64で抽出した因子を、共通性を有する因子として、因子の周辺情報とともに、因子価値DB65に記録する(Op65)。
上記のOp62〜Op65の処理はモデル管理部5からのイベント待ちループを抜ける旨の指示があるまで(Op66でYとなるまで)、繰り返される。これにより、モデル管理部5からモデル間因子価値抽出の指示がある度に、長期安定性を有する因子と、共通性を有する因子が抽出されて、因子価値DB65に記録される。
次に、長期安定性を有する因子を抽出する処理(Op62)と共通性と有する因子の抽出処理(Op64)の具体例を順にそれぞれ説明する。図18は、Op62の処理の具体例を示すフローチャートである。図18に示す例では、モデル間因子価値抽出部72は、モデルインスタンスDB63を参照して、1つの現象を対象として長期間適用されてきたモデル群を収集する(Op621)。例えば、モデル間因子価値抽出部72は、目的変数IDが同じモデル群であって、分析適用時期が異なるモデル群を複数抽出する。そして、抽出されたモデル群のうち、モデル群に含まれる各モデルの分析適用時期の合計期間が所定値より長いモデル群が、長期間適用されてきたモデル群と判断される。
図19は、このようなモデル群の一例を示す概念図である。図19に示すモデル群M11〜15において、左辺は、回帰方程式の目的変数に対応するモデルの対象とする現象を示し、右辺は、回帰方程式の説明変数それぞれに対応する因子および定数項を示す。β0〜β3は、定数項および説明変数の各重みを表す。また、目的変数の下には、分析適用時期と分析精度、右辺各項の下には、重みβ0〜β3それぞれのt検定値が記載されている。
モデル群M11〜M15は、いずれも、「I町S玩具店の売上高」を対象の現象(目的変数)としており、分析適用時期はそれぞれ2000年、2001年、2002年、2003年、2004年と互いに異なっている。
モデル間因子価値抽出部72は、このようなモデル群M11〜M15のうち、共通性が高く、かつ、t検定値が一定水準以上で安定している因子を抽出する(図18のOp622)。ここで、ある因子の共通性が高いか否かの判断は、例えば、抽出されたモデル群M11〜M15において、その因子が含まれるモデルが占める割合を基に行われる。ある因子のt検定値が一定水準以上で安定しているか否かは、例えば、その因子のt検定値が常に所定の閾値以上であるか否かにより判断される。また、因子の係数の符号(正負)が一定で、t値の絶対値が所定の高い値を下回らない場合に、その因子のt検定値は一定水準以上で安定していると判断されてもよい。 モデル間因子価値抽出部72は、Op623で抽出した因子を、長期安定性を有する因子として因子価値DB65に記録する(Op623)。
ここで、図19に示す例では、モデル群M11〜M15に含まれる因子のうち、因子間の類似度が高い因子のグループは、同一の因子として扱うこともできる。図19に示す例では、「秋分週末種」、「秋分土曜種」および「秋分日曜種」の因子は、類似度が高いので、同一の因子として扱われてもよい。なお、因子間の類似度の計算については後述する。
この場合、例えば、t検定値の閾値を5とすると、t検定値が常に閾値を超えているのは因子「秋分週末種」並びに、これと同一の因子として扱われる「秋分土曜種」および「秋分日曜種」のグループとなる。そのため、これらの因子がOp622で抽出される。また、その他の因子「前週の商品売上」、「祝日種」は、共通性はあるものの、t検定値が5を超えていないので、抽出されない。
そのため、モデル間因子価値抽出部72は、これらの抽出した因子「秋分週末種」、「秋分土曜種」および「秋分日曜種」を、長期安定性を有する因子として因子価値DB65に記録する。
因子価値DB65には、例えば、図5に示すレコードD3のように、寄与因子(説明変数ID)として「秋分週末種、秋分土曜種、秋分日曜種(s−031、s−101、S017)」、属性として「長期安定性」、目的変数IDとして「m−006」(I町S玩具店の売上高の目的変数ID)、カテゴリー(業界)として「小売」、代表モデルのインスタンスID、該当時期として「2000年〜2004年」、平均精度として「0.78」が記録される。平均精度「0.78」は、例えば、該当時期2000年〜2007年におけるモデルの分析精度の平均値とすることができる。また、長期安定性の性能度合いを示す値は、平均精度に限られず、例えば、各寄与因子の平均t値も含まれる。
また、代表モデルは、例えば、因子「秋分週末種、秋分土曜種、秋分日曜種」が共通して予測精度向上に寄与する複数のモデルM11〜M15のうち、その因子のt検定値が最も高いモデルM11とすることができる。
次に、共通性を有する因子を抽出する処理(図17のO64)の具体例について説明する。図20は、Op64の処理の具体例を示すフローチャートである。図20に示す例では、モデル間因子価値抽出部72は、まず、目的変数DB61を参照して、同じカテゴリー(業界)およびカテゴリー(地域)を持つ目的変数ID群を取得する。モデル間因子価値抽出部72は、その目的変数ID群で示される目的変数を持つモデル群であって、適用時期が同じモデル群のレコードをモデルインスタンスDB63から抽出する。これにより、同じ業界、地域に属し、適用時期を同じくするモデル群のレコードが収集される(Op641)。
図21は、このようなモデル群の一例を示す概念図である。図21に示すモデル群M16〜18において、左辺は、回帰方程式の目的変数に対応するモデルの対象とする現象を示し、右辺は、回帰方程式の説明変数それぞれに対応する因子および定数項を示す。β0〜β3は、定数項および説明変数の各重みを表す。また、目的変数の下には、分析適用時期と分析精度、右辺各項の下には、重みβ0〜β3それぞれのt検定値が記載されている。
モデルM16、17、18は、それぞれ「I町S玩具店の売上高」、「I町Y仏具店の売上高」、「I町H和服店の売上高」を対象の現象としている。これらの現象は、いずれも、同じカテゴリー(地域)「I町」で、および、同じカテゴリー(業種)「個人経営」に属している。また、モデル群M16〜M18の分析適用時期は、いずれも2004年である。
なお、ここでは、業界、地域および適用時期を同じくするモデル群を収集しているが、収集の対象とするモデル群はこれに限られない。例えば、モデル間因子価値抽出部72は、ある業界全体において共通性を有する抽出したい場合は、地域、適用時期を限定せず、カテゴリー(業界)の目的変数を持つモデル群を収集することができる。
モデル間因子価値抽出部72は、このようなモデル群M16〜M18のうち、共通性が高く、かつ、t検定値が一定水準以上(例えば、所定の閾値以上)で安定している因子を抽出する(図20のOp642)。モデル間因子価値抽出部72は、抽出した因子を「共通価値」を有する因子として、因子価値DB65に記録する。
これにより、例えば、業界、地域および適用時期を同じくするモデル群において共通性の高い因子を発見することができる。
ここで、図21に示す例では、モデル群M16〜M18に含まれる因子のうち、因子間の類似度が高い因子のグループは、同一の因子として扱うこともできる。図21に示す例では、「秋分週末種」および「秋分土曜種」の因子は、互いに類似度が高いので、同一の因子として扱われてもよい。
この場合、例えば、t検定値の閾値を5とすると、t検定値が常に閾値を超えているのは因子「秋分週末種」および、これと同一の因子として扱われる「秋分土曜種」のグループとなる。そのため、これらの因子がOp642で抽出される。また、因子「前週の商品売上」は、共通性はあるものの、t検定値が5を超えていないので、抽出されない。「祝日種」、「大安月種」は共通性もない。
モデル間因子価値抽出部72は、これらの抽出した因子「秋分週末種」および「秋分土曜種」を、共通性を有する因子として因子価値DB65に記録する。
因子価値DB65には、例えば、図5に示すレコードD4のように、寄与因子(説明変数ID)として「秋分週末種、秋分土曜種(s−031、s−101)」、属性として「共通性」、目的変数IDとして「m−006、m−043、m−046」(I町S玩具店、Y仏具店、H和服の売上高それぞれの目的変数ID)、カテゴリー(業界)として「個人経営」、代表モデルのインスタンスID、採用現場数「351」、業界採用ランキング「1位」、平均精度「0.78」が記録される。採用現場数は、例えば、Op641で抽出されたモデル群のうち、その因子が含まれているモデル数とすることができる。業界採用ランキングを計算するために、モデル間因子価値抽出部72は、例えば、目的変数DB61のカテゴリ(業界)=「個人経営」である目的変数IDを取得し、その目的変数IDが含まれるレコードをモデルインスタンスDB63に参照することにより、業界での因子「秋分週末種」および「秋分土曜種」の採用数を得ることができる。
(モデル作成処理の詳細:類似因子空間作成処理)
次に、類似因子空間作成部91が、モデル提案部11からの指示を受けて、類似因子空間データを作成する処理の具体例を説明する。図22は、類似因子空間作成部91が、類似因子空間データ作成する処理の一例を示すフローチャートである。図22に示す処理は、図7のOp13においてモデル提案部11から指示を受けた類似因子空間作成部91の処理である。
類似因子空間作成部91は、まず、モデル提案部11から類似因子空間データ作成の指示とともに、基準因子および探索条件を受け取る(Op1401)。探索条件は、例えば、類似因子を探察する範囲を示すデータが含まれる。なお、類似因子空間データ作成の指示は、モデル提案部11に限られず、例えば、類似モデル空間作成部92が出してもよい。
類似因子空間作成部91は、基準因子が持つ因子価値を示す情報を、因子価値DB65に問い合わせる。ここでは、一例として、基準因子が「週明け」を示す日種因子である場合について説明する。例えば、因子「週明け」が、長期安定性を有する因子として、因子価値DB65に記録されていた場合は、類似因子空間作成部91は、因子価値の属性「長期安定性」を示すデータと、その向上性能を示すデータとを因子価値情報として取得する。
類似因子空間作成部91は、取得した基準因子の因子価値の属性と同じ属性を持つ因子群を示す情報を因子価値DB65から取得する(Op1403)。ここでは、因子価値の属性「長期安定性」を持つ因子群が取得される。そして、類似因子空間作成部91は、それらの因子群の中から、Op1401で受け取った探索条件に基づいて、代替候補となる因子を絞り込む(Op1404)。ここで絞り込まれた因子を以下、類似因子と称する。
その後、各類似因子について、基準因子との因子価値間の距離を計算するように距離計算部8に依頼する(Op1405)。因子価値間の距離は、例えば、2つの因子間における予測精度向上に寄与する度合いの類似度を示す値である。距離計算部8の因子価値間距離の計算例については後述する。この距離計算部8による、因子と基準因子との因子価値間の距離計算は、Op1404で絞り込まれた類似因子全てについて繰り返し実行される(Op1406)。
類似因子空間作成部91は、距離計算部8によって計算された因子価値間距離を基に、類似因子を仮想空間にマッピングする(Op1407)。例えば、類似因子空間作成部91は、基準因子の位置を原点として、2次元の仮想空間に各類似因子を配置することができる。このとき、類似因子空間作成部91は、基準因子との距離が所定範囲内にある類似因子については、類似因子間の距離を、距離計算部8に計算させる(Op1408)。ここで計算される距離は、因子価値間距離でも因子自体の距離dfでもよい。
下記表2は、類似因子空間作成部91が計算した類似因子間の距離の一例を示す表である。下記表2において、「梅雨時」が基準因子であり、その他の因子は類似因子群である。この類似因子群は、上記表1に示した類似因子群に対応する。
類似因子空間作成部91は、Op1405で計算した各類似因子と基準因子との距離、および上記表2のような類似因子間の距離に応じて、仮想空間に類似因子を配置することができる。例えば、Op1405で計算した基準因子との距離に応じて、各類似因子の前記仮想空間における原点からの距離が決定される。そして、上記表2で示される類似因子間の距離を保つように、各類似因子間の相対的な仮想空間上の位置関係が決定される。これにより類似因子の二次元の仮想空間における配置が決まる。上記表2の各類似因子間の距離を仮想空間上に反映させると、例えば、各類似因子は、図8に示したように配置される。 このようにして決定される仮想空間上の類似因子の配置を示す類似因子空間データが生成される(Op1409)。この類似因子群のデータには、上記表1に示したように、各類似因子の含まれるモデルの対象となる現象に関する情報、共通する因子価値、類似因子の名称、基準因子との距離(因子価値間距離)等が含まれる。また、この類似因子群のデータに、上記表2のような類似因子間の距離を示すデータが含まれても良い。類似因子空間作成部91は、このデータを、類似因子空間データとしてモデル提案部11に返す。
以上、図22に示した処理により、基準因子と同じ因子価値を持つ因子であって、基準因子に近い因子群に関する情報が得られる。これにより、基準因子のモデルの精度向上に寄与しうる類似因子を示す情報が得られる。なお、類似因子空間データは、上記例に限られず、類似因子を示す情報と、各類似因子の基準因子との因子価値間の距離を示す情報が含まれていれば、その他の情報は任意である。また、類似因子空間作成の処理も図22に示す例に限られない。例えば、図22に示す例において、さらに、各類似因子の基準因子との因子価値間の距離に基づいて類似因子を絞り込む処理が行われてもよい。
(距離計算:因子価値間の距離計算の例)
ここで、距離計算部による、2つの因子価値間の距離の計算例を説明する。図23は、距離計算部8が、因子aおよび因子bの因子価値間の距離dVを計算する動作の例を示すフローチャートである。距離計算部8は、まず、因子aと因子bと間の因子自体の距離dfを計算する(Op81)。
距離dfは、例えば,各因子に対応する説明変数の値がどの程度一致しているか示すものであり、具体的には、後述する例のように、説明変数の値の相関で表すことができる。
また、距離計算部8は、因子aと因子bと間の因子の性能の距離dtを計算する(Op82)。距離dtは、例えば,各因子の有意性を示す値がどの程度一致しているか示すものであり、具体例は、後述する。
さらに、距離計算部8は、因子aが属するモデルと、因子bが属するモデルとのモデル属性間距離dMZを計算する(Op83)。モデル属性間距離dMZは、因子aのモデルの属性と因子bのモデルの属性との類似度を示す値である。モデルの属性には、例えば、例えば、モデルの目的変数、説明変数、適用時期、予測精度等が含まれる。モデル属性間距離dMZは、これらの各属性についてそれぞれ計算される。なお、因子a、bが属するモデルの属性を示す情報は、因子価値DB65に記録された因子a、bそれぞれのインスタンスIDを基に、モデルインスタンスDB63から取得することができる。
距離計算部8は、上記の距離df、dtおよびdMを、予め組み込まれた関数f(df、dt、dM)に代入することにより因子aと因子bとの因子価値間の距離dVを求める(Op84)。この関数f(df、dt、dM)は、距離df、dt、dMを総合的に加味した距離を計算する関数であり、特に限定されない。一例として、下記式(4)または式(5)で表される関数とすることができる。下記式(4)および式(5)においてKf、Kt、KMはdf、dt、dMそれぞれの重みを示す係数である。
Kf・df+Kt・dt+KM・dM ―――――(4)
{(Kf・df)2+(Kt・dt)2+(KM・dM)2}1/2 ――――(5)
以下に、上記の距離df、dtおよびdMの計算の具体例を示す。ここでは、図12のM1およびM2に示したモデル中の因子「梅雨時」および「6月下旬〜7月中旬」それぞれを因子a、因子bである場合の例を説明する。
距離計算部8は、因子自体の距離dfを、例えば、下記式(6)で計算することができる。
df=1―(因子aの説明変数と因子bの説明変数との相関係数の2乗) ――(6)
式(6)は、本例では、下記(7)となる。
df=1−(「梅雨時」のベクトルと、「6月下旬〜7月中旬」のベクトルとの相関係数の2乗) ――(7)
下記表3は、これらの因子「梅雨時」および「6月下旬〜7月中旬」の説明変数がベクトルで表される場合の要素値の例を示す表である。なお、因子a、bの説明変数の値は、例えば、図4に示した説明変数DB62の要素値テーブルのレコードC100に記録されている。
距離計算部8は、上記表3で示す要素値を有する「梅雨時」「6月旬〜7月中旬」それぞれのベクトルの相関を計算し、上記式(7)を計算する。その結果、距離df=1−0.9216=0.09784と計算される。このようにして計算される距離dfは、0から1までの間の値となり、値が小さい程、距離は近くなる。
さらに、距離計算部8は、距離dtを下記式(8)により計算する。
「梅雨時」のt検定値=「1.8」、「6月旬〜7月中旬」のt検定値=「13.2」なので、距離dtは下記式(9)のように計算される。このようにして計算される距離dtも、0から1までの間の値となり、値が小さい程、距離は近くなる。
また、距離計算部8は、モデル属性間の距離dMZとして、図12のM1に示したモデルの属性と、M2に示したモデルの属性との距離を計算する。ここでは、距離dMZとしての一例として、目的変数間の距離dMZ―Y、説明変数間の距離dMZ―X、重み(β)間の距離dMZ―B、分析適用時期間の距離dMZ―Atおよび分析精度間の距離dMZ―Aqを計算する場合について説明する。
目的変数間の距離dMZ―Yは、モデルM1、M2それぞれの目的変数のベクトルとY1、Y2とすると、例えば、下記式(10)によって計算することができる。
また、距離計算部8は、例えば、M1、M2それぞれのモデルの目的変数IDを取得し、目的変数DB61における、M1、M2それぞれの目的変数IDに対応付けられたデータを互いに比較し、比較結果を上記距離dMZ―Yに反映させてもよい。例えば、距離計算部8は、M1の目的変数が表す現象と、M2の目的変数が表す現象が同じであれば、距離dMZ―Yを小さくしてもよい。
説明変数間の距離dMZ―Xは、例えば、上記の因子自体の距離dfを、モデルに含まれる全ての説明変数X1〜X3について算出し合計することで計算される。重み(β)間の距離dMZ―Bは、例えば、下記式(11)により計算される。
分析適用時期間の距離dMZ―ATは、モデルM1の分析適用時期をA、モデルM2の分析適用時期をBとすると、例えば、下記式(12)を用いて計算することができる。なお、式(12)中の「ABの最大時間距離」は、A開始時とB開始時のいずれか早い方と、A終了時およびB終了のいずれか遅い方との間の期間である。また、予測適用時期間の距離についても同様に式(12)を用いて計算することができる。
分析精度間の距離dMZ―Aqは、モデルM1の分析精度を精度A、モデルM2の分析精度を精度Bとすると、例えば、下記式(13)を用いて計算することができる。なお、予測精度も同様に下記(13)を用いて計算することができる。
以上のように計算された因子自体の距離df、因子の性能の距離dtおよび因子が属するモデルの各属性間の距離dMZ(dMZ―Y、dMZ―X、dMZ―B、dMZ―AtおよびdMZ―Aq)が計算される。距離計算部8は、これらの距離df、距離dtと距離dMZを、所定の関数f(df、dt、dMZ)に代入して「梅雨時」「6月旬〜7月中旬」における因子価値間の距離dVを計算することができる。
このように、因子自体の距離dfに加えて、因子の性能の距離dtおよびモデルの各属性間の距離dMZを用いて因子価値間の距離dVを計算することにより、因子が属するモデルに対する因子の寄与度合いを考慮にいれた因子価値間の距離dVが計算される。なお、上記の因子価値間の距離計算方法は一例であり、これに限られない。距離計算部8は、その他の因子価値情報やモデル情報をさらに用いて、因子価値間の距離dVを計算してもよい。
(モデル作成処理の詳細:類似モデル空間作成処理)
ここで、類似モデル空間作成部92が、モデル提案部11からの指示を受けて、類似モデル空間データを作成する処理の具体例を説明する。図24は、類似モデル空間作成部92が、類似モデル空間データ作成する処理の一例を示すフローチャートである。図24に示す処理は、図7のOp16においてモデル提案部11から指示を受けた類似モデル空間作成部92の処理である。
類似モデル空間作成部92は、まず、モデル提案部11から類似モデル空間データ作成の指示とともに、基準モデルおよび探索条件を受け取る(Op1601)。探索条件には、例えば、基準モデルの因子のうち代替が要求されている因子を示すデータ、探索するモデルの範囲を示すデータ等が含まれる。
類似モデル空間作成部92は、まず、探索条件から、基準モデル中に、代替が要求されている因子があるか否かを判断する(Op1602)。すなわち、類似モデル空間作成部92は、基準モデル中の少なくとも一部の因子を継承する必要があるか否かを判断する。
代替が要求されている因子がなければ(Op1602でN)、類似モデル空間作成部92は、モデルインスタンスDB63中の各レコードで示されるモデルのうち、基準モデルに類似するモデルのデータを抽出し、類似モデル空間データを作成する(Op1603)。
代替が要求されている因子がある場合(Op1602でY)、類似モデル空間作成部92は、探索条件で示される探索するモデルの範囲が、実在モデルに限定されているか判断する(Op1604)。実在モデルのみに限定されている場合(Op1604でY)、類似モデル空間作成部92は、基準モデルの因子を置換して構成される複数通りの代替モデル群であって、基準モデルに類似する代替モデル群のデータを、モデルインスタンスDB63中の各レコードで示されるモデルの中から抽出する(Op1605)。このとき、各代替モデルと基準モデルとの類似度(距離)も計算される。この距離と代替モデル群のデータとを基に、類似モデル空間データが作成される。
また、探索条件で示される探索するモデルの範囲が仮想モデルのみに限定されている場合(Op1604でN、かつOp1606でY)、類似モデル空間作成部92は、基準モデルの因子を置換して構成される複数通りの仮想モデル群を示すデータを作成し、その中から基準モデルに類似するモデル群のデータを、代替モデル群のデータとして抽出する。(Op1607)。このとき、各代替モデルと基準モデルとの類似度(距離)も計算される。この距離と代替モデル群のデータとを基に、類似モデル空間データが作成される。
また、探索条件で示される探索するモデルの範囲が実在モデルのみにも仮想モデルのみにも限定されていない場合(Op1606でN)、類似モデル空間作成部92は、上記のOp1605およびOp1607の処理を実行し、それぞれ得られた代替モデル群のデータをまとめて並べ直すことにより、類似モデル空間データを生成する(Op1608)。
以上、図24に示した処理により、探索条件で指定された代替因子と探索するモデルの範囲とに従った類似モデル空間データの生成が可能になる。また、基準モデルの性質に類似し、かつ性能向上の見込みの高い代替モデルの情報が得られる。次に、上記Op1603、Op1605およびOp1607の処理の詳細について順に説明する。
(類似モデル空間作成処理[Op1603]の詳細)
図25は、図24のOp1603における処理の詳細を示すフローチャートである。図25に示す例では、類似モデル空間作成部92は、モデルインスタンスDB63の各レコードで示されるモデルの目的変数と、基準モデルの目的変数との距離(すなわち、目的変数間の距離dY)を計算する(Op31)。距離dYの計算は上述した距離dMZ―Yの計算と同様にできる。基準モデルの目的変数との距離dYが閾値以下の目的変数を持つモデルは、基準モデルと類似するとみなされ、代替モデルとして抽出される。
類似モデル空間作成部92は、各代替モデルと基準モデルとのモデル間距離dmを距離計算部8に計算させる(Op32)。モデル間距離dmの計算方法については後述する。また、類似モデル空間作成部92は、代替モデルどうしのモデル間距離dmも距離計算部8に計算させる(Op33)。そして、これらのモデル間距離dmを基に、類似モデル空間データが生成される(Op34)。類似モデル空間データは、例えば、各代替モデルを示すデータ、各代替モデルと基準モデルとの距離を示すデータ、代替モデルどうしの距離を示すデータを含むデータである。
下記表4は、代替モデルどうしのモデル間距離の一例を示す表である。
また、類似モデル空間作成部92は、Op32、Op33で計算された距離を基に、基準モデルを原点とする2次元の仮想空間上に代替モデルを配置し、各代替モデルの座標を類似モデル空間データに含めてもよい。例えば、Op32で計算した基準モデルと各代替モデルとのモデル間距離に応じて、各代替モデルの仮想空間上の原点からの距離が決定される。そして、上記表4に示すような各代替モデル間のモデル間距離に応じて、仮想空間における各代替モデルの座標が決定される。なお、図9に示す画面表示例は、上記表4に示すモデル間距離から決定された仮想空間上の配置を表すもものである。
以上、図25に示した処理により、モデルインスタンスDB63に記録された各レコードで示される実在モデルの中から、基準モデルに近い代替可能なモデルが抽出され、これらのモデルを示す類似モデル空間データが生成される。
(モデル間距離の計算例)
次に、上記図25のOp32でも実行されるモデル間距離の計算例について説明する。ここでは、距離計算部8によるモデルMaとモデルMbとのモデル間距離dmの計算例について説明する。図26は、距離計算部8が、モデルMaおよびモデルMbのモデル間の距離dmを計算する動作の例を示すフローチャートである。距離計算部8は、まず、モデルMaとモデルMbの各属性をモデルインスタンスDB63から取得する(Op801)。距離計算部8は、例えば、モデルMaおよびモデルMbのインスタンスIDを受け取り、モデルインスタンスDB63から、それぞれのインスタンスIDに対応するデータを参照することにより、モデルの属性を示す情報を取得することができる。属性として、例えば、モデルの目的変数Y、説明変数X1〜Xn、重みβ1〜βn、適用時期、予測精度が取得される。
距離計算部8は、取得したモデルMaの各属性と、対応するモデルMbの各属性との距離をそれぞれ計算する(Op802)。ここで、各属性の距離の一例について、図27を用いて説明する。図27は、モデルMaとモデルMbの各属性間の距離を概念的に示す図である。図27に示す目的変数間の距離dYは、モデルMaの目的変数とモデルMbの目的変数との類似度を示す値である。距離dYは、例えば、上述の距離dMZ―Yの計算と同様に計算される。
距離dVは、モデルMaの因子と、同じ価値属性を持つモデルMbの因子との因子価値間の距離である。モデルMaとモデルMbの同一因子価値を持つ因子間の距離dVについては、例えば、次のように計算される。距離計算部8は、まず、Ma中で当該因子価値を持つka個の因子と、Mb中で当該因子価値を持つkb個の因子と全ての組み合わせ( ka × kb通りの組み合わせ)について因子価値間距離を計算する。因子価値間距離は、例えば、図23に示した距離計算部8の処理により計算される。計算されたka × kb通りの組み合わせの中で、因子価値間距離が尤も小さくなる組み合わせを選択し、その組み合わせにおける因子価値間距離を距離dVとする。 なお、複数の組み合わせにおける因子価値間距離が距離dVとして選択されてもよく、この場合、例えば、選択された複数の組み合わせにおける因子価値間距離の合計が下記のOp803におけるモデル間の距離計算に用いられる。
距離dXは、モデルMaの説明変数X1〜Xnと、それら説明変数X1〜Xnにそれぞれ対応するモデルMbの説明変数X1〜Xnとの間の類似度を示す値であり、例えば、上記の距離dMZ―Xと同様に計算される。重み間の距離dBは、モデルMaの説明変数X1〜Xnの重みβ1〜βnと、それらにそれぞれ対応するモデルMbの説明変数X1〜Xnの重みβ1〜βnとの間の類似度を示す値である。重み間の距離dBは、例えば、上記の距離dMZ―Bと同様に計算される。
分析適用時期間の距離datおよび予測適用時期間の距離dptは、モデルMaおよびMb双方の分析適用時期および予測適用時期それぞれの類似度を示す値であり、上記の距離dMZ―Atと同様に計算される。分析精度の距離daqおよび予測結果精度の距離dpqは、モデルMaおよびMb双方の分析精度および予測結果精度それぞれの類似度を示す値であり、上記の距離dMZ―Aqと同様に計算される。
距離計算部8は、これらの距離dY、dX、dB、dat、dpt、daqおよびdpqを、予め組み込まれた関数g()に代入することによりモデルMaとモデルMbとのモデル間の距離dmを求める(Op803)。この関数g()は特に限定されないが、一例として、下記式(14)で表される関数とすることができる。下記式(14)および式(15)においてKY、KX、KΒ、Kat、Kpt、Kaq、KpqはdY、dX、dB、dat、dpt、daq、dpqそれぞれの重みを示す係数である。
KY・dY+KX・dX+KΒ・dΒ+KΒ・dΒ+Kat・dat+Kpt・dpt+Kaq・daq+Kpq・dpq ―――――(14)
{(KY・dY)2+(KX・dX)2+(KΒ・dΒ)2+(Kat・dat)2+(Kpt・dpt)2+(Kaq・daq)2+(Kpq・dpq)2}1/2 ――――(15)
このように、複数の属性についての距離を基にモデル間の距離dmを計算することにより、双方のモデルMaおよびMbが持つ様々な属性の類似度をモデル間の距離dmに反映させることができる。なお、モデルの各属性は、上記例に限られない。また、距離計算部8は、上記の属性の全てについて距離を計算する必要はなく、属性を示すデータが得られるものについて距離を計算すればよい。
(類似モデル空間作成処理[Op1605]の詳細)
図28は、図24のOp1605における処理の詳細を示すフローチャートである。図28に示す例では、類似モデル空間作成部92は、モデルインスタンスDB63に記録された各レコードが示すモデルの目的変数と、基準モデルの目的変数との距離を計算する。この目的変数間の距離計算は、上述した距離dMZ―Yと同様に計算することができる。そして、類似モデル空間作成部92は、基準モデルの目的変数との距離が閾値以下のモデルのインスタンスIDを、類似モデルと見なして抽出する(Op51)。
類似モデル空間作成部92は、基準モデルの因子のうち、代替が要求されている因子(代替対象の因子)それぞれについて、類似因子空間データの作成を、類似因子空間作成部91に依頼する。(Op52)。この指示をする時、類似モデル空間作成部92は、探索条件として、類似因子の探索範囲は、Op51で抽出されたインスタンスIDで示されるモデルに含まれる因子に限定することを示すデータを類似因子空間作成部91に渡す。これにより、代替対象の因子それぞれについて、類似する因子価値を持つ類似因子群が、実在する類似モデル中の因子群から探索され、類似因子空間データが生成される。類似因子空間作成処理は、例えば、図22に示したように実行される。
類似モデル空間作成部92は、基準モデルの代替対象の因子を、前記類似因子空間データが示す類似因子群に含まれる因子と置換して構成される代替モデルであって、Op51で抽出されたインスタンスIDで示されるモデルと同じ因子構成になるような代替モデルを作成する(Op53)。
そして、類似モデル空間作成部92は、作成した代替モデルそれぞれについて、基準モデルとの距離を計算し、代替モデル群の情報と、基準モデルとの距離を示す情報とを含む類似モデル空間データを作成する(Op54)。これにより、基準モデルの因子を類似する価値を有する因子に置換して構成されるモデルであって、実在する類似モデルと同じ因子構成のモデルが代替モデルとして抽出される。そして、代替モデルを示す情報を含む類似モデル空間データが生成される。なお、上記表1に示した類似モデル空間データは、図28に示す処理により生成された類似モデル空間データの一例である。
(類似モデル空間作成処理[Op1607]の詳細)
図29は、図24のOp1607における処理の詳細を示すフローチャートである。図29に示す例では、類似モデル空間作成部92は、基準モデルの因子のうち、代替が要求されている因子(代替対象の因子)それぞれについて、類似因子空間データの作成を、類似因子空間作成部91に依頼する。これにより、代替対象の因子それぞれについて、類似する因子価値を持つ類似因子群を示す類似因子空間データが生成される(Op71)。
類似モデル空間作成部92は、代替対象の因子ごとの類似因子空間データが示す類似因子群のうち、代替対象因子との距離が閾値より小さい類似因子群を代替対象の因子ごとに抽出し、これらを組み合わせて代替仮想モデルを作成する(Op72)。
以下に具体例を示す。ここでは、基準モデルが、図12のM1に示したモデルのように、「E信用金庫S支店のシステムトラブル回数」を対象とし、日種因子「週明け」、「梅雨時」および「冬の水木金」を因子に持つモデルである場合について説明する。また、代替対象の因子は、「週明け」、「梅雨時」および「冬の水木金」であるとする。
図30は、代替対象の因子との距離が閾値より小さい類似因子群の例を概念的に示す図である。図30では、代替対象の因子Xa1、Xa2、Xa3に、それぞれ類似する代替因子群b11〜b13、b21〜23、b31〜33が矢印で接続された状態で示されている。例えば、代替対象の因子Xa1「週明け」に類似する代替因子群b11、b12、b13は、それぞれ因子「月火」、「月曜日」および「週明け営業日」である。この場合、類似モデル空間作成部92は、代替対象の因子「週明け」を代替因子「月火」、「月曜日」および「週明け営業日」のいずれかに置換し、代替対象の因子「梅雨時」を代替因子「小暑or大暑」、「夏至or小暑」および「7月初〜中旬」のいずれかに置換し、さらに、代替対象の因子「冬の水木金」を代替因子「12月の水木金」、「年末の木金」および「年末年始の金曜」のいずれかに置換することにより、代替仮想モデルを作成する。この場合、3つの代替対象の因子それぞれについて3通りの因子代替が可能なので、代替仮想モデルは、3×3×3=27通り作成される。
類似モデル空間作成部92は、これらの27通りの代替仮想モデルそれぞれについて、図29のOp73〜Op75に示す処理を行い、基準モデルとの距離を計算する。Op73では、類似モデル空間作成部92は、代替仮想モデルの各因子が所属している各モデルと、基準モデルとの間のモデル間距離計算を距離計算部8に依頼する。これにより得られた各モデルと基準モデルとの距離の平均値が、モデル間平均距離daveとして算出される。
類似モデル空間作成部92は、基準モデルの各代替対象の因子と、それぞれ置換した代替因子との因子価値間距離dvも距離計算部8に計算させる(Op74)。この計算は、図23に示した処理により実行される。この場合、図23のOp83のモデル属性間の距離dMは、基準モデルの属性と、各代替因子が属するモデルの属性との間の距離が計算されることになる。これにより、計算される因子価値間の距離は、各代替因子と属するモデルと基準モデルとの関係が考慮された値となる。
類似モデル空間作成部92は、Op74で計算されたモデル間平均距離dave、およびOp75で計算された各代替対象の因子の各代替因子との因子価値間の距離dvを、所定の関数h(dave、dv)に代入して、代替仮想モデルと基準モデルとのモデル間距離dmを計算する(Op76)。これにより、各代替因子が所属する各モデルと基準モデルとの関係も考慮したモデル間距離が計算される。
上記Op73〜Op75の処理によって、各代替仮想モデルについて基準モデルとの距離が計算される。類似モデル空間作成部92は、これらの各代替仮想モデルと前記距離と対応付けたデータを、類似モデル空間データをして生成する。
以上、図29に示す処理により、代替対象の因子(元因子)と、代替因子との因子価値間距離と、基準モデルと各代替因子が属する各モデルとのモデル間距離とに基づいて、基準モデルと代替仮想モデルとの距離が求められる。これにより、因子が基準モデルに対してどのような価値をどの程度有しているのかといった事項も加味した距離が求められる。その結果、元因子と因子価値間の共通性を持つ(相性がよい)代替因子の組を含み、基準モデルに適した代替モデルを得るために有益な情報が得られる。
(画面表示例:条件設定画面)
次に、モデル作成支援システム1が情報処理装置15a〜15cに表示させる画面の例について説明する。図31は、条件取得部4が、既存モデルの代替モデル作成要求を出した情報処理装置15aに対して、代替モデルの条件を示す情報を要求するために表示させる画面の表示例である。図31に示す画面は、例えば、図7に示したモデル作成処理の前に情報処理装置15aに表示される。この画面で入力された情報は、モデル条件データとして条件取得部4を経てモデル提案部11に渡される。
図31に示す探索条件設定画面1(G3)には、探索手順選択エリアA1、精度種類選択エリアA2、代替対象因子選択エリアA3、優先期間指定エリアA4が含まれる。
探索手順選択エリアA1では、ユーザは、代替モデルを探索する際の手順を選択することができる。ここでは、ユーザは、ステップ代替か全一括代替かの選択、因子毎代替かモデル毎代替かの選択、モデル毎代替の場合は、実モデルに限定、仮想モデルに限定または、実/仮想モデル混合のいずれかの選択をすることができる。
ステップ代替とは、代替モデルまたは代替因子を1つずつ順番にユーザが選択可能に提示する探索手順であり、全一括代替は、全ての代替モデルまたは代替因子を一括して提示する探索手順である。この選択結果は、例えば、モデル提案部11が、図7のOp14またはOp17において、類似因子群または類似モデル群を1つずつ順に提示するか、一括して提示するかを判断するときに用いられる。
因子毎代替かモデル毎代替かの選択は、代替対象を、因子ごと探索するか、モデルごとに探索するかの選択であり、この選択結果は、例えば、図7のOp12における判断に用いられる。実モデル限定、仮想モデル限定、実/仮想モデル混合の選択は、代替モデルの探索対象の選択であり、この選択結果は、例えは、図24に示したOp1604およびOp1606の判断に用いられる。
精度種類選択エリアA2では、ユーザは、代替モデルまたは代替因子の探索において、分析精度および予測結果精度のうちどの精度を重要視するかを選択する。この選択結果は、例えば、図23に示した因子価値間距離計算におけるモデル属性間距離dMの計算(Op83)や、図26に示したモデル間距離計算におけるモデルの各属性間距離計算(Op802)において、予測結果精度または分析精度の類似度を計算するときに用いられる。
代替対象因子選択エリアA3では、ユーザは、既存モデルの中で、代替を希望する因子(代替対象の因子)を選択することができる。ここで選択された代替対象の因子の情報は、例えば、図7のOp13およびOp16において、モデル提案部11が、類似因子空間作成部91または類似モデル空間作成部92に対して、処理の依頼とともに渡す。そして、類似因子空間作成部91または類似モデル空間作成部92の処理で用いられる。
優先期間指定エリアA4では、ユーザは、常に最新の情報を対象とする分析モデルを情報処理装置から取得するか否かを選択することができる。また、分析モデルの対象となる分析適用時期の長さを指定することもできる。例えば、図31に示す例のように「10日間」と入力された場合、これは、情報処理装置が、過去10日間を分析適用時期として過去10日間のデータで分析を行い(すなわち、予測モデルを生成)、そのモデルを使って、明日の変動の予測を行う、ということを意味する。この場合、例えば、モデル情報取得部3は、生成された予測モデル、分析適用時期(過去10日間)、分析精度、前の日の予測結果精度等を受信し、モデル管理部5が、これらの情報を、モデル記録部6のデータに反映させる処理が毎日繰り返されても良い。
探索条件設定画面2(G4)は、ユーザが、代替モデルまたは代替因子の探索において重要視する因子価値の属性を選択するための画面である。この画面で、ユーザは、「因子変更による精度向上性」「適用時期変更による精度向上性」「長期安定性」「共通性」のうち、重要視する因子価値の属性を選択することができる。ここで選択された因子価値の属性は、例えば、図22のOp1401において、類似因子空間作成部91は、探索条件として受け取る。そして、類似因子空間作成部91は、Op1404において、代替候補となる類似因子を、その属性の因子価値を持つ因子群に絞り込むことができる。
例えば、図31に示すように、探索条件設定画面2(G4)において、「長期安定性重視」が選択され、重視する期間として「現在から『1年』前まで」と入力された場合の例を説明する。この場合、図22のOp1404において、類似因子空間作成部91は、Op1403で取り出された因子群それぞれの因子価値DB65のデータ「該当期間(図5のD3)」を参照し、「該当期間」の少なくとも一部が、現在から1年前までの期間に含まれている因子のみを、代替因子の候補となる類似因子とすることができる。その結果、現在から1年前までの実績において長期安定性を示している因子が代替因子の候補として抽出される。
なお、上記実施形態に示したように、因子価値を様々な観点から複数の属性に分類し因子価値DB65に記録することで、このようなユーザの選択が可能になる。これにより、ユーザの意図を反映させた代替モデルまたは代替因子の提示が可能になる。
(画面表示例:代替因子の提案画面)
ここでは、条件取得部4およびモデル提案部11が、既存モデルの代替モデル作成要求を出した情報処理装置15に対して、代替対象の因子を提示するために表示させる画面の遷移例を説明する。ここでは、一例として、既存モデルとして、図12のM1に示すモデルが通知され、このモデルの代替モデル作成要求がなされた場合について説明する。
この場合、条件取得部4は、情報処理装置15aに対して、モデル条件データの問い合わせをする。具体的には、条件取得部4は、例えば、図31に示した探索条件設定画面1(G3)および探索条件設定画面2(G4)を情報処理装置15aに表示させる。これらの画面で入力された情報は、既存モデルに関する情報とともにモデル条件データに含めてモデル提案部11に渡される。この処理は、図7のOp11に相当する。
モデル提案部11は、既存モデルの各因子X1「週明け」、X2「梅雨時」およびX3「冬の水木金」の因子価値に関する情報を因子価値DB65から検索し、条件取得部4に渡す。条件取得部4は、情報処理装置15aに各因子の因子価値の情報を送り、ユーザに対して表示させる。
図32に示す画面G5は、このときに、条件取得部4が情報処理装置15aに表示させる画面の例である。画面G5では、既存モデルの各因子X1、X2およびX3の因子価値属性「業界共通性」「長期安定性」「向上性」がそれぞれ表示されており、さらに、これらの因子を代替対象とする旨を確認するための「OK」ボタンが表示されている。ユーザが「OK」ボタンをクリックすると、X1、X2およびX3が代替対象の因子であることを示す情報が、条件取得部4に送られ、さらに、モデル提案部11に渡される。
モデル提案部11は、図31に示す画面G3、G4で入力された探索条件に従って、図7に示した処理を実行する。ここでは、探索条件設定画面1(G3)の探索手順選択エリアA1で「ステップ代替」および「因子毎代替」が選択された場合について説明する。この場合、モデル提案部11は、探索手順を因子ごとに代替(図7のOp12で「因子ごと」)と判断し、Op13〜Op15の処理を実行する。
その際、Op14の類似因子の提示においては、各代替対象の因子ごとに代替候補の類似因子をユーザに対して提示して選択させる。図32に示す画面G6およびG7は、それぞれ代替対象の因子X3「冬の水木金」およびX2「梅雨時」の類似因子を提示する画面の例である。画面G6は、代替対象の因子X3「冬の水木金」の類似因子「歳末の木金」を提示しており、その類似因子の因子価値「向上性」および「業界共通性」についての説明も表示されている。ユーザが「OK」ボタンをクリックすると、モデル提案部11は、代替対象の因子X1「冬の水木金」は「歳末の木金」に置換した代替モデルを作成する。「NO」ボタンがクリックされると、モデル提案部11は、因子X3「冬の水木金」に類似する他の類似因子を表示する。画面G6には、代替対象の因子X2「梅雨時」の類似因子「梅雨時の営業日」が、因子価値情報とともに提示されている。このような画面G5、G6が順次、情報処理装置15aに表示されることにより、ユーザは、代替対象因子ごとに因子価値を考慮しながら代替因子を決定することができる。
このようにして各代替対象の因子X1、X2およびX3について代替因子が確定すると、モデル提案部11は、それらの代替因子で置換したモデルを作成し、代替モデルとして情報処理装置15aへ送信する。
(新規モデル作成処理)
ここまで、条件取得部4、既存モデルの代替モデル作成要求を受けた場合の動作例について主に説明してきた。ここでは、条件取得部4が、情報処理装置15aから新規モデルの作成要求を受けた場合の、条件取得部4およびモデル提案部11の動作例を説明する。
図33は、条件取得部4およびモデル提案部11の新規モデル作成処理の例を示すフローチャートである。図33に示す例では、条件取得部4が、情報処理装置15aから新規モデル作成要求を受けると(Op21)、モデル提案部11に新規モデル作成要求を通知する。モデル提案部11は、目的変数DB61に記録されているモデルの対象となりうる現象のカテゴリー(業界)および種類をそれぞれ全種類取得して、情報処理装置15aへ送信し、ユーザに選択可能な状態で提示させる(Op22)。
図34に示す画面G8は、現象のカテゴリー(業界)および現象の種類を選択可能な状態で表示する場合の画面の一例である。モデル提案部11が目的変数DB61から取得した現象のカテゴリー(業界)は「業種選択」のリストL1に、現象の種類は「目的変数(Y)」のリストL2に、それぞれ表示される。
画面G8でユーザによって選択された現象のカテゴリー(業界)および現象の種類は、モデル提案部11に通知される。モデル提案部11は、通知された現象を対象とするモデルに寄与する因子を、因子価値DB65から取得し、ユーザに選択可能な状態で提示する(図33のOp23)。具体的には、モデル提案部11は、選択された現象のカテゴリー(業界)および現象の種類の両方を含む目的変数の目的変数IDを目的変数DB61(図3参照)から取得する。そして、モデル提案部11は、取得した目的変数IDを含むレコードをモデルインスタンスDB63から取得する。取得されたレコードで示される寄与因子(説明変数ID)の情報が、情報処理装置15aに送られ、ユーザに選択可能な状態で表示される。
図34の画面G9は、モデル提案部11が抽出した因子を選択可能なリスト中に表示した画面の例を示す。画面G9のリストL3に、抽出された因子の名称が、選択可能な状態で表示される。ユーザは、リストL3の中からモデルに追加したい因子を少なくとも1つ選択する。ユーザが選択した因子は、モデル提案部11に通知される。モデル提案部11は、選択された因子を含むモデルの回帰方程式を生成し、情報処理装置15aへ送信する(図33のOp24)。
このようにして、情報処理装置15aは、新規モデルを得ることができる。なお、上記の新規モデル作成処理は一例であり、これに限られない。例えば、モデル提案部11は、Op23でモデルに含める因子をユーザに選択させる代わりに、因子価値DB65から抽出した因子を、向上性能または平均精度等の因子価値の度合いを示す値を基にさらに絞り込んで、モデルに含める因子を決定してもよい。これにより、ユーザの選択作業が不要になる。
[第2の実施形態]
本実施形態では、モデル作成支援システム1が扱うモデルが、回帰方程式の各説明変数の間の関係を示す情報を含む場合について説明する。すなわち、1つのモデル内の因子どうしの関係を表す情報がモデルに含まれている場合について説明する。
図35に、図12のM1に示したモデルにおける変数間の関係を示すパス図(P1)と、このパス図の関係を、行列を用いて表した方程式(H1)を示す。パス図P1において、一方向の矢印は因果関係を表し、矢印の脇の値(β0〜β3)は重み(パラメータ)を表す。各目的変数Y(信用金庫のシステムトラブル回数)は、各説明変数X0〜X3(定数項、週明け、梅雨時、冬の水木金)から影響を受けていることが示されている。しかし、説明変数X0〜X3どうしの関係は示されていない。そのため、このパス図P1の関係を示す方程式(H1)において、行列の1〜4行目は実質的には何も表していない。
図36は、説明変数X0〜X3どうしの関係を含むパス図(P2)と、そのパス図の関係を、行列を用いて表した方程式(H2)を示す。パス図P2は、図35のパス図P1が示す関係において、説明変数X0〜X3どうしの関係を追加した構成になっている。パス図P2において、双方向の矢印は、相関関係を表す。具体的には、説明変数X1とX2とは相関関係を有している。X1とX2との互いの関連度合いを示す重み(係数)はα12である。同様に、説明変数X2とX3、X1とX3もそれぞれ重み(係数)をα23、α13とする相関関係を有している。
パス図P2に示す関係は、方程式(H2)のように表される。この場合、X1とX2、X2とX3およびX1とX3の関係が一方向ではなく双方向である(相関関係を有する)。そのため、それら関係の度合いを示す係数α12、α23およびα13は、行列K2において、対角線を挟んで両側に2箇所記載されている。もし、X1とX2の関係が、X2からX1への一方向の関係であった場合(X2はX1に影響を与えるが、X1はX2に影響を与えない場合)、行列K2における3行2列の要素は「0」になる。
なお、方程式(H2)は、共分散構造方程式として扱うことができる。そのため、例えば、行列K2における各係数は、共分散構造分析の手法を用いて計算される。
このような説明変数間の関係(リンク)を示すデータは、例えば、因子間リンクおよびリンクの重みとして、モデルインスタンスDB63に記録される。図37は、モデルインスタンスDB63における、因子間リンクおよびリンクの重みが記録されたレコードの例である。図37に示すレコードA3において、因子間リンクとして「X1−X2、X2−X1」が記録されている。これは、説明変数X1はX2に影響を与え、X2はX1に影響を与えることを示すデータである。すなわち、このデータは、説明変数X1の因子とX2の因子とは相関関係があることを示している。また、因子間リンク「X1−X2、X2−X1」それぞれのリンクの重みを示すデータとして「α12、α12」が記録されている。
次に、因子どうしの関係を示す情報がモデルの回帰方程式内に含まれる場合の、距離計算部8による、因子価値間距離およびモデル間の計算例について説明する。まず、因子価値間距離を計算する場合について説明する。距離計算部8は、図23に示す因子価値間距離の計算において、Op83でモデルの属性間の距離dMを計算する。そのとき、双方のモデルに因子どうしの関係を示す情報が含まれる場合は、距離計算部8は、距離dMの1つとして、さらにリンク間の距離dMZ-sおよびリンクの重み間の距離dMZ-Nを計算することができる。
リンク間の距離dMZ-sは、一方のモデルにおける因子間の関係(リンク)と、他方のモデルにおける因子間の関係(リンク)との類似度を示す値である。リンク間の距離dMZ-sは、例えば、モデルインスタンスDB63において双方のモデルのレコードに対応付けて記録された因子間リンクのデータを基に計算される。例えば、下記式(16)により、リンク間の距離dMZ-sが計算される。
上記式(16)において、「A∩Bのリンクの数」はモデルAとモデルBに共通するリンクの総数を表し、「A∪Bのリンクの数」はモデルAとモデルBの少なくとも片方に含まれているリンクの総数を表している。
リンクの重み間の距離dMZ-Nは、リンクの重みの類似度を示す値である。リンクの重み間の距離dMZ-Nも、モデルインスタンスDB63における双方のモデルに対応するレコードのリンクの重みを基に計算される。距離dMZ-Nは、例えば、下記式(17)により計算される。
図23に示すOp84において、上記の距離dMZ-sおよび距離dMZ-Nを含む距離dMを用いて因子価値間の距離dVが計算される。これにより、リンク間の距離、およびリンクの重みの距離が加味された因子価値間の距離dVが計算される。
モデル間の距離dmを計算する場合も、同様に、距離計算部8は、モデルの属性間の距離を計算する際(図26のOp802参照)に、リンク間の距離dMZ-sおよびリンクの重み間の距離dMZ-Nをさらに計算することができる。そして、Op803において、距離計算部8は、他の属性間の距離に加えて、これらの距離dMZ-sおよび距離dMZ-Nも関数g()に代入してモデル間の距離dmが計算する。これにより、これにより、リンク間の距離、およびリンクの重みの距離が加味されたモデル間の距離dmが計算される。
なお、上記例では、距離計算部8が、リンク間の距離dMZ-sおよびリンクの重み間の距離dMZ-Nの両方を計算する例を示したが、距離計算部8は、これらの距離dMZ-sおよび距離dMZ-Nのいずれか1つだけ計算してもよいし、距離dMZ-sおよび距離dMZ-Nの合成値を計算してもよい。
[第3の実施形態]
図38は、第3の実施形態にかかるモデル作成支援システムの構成を示す機能ブロック図である。図38に示すモデル作成支援システム10は、図1に示すモデル作成支援システム1にイベント因子作成部12および因子調達部13を追加した構成となっている。また、モデル記録部6aには、因子関連情報DBがさらに記録される。因子関連情報DBには、例えば、イベントの特性と因子との関連を示すイベント情報が記録される。
図39は、イベント情報として記録されるデータ内容の一例を示す図である。図39に示すレコードE1は、イベントIDに、イベント名称、期間、場所、組織、業界を示すデータが対応付けられて記録されたデータである。なお、イベント情報の内容は、図39に示す例に限られない。
(イベント因子作成部12の説明)
本実施形態では、モデル管理部5aは、イベント因子作成部12に対して、イベント因子の作成指示を出す。例えば、情報処理装置15a、15bまたは15cから代替モデル作成要求を受けた場合であって、さらに、イベント因子作成要求も受けた場合に、モデル管理部5aは、イベント因子作成部12に対して指示を出す。また、モデル管理部5aは、例えば、夜間バッチ処理として、定期的にイベント因子作成の指示を出してもよい。
イベント因子作成部12は、モデル管理部5aからの指示に従って、説明変数DB62に記録された特定の因子の情報と、因子関連情報DBに記録されたイベント情報とを比較することにより、特定の因子に対応するイベントがないか判断する。その因子に対応するイベントがあれば、イベント因子作成部12は、そのイベントの日種因子(以下、イベント因子と称する)を示すデータを作成する。その際、説明変数DB62および因子価値DB65に記録されたデータがイベント因子作成に用いられる。また、作成されたデータは、説明変数DB62に記録される。
図40は、イベント因子作成部12の動作例を示すフローチャートである。図40に示す例では、イベント因子作成部12が、モデル管理部5から指示を受けると(Op901)、その指示が、ある特定のモデルに含まれる特定の因子に対応するイベント因子の探索の指示か否かを判断する(Op902)。例えば、モデル管理部5からの指示に、特定のモデルおよび因子を示すデータが含まれている場合は、イベント因子作成部12は、その指示は、その特定の因子に対応するイベント因子の探索を指示するものと判断することができる。
例えば、モデル管理部5は、モデル提案部11から特定のモデルおよび因子に対応するイベント因子の探索の依頼を受けた場合に、その特定のモデルおよび因子に対応するイベント因子の探索および作成を、イベント因子作成部12に指示することができる。一方、例えば、モデル管理部5が、夜間バッチ処理としてイベント因子の作成を指示する場合は、特定のモデルおよび因子を示すデータは指示に含まれない。
Op902でYes(Y)の場合、イベント因子作成部12は、モデルインスタンスDB63から、前記特定のモデルに類似する因子を持つ類似モデル群を収集する(Op903)。このとき、イベント因子作成部12は、前記特定のモデルが対象とする現象のカテゴリー(地域)またはカテゴリー(組織)が同じモデルのうち、前記特定の因子と類似する因子(類似因子)を有するモデルを抽出する。例えば、2つの因子の類比判断は、図23に示した距離計算部8の処理により、その2つの因子の因子価値間距離を計算し、その距離に基づいて行うことができる。
イベント因子作成部12は、抽出した類似モデル群の類似因子に対応するイベント情報が、因子関連情報DBのイベント情報として記録されているか否かを判断する(Op904)。イベント因子作成部12は、例えば、類似因子で特定される期間とイベント期間とを比較する。具体的には、前記類似因子が日種因子の場合に、その類似因子で特定される日と、イベント情報に記録された各イベントの期間とを比較する。イベント因子作成部12は、類似因子で特定される日と、各イベントの期間との一致の程度が、所定条件を満たしていれば、そのイベントは類似因子に対応すると判断することができる。
類似因子に対応するイベントがあれば、イベント因子作成部12は、そのイベントを表すイベント因子のデータを作成する(Op905)。イベント因子のデータは、例えば、下記式(18)に示すように、1月1日から12月31日までの一年間の各日を要素とする1列365行の行列で表されるデータである。
イベント因子のデータは、例えば、モデル管理部5に送信される。モデル管理部5は、イベント因子のデータ、イベント名称、適用範囲等の情報を説明変数IDに対応付けて、説明変数DB62に記録する。
また、イベント因子作成部12は、このとき、イベント因子の因子価値データも作成してもよい。Op905で作成したイベント因子は、前記類似因子と同様の因子価値を持つ可能性が高いので、イベント因子作成部12は、例えば、前記類似因子の因子価値データを用いて、イベント因子の因子価値データを生成することができる。イベント因子の因子価値データは因子価値DBに記録される。これにより、類似因子空間作成部91の探索範囲にイベント因子も含まれるようになる。但し、イベント因子は、適用できる範囲が限られることが多い。(例えば、ある神社の祭りの影響は近隣市町村に限られる、また、あるスーパーの特売イベントの効果は、その商圏に限られる。)そのため、類似因子空間作成部91は、因子の探索にあたって、説明変数DB62に記録されたイベント因子の適用範囲が、基準因子の属するモデルを含むかどうかを判定してもよい。 Op902でNo(N)の場合、イベント因子作成部12は、探索対象とする特定の地域および組織を決定する。そして、イベント因子作成部12は、決定した地域および組織の現象を対象とするモデル群をモデルインスタンスDB63から抽出する(Op907)。具体的には、イベント因子作成部12は、目的変数DB61から、カテゴリー(地域)およびカテゴリー(組織)が、決定した地域および組織と一致する目的変数を抽出し、抽出した目的変数を含むレコードをモデルインスタンスDB63から抽出してもよい。これにより、前記地域および組織の現象を対象とするモデル群が抽出される。
なお、ここでは、一例として、地域と組織が共通するモデルを抽出しているが、モデル抽出の条件はこれに限られない。例えば、地域および現象の種類が同じモデルが抽出されてもよい。
イベント因子作成部12は、抽出したモデル群に共通して含まれる因子に対応するイベント情報が、因子関連情報DBのイベント情報として記録されているか否かを判断する(Op907)。ここで、抽出したモデル群に共通して含まれる因子を特定する処理は、図20のOp642と同様の処理にすることができる。
Op907でYes(Y)の場合、イベント因子作成部12は、そのイベントを表すイベント因子のデータを作成する(Op908)。作成されたイベント因子のデータは、説明変数DB62に記録される。また、イベント因子作成部12は、このとき、イベント因子の因子価値データも作成してもよい。
上記のOp901〜Op908の処理は、停止命令がない限り(Op909でNである限り)繰り返される。これにより、モデル管理部5の指示がある度に、指示に従ってイベント因子が作成され、そのデータが説明変数DB62に記録される。
(因子調達部13の説明)
因子調達部13は、モデル管理部5aから、日種因子の指定を受けて、指定された日種因子が示す日種(以下、指定日種と称する)として、より適切な改良日種を説明変数Bから探索し、出力する。例えば、因子調達部13は、指定日種の時間座標上での存在尺度を計測し、この存在尺度に基づいて、指定日種としてより適切な日種を説明変数DB62内に探索する。時間座標上の存在尺度には、例えば、ある日種の示す期間と指定日種の示す期間との重なり度合いや隣接度合いを示す相対距離や、指定日種の示す期間の所定期間内における出現頻度などが含まれる。
因子調達部13は、例えば、指定日種の要素値と、説明変数DB62の要素値テーブルに記録された各日種の要素値とを比較することにより、上記相対距離を計算することができる。また、因子調達部13は、指定日種の要素値における「1」の値の散らばり度合いを計算することにより、上記出現頻度を計算することができる。
次に、因子調達部13の動作例について説明する。モデル提案部11は、例えば、情報処理装置15a〜15cにより指定された代替対象の因子または、モデル提案部11が代替因子として抽出した因子の改良要求を、モデル管理部5aに対して要求する。ここでは、モデル管理部5aがモデル提案部11から、特定の日種因子の改良要求を受けた場合の因子調達部13の動作例を図41を参照しながら説明する。
図41に示す例では、まず、因子調達部13は、モデル管理部5aから改良が求められる日種因子の指定を受け付ける(Op701)。このとき、因子調達部13は、例えば、日種因子で示される日種(指定日種)の各要素値のデータ、および複合日種の作成要求の有無を示すデータをモデル管理部5aから受け取る。なお、因子調達部13は、上記各要素値のデータの替わりに指定日種の名称を受け付けて、説明変数DB62を参照して指定日種の各要素値データを取得してもよい。
因子調達部13は、指定日種と、隣接性、類似性または包含性が高い日種を抽出する(Op702)。例えば、因子調達部13は、指定因子の各要素値と、説明変数DB62に記録された各日種因子の要素値(図4のレコードC100参照)とを比較することにより、隣接性、類似性および包含性の有無を判断することができる。ここで、図42を参照して、この判断処理の具体例を説明する。なお、下記判断処理は一例であり、これに限られない。
図42に、日種因子「GW(ゴールデンウィーク)」「穀雨」、「立夏」および「穀雨から立夏」の要素値の一例を示す。図42に示す例は、2004年の例であり、「GW」の要素値は、4/29から5/5までが「1」で残りは「0」に設定されている。「穀雨」の要素値は4/14から4/26が「1」、「立夏」の要素値は4/30から5/12が「1」、「穀雨から立春」の要素値は4/14から5/12が「1」である。「穀雨」や「立夏」のような二十四節気(陰暦の季節の区分)を表す日種は、例えば、図42の例のように該当日(「穀雨」の場合は4/20、「立夏」の場合は5/6)の前後6日の期間(合計13日間)と定義することができる。
因子調達部13は、各日種因子の要素値を参照し、要素値「1」が連続している期間を特定する。因子調達部13は、要素値「1」が連続する期間を、日種因子間で比較し隣接性、類似性および包含性の有無を判断する。例えば、図42に示す「GW」の「1」が連続する期間と、「穀雨」の「1」が連続する期間とは、2日間(4/27、28)を隔てて隣接している。この場合、因子調達部13は、「GW」と「穀雨」に隣接性ありと判断することができる。このように、「1」が連続する期間どうしの隔たり日数により、隣接性の判断をすることができる。なお、
また、「GW」の「1」が連続する期間と、「立夏」の「1」が連続する期間とは、4/30〜5/5の6日間で重なっている。この場合、因子調達部13は、「GW」と「立夏」に類似性ありと判断することができる。このように、「1」が連続する期間どうしの重なり日数により、類似性の判断をすることができる。
また、「GW」の「1」が連続する期間(4/29〜5/5)は、「穀雨から立夏」の「1」が連続する期間(4/14〜5/12)に完全に包含されている。この場合、因子調達部13は、「GW」は「穀雨から立夏」に包含されている(包含性あり)と判断することができる。このように、一方の日種の「1」が連続する期間、他方の日種の「1」が連続する期間を完全に含んでいるか否かで、包含性の有無が判断されてもよい。
Op702でYes(Y)と判断された場合、Op701で受け取ったデータを基に、複合日種の作成要求があるか否かを判断する(Op703)。Op703でYes(Y)と判断された場合、因子調達部13は、抽出された日種と指定日種との論理和および論理積により得られる日種データを複合日種因子として作成し、モデル管理部5aへ返す。また、因子調達部13は、作成した複合日種因子を説明変数DB62に記録することができる。
さらに、因子調達部13は、作成した複合日種因子の因子価値データを作成して因子価値DB65に記録してもよい。Op704で作成した複合日種因子は、前記指定日種因子と同様の因子価値を持つ可能性が高いので、因子調達部13は、例えば、前記指定日種因子の因子価値データを用いて、複合日種因子の因子価値データを生成することができる。これにより、類似因子空間作成部91の探索範囲にOp704で作成された複合日種因子も含まれるようになる。
Op703でNo(N)と判断された場合、因子調達部13は、Op702で抽出された日種の日種データを作成し、新日種因子としてモデル管理部5aへ返す。新日種因子も、上記の複合日種因子と同様に、説明変数DB62に記録されてもよい。また、因子調達部13は、新日種因子の因子価値データを生成して因子価値DB65に記録してもよい。
一方、Op702でNo(N)の場合、すなわち、指定日種と隣接性、類似性または包含性が高い日種が抽出されなかった場合、因子調達部13は、指定日種で特定される日の出現頻度が、他の時期に比べて高くなっている期間(偏在期間)が存在するか否かを判断する(Op706)。例えば、指定日種が「週末かつ大安」である場合の処理例を説明する。下記表5は、2004年の一年間における要素値「1」の日を示す表である。
上記表5に示す例では、「週末かつ大安」の要素値が「1」である日は、2004年の前半(1月〜6月)に10日、後半(7月12日)に5日であり前半に集中している。この場合、因子調達部13は、2004年の前半を偏在期間として検出する。
Op706で、指定日種の偏在期間が抽出された場合、因子調達部13は、指定日種を前記偏在期間に絞った日種因子を作成してモデル管理部5aに返す(Op707)。上記例の「週末かつ大安」の場合は、年の前半に絞った日種因子が作成される。この日種因子の要素値は、例えば、「年前半」の要素値と「週末かつ大安」の要素値の論理和(「年前半」AND「週末かつ大安」)とすることができる。 Op707で作成された日種因子も、上記の複合日種因子と同様に、説明変数DB62に記録されてもよい。また、因子調達部13は、作成した日種因子の因子価値データを生成して因子価値DB65に記録してもよい。
以上、図41に示した因子調達部13の処理により、指定日種の替わりになる日種で、適切な日種が自動的に抽出される。これにより、従来、専門家の経験と勘に頼っていた適切な因子の抽出処理を自動的に行うことができる。モデル管理部5aは、指定日種の替わりになる日種因子を示すデータを、モデル提案部11に返す。モデル提案部11は、例えば、既存モデルの代替因子候補の1つとして、日種因子を示すデータを情報処理装置15a〜15cに対して送信することができる。なお、因子調達部13の処理は、上記例のように、モデル提案部11が既存モデルの因子の代替因子を抽出する際に実行されてもよいし、夜間バッチ処理として実行されてもよい。
なお、本実施形態では、日種因子を作成する処理について説明したが、因子調達部13が作成する因子は日種因子に限られない。日種は、時間種(time species)の一例であり、日種以外の時間種因子も作成されてもよい。すなわち、時間種には、日種の他、例えば、時間または分単位で表される時間帯や、週、月、年またはその他の単位で表される期間の名称も含まれる。時間または分単位で表される時間帯の名称の例として、「深夜」、「早朝」、「昼食時」、「毎時0分」、「通勤ラッシュ」等が挙げられる。さらに、因子調達部13で作成される因子は、時間種にも限られず、0または1を要素とする行列またはベクトルで表される説明変数の因子であればよい。例えば、場所、イベント等で特徴づけられる特性を示す特性種因子も因子調達部13の作成対象となり得る。
以上、本発明の実施形態について説明した。上記の実施形態のモデル作成支援システムは、情報処理装置で使われているモデルの因子を蓄積し、蓄積された因子の中から、情報処理装置から要求されるモデルに合う適切な因子を抽出して、支援データとして情報処理装置に出力する。そのため、モデル作成支援システムによれば、モデルの因子に関する情報を蓄積しておき、モデルの予測精度向上のために活用することが可能になる。
なお、本発明の対象となるモデルは、上記実施形態のように、線形回帰方程式で表される場合に限られない。例えば、ロジスティック関数を用いた回帰方程式により表されるモデルも本発明の対象となるモデルに含まれる。
上記実施形態に対して、下記の付記を開示する。
(付記1)
予測または分析の対象となる現象を、前記現象に寄与する因子に対応する説明変数を用いた回帰方程式の目的変数として表したデータであるモデルを使って前記現象の予測または分析を行う情報処理装置にアクセス可能なモデル作成支援システムであって、
前記情報処理装置から、前記モデルの識別子と、当該モデルの対象となる現象を示す現象データと、当該モデルの回帰方程式と、当該回帰方程式に含まれる説明変数に対応する因子を示す因子データと、当該モデルの予測精度を含む評価データとを取得し、モデル作成支援システムからアクセス可能なモデル記録部に蓄積するモデル管理部と、
前記モデル記録部に蓄積されたデータから、少なくとも1つのモデルについて、当該モデルの回帰方程式の説明変数に対応する因子データと、当該モデルの評価データとを参照することにより、前記因子データで示される因子が当該モデルの予測精度向上に寄与する度合いを示す因子価値データを生成し、当該モデルの対象となる現象を示す現象データと対応付けて、モデル作成支援システムからアクセス可能な因子価値記録部に記録する因子価値抽出部と、
前記情報処理装置からモデル作成支援の要求を受け付け、さらに、要求されるモデルの対象となる現象を示すデータを含むモデル条件データの入力を受け付ける条件取得部と、
前記モデル条件データに含まれる要求されるモデルの対象となる現象を示すデータと、前記因子価値記録部の因子価値データに対応付けられた現象データとを照合することにより、前記要求されるモデルの予測精度向上に寄与しうる推奨因子を抽出し、抽出した推奨因子を示すデータを含む支援データを、前記情報処理装置に対して出力する、モデル提案部とを備える、モデル作成支援システム。
(付記2)
因子価値抽出部は、
前記モデル記録部に蓄積されたデータから、少なくとも1つの現象についてのモデルの回帰方程式における説明変数に対応する因子を示す因子データの遷移と、評価データの遷移とを検出することにより、モデルの回帰方程式に対して追加または削除された説明変数に対応する因子の当該モデルの予測精度向上に寄与する度合いを示す因子価値データを生成し、前記因子価値記録部に記録するモデル内因子価値抽出部と、
前記モデル記録部に蓄積されたデータから、複数のモデルの回帰方程式それぞれに含まれる説明変数に対応する因子を示す因子データおよび評価データを参照することにより、複数のモデルに対する因子の予測精度向上への寄与度合いを示す因子価値データを生成し、前記因子価値記録部に記録するモデル間因子価値抽出部とを含む、付記1に記載のモデル作成支援システム。
(付記3)
前記モデル内因子価値抽出部は、検出された前記因子データの遷移においてモデルの回帰方程式に追加または削除された説明変数に対応する因子について、追加または削除の前後における当該モデルの予測精度の変化を前記モデル記録部に蓄積された評価データから検出し、当該変化の度合いに基づいて当該説明変数に対応する因子の因子価値データを生成する、付記2に記載のモデル作成支援システム。
(付記4)
前記モデル管理部は、前記モデルの適用時期を示す適用時期データと、前記モデルの回帰方程式に含まれる各説明変数に対応する各因子の有意性を示す有意性データとをさらに取得して、前記モデル記録部に記録し、
前記モデル内因子価値抽出部は、少なくとも1つの現象について、モデルの適用時期の変化を、前記モデル記録部に蓄積された適用時期データを基に検出し、前記適用時期の変化の前後における、前記モデルの予測精度の変化および前記モデルにおける各因子の有意性データの変化に基づいて、当該適用時期の変化に伴ってモデルの予測精度向上に寄与する因子を抽出し、抽出した因子のモデルへの寄与度合いを示す因子価値データを生成する、付記2に記載のモデル作成支援システム。
(付記5)
前記モデル管理部は、モデルの回帰方程式に含まれる各説明変数に対応する各因子の有意性を示す有意性データをさらに取得して、前記モデル記録部に記録し、
前記モデル間因子価値抽出部は、前記モデル記録部に記録されたデータのうち、特定の現象を対象とする複数のモデルの回帰方程式それぞれに含まれる説明変数群に対応する因子群の因子データと当該因子群それぞれの有意性データとを参照して、前記複数のモデルに対して共有して影響を与える因子の寄与度合いを示す因子価値データを生成する、付記2に記載のモデル作成支援システム。
(付記6)
前記モデル管理部は、前記モデルの適用時期を示す適用時期データと、モデルの回帰方程式の説明変数に対応する因子の有意性を示す有意性データをさらに取得して、前記モデル記録部に記録し、
前記モデル間因子価値抽出部は、前記モデル記録部に記録されたデータのうち、同じ現象を対象とする複数のモデルであって、適用時期の異なる複数のモデルそれぞれの回帰方程式における説明変数群に対応する因子群の因子データと当該因子群それぞれの有意性データを参照して、前記適用時期の異なる複数のモデルに対する因子の寄与度合いを示す因子価値データを生成する、付記2に記載のモデル作成支援システム。
(付記7)
前記条件取得部は、前記情報処理装置で使われているまたは使われる予定の既存モデルの回帰方程式と、前記既存モデルの対象の現象を特定する情報とを、前記モデル条件データとして前記情報処理装置から取得し、
前記モデル提案部は、前記因子価値記録部に記録された因子価値データで示される因子のうち、前記既存モデルの対象の現象と同じもしくは類似する現象を示す現象データと対応付けられた因子価値データを取得することにより、前記既存モデルの予測精度向上に寄与する推奨因子を抽出し、抽出した当該推奨因子に対応する説明変数を含む回帰方程式のモデルを作成して、前記既存モデルの代替モデルをとして前記支援データに含め、前記情報処理装置へ出力する、付記1に記載のモデル作成支援システム。
(付記8)
前記モデル提案部は、
前記既存モデルの回帰方程式に含まれる説明変数に対応する因子を基準因子として、当該基準因子の因子価値データと、基準因子以外の他の複数の因子の因子価値データとを比較することにより、前記基準因子と前記他の複数の因子それぞれと間における予測精度向上に寄与する度合いの類似度を計算し、当該類似度を基に、前記既存モデルの予測精度向上に寄与しうる推奨因子を前記他の複数の因子から抽出して、前記代替モデルを作成する、付記7に記載のモデル作成支援システム。
(付記9)
前記モデル提案部は、前記代替モデルの候補となる代替モデル候補を複数抽出し、前記代替モデル候補と、前記既存モデルとの類似度を計算して、比較的類似度の高い代替モデル候補を代替モデルとして抽出する、付記1に記載のモデル作成支援システム。
(付記10)
前記モデル管理部は、説明変数が、0または1を要素とするベクトルまたは行列によって因子の特性を表す特性種因子値である回帰方程式で表されたモデルについて、モデルの識別子と、当該モデルの対象の現象を示す現象データと、当該モデルの回帰方程式と、当該回帰方程式に含まれる説明変数に対応する因子を示す因子データと、当該モデルの予測精度を含む評価データとを前記モデル記録部に蓄積し、
イベントの特性を示すイベント情報を記録するイベント情報記録部と、
前記イベント情報と、前記モデル記録部に記録されたモデルの回帰方程式における説明変数である特性種因子値とを照合し、イベントに対応する特性種因子値があれば、当該特性種因子値を基に、イベントの特性を示すイベント因子の因子データを生成し、前記モデル記録部に記録する、イベント因子作成部とをさらに備える、付記1に記載のモデル作成支援システム。
(付記11)
前記モデル管理部は、説明変数が、0または1を要素とするベクトルまたは行列によって因子の時間特性を表す時間種因子値である回帰方程式で表されたモデルについて、モデルの識別子と、当該モデルの対象の現象を示す現象データと、当該モデルの回帰方程式と、当該回帰方程式に含まれる説明変数の時間種因子値を含む因子データと、当該モデルの予測精度を含む評価データとを前記モデル記録部に蓄積し、
前記情報処理装置または前記モデル提案部から、改良が要求される指定因子を示す指定因子データを取得し、当該指定因子の時間種因子値と、前記モデル記録部の因子データの時間種因子値とを照合することにより、指定因子と所定の関係を有する因子をモデル記録部から抽出し、抽出した因子の時間種因子値あるいは、当該抽出した因子の時間種因子値と前記指定因子の時間種因子との論理和または論理積により得られる複合時間種因子値で表される因子データを、前記指定因子の改良因子の因子データとして、前記モデル記録部に記録する、因子調達部をさらに備える、付記1に記載のモデル作成支援システム。
(付記12)
予測または分析の対象となる現象を、前記現象に寄与する因子に対応する説明変数を用いた回帰方程式の目的変数として表したデータであるモデルを使って前記現象の予測または分析を行う情報処理装置にアクセス可能なコンピュータに処理を実行させるモデル作成支援プログラムであって、
前記情報処理装置から、前記モデルの識別子と、当該モデルの対象となる現象を示す現象データと、当該モデルの回帰方程式と、当該回帰方程式に含まれる説明変数に対応する因子を示す因子データと、当該モデルの予測精度を含む評価データとを取得し、前記コンピュータがアクセス可能なモデル記録部に蓄積するモデル管理処理と、
前記モデル記録部に蓄積されたデータから、少なくとも1つのモデルについて、当該モデルの回帰方程式の説明変数に対応する因子データと、当該モデルの評価データとを参照することにより、前記因子データで示される因子が当該モデルの予測精度向上に寄与する度合いを示す因子価値データを生成し、当該モデルの対象となる現象を示す現象データと対応付けて、前記コンピュータがアクセス可能な因子価値記録部に記録する因子価値抽出処理と、
前記情報処理装置からモデル作成支援の要求を受け付け、さらに、要求されるモデルの対象となる現象を示すデータを含むモデル条件データの入力を受け付ける条件取得処理と、
前記モデル条件データに含まれる要求されるモデルの対象となる現象を示すデータと、前記因子価値記録部の因子価値データに対応付けられた現象データとを照合することにより、前記要求されるモデルの予測精度向上に寄与しうる推奨因子を抽出し、抽出した推奨因子を示すデータを含む支援データを、前記情報処理装置に対して出力する、モデル提案処理とをコンピュータに実行させる、モデル作成支援プログラム。
(付記13)
予測または分析の対象となる現象を、前記現象に寄与する因子に対応する説明変数を用いた回帰方程式の目的変数として表したデータであるモデルを使って前記現象の予測または分析を行う情報処理装置にアクセス可能なコンピュータが実行するモデル作成支援方法であって、
前記コンピュータが備えるモデル管理部が、前記情報処理装置から、前記モデルの識別子と、当該モデルの回帰方程式と、当該回帰方程式に含まれる説明変数に対応する因子を示す因子データと、当該モデルの予測精度を含む評価データとを取得し、前記コンピュータがアクセス可能なモデル記録部に蓄積する工程と、
前記コンピュータが備える因子価値抽出部が、前記モデル記録部に蓄積されたデータから、少なくとも1つのモデルについて、当該モデルの回帰方程式の説明変数に対応する因子データと、当該モデルの評価データとを参照することにより、前記因子データで示される因子が当該モデルの予測精度向上に寄与する度合いを示す因子価値データを生成し、当該モデルの対象となる現象を示す現象データと対応付けて、前記コンピュータがアクセス可能な因子価値記録部に記録する工程と、
前記コンピュータが備える条件取得部が、前記情報処理装置からモデル作成支援の要求を受け付け、さらに、要求されるモデルの対象となる現象を示すデータを含むモデル条件データの入力を受け付ける工程と、
前記コンピュータが備えるモデル提案部が、前記モデル条件データが示す要求されるモデルの対象となる現象を示すデータと、前記因子価値記録部の因子価値データに対応付けられた現象データとを照合することにより、前記要求されるモデルの予測精度向上に寄与しうる推奨因子を抽出し、抽出した推奨因子を示すデータを含む支援データを、前記情報処理装置に対して出力する工程とを含む、モデル作成支援方法。