JP4519880B2

JP4519880B2 - 指標抽出装置、指標抽出方法及びそのコンピュータプログラム

Info

Publication number: JP4519880B2
Application number: JP2007130759A
Authority: JP
Inventors: 元英加藤; 力米森; 務松永
Original assignee: NTT Data Corp
Current assignee: NTT Data Corp
Priority date: 2007-05-16
Filing date: 2007-05-16
Publication date: 2010-08-04
Anticipated expiration: 2027-05-16
Also published as: JP2008287424A

Description

本発明は、例えば企業の財務情報などの評価に用いられる指標を抽出する指標抽出装置、指標抽出方法及びそのコンピュータプログラムに関する。

従来、企業における大量の財務情報に基づいて、統計的な手法により特定の尺度に基づいて企業ごとのスコアを算出し、与信や投資の格付けなどを行うことが行われている。例えば、企業の倒産可能性をランキングする場合、ある特定の尺度として倒産可能性が高いものから非倒産の可能性が高いものを示す１つの尺度を適用し、統計的な手法により、企業の倒産確率をスコアとして算出して、与信を判断することが行われる。

このような統計的な手法の従来技術として、非特許文献１に記載の「定性データを使用した倒産確率予測システム」などで使用されているロジットモデルがある。

ロジットモデルでは、以下のような手順で企業のスコアを算出する。
（１）図９に示すように、与えられたモデル構成用のデータ、すなわち倒産対象企業の財務指標などの指標１から指標ｄまでの値を使って以下の式（１）に示されるようなモデルを構成する。ここで、式（１）のｘ_ｄは分析に用いる指標であり、ａ_ｄは指標に係る係数であり、モデルの構成とは、具体的には以下の式（１）においてａ_１からａ_ｄまでの係数パラメータを推定することである。

（２）式（１）に対して評価対象企業のデータを代入してスコアを算出する。ここで、指標（ａ_１からａ_ｄまでの係数）は、業務知識に基づいて選ばれ、係数が推定される。上記の（１）及び（２）の手順により、あるモデルに基づいた評価対象企業ごとのスコアを算出することが可能となる。

また、ロジットモデルの指標選定のための従来技術としては、特許文献１に記載されているように、財務指標から得られる特性を元に、以下のような手順で指標選択を行う。
（１）用意したモデル構成用の財務指標データに対して、ＫＬ（Karhunen-Loeve）展開などの手法により、部分空間を生成する。

（２）評価対象企業のデータからベクトルを構成し、このベクトルと構成した２つのモデルとの類似度を、角度を用いて求め、企業の各モデルに対するスコア及び差分を取得する。

（３）ランキング結果を修正するには、上記（２）で求めたスコアの正解・誤り情報を基に適応的学習を適用して、上記（１）で構成したモデルを修正する。

（４）構成したモデルと各分析指標の基底ベクトルとの関連性を、角度を用いて定量化し、モデルと分析指標との関連度を取得する。解釈の際には、分析指標の関連度及びその差分を降順にして表示する。

また、入力に定性情報を利用した技術としては、特許文献２に記載されているように、定性情報を用いて、以下のような手順で評価の観点となる倒産に関する倒産確率を求める。

（１）企業情報を収集し、個別企業の評価を行い、各種要約と評点の入力を行う。
（２）評価データの中からモデル構成に適したデータを選択し、変換を行う。
（３）変換したデータを基に、ロジットモデルにより、倒産に対するモデルを作成する。
特開２００６−３１８０１３号公報特開２００３−２１６８０４号公報木島正明、小守林克哉、"信用リスク評価の数理モデル"，出版社：朝倉書店

しかしながら、上述した従来技術では、分析モデルで用いる変数の選定は、図９に示すように、業務知識に基づいて行われるため、人手を要し、設計工数がかかるという問題がある。また、従来の定性情報の分析では、予め、モデルに組み込むための評点設定の定義や、データを入力する際の要約などを人手で行うため、設計工数がかかるという問題がある。さらに、指標が予め定まっているため、就職希望度や、最新技術開発度や従業員の生産性など、具体的な財務指標に現れにくい観点に関して、評価計算することができないという問題がある。

本発明は、このような事情を考慮してなされたものであり、その目的は、設計工数を削減することができ、また、観点に応じた評価を行えるようにする指標情報等を抽出することを可能とする指標抽出装置、指標抽出方法及びそのコンピュータプログラムを提供することにある。

上述した課題を解決するために、本発明は、評価対象に関連する文書データと前記評価対象に関する各指標情報とから評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する指標抽出装置であって、前記文書データを、該文書データを一意に識別する文書ＩＤと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶する文書データ記憶手段と、前記文書データに含まれる単語データを記憶する単語データ記憶手段と、前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶する指標情報記憶手段と、前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成手段と、前記文書データに対応づく評価対象識別情報に基づき、前記ベクトル生成手段により生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第１の部分空間を生成する第１の部分空間生成手段と、前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第２の部分空間を生成する第２の部分空間生成手段と、前記評価対象識別情報毎の第１の部分空間のそれぞれについて、前記第２の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出手段と、前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出手段と、を具備することを特徴とする。

本発明は、上記に記載の発明において、前記ベクトル生成手段は、ｊ番目の文書データ中にｉ番目の単語が出現する回数である出現頻度をｔｆ_ｉ，ｊ、ｉ番目の単語が含まれる文書データの数をｄｆ_ｉ、前記単語の総数をＮ、前記複数の文書データの総数をＫとした場合、ｊ番目の文書データ中のｉ番目の単語に対応したＮ次元のベクトルの要素値ｗ_ｉ，ｊを、ｔｆ_ｉ，ｊ×ｌｏｇ（Ｋ／ｄｆ_ｉ）により算出する。

本発明は、上記に記載の発明において、前記文書データには、評価対象の評価基準とする観点情報を識別可能な観点識別情報が付与されており、前記第２の部分空間生成手段は、前記ベクトル生成手段が生成したベクトルを、前記観点識別情報に基づいて選択して前記第２の部分空間を生成することを特徴とする。

本発明は、上記に記載の発明において、前記文書データには、当該文書データを識別可能な文書識別情報が付与されており、評価対象の評価基準とする観点情報を識別可能な観点識別情報毎に、当該観点情報に関連する内容を含む文書データの文書識別情報を対応付けて記憶する第２の記憶手段を備え、前記第２の部分空間生成手段は、前記第２の記憶手段からいずれか１つの観点情報に対応する文書識別情報を読み出し、該読み出した文書識別情報に基づいて、前記ベクトル生成手段が生成したベクトルから前記第２の部分空間を生成することを特徴とする。

本発明は、上記に記載の発明において、前記関連性抽出手段により抽出された指標情報に基づいて評価対象モデルを構成するモデル構成手段を更に備えたことを特徴とする。

本発明は、上記の発明において、前記文書データには、当該文書を識別可能な記事ＩＤが付与されており、評価対象の評価基準とする観点情報を識別可能な観点ＩＤ毎に、当該観点情報に関連する文書の記事ＩＤを対応付けて記憶する第２の記憶手段と、前記第２の部分空間生成手段は、前記第２の記憶手段からいずれか１つの観点情報に対応する記事ＩＤを読み出し、該読み出した記事ＩＤに基づいて、前記ベクトル生成手段が生成したベクトルから前記第２の部分空間を生成することを特徴とする。

また、上述した課題を解決するために、本発明は、評価対象に関連する文書データと前記評価対象に関する各指標情報から評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する処理にコンピュータを用いて、指標抽出を行う指標抽出方法であって、前記コンピュータの文書データ記憶手段が、前記文書データを、該文書データを一意に識別する文書ＩＤと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶手段に記憶させる文書データ記憶ステップと、前記コンピュータの単語データ記憶手段が、前記文書データに含まれる単語データを記憶手段に記憶させる単語データ記憶ステップと、前記コンピュータの指標情報記憶手段が、前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶手段に記憶させる指標情報記憶ステップと、前記コンピュータのベクトル生成手段が、前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記記憶手段に記憶されている前記文書データと前記単語データとに基づいて、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成ステップと、前記コンピュータの第１の部分空間生成手段が、前記文書データに対応づく評価対象識別情報に基づき、前記生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第１の部分空間を生成する第１の部分空間生成ステップと、前記コンピュータの第２の部分空間生成手段が、前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第２の部分空間を生成する第２の部分空間生成ステップと、前記コンピュータの観点スコア算出手段が、前記評価対象識別情報毎の第１の部分空間のそれぞれについて、前記第２の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出ステップと、前記コンピュータの関連性抽出手段が、前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出ステップと、有することを特徴とする。

また、本発明は、評価対象に関連する文書データと前記評価対象に関する各指標情報から評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する処理をコンピュータに実行させるプログラムであり、当該コンピュータに、前記文書データを、該文書データを一意に識別する文書ＩＤと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶手段に記憶させる文書データ記憶ステップと、前記文書データに含まれる単語データを記憶手段に記憶させる単語データ記憶ステップと、前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶手段に記憶させる指標情報記憶ステップと、前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記記憶手段に記憶されている前記文書データと前記単語データとに基づいて、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成ステップと、前記文書データに対応づく評価対象識別情報に基づき、前記生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第１の部分空間を生成する第１の部分空間生成ステップと、前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第２の部分空間を生成する第２の部分空間生成ステップと、前記評価対象識別情報毎の第１の部分空間のそれぞれについて、前記第２の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出ステップと、前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出ステップと、を実行させるためのコンピュータプログラムである。

この発明によれば、評価対象を識別可能な評価対象識別情報により分類される文書データと、文書データに含まれる単語データとを記憶手段に記憶させ、記憶手段に記憶されている文書データと単語データとに基づいて、単語データの種別を次元数とし、文書データにおける単語データ毎の出現頻度と単語データを含む文書データ数とに基づいて求められる要素値を要素とするベクトルを生成し、生成したベクトルを、評価対象識別情報毎に選択し、評価対象識別情報毎の第１の部分空間を生成する。また、生成したベクトルから、評価対象の評価基準とする観点情報に基づいて選択したベクトルにより第２の部分空間を生成する。そして、第１の部分空間毎に、第２の部分空間との距離を類似度とし、評価対象識別情報毎に類似度を観点スコアとして算出し、評価対象に関連する指標情報と評価対象識別情報毎の観点スコアとの相関関係に基づいて、観点情報と関連性の高い指標情報を抽出する構成とした。
これにより、文書データを用いて、既に利用されているロジットモデル等のモデルにそのまま使用できる適切な指標情報を人手で試行錯誤することなく得ることができ、ロジットモデル等の構成における設計工数も削減することが可能となる。

以下、本発明の一実施形態を、図面を参照して説明する。
図１は、本実施形態による指標抽出装置１００を示す概略ブロック図である。指標抽出装置１００は、例えば、企業の財務情報などの評価に用いられるロジットモデル等に適用される指標情報を抽出する装置であり、以下評価対象のデータとして企業のデータを適用して記載する。

指標抽出装置１００において、文書データベース（以下、ＤＢと記載）７は、ある企業に関連する文書（データ）を記憶している。該文書には、文書を識別するための記事ＩＤ（IDentifier）（文書識別情報）が付与されるとともに、どの企業に関連する文書であるかを示す企業ＩＤ（評価対象識別情報）、どのような観点に基づく記事であるかを示す観点ＩＤ（観点識別情報）が付与されている。なお、企業ＩＤや、観点ＩＤは、文書内に該当企業の企業名や、評価の対象とする観点（例えば、「倒産」など）の文言が含まれていれば、これらＩＤを付与してもよいが、これ以外に、例えば、文書全体の内容からある特定の企業を示している文書であるとか、ある観点を示した文書であるなど、「企業に関する情報」、あるいは「観点に関する情報」を含んでいる文書に対しても、これらのＩＤを付与するようにしてもよい。単語セットＤＢ８は、文書ＤＢ７に記憶される文書中に含まれる企業に関する単語セットを記憶している。

記事ベクトル生成部１は、文書ＤＢ７の文書と単語セットＤＢ８の単語セットとに基づいて記事ベクトルを生成する。企業名ＤＢ９は、企業毎に割り振られた企業ＩＤを記憶している。企業空間生成部２は、企業名ＤＢ９の企業ＩＤに従って、企業に関連する記事をベクトル群として、自己相関行列に基づく部分空間（企業空間）を生成する。分析観点空間生成部３は、記事ベクトルに付与されている観点ＩＤに従って、観点に関連する記事をベクトル群として、自己相関行列に基づく部分空間（観点空間）を生成する。

観点スコア算出部４は、上記企業空間と観点空間とに従って、ある企業と観点の部分空間の距離を類似度として観点スコアを算出する。なお、本実施形態では、部分空間の距離として、部分空間のなす角度を距離とする。財務情報ＤＢ１０は、各種財務情報の指標を記憶している。関連性抽出部５は、観点スコアと財務情報ＤＢ１０の財務情報との相関係数を算出し、相関係数の高い上位の財務指標（複数）を関連性の高い財務情報として取得する。企業評価モデル構成部６は、上記上位の財務指標から変量選択し、企業評価モデルを構成する。

次に、本実施形態による指標抽出装置１００の全体動作について説明する。
図２は、本実施形態による指標抽出装置１００の全体動作の概念を示す概念図である。まず、部分空間作成工程として、企業を単位に、新聞、Ｗｅｂ、調査資料などの文書、すなわち、定性情報を用いて部分空間を作成する（後述するステップＳｂ１〜Ｓｂ３に相当）。次いで、関連性抽出工程として、各企業の観点の部分空間の距離を計算した、定性情報のスコアリング結果と、財務情報などの定量情報とから、関連性を抽出し、観点に関連する定量情報のリストを取得する（後述するステップＳｂ４〜Ｓｂ６に相当）。これにより、観点（例えば、「倒産」）に関連する財務指標のセット（例えば、「売上」、「負債額」）が得られる。

次に、図３は、記事ベクトル生成部１、企業空間生成部２により行われる企業の部分空間作成工程を説明するための概念図である。まず、定性情報（新聞）から企業を表す単語の出現頻度をカウントする（後述するステップＳａ１に相当）。図示の例では、新聞は、Ａ社の下請けメーカの工場に関する記事である。該記事には、単語リストに示すように、「Ａ社」が１回、「震度」が３回、「地震」が１２回、…というように、各単語が出現している。

次に、単語の種類を次元数として、記事ベクトルを作成する（後述するステップＳａ２〜Ｓａ４に相当）。図において、丸で囲んだ部分が各企業に関する記事ベクトル群である。なお、実際には、意味合いに応じて重み付けされた記事ベクトルは、１５００などの高次元空間である。そして、上記記事ベクトル群から各企業の部分空間を生成する（後述するステップＳｂ２に相当）。

このように、企業単位でベクトル空間モデルを用いて、定性情報から企業オブジェクトとして、部分空間を生成することにより、定性情報を距離として定量的に計算することが可能となる。

次に、図４は、分析観点空間生成部３、観点スコア算出部４、関連性抽出部５により行われる観点スコアリング算出の処理を説明するための概念図である。まず、記事ベクトル群から観点の部分空間を生成し（後述するステップＳｂ１に相当）、観点の部分空間と企業の部分空間との距離を算出し（後述するステップＳｂ１に相当）、スコア化された定性情報（倒産）と財務指標（売上、利益、資本回転率、負債額）との相関を計算する（後述するステップＳｂ３に相当）。

次に、記事ベクトル生成部１の動作について説明する。
図５は、本実施形態による記事ベクトル生成部１の動作を説明するためのフローチャートである。記事ベクトル生成部１は、まず、文書ＤＢ７の文書データから、単語セットＤＢ８の単語セットに従って、企業を表す単語の出現頻度をカウントする（ステップＳａ１）。次に、文書データ内の各単語の出現頻度ＴＦ値を算出する（ステップＳａ２）。次に、文書データ内の各単語のＩＤＦ値、すなわち、文書データ内の各単語が含まれる文書数ＤＦの逆数のｌｏｇをとったＩＤＦ値を算出する（ステップＳａ３）。そして、単語の種数Ｎを次元数、要素をＴＦ−ＩＤＦ値として、文書に対応する記事ベクトルを作成する（ステップＳａ４）。なお、上記ＴＦ−ＩＤＦ値（Ｗ_ｉ，ｊ）（ｉ＝１〜Ｎ、ｊ＝１〜Ｋ）は、ＴＦ値とＩＤＦ値の積により、次式（２）で求められる。

但し、ｔｆ_ｉ，ｊは、ｊ番目の文書データ中のｉ番目の単語の出現数、Ｋは、対象文書データ総数、ｄｆ_ｉは、ｉ番目の単語が含まれる文書データの数である（参考文献：Salton, G.: Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer, Addison-Wesley Publishing Company (1989)）。

次に、上述した記事ベクトル生成部１以外の全体動作について詳細に説明する。
図６は、本実施形態による分析観点空間生成部３、企業空間生成部２、観点スコア算出部４、関連性抽出部５、モデル構成部６の各部の動作を説明するためのフローチャートである。まず、分析観点空間生成部３は、観点に関連する記事をベクトル群として、自己相関行列に基づく部分空間を算出する（ステップＳｂ１）。具体的には、観点をＶ、Ｈ個のＮ次元（単語セットを次元とする）の記事ベクトルｕ^Ｖ（ｈ）（ｈ＝１，２，…，Ｈ）において、次式（３）により自己相関行列Ｒ^Ｖを求める。

上記自己相関行列の固有値方程式は、次式（４）のようになる。

上記式を解くことにより、Ｎ次元の固有ベクトルλが算出される。その上位ｐ個の固有ベクトルからなる空間を、観点Ｖの部分空間Ｓ（Ｖ）とする。但し、ｐは、次式（５）に示す、固有ベクトルλの固有値λ_ｒ（１≦ｒ≦Ｎ）に対する第Ｎ’主成分までの累積寄与率を満たす最大のＮ’とする。δは、式（５）で表わされる累積寄与率の閾値であり、例えば、０．８などとする。

次に、企業空間生成部２は、企業に関連する記事をベクトル群として、自己相関行列に基づく部分空間を算出する（ステップＳｂ２）。具体的には、記事ベクトルを観点Ｖの代わりに企業Ｃ（ｍ）（ｍ＝１，２，…，Ｍ）に関連するものにすることによって、企業Ｃ（ｍ）の部分空間Ｓ（Ｃ（ｍ））を同様にして取得する。

次に、観点スコア算出部４は、ある企業と観点の部分空間をなす角度を求める（ステップＳｂ３）。具体的には、観点Ｖと企業Ｃ（ｍ）に対して、部分空間Ｓ（Ｖ）、Ｓ（Ｃ（ｍ）を構成する固有ベクトルをそれぞれ、φ_ｋ ^Ｓ（Ｖ）及びφ_ｋ ^{Ｓ（Ｃ（ｍ））}とするとき、その２つの部分空間の角度Ｌ_Ｓ ^{（Ｖ，Ｃ（ｍ））}を類似度とする。類似度Ｌ_Ｓ ^{（Ｖ，Ｃ（ｍ））}は、次式（６）により算出される（参考文献：「伊里正夫、伊里由美訳：『行列の固有値』、シュプリンガー・フェアラーク東京、２００３」）。

ここで、λ_ｍａｘ ^{Ｓ（Ｖ，Ｃ（ｍ））}は、次式（７）で示す行列Ｘ＝（ｘ_ｉｊ）の固有値問題を解いて得られる最大固有値である。

次に、関連性抽出部５は、観点スコアと財務情報ＤＢ１０の財務情報との相関係数を算出する（ステップＳｂ４）。具体的には、Ｍ個の全企業を対象に類似度Ｌ_Ｓ ^{（Ｖ，Ｃ（ｍ））}を計算し、財務指標Ｆ（Ｖ，ｑ）（ｑ＝１，２，…，Ｑ：財務指標の項目。例えば、利益や、営業利益率など）の相関係数ｒ（Ｖ，ｑ）を次式（８）で算出する。但し、企業Ｃ（ｍ）の財務指標Ｆ（Ｖ，ｑ）をＦ（Ｖ，ｑ）（ｍ）、平均をＥ（Ｆ（Ｖ，ｑ）とし、類似度Ｌ_Ｓ ^{（Ｖ，Ｃ（ｍ））}の平均をＥ（Ｌ_Ｓ ^（Ｖ））とする。

また、関連性抽出部５は、相関係数の高い上位の財務指標を関連性の高い財務情報として取得する（ステップＳｂ５）。すなわち、相関係数ｒ（Ｖ，ｑ）の高い上位ｄ個（ｘ_１，…，ｘ_ｄ）を観点と関連の高い財務指標として取得する。

次に、モデル構成部６は、上記得られたｄ個の財務指標（項目）の中から変量選択を行い、企業評価モデル（例えば、前述した従来技術のロジットモデル）を構成する（ステップＳｂ６）。ロジットモデルの構成方法は、前述したように、財務指標ｘ_１，…，ｘ_ｄを用いて、パラメータ係数ａ_１，…，ａ_ｄを、式（１）で示されるロジットモデルを作成し、再尤法によって推定する。

（実際の企業データを用いた実施例）
次に、図７及び図８を参照して、本実施形態による指標抽出装置１００に、実際の企業データを適用して分析を行った実施例について説明する。文書としては、２００２年１月１日〜１２月３１日の日経新聞記事データ（全１６６，７３３記事）を用い、対象企業数７５６社（東京証券取引場一部上場企業約１５００社のうち、製造業企業（推定約８００社）の中から「知の潜在ランキング」を生成可能なデータを持ち合わせている企業）、サンプル単語種数１，５００（全１６６，７７３記事から形態素解析を行い、所定の品詞を選択する、１文字、数詞は除外するなどの所定のルールに基づいて得た全２１４，６０２単語中から、ＴＦ値あるいはＴＦ−ＩＤＦ値の上位のものを選択）とした。なお、「知の潜在ランキング」とは、横浜国立大学の岡田依里教授が「独自のノウハウを生み出す力、企業価値を生み出す力を計る指標」として、財務指標を基にした６つの指標から作成したものである（参考文献：「知財戦略経営」、岡田依里著）。

図７は、上記「知の潜在力ランキング」の基となる財務指標を示す概念図である。図において、「知の潜在力要素」として、技術革新力、取引の効率性、設備の活用力、将来収益期待、市場の視点、従業員の生産性を挙げ、それぞれの要素に対応する財務指標として、過去２年の研究開発費、在庫回転率（棚卸資産の在庫回転日数）、単位有形固定資産当たりの営業利益、資本コスト＋営業利益＋研究開発費、株式時価総額、従業員一人当たりの営業利益とした。該「知の潜在力ランキング」によれば、例えば、「従業員の生産性」という観点から、関連性の高い財務指標として、「従業員一人当たりの営業利益」が抽出されればよいことが分かる。

図８は、本実施形態による指標抽出装置１００により、観点として「知の潜在力ランキング」の「従業員の生産性」を用いて、各企業のスコアを算出し、その値と財務指標（９２項目）との相関係数を計算した結果示す図である。図８に示すように、「従業員一人当たりの営業利益」が相関係数の高い１０位内に入っていることが分かる。

なお、上記の実施形態の構成により、図１に示す文書ＤＢ７の文書に企業ＩＤや、観点ＩＤを付与するようにしたが、これに限定されず、観点リストＤＢを別途設け、当該観点リストＤＢに、観点ＩＤに対応付けて、該当する文書に付与される記事ＩＤを列挙するようにしてもよい。この場合、分析観点空間生成部３は、上記観点リストＤＢから観点ＩＤを読み込んで、該当する記事ＩＤを選択して部分空間を生成すればよい。

また、上記の実施形態の構成により、企業の与信や、格付けの際に、関連性の抽出により、与信や、格付けに対する財務指標を統一的に得ることができ、特定の指標を見ることによって、与信や格付けの評価を共通の量で得ることができ、工数削減につなげることができる。

また、上記の実施形態の構成により、特定の指標を見つけることにより、それを既に利用されている信頼のあるロジットモデルにそのまま適用することができる。

また、上記の実施形態の構成により、倒産、与信に加えて、就職希望度や、最新技術開発費など、社名ではイメージ可能であるが、具体的な財務指標に現れにくい観点を用いて、設定した観点に応じた財務指標を得ることができる。

また、上記の実施形態の構成では、評価対象を企業としたが、企業以外の団体や個人などとすることもできる。

なお、上述の指標抽出装置１００は、内部にコンピュータシステムを有している。そして、上述した指標抽出装置の記事ベクトル生成部１、企業空間生成部２、分析観点空間生成部３、観点スコア算出部４、関連性抽出部５及び企業評価モデル構成部６の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

本実施形態による指標抽出装置１００を示す概略ブロック図である。本実施形態による指標抽出装置１００の全体動作の概念を示す概念図である。企業の部分空間作成工程を説明するための概念図である。観点スコアリング算出を説明するための概念図である。本実施形態による記事ベクトル生成部１の動作を説明するためのフローチャートである。本実施形態による、記事ベクトル生成部１以外の各部の動作を説明するためのフローチャートである。本実施形態による指標抽出装置１００に、実際の企業データを適用して分析を行った実施例を説明するための図（その１）である。本実施形態による指標抽出装置１００に、実際の企業データを適用して分析を行った実施例を説明するための図（その２）である。従来技術による、ロジットモデルでの企業のスコアを算出する手順を示す概念図である。

符号の説明

１記事ベクトル生成部（ベクトル生成手段）
２企業空間生成部（第１の部分空間生成手段）
３分析観点空間生成部（第２の部分空間生成手段）
４観点スコア算出部（観点スコア算出手段）
５関連性抽出部（関連性抽出手段）
６企業評価モデル構成部（モデル構成手段）
７文書ＤＢ（記憶手段）
８単語セットＤＢ（記憶手段）
９企業名ＤＢ
１０財務情報ＤＢ
１００指標抽出装置

Claims

評価対象に関連する文書データと前記評価対象に関する各指標情報とから評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する指標抽出装置であって、
前記文書データを、該文書データを一意に識別する文書ＩＤと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶する文書データ記憶手段と、前記文書データに含まれる単語データを記憶する単語データ記憶手段と、前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶する指標情報記憶手段と、
前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成手段と、
前記文書データに対応づく評価対象識別情報に基づき、前記ベクトル生成手段により生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第１の部分空間を生成する第１の部分空間生成手段と、
前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第２の部分空間を生成する第２の部分空間生成手段と、
前記評価対象識別情報毎の第１の部分空間のそれぞれについて、前記第２の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出手段と、
前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出手段と、
を具備することを特徴とする指標抽出装置。
前記ベクトル生成手段は、ｊ番目の文書データ中にｉ番目の単語が出現する回数である
出現頻度をｔｆｉ，ｊ、ｉ番目の単語が含まれる文書データの数をｄｆｉ、前記単語の総
数をＮ、前記複数の文書データの総数をＫとした場合、ｊ番目の文書データ中のｉ番目の
単語に対応したＮ次元のベクトルの要素値ｗｉ，ｊを、ｔｆｉ，ｊ×ｌｏｇ（Ｋ／ｄｆｉ
）により算出する
ことを特徴とする請求項１に記載の指標抽出装置。
前記関連性抽出手段により抽出された指標情報に基づいて評価対象モデルを構成するモ
デル構成手段を更に備えたことを特徴とする請求項１に記載の指標抽出装置。
評価対象に関連する文書データと前記評価対象に関する各指標情報から評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する処理にコンピュータを用いて、指標抽出を行う指標抽出方法であって、
前記コンピュータの文書データ記憶手段が、
前記文書データを、該文書データを一意に識別する文書ＩＤと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶手段に記憶させる文書データ記憶ステップと、
前記コンピュータの単語データ記憶手段が、
前記文書データに含まれる単語データを記憶手段に記憶させる単語データ記憶ステップと、
前記コンピュータの指標情報記憶手段が、
前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶手段に記憶させる指標情報記憶ステップと、
前記コンピュータのベクトル生成手段が、
前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記記憶手段に記憶されている前記文書データと前記単語データとに基づいて、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成ステップと、
前記コンピュータの第１の部分空間生成手段が、
前記文書データに対応づく評価対象識別情報に基づき、前記生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第１の部分空間を生成する第１の部分空間生成ステップと、
前記コンピュータの第２の部分空間生成手段が、
前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第２の部分空間を生成する第２の部分空間生成ステップと、
前記コンピュータの観点スコア算出手段が、
前記評価対象識別情報毎の第１の部分空間のそれぞれについて、前記第２の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出ステップと、
前記コンピュータの関連性抽出手段が、
前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出ステップと、
有することを特徴とする指標抽出方法。
評価対象に関連する文書データと前記評価対象に関する各指標情報から評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する処理をコンピュータに実行させるプログラムであり、当該コンピュータに、
前記文書データを、該文書データを一意に識別する文書ＩＤと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶手段に記憶させる文書データ記憶ステップと、
前記文書データに含まれる単語データを記憶手段に記憶させる単語データ記憶ステップと、
前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶手段に記憶させる指標情報記憶ステップと、
前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記記憶手段に記憶されている前記文書データと前記単語データとに基づいて、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成ステップと、
前記文書データに対応づく評価対象識別情報に基づき、前記生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第１の部分空間を生成する第１の部分空間生成ステップと、
前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第２の部分空間を生成する第２の部分空間生成ステップと、
前記評価対象識別情報毎の第１の部分空間のそれぞれについて、前記第２の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出ステップと、
前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出ステップと、
を実行させるためのコンピュータプログラム。