JP4519880B2 - 指標抽出装置、指標抽出方法及びそのコンピュータプログラム - Google Patents

指標抽出装置、指標抽出方法及びそのコンピュータプログラム Download PDF

Info

Publication number
JP4519880B2
JP4519880B2 JP2007130759A JP2007130759A JP4519880B2 JP 4519880 B2 JP4519880 B2 JP 4519880B2 JP 2007130759 A JP2007130759 A JP 2007130759A JP 2007130759 A JP2007130759 A JP 2007130759A JP 4519880 B2 JP4519880 B2 JP 4519880B2
Authority
JP
Japan
Prior art keywords
identification information
document data
evaluation object
viewpoint
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007130759A
Other languages
English (en)
Other versions
JP2008287424A (ja
Inventor
元英 加藤
力 米森
務 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2007130759A priority Critical patent/JP4519880B2/ja
Publication of JP2008287424A publication Critical patent/JP2008287424A/ja
Application granted granted Critical
Publication of JP4519880B2 publication Critical patent/JP4519880B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、例えば企業の財務情報などの評価に用いられる指標を抽出する指標抽出装置、指標抽出方法及びそのコンピュータプログラムに関する。
従来、企業における大量の財務情報に基づいて、統計的な手法により特定の尺度に基づいて企業ごとのスコアを算出し、与信や投資の格付けなどを行うことが行われている。例えば、企業の倒産可能性をランキングする場合、ある特定の尺度として倒産可能性が高いものから非倒産の可能性が高いものを示す1つの尺度を適用し、統計的な手法により、企業の倒産確率をスコアとして算出して、与信を判断することが行われる。
このような統計的な手法の従来技術として、非特許文献1に記載の「定性データを使用した倒産確率予測システム」などで使用されているロジットモデルがある。
ロジットモデルでは、以下のような手順で企業のスコアを算出する。
(1)図9に示すように、与えられたモデル構成用のデータ、すなわち倒産対象企業の財務指標などの指標1から指標dまでの値を使って以下の式(1)に示されるようなモデルを構成する。ここで、式(1)のxは分析に用いる指標であり、aは指標に係る係数であり、モデルの構成とは、具体的には以下の式(1)においてaからaまでの係数パラメータを推定することである。
Figure 0004519880
(2)式(1)に対して評価対象企業のデータを代入してスコアを算出する。ここで、指標(aからaまでの係数)は、業務知識に基づいて選ばれ、係数が推定される。上記の(1)及び(2)の手順により、あるモデルに基づいた評価対象企業ごとのスコアを算出することが可能となる。
また、ロジットモデルの指標選定のための従来技術としては、特許文献1に記載されているように、財務指標から得られる特性を元に、以下のような手順で指標選択を行う。
(1)用意したモデル構成用の財務指標データに対して、KL(Karhunen-Loeve)展開などの手法により、部分空間を生成する。
(2)評価対象企業のデータからベクトルを構成し、このベクトルと構成した2つのモデルとの類似度を、角度を用いて求め、企業の各モデルに対するスコア及び差分を取得する。
(3)ランキング結果を修正するには、上記(2)で求めたスコアの正解・誤り情報を基に適応的学習を適用して、上記(1)で構成したモデルを修正する。
(4)構成したモデルと各分析指標の基底ベクトルとの関連性を、角度を用いて定量化し、モデルと分析指標との関連度を取得する。解釈の際には、分析指標の関連度及びその差分を降順にして表示する。
また、入力に定性情報を利用した技術としては、特許文献2に記載されているように、定性情報を用いて、以下のような手順で評価の観点となる倒産に関する倒産確率を求める。
(1)企業情報を収集し、個別企業の評価を行い、各種要約と評点の入力を行う。
(2)評価データの中からモデル構成に適したデータを選択し、変換を行う。
(3)変換したデータを基に、ロジットモデルにより、倒産に対するモデルを作成する。
特開2006−318013号公報 特開2003−216804号公報 木島正明、小守林克哉、"信用リスク評価の数理モデル",出版社:朝倉書店
しかしながら、上述した従来技術では、分析モデルで用いる変数の選定は、図9に示すように、業務知識に基づいて行われるため、人手を要し、設計工数がかかるという問題がある。また、従来の定性情報の分析では、予め、モデルに組み込むための評点設定の定義や、データを入力する際の要約などを人手で行うため、設計工数がかかるという問題がある。さらに、指標が予め定まっているため、就職希望度や、最新技術開発度や従業員の生産性など、具体的な財務指標に現れにくい観点に関して、評価計算することができないという問題がある。
本発明は、このような事情を考慮してなされたものであり、その目的は、設計工数を削減することができ、また、観点に応じた評価を行えるようにする指標情報等を抽出することを可能とする指標抽出装置、指標抽出方法及びそのコンピュータプログラムを提供することにある。
上述した課題を解決するために、本発明は、評価対象に関連する文書データと前記評価対象に関する各指標情報とから評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する指標抽出装置であって、前記文書データを、該文書データを一意に識別する文書IDと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶する文書データ記憶手段と、前記文書データに含まれる単語データを記憶する単語データ記憶手段と、前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶する指標情報記憶手段と、前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成手段と、前記文書データに対応づく評価対象識別情報に基づき、前記ベクトル生成手段により生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第1の部分空間を生成する第1の部分空間生成手段と、前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第2の部分空間を生成する第2の部分空間生成手段と、前記評価対象識別情報毎の第1の部分空間のそれぞれについて、前記第2の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出手段と、前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出手段と、を具備することを特徴とする。
本発明は、上記に記載の発明において、前記ベクトル生成手段は、j番目の文書データ中にi番目の単語が出現する回数である出現頻度をtfi,j、i番目の単語が含まれる文書データの数をdf、前記単語の総数をN、前記複数の文書データの総数をKとした場合、j番目の文書データ中のi番目の単語に対応したN次元のベクトルの要素値wi,jを、tfi,j×log(K/df)により算出する。
本発明は、上記に記載の発明において、前記文書データには、評価対象の評価基準とする観点情報を識別可能な観点識別情報が付与されており、前記第2の部分空間生成手段は、前記ベクトル生成手段が生成したベクトルを、前記観点識別情報に基づいて選択して前記第2の部分空間を生成することを特徴とする。
本発明は、上記に記載の発明において、前記文書データには、当該文書データを識別可能な文書識別情報が付与されており、評価対象の評価基準とする観点情報を識別可能な観点識別情報毎に、当該観点情報に関連する内容を含む文書データの文書識別情報を対応付けて記憶する第2の記憶手段を備え、前記第2の部分空間生成手段は、前記第2の記憶手段からいずれか1つの観点情報に対応する文書識別情報を読み出し、該読み出した文書識別情報に基づいて、前記ベクトル生成手段が生成したベクトルから前記第2の部分空間を生成することを特徴とする。
本発明は、上記に記載の発明において、前記関連性抽出手段により抽出された指標情報に基づいて評価対象モデルを構成するモデル構成手段を更に備えたことを特徴とする。
本発明は、上記の発明において、前記文書データには、当該文書を識別可能な記事IDが付与されており、評価対象の評価基準とする観点情報を識別可能な観点ID毎に、当該観点情報に関連する文書の記事IDを対応付けて記憶する第2の記憶手段と、前記第2の部分空間生成手段は、前記第2の記憶手段からいずれか1つの観点情報に対応する記事IDを読み出し、該読み出した記事IDに基づいて、前記ベクトル生成手段が生成したベクトルから前記第2の部分空間を生成することを特徴とする。
また、上述した課題を解決するために、本発明は、評価対象に関連する文書データと前記評価対象に関する各指標情報から評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する処理にコンピュータを用いて、指標抽出を行う指標抽出方法であって、前記コンピュータの文書データ記憶手段が、前記文書データを、該文書データを一意に識別する文書IDと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶手段に記憶させる文書データ記憶ステップと、前記コンピュータの単語データ記憶手段が、前記文書データに含まれる単語データを記憶手段に記憶させる単語データ記憶ステップと、前記コンピュータの指標情報記憶手段が、前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶手段に記憶させる指標情報記憶ステップと、前記コンピュータのベクトル生成手段が、前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記記憶手段に記憶されている前記文書データと前記単語データとに基づいて、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成ステップと、前記コンピュータの第1の部分空間生成手段が、前記文書データに対応づく評価対象識別情報に基づき、前記生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第1の部分空間を生成する第1の部分空間生成ステップと、前記コンピュータの第2の部分空間生成手段が、前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第2の部分空間を生成する第2の部分空間生成ステップと、前記コンピュータの観点スコア算出手段が、前記評価対象識別情報毎の第1の部分空間のそれぞれについて、前記第2の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出ステップと、前記コンピュータの関連性抽出手段が、前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出ステップと、有することを特徴とする。
また、本発明は、評価対象に関連する文書データと前記評価対象に関する各指標情報から評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する処理をコンピュータに実行させるプログラムであり、当該コンピュータに、前記文書データを、該文書データを一意に識別する文書IDと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶手段に記憶させる文書データ記憶ステップと、前記文書データに含まれる単語データを記憶手段に記憶させる単語データ記憶ステップと、前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶手段に記憶させる指標情報記憶ステップと、前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記記憶手段に記憶されている前記文書データと前記単語データとに基づいて、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成ステップと、前記文書データに対応づく評価対象識別情報に基づき、前記生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第1の部分空間を生成する第1の部分空間生成ステップと、前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第2の部分空間を生成する第2の部分空間生成ステップと、前記評価対象識別情報毎の第1の部分空間のそれぞれについて、前記第2の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出ステップと、前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出ステップと、を実行させるためのコンピュータプログラムである。
この発明によれば、評価対象を識別可能な評価対象識別情報により分類される文書データと、文書データに含まれる単語データとを記憶手段に記憶させ、記憶手段に記憶されている文書データと単語データとに基づいて、単語データの種別を次元数とし、文書データにおける単語データ毎の出現頻度と単語データを含む文書データ数とに基づいて求められる要素値を要素とするベクトルを生成し、生成したベクトルを、評価対象識別情報毎に選択し、評価対象識別情報毎の第1の部分空間を生成する。また、生成したベクトルから、評価対象の評価基準とする観点情報に基づいて選択したベクトルにより第2の部分空間を生成する。そして、第1の部分空間毎に、第2の部分空間との距離を類似度とし、評価対象識別情報毎に類似度を観点スコアとして算出し、評価対象に関連する指標情報と評価対象識別情報毎の観点スコアとの相関関係に基づいて、観点情報と関連性の高い指標情報を抽出する構成とした。
これにより、文書データを用いて、既に利用されているロジットモデル等のモデルにそのまま使用できる適切な指標情報を人手で試行錯誤することなく得ることができ、ロジットモデル等の構成における設計工数も削減することが可能となる。
以下、本発明の一実施形態を、図面を参照して説明する。
図1は、本実施形態による指標抽出装置100を示す概略ブロック図である。指標抽出装置100は、例えば、企業の財務情報などの評価に用いられるロジットモデル等に適用される指標情報を抽出する装置であり、以下評価対象のデータとして企業のデータを適用して記載する。
指標抽出装置100において、文書データベース(以下、DBと記載)7は、ある企業に関連する文書(データ)を記憶している。該文書には、文書を識別するための記事ID(IDentifier)(文書識別情報)が付与されるとともに、どの企業に関連する文書であるかを示す企業ID(評価対象識別情報)、どのような観点に基づく記事であるかを示す観点ID(観点識別情報)が付与されている。なお、企業IDや、観点IDは、文書内に該当企業の企業名や、評価の対象とする観点(例えば、「倒産」など)の文言が含まれていれば、これらIDを付与してもよいが、これ以外に、例えば、文書全体の内容からある特定の企業を示している文書であるとか、ある観点を示した文書であるなど、「企業に関する情報」、あるいは「観点に関する情報」を含んでいる文書に対しても、これらのIDを付与するようにしてもよい。単語セットDB8は、文書DB7に記憶される文書中に含まれる企業に関する単語セットを記憶している。
記事ベクトル生成部1は、文書DB7の文書と単語セットDB8の単語セットとに基づいて記事ベクトルを生成する。企業名DB9は、企業毎に割り振られた企業IDを記憶している。企業空間生成部2は、企業名DB9の企業IDに従って、企業に関連する記事をベクトル群として、自己相関行列に基づく部分空間(企業空間)を生成する。分析観点空間生成部3は、記事ベクトルに付与されている観点IDに従って、観点に関連する記事をベクトル群として、自己相関行列に基づく部分空間(観点空間)を生成する。
観点スコア算出部4は、上記企業空間と観点空間とに従って、ある企業と観点の部分空間の距離を類似度として観点スコアを算出する。なお、本実施形態では、部分空間の距離として、部分空間のなす角度を距離とする。財務情報DB10は、各種財務情報の指標を記憶している。関連性抽出部5は、観点スコアと財務情報DB10の財務情報との相関係数を算出し、相関係数の高い上位の財務指標(複数)を関連性の高い財務情報として取得する。企業評価モデル構成部6は、上記上位の財務指標から変量選択し、企業評価モデルを構成する。
次に、本実施形態による指標抽出装置100の全体動作について説明する。
図2は、本実施形態による指標抽出装置100の全体動作の概念を示す概念図である。まず、部分空間作成工程として、企業を単位に、新聞、Web、調査資料などの文書、すなわち、定性情報を用いて部分空間を作成する(後述するステップSb1〜Sb3に相当)。次いで、関連性抽出工程として、各企業の観点の部分空間の距離を計算した、定性情報のスコアリング結果と、財務情報などの定量情報とから、関連性を抽出し、観点に関連する定量情報のリストを取得する(後述するステップSb4〜Sb6に相当)。これにより、観点(例えば、「倒産」)に関連する財務指標のセット(例えば、「売上」、「負債額」)が得られる。
次に、図3は、記事ベクトル生成部1、企業空間生成部2により行われる企業の部分空間作成工程を説明するための概念図である。まず、定性情報(新聞)から企業を表す単語の出現頻度をカウントする(後述するステップSa1に相当)。図示の例では、新聞は、A社の下請けメーカの工場に関する記事である。該記事には、単語リストに示すように、「A社」が1回、「震度」が3回、「地震」が12回、…というように、各単語が出現している。
次に、単語の種類を次元数として、記事ベクトルを作成する(後述するステップSa2〜Sa4に相当)。図において、丸で囲んだ部分が各企業に関する記事ベクトル群である。なお、実際には、意味合いに応じて重み付けされた記事ベクトルは、1500などの高次元空間である。そして、上記記事ベクトル群から各企業の部分空間を生成する(後述するステップSb2に相当)。
このように、企業単位でベクトル空間モデルを用いて、定性情報から企業オブジェクトとして、部分空間を生成することにより、定性情報を距離として定量的に計算することが可能となる。
次に、図4は、分析観点空間生成部3、観点スコア算出部4、関連性抽出部5により行われる観点スコアリング算出の処理を説明するための概念図である。まず、記事ベクトル群から観点の部分空間を生成し(後述するステップSb1に相当)、観点の部分空間と企業の部分空間との距離を算出し(後述するステップSb1に相当)、スコア化された定性情報(倒産)と財務指標(売上、利益、資本回転率、負債額)との相関を計算する(後述するステップSb3に相当)。
次に、記事ベクトル生成部1の動作について説明する。
図5は、本実施形態による記事ベクトル生成部1の動作を説明するためのフローチャートである。記事ベクトル生成部1は、まず、文書DB7の文書データから、単語セットDB8の単語セットに従って、企業を表す単語の出現頻度をカウントする(ステップSa1)。次に、文書データ内の各単語の出現頻度TF値を算出する(ステップSa2)。次に、文書データ内の各単語のIDF値、すなわち、文書データ内の各単語が含まれる文書数DFの逆数のlogをとったIDF値を算出する(ステップSa3)。そして、単語の種数Nを次元数、要素をTF−IDF値として、文書に対応する記事ベクトルを作成する(ステップSa4)。なお、上記TF−IDF値(Wi,j)(i=1〜N、j=1〜K)は、TF値とIDF値の積により、次式(2)で求められる。
Figure 0004519880
但し、tfi,jは、j番目の文書データ中のi番目の単語の出現数、Kは、対象文書データ総数、dfは、i番目の単語が含まれる文書データの数である(参考文献:Salton, G.: Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer, Addison-Wesley Publishing Company (1989))。
次に、上述した記事ベクトル生成部1以外の全体動作について詳細に説明する。
図6は、本実施形態による分析観点空間生成部3、企業空間生成部2、観点スコア算出部4、関連性抽出部5、モデル構成部6の各部の動作を説明するためのフローチャートである。まず、分析観点空間生成部3は、観点に関連する記事をベクトル群として、自己相関行列に基づく部分空間を算出する(ステップSb1)。具体的には、観点をV、H個のN次元(単語セットを次元とする)の記事ベクトルuV(h)(h=1,2,…,H)において、次式(3)により自己相関行列Rを求める。
Figure 0004519880
上記自己相関行列の固有値方程式は、次式(4)のようになる。
Figure 0004519880
上記式を解くことにより、N次元の固有ベクトルλが算出される。その上位p個の固有ベクトルからなる空間を、観点Vの部分空間S(V)とする。但し、pは、次式(5)に示す、固有ベクトルλの固有値λ(1≦r≦N)に対する第N’主成分までの累積寄与率を満たす最大のN’とする。δは、式(5)で表わされる累積寄与率の閾値であり、例えば、0.8などとする。
Figure 0004519880
次に、企業空間生成部2は、企業に関連する記事をベクトル群として、自己相関行列に基づく部分空間を算出する(ステップSb2)。具体的には、記事ベクトルを観点Vの代わりに企業C(m)(m=1,2,…,M)に関連するものにすることによって、企業C(m)の部分空間S(C(m))を同様にして取得する。
次に、観点スコア算出部4は、ある企業と観点の部分空間をなす角度を求める(ステップSb3)。具体的には、観点Vと企業C(m)に対して、部分空間S(V)、S(C(m)を構成する固有ベクトルをそれぞれ、φ S(V)及びφ S(C(m))とするとき、その2つの部分空間の角度L (V,C(m))を類似度とする。類似度L (V,C(m))は、次式(6)により算出される(参考文献:「伊里正夫、伊里由美 訳:『行列の固有値』、シュプリンガー・フェアラーク東京、2003」)。
Figure 0004519880
ここで、λmax S(V,C(m))は、次式(7)で示す行列X=(xij)の固有値問題を解いて得られる最大固有値である。
Figure 0004519880
次に、関連性抽出部5は、観点スコアと財務情報DB10の財務情報との相関係数を算出する(ステップSb4)。具体的には、M個の全企業を対象に類似度L (V,C(m))を計算し、財務指標F(V,q)(q=1,2,…,Q:財務指標の項目。例えば、利益や、営業利益率など)の相関係数r(V,q)を次式(8)で算出する。但し、企業C(m)の財務指標F(V,q)をF(V,q)(m)、平均をE(F(V,q)とし、類似度L (V,C(m))の平均をE(L (V))とする。
Figure 0004519880
また、関連性抽出部5は、相関係数の高い上位の財務指標を関連性の高い財務情報として取得する(ステップSb5)。すなわち、相関係数r(V,q)の高い上位d個(x,…,x)を観点と関連の高い財務指標として取得する。
次に、モデル構成部6は、上記得られたd個の財務指標(項目)の中から変量選択を行い、企業評価モデル(例えば、前述した従来技術のロジットモデル)を構成する(ステップSb6)。ロジットモデルの構成方法は、前述したように、財務指標x,…,xを用いて、パラメータ係数a,…,aを、式(1)で示されるロジットモデルを作成し、再尤法によって推定する。
(実際の企業データを用いた実施例)
次に、図7及び図8を参照して、本実施形態による指標抽出装置100に、実際の企業データを適用して分析を行った実施例について説明する。文書としては、2002年1月1日〜12月31日の日経新聞記事データ(全166,733記事)を用い、対象企業数756社(東京証券取引場一部上場企業約1500社のうち、製造業企業(推定約800社)の中から「知の潜在ランキング」を生成可能なデータを持ち合わせている企業)、サンプル単語種数1,500(全166,773記事から形態素解析を行い、所定の品詞を選択する、1文字、数詞は除外するなどの所定のルールに基づいて得た全214,602単語中から、TF値あるいはTF−IDF値の上位のものを選択)とした。なお、「知の潜在ランキング」とは、横浜国立大学の岡田依里教授が「独自のノウハウを生み出す力、企業価値を生み出す力を計る指標」として、財務指標を基にした6つの指標から作成したものである(参考文献:「知財戦略経営」、岡田依里 著)。
図7は、上記「知の潜在力ランキング」の基となる財務指標を示す概念図である。図において、「知の潜在力要素」として、技術革新力、取引の効率性、設備の活用力、将来収益期待、市場の視点、従業員の生産性を挙げ、それぞれの要素に対応する財務指標として、過去2年の研究開発費、在庫回転率(棚卸資産の在庫回転日数)、単位有形固定資産当たりの営業利益、資本コスト+営業利益+研究開発費、株式時価総額、従業員一人当たりの営業利益とした。該「知の潜在力ランキング」によれば、例えば、「従業員の生産性」という観点から、関連性の高い財務指標として、「従業員一人当たりの営業利益」が抽出されればよいことが分かる。
図8は、本実施形態による指標抽出装置100により、観点として「知の潜在力ランキング」の「従業員の生産性」を用いて、各企業のスコアを算出し、その値と財務指標(92項目)との相関係数を計算した結果示す図である。図8に示すように、「従業員一人当たりの営業利益」が相関係数の高い10位内に入っていることが分かる。
なお、上記の実施形態の構成により、図1に示す文書DB7の文書に企業IDや、観点IDを付与するようにしたが、これに限定されず、観点リストDBを別途設け、当該観点リストDBに、観点IDに対応付けて、該当する文書に付与される記事IDを列挙するようにしてもよい。この場合、分析観点空間生成部3は、上記観点リストDBから観点IDを読み込んで、該当する記事IDを選択して部分空間を生成すればよい。
また、上記の実施形態の構成により、企業の与信や、格付けの際に、関連性の抽出により、与信や、格付けに対する財務指標を統一的に得ることができ、特定の指標を見ることによって、与信や格付けの評価を共通の量で得ることができ、工数削減につなげることができる。
また、上記の実施形態の構成により、特定の指標を見つけることにより、それを既に利用されている信頼のあるロジットモデルにそのまま適用することができる。
また、上記の実施形態の構成により、倒産、与信に加えて、就職希望度や、最新技術開発費など、社名ではイメージ可能であるが、具体的な財務指標に現れにくい観点を用いて、設定した観点に応じた財務指標を得ることができる。
また、上記の実施形態の構成では、評価対象を企業としたが、企業以外の団体や個人などとすることもできる。
なお、上述の指標抽出装置100は、内部にコンピュータシステムを有している。そして、上述した指標抽出装置の記事ベクトル生成部1、企業空間生成部2、分析観点空間生成部3、観点スコア算出部4、関連性抽出部5及び企業評価モデル構成部6の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
本実施形態による指標抽出装置100を示す概略ブロック図である。 本実施形態による指標抽出装置100の全体動作の概念を示す概念図である。 企業の部分空間作成工程を説明するための概念図である。 観点スコアリング算出を説明するための概念図である。 本実施形態による記事ベクトル生成部1の動作を説明するためのフローチャートである。 本実施形態による、記事ベクトル生成部1以外の各部の動作を説明するためのフローチャートである。 本実施形態による指標抽出装置100に、実際の企業データを適用して分析を行った実施例を説明するための図(その1)である。 本実施形態による指標抽出装置100に、実際の企業データを適用して分析を行った実施例を説明するための図(その2)である。 従来技術による、ロジットモデルでの企業のスコアを算出する手順を示す概念図である。
符号の説明
1 記事ベクトル生成部(ベクトル生成手段)
2 企業空間生成部(第1の部分空間生成手段)
3 分析観点空間生成部(第2の部分空間生成手段)
4 観点スコア算出部(観点スコア算出手段)
5 関連性抽出部(関連性抽出手段)
6 企業評価モデル構成部(モデル構成手段)
7 文書DB(記憶手段)
8 単語セットDB(記憶手段)
9 企業名DB
10 財務情報DB
100 指標抽出装置

Claims (5)

  1. 評価対象に関連する文書データと前記評価対象に関する各指標情報とから評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する指標抽出装置であって、
    前記文書データを、該文書データを一意に識別する文書IDと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶する文書データ記憶手段と、前記文書データに含まれる単語データを記憶する単語データ記憶手段と、前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶する指標情報記憶手段と、
    前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成手段と、
    前記文書データに対応づく評価対象識別情報に基づき、前記ベクトル生成手段により生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第1の部分空間を生成する第1の部分空間生成手段と、
    前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第2の部分空間を生成する第2の部分空間生成手段と、
    前記評価対象識別情報毎の第1の部分空間のそれぞれについて、前記第2の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出手段と、
    前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出手段と、
    を具備することを特徴とする指標抽出装置。
  2. 前記ベクトル生成手段は、j番目の文書データ中にi番目の単語が出現する回数である
    出現頻度をtfi,j、i番目の単語が含まれる文書データの数をdfi、前記単語の総
    数をN、前記複数の文書データの総数をKとした場合、j番目の文書データ中のi番目の
    単語に対応したN次元のベクトルの要素値wi,jを、tfi,j×log(K/dfi
    )により算出する
    ことを特徴とする請求項1に記載の指標抽出装置。
  3. 前記関連性抽出手段により抽出された指標情報に基づいて評価対象モデルを構成するモ
    デル構成手段を更に備えたことを特徴とする請求項1に記載の指標抽出装置。
  4. 評価対象に関連する文書データと前記評価対象に関する各指標情報から評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する処理にコンピュータを用いて、指標抽出を行う指標抽出方法であって、
    前記コンピュータの文書データ記憶手段が、
    前記文書データを、該文書データを一意に識別する文書IDと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶手段に記憶させる文書データ記憶ステップと、
    前記コンピュータの単語データ記憶手段が、
    前記文書データに含まれる単語データを記憶手段に記憶させる単語データ記憶ステップと、
    前記コンピュータの指標情報記憶手段が、
    前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶手段に記憶させる指標情報記憶ステップと、
    前記コンピュータのベクトル生成手段が、
    前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記記憶手段に記憶されている前記文書データと前記単語データとに基づいて、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成ステップと、
    前記コンピュータの第1の部分空間生成手段が、
    前記文書データに対応づく評価対象識別情報に基づき、前記生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第1の部分空間を生成する第1の部分空間生成ステップと、
    前記コンピュータの第2の部分空間生成手段が、
    前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第2の部分空間を生成する第2の部分空間生成ステップと、
    前記コンピュータの観点スコア算出手段が、
    前記評価対象識別情報毎の第1の部分空間のそれぞれについて、前記第2の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出ステップと、
    前記コンピュータの関連性抽出手段が、
    前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出ステップと、
    有することを特徴とする指標抽出方法。
  5. 評価対象に関連する文書データと前記評価対象に関する各指標情報から評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する処理をコンピュータに実行させるプログラムであり、当該コンピュータに、
    前記文書データを、該文書データを一意に識別する文書IDと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶手段に記憶させる文書データ記憶ステップと、
    前記文書データに含まれる単語データを記憶手段に記憶させる単語データ記憶ステップと、
    前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶手段に記憶させる指標情報記憶ステップと、
    前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記記憶手段に記憶されている前記文書データと前記単語データとに基づいて、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成ステップと、
    前記文書データに対応づく評価対象識別情報に基づき、前記生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第1の部分空間を生成する第1の部分空間生成ステップと、
    前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第2の部分空間を生成する第2の部分空間生成ステップと、
    前記評価対象識別情報毎の第1の部分空間のそれぞれについて、前記第2の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出ステップと、
    前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出ステップと、
    を実行させるためのコンピュータプログラム。
JP2007130759A 2007-05-16 2007-05-16 指標抽出装置、指標抽出方法及びそのコンピュータプログラム Active JP4519880B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007130759A JP4519880B2 (ja) 2007-05-16 2007-05-16 指標抽出装置、指標抽出方法及びそのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007130759A JP4519880B2 (ja) 2007-05-16 2007-05-16 指標抽出装置、指標抽出方法及びそのコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2008287424A JP2008287424A (ja) 2008-11-27
JP4519880B2 true JP4519880B2 (ja) 2010-08-04

Family

ID=40147095

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007130759A Active JP4519880B2 (ja) 2007-05-16 2007-05-16 指標抽出装置、指標抽出方法及びそのコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4519880B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101904278B1 (ko) 2016-09-05 2018-10-04 동아대학교 산학협력단 비전통가스전에서 누적생산량증가율 지표에 따른 감퇴곡선법 선정 방법
JP6370434B1 (ja) * 2017-03-30 2018-08-08 株式会社大和総研 企業情報提供システムおよびプログラム
JP6907107B2 (ja) * 2017-12-18 2021-07-21 株式会社日立製作所 品種絞込み支援システム、及び方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275685A (ja) * 2004-03-24 2005-10-06 Ntt Data Corp 文書情報序列化装置、文書情報序列化方法、プログラムおよび記録媒体
JP2005275794A (ja) * 2004-03-24 2005-10-06 Ntt Data Corp 情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体
JP2006209357A (ja) * 2005-01-26 2006-08-10 Ntt Data Corp 遺伝子探索装置、遺伝子探索方法、遺伝子探索プログラムおよび記録媒体
JP2006252259A (ja) * 2005-03-11 2006-09-21 Ntt Data Corp データ分析装置及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275685A (ja) * 2004-03-24 2005-10-06 Ntt Data Corp 文書情報序列化装置、文書情報序列化方法、プログラムおよび記録媒体
JP2005275794A (ja) * 2004-03-24 2005-10-06 Ntt Data Corp 情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体
JP2006209357A (ja) * 2005-01-26 2006-08-10 Ntt Data Corp 遺伝子探索装置、遺伝子探索方法、遺伝子探索プログラムおよび記録媒体
JP2006252259A (ja) * 2005-03-11 2006-09-21 Ntt Data Corp データ分析装置及び方法

Also Published As

Publication number Publication date
JP2008287424A (ja) 2008-11-27

Similar Documents

Publication Publication Date Title
Streukens et al. Dealing with nonlinearity in importance-performance map analysis (IPMA): An integrative framework in a PLS-SEM context
US20200057960A1 (en) Customizable machine learning models
CA3070612A1 (en) Click rate estimation
KR20110056502A (ko) 기업 성과 분석 엔진
JP4925917B2 (ja) 評価装置及び方法ならびにコンピュータプログラム
CN113704599A (zh) 营销转化用户的预测方法、装置及计算机设备
Sastry et al. Implementation of CRISP methodology for ERP systems
Ozmen Logistics competitiveness of OECD countries using an improved TODIM method
US20140101293A1 (en) Apparatus and method for providing issue record, and generating issue record
Fazil et al. Cost estimation performance in the Construction Projects: A systematic review and Future Directions
Atukalp Determining the relationship between stock return and financial performance: an analysis on Turkish deposit banks
JP4519880B2 (ja) 指標抽出装置、指標抽出方法及びそのコンピュータプログラム
Liu et al. A predictive analytics tool to provide visibility into completion of work orders in supply chain systems
Palshikar et al. Automatic Shortlisting of Candidates in Recruitment.
JP5017005B2 (ja) 評価装置及び方法ならびにそのコンピュータプログラム
Saardchom The validation of analytic hierarchy process (AHP) scoring model
Oleksyk et al. Supporting investment decisions based on cognitive technology
Keerthana et al. Accurate prediction of fake job offers using machine learning
Kim et al. Do SEC filings indicate any trends? Evidence from the sentiment distribution of forms 10-K and 10-Q with FinBERT
Siddiqui et al. Assessing market integration between MINT and developed economies: evidence from dynamic cointegration
Onsumran et al. Gold price volatility prediction by text mining in economic indicators news
Louzis Steady-state priors and Bayesian variable selection in VAR forecasting
Rout et al. Volatility spillover effect in commodity derivatives market: Empirical evidence through generalized impulse response function
Drogendijk et al. Country distance: an objective measure and its impact on international market selection
Yaghoobi et al. Identification and Ranking of Business Intelligence Components Using the Fuzzy TOPSIS Technique

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100519

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4519880

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140528

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250