JP4519880B2 - 指標抽出装置、指標抽出方法及びそのコンピュータプログラム - Google Patents
指標抽出装置、指標抽出方法及びそのコンピュータプログラム Download PDFInfo
- Publication number
- JP4519880B2 JP4519880B2 JP2007130759A JP2007130759A JP4519880B2 JP 4519880 B2 JP4519880 B2 JP 4519880B2 JP 2007130759 A JP2007130759 A JP 2007130759A JP 2007130759 A JP2007130759 A JP 2007130759A JP 4519880 B2 JP4519880 B2 JP 4519880B2
- Authority
- JP
- Japan
- Prior art keywords
- identification information
- document data
- evaluation object
- viewpoint
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000000034 method Methods 0.000 title description 12
- 238000011156 evaluation Methods 0.000 claims description 140
- 239000013598 vector Substances 0.000 claims description 87
- 238000000605 extraction Methods 0.000 claims description 45
- 238000013500 data storage Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 21
- 238000004458 analytical method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 8
- 238000013210 evaluation model Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000007306 turnover Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
(1)図9に示すように、与えられたモデル構成用のデータ、すなわち倒産対象企業の財務指標などの指標1から指標dまでの値を使って以下の式(1)に示されるようなモデルを構成する。ここで、式(1)のxdは分析に用いる指標であり、adは指標に係る係数であり、モデルの構成とは、具体的には以下の式(1)においてa1からadまでの係数パラメータを推定することである。
(1)用意したモデル構成用の財務指標データに対して、KL(Karhunen-Loeve)展開などの手法により、部分空間を生成する。
(2)評価データの中からモデル構成に適したデータを選択し、変換を行う。
(3)変換したデータを基に、ロジットモデルにより、倒産に対するモデルを作成する。
これにより、文書データを用いて、既に利用されているロジットモデル等のモデルにそのまま使用できる適切な指標情報を人手で試行錯誤することなく得ることができ、ロジットモデル等の構成における設計工数も削減することが可能となる。
図1は、本実施形態による指標抽出装置100を示す概略ブロック図である。指標抽出装置100は、例えば、企業の財務情報などの評価に用いられるロジットモデル等に適用される指標情報を抽出する装置であり、以下評価対象のデータとして企業のデータを適用して記載する。
図2は、本実施形態による指標抽出装置100の全体動作の概念を示す概念図である。まず、部分空間作成工程として、企業を単位に、新聞、Web、調査資料などの文書、すなわち、定性情報を用いて部分空間を作成する(後述するステップSb1〜Sb3に相当)。次いで、関連性抽出工程として、各企業の観点の部分空間の距離を計算した、定性情報のスコアリング結果と、財務情報などの定量情報とから、関連性を抽出し、観点に関連する定量情報のリストを取得する(後述するステップSb4〜Sb6に相当)。これにより、観点(例えば、「倒産」)に関連する財務指標のセット(例えば、「売上」、「負債額」)が得られる。
図5は、本実施形態による記事ベクトル生成部1の動作を説明するためのフローチャートである。記事ベクトル生成部1は、まず、文書DB7の文書データから、単語セットDB8の単語セットに従って、企業を表す単語の出現頻度をカウントする(ステップSa1)。次に、文書データ内の各単語の出現頻度TF値を算出する(ステップSa2)。次に、文書データ内の各単語のIDF値、すなわち、文書データ内の各単語が含まれる文書数DFの逆数のlogをとったIDF値を算出する(ステップSa3)。そして、単語の種数Nを次元数、要素をTF−IDF値として、文書に対応する記事ベクトルを作成する(ステップSa4)。なお、上記TF−IDF値(Wi,j)(i=1〜N、j=1〜K)は、TF値とIDF値の積により、次式(2)で求められる。
図6は、本実施形態による分析観点空間生成部3、企業空間生成部2、観点スコア算出部4、関連性抽出部5、モデル構成部6の各部の動作を説明するためのフローチャートである。まず、分析観点空間生成部3は、観点に関連する記事をベクトル群として、自己相関行列に基づく部分空間を算出する(ステップSb1)。具体的には、観点をV、H個のN次元(単語セットを次元とする)の記事ベクトルuV(h)(h=1,2,…,H)において、次式(3)により自己相関行列RVを求める。
次に、図7及び図8を参照して、本実施形態による指標抽出装置100に、実際の企業データを適用して分析を行った実施例について説明する。文書としては、2002年1月1日〜12月31日の日経新聞記事データ(全166,733記事)を用い、対象企業数756社(東京証券取引場一部上場企業約1500社のうち、製造業企業(推定約800社)の中から「知の潜在ランキング」を生成可能なデータを持ち合わせている企業)、サンプル単語種数1,500(全166,773記事から形態素解析を行い、所定の品詞を選択する、1文字、数詞は除外するなどの所定のルールに基づいて得た全214,602単語中から、TF値あるいはTF−IDF値の上位のものを選択)とした。なお、「知の潜在ランキング」とは、横浜国立大学の岡田依里教授が「独自のノウハウを生み出す力、企業価値を生み出す力を計る指標」として、財務指標を基にした6つの指標から作成したものである(参考文献:「知財戦略経営」、岡田依里 著)。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
2 企業空間生成部(第1の部分空間生成手段)
3 分析観点空間生成部(第2の部分空間生成手段)
4 観点スコア算出部(観点スコア算出手段)
5 関連性抽出部(関連性抽出手段)
6 企業評価モデル構成部(モデル構成手段)
7 文書DB(記憶手段)
8 単語セットDB(記憶手段)
9 企業名DB
10 財務情報DB
100 指標抽出装置
Claims (5)
- 評価対象に関連する文書データと前記評価対象に関する各指標情報とから評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する指標抽出装置であって、
前記文書データを、該文書データを一意に識別する文書IDと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶する文書データ記憶手段と、前記文書データに含まれる単語データを記憶する単語データ記憶手段と、前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶する指標情報記憶手段と、
前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成手段と、
前記文書データに対応づく評価対象識別情報に基づき、前記ベクトル生成手段により生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第1の部分空間を生成する第1の部分空間生成手段と、
前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第2の部分空間を生成する第2の部分空間生成手段と、
前記評価対象識別情報毎の第1の部分空間のそれぞれについて、前記第2の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出手段と、
前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出手段と、
を具備することを特徴とする指標抽出装置。 - 前記ベクトル生成手段は、j番目の文書データ中にi番目の単語が出現する回数である
出現頻度をtfi,j、i番目の単語が含まれる文書データの数をdfi、前記単語の総
数をN、前記複数の文書データの総数をKとした場合、j番目の文書データ中のi番目の
単語に対応したN次元のベクトルの要素値wi,jを、tfi,j×log(K/dfi
)により算出する
ことを特徴とする請求項1に記載の指標抽出装置。 - 前記関連性抽出手段により抽出された指標情報に基づいて評価対象モデルを構成するモ
デル構成手段を更に備えたことを特徴とする請求項1に記載の指標抽出装置。 - 評価対象に関連する文書データと前記評価対象に関する各指標情報から評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する処理にコンピュータを用いて、指標抽出を行う指標抽出方法であって、
前記コンピュータの文書データ記憶手段が、
前記文書データを、該文書データを一意に識別する文書IDと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶手段に記憶させる文書データ記憶ステップと、
前記コンピュータの単語データ記憶手段が、
前記文書データに含まれる単語データを記憶手段に記憶させる単語データ記憶ステップと、
前記コンピュータの指標情報記憶手段が、
前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶手段に記憶させる指標情報記憶ステップと、
前記コンピュータのベクトル生成手段が、
前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記記憶手段に記憶されている前記文書データと前記単語データとに基づいて、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成ステップと、
前記コンピュータの第1の部分空間生成手段が、
前記文書データに対応づく評価対象識別情報に基づき、前記生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第1の部分空間を生成する第1の部分空間生成ステップと、
前記コンピュータの第2の部分空間生成手段が、
前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第2の部分空間を生成する第2の部分空間生成ステップと、
前記コンピュータの観点スコア算出手段が、
前記評価対象識別情報毎の第1の部分空間のそれぞれについて、前記第2の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出ステップと、
前記コンピュータの関連性抽出手段が、
前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出ステップと、
有することを特徴とする指標抽出方法。 - 評価対象に関連する文書データと前記評価対象に関する各指標情報から評価対象の評価に用いられる評価対象モデルに適用される指標情報を抽出する処理をコンピュータに実行させるプログラムであり、当該コンピュータに、
前記文書データを、該文書データを一意に識別する文書IDと該文書データの評価対象を示す評価対象識別情報と該文書がどのような観点に基づく文書であるかを示す観点識別情報に対応付けて記憶手段に記憶させる文書データ記憶ステップと、
前記文書データに含まれる単語データを記憶手段に記憶させる単語データ記憶ステップと、
前記評価対象に関する各指標情報を前記評価対象識別情報毎に記憶手段に記憶させる指標情報記憶ステップと、
前記文書データ記憶手段に記憶されている前記文書データと前記単語データ記憶手段に記憶されている前記単語データを読み出し、前記記憶手段に記憶されている前記文書データと前記単語データとに基づいて、前記単語データの種別を次元数とし、前記文書データにおける前記単語データ毎の出現頻度と前記単語データを含む前記文書データ数とに基づいて求められる要素値を要素とするベクトルを生成するベクトル生成ステップと、
前記文書データに対応づく評価対象識別情報に基づき、前記生成されたベクトルを、前記評価対象識別情報毎に選択し、前記評価対象識別情報毎の第1の部分空間を生成する第1の部分空間生成ステップと、
前記文書データに対応づく観点識別情報に基づき、前記ベクトル生成手段により生成されたベクトルから、評価基準とする観点識別情報に対応付けられたベクトルを選択し、第2の部分空間を生成する第2の部分空間生成ステップと、
前記評価対象識別情報毎の第1の部分空間のそれぞれについて、前記第2の部分空間との角度を算出して前記評価対象識別情報毎の観点スコアとして算出する観点スコア算出ステップと、
前記指標情報記憶手段から前記評価対象識別情報毎の前記評価対象に関する各指標情報を読み出し、各指標情報毎に、前記評価対象識別情報毎の指標情報と前記観点スコア算出手段で算出した前記評価対象識別情報毎の観点スコアとの相関係数を算出し、算出した相関係数が高い指標情報を前記観点識別情報と関連性の高い指標情報として抽出する関連性抽出ステップと、
を実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007130759A JP4519880B2 (ja) | 2007-05-16 | 2007-05-16 | 指標抽出装置、指標抽出方法及びそのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007130759A JP4519880B2 (ja) | 2007-05-16 | 2007-05-16 | 指標抽出装置、指標抽出方法及びそのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008287424A JP2008287424A (ja) | 2008-11-27 |
JP4519880B2 true JP4519880B2 (ja) | 2010-08-04 |
Family
ID=40147095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007130759A Active JP4519880B2 (ja) | 2007-05-16 | 2007-05-16 | 指標抽出装置、指標抽出方法及びそのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4519880B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101904278B1 (ko) | 2016-09-05 | 2018-10-04 | 동아대학교 산학협력단 | 비전통가스전에서 누적생산량증가율 지표에 따른 감퇴곡선법 선정 방법 |
JP6370434B1 (ja) * | 2017-03-30 | 2018-08-08 | 株式会社大和総研 | 企業情報提供システムおよびプログラム |
JP6907107B2 (ja) * | 2017-12-18 | 2021-07-21 | 株式会社日立製作所 | 品種絞込み支援システム、及び方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005275685A (ja) * | 2004-03-24 | 2005-10-06 | Ntt Data Corp | 文書情報序列化装置、文書情報序列化方法、プログラムおよび記録媒体 |
JP2005275794A (ja) * | 2004-03-24 | 2005-10-06 | Ntt Data Corp | 情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体 |
JP2006209357A (ja) * | 2005-01-26 | 2006-08-10 | Ntt Data Corp | 遺伝子探索装置、遺伝子探索方法、遺伝子探索プログラムおよび記録媒体 |
JP2006252259A (ja) * | 2005-03-11 | 2006-09-21 | Ntt Data Corp | データ分析装置及び方法 |
-
2007
- 2007-05-16 JP JP2007130759A patent/JP4519880B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005275685A (ja) * | 2004-03-24 | 2005-10-06 | Ntt Data Corp | 文書情報序列化装置、文書情報序列化方法、プログラムおよび記録媒体 |
JP2005275794A (ja) * | 2004-03-24 | 2005-10-06 | Ntt Data Corp | 情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体 |
JP2006209357A (ja) * | 2005-01-26 | 2006-08-10 | Ntt Data Corp | 遺伝子探索装置、遺伝子探索方法、遺伝子探索プログラムおよび記録媒体 |
JP2006252259A (ja) * | 2005-03-11 | 2006-09-21 | Ntt Data Corp | データ分析装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2008287424A (ja) | 2008-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Streukens et al. | Dealing with nonlinearity in importance-performance map analysis (IPMA): An integrative framework in a PLS-SEM context | |
US20200057960A1 (en) | Customizable machine learning models | |
CA3070612A1 (en) | Click rate estimation | |
KR20110056502A (ko) | 기업 성과 분석 엔진 | |
JP4925917B2 (ja) | 評価装置及び方法ならびにコンピュータプログラム | |
CN113704599A (zh) | 营销转化用户的预测方法、装置及计算机设备 | |
Sastry et al. | Implementation of CRISP methodology for ERP systems | |
Ozmen | Logistics competitiveness of OECD countries using an improved TODIM method | |
US20140101293A1 (en) | Apparatus and method for providing issue record, and generating issue record | |
Fazil et al. | Cost estimation performance in the Construction Projects: A systematic review and Future Directions | |
Atukalp | Determining the relationship between stock return and financial performance: an analysis on Turkish deposit banks | |
JP4519880B2 (ja) | 指標抽出装置、指標抽出方法及びそのコンピュータプログラム | |
Liu et al. | A predictive analytics tool to provide visibility into completion of work orders in supply chain systems | |
Palshikar et al. | Automatic Shortlisting of Candidates in Recruitment. | |
JP5017005B2 (ja) | 評価装置及び方法ならびにそのコンピュータプログラム | |
Saardchom | The validation of analytic hierarchy process (AHP) scoring model | |
Oleksyk et al. | Supporting investment decisions based on cognitive technology | |
Keerthana et al. | Accurate prediction of fake job offers using machine learning | |
Kim et al. | Do SEC filings indicate any trends? Evidence from the sentiment distribution of forms 10-K and 10-Q with FinBERT | |
Siddiqui et al. | Assessing market integration between MINT and developed economies: evidence from dynamic cointegration | |
Onsumran et al. | Gold price volatility prediction by text mining in economic indicators news | |
Louzis | Steady-state priors and Bayesian variable selection in VAR forecasting | |
Rout et al. | Volatility spillover effect in commodity derivatives market: Empirical evidence through generalized impulse response function | |
Drogendijk et al. | Country distance: an objective measure and its impact on international market selection | |
Yaghoobi et al. | Identification and Ranking of Business Intelligence Components Using the Fuzzy TOPSIS Technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100420 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100519 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4519880 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140528 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |