JP2023109253A

JP2023109253A - 情報処理装置、指数構築方法及びプログラム

Info

Publication number: JP2023109253A
Application number: JP2022010667A
Authority: JP
Inventors: 圭一五島; Keiichi Goshima; 元嗣新谷; Mototsugu Shintani; 佳祐上田; Keisuke Ueda; 肇渡部; Hajime Watabe
Original assignee: Utokyo Economic Consulting Inc; Nihon Keizai Shimbun Inc
Current assignee: Utokyo Economic Consulting Inc; Nihon Keizai Shimbun Inc
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2023-08-08

Abstract

【課題】日本語のテキストデータから景気動向を表現する指数を構築する。【解決手段】極性辞書記憶部１は、ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書ＰＤが格納されている。ニュース指数構築部２は、入力される日本語のテキストデータＩＮに含まれる各単語を極性辞書ＰＤに収録された各単語と比較して、テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、テキストデータを構成する文章が表現する景気動向を示す指数を構築する。【選択図】図３

Description

本発明は、情報処理装置、指数構築方法及びプログラムに関する。

伝統的に経済分析に利用されるデータの多くは、マクロ経済統計や金融経済統計等の数値データである。これら数値データに対して、近年注目を集めているのがテキストデータである。政府や企業、家計の経済活動はテキストの形で記録されていることから、テキストデータを利用することでこれまで観察が困難であった経済環境や金融市場の動向を定量化して捉えられる試みが盛んになされている。そして、テキストデータの数値化の際には、計算言語学や自然言語処理等の分野での分析手法や言語資源が応用される。テキストデータの数値化の際には、計算言語学や自然言語処理等の分野での分析手法や言語資源が応用される（非特許文献１及び２）。

Baker, S. R., Bloom, N., and Davis, S. J.,"Measuring Economic Policy Uncertainty.", 2016, The Quarterly Journal of Economics, 131 (4), pp. 1593-1636. Hansen, S. and McMahon, M,"Shocking Language: Understanding the Macroeconomic Effects of Central Bank Communication.", 2016, Journal of International Economics, 99 (S1), pp. S114-S133.

上記のようなテキストデータを用いた手法は、マクロ経済の分析にとって有用であるものの、使用されるテキストデータは英語のものが大多数であり、日本語のテキストデータについては少数である。これは、経済分析に適した日本語の言語資源の不足が理由であり、例えば、英語では経済分析に特化した辞書やルールが入手可能である一方で、日本語の経済辞書は特別な場合を除き存在しない。また、英語と同様の処理を行おうとしても、経済分析に適した単語分割やストップワードの除去等の、日本語のテキストデータを処理するために必要な処理手法の構築が必要なだけでなく、処理結果から分析に資する情報を出力することが求められる。

本発明は、上記の事情に鑑みて成されたものであり、日本語のテキストデータから景気動向を表現する指数を構築することを目的とする。

本発明の一態様である情報処理装置は、ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書が格納された極性辞書記憶部と、入力される日本語のテキストデータに含まれる各単語を前記極性辞書に収録された各単語と比較して、前記テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、前記テキストデータを構成する文章が表現する景気動向を示す指数を構築する指数構築部と、を有する。これにより、日本語のテキストデータから景気動向を表現する指数を構築することができる。

本発明の一態様である指数構築方法は、ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書を読み込み、入力される日本語のテキストデータに含まれる各単語を前記極性辞書に収録された各単語と比較し、前記テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、前記テキストデータを構成する文章が表現する景気動向を示す指数を構築するものである。これにより、日本語のテキストデータから景気動向を表現する指数を構築することができる。

本発明の一態様であるプログラムは、ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書を読み込む処理と、入力される日本語のテキストデータに含まれる各単語を前記極性辞書に収録された各単語と比較する処理と、前記テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、前記テキストデータを構成する文章が表現する景気動向を示す指数を構築する処理と、をコンピュータに実行させるものである。これにより、日本語のテキストデータから景気動向を表現する指数を構築することができる。

本発明によれば、日本語のテキストデータから景気動向を表現する指数を構築することができる。

実施の形態１にかかる情報処理装置を実現するためのシステム構成の一例を示す図である。実施の形態１にかかる情報処理装置の外観構成を示す図である。実施の形態１にかかる情報処理装置の構成を模式的に示す図である。極性辞書の作成手順のフローチャートである。３人のアノテータが付与したラベルごとの単語と多数決の結果の例を示す図である。ニュース指数構築の手順のフローチャートである。構築したニュース指数の推移を示す図である。一般的な指数である景気動向指数、景気ウオッチャー調査（いずれも内閣府）、全国企業短期経済観測調査（いわゆる日銀短観）及び生活意識に関するアンケート調査（いずれも日本銀行）の概要を示す図である。構築したニュース指数と、一般的な指数である景気動向指数、景気ウオッチャー調査、日銀短観及び生活意識に関するアンケート調査との相関係数を示す図である。景気のパターン分析とニュース指数との関係を示す図である。ニュース指数と、景気動向指数及び景気ウオッチャー調査との時差相関を示す図である。ニュース指数と、全国企業短期経済観測調査（日銀短観）及び生活意識に関するアンケート調査との時差相関を示す図である。

以下、図面を参照して本発明の実施の形態について説明する。各図面においては、同一要素には同一の符号が付されており、必要に応じて重複説明は省略される。

実施の形態１
図１は、実施の形態１にかかる情報処理装置を実現するためのシステム構成の一例を示す図である。情報処理装置１００は、専用コンピュータ、パーソナルコンピュータ（ＰＣ）などのコンピュータ１０により実現可能である。但し、コンピュータは、物理的に単一である必要はなく、分散処理を実行する場合には、複数であってもよい。図１に示すように、コンピュータ１０は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２及びＲＡＭ（Random Access Memory）１３を有し、これらがバス１４を介して相互に接続されている。尚、コンピュータを動作させるためのＯＳソフトなどは、説明を省略するが、この情報処理装置を構築するコンピュータも当然有しているものとする。

バス１４には、入出力インターフェイス１５も接続されている。入出力インターフェイス１５には、例えば、キーボード、マウス、センサなどよりなる入力部１６、ＣＲＴ、ＬＣＤなどよりなるディスプレイ、並びにヘッドフォンやスピーカなどよりなる出力部１７、ハードディスクなどより構成される記憶部１８、モデム、ターミナルアダプタなどより構成される通信部１９などが接続されている。

ＣＰＵ１１は、ＲＯＭ１２に記憶されている各種プログラム、又は記憶部１８からＲＡＭ１３にロードされた各種プログラムに従って各種の処理、本実施の形態においては、例えば後述する情報処理装置１００の各部の処理を実行する。ＣＰＵ１１とは別にＧＰＵ（Graphics Processing Unit）を設け、ＣＰＵ１１と同様に、ＲＯＭ１２に記憶されている各種プログラム、又は記憶部１８からＲＡＭ１３にロードされた各種プログラムに従って各種の処理、本実施の形態においては、例えば後述する情報処理装置１００の各部の処理を実行してもよい。ＧＰＵは、定型的な処理を並列的に行う用途に適しており、後述するニューラルネットワークにおける処理などに適用することで、ＣＰＵ１１に比べて処理速度を向上させることも可能である。ＲＡＭ１３には又、ＣＰＵ１１及びＧＰＵが各種の処理を実行する上において必要なデータなども適宜記憶される。

通信部１９は、例えば図示しないインターネットを介しての通信処理を行ったり、ＣＰＵ１１から提供されたデータを送信したり、通信相手から受信したデータをＣＰＵ１１、ＲＡＭ１３、記憶部１８に出力したりする。記憶部１８はＣＰＵ１１との間でやり取りし、情報の保存・消去を行う。通信部１９は又、他の装置との間で、アナログ信号又はディジタル信号の通信処理を行う。

入出力インターフェイス１５はまた、必要に応じてドライブ２０が接続され、例えば、磁気ディスク２０Ａ、光ディスク２０Ｂ、フレキシブルディスク２０Ｃ、又は半導体メモリ２０Ｄなどが適宜装着され、それらから読み出されたコンピュータプログラムが必要に応じて記憶部１８にインストールされる。

情報処理装置１００の外観構成について説明する。図２に、実施の形態１にかかる情報処理装置１００の外観構成を示す。情報処理装置１００は、処理部１１０、表示部１２０及び入力部１３０を有する。処理部１１０は、上述のＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、バス１４、入出力インターフェイス１５、記憶部１８、通信部１９、ドライブ２０などを有するハードウェアとして構成される。表示部１２０は、上述の出力部１７に対応し、オペレータが視認可能な形式で画像を表示する、ＬＣＤなどの表示装置として構成される。入力部１３０は上述の入力部１６に対応し、マウスやキーボードなどの各種の入力手段により構成される。

次いで、本実施の形態にかかる、景気を評価するためのニュース指数を構築する情報処理装置について説明する。本実施の形態にかかる情報処理装置は、マクロ経済分析、特に景気分析に適した単語が収録された極性辞書を教師データとして教師有り学習を行ってモデルを取得し、このモデルに分析対象のテキストデータを入力して指標を出力するものである。

図３に、実施の形態１にかかる情報処理装置１００の構成を模式的に示す。情報処理装置１００は、極性辞書記憶部１及び指数構築部２を有する。極性辞書記憶部１は、後に詳述するように、ニュース指数を構築するために用いられる極性辞書ＰＤが格納されている。ニュース指数構築部２は、極性辞書記憶部１から極性辞書ＰＤを読み出し、入力データＩＮと極性辞書の単語同士を比較し、比較結果に基づいてニュース指数を構築する。

次いで、実施の形態１にかかる情報処理装置のニュース指数構築を理解するための前提として、教師データである極性辞書の構築について説明する。極性辞書を構築するために用いる元データとしては、経済記事を専門的に掲載する新聞、雑誌などのテキスト情報が掲載された報道媒体を用いて、これらから経済や景気と関連のある単語を獲得する。

本実施の形態では、例として、教師データを構築するための元データとして、株式会社日本経済新聞社が発行する日本経済新聞の記事データ（朝刊・夕刊・電子版）を利用している。利用する新聞記事データの期間は１９８１年１０月～２０２０年１２月であり、約５１０万記事が収録されている。この期間の新聞記事データに含まれている単語の延べ数は１，６２１，２０３，１９６、異なり数は１，６３１，０６５であった。

以下、極性辞書の作成処理について説明する。図４に、極性辞書の作成手順のフローチャートを示す。極性辞書の作成手順のフローは、以下のステップＬ１～Ｌ７で構成される。

ステップＬ１
ニュース指数構築部２は、まず、極性辞書記憶部１から極性辞書を読み込む。

ステップＬ２
まず、「景気」及び「経済」と、これらの合成語が記事に出現した場合、同じ記事に登場する各単語の出現回数をカウントして出現頻度ランキングを作成する。合成語としては、
例えば、「景気動向」、「景気循環」、「経済活動」及び「地域経済」など、経済や景気を記述するために用いられる各種の用語が含まれる。ここで、共起する単語のうち、名詞・動詞・形容詞の３つの品詞かつ基本形のみを収録する。

ここで、共起する単語の基本形を例示する。共起する動詞の基本形としては、例えば、「喘ぐ（あえぐ）」、「上がる（あがる）」、「諦める（あきらめる）」、「失せる（うせる）」、「抑える（おさえる）」、「収まる（おさまる）」、「恐れる（おそれる）」、「怯える（おびえる）」、「下りる（おりる）」及び「終わる（おわる）」などが挙げられる。共起する形容詞の基本形としては、例えば、「明るい（あかるい）」、「新しい（あたらしい）」、「熱い（あつい）」、「呆気ない（あっけない）」、「怪しい（あやしい）」、「粗い（あらい）」、「有難い（ありがたい）」、「慌ただしい（あわただしい）」、「良い（よい）」及び「いち早い（いちはやい）」などが挙げられる。共起する名詞の基本形としては、例えば、「アメリカ大統領選挙」、「イノベーション」、「インフラ」、「インフラ投資」、「インフレ」、「インフレ圧力」、「インフレ抑制」、「エネルギー」、「お金」及び「カネ余り」などが挙げられる。

単語分割、品詞推定および基本形の推定には、例えば、形態素解析用のオープンソース・ソフトウェアである、ＭｅＣａｂとその付属辞書であるｍｅｃａｂ－ｉｐａｄｉｃ－ＮＥｏｌｏｇｄを利用してもよい。

ステップＬ３
共起回数のランキング上位から順に、所定の数の単語を選択して単語リストを作成する。ここでの単語の選択は、選択結果が偏ることを防止するため、経済に精通した複数の者が単語の選択を行うことが望ましい。例えば、共起回数のランキング上位から、マクロ経済学を専門分野とする者と、金融・ファイナンスを専門分野とする者の２名が、経済や景気と関連が有り、極性辞書に収録すべきと判断した単語を、それぞれ独立に２０００単語を選択する。そして、それぞれが選択した２０００単語から重複しる単語を排除した後、単語数が３０００単語となる様に調整することで、単語リストを作成する。このようにして３０００単語を選択した場合の単語リストの品詞の内訳は、形容詞が３０９語、動詞が９８９語、名詞が１７０２語となった。

ステップＬ４
単語リストに収録されている単語に対して、景気動向の観点から各単語から連想される意味について、ポジティブ・ニュートラル・ネガティブの３つのクラスラベルの付与（アノテーション）を行う。ここでのアノテーションは、例えば、以下のように行うことができる。

アノテーションを行うには、アノテーション結果が偏ることを防止するためと、経済や景気に関する深い理解が必要であるため、マクロ経済分析に精通する複数の専門家がアノテータとなることが望ましい。ここでは、例として、３名の専門家がアノテーションを行うものとする。かつ、アノテータの経歴や立場がアノテーション結果に影響する可能性が想定され、特定のセグメントの専門家の意見のみが反映されてしまうことを防止するため、それぞれ別の職種の専門家（政府・中央銀行エコノミスト、民間金融機関エコノミスト及び報道機関エコノミスト）をアノテータとして選定した。こうして選定したアノテータに対して、以下の４つのアノテーション条件を指示し、アノテーションを実行した。

アノテーション条件１
景気動向の観点から、各単語から連想される意味について、ポジティブ／ネガティブ／ニュートラルの３つに分類する（例：ポジティブ：＋１、ニュートラル：０、ネガティブ：－１）。例えば、「悪化」はネガティブ、「回復」はポジティブに分類する。一般的には良い意味でも、景気判断においては悪い意味を有する単語はネガティブに分類し、どちらでもない場合はニュートラルに分類する。また、一般的には悪い意味でも、景気判断においては良い意味を有する単語はポジティブに分類し、どちらでもない場合はニュートラルに分類する。

アノテーション条件２
一般的に、文脈に依存する単語や係り受けによって意味が反転する単語の場合には、可能な限り、景気が良い時期や内容に利用されることが多い単語はポジティブに分類し、悪い時期や内容に利用されることが多い単語はネガティブに分類する。どちらでもない単語については、ニュートラルに分類する。例えば、「不確実」は、一般的には係り受けによってどちらの意味にもなり得るが、景気の文脈だと悪い局面に使用される場合が多いので、ネガティブに分類する。

アノテーション条件３
ポジティブとネガティブとニュートラルの境目、又は、ポジティブとネガティブとニュートラルの境目にあると考えられる単語は、ニュートラルに分類する。

アノテーション条件４
平仮名については、複数の漢字が当てはまる場合であっても、景気の文脈で最も多く使われる使用法に則って分類する。

複数の専門家によるアノテーションを行うと、同じ単語に対して異なるラベルが付されることがある。この場合には、例えば、多数決によって付与するラベルを決定する。図５に、３人のアノテータＡ～Ｃが付与したラベルごとの単語と多数決の結果の例を示す。なお、この例において、３人のアノテータのアノテーション結果について、混同行列を計算して、一致度を評価するためにκ係数を計算した。この例では、アノテータ間で不一致だったクラスはポジティブとニュートラルとの間、又は、ネガティブとニュートラルとの間であり、ポジティブとネガティブと間での不一致は少ない傾向が認められた。不一致が認められた単語は、例えば、「カネ余り」、「過熱感」及び「バブル」といった、立場によって判断が分かれると思われるものであった。κ係数を計算すると、ＡとＢと間では０．５２、ＡとＣとの間では０．５９、ＢとＣとの間では０．４９、Ａ～Ｃとの間では０．５３となった。この結果より、本実施の形態におけるアノテーションの結果は、十分に信頼できる水準であることが理解できる。

ステップＬ５
ニュートラルのラベルが付いた単語を除外して、ポジティブ及びネガティブと判断された初期辞書データを作成する。

ステップＬ６
次いで、初期辞書データに収録された単語とは別に、極性辞書に収録する単語を追加的に選択する。初期辞書データには、新聞記事などのテキストデータから「景気」及び「経済」とそれらの合成語と共起した単語のみが選択されている。しかし、収録した単語以外でも景気判断に資する有用な単語がある可能性があるため、こうした有用な単語を追加的に収録する。ここでは、単語の埋め込みベクトルと教師あり学習とを用いて、単語の追加収録を行う。具体的な手順は以下のとおりである。

ステップＬ６１
単語の埋め込みベクトルを作成する。単語ベクトルを作成するときの元データは、ステップＬ１と同様のテキストデータ（上述の例と同様に、日本経済新聞の記事データ）を使用する。ここでは、基本形の単語のみを極性辞書に収録するため、形態素解析によって元データの入力テキストを基本形に変換している。単語ベクトルを作成する手法として、例として、Ｓｋｉｐ－ｇｒａｍ（ｗｏｒｄ２ｖｅｃ）、ＧｌｏＶｅ及びｆａｓｔＴｅｘｔの３つの手法を使用した。ハイパーパラメータはデフォルトを指定し、ベクトルの次元数は１００、２００、４００及び８００の４段階とした。

ステップＬ６２
単語ベクトルを入力、クラスラベルを出力として、２つ以上の異なる手法によって教師あり学習を行う。教師あり学習の手法としては、多項ロジスティック回帰（ＭＬＲ：Multinorminal Logistic Regression analysis）、サポートベクターマシン（ＳＶＭ：Support Vector Machine）、順伝播型ニューラルネットワーク（ＦＦＮＮ:FeedForward Neural Network）及びＬｉｇｈｔＧＢＭ（Light Gradient Boosting Machine）などを用いてもよい。ＳＶＭを用いる場合、線形カーネル、ガウシアンカーネル、シグモイドカーネル及び多項式カーネルなどのカーネル関数を用いてもよく、かつ、Ｏｎｅ－ｖｓ－ｔｈｅ－ｒｅｓｔによるクラス分類を行ってもよい。クラスラベルの割合が不均衡である場合には、その逆数を乗じることで損失関数への寄与度を調節してもよい。ハイパーパラメータのチューニングは、グリッドサーチを用いてもよい。なお、上記の教師あり学習手法及び設定条件は一例に過ぎず、適宜、種々の教師あり学習手法及び設定条件を適用することが可能である。

ステップＬ６３
２つ以上の異なる教師有り学習手法で学習することで取得した学習結果から選んだ２つの異なる組み合わせについて、５分割の交差検証を行って分類精度の評価を行う。

ステップＬ６４
分類精度の最も高い組み合わせを選択して、収録単語以外の単語のラベル、すなわちラベルがポジティブ、ネガティブ及びニュートラルのいずれであるかを推定する。分類精度を測る指標としては、Ｆ－ｍｅａｓｕｒｅ、適合率及び再現率の３つの指標について、マクロ平均、マイクロ平均及び加重平均の３つの方法で集計した計９つの指標を用いる。

ステップＬ６５
ラベルの推定結果を用いて、辞書に追加する単語を選択する。例えば、所定のルールにしたがって自動的に単語を選択してもよいし、専門家が単語を選択してもよい。

ステップＬ７
選択された単語を初期辞書に追加して、教師データとなる極性辞書を作成する。なお、この例においては、極性辞書に収録されたポジティブな単語は名詞１９８、動詞８５及び形容詞３８の合計３２１単語、ネガティブな単語は名詞３６９、動詞１１３及び形容詞７１の合計５５３単語となった。

上述の手順に従って作成した極性辞書を教師データとして、ニュース指数を構築する。ここでは、推定対象のデータとして日ごとの新聞記事のテキストデータを用いた例について説明する。図６に、ニュース指数構築の手順のフローチャートを示す。

ステップＥ１
日ごとの新聞記事のテキストデータを推定対象の入力データとして、入力データ中に現れる極性辞書に収録されているポジティブな単語の数とネガティブな単語の数とをカウントして、以下の式［１］で示すように、ｔ日の入力データについての日次ニュース指数ＤＮＩ_ｔを構築する。

式［１］において、ＰＷ_ｔはｔ日の入力データに出現したポジティブな単語の数、ＮＷ_ｔはｔ日の入力データに出現したネガティブな単語の数である。

ステップＥ２
指数平滑移動平均を用いて、日次ニュース指数ＤＮＩ_ｔを月次ニュース指数ＭＮＩ_ｔに変換する。

式［２］において、αは平滑化係数であり、ここではα＝２／（３０＋１）とする。

以上の手順によって構築したニュース指数と景気動向について検討する。図７に、構築したニュース指数の推移を示す。図７において、網掛けをした範囲は政府が認定した景気後退期を示している。図７では、景気後退期においてニュース指数が低下していることが理解できる。また、２０２０年度のＣＯＶＩＤ－１９の感染拡大が認められた２０２０年１月以降について、ニュース指数が大きく低下していることが認められる。以上より、本実施の形態において構築したニュース指数と景気との間には高い関連性が認められることが分かる。

次いで、構築したニュース指数と景気を示す他の一般的な指数との関連性について検討する。図８に、一般的な指数である景気動向指数、景気ウオッチャー調査（いずれも内閣府）、全国企業短期経済観測調査（いわゆる日銀短観）及び生活意識に関するアンケート調査（いずれも日本銀行）の概要を示す。また、図９に、構築したニュース指数と、一般的な指数である景気動向指数、景気ウオッチャー調査、日銀短観及び生活意識に関するアンケート調査との相関係数を示す。図９からわかるように、構築したニュース指数は、景気を示す他の指数と高い相関が認められ、景気動向を好適に捕捉していることが確認された。

また、景気の循環局面において、景気動向を分析する手法として知られているパターン分析を行うと同時に、ニュース指数を算出して検討を行った。図１０に、景気のパターン分析とニュース指数との関係を示す。パターン分析においては、第５ステージが景気のピークに対応するが、図１０に示すように、ニュース指数のピークは第３ステージ～第４ステージに位置している。また、第９ステージが景気の底に対応するが、ニュース指数の底は、概ね第８ステージに位置している。このように、ニュース指数の変動は、現実の景気に対して概ね１ステージ～２ステージ程度前に変動が現れる。換言すれば、景気の回復局面、後退局面が、先行してニュース指数に現れる。つまり、ニュース指数には、現実に景気動向に先行してその変動が現れるので、ニュース指数を参照することで、将来の景気動向の変動を予測することが可能となる。

次に、本実施の形態にかかるニュース指数と一般的な指数との時差相関について検討した。以下、では、ニュース指数に対して時差をつけた一般的な指数との相関について検討した。図１１に、本実施の形態にかかるニュース指数の月末値と、景気動向指数及び景気ウオッチャー調査との時差相関を示す。景気ウオッチャー調査（図１１の現状判断及び先行き判断）との比較においては、相関係数の最大値が時差０ヶ月で最大となっており、ニュース指数と景気ウオッチャー調査との間には、明確な時差は認められなかった。

一方、景気動向指数（図１１の先行指数及び一致指数）との比較においては、先行指数との比較では－２ヶ月で相関係数が最大となっており、ニュース指数が先行している。また、一致指数との比較では－４ヶ月で相関係数が最大となり、ニュース指数がさらに先行している。したがって、景気動向指数との比較においてはニュース指数が有意に先行しており、ニュース指数を用いることで将来の景気動向の予測が可能であることが理解できる。

図１２に、本実施の形態にかかるニュース指数の四半期末での値と、全国企業短期経済観測調査（日銀短観）及び生活意識に関するアンケート調査との時差相関を示す。日銀短観（図１２の大企業＿製造業＿実績及び予測、大企業＿非製造業＿実績及び予測）との比較においては、大企業の製造業との比較では実績及び予測ともに－２四半期で相関係数が最大となっており、ニュース指数が先行している。大企業の非製造業との比較では実績及び予測ともに－３四半期で相関係数が最大となっており、こちらもニュース指数が先行している。したがって、日銀短観との比較においてもニュース指数が有意に先行しており、ニュース指数を用いることで将来の景気動向の予測が可能であることが理解できる。

生活意識に関するアンケート調査（図１２の景況感＿前年比及び予想）との比較においては、景況感の前年比との比較では－１四半期で相関係数が最大となっており、ニュース指数が先行している。したがって、景況感の前年比との比較ではニュース指数が有意に先行しており、ニュース指数を用いることで将来の景気動向の予測が可能であることが理解できる。一方で、景況感の予想との比較では０四半期で相関係数が最大となっており、明確な時差は認められなかった。

以上より、景気動向指数及び生活意識に関するアンケート調査での景況感の予想以外の一般的な指数に対して、本実施の形態にかかるニュース指数は先行しており、ニュース指数を用いることは、将来の景気動向を予測する観点から有利であることが明らかとなった。また、一般的に景気指標は集計から発表までのラグがあるため、同時点の相関係数が最大であった場合においても、経済ニュース指数は実務上の足許予測（ナウキャスティング）の面でも優れている。

その他の実施の形態
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態では、本発明を主にハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（ｔａｎｇｉｂｌｅｓｔｏｒａｇｅｍｅｄｉｕｍ）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰＲＯＭ）、フラッシュＲＯＭ、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１極性辞書記憶部
２ニュース指数構築部
１０コンピュータ
１１ＣＰＵ
１２ＲＯＭ
１３ＲＡＭ
１４バス
１５入出力インターフェイス
１６入力部
１７出力部
１８記憶部
１９通信部
２０ドライブ
２０Ａ磁気ディスク
２０Ｂ光ディスク
２０Ｃフレキシブルディスク
２０Ｄ半導体メモリ
１００情報処理装置
ＰＤ極性辞書
１１０処理部
１２０表示部
１３０入力部

Claims

ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書が格納された極性辞書記憶部と、
入力される日本語のテキストデータに含まれる各単語を前記極性辞書に収録された各単語と比較して、前記テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、前記テキストデータを構成する文章が表現する景気動向を示す指数を構築する指数構築部と、を備える、
情報処理装置。
前記指数構築部は、
あるｔ日の前記テキストデータに含まれる前記ネガティブな景気動向を表現するために用いられる単語の数をＮＷ_ｔ、前記ポジティブな景気動向を表現するために用いられる単語の数をＰＷ_ｔとしたとき、あるｔ日の前記テキストデータに対応する日次の指数ＤＮＩ_ｔは、以下の式で表される、

請求項１に記載の情報処理装置。
前記指数構築部は、
平滑化係数指数をαとしたとき、平滑化移動平均により、以下の式に基づいて、前記日次の指数ＤＮＩ_ｔから月次の指数ＭＮＩ_ｔを算出する、

請求項２に記載の情報処理装置。
平滑化係数指数をαは、２／（３０＋１）である、
請求項３に記載の情報処理装置。
ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書を読み込み、
入力される日本語のテキストデータに含まれる各単語を前記極性辞書に収録された各単語と比較し、
前記テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、前記テキストデータを構成する文章が表現する景気動向を示す指数を構築する、
指数構築方法。
ネガティブな景気動向を表現するために用いられる日本語の単語と、ポジティブな景気動向を表現するために用いられる日本語の単語と、が収録された極性辞書を読み込む処理と、
入力される日本語のテキストデータに含まれる各単語を前記極性辞書に収録された各単語と比較する処理と、
前記テキストデータに含まれるネガティブな景気動向を表現するために用いられる単語の数と、ポジティブな景気動向を表現するために用いられる単語の数と、に基づいて、前記テキストデータを構成する文章が表現する景気動向を示す指数を構築する処理と、をコンピュータに実行させる、
プログラム。