JP6496078B2

JP6496078B2 - 分析支援装置、分析支援方法、および分析支援プログラム

Info

Publication number: JP6496078B2
Application number: JP2018502286A
Authority: JP
Inventors: 裕早矢仕; 直史冨田; 石黒　正雄; 正雄石黒
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2016-07-01
Filing date: 2016-07-01
Publication date: 2019-04-03
Anticipated expiration: 2036-07-01
Also published as: WO2018003115A1; JPWO2018003115A1

Description

本発明は、動向の分析を支援する分析支援装置、分析支援方法、および分析支援プログラムに関する。

ニュース記事や技術文書のような業界動向に関する文書に基づいて、将来の業界動向の推移を分析する技術がある。たとえば、このような技術に基づいて、将来の業界動向の推移を分析すること、および、分析結果をマーケティングの事業企画の立案に活用することは、業界動向の変化に合致した収益性の高い事業を立ち上げることを可能にする。

手作業で文書から将来の業界動向の推移を分析する取り組みがある。たとえば、ＰＥＳＴＬＥ分析とよばれる方法は、官公庁資料やニュース記事などの文書から、政治、経済、社会、技術、法律、および環境のカテゴリ毎に業界に影響を与える外部要因を抽出し、業界動向の推移を分析する。しかし、ＰＥＳＴＬＥ分析のような手作業による分析は、大量の文書を手作業で確認しなければならず、多くの工数がかかる。また、手作業による分析は、着目すべき外部要因の抜け漏れ等、分析者による分析の質のばらつきが発生する。そのため、分析における工数削減及び質の確保を目的として、文書からの業界動向の推移分析を支援する技術が求められる。

特許文献１は、これらの業界動向の推移分析を自動化する技術を開示する。具体的には、特許文献１は、特定分野における技術動向の推移を分析する。特許文献１は、技術文書に記載された技術によって実現される内容を技術表現として抽出する。特許文献１は、抽出した各技術表現を、実現にかかる時間を示す時間軸とビジネスにもたらす影響度を示す影響度軸の２軸を持つ技術マップ上に配置して、表示する。

特開２００８−２８２２２２号公報

特許文献１の技術において大量の文書を対象として分析した場合、マップに配置される情報も大量となる。したがって、配置された情報を確認するための工数が増大する。また、配置された情報の確認漏れにより、着目すべき業界動向の変化を見逃す可能性がある。

本発明は、かかる問題を解決するためになされたものであり、動向分析の効率化を図ることを目的とする。

本願において開示される発明の一側面となる分析支援装置、分析支援方法、および分析支援プログラムは、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、外部装置と通信する通信インタフェースと、を有する分析支援装置、当該分析支援装置による分析支援方法、および、前記プロセッサに実行させる分析支援プログラムである。

前記記憶デバイスおよび前記外部装置の少なくとも一方は、第１文書データ群、および第２文書データ群を記憶しており、前記第１文書データ群の各第１文書データは、第１本文と、前記第１文書データが属する第１カテゴリと、前記第１本文の内容により特定される第１時期と、を含み、前記第２文書データ群の各第２文書データは、第２本文を含む。

前記プロセッサは、前記記憶デバイスおよび前記外部装置の少なくとも一方から前記第１文書データ群および前記第２文書データ群を取得する取得処理と、前記取得処理によって取得された前記第２文書データ群の各々の前記第２文書データについて、前記第１本文と前記第１カテゴリと前記第１時期とを含む教師データとの間で共通する単語に関する特徴量を生成する生成処理と、前記教師データに含まれる前記第１カテゴリおよび前記第１時期と、前記生成処理によって生成された特徴量と、を用いて、前記第２文書データが属する第２カテゴリと、前記第２本文の内容により特定される第２時期と、を求める分類モデルを構築する構築処理と、前記第２文書データの前記特徴量を、前記構築処理によって構築された分類モデルに与えることにより、前記第２文書データの前記第２カテゴリおよび前記第２時期を特定する特定処理と、前記第１文書データ群および前記第２文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、前記区分け処理による区分け結果を出力する出力処理と、を実行することを特徴とする。

本発明の代表的な実施の形態によれば、動向分析の効率化を図ることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

図１は、分析支援例を示す説明図である。図２は、分析支援装置のハードウェア構成例を示すブロック図である。図３は、収集データ格納ＤＢの記憶内容例を示す説明図である。図４は、外部データ格納ＤＢの記憶内容例を示す説明図である。図５は、クラスタリング結果格納ＤＢの記憶内容例を示す説明図である。図６は、補完スコア格納ＤＢの記憶内容例を示す説明図である。図７は、分類モデル格納ＤＢの記憶内容例を示す説明図である。図８は、外部データ分類結果格納ＤＢの記憶内容例を示す説明図である。図９は、区分不足スコア格納ＤＢの記憶内容例を示す説明図である。図１０は、分析支援装置の機能的構成例を示すブロック図である。図１１は、分割部および図１０に示した区分け部の詳細な機能的構成例を示すブロック図である。図１２は、収集データ入力画面例を示す説明図である。図１３は、収集データ表示画面例を示す図である。図１４は、外部データ表示画面例を示す図である。図１５は、データ収集状況表示画面例を示す説明図である。図１６は、区分関連クラスタ表示画面例を示す説明図である。図１７は、分析支援装置による分析支援処理手順例を示すフローチャートである。図１８は、図１７に示した外部データ分類処理（ステップＳ１７０４）の詳細な処理手順例を示すフローチャートである。

＜分析支援例＞
図１は、分析支援例を示す説明図である。本実施例において用いられるデータには、収集データと、外部データと、がある。収集データとは、ユーザ１が収集した業界動向に関する文書データであり、たとえば、ニュース記事データ、Ｗｅｂページ、電子書籍である。収集データは、本文と、当該収集データが属するカテゴリと、本文の内容（たとえば、本文が関連する動向）により特定される時期と、を含む。ユーザ１は、ユーザ１の端末２を操作して、インターネットなどのネットワーク３から文書データを収集データとして収集する。収集データ群は、収集データ格納ＤＢ（Ｄａｔａｂａｓｅ）４に格納される。

外部データとは、計算機５が収集した業界動向に関する文書データであり、たとえば、ニュース記事データ、Ｗｅｂページ、電子書籍である。外部データは、本文を含み、当該外部データが属するカテゴリと、本文の内容により特定される時期と、は未定である。計算機５は、予め定められたＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）リストを読み込み、ＵＲＬリストに記載された文書データを外部データとして収集する。また、計算機５は、ＵＲＬリストに記載された文書データ群のうち、予め定められたキーワードを含む文書データを外部データとして収集してもよい。外部データ群は、外部データ格納ＤＢ６に格納される。なお、外部データであっても、ユーザ１により分析済みとなった文書データについては、ユーザ１の収集データとしてもよい。

計算機５は、収集データ群と外部データ群を混合し、混合した文書データ群を、類似しあう文書データ群ごとにクラスタリングする。そして、計算機５は、式（１）により、クラスタｋ（ｋは、１以上の整数）ごとに話題補完スコアＳ_ｔ，ｋを算出する。話題補完スコアＳ_ｔ，ｋは、クラスタｋに対するスコアであり、クラスタｋで扱われている話題に関して収集データがどの程度多く集まっているかを示す値である。なお、ｎ_ｃ,ｋはクラスタｋにおける収集データ数であり、ｎ_ｏ,ｋはクラスタｋにおける外部データ数である。

話題補完スコアＳ_ｔ，ｋは、クラスタｋに所属する全文書データに対する外部データの割合である。したがって、話題補完スコアＳ_ｔ，ｋが大きいクラスタｋで扱われている話題について、クラスタｋは、収集データに比べて外部データを多く含む。このため、話題補完スコアＳ_ｔ，ｋが大きいクラスタｋには、追加の文書データ収集が必要となる。

また、計算機５は、区分け結果１０を生成する。具体的には、たとえば、計算機５は、区分ｉｊごとに、区分不足スコアＵ_ｄ，ｉｊを算出する。ここで、区分ｉｊとは、カテゴリ（ｉをインデックスとする）の１つと、時期（ｊをインデックスとする）の中の１期間と、の組み合わせである。たとえば、カテゴリが、政治、経済、社会、技術の４種類（ｉ＝４）を含み、時期が、直近（２０１５年〜２０１７年）、近い未来（２０１８年〜２０２０年）、遠い未来（２０２１年〜）の３つの期間（ｊ＝３）を含む場合、１２通りの区分ｉｊが存在する。計算機５は、区分ｉｊごとに、収集データ数と外部データ数とを集計し、集計した区分ｉｊごとに、収集データ数と外部データ数とを用いて、式（２）により、区分ｉｊごとの区分不足スコアＵ_ｄ，ｉｊを算出する。

区分不足スコアＵ_ｄ，ｉｊは、区分ｉｊに含まれる全文書データに対する、外部データの割合である。すなわち、区分不足スコアＵ_ｄ，ｉｊが大きい区分ｉｊについては、収集データに比べて外部データが多く存在しており、追加の文書データ収集が必要となる。区分不足スコアＵ_ｄ，ｉｊは区分ｉｊに所属する全文書データにおける、外部データの割合とみなせる。なお、ｎ_ｃ,ｉｊは区分ｉｊにおける収集データ数であり、ｎ_ｏ,ｉｊは区分ｉｊにおける外部データ数である。

このように、本実施例の計算機５は、話題補完スコアＳ_ｔ，ｋを算出することにより、ユーザ１は、クラスタｋごとに、追加の文書データ収集が必要となるか否かを判断することができる。したがって、ユーザ１は、文書データが不足しているクラスタｋについて文書データの追加収集を行って、不足分を充足することができる。これにより、文書データの抜け漏れを抑制し、動向分析の効率化を図ることができる。

また、本実施例の計算機５は、区分不足スコアＵ_ｄ，ｉｊを算出することにより、ユーザ１は、区分ｉｊごとに、追加の文書データ収集が必要となるか否かを判断することができる。したがって、ユーザ１は、文書データが不足している区分ｉｊについて文書データの追加収集を行って。不足分を充足することができる。これにより、文書データの抜けもれを抑制し、動向分析の効率化を図ることができる。

なお、上述では、計算機５が動向の分析支援を実行する例について説明したが、ユーザ１の端末２が動向の分析支援を実行してもよい。以降、本実施例の分析支援プログラムがインストールされた端末２または計算機５を、分析支援装置と称す。

＜分析支援装置のハードウェア構成例＞
図２は、分析支援装置のハードウェア構成例を示すブロック図である。分析支援装置２００は、プロセッサ２０１と、記憶デバイス２０２と、入力デバイス２０３と、出力デバイス２０４と、通信インターフェース（通信ＩＦ２０５）と、を有する。プロセッサ２０１、記憶デバイス２０２、入力デバイス２０３、出力デバイス２０４、および通信ＩＦ２０５は、バス２０６により接続される。プロセッサ２０１は、分析支援装置２００を制御する。記憶デバイス２０２は、プロセッサ２０１の作業エリアとなる。また、記憶デバイス２０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス２０２としては、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス２０３は、データを入力する。入力デバイス２０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス２０４は、データを出力する。出力デバイス２０４としては、たとえば、ディスプレイ、プリンタがある。通信ＩＦ２０５は、ネットワーク３と接続し、データを送受信する。

＜データベースの記憶内容例＞
つぎに、分析支援装置２００がアクセス可能な各種データベースについて説明する。なお、これらのデータベースは、分析支援装置２００の記憶デバイス２０２に記憶されていてもよい。また、分析支援装置２００と通信可能な外部装置に記憶されており、分析支援装置２００は、通信ＩＦ２０５を介して当該外部装置にアクセス可能としてもよい。なお、以降のデータベースまたはテーブルの説明において、ＡＡフィールドｂｂｂ（ＡＡはフィールド名、ｂｂｂは符号）の値を、ＡＡｂｂｂと表記する場合がある。たとえば、収集データＩＤフィールド３０１の値を、収集データＩＤ３０１と表記する。

図３は、収集データ格納ＤＢ４の記憶内容例を示す説明図である。収集データ格納ＤＢ４は、収集データを格納するデータベースである。収集データ格納ＤＢ４は、収集データＩＤフィールド３０１と、タイトルフィールド３０２と、本文フィールド３０３と、カテゴリフィールド３０４と、時期フィールド３０５と、出典フィールド３０６と、を有する。同一行の各フィールドの値の集合であるエントリが、収集データを構成する。

収集データＩＤフィールド３０１は、収集データＩＤを格納する記憶領域である。収集データＩＤ３０１は、収集データを一意に特定する識別情報である。タイトルフィールド３０２は、収集データのタイトルを格納する記憶領域である。本文フィールド３０３は、収集データの本文を格納する記憶領域である。カテゴリフィールド３０４は、収集データのカテゴリを格納する記憶領域である。時期フィールド３０５は、収集データが関連する業界動向により特定される時期を格納する記憶領域である。出典フィールド３０６は、収集データの出典を格納する記憶領域である。

図４は、外部データ格納ＤＢ６の記憶内容例を示す説明図である。外部データ格納ＤＢ６は、外部データを格納するデータベースである。外部データ格納ＤＢ６は、外部データＩＤフィールド４０１と、タイトルフィールド４０２と、本文フィールド４０３と、出典フィールド４０４と、を有する。同一行の各フィールドの値の集合であるエントリが、外部データを構成する。

外部データＩＤフィールド４０１は、外部データＩＤを格納する記憶領域である。外部データＩＤ４０１は、外部データを一意に特定する識別情報である。タイトルフィールド４０２は、外部データのタイトルを格納する記憶領域である。本文フィールド４０３は、外部データの本文を格納する記憶領域である。出典フィールド４０４は、外部データの出典を格納する記憶領域である。

図５は、クラスタリング結果格納ＤＢ５００の記憶内容例を示す説明図である。クラスタリング結果格納ＤＢ５００は、図１で説明したように、収集データ群と外部データ群を混合した文書データ群を、類似しあう文書データ群ごとにクラスタリングしたクラスタリング結果を格納するデータベースである。

クラスタリング結果格納ＤＢ５００は、クラスタＩＤフィールド５０１と、収集データＩＤリストフィールド５０２と、収集データ数フィールド５０３と、外部データＩＤリストフィールド５０４と、外部データ数フィールド５０５と、クラスタ特徴語リストフィールド５０６と、を有する。同一行の各フィールドの値の集合であるエントリが、クラスタリング結果内のクラスタｋを構成する。

クラスタＩＤフィールド５０１は、クラスタＩＤを格納する記憶領域である。クラスタＩＤ５０１は、クラスタｋを一意に特定する識別情報である。収集データＩＤリストフィールド５０２は、収集データＩＤリストを格納する記憶領域である。収集データＩＤリスト５０２は、クラスタＩＤ５０１のクラスタｋに含まれる収集データ群の各々の収集データの収集データＩＤ３０１の集合である。収集データ数フィールド５０３は、収集データ数を格納する記憶領域である。収集データ数５０３（ｎ_ｃ，ｋ）は、収集データＩＤリスト５０２に含まれる収集データＩＤ３０１の個数となる。

外部データＩＤリストフィールド５０４は、外部データＩＤリストを格納する記憶領域である。外部データＩＤリスト５０４は、クラスタＩＤ５０１のクラスタｋに含まれる外部データ群の各々の外部データの外部データＩＤ４０１の集合である。外部データ数フィールド５０５は、外部データ数を格納する記憶領域である。外部データ数５０５（ｎ_ｏ，ｋ）は、外部データＩＤリスト５０４に含まれる外部データＩＤ４０１の個数となる。

クラスタ特徴語リストフィールド５０６は、クラスタ特徴語リストを格納する記憶領域である。クラスタ特徴語リスト５０６は、クラスタＩＤ５０１のクラスタｋ内の文書データ群に含まれるクラスタ特徴語の集合である。クラスタ特徴語は、そのクラスタｋに含まれる収集データおよび外部データに共通する特徴を表す単語である。具体的には、たとえば、そのクラスタｋに所属する文書データに共通して頻出する単語が格納される。

たとえば、図３において収集データＩＤ３０１が「１」、「３」である収集データの本文３０３には、単語「ＩｏＴ」が含まれている。また、図４において外部データＩＤ４０１が「２」である外部データの本文４０３にも単語「ＩｏＴ」が含まれている。すなわち、収集データＩＤ３０１が「１」、「３」である収集データ、および外部データＩＤ４０１が「２」である外部データは、いずれも「ＩｏＴ」に関する話題を扱っているため、図５においてクラスタＩＤ５０１が「１」である同一のクラスタに所属する。

図６は、補完スコア格納ＤＢの記憶内容例を示す説明図である。補完スコア格納ＤＢ６００は、クラスタｋごとの各種補完スコアを格納するデータベースである。補完スコア格納ＤＢ６００は、クラスタＩＤフィールド６０１と、話題補完スコアフィールド６０２と、区分補完スコアフィールド６０３と、統合補完スコアフィールド６０４と、を有する。同一行の各フィールドの値の集合であるエントリが、クラスタｋの各補完スコアを構成する。

クラスタＩＤフィールド６０１は、クラスタＩＤを格納する記憶領域である。話題補完スコアフィールド６０２は、図１の式（１）で説明したように、クラスタＩＤ６０１のクラスタｋの話題補完スコアＳ_ｔ，ｋを格納する記憶領域である。区分補完スコアフィールド６０３は、クラスタＩＤ６０１のクラスタｋの区分補完スコアＳ_ｄ，ｋを格納する記憶領域である。区分補完スコア６０３（Ｓ_ｄ，ｋ）については後述する。統合補完スコアフィールド６０４は、統合補完スコアを格納する記憶領域である。統合補完スコア６０４についても後述する。

図７は、分類モデル格納ＤＢ７００の記憶内容例を示す説明図である。分類モデル格納ＤＢ７００は、分類モデルを格納するデータベースである。分類モデルは、教師データを用いて構築される。分類モデルは、外部データがどのカテゴリ３０４および時期３０５に属するかを分類するモデルである。このような分類モデルを構築する技術として、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）のような技術がある。

分類モデル格納ＤＢ７００は、モデル種類フィールド７０１と、パラメータフィールド７０２と、を有する。モデル種類フィールド７０１は、適用する分類モデルのモデル種類（たとえば、線形ＳＶＭ）を格納する記憶領域である。パラメータ７０２は、モデル種類７０１の分類モデルを適用した場合に推定されるベクトルである。

図８は、外部データ分類結果格納ＤＢの記憶内容例を示す説明図である。外部データ分類結果格納ＤＢ８００は、分類モデルによる外部データの分類結果を格納するデータベースである。外部データ分類結果格納ＤＢ８００は、外部データＩＤフィールド８０１と、カテゴリ推定結果フィールド８０２と、時期推定結果フィールド８０３と、を有する。同一行の各フィールドの値の集合であるエントリが、外部データ分類結果を構成する。

外部データＩＤフィールド８０１は、外部データＩＤを格納する記憶領域である。カテゴリ推定結果フィールド８０２は、カテゴリ推定結果を格納する記憶領域である。カテゴリ推定結果８０２は、外部データＩＤ８０１の外部データが属するカテゴリの分類モデルによる推定結果である。時期推定結果フィールド８０３は、時期推定結果を格納する記憶領域である。時期推定結果８０３は、外部データＩＤ８０１の外部データが関連する業界動向により特定される時期の分類モデルによる推定結果である。

図９は、区分不足スコア格納ＤＢの記憶内容例を示す説明図である。区分不足スコア格納ＤＢ９００は、区分ｉｊごとの区分不足スコアＵ_ｄ，ｉｊを格納するデータベースである。区分不足スコア格納ＤＢ９００は、区分フィールド９０１と、区分不足スコアフィールド９０２と、を有する。同一行の各フィールドの値の集合であるエントリが、区分ｉｊごとの区分不足スコアＵ_ｄ，ｉｊを構成する。区分フィールド９０１は、区分ｉｊを格納する記憶領域である。区分９０１（ｉｊ）は、図１で説明したように、カテゴリと時期との組み合わせである。区分不足スコアフィールド９０２は、その区分９０１（ｉｊ）の区分不足スコアＵ_ｄ，ｉｊを格納する記憶領域である。

＜分析支援装置２００の機能的構成例＞
図１０は、分析支援装置２００の機能的構成例を示すブロック図である。分析支援装置２００は、取得部１００１と、生成部１００２と、構築部１００３と、特定部１００４と、区分け部１００５と、出力部１００６と、を有する。これらは、具体的には、たとえば、図２に示した記憶デバイス２０２に記憶されたプログラムをプロセッサ２０１に実行させることにより、それらの機能を実現する。

取得部１００１は、収集データ取得部１０１１と、外部データ取得部１０１２と、を有する。収集データ取得部１０１１は、図１に示したように収集データを取得して、収集データ格納ＤＢ４に格納する。また、収集データ取得部１０１１は、分析開始トリガを受け付けると、収集データ格納ＤＢ４から収集データ群を取得する。外部データ取得部１０１２は、図１に示したように外部データを取得して、外部データ格納ＤＢ６に格納する。また、外部データ取得部１０１２は、分析開始トリガを受け付けると、外部データ格納ＤＢ６から外部データ群を取得する。

生成部１００２は、外部データ取得部１０１２によって取得された外部データ群の各々の外部データについて、教師データ１０１０との間で共通する単語に関する特徴量を生成する。教師データ１０１０とは、収集データと同様、本文３０３とカテゴリ３０４と時期３０５とを含む文書データである。たとえば、教師データ１０１０は、収集データ群から選ばれたある収集データでもよく、任意に作成された文書データでもよい。

また、特徴量とは、教師データ１０１０の本文および外部データの本文３０３に対して言語分析を行うことで得られるベクトルである。たとえば、収集データを教師データ１０１０とした場合、生成部１００２は、収集データの本文３０３に対して形態素解析を適用し、出現した名詞および出現回数からなる組を集計する。そして、生成部１００２は、出現した名詞および出現回数の組をベクトル化したデータを特徴量とする。また、生成部１００２は、出現回数にかえてＴＦ−ＩＤＦ値を用いて、特徴量を生成してもよい。

構築部１００３は、教師データ１０１０に含まれるカテゴリおよび時期と、生成部１００２によって生成された特徴量と、を用いて、外部データが属するカテゴリと、外部データの本文の内容により特定される時期と、を求める分類モデルを構築する。具体的には、たとえば、分類モデルは、特徴量を入力として、外部データがどのカテゴリ３０４および時期３０５に属するかを分類するモデルである。このような分類モデルを構築する技術として、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）等の技術が知られている。構築部１００３は、これらの公知の技術を用いて分類モデルを構築する。構築部１００３は、分類モデルを、分類モデル格納ＤＢ７００に格納する。

ここで、分類モデルが線形ＳＶＭである場合を例に挙げて説明する。分類モデルの入力は、生成部１００２によって生成された特徴量であり、分類モデルの出力は、外部データの所属するカテゴリ３０４および時期３０５である。線形ＳＶＭの場合、分類モデルは、下記式（３）で表される。

ｙ＝ａｒｇｍａｘ_ｈ（ｗ_ｈ・ｘ）・・・（３）

ここで、ｘは外部データの特徴量、ｈはカテゴリ３０４または時期３０５に関するインデックス（ｈ＝１，…，Ｈ、Ｈはカテゴリ３０４または時期３０５の総数、すなわち、外部データ群の総数）、ｗ_ｈは分類モデルのパラメータベクトル、ｙはカテゴリ３０４または時期３０５の推定結果である。構築部１００３は、式（３）のｘに外部データの特徴量を与え、ｙに教師データ１０１０のカテゴリまたは時期を与えることにより、外部データごとのパラメータベクトルｗ_ｈを求める。

特定部１００４は、外部データの特徴量を、構築部１００３によって構築された分類モデルに与えることにより、外部データのカテゴリおよび時期を特定する。すなわち、特定部１００４は、外部データごとに、外部データの特徴量を、その外部データに対応するパラメータベクトルを有する分類モデルに与えることにより、その外部データのカテゴリまたは時期を出力する。特定部１００４は、外部データごとに、その外部データのカテゴリをカテゴリ推定結果８０２として、その外部データの時期を時期推定結果８０３として、外部データ分類結果格納ＤＢ８００に格納する。

区分け部１００５は、収集データ群および外部データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けして、区分け結果１０を生成する。具体的には、たとえば、図１に示したように、区分け部１００５は、区分ｉｊごとに、収集データ群および外部データ群を分類する。区分け部１００５の詳細については、図１１で説明する。

出力部１００６は、区分け部１００５による区分け結果１０を出力する。具体的には、たとえば、出力部１００６は、出力デバイス２０４の一例である表示デバイスの表示画面を制御して、区分け結果１０を表示する。たとえば、区分け結果１０は、図１に示したように、区分ｉｊごとに収集データのシンボル画像と外部データのシンボル画像とを含む表示情報である。また、出力部１００６は、区分け結果１０を外部装置に送信してもよい。たとえば、分析支援装置２００が計算機５であれば、ユーザ１の端末２に区分け結果１０を送信してもよく、分析支援装置２００がユーザ１の端末２であれば、計算機５に区分け結果１０を送信してもよい。

図１１は、分割部および図１０に示した区分け部１００５の詳細な機能的構成例を示すブロック図である。分割部１１００も、具体的には、たとえば、図２に示した記憶デバイス２０２に記憶されたプログラムをプロセッサ２０１に実行させることにより、その機能を実現する。

分割部１１００は、収集データ群および外部データ群を、各々のクラスタが話題が類似する文書データ群となるように、複数のクラスタに分割する。話題が類似する文書データ群とは、共通して頻出する単語、すなわち、クラスタ特徴語を含む文書データ群である。より具体的には、たとえば、分割部１１００は、文書データの本文の類似度に基づいて文書データを複数のクラスタにクラスタリングする。分割部１１００は、クラスタリング結果をクラスタリング結果格納ＤＢ５００に格納する。クラスタリングを実現する具体的な手法として、ｋ−ｍｅａｎｓ法やＷａｒｄ法などの手法が知られており、分割部１１００はこれらの公知の手法を用いてクラスタリングする。

区分け部１００５は、区分不足スコア算出部１１５１と、区分補完スコア算出部１１５３と、話題補完スコア算出部１１５２と、総合補完スコア算出部１１５４と、を有する。

区分不足スコア算出部１１５１は、区分ｉｊ内の収集データの数と外部データの数と、に基づいて、区分ｉｊ内で収集データの不足割合を示す区分不足スコアＵ_ｄ，ｉｊを算出して、区分け結果１０として出力する。具体的には、たとえば、区分不足スコア算出部１１５１は、図１に示した式（２）により、区分ｉｊごとに区分不足スコアＵ_ｄ，ｉｊを算出する。

区分補完スコア算出部１１５３は、区分不足スコアＵ_ｄ，ｉｊと、区分ｉｊにおいてクラスタｋに属する外部データの数と、に基づいて、区分補完スコアＳ_ｄ，ｋを算出する。区分補完スコアＳ_ｄ，ｋは、区分不足スコアＵ_ｄ，ｉｊの高さに応じてクラスタｋに属する外部データが区分ｉｊにどの程度含まれているかを示す。区分補完スコア算出部１１５３は、算出した区分補完スコアＳ_ｄ，ｋを補完スコア格納ＤＢ６００に格納する。区分補完スコアＳ_ｄ，ｋは、クラスタｋに対するスコアであり、クラスタｋが区分不足スコアＵ_ｄ，ｉｊの大きい区分にどの程度関連するかを示す。たとえば、クラスタｋにおける区分補完スコアＳ_ｄ，ｋは、下記式（４）で表される。

ここで、ｎ_{ｏ,ｉｊ,ｋ}は区分ｉｊにおいてクラスタｋに所属する外部データ数５０５である。すなわち、区分補完スコアＳ_ｄ,ｋは、区分ｉｊごとに区分不足スコアで重みづけた、クラスタｋに所属する外部データ数５０５の和とみなせる。すなわち、区分補完スコアＳ_ｄ,ｋの大きいクラスタｋは、区分不足スコアＵ_ｄ，ｉｊの大きい区分ｉｊに多くの外部データを含んでいる。したがって、区分補完スコアＳ_ｄ,ｋは、クラスタｋに属する外部データについて追加の情報収集が必要であることを示唆する。

具体的には、たとえば、図６において、クラスタＩＤ５０１が「２」のクラスタｋにおいて、区分補完スコアＳ_ｄ，ｋが他のクラスタｋよりも高いことがわかる。このことは、図１に示したように、区分ｉｊ＝３３や区分ｉｊ＝４３のような収集データが不足した区分ｉｊに、当該クラスタｋに含まれる外部データが多く所属することを意味する。このことは、カテゴリｉ毎に将来の動向推移を分析する上で、当該クラスタｋの外部データを収集する必要があることを示唆する。

話題補完スコア算出部１１５２は、クラスタｋ内における収集データの数および外部データの数に基づいて、クラスタｋで扱われる話題に関して収集データがどの程度収集されたかを示す話題補完スコアＳ_ｔ，ｋを算出する。話題補完スコア算出部１１５２は、算出した話題補完スコアＳ_ｔ，ｋを、補完スコア格納ＤＢ６００に格納する。話題補完スコアＳ_ｔ，ｋは、図１の式（１）により算出される。図５において、クラスタＩＤ５０１が「１」であるクラスタｋの場合、文書データの総数は５＋３＝８であり、外部データの数は３であることから、話題補完スコアＳ_ｔ，ｋは、３／８＝０．３７となる。

総合補完スコア算出部１１５４は、話題補完スコアＳ_ｔ，ｋと、区分補完スコアＳ_ｄ，ｋと、に基づいて、クラスタｋに含まれる外部データ群の補完の必要性を示す総合補完スコアを算出する。総合補完スコア算出部１１５４は、算出した総合補完スコアを補完スコア格納ＤＢ６００に格納する。総合補完スコアは、各クラスタｋについて、クラスタｋに含まれる外部データを補完する必要があるかを表す指標値である。たとえば、総合補完スコア算出部１１５４は、図６で示すように、話題補完スコアＳ_ｔ，ｋおよび区分補完スコアＳ_ｄ，ｋをそれぞれ０〜１の範囲で正規化する。そして、総合補完スコア算出部１１５４は、クラスタｋごとに、正規化後の話題補完スコアＳ_ｔ，ｋおよび区分補完スコアＳ_ｄ，ｋの平均値を算出する。算出した平均値が、当該クラスタｋの総合補完スコアである。なお、ここでは、総合補完スコアを平均値としたが、正規化後の話題補完スコアＳ_ｔ，ｋおよび区分補完スコアＳ_ｄ，ｋのうち高い方の値でもよく、低い方の値でもよい。

＜収集データの入力例＞
図１２は、収集データ入力画面例を示す説明図である。収集データ入力画面１２００は、ユーザ１の操作により、収集データ取得部１０１１が、表示デバイスに表示する画面である。分析支援装置２００は、当該画面に入力されたデータを収集データとして取得し、収集データ格納ＤＢ４に格納する。

収集データ入力画面１２００は、タイトル入力領域１２０１と、本文入力領域１２０２と、カテゴリ入力領域１２０３と、時期入力領域１２０４と、出典入力領域１２０５と、登録実行領域１２０６とを有する。タイトル入力領域１２０１は、ユーザ１から収集データのタイトル３０２の入力を受け付ける。本文入力領域１２０２は、ユーザ１から収集データの本文３０３の入力を受け付ける。カテゴリ入力領域１２０３は、ユーザ１から収集データのカテゴリ３０４の入力を受け付ける。時期入力領域１２０４は、ユーザ１から収集データの時期３０５の入力を受け付ける。出典入力領域１２０５は、ユーザ１から収集データの出典３０６の入力を受け付ける。登録実行領域１２０６は、収集データ登録指示をユーザ１から受け取り、各入力領域１２０１〜１２０５の入力内容を収集データとして収集データ格納ＤＢ４に格納する。たとえば、タイトル入力領域１２０１と、本文入力領域１２０２と、時期入力領域１２０４と、出典入力領域１２０５はテキストボックスであり、カテゴリ入力領域１２０３はプルダウンメニューであり、登録実行領域１２０６はボタンである。

＜収集データの表示例＞
図１３は、収集データ表示画面例を示す図である。収集データ表示画面１３００は、出力部１００６が、表示デバイスを制御して、収集データ格納ＤＢ４およびクラスタリング結果格納ＤＢ５００を参照し、収集データを一覧表示する画面である。たとえば、収集データ表示画面１３００は、区分ｉｊ毎に収集データのタイトル３０２の文字列１３０１〜１３０３を表示する。

また、収集データ表示画面１３００は、収集データの所属するクラスタｋの情報を合わせて表示する。たとえば、収集データ表示画面１３００は、同一のクラスタｋに所属する収集データ１３０２および１３０３を線１３０４で接続して表示する。また、収集データ表示画面１３００は、クラスタ特徴語リスト５０６の文字列１３０５をクラスタｋと対応付けて表示する。収集データ表示画面１３００における文字列１３０１〜１３０３の表示により、ユーザ１は、収集された収集データを区分ｉｊと対応付けて確認することができる。また、線１３０４および文字列１３０５の表示により、ユーザ１は、同一クラスタｋに所属する収集データを一覧することができ、さらにクラスタｋにおいてどのような話題が扱われているかが確認することができる。

＜外部データの表示例＞
図１４は、外部データ表示画面例を示す図である。外部データ表示画面１４００は、出力部１００６が、表示デバイスを制御して、外部データ格納ＤＢ６と、クラスタリング結果格納ＤＢ５００と、補完スコア格納ＤＢ６００とを参照し、収集データを補完する外部データを表示する画面である。

外部データ表示画面１４００は、クラスタｋ毎に、所属する外部データに関するクラスタ情報１４０１，１４０２を一覧表示する。このとき、クラスタ情報１４０１，１４０２は、総合補完スコア、話題補完スコアＳ_ｔ，ｋ、区分補完スコアＳ_ｄ，ｋの値に応じて表示される。たとえば、総合補完スコア１４１１，１４１２は、値の大きい順に左から右へと表示される。また、総合補完スコアの代わりに、話題補完スコアＳ_ｔ，ｋや区分補完スコアＳ_ｄ，ｋの一方の値に応じてクラスタ情報１４０１，１４０２を表示してもよい。

また、クラスタ情報１４０１，１４０２は、外部データのタイトル３０２の文字列１４２１〜１４２３を表示する。さらに、外部データ表示画面１４００は、総合補完スコア１４１１，１４１２（例として星の数）を表示する。さらに、外部データ表示画面１４００は、クラスタ特徴語リスト５０６の文字列１４１３，１４１４を表示する。さらに、外部データ表示画面１４００は、クラスタｋの関連するカテゴリ３０４の文字列１４１５，１４１６を表示する。

たとえば、さらに、外部データ表示画面１４００は、クラスタｋに含まれる外部データのカテゴリ推定結果８０２および収集データのカテゴリ３０４を集計した集計数の多いカテゴリ３０４から順に表示する。さらに、外部データ表示画面１４００は、クラスタｋの関連する時期３０５の文字列１４１７，１４１８を表示する。たとえば、さらに、外部データ表示画面１４００は、クラスタｋに含まれる外部データの時期推定結果８０３および収集データの時期３０５を集計した集計数の多い時期３０５から順に表示する。

外部データ表示画面の表示により、ユーザ１は、外部データをクラスタｋ毎に確認することができ、これにより、類似した話題に関する外部データを一覧して確認することができる。また、ユーザ１は、各クラスタｋで扱われている話題や関連するカテゴリについて、概観することができる。また、総合補完スコアの大きい順にクラスタを表示することで、ユーザ１は、収集データにおいて補完の必要がある外部データから優先的に内容を確認することができる。

たとえば、クラスタ情報１４０１において、特徴語の文字列１４１３の「３Ｄプリンタ」に関するクラスタｋの総合補完スコアが高いことから、補完の必要があることがわかる。これをふまえて、ユーザ１は、当該クラスタｋに含まれる「３Ｄプリンタによる加工技術の発達」などの外部データを新たに収集データに加えることができる。

＜データ収集状況の表示例＞
図１５は、データ収集状況表示画面例を示す説明図である。データ収集状況表示画面１５００は、出力部１００６が表示デバイスを制御して、収集データ格納ＤＢ４および外部データ格納ＤＢ６に格納された文書データを、当該文書データの所属する区分ｉｊと対応付けて表示する画面である。また、データ収集状況表示画面１５００は、各区分ｉｊの表示領域に、区分不足スコア格納ＤＢ９００を参照して、各区分ｉｊにおける区分不足スコアＵ_ｄ，ｉｊを表示する。また、区分不足スコアが大きい区分ｉｊの表示領域を調表示してもよい。このように、データ収集状況表示画面１５００により、ユーザ１は、区分ｉｊ毎に収集データと外部データの分布を確認することができ、収集データが不足した区分ｉｊを特定することができる。

＜区分関連クラスタの表示例＞
図１６は、区分関連クラスタ表示画面例を示す説明図である。区分関連クラスタ表示画面１６００は、出力部１００６が表示デバイスを制御して表示する画面である。区分関連クラスタ表示画面１６００は、区分選択部１６０１と、区分関連クラスタ表示領域１６０２とを有する。区分選択部１６０１は、どの区分ｉｊに関するクラスタｋを表示するかを選択する。たとえば、区分選択部１６０１はプルダウンメニューである。区分関連クラスタ表示領域１６０２は、区分選択部１６０１にて選択された区分ｉｊについて、区分ｉｊに所属する文書データが存在するクラスタｋを表示する。たとえば、区分関連クラスタ表示領域１６０２は、クラスタｋに関する情報を、総合補完スコアの大きい順に上から下へと表示する。区分関連クラスタ表示画面１６００により、ユーザ１は、区分不足スコアＵ_ｄ，ｉｊの高い区分に関連するクラスタを確認することができる。

たとえば、データ収集状況表示画面１５００の表示から、ユーザ１は、区分［カテゴリ：技術，時期：近い未来］の区分不足スコアＵ_ｄ，ｉｊが高く、区分における収集データが不足していることがわかる。次に、区分関連クラスタ表示画面１６００の区分選択部１６０１にて、区分［カテゴリ：技術，時期：近い未来］が選択されると、分析支援装置２００は、収集データ格納ＤＢ４および外部データ分類結果格納ＤＢ８００を参照して、当該選択した区分が一致する文書データ群を特定する。

そして、分析支援装置２００は、クラスタリング結果格納ＤＢ５００を参照して、特定した文書データ群を含むクラスタｋを特定する。そして、分析支援装置２００は、出力部１００６により、特定したクラスタｋに関する情報を、区分関連クラスタ表示画面１６００に表示する。具体的には、たとえば、区分関連クラスタ表示画面１６００は、関連するクラスタｋを総合補完スコアの大きい順に表示する。たとえば、「３Ｄプリンタ」に関するクラスタｋの総合補完スコアが大きい。したがって、ユーザ１は、当該クラスタｋに含まれる外部データを収集データに加えることで、区分［カテゴリ：技術，時期：近い未来］に関するデータを補完することができる。

＜分析支援処理手順例＞
図１７は、分析支援装置２００による分析支援処理手順例を示すフローチャートである。分析支援装置２００は、取得部１００１により、収集データ群および外部データ群を取得する（ステップＳ１７０１）。つぎに、分析支援装置２００は、分割部１１００により、取得した収集データ群および外部データ群をクラスタリングする（ステップＳ１７０２）。つぎに、分析支援装置２００は、話題補完スコア算出部１１５２により、クラスタｋごとに、話題補完スコアＳ_ｔ，ｋを算出する（ステップＳ１７０３）。

つぎに、分析支援装置２００は、外部データ分類処理を実行する（ステップＳ１７０４）。外部データ分類処理（ステップＳ１７０４）は、分類モデルを構築して、外部データごとにカテゴリ推定結果８０２および時期推定結果８０３を求める処理である。外部データ分類処理（ステップＳ１７０４）の詳細については、図１８で後述する。

つぎに、分析支援装置２００は、区分補完スコア算出部１１５３により、各区分ｉｊの文書データ数を集計して、区分補完スコアＳ_ｄ，ｋを算出する（ステップＳ１７０５）。つぎに、分析支援装置２００は、区分補完スコア算出部１１５３により、区分補完スコアを算出する（ステップＳ１７０６）。つぎに、分析支援装置２００は、総合補完スコア算出部１１５４により、総合補完スコアを算出する（ステップＳ１７０７）。そして、分析支援装置２００は、これまでに得た算出結果を用いて、図１３〜図１６に示したような表示画面を出力する（ステップＳ１７０８）。これにより、分析支援装置２００は、分析支援処理を終了する。

図１８は、図１７に示した外部データ分類処理（ステップＳ１７０４）の詳細な処理手順例を示すフローチャートである。分析支援装置２００は、生成部１００２により、教師データ１０１０を読み込み（ステップＳ１８０１）、外部データごとに特徴量を生成する（ステップＳ１８０２）。つぎに、分析支援装置２００は、構築部１００３により、分類モデルを構築し（ステップＳ１８０３）、特定部１００４により、外部データごとに、カテゴリおよび時期を特定し、カテゴリ推定結果８０２および時期推定結果８０３として外部データ分類結果格納ＤＢ８００に格納する（ステップＳ１８０４）。このあと、ステップＳ１７０５に移行する。

このように、本実施例の分析支援装置２００は、収集データ群および外部データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする。これにより、分析支援装置２００は、動向分析において、収集した外部データの中から、ユーザ１が収集した収集データ群を補完する外部データを提示することができる。換言すれば、どの区分ｉｊにどの収集データ、外部データがあるかを提示することができる。その結果、ユーザ１の手作業での収集データを補完することで、動向分析における抜け漏れを抑制することができる。したがって、動向分析の効率化を図ることができる。

また、上記区分けにおいて、区分ｉｊ内の収集データの数と外部データの数から区分不足スコアを算出することにより、区分ｉｊ内で収集データの不足割合をユーザ１に提示することができる。その結果、ユーザ１の手作業での収集データを補完することで、動向分析における抜け漏れを抑制することができる。

また、収集データ群および外部データ群をクラスタリングし、クラスタｋごとに区分補完スコアを算出することにより、区分不足スコアの高さに応じてクラスタｋに属する外部データが区分ｉｊにどの程度含まれているかを提示することができる。すなわち、区分補完スコアの大きいクラスタｋに属する外部データほど、区分不足スコアＵ_ｄ，ｉｊの大きい区分ｉｊに多く含まれる。すなわち、収集データが不足した区分ｉｊには、区分補完スコアの大きいクラスタｋに含まれる外部データが多く所属することを意味する。したがって、カテゴリ毎に将来の動向推移を分析する上で、収集データが不足した区分ｉｊについて、当該クラスタｋの外部データを収集する必要があることを示唆することができる。

また、クラスタｋ内における収集データの数および外部データの数に基づいて話題補完スコアを算出することにより、クラスタｋで扱われる話題に関して収集データがどの程度収集されたかを提示することができる。話題補完スコアＳ_ｔ，ｋは、クラスタｋに所属する全文書データに対する外部データの割合とみなせる。したがって、話題補完スコアＳ_ｔ，ｋが大きいクラスタｋで扱われている話題に関して、収集データに比べて外部データが多く存在することがわかる。このため、話題補完スコアＳ_ｔ，ｋが大きいクラスタｋについて、追加の情報収集が必要であることがわかる。

また、話題補完スコアＳ_ｔ，ｋと、区分補完スコアＳ_ｄ，ｋと、に基づいて、総合補完スコアを算出することにより、クラスタｋにおいて収集データ群の補完の必要性を提示することができる。このように、各種スコアを算出することにより、ユーザ１は、大量の外部データから確認すべき文書データを特定し、確認する文書データの量を減らすことで、効率的な動向分析を実施することができる。

また、クラスタｋに関する情報として、クラスタｋの話題を示す特徴語、クラスタｋに属する外部データのカテゴリ、クラスタｋに属する外部データの時期、および、クラスタｋに属する外部データを特定する情報（たとえば、タイトル）のうち、少なくとも１つを出力することにより、提示されるクラスタｋがどのような文書データ群であるかをユーザ１に提示することができる。

また、クラスタｋに関する情報として、区分ｉｊを構成するカテゴリおよび時期と同一のカテゴリおよび時期を有する外部データが所属するクラスタｋに関する情報を出力することにより、ユーザ１が選択した区分ｉｊに含まれる文書データが所属するクラスタｋがどのような文書データ群であるかをユーザ１に提示することができる。

また、分析支援装置２００は、取得部１００１により、文書データ群（たとえば、収集データ群）を取得し、区分け部１００５により、文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けし、分割部１１００により、文書データ群を、各々のクラスタが話題が類似する文書データ群となるように、複数のクラスタに分割し、出力部１００６により、区分け部１００５による区分け結果を、同一クラスタに属し、かつ、異なる区分に属する文書データどうしを関連付けて出力してもよい。

これにより、図１３に示したように、収集データ群をカテゴリおよび時期の組み合わせに区分けした区分ｉｊと、収集データ群を話題が類似するようにクラスタリングしたクラスタｋと、について、同一クラスタｋに属し、かつ、異なる区分に属する収集データどうしが関連付けられる。したがって、ユーザ１は、区分ｉｊは異なるがクラスタｋが同一である収集データを特定することができる。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

Claims

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、外部装置と通信する通信インタフェースと、を有する分析支援装置であって、
前記記憶デバイスおよび前記外部装置の少なくとも一方は、第１文書データ群、および第２文書データ群を記憶しており、
前記第１文書データ群の各第１文書データは、第１本文と、前記第１文書データが属する第１カテゴリと、前記第１本文の内容により特定される第１時期と、を含み、
前記第２文書データ群の各第２文書データは、第２本文を含み、
前記プロセッサは、
前記記憶デバイスおよび前記外部装置の少なくとも一方から前記第１文書データ群および前記第２文書データ群を取得する取得処理と、
前記取得処理によって取得された前記第２文書データ群の各々の前記第２文書データについて、前記第１本文と前記第１カテゴリと前記第１時期とを含む教師データとの間で共通する単語に関する特徴量を生成する生成処理と、
前記教師データに含まれる前記第１カテゴリおよび前記第１時期と、前記生成処理によって生成された特徴量と、を用いて、前記第２文書データが属する第２カテゴリと、前記第２本文の内容により特定される第２時期と、を求める分類モデルを構築する構築処理と、
前記第２文書データの前記特徴量を、前記構築処理によって構築された分類モデルに与えることにより、前記第２文書データの前記第２カテゴリおよび前記第２時期を特定する特定処理と、
前記第１文書データ群および前記第２文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、
前記区分け処理による区分け結果を出力する出力処理と、
を実行することを特徴とする分析支援装置。
請求項１に記載の分析支援装置であって、
前記出力処理では、前記プロセッサは、前記区分け結果として、前記区分ごとに、前記区分に属する前記第１文書データ群および前記第２文書データ群を示す情報を出力することを特徴とする分析支援装置。
請求項１に記載の分析支援装置であって、
前記区分け処理では、前記プロセッサは、前記区分内の前記第１文書データの数と、前記第２文書データの数と、に基づいて、前記区分内で前記第１文書データの不足割合を示す区分不足スコアを算出し、
前記出力処理では、前記プロセッサは、前記区分け結果として前記区分不足スコアを出力することを特徴とする分析支援装置。
請求項３に記載の分析支援装置であって、
前記プロセッサは、
前記第１文書データ群および前記第２文書データ群を、各々のクラスタが話題が類似する文書データ群となるように、複数のクラスタに分割する分割処理と、
前記区分不足スコアと、前記区分において前記クラスタに属する前記第２文書データの数と、に基づいて、前記区分不足スコアの高さに応じて前記クラスタに属する前記第２文書データが前記区分にどの程度含まれているかを示す区分補完スコアを算出する算出処理と、を実行し、
前記出力処理では、前記プロセッサは、前記算出処理による算出結果を出力することを特徴とする分析支援装置。
請求項４に記載の分析支援装置であって、
前記算出処理では、プロセッサは、前記クラスタ内における前記第１文書データの数および前記第２文書データの数に基づいて、前記クラスタで扱われる前記話題に関して前記第１文書データがどの程度収集されたかを示す話題補完スコアを算出し、
前記出力処理では、前記プロセッサは、前記算出処理による算出結果を出力することを特徴とする分析支援装置。
請求項５に記載の分析支援装置であって、
前記算出処理では、プロセッサは、前記話題補完スコアと、前記区分補完スコアと、に基づいて、前記クラスタに含まれる前記第２文書データ群の補完の必要性を示す総合補完スコアを算出し、
前記出力処理では、前記プロセッサは、前記算出処理による算出結果を出力することを特徴とする分析支援装置。
請求項４に記載の分析支援装置であって、
前記出力処理では、前記プロセッサは、前記クラスタの前記話題を示す特徴語、前記クラスタに属する前記第２文書データの前記第２カテゴリ、前記クラスタに属する前記第２文書データの前記第２時期、および、前記クラスタに属する前記第２文書データを特定する情報のうち、少なくとも１つを出力することを特徴とする分析支援装置。
請求項１に記載の分析支援装置であって、
前記出力処理では、前記プロセッサは、前記区分を構成するカテゴリおよび時期と同一の前記第２カテゴリおよび前記第２時期を有する前記第２文書データが所属するクラスタに関する情報を出力することを特徴とする分析支援装置。
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、外部装置と通信する通信インタフェースと、を有する分析支援装置であって、
前記記憶デバイスまたは前記外部装置は、文書データ群を記憶しており、
前記文書データ群の各文書データは、本文と、前記文書データが属するカテゴリと、前記本文の内容により特定される時期と、を含み、
前記プロセッサは、
前記記憶デバイスまたは前記外部装置から前記文書データ群を取得する取得処理と、
前記取得処理によって取得された前記文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、
前記文書データ群を、各々のクラスタが話題が類似する文書データ群となるように、複数のクラスタに分割する分割処理と、
前記区分け処理による区分け結果を、同一クラスタに属し、かつ、異なる区分に属する文書データどうしを関連付けて出力する出力処理と、
を実行することを特徴とする分析支援装置。
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、外部装置と通信する通信インタフェースと、を有する分析支援装置が実行する分析支援方法であって、
前記記憶デバイスおよび前記外部装置の少なくとも一方は、第１文書データ群、および第２文書データ群を記憶しており、
前記第１文書データ群の各第１文書データは、第１本文と、前記第１文書データが属する第１カテゴリと、前記第１本文の内容により特定される第１時期と、を含み、
前記第２文書データ群の各第２文書データは、第２本文を含み、
前記プロセッサは、
前記記憶デバイスおよび前記外部装置の少なくとも一方から前記第１文書データ群および前記第２文書データ群を取得する取得処理と、
前記取得処理によって取得された前記第２文書データ群の各々の前記第２文書データについて、前記第１本文と前記第１カテゴリと前記第１時期とを含む教師データとの間で共通する単語に関する特徴量を生成する生成処理と、
前記教師データに含まれる前記第１カテゴリおよび前記第１時期と、前記生成処理によって生成された特徴量と、を用いて、前記第２文書データが属する第２カテゴリと、前記第２本文の内容により特定される第２時期と、を求める分類モデルを構築する構築処理と、
前記第２文書データの前記特徴量を、前記構築処理によって構築された分類モデルに与えることにより、前記第２文書データの前記第２カテゴリおよび前記第２時期を特定する特定処理と、
前記第１文書データ群および前記第２文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、
前記区分け処理による区分け結果を出力する出力処理と、
を実行することを特徴とする分析支援方法。
記憶デバイスまたは外部装置にアクセス可能なプロセッサに実行させる分析支援プログラムであって、
前記記憶デバイスおよび前記外部装置の少なくとも一方は、第１文書データ群、および第２文書データ群を記憶しており、
前記第１文書データ群の各第１文書データは、第１本文と、前記第１文書データが属する第１カテゴリと、前記第１本文の内容により特定される第１時期と、を含み、
前記第２文書データ群の各第２文書データは、第２本文を含み、
前記プロセッサに、
前記記憶デバイスおよび前記外部装置の少なくとも一方から前記第１文書データ群および前記第２文書データ群を取得する取得処理と、
前記取得処理によって取得された前記第２文書データ群の各々の前記第２文書データについて、前記第１本文と前記第１カテゴリと前記第１時期とを含む教師データとの間で共通する単語に関する特徴量を生成する生成処理と、
前記教師データに含まれる前記第１カテゴリおよび前記第１時期と、前記生成処理によって生成された特徴量と、を用いて、前記第２文書データが属する第２カテゴリと、前記第２本文の内容により特定される第２時期と、を求める分類モデルを構築する構築処理と、
前記第２文書データの前記特徴量を、前記構築処理によって構築された分類モデルに与えることにより、前記第２文書データの前記第２カテゴリおよび前記第２時期を特定する特定処理と、
前記第１文書データ群および前記第２文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、
前記区分け処理による区分け結果を出力する出力処理と、
を実行させることを特徴とする分析支援プログラム。