JP6496078B2 - 分析支援装置、分析支援方法、および分析支援プログラム - Google Patents
分析支援装置、分析支援方法、および分析支援プログラム Download PDFInfo
- Publication number
- JP6496078B2 JP6496078B2 JP2018502286A JP2018502286A JP6496078B2 JP 6496078 B2 JP6496078 B2 JP 6496078B2 JP 2018502286 A JP2018502286 A JP 2018502286A JP 2018502286 A JP2018502286 A JP 2018502286A JP 6496078 B2 JP6496078 B2 JP 6496078B2
- Authority
- JP
- Japan
- Prior art keywords
- document data
- category
- classification
- cluster
- data group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 100
- 238000000034 method Methods 0.000 title claims description 90
- 230000000295 complement effect Effects 0.000 claims description 70
- 230000008569 process Effects 0.000 claims description 65
- 238000013145 classification model Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000010276 construction Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 9
- 238000000638 solvent extraction Methods 0.000 claims 6
- 230000007812 deficiency Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 32
- 238000013500 data storage Methods 0.000 description 21
- 238000013480 data collection Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000012706 support-vector machine Methods 0.000 description 7
- 239000013589 supplement Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、動向の分析を支援する分析支援装置、分析支援方法、および分析支援プログラムに関する。
ニュース記事や技術文書のような業界動向に関する文書に基づいて、将来の業界動向の推移を分析する技術がある。たとえば、このような技術に基づいて、将来の業界動向の推移を分析すること、および、分析結果をマーケティングの事業企画の立案に活用することは、業界動向の変化に合致した収益性の高い事業を立ち上げることを可能にする。
手作業で文書から将来の業界動向の推移を分析する取り組みがある。たとえば、PESTLE分析とよばれる方法は、官公庁資料やニュース記事などの文書から、政治、経済、社会、技術、法律、および環境のカテゴリ毎に業界に影響を与える外部要因を抽出し、業界動向の推移を分析する。しかし、PESTLE分析のような手作業による分析は、大量の文書を手作業で確認しなければならず、多くの工数がかかる。また、手作業による分析は、着目すべき外部要因の抜け漏れ等、分析者による分析の質のばらつきが発生する。そのため、分析における工数削減及び質の確保を目的として、文書からの業界動向の推移分析を支援する技術が求められる。
特許文献1は、これらの業界動向の推移分析を自動化する技術を開示する。具体的には、特許文献1は、特定分野における技術動向の推移を分析する。特許文献1は、技術文書に記載された技術によって実現される内容を技術表現として抽出する。特許文献1は、抽出した各技術表現を、実現にかかる時間を示す時間軸とビジネスにもたらす影響度を示す影響度軸の2軸を持つ技術マップ上に配置して、表示する。
特許文献1の技術において大量の文書を対象として分析した場合、マップに配置される情報も大量となる。したがって、配置された情報を確認するための工数が増大する。また、配置された情報の確認漏れにより、着目すべき業界動向の変化を見逃す可能性がある。
本発明は、かかる問題を解決するためになされたものであり、動向分析の効率化を図ることを目的とする。
本願において開示される発明の一側面となる分析支援装置、分析支援方法、および分析支援プログラムは、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、外部装置と通信する通信インタフェースと、を有する分析支援装置、当該分析支援装置による分析支援方法、および、前記プロセッサに実行させる分析支援プログラムである。
前記記憶デバイスおよび前記外部装置の少なくとも一方は、第1文書データ群、および第2文書データ群を記憶しており、前記第1文書データ群の各第1文書データは、第1本文と、前記第1文書データが属する第1カテゴリと、前記第1本文の内容により特定される第1時期と、を含み、前記第2文書データ群の各第2文書データは、第2本文を含む。
前記プロセッサは、前記記憶デバイスおよび前記外部装置の少なくとも一方から前記第1文書データ群および前記第2文書データ群を取得する取得処理と、前記取得処理によって取得された前記第2文書データ群の各々の前記第2文書データについて、前記第1本文と前記第1カテゴリと前記第1時期とを含む教師データとの間で共通する単語に関する特徴量を生成する生成処理と、前記教師データに含まれる前記第1カテゴリおよび前記第1時期と、前記生成処理によって生成された特徴量と、を用いて、前記第2文書データが属する第2カテゴリと、前記第2本文の内容により特定される第2時期と、を求める分類モデルを構築する構築処理と、前記第2文書データの前記特徴量を、前記構築処理によって構築された分類モデルに与えることにより、前記第2文書データの前記第2カテゴリおよび前記第2時期を特定する特定処理と、前記第1文書データ群および前記第2文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、前記区分け処理による区分け結果を出力する出力処理と、を実行することを特徴とする。
本発明の代表的な実施の形態によれば、動向分析の効率化を図ることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
<分析支援例>
図1は、分析支援例を示す説明図である。本実施例において用いられるデータには、収集データと、外部データと、がある。収集データとは、ユーザ1が収集した業界動向に関する文書データであり、たとえば、ニュース記事データ、Webページ、電子書籍である。収集データは、本文と、当該収集データが属するカテゴリと、本文の内容(たとえば、本文が関連する動向)により特定される時期と、を含む。ユーザ1は、ユーザ1の端末2を操作して、インターネットなどのネットワーク3から文書データを収集データとして収集する。収集データ群は、収集データ格納DB(Database)4に格納される。
図1は、分析支援例を示す説明図である。本実施例において用いられるデータには、収集データと、外部データと、がある。収集データとは、ユーザ1が収集した業界動向に関する文書データであり、たとえば、ニュース記事データ、Webページ、電子書籍である。収集データは、本文と、当該収集データが属するカテゴリと、本文の内容(たとえば、本文が関連する動向)により特定される時期と、を含む。ユーザ1は、ユーザ1の端末2を操作して、インターネットなどのネットワーク3から文書データを収集データとして収集する。収集データ群は、収集データ格納DB(Database)4に格納される。
外部データとは、計算機5が収集した業界動向に関する文書データであり、たとえば、ニュース記事データ、Webページ、電子書籍である。外部データは、本文を含み、当該外部データが属するカテゴリと、本文の内容により特定される時期と、は未定である。計算機5は、予め定められたURL(Uniform Resource Locator)リストを読み込み、URLリストに記載された文書データを外部データとして収集する。また、計算機5は、URLリストに記載された文書データ群のうち、予め定められたキーワードを含む文書データを外部データとして収集してもよい。外部データ群は、外部データ格納DB6に格納される。なお、外部データであっても、ユーザ1により分析済みとなった文書データについては、ユーザ1の収集データとしてもよい。
計算機5は、収集データ群と外部データ群を混合し、混合した文書データ群を、類似しあう文書データ群ごとにクラスタリングする。そして、計算機5は、式(1)により、クラスタk(kは、1以上の整数)ごとに話題補完スコアSt,kを算出する。話題補完スコアSt,kは、クラスタkに対するスコアであり、クラスタkで扱われている話題に関して収集データがどの程度多く集まっているかを示す値である。なお、nc,kはクラスタkにおける収集データ数であり、no,kはクラスタkにおける外部データ数である。
話題補完スコアSt,kは、クラスタkに所属する全文書データに対する外部データの割合である。したがって、話題補完スコアSt,kが大きいクラスタkで扱われている話題について、クラスタkは、収集データに比べて外部データを多く含む。このため、話題補完スコアSt,kが大きいクラスタkには、追加の文書データ収集が必要となる。
また、計算機5は、区分け結果10を生成する。具体的には、たとえば、計算機5は、区分ijごとに、区分不足スコアUd,ijを算出する。ここで、区分ijとは、カテゴリ(iをインデックスとする)の1つと、時期(jをインデックスとする)の中の1期間と、の組み合わせである。たとえば、カテゴリが、政治、経済、社会、技術の4種類(i=4)を含み、時期が、直近(2015年〜2017年)、近い未来(2018年〜2020年)、遠い未来(2021年〜)の3つの期間(j=3)を含む場合、12通りの区分ijが存在する。計算機5は、区分ijごとに、収集データ数と外部データ数とを集計し、集計した区分ijごとに、収集データ数と外部データ数とを用いて、式(2)により、区分ijごとの区分不足スコアUd,ijを算出する。
区分不足スコアUd,ijは、区分ijに含まれる全文書データに対する、外部データの割合である。すなわち、区分不足スコアUd,ijが大きい区分ijについては、収集データに比べて外部データが多く存在しており、追加の文書データ収集が必要となる。区分不足スコアUd,ijは区分ijに所属する全文書データにおける、外部データの割合とみなせる。なお、nc,ijは区分ijにおける収集データ数であり、no,ijは区分ijにおける外部データ数である。
このように、本実施例の計算機5は、話題補完スコアSt,kを算出することにより、ユーザ1は、クラスタkごとに、追加の文書データ収集が必要となるか否かを判断することができる。したがって、ユーザ1は、文書データが不足しているクラスタkについて文書データの追加収集を行って、不足分を充足することができる。これにより、文書データの抜け漏れを抑制し、動向分析の効率化を図ることができる。
また、本実施例の計算機5は、区分不足スコアUd,ijを算出することにより、ユーザ1は、区分ijごとに、追加の文書データ収集が必要となるか否かを判断することができる。したがって、ユーザ1は、文書データが不足している区分ijについて文書データの追加収集を行って。不足分を充足することができる。これにより、文書データの抜けもれを抑制し、動向分析の効率化を図ることができる。
なお、上述では、計算機5が動向の分析支援を実行する例について説明したが、ユーザ1の端末2が動向の分析支援を実行してもよい。以降、本実施例の分析支援プログラムがインストールされた端末2または計算機5を、分析支援装置と称す。
<分析支援装置のハードウェア構成例>
図2は、分析支援装置のハードウェア構成例を示すブロック図である。分析支援装置200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF205)と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バス206により接続される。プロセッサ201は、分析支援装置200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタがある。通信IF205は、ネットワーク3と接続し、データを送受信する。
図2は、分析支援装置のハードウェア構成例を示すブロック図である。分析支援装置200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF205)と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バス206により接続される。プロセッサ201は、分析支援装置200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタがある。通信IF205は、ネットワーク3と接続し、データを送受信する。
<データベースの記憶内容例>
つぎに、分析支援装置200がアクセス可能な各種データベースについて説明する。なお、これらのデータベースは、分析支援装置200の記憶デバイス202に記憶されていてもよい。また、分析支援装置200と通信可能な外部装置に記憶されており、分析支援装置200は、通信IF205を介して当該外部装置にアクセス可能としてもよい。なお、以降のデータベースまたはテーブルの説明において、AAフィールドbbb(AAはフィールド名、bbbは符号)の値を、AAbbbと表記する場合がある。たとえば、収集データIDフィールド301の値を、収集データID301と表記する。
つぎに、分析支援装置200がアクセス可能な各種データベースについて説明する。なお、これらのデータベースは、分析支援装置200の記憶デバイス202に記憶されていてもよい。また、分析支援装置200と通信可能な外部装置に記憶されており、分析支援装置200は、通信IF205を介して当該外部装置にアクセス可能としてもよい。なお、以降のデータベースまたはテーブルの説明において、AAフィールドbbb(AAはフィールド名、bbbは符号)の値を、AAbbbと表記する場合がある。たとえば、収集データIDフィールド301の値を、収集データID301と表記する。
図3は、収集データ格納DB4の記憶内容例を示す説明図である。収集データ格納DB4は、収集データを格納するデータベースである。収集データ格納DB4は、収集データIDフィールド301と、タイトルフィールド302と、本文フィールド303と、カテゴリフィールド304と、時期フィールド305と、出典フィールド306と、を有する。同一行の各フィールドの値の集合であるエントリが、収集データを構成する。
収集データIDフィールド301は、収集データIDを格納する記憶領域である。収集データID301は、収集データを一意に特定する識別情報である。タイトルフィールド302は、収集データのタイトルを格納する記憶領域である。本文フィールド303は、収集データの本文を格納する記憶領域である。カテゴリフィールド304は、収集データのカテゴリを格納する記憶領域である。時期フィールド305は、収集データが関連する業界動向により特定される時期を格納する記憶領域である。出典フィールド306は、収集データの出典を格納する記憶領域である。
図4は、外部データ格納DB6の記憶内容例を示す説明図である。外部データ格納DB6は、外部データを格納するデータベースである。外部データ格納DB6は、外部データIDフィールド401と、タイトルフィールド402と、本文フィールド403と、出典フィールド404と、を有する。同一行の各フィールドの値の集合であるエントリが、外部データを構成する。
外部データIDフィールド401は、外部データIDを格納する記憶領域である。外部データID401は、外部データを一意に特定する識別情報である。タイトルフィールド402は、外部データのタイトルを格納する記憶領域である。本文フィールド403は、外部データの本文を格納する記憶領域である。出典フィールド404は、外部データの出典を格納する記憶領域である。
図5は、クラスタリング結果格納DB500の記憶内容例を示す説明図である。クラスタリング結果格納DB500は、図1で説明したように、収集データ群と外部データ群を混合した文書データ群を、類似しあう文書データ群ごとにクラスタリングしたクラスタリング結果を格納するデータベースである。
クラスタリング結果格納DB500は、クラスタIDフィールド501と、収集データIDリストフィールド502と、収集データ数フィールド503と、外部データIDリストフィールド504と、外部データ数フィールド505と、クラスタ特徴語リストフィールド506と、を有する。同一行の各フィールドの値の集合であるエントリが、クラスタリング結果内のクラスタkを構成する。
クラスタIDフィールド501は、クラスタIDを格納する記憶領域である。クラスタID501は、クラスタkを一意に特定する識別情報である。収集データIDリストフィールド502は、収集データIDリストを格納する記憶領域である。収集データIDリスト502は、クラスタID501のクラスタkに含まれる収集データ群の各々の収集データの収集データID301の集合である。収集データ数フィールド503は、収集データ数を格納する記憶領域である。収集データ数503(nc,k)は、収集データIDリスト502に含まれる収集データID301の個数となる。
外部データIDリストフィールド504は、外部データIDリストを格納する記憶領域である。外部データIDリスト504は、クラスタID501のクラスタkに含まれる外部データ群の各々の外部データの外部データID401の集合である。外部データ数フィールド505は、外部データ数を格納する記憶領域である。外部データ数505(no,k)は、外部データIDリスト504に含まれる外部データID401の個数となる。
クラスタ特徴語リストフィールド506は、クラスタ特徴語リストを格納する記憶領域である。クラスタ特徴語リスト506は、クラスタID501のクラスタk内の文書データ群に含まれるクラスタ特徴語の集合である。クラスタ特徴語は、そのクラスタkに含まれる収集データおよび外部データに共通する特徴を表す単語である。具体的には、たとえば、そのクラスタkに所属する文書データに共通して頻出する単語が格納される。
たとえば、図3において収集データID301が「1」、「3」である収集データの本文303には、単語「IoT」が含まれている。また、図4において外部データID401が「2」である外部データの本文403にも単語「IoT」が含まれている。すなわち、収集データID301が「1」、「3」である収集データ、および外部データID401が「2」である外部データは、いずれも「IoT」に関する話題を扱っているため、図5においてクラスタID501が「1」である同一のクラスタに所属する。
図6は、補完スコア格納DBの記憶内容例を示す説明図である。補完スコア格納DB600は、クラスタkごとの各種補完スコアを格納するデータベースである。補完スコア格納DB600は、クラスタIDフィールド601と、話題補完スコアフィールド602と、区分補完スコアフィールド603と、統合補完スコアフィールド604と、を有する。同一行の各フィールドの値の集合であるエントリが、クラスタkの各補完スコアを構成する。
クラスタIDフィールド601は、クラスタIDを格納する記憶領域である。話題補完スコアフィールド602は、図1の式(1)で説明したように、クラスタID601のクラスタkの話題補完スコアSt,kを格納する記憶領域である。区分補完スコアフィールド603は、クラスタID601のクラスタkの区分補完スコアSd,kを格納する記憶領域である。区分補完スコア603(Sd,k)については後述する。統合補完スコアフィールド604は、統合補完スコアを格納する記憶領域である。統合補完スコア604についても後述する。
図7は、分類モデル格納DB700の記憶内容例を示す説明図である。分類モデル格納DB700は、分類モデルを格納するデータベースである。分類モデルは、教師データを用いて構築される。分類モデルは、外部データがどのカテゴリ304および時期305に属するかを分類するモデルである。このような分類モデルを構築する技術として、SVM(Support Vector Machine)のような技術がある。
分類モデル格納DB700は、モデル種類フィールド701と、パラメータフィールド702と、を有する。モデル種類フィールド701は、適用する分類モデルのモデル種類(たとえば、線形SVM)を格納する記憶領域である。パラメータ702は、モデル種類701の分類モデルを適用した場合に推定されるベクトルである。
図8は、外部データ分類結果格納DBの記憶内容例を示す説明図である。外部データ分類結果格納DB800は、分類モデルによる外部データの分類結果を格納するデータベースである。外部データ分類結果格納DB800は、外部データIDフィールド801と、カテゴリ推定結果フィールド802と、時期推定結果フィールド803と、を有する。同一行の各フィールドの値の集合であるエントリが、外部データ分類結果を構成する。
外部データIDフィールド801は、外部データIDを格納する記憶領域である。カテゴリ推定結果フィールド802は、カテゴリ推定結果を格納する記憶領域である。カテゴリ推定結果802は、外部データID801の外部データが属するカテゴリの分類モデルによる推定結果である。時期推定結果フィールド803は、時期推定結果を格納する記憶領域である。時期推定結果803は、外部データID801の外部データが関連する業界動向により特定される時期の分類モデルによる推定結果である。
図9は、区分不足スコア格納DBの記憶内容例を示す説明図である。区分不足スコア格納DB900は、区分ijごとの区分不足スコアUd,ijを格納するデータベースである。区分不足スコア格納DB900は、区分フィールド901と、区分不足スコアフィールド902と、を有する。同一行の各フィールドの値の集合であるエントリが、区分ijごとの区分不足スコアUd,ijを構成する。区分フィールド901は、区分ijを格納する記憶領域である。区分901(ij)は、図1で説明したように、カテゴリと時期との組み合わせである。区分不足スコアフィールド902は、その区分901(ij)の区分不足スコアUd,ijを格納する記憶領域である。
<分析支援装置200の機能的構成例>
図10は、分析支援装置200の機能的構成例を示すブロック図である。分析支援装置200は、取得部1001と、生成部1002と、構築部1003と、特定部1004と、区分け部1005と、出力部1006と、を有する。これらは、具体的には、たとえば、図2に示した記憶デバイス202に記憶されたプログラムをプロセッサ201に実行させることにより、それらの機能を実現する。
図10は、分析支援装置200の機能的構成例を示すブロック図である。分析支援装置200は、取得部1001と、生成部1002と、構築部1003と、特定部1004と、区分け部1005と、出力部1006と、を有する。これらは、具体的には、たとえば、図2に示した記憶デバイス202に記憶されたプログラムをプロセッサ201に実行させることにより、それらの機能を実現する。
取得部1001は、収集データ取得部1011と、外部データ取得部1012と、を有する。収集データ取得部1011は、図1に示したように収集データを取得して、収集データ格納DB4に格納する。また、収集データ取得部1011は、分析開始トリガを受け付けると、収集データ格納DB4から収集データ群を取得する。外部データ取得部1012は、図1に示したように外部データを取得して、外部データ格納DB6に格納する。また、外部データ取得部1012は、分析開始トリガを受け付けると、外部データ格納DB6から外部データ群を取得する。
生成部1002は、外部データ取得部1012によって取得された外部データ群の各々の外部データについて、教師データ1010との間で共通する単語に関する特徴量を生成する。教師データ1010とは、収集データと同様、本文303とカテゴリ304と時期305とを含む文書データである。たとえば、教師データ1010は、収集データ群から選ばれたある収集データでもよく、任意に作成された文書データでもよい。
また、特徴量とは、教師データ1010の本文および外部データの本文303に対して言語分析を行うことで得られるベクトルである。たとえば、収集データを教師データ1010とした場合、生成部1002は、収集データの本文303に対して形態素解析を適用し、出現した名詞および出現回数からなる組を集計する。そして、生成部1002は、出現した名詞および出現回数の組をベクトル化したデータを特徴量とする。また、生成部1002は、出現回数にかえてTF−IDF値を用いて、特徴量を生成してもよい。
構築部1003は、教師データ1010に含まれるカテゴリおよび時期と、生成部1002によって生成された特徴量と、を用いて、外部データが属するカテゴリと、外部データの本文の内容により特定される時期と、を求める分類モデルを構築する。具体的には、たとえば、分類モデルは、特徴量を入力として、外部データがどのカテゴリ304および時期305に属するかを分類するモデルである。このような分類モデルを構築する技術として、SVM(Support Vector Machine)等の技術が知られている。構築部1003は、これらの公知の技術を用いて分類モデルを構築する。構築部1003は、分類モデルを、分類モデル格納DB700に格納する。
ここで、分類モデルが線形SVMである場合を例に挙げて説明する。分類モデルの入力は、生成部1002によって生成された特徴量であり、分類モデルの出力は、外部データの所属するカテゴリ304および時期305である。線形SVMの場合、分類モデルは、下記式(3)で表される。
y=argmaxh(wh・x)・・・(3)
ここで、xは外部データの特徴量、hはカテゴリ304または時期305に関するインデックス(h=1,…,H、Hはカテゴリ304または時期305の総数、すなわち、外部データ群の総数)、whは分類モデルのパラメータベクトル、yはカテゴリ304または時期305の推定結果である。構築部1003は、式(3)のxに外部データの特徴量を与え、yに教師データ1010のカテゴリまたは時期を与えることにより、外部データごとのパラメータベクトルwhを求める。
特定部1004は、外部データの特徴量を、構築部1003によって構築された分類モデルに与えることにより、外部データのカテゴリおよび時期を特定する。すなわち、特定部1004は、外部データごとに、外部データの特徴量を、その外部データに対応するパラメータベクトルを有する分類モデルに与えることにより、その外部データのカテゴリまたは時期を出力する。特定部1004は、外部データごとに、その外部データのカテゴリをカテゴリ推定結果802として、その外部データの時期を時期推定結果803として、外部データ分類結果格納DB800に格納する。
区分け部1005は、収集データ群および外部データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けして、区分け結果10を生成する。具体的には、たとえば、図1に示したように、区分け部1005は、区分ijごとに、収集データ群および外部データ群を分類する。区分け部1005の詳細については、図11で説明する。
出力部1006は、区分け部1005による区分け結果10を出力する。具体的には、たとえば、出力部1006は、出力デバイス204の一例である表示デバイスの表示画面を制御して、区分け結果10を表示する。たとえば、区分け結果10は、図1に示したように、区分ijごとに収集データのシンボル画像と外部データのシンボル画像とを含む表示情報である。また、出力部1006は、区分け結果10を外部装置に送信してもよい。たとえば、分析支援装置200が計算機5であれば、ユーザ1の端末2に区分け結果10を送信してもよく、分析支援装置200がユーザ1の端末2であれば、計算機5に区分け結果10を送信してもよい。
図11は、分割部および図10に示した区分け部1005の詳細な機能的構成例を示すブロック図である。分割部1100も、具体的には、たとえば、図2に示した記憶デバイス202に記憶されたプログラムをプロセッサ201に実行させることにより、その機能を実現する。
分割部1100は、収集データ群および外部データ群を、各々のクラスタが話題が類似する文書データ群となるように、複数のクラスタに分割する。話題が類似する文書データ群とは、共通して頻出する単語、すなわち、クラスタ特徴語を含む文書データ群である。より具体的には、たとえば、分割部1100は、文書データの本文の類似度に基づいて文書データを複数のクラスタにクラスタリングする。分割部1100は、クラスタリング結果をクラスタリング結果格納DB500に格納する。クラスタリングを実現する具体的な手法として、k−means法やWard法などの手法が知られており、分割部1100はこれらの公知の手法を用いてクラスタリングする。
区分け部1005は、区分不足スコア算出部1151と、区分補完スコア算出部1153と、話題補完スコア算出部1152と、総合補完スコア算出部1154と、を有する。
区分不足スコア算出部1151は、区分ij内の収集データの数と外部データの数と、に基づいて、区分ij内で収集データの不足割合を示す区分不足スコアUd,ijを算出して、区分け結果10として出力する。具体的には、たとえば、区分不足スコア算出部1151は、図1に示した式(2)により、区分ijごとに区分不足スコアUd,ijを算出する。
区分補完スコア算出部1153は、区分不足スコアUd,ijと、区分ijにおいてクラスタkに属する外部データの数と、に基づいて、区分補完スコアSd,kを算出する。区分補完スコアSd,kは、区分不足スコアUd,ijの高さに応じてクラスタkに属する外部データが区分ijにどの程度含まれているかを示す。区分補完スコア算出部1153は、算出した区分補完スコアSd,kを補完スコア格納DB600に格納する。区分補完スコアSd,kは、クラスタkに対するスコアであり、クラスタkが区分不足スコアUd,ijの大きい区分にどの程度関連するかを示す。たとえば、クラスタkにおける区分補完スコアSd,kは、下記式(4)で表される。
ここで、no,ij,kは区分ijにおいてクラスタkに所属する外部データ数505である。すなわち、区分補完スコアSd,kは、区分ijごとに区分不足スコアで重みづけた、クラスタkに所属する外部データ数505の和とみなせる。すなわち、区分補完スコアSd,kの大きいクラスタkは、区分不足スコアUd,ijの大きい区分ijに多くの外部データを含んでいる。したがって、区分補完スコアSd,kは、クラスタkに属する外部データについて追加の情報収集が必要であることを示唆する。
具体的には、たとえば、図6において、クラスタID501が「2」のクラスタkにおいて、区分補完スコアSd,kが他のクラスタkよりも高いことがわかる。このことは、図1に示したように、区分ij=33や区分ij=43のような収集データが不足した区分ijに、当該クラスタkに含まれる外部データが多く所属することを意味する。このことは、カテゴリi毎に将来の動向推移を分析する上で、当該クラスタkの外部データを収集する必要があることを示唆する。
話題補完スコア算出部1152は、クラスタk内における収集データの数および外部データの数に基づいて、クラスタkで扱われる話題に関して収集データがどの程度収集されたかを示す話題補完スコアSt,kを算出する。話題補完スコア算出部1152は、算出した話題補完スコアSt,kを、補完スコア格納DB600に格納する。話題補完スコアSt,kは、図1の式(1)により算出される。図5において、クラスタID501が「1」であるクラスタkの場合、文書データの総数は5+3=8であり、外部データの数は3であることから、話題補完スコアSt,kは、3/8=0.37となる。
総合補完スコア算出部1154は、話題補完スコアSt,kと、区分補完スコアSd,kと、に基づいて、クラスタkに含まれる外部データ群の補完の必要性を示す総合補完スコアを算出する。総合補完スコア算出部1154は、算出した総合補完スコアを補完スコア格納DB600に格納する。総合補完スコアは、各クラスタkについて、クラスタkに含まれる外部データを補完する必要があるかを表す指標値である。たとえば、総合補完スコア算出部1154は、図6で示すように、話題補完スコアSt,kおよび区分補完スコアSd,kをそれぞれ0〜1の範囲で正規化する。そして、総合補完スコア算出部1154は、クラスタkごとに、正規化後の話題補完スコアSt,kおよび区分補完スコアSd,kの平均値を算出する。算出した平均値が、当該クラスタkの総合補完スコアである。なお、ここでは、総合補完スコアを平均値としたが、正規化後の話題補完スコアSt,kおよび区分補完スコアSd,kのうち高い方の値でもよく、低い方の値でもよい。
<収集データの入力例>
図12は、収集データ入力画面例を示す説明図である。収集データ入力画面1200は、ユーザ1の操作により、収集データ取得部1011が、表示デバイスに表示する画面である。分析支援装置200は、当該画面に入力されたデータを収集データとして取得し、収集データ格納DB4に格納する。
図12は、収集データ入力画面例を示す説明図である。収集データ入力画面1200は、ユーザ1の操作により、収集データ取得部1011が、表示デバイスに表示する画面である。分析支援装置200は、当該画面に入力されたデータを収集データとして取得し、収集データ格納DB4に格納する。
収集データ入力画面1200は、タイトル入力領域1201と、本文入力領域1202と、カテゴリ入力領域1203と、時期入力領域1204と、出典入力領域1205と、登録実行領域1206とを有する。タイトル入力領域1201は、ユーザ1から収集データのタイトル302の入力を受け付ける。本文入力領域1202は、ユーザ1から収集データの本文303の入力を受け付ける。カテゴリ入力領域1203は、ユーザ1から収集データのカテゴリ304の入力を受け付ける。時期入力領域1204は、ユーザ1から収集データの時期305の入力を受け付ける。出典入力領域1205は、ユーザ1から収集データの出典306の入力を受け付ける。登録実行領域1206は、収集データ登録指示をユーザ1から受け取り、各入力領域1201〜1205の入力内容を収集データとして収集データ格納DB4に格納する。たとえば、タイトル入力領域1201と、本文入力領域1202と、時期入力領域1204と、出典入力領域1205はテキストボックスであり、カテゴリ入力領域1203はプルダウンメニューであり、登録実行領域1206はボタンである。
<収集データの表示例>
図13は、収集データ表示画面例を示す図である。収集データ表示画面1300は、出力部1006が、表示デバイスを制御して、収集データ格納DB4およびクラスタリング結果格納DB500を参照し、収集データを一覧表示する画面である。たとえば、収集データ表示画面1300は、区分ij毎に収集データのタイトル302の文字列1301〜1303を表示する。
図13は、収集データ表示画面例を示す図である。収集データ表示画面1300は、出力部1006が、表示デバイスを制御して、収集データ格納DB4およびクラスタリング結果格納DB500を参照し、収集データを一覧表示する画面である。たとえば、収集データ表示画面1300は、区分ij毎に収集データのタイトル302の文字列1301〜1303を表示する。
また、収集データ表示画面1300は、収集データの所属するクラスタkの情報を合わせて表示する。たとえば、収集データ表示画面1300は、同一のクラスタkに所属する収集データ1302および1303を線1304で接続して表示する。また、収集データ表示画面1300は、クラスタ特徴語リスト506の文字列1305をクラスタkと対応付けて表示する。収集データ表示画面1300における文字列1301〜1303の表示により、ユーザ1は、収集された収集データを区分ijと対応付けて確認することができる。また、線1304および文字列1305の表示により、ユーザ1は、同一クラスタkに所属する収集データを一覧することができ、さらにクラスタkにおいてどのような話題が扱われているかが確認することができる。
<外部データの表示例>
図14は、外部データ表示画面例を示す図である。外部データ表示画面1400は、出力部1006が、表示デバイスを制御して、外部データ格納DB6と、クラスタリング結果格納DB500と、補完スコア格納DB600とを参照し、収集データを補完する外部データを表示する画面である。
図14は、外部データ表示画面例を示す図である。外部データ表示画面1400は、出力部1006が、表示デバイスを制御して、外部データ格納DB6と、クラスタリング結果格納DB500と、補完スコア格納DB600とを参照し、収集データを補完する外部データを表示する画面である。
外部データ表示画面1400は、クラスタk毎に、所属する外部データに関するクラスタ情報1401,1402を一覧表示する。このとき、クラスタ情報1401,1402は、総合補完スコア、話題補完スコアSt,k、区分補完スコアSd,kの値に応じて表示される。たとえば、総合補完スコア1411,1412は、値の大きい順に左から右へと表示される。また、総合補完スコアの代わりに、話題補完スコアSt,kや区分補完スコアSd,kの一方の値に応じてクラスタ情報1401,1402を表示してもよい。
また、クラスタ情報1401,1402は、外部データのタイトル302の文字列1421〜1423を表示する。さらに、外部データ表示画面1400は、総合補完スコア1411,1412(例として星の数)を表示する。さらに、外部データ表示画面1400は、クラスタ特徴語リスト506の文字列1413,1414を表示する。さらに、外部データ表示画面1400は、クラスタkの関連するカテゴリ304の文字列1415,1416を表示する。
たとえば、さらに、外部データ表示画面1400は、クラスタkに含まれる外部データのカテゴリ推定結果802および収集データのカテゴリ304を集計した集計数の多いカテゴリ304から順に表示する。さらに、外部データ表示画面1400は、クラスタkの関連する時期305の文字列1417,1418を表示する。たとえば、さらに、外部データ表示画面1400は、クラスタkに含まれる外部データの時期推定結果803および収集データの時期305を集計した集計数の多い時期305から順に表示する。
外部データ表示画面の表示により、ユーザ1は、外部データをクラスタk毎に確認することができ、これにより、類似した話題に関する外部データを一覧して確認することができる。また、ユーザ1は、各クラスタkで扱われている話題や関連するカテゴリについて、概観することができる。また、総合補完スコアの大きい順にクラスタを表示することで、ユーザ1は、収集データにおいて補完の必要がある外部データから優先的に内容を確認することができる。
たとえば、クラスタ情報1401において、特徴語の文字列1413の「3Dプリンタ」に関するクラスタkの総合補完スコアが高いことから、補完の必要があることがわかる。これをふまえて、ユーザ1は、当該クラスタkに含まれる「3Dプリンタによる加工技術の発達」などの外部データを新たに収集データに加えることができる。
<データ収集状況の表示例>
図15は、データ収集状況表示画面例を示す説明図である。データ収集状況表示画面1500は、出力部1006が表示デバイスを制御して、収集データ格納DB4および外部データ格納DB6に格納された文書データを、当該文書データの所属する区分ijと対応付けて表示する画面である。また、データ収集状況表示画面1500は、各区分ijの表示領域に、区分不足スコア格納DB900を参照して、各区分ijにおける区分不足スコアUd,ijを表示する。また、区分不足スコアが大きい区分ijの表示領域を調表示してもよい。このように、データ収集状況表示画面1500により、ユーザ1は、区分ij毎に収集データと外部データの分布を確認することができ、収集データが不足した区分ijを特定することができる。
図15は、データ収集状況表示画面例を示す説明図である。データ収集状況表示画面1500は、出力部1006が表示デバイスを制御して、収集データ格納DB4および外部データ格納DB6に格納された文書データを、当該文書データの所属する区分ijと対応付けて表示する画面である。また、データ収集状況表示画面1500は、各区分ijの表示領域に、区分不足スコア格納DB900を参照して、各区分ijにおける区分不足スコアUd,ijを表示する。また、区分不足スコアが大きい区分ijの表示領域を調表示してもよい。このように、データ収集状況表示画面1500により、ユーザ1は、区分ij毎に収集データと外部データの分布を確認することができ、収集データが不足した区分ijを特定することができる。
<区分関連クラスタの表示例>
図16は、区分関連クラスタ表示画面例を示す説明図である。区分関連クラスタ表示画面1600は、出力部1006が表示デバイスを制御して表示する画面である。区分関連クラスタ表示画面1600は、区分選択部1601と、区分関連クラスタ表示領域1602とを有する。区分選択部1601は、どの区分ijに関するクラスタkを表示するかを選択する。たとえば、区分選択部1601はプルダウンメニューである。区分関連クラスタ表示領域1602は、区分選択部1601にて選択された区分ijについて、区分ijに所属する文書データが存在するクラスタkを表示する。たとえば、区分関連クラスタ表示領域1602は、クラスタkに関する情報を、総合補完スコアの大きい順に上から下へと表示する。区分関連クラスタ表示画面1600により、ユーザ1は、区分不足スコアUd,ijの高い区分に関連するクラスタを確認することができる。
図16は、区分関連クラスタ表示画面例を示す説明図である。区分関連クラスタ表示画面1600は、出力部1006が表示デバイスを制御して表示する画面である。区分関連クラスタ表示画面1600は、区分選択部1601と、区分関連クラスタ表示領域1602とを有する。区分選択部1601は、どの区分ijに関するクラスタkを表示するかを選択する。たとえば、区分選択部1601はプルダウンメニューである。区分関連クラスタ表示領域1602は、区分選択部1601にて選択された区分ijについて、区分ijに所属する文書データが存在するクラスタkを表示する。たとえば、区分関連クラスタ表示領域1602は、クラスタkに関する情報を、総合補完スコアの大きい順に上から下へと表示する。区分関連クラスタ表示画面1600により、ユーザ1は、区分不足スコアUd,ijの高い区分に関連するクラスタを確認することができる。
たとえば、データ収集状況表示画面1500の表示から、ユーザ1は、区分[カテゴリ:技術,時期:近い未来]の区分不足スコアUd,ijが高く、区分における収集データが不足していることがわかる。次に、区分関連クラスタ表示画面1600の区分選択部1601にて、区分[カテゴリ:技術,時期:近い未来]が選択されると、分析支援装置200は、収集データ格納DB4および外部データ分類結果格納DB800を参照して、当該選択した区分が一致する文書データ群を特定する。
そして、分析支援装置200は、クラスタリング結果格納DB500を参照して、特定した文書データ群を含むクラスタkを特定する。そして、分析支援装置200は、出力部1006により、特定したクラスタkに関する情報を、区分関連クラスタ表示画面1600に表示する。具体的には、たとえば、区分関連クラスタ表示画面1600は、関連するクラスタkを総合補完スコアの大きい順に表示する。たとえば、「3Dプリンタ」に関するクラスタkの総合補完スコアが大きい。したがって、ユーザ1は、当該クラスタkに含まれる外部データを収集データに加えることで、区分[カテゴリ:技術,時期:近い未来]に関するデータを補完することができる。
<分析支援処理手順例>
図17は、分析支援装置200による分析支援処理手順例を示すフローチャートである。分析支援装置200は、取得部1001により、収集データ群および外部データ群を取得する(ステップS1701)。つぎに、分析支援装置200は、分割部1100により、取得した収集データ群および外部データ群をクラスタリングする(ステップS1702)。つぎに、分析支援装置200は、話題補完スコア算出部1152により、クラスタkごとに、話題補完スコアSt,kを算出する(ステップS1703)。
図17は、分析支援装置200による分析支援処理手順例を示すフローチャートである。分析支援装置200は、取得部1001により、収集データ群および外部データ群を取得する(ステップS1701)。つぎに、分析支援装置200は、分割部1100により、取得した収集データ群および外部データ群をクラスタリングする(ステップS1702)。つぎに、分析支援装置200は、話題補完スコア算出部1152により、クラスタkごとに、話題補完スコアSt,kを算出する(ステップS1703)。
つぎに、分析支援装置200は、外部データ分類処理を実行する(ステップS1704)。外部データ分類処理(ステップS1704)は、分類モデルを構築して、外部データごとにカテゴリ推定結果802および時期推定結果803を求める処理である。外部データ分類処理(ステップS1704)の詳細については、図18で後述する。
つぎに、分析支援装置200は、区分補完スコア算出部1153により、各区分ijの文書データ数を集計して、区分補完スコアSd,kを算出する(ステップS1705)。つぎに、分析支援装置200は、区分補完スコア算出部1153により、区分補完スコアを算出する(ステップS1706)。つぎに、分析支援装置200は、総合補完スコア算出部1154により、総合補完スコアを算出する(ステップS1707)。そして、分析支援装置200は、これまでに得た算出結果を用いて、図13〜図16に示したような表示画面を出力する(ステップS1708)。これにより、分析支援装置200は、分析支援処理を終了する。
図18は、図17に示した外部データ分類処理(ステップS1704)の詳細な処理手順例を示すフローチャートである。分析支援装置200は、生成部1002により、教師データ1010を読み込み(ステップS1801)、外部データごとに特徴量を生成する(ステップS1802)。つぎに、分析支援装置200は、構築部1003により、分類モデルを構築し(ステップS1803)、特定部1004により、外部データごとに、カテゴリおよび時期を特定し、カテゴリ推定結果802および時期推定結果803として外部データ分類結果格納DB800に格納する(ステップS1804)。このあと、ステップS1705に移行する。
このように、本実施例の分析支援装置200は、収集データ群および外部データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする。これにより、分析支援装置200は、動向分析において、収集した外部データの中から、ユーザ1が収集した収集データ群を補完する外部データを提示することができる。換言すれば、どの区分ijにどの収集データ、外部データがあるかを提示することができる。その結果、ユーザ1の手作業での収集データを補完することで、動向分析における抜け漏れを抑制することができる。したがって、動向分析の効率化を図ることができる。
また、上記区分けにおいて、区分ij内の収集データの数と外部データの数から区分不足スコアを算出することにより、区分ij内で収集データの不足割合をユーザ1に提示することができる。その結果、ユーザ1の手作業での収集データを補完することで、動向分析における抜け漏れを抑制することができる。
また、収集データ群および外部データ群をクラスタリングし、クラスタkごとに区分補完スコアを算出することにより、区分不足スコアの高さに応じてクラスタkに属する外部データが区分ijにどの程度含まれているかを提示することができる。すなわち、区分補完スコアの大きいクラスタkに属する外部データほど、区分不足スコアUd,ijの大きい区分ijに多く含まれる。すなわち、収集データが不足した区分ijには、区分補完スコアの大きいクラスタkに含まれる外部データが多く所属することを意味する。したがって、カテゴリ毎に将来の動向推移を分析する上で、収集データが不足した区分ijについて、当該クラスタkの外部データを収集する必要があることを示唆することができる。
また、クラスタk内における収集データの数および外部データの数に基づいて話題補完スコアを算出することにより、クラスタkで扱われる話題に関して収集データがどの程度収集されたかを提示することができる。話題補完スコアSt,kは、クラスタkに所属する全文書データに対する外部データの割合とみなせる。したがって、話題補完スコアSt,kが大きいクラスタkで扱われている話題に関して、収集データに比べて外部データが多く存在することがわかる。このため、話題補完スコアSt,kが大きいクラスタkについて、追加の情報収集が必要であることがわかる。
また、話題補完スコアSt,kと、区分補完スコアSd,kと、に基づいて、総合補完スコアを算出することにより、クラスタkにおいて収集データ群の補完の必要性を提示することができる。このように、各種スコアを算出することにより、ユーザ1は、大量の外部データから確認すべき文書データを特定し、確認する文書データの量を減らすことで、効率的な動向分析を実施することができる。
また、クラスタkに関する情報として、クラスタkの話題を示す特徴語、クラスタkに属する外部データのカテゴリ、クラスタkに属する外部データの時期、および、クラスタkに属する外部データを特定する情報(たとえば、タイトル)のうち、少なくとも1つを出力することにより、提示されるクラスタkがどのような文書データ群であるかをユーザ1に提示することができる。
また、クラスタkに関する情報として、区分ijを構成するカテゴリおよび時期と同一のカテゴリおよび時期を有する外部データが所属するクラスタkに関する情報を出力することにより、ユーザ1が選択した区分ijに含まれる文書データが所属するクラスタkがどのような文書データ群であるかをユーザ1に提示することができる。
また、分析支援装置200は、取得部1001により、文書データ群(たとえば、収集データ群)を取得し、区分け部1005により、文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けし、分割部1100により、文書データ群を、各々のクラスタが話題が類似する文書データ群となるように、複数のクラスタに分割し、出力部1006により、区分け部1005による区分け結果を、同一クラスタに属し、かつ、異なる区分に属する文書データどうしを関連付けて出力してもよい。
これにより、図13に示したように、収集データ群をカテゴリおよび時期の組み合わせに区分けした区分ijと、収集データ群を話題が類似するようにクラスタリングしたクラスタkと、について、同一クラスタkに属し、かつ、異なる区分に属する収集データどうしが関連付けられる。したがって、ユーザ1は、区分ijは異なるがクラスタkが同一である収集データを特定することができる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
Claims (11)
- プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、外部装置と通信する通信インタフェースと、を有する分析支援装置であって、
前記記憶デバイスおよび前記外部装置の少なくとも一方は、第1文書データ群、および第2文書データ群を記憶しており、
前記第1文書データ群の各第1文書データは、第1本文と、前記第1文書データが属する第1カテゴリと、前記第1本文の内容により特定される第1時期と、を含み、
前記第2文書データ群の各第2文書データは、第2本文を含み、
前記プロセッサは、
前記記憶デバイスおよび前記外部装置の少なくとも一方から前記第1文書データ群および前記第2文書データ群を取得する取得処理と、
前記取得処理によって取得された前記第2文書データ群の各々の前記第2文書データについて、前記第1本文と前記第1カテゴリと前記第1時期とを含む教師データとの間で共通する単語に関する特徴量を生成する生成処理と、
前記教師データに含まれる前記第1カテゴリおよび前記第1時期と、前記生成処理によって生成された特徴量と、を用いて、前記第2文書データが属する第2カテゴリと、前記第2本文の内容により特定される第2時期と、を求める分類モデルを構築する構築処理と、
前記第2文書データの前記特徴量を、前記構築処理によって構築された分類モデルに与えることにより、前記第2文書データの前記第2カテゴリおよび前記第2時期を特定する特定処理と、
前記第1文書データ群および前記第2文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、
前記区分け処理による区分け結果を出力する出力処理と、
を実行することを特徴とする分析支援装置。 - 請求項1に記載の分析支援装置であって、
前記出力処理では、前記プロセッサは、前記区分け結果として、前記区分ごとに、前記区分に属する前記第1文書データ群および前記第2文書データ群を示す情報を出力することを特徴とする分析支援装置。 - 請求項1に記載の分析支援装置であって、
前記区分け処理では、前記プロセッサは、前記区分内の前記第1文書データの数と、前記第2文書データの数と、に基づいて、前記区分内で前記第1文書データの不足割合を示す区分不足スコアを算出し、
前記出力処理では、前記プロセッサは、前記区分け結果として前記区分不足スコアを出力することを特徴とする分析支援装置。 - 請求項3に記載の分析支援装置であって、
前記プロセッサは、
前記第1文書データ群および前記第2文書データ群を、各々のクラスタが話題が類似する文書データ群となるように、複数のクラスタに分割する分割処理と、
前記区分不足スコアと、前記区分において前記クラスタに属する前記第2文書データの数と、に基づいて、前記区分不足スコアの高さに応じて前記クラスタに属する前記第2文書データが前記区分にどの程度含まれているかを示す区分補完スコアを算出する算出処理と、を実行し、
前記出力処理では、前記プロセッサは、前記算出処理による算出結果を出力することを特徴とする分析支援装置。 - 請求項4に記載の分析支援装置であって、
前記算出処理では、プロセッサは、前記クラスタ内における前記第1文書データの数および前記第2文書データの数に基づいて、前記クラスタで扱われる前記話題に関して前記第1文書データがどの程度収集されたかを示す話題補完スコアを算出し、
前記出力処理では、前記プロセッサは、前記算出処理による算出結果を出力することを特徴とする分析支援装置。 - 請求項5に記載の分析支援装置であって、
前記算出処理では、プロセッサは、前記話題補完スコアと、前記区分補完スコアと、に基づいて、前記クラスタに含まれる前記第2文書データ群の補完の必要性を示す総合補完スコアを算出し、
前記出力処理では、前記プロセッサは、前記算出処理による算出結果を出力することを特徴とする分析支援装置。 - 請求項4に記載の分析支援装置であって、
前記出力処理では、前記プロセッサは、前記クラスタの前記話題を示す特徴語、前記クラスタに属する前記第2文書データの前記第2カテゴリ、前記クラスタに属する前記第2文書データの前記第2時期、および、前記クラスタに属する前記第2文書データを特定する情報のうち、少なくとも1つを出力することを特徴とする分析支援装置。 - 請求項1に記載の分析支援装置であって、
前記出力処理では、前記プロセッサは、前記区分を構成するカテゴリおよび時期と同一の前記第2カテゴリおよび前記第2時期を有する前記第2文書データが所属するクラスタに関する情報を出力することを特徴とする分析支援装置。 - プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、外部装置と通信する通信インタフェースと、を有する分析支援装置であって、
前記記憶デバイスまたは前記外部装置は、文書データ群を記憶しており、
前記文書データ群の各文書データは、本文と、前記文書データが属するカテゴリと、前記本文の内容により特定される時期と、を含み、
前記プロセッサは、
前記記憶デバイスまたは前記外部装置から前記文書データ群を取得する取得処理と、
前記取得処理によって取得された前記文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、
前記文書データ群を、各々のクラスタが話題が類似する文書データ群となるように、複数のクラスタに分割する分割処理と、
前記区分け処理による区分け結果を、同一クラスタに属し、かつ、異なる区分に属する文書データどうしを関連付けて出力する出力処理と、
を実行することを特徴とする分析支援装置。 - プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、外部装置と通信する通信インタフェースと、を有する分析支援装置が実行する分析支援方法であって、
前記記憶デバイスおよび前記外部装置の少なくとも一方は、第1文書データ群、および第2文書データ群を記憶しており、
前記第1文書データ群の各第1文書データは、第1本文と、前記第1文書データが属する第1カテゴリと、前記第1本文の内容により特定される第1時期と、を含み、
前記第2文書データ群の各第2文書データは、第2本文を含み、
前記プロセッサは、
前記記憶デバイスおよび前記外部装置の少なくとも一方から前記第1文書データ群および前記第2文書データ群を取得する取得処理と、
前記取得処理によって取得された前記第2文書データ群の各々の前記第2文書データについて、前記第1本文と前記第1カテゴリと前記第1時期とを含む教師データとの間で共通する単語に関する特徴量を生成する生成処理と、
前記教師データに含まれる前記第1カテゴリおよび前記第1時期と、前記生成処理によって生成された特徴量と、を用いて、前記第2文書データが属する第2カテゴリと、前記第2本文の内容により特定される第2時期と、を求める分類モデルを構築する構築処理と、
前記第2文書データの前記特徴量を、前記構築処理によって構築された分類モデルに与えることにより、前記第2文書データの前記第2カテゴリおよび前記第2時期を特定する特定処理と、
前記第1文書データ群および前記第2文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、
前記区分け処理による区分け結果を出力する出力処理と、
を実行することを特徴とする分析支援方法。 - 記憶デバイスまたは外部装置にアクセス可能なプロセッサに実行させる分析支援プログラムであって、
前記記憶デバイスおよび前記外部装置の少なくとも一方は、第1文書データ群、および第2文書データ群を記憶しており、
前記第1文書データ群の各第1文書データは、第1本文と、前記第1文書データが属する第1カテゴリと、前記第1本文の内容により特定される第1時期と、を含み、
前記第2文書データ群の各第2文書データは、第2本文を含み、
前記プロセッサに、
前記記憶デバイスおよび前記外部装置の少なくとも一方から前記第1文書データ群および前記第2文書データ群を取得する取得処理と、
前記取得処理によって取得された前記第2文書データ群の各々の前記第2文書データについて、前記第1本文と前記第1カテゴリと前記第1時期とを含む教師データとの間で共通する単語に関する特徴量を生成する生成処理と、
前記教師データに含まれる前記第1カテゴリおよび前記第1時期と、前記生成処理によって生成された特徴量と、を用いて、前記第2文書データが属する第2カテゴリと、前記第2本文の内容により特定される第2時期と、を求める分類モデルを構築する構築処理と、
前記第2文書データの前記特徴量を、前記構築処理によって構築された分類モデルに与えることにより、前記第2文書データの前記第2カテゴリおよび前記第2時期を特定する特定処理と、
前記第1文書データ群および前記第2文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、
前記区分け処理による区分け結果を出力する出力処理と、
を実行させることを特徴とする分析支援プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2016/069648 WO2018003115A1 (ja) | 2016-07-01 | 2016-07-01 | 分析支援装置、分析支援方法、および分析支援プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018003115A1 JPWO2018003115A1 (ja) | 2018-07-05 |
JP6496078B2 true JP6496078B2 (ja) | 2019-04-03 |
Family
ID=60787428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018502286A Expired - Fee Related JP6496078B2 (ja) | 2016-07-01 | 2016-07-01 | 分析支援装置、分析支援方法、および分析支援プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6496078B2 (ja) |
WO (1) | WO2018003115A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100469B (zh) * | 2020-09-23 | 2021-07-27 | 云宝宝大数据产业发展有限责任公司 | 基于大数据的信息数据存储整合系统及方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004240488A (ja) * | 2003-02-03 | 2004-08-26 | Canon Inc | 文書管理装置 |
JP5293339B2 (ja) * | 2009-03-27 | 2013-09-18 | 富士通株式会社 | 順序決定プログラム、順序決定方法、および情報処理装置 |
JP5346841B2 (ja) * | 2010-02-22 | 2013-11-20 | 株式会社野村総合研究所 | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
JP2011227742A (ja) * | 2010-04-21 | 2011-11-10 | Hitachi Solutions Ltd | 対比表示データ生成装置または対比表示データ生成方法 |
JP6054793B2 (ja) * | 2013-03-28 | 2016-12-27 | 三菱スペース・ソフトウエア株式会社 | 情報検索装置、情報検索プログラム及び情報検索方法 |
-
2016
- 2016-07-01 JP JP2018502286A patent/JP6496078B2/ja not_active Expired - Fee Related
- 2016-07-01 WO PCT/JP2016/069648 patent/WO2018003115A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2018003115A1 (ja) | 2018-01-04 |
JPWO2018003115A1 (ja) | 2018-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111373392B (zh) | 文献分类装置 | |
CN102959578B (zh) | 取证系统、取证方法及取证程序 | |
US10078843B2 (en) | Systems and methods for analyzing consumer sentiment with social perspective insight | |
JP5827208B2 (ja) | 文書管理システムおよび文書管理方法並びに文書管理プログラム | |
US9552415B2 (en) | Category classification processing device and method | |
JP7103496B2 (ja) | 関連スコア算出システム、方法およびプログラム | |
JP2018509664A (ja) | モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体 | |
CN111192176A (zh) | 一种支持教育信息化评估的在线数据采集方法及装置 | |
JP2020129232A (ja) | 機械学習装置、プログラム及び機械学習方法 | |
KR101667199B1 (ko) | 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치 | |
US20230214679A1 (en) | Extracting and classifying entities from digital content items | |
US9594757B2 (en) | Document management system, document management method, and document management program | |
JP6025487B2 (ja) | フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム | |
CN107797979B (zh) | 分析装置和分析方法 | |
CN110874366A (zh) | 数据处理、查询方法和装置 | |
JP2005190284A (ja) | 情報分類装置および情報分類方法 | |
JP6496078B2 (ja) | 分析支援装置、分析支援方法、および分析支援プログラム | |
CN110737749B (zh) | 创业计划评价方法、装置、计算机设备及存储介质 | |
KR101078966B1 (ko) | 문서 분석 시스템 | |
KR20100088892A (ko) | 문서 분류 시스템 | |
Huang et al. | Rough-set-based approach to manufacturing process document retrieval | |
JP2020166443A (ja) | データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム | |
JP6413597B2 (ja) | 分析プログラム、分析方法及び分析装置 | |
JP6403850B1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP7168826B2 (ja) | データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190307 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6496078 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |