JP2010224625A

JP2010224625A - キーワード二次元可視化方法およびキーワード二次元可視化プログラム

Info

Publication number: JP2010224625A
Application number: JP2009068148A
Authority: JP
Inventors: Tomoyasu Okada; 智靖岡田
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2009-03-19
Filing date: 2009-03-19
Publication date: 2010-10-07

Abstract

【課題】キーワードを二次元マップに可視化する際に、トピックが分散している場合であってもキーワード間の関連度を適切に表現することができるキーワード二次元可視化方法を提供する。
【解決手段】文書群１３０の各文書から特徴語を抽出し、重要度を示す重み付け値を算出して特徴語データとする第１ステップと、特徴語データをマージする第２ステップと、特徴語データが上位のものをキーワードとして抽出する第３ステップと、特徴語が出現する文書の数に基づいて特徴語をダミー語として選定する第４ステップと、各文書と各キーワードおよび各ダミー語とによって特徴語データをクロス集計する第５ステップと、クロス集計した結果に主成分分析を施して各キーワードの座標点を算出し、また、特徴語データの平均値から各キーワードの文字サイズを算出する第６ステップと、各キーワードを配置してキーワードマップ２１０を描画する第７ステップとを実行する。
【選択図】図１

Description

本発明は、テキストデータからなる文書群から抽出されたキーワードについて、重要度やキーワード間の関連度を二次元マップに可視化する技術に関し、特に、トピックが分散し、キーワードが複数の文書やトピックに出現しないような場合に、それらの関連を二次元マップに可視化するキーワード二次元可視化方法およびキーワード二次元可視化プログラムに適用して有効な技術に関するものである。

近年、ＩＴ技術の発展により、様々な分野の大量の情報が電子化されて蓄積され、参照可能となっている。ユーザは、コンピュータ等を利用して、例えば、インターネット上の検索エンジンやデータベースを検索する専用プログラム等によりこれらの情報を検索して参照することができる。

ここで、ユーザが大量の情報の中から所望の情報やそれに関連する情報、参照しておくべき情報などに効率良く到達し、これを取得することを可能とするために、例えば、対象のテキスト文書群中の各文書の内容を表すキーワード（特徴語）を抽出してユーザに提示することにより、ユーザによる文書群における重要なテーマやトピックの把握を支援することが行われている。このとき、文書群から抽出されたキーワードを、単に文書群中の出現頻度によるランキングの形式等で提示するだけでなく、例えば、キーワードの重要度やキーワード同士の関連度の高さに応じて二次元マップに可視化して提示することで、トピックの関連や全体像を概観できるようにする技術が提案されている。

例えば、特開２００８−２５０６２３号公報（特許文献１）には、入力された検索語に対して関連度の高いキーワードを関連語として抽出し、検索語及び各関連語の文書データ毎の共起頻度に対して主成分分析を施し、その結果導かれた第１主成分値及び第２主成分値に基づいて所定平面上における各キーワードの座標を算出し、それぞれの座標にキーワードを表記したタグを配置することによって関連度マップを生成する検索システムが開示されている。特許文献１の技術では、関連度マップ上における各タグの配置に、キーワード相互間の関連性（文書データにおける共起頻度が高いほど関連度が高い）を反映することによって、ユーザがタグ間の位置関係や集積度によって、関連語間の類似性や検索語との関連性を視覚的に認識することを可能としている。

また、例えば、特開２００５−１４９３４６号公報（特許文献２）には、文献情報の中から所定の基準に従って複数のキーワードを抽出する手段と、上記キーワードを含む文献の総数及び各キーワードの出現総数に対して主成分分析を施すことにより、二次元平面上における各キーワードの座標を算出する手段と、各キーワードの座標に従い上記二次元平面上に当該キーワードの存在を示すシンボルを配置する手段等を備えた文献情報分析システムが開示されている。特許文献２の技術では、特許文献や学術文献などの膨大な数の電子化された文書情報の中から重要なキーワードを抽出し、各キーワード間の関係を視覚的に表現することで、特許マップや研究マップにおける一覧性の向上の実現を可能としている。

特開２００８−２５０６２３号公報特開２００５−１４９３４６号公報

文書群から特徴的な単語をキーワードとして抽出する際には、文書中の各単語の重要度についての重み付け値であるＴＦ−ＩＤＦ（Term Frequency-Inverse Document Frequency）値を算出し、この値によって文書中の特徴的な単語を抽出するということが一般的に行われている。ここで、ＴＦ（Term Frequency）値は、文書中の単語の出現頻度であり、この値が大きいほどこの単語は当該文書の特徴をよく表しているものと考えられる。

一方、ＴＦの値が大きい単語であっても、多くの文書に頻繁に出現する単語は、特定の文書の特徴を表す単語ではない一般的な単語である場合が多い。ここで、ＩＤＦ（Inverse Document Frequency）値は、対象の単語が出現する文書数の逆数であり、この値が大きいほどこの単語が出現する文書数が少ない。すなわち、この単語は特定の文書の特徴をよく表しているものと考えられる。従って、上記のＴＦとＩＤＦの両者の値（これらの値から得られるＴＦ−ＩＤＦ値）が大きい単語が、当該文書の特徴を真によく表しているもの（キーワード）と考えられる。

ここで、上記のＴＦ−ＩＤＦ値が大きい単語を文書群から抽出して得られた複数のキーワードについて考えてみると、ＴＦ−ＩＤＦ値（特にＩＤＦ値）が大きいということは、各キーワードは特定の文書においてのみ出現する傾向が強いということであり、その結果、複数のキーワードが同一の文書に出現する頻度は低くなる傾向が強い。この傾向は、文書群において各文書のトピックが分散している（トピックが異なる）場合にさらに強くなる。

従って、各キーワードについて、例えば、特許文献１や特許文献２に記載されているような、各文書における各キーワードの出現頻度（キーワード間の共起頻度）に基づいて主成分分析を用いて二次元マップ上にキーワードを配置する際の座標を算出する技術を適用して可視化する場合、各キーワード間の関連度が低くなり、もしくは関連がないものと判断され、キーワード間の関連性を適切に表現することができない場合が生じる。

一方、例えば、文書群がニュース記事のような場合には、同じ報道内容に対して異なる文書（類似文書）が多数存在する、すなわち、文書群において各文書のトピックが極端に集中する場合が多くある。このような場合に文書群からキーワードを抽出すると、抽出されたキーワードのうちのほとんどが同じトピックの文書から抽出されたものとなる。その結果、キーワードの内容に偏りが生じ、少数の文書でのトピックが埋もれるなど、キーワードによるトピックの網羅性が低下してしまう。

そこで本発明の目的は、文書群からキーワードを抽出し、抽出したキーワードの重要度やキーワード間の関連度の高さに応じて二次元マップに可視化する際に、トピックが分散している場合であってもキーワード間の関連度を適切に表現することができるキーワード二次元可視化方法およびキーワード二次元可視化プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。

本発明の代表的な実施の形態によるキーワード二次元可視化方法は、コンピュータシステムによって、テキストデータからなる文書群から複数のキーワードを抽出し、前記各キーワードを、重要度および前記キーワード間の関連度の高さに基づいて二次元マップに描画してクライアント端末に提示するキーワード二次元可視化方法であって、前記コンピュータシステムは、前記文書群の各文書から所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記各文書における前記特徴語の重要度を示す重み付け値を算出して前記各文書の特徴語データとする第１ステップと、前記文書群の前記各文書の前記特徴語データをマージする第２ステップと、前記第２ステップでマージした前記特徴語のうち、マージした前記特徴語データが上位の所定の範囲のものをキーワードとして抽出する第３ステップと、前記第１ステップで抽出した前記各特徴語のうち、前記特徴語が出現する前記文書の数に基づいて所定の数の前記特徴語をダミー語として選定する第４ステップと、前記各文書と、前記第３ステップで抽出した前記各キーワードおよび前記第４ステップで選定した前記各ダミー語とによって、前記各キーワードおよび前記各ダミー語についての前記特徴語データをクロス集計する第５ステップと、前記第５ステップでクロス集計した結果に主成分分析を施し、前記各キーワードの第１主成分値および第２主成分値を算出し、前記第１主成分値および前記第２主成分値を前記二次元マップの表示領域のＸ軸座標およびＹ軸座標の数値範囲でそれぞれ正規化して前記各キーワードの座標点を算出し、また、前記各キーワードの前記各文書における前記特徴語データの平均値を、前記二次元マップの表示可能文字サイズの数値範囲で正規化して前記各キーワードの文字サイズを算出する第６ステップと、前記各キーワードを、前記第６ステップで算出した前記座標点および前記文字サイズに基づいて配置して前記二次元マップを描画する第７ステップとを実行することを特徴とするものである。

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。

本発明の代表的な実施の形態によれば、文書群において各単語について算出した特徴語データに基づいて抽出した複数のキーワードを、相互の関連度を反映して二次元マップに可視化することができる。また、キーワードのトピックが分散してキーワード間の関連度が低くなるような場合であっても、ダミー語を挿入することで間接的に関連度を把握し、適切にキーワード間の関連度を表現することを可能とする。

本発明の一実施の形態におけるキーワードマップ生成部での処理フローの一例の概要を示した図である。本発明の一実施の形態であるキーワード二次元可視化方法を適用した情報管理システムの構成例の概要を示した図である。本発明の一実施の形態における、文書群の各文書を文書グループに分類し、各文書グループのキーワードを抽出する処理の例を説明する図である。本発明の一実施の形態における、各文書の特徴語データを算出する処理の例を説明する図である。本発明の一実施の形態における、各文書の特徴語データから各文書間の特徴語データの類似度を算出する処理の例を説明する図である。本発明の一実施の形態における、対象の文書の特徴語データと他の各文書の特徴語データとの類似度に基づいて、対象の文書についての類似文書を抽出してグループ化する処理の例を説明する図である。本発明の一実施の形態における、各文書グループと各文書グループのキーワードで各キーワードのＴＦ−ＩＤＦ値をクロス集計し、クロス集計表に主成分分析を施して座標計算して、各キーワードを二次元マップに描画する処理、および、ダミー語を選定する処理の例について説明する図である。

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。

本発明の一実施の形態であるキーワード二次元可視化方法を適用した情報管理システムは、各種Ｗｅｂサイトや電子メール、電子文書などのテキスト情報（以下ではこれらを総称して「文書」という場合がある）をサーバ上で一ヶ所に収集して各ユーザから参照可能とし、さらに、各ユーザが蓄積された情報の利用・参照といった消費行動を効率的・効果的に行える仕組みを提供し、情報を生産的に活用することができるよう支援するシステムである。

本実施の形態では、サーバに蓄積された文書群から、各文書の内容を表すキーワードを抽出し、各キーワードの重要度や関連度に応じて二次元マップに可視化することで、ユーザが文書群におけるトピックの関連や全体像を概観できるようにする。

文書群については種々のものを対象とすることができる。例えば、インターネット上のニュースサイトから収集した記事を対象とすれば報道記事のトピックの全体像を概観することができる。さらに、収集した文書の各ユーザによる参照履歴を利用して、最近ユーザによって実際に参照された文書を対象とすれば、対象のユーザグループ内での注目トピックを把握することができる。また、特許文献や学術文献を対象とすれば、特許マップや研究マップとして利用することもできる。

［システム構成］
図２は、本発明の一実施の形態であるキーワード二次元可視化方法を適用した情報管理システムの構成例の概要を示した図である。情報管理システムは、コンピュータシステムによる情報管理サーバ１００から構成され、さらに、文書群１３０を保持するデータベースを有している。文書群１３０を保持するデータベースは、情報管理サーバ１００上に実装されてもよいし、別のデータベースサーバ等の機器上に実装されてもよい。この文書群１３０は、情報管理サーバ１００の文書管理部１１０によって、収集やデータベースへの蓄積、データベースからの取得などの管理が行われる。

情報管理サーバ１００は、インターネット等のネットワーク３００経由により、ＰＣ等のクライアント端末２００によってユーザから文書群１３０の文書を参照したい旨の要求を受けると、図示しないＷｅｂサーバプログラム等を介して、文書群１３０から文書管理部１１０を介して取得した対象の文書をクライアント端末２００に提示する。また、同様に、クライアント端末２００によるユーザからの要求等により、キーワードマップ生成部１２０によって、文書群１３０から特徴語を抽出してキーワードとし、さらに、各キーワードの重要度や関連度に応じて二次元マップに描画して、クライアント端末２００にキーワードマップ２１０として提示する。

なお、文書管理部１１０およびキーワードマップ生成部１２０は、情報管理サーバ１００上で稼働するソフトウェアプログラムとして実装され、例えば、図示しないＷｅｂサーバプログラム上で稼働するアプリケーションとして実装することができる。また、キーワードマップ生成部１２０は、詳細は後述するが、例えば、特徴語データ算出部１２１、類似度算出部１２２、ダミー語選定部１２３、主成分分析部１２４、マップ描画部１２５を有し、キーワードマップ生成部１２０における上述したような機能を実現する。

［処理フロー］
図１は、キーワードマップ生成部１２０での処理フローの一例の概要を示した図である。情報管理サーバ１００が、クライアント端末２００によるユーザからのキーワードマップ２１０の生成要求や、文書群１３０の文書に対する参照要求を受けた際などに、キーワードマップ生成部１２０はキーワードマップ生成処理を開始する。

まず、特徴語データ算出部１２１により、文書管理部１１０を介して取得した文書群１３０の各文書のテキストデータから特徴語データを算出する。さらに、類似度算出部１２２により、各特徴語データの類似度を算出して文書群１３０の各文書を文書グループに分類し、各文書グループのキーワードを抽出する（ステップＳ１０１）。

次に、ダミー語選定部１２３により、ステップＳ１０１で算出した文書群１３０の各文書の特徴語から所定の数のダミー語を選定する（ステップＳ１０２）。次に、主成分分析部１２４により、ステップＳ１０１で分類した各文書グループと、ステップＳ１０１で抽出した文書グループ毎のキーワードおよびステップＳ１０２で選定したダミー語で、各キーワード（およびダミー語）の特徴語データ（ＴＦ−ＩＤＦ値の各文書グループでの平均値）をクロス集計する（ステップＳ１０３）。

次に、主成分分析部１２４により、ステップＳ１０３で得たクロス集計表に対して、主成分分析を施し、各キーワードについて得られた第１主成分値、第２主成分値に基づいて二次元マップにおけるＸ軸、Ｙ軸の座標点を計算し（ステップＳ１０４）、得られた座標点に基づいて各キーワードを二次元マップ上に配置してキーワードマップ２１０を描画する（ステップＳ１０５）。その後、描画したキーワードマップ２１０をＷｅｂサーバプログラム等を介してクライアント端末２００に提示して、キーワードマップ生成処理を終了する。以下、上述した各ステップの具体的な処理内容について説明する。

［文書グループへの分類とキーワード抽出］
図３は、図１における、文書群１３０の各文書を文書グループに分類し、各文書グループのキーワードを抽出する処理（ステップＳ１０１）の例を説明する図である。まず、特徴語データ算出部１２１により、文書管理部１１０を介して取得した文書群１３０の各文書のテキストデータから１つ以上の単語を特徴語として抽出して、各特徴語についてＴＦ−ＩＤＦ値を算出して特徴語データとする（ステップＳ２０１）。次に、類似度算出部１２２により、ステップＳ１０１で算出した各特徴語データから、ベクトル空間法等によって特徴語データ間の類似度を算出し、算出した類似度に基づいて文書群１３０の各文書を文書グループに分類する（ステップＳ２０２）。

次に、キーワードマップ生成部１２０により、ステップＳ２０２で分類した各文書グループに含まれる各文書の特徴語データについて、特徴語データ（ＴＦ−ＩＤＦ値）の平均値を算出してマージする（ステップＳ２０３）。次に、キーワードマップ生成部１２０により、ステップＳ２０３で算出した各文書グループの特徴語データ（ＴＦ−ＩＤＦ値の平均値）が上位の所定の数の特徴語をキーワードとして抽出する（ステップＳ２０４）。

このように、文書群１３０の各文書を文書グループ（トピック）に分類し、トピック毎にキーワードを抽出することにより、例えば、文書群１３０がニュース記事のように、同じ報道内容（トピック）に対して異なる文書（類似文書）が多数存在するような場合であっても、他のトピックの文書からも一定数のキーワードが抽出されるようにすることができ、キーワードの内容に偏りが生じることを避けることが可能となる。なお、文書群１３０の各文書のトピックに元々偏りがなく分散しているような場合には、上記のステップＳ２０２については不要であり、各文書の特徴語データについてステップＳ２０３にて全てマージして、ステップＳ２０３にてキーワードを抽出すればよい。

［特徴語データ算出］
図４は、図３における、各文書の特徴語データを算出する処理（ステップＳ２０１）の例を説明する図である。特徴語データ算出部１２１は、まず、対象の文書のテキストデータから、形態素解析により複合名詞を抽出する。形態素解析は自然言語処理において一般的に行われており、また、形態素解析エンジンやソフトウェアも種々のものが提供されているため、これらを利用してもよい。

次に、抽出した各複合名詞について、文書における単語の重要度についての重み付け値であるＴＦ−ＩＤＦ値を算出する。ＴＦ−ＩＤＦ値によって文書中の特徴的な単語（重要とみなされる単語）を抽出することは一般的に行われている。本実施の形態のキーワード二次元可視化方法でもこの手法を用いて特徴語データを算出するが、特徴語データの算出手法はこれに限るものではなく、単語毎に数値（重み付け値）として評価が可能な手法であれば利用することができる。

ここで、上述したように、ＴＦ（Term Frequency）は、文書中の単語（複合名詞）の出現頻度であり、この値が大きいほどこの単語はこの文書の特徴をよく表しているものと考えられる。ある文書Ｄにおけるある単語ｔのＴＦ値は、例えば、文書Ｄ中の単語ｔの出現頻度をｆとすると、文書Ｄにおける単語の種類数ｍおよび対数で正規化して以下の式で表される。

一方、ＴＦの値が大きい単語であっても、多くの文書に頻繁に出現する単語は、特定の文書の特徴を表す単語ではない一般的な単語である場合が多い。ここで、ＩＤＦ（Inverse Document Frequency）は、対象の単語が出現する文書数の逆数であり、この値が大きいほどこの単語が出現する文書数が少ない。すなわち、この単語は特定の文書の特徴をよく表しているものと考えられる。ある単語ｔのＩＤＦ値は、例えば、全文書の中で単語ｔが出現する文書数をＤｆとすると、全文書数Ｎで正規化して以下の式で表される。

上記のＴＦとＩＤＦの両者の値が大きい単語ｔが、文書Ｄの特徴を真によく表していると考えられるため、単語ｔのＴＦ−ＩＤＦ値は、例えば、ＴＦとＩＤＦの積を整数化した以下の式で表される。

このＴＦ−ＩＤＦ値を文書群１３０の各文書について特徴語（複合名詞）毎に算出する。対象の文書が異なれば、文書に含まれる特徴語も異なり、また、同じ特徴語であってもその文書中での出現頻度が異なるため、各特徴語のＴＦ−ＩＤＦ値は文書毎にそれぞれ異なる値となる。なお、上記のＴＦ値、ＩＤＦ値の算出式については種々のものが提案されており、上記の算出式に限らず精度や処理時間などに応じて適当なものを用いることができる。

［類似度の算出と文書グループへの分類］
以下では、図３のステップＳ２０２における、各文書の特徴語データから類似度を算出する手法、および算出した類似度に基づいて各文書を文書グループに分類する手法について説明する。

図５は、各文書の特徴語データから各文書間の特徴語データの類似度を算出する処理の例を説明する図である。類似度の算出に際しては、例えば、図３のステップＳ２０１で算出した各文書の特徴語データ（ＴＦ−ＩＤＦ値）をそれぞれベクトル空間化する。さらに、対象の文書についてのベクトルと、他の文書についてのベクトルとの内積を用いることによって類似度を算出するベクトル空間法を利用する。

文書群１３０の全ての文書の特徴語データに含まれる特徴語を全てマージした数がｎ個であった場合、対象の文書の特徴語データｄ_ｔのベクトルＶ（ｄ_ｔ）および、他の各文書の特徴語データｄ_１、ｄ_２、…のベクトルＶ（ｄ_１）、Ｖ（ｄ_２）、…は、それぞれ、ｎ個の特徴語のＴＦ−ＩＤＦ値を要素とするｎ次元のベクトルとして表される。このとき、対象の特徴語を含まない特徴語データについては、当該特徴語に対応するベクトルの要素の値は０とする。

ここで、ベクトルの方向は当該文書の特徴を表していると考えられる。従って、対象の文書の特徴語データと他の各文書の特徴語データとの類似度は、ベクトルＶ（ｄ_ｔ）とベクトルＶ（ｄ_１）、Ｖ（ｄ_２）、…とのなす角の小ささで表すことができる。すなわち、二つのベクトルのなす角をθとした場合に、ｃｏｓθが１に近いほど類似度が高いと言うことができる。ｃｏｓθは二つのベクトルの内積を各ベクトルの絶対値で除算することにより求められる。従って、例えば、特徴語データｄ_ａ、ｄ_ｂの類似度ｓｉｍ（ｄ_ａ，ｄ_ｂ）は、二つのベクトルＶ（ｄ_ａ）、Ｖ（ｄ_ｂ）により以下の式で表される。

数４式を用いて、対象の文書の特徴語データと他の各文書の特徴語データとの類似度をそれぞれ算出する。すなわち、ｓｉｍ（ｄ_ｔ，ｄ_１）、ｓｉｍ（ｄ_ｔ，ｄ_２）、…をそれぞれ算出する。なお、本実施の形態では、対象の文書と他の各文書との類似度をベクトル空間法を用いて算出しているが、これに限らず他の算出方法によって類似度を算出してもよい。

図６は、対象の文書の特徴語データと他の各文書の特徴語データとの類似度に基づいて、対象の文書についての類似文書を抽出してグループ化する処理の例を説明する図である。

まず、キーワードマップ生成部１２０により、図５に示した処理によって算出した類似度が上位の他の文書のうち、類似度が所定の閾値よりも高いもののみを抽出する。次に、抽出した各文書について、対象の文書との発行日時の差が所定の時間間隔以上であるか否かを判定し、所定の時間間隔より小さい文書を類似文書１３１として分類し、所定の時間間隔以上である文書を関連文書１３２として分類する。一般的に（特に文書がニュース記事のような場合）、文書の内容が類似しており、かつ発行日時が近い文書は、実質的に同じ内容（トピック）である可能性が高いと考えられる。従って、これらの文書については類似文書１３１として分類しグループ化する。

上記の図５、図６に示した処理を全ての文書群１３０の各文書に対して行うことで、各文書を類似文書１３１からなる文書グループにグループ化することができる。なお、上記の所定の閾値や時間間隔は、例えば、情報管理サーバ１００においてデータベースや定義ファイルなどの適当な手段により保持し、状況に応じて適宜設定を変更できるようにするのが望ましい。本実施の形態では、図６に示すように所定の閾値を０．２としている。図５に示したベクトル空間法を用いた類似度の算出方法による場合、所定の閾値を０．２とすることで実用上支障のない精度で類似文書１３１が抽出できることを実験的に確認している。

［主成分分析による二次元マップ描画とダミー語選定］
図７は、図１のステップＳ１０３〜Ｓ１０５における、各文書グループと各文書グループのキーワードで各キーワードのＴＦ−ＩＤＦ値をクロス集計し、クロス集計表に主成分分析を施して座標計算して、各キーワードを二次元マップに描画する処理、および、ステップＳ１０２のダミー語を選定する処理の例について説明する図である。

図１のステップＳ１０３では、図７に示すように、各文書グループ（トピック）と、各トピックのキーワードとで、各キーワードの特徴語データ（ＴＦーＩＤＦ値の各トピックでの平均値）をクロス集計する。このクロス集計表（各トピック毎の各キーワードのＴＦ−ＩＤＦ値の平均値を変量とする多変量データ）に対して、特許文献１や特許文献２に記載されているように、主成分分析を施すことで、各キーワードの各トピックにおける共起頻度（同一トピックに出現する頻度）、すなわち各キーワード間の関連度を反映した主成分値を得ることができる。

ここで、各トピックにおける各キーワードは、ＴＦ−ＩＤＦ値が大きい、すなわち、特定のトピックの特徴を真に表しており、当該特定のトピックにおいてのみ出現する傾向が強く、他の複数のトピック上に出現しにくいという特徴を有する。従って、このまま主成分分析を施した場合に、各キーワード間の関連度が低くなり、もしくは関連がないものと判断され、キーワード間の関連性を適切に表現することができない場合が生じる。

そこで、本実施の形態では、図１のステップＳ１０２において、ダミー語選定部１２３によって、上記のクロス集計表にダミー語を選定して挿入することでクロス集計表を補完する。ここで、ダミー語として複数のトピック上に多く出現する特徴語を用いることにより、直接の関連度が低いキーワード間であってもダミー語を介して間接的に関連度を把握することが可能となる。

このようなダミー語としては、例えば、図１のステップＳ１０１で算出した、文書群１３０の各文書の全ての特徴語について、文書群１３０での出現頻度が高いもの、すなわち、文書群１３０での出現数もしくはＴＦ値の合計（もしくは平均値）が高い特徴語のうち上位の所定の数のものを選定するようにしてもよい。また、さらに、多数の文書に出現するもの、すなわち、ＩＤＦ値が小さい特徴語から選定するようにしてもよい。なお、選定したダミー語が各キーワードと重複する場合は、当該特徴語はダミー語とはしないものとする。

このように選定したダミー語によって補完したクロス集計表に対して、主成分分析部１２４により、主成分分析を施す。主成分分析により各キーワードおよびダミー語について得られた第１主成分値と第２主成分値に基づいて、特許文献１や特許文献２に記載されているように、二次元マップ上に各キーワードを配置する際の座標点を算出する。例えば、第１主成分値および第２主成分値を、二次元マップの表示領域におけるＸ軸およびＹ軸の座標の数値範囲でそれぞれ正規化することにより、Ｘ軸、Ｙ軸の座標点を算出する。なお、ダミー語については座標点の算出は不要である（二次元マップ上は非表示となる）。

さらに、各キーワードのＴＦ−ＩＤＦ値の各トピックでの合計値に基づいて、二次元マップ上に各キーワードを配置する際の文字サイズ（図形サイズ）を算出する。例えば、各キーワードのＴＦ−ＩＤＦ値の各トピックでの合計値を、二次元マップにおいて表示可能な文字サイズの数値範囲でそれぞれ正規化することにより文字サイズを算出する。なお、例えば、文字サイズではなく文字色を変化させる（例えば、ＴＦ−ＩＤＦ値の合計値が小さいほど青に近く、大きいほど赤に近くなる等）ようにして、配置された各キーワードの占有面積が大きくならないようにしてもよい。

上記の手順により得られた各キーワードについてのＸ軸座標、Ｙ軸座標、および文字サイズに基づいて、二次元マップ上に各キーワードを配置して描画し、キーワードマップ２１０を生成する。キーワードマップ２１０においては、関連度の高いキーワード同士は近距離に配置され、また、重要度の高い（ＴＦ−ＩＤＦ値が大きい）キーワードは文字サイズが大きく表示される。

以上に説明したように、本実施の形態のキーワード二次元可視化方法では、文書群１３０において各単語について算出したＴＦ−ＩＤＦ値に基づいて抽出した複数のキーワードを、主成分分析によって算出した座標値により、相互の関連度を反映して二次元マップに可視化することができる。このとき、文書群１３０を類似度が高い文書グループ（トピック）に分類してトピック毎のキーワードを抽出することで、キーワードのトピックの偏りを少なくすることを可能とする。また、キーワードのトピックが分散してキーワード間の関連度が低くなるような場合であっても、ダミー語を挿入することで間接的に関連度を把握し、適切にキーワード間の関連度を表現することを可能とする。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

本発明は、テキストデータからなる文書群から抽出されたキーワードについて、重要度やキーワード間の関連度を二次元マップに可視化するキーワード二次元可視化方法およびキーワード二次元可視化プログラムに利用可能である。

１００…情報管理サーバ、１１０…文書管理部、１２０…キーワードマップ生成部、１２１…特徴語データ算出部、１２２…類似度算出部、１２３…ダミー語選定部、１２４…主成分分析部、１２５…マップ描画部、１３０…文書群、１３１…類似文書、１３２…関連文書、２００…クライアント端末、２１０…キーワードマップ、３００…ネットワーク。

Claims

コンピュータシステムによって、テキストデータからなる文書群から複数のキーワードを抽出し、前記各キーワードを、重要度および前記キーワード間の関連度の高さに基づいて二次元マップに描画してクライアント端末に提示するキーワード二次元可視化方法であって、
前記コンピュータシステムは、
前記文書群の各文書から所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記各文書における前記特徴語の重要度を示す重み付け値を算出して前記各文書の特徴語データとする第１ステップと、
前記文書群の前記各文書の前記特徴語データをマージする第２ステップと、
前記第２ステップでマージした前記特徴語のうち、マージした前記特徴語データが上位の所定の範囲のものをキーワードとして抽出する第３ステップと、
前記第１ステップで抽出した前記各特徴語のうち、前記特徴語が出現する前記文書の数に基づいて所定の数の前記特徴語をダミー語として選定する第４ステップと、
前記各文書と、前記第３ステップで抽出した前記各キーワードおよび前記第４ステップで選定した前記各ダミー語とによって、前記各キーワードおよび前記各ダミー語についての前記特徴語データをクロス集計する第５ステップと、
前記第５ステップでクロス集計した結果に主成分分析を施し、前記各キーワードの第１主成分値および第２主成分値を算出し、前記第１主成分値および前記第２主成分値を前記二次元マップの表示領域のＸ軸座標およびＹ軸座標の数値範囲でそれぞれ正規化して前記各キーワードの座標点を算出する第６ステップと、
前記各キーワードを、前記第６ステップで算出した前記座標点に基づいて配置して前記二次元マップを描画する第７ステップとを実行することを特徴とするキーワード二次元可視化方法。
請求項１に記載のキーワード二次元可視化方法において、
前記第４ステップでは、前記第１ステップで抽出した前記各特徴語のうち、前記特徴語の前記文書群における出現頻度が高いものから所定の範囲のものをダミー語として選定することを特徴とするキーワード二次元可視化方法。
請求項１または２に記載のキーワード二次元可視化方法において、
前記第６ステップでは、さらに、前記各キーワードについての前記各文書における前記特徴語データの平均値を前記二次元マップの表示可能文字サイズの数値範囲で正規化して前記各キーワードの文字サイズを算出し、
前記第７ステップでは、前記各キーワードを、前記第６ステップで算出した前記座標点および前記文字サイズに基づいて配置して前記二次元マップを描画することを特徴とするキーワード二次元可視化方法。
コンピュータシステムによって、テキストデータからなる文書群から複数のキーワードを抽出し、前記各キーワードを、重要度および前記キーワード間の関連度の高さに基づいて二次元マップに描画してクライアント端末に提示するキーワード二次元可視化方法であって、
前記コンピュータシステムは、
前記文書群の各文書から所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記各文書における前記特徴語の重要度を示す重み付け値を算出して前記各文書の特徴語データとする第１ステップと、
前記文書毎に、対象の前記文書についての前記第１ステップで算出した前記特徴語データと、他の前記文書についての前記第１ステップで算出した前記特徴語データとの類似度を算出し、算出した前記類似度が所定の閾値より高くかつ対象の前記文書との発行日時の差が所定の時間間隔より小さい他の前記文書を、対象の前記文書と同一の文書グループに分類する第２ステップと、
前記第２ステップで分類した前記文書グループ毎に、前記文書グループに含まれる前記各文書の前記特徴語データをマージする第３ステップと、
前記第３ステップでマージした前記各文書グループの前記特徴語のうち、マージした前記特徴語データが上位の所定の範囲のものをキーワードとして抽出する第４ステップと、
前記第１ステップで抽出した前記各特徴語のうち、前記特徴語が出現する前記文書グループの数に基づいて所定の数の前記特徴語をダミー語として選定する第５ステップと、
前記第２ステップで分類した前記各文書グループと、前記第４ステップで抽出した前記各文書グループの前記各キーワードおよび前記第５ステップで選定した前記各ダミー語とによって、前記各キーワードおよび前記各ダミー語についての前記特徴語データをクロス集計する第６ステップと、
前記第６ステップでクロス集計した結果に主成分分析を施し、前記各キーワードの第１主成分値および第２主成分値を算出し、前記第１主成分値および前記第２主成分値を前記二次元マップの表示領域のＸ軸座標およびＹ軸座標の数値範囲でそれぞれ正規化して前記各キーワードの座標点を算出する第７ステップと、
前記各キーワードを、前記第７ステップで算出した前記座標点に基づいて配置して前記二次元マップを描画する第８ステップとを実行することを特徴とするキーワード二次元可視化方法。
請求項４に記載のキーワード二次元可視化方法において、
前記第５ステップでは、前記第１ステップで抽出した前記各特徴語のうち、前記特徴語の前記文書群における出現頻度が高いものから所定の範囲のものをダミー語として選定することを特徴とするキーワード二次元可視化方法。
請求項４または５に記載のキーワード二次元可視化方法において、
前記第７ステップでは、さらに、前記各キーワードについての前記各文書における前記特徴語データの平均値を前記二次元マップの表示可能文字サイズの数値範囲で正規化して前記各キーワードの文字サイズを算出し、
前記第８ステップでは、前記各キーワードを、前記第７ステップで算出した前記座標点および前記文字サイズに基づいて配置して前記二次元マップを描画することを特徴とするキーワード二次元可視化方法。
コンピュータシステムを、テキストデータからなる文書群から複数のキーワードを抽出し、前記各キーワードを、重要度および前記キーワード間の関連度の高さに基づいて二次元マップに描画してクライアント端末に提示するよう機能させるキーワード二次元可視化プログラムであって、
前記文書群の各文書から所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記各文書における前記特徴語の重要度を示す重み付け値を算出して前記各文書の特徴語データとする第１ステップと、
前記文書群の前記各文書の前記特徴語データをマージする第２ステップと、
前記第２ステップでマージした前記特徴語のうち、マージした前記特徴語データが上位の所定の範囲のものをキーワードとして抽出する第３ステップと、
前記第１ステップで抽出した前記各特徴語のうち、前記特徴語が出現する前記文書の数に基づいて所定の数の前記特徴語をダミー語として選定する第４ステップと、
前記各文書と、前記第３ステップで抽出した前記各キーワードおよび前記第４ステップで選定した前記各ダミー語とによって、前記各キーワードおよび前記各ダミー語についての前記特徴語データをクロス集計する第５ステップと、
前記第５ステップでクロス集計した結果に主成分分析を施し、前記各キーワードの第１主成分値および第２主成分値を算出し、前記第１主成分値および前記第２主成分値を前記二次元マップの表示領域のＸ軸座標およびＹ軸座標の数値範囲でそれぞれ正規化して前記各キーワードの座標点を算出する第６ステップと、
前記各キーワードを、前記第６ステップで算出した前記座標点に基づいて配置して前記二次元マップを描画する第７ステップとを実行することを特徴とするキーワード二次元可視化プログラム。
請求項７に記載のキーワード二次元可視化プログラムにおいて、
前記第４ステップでは、前記第１ステップで抽出した前記各特徴語のうち、前記特徴語の前記文書群における出現頻度が高いものから所定の範囲のものをダミー語として選定することを特徴とするキーワード二次元可視化プログラム。
請求項７または８に記載のキーワード二次元可視化プログラムにおいて、
前記第６ステップでは、さらに、前記各キーワードについての前記各文書における前記特徴語データの平均値を前記二次元マップの表示可能文字サイズの数値範囲で正規化して前記各キーワードの文字サイズを算出し、
前記第７ステップでは、前記各キーワードを、前記第６ステップで算出した前記座標点および前記文字サイズに基づいて配置して前記二次元マップを描画することを特徴とするキーワード二次元可視化プログラム。
コンピュータシステムを、テキストデータからなる文書群から複数のキーワードを抽出し、前記各キーワードを、重要度および前記キーワード間の関連度の高さに基づいて二次元マップに描画してクライアント端末に提示するよう機能させるキーワード二次元可視化プログラムであって、
前記文書群の各文書から所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記各文書における前記特徴語の重要度を示す重み付け値を算出して前記各文書の特徴語データとする第１ステップと、
前記文書毎に、対象の前記文書についての前記第１ステップで算出した前記特徴語データと、他の前記文書についての前記第１ステップで算出した前記特徴語データとの類似度を算出し、算出した前記類似度が所定の閾値より高くかつ対象の前記文書との発行日時の差が所定の時間間隔より小さい他の前記文書を、対象の前記文書と同一の文書グループに分類する第２ステップと、
前記第２ステップで分類した前記文書グループ毎に、前記文書グループに含まれる前記各文書の前記特徴語データをマージする第３ステップと、
前記第３ステップでマージした前記各文書グループの前記特徴語のうち、マージした前記特徴語データが上位の所定の範囲のものをキーワードとして抽出する第４ステップと、
前記第１ステップで抽出した前記各特徴語のうち、前記特徴語が出現する前記文書グループの数に基づいて所定の数の前記特徴語をダミー語として選定する第５ステップと、
前記第２ステップで分類した前記各文書グループと、前記第４ステップで抽出した前記各文書グループの前記各キーワードおよび前記第５ステップで選定した前記各ダミー語とによって、前記各キーワードおよび前記各ダミー語についての前記特徴語データをクロス集計する第６ステップと、
前記第６ステップでクロス集計した結果に主成分分析を施し、前記各キーワードの第１主成分値および第２主成分値を算出し、前記第１主成分値および前記第２主成分値を前記二次元マップの表示領域のＸ軸座標およびＹ軸座標の数値範囲でそれぞれ正規化して前記各キーワードの座標点を算出する第７ステップと、
前記各キーワードを、前記第７ステップで算出した前記座標点に基づいて配置して前記二次元マップを描画する第８ステップとを実行することを特徴とするキーワード二次元可視化プログラム。
請求項１０に記載のキーワード二次元可視化プログラムにおいて、
前記第５ステップでは、前記第１ステップで抽出した前記各特徴語のうち、前記特徴語の前記文書群における出現頻度が高いものから所定の範囲のものをダミー語として選定することを特徴とするキーワード二次元可視化プログラム。
請求項１０または１１に記載のキーワード二次元可視化プログラムにおいて、
前記第７ステップでは、さらに、前記各キーワードについての前記各文書における前記特徴語データの平均値を前記二次元マップの表示可能文字サイズの数値範囲で正規化して前記各キーワードの文字サイズを算出し、
前記第８ステップでは、前記各キーワードを、前記第６ステップで算出した前記座標点および前記文字サイズに基づいて配置して前記二次元マップを描画することを特徴とするキーワード二次元可視化プログラム。