JP2010224625A - キーワード二次元可視化方法およびキーワード二次元可視化プログラム - Google Patents
キーワード二次元可視化方法およびキーワード二次元可視化プログラム Download PDFInfo
- Publication number
- JP2010224625A JP2010224625A JP2009068148A JP2009068148A JP2010224625A JP 2010224625 A JP2010224625 A JP 2010224625A JP 2009068148 A JP2009068148 A JP 2009068148A JP 2009068148 A JP2009068148 A JP 2009068148A JP 2010224625 A JP2010224625 A JP 2010224625A
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- keywords
- feature
- feature word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】キーワードを二次元マップに可視化する際に、トピックが分散している場合であってもキーワード間の関連度を適切に表現することができるキーワード二次元可視化方法を提供する。
【解決手段】文書群130の各文書から特徴語を抽出し、重要度を示す重み付け値を算出して特徴語データとする第1ステップと、特徴語データをマージする第2ステップと、特徴語データが上位のものをキーワードとして抽出する第3ステップと、特徴語が出現する文書の数に基づいて特徴語をダミー語として選定する第4ステップと、各文書と各キーワードおよび各ダミー語とによって特徴語データをクロス集計する第5ステップと、クロス集計した結果に主成分分析を施して各キーワードの座標点を算出し、また、特徴語データの平均値から各キーワードの文字サイズを算出する第6ステップと、各キーワードを配置してキーワードマップ210を描画する第7ステップとを実行する。
【選択図】図1
【解決手段】文書群130の各文書から特徴語を抽出し、重要度を示す重み付け値を算出して特徴語データとする第1ステップと、特徴語データをマージする第2ステップと、特徴語データが上位のものをキーワードとして抽出する第3ステップと、特徴語が出現する文書の数に基づいて特徴語をダミー語として選定する第4ステップと、各文書と各キーワードおよび各ダミー語とによって特徴語データをクロス集計する第5ステップと、クロス集計した結果に主成分分析を施して各キーワードの座標点を算出し、また、特徴語データの平均値から各キーワードの文字サイズを算出する第6ステップと、各キーワードを配置してキーワードマップ210を描画する第7ステップとを実行する。
【選択図】図1
Description
本発明は、テキストデータからなる文書群から抽出されたキーワードについて、重要度やキーワード間の関連度を二次元マップに可視化する技術に関し、特に、トピックが分散し、キーワードが複数の文書やトピックに出現しないような場合に、それらの関連を二次元マップに可視化するキーワード二次元可視化方法およびキーワード二次元可視化プログラムに適用して有効な技術に関するものである。
近年、IT技術の発展により、様々な分野の大量の情報が電子化されて蓄積され、参照可能となっている。ユーザは、コンピュータ等を利用して、例えば、インターネット上の検索エンジンやデータベースを検索する専用プログラム等によりこれらの情報を検索して参照することができる。
ここで、ユーザが大量の情報の中から所望の情報やそれに関連する情報、参照しておくべき情報などに効率良く到達し、これを取得することを可能とするために、例えば、対象のテキスト文書群中の各文書の内容を表すキーワード(特徴語)を抽出してユーザに提示することにより、ユーザによる文書群における重要なテーマやトピックの把握を支援することが行われている。このとき、文書群から抽出されたキーワードを、単に文書群中の出現頻度によるランキングの形式等で提示するだけでなく、例えば、キーワードの重要度やキーワード同士の関連度の高さに応じて二次元マップに可視化して提示することで、トピックの関連や全体像を概観できるようにする技術が提案されている。
例えば、特開2008−250623号公報(特許文献1)には、入力された検索語に対して関連度の高いキーワードを関連語として抽出し、検索語及び各関連語の文書データ毎の共起頻度に対して主成分分析を施し、その結果導かれた第1主成分値及び第2主成分値に基づいて所定平面上における各キーワードの座標を算出し、それぞれの座標にキーワードを表記したタグを配置することによって関連度マップを生成する検索システムが開示されている。特許文献1の技術では、関連度マップ上における各タグの配置に、キーワード相互間の関連性(文書データにおける共起頻度が高いほど関連度が高い)を反映することによって、ユーザがタグ間の位置関係や集積度によって、関連語間の類似性や検索語との関連性を視覚的に認識することを可能としている。
また、例えば、特開2005−149346号公報(特許文献2)には、文献情報の中から所定の基準に従って複数のキーワードを抽出する手段と、上記キーワードを含む文献の総数及び各キーワードの出現総数に対して主成分分析を施すことにより、二次元平面上における各キーワードの座標を算出する手段と、各キーワードの座標に従い上記二次元平面上に当該キーワードの存在を示すシンボルを配置する手段等を備えた文献情報分析システムが開示されている。特許文献2の技術では、特許文献や学術文献などの膨大な数の電子化された文書情報の中から重要なキーワードを抽出し、各キーワード間の関係を視覚的に表現することで、特許マップや研究マップにおける一覧性の向上の実現を可能としている。
文書群から特徴的な単語をキーワードとして抽出する際には、文書中の各単語の重要度についての重み付け値であるTF−IDF(Term Frequency-Inverse Document Frequency)値を算出し、この値によって文書中の特徴的な単語を抽出するということが一般的に行われている。ここで、TF(Term Frequency)値は、文書中の単語の出現頻度であり、この値が大きいほどこの単語は当該文書の特徴をよく表しているものと考えられる。
一方、TFの値が大きい単語であっても、多くの文書に頻繁に出現する単語は、特定の文書の特徴を表す単語ではない一般的な単語である場合が多い。ここで、IDF(Inverse Document Frequency)値は、対象の単語が出現する文書数の逆数であり、この値が大きいほどこの単語が出現する文書数が少ない。すなわち、この単語は特定の文書の特徴をよく表しているものと考えられる。従って、上記のTFとIDFの両者の値(これらの値から得られるTF−IDF値)が大きい単語が、当該文書の特徴を真によく表しているもの(キーワード)と考えられる。
ここで、上記のTF−IDF値が大きい単語を文書群から抽出して得られた複数のキーワードについて考えてみると、TF−IDF値(特にIDF値)が大きいということは、各キーワードは特定の文書においてのみ出現する傾向が強いということであり、その結果、複数のキーワードが同一の文書に出現する頻度は低くなる傾向が強い。この傾向は、文書群において各文書のトピックが分散している(トピックが異なる)場合にさらに強くなる。
従って、各キーワードについて、例えば、特許文献1や特許文献2に記載されているような、各文書における各キーワードの出現頻度(キーワード間の共起頻度)に基づいて主成分分析を用いて二次元マップ上にキーワードを配置する際の座標を算出する技術を適用して可視化する場合、各キーワード間の関連度が低くなり、もしくは関連がないものと判断され、キーワード間の関連性を適切に表現することができない場合が生じる。
一方、例えば、文書群がニュース記事のような場合には、同じ報道内容に対して異なる文書(類似文書)が多数存在する、すなわち、文書群において各文書のトピックが極端に集中する場合が多くある。このような場合に文書群からキーワードを抽出すると、抽出されたキーワードのうちのほとんどが同じトピックの文書から抽出されたものとなる。その結果、キーワードの内容に偏りが生じ、少数の文書でのトピックが埋もれるなど、キーワードによるトピックの網羅性が低下してしまう。
そこで本発明の目的は、文書群からキーワードを抽出し、抽出したキーワードの重要度やキーワード間の関連度の高さに応じて二次元マップに可視化する際に、トピックが分散している場合であってもキーワード間の関連度を適切に表現することができるキーワード二次元可視化方法およびキーワード二次元可視化プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
本発明の代表的な実施の形態によるキーワード二次元可視化方法は、コンピュータシステムによって、テキストデータからなる文書群から複数のキーワードを抽出し、前記各キーワードを、重要度および前記キーワード間の関連度の高さに基づいて二次元マップに描画してクライアント端末に提示するキーワード二次元可視化方法であって、前記コンピュータシステムは、前記文書群の各文書から所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記各文書における前記特徴語の重要度を示す重み付け値を算出して前記各文書の特徴語データとする第1ステップと、前記文書群の前記各文書の前記特徴語データをマージする第2ステップと、前記第2ステップでマージした前記特徴語のうち、マージした前記特徴語データが上位の所定の範囲のものをキーワードとして抽出する第3ステップと、前記第1ステップで抽出した前記各特徴語のうち、前記特徴語が出現する前記文書の数に基づいて所定の数の前記特徴語をダミー語として選定する第4ステップと、前記各文書と、前記第3ステップで抽出した前記各キーワードおよび前記第4ステップで選定した前記各ダミー語とによって、前記各キーワードおよび前記各ダミー語についての前記特徴語データをクロス集計する第5ステップと、前記第5ステップでクロス集計した結果に主成分分析を施し、前記各キーワードの第1主成分値および第2主成分値を算出し、前記第1主成分値および前記第2主成分値を前記二次元マップの表示領域のX軸座標およびY軸座標の数値範囲でそれぞれ正規化して前記各キーワードの座標点を算出し、また、前記各キーワードの前記各文書における前記特徴語データの平均値を、前記二次元マップの表示可能文字サイズの数値範囲で正規化して前記各キーワードの文字サイズを算出する第6ステップと、前記各キーワードを、前記第6ステップで算出した前記座標点および前記文字サイズに基づいて配置して前記二次元マップを描画する第7ステップとを実行することを特徴とするものである。
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
本発明の代表的な実施の形態によれば、文書群において各単語について算出した特徴語データに基づいて抽出した複数のキーワードを、相互の関連度を反映して二次元マップに可視化することができる。また、キーワードのトピックが分散してキーワード間の関連度が低くなるような場合であっても、ダミー語を挿入することで間接的に関連度を把握し、適切にキーワード間の関連度を表現することを可能とする。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。
本発明の一実施の形態であるキーワード二次元可視化方法を適用した情報管理システムは、各種Webサイトや電子メール、電子文書などのテキスト情報(以下ではこれらを総称して「文書」という場合がある)をサーバ上で一ヶ所に収集して各ユーザから参照可能とし、さらに、各ユーザが蓄積された情報の利用・参照といった消費行動を効率的・効果的に行える仕組みを提供し、情報を生産的に活用することができるよう支援するシステムである。
本実施の形態では、サーバに蓄積された文書群から、各文書の内容を表すキーワードを抽出し、各キーワードの重要度や関連度に応じて二次元マップに可視化することで、ユーザが文書群におけるトピックの関連や全体像を概観できるようにする。
文書群については種々のものを対象とすることができる。例えば、インターネット上のニュースサイトから収集した記事を対象とすれば報道記事のトピックの全体像を概観することができる。さらに、収集した文書の各ユーザによる参照履歴を利用して、最近ユーザによって実際に参照された文書を対象とすれば、対象のユーザグループ内での注目トピックを把握することができる。また、特許文献や学術文献を対象とすれば、特許マップや研究マップとして利用することもできる。
[システム構成]
図2は、本発明の一実施の形態であるキーワード二次元可視化方法を適用した情報管理システムの構成例の概要を示した図である。情報管理システムは、コンピュータシステムによる情報管理サーバ100から構成され、さらに、文書群130を保持するデータベースを有している。文書群130を保持するデータベースは、情報管理サーバ100上に実装されてもよいし、別のデータベースサーバ等の機器上に実装されてもよい。この文書群130は、情報管理サーバ100の文書管理部110によって、収集やデータベースへの蓄積、データベースからの取得などの管理が行われる。
図2は、本発明の一実施の形態であるキーワード二次元可視化方法を適用した情報管理システムの構成例の概要を示した図である。情報管理システムは、コンピュータシステムによる情報管理サーバ100から構成され、さらに、文書群130を保持するデータベースを有している。文書群130を保持するデータベースは、情報管理サーバ100上に実装されてもよいし、別のデータベースサーバ等の機器上に実装されてもよい。この文書群130は、情報管理サーバ100の文書管理部110によって、収集やデータベースへの蓄積、データベースからの取得などの管理が行われる。
情報管理サーバ100は、インターネット等のネットワーク300経由により、PC等のクライアント端末200によってユーザから文書群130の文書を参照したい旨の要求を受けると、図示しないWebサーバプログラム等を介して、文書群130から文書管理部110を介して取得した対象の文書をクライアント端末200に提示する。また、同様に、クライアント端末200によるユーザからの要求等により、キーワードマップ生成部120によって、文書群130から特徴語を抽出してキーワードとし、さらに、各キーワードの重要度や関連度に応じて二次元マップに描画して、クライアント端末200にキーワードマップ210として提示する。
なお、文書管理部110およびキーワードマップ生成部120は、情報管理サーバ100上で稼働するソフトウェアプログラムとして実装され、例えば、図示しないWebサーバプログラム上で稼働するアプリケーションとして実装することができる。また、キーワードマップ生成部120は、詳細は後述するが、例えば、特徴語データ算出部121、類似度算出部122、ダミー語選定部123、主成分分析部124、マップ描画部125を有し、キーワードマップ生成部120における上述したような機能を実現する。
[処理フロー]
図1は、キーワードマップ生成部120での処理フローの一例の概要を示した図である。情報管理サーバ100が、クライアント端末200によるユーザからのキーワードマップ210の生成要求や、文書群130の文書に対する参照要求を受けた際などに、キーワードマップ生成部120はキーワードマップ生成処理を開始する。
図1は、キーワードマップ生成部120での処理フローの一例の概要を示した図である。情報管理サーバ100が、クライアント端末200によるユーザからのキーワードマップ210の生成要求や、文書群130の文書に対する参照要求を受けた際などに、キーワードマップ生成部120はキーワードマップ生成処理を開始する。
まず、特徴語データ算出部121により、文書管理部110を介して取得した文書群130の各文書のテキストデータから特徴語データを算出する。さらに、類似度算出部122により、各特徴語データの類似度を算出して文書群130の各文書を文書グループに分類し、各文書グループのキーワードを抽出する(ステップS101)。
次に、ダミー語選定部123により、ステップS101で算出した文書群130の各文書の特徴語から所定の数のダミー語を選定する(ステップS102)。次に、主成分分析部124により、ステップS101で分類した各文書グループと、ステップS101で抽出した文書グループ毎のキーワードおよびステップS102で選定したダミー語で、各キーワード(およびダミー語)の特徴語データ(TF−IDF値の各文書グループでの平均値)をクロス集計する(ステップS103)。
次に、主成分分析部124により、ステップS103で得たクロス集計表に対して、主成分分析を施し、各キーワードについて得られた第1主成分値、第2主成分値に基づいて二次元マップにおけるX軸、Y軸の座標点を計算し(ステップS104)、得られた座標点に基づいて各キーワードを二次元マップ上に配置してキーワードマップ210を描画する(ステップS105)。その後、描画したキーワードマップ210をWebサーバプログラム等を介してクライアント端末200に提示して、キーワードマップ生成処理を終了する。以下、上述した各ステップの具体的な処理内容について説明する。
[文書グループへの分類とキーワード抽出]
図3は、図1における、文書群130の各文書を文書グループに分類し、各文書グループのキーワードを抽出する処理(ステップS101)の例を説明する図である。まず、特徴語データ算出部121により、文書管理部110を介して取得した文書群130の各文書のテキストデータから1つ以上の単語を特徴語として抽出して、各特徴語についてTF−IDF値を算出して特徴語データとする(ステップS201)。次に、類似度算出部122により、ステップS101で算出した各特徴語データから、ベクトル空間法等によって特徴語データ間の類似度を算出し、算出した類似度に基づいて文書群130の各文書を文書グループに分類する(ステップS202)。
図3は、図1における、文書群130の各文書を文書グループに分類し、各文書グループのキーワードを抽出する処理(ステップS101)の例を説明する図である。まず、特徴語データ算出部121により、文書管理部110を介して取得した文書群130の各文書のテキストデータから1つ以上の単語を特徴語として抽出して、各特徴語についてTF−IDF値を算出して特徴語データとする(ステップS201)。次に、類似度算出部122により、ステップS101で算出した各特徴語データから、ベクトル空間法等によって特徴語データ間の類似度を算出し、算出した類似度に基づいて文書群130の各文書を文書グループに分類する(ステップS202)。
次に、キーワードマップ生成部120により、ステップS202で分類した各文書グループに含まれる各文書の特徴語データについて、特徴語データ(TF−IDF値)の平均値を算出してマージする(ステップS203)。次に、キーワードマップ生成部120により、ステップS203で算出した各文書グループの特徴語データ(TF−IDF値の平均値)が上位の所定の数の特徴語をキーワードとして抽出する(ステップS204)。
このように、文書群130の各文書を文書グループ(トピック)に分類し、トピック毎にキーワードを抽出することにより、例えば、文書群130がニュース記事のように、同じ報道内容(トピック)に対して異なる文書(類似文書)が多数存在するような場合であっても、他のトピックの文書からも一定数のキーワードが抽出されるようにすることができ、キーワードの内容に偏りが生じることを避けることが可能となる。なお、文書群130の各文書のトピックに元々偏りがなく分散しているような場合には、上記のステップS202については不要であり、各文書の特徴語データについてステップS203にて全てマージして、ステップS203にてキーワードを抽出すればよい。
[特徴語データ算出]
図4は、図3における、各文書の特徴語データを算出する処理(ステップS201)の例を説明する図である。特徴語データ算出部121は、まず、対象の文書のテキストデータから、形態素解析により複合名詞を抽出する。形態素解析は自然言語処理において一般的に行われており、また、形態素解析エンジンやソフトウェアも種々のものが提供されているため、これらを利用してもよい。
図4は、図3における、各文書の特徴語データを算出する処理(ステップS201)の例を説明する図である。特徴語データ算出部121は、まず、対象の文書のテキストデータから、形態素解析により複合名詞を抽出する。形態素解析は自然言語処理において一般的に行われており、また、形態素解析エンジンやソフトウェアも種々のものが提供されているため、これらを利用してもよい。
次に、抽出した各複合名詞について、文書における単語の重要度についての重み付け値であるTF−IDF値を算出する。TF−IDF値によって文書中の特徴的な単語(重要とみなされる単語)を抽出することは一般的に行われている。本実施の形態のキーワード二次元可視化方法でもこの手法を用いて特徴語データを算出するが、特徴語データの算出手法はこれに限るものではなく、単語毎に数値(重み付け値)として評価が可能な手法であれば利用することができる。
ここで、上述したように、TF(Term Frequency)は、文書中の単語(複合名詞)の出現頻度であり、この値が大きいほどこの単語はこの文書の特徴をよく表しているものと考えられる。ある文書Dにおけるある単語tのTF値は、例えば、文書D中の単語tの出現頻度をfとすると、文書Dにおける単語の種類数mおよび対数で正規化して以下の式で表される。
一方、TFの値が大きい単語であっても、多くの文書に頻繁に出現する単語は、特定の文書の特徴を表す単語ではない一般的な単語である場合が多い。ここで、IDF(Inverse Document Frequency)は、対象の単語が出現する文書数の逆数であり、この値が大きいほどこの単語が出現する文書数が少ない。すなわち、この単語は特定の文書の特徴をよく表しているものと考えられる。ある単語tのIDF値は、例えば、全文書の中で単語tが出現する文書数をDfとすると、全文書数Nで正規化して以下の式で表される。
上記のTFとIDFの両者の値が大きい単語tが、文書Dの特徴を真によく表していると考えられるため、単語tのTF−IDF値は、例えば、TFとIDFの積を整数化した以下の式で表される。
このTF−IDF値を文書群130の各文書について特徴語(複合名詞)毎に算出する。対象の文書が異なれば、文書に含まれる特徴語も異なり、また、同じ特徴語であってもその文書中での出現頻度が異なるため、各特徴語のTF−IDF値は文書毎にそれぞれ異なる値となる。なお、上記のTF値、IDF値の算出式については種々のものが提案されており、上記の算出式に限らず精度や処理時間などに応じて適当なものを用いることができる。
[類似度の算出と文書グループへの分類]
以下では、図3のステップS202における、各文書の特徴語データから類似度を算出する手法、および算出した類似度に基づいて各文書を文書グループに分類する手法について説明する。
以下では、図3のステップS202における、各文書の特徴語データから類似度を算出する手法、および算出した類似度に基づいて各文書を文書グループに分類する手法について説明する。
図5は、各文書の特徴語データから各文書間の特徴語データの類似度を算出する処理の例を説明する図である。類似度の算出に際しては、例えば、図3のステップS201で算出した各文書の特徴語データ(TF−IDF値)をそれぞれベクトル空間化する。さらに、対象の文書についてのベクトルと、他の文書についてのベクトルとの内積を用いることによって類似度を算出するベクトル空間法を利用する。
文書群130の全ての文書の特徴語データに含まれる特徴語を全てマージした数がn個であった場合、対象の文書の特徴語データdtのベクトルV(dt)および、他の各文書の特徴語データd1、d2、…のベクトルV(d1)、V(d2)、…は、それぞれ、n個の特徴語のTF−IDF値を要素とするn次元のベクトルとして表される。このとき、対象の特徴語を含まない特徴語データについては、当該特徴語に対応するベクトルの要素の値は0とする。
ここで、ベクトルの方向は当該文書の特徴を表していると考えられる。従って、対象の文書の特徴語データと他の各文書の特徴語データとの類似度は、ベクトルV(dt)とベクトルV(d1)、V(d2)、…とのなす角の小ささで表すことができる。すなわち、二つのベクトルのなす角をθとした場合に、cosθが1に近いほど類似度が高いと言うことができる。cosθは二つのベクトルの内積を各ベクトルの絶対値で除算することにより求められる。従って、例えば、特徴語データda、dbの類似度sim(da,db)は、二つのベクトルV(da)、V(db)により以下の式で表される。
数4式を用いて、対象の文書の特徴語データと他の各文書の特徴語データとの類似度をそれぞれ算出する。すなわち、sim(dt,d1)、sim(dt,d2)、…をそれぞれ算出する。なお、本実施の形態では、対象の文書と他の各文書との類似度をベクトル空間法を用いて算出しているが、これに限らず他の算出方法によって類似度を算出してもよい。
図6は、対象の文書の特徴語データと他の各文書の特徴語データとの類似度に基づいて、対象の文書についての類似文書を抽出してグループ化する処理の例を説明する図である。
まず、キーワードマップ生成部120により、図5に示した処理によって算出した類似度が上位の他の文書のうち、類似度が所定の閾値よりも高いもののみを抽出する。次に、抽出した各文書について、対象の文書との発行日時の差が所定の時間間隔以上であるか否かを判定し、所定の時間間隔より小さい文書を類似文書131として分類し、所定の時間間隔以上である文書を関連文書132として分類する。一般的に(特に文書がニュース記事のような場合)、文書の内容が類似しており、かつ発行日時が近い文書は、実質的に同じ内容(トピック)である可能性が高いと考えられる。従って、これらの文書については類似文書131として分類しグループ化する。
上記の図5、図6に示した処理を全ての文書群130の各文書に対して行うことで、各文書を類似文書131からなる文書グループにグループ化することができる。なお、上記の所定の閾値や時間間隔は、例えば、情報管理サーバ100においてデータベースや定義ファイルなどの適当な手段により保持し、状況に応じて適宜設定を変更できるようにするのが望ましい。本実施の形態では、図6に示すように所定の閾値を0.2としている。図5に示したベクトル空間法を用いた類似度の算出方法による場合、所定の閾値を0.2とすることで実用上支障のない精度で類似文書131が抽出できることを実験的に確認している。
[主成分分析による二次元マップ描画とダミー語選定]
図7は、図1のステップS103〜S105における、各文書グループと各文書グループのキーワードで各キーワードのTF−IDF値をクロス集計し、クロス集計表に主成分分析を施して座標計算して、各キーワードを二次元マップに描画する処理、および、ステップS102のダミー語を選定する処理の例について説明する図である。
図7は、図1のステップS103〜S105における、各文書グループと各文書グループのキーワードで各キーワードのTF−IDF値をクロス集計し、クロス集計表に主成分分析を施して座標計算して、各キーワードを二次元マップに描画する処理、および、ステップS102のダミー語を選定する処理の例について説明する図である。
図1のステップS103では、図7に示すように、各文書グループ(トピック)と、各トピックのキーワードとで、各キーワードの特徴語データ(TFーIDF値の各トピックでの平均値)をクロス集計する。このクロス集計表(各トピック毎の各キーワードのTF−IDF値の平均値を変量とする多変量データ)に対して、特許文献1や特許文献2に記載されているように、主成分分析を施すことで、各キーワードの各トピックにおける共起頻度(同一トピックに出現する頻度)、すなわち各キーワード間の関連度を反映した主成分値を得ることができる。
ここで、各トピックにおける各キーワードは、TF−IDF値が大きい、すなわち、特定のトピックの特徴を真に表しており、当該特定のトピックにおいてのみ出現する傾向が強く、他の複数のトピック上に出現しにくいという特徴を有する。従って、このまま主成分分析を施した場合に、各キーワード間の関連度が低くなり、もしくは関連がないものと判断され、キーワード間の関連性を適切に表現することができない場合が生じる。
そこで、本実施の形態では、図1のステップS102において、ダミー語選定部123によって、上記のクロス集計表にダミー語を選定して挿入することでクロス集計表を補完する。ここで、ダミー語として複数のトピック上に多く出現する特徴語を用いることにより、直接の関連度が低いキーワード間であってもダミー語を介して間接的に関連度を把握することが可能となる。
このようなダミー語としては、例えば、図1のステップS101で算出した、文書群130の各文書の全ての特徴語について、文書群130での出現頻度が高いもの、すなわち、文書群130での出現数もしくはTF値の合計(もしくは平均値)が高い特徴語のうち上位の所定の数のものを選定するようにしてもよい。また、さらに、多数の文書に出現するもの、すなわち、IDF値が小さい特徴語から選定するようにしてもよい。なお、選定したダミー語が各キーワードと重複する場合は、当該特徴語はダミー語とはしないものとする。
このように選定したダミー語によって補完したクロス集計表に対して、主成分分析部124により、主成分分析を施す。主成分分析により各キーワードおよびダミー語について得られた第1主成分値と第2主成分値に基づいて、特許文献1や特許文献2に記載されているように、二次元マップ上に各キーワードを配置する際の座標点を算出する。例えば、第1主成分値および第2主成分値を、二次元マップの表示領域におけるX軸およびY軸の座標の数値範囲でそれぞれ正規化することにより、X軸、Y軸の座標点を算出する。なお、ダミー語については座標点の算出は不要である(二次元マップ上は非表示となる)。
さらに、各キーワードのTF−IDF値の各トピックでの合計値に基づいて、二次元マップ上に各キーワードを配置する際の文字サイズ(図形サイズ)を算出する。例えば、各キーワードのTF−IDF値の各トピックでの合計値を、二次元マップにおいて表示可能な文字サイズの数値範囲でそれぞれ正規化することにより文字サイズを算出する。なお、例えば、文字サイズではなく文字色を変化させる(例えば、TF−IDF値の合計値が小さいほど青に近く、大きいほど赤に近くなる等)ようにして、配置された各キーワードの占有面積が大きくならないようにしてもよい。
上記の手順により得られた各キーワードについてのX軸座標、Y軸座標、および文字サイズに基づいて、二次元マップ上に各キーワードを配置して描画し、キーワードマップ210を生成する。キーワードマップ210においては、関連度の高いキーワード同士は近距離に配置され、また、重要度の高い(TF−IDF値が大きい)キーワードは文字サイズが大きく表示される。
以上に説明したように、本実施の形態のキーワード二次元可視化方法では、文書群130において各単語について算出したTF−IDF値に基づいて抽出した複数のキーワードを、主成分分析によって算出した座標値により、相互の関連度を反映して二次元マップに可視化することができる。このとき、文書群130を類似度が高い文書グループ(トピック)に分類してトピック毎のキーワードを抽出することで、キーワードのトピックの偏りを少なくすることを可能とする。また、キーワードのトピックが分散してキーワード間の関連度が低くなるような場合であっても、ダミー語を挿入することで間接的に関連度を把握し、適切にキーワード間の関連度を表現することを可能とする。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
本発明は、テキストデータからなる文書群から抽出されたキーワードについて、重要度やキーワード間の関連度を二次元マップに可視化するキーワード二次元可視化方法およびキーワード二次元可視化プログラムに利用可能である。
100…情報管理サーバ、110…文書管理部、120…キーワードマップ生成部、121…特徴語データ算出部、122…類似度算出部、123…ダミー語選定部、124…主成分分析部、125…マップ描画部、130…文書群、131…類似文書、132…関連文書、200…クライアント端末、210…キーワードマップ、300…ネットワーク。
Claims (12)
- コンピュータシステムによって、テキストデータからなる文書群から複数のキーワードを抽出し、前記各キーワードを、重要度および前記キーワード間の関連度の高さに基づいて二次元マップに描画してクライアント端末に提示するキーワード二次元可視化方法であって、
前記コンピュータシステムは、
前記文書群の各文書から所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記各文書における前記特徴語の重要度を示す重み付け値を算出して前記各文書の特徴語データとする第1ステップと、
前記文書群の前記各文書の前記特徴語データをマージする第2ステップと、
前記第2ステップでマージした前記特徴語のうち、マージした前記特徴語データが上位の所定の範囲のものをキーワードとして抽出する第3ステップと、
前記第1ステップで抽出した前記各特徴語のうち、前記特徴語が出現する前記文書の数に基づいて所定の数の前記特徴語をダミー語として選定する第4ステップと、
前記各文書と、前記第3ステップで抽出した前記各キーワードおよび前記第4ステップで選定した前記各ダミー語とによって、前記各キーワードおよび前記各ダミー語についての前記特徴語データをクロス集計する第5ステップと、
前記第5ステップでクロス集計した結果に主成分分析を施し、前記各キーワードの第1主成分値および第2主成分値を算出し、前記第1主成分値および前記第2主成分値を前記二次元マップの表示領域のX軸座標およびY軸座標の数値範囲でそれぞれ正規化して前記各キーワードの座標点を算出する第6ステップと、
前記各キーワードを、前記第6ステップで算出した前記座標点に基づいて配置して前記二次元マップを描画する第7ステップとを実行することを特徴とするキーワード二次元可視化方法。 - 請求項1に記載のキーワード二次元可視化方法において、
前記第4ステップでは、前記第1ステップで抽出した前記各特徴語のうち、前記特徴語の前記文書群における出現頻度が高いものから所定の範囲のものをダミー語として選定することを特徴とするキーワード二次元可視化方法。 - 請求項1または2に記載のキーワード二次元可視化方法において、
前記第6ステップでは、さらに、前記各キーワードについての前記各文書における前記特徴語データの平均値を前記二次元マップの表示可能文字サイズの数値範囲で正規化して前記各キーワードの文字サイズを算出し、
前記第7ステップでは、前記各キーワードを、前記第6ステップで算出した前記座標点および前記文字サイズに基づいて配置して前記二次元マップを描画することを特徴とするキーワード二次元可視化方法。 - コンピュータシステムによって、テキストデータからなる文書群から複数のキーワードを抽出し、前記各キーワードを、重要度および前記キーワード間の関連度の高さに基づいて二次元マップに描画してクライアント端末に提示するキーワード二次元可視化方法であって、
前記コンピュータシステムは、
前記文書群の各文書から所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記各文書における前記特徴語の重要度を示す重み付け値を算出して前記各文書の特徴語データとする第1ステップと、
前記文書毎に、対象の前記文書についての前記第1ステップで算出した前記特徴語データと、他の前記文書についての前記第1ステップで算出した前記特徴語データとの類似度を算出し、算出した前記類似度が所定の閾値より高くかつ対象の前記文書との発行日時の差が所定の時間間隔より小さい他の前記文書を、対象の前記文書と同一の文書グループに分類する第2ステップと、
前記第2ステップで分類した前記文書グループ毎に、前記文書グループに含まれる前記各文書の前記特徴語データをマージする第3ステップと、
前記第3ステップでマージした前記各文書グループの前記特徴語のうち、マージした前記特徴語データが上位の所定の範囲のものをキーワードとして抽出する第4ステップと、
前記第1ステップで抽出した前記各特徴語のうち、前記特徴語が出現する前記文書グループの数に基づいて所定の数の前記特徴語をダミー語として選定する第5ステップと、
前記第2ステップで分類した前記各文書グループと、前記第4ステップで抽出した前記各文書グループの前記各キーワードおよび前記第5ステップで選定した前記各ダミー語とによって、前記各キーワードおよび前記各ダミー語についての前記特徴語データをクロス集計する第6ステップと、
前記第6ステップでクロス集計した結果に主成分分析を施し、前記各キーワードの第1主成分値および第2主成分値を算出し、前記第1主成分値および前記第2主成分値を前記二次元マップの表示領域のX軸座標およびY軸座標の数値範囲でそれぞれ正規化して前記各キーワードの座標点を算出する第7ステップと、
前記各キーワードを、前記第7ステップで算出した前記座標点に基づいて配置して前記二次元マップを描画する第8ステップとを実行することを特徴とするキーワード二次元可視化方法。 - 請求項4に記載のキーワード二次元可視化方法において、
前記第5ステップでは、前記第1ステップで抽出した前記各特徴語のうち、前記特徴語の前記文書群における出現頻度が高いものから所定の範囲のものをダミー語として選定することを特徴とするキーワード二次元可視化方法。 - 請求項4または5に記載のキーワード二次元可視化方法において、
前記第7ステップでは、さらに、前記各キーワードについての前記各文書における前記特徴語データの平均値を前記二次元マップの表示可能文字サイズの数値範囲で正規化して前記各キーワードの文字サイズを算出し、
前記第8ステップでは、前記各キーワードを、前記第7ステップで算出した前記座標点および前記文字サイズに基づいて配置して前記二次元マップを描画することを特徴とするキーワード二次元可視化方法。 - コンピュータシステムを、テキストデータからなる文書群から複数のキーワードを抽出し、前記各キーワードを、重要度および前記キーワード間の関連度の高さに基づいて二次元マップに描画してクライアント端末に提示するよう機能させるキーワード二次元可視化プログラムであって、
前記文書群の各文書から所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記各文書における前記特徴語の重要度を示す重み付け値を算出して前記各文書の特徴語データとする第1ステップと、
前記文書群の前記各文書の前記特徴語データをマージする第2ステップと、
前記第2ステップでマージした前記特徴語のうち、マージした前記特徴語データが上位の所定の範囲のものをキーワードとして抽出する第3ステップと、
前記第1ステップで抽出した前記各特徴語のうち、前記特徴語が出現する前記文書の数に基づいて所定の数の前記特徴語をダミー語として選定する第4ステップと、
前記各文書と、前記第3ステップで抽出した前記各キーワードおよび前記第4ステップで選定した前記各ダミー語とによって、前記各キーワードおよび前記各ダミー語についての前記特徴語データをクロス集計する第5ステップと、
前記第5ステップでクロス集計した結果に主成分分析を施し、前記各キーワードの第1主成分値および第2主成分値を算出し、前記第1主成分値および前記第2主成分値を前記二次元マップの表示領域のX軸座標およびY軸座標の数値範囲でそれぞれ正規化して前記各キーワードの座標点を算出する第6ステップと、
前記各キーワードを、前記第6ステップで算出した前記座標点に基づいて配置して前記二次元マップを描画する第7ステップとを実行することを特徴とするキーワード二次元可視化プログラム。 - 請求項7に記載のキーワード二次元可視化プログラムにおいて、
前記第4ステップでは、前記第1ステップで抽出した前記各特徴語のうち、前記特徴語の前記文書群における出現頻度が高いものから所定の範囲のものをダミー語として選定することを特徴とするキーワード二次元可視化プログラム。 - 請求項7または8に記載のキーワード二次元可視化プログラムにおいて、
前記第6ステップでは、さらに、前記各キーワードについての前記各文書における前記特徴語データの平均値を前記二次元マップの表示可能文字サイズの数値範囲で正規化して前記各キーワードの文字サイズを算出し、
前記第7ステップでは、前記各キーワードを、前記第6ステップで算出した前記座標点および前記文字サイズに基づいて配置して前記二次元マップを描画することを特徴とするキーワード二次元可視化プログラム。 - コンピュータシステムを、テキストデータからなる文書群から複数のキーワードを抽出し、前記各キーワードを、重要度および前記キーワード間の関連度の高さに基づいて二次元マップに描画してクライアント端末に提示するよう機能させるキーワード二次元可視化プログラムであって、
前記文書群の各文書から所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記各文書における前記特徴語の重要度を示す重み付け値を算出して前記各文書の特徴語データとする第1ステップと、
前記文書毎に、対象の前記文書についての前記第1ステップで算出した前記特徴語データと、他の前記文書についての前記第1ステップで算出した前記特徴語データとの類似度を算出し、算出した前記類似度が所定の閾値より高くかつ対象の前記文書との発行日時の差が所定の時間間隔より小さい他の前記文書を、対象の前記文書と同一の文書グループに分類する第2ステップと、
前記第2ステップで分類した前記文書グループ毎に、前記文書グループに含まれる前記各文書の前記特徴語データをマージする第3ステップと、
前記第3ステップでマージした前記各文書グループの前記特徴語のうち、マージした前記特徴語データが上位の所定の範囲のものをキーワードとして抽出する第4ステップと、
前記第1ステップで抽出した前記各特徴語のうち、前記特徴語が出現する前記文書グループの数に基づいて所定の数の前記特徴語をダミー語として選定する第5ステップと、
前記第2ステップで分類した前記各文書グループと、前記第4ステップで抽出した前記各文書グループの前記各キーワードおよび前記第5ステップで選定した前記各ダミー語とによって、前記各キーワードおよび前記各ダミー語についての前記特徴語データをクロス集計する第6ステップと、
前記第6ステップでクロス集計した結果に主成分分析を施し、前記各キーワードの第1主成分値および第2主成分値を算出し、前記第1主成分値および前記第2主成分値を前記二次元マップの表示領域のX軸座標およびY軸座標の数値範囲でそれぞれ正規化して前記各キーワードの座標点を算出する第7ステップと、
前記各キーワードを、前記第7ステップで算出した前記座標点に基づいて配置して前記二次元マップを描画する第8ステップとを実行することを特徴とするキーワード二次元可視化プログラム。 - 請求項10に記載のキーワード二次元可視化プログラムにおいて、
前記第5ステップでは、前記第1ステップで抽出した前記各特徴語のうち、前記特徴語の前記文書群における出現頻度が高いものから所定の範囲のものをダミー語として選定することを特徴とするキーワード二次元可視化プログラム。 - 請求項10または11に記載のキーワード二次元可視化プログラムにおいて、
前記第7ステップでは、さらに、前記各キーワードについての前記各文書における前記特徴語データの平均値を前記二次元マップの表示可能文字サイズの数値範囲で正規化して前記各キーワードの文字サイズを算出し、
前記第8ステップでは、前記各キーワードを、前記第6ステップで算出した前記座標点および前記文字サイズに基づいて配置して前記二次元マップを描画することを特徴とするキーワード二次元可視化プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009068148A JP2010224625A (ja) | 2009-03-19 | 2009-03-19 | キーワード二次元可視化方法およびキーワード二次元可視化プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009068148A JP2010224625A (ja) | 2009-03-19 | 2009-03-19 | キーワード二次元可視化方法およびキーワード二次元可視化プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010224625A true JP2010224625A (ja) | 2010-10-07 |
Family
ID=43041782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009068148A Pending JP2010224625A (ja) | 2009-03-19 | 2009-03-19 | キーワード二次元可視化方法およびキーワード二次元可視化プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010224625A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140146387A (ko) * | 2013-06-17 | 2014-12-26 | 김동현 | Pca 기법을 활용한 어휘의 시각화 방법 및 그 장치 |
KR101573449B1 (ko) | 2014-01-29 | 2015-12-01 | 한국외국어대학교 연구산학협력단 | 모바일 애플리케이션 기회 맵 생성 방법 및 장치 |
EP3109777A1 (en) | 2015-06-24 | 2016-12-28 | Fuji Xerox Co., Ltd. | Object classification device and program |
JP2018067095A (ja) * | 2016-10-18 | 2018-04-26 | 株式会社東芝 | 名刺情報管理システム、名刺情報管理システムにおける検索結果表示方法、および検索結果表示プログラム |
EP3238095A4 (en) * | 2014-12-23 | 2018-07-11 | Microsoft Technology Licensing, LLC | Surfacing relationships between datasets |
-
2009
- 2009-03-19 JP JP2009068148A patent/JP2010224625A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140146387A (ko) * | 2013-06-17 | 2014-12-26 | 김동현 | Pca 기법을 활용한 어휘의 시각화 방법 및 그 장치 |
KR101599692B1 (ko) * | 2013-06-17 | 2016-03-04 | 김동현 | Pca 기법을 활용한 어휘의 시각화 방법 및 그 장치 |
KR101573449B1 (ko) | 2014-01-29 | 2015-12-01 | 한국외국어대학교 연구산학협력단 | 모바일 애플리케이션 기회 맵 생성 방법 및 장치 |
EP3238095A4 (en) * | 2014-12-23 | 2018-07-11 | Microsoft Technology Licensing, LLC | Surfacing relationships between datasets |
US11256687B2 (en) | 2014-12-23 | 2022-02-22 | Microsoft Technology Licensing, Llc | Surfacing relationships between datasets |
EP3109777A1 (en) | 2015-06-24 | 2016-12-28 | Fuji Xerox Co., Ltd. | Object classification device and program |
JP2018067095A (ja) * | 2016-10-18 | 2018-04-26 | 株式会社東芝 | 名刺情報管理システム、名刺情報管理システムにおける検索結果表示方法、および検索結果表示プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kucher et al. | Text visualization techniques: Taxonomy, visual survey, and community insights | |
US7529740B2 (en) | Method and apparatus for organizing data sources | |
JP5378315B2 (ja) | レイアウトに基づく文書検索およびランク付けのためのスケーラブルな索引付け | |
US7739221B2 (en) | Visual and multi-dimensional search | |
US20080005105A1 (en) | Visual and multi-dimensional search | |
US9418145B2 (en) | Method and system for visualizing documents | |
JP2008027021A (ja) | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。 | |
JP2010224622A (ja) | タグ付与方法およびタグ付与プログラム | |
CN108829854B (zh) | 用于生成文章的方法、装置、设备和计算机可读存储介质 | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
JP2010224623A (ja) | 関連記事推奨方法および関連記事推奨プログラム | |
JPWO2011001584A1 (ja) | 情報分類装置、情報分類方法及び情報分類プログラム | |
JP2010224625A (ja) | キーワード二次元可視化方法およびキーワード二次元可視化プログラム | |
JP4769151B2 (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
JP2008210024A (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
JP6772478B2 (ja) | 情報検索プログラム及び情報検索装置 | |
JP2006127523A (ja) | 文書情報表示システム | |
JP6144968B2 (ja) | 情報提示装置、方法、及びプログラム | |
Kucher et al. | Analysis of VINCI 2009-2017 proceedings | |
JP5368900B2 (ja) | 情報提示装置、情報提示方法およびプログラム | |
JP2007233752A (ja) | 検索装置、コンピュータプログラム及び記録媒体 | |
Paulovich et al. | PEx-WEB: Content-based visualization of Web search results | |
JP6173990B2 (ja) | 検索支援装置、方法およびプログラム | |
JP5989157B2 (ja) | 情報提示装置、方法、及びプログラム | |
EP2026216A1 (en) | Data processing method, computer program product and data processing system |