JP7427510B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP7427510B2
JP7427510B2 JP2020068355A JP2020068355A JP7427510B2 JP 7427510 B2 JP7427510 B2 JP 7427510B2 JP 2020068355 A JP2020068355 A JP 2020068355A JP 2020068355 A JP2020068355 A JP 2020068355A JP 7427510 B2 JP7427510 B2 JP 7427510B2
Authority
JP
Japan
Prior art keywords
clusters
information processing
key phrase
score
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020068355A
Other languages
English (en)
Other versions
JP2021165892A (ja
Inventor
光生 布目
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2020068355A priority Critical patent/JP7427510B2/ja
Priority to US17/184,690 priority patent/US11900060B2/en
Publication of JP2021165892A publication Critical patent/JP2021165892A/ja
Application granted granted Critical
Publication of JP7427510B2 publication Critical patent/JP7427510B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。
業務において用いた文書をデータベースに記録し、記録した文書群を集計したり、解析したりするBI(ビジネスインテリジェンス)ツールが知られている。BIツールは、事前に定義されている手法により解析された複数の解析結果を、ダッシュボード的に同時に表示させることができる。また、BIツールは、文書群の全体の特徴を俯瞰的に表示させたり、全体を表す情報から詳細を表す情報へとドリルダウンさせながら文書群の特徴を表示させたりすることができる。また、BIツールは、クエリ言語およびインタフェースを用いることにより、ユーザが自由に文書群を分類し、分類単位毎に解析結果を表示させることもできる。
しかしながら、一般に、BIツールは、予め定められたフォームの文書を取り扱う。このため、BIツールは、例えば、自由に記述された文書を含む文書群を解析することは困難であった。また、一般に、BIツールは、事前に定義されている手法により解析された解析結果を表示させるので、ダッシュボード的に複数の解析結果を同時に表示したとしても、ユーザにとって意味の無い解析結果も表示されてしまう可能性があった。また、一般に、BIツールは、固定された観点により解析された解析結果が表示されてしまい、ユーザに新たな気付きを与えたり、ユーザに未知の傾向を把握させたりすることが困難であった。また、一般に、BIツールは、ユーザが解析のための手法を定義する場合には、クエリ言語およびインタフェースを操作しなければならなく、専門的な知識を必要としていた。
特開2019-053764号公報 特開2019-067191号公報
本発明が解決しようとする課題は、ユーザに有用な情報を提供するグラフ画像を表示させることができる情報処理装置、情報処理方法およびプログラムを提供することにある。
実施形態に係る情報処理装置は、クラスタリング部と、文書抽出部と、スコア算出部と、クラスタ選択部と、画像生成部とを備える。前記クラスタリング部は、文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成する。前記文書抽出部は、前記文書群から、指定キーフレーズに対応する部分文書群を抽出する。前記スコア算出部は、前記複数のクラスタのそれぞれについて、前記部分文書群における前記複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表すスコアを算出する。前記クラスタ選択部は、前記複数のクラスタのうちの、前記スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択する。前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する。前記指定キーフレーズである第1キーフレーズについて、前記文書抽出部は、前記部分文書群を抽出し、前記スコア算出部は、前記複数のクラスタのそれぞれについて、前記スコアを算出し、前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する。前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれの前記グラフ画像が表示された後、前記指定キーフレーズである第2キーフレーズについて、前記文書抽出部は、前記部分文書群を抽出し、前記スコア算出部は、前記複数のクラスタのそれぞれについて、算出対象クラスタに含まれる前記複数の項目における言語性質と、前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれに含まれる前記複数の項目における言語性質との相違を表す相違度に応じた値に基づき、前記スコアを算出し、前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する。
第1実施形態に係る情報処理装置の構成を示す図。 初期画像の表示例を示す図。 グラフ画像の表示例を示す図。 第1実施形態に係る情報処理装置の事前処理の流れを示すフローチャート。 類似フレーズの一例を示す図。 共起フレーズの一例を示す図。 クラスタリストの一例を示す図。 第1実施形態に係る情報処理装置の解析処理の流れを示すフローチャート。 第2実施形態に係る情報処理装置の解析処理の流れを示すフローチャート。 第2実施形態に係る情報処理装置により表示される画像の遷移を示す図。 第3実施形態に係る情報処理装置の構成を示す図。 第4実施形態に係る情報処理装置の構成を示す図。 第4実施形態に係る情報処理装置による画像の表示例を示す図。 情報処理装置のハードウェア構成を示す図。
以下、図面を参照しながら実施形態に係る情報処理装置10について説明する。各実施形態における同一の参照符号を付した構成要素は、略同一の構成および動作をする。略同一の構成および動作をする構成要素については、相違点を除き重複する説明を適宜省略する。
情報処理装置10は、業務等で作成された複数の文書を含む文書群の特徴を解析する。そして、情報処理装置10は、文書群の特徴を表す複数の画像を同時に表示させる。
文書群に含まれるそれぞれの文書は、テキストを含むデータである。文書は、少なくともテキストを含めば、どのようなデータであってもよい。テキストは、どのような言語であってもよく、プログラムコードであってもよい。また、文書のファイル形式は、情報処理装置10により取り扱いが可能であれば、どのようなものであってもよい。
情報処理装置10は、文書群に含まれるそれぞれの文書から、1または複数のキーフレーズを抽出する。キーフレーズは、単語または複数の単語が並んだセンテンスである。より詳しくは、キーフレーズは、その文書に含まれる内容を表す単語またはセンテンス、その文書に関連する単語またはセンテンス、または、その文書の特徴を表す単語またはセンテンスである。なお、単語およびセンテンスは、どのような言語であってもよく、プログラムコード中のコード列であってもよいし、テキストに含まれる番号であってもよい。
情報処理装置10は、文書群から抽出された複数のキーフレーズをクラスタリングすることにより複数のクラスタを生成する。複数のクラスタのそれぞれは、複数の項目を含む。複数の項目は、そのクラスタに含まれる複数のキーフレーズである。すなわち、複数の項目のそれぞれは、単語またはセンテンスである。
また、情報処理装置10は、文書群から、指定キーフレーズに対応する部分文書群を抽出する。部分文書群は、文書群の一部分である。指定キーフレーズは、複数のキーフレーズの中の1つである。すなわち、指定キーフレーズは、単語またはセンテンスである。
文書群の情報量または部分文書群の情報量は、例えば、文書群または対応する部分文書群に含まれる文書の数である。文書群の情報量または部分文書群の情報量は、例えば、文書群または対応する部分文書群に含まれる文字の数であってもよいし、文書群または対応する部分文書群のデータ量であってもよい。
(第1実施形態)
第1実施形態について説明する。
図1は、第1実施形態に係る情報処理装置10の構成を示す図である。情報処理装置10は、文書群記憶部12と、文書取得部14と、前処理部16と、特徴抽出部18と、クラスタリング部20と、文書情報記憶部22と、クラスタ情報記憶部24と、初期テンプレート記憶部26と、初期画像生成部28と、指定キーフレーズ取得部32と、文書抽出部34と、スコア算出部36と、クラスタ選択部38と、画像テンプレート記憶部40と、画像生成部42と、表示制御部44とを備える。
文書群記憶部12は、文書群を記憶する。文書取得部14は、事前処理において、文書群記憶部12に記憶された文書群に含まれる文書を1つずつ取得する。
前処理部16は、事前処理において、文書取得部14が取得した複数の文書のそれぞれに対して、テキスト抽出処理をする。例えば、前処理部16は、文書に含まれるテキスト以外の不要な部分を削除して、テキストを抽出する。
特徴抽出部18は、事前処理において、文書取得部14が取得した複数の文書のそれぞれに対して、前処理部16により抽出されたテキストを解析することにより1または複数のキーフレーズを抽出する。特徴抽出部18は、文書取得部14が取得した文書と、抽出した1または複数のキーフレーズとを対応付けて、文書情報記憶部22に記憶させる。
クラスタリング部20は、事前処理において、文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成する。クラスタリング部20は、複数のクラスタのそれぞれ毎に、含まれる複数の項目を表すクラスタリストを生成する。クラスタリング部20は、生成したクラスタリストをクラスタ情報記憶部24に記憶させる。また、クラスタリング部20は、複数のクラスタのそれぞれ毎に識別番号を生成し、識別番号をクラスタリストに含めてもよい。また、クラスタリング部20は、複数のクラスタのそれぞれ毎に、そのクラスタを代表する代表語を生成し、代表語をクラスタリストに含めてもよい。また、クラスタリング部20は、複数のクラスタのそれぞれ毎に、含まれる複数の項目の言語的な性質を解析し、複数の項目の言語的な性質を表す言語性質をクラスタリストに含めてもよい。
初期テンプレート記憶部26は、1または複数の初期画像のそれぞれを生成するための情報を記憶する。例えば、初期テンプレート記憶部26は、1または複数の初期画像の生成の元となる集計情報を取得するための、文書情報記憶部22に記憶されたデータベースおよびクラスタ情報記憶部24に記憶されたクラスタリストに与えるクエリを記憶する。また、例えば、初期テンプレート記憶部26は、1または複数の初期画像のそれぞれを生成するための画像フォームを記憶する。
初期画像生成部28は、事前処理の後に実行される解析処理において、初期テンプレート記憶部26から、1または複数の初期画像の生成の元となる集計情報を取得するためのクエリを取得する。そして、初期画像生成部28は、取得したクエリを文書情報記憶部22に記憶されたデータベースおよびクラスタ情報記憶部24に記憶されたクラスタリストに与えて集計情報を取得する。
さらに、初期画像生成部28は、初期テンプレート記憶部26から、1または複数の初期画像のそれぞれを生成するための画像フォームを取得する。そして、初期画像生成部28は、取得した集計情報および画像フォームに基づき、1または複数の初期画像のそれぞれを生成する。初期画像生成部28は、生成した1または複数の初期画像を表示制御部44に与える。
指定キーフレーズ取得部32は、解析処理において、指定キーフレーズを取得する。例えば、指定キーフレーズ取得部32は、1または複数の初期画像が表示された後、ユーザにより入力された指定キーフレーズを取得する。また、例えば、指定キーフレーズ取得部32は、1または複数の初期画像が表示された後、表示履歴または操作履歴等に基づき自動選択された指定キーフレーズを取得してもよい。
文書抽出部34は、指定キーフレーズが取得された場合、文書群から指定キーフレーズに対応する部分文書群を抽出する。より具体的には、文書抽出部34は、文書群のうち、対応する1または複数のキーフレーズの中に指定キーフレーズを含んでいる1または複数の文書を抽出する。また、例えば、文書抽出部34は、文書群のうち、対応する1または複数のキーフレーズの中に指定キーフレーズに類似するフレーズまたは共起されるフレーズを含んでいる1または複数の文書を抽出してもよい。
スコア算出部36は、指定キーフレーズが取得された場合、クラスタ情報記憶部24に記憶されたクラスタリストに含まれる複数のクラスタのそれぞれについて、スコアを算出する。スコアは、グラフ画像に示された情報の有用性を表す。グラフ画像は、指定キーフレーズに対応する部分文書群における、対応するクラスタに含まれる複数の項目毎の情報量を表す画像である。スコアは、有用性が高い程、大きい値となる。
クラスタ選択部38は、指定キーフレーズが取得された場合、複数のクラスタのうちの、スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択する。クラスタ選択部38は、例えば、ダッシュボード画像における所定範囲にグラフ画像を表示することが可能な最大数分の表示対象クラスタを選択する。ダッシュボード画像は、複数のグラフ画像等を同時に含むことができる画像である。クラスタ選択部38は、複数の表示対象クラスタのそれぞれを識別する情報を画像生成部42に与える。
画像テンプレート記憶部40は、複数の項目毎の情報量を表すグラフ画像を生成するための画像フォームを記憶する。
画像生成部42は、指定キーフレーズが取得された場合、複数の表示対象クラスタのそれぞれについて、指定キーフレーズに対応する部分文書群における複数の項目毎の情報量を算出する。例えば、画像生成部42は、対象となる表示対象クラスタに含まれる複数の項目のそれぞれについて、指定キーフレーズに対応する部分文書群に含まれる文書の数を情報量として算出する。また、画像生成部42は、対象となる表示対象クラスタに含まれる複数の項目のそれぞれについて、指定キーフレーズに対応する部分文書群に含まれる文字の数またはデータ量を情報量として算出してもよい。
さらに、画像生成部42は、画像テンプレート記憶部40に記憶された画像フォームを取得する。そして、画像生成部42は、複数の表示対象クラスタのそれぞれについて、算出した複数の項目のそれぞれの情報量および画像フォームに基づき、グラフ画像を生成する。画像生成部42は、生成した複数のグラフ画像を表示制御部44に与える。
表示制御部44は、解析処理において、1または複数の初期画像を取得する。表示制御部44は、1または複数の初期画像をモニタに表示させる。例えば、表示制御部44は、1または複数の初期画像を、ダッシュボード画像の所定の範囲に合成して表示させる。
また、表示制御部44は、指定キーフレーズが取得された場合、複数の表示対象クラスタのそれぞれのグラフ画像を取得する。表示制御部44は、複数の表示対象クラスタのそれぞれのグラフ画像を取得した場合、1または複数の初期画像に加えてまたは代えて、複数の表示対象クラスタのそれぞれのグラフ画像をモニタに表示させる。例えば、表示制御部44は、複数の表示対象クラスタのそれぞれのグラフ画像を、ダッシュボード画像の所定の範囲に合成して表示させる。
なお、情報処理装置10は、表示制御部44を備えない構成であってもよい。この場合、表示制御部44は、情報処理装置10以外の装置により実現される。例えば、情報処理装置10がネットワーク上のサーバ装置である場合、表示制御部44は、サーバ装置と通信を行って画像処理を実行するクライアント装置または端末装置により実現されてもよい。この場合、表示制御部44は、クライアント装置または端末装置のモニタに画像を表示させる。
図2は、初期画像を含むダッシュボード画像の一例である第1ダッシュボード画像110を示す図である。
解析処理において、情報処理装置10は、ダッシュボード画像として、図2に示すような、第1ダッシュボード画像110をモニタに表示する。
第1ダッシュボード画像110は、最初の段階において、初期画像の一例である第1初期画像112と、初期画像の一例である第2初期画像114とを含む。
第1初期画像112は、年毎に、文書群に含まれる文書の数を表す棒グラフを表す。第1初期画像112は、横軸が年を表し、縦軸が文書の数を表す。
第2初期画像114は、文書群から抽出した複数のキーフレーズを表したタグクラウド図である。例えば、タグクラウド図は、発生頻度等に応じて、表示する大きさおよび濃度等が調整された複数のキーフレーズを含む。また、タグクラウド図は、例えば類似するキーフレーズ同士のフォント、色および向きを共通化している。
なお、初期画像は、円グラフ、折れ線グラフ、棒グラフ、累積値を表す折れ線グラフを組み合わせたパレート図、または、共起ネットワーク図等であってもよい。また、初期画像は、横軸がクラスタリストに含まれる複数のクラスタを示し、縦軸が対応するクラスタの情報量を示す棒グラフであってもよい。また、クラスタリストに含まれる複数のクラスタの数が多い場合には、横軸は、クラスタリストに含まれる複数のクラスタのうちの情報量の多い一部のクラスタを示してもよい。また、クラスタリストに含まれる複数のクラスタの数が多い場合には、横軸は、いくつかのクラスタをまとめた単位であってもよい。
さらに、第1ダッシュボード画像110は、ユーザが指定キーフレーズを入力するための入力ボックス120を含む。情報処理装置10は、ユーザにより入力ボックス120に直接入力された用語を指定キーフレーズとして取得する。また、情報処理装置10は、複数のキーフレーズを含むプルダウンメニュー等を表示させて、ユーザに指定キーフレーズを選択させてもよい。
また、初期画像としてタグクラウド図を表示している場合、情報処理装置10は、ユーザによりタグクラウド図に含まれる何れかのキーフレーズが選択された場合、選択されたキーフレーズを指定キーフレーズとして取得してもよい。また、横軸が複数のクラスタを示すような初期画像を表示している場合、情報処理装置10は、ユーザにより何れかのクラスタが選択された場合、選択されたクラスタの代表語を指定キーフレーズとして取得してもよい。
さらに、第1ダッシュボード画像110は、項目情報122を含む。項目情報122は、入力ボックス120に入力された指定キーフレーズに対応するクラスタに含まれる複数の項目を表す。例えば、情報処理装置10は、入力ボックス120に何れかのクラスタの代表語が仮入力された場合、項目情報122を表示する。
また、第1ダッシュボード画像110は、サーチボタン124を含む。入力ボックス120に指定キーフレーズが仮入力された状態で、サーチボタン124が押された場合、情報処理装置10は、指定キーフレーズを取得し、複数のグラフ画像を生成し、生成した複数のグラフ画像を第1ダッシュボード画像110に追加する。
図3は、グラフ画像を含む第1ダッシュボード画像110の一例を示す図である。情報処理装置10は、入力ボックス120に指定キーフレーズが入力された状態で、サーチボタン124が押された場合、図3に示すような、第1ダッシュボード画像110をモニタに表示する。また、例えば第2初期画像114のようなタグクラウド図を表示している場合、情報処理装置10は、ユーザによりタグクラウド図に含まれる何れかのキーフレーズが選択されたことに応じて、図3に示すような第1ダッシュボード画像110をモニタに表示してもよい。
図3に示す第1ダッシュボード画像110は、第1グラフ画像132、第2グラフ画像134、第3グラフ画像136および第4グラフ画像138を、さらに含む。第1グラフ画像132、第2グラフ画像134、第3グラフ画像136および第4グラフ画像138のそれぞれは、指定キーフレーズとして“紛失”を取得した場合に表示されるグラフ画像の一例である。
第1グラフ画像132、第2グラフ画像134、第3グラフ画像136および第4グラフ画像138は、複数のクラスタのうちスコアが最上位から4番目までの4つの表示対象クラスタに基づき生成されたグラフ画像である。
第1グラフ画像132は、指定キーフレーズとして“紛失”を入力した場合に抽出される部分文書群における、代表語が“プロセス”のクラスタに含まれる複数の項目毎の情報量を表す棒グラフである。第2グラフ画像134は、指定キーフレーズとして“紛失”を入力した場合に抽出される部分文書群における、代表語が“事象”のクラスタに含まれる複数の項目毎の情報量を表す棒グラフである。
第3グラフ画像136は、指定キーフレーズとして“紛失”を入力した場合に抽出される部分文書群における、代表語が“原因”のクラスタに含まれる複数の項目毎の情報量を表す棒グラフである。第4グラフ画像138は、指定キーフレーズとして“紛失”を入力した場合に抽出される部分文書群における、代表語が“担当者”のクラスタに含まれる複数の項目毎の情報量を表す棒グラフである。
図4は、第1実施形態に係る情報処理装置10の事前処理の流れを示すフローチャートである。図5は、類似フレーズの一例を示す図である。図6は、共起フレーズの一例を示す図である。図7は、クラスタテーブルの一例を示す図である。
情報処理装置10は、図4に示す流れで事前処理を実行する。事前処理において、まず、情報処理装置10は、文書群に含まれる文書毎に、S12~S14の処理を実行する(S11とS15との間のループ処理)。
S12において、情報処理装置10は、対象の文書に対して、テキスト抽出処理をする。例えば、情報処理装置10は、文書に含まれるテキスト以外の不要な部分を削除して、テキストを抽出する。
より具体的には、例えば、情報処理装置10は、対象の文書のファイルフォーマットを考慮して、1または複数のデータ項目、および、1または複数のデータ項目のそれぞれに対応する情報内容を抽出する。情報処理装置10は、1または複数のデータ項目のそれぞれを解析して、対象の文書の実質的な内容を表すテキストが含まれるデータ項目を特定する。そして、例えば、情報処理装置10は、特定したデータ項目に対応する情報内容から、そのデータ項目に依存する情報(例えば、見出しおよび記号等)を削除して、テキストを取得する。
続いて、S13において、情報処理装置10は、対象の文書から抽出されたテキストに対して、例えば形態素解析および複合語抽出処理等を行って、取得した文書に対する1または複数のキーフレーズを生成する。
さらに、情報処理装置10は、生成した1または複数のキーフレーズのそれぞれの分散表現を取得する。そして、情報処理装置10は、生成した1または複数のキーフレーズのそれぞれについて、1または複数の類似フレーズを取得する。例えば、情報処理装置10は、分散表現とされたキーフレーズを、テキストにおける前後に含まれる分散表現とされた単語とともに、ニューラルネットワークに与えることにより、そのキーフレーズと類似した類似フレーズを、類似度とともに取得することができる。
例えば、図5に示すように、情報処理装置10は、“障害物”がキーフレーズである場合、“歩行者”および“車”等を類似フレーズとして取得する。また、情報処理装置10は、“転倒”がキーフレーズである場合、“怪我”および“落下”等を類似フレーズとして取得する。情報処理装置10は、複数のキーフレーズのそれぞれについて、例えば、類似度が上位から所定個の類似フレーズを取得する。また、情報処理装置10は、図5のカッコ内に示すように、類似フレーズとともに、類似度を表す数値を取得してもよい。
また、さらに、情報処理装置10は、生成した1または複数のキーフレーズのそれぞれについて、そのキーフレーズとともに同一の文に含まれる可能性の高い1または複数の共起フレーズを取得してもよい。例えば、情報処理装置10は、文章に出現する単語の共起情報に基づいて、キーフレーズに対する共起フレーズを取得する。また、例えば、情報処理装置10は、共起フレーズとともに、jaccard係数等に基づき、同一の文に含まれる可能性を表す係数を算出してもよい。
例えば、図6に示すように、情報処理装置10は、“不備”がキーフレーズである場合、“置”を共起フレーズとして取得する。この場合、情報処理装置10は、係数として、0.08550を算出している。
続いて、S14において、情報処理装置10は、対応する文書と、抽出した1または複数のキーフレーズとを対応付けて、文書情報記憶部22に記憶させる。さらに、情報処理装置10は、類似フレーズおよび共起フレーズを取得した場合、これらも併せて文書情報記憶部22に記憶させる。
情報処理装置10は、文書群に含まれる全ての文書についてS13およびS14の処理を終了した場合(S15)、処理をS16に進める。
S16において、情報処理装置10は、文書群に含まれる複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成する。例えば、情報処理装置10は、k-means法等のボトムアップクラスタリング法により、複数のクラスタを生成する。例えば、情報処理装置10は、予めクラスタ数の閾値を設定しておき、クラスタ数が閾値に達するまでクラスタリングをする。
例えば、図7に示すように、情報処理装置10は、複数のクラスタのそれぞれ毎に、含まれる複数の項目を表すクラスタリストを生成する。情報処理装置10は、複数のクラスタのそれぞれに、クラスタを識別するための識別番号を割り当てて、クラスタリストに含める。また、情報処理装置10は、複数のクラスタのそれぞれ毎に、そのクラスタを代表する代表語を生成し、クラスタリストに含める。代表語は、対応するクラスタに含まれる複数の項目のうちの何れか1つであってもよいし、複数の項目に共通する概念を表す用語であってもよい。
さらに、情報処理装置10は、複数のクラスタのそれぞれ毎に、含まれる複数の項目の言語的な性質を解析し、複数の項目の言語的な性質を表す言語性質を特定し、特定した言語性質をクラスタリストに含める。例えば、情報処理装置10は、対応するクラスタに含まれる複数の項目がオブジェクトまたはアクションの何れを表すかを判断し、判断結果を対応するクラスタの言語性質としてもよい。例えば、情報処理装置10は、複数の項目に、名詞、品目、型番および機器名等が多く含まれる場合には、オブジェクトとして判断してもよい。また、例えば、情報処理装置10は、複数の項目に、現象および動作等が多く含まれる場合には、アクションとして判断してもよい。また、情報処理装置10は、複数の項目が表す内容をさらに詳細に解析して、言語性質をさらに詳細に区別して判断してもよい。
続いて、S17において、情報処理装置10は、生成したクラスタリストをクラスタ情報記憶部24に記憶させる。情報処理装置10は、S17の処理を終了すると、図4の事前処理のフローを終了する。
図8は、第1実施形態に係る情報処理装置10の解析処理の流れを示すフローチャートである。情報処理装置10は、図4に示す事前処理が終了した後、ユーザ等の指示に応じて図8に示す解析処理を実行する。
まず、S21において、情報処理装置10は、予め設定された1または複数の初期画像を生成する。例えば、情報処理装置10は、1または複数の初期画像のそれぞれについて、初期テンプレート記憶部26からクエリを取得する。そして、情報処理装置10は、取得したクエリを文書情報記憶部22およびクラスタ情報記憶部24に与えて、1または複数の初期画像のそれぞれを生成するための集計情報を取得する。
さらに、情報処理装置10は、1または複数の初期画像のそれぞれについて、初期テンプレート記憶部26から画像フォームを取得する。そして、情報処理装置10は、取得した集計情報および画像フォームに基づき、1または複数の初期画像のそれぞれを生成する。
続いて、S22において、情報処理装置10は、1または複数の初期画像をモニタに表示させる。この場合において、情報処理装置10は、例えば、ダッシュボード画像上に1または複数の初期画像を合成して、モニタに表示させる。
続いて、S23において、情報処理装置10は、ユーザにより指定された指定キーフレーズを取得する。これに代えて、情報処理装置10は、表示履歴または操作履歴等に基づき自動選択された指定キーフレーズを取得してもよい。
続いて、S24において、情報処理装置10は、文書群から指定キーフレーズに対応する部分文書群を抽出する。より具体的には、情報処理装置10は、文書群のうち、対応する1または複数のキーフレーズの中に指定キーフレーズを含んでいる1または複数の文書を抽出する。また、情報処理装置10は、文書群のうち、対応する1または複数のキーフレーズの中に、指定キーフレーズに類似するまたは共起されるフレーズを含んでいる1または複数の文書を抽出してもよい。
続いて、S25からS27のループ処理において、情報処理装置10は、クラスタ情報記憶部24に記憶されたクラスタリストに含まれる複数のクラスタのそれぞれについて、スコアを算出する。スコアは、指定キーフレーズに対応する部分文書群における、対応するクラスタに含まれる複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表す。スコアは、有用性が高い程、大きい値となる。なお、スコアの算出例については、詳細を後述する。情報処理装置10は、複数のクラスタの全てについてスコアを算出した場合、処理をS28に進める。
S28において、情報処理装置10は、複数のクラスタのうちの、算出されたスコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択する。情報処理装置10は、例えば、ダッシュボード画像における所定の表示範囲内にグラフ画像を表示することが可能な最大数分の表示対象クラスタを選択する。
続いて、S29において、情報処理装置10は、複数の表示対象クラスタのそれぞれに対応するグラフ画像を生成する。例えば、情報処理装置10は、複数の表示対象クラスタのそれぞれについて、指定キーフレーズに対応する部分文書群における複数の項目毎の情報量を算出する。例えば、情報処理装置10は、対象となる表示対象クラスタに含まれる複数の項目のそれぞれについて、部分文書群に含まれる文書の数を情報量として算出する。また、情報処理装置10は、対象となる表示対象クラスタに含まれる複数の項目のそれぞれについて、部分文書群に含まれる文字の数またはデータ量を情報量として算出してもよい。
さらに、情報処理装置10は、画像テンプレート記憶部40に記憶された画像フォームを取得する。そして、情報処理装置10は、複数の表示対象クラスタのそれぞれについて、算出した複数の項目のそれぞれの情報量および画像フォームに基づき、グラフ画像を生成する。
続いて、S30において、情報処理装置10は、複数の表示対象クラスタのそれぞれのグラフ画像を、1または複数の初期画像に追加してモニタに表示させる。例えば、情報処理装置10は、複数の表示対象クラスタのそれぞれのグラフ画像を、ダッシュボード画像上に1または複数の初期画像とともに合成して表示させる。
そして、第1実施形態に係る情報処理装置10は、S30の終了の後に、解析処理のフローを終了する。
つぎに、第1実施形態において情報処理装置10のスコア算出部36が算出する、複数のクラスタのそれぞれのスコアについて説明する。
情報処理装置10は、i番目(iは1以上の整数)のクラスタに対して、下記の式(1)の演算を行い、スコアを算出する。
Sx(i)=A×B…(1)
Aは、i番目のクラスタのカバー率に応じた値である。カバー率とは、文書群の情報量に対する、算出対象クラスタ(i番目のクラスタ)に属する複数の文書の情報量の割合を示す。例えば、Aは、正の整数である。Aは、カバー率が大きい程、大きい。
Bは、指定キーフレーズに対応する部分文書群における、算出対象クラスタ(i番目のクラスタ)に含まれる複数の項目毎の情報量の特定の項目への集中度に応じた値である。より具体的には、Bは、算出対象クラスタ(i番目のクラスタ)に含まれる複数の項目毎の情報量が特定の項目に情報量が集中している程、大きくなり、算出対象クラスタに含まれる複数の項目毎の情報量が多数の項目にばらついているほど、小さくなる。例えば、Bは、正の整数である。Bは、分散の逆数が大きい程、大きい。例えば、Bは、算出対象クラスタに含まれる複数の項目毎の情報量の分散の逆数に応じた値であってもよい。
Sx(i)は、大きい程、有用性が高い。従って、情報処理装置10は、複数のクラスタのうちの、Sx(i)が大きい順に所定個を複数の表示対象クラスタとして選択する。
ここで、Sx(i)は、Aが大きい程、大きくなる。従って、情報処理装置10は、算出対象クラスタについて、カバー率が大きい程、グラフ画像に示された情報の有用性が高いとして、スコアを大きくする。カバー率が大きいクラスタのグラフ画像は、文書群の全体の特徴に近い特徴を表し、ユーザに文書群の全体の傾向を気付かせることができる。
このように、情報処理装置10は、文書群の情報量に対する、算出対象クラスタに属する複数の文書の情報量の割合を示すカバー率に基づき、スコアを算出する。この場合、情報処理装置10は、カバー率が大きい程、スコアを大きくする。これにより、情報処理装置10は、文書群の全体の特徴に近いクラスタについてのグラフ画像を表示させることができ、ユーザに有用な情報を提供することができる。
また、Sx(i)は、Bが大きい程、大きくなる。従って、情報処理装置10は、算出対象クラスタについて、集中度が大きい程(すなわち、情報量が特定の項目に集中している程)、グラフ画像に示された情報の有用性が高いとして、スコアを大きくする。集中度が大きいクラスタのグラフ画像は、ある特定の項目の情報量が著しく大きく、他の複数の項目の情報量が小さいようなグラフを表す。このようなグラフ画像は、部分文書群についての特異な特徴を表しており、ユーザに新たな気付きを与えることができる。
このように、情報処理装置10は、算出対象クラスタについて、部分文書群における複数の項目毎の情報量の集中度に基づき、スコアを算出する。この場合、情報処理装置10は、集中度が大きい程、スコアを大きくする。これにより、情報処理装置10は、部分文書群の特異な特徴を表すクラスタについてのグラフ画像を表示させることができ、ユーザに有用な情報を提供することができる。
なお、式(1)は、AとBとの乗算を表している。しかし、式(1)は、Aが大きくなるほど、Sx(i)が大きくなり、且つ、Bが大きくなるほど、Sx(i)が大きくなれば、他の演算(例えばAとBとの加算)であってもよい。
以上のように、本実施形態に係る情報処理装置10は、文書群から抽出された複数のキーフレーズをクラスタリングすることにより複数のクラスタを生成する。さらに、指定キーフレーズを取得した場合、情報処理装置10は、複数のクラスタのそれぞれについて、スコアを算出する。そして、情報処理装置10は、スコアが最上位から予め定められた順位までの複数の表示対象クラスタに対応する複数のグラフ画像を表示させる。
これにより、本実施形態に係る情報処理装置10は、ユーザに有用な情報を提供するグラフ画像を表示させることができる。
(第2実施形態)
つぎに、第2実施形態について説明する。
第2実施形態に係る情報処理装置10は、第1実施形態に係る情報処理装置10と同一の構成を有する。第2実施形態に係る情報処理装置10は、第1実施形態と比較して、指定キーフレーズを複数回取得することが相違する。
図9は、第2実施形態に係る情報処理装置10の解析処理の流れを示すフローチャートである。
第2実施形態に係る情報処理装置10は、解析処理において、第1実施形態と同様にS21からS30までの処理を実行する。ただし、第2実施形態に係る情報処理装置10は、S30の終了の後に、解析処理のフローを終了せずに、処理をS23に戻して、再度、指定キーフレーズを取得する。そして、第2実施形態に係る情報処理装置10は、指定キーフレーズを取得する毎に、S23からS30の処理を繰り返して実行する。
図10は、第2実施形態に係る情報処理装置10により表示される画像の遷移を示す図である。
例えば、情報処理装置10は、初期画像が表示された後に、指定キーフレーズとして第1キーフレーズを取得したとする。この場合、第1キーフレーズについて、情報処理装置10は、部分文書群を抽出し、複数のクラスタのそれぞれについてスコアを算出し、複数の表示対象クラスタを選択し、複数の表示対象クラスタのそれぞれのグラフ画像を生成し、複数の表示対象クラスタのそれぞれのグラフ画像を表示させる。
続いて、第1キーフレーズについて選択された複数の表示対象クラスタのそれぞれのグラフ画像が表示された後、情報処理装置10は、指定キーフレーズとして第2キーフレーズを取得したとする。この場合、第2キーフレーズについて、情報処理装置10は、部分文書群を抽出し、複数のクラスタのそれぞれについてスコアを算出し、複数の表示対象クラスタを選択し、複数の表示対象クラスタのそれぞれのグラフ画像を生成し、複数の表示対象クラスタのそれぞれのグラフ画像を表示させる。
この場合において、情報処理装置10は、第1キーフレーズについて選択された複数の表示対象クラスタのそれぞれのグラフ画像に追加して、第2キーフレーズについて選択された複数の表示対象クラスタのそれぞれのグラフ画像を表示させる。これにより、情報処理装置10は、第1キーフレーズに対応する部分文書群の特徴と、第2キーフレーズに対応する部分文書群の特徴とを並べてユーザに提示することができる。なお、情報処理装置10は、さらに、第2キーフレーズの後に指定される指定キーフレーズである第3キーフレーズ以降も、同様に処理を実行してもよい。
また、第2キーフレーズについて、情報処理装置10は、文書群の全体から、第2キーフレーズに対応する部分文書群を抽出する。これにより、情報処理装置10は、文書群の全体の中における第2キーフレーズに対応する部分文書群の特徴をユーザに提示することができる。
また、第2キーフレーズについて、情報処理装置10は、第1キーフレーズに対応する部分文書群から、第2キーフレーズに対する部分文書群を抽出してもよい。これにより、情報処理装置10は、第1キーフレーズに対応する部分文書群を第2キーフレーズでさらにドリルダウンした部分文書群の特徴をユーザに提示することができる。
つぎに、第2実施形態において情報処理装置10のスコア算出部36が算出する、複数のクラスタのそれぞれのスコアについて説明する。
まず、第1キーフレーズについて、情報処理装置10は、第1実施形態と同様にスコアを算出する。すなわち、情報処理装置10は、式(1)に示す演算を行い、スコアを算出する。
第2キーフレーズが取得された場合、情報処理装置10は、i番目(iは1以上の整数)のクラスタに対して、下記の式(2)の演算を行い、スコアを算出する。
Sx(i)=A×B×C…(2)
式(2)において、AおよびBは、式(1)と同様である。
Cは、i番目のクラスタに含まれる複数の項目における言語性質と、第1キーフレーズについて選択された複数の表示対象クラスタのそれぞれに含まれる複数の項目における言語性質との相違を表す相違度に応じた値を表す。より具体的には、Cは、算出対象クラスタ(i番目のクラスタ)に含まれる複数の項目毎の言語性質と、第1キーフレーズについて選択された複数の表示対象クラスタのそれぞれに含まれる複数の項目における言語性質とが、異なっている程、大きくなり、類似している程、小さくなる。例えば、Cは、正の整数である。Cは、相違度が大きい程、大きい。例えば、Cは、i番目のクラスタに含まれる複数の項目における言語性質と、第1キーフレーズについて選択された複数の表示対象クラスタのそれぞれに含まれる複数の項目における言語性質との類似度の逆数に応じた値であってもよい。
ここで、Sx(i)は、Cが大きい程、大きくなる。従って、情報処理装置10は、算出対象クラスタ(i番目のクラスタ)について、相違度が大きい程、グラフ画像に示された情報の有用性が高いとして、スコアを大きくする。相違度の大きいクラスタのグラフ画像は、これまでに表示されていない種類のグラフ画像であり、ユーザに新たな気付きを与えることができる。
例えば、情報処理装置10は、複数の表示対象クラスタにおける、算出対象クラスタ(i番目のクラスタ)と同一の言語性質のクラスタの割合が小さい程、スコアを大きくする。より具体的には、例えば、情報処理装置10は、i番目のクラスタの言語性質がオブジェクトである場合、複数の表示対象クラスタにおける、言語性質がオブジェクトのクラスタの割合が小さい程、相違度が大きいとしてスコアを大きくする。また、例えば、情報処理装置10は、i番目のクラスタの言語性質がアクションである場合、複数の表示対象クラスタにおける、言語性質がアクションのクラスタの割合が小さい程、相違度が大きいとして、スコアを大きくする。
なお、式(2)は、AとBとCとの乗算を表している。しかし、式(2)は、A、BおよびCのそれぞれが大きくなるほど、Sx(i)が大きくなれば、他の演算(例えばAとBとCとの加算)であってもよい。
また、第2キーフレーズの後に、指定キーフレーズとして第3キーフレーズが指定された場合においても、情報処理装置10は、i番目のクラスタに対して、式(2)の演算を行い、スコアを算出する。この場合において、Cは、i番目のクラスタに含まれる複数の項目における言語性質と、これまでに選択された複数の表示対象クラスタのそれぞれに含まれる複数の項目における言語性質との相違度に応じた値を表す。第4キーフレーズ以降も同様である。
以上のような、本実施形態に係る情報処理装置10は、複数の指定キーフレーズのそれぞれに対応する部分文書群の特徴を表す複数のグラフ画像を同時に表示させる場合において、ユーザに有用な情報を提供するグラフ画像を表示させることができる。
(第3実施形態)
つぎに、第3実施形態について説明する。
図11は、第3実施形態に係る情報処理装置10の構成を示す図である。第3実施形態に係る情報処理装置10は、第1実施形態および第2実施形態に係る情報処理装置10と同一の構成を有する。
第3実施形態に係る情報処理装置10は、第1実施形態および第2実施形態と比較して、有用性情報取得部62と、履歴記憶部64とをさらに備える。
有用性情報取得部62は、指定キーフレーズについての複数の表示対象クラスタのそれぞれのグラフ画像に対する、ユーザによる有用性の判断結果を受け付ける。
例えば、表示制御部44は、複数の表示対象クラスタのそれぞれのグラフ画像を表示させるとともに、それぞれのグラフ画像に対応させて有用であるか否かの判断結果を入力するボタン等のユーザインタフェースを表示させる。そして、有用性情報取得部62は、このユーザインタフェースに対する入力結果を、有用性の判断結果として取得する。また、有用性情報取得部62は、複数の表示対象クラスタのそれぞれのグラフ画像が表示された後、ユーザの操作によりグラフ画像が消去されたか否かを取得してもよい。この場合、有用性情報取得部62は、ユーザの操作により消去されたグラフ画像を、ユーザが有用ではないとする判断結果として取得する。
履歴記憶部64は、指定キーフレーズと、ユーザから受け付けた判断結果との組を含む履歴情報を記憶する。履歴記憶部64は、使用しているユーザを識別するユーザIDをさらに含む履歴情報を記憶してもよい。
そして、第3実施形態において、スコア算出部36は、指定キーフレーズについての履歴情報に基づき、複数のクラスタのそれぞれについてのスコアを算出する。例えば、スコア算出部36は、算出対象クラスタが、指定キーフレーズについて有用であると履歴情報に示されている程、スコアを大きくする。
例えば、スコア算出部36は、過去において、算出対象クラスタについてのグラフ画像が、指定キーフレーズに対応する部分文書群の解析に有用であるとユーザにより判断がされている場合、スコアを大きくする。反対に、スコア算出部36は、有用でないとユーザにより判断されている場合、スコアを小さくする。
また、例えば、スコア算出部36は、過去において、予め設定されたユーザが、算出対象クラスタについてのグラフ画像が、指定キーフレーズに対応する部分文書群の解析に有用であると判断している場合に、スコアを大きくする。予め設定されたユーザは、例えば、経験の豊富なユーザ等である。
以上のような、本実施形態に係る情報処理装置10は、ユーザの過去の判断結果に基づき、ユーザにより有用な情報を提供するグラフ画像を表示させることができる。
(第4実施形態)
つぎに、第4実施形態について説明する。
図12は、第4実施形態に係る情報処理装置10の構成を示す図である。第4実施形態に係る情報処理装置10は、第1実施形態、第2実施形態および第3実施形態に係る情報処理装置10と同一の構成を有する。
第4実施形態に係る情報処理装置10は、第1実施形態、第2実施形態および第3実施形態と比較して、種別選択部72をさらに備える。
画像テンプレート記憶部40は、グラフ画像を生成するための複数種類の画像フォームを記憶する。例えば、画像テンプレート記憶部40は、棒グラフを生成するための画像フォーム、円グラフを表示するための画像フォーム、および、パレート図を表示するための画像フォームを記憶する。画像テンプレート記憶部40は、これら以外のグラフ画像を生成するための情報を記憶してもよい。
さらに、画像テンプレート記憶部40は、グラフ画像以外の、クラスタの特徴を表す複数の特徴画像を生成するための画像フォームを記憶してもよい。例えば、画像テンプレート記憶部40は、タグクラウド図を生成するための画像フォーム、および、共起ネットワーク図を生成するための画像フォームを記憶してもよい。
種別選択部72は、クラスタ選択部38により選択された複数の表示対象クラスタのそれぞれについて、グラフ画像を生成するための複数種類の画像フォームのうち、何れの画像フォームによりグラフ画像を生成するか否かを選択する。例えば、種別選択部72は、複数の表示対象クラスタのそれぞれについて、複数種類の画像フォームのそれぞれについて評価値を算出し、評価値の最も高い画像フォームを選択する。
さらに、種別選択部72は、グラフ画像以外のクラスタの特徴を表す複数の特徴画像、および、複数の表示対象クラスタのそれぞれのグラフ画像のうちの、予め定められた個数の画像を選択する。予め定められた個数は、例えば、ダッシュボード画像の所定の範囲に含めることができる画像の最大数である。
種別選択部72は、例えば、複数の特徴画像のそれぞれ、および、複数のグラフ画像のそれぞれについて、評価値を算出する。評価値は、その画像に示される情報の有用性を表す。種別選択部72は、複数の特徴画像、および、複数のグラフ画像のうちの、評価値が最上位から予め定められた順位までの画像を選択する。
画像生成部42は、複数の特徴画像および複数のグラフ画像のうち、種別選択部72により選択された複数の画像を生成する。そして、表示制御部44は、画像生成部42により生成された複数の画像を、ダッシュボード画像の所定の範囲に合成して表示させる。
図13は、第4実施形態に係る情報処理装置10による画像の表示例を示す図である。 第4実施形態において、情報処理装置10は、入力ボックス120に指定キーフレーズが入力された状態で、サーチボタン124が押された場合、図13に示すような、第1ダッシュボード画像110をモニタに表示する。
図13に示す第1ダッシュボード画像110は、第1グラフ画像132、第2グラフ画像134および第3グラフ画像136に加えて、共起ネットワーク画像152を含む。このように、第4実施形態に係る情報処理装置10は、グラフ画像に加えて、部分文書群の特徴を表す共起ネットワーク画像152等の特徴画像を表示することができる。
以上のように、本実施形態に係る情報処理装置10は、様々な種類の画像のうちユーザにより有用な情報を提供する画像を表示させることができる。
(ハードウェア構成)
図14は、実施形態に係る情報処理装置10のハードウェア構成の一例を示す図である。情報処理装置10は、例えば図14に示すようなハードウェア構成のコンピュータにより実現される。情報処理装置10は、CPU(Central Processing Unit)301と、RAM(Random Access Memory)302と、ROM(Read Only Memory)303と、操作入力装置304と、表示装置305と、記憶装置306と、通信装置307とを備える。そして、これらの各部は、バスにより接続される。
CPU301は、プログラムに従って演算処理および制御処理等を実行するプロセッサである。CPU301は、RAM302の所定領域を作業領域として、ROM303および記憶装置306等に記憶されたプログラムとの協働により各種処理を実行する。
RAM302は、SDRAM(Synchronous Dynamic Random Access Memory)等のメモリである。RAM302は、CPU301の作業領域として機能する。ROM303は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。
操作入力装置304は、マウスおよびキーボード等の入力デバイスである。操作入力装置304は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をCPU301に出力する。
表示装置305は、LCD(Liquid Crystal Display)等の表示デバイスである。表示装置305は、CPU301からの表示信号に基づいて、各種情報を表示する。
記憶装置306は、フラッシュメモリ等の半導体による記憶媒体、または、磁気的若しくは光学的に記録可能な記憶媒体等にデータを書き込みおよび読み出しをする装置である。記憶装置306は、CPU301からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。通信装置307は、CPU301からの制御に応じて外部の機器とネットワークを介して通信する。
情報処理装置10で実行されるプログラムは、文書取得モジュールと、前処理モジュールと、特徴抽出モジュールと、クラスタリングモジュールと、初期画像生成モジュールと、指定キーフレーズ取得モジュールと、文書抽出モジュールと、スコア算出モジュールと、クラスタ選択モジュールと、画像生成モジュールと、表示制御モジュールとを含むモジュール構成となっている。このプログラムは、CPU301(プロセッサ)によりRAM302上に展開して実行されることにより、情報処理装置10を文書取得部14、前処理部16、特徴抽出部18、クラスタリング部20、初期画像生成部28、指定キーフレーズ取得部32、文書抽出部34、スコア算出部36、クラスタ選択部38、画像生成部42および表示制御部44として機能させる。なお、文書取得部14、前処理部16、特徴抽出部18、クラスタリング部20、初期画像生成部28、指定キーフレーズ取得部32、文書抽出部34、スコア算出部36、クラスタ選択部38、画像生成部42および表示制御部44の一部または全部がハードウェア回路で実現されてもよい。また、RAM302および記憶装置306は、文書情報記憶部22、クラスタ情報記憶部24、初期テンプレート記憶部26および画像テンプレート記憶部40として機能する。
また、情報処理装置10で実行されるプログラムは、コンピュータにインストール可能な形式または実行可能な形式のファイルで、CD-ROM、フレキシブルディスク、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、情報処理装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、情報処理装置10で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、情報処理装置10で実行されるプログラムを、ROM303等に予め組み込んで提供するように構成してもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 情報処理装置
12 文書群記憶部
14 文書取得部
16 前処理部
18 特徴抽出部
20 クラスタリング部
22 文書情報記憶部
24 クラスタ情報記憶部
26 初期テンプレート記憶部
28 初期画像生成部
32 指定キーフレーズ取得部
34 文書抽出部
36 スコア算出部
38 クラスタ選択部
40 画像テンプレート記憶部
42 画像生成部
44 表示制御部
62 有用性情報取得部
64 履歴記憶部
72 種別選択部
110 第1ダッシュボード画像
112 第1初期画像
114 第2初期画像
120 入力ボックス
122 項目情報
124 サーチボタン
132 第1グラフ画像
134 第2グラフ画像
136 第3グラフ画像
138 第4グラフ画像
152 共起ネットワーク画像

Claims (14)

  1. 文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成するクラスタリング部と、
    前記文書群から、指定キーフレーズに対応する部分文書群を抽出する文書抽出部と、
    前記複数のクラスタのそれぞれについて、前記部分文書群における前記複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表すスコアを算出するスコア算出部と、
    前記複数のクラスタのうちの、前記スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択するクラスタ選択部と、
    前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する画像生成部と、
    を備え
    前記指定キーフレーズである第1キーフレーズについて、
    前記文書抽出部は、前記部分文書群を抽出し、
    前記スコア算出部は、前記複数のクラスタのそれぞれについて、前記スコアを算出し、
    前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、
    前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成し、
    前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれの前記グラフ画像が表示された後、前記指定キーフレーズである第2キーフレーズについて、
    前記文書抽出部は、前記部分文書群を抽出し、
    前記スコア算出部は、前記複数のクラスタのそれぞれについて、算出対象クラスタに含まれる前記複数の項目における言語性質と、前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれに含まれる前記複数の項目における言語性質との相違を表す相違度に応じた値に基づき、前記スコアを算出し、
    前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、
    前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する
    情報処理装置。
  2. 前記文書群に含まれるそれぞれの文書は、テキストを含むデータであり、
    前記複数のキーフレーズ、前記複数の項目および指定キーフレーズのそれぞれは、単語またはセンテンスである
    請求項1に記載の情報処理装置。
  3. 前記スコア算出部は、前記部分文書群における、算出対象クラスタに含まれる前記複数の項目毎の情報量の特定の項目への集中度に基づき、前記スコアを算出する
    請求項1または2に記載の情報処理装置。
  4. 前記スコア算出部は、前記集中度が大きい程、前記スコアを大きくする
    請求項3に記載の情報処理装置。
  5. 前記スコア算出部は、前記文書群の情報量に対する、算出対象クラスタに属する複数の文書の情報量の割合を示すカバー率に基づき、前記スコアを算出する
    請求項1から4の何れか1項に記載の情報処理装置。
  6. 前記スコア算出部は、前記カバー率が大きい程、前記スコアを大きくする
    請求項5に記載の情報処理装置。
  7. 前記文書抽出部は、
    前記文書群から前記第1キーフレーズに対応する前記部分文書群を抽出し、
    前記第1キーフレーズに対応する前記部分文書群から、前記第2キーフレーズに対応する前記部分文書群を抽出する
    請求項1から6の何れか1項に記載の情報処理装置。
  8. 前記スコア算出部は、前記相違度が大きい程、前記スコアを大きくする
    請求項1から7の何れか1項に記載の情報処理装置。
  9. 前記複数の表示対象クラスタのそれぞれの前記グラフ画像に対する、ユーザによる有用性の判断結果を取得する有用性情報取得部と、
    前記指定キーフレーズと前記判断結果との組を含む履歴情報を記憶する履歴記憶部と、
    をさらに備え、
    前記スコア算出部は、前記履歴情報に基づき、前記スコアを算出する
    請求項1からの何れか1項に記載の情報処理装置。
  10. 前記スコア算出部は、算出対象クラスタが、前記指定キーフレーズについて有用であると前記履歴情報に示されている程、前記スコアを大きくする
    請求項に記載の情報処理装置。
  11. 前記スコア算出部は、前記算出対象クラスタが、前記指定キーフレーズについて予め設定されたユーザによって有用であると判断されている程、前記スコアを大きくする
    請求項10に記載の情報処理装置。
  12. 前記複数の表示対象クラスタのそれぞれの前記グラフ画像を表示させる表示制御部をさらに備え、
    前記表示制御部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を、ダッシュボード画像に合成して表示させる
    請求項1から11の何れか1項に記載の情報処理装置。
  13. コンピュータにより実行される情報処理方法であって、
    前記コンピュータが、
    文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成し、
    前記文書群から、指定キーフレーズに対応する部分文書群を抽出し、
    前記複数のクラスタのそれぞれについて、前記部分文書群における前記複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表すスコアを算出し、
    前記複数のクラスタのうちの、前記スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択し、
    前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成し、
    前記コンピュータが、
    前記指定キーフレーズである第1キーフレーズについて、
    前記部分文書群を抽出し、
    前記複数のクラスタのそれぞれについて、前記スコアを算出し、
    前記複数の表示対象クラスタを選択し、
    前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成し、
    前記コンピュータが、
    前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれの前記グラフ画像が表示された後、前記指定キーフレーズである第2キーフレーズについて、
    前記部分文書群を抽出し、
    前記複数のクラスタのそれぞれについて、算出対象クラスタに含まれる前記複数の項目における言語性質と、前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれに含まれる前記複数の項目における言語性質との相違を表す相違度に応じた値に基づき、前記スコアを算出し、
    前記複数の表示対象クラスタを選択し、
    前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する
    情報処理方法。
  14. コンピュータを、
    文書群から抽出された複数のキーフレーズをクラスタリングすることにより、それぞれが複数の項目を含む複数のクラスタを生成するクラスタリング部と、
    前記文書群から、指定キーフレーズに対応する部分文書群を抽出する文書抽出部と、
    前記複数のクラスタのそれぞれについて、前記部分文書群における前記複数の項目毎の情報量を表すグラフ画像に示された情報の有用性を表すスコアを算出するスコア算出部と、
    前記複数のクラスタのうちの、前記スコアが最上位から予め定められた順位までの複数の表示対象クラスタを選択するクラスタ選択部と、
    前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する画像生成部と、
    して機能させ
    前記指定キーフレーズである第1キーフレーズについて、
    前記文書抽出部は、前記部分文書群を抽出し、
    前記スコア算出部は、前記複数のクラスタのそれぞれについて、前記スコアを算出し、
    前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、
    前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成し、
    前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれの前記グラフ画像が表示された後、前記指定キーフレーズである第2キーフレーズについて、
    前記文書抽出部は、前記部分文書群を抽出し、
    前記スコア算出部は、前記複数のクラスタのそれぞれについて、算出対象クラスタに含まれる前記複数の項目における言語性質と、前記第1キーフレーズについて選択された前記複数の表示対象クラスタのそれぞれに含まれる前記複数の項目における言語性質との相違を表す相違度に応じた値に基づき、前記スコアを算出し、
    前記クラスタ選択部は、前記複数の表示対象クラスタを選択し、
    前記画像生成部は、前記複数の表示対象クラスタのそれぞれの前記グラフ画像を生成する
    プログラム。
JP2020068355A 2020-04-06 2020-04-06 情報処理装置、情報処理方法およびプログラム Active JP7427510B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020068355A JP7427510B2 (ja) 2020-04-06 2020-04-06 情報処理装置、情報処理方法およびプログラム
US17/184,690 US11900060B2 (en) 2020-04-06 2021-02-25 Information processing device, information processing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020068355A JP7427510B2 (ja) 2020-04-06 2020-04-06 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2021165892A JP2021165892A (ja) 2021-10-14
JP7427510B2 true JP7427510B2 (ja) 2024-02-05

Family

ID=77922218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020068355A Active JP7427510B2 (ja) 2020-04-06 2020-04-06 情報処理装置、情報処理方法およびプログラム

Country Status (2)

Country Link
US (1) US11900060B2 (ja)
JP (1) JP7427510B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7427510B2 (ja) * 2020-04-06 2024-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019067191A (ja) 2017-10-02 2019-04-25 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP2019164409A (ja) 2018-03-19 2019-09-26 株式会社日立ソリューションズ 文書検索装置、文書検索方法、及び文書検索プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150021561A (ko) * 2012-06-04 2015-03-02 이든 락 커뮤니케이션즈, 엘엘씨 셀룰러 네트워크 부하 밸런싱을 위한 방법 및 시스템
US10248712B1 (en) * 2016-05-23 2019-04-02 Amazon Technologies, Inc. Generating a set of representative items using a maximum-set-coverage selection strategy
US10114887B1 (en) * 2016-05-23 2018-10-30 Amazon Technologies, Inc. Generating a set of representative items using a dynamic selection strategy
US10114885B1 (en) * 2016-05-23 2018-10-30 Amazon Technologies, Inc. Generating a set of representative items using a clustering-selection strategy
JP2019053764A (ja) 2018-11-28 2019-04-04 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、プログラム
JP2019053763A (ja) 2018-11-28 2019-04-04 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、プログラム
JP7427510B2 (ja) * 2020-04-06 2024-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019067191A (ja) 2017-10-02 2019-04-25 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP2019164409A (ja) 2018-03-19 2019-09-26 株式会社日立ソリューションズ 文書検索装置、文書検索方法、及び文書検索プログラム

Also Published As

Publication number Publication date
US20210312130A1 (en) 2021-10-07
JP2021165892A (ja) 2021-10-14
US11900060B2 (en) 2024-02-13

Similar Documents

Publication Publication Date Title
US7194471B1 (en) Document classification system and method for classifying a document according to contents of the document
US8412650B2 (en) Device and method and program of text analysis based on change points of time-series signals
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
WO2016114790A1 (en) Reading difficulty level based resource recommendation
US11928418B2 (en) Text style and emphasis suggestions
JP2021068053A (ja) 生成装置、及び生成プログラム
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
WO2008062822A1 (fr) Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
JP7427510B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP2009199302A (ja) ドキュメントを解析するためのプログラム,装置および方法
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
JP2000163437A (ja) 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP7256357B2 (ja) 情報処理装置、制御方法、プログラム
JP6621514B1 (ja) 要約作成装置、要約作成方法、及びプログラム
CN116933130A (zh) 一种基于大数据的企业行业分类方法、系统、设备及介质
US11182561B2 (en) Data analyzer and data analysis method
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
JP7216627B2 (ja) 入力支援方法、入力支援システム、及びプログラム
JP7408957B2 (ja) 発想提案支援システム、発想提案支援装置、発想提案支援方法及びプログラム
US20220261856A1 (en) Method for generating search results in an advertising widget
JP4346531B2 (ja) テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220825

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230808

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240124

R151 Written notification of patent or utility model registration

Ref document number: 7427510

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151