JP2019067191A - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2019067191A
JP2019067191A JP2017192750A JP2017192750A JP2019067191A JP 2019067191 A JP2019067191 A JP 2019067191A JP 2017192750 A JP2017192750 A JP 2017192750A JP 2017192750 A JP2017192750 A JP 2017192750A JP 2019067191 A JP2019067191 A JP 2019067191A
Authority
JP
Japan
Prior art keywords
sub
clusters
unit
cluster
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017192750A
Other languages
English (en)
Other versions
JP6800825B2 (ja
Inventor
布目 光生
Mitsuo Nunome
光生 布目
山崎 智弘
Toshihiro Yamazaki
智弘 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017192750A priority Critical patent/JP6800825B2/ja
Priority to US15/899,610 priority patent/US10740378B2/en
Publication of JP2019067191A publication Critical patent/JP2019067191A/ja
Application granted granted Critical
Publication of JP6800825B2 publication Critical patent/JP6800825B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書群を小さいコストで適切に分類する。
【解決手段】実施形態に係る情報処理装置は、クラスタリング部と、分割部と、項目選択部と、スコア算出部と、決定部と、サブクラスタ生成部と、サブ項目抽出部と、展開画像制御部とを備える。クラスタリング部は、キーフレーズ群を階層クラスタリングする。分割部は、キーフレーズ群を複数の候補クラスタに分割する。スコア算出部は、複数の候補クラスタのそれぞれについて、選択された項目に対する有用性を表すスコアを算出する。決定部は、スコアが所定の順位の候補クラスタを参照クラスタとして決定する。サブクラスタ生成部は、参照クラスタを複数のサブクラスタに分割する。サブ項目抽出部は、選択された項目の下位層の複数のサブ項目を抽出する。展開画像制御部は、複数のサブ項目のそれぞれ毎且つ複数のサブクラスタのそれぞれ毎の文書の情報量を表すように、展開画像の提示を制御する。
【選択図】図3

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。
業務において用いた文書をデータベースに記録し、その文書を他の業務において再利用させる文書管理システムが知られている。また、文書管理システムにより管理している文書群から、データマイニングおよびテキストマイニング等により知識を抽出し、抽出した知識を業務の分析および改善に役立てることも行われている。
また、文書管理システムにより管理している文書群から目的の文書を検索する手段として、キーフレーズ(単語および単語列等)検索およびファセット検索が知られている。ファセット検索は、文書を分類するための複数の項目および階層構造を予め定義しておき、ユーザに上位層から下位層に向かい順次に項目を選択させて、文書を絞り込む方法である。
文書管理システムにより管理している文書群の特徴をユーザに参照させる手段も、様々な方法が提案されている。例えば、文書群の特徴をユーザに参照させる手段として、OLAP(Online Analytical Processing)機能が知られている。OLAP機能は、文書群の全体の特徴を俯瞰的に参照させたり、全体を表す情報から詳細を表す情報にドリルダウンさせながら文書群の特徴を参照させたりする方法である。また、文書群の特徴をユーザに参照させる手段として、ヒートマップも知られている。ヒートマップは、異なる2つの観点から分類した情報のそれぞれの特徴を2つの軸を有するマップ上に表す方法である。
ところで、ファセット検索では、予め項目の構造を定義しておかなければならない。例えば、しかし、項目の構造の設計、および、対応するデータベースの設計には、非常に多くのコストがかかる。また、文書管理システムの運用が進んだ段階で、新しい観点で文書を検索および文書群の特徴を参照したいというニーズが生じても、既に定義した項目の階層構造およびデータベースの構造を変えることは難しかった。
一方で、クラスタリングにより分類の項目を自動生成するといった手法も知られている。この方法であれば、事前に、項目の構造を設計する必要はない。しかし、クラスタリングにより分類の項目を自動生成する方法では、実際に利用できる項目には大きな限定がかかる。例えば、クラスタリングにより分類の項目を自動生成する方法では、数量表現、色および形等の離散属性、および、ソースコードのパッケージ名等の、階層情報および構造が文書内に記述されている項目にしか分類ができなかった。
特開2017−068534号公報
発明が解決しようとする課題は、文書群を小さいコストで適切に分類した情報を提示することにある。
実施形態に係る情報処理装置は、クラスタリング部と、分割部と、項目選択部と、スコア算出部と、決定部と、サブクラスタ生成部と、サブ項目抽出部と、展開画像制御部と、を備える。前記クラスタリング部は、文書群に含まれる複数のキーフレーズを含むキーフレーズ群を階層クラスタリングする。前記分割部は、前記キーフレーズ群を複数の候補クラスタに分割する。前記項目選択部は、前記文書群を分類するための予め定められた複数の項目のうちの何れか1つ項目の選択操作を受け付ける。前記スコア算出部は、前記複数の候補クラスタのそれぞれについて、選択された項目に対する有用性を表すスコアを算出する。前記決定部は、前記複数の候補クラスタのうち、前記スコアが所定の順位の候補クラスタを参照クラスタとして決定する。前記サブクラスタ生成部は、前記参照クラスタを複数のサブクラスタに分割する。前記サブ項目抽出部は、選択された項目の下位層の予め定められた複数のサブ項目を抽出する。前記展開画像制御部は、前記複数のサブ項目のそれぞれ毎且つ前記複数のサブクラスタのそれぞれ毎の文書の情報量を表すように、展開画像の提示を制御する。
第1実施形態に係る文書管理システムの構成図。 第1実施形態に係る事前処理部の構成図。 第1実施形態に係る第1画像制御部および第2画像制御部の構成図。 情報処理装置の処理の流れを示すフローチャート。 事前処理の詳細な処理の流れを示すフローチャート。 キーフレーズ群の構造を表すデンドログラムの一例を示す図。 デンドログラムおよび候補クラスタの一例を示す図。 複数の項目の階層構造を示す図。 初期画像の表示処理の詳細な処理の流れを示すフローチャート。 初期画像の一例を示す図。 展開画像の表示処理の詳細な処理の流れを示すフローチャート。 初期画像および展開画像の一例を示す図。 初期画像、展開画像および新たな展開画像の一例を示す図。 メニュー画像が追加された展開画像を示す図。 複数の候補クラスタのそれぞれのスコアを示す図。 第2実施形態に係る第1画像制御部および第2画像制御部の構成図。 複数の第1観点項目および複数の第2観点項目の一例を示す図。 項目選択画像の一例を示す図。 選択キーフレーズ群の構造を表すデンドログラムの一例を示す図。 デンドログラムおよびクラスタ展開画像の一例を示す図。 列選択および行選択をした場合の項目選択画像を示す図。
以下、図面を参照しながら本実施形態に係る文書管理システム10について説明する。なお、以下の実施形態では、同一の参照符号を付した部分は略同一の構成および動作をするので、相違点を除き重複する説明を適宜省略する。
(第1実施形態)
図1は、第1実施形態に係る文書管理システム10の構成を示す図である。文書管理システム10は、業務等で作成された複数の文書を含む文書群を管理する。また、文書管理システム10は、ユーザの操作に応じて、文書群を分類し、分類された複数の文書毎の情報量を表示する。
文書は、コンピュータにより情報内容を検索することが可能であれば、どのようなデータであってもよい。例えば、文書は、テキストを含むデータであってもよいし、プログラムコードを含むデータであってもよい。文書のファイル形式は、文書管理システム10により取り扱いが可能であれば、どのようなものであってもよい。
また、複数の文書の情報量は、複数の文書の数であってもよいし、複数の文書に含まれる文字の数であってもよいし、複数の文書の合計のデータ量であってもよい。
また、文書管理システム10は、1つの文書から1または複数のキーフレーズを抽出する。キーフレーズは、その文書に含まれる情報およびその文書に関連する情報等の、その文書の特徴を表す情報である。キーフレーズは、例えば、1つの単語であってもよいし、複数の単語が並んだ単語列であってもよい。また、キーフレーズは、プログラムコード中のコード列であってもよい。
文書管理システム10は、表示装置12と、入力装置14と、記憶装置16と、情報処理装置20とを備える。
表示装置12は、画像を表示することにより、画像をユーザに提示する。表示装置12は、情報処理装置20により生成された画像を受け取り、受け取った画像を表示する。表示装置12は、例えば、液晶表示器等の表示デバイスである。
入力装置14は、ユーザからの指示および操作を受け付ける。入力装置14は、例えば、マウスまたはトラックボール等のポインティングデバイス、あるいはキーボード等の入力デバイスである。
記憶装置16は、情報処理装置20からデータを受け取り、受け取ったデータを記憶する。また、記憶装置16は、記憶しているデータが情報処理装置20により読み出される。記憶装置16は、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。記憶装置16は、ネットワークを介して情報処理装置20と接続可能なサーバ装置であってもよい。
情報処理装置20は、例えば、専用または汎用コンピュータである。情報処理装置20は、PC、あるいは、情報を保存および管理するサーバに含まれるコンピュータであってもよい。情報処理装置20は、一台の装置により実現されてもよいし、連携して動作する複数台の装置により実現されてもよい。また、情報処理装置20は、ネットワーク上に実現される仮想的な装置(例えばクラウド)等であってもよい。
情報処理装置20は、表示装置12を制御して、表示装置12に画像を表示させる。また、情報処理装置20は、入力装置14から情報を受け取って、ユーザから与えられた指示内容および操作内容を識別する。また、情報処理装置20は、データを記憶装置16に書き込み、記憶装置16に記憶されたデータを読み出す。
情報処理装置20は、通信部22と、記憶回路24と、処理回路30とを有する。表示装置12、入力装置14、記憶装置16、通信部22、記憶回路24および処理回路30は、バスを介して接続される。
通信部22は、有線または無線で接続された外部装置と情報の入出力を行うインターフェースである。通信部22は、ネットワークに接続して通信を行ってもよい。
記憶回路24は、RAM(Random Access Memory)およびROM(Read Only Memory)である。記憶回路24は、起動用プログラムを読み出すスタートプログラムが記憶されている。また、記憶回路24は、処理回路30の作業領域として機能する。
処理回路30は、1または複数のプロセッサを含む。処理回路30は、情報処理を実行し、プログラムを読み出して記憶回路24に展開して実行し、各部を制御してデータの入出力を行ったり、データの加工を行ったりする。プロセッサは、例えば、CPU(Central Processing Unit)である。プロセッサは、CPUに限らず、プログラムを実行する他の種類のデータ処理デバイスまたは専用の処理デバイスであってもよい。
このようなハードウェア構成の文書管理システム10は、記憶装置16が、文書記憶部42、クラスタ記憶部44および項目記憶部46として機能する。また、このようなハードウェア構成の文書管理システム10は、処理回路30が、プログラムを実行することにより、事前処理部32、第1画像制御部34および第2画像制御部36として機能する。
図2は、第1実施形態に係る事前処理部32の構成を文書記憶部42、クラスタ記憶部44および項目記憶部46とともに示す図である。
事前処理部32は、文書取得部52と、キーフレーズ生成部54と、文書登録部56と、クラスタリング部58と、分割部60と、項目取得部62と、項目登録部64とを有する。
文書取得部52は、他の装置から文書を取得する。キーフレーズ生成部54は、文書取得部52により取得された文書に対して形態素解析および複合語抽出処理等を行って、取得した文書に対する1または複数のキーフレーズを生成する。文書登録部56は、文書取得部52により取得された文書と、キーフレーズ生成部54により生成された1または複数のキーフレーズとを対応付けて、文書記憶部42に記憶させる。
文書取得部52、キーフレーズ生成部54および文書登録部56は、複数の文書のそれぞれ毎に、これらの処理を実行する。これにより、文書記憶部42は、複数の文書を含む文書群を記憶することができる。この文書群は、データベース化されており、任意のキーフレーズを指定することにより、指定されたキーフレーズに対応付けられた1または複数の文書を抽出することができる。
クラスタリング部58は、文書記憶部42から、文書群に含まれる複数のキーフレーズを含むキーフレーズ群を取得する。クラスタリング部58は、取得したキーフレーズ群を階層クラスタリングする。例えば、クラスタリング部58は、キーフレーズ群に含まれる複数のキーフレーズを複数のクラスタにクラスタリングする。さらに、クラスタリング部58は、それぞれのキーフレーズをベクトル化する。そして、クラスタリング部58は、クラスタ中心とのベクトル距離に応じて、キーフレーズの類似度を算出する。さらに、クラスタリング部58は、それぞれのクラスタ内で同様の処理を繰り返して、階層化した複数のクラスタを生成する。
クラスタリング部58は、階層化した複数のクラスタのそれぞれにラベルを付与してもよい。例えば、クラスタリング部58は、クラスタ中心に近いキーフレーズをラベルとしてもよい。クラスタリング部58は、階層クラスタリングしたキーフレーズ群をクラスタ記憶部44に記憶させる。
分割部60は、階層クラスタリングされたキーフレーズ群をクラスタ記憶部44から読み出し、読み出したキーフレーズ群を複数の候補クラスタに分割する。例えば、分割部60は、階層クラスタリングされたキーフレーズ群を表すデンドログラムを描き、描いたデンドログラムにおける、所定個(例えば、4個以上で最小)のクラスタに分割される高さを決定する。そして、分割部60は、決定した高さでデンドログラムを切断した場合に生成される複数の階層クラスタを、複数の候補クラスタとする。分割部60は、生成した複数の候補クラスタをクラスタ記憶部44に記憶させる。
項目取得部62は、文書群を分類するための予め定められた複数の項目を他の装置から取得する。項目取得部62は、ユーザにより入力された複数の項目を取得してもよい。複数の項目は、木構造により階層化されている。項目登録部64は、項目取得部62により取得された複数の項目を項目記憶部46に記憶させる。
図3は、第1実施形態に係る第1画像制御部34および第2画像制御部36の構成を文書記憶部42、クラスタ記憶部44および項目記憶部46とともに示す図である。
第1画像制御部34は、開始受付部72と、第1算出部74と、初期画像制御部76とを有する。開始受付部72は、ユーザによる開始操作を、入力装置14から受け付ける。
第1算出部74は、開始受付部72が開始操作を受け付けると、複数の候補クラスタをクラスタ記憶部44から取得する。また、第1算出部74は、開始受付部72が開始操作を受け付けると、項目記憶部46から予め定められた複数の項目のうち最上位の複数の項目を取得する。
そして、第1算出部74は、文書記憶部42にアクセスして、予め定められた複数の項目のそれぞれ毎、且つ、複数の候補クラスタのそれぞれ毎の文書の情報量を算出する。すなわち、第1算出部74は、文書群を最上位の複数の項目に従って複数の初期文書群に分類する。そして、第1算出部74は、複数の初期文書群のそれぞれについて、複数の候補クラスタのそれぞれに分類される文書の情報量を算出する。例えば、最上位の複数の項目が4個、および、候補クラスタが5個の場合、第1算出部74は、4×5=20個の文書の情報量を算出する。
初期画像制御部76は、予め定められた複数の項目のそれぞれ毎、且つ、複数の候補クラスタのそれぞれ毎の文書の情報量を表すように、初期画像の提示を制御する。すなわち、初期画像制御部76は、文書群を最上位の複数の項目に従って分類した複数の初期文書群のそれぞれについて、複数の候補クラスタのそれぞれに分類される文書の情報量を表す初期画像を生成する。そして、初期画像制御部76は、生成した初期画像を表示装置12に出力して、表示装置12に初期画像を表示させる。
第2画像制御部36は、項目選択部78と、スコア算出部80と、決定部82と、サブクラスタ生成部84と、サブ項目抽出部86と、第2算出部88と、展開画像制御部90とを有する。
項目選択部78は、ユーザによる、文書群を分類するための予め定められた複数の項目のうちの何れか1つ項目の選択操作を、入力装置14から受け付ける。例えば、初期画像が表示された後、項目選択部78は、初期画像に情報量が表示された最上位の複数の項目のうちの、何れか1つの項目の選択操作を受け付ける。
スコア算出部80は、複数の候補クラスタのそれぞれについて、選択された項目に対する有用性を表すスコアを算出する。なお、スコアについては、詳細を後述する。
決定部82は、複数の候補クラスタのうち、算出されたスコアが所定の順位の候補クラスタを、参照クラスタとして決定する。例えば、決定部82は、複数の候補クラスタのうち、有用性が最も高いスコアの候補クラスタを、参照クラスタとして決定する。
サブクラスタ生成部84は、参照クラスタを、複数のサブクラスタに分割する。例えば、サブクラスタ生成部84は、参照クラスタを所定個(例えば、4個以上で最小)に分割して、複数のサブクラスタを生成する。
サブ項目抽出部86は、項目記憶部46にアクセスして、項目選択部78により選択された項目の下位層の予め定められた複数のサブ項目を抽出する。
第2算出部88は、サブクラスタ生成部84から、複数のサブクラスタを取得する。また、第2算出部88は、サブ項目抽出部86から予め定められた複数のサブ項目を取得する。
そして、第2算出部88は、文書記憶部42にアクセスして、予め定められた複数のサブ項目のそれぞれ毎、且つ、複数のサブクラスタのそれぞれ毎の文書の情報量を算出する。すなわち、第2算出部88は、選択された1つの最上位項目に分類される初期文書群を、さらに複数のサブ項目に従って複数のサブ文書群に分類する。そして、第2算出部88は、複数のサブ文書群のそれぞれについて、複数のサブクラスタのそれぞれに分類される文書の情報量を算出する。例えば、複数のサブ項目が5個、および、複数のサブクラスタが6個の場合、第2算出部88は、5×6=30個の文書の情報量を算出する。
展開画像制御部90は、予め定められた複数のサブ項目のそれぞれ毎、且つ、複数のサブクラスタのそれぞれ毎の文書の情報量を表すように、展開画像の提示を制御する。すなわち、展開画像制御部90は、複数のサブ文書群のそれぞれについて、複数のサブクラスタのそれぞれに分類される文書の情報量を表す展開画像を生成する。そして、展開画像制御部90は、生成した展開画像を表示装置12に出力して、表示装置12に展開画像を表示させる。
なお、展開画像が表示された後、項目選択部78は、展開画像に情報量が表示された複数のサブ項目のうちの、何れか1つのサブ項目の選択操作を受け付けてもよい。複数のサブ項目のうち何れか1つのサブ項目が選択された場合、スコア算出部80、決定部82、サブクラスタ生成部84、サブ項目抽出部86、第2算出部88および展開画像制御部90は、複数のサブ項目を複数の項目と置き換え、複数のサブクラスタを複数の候補クラスタと置き換えて、再度処理を実行して新たな展開画像の提示を制御する。
図4は、情報処理装置20の処理の流れを示すフローチャートである。まず、S11において、情報処理装置20は、事前処理を実行する。続いて、S12において、情報処理装置20は、初期画像の表示処理を実行する。そして、S13において、情報処理装置20は、展開画像の表示処理を実行する。以下、S11、S12およびS13の処理について詳細に説明する。
図5は、事前処理(S11)の詳細な処理の流れを示すフローチャートである。情報処理装置20は、S11の事前処理において、以下のS21からS26の処理を実行する。
S21において、情報処理装置20は、他の装置から文書を取得する。続いて、S22において、情報処理装置20は、取得した文書に対して形態素解析および複合語抽出処理等を行って、取得した文書に対する1または複数のキーフレーズを生成する。続いて、S23において、情報処理装置20は、取得した文書と、生成した1または複数のキーフレーズとを対応付けて、文書記憶部42に登録する。
情報処理装置20は、S21からS23までの処理を、複数の文書のそれぞれに対して実行する。これにより、文書記憶部42は、複数の文書を含む文書群を記憶することができる。この文書群は、データベース化されている。情報処理装置20は、文書群に対して任意のキーフレーズを指定することにより、指定されたキーフレーズに対応付けられた1または複数の文書を文書群から抽出することができる。
続いて、S24において、情報処理装置20は、文書記憶部42から文書群に含まれる複数のキーフレーズを含むキーフレーズ群を取得する。そして、情報処理装置20は、取得したキーフレーズ群を階層クラスタリングする。情報処理装置20は、階層化した複数のクラスタのそれぞれにラベルを付与してもよい。情報処理装置20は、階層クラスタリングしたキーフレーズ群をクラスタ記憶部44に登録する。
続いて、S25において、情報処理装置20は、階層クラスタリングされたキーフレーズ群をクラスタ記憶部44から読み出し、読み出したキーフレーズ群を複数の候補クラスタに分割する。そして、情報処理装置20は、生成した複数の候補クラスタをクラスタ記憶部44に登録する。
続いて、S26において、情報処理装置20は、文書群を分類するための予め定められた複数の項目を他の装置から取得する。情報処理装置20は、ユーザにより入力された複数の項目を取得してもよい。そして、情報処理装置20は、取得した複数の項目および複数の項目の階層構造を項目記憶部46に記憶させる。
図6は、S24において階層クラスタリングされたキーフレーズ群の構造を表すデンドログラムの一例を示す図である。キーフレーズ群を階層クラスタリングした場合、例えば、情報処理装置20は、図6に示すようなデンドログラムにより表される階層構造の複数のクラスタを生成することができる。図6のデンドログラムは、末端ノードにキーフレーズが対応付けられる。また、高さ方向は、キーフレーズ間の類似度を表す。
図7は、キーフレーズ群の構造を表すデンドログラム、および、S25において生成された候補クラスタの一例を示す図である。例えば、情報処理装置20は、階層クラスタリングしたキーフレーズ群を分割して、複数の候補クラスタを生成する。例えば、情報処理装置20は、図7に示すようなデンドログラムに基づき、所定個(例えば、4個以上で最小)の候補クラスタを生成する。情報処理装置20は、複数の候補クラスタのそれぞれにラベルを付加してもよい。例えば、情報処理装置20は、候補クラスタの中心位置近傍のキーフレーズを、その候補クラスタのラベルとしてもよい。
図7の例においては、情報処理装置20は、類似度が1.00でクラスタを切断して、4個の候補クラスタを生成している。具体的には、情報処理装置20は、ラベルが「アクション」の候補クラスタ、ラベルが「現象」の候補クラスタ、ラベルが「用語」の候補クラスタ、および、ラベルが「その他」の候補クラスタを生成している。
図8は、S26において取得された複数の項目の階層構造を示す図である。例えば、情報処理装置20は、図8に示すような、木構造で階層化された複数の項目を取得する。複数の項目の内容および階層構造は、例えばユーザにより予め定められている。情報処理装置20は、このような複数の項目を他の装置から取得する。また、情報処理装置20は、ユーザにより入力された複数の項目を取得してもよい。
これらの複数の項目のそれぞれは、文書群を分類するための情報である。情報処理装置20は、記憶装置16に記憶された文書群に対して、何れかの項目を指定することにより、その項目に関連付けられた文書を取得することができる。
図9は、初期画像の表示処理(S12)の詳細な処理の流れを示すフローチャートである。情報処理装置20は、S12の初期画像の表示処理において、以下のS31からS34の処理を実行する。
S31において、情報処理装置20は、ユーザによる開始操作を、入力装置14から受け付ける。続いて、S32において、情報処理装置20は、複数の候補クラスタをクラスタ記憶部44から取得する。また、情報処理装置20は、項目記憶部46から予め定められた複数の項目のうち最上位の複数の項目を取得する。
続いて、S33において、情報処理装置20は、文書記憶部42にアクセスして、予め定められた複数の項目のそれぞれ毎、且つ、複数の候補クラスタのそれぞれ毎の文書の情報量を算出する。すなわち、情報処理装置20は、文書群を最上位の複数の項目に従って複数の初期文書群に分類する。そして、情報処理装置20は、複数の初期文書群のそれぞれについて、複数の候補クラスタのそれぞれに分類される文書の情報量を算出する。
続いて、S34において、情報処理装置20は、複数の項目のそれぞれ毎、且つ、複数の候補クラスタのそれぞれ毎の文書の情報量に基づき、初期画像を生成する。そして、情報処理装置20は、生成した初期画像を表示装置12へと出力して、表示装置12に初期画像を表示させる。
図10は、S34で表示される初期画像の一例を示す図である。情報処理装置20は、S34において、例えば、図10に示すような、ヒートマップ状の初期画像を生成する。
初期画像は、一方の軸(項目軸)が項目を表し、他方の軸(クラスタ軸)が候補クラスタを表す2次元の格子状となっている。図10の例では、項目軸が縦軸、クラスタ軸が横軸となっている。そして、初期画像は、複数の格子の内部のそれぞれの輝度または濃度が、対応する項目且つ対応する候補クラスタにより分類された文書の情報量を表す。
例えば、図10の例の初期画像では、項目軸が、「機器」、「建屋」および「部品」の3個の項目を表す。また、この初期画像では、クラスタ軸が、「アクション」、「現象」、「用語」および「その他」の4個の候補クラスタを表す。そして、この初期画像では、「機器」および「アクション」の両者に対応する格子の内部の輝度または濃度が、項目が「機器」且つ候補クラスタが「アクション」に分類される文書の情報量を表す。他の格子の内部の輝度または濃度も同様である。
なお、初期画像は、図10に示すようなヒートマップ状の画像に限られない。例えば、初期画像は、輝度または濃度に代えて、情報量を色によって表してもよい。また、初期画像は、情報量を数値または文字で表してもよい。また、初期画像は、オブジェクトまたはアイコンの種別の違いにより表してもよいし、ラベル文字の大小、フォント種別、描画線または線の傾き等の図形の変化により表してもよい。また、初期画像は、2次元のマップ状に限らず、情報量を短文のコメントまたはリストで表した文字情報であってもよいし、立体形状等の3次元以上の形状で情報量を表した画像であってもよい。
また、表示装置12に表示された初期画像は、ユーザが、入力装置14を用いて項目軸に表示された複数の項目のうちの何れか1つの項目を選択することが可能である。選択操作は、マウス等のポインティングデバイスにより行われてもよいし、音声等で行われてもよい。
図11は、展開画像の表示処理(S13)の詳細な処理の流れを示すフローチャートである。情報処理装置20は、S13の展開画像の表示処理において、以下のS41からS48の処理を実行する。
S41において、情報処理装置20は、ユーザによる、初期画像に表示された複数の項目のうちの何れか1つ項目の選択操作を、入力装置14から受け付ける。
続いて、S42において、情報処理装置20は、複数の候補クラスタのそれぞれについて、S41で選択された項目に対する有用性を表すスコアを算出する。なお、スコアについては、図15を参照して詳細を後述する。
続いて、S43において、情報処理装置20は、複数の候補クラスタのうち、算出されたスコアが所定の順位の候補クラスタを、参照クラスタとして決定する。例えば、決定部82は、複数の候補クラスタのうち、有用性が最も高いスコアの候補クラスタを、参照クラスタとして決定する。
続いて、S44において、情報処理装置20は、参照クラスタを、複数のサブクラスタに分割する。例えば、情報処理装置20は、参照クラスタを所定個(例えば、4個以上で最小)に分割して、複数のサブクラスタを生成する。また、この場合、情報処理装置20は、複数のサブクラスタのそれぞれにラベルを付加してもよい。ラベルは、そのサブクラスタの中心近傍のサブフレーズ等であってもよい。
続いて、S45において、情報処理装置20は、項目記憶部46から、選択された項目の下位層の予め定められた複数のサブ項目を抽出する。
続いて、S46において、情報処理装置20は、文書記憶部42にアクセスして、複数のサブ項目のそれぞれ毎、且つ、複数のサブクラスタのそれぞれ毎の文書の情報量を算出する。すなわち、情報処理装置20は、選択された項目の初期文書群をさらに複数のサブ項目に従って分割して複数のサブ文書群を生成する。そして、情報処理装置20は、複数のサブ文書群のそれぞれについて、複数のサブクラスタのそれぞれに分類される文書の情報量を算出する。
続いて、S47において、情報処理装置20は、複数のサブ項目のそれぞれ毎、且つ、複数のサブクラスタのそれぞれ毎の文書の情報量に基づき、展開画像を生成する。そして、情報処理装置20は、生成した展開画像を表示装置12へと出力して、表示装置12に展開画像を表示させる。
続いて、S48において、情報処理装置20は、展開画像を表示した後に、複数のサブ項目のうちの、何れか1つのサブ項目の選択操作を受け付けたか否かを判断する。何れか1つのサブ項目の選択操作を受け付けた場合(S48のYes)、情報処理装置20は、処理をS42に戻す。そして、情報処理装置20は、複数のサブ項目を複数の項目と置き換え、複数のサブクラスタを複数の候補クラスタと置き換えて、再度、S42〜S47の処理を実行して新たな展開画像を生成する。
展開画像を表示した後、何れのサブ項目も選択されずに終了操作がされた場合(S48のNo)、情報処理装置20は、本フローの処理を終了する。
図12は、初期画像および展開画像の一例を示す図である。情報処理装置20は、初期画像を表示している状態において、何れか1つの項目が選択された場合、図12の右側に示すようなヒートマップ状の展開画像を生成して表示装置12に表示させる。
展開画像は、一方の軸(項目軸)がサブ項目を表し、他方の軸(クラスタ軸)がサブクラスタを表す2次元の格子状となっている。図12の例では、項目軸が縦軸、クラスタ軸が横軸となっている。そして、展開画像は、初期画像と同様に、複数の格子の内部のそれぞれの輝度または濃度が、対応するサブ項目且つ対応するサブクラスタにより分類された文書の情報量を表す。
例えば、図12の例では、初期画像の項目軸に表示された複数の項目のうち、「機器」の項目がユーザにより選択された。「機器」の項目が選択されたことに応じて、情報処理装置20は、「機器」の下位層の「タービン」、「ノズル」、「ポンプ」、「配管」および「ロータ」の5個のサブ項目を抽出した。
また、図12の例では、情報処理装置20は、「機器」の項目が選択されたことに応じて、「アクション」、「現象」、「用語」および「その他」の4個の候補クラスタのそれぞれについて、選択された項目である「機器」に対する有用性を表すスコアを算出した。そして、情報処理装置20は、スコアが最も高い「アクション」の候補クラスタを、参照クラスタとして決定した。さらに、情報処理装置20は、「アクション」の参照クラスタを分割して、「検査」、「溶接」、「拡大」、「加工」および「位置」の5個のサブクラスタを生成した。
そして、情報処理装置20は、図12に示すような展開画像を生成した。図12の例の展開画像では、項目軸が、「機器」の下位層のサブ項目である、「タービン」、「ノズル」、「ポンプ」、「配管」および「ロータ」の5個のサブ項目を表す。また、この展開画像では、クラスタ軸が、「検査」、「溶接」、「拡大」、「加工」および「位置」の5個のサブクラスタを表す。
なお、展開画像も、初期画像と同様に、ヒートマップ状の画像に限られない。また、表示装置12に表示された展開画像は、ユーザが、入力装置14を用いて項目軸に表示された複数のサブ項目のうちの何れか1つのサブ項目を選択することが可能である。
図13は、初期画像、展開画像および新たな展開画像の一例を示す図である。情報処理装置20は、展開画像を表示している状態において、何れか1つのサブ項目が選択された場合、新たな展開画像を生成して表示装置12に表示させる。この場合、情報処理装置20は、複数のサブ項目を複数の項目と置き換え、複数のサブクラスタを複数の候補クラスタと置き換えて、再度、展開画像を生成する処理を実行し、新たな展開画像を生成する。
図14は、メニュー画像が追加された展開画像を示す図である。情報処理装置20の展開画像制御部90は、展開画像とともに、複数の候補クラスタのうちの何れか1つを選択させるためのメニュー画像の提示を制御してもよい。メニュー画像は、例えば、プルダウンメニュー92のような、ユーザに操作により複数の候補クラスタのうちの何れか1つを選択させるためのユーザインターフェイス画像である。
情報処理装置20の展開画像制御部90は、メニュー画像により何れか1つの新たな候補クラスタが選択された場合、新たな候補クラスタを参照クラスタとして、再度、展開画像を提示する。具体的には、情報処理装置20のサブクラスタ生成部84は、新たな候補クラスタを参照クラスタとして、新たな複数のサブクラスタに分割する。
情報処理装置20の第2算出部88は、サブクラスタ生成部84から、新たな複数のサブクラスタを取得する。第2算出部88は、文書記憶部42にアクセスして、予め定められた複数のサブ項目のそれぞれ毎、且つ、新たな複数のサブクラスタのそれぞれ毎の文書の情報量を算出する。そして、展開画像制御部90は、複数のサブ項目のそれぞれ毎且つ新たな複数のサブクラスタのそれぞれ毎の文書の情報量を表す新たな展開画像を生成し、表示装置12に表示させる。
図15は、複数の候補クラスタのそれぞれのスコアを示す図である。情報処理装置20は、初期画像において、何れかの項目が選択された場合、クラスタ軸に表示する複数のサブクラスタを自動的に選択する。この場合、情報処理装置20は、選択された項目に対して、最も有用なサブクラスタがクラスタ軸に表示されるように、選択された項目に対する有用性を表すスコアを、複数の候補クラスタのそれぞれに対して算出する。
n番目(nは1以上の整数)の候補クラスタを“Cn”とした場合、情報処理装置20は、下記の式(1)を演算して、選択された項目に対するn番目の候補クラスタのスコア(V(Cn))を算出する。
V(Cn)=α+β+γ …(1)
αは、スコアの第1パラメータである。αは、対応する候補クラスタにおける選択された項目に分類される文書の情報量を表す。αは、このような文書の情報量に係数等を乗じた値であってもよい。
例えば、項目として「機器」が選択され、「アクション」の候補クラスタのスコアを算出する場合、αは、アクションの候補クラスタに含まれる複数の文書の情報量のうちの、「機器」に分類される複数の文書の情報量に応じた値を表す。例えば、スコアは、対応する候補クラスタにおける選択された項目に分類される文書の情報量が大きい程、大きくなる。
βは、スコアの第2パラメータである。βは、複数のサブ項目のそれぞれ毎、且つ、対応する候補クラスタを分割した複数のサブクラスタのそれぞれ毎の文書の情報量の分散を表す。βは、このような分散に係数等を乗じた値であってもよい。
例えば、項目として「機器」が選択され、「アクション」の候補クラスタのスコアを算出する場合、選択された項目の下位層の複数のサブ項目は、「タービン」、「ノズル」、「ポンプ」、「配管」および「ロータ」となる。また、対応する「アクション」の候補クラスタを分割した複数のサブクラスタは、「検査」、「溶接」、「拡大」、「加工」および「位置」となる。情報処理装置20は、「タービン」、「ノズル」、「ポンプ」、「配管」および「ロータ」の5個のサブ項目のそれぞれと、「検査」、「溶接」、「拡大」、「加工」および「位置」の5個のサブクラスタのそれぞれとの組み合わせ毎の文書の情報量を算出する。βは、これらの組み合わせ毎の情報量の分散を表す。例えば、スコアは、このような分散が大きい程、大きくなる。
γは、スコアの第3パラメータである。γは、対応する候補クラスタをユーザが過去に操作により選択した頻度または割合を表す。γは、このような頻度または割合に係数等を乗じた値であってもよい。
例えば、項目として「機器」が選択され、「アクション」の候補クラスタのスコアを算出する場合、γは、過去に、項目として「機器」が選択された後に、例えば、図14に示すメニュー画面等により「アクション」の候補クラスタが選択された頻度または割合を表す。また、γは、時間的に近い選択操作が、時間的に遠い選択操作よりも大きな影響を与えるように、頻度または割合に重みが加えられてもよい。例えば、スコアは、対応する候補クラスタを過去にユーザが操作により選択した頻度または割合が多い程、大きくなる。
また、スコアは、α、βおよびγのうち、何れか1つのパラメータに基づく値、または、何れか2つのパラメータに基づく値であってもよい。また、スコアは、α、βおよびγに代えて、選択された項目に対する候補クラスタの有用性を表す他のパラメータにより表されてもよい。
(第1実施形態の効果)
以上のように、第1実施形態に係る情報処理装置20は、文書群を、検索目的およびユーザの関心点に応じた2つの軸により分類して情報量を提供する。この場合において、情報処理装置20は、一方の軸(項目軸)については予め定めた項目で分類するが、他方の軸(クラスタ軸)についてはクラスタリングにより分類する。そして、情報処理装置20は、ユーザにより予め定められた複数の項目のうち何れか1つの項目が選択された場合、選択された項目に対して有用な複数のサブクラスタを自動的に抽出して、展開画像を生成する。
例えば、情報処理装置20は、選択された項目に分類される文書の情報量が多くなるように、複数のサブクラスタを自動的に抽出する。また、例えば、情報処理装置20は、文書の情報量の分散が大きくなるように複数のサブクラスタを自動的に抽出する。また、例えば、情報処理装置20は、過去にユーザが高い頻度で選択した複数のサブクラスタを自動的に抽出する。
このように情報処理装置20は、他方の軸(クラスタ軸)をクラスタリングにより分類するので、小さいコストで文書群を分類することができる。さらに、情報処理装置20は、他方の軸(クラスタ軸)を、選択した項目に対して有用な複数のサブクラスタに分類するので、文書群を適切に分類することができる。以上のように、情報処理装置20は、文書群を適切に分類した情報を小さいコストで提示することができる。
(第2実施形態)
つぎに、第2実施形態に係る文書管理システム10について説明をする。第2実施形態に係る文書管理システム10は、第1実施形態に係る文書管理システム10と略同一の構成および機能を有する。第2実施形態の説明では、第1実施形態で説明したユニットと、略同一の機能および構成のユニットには同一の符号を付けて、相違点を除き詳細な説明を省略する。
図16は、第2実施形態に係る第1画像制御部34および第2画像制御部36の構成を文書記憶部42および項目記憶部46とともに示す図である。
第2実施形態において、項目記憶部46は、文書群を第1観点により分類するための予め定められた複数の第1観点項目を記憶する。さらに、項目記憶部46は、文書群を第1観点とは異なる第2観点により分類するための複数の第2観点項目を記憶する。
第2実施形態に係る第1画像制御部34は、開始受付部72と、第1算出部74と、初期画像制御部76とを有する。
第1算出部74は、開始受付部72が開始操作を受け付けると、項目記憶部46から、複数の第1観点項目および複数の第2観点項目を取得する。そして、第1算出部74は、文書記憶部42にアクセスして、予め定められた複数の第1観点項目のそれぞれ毎、且つ、予め定められた複数の第2観点項目のそれぞれ毎の文書の情報量を算出する。すなわち、第1算出部74は、文書群を複数の第1観点項目に従って複数の第1観点文書群に分類する。そして、第1算出部74は、複数の第1観点文書群のそれぞれについて、複数の第2観点項目のそれぞれに分類される文書の情報量を算出する。
初期画像制御部76は、予め定められた複数の第1観点項目のそれぞれ毎、且つ、予め定められた複数の第2観点項目のそれぞれ毎の文書の情報量を表すように、項目選択画像の提示を制御する。すなわち、初期画像制御部76は、文書群を複数の第1観点項目に従って分類した複数の第1観点文書群のそれぞれについて、複数の第2観点項目のそれぞれに分類される文書の情報量を表す項目選択画像を生成する。そして、初期画像制御部76は、生成した項目選択画像を表示装置12に出力して、表示装置12に項目選択画像を表示させる。
第2実施形態に係る第2画像制御部36は、項目選択部78と、文書抽出部94と、選択クラスタリング部96と、選択分割部98と、スコア算出部80と、決定部82と、サブクラスタ生成部84と、第2算出部88と、展開画像制御部90とを有する。
項目選択部78は、ユーザによる、複数の第1観点項目のうちの何れか1つの第1観点項目、および、複数の第2観点項目のうちの何れか1つの第2観点項目の選択操作を、入力装置14から受け付ける。
文書抽出部94は、文書記憶部42にアクセスして、文書群から、選択された第1観点項目および選択された第2観点項目の両者に分類される複数の文書を含む選択文書群を抽出する。選択クラスタリング部96は、文書抽出部94により抽出された選択文書群に含まれる複数のキーフレーズを含む選択キーフレーズ群を取得する。そして、選択クラスタリング部96は、取得した選択キーフレーズ群を階層クラスタリングする。選択分割部98は、階層クラスタリングされた選択キーフレーズ群を複数の候補クラスタに分割する。
スコア算出部80は、選択分割部98により分割された複数の候補クラスタのそれぞれについて、選択された第1観点項目および第2観点項目に対する有用性を表すスコアを算出する。決定部82は、複数の候補クラスタのうち、算出されたスコアが所定の順位の2つの候補クラスタを、第1参照クラスタおよび第2参照クラスタとして決定する。例えば、決定部82は、複数の候補クラスタのうち、有用性が最も高いスコアの候補クラスタを第1参照クラスタとして決定し、有用性が2番目に高いスコアの候補クラスタを第2参照クラスタとして決定する。
サブクラスタ生成部84は、第1参照クラスタを、複数の第1サブクラスタに分割する。例えば、サブクラスタ生成部84は、第1参照クラスタを所定個(例えば、4個以上で最小)に分割して、複数の第1サブクラスタを生成する。また、サブクラスタ生成部84は、第2参照クラスタを、複数の第2サブクラスタに分割する。例えば、サブクラスタ生成部84は、第2参照クラスタを所定個(例えば、4個以上で最小)に分割して、複数の第2サブクラスタを生成する。
第2算出部88は、サブクラスタ生成部84から、複数の第1サブクラスタおよび複数の第2サブクラスタを取得する。そして、第2算出部88は、複数の第1サブクラスタのそれぞれ毎且つ複数の第2サブクラスタのそれぞれ毎の文書の情報量を算出する。すなわち、第2算出部88は、複数の第1サブクラスタに従って複数の第1サブ文書群に分類する。そして、第2算出部88は、複数の第1サブ文書群のそれぞれについて、複数の第2サブクラスタのそれぞれに分類される文書の情報量を算出する。
展開画像制御部90は、複数の第1サブクラスタのそれぞれ毎且つ複数の第2サブクラスタのそれぞれ毎の文書の情報量を表すように、クラスタ展開画像の提示を制御する。すなわち、展開画像制御部90は、複数の第1サブ文書群のそれぞれについて、複数の第2サブクラスタのそれぞれに分類される文書の情報量を表すクラスタ展開画像を生成する。そして、展開画像制御部90は、生成したクラスタ展開画像を表示装置12に出力して、表示装置12にクラスタ展開画像を表示させる。
図17は、項目記憶部46に記憶された複数の第1観点項目および複数の第2観点項目の一例を示す図である。項目記憶部46は、文書群を異なる観点で分類するための複数の第1観点項目および複数の第2観点項目を記憶する。複数の第1観点項目および複数の第2観点項目は、例えばユーザにより予め定められている。情報処理装置20は、このような複数の第1観点項目および複数の第2観点項目を他の装置から取得する。また、情報処理装置20は、ユーザにより入力された複数の第1観点項目および複数の第2観点項目を取得してもよい。
複数の第1観点項目と複数の第2観点項目とは、文書群を異なる観点で分類するための情報である。従って、情報処理装置20は、文書群を何れかの第1観点項目で絞り込んだ後、さらに何れかの第2観点項目で絞り込むことができる。
図18は、項目選択画像の一例を示す図である。情報処理装置20は、例えば、図18に示すような、ヒートマップ状の項目選択画像を生成する。
項目選択画像は、一方の軸(第1観点軸)が第1観点項目を表し、他方の軸(第2観点軸)が第2観点項目を表す2次元の格子状となっている。図18の例では、第1観点軸が縦軸、第2観点軸が横軸となっている。そして、項目選択画像は、複数の格子の内部のそれぞれの輝度または濃度が、対応する第1観点項目且つ対応する第2観点項目により分類された文書の情報量を表す。
例えば、図18の例の項目選択画像では、第1観点軸が、「機器」、「建屋」および「部品」の3個の第1観点項目を表す。また、この項目選択画像では、第2観点軸が、「品質部門」、「設計部門」および「製造部門」の3個の第2観点項目を表す。そして、この項目選択画像では、「機器」および「品質部門」の両者に対応する格子の内部の輝度または濃度が、第1観点項目が「機器」且つ第2観点項目が「品質部門」に分類される文書の情報量を表す。他の格子の内部の輝度または濃度も同様である。
なお、項目選択画像は、第1実施形態で説明した初期画像と同様に、図18に示すようなヒートマップ状の画像に限られない。また、表示装置12に表示された項目選択画像は、ユーザが、入力装置14を用いて、第1観点軸に表示された複数の第1観点項目のうちの何れか1つの第1観点項目と、第2観点軸に表示された複数の第2観点項目のうちの何れか1つの第2観点項目とを同時に選択することができる。
図19は、項目選択画像および選択キーフレーズ群の構造を表すデンドログラムの一例を示す図である。項目選択画像が表示された後、情報処理装置20は、ユーザによる、複数の第1観点項目のうちの何れか1つの第1観点項目、および、複数の第2観点項目のうちの何れか1つの第2観点項目の選択操作を、入力装置14から受け付ける。例えば、2次元の複数の格子が表示されている項目選択画像における何れか1つの格子(タイル)が選択された場合、情報処理装置20は、そのタイルに対応する第1観点項目および第2観点項目の選択操作を受け付ける。
第1観点項目および第2観点項目が選択された場合、情報処理装置20は、文書記憶部42にアクセスして、文書群から、選択された第1観点項目および選択された第2観点項目の両者に分類される複数の文書を含む選択文書群を抽出する。さらに、情報処理装置20は、文書抽出部94により抽出された選択文書群に含まれる複数のキーフレーズを含む選択キーフレーズ群を取得する。そして、情報処理装置20は、取得した選択キーフレーズ群を階層クラスタリングする。例えば、情報処理装置20は、選択キーフレーズ群に対して、図19に示すデンドログラムに表されるような階層クラスタリングを行う。
図20は、選択キーフレーズ群の構造を表すデンドログラム、および、クラスタ展開画像の一例を示す図である。例えば、情報処理装置20は、図20に示すようなデンドログラムにより表される階層構造のクラスタを分割して、複数の候補クラスタを生成する。例えば、情報処理装置20は、デンドログラムに基づき、階層クラスタリングされた選択キーフレーズ群を分割して、所定個(例えば、4個以上で最小)の候補クラスタを生成する。
情報処理装置20は、複数の候補クラスタのそれぞれにラベルを付加してもよい。例えば、情報処理装置20は、候補クラスタの中心位置近傍のキーフレーズを、その候補クラスタのラベルとしてもよい。
図20の例においては、情報処理装置20は、3個の候補クラスタを生成している。具体的には、情報処理装置20は、ラベルが「A」の候補クラスタ、ラベルが「B」の候補クラスタ、ラベルが「C」の候補クラスタ、および、ラベルが「D」の候補クラスタを生成している。
続いて、情報処理装置20は、分割した複数の候補クラスタのそれぞれについて、選択された第1観点項目および第2観点項目に対する有用性を表すスコアを算出する。続いて、情報処理装置20は、複数の候補クラスタのうち、有用性が最も高いスコアの候補クラスタを第1参照クラスタとして決定し、有用性が2番目に高いスコアの候補クラスタを第2参照クラスタとして決定する。例えば、図20の例では、ラベルが「B」の候補クラスタが第1参照クラスタとして決定され、ラベルが「A」の候補クラスタが第2参照クラスタとして決定されている。
続いて、情報処理装置20は、第1参照クラスタを複数の第1サブクラスタに分割し、第2参照クラスタを複数の第2サブクラスタに分割する。そして、情報処理装置20は、複数の第1サブクラスタのそれぞれ毎且つ複数の第2サブクラスタのそれぞれ毎の文書の情報量を表すクラスタ展開画像を生成する。
クラスタ展開画像は、一方の軸が第1サブクラスタを表し、他方の軸が第2サブクラスタを表す2次元の格子状となっている。図20の例では、縦軸が第1サブクラスタを表し、横軸が第2サブクラスタを表す。そして、クラスタ展開画像は、初期画像と同様に、複数の格子の内部のそれぞれの輝度または濃度が、対応する第1サブクラスタ且つ対応する第2サブクラスタにより分類された文書の情報量を表す。
縦軸が、「コンプレッサ」、「フランジボルト」、「スパッタ」および「ステータ」の4個の第1サブクラスタを表す。また、このクラスタ展開画像では、横軸が、「破損」、「遅延」、「損傷」、「溶解」および「溶接」の5個の第2サブクラスタを表す。
なお、クラスタ展開画像も、初期画像と同様に、ヒートマップ状の画像に限られない。また、クラスタ展開画像は、ユーザが、入力装置14を用いて縦軸に表示された複数の第1サブクラスタのうちの何れか1つの第1サブクラスタを選択することが可能である。この場合、情報処理装置20は、選択された第1サブクラスタのさらに下位層の複数のクラスタを縦軸に表示する。また、同様に、クラスタ展開画像は、ユーザが、入力装置14を用いて横軸に表示された複数の第2サブクラスタのうちの何れか1つの第2サブクラスタを選択することが可能である。この場合、情報処理装置20は、選択された第2サブクラスタのさらに下位層の複数のクラスタを横軸に表示する。
図21は、列選択および行選択をした場合の項目選択画像を示す図である。項目記憶部46に記憶された複数の第1観点項目および複数の第2観点項目は、木構造に階層構造化されていてもよい。
この場合、情報処理装置20は、ユーザによる、第1観点軸の複数の第1観点項目のうち何れか1つの第1観点項目の選択操作を、受け付けることができる。情報処理装置20は、ユーザによる、第2観点軸の複数の第2観点項目のうち何れか1つの第2観点項目の選択操作を、受け付けることができる。
例えば、ユーザにより項目選択画像の何れかの列が選択された場合、情報処理装置20は、選択された列に対応する第2観点項目が選択されたと判断する。この場合、情報処理装置20は、項目選択画像における横軸の項目を、選択された第2観点項目の下位層に展開される複数の項目に置き換える。
また、例えば、ユーザにより項目選択画像の何れかの行が選択された場合、情報処理装置20は、選択された行に対応する第1観点項目が選択されたと判断する。この場合、情報処理装置20は、項目選択画像における縦軸の項目を、選択された第1観点項目の下位層に展開される複数の項目に置き換える。
(第2実施形態の効果)
以上のように、第2実施形態に係る情報処理装置20は、文書群を、検索目的およびユーザの関心点に応じた2つの軸により分類して情報量を提供する。この場合において、情報処理装置20は、文書群を、予め定められた複数の第1観点項目および予め定められた複数の第2観点項目で分類して、項目選択画像を表示する。続いて、情報処理装置20は、文書群から、ユーザにより選択された第1観点項目および選択された第2観点項目の両者に分類される複数の文書を含む選択文書群を抽出する。続いて、情報処理装置20は、選択文書群をクラスタリングして複数の候補クラスタを生成する。続いて、情報処理装置20は、選択された第1観点項目および第2観点項目に対して有用な2つの候補クラスタを自動的に決定する。そして、情報処理装置20は、決定した2つの候補クラスタの一方を分類した複数の第1サブクラスタを一方の軸とし、他方を分類した複数の第2サブクラスタを他方の軸とした、クラスタ展開画像を生成する。
このように情報処理装置20は、2つの軸をクラスタリングにより分類するので、小さいコストで文書群を分類することができる。さらに、情報処理装置20は、2つの軸を、抽出した選択文書群に対して有用な複数のサブクラスタに分類するので、文書群を適切に分類することができる。以上のように、情報処理装置20は、文書群を適切に分類した情報を小さいコストで提示することができる。
(プログラム)
情報処理装置20で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供される。また、情報処理装置20で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、情報処理装置20で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
情報処理装置20で実行されるプログラムは、事前処理モジュール(文書取得モジュール、キーフレーズ生成モジュール、文書登録モジュール、クラスタリングモジュール、分割モジュール、項目取得モジュールおよび項目登録モジュール)と、第1画像制御モジュール(開始受付モジュール、第1算出モジュールおよび初期画像制御モジュール)と、第2画像制御モジュール(項目選択モジュール、スコア算出モジュール、決定モジュール、サブクラスタ生成モジュール、サブ項目抽出モジュール、第2算出モジュールおよび展開画像制御モジュール)とを有する。情報処理装置20は、プロセッサ(処理回路30)が記憶媒体(記憶装置16等)からプログラムを読み出して実行することにより各モジュールが主記憶装置(記憶回路24)上にロードされる。これにより、プロセッサ(処理回路30)は、事前処理部32(文書取得部52、キーフレーズ生成部54、文書登録部56、クラスタリング部58、分割部60、項目取得部62および項目登録部64)、第1画像制御部34(開始受付部72、第1算出部74および初期画像制御部76)、第2画像制御部36(項目選択部78、スコア算出部80、決定部82、サブクラスタ生成部84、サブ項目抽出部86、第2算出部88および展開画像制御部90)として機能する。なお、これらの一部または全部がプロセッサ以外のハードウェアにより実現されてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
10 文書管理システム
12 表示装置
14 入力装置
16 記憶装置
20 情報処理装置
22 通信部
24 記憶回路
30 処理回路
32 事前処理部
34 第1画像制御部
36 第2画像制御部
42 文書記憶部
44 クラスタ記憶部
46 項目記憶部
52 文書取得部
54 キーフレーズ生成部
56 文書登録部
58 クラスタリング部
60 分割部
62 項目取得部
64 項目登録部
72 開始受付部
74 第1算出部
76 初期画像制御部
78 項目選択部
80 スコア算出部
82 決定部
84 サブクラスタ生成部
86 サブ項目抽出部
88 第2算出部
90 展開画像制御部
94 文書抽出部
96 選択クラスタリング部
98 選択分割部

Claims (13)

  1. 文書群に含まれる複数のキーフレーズを含むキーフレーズ群を階層クラスタリングするクラスタリング部と、
    前記キーフレーズ群を複数の候補クラスタに分割する分割部と、
    前記文書群を分類するための予め定められた複数の項目のうちの何れか1つ項目の選択操作を受け付ける項目選択部と、
    前記複数の候補クラスタのそれぞれについて、選択された項目に対する有用性を表すスコアを算出するスコア算出部と、
    前記複数の候補クラスタのうち、前記スコアが所定の順位の候補クラスタを参照クラスタとして決定する決定部と、
    前記参照クラスタを複数のサブクラスタに分割するサブクラスタ生成部と、
    選択された項目の下位層の予め定められた複数のサブ項目を抽出するサブ項目抽出部と、
    前記複数のサブ項目のそれぞれ毎且つ前記複数のサブクラスタのそれぞれ毎の文書の情報量を表すように、展開画像の提示を制御する展開画像制御部と、
    を備える情報処理装置。
  2. 前記決定部は、前記複数の候補クラスタのうち前記スコアが最も高い1つの候補クラスタを前記参照クラスタとして決定する
    請求項1に記載の情報処理装置。
  3. 前記スコアは、対応する候補クラスタにおける選択された項目に分類される文書の情報量を表す
    請求項1または2に記載の情報処理装置。
  4. 前記スコアは、前記複数のサブ項目のそれぞれ毎且つ対応する候補クラスタを分割した複数のサブクラスタのそれぞれ毎の文書の情報量の分散を表す
    請求項1または2に記載の情報処理装置。
  5. 前記スコアは、対応する候補クラスタをユーザが過去に操作により選択した頻度または割合を表す
    請求項1または2に記載の情報処理装置。
  6. 前記スコア算出部は、第1パラメータと、第2パラメータと、第3パラメータとを合計して前記スコアを算出し、
    前記第1パラメータは、対応する候補クラスタにおける選択された項目に分類される文書の情報量に応じた値を表し、
    前記第2パラメータは、前記複数のサブ項目のそれぞれ毎且つ対応する候補クラスタを分割した複数のサブクラスタのそれぞれ毎の文書の情報量の分散に応じた値を表し、
    前記第3パラメータは、対応する候補クラスタをユーザが過去に操作により選択した頻度または割合に応じた値を表す
    請求項1または2に記載の情報処理装置。
  7. 前記複数の項目のそれぞれ毎且つ前記複数の候補クラスタのそれぞれ毎の文書の情報量を表すように、初期画像の提示を制御する初期画像制御部をさらに備える
    請求項1から6の何れか1項に記載の情報処理装置。
  8. 前記複数のサブ項目のうち何れか1つのサブ項目が選択された場合、前記スコア算出部、前記決定部、前記サブ項目抽出部および前記展開画像制御部は、前記複数のサブ項目を前記複数の項目と置き換え、前記複数のサブクラスタを前記複数の候補クラスタと置き換えて、再度処理を実行して展開画像を提示する
    請求項1から7の何れか1項に記載の情報処理装置。
  9. 前記展開画像制御部は、前記展開画像とともに、前記複数の候補クラスタのうちの何れか1つを選択させるためのメニュー画像を提示し、
    前記メニュー画像により何れか1つの新たな候補クラスタが選択された場合、
    前記サブクラスタ生成部は、前記新たな候補クラスタを前記参照クラスタとして、新たな複数のサブクラスタに分割し、
    前記展開画像制御部は、前記複数のサブ項目のそれぞれ毎且つ新たな複数のサブクラスタのそれぞれ毎の文書の情報量を表すように、新たな展開画像の提示を制御する
    請求項1から8の何れか1項に記載の情報処理装置。
  10. 文書抽出部と、選択クラスタリング部と、選択分割部とをさらに備え、
    前記項目選択部は、前記文書群を分類するための予め定められた複数の第1観点項目のうちの何れか1つの第1観点項目、および、前記文書群を分類するための予め定められた複数の第2観点項目のうちの何れか1つの第2観点項目の選択操作を受け付け、
    前記文書抽出部は、前記文書群から、選択された第1観点項目および選択された第2観点項目の両者に分類される複数の文書を含む選択文書群を抽出し、
    前記選択クラスタリング部は、前記選択文書群に含まれる複数のキーフレーズを含む選択キーフレーズ群を階層クラスタリングし、
    前記選択分割部は、前記選択キーフレーズ群を複数の候補クラスタに分割し、
    前記スコア算出部は、前記複数の候補クラスタのそれぞれについて、選択された第1観点項目および第2観点項目に対する有用性を表す前記スコアを算出し、
    前記決定部は、前記複数の候補クラスタのうち、前記スコアが所定の順位の2つの候補クラスタを第1参照クラスタおよび第2参照クラスタとして決定し、
    前記サブクラスタ生成部は、前記第1参照クラスタを複数の第1サブクラスタに分割し、前記第2参照クラスタを複数の第2サブクラスタに分割し、
    前記展開画像制御部は、前記複数の第1サブクラスタのそれぞれ毎且つ前記複数の第2サブクラスタのそれぞれ毎の文書の情報量を表すように、クラスタ展開画像の提示を制御する
    請求項1に記載の情報処理装置。
  11. 前記複数の第1観点項目のそれぞれ毎且つ前記複数の第2観点項目のそれぞれ毎の文書の情報量を表すように、項目選択画像の提示を制御する初期画像制御部をさらに備える
    請求項10に記載の情報処理装置。
  12. 情報処理装置により実行される情報処理方法であって、
    クラスタリング部が、文書群に含まれる複数のキーフレーズを含むキーフレーズ群を階層クラスタリングし、
    分割部が、前記キーフレーズ群を複数の候補クラスタに分割し、
    項目選択部が、前記文書群を分類するための予め定められた複数の項目のうちの何れか1つ項目の選択操作を受け付け、
    スコア算出部が、前記複数の候補クラスタのそれぞれについて、選択された項目に対する有用性を表すスコアを算出し、
    決定部が、前記複数の候補クラスタのうち、前記スコアが所定の順位の候補クラスタを参照クラスタとして決定し、
    サブクラスタ生成部が、前記参照クラスタを複数のサブクラスタに分割し、
    抽出部が、選択された項目の下位層の予め定められた複数のサブ項目を抽出し、
    展開画像制御部が、前記複数のサブ項目のそれぞれ毎且つ前記複数のサブクラスタのそれぞれ毎の文書の情報量を表すように、展開画像の提示を制御する
    情報処理方法。
  13. 情報処理装置で実行されるプログラムであって、
    前記情報処理装置を、
    文書群に含まれる複数のキーフレーズを含むキーフレーズ群を階層クラスタリングするクラスタリング部と、
    前記キーフレーズ群を複数の候補クラスタに分割する分割部と、
    前記文書群を分類するための予め定められた複数の項目のうちの何れか1つ項目の選択操作を受け付ける項目選択部と、
    前記複数の候補クラスタのそれぞれについて、選択された項目に対する有用性を表すスコアを算出するスコア算出部と、
    前記複数の候補クラスタのうち、前記スコアが所定の順位の候補クラスタを参照クラスタとして決定する決定部と、
    前記参照クラスタを複数のサブクラスタに分割するサブクラスタ生成部と、
    選択された項目の下位層の予め定められた複数のサブ項目を抽出するサブ項目抽出部と、
    前記複数のサブ項目のそれぞれ毎且つ前記複数のサブクラスタのそれぞれ毎の文書の情報量を表すように、展開画像の提示を制御する展開画像制御部と
    して機能させるプログラム。
JP2017192750A 2017-10-02 2017-10-02 情報処理装置、情報処理方法およびプログラム Active JP6800825B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017192750A JP6800825B2 (ja) 2017-10-02 2017-10-02 情報処理装置、情報処理方法およびプログラム
US15/899,610 US10740378B2 (en) 2017-10-02 2018-02-20 Method for presenting information volume for each item in document group

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017192750A JP6800825B2 (ja) 2017-10-02 2017-10-02 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2019067191A true JP2019067191A (ja) 2019-04-25
JP6800825B2 JP6800825B2 (ja) 2020-12-16

Family

ID=65897298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017192750A Active JP6800825B2 (ja) 2017-10-02 2017-10-02 情報処理装置、情報処理方法およびプログラム

Country Status (2)

Country Link
US (1) US10740378B2 (ja)
JP (1) JP6800825B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021065058A1 (ja) * 2019-09-30 2021-04-08 沖電気工業株式会社 概念構造抽出装置、記憶媒体及び方法
JP2021165892A (ja) * 2020-04-06 2021-10-14 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667869B (zh) * 2019-10-15 2024-05-03 阿里巴巴集团控股有限公司 数据处理方法、设备、系统及存储介质
CN112269937B (zh) * 2020-11-16 2024-02-02 加和(北京)信息科技有限公司 一种计算用户相似度的方法、系统及装置
US11470490B1 (en) 2021-05-17 2022-10-11 T-Mobile Usa, Inc. Determining performance of a wireless telecommunication network
CN115982633B (zh) * 2023-03-21 2023-06-20 北京百度网讯科技有限公司 目标对象分类方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007069663A1 (ja) * 2005-12-13 2007-06-21 Intellectual Property Bank Corp. 技術文書属性の関連性分析支援装置
JP2011128705A (ja) * 2009-12-15 2011-06-30 Toshiba Corp 情報処理装置およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11296528A (ja) 1998-04-07 1999-10-29 Fujitsu Ltd ブラウジング検索装置及び記録媒体
JP4121125B2 (ja) 2003-09-10 2008-07-23 インターナショナル・ビジネス・マシーンズ・コーポレーション グラフィックス・イメージ生成装置及びその方法、データ解析装置及びその方法並びにプログラム
US20070112867A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for rank-based response set clustering
WO2010064939A1 (en) 2008-12-05 2010-06-10 Business Intelligence Solutions Safe B.V. Methods, apparatus and systems for data visualization and related applications
US9916381B2 (en) * 2008-12-30 2018-03-13 Telecom Italia S.P.A. Method and system for content classification
JP6002159B2 (ja) 2011-02-24 2016-10-05 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 電子文書の検索方法及び電子文書検索のグラフィカル表示方法
EP2973041B1 (en) * 2013-03-15 2018-08-01 Factual Inc. Apparatus, systems, and methods for batch and realtime data processing
JP2017068534A (ja) 2015-09-30 2017-04-06 富士通株式会社 分析方法、分析装置および分析プログラム
JP6622172B2 (ja) 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
JP6615809B2 (ja) 2017-03-02 2019-12-04 株式会社東芝 作業支援システム、作業支援方法およびプログラム
JP6612800B2 (ja) 2017-03-09 2019-11-27 株式会社東芝 設計支援システムおよび設計支援方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007069663A1 (ja) * 2005-12-13 2007-06-21 Intellectual Property Bank Corp. 技術文書属性の関連性分析支援装置
JP2011128705A (ja) * 2009-12-15 2011-06-30 Toshiba Corp 情報処理装置およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021065058A1 (ja) * 2019-09-30 2021-04-08 沖電気工業株式会社 概念構造抽出装置、記憶媒体及び方法
JP2021165892A (ja) * 2020-04-06 2021-10-14 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP7427510B2 (ja) 2020-04-06 2024-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US11900060B2 (en) 2020-04-06 2024-02-13 Kabushiki Kaisha Toshiba Information processing device, information processing method, and computer program product

Also Published As

Publication number Publication date
US20190102453A1 (en) 2019-04-04
JP6800825B2 (ja) 2020-12-16
US10740378B2 (en) 2020-08-11

Similar Documents

Publication Publication Date Title
JP6800825B2 (ja) 情報処理装置、情報処理方法およびプログラム
US10205643B2 (en) Systems and methods for monitoring and analyzing performance in a computer system with severity-state sorting
US20150032708A1 (en) Database analysis apparatus and method
WO2013183485A1 (ja) アセンブリモデル類似構造検索システム、及びアセンブリモデル類似構造検索方法
JP6371465B2 (ja) 画像検索装置、及び画像を検索する方法
JP2019021232A (ja) 情報処理装置、情報処理方法および情報処理プログラム
EP2909739A1 (en) Methods and systems for managing spreadsheet models
CN114138246B (zh) 拓扑自动生成方法、装置、计算设备及存储介质
JP2000311246A (ja) 類似画像表示方法及び類似画像表示処理プログラムを格納した記録媒体
CN114387608B (zh) 一种联合卷积与图神经网络的表格结构识别方法
JP2017182526A (ja) 領域抽出プログラム、領域抽出方法、および領域抽出装置
CN113283432A (zh) 图像识别、文字排序方法及设备
CN114021541A (zh) 演示文稿生成方法、装置、设备及存储介质
JP6144968B2 (ja) 情報提示装置、方法、及びプログラム
JP2021189835A (ja) 情報処理装置、情報処理方法、及びプログラム
JP4041081B2 (ja) 分割クラスタリング装置及び分割データ数決定方法
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
JP2011070529A (ja) 文書処理装置
US10354008B2 (en) System and method for providing a visual scroll representation of production data
JP2020166443A (ja) データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム
JP6413597B2 (ja) 分析プログラム、分析方法及び分析装置
US20230230403A1 (en) Systems and methods for representing and searching characters
JP5600826B1 (ja) 非構造化データ処理システム、非構造化データ処理方法およびプログラム
CN117726778B (zh) 三维古建筑模型的生成方法、装置、设备及存储介质
JP6592916B2 (ja) データ処理プログラム、データ処理方法、およびデータ処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201125

R151 Written notification of patent or utility model registration

Ref document number: 6800825

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151