JP2009134378A - 文書群提示装置および文書群提示プログラム - Google Patents

文書群提示装置および文書群提示プログラム Download PDF

Info

Publication number
JP2009134378A
JP2009134378A JP2007308151A JP2007308151A JP2009134378A JP 2009134378 A JP2009134378 A JP 2009134378A JP 2007308151 A JP2007308151 A JP 2007308151A JP 2007308151 A JP2007308151 A JP 2007308151A JP 2009134378 A JP2009134378 A JP 2009134378A
Authority
JP
Japan
Prior art keywords
document
concept
document group
classification table
abstraction level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007308151A
Other languages
English (en)
Other versions
JP5112027B2 (ja
Inventor
Yoshitaka Ito
嘉隆 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems and Services Ltd
Original Assignee
Hitachi Systems and Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems and Services Ltd filed Critical Hitachi Systems and Services Ltd
Priority to JP2007308151A priority Critical patent/JP5112027B2/ja
Publication of JP2009134378A publication Critical patent/JP2009134378A/ja
Application granted granted Critical
Publication of JP5112027B2 publication Critical patent/JP5112027B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】指定した抽象度で文書群の統合・分割結果を作成することができ、分類対象となる文書群の文書空間を地図に見立て意味上の拡大・縮小が可能なインタフェースを構築する文書群提示装置を提供する。
【解決手段】概念辞書を読み出して単語の概念を木構造として構築する概念木構築手段と、複数の文書を読み出して単語を抽出し、単語の出現回数、または、見出し語かどうかにより重要話題を判定し抽出する重要話題抽出手段と、概念木構築手段により構築された概念木と、重要話題抽出手段により抽出された重要話題とから、文書群の提示に必要となる概念識別子、文書識別子、抽象度、現抽象度、現在位置を表現する概念木を文書分類表として構築する文書分類表構築手段と、文書分類表構築手段により構築された文書分類表を解析し、入力された抽象度従い文書分類表を更新する文書群統合・分割手段と、文書群統合・分割手段により更新された文書分類表に基づき文書群を提示する提示手段とを備える。
【選択図】図1

Description

本発明は、文書管理システムにおける文書群提示装置および文書群提示プログラムに係り、特に、全文書集合の全体像から概念の意味上の階層関係を使用して重要話題での意味上の拡大・縮小を行う技術に関する。
従来の情報潮流検出方法として、自動的に話題を抽出し、分類し、関連語を算出する方法が知られている。(下記、特許文献1参照)
また、従来の情報潮流検出方法として、時系列に並んだ話題を自動的に抽出し提示する方法が知られている。(下記、特許文献2参照)
さらに、従来の文書管理システムにおける文書の自動分類方法として、抽象度を使った分類方法が知られている。(下記、特許文献3参照)
なお、本願発明に関連する先行技術文献としては以下のものがある。
特開2006−277767号公報 特開平11−175530号公報 特開2003−85189号公報
前述の特許文献1に記載の方法では、出現頻度による話題抽出と、話題同士の強度を算出し話題間に関係を持たせるが、意味上関係があるかどうか不明な話題同士が結合する可能性があり、上位概念の話題から下位概念の話題へと辿って文書群を提示する用途には利用できなかった。
また、前述の特許文献2に記載の方法では、出現回数と日時を軸としたグラフ上に話題を投影し、一覧性は向上しているが、莫大な数の話題に対して提示することができなかった。
さらに、前述の特許文献3に記載の方法では、文書群の具体的な提示方法は示されておらず、分類した文書群を提示することができなかった。
本発明は、前記従来技術の問題点を解決するためになされたものであり、本発明の目的は、指定した抽象度で文書群の統合・分割結果を作成することができ、分類対象となる文書群の文書空間を地図に見立て意味上の拡大・縮小が可能なインタフェースを構築することが可能な文書群提示装置を提供することにある。
また、本発明の他の目的は、前述の文書群提示装置をコンピュータに実行させるためのプログラムを提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、下記の通りである。
前述の目的を達成するために、本発明は、文書を入力し、登録・保管・検索・表示する機能を有する文書管理システムの文書群を提示する文書群提示装置であって、概念辞書を読み出して単語の概念を木構造として構築する概念木構築手段と、複数の文書を読み出して単語を抽出し、単語の出現回数、あるいは、見出し語かどうかにより重要話題を判定し抽出する重要話題抽出手段と、前記概念木構築手段により構築された前記概念木と、前記重要話題抽出手段により抽出された前記重要話題とから、文書群の提示に必要となる概念識別子、文書識別子、抽象度、現抽象度を表現する概念木を文書分類表として構築する文書分類表構築手段と、前記文書分類表構築手段により構築された前記文書分類表を解析し、入力された抽象度に従い前記文書分類表を更新する文書群統合・分割手段と、前記文書群統合・分割手段により更新された前記文書分類表に基づき、前記文書群を提示する提示手段とを備える。
また、本発明では、前記文書分類表構築手段は、前記重要話題抽出手段により抽出された前記重要話題が、前記概念木構築手段により構築された前記概念木に存在する場合に、当該重要話題の概念識別子と、当該重要話題に関連付けられた文書の文書識別子、当該重要話題の前記概念木上の階層を抽象度と現抽象度を、前記文書分類表の前記概念識別子、文書識別子、抽象度、現抽象度として設定し、前記文書群統合・分割手段は、入力された抽象度の重要話題に、当該入力された抽象度の重要話題の下位概念の重要話題を統合、あるいは、下位概念の重要話題を統合している上位概念の重要話題を、当該入力された抽象度の重要話題に分割するように、文書分類表を更新し、前記提示手段は、前記文書群統合・分割手段により更新された前記文書分類表に基づき、前記入力された抽象度以下の前記重要話題に関連付けられた文書群を、縦軸を出現頻度、横軸を出現日時とするグラフ上に、前記入力された抽象度以下の前記重要話題に関連付けられた文書数に比例する面積で提示する。
また、本発明は、文書を入力し、登録・保管・検索・表示する機能を有する文書管理システムの文書群を提示する文書群提示プログラムであって、前記文書群提示プログラムは、コンピュータに、前述の文書群提示装置の各手段を実現させる。
本願において開示される発明のうち代表的なものによって得られる効果を簡単に説明すれば、下記の通りである。
本発明によれば、指定した抽象度で文書群の統合・分割結果を作成することができ、分類対象となる文書群の文書空間を地図に見立て意味上の拡大・縮小が可能なインタフェースを構築することが可能となる。
以下、図面を参照して本発明の実施例を詳細に説明する。
なお、実施例を説明するための全図において、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
[機能ブロック図]
図1に、本発明の実施例の文書群提示装置の機能ブロックを示す図を示す。
図1に示すように、文書群提示装置11は、概念木構築手段101と、重要話題抽出手段102と、文書分類表構築手段103と、概念辞書記憶手段104と、文書記憶手段105と、文書群統合・分割手段106と、文書群提示手段107と、抽象度入力手段108と、表示手段109とを備える。
概念木構築手段101は、概念辞書記憶手段104から概念の単語を読出し、親子関係を解析してメモリ上に木構造を構築する。
重要話題抽出手段102は、文書記憶手段105から文書を読出し、テキスト文章を抽出し、形態素解析を実施することで品詞分解し話題を抽出し、所定の手続きにより重要度を判定し、重要話題を抽出する。
文書分類表構築手段103は、概念木構築手段101で構築された概念木と、重要話題抽出手段102で抽出された重要話題を元に、文書群の提示に必要となる概念識別子、文書識別子、抽象度、現抽象度、現在位置を表現する概念木を含む文書分類表を構築する。
文書群統合・分割手段106は、抽象度入力手段108により入力された抽象度に従い文書分類表を解析し、表示対象となる抽象度の文書分類にそれ以下の抽象度の文書分類を統合・分割されるよう文書分類表を更新する。
文書群提示手段107は、前記文書統合/分類手段106で作成された文書分類表を解析し表示対象分類対象文書群を表示装置に表示する。
[ハードウェア構成]
図1に示す文書群提示装置11を実行するコンピュータ装置のハードウェア構成を図2に示す。
図2に示すように、文書群提示装置11を実行するコンピュータは、ディスプレイ201と、CPU202と、メモリ203と、キーボード/マウス204と、ハードディスク205、CD−ROM207を読み込むためのCD−ROMドライブ206と、インターネット209と接続される通信回路208とを備える。ハードディスク205には、文書提示プログラム2051、概念辞書データベース2052、および文書データベース2053が格納されている。
図1の概念木構築手段101は、概念辞書データベース2052を使用し、CPU202がメモリ203を用いて実行する文書提示プログラムにより実現される。
図1の重要話題抽出手段102は、文書データベース2053を使用し、CPU202がメモリ203を用いて実行する文書提示プログラム2051により実現される。
図1の文書分類表構築手段103は、CPU202がメモリ203を用いて実行する文書提示プログラム2051により実現される。
図1の概念辞書記憶手段104は、概念辞書データベース2052により実現される。図1の文書記憶手段105は、文書データベース2053により実現される。
図1の文書群統合・分割手段106は、CPU202がメモリ203を用いて実行する文書提示プログラム2051により実現される。
図1の文書群提示手段107は、CPU202がメモリ203を用いて実行する文書提示プログラム2051により実現される。
図1の抽象度入力手段108は、キーボード/マウス204によって実現される。図1の表示手段109は、ディスプレイ201によって実現される。
[処理詳細]
図4〜図8を用いて、本実施例の処理手順について説明する。
図4は、図1に示す文書群提示装置11の概念木構築手段101の処理手順を示すフローチャートである。
図5は、図1に示す文書群提示装置11の重要話題抽出手段102の処理手順を示すフローチャートである。
図6は、図1に示す文書群提示装置11の文書分類表構築手段103の処理手順を示すフローチャートである。
図7は、図1に示す文書群提示装置11の文書群統合・分割手段106の処理手順を示すフローチャートである。
図8は、図1に示す文書群提示装置11の文書群提示手段107の処理手順を示すフローチャートである。
なお、図4〜図8のフローチャートは、図2に示す文書提示プログラム2051により実現される。
[概念木構築処理]
ユーザが、文書提示プログラム2051を開始すると概念木構築手段101による概念木構築処理が開始する。概念木構築処理では、あらかじめメモリ203に構築結果の概念木を保持する領域を確保しておく。
最初に、概念辞書記憶手段104から概念を読込み1件分の概念を取得する(ステップS401)。ここで概念辞書は、図9に示す概念部と図10に示す関係部から構成されている辞書を想定しており、図9の1件目の概念901を読出し、つぎに図10に示す関係部から自分が下位概念になっている概念を読込む。この場合、概念901が下位概念に該当する関係は存在しないため、読込まない。
つぎに、メモリ203に図3の概念301に示すオブジェクトを作成し、読込んだ概念の概念識別子である「1」、概念名称である「概念」、を設定する(ステップS402)。上位概念、下位概念は存在しないため設定しない。
つぎに、結果の概念木をルート要素から順に下位概念へと辿りながら(ステップS403)、読込んだ概念が下位概念となる上位概念が存在するかどうかを判定する(ステップS404)。この場合、まだ概念木には要素が存在しないのでルート要素に現在の概念を設定する(ステップS405)。
つぎに、読込んだ概念が最後の概念か判定する(ステップS406)。この場合、まだ最後の概念ではないので次の概念を読込む(ステップS401)。
図9の2件目の主体902を読出し、つぎに関係部である図10から自分が下位概念になっている1001の1行を読込む。
つぎに、メモリ203に図3の概念301に示すオブジェクトを作成し、読込んだ概念の概念識別子である「2」、概念名称である「主体」、上位概念識別子には「概念」の識別子である「1」を設定する。この場合、下位概念は存在しないため設定しない。
つぎに、結果の概念木をルート要素から順に下位概念へと辿りながら(ステップS403)、読込んだ概念が下位概念となる上位概念が存在するかどうかを判定する(ステップS404)。この場合、「主体」の概念オブジェクトは概念木に既に存在する「概念」の概念オブジェクトの下位概念に該当するため、「概念」の概念オブジェクトの下位概念には、「主体」の概念オブジェクトそのものを設定する。
以降、最後の概念まで、この処理を繰返し、図11に示す概念木を構築する。ここで、「概念」の概念オブジェクトの下位概念には、「主体」、「ものごと」、「事象」、「位置」、「時の」の概念オブジェクトが設定される。
[重要話題抽出処理]
概念木構築処理が終了すると、つぎに重要話題抽出手段102による重要話題抽出処理が開始する。
重要話題抽出処理では、最初に、文書記憶手段105から文書を読込み1件分の文書を取得する(ステップS501)、この場合、文書は、図12に示す見出し1201と本文1202から構成されている文書を想定している。
つぎに、メモリ203に図3の文書302に示すオブジェクトを作成し、連番の文書識別子、この場合、「0」を自動的に割当て設定し、ファイルのパスから文書ファイルパス、この場合、「概念.doc」を設定する(ステップS502)。
つぎに、文書から見出し1201と本文1202を含む全てのテキストを抽出し、1文を抽出する(ステップS503)。取り込んだ文章から、第1文を切り出すには、たとえば、文章の最初の句点「。」または改行を検出することにより行う。この場合、取り込んだ文章が、たとえば、「概念とは、物事の総括的・概括的な意味のこと。ある事柄に対して…」であったとすると、ステップS503で、第1文として、「概念とは、物事の総括的・概括的な意味のこと。」が切り出される。
つぎに、抽出したテキスト文章を形態素解析処理し、品詞に分解する(ステップS504)。形態素解析処理においては、切り出された文を単語に分解するとともに品詞情報を生成する。このような形態素解析処理には既知の手法を用いることができる。
この場合、図13に示す1302の形で解析処理を実施し、1303の単語の一覧を得る。
つぎに、分解された単語の一覧を話題の一覧として、1件目の話題を取得する(ステップS505)。この場合、「概念」を取得する。
つぎに、概念木構築手段101で構築した概念木に「概念」が存在するかどうか判定する(ステップS506)。この場合、概念木に「概念」が存在するので、図3の文書分類303に示すオブジェクトを生成する(ステップS507)。
つぎに、概念識別子として、図3の文書分類303に示すオブジェクトの概念識別子に「概念」の識別子である「1」を設定し、文書識別子として「1」を設定し、図3の概念301に示す「概念」のオブジェクトの出現頻度を、+1増加させ、文書の作成日付である「2003年6月15日」を出現日時に設定する(ステップS508)。なお、図3の概念301に示す「概念」のオブジェクトの出現頻度が、+1増加させるごとに、出現日時は、最も新しい文書の作成日付に更新される。
つぎに、「概念」が見出し語かどうかを判定し(ステップS509)、見出し語ではなかった場合には、例えば、図3の概念301に示す「概念」のオブジェクトの出現頻度が、予めハードディスク205に保存されているファイルに設定されている閾値を越えているかどうかで判定する(ステップS510)。この場合、「概念」は見出し語であるので重要単語であると判定する。
つぎに、ステップS507で生成された文書分類オブジェクトを図3の文書分類表304に追加する(ステップS512)。
つぎに、現在の話題が最後の話題かどうかを確認する(ステップS513)。この場合、最後の話題ではないのでつぎの話題を取得する(ステップS505)。
以降、ステップS505〜ステップS513のステップを繰返し、現在の話題が最後の話題であった場合には、最後の文かどうかを確認する(ステップS514)。この場合、最後の文ではないのでつぎの文を抽出する(ステップS503)。
以降、ステップS503〜ステップS514のステップを繰返し、現在の文が最後の文であった場合には、最後の文書かどうかを確認する(ステップS515)。この場合、最後の文書ではないのでつぎの文書を読込む(ステップS501)。
以降、ステップS501〜ステップS515のステップを繰返し、現在の文書が最後の文書であった場合には、終了する。
[文書分類表構築処理]
重要話題抽出処理が終了すると、つぎに文書分類表構築手段103による文書分類表構築処理が開始する。
文書分類表構築処理では、最初に、重要話題抽出手段102で作成された文書分類表304から1件分の文書分類オブジェクトを取得する(ステップS601)。この場合、重要話題名が「概念」である文書分類が取得される。
つぎに、重要話題名が「概念」である文書分類に対応する概念が概念木構築手段101により構築された概念木に存在するかどうかを判定する(ステップS602)。この場合、概念木に「概念」という概念が存在するため、文書分類オブジェクトの抽象度に現在の概念木の階層の段数である「1」を設定し(ステップS603)、文書分類オブジェクトの現抽象度に現在の概念木の階層の段数である「1」を設定する(ステップS604)。
つぎに、更新された文書分類で文書分類表を更新する(ステップS605)。
つぎに、最後の文書分類かどうかを判定する(ステップS606)。この場合、最後の文書分類ではないため、つぎの文書分類を取得する(ステップS601)。
以降、最後の文書分類までステップS601〜ステップS606を繰返し、図14に示す文書分類表を構築する。
この文書分類表は、図3の文書分類表304を例示したものである。たとえば、1401に示す表の1行は、図3の文書分類303に相当し、1402に示す「概念のツリー表現」で表現される3列は、文書分類303の現概念に相当する階層構造を概念名称で表現したものである。
[文書群統合・分割処理]
文書分類表構築処理が終了すると、文書群統合・分割手段106による文書群統合・分割処理が開始する。
文書群統合・分割処理は、文書群統合処理と文書群分割処理から構成されている。入力された抽象度が以前の抽象度よりも小さい場合には、文書群統合処理が開始し、入力された抽象度が以前の抽象度よりも大きい場合には、文書群分割処理が開始する。
[文書群統合処理]
文書群統合処理は、最初に、ユーザが抽象度を入力することから開始する(ステップS701)。この場合、抽象度として「4」を入力したとする。
つぎに、文書分類表構築手段103で構築された図14に示す文書分類表から1件分の文書分類を取得する(ステップS702)。この場合、重要話題名が「概念」である文書分類が取得される。
つぎに、前回入力された抽象度と今回入力された抽象度を比較する(ステップS703)。この場合、最大の抽象度まで展開されており、前回入力された抽象度として「5」が設定されているため、入力された抽象度と文書分類の抽象度を比較する(ステップS710)。
この場合、文書分類の現抽象度は「1」であり、入力された抽象度は「4」であり、入力された抽象度が文書分類の現抽象度より大きいため、対象をつぎの文書分類に移す(ステップS702)。
以降、同様に図14の31行目までは、ステップS702〜ステップS710を繰返す。
対象の文書分類が32行目の重要話題名が「高校教師」である文書分類である場合、入力された抽象度が文書分類の現抽象度より小さくなるため、文書分類の現概念の上位概念を辿り(ステップS711)、上位概念の抽象度は、入力された抽象度かどうかを判断する(ステップS712)。
この場合、重要話題名が「高校教師」である文書分類の上位概念は、重要話題名が「教師」である文書分類となり、この文書分類の抽象度は「4」であり、入力された抽象度に合致するため、現抽象度に入力された抽象度である「4」を設定する(ステップ713)。
つぎに、図3の文書分類303に示す現概念に、上位概念を設定する(ステップS714)。この場合、名称が「教師」である概念を設定する。現概念に設定された概念オブジェクトは、上位概念と下位概念を持った木構造を形成している。
つぎに、現在の文書分類が最後の文書分類かどうか確認する(ステップS715)。この場合、まだ最後の文書分類ではないので、対象をつぎの文書分類に移す(ステップS702)。
以降、ステップS702〜ステップS715のステップを繰返し、図15に示す文書分類表を構築する。
[文書群分割処理]
文書群分割処理は、最初に、ユーザが抽象度を入力することから開始する(ステップS701)。この場合、抽象度として「5」を入力したとする。
つぎに、文書統合処理で構築された図15に示す文書分類表から1件分の文書分類を取得する(ステップS702)。この場合、重要話題名が「概念」である文書分類が取得される。
つぎに、前回入力された抽象度と今回入力された抽象度を比較する(ステップS703)。この場合、前回入力された抽象度として「4」が設定されているため、文書分類の抽象度が文書分類の現抽象度と異なるか判定する(ステップS704)。この場合、文書分類の抽象度は「1」、文書分類の現抽象度は「1」と同じであるため、対象をつぎの文書分類に移す(ステップS702)。以降、同様に図15の31行目までは、ステップS702〜ステップS704を繰返す。
対象の文書分類が32行目の重要話題名が「高校教師」の文書分類の場合、文書分類の抽象度は「5」、文書分類の現抽象度は「4」と異なるため、入力された抽象度と文書分類の抽象度を比較する(ステップS705)。
ここでは、文書分類の抽象度は「5」、入力された抽象度は「5」であり、入力された抽象度が文書分類の現抽象度以下であるため、文書分類の現概念(図15では「教師」)の下位概念を辿り(ステップS706)、概念は入力された抽象度かどうかを判断する(ステップS707)。
この場合、重要話題名が「高校教師」の文書分類の現概念である「教師」に設定されている下位概念は、「高校教師」、「中学教師」、「小学教師」である文書分類となり、抽象度は「5」であり、入力された抽象度に合致する。
つぎに、重要話題名が「高校教師」の文書分類の現概念である「教師」に設定されている下位概念が、現在の文書分類の概念を子概念に含む概念かどうかを判定する(S708)。この場合、現在の文書分類の概念は「高校教師」であり、下位概念は「高校教師」、「中学教師」、「小学教師」であるため、「高校教師」を選択する。
つぎに、現抽象度を入力された抽象度に設定する(S709)。この場合、現在の文書分類である「高校教師」の現抽象度に入力された抽象度である「5」を設定する。
つぎに、図3の文書分類303に示す現概念に、下位概念を設定する(S714)。この場合、名称が「高校教師」である概念を設定する。現概念に設定された概念オブジェクトは、上位概念と下位概念を持った木構造を形成している。
つぎに、現在の文書分類が最後の文書分類かどうか確認する(ステップS715)。この場合、まだ最後の文書分類ではないので、対象をつぎの文書分類に移す(ステップS702)。
以降、ステップS702〜ステップS715のステップを繰返し、図16に示す文書分類表を構築する。
[文書群提示処理]
文書群統合・分割処理が終了すると、つぎに文書群提示手段107により処理文書群提示処理が開始する。この場合、文書分類表として抽象度「4」で統合された文書分類表であるとする。
文書群提示処理では、最初に、文書群統合・分割手段106で作成された図15に示す文書分類表から、1件分の文書分類オブジェクトを取得する(ステップS801)。この場合、重要話題名が「概念」である文書分類が取得される。
つぎに、文書分類オブジェクトの現抽象度が入力された抽象度以下かどうか判定する(ステップS802)。この場合、入力された抽象度は「4」であり、重要話題名が「概念」である文書分類の現抽象度は「1」であり、入力された抽象度以下であるため、以降の処理を続ける。
つぎに、文書分類表304から文書分類オブジェクトの現概念と同じ現概念が存在するかどうか確認する(ステップS803)。この場合、現概念が「概念」である文書分類は存在しないため、以降の処理を続ける。
つぎに、現概念に属する文書数から表示面積を算出する(ステップS808)。この場合、重要話題名が「概念」の文書数が「1」であるので、たとえば、表示面積として縦32x1ドット、横32x1ドットの表示エリアとする。文書数が多ければ表示エリアの面積を広くする。
つぎに、表示エリアの位置を算出し、縦軸が出現頻度、横軸が出現日時とするグラフ上に、縦32ドット、横32ドットの表示エリア自体を表示する(ステップS809)。この場合、表示エリアの位置は、表示エリアの中心位置の座標が、概念の出現頻度(例えば、「1」)と、概念の出現日時(例えば、「2003年6月15日」)となる位置とする。
つぎに、表示エリア内に現概念の名称を表示する(ステップS810)。この場合、「概念」を表示する。
つぎに、文書分類オブジェクトの文書識別子を元に文書ファイルパスを取得し、文書自体を表示エリアに表示する(ステップS811)。この場合、表示エリアには、文書「概念.doc」の内容である図12が表示される。
つぎに、現在の文書分類が最後の文書分類かどうか確認する(ステップS812)。この場合、まだ最後の文書分類ではないので、対象をつぎの文書分類に移す(ステップS801)。
以降、同様に図15の26行目までは、ステップS801〜S812を繰返す。この場合、対象の文書分類が27行目の重要話題名が「教師」である文書分類の場合、同じ現概念である文書分類が32行目〜34行目まで存在するため、同じ現概念の文書分類を抽出し(ステップS804)、抽出した文書分類の現概念の出現頻度を現在の文書分類の現概念の出現頻度に足し(ステップS805)、抽出した文書分類の現概念の出現日時と現在の文書分類の現概念の出現日時を比較し、抽出した文書分類の現概念の出現日時の方が新しい場合には更新し(ステップS806)、抽出した文書分類の文書識別子に対応する文書も表示対象にする(ステップS807)。
この場合、重要話題名が「高校教師」、「中学教師」、「小学教師」の文書分類オブジェクトが同じ現概念の文書分類として抽出され、それぞれの出現頻度が「教師」の概念の出現頻度に足込まれ、出現日時が比較後更新され、1〜4の文書識別子の文書は、「教師」概念の文書として表示対象にする。
つぎに、現概念に属する文書数から表示面積を算出する(ステップS808)。この場合、文書数が「4」であり、たとえば、表示面積として縦32x4ドットの128ドット、横32x4ドットの128ドットの表示エリアとする。文書数が多ければ表示エリアの面積を広くする。
つぎに、表示エリアの位置を算出し、縦軸が出現頻度、横軸が出現日時とするグラフ上に、縦128ドット、横128ドットの表示エリア自体を表示する(ステップS809)。この場合、表示エリアの位置は、表示エリアの中心位置の座標が、教師の出現頻度(例えば、「100」)と、教師の出現日時(例えば、「2007年9月20日」)となる位置とする。
つぎに、表示エリア内に現概念の名称を表示する(ステップS810)。この場合、「教師」を表示する。
つぎに、文書分類オブジェクトの文書識別子を元に文書ファイルパスを取得し、文書自体を表示エリアに表示する(ステップS811)。この場合、表示エリアには、1〜4の文書識別子の文書の内容を表示する。以降、同様に35行目〜37行目の文書分類を処理する。
最後に、現在の文書分類が最後の文書分類かどうか確認する(ステップS812)。この場合、最後の文書分類なので終了する。
前述の処理を行うことによって、例えば、図17に示すような画面を表示する。なお、図17は、抽象度として「4」が指定された画面の一例を示すための図であるが、表示を見やすくするために、表示されている「現概念」の表示エリアの中心位置の座標(各重要話題名の出現頻度、出現日時)は、前述の説明とは一致していない。
以下、上記の実施例において説明した、本発明の利点を図17と図18を使って説明する。
図17は、抽象度に「4」が指定された画面表示例であり、1701は抽象度を指定するスライドバーであり、1702は文書表示エリアであり、1705が「概念」の文書群であり、1704が「教師」の文書群であり、1703が「車」の文書群である。
図18は、抽象度として「5」が入力された場合の画面表示例であり、1801は抽象度を指定するスライドバーであり、1802は文書表示エリアであり、1806は「概念」の文書群であり、1807が「教師」の文書群であり、1808が「高校教師」の文書群であり、1809が「中学教師」の文書群であり、1810が「小学教師」の文書群であり、1803が「スポーツ」の文書群であり、1804が「RV」の文書群であり、1805が「セダン」の文書群である。
抽象度が「5」から「4」に遷移すると、図17の教師1704が、図18の教師1807と、高校教師1808、中学教師1809、小学教師1810に分割され、これは意味上の拡大が行われたとみなすことができる。なお、図18では、図形が重なって見にくくなるのを避けるために、「概念」の表示エリアをディスプレイの中央付近に移動させており、表示されている「現概念」の表示エリアの中心位置の座標(各重要話題名の出現頻度、出現日時)は、前述の説明とは一致していない。
以上説明したように、本実施例によれば、指定した抽象度で文書群の統合および分割結果を作成でき、統合・分割結果を使って、図17および図18に示す分類対象となる文書群の文書空間を地図に見立て、意味上の拡大(文書群の分割)・縮小(文書群の統合)を可能とする画面を構築することが可能となる。
即ち、本実施例では、単語の意味の階層構造に文書内の出現単語を関連付けることで単語の意味の文書空間を構築し、グラフ上に話題を投影し、単語の意味での拡大・縮小を可能とし、文書空間を地図に見立て概念の意味上の拡大・縮小を実施することで、注目している概念のより詳細な部分を提示するユーザインタフェースを構築でき、分析業務を効率的に行うことができる文書群提示装置を提供することが可能となる。
以上、本発明者によってなされた発明を、前記実施例に基づき具体的に説明したが、本発明は、前記実施例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
本発明の実施例の文書群提示装置の機能ブロックを示す図である。 本発明の実施例の文書群提示装置を実行するコンピュータのハードウェア構成を示すブロック図である。 本発明の実施例の文書群提示装置におけるデータ構造を示すクラス図である。 図1に示す文書群提示装置の概念木構築手段の処理手順を示すフローチャートである。 図1に示す文書群提示装置の重要話題抽出手段の処理手順を示すフローチャートである。 図1に示す文書群提示装置の文書分類表構築手段の処理手順を示すフローチャートである。 図1に示す文書群提示装置の文書群統合・分割手段の処理手順を示すフローチャートである。 図1に示す文書群提示装置の文書群提示手段の処理手順を示すフローチャートである。 図1に示す概念辞書記憶手段に格納されている概念辞書の概念部の一例を示す図である。 図1に示す概念辞書記憶手段に格納されている概念辞書の関係部の一例を示す図である。 図1に示す文書群提示装置の概念木構築手段で構築される概念木の一例を示す図である。 図1に示す文書記憶手段に格納されている文書の一例を示す図である。 図1に示す文書群提示装置の重要話題抽出手段で抽出される重要話題抽出例の一例を示す図である。 本発明の実施例の文書群提示装置において、抽象度が5の場合の文書分類表の一例を示す図である。 本発明の実施例の文書群提示装置において、抽象度が5から4に変更された場合の文書分類表の一例を示す図である。 本発明の実施例の文書群提示装置において、抽象度が4から5に変更された場合の文書分類表の一例を示す図である。 本発明の実施例の文書群提示装置において、抽象度が4を指定された場合の画面表示例の一例を示す図である。 本発明の実施例の文書群提示装置において、抽象度が4から5に変更された場合の画面表示例の一例を示す図である。
符号の説明
11 文書群提示装置
101 概念木構築手段
102 重要話題抽出手段
103 文書分類表構築手段
104 概念辞書記憶手段
105 文書記憶手段
106 文書群統合・分割手段
107 文書群提示手段
108 抽象度入力手段
109 表示手段
201 ディスプレイ
202 CPU
203 メモリ
204 キーボード/マウス
205 ハードディスク
206 CD−ROMドライブ
207 CD−ROM
208 通信回路
209 インターネット
2051 文書提示プログラム
2052 概念辞書データベース
2053 文書データベース
1701,1801 スライドバー
1702,1802 文書表示エリア

Claims (3)

  1. 文書を入力し、登録・保管・検索・表示する機能を有する文書管理システムの文書群を提示する文書群提示装置であって、
    概念辞書を読み出して単語の概念を木構造として構築する概念木構築手段と、
    複数の文書を読み出して単語を抽出し、単語の出現回数、あるいは、見出し語かどうかにより重要話題を判定し抽出する重要話題抽出手段と、
    前記概念木構築手段により構築された前記概念木と、前記重要話題抽出手段により抽出された前記重要話題とから、文書群の提示に必要となる概念識別子、文書識別子、抽象度、現抽象度を表現する概念木を文書分類表として構築する文書分類表構築手段と、
    前記文書分類表構築手段により構築された前記文書分類表を解析し、入力された抽象度に従い前記文書分類表を更新する文書群統合・分割手段と、
    前記文書群統合・分割手段により更新された前記文書分類表に基づき、前記文書群を提示する提示手段とを備えることを特徴とする文書群提示装置。
  2. 前記文書分類表構築手段は、前記重要話題抽出手段により抽出された前記重要話題が、前記概念木構築手段により構築された前記概念木に存在する場合に、当該重要話題の概念識別子と、当該重要話題に関連付けられた文書の文書識別子、当該重要話題の前記概念木上の階層を抽象度と現抽象度を、前記文書分類表の前記概念識別子、文書識別子、抽象度、現抽象度として設定し、
    前記文書群統合・分割手段は、入力された抽象度の重要話題に、当該入力された抽象度の重要話題の下位概念の重要話題を統合、あるいは、下位概念の重要話題を統合している上位概念の重要話題を、当該入力された抽象度の重要話題に分割するように、文書分類表を更新し、
    前記提示手段は、前記文書群統合・分割手段により更新された前記文書分類表に基づき、前記入力された抽象度以下の前記重要話題に関連付けられた文書群を、縦軸を出現頻度、横軸を出現日時とするグラフ上に、前記入力された抽象度以下の前記重要話題に関連付けられた文書数に比例する面積で提示することを特徴する請求項1に記載の文書群提示装置。
  3. 文書を入力し、登録・保管・検索・表示する機能を有する文書管理システムの文書群を提示する文書群提示プログラムであって、
    前記文書群提示プログラムは、コンピュータに、請求項1または請求項2に記載の文書群提示装置の各手段を実現させることを特徴とする文書群提示プログラム。
JP2007308151A 2007-11-29 2007-11-29 文書群提示装置および文書群提示プログラム Expired - Fee Related JP5112027B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007308151A JP5112027B2 (ja) 2007-11-29 2007-11-29 文書群提示装置および文書群提示プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007308151A JP5112027B2 (ja) 2007-11-29 2007-11-29 文書群提示装置および文書群提示プログラム

Publications (2)

Publication Number Publication Date
JP2009134378A true JP2009134378A (ja) 2009-06-18
JP5112027B2 JP5112027B2 (ja) 2013-01-09

Family

ID=40866221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007308151A Expired - Fee Related JP5112027B2 (ja) 2007-11-29 2007-11-29 文書群提示装置および文書群提示プログラム

Country Status (1)

Country Link
JP (1) JP5112027B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014643A (ja) * 2010-07-05 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> 期間別主題語句抽出装置及び方法及びプログラム
EP3098724A2 (en) 2015-05-15 2016-11-30 Fuji Xerox Co., Ltd. Information processing device and information processing program
WO2017158812A1 (ja) * 2016-03-18 2017-09-21 株式会社日立製作所 データ分類方法及びデータ分類装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509424B (zh) * 2018-04-09 2021-08-10 平安科技(深圳)有限公司 制度信息处理方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置
JPH1083400A (ja) * 1996-07-18 1998-03-31 Matsushita Electric Ind Co Ltd データ検索支援装置、データ検索支援方法及びプログラムを記憶した媒体
JPH10320411A (ja) * 1997-05-21 1998-12-04 N Ii C Joho Syst:Kk 文書分類装置、方法及び文書分類プログラムを記録した記録媒体
JP2000348041A (ja) * 1999-06-03 2000-12-15 Nec Corp 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
JP2001101199A (ja) * 1999-09-29 2001-04-13 Fuji Xerox Co Ltd 文書処理装置
JP2004310199A (ja) * 2003-04-02 2004-11-04 Terukazu Kanazawa 文書分類方法及び文書分類プログラム
JP2007219761A (ja) * 2006-02-15 2007-08-30 Fujifilm Corp 画像分類表示装置及び画像分類表示プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置
JPH1083400A (ja) * 1996-07-18 1998-03-31 Matsushita Electric Ind Co Ltd データ検索支援装置、データ検索支援方法及びプログラムを記憶した媒体
JPH10320411A (ja) * 1997-05-21 1998-12-04 N Ii C Joho Syst:Kk 文書分類装置、方法及び文書分類プログラムを記録した記録媒体
JP2000348041A (ja) * 1999-06-03 2000-12-15 Nec Corp 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
JP2001101199A (ja) * 1999-09-29 2001-04-13 Fuji Xerox Co Ltd 文書処理装置
JP2004310199A (ja) * 2003-04-02 2004-11-04 Terukazu Kanazawa 文書分類方法及び文書分類プログラム
JP2007219761A (ja) * 2006-02-15 2007-08-30 Fujifilm Corp 画像分類表示装置及び画像分類表示プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014643A (ja) * 2010-07-05 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> 期間別主題語句抽出装置及び方法及びプログラム
EP3098724A2 (en) 2015-05-15 2016-11-30 Fuji Xerox Co., Ltd. Information processing device and information processing program
EP3098724A3 (en) * 2015-05-15 2017-01-04 Fuji Xerox Co., Ltd. Information processing device and information processing program
US9747260B2 (en) 2015-05-15 2017-08-29 Fuji Xerox Co., Ltd. Information processing device and non-transitory computer readable medium
WO2017158812A1 (ja) * 2016-03-18 2017-09-21 株式会社日立製作所 データ分類方法及びデータ分類装置
JPWO2017158812A1 (ja) * 2016-03-18 2018-06-07 株式会社日立製作所 データ分類方法及びデータ分類装置

Also Published As

Publication number Publication date
JP5112027B2 (ja) 2013-01-09

Similar Documents

Publication Publication Date Title
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
CN105824959B (zh) 舆情监控方法及系统
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
US20150026159A1 (en) Digital Resource Set Integration Methods, Interfaces and Outputs
JP2020113129A (ja) 文書評価装置、文書評価方法及びプログラム
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
CN111428503A (zh) 同名人物的识别处理方法及处理装置
Das et al. Comparison of different graph distance metrics for semantic text based classification
JP5112027B2 (ja) 文書群提示装置および文書群提示プログラム
CN118296120A (zh) 多模态多尺度多路召回的大型语言模型检索增强生成方法
JP5577546B2 (ja) 計算機システム
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP6529698B2 (ja) データ分析装置およびデータ分析方法
Kabadjov et al. Multilingual statistical news summarization
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JP2005107931A (ja) 画像検索装置
JP4972271B2 (ja) 検索結果提示装置
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
CN112559735A (zh) 信息处理装置以及记录媒体
CN110866084A (zh) 家谱人物的数据处理方法及装置、电子设备
KR101792332B1 (ko) 개체간 다중 경로 관계 정보 제공 장치 및 방법
JP6979738B1 (ja) サーバおよびアニメーション推薦システム、アニメーション推薦方法、プログラム
JP2013101678A (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
KR102530657B1 (ko) 이미지에서 인식된 텍스트를 계층화하는 방법, 시스템, 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120830

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20120830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121009

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121010

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees