JP5155710B2 - 文書群分析支援装置 - Google Patents

文書群分析支援装置 Download PDF

Info

Publication number
JP5155710B2
JP5155710B2 JP2008077743A JP2008077743A JP5155710B2 JP 5155710 B2 JP5155710 B2 JP 5155710B2 JP 2008077743 A JP2008077743 A JP 2008077743A JP 2008077743 A JP2008077743 A JP 2008077743A JP 5155710 B2 JP5155710 B2 JP 5155710B2
Authority
JP
Japan
Prior art keywords
document
feature word
display
group
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008077743A
Other languages
English (en)
Other versions
JP2009230648A (ja
Inventor
史十 岩▲崎▼
香織 羽鳥
朋哉 塚原
俊也 佐藤
まり子 渡邉
勝敏 高梨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Construction Machinery Co Ltd
Original Assignee
Hitachi Construction Machinery Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Construction Machinery Co Ltd filed Critical Hitachi Construction Machinery Co Ltd
Priority to JP2008077743A priority Critical patent/JP5155710B2/ja
Publication of JP2009230648A publication Critical patent/JP2009230648A/ja
Application granted granted Critical
Publication of JP5155710B2 publication Critical patent/JP5155710B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子データとしての文書群の分析を、主に、表示の仕方によって支援する技術に関する。
マーケティング等の調査において、何千、何万にのぼる文書の集まり、つまり、文書群を相手にして、大量の情報を素早く、かつ、正確に読み込むことが要求される。クラスタリングによるデータの解析は、文書群を分類するのに適した技術であるが、解析が優れていても、その結果が適切に表示(ディスプレイ等による表示)されていなければ、前記要求を満たすことは困難である。
特許文献1は、この点に着目した発明であるといえる。特許文献1には、データの視覚化に関し、特に、階層的クラスタリングされたデータのビューを、コンピュータを用いて生成し表示するにあたり、ツリーマップの生成において、データクラスタの非類似性の尺度に基づいて表示グループ分けを生成する旨が開示されている。
特開2000−29910号公報
しかし、特許文献1の技術は、文書群に含まれる大量の情報を素早く、かつ、正確に読むことができるような表示を行っているとは言い難い。前記要求を満たすためには、文書の各々内容を隈なく読み込む等といったことをする余裕は当然無く、一瞥して文書群全体の内容を大体把握できるように表示を工夫する必要がある。しかし、特許文献1のように、非類似性に基づいてグループを分ける表示をしても、グループが細かくなりすぎてしまい、一見しても文書群全体の内容がかえって把握しづらくなる可能性がある。
そこで、本発明では、前記した問題を解決し、文書群に含まれる大量の情報を素早く、かつ、正確に読むことができるような表示を実現することを目的とする。
前記課題を解決するため、本発明の文書群分析支援装置は、
ユーザの操作により、情報を入力する入力部と、
文書を識別する文書識別情報と、文書の項目を定める文書項目情報と、前記項目ごとに記述された内容とを含む文書の集合である文書群と、
前記文書の項目ごとに、前記内容に基づいて定まる特徴語と、前記特徴語と前記文書群の各文書との第1の関連度とを関連付けた項目インデックス情報と、
を記憶する記憶部と、
前記文書群の全部または一部の文書を対象にして、当該文書の前記内容を解析することにより前記特徴語を抽出し、前記抽出した特徴語に係る前記第1の関連度を算出する処理部と、
前記入力部から文書単位で前記処理部による結果を表示する指示が入力されたとき、前記対象となる文書を所定の順位で配置するとともに、前記処理部により抽出した特徴語を所定の順位で配置し、前記処理部により算出された前記第1の関連度を、前記配置された文書および前記配置された特徴語に対応するように配置して表示する表示部と、
を有することを特徴とする。
また、文書単位でなく、クラスタリングによって、文書のグループ単位で表示したり、ツリー表示を行う。詳細は後記する。
本発明により、文書群に含まれる大量の情報を素早く、かつ、正確に読むことができるような表示を実現することができる。
以下、本発明の文書群分析支援装置を実施するための最良の形態(以下、「実施形態」という。)について、適宜図面を参照しつつ、説明する。
≪構成≫
図1は、本実施形態に係る文書群分析支援装置の構成例を示す図である。
図1に示すように、文書群分析支援装置1は、処理部2、記憶部3、レコードDB(Date Base)4、表示部5および入力部6を有してなる。
処理部2は、情報の処理を行う機能を有し、レコードDB4に格納されているレコードに対し、情報検索を行う検索処理部22と、情報検索の結果を表示部5に表示させる表示処理部21とを有する。さらに、表示処理部21は、論理演算処理部211と、強調表示処理部212とを有してなる。論理演算処理部211は、後記して説明するように、取得したレコード番号に対し、AND処理や、OR処理などの論理演算処理(例:クラスタリング、特徴語の抽出方法の処理)を行う機能を有する。強調表示処理部212は、後記して説明するように、選択された特徴語や、関連度に付す色彩等を強調表示する等の処理を行う機能を有する。
レコードDB4には、検索元のデータである各レコードが保持されている。レコードについては、図2を参照して後記する。
各種インデックス情報31(関連度情報:項目インデックス情報)は、レコードDB4を基に、例えば、文献1:特開2004−192355号公報に記載の技術を適用した結果、出力されるデータであり、レコードの項目ごとに、特徴語(要素)と、レコードとの関連度とが記載されたものである。各種インデックス情報31は、インデックス情報の集合であり、レコードの種類によって、含まれるインデックス情報が異なる。例えば、検索対象となるレコードが、ノートPCの不良報告であれば、各種インデックス情報31は、製品名インデックス情報、タイトルインデックス情報、状況インデックス情報、原因インデックス情報、対策インデックス情報、発生日インデックス情報および発生日データインデックス情報などとなる。各種インデックス情報31の具体的な説明は、図3を参照して後記する。
レコードインデックス情報32(文書インデックス情報)は、図3を参照して後記する。
表示部5は、ディスプレイなどからなり、情報を表示する機能を有する。入力部6は、例えば、キーボードや、マウスからなり、情報を文書群分析支援装置1に入力する機能を有する。
処理部2や、処理部2内の各部21,22,211,212は、図示しないROM(Read Only Memory)や、HD(Hard Disk)に格納されたプログラムが、図示しないRAM(Random Access Memory)に展開され、図示しないCPU(Central Processing Unit)によって実行されることによって具現化する。
また、本実施形態では、レコードDB4や、記憶部3を、文書群分析支援装置1内に設けた形態としたが、これに限らず、レコードDB4や、記憶部3に格納されている各種インデックス情報31や、レコードインデックス情報32のうち、少なくとも1つを文書群分析支援装置1と異なる装置であり、文書群分析支援装置1と通信可能な記憶装置としてもよい。
また、表示部5や、入力部6を、文書群分析支援装置1と通信可能であり、文書群分析支援装置1とは異なる少なくとも1台のPCとしてもよい。このようにすることで、後記するクエリの入力や、特徴語の選択などを、遠隔のPCから入力し、その結果を当該遠隔のPCに表示させることが可能となる。
図2は、レコードの一例を示す図である。
図2では、レコードの一例として、ノートPC(Personal Computer)の不良が発生するごとに作成されるノートPCの不良報告のレコードを示す。
レコード1000は、製品名1001、タイトル1002、状況1003、原因1004、対策1005、発生日1006、発生日データ1007の項目(文書項目情報)ごとにデータが記入されている。また、レコード1000毎に、レコード1000の識別子としてのレコード番号1008(文書識別情報)が付されている。
状況1003は、ノートPCの不良が発生した状況に関するデータである。原因1004は、ノートPCにおける不良の原因に関するデータである。対策1005は、当該不良に施した対策に関するデータである。
図1のレコードDB4には、このようなレコードが、ノートPCの不良ごとに、多数保持されている。つまり、文書の電子データであるレコードが集積され、文書群として保持されている。
図3は、インデックス情報の例を示す図である。
図3に示すインデックス情報は、例えば、文献1に記載の技術(検索処理)によって出力される情報であり、(a)は、各種インデックス情報の一例としての状況インデックス情報であり、(b)は、レコードインデックス情報の例である。
図3(a)に示す状況インデックス情報は、図2の状況1003における文を形態素解析し、状況1003における各単語である特徴語と、この特徴語が生じるレコードとの関連性を記述したものである。
状況インデックス情報は、複数の情報2001,2002,・・・からなり、それぞれの情報2001,2002,・・・は、特徴語ID(Identification)2011、特徴語名称2012、品詞番号2013、(レコード番号2014(図2の符号1008),レコードとの関連度2015(第1の関連度))をn回繰り返したものおよび区切り記号2016(−1)を有してなる。ここで、「n」は、対象となる特徴語が現れるレコードの数である。すなわち、情報2001,2002,・・・は、それぞれ1つの特徴語に対応し、この特徴語と、各レコードとの関係を記述している情報である。情報2001,2002,・・・は、区切り記号2016(−1)によって区切られている。
特徴語ID2011は、検索処理において、抽出された特徴語に対し、一意に付されるIDであり、特徴語名称2012は、当該特徴語の名称である。
品詞番号2013は、品詞ごとに付される番号である。例えば、図2(a)における品詞番号2013における「2」は、該当する特徴語が「名詞」であることを示す。
レコード番号2014は、図2で説明したレコード1000に対し、一意に付される番号である。
レコードとの関連度2015は、特徴語と、レコード(文書)との関連の度合いを示す値である。例えば、情報2001より、特徴語「読み込み」は、レコード番号「0」、「1」・・・「7」のレコードと関連があり、それぞれのレコードと特徴語との関連度は、符号2015で記述されている値である(このレコード番号が付されているレコードに、特徴語「読み込み」が現れる)。また、情報2002より、特徴語「製品C」は、レコード番号「0」、「1」・・・「5」のレコードと関連があり、それぞれのレコードと特徴語との関連度は、符号2015で記述されている値である(このレコード番号が付されているレコードに、特徴語「製品C」が現れる)。関連度2015は、特徴語名称2012に記述されている特徴語が、レコード番号2014を有するレコード中に現れる頻度を示しており、例えば、tf−idf(term frequency-inverted document frequency)法などが用いられる。この関連度の算出は、論理演算処理部211が実行する。
図3(b)に示すレコードインデックス情報は、レコード間の関連度を示す情報である。レコードインデックス情報32(図1参照)は、情報2003,2004・・・からなり、それぞれの情報2003,2004,・・・は、レコード番号2021、(レコード番号2022、レコードとの関連度2023(第2の関連度))をn回繰り返したものおよび区切り記号2024(−1)を有してなる。ここで、「n」は、所定のクエリに従って情報検索した結果、抽出されたレコードの数である。すなわち、レコードインデックス情報は、対象となるレコードと、他のレコードとの関連度を順次記述している情報である。
レコード番号2021は、図2で説明したレコード1000に対し、一意に付される番号である。また、レコード番号2022は、当該レコード番号2021を有するレコードとは異なるレコードのレコード番号である。
関連度2023は、レコード番号2021を有するレコード1000と、レコード番号2022を有するレコード1000との間の関連の度合いを示している。2つのレコード1000間に関連があるとは、2つのレコード1000間に同一の特徴語が現れることである。関連度2023が高いとは、2つのレコード1000間で共通に現れる特徴語の数が多いことであり、関連度2023が低いとは、2つのレコード1000間で共通に現れる特徴語の数が少ないことである。関連度2023は、文献1に記載の技術を用いた検索処理を行うことにより算出される。この関連度の算出は、論理演算処理部211が実行する。
例えば、情報2003を参照すると、情報2003で対象となっているレコード番号2021「0」は、レコード番号「1」、「2」・・・「135」(レコード番号2022参照)を有するレコード1000と関連があり、それぞれのレコードとの関連度は、符号2023に記述されている。
また、情報2004を参照すると、情報2004で対象となっているレコード番号2021「1」は、レコード番号「0」、「4」・・・「133」(レコード番号2022参照)を有するレコード1000と関連があり、それぞれのレコードとの関連度は、符号2023に記述されている。
レコードインデックス情報32は、後記するクラスタリングで用いる情報である。
≪一覧表示(文書単位)≫
表示部5における文書群の一覧表示について説明する。図4は、文書群の一覧表示の画面例を図示したものである。この画面例では、文書単位で一覧表示を行い、図4における検索結果表示画面3000は、クエリ表示エリア3100、文書一覧表示エリア3200および特徴語表示エリア3300を有している。
クエリ表示エリア3100は、少なくとも、ユーザが入力部6から入力する検索語の入力欄と、入力された検索語による検索方法を指定するボタン(AND検索、類似検索等)と、検索対象となるレコードDBをプルダウンメニューで選択できる検索DBとを有する画面領域である。本実施形態では、文書群の分析を行うために、入力する検索語を「DVD」とし、「notePC」という名称のDB(図1のレコードDB4に相当、つまり、図2に示すレコード1000の集合)を検索対象として、AND検索を行うように処理を実行するものとして説明する。検索処理の詳細は、例えば、文献1に記載の技術を用いるものとする。
文書一覧表示エリア3200は、クエリ表示エリア3100による検索処理の結果を、表形式にまとめた表3210が表示される画面領域である。表3210の列項目(フィールド)には、ID3211、title3212、有用3213、特徴語3214およびコメント3215が並べられており、表3210の行項目(レコード)には文書が1つずつ並べられている。文書表示方式3216の表示欄において、「文書単位」のラジオボタンを入力部6により選択すると、この表3210が表示される。なお、本実施形態では、レコードDB4に記憶されている文書(ノートPCの不良に関する文書)の総数は135件であり、「DVD」という検索語を用いて検索すると、そのうちの10件が抽出されたものとして説明する。
ID3211は、文書を識別する識別番号が登録される項目である。title3212は、文書のタイトル1002(図2参照)の内容が登録される項目である。文書タイトル表示3217の表示欄において、そのチェックボックスを入力部6により有効にすると、文書のタイトルの内容が表示される。逆に、無効にすると、その内容は表示されなくなる。文書のタイトルを表示することにより、ユーザは、当該文書の内容を大体把握できる。有用3213は、ユーザが入力部6から任意に入力する値が登録される項目である。その値は、ユーザが分析結果に対して主観的に付する任意の記号であり、例えば、「○」(重要)、「×」(不要)、「△」(検討中)といった記号である。特徴語3214は、特徴語ごとに、関連度の値が登録される項目である(図3(a)の状況インデックス情報を参照)。コメント3215は、ユーザが任意に入力する値(メモ等の文章)が登録される項目である。
特徴語3214に登録される関連度の値を含むセルには、強調表示処理部212によって、色彩が付されている(図中では、色彩を網掛けで表示する。)。関連度の大きいほど、対応するセルには、より濃い色が付される。このように濃淡を変える表示を行うことにより、どの文書がどの特徴語を重要としているかが大体把握できる。
特徴語表示エリア3300は、レコード1000(図2参照)における状況1003(図2参照)から抽出された特徴語が羅列した状態で表示される画面領域である。特徴語表示エリア3300の上部には、プルダウンメニュー3310によって、レコード1000(図2参照)における項目1001〜1007に対応する項目を選択できるようになっている。各特徴語の右側にあるカッコ内の数字は、文書一覧表示エリア3200に表示されている全レコード内の該当する項目において、出現する特徴語の数である。
〔クラスタ表示〕
文書群の一覧を表示する手法の1つであるクラスタ表示について説明する。図5は、クラスタ表示の画面例を図示したものである。クラスタ表示とは、関連性の高い要素のグループを枠で囲み、さらに関連性の高い要素を枠で囲んで表示する表示方法である。このクラスタ表示は、文書表示方式3216の文書単位のラジオボタンを入力部6から操作したときに実行される。実行するのは、論理演算処理部211であって、情報検索結果のクラスタリングが行われる。その結果が、検索結果表示画面3000のうちクラスタ表示エリア3400に表示される。
ここで、参考までに、クラスタリングの処理手順について説明する。処理の主体は、論理演算処理部211である。
まず、各エレメント間の距離をすべて算出する。ここで、エレメントとは、特徴語や、レコードなどクラスタリングの対象となる要素のことである。本実施形態では、文書のクラスタリングを行うので、要素とはレコード(文書)のことである。また、エレメント間の距離は、次のように算出される。すなわち、対象がレコードの場合、レコードに含まれる特徴語の重要度(例えば、tf−idf法などで算出)を要素としたベクトルを算出し、このベクトルのCOS角(つまり、正規化したベクトルの内積)を算出し、このCOS角の値(内積)を距離とする。この算出された値が、レコードインデックス情報(図3(b)参照)の値として保持される。
次に、クラスタの生成処理を行う。具体的には、まず、表示処理部21は、算出した距離を基に、各エレメントに関し、最も近い距離を有するエレメントで対を作り、これらを1個のグループ(クラスタ)とする。そして、次に近い距離を有するエレメントでクラスタを作る。なお、このとき、次に近い距離を有するエレメント同士が、すでに他のエレメントとクラスタを生成しているとき(異なるクラスタに含まれるエレメント同士のとき)は、クラスタ同士を結合してクラスタを生成する。以下、同様にして、すべてのエレメントを含有するクラスタが生成されるまで、前記処理を繰り返す。
結果的に、この生成したクラスタをクラスタ表示エリア3400に表示させる。このようにクラスタ表示を行うことにより、エレメント同士の関連性の高低を視覚的に示すことができる。
クラスタ表示エリア3400に着目すると、「2」という番号(2階層目のグループであることを意味する。)で区分けされている3つの文書を含むクラスタが2つ(3410、3420)あって、その上の階層には、「1」という番号(1階層目のグループであることを意味する。)で区分けされているクラスタ3430が存在する。このクラスタには、「2」というクラスタには含まれない(つまり、「2」という2つのクラスタとは関連度が低い)文書が1つある。また、「1」という別のクラスタには3つの文書が含まれている。そして、2つの「1」というクラスタの上の階層には、「0」という番号で区分けされているクラスタが存在する。基本的に、階層を同じにするクラスタが2以上あるときは、それらのクラスタを子とする親のクラスタを生成する。従って、上側にある「1」というクラスタ3430は、「2」というクラスタ(3410、3420)を子とする親のクラスタである。そして、「1」というクラスタを子とする「0」というクラスタ(すべての文書を含むクラスタ)が生成される。
クラスタ表示エリア3400において、各文書に付されている、「99%」、「96%」といった値は、文書のスコアであって、入力した検索語との関連度を示す値である。この値は、最も関連度の高い文書のスコアを「100%」としたときの相対値を意味する。
文書一覧表示エリア3200に表示される表3210において、このクラスタリングによって、表示される文書の順番が変わる。つまり、クラスタ表示エリア3400で表示された文書の表示の順番に対応するように、表3210の文書の表示の順番もソートされる。表3210の上から3つの、ID「1」、「4」、「0」の文書は、クラスタ表示エリア3400の、上側にある「2」というクラスタ(3410)に含まれる3つの文書に対応している。
〔ソート〕
本実施形態における表のソートは、前記のようにクラスタリングによる文書のソートだけでなく、入力部6の操作による特徴語のソートや自動ソート等も可能である。以下、その詳細について説明する。
ユーザは、入力部6としてのマウスを用いて、文書や特徴語を移動させ、文書や特徴語の表示する順番を入れ替えることができる。文書の順番を入れ替えたいときには、入れ替えたい文書にカーソルを合わせ、所望の場所にドラッグドロップすれば良い。また、特徴語の順番を入れ替えたいときには、入れ替えたい特徴語にカーソルを合わせ、所望の場所にドラッグドロップすれば良い。
自動ソートには、前記クラスタリングによるソート、特徴語を移動させたときに行う文書ソート、文書を移動させたときに行う特徴語ソートおよび文書ソートと特徴語ソートとの両方の機能を併せ持つ両ソート(以下、単に「ソート」と呼ぶ場合がある。)の4種のソートがある。クラスタリングによるソートは、文書グループ順3218aのボタンを押したときに実行される。文書ソートは、文書ソート3218bのボタンを押したときに実行される。両ソートは、ソート3218cのボタンを押したときに実行される。特徴語ソートは、特徴語ソート3218dのボタンを押したときに実行される。
文書ソートは、ユーザが重要と判断した特徴語を表3210の左側に移動させることで、その移動させた特徴語により関連する(関連度が大きい)文書ほど、上側に移動させるように処理するソートである。ある特徴語を移動させたときに、文書ソート3218bのボタンを押して実行しても良いが、特徴語を移動させた時点で、このソートを行っても良い。
特徴語ソートは、ユーザが重要と判断した文書を表3210の上側に移動させることで、その移動させた文書により関連する(関連度が大きい)特徴語ほど、左側に移動させるように処理するソートである。ある文書を移動させたときに、特徴語ソート3218dのボタンを押して実行しても良いが、文書を移動させた時点で、このソートを行っても良い。
両ソートは、文書ソートおよび特徴語ソートを交互に行うことで、重要と判断された特徴語を左側に、重要と判断された文書を上側に移動させるように処理するソートである。
レコードの項目を変えて特徴語の比較を行うことも可能である。例えば、特徴語表示エリア3300のプルダウンメニュー3310によって、「状況」(図2の「状況」1003に対応)を選択してから、重要と判断した文書を上側にマウスでソートし、その後、「状況」の項目から「原因」(図2の「原因」1004に対応)の項目に切り替え、特徴語ソートを行う。すると、「状況」の特徴語の応じて重要な文書が上からソートされた順番のまま、その文書の順番に応じて表3210の特徴語3214の列には「原因」に対応する特徴語が重要なものが左から表示されている状態ができあがる。よって、ソートした文書における「状況」の特徴語と「原因」の特徴語との比較を行うといった分析を行うことができる。
ここで、4種の自動ソートの処理手順について説明する。図6は、文書ソートの処理手順を図示したフローチャートである。図7は、特徴語ソートの処理手順を図示したフローチャートである。図8は、両ソートの処理手順を図示したフローチャートである。図9は、文書グループ順の処理手順を図示したフローチャートである。各処理の主体は、論理演算処理部211である。
図6を参照して、文書ソートの処理手順について説明する。ユーザがある特徴語を移動して、文書ソート3218bのボタンを押したときに開始する。
まず、ステップS601において、論理演算処理部211は、文書のソートが完了するまで文書全体(表3210に表示された文書全体)をループする。文書全体をループしている間は、ステップS602に進む。文書のソートが完了した後は、ステップS603に進む。
次に、ステップS602において、論理演算処理部211は、評価関数(Ed)を用いて、文書を入れ替える。評価関数Edは、任意の2つの文書をd1、d2という変数で表記したとき、Ed(d1、d2)のように、d1、d2の関数として表記される。なお、d1は、d2よりも表3210において上側にあるものとする。論理演算処理部211は、評価関数Ed(d1、d2)を用いて、以下の判定1、判定2によって、文書を入れ替える。
判定1:特徴語wiを表3210の特徴語3214の左側から見ていく。
ここで、(1):特徴語wiと文書d1との関連度が0以上であり、かつ、特徴語wiと文書d2との関連度が0であるとき、d1とd2の順番を入れ替えることなくループを抜ける。
また、(2):特徴語wiと文書d1との関連度が0であり、かつ、特徴語wiと文書d2との関連度が0を超えるとき、d1とd2の順番を入れ替えてループを抜ける。
また、(3):(1)にも(2)にも該当せずに全ての特徴語wiでループが終了したときは、判定2に進む。
判定2:前記(3)において、再度、特徴語wiを表3210の特徴語3214の左側から見ていく。
ここで、(4):特徴語wiと文書d1との関連度が、特徴語wiと文書d2との関連度以上であるとき、d1とd2の順番を入れ替えることなくループを抜ける。
また、(5):特徴語wiと文書d1との関連度が、特徴語wiと文書d2との関連度を下回るとき、d1とd2の順番を入れ替えてループを抜ける。
このようにして、関連度の高い文書が上側に来るように入れ替えられる。
次に、ステップS603において、論理演算処理部211は、ソート済みの文書でループを行う。このループによって、入れ替えた順番で文書を表示するように処理する。また、このループを行っている間は、ステップS604に進む。ループした後は、文書ソートの処理を終了する。
次に、ステップS604において、論理演算処理部211は、表3210において、文書情報の出力を行う。
以上で、文書ソートの処理手順について説明を終了する。
図7を参照して、特徴語ソートの処理手順について説明する。ユーザがある文書を移動して、特徴語ソート3218dのボタンを押したときに開始する。
まず、ステップS701において、論理演算処理部211は、特徴語のソートが完了するまで特徴語全体(表3210に表示された特徴語全体)をループする。特徴語全体をループしている間は、ステップS702に進む。特徴語のソートが完了した後は、ステップS703に進む。
次に、ステップS702において、論理演算処理部211は、評価関数(Ew)を用いて、特徴語を入れ替える。評価関数Ewは、任意の2つの特徴語をw1、w2という変数で表記したとき、Ew(w1、w2)のように、w1、w2の関数として表記される。なお、w1は、w2よりも表3210において左側にあるものとする。論理演算処理部211は、評価関数Ew(w1、w2)を用いて、以下の判定1、判定2によって、文書を入れ替える。
判定1:文書diを表3210のレコード上側から見ていく。
ここで、(1):文書diと特徴語w1との関連度が0以上であり、かつ、文書diと特徴語w2との関連度が0であるとき、w1とw2の順番を入れ替えることなくループを抜ける。
また、(2):文書diと特徴語w1との関連度が0であり、かつ、文書diと特徴語w2との関連度が0を超えるとき、w1とw2の順番を入れ替えてループを抜ける。
また、(3):(1)にも(2)にも該当せずに全ての文書diでループが終了したときは、判定2に進む。
判定2:前記(3)において、再度、文書diを表3210のレコード上側から見ていく。
ここで、(4):文書diと特徴語w1との関連度が、文書diと特徴語w2との関連度以上であるとき、w1とw2の順番を入れ替えることなくループを抜ける。
また、(5):文書diと特徴語w1との関連度が、文書diと特徴語w2との関連度を下回るとき、w1とw2の順番を入れ替えてループを抜ける。
このようにして、関連度の高い特徴語が左側に来るように入れ替えられる。
次に、ステップS703において、論理演算処理部211は、ソート済みの文書でループを行う。このループによって、入れ替えた順番で特徴語を表示するように処理する。また、このループを行っている間は、ステップS704に進む。ループした後は、特徴語ソートの処理を終了する。
次に、ステップS704において、論理演算処理部211は、表3210において、文書情報の出力を行う。
以上で、特徴語ソートの処理手順について説明を終了する。
図8を参照して、両ソートの処理手順について説明する。ソート3218cのボタンを押したときに開始する。
まず、ステップS801において、論理演算処理部211は、文書および特徴語のソートが完了するまでループする。このループを行っている間は、ステップS802およびステップS803に進む。文書および特徴語のソートが完了した後は、ステップS804に進む。
次に、ステップS802において、論理演算処理部211は、図6で説明したものと同様の文書ソートを行う。
次に、ステップS803において、論理演算処理部211は、図7で説明したものと同様の特徴語ソートを行う。
このようにして、関連度の高い文書が上側に、関連度の高い特徴語が左側に来るように入れ替えられる。
次に、ステップS804において、論理演算処理部211は、ソート済みの文書でループを行う。このループによって、入れ替えた順番で文書を表示するように処理する。また、このループを行っている間は、ステップS805に進む。ループした後は、両ソートの処理を終了する。
次に、ステップS805において、論理演算処理部211は、表3210において、文書情報の出力を行う。
以上で、両ソートの処理手順について説明を終了する。
図9を参照して、文書グループ順の処理手順について説明する。ユーザが文書グループ順3218aのボタンを押したときに開始する。
まず、ステップS901において、論理演算処理部211は、前記したように、文書をクラスタリングする。クラスタリングした後は、ステップS902に進む。
次に、ステップS902において、論理演算処理部211は、クラスタリング結果のクラスタごとにループする。クラスタでループしている間は、ステップS903に進む。ループした後は、文書グループ順の処理を終了する。
次に、ステップS903において、論理演算処理部211は、クラスタ内の文書でループする。文書でループしている間は、ステップS904に進む。ループした後は、ステップS903に戻る。
次に、ステップS904において、論理演算処理部211は、表3210において、文書情報の出力を行う。
以上で、文書グループ順の処理手順について説明を終了する。
≪一覧表示(グループ単位)≫
表示部5における文書群の一覧表示の他の表示について説明する。図10は、文書群の一覧表示の画面例を図示したものである。この画面例では、グループ単位で一覧表示を行う。つまり、文書のクラスタリングが既に行われて、それにより生成したグループの表示を行う。文書一覧表示エリア3200において表示する表3220が、図5の表3210と異なる。クエリ表示エリア3100、特徴語表示エリア3300、およびクラスタ表示エリア3400については、図5のそれらと同一であるため、それらの説明を省略する。
表3220の列項目(フィールド)には、ID3221、文書ID3222、品詞3223および要求品質入力フォーム3224が並べられており、表3220の行項目(レコード)にはグループが1つずつ並べられている。文書表示方式3216の表示欄において、「グループ単位」のラジオボタンを入力部6により選択すると、この表3220が表示される。また、文書表示方式3216の下部には、特徴語の抽出の仕方についてラジオボタンで入力部6により選択できる特徴語抽出方法3219の表示欄が設けられている。
ID3221は、グループを識別する識別番号が登録される項目である。文書ID3222は、当該グループに属する文書の識別番号が登録される項目である。文書タイトル表示3217の表示欄において、そのチェックボックスを入力部6により有効にすると、文書のタイトルの内容が表示される。図11は、文書のタイトルを表示した文書群の一覧表示の画面例を図示したものである。逆に、無効にすると、その内容は表示されなくなる。文書のタイトルを表示することにより、ユーザは、当該文書の内容を大体把握できる。品詞3223は、特徴語が品詞ごとに登録される項目である。表3220においては、品詞として、名詞、動詞、形容詞を採り上げているが、採り上げる品詞の種類、数等はこれに限定されない。要求品質入力フォーム3224は、ユーザが任意に入力する値(メモ等の文章)が登録される項目である。
ID3221が「3」のグループ(最も上側に位置するレコード)に着目すると、このグループは「1」、「4」、「0」の文書IDを含んでおり、クラスタ表示エリア3400の「2」というクラスタ(上側:3410)に対応している。後記する「平均値」という特徴語抽出方法を行うと、名詞の特徴語として「読み込み」、「処理」、「製品C」、「エラー」、「発生」が抽出され、品詞3223の名詞の項目に登録される。
〔特徴語抽出方法〕
グループに属する特徴語の抽出方法およびその特徴語のスコアの算出方法について説明する。本実施形態において、特徴語抽出方法3219により選択できる抽出方法は、「AND」、「OR」、「平均値」および「差分」の4つである。
「AND」は、グループのすべての文書に含まれる特徴語のみを抽出する論理演算処理である。そして、そのグループにおいて、抽出された特徴語のスコアは、グループに属する文書の関連度の最小値である。例えば、ID3221が「3」のグループの「読み込み」という特徴語に着目すると、文書1の関連度は0.532であり、文書4の関連度は0.495であり、文書0の関連度は0.495である(図5参照)。よって、「AND」による「読み込み」のスコアは、0.495となる。抽出される特徴語は、品詞3223の項目に表示される。
「OR」は、グループのいずれか1つの文書に含まれる特徴語を抽出する論理演算処理である。そして、そのグループにおいて、抽出された特徴語のスコアは、グループに属する文書の関連度の最大値である。例えば、ID3221が「3」のグループの「読み込み」という特徴語に着目すると、文書1の関連度は0.532であり、文書4の関連度は0.495であり、文書0の関連度は0.495である(図5参照)。よって、「OR」による「読み込み」のスコアは、0.532となる。抽出される特徴語は、品詞3223の項目に表示される。
「平均値」は、グループのいずれか1つの文書に含まれる特徴語を抽出する論理演算処理である。そして、そのグループにおいて、抽出された特徴語のスコアは、グループに属する文書の関連度の平均値(加算平均)である。例えば、ID3221が「3」のグループの「読み込み」という特徴語に着目すると、文書1の関連度は0.532であり、文書4の関連度は0.495であり、文書0の関連度は0.495である(図5参照)。よって、「平均値」による「読み込み」のスコアは、0.507となる。抽出される特徴語は、品詞3223の項目に表示される。
「差分」は、親の階層以外の他のグループと比較したとき、「平均値」のスコアが高くなる特徴語を抽出する論理演算処理である。例えば、ID3221が「3」のグループの「読み込み」という特徴語に着目すると、文書1の関連度は0.532であり、文書4の関連度は0.495であり、文書0の関連度は0.495である(図5参照)。よって、「差分」による「読み込み」のスコアは、0.507となる(「平均値」のスコアと同一)。この値は、親の階層以外の他のグループと比較すると高い値であるため、「読み込み」という特徴語は、ID3のグループに属する。つまり、品詞3223の名詞の項目に表示される。ちなみに、図10では、特徴語抽出方法として「平均値」を用いており、図11では、特徴語抽出方法として「差分」を用いているが、ID3のグループに着目すると、「平均値」で抽出される特徴語「読み込み」、「処理」、「製品C」、「エラー」、「発生」のうち、「処理」、「製品C」、「エラー」、「発生」の4つはそのスコアが低い値となるため、ID3のグループに属することは無く、表示されず、「読み込み」のみ表示される。
なお、「差分」の論理演算処理を行うとき、スコアの算出は「平均値」のスコアとしたが、代わりに「AND」や「OR」によるスコアを用いて「差分」の論理演算処理を行っても良い。また、特徴語を表示するか否かを判別するための閾値を予め、または、所定の演算により定めておき、その閾値以上のスコアを有する特徴語を表示するように処理しても良い。
品詞3223に表示される特徴語は、当該グループに属するスコアの高い順に並べて表示すると良い。このようにすると、重要となる特徴語が一瞥して把握できる。
≪ツリー(Tree)表示≫
表示部5における文書群の一覧表示の他の表示について説明する。図12は、文書群のツリー表示の画面例を図示したものである。この画面例では、グループ単位でツリー表示を行う。つまり、文書のクラスタリングが既に行われて、それにより生成したグループのツリー表示を行う。文書一覧表示エリア3200において表示する表3230が、図5の表3210と異なる。クエリ表示エリア3100、特徴語表示エリア3300、およびクラスタ表示エリア3400については、図5のそれらと同一であるため、それらの説明を省略する。
表3230の列項目(フィールド)には、文書グループのTree3231および文書情報3232が並べられている。文書表示方式3216の表示欄において、「グループのTree化」のラジオボタンを入力部6により選択すると、この表3230が表示される。また、文書表示方式3216の下部には、前記したような特徴語抽出方法3219の表示欄が設けられている。
文書グループのTree3231には、フォルダで描画されたグループがツリー形式で表示されている。図示されている状態(初期状態)は、すべてのツリーが開状態(open:フォルダのアイコンが表示されている状態)になっており、最下層のフォルダ(つまり、最下層のクラスタ)も表示されている。描画されたフォルダの右隣にある数字は、当該グループの識別番号である(ID3221と同一)。その数字の右隣には、特徴語抽出方法3219により抽出された特徴語が記載されている。なお、この表示における特徴語抽出方法は、ANDのスコアを用いた「差分」の論理演算処理に特徴語の抽出方法を用いている。入力部6によりクリックして選択したフォルダ(図では、「3」と付されたフォルダ)は、選択された旨を示すため、強調表示処理部212の処理により、強調表示(フォルダが開いたような描画、グループの識別番号および特徴語の太字化および下線付加)されている。
文書情報3232には、入力部6により選択されたフォルダの中身である文書、つまり、当該グループに属する文書が表示される。「3」のグループを選択しているので、「1」、「4」、「0」の3つの文書が表示される。文書タイトル表示3217の表示欄において、そのチェックボックスを入力部6により有効にすると、選択されたフォルダの中身である文書のタイトルの内容が表示される。逆に、無効にすると、その内容は表示されなくなる。文書のタイトルを表示することにより、ユーザは、当該文書の内容を大体把握できる。「チェック文書」については、後記する。
〔フォルダの折りたたみ〕
フォルダを折りたたみ、ツリーの表示内容を変えるときの処理内容について説明する。図13は、フォルダを折りたたむ前の文書群のツリー表示の画面例を図示したものである。
文書グループのTree3231において、入力部6により、「3」、「4」というフォルダの上層にある「2」というフォルダを選択する。すると、強調表示処理部212の処理により、「2」というフォルダが強調表示される。また、文書タイトル表示3217の表示欄において、そのチェックボックスを入力部6により有効にしてあるので、文書情報3232において、「2」というフォルダに含まれる、「7」の文書がタイトルも併せて表示される。クラスタ表示エリア3400において、「2」というフォルダに対応するクラスタ表示は、クラスタ3430であるが、文書情報3232に表示される文書は、「1」というクラスタ(上側:3430)の下層にある「2」という2つのクラスタ(3410、3420)に含まれる文書(「1」「4」「0」「3」「5」「2」の6つ)ではなく、「1」というクラスタ3430にのみ属し、「2」という2つのクラスタ(3410、3420)には属しない文書(つまり、「7」)である。
このとき、入力部6により、文書グループのTree3231において、「2」というフォルダの左隣にあるツリーの分岐点(「−」)を押す。すると、「2」というフォルダが折りたたまれ、対応するツリーが閉状態(close:フォルダのアイコンが表示されていない状態))になる。
図14は、フォルダを折りたたんだ後の文書群のツリー表示の画面例を図示したものである。文書グループのTree3231において、「2」というフォルダの左隣にあるツリーの分岐点が「+」に変化し、「2」というフォルダの下層にある「3」、「4」というフォルダが表示されなくなる。それに伴い、クラスタ表示エリア3400において、「3」、「4」のフォルダに対応する、2つの「2」というクラスタ(3410、3420)も表示されなくなる。つまり、文書グループのTree3231のツリー表示にあわせて、クラスタ表示エリア3400のツリー表示も変化する。このようにして、ツリー表示とクラスタ表示との対応関係を一瞥して把握できるようにすることができる。
また、文書情報3232において、表示されなくなった「3」、「4」のフォルダに属していた文書(「1」「4」「0」「3」「5」「2」の6つ)を、「2の子孫グループの文書」(「2」というグループの子孫であるグループに属する文書(つまり、元々、2つの「2」というクラスタ(3410、3420)に属していた文書))として表示する。このようにして、「2」のフォルダを折りたたんだことにより、「2」のグループの子孫である「3」、「4」のグループに属していた文書も「2」のグループに属したもの、つまり、「1」のクラスタ3430に属すると処理され、その旨を表示することができる。なお、この処理は、論理演算処理部211が行う。
また、文書情報3232において、「2」のフォルダを折りたたんだことにより、「2」のフォルダの右側に記載されている特徴語も動的に変化する。クラスタ表示も変化するので、それに伴い、対象とする文書が変わる(この場合は、「3」、「4」のフォルダに属していた文書(「1」「4」「0」「3」「5」「2」の6つ)だけ増える。)ことになり、同じ特徴語抽出方法を用いても、その結果もおのずと変わるからである。ただし、図14においては、ANDのスコアを用いた「差分」の論理演算処理に特徴語の抽出方法を用いているため、処理内容は変わるものの、結果的には、「2」のフォルダの右側に記載されている特徴語は変わらない。このように、特徴語が動的に変化するため、折りたたんだ「2」のフォルダの特徴を一瞥して把握することができる。
〔文書の移動〕
あるフォルダに含まれる文書を別のフォルダに移動するときの処理内容について説明する。図15は、文書を移動させる前の文書群のツリー表示の画面例を図示したものである。「4」というフォルダの文書を「3」というフォルダに移動させる処理について説明する。
文書グループのTree3231において、入力部6により、「4」というフォルダを選択する。すると、強調表示処理部212の処理により、「4」というフォルダが強調表示される。また、文書タイトル表示3217の表示欄において、そのチェックボックスを入力部6により有効にしてあるので、文書情報3232において、「4」というフォルダに含まれる、「3」、「5」、「2」の文書3つがタイトルも併せて表示される。
ここで、入力部6により、文書情報3232に表示されている「2」の文書の左隣にあるチェックボックスを有効にする。さらに「チェック文書」の入力欄には、「3」と入力し、その入力欄の右隣にある「移動」ボタンを押す。これは、「チェック文書」とした「2」の文書を、(「4」というフォルダから)「3」というフォルダに移動する処理を実行することを意味する。移動した結果を図16および図17に示す。また、移動はドラッグ&ドロップなどの他の手段を用いても良い。
図16および図17は、文書を移動させた後の文書群のツリー表示の画面例を図示したものである。図16では、文書グループのTree3231において、入力部6により、「2」という文書の移動先である、「3」というフォルダが選択されたときの様子を示している。図17では、文書グループのTree3231において、入力部6により、「2」という文書の移動元である、「4」というフォルダが選択されたときの様子を示している。
図16において、文書情報3232に着目すると、移動してきた「2」という文書が、元からあった「1」、「4」、「0」という3つの文書の下に追加され、「3」というフォルダに移動されている。そして、移動したことを明確に示すため、この「2」という文書を四角の枠3232aで囲んでいる。このように囲む処理は、強調表示処理部212によって行われる。
クラスタ表示エリア3400に着目すると、下側の「2」というクラスタ(3420)に属していた、「2」の文書が、上側の「2」というクラスタ(3410)に属するように移動されている。強調表示処理部212によって、この移動の様子も、何らかの形で強調表示するようにしても良い。
文書グループのTree3231に着目すると、選択されている「3」というフォルダの右隣にある特徴語も動的に変化する。クラスタ表示も変化するので、それに伴い、対象とする文書が変わる(この場合は、「2」の文書が追加される。)ことになり、同じ特徴語抽出方法を用いても、その結果もおのずと変わるからである。ただし、図16においては、ANDのスコアを用いた「差分」の論理演算処理に特徴語の抽出方法を用いているため、処理内容は変わるものの、結果的には、「3」のフォルダの右側に記載されている特徴語は変わらない。このように、特徴語が動的に変化するため、文書の移動があった「3」のフォルダの特徴を一瞥して把握することができる。
一方、図17において、文書情報3232に着目すると、移動してしまった「2」という文書は、移動してしまったことを明確に示すため、この「2」という文書を塗りつぶしている(3232b)。このように塗りつぶす処理は、強調表示処理部212によって行われる。
クラスタ表示エリア3400に関しては、図16で説明したときと同様に表示が変わるだけなので、その説明は省略する。
文書グループのTree3231に着目すると、選択されている「4」というフォルダの右隣にある特徴語も動的に変化する。クラスタ表示も変化するので、それに伴い、対象とする文書が変わる(この場合は、「2」の文書が削除される。)ことになり、同じ特徴語抽出方法を用いても、その結果もおのずと変わるからである。ただし、図17においては、ANDのスコアを用いた「差分」の論理演算処理に特徴語の抽出方法を用いているため、処理内容は変わるものの、結果的には、「4」のフォルダの右側に記載されている特徴語は変わらない。このように、特徴語が動的に変化するため、文書の移動があった「4」のフォルダの特徴を一瞥して把握することができる。
〔ツリー(Tree)表示の処理手順〕
前記ツリー表示の処理手順について詳細に説明する。図18は、Tree表示を開始するときの処理手順を図示したフローチャートである。図19は、Tree描画処理を開始するときの処理手順を図示したフローチャートである。図20は、Treeの要素選択時(つまり、リンククリック時)の処理を開始するときの処理手順を図示したフローチャートである。図21は、Treeの要素のopen/close切り替え時の処理を開始するときの処理手順を図示したフローチャートである。図22は、特徴語描画処理を開始するときの処理手順を図示したフローチャートである。各処理の主体は、論理演算処理部211である。
図18を参照して、Tree表示を開始するときの処理手順について説明する。この処理は、文書表示方式3216の「グループのtree化」のラジオボタンを選択したときに開始する。
まず、ステップS1801において、論理演算処理部211は、文書に対して階層的なクラスタリングをする。つまり、前記したクラスタリングの処理を行う。クラスタリングをした後は、ステップS1802に進む。
次に、ステップS1802において、論理演算処理部211は、クラスタの一番上の親要素が複数あるときは、それらを子とする親を1つ作る。例えば、「2」のグループ(3410、3420)が2つあるときは、これらを子とする「1」のグループ(3430)を作る(図12参照)。作った後は、ステップS1803に進む。
次に、ステップS1803において、論理演算処理部211は、Treeのopen/close状態(開閉状態)を管理する変数(oc)を初期化(つまり、すべてのツリーを開状態(open))する。つまり、図12の文書グループのTree3231に描かれたツリー表示のような状態を作る。初期化した後、ステップS1804に進む。
次に、ステップS1804において、論理演算処理部211は、一番上の階層の親要素を引数としてTree描画処理を呼び出す。つまり、一番上階層の「1」というフォルダの描画を開始する(図12参照)。Tree描画処理を呼び出したとき、終了する。
以上で、Tree表示を開始するときの処理手順の説明を終了する。
図19を参照して、Tree描画処理を開始するときの処理手順について説明する。この処理は、ステップS1804(図18参照)とステップS2103(図21参照)において、描画処理を呼び出したときに開始する。
まず、ステップS1901において、論理演算処理部211は、引数である要素をPとする。ツリー表示開始直後では、ステップS1804(図18参照)で引数とした一番上階層の親要素をPとする。引数である要素をPとした後、ステップS1902に進む。
次に、ステップS1902において、論理演算処理部211は、要素Pを選択したときのイベントを準備する。つまり、Pと記されたフォルダに繋がっているツリーを入力部6でクリック(リンククリック)したときの画面の表示制御を行う。詳細は、図20を参照して説明する。この準備をした後、ステップS1903に進む。
次に、ステップS1903において、論理演算処理部211は、要素Pのopen/close状態の切り替えイベントを準備する。つまり、Pと記されたフォルダに繋がっているツリーの開閉状態を切り替えるための画面の表示制御を行う。詳細は、図21を参照して説明する。この準備をした後、ステップS1904に進む。
次に、ステップS1904において、論理演算処理部211は、Pを引数として特徴語描画処理を呼び出す。つまり、Pと記されたフォルダに対応するグループの特徴語を、当該フォルダの右隣に描画するための表示制御を行う。詳細は、図22を参照して説明する。特徴語描画処理を呼び出した後、ステップS1905に進む。
次に、ステップS1905において、論理演算処理部211は、Pがopenの場合、Pの子要素を引数として、Tree描画処理を(再帰的に)呼び出す。つまり、Pと記されたフォルダの下の階層のフォルダに対しても、ステップS1901〜ステップS1904の処理を行う。特徴語描画処理を呼び出したとき、終了する。
以上で、Tree描画処理を開始するときの処理手順の説明を終了する。
図20を参照して、Treeの要素選択時の処理を開始するときの処理手順について説明する。この処理は、要素Pを選択したときのイベント(ステップS1902(図19参照)において準備)が、入力部6により、起動されたときに開始する。
まず、ステップS2001において、論理演算処理部211は、入力部6によってクリックされた要素をPとする。つまり、Pと記されたフォルダを定める。要素をPとした後、ステップS2002に進む。
次に、ステップS2002において、論理演算処理部211は、Pに属する文書情報を文書情報表示エリアに表示する。つまり、表3230の文書情報3232の項目においてPと記されたフォルダに属する文書を表示する(図12参照)。文書タイトル表示3217のチェックボックスが有効になっていれば、当該文書のタイトルも表示する。文書情報を表示した後、ステップS2003に進む。
次に、ステップS2003において、論理演算処理部211は、Pがcloseのとき、Pの子要素に属する文書も(Pに直接属する文書と区別して)表示する。つまり、Pと記されたフォルダが折りたたまれているとき、その子孫グループの文書も表示する(図14参照)。子要素に属する文書も表示されたとき、終了する。
以上で、Treeの要素選択時の処理を開始するときの処理手順の説明を終了する。
図21を参照して、Treeの要素のopen/close切り替え時の処理を開始するときの処理手順について説明する。この処理は、要素Pのopen/close状態の切り替えイベント(ステップS1903(図19参照)において準備)が、入力部6により、起動されたときに開始する。
まず、ステップS2101において、論理演算処理部211は、open/close対象の要素をPとする。つまり、開閉対象となる、Pと記されたフォルダを定める。要素をPとした後、ステップS2102に進む。
次に、ステップS2102において、論理演算処理部211は、Pに対する変数(oc)を変更して、open/close状態を切り替える。つまり、Pと記されたフォルダの下層側に伸びるツリーの開閉状態を定める。切り替えた後、ステップS2103に進む。
次に、ステップS2103において、論理演算処理部211は、一番上の階層の要素を引数としてTree描画処理を読み出す。この処理は、ステップS1804の処理を同一である。Tree描画処理を呼び出した後、ステップS2104に進む。
次に、ステップS2104において、論理演算処理部211は、Pの文書情報を表示している場合、Treeの要素選択時の処理を呼び出し、表示する文書情報を更新する。つまり、Pと記されたフォルダの開閉に併せて文書情報3232に表示する文書の表示内容を、Treeの要素選択時の処理(図20参照)に従って変える。表示する文書情報を更新したとき、終了する。
以上で、Treeの要素のopen/close切り替え時の処理を開始するときの処理手順の説明を終了する。
図22を参照して、特徴語描画処理を開始するときの処理手順について説明する。この処理は、ステップS1904(図19参照)において、Pを引数として特徴語描画処理を呼び出したときに開始する。
まず、ステップS2201において、論理演算処理部211は、引数である要素をPとする。つまり、Pと記されたフォルダを定める。要素をPとした後、ステップS2202に進む。
次に、ステップS2202において、論理演算処理部211は、Pに属する文書集合をDとする。つまり、Dと記された文書群を定める。文書の集合をDとした後、ステップS2203に進む。
次に、ステップS2203において、論理演算処理部211は、Pがcloseのときには、Pの子孫に属する文書集合もDに加える。つまり、子孫グループの文書もPと記されたフォルダに含まれているものとする(図14参照)。Pの子孫に属する文書集合もDに加えた後は、ステップS2204に進む。
次に、ステップS2204において、論理演算処理部211は、既に説明した、特徴語抽出方法に従い、文書集合Dの特徴語を抽出する。これにより、Pと記されたフォルダの右隣に表示される特徴語が決定される。文書集合Dの特徴語を抽出したときは、終了する。
以上で、特徴語描画処理を開始するときの処理手順の説明を終了する。
≪まとめ≫
本実施形態により、以下の効果を奏する。すなわち、文書単位で特徴語および関連度を一覧表示したり、グループ単位で特徴語を一覧表示したり、グループ単位でツリー表示するので、文書群に含まれる大量の情報を素早く、かつ、正確に読むことができるような表示を実現することができる。
なお、前記形態は、本発明を実施するための最良のものであるが、その実施形式はこれに限定するものではない。したがって、本発明の要旨を変更しない範囲において、その実施形式を種々変形することは可能である。
例えば、本実施形態では、「DVD」という検索語を入力して、抽出された文書群を対象にして、文書単位やグループ単位の一覧表示またはツリー表示を行った。しかし、特に検索語の入力は無くともこれらの表示は可能である。すなわち、レコードDB4に記憶されているすべての文書について、文書単位やグループ単位の一覧表示またはツリー表示を行うことができる。レコードDB4に記憶されているすべての文書について関連度の計算は行われており、いわゆるリンクの張られた文書は、高い関連度を算出し、当該文書の重要性が示される。このように表示することにより、より広い視野で文書群の分析を行うことができる。
また、この場合において、表示される文書はすべてではなく、重要と判断された、つまり、リンクが多く張られている文書だけを表示するようにしても良い。このように表示することにより、ユーザが見る文書の量を抑えつつも、客観的に的確な文書が選ばれているので、より素早く、文書群の分析を行うことができる。
また、本実施形態では、特徴語抽出方法を用いて、グループ単位の一覧表示またはツリー表示を行うようにした。このとき、特徴語のスコアを算出したが、表示するのを、特徴語だけではなく、このスコアも併せて表示するようにしても良い。抽出された特徴語と併せてスコアも見ることにより、当該グループにおける各特徴語の重要度もわかり、文書群の分析が促進する。
その他、ハードウェア、ソフトウェア、データベースや各フローチャートなどの具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本実施形態に係る文書群分析支援装置の構成例を示す図である。 レコードの一例を示す図である。 インデックス情報の例を示す図である。 文書群の一覧表示の画面例を図示したものである。 クラスタ表示の画面例を図示したものである。 文書ソートの処理手順を図示したフローチャートである。 特徴語ソートの処理手順を図示したフローチャートである。 両ソートの処理手順を図示したフローチャートである。 文書グループ順の処理手順を図示したフローチャートである。 文書群の一覧表示の画面例を図示したものである。 文書のタイトルを表示した文書群の一覧表示の画面例を図示したものである。 文書群のツリー表示の画面例を図示したものである。 フォルダを折りたたむ前の文書群のツリー表示の画面例を図示したものである。 フォルダを折りたたんだ後の文書群のツリー表示の画面例を図示したものである。 文書を移動させる前の文書群のツリー表示の画面例を図示したものである。 文書を移動させた後の文書群のツリー表示の画面例を図示したものである。 文書を移動させた後の文書群のツリー表示の画面例を図示したものである。 Tree表示を開始するときの処理手順を図示したフローチャートである。 Tree描画処理を開始するときの処理手順を図示したフローチャートである。 Treeの要素選択時(つまり、リンククリック時)の処理を開始するときの処理手順を図示したフローチャートである。 Treeの要素のopen/close切り替え時の処理を開始するときの処理手順を図示したフローチャートである。 特徴語描画処理を開始するときの処理手順を図示したフローチャートである。
符号の説明
1 文書群分析支援装置
2 処理部
3 記憶部
4 レコードDB
5 表示部
6 入力部
21 表示処理部
211 論理演算処理部
212 強調表示処理部
31 各種インデックス情報
32 レコードインデックス情報

Claims (4)

  1. ユーザの操作により、情報を入力する入力部と、
    文書を識別する文書識別情報と、文書の項目を定める文書項目情報と、前記項目ごとに記述された内容とを含む文書の集合である文書群と、
    前記文書の項目ごとに、前記内容に基づいて定まる特徴語と、前記特徴語と前記文書群の各文書との第1の関連度とを関連付けた項目インデックス情報と、
    を記憶する記憶部と、
    前記文書群の全部または一部の文書を対象にして、当該文書の前記内容を解析することにより前記特徴語を抽出し、前記抽出した特徴語に係る前記第1の関連度を算出する処理部と、
    前記入力部から文書単位で前記処理部による結果を表示する指示が入力されたとき、前記対象となる文書を所定の順位で配置するとともに、前記処理部により抽出した特徴語を所定の順位で配置し、前記処理部により算出された前記第1の関連度を、前記配置された文書および前記配置された特徴語に対応するように配置して表示する表示部と、
    を有する文書群分析支援装置であって、
    前記処理部は、
    第1の文書と前記第1の文書よりも下位側に配置されている第2の文書とを入れ替えるための文書用評価関数を用いることで、前記表示部に表示されているすべての特徴語のうち1つに注目した場合、前記第1の文書に係る前記第1の関連度が、前記第2の文書に係る前記第1の関連度を下回るとき、前記第1の文書と前記第2の文書とを入れ替える機能を有し、
    前記表示部は、
    前記入力部から、前記配置がなされた、一の特徴語を上位側に配置する指示が入力されたとき、当該特徴語に係る前記第1の関連度が高い文書ほど、より上位側に配置するように表示すること
    を特徴とする文書群分析支援装置。
  2. ユーザの操作により、情報を入力する入力部と、
    文書を識別する文書識別情報と、文書の項目を定める文書項目情報と、前記項目ごとに記述された内容とを含む文書の集合である文書群と、
    前記文書の項目ごとに、前記内容に基づいて定まる特徴語と、前記特徴語と前記文書群の各文書との第1の関連度とを関連付けた項目インデックス情報と、
    を記憶する記憶部と、
    前記文書群の全部または一部の文書を対象にして、当該文書の前記内容を解析することにより前記特徴語を抽出し、前記抽出した特徴語に係る前記第1の関連度を算出する処理部と、
    前記入力部から文書単位で前記処理部による結果を表示する指示が入力されたとき、前記対象となる文書を所定の順位で配置するとともに、前記処理部により抽出した特徴語を所定の順位で配置し、前記処理部により算出された前記第1の関連度を、前記配置された文書および前記配置された特徴語に対応するように配置して表示する表示部と、
    を有する文書群分析支援装置であって、
    前記処理部は、
    第1の特徴語と前記第1の特徴語よりも下位側に配置されている第2の特徴語とを入れ替えるための特徴語用評価関数を用いることで、前記表示部に表示されているすべての文書のうち1つに注目した場合、前記第1の特徴語に係る前記第1の関連度が、前記第2の特徴語に係る前記第1の関連度を下回るとき、前記第1の特徴語と前記第2の特徴語とを入れ替える機能を有し、
    前記表示部は、
    前記入力部から、前記配置がなされた、一の文書を上位側に配置する指示が入力されたとき、当該文書に係る前記第1の関連度が高い特徴語ほど、より上位側に配置するように表示すること
    を特徴とする文書群分析支援装置。
  3. 前記記憶部は、
    文書ごとに、当該文書と、当該文書以外の文書との第2の関連度とを関連付けた文書インデックス情報を記憶し、
    前記処理部は、
    前記文書群の全部または一部の文書を対象にして、当該文書に含まれる前記特徴語に基づいて前記第2の関連度を算出するとともに、前記文書インデックス情報に基づいて文書に対するクラスタリングを行い、
    前記表示部は、
    前記入力部から、文書のクラスタの階層構造に対応するように文書を配置する指示が入力されたとき、前記クラスタリングにより求められた、文書のクラスタの階層構造に対応するように文書を、文書単位で配置するように表示すること
    を特徴とする請求項1または請求項2に記載の文書群分析支援装置。
  4. 前記記憶部が記憶する文書群の文書は、
    前記文書項目情報において、当該文書のタイトルを項目として有するとともに、前記タイトルの内容を含み、
    前記表示部は、
    前記入力部から文書のタイトルを表示する指示が入力されたとき、前記配置された文書に対し、当該文書のタイトルも併せて配置するように表示すること
    を特徴とする請求項1から請求項のいずれかに記載の文書群分析支援装置。
JP2008077743A 2008-03-25 2008-03-25 文書群分析支援装置 Expired - Fee Related JP5155710B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008077743A JP5155710B2 (ja) 2008-03-25 2008-03-25 文書群分析支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008077743A JP5155710B2 (ja) 2008-03-25 2008-03-25 文書群分析支援装置

Publications (2)

Publication Number Publication Date
JP2009230648A JP2009230648A (ja) 2009-10-08
JP5155710B2 true JP5155710B2 (ja) 2013-03-06

Family

ID=41245917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008077743A Expired - Fee Related JP5155710B2 (ja) 2008-03-25 2008-03-25 文書群分析支援装置

Country Status (1)

Country Link
JP (1) JP5155710B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10635897B2 (en) 2017-10-25 2020-04-28 Kabushiki Kaisha Toshiba Document understanding support apparatus, document understanding support method, non-transitory storage medium

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110225648A1 (en) * 2010-03-15 2011-09-15 Intuit Inc. Method and apparatus for reducing the use of insecure passwords
JP5615593B2 (ja) * 2010-05-19 2014-10-29 株式会社ジャストシステム 電子文書管理装置、表示方法、表示プログラムおよび記録媒体
JP6590880B2 (ja) * 2017-09-01 2019-10-16 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4116329B2 (ja) * 2002-05-27 2008-07-09 株式会社日立製作所 文書情報表示システム、文書情報表示方法及び文書検索方法
JP4084647B2 (ja) * 2002-12-11 2008-04-30 株式会社 日立東日本ソリューションズ 情報検索システム、情報検索方法及び情報検索プログラム
JP2005128872A (ja) * 2003-10-24 2005-05-19 Toshiba Solutions Corp 文書検索システム及び文書検索プログラム
JP4719921B2 (ja) * 2005-11-15 2011-07-06 独立行政法人情報通信研究機構 データ表示装置およびデータ表示プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10635897B2 (en) 2017-10-25 2020-04-28 Kabushiki Kaisha Toshiba Document understanding support apparatus, document understanding support method, non-transitory storage medium

Also Published As

Publication number Publication date
JP2009230648A (ja) 2009-10-08

Similar Documents

Publication Publication Date Title
JP4808736B2 (ja) 情報分類装置および情報検索装置
Mann et al. Bibliometric impact measures leveraging topic analysis
EP1808788B1 (en) Information type identification method and apparatus, e.g. for music file name content identification
Leiva et al. Enrico: A dataset for topic modeling of mobile UI designs
JP3577819B2 (ja) 情報探索装置及び情報探索方法
JP4583003B2 (ja) 検索処理方法及びプログラム
US8019761B2 (en) Recording medium storing a design support program, design support method, and design support apparatus
US20030120681A1 (en) Classification of information sources using graphic structures
US10698917B2 (en) Managing electronic slide decks
US10656814B2 (en) Managing electronic documents
Maguire et al. Visual compression of workflow visualizations with automated detection of macro motifs
US11372873B2 (en) Managing electronic slide decks
JP2007041721A (ja) 情報分類方法およびプログラム、装置および記録媒体
Terveen et al. Finding and visualizing inter-site clan graphs
JP5155710B2 (ja) 文書群分析支援装置
WO2005086029A1 (en) Data handling system
WO2003032199A2 (en) Classification of information sources using graph structures
Zavesky et al. Visual islands: intuitive browsing of visual search results
Csurka et al. Medical image modality classification and retrieval
JP5117589B2 (ja) 文書分析装置およびプログラム
JP2007279978A (ja) 文書検索装置及び文書検索方法
Worring et al. A multimedia analytics framework for browsing image collections in digital forensics
Abascal-Mena et al. Author detection: Analyzing tweets by using a Naïve Bayes classifier
JP2008135057A (ja) 検索処理方法及びプログラム
CN112132214A (zh) 兼容多种语言的文档信息精准提取系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5155710

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees