JP5155710B2

JP5155710B2 - 文書群分析支援装置

Info

Publication number: JP5155710B2
Application number: JP2008077743A
Authority: JP
Inventors: 史十岩▲崎▼; 香織羽鳥; 朋哉塚原; 俊也佐藤; まり子渡邉; 勝敏高梨
Original assignee: Hitachi Construction Machinery Co Ltd
Current assignee: Hitachi Construction Machinery Co Ltd
Priority date: 2008-03-25
Filing date: 2008-03-25
Publication date: 2013-03-06
Anticipated expiration: 2028-03-25
Also published as: JP2009230648A

Description

本発明は、電子データとしての文書群の分析を、主に、表示の仕方によって支援する技術に関する。

マーケティング等の調査において、何千、何万にのぼる文書の集まり、つまり、文書群を相手にして、大量の情報を素早く、かつ、正確に読み込むことが要求される。クラスタリングによるデータの解析は、文書群を分類するのに適した技術であるが、解析が優れていても、その結果が適切に表示（ディスプレイ等による表示）されていなければ、前記要求を満たすことは困難である。

特許文献１は、この点に着目した発明であるといえる。特許文献１には、データの視覚化に関し、特に、階層的クラスタリングされたデータのビューを、コンピュータを用いて生成し表示するにあたり、ツリーマップの生成において、データクラスタの非類似性の尺度に基づいて表示グループ分けを生成する旨が開示されている。
特開２０００−２９９１０号公報

しかし、特許文献１の技術は、文書群に含まれる大量の情報を素早く、かつ、正確に読むことができるような表示を行っているとは言い難い。前記要求を満たすためには、文書の各々内容を隈なく読み込む等といったことをする余裕は当然無く、一瞥して文書群全体の内容を大体把握できるように表示を工夫する必要がある。しかし、特許文献１のように、非類似性に基づいてグループを分ける表示をしても、グループが細かくなりすぎてしまい、一見しても文書群全体の内容がかえって把握しづらくなる可能性がある。

そこで、本発明では、前記した問題を解決し、文書群に含まれる大量の情報を素早く、かつ、正確に読むことができるような表示を実現することを目的とする。

前記課題を解決するため、本発明の文書群分析支援装置は、
ユーザの操作により、情報を入力する入力部と、
文書を識別する文書識別情報と、文書の項目を定める文書項目情報と、前記項目ごとに記述された内容とを含む文書の集合である文書群と、
前記文書の項目ごとに、前記内容に基づいて定まる特徴語と、前記特徴語と前記文書群の各文書との第１の関連度とを関連付けた項目インデックス情報と、
を記憶する記憶部と、
前記文書群の全部または一部の文書を対象にして、当該文書の前記内容を解析することにより前記特徴語を抽出し、前記抽出した特徴語に係る前記第１の関連度を算出する処理部と、
前記入力部から文書単位で前記処理部による結果を表示する指示が入力されたとき、前記対象となる文書を所定の順位で配置するとともに、前記処理部により抽出した特徴語を所定の順位で配置し、前記処理部により算出された前記第１の関連度を、前記配置された文書および前記配置された特徴語に対応するように配置して表示する表示部と、
を有することを特徴とする。

また、文書単位でなく、クラスタリングによって、文書のグループ単位で表示したり、ツリー表示を行う。詳細は後記する。

本発明により、文書群に含まれる大量の情報を素早く、かつ、正確に読むことができるような表示を実現することができる。

以下、本発明の文書群分析支援装置を実施するための最良の形態（以下、「実施形態」という。）について、適宜図面を参照しつつ、説明する。

≪構成≫
図１は、本実施形態に係る文書群分析支援装置の構成例を示す図である。
図１に示すように、文書群分析支援装置１は、処理部２、記憶部３、レコードＤＢ(Date Base)４、表示部５および入力部６を有してなる。
処理部２は、情報の処理を行う機能を有し、レコードＤＢ４に格納されているレコードに対し、情報検索を行う検索処理部２２と、情報検索の結果を表示部５に表示させる表示処理部２１とを有する。さらに、表示処理部２１は、論理演算処理部２１１と、強調表示処理部２１２とを有してなる。論理演算処理部２１１は、後記して説明するように、取得したレコード番号に対し、ＡＮＤ処理や、ＯＲ処理などの論理演算処理（例：クラスタリング、特徴語の抽出方法の処理）を行う機能を有する。強調表示処理部２１２は、後記して説明するように、選択された特徴語や、関連度に付す色彩等を強調表示する等の処理を行う機能を有する。
レコードＤＢ４には、検索元のデータである各レコードが保持されている。レコードについては、図２を参照して後記する。

各種インデックス情報３１（関連度情報：項目インデックス情報）は、レコードＤＢ４を基に、例えば、文献１：特開２００４−１９２３５５号公報に記載の技術を適用した結果、出力されるデータであり、レコードの項目ごとに、特徴語（要素）と、レコードとの関連度とが記載されたものである。各種インデックス情報３１は、インデックス情報の集合であり、レコードの種類によって、含まれるインデックス情報が異なる。例えば、検索対象となるレコードが、ノートＰＣの不良報告であれば、各種インデックス情報３１は、製品名インデックス情報、タイトルインデックス情報、状況インデックス情報、原因インデックス情報、対策インデックス情報、発生日インデックス情報および発生日データインデックス情報などとなる。各種インデックス情報３１の具体的な説明は、図３を参照して後記する。
レコードインデックス情報３２（文書インデックス情報）は、図３を参照して後記する。

表示部５は、ディスプレイなどからなり、情報を表示する機能を有する。入力部６は、例えば、キーボードや、マウスからなり、情報を文書群分析支援装置１に入力する機能を有する。

処理部２や、処理部２内の各部２１，２２，２１１，２１２は、図示しないＲＯＭ（Read Only Memory）や、ＨＤ（Hard Disk）に格納されたプログラムが、図示しないＲＡＭ（Random Access Memory）に展開され、図示しないＣＰＵ（Central Processing Unit）によって実行されることによって具現化する。
また、本実施形態では、レコードＤＢ４や、記憶部３を、文書群分析支援装置１内に設けた形態としたが、これに限らず、レコードＤＢ４や、記憶部３に格納されている各種インデックス情報３１や、レコードインデックス情報３２のうち、少なくとも１つを文書群分析支援装置１と異なる装置であり、文書群分析支援装置１と通信可能な記憶装置としてもよい。
また、表示部５や、入力部６を、文書群分析支援装置１と通信可能であり、文書群分析支援装置１とは異なる少なくとも１台のＰＣとしてもよい。このようにすることで、後記するクエリの入力や、特徴語の選択などを、遠隔のＰＣから入力し、その結果を当該遠隔のＰＣに表示させることが可能となる。

図２は、レコードの一例を示す図である。
図２では、レコードの一例として、ノートＰＣ(Personal Computer)の不良が発生するごとに作成されるノートＰＣの不良報告のレコードを示す。
レコード１０００は、製品名１００１、タイトル１００２、状況１００３、原因１００４、対策１００５、発生日１００６、発生日データ１００７の項目（文書項目情報）ごとにデータが記入されている。また、レコード１０００毎に、レコード１０００の識別子としてのレコード番号１００８（文書識別情報）が付されている。
状況１００３は、ノートＰＣの不良が発生した状況に関するデータである。原因１００４は、ノートＰＣにおける不良の原因に関するデータである。対策１００５は、当該不良に施した対策に関するデータである。
図１のレコードＤＢ４には、このようなレコードが、ノートＰＣの不良ごとに、多数保持されている。つまり、文書の電子データであるレコードが集積され、文書群として保持されている。

図３は、インデックス情報の例を示す図である。
図３に示すインデックス情報は、例えば、文献１に記載の技術（検索処理）によって出力される情報であり、（ａ）は、各種インデックス情報の一例としての状況インデックス情報であり、（ｂ）は、レコードインデックス情報の例である。
図３（ａ）に示す状況インデックス情報は、図２の状況１００３における文を形態素解析し、状況１００３における各単語である特徴語と、この特徴語が生じるレコードとの関連性を記述したものである。

状況インデックス情報は、複数の情報２００１，２００２，・・・からなり、それぞれの情報２００１，２００２，・・・は、特徴語ＩＤ（Identification）２０１１、特徴語名称２０１２、品詞番号２０１３、（レコード番号２０１４（図２の符号１００８），レコードとの関連度２０１５（第１の関連度））をｎ回繰り返したものおよび区切り記号２０１６（−１）を有してなる。ここで、「ｎ」は、対象となる特徴語が現れるレコードの数である。すなわち、情報２００１，２００２，・・・は、それぞれ１つの特徴語に対応し、この特徴語と、各レコードとの関係を記述している情報である。情報２００１，２００２，・・・は、区切り記号２０１６（−１）によって区切られている。
特徴語ＩＤ２０１１は、検索処理において、抽出された特徴語に対し、一意に付されるＩＤであり、特徴語名称２０１２は、当該特徴語の名称である。
品詞番号２０１３は、品詞ごとに付される番号である。例えば、図２（ａ）における品詞番号２０１３における「２」は、該当する特徴語が「名詞」であることを示す。
レコード番号２０１４は、図２で説明したレコード１０００に対し、一意に付される番号である。
レコードとの関連度２０１５は、特徴語と、レコード（文書）との関連の度合いを示す値である。例えば、情報２００１より、特徴語「読み込み」は、レコード番号「０」、「１」・・・「７」のレコードと関連があり、それぞれのレコードと特徴語との関連度は、符号２０１５で記述されている値である（このレコード番号が付されているレコードに、特徴語「読み込み」が現れる）。また、情報２００２より、特徴語「製品Ｃ」は、レコード番号「０」、「１」・・・「５」のレコードと関連があり、それぞれのレコードと特徴語との関連度は、符号２０１５で記述されている値である（このレコード番号が付されているレコードに、特徴語「製品Ｃ」が現れる）。関連度２０１５は、特徴語名称２０１２に記述されている特徴語が、レコード番号２０１４を有するレコード中に現れる頻度を示しており、例えば、ｔｆ−ｉｄｆ（term frequency-inverted document frequency）法などが用いられる。この関連度の算出は、論理演算処理部２１１が実行する。

図３（ｂ）に示すレコードインデックス情報は、レコード間の関連度を示す情報である。レコードインデックス情報３２（図１参照）は、情報２００３，２００４・・・からなり、それぞれの情報２００３，２００４，・・・は、レコード番号２０２１、（レコード番号２０２２、レコードとの関連度２０２３（第２の関連度））をｎ回繰り返したものおよび区切り記号２０２４（−１）を有してなる。ここで、「ｎ」は、所定のクエリに従って情報検索した結果、抽出されたレコードの数である。すなわち、レコードインデックス情報は、対象となるレコードと、他のレコードとの関連度を順次記述している情報である。

レコード番号２０２１は、図２で説明したレコード１０００に対し、一意に付される番号である。また、レコード番号２０２２は、当該レコード番号２０２１を有するレコードとは異なるレコードのレコード番号である。
関連度２０２３は、レコード番号２０２１を有するレコード１０００と、レコード番号２０２２を有するレコード１０００との間の関連の度合いを示している。２つのレコード１０００間に関連があるとは、２つのレコード１０００間に同一の特徴語が現れることである。関連度２０２３が高いとは、２つのレコード１０００間で共通に現れる特徴語の数が多いことであり、関連度２０２３が低いとは、２つのレコード１０００間で共通に現れる特徴語の数が少ないことである。関連度２０２３は、文献１に記載の技術を用いた検索処理を行うことにより算出される。この関連度の算出は、論理演算処理部２１１が実行する。

例えば、情報２００３を参照すると、情報２００３で対象となっているレコード番号２０２１「０」は、レコード番号「１」、「２」・・・「１３５」（レコード番号２０２２参照）を有するレコード１０００と関連があり、それぞれのレコードとの関連度は、符号２０２３に記述されている。
また、情報２００４を参照すると、情報２００４で対象となっているレコード番号２０２１「１」は、レコード番号「０」、「４」・・・「１３３」（レコード番号２０２２参照）を有するレコード１０００と関連があり、それぞれのレコードとの関連度は、符号２０２３に記述されている。
レコードインデックス情報３２は、後記するクラスタリングで用いる情報である。

≪一覧表示（文書単位）≫
表示部５における文書群の一覧表示について説明する。図４は、文書群の一覧表示の画面例を図示したものである。この画面例では、文書単位で一覧表示を行い、図４における検索結果表示画面３０００は、クエリ表示エリア３１００、文書一覧表示エリア３２００および特徴語表示エリア３３００を有している。

クエリ表示エリア３１００は、少なくとも、ユーザが入力部６から入力する検索語の入力欄と、入力された検索語による検索方法を指定するボタン（ＡＮＤ検索、類似検索等）と、検索対象となるレコードＤＢをプルダウンメニューで選択できる検索ＤＢとを有する画面領域である。本実施形態では、文書群の分析を行うために、入力する検索語を「ＤＶＤ」とし、「notePC」という名称のＤＢ（図１のレコードＤＢ４に相当、つまり、図２に示すレコード１０００の集合）を検索対象として、ＡＮＤ検索を行うように処理を実行するものとして説明する。検索処理の詳細は、例えば、文献１に記載の技術を用いるものとする。

文書一覧表示エリア３２００は、クエリ表示エリア３１００による検索処理の結果を、表形式にまとめた表３２１０が表示される画面領域である。表３２１０の列項目（フィールド）には、ＩＤ３２１１、title３２１２、有用３２１３、特徴語３２１４およびコメント３２１５が並べられており、表３２１０の行項目（レコード）には文書が１つずつ並べられている。文書表示方式３２１６の表示欄において、「文書単位」のラジオボタンを入力部６により選択すると、この表３２１０が表示される。なお、本実施形態では、レコードＤＢ４に記憶されている文書（ノートＰＣの不良に関する文書）の総数は１３５件であり、「ＤＶＤ」という検索語を用いて検索すると、そのうちの１０件が抽出されたものとして説明する。

ＩＤ３２１１は、文書を識別する識別番号が登録される項目である。title３２１２は、文書のタイトル１００２（図２参照）の内容が登録される項目である。文書タイトル表示３２１７の表示欄において、そのチェックボックスを入力部６により有効にすると、文書のタイトルの内容が表示される。逆に、無効にすると、その内容は表示されなくなる。文書のタイトルを表示することにより、ユーザは、当該文書の内容を大体把握できる。有用３２１３は、ユーザが入力部６から任意に入力する値が登録される項目である。その値は、ユーザが分析結果に対して主観的に付する任意の記号であり、例えば、「○」（重要）、「×」（不要）、「△」（検討中）といった記号である。特徴語３２１４は、特徴語ごとに、関連度の値が登録される項目である（図３（ａ）の状況インデックス情報を参照）。コメント３２１５は、ユーザが任意に入力する値（メモ等の文章）が登録される項目である。

特徴語３２１４に登録される関連度の値を含むセルには、強調表示処理部２１２によって、色彩が付されている（図中では、色彩を網掛けで表示する。）。関連度の大きいほど、対応するセルには、より濃い色が付される。このように濃淡を変える表示を行うことにより、どの文書がどの特徴語を重要としているかが大体把握できる。

特徴語表示エリア３３００は、レコード１０００（図２参照）における状況１００３（図２参照）から抽出された特徴語が羅列した状態で表示される画面領域である。特徴語表示エリア３３００の上部には、プルダウンメニュー３３１０によって、レコード１０００（図２参照）における項目１００１〜１００７に対応する項目を選択できるようになっている。各特徴語の右側にあるカッコ内の数字は、文書一覧表示エリア３２００に表示されている全レコード内の該当する項目において、出現する特徴語の数である。

〔クラスタ表示〕
文書群の一覧を表示する手法の１つであるクラスタ表示について説明する。図５は、クラスタ表示の画面例を図示したものである。クラスタ表示とは、関連性の高い要素のグループを枠で囲み、さらに関連性の高い要素を枠で囲んで表示する表示方法である。このクラスタ表示は、文書表示方式３２１６の文書単位のラジオボタンを入力部６から操作したときに実行される。実行するのは、論理演算処理部２１１であって、情報検索結果のクラスタリングが行われる。その結果が、検索結果表示画面３０００のうちクラスタ表示エリア３４００に表示される。

ここで、参考までに、クラスタリングの処理手順について説明する。処理の主体は、論理演算処理部２１１である。
まず、各エレメント間の距離をすべて算出する。ここで、エレメントとは、特徴語や、レコードなどクラスタリングの対象となる要素のことである。本実施形態では、文書のクラスタリングを行うので、要素とはレコード（文書）のことである。また、エレメント間の距離は、次のように算出される。すなわち、対象がレコードの場合、レコードに含まれる特徴語の重要度（例えば、ｔｆ−ｉｄｆ法などで算出）を要素としたベクトルを算出し、このベクトルのＣＯＳ角（つまり、正規化したベクトルの内積）を算出し、このＣＯＳ角の値（内積）を距離とする。この算出された値が、レコードインデックス情報（図３（ｂ）参照）の値として保持される。

次に、クラスタの生成処理を行う。具体的には、まず、表示処理部２１は、算出した距離を基に、各エレメントに関し、最も近い距離を有するエレメントで対を作り、これらを１個のグループ（クラスタ）とする。そして、次に近い距離を有するエレメントでクラスタを作る。なお、このとき、次に近い距離を有するエレメント同士が、すでに他のエレメントとクラスタを生成しているとき（異なるクラスタに含まれるエレメント同士のとき）は、クラスタ同士を結合してクラスタを生成する。以下、同様にして、すべてのエレメントを含有するクラスタが生成されるまで、前記処理を繰り返す。

結果的に、この生成したクラスタをクラスタ表示エリア３４００に表示させる。このようにクラスタ表示を行うことにより、エレメント同士の関連性の高低を視覚的に示すことができる。

クラスタ表示エリア３４００に着目すると、「２」という番号（２階層目のグループであることを意味する。）で区分けされている３つの文書を含むクラスタが２つ（３４１０、３４２０）あって、その上の階層には、「１」という番号（１階層目のグループであることを意味する。）で区分けされているクラスタ３４３０が存在する。このクラスタには、「２」というクラスタには含まれない（つまり、「２」という２つのクラスタとは関連度が低い）文書が１つある。また、「１」という別のクラスタには３つの文書が含まれている。そして、２つの「１」というクラスタの上の階層には、「０」という番号で区分けされているクラスタが存在する。基本的に、階層を同じにするクラスタが２以上あるときは、それらのクラスタを子とする親のクラスタを生成する。従って、上側にある「１」というクラスタ３４３０は、「２」というクラスタ（３４１０、３４２０）を子とする親のクラスタである。そして、「１」というクラスタを子とする「０」というクラスタ（すべての文書を含むクラスタ）が生成される。

クラスタ表示エリア３４００において、各文書に付されている、「９９％」、「９６％」といった値は、文書のスコアであって、入力した検索語との関連度を示す値である。この値は、最も関連度の高い文書のスコアを「１００％」としたときの相対値を意味する。

文書一覧表示エリア３２００に表示される表３２１０において、このクラスタリングによって、表示される文書の順番が変わる。つまり、クラスタ表示エリア３４００で表示された文書の表示の順番に対応するように、表３２１０の文書の表示の順番もソートされる。表３２１０の上から３つの、ＩＤ「１」、「４」、「０」の文書は、クラスタ表示エリア３４００の、上側にある「２」というクラスタ（３４１０）に含まれる３つの文書に対応している。

〔ソート〕
本実施形態における表のソートは、前記のようにクラスタリングによる文書のソートだけでなく、入力部６の操作による特徴語のソートや自動ソート等も可能である。以下、その詳細について説明する。

ユーザは、入力部６としてのマウスを用いて、文書や特徴語を移動させ、文書や特徴語の表示する順番を入れ替えることができる。文書の順番を入れ替えたいときには、入れ替えたい文書にカーソルを合わせ、所望の場所にドラッグドロップすれば良い。また、特徴語の順番を入れ替えたいときには、入れ替えたい特徴語にカーソルを合わせ、所望の場所にドラッグドロップすれば良い。

自動ソートには、前記クラスタリングによるソート、特徴語を移動させたときに行う文書ソート、文書を移動させたときに行う特徴語ソートおよび文書ソートと特徴語ソートとの両方の機能を併せ持つ両ソート（以下、単に「ソート」と呼ぶ場合がある。）の４種のソートがある。クラスタリングによるソートは、文書グループ順３２１８ａのボタンを押したときに実行される。文書ソートは、文書ソート３２１８ｂのボタンを押したときに実行される。両ソートは、ソート３２１８ｃのボタンを押したときに実行される。特徴語ソートは、特徴語ソート３２１８ｄのボタンを押したときに実行される。

文書ソートは、ユーザが重要と判断した特徴語を表３２１０の左側に移動させることで、その移動させた特徴語により関連する（関連度が大きい）文書ほど、上側に移動させるように処理するソートである。ある特徴語を移動させたときに、文書ソート３２１８ｂのボタンを押して実行しても良いが、特徴語を移動させた時点で、このソートを行っても良い。

特徴語ソートは、ユーザが重要と判断した文書を表３２１０の上側に移動させることで、その移動させた文書により関連する（関連度が大きい）特徴語ほど、左側に移動させるように処理するソートである。ある文書を移動させたときに、特徴語ソート３２１８ｄのボタンを押して実行しても良いが、文書を移動させた時点で、このソートを行っても良い。

両ソートは、文書ソートおよび特徴語ソートを交互に行うことで、重要と判断された特徴語を左側に、重要と判断された文書を上側に移動させるように処理するソートである。

レコードの項目を変えて特徴語の比較を行うことも可能である。例えば、特徴語表示エリア３３００のプルダウンメニュー３３１０によって、「状況」（図２の「状況」１００３に対応）を選択してから、重要と判断した文書を上側にマウスでソートし、その後、「状況」の項目から「原因」（図２の「原因」１００４に対応）の項目に切り替え、特徴語ソートを行う。すると、「状況」の特徴語の応じて重要な文書が上からソートされた順番のまま、その文書の順番に応じて表３２１０の特徴語３２１４の列には「原因」に対応する特徴語が重要なものが左から表示されている状態ができあがる。よって、ソートした文書における「状況」の特徴語と「原因」の特徴語との比較を行うといった分析を行うことができる。

ここで、４種の自動ソートの処理手順について説明する。図６は、文書ソートの処理手順を図示したフローチャートである。図７は、特徴語ソートの処理手順を図示したフローチャートである。図８は、両ソートの処理手順を図示したフローチャートである。図９は、文書グループ順の処理手順を図示したフローチャートである。各処理の主体は、論理演算処理部２１１である。

図６を参照して、文書ソートの処理手順について説明する。ユーザがある特徴語を移動して、文書ソート３２１８ｂのボタンを押したときに開始する。

まず、ステップＳ６０１において、論理演算処理部２１１は、文書のソートが完了するまで文書全体（表３２１０に表示された文書全体）をループする。文書全体をループしている間は、ステップＳ６０２に進む。文書のソートが完了した後は、ステップＳ６０３に進む。

次に、ステップＳ６０２において、論理演算処理部２１１は、評価関数（Ｅｄ）を用いて、文書を入れ替える。評価関数Ｅｄは、任意の２つの文書をｄ１、ｄ２という変数で表記したとき、Ｅｄ（ｄ１、ｄ２）のように、ｄ１、ｄ２の関数として表記される。なお、ｄ１は、ｄ２よりも表３２１０において上側にあるものとする。論理演算処理部２１１は、評価関数Ｅｄ（ｄ１、ｄ２）を用いて、以下の判定１、判定２によって、文書を入れ替える。

判定１：特徴語ｗｉを表３２１０の特徴語３２１４の左側から見ていく。
ここで、（１）：特徴語ｗｉと文書ｄ１との関連度が０以上であり、かつ、特徴語ｗｉと文書ｄ２との関連度が０であるとき、ｄ１とｄ２の順番を入れ替えることなくループを抜ける。
また、（２）：特徴語ｗｉと文書ｄ１との関連度が０であり、かつ、特徴語ｗｉと文書ｄ２との関連度が０を超えるとき、ｄ１とｄ２の順番を入れ替えてループを抜ける。
また、（３）：（１）にも（２）にも該当せずに全ての特徴語ｗｉでループが終了したときは、判定２に進む。

判定２：前記（３）において、再度、特徴語ｗｉを表３２１０の特徴語３２１４の左側から見ていく。
ここで、（４）：特徴語ｗｉと文書ｄ１との関連度が、特徴語ｗｉと文書ｄ２との関連度以上であるとき、ｄ１とｄ２の順番を入れ替えることなくループを抜ける。
また、（５）：特徴語ｗｉと文書ｄ１との関連度が、特徴語ｗｉと文書ｄ２との関連度を下回るとき、ｄ１とｄ２の順番を入れ替えてループを抜ける。
このようにして、関連度の高い文書が上側に来るように入れ替えられる。

次に、ステップＳ６０３において、論理演算処理部２１１は、ソート済みの文書でループを行う。このループによって、入れ替えた順番で文書を表示するように処理する。また、このループを行っている間は、ステップＳ６０４に進む。ループした後は、文書ソートの処理を終了する。

次に、ステップＳ６０４において、論理演算処理部２１１は、表３２１０において、文書情報の出力を行う。
以上で、文書ソートの処理手順について説明を終了する。

図７を参照して、特徴語ソートの処理手順について説明する。ユーザがある文書を移動して、特徴語ソート３２１８ｄのボタンを押したときに開始する。

まず、ステップＳ７０１において、論理演算処理部２１１は、特徴語のソートが完了するまで特徴語全体（表３２１０に表示された特徴語全体）をループする。特徴語全体をループしている間は、ステップＳ７０２に進む。特徴語のソートが完了した後は、ステップＳ７０３に進む。

次に、ステップＳ７０２において、論理演算処理部２１１は、評価関数（Ｅｗ）を用いて、特徴語を入れ替える。評価関数Ｅｗは、任意の２つの特徴語をｗ１、ｗ２という変数で表記したとき、Ｅｗ（ｗ１、ｗ２）のように、ｗ１、ｗ２の関数として表記される。なお、ｗ１は、ｗ２よりも表３２１０において左側にあるものとする。論理演算処理部２１１は、評価関数Ｅｗ（ｗ１、ｗ２）を用いて、以下の判定１、判定２によって、文書を入れ替える。

判定１：文書ｄｉを表３２１０のレコード上側から見ていく。
ここで、（１）：文書ｄｉと特徴語ｗ１との関連度が０以上であり、かつ、文書ｄｉと特徴語ｗ２との関連度が０であるとき、ｗ１とｗ２の順番を入れ替えることなくループを抜ける。
また、（２）：文書ｄｉと特徴語ｗ１との関連度が０であり、かつ、文書ｄｉと特徴語ｗ２との関連度が０を超えるとき、ｗ１とｗ２の順番を入れ替えてループを抜ける。
また、（３）：（１）にも（２）にも該当せずに全ての文書ｄｉでループが終了したときは、判定２に進む。

判定２：前記（３）において、再度、文書ｄｉを表３２１０のレコード上側から見ていく。
ここで、（４）：文書ｄｉと特徴語ｗ１との関連度が、文書ｄｉと特徴語ｗ２との関連度以上であるとき、ｗ１とｗ２の順番を入れ替えることなくループを抜ける。
また、（５）：文書ｄｉと特徴語ｗ１との関連度が、文書ｄｉと特徴語ｗ２との関連度を下回るとき、ｗ１とｗ２の順番を入れ替えてループを抜ける。
このようにして、関連度の高い特徴語が左側に来るように入れ替えられる。

次に、ステップＳ７０３において、論理演算処理部２１１は、ソート済みの文書でループを行う。このループによって、入れ替えた順番で特徴語を表示するように処理する。また、このループを行っている間は、ステップＳ７０４に進む。ループした後は、特徴語ソートの処理を終了する。

次に、ステップＳ７０４において、論理演算処理部２１１は、表３２１０において、文書情報の出力を行う。
以上で、特徴語ソートの処理手順について説明を終了する。

図８を参照して、両ソートの処理手順について説明する。ソート３２１８ｃのボタンを押したときに開始する。

まず、ステップＳ８０１において、論理演算処理部２１１は、文書および特徴語のソートが完了するまでループする。このループを行っている間は、ステップＳ８０２およびステップＳ８０３に進む。文書および特徴語のソートが完了した後は、ステップＳ８０４に進む。

次に、ステップＳ８０２において、論理演算処理部２１１は、図６で説明したものと同様の文書ソートを行う。

次に、ステップＳ８０３において、論理演算処理部２１１は、図７で説明したものと同様の特徴語ソートを行う。
このようにして、関連度の高い文書が上側に、関連度の高い特徴語が左側に来るように入れ替えられる。

次に、ステップＳ８０４において、論理演算処理部２１１は、ソート済みの文書でループを行う。このループによって、入れ替えた順番で文書を表示するように処理する。また、このループを行っている間は、ステップＳ８０５に進む。ループした後は、両ソートの処理を終了する。

次に、ステップＳ８０５において、論理演算処理部２１１は、表３２１０において、文書情報の出力を行う。
以上で、両ソートの処理手順について説明を終了する。

図９を参照して、文書グループ順の処理手順について説明する。ユーザが文書グループ順３２１８ａのボタンを押したときに開始する。

まず、ステップＳ９０１において、論理演算処理部２１１は、前記したように、文書をクラスタリングする。クラスタリングした後は、ステップＳ９０２に進む。

次に、ステップＳ９０２において、論理演算処理部２１１は、クラスタリング結果のクラスタごとにループする。クラスタでループしている間は、ステップＳ９０３に進む。ループした後は、文書グループ順の処理を終了する。

次に、ステップＳ９０３において、論理演算処理部２１１は、クラスタ内の文書でループする。文書でループしている間は、ステップＳ９０４に進む。ループした後は、ステップＳ９０３に戻る。

次に、ステップＳ９０４において、論理演算処理部２１１は、表３２１０において、文書情報の出力を行う。
以上で、文書グループ順の処理手順について説明を終了する。

≪一覧表示（グループ単位）≫
表示部５における文書群の一覧表示の他の表示について説明する。図１０は、文書群の一覧表示の画面例を図示したものである。この画面例では、グループ単位で一覧表示を行う。つまり、文書のクラスタリングが既に行われて、それにより生成したグループの表示を行う。文書一覧表示エリア３２００において表示する表３２２０が、図５の表３２１０と異なる。クエリ表示エリア３１００、特徴語表示エリア３３００、およびクラスタ表示エリア３４００については、図５のそれらと同一であるため、それらの説明を省略する。

表３２２０の列項目（フィールド）には、ＩＤ３２２１、文書ＩＤ３２２２、品詞３２２３および要求品質入力フォーム３２２４が並べられており、表３２２０の行項目（レコード）にはグループが１つずつ並べられている。文書表示方式３２１６の表示欄において、「グループ単位」のラジオボタンを入力部６により選択すると、この表３２２０が表示される。また、文書表示方式３２１６の下部には、特徴語の抽出の仕方についてラジオボタンで入力部６により選択できる特徴語抽出方法３２１９の表示欄が設けられている。

ＩＤ３２２１は、グループを識別する識別番号が登録される項目である。文書ＩＤ３２２２は、当該グループに属する文書の識別番号が登録される項目である。文書タイトル表示３２１７の表示欄において、そのチェックボックスを入力部６により有効にすると、文書のタイトルの内容が表示される。図１１は、文書のタイトルを表示した文書群の一覧表示の画面例を図示したものである。逆に、無効にすると、その内容は表示されなくなる。文書のタイトルを表示することにより、ユーザは、当該文書の内容を大体把握できる。品詞３２２３は、特徴語が品詞ごとに登録される項目である。表３２２０においては、品詞として、名詞、動詞、形容詞を採り上げているが、採り上げる品詞の種類、数等はこれに限定されない。要求品質入力フォーム３２２４は、ユーザが任意に入力する値（メモ等の文章）が登録される項目である。

ＩＤ３２２１が「３」のグループ（最も上側に位置するレコード）に着目すると、このグループは「１」、「４」、「０」の文書ＩＤを含んでおり、クラスタ表示エリア３４００の「２」というクラスタ（上側：３４１０）に対応している。後記する「平均値」という特徴語抽出方法を行うと、名詞の特徴語として「読み込み」、「処理」、「製品Ｃ」、「エラー」、「発生」が抽出され、品詞３２２３の名詞の項目に登録される。

〔特徴語抽出方法〕
グループに属する特徴語の抽出方法およびその特徴語のスコアの算出方法について説明する。本実施形態において、特徴語抽出方法３２１９により選択できる抽出方法は、「ＡＮＤ」、「ＯＲ」、「平均値」および「差分」の４つである。

「ＡＮＤ」は、グループのすべての文書に含まれる特徴語のみを抽出する論理演算処理である。そして、そのグループにおいて、抽出された特徴語のスコアは、グループに属する文書の関連度の最小値である。例えば、ＩＤ３２２１が「３」のグループの「読み込み」という特徴語に着目すると、文書１の関連度は0.532であり、文書４の関連度は0.495であり、文書０の関連度は0.495である（図５参照）。よって、「ＡＮＤ」による「読み込み」のスコアは、0.495となる。抽出される特徴語は、品詞３２２３の項目に表示される。

「ＯＲ」は、グループのいずれか１つの文書に含まれる特徴語を抽出する論理演算処理である。そして、そのグループにおいて、抽出された特徴語のスコアは、グループに属する文書の関連度の最大値である。例えば、ＩＤ３２２１が「３」のグループの「読み込み」という特徴語に着目すると、文書１の関連度は0.532であり、文書４の関連度は0.495であり、文書０の関連度は0.495である（図５参照）。よって、「ＯＲ」による「読み込み」のスコアは、0.532となる。抽出される特徴語は、品詞３２２３の項目に表示される。

「平均値」は、グループのいずれか１つの文書に含まれる特徴語を抽出する論理演算処理である。そして、そのグループにおいて、抽出された特徴語のスコアは、グループに属する文書の関連度の平均値（加算平均）である。例えば、ＩＤ３２２１が「３」のグループの「読み込み」という特徴語に着目すると、文書１の関連度は0.532であり、文書４の関連度は0.495であり、文書０の関連度は0.495である（図５参照）。よって、「平均値」による「読み込み」のスコアは、0.507となる。抽出される特徴語は、品詞３２２３の項目に表示される。

「差分」は、親の階層以外の他のグループと比較したとき、「平均値」のスコアが高くなる特徴語を抽出する論理演算処理である。例えば、ＩＤ３２２１が「３」のグループの「読み込み」という特徴語に着目すると、文書１の関連度は0.532であり、文書４の関連度は0.495であり、文書０の関連度は0.495である（図５参照）。よって、「差分」による「読み込み」のスコアは、0.507となる（「平均値」のスコアと同一）。この値は、親の階層以外の他のグループと比較すると高い値であるため、「読み込み」という特徴語は、ＩＤ３のグループに属する。つまり、品詞３２２３の名詞の項目に表示される。ちなみに、図１０では、特徴語抽出方法として「平均値」を用いており、図１１では、特徴語抽出方法として「差分」を用いているが、ＩＤ３のグループに着目すると、「平均値」で抽出される特徴語「読み込み」、「処理」、「製品Ｃ」、「エラー」、「発生」のうち、「処理」、「製品Ｃ」、「エラー」、「発生」の４つはそのスコアが低い値となるため、ＩＤ３のグループに属することは無く、表示されず、「読み込み」のみ表示される。
なお、「差分」の論理演算処理を行うとき、スコアの算出は「平均値」のスコアとしたが、代わりに「ＡＮＤ」や「ＯＲ」によるスコアを用いて「差分」の論理演算処理を行っても良い。また、特徴語を表示するか否かを判別するための閾値を予め、または、所定の演算により定めておき、その閾値以上のスコアを有する特徴語を表示するように処理しても良い。

品詞３２２３に表示される特徴語は、当該グループに属するスコアの高い順に並べて表示すると良い。このようにすると、重要となる特徴語が一瞥して把握できる。

≪ツリー（Tree）表示≫
表示部５における文書群の一覧表示の他の表示について説明する。図１２は、文書群のツリー表示の画面例を図示したものである。この画面例では、グループ単位でツリー表示を行う。つまり、文書のクラスタリングが既に行われて、それにより生成したグループのツリー表示を行う。文書一覧表示エリア３２００において表示する表３２３０が、図５の表３２１０と異なる。クエリ表示エリア３１００、特徴語表示エリア３３００、およびクラスタ表示エリア３４００については、図５のそれらと同一であるため、それらの説明を省略する。

表３２３０の列項目（フィールド）には、文書グループのTree３２３１および文書情報３２３２が並べられている。文書表示方式３２１６の表示欄において、「グループのTree化」のラジオボタンを入力部６により選択すると、この表３２３０が表示される。また、文書表示方式３２１６の下部には、前記したような特徴語抽出方法３２１９の表示欄が設けられている。

文書グループのTree３２３１には、フォルダで描画されたグループがツリー形式で表示されている。図示されている状態（初期状態）は、すべてのツリーが開状態（open：フォルダのアイコンが表示されている状態）になっており、最下層のフォルダ（つまり、最下層のクラスタ）も表示されている。描画されたフォルダの右隣にある数字は、当該グループの識別番号である（ＩＤ３２２１と同一）。その数字の右隣には、特徴語抽出方法３２１９により抽出された特徴語が記載されている。なお、この表示における特徴語抽出方法は、ＡＮＤのスコアを用いた「差分」の論理演算処理に特徴語の抽出方法を用いている。入力部６によりクリックして選択したフォルダ（図では、「３」と付されたフォルダ）は、選択された旨を示すため、強調表示処理部２１２の処理により、強調表示（フォルダが開いたような描画、グループの識別番号および特徴語の太字化および下線付加）されている。

文書情報３２３２には、入力部６により選択されたフォルダの中身である文書、つまり、当該グループに属する文書が表示される。「３」のグループを選択しているので、「１」、「４」、「０」の３つの文書が表示される。文書タイトル表示３２１７の表示欄において、そのチェックボックスを入力部６により有効にすると、選択されたフォルダの中身である文書のタイトルの内容が表示される。逆に、無効にすると、その内容は表示されなくなる。文書のタイトルを表示することにより、ユーザは、当該文書の内容を大体把握できる。「チェック文書」については、後記する。

〔フォルダの折りたたみ〕
フォルダを折りたたみ、ツリーの表示内容を変えるときの処理内容について説明する。図１３は、フォルダを折りたたむ前の文書群のツリー表示の画面例を図示したものである。

文書グループのTree３２３１において、入力部６により、「３」、「４」というフォルダの上層にある「２」というフォルダを選択する。すると、強調表示処理部２１２の処理により、「２」というフォルダが強調表示される。また、文書タイトル表示３２１７の表示欄において、そのチェックボックスを入力部６により有効にしてあるので、文書情報３２３２において、「２」というフォルダに含まれる、「７」の文書がタイトルも併せて表示される。クラスタ表示エリア３４００において、「２」というフォルダに対応するクラスタ表示は、クラスタ３４３０であるが、文書情報３２３２に表示される文書は、「１」というクラスタ（上側：３４３０）の下層にある「２」という２つのクラスタ（３４１０、３４２０）に含まれる文書（「１」「４」「０」「３」「５」「２」の６つ）ではなく、「１」というクラスタ３４３０にのみ属し、「２」という２つのクラスタ（３４１０、３４２０）には属しない文書（つまり、「７」）である。

このとき、入力部６により、文書グループのTree３２３１において、「２」というフォルダの左隣にあるツリーの分岐点（「−」）を押す。すると、「２」というフォルダが折りたたまれ、対応するツリーが閉状態（close：フォルダのアイコンが表示されていない状態））になる。

図１４は、フォルダを折りたたんだ後の文書群のツリー表示の画面例を図示したものである。文書グループのTree３２３１において、「２」というフォルダの左隣にあるツリーの分岐点が「＋」に変化し、「２」というフォルダの下層にある「３」、「４」というフォルダが表示されなくなる。それに伴い、クラスタ表示エリア３４００において、「３」、「４」のフォルダに対応する、２つの「２」というクラスタ（３４１０、３４２０）も表示されなくなる。つまり、文書グループのTree３２３１のツリー表示にあわせて、クラスタ表示エリア３４００のツリー表示も変化する。このようにして、ツリー表示とクラスタ表示との対応関係を一瞥して把握できるようにすることができる。

また、文書情報３２３２において、表示されなくなった「３」、「４」のフォルダに属していた文書（「１」「４」「０」「３」「５」「２」の６つ）を、「２の子孫グループの文書」（「２」というグループの子孫であるグループに属する文書（つまり、元々、２つの「２」というクラスタ（３４１０、３４２０）に属していた文書））として表示する。このようにして、「２」のフォルダを折りたたんだことにより、「２」のグループの子孫である「３」、「４」のグループに属していた文書も「２」のグループに属したもの、つまり、「１」のクラスタ３４３０に属すると処理され、その旨を表示することができる。なお、この処理は、論理演算処理部２１１が行う。

また、文書情報３２３２において、「２」のフォルダを折りたたんだことにより、「２」のフォルダの右側に記載されている特徴語も動的に変化する。クラスタ表示も変化するので、それに伴い、対象とする文書が変わる（この場合は、「３」、「４」のフォルダに属していた文書（「１」「４」「０」「３」「５」「２」の６つ）だけ増える。）ことになり、同じ特徴語抽出方法を用いても、その結果もおのずと変わるからである。ただし、図１４においては、ＡＮＤのスコアを用いた「差分」の論理演算処理に特徴語の抽出方法を用いているため、処理内容は変わるものの、結果的には、「２」のフォルダの右側に記載されている特徴語は変わらない。このように、特徴語が動的に変化するため、折りたたんだ「２」のフォルダの特徴を一瞥して把握することができる。

〔文書の移動〕
あるフォルダに含まれる文書を別のフォルダに移動するときの処理内容について説明する。図１５は、文書を移動させる前の文書群のツリー表示の画面例を図示したものである。「４」というフォルダの文書を「３」というフォルダに移動させる処理について説明する。

文書グループのTree３２３１において、入力部６により、「４」というフォルダを選択する。すると、強調表示処理部２１２の処理により、「４」というフォルダが強調表示される。また、文書タイトル表示３２１７の表示欄において、そのチェックボックスを入力部６により有効にしてあるので、文書情報３２３２において、「４」というフォルダに含まれる、「３」、「５」、「２」の文書３つがタイトルも併せて表示される。

ここで、入力部６により、文書情報３２３２に表示されている「２」の文書の左隣にあるチェックボックスを有効にする。さらに「チェック文書」の入力欄には、「３」と入力し、その入力欄の右隣にある「移動」ボタンを押す。これは、「チェック文書」とした「２」の文書を、（「４」というフォルダから）「３」というフォルダに移動する処理を実行することを意味する。移動した結果を図１６および図１７に示す。また、移動はドラッグ＆ドロップなどの他の手段を用いても良い。

図１６および図１７は、文書を移動させた後の文書群のツリー表示の画面例を図示したものである。図１６では、文書グループのTree３２３１において、入力部６により、「２」という文書の移動先である、「３」というフォルダが選択されたときの様子を示している。図１７では、文書グループのTree３２３１において、入力部６により、「２」という文書の移動元である、「４」というフォルダが選択されたときの様子を示している。

図１６において、文書情報３２３２に着目すると、移動してきた「２」という文書が、元からあった「１」、「４」、「０」という３つの文書の下に追加され、「３」というフォルダに移動されている。そして、移動したことを明確に示すため、この「２」という文書を四角の枠３２３２ａで囲んでいる。このように囲む処理は、強調表示処理部２１２によって行われる。

クラスタ表示エリア３４００に着目すると、下側の「２」というクラスタ（３４２０）に属していた、「２」の文書が、上側の「２」というクラスタ（３４１０）に属するように移動されている。強調表示処理部２１２によって、この移動の様子も、何らかの形で強調表示するようにしても良い。

文書グループのTree３２３１に着目すると、選択されている「３」というフォルダの右隣にある特徴語も動的に変化する。クラスタ表示も変化するので、それに伴い、対象とする文書が変わる（この場合は、「２」の文書が追加される。）ことになり、同じ特徴語抽出方法を用いても、その結果もおのずと変わるからである。ただし、図１６においては、ＡＮＤのスコアを用いた「差分」の論理演算処理に特徴語の抽出方法を用いているため、処理内容は変わるものの、結果的には、「３」のフォルダの右側に記載されている特徴語は変わらない。このように、特徴語が動的に変化するため、文書の移動があった「３」のフォルダの特徴を一瞥して把握することができる。

一方、図１７において、文書情報３２３２に着目すると、移動してしまった「２」という文書は、移動してしまったことを明確に示すため、この「２」という文書を塗りつぶしている（３２３２ｂ）。このように塗りつぶす処理は、強調表示処理部２１２によって行われる。

クラスタ表示エリア３４００に関しては、図１６で説明したときと同様に表示が変わるだけなので、その説明は省略する。

文書グループのTree３２３１に着目すると、選択されている「４」というフォルダの右隣にある特徴語も動的に変化する。クラスタ表示も変化するので、それに伴い、対象とする文書が変わる（この場合は、「２」の文書が削除される。）ことになり、同じ特徴語抽出方法を用いても、その結果もおのずと変わるからである。ただし、図１７においては、ＡＮＤのスコアを用いた「差分」の論理演算処理に特徴語の抽出方法を用いているため、処理内容は変わるものの、結果的には、「４」のフォルダの右側に記載されている特徴語は変わらない。このように、特徴語が動的に変化するため、文書の移動があった「４」のフォルダの特徴を一瞥して把握することができる。

〔ツリー（Tree）表示の処理手順〕
前記ツリー表示の処理手順について詳細に説明する。図１８は、Tree表示を開始するときの処理手順を図示したフローチャートである。図１９は、Tree描画処理を開始するときの処理手順を図示したフローチャートである。図２０は、Treeの要素選択時（つまり、リンククリック時）の処理を開始するときの処理手順を図示したフローチャートである。図２１は、Treeの要素のopen／close切り替え時の処理を開始するときの処理手順を図示したフローチャートである。図２２は、特徴語描画処理を開始するときの処理手順を図示したフローチャートである。各処理の主体は、論理演算処理部２１１である。

図１８を参照して、Tree表示を開始するときの処理手順について説明する。この処理は、文書表示方式３２１６の「グループのtree化」のラジオボタンを選択したときに開始する。

まず、ステップＳ１８０１において、論理演算処理部２１１は、文書に対して階層的なクラスタリングをする。つまり、前記したクラスタリングの処理を行う。クラスタリングをした後は、ステップＳ１８０２に進む。

次に、ステップＳ１８０２において、論理演算処理部２１１は、クラスタの一番上の親要素が複数あるときは、それらを子とする親を１つ作る。例えば、「２」のグループ（３４１０、３４２０）が２つあるときは、これらを子とする「１」のグループ（３４３０）を作る（図１２参照）。作った後は、ステップＳ１８０３に進む。

次に、ステップＳ１８０３において、論理演算処理部２１１は、Treeのopen／close状態（開閉状態）を管理する変数（oc）を初期化（つまり、すべてのツリーを開状態（open））する。つまり、図１２の文書グループのTree３２３１に描かれたツリー表示のような状態を作る。初期化した後、ステップＳ１８０４に進む。

次に、ステップＳ１８０４において、論理演算処理部２１１は、一番上の階層の親要素を引数としてTree描画処理を呼び出す。つまり、一番上階層の「１」というフォルダの描画を開始する（図１２参照）。Tree描画処理を呼び出したとき、終了する。
以上で、Tree表示を開始するときの処理手順の説明を終了する。

図１９を参照して、Tree描画処理を開始するときの処理手順について説明する。この処理は、ステップＳ１８０４（図１８参照）とステップＳ２１０３（図２１参照）において、描画処理を呼び出したときに開始する。

まず、ステップＳ１９０１において、論理演算処理部２１１は、引数である要素をＰとする。ツリー表示開始直後では、ステップＳ１８０４（図１８参照）で引数とした一番上階層の親要素をＰとする。引数である要素をＰとした後、ステップＳ１９０２に進む。

次に、ステップＳ１９０２において、論理演算処理部２１１は、要素Ｐを選択したときのイベントを準備する。つまり、Ｐと記されたフォルダに繋がっているツリーを入力部６でクリック（リンククリック）したときの画面の表示制御を行う。詳細は、図２０を参照して説明する。この準備をした後、ステップＳ１９０３に進む。

次に、ステップＳ１９０３において、論理演算処理部２１１は、要素Ｐのopen／close状態の切り替えイベントを準備する。つまり、Ｐと記されたフォルダに繋がっているツリーの開閉状態を切り替えるための画面の表示制御を行う。詳細は、図２１を参照して説明する。この準備をした後、ステップＳ１９０４に進む。

次に、ステップＳ１９０４において、論理演算処理部２１１は、Ｐを引数として特徴語描画処理を呼び出す。つまり、Ｐと記されたフォルダに対応するグループの特徴語を、当該フォルダの右隣に描画するための表示制御を行う。詳細は、図２２を参照して説明する。特徴語描画処理を呼び出した後、ステップＳ１９０５に進む。

次に、ステップＳ１９０５において、論理演算処理部２１１は、Ｐがopenの場合、Ｐの子要素を引数として、Tree描画処理を（再帰的に）呼び出す。つまり、Ｐと記されたフォルダの下の階層のフォルダに対しても、ステップＳ１９０１〜ステップＳ１９０４の処理を行う。特徴語描画処理を呼び出したとき、終了する。
以上で、Tree描画処理を開始するときの処理手順の説明を終了する。

図２０を参照して、Treeの要素選択時の処理を開始するときの処理手順について説明する。この処理は、要素Ｐを選択したときのイベント（ステップＳ１９０２（図１９参照）において準備）が、入力部６により、起動されたときに開始する。

まず、ステップＳ２００１において、論理演算処理部２１１は、入力部６によってクリックされた要素をＰとする。つまり、Ｐと記されたフォルダを定める。要素をＰとした後、ステップＳ２００２に進む。

次に、ステップＳ２００２において、論理演算処理部２１１は、Ｐに属する文書情報を文書情報表示エリアに表示する。つまり、表３２３０の文書情報３２３２の項目においてＰと記されたフォルダに属する文書を表示する（図１２参照）。文書タイトル表示３２１７のチェックボックスが有効になっていれば、当該文書のタイトルも表示する。文書情報を表示した後、ステップＳ２００３に進む。

次に、ステップＳ２００３において、論理演算処理部２１１は、Ｐがcloseのとき、Ｐの子要素に属する文書も（Ｐに直接属する文書と区別して）表示する。つまり、Ｐと記されたフォルダが折りたたまれているとき、その子孫グループの文書も表示する（図１４参照）。子要素に属する文書も表示されたとき、終了する。
以上で、Treeの要素選択時の処理を開始するときの処理手順の説明を終了する。

図２１を参照して、Treeの要素のopen／close切り替え時の処理を開始するときの処理手順について説明する。この処理は、要素Ｐのopen／close状態の切り替えイベント（ステップＳ１９０３（図１９参照）において準備）が、入力部６により、起動されたときに開始する。

まず、ステップＳ２１０１において、論理演算処理部２１１は、open／close対象の要素をＰとする。つまり、開閉対象となる、Ｐと記されたフォルダを定める。要素をＰとした後、ステップＳ２１０２に進む。

次に、ステップＳ２１０２において、論理演算処理部２１１は、Ｐに対する変数（oc）を変更して、open／close状態を切り替える。つまり、Ｐと記されたフォルダの下層側に伸びるツリーの開閉状態を定める。切り替えた後、ステップＳ２１０３に進む。

次に、ステップＳ２１０３において、論理演算処理部２１１は、一番上の階層の要素を引数としてTree描画処理を読み出す。この処理は、ステップＳ１８０４の処理を同一である。Tree描画処理を呼び出した後、ステップＳ２１０４に進む。

次に、ステップＳ２１０４において、論理演算処理部２１１は、Ｐの文書情報を表示している場合、Treeの要素選択時の処理を呼び出し、表示する文書情報を更新する。つまり、Ｐと記されたフォルダの開閉に併せて文書情報３２３２に表示する文書の表示内容を、Treeの要素選択時の処理（図２０参照）に従って変える。表示する文書情報を更新したとき、終了する。
以上で、Treeの要素のopen／close切り替え時の処理を開始するときの処理手順の説明を終了する。

図２２を参照して、特徴語描画処理を開始するときの処理手順について説明する。この処理は、ステップＳ１９０４（図１９参照）において、Ｐを引数として特徴語描画処理を呼び出したときに開始する。

まず、ステップＳ２２０１において、論理演算処理部２１１は、引数である要素をＰとする。つまり、Ｐと記されたフォルダを定める。要素をＰとした後、ステップＳ２２０２に進む。

次に、ステップＳ２２０２において、論理演算処理部２１１は、Ｐに属する文書集合をＤとする。つまり、Ｄと記された文書群を定める。文書の集合をＤとした後、ステップＳ２２０３に進む。

次に、ステップＳ２２０３において、論理演算処理部２１１は、Ｐがcloseのときには、Ｐの子孫に属する文書集合もＤに加える。つまり、子孫グループの文書もＰと記されたフォルダに含まれているものとする（図１４参照）。Ｐの子孫に属する文書集合もＤに加えた後は、ステップＳ２２０４に進む。

次に、ステップＳ２２０４において、論理演算処理部２１１は、既に説明した、特徴語抽出方法に従い、文書集合Ｄの特徴語を抽出する。これにより、Ｐと記されたフォルダの右隣に表示される特徴語が決定される。文書集合Ｄの特徴語を抽出したときは、終了する。
以上で、特徴語描画処理を開始するときの処理手順の説明を終了する。

≪まとめ≫
本実施形態により、以下の効果を奏する。すなわち、文書単位で特徴語および関連度を一覧表示したり、グループ単位で特徴語を一覧表示したり、グループ単位でツリー表示するので、文書群に含まれる大量の情報を素早く、かつ、正確に読むことができるような表示を実現することができる。

なお、前記形態は、本発明を実施するための最良のものであるが、その実施形式はこれに限定するものではない。したがって、本発明の要旨を変更しない範囲において、その実施形式を種々変形することは可能である。

例えば、本実施形態では、「ＤＶＤ」という検索語を入力して、抽出された文書群を対象にして、文書単位やグループ単位の一覧表示またはツリー表示を行った。しかし、特に検索語の入力は無くともこれらの表示は可能である。すなわち、レコードＤＢ４に記憶されているすべての文書について、文書単位やグループ単位の一覧表示またはツリー表示を行うことができる。レコードＤＢ４に記憶されているすべての文書について関連度の計算は行われており、いわゆるリンクの張られた文書は、高い関連度を算出し、当該文書の重要性が示される。このように表示することにより、より広い視野で文書群の分析を行うことができる。

また、この場合において、表示される文書はすべてではなく、重要と判断された、つまり、リンクが多く張られている文書だけを表示するようにしても良い。このように表示することにより、ユーザが見る文書の量を抑えつつも、客観的に的確な文書が選ばれているので、より素早く、文書群の分析を行うことができる。

また、本実施形態では、特徴語抽出方法を用いて、グループ単位の一覧表示またはツリー表示を行うようにした。このとき、特徴語のスコアを算出したが、表示するのを、特徴語だけではなく、このスコアも併せて表示するようにしても良い。抽出された特徴語と併せてスコアも見ることにより、当該グループにおける各特徴語の重要度もわかり、文書群の分析が促進する。

その他、ハードウェア、ソフトウェア、データベースや各フローチャートなどの具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

本実施形態に係る文書群分析支援装置の構成例を示す図である。レコードの一例を示す図である。インデックス情報の例を示す図である。文書群の一覧表示の画面例を図示したものである。クラスタ表示の画面例を図示したものである。文書ソートの処理手順を図示したフローチャートである。特徴語ソートの処理手順を図示したフローチャートである。両ソートの処理手順を図示したフローチャートである。文書グループ順の処理手順を図示したフローチャートである。文書群の一覧表示の画面例を図示したものである。文書のタイトルを表示した文書群の一覧表示の画面例を図示したものである。文書群のツリー表示の画面例を図示したものである。フォルダを折りたたむ前の文書群のツリー表示の画面例を図示したものである。フォルダを折りたたんだ後の文書群のツリー表示の画面例を図示したものである。文書を移動させる前の文書群のツリー表示の画面例を図示したものである。文書を移動させた後の文書群のツリー表示の画面例を図示したものである。文書を移動させた後の文書群のツリー表示の画面例を図示したものである。 Tree表示を開始するときの処理手順を図示したフローチャートである。 Tree描画処理を開始するときの処理手順を図示したフローチャートである。 Treeの要素選択時（つまり、リンククリック時）の処理を開始するときの処理手順を図示したフローチャートである。 Treeの要素のopen／close切り替え時の処理を開始するときの処理手順を図示したフローチャートである。特徴語描画処理を開始するときの処理手順を図示したフローチャートである。

符号の説明

１文書群分析支援装置
２処理部
３記憶部
４レコードＤＢ
５表示部
６入力部
２１表示処理部
２１１論理演算処理部
２１２強調表示処理部
３１各種インデックス情報
３２レコードインデックス情報

Claims

ユーザの操作により、情報を入力する入力部と、
文書を識別する文書識別情報と、文書の項目を定める文書項目情報と、前記項目ごとに記述された内容とを含む文書の集合である文書群と、
前記文書の項目ごとに、前記内容に基づいて定まる特徴語と、前記特徴語と前記文書群の各文書との第１の関連度とを関連付けた項目インデックス情報と、
を記憶する記憶部と、
前記文書群の全部または一部の文書を対象にして、当該文書の前記内容を解析することにより前記特徴語を抽出し、前記抽出した特徴語に係る前記第１の関連度を算出する処理部と、
前記入力部から文書単位で前記処理部による結果を表示する指示が入力されたとき、前記対象となる文書を所定の順位で配置するとともに、前記処理部により抽出した特徴語を所定の順位で配置し、前記処理部により算出された前記第１の関連度を、前記配置された文書および前記配置された特徴語に対応するように配置して表示する表示部と、
を有する文書群分析支援装置であって、
前記処理部は、
第１の文書と前記第１の文書よりも下位側に配置されている第２の文書とを入れ替えるための文書用評価関数を用いることで、前記表示部に表示されているすべての特徴語のうち１つに注目した場合、前記第１の文書に係る前記第１の関連度が、前記第２の文書に係る前記第１の関連度を下回るとき、前記第１の文書と前記第２の文書とを入れ替える機能を有し、
前記表示部は、
前記入力部から、前記配置がなされた、一の特徴語を上位側に配置する指示が入力されたとき、当該特徴語に係る前記第１の関連度が高い文書ほど、より上位側に配置するように表示すること
を特徴とする文書群分析支援装置。
ユーザの操作により、情報を入力する入力部と、
文書を識別する文書識別情報と、文書の項目を定める文書項目情報と、前記項目ごとに記述された内容とを含む文書の集合である文書群と、
前記文書の項目ごとに、前記内容に基づいて定まる特徴語と、前記特徴語と前記文書群の各文書との第１の関連度とを関連付けた項目インデックス情報と、
を記憶する記憶部と、
前記文書群の全部または一部の文書を対象にして、当該文書の前記内容を解析することにより前記特徴語を抽出し、前記抽出した特徴語に係る前記第１の関連度を算出する処理部と、
前記入力部から文書単位で前記処理部による結果を表示する指示が入力されたとき、前記対象となる文書を所定の順位で配置するとともに、前記処理部により抽出した特徴語を所定の順位で配置し、前記処理部により算出された前記第１の関連度を、前記配置された文書および前記配置された特徴語に対応するように配置して表示する表示部と、
を有する文書群分析支援装置であって、
前記処理部は、
第１の特徴語と前記第１の特徴語よりも下位側に配置されている第２の特徴語とを入れ替えるための特徴語用評価関数を用いることで、前記表示部に表示されているすべての文書のうち１つに注目した場合、前記第１の特徴語に係る前記第１の関連度が、前記第２の特徴語に係る前記第１の関連度を下回るとき、前記第１の特徴語と前記第２の特徴語とを入れ替える機能を有し、
前記表示部は、
前記入力部から、前記配置がなされた、一の文書を上位側に配置する指示が入力されたとき、当該文書に係る前記第１の関連度が高い特徴語ほど、より上位側に配置するように表示すること
を特徴とする文書群分析支援装置。
前記記憶部は、
文書ごとに、当該文書と、当該文書以外の文書との第２の関連度とを関連付けた文書インデックス情報を記憶し、
前記処理部は、
前記文書群の全部または一部の文書を対象にして、当該文書に含まれる前記特徴語に基づいて前記第２の関連度を算出するとともに、前記文書インデックス情報に基づいて文書に対するクラスタリングを行い、
前記表示部は、
前記入力部から、文書のクラスタの階層構造に対応するように文書を配置する指示が入力されたとき、前記クラスタリングにより求められた、文書のクラスタの階層構造に対応するように文書を、文書単位で配置するように表示すること
を特徴とする請求項１または請求項２に記載の文書群分析支援装置。
前記記憶部が記憶する文書群の文書は、
前記文書項目情報において、当該文書のタイトルを項目として有するとともに、前記タイトルの内容を含み、
前記表示部は、
前記入力部から文書のタイトルを表示する指示が入力されたとき、前記配置された文書に対し、当該文書のタイトルも併せて配置するように表示すること
を特徴とする請求項１から請求項３のいずれかに記載の文書群分析支援装置。