JP5347334B2

JP5347334B2 - まとめ上げ作業支援処理方法、装置及びプログラム

Info

Publication number: JP5347334B2
Application number: JP2008140291A
Authority: JP
Inventors: 一成田中; 勇渡部
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-05-29
Filing date: 2008-05-29
Publication date: 2013-11-20
Anticipated expiration: 2028-05-29
Also published as: JP2009288999A; US20090299997A1

Description

本発明は、ユーザが異なる語句を適切な集合にまとめ上げる作業を行う場合において、ユーザによるまとめ上げ作業を支援するための技術に関する。

例えば、特許文献又は論文などの技術文書の集合、アンケート結果などの傾向を分析し、分析結果から知識を得ようとする場合がある。特に、特許文献から出願人、発明の対象、課題などを表す特徴語句（例えば、制御装置、低コストなど）を抽出し、抽出した特徴語句などを利用してグラフやマップを生成する手法が知られている。

ここで、例えば「コスト」、「低コスト」などのように、各々が異なる語句であっても、同義語として扱う方が望ましい場合があり、このような語句をまとめ上げる必要がある。しかし、中には、各々が類似する語句であっても、別々の特徴語句として扱う方が望ましい場合もある。そのため、まとめ上げを全て自動的に行うことは困難であり、適切な分析を行うためには、人手によるまとめ上げ作業が必要となる。なお、幾つかの文献では、特徴語句間の類似度を利用して、同義語の設定を支援する技術が開示されている。

また、まとめ上げられた特徴語句の集合は、グラフやマップを生成する際に利用されるが、例えば傾向を分析する上で重要となるのは、特徴語句を含む文献の件数が多いようなものであり、数件程度のものは傾向を分析する上であまり重要とはならない。すなわち、まとめ上げ作業を行わなくても既に膨大な件数となっている場合や、まとめ上げを行っても上位とかけ離れている場合など、まとめ上げ作業を行ったとしても分析結果に影響が及ばない場合がある。
特開２００２−３２４０７７号公報特開平０８−２３５１７８号公報

しかし、従来技術では、適切な分析を行うために、ユーザがどこまでまとめ上げ作業を行うべきかを知ることができず、ユーザは、自身が満足するまで闇雲にまとめ上げ作業を行わなければならない。そのため、分析結果にあまり影響がないような不要なまとめ上げ作業を行う場合もあり、効率的とは言えない。

従って、本発明の目的は、ユーザがまとめ上げ作業を行う場合において、ユーザにまとめ上げ作業が完了したことを認識させるための技術を提供することである。

本まとめ上げ作業支援処理方法は、複数の文書から特徴語句を複数抽出し、特徴語句間の類似度に基づき、複数の集合に分類する分類ステップと、複数の集合のうち少なくともいずれかを、集合に含まれる特徴語句を認識可能な態様にてユーザに提示する集合提示ステップと、ユーザから、特定の集合に含まれる特徴語句のうち統一化の対象となる特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる統一化の対象となる特徴語句を含む文書の文書数を計数し、第１文書数として記憶装置に格納する第１文書数計数ステップと、特定の集合以外の、まとめ上げ態様又は状態の少なくともいずれかで特定される集合に含まれる特徴語句を含む文書の文書数を計数し、第２文書数として記憶装置に格納する第２文書数計数ステップと、記憶装置に格納された第１文書数と第２文書数とに基づき、所定の条件を満たしたか判定する判定ステップと、判定ステップにおいて所定の条件を満たしたと判定された場合、統一化の対象となる特徴語句の指定が完了したことをユーザに提示するステップとを含む。

ユーザがまとめ上げ作業を行う場合において、ユーザにまとめ上げ作業が完了したことを認識させることができる。

［実施の形態１］
図１乃至図２５を用いて本発明の第１の実施の形態を説明する。まず、図１に本発明の実施の形態に係るまとめ上げ作業支援処理装置１の機能ブロック図を示す。図１の例では、まとめ上げ作業支援処理装置１は、特許文献などの分析対象となる文書データを格納する文書ＤＢ１１と、文書ＤＢ１１から特徴語句を抽出する特徴語句抽出部１２と、特徴語句抽出部１２が抽出した特徴語句に基づき、特徴語句間の関連度を計算し、後で説明する関連度テーブルを生成する関連度計算部１３と、関連度計算部１３により生成された関連度テーブルを格納する関連度テーブル格納部１４と、ユーザからの絞り込み条件に基づき、文書ＤＢ１１に格納された文書データの絞り込みを行う文書絞込部１５と、文書絞込部１５により絞り込まれた文書データと関連度テーブル格納部１４に格納された関連度テーブルとに基づき、後で説明するまとめ上げ候補テーブルを生成するまとめ上げ候補生成部１６と、まとめ上げ候補生成部１６により生成されたまとめ上げ候補テーブルと後で説明するまとめ上げ完了フラグテーブルとを格納するまとめ上げ候補格納部１７と、まとめ上げ候補格納部１７に格納されたデータに基づき、まとめ上げ候補や分析結果などを出力する出力部１８と、ユーザからのまとめ上げ指示の入力を受け付けるまとめ上げ指示入力部１９と、まとめ上げ指示入力部１９の受け付けたまとめ上げ指示に基づき、後で説明するまとめ上げ作業支援処理を実施するまとめ上げ作業支援処理部２０と、まとめ上げ候補格納部１７に格納されたデータに基づき、文書絞込部１５により絞り込まれた文書データを分析する分析処理部２１とを有する。

図２に、文書ＤＢ１１に格納されるデータの一例を示す。なお、図２は、特許文献に関するデータを格納する場合の例である。図２の例では、文書ＤＢ１１には、出願番号の列と、出願人の列と、発明の対象の列と、課題の列と、・・・とが含まれる。

図３に、関連度テーブル格納部１４に格納される関連度テーブルの一例を示す。なお、図３は、特徴語句として、コスト、低コスト、装置コスト、製造コスト、安全性、歩行安定性、低騒音、騒音防止、・・・が抽出された場合の例である。図３の例では、関連度テーブルには、コストの列と、低コストの列と、装置コストの列と、製造コストの列と、安全性の列と、歩行安定性の列と、低騒音の列と、騒音防止の列と、・・・、統一フラグの列とが含まれる。また、関連度テーブルは、コストの行と、低コストの行と、装置コストの行と、製造コストの行と、安全性の行と、歩行安定性の行と、低騒音の行と、騒音防止の行と、・・・とを含み、行に係る特徴語句と列に係る特徴語句との間の関連度を組み合わせ毎に格納するようになっている。なお、関連度の計算処理については後で詳細に説明する。また、統一フラグの列には、当該特徴語句を他の特徴語句で統一化するか否かを表すフラグ（１：統一化する、０：統一化しない）が格納される。

図４及び図５に、まとめ上げ候補格納部１７に格納されるテーブルの一例を示す。図４は、まとめ上げ候補テーブルの一例である。図４の例では、まとめ上げ候補テーブルには、まとめ上げ候補の列と、まとめ上げ候補件数の列と、特徴語句の列と、文献数の列と、ユーザチェックの列とが含まれる。文献数の列には、当該特徴語句を含む文献の件数が登録される。まとめ上げ候補の列には、当該特徴語句の統一先語句が登録される。例えば、図４の例では、コスト、低コスト、ランニングコスト及び製造コストは「コスト」への統一化が予定されていることを表す。まとめ上げ候補件数の列には、同一のまとめ上げ候補を有する特徴語句に係る文献数の総和が登録される。例えば、コスト、低コスト、ランニングコスト及び製造コストは、まとめ上げ候補に「コスト」が登録されており、これらの文献数の総和（１２０＋３８＋９＋４＝１７１件）がまとめ上げ候補件数の列に登録される。また、ユーザチェックの列には、当該特徴語句をまとめ上げるか否かを表す情報が登録される。図４において、ユーザチェックの列の「まとめる」は、当該特徴語句について、ユーザから、統一化する旨の指示があったことを表す。また、ユーザチェックの列の「まとめない」は、当該特徴語句について、ユーザから、統一化しない旨の指示があったことを表す。また、ユーザチェック列の「未チェック」は、ユーザから、統一化する旨の指示がなされていないことを表す。なお、まとめ上げ候補テーブルの生成処理については、後で詳細に説明する。

また、図５は、まとめ上げ完了フラグテーブルの一例である。図５の例では、まとめ上げ完了フラグテーブルには、まとめ上げ候補の列と、完了フラグの列とが格納される。完了フラグの列には、当該まとめ上げ候補について、ユーザからのまとめ上げ指示が完了済みであるか否かを表すフラグ（１：完了済み、０：未完了）が登録される。なお、完了フラグの設定については、後で詳細に説明する。

本実施の形態におけるまとめ上げ作業支援処理装置１の具体的な処理フローを説明する前に、本実施の形態の概要を簡単に説明しておく。例えば、本実施の形態では、まとめ上げ作業支援処理装置１が、図６の左側に示すようなチューニング画面６０１をユーザに提示する。図６の例では、チューニング画面６０１には、まとめ上げボタン６０２と、まとめ上げ候補毎の選択欄（選択欄６０３乃至選択欄６０６）とが設けられている。さらに、各選択欄には、統一先語句と、当該まとめ上げ候補に係る特徴語句とが表示されており、各特徴語句には、当該特徴語句を統一化するか否かの指定又は当該特徴語句をまとめ上げ候補から除外するか否かの指定を行うための指定欄が対応して設けられている。そして、ユーザは、このチューニング画面６０１において、キーボードやマウスを操作して、まとめ上げ候補毎にまとめ上げ作業を行う。すなわち、ユーザは、まとめ上げ作業として、特徴語句を統一化するか否かの指定又は当該特徴語句をまとめ上げ候補から除外するか否かの指定を行う。

例えば、チューニング画面６０１では、選択欄６０３において、「ランニングコスト」をまとめ上げ候補（コスト）から除外すべき指定がなされており、このような状態で、まとめ上げボタン６０２がクリックされると、図６の右側に示すようなチューニング画面６１１が表示される。図６の例では、チューニング画面６１１には、まとめ上げボタン６１２と、まとめ上げ候補毎の選択欄（選択欄６１３乃至選択欄６１７）とが設けられている。チューニング画面６０１と比較すると、チューニング画面６１１では、選択欄６０３から「ランニングコスト」を取り除いたものが選択欄６１３となっており、「ランニングコスト」に係る選択欄６１７が新たな設けられている。なお、本実施の形態では、異なるまとめ上げ候補に含まれる特徴語句（例えば、選択欄６０３における「製造コスト」と、選択欄６０６における「製造費」）を統一化するような指定はなされないものとする。

また、本実施の形態では、まとめ上げ作業支援処理装置１が、作業中のまとめ上げ候補が所定の条件を満たしたか判定し、所定の条件を満たしたと判定された場合には、その旨をユーザに通知する。ここで、所定の条件とは、全てのまとめ上げ候補を順位付けした場合において、作業中のまとめ上げ候補が、予めユーザにより設定された順位までに入ることが保証されるか否かという条件である。例えば、所定順位までに入ることが保証されれば、現在作業中のまとめ上げ候補については、その時点でまとめ上げ作業を止めても意図した分析を行うことが可能なためである。

次に、図７乃至図２５を用いて、本実施の形態におけるまとめ上げ作業支援処理装置１の具体的な処理フローを説明する。図７に、まとめ上げ作業支援処理装置１の全体の処理フローを示す。まず、ユーザは、まとめ上げ作業支援処理装置１に対して分析開始を指示し、まとめ上げ作業支援処理装置１は、ユーザからの分析開始指示を受け付ける。そして、まとめ上げ作業支援処理装置１の特徴語句抽出部１２は、文書ＤＢ１１から特徴語句を抽出し、一旦記憶装置に格納する（図７：ステップＳ１）。ここで、特徴語句には、書誌情報（例えば特許文献であれば、出願人や発明者など）や、情報抽出技術により抽出されたもの（例えば特許文献であれば、発明の課題や発明の対称として特徴を現す語句）を含む。なお、特徴語句を抽出する処理は、従来の処理と変わらないため、ここではこれ以上述べない。そして、まとめ上げ作業支援処理装置１の関連度計算部１３は、記憶装置に格納された特徴語句間の関連度を計算し、関連度テーブルを生成して関連度テーブル格納部１４に格納する（ステップＳ３）。本実施の形態では、特徴語句間の関連度を表す指標として、特徴語句を構成する文字の一致度を用いる。以下、図８及び図９を用いて、特徴語句間の関連度を計算する処理をより詳細に説明する。

まず、関連度計算部１３は、記憶装置に格納された特徴語句を関連度テーブルの列及び行にそれぞれ登録する。そして、例えば図８に示すように、処理対象となる２つの特徴語句の各々を１文字単位に分解し、一致する文字の数をカウントする。図８は、「制動装置」と「制御装置」の関連度を計算する場合の例であり、一致する文字は３つ（「制」、「装」及び「置」）である。そして、一致した文字数（図８の例では３）を分解後の文字数（図８の例では４）で除することにより、一致度を算出し、関連度として関連度テーブルに格納する。このような処理を各組み合わせについて実施する。なお、図９に示すように、特徴語句を１文字単位で分解する場合もあれば、２文字単位で分解するようにしてもよい。また、３文字以上の単位で分解してもよい。さらに、例えば１文字単位による分解と２文字単位による分解とを組み合わせることも可能である。なお、特徴語句間の関連度を表す指標は、文字の一致度に限られず、例えばシソーラスなどに基づく類似度を指標に用いる場合もある。

また、まとめ上げ作業支援処理装置１の文書絞込部１５が、ユーザから絞り込み条件の入力を受け付ける（ステップＳ５）。例えば、出願件数の多い出願人の傾向を分析したい場合には、出願件数が多い出願人に係る文書データに絞り込んだ上で分析を行った方が、より効果的である。そのため、本実施の形態では、ユーザが、分析の意図に合った絞り込み条件を入力するものとする。なお、国際特許分類（ＩＰＣ）や出願時期などを絞り込み条件としてもよい。そして、文書絞込部１５は、ユーザからの絞り込み条件に基づき文書データの絞り込みを行い、絞り込み後の文書データを記憶装置に格納する（ステップＳ７）。

そして、まとめ上げ作業支援処理装置１のまとめ上げ候補生成部１６が、記憶装置に格納された絞り込み後の文書データと関連度テーブル格納部１４に格納された関連度テーブルとに基づき、まとめ上げ候補生成処理を実施する（ステップＳ９）。

図１０乃至図１２を用いて、まとめ上げ候補生成処理を説明する。まず、まとめ上げ候補生成部１６は、記憶装置に格納された絞り込み後の文書データから特徴語句を抽出し、特徴語句と当該特徴語句を含む文献の件数とをまとめ上げ候補テーブルに登録する（図１０：ステップＳ２１）。すなわち、まとめ上げ候補テーブルにおける特徴語句の列と文献数の列とにそれぞれ登録される。そして、まとめ上げ候補生成部１６は、カウンタｃを１に設定する（ステップＳ２３）。また、まとめ上げ候補生成部１６は、カウンタｉを１に設定する（ステップＳ２５）。そして、まとめ上げ候補生成部１６は、まとめ上げ候補テーブルにおけるｉ番目の特徴語句（以下、特徴語句［ｉ］と呼ぶ）を特定する（ステップＳ２７）。また、まとめ上げ候補生成部１６は、カウンタｊを１に設定する（ステップＳ２９）。その後、端子Ａを介してステップＳ３１（図１１）の処理に移行する。

図１１の説明に移行して、端子Ａの後、まとめ上げ候補生成部１６は、カウンタｉとカウンタｊとが異なる値（ｉ≠ｊ）であるか判断する（図１１：ステップＳ３１）。カウンタｉとカウンタｊとが同じ値であると判断された場合（ステップＳ３１：Ｎｏルート）、ステップＳ４９の処理に移行する。

一方、カウンタｉとカウンタｊとが異なる値であると判断された場合（ステップＳ３１：Ｙｅｓルート）、まとめ上げ候補生成部１６は、まとめ上げ候補テーブルにおけるｊ番目の特徴語句（以下、特徴語句［ｊ］と呼ぶ）を特定する（ステップＳ３３）。そして、まとめ上げ候補生成部１６は、関連度テーブルを参照し、特徴語句［ｉ］及び特徴語句［ｊ］に係る統一フラグの各々が０に設定されているか判断する（ステップＳ３５）。特徴語句［ｉ］及び特徴語句［ｊ］に係る統一フラグのうちいずれかが１に設定されている場合（ステップＳ３５：Ｎｏルート）、ステップＳ４９の処理に移行する。

一方、特徴語句［ｉ］及び特徴語句［ｊ］に係る統一フラグの各々が０に設定されていると判断された場合（ステップＳ３５：Ｙｅｓルート）、まとめ上げ候補生成部１６は、関連度テーブルを参照し、特徴語句［ｉ］と特徴語句［ｊ］間の関連度が所定基準以上であるか判断する（ステップＳ３７）。特徴語句［ｉ］と特徴語句［ｊ］間の関連度が所定基準未満であると判断された場合（ステップＳ３７：Ｎｏルート）、ステップＳ４９の処理に移行する。

一方、特徴語句［ｉ］と特徴語句［ｊ］間の関連度が所定基準以上であると判断された場合（ステップＳ３７：Ｙｅｓルート）、まとめ上げ候補生成部１６は、まとめ上げ候補テーブルを参照し、特徴語句［ｉ］に係る文献数が特徴語句［ｊ］に係る文献数より大きいか判断する（ステップＳ３９）。特徴語句［ｉ］に係る文献数が特徴語句［ｊ］に係る文献数より大きいと判断された場合（ステップＳ３９：Ｙｅｓルート）、まとめ上げ候補生成部１６は、特徴語句［ｉ］を統一先語句として、まとめ上げ候補テーブルにおける特徴語句［ｉ］及び特徴語句［ｊ］に係るまとめ上げ候補の列に登録する（ステップＳ４１）。また、まとめ上げ候補生成部１６は、関連度テーブルにおける特徴語句［ｊ］に係る統一フラグの列に１を設定する（ステップＳ４３）。すなわち、特徴語句［ｊ］は、他の特徴語句への統一化が予定されていることを示すことになる。その後、ステップＳ４９の処理に移行する。

一方、特徴語句［ｉ］に係る文献数が特徴語句［ｊ］に係る文献数以下であると判断された場合（ステップＳ３９：Ｎｏルート）、まとめ上げ候補生成部１６は、特徴語句［ｊ］を統一先語句として、まとめ上げ候補テーブルにおける特徴語句［ｉ］及び特徴語句［ｊ］に係るまとめ上げ候補の列に登録する（ステップＳ４５）。また、まとめ上げ候補生成部１６は、関連度テーブルにおける特徴語句［ｉ］に係る統一フラグの列に１を設定する（ステップＳ４７）。すなわち、特徴語句［ｉ］は、他の特徴語句への統一化が予定されていることを示すことになる。その後、ステップＳ４９の処理に移行する。

ステップＳ４９の処理に移行して、まとめ上げ候補生成部１６は、カウンタｊがまとめ上げ候補テーブルに登録された特徴語句の総数未満であるか判断する（ステップＳ４９）。カウンタｊがまとめ上げ候補テーブルに登録された特徴語句の総数未満であると判断された場合（ステップＳ４９：Ｙｅｓルート）、まとめ上げ候補生成部１６は、カウンタｊをインクリメントし（ステップＳ５１）、ステップＳ３１の処理に戻り、上で述べた処理を繰り返す。

一方、カウンタｊがまとめ上げ候補テーブルに登録された特徴語句の総数以上であると判断された場合（ステップＳ４９：Ｎｏルート）、端子Ｂを介して、ステップＳ５３（図１２）の処理に移行する。

図１２の説明に移行して、端子Ｂの後、まとめ上げ候補生成部１６は、カウンタｉがまとめ上げ候補テーブルに登録された特徴語句の総数未満であるか判断する（図１２：ステップＳ５３）。カウンタｉがまとめ上げ候補テーブルに登録された特徴語句の総数未満であると判断された場合（ステップＳ５３：Ｙｅｓルート）、まとめ上げ候補生成部１６は、カウンタｉをインクリメントし、カウンタｊを１に設定する（ステップＳ５５）。その後、端子Ｃを介して、ステップＳ２７（図１０）の処理に戻り、上で述べた処理を繰り返す。

一方、カウンタｉがまとめ上げ候補テーブルに登録された特徴語句の総数以上であると判断された場合（ステップＳ５３：Ｎｏルート）、まとめ上げ候補生成部１６は、カウンタｃが所定回数未満であるか判断する（ステップＳ５７）。カウンタｃが所定回数未満であると判断された場合（ステップＳ５７：Ｙｅｓルート）、まとめ上げ候補生成部１６は、関連度テーブルの統一フラグをクリア（０に設定）する（ステップＳ５９）。また、まとめ上げ候補生成部１６は、各統一先語句について、当該統一先語句に統一化が予定されている特徴語句を含む文献の件数を計数し、記憶装置に格納する（ステップＳ６１）。その後、端子Ｄを介して、ステップＳ２５（図１０）の処理に戻り、上で述べた処理を繰り返す。

一方、カウンタｃが所定回数以上であると判断された場合（ステップＳ５７：Ｎｏルート）、まとめ上げ候補生成部１６は、各まとめ上げ候補について、当該まとめ上げ候補に含まれる特徴語句に係る文献数の総和を計数し、まとめ上げ候補テーブルにおけるまとめ上げ候補件数の列に登録する（ステップＳ６３）。そして、まとめ上げ候補生成処理を終了し、元の処理に戻る。なお、生成したまとめ上げ候補テーブルは、まとめ上げ候補格納部１７に格納する。

以上のような処理を実施することにより、図４に示したようなまとめ上げ候補テーブルを生成することができる。なお、カウンタｃを用いて、ステップＳ２５乃至ステップＳ６１の処理を所定回数繰り返し実行させることで、例えば「製造コスト」→「装置コスト」→「コスト」といった段階的なまとめ上げを実現することができる。

図７の説明に戻って、まとめ上げ候補生成部１６は、まとめ上げ候補毎且つまとめ上げ候補件数の多い順に、まとめ上げ候補テーブルに登録されたデータをソートする（図７：ステップＳ１１）。そして、まとめ上げ作業支援処理装置１の出力部１８が、まとめ上げ候補テーブルに基づき、チューニング画面データを生成し、表示装置等に表示する（ステップＳ１３）。例えば図１３に示すようなチューニング画面が表示される。なお、文書ＤＢ１１には、図１４に示すようなデータが格納されているものとする。図１３の例では、各まとめ上げ候補（コスト、低騒音及び安全性）についての選択欄が設けられており、太枠の選択欄（コストについての選択欄）は、まとめ上げ指示の入力が可能であることを示す。なお、本実施の形態では、ステップＳ１１において、まとめ上げ候補件数の一番多いまとめ上げ候補の選択欄を入力可能としたチューニング画面をユーザに提示するものとする。また、図１３では図示していないが、図６に示したようなまとめ上げボタンが設けられる。その後、まとめ上げ作業支援処理装置１のまとめ上げ指示入力部１９及びまとめ上げ作業支援処理部２０が、ユーザからのまとめ上げ指示に応じて、まとめ上げ作業支援処理を実施する（ステップＳ１５）。なお、まとめ上げ作業支援処理では、ユーザからのまとめ上げ指示に応じて、作業中のまとめ上げ候補が、所定順位までに入ることが保証されるか否かという条件を満たしたかを判定し、当該条件を満たした場合には、ユーザにその旨を通知する。なお、所定順位は、予めユーザから設定されているものとし、以下では所定順位をｎとして説明する。

図１５乃至図２１を用いて、まとめ上げ作業支援処理を説明する。なお、まとめ上げ作業支援処理の開始時には、完了フラグが全て０に設定されたまとめ上げ完了フラグテーブルがまとめ上げ候補格納部１７に格納されているものとする。例えば、ユーザは、チューニング画面（図１３）において、統一化すべき特徴語句の指定又はまとめ上げ候補から除外すべき特徴語句の指定を行い、まとめ上げボタン（図示せず）をクリックする。なお、統一化すべき特徴語句の指定又はまとめ上げ候補から除外すべき特徴語句の指定は、図６に示したように、各特徴語句に対応する指定欄において行う。そして、まとめ上げ指示入力部１９は、統一化すべき特徴語句の指定又はまとめ上げ候補から除外すべき特徴語句の指定を含むまとめ上げ指示の入力を受け付ける（図１５：ステップＳ７１）。そして、まとめ上げ作業支援処理部２０が、まとめ上げ指示に従って、まとめ上げ候補テーブルのユーザチェックの列を更新する（ステップＳ７３）。また、まとめ上げ作業支援処理部２０は、まとめ上げ指示に係るまとめ上げ候補を特定する。そして、まとめ上げ作業支援処理部２０は、まとめ上げ指示にて指定され且つ統一化の対象となる特徴語句を含む文献の件数を計数し、文書件数αとして記憶装置に格納する（ステップＳ７５）。また、まとめ上げ作業支援処理部２０は、（ｎ＋１）位のまとめ上げ候補内の特徴語句を含む文献の件数を計数し、文書件数βとして記憶装置に格納する（ステップＳ７７）。

そして、まとめ上げ作業支援処理部２０は、文書件数αが文書件数βより大きいか、又は、特定まとめ上げ候補内の全ての特徴語句が統一化の対象になっているか判断する（ステップＳ７９）。文書件数αが文書件数β以下であり、且つ特定まとめ上げ候補内の全ての特徴語句が統一化の対象になっていない場合（ステップＳ７９：Ｎｏルート）、ステップＳ７１の処理に戻る。そして、次のまとめ上げ指示の入力待ちとなる。

一方、文書件数αが文書件数βより大きい、又は、特定まとめ上げ候補内の全ての特徴語句が統一化の対象になっている場合（ステップＳ７９：Ｙｅｓルート）、まとめ上げ作業支援処理部２０は、まとめ上げ完了フラグテーブルの特定まとめ上げ候補に係る完了フラグを１に設定する（ステップＳ８１）。また、まとめ上げ作業支援処理部２０は、チューニング画面上に特定まとめ上げ候補のチューニングが完了した旨を表示する（ステップＳ８３）。例えば図１６に示すようなチューニング画面が表示装置に表示される。図１６は、図１３で示したチューニング画面において、統一化すべき特徴語句として「コスト（３件）」が指定された場合の例である（ｎ＝２であるものとする）。このとき、まとめ上げ候補テーブルには図１７に示すようなデータが格納される。図１６に示すような状態において、ステップＳ７５及びステップＳ７７が実行されると、文書件数αは３（すなわち、まとめ上げ候補（コスト）内の統一化の対象となる特徴語句（コスト）を含む文献（特願平05-000001、特願平10-000006及び特願2002-000009）の件数）、文書件数βは１（すなわち、第３位のまとめ上げ候補（安全性）内の特徴語句（安全性）を含む文献（特願平09-000005）の件数）となる。すなわち、α＞βであり、まとめ上げ候補（コスト）が、２位までに入ることが保証されたため、図１６に示すように、まとめ上げ候補（コスト）についてのチューニングの完了を表示する。その後、端子Ｅを介して、ステップＳ８５（図１８）の処理に移行する。

図１８の説明に移行して、端子Ｅの後、まとめ上げ作業支援処理部２０は、まとめ上げ指示に、除外すべき特徴語句の指定が含まれているか判断する（図１８：ステップＳ８５）。まとめ上げ指示に、除外すべき特徴語句の指定が含まれている場合（ステップＳ８５：Ｙｅｓルート）、まとめ上げ作業支援処理部２０は、該当する特徴語句から新たなまとめ上げ候補を生成し、まとめ上げ候補テーブルに登録する（ステップＳ８７）。その後、ステップＳ８９の処理に移行する。

一方、まとめ上げ指示に、除外すべき特徴語句の指定が含まれていなければ（ステップＳ８５：Ｎｏルート）、ステップＳ８７の処理をスキップし、ステップＳ８９の処理に移行する。

そして、まとめ上げ作業支援処理部２０は、まとめ上げ完了フラグテーブルにおいて完了フラグが１に設定された各まとめ上げ候補について、当該まとめ上げ候補内の統一化の対象となる特徴語句を含む文献の件数を計数し、記憶装置に格納する（ステップＳ８９）。また、まとめ上げ作業支援処理部２０は、まとめ上げ完了フラグテーブルにおいて完了フラグが０に設定された各まとめ上げ候補について、当該まとめ上げ候補内の特徴語句を含む文献の件数を計数し、記憶装置に格納する（ステップＳ９１）。

そして、まとめ上げ作業支援処理部２０は、ステップＳ８９及びステップＳ９１において計数した件数の多い順にまとめ上げ候補をソートし、ソート結果を記憶装置に格納する（ステップＳ９３）。そして、まとめ上げ作業支援処理部２０は、第１位から第ｎ位までのまとめ上げ候補に係る完了フラグが全て１に設定されているか判断する（ステップＳ９５）。第１位から第ｎ位までのまとめ上げ候補に係る完了フラグが全て１に設定されていなければ（ステップＳ９５：Ｎｏルート）、まとめ上げ作業支援処理部２０は、完了フラグが０に設定されたまとめ上げ候補のうち文献の件数の最も多いまとめ上げ候補の選択欄を入力可能に設定する（ステップＳ９７）。その後、端子Ｆを介して、ステップＳ７１（図１５）の処理に戻る。そして、次のまとめ上げ指示の入力待ちとなる。例えば図１６のような状態において、ステップＳ８９乃至ステップＳ９３の処理が実行されると、低騒音（５件、完了フラグ：０）、コスト（３件、完了フラグ：１）、安全性（１件、完了フラグ：０）の順にソートされる。ここで、低騒音（第１位）の完了フラグは０に設定されているため、ステップＳ９７において低騒音の選択欄が入力可能に設定され、次のまとめ上げ指示の入力待ちとなる。例えば、次のまとめ上げ指示にて、統一化すべき特徴語句として「低騒音（３件）」が指定され、ステップＳ７１乃至ステップＳ８３の処理が実行されると、図１９に示すようなチューニング画面が表示される。なお、このとき、まとめ上げ候補テーブルには図２０に示すようなデータが格納される。図１９では、まとめ上げ候補（低騒音）が、２位までに入ることが保証されたため、まとめ上げ候補（低騒音）についてのチューニングの完了が表示されている。

一方、第１位から第ｎ位までのまとめ上げ候補に係る完了フラグが全て１に設定されていると判断された場合（ステップＳ９５：Ｙｅｓルート）、まとめ上げ作業支援処理部２０は、チューニング画面上に全体のチューニングが完了した旨を表示する（ステップＳ９９）。例えば図１９に示したような状態において、ステップＳ８９乃至ステップＳ９３の処理が実行されると、コスト（３件、完了フラグ：１）、低騒音（３件、完了フラグ：１）、安全性（１件、完了フラグ：０）の順にソートされる。ここで、コスト及び低騒音の完了フラグが１に設定されているため、ステップＳ９９において、図２１に示すようなチューニング画面が表示される。そして、まとめ上げ作業支援処理を終了し、元の処理に戻る。

図７の説明に戻って、まとめ上げ作業支援処理装置１の分析処理部２１は、まとめ上げ候補テーブルに基づき、文書絞込部１５により絞り込まれた文書データを分析し、分析結果を表示する（図７：ステップＳ１７）。例えば図２２に示すような分析結果画面が表示される。図２２は、出願人毎に、課題の件数をグラフで表したものである。

以上のような処理を実施することにより、分析を行う際に必要となるまとめ上げ作業をユーザが行う場合に、ユーザは、まとめ上げ作業が完了したことを認識することができ、余計なまとめ上げ作業を行わずに済むようになる。

なお、例えば、図２３に示すように、まとめ上げ候補から複数の特徴語句（図２３では、低コスト及び製造コスト）を除外するような指定がなされた場合、図２４に示すようなチューニング画面が表示される。図２４は、ステップＳ８７において、該当する特徴語句毎に新たなまとめ上げ候補を生成した場合の例である。一方で、該当する特徴語句間の関連度に基づき、同一のまとめ上げ候補にするか否かを判定し、関連度が所定基準以上であれば同一のまとめ上げ候補として新たに生成するようにしてもよい。この場合、図２５に示すようなチューニング画面が表示される。

［実施の形態２］
次に、図２６乃至図３４を用いて本発明の第２の実施の形態を説明する。なお、第２の実施の形態におけるまとめ上げ作業支援処理装置１の機能ブロック図は、基本的には図１に示したものと同じである。上で述べた第１の実施の形態では、異なるまとめ上げ候補に含まれる特徴語句を統一化するような指定がなされないことを前提としていたが、ユーザが、異なるまとめ上げ候補に含まれる特徴語句を統一したいと考える場合もある。そこで、第２の実施の形態では、まとめ上げ作業支援処理装置１が、図２６の左側に示すようなチューニング画面２６０１をユーザに提示する。

図２６の例では、チューニング画面２６０１には、まとめ上げボタン２６０２と、まとめ上げ候補毎の選択欄（選択欄２６０３乃至選択欄２６０６）とが設けられている。さらに、各選択欄には、統一先語句と、当該まとめ上げ候補に係る特徴語句とが表示されており、統一化すべきまとめ上げ候補を選択するためのチェックボックス２６０７乃至チェックボックス２６１０が設けられている。また、各特徴語句には、当該特徴語句を統一化するか否かの指定又は当該特徴語句をまとめ上げ候補から除外するか否かの指定を行うための指定欄が対応して設けられている。そして、ユーザは、異なるまとめ上げ候補に含まれる特徴語句を統一したい場合には、マウスやキーボードなどを操作して、チェックボックス２６０７乃至チェックボックス２６１０にチェックを付す。

例えば、チューニング画面２６０１では、選択欄２６０３に係るチェックボックス２６０７と選択欄２６０６に係るチェックボックス２６１０とにチェックが付されている。このような状態で、まとめ上げボタン２６０２がクリックされると、図２６の右側に示すようなチューニング画面２６１１が表示される。図２６の例では、チューニング画面２６１１には、まとめ上げボタン２６１２と、まとめ上げ候補毎の選択欄（選択欄２６１３乃至選択欄２６１５）とが設けられている。チューニング画面２６０１と比較すると、チューニング画面２６１１では、選択欄２６０３と選択欄２６０６とが統合して選択欄２６１３となっている。このように、第２の実施の形態では、チェックボックスにチェックが付されたまとめ上げ候補が１つのまとめ上げ候補として統合されるものとする。

図２７乃至図３４を用いて、本実施の形態におけるまとめ上げ作業支援処理装置１の具体的な処理フローを説明する。なお、まとめ上げ作業支援処理装置１の全体の処理フローは、図７に示した処理フローと基本的には同じであるが、本実施の形態では、ステップＳ１５において、図２８及び図３１に示すようなまとめ上げ作業支援処理を実施する。以下、本実施の形態におけるまとめ上げ作業支援処理を説明する。なお、本実施の形態では、ステップＳ１３において、図２７に示すようなチューニング画面データが生成され、表示装置に表示されているものとする。図２７の例では、各まとめ上げ候補（コスト、低騒音及び安全性）についての選択欄が設けられており、選択欄にはチェックボックスが設けられている。なお、太枠の選択欄（コストについての選択欄）は、まとめ上げ指示の入力が可能であることを示す。また、図２７では図示していないが、図２６に示したようなまとめ上げボタンが設けられる。また、まとめ上げ作業支援処理の開始時には、完了フラグが全て０に設定されたまとめ上げ完了フラグテーブルがまとめ上げ候補格納部１７に格納されているものとする。また、文書ＤＢ１１には、図１４に示すようなデータが格納されているものとする。

例えば、ユーザは、チューニング画面（図２７）において、統一化すべき特徴語句の指定又はまとめ上げ候補から除外すべき特徴語句の指定を行い、２以上のまとめ上げ候補を統合する場合には、該当するまとめ上げ候補に係るチェックボックスにチェックを付す。そして、ユーザは、まとめ上げボタン（図示せず）をクリックする。まとめ上げ指示入力部１９は、ユーザからのまとめ上げ指示の入力を受け付ける（図２８：ステップＳ１０１）。なお、まとめ上げ指示には、統一化すべき特徴語句の指定、まとめ上げ候補から除外すべき特徴語句の指定又は統合すべきまとめ上げ候補の指定が含まれる。そして、まとめ上げ作業支援処理部２０が、まとめ上げ指示に従って、まとめ上げ候補テーブルのユーザチェックの列を更新する（ステップＳ１０３）。また、まとめ上げ作業支援処理部２０は、まとめ上げ指示に係るまとめ上げ候補を特定する。そして、まとめ上げ作業支援処理部２０は、まとめ上げ指示にて指定され且つ統一化の対象となる特徴語句を含む文献の件数を計数し、文書件数αとして記憶装置に格納する（ステップＳ１０５）。また、まとめ上げ作業支援処理部２０は、完了フラグが０に設定されたまとめ上げ候補内の特徴語句を含む文献の件数と、除外すべき特徴語句を含む文献の件数との総和βを計数する（ステップＳ１０７）。なお、まとめ上げ指示に、除外すべき特徴語句の指定が含まれていなければ、完了フラグが０に設定されたまとめ上げ候補内の特徴語句を含む文献の件数を総和βとする。

そして、まとめ上げ作業支援処理部２０は、文書件数αが総和βより大きいか、又は、特定まとめ上げ候補内の全ての特徴語句が統一化の対象になっているか判断する（ステップＳ１０９）。文書件数αが総和β以下であり、且つ特定まとめ上げ候補内の全ての特徴語句が統一化の対象になっていない場合（ステップＳ１０９：Ｎｏルート）、ステップＳ１０１の処理に戻る。そして、次のまとめ上げ指示の入力待ちとなる。

一方、文書件数αが総和βより大きい、又は、特定まとめ上げ候補内の全ての特徴語句が統一化の対象になっている場合（ステップＳ１０９：Ｙｅｓルート）、まとめ上げ作業支援処理部２０は、まとめ上げ完了フラグテーブルの特定まとめ上げ候補に係る完了フラグを１に設定する（ステップＳ１１１）。また、まとめ上げ作業支援処理部２０は、チューニング画面上に特定まとめ上げ候補のチューニングが完了した旨を表示する（ステップＳ１１３）。例えば図２９に示すようなチューニング画面が表示装置に表示される。図２９は、図２７で示したチューニング画面において、統一化すべき特徴語句として「コスト（３件）」及び「低コスト（３件）」が指定された場合の例である（ｎ＝２であるものとする）。このとき、まとめ上げ候補テーブルには図３０に示すようなデータが格納される。図２９に示すような状態において、ステップＳ１０５及びステップＳ１０７が実行されると、文書件数αは６（すなわち、まとめ上げ候補（コスト）内の統一化の対象となる特徴語句（コスト、低コスト）を含む文献（特願平05-000001、特願平06-000002、特願平10-000006、特願2001-000008、特願2002-000009及び特願2003-000010）の件数）、総和βは５（すなわち、完了フラグが０に設定されたまとめ上げ候補（低騒音、安全性）内の特徴語句（低騒音、騒音防止、安全性）を含む文献（特願平07-000003、特願平09-000005、特願平10-000006、特願2000-000007及び特願2003-000010）の件数）となる。すなわち、α＞βであり、まとめ上げ候補（コスト）が、２位までに入ることが保証されたため、図２９に示すように、まとめ上げ候補（コスト）についてのチューニングの完了を表示する。その後、端子Ｇを介して、ステップＳ１１５（図３１）の処理に移行する。

図３１の説明に移行して、端子Ｇの後、まとめ上げ作業支援処理部２０は、まとめ上げ指示に、除外すべき特徴語句の指定が含まれているか判断する（図３１：ステップＳ１１５）。まとめ上げ指示に、除外すべき特徴語句の指定が含まれている場合（ステップＳ１１５：Ｙｅｓルート）、まとめ上げ作業支援処理部２０は、該当する特徴語句から新たなまとめ上げ候補を生成し、まとめ上げ候補テーブルに登録する（ステップＳ１１７）。その後、ステップＳ１１９の処理に移行する。

一方、まとめ上げ指示に、除外すべき特徴語句の指定が含まれていなければ（ステップＳ１１５：Ｎｏルート）、ステップＳ１１７の処理をスキップし、ステップＳ１１９の処理に移行する。

そして、まとめ上げ作業支援処理部２０は、まとめ上げ完了フラグテーブルにおいて完了フラグが１に設定された各まとめ上げ候補について、当該まとめ上げ候補内の統一化の対象となる特徴語句を含む文献の件数を計数し、記憶装置に格納する（ステップＳ１１９）。また、まとめ上げ作業支援処理部２０は、まとめ上げ完了フラグテーブルにおいて完了フラグが０に設定された各まとめ上げ候補について、当該まとめ上げ候補内の特徴語句を含む文献の件数を計数し、文献の件数の総和γを算出して記憶装置に格納する（ステップＳ１２１）。

そして、まとめ上げ作業支援処理部２０は、ステップＳ１１９において計数した件数の多い順に、完了フラグが１に設定されたまとめ上げ候補をソートし、ソート結果を記憶装置に格納する（ステップＳ１２３）。そして、完了フラグが１に設定されたまとめ上げ候補の数がｎ未満であるか判断する（ステップＳ１２５）。完了フラグが１に設定されたまとめ上げ候補の数がｎ未満であると判断された場合（ステップＳ１２５：Ｙｅｓルート）、まとめ上げ作業支援処理部２０は、完了フラグが０に設定されたまとめ上げ候補のうち文献の件数の最も多いまとめ上げ候補の選択欄を入力可能に設定する（ステップＳ１２７）。その後、端子Ｈを介して、ステップＳ１０１（図２８）の処理に戻る。そして、次のまとめ上げ指示の入力待ちとなる。例えば図２９のような状態では、完了フラグが１に設定されたまとめ上げ候補は１つであるため、ステップＳ１２７において低騒音の選択欄が入力可能に設定され、次のまとめ上げ指示の入力待ちとなる。例えば、次のまとめ上げ指示にて、統一化すべき特徴語句として「低騒音（３件）」が指定され、ステップＳ１０１乃至ステップＳ１１３の処理が実行されると、図３２に示すようなチューニング画面が表示される。なお、このとき、まとめ上げ候補テーブルには図３３に示すようなデータが格納される。図３２では、まとめ上げ候補（低騒音）が、２位までに入ることが保証されたため、まとめ上げ候補（低騒音）についてのチューニングの完了が表示されている。

一方、完了フラグが１に設定されたまとめ上げ候補の数がｎ以上であると判断された場合（ステップＳ１２５：Ｎｏルート）、まとめ上げ作業支援処理部２０は、記憶装置に格納されたソート結果に基づき、第ｎ位のまとめ上げ候補の文献の件数がγより大きいか判断する（ステップＳ１２９）。第ｎ位のまとめ上げ候補の文献の件数がγ以下の場合（ステップＳ１２９：Ｎｏルート）、上で述べたステップＳ１２７の処理に移行する。

一方、第ｎ位のまとめ上げ候補の文献の件数がγより大きいと判断された場合（ステップＳ１２９：Ｙｅｓルート）、まとめ上げ作業支援処理部２０は、チューニング画面上に全体のチューニングが完了した旨を表示する（ステップＳ１３１）。例えば図３２に示したような状態において、ステップＳ１１９乃至ステップＳ１２３の処理が実行されると、コスト（６件、完了フラグ：１）、低騒音（３件、完了フラグ：１）の順にソートされ、γは１（すなわち、まとめ上げ候補（安全性）内の特徴語句（安全性）を含む文献（特願平09-000005）の件数）となる。ここで、第２位のまとめ上げ候補（低騒音）内の統一化の対象となる特徴語句を含む文献の件数はγ以上であるため、ステップＳ１３１において、図３４に示すようなチューニング画面が表示される。そして、まとめ上げ作業支援処理を終了し、元の処理に戻る。

以上のような処理を実施することにより、異なるまとめ上げ候補に含まれる特徴語句を統一化するような指定を行う場合においても、ユーザは、まとめ上げ作業が完了したことを認識することができ、余計なまとめ上げ作業を行わずに済むようになる。

以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した機能ブロック図は必ずしも実際のプログラムモジュール構成に対応するものではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。

また、上で説明した各テーブルの構成は一例であって、必ずしも上記のような構成でなければならないわけではない。さらに、上で述べた画面例は一例であって、同様の内容を表示する他の画面構成を採用することも可能である。

以上述べた本発明の実施の形態は、以下のような態様にまとめることができる。

本発明に係るまとめ上げ作業支援処理方法は、複数の文書から特徴語句を複数抽出し、特徴語句間の類似度に基づき、複数の集合に分類する分類ステップと、複数の集合のうち少なくともいずれかを、集合に含まれる特徴語句を認識可能な態様にてユーザに提示する集合提示ステップと、ユーザから、特定の集合に含まれる特徴語句のうち統一化の対象となる特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる統一化の対象となる特徴語句を含む文書の文書数を計数し、第１文書数として記憶装置に格納する第１文書数計数ステップと、特定の集合以外の、まとめ上げ態様又は状態の少なくともいずれかで特定される集合に含まれる特徴語句を含む文書の文書数を計数し、第２文書数として記憶装置に格納する第２文書数計数ステップと、記憶装置に格納された第１文書数と第２文書数とに基づき、所定の条件を満たしたか判定する判定ステップと、判定ステップにおいて所定の条件を満たしたと判定された場合、統一化の対象となる特徴語句の指定が完了したことをユーザに提示するステップとを含む。

このようにすれば、所定の条件を満たすような状態までまとめ上げ作業が行われると、その時点で、まとめ上げ作業の完了通知がユーザになされるため、ユーザは、まとめ上げ作業が完了したことを認識できるようになる。例えば分析の目的に合った条件を設定しておくことで、分析結果にあまり影響しないようなまとめ上げ作業を省略でき、まとめ上げ作業を効率的に行うことが可能になる。

また、上で述べた第２文書数計数ステップが、特定の集合以外の集合毎に第２文書数を計数するステップを含むようにしてもよい。そして、上で述べた判定ステップが、第１文書数と各第２文書数とによって複数の集合を順位付けした場合の特定の集合の順位が所定順位内であるか判定するステップと、特定の集合の順位が所定順位内であると判定された場合に、所定の条件を満たしたと判断するステップとを含むようにしてもよい。例えば、集合毎（すなわち、まとめ上げ候補毎）に当該集合内に含まれる特徴語句のまとめ上げを行う場合であれば、このような判定を行うことで、所定順位内に入るか否かを判断することが可能である。

さらに、上で述べた判定ステップが、第１文書数が第２文書数より大きいか判定するステップと、第１文書数が第２文書数より大きいと判定された場合に、所定の条件を満たしたと判断するステップとを含むようにしてもよい。また、上で述べた第２文書数計数ステップが、特定の集合以外の集合のうち、特徴語句の指定が完了した集合がある場合には、特徴語句の指定が完了していない集合に含まれる特徴語句を含む文書の文書数を第２文書数として計数するステップを含むようにしてもよい。例えば、ある集合に含まれる特徴語句と他の集合に含まれる特徴語句とのまとめ上げを行う場合であっても、このような判定を行うことで、所定順位内に入るか否かを判断することが可能である。

さらに、上で述べた第１文書数計数ステップが、まとめ上げ指示に、特定の集合から除外すべき特徴語句の指定が含まれる場合、当該除外すべき特徴語句を特定の集合から除外し、新たな集合とするステップを含むようにしてもよい。このようにすれば、ある特徴語句を集合から除外させたい場合にも対応できるようになる。

また、上で述べた分類ステップが、ユーザから文書絞り込み条件の入力を受け付け、当該文書絞り込み条件に従って文書の絞り込みを行い、絞り込み後の文書から特徴語句を抽出するステップを含むようにしてもよい。このように文書の絞り込みを行うことで、より効果的な分析を行うことができるようになる。

さらに、上で述べた集合提示ステップが、集合毎に当該集合に含まれる特徴語句を含む文書の文書数を計数し、文書数の多い集合を優先提示するステップを含むようにしてもよい。例えば、文書数の多い集合は、グラフやマップなどの分析結果に大きく影響するため、このように優先提示することで、より効果の高いまとめ上げ作業を行うことが可能となる。

また、上で述べたまとめ上げ態様が、集合毎に当該集合内に含まれる特徴語句のまとめ上げを行う場合において、次のまとめ上げ指示を受けても、上位所定順位までの各集合が、所定順位より下位の集合と入れ替わらないことを保証するような態様、又は、集合に含まれる特徴語句と他の集合に含まれる特徴語句とのまとめ上げを行う場合において、次のまとめ上げ指示を受けても、上位所定順位までの各集合が、所定順位より下位の集合と入れ替わらないことを保証するような態様である場合もある。

なお、まとめ上げ作業支援処理装置１は、図３５のようなコンピュータ装置であって、メモリ２５０１（記憶装置）とＣＰＵ２５０３（処理装置）とハードディスク・ドライブ（ＨＤＤ）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施の形態における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。必要に応じてＣＰＵ２５０３は、表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ２５０１に格納され、必要があればＨＤＤ２５０５に格納される。本発明の実施の形態では、上で述べた処理を実施するためのアプリケーション・プログラムはリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

（付記１）
複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき、複数の集合に分類する分類ステップと、
前記複数の集合のうち少なくともいずれかを、前記集合に含まれる前記特徴語句を認識可能な態様にてユーザに提示する集合提示ステップと、
前記ユーザから、特定の集合に含まれる前記特徴語句のうち統一化の対象となる特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる前記統一化の対象となる特徴語句を含む前記文書の文書数を計数し、第１文書数として記憶装置に格納する第１文書数計数ステップと、
前記特定の集合以外の、まとめ上げ態様又は状態の少なくともいずれかで特定される集合に含まれる前記特徴語句を含む前記文書の文書数を計数し、第２文書数として前記記憶装置に格納する第２文書数計数ステップと、
前記記憶装置に格納された前記第１文書数と前記第２文書数とに基づき、所定の条件を満たしたか判定する判定ステップと、
前記判定ステップにおいて前記所定の条件を満たしたと判定された場合、前記統一化の対象となる特徴語句の指定が完了したことを前記ユーザに提示するステップと、
を含み、コンピュータにより実行されるまとめ上げ作業支援処理方法。

（付記２）
前記第２文書数計数ステップが、
前記特定の集合以外の集合毎に前記第２文書数を計数するステップ
を含み、
前記判定ステップが、
前記第１文書数と各前記第２文書数とによって前記複数の集合を順位付けした場合の前記特定の集合の順位が所定順位内であるか判定するステップと、
前記特定の集合の順位が所定順位内であると判定された場合に、前記所定の条件を満たしたと判断するステップと、
を含む付記１記載のまとめ上げ作業支援処理方法。

（付記３）
前記判定ステップが、
前記第１文書数が前記第２文書数より大きいか判定するステップと、
前記第１文書数が前記第２文書数より大きいと判定された場合に、前記所定の条件を満たしたと判断するステップと、
を含む付記１記載のまとめ上げ作業支援処理方法。

（付記４）
前記第２文書数計数ステップが、
前記特定の集合以外の集合のうち、前記特徴語句の指定が完了した前記集合がある場合には、前記特徴語句の指定が完了していない前記集合に含まれる前記特徴語句を含む前記文書の文書数を前記第２文書数として計数するステップ
を含む付記３記載のまとめ上げ作業支援処理方法。

（付記５）
前記第１文書数計数ステップが、
前記まとめ上げ指示に、前記特定の集合から除外すべき特徴語句の指定が含まれる場合、当該除外すべき特徴語句を前記特定の集合から除外し、新たな集合とするステップ
を含む付記１乃至４のいずれか１つ記載のまとめ上げ作業支援処理方法。

（付記６）
前記分類ステップが、
前記ユーザから文書絞り込み条件の入力を受け付け、当該文書絞り込み条件に従って前記文書の絞り込みを行い、絞り込み後の前記文書から前記特徴語句を抽出するステップ
を含む付記１記載のまとめ上げ作業支援処理方法。

（付記７）
前記集合提示ステップが、
前記集合毎に当該集合に含まれる前記特徴語句を含む前記文書の文書数を計数し、文書数の多い前記集合を優先提示するステップ
を含む付記１記載のまとめ上げ作業支援処理方法。

（付記８）
前記まとめ上げ態様が、前記集合毎に当該集合内に含まれる前記特徴語句のまとめ上げを行う場合において、次の前記まとめ上げ指示を受けても、上位所定順位までの各集合が、所定順位より下位の集合と入れ替わらないことを保証するような態様、又は、前記集合に含まれる前記特徴語句と他の集合に含まれる前記特徴語句とのまとめ上げを行う場合において、次の前記まとめ上げ指示を受けても、上位所定順位までの各集合が、所定順位より下位の集合と入れ替わらないことを保証するような態様である
ことを特徴とする付記１記載のまとめ上げ作業支援処理方法。

（付記９）
複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき、複数の集合に分類する分類手段と、
前記複数の集合のうち少なくともいずれかを、前記集合に含まれる前記特徴語句を認識可能な態様にてユーザに提示する集合提示手段と、
前記ユーザから、特定の集合に含まれる前記特徴語句のうち統一化の対象となる特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる前記統一化の対象となる特徴語句を含む前記文書の文書数を計数し、第１文書数として記憶装置に格納する第１文書数計数手段と、
前記特定の集合以外の集合に含まれる前記特徴語句を含む前記文書の文書数を計数し、第２文書数として前記記憶装置に格納する第２文書数計数手段と、
前記記憶装置に格納された前記第１文書数と前記第２文書数とに基づき、所定の条件を満たしたか判定する判定手段と、
前記判定手段において前記所定の条件を満たしたと判定された場合、前記統一化の対象となる特徴語句の指定が完了したことを前記ユーザに提示する手段と、
を有するまとめ上げ作業支援処理装置。

（付記１０）
複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき、複数の集合に分類する分類ステップと、
前記複数の集合のうち少なくともいずれかを、前記集合に含まれる前記特徴語句を認識可能な態様にてユーザに提示する集合提示ステップと、
前記ユーザから、特定の集合に含まれる前記特徴語句のうち統一化の対象となる特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる前記統一化の対象となる特徴語句を含む前記文書の文書数を計数し、第１文書数として記憶装置に格納する第１文書数計数ステップと、
前記特定の集合以外の、まとめ上げ態様又は状態の少なくともいずれかで特定される集合に含まれる前記特徴語句を含む前記文書の文書数を計数し、第２文書数として前記記憶装置に格納する第２文書数計数ステップと、
前記記憶装置に格納された前記第１文書数と前記第２文書数とに基づき、所定の条件を満たしたか判定する判定ステップと、
前記判定ステップにおいて前記所定の条件を満たしたと判定された場合、前記統一化の対象となる特徴語句の指定が完了したことを前記ユーザに提示するステップと、
をコンピュータに実行させるためのまとめ上げ作業支援処理プログラム。

まとめ上げ作業支援処理装置の機能ブロック図である。文書ＤＢに格納されるデータの一例を示す図である。関連度テーブルの一例を示す図である。まとめ上げ候補テーブルの一例を示す図である。まとめ上げ完了フラグテーブルの一例を示す図である。第１の実施の形態におけるチューニング画面の一例を示す図である。まとめ上げ作業支援処理装置の全体の処理フローを示す図である。関連度計算処理を説明するための図である。関連度計算処理を説明するための図である。まとめ上げ候補生成処理の処理フロー（第１の部分）を示す図である。まとめ上げ候補生成処理の処理フロー（第２の部分）を示す図である。まとめ上げ候補生成処理の処理フロー（第３の部分）を示す図である。第１の実施の形態におけるチューニング画面の一例を示す図である。文書ＤＢに格納されるデータの一例を示す図である。第１の実施の形態におけるまとめ上げ作業支援処理の処理フロー（第１の部分）を示す図である。第１の実施の形態におけるチューニング画面の一例を示す図である。まとめ上げ候補テーブルの一例を示す図である。第１の実施の形態におけるまとめ上げ作業支援処理の処理フロー（第２の部分）を示す図である。第１の実施の形態におけるチューニング画面の一例を示す図である。まとめ上げ候補テーブルの一例を示す図である。第１の実施の形態におけるチューニング画面の一例を示す図である。分析結果画面の一例を示す図である。第１の実施の形態におけるチューニング画面の一例を示す図である。第１の実施の形態におけるチューニング画面の一例を示す図である。第１の実施の形態におけるチューニング画面の一例を示す図である。第２の実施の形態におけるチューニング画面の一例を示す図である。第２の実施の形態におけるチューニング画面の一例を示す図である。第２の実施の形態におけるまとめ上げ作業支援処理の処理フロー（第１の部分）を示す図である。第２の実施の形態におけるチューニング画面の一例を示す図である。まとめ上げ候補テーブルの一例を示す図である。第２の実施の形態におけるまとめ上げ作業支援処理の処理フロー（第２の部分）を示す図である。第２の実施の形態におけるチューニング画面の一例を示す図である。まとめ上げ候補テーブルの一例を示す図である。第２の実施の形態におけるチューニング画面の一例を示す図である。コンピュータの機能ブロック図である。

符号の説明

１まとめ上げ作業支援処理装置
１１文書ＤＢ１２特徴語句抽出部
１３関連度計算部１４関連度テーブル格納部
１５文書絞込部１６まとめ上げ候補生成部
１７まとめ上げ候補格納部１８出力部
１９まとめ上げ指示入力部２０まとめ上げ作業支援処理部
２１分析処理部

Claims

複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき、複数の集合に分類する分類ステップと、
前記複数の集合の中のいずれかである第１の集合を、前記第１の集合に含まれる特徴語句を認識可能な態様にてユーザに提示する集合提示ステップと、
前記ユーザから、前記第１の集合に含まれる前記特徴語句のうち、統一化の対象となる第１の特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる前記統一化の対象となる前記第１の特徴語句を含み且つ前記第１の集合に含まれる文書の文書数の総和を計数し、第１文書数として記憶装置に格納する第１文書数計数ステップと、
前記複数の集合における、前記第１の集合とは異なる第２の集合について、前記第２の集合に含まれる第２の特徴語句を含む前記文書の文書数の総和を計数し、第２文書数として前記記憶装置に格納する第２文書数計数ステップと、
前記記憶装置に格納された前記第１文書数と前記第２文書数とに基づき、所定の条件を満たしたかを判定する判定ステップと、
前記判定ステップにおいて前記所定の条件を満たしたと判定された場合、前記第１の集合に含まれる統一化の対象となる前記第１の特徴語句の指定が完了したことを前記ユーザに提示するステップと、
を含み、コンピュータにより実行されるまとめ上げ作業支援処理方法。
前記まとめ上げ指示は、前記第１の集合に含まれる複数の特徴語句のうち、２以上の異なる特徴語句である第１の特徴語句の指定を含む
ことを特徴とする請求項１記載のまとめ上げ作業支援処理方法。
前記第２の集合の数が複数であり、
前記第２文書数計数ステップが、
前記第２の集合毎に前記第２文書数を計数するステップ
を含み、
前記判定ステップが、
前記第１文書数と各前記第２文書数とによって前記第１の集合と前記第２の集合とを含む複数の集合を順位付けした場合の前記第１の集合の順位が所定順位内であるか判定するステップと、
前記第１の集合の順位が所定順位内であると判定された場合に、前記所定の条件を満たしたと判断するステップと、
を含む請求項１又は２記載のまとめ上げ作業支援処理方法。
前記判定ステップが、
前記第１文書数が前記第２文書数より大きいか判定するステップと、
前記第１文書数が前記第２文書数より大きいと判定された場合に、前記所定の条件を満たしたと判断するステップと、
を含む請求項１又は２記載のまとめ上げ作業支援処理方法。
前記第２文書数計数ステップが、
前記第２の集合に、統一化の対象となる特徴語句の指定が完了した集合が含まれる場合には、指定が完了した集合とは異なる、前記特徴語句の指定が完了していない第２の集合に含まれる前記特徴語句を含む前記文書の文書数の総和を前記第２文書数として計数するステップ
を含む請求項４記載のまとめ上げ作業支援処理方法。
前記分類ステップが、
前記ユーザから文書絞り込み条件の入力を受け付け、当該文書絞り込み条件に従って前記文書の絞り込みを行い、絞り込み後の前記文書から前記特徴語句を抽出するステップ
を含む請求項１記載のまとめ上げ作業支援処理方法。
複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき、複数の集合に分類する分類手段と、
前記複数の集合の中のいずれかである第１の集合を、前記第１の集合に含まれる特徴語句を認識可能な態様にてユーザに提示する集合提示手段と、
前記ユーザから、前記第１の集合に含まれる前記特徴語句のうち、統一化の対象となる第１の特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる前記統一化の対象となる前記第１の特徴語句を含み且つ前記第１の集合に含まれる文書の文書数の総和を計数し、第１文書数として記憶装置に格納する第１文書数計数手段と、
前記複数の集合における、前記第１の集合とは異なる第２の集合について、前記第２の集合に含まれる第２の特徴語句を含む前記文書の文書数の総和を計数し、第２文書数として前記記憶装置に格納する第２文書数計数手段と、
前記記憶装置に格納された前記第１文書数と前記第２文書数とに基づき、所定の条件を満たしたかを判定する判定手段と、
前記判定手段において前記所定の条件を満たしたと判定された場合、前記第１の集合に含まれる統一化の対象となる前記第１の特徴語句の指定が完了したことを前記ユーザに提示するステップと、
を有するまとめ上げ作業支援処理装置。
コンピュータに、
複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき、複数の集合に分類する分類ステップと、
前記複数の集合の中のいずれかである第１の集合を、前記第１の集合に含まれる特徴語句を認識可能な態様にてユーザに提示する集合提示ステップと、
前記ユーザから、前記第１の集合に含まれる前記特徴語句のうち、統一化の対象となる第１の特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる前記統一化の対象となる前記第１の特徴語句を含み且つ前記第１の集合に含まれる文書の文書数の総和を計数し、第１文書数として記憶装置に格納する第１文書数計数ステップと、
前記複数の集合における、前記第１の集合とは異なる第２の集合について、前記第２の集合に含まれる第２の特徴語句を含む前記文書の文書数の総和を計数し、第２文書数として前記記憶装置に格納する第２文書数計数ステップと、
前記記憶装置に格納された前記第１文書数と前記第２文書数とに基づき、所定の条件を満たしたかを判定する判定ステップと、
前記判定ステップにおいて前記所定の条件を満たしたと判定された場合、前記第１の集合に含まれる統一化の対象となる前記第１の特徴語句の指定が完了したことを前記ユーザに提示するステップと、
を実行させることを特徴とする作業支援プログラム。