[実施の形態1]
図1に本技術の実施の形態に係るまとめ上げ作業支援装置の機能ブロック図を示す。まとめ上げ作業支援装置は、文書データベース(DB)11と、特徴語句抽出部12と、関連度計算部13と、関連度テーブル格納部14と、文書絞込部15と、管理テーブル生成部16と、管理テーブル格納部17と、分析処理部18と、入力部19と、作業支援処理部20と、出力部21とを有する。
特徴語句抽出部12は、文書DB11に格納されている文書データから特徴語句を抽出し、関連度計算部13に出力する。関連度計算部13は、特徴語句抽出部12によって抽出された特徴語句を用いて処理を実施し、処理結果を関連度テーブル格納部14に格納する。文書絞込部15は、ユーザから入力される絞り込み条件を用いて、文書DB11に格納されている文書データを絞り込むための処理を実施し、処理結果を管理テーブル生成部16及び分析処理部18に出力する。管理テーブル生成部16は、関連度テーブル格納部14に格納されているデータと文書絞込部15の処理結果とを用いて処理を実施し、処理結果を管理テーブル格納部17に格納する。分析処理部18は、管理テーブル格納部17に格納されているデータと文書絞込部15の処理結果とを用いて処理を実施し、処理結果である分析結果データを出力するよう出力部21に指示する。入力部19は、ユーザからの指示を受け付け、作業支援処理部20に出力する。作業支援処理部20は、ユーザからの指示と管理テーブル格納部17に格納されているデータとを用いて処理を実施し、処理結果を管理テーブル格納部17に反映させる。また、作業支援処理部20は、まとめ上げ作業が完了したかどうか判断し、完了したと判断した場合には、作業完了を示すデータを出力するよう出力部21に指示する。なお、作業支援処理部20は、更新処理部201と、差分計算部202と、計数処理部203と、判定部204とを含む。出力部21は、分析処理部18の処理結果である分析結果データを出力したり、管理テーブル格納部17に格納されているデータからチューニング画面(詳細は後述)を生成して出力したりする。また、出力部21は、作業支援処理部20からの指示に応じて、作業完了を示すデータを出力したりする。
文書DB11には、例えば図2に示すようなデータが格納される。なお、図2は、特許文献に関するデータを格納する場合の例を示している。図2の例では、文書DB11には、出願番号の列と、出願人の列と、発明の対象の列と、課題の列と、・・・とが含まれる。
また、関連度テーブル格納部14には、例えば図3に示すような関連度テーブルが格納される。なお、図3は、特徴語句として、コスト、低コスト、装置コスト、製造コスト、安定性、歩行安定性、低騒音、騒音防止、・・・が抽出された場合の関連度テーブルの一例を示している。図3の例では、関連度テーブルには、コストの列と、低コストの列と、装置コストの列と、製造コストの列と、安定性の列と、歩行安定性の列と、低騒音の列と、騒音防止の列と、・・・と、統一フラグの列とが含まれる。また、関連度テーブルには、コストの行と、低コストの行と、装置コストの行と、製造コストの行と、安定性の行と、歩行安定性の行と、低騒音の行と、騒音防止の行と、・・・とが含まれる。すなわち、関連度テーブルには、特徴語句の組み合わせ毎に、特徴語句間の関連度が格納されるようになっている。図3において、例えばコストと低コストとの間の関連度は、0.83となっている。また、統一フラグの列には、当該特徴語句を他の特徴語句で統一するか否かを表すフラグ(1:統一する、0:統一しない)が格納される。
また、管理テーブル格納部17には、例えば図4に示すような管理テーブルが格納される。図4の例では、管理テーブルには、まとめ上げ候補の列と、最大件数の列と、確定件数の列と、未チェック件数の列と、特徴語句の列と、文献数の列と、ユーザチェックの列とが含まれる。なお、本実施の形態では、特徴語句を含む集合を「まとめ上げ候補」と呼ぶことにする。文献数の列には、その特徴語句を含む文献の件数が設定される。ユーザチェックの列には、「まとめる」、「まとめない」及び「未チェック」のいずれかが設定される。なお、「まとめる」は、その特徴語句について、ユーザからまとめる旨の指示がされたことを示す。また、「まとめない」は、その特徴語句について、ユーザからまとめない旨の指示がされたことを示す。さらに、「未チェック」は、その特徴語句について、ユーザからまとめるか否かが未だ指示されていないことを示す。また、最大件数の列には、まとめ上げ候補に含まれる特徴語句についての文献数の総和が設定される。図4において、例えばまとめ上げ候補[コスト]には、4つの特徴語句(コスト、低コスト、ランニングコスト、製造コスト)が含まれるようになっており、これらの特徴語句についての文献数の合計は171(=120+38+9+4)件となる。従って、図4では、171件が、まとめ上げ候補[コスト]についての最大件数として設定されている。また、確定件数の列には、まとめ上げ候補に含まれる特徴語句のうち、ユーザチェックの列に「まとめる」が設定されている特徴語句についての文献数の合計が設定される。図4において、例えばまとめ上げ候補[コスト]に含まれる特徴語句のうち、ユーザチェックの列に「まとめる」が設定されている特徴語句は「コスト」及び「低コスト」であり、これらの特徴語句についての文献数の合計は158(=120+38)件となる。従って、図4では、158件が、まとめ上げ候補[コスト]についての確定件数として設定されている。また、未チェックの列には、まとめ上げ候補に含まれる特徴語句のうち、ユーザチェックの列に「未チェック」が設定されている特徴語句についての文献数の合計が設定される。図4において、例えばまとめ上げ候補[コスト]に含まれる特徴語句のうち、ユーザチェックの列に「未チェック」が設定されている特徴語句は「ランニングコスト」及び「製造コスト」であり、これらの特徴語句についての文献数の合計は13(=9+4)件となる。従って、図4では、13件が、まとめ上げ候補[コスト]についての未チェック件数として設定されている。
例えば図5に本実施の形態におけるチューニング画面の一例を示す。図5の左側に示すチューニング画面501には、「まとめ上げ」ボタン502と、まとめ上げ候補[コスト]についての選択欄503と、まとめ上げ候補[安定性]についての選択欄504と、まとめ上げ候補[低騒音]についての選択欄505と、まとめ上げ候補[製造費]についての選択欄506とが設けられている。選択欄503乃至506の各々には、まとめ上げ候補に含まれる特徴語句が表示されており、各特徴語句についてまとめるか否かを指定するための指定欄が設けられている。図5において、例えばまとめ上げ候補[コスト]についての選択欄503には、特徴語句「コスト」、「低コスト化」、「ランニングコスト」及び「製造コスト」が表示されている。なお、図5では図示していないが、選択欄503乃至506において、特徴語句を含む文献の件数などを表示するような場合もある。図5において、指定欄が黒塗りになっている特徴語句は、ユーザからまとめる旨の指定がされていることを示している。また、指定欄に「×」マークが付されている特徴語句は、ユーザからまとめない旨の指定がされていることを示している。なお、指定欄が空欄になっている特徴語句は、まとめるか否かが未だ指定されていないことを示している。
また、本実施の形態では、まとめない旨の指定がされた場合には、その特徴語句をまとめ上げ候補から外し、その特徴語句を含む新たなまとめ上げ候補を生成する。例えば、チューニング画面501の選択欄503において、特徴語句「ランニングコスト」についてまとめない旨の指定がされた場合には、特徴語句「ランニングコスト」を含む新たなまとめ上げ候補が生成される。この場合、図5の右側に示すようなチューニング画面511が表示装置等に表示される。図5の例では、チューニング画面511には、「まとめ上げ」ボタン512と、まとめ上げ候補[コスト]についての選択欄513と、まとめ上げ候補[安定性]についての選択欄514と、まとめ上げ候補[低騒音]についての選択欄515と、まとめ上げ候補[製造費]についての選択欄516と、まとめ上げ候補[ランニングコスト]についての選択欄517とが設けられている。チューニング画面501と比較すると、チューニング画面511では、まとめ上げ候補[コスト]についての選択欄513から特徴語句「ランニングコスト」が外れており、まとめ上げ候補[ランニングコスト]についての選択欄517が新たに設けられている。
このように、ユーザは、表示装置等に表示されたチューニング画面(例えば図5)において、キーボードやマウスを操作して、まとめ上げ作業を進めていく。そして、本実施の形態では、以下で説明するような処理を実施することによって、予めユーザにより設定された順位までのまとめ上げ候補の順位が確定したか判断し、順位が確定した時点で、ユーザにまとめ上げ作業が完了した旨を通知する。なお、本実施の形態では、まとめ上げ候補同士を統合するようなまとめ上げは行われないものとする。
次に、図6乃至図15を用いて、本実施の形態に係るまとめ上げ作業支援装置の処理内容について説明する。図6に、まとめ上げ作業支援装置の処理フローを示す。まず、ユーザは、キーボードやマウスを操作して分析開始を指示する。そして、まとめ上げ作業支援装置は、ユーザからの分析開始指示を受け付ける。そうすると、特徴語句抽出部12が、文書DB11に格納されている文書データから特徴語句を抽出し(図6:ステップS1)、関連度計算部13に出力する。なお、特徴語句を抽出する処理自体は、従来の処理と変わらないため、ここではこれ以上述べない。そして、関連度計算部13は、特徴語句抽出部12から特徴語句を受け取ると、特徴語句間の関連度を計算し、関連度テーブルを生成して関連度テーブル格納部14に格納する(ステップS3)。具体的には、関連度計算部13は、特徴語句抽出部12から受け取った特徴語句を関連度テーブルの行及び列に設定し、計算した関連度を関連度テーブルの該当する箇所に設定することで、図3に示したような関連度テーブルを生成する。なお、関連度テーブルにおける統一フラグの列は、0で初期化しておく。また、ステップS3では、例えば特許文献3に開示されているような技術を用いることで、特徴語句間の関連度を計算することができる。
その後、文書絞込部15が、ユーザから絞り込み条件の入力を受け付ける(ステップS5)。例えば、出願件数の多い出願人の傾向を分析したい場合には、出願件数が多い出願人に係る文書データに絞り込んだ上で分析を行った方が、より効果的である。そのため、本実施の形態では、ユーザが、分析の意図に合った絞り込み条件を入力するものとする。なお、国際特許分類(IPC)や出願時期などを絞り込み条件としてもよい。そして、文書絞込部15は、ユーザから入力された絞り込み条件に従って、文書DB11に格納されている文書データの絞り込みを行い、処理結果(すなわち、絞り込まれた後の文書データ)を一旦記憶装置に格納する(ステップS7)。
その後、管理テーブル生成部16が、関連度テーブル格納部14に格納されているデータと、記憶装置に格納されている、文書絞込部15の処理結果とを用いて管理テーブル生成処理を実施する(ステップS9)。この管理テーブル生成処理については図7を用いて説明する。
まず、管理テーブル生成部16は、記憶装置に格納されている、文書絞込部15の処理結果(すなわち、絞り込まれた後の文書データ)から特徴語句を抽出し、抽出した特徴語句と当該特徴語句を含む文献の件数とを管理テーブルにおける特徴語句の列と文献数の列とにそれぞれ登録する(図7:ステップS21)。そして、管理テーブル生成部16は、カウンタcを1に設定する(ステップS23)。また、管理テーブル生成部16は、カウンタiを1に設定する(ステップS25)。そして、管理テーブル生成部16は、管理テーブルにおいてi番目の特徴語句Tiを特定する(ステップS27)。そして、管理テーブル生成部16は、カウンタjを1に設定する(ステップS29)。その後、端子Aを介して図8の処理に移行する。
図8の説明に移行して、端子Aの後、管理テーブル生成部16は、カウンタiとカウンタjとが異なる値(i≠j)であるか判断する(図8:ステップS31)。カウンタiとカウンタjとが同じ値であると判断された場合(ステップS31:Noルート)、ステップS49の処理に移行する。
一方、カウンタiとカウンタjとが異なる値であると判断された場合(ステップS31:Yesルート)、管理テーブル生成部16は、管理テーブルにおいてj番目の特徴語句Tjを特定する(ステップS33)。そして、管理テーブル生成部16は、関連度テーブル格納部14に格納されている関連度テーブルにおいて、特徴語句Ti及び特徴語句Tjについての統一フラグが共に0であるか判断する(ステップS35)。例えば特徴語句Tiが「コスト」であり、特徴語句Tjが「低コスト」である場合には、関連度テーブルにおいて、「コスト」についての統一フラグと「低コスト」についての統一フラグとが0であるか判断する。特徴語句Ti及び特徴語句Tjについての統一フラグのうちいずれかが0ではない場合(ステップS35:Noルート)、ステップS49の処理に移行する。
一方、特徴語句Ti及び特徴語句Tjに係る統一フラグが共に0である場合(ステップS35:Yesルート)、管理テーブル生成部16は、関連度テーブル格納部14に格納されている関連度テーブルから特徴語句Tiと特徴語句Tjとの関連度を取得する。例えば特徴語句Tiが「コスト」であり、特徴語句Tjが「低コスト」である場合には、関連度テーブルから、「コスト」と「低コスト」との関連度を取得する。そして、管理テーブル生成部16は、特徴語句Tiと特徴語句Tjとの関連度が所定基準以上であるか(ステップS37)。特徴語句Tiと特徴語句Tjとの関連度が所定基準未満である場合(ステップS37:Noルート)、ステップS49の処理に移行する。
一方、特徴語句Tiと特徴語句Tjとの関連度が所定基準以上である場合(ステップS37:Yesルート)、管理テーブル生成部16は、管理テーブルから、特徴語句Ti及び特徴語句Tjについての文献数をそれぞれ取得する。そして、管理テーブル生成部16は、特徴語句Tiについての文献数が、特徴語句Tjについての文献数より大きいか判断する(ステップS39)。特徴語句Tiについての文献数が、特徴語句Tjについての文献数より大きい場合(ステップS39:Yesルート)、管理テーブル生成部16は、管理テーブルにおいて特徴語句Ti及び特徴語句Tjについての各レコードにおけるまとめ上げ候補の列に、特徴語句Tiを登録する(ステップS41)。そして、管理テーブル生成部16は、関連度テーブル格納部14に格納されている関連度テーブルにおいて特徴語句Tjについての統一フラグを1に設定する(ステップS43)。その後、ステップS49の処理に移行する。
一方、特徴語句Tiについての文献数が、特徴語句Tjについての文献数以下である場合(ステップS39:Noルート)、管理テーブル生成部16は、管理テーブルにおいて特徴語句Ti及び特徴語句Tjについての各レコードにおけるまとめ上げ候補の列に、特徴語句Tjを登録する(ステップS45)。そして、管理テーブル生成部16は、関連度テーブル格納部14に格納されている関連度テーブルにおいて特徴語句Tiについての統一フラグを1に設定する(ステップS47)。その後、ステップS49の処理に移行する。
ステップS49に移行して、管理テーブル生成部16は、カウンタjの値が管理テーブルに登録されている特徴語句の総数未満であるか判断する(ステップS49)。カウンタjの値が管理テーブルに登録されている特徴語句の総数未満であると判断された場合(ステップS49:Yesルート)、管理テーブル生成部16は、カウンタjの値を1インクリメントし(ステップS51)、ステップS31に戻り、上で述べた処理を繰り返す。一方、カウンタjの値が管理テーブルに登録されている特徴語句の総数以上であると判断された場合(ステップS49:Noルート)、端子Bを介して図9の処理に移行する。
図9の説明に移行して、端子Bの後、管理テーブル生成部16は、カウンタiの値が管理テーブルに登録されている特徴語句の総数未満であるか判断する(図9:ステップS53)。カウンタiの値が管理テーブルに登録されている特徴語句の総数未満である場合(ステップS53:Yesルート)、管理テーブル生成部16は、カウンタiの値を1インクリメントする(ステップS55)。その後、端子Cを介して、ステップS27(図7)に戻り、上で述べた処理を繰り返す。
一方、カウンタiの値が管理テーブルに登録されている特徴語句の総数以上である場合(ステップS53:Noルート)、ステップS57に移行する。そして、管理テーブル生成部16は、管理テーブルにおけるまとめ上げ候補毎に、当該まとめ上げ候補に含まれる特徴語句についての文献数の総和を計算し、計算した総和を、当該まとめ上げ候補についての最大件数として管理テーブルに登録する(ステップS57)。
その後、管理テーブル生成部16は、カウンタcが所定回数未満であるか判断する(ステップS59)。カウンタcが所定回数未満である場合(ステップS59:Yesルート)、管理テーブル生成部16は、関連度テーブルの統一フラグをクリア(0に設定)し、カウンタcの値を1インクリメントする(ステップS61)。その後、処理は端子Dを介してステップS25(図7)に戻り、上で述べた処理を繰り返す。
一方、カウンタcが所定回数以上である場合(ステップS59:Noルート)、管理テーブル生成部16は、管理テーブルにおけるユーザチェックの列に「未チェック」を設定する。そして、管理テーブル生成部16は、管理テーブルにおける確定件数及び未チェック件数の列を初期化する(ステップS63)。具体的には、確定件数の列は0で初期化する。また、未チェック件数の列は、最大件数の列に設定されている値で初期化する。また、ユーザチェックの列は「未チェック」で初期化されており、ここでは、最大件数=未チェック件数となる。そして、管理テーブル生成部16は、生成した管理テーブルを管理テーブル格納部17に格納する。その後、処理を終了し、元の処理に戻る。
以上のような処理を実施することにより、図4に示したような管理テーブルを生成することができる。なお、カウンタcを用いて、ステップS25乃至ステップS61の処理を所定回数繰り返し実行させることで、例えば「製造コスト」−>「装置コスト」−>「コスト」といった段階的なまとめ上げを実現することができる。
図6の説明に戻って、ステップS9の後、管理テーブル生成部16は、管理テーブル格納部17に格納されている管理テーブルにおいて、まとめ上げ候補毎且つ最大件数の多い順にレコードをソートする(ステップS11)。そして、管理テーブル生成部16は、チューニング画面を表示するよう出力部21に指示する。
そして、出力部21は、管理テーブル生成部16からの指示に応じて、管理テーブル格納部17に格納されている管理テーブルを用いて、チューニング画面データを生成し、表示装置等に表示する(ステップS13)。例えば図10に示すような管理テーブルが管理テーブル格納部17に格納されている場合には、図11に示すようなチューニング画面が生成され、表示される。図11の例では、チューニング画面には、まとめ上げ候補[コスト]についての選択欄1101と、まとめ上げ候補[低騒音]についての選択欄1102と、まとめ上げ候補[安定性]についての選択欄1103とが設けられている。なお、図11では図示していないが、チューニング画面には、選択欄の他に「まとめ上げ」ボタン等が設けられる。また、例えば選択欄1101における「コスト(10件−>0件)」において、矢印の始点側の数値は、まとめ上げ候補[コスト]についての最大件数(=10件)を示しており、矢印の終点側の数値は、まとめ上げ候補[コスト]についての確定件数(=0件)を示している。また、特徴語句の後ろに表示されている数値は、当該特徴語句についての文献数を示している。また、特徴語句についてまとめるか否かの指示(以下、チューニング指示と呼ぶ場合もある)の入力が可能な選択欄(図11では選択欄1101)を太枠で示している。なお、本実施の形態では、ステップS13において、管理テーブルに格納されている最大件数が最も多いまとめ上げ候補についての選択欄を入力可能に設定するものとする。
そして、ユーザは、表示装置等に表示されたチューニング画面において、キーボードやマウスを操作し、入力可能となっている選択欄に含まれる特徴語句について、まとめるか否かを指示する。ここでは、第k位のまとめ上げ候補についての選択欄が入力可能になっているものとする。そして、入力部19及び作業支援処理部20は、ユーザからのチューニング指示に応じて、まとめ上げ作業支援処理を実施する(ステップS15)。まとめ上げ作業支援処理では、第n位までのまとめ上げ候補の順位が確定したか判断し、順位が確定した時点で、ユーザにまとめ上げ作業が完了した旨を通知する。なお、nの値は、予めユーザから設定されているものとする。以下、図12乃至図14を用いて、まとめ上げ作業支援処理について説明する。
まず、入力部19は、第k位のまとめ上げ候補についてのチューニング指示をユーザから受け付け(図12:ステップS71)、チューニング指示を作業支援処理部20に通知する。そして、作業支援処理部20の更新処理部201は、入力部19からチューニング指示を受け取ると、チューニング指示に従って、管理テーブル格納部17に格納されている管理テーブルのユーザチェック欄を更新する(ステップS73)。例えば、ユーザからまとめる旨の指示がなされた場合には、管理テーブルにおいて、該当するレコードのユーザチェック欄を「未チェック」から「まとめる」に変更する。また、ユーザからまとめない旨の指示がなされた場合には、管理テーブルにおいて、該当するレコードのユーザチェック欄を「未チェック」から「まとめない」に変更する。
その後、計数処理部203が、管理テーブルを用いて、第k位のまとめ上げ候補内の特徴語句のうち、ユーザからまとめるよう指示されている特徴語句を含む文献の件数αを計数し、件数αを、第k位のまとめ上げ候補についての確定件数として管理テーブルに登録する(ステップS75)。具体的には、第k位のまとめ上げ候補内の特徴語句のうち、ユーザチェック欄に「まとめる」が設定されている特徴語句についての文献数の総和を件数αとして計数する。そして、計数処理部203は、第k位のまとめ上げ候補内の特徴語句のうち、未チェックの特徴語句を含む文献の件数δを計数し、件数δを、第k位のまとめ上げ候補についての未チェック件数として管理テーブルに格納する(ステップS77)。具体的には、第k位のまとめ上げ候補内の特徴語句のうち、ユーザチェック欄に「未チェック」が設定されている特徴語句についての文献数の総和を件数δとして計数する。そして、計数処理部203は、管理テーブルから、第k+1位のまとめ上げ候補についての最大件数βを取得する(ステップS79)。そして、計数処理部203は、差分計算部202にαを通知し、判定部204にα、β及びδを通知する。
そして、差分計算部202は、計数処理部203からαを受け取ると、作業対象となっているまとめ上げ候補が第1位のまとめ上げ候補であるか判断する(ステップS81)。作業対象となっているまとめ上げ候補が第1位のまとめ上げ候補であれば(ステップS81:Yesルート)、ステップS87の処理に移行する。
一方、作業対象となっているまとめ上げ候補が第1位のまとめ上げ候補でなければ(ステップS81:Noルート)、差分計算部202は、第k−1位のまとめ上げ候補について管理テーブルに格納されている確定件数と、α(すなわち、第k位のまとめ上げ候補についての確定件数)との差分εを算出する(ステップS83)。そして、差分計算部202は、判定部204にεを通知する。
そして、判定部204は、計数処理部203からα、β及びδを受け取り、差分計算部202からεを受け取る。そして、判定部204は、δ<εであるか判断する(ステップS85)。δ<εである場合(ステップS85:Yesルート)、端子Eを介して図13の処理に移行する。なお、δ<εであるということは、これ以上第k位のまとめ上げ候補について作業を続けても、第k−1位のまとめ上げ候補と第k位のまとめ上げ候補との順位が入れ替わることはないと判断できる。一方、δ<εではない場合(ステップS85:Noルート)、ステップS87の処理に移行する。
ステップS87の処理に移行して、判定部204は、α>βであるか、又は、第k位のまとめ上げ候補において未チェックの特徴語句がないか判断する(ステップS87)。α>βである場合、又は、第k位のまとめ上げ候補において未チェックの特徴語句がない場合には(ステップS87:Yesルート)、端子Eを介して図13の処理に移行する。なお、α>βであるということは、第k位のまとめ上げ候補と第k+1位のまとめ上げ候補との順位が入れ替わることはないと判断することができる。
一方、α>βではなく、且つ、第k位のまとめ上げ候補において未チェックの特徴語句がある場合には(ステップS87:Noルート)、ステップS71の処理に戻る。この場合、現在作業対象となっているまとめ上げ候補について、ユーザによるまとめ上げ作業が引き続き行われる。
図13の説明に移行して、端子Eの後、判定部204は、作業対象のまとめ上げ候補についてチューニング完了を表すデータを表示するよう出力部21に指示する。そして、出力部21は、判定部204からの指示に応じて、作業対象のまとめ上げ候補についてチューニング完了を表すデータを表示装置等に表示する(図13:ステップS89)。
その後、更新処理部201は、まとめない旨の指示がされた特徴語句があるか判断する(ステップS91)。なお、まとめない旨の指示があった場合には、ステップS73において、管理テーブルのユーザチェック欄に「まとめない」が設定されるので、作業対象のまとめ上げ候補内の特徴語句のうち、ユーザチェック欄に「まとめない」が設定されている特徴語句があるかどうか判断する。まとめない旨の指示がされた特徴語句がなければ(ステップS91:Noルート)、ステップS95の処理に移行する。
一方、まとめない旨の指示がされた特徴語句がある場合(ステップS91:Yesルート)、更新処理部201は、該当する特徴語句を含む新たなまとめ上げ候補を生成し、管理テーブルを更新する(ステップS93)。具体的には、該当する特徴語句についてのレコードにおけるまとめ上げ候補欄を、その特徴語句で更新し、ユーザチェック欄を「まとめない」から「未チェック」に変更する。さらに、新たなまとめ上げ候補についての最大件数及び未チェック件数を計算し、管理テーブルに設定する。なお、これにより、まとめない旨が指示された特徴語句が作業対象のまとめ上げ候補から除外されたことになるので、作業対象のまとめ上げ候補についての最大件数及び未チェック件数を再計算し、管理テーブルに設定する。その後、ステップS95の処理に移行する。
そして、更新処理部201は、管理テーブルにおいて、まとめ上げ候補毎且つ確定件数の多い順にレコードをソートする(ステップS95)。その後、計数処理部203は、管理テーブルから、第2位から第n+1位までのまとめ上げ候補についての未チェック件数δi(iは順位を示す)を取得する(ステップS97)。そして、計数処理部203は、第2位から第n+1位までのδiを判定部204に通知する。
その後、差分計算部202は、管理テーブルを用いて、第2位から第n+1位までのまとめ上げ候補毎に、当該まとめ上げ候補についての確定件数と、1つ上位のまとめ上げ候補についての確定件数との差分εi(iは順位を示す)を算出する(ステップS99)。例えばε2であれば、(第1位のまとめ上げ候補についての確定件数)−(第2位のまとめ上げ候補についての確定件数)で算出する。そして、差分計算部202は、第2位から第n+1位までのεiを判定部204に通知する。なお、処理は、端子Fを介して図14に移行する。
図14の説明に移行して、端子Fの後、判定部204は、計数処理部203からのδiと、差分計算部202からのεiとを受け取る。そして、判定部204は、管理テーブルにおいて、第n位までの各まとめ上げ候補についての確定件数が1以上である判断する(図14:ステップS101)。第n位までの各まとめ上げ候補についての確定件数が1以上でなければ(ステップS101:Noルート)、すなわち、第n位までのまとめ上げ候補の中に、確定件数が0になっているものがあれば、判定部204は、その旨を出力部21に通知する。そして、出力部21は、管理テーブルにおける未チェック件数が最も多いまとめ上げ候補を新たな作業対象として特定し、特定されたまとめ上げ候補についての選択欄を入力可能に設定する(ステップS103)。その後、端子Gを介してステップS71に戻る。この後、ユーザは、新たな作業対象についてまとめ上げ作業を行うことになる。
一方、第n位までの各まとめ上げ候補についての確定件数が1以上である場合(ステップS101:Yesルート)、判定部204は、第2位から第n+1位までの各順位においてδi<εiが満たされているか判断する(ステップS105)。第2位から第n+1位までのいずれかでδi<εiが満たされていない場合(ステップS105:Noルート)、すなわちδi≧εiとなっている順位がある場合、判定部204は、その旨を出力部21に通知する。そして、出力部21は、δi≧εiとなっている順位のまとめ上げ候補のうち、管理テーブルにおける最大件数が最も多いまとめ上げ候補を新たな作業対象として特定し、特定されたまとめ上げ候補についての選択欄を入力可能に設定する(ステップS107)。その後、端子Gを介してステップS71に戻る。この後、ユーザは、新たな作業対象についてまとめ上げ作業を行うことになる。
一方、第2位から第n+1位までの各順位においてδi<εiが満たされている場合(ステップS105:Yesルート)、判定部204は、その旨を出力部21に通知する。なお、第2位から第n+1位までの各順位においてδi<εiが満たされているということは、第1位から第n位までの順位が確定していると判断できる。そして、出力部21は、まとめ上げ作業が完了したことを表すデータを表示する(ステップS109)。そして、処理を終了し、元の処理に戻る。
以上のような処理を実施することにより、第n位までのまとめ上げ候補の順位が確定した場合には、チューニング完了がユーザに提示されるので、ユーザは、順位が確定したことを知ることができ、余計な作業を行わずに済むようになる。なお、作業対象となっているまとめ上げ候補と、1つ上位のまとめ上げ候補との順位が入れ替わらないことが分かった場合には、別のまとめ上げ候補についてまとめ上げ作業を行うようにした方が、作業量が少なくなる可能性がある。そのため、上で説明した処理フローでは、作業対象となっているまとめ上げ候補と、1つ上位のまとめ上げ候補との順位が入れ替わらないことが分かった場合には、新たな作業対象を切り替えるようになっている。
なお、上では、まとめない旨が指示された特徴語句を、まとめ上げ候補から除外するような構成になっているが、まとめ上げ候補に残すような構成であってもよい。その場合には、ステップS91及びS93の処理をスキップするようにすればよい。
図6の説明に戻って、ステップS15の後、分析処理部18が、記憶装置に格納されている、文書絞込部15の処理結果と、管理テーブル格納部17に格納されている管理テーブルとを用いて、分析結果画面データを生成し、表示装置等に表示する(ステップS17)。例えば図15に示すような分析結果画面が表示される。図15では、分析結果画面には、出願人と課題との関係を示す棒グラフが表示されている。そして、処理を終了する。
以下、上で説明したまとめ上げ作業支援処理をより分かりやすくするために、図16乃至図25を用いて具体例を説明する。なお、前提として、管理テーブル格納部17には、図16に示すような管理テーブルが格納されているものとする。図16の例では、まとめ上げ候補[コスト]には、特徴語句「コスト」(文献数:10件)が含まれ、まとめ上げ候補[低騒音]には、特徴語句「低騒音」(文献数:5件)と特徴語句「騒音防止」(文献数:3件)と特徴語句「低騒音化」(文献数:1件)とが含まれ、まとめ上げ候補[安全性]には、特徴語句「安全性」(文献数:7件)が含まれている。また、図17に示すようなチューニング画面が初期画面としてユーザに提示されるものとする。図17では、まとめ上げ候補[コスト]についての選択欄が入力可能となっている。ここでは、n=2であるものする。
まず、図18に示すように、ユーザは初回の指示として、まとめ上げ候補[コスト]の選択欄において、特徴語句「コスト」をまとめるよう指示する。そうすると、図12のステップS73乃至S77が実施され、管理テーブルは、例えば図19に示すような内容となる。図19では、特徴語句「コスト」についてのユーザチェック欄が「まとめる」に更新されている。また、まとめ上げ候補[コスト]についての確定件数が10件に更新され、まとめ上げ候補[コスト]についての未チェック件数が0件に更新されている。その後、まとめ上げ候補[コスト]は第1位のまとめ上げ候補であるため、ステップS81の後、ステップS87の処理に移行する。そして、まとめ上げ候補[コスト]に未チェックの特徴語句がないので、ステップS87の後、図13の処理に移行する。すなわち、まとめ上げ候補[コスト]についてのまとめ上げ作業は完了となる。
図13の処理に移行して、ステップS97の処理により、未チェック件数δ2及びδ3が取得される。ここでは、δ2は9、δ3は7となる。そして、ステップS99の処理により、差分ε2及びε3が算出される。ここでは、ε2=10−0=10、ε3=0−0=0となる。その後、図14の処理に移行する。
図14の処理に移行して、第2位のまとめ上げ候補[低騒音]についての確定件数が0であるため、ステップS101の後、ステップS103の処理に移行する。そして、未チェック件数が最も多いまとめ上げ候補は、[低騒音](未チェック件数:9件)であるため、ステップS103では、まとめ上げ候補[低騒音]が新たな作業対象として特定され、まとめ上げ候補[低騒音]についての選択欄が入力可能となる。その後、図12の処理に戻る。
次に、図20に示すように、ユーザは、2回目の指示として、まとめ上げ候補[低騒音]の選択欄において、特徴語句「低騒音」をまとめるよう指示し、特徴語句「騒音防止」をまとめないよう指示する。そうすると、図12のステップS73乃至S77が実施され、管理テーブルは、図21に示すような内容となる。図21では、特徴語句「低騒音」についてのユーザチェック欄が「まとめる」に更新され、特徴語句「騒音防止」についてのユーザチェック欄が「まとめない」に更新されている。また、まとめ上げ候補[低騒音]についての確定件数が5件に更新され、まとめ上げ候補[低騒音]についての未チェック件数が1件に更新されている。その後、まとめ上げ候補[低騒音]は第1位のまとめ上げ候補ではないため、ステップS81の後、ステップS83の処理に移行する。
そして、ステップS83の処理により、差分εが算出される。ここでは、差分εは5(=10−5)となる。ここで、δは1であるため、δ<εとなり、ステップS85の後、図13の処理に移行する。すなわち、まとめ上げ候補[低騒音]についてのまとめ上げ作業は完了となる。
図13の処理に移行して、ステップS97の処理により、未チェック件数δ2及びδ3が取得される。ここでは、δ2は1、δ3は7となる。そして、ステップS99の処理により、差分ε2及びε3が算出される。ここでは、ε2=10−5=5、ε3=5−0=5となる。その後、図14の処理に移行する。
図14の処理に移行して、第2位までのまとめ上げ候補についての確定件数は1以上であるため、ステップS101の後、ステップS105の処理に移行する。そして、δ2<ε2であるが、δ3≧ε3であるため、ステップS105の後、ステップS107の処理に移行する。そして、δi≧εiとなるのは、第3位のまとめ上げ候補だけであるため、ステップS107では、まとめ上げ候補[安全性]が新たな作業対象として特定され、まとめ上げ候補[安全性]についての選択欄が入力可能となる。その後、図12の処理に戻る。
次に、図22に示すように、ユーザは、3回目の指示として、まとめ上げ候補[安全性]の選択欄において、特徴語句「安全性」をまとめるよう指示する。そうすると、図12のステップS73乃至S77が実施され、管理テーブルは、例えば図23に示すような内容となる。図23では、特徴語句「安全性」についてのユーザチェック欄が「まとめる」に更新されている。また、まとめ上げ候補[安全性]についての確定件数が7件に更新され、まとめ上げ候補[安全性]についての未チェック件数が0件に更新されている。その後、まとめ上げ候補[安全性]に未チェックの特徴語句がないので、ステップS87の後、図13の処理に移行する。
図13の処理に移行して、ステップS95の処理により、管理テーブルのレコードがソートされ、例えば図24に示すようなチューニング画面が表示される。その後、ステップS97の処理により、未チェック件数δ2及びδ3が取得される。ここでは、δ2は0、δ3は1となる。そして、ステップS99の処理により、差分ε2及びε3が算出される。ここでは、ε2=10−7=3、ε3=7−5=2となる。その後、図14の処理に移行する。
図14の処理に移行して、第2位までのまとめ上げ候補についての確定件数は1以上であるため、ステップS101の後、ステップS105の処理に移行する。そして、δ2<ε2であり、且つ、δ3<ε3であるため、第2位までのまとめ上げ候補の順位が確定したと判断され、図25に示すように、チューニング画面にチューニングが完了した旨が表示される。
なお、上で示した具体例では、2回目の指示が行われた時点で、作業対象のまとめ上げ候補[低騒音]と、1つ上位のまとめ上げ候補[コスト]との順位が入れ替わらないことが分かったので、作業対象をまとめ上げ候補[安全性]に切り替えるようになっている。ここで、2回目の指示が行われた後、作業対象を切り替えなかったとすると、例えば図26に示すように、3回目の指示として、まとめ上げ候補[低騒音]の選択欄において、特徴語句「低騒音化」についてまとめるか否かの指示(図26では「まとめない」)を行うことになる。そして、4回目の指示として、まとめ上げ候補[安全性]の選択欄において、特徴語句「安全性」をまとめるよう指示して作業完了となる。すなわち、作業対象となっているまとめ上げ候補と、1つ上位のまとめ上げ候補との順位が入れ替わらないことが分かった場合に、新たな作業対象を切り替えることで、作業量が少なくなる。
[実施の形態2]
第1の実施の形態では、まとめ上げ候補同士を統合するようなまとめ上げは行われないことを前提としていたが、ユーザが、まとめ上げ候補同士を統合するようなまとめ上げを行いたいと考える場合もある。そこで、第2の実施の形態では、まとめ上げ候補同士を統合するようなまとめ上げが行われる場合であっても、第n位までのまとめ上げ候補の順位が確定した時点で、まとめ上げ作業が完了した旨をユーザに通知するようにする。
例えば図27に本実施の形態におけるチューニング画面の一例を示す。図27の左側に示すチューニング画面2701には、「まとめ上げ」ボタン2702と、まとめ上げ候補[コスト]についての選択欄2703と、まとめ上げ候補[低騒音]についての選択欄2704と、まとめ上げ候補[騒音防止]についての選択欄2705と、まとめ上げ候補[安全性]についての選択欄2706とが設けられている。また、選択欄2703乃至選択欄2706の各々には、統合すべきまとめ上げ候補を選択するためのチェックボックス(図27では2713乃至2716)が設けられている。なお、その他については、基本的には第1の実施の形態と同じである。
例えばまとめ上げ候補[低騒音]とまとめ上げ候補[騒音防止]とを統合する場合には、ユーザは、マウスやキーボードを操作して、チェックボックス2714及び2715にチェックを付す。そして、例えば「まとめ上げ」ボタン2702をクリックすると、まとめ上げ候補[低騒音]とまとめ上げ候補[騒音防止]とが統合され、図27の右側に示すようなチューニング画面2721が表示装置等に表示される。チューニング画面2721には、「まとめ上げ」ボタン2722と、まとめ上げ候補[コスト]についての選択欄2723と、まとめ上げ候補[低騒音]についての選択欄2724と、まとめ上げ候補[安全性]についての選択欄2725とが設けられている。このように、第2の実施の形態では、チェックボックスにチェックが付された複数のまとめ上げ候補が1つのまとめ上げ候補に統合されるものとする。
本実施の形態に係るまとめ上げ作業支援装置の機能ブロック図は、第1の実施の形態で説明したものと同じであるため、ここでは説明を省略する。
次に、本実施の形態に係るまとめ上げ作業支援装置の処理内容について説明する。ここでは、第1の実施の形態と異なる部分を説明する。具体的には、本実施の形態では、上で説明したまとめ上げ作業支援処理の代わりに、図28乃至図31に示すような処理(以下、まとめ上げ作業支援処理2と呼ぶ)を実施する。以下、まとめ上げ作業支援処理2について説明する。
まず、入力部19は、第k位のまとめ上げ候補についてのチューニング指示をユーザから受け付け(図28:ステップS111)、チューニング指示を作業支援処理部20に通知する。そして、作業支援処理部20の更新処理部201は、入力部19からチューニング指示を受け取ると、今回のチューニング指示が、まとめ上げ候補を統合する旨の指示であるか判断する(ステップS113)。
今回のチューニング指示が、まとめ上げ候補を統合する旨の指示である場合(ステップS113:Yesルート)、更新処理部201は、統合するよう指示されたまとめ上げ候補を1つのまとめ上げ候補に統合するように管理テーブル格納部17内の管理テーブルにおけるまとめ候補欄を更新する(ステップS115)。具体的には、統合するよう指示されたまとめ上げ候補のうち、管理テーブルにおける最大件数が最も多いまとめ上げ候補を特定し、特定されたまとめ上げ候補で、管理テーブルにおいて該当するレコードのまとめ上げ候補欄を更新する。例えば、まとめ上げ候補[低騒音](最大件数:5件)と、まとめ上げ候補[騒音防止](最大件数:4件)とを統合するよう指示された場合には、まとめ上げ候補[騒音防止]についての各レコードにおけるまとめ上げ候補欄を[低騒音]で更新する。その後、計数処理部203が、管理テーブルを用いて、各まとめ上げ候補について、最大件数、確定件数及び未チェック件数を計算し、管理テーブルを更新する(ステップS117)。その後、出力部21が、管理テーブルにおいて、未チェック件数が1以上のまとめ上げ候補のうち最大件数が最も多いまとめ上げ候補を特定し、特定されたまとめ上げ候補についての選択欄を入力可能に設定する(ステップS119)。そして、ステップS111の処理に戻る。
一方、今回のチューニング指示が、まとめ上げ候補を統合する旨の指示でなければ(ステップS113:Noルート)、端子Hを介して図29の処理に移行する。
図29の説明に移行して、端子Hの後、更新処理部201は、チューニング指示に従って、管理テーブルのユーザチェック欄を更新する(ステップS121)。例えば、ユーザからまとめる旨の指示がなされた場合には、管理テーブルにおいて、該当するレコードのユーザチェック欄を「未チェック」から「まとめる」に変更する。また、ユーザからまとめない旨の指示がなされた場合には、管理テーブルにおいて、該当するレコードのユーザチェック欄を「未チェック」から「まとめない」に変更する。
その後、計数処理部203が、管理テーブルを用いて、作業対象となっている第k位のまとめ上げ候補内の特徴語句のうち、ユーザからまとめるよう指示されている特徴語句を含む文献の件数αを計数し、件数αを、第k位のまとめ上げ候補についての確定件数として管理テーブルに登録する(ステップS123)。具体的には、第k位のまとめ上げ候補内の特徴語句のうち、ユーザチェック欄に「まとめる」が設定されている特徴語句についての文献数の総和を件数αとして計数する。そして、計数処理部203は、第k位のまとめ上げ候補内の特徴語句のうち、未チェックの特徴語句を含む文献の件数δを計数し、件数δを、第k位のまとめ上げ候補についての未チェック件数として管理テーブルに格納する(ステップS125)。具体的には、第k位のまとめ上げ候補内の特徴語句のうち、ユーザチェック欄に「未チェック」が設定されている特徴語句についての文献数の総和を件数δとして計数する。
そして、計数処理部203は、管理テーブルを用いて、第k+1位以下の各まとめ上げ候補についての最大件数の総和Aを計算する(ステップS127)。そして、計数処理部203は、管理テーブルを用いて、第k位のまとめ上げ候補内の特徴語句のうち、まとめない旨が指示されている特徴語句を含む文献の件数Bを計数する(ステップS129)。具体的には、第k位のまとめ上げ候補内の特徴語句のうち、ユーザチェック欄に「まとめない」が設定されている特徴語句についての文献数の総和を件数Bとして計数する。そして、計数処理部203は、第k位以上の各まとめ上げ候補についての未チェック件数の総和Cを計算する(ステップS131)。そして、計数処理部203は、総和Aと件数Bと総和Cとの総和βを計算する(ステップS133)。そして、計数処理部203は、差分計算部202にαを通知し、判定部204にα及びβを通知する。その後、端子Iを介して図30の処理に移行する。
図30の説明に移行して、端子Iの後、差分計算部202は、計数処理部203からαを受け取ると、作業対象となっているまとめ上げ候補が第1位のまとめ上げ候補であるか判断する(図30:ステップS135)。作業対象となっているまとめ上げ候補が第1位のまとめ上げ候補であれば(ステップS135:Yesルート)、ステップS141の処理に移行する。
一方、作業対象となっているまとめ上げ候補が第1位のまとめ上げ候補でなければ(ステップS135:Noルート)、差分計算部202は、第k−1位のまとめ上げ候補について管理テーブルに格納されている確定件数と、α(すなわち、第k位のまとめ上げ候補についての確定件数)との差分εを算出する(ステップS137)。そして、差分計算部202は、判定部204にεを通知する。
そして、判定部204は、計数処理部203からα及びβを受け取り、差分計算部202からεを受け取る。そして、判定部204は、β<εであるか判断する(ステップS139)。β<εである場合(ステップS139:Yesルート)、ステップS143の処理に移行する。なお、β<εであるということは、これ以上第k位のまとめ上げ候補について作業を続けても、第k−1位のまとめ上げ候補と第k位のまとめ上げ候補との順位が入れ替わることはないと判断できる。一方、β<εではない場合(ステップS139:Noルート)、ステップS141の処理に移行する。
ステップS141の処理に移行して、判定部204は、α>βであるか、又は、第k位のまとめ上げ候補において未チェックの特徴語句がないか判断する(ステップS141)。α>βである場合、又は、第k位のまとめ上げ候補において未チェックの特徴語句がない場合には(ステップS141:Yesルート)、ステップS141の処理に移行する。なお、α>βであるということは、第k位のまとめ上げ候補と第k+1位のまとめ上げ候補との順位が入れ替わることはないと判断することができる。
一方、α>βではなく、且つ、第k位のまとめ上げ候補において未チェックの特徴語句がある場合には(ステップS141:Noルート)、端子Jを介してステップS111の処理に戻る。この場合、現在作業対象となっているまとめ上げ候補について、ユーザによるまとめ上げ作業が引き続き行われる。
ステップS143の処理に移行して、判定部204は、作業対象のまとめ上げ候補についてチューニング完了を表すデータを表示するよう出力部21に指示する。そして、出力部21は、判定部204からの指示に応じて、作業対象のまとめ上げ候補についてチューニング完了を表すデータを表示装置等に表示する(ステップS143)。
その後、更新処理部201は、まとめない旨の指示がされた特徴語句があるか判断する(ステップS145)。なお、まとめない旨の指示があった場合には、ステップS121(図29)において、管理テーブルのユーザチェック欄に「まとめない」が設定されるので、作業対象のまとめ上げ候補内の特徴語句のうち、ユーザチェック欄に「まとめない」が設定されている特徴語句があるかどうか判断する。
まとめない旨の指示がされた特徴語句がある場合(ステップS145:Yesルート)、更新処理部201は、該当する特徴語句を含む新たなまとめ上げ候補を生成し、管理テーブルを更新する(ステップS147)。具体的には、該当する特徴語句についてのレコードにおけるまとめ上げ候補欄を、その特徴語句で更新する。さらに、新たなまとめ上げ候補についての最大件数及び未チェック件数を計算し、管理テーブルに設定する。なお、この時点では、新たなまとめ上げ候補についてのユーザチェック欄は、「まとめない」のままにしておく。また、まとめない旨が指示された特徴語句が作業対象のまとめ上げ候補から除外されたことになるので、計数処理部203は、作業対象のまとめ上げ候補についての最大件数及び未チェック件数を再計算し、管理テーブルに設定する。そして、計数処理部203は、管理テーブルを用いて、各まとめ上げ候補についての未チェック件数の総和γを算出する(ステップS149)。なお、この時点では、新たなまとめ上げ候補についてのユーザチェック欄は「まとめない」が設定されているので、新たなまとめ上げ候補は、総和γの計算の対象には含まれない。その後、更新処理部201は、管理テーブルにおいて、新たなまとめ上げ候補についてのユーザチェック欄を「未チェック」に更新する(ステップS151)。その後、端子Kを介して図31の処理に移行する。
一方、まとめない旨の指示がされた特徴語句がなければ(ステップS145:Noルート)、計数処理部203は、管理テーブルを用いて、各まとめ上げ候補についての未チェック件数の総和γを算出する(ステップS153)。そして、計数処理部203は、γを判定部204に通知する。その後、端子Kを介して図31の処理に移行する。
図31の説明に移行して、端子Kの後、更新処理部201は、管理テーブルにおいて、まとめ上げ候補毎且つ確定件数の多い順にレコードをソートする(図31:ステップS155)。その後、差分計算部202は、管理テーブルを用いて、第2位から第n+1位までのまとめ上げ候補毎に、当該まとめ上げ候補についての確定件数と、1つ上位のまとめ上げ候補についての確定件数との差分εi(iは順位を示す)を算出する(ステップS157)。そして、差分計算部202は、第2位から第n+1位までのεiを判定部204に通知する。
そして、判定部204は、計数処理部203からのγと、差分計算部202からのεiとを受け取る。そして、判定部204は、管理テーブルにおいて、第n位までの各まとめ上げ候補についての確定件数が1以上である判断する(ステップS159)。第n位までの各まとめ上げ候補についての確定件数が1以上でなければ(ステップS159:Noルート)、すなわち、第n位までのまとめ上げ候補の中に、確定件数が0になっているものがあれば、判定部204は、その旨を出力部21に通知する。そして、出力部21は、管理テーブルにおける未チェック件数が最も多いまとめ上げ候補を新たな作業対象として特定し、特定されたまとめ上げ候補についての選択欄を入力可能に設定する(ステップS161)。その後、端子Lを介してステップS111(図28)に戻る。この後、ユーザは、新たな作業対象についてまとめ上げ作業を行うことになる。
一方、第n位までの各まとめ上げ候補についての確定件数が1以上である場合(ステップS159:Yesルート)、判定部204は、第2位から第n+1位までの各順位においてγ<εiが満たされているか判断する(ステップS163)。第2位から第n+1位までのいずれかでγ<εiが満たされていない場合(ステップS163:Noルート)、すなわちγ≧εiとなっている順位がある場合、判定部204は、その旨を出力部21に通知する。そして、出力部21は、γ≧εiとなっている順位のまとめ上げ候補のうち、管理テーブルにおける最大件数が最も多いまとめ上げ候補を新たな作業対象として特定し、特定されたまとめ上げ候補についての選択欄を入力可能に設定する(ステップS165)。その後、端子Lを介してステップS111(図28)に戻る。この後、ユーザは、新たな作業対象についてまとめ上げ作業を行うことになる。
一方、第2位から第n+1位までの各順位においてγ<εiが満たされている場合(ステップS163:Yesルート)、判定部204は、その旨を出力部21に通知する。なお、第2位から第n+1位までの各順位においてγ<εiが満たされていれば、まとめ上げ候補同士を統合するようなまとめ上げが行われる場合であっても、第1位から第n位までの順位が確定していると判断できる。そして、出力部21は、まとめ上げ作業が完了したことを表すデータを表示する(ステップS167)。そして、処理を終了し、元の処理に戻る。
以上のような処理を実施することにより、まとめ上げ候補同士を統合するようなまとめ上げが行われる場合であっても、第n位までのまとめ上げ候補の順位が確定した時点で、まとめ上げ作業が完了した旨をユーザに提示することができる。これにより、ユーザは、順位が確定したことを知ることができ、余計な作業を行わずに済むようになる。なお、本実施の形態においても、作業対象となっているまとめ上げ候補と、1つ上位のまとめ上げ候補との順位が入れ替わらないことが分かった場合には、新たな作業対象を切り替えるようになっている。
以下、まとめ上げ作業支援処理2をより分かりやすくするために、図32乃至図45を用いて具体例を説明する。なお、前提として、管理テーブル格納部17には、図32に示すような管理テーブルが格納されているものとする。図32の例では、まとめ上げ候補[コスト]には、特徴語句「コスト」(文献数:21件)が含まれ、まとめ上げ候補[低騒音]には、特徴語句「低騒音」(文献数:6件)と特徴語句「騒音防止」(文献数:3件)とが含まれ、まとめ上げ候補[安全性]には、特徴語句「安全性」(文献数:9件)が含まれ、まとめ上げ候補[低騒音化]には、特徴語句「低騒音化」(文献数:1件)が含まれ、まとめ上げ候補[始動性]には、特徴語句[始動性](文献数:1件)が含まれている。また、図33に示すようなチューニング画面が初期画面としてユーザに提示されるものとする。図33では、まとめ上げ候補[コスト]についての選択欄が入力可能となっている。ここでは、n=2であるものする。
まず、図34に示すように、ユーザは初回の指示として、まとめ上げ候補[低騒音]とまとめ上げ候補[低騒音化]とを統合するよう指示する。そうすると、図28のステップS115乃至S119が実施され、管理テーブルは、例えば図35に示すような内容となる。図35では、特徴語句「低騒音化」についてのまとめ上げ候補欄が[低騒音]に変更されている。すなわち、まとめ上げ候補[低騒音]とまとめ上げ候補[低騒音化]が1つのまとめ上げ候補([低騒音])に統合されている。また、まとめ上げ候補[低騒音]についての最大件数及び未チェック件数が10件に更新されている。なお、管理テーブルにおいて、未チェック件数が1以上であり且つ最大件数が最も多いまとめ上げ候補は[コスト]であるため、まとめ上げ候補[コスト]についての選択欄がそのまま入力可能となる。
次に、図36に示すように、ユーザは、2回目の指示として、まとめ上げ候補[コスト]の選択欄において、特徴語句「コスト」をまとめるよう指示する。そうすると、図29のステップS121乃至S125が実施され、管理テーブルは、例えば図37に示すような内容となる。図37では、特徴語句「コスト」についてのユーザチェック欄が「まとめる」に更新されている。また、まとめ上げ候補[コスト]についての確定件数が21件に更新され、まとめ上げ候補[コスト]についての未チェック件数が0件に更新されている。
その後、図30の処理に移行して、まとめ上げ候補[コスト]は第1位のまとめ上げ候補であるため、図30のステップS135の後、ステップS141の処理に移行する。ここでは、まとめ上げ候補[コスト]に未チェックの特徴語句がないので、ステップS141の後、ステップS143の処理に移行する。すなわち、まとめ上げ候補[コスト]についてのまとめ上げ作業は完了となる。そして、ステップS153の処理により、総和γが計算される。ここでは、γ=10+9+1=20となる。その後、図31の処理に移行する。
図31の処理に移行して、ステップS157の処理により、差分ε2及びε3が算出される。ここでは、ε2=21−0=21、ε3=0−0=0となる。そして、ここでは、第2位のまとめ上げ候補[低騒音]についての確定件数が0であるため、ステップS159の後、ステップS161の処理に移行する。そして、未チェック件数が最も多いまとめ上げ候補は、[低騒音](未チェック件数:10件)であるため、ステップS161では、まとめ上げ候補[低騒音]が新たな作業対象として特定され、まとめ上げ候補[低騒音]についての選択欄が入力可能となる。その後、図28の処理に戻る。
次に、図38に示すように、ユーザは、3回目の指示として、まとめ上げ候補[低騒音]の選択欄において、特徴語句「低騒音」をまとめるよう指示する。そうすると、図29のステップS121乃至S125が実施され、管理テーブルは、例えば図39に示すような内容となる。図39では、特徴語句「低騒音」についてのユーザチェック欄が「まとめる」に更新されている。また、まとめ上げ候補[低騒音]についての確定件数が6件に更新され、まとめ上げ候補[低騒音]についての未チェック件数が4件に更新されている。その後、ステップS127乃至S133の処理により、総和βが計算される。ここでは、第3位以下の各まとめ上げ候補についての最大件数の総和Aは、「まとめ上げ候補[安全性]についての最大件数+まとめ上げ候補[始動性]についての最大件数」=9+1=10となる。また、第2位のまとめ上げ候補[低騒音]内の特徴語句のうち、まとめない旨が指示されている特徴語句は存在しないので、件数Bは0となる。さらに、第2位以上の各まとめ上げ候補についての未チェック件数の総和Cは、「まとめ上げ候補[コスト]についての未チェック件数+まとめ上げ候補[低騒音]についての未チェック件数」=0+4=4となる。従って、βは、10+0+4=14となる。その後、図30の処理に移行する。
図30の処理に移行して、まとめ上げ候補[低騒音]は第1位のまとめ上げ候補ではないため、ステップS135の後、ステップS137の処理に移行する。そして、ステップS137の処理により、差分εが算出される。ここでは、εは、21−6=15となる。そして、βは14であるため、β<εとなり、ステップS139の後、ステップS143の処理に移行する。すなわち、まとめ上げ候補[低騒音]についてのまとめ上げ作業は完了となる。そして、ステップS153の処理により、総和γが計算される。ここでは、γは、4+9+1=14となる。その後、図31の処理に移行する。
図31の処理に移行して、ステップS157の処理により、差分ε2及びε3が算出される。ここでは、ε2は、21−6=15となり、ε3は、6−0=6となる。そして、第2位までのまとめ上げ候補についての確定件数は1以上であるため、ステップS159の後、ステップS163の処理に移行する。そして、γ<ε2であるが、γ≧ε3であるため、ステップS163の後、ステップS165に移行する。そして、δi≧εiとなるのは、第3位のまとめ上げ候補だけであるため、ステップS165では、まとめ上げ候補[安全性]が新たな作業対象として特定され、まとめ上げ候補[安全性]についての選択欄が入力可能となる。その後、図28の処理に戻る。
次に、図40に示すように、ユーザは、4回目の指示として、まとめ上げ候補[安全性]の選択欄において、特徴語句「安全性」をまとめるよう指示する。そうすると、図29のステップS121乃至S125が実施され、管理テーブルは、例えば図41に示すような内容となる。図41では、特徴語句「安全性」についてのユーザチェック欄が「まとめる」に更新されている。また、まとめ上げ候補[安全性]についての確定件数が9件に更新され、まとめ上げ候補[安全性]についての未チェック件数が0件に更新されている。その後、ステップS127乃至S133の処理により、総和βが計算される。ここでは、第4位以下の各まとめ上げ候補についての最大件数の総和Aは、「まとめ上げ候補[始動性]についての最大件数」=1となる。また、第3位のまとめ上げ候補[安全性]内の特徴語句のうち、まとめない旨が指示されている特徴語句は存在しないので、件数Bは0となる。さらに、第3位以上の各まとめ上げ候補についての未チェック件数の総和Cは、「まとめ上げ候補[コスト]についての未チェック件数+まとめ上げ候補[低騒音]についての未チェック件数+まとめ上げ候補[安全性]についての未チェック件数」=0+4+0=4となる。従って、βは、1+0+4=5となる。その後、図30の処理に移行する。
図30の処理に移行して、まとめ上げ候補[安全性]は第1位のまとめ上げ候補ではないため、ステップS135の後、ステップS137の処理に移行する。そして、ステップS137の処理により、差分εが算出される。ここでは、εは、6−9=−3となる。そして、βは5であるため、β>εとなり、ステップS139の後、ステップS141の処理に移行する。そして、ここでは、αは9であるため、α>βとなり、ステップS141の後、ステップS143の処理に移行する。すなわち、まとめ上げ候補[安全性]についてのまとめ上げ作業は完了となる。そして、ステップS153の処理により、総和γが計算される。ここでは、γは、3+1+1=5となる。その後、図31の処理に移行する。
図31の処理に移行して、ステップS155の処理により、管理テーブルのレコードがソートされ、例えば図42に示すようなチューニング画面が表示される。図40に示したチューニング画面と比べると、まとめ上げ候補[安全性]とまとめ上げ候補[低騒音]との順位が入れ替わっている。その後、ステップS157の処理により、差分ε2及びε3が算出される。ここでは、ε2は、21−9=12となり、ε3は、9−6=3となる。そして、第2位までのまとめ上げ候補についての確定件数は1以上であるため、ステップS159の後、ステップS163の処理に移行する。そして、γ<ε2であるが、γ≧ε3であるため、ステップS163の後、ステップS165に移行する。そして、δi≧εiとなるのは、第3位のまとめ上げ候補だけであるため、ステップS165では、まとめ上げ候補[低騒音]が新たな作業対象として特定され、まとめ上げ候補[低騒音]についての選択欄が入力可能となる。その後、図28の処理に戻る。
次に、図43に示すように、ユーザは、5回目の指示として、まとめ上げ候補[低騒音]の選択欄において、特徴語句「騒音防止」をまとめないよう指示する。そうすると、図29のステップS121乃至S125が実施され、管理テーブルは、例えば図44に示すような内容となる。図44では、特徴語句「騒音防止」についてのユーザチェック欄が「まとめない」に更新されている。また、まとめ上げ候補[低騒音]についての未チェック件数が1件に更新されている。その後、ステップS127乃至S133の処理により、総和βが計算される。ここでは、第4位以下の各まとめ上げ候補についての最大件数の総和Aは、「まとめ上げ候補[始動性]についての最大件数」=1となる。また、第3位のまとめ上げ候補[低騒音]内の特徴語句のうち、まとめない旨が指示されている特徴語句は「騒音防止」であり、件数Bは3となる。さらに、第3位以上の各まとめ上げ候補についての未チェック件数の総和Cは、「まとめ上げ候補[コスト]についての未チェック件数+まとめ上げ候補[安全性]についての未チェック件数+まとめ上げ候補[低騒音]についての未チェック件数」=0+0+1=1となる。従って、βは、1+3+1=5となる。その後、図30の処理に移行する。
図30の処理に移行して、まとめ上げ候補[低騒音]は第1位のまとめ上げ候補ではないため、ステップS135の後、ステップS137の処理に移行する。そして、ステップS137の処理により、差分εが算出される。ここでは、εは、9−6=3となる。そして、βは5であるため、β>εとなり、ステップS139の後、ステップS141の処理に移行する。なお、ここでは、αは6であるため、α>βとなり、ステップS141の後、ステップS143の処理に移行する。すなわち、まとめ上げ候補[低騒音]についてのまとめ上げ作業は完了となる。そして、ステップS149の処理により、総和γが計算される。ここでは、γは、1+1=2となる。その後、図31の処理に移行する。
図31の処理に移行して、ステップS157の処理により、差分ε2及びε3が算出される。ここでは、ε2は、21−9=12となり、ε3は、9−6=3となる。そして、第2位までのまとめ上げ候補についての確定件数は1以上であるため、ステップS159の後、ステップS163の処理に移行する。そして、γ<ε2であり、且つ、γ<ε3であるため、第2位までのまとめ上げ候補の順位が確定したと判断され、図45に示すように、チューニング画面にチューニングが完了した旨が表示される。
なお、上で示した具体例では、3回目の指示が行われた時点で、作業対象のまとめ上げ候補[低騒音]と、1つ上位のまとめ上げ候補[コスト]との順位が入れ替わらないことが分かったので、作業対象をまとめ上げ候補[安全性]に切り替えるようになっている。ここで、3回目の指示が行われた後、作業対象を切り替えなかったとすると、例えば図46に示すように、まとめ上げ候補[低騒音]についての選択欄において、特徴語句「騒音防止」及び「低騒音化」についてまとめるか否かの指示を行うことになる。例えば、4回目の指示として、まとめ上げ候補[低騒音]の選択欄において、特徴語句「騒音防止」をまとめないよう指示し、5回目の指示として、特徴語句「低騒音化」をまとめるよう指示する。そして、6回目の指示として、まとめ上げ候補[安全性]についての選択欄において、特徴語句「安全性」をまとめるよう指示して作業完了となる。すなわち、作業対象となっているまとめ上げ候補と、1つ上位のまとめ上げ候補との順位が入れ替わらないことが分かった場合に、新たな作業対象を切り替えることで、作業量が少なくなる。
以上、本技術の実施の形態を説明したが、本技術はこれに限定されるものではない。例えば、上で説明したまとめ上げ作業支援装置の機能ブロック図は必ずしも実際のプログラムモジュール構成に対応するものではない。
また、上で説明した各テーブルの構成は一例であって、必ずしも上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
なお、上で述べたまとめ上げ作業支援装置は、コンピュータ装置であって、図49に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上本実施の形態をまとめると以下のようになる。
本技術の第1の態様に係るまとめ上げ作業支援装置(図47)は、(A)複数の文書から特徴語句を複数抽出し、特徴語句間の類似度に基づき特徴語句を分類した結果である複数の集合のうち作業対象の集合についてまとめるべき特徴語句である第1の特徴語句の指示をユーザから受け付けた場合、作業対象の集合についての第1の特徴語句を含む文書の件数である第1文書数を計数し、複数の集合の各々について当該集合に含まれる特徴語句のうち当該集合についてのまとめるべき特徴語句としてユーザから指示されている特徴語句を含む文書の件数である文書数を格納するための管理データ格納部(図47:1501)に格納されている、作業対象の集合についての文書数を第1文書数で更新する計数処理部(図47:1503)と、(B)複数の集合を文書数の多い順に並べた場合において作業対象の集合の1つ上位の集合について管理データ格納部に格納されている文書数である第2文書数と、作業対象の集合についての第1文書数との差分を計算する差分計算部(図47:1505)と、(C)計算された差分を用いて、ユーザから作業対象の集合について新たにまとめるべき第2の特徴語句を含む次の指示を受けても当該作業対象の集合と1つ上位の集合との順位が入れ替わらないという条件が満たされているか判断する判定部(図47:1507)と、(D)条件が満たされていると判断された場合、複数の集合を文書数の多い順に並べた場合において作業対象の集合より下位の集合のうちいずれかを新たな作業対象としてユーザに提示する出力部(図47:1509)とを有する。
このようにすれば、作業対象の集合と1つ上位の集合との順位が入れ替わらないことが分かった時点で、新たな作業対象がユーザに提示されることになる。作業対象の集合と1つ上位の集合との順位が入れ替わらないのであれば、他の集合についてまとめ上げ作業を行うようにした方が、作業量が少なくなる可能性がある。
また、上で述べた判定部が、複数の集合を文書数の多い順に並べた場合において上位所定順位までの集合の順位が確定したか判断し、上位所定順位までの集合の順位が確定した場合、出力部に作業完了を示すデータをユーザへ提示させるようにしてもよい。このようにすれば、ユーザは、上位所定順位までの集合が確定したことを知ることができ、不要なまとめ上げ作業を行わずに済むようになる。
さらに、上で述べた判定部が、複数の集合を文書数の多い順に並べた場合において第2位の集合から上位所定順位の1つ下位の集合までの各集合について、当該集合について管理データ格納部に格納されている文書数と当該集合の1つ上位の集合について管理データ格納部に格納されている文書数との差分を用いて、当該集合と当該集合の1つ上位の集合との順位が入れ替わらないという条件が満たされているか判断することにより、上位所定順位までの集合の順位が確定したか判断するようにしてもよい。このようにすれば、上位所定順位までの順位が確定しているかどうか判断できる。
また、上で述べた出力部が、作業対象の集合より下位の集合の中から、ユーザからまとめるか否かが指示されていない特徴語句を含む文書の件数が最も多い集合又は包含される特徴語句を含む文書の件数が最も多い集合を新たな作業対象として特定するようにしてもよい。なお、まとめるか否かが指示されていない特徴語句を含む文書の件数が最も多い集合や、包含される特徴語句を含む文書の件数が最も多い集合は、上位所定順位までに入る可能性があり、先にこれらの集合に対するまとめ上げ作業を行うようにした方が、作業量が少なくなる可能性がある。
さらに、上で述べた計数処理部が、作業対象の集合に含まれる特徴語句のうちユーザからまとめるか否かが指示されていない特徴語句を含む文書の件数である第3文書数を計数するようにしてもよい。そして、上で述べた判定部が、上記差分が第3文書数より大きいか判定し、上記差分が第3文書数より大きい場合に、条件を満たしていると判断するようにしてもよい。集合同士を統合するようなまとめ上げが行われない場合には、上記のような判定を行うことによって、作業対象の集合と1つ上位の集合との順位が入れ替わらないという条件を満たしているかどうか判断できる。
また、上で述べた計数処理部が、作業対象の集合と当該作業対象の集合より上位の集合とに含まれる特徴語句のうちユーザからまとめるか否かが指示されていない特徴語句を含む文書の件数と、作業対象の集合に含まれる特徴語句のうちユーザからまとめないと指示された特徴語句を含む文書の件数と、作業対象の集合より下位の集合に含まれる特徴語句を含む文書の件数との総和を算出するようにしてもよい。そして、上で述べた判定部が、上記差分が総和より大きいか判定し、上記差分が総和より大きい場合に、条件を満たしていると判断するようにしてもよい。集合同士を統合するようなまとめ上げが行われる場合には、上記のような判定を行うことによって、作業対象の集合と1つ上位の集合との順位が入れ替わらないという条件を満たしているかどうか判断できる。
本技術の第2の態様に係るまとめ上げ作業支援方法は、(A)複数の文書から特徴語句を複数抽出し、特徴語句間の類似度に基づき特徴語句を分類した結果である複数の集合のうち作業対象の集合についてまとめるべき特徴語句である第1の特徴語句の指示をユーザから受け付けた場合、作業対象の集合についての第1の特徴語句を含む文書の件数である第1文書数を計数し、複数の集合の各々について当該集合に含まれる特徴語句のうち当該集合についてのまとめるべき特徴語句としてユーザから指示されている特徴語句を含む文書の件数である文書数を格納するための管理データ格納部に格納されている、作業対象の集合についての文書数を第1文書数で更新する計数ステップ(図48:S1001)と、(B)複数の集合を文書数の多い順に並べた場合において作業対象の集合の1つ上位の集合について管理データ格納部に格納されている文書数である第2文書数と、作業対象の集合についての第1文書数との差分を計算するステップ(図48:S1003)と、(C)計算された差分を用いて、ユーザから作業対象の集合について新たにまとめるべき第2の特徴語句を含む次の指示を受けても当該作業対象の集合と1つ上位の集合との順位が入れ替わらないという条件が満たされているか判断する判定ステップ(図48:S1005)と、(D)条件が満たされていると判断された場合、複数の集合を文書数の多い順に並べた場合において作業対象の集合より下位の集合のうちいずれかを新たな作業対象としてユーザに提示する提示ステップ(図48:S1007)とを含む。
なお、上で述べたような処理をコンピュータに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROM、光磁気ディスク、半導体メモリ(例えばROM)、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、RAM等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき前記特徴語句を分類した結果である複数の集合のうち作業対象の集合についてまとめるべき特徴語句である第1の特徴語句の指示をユーザから受け付けた場合、前記作業対象の集合についての前記第1の特徴語句を含む文書の件数である第1文書数を計数し、前記複数の集合の各々について当該集合に含まれる特徴語句のうち当該集合についてのまとめるべき特徴語句として前記ユーザから指示されている特徴語句を含む文書の件数である文書数を格納するための管理データ格納部に格納されている、前記作業対象の集合についての文書数を前記第1文書数で更新する計数処理部と、
前記複数の集合を前記文書数の多い順に並べた場合において前記作業対象の集合の1つ上位の集合について前記管理データ格納部に格納されている文書数である第2文書数と、前記作業対象の集合についての前記第1文書数との差分を計算する差分計算部と、
計算された前記差分を用いて、前記ユーザから前記作業対象の集合について新たにまとめるべき第2の特徴語句を含む次の指示を受けても当該作業対象の集合と前記1つ上位の集合との順位が入れ替わらないという条件が満たされているか判断する判定部と、
前記条件が満たされていると判断された場合、前記複数の集合を前記文書数の多い順に並べた場合において前記作業対象の集合より下位の集合のうちいずれかを新たな作業対象として前記ユーザに提示する出力部と、
を有するまとめ上げ作業支援装置。
(付記2)
前記判定部が、
前記複数の集合を前記文書数の多い順に並べた場合において上位所定順位までの集合の順位が確定したか判断し、前記上位所定順位までの集合の順位が確定した場合、前記出力部に作業完了を示すデータを前記ユーザへ提示させる
付記1記載のまとめ上げ作業支援装置。
(付記3)
前記判定部が、
前記複数の集合を前記文書数の多い順に並べた場合において第2位の集合から前記上位所定順位の1つ下位の集合までの各集合について、当該集合について前記管理データ格納部に格納されている文書数と当該集合の1つ上位の集合について前記管理データ格納部に格納されている文書数との差分を用いて、当該集合と当該集合の1つ上位の集合との順位が入れ替わらないという条件が満たされているか判断することにより、前記上位所定順位までの集合の順位が確定したか判断する
付記2記載のまとめ上げ作業支援装置。
(付記4)
前記出力部が、
前記作業対象の集合より下位の集合の中から、前記ユーザからまとめるか否かが指示されていない特徴語句を含む文書の件数が最も多い集合又は包含される特徴語句を含む文書の件数が最も多い集合を前記新たな作業対象として特定する
付記1記載のまとめ上げ作業支援装置。
(付記5)
前記計数処理部が、
前記作業対象の集合に含まれる特徴語句のうち前記ユーザからまとめるか否かが指示されていない特徴語句を含む文書の件数である第3文書数を計数し、
前記判定部が、
前記差分が前記第3文書数より大きいか判定し、前記差分が前記第3文書数より大きい場合に、前記条件を満たしていると判断する
付記1記載のまとめ上げ作業支援装置。
(付記6)
前記計数処理部が、
前記作業対象の集合と当該作業対象の集合より上位の集合とに含まれる特徴語句のうち前記ユーザからまとめるか否かが指示されていない特徴語句を含む文書の件数と、前記作業対象の集合に含まれる特徴語句のうちユーザからまとめないと指示された特徴語句を含む文書の件数と、前記作業対象の集合より下位の集合に含まれる特徴語句を含む文書の件数との総和を算出し、
前記判定部が、
前記差分が前記総和より大きいか判定し、前記差分が前記総和より大きい場合に、前記条件を満たしていると判断する
付記1記載のまとめ上げ作業支援装置。
(付記7)
複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき前記特徴語句を分類した結果である複数の集合のうち作業対象の集合についてまとめるべき特徴語句である第1の特徴語句の指示をユーザから受け付けた場合、前記作業対象の集合についての前記第1の特徴語句を含む文書の件数である第1文書数を計数し、前記複数の集合の各々について当該集合に含まれる特徴語句のうち当該集合についてのまとめるべき特徴語句として前記ユーザから指示されている特徴語句を含む文書の件数である文書数を格納するための管理データ格納部に格納されている、前記作業対象の集合についての文書数を前記第1文書数で更新する計数ステップと、
前記複数の集合を前記文書数の多い順に並べた場合において前記作業対象の集合の1つ上位の集合について前記管理データ格納部に格納されている文書数である第2文書数と、前記作業対象の集合についての前記第1文書数との差分を計算するステップと、
計算された前記差分を用いて、前記ユーザから前記作業対象の集合について新たにまとめるべき第2の特徴語句を含む次の指示を受けても当該作業対象の集合と前記1つ上位の集合との順位が入れ替わらないという条件が満たされているか判断する判定ステップと、
前記条件が満たされていると判断された場合、前記複数の集合を前記文書数の多い順に並べた場合において前記作業対象の集合より下位の集合のうちいずれかを新たな作業対象として前記ユーザに提示する提示ステップと、
を含み、コンピュータにより実行されるまとめ上げ作業支援方法。
(付記8)
前記判定ステップが、
前記複数の集合を前記文書数の多い順に並べた場合において上位所定順位までの集合の順位が確定したか判断し、前記上位所定順位までの集合の順位が確定した場合、作業完了を示すデータを前記ユーザに提示する完了判断ステップ
を含む、付記7記載のまとめ上げ作業支援方法。
(付記9)
前記完了判断ステップにおいて、
前記複数の集合を前記文書数の多い順に並べた場合において第2位の集合から前記上位所定順位の1つ下位の集合までの各集合について、当該集合について前記管理データ格納部に格納されている文書数と当該集合の1つ上位の集合について前記管理データ格納部に格納されている文書数との差分を用いて、当該集合と当該集合の1つ上位の集合との順位が入れ替わらないという条件が満たされているか判断することにより、前記上位所定順位までの集合の順位が確定したか判断する
付記8記載のまとめ上げ作業支援方法。
(付記10)
前記提示ステップが、
前記作業対象の集合より下位の集合の中から、前記ユーザからまとめるか否かが指示されていない特徴語句を含む文書の件数が最も多い集合又は包含される特徴語句を含む文書の件数が最も多い集合を前記新たな作業対象として特定するステップ
を含む、付記7記載のまとめ上げ作業支援方法。
(付記11)
前記計数ステップが、
前記作業対象の集合に含まれる特徴語句のうち前記ユーザからまとめるか否かが指示されていない特徴語句を含む文書の件数である第3文書数を計数するステップ
を含み、
前記判定ステップが、
前記差分が前記第3文書数より大きいか判定し、前記差分が前記第3文書数より大きい場合に、前記条件を満たしていると判断するステップ
を含む、付記7記載のまとめ上げ作業支援方法。
(付記12)
前記計数ステップが、
前記作業対象の集合と当該作業対象の集合より上位の集合とに含まれる特徴語句のうち前記ユーザからまとめるか否かが指示されていない特徴語句を含む文書の件数と、前記作業対象の集合に含まれる特徴語句のうちユーザからまとめないと指示された特徴語句を含む文書の件数と、前記作業対象の集合より下位の集合に含まれる特徴語句を含む文書の件数との総和を算出するステップ
を含み、
前記判定ステップが、
前記差分が前記総和より大きいか判定し、前記差分が前記総和より大きい場合に、前記条件を満たしていると判断するステップ
を含む、付記7記載のまとめ上げ作業支援方法。
(付記13)
複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき前記特徴語句を分類した結果である複数の集合のうち作業対象の集合についてまとめるべき特徴語句である第1の特徴語句の指示をユーザから受け付けた場合、前記作業対象の集合についての前記第1の特徴語句を含む文書の件数である第1文書数を計数し、前記複数の集合の各々について当該集合に含まれる特徴語句のうち当該集合についてのまとめるべき特徴語句として前記ユーザから指示されている特徴語句を含む文書の件数である文書数を格納するための管理データ格納部に格納されている、前記作業対象の集合についての文書数を前記第1文書数で更新する計数ステップと、
前記複数の集合を前記文書数の多い順に並べた場合において前記作業対象の集合の1つ上位の集合について前記管理データ格納部に格納されている文書数である第2文書数と、前記作業対象の集合についての前記第1文書数との差分を計算するステップと、
計算された前記差分を用いて、前記ユーザから前記作業対象の集合について新たにまとめるべき第2の特徴語句を含む次の指示を受けても当該作業対象の集合と前記1つ上位の集合との順位が入れ替わらないという条件が満たされているか判断する判定ステップと、
前記条件が満たされていると判断された場合、前記複数の集合を前記文書数の多い順に並べた場合において前記作業対象の集合より下位の集合のうちいずれかを新たな作業対象として前記ユーザに提示する提示ステップと、
をコンピュータに実行させるためのまとめ上げ作業支援プログラム。
(付記14)
前記判定ステップが、
前記複数の集合を前記文書数の多い順に並べた場合において上位所定順位までの集合の順位が確定したか判断し、前記上位所定順位までの集合の順位が確定した場合、作業完了を示すデータを前記ユーザに提示する完了判断ステップ
を含む、付記13記載のまとめ上げ作業支援プログラム。
(付記15)
前記完了判断ステップにおいて、
前記複数の集合を前記文書数の多い順に並べた場合において第2位の集合から前記上位所定順位の1つ下位の集合までの各集合について、当該集合について前記管理データ格納部に格納されている文書数と当該集合の1つ上位の集合について前記管理データ格納部に格納されている文書数との差分を用いて、当該集合と当該集合の1つ上位の集合との順位が入れ替わらないという条件が満たされているか判断することにより、前記上位所定順位までの集合の順位が確定したか判断する
付記14記載のまとめ上げ作業支援プログラム。
(付記16)
前記提示ステップが、
前記作業対象の集合より下位の集合の中から、前記ユーザからまとめるか否かが指示されていない特徴語句を含む文書の件数が最も多い集合又は包含される特徴語句を含む文書の件数が最も多い集合を前記新たな作業対象として特定するステップ
を含む、付記13記載のまとめ上げ作業支援プログラム。
(付記17)
前記計数ステップが、
前記作業対象の集合に含まれる特徴語句のうち前記ユーザからまとめるか否かが指示されていない特徴語句を含む文書の件数である第3文書数を計数するステップ
を含み、
前記判定ステップが、
前記差分が前記第3文書数より大きいか判定し、前記差分が前記第3文書数より大きい場合に、前記条件を満たしていると判断するステップ
を含む、付記13記載のまとめ上げ作業支援プログラム。
(付記18)
前記計数ステップが、
前記作業対象の集合と当該作業対象の集合より上位の集合とに含まれる特徴語句のうち前記ユーザからまとめるか否かが指示されていない特徴語句を含む文書の件数と、前記作業対象の集合に含まれる特徴語句のうちユーザからまとめないと指示された特徴語句を含む文書の件数と、前記作業対象の集合より下位の集合に含まれる特徴語句を含む文書の件数との総和を算出するステップ
を含み、
前記判定ステップが、
前記差分が前記総和より大きいか判定し、前記差分が前記総和より大きい場合に、前記条件を満たしていると判断するステップ
を含む、付記13記載のまとめ上げ作業支援プログラム。