JP5347334B2 - まとめ上げ作業支援処理方法、装置及びプログラム - Google Patents

まとめ上げ作業支援処理方法、装置及びプログラム Download PDF

Info

Publication number
JP5347334B2
JP5347334B2 JP2008140291A JP2008140291A JP5347334B2 JP 5347334 B2 JP5347334 B2 JP 5347334B2 JP 2008140291 A JP2008140291 A JP 2008140291A JP 2008140291 A JP2008140291 A JP 2008140291A JP 5347334 B2 JP5347334 B2 JP 5347334B2
Authority
JP
Japan
Prior art keywords
grouping
document
documents
feature
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008140291A
Other languages
English (en)
Other versions
JP2009288999A (ja
Inventor
一成 田中
勇 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008140291A priority Critical patent/JP5347334B2/ja
Priority to US12/356,811 priority patent/US20090299997A1/en
Publication of JP2009288999A publication Critical patent/JP2009288999A/ja
Application granted granted Critical
Publication of JP5347334B2 publication Critical patent/JP5347334B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ユーザが異なる語句を適切な集合にまとめ上げる作業を行う場合において、ユーザによるまとめ上げ作業を支援するための技術に関する。
例えば、特許文献又は論文などの技術文書の集合、アンケート結果などの傾向を分析し、分析結果から知識を得ようとする場合がある。特に、特許文献から出願人、発明の対象、課題などを表す特徴語句(例えば、制御装置、低コストなど)を抽出し、抽出した特徴語句などを利用してグラフやマップを生成する手法が知られている。
ここで、例えば「コスト」、「低コスト」などのように、各々が異なる語句であっても、同義語として扱う方が望ましい場合があり、このような語句をまとめ上げる必要がある。しかし、中には、各々が類似する語句であっても、別々の特徴語句として扱う方が望ましい場合もある。そのため、まとめ上げを全て自動的に行うことは困難であり、適切な分析を行うためには、人手によるまとめ上げ作業が必要となる。なお、幾つかの文献では、特徴語句間の類似度を利用して、同義語の設定を支援する技術が開示されている。
また、まとめ上げられた特徴語句の集合は、グラフやマップを生成する際に利用されるが、例えば傾向を分析する上で重要となるのは、特徴語句を含む文献の件数が多いようなものであり、数件程度のものは傾向を分析する上であまり重要とはならない。すなわち、まとめ上げ作業を行わなくても既に膨大な件数となっている場合や、まとめ上げを行っても上位とかけ離れている場合など、まとめ上げ作業を行ったとしても分析結果に影響が及ばない場合がある。
特開2002−324077号公報 特開平08−235178号公報
しかし、従来技術では、適切な分析を行うために、ユーザがどこまでまとめ上げ作業を行うべきかを知ることができず、ユーザは、自身が満足するまで闇雲にまとめ上げ作業を行わなければならない。そのため、分析結果にあまり影響がないような不要なまとめ上げ作業を行う場合もあり、効率的とは言えない。
従って、本発明の目的は、ユーザがまとめ上げ作業を行う場合において、ユーザにまとめ上げ作業が完了したことを認識させるための技術を提供することである。
本まとめ上げ作業支援処理方法は、複数の文書から特徴語句を複数抽出し、特徴語句間の類似度に基づき、複数の集合に分類する分類ステップと、複数の集合のうち少なくともいずれかを、集合に含まれる特徴語句を認識可能な態様にてユーザに提示する集合提示ステップと、ユーザから、特定の集合に含まれる特徴語句のうち統一化の対象となる特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる統一化の対象となる特徴語句を含む文書の文書数を計数し、第1文書数として記憶装置に格納する第1文書数計数ステップと、特定の集合以外の、まとめ上げ態様又は状態の少なくともいずれかで特定される集合に含まれる特徴語句を含む文書の文書数を計数し、第2文書数として記憶装置に格納する第2文書数計数ステップと、記憶装置に格納された第1文書数と第2文書数とに基づき、所定の条件を満たしたか判定する判定ステップと、判定ステップにおいて所定の条件を満たしたと判定された場合、統一化の対象となる特徴語句の指定が完了したことをユーザに提示するステップとを含む。
ユーザがまとめ上げ作業を行う場合において、ユーザにまとめ上げ作業が完了したことを認識させることができる。
[実施の形態1]
図1乃至図25を用いて本発明の第1の実施の形態を説明する。まず、図1に本発明の実施の形態に係るまとめ上げ作業支援処理装置1の機能ブロック図を示す。図1の例では、まとめ上げ作業支援処理装置1は、特許文献などの分析対象となる文書データを格納する文書DB11と、文書DB11から特徴語句を抽出する特徴語句抽出部12と、特徴語句抽出部12が抽出した特徴語句に基づき、特徴語句間の関連度を計算し、後で説明する関連度テーブルを生成する関連度計算部13と、関連度計算部13により生成された関連度テーブルを格納する関連度テーブル格納部14と、ユーザからの絞り込み条件に基づき、文書DB11に格納された文書データの絞り込みを行う文書絞込部15と、文書絞込部15により絞り込まれた文書データと関連度テーブル格納部14に格納された関連度テーブルとに基づき、後で説明するまとめ上げ候補テーブルを生成するまとめ上げ候補生成部16と、まとめ上げ候補生成部16により生成されたまとめ上げ候補テーブルと後で説明するまとめ上げ完了フラグテーブルとを格納するまとめ上げ候補格納部17と、まとめ上げ候補格納部17に格納されたデータに基づき、まとめ上げ候補や分析結果などを出力する出力部18と、ユーザからのまとめ上げ指示の入力を受け付けるまとめ上げ指示入力部19と、まとめ上げ指示入力部19の受け付けたまとめ上げ指示に基づき、後で説明するまとめ上げ作業支援処理を実施するまとめ上げ作業支援処理部20と、まとめ上げ候補格納部17に格納されたデータに基づき、文書絞込部15により絞り込まれた文書データを分析する分析処理部21とを有する。
図2に、文書DB11に格納されるデータの一例を示す。なお、図2は、特許文献に関するデータを格納する場合の例である。図2の例では、文書DB11には、出願番号の列と、出願人の列と、発明の対象の列と、課題の列と、・・・とが含まれる。
図3に、関連度テーブル格納部14に格納される関連度テーブルの一例を示す。なお、図3は、特徴語句として、コスト、低コスト、装置コスト、製造コスト、安全性、歩行安定性、低騒音、騒音防止、・・・が抽出された場合の例である。図3の例では、関連度テーブルには、コストの列と、低コストの列と、装置コストの列と、製造コストの列と、安全性の列と、歩行安定性の列と、低騒音の列と、騒音防止の列と、・・・、統一フラグの列とが含まれる。また、関連度テーブルは、コストの行と、低コストの行と、装置コストの行と、製造コストの行と、安全性の行と、歩行安定性の行と、低騒音の行と、騒音防止の行と、・・・とを含み、行に係る特徴語句と列に係る特徴語句との間の関連度を組み合わせ毎に格納するようになっている。なお、関連度の計算処理については後で詳細に説明する。また、統一フラグの列には、当該特徴語句を他の特徴語句で統一化するか否かを表すフラグ(1:統一化する、0:統一化しない)が格納される。
図4及び図5に、まとめ上げ候補格納部17に格納されるテーブルの一例を示す。図4は、まとめ上げ候補テーブルの一例である。図4の例では、まとめ上げ候補テーブルには、まとめ上げ候補の列と、まとめ上げ候補件数の列と、特徴語句の列と、文献数の列と、ユーザチェックの列とが含まれる。文献数の列には、当該特徴語句を含む文献の件数が登録される。まとめ上げ候補の列には、当該特徴語句の統一先語句が登録される。例えば、図4の例では、コスト、低コスト、ランニングコスト及び製造コストは「コスト」への統一化が予定されていることを表す。まとめ上げ候補件数の列には、同一のまとめ上げ候補を有する特徴語句に係る文献数の総和が登録される。例えば、コスト、低コスト、ランニングコスト及び製造コストは、まとめ上げ候補に「コスト」が登録されており、これらの文献数の総和(120+38+9+4=171件)がまとめ上げ候補件数の列に登録される。また、ユーザチェックの列には、当該特徴語句をまとめ上げるか否かを表す情報が登録される。図4において、ユーザチェックの列の「まとめる」は、当該特徴語句について、ユーザから、統一化する旨の指示があったことを表す。また、ユーザチェックの列の「まとめない」は、当該特徴語句について、ユーザから、統一化しない旨の指示があったことを表す。また、ユーザチェック列の「未チェック」は、ユーザから、統一化する旨の指示がなされていないことを表す。なお、まとめ上げ候補テーブルの生成処理については、後で詳細に説明する。
また、図5は、まとめ上げ完了フラグテーブルの一例である。図5の例では、まとめ上げ完了フラグテーブルには、まとめ上げ候補の列と、完了フラグの列とが格納される。完了フラグの列には、当該まとめ上げ候補について、ユーザからのまとめ上げ指示が完了済みであるか否かを表すフラグ(1:完了済み、0:未完了)が登録される。なお、完了フラグの設定については、後で詳細に説明する。
本実施の形態におけるまとめ上げ作業支援処理装置1の具体的な処理フローを説明する前に、本実施の形態の概要を簡単に説明しておく。例えば、本実施の形態では、まとめ上げ作業支援処理装置1が、図6の左側に示すようなチューニング画面601をユーザに提示する。図6の例では、チューニング画面601には、まとめ上げボタン602と、まとめ上げ候補毎の選択欄(選択欄603乃至選択欄606)とが設けられている。さらに、各選択欄には、統一先語句と、当該まとめ上げ候補に係る特徴語句とが表示されており、各特徴語句には、当該特徴語句を統一化するか否かの指定又は当該特徴語句をまとめ上げ候補から除外するか否かの指定を行うための指定欄が対応して設けられている。そして、ユーザは、このチューニング画面601において、キーボードやマウスを操作して、まとめ上げ候補毎にまとめ上げ作業を行う。すなわち、ユーザは、まとめ上げ作業として、特徴語句を統一化するか否かの指定又は当該特徴語句をまとめ上げ候補から除外するか否かの指定を行う。
例えば、チューニング画面601では、選択欄603において、「ランニングコスト」をまとめ上げ候補(コスト)から除外すべき指定がなされており、このような状態で、まとめ上げボタン602がクリックされると、図6の右側に示すようなチューニング画面611が表示される。図6の例では、チューニング画面611には、まとめ上げボタン612と、まとめ上げ候補毎の選択欄(選択欄613乃至選択欄617)とが設けられている。チューニング画面601と比較すると、チューニング画面611では、選択欄603から「ランニングコスト」を取り除いたものが選択欄613となっており、「ランニングコスト」に係る選択欄617が新たな設けられている。なお、本実施の形態では、異なるまとめ上げ候補に含まれる特徴語句(例えば、選択欄603における「製造コスト」と、選択欄606における「製造費」)を統一化するような指定はなされないものとする。
また、本実施の形態では、まとめ上げ作業支援処理装置1が、作業中のまとめ上げ候補が所定の条件を満たしたか判定し、所定の条件を満たしたと判定された場合には、その旨をユーザに通知する。ここで、所定の条件とは、全てのまとめ上げ候補を順位付けした場合において、作業中のまとめ上げ候補が、予めユーザにより設定された順位までに入ることが保証されるか否かという条件である。例えば、所定順位までに入ることが保証されれば、現在作業中のまとめ上げ候補については、その時点でまとめ上げ作業を止めても意図した分析を行うことが可能なためである。
次に、図7乃至図25を用いて、本実施の形態におけるまとめ上げ作業支援処理装置1の具体的な処理フローを説明する。図7に、まとめ上げ作業支援処理装置1の全体の処理フローを示す。まず、ユーザは、まとめ上げ作業支援処理装置1に対して分析開始を指示し、まとめ上げ作業支援処理装置1は、ユーザからの分析開始指示を受け付ける。そして、まとめ上げ作業支援処理装置1の特徴語句抽出部12は、文書DB11から特徴語句を抽出し、一旦記憶装置に格納する(図7:ステップS1)。ここで、特徴語句には、書誌情報(例えば特許文献であれば、出願人や発明者など)や、情報抽出技術により抽出されたもの(例えば特許文献であれば、発明の課題や発明の対称として特徴を現す語句)を含む。なお、特徴語句を抽出する処理は、従来の処理と変わらないため、ここではこれ以上述べない。そして、まとめ上げ作業支援処理装置1の関連度計算部13は、記憶装置に格納された特徴語句間の関連度を計算し、関連度テーブルを生成して関連度テーブル格納部14に格納する(ステップS3)。本実施の形態では、特徴語句間の関連度を表す指標として、特徴語句を構成する文字の一致度を用いる。以下、図8及び図9を用いて、特徴語句間の関連度を計算する処理をより詳細に説明する。
まず、関連度計算部13は、記憶装置に格納された特徴語句を関連度テーブルの列及び行にそれぞれ登録する。そして、例えば図8に示すように、処理対象となる2つの特徴語句の各々を1文字単位に分解し、一致する文字の数をカウントする。図8は、「制動装置」と「制御装置」の関連度を計算する場合の例であり、一致する文字は3つ(「制」、「装」及び「置」)である。そして、一致した文字数(図8の例では3)を分解後の文字数(図8の例では4)で除することにより、一致度を算出し、関連度として関連度テーブルに格納する。このような処理を各組み合わせについて実施する。なお、図9に示すように、特徴語句を1文字単位で分解する場合もあれば、2文字単位で分解するようにしてもよい。また、3文字以上の単位で分解してもよい。さらに、例えば1文字単位による分解と2文字単位による分解とを組み合わせることも可能である。なお、特徴語句間の関連度を表す指標は、文字の一致度に限られず、例えばシソーラスなどに基づく類似度を指標に用いる場合もある。
また、まとめ上げ作業支援処理装置1の文書絞込部15が、ユーザから絞り込み条件の入力を受け付ける(ステップS5)。例えば、出願件数の多い出願人の傾向を分析したい場合には、出願件数が多い出願人に係る文書データに絞り込んだ上で分析を行った方が、より効果的である。そのため、本実施の形態では、ユーザが、分析の意図に合った絞り込み条件を入力するものとする。なお、国際特許分類(IPC)や出願時期などを絞り込み条件としてもよい。そして、文書絞込部15は、ユーザからの絞り込み条件に基づき文書データの絞り込みを行い、絞り込み後の文書データを記憶装置に格納する(ステップS7)。
そして、まとめ上げ作業支援処理装置1のまとめ上げ候補生成部16が、記憶装置に格納された絞り込み後の文書データと関連度テーブル格納部14に格納された関連度テーブルとに基づき、まとめ上げ候補生成処理を実施する(ステップS9)。
図10乃至図12を用いて、まとめ上げ候補生成処理を説明する。まず、まとめ上げ候補生成部16は、記憶装置に格納された絞り込み後の文書データから特徴語句を抽出し、特徴語句と当該特徴語句を含む文献の件数とをまとめ上げ候補テーブルに登録する(図10:ステップS21)。すなわち、まとめ上げ候補テーブルにおける特徴語句の列と文献数の列とにそれぞれ登録される。そして、まとめ上げ候補生成部16は、カウンタcを1に設定する(ステップS23)。また、まとめ上げ候補生成部16は、カウンタiを1に設定する(ステップS25)。そして、まとめ上げ候補生成部16は、まとめ上げ候補テーブルにおけるi番目の特徴語句(以下、特徴語句[i]と呼ぶ)を特定する(ステップS27)。また、まとめ上げ候補生成部16は、カウンタjを1に設定する(ステップS29)。その後、端子Aを介してステップS31(図11)の処理に移行する。
図11の説明に移行して、端子Aの後、まとめ上げ候補生成部16は、カウンタiとカウンタjとが異なる値(i≠j)であるか判断する(図11:ステップS31)。カウンタiとカウンタjとが同じ値であると判断された場合(ステップS31:Noルート)、ステップS49の処理に移行する。
一方、カウンタiとカウンタjとが異なる値であると判断された場合(ステップS31:Yesルート)、まとめ上げ候補生成部16は、まとめ上げ候補テーブルにおけるj番目の特徴語句(以下、特徴語句[j]と呼ぶ)を特定する(ステップS33)。そして、まとめ上げ候補生成部16は、関連度テーブルを参照し、特徴語句[i]及び特徴語句[j]に係る統一フラグの各々が0に設定されているか判断する(ステップS35)。特徴語句[i]及び特徴語句[j]に係る統一フラグのうちいずれかが1に設定されている場合(ステップS35:Noルート)、ステップS49の処理に移行する。
一方、特徴語句[i]及び特徴語句[j]に係る統一フラグの各々が0に設定されていると判断された場合(ステップS35:Yesルート)、まとめ上げ候補生成部16は、関連度テーブルを参照し、特徴語句[i]と特徴語句[j]間の関連度が所定基準以上であるか判断する(ステップS37)。特徴語句[i]と特徴語句[j]間の関連度が所定基準未満であると判断された場合(ステップS37:Noルート)、ステップS49の処理に移行する。
一方、特徴語句[i]と特徴語句[j]間の関連度が所定基準以上であると判断された場合(ステップS37:Yesルート)、まとめ上げ候補生成部16は、まとめ上げ候補テーブルを参照し、特徴語句[i]に係る文献数が特徴語句[j]に係る文献数より大きいか判断する(ステップS39)。特徴語句[i]に係る文献数が特徴語句[j]に係る文献数より大きいと判断された場合(ステップS39:Yesルート)、まとめ上げ候補生成部16は、特徴語句[i]を統一先語句として、まとめ上げ候補テーブルにおける特徴語句[i]及び特徴語句[j]に係るまとめ上げ候補の列に登録する(ステップS41)。また、まとめ上げ候補生成部16は、関連度テーブルにおける特徴語句[j]に係る統一フラグの列に1を設定する(ステップS43)。すなわち、特徴語句[j]は、他の特徴語句への統一化が予定されていることを示すことになる。その後、ステップS49の処理に移行する。
一方、特徴語句[i]に係る文献数が特徴語句[j]に係る文献数以下であると判断された場合(ステップS39:Noルート)、まとめ上げ候補生成部16は、特徴語句[j]を統一先語句として、まとめ上げ候補テーブルにおける特徴語句[i]及び特徴語句[j]に係るまとめ上げ候補の列に登録する(ステップS45)。また、まとめ上げ候補生成部16は、関連度テーブルにおける特徴語句[i]に係る統一フラグの列に1を設定する(ステップS47)。すなわち、特徴語句[i]は、他の特徴語句への統一化が予定されていることを示すことになる。その後、ステップS49の処理に移行する。
ステップS49の処理に移行して、まとめ上げ候補生成部16は、カウンタjがまとめ上げ候補テーブルに登録された特徴語句の総数未満であるか判断する(ステップS49)。カウンタjがまとめ上げ候補テーブルに登録された特徴語句の総数未満であると判断された場合(ステップS49:Yesルート)、まとめ上げ候補生成部16は、カウンタjをインクリメントし(ステップS51)、ステップS31の処理に戻り、上で述べた処理を繰り返す。
一方、カウンタjがまとめ上げ候補テーブルに登録された特徴語句の総数以上であると判断された場合(ステップS49:Noルート)、端子Bを介して、ステップS53(図12)の処理に移行する。
図12の説明に移行して、端子Bの後、まとめ上げ候補生成部16は、カウンタiがまとめ上げ候補テーブルに登録された特徴語句の総数未満であるか判断する(図12:ステップS53)。カウンタiがまとめ上げ候補テーブルに登録された特徴語句の総数未満であると判断された場合(ステップS53:Yesルート)、まとめ上げ候補生成部16は、カウンタiをインクリメントし、カウンタjを1に設定する(ステップS55)。その後、端子Cを介して、ステップS27(図10)の処理に戻り、上で述べた処理を繰り返す。
一方、カウンタiがまとめ上げ候補テーブルに登録された特徴語句の総数以上であると判断された場合(ステップS53:Noルート)、まとめ上げ候補生成部16は、カウンタcが所定回数未満であるか判断する(ステップS57)。カウンタcが所定回数未満であると判断された場合(ステップS57:Yesルート)、まとめ上げ候補生成部16は、関連度テーブルの統一フラグをクリア(0に設定)する(ステップS59)。また、まとめ上げ候補生成部16は、各統一先語句について、当該統一先語句に統一化が予定されている特徴語句を含む文献の件数を計数し、記憶装置に格納する(ステップS61)。その後、端子Dを介して、ステップS25(図10)の処理に戻り、上で述べた処理を繰り返す。
一方、カウンタcが所定回数以上であると判断された場合(ステップS57:Noルート)、まとめ上げ候補生成部16は、各まとめ上げ候補について、当該まとめ上げ候補に含まれる特徴語句に係る文献数の総和を計数し、まとめ上げ候補テーブルにおけるまとめ上げ候補件数の列に登録する(ステップS63)。そして、まとめ上げ候補生成処理を終了し、元の処理に戻る。なお、生成したまとめ上げ候補テーブルは、まとめ上げ候補格納部17に格納する。
以上のような処理を実施することにより、図4に示したようなまとめ上げ候補テーブルを生成することができる。なお、カウンタcを用いて、ステップS25乃至ステップS61の処理を所定回数繰り返し実行させることで、例えば「製造コスト」→「装置コスト」→「コスト」といった段階的なまとめ上げを実現することができる。
図7の説明に戻って、まとめ上げ候補生成部16は、まとめ上げ候補毎且つまとめ上げ候補件数の多い順に、まとめ上げ候補テーブルに登録されたデータをソートする(図7:ステップS11)。そして、まとめ上げ作業支援処理装置1の出力部18が、まとめ上げ候補テーブルに基づき、チューニング画面データを生成し、表示装置等に表示する(ステップS13)。例えば図13に示すようなチューニング画面が表示される。なお、文書DB11には、図14に示すようなデータが格納されているものとする。図13の例では、各まとめ上げ候補(コスト、低騒音及び安全性)についての選択欄が設けられており、太枠の選択欄(コストについての選択欄)は、まとめ上げ指示の入力が可能であることを示す。なお、本実施の形態では、ステップS11において、まとめ上げ候補件数の一番多いまとめ上げ候補の選択欄を入力可能としたチューニング画面をユーザに提示するものとする。また、図13では図示していないが、図6に示したようなまとめ上げボタンが設けられる。その後、まとめ上げ作業支援処理装置1のまとめ上げ指示入力部19及びまとめ上げ作業支援処理部20が、ユーザからのまとめ上げ指示に応じて、まとめ上げ作業支援処理を実施する(ステップS15)。なお、まとめ上げ作業支援処理では、ユーザからのまとめ上げ指示に応じて、作業中のまとめ上げ候補が、所定順位までに入ることが保証されるか否かという条件を満たしたかを判定し、当該条件を満たした場合には、ユーザにその旨を通知する。なお、所定順位は、予めユーザから設定されているものとし、以下では所定順位をnとして説明する。
図15乃至図21を用いて、まとめ上げ作業支援処理を説明する。なお、まとめ上げ作業支援処理の開始時には、完了フラグが全て0に設定されたまとめ上げ完了フラグテーブルがまとめ上げ候補格納部17に格納されているものとする。例えば、ユーザは、チューニング画面(図13)において、統一化すべき特徴語句の指定又はまとめ上げ候補から除外すべき特徴語句の指定を行い、まとめ上げボタン(図示せず)をクリックする。なお、統一化すべき特徴語句の指定又はまとめ上げ候補から除外すべき特徴語句の指定は、図6に示したように、各特徴語句に対応する指定欄において行う。そして、まとめ上げ指示入力部19は、統一化すべき特徴語句の指定又はまとめ上げ候補から除外すべき特徴語句の指定を含むまとめ上げ指示の入力を受け付ける(図15:ステップS71)。そして、まとめ上げ作業支援処理部20が、まとめ上げ指示に従って、まとめ上げ候補テーブルのユーザチェックの列を更新する(ステップS73)。また、まとめ上げ作業支援処理部20は、まとめ上げ指示に係るまとめ上げ候補を特定する。そして、まとめ上げ作業支援処理部20は、まとめ上げ指示にて指定され且つ統一化の対象となる特徴語句を含む文献の件数を計数し、文書件数αとして記憶装置に格納する(ステップS75)。また、まとめ上げ作業支援処理部20は、(n+1)位のまとめ上げ候補内の特徴語句を含む文献の件数を計数し、文書件数βとして記憶装置に格納する(ステップS77)。
そして、まとめ上げ作業支援処理部20は、文書件数αが文書件数βより大きいか、又は、特定まとめ上げ候補内の全ての特徴語句が統一化の対象になっているか判断する(ステップS79)。文書件数αが文書件数β以下であり、且つ特定まとめ上げ候補内の全ての特徴語句が統一化の対象になっていない場合(ステップS79:Noルート)、ステップS71の処理に戻る。そして、次のまとめ上げ指示の入力待ちとなる。
一方、文書件数αが文書件数βより大きい、又は、特定まとめ上げ候補内の全ての特徴語句が統一化の対象になっている場合(ステップS79:Yesルート)、まとめ上げ作業支援処理部20は、まとめ上げ完了フラグテーブルの特定まとめ上げ候補に係る完了フラグを1に設定する(ステップS81)。また、まとめ上げ作業支援処理部20は、チューニング画面上に特定まとめ上げ候補のチューニングが完了した旨を表示する(ステップS83)。例えば図16に示すようなチューニング画面が表示装置に表示される。図16は、図13で示したチューニング画面において、統一化すべき特徴語句として「コスト(3件)」が指定された場合の例である(n=2であるものとする)。このとき、まとめ上げ候補テーブルには図17に示すようなデータが格納される。図16に示すような状態において、ステップS75及びステップS77が実行されると、文書件数αは3(すなわち、まとめ上げ候補(コスト)内の統一化の対象となる特徴語句(コスト)を含む文献(特願平05-000001、特願平10-000006及び特願2002-000009)の件数)、文書件数βは1(すなわち、第3位のまとめ上げ候補(安全性)内の特徴語句(安全性)を含む文献(特願平09-000005)の件数)となる。すなわち、α>βであり、まとめ上げ候補(コスト)が、2位までに入ることが保証されたため、図16に示すように、まとめ上げ候補(コスト)についてのチューニングの完了を表示する。その後、端子Eを介して、ステップS85(図18)の処理に移行する。
図18の説明に移行して、端子Eの後、まとめ上げ作業支援処理部20は、まとめ上げ指示に、除外すべき特徴語句の指定が含まれているか判断する(図18:ステップS85)。まとめ上げ指示に、除外すべき特徴語句の指定が含まれている場合(ステップS85:Yesルート)、まとめ上げ作業支援処理部20は、該当する特徴語句から新たなまとめ上げ候補を生成し、まとめ上げ候補テーブルに登録する(ステップS87)。その後、ステップS89の処理に移行する。
一方、まとめ上げ指示に、除外すべき特徴語句の指定が含まれていなければ(ステップS85:Noルート)、ステップS87の処理をスキップし、ステップS89の処理に移行する。
そして、まとめ上げ作業支援処理部20は、まとめ上げ完了フラグテーブルにおいて完了フラグが1に設定された各まとめ上げ候補について、当該まとめ上げ候補内の統一化の対象となる特徴語句を含む文献の件数を計数し、記憶装置に格納する(ステップS89)。また、まとめ上げ作業支援処理部20は、まとめ上げ完了フラグテーブルにおいて完了フラグが0に設定された各まとめ上げ候補について、当該まとめ上げ候補内の特徴語句を含む文献の件数を計数し、記憶装置に格納する(ステップS91)。
そして、まとめ上げ作業支援処理部20は、ステップS89及びステップS91において計数した件数の多い順にまとめ上げ候補をソートし、ソート結果を記憶装置に格納する(ステップS93)。そして、まとめ上げ作業支援処理部20は、第1位から第n位までのまとめ上げ候補に係る完了フラグが全て1に設定されているか判断する(ステップS95)。第1位から第n位までのまとめ上げ候補に係る完了フラグが全て1に設定されていなければ(ステップS95:Noルート)、まとめ上げ作業支援処理部20は、完了フラグが0に設定されたまとめ上げ候補のうち文献の件数の最も多いまとめ上げ候補の選択欄を入力可能に設定する(ステップS97)。その後、端子Fを介して、ステップS71(図15)の処理に戻る。そして、次のまとめ上げ指示の入力待ちとなる。例えば図16のような状態において、ステップS89乃至ステップS93の処理が実行されると、低騒音(5件、完了フラグ:0)、コスト(3件、完了フラグ:1)、安全性(1件、完了フラグ:0)の順にソートされる。ここで、低騒音(第1位)の完了フラグは0に設定されているため、ステップS97において低騒音の選択欄が入力可能に設定され、次のまとめ上げ指示の入力待ちとなる。例えば、次のまとめ上げ指示にて、統一化すべき特徴語句として「低騒音(3件)」が指定され、ステップS71乃至ステップS83の処理が実行されると、図19に示すようなチューニング画面が表示される。なお、このとき、まとめ上げ候補テーブルには図20に示すようなデータが格納される。図19では、まとめ上げ候補(低騒音)が、2位までに入ることが保証されたため、まとめ上げ候補(低騒音)についてのチューニングの完了が表示されている。
一方、第1位から第n位までのまとめ上げ候補に係る完了フラグが全て1に設定されていると判断された場合(ステップS95:Yesルート)、まとめ上げ作業支援処理部20は、チューニング画面上に全体のチューニングが完了した旨を表示する(ステップS99)。例えば図19に示したような状態において、ステップS89乃至ステップS93の処理が実行されると、コスト(3件、完了フラグ:1)、低騒音(3件、完了フラグ:1)、安全性(1件、完了フラグ:0)の順にソートされる。ここで、コスト及び低騒音の完了フラグが1に設定されているため、ステップS99において、図21に示すようなチューニング画面が表示される。そして、まとめ上げ作業支援処理を終了し、元の処理に戻る。
図7の説明に戻って、まとめ上げ作業支援処理装置1の分析処理部21は、まとめ上げ候補テーブルに基づき、文書絞込部15により絞り込まれた文書データを分析し、分析結果を表示する(図7:ステップS17)。例えば図22に示すような分析結果画面が表示される。図22は、出願人毎に、課題の件数をグラフで表したものである。
以上のような処理を実施することにより、分析を行う際に必要となるまとめ上げ作業をユーザが行う場合に、ユーザは、まとめ上げ作業が完了したことを認識することができ、余計なまとめ上げ作業を行わずに済むようになる。
なお、例えば、図23に示すように、まとめ上げ候補から複数の特徴語句(図23では、低コスト及び製造コスト)を除外するような指定がなされた場合、図24に示すようなチューニング画面が表示される。図24は、ステップS87において、該当する特徴語句毎に新たなまとめ上げ候補を生成した場合の例である。一方で、該当する特徴語句間の関連度に基づき、同一のまとめ上げ候補にするか否かを判定し、関連度が所定基準以上であれば同一のまとめ上げ候補として新たに生成するようにしてもよい。この場合、図25に示すようなチューニング画面が表示される。
[実施の形態2]
次に、図26乃至図34を用いて本発明の第2の実施の形態を説明する。なお、第2の実施の形態におけるまとめ上げ作業支援処理装置1の機能ブロック図は、基本的には図1に示したものと同じである。上で述べた第1の実施の形態では、異なるまとめ上げ候補に含まれる特徴語句を統一化するような指定がなされないことを前提としていたが、ユーザが、異なるまとめ上げ候補に含まれる特徴語句を統一したいと考える場合もある。そこで、第2の実施の形態では、まとめ上げ作業支援処理装置1が、図26の左側に示すようなチューニング画面2601をユーザに提示する。
図26の例では、チューニング画面2601には、まとめ上げボタン2602と、まとめ上げ候補毎の選択欄(選択欄2603乃至選択欄2606)とが設けられている。さらに、各選択欄には、統一先語句と、当該まとめ上げ候補に係る特徴語句とが表示されており、統一化すべきまとめ上げ候補を選択するためのチェックボックス2607乃至チェックボックス2610が設けられている。また、各特徴語句には、当該特徴語句を統一化するか否かの指定又は当該特徴語句をまとめ上げ候補から除外するか否かの指定を行うための指定欄が対応して設けられている。そして、ユーザは、異なるまとめ上げ候補に含まれる特徴語句を統一したい場合には、マウスやキーボードなどを操作して、チェックボックス2607乃至チェックボックス2610にチェックを付す。
例えば、チューニング画面2601では、選択欄2603に係るチェックボックス2607と選択欄2606に係るチェックボックス2610とにチェックが付されている。このような状態で、まとめ上げボタン2602がクリックされると、図26の右側に示すようなチューニング画面2611が表示される。図26の例では、チューニング画面2611には、まとめ上げボタン2612と、まとめ上げ候補毎の選択欄(選択欄2613乃至選択欄2615)とが設けられている。チューニング画面2601と比較すると、チューニング画面2611では、選択欄2603と選択欄2606とが統合して選択欄2613となっている。このように、第2の実施の形態では、チェックボックスにチェックが付されたまとめ上げ候補が1つのまとめ上げ候補として統合されるものとする。
図27乃至図34を用いて、本実施の形態におけるまとめ上げ作業支援処理装置1の具体的な処理フローを説明する。なお、まとめ上げ作業支援処理装置1の全体の処理フローは、図7に示した処理フローと基本的には同じであるが、本実施の形態では、ステップS15において、図28及び図31に示すようなまとめ上げ作業支援処理を実施する。以下、本実施の形態におけるまとめ上げ作業支援処理を説明する。なお、本実施の形態では、ステップS13において、図27に示すようなチューニング画面データが生成され、表示装置に表示されているものとする。図27の例では、各まとめ上げ候補(コスト、低騒音及び安全性)についての選択欄が設けられており、選択欄にはチェックボックスが設けられている。なお、太枠の選択欄(コストについての選択欄)は、まとめ上げ指示の入力が可能であることを示す。また、図27では図示していないが、図26に示したようなまとめ上げボタンが設けられる。また、まとめ上げ作業支援処理の開始時には、完了フラグが全て0に設定されたまとめ上げ完了フラグテーブルがまとめ上げ候補格納部17に格納されているものとする。また、文書DB11には、図14に示すようなデータが格納されているものとする。
例えば、ユーザは、チューニング画面(図27)において、統一化すべき特徴語句の指定又はまとめ上げ候補から除外すべき特徴語句の指定を行い、2以上のまとめ上げ候補を統合する場合には、該当するまとめ上げ候補に係るチェックボックスにチェックを付す。そして、ユーザは、まとめ上げボタン(図示せず)をクリックする。まとめ上げ指示入力部19は、ユーザからのまとめ上げ指示の入力を受け付ける(図28:ステップS101)。なお、まとめ上げ指示には、統一化すべき特徴語句の指定、まとめ上げ候補から除外すべき特徴語句の指定又は統合すべきまとめ上げ候補の指定が含まれる。そして、まとめ上げ作業支援処理部20が、まとめ上げ指示に従って、まとめ上げ候補テーブルのユーザチェックの列を更新する(ステップS103)。また、まとめ上げ作業支援処理部20は、まとめ上げ指示に係るまとめ上げ候補を特定する。そして、まとめ上げ作業支援処理部20は、まとめ上げ指示にて指定され且つ統一化の対象となる特徴語句を含む文献の件数を計数し、文書件数αとして記憶装置に格納する(ステップS105)。また、まとめ上げ作業支援処理部20は、完了フラグが0に設定されたまとめ上げ候補内の特徴語句を含む文献の件数と、除外すべき特徴語句を含む文献の件数との総和βを計数する(ステップS107)。なお、まとめ上げ指示に、除外すべき特徴語句の指定が含まれていなければ、完了フラグが0に設定されたまとめ上げ候補内の特徴語句を含む文献の件数を総和βとする。
そして、まとめ上げ作業支援処理部20は、文書件数αが総和βより大きいか、又は、特定まとめ上げ候補内の全ての特徴語句が統一化の対象になっているか判断する(ステップS109)。文書件数αが総和β以下であり、且つ特定まとめ上げ候補内の全ての特徴語句が統一化の対象になっていない場合(ステップS109:Noルート)、ステップS101の処理に戻る。そして、次のまとめ上げ指示の入力待ちとなる。
一方、文書件数αが総和βより大きい、又は、特定まとめ上げ候補内の全ての特徴語句が統一化の対象になっている場合(ステップS109:Yesルート)、まとめ上げ作業支援処理部20は、まとめ上げ完了フラグテーブルの特定まとめ上げ候補に係る完了フラグを1に設定する(ステップS111)。また、まとめ上げ作業支援処理部20は、チューニング画面上に特定まとめ上げ候補のチューニングが完了した旨を表示する(ステップS113)。例えば図29に示すようなチューニング画面が表示装置に表示される。図29は、図27で示したチューニング画面において、統一化すべき特徴語句として「コスト(3件)」及び「低コスト(3件)」が指定された場合の例である(n=2であるものとする)。このとき、まとめ上げ候補テーブルには図30に示すようなデータが格納される。図29に示すような状態において、ステップS105及びステップS107が実行されると、文書件数αは6(すなわち、まとめ上げ候補(コスト)内の統一化の対象となる特徴語句(コスト、低コスト)を含む文献(特願平05-000001、特願平06-000002、特願平10-000006、特願2001-000008、特願2002-000009及び特願2003-000010)の件数)、総和βは5(すなわち、完了フラグが0に設定されたまとめ上げ候補(低騒音、安全性)内の特徴語句(低騒音、騒音防止、安全性)を含む文献(特願平07-000003、特願平09-000005、特願平10-000006、特願2000-000007及び特願2003-000010)の件数)となる。すなわち、α>βであり、まとめ上げ候補(コスト)が、2位までに入ることが保証されたため、図29に示すように、まとめ上げ候補(コスト)についてのチューニングの完了を表示する。その後、端子Gを介して、ステップS115(図31)の処理に移行する。
図31の説明に移行して、端子Gの後、まとめ上げ作業支援処理部20は、まとめ上げ指示に、除外すべき特徴語句の指定が含まれているか判断する(図31:ステップS115)。まとめ上げ指示に、除外すべき特徴語句の指定が含まれている場合(ステップS115:Yesルート)、まとめ上げ作業支援処理部20は、該当する特徴語句から新たなまとめ上げ候補を生成し、まとめ上げ候補テーブルに登録する(ステップS117)。その後、ステップS119の処理に移行する。
一方、まとめ上げ指示に、除外すべき特徴語句の指定が含まれていなければ(ステップS115:Noルート)、ステップS117の処理をスキップし、ステップS119の処理に移行する。
そして、まとめ上げ作業支援処理部20は、まとめ上げ完了フラグテーブルにおいて完了フラグが1に設定された各まとめ上げ候補について、当該まとめ上げ候補内の統一化の対象となる特徴語句を含む文献の件数を計数し、記憶装置に格納する(ステップS119)。また、まとめ上げ作業支援処理部20は、まとめ上げ完了フラグテーブルにおいて完了フラグが0に設定された各まとめ上げ候補について、当該まとめ上げ候補内の特徴語句を含む文献の件数を計数し、文献の件数の総和γを算出して記憶装置に格納する(ステップS121)。
そして、まとめ上げ作業支援処理部20は、ステップS119において計数した件数の多い順に、完了フラグが1に設定されたまとめ上げ候補をソートし、ソート結果を記憶装置に格納する(ステップS123)。そして、完了フラグが1に設定されたまとめ上げ候補の数がn未満であるか判断する(ステップS125)。完了フラグが1に設定されたまとめ上げ候補の数がn未満であると判断された場合(ステップS125:Yesルート)、まとめ上げ作業支援処理部20は、完了フラグが0に設定されたまとめ上げ候補のうち文献の件数の最も多いまとめ上げ候補の選択欄を入力可能に設定する(ステップS127)。その後、端子Hを介して、ステップS101(図28)の処理に戻る。そして、次のまとめ上げ指示の入力待ちとなる。例えば図29のような状態では、完了フラグが1に設定されたまとめ上げ候補は1つであるため、ステップS127において低騒音の選択欄が入力可能に設定され、次のまとめ上げ指示の入力待ちとなる。例えば、次のまとめ上げ指示にて、統一化すべき特徴語句として「低騒音(3件)」が指定され、ステップS101乃至ステップS113の処理が実行されると、図32に示すようなチューニング画面が表示される。なお、このとき、まとめ上げ候補テーブルには図33に示すようなデータが格納される。図32では、まとめ上げ候補(低騒音)が、2位までに入ることが保証されたため、まとめ上げ候補(低騒音)についてのチューニングの完了が表示されている。
一方、完了フラグが1に設定されたまとめ上げ候補の数がn以上であると判断された場合(ステップS125:Noルート)、まとめ上げ作業支援処理部20は、記憶装置に格納されたソート結果に基づき、第n位のまとめ上げ候補の文献の件数がγより大きいか判断する(ステップS129)。第n位のまとめ上げ候補の文献の件数がγ以下の場合(ステップS129:Noルート)、上で述べたステップS127の処理に移行する。
一方、第n位のまとめ上げ候補の文献の件数がγより大きいと判断された場合(ステップS129:Yesルート)、まとめ上げ作業支援処理部20は、チューニング画面上に全体のチューニングが完了した旨を表示する(ステップS131)。例えば図32に示したような状態において、ステップS119乃至ステップS123の処理が実行されると、コスト(6件、完了フラグ:1)、低騒音(3件、完了フラグ:1)の順にソートされ、γは1(すなわち、まとめ上げ候補(安全性)内の特徴語句(安全性)を含む文献(特願平09-000005)の件数)となる。ここで、第2位のまとめ上げ候補(低騒音)内の統一化の対象となる特徴語句を含む文献の件数はγ以上であるため、ステップS131において、図34に示すようなチューニング画面が表示される。そして、まとめ上げ作業支援処理を終了し、元の処理に戻る。
以上のような処理を実施することにより、異なるまとめ上げ候補に含まれる特徴語句を統一化するような指定を行う場合においても、ユーザは、まとめ上げ作業が完了したことを認識することができ、余計なまとめ上げ作業を行わずに済むようになる。
以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した機能ブロック図は必ずしも実際のプログラムモジュール構成に対応するものではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
また、上で説明した各テーブルの構成は一例であって、必ずしも上記のような構成でなければならないわけではない。さらに、上で述べた画面例は一例であって、同様の内容を表示する他の画面構成を採用することも可能である。
以上述べた本発明の実施の形態は、以下のような態様にまとめることができる。
本発明に係るまとめ上げ作業支援処理方法は、複数の文書から特徴語句を複数抽出し、特徴語句間の類似度に基づき、複数の集合に分類する分類ステップと、複数の集合のうち少なくともいずれかを、集合に含まれる特徴語句を認識可能な態様にてユーザに提示する集合提示ステップと、ユーザから、特定の集合に含まれる特徴語句のうち統一化の対象となる特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる統一化の対象となる特徴語句を含む文書の文書数を計数し、第1文書数として記憶装置に格納する第1文書数計数ステップと、特定の集合以外の、まとめ上げ態様又は状態の少なくともいずれかで特定される集合に含まれる特徴語句を含む文書の文書数を計数し、第2文書数として記憶装置に格納する第2文書数計数ステップと、記憶装置に格納された第1文書数と第2文書数とに基づき、所定の条件を満たしたか判定する判定ステップと、判定ステップにおいて所定の条件を満たしたと判定された場合、統一化の対象となる特徴語句の指定が完了したことをユーザに提示するステップとを含む。
このようにすれば、所定の条件を満たすような状態までまとめ上げ作業が行われると、その時点で、まとめ上げ作業の完了通知がユーザになされるため、ユーザは、まとめ上げ作業が完了したことを認識できるようになる。例えば分析の目的に合った条件を設定しておくことで、分析結果にあまり影響しないようなまとめ上げ作業を省略でき、まとめ上げ作業を効率的に行うことが可能になる。
また、上で述べた第2文書数計数ステップが、特定の集合以外の集合毎に第2文書数を計数するステップを含むようにしてもよい。そして、上で述べた判定ステップが、第1文書数と各第2文書数とによって複数の集合を順位付けした場合の特定の集合の順位が所定順位内であるか判定するステップと、特定の集合の順位が所定順位内であると判定された場合に、所定の条件を満たしたと判断するステップとを含むようにしてもよい。例えば、集合毎(すなわち、まとめ上げ候補毎)に当該集合内に含まれる特徴語句のまとめ上げを行う場合であれば、このような判定を行うことで、所定順位内に入るか否かを判断することが可能である。
さらに、上で述べた判定ステップが、第1文書数が第2文書数より大きいか判定するステップと、第1文書数が第2文書数より大きいと判定された場合に、所定の条件を満たしたと判断するステップとを含むようにしてもよい。また、上で述べた第2文書数計数ステップが、特定の集合以外の集合のうち、特徴語句の指定が完了した集合がある場合には、特徴語句の指定が完了していない集合に含まれる特徴語句を含む文書の文書数を第2文書数として計数するステップを含むようにしてもよい。例えば、ある集合に含まれる特徴語句と他の集合に含まれる特徴語句とのまとめ上げを行う場合であっても、このような判定を行うことで、所定順位内に入るか否かを判断することが可能である。
さらに、上で述べた第1文書数計数ステップが、まとめ上げ指示に、特定の集合から除外すべき特徴語句の指定が含まれる場合、当該除外すべき特徴語句を特定の集合から除外し、新たな集合とするステップを含むようにしてもよい。このようにすれば、ある特徴語句を集合から除外させたい場合にも対応できるようになる。
また、上で述べた分類ステップが、ユーザから文書絞り込み条件の入力を受け付け、当該文書絞り込み条件に従って文書の絞り込みを行い、絞り込み後の文書から特徴語句を抽出するステップを含むようにしてもよい。このように文書の絞り込みを行うことで、より効果的な分析を行うことができるようになる。
さらに、上で述べた集合提示ステップが、集合毎に当該集合に含まれる特徴語句を含む文書の文書数を計数し、文書数の多い集合を優先提示するステップを含むようにしてもよい。例えば、文書数の多い集合は、グラフやマップなどの分析結果に大きく影響するため、このように優先提示することで、より効果の高いまとめ上げ作業を行うことが可能となる。
また、上で述べたまとめ上げ態様が、集合毎に当該集合内に含まれる特徴語句のまとめ上げを行う場合において、次のまとめ上げ指示を受けても、上位所定順位までの各集合が、所定順位より下位の集合と入れ替わらないことを保証するような態様、又は、集合に含まれる特徴語句と他の集合に含まれる特徴語句とのまとめ上げを行う場合において、次のまとめ上げ指示を受けても、上位所定順位までの各集合が、所定順位より下位の集合と入れ替わらないことを保証するような態様である場合もある。
なお、まとめ上げ作業支援処理装置1は、図35のようなコンピュータ装置であって、メモリ2501(記憶装置)とCPU2503(処理装置)とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施の形態における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本発明の実施の形態では、上で述べた処理を実施するためのアプリケーション・プログラムはリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
(付記1)
複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき、複数の集合に分類する分類ステップと、
前記複数の集合のうち少なくともいずれかを、前記集合に含まれる前記特徴語句を認識可能な態様にてユーザに提示する集合提示ステップと、
前記ユーザから、特定の集合に含まれる前記特徴語句のうち統一化の対象となる特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる前記統一化の対象となる特徴語句を含む前記文書の文書数を計数し、第1文書数として記憶装置に格納する第1文書数計数ステップと、
前記特定の集合以外の、まとめ上げ態様又は状態の少なくともいずれかで特定される集合に含まれる前記特徴語句を含む前記文書の文書数を計数し、第2文書数として前記記憶装置に格納する第2文書数計数ステップと、
前記記憶装置に格納された前記第1文書数と前記第2文書数とに基づき、所定の条件を満たしたか判定する判定ステップと、
前記判定ステップにおいて前記所定の条件を満たしたと判定された場合、前記統一化の対象となる特徴語句の指定が完了したことを前記ユーザに提示するステップと、
を含み、コンピュータにより実行されるまとめ上げ作業支援処理方法。
(付記2)
前記第2文書数計数ステップが、
前記特定の集合以外の集合毎に前記第2文書数を計数するステップ
を含み、
前記判定ステップが、
前記第1文書数と各前記第2文書数とによって前記複数の集合を順位付けした場合の前記特定の集合の順位が所定順位内であるか判定するステップと、
前記特定の集合の順位が所定順位内であると判定された場合に、前記所定の条件を満たしたと判断するステップと、
を含む付記1記載のまとめ上げ作業支援処理方法。
(付記3)
前記判定ステップが、
前記第1文書数が前記第2文書数より大きいか判定するステップと、
前記第1文書数が前記第2文書数より大きいと判定された場合に、前記所定の条件を満たしたと判断するステップと、
を含む付記1記載のまとめ上げ作業支援処理方法。
(付記4)
前記第2文書数計数ステップが、
前記特定の集合以外の集合のうち、前記特徴語句の指定が完了した前記集合がある場合には、前記特徴語句の指定が完了していない前記集合に含まれる前記特徴語句を含む前記文書の文書数を前記第2文書数として計数するステップ
を含む付記3記載のまとめ上げ作業支援処理方法。
(付記5)
前記第1文書数計数ステップが、
前記まとめ上げ指示に、前記特定の集合から除外すべき特徴語句の指定が含まれる場合、当該除外すべき特徴語句を前記特定の集合から除外し、新たな集合とするステップ
を含む付記1乃至4のいずれか1つ記載のまとめ上げ作業支援処理方法。
(付記6)
前記分類ステップが、
前記ユーザから文書絞り込み条件の入力を受け付け、当該文書絞り込み条件に従って前記文書の絞り込みを行い、絞り込み後の前記文書から前記特徴語句を抽出するステップ
を含む付記1記載のまとめ上げ作業支援処理方法。
(付記7)
前記集合提示ステップが、
前記集合毎に当該集合に含まれる前記特徴語句を含む前記文書の文書数を計数し、文書数の多い前記集合を優先提示するステップ
を含む付記1記載のまとめ上げ作業支援処理方法。
(付記8)
前記まとめ上げ態様が、前記集合毎に当該集合内に含まれる前記特徴語句のまとめ上げを行う場合において、次の前記まとめ上げ指示を受けても、上位所定順位までの各集合が、所定順位より下位の集合と入れ替わらないことを保証するような態様、又は、前記集合に含まれる前記特徴語句と他の集合に含まれる前記特徴語句とのまとめ上げを行う場合において、次の前記まとめ上げ指示を受けても、上位所定順位までの各集合が、所定順位より下位の集合と入れ替わらないことを保証するような態様である
ことを特徴とする付記1記載のまとめ上げ作業支援処理方法。
(付記9)
複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき、複数の集合に分類する分類手段と、
前記複数の集合のうち少なくともいずれかを、前記集合に含まれる前記特徴語句を認識可能な態様にてユーザに提示する集合提示手段と、
前記ユーザから、特定の集合に含まれる前記特徴語句のうち統一化の対象となる特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる前記統一化の対象となる特徴語句を含む前記文書の文書数を計数し、第1文書数として記憶装置に格納する第1文書数計数手段と、
前記特定の集合以外の集合に含まれる前記特徴語句を含む前記文書の文書数を計数し、第2文書数として前記記憶装置に格納する第2文書数計数手段と、
前記記憶装置に格納された前記第1文書数と前記第2文書数とに基づき、所定の条件を満たしたか判定する判定手段と、
前記判定手段において前記所定の条件を満たしたと判定された場合、前記統一化の対象となる特徴語句の指定が完了したことを前記ユーザに提示する手段と、
を有するまとめ上げ作業支援処理装置。
(付記10)
複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき、複数の集合に分類する分類ステップと、
前記複数の集合のうち少なくともいずれかを、前記集合に含まれる前記特徴語句を認識可能な態様にてユーザに提示する集合提示ステップと、
前記ユーザから、特定の集合に含まれる前記特徴語句のうち統一化の対象となる特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる前記統一化の対象となる特徴語句を含む前記文書の文書数を計数し、第1文書数として記憶装置に格納する第1文書数計数ステップと、
前記特定の集合以外の、まとめ上げ態様又は状態の少なくともいずれかで特定される集合に含まれる前記特徴語句を含む前記文書の文書数を計数し、第2文書数として前記記憶装置に格納する第2文書数計数ステップと、
前記記憶装置に格納された前記第1文書数と前記第2文書数とに基づき、所定の条件を満たしたか判定する判定ステップと、
前記判定ステップにおいて前記所定の条件を満たしたと判定された場合、前記統一化の対象となる特徴語句の指定が完了したことを前記ユーザに提示するステップと、
をコンピュータに実行させるためのまとめ上げ作業支援処理プログラム。
まとめ上げ作業支援処理装置の機能ブロック図である。 文書DBに格納されるデータの一例を示す図である。 関連度テーブルの一例を示す図である。 まとめ上げ候補テーブルの一例を示す図である。 まとめ上げ完了フラグテーブルの一例を示す図である。 第1の実施の形態におけるチューニング画面の一例を示す図である。 まとめ上げ作業支援処理装置の全体の処理フローを示す図である。 関連度計算処理を説明するための図である。 関連度計算処理を説明するための図である。 まとめ上げ候補生成処理の処理フロー(第1の部分)を示す図である。 まとめ上げ候補生成処理の処理フロー(第2の部分)を示す図である。 まとめ上げ候補生成処理の処理フロー(第3の部分)を示す図である。 第1の実施の形態におけるチューニング画面の一例を示す図である。 文書DBに格納されるデータの一例を示す図である。 第1の実施の形態におけるまとめ上げ作業支援処理の処理フロー(第1の部分)を示す図である。 第1の実施の形態におけるチューニング画面の一例を示す図である。 まとめ上げ候補テーブルの一例を示す図である。 第1の実施の形態におけるまとめ上げ作業支援処理の処理フロー(第2の部分)を示す図である。 第1の実施の形態におけるチューニング画面の一例を示す図である。 まとめ上げ候補テーブルの一例を示す図である。 第1の実施の形態におけるチューニング画面の一例を示す図である。 分析結果画面の一例を示す図である。 第1の実施の形態におけるチューニング画面の一例を示す図である。 第1の実施の形態におけるチューニング画面の一例を示す図である。 第1の実施の形態におけるチューニング画面の一例を示す図である。 第2の実施の形態におけるチューニング画面の一例を示す図である。 第2の実施の形態におけるチューニング画面の一例を示す図である。 第2の実施の形態におけるまとめ上げ作業支援処理の処理フロー(第1の部分)を示す図である。 第2の実施の形態におけるチューニング画面の一例を示す図である。 まとめ上げ候補テーブルの一例を示す図である。 第2の実施の形態におけるまとめ上げ作業支援処理の処理フロー(第2の部分)を示す図である。 第2の実施の形態におけるチューニング画面の一例を示す図である。 まとめ上げ候補テーブルの一例を示す図である。 第2の実施の形態におけるチューニング画面の一例を示す図である。 コンピュータの機能ブロック図である。
符号の説明
1 まとめ上げ作業支援処理装置
11 文書DB 12 特徴語句抽出部
13 関連度計算部 14 関連度テーブル格納部
15 文書絞込部 16 まとめ上げ候補生成部
17 まとめ上げ候補格納部 18 出力部
19 まとめ上げ指示入力部 20 まとめ上げ作業支援処理部
21 分析処理部

Claims (8)

  1. 複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき、複数の集合に分類する分類ステップと、
    前記複数の集合の中のいずれかである第1の集合を、前記第1の集合に含まれる徴語句を認識可能な態様にてユーザに提示する集合提示ステップと、
    前記ユーザから、前記第1の集合に含まれる前記特徴語句のうち統一化の対象となる第1の特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる前記統一化の対象となる前記第1の特徴語句を含み且つ前記第1の集合に含まれる文書の文書数の総和を計数し、第1文書数として記憶装置に格納する第1文書数計数ステップと、
    前記複数の集合における前記第1の集合とは異なる第2の集合について、前記第2の集合に含まれる第2の特徴語句を含む前記文書の文書数の総和を計数し、第2文書数として前記記憶装置に格納する第2文書数計数ステップと、
    前記記憶装置に格納された前記第1文書数と前記第2文書数とに基づき、所定の条件を満たしたか判定する判定ステップと、
    前記判定ステップにおいて前記所定の条件を満たしたと判定された場合、前記第1の集合に含まれる統一化の対象となる前記第1の特徴語句の指定が完了したことを前記ユーザに提示するステップと、
    を含み、コンピュータにより実行されるまとめ上げ作業支援処理方法。
  2. 前記まとめ上げ指示は、前記第1の集合に含まれる複数の特徴語句のうち、2以上の異なる特徴語句である第1の特徴語句の指定を含む
    ことを特徴とする請求項1記載のまとめ上げ作業支援処理方法。
  3. 前記第2の集合の数が複数であり、
    前記第2文書数計数ステップが、
    前記第2の集合毎に前記第2文書数を計数するステップ
    を含み、
    前記判定ステップが、
    前記第1文書数と各前記第2文書数とによって前記第1の集合と前記第2の集合とを含む複数の集合を順位付けした場合の前記第1の集合の順位が所定順位内であるか判定するステップと、
    前記第1の集合の順位が所定順位内であると判定された場合に、前記所定の条件を満たしたと判断するステップと、
    を含む請求項1又は2記載のまとめ上げ作業支援処理方法。
  4. 前記判定ステップが、
    前記第1文書数が前記第2文書数より大きいか判定するステップと、
    前記第1文書数が前記第2文書数より大きいと判定された場合に、前記所定の条件を満たしたと判断するステップと、
    を含む請求項1又は2記載のまとめ上げ作業支援処理方法。
  5. 前記第2文書数計数ステップが、
    前記第2の集合に、統一化の対象となる特徴語句の指定が完了した集合が含まれる場合には、指定が完了した集合とは異なる、前記特徴語句の指定が完了していない第2の集合に含まれる前記特徴語句を含む前記文書の文書数の総和を前記第2文書数として計数するステップ
    を含む請求項記載のまとめ上げ作業支援処理方法。
  6. 前記分類ステップが、
    前記ユーザから文書絞り込み条件の入力を受け付け、当該文書絞り込み条件に従って前記文書の絞り込みを行い、絞り込み後の前記文書から前記特徴語句を抽出するステップ
    を含む請求項1記載のまとめ上げ作業支援処理方法。
  7. 複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき、複数の集合に分類する分類手段と、
    前記複数の集合の中のいずれかである第1の集合を、前記第1の集合に含まれる徴語句を認識可能な態様にてユーザに提示する集合提示手段と、
    前記ユーザから、前記第1の集合に含まれる前記特徴語句のうち統一化の対象となる第1の特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる前記統一化の対象となる前記第1の特徴語句を含み且つ前記第1の集合に含まれる文書の文書数の総和を計数し、第1文書数として記憶装置に格納する第1文書数計数手段と、
    前記複数の集合における、前記第1の集合とは異なる第2の集合について、前記第2の集合に含まれる第2の特徴語句を含む前記文書の文書数の総和を計数し、第2文書数として前記記憶装置に格納する第2文書数計数手段と、
    前記記憶装置に格納された前記第1文書数と前記第2文書数とに基づき、所定の条件を満たしたか判定する判定手段と、
    前記判定手段において前記所定の条件を満たしたと判定された場合、前記第1の集合に含まれる統一化の対象となる前記第1の特徴語句の指定が完了したことを前記ユーザに提示するステップと、
    を有するまとめ上げ作業支援処理装置。
  8. コンピュータに、
    複数の文書から特徴語句を複数抽出し、前記特徴語句間の類似度に基づき、複数の集合に分類する分類ステップと、
    前記複数の集合の中のいずれかである第1の集合を、前記第1の集合に含まれる徴語句を認識可能な態様にてユーザに提示する集合提示ステップと、
    前記ユーザから、前記第1の集合に含まれる前記特徴語句のうち統一化の対象となる第1の特徴語句の指定を含むまとめ上げ指示を受け付け、当該まとめ上げ指示に含まれる前記統一化の対象となる前記第1の特徴語句を含み且つ前記第1の集合に含まれる文書の文書数の総和を計数し、第1文書数として記憶装置に格納する第1文書数計数ステップと、
    前記複数の集合における前記第1の集合とは異なる第2の集合について、前記第2の集合に含まれる第2の特徴語句を含む前記文書の文書数の総和を計数し、第2文書数として前記記憶装置に格納する第2文書数計数ステップと、
    前記記憶装置に格納された前記第1文書数と前記第2文書数とに基づき、所定の条件を満たしたか判定する判定ステップと、
    前記判定ステップにおいて前記所定の条件を満たしたと判定された場合、前記第1の集合に含まれる統一化の対象となる前記第1の特徴語句の指定が完了したことを前記ユーザに提示するステップと、
    実行させることを特徴とする作業支援プログラム。
JP2008140291A 2008-05-29 2008-05-29 まとめ上げ作業支援処理方法、装置及びプログラム Expired - Fee Related JP5347334B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008140291A JP5347334B2 (ja) 2008-05-29 2008-05-29 まとめ上げ作業支援処理方法、装置及びプログラム
US12/356,811 US20090299997A1 (en) 2008-05-29 2009-01-21 Grouping work support processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008140291A JP5347334B2 (ja) 2008-05-29 2008-05-29 まとめ上げ作業支援処理方法、装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2009288999A JP2009288999A (ja) 2009-12-10
JP5347334B2 true JP5347334B2 (ja) 2013-11-20

Family

ID=41381043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008140291A Expired - Fee Related JP5347334B2 (ja) 2008-05-29 2008-05-29 まとめ上げ作業支援処理方法、装置及びプログラム

Country Status (2)

Country Link
US (1) US20090299997A1 (ja)
JP (1) JP5347334B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5023176B2 (ja) * 2010-03-19 2012-09-12 株式会社東芝 特徴語抽出装置及びプログラム
JP5471943B2 (ja) * 2010-07-29 2014-04-16 富士通株式会社 まとめ上げ作業支援装置、方法及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3380831B2 (ja) * 1996-03-08 2003-02-24 シャープ株式会社 画像形成装置
US6108444A (en) * 1997-09-29 2000-08-22 Xerox Corporation Method of grouping handwritten word segments in handwritten document images
JP2000194721A (ja) * 1998-12-24 2000-07-14 Ricoh Co Ltd 文書群分類装置および文書群分類方法
JP4404323B2 (ja) * 1999-02-05 2010-01-27 経済産業大臣 シソーラスブラウジングシステムと方法
US6304864B1 (en) * 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
AUPR033800A0 (en) * 2000-09-25 2000-10-19 Telstra R & D Management Pty Ltd A document categorisation system
JP2002288189A (ja) * 2001-03-27 2002-10-04 Seiko Epson Corp 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JP2003044491A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 知識分析システムならびに同システムにおける分析条件設定方法、分析条件保存方法および再分析処理方法
JP2003076705A (ja) * 2001-08-30 2003-03-14 Nippon Yunishisu Kk 情報処理装置およびその方法
US20030084066A1 (en) * 2001-10-31 2003-05-01 Waterman Scott A. Device and method for assisting knowledge engineer in associating intelligence with content
JP4423385B2 (ja) * 2002-10-24 2010-03-03 独立行政法人情報通信研究機構 文書分類支援装置およびコンピュータプログラム
JP3847273B2 (ja) * 2003-05-12 2006-11-22 沖電気工業株式会社 単語分類装置、単語分類方法及び単語分類プログラム
JP2005107688A (ja) * 2003-09-29 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 情報表示方法及びシステム及び情報表示プログラム
US7587682B2 (en) * 2004-03-09 2009-09-08 Microsoft Corporation Structured task naming
JP4535765B2 (ja) * 2004-04-23 2010-09-01 富士通株式会社 コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置
JP4972271B2 (ja) * 2004-06-04 2012-07-11 株式会社日立製作所 検索結果提示装置
US7711679B2 (en) * 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
JP4238813B2 (ja) * 2004-10-25 2009-03-18 日本電信電話株式会社 話題情報提示方法及び装置及びプログラム
US7685091B2 (en) * 2006-02-14 2010-03-23 Accenture Global Services Gmbh System and method for online information analysis
JP4795856B2 (ja) * 2006-06-12 2011-10-19 日本電信電話株式会社 クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2009288999A (ja) 2009-12-10
US20090299997A1 (en) 2009-12-03

Similar Documents

Publication Publication Date Title
US9881037B2 (en) Method for systematic mass normalization of titles
CN108090032B (zh) 逻辑回归模型的可视化解释方法及装置
US20110035211A1 (en) Systems, methods and apparatus for relative frequency based phrase mining
US20050226511A1 (en) Apparatus and method for organizing and presenting content
US20060004528A1 (en) Apparatus and method for extracting similar source code
US20110106797A1 (en) Document relevancy operator
KR20200048004A (ko) 사용자 구매 기준 및 상품 리뷰 기반 상품 추천 시스템 및 방법
US20150317390A1 (en) Computer-implemented systems and methods for taxonomy development
US20230334255A1 (en) Sentence classification apparatus, sentence classification method, and sentence classification program
JPWO2014064777A1 (ja) 文書評価支援システム、及び文書評価支援方法
JP5347334B2 (ja) まとめ上げ作業支援処理方法、装置及びプログラム
CN103544299A (zh) 一种商业智能云计算系统的构建方法
US20200257685A1 (en) Data Analyzing Device And Data Analyzing Method
KR101035037B1 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
US20120191725A1 (en) Document ranking system with user-defined continuous term weighting
Wajdi et al. STUDY ON THE QUALITY OF SERVICE OF THE MOBILE-BASED JKN APPLICATION: A SENTIMENT ANALYSIS APPROACH
CN103186672B (zh) 文件排序方法及其装置
WO2020024342A1 (zh) 一种数据的解析方法及装置
CN114780408A (zh) 软件用户行为路径分析方法及装置
JP5471943B2 (ja) まとめ上げ作業支援装置、方法及びプログラム
CN109635281B (zh) 业务导图中更新节点的方法和装置
JP5297351B2 (ja) 情報検索システムにおける文書分類装置
JP2006171931A (ja) テキストマイニング装置およびテキストマイニングプログラム
US7996356B2 (en) Text searching and categorization tools

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130805

R150 Certificate of patent or registration of utility model

Ref document number: 5347334

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees