JP4559448B2 - 文書群組合せ装置 - Google Patents

文書群組合せ装置 Download PDF

Info

Publication number
JP4559448B2
JP4559448B2 JP2007131721A JP2007131721A JP4559448B2 JP 4559448 B2 JP4559448 B2 JP 4559448B2 JP 2007131721 A JP2007131721 A JP 2007131721A JP 2007131721 A JP2007131721 A JP 2007131721A JP 4559448 B2 JP4559448 B2 JP 4559448B2
Authority
JP
Japan
Prior art keywords
document
cluster
distance
recorded
recording unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007131721A
Other languages
English (en)
Other versions
JP2008287493A (ja
Inventor
吉秀 佐藤
晴美 川島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007131721A priority Critical patent/JP4559448B2/ja
Publication of JP2008287493A publication Critical patent/JP2008287493A/ja
Application granted granted Critical
Publication of JP4559448B2 publication Critical patent/JP4559448B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、大量の文書データからなる文書集合において、文章データ同士の距離を類似度等に基づいて計算し、閾値処理によって類似文書群(クラスタ)を生成し、文書集合を分類する方法に関する。
また、本発明は、分類されたクラスタについて、利用者が何らかの意図に基づいて、異なるクラスタ同士を組合せし、1つのクラスタにまとめる指示入力をすることができる方法に関する。
多数の文書閲覧を効率的に行う場合、クラスタリングによって、類似文書を集約し、これによって、文書を整理する。コンテンツのベクトルに応じて、複数のコンテンツをクラスタ分類する場合、従来は、選択しなかったコンテンツを活用して、次のクラスタリング結果を、利用者の意図に近づける技術が知られている(たとえば、特許文献1参照)。
上記従来例では、各コンテンツに、説明のためのキーワードや文書を予め付与し、この付与されているキーワードや文書中に含まれている単語の出現回数を集計し、コンテンツのベクトルを生成する。利用者が選択しなかったコンテンツのベクトルを加算したベクトルを算出し、他のコンテンツのベクトルの各要素を、上記加算したベクトルの各要素の値の大きさに基づいて減少させる。これによって、利用者が選択しなかったコンテンツと関連の深い要素の影響を抑制した新たなベクトルを生成する。このようにして生成した新たなベクトルを用い、クラスタリング処理を行い、利用者の意図に沿った分類を行う。
上記従来例は、主に、映像等のコンテンツに対して付随する文字情報(キーワードや文書)に基づいて、分類するが、映像のみならず、文書そのものを対象にすることもできる。
特開2003−248688号公報
利用者が選択しなかったコンテンツに基づく上記従来例とは逆のアプローチとして、利用者が選択したコンテンツのベクトルに基づいて、全てのコンテンツのベクトルの各要素を強調すれば、利用者が選択したコンテンツに類するコンテンツを、次回以降の分類時に、より精度よく集めることが可能である。
しかし、クラスタリングでは、利用者の意図を反映しにくいという問題がある。つまり、上記従来例は、あくまでも、利用者の選択結果に基づいて、他のコンテンツのベクトルを間接的に加工し、コンテンツ間の距離を、強制的に縮めたり遠ざけたりするのみであるので、必ずしも、利用者の意図を反映した通りのクラスタリング結果が得られる保証はない。
また、利用者が選択したコンテンツが、互いに類似する場合、加算したベクトルに利用者の意図が表れ易く、次回の分類結果を、利用者の意図に近づけることも可能である。しかし、利用者が選択するコンテンツは、必ずしも意味的に近いものであるとは限らない。このために、計算上は全く類似しないコンテンツを、組合せる相手として利用者が選択した場合、利用者の意図が平均化され、曖昧になり、精度の高い分類を行うことができないという問題がある。
すなわち、特許文献1記載の発明は、非選択結果をフィードバックさせて利用者の意図を反映させる発明であるが、逆に、選択結果をフィードバックさせるようにすれば、今回の課題を解決できそうである。しかし、この考え方は、利用者の選択結果を直接反映させるのではなく、前段階であるベクトル算出時に反映させるので、利用者の意図を忠実に反映させることが難しいという問題がある。
本発明は、クラスタリングのための閾値が変わり、または、文書集合に新たな文書データが追加され、クラスタ分類の結果が変更された場合でも、利用者の意図を、クラスタ分類処理に適切に反映させることができる文書群組合せ装置、文書分類方法、プログラムおよび記録媒体を提供することを目的とする。
本発明は、文書記録部に記録されている所定の文書に最も近い文書である最接近文書の識別子である最接近文書識別子と、上記所定の文書と、上記最接近文書との距離との3つを1組として記録することによって、複数の文書が、距離付きのリンクで接続されている文書グラフ構造を記録する文書グラフ構造記録手段と、上記文書グラフ構造記録手段に記録されている文書間の距離を参照し、予め定められている閾値、または、利用者が指定する閾値に応じて、上記文書グラフ構造記録手段に記録されている文書を、複数のクラスタに分割するクラスタリング手段と、ユーザが複数のクラスタを組合せる指示を出すと、クラスタ内の各文書の文書識別子と、上記クラスタ内の文書間距離の最大値と、上記組合せる対象のクラスタに含まれている文書に付与される同一のIDである組合せIDとを記録するクラスタ組合せ情報記録手段と、上記クラスタリング手段が生成したクラスタである初期クラスタを記録する初期クラスタ記録手段と、利用者が組合せることを望むクラスタを指定する操作部と、利用者が指定する各クラスタを構成する文書間のリンクについて、上記文書グラフ構造記録手段を参照して距離を獲得し、文書間距離の最大値を算出し、クラスタ内の各文書と、上記最大値と、上記組合せIDとを上記クラスタ組合せ情報記録手段に記録させるべきかどうかを判断する判断部と、上記クラスタ組合せ情報記録手段に記録させるべきであると判断すると、クラスタ内の各文書と、上記最大値と、上記組合せIDとを上記クラスタ組合せ情報記録手段に送信し、記録させる制御部とを具備する制御手段とを有することを特徴とする文書群組合せ装置である。
本発明によれば、利用者が明示的に選択した複数のクラスタに属する文書は、以後、異なる閾値でクラスタリング処理を再実行した場合でも、または新規に文書を入力して全体の文書集合が変化した場合でも、同じ組合せIDをもつ文書をまとめて表示するので、利用者の意図に合致した文書分類結果を提供することができるという効果を奏する。
本発明によれば、類似度の低い複数のクラスタを利用者が指定した場合に、以後入力した新規文書を、組合せの対象として追加すべきか否かを、利用者が指定した各クラスタについて、クラスタ組合せ情報更新手段が独立して判定するので、概念的に上記複数クラスタの中間的な位置にある曖昧な文書を、組合せの対象として判定することがなく、当初の利用者の意図とは離れたところへ、組合せ対象の文書が拡散することを阻止することができる。つまり、「組合せさせたい」という利用者の明確な意思を尊重した文書分類結果を提供することができるという効果を奏する。
発明を実施するための最良の形態は、次の実施例である。
実施例1は、全ての異なる文書間に距離付きのリンクが張られた文書グラフ構造ではなく、新規文書に対して、過去に入力した文書のうちで最も距離が近い文書(最近接文書)との間にのみ、距離付きのリンクを持った文書グラフ構造を生成する実施例である。
図1は、本発明の実施例1である文書群組合せ装置100を示すブロック図である。
文書群組合せ装置100は、文書記録部1と、文書グラフ構造記録部2と、文書グラフ構造更新部3と、クラスタリング部4と、クラスタ組合せ情報記録部5と、クラスタ組合せ情報更新部6と、初期クラスタ記録部7と、クラスタ組合せ表示部8と、制御部9とを有する。
文書記録部1は、入力した文書を蓄積する記録部であり、文書をベクトルで表現し、異なる文書間の距離を、文書間の類似性に基づいて、数値化して蓄積する。また、各文書を識別可能な一意の文書IDを文書に付与する。文書データを空間モデルで表現する場合、文書から単語、形態素、または固定長の文字列等の文字列を多数取得し、各文字列の文書中での出現回数、各文字列を含む文書の数等の統計情報から、各文字列の重みを数値化することによって、文書をベクトルとして表現する。
文書グラフ構造記録部2は、文書記録部に記録されている所定の文書に最も近い文書である最接近文書のIDである最接近文書IDと、上記所定の文書と、上記最接近文書との距離との3つを1組として記録することによって、複数の文書が、距離付きのリンクで接続されている文書グラフ構造を記録する。
文書グラフ構造更新部3は、過去に入力済みの文書のそれぞれと新規文書との距離を算出し、最近接文書との距離とを、文書グラフ構造記録部2に記録させることによって、複数の文書が、距離付きのリンクで接続されている文書グラフ構造を更新する。
クラスタリング部4は、文書グラフ構造記録部2に記録されている文書間の距離を参照し、予め定められている閾値、または、利用者が指定する閾値に応じて、文書グラフ構造記録部2に記録されている文書を、複数のクラスタに分割する。
クラスタ組合せ情報記録部5は、クラスタ内の各文書と、上記クラスタ内の文書間距離の最大値と、組合せIDとを記録する記録装置である。なお、上記「組合せID」は、ユーザが複数のクラスタを組合せる指示を出すと、上記組合せる対象のクラスタに含まれている文書に付与される同一のIDである。
クラスタ組合せ情報更新部6は、新規文書の最近接文書が既にクラスタ組合せ情報記録部5に記録され、かつ上記新規文書と上記最近接文書との距離が、上記最近接文書と共に記録されている距離以下である場合に、上記新規文書をクラスタ組合せ情報記録部5に新規に記録する。また、新たに記録する新規文書と共に記録する距離、および組合せIDには、上記最近接文書と共に記録されている各値を複写する。
初期クラスタ記録部7は、クラスタリング部4が生成したクラスタである初期クラスタを記録する。
クラスタ組合せ表示部8は、初期クラスタ記録部7を参照し、どの文書が含まれているクラスタ同士を組合せるべきか、または、どのクラスタも組合せる必要がないかを、クラスタ組合せ情報記録部5を参照して、クラスタ組合せ表示部8が決定し、必要に応じてクラスタを組合せた結果を、画面上に表示する。
さらに、表示結果を閲覧した利用者が複数のクラスタを指定した場合に、各クラスタを構成する組合せ前のクラスタ(組合せによって生成されたクラスタではない場合は、指定したクラスタ自体)のクラスタIDが、制御部9に送出される。
制御部9は、利用者が組合せることを望むクラスタを指定する操作手段を有する。また、制御部9は、利用者が指定する各クラスタを構成する文書間のリンクについて、文書グラフ構造記録部2を参照して距離を獲得し、文書間距離の最大値を算出し、クラスタ内の各文書と、上記最大値と、組合せIDとをクラスタ組合せ情報記録部5に記録させべきかどうかを判断する判断手段を具備する。そして、制御部9は、クラスタ組合せ情報記録部5に記録させるべきであると判断すると、クラスタ内の各文書と、上記最大値と、組合せIDとをクラスタ組合せ情報記録部5に送信し、記録させる制御手段を有する。
上記組合せIDは、利用者が一度に指定した複数クラスタに対して共通に与える識別子である。このときに、記録する対象となった文書IDが、クラスタ組合せ情報記録部5に既に記録されている場合は、既に記録されている距離と、記録しようとする上記最大値とを比較し、既に記録されている距離が上記最大値以下である場合にのみ、上記文書IDに対応する距離を上記最大値で置き換えて、クラスタ組合せ情報記録部5のデータを修正する。
単語に基づくベクトル空間モデルの場合、文書を「総理大臣=0.2」「政党=0.4」「午前=0.1」等のような、単語と数値との組合せを列挙したベクトルで表現する。
文書から、文字列を取得する方法、重みを算出する方法としては、既存の方法を用いればよく、またベクトル空間モデルとは異なる方法で、類似性に基づく文書間の距離を決定するようにしてもよい。
次に、文書グラフ構造更新部3が、文書グラフ構造記録部2に記録した情報を更新する動作について説明する。
図2は、文書グラフ構造更新部3が、文書グラフ構造記録部2に記録されている情報を更新する動作を示すフローチャートである。
つまり、S1で、文書記録部1に新規に入力した1文書(新規文書)の文書IDとベクトルとを取得する。S2で、文書グラフ構造記録部2に1以上の文書が既に蓄積されているか否かを判定する。新規文書が2番目以降に入力した文書であり、文書グラフ構造記録部2に1以上の文書が既に記録されていれば、S3の処理に進む。上記新規文書が最初の文書であれば、文書グラフ構造記録部2に記録されている文書は存在しないので(S2のNO)、S5の処理に進む。
S3で、文書グラフ構造記録部2に既に記録されている文書の文書IDを全て取得し、各文書のベクトルを、文書記録部1から取得し、各ベクトルを新規文書のベクトルと比較し、文書間の距離を算出する。
S4では、S3で算出した距離に基づいて、新規文書からの距離が最も小さい文書が、最近接文書であると判定し、上記新規文書の文書IDと、上記最近接文書IDと、上記2文書間の距離とを、文書グラフ構造記録部2とクラスタ組合せ情報更新部6とに送出し、処理を終える。
一方、S5では、S2で文書グラフ構造記録部2に文書が蓄積されていないと判断されると、新規文書の文書IDのみを文書グラフ構造記録部2に記録し、処理を終わる。
図3は、文書グラフ構造記録部2に記録されているデータの例を示す図である。
文書記録部1に、文書d1、d2、d3、d4、d5、d6、…の順に文書を入力したとすると、文書d1は、最初の文書であるので、最近接文書の欄に、記載がない。文書d2を入力した時点では、文書d1のみの文書が存在するので、必然的に、最近接文書が、文書d1である。以後、上記と同様に、新規文書のIDと、その最近接文書IDと、上記最近接文書との距離とが、文書記録部1に蓄積される。クラスタ組合せ情報記録部5に何も記録されていなければ、更新する必要がないので、最近接文書の文書IDと最近接文書との距離とを追加しない。クラスタ組合せ情報更新部6が行う処理については、以下で詳細に説明する。
図4は、文書グラフ構造記録部2に記録されているデータを、図式化した文書グラフ構造を示す図である。
○印は、文書を示し、○印の内部の記号は、それぞれ文書IDを示す。文書d2からd1に向かう矢印は、文書d2の最近接文書が文書d1であることを示し、上記矢印の横に添えられている数値は、文書d1とd2との距離を示す。
クラスタリング部4に対して、たとえば閾値0.4が与えられると、図4において、距離が0.4以下である文書同士が接続される。
図5は、閾値を0.4として生成したクラスタの例を示す図である。
この結果、距離が0.1である文書d4とd3とが接続され、距離が0.3である文書d6とd2とが接続され、図5に示すように、文書d1のみからなるクラスタC1と、文書d2とd6とからなるクラスタC2と、文書d3とd4とからなるクラスタC3と、文書d5のみからなるクラスタC4との、合計4クラスタが生成される。
図6は、初期クラスタ記録部7に記録されているデータの一覧の例を示す図である。
クラスタリング部4は、生成したクラスタを識別するために、上記のようにクラスタIDであるC1〜C4を、一意に付与し、各クラスタのクラスタIDと各クラスタに含まれている文書の文書IDとの一覧(図6に示す一覧)を、初期クラスタ記録部7に記録させる。
クラスタ組合せ情報記録部5に何も記録されていない初期状態である場合、クラスタ組合せ表示部8は、初期クラスタ記録部7から取得したクラスタリングの結果をそのまま表示する。
図7は、クラスタ組合せ表示部8による画面の表示例を示す図である。
図7に示す画面上には、クラスタIDと、各クラスタに属する文書の文書IDと、クラスタに属する文書の概要とが表示されている。クラスタに属する文書の概要を表示する場合、各文書の本文の一部を、文書記録部1か図示しない記録部等から取得し、文書IDと並べて表示する。その他、文書のタイトル、作成時刻、作者等、付随する情報を取得可能であれば、別途、これらを取得し、表示するようにしてもよい。
図7に示す画面を閲覧した利用者が、2以上のクラスタを指定すると、クラスタ組合せ表示部8は、各クラスタを組合せる前のクラスタである初期クラスタのクラスタID一覧を、制御部9に送出する。利用者が指定したクラスタが、組合せによって生成されたクラスタではなければ、初期クラスタそのもののクラスタIDを、制御部9に送出する。
図8は、制御部9が行う処理を示すフローチャートである。
図7を閲覧した利用者が、クラスタC1に含まれている文書とクラスタC3に含まれている文書とが、ともに「○○会議」を扱う文書であったとすると、「○○会議」についてクラスタC1とC3とが共通するので、利用者がクラスタC1とC3とを組合せたいと考え、制御部9を介して、クラスタC1とC3とを利用者が指定したとする。
S11で、一意な組合せIDを発行する。上記「組合せID」は、利用者が複数のクラスタを指定する度に付与される一意のIDであり、クラスタC1とC3とを指定すると、たとえば「組合せ1」の組合せIDを、クラスタC1に含まれている全ての文書とクラスタC3に含まれている全ての文書とに付与する。引き続いて、たとえばクラスタC5とC6とC7とを指定したとすると、「組合せ1」とは異なるID、たとえば「組合せ2」の組合せIDを、クラスタC5に含まれている全ての文書とクラスタC6に含まれている全ての文書とクラスタC7に含まれている全ての文書とに付与する。
制御部9は、S12で、クラスタC1とC3とのうちの一方のクラスタであるクラスタC1に含まれている文書ID一覧「d1」を、初期クラスタ記録部7から取得する。
S13で、クラスタ内文書数が2以上であると判断されると、S14で、既に取得した各文書の文書IDに基づいて、文書グラフ構造記録部2を参照し、クラスタを構成する各文書間の距離の最大値を取得する。
ただし、1文書のみからなるクラスタを指定した場合、クラスタを構成する文書間の距離を定義できないので、S15で、クラスタリング部4に与えられている閾値(本例では、0.4)が、文書間距離の最大値であるとみなす。したがって、文書d1における距離の最大値は、0.4であるとみなされる。一方、クラスタC3の場合、図3によれば、クラスタC3を構成する文書が文書d3とd4との2文書であり、また、文書d3とd4との距離が0.1であるので、距離の最大値は0.1である。3文書以上が存在するクラスタの場合、上記と同様に、文書グラフ構造記録部2を参照し、クラスタを構成する文書間の距離の最大値を取得する。
文書IDが記録済であり(S16)、記録済文書IDに対応する距離が、最大値よりも小さければ(S17)、S18では、S12で取得した各文書IDと、S13で取得した距離の最大値とを対応付ける。さらに、利用者がクラスタを指定する度に、新たな組合せIDを付与し、クラスタ組合せ情報記録部5に、クラスタ内の各文書と上記クラスタ内の文書間距離の最大値と組合せIDとが存在していれば、記録しようとする距離と、既に記録されている距離とを比較し、記録しようとする距離が、既に記録されている距離よりも大きい場合には、S19で、上書きする。しかし、記録しようとする距離が、既に記録されている距離以下である場合、距離を置き換えず、S19で、組合せIDのみを更新する。つまり、一旦クラスタ組合せ情報記録部5に記録した文書の距離を、より小さな値の距離で置き換えることはない。
S20では、利用者が指定したクラスタを構成する元のクラスタ(初期クラスタ)のそれぞれについて、上記S11〜S19の処理を終えたかどうかを判定し、全クラスタについての処理が終わるまで繰り返す。
図9は、クラスタ組合せ情報記録部5に記録されているデータ例を示す図である。
利用者が指定したクラスタC1、C3に含まれている文書d1、d3、d4のそれぞれに、「組合せ1」という組合せIDが付与され、クラスタC1に含まれている文書d1には、距離0.4が記録され、C3に含まれる文書d3、d4には、距離0.1が記録される。
クラスタ組合せ表示部8が行う処理について、クラスタ組合せ情報記録部5内に何も記録されない初期状態における動作のみを説明した。
次に、図9に示すような情報が記録された状態において行う処理について説明する。
クラスタ組合せ表示部8は、初期クラスタ記録部7に記録されているクラスタのうちで、クラスタ組合せ情報記録部5内において同じ組合せIDを持つ文書を含むクラスタを全て組合せる。たとえば、「組合せ1」という組合せIDを持つ文書d1、d3、d4を含むクラスタを、常に組合せる。つまり、クラスタリング部4が生成したクラスタリング結果によらずに、組合せる。画面上には、クラスタ組合せ表示部8が組合せたクラスタを表示するので、利用者が指定した複数のクラスタに含まれている全ての文書が、全て1クラスタとして表示される。
次に、クラスタ組合せ情報記録部5にデータが存在する場合、表示結果を閲覧した利用者が、複数のクラスタを指定した際に、制御部9が行う処理の流れを、再度、図8を用いて説明する。ここでは、前例とは異なる閾値0.5が指定された場合について説明する。
図10は、閾値を0.5として生成したクラスタの例を示す図である。
閾値が0.5である場合、図10に示すように、文書d1、d3、d4からなるクラスタC11と、文書d2、d6からなるクラスタC12と、文書d5のみからなるクラスタC13との合計3クラスタが生成される。クラスタ組合せ情報記録部5に記録されている文書d1、d3、d4は、既に、1個のクラスタに属しているので、組合せ処理を行っても結果は変わらない。
この状況で、C11とC12とを組合せるように、ユーザが指定したとする。上記例と同様に、組合せによって生成されたクラスタを指定した場合、組合せ前のクラスタである初期クラスタのそれぞれについて、S11〜S19の処理を実行する。
まず、第1のクラスタC11について、S11〜S19の処理を実行する。S12で、クラスタC11に属する文書IDの一覧d1、d3、d4を取得し、S13で、これらの文書間の距離の最大値である0.5を取得する。S18で、文書d1、d3、d4のそれぞれを、既に取得した距離0.5と、新たに付与する組合せID「組合せ2」とを、クラスタ組合せ情報記録部5に記録する。
このときに、文書d1、d3、d4は、いずれもクラスタ組合せ情報記録部5に存在しているので、距離を比較し、距離を更新するか否かを判定する。文書d1、d3、d4の各文書に対して、クラスタ組合せ情報記録部5は、それぞれ0.4、0.1、0.1という距離が記録されているが、既に取得した距離0.5は、既に記録されているいずれの距離よりも大きいので、全ての距離が上書きの対象になる。つまり、クラスタ組合せ情報記録部5において、文書d1、d3、d4のそれぞれに付与されている組合せIDが、いずれも「組合せ2」に更新され、距離が0.5に更新される。
距離が大きい場合にのみ、上書きするのは、利用者の意図を正確に反映させるためである。つまり、クラスタ内の距離の最大値は、上記クラスタを形成するために必要な距離の最小値であり、クラスタ内の距離の最大値よりも小さな閾値が与えられると、上記クラスタが形成されない。あるクラスタを指定した後に、上記クラスタを内包するクラスタ、つまり、より大きな距離の最大値を持つクラスタを1度でも指定すると、より概念の広いクラスタに対して、他との組合せを、利用者が許容したことを意味する。したがって、距離が大きい場合にのみ、距離を更新する。
続いて、2番目のクラスタC12では、属する文書である文書d2とd6との距離の最大値は0.3であり、この距離の最大値0.3が、組合せID「組合せ2」と共に記録される。
図11は、クラスタC11とC12とを組合せる指示を、利用者が入力した場合、クラスタ組合せ情報記録部5に記録されているデータの変化後の例を示す図である。
以上によって、クラスタ組合せ情報記録部5に記録されているデータは、図11に示すように変化する。
上記のように、クラスタ組合せ情報記録部5は、利用者が複数のクラスタを指定する度に、距離を判定した上で、更新処理が行われる。
最後に、クラスタ組合せ情報更新部6が行う処理について説明する。
図12は、実施例1において、新規文書が入力される度に、クラスタ組合せ情報更新部6が行う処理を示すフローチャートである。
文書グラフ構造更新部3から、新規文書の文書IDと、最近接文書のIDと、上記2文書間の距離とを受け取ると、S31で、上記最近接文書のIDが、クラスタ組合せ情報記録部5に存在するか否かを問い合わせる。
上記記最近接文書のIDが、クラスタ組合せ情報記録部5に存在しなければ、処理を終え、次の新規文書の入力を待つ。上記最近接文書のIDが、クラスタ組合せ情報記録部5に存在すれば、S32で、文書グラフ構造更新部3から受け取った上記2文書間の距離と、クラスタ組合せ情報記録部5において最近接文書と共に記録されている距離とを比較する。文書グラフ構造更新部3から受け取った上記2文書間の距離が、クラスタ組合せ情報記録部5において最近接文書と共に記録されている距離以下であれば、S33に進む。文書グラフ構造更新部3から受け取った上記2文書間の距離が、クラスタ組合せ情報記録部5に、最近接文書と共に記録されている距離よりも大きければ、処理を終え、次の新規文書の入力を待つ。
S33で、新規文書をクラスタ組合せ情報記録部5に記録する。記録する内容は、文書IDと、距離とであるが、組合せIDと距離とは、最近接文書と共に記録されている組合せID、距離と同じ値を複写する。
次に、実施例1において、クラスタ組合せ情報記録部5に記録されているものがある場合、クラスタ組合せ情報更新部6の処理の具体例について説明する。
クラスタ組合せ情報記録部5に、図9に示すデータが記録されているとし、新規文書の文書IDがd10であり、文書d10の最近接文書の文書IDがd1であり、文書d10とd1との距離が0.3であるとする。この場合、クラスタ組合せ情報記録部5には、最近接文書d1が存在し、文書d10とd1との距離0.3が、文書d1と共に記録されている距離0.4以下であるので、新規文書をクラスタ組合せ情報記録部5に追加する(S33)。この結果、クラスタ組合せ情報記録部5には、文書IDがd10であり、組合せIDが「組合せ1」、距離が0.4である行が追加される。
クラスタ組合せ情報記録部5に最近接文書d1が存在しないか、または存在しても、文書d10とd1との距離が、文書d1と共に記録されている距離0.4よりも大きければ、クラスタ組合せ情報記録部5へは追加しない。
クラスタ組合せ情報更新部6が行う上記処理は、文書を入力するタイミングによらず、クラスタ組合せ情報記録部5に記録した内容を維持するための処理である。通常、利用者がクラスタを指定した時点で、上記クラスタに含まれている文書しか、クラスタ組合せ情報記録部5には記録し得ないが、上記処理によれば、クラスタ指定後に入力した文書であっても、仮にクラスタ指定以前に入力していれば、上記クラスタに含まれている性質の文書(つまり、上記クラスタ内の文書との類似度が高く、同一クラスタに含まれるべき文書)であれば、クラスタ組合せ情報記録部5に記録される。
上記実施例によれば、クラスタ分類結果が変更された場合でも、利用者が指示したクラスタ間の組合せに関する情報を継承させるので、クラスタ分類結果に、利用者の意図を適切に反映させることができる。
上記実施例において、文書IDの代わりに、文書のタイトル、文書自体を使用するようにしてもよい。ここで、文書ID、文書のタイトル、文書自体を包含した概念が文書識別子である。また、上記最接近文書IDの代わりに、最接近文書のタイトル、最接近文書自体を使用するようにしてもよい。ここで、最接近文書ID、最接近文書のタイトル、最接近文書自体を包含した概念が最接近文書識別子である。
つまり、上記実施例は、文書記録部に記録されている所定の文書に最も近い文書である最接近文書の識別子である最接近文書識別子と、上記所定の文書と、上記最接近文書との距離との3つを1組として記録することによって、複数の文書が、距離付きのリンクで接続されている文書グラフ構造を記録する文書グラフ構造記録手段と、上記文書グラフ構造記録手段に記録されている文書間の距離を参照し、予め定められている閾値、または、利用者が指定する閾値に応じて、上記文書グラフ構造記録手段に記録されている文書を、複数のクラスタに分割するクラスタリング手段と、クラスタ内の各文書の文書識別子と、上記クラスタ内の文書間距離の最大値と、ユーザが複数のクラスタを組合せる指示を出すと、上記組合せる対象のクラスタに含まれている文書に付与される同一のIDである組合せIDとを記録するクラスタ組合せ情報記録手段と、上記クラスタリング手段が生成したクラスタである初期クラスタを記録する初期クラスタ記録手段とを有する文書群組合せ装置の例である。
この場合、上記文書記録部に新たに入力された文書である新規文書と過去に入力済の文書との距離を算出し、上記最近接文書との距離とを、上記文書グラフ構造記録手段に記録させることによって、複数の文書が、距離付きのリンクで接続されている文書グラフ構造を更新する文書グラフ構造更新手段を有する。
また、上記新規文書の最近接文書が上記クラスタ組合せ情報記録手段に既に記録され、かつ上記新規文書と上記最近接文書との距離が、上記最近接文書と共に記録されている距離以下である場合に、上記新規文書を新規に記録するクラスタ組合せ情報更新手段を有する。
さらに、クラスタを組合せた結果を、画面上に表示するクラスタ組合せ表示手段を有する。
しかも、利用者が組合せることを望むクラスタを指定する操作部と、利用者が指定する各クラスタを構成する文書間のリンクについて、上記文書グラフ構造記録手段を参照して距離を獲得し、文書間距離の最大値を算出し、クラスタ内の各文書と、上記最大値と、上記組合せIDとを上記クラスタ組合せ情報記録手段に記録させべきかどうかを判断する判断部と、上記クラスタ組合せ情報記録手段に記録させべきであると判断すると、クラスタ内の各文書と、上記最大値と、上記組合せIDとを上記クラスタ組合せ情報記録手段に送信し、記録させる制御部とを具備する制御手段を有する。
また、上記実施例を方法の発明として把握することができる。つまり、上記実施例は、文書記録部に新たに入力された文書である新規文書の文書識別子とベクトルとを取得する段階と、文書グラフ構造記録部に文書が既に蓄積されているか否かを判定する段階と、新規文書が2番目以降に入力した文書であり、上記文書グラフ構造記録部に文書が既に記録されていれば、上記文書グラフ構造記録部に既に記録されている文書の文書IDを全て取得し、各文書のベクトルを、文書記録部から取得し、各ベクトルを新規文書のベクトルと比較し、文書間の距離を算出し、記憶装置に記憶する段階と、上記算出した距離に基づいて、新規文書からの距離が最も小さい文書が、最近接文書であると判定し、上記新規文書の文書識別子と、上記最近接文書の識別子である最接近文書識別子と、上記2文書間の距離とを、上記文書グラフ構造記録部とクラスタ組合せ情報更新部とに送出する段階と、上記文書グラフ構造記録部に文書が蓄積されていないと判断されると、上記新規文書の文書識別子のみを上記文書グラフ構造記録部に記録する段階とを有する文書分類方法の例である。
さらに、上記実施例は、クラスタ内文書数が2以上であると判断されると、取得した各文書の文書IDに基づいて、文書グラフ構造記録部を参照し、クラスタを構成する各文書間の距離の最大値を取得し、記憶装置に記憶する段階と、上記クラスタ内の文書の文書識別子が上記クラスタ組合せ情報記録部に記録済であり、上記文書識別子に対応して記録されている距離が、上記最大値よりも小さければ、上記クラスタ内の文書の文書識別子と、上記取得した距離の最大値とを対応付けし、上記クラスタ組合せ情報記録部に記録する段階と、ユーザが複数のクラスタを組合せる指示を出すと、上記組合せる対象のクラスタに含まれている文書に、同一のIDである組合せID付与し、クラスタ組合せ情報記録部に、各文書と上記最大値と上記組合せIDとが存在すれば、記録しようとする距離と、既に記録されている距離とを比較し、記録しようとする距離が、既に記録されている距離よりも大きければ、上記記録しようとする距離を上書きする段階とを有する文書分類方法の例である。
しかも、上記実施例は、文書グラフ構造更新部から、文書記録部に新たに入力された文書である新規文書の文書識別子と、文書記録部に記録されている所定の文書に最も近い文書である最近接文書の識別子である最近接文書識別子と、上記所定の文書と上記最近接文書との2文書間の距離とを受け取ると、上記最近接文書識別子が、クラスタ組合せ情報記録部に存在するか否かを問い合わせる段階と、上記最近接文書識別子が、クラスタ組合せ情報記録部に存在すれば、上記文書グラフ構造更新部から受け取った上記2文書間の距離と、クラスタ組合せ情報記録部において上記最近接文書と共に記録されている距離とを比較し、記憶装置に記憶する段階と、文書グラフ構造更新部から受け取った上記2文書間の距離が、クラスタ組合せ情報記録部において最近接文書と共に記録されている距離以下であれば、新規文書をクラスタ組合せ情報記録部に記録する段階とを有する文書分類方法の例である。
また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、請求項6〜請求項8のうちの少なくとも1つの請求項に記載の方法をコンピュータに実行させるプログラムの例である。
さらに、上記実施例を記録媒体として把握することができる。つまり、上記実施例は、請求項6〜請求項8のうちの少なくとも1つの請求項に記載の方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体の例である。この記録媒体は、CD、DVD、HD、光ディスク、光磁気ディスク、半導体メモリ等の記録媒体である。
本発明の実施例1である文書群組合せ装置100を示すブロック図である。 文書グラフ構造更新部3が、文書グラフ構造記録部2に記録されている情報を更新する動作を示すフローチャートである。 文書グラフ構造記録部2に記録されているデータの例を示す図である。 文書グラフ構造記録部2に記録されているデータを、図式化した文書グラフ構造を示す図である。 閾値を0.4として生成したクラスタの例を示す図である。 初期クラスタ記録部7に記録されているデータの一覧の例を示す図である。 クラスタ組合せ表示部8による画面の表示例を示す図である。 制御部9が行う処理を示すフローチャートである。 クラスタ組合せ情報記録部5に記録されているデータ例を示す図である。 閾値を0.5として生成したクラスタの例を示す図である。 クラスタC11とC12とを組合せる指示を、利用者が入力した場合、クラスタ組合せ情報記録部5に記録されているデータの変化後の例を示す図である。 実施例1において、新規文書が入力される度に、クラスタ組合せ情報更新部6が行う処理を示すフローチャートである。
符号の説明
100…文書群組合せ装置、
1…文書記録部、
2…文書グラフ構造記録部、
3…文書グラフ構造更新部、
4…クラスタリング部、
5…クラスタ組合せ情報記録部、
6…クラスタ組合せ情報更新部、
7…初期クラスタ記録部、
8…クラスタ組合せ表示部、
9…制御部。

Claims (2)

  1. 文書記録部に記録されている所定の文書に最も近い文書である最接近文書の識別子であ
    る最接近文書識別子と、上記所定の文書と、上記最接近文書との距離との3つを1組とし
    て記録することによって、複数の文書が、距離付きのリンクで接続されている文書グラフ
    構造を記録する文書グラフ構造記録手段と;
    上記文書グラフ構造記録手段に記録されている文書間の距離を参照し、予め定められて
    いる閾値、または、利用者が指定する閾値に応じて、上記文書グラフ構造記録手段に記録
    されている文書を、複数のクラスタに分割するクラスタリング手段と;
    ユーザが複数のクラスタを組合せる指示を出すと、クラスタ内の各文書の文書識別子と、
    上記クラスタ内の文書間距離の最大値と、上記組合せる対象のクラスタに含まれている文書
    に付与される同一のIDである組合せIDとを記録するクラスタ組合せ情報記録手段と;
    上記クラスタリング手段が生成したクラスタである初期クラスタを記録する初期クラス
    タ記録手段と;
    利用者が組合せることを望むクラスタを指定する操作部と、利用者が指定する各クラス
    タを構成する文書間のリンクについて、上記文書グラフ構造記録手段を参照して距離を獲
    得し、文書間距離の最大値を算出し、クラスタ内の各文書と、上記最大値と、上記組合せ
    IDとを上記クラスタ組合せ情報記録手段に記録させるべきかどうかを判断する判断部と
    、上記クラスタ組合せ情報記録手段に記録させるべきであると判断すると、クラスタ内の
    各文書と、上記最大値と、上記組合せIDとを上記クラスタ組合せ情報記録手段に送信し
    、記録させる制御部とを具備する制御手段と;
    を有することを特徴とする文書群組合せ装置。
  2. 文書記録部に記録されている所定の文書に最も近い文書である最接近文書の識別子であ
    る最接近文書識別子と、上記所定の文書と、上記最接近文書との距離との3つを1組とし
    て記録することによって、複数の文書が、距離付きのリンクで接続されている文書グラフ
    構造を記録する文書グラフ構造記録手段と;
    上記文書グラフ構造記録手段に記録されている文書間の距離を参照し、予め定められて
    いる閾値、または、利用者が指定する閾値に応じて、上記文書グラフ構造記録手段に記録
    されている文書を、複数のクラスタに分割するクラスタリング手段と;
    ユーザが複数のクラスタを組合せる指示を出すと、クラスタ内の各文書の文書識別子と、
    上記クラスタ内の文書間距離の最大値と、上記組合せる対象のクラスタに含まれている文
    書に付与される同一のIDである組合せIDとを記録するクラスタ組合せ情報記録手段と;
    上記クラスタリング手段が生成したクラスタである初期クラスタを記録する初期クラス
    タ記録手段と;
    文書記録部に新たに入力された文書である新規文書の最近接文書が上記クラスタ組合せ
    情報記録手段に既に記録され、かつ上記新規文書と上記最近接文書との距離が、上記最近
    接文書と共に記録されている距離以下である場合に、上記新規文書を新規にクラスタ組合
    せ情報記録手段へ記録するクラスタ組合せ情報更新手段と;
    を有することを特徴とする文書群組合せ装置。
JP2007131721A 2007-05-17 2007-05-17 文書群組合せ装置 Active JP4559448B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007131721A JP4559448B2 (ja) 2007-05-17 2007-05-17 文書群組合せ装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007131721A JP4559448B2 (ja) 2007-05-17 2007-05-17 文書群組合せ装置

Publications (2)

Publication Number Publication Date
JP2008287493A JP2008287493A (ja) 2008-11-27
JP4559448B2 true JP4559448B2 (ja) 2010-10-06

Family

ID=40147152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007131721A Active JP4559448B2 (ja) 2007-05-17 2007-05-17 文書群組合せ装置

Country Status (1)

Country Link
JP (1) JP4559448B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018179065A1 (ja) * 2017-03-27 2018-10-04 株式会社日立製作所 データ分析装置およびデータ分析方法
CN110717483B (zh) * 2019-09-19 2023-04-18 浙江善政科技有限公司 网络图像识别处理方法,计算机可读存储介质和移动终端

Also Published As

Publication number Publication date
JP2008287493A (ja) 2008-11-27

Similar Documents

Publication Publication Date Title
JP4752623B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US8174523B2 (en) Display controlling apparatus and display controlling method
JP5632571B2 (ja) キーワードサーチ基準の自動生成及び人間工学的な表現を提供するためのユーザインタフェース
US10318572B2 (en) Structured labeling to facilitate concept evolution in machine learning
US10698917B2 (en) Managing electronic slide decks
US8379939B1 (en) Efficient and scalable face recognition in photo albums
US9875245B2 (en) Content item recommendations based on content attribute sequence
JP2010061600A (ja) 推薦装置および方法、プログラム、並びに記録媒体
CN101276365A (zh) 用基于元数据的类别搜索内容的方法和装置及其记录介质
KR102222564B1 (ko) 인공지능 기반의 유사 디자인 검색 장치
US10656814B2 (en) Managing electronic documents
US7941441B2 (en) Media data access system and method
US9679055B2 (en) Method and system for constructing database based on mutual relations between video data
US20120047138A1 (en) Content file classifying apparatus and content file classifying method
US20070106767A1 (en) Database device database search device, and method thereof
US11372873B2 (en) Managing electronic slide decks
JP4559448B2 (ja) 文書群組合せ装置
JP2014154971A (ja) 画像表示装置、画像表示方法及びプログラム
JP2008059383A (ja) コンテンツ提示装置及びコンピュータプログラム
JP2004287835A (ja) オブジェクト表作成方法及びオブジェクト推薦方法及びオブジェクト表作成プログラム及びオブジェクト推薦方法
JP7139723B2 (ja) 選定プログラム、選定方法および選定装置
JP5302529B2 (ja) 情報処理装置及び情報処理方法、プログラム、記録媒体
JP2006323732A (ja) 情報センタ、端末装置、情報送信プログラム、及び情報選択プログラム
JP4692784B2 (ja) 画像記述システムにおける特徴量選択プログラム、特徴量選択方法および装置
JP2008234482A (ja) 文書分類装置、文書分類方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100305

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100604

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100714

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100722

R150 Certificate of patent or registration of utility model

Ref document number: 4559448

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130730

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350