JP2000194725A

JP2000194725A - 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体

Info

Publication number: JP2000194725A
Application number: JP10376855A
Authority: JP
Inventors: Katsuhiko Mitobe; 勝彦水戸部; Naoyuki Nomura; 直之野村
Original assignee: JustSystems Corp
Current assignee: JustSystems Corp
Priority date: 1998-12-25
Filing date: 1998-12-25
Publication date: 2000-07-14

Abstract

(57)【要約】【課題】複数の対象の相互の類似度をもとに、容易に
対象をグループ化することのできる類似グループ抽出装
置を提供すること。【解決手段】過去の処理文書中の重要語句の出現頻
度、各文書の処理回数等から、各ユーザーの嗜好を表す
嗜好ベクトルを取得し、嗜好ベクトルどうしのなす角の
コサイン値をユーザーどうしの類似度とする。そして、
操作者から類似度のしきい値を取得し、ユーザーどうし
の類似度がこのしきい値以上となるユーザーのみからな
るグループを、このグループに入るユーザーどうしを線
分で結ぶことにより表示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数の対象から類
似する対象をグループ抽出する類似グループ抽出装置、
及び類似グループ抽出プログラムが記憶された記憶媒体
に関する。

【０００２】

【従来の技術】従来より、例えば、文書処理装置等にお
いて各文書について当該文書を特徴付ける文書ベクトル
を取得し、この文書ベクトルから文書間の類似度を算出
することが行われている。このように、文書やユーザー
等の対象を特徴付ける特徴度を取得し、この特徴度から
対象相互間の類似度を算出することは、複数の対象を関
連の大きいもののみからなるグループ等にグループ化す
るのに有用である。

【０００３】

【発明が解決しようとする課題】しかし、上述のような
類似度は、１対毎に算出されるので、３つ以上の対象全
部の各相互間の類似度を一度に把握し難い。そのため、
類似度を基に一層容易に対象をグループ化できる技術が
望まれている。

【０００４】本発明は、上述のような課題を解決するた
めになされたもので、複数の対象の相互の類似度をもと
に、容易に対象をグループ化することのできる類似グル
ープ抽出装置、類似グループ抽出プログラムが記憶され
た記憶媒体、類似グループ抽出方法を提供することを目
的とする。

【０００５】

【課題を解決するための手段】請求項１に記載の発明
は、複数の対象それぞれの、共通する特徴についての大
小を表す特徴度を取得する特徴度取得手段と、前記特徴
度取得手段により取得された前記特徴度をもとに、複数
の前記対象間の特徴類似度を取得する特徴類似度取得手
段と、前記特徴類似度の範囲を指定する特徴類似度範囲
指定手段と、構成する全ての対象どうしの前記特徴類似
度取得手段により取得された前記特徴類似度がいずれも
前記特徴類似度範囲指定手段により限定された特徴類似
度内に入るグループを抽出するグループ抽出手段と、前
記グループ抽出手段により抽出された前記グループを構
成する前記対象を、前記グループを構成しない前記対象
と識別可能に表示する対象表示手段とを備えた類似グル
ープ抽出装置を提供することにより前記目的を達成する
ものである。請求項２に記載の発明は、請求項１に記載
の類似グループ抽出装置において、前記対象表示手段
は、前記グループ抽出手段に抽出された前記グループを
構成する前記対象と前記グループを構成しない前記対象
とを表示し、且つ前記グループを構成する対象間のみを
亘る線分を表示する類似グループ抽出装置を提供するこ
とにより前記目的を達成するものである。請求項３に記
載の発明は、請求項１に記載の類似グループ抽出装置に
おいて、文書処理装置に用いられ、前記特徴度取得手段
が、複数のキーワードに対する重要度を要素値としてユ
ーザーの嗜好を表す嗜好ベクトルを取得し、前記特徴類
似度取得手段は、前記嗜好ベクトルをもとに複数のユー
ザー相互間の嗜好類似度を取得する類似グループ抽出装
置を提供することにより前記目的を達成するものであ
る。請求項４に記載の発明は、請求項１に記載の類似グ
ループ抽出装置において、文書処理装置に用いられ、前
記特徴度取得手段が、文書を特徴付ける文書ベクトルを
取得し、前記特徴類似度取得手段は、前記文書ベクトル
をもとに複数の文書相互間の文書類似度を取得する類似
グループ抽出装置を提供することにより前記目的を達成
するものである。請求項５に記載の発明は、複数の対象
それぞれの、共通する特徴についての大小を表す特徴度
を取得する特徴度取得機能と、前記特徴度取得機能によ
り取得された前記特徴度をもとに、複数の前記対象間の
特徴類似度を取得する特徴類似度取得機能と、前記特徴
類似度の範囲を指定する特徴類似度範囲指定機能と、構
成する全ての対象どうしの前記特徴類似度取得機能によ
り取得された前記特徴類似度がいずれも前記特徴類似度
範囲指定機能により限定された特徴類似度内に入るグル
ープを抽出するグループ抽出機能と、前記グループ抽出
手段により抽出された前記グループを構成する前記対象
を、前記グループを構成しない前記対象と識別可能に表
示する対象表示機能とをコンピュータに実現させるため
のコンピュータ読み取り可能な文書処理プログラムが記
憶された記憶媒体を提供することにより前記目的を達成
するものである。

【０００６】

【発明の実施の形態】以下、本発明の類似グループ抽出
装置、及び類似グループ抽出プログラムが記憶された記
憶媒体の好適な実施の形態について、この実施形態を適
用した文書処理装置、文書処理プログラムが記憶された
記憶媒体とともに、図面を参照して詳細に説明する。

【０００７】（１）実施形態の概要本実施形態では、過去の処理文書中の重要語句の出現頻
度、各文書の処理回数等から、各ユーザーの嗜好を表す
嗜好ベクトルを取得し、嗜好ベクトルどうしのなす角の
コサイン値をユーザーどうしの類似度とする。そして、
操作者から類似度のしきい値を取得し、ユーザーどうし
の類似度がこのしきい値以上となるユーザーのみからな
るグループを、このグループに入るユーザーどうしを線
分で結ぶことにより表示する。

【０００８】（２）実施形態の詳細まず始めに、類似グループ抽出装置の一実施形態が適用
される文書処理装置であり、本発明の類似グループ抽出
プログラムの一実施形態が記憶され且つ文書処理プログ
ラムが記憶された記憶媒体のこれらのプログラムが読み
取られるコンピュータについて説明する。

【０００９】従来の文書処理装置及び文書処理プログラ
ムが記憶された記憶媒体においては、複数の文書を検索
・分類するために、それぞれの文書について当該文書を
特徴付ける文書ベクトルを取得し、この文書ベクトルか
ら文書間の類似度を算出することが行われている。しか
し、同一の文書でも、例えば営業用や技術資料用等の利
用目的その他のユーザーの嗜好が異なると、重要部位等
に差異が生じる。そして、上述のような文書ベクトルを
用いた文書処理によって文書の検索や分類をしても、ユ
ーザーの嗜好を踏まえた処理は行うことができないた
め、この様な嗜好を加味した上での文書処理を行うこと
のできる文書処理装置や文書処理プログラムが記憶され
た記憶媒体、文書処理方法が望まれていた。そして、こ
の文書処理装置及び文書処理プログラムが記憶された記
憶媒体は、上述のような課題を解決するためになされた
もので、ユーザーの嗜好を踏まえた文書処理を行うこと
を目的とするものである。

【００１０】この文書処理装置は、図９に示すように、
ユーザーの嗜好を表す複数のキーワードに対する重要度
を要素値とする嗜好ベクトルを取得する嗜好ベクトル取
得手段１０１と、文書を取得する文書取得手段１０２
と、文書取得手段１０２により取得された文書を特徴付
ける文書ベクトルを取得する文書ベクトル取得手段１０
３と、文書ベクトル取得手段１０３により取得された文
書ベクトルを前記嗜好ベクトルによりシフトさせるシフ
ト手段１０４とを備えている。また更に、図１１に示す
ように、、所定の文書の文書ベクトルを嗜好ベクトルに
よりシフトさせた嗜好文書ベクトルと、他の文書の文書
ベクトルから、前記所定の文書と前記他の文書との類似
度を算出する類似度算出手段１０６を具備している。更
に、この文書処理装置は、図１０に示すように、複数の
ユーザーと、複数の前記ユーザーそれぞれの嗜好を表す
複数のキーワードとの一方を行、他方を列とし、前記各
ユーザーに対する前記各キーワードの重要度を要素値と
するＧＰ行列を取得するＧＰ行列取得手段１０５を備
え、嗜好ベクトル取得手段１０１は、ＧＰ行列により、
ユーザーが作成した文書又はアクセスした文書に対する
複数の文書ベクトルから嗜好ベクトルを作成する。

【００１１】また、この文書処理装置は、図１２に示す
ように、ユーザーの嗜好を表す複数のキーワードに対す
る重要度を要素値とする嗜好ベクトルを取得する嗜好ベ
クトル取得機能２０１と、文書を取得する文書取得機能
２０２と、前記文書取得機能２０２により取得された文
書を特徴付ける文書ベクトルを取得する文書ベクトル取
得機能２０３と、前記文書ベクトル取得機能２０３によ
り取得された前記文書ベクトルを前記嗜好ベクトルによ
りシフトさせるシフト機能２０４とをコンピュータに実
現させるためのコンピュータ読み取り可能な文書処理プ
ログラムが記憶された記憶媒体の該プログラムをコンピ
ュータに読み込ませたものである。そして上記記憶媒体
の上記プログラムは、図１２に示すように、前記嗜好ベ
クトル取得機能２０１は、前記ユーザーが作成した文書
又はアクセスした文書に対する複数の文書ベクトルから
前記嗜好ベクトルを作成する文書処理プログラムであ
り、且つ、図１３に示すように、複数のユーザーと、複
数の前記ユーザーそれぞれの嗜好を表す複数のキーワー
ドとの一方を行、他方を列とし、前記各ユーザーに対す
る前記各キーワードの重要度を要素値とするＧＰ行列を
取得するＧＰ行列取得機能２０５を備え、前記嗜好ベク
トル取得機能２０１は、前記ＧＰ行列により前記嗜好ベ
クトルを取得する文書処理プログラムである。また、前
記ＧＰ行列取得機能２０５は、ユーザーが過去に処理し
た文書と該文書のキーワードとのうちの一方を行、他方
を列とし、前記文書におけるキーワードの重要度を要素
値とする文書−キーワード行列と、ユーザーが過去に処
理した文書とユーザーとのうちの一方を行、他方を列と
し、各ユーザーの前記文書の処理回数を要素とする文書
−ユーザー行列と、からＧＰ行列を取得する。更に、上
記プログラムは、図１４に示すように、所定の文書の文
書ベクトルを嗜好ベクトルによりシフトさせた嗜好文書
ベクトルと、他の文書の文書ベクトルから、前記所定の
文書と前記他の文書との類似度を算出する類似度算出機
能２０６を具備する文書処理プログラムである。

【００１２】上述の構成の文書処理装置や文書処理プロ
グラムが記憶された記憶媒体では、文書ベクトルをユー
ザーの嗜好を加味した嗜好文書ベクトルにシフトさせ、
この嗜好文書ベクトルに対する類似度を取得することに
より、ユーザーの興味や注目度、目的等の嗜好に対する
文書の類似度が取得でき、この類似度に基づいて分類や
検索を行うことにより、ユーザーの興味や注目度、目的
等の嗜好を反映した分類や検索、配信等の文書処理が可
能となる。

【００１３】以下、この文書処理装置（コンピュータ）
について更に説明する。図１は、本発明の類似グループ
抽出装置の一実施形態を適用する文書処理装置であり、
本発明の類似グループ抽出プログラムの一実施形態が記
憶され且つ文書処理プログラムが記憶された記憶媒体の
これらのプログラムが読み取られるコンピュータの構成
を表したブロック図である。

【００１４】この図１に示すように、この文書処理装置
（コンピュータ）は、装置全体を制御するための制御部
１１を備えている。この制御部１１には、データバス等
のバスライン２１を介して、入力装置としてのキーボー
ド１２やマウス１３、表示装置１４、印刷装置１５、記
憶装置１６、記憶媒体駆動装置１７、通信制御装置１
８、入出力Ｉ／Ｆ１９、及び文字認識装置２０が接続さ
れている。制御部１１は、ＣＰＵ１１１、ＲＯＭ１１
２、ＲＡＭ１１３を備えている。ＲＯＭ１１２は、ＣＰ
Ｕ１１１が各種制御や演算を行うための各種プログラム
やデータが予め格納されたリードオンリーメモリであ
る。

【００１５】ＲＡＭ１１３は、ＣＰＵ１１１にワーキン
グメモリとして使用されるランダムアクセスメモリであ
る。このＲＡＭ１１３には、文書ベクトル取得処理を行
うためのエリアとして、文書ベクトル取得の対象となる
文書を格納する対象文書格納エリア１１３１、キーワー
ド格納エリア１１３２、文書ベクトル格納エリア１１３
４が確保され、また、嗜好文書ベクトル取得処理を行う
ためのエリアとして、行列格納エリア１１３５、嗜好文
書ベクトル格納エリア１１３６、類似度格納エリア１１
３７その他の各種エリアが確保されるようになってい
る。

【００１６】キーボード１２は、かな文字を入力するた
めのかなキーやテンキー、各種機能を実行するための機
能キー、カーソルキー、等の各種キーが配置されてい
る。マウス１３は、ポインティングデバイスであり、表
示装置１４に表示されたキーやアイコン等を左クリック
することで対応する機能の指定を行う入力装置である。
表示装置１４は、例えばＣＲＴや液晶ディスプレイ等が
使用される。この表示装置１４には、文書ベクトルを取
得する対象文書の内容や、算出された文書間の類似度、
算出された類似度をもとに行った検索結果や分類結果等
が表示されるようになっている。印刷装置１５は、表示
装置１４に表示された文章や、記憶装置１６の文書デー
タベース１６４に格納された文書等の印刷を行うための
ものである。この印刷装置としては、レーザプリンタ、
ドットプリンタ、インクジェットプリンタ、ページプリ
ンタ、感熱式プリンタ、熱転写式プリンタ、等の各種印
刷装置が使用される。

【００１７】記憶装置１６は、読み書き可能な記憶媒体
と、その記憶媒体に対してプログラムやデータ等の各種
情報を読み書きするための駆動装置で構成されている。
この記憶装置１６に使用される記憶媒体としては、主と
してハードディスクが使用されるが、後述の記憶媒体駆
動装置１７で使用される各種記憶媒体のうちの読み書き
可能な記憶媒体を使用するようにしてもよい。記憶装置
１６は、仮名漢字変換辞書１６１、プログラム格納部１
６２、文書データベース１６４、重要語データベース１
６５、行列データベース１６８、文書ベクトルデータベ
ース１６６、嗜好文書ベクトルデータベース１６７、図
示しないその他の格納部（例えば、この記憶装置１６内
に格納されているプログラムやデータ等をバックアップ
するための格納部）等を有している。プログラム格納部
１６２には、嗜好文書ベクトル取得処理プログラム、類
似度算出処理プログラム等の各種プログラムの他、仮名
漢字変換辞書１６１を使用して入力された仮名文字列を
漢字混り文に変換する仮名漢字変換プログラム等の各種
プログラムが格納されている。

【００１８】文書データベース１６４には、仮名漢字変
換プログラムにより作成された文書や、他の装置で作成
されて記憶媒体駆動装置１７や通信制御装置１８から読
み込まれた文書が格納される。この文書データベース１
６４に格納される各文書の形式は特に限定されるもので
はなく、テキスト形式の文書、ＨＴＭＬ（Hyper Text
Markup Language）形式の文書、ＪＩＳ形式の文書等
の各種形式の文書の格納が可能である。更にこの文書デ
ータベース１６４には、文書を処理したユーザー（処理
者）及びその処理回数が各文書に対応付けて格納されて
いる。前記処理回数は、所定期間毎に値を０にリセット
される。重要語データベース１６５には、前記所定期間
内に処理した処理文書から抽出された重要語句（処理重
要語句）及びその重要度（処理重要度）が格納される。

【００１９】行列データベース１６８には、過去の所定
期間に行われた文書処理の処理内容により取得される行
列Ｇａ，Ｇｂ，Ｇｃが格納されている。文書ベクトル
は、これらの行列Ｇａ，Ｇｂ，Ｇｃにより取得されるＧ
Ｐ（Group Personalize）行列をもとに、嗜好文書ベク
トルに変換される。図２（ａ）〜（ｃ）は、行列Ｇａ，
Ｇｂ，Ｇｃを示す説明図である。

【００２０】行列Ｇａ（文書−キーワード行列）は、図
２（ａ）に示すように、前記所処理重要語句を行に、同
処理文書を列にとった行列であり、各要素は処理重要語
句の処理重要度ｆ（ｘ）を表している。行列Ｇｂ（文書
−ユーザー行列）は、図２（ｂ）に示すように、前記処
理文書を行にとり、ユーザーのメンバーを列にとった行
列であり、各要素は、メンバーが各文書を前記所定期間
内に処理した回数となっている。行列Ｇｃは、図２
（ｃ）に示すように、行および列がともにユーザーのメ
ンバーそれぞれの重要度係数を示している。行列Ｇａ及
び行列Ｇｂは所定期間ごとに書き換えられ、行列Ｇｃは
操作者からの入力により適宜書き換えられる。

【００２１】文書ベクトルデータベース１６６、及び嗜
好文書ベクトルデータベース１６７には、本実施形態に
おいて類似度を算出する基準となる基準文書、及び、該
基準文書に対する類似度を比較する対象文書それぞれの
文書ベクトル及び嗜好文書ベクトルが格納される。

【００２２】記憶媒体駆動装置１７は、ＣＰＵ１１１が
外部の記憶媒体からコンピュータプログラムや文書を含
むデータ等を読み込むための駆動装置である。記憶媒体
に記憶されているコンピュータプログラムには、本文書
処理装置により実行される各種処理のためのプログラ
ム、および、そこで使用される辞書、データ等も含まれ
る。ここで、記憶媒体とは、コンピュータプログラムや
データ等が記憶される記憶媒体をいい、具体的には、フ
ロッピーディスク、ハードディスク、磁気テープ等の磁
気記憶媒体、メモリチップやＩＣカード等の半導体記憶
媒体、ＣＤ−ＲＯＭやＭＯ、ＰＤ（相変化書換型光ディ
スク）等の光学的に情報が読み取られる記憶媒体、紙カ
ードや紙テープ等の用紙（および、用紙に相当する機能
を持った媒体）を用いた記憶媒体、その他各種方法でコ
ンピュータプログラム等が記憶される記憶媒体が含まれ
る。本文書処理装置において使用される記憶媒体として
は、主として、ＣＤ−ＲＯＭやフロッピーディスクが使
用される。記憶媒体駆動装置１７は、これらの各種記憶
媒体からコンピュータプログラムを読み込む他に、フロ
ッピーディスクのような書き込み可能な記憶媒体に対し
てＲＡＭ１１３や記憶装置１６に格納されているデータ
等を書き込むことが可能である。

【００２３】本文書処理装置では、制御部１１のＣＰＵ
１１１が、記憶媒体駆動装置１７にセットされた外部の
記憶媒体からコンピュータプログラムを読み込んで、記
憶装置１６の各部に格納（インストール）する。そし
て、本実施形態による類似度算出等の各種処理を実行す
る場合、記憶装置１６から該当プログラムをＲＡＭ１１
３に読み込み、実行するようになっている。但し、記憶
装置１６からではなく、記憶媒体駆動装置１７により外
部の記憶媒体から直接ＲＡＭ１１３に読み込んで実行す
ることも可能である。また、文書処理装置によっては、
類似度算出処理プログラム等を予めＲＯＭ１１２に記憶
しておき、これをＣＰＵ１１１が実行するようにしても
よい。

【００２４】通信制御装置１８は、他のパーソナルコン
ピュータやワードプロセッサ等との間でテキスト形式や
ＨＴＭＬ形式等の各種形式の文書やビットマップデータ
等の各種データの送受信を行うことができるようになっ
ている。入出力Ｉ／Ｆ１９は、音声や音楽等の出力を行
うスピーカ等の各種機器を接続するためのインターフェ
ースである。文字認識装置２０は、用紙等に記載された
文字をテキスト形式やＨＴＭＬ等の各種形式で認識する
装置であり、イメージスキャナや文字認識プログラム等
で構成されている。

【００２５】本文書処理装置では、キーボード１２の入
力操作により作成した文書（ＲＡＭ１１３の所定格納エ
リアに格納）の他、外部で作成して所定の記憶媒体に格
納した文書で記憶媒体駆動装置１７から読み込んだ文
書、予め文書データベース１６４に格納されている文
書、通信制御装置１８からダウンロードした文書、及び
文字認識装置２０で文字認識した文書、等の各種文書を
対象文書として取得することが可能である。

【００２６】次に、上述のような構成の文書処理装置に
よる嗜好文書ベクトル取得処理及び類似度算出処理につ
いて図面を参照して説明する。

【００２７】上述の文書処理装置による嗜好文書ベクト
ル取得処理においては、図１５に示すように、ユーザー
の嗜好を表す複数のキーワードに対する重要度を要素値
とする嗜好ベクトルと文書とを取得３０１し、前記文書
を特徴付ける文書ベクトルを取得３０２し、前記文書ベ
クトルを前記嗜好ベクトルによりシフト３０３させる。

【００２８】本文書処理装置による嗜好文書ベクトル取
得処理及び類似度算出処理について更に詳細に説明する
と、本文書処理装置においては、所定期間毎に、該所定
期間内に行われた文書処理の処理内容基づいて新たな処
理重要語句及び処理重要度が取得され、行列データベー
ス１６８内の行列Ｇａ及び行列Ｇｂが書き換えられる。

【００２９】図３は、行列Ｇａ，Ｇｂ書き換え処理の動
作を表したフローチャートである。ＣＰＵ１１１は、所
定期間内に処理された文書（処理文書）を文書データベ
ース１６４から順次取得してＲＡＭ１１３の所定作業領
域に格納し（ステップ１１）、各処理文書についての重
要語句（処理重要語句）及びその重要度（処理重要度）
を取得する（ステップ１２）。

【００３０】図４は処理重要語句・処理重要度取得処理
の動作を表したフローチャートである。図４に示すよう
に、ＣＰＵ１１１は、文書データベース１６４から取得
した処理文書について、各処理文書毎に形態素解析を行
うことで自立語を抽出する（ステップ１２１）と共に、
名詞句、複合名詞句等を含めた候補語（句）を処理文書
から抽出する（ステップ１２２）。次に、抽出した候補
語（句）の処理文書での出現頻度、評価関数から、各候
補語（句）の処理重要度ｆ（ｘ）を取得する（ステップ
１２３）。ここで、評価関数としては、例えば、所定の
重要語句が予め指定されている場合にはその重要語句に
対する重み付け、単語、名詞句、複合名詞句等の候補語
（句）の種類による重み付け等が使用される。

【００３１】さらにＣＰＵ１１１は、取得した処理重要
度ｆ（ｘ）の値をもとに候補語（句）から処理重要語句
ａ，ｂ，…を取得し（ステップ１２４）、この処理重要
語句ａ，ｂ，…及びその処理重要度ｆ（ａ），ｆ
（ｂ），…を重要語データベース１６５に格納する（ス
テップ１２５）。すべての処理文書について、処理重要
語句及びその処理重要度を取得すると、図４に示す行列
Ｇａ，Ｇｂ書き換え処理ルーチンへリターンする。

【００３２】続いて、ＣＰＵ１１１は、行列データベー
ス１６８の行列Ｇａを、前記処理重要語句ａ，ｂ，…を
行に、前記所定期間の処理文書を列に、また処理重要度
ｆ（ａ），ｆ（ｂ），…を各要素にとったものに書き換
える（ステップ１３）。このとき、行列Ｇａの行数は、
各処理文書の処理重要語句の和集合の数とし、各処理文
書において含まれていない処理重要語句については、そ
の処理重要度ｆ（ｘ）は０と定義される。

【００３３】例えば図２おいて、処理文書Ｂの処理重要
語は「重要、重要語、重要度、…」、処理文書Ｃの処理
重要語句は「重要、…、政治、…」であり、これらの処
理重要語句に対応する処理重要度は、処理文書Ｂについ
ては（１，１８，１９，…）、処理文書Ｃについては
（１８，…，２１，…）である。これに対して行列Ｇａ
においては、その行は「重要、重要語、重要度、…、政
治、…」とし、両文書の列における要素値はつぎの通り
定義される。処理文書Ｂの列＝（１，１８，１９，…，０，…）、処理文書Ｃの列＝（１８，０，０，…，２１，…）

【００３４】また、ＣＰＵ１１１は、文書データベース
１６４から、各処理文書の処理回数を取得し（ステップ
１４）、行列Ｇｂを、所定期間内の処理文書を行に、文
書データベース１６４から取得した処理回数を各要素と
したものに書き換えて（ステップ１５）、行列Ｇａ，Ｇ
ｂ書き換え処理を終了する。

【００３５】図５は、本文書処理装置による文書嗜好ベ
クトル取得処理の動作を示すフローチャートである。嗜
好文書ベクトル取得に際しては、嗜好文書ベクトル取得
の対象となる文書（対象文書）を取得し、ＲＡＭ１１３
の対象文書格納エリア１１３１に格納する（ステップ２
１）。対象文書は、ユーザの指示に従ってＲＡＭ１１
３、記憶装置１６の文書データベース１６４、記憶媒体
駆動装置１７、または通信制御装置１８（パソコン通
信、インターネット等の通信による場合）から取得す
る。

【００３６】次にＣＰＵ１１１は、対象文書中から行列
Ｇａの処理重要語句を抽出する（ステップ２２）。次
に、抽出した処理重要語句の対象文書中での出現頻度、
評価関数等から、重要度ｇ（ｙ）を取得する（ステップ
２３）。ここで、評価関数としては、例えば、処理重要
語句に対する予め指定されている重み付け、単語、名詞
句、複合名詞句等の候補語（句）の種類による重み付け
等が使用される。

【００３７】そして、この処理重要語句ａ，ｂ，…の対
象文書中における重要度ｇ（ａ），ｇ（ｂ）、…を要素
とする文書ベクトルＶを取得する（ステップ２４）。

【００３８】文書ベクトルＶを取得すると、ＣＰＵ１１
１は、行列データベース１６８から行列Ｇａ，Ｇｂ，Ｇ
ｃを取得し、次の式に従って、ＧＰ行列を求める（ステ
ップ２５）。ＧＰ＝Ｇａ・Ｇｂ・Ｇｃ従って、本文書処理装置におけるＧＰ行列は、Ｇａ行列
の次元合わせを行った行をそのまま行にとり、ユーザー
の各メンバーを列にとってなっており、ＧＰ行列の各要
素は、メンバー毎の過去の文書処理における処理重要語
句の処理重要度ｆ（ｘ）に各メンバーの重要度を加味し
て表した数値となっている。

【００３９】ＧＰ行列が取得されると、続いてＣＰＵ１
１１は、このＧＰ行列をもとにＧＰベクトル（嗜好ベク
トル）を取得する（ステップ２６）。図６は、ＧＰ行列
からＧＰベクトルを算出する行程を概念的に説明する説
明図である。

【００４０】ＣＰＵ１１１は、まず、ＧＰ行列の各要素
ｇｉｊ（ｉ＝１〜メンバー数ｍ、ｊ＝１〜処理重要語句
の和集合の数ｋ）の各行毎の要素の平均値を算出して列
ベクトル（総ＧＰベクトル）を得る（図６（１）→
（２））。この総ＧＰベクトルは、各要素ｇｉが処理重
要語句毎のユーザーグループ全体における過去の文書処
理での出現頻度（但し各処理重要語句の予め決められた
処理重要語句の重み等や、メンバーの重要度が加味され
ている）を反映した数値となっている。ＣＰＵ１１１
は、更に、この総ＧＰベクトルの各要素ｇｉを文書の処
理回数の総数で割って、１列のＧＰベクトルを得る（図
６（２）→（３））。この様に、総ＧＰベクトルを文書
の処理回数の総数で割るのは、行列Ｇｂに文書の処理回
数が要素として含まれており、処理回数が増えるに従っ
てＧＰベクトルが大きくなっていくのを回避するためで
ある。

【００４１】そして、ＣＰＵ１１１は、ＧＰベクトルの
各要素とこの各要素に対応する文書ベクトルＶの要素と
を掛け合わせて、嗜好文書ベクトルＶ’を得る。嗜好文
書ベクトルＶ’は、嗜好文書ベクトルデータベース１６
７に格納して（ステップ２６）、嗜好文書ベクトル取得
処理を終了する。

【００４２】図７は、文書ベクトルを嗜好文書ベクトル
にシフトさせた状態を概念的に示す説明図である。尚、
この説明図では、表示の都合上処理重要語句をＸ，Ｙの
２つとして説明するが、処理重要語句の数が異なってい
ても、文書ベクトルを嗜好文書ベクトルにシフトさせた
状態については本質的に同様である。図７に示すよう
に、文書ベクトルＶｐ＝（０，１）、文書ベクトルＶｑ
＝（２，１）、及び文書ベクトルＶｒ＝（８，１）をＧ
Ｐベクトル＝（１，２）によりシフトさせたものであ
る。文書ベクトルＶｐ、文書ベクトルＶｑ、文書ベクト
ルＶｒは、ＧＰベクトルにより、それぞれ嗜好文書ベク
トルＶｐ’＝（０，２）、Ｖｑ’＝（２，２）、Ｖｒ＝
（８，２）にシフトされる。このように、出現頻度等に
よって決定される要素値により、文書ベクトルから嗜好
文書ベクトルへ様々な角度でシフトされる。

【００４３】次に、本文書処理装置による類似度算出処
理について図８を参照して説明する。図８は、類似度算
出処理の動作を示すフローチャートである。

【００４４】類似度算出に際しては、ＣＰＵ１１１は、
類似度を算出する基準となる文書（基準文書Ａ）につい
ての文書嗜好ベクトルＶ’ａを取得する（ステップ２
１）。基準文書Ａについての文書嗜好ベクトルＶ’ａ
は、上述の動作によって、または既に嗜好文書ベクトル
データベース１６７に格納されている場合にはこの文書
嗜好ベクトルデータベース１６７から読み出して、取得
する。尚、基準文書Ａは、文書データベース１６４に格
納されている文書等から処理時に選択しても、予め決定
されているものを用いてもよい。また、基準文書Ａとし
ては、１つの文書の他、複数の文書よりなる文書群や、
文書群からクラスタリング処理により自動抽出した文書
群を用いることもできる。

【００４５】また、基準文書Ａとの類似度を算出する比
較文書Ｂについての文書ベクトルＶｂを取得する（ステ
ップ２２）。

【００４６】次に、ＣＰＵ１１１は、基準文書Ａと比較
文書Ｂとの類似度Ｓｂを、基準文書Ａの嗜好文書ベクト
ルＶａ’と比較文書Ｂの文書ベクトルＶｂ間の角度ｑに
依存するコサインにより求める（ステップ２３）。すな
わち、比較文書Ｂの基準文書Ａに対する類似度Ｓｂは、
嗜好文書ベクトルＶａ’と文書ベクトルＶｂの間の角度
をｑ、嗜好文書ベクトルＶａ’と文書ベクトルＶｂの内
積をＶａ’・Ｖｂ、嗜好文書ベクトルＶａ’，文書ベク
トルＶｂの大きさをそれぞれ｜Ｖａ’｜、｜Ｖｂ｜とし
た場合、次の数式１により求まる。

【００４７】［数式１］類似度Ｓｂ＝ＣＯＳ（ｑ）＝（Ｖａ’・Ｖｂ）／（｜Ｖ
ａ’｜×｜Ｖｂ｜）

【００４８】この類似度Ｓｂの値は−１≦Ｓｂ≦１まで
の値をとり、１に近いほど比較文書Ｂの文書ベクトルＶ
ｂと基準文書Ａの嗜好文書ベクトルＶａとの向きが近
く、文書ベクトルＶｂが嗜好文書ベクトルＶａに類似
し、比較文書Ｂが、ユーザーの嗜好に近いと考えること
ができる。

【００４９】ＣＰＵ１１１は、求められた類似度Ｓｂを
比較文書Ｂと対応させて類似度格納エリア１１３７に格
納して（ステップ２４）、類似度算出処理を終了する。

【００５０】この様に、本文書処理装置では、ユーザー
の処理文書中における処理重要語句の頻出頻度をもと
に、基準文書Ａの文書ベクトルＶをシフト（文書ベクト
ルの各要素値を変換）してユーザーの嗜好を加味した嗜
好文書ベクトルＶ’を取得し、この嗜好文書ベクトル
Ｖ’に対する他の文書の類似度が算出される。従って、
この類似度は、ユーザーの興味や注目度、目的等の嗜好
ユーザーの嗜好に対する指標となるので、この類似度に
基づいて文書の分類や検索を行うことにより、ユーザー
の嗜好を反映した分類や検索が可能となる。また、ユー
ザーの興味や注目度等に合う文書を選択して配信するこ
とが可能となる。本文書処理装置によると、ＧＰ行列を
用いた変換によって文書ベクトルＶを嗜好文書ベクトル
Ｖ’にシフトさせているので、計算処理が簡単であり、
ベクトル空間法を採用したコア・エンジンを備えた一般
の文書処理装置に容易に適用することが可能である。

【００５１】本文書処理装置によると、文書ベクトルを
嗜好文書ベクトルにシフトさせるＧＰベクトル（嗜好ベ
クトル）のもととなるＧＰ行列を、表現すべき特徴毎の
単純な観点で構成した行列Ｇａ，Ｇｂ，Ｇｃの掛け合わ
せて求めているので、様々な特徴を考慮に入れたＧＰ行
列を容易に構成して文書ベクトルＶをシフトさせること
が可能である。本文書処理装置によると、文書ベクトル
を嗜好文書ベクトルにシフトさせるＧＰベクトルのもと
となるＧＰ行列は、各列がユーザーのメンバーの興味を
反映しているので、ユーザーを数グループに分割した該
グループのＧＰ行列や個々のメンバーのＧＰ行列（ベク
トル）を容易に得ることができる。本文書処理装置によ
ると、ＧＰ行列がユーザーの過去に処理した文書をもと
に適宜書き換えられている行列Ｇａ，Ｇｂ，Ｇｃをもと
に取得されているので、文書ベクトルＶがユーザーの嗜
好の経時的掲示変化に対応した嗜好文書ベクトルＶ’に
シフトされ、ユーザーの嗜好の変遷に追随した類似度の
算出および検索・分類等の処理が可能となる。

【００５２】次に、本発明の類似グループ抽出装置及び
類似グループ抽出プログラムが記憶された記憶媒体の一
実施形態について、上述の文書処理装置及び文書処理プ
ログラムが記憶された記憶媒体に適用した場合を例とし
て説明する。図１６は、本発明の類似グループ抽出装置
の一実施形態が適用された文書処理装置であり、本発明
の類似グループ抽出プログラムが記憶された記憶媒体の
一実施形態が適用された文書処理プログラムが記憶され
た記憶媒体の該プログラムが読み取られたコンピュータ
の、構成を表したブロック図である。

【００５３】本発明の類似グループ抽出装置の一実施形
態が適用された文書処理装置においては、ＲＡＭ１１３
には、複数の対象としての文書の、特徴を表す特徴度と
しての文書ベクトルを取得する文書ベクトル取得処理
（特徴度取得処理）を行うためのエリアとして、対象文
書格納エリア１１３１、キーワード格納エリア１１３
２、文書ベクトル格納エリア１１３４が確保されてお
り、また、特徴度としての文書ベクトルをもとに複数の
文書相互間の文書類似度（特徴類似度）を取得する文書
類似度取得処理（特徴類似度取得処理）を行うためのエ
リアとして、文書類似度を取得する文書の文書名を格納
する文書格納エリア１１４１、この文書格納エリア１１
４１に格納されている文書名の文書相互間の文書類似度
をそれらの文書と対応させて格納する文書類似度格納エ
リア１１４２が確保されている。

【００５４】また、文書類似度の範囲を指定する文書類
似度指定処理を行うためのエリアとして、文書類似度し
きい値格納エリア１１４４が確保されており、構成する
全ての文書どうしの文書類似度が文書類似度範囲指定処
理により指定された文書類似度の範囲内に入る類似文書
グループを抽出する文書グループ抽出処理を行うエリア
として、選択文書格納エリア１１５１が確保されてい
る。文書類似度しきい値格納エリア１１４４に格納され
るしきい値は、初期値−１に設定されている。更に、文
書グループ抽出処理により抽出された類似文書グループ
を構成する文書を、類似文書グループを構成しない他の
文書と識別可能に表示する文書表示処理（対象表示処
理）を行うためのエリアとして、文書類似度に基づき算
出された線分の太さをその文書類似度の文書の対と対応
させて格納する文書類似度グラフ値格納エリア１１４３
が確保されている。

【００５５】更に、ＲＡＭ１１３には、複数の対象とし
てのユーザーの特徴を表す特徴度としての嗜好ベクトル
を取得する嗜好ベクトル取得処理（特徴度取得処理）を
行うためのエリアとして、行列格納エリア１１３５、及
び嗜好ベクトル格納エリア１１４６が確保されており、
また、特徴度としての嗜好ベクトルをもとに複数のユー
ザー相互間の嗜好類似度（特徴類似度）を取得する嗜好
類似度取得処理（特徴類似度取得処理）を行うためのエ
リアとして、処理対象となるユーザーのユーザー名を格
納するユーザー格納エリア１１４５、及びこのユーザー
格納エリア１１４５に格納されているユーザー相互間の
嗜好類似度をそれらのユーザーの対と対応させて格納す
る嗜好類似度格納エリア１１４７が確保されている。

【００５６】また、嗜好類似度の範囲を指定する嗜好類
似度範囲指定処理を行うためのエリアとして嗜好類似度
しきい値格納エリア１１４９が確保されており、構成す
る全てのユーザーどうしの嗜好類似度が嗜好類似度範囲
指定処理により限定された嗜好類似度の範囲内に入る類
似ユーザーグループを抽出するユーザーグループ抽出処
理を行うエリアとして、選択ユーザー格納エリア１１５
２が確保されている。嗜好類似度しきい値格納エリア１
１４９に格納されるしきい値は、初期値−１に設定され
ている。更に、ユーザーグループ抽出処理により抽出さ
れた類似ユーザーグループを構成するユーザーを、類似
ユーザーグループを構成しないユーザーと識別可能に表
示するユーザー表示処理（対象表示処理）を行うための
エリアとして、嗜好類似度に基づき算出された線分の太
さをその嗜好類似度のユーザーの対と対応させて格納す
る嗜好類似度グラフ値格納エリア１１４８が確保されて
いる。

【００５７】また、本実施形態においては、表示装置１
４は、対象表示手段として、類似グループ抽出の対象と
なったユーザーや文書を１つの仮想円周上に等間隔に配
置し、且つグループ抽出手段により抽出されたグループ
を構成するユーザーや文書の間のみを亘るに線分を表し
た類似ユーザーグループ抽出図や類似文書グループ抽出
図を表示するようになっている。更に、本実施形態にお
いては、表示装置１４には、嗜好類似度範囲指定手段
（特徴類似度範囲指定手段）としての嗜好類似度バーや
文書類似度範囲指定手段（特徴類似度範囲指定手段）と
しての文書類似度バーが表示され、これらのバーの選択
ポインタの位置から、嗜好類似度しきい値格納エリア１
１４９や文書類似度しきい値格納エリア１１４４に格納
されるしきい値が取得されるようになっている。

【００５８】更に記憶装置１６のプログラム格納部１６
２には、前述した文書ベクトル取得処理プログラムや記
嗜好文書ベクトル取得処理プログラムの他、各ユーザー
の嗜好ベクトルを取得する嗜好ベクトル取得処理プログ
ラム、嗜好類似度取得処理プログラム、ユーザーグルー
プ抽出処理プログラム、ユーザー表示処理プログラム、
文書類似度取得処理プログラム、文書グループ抽出処理
プログラム、文書表示処理プログラムが格納されてい
る。

【００５９】また、本実施形態においては、記憶装置１
６に嗜好ベクトルデータベース１６９が備えられてお
り、各ユーザーの嗜好ベクトルが各ユーザーに対応して
格納される。

【００６０】次に、上述のような構成の類似グループ抽
出装置の動作について説明する。尚、文書処理装置の動
作として既に上述した動作については説明は省略する。

【００６１】まず、本実施形態により、類似する嗜好を
有するユーザーのグループを抽出する場合の動作につい
て説明する。図１７は、本実施形態により類似する嗜好
を有するユーザーのグループを抽出するメインの動作の
流れについて示すフローチャートである。

【００６２】本実施形態では、図１７に示すように、複
数のユーザーそれぞれの嗜好についての嗜好ベクトルを
取得する嗜好ベクトル取得処理（Ｓ４１）と、取得した
嗜好ベクトルをもとに複数のユーザー相互間の嗜好類似
度を取得する嗜好類似度取得処理（Ｓ４２）と、嗜好類
似度の範囲を指定する嗜好類似度範囲指定処理（Ｓ４
３）と、構成する全てのユーザーどうしの嗜好類似度が
嗜好類似度範囲指定処理により限定された嗜好類似度の
範囲内に入る類似ユーザーグループを抽出するユーザー
グループ抽出処理（Ｓ４４）と、類似ユーザーグループ
を構成するユーザーを、類似ユーザーグループを構成し
ないユーザーと識別可能に表示するユーザー表示処理
（Ｓ４５）とを行う。

【００６３】図１８は、嗜好ベクトル取得処理の流れを
示すフローチャートである。嗜好ベクトル取得処理に際
しては、ＣＰＵ１１１は、まず、嗜好類似度を取得する
ユーザーを取得し、ユーザー格納エリア１１４５に格納
する（ステップ４１１）。このユーザーの取得は、キー
ボードからのユーザー名やＩＤ番号の入力や、表示装置
１４における行列データベースにおいて行列Ｇａの各行
となっているユーザーすべての表示中からのマウスポイ
ンタやキーボードによる選択等により行われる。

【００６４】また、ＣＰＵ１１１は、行列データベース
１６８から行列Ｇａ，Ｇｂ，Ｇｃを取得し、次の式に従
って、ＧＰ行列を求める（ステップ４１２）。ＧＰ＝Ｇａ・Ｇｂ・Ｇｃ従って、ＧＰ行列は、Ｇａ行列の次元合わせを行った行
をそのまま行にとり、ユーザーの各メンバーを列にとっ
てなっており、ＧＰ行列の各要素は、メンバー毎の過去
の文書処理における処理重要語句の処理重要度ｆ（ｘ）
に各メンバーの重要度を加味して表した数値となってい
る。

【００６５】ＧＰ行列を取得すると、続いてＣＰＵ１１
１は、このＧＰ行列をもとに嗜好ベクトルを取得する
（ステップ４１３）。

【００６６】図１９は、ＧＰ行列から嗜好ベクトルを算
出する行程を概念的に説明する説明図である。ＣＰＵ１
１１は、まず、ＧＰ行列の各列毎の各要素ｇｉｊ（ｉ＝
１〜ユーザー数ｍ、ｊ＝１〜処理重要語句の和集合の数
ｋ）からなる列ベクトル（各ユーザーの総嗜好ベクト
ル）を得る（図１９（１）→（２））。続いてＣＰＵ１
１１は、各ユーザーの総嗜好ベクトルの各要素ｇｉｊを
文書の処理回数の総数で割って、各ユーザーそれぞれの
嗜好ベクトルを得る（図１９（２）→（３））。この様
に、総嗜好ベクトルを文書の処理回数の総数で割るの
は、行列Ｇｂに文書の処理回数が要素として含まれてお
り、処理回数が増えるに従って嗜好ベクトルが大きくな
っていくのを回避するためである。

【００６７】取得した嗜好ベクトルは各ユーザーと対応
させて嗜好ベクトルデータベース１６９及び嗜好ベクト
ル格納エリア１１４６に格納し（ステップ４１４）、メ
インの流れへリターンする。尚、前回に嗜好ベクトルを
取得してから、行列Ｇａ及び行列Ｇｂが書き換えられて
いな場合には、新たにＧＰ行列を取得することなく嗜好
ベクトルデータべース１６９からそのまま嗜好ベクトル
を読み出し取得して嗜好ベクトル格納エリア１１４６に
格納する。

【００６８】次に、ＣＰＵ１１１は、嗜好類似度取得処
理を行う。嗜好類似度取得処理においては、ユーザー格
納エリア１１４５に格納されているユーザーの嗜好ベク
トル全ての相互間について嗜好類似度を算出する。各ユ
ーザー相互間の嗜好類似度は、当該ユーザーの嗜好ベク
トル間の角度に依存するコサインにより求める。即ち、
嗜好類似度を求めるユーザーをＡ及びＢ、各ユーザーの
嗜好ベクトルをそれぞれＵａ，Ｕｂ、両嗜好ベクトルＵ
ａ，Ｕｂ間の角度をｒ、両嗜好ベクトルの内積をＵａ・
Ｕｂ、両嗜好ベクトルの大きさをそれぞれ｜Ｕａ｜，｜
Ｕｂ｜とした場合、次の数式２により求まる。［数式２］嗜好類似度Ｔａｂ＝ＣＯＳ（ｒ）＝（Ｕａ・Ｕｂ）／（｜Ｕａ｜×｜Ｕｂ｜）

【００６９】この嗜好類似度Ｔａｂの値は−１≦Ｔａｂ
≦１までの値をとり、１に近いほど２つの嗜好ベクトル
Ｕａ，Ｕｂが互いに平行に近く、ユーザーＡ，Ｂの嗜好
が似ていると考えることができる。

【００７０】算出された嗜好類似度は、ユーザーの対と
対応させてＲＡＭ１１３の嗜好類似度格納エリア１１３
５に格納し、嗜好類似度算出処理を終了する。

【００７１】その後、ＣＰＵ１１１は、嗜好類似度しき
い値格納エリア１１４９から嗜好類似度しきい値を取得
する（嗜好類似度範囲指定処理）。そして、構成するユ
ーザーどうしの嗜好類似度が、全て嗜好類似度しきい値
以上となっている類似ユーザーグループを抽出し、類似
ユーザーグループを構成するユーザーを、グループ別に
選択ユーザー格納エリア１１５２に格納する（ユーザー
グループ抽出処理）。

【００７２】更に、ＣＰＵ１１１は、選択ユーザー格納
エリア１１５２に格納されるユーザーどうしの嗜好類似
度をもとに、表示する図の各ユーザー間の線の太さを数
式３により算出し、嗜好類似度グラフ値格納エリア１１
４８に、ユーザーの対に対応させて格納する。［数式３］線の太さ＝ＩＮＴ（最大線太さ×ユーザー間の嗜好類似
度／最大類似度＋０．５）

【００７３】ただしＩＮＴは引数を越えない最大整数を
求める関数であり、最大線太さは、表示装置１４におい
て表示される図の予め決められた最大の線の太さであ
る。コンピュータ内では線の太さは正の整数によってド
ット単位で表されるので、本実施形態においては上記の
式により整数として求めることとしている。上記数式３
において最大類似度とは、前記嗜好類似度取得処理にお
いて取得された嗜好類似度の最大値である。従って、上
述の数式３により求められる線分の太さは、嗜好類似度
とほぼ比例したものとなる。

【００７４】そして、ユーザー表示処理においては、Ｃ
ＰＵ１１１は、表示装置１４に、ユーザー格納エリア１
１４５に格納されるユーザー全てを同一円周上に配置し
て表示し、更に、選択ユーザー格納エリア１１５２に格
納されたユーザーどうしの間に亘る線分を表示する。こ
の線分は、嗜好類似度グラフ値格納エリア１１４８に、
ユーザー対に対応して格納された値の太さで表示する。
尚、上記数式３により求められた線分の太さが負数とな
った場合には線分を破線とし、破線の太さを上記数式３
により求めた線分の太さの絶対値として表示する。従っ
て、表示装置１４において線分で結ばれたユーザーどう
しからなるグループは、全員が嗜好類似度しきい値以上
の嗜好類似度で類似していることになる。

【００７５】また、表示装置１４には、上述の類似ユー
ザーグループ抽出図とともに嗜好類似度バーを表示す
る。この嗜好類似度バーは、途中に嗜好類似度を示す目
盛りが付されている垂直バーとこの垂直バーに重なって
表示される選択ポインタよりなっている。選択ポインタ
は、表示画面上でマウスポインタによりドラッグして嗜
好類似度バー上を移動させることができるようになって
いる。ＣＰＵ１１１は、選択ポインタが移動されると、
この選択ポインタの新たな位置の嗜好類似度を取得して
嗜好類似度しきい値格納エリア１１４９に格納し、ステ
ップ４３からの処理を繰り返し、この嗜好類似度以上の
嗜好類似度をもとに線分を表示した類似ユーザーグルー
プ抽出図を新たに表示する。上記嗜好類似度しきい値格
納エリア１１４９に格納される初期値は−１となってお
り、最初に表示される類似ユーザーグループ抽出図にお
いては、全てのユーザーが前記数式３により算出された
太さの線分で結ばれて表示される。

【００７６】図２０は表示装置１４に表示する類似ユー
ザーグループ抽出図及び嗜好類似度バーの一例であり、
（ａ）は嗜好類似度バーの選択ポインタが垂直バーの嗜
好類似度−１の位置に配置されている場合を示し、
（ｂ）は嗜好類似度バーの選択ポインタが垂直バーの嗜
好類似度０．７５の位置に配置されている場合を示す図
である。

【００７７】図１３（ａ）では、選択ポインタの位置か
ら、嗜好類似度しきい値が−１に設定されているため、
表示されている全てのユーザーが線分で結ばれている。
そしてこの線分の太さは、嗜好類似度の大きさとほぼ比
例して表示され、ユーザー全ての相互の嗜好類似度の大
小が一見して把握できる。図１３（ｂ）では、選択ポイ
ンタの位置から、嗜好類似度しきい値が０．７５に設定
されているため、表示されている線分は嗜好類似度０．
７５以上に相当する太さとなっている。そして、この太
さの線分全てを表示した場合に、そのうち完全グラフ
（全てのノードが相互に結ばれているグラフ、ここで
は、ユーザーどうし全てが線分で結ばれているグラフ）
を構成するユーザーを抽出し、それらのユーザー相互を
亘る線分のみが表示されている。

【００７８】次に、本実施形態による類似する内容の文
書のグループを抽出する場合の動作について説明する。

【００７９】図２１は、本実施形態により類似する内容
の文書のグループを抽出するメインの動作の流れについ
て示すフローチャートである。

【００８０】本実施形態では、図１４に示すように、複
数の文書それぞれを特徴付ける文書ベクトルを取得する
文書ベクトル取得処理（Ｓ５１）と、取得した文書ベク
トルをもとに複数の文書相互間の文書類似度を取得する
文書類似度取得処理（Ｓ５２）と、文書類似度の範囲を
指定する文書類似度範囲指定処理（Ｓ５３）と、構成す
る全ての文書どうしの文書類似度が文書類似度範囲指定
処理により指定された文書類似の範囲度内に入る類似文
書グループを抽出する文書グループ抽出処理（Ｓ５４）
と、類似文書グループを構成する文書を、類似文書グル
ープを構成しない文書と識別可能に表示する文書表示処
理（Ｓ５５）とを行う。

【００８１】文書ベクトル取得処理に際して、ＣＰＵ１
１１は、まず、文書類似度を取得する文書名を取得し、
文書名格納エリア１１４１に格納する。この文書名の取
得は、キーボードからの文書名やファイル番号の入力
や、記憶装置１６の文書データベース１６４から読み出
し表示した文書名のマウスポインタやキーボードによる
選択等により行われる。

【００８２】そして、文書名格納エリア１１４１に格納
される文書名の文書について、前記第１の実施形態と同
様の手法により文書ベクトルを取得し、文書ベクトル格
納エリア１１３４及び文書ベクトルデータベース１６６
に格納し、文書ベクトル取得処理を終了する。尚、文書
名格納エリア１１４１に文書名が格納されている文書の
文書ベクトルが既に文書ベクトルデータベース１６６に
格納されており、その文書ベクトルを取得してから行列
Ｇａが書き換えられていな場合には、新たに文書ベクト
ルを求めることなく文書ベクトルデータべース１６６か
ら文書ベクトルを読み出し取得して文書嗜好ベクトル格
納エリア１１４３に格納する。

【００８３】続いてＣＰＵ１１１は、文書類似度取得処
理を行う。この文書類似度取得処理においては、文書名
格納エリア１１４１に格納されている文書の文書ベクト
ル全ての相互間について文書類似度を算出する。

【００８４】各文書相互間の文書類似度は、当該文書の
文書ベクトル間の角度に依存するコサインにより求め
る。即ち、文書類似度を求める文書をＱ及びＷ、各文書
の文書ベクトルをそれぞれＶｑ，Ｖｗ、両文書ベクトル
Ｖｑ，Ｖｗ間の角度をｒ、両嗜好ベクトルの内積をＶｑ
・Ｖｗ、両文書ベクトルの大きさをそれぞれ｜Ｖｑ｜、
｜Ｖｗ｜とした場合、次の数式４により求まる。［数式４］文書類似度Ｓ’ｑｗ＝ＣＯＳ（ｒ）＝（Ｖｑ・Ｖｗ）／（｜Ｖｑ｜×｜Ｖｗ｜）

【００８５】この文書類似度Ｓ’ｑｗの値は−１≦Ｔｂ
≦１までの値をとり、１に近いほど２つの文書ベクトル
Ｖｑ，Ｖｗが互いに平行に近く、文書Ｑ，Ｗの内容が似
ていると考えることができる。

【００８６】算出された文書類似度は、文書の対と対応
させてＲＡＭ１１３の文書嗜好類似度格納エリア１１４
２及び記憶装置１６の文書ベクトルデータベース１６６
に格納しする。

【００８７】その後、ＣＰＵ１１１は、文書類似度しき
い値格納エリア１１４４から文書類似度しきい値を取得
する（文書類似度範囲指定処理）。そして、構成する文
書どうしの文書類似度が、全て文書類似度しきい値以上
となっている類似文書グループを抽出し、類似文書グル
ープを構成する文書を、グループ別に選択文書格納エリ
ア１１５１に格納する（文書グループ抽出処理）。

【００８８】更に、ＣＰＵ１１１は、選択文書格納エリ
ア１１５２に格納される文書どうしの文書類似度をもと
に、表示する図の各文書間の線の太さを数式５により算
出し、文書類似度グラフ値格納エリア１１４３に文書の
対に対応させて格納する。［数式５］線の太さ＝ＩＮＴ（最大線太さ×文書間の文書類似度／
最大類似度＋０．５）

【００８９】ただしＩＮＴは引数を越えない最大整数を
求める関数であり、最大線太さは、表示装置１４におい
て表示される図の、予め決められた最大の線の太さであ
る。コンピュータ内では線の太さは正の整数によってド
ット単位で表されるので、本実施形態においては上記の
式により整数として求めることとしてある。上記数式５
において最大類似度とは、前記文書類似度取得処理にお
いて取得された文書類似度の最大値である。従って、上
述の数式５により求められる線分の太さは、文書類似度
とほぼ比例したものとなる。

【００９０】そして、文書表示処理においては、ＣＰＵ
１１１は、表示装置１４に、文書格納エリア１１４１に
格納された文書名全てを１つの仮想円周上に等間隔に配
置し、更に、選択文書格納エリア１１５１に格納された
文書どうしの間を亘る線分を表示する。この線分は、文
書類似度グラフ値格納エリア１１４３に、文書対に対応
して格納された値の太さで表示する。尚、上記数式５に
より求められた線分の太さが負数となった場合には線分
を破線とし、破線の太さを上記数式５により求めた線分
の太さの絶対値として表示する。

【００９１】また、表示装置１４には、上述の類似ユー
ザーグループ抽出図とともに、文書類似度バーを表示す
る。この文書類似度バーは、途中に文書類似度を示す目
盛りが付されている垂直バーとこの垂直バーに重なって
表示される選択ポインタよりなっている。選択ポインタ
は、表示画面上でマウスポインタによりドラッグして文
書類似度バー上を移動させることができるようになって
いる。ＣＰＵ１１１は、選択ポインタが移動されると、
ステップ５３からの処理を繰り返し、この選択ポインタ
の新たな位置の文書類似度を取得して文書類似度しきい
値格納エリア１１４４に格納し、この文書類似度以上の
文書類似度を表す線分のみを表示した文書類似度表示グ
ラフを新たに表示する。

【００９２】上記文書類似度しきい値格納エリア１１４
４に格納される初期値は−１となっており、最初に表示
される類似ユーザーグループ抽出図においては、全ての
文書が前記数式５により算出された太さの線分で結ばれ
て表示される。この線分の太さは、文書類似度の大きさ
とほぼ比例して表示され、文書全ての相互の文書類似度
の大小が一見して把握できる。そして、選択ポインタの
位置を移動させると、選択ポインタの位置から、文書類
似度しきい値が取得され、表示されている線分は文書類
似度がこのしきい値以上に相当する太さとなっている。
そして、この太さの線分全てを表示した場合に、そのう
ち完全グラフ（全てのノードが相互に結ばれているグラ
フ、ここでは、文書どうし全てが線分で結ばれているグ
ラフ）を構成する文書を抽出し、それらの文書相互を亘
る線分のみが表示される。

【００９３】この様に、本実施形態では、ユーザーや文
書どうし全ての類似度を取得し、この類似度が全てしき
い値以上となっているユーザーや文書どうしからなる類
似グループを抽出し、類似グループを構成するユーザー
や文書どうしを線分で結んで表示する。従って、本実施
形態によると、一定の類似度・関連度を有するユーザー
や文書のみから構成されるグループを容易に把握するこ
とができ、仕事の割り当てや情報の配信におけるユーザ
ーや文書の分類、選択等を容易に行うことが可能であ
る。本実施形態によると、ユーザーや文書相互間の嗜好
類似度や文書類似度が線分の太さにより表示され、嗜好
類似度や文書類似度の大小を容易に視覚的に把握するこ
とができ、しきい値の変更の目安となる。

【００９４】本実施形態によると、表示装置１４に表示
される嗜好類似度バーや文書類似度バーの選択ポインタ
によってしきい値を変更し、抽出される類似グループを
構成するユーザーや文書を更に絞り込んだり広げたりを
容易に行うことができる。本実施形態によると、類似ユ
ーザーグループ抽出図や類似文書グループ抽出図を表示
させた状態のまましきい値を変更して類似ユーザーグル
ープ抽出図や類似文書グループ抽出図を再表示させるこ
とができ、一層ユーザーや文書の分類、選択等が容易で
ある。

【００９５】尚、本発明は、上述の実施形態に限定され
るものではなく、本発明の趣旨を逸脱しない限りにおい
て適宜変更が可能である。上述の実施形態においては文
書処理装置としてコンピュータを用いているが、コンピ
ュータに限定されるものではなく、ワードプロセッサ等
であってもよい。上述の実施形態においてＧＰ行列は、
各文書における処理重要語句の出現頻度（行列Ｇａ）と
メンバー毎の過去の文書処理回数（行列Ｇｂ）、および
各メンバーの重要度（行列Ｇｃ）とから取得されている
が、メンバー毎の過去の文書処理回数（行列Ｇａ）と各
文書における処理重要語句の出現頻度（行列Ｇｂ）のみ
により取得されてもよい。また、例えば、各文書の処理
時間や、他の文書作成に引用された件数、リンク付けさ
れている数等も加味して取得されてもよい。更に、ＧＰ
行列を上述の実施形態と同様に行列Ｇａ〜行列Ｇｃ等の
行列の掛け合わせから取得する場合において、行列Ｇａ
〜行列Ｇｃ等の各行列の要素はそれぞれ処理重要語句の
文書中の出現頻度や、メンバーが各文書を処理した回数
を反映した数値となっていればよく、直接出現頻度や処
理回数そのものを表していなくてもよい。

【００９６】上述の実施形態においては行列Ｇａ〜Ｇｃ
は過去の文書処理内容から取得されているが、ユーザー
が取得して行列データベース１６８に直接入力してもよ
い。上述の実施形態においては行列Ｇａ〜Ｇｃは所定期
間毎に書き換えられているが、文書処理を行う毎に、ま
たは所定回数の文書処理を行う毎等に書き換えてもよ
い。上述の文書処理装置においてＧＰベクトルを表示装
置に表示するＧＰベクトル表示手段を備え、ユーザーや
ユーザーメンバーの嗜好を視覚的に把握できるようにし
てもよい。この場合、ＧＰベクトルを行列データベース
または専用のＧＰベクトルデータベースに経時順に格納
しておき、経時変化も把握できるようにしてもよい。

【００９７】説明した実施形態では処理重要語句や処理
重要度を取得する手法として図４のフローチャートに従
った方法を１例にして説明したが、本発明でこの方法に
限られるものではなく、文書中から処理重要語句を抽出
する方法や、処理重要度の決定方法等については、公知
の各種方法により置き換えることが可能である。更に、
上述の文書処理装置において、文書嗜好ベクトルの類似
度の算出方法については、数式１により類似度を算出す
ることとしたが、この数式に限定されるものではなく、
文書嗜好ベクトル相互間の類似関係を表すことが可能で
あれば他の数式により類似度を算出することも可能であ
る。上述の文書処理装置において算出した類似度（文書
嗜好ベクトルの類似度）の表示は、類似度の操作者から
の入力により類似閾値を取得し、当該類似閾値よりも高
い類似度を備えた対象文書のみを表示させたり、類似度
の高いうちから１０個の文書のみを表示させたりするこ
ともできる。また、類似度の高い順ではなく、あいうえ
お順等に表示された対象文書名とともに表示してもよ
い。更に、類似度表示は、操作者からの命令のあったと
きのみに表示させるようにしたり、表示装置には表示さ
せずに印刷させることとしてもよい。

【００９８】上述の文書処理装置及び本発明の実施形態
は、日本語で作成された文書に限られるものではなく、
あらゆる言語で作成された文書を対象とすることが可能
である。その場合、対象となる文書が作成された言語用
の形態素解析アルゴリズム等を使用するといった、本発
明の構成には影響のない部分を変更するだけでよい。

【００９９】なお、上述した、各装置、各部、各動作、
各処理等に対しては、それらを含む上位概念としての各
手段（〜手段）により、上記文書処理装置や上記実施形
態を構成することが可能である。例えば、「文書データ
ベース１６４から、各処理文書の処理回数を取得し（ス
テップ１４）」との記載に対して文書の処理回数を記憶
する処理回数データベースを文書データベース１６４と
は別途に構成したり、「処理回数取得手段」を構成した
り、「抽出した候補語（句）の処理文書での出現頻度、
評価関数から、各候補語（句）の処理重要度ｆ（ｘ）を
取得する（ステップ１２３）との記載に対して、「処理
重要語句取得手段」を構成するようにしてもよい。同様
に、その他各種動作に対して「〜（動作）手段」等の上
位概念で実施形態を構成するようにしてもよい。

【０１００】上述の実施形態においては、１つ１つの文
書及び一人一人のユーザーそれぞれどうしについての類
似の大小を表示したが、複数よりなる文書やユーザーど
うしについての類似の大小を取得し表示してもよい。
尚、対象が複数よりなるユーザーである場合、その嗜好
ベクトルは、ＧＰベクトルとすることができる。また、
類似の大小を取得する対象はこれらに限られるものでは
なく、類似の大小を数値化することのできるものであれ
ばよく、データベースやエージェント、マルチメディア
コンテンツ、及びこれらの群等とすることもできる。更
に、特徴度は数値を用いて表されればよく、文書ベクト
ルや嗜好ベクトル等のベクトルの他、スカラー量等とす
ることができる。

【０１０１】上述の実施形態においては、嗜好類似度や
文書類似度は、数式２や数式４により算出することとし
たが、これらの数式に限定されるものではなく、嗜好ベ
クトル相互間の類似関係や文書ベクトル相互間の類似関
係を表すことが可能であれば他の数式により算出するこ
とも可能である。また、本実施形態では行列Ｇａ、行列
Ｇｂ、行列Ｇｃを掛け合わせたＧＰ行列から各ユーザー
毎の嗜好ベクトルを取得したが、行列Ｇａと行列Ｇｂの
みを掛け合わせた嗜好行列Ｈ＝Ｇａ・Ｇｂから同様に各
ユーザーの嗜好ベクトルを取得してもよい。尚、ＧＰ行
列は嗜好行列Ｈに各ユーザーの重要度に基づき各要素を
ユーザー毎にスカラー倍したものなので、嗜好行列Ｈか
ら取得した嗜好ベクトルにより数式２に基づいて類似度
を算出した場合にも、上記実施形態と同一の値の類似度
が算出される。ユーザー毎の嗜好ベクトルの各要素に同
一の文書ベクトルの各要素を掛けた嗜好文書ベクトルを
取得し、嗜好文書ベクトルをもとに嗜好類似度を算出す
ることもできる。文書ベクトルの各要素に特定のユーザ
ーの嗜好ベクトルの各要素を掛けた嗜好文書ベクトルを
取得し、各文書の嗜好文書ベクトルをもとに、前記特定
のユーザーの嗜好を加味した場合の文書ベクトルの文書
類似度を算出することとしてもよい。

【０１０２】本実施形態において、類似ユーザーグルー
プ抽出図や類似文書グループ抽出図の線分の太さの算出
方法については、数式３や数式５により算出することと
したが、これらの数式に限定されるものではなく、嗜好
類似度や文書類似度の大小関係を表すことが可能であれ
ば他の数式により線分の太さを算出することも可能であ
る。例えば、次の数式６や数式７により求めることとし
てもよい。尚、数式６及び数式７において類似度とはユ
ーザー間の嗜好類似度、又は文書間の文書類似度をいう
ものとする。［数式６］線の太さ＝ＩＮＴ（最大線太さ×｜類似度｜＋０．５）［数式７］線の太さ＝ＩＮＴ（最大線太さ×（類似度＋１）／２＋
１）尚、数式７は、全ての線の太さが正の値として求めら
れ、正負の値により表示を異ならせる必要がなくなる点
で優れている。

【０１０３】上述の実施形態においては、特徴類似度範
囲指定手段は表示装置１４に表示される嗜好類似度バー
や文書類似度バーの選択ポインタの位置により、表示さ
れる線分の類似度の範囲の下限を取得したが、これに限
られるものではなく、例えば、キーボード等からの入力
により嗜好類似度や文書類似度の範囲を直接数値として
取得するようにしてもよい。また、嗜好類似度や文書類
似度の範囲の下限ではなく上限や範囲全体を取得するも
のとしたり、嗜好類似度や文書類似度ではなく線分の最
大太さ、類似グループを構成する文書やユーザーの数等
を指定するようにしてもよい。上述の実施形態において
は、特徴類似度範囲指定手段は類似ユーザーグループ抽
出図や類似文書グループ抽出図の表示時（対象表示時）
に、グループを構成するユーザーや文書相互の類似度の
範囲を取得したが、これに限られるものではなく、例え
ば、ユーザーグループ抽出図や文書グループ抽出図の表
示前のみまたは表示前と表示中の両方において、上記類
似度の範囲を取得するものとしてもよい。

【０１０４】ユーザーグループ抽出処理や文書グループ
抽出処理等の本発明のグループ抽出処理としては、ユー
ザーや文書等の対象により構成し得るグループを取得
し、そのグループ内の対象により得られる対全ての特徴
類似度が特徴類似度範囲指定手段により限定された特徴
類似度の範囲内に入るグループを検索し抽出して類似グ
ループとする手法や、対象を仮想円周上に配置し、特徴
類似度範囲指定手段により限定された特徴類似度の範囲
内の類似度を有する対象の対どうしを線分で結び、完全
グラフを構成する対象を検索し抽出してこの対象による
グループを類似グループとする手法等が挙げられる。

【０１０５】上述の実施形態においては類似ユーザーグ
ループ抽出図や類似文書グループ抽出図は表示装置１４
に画面表示されるが、この画面表示に代えてまたは画面
表示とともに印刷装置１５により印刷されるようにして
もよい。上述の実施形態においては選択された対象（類
似ユーザーグループを構成するユーザーや類似文書グル
ープを構成する文書）を線分で結ぶことにより、選択さ
れなかった対象（類似ユーザーグループを構成しないユ
ーザーや類似文書グループを構成しない文書）と識別可
能に表示したが、識別手法はこれに限られるものではな
く、例えば選択された対象と選択されなかった対象とを
色分け表示したり、選択された対象のみに下線や網掛け
表示をしたり、選択された対象のみを表示する等の手法
を採用することができる。類似ユーザーグループや類似
文書グループ等の類似グループが２つ以上抽出された場
合には、ユーザーや文書等の対象や、線分をグループ毎
に色分けしたり、グループ毎に別々に表示する等、各グ
ループを区別して認識可能とすることができる。この様
な例として、２つの類似ユーザーグループが抽出された
場合に、線分ををグループ毎に色分けした表示例を図２
２に示す。

【０１０６】上述の実施形態においては選択された対象
の表示時に嗜好類似度や文書類似度の大小が線分の太さ
により識別できるように表示されたが、線分の太さは全
て均一として選択された対象と選択されなかった対象の
識別のみができるようにしてもよい。また、嗜好類似度
や文書類似度の大小を識別可能に表示する場合にも、線
分の太さにるものに限られるものではなく、例えば、色
の濃さ等の差異により識別可能としてもよい。上述の実
施形態においては嗜好類似度や文書類似度の正負は線分
の種類により区別されているが、これに限られるもので
はなく、例えば色分け等により区別してもよい。

【０１０７】

【発明の効果】以上説明したように、本発明によれば、
一定の類似度・関連度を有するユーザーや文書のみから
構成されるグループを容易に把握することができ、仕事
の割り当てや情報の配信におけるユーザーや文書の分
類、選択等を容易に行うことが可能である。

【図面の簡単な説明】

【図１】本発明の類似グループ抽出装置の一実施形態を
適用する文書処理装置であり、本発明の類似グループ抽
出プログラムの一実施形態が記憶され且つ文書処理プロ
グラムが記憶された記憶媒体のこれらのプログラムが読
み取られるコンピュータの構成を表したブロック図であ
る。

【図２】図１の文書処理装置における行列Ｇａ，Ｇｂ，
Ｇｃを示す説明図である。

【図３】図１の文書処理装置による行列Ｇａ，Ｇｂ書き
換え処理の動作を表したフローチャートである。

【図４】図１の文書処理装置による処理重要語句・処理
重要度取得処理の動作を表したフローチャートである。

【図５】図１の文書処理装置による嗜好文書ベクトル取
得処理の動作を示すフローチャートである。

【図６】図１の文書処理装置におけるＧＰ行列からＧＰ
ベクトルを算出する行程を概念的に説明する説明図であ
る。

【図７】図１の文書処理装置における文書ベクトルを嗜
好文書ベクトルにシフトさせた状態を概念的に説明する
説明図である。

【図８】図１の文書処理装置による類似度算出処理の動
作を示すフローチャートである。

【図９】本発明の類似グループ抽出装置が適用される文
書処理装置の構成の概要図である。

【図１０】本発明の類似グループ抽出装置が適用される
文書処理装置の構成の概要図である。

【図１１】本発明の類似グループ抽出装置が適用される
文書処理装置の構成を示す概要図である。

【図１２】本発明の類似グループ抽出プログラムが記憶
された記憶媒体が適用される文書処理プログラムが記憶
された記憶媒体により実現される機能を示す概略図であ
る。

【図１３】本発明の類似グループ抽出プログラムが記憶
された記憶媒体が適用される文書処理プログラムが記憶
された記憶媒体により実現される機能を示す概略図であ
る。

【図１４】本発明の類似グループ抽出プログラムが記憶
された記憶媒体が適用される文書処理プログラムが記憶
された記憶媒体により実現される機能を示す概略図であ
る。

【図１５】本発明の類似グループ抽出装置が適用される
文書処理装置であり、本発明の類似グループ抽出プログ
ラムの一実施形態が記憶され且つ文書処理プログラムが
記憶された記憶媒体のこれらのプログラムが読み取られ
りコンピュータの文書処理方法を示す概略図である。

【図１６】本発明の類似グループ抽出装置の一実施形態
が適用された文書処理装置であり、本発明の類似グルー
プ抽出プログラムが記憶された記憶媒体の一実施形態が
適用された文書処理プログラムが記憶された記憶媒体の
該プログラムが読み取られたコンピュータの、構成を表
したブロック図である。

【図１７】図１６の実施形態により類似する嗜好を有す
るユーザーのグループを抽出するメインの動作の流れに
ついて示すフローチャートである。

【図１８】図１６の実施形態における嗜好ベクトル取得
処理の流れを示すフローチャートである。

【図１９】図１６の実施形態におけるＧＰ行列から嗜好
ベクトルを算出する行程を概念的に説明する説明図であ
る。

【図２０】図１６の実施形態において表示装置に表示す
る類似ユーザーグループ抽出図及び嗜好類似度バーの一
例であり、（ａ）は嗜好類似度バーの選択ポインタが垂
直バーの嗜好類似度−１の位置に配置されている場合を
示し、（ｂ）は嗜好類似度バーの選択ポインタが垂直バ
ーの嗜好類似度０．７５の位置に配置されている場合を
示す図である。

【図２１】図１６の実施形態により類似する内容の文書
のグループを抽出するメインの動作の流れについて示す
フローチャートである。

【図２２】本発明の他の実施形態において表示装置に表
示される類似ユーザーグループ抽出図の一例を示す図で
ある。

【符号の説明】

１１制御部１１２ＲＯＭ１１３ＲＡＭ１１３１対象文書格納エリア１１３２キーワード格納エリア１１３４文書ベクトル格納エリア１１３５行列格納エリア１１３６嗜好文書ベクトル格納エリア１１３７類似度格納エリア１１４１文書格納エリア１１４２文書類似度格納エリア１１４３文書類似度グラフ値格納エリア１１４４文書類似度しきい値格納エリア１１４５ユーザー格納エリア１１４６嗜好ベクトル格納エリア１１４７嗜好類似度格納エリア１１４８嗜好類似度グラフ値格納エリア１１４９嗜好類似度しきい値格納エリア１１５１選択文書格納エリア１１５２選択ユーザー格納エリア１２キーボード１３マウス１４表示装置１５印刷装置１６記憶装置１６１仮名漢字変換辞書１６２プログラム格納部１６４文書データベース１６５重要語データベース１６６文書ベクトルデータベース１６７嗜好文書ベクトルデータベース１６８行列データベース１６９嗜好ベクトルデータベース１７記憶媒体駆動装置１８通信制御装置１９入出力Ｉ／Ｆ１０１嗜好ベクトル取得手段１０２文書取得手段１０３文書ベクトル取得手段１０４シフト手段１０５ＧＰ行列取得手段１０６類似度算出手段２０１嗜好ベクトル取得機能２０２文書取得機能２０３文書ベクトル取得機能２０４シフト機能２０５ＧＰ行列取得機能２０６類似度算出機能

Claims

【特許請求の範囲】

【請求項１】複数の対象それぞれの、共通する特徴に
ついての大小を表す特徴度を取得する特徴度取得手段
と、前記特徴度取得手段により取得された前記特徴度をもと
に、複数の前記対象間の特徴類似度を取得する特徴類似
度取得手段と、前記特徴類似度の範囲を指定する特徴類似度範囲指定手
段と、構成する全ての対象どうしの前記特徴類似度取得手段に
より取得された前記特徴類似度がいずれも前記特徴類似
度範囲指定手段により限定された特徴類似度内に入るグ
ループを抽出するグループ抽出手段と、前記グループ抽出手段により抽出された前記グループを
構成する前記対象を、前記グループを構成しない前記対
象と識別可能に表示する対象表示手段とを備えたことを
特徴とする類似グループ抽出装置。
【請求項２】前記対象表示手段は、前記グループ抽出
手段に抽出された前記グループを構成する前記対象と前
記グループを構成しない前記対象とを表示し、且つ前記
グループを構成する対象間のみを亘る線分を表示するこ
とを特徴とする請求項１に記載の類似グループ抽出装
置。
【請求項３】文書処理装置に用いられ、前記特徴度取得手段が、複数のキーワードに対する重要
度を要素値としてユーザーの嗜好を表す嗜好ベクトルを
取得し、前記特徴類似度取得手段は、前記嗜好ベクトルをもとに
複数のユーザー相互間の嗜好類似度を取得することを特
徴とする請求項１に記載の類似グループ抽出装置。
【請求項４】文書処理装置に用いられ、前記特徴度取得手段が、文書を特徴付ける文書ベクトル
を取得し、前記特徴類似度取得手段は、前記文書ベクトルをもとに
複数の文書相互間の文書類似度を取得することを特徴と
する請求項１に記載の類似グループ抽出装置。
【請求項５】複数の対象それぞれの、共通する特徴に
ついての大小を表す特徴度を取得する特徴度取得機能
と、前記特徴度取得機能により取得された前記特徴度をもと
に、複数の前記対象間の特徴類似度を取得する特徴類似
度取得機能と、前記特徴類似度の範囲を指定する特徴類似度範囲指定機
能と、構成する全ての対象どうしの前記特徴類似度取得機能に
より取得された前記特徴類似度がいずれも前記特徴類似
度範囲指定機能により限定された特徴類似度内に入るグ
ループを抽出するグループ抽出機能と、前記グループ抽出手段により抽出された前記グループを
構成する前記対象を、前記グループを構成しない前記対
象と識別可能に表示する対象表示機能とをコンピュータ
に実現させるためのコンピュータ読み取り可能な類似グ
ループ抽出プログラムが記憶された記憶媒体。