JP2000194725A - 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体 - Google Patents

類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体

Info

Publication number
JP2000194725A
JP2000194725A JP10376855A JP37685598A JP2000194725A JP 2000194725 A JP2000194725 A JP 2000194725A JP 10376855 A JP10376855 A JP 10376855A JP 37685598 A JP37685598 A JP 37685598A JP 2000194725 A JP2000194725 A JP 2000194725A
Authority
JP
Japan
Prior art keywords
document
similarity
preference
vector
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10376855A
Other languages
English (en)
Inventor
Katsuhiko Mitobe
勝彦 水戸部
Naoyuki Nomura
直之 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP10376855A priority Critical patent/JP2000194725A/ja
Publication of JP2000194725A publication Critical patent/JP2000194725A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 複数の対象の相互の類似度をもとに、容易に
対象をグループ化することのできる類似グループ抽出装
置を提供すること。 【解決手段】 過去の処理文書中の重要語句の出現頻
度、各文書の処理回数等から、各ユーザーの嗜好を表す
嗜好ベクトルを取得し、嗜好ベクトルどうしのなす角の
コサイン値をユーザーどうしの類似度とする。そして、
操作者から類似度のしきい値を取得し、ユーザーどうし
の類似度がこのしきい値以上となるユーザーのみからな
るグループを、このグループに入るユーザーどうしを線
分で結ぶことにより表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の対象から類
似する対象をグループ抽出する類似グループ抽出装置、
及び類似グループ抽出プログラムが記憶された記憶媒体
に関する。
【0002】
【従来の技術】従来より、例えば、文書処理装置等にお
いて各文書について当該文書を特徴付ける文書ベクトル
を取得し、この文書ベクトルから文書間の類似度を算出
することが行われている。このように、文書やユーザー
等の対象を特徴付ける特徴度を取得し、この特徴度から
対象相互間の類似度を算出することは、複数の対象を関
連の大きいもののみからなるグループ等にグループ化す
るのに有用である。
【0003】
【発明が解決しようとする課題】しかし、上述のような
類似度は、1対毎に算出されるので、3つ以上の対象全
部の各相互間の類似度を一度に把握し難い。そのため、
類似度を基に一層容易に対象をグループ化できる技術が
望まれている。
【0004】本発明は、上述のような課題を解決するた
めになされたもので、複数の対象の相互の類似度をもと
に、容易に対象をグループ化することのできる類似グル
ープ抽出装置、類似グループ抽出プログラムが記憶され
た記憶媒体、類似グループ抽出方法を提供することを目
的とする。
【0005】
【課題を解決するための手段】請求項1に記載の発明
は、複数の対象それぞれの、共通する特徴についての大
小を表す特徴度を取得する特徴度取得手段と、前記特徴
度取得手段により取得された前記特徴度をもとに、複数
の前記対象間の特徴類似度を取得する特徴類似度取得手
段と、前記特徴類似度の範囲を指定する特徴類似度範囲
指定手段と、構成する全ての対象どうしの前記特徴類似
度取得手段により取得された前記特徴類似度がいずれも
前記特徴類似度範囲指定手段により限定された特徴類似
度内に入るグループを抽出するグループ抽出手段と、前
記グループ抽出手段により抽出された前記グループを構
成する前記対象を、前記グループを構成しない前記対象
と識別可能に表示する対象表示手段とを備えた類似グル
ープ抽出装置を提供することにより前記目的を達成する
ものである。請求項2に記載の発明は、請求項1に記載
の類似グループ抽出装置において、前記対象表示手段
は、前記グループ抽出手段に抽出された前記グループを
構成する前記対象と前記グループを構成しない前記対象
とを表示し、且つ前記グループを構成する対象間のみを
亘る線分を表示する類似グループ抽出装置を提供するこ
とにより前記目的を達成するものである。請求項3に記
載の発明は、請求項1に記載の類似グループ抽出装置に
おいて、文書処理装置に用いられ、前記特徴度取得手段
が、複数のキーワードに対する重要度を要素値としてユ
ーザーの嗜好を表す嗜好ベクトルを取得し、前記特徴類
似度取得手段は、前記嗜好ベクトルをもとに複数のユー
ザー相互間の嗜好類似度を取得する類似グループ抽出装
置を提供することにより前記目的を達成するものであ
る。請求項4に記載の発明は、請求項1に記載の類似グ
ループ抽出装置において、文書処理装置に用いられ、前
記特徴度取得手段が、文書を特徴付ける文書ベクトルを
取得し、前記特徴類似度取得手段は、前記文書ベクトル
をもとに複数の文書相互間の文書類似度を取得する類似
グループ抽出装置を提供することにより前記目的を達成
するものである。請求項5に記載の発明は、複数の対象
それぞれの、共通する特徴についての大小を表す特徴度
を取得する特徴度取得機能と、前記特徴度取得機能によ
り取得された前記特徴度をもとに、複数の前記対象間の
特徴類似度を取得する特徴類似度取得機能と、前記特徴
類似度の範囲を指定する特徴類似度範囲指定機能と、構
成する全ての対象どうしの前記特徴類似度取得機能によ
り取得された前記特徴類似度がいずれも前記特徴類似度
範囲指定機能により限定された特徴類似度内に入るグル
ープを抽出するグループ抽出機能と、前記グループ抽出
手段により抽出された前記グループを構成する前記対象
を、前記グループを構成しない前記対象と識別可能に表
示する対象表示機能とをコンピュータに実現させるため
のコンピュータ読み取り可能な文書処理プログラムが記
憶された記憶媒体を提供することにより前記目的を達成
するものである。
【0006】
【発明の実施の形態】以下、本発明の類似グループ抽出
装置、及び類似グループ抽出プログラムが記憶された記
憶媒体の好適な実施の形態について、この実施形態を適
用した文書処理装置、文書処理プログラムが記憶された
記憶媒体とともに、図面を参照して詳細に説明する。
【0007】(1)実施形態の概要 本実施形態では、過去の処理文書中の重要語句の出現頻
度、各文書の処理回数等から、各ユーザーの嗜好を表す
嗜好ベクトルを取得し、嗜好ベクトルどうしのなす角の
コサイン値をユーザーどうしの類似度とする。そして、
操作者から類似度のしきい値を取得し、ユーザーどうし
の類似度がこのしきい値以上となるユーザーのみからな
るグループを、このグループに入るユーザーどうしを線
分で結ぶことにより表示する。
【0008】(2)実施形態の詳細 まず始めに、類似グループ抽出装置の一実施形態が適用
される文書処理装置であり、本発明の類似グループ抽出
プログラムの一実施形態が記憶され且つ文書処理プログ
ラムが記憶された記憶媒体のこれらのプログラムが読み
取られるコンピュータについて説明する。
【0009】従来の文書処理装置及び文書処理プログラ
ムが記憶された記憶媒体においては、複数の文書を検索
・分類するために、それぞれの文書について当該文書を
特徴付ける文書ベクトルを取得し、この文書ベクトルか
ら文書間の類似度を算出することが行われている。しか
し、同一の文書でも、例えば営業用や技術資料用等の利
用目的その他のユーザーの嗜好が異なると、重要部位等
に差異が生じる。そして、上述のような文書ベクトルを
用いた文書処理によって文書の検索や分類をしても、ユ
ーザーの嗜好を踏まえた処理は行うことができないた
め、この様な嗜好を加味した上での文書処理を行うこと
のできる文書処理装置や文書処理プログラムが記憶され
た記憶媒体、文書処理方法が望まれていた。そして、こ
の文書処理装置及び文書処理プログラムが記憶された記
憶媒体は、上述のような課題を解決するためになされた
もので、ユーザーの嗜好を踏まえた文書処理を行うこと
を目的とするものである。
【0010】この文書処理装置は、図9に示すように、
ユーザーの嗜好を表す複数のキーワードに対する重要度
を要素値とする嗜好ベクトルを取得する嗜好ベクトル取
得手段101と、文書を取得する文書取得手段102
と、文書取得手段102により取得された文書を特徴付
ける文書ベクトルを取得する文書ベクトル取得手段10
3と、文書ベクトル取得手段103により取得された文
書ベクトルを前記嗜好ベクトルによりシフトさせるシフ
ト手段104とを備えている。また更に、図11に示す
ように、、所定の文書の文書ベクトルを嗜好ベクトルに
よりシフトさせた嗜好文書ベクトルと、他の文書の文書
ベクトルから、前記所定の文書と前記他の文書との類似
度を算出する類似度算出手段106を具備している。更
に、この文書処理装置は、図10に示すように、複数の
ユーザーと、複数の前記ユーザーそれぞれの嗜好を表す
複数のキーワードとの一方を行、他方を列とし、前記各
ユーザーに対する前記各キーワードの重要度を要素値と
するGP行列を取得するGP行列取得手段105を備
え、嗜好ベクトル取得手段101は、GP行列により、
ユーザーが作成した文書又はアクセスした文書に対する
複数の文書ベクトルから嗜好ベクトルを作成する。
【0011】また、この文書処理装置は、図12に示す
ように、ユーザーの嗜好を表す複数のキーワードに対す
る重要度を要素値とする嗜好ベクトルを取得する嗜好ベ
クトル取得機能201と、文書を取得する文書取得機能
202と、前記文書取得機能202により取得された文
書を特徴付ける文書ベクトルを取得する文書ベクトル取
得機能203と、前記文書ベクトル取得機能203によ
り取得された前記文書ベクトルを前記嗜好ベクトルによ
りシフトさせるシフト機能204とをコンピュータに実
現させるためのコンピュータ読み取り可能な文書処理プ
ログラムが記憶された記憶媒体の該プログラムをコンピ
ュータに読み込ませたものである。そして上記記憶媒体
の上記プログラムは、図12に示すように、前記嗜好ベ
クトル取得機能201は、前記ユーザーが作成した文書
又はアクセスした文書に対する複数の文書ベクトルから
前記嗜好ベクトルを作成する文書処理プログラムであ
り、且つ、図13に示すように、複数のユーザーと、複
数の前記ユーザーそれぞれの嗜好を表す複数のキーワー
ドとの一方を行、他方を列とし、前記各ユーザーに対す
る前記各キーワードの重要度を要素値とするGP行列を
取得するGP行列取得機能205を備え、前記嗜好ベク
トル取得機能201は、前記GP行列により前記嗜好ベ
クトルを取得する文書処理プログラムである。また、前
記GP行列取得機能205は、ユーザーが過去に処理し
た文書と該文書のキーワードとのうちの一方を行、他方
を列とし、前記文書におけるキーワードの重要度を要素
値とする文書−キーワード行列と、ユーザーが過去に処
理した文書とユーザーとのうちの一方を行、他方を列と
し、各ユーザーの前記文書の処理回数を要素とする文書
−ユーザー行列と、からGP行列を取得する。更に、上
記プログラムは、図14に示すように、所定の文書の文
書ベクトルを嗜好ベクトルによりシフトさせた嗜好文書
ベクトルと、他の文書の文書ベクトルから、前記所定の
文書と前記他の文書との類似度を算出する類似度算出機
能206を具備する文書処理プログラムである。
【0012】上述の構成の文書処理装置や文書処理プロ
グラムが記憶された記憶媒体では、文書ベクトルをユー
ザーの嗜好を加味した嗜好文書ベクトルにシフトさせ、
この嗜好文書ベクトルに対する類似度を取得することに
より、ユーザーの興味や注目度、目的等の嗜好に対する
文書の類似度が取得でき、この類似度に基づいて分類や
検索を行うことにより、ユーザーの興味や注目度、目的
等の嗜好を反映した分類や検索、配信等の文書処理が可
能となる。
【0013】以下、この文書処理装置(コンピュータ)
について更に説明する。図1は、本発明の類似グループ
抽出装置の一実施形態を適用する文書処理装置であり、
本発明の類似グループ抽出プログラムの一実施形態が記
憶され且つ文書処理プログラムが記憶された記憶媒体の
これらのプログラムが読み取られるコンピュータの構成
を表したブロック図である。
【0014】この図1に示すように、この文書処理装置
(コンピュータ)は、装置全体を制御するための制御部
11を備えている。この制御部11には、データバス等
のバスライン21を介して、入力装置としてのキーボー
ド12やマウス13、表示装置14、印刷装置15、記
憶装置16、記憶媒体駆動装置17、通信制御装置1
8、入出力I/F19、及び文字認識装置20が接続さ
れている。制御部11は、CPU111、ROM11
2、RAM113を備えている。ROM112は、CP
U111が各種制御や演算を行うための各種プログラム
やデータが予め格納されたリードオンリーメモリであ
る。
【0015】RAM113は、CPU111にワーキン
グメモリとして使用されるランダムアクセスメモリであ
る。このRAM113には、文書ベクトル取得処理を行
うためのエリアとして、文書ベクトル取得の対象となる
文書を格納する対象文書格納エリア1131、キーワー
ド格納エリア1132、文書ベクトル格納エリア113
4が確保され、また、嗜好文書ベクトル取得処理を行う
ためのエリアとして、行列格納エリア1135、嗜好文
書ベクトル格納エリア1136、類似度格納エリア11
37その他の各種エリアが確保されるようになってい
る。
【0016】キーボード12は、かな文字を入力するた
めのかなキーやテンキー、各種機能を実行するための機
能キー、カーソルキー、等の各種キーが配置されてい
る。マウス13は、ポインティングデバイスであり、表
示装置14に表示されたキーやアイコン等を左クリック
することで対応する機能の指定を行う入力装置である。
表示装置14は、例えばCRTや液晶ディスプレイ等が
使用される。この表示装置14には、文書ベクトルを取
得する対象文書の内容や、算出された文書間の類似度、
算出された類似度をもとに行った検索結果や分類結果等
が表示されるようになっている。印刷装置15は、表示
装置14に表示された文章や、記憶装置16の文書デー
タベース164に格納された文書等の印刷を行うための
ものである。この印刷装置としては、レーザプリンタ、
ドットプリンタ、インクジェットプリンタ、ページプリ
ンタ、感熱式プリンタ、熱転写式プリンタ、等の各種印
刷装置が使用される。
【0017】記憶装置16は、読み書き可能な記憶媒体
と、その記憶媒体に対してプログラムやデータ等の各種
情報を読み書きするための駆動装置で構成されている。
この記憶装置16に使用される記憶媒体としては、主と
してハードディスクが使用されるが、後述の記憶媒体駆
動装置17で使用される各種記憶媒体のうちの読み書き
可能な記憶媒体を使用するようにしてもよい。記憶装置
16は、仮名漢字変換辞書161、プログラム格納部1
62、文書データベース164、重要語データベース1
65、行列データベース168、文書ベクトルデータベ
ース166、嗜好文書ベクトルデータベース167、図
示しないその他の格納部(例えば、この記憶装置16内
に格納されているプログラムやデータ等をバックアップ
するための格納部)等を有している。プログラム格納部
162には、嗜好文書ベクトル取得処理プログラム、類
似度算出処理プログラム等の各種プログラムの他、仮名
漢字変換辞書161を使用して入力された仮名文字列を
漢字混り文に変換する仮名漢字変換プログラム等の各種
プログラムが格納されている。
【0018】文書データベース164には、仮名漢字変
換プログラムにより作成された文書や、他の装置で作成
されて記憶媒体駆動装置17や通信制御装置18から読
み込まれた文書が格納される。この文書データベース1
64に格納される各文書の形式は特に限定されるもので
はなく、テキスト形式の文書、HTML(Hyper Text
Markup Language)形式の文書、JIS形式の文書等
の各種形式の文書の格納が可能である。更にこの文書デ
ータベース164には、文書を処理したユーザー(処理
者)及びその処理回数が各文書に対応付けて格納されて
いる。前記処理回数は、所定期間毎に値を0にリセット
される。重要語データベース165には、前記所定期間
内に処理した処理文書から抽出された重要語句(処理重
要語句)及びその重要度(処理重要度)が格納される。
【0019】行列データベース168には、過去の所定
期間に行われた文書処理の処理内容により取得される行
列Ga,Gb,Gcが格納されている。文書ベクトル
は、これらの行列Ga,Gb,Gcにより取得されるG
P(Group Personalize)行列をもとに、嗜好文書ベク
トルに変換される。図2(a)〜(c)は、行列Ga,
Gb,Gcを示す説明図である。
【0020】行列Ga(文書−キーワード行列)は、図
2(a)に示すように、前記所処理重要語句を行に、同
処理文書を列にとった行列であり、各要素は処理重要語
句の処理重要度f(x)を表している。行列Gb(文書
−ユーザー行列)は、図2(b)に示すように、前記処
理文書を行にとり、ユーザーのメンバーを列にとった行
列であり、各要素は、メンバーが各文書を前記所定期間
内に処理した回数となっている。行列Gcは、図2
(c)に示すように、行および列がともにユーザーのメ
ンバーそれぞれの重要度係数を示している。行列Ga及
び行列Gbは所定期間ごとに書き換えられ、行列Gcは
操作者からの入力により適宜書き換えられる。
【0021】文書ベクトルデータベース166、及び嗜
好文書ベクトルデータベース167には、本実施形態に
おいて類似度を算出する基準となる基準文書、及び、該
基準文書に対する類似度を比較する対象文書それぞれの
文書ベクトル及び嗜好文書ベクトルが格納される。
【0022】記憶媒体駆動装置17は、CPU111が
外部の記憶媒体からコンピュータプログラムや文書を含
むデータ等を読み込むための駆動装置である。記憶媒体
に記憶されているコンピュータプログラムには、本文書
処理装置により実行される各種処理のためのプログラ
ム、および、そこで使用される辞書、データ等も含まれ
る。ここで、記憶媒体とは、コンピュータプログラムや
データ等が記憶される記憶媒体をいい、具体的には、フ
ロッピーディスク、ハードディスク、磁気テープ等の磁
気記憶媒体、メモリチップやICカード等の半導体記憶
媒体、CD−ROMやMO、PD(相変化書換型光ディ
スク)等の光学的に情報が読み取られる記憶媒体、紙カ
ードや紙テープ等の用紙(および、用紙に相当する機能
を持った媒体)を用いた記憶媒体、その他各種方法でコ
ンピュータプログラム等が記憶される記憶媒体が含まれ
る。本文書処理装置において使用される記憶媒体として
は、主として、CD−ROMやフロッピーディスクが使
用される。記憶媒体駆動装置17は、これらの各種記憶
媒体からコンピュータプログラムを読み込む他に、フロ
ッピーディスクのような書き込み可能な記憶媒体に対し
てRAM113や記憶装置16に格納されているデータ
等を書き込むことが可能である。
【0023】本文書処理装置では、制御部11のCPU
111が、記憶媒体駆動装置17にセットされた外部の
記憶媒体からコンピュータプログラムを読み込んで、記
憶装置16の各部に格納(インストール)する。そし
て、本実施形態による類似度算出等の各種処理を実行す
る場合、記憶装置16から該当プログラムをRAM11
3に読み込み、実行するようになっている。但し、記憶
装置16からではなく、記憶媒体駆動装置17により外
部の記憶媒体から直接RAM113に読み込んで実行す
ることも可能である。また、文書処理装置によっては、
類似度算出処理プログラム等を予めROM112に記憶
しておき、これをCPU111が実行するようにしても
よい。
【0024】通信制御装置18は、他のパーソナルコン
ピュータやワードプロセッサ等との間でテキスト形式や
HTML形式等の各種形式の文書やビットマップデータ
等の各種データの送受信を行うことができるようになっ
ている。入出力I/F19は、音声や音楽等の出力を行
うスピーカ等の各種機器を接続するためのインターフェ
ースである。文字認識装置20は、用紙等に記載された
文字をテキスト形式やHTML等の各種形式で認識する
装置であり、イメージスキャナや文字認識プログラム等
で構成されている。
【0025】本文書処理装置では、キーボード12の入
力操作により作成した文書(RAM113の所定格納エ
リアに格納)の他、外部で作成して所定の記憶媒体に格
納した文書で記憶媒体駆動装置17から読み込んだ文
書、予め文書データベース164に格納されている文
書、通信制御装置18からダウンロードした文書、及び
文字認識装置20で文字認識した文書、等の各種文書を
対象文書として取得することが可能である。
【0026】次に、上述のような構成の文書処理装置に
よる嗜好文書ベクトル取得処理及び類似度算出処理につ
いて図面を参照して説明する。
【0027】上述の文書処理装置による嗜好文書ベクト
ル取得処理においては、図15に示すように、ユーザー
の嗜好を表す複数のキーワードに対する重要度を要素値
とする嗜好ベクトルと文書とを取得301し、前記文書
を特徴付ける文書ベクトルを取得302し、前記文書ベ
クトルを前記嗜好ベクトルによりシフト303させる。
【0028】本文書処理装置による嗜好文書ベクトル取
得処理及び類似度算出処理について更に詳細に説明する
と、本文書処理装置においては、所定期間毎に、該所定
期間内に行われた文書処理の処理内容基づいて新たな処
理重要語句及び処理重要度が取得され、行列データベー
ス168内の行列Ga及び行列Gbが書き換えられる。
【0029】図3は、行列Ga,Gb書き換え処理の動
作を表したフローチャートである。CPU111は、所
定期間内に処理された文書(処理文書)を文書データベ
ース164から順次取得してRAM113の所定作業領
域に格納し(ステップ11)、各処理文書についての重
要語句(処理重要語句)及びその重要度(処理重要度)
を取得する(ステップ12)。
【0030】図4は処理重要語句・処理重要度取得処理
の動作を表したフローチャートである。図4に示すよう
に、CPU111は、文書データベース164から取得
した処理文書について、各処理文書毎に形態素解析を行
うことで自立語を抽出する(ステップ121)と共に、
名詞句、複合名詞句等を含めた候補語(句)を処理文書
から抽出する(ステップ122)。次に、抽出した候補
語(句)の処理文書での出現頻度、評価関数から、各候
補語(句)の処理重要度f(x)を取得する(ステップ
123)。ここで、評価関数としては、例えば、所定の
重要語句が予め指定されている場合にはその重要語句に
対する重み付け、単語、名詞句、複合名詞句等の候補語
(句)の種類による重み付け等が使用される。
【0031】さらにCPU111は、取得した処理重要
度f(x)の値をもとに候補語(句)から処理重要語句
a,b,…を取得し(ステップ124)、この処理重要
語句a,b,…及びその処理重要度f(a),f
(b),…を重要語データベース165に格納する(ス
テップ125)。すべての処理文書について、処理重要
語句及びその処理重要度を取得すると、図4に示す行列
Ga,Gb書き換え処理ルーチンへリターンする。
【0032】続いて、CPU111は、行列データベー
ス168の行列Gaを、前記処理重要語句a,b,…を
行に、前記所定期間の処理文書を列に、また処理重要度
f(a),f(b),…を各要素にとったものに書き換
える(ステップ13)。このとき、行列Gaの行数は、
各処理文書の処理重要語句の和集合の数とし、各処理文
書において含まれていない処理重要語句については、そ
の処理重要度f(x)は0と定義される。
【0033】例えば図2おいて、処理文書Bの処理重要
語は「重要、重要語、重要度、…」、処理文書Cの処理
重要語句は「重要、…、政治、…」であり、これらの処
理重要語句に対応する処理重要度は、処理文書Bについ
ては(1,18,19,…)、処理文書Cについては
(18,…,21,…)である。これに対して行列Ga
においては、その行は「重要、重要語、重要度、…、政
治、…」とし、両文書の列における要素値はつぎの通り
定義される。 処理文書Bの列=(1,18,19,…,0,…)、 処理文書Cの列=(18,0,0,…,21,…)
【0034】また、CPU111は、文書データベース
164から、各処理文書の処理回数を取得し(ステップ
14)、行列Gbを、所定期間内の処理文書を行に、文
書データベース164から取得した処理回数を各要素と
したものに書き換えて(ステップ15)、行列Ga,G
b書き換え処理を終了する。
【0035】図5は、本文書処理装置による文書嗜好ベ
クトル取得処理の動作を示すフローチャートである。嗜
好文書ベクトル取得に際しては、嗜好文書ベクトル取得
の対象となる文書(対象文書)を取得し、RAM113
の対象文書格納エリア1131に格納する(ステップ2
1)。対象文書は、ユーザの指示に従ってRAM11
3、記憶装置16の文書データベース164、記憶媒体
駆動装置17、または通信制御装置18(パソコン通
信、インターネット等の通信による場合)から取得す
る。
【0036】次にCPU111は、対象文書中から行列
Gaの処理重要語句を抽出する(ステップ22)。次
に、抽出した処理重要語句の対象文書中での出現頻度、
評価関数等から、重要度g(y)を取得する(ステップ
23)。ここで、評価関数としては、例えば、処理重要
語句に対する予め指定されている重み付け、単語、名詞
句、複合名詞句等の候補語(句)の種類による重み付け
等が使用される。
【0037】そして、この処理重要語句a,b,…の対
象文書中における重要度g(a),g(b)、…を要素
とする文書ベクトルVを取得する(ステップ24)。
【0038】文書ベクトルVを取得すると、CPU11
1は、行列データベース168から行列Ga,Gb,G
cを取得し、次の式に従って、GP行列を求める(ステ
ップ25)。 GP=Ga・Gb・Gc 従って、本文書処理装置におけるGP行列は、Ga行列
の次元合わせを行った行をそのまま行にとり、ユーザー
の各メンバーを列にとってなっており、GP行列の各要
素は、メンバー毎の過去の文書処理における処理重要語
句の処理重要度f(x)に各メンバーの重要度を加味し
て表した数値となっている。
【0039】GP行列が取得されると、続いてCPU1
11は、このGP行列をもとにGPベクトル(嗜好ベク
トル)を取得する(ステップ26)。図6は、GP行列
からGPベクトルを算出する行程を概念的に説明する説
明図である。
【0040】CPU111は、まず、GP行列の各要素
gij(i=1〜メンバー数m、j=1〜処理重要語句
の和集合の数k)の各行毎の要素の平均値を算出して列
ベクトル(総GPベクトル)を得る(図6(1)→
(2))。この総GPベクトルは、各要素giが処理重
要語句毎のユーザーグループ全体における過去の文書処
理での出現頻度(但し各処理重要語句の予め決められた
処理重要語句の重み等や、メンバーの重要度が加味され
ている)を反映した数値となっている。CPU111
は、更に、この総GPベクトルの各要素giを文書の処
理回数の総数で割って、1列のGPベクトルを得る(図
6(2)→(3))。この様に、総GPベクトルを文書
の処理回数の総数で割るのは、行列Gbに文書の処理回
数が要素として含まれており、処理回数が増えるに従っ
てGPベクトルが大きくなっていくのを回避するためで
ある。
【0041】そして、CPU111は、GPベクトルの
各要素とこの各要素に対応する文書ベクトルVの要素と
を掛け合わせて、嗜好文書ベクトルV’を得る。嗜好文
書ベクトルV’は、嗜好文書ベクトルデータベース16
7に格納して(ステップ26)、嗜好文書ベクトル取得
処理を終了する。
【0042】図7は、文書ベクトルを嗜好文書ベクトル
にシフトさせた状態を概念的に示す説明図である。尚、
この説明図では、表示の都合上処理重要語句をX,Yの
2つとして説明するが、処理重要語句の数が異なってい
ても、文書ベクトルを嗜好文書ベクトルにシフトさせた
状態については本質的に同様である。図7に示すよう
に、文書ベクトルVp=(0,1)、文書ベクトルVq
=(2,1)、及び文書ベクトルVr=(8,1)をG
Pベクトル=(1,2)によりシフトさせたものであ
る。文書ベクトルVp、文書ベクトルVq、文書ベクト
ルVrは、GPベクトルにより、それぞれ嗜好文書ベク
トルVp’=(0,2)、Vq’=(2,2)、Vr=
(8,2)にシフトされる。このように、出現頻度等に
よって決定される要素値により、文書ベクトルから嗜好
文書ベクトルへ様々な角度でシフトされる。
【0043】次に、本文書処理装置による類似度算出処
理について図8を参照して説明する。図8は、類似度算
出処理の動作を示すフローチャートである。
【0044】類似度算出に際しては、CPU111は、
類似度を算出する基準となる文書(基準文書A)につい
ての文書嗜好ベクトルV’aを取得する(ステップ2
1)。基準文書Aについての文書嗜好ベクトルV’a
は、上述の動作によって、または既に嗜好文書ベクトル
データベース167に格納されている場合にはこの文書
嗜好ベクトルデータベース167から読み出して、取得
する。尚、基準文書Aは、文書データベース164に格
納されている文書等から処理時に選択しても、予め決定
されているものを用いてもよい。また、基準文書Aとし
ては、1つの文書の他、複数の文書よりなる文書群や、
文書群からクラスタリング処理により自動抽出した文書
群を用いることもできる。
【0045】また、基準文書Aとの類似度を算出する比
較文書Bについての文書ベクトルVbを取得する(ステ
ップ22)。
【0046】次に、CPU111は、基準文書Aと比較
文書Bとの類似度Sbを、基準文書Aの嗜好文書ベクト
ルVa’と比較文書Bの文書ベクトルVb間の角度qに
依存するコサインにより求める(ステップ23)。すな
わち、比較文書Bの基準文書Aに対する類似度Sbは、
嗜好文書ベクトルVa’と文書ベクトルVbの間の角度
をq、嗜好文書ベクトルVa’と文書ベクトルVbの内
積をVa’・Vb、嗜好文書ベクトルVa’,文書ベク
トルVbの大きさをそれぞれ|Va’|、|Vb|とし
た場合、次の数式1により求まる。
【0047】[数式1] 類似度Sb=COS(q)=(Va’・Vb)/(|V
a’|×|Vb|)
【0048】この類似度Sbの値は−1≦Sb≦1まで
の値をとり、1に近いほど比較文書Bの文書ベクトルV
bと基準文書Aの嗜好文書ベクトルVaとの向きが近
く、文書ベクトルVbが嗜好文書ベクトルVaに類似
し、比較文書Bが、ユーザーの嗜好に近いと考えること
ができる。
【0049】CPU111は、求められた類似度Sbを
比較文書Bと対応させて類似度格納エリア1137に格
納して(ステップ24)、類似度算出処理を終了する。
【0050】この様に、本文書処理装置では、ユーザー
の処理文書中における処理重要語句の頻出頻度をもと
に、基準文書Aの文書ベクトルVをシフト(文書ベクト
ルの各要素値を変換)してユーザーの嗜好を加味した嗜
好文書ベクトルV’を取得し、この嗜好文書ベクトル
V’に対する他の文書の類似度が算出される。従って、
この類似度は、ユーザーの興味や注目度、目的等の嗜好
ユーザーの嗜好に対する指標となるので、この類似度に
基づいて文書の分類や検索を行うことにより、ユーザー
の嗜好を反映した分類や検索が可能となる。また、ユー
ザーの興味や注目度等に合う文書を選択して配信するこ
とが可能となる。本文書処理装置によると、GP行列を
用いた変換によって文書ベクトルVを嗜好文書ベクトル
V’にシフトさせているので、計算処理が簡単であり、
ベクトル空間法を採用したコア・エンジンを備えた一般
の文書処理装置に容易に適用することが可能である。
【0051】本文書処理装置によると、文書ベクトルを
嗜好文書ベクトルにシフトさせるGPベクトル(嗜好ベ
クトル)のもととなるGP行列を、表現すべき特徴毎の
単純な観点で構成した行列Ga,Gb,Gcの掛け合わ
せて求めているので、様々な特徴を考慮に入れたGP行
列を容易に構成して文書ベクトルVをシフトさせること
が可能である。本文書処理装置によると、文書ベクトル
を嗜好文書ベクトルにシフトさせるGPベクトルのもと
となるGP行列は、各列がユーザーのメンバーの興味を
反映しているので、ユーザーを数グループに分割した該
グループのGP行列や個々のメンバーのGP行列(ベク
トル)を容易に得ることができる。本文書処理装置によ
ると、GP行列がユーザーの過去に処理した文書をもと
に適宜書き換えられている行列Ga,Gb,Gcをもと
に取得されているので、文書ベクトルVがユーザーの嗜
好の経時的掲示変化に対応した嗜好文書ベクトルV’に
シフトされ、ユーザーの嗜好の変遷に追随した類似度の
算出および検索・分類等の処理が可能となる。
【0052】次に、本発明の類似グループ抽出装置及び
類似グループ抽出プログラムが記憶された記憶媒体の一
実施形態について、上述の文書処理装置及び文書処理プ
ログラムが記憶された記憶媒体に適用した場合を例とし
て説明する。図16は、本発明の類似グループ抽出装置
の一実施形態が適用された文書処理装置であり、本発明
の類似グループ抽出プログラムが記憶された記憶媒体の
一実施形態が適用された文書処理プログラムが記憶され
た記憶媒体の該プログラムが読み取られたコンピュータ
の、構成を表したブロック図である。
【0053】本発明の類似グループ抽出装置の一実施形
態が適用された文書処理装置においては、RAM113
には、複数の対象としての文書の、特徴を表す特徴度と
しての文書ベクトルを取得する文書ベクトル取得処理
(特徴度取得処理)を行うためのエリアとして、対象文
書格納エリア1131、キーワード格納エリア113
2、文書ベクトル格納エリア1134が確保されてお
り、また、特徴度としての文書ベクトルをもとに複数の
文書相互間の文書類似度(特徴類似度)を取得する文書
類似度取得処理(特徴類似度取得処理)を行うためのエ
リアとして、文書類似度を取得する文書の文書名を格納
する文書格納エリア1141、この文書格納エリア11
41に格納されている文書名の文書相互間の文書類似度
をそれらの文書と対応させて格納する文書類似度格納エ
リア1142が確保されている。
【0054】また、文書類似度の範囲を指定する文書類
似度指定処理を行うためのエリアとして、文書類似度し
きい値格納エリア1144が確保されており、構成する
全ての文書どうしの文書類似度が文書類似度範囲指定処
理により指定された文書類似度の範囲内に入る類似文書
グループを抽出する文書グループ抽出処理を行うエリア
として、選択文書格納エリア1151が確保されてい
る。文書類似度しきい値格納エリア1144に格納され
るしきい値は、初期値−1に設定されている。更に、文
書グループ抽出処理により抽出された類似文書グループ
を構成する文書を、類似文書グループを構成しない他の
文書と識別可能に表示する文書表示処理(対象表示処
理)を行うためのエリアとして、文書類似度に基づき算
出された線分の太さをその文書類似度の文書の対と対応
させて格納する文書類似度グラフ値格納エリア1143
が確保されている。
【0055】更に、RAM113には、複数の対象とし
てのユーザーの特徴を表す特徴度としての嗜好ベクトル
を取得する嗜好ベクトル取得処理(特徴度取得処理)を
行うためのエリアとして、行列格納エリア1135、及
び嗜好ベクトル格納エリア1146が確保されており、
また、特徴度としての嗜好ベクトルをもとに複数のユー
ザー相互間の嗜好類似度(特徴類似度)を取得する嗜好
類似度取得処理(特徴類似度取得処理)を行うためのエ
リアとして、処理対象となるユーザーのユーザー名を格
納するユーザー格納エリア1145、及びこのユーザー
格納エリア1145に格納されているユーザー相互間の
嗜好類似度をそれらのユーザーの対と対応させて格納す
る嗜好類似度格納エリア1147が確保されている。
【0056】また、嗜好類似度の範囲を指定する嗜好類
似度範囲指定処理を行うためのエリアとして嗜好類似度
しきい値格納エリア1149が確保されており、構成す
る全てのユーザーどうしの嗜好類似度が嗜好類似度範囲
指定処理により限定された嗜好類似度の範囲内に入る類
似ユーザーグループを抽出するユーザーグループ抽出処
理を行うエリアとして、選択ユーザー格納エリア115
2が確保されている。嗜好類似度しきい値格納エリア1
149に格納されるしきい値は、初期値−1に設定され
ている。更に、ユーザーグループ抽出処理により抽出さ
れた類似ユーザーグループを構成するユーザーを、類似
ユーザーグループを構成しないユーザーと識別可能に表
示するユーザー表示処理(対象表示処理)を行うための
エリアとして、嗜好類似度に基づき算出された線分の太
さをその嗜好類似度のユーザーの対と対応させて格納す
る嗜好類似度グラフ値格納エリア1148が確保されて
いる。
【0057】また、本実施形態においては、表示装置1
4は、対象表示手段として、類似グループ抽出の対象と
なったユーザーや文書を1つの仮想円周上に等間隔に配
置し、且つグループ抽出手段により抽出されたグループ
を構成するユーザーや文書の間のみを亘るに線分を表し
た類似ユーザーグループ抽出図や類似文書グループ抽出
図を表示するようになっている。更に、本実施形態にお
いては、表示装置14には、嗜好類似度範囲指定手段
(特徴類似度範囲指定手段)としての嗜好類似度バーや
文書類似度範囲指定手段(特徴類似度範囲指定手段)と
しての文書類似度バーが表示され、これらのバーの選択
ポインタの位置から、嗜好類似度しきい値格納エリア1
149や文書類似度しきい値格納エリア1144に格納
されるしきい値が取得されるようになっている。
【0058】更に記憶装置16のプログラム格納部16
2には、前述した文書ベクトル取得処理プログラムや記
嗜好文書ベクトル取得処理プログラムの他、各ユーザー
の嗜好ベクトルを取得する嗜好ベクトル取得処理プログ
ラム、嗜好類似度取得処理プログラム、ユーザーグルー
プ抽出処理プログラム、ユーザー表示処理プログラム、
文書類似度取得処理プログラム、文書グループ抽出処理
プログラム、文書表示処理プログラムが格納されてい
る。
【0059】また、本実施形態においては、記憶装置1
6に嗜好ベクトルデータベース169が備えられてお
り、各ユーザーの嗜好ベクトルが各ユーザーに対応して
格納される。
【0060】次に、上述のような構成の類似グループ抽
出装置の動作について説明する。尚、文書処理装置の動
作として既に上述した動作については説明は省略する。
【0061】まず、本実施形態により、類似する嗜好を
有するユーザーのグループを抽出する場合の動作につい
て説明する。図17は、本実施形態により類似する嗜好
を有するユーザーのグループを抽出するメインの動作の
流れについて示すフローチャートである。
【0062】本実施形態では、図17に示すように、複
数のユーザーそれぞれの嗜好についての嗜好ベクトルを
取得する嗜好ベクトル取得処理(S41)と、取得した
嗜好ベクトルをもとに複数のユーザー相互間の嗜好類似
度を取得する嗜好類似度取得処理(S42)と、嗜好類
似度の範囲を指定する嗜好類似度範囲指定処理(S4
3)と、構成する全てのユーザーどうしの嗜好類似度が
嗜好類似度範囲指定処理により限定された嗜好類似度の
範囲内に入る類似ユーザーグループを抽出するユーザー
グループ抽出処理(S44)と、類似ユーザーグループ
を構成するユーザーを、類似ユーザーグループを構成し
ないユーザーと識別可能に表示するユーザー表示処理
(S45)とを行う。
【0063】図18は、嗜好ベクトル取得処理の流れを
示すフローチャートである。嗜好ベクトル取得処理に際
しては、CPU111は、まず、嗜好類似度を取得する
ユーザーを取得し、ユーザー格納エリア1145に格納
する(ステップ411)。このユーザーの取得は、キー
ボードからのユーザー名やID番号の入力や、表示装置
14における行列データベースにおいて行列Gaの各行
となっているユーザーすべての表示中からのマウスポイ
ンタやキーボードによる選択等により行われる。
【0064】また、CPU111は、行列データベース
168から行列Ga,Gb,Gcを取得し、次の式に従
って、GP行列を求める(ステップ412)。 GP=Ga・Gb・Gc 従って、GP行列は、Ga行列の次元合わせを行った行
をそのまま行にとり、ユーザーの各メンバーを列にとっ
てなっており、GP行列の各要素は、メンバー毎の過去
の文書処理における処理重要語句の処理重要度f(x)
に各メンバーの重要度を加味して表した数値となってい
る。
【0065】GP行列を取得すると、続いてCPU11
1は、このGP行列をもとに嗜好ベクトルを取得する
(ステップ413)。
【0066】図19は、GP行列から嗜好ベクトルを算
出する行程を概念的に説明する説明図である。CPU1
11は、まず、GP行列の各列毎の各要素gij(i=
1〜ユーザー数m、j=1〜処理重要語句の和集合の数
k)からなる列ベクトル(各ユーザーの総嗜好ベクト
ル)を得る(図19(1)→(2))。続いてCPU1
11は、各ユーザーの総嗜好ベクトルの各要素gijを
文書の処理回数の総数で割って、各ユーザーそれぞれの
嗜好ベクトルを得る(図19(2)→(3))。この様
に、総嗜好ベクトルを文書の処理回数の総数で割るの
は、行列Gbに文書の処理回数が要素として含まれてお
り、処理回数が増えるに従って嗜好ベクトルが大きくな
っていくのを回避するためである。
【0067】取得した嗜好ベクトルは各ユーザーと対応
させて嗜好ベクトルデータベース169及び嗜好ベクト
ル格納エリア1146に格納し(ステップ414)、メ
インの流れへリターンする。尚、前回に嗜好ベクトルを
取得してから、行列Ga及び行列Gbが書き換えられて
いな場合には、新たにGP行列を取得することなく嗜好
ベクトルデータべース169からそのまま嗜好ベクトル
を読み出し取得して嗜好ベクトル格納エリア1146に
格納する。
【0068】次に、CPU111は、嗜好類似度取得処
理を行う。嗜好類似度取得処理においては、ユーザー格
納エリア1145に格納されているユーザーの嗜好ベク
トル全ての相互間について嗜好類似度を算出する。各ユ
ーザー相互間の嗜好類似度は、当該ユーザーの嗜好ベク
トル間の角度に依存するコサインにより求める。即ち、
嗜好類似度を求めるユーザーをA及びB、各ユーザーの
嗜好ベクトルをそれぞれUa,Ub、両嗜好ベクトルU
a,Ub間の角度をr、両嗜好ベクトルの内積をUa・
Ub、両嗜好ベクトルの大きさをそれぞれ|Ua|,|
Ub|とした場合、次の数式2により求まる。 [数式2] 嗜好類似度Tab=COS(r) =(Ua・Ub)/(|Ua|×|Ub|)
【0069】この嗜好類似度Tabの値は−1≦Tab
≦1までの値をとり、1に近いほど2つの嗜好ベクトル
Ua,Ubが互いに平行に近く、ユーザーA,Bの嗜好
が似ていると考えることができる。
【0070】算出された嗜好類似度は、ユーザーの対と
対応させてRAM113の嗜好類似度格納エリア113
5に格納し、嗜好類似度算出処理を終了する。
【0071】その後、CPU111は、嗜好類似度しき
い値格納エリア1149から嗜好類似度しきい値を取得
する(嗜好類似度範囲指定処理)。そして、構成するユ
ーザーどうしの嗜好類似度が、全て嗜好類似度しきい値
以上となっている類似ユーザーグループを抽出し、類似
ユーザーグループを構成するユーザーを、グループ別に
選択ユーザー格納エリア1152に格納する(ユーザー
グループ抽出処理)。
【0072】更に、CPU111は、選択ユーザー格納
エリア1152に格納されるユーザーどうしの嗜好類似
度をもとに、表示する図の各ユーザー間の線の太さを数
式3により算出し、嗜好類似度グラフ値格納エリア11
48に、ユーザーの対に対応させて格納する。 [数式3] 線の太さ=INT(最大線太さ×ユーザー間の嗜好類似
度/最大類似度+0.5)
【0073】ただしINTは引数を越えない最大整数を
求める関数であり、最大線太さは、表示装置14におい
て表示される図の予め決められた最大の線の太さであ
る。コンピュータ内では線の太さは正の整数によってド
ット単位で表されるので、本実施形態においては上記の
式により整数として求めることとしている。上記数式3
において最大類似度とは、前記嗜好類似度取得処理にお
いて取得された嗜好類似度の最大値である。従って、上
述の数式3により求められる線分の太さは、嗜好類似度
とほぼ比例したものとなる。
【0074】そして、ユーザー表示処理においては、C
PU111は、表示装置14に、ユーザー格納エリア1
145に格納されるユーザー全てを同一円周上に配置し
て表示し、更に、選択ユーザー格納エリア1152に格
納されたユーザーどうしの間に亘る線分を表示する。こ
の線分は、嗜好類似度グラフ値格納エリア1148に、
ユーザー対に対応して格納された値の太さで表示する。
尚、上記数式3により求められた線分の太さが負数とな
った場合には線分を破線とし、破線の太さを上記数式3
により求めた線分の太さの絶対値として表示する。従っ
て、表示装置14において線分で結ばれたユーザーどう
しからなるグループは、全員が嗜好類似度しきい値以上
の嗜好類似度で類似していることになる。
【0075】また、表示装置14には、上述の類似ユー
ザーグループ抽出図とともに嗜好類似度バーを表示す
る。この嗜好類似度バーは、途中に嗜好類似度を示す目
盛りが付されている垂直バーとこの垂直バーに重なって
表示される選択ポインタよりなっている。選択ポインタ
は、表示画面上でマウスポインタによりドラッグして嗜
好類似度バー上を移動させることができるようになって
いる。CPU111は、選択ポインタが移動されると、
この選択ポインタの新たな位置の嗜好類似度を取得して
嗜好類似度しきい値格納エリア1149に格納し、ステ
ップ43からの処理を繰り返し、この嗜好類似度以上の
嗜好類似度をもとに線分を表示した類似ユーザーグルー
プ抽出図を新たに表示する。上記嗜好類似度しきい値格
納エリア1149に格納される初期値は−1となってお
り、最初に表示される類似ユーザーグループ抽出図にお
いては、全てのユーザーが前記数式3により算出された
太さの線分で結ばれて表示される。
【0076】図20は表示装置14に表示する類似ユー
ザーグループ抽出図及び嗜好類似度バーの一例であり、
(a)は嗜好類似度バーの選択ポインタが垂直バーの嗜
好類似度−1の位置に配置されている場合を示し、
(b)は嗜好類似度バーの選択ポインタが垂直バーの嗜
好類似度0.75の位置に配置されている場合を示す図
である。
【0077】図13(a)では、選択ポインタの位置か
ら、嗜好類似度しきい値が−1に設定されているため、
表示されている全てのユーザーが線分で結ばれている。
そしてこの線分の太さは、嗜好類似度の大きさとほぼ比
例して表示され、ユーザー全ての相互の嗜好類似度の大
小が一見して把握できる。図13(b)では、選択ポイ
ンタの位置から、嗜好類似度しきい値が0.75に設定
されているため、表示されている線分は嗜好類似度0.
75以上に相当する太さとなっている。そして、この太
さの線分全てを表示した場合に、そのうち完全グラフ
(全てのノードが相互に結ばれているグラフ、ここで
は、ユーザーどうし全てが線分で結ばれているグラフ)
を構成するユーザーを抽出し、それらのユーザー相互を
亘る線分のみが表示されている。
【0078】次に、本実施形態による類似する内容の文
書のグループを抽出する場合の動作について説明する。
【0079】図21は、本実施形態により類似する内容
の文書のグループを抽出するメインの動作の流れについ
て示すフローチャートである。
【0080】本実施形態では、図14に示すように、複
数の文書それぞれを特徴付ける文書ベクトルを取得する
文書ベクトル取得処理(S51)と、取得した文書ベク
トルをもとに複数の文書相互間の文書類似度を取得する
文書類似度取得処理(S52)と、文書類似度の範囲を
指定する文書類似度範囲指定処理(S53)と、構成す
る全ての文書どうしの文書類似度が文書類似度範囲指定
処理により指定された文書類似の範囲度内に入る類似文
書グループを抽出する文書グループ抽出処理(S54)
と、類似文書グループを構成する文書を、類似文書グル
ープを構成しない文書と識別可能に表示する文書表示処
理(S55)とを行う。
【0081】文書ベクトル取得処理に際して、CPU1
11は、まず、文書類似度を取得する文書名を取得し、
文書名格納エリア1141に格納する。この文書名の取
得は、キーボードからの文書名やファイル番号の入力
や、記憶装置16の文書データベース164から読み出
し表示した文書名のマウスポインタやキーボードによる
選択等により行われる。
【0082】そして、文書名格納エリア1141に格納
される文書名の文書について、前記第1の実施形態と同
様の手法により文書ベクトルを取得し、文書ベクトル格
納エリア1134及び文書ベクトルデータベース166
に格納し、文書ベクトル取得処理を終了する。尚、文書
名格納エリア1141に文書名が格納されている文書の
文書ベクトルが既に文書ベクトルデータベース166に
格納されており、その文書ベクトルを取得してから行列
Gaが書き換えられていな場合には、新たに文書ベクト
ルを求めることなく文書ベクトルデータべース166か
ら文書ベクトルを読み出し取得して文書嗜好ベクトル格
納エリア1143に格納する。
【0083】続いてCPU111は、文書類似度取得処
理を行う。この文書類似度取得処理においては、文書名
格納エリア1141に格納されている文書の文書ベクト
ル全ての相互間について文書類似度を算出する。
【0084】各文書相互間の文書類似度は、当該文書の
文書ベクトル間の角度に依存するコサインにより求め
る。即ち、文書類似度を求める文書をQ及びW、各文書
の文書ベクトルをそれぞれVq,Vw、両文書ベクトル
Vq,Vw間の角度をr、両嗜好ベクトルの内積をVq
・Vw、両文書ベクトルの大きさをそれぞれ|Vq|、
|Vw|とした場合、次の数式4により求まる。 [数式4] 文書類似度S’qw=COS(r) =(Vq・Vw)/(|Vq|×|Vw|)
【0085】この文書類似度S’qwの値は−1≦Tb
≦1までの値をとり、1に近いほど2つの文書ベクトル
Vq,Vwが互いに平行に近く、文書Q,Wの内容が似
ていると考えることができる。
【0086】算出された文書類似度は、文書の対と対応
させてRAM113の文書嗜好類似度格納エリア114
2及び記憶装置16の文書ベクトルデータベース166
に格納しする。
【0087】その後、CPU111は、文書類似度しき
い値格納エリア1144から文書類似度しきい値を取得
する(文書類似度範囲指定処理)。そして、構成する文
書どうしの文書類似度が、全て文書類似度しきい値以上
となっている類似文書グループを抽出し、類似文書グル
ープを構成する文書を、グループ別に選択文書格納エリ
ア1151に格納する(文書グループ抽出処理)。
【0088】更に、CPU111は、選択文書格納エリ
ア1152に格納される文書どうしの文書類似度をもと
に、表示する図の各文書間の線の太さを数式5により算
出し、文書類似度グラフ値格納エリア1143に文書の
対に対応させて格納する。 [数式5] 線の太さ=INT(最大線太さ×文書間の文書類似度/
最大類似度+0.5)
【0089】ただしINTは引数を越えない最大整数を
求める関数であり、最大線太さは、表示装置14におい
て表示される図の、予め決められた最大の線の太さであ
る。コンピュータ内では線の太さは正の整数によってド
ット単位で表されるので、本実施形態においては上記の
式により整数として求めることとしてある。上記数式5
において最大類似度とは、前記文書類似度取得処理にお
いて取得された文書類似度の最大値である。従って、上
述の数式5により求められる線分の太さは、文書類似度
とほぼ比例したものとなる。
【0090】そして、文書表示処理においては、CPU
111は、表示装置14に、文書格納エリア1141に
格納された文書名全てを1つの仮想円周上に等間隔に配
置し、更に、選択文書格納エリア1151に格納された
文書どうしの間を亘る線分を表示する。この線分は、文
書類似度グラフ値格納エリア1143に、文書対に対応
して格納された値の太さで表示する。尚、上記数式5に
より求められた線分の太さが負数となった場合には線分
を破線とし、破線の太さを上記数式5により求めた線分
の太さの絶対値として表示する。
【0091】また、表示装置14には、上述の類似ユー
ザーグループ抽出図とともに、文書類似度バーを表示す
る。この文書類似度バーは、途中に文書類似度を示す目
盛りが付されている垂直バーとこの垂直バーに重なって
表示される選択ポインタよりなっている。選択ポインタ
は、表示画面上でマウスポインタによりドラッグして文
書類似度バー上を移動させることができるようになって
いる。CPU111は、選択ポインタが移動されると、
ステップ53からの処理を繰り返し、この選択ポインタ
の新たな位置の文書類似度を取得して文書類似度しきい
値格納エリア1144に格納し、この文書類似度以上の
文書類似度を表す線分のみを表示した文書類似度表示グ
ラフを新たに表示する。
【0092】上記文書類似度しきい値格納エリア114
4に格納される初期値は−1となっており、最初に表示
される類似ユーザーグループ抽出図においては、全ての
文書が前記数式5により算出された太さの線分で結ばれ
て表示される。この線分の太さは、文書類似度の大きさ
とほぼ比例して表示され、文書全ての相互の文書類似度
の大小が一見して把握できる。そして、選択ポインタの
位置を移動させると、選択ポインタの位置から、文書類
似度しきい値が取得され、表示されている線分は文書類
似度がこのしきい値以上に相当する太さとなっている。
そして、この太さの線分全てを表示した場合に、そのう
ち完全グラフ(全てのノードが相互に結ばれているグラ
フ、ここでは、文書どうし全てが線分で結ばれているグ
ラフ)を構成する文書を抽出し、それらの文書相互を亘
る線分のみが表示される。
【0093】この様に、本実施形態では、ユーザーや文
書どうし全ての類似度を取得し、この類似度が全てしき
い値以上となっているユーザーや文書どうしからなる類
似グループを抽出し、類似グループを構成するユーザー
や文書どうしを線分で結んで表示する。従って、本実施
形態によると、一定の類似度・関連度を有するユーザー
や文書のみから構成されるグループを容易に把握するこ
とができ、仕事の割り当てや情報の配信におけるユーザ
ーや文書の分類、選択等を容易に行うことが可能であ
る。本実施形態によると、ユーザーや文書相互間の嗜好
類似度や文書類似度が線分の太さにより表示され、嗜好
類似度や文書類似度の大小を容易に視覚的に把握するこ
とができ、しきい値の変更の目安となる。
【0094】本実施形態によると、表示装置14に表示
される嗜好類似度バーや文書類似度バーの選択ポインタ
によってしきい値を変更し、抽出される類似グループを
構成するユーザーや文書を更に絞り込んだり広げたりを
容易に行うことができる。本実施形態によると、類似ユ
ーザーグループ抽出図や類似文書グループ抽出図を表示
させた状態のまましきい値を変更して類似ユーザーグル
ープ抽出図や類似文書グループ抽出図を再表示させるこ
とができ、一層ユーザーや文書の分類、選択等が容易で
ある。
【0095】尚、本発明は、上述の実施形態に限定され
るものではなく、本発明の趣旨を逸脱しない限りにおい
て適宜変更が可能である。上述の実施形態においては文
書処理装置としてコンピュータを用いているが、コンピ
ュータに限定されるものではなく、ワードプロセッサ等
であってもよい。上述の実施形態においてGP行列は、
各文書における処理重要語句の出現頻度(行列Ga)と
メンバー毎の過去の文書処理回数(行列Gb)、および
各メンバーの重要度(行列Gc)とから取得されている
が、メンバー毎の過去の文書処理回数(行列Ga)と各
文書における処理重要語句の出現頻度(行列Gb)のみ
により取得されてもよい。また、例えば、各文書の処理
時間や、他の文書作成に引用された件数、リンク付けさ
れている数等も加味して取得されてもよい。更に、GP
行列を上述の実施形態と同様に行列Ga〜行列Gc等の
行列の掛け合わせから取得する場合において、行列Ga
〜行列Gc等の各行列の要素はそれぞれ処理重要語句の
文書中の出現頻度や、メンバーが各文書を処理した回数
を反映した数値となっていればよく、直接出現頻度や処
理回数そのものを表していなくてもよい。
【0096】上述の実施形態においては行列Ga〜Gc
は過去の文書処理内容から取得されているが、ユーザー
が取得して行列データベース168に直接入力してもよ
い。上述の実施形態においては行列Ga〜Gcは所定期
間毎に書き換えられているが、文書処理を行う毎に、ま
たは所定回数の文書処理を行う毎等に書き換えてもよ
い。上述の文書処理装置においてGPベクトルを表示装
置に表示するGPベクトル表示手段を備え、ユーザーや
ユーザーメンバーの嗜好を視覚的に把握できるようにし
てもよい。この場合、GPベクトルを行列データベース
または専用のGPベクトルデータベースに経時順に格納
しておき、経時変化も把握できるようにしてもよい。
【0097】説明した実施形態では処理重要語句や処理
重要度を取得する手法として図4のフローチャートに従
った方法を1例にして説明したが、本発明でこの方法に
限られるものではなく、文書中から処理重要語句を抽出
する方法や、処理重要度の決定方法等については、公知
の各種方法により置き換えることが可能である。更に、
上述の文書処理装置において、文書嗜好ベクトルの類似
度の算出方法については、数式1により類似度を算出す
ることとしたが、この数式に限定されるものではなく、
文書嗜好ベクトル相互間の類似関係を表すことが可能で
あれば他の数式により類似度を算出することも可能であ
る。上述の文書処理装置において算出した類似度(文書
嗜好ベクトルの類似度)の表示は、類似度の操作者から
の入力により類似閾値を取得し、当該類似閾値よりも高
い類似度を備えた対象文書のみを表示させたり、類似度
の高いうちから10個の文書のみを表示させたりするこ
ともできる。また、類似度の高い順ではなく、あいうえ
お順等に表示された対象文書名とともに表示してもよ
い。更に、類似度表示は、操作者からの命令のあったと
きのみに表示させるようにしたり、表示装置には表示さ
せずに印刷させることとしてもよい。
【0098】上述の文書処理装置及び本発明の実施形態
は、日本語で作成された文書に限られるものではなく、
あらゆる言語で作成された文書を対象とすることが可能
である。その場合、対象となる文書が作成された言語用
の形態素解析アルゴリズム等を使用するといった、本発
明の構成には影響のない部分を変更するだけでよい。
【0099】なお、上述した、各装置、各部、各動作、
各処理等に対しては、それらを含む上位概念としての各
手段(〜手段)により、上記文書処理装置や上記実施形
態を構成することが可能である。例えば、「文書データ
ベース164から、各処理文書の処理回数を取得し(ス
テップ14)」との記載に対して文書の処理回数を記憶
する処理回数データベースを文書データベース164と
は別途に構成したり、「処理回数取得手段」を構成した
り、「抽出した候補語(句)の処理文書での出現頻度、
評価関数から、各候補語(句)の処理重要度f(x)を
取得する(ステップ123)との記載に対して、「処理
重要語句取得手段」を構成するようにしてもよい。同様
に、その他各種動作に対して「〜(動作)手段」等の上
位概念で実施形態を構成するようにしてもよい。
【0100】上述の実施形態においては、1つ1つの文
書及び一人一人のユーザーそれぞれどうしについての類
似の大小を表示したが、複数よりなる文書やユーザーど
うしについての類似の大小を取得し表示してもよい。
尚、対象が複数よりなるユーザーである場合、その嗜好
ベクトルは、GPベクトルとすることができる。また、
類似の大小を取得する対象はこれらに限られるものでは
なく、類似の大小を数値化することのできるものであれ
ばよく、データベースやエージェント、マルチメディア
コンテンツ、及びこれらの群等とすることもできる。更
に、特徴度は数値を用いて表されればよく、文書ベクト
ルや嗜好ベクトル等のベクトルの他、スカラー量等とす
ることができる。
【0101】上述の実施形態においては、嗜好類似度や
文書類似度は、数式2や数式4により算出することとし
たが、これらの数式に限定されるものではなく、嗜好ベ
クトル相互間の類似関係や文書ベクトル相互間の類似関
係を表すことが可能であれば他の数式により算出するこ
とも可能である。また、本実施形態では行列Ga、行列
Gb、行列Gcを掛け合わせたGP行列から各ユーザー
毎の嗜好ベクトルを取得したが、行列Gaと行列Gbの
みを掛け合わせた嗜好行列H=Ga・Gbから同様に各
ユーザーの嗜好ベクトルを取得してもよい。尚、GP行
列は嗜好行列Hに各ユーザーの重要度に基づき各要素を
ユーザー毎にスカラー倍したものなので、嗜好行列Hか
ら取得した嗜好ベクトルにより数式2に基づいて類似度
を算出した場合にも、上記実施形態と同一の値の類似度
が算出される。ユーザー毎の嗜好ベクトルの各要素に同
一の文書ベクトルの各要素を掛けた嗜好文書ベクトルを
取得し、嗜好文書ベクトルをもとに嗜好類似度を算出す
ることもできる。文書ベクトルの各要素に特定のユーザ
ーの嗜好ベクトルの各要素を掛けた嗜好文書ベクトルを
取得し、各文書の嗜好文書ベクトルをもとに、前記特定
のユーザーの嗜好を加味した場合の文書ベクトルの文書
類似度を算出することとしてもよい。
【0102】本実施形態において、類似ユーザーグルー
プ抽出図や類似文書グループ抽出図の線分の太さの算出
方法については、数式3や数式5により算出することと
したが、これらの数式に限定されるものではなく、嗜好
類似度や文書類似度の大小関係を表すことが可能であれ
ば他の数式により線分の太さを算出することも可能であ
る。例えば、次の数式6や数式7により求めることとし
てもよい。尚、数式6及び数式7において類似度とはユ
ーザー間の嗜好類似度、又は文書間の文書類似度をいう
ものとする。 [数式6] 線の太さ=INT(最大線太さ×|類似度|+0.5) [数式7] 線の太さ=INT(最大線太さ×(類似度+1)/2+
1) 尚、数式7は、全ての線の太さが正の値として求めら
れ、正負の値により表示を異ならせる必要がなくなる点
で優れている。
【0103】上述の実施形態においては、特徴類似度範
囲指定手段は表示装置14に表示される嗜好類似度バー
や文書類似度バーの選択ポインタの位置により、表示さ
れる線分の類似度の範囲の下限を取得したが、これに限
られるものではなく、例えば、キーボード等からの入力
により嗜好類似度や文書類似度の範囲を直接数値として
取得するようにしてもよい。また、嗜好類似度や文書類
似度の範囲の下限ではなく上限や範囲全体を取得するも
のとしたり、嗜好類似度や文書類似度ではなく線分の最
大太さ、類似グループを構成する文書やユーザーの数等
を指定するようにしてもよい。上述の実施形態において
は、特徴類似度範囲指定手段は類似ユーザーグループ抽
出図や類似文書グループ抽出図の表示時(対象表示時)
に、グループを構成するユーザーや文書相互の類似度の
範囲を取得したが、これに限られるものではなく、例え
ば、ユーザーグループ抽出図や文書グループ抽出図の表
示前のみまたは表示前と表示中の両方において、上記類
似度の範囲を取得するものとしてもよい。
【0104】ユーザーグループ抽出処理や文書グループ
抽出処理等の本発明のグループ抽出処理としては、ユー
ザーや文書等の対象により構成し得るグループを取得
し、そのグループ内の対象により得られる対全ての特徴
類似度が特徴類似度範囲指定手段により限定された特徴
類似度の範囲内に入るグループを検索し抽出して類似グ
ループとする手法や、対象を仮想円周上に配置し、特徴
類似度範囲指定手段により限定された特徴類似度の範囲
内の類似度を有する対象の対どうしを線分で結び、完全
グラフを構成する対象を検索し抽出してこの対象による
グループを類似グループとする手法等が挙げられる。
【0105】上述の実施形態においては類似ユーザーグ
ループ抽出図や類似文書グループ抽出図は表示装置14
に画面表示されるが、この画面表示に代えてまたは画面
表示とともに印刷装置15により印刷されるようにして
もよい。上述の実施形態においては選択された対象(類
似ユーザーグループを構成するユーザーや類似文書グル
ープを構成する文書)を線分で結ぶことにより、選択さ
れなかった対象(類似ユーザーグループを構成しないユ
ーザーや類似文書グループを構成しない文書)と識別可
能に表示したが、識別手法はこれに限られるものではな
く、例えば選択された対象と選択されなかった対象とを
色分け表示したり、選択された対象のみに下線や網掛け
表示をしたり、選択された対象のみを表示する等の手法
を採用することができる。類似ユーザーグループや類似
文書グループ等の類似グループが2つ以上抽出された場
合には、ユーザーや文書等の対象や、線分をグループ毎
に色分けしたり、グループ毎に別々に表示する等、各グ
ループを区別して認識可能とすることができる。この様
な例として、2つの類似ユーザーグループが抽出された
場合に、線分ををグループ毎に色分けした表示例を図2
2に示す。
【0106】上述の実施形態においては選択された対象
の表示時に嗜好類似度や文書類似度の大小が線分の太さ
により識別できるように表示されたが、線分の太さは全
て均一として選択された対象と選択されなかった対象の
識別のみができるようにしてもよい。また、嗜好類似度
や文書類似度の大小を識別可能に表示する場合にも、線
分の太さにるものに限られるものではなく、例えば、色
の濃さ等の差異により識別可能としてもよい。上述の実
施形態においては嗜好類似度や文書類似度の正負は線分
の種類により区別されているが、これに限られるもので
はなく、例えば色分け等により区別してもよい。
【0107】
【発明の効果】以上説明したように、本発明によれば、
一定の類似度・関連度を有するユーザーや文書のみから
構成されるグループを容易に把握することができ、仕事
の割り当てや情報の配信におけるユーザーや文書の分
類、選択等を容易に行うことが可能である。
【図面の簡単な説明】
【図1】本発明の類似グループ抽出装置の一実施形態を
適用する文書処理装置であり、本発明の類似グループ抽
出プログラムの一実施形態が記憶され且つ文書処理プロ
グラムが記憶された記憶媒体のこれらのプログラムが読
み取られるコンピュータの構成を表したブロック図であ
る。
【図2】図1の文書処理装置における行列Ga,Gb,
Gcを示す説明図である。
【図3】図1の文書処理装置による行列Ga,Gb書き
換え処理の動作を表したフローチャートである。
【図4】図1の文書処理装置による処理重要語句・処理
重要度取得処理の動作を表したフローチャートである。
【図5】図1の文書処理装置による嗜好文書ベクトル取
得処理の動作を示すフローチャートである。
【図6】図1の文書処理装置におけるGP行列からGP
ベクトルを算出する行程を概念的に説明する説明図であ
る。
【図7】図1の文書処理装置における文書ベクトルを嗜
好文書ベクトルにシフトさせた状態を概念的に説明する
説明図である。
【図8】図1の文書処理装置による類似度算出処理の動
作を示すフローチャートである。
【図9】本発明の類似グループ抽出装置が適用される文
書処理装置の構成の概要図である。
【図10】本発明の類似グループ抽出装置が適用される
文書処理装置の構成の概要図である。
【図11】本発明の類似グループ抽出装置が適用される
文書処理装置の構成を示す概要図である。
【図12】本発明の類似グループ抽出プログラムが記憶
された記憶媒体が適用される文書処理プログラムが記憶
された記憶媒体により実現される機能を示す概略図であ
る。
【図13】本発明の類似グループ抽出プログラムが記憶
された記憶媒体が適用される文書処理プログラムが記憶
された記憶媒体により実現される機能を示す概略図であ
る。
【図14】本発明の類似グループ抽出プログラムが記憶
された記憶媒体が適用される文書処理プログラムが記憶
された記憶媒体により実現される機能を示す概略図であ
る。
【図15】本発明の類似グループ抽出装置が適用される
文書処理装置であり、本発明の類似グループ抽出プログ
ラムの一実施形態が記憶され且つ文書処理プログラムが
記憶された記憶媒体のこれらのプログラムが読み取られ
りコンピュータの文書処理方法を示す概略図である。
【図16】本発明の類似グループ抽出装置の一実施形態
が適用された文書処理装置であり、本発明の類似グルー
プ抽出プログラムが記憶された記憶媒体の一実施形態が
適用された文書処理プログラムが記憶された記憶媒体の
該プログラムが読み取られたコンピュータの、構成を表
したブロック図である。
【図17】図16の実施形態により類似する嗜好を有す
るユーザーのグループを抽出するメインの動作の流れに
ついて示すフローチャートである。
【図18】図16の実施形態における嗜好ベクトル取得
処理の流れを示すフローチャートである。
【図19】図16の実施形態におけるGP行列から嗜好
ベクトルを算出する行程を概念的に説明する説明図であ
る。
【図20】図16の実施形態において表示装置に表示す
る類似ユーザーグループ抽出図及び嗜好類似度バーの一
例であり、(a)は嗜好類似度バーの選択ポインタが垂
直バーの嗜好類似度−1の位置に配置されている場合を
示し、(b)は嗜好類似度バーの選択ポインタが垂直バ
ーの嗜好類似度0.75の位置に配置されている場合を
示す図である。
【図21】図16の実施形態により類似する内容の文書
のグループを抽出するメインの動作の流れについて示す
フローチャートである。
【図22】本発明の他の実施形態において表示装置に表
示される類似ユーザーグループ抽出図の一例を示す図で
ある。
【符号の説明】
11 制御部 112 ROM 113 RAM 1131 対象文書格納エリア 1132 キーワード格納エリア 1134 文書ベクトル格納エリア 1135 行列格納エリア 1136 嗜好文書ベクトル格納エリア 1137 類似度格納エリア 1141 文書格納エリア 1142 文書類似度格納エリア 1143 文書類似度グラフ値格納エリア 1144 文書類似度しきい値格納エリア 1145 ユーザー格納エリア 1146 嗜好ベクトル格納エリア 1147 嗜好類似度格納エリア 1148 嗜好類似度グラフ値格納エリア 1149 嗜好類似度しきい値格納エリア 1151 選択文書格納エリア 1152 選択ユーザー格納エリア 12 キーボード 13 マウス 14 表示装置 15 印刷装置 16 記憶装置 161 仮名漢字変換辞書 162 プログラム格納部 164 文書データベース 165 重要語データベース 166 文書ベクトルデータベース 167 嗜好文書ベクトルデータベース 168 行列データベース 169 嗜好ベクトルデータベース 17 記憶媒体駆動装置 18 通信制御装置 19 入出力I/F 101 嗜好ベクトル取得手段 102 文書取得手段 103 文書ベクトル取得手段 104 シフト手段 105 GP行列取得手段 106 類似度算出手段 201 嗜好ベクトル取得機能 202 文書取得機能 203 文書ベクトル取得機能 204 シフト機能 205 GP行列取得機能 206 類似度算出機能

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数の対象それぞれの、共通する特徴に
    ついての大小を表す特徴度を取得する特徴度取得手段
    と、 前記特徴度取得手段により取得された前記特徴度をもと
    に、複数の前記対象間の特徴類似度を取得する特徴類似
    度取得手段と、 前記特徴類似度の範囲を指定する特徴類似度範囲指定手
    段と、 構成する全ての対象どうしの前記特徴類似度取得手段に
    より取得された前記特徴類似度がいずれも前記特徴類似
    度範囲指定手段により限定された特徴類似度内に入るグ
    ループを抽出するグループ抽出手段と、 前記グループ抽出手段により抽出された前記グループを
    構成する前記対象を、前記グループを構成しない前記対
    象と識別可能に表示する対象表示手段とを備えたことを
    特徴とする類似グループ抽出装置。
  2. 【請求項2】 前記対象表示手段は、前記グループ抽出
    手段に抽出された前記グループを構成する前記対象と前
    記グループを構成しない前記対象とを表示し、且つ前記
    グループを構成する対象間のみを亘る線分を表示するこ
    とを特徴とする請求項1に記載の類似グループ抽出装
    置。
  3. 【請求項3】 文書処理装置に用いられ、 前記特徴度取得手段が、複数のキーワードに対する重要
    度を要素値としてユーザーの嗜好を表す嗜好ベクトルを
    取得し、 前記特徴類似度取得手段は、前記嗜好ベクトルをもとに
    複数のユーザー相互間の嗜好類似度を取得することを特
    徴とする請求項1に記載の類似グループ抽出装置。
  4. 【請求項4】 文書処理装置に用いられ、 前記特徴度取得手段が、文書を特徴付ける文書ベクトル
    を取得し、 前記特徴類似度取得手段は、前記文書ベクトルをもとに
    複数の文書相互間の文書類似度を取得することを特徴と
    する請求項1に記載の類似グループ抽出装置。
  5. 【請求項5】 複数の対象それぞれの、共通する特徴に
    ついての大小を表す特徴度を取得する特徴度取得機能
    と、 前記特徴度取得機能により取得された前記特徴度をもと
    に、複数の前記対象間の特徴類似度を取得する特徴類似
    度取得機能と、 前記特徴類似度の範囲を指定する特徴類似度範囲指定機
    能と、 構成する全ての対象どうしの前記特徴類似度取得機能に
    より取得された前記特徴類似度がいずれも前記特徴類似
    度範囲指定機能により限定された特徴類似度内に入るグ
    ループを抽出するグループ抽出機能と、 前記グループ抽出手段により抽出された前記グループを
    構成する前記対象を、前記グループを構成しない前記対
    象と識別可能に表示する対象表示機能とをコンピュータ
    に実現させるためのコンピュータ読み取り可能な類似グ
    ループ抽出プログラムが記憶された記憶媒体。
JP10376855A 1998-12-25 1998-12-25 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体 Pending JP2000194725A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10376855A JP2000194725A (ja) 1998-12-25 1998-12-25 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10376855A JP2000194725A (ja) 1998-12-25 1998-12-25 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体

Publications (1)

Publication Number Publication Date
JP2000194725A true JP2000194725A (ja) 2000-07-14

Family

ID=18507845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10376855A Pending JP2000194725A (ja) 1998-12-25 1998-12-25 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体

Country Status (1)

Country Link
JP (1) JP2000194725A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002222204A (ja) * 2001-01-29 2002-08-09 Konami Co Ltd コミュニケーションプログラム、コミュニケーションプログラムを記録した媒体、コミュニケーション装置およびコミュニケーション方法
JP2008176758A (ja) * 2006-12-20 2008-07-31 Nec Corp グループ関係性表示システム、グループ関係性表示方法およびグループ関係性表示プログラム
KR100990098B1 (ko) * 2001-12-11 2010-10-29 소니 가부시키가이샤 데이터 처리 시스템, 데이터 처리 방법, 정보 처리 디바이스, 및 컴퓨터 판독가능 기록 매체
JP2011243066A (ja) * 2010-05-19 2011-12-01 Just Syst Corp 電子文書管理装置、表示方法、表示プログラムおよび記録媒体
JP2012079311A (ja) * 2010-09-30 2012-04-19 Nhn Corp 人脈に基づく検索結果提供システムおよび方法
JP2012099057A (ja) * 2010-11-05 2012-05-24 Nec Corp 情報提供装置、方法およびプログラム
JP2013068997A (ja) * 2011-09-20 2013-04-18 Dainippon Printing Co Ltd 交流支援サーバ装置、交流支援システム及び交流支援サーバプログラム
JP2015079464A (ja) * 2013-10-18 2015-04-23 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002222204A (ja) * 2001-01-29 2002-08-09 Konami Co Ltd コミュニケーションプログラム、コミュニケーションプログラムを記録した媒体、コミュニケーション装置およびコミュニケーション方法
KR100990098B1 (ko) * 2001-12-11 2010-10-29 소니 가부시키가이샤 데이터 처리 시스템, 데이터 처리 방법, 정보 처리 디바이스, 및 컴퓨터 판독가능 기록 매체
JP2008176758A (ja) * 2006-12-20 2008-07-31 Nec Corp グループ関係性表示システム、グループ関係性表示方法およびグループ関係性表示プログラム
JP2011243066A (ja) * 2010-05-19 2011-12-01 Just Syst Corp 電子文書管理装置、表示方法、表示プログラムおよび記録媒体
JP2012079311A (ja) * 2010-09-30 2012-04-19 Nhn Corp 人脈に基づく検索結果提供システムおよび方法
JP2012099057A (ja) * 2010-11-05 2012-05-24 Nec Corp 情報提供装置、方法およびプログラム
JP2013068997A (ja) * 2011-09-20 2013-04-18 Dainippon Printing Co Ltd 交流支援サーバ装置、交流支援システム及び交流支援サーバプログラム
JP2015079464A (ja) * 2013-10-18 2015-04-23 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム

Similar Documents

Publication Publication Date Title
US10614266B2 (en) Recognition and population of form fields in an electronic document
US7194471B1 (en) Document classification system and method for classifying a document according to contents of the document
JP6782858B2 (ja) 文献分類装置
JPH09153061A (ja) 文書検索装置および方法
US11733785B2 (en) Stylizing text by providing alternate glyphs
JP2011513810A (ja) 用語識別方法および装置
US20170322913A1 (en) Stylizing text by replacing glyph with alternate glyph
JPH1153394A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1145289A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2000194725A (ja) 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体
JP4005672B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2004110825A (ja) 自由形式注釈を強調するための方法及びシステム
JP4021525B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP2001216311A (ja) イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
US20020143809A1 (en) System and method for calculation using multi-field columns with hidden fields
JP4030624B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP4025391B2 (ja) 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法
US11900060B2 (en) Information processing device, information processing method, and computer program product
JPH1153398A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP3154992B2 (ja) 情報検索装置、及び情報検索プログラムが記憶された記憶媒体
JP2000194723A (ja) 類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4047417B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2000194724A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2000353163A (ja) データベース処理装置、及びデータベース処理のためのプログラムが記憶された記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081017

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090305